CN110852065A - 一种文档审核方法、装置、系统、设备及存储介质 - Google Patents
一种文档审核方法、装置、系统、设备及存储介质 Download PDFInfo
- Publication number
- CN110852065A CN110852065A CN201911082135.6A CN201911082135A CN110852065A CN 110852065 A CN110852065 A CN 110852065A CN 201911082135 A CN201911082135 A CN 201911082135A CN 110852065 A CN110852065 A CN 110852065A
- Authority
- CN
- China
- Prior art keywords
- document
- auditing
- audit
- object numbered
- rule
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000010801 machine learning Methods 0.000 claims abstract description 81
- 238000004458 analytical method Methods 0.000 claims abstract description 31
- 238000012550 audit Methods 0.000 claims description 152
- 238000012549 training Methods 0.000 claims description 27
- 238000012553 document review Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 8
- 230000000694 effects Effects 0.000 abstract description 7
- 238000010586 diagram Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 11
- 238000012545 processing Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 230000003287 optical effect Effects 0.000 description 6
- 238000012552 review Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 5
- 238000007726 management method Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000012015 optical character recognition Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000010979 ruby Substances 0.000 description 1
- 229910001750 ruby Inorganic materials 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明实施例公开了一种文档审核方法、装置、系统、设备及存储介质。其中,方法包括:获取文档解析组件发送的对象简谱格式文档,根据对象简谱格式文档的业务场景,获取与对象简谱格式文档匹配的预设机器学习模型和文档审核规则;通过预设机器学习模型提取对象简谱格式文档中的关键信息;通过规则引擎根据文档审核规则和关键信息,生成文档审核结果发送至网页组件。本发明实施例可以根据业务场景获取匹配的预设机器学习模型和文档审核规则,可以通过预设机器学习模型准确提取对象简谱格式文档中的关键信息,然后通过规则引擎,根据文档审核规则和关键信息进行文档审核,从而满足不同业务场景下的文档审核需求,提升文档审核效果和文档审核效率。
Description
技术领域
本发明实施例涉及文档处理技术,尤其涉及一种文档审核方法、装置、系统、设备及存储介质。
背景技术
文档审核是常见的工作场景。各种不同类型的文档都有相关的审核标准和流程,只有合规的文档才能进入下一步流程。目前大部分文档审核的工作都是纯人力进行,不仅效率比较低,而且由于工作枯燥繁重,可能会遗漏一些信息,导致风险。
现有技术在文档审核的一些环节上引入了自动化方案,能够在某个环节上进行一定的辅助工作,减少人工成本及压力。例如,文档审核流程包括:文档解析、信息抽取以及文档审核等环节。现有技术中的文档审核系统基于关键字查找、文本匹配、正则表达式等传统技术进行信息抽取,从而在文档审核的信息抽取环节上引入自动化方案。
现有技术的缺陷在于,基于关键字查找、文本匹配、正则表达式等传统技术进行信息抽取,往往由于实际业务预测样本文本表述丰富等原因,导致信息抽取功能效果较差,直接影响后续各个环节。同时,由于领域的特殊性和文档类别的差异性,现有技术中的文档审核系统往往只能处理具体某个领域中某种文档的某个场景。不同场景间,文档审核系统差异较大,无法扩展。针对新的场景往往需要从头开发,已有系统复用较少,开发周期较长。
发明内容
本发明实施例提供一种文档审核方法、装置、系统、设备及存储介质,以优化现有的文档审核方法,满足不同业务场景下的文档审核需求,提升文档审核效果和文档审核效率。
第一方面,本发明实施例提供了一种文档审核方法,包括:
获取文档解析组件发送的对象简谱格式文档,根据对象简谱格式文档的业务场景,获取与对象简谱格式文档匹配的预设机器学习模型和文档审核规则;
通过预设机器学习模型,提取对象简谱格式文档中的关键信息;
通过规则引擎,根据文档审核规则和关键信息,生成文档审核结果发送至网页组件。
第二方面,本发明实施例还提供了一种文档审核装置,包括:
文档获取模块,用于获取文档解析组件发送的对象简谱格式文档,根据对象简谱格式文档的业务场景,获取与对象简谱格式文档匹配的预设机器学习模型和文档审核规则;
关键信息提取模块,用于通过预设机器学习模型,提取对象简谱格式文档中的关键信息;
审核结果生成模块,用于通过规则引擎,根据文档审核规则和关键信息,生成文档审核结果发送至网页组件。
第三方面,本发明实施例还提供了一种文档审核系统,包括:
网页组件、文档解析组件以及文档审核组件;
其中,网页组件,用于通过预设的接口获取用户输入的待审核文档,在操作界面中显示待审核文档;将待审核文档发送至文档解析组件;获取文档审核组件发送的文档审核结果,根据文档审核结果调整操作界面中的待审核文档的显示形式;
文档解析组件,用于获取网页组件发送的待审核文档,判断待审核文档的文档类型是否为纯文本文档;若是,则将待审核文档转换为对象简谱格式文档,并将对象简谱格式文档发送至文档审核组件;若否,则根据待审核文档的文档类型,提取待审核文档的纯文本信息,生成与待审核文档匹配的目标纯文本文档,并将目标纯文本文档转换为对象简谱格式文档,将对象简谱格式文档发送至文档审核组件;
文档审核组件,用于执行如本发明实施例所述的文档审核方法。
第四方面,本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如本发明实施例所述的文档审核方法。
第五方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如本发明实施例所述的文档审核方法。
本发明实施例的技术方案,通过网页组件获取用户输入的待审核文档,在操作界面中显示待审核文档,将待审核文档发送至文档解析组件;文档解析组件获取网页组件发送的待审核文档,判断待审核文档的文档类型是否为纯文本文档;若是,则将待审核文档转换为对象简谱格式文档,并将对象简谱格式文档发送至文档审核组件;若否,则根据待审核文档的文档类型,提取待审核文档的纯文本信息,生成与待审核文档匹配的目标纯文本文档,并将目标纯文本文档转换为对象简谱格式文档,将对象简谱格式文档发送至文档审核组件;文档审核组件根据对象简谱格式文档的业务场景,获取与对象简谱格式文档匹配的预设机器学习模型和文档审核规则,然后通过预设机器学习模型,提取对象简谱格式文档中的关键信息,通过规则引擎,根据文档审核规则和关键信息,生成文档审核结果发送至网页组件;网页组件根据文档审核结果调整操作界面中的待审核文档的显示形式,可以通过网页组件与用户进行交互,方便用户使用整个文档审核系统,可以通过文档解析组件根据待审核文档的文档类型,统一将待审核文档转换为对象简谱格式文档,可以通过文档审核组件根据业务场景,获取匹配的预设机器学习模型和文档审核规则,可以通过预设机器学习模型,准确提取对象简谱格式文档中的关键信息,然后通过规则引擎,根据文档审核规则和关键信息进行文档审核,从而满足不同业务场景下的文档审核需求,提升文档审核效果和文档审核效率。
附图说明
图1为本发明实施例一提供的一种文档审核方法的流程图;
图2为本发明实施例二提供的一种文档审核方法的流程图;
图3为本发明实施例三提供的一种文档审核装置的结构示意图;
图4a为本发明实施例四提供的一种文档审核系统的结构示意图;
图4b为本发明实施例四提供的一种网页组件的工作流程的示意图;
图4c为本发明实施例四提供的一种文档解析组件的工作流程的示意图;
图4d为本发明实施例四提供的一种文档审核组件的工作流程的示意图;
图5为本发明实施例五提供的一种计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。
另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
实施例一
图1为本发明实施例一提供的一种文档审核方法的流程图。本实施例可适用于对文档进行审核的情况,该方法可以由本发明实施例提供的文档审核装置来执行,该装置可采用软件和/或硬件的方式实现,并一般可集成在计算机设备中的文档审核组件中。
如图1所示,本发明实施例的方法具体包括:
步骤101、获取文档解析组件发送的对象简谱格式文档,根据对象简谱格式文档的业务场景,获取与对象简谱格式文档匹配的预设机器学习模型和文档审核规则。
其中,网页组件通过预设的接口获取用户输入的待审核文档,在操作界面中显示待审核文档,将待审核文档发送至文档解析组件。文档解析组件获取网页组件发送的待审核文档,判断待审核文档的文档类型是否为纯文本文档;若是,则将待审核文档转换为对象简谱格式文档,并将对象简谱格式文档发送至文档审核组件;若否,则根据待审核文档的文档类型,提取待审核文档的纯文本信息,生成与待审核文档匹配的目标纯文本文档,并将目标纯文本文档转换为对象简谱格式文档,将对象简谱格式文档发送至文档审核组件。
待审核文档的业务场景即为对象简谱格式文档的业务场景。可选的,待审核文档的业务场景可以为合同文书、招投标书、保险条款、或者证券公告。
可选的,待审核文档的文档类型可以为Word文档、PDF文档、PowerPoint文档、Excel文档或者纯文本文档。文档解析组件可以根据待审核文档的文档类型,提取待审核文档的纯文本信息,生成与待审核文档匹配的目标纯文本文档,然后按照对象简谱(JavaScript Object Notation,JSON)数据格式将纯文本信息转换成对应的JSON格式的字符串,从而将目标纯文本文档转换为JSON格式文档,方便后续统一处理。
可选的,文档解析组件如果确定待审核文档的文档类型为Word文档,则通过Word解析器提取待审核文档的纯文本信息,生成与待审核文档匹配的目标纯文本文档,并将目标纯文本文档转换为JSON格式文档;文档解析组件如果确定待审核文档的文档类型为PDF文档,则通过PDF解析器提取待审核文档的纯文本信息,生成与待审核文档匹配的目标纯文本文档,并将目标纯文本文档转换为JSON格式文档;文档解析组件如果确定待审核文档的文档类型为图片,则通过光学字符识别(Optical Character Recognition,OCR)工具提取待审核文档的纯文本信息,生成与待审核文档匹配的目标纯文本文档,并将目标纯文本文档转换为JSON格式文档。
预设机器学习模型的输入为对象简谱格式文档。预设机器学习模型的输出为对象简谱格式文档中的关键信息。
可选的,预先根据与各业务场景对应的训练样本集,训练样本集中包括与业务场景对应的设定数量的文档;使用训练样本集合对机器学习模型进行训练,得到与各业务场景匹配的预设机器学习模型。
文档审核规则是包括:用于确定关键信息中的审核点的规则、与审核点匹配的审核逻辑。
可选的,预先获取网页组件发送的规则配置信息,根据规则配置信息配置与各业务场景匹配的文档审核规则。
可选的,根据对象简谱格式文档的业务场景,获取与对象简谱格式文档匹配的预设机器学习模型和文档审核规则,可以包括:在与各业务场景匹配的预设机器学习模型中,获取与对象简谱格式文档的业务场景匹配的预设机器学习模型;在与各业务场景匹配的文档审核规则中,获取与对象简谱格式文档的业务场景匹配的文档审核规则。
步骤102、通过预设机器学习模型,提取对象简谱格式文档中的关键信息。
可选的,将对象简谱格式文档输入至预设的图像分类模型中,预设机器学习模型对对象简谱格式文档中的信息进行分析,输出对象简谱格式文档中的关键信息。
在一个具体实例中,待审核文档的业务场景为合同文书,即对象简谱格式文档的业务场景为合同文书。根据对象简谱格式文档的业务场景,获取与对象简谱格式文档匹配的预设机器学习模型,即获取用于提取合同文书的关键信息的预设机器学习模型。合同文书的关键信息可以包括甲方、乙方、采购物品名称、采购物品数量、采购物品单价、合同总金额、日期等信息。
步骤103、通过规则引擎,根据文档审核规则和关键信息,生成文档审核结果发送至网页组件。
其中,规则引擎是用于根据文档审核规则和关键信息做出业务决策,生成文档审核结果的组件。
可选的,通过规则引擎,根据文档审核规则和所述关键信息,生成文档审核结果,可以包括:通过规则引擎,根据文档审核规则确定关键信息中的审核点以及与审核点匹配的审核逻辑;根据审核逻辑对审核点进行审核,生成文档审核结果发送至网页组件。
在一个具体实例中,待审核文档的业务场景为合同文书,即对象简谱格式文档的业务场景为合同文书。对象简谱格式文档中的关键信息包括甲方、乙方、采购物品名称、采购物品数量、采购物品单价、合同总金额、日期。通过规则引擎,根据文档审核规则确定关键信息中的审核点:采购物品单价、乙方、以及合同总金额,根据文档审核规则确定与采购物品单价匹配的审核逻辑、与乙方匹配的审核逻辑、以及与合同总金额匹配的审核逻辑。与采购物品单价匹配的审核逻辑为:判断采购物品单价是否在预设单价阈值范围内。与乙方匹配的审核逻辑为:判断乙方是否具备相关资质。与合同总金额匹配的审核逻辑为:合同总金额是否超过预算。
可选的,文档审核结果为审核通过或者审核未通过。如果存在未通过审核的审核点,将确定文档审核结果为审核未通过;如果不存在未通过审核的审核点,将确定文档审核结果为审核通过。网页组件获取文档审核组件发送的文档审核结果,在操作界面中的待审核文档上显示文档审核结果“审核通过”或者“审核未通过”。
可选的,文档审核结果可以为未通过审核的审核点的提示信息。提示信息用于提示审核点未通过审核,以及审核点未通过审核的原因。网页组件获取文档审核组件发送的文档审核结果,在操作界面中的待审核文档上显示文档审核结果“审核未通过”,对与未通过审核的审核点对应的文档信息进行高亮显示,并显示审核点未通过审核的原因。
可选的,如果文档审核结果为审核未通过,则将待审核文档的审核模式设置为人工审核,请求通过人工对待审核文档进行审核,标注待审核文档中的未通过审核的审核点。
可选的,文档审核组件还可以将生成文档审核结果发送至其他业务处理组件。
本发明实施例提供了一种文档审核方法,通过根据对象简谱格式文档的业务场景,获取与对象简谱格式文档匹配的预设机器学习模型和文档审核规则;然后通过预设机器学习模型,提取对象简谱格式文档中的关键信息,通过规则引擎,根据文档审核规则和关键信息,生成文档审核结果发送至网页组件,可以根据业务场景,获取匹配的预设机器学习模型和文档审核规则,可以通过预设机器学习模型,准确提取对象简谱格式文档中的关键信息,然后通过规则引擎,根据文档审核规则和关键信息进行文档审核,从而满足不同业务场景下的文档审核需求,提升文档审核效果和文档审核效率。
实施例二
图2为本发明实施例二提供的一种文档审核方法的流程图。本发明实施例可以与上述一个或者多个实施例中各个可选方案结合,在本发明实施例中,可以还包括:根据与各业务场景对应的训练样本集,训练样本集中包括与业务场景对应的设定数量的文档;使用训练样本集合对机器学习模型进行训练,得到与各业务场景匹配的预设机器学习模型。
以及,根据对象简谱格式文档的业务场景,获取与对象简谱格式文档匹配的预设机器学习模型和文档审核规则,可以包括:在与各业务场景匹配的预设机器学习模型中,获取与对象简谱格式文档的业务场景匹配的预设机器学习模型。
以及,可以还包括:获取网页组件发送的规则配置信息,根据规则配置信息配置与各业务场景匹配的文档审核规则。
以及,根据对象简谱格式文档的业务场景,获取与对象简谱格式文档匹配的预设机器学习模型和文档审核规则,可以包括:在与各业务场景匹配的文档审核规则中,获取与对象简谱格式文档的业务场景匹配的文档审核规则。
以及,通过规则引擎,根据文档审核规则和所述关键信息,生成文档审核结果,可以包括:通过规则引擎,根据文档审核规则确定关键信息中的审核点以及与审核点匹配的审核逻辑;根据审核逻辑对审核点进行审核,生成文档审核结果。
如图2所示,本发明实施例的方法具体包括:
步骤201、根据与各业务场景对应的训练样本集,训练样本集中包括与业务场景对应的设定数量的文档。
其中,预先采集与各业务场景对应的设定数量的文档,并将文档保存至各业务场景对应的训练样本集合中。设定数量可以根据业务需求设置。例如,针对每一类业务场景,采集与业务场景对应的1000个文档,并将采集的1000个文档保存至业务场景对应的训练样本集合中。
步骤202、使用训练样本集合对机器学习模型进行训练,得到与各业务场景匹配的预设机器学习模型。
其中,使用与各业务场景对应的训练样本集合对机器学习模型进行训练,得到与各业务场景匹配的预设机器学习模型。预设机器学习模型用于接收对象简谱格式文档,输出对象简谱格式文档中的关键信息。
可选的,预先设置不同业务场景下的待审核文档的关键信息。
步骤203、获取网页组件发送的规则配置信息,根据规则配置信息配置与各业务场景匹配的文档审核规则。
其中,用户可以在操作界面上输入规则配置信息。网页组件通过预设的接口获取用户输入的规则配置信息,并将规则配置信息发送至文档审核组件。
规则配置信息用于对各业务场景匹配的文档审核规则进行配置。规则配置信息可以包括审核点信息和与审核点匹配的审核逻辑信息。文档审核组件根据规则配置信息,可以配置与各业务场景匹配的用于确定关键信息中的审核点的规则、与审核点匹配的审核逻辑。
用户可以通过在操作界面上输入规则配置信息,设置不同业务场景下的待审核文档的审核点,以及与审核点匹配的审核逻辑。与审核点匹配的审核逻辑可以为枚举、布尔、数值、文本、时间等多种类型数据的判断逻辑,可以为与、或、非等多种判断逻辑,可以为基于已有审核点配置的复杂审核点,还可以为计算公式。
步骤204、获取文档解析组件发送的对象简谱格式文档,在与各业务场景匹配的预设机器学习模型中,获取与对象简谱格式文档的业务场景匹配的预设机器学习模型。
步骤205、在与各业务场景匹配的文档审核规则中,获取与对象简谱格式文档的业务场景匹配的文档审核规则。
步骤206、通过预设机器学习模型,提取对象简谱格式文档中的关键信息。
步骤207、通过规则引擎,根据文档审核规则确定关键信息中的审核点以及与审核点匹配的审核逻辑。
其中,通过规则引擎,根据文档审核规则确定关键信息中的每一个审核点以及与各审核点匹配的审核逻辑。
步骤208、根据审核逻辑对审核点进行审核,生成文档审核结果发送至网页组件。
其中,根据与各审核点匹配的审核逻辑,对各审核点进行审核。根据各审核点的审核结果,生成文档审核结果发送至网页组件。
可选的,如果存在未通过审核的审核点,将确定文档审核结果为审核未通过;如果不存在未通过审核的审核点,将确定文档审核结果为审核通过。
可选的,如果存在未通过审核的审核点,则生成未通过审核的审核点的提示信息,将未通过审核的审核点的提示信息作为文档审核结果发送至网页组件。提示信息用于提示审核点未通过审核,以及审核点未通过审核的原因。
本发明实施例提供了一种文档审核方法,通过使用训练样本集合对机器学习模型进行训练,得到与各业务场景匹配的预设机器学习模型,通过获取网页组件发送的规则配置信息,根据规则配置信息配置与各业务场景匹配的文档审核规则,然后在与各业务场景匹配的预设机器学习模型和文档审核规则中,获取与对象简谱格式文档的业务场景匹配的预设机器学习模型和文档审核规则,可以根据业务场景,获取匹配的预设机器学习模型和文档审核规则,可以通过预设机器学习模型,准确提取对象简谱格式文档中的关键信息,可以根据文档审核规则确定关键信息中的审核点以及与审核点匹配的审核逻辑,并根据审核逻辑对审核点进行审核,生成文档审核结果,从而满足不同业务场景下的文档审核需求。
实施例三
图3为本发明实施例三提供的一种文档审核装置的结构示意图。如图3所示,所述装置可以配置于计算机设备中的文档审核组件中,包括:文档获取模块301、关键信息提取模块302以及审核结果生成模块303。
其中,文档获取模块301,用于获取文档解析组件发送的对象简谱格式文档,根据对象简谱格式文档的业务场景,获取与对象简谱格式文档匹配的预设机器学习模型和文档审核规则;关键信息提取模块302,用于通过预设机器学习模型,提取对象简谱格式文档中的关键信息;审核结果生成模块303,用于通过规则引擎,根据文档审核规则和关键信息,生成文档审核结果发送至网页组件。
本发明实施例提供了一种文档审核装置,通过根据对象简谱格式文档的业务场景,获取与对象简谱格式文档匹配的预设机器学习模型和文档审核规则;然后通过预设机器学习模型,提取对象简谱格式文档中的关键信息,通过规则引擎,根据文档审核规则和关键信息,生成文档审核结果发送至网页组件,可以根据业务场景,获取匹配的预设机器学习模型和文档审核规则,可以通过预设机器学习模型,准确提取对象简谱格式文档中的关键信息,然后通过规则引擎,根据文档审核规则和关键信息进行文档审核,从而满足不同业务场景下的文档审核需求,提升文档审核效果和文档审核效率。
在上述各实施例的基础上,可以还包括:样本集获取模块,用于根据与各业务场景对应的训练样本集,训练样本集中包括与业务场景对应的设定数量的文档;模型训练模块,用于使用训练样本集合对机器学习模型进行训练,得到与各业务场景匹配的预设机器学习模型。
在上述各实施例的基础上,文档获取模块301可以包括:模型获取单元,用于在与各业务场景匹配的预设机器学习模型中,获取与对象简谱格式文档的业务场景匹配的预设机器学习模型。
在上述各实施例的基础上,可以还包括:规则配置模块,用于获取网页组件发送的规则配置信息,根据规则配置信息配置与各业务场景匹配的文档审核规则。
在上述各实施例的基础上,文档获取模块301可以包括:规则获取单元,用于在与各业务场景匹配的文档审核规则中,获取与对象简谱格式文档的业务场景匹配的文档审核规则。
在上述各实施例的基础上,审核结果生成模块303可以包括:通过规则引擎,根据文档审核规则确定关键信息中的审核点以及与审核点匹配的审核逻辑;根据审核逻辑对审核点进行审核,生成文档审核结果。
上述文档审核装置可执行本发明任意实施例所提供的文档审核方法,具备执行文档审核方法相应的功能模块和有益效果。
实施例四
图4a为本发明实施例四提供的一种文档审核系统的结构示意图。如图4a所示,该系统具体包括:网页组件401、文档解析组件402以及文档审核组件403。
其中,网页组件401,用于通过预设的接口获取用户输入的待审核文档,在操作界面中显示待审核文档;将待审核文档发送至文档解析组件402;获取文档审核组件403发送的文档审核结果,根据文档审核结果调整操作界面中的待审核文档的显示形式。
文档解析组件402,用于获取网页组件401发送的待审核文档,判断待审核文档的文档类型是否为纯文本文档;若是,则将待审核文档转换为对象简谱格式文档,并将对象简谱格式文档发送至文档审核组件403;若否,则根据待审核文档的文档类型,提取待审核文档的纯文本信息,生成与待审核文档匹配的目标纯文本文档,并将目标纯文本文档转换为对象简谱格式文档,将对象简谱格式文档发送至文档审核组件403。
文档审核组件403,用于获取文档解析组件402发送的对象简谱格式文档,根据对象简谱格式文档的业务场景,获取与对象简谱格式文档匹配的预设机器学习模型和文档审核规则;通过预设机器学习模型,提取对象简谱格式文档中的关键信息;通过规则引擎,根据文档审核规则和关键信息,生成文档审核结果发送至网页组件401。
示例性的,图4b为本发明实施例四提供的一种网页组件的示意图。网页组件的主要工作是提供操作界面及对外服务接口,方便用户使用整个文档审核系统。网页组件使用前后端分离设计,依照功能主要分为前端的操作界面和后端的对外服务接口。用户可以通过在操作界面上进行操作,使用文档审核系统的所有功能。对外服务接口提供了所有功能的接口,方便操作界面及外部系统进行功能调用。通过文档解析组件、文档审核组件、网页组件提供操作界面及对外服务接口,实现文档审核系统的文档审阅和系统管理。文档审阅指的是用户上传一份待审核文档,文档审核系统对待审核文档进行处理,提取出待审核文档的关键信息,并根据规则引擎配置的审核点,对待审核文档中的未通过审核的审核点进行高亮显示,并给出未通过审核的审核点的提示信息。系统管理指的是对文档审核系统基本功能的设置,包括:用户管理,组件权限的管理,文档类型的设置,审核点配置等多种系统管理配置功能。
示例性的,图4c为本发明实施例四提供的一种文档解析组件的工作流程的示意图。文档解析组件判断待审核文档的文档类型是否为纯文本文档。如果确定待审核文档的文档类型为Word文档,则通过Word解析器提取待审核文档的纯文本信息,生成与待审核文档匹配的目标纯文本文档,并将目标纯文本文档转换为JSON格式文档;如果确定待审核文档的文档类型为PDF文档,则通过PDF解析器提取待审核文档的纯文本信息,生成与待审核文档匹配的目标纯文本文档,并将目标纯文本文档转换为JSON格式文档;如果确定待审核文档的文档类型为图片,则通过OCR工具提取待审核文档的纯文本信息,生成与待审核文档匹配的目标纯文本文档,并将目标纯文本文档转换为JSON格式文档;如果确定待审核文档的文档类型为纯文本文档,则将待审核文档转换为JSON格式文档。
不同类型的文档,处理方式不同,使用的技术也不一样。例如,PDF文档,由于PDF格式的特殊性,需要通过PDF解析器对PDF文档进行深入的分析,包括段落分析、版面还原、表格识别等功能和操作,将一份PDF文档转换成纯文本文档,以及包含位置、段落、表格等信息的结构化信息。下游系统可以根据需求,获取结构化信息,并使用结构化信息中各种不同类型的数据进行相关的任务处理。Word文档由于本身就属于结构化文本,处理起来相对容易。图片形式的文档,需要将图片经过OCR处理,提取图像中的文字。纯文本格式文件不需要处理。
示例性的,图4d为本发明实施例四提供的一种文档审核组件的工作流程的示意图。文档审核组件通过预设机器学习模型,提取对象简谱格式文档中的关键信息,然后通过规则引擎,根据文档审核规则确定关键信息中的审核点以及与审核点匹配的审核逻辑,之后再通过规则引擎,根据审核逻辑对审核点进行审核,生成文档审核结果。文档审核组件可以获取网页组件发送的规则配置信息,根据规则配置信息配置与各业务场景匹配的文档审核规则。
本发明实施例提供了一种文档审核系统,通过网页组件获取用户输入的待审核文档,在操作界面中显示待审核文档,将待审核文档发送至文档解析组件;文档解析组件获取网页组件发送的待审核文档,判断待审核文档的文档类型是否为纯文本文档;若是,则将待审核文档转换为对象简谱格式文档,并将对象简谱格式文档发送至文档审核组件;若否,则根据待审核文档的文档类型,提取待审核文档的纯文本信息,生成与待审核文档匹配的目标纯文本文档,并将目标纯文本文档转换为对象简谱格式文档,将对象简谱格式文档发送至文档审核组件;文档审核组件根据对象简谱格式文档的业务场景,获取与对象简谱格式文档匹配的预设机器学习模型和文档审核规则,然后通过预设机器学习模型,提取对象简谱格式文档中的关键信息,通过规则引擎,根据文档审核规则和关键信息,生成文档审核结果发送至网页组件;网页组件根据文档审核结果调整操作界面中的待审核文档的显示形式,可以通过网页组件与用户进行交互,方便用户使用整个文档审核系统,可以通过文档解析组件根据待审核文档的文档类型,统一将待审核文档转换为对象简谱格式文档,可以通过文档审核组件根据业务场景,获取匹配的预设机器学习模型和文档审核规则,可以通过预设机器学习模型,准确提取对象简谱格式文档中的关键信息,然后通过规则引擎,根据文档审核规则和关键信息进行文档审核,从而满足不同业务场景下的文档审核需求,提升文档审核效果和文档审核效率。
实施例五
图5为本发明实施例五提供的一种计算机设备的结构示意图。图5示出了适于用来实现本发明实施方式的示例性计算机设备12的框图。图5显示的计算机设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,计算机设备12以通用计算机设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器16,存储器28,连接不同系统组件(包括存储器28和处理器16)的总线18。处理器16包括但不限于AI处理器。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图5中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
计算机设备12的处理器16通过运行存储在存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的文档审核方法。该方法具体可以包括:获取文档解析组件发送的对象简谱格式文档,根据对象简谱格式文档的业务场景,获取与对象简谱格式文档匹配的预设机器学习模型和文档审核规则;通过预设机器学习模型,提取对象简谱格式文档中的关键信息;通过规则引擎,根据文档审核规则和关键信息,生成文档审核结果发送至网页组件。
实施例六
本发明实施例六还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明实施例所提供的文档审核方法。该方法具体可以包括:获取文档解析组件发送的对象简谱格式文档,根据对象简谱格式文档的业务场景,获取与对象简谱格式文档匹配的预设机器学习模型和文档审核规则;通过预设机器学习模型,提取对象简谱格式文档中的关键信息;通过规则引擎,根据文档审核规则和关键信息,生成文档审核结果发送至网页组件。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++、Ruby、Go,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言,以及AI算法的计算机语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (10)
1.一种文档审核方法,其特征在于,包括:
获取文档解析组件发送的对象简谱格式文档,根据所述对象简谱格式文档的业务场景,获取与所述对象简谱格式文档匹配的预设机器学习模型和文档审核规则;
通过所述预设机器学习模型,提取所述对象简谱格式文档中的关键信息;
通过规则引擎,根据所述文档审核规则和所述关键信息,生成文档审核结果发送至网页组件。
2.根据权利要求1所述的方法,其特征在于,还包括:
根据与各业务场景对应的训练样本集,所述训练样本集中包括与业务场景对应的设定数量的文档;
使用所述训练样本集合对机器学习模型进行训练,得到与各业务场景匹配的预设机器学习模型。
3.根据权利要求2所述的方法,其特征在于,根据所述对象简谱格式文档的业务场景,获取与所述对象简谱格式文档匹配的预设机器学习模型和文档审核规则,包括:
在与各业务场景匹配的预设机器学习模型中,获取与所述对象简谱格式文档的业务场景匹配的预设机器学习模型。
4.根据权利要求1所述的方法,其特征在于,还包括:
获取所述网页组件发送的规则配置信息,根据所述规则配置信息配置与各业务场景匹配的文档审核规则。
5.根据权利要求4所述的方法,其特征在于,根据所述对象简谱格式文档的业务场景,获取与所述对象简谱格式文档匹配的预设机器学习模型和文档审核规则,包括:
在与各业务场景匹配的文档审核规则中,获取与所述对象简谱格式文档的业务场景匹配的文档审核规则。
6.根据权利要求1所述的方法,其特征在于,通过规则引擎,根据所述文档审核规则和所述关键信息,生成文档审核结果,包括:
通过规则引擎,根据所述文档审核规则确定所述关键信息中的审核点以及与所述审核点匹配的审核逻辑;
根据所述审核逻辑对所述审核点进行审核,生成文档审核结果。
7.一种文档审核装置,其特征在于,包括:
文档获取模块,用于获取文档解析组件发送的对象简谱格式文档,根据所述对象简谱格式文档的业务场景,获取与所述对象简谱格式文档匹配的预设机器学习模型和文档审核规则;
关键信息提取模块,用于通过所述预设机器学习模型,提取所述对象简谱格式文档中的关键信息;
审核结果生成模块,用于通过规则引擎,根据所述文档审核规则和所述关键信息,生成文档审核结果发送至网页组件。
8.一种文档审核系统,其特征在于,包括:
网页组件、文档解析组件以及文档审核组件;
其中,所述网页组件,用于通过预设的接口获取用户输入的待审核文档,在操作界面中显示所述待审核文档;将所述待审核文档发送至所述文档解析组件;获取所述文档审核组件发送的文档审核结果,根据所述文档审核结果调整所述操作界面中的所述待审核文档的显示形式;
所述文档解析组件,用于获取所述网页组件发送的待审核文档,判断所述待审核文档的文档类型是否为纯文本文档;若是,则将所述待审核文档转换为对象简谱格式文档,并将所述对象简谱格式文档发送至所述文档审核组件;若否,则根据所述待审核文档的文档类型,提取所述待审核文档的纯文本信息,生成与所述待审核文档匹配的目标纯文本文档,并将所述目标纯文本文档转换为对象简谱格式文档,将所述对象简谱格式文档发送至所述文档审核组件;
所述文档审核组件,用于执行如权利要求1-6中任一所述的文档审核方法。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-6中任一所述的文档审核方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-6中任一所述的文档审核方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911082135.6A CN110852065B (zh) | 2019-11-07 | 2019-11-07 | 一种文档审核方法、装置、系统、设备及存储介质 |
PCT/CN2020/101799 WO2021088400A1 (zh) | 2019-11-07 | 2020-07-14 | 一种文档审核方法、装置、系统、设备及存储介质 |
JP2022522664A JP2023506362A (ja) | 2019-11-07 | 2020-07-14 | 文書監査方法、装置、システム、デバイス及び記憶媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911082135.6A CN110852065B (zh) | 2019-11-07 | 2019-11-07 | 一种文档审核方法、装置、系统、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110852065A true CN110852065A (zh) | 2020-02-28 |
CN110852065B CN110852065B (zh) | 2024-04-05 |
Family
ID=69598327
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911082135.6A Active CN110852065B (zh) | 2019-11-07 | 2019-11-07 | 一种文档审核方法、装置、系统、设备及存储介质 |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP2023506362A (zh) |
CN (1) | CN110852065B (zh) |
WO (1) | WO2021088400A1 (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111401008A (zh) * | 2020-03-09 | 2020-07-10 | 网易(杭州)网络有限公司 | 文档审核系统、文档审核的方法及装置 |
CN111402072A (zh) * | 2020-06-05 | 2020-07-10 | 支付宝(杭州)信息技术有限公司 | 信息处理方法及装置 |
CN111581948A (zh) * | 2020-04-03 | 2020-08-25 | 北京百度网讯科技有限公司 | 文档解析方法、装置、设备及存储介质 |
CN111813399A (zh) * | 2020-07-23 | 2020-10-23 | 平安医疗健康管理股份有限公司 | 基于机器学习的审核规则处理方法、装置及计算机设备 |
CN112183031A (zh) * | 2020-10-16 | 2021-01-05 | 卓尔智联(武汉)研究院有限公司 | 一种文本处理方法、装置和电子设备 |
CN112256640A (zh) * | 2020-09-28 | 2021-01-22 | 福建慧政通信息科技有限公司 | 一种基于业务场景的文件用户画像信息处理方法和存储设备 |
CN112508717A (zh) * | 2020-12-01 | 2021-03-16 | 中国人寿保险股份有限公司 | 一种影像信息的审核方法、装置、电子设备及存储介质 |
WO2021088400A1 (zh) * | 2019-11-07 | 2021-05-14 | 达而观信息科技(上海)有限公司 | 一种文档审核方法、装置、系统、设备及存储介质 |
CN112926940A (zh) * | 2021-03-03 | 2021-06-08 | 浪潮云信息技术股份公司 | 一种基于规则引擎的自动审核申报数据的系统及方法 |
CN113722421A (zh) * | 2020-05-25 | 2021-11-30 | 中移(苏州)软件技术有限公司 | 一种合同审计方法和系统,及计算机可读存储介质 |
CN113778284A (zh) * | 2021-09-24 | 2021-12-10 | 北京字跳网络技术有限公司 | 审核信息显示方法、装置、设备和存储介质 |
CN114118985A (zh) * | 2022-01-27 | 2022-03-01 | 南昌市博泽康医药科技有限公司 | 资源信息管理方法、系统、介质及计算机设备 |
CN116703337A (zh) * | 2023-08-08 | 2023-09-05 | 金现代信息产业股份有限公司 | 一种基于人工智能技术的项目文档审查系统及方法 |
WO2024055862A1 (zh) * | 2022-09-13 | 2024-03-21 | 北京来也网络科技有限公司 | 结合rpa和ai实现ia的文档审核方法、装置及电子设备 |
JP7512764B2 (ja) | 2020-08-21 | 2024-07-09 | 富士通株式会社 | 学習装置、判定装置、学習方法、判定方法、学習プログラムおよび判定プログラム |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113159969B (zh) * | 2021-05-17 | 2024-06-18 | 广州故新智能科技有限责任公司 | 一种金融长文本复核系统 |
CN113342849B (zh) * | 2021-05-28 | 2024-06-07 | 百果园技术(新加坡)有限公司 | 数据审核方法、装置、电子设备及存储介质 |
CN114189709A (zh) * | 2021-11-12 | 2022-03-15 | 北京天眼查科技有限公司 | 一种审核视频的方法、装置及存储介质和电子设备 |
CN115529271A (zh) * | 2022-10-17 | 2022-12-27 | 中国农业银行股份有限公司 | 业务请求分发方法、装置、设备及介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160103823A1 (en) * | 2014-10-10 | 2016-04-14 | The Trustees Of Columbia University In The City Of New York | Machine Learning Extraction of Free-Form Textual Rules and Provisions From Legal Documents |
US20160246783A1 (en) * | 2015-02-24 | 2016-08-25 | CENX, Inc. | Systems and methods for managing data related to network elements from multiple sources |
CN109685056A (zh) * | 2019-01-04 | 2019-04-26 | 达而观信息科技(上海)有限公司 | 获取文档信息的方法及装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10521464B2 (en) * | 2015-12-10 | 2019-12-31 | Agile Data Decisions, Llc | Method and system for extracting, verifying and cataloging technical information from unstructured documents |
JP2019191904A (ja) * | 2018-04-25 | 2019-10-31 | ニッセイ情報テクノロジー株式会社 | 業務支援システム、業務支援方法及びプログラム |
JP6518981B1 (ja) * | 2018-11-06 | 2019-05-29 | 株式会社椿知財サービス | 翻訳装置、翻訳装置の制御プログラム、および翻訳装置を用いた翻訳方法 |
CN109831478A (zh) * | 2018-12-19 | 2019-05-31 | 天翼电子商务有限公司 | 基于规则及模型的分布式实时处理智能决策系统及方法 |
CN109829692A (zh) * | 2019-01-17 | 2019-05-31 | 深圳壹账通智能科技有限公司 | 基于人工智能的合同审理方法、装置、设备及存储介质 |
CN110852065B (zh) * | 2019-11-07 | 2024-04-05 | 达观数据有限公司 | 一种文档审核方法、装置、系统、设备及存储介质 |
-
2019
- 2019-11-07 CN CN201911082135.6A patent/CN110852065B/zh active Active
-
2020
- 2020-07-14 WO PCT/CN2020/101799 patent/WO2021088400A1/zh active Application Filing
- 2020-07-14 JP JP2022522664A patent/JP2023506362A/ja active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160103823A1 (en) * | 2014-10-10 | 2016-04-14 | The Trustees Of Columbia University In The City Of New York | Machine Learning Extraction of Free-Form Textual Rules and Provisions From Legal Documents |
US20160246783A1 (en) * | 2015-02-24 | 2016-08-25 | CENX, Inc. | Systems and methods for managing data related to network elements from multiple sources |
CN109685056A (zh) * | 2019-01-04 | 2019-04-26 | 达而观信息科技(上海)有限公司 | 获取文档信息的方法及装置 |
Non-Patent Citations (1)
Title |
---|
宁凌;: "一种基于深度学习的PDM文档自动审核算法" * |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021088400A1 (zh) * | 2019-11-07 | 2021-05-14 | 达而观信息科技(上海)有限公司 | 一种文档审核方法、装置、系统、设备及存储介质 |
CN111401008A (zh) * | 2020-03-09 | 2020-07-10 | 网易(杭州)网络有限公司 | 文档审核系统、文档审核的方法及装置 |
CN111401008B (zh) * | 2020-03-09 | 2023-12-19 | 网易(杭州)网络有限公司 | 文档审核系统、文档审核的方法及装置 |
CN111581948A (zh) * | 2020-04-03 | 2020-08-25 | 北京百度网讯科技有限公司 | 文档解析方法、装置、设备及存储介质 |
CN111581948B (zh) * | 2020-04-03 | 2024-02-09 | 北京百度网讯科技有限公司 | 文档解析方法、装置、设备及存储介质 |
CN113722421B (zh) * | 2020-05-25 | 2024-04-09 | 中移(苏州)软件技术有限公司 | 一种合同审计方法和系统,及计算机可读存储介质 |
CN113722421A (zh) * | 2020-05-25 | 2021-11-30 | 中移(苏州)软件技术有限公司 | 一种合同审计方法和系统,及计算机可读存储介质 |
CN111402072A (zh) * | 2020-06-05 | 2020-07-10 | 支付宝(杭州)信息技术有限公司 | 信息处理方法及装置 |
CN111402072B (zh) * | 2020-06-05 | 2021-02-26 | 支付宝(杭州)信息技术有限公司 | 信息处理方法及装置 |
CN111813399B (zh) * | 2020-07-23 | 2022-05-31 | 平安医疗健康管理股份有限公司 | 基于机器学习的审核规则处理方法、装置及计算机设备 |
CN111813399A (zh) * | 2020-07-23 | 2020-10-23 | 平安医疗健康管理股份有限公司 | 基于机器学习的审核规则处理方法、装置及计算机设备 |
JP7512764B2 (ja) | 2020-08-21 | 2024-07-09 | 富士通株式会社 | 学習装置、判定装置、学習方法、判定方法、学習プログラムおよび判定プログラム |
CN112256640A (zh) * | 2020-09-28 | 2021-01-22 | 福建慧政通信息科技有限公司 | 一种基于业务场景的文件用户画像信息处理方法和存储设备 |
CN112183031B (zh) * | 2020-10-16 | 2023-08-01 | 卓尔智联(武汉)研究院有限公司 | 一种文本处理方法、装置和电子设备 |
CN112183031A (zh) * | 2020-10-16 | 2021-01-05 | 卓尔智联(武汉)研究院有限公司 | 一种文本处理方法、装置和电子设备 |
CN112508717A (zh) * | 2020-12-01 | 2021-03-16 | 中国人寿保险股份有限公司 | 一种影像信息的审核方法、装置、电子设备及存储介质 |
CN112926940A (zh) * | 2021-03-03 | 2021-06-08 | 浪潮云信息技术股份公司 | 一种基于规则引擎的自动审核申报数据的系统及方法 |
CN113778284A (zh) * | 2021-09-24 | 2021-12-10 | 北京字跳网络技术有限公司 | 审核信息显示方法、装置、设备和存储介质 |
CN113778284B (zh) * | 2021-09-24 | 2024-06-04 | 北京字跳网络技术有限公司 | 审核信息显示方法、装置、设备和存储介质 |
CN114118985A (zh) * | 2022-01-27 | 2022-03-01 | 南昌市博泽康医药科技有限公司 | 资源信息管理方法、系统、介质及计算机设备 |
WO2024055862A1 (zh) * | 2022-09-13 | 2024-03-21 | 北京来也网络科技有限公司 | 结合rpa和ai实现ia的文档审核方法、装置及电子设备 |
CN116703337A (zh) * | 2023-08-08 | 2023-09-05 | 金现代信息产业股份有限公司 | 一种基于人工智能技术的项目文档审查系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110852065B (zh) | 2024-04-05 |
JP2023506362A (ja) | 2023-02-16 |
WO2021088400A1 (zh) | 2021-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110852065B (zh) | 一种文档审核方法、装置、系统、设备及存储介质 | |
CN110909226B (zh) | 金融类文档信息处理方法、装置、电子设备及存储介质 | |
CN108256074B (zh) | 校验处理的方法、装置、电子设备和存储介质 | |
US9690788B2 (en) | File type recognition analysis method and system | |
CN110956026B (zh) | 法律文书生成方法、生成装置和电子设备 | |
AU2019204444B2 (en) | System and method for enrichment of ocr-extracted data | |
CN112231431B (zh) | 一种异常地址识别方法、设备和计算机可读存储介质 | |
CN109947924B (zh) | 对话系统训练数据构建方法、装置、电子设备及存储介质 | |
CN113656805A (zh) | 一种面向多源漏洞信息的事件图谱自动构建方法及系统 | |
WO2024131496A1 (zh) | 一种漏洞数据的分析方法、装置、电子设备及存储介质 | |
CN115062117A (zh) | 一种基于自然语言处理技术的文档自动生成分类的方法 | |
CN112989050B (zh) | 一种表格分类方法、装置、设备及存储介质 | |
CN113158988B (zh) | 财务报表处理方法、装置以及计算机可读存储介质 | |
CN113343637A (zh) | 非结构化文本的处理方法、装置、电子设备及介质 | |
CN112232088A (zh) | 合同条款风险智能识别方法、装置、电子设备及存储介质 | |
CN112418813A (zh) | 基于智能解析识别的aeo资质智能评级管理系统、方法及存储介质 | |
CN111400187A (zh) | 基于定制数据源的参数动态化校验系统及方法 | |
CN115795059A (zh) | 一种面向敏捷开发的威胁建模方法及系统 | |
CN114115831A (zh) | 数据处理方法、装置、设备和存储介质 | |
CN115510188A (zh) | 文本关键词关联方法、装置、设备及存储介质 | |
CN112115362B (zh) | 一种基于相似代码识别的编程信息推荐方法及装置 | |
CN114627419A (zh) | 基于多应用场景的视频质检方法、装置、设备及存储介质 | |
US11568662B2 (en) | Information processing apparatus for detecting a common attribute indicated in different tables and generating information about the common attribute, and information processing method, and non-transitory computer readable medium | |
CN114492409B (zh) | 文件内容的评价方法、装置、电子设备及程序产品 | |
GB2509540A (en) | Enterprise decision management |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Country or region after: Zhong Guo Address after: Room 501, 502, 503, No. 66 Boxia Road, China (Shanghai) Pilot Free Trade Zone, Pudong New Area, Shanghai, March 2012 Applicant after: Daguan Data Co.,Ltd. Address before: Room 301, 303 and 304, block B, 112 liangxiu Road, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai, 201203 Applicant before: DATAGRAND INFORMATION TECHNOLOGY (SHANGHAI) Co.,Ltd. Country or region before: Zhong Guo |
|
GR01 | Patent grant | ||
GR01 | Patent grant |