CN114021544A - 产品合同的要素智能抽取和审核方法及系统 - Google Patents
产品合同的要素智能抽取和审核方法及系统 Download PDFInfo
- Publication number
- CN114021544A CN114021544A CN202111384034.1A CN202111384034A CN114021544A CN 114021544 A CN114021544 A CN 114021544A CN 202111384034 A CN202111384034 A CN 202111384034A CN 114021544 A CN114021544 A CN 114021544A
- Authority
- CN
- China
- Prior art keywords
- product
- contract
- elements
- information
- type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/169—Annotation, e.g. comment data or footnotes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Entrepreneurship & Innovation (AREA)
- Strategic Management (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了产品合同的要素智能抽取和审核方法及系统,涉及数据处理技术领域。所述方法包括:文档解析分类步骤,获取产品合同的文档索引链,并根据文档索引链进行组类划分;要素标注抽取步骤,对组类划分后的产品合同,依据有效类型从每类产品合同中选择参照合同,获取参照合同设置的要素标注信息和要素抽取规则进行要素抽取并形成要素抽取配置信息,将抽取的产品要素放入要素池,将参照合同放入产品池;要素抽取批量处理步骤,对于其它产品合同,根据对应的要素抽取配置信息进行产品要素自动抽取,抽取的产品要素放入要素池,包含相同产品要素的产品合同放入同一产品池中;要素审核步骤。本发明提高了产品合同中要素提取的精确率和准确性。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种产品合同的要素智能抽取和审核方法及系统。
背景技术
在金融行业中有大量的基金产品合同要素抽取需求和应用场景,例如信息披露、产品备案、监管报送、内部数据分析、风险揭示书的生成,以及说明书的生成等。
传统的产品合同要素抽取通常是采用人工整理的方式进行,随着监管系统需要上报的信息不断增加,产品数量的不断沉淀,对于大量存量产品需要补充监管或者内部数据分析要素时,依靠传统的人工整理方式不仅花费大量的人力和财力,也难以满足监管部门数据报送的时效性要求,并且由于人工审核合同无法避免人为因素的波动造成的漏审、误审等操作风险,进而影响业务进程的顺利进行。因此,需要利用信息化技术实现对产品合同的要素抽取和管理。
目前,现有技术中已经提供了利用信息化技术实现对各类合同的要素化管理的技术方案,通过对合同文档中关键要素信息的自动识别与抽取,达到将合同文本转变为合同要素化结构数据的目的。其中,文本要素的抽取通常使用CRF、深度学习等机器学习方法,作为举例,比如中国专利申请CN201910096569 .5公开的一种不良资产经营领域的合同要素化方法:其就是利用机器学习算法与规则匹配技术相结合,通过对历史合同样本的知识学习并构建启发式模型,实现对合同文档文本中关键要素信息的自动识别与抽取,达到将合同文本转变为合同要素化结构数据的目的。同时,现有技术还提供了一种比对抽取方法,其是利用历史文档集通过比对找出与待抽取文档的差异来进行抽取的方法,比如中国专利申请CN201910650428 .3公开的一种抽取文档中要素的方法,包括步骤:标注模板文档,生成模板文档及其标注的下标信息;匹配模板文档与待抽取文档,生成匹配对;根据标注和匹配对的下标信息,划定模板文档中的前后边界、待抽取文档中的前后边界;将模板文档中的前后边界内的内容替换成待抽取文档中前后边界内的内容;输出标注内的模板文档及其下标信息作为抽取的要素,其通过利用历史标注数据,精确地抽取出相同模板待抽取文档中字段的值。然而,上述现有技术提供的文档要素抽取方法,一方面缺乏产品要素与产品合同之间的勾稽联系信息,在一定程度上影响了产品合同中要素提取的精确率和准确性;另一方面,由于产品合同管理合同要的起草要和托管人和委托人进行协商(主要是定向产品合同),由于托管人和委托人的多样性导致产品管理合同的类别也是各不相同,形成了个性化比较强的产品合同,此类产品合同往往难以直接找到匹配的合同模板,模板的生成效率也较低,也影响了要素提取的精确率和准确性。
发明内容
本发明的目的在于:克服现有技术的不足,提供了一种产品合同的要素智能抽取和审核方法及系统。本发明通过对合同文档建立文档索引链进行合同文档的组类划分,基于组类划分信息进行不同类型的参照合同的要素标注抽取并形成各类合同的要素抽取配置信息,利用要素抽取配置信息就可以抽取其它同类型的产品合同中的相同的要素,并构建关联的要素池和产品池,同时对抽取的产品要素智能审核,在实现要素智能抽取和审核的基础上,提高了产品合同中要素提取的精确率和准确性。
为实现上述目标,本发明提供了如下技术方案:
一种产品合同的要素智能抽取和审核方法,包括如下步骤:
文档解析分类步骤:采集产品文档库中存储的产品合同,对每个产品合同进行文档解析以建立该产品合同的文档索引链;根据各产品合同的文档索引链对产品文档库中所有的产品合同进行组类划分;其中,将文档索引链的层级关系完全一致的产品合同划分为同一合同类型,汇总产品文档库的所有合同类型信息,将只包括一个产品合同的合同类型设置为无效类型,将包括两个以上产品合同的合同类型设置为有效类型,将所有对应有效类型的产品合同划分为单一类合同组,将所有对应无效类型的产品合同划分为个性化合同组;以及,获取单一类合同组中的所有合同类型,基于各合同类型的文档索引链建立每个合同类型的合同模板;
要素标注抽取步骤:对组类划分后的产品合同,依据前述有效类型从每类产品合同中选择至少一个产品合同作为参照合同,获取用户通过要素标注工具对前述参照合同设置的要素标注信息和要素抽取规则,根据前述要素标注信息和要素抽取规则抽取参照合同的产品要素并形成对应的要素抽取配置信息,不同类型的产品合同对应不同的要素抽取配置信息;将抽取的产品要素放入要素池,将该参照合同放入产品池并建立该参照合同与要素池中前述产品要素的对应关系;
要素抽取批量处理步骤:对于每类产品合同中的其它产品合同,根据产品合同的合同类型获取对应的要素抽取配置信息后,按照要素抽取配置信息进行产品要素自动抽取处理,将抽取的产品要素放入要素池,将包含相同产品要素的产品合同放入同一产品池中;以及,对抽取的产品要素按预设的格式进行格式化保存;
要素审核步骤:将前述格式化保存的要素发送到关联的要素审核系统中进行审核。
进一步,在文档解析分类步骤中,对于个性化合同组中的每个产品合同,基于文档索引链的部分匹配方式获取该产品合同包含的合同类型,每个产品合同至少对应两个合同类型;
其中,基于文档索引链的部分匹配方式获取该产品合同包含的合同类型的步骤如下:
获取该产品合同的文档索引链信息,将文档索引链信息分别与前述单一类合同组中的每类合同模板的文档索引链进行比对,获取该产品合同与各类合同模板的部分匹配信息;
根据前述部分匹配信息,按照前述产品合同的文档章节顺序对文档索引链进行拆解,使得拆解后的每段文档索引链都能够匹配一个合同模板的文档索引链,且相邻段文档索引链之间无章节重复内容;
获取拆解后的多个文档索引链段对应的多个合同模板,建立前述产品合同与前述多个合同模板的合同类型对应关系。
进一步,在要素标注抽取步骤中,对于单一类合同组的每类产品合同,通过每类产品合同的参照合同的要素标注信息和要素抽取规则形成对应合同类型的要素抽取配置信息;
对于个性化合同组的产品合同,通过如下方式形成要素抽取配置信息:
对于每个产品合同G,根据该产品合同G的文档章节顺序,依顺序获取该合同对应的多个合同类型,包括合同类型G1、合同类型G2、……、合同类型GN,其中,N为大于等于2的整数;
获取用户在标注前述合同类型G1的产品合同时抽取的所有产品要素信息,从前述抽取的产品要素中获取与该产品合同G匹配的多个产品要素放入要素池,并获取上述匹配的多个产品要素的要素抽取配置信息作为第一段要素抽取配置信息;依此类推,直至获取用户在标注前述合同类型GN的产品合同时抽取的所有产品要素信息,从前述抽取的产品要素中获取与该产品合同G匹配的多个产品要素放入要素池,并获取上述匹配的多个产品要素的要素抽取配置信息作为第N段要素抽取配置信息;对前述第一段要素抽取配置信息至第N段要素抽取配置信息进行汇总,得到每个产品合同G的要素抽取配置信息。
进一步,对应要素池中的每个产品要素存储其要素关联信息,所述要素关联包括产品要素关键词信息、要素标签信息、要素抽取规则,以及产品要素关键词、要素抽取规则和要素标签三者的对应关系。
进一步,根据产品合同的应用场景,所述要素池至少被划分为信息报送类要素分池和监控报送类要素分池,对应每类要素分池设置有该类所有的产品要素;
所述产品池包括多个产品分池,将包含相同产品要素的产品合同放入同一产品分池中。
进一步,所述索引链信息包括多级标题信息、段落、行号和文字上下文维度信息,对每个产品合同,根据其文档索引链进行树建模生成该产品合同的文档树信息;
在进行要素标注时,用户通过要素标注工具对参照合同的文档树设置要素标注信息,并根据要素标注信息和要素抽取规则形成基于文档树要素抽取配置信息;在要素自动抽取处理时,根据前述基于文档树要素抽取配置信息对前述其它产品合同的文档树进行要素自动抽取处理。
进一步,所述要素审核系统基于同类产品要素核对模型对要素进行审核,判断产品合同抽取的要素相对于产品池中同类型的产品合同的要素信息的差别信息是否超过预设条件,判定超过预设条件时,触发报警并发送至关联的人工审核系统;
和/或,所述要素审核系统基于阀值控制模型对要素进行审核,判断产品合同抽取的要素对应的区间范围是否超出模型中预设的区间阈值时,判定超出预设的区间阈值时,触发报警并发送至关联的人工审核系统;
和/或,所述要素审核系统基于要素关联性核对模型对要素进行审核,判断产品合同抽取的要素是否包含限制信息且限制信息的值不为空,判定具有限制信息但限制信息的值为空时,触发报警并发送至关联的人工审核系统。
进一步,根据要素审核系统的审核结果,对于审核通过的要素,按照动态模板库中提供的模板自动生成要素化的产品合同。
进一步,对应要素标注工具设置有要素抽取规则数据库,要素抽取规则数据库中存储有预设的要素抽取规则,在用户对参照合同设置要素标注信息时,通过用户图形界面输出要素抽取规则以供用户选择;所述要素抽取规则包括标准规则、正则抽取规则、组合规则、字典转换规则和/或用户语义转换规则;
和/或,对应要素标注工具设置有要素标签数据库,要素标签来自于前述要素标签数据库,在用户对参照合同设置要素标注信息时,采集用户在合同文档中标注的要素关键词,并通过用户图形界面输出要素标签列表供用户选择匹配的要素标签。
本发明还提供了一种产品合同的要素智能抽取和审核系统,所述系统包括:
产品文档库,用于存储产品的产品合同;
文档解析分类装置,用于采集产品文档库中存储的产品合同,对每个产品合同进行文档解析以建立该产品合同的文档索引链,根据各产品合同的文档索引链对产品文档库中所有的产品合同进行组类划分;其中,将文档索引链的层级关系完全一致的产品合同划分为同一合同类型,汇总产品文档库的所有合同类型信息,将只包括一个产品合同的合同类型设置为无效类型,将包括两个以上产品合同的合同类型设置为有效类型,将所有对应有效类型的产品合同划分为单一类合同组,将所有对应无效类型的产品合同划分为个性化合同组;以及,获取单一类合同组中的所有合同类型,基于各合同类型的文档索引链建立每个合同类型的合同模板;
要素标注抽取装置,用于对组类划分后的产品合同,依据前述有效类型从每类产品合同中选择至少一个产品合同作为参照合同,获取用户通过要素标注工具对前述参照合同设置的要素标注信息和要素抽取规则,根据前述要素标注信息和要素抽取规则抽取参照合同的产品要素并形成对应的要素抽取配置信息,不同类型的产品合同对应不同的要素抽取配置信息;将抽取的产品要素放入要素池,将该参照合同放入产品池并建立该参照合同与要素池中前述产品要素的对应关系;
要素抽取批量处理装置,用于对每类产品合同中的其它产品合同,根据产品合同的合同类型获取对应的要素抽取配置信息后,按照要素抽取配置信息进行产品要素自动抽取处理,将抽取的产品要素放入要素池,将包含相同产品要素的产品合同放入同一产品池中;以及,对抽取的产品要素按预设的格式进行格式化保存;
要素审核装置,将前述格式化保存的要素发送到关联的要素审核系统中进行审核。
本发明由于采用以上技术方案,与现有技术相比,作为举例,具有以下的优点和积极效果:
本发明提供的产品合同的要素智能抽取和审核方法,通过对合同文档建立文档索引链进行合同文档的组类划分,基于组类划分信息进行不同类型的参照合同的要素标注抽取并形成各类合同的要素抽取配置信息,利用要素抽取配置信息就可以抽取其它同类型的产品合同中的相同的要素,并构建关联的要素池和产品池,同时对抽取的产品要素智能审核,在实现要素智能抽取和审核的基础上,提高了产品合同中要素提取的精确率和准确性。
另一方面,针对个性化比较强的产品合同,通过文档索引链拆解获取该产品合同匹配对应的多个不同类型的合同模板,组合各类型的产品合同的要素抽取配置信息形成了该产品合同的要素抽取配置信息,实现了个性化产品合同的批量式要素自动抽取。
附图说明
图1为本发明实施例提供的产品合同的要素智能抽取和审核方法的流程示意图。
图2为本发明实施例提供的进行数据处理的信息传输图。
图3为本发明实施例提供的要素池与产品池的关联关系示例图。
具体实施方式
以下结合附图和具体实施例对本发明公开的产品合同的要素智能抽取和审核方法及系统作进一步详细说明。应当注意的是,下述实施例中描述的技术特征或者技术特征的组合不应当被认为是孤立的,它们可以被相互组合从而达到更好的技术效果。在下述实施例的附图中,各附图所出现的相同标号代表相同的特征或者部件,可应用于不同实施例中。因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
需说明的是,本说明书所附图中所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定发明可实施的限定条件,任何结构的修饰、比例关系的改变或大小的调整,在不影响发明所能产生的功效及所能达成的目的下,均应落在发明所揭示的技术内容所能涵盖的范围内。本发明的优选实施方式的范围包括另外的实现,其中可以不按所述的或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
实施例
参见图1和图2所示,为本实施例提供的一种产品合同的要素智能抽取和审核方法。所述方法包括如下步骤。
S100,文档解析分类步骤:采集产品文档库中存储的产品合同,对每个产品合同进行文档解析以建立该产品合同的文档索引链;根据各产品合同的文档索引链对产品文档库中所有的产品合同进行组类划分。
所述产品文档库(或称产品合同文档库),可以为各领域不同产品的产品合同的文档库,本实施例中存储的是获取内部审核通过的产品合同。用户可以通过自动上传或者手动上传的方式将产品合同上传至产品文档库。所述产品合同,优选为金融产品合同,比如基金合同、信托计划合同等。
本实施例中,在S100步骤中进行组类划分时,优选的采用如下方式:将文档索引链中层级关系能够完全一致的产品合同划分为一个组;而对于文档个性化较强的产品合同,因为文档索引链的层级关系无法与其它合同完全一致,难以将其单一地划分到某一合同类型中,因此将此类个性化较强的产品合同划分为另一个组,两个组在后期采用区别的方式进行要素抽取处理。
具体的,首先,将文档索引链的层级关系完全一致的产品合同划分为同一合同类型。然后,汇总产品文档库的所有合同类型信息,将只包括一个产品合同的合同类型设置为无效类型,将包括两个以上产品合同的合同类型设置为有效类型。随后,将所有对应有效类型的产品合同划分为单一类合同组,将所有对应无效类型的产品合同划分为个性化合同组。对于单一类合同组,获取单一类合同组中的所有合同类型,基于各合同类型的文档索引链建立每个合同类型的合同模板,也就是说,单一类合同组中的每个合同类型下至少包括两个以上(包含两个)的产品合同,同一类型的产品合同对应同一个合同模板,不同类型的产品合同对应不同的合同模板。
本实施例中,对于个性化合同组中的每个产品合同,对于个性化合同组中的每个产品合同,基于文档索引链的部分匹配方式获取该产品合同包含的合同类型,每个产品合同至少对应两个合同类型。
其中,基于文档索引链的部分匹配方式获取该产品合同包含的合同类型的步骤如下:
S111,获取该产品合同的文档索引链信息,将文档索引链信息分别与前述单一类合同组中的每类合同模板的文档索引链进行比对,获取该产品合同与各类合同模板的部分匹配信息。
S112,根据前述部分匹配信息,按照前述产品合同的文档章节顺序对文档索引链进行拆解,使得拆解后的每段文档索引链都能够匹配一个合同模板的文档索引链,且相邻段文档索引链之间无章节重复内容。
S113,获取拆解后的多个文档索引链段对应的多个合同模板,建立前述产品合同与前述多个合同模板的合同类型对应关系。
作为举例而非限制,比如举例说明:假设合同文档库中存储有5000个产品合同,通过文档解析分类装置对前述5000个产品合同进行文档解析后建立了各个产品合同的文档索引链;然后根据各产品合同的文档索引链,比对各个产品合同的文档索引链,将文档索引链的层级关系完全一致的产品合同划分为同一合同类型。具体的,可以先从合同文档库中获取任意一个产品合同A1的文档索引链,将该产品合同A1设为合同类型1,然后获取合同文档库中的下一个产品合同,将其文档索引链与已确定类型的产品合同A1的文档索引链进行比对,文档索引链的层级关系完全一致时将该产品合同划分为同一合同类型(即合同类型1),否则设置为合同类型2;依此类推,直至将合同文档库中的所有产品合同比对完成。
然后,汇总产品文档库的所有合同类型信息,比如得到了合同类型为170类,将只包括一个产品合同的合同类型设置为无效类型,将包括两个以上产品合同的合同类型设置为有效类型。令有效合同类型的数量为M, M为大于等于2的整数。作为举例而非限制,比如前述170类中有70个合同类型是有效类型,即M=70;有100个合同类型是无效类型,也就是说,5000个产品合同中有100产品合同是个性很强的合同。将所有对应有效类型的产品合同划分为单一类合同组,即包括4900个合同。获取单一类合同组中的所有合同类型,即70个合同类型,基于各合同类型的文档索引链建立每个合同类型的合同模板。作为举例而非限制,比如单一类合同组中包含的70个合同类型中,包括合同类型1、合同类型2、合同类型3、……、合同类型70(M=70),每个合同类型下有70个产品合同。
剩下还有100个产品合同则划分到个性化合同组,个性化合同组中的每个产品合同都至少对应两个合同类型。
作为举例而非限制,比如个性化合同组的某个产品合同G,其7文档索引链可以部分和上面70个类型中的一些合同模板匹配,作为举例而非限制,比如产品合同G包括100个章节,其中前20个章节的索引链和合同类型1一致,在后20个章节和合同类型2中的一致,在后20个章节和合同类型18中的一致,在后20个章节和合同类型10中的一致,最后20个章节和合同类型5中的一致,如此,这个产品合同G就可以和5个合同类型——合同类型1、合同类型2、合同类型18、合同类型10和合同类型5建立了对应关系。当然,上述对应的合同类型的数量作为举例而非限制,根据产品合同的内容,一个产品合同对应的合同类型可以为2-70个中的任意一个数量,在此不作为对本发明的限制。
由上述合同类型对应方法,可以建立个性化合同组的100个产品合同与前述单一类合同组中的70类合同模板之间的对应关系(多对多的网状关系)。
S200,要素标注抽取步骤:对组类划分后的产品合同,依据前述有效类型从每类产品合同中选择至少一个产品合同作为参照合同,获取用户通过要素标注工具对前述参照合同设置的要素标注信息和要素抽取规则,根据前述要素标注信息和要素抽取规则抽取参照合同的产品要素并形成对应的要素抽取配置信息,不同类型的产品合同对应不同的要素抽取配置信息;将抽取的产品要素放入要素池,将该参照合同放入产品池并建立该参照合同与要素池中前述产品要素的对应关系。
具体的,参见图2所述,对应要素标注工具可以设置有要素抽取规则数据库形成要素抽取规则中心。所述要素抽取规则数据库中存储有预设的要素抽取规则。
在用户对参照合同设置要素标注信息时,通过用户图形界面输出要素抽取规则以供用户选择。所述要素抽取规则可以包括标准规则、正则抽取规则、组合规则、字典转换规则和/或用户语义转换规则。
所述标准规则,即标签化抽取规则,适用于相对固化或者有规则的产品要素,可以通过对文档树进行要素标签化标注并与要素字典(包括信息报送和监控报送所有的要素)建立关联关系,放入要素字典池。
所述正则抽取规则,适用于比较灵活的要素,其通过配置正则表达式来进行抽取了,比如:费用信息只需要抽取数字类型,获取某一段落第一句话第一个逗号后开始到第一个句号结束的部分,获取某一段落某一个关键词或者特殊字符开始到某一个关键词或者特殊字符结束的部分,在要素抽取后需要某个关键字对此要素进行拆分添加新的信息(如官网地址)等,系统要提前建立好正则库,用户只需要根据实际场景选择对应的正则就可以进行要素自动抽取了。
所述组合规则,即要素组合合成规则,适用于需要多个段落抽取的多个要素组合合成新的要素的场景,系统会提供多个段落要素组合的顺序,拼接的连接词等规则,用户在界面配置好就可以自动组合要素了。
所述字典转换规则,适用于需要根据合同中的文字描述进行转化为报送需要的单选、多选框等类型信息,其可以将抽取的要素和提前建立的字典库进行匹配核对,进行要素的自动转换。
所述用户语义转换规则,即NLP语义解析转换规则,适用于较灵活的文字描述。当数据字典库无法满足条件时,则使用NLP语义解析技术,对于相同语义的描述信息和字段库匹配进而进行要素转换。
本实施例中,对应要素标注工具还可以设置有要素标签数据库,要素标签来自于前述要素标签数据库,在用户对参照合同设置要素标注信息时,采集用户在合同文档中标注的要素关键词,并通过用户图形界面输出要素标签列表供用户选择匹配的要素标签。
本实施例中,在要素标注抽取步骤中,对于单一类合同组的每类产品合同,每类产品合同对应一个合同类型,通过每类产品合同的参照合同的要素标注信息和要素抽取规则形成对应合同类型的要素抽取配置信息。作为举例而非限制,比如对于单一类合同组的4900个产品合同,针对70个合同类型分别在每个合同类型的70个产品合同中选择一个作为参照合同,即获取了70个参照合同。参照合同的选取可以是采集用户的选择信息,也可以是由系统随机选择。
针对70个参照合同,通过关联的要素标注工具的用户图形界面(GUI)输出后,采集用户通过要素标注工具对参照合同的要素标注信息和用户设置的要素抽取规则,从参照合同中抽取产品要素,并根据前述要素标注信息和要素抽取规则形成对应合同类型的要素抽取配置信息,即可以形成70个要素抽取配置信息,后续可以将该要素抽取配置信息作为前述70类产品合同的要素自动抽取规则,对剩下的其它产品合同(除参照合同之外)进行自动要素提取的批量处理。
对于个性化合同组的100个产品合同,则可以通过如下方式形成要素抽取配置信息:
S211,对于每个产品合同G,根据该产品合同G的文档章节顺序,依顺序获取该合同对应的多个合同类型,包括合同类型G1、合同类型G2、……、合同类型GN,其中,N为大于等于2的整数。N表示对应的合同类型总数,合同类型GN的值则取自前述单一类合同组中的70个合同类型的类型值(1≤GN≤70)。作为举例而非限制,比如根据产品合同G的文档章节顺序,依顺序获取该合同对应的5个合同类型(即N=5),依次为合同类型1、合同类型2、合同类型18、合同类型10、合同类型5,则G1=1,G2=2,G3=18,G4=10,G5=5。
S212,获取用户在标注前述合同类型G1的产品合同时抽取的所有产品要素信息,从前述抽取的产品要素中获取与该产品合同G匹配的多个产品要素放入要素池,并获取上述匹配的多个产品要素的要素抽取配置信息作为第一段要素抽取配置信息;依此类推,直至获取用户在标注前述合同类型GN的产品合同时抽取的所有产品要素信息,从前述抽取的产品要素中获取与该产品合同G匹配的多个产品要素放入要素池,并获取上述匹配的多个产品要素的要素抽取配置信息作为第N段要素抽取配置信息;对前述第一段要素抽取配置信息至第N段要素抽取配置信息进行汇总,得到每个产品合同G的要素抽取配置信息。
仍以上述个性化合同组的产品合同G为例,描述产品合同G的要素抽取配置信息获取方法。所述的产品合同G依次对应了合同类型1、合同类型2、合同类型18、合同类型10和合同类型5,在用户标注合同类型1的产品合同(属于单一类合同组的)的时候,假如有10个产品要素适合产品合同G,就把这10个产品要素放入要素池,并获取上述10产品要素的要素抽取配置信息作为第一段要素抽取配置信息,产品合同G作为前述10个产品要素对应的产品合同放入产品池,产品池和要素池建立对应关系;在用户标注合同类型2的产品合同(属于单一类合同组的)的时候,合同类型2有5个要素的抽取规则适合产品合同G,就把这5个产品要素放入要素池,并获取上述5产品要素的要素抽取配置信息作为第二段要素抽取配置信息,产品合同G作为前述5个产品要素对应的产品合同放入产品池,产品池和要素池建立对应关系;依此类推,对对应的5个合同类型进行处理,对第一段要素抽取配置信息至第五段要素抽取配置信息进行汇总,得到产品合同G的要素抽取配置信息就完全确定了。
按照上述步骤,可以获取个性化合同组的100个不规则产品合同的要素抽取配置信息,后续可以将该要素抽取配置信息作为不规则产品合同的要素自动抽取规则进行自动要素提取。
本实施例中,对应要素池中的每个产品要素存储其要素关联信息,所述要素关联包括产品要素关键词信息、要素标签信息、要素抽取规则,以及产品要素关键词、要素抽取规则和要素标签三者的对应关系。
优选的实施方式中,根据产品合同的应用场景,所述要素池至少可以被划分为信息报送类要素分池和监控报送类要素分池,对应每类要素分池设置有该类所有的产品要素。
当然,根据产品合同的应用场景可以划分更多类的要素分池,在此不做限制。参见图3所示,示例了划分3个要素分池的情况,包括要素池1、要素池2和要素池3。
所述产品池也可以包括多个产品分池,将包含相同产品要素的产品合同放入同一产品分池中。参见图3所示,示例了3个产品分池与各要素分池的对应关系。
S300,要素抽取批量处理步骤:对于每类产品合同中的其它产品合同,根据产品合同的合同类型获取对应的要素抽取配置信息后,按照要素抽取配置信息进行产品要素自动抽取处理,将抽取的产品要素放入要素池,将包含相同产品要素的产品合同放入同一产品池中;以及,对抽取的产品要素按预设的格式进行格式化保存。
对于单一类合同组对应有70个合同类型,对每个合同类型下的有70个产品合同,对参照合同之外的其它69个产品合同,按照该合同类型对应的要素抽取配置信息进行自动要素提取的批量处理。
对于个性化合同组的100个不规则产品合同,按前述不规则产品合同的要素抽取配置信息进行自动要素提取。
本实施例中,还可以对抽取的产品要素按预设的格式进行格式化保存,参见图2所示。
S400,要素审核步骤:将前述格式化保存的要素发送到关联的要素审核系统中进行审核。
S400要素审核步骤之后,还可以包括S500步骤:根据要素审核系统的审核结果,对于审核通过的要素,按照动态模板库中提供的模板自动生成要素化的产品合同。
本实施例中,所述要素审核系统可以通过如下三种方式中的一种或多种进行要素审核。
方式一:基于同类产品要素核对模型对要素进行审核,判断产品合同抽取的要素相对于产品池中同类型的产品合同的要素信息的差别信息是否超过预设条件,判定超过预设条件时,触发报警并发送至关联的人工审核系统。
对于相同类型的产品,或者系列型的产品,产品合同的很多产品要素是相近的,比如成立条件,运作方式等。系统可以拿新的产品要素和历史的产品要素进行核对,对于类型相同且要素信息差别很大的要素触发报警,并触发人工审核。对于类型相同且要素信息一致的或者描述语义相似的产品合同则审核通过。
方式二:所述要素审核系统基于阀值控制模型对要素进行审核,判断产品合同抽取的要素对应的区间范围是否超出模型中预设的区间阈值时,判定超出预设的区间阈值时,触发报警并发送至关联的人工审核系统。
有些产品要素信息是区间范围的,对于超出区间范围的值,一般是因为要素抽取出现问题,此时可以触发报警,并触发人工审核。进一步,人工审核可以对要素抽取规则进行完善,比如完善费用类型信息,产品风险等级等。
此时,可以获取人工审核系统对要素抽取规则的调整信息,将所述调整信息对应着该产品要素所属的产品合同,对要素池和产品池中的信息进行调整。
方式三:所述要素审核系统基于要素关联性核对模型对要素进行审核,判断产品合同抽取的要素是否包含限制信息且限制信息的值不为空,判定具有限制信息但限制信息的值为空时,触发报警并发送至关联的人工审核系统。
对于一些存在关联关系的要素信息,是可以通过关联关系进行要素审核的,如是否有预警线,是否有止损线,如果抽取的结果是“是”的,那么对于的止损线,预警线线的值是不能为空,有关联关系的要素信息在监管报送中所占比例是很高的,所以此规则审核是很重要的。
在另一实施方式中,所述要素审核系统可以将审核不通过的产品要素信息及其对应的产品合同文档信息,通过即时通信消息发送至前述人工审核系统。
所述人工审核系统接收到前述即时通信消息后,能够根据获取的信息,将审核不通过的产品要素在该产品合同文档中的位置标注出来,并通过要素审核展示界面输出前述产品合同文档和审核不通过的产品要素。优选的,要素审核展示界面可以包括产品合同文档输出区域和产品要素输出区域,所述产品合同文档输出区域用于输出产品合同文档,所述产品要素输出区域用于输出文档中被标注的产品要素以及产品要素在文档中的页面位置信息。具体的,可以通过一条具有要素节点的横轴展示被标注的产品要素及其页面位置,要素节点与被标注的产品要素一一对应设置,当用户触发该横轴上的要素节点时,输出该要素节点对应的产品要素所在页面位置。
进一步,所述人工审核系统还可以对产品合同文档中的签章信息进行识别以识别签章信息中的署名对象,并获取该署名对象的即时通信账号信息,建立人工审核用户与前述署名对象的即时通信关系,使得人工审核用户可以与前述署名对象进行即时通信沟通。
本实施例中,所述索引链信息具体可以包括多级标题信息、段落、行号和文字上下文维度信息,对每个产品合同,根据其文档索引链进行树建模生成该产品合同的文档树信息。优选的,在进行要素标注时,用户通过要素标注工具对参照合同的文档树设置要素标注信息,并根据要素标注信息和要素抽取规则形成基于文档树要素抽取配置信息;在要素自动抽取处理时,根据前述基于文档树要素抽取配置信息对前述其它产品合同的文档树进行要素自动抽取处理。
如此,通过获取用户对参照合同的文档树的要素标注信息(包括产品要素关键词和要素标签),以及用户在标注要素时选择的要素抽取规则,就可以找到用户进行要素标注的文字(关键词)的字体大小、是否缩进、是否加粗、上下文信息,找到此文字(关键词)在合同文档中所在的行号以及在该行标点(如有)的前后位置,所在的段落,属于哪个标题下的索引链,基于上述信息生成对应的要素抽取配置信息(通过参照合同形成该参照合同所属分类对应的要素抽取配置信息),
然后利用此要素抽取配置信息来抽取同一类型的其它产品合同中的相同的产品要素。同时,本发明通过在要素池和产品池的多个池子之间创建关联逻辑,使得用户可以根据要素池和产品池的勾稽联系更精准地进行要素标注和抽取。
本发明的另一实施例,还提供了一种产品合同的要素智能抽取和审核系统。
所述系统包括产品文档库,文档解析分类装置,要素标注抽取装置,要素抽取批量处理装置和要素审核装置。
所述产品文档库,用于存储产品合同,为各领域不同产品的产品合同的文档库。本实施例中存储的是获取内部审核通过的产品合同。用户可以通过自动上传或者手动上传的方式将产品合同上传至产品文档库。
所述文档解析分类装置,用于用于采集产品文档库中存储的产品合同,对每个产品合同进行文档解析以建立该产品合同的文档索引链,根据各产品合同的文档索引链对产品文档库中所有的产品合同进行组类划分。其中,将文档索引链的层级关系完全一致的产品合同划分为同一合同类型,汇总产品文档库的所有合同类型信息,将只包括一个产品合同的合同类型设置为无效类型,将包括两个以上产品合同的合同类型设置为有效类型,将所有对应有效类型的产品合同划分为单一类合同组,将所有对应无效类型的产品合同划分为个性化合同组;以及,获取单一类合同组中的所有合同类型,基于各合同类型的文档索引链建立每个合同类型的合同模板。
所述要素标注抽取装置,用于对组类划分后的产品合同,依据前述有效类型从每类产品合同中选择至少一个产品合同作为参照合同,获取用户通过要素标注工具对前述参照合同设置的要素标注信息和要素抽取规则,根据前述要素标注信息和要素抽取规则抽取参照合同的产品要素并形成对应的要素抽取配置信息,不同类型的产品合同对应不同的要素抽取配置信息;将抽取的产品要素放入要素池,将该参照合同放入产品池并建立该参照合同与要素池中前述产品要素的对应关系。
所述要素抽取批量处理装置,用于对每类产品合同中的其它产品合同,根据产品合同的合同类型获取对应的要素抽取配置信息后,按照要素抽取配置信息进行产品要素自动抽取处理,将抽取的产品要素放入要素池,将包含相同产品要素的产品合同放入同一产品池中;以及,对抽取的产品要素按预设的格式进行格式化保存。
所述要素审核装置,将前述格式化保存的要素发送到关联的要素审核系统中进行审核。
其它技术特征参考在前实施例,在此不再赘述。
在上面的描述中,本发明的公开内容并不旨在将其自身限于这些方面。而是,在本公开内容的目标保护范围内,各组件可以以任意数目选择性地且操作性地进行合并。另外,像“包括”、“囊括”以及“具有”的术语应当默认被解释为包括性的或开放性的,而不是排他性的或封闭性,除非其被明确限定为相反的含义。所有技术、科技或其它方面的术语都符合本领域技术人员所理解的含义,除非其被限定为相反的含义。在词典里找到的公共术语应当在相关技术文档的背景下不被太理想化或太不实际地解释,除非本公开内容明确将其限定成那样。本发明领域的普通技术人员根据上述揭示内容做的任何变更、修饰,均属于权利要求书的保护范围。
Claims (10)
1.一种产品合同的要素智能抽取和审核方法,其特征在于包括:
文档解析分类步骤:采集产品文档库中存储的产品合同,对每个产品合同进行文档解析以建立该产品合同的文档索引链;根据各产品合同的文档索引链对产品文档库中所有的产品合同进行组类划分;其中,将文档索引链的层级关系完全一致的产品合同划分为同一合同类型,汇总产品文档库的所有合同类型信息,将只包括一个产品合同的合同类型设置为无效类型,将包括两个以上产品合同的合同类型设置为有效类型,将所有对应有效类型的产品合同划分为单一类合同组,将所有对应无效类型的产品合同划分为个性化合同组;以及,获取单一类合同组中的所有合同类型,基于各合同类型的文档索引链建立每个合同类型的合同模板;
要素标注抽取步骤:对组类划分后的产品合同,依据前述有效类型从每类产品合同中选择至少一个产品合同作为参照合同,获取用户通过要素标注工具对前述参照合同设置的要素标注信息和要素抽取规则,根据前述要素标注信息和要素抽取规则抽取参照合同的产品要素并形成对应的要素抽取配置信息,不同类型的产品合同对应不同的要素抽取配置信息;将抽取的产品要素放入要素池,将该参照合同放入产品池并建立该参照合同与要素池中前述产品要素的对应关系;
要素抽取批量处理步骤:对于每类产品合同中的其它产品合同,根据产品合同的合同类型获取对应的要素抽取配置信息后,按照要素抽取配置信息进行产品要素自动抽取处理,将抽取的产品要素放入要素池,将包含相同产品要素的产品合同放入同一产品池中;以及,对抽取的产品要素按预设的格式进行格式化保存;
要素审核步骤:将前述格式化保存的要素发送到关联的要素审核系统中进行审核。
2.根据权利要求1所述的方法,其特征在于:在文档解析分类步骤中,对于个性化合同组中的每个产品合同,基于文档索引链的部分匹配方式获取该产品合同包含的合同类型,每个产品合同至少对应两个合同类型;
其中,基于文档索引链的部分匹配方式获取该产品合同包含的合同类型的步骤如下:
获取该产品合同的文档索引链信息,将文档索引链信息分别与前述单一类合同组中的每类合同模板的文档索引链进行比对,获取该产品合同与各类合同模板的部分匹配信息;
根据前述部分匹配信息,按照前述产品合同的文档章节顺序对文档索引链进行拆解,使得拆解后的每段文档索引链都能够匹配一个合同模板的文档索引链,且相邻段文档索引链之间无章节重复内容;
获取拆解后的多个文档索引链段对应的多个合同模板,建立前述产品合同与前述多个合同模板的合同类型对应关系。
3.根据权利要求2所述的方法,其特征在于:在要素标注抽取步骤中,对于单一类合同组的每类产品合同,通过每类产品合同的参照合同的要素标注信息和要素抽取规则形成对应合同类型的要素抽取配置信息;
对于个性化合同组的产品合同,通过如下方式形成要素抽取配置信息:
对于每个产品合同G,根据该产品合同G的文档章节顺序,依顺序获取该合同对应的多个合同类型,包括合同类型G1、合同类型G2、……、合同类型GN,其中,N为大于等于2的整数;
获取用户在标注前述合同类型G1的产品合同时抽取的所有产品要素信息,从前述抽取的产品要素中获取与该产品合同G匹配的多个产品要素放入要素池,并获取上述匹配的多个产品要素的要素抽取配置信息作为第一段要素抽取配置信息;依此类推,直至获取用户在标注前述合同类型GN的产品合同时抽取的所有产品要素信息,从前述抽取的产品要素中获取与该产品合同G匹配的多个产品要素放入要素池,并获取上述匹配的多个产品要素的要素抽取配置信息作为第N段要素抽取配置信息;对前述第一段要素抽取配置信息至第N段要素抽取配置信息进行汇总,得到每个产品合同G的要素抽取配置信息。
4.根据权利要求1所述的方法,其特征在于:对应要素池中的每个产品要素存储其要素关联信息,所述要素关联包括产品要素关键词信息、要素标签信息、要素抽取规则,以及产品要素关键词、要素抽取规则和要素标签三者的对应关系。
5.根据权利要求1所述的方法,其特征在于:根据产品合同的应用场景,所述要素池至少被划分为信息报送类要素分池和监控报送类要素分池,对应每类要素分池设置有该类所有的产品要素;
所述产品池包括多个产品分池,将包含相同产品要素的产品合同放入同一产品分池中。
6.根据权利要求1所述的方法,其特征在于:所述索引链信息包括多级标题信息、段落、行号和文字上下文维度信息,对每个产品合同,根据其文档索引链进行树建模生成该产品合同的文档树信息;
在进行要素标注时,用户通过要素标注工具对参照合同的文档树设置要素标注信息,并根据要素标注信息和要素抽取规则形成基于文档树要素抽取配置信息;在要素自动抽取处理时,根据前述基于文档树要素抽取配置信息对前述其它产品合同的文档树进行要素自动抽取处理。
7.根据权利要求1所述的方法,其特征在于:所述要素审核系统基于同类产品要素核对模型对要素进行审核,判断产品合同抽取的要素相对于产品池中同类型的产品合同的要素信息的差别信息是否超过预设条件,判定超过预设条件时,触发报警并发送至关联的人工审核系统;
和/或,所述要素审核系统基于阀值控制模型对要素进行审核,判断产品合同抽取的要素对应的区间范围是否超出模型中预设的区间阈值时,判定超出预设的区间阈值时,触发报警并发送至关联的人工审核系统;
和/或,所述要素审核系统基于要素关联性核对模型对要素进行审核,判断产品合同抽取的要素是否包含限制信息且限制信息的值不为空,判定具有限制信息但限制信息的值为空时,触发报警并发送至关联的人工审核系统。
8.根据权利要求1所述的方法,其特征在于,还包括步骤:根据要素审核系统的审核结果,对于审核通过的要素,按照动态模板库中提供的模板自动生成要素化的产品合同。
9.根据权利要求1所述的方法,其特征在于:对应要素标注工具设置有要素抽取规则数据库,要素抽取规则数据库中存储有预设的要素抽取规则,在用户对参照合同设置要素标注信息时,通过用户图形界面输出要素抽取规则以供用户选择;所述要素抽取规则包括标准规则、正则抽取规则、组合规则、字典转换规则和/或用户语义转换规则;
和/或,对应要素标注工具设置有要素标签数据库,要素标签来自于前述要素标签数据库,在用户对参照合同设置要素标注信息时,采集用户在合同文档中标注的要素关键词,并通过用户图形界面输出要素标签列表供用户选择匹配的要素标签。
10.一种产品合同的要素智能抽取和审核系统,其特征在于包括:
产品文档库,用于存储产品的产品合同;
文档解析分类装置,用于采集产品文档库中存储的产品合同,对每个产品合同进行文档解析以建立该产品合同的文档索引链,根据各产品合同的文档索引链对产品文档库中所有的产品合同进行组类划分;其中,将文档索引链的层级关系完全一致的产品合同划分为同一合同类型,汇总产品文档库的所有合同类型信息,将只包括一个产品合同的合同类型设置为无效类型,将包括两个以上产品合同的合同类型设置为有效类型,将所有对应有效类型的产品合同划分为单一类合同组,将所有对应无效类型的产品合同划分为个性化合同组;以及,获取单一类合同组中的所有合同类型,基于各合同类型的文档索引链建立每个合同类型的合同模板;
要素标注抽取装置,用于对组类划分后的产品合同,依据前述有效类型从每类产品合同中选择至少一个产品合同作为参照合同,获取用户通过要素标注工具对前述参照合同设置的要素标注信息和要素抽取规则,根据前述要素标注信息和要素抽取规则抽取参照合同的产品要素并形成对应的要素抽取配置信息,不同类型的产品合同对应不同的要素抽取配置信息;将抽取的产品要素放入要素池,将该参照合同放入产品池并建立该参照合同与要素池中前述产品要素的对应关系;
要素抽取批量处理装置,用于对每类产品合同中的其它产品合同,根据产品合同的合同类型获取对应的要素抽取配置信息后,按照要素抽取配置信息进行产品要素自动抽取处理,将抽取的产品要素放入要素池,将包含相同产品要素的产品合同放入同一产品池中;以及,对抽取的产品要素按预设的格式进行格式化保存;
要素审核装置,将前述格式化保存的要素发送到关联的要素审核系统中进行审核。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111384034.1A CN114021544B (zh) | 2021-11-19 | 2021-11-19 | 产品合同的要素智能抽取和审核方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111384034.1A CN114021544B (zh) | 2021-11-19 | 2021-11-19 | 产品合同的要素智能抽取和审核方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114021544A true CN114021544A (zh) | 2022-02-08 |
CN114021544B CN114021544B (zh) | 2022-09-20 |
Family
ID=80065375
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111384034.1A Active CN114021544B (zh) | 2021-11-19 | 2021-11-19 | 产品合同的要素智能抽取和审核方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114021544B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114663069A (zh) * | 2022-04-11 | 2022-06-24 | 中国建筑第二工程局有限公司 | 一种工程项目合同全流程管理方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060242180A1 (en) * | 2003-07-23 | 2006-10-26 | Graf James A | Extracting data from semi-structured text documents |
CN106776538A (zh) * | 2016-11-23 | 2017-05-31 | 国网福建省电力有限公司 | 企业非标准格式文档的信息提取方法 |
CN112132214A (zh) * | 2020-09-22 | 2020-12-25 | 刘秀萍 | 兼容多种语言的文档信息精准提取系统 |
CN112380300A (zh) * | 2020-12-11 | 2021-02-19 | 武汉烽火众智数字技术有限责任公司 | 多类别事件要素抽取分析方法及设备 |
CN112417880A (zh) * | 2020-11-30 | 2021-02-26 | 太极计算机股份有限公司 | 一种面向法院电子卷宗的案情信息自动抽取方法 |
US20210081452A1 (en) * | 2016-10-26 | 2021-03-18 | Swiss Reinsurance Company Ltd. | Data extraction engine for structured, semi-structured and unstructured data with automated labeling and classification of data patterns or data elements therein, and corresponding method thereof |
CN112529743A (zh) * | 2020-12-18 | 2021-03-19 | 平安银行股份有限公司 | 合同要素抽取方法、装置、电子设备及介质 |
-
2021
- 2021-11-19 CN CN202111384034.1A patent/CN114021544B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060242180A1 (en) * | 2003-07-23 | 2006-10-26 | Graf James A | Extracting data from semi-structured text documents |
US20210081452A1 (en) * | 2016-10-26 | 2021-03-18 | Swiss Reinsurance Company Ltd. | Data extraction engine for structured, semi-structured and unstructured data with automated labeling and classification of data patterns or data elements therein, and corresponding method thereof |
CN106776538A (zh) * | 2016-11-23 | 2017-05-31 | 国网福建省电力有限公司 | 企业非标准格式文档的信息提取方法 |
CN112132214A (zh) * | 2020-09-22 | 2020-12-25 | 刘秀萍 | 兼容多种语言的文档信息精准提取系统 |
CN112417880A (zh) * | 2020-11-30 | 2021-02-26 | 太极计算机股份有限公司 | 一种面向法院电子卷宗的案情信息自动抽取方法 |
CN112380300A (zh) * | 2020-12-11 | 2021-02-19 | 武汉烽火众智数字技术有限责任公司 | 多类别事件要素抽取分析方法及设备 |
CN112529743A (zh) * | 2020-12-18 | 2021-03-19 | 平安银行股份有限公司 | 合同要素抽取方法、装置、电子设备及介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114663069A (zh) * | 2022-04-11 | 2022-06-24 | 中国建筑第二工程局有限公司 | 一种工程项目合同全流程管理方法及系统 |
CN114663069B (zh) * | 2022-04-11 | 2022-12-23 | 中国建筑第二工程局有限公司 | 一种工程项目合同全流程管理方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114021544B (zh) | 2022-09-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110826320B (zh) | 一种基于文本识别的敏感数据发现方法及系统 | |
US7376552B2 (en) | Text generator with an automated decision tree for creating text based on changing input data | |
US8112401B2 (en) | Analyzing externally generated documents in document management system | |
US9875319B2 (en) | Automated data parsing | |
CN110580308B (zh) | 信息审核方法及装置、电子设备、存储介质 | |
US8706470B2 (en) | Methods of offering guidance on common language usage utilizing a hashing function consisting of a hash triplet | |
CN107392143A (zh) | 一种基于svm文本分类的简历精确解析方法 | |
IES20020647A2 (en) | A data quality system | |
WO2023035330A1 (zh) | 一种长文本事件抽取方法、装置、计算机设备及存储介质 | |
CN111814482B (zh) | 文本关键数据的提取方法、系统和计算机设备 | |
US20110202545A1 (en) | Information extraction device and information extraction system | |
CN110910175B (zh) | 一种旅游门票产品画像生成方法 | |
CN103500216B (zh) | 一种文件信息的提取方法 | |
CN111492364B (zh) | 数据标注方法、装置及存储介质 | |
CN114021544B (zh) | 产品合同的要素智能抽取和审核方法及系统 | |
CN111831810A (zh) | 智能问答方法、装置、设备及存储介质 | |
CN114153839A (zh) | 多源异构数据的集成方法、装置、设备及存储介质 | |
CN112783825B (zh) | 数据归档方法、装置、计算机装置及存储介质 | |
CN115146062A (zh) | 融合专家推荐与文本聚类的智能事件分析方法和系统 | |
CN109902215A (zh) | 一种交易匹配的方法及系统 | |
CN118170907A (zh) | 一种基于深度神经网络的公文智能标签系统及其实现方法 | |
WO2024145289A1 (en) | Systems and methods for xbrl tag outlier detection | |
CN117077682B (zh) | 基于语义识别的公文分析方法及系统 | |
CN110532374B (zh) | 保险信息的处理方法及装置 | |
CN112100373A (zh) | 一种基于深度神经网络的合同文本分析方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |