CN110674250A - 一种文本匹配方法、装置、计算机系统及可读存储介质 - Google Patents
一种文本匹配方法、装置、计算机系统及可读存储介质 Download PDFInfo
- Publication number
- CN110674250A CN110674250A CN201910752608.2A CN201910752608A CN110674250A CN 110674250 A CN110674250 A CN 110674250A CN 201910752608 A CN201910752608 A CN 201910752608A CN 110674250 A CN110674250 A CN 110674250A
- Authority
- CN
- China
- Prior art keywords
- clause
- standard
- template
- matched
- short sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 230000014509 gene expression Effects 0.000 claims abstract description 137
- 238000002372 labelling Methods 0.000 claims abstract description 13
- 238000004590 computer program Methods 0.000 claims description 9
- 238000012550 audit Methods 0.000 claims description 8
- 238000005457 optimization Methods 0.000 claims description 8
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 3
- 230000002411 adverse Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Health & Medical Sciences (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- General Health & Medical Sciences (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Technology Law (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种文本匹配方法、装置、计算机系统及可读存储介质,适用于人工智能领域,包括以下步骤:识别并获取规范文件,获得所述规范文件中与数据库中预存的规范正则表达式匹配的规范短句,并汇总形成匹配短句集;根据所述匹配短句集与数据库库中预存的条款正则表达式,获得条款要素集;拆分当前条款模板并获得当前条款模板短句集;利用所述条款要素集识别所述当前条款模板短句集中的条款短句,并获得规定短句集;根据规定短句集标注当前条款模板,获得最新条款模板。本发明不仅减少了系统的运算负担,提高了标注效率,还最大程度的反应了合同条款和规范文件之间的关联,提高了标注准确度。
Description
技术领域
本发明涉及通信技术领域,尤其涉及一种文本匹配方法、装置、计算机系统及可读存储介质。
背景技术
随着国家对合同条款管控力度越来越严格,使得各企业均需要及时获取最新的法律法规、部门规章、单行条例、行业通知、国家标准、行业标准等具有规范性内容的规范文件,并根据该规范文件对合同条款进行标注,使其符合国家规定;
目前采用的方法大多为利用网络爬虫从互联网上爬取规范文件,利用关键字搜索对该文件进行检索,以获得关键信息,最后通过关键信息逐条与合同条款进行比对,并对其进行标注;
然而,这种方法由于采用的是关键字搜索,因此,将获得大量的关键信息,而这里面的关键信息大多为无用的“垃圾信息”,该“垃圾信息”仅因其内部含有关键字就认定其为关键信息,不仅提高了系统的运算负担,而且关键信息的准确度不高;又由于是采用含有大量“垃圾信息”于合同条款进行逐条比对,进一步的提高了系统的运算负担,进而造成标注准确度不佳,效率低下等问题。
发明内容
本发明的目的是提供一种文本匹配方法、装置、计算机系统及可读存储介质,用于解决现有技术存在的问题。
为实现上述目的,本发明提供一种文本匹配方法,包括以下步骤:
S1:识别并获取规范文件,获得所述规范文件中与数据库中预存的规范正则表达式匹配的规范短句,并汇总形成匹配短句集;
S2:根据所述匹配短句集与数据库库中预存的条款正则表达式,获得条款要素集;
S3:拆分当前条款模板并获得当前条款模板短句集;
S4:利用所述条款要素集识别所述条款模板短句集中的条款短句,并获得规定短句集;
S5:根据规定短句集标注当前条款模板,获得最新条款模板。
上述方案中,所述步骤S1包括:
S11:利用网络爬虫定期在互联网中识别并获取规范文件;
S12:将所述规范文件与数据库中的规范档案对比,并判断所述规范文件与规范档案是否一致;若所述规范文件与所述数据库中的任一规范档案均不一致,则生成规范更新指令;若所述规范文件与所述数据库中的某一规范档案一致,则生成规范最新指令;
S13:根据规范更新指令将所述规范文件拆分成多个规范短句,形成规范短句集;再将所述规范文件转为规范档案并储存至所述数据库;或
根据规范最新指令终止文本匹配;
S14:利用数据库中预存的规范正则表达式识别所述规范短句集中的文本信息;若所述规范短句集中所有规范短句均不与所述规范正则表达式匹配,则终止文本匹配;若所述规范短句集中至少有一个规范短句与所述规范正则表达式匹配,则生成匹配信号,并将与所述规范正则表达式匹配的规范短句汇总获得匹配短句集;其中,所述匹配短句集中至少具有一个规范短句。
上述方案中,所述步骤S2包括:
S21:利用数据库识别所述匹配短句集中的规范短句;
S22:若所述匹配短句集中至少有一个规范短句与所述数据库中的条款正则表达式匹配,则生成要素信号;若所述匹配短句集中所有规范短句均不与所述数据库中的条款正则表达式匹配,则生成优化信号;
S23:根据要素信号在所述数据库中搜索与所述规范语句匹配的条款正则表达式相关的命名实体,并获得与该规范语句匹配的命名实体;汇总命名实体形成条款要素集,并对所述条款要素集中的命名实体去重;其中,所述条款要素集中至少具有一个命名实体;或
根据所述优化信号生成审核需求通知,并通过显示设备显示所述审核需求通知。
上述方案中,所述步骤S23包括:
S23-1:根据要素信号在数据库中搜索与所述规范语句匹配的条款正则表达式;
S23-2:根据所述条款正则表达式的命名实体制定联想正则表达式;
S23-3:将各联想正则表达式分别与所述规范语句进行匹配,获得与所述规范语句匹配的联想正则表达式,并将所述联想正则表达式判定为匹配表达式;若所有的联想正则表达式均不与所述规范语句匹配,则判定所述正则表达式为匹配表达式;
S23-4:提取所述匹配表达式的命名实体,以获得与该规范语句匹配的命名实体;
S23-5:汇总命名实体形成条款要素集,并对所述条款要素集中的命名实体去重。
上述方案中,所述步骤S3包括:
S31:拆分当前条款模板,获得条款短句;其中,以句号为分割标记拆分当前条款模板;
S32:汇总所述条款短句,获得条款模板短句集。
上述方案中,所述步骤S4包括:
S41:将所述条款要素集中的命名实体制成模板正则表达式;
S42:利用所述模板正则表达式依次识别所述条款模板短句集中的条款短句;
S43:获得与所述模板正则表达式匹配的条款短句,并将所述条款短句设定为规定短句;
S44:汇总所述规定短句形成规定短句集;其中,所述规定短句集中至少具有一个规定短句。
上述方案中,所述步骤S5包括:
S51:在所述当前条款模板中查找出所有与所述规定短句集中的规定短句匹配的条款短句;
S52:对查找出的条款短句进行标注;
S53:保存标注完成后的当前条款模板,获得最新条款模板。
为实现上述目的,本发明还提供一种文本匹配装置,包括:
当前条款模板短句集当前条款模板短句集识别模块,用于识别并获取规范文件,获得所述规范文件中与数据库中预存的规范正则表达式匹配的规范短句,并汇总形成匹配短句集;
要素模块,用于根据所述匹配短句集与数据库库中预存的条款正则表达式,获得条款要素集;
拆分模块,用于拆分当前条款模板并获得当前条款模板短句集;
要素识别模块,用于利用所述条款要素集识别所述条款模板短句集中的条款短句,并获得规定短句集;
标注模块,用于根据规定短句集标注当前条款模板,获得最新条款模板。
为实现上述目的,本发明还提供一种计算机系统,其包括多个计算机设备,各计算机设备包括存储器.处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述多个计算机设备的处理器执行所述计算机程序时共同实现上述文本匹配方法的步骤。
为实现上述目的,本发明还提供一种计算机可读存储介质,其包括多个存储介质,各存储介质上存储有计算机程序,所述多个存储介质存储的所述计算机程序被处理器执行时共同实现上述文本匹配方法的步骤。
本发明提供的一种文本匹配方法、装置、计算机系统及可读存储介质,通过利用识别模块识别规范文件并获得匹配短句集,保证能够及时从政府网站获取最新的法律法规、部门规章、单行条例、行业通知、国家标准、行业标准等具有规范性内容的规范文件;利用要素模块,用于根据所述匹配短句集获得条款要素集,以从规范文件中获取条款要素集,再利用拆分模块拆分条款模板并获得当前条款模板短句集;然后通过要素识别模块利用所述条款要素集识别所述当前条款模板短句集中的条款短句,并获得规定短句集;其中,规定短句集中包括规范文件要求条款模板进行标注的规定短句;最后利用标注模块根据规定短句集标注条款模板,对条款模板中与规定短句匹配的条款短句进行标注,生成最新条款模板并储存;
这种方式不仅无需人力投入,避免了因人为因素造成疏漏,给企业带来严重的不良影响的情况发生;同时还通过规范正则表达式获得匹配短句集,再通过所述匹配短句集和条款正则表达式获得具有命名实体的条款要素集,最后利用条款要素集识别当前条款模板中的规定短句并对其进行标注,由于条款要素集中的命名实体即满足规范正则表达式,又满足条款正则表达式,因此避免了只采用关键字搜索而产生大量“垃圾信息”的情况发生,不仅减少了系统的运算负担,提高了标注效率,还最大程度的反应了合同条款和规范文件之间的关联,提高了标注准确度。
附图说明
图1为本发明文本匹配方法的实施例一的流程图;
图2为本发明文本匹配方法的实施例一中文本匹配装置与互联网之间的工作流程图;
图3为本发明文本匹配装置的实施例二的程序模块示意图;
图4为本发明计算机系统的实施例三中计算机设备的硬件结构示意图。
附图标记:
1、文本匹配装置 2、互联网 3、计算机设备 11、识别模块
12、要素模块 13、拆分模块 14、要素识别模块 15、标注模块
31、存储器 32、处理器 111、爬虫单元 112、对比单元
113、规范拆分单元 114、规范正则匹配单元 121、要素识别单元
122、要素判定单元 123、要素汇总单元 131、条款拆分单元
132、条款汇总单元 141、条款正则生成单元 142、条款语句识别单元
143、规定短句设定单元 144、规定短句汇总单元
151、条款短句识别单元 152、条款短句标注单元 153、新模板生成单元
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供的一种文本匹配方法、装置、计算机系统及可读存储介质,适用于人工智能领域,为提供一种基于识别模块、要素模块、拆分模块、要素识别模块和标注模块的文本匹配方法。本发明通过利用识别模块识别规范文件并获得匹配短句集,保证能够及时从政府网站获取最新的法律法规、部门规章、单行条例、行业通知、国家标准、行业标准等具有规范性内容的规范文件;利用要素模块,用于根据所述匹配短句集获得条款要素集,以从规范文件中获取条款要素集,再利用拆分模块拆分条款模板并获得当前条款模板短句集;然后通过要素识别模块利用所述条款要素集识别所述当前条款模板短句集中的条款短句,并获得规定短句集;其中,规定短句集中包括规范文件要求条款模板进行标注的规定短句;最后利用标注模块根据规定短句集标注条款模板,对条款模板中与规定短句匹配的条款短句进行标注,生成最新条款模板并储存;这种方式不仅无需人力投入,还避免了因人为因素造成疏漏,给企业带来严重的不良影响,甚至容易导致企业由于条款问题导致被监管处罚的情况发生。
实施例一:
请参阅图1和图2,本实施例的一种文本匹配方法,利用文本匹配装置1,包括以下步骤:
S1:识别并获取规范文件,获得所述规范文件中与数据库中预存的规范正则表达式匹配的规范短句,并汇总形成匹配短句集;
S2:根据所述匹配短句集与数据库库中预存的条款正则表达式,获得条款要素集;
S3:拆分当前条款模板并获得当前条款模板短句集;
S4:利用所述条款要素集识别所述当前条款模板短句集中的条款短句,并获得规定短句集;
S5:根据规定短句集标注当前条款模板,获得最新条款模板。
具体的,所述步骤S1包括:
S11:利用网络爬虫定期在互联网2中识别并获取规范文件;其中,所述规范文件包括法律法规、部门规章、单行条例、行业通知、国家标准、行业标准等具有规范性内容的文件;
S12:将所述规范文件与数据库中的规范档案对比,并判断所述规范文件与规范档案是否一致;若所述规范文件与所述数据库中的任一规范档案均不一致,则生成规范更新指令;若所述规范文件与所述数据库中的某一规范档案一致,则生成规范最新指令;
本步骤中,规范更新指令用于表达所述规范文件与规范数据库中的所有规范档案不重合,因此,认定当前条款模板为非最新条款模板;
所述规范最新指令用于表达所述规范文件与规范数据库中当前的某一规范档案重合,因此,认定当前条款模板已为最新条款模板;
S13:根据规范更新指令将所述规范文件拆分成多个规范短句,形成规范短句集;再将所述规范文件转为规范档案并储存至所述数据库;或
根据规范最新指令终止文本匹配;由于规范最新指令为认定当前条款模板已为最新条款模板,因此将终止文本匹配;
S14:利用数据库中预存的规范正则表达式识别所述规范短句集中的文本信息;若所述规范短句集中所有规范短句均不与所述规范正则表达式匹配,则终止文本匹配;若所述规范短句集中至少有一个规范短句与所述规范正则表达式匹配,则生成匹配信号,并将与所述规范正则表达式匹配的规范短句汇总获得匹配短句集;其中,所述匹配短句集中至少具有一个规范短句。
进一步的,所述规范正则表达式可根据需要制定。
例如:规范正则表达式为“加粗”,规范短句集中包括:
第一条规范短句“……在保险条款中,必须将保险金额的字体加粗,……”;
第二条规范短句“……签订保险条款时,必须核实被保险者身份信息……”
第三条规范短句“……对条款签订者的权利义务范围,必须通过加粗字体的方式,以对签订者进行提示,……”;
利用规范正则表达式识别可知,第一条规范短句和第三条规范短句分别与规范正则表达式匹配,因此,将汇总第一条和第三条规范短句形成匹配短句集。
优选的,所述步骤S13中,根据规范更新指令以句号为分割标记,将所述规范文件拆分成多个短句。
具体的,所述步骤S2包括:
S21:利用数据库识别所述匹配短句集中的规范短句;
S22:若所述匹配短句集中至少有一个规范短句与所述数据库中的条款正则表达式匹配,则生成要素信号;若所述匹配短句集中所有规范短句均不与所述数据库中的条款正则表达式匹配,则生成优化信号;
S23:根据要素信号在所述数据库中搜索与所述规范语句匹配的条款正则表达式相关的命名实体,并获得与该规范语句匹配的命名实体;汇总命名实体形成条款要素集,并对所述条款要素集中的命名实体去重;其中,所述条款要素集中至少具有一个命名实体;或
根据所述优化信号生成审核需求通知,并通过显示设备显示所述审核需求通知。
具体的,所述步骤S21的数据库中设置有条款正则表达式集,所述条款正则表达式集具有根据合同条款要素集制定的条款正则表达式,分别为总则正则表达式、保险标的正则表达式、保险责任正则表达式、责任免除正则表达式、赔偿限额与免赔额(率)正则表达式、保险期间正则表达式、保险人义务正则表达式、投保人与被保险人义务正则表达式;赔偿处理正则表达式、争议处理和法律适用正则表达式、其他事项正则表达式、释义正则表达式、附录正则表达式。
进一步的,所述步骤S22包括:依次将所述条款正则表达式集中的各条款正则表达式对所述匹配短句集中的规范短句进行匹配;
例如:第一条规范短句“……除另有约定外,保险期间为一年,以保险单载明的起讫时间为准。保险合同未载明追溯期的,则无追溯期……”;
第二条规范短句“……投保人故意或者因重大过失未履行前款规定的如实告知义务,足以影响保险人决定是否同意承保或者提高保险费率的,保险人有权解除保险合同……”;
第三条规范短句“……被保险人给第三者造成损害,被保险人未向该第三者赔偿的,保险人不负责向被保险人赔偿保险金……”;
保险期间正则表达式为“追溯期”,投保人与被保险人义务正则表达式为“有权解除+合同”,赔偿处理正则表达式为“不负责+赔偿”;则保险期间正则表达式集的价款正则表达式与第一条规范语句的“追溯期”匹配;条款正则表达式集的投保人与被保险人义务正则表达式和赔偿处理正则表达式分别与第二条规范语句“保险人有权解除保险合同”和第三条规范语句“保险人不负责向被保险人赔偿保险金”匹配。
进一步的,所述步骤S23包括:
S23-1:根据要素信号在数据库中搜索与所述规范语句匹配的;
S23-2:根据所述条款正则表达式的命名实体制定联想正则表达式;
本步骤中,数据库中预存有实体词库,从所述实体词库中获取具有所述命名实体的词汇,并根据该词汇制定联想正则表达式;
S23-3:将各联想正则表达式分别与所述规范语句进行匹配,获得与所述规范语句匹配的联想正则表达式,并将所述联想正则表达式判定为匹配表达式;若所有的联想正则表达式均不与所述规范语句匹配,则判定所述条款正则表达式为匹配表达式;
S23-4:提取所述匹配表达式的命名实体,以获得与该规范语句匹配的命名实体;
S23-5:汇总命名实体形成条款要素集,并对所述条款要素集中的命名实体去重。
例如:若保险期间正则表达式为“追溯期”,则保险期间正则表达式与第一条规范语句匹配;根据“追溯期”在数据库的实体词库中搜索具有“追溯期”的词汇,如“存款追溯期”“保险追溯期”“存入追溯期”等,再将上述词汇分别制成期限联想正则表达式,并将其与第一条规范语句进行匹配;当所有的联想正则表达式均不与第一条规范语句匹配,则判定保险期间正则表达式为匹配表达式,并提取所述匹配表达式中的命名实体,即“追溯期”。
若保险期间正则表达式为“期间”,则保险期间正则表达式与第一条规范语句匹配;根据“期间”在数据库的实体词库中搜索具有“期间”的词汇,如“存款期间”“保险期间”“存入期间”等,再将上述词汇分别制成期限联想正则表达式,并将其与第一条规范语句进行匹配,最终获得与第一条规范语句匹配的联想正则表达式,并将其判定为匹配表达式,即具有“保险期间”的联想正则表达式;提取该匹配表达式的命名实体,即“保险期间”。
优选的,所述步骤S3包括:
S31:拆分当前条款模板,获得当前条款模板短句;其中,以句号为分割标记拆分的当前条款模板;
S31:拆分当前条款模板,获得条款短句;其中,以句号为分割标记拆分当前条款模板;
本步骤中,所述当前条款模板为企业当前所使用的条款模板,所述当前条款模板预存在数据库中;当获得条款要素集时,将从数据库中提取当前条款模板;
具体的,所述S31包括以下步骤:
S31-1:在当前条款模板中文字开始部分插入分隔符;
S31-2:遍历当前条款模板,并依次识别所述当前条款模板中的句号;
S31-3:在所述句号的位置插入分隔符;
S31-4:依次提取所述当前条款模板中两个分隔符之间的文字作为条款语句,以实现拆分当前条款模板的效果;
S32:汇总所述当前条款模板短句,获得当前条款模板短句集。
具体的,所述步骤S4包括:
S41:将所述条款要素集中的命名实体制成模板正则表达式;
S42:利用所述模板正则表达式依次识别所述当前条款模板短句集中的条款短句;
S43:获得与所述模板正则表达式匹配的条款短句,并将所述条款短句设定为规定短句;
S44:汇总所述规定短句形成规定短句集;其中,所述规定短句集中至少具有一个规定短句。
具体的,所述步骤S5包括:
S51:在所述条款模板中查找出所有与所述规定短句集中的规定短句匹配的条款短句;
S52:对查找出的条款短句进行标注;其中,标注方式可为阴影、加粗、变色等方式。
所述S52中,通过在所述条款短句所在的位置底层插入阴影区域实现对条款短句进行标注的效果;其中,所述阴影区域长度与所述条款短句的长度一致,所述阴影区域的高度与所述条款短句中字体的高度一致,所述阴影区域的亮度小于所述条款短句中字体的亮度;插入阴影区域所调用的函数属性可为text shadow。
进一步地,所述S52中,通过采用呈现引擎对条款短句中的文字进行模拟加粗,并最终在显示器上显示加粗后的条款短句;其中,模拟加粗是由呈现引擎基于来自常规字体的数据执行的一种自动化的算法过程,当前应用的模拟加粗是由一统一算法来执行的;条款短句中的文字经所述呈现引擎模拟加粗并最终呈现的全过程可被划分成三个阶段:
第一阶段,访问来自所述条款短句的文字信息,且如有需要将其转换成光栅化器可读格式;
第二阶段,进行将光栅化器可读字体格式转换成称为位图的二维值数组的光栅化过程;其中,模拟加粗在光栅化过程期间进行,并且在光栅化阶段呈现模式定义了位图的最终格式,尤其是在应用了加粗的情况下加粗的位图的输出格式;当前,有三种主要呈现模式:即黑白(BW)、抗混叠(AA)和CLEARTYPE(CT)。
第三阶段,进行位图值到显示器像素(或像素子分量)的实际映射,从而导致该文字被显示,进而实现条款模板中条款短句的加粗标注。
进一步地,所述S52中,提供标注RGB分量,并提取条款模板中的文字,将所述文字的RGB分量修改为所述标注RGB分量,以实现对条款模板中条款语句的变色标注;其中,对文字进行颜色标注可调用函数color。
S53:保存标注完成后的条款模板,获得最新条款模板。
优选的,所述条款模板和最新条款模板均为doc格式。
实施例二:
请参阅图3,本实施例的一种文本匹配装置1,包括:
识别模块11,用于识别并获取规范文件,获得所述规范文件中与数据库中预存的规范正则表达式匹配的规范短句,并汇总形成匹配短句集;
要素模块12,用于根据所述匹配短句集与数据库库中预存的条款正则表达式,获得条款要素集;
拆分模块13,用于拆分当前条款模板并获得当前条款模板短句集;
要素识别模块14,用于利用所述条款要素集识别所述当前条款模板短句集中的条款短句,并获得规定短句集;
标注模块15,用于根据规定短句集标注当前条款模板,获得最新条款模板。
具体的,识别模块11包括:
爬虫单元111,用于利用网络爬虫定期在互联网2中识别并获取规范文件;
对比单元112,用于将所述规范文件与数据库中的规范档案对比,并判断所述规范文件与规范档案是否一致;若所述规范文件与所述数据库中的任一规范档案均不一致,则生成规范更新指令;若所述规范文件与所述数据库中的某一规范档案一致,则生成规范最新指令;
规范拆分单元113,用于文本匹配根据规范更新指令将所述规范文件拆分成多个规范短句,形成规范短句集;再将所述规范文件转为规范档案并储存至所述数据库;或根据规范最新指令终止文本匹配;
规范正则匹配单元114,用于文本匹配利用数据库中预存的规范正则表达式识别所述规范短句集中的文本信息;若所述规范短句集中所有规范短句均不与所述规范正则表达式匹配,则终止文本匹配;若所述规范短句集中至少有一个规范短句与所述规范正则表达式匹配,则生成匹配信号,并将与所述规范正则表达式匹配的规范短句汇总获得匹配短句集;其中,所述匹配短句集中至少具有一个规范短句。
具体的,要素模块12包括:
要素识别单元121,用于利用数据库识别所述匹配短句集中的规范短句;
要素判定单元122,用于若所述匹配短句集中至少有一个规范短句与所述数据库中的正则表达式匹配,则生成要素信号;若所述匹配短句集中所有规范短句均不与所述数据库中的正则表达式匹配,则生成优化信号;
要素汇总单元123,用于根据要素信号在所述数据库中搜索与所述规范语句匹配的条款正则表达式相关的命名实体,并获得与该规范语句匹配的命名实体;汇总命名实体形成条款要素集,并对所述条款要素集中的命名实体去重;其中,所述条款要素集中至少具有一个命名实体;或根据所述优化信号生成审核需求通知,并通过显示设备显示所述审核需求通知。
具体的,拆分模块13包括:
条款拆分单元131,用于拆分当前条款模板,获得条款短句;
条款汇总单元132,用于汇总所述条款短句,获得当前条款模板短句集。
具体的,要素识别模块14包括:
条款正则生成单元141,用于条款正则表达式将所述条款要素集中的命名实体制成模板正则表达式;
条款语句识别单元142,用于条款正则表达式利用所述模板正则表达式依次识别所述当前条款模板短句集中的条款短句;
规定短句设定单元143,用于条款正则表达式获得与所述模板正则表达式匹配的条款短句,并将所述条款短句设定为规定短句;
规定短句汇总单元144,用于汇总所述规定短句形成规定短句集。
具体的,标注模块15包括:
条款短句识别单元151,用于在所述当前条款模板中查找出所有与所述规定短句集中的规定短句匹配的条款短句;
条款短句标注单元152,用于对查找出的条款短句进行标注;
新模板生成单元153,用于保存标注完成后的当前条款模板,获得最新条款模板。
本技术方案基于人工智能领域,通过语义解析技术,利用识别模块识别规范文件并获得匹配短句集,保证能够及时从政府网站获取最新的法律法规、部门规章、单行条例、行业通知、国家标准、行业标准等具有规范性内容的规范文件;利用要素模块,用于根据所述匹配短句集获得条款要素集,以从规范文件中获取条款要素集,再利用拆分模块拆分条款模板并获得当前条款模板短句集;然后通过要素识别模块利用所述条款要素集识别所述当前条款模板短句集中的条款短句,并获得规定短句集;其中,规定短句集中包括规范文件要求条款模板进行标注的规定短句;最后利用标注模块根据规定短句集标注条款模板,对条款模板中与规定短句匹配的条款短句进行标注,实现对条款模板进行自然语言处理的技术效果。
实施例三:
为实现上述目的,本发明还提供一种计算机系统,该计算机系统包括多个计算机设备3,实施例二的文本匹配装置1的组成部分可分散于不同的计算机设备中,计算机设备可以是执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。本实施例的计算机设备至少包括但不限于:可通过系统总线相互通信连接的存储器31、处理器32,如图4所示。需要指出的是,图4仅示出了具有组件-的计算机设备,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
本实施例中,存储器31(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器31可以是计算机设备的内部存储单元,例如该计算机设备的硬盘或内存。在另一些实施例中,存储器31也可以是计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器31还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中,存储器31通常用于存储安装于计算机设备的操作系统和各类应用软件,例如实施例一的文本匹配装置的程序代码等。此外,存储器31还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器32在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器32通常用于控制计算机设备的总体操作。本实施例中,处理器32用于运行存储器31中存储的程序代码或者处理数据,例如运行文本匹配装置,以实现实施例一的文本匹配方法。
实施例四:
为实现上述目的,本发明还提供一种计算机可读存储系统,其包括多个存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器32执行时实现相应功能。本实施例的计算机可读存储介质用于存储文本匹配装置,被处理器32执行时实现实施例一的文本匹配方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种文本匹配方法,其特征在于,包括以下步骤:
S1:识别并获取规范文件,获得所述规范文件中与数据库中预存的规范正则表达式匹配的规范短句,并汇总形成匹配短句集;
S2:根据所述匹配短句集与数据库库中预存的条款正则表达式,获得条款要素集;
S3:拆分当前条款模板并获得当前条款模板短句集;
S4:利用所述条款要素集识别所述当前条款模板短句集中的条款短句,并获得规定短句集;
S5:根据规定短句集标注当前条款模板,获得最新条款模板。
2.根据权利要求1所述的一种文本匹配方法,其特征在于,所述步骤S1包括:
S11:利用网络爬虫定期在互联网中识别并获取规范文件;
S12:将所述规范文件与数据库中的规范档案对比,并判断所述规范文件与规范档案是否一致;若所述规范文件与所述数据库中的任一规范档案均不一致,则生成规范更新指令;若所述规范文件与所述数据库中的某一规范档案一致,则生成规范最新指令;
S13:根据规范更新指令将所述规范文件拆分成多个规范短句,形成规范短句集;再将所述规范文件转为规范档案并储存至所述数据库;或
根据规范最新指令终止文本匹配;
S14:利用数据库中预存的规范正则表达式识别所述规范短句集中的文本信息;若所述规范短句集中所有规范短句均不与所述规范正则表达式匹配,则终止文本匹配;若所述规范短句集中至少有一个规范短句与所述规范正则表达式匹配,则生成匹配信号,并将与所述规范正则表达式匹配的规范短句汇总获得匹配短句集;其中,所述匹配短句集中至少具有一个规范短句。
3.根据权利要求1所述的一种文本匹配方法,其特征在于,所述步骤S2包括:
S21:利用数据库识别所述匹配短句集中的规范短句;
S22:若所述匹配短句集中至少有一个规范短句与所述数据库中的条款正则表达式匹配,则生成要素信号;若所述匹配短句集中所有规范短句均不与所述数据库中的条款正则表达式匹配,则生成优化信号;
S23:根据要素信号在所述数据库中搜索与所述规范语句匹配的条款正则表达式相关的命名实体,并获得与该规范语句匹配的命名实体;汇总命名实体形成条款要素集,并对所述条款要素集中的命名实体去重;其中,所述条款要素集中至少具有一个命名实体;或
根据所述优化信号生成审核需求通知,并通过显示设备显示所述审核需求通知。
4.根据权利要求3所述的一种文本匹配方法,其特征在于,所述步骤S23包括:
S23-1:根据要素信号在数据库中搜索与所述规范语句匹配的条款正则表达式;
S23-2:根据所述条款正则表达式的命名实体制定联想正则表达式;
S23-3:将各联想正则表达式分别与所述规范语句进行匹配,获得与所述规范语句匹配的联想正则表达式,并将所述联想正则表达式判定为匹配表达式;若所有的联想正则表达式均不与所述规范语句匹配,则判定所述正则表达式为匹配表达式;
S23-4:提取所述匹配表达式的命名实体,以获得与该规范语句匹配的命名实体;
S23-5:汇总命名实体形成条款要素集,并对所述条款要素集中的命名实体去重。
5.根据权利要求1所述的一种文本匹配方法,其特征在于,所述步骤S3包括:
S31:拆分当前条款模板,获得条款短句;其中,以句号为分割标记拆分当前条款模板;
S32:汇总所述条款短句,获得当前条款模板短句集。
6.根据权利要求1所述的一种文本匹配方法,其特征在于,所述步骤S4包括:
S41:将所述条款要素集中的命名实体制成模板正则表达式;
S42:利用所述模板正则表达式依次识别所述当前条款模板短句集中的条款短句;
S43:获得与所述模板正则表达式匹配的条款短句,并将所述条款短句设定为规定短句;
S44:汇总所述规定短句形成规定短句集;其中,所述规定短句集中至少具有一个规定短句。
7.根据权利要求1所述的一种文本匹配方法,其特征在于,所述步骤S5包括:
S51:在所述当前条款模板中查找出所有与所述规定短句集中的规定短句匹配的条款短句;
S52:对查找出的条款短句进行标注;
S53:保存标注完成后的当前条款模板,获得最新条款模板。
8.一种文本匹配装置,其特征在于,包括:
识别模块,用于识别并获取规范文件,获得所述规范文件中与数据库中预存的规范正则表达式匹配的规范短句,并汇总形成匹配短句集;
要素模块,用于根据所述匹配短句集与数据库库中预存的条款正则表达式,获得条款要素集;
拆分模块,用于拆分当前条款模板并获得当前条款模板短句集;
要素识别模块,用于利用所述条款要素集识别所述条款模板短句集中的条款短句,并获得规定短句集;
标注模块,用于根据规定短句集标注当前条款模板,获得最新条款模板。
9.一种计算机系统,其包括多个计算机设备,各计算机设备包括存储器.处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述多个计算机设备的处理器执行所述计算机程序时共同实现权利要求1至7任一项所述文本匹配方法的步骤。
10.一种计算机可读存储介质,其包括多个存储介质,各存储介质上存储有计算机程序,其特征在于,所述多个存储介质存储的所述计算机程序被处理器执行时共同实现权利要求1至7任一项所述文本匹配方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910752608.2A CN110674250B (zh) | 2019-08-15 | 2019-08-15 | 一种文本匹配方法、装置、计算机系统及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910752608.2A CN110674250B (zh) | 2019-08-15 | 2019-08-15 | 一种文本匹配方法、装置、计算机系统及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110674250A true CN110674250A (zh) | 2020-01-10 |
CN110674250B CN110674250B (zh) | 2023-06-23 |
Family
ID=69075337
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910752608.2A Active CN110674250B (zh) | 2019-08-15 | 2019-08-15 | 一种文本匹配方法、装置、计算机系统及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110674250B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111859857A (zh) * | 2020-06-30 | 2020-10-30 | 上海森亿医疗科技有限公司 | 基于标注文本的训练数据集生成方法、系统、设备和介质 |
CN111949756A (zh) * | 2020-07-16 | 2020-11-17 | 新疆中顺鑫和供应链管理股份有限公司 | 危化品检索方法、装置、电子设备和介质 |
CN112835857A (zh) * | 2021-02-07 | 2021-05-25 | 福建师范大学 | 一种工作群组的文件主名管理方法 |
CN113704181A (zh) * | 2021-07-12 | 2021-11-26 | 中煤天津设计工程有限责任公司 | 一种基于python的标准和规程与图集有效性检验方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120036130A1 (en) * | 2007-12-21 | 2012-02-09 | Marc Noel Light | Systems, methods, software and interfaces for entity extraction and resolution and tagging |
CN103885934A (zh) * | 2014-02-19 | 2014-06-25 | 中国专利信息中心 | 一种专利文献关键短语自动提取方法 |
JP2018190184A (ja) * | 2017-05-07 | 2018-11-29 | ナレルシステム株式会社 | 自然言語テキストからアイディアを自動合成する方法、コンピュータプログラム及び装置 |
CN109035032A (zh) * | 2018-06-11 | 2018-12-18 | 中国平安人寿保险股份有限公司 | 数据结构化处理方法、装置、计算机设备及存储介质 |
CN109614463A (zh) * | 2018-10-24 | 2019-04-12 | 阿里巴巴集团控股有限公司 | 文本匹配处理方法及装置 |
-
2019
- 2019-08-15 CN CN201910752608.2A patent/CN110674250B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120036130A1 (en) * | 2007-12-21 | 2012-02-09 | Marc Noel Light | Systems, methods, software and interfaces for entity extraction and resolution and tagging |
CN103885934A (zh) * | 2014-02-19 | 2014-06-25 | 中国专利信息中心 | 一种专利文献关键短语自动提取方法 |
JP2018190184A (ja) * | 2017-05-07 | 2018-11-29 | ナレルシステム株式会社 | 自然言語テキストからアイディアを自動合成する方法、コンピュータプログラム及び装置 |
CN109035032A (zh) * | 2018-06-11 | 2018-12-18 | 中国平安人寿保险股份有限公司 | 数据结构化处理方法、装置、计算机设备及存储介质 |
CN109614463A (zh) * | 2018-10-24 | 2019-04-12 | 阿里巴巴集团控股有限公司 | 文本匹配处理方法及装置 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111859857A (zh) * | 2020-06-30 | 2020-10-30 | 上海森亿医疗科技有限公司 | 基于标注文本的训练数据集生成方法、系统、设备和介质 |
CN111859857B (zh) * | 2020-06-30 | 2021-08-27 | 上海森亿医疗科技有限公司 | 基于标注文本的训练数据集生成方法、系统、设备和介质 |
CN111949756A (zh) * | 2020-07-16 | 2020-11-17 | 新疆中顺鑫和供应链管理股份有限公司 | 危化品检索方法、装置、电子设备和介质 |
CN112835857A (zh) * | 2021-02-07 | 2021-05-25 | 福建师范大学 | 一种工作群组的文件主名管理方法 |
CN112835857B (zh) * | 2021-02-07 | 2022-08-30 | 福建师范大学 | 一种工作群组的文件主名管理方法 |
CN113704181A (zh) * | 2021-07-12 | 2021-11-26 | 中煤天津设计工程有限责任公司 | 一种基于python的标准和规程与图集有效性检验方法 |
CN113704181B (zh) * | 2021-07-12 | 2024-01-30 | 中煤天津设计工程有限责任公司 | 一种基于python的标准和规程与图集有效性检验方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110674250B (zh) | 2023-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110704633B (zh) | 命名实体识别方法、装置、计算机设备及存储介质 | |
CN110674250B (zh) | 一种文本匹配方法、装置、计算机系统及可读存储介质 | |
CN108874928B (zh) | 简历数据信息解析处理方法、装置、设备及存储介质 | |
CN112016273B (zh) | 文档目录生成方法、装置、电子设备及可读存储介质 | |
US8892579B2 (en) | Method and system of data extraction from a portable document format file | |
CN110765770A (zh) | 一种合同自动生成方法及装置 | |
CN109189888B (zh) | 电子装置、侵权分析的方法及存储介质 | |
WO2019075967A1 (zh) | 企业名称识别方法、电子设备及计算机可读存储介质 | |
US9330323B2 (en) | Redigitization system and service | |
CN111489105B (zh) | 一种企业风险识别方法、装置及设备 | |
CN109446499B (zh) | 基于xml的合同模板生成方法、装置、设备及介质 | |
US20240193522A1 (en) | Citation and policy based document classification | |
CN112052305A (zh) | 信息提取方法、装置、计算机设备及可读存储介质 | |
CN111831920A (zh) | 用户需求分析方法、装置、计算机设备及存储介质 | |
CN112418813A (zh) | 基于智能解析识别的aeo资质智能评级管理系统、方法及存储介质 | |
CN110705211A (zh) | 文本重点内容标记方法、装置、计算机设备及存储介质 | |
CN112131292A (zh) | 一种变更数据的结构化处理方法和装置 | |
CN109670183B (zh) | 一种文本重要性的计算方法、装置、设备和存储介质 | |
CN111198943B (zh) | 一种简历筛选方法、装置及终端设备 | |
CN113610375B (zh) | 基于自然语言处理的保单核保方法及核保装置 | |
US11281901B2 (en) | Document extraction system and method | |
CN114049686A (zh) | 签名识别模型训练方法、装置及电子设备 | |
CN112528100A (zh) | 一种标签策略推荐和打标方法、终端设备及存储介质 | |
CN110909538A (zh) | 问答内容的识别方法、装置、终端设备及介质 | |
CN112507909B (zh) | 基于ocr识别的单证数据提取方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |