CN111091009A - 一种基于语义分析的文档关联审核方法 - Google Patents
一种基于语义分析的文档关联审核方法 Download PDFInfo
- Publication number
- CN111091009A CN111091009A CN201911139373.6A CN201911139373A CN111091009A CN 111091009 A CN111091009 A CN 111091009A CN 201911139373 A CN201911139373 A CN 201911139373A CN 111091009 A CN111091009 A CN 111091009A
- Authority
- CN
- China
- Prior art keywords
- document
- semantic
- conflict
- method based
- semantic analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000004458 analytical method Methods 0.000 title claims abstract description 37
- 230000011218 segmentation Effects 0.000 claims abstract description 16
- 238000012545 processing Methods 0.000 claims abstract description 15
- 238000012549 training Methods 0.000 claims abstract description 14
- 238000007781 pre-processing Methods 0.000 claims abstract description 12
- 238000012216 screening Methods 0.000 claims abstract description 7
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000003672 processing method Methods 0.000 claims description 3
- 230000002776 aggregation Effects 0.000 claims description 2
- 238000004220 aggregation Methods 0.000 claims description 2
- 230000000692 anti-sense effect Effects 0.000 claims description 2
- 238000000605 extraction Methods 0.000 claims description 2
- 239000003607 modifier Substances 0.000 claims description 2
- 230000001105 regulatory effect Effects 0.000 claims description 2
- 238000002372 labelling Methods 0.000 claims 1
- 239000013598 vector Substances 0.000 abstract description 9
- 238000011156 evaluation Methods 0.000 abstract description 3
- 238000012550 audit Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
Landscapes
- Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Engineering & Computer Science (AREA)
- Marketing (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Technology Law (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于语义分析的文档关联审核方法,包括如下步骤:步骤1,对待审查的文档进行分词处理;步骤2,对分词后的文档进行语义分析预处理;步骤3,预处理后基于法律法规库对文档进行特征匹配,筛选出待匹配的法律法规;步骤4,筛选出待匹配的法律法规后使用预训练语言模型进行相似度识别;步骤5,相似度识别后通过建立语义冲突类型模型进行冲突识别。本发明采用了基于词向量、预训练语言模型和语义冲突类别模型分析的评估方法,能够自动分析提取法律法规的语义特征,快速识别待审核文档相关联的法律法规,判断法律法规上下位法、同位法间内容的相似性和冲突更加快速、准确。
Description
技术领域
本发明适用于法律法规的备案审查和合宪性审查以及企事业单位的关联制度审查等领域,特别涉及一种基于语义分析的文档关联审核方法。
背景技术
政策法规、制度的制定、修订是一项系统性的工程,发布前需要进行相关的技术性审查,主要是判断上下位法、同位法间内容是否有相似、雷同、不一致和冲突。要求用语规范、一致,否则可能会造成理解和执行上的困难。下位法应遵从上位法,下位法是对上位法内容的细化,内容上要求下位法与上位法保持一致,不得有不一致和冲突。同位法之间内容不得有不一致、冲突。对政策法规、制度内容间的审查具有十分重要的意义。
传统的文档审查技术主要基于词向量的法规内容相似度检测,词向量没有包含句法结构信息,具有比较高的误判率。
发明内容
为了解决上述技术问题,有效判断上下位法、同位法间内容是否有相似、雷同、不一致和冲突的问题,本发明提供一种基于语义分析的文档关联审核方法。
本发明解决其技术问题所采用的技术方案是:
一种基于语义分析的文档关联审核方法,其特征在于,包括如下步骤:
步骤1,对待审查的文档进行分词处理;
步骤2,对分词后的文档进行语义分析预处理;
步骤3,预处理后基于法律法规库对文档进行特征匹配,筛选出待匹配的法律法规;
步骤4,筛选出待匹配的法律法规后使用预训练语言模型进行相似度识别;
步骤5,相似度识别后通过建立语义冲突类型模型进行冲突识别。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
本发明通过分词处理、语义分析预处理、特征匹配、相似度识别和冲突识别等过程实现文档关联审核,其中采用了基于词向量、预训练语言模型和语义冲突类别模型分析的评估方法,能够自动分析提取法律法规的语义特征,快速识别待审核文档相关联的法律法规,判断法律法规上下位法、同位法间内容的相似性和冲突更加快速、准确。
附图说明
本发明将通过例子并参照附图的方式说明,其中:
图1是本发明的基于语义分析的文档关联审核方法的流程框图。
图2是本发明的语义关系网示意图。
图3是本发明的bert预训练语言模型对句子级处理模型示意图。
具体实施方式
本发明的一种基于语义分析的文档关联审核方法,包括如下步骤:
步骤1,对待审查的文档进行分词处理;
本步骤中,通过使用jieba分词工具对待审查的文档进行分词处理,根据语言场景,自定义前缀词典,生成文本中的词语的有向无环图,并在此基础上进行长词切分和细化处理。
步骤2,对分词后的文档进行语义分析预处理;
本步骤中,对分词后的文档进行的语义分析预处理包括:特殊词项处理、同义词处理和词性分析。
(1)特殊词项处理
所述特殊词项处理的方法为:对类似地名、人名和/或组织结构的特殊词项的命名方式进行识别,将识别出的特殊词项采用特殊词项标识进行替换。例如,苹果公司和苹果本身是两个不同的对象,可用特殊词项标识进行替换。
(2)同义词处理
所述同义词处理的方法为:对上下文中的同义词进行一致性合并处理。例如父亲和爸爸是同一含义,可以进行合并处理,节省语义分析的时间开销。
(3)词性分析
所述词性分析的方法为:对所有词项的词性分析标注相应的词性(如名词、动词、形容词等),用以分析词语间的聚合关系,解决文档中的词性歧义问题,确定未登录词的词性,辅助完成语法分析和语义分析。
步骤3,预处理后基于法律法规库对文档进行特征匹配,筛选出待匹配的法律法规;
本步骤主要是讲文档抽象出一张语义关系网,并进一步提取出文本特征集,以便更加准确的进行文本语义分析。对于文本特征集的特征词,对应到网络中就是与其他节点联系最紧密的关键节点。本步骤包括如下子步骤:
步骤3.1,构建语义关系网:
通过使用相似度计算公式计算两两文本间的相似度,得到语义关系网如图2所示;其中:sim(M1,M2)表示文本M1和M2的相似度,μ作为调节系数,用于表示文本相似度等于0.5时的路径,H(M)表示M与根节点间的层次数,L(M)表示文本M1和M2的路径长度;
步骤3.2,计算流介数值:
采用对应节点的流介数值来分析网络中经过某个节点u所有信息的比重,比重越大,对应语义越关键。所述流介数值的计算公式如下:
Pij表示语义关系网中节点i至j的所有路径,如果经过节点n的路径在Pij上,则标记为1,反之为0;
步骤3.3,特征提取:
步骤3.4,特征匹配:
使用Kuhn-Munkers算法把步骤3.3得到的文本特征集和法律法规库中的文本特征集表示为带全二分图后,筛选出待匹配的法律法规。
步骤4,筛选出待匹配的法律法规后使用预训练语言模型进行相似度识别;
本步骤中的预训练语言模型为bert预训练语言模型。在完成步骤3的初步筛选后,使用谷歌的bert预训练语言模型进行相似度识别,从预训练网络中提取对应词项的网络各层的词向量作为新特征补充到相似度计算任务中,如图3所示,其中嵌入向量用E表示,Tok分别表示不同的Token,不同的Token经过bert处理后的特征向量用Ti表示。对于句子相似度问题,通过对两个句子的首位加上CLS的embedding,用分隔符分开后送入到bert预训练语言模型的输入,从输出接口取出和CLS对应的vector(用v表示),得到相似度P=sigmoid(vw′),w′表示可学习的权重矩阵。
步骤5,相似度识别后通过建立语义冲突类型模型进行冲突识别。
完成步骤4的相似度识别后,针对不同语言环境对应的语义特征和常见冲突进行研究,从冲突强度和冲突的起因分析,分别基于时间、地点、数字、主宾语、反义词、修饰词、否定词和背景知识等角度建立基础的语义冲突模型。bert预训练语言模型将大规模语料(可以是互联网开放语料)训练后,以特征形式补充到以上语义冲突类型模型中,结合语义、语境学习语句间的内部关系快速识别出待审核文档中与法律法规库中的冲突和不一致条款,最终完成文档的关联审核。
通过上述内容可知,本发明具有的有益效果如下:
本发明通过分词处理、语义分析预处理、特征匹配、相似度识别和冲突识别等过程实现文档关联审核,其中采用了基于词向量、预训练语言模型和语义冲突类别模型分析的评估方法,能够自动分析提取法律法规的语义特征,快速识别待审核文档相关联的法律法规,判断法律法规上下位法、同位法间内容的相似性和冲突更加快速、准确。
Claims (9)
1.一种基于语义分析的文档关联审核方法,其特征在于,包括如下步骤:
步骤1,对待审查的文档进行分词处理;
步骤2,对分词后的文档进行语义分析预处理;
步骤3,预处理后基于法律法规库对文档进行特征匹配,筛选出待匹配的法律法规;
步骤4,筛选出待匹配的法律法规后使用预训练语言模型进行相似度识别;
步骤5,相似度识别后通过建立语义冲突类型模型进行冲突识别。
2.根据权利要求1所述的基于语义分析的文档关联审核方法,其特征在于,步骤2中对分词后的文档进行的语义分析预处理包括:特殊词项处理、同义词处理和词性分析。
3.根据权利要求2所述的基于语义分析的文档关联审核方法,其特征在于,所述特殊词项处理的方法为:对类似地名、人名和/或组织结构的特殊词项的命名方式进行识别,将识别出的特殊词项采用特殊词项标识进行替换。
4.根据权利要求2所述的基于语义分析的文档关联审核方法,其特征在于,所述同义词处理的方法为:对上下文中的同义词进行一致性合并处理。
5.根据权利要求2所述的基于语义分析的文档关联审核方法,其特征在于,所述词性分析的方法为:对所有词项的词性分析标注相应的词性,用以分析词语间的聚合关系。
6.根据权利要求1所述的基于语义分析的文档关联审核方法,其特征在于,步骤3包括如下子步骤:
步骤3.1,构建语义关系网:
通过使用相似度计算公式计算两两文本间的相似度,得到语义关系网;其中:sim(M1,M2)表示文本M1和M2的相似度,μ作为调节系数,用于表示文本相似度等于0.5时的路径,H(M)表示M与根节点间的层次数,L(M)表示文本M1和M2的路径长度;
步骤3.2,计算流介数值:
所述流介数值的计算公式如下:
Pij表示语义关系网中节点i到j的所有路径,如果经过节点n的路径在Pij上,则标记为1,反之为0;
步骤3.3,特征提取:
经步骤3.2计算出语义关系网中的每个节点的流介数值后,将流介数值最大的节点作为文本特征集;
步骤3.4,特征匹配:
使用Kuhn-Munkers算法把步骤3.3得到的文本特征集和法律法规库中的文本特征集表示为带全二分图后,筛选出待匹配的法律法规。
7.根据权利要求1所述的基于语义分析的文档关联审核方法,其特征在于,步骤5中建立的所述语义冲突类型模型包括:时间冲突模型、地点冲突模型、数字冲突模型、主宾语冲突模型、反义词冲突模型、修饰词冲突模型、否定词冲突模型和背景知识冲突模型。
8.根据权利要求1-7任一项所述的基于语义分析的文档关联审核方法,其特征在于,步骤1中通过使用jieba分词工具对待审查的文档进行分词处理。
9.根据权利要求1-7任一项所述的基于语义分析的文档关联审核方法,其特征在于,步骤4中的预训练语言模型为bert预训练语言模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911139373.6A CN111091009B (zh) | 2019-11-20 | 2019-11-20 | 一种基于语义分析的文档关联审核方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911139373.6A CN111091009B (zh) | 2019-11-20 | 2019-11-20 | 一种基于语义分析的文档关联审核方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111091009A true CN111091009A (zh) | 2020-05-01 |
CN111091009B CN111091009B (zh) | 2022-03-15 |
Family
ID=70394012
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911139373.6A Active CN111091009B (zh) | 2019-11-20 | 2019-11-20 | 一种基于语义分析的文档关联审核方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111091009B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111694945A (zh) * | 2020-06-03 | 2020-09-22 | 北京北大软件工程股份有限公司 | 基于神经网络的法条关联推荐方法及装置 |
CN113888006A (zh) * | 2021-10-20 | 2022-01-04 | 支付宝(杭州)信息技术有限公司 | 行为风险评估方法及装置 |
CN114090781A (zh) * | 2022-01-20 | 2022-02-25 | 北京零点远景网络科技有限公司 | 基于文本数据的容斥事件检测方法和装置 |
CN117829140A (zh) * | 2024-03-04 | 2024-04-05 | 证通股份有限公司 | 用于规章与法规的自动比对方法及其系统 |
CN117829140B (zh) * | 2024-03-04 | 2024-05-31 | 证通股份有限公司 | 用于规章与法规的自动比对方法及其系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102495921A (zh) * | 2011-11-21 | 2012-06-13 | 河海大学常州校区 | 一种Agent联邦快速设计流程建模方法 |
CN103092828A (zh) * | 2013-02-06 | 2013-05-08 | 杭州电子科技大学 | 基于语义分析和语义关系网络的文本相似度度量方法 |
CN106533778A (zh) * | 2016-11-30 | 2017-03-22 | 大连大学 | 基于层级流介数的指控网络关键节点识别方法 |
US20180068661A1 (en) * | 2013-05-30 | 2018-03-08 | Promptu Systems Corporation | Systems and methods for adaptive proper name entity recognition and understanding |
CN108073569A (zh) * | 2017-06-21 | 2018-05-25 | 北京华宇元典信息服务有限公司 | 一种基于多层级多维度语义理解的法律认知方法、装置和介质 |
CN109359190A (zh) * | 2018-08-17 | 2019-02-19 | 中国电子科技集团公司第三十研究所 | 一种基于评价对象阵营的立场分析模型构建方法 |
CN110188202A (zh) * | 2019-06-06 | 2019-08-30 | 北京百度网讯科技有限公司 | 语义关系识别模型的训练方法、装置及终端 |
CN110377714A (zh) * | 2019-07-18 | 2019-10-25 | 泰康保险集团股份有限公司 | 基于迁移学习的文本匹配方法、装置、介质及设备 |
-
2019
- 2019-11-20 CN CN201911139373.6A patent/CN111091009B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102495921A (zh) * | 2011-11-21 | 2012-06-13 | 河海大学常州校区 | 一种Agent联邦快速设计流程建模方法 |
CN103092828A (zh) * | 2013-02-06 | 2013-05-08 | 杭州电子科技大学 | 基于语义分析和语义关系网络的文本相似度度量方法 |
US20180068661A1 (en) * | 2013-05-30 | 2018-03-08 | Promptu Systems Corporation | Systems and methods for adaptive proper name entity recognition and understanding |
CN106533778A (zh) * | 2016-11-30 | 2017-03-22 | 大连大学 | 基于层级流介数的指控网络关键节点识别方法 |
CN108073569A (zh) * | 2017-06-21 | 2018-05-25 | 北京华宇元典信息服务有限公司 | 一种基于多层级多维度语义理解的法律认知方法、装置和介质 |
CN109359190A (zh) * | 2018-08-17 | 2019-02-19 | 中国电子科技集团公司第三十研究所 | 一种基于评价对象阵营的立场分析模型构建方法 |
CN110188202A (zh) * | 2019-06-06 | 2019-08-30 | 北京百度网讯科技有限公司 | 语义关系识别模型的训练方法、装置及终端 |
CN110377714A (zh) * | 2019-07-18 | 2019-10-25 | 泰康保险集团股份有限公司 | 基于迁移学习的文本匹配方法、装置、介质及设备 |
Non-Patent Citations (2)
Title |
---|
THOVEX CHRISTOPHE 等: "Automatic Building of Socio-semantic Networks for Requirements Analysis", 《INTERNATIONAL CONFERENCE ON KNOWLEDGE SCIENCE, ENGINEERING AND MANAGEMENT》 * |
尤金朋: "基于语义分析的文本相似度算法研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111694945A (zh) * | 2020-06-03 | 2020-09-22 | 北京北大软件工程股份有限公司 | 基于神经网络的法条关联推荐方法及装置 |
CN113888006A (zh) * | 2021-10-20 | 2022-01-04 | 支付宝(杭州)信息技术有限公司 | 行为风险评估方法及装置 |
CN114090781A (zh) * | 2022-01-20 | 2022-02-25 | 北京零点远景网络科技有限公司 | 基于文本数据的容斥事件检测方法和装置 |
CN117829140A (zh) * | 2024-03-04 | 2024-04-05 | 证通股份有限公司 | 用于规章与法规的自动比对方法及其系统 |
CN117829140B (zh) * | 2024-03-04 | 2024-05-31 | 证通股份有限公司 | 用于规章与法规的自动比对方法及其系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111091009B (zh) | 2022-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113011533B (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN108287822B (zh) | 一种中文相似问题生成系统与方法 | |
Navigli et al. | Learning word-class lattices for definition and hypernym extraction | |
CN106599032B (zh) | 一种结合稀疏编码和结构感知机的文本事件抽取方法 | |
CN108959270A (zh) | 一种基于深度学习的实体链接方法 | |
CN107315737A (zh) | 一种语义逻辑处理方法及系统 | |
CN111091009B (zh) | 一种基于语义分析的文档关联审核方法 | |
CN109726745B (zh) | 一种融入描述知识的基于目标的情感分类方法 | |
CN111353306B (zh) | 基于实体关系和依存Tree-LSTM的联合事件抽取的方法 | |
CN113157859B (zh) | 一种基于上位概念信息的事件检测方法 | |
CN111158641B (zh) | 基于语义分析和文本挖掘的事务类功能点自动识别方法 | |
CN112328797A (zh) | 一种基于神经网络和注意力机制的情感分类方法及系统 | |
CN112000802A (zh) | 基于相似度集成的软件缺陷定位方法 | |
CN110889275A (zh) | 一种基于深度语义理解的信息抽取方法 | |
CN113742733A (zh) | 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN114997288A (zh) | 一种设计资源关联方法 | |
CN113806493A (zh) | 一种用于互联网文本数据的实体关系联合抽取方法、装置 | |
CN114564563A (zh) | 一种基于关系分解的端到端实体关系联合抽取方法及系统 | |
CN114661872A (zh) | 一种面向初学者的api自适应推荐方法与系统 | |
CN111626042A (zh) | 指代消解方法及装置 | |
Althobaiti et al. | Combining minimally-supervised methods for arabic named entity recognition | |
CN112528653B (zh) | 短文本实体识别方法和系统 | |
CN117216214A (zh) | 一种问答抽取的生成方法、装置、设备及介质 | |
CN107562774A (zh) | 小语种词嵌入模型的生成方法、系统及问答方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |