CN111091009A

CN111091009A - 一种基于语义分析的文档关联审核方法

Info

Publication number: CN111091009A
Application number: CN201911139373.6A
Authority: CN
Inventors: 程教育; 彭望龙; 包亮
Original assignee: CETC 30 Research Institute
Current assignee: CETC 30 Research Institute
Priority date: 2019-11-20
Filing date: 2019-11-20
Publication date: 2020-05-01
Anticipated expiration: 2039-11-20
Also published as: CN111091009B

Abstract

本发明公开了一种基于语义分析的文档关联审核方法，包括如下步骤：步骤1，对待审查的文档进行分词处理；步骤2，对分词后的文档进行语义分析预处理；步骤3，预处理后基于法律法规库对文档进行特征匹配，筛选出待匹配的法律法规；步骤4，筛选出待匹配的法律法规后使用预训练语言模型进行相似度识别；步骤5，相似度识别后通过建立语义冲突类型模型进行冲突识别。本发明采用了基于词向量、预训练语言模型和语义冲突类别模型分析的评估方法，能够自动分析提取法律法规的语义特征，快速识别待审核文档相关联的法律法规，判断法律法规上下位法、同位法间内容的相似性和冲突更加快速、准确。

Description

一种基于语义分析的文档关联审核方法

技术领域

本发明适用于法律法规的备案审查和合宪性审查以及企事业单位的关联制度审查等领域，特别涉及一种基于语义分析的文档关联审核方法。

背景技术

政策法规、制度的制定、修订是一项系统性的工程，发布前需要进行相关的技术性审查，主要是判断上下位法、同位法间内容是否有相似、雷同、不一致和冲突。要求用语规范、一致，否则可能会造成理解和执行上的困难。下位法应遵从上位法，下位法是对上位法内容的细化，内容上要求下位法与上位法保持一致，不得有不一致和冲突。同位法之间内容不得有不一致、冲突。对政策法规、制度内容间的审查具有十分重要的意义。

传统的文档审查技术主要基于词向量的法规内容相似度检测，词向量没有包含句法结构信息，具有比较高的误判率。

发明内容

为了解决上述技术问题，有效判断上下位法、同位法间内容是否有相似、雷同、不一致和冲突的问题，本发明提供一种基于语义分析的文档关联审核方法。

本发明解决其技术问题所采用的技术方案是：

一种基于语义分析的文档关联审核方法，其特征在于，包括如下步骤：

步骤1，对待审查的文档进行分词处理；

步骤2，对分词后的文档进行语义分析预处理；

步骤3，预处理后基于法律法规库对文档进行特征匹配，筛选出待匹配的法律法规；

步骤4，筛选出待匹配的法律法规后使用预训练语言模型进行相似度识别；

步骤5，相似度识别后通过建立语义冲突类型模型进行冲突识别。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

本发明通过分词处理、语义分析预处理、特征匹配、相似度识别和冲突识别等过程实现文档关联审核，其中采用了基于词向量、预训练语言模型和语义冲突类别模型分析的评估方法，能够自动分析提取法律法规的语义特征，快速识别待审核文档相关联的法律法规，判断法律法规上下位法、同位法间内容的相似性和冲突更加快速、准确。

附图说明

本发明将通过例子并参照附图的方式说明，其中：

图1是本发明的基于语义分析的文档关联审核方法的流程框图。

图2是本发明的语义关系网示意图。

图3是本发明的bert预训练语言模型对句子级处理模型示意图。

具体实施方式

本发明的一种基于语义分析的文档关联审核方法，包括如下步骤：

步骤1，对待审查的文档进行分词处理；

本步骤中，通过使用jieba分词工具对待审查的文档进行分词处理，根据语言场景，自定义前缀词典，生成文本中的词语的有向无环图，并在此基础上进行长词切分和细化处理。

步骤2，对分词后的文档进行语义分析预处理；

本步骤中，对分词后的文档进行的语义分析预处理包括：特殊词项处理、同义词处理和词性分析。

(1)特殊词项处理

所述特殊词项处理的方法为：对类似地名、人名和/或组织结构的特殊词项的命名方式进行识别，将识别出的特殊词项采用特殊词项标识进行替换。例如，苹果公司和苹果本身是两个不同的对象，可用特殊词项标识进行替换。

(2)同义词处理

所述同义词处理的方法为：对上下文中的同义词进行一致性合并处理。例如父亲和爸爸是同一含义，可以进行合并处理，节省语义分析的时间开销。

(3)词性分析

所述词性分析的方法为：对所有词项的词性分析标注相应的词性(如名词、动词、形容词等)，用以分析词语间的聚合关系，解决文档中的词性歧义问题，确定未登录词的词性，辅助完成语法分析和语义分析。

本步骤主要是讲文档抽象出一张语义关系网，并进一步提取出文本特征集，以便更加准确的进行文本语义分析。对于文本特征集的特征词，对应到网络中就是与其他节点联系最紧密的关键节点。本步骤包括如下子步骤：

步骤3.1，构建语义关系网：

通过使用相似度计算公式

计算两两文本间的相似度，得到语义关系网如图2所示；其中：sim(M_1,M₂)表示文本M₁和M₂的相似度,μ作为调节系数，用于表示文本相似度等于0.5时的路径,H(M)表示M与根节点间的层次数，L(M)表示文本M₁和M₂的路径长度；

步骤3.2，计算流介数值：

采用对应节点的流介数值来分析网络中经过某个节点u所有信息的比重，比重越大，对应语义越关键。所述流介数值的计算公式如下：

P_ij表示语义关系网中节点i至j的所有路径，如果经过节点n的路径在P_ij上，则标记为1，反之为0；

步骤3.3，特征提取：

经步骤3.2计算出语义关系网中的每个节点的流介数值后，将流介数值最大的节点(如图2所示的节点

)作为文本特征集；

步骤3.4，特征匹配：

使用Kuhn-Munkers算法把步骤3.3得到的文本特征集和法律法规库中的文本特征集表示为带全二分图后，筛选出待匹配的法律法规。

本步骤中的预训练语言模型为bert预训练语言模型。在完成步骤3的初步筛选后，使用谷歌的bert预训练语言模型进行相似度识别，从预训练网络中提取对应词项的网络各层的词向量作为新特征补充到相似度计算任务中，如图3所示，其中嵌入向量用E表示，Tok分别表示不同的Token，不同的Token经过bert处理后的特征向量用T_i表示。对于句子相似度问题，通过对两个句子的首位加上CLS的embedding，用分隔符分开后送入到bert预训练语言模型的输入，从输出接口取出和CLS对应的vector(用v表示)，得到相似度P＝sigmoid(vw′)，w′表示可学习的权重矩阵。

完成步骤4的相似度识别后，针对不同语言环境对应的语义特征和常见冲突进行研究，从冲突强度和冲突的起因分析，分别基于时间、地点、数字、主宾语、反义词、修饰词、否定词和背景知识等角度建立基础的语义冲突模型。bert预训练语言模型将大规模语料(可以是互联网开放语料)训练后，以特征形式补充到以上语义冲突类型模型中，结合语义、语境学习语句间的内部关系快速识别出待审核文档中与法律法规库中的冲突和不一致条款，最终完成文档的关联审核。

通过上述内容可知，本发明具有的有益效果如下：

Claims

1.一种基于语义分析的文档关联审核方法，其特征在于，包括如下步骤：

步骤1，对待审查的文档进行分词处理；

步骤2，对分词后的文档进行语义分析预处理；

2.根据权利要求1所述的基于语义分析的文档关联审核方法，其特征在于，步骤2中对分词后的文档进行的语义分析预处理包括：特殊词项处理、同义词处理和词性分析。

3.根据权利要求2所述的基于语义分析的文档关联审核方法，其特征在于，所述特殊词项处理的方法为：对类似地名、人名和/或组织结构的特殊词项的命名方式进行识别，将识别出的特殊词项采用特殊词项标识进行替换。

4.根据权利要求2所述的基于语义分析的文档关联审核方法，其特征在于，所述同义词处理的方法为：对上下文中的同义词进行一致性合并处理。

5.根据权利要求2所述的基于语义分析的文档关联审核方法，其特征在于，所述词性分析的方法为：对所有词项的词性分析标注相应的词性，用以分析词语间的聚合关系。

6.根据权利要求1所述的基于语义分析的文档关联审核方法，其特征在于，步骤3包括如下子步骤：

步骤3.1，构建语义关系网：

通过使用相似度计算公式

计算两两文本间的相似度，得到语义关系网；其中：sim(M₁，M₂)表示文本M₁和M₂的相似度，μ作为调节系数，用于表示文本相似度等于0.5时的路径，H(M)表示M与根节点间的层次数，L(M)表示文本M₁和M₂的路径长度；

步骤3.2，计算流介数值：

所述流介数值的计算公式如下：

P_ij表示语义关系网中节点i到j的所有路径，如果经过节点n的路径在P_ij上，则标记为1，反之为0；

步骤3.3，特征提取：

经步骤3.2计算出语义关系网中的每个节点的流介数值后，将流介数值最大的节点作为文本特征集；

步骤3.4，特征匹配：

7.根据权利要求1所述的基于语义分析的文档关联审核方法，其特征在于，步骤5中建立的所述语义冲突类型模型包括：时间冲突模型、地点冲突模型、数字冲突模型、主宾语冲突模型、反义词冲突模型、修饰词冲突模型、否定词冲突模型和背景知识冲突模型。

8.根据权利要求1-7任一项所述的基于语义分析的文档关联审核方法，其特征在于，步骤1中通过使用jieba分词工具对待审查的文档进行分词处理。

9.根据权利要求1-7任一项所述的基于语义分析的文档关联审核方法，其特征在于，步骤4中的预训练语言模型为bert预训练语言模型。