CN111539213A

CN111539213A - 一种多源管理条款的语义互斥的智能检测方法

Info

Publication number: CN111539213A
Application number: CN202010305652.1A
Authority: CN
Inventors: 元雨暄; 林欣郁; 贺惠新
Original assignee: Huaqiao University
Current assignee: Huaqiao University
Priority date: 2020-04-17
Filing date: 2020-04-17
Publication date: 2020-08-14
Anticipated expiration: 2040-04-17
Also published as: CN111539213B

Abstract

本发明公开了一种多源管理条款的语义互斥的智能检测方法，首选通过获取各相关的管理条款的文本数据，用于模型训练，通过对各条款文本的预处理，结合统计特征、词汇语义特征以及矛盾规则识别特征，构建了一个基于义原的文本语义冲突检测模型，将该模型可用于管理条款的语义互斥的智能检测；本发明采用自动的分类算法构建文本冲突检测模型，应用于实际场景，有效实现了计算机自动对文本对进行冲突检测判断的目的，为预防多源管理条款的文本语义冲突提供了一种新的方法。

Description

一种多源管理条款的语义互斥的智能检测方法

技术领域

本发明涉及语义智能检测领域，特别是指一种多源管理条款的语义互斥的智能检测方法。

背景技术

管理条款文件是管理部门为完成一定历史时期的任务而制定的具体行动准则。为确保目标的实现，管理部门首先对目标进行梳理，然后逐级向下发包，直至面对对象的基层部门。然而，由于信息不对称、权责失衡等原因，在向下发包的过程中，极有可能出现上下级调控冲突现象，阻碍实际任务的施行。对上下级颁布的调控进行互斥检测能够及时发现冲突，有利于加强对管理文件发包过程的监督，对于保障组织的利益有重要意义。

发明内容

本发明的主要目的在于克服现有技术中的上述缺陷，提出一种多源管理条款的语义互斥的智能检测方法，能够有效预防多源管理条款的文本语义冲突。

本发明采用如下技术方案：

一种多源管理条款的语义互斥的智能检测方法，包括模型训练阶段和检测阶段，其特征在于，包括如下具体步骤：

模型训练阶段：

步骤S1：获取各管理条款文本，并整理出上下级的条款文本对，将文本对分别按条拆分匹配，得到NS个政策条目文本对集合S＝{S(i)}为训练语料，各文本对记为S(i)，其中上级政策条目为T(i)，下级政策条目为H(i)，其中1≤i ≤NS，要求NS≥10000；

步骤S2：对于NS个政策条目文本对，构造含有矛盾的文本对NS对，对含有矛盾的文本对的标签标注为1，构造不含矛盾的文本对NS对，对不含有矛盾的文本对的标签标注为0，共有2NS个文本对作为训练语料；

步骤S3：对所述训练语料进行文本预处理；

步骤S4：对预处理后的文本对T、H，进行特征提取，获取文本对的特征列表，包含统计特征、词汇语义特征以及矛盾规则特征化；

步骤S5：根据步骤S4获得特征列表，选择支持向量机作为分类器来训练，并对样本做类平衡处理，训练得到的模型为M；

检测阶段：

步骤T1：对待分类的文本T'、H'进行预处理，其中，上级政策条目为T'，下级政策条目为H'；

步骤T2：对预处理后的文本对T'、H'，进行特征提取，获取文本对的特征列表F；

步骤T3：将文本对的特征列表F，输入给分类模型M进行分类，得到输出，输出为0或1，1表示文本对矛盾，即下级政策条目违背上级政策条目，0表示文本对不矛盾，即下级政策条目符合上级政策条目内容。

具体的，步骤S3中所述预处理，具体包括：

步骤S31:提取出文本中带单位的中文数字和计数单位并将其转化为阿拉伯数字，将数字前后带有的表述方向的词语转化为数学符号字符串，将文本对T(i)、 H(i)转化后的阿拉伯数字与带有的表示方向的词转化后的字符串组合成元组，若没有表示方向的词语则记为“”空字符串，将元组集合记为digitT(i)、digitH(i)；步骤S32：对于每对文本T(i)与H(i)，分别进行分词、去停用词、词性标注处理后，得到两个词性集合wtT(i)、wtH(i)，其中wtT(i)＝{(T(i)(j,word)，T(i)(j, tag))},wtH(i)＝{(H(i)(j,word),H(i)(j,tag))}，T(i)(j,word)表示文本T(i)中的第j个词语，T(i)(j,tag)表示文本T(i)中第j个词语的词性，H(i)(k,word)表示文本H(i)中的第k个词语，H(i)(k,tag)表示文本H(i)中的第k个词语的词性；

步骤S33：对于每对文本T(i)与H(i)，分别提取出否定词，构成否定词集合nwT(i)、nwH(i)；

步骤S34：对于每对文本T(i)与H(i)，将文本中关于时间的短语替换成“xxxx 年xx月xx日”格式，并分别加入集合T(i)_time、H(i)_time；

具体的，所述步骤S4中，具体包括：

步骤S41：计算词重叠度wLap(T(i),H(i))，记T(i)包含的词集合为NwordT(i)， H(i)中包含的词集合为NwordH(i)，计算公式为：

步骤S42：计算文本长度差diffLen(T(i),H(i))，len()为计算字符串长度函数计算公式为：

diffLen(T(i),H(i))＝|len(T(i))-len(H(i))|

步骤S43：计算文本对的Jaro-Winkler距离jwSim(T(i),H(i))，记jSim(T(i),H(i)) 为文本对T(i)与H(i)的Jaro距离，m表示文本字符串T(i)与H(i)的匹配字符数， t表示换位数目transportitions的一半，匹配窗口为mw(T(i),H(i))，f表示两个字符串的共同前缀字符的个数，1≤f≤4，p是缩放因子常量，0＜p≤0.25，计算公式为：

jwDis(T(i),H(i))＝jSim(T(i),H(i))+fp(1-jSim(T(i),H(i)))

步骤S44：计算基于义原的余弦相似度cosSim(T(i),H(i))，对文本T(i)的词性集合T(i)_wt中的每个元组T(i)_wt(j)，根据词语的词性获取对应的义原，得到对应的义原向量T(i)_wt(j)_vec，将所有义原向量求和取平均值得到文本T(i)的向量表示 vecT(i)，记T(i)_wt中元组总个数为sT(i)_wt，同样的方式可以得到文本H(i)的向量表示vecH(i)和H(i)_wt中元组总个数sH(i)_wt，计算公式为：

步骤S45：计算否定词特征negF(T(i),H(i))，记nwT(i)、nwH(i)中词语总数为negT(i)、negH(i)计算公式为：

negF＝|negT(i)-negH(i)|mod 2

其中，mod 2除以2取余数；

步骤S46：计算综合知网和同义词词林的文本对语义相似度 combiSim(T(i),H(i))，记将义原距离转化为相似度的函数为sim_w(w₁,w₂)，其中w₁和w₂代表两个义原，dis(w₁,w₂)为两个义原的语义距离，值为两个义原在义原树中的路径长度，a为相似度约为0.5时的义原距离，计算公式为：

记同义词词林词语相似度计算函数为sim_t(w₁,w₂)，C₁和C₂为义原w₁和w₂的词语编码，disT(C₁,C₂)是两个词语编码在树状结构中的距离函数，等于词语对的连接路径中各边的权重之和，sim_t(C₁,C₂)的计算公式为：

其中n为词语对的最近公共父节点的密度，k为词语对所在分支的间距；

其中s为T(i)_wt与H(i)_wt各自元组数量的最小值，i表示元组在集合中的序号；

步骤S47：计算得到文本对T(i)、H(i)的数字矛盾特征numCF，将预处理得到的二元组集合digitT(i)、digitH(i)进行比较，smin为两个二元组集合元素总数的最小值，计算公式为：

步骤S48：计算得到文本对T(i)、H(i)的时间矛盾特征timeCF，将日期转化为时间戳，与相应的数学符号字符串一起组成二元组，得到两个二元组集合 timeT(i)、timeH(i)，计算H(i)中元组表示的时间范围有无在T(i)中元组表示的时间范围内，若全部满足则timeCF置0，否则置1；

步骤S49：计算得到文本对T(i)、H(i)的修饰语矛盾特征adjCF，从wtT(i)、 wtH(i)中根据各元组的词性标签，按序组成新的二元组集合adjSet，其中每个二元组的元素分别是wtT(i)与wtH(i)中的标签为形容词的词语，若wtT(i)还有形容词而wtH(i)没有，则用“”空字符串代替新元组的第二个元素，反之相同，用“”空字符串代替新元组的第一个元素，记adjSet总元素个数为sa，计算公式为：

具体的，所述步骤T1中，所述预处理，具体包括：提取数字元组集合digT'、 digH'、词性集合wtT'、wtH'、否定词集合nwT'、nwH'，时间集合timeT'、timeH'。

具体的，所述步骤T2中，具体包括：

T21：利用wtT'、wtH'计算词重叠度，作为特征f1的值；

T22：将T'、H'的长度作差取绝对值，得到文本长度差作为特征f2的值；

T23：通过wtT'、wtH'计算文本T'与文本H'的Jaro-Winkler距离，作为特征f3的值；

T24：根据wtT'、wtH'中的词语，得出文本T'与H'各自的义原集合sT与sH，义原向量求和取均值得到两个文本的向量表示vT与vH，计算得到余弦相似度作为特征f4的值；

T25：根据否定词集合nwT'、nwH'计算得到否定词特征的值，作为特征f5 的值；

T26：利用wtT'、wtH'，计算得出综合知网和同义词词林的文本语义相似度，作为特征f6的值；

T27：利用digT'、digH'，判断两个集合中元素的数字范围包含关系，有则 f7置1，否则f7置0；

T28：根据timeT'、timeH'，判断两个集合中元素的时间范围包含关系，有则f8置1，否则f8置0；

T29：利用wtT'、wtH'中的词语及词性，按序分别提取出两个集合其中词性为形容词的词语，构成新的形容词集合，利用综合知网和同义词词林的词语相似度计算形容词相似度，相似度求和除以集合中元组总数得到修饰语矛盾程度，作为特征f9的值。

由上述对本发明的描述可知，与现有技术相比，本发明具有如下有益效果：

本发明基于统计特征、词汇语义特征与矛盾规则特征，提出了一种文本冲突检测的方法，采用自动的分类算法构建文本冲突检测模型，应用于实际场景，有效实现了计算机自动对文本对进行冲突检测判断的目的。

具体实施方式

以下通过具体实施方式对本发明作进一步的描述。

模型训练阶段

步骤S1：获取模型训练阶段的依赖资源，即获取各管理条款文本，并整理出上下级的条款文本对，将文本对分别按条拆分匹配，得到NS个政策条目文本对集合S＝{S(i)}为训练语料，各文本对记为S(i)，其中上级政策条目为T(i)，下级政策条目为H(i)，其中1≤i≤NS，要求NS≥10000；

步骤S2：对于NS个政策条目文本对，修改相应内容构造含有矛盾的文本对NS对，对含有矛盾的文本对的标签标注为1，不含有矛盾的文本对的标签标注为0，共有2NS个文本对作为训练语料；

步骤S3：为了便于提取特征，对训练语料作文本预处理，具体的处理方式如下：

步骤S31：提取出文本中带单位的中文数字及其计数单位并将其转化为阿拉伯数字：用“0123456789”来替代中文数字“零一二三四五六七八九十”，用100、 1000、10000等数字来替代中文单位百、千、万等单位，同时将数字前后带有的表述方向的词语如“以下”、“不超过”、“不少于”等转化为数学符号字符串如“<”、“<＝”、“>＝”等，将文本对T(i)、H(i)转化后的阿拉伯数字与带有的表示方向的词转化后的字符串组合成元组，若没有表示方向的词语则记为“”(空字符串)，将元组集合记为digitT(i)、digitH(i)；

步骤S32：对于每对文本T(i)与H(i)，分别进行分词、去停用词、词性标注处理后，得到两个词性集合wtT(i)、wtH(i)，其中wtT(i)＝{(T(i)(j,word)，T(i)(j, tag))},wtH(i)＝{(H(i)(j,word),H(i)(j,tag))}，T(i)(j,word)表示文本T(i)中的第j个词语，T(i)(j,tag)表示文本T(i)中第j个词语的词性，H(i)(k,word)表示文本H(i)中的第k个词语，H(i)(k,tag)表示文本H(i)中的第k个词语的词性；

步骤S33：对于每对文本T(i)与H(i)，分别提取出否定词，构成否定词集合 nwT(i)、nwH(i)，否定词是存在于集合{“无”，“没”，“未”，“非”，“否”，“不是”，“不”，“不得”}中的词语；

步骤S4：对每一对进行预处理后的文本对T(i)、H(i)，进行特征提取，包含统计特征、词汇语义特征以及矛盾规则特征化，具体步骤如下：

步骤S41：计算词重叠度wLap(T(i),H(i))，记T(i)包含的词集合为NwordT(i)， H(i)中包含的词集合为NwordH(i)，计算公式为

步骤S42：计算文本长度差diffLen(T(i),H(i))，len()为计算字符串长度函数计算公式为 diffLen(T(i),H(i))＝|len(T(i))-len(H(i))|

步骤S43：计算文本对的Jaro-Winkler距离jwSim(T(i),H(i))，记jSim(T(i),H(i)) 为文本对T(i)与H(i)的Jaro距离，m表示文本字符串T(i)与H(i)的匹配字符数， t表示换位数目transportitions的一半，匹配窗口为mw(T(i),H(i))，f表示两个字符串的共同前缀字符的个数，1≤f≤4，p是缩放因子常量，0＜p≤0.25，计算公式为

jwDis(T(i),H(i))＝jSim(T(i),H(i))+fp(1-jSim(T(i),H(i)))

步骤S44：计算基于义原的余弦相似度cosSim(T(i),H(i))，对文本T(i)的词性集合T(i)_wt中的每个元组T(i)_wt(j)，根据词语的词性获取对应的义原，得到对应的义原向量T(i)_wt(j)_vec，将所有义原向量求和取平均值得到文本T(i)的向量表示vecT(i)，记T(i)_wt中元组总个数为sT(i)_wt，同样的方式可以得到文本H(i)的向量表示vecH(i)和H(i)_wt中元组总个数sH(i)_wt，计算公式为

步骤S45：计算否定词特征negF(T(i),H(i))，记nwT(i)、nwH(i)中词语总数为negT(i)、negH(i)计算公式为 negF＝|negT(i)-negH(i)|mod 2

其中，mod 2除以2取余数；

步骤S46：计算综合知网和同义词词林的文本对语义相似度 combiSim(T(i),H(i))，记将义原距离转化为相似度的函数为sim_w(w₁,w₂)，其中w₁和w₂代表两个义原，dis(w₁,w₂)为两个义原的语义距离，值为两个义原在义原树中的路径长度，a为相似度约为0.5时的义原距离，计算公式为

记同义词词林词语相似度计算函数为sim_t(w₁,w₂)，C₁和C₂为义原w₁和w₂的词语编码，disT(C₁,C₂)是两个词语编码在树状结构中的距离函数，等于词语对的连接路径中各边的权重之和，sim_t(C₁,C₂)的计算公式为

其中n为词语对的最近公共父节点的密度，k为词语对所在分支的间距，

步骤S47：计算得到文本对T(i)、H(i)的数字矛盾特征numCF，将预处理得到的二元组集合digitT(i)、digitH(i)进行比较，smin为两个二元组集合元素总数的最小值，

步骤S48：计算得到文本对T(i)、H(i)的时间矛盾特征timeCF，时间表达格式在文本预处理过程中已经统一，利用正则表达式提取出时间内容，一并提取出表示时间范围的词语如“早于”、“之后”等，并将其转化为数学符号字符串如“<”、“>”等，将日期转化为时间戳，与相应的数学符号字符串一起组成二元组，得到两个二元组集合timeT(i)、timeH(i)，计算H(i)中元组表示的时间范围有无在T(i)中元组表示的时间范围内，若全部满足则timeCF置0，否则置1；

步骤S49：计算得到文本对T(i)、H(i)的修饰语矛盾特征adjCF，从wtT(i)、 wtH(i)中根据各元组的词性标签，按序组成新的二元组集合adjSet，其中每个二元组的元素分别是wtT(i)与wtH(i)中的标签为形容词的词语，若wtT(i)还有形容词而wtH(i)没有，则用“”(空字符串)代替新元组的第二个元素，反之相同，用“”(空字符串)代替新元组的第一个元素，记adjSet总元素个数为sa，计算公式为

步骤S5：根据以上步骤获得特征列表，选择支持向量机作为分类器来训练，并对样本做类平衡处理，训练得到的模型为M；

检测阶段

对待进行文本冲突检测的管理条款文本对T、H，做如下步骤的处理：

步骤T1：对待分类的文本对进行预处理，

包括提取数字元组集合digT与digH、词性集合wtT与wtH、否定词集合 nwT与nwH，将T、H中的时间表示规范化并提取出时间集合timeT与timeH；

步骤T2：对得到的集合提取特征F＝{f1,f2,f3…},具体抽取方法如下：

步骤T21：利用wtT与wtH计算词重叠度，作为特征f1的值；

步骤T22：将T与H的长度作差取绝对值，得到文本长度差作为特征f2的值；

步骤T23：通过wtT与wtH计算T与H的Jaro-Winkler距离，作为特征f3 的值；

步骤T24：根据wtT与wtH中的词语，得出文本T与H各自的义原集合sT 与sH，义原向量求和取均值得到两个文本的向量表示vT与vH，计算得到余弦相似度作为特征f4的值；

步骤T25：根据否定词集合nwT与nwH计算得到否定词特征的值，作为特征f5的值；

步骤T26：利用wtT与wtH，计算得出综合知网和同义词词林的文本语义相似度，作为特征f6的值；

步骤T27：利用digT与digH，判断两个集合中元素的数字范围包含关系，即有无数字冲突情况，有则f7置1，否则f7置0；

步骤T28：根据timeT与timeH，判断两个集合中元素的时间范围包含关系，即有无时间冲突，有则f8置1，否则f8置0；

步骤T29：利用wtT与wtH中的词语及词性，按序分别提取出两个集合其中词性为形容词的词语，构成新的形容词集合，利用综合知网和同义词词林的词语相似度计算形容词相似度，相似度求和除以集合中元组总数得到修饰语矛盾程度，作为特征f9的值；

上述仅为本发明的具体实施方式，但本发明的设计构思并不局限于此，凡利用此构思对本发明进行非实质性的改动，均应属于侵犯本发明保护范围的行为。

Claims

1.一种多源管理条款的语义互斥的智能检测方法，包括模型训练阶段和检测阶段，其特征在于，包括如下具体步骤：

模型训练阶段：

步骤S1：获取各管理条款文本，并整理出上下级的条款文本对，将文本对分别按条拆分匹配，得到NS个政策条目文本对集合S＝{S(i)}为训练语料，各文本对记为S(i)，其中上级政策条目为T(i)，下级政策条目为H(i)，其中1≤i≤NS，要求NS≥10000；

步骤S3：对所述训练语料进行文本预处理；

检测阶段：

2.根据权利要求1所述的一种多源管理条款的语义互斥的智能检测方法，其特征在于，步骤S3中所述预处理，具体包括：

步骤S31:提取出文本中带单位的中文数字和计数单位并将其转化为阿拉伯数字，将数字前后带有的表述方向的词语转化为数学符号字符串，将文本对T(i)、H(i)转化后的阿拉伯数字与带有的表示方向的词转化后的字符串组合成元组，若没有表示方向的词语则记为“”空字符串，将元组集合记为digitT(i)、digitH(i)；

步骤S32：对于每对文本T(i)与H(i)，分别进行分词、去停用词、词性标注处理后，得到两个词性集合wtT(i)、wtH(i)，其中wtT(i)＝{(T(i)(j,word)，T(i)(j,tag))},wtH(i)＝{(H(i)(j,word),H(i)(j,tag))}，T(i)(j,word)表示文本T(i)中的第j个词语，T(i)(j,tag)表示文本T(i)中第j个词语的词性，H(i)(k,word)表示文本H(i)中的第k个词语，H(i)(k,tag)表示文本H(i)中的第k个词语的词性；

步骤S34：对于每对文本T(i)与H(i)，将文本中关于时间的短语替换成“xxxx年xx月xx日”格式，并分别加入集合T(i)_time、H(i)_time。

3.根据权利要求2所述的一种多源管理条款的语义互斥的智能检测方法，其特征在于，所述步骤S4中，具体包括：

步骤S41：计算词重叠度wLap(T(i),H(i))，记T(i)包含的词集合为NwordT(i)，H(i)中包含的词集合为NwordH(i)，计算公式为：

diffLen(T(i),H(i))＝|len(T(i))-len(H(i))|

步骤S43：计算文本对的Jaro-Winkler距离jwSim(T(i),H(i))，记jSim(T(i),H(i))为文本对T(i)与H(i)的Jaro距离，m表示文本字符串T(i)与H(i)的匹配字符数，t表示换位数目transportitions的一半，匹配窗口为mw(T(i),H(i))，f表示两个字符串的共同前缀字符的个数，1≤f≤4，p是缩放因子常量，0＜p≤0.25，计算公式为：

jwDis(T(i),H(i))＝jSim(T(i),H(i))+fp(1-jSim(T(i),H(i)))

步骤S44：计算基于义原的余弦相似度cosSim(T(i),H(i))，对文本T(i)的词性集合T(i)_wt中的每个元组T(i)_wt(j)，根据词语的词性获取对应的义原，得到对应的义原向量T(i)_wt(j)_vec，将所有义原向量求和取平均值得到文本T(i)的向量表示vecT(i)，记T(i)_wt中元组总个数为sT(i)_wt，同样的方式可以得到文本H(i)的向量表示vecH(i)和H(i)_wt中元组总个数sH(i)_wt，计算公式为：

negF＝|negT(i)-negH(i)|mod 2

其中，mod 2指除以2取余数；

步骤S46：计算综合知网和同义词词林的文本对语义相似度combiSim(T(i),H(i))，记将义原距离转化为相似度的函数为sim_w(w₁,w₂)，其中w₁和w₂代表两个义原，dis(w₁,w₂)为两个义原的语义距离，值为两个义原在义原树中的路径长度，a为相似度约为0.5时的义原距离，计算公式为：

步骤S48：计算得到文本对T(i)、H(i)的时间矛盾特征timeCF，将日期转化为时间戳，与相应的数学符号字符串一起组成二元组，得到两个二元组集合timeT(i)、timeH(i)，计算H(i)中元组表示的时间范围有无在T(i)中元组表示的时间范围内，若全部满足则timeCF置0，否则置1；

步骤S49：计算得到文本对T(i)、H(i)的修饰语矛盾特征adjCF，从wtT(i)、wtH(i)中根据各元组的词性标签，按序组成新的二元组集合adjSet，其中每个二元组的元素分别是wtT(i)与wtH(i)中的标签为形容词的词语，若wtT(i)还有形容词而wtH(i)没有，则用“”空字符串代替新元组的第二个元素，反之相同，用“”空字符串代替新元组的第一个元素，记adjSet总元素个数为sa，计算公式为：

4.根据权利要求1所述的一种多源管理条款的语义互斥的智能检测方法，其特征在于，所述步骤T1中，所述预处理，具体包括：提取数字元组集合digT'、digH'、词性集合wtT'、wtH'、否定词集合nwT'、nwH'，时间集合timeT'、timeH'。

5.根据权利要求4所述的一种多源管理条款的语义互斥的智能检测方法，其特征在于，所述步骤T2中，具体包括：

T21：利用wtT'、wtH'计算词重叠度，作为特征f1的值；

T25：根据否定词集合nwT'、nwH'计算得到否定词特征的值，作为特征f5的值；

T27：利用digT'、digH'，判断两个集合中元素的数字范围包含关系，有则f7置1，否则f7置0；