CN113449118B

CN113449118B - 一种基于标准知识图谱的标准文档冲突检测方法及系统

Info

Publication number: CN113449118B
Application number: CN202110732648.8A
Authority: CN
Inventors: 蔡毅; 曹晋; 吴欣
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-06-29
Filing date: 2021-06-29
Publication date: 2022-09-20
Anticipated expiration: 2041-06-29
Also published as: CN113449118A

Abstract

本发明公开了一种基于标准知识图谱的标准文档冲突检测方法及系统，所述方法首先对标准文档的非结构化文本内容进行结构化抽取，形成标准知识图谱。基于该标准知识图谱，通过文本相似度匹配，多实体列表匹配等技术找出若干标准知识图谱间的冲突实体，实现标准文档间的冲突检测。所述方法具有良好的标准文档冲突检测能力，在给定若干标准文档下，能够对各个标准文档中的知识进行结构化，形成若干标准知识图谱，并通过标准知识图谱实现标准文档冲突检测，可广泛应用于标准编写领域。

Description

一种基于标准知识图谱的标准文档冲突检测方法及系统

技术领域

本发明涉及自然语言处理、知识图谱构建、文本匹配领域，具体涉及一种基于标准知识图谱的标准文档冲突检测方法及系统。

背景技术

随着我国标准化进程的推进，各行各业已经沉淀了许多标准文档，为我国的进一步科技创新打下了坚实的基础。然而，现阶段的标准数据大都以文本、图片的形式存储在数据库中，其中的海量知识尚未得到充分利用。

各行各业均表现出对标准数据实现自动化知识挖掘的需求，以辅助标准从业人员、企业、科研人员等社会各界更好地利用标准知识，从而进一步地推动各行各业的科技创新。现有的标准大多以数据的形式存储，如何推动现有的标准数据从“数据”向“知识”过渡，核心需求在于通过数据观察与感知世界，实现分类预测、自动化等智能化服务。以医疗防护用品领域为例。各种医疗防护用品的标准是指导企业复工复产的重要依据。标准的制定及生成产品对标属于产业基础性共性技术，然而当前我国各行业存在标准制定周期长、效率低，以及产品对标依赖人工、耗时长且易遗漏出错等问题。相关从业人员人工构建了标准知识图谱以帮助生产企业、医护人员、社会公众实现便捷查询，对相关标准内容进行研究、比较、学习、运用，加快了企业的复工复产，助力经济恢复。

标准制定者在进行标准写作时，常常将大量时间花费在规范标准术语等过程上，效率有待提升。现阶段缺少一种标准冲突检测工具，帮助标准制定者快速定位标准文档间的冲突，加速标准的制定。

发明内容

本发明目的在于提出一种基于标准知识图谱的标准文档冲突检测方法，所述方法首先对标准文档的非结构化文本内容进行结构化抽取，形成标准知识图谱。基于该标准知识图谱，通过文本相似度匹配，多实体列表匹配等技术找出若干标准知识图谱间的冲突实体，实现标准文档间的冲突检测。所述方法具有良好的标准文档冲突检测能力，在给定若干标准文档下，能够对各个标准文档中的知识进行结构化，形成若干标准知识图谱，并通过标准知识图谱实现标准文档冲突检测，可广泛应用于标准编写领域。

至少通过如下技术方案之一实现。

一种基于标准知识图谱的标准文档冲突检测方法，所述方法包括以下步骤：

1)、从标准文档D中抽取若干实体、属性及其关系，构建成相对应的标准知识图谱，知识图谱包括若干条三元组，每一个三元组包含头实体、关系和尾实体三个元素；

2)、对于构建好的两个标准知识图谱的三元组进行分类，分为唯一尾实体三元组和多尾实体三元组；

3)、对于所述两个标准知识图谱中具有相同头实体和关系的唯一尾实体三元组，对比相同头实体的唯一关系三元组的尾实体间的相似度；

4)、对于所述两个标准知识图谱中具有相同头实体和关系的多尾实体三元组，匹配两个多尾实体三元组间描述相近的尾实体，对具有相同头实体的多尾实体三元组列表中的所有三元组依次计算相似度，并取列表匹配度最高的匹配作为匹配结果；

5)、根据两种三元组的相似度匹配结果输出两个文档的冲突检测结果。

优选的，所述唯一尾实体三元组指的是对于一头实体和某一关系只存在唯一相对应的尾实体。

优选的，所述多尾实体三元组指的是对于某一头实体和某一个关系存在多个尾实体，即该标准文档中，存在多条具有相同头实体和关系的三元组。

优选的，所述步骤3)包括以下步骤：

3.1)、假设两个标准知识图谱

和

中，存在唯一尾实体三元组T₁和T₂，T₁和T₂具有相同头实体和关系，T₁和T₂的头实体和关系均为H和R，尾实体分别为

和

3.2)、通过Ratcliff-Obershelp相似度算法计算

和

之间的相似度，若相似度为1，则说明

和

完全一样，不存在冲突；若

和

之间相似度小于1，那则两个实体不相同，存在冲突，且相似度越小，冲突程度越大。

优选的，所述步骤4)包括以下步骤：

4.1)、假设两个标准知识图谱

和

中，存在若干多尾实体三元组，

和

具有相同头实体和关系，

和

的头实体和关系均为H和R，尾实体列表分别为

为列表1中的第m个尾实体，

中有m个与H和R关联的尾实体，

为列表2中的第n个尾实体，

中有n个与H和R关联的尾实体；

4.2)、对于每一个在尾实体列表W¹中的实体W_i ¹，1≤i≤m，计算W_i ¹和W²中所有实体W_j ²，1≤j≤n的相似度，得到两个列表的相似度矩阵S∈R^i×j，R^i×j表示实数集；

4.3)、对于两个尾实体列表，找到两两匹配，通过遍历所有可能的两两组合，根据相似度矩阵S计算出该组合的相似度总和，遍历完成后，得到两个列表相似度最高时的匹配组合；若该匹配组合中所有匹配的相似度均为1，则这两个尾实体列表无冲突；如果存在匹配相似度小于1，则存在不相同的尾实体，存在冲突，且相似度越小，冲突程度越大。

优选的，所述相似度通过Ratcliff-Obershelp相似度算法计算。

实现所述的一种基于标准知识图谱的标准文档冲突检测方法的系统，包括：标准知识图谱构建模块、唯一尾实体匹配模块、多尾实体匹配模块、相似度计算模块、冲突结果输出模块、数据集构建模块；

其中，标准知识图谱构建模块用于实现从标准文档到标准知识图谱的转换，将文本内容转换成三元组；

唯一尾实体匹配模块用于实现匹配标准知识图谱中的唯一尾实体三元组，所述唯一尾实体三元组指的是对于某一头实体和某一关系只存在唯一相对应的尾实体；

多尾实体匹配模块用于实现匹配标准知识图谱中的多尾实体三元组，所述多尾实体三元组指的是对于某一头实体和某一个关系存在多个尾实体，即存在多条具有相同头实体和关系的三元组；

相似度计算模块用于实现计算两个尾实体之间的相似度；

冲突结果输出模块用于实现冲突结果的输出，针对唯一尾实体三元组，如果两个尾实体相似度为1，则说明它们完全一样，不存在冲突；如果相似度小于1，那则两个尾实体不相同，存在冲突，且相似度越小，冲突程度越大；针对多尾实体三元组，通过遍历两个三元组列表所有元素的两两组合，根据相似度矩阵S计算出该组合的相似度总和，遍历完成后，得到两个列表相似度最高时的匹配组合；若该匹配组合中所有匹配的相似度均为1，则这两个尾实体列表无冲突；如果存在匹配相似度小于1，则存在不相同的尾实体，存在冲突，且相似度越小，冲突程度越大；

数据集构建模块用于实现构建测试所需的数据，通过人工修改标准文档中的句子以构建原句和修改句的句子对。

优选的，所述数据集构建模块中的数据集包括若干句子对，用于检测系统是否能检测出每个句子对中的冲突。

优选的，所述数据集中的每个样本包含两个标准文档中的文本，这两个文本存在冲突或者不冲突的关系，用数据集中文本判断一个样本中的两个文本是否冲突，用准确率进行评估。

优选的，数据集中包含N个样本，预测冲突关系正确的样本数M，则准确率为M/N，准确率越高，说明算法性能越好，预测的冲突关系越准确。

本发明与现有技术相比，具有如下优点和有益效果：

现阶段标准制定者在进行标准写作时，常常将大量时间花费在规范标准术语、解决标准间冲突等过程上，效率有待提升。本发明基于标准知识图谱，实现了一种全自动的标准冲突检测算法，能够快速定位标准文档间的冲突内容，帮助标准制定者快速定位问题，从而加快整个标准制定、发布、实施的进程。

附图说明

图1为本发明实施例一种基于标准知识图谱的标准文档冲突检测方法的流程图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

如图1所示，本实施例提供的一种基于标准知识图谱的标准文档冲突检测方法，包括以下步骤：

1)、对于标准文档D，通过命名实体识别、关系抽取等从D中抽取若干实体、属性及其关系，构建成相对应的标准知识图谱G_D，知识图谱由若干条三元组构成，每一个三元组包含头实体、关系和尾实体三个元素；

2)、对于两个构建好的标准知识图谱

和

对其中的三元组进行分类，分为唯一尾实体三元组和多尾实体三元组。

2.1)、唯一尾实体三元组即对于某一头实体和某一关系只存在唯一相对应的尾实体，例如在GB 2626-2006标准文档所包含的三元组中，以“合成血液”为头实体，以“英文名称”为关系的三元组是唯一的，即只有(合成血液，英文名称，synthetic blood)这一条三元组：

2.2)、多尾实体三元组即即对于某一头实体和某一关系存在多个尾实体，即该标准文档中，存在多条具有相同头实体和关系的三元组，例如在GB 19082-2009标准文档所包含的三元组中，以“检测方法”为头实体，以“具体流程”为关系的三元组存在两条，分别：检测方法，具体流程包括以下步骤，0$在持续施加的压强下以合成血液对防护服材料进行试验和检测方法，具体流程，1$目视检查材料上合成血液是否穿透；

3)、对于

和

中具有相同头实体和关系的唯一尾实体三元组，采用Ratcliff-Obershelp文本相似度算法对比相同头实体的唯一关系三元组的尾实体间的相似度；

3.1)、假设两个标准知识图谱

和

和

3.2)、通过Ratcliff-Obershelp相似度算法计算

和

之间的相似度，若相似度为1，则说明

和

完全一样，不存在冲突；若

和

4)、对于

和

中具有相同头实体和关系的多尾实体三元组，采用最大列表匹配算法，对具有相同头实体的多关系三元组列表中的所有三元组采用Ratcliff-Obershelp文本相似度算法依次计算相似度，并取列表匹配度最高的匹配作为匹配结果；

4.1)、假设两个标准知识图谱

和

中，存在若干多尾实体三元组，它们具有相同头实体和关系，它们的头实体和关系均为H和R，尾实体列表分别为

(即

中有m个与H和R关联的尾实体)，

(即

中有n个与H和R关联的尾实体)。

4.2)、对于每一个在W¹中的实体W_i ¹(1≤i≤m)，通过Ratcliff-Obershelp相似度算法计算W_i ¹和W²中所有实体W_j ²(1≤j≤n)的相似度，得到两个列表的相似度矩阵S∈R^i×j，i、j表示在某个范围内任取一个，R表示实数集。

4.3)、对于两个尾实体列表，需要找到两两匹配。通过遍历所有可能的两两组合，根据相似度矩阵S计算出该组合的相似度总和。遍历完成后，得到两个列表相似度最高时的匹配组合。若该匹配组合中所有匹配的相似度均为1，则这两个尾实体列表无冲突；如果存在匹配相似度小于1，那么存在不相同的尾实体，存在冲突，且相似度越小，冲突程度越大。

、根据两种三元组的相似度匹配结果输出最终两个文档D₁和D₂间的冲突检测结果。输出的冲突检测结果是通过相似度得到的：相似度小于1，那么这两个实体不相同，存在冲突，且相似度越小，冲突程度越大。

本实施例提供了一种基于标准知识图谱的标准文档冲突检测装置，包括：标准知识图谱构建模块、唯一尾实体匹配模块、多尾实体匹配模块、相似度计算模块、冲突结果输出模块、数据集构建模块；

其中，标准知识图谱构建模块用于实现从标准文档到标准知识图谱的转换，将文本内容转换成三元组。

唯一尾实体匹配模块用于实现匹配标准知识图谱中的唯一尾实体三元组，所述唯一尾实体三元组指的是对于某一头实体和某一关系只存在唯一相对应的尾实体。

多尾实体匹配模块用于实现匹配标准知识图谱中的多尾实体三元组，所述多尾实体三元组指的是对于某一头实体和某一个关系存在多个尾实体，即存在多条具有相同头实体和关系的三元组。

相似度计算模块用于实现计算两个尾实体之间的相似度，采用Ratcliff-Obershelp文本相似度算法进行对比。

冲突结果输出模块用于实现冲突结果的输出。针对唯一尾实体三元组，如果两个尾实体相似度为1，则说明它们完全一样，不存在冲突；如果相似度小于1，那则两个尾实体不相同，存在冲突，且相似度越小，冲突程度越大；针对多尾实体三元组，通过遍历两个三元组列表所有元素的两两组合，根据相似度矩阵S计算出该组合的相似度总和，遍历完成后，得到两个列表相似度最高时的匹配组合；若该匹配组合中所有匹配的相似度均为1，则这两个尾实体列表无冲突；如果存在匹配相似度小于1，则存在不相同的尾实体，存在冲突，且相似度越小，冲突程度越大。

数据集构建模块用于实现构建测试所需的数据。具体实现方式为通过人工修改标准文档中的句子以构建原句和修改句的句子对。数据集由若干句子对构成，该数据集用于检测发明算法是否能检测出每个句子对中的冲突。数据集中的每个样本包含两个标准文档中的文本，这两个文本存在冲突或者不冲突的关系，用这个数据集来测试算法能不能准确判断一个样本中的两个文本是否冲突，用准确率进行评估。数据集中包含N个样本，模型预测冲突关系正确的样本数M，则准确率为M/N。准确率越高，说明算法性能越好，预测的冲突关系越准确。

在此需要说明的是，本实施例的装置仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

本实施例提供一种计算机可读存储介质，存储有程序，所述程序被处理器执行时，实现实施例所述的基于标准知识图谱的标准文档冲突检测方法。

本实施例中的计算机可读存储介质可以是磁盘、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、U盘、移动硬盘等介质。

本实施例中所述的计算设备可以是台式电脑、笔记本电脑或其他具有处理器功能的终端设备。

以上所述，仅为本发明较佳的实施例，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明所公开的范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都属于本发明的保护范围。

Claims

1.一种基于标准知识图谱的标准文档冲突检测方法，其特征在于，所述方法包括以下步骤：

1)、对于标准文档D，通过命名实体识别、关系抽取从D中抽取若干实体、属性及其关系，构建成相对应的标准知识图谱G_D，知识图谱由若干条三元组构成，每一个三元组包含头实体、关系和尾实体三个元素；

2)、对于两个构建好的标准知识图谱

和

对其中的三元组进行分类，分为唯一尾实体三元组和多尾实体三元组，具体包括：

2.1)、唯一尾实体三元组即对于某一头实体和某一关系只存在唯一相对应的尾实体；

2.2)、多尾实体三元组即对于某一头实体和某一关系存在多个尾实体，即该标准文档中，存在多条具有相同头实体和关系的三元组；

3)、对于

和

中具有相同头实体和关系的唯一尾实体三元组，采用Ratcliff-Obershelp文本相似度算法对比相同头实体的唯一关系三元组的尾实体间的相似度，具体包括：

3.1)、假设两个标准知识图谱

和

和

3.2)、通过Ratcliff-Obershelp相似度算法计算

和

之间的相似度，若相似度为1，则说明

和

完全一样，不存在冲突；若

和

之间相似度小于1，那则两个实体不相同，存在冲突，且相似度越小，冲突程度越大；

4)、对于

和

4.1)、假设两个标准知识图谱

和

中，存在若干多尾实体三元组，若干多尾实体三元组具有相同头实体和关系，其头实体和关系均为H和R，尾实体列表分别为

即

中有m个与H和R关联的尾实体，

即

中有n个与H和R关联的尾实体；

4.2)、对于每一个在W¹中的实体W_i ¹，1≤i≤m，通过Ratcliff-Obershelp相似度算法计算W_i ¹和W²中所有实体W_j ²，1≤j≤n的相似度，得到两个列表的相似度矩阵S∈R^i×j，i、j表示在某个范围内任取一个，R表示实数集；

4.3)、对于两个尾实体列表，需要找到两两匹配；通过遍历所有可能的两两组合，根据相似度矩阵S计算出该组合的相似度总和，遍历完成后，得到两个列表相似度最高时的匹配组合，若该匹配组合中所有匹配的相似度均为1，则这两个尾实体列表无冲突；如果存在匹配相似度小于1，那么存在不相同的尾实体，存在冲突，且相似度越小，冲突程度越大；

根据两种三元组的相似度匹配结果输出最终两个文档D₁和D₂间的冲突检测结果；输出的冲突检测结果是通过相似度得到的：相似度小于1，那么这两个实体不相同，存在冲突，且相似度越小，冲突程度越大。

2.实现权利要求1所述的一种基于标准知识图谱的标准文档冲突检测方法的系统，其特征在于，包括：标准知识图谱构建模块、唯一尾实体匹配模块、多尾实体匹配模块、相似度计算模块、冲突结果输出模块、数据集构建模块；

相似度计算模块用于实现计算两个尾实体之间的相似度；

3.根据权利要求2所述的系统，其特征在于，所述数据集构建模块中的数据集包括若干句子对，用于检测系统是否能检测出每个句子对中的冲突。

4.根据权利要求3所述的系统，其特征在于，所述数据集中的每个样本包含两个标准文档中的文本，这两个文本存在冲突或者不冲突的关系，用数据集中文本判断一个样本中的两个文本是否冲突，用准确率进行评估。

5.根据权利要求4所述的系统，其特征在于，数据集中包含N个样本，预测冲突关系正确的样本数M，则准确率为M/N，准确率越高，说明算法性能越好，预测的冲突关系越准确。