CN113449118B - 一种基于标准知识图谱的标准文档冲突检测方法及系统 - Google Patents

一种基于标准知识图谱的标准文档冲突检测方法及系统 Download PDF

Info

Publication number
CN113449118B
CN113449118B CN202110732648.8A CN202110732648A CN113449118B CN 113449118 B CN113449118 B CN 113449118B CN 202110732648 A CN202110732648 A CN 202110732648A CN 113449118 B CN113449118 B CN 113449118B
Authority
CN
China
Prior art keywords
similarity
entity
tail
conflict
standard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110732648.8A
Other languages
English (en)
Other versions
CN113449118A (zh
Inventor
蔡毅
曹晋
吴欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202110732648.8A priority Critical patent/CN113449118B/zh
Publication of CN113449118A publication Critical patent/CN113449118A/zh
Application granted granted Critical
Publication of CN113449118B publication Critical patent/CN113449118B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于标准知识图谱的标准文档冲突检测方法及系统,所述方法首先对标准文档的非结构化文本内容进行结构化抽取,形成标准知识图谱。基于该标准知识图谱,通过文本相似度匹配,多实体列表匹配等技术找出若干标准知识图谱间的冲突实体,实现标准文档间的冲突检测。所述方法具有良好的标准文档冲突检测能力,在给定若干标准文档下,能够对各个标准文档中的知识进行结构化,形成若干标准知识图谱,并通过标准知识图谱实现标准文档冲突检测,可广泛应用于标准编写领域。

Description

一种基于标准知识图谱的标准文档冲突检测方法及系统
技术领域
本发明涉及自然语言处理、知识图谱构建、文本匹配领域,具体涉及一种基于标准知识图谱的标准文档冲突检测方法及系统。
背景技术
随着我国标准化进程的推进,各行各业已经沉淀了许多标准文档,为我国的进一步科技创新打下了坚实的基础。然而,现阶段的标准数据大都以文本、图片的形式存储在数据库中,其中的海量知识尚未得到充分利用。
各行各业均表现出对标准数据实现自动化知识挖掘的需求,以辅助标准从业人员、企业、科研人员等社会各界更好地利用标准知识,从而进一步地推动各行各业的科技创新。现有的标准大多以数据的形式存储,如何推动现有的标准数据从“数据”向“知识”过渡,核心需求在于通过数据观察与感知世界,实现分类预测、自动化等智能化服务。以医疗防护用品领域为例。各种医疗防护用品的标准是指导企业复工复产的重要依据。标准的制定及生成产品对标属于产业基础性共性技术,然而当前我国各行业存在标准制定周期长、效率低,以及产品对标依赖人工、耗时长且易遗漏出错等问题。相关从业人员人工构建了标准知识图谱以帮助生产企业、医护人员、社会公众实现便捷查询,对相关标准内容进行研究、比较、学习、运用,加快了企业的复工复产,助力经济恢复。
标准制定者在进行标准写作时,常常将大量时间花费在规范标准术语等过程上,效率有待提升。现阶段缺少一种标准冲突检测工具,帮助标准制定者快速定位标准文档间的冲突,加速标准的制定。
发明内容
本发明目的在于提出一种基于标准知识图谱的标准文档冲突检测方法,所述方法首先对标准文档的非结构化文本内容进行结构化抽取,形成标准知识图谱。基于该标准知识图谱,通过文本相似度匹配,多实体列表匹配等技术找出若干标准知识图谱间的冲突实体,实现标准文档间的冲突检测。所述方法具有良好的标准文档冲突检测能力,在给定若干标准文档下,能够对各个标准文档中的知识进行结构化,形成若干标准知识图谱,并通过标准知识图谱实现标准文档冲突检测,可广泛应用于标准编写领域。
至少通过如下技术方案之一实现。
一种基于标准知识图谱的标准文档冲突检测方法,所述方法包括以下步骤:
1)、从标准文档D中抽取若干实体、属性及其关系,构建成相对应的标准知识图谱,知识图谱包括若干条三元组,每一个三元组包含头实体、关系和尾实体三个元素;
2)、对于构建好的两个标准知识图谱的三元组进行分类,分为唯一尾实体三元组和多尾实体三元组;
3)、对于所述两个标准知识图谱中具有相同头实体和关系的唯一尾实体三元组,对比相同头实体的唯一关系三元组的尾实体间的相似度;
4)、对于所述两个标准知识图谱中具有相同头实体和关系的多尾实体三元组,匹配两个多尾实体三元组间描述相近的尾实体,对具有相同头实体的多尾实体三元组列表中的所有三元组依次计算相似度,并取列表匹配度最高的匹配作为匹配结果;
5)、根据两种三元组的相似度匹配结果输出两个文档的冲突检测结果。
优选的,所述唯一尾实体三元组指的是对于一头实体和某一关系只存在唯一相对应的尾实体。
优选的,所述多尾实体三元组指的是对于某一头实体和某一个关系存在多个尾实体,即该标准文档中,存在多条具有相同头实体和关系的三元组。
优选的,所述步骤3)包括以下步骤:
3.1)、假设两个标准知识图谱
Figure GDA0003238252980000031
Figure GDA0003238252980000032
中,存在唯一尾实体三元组T1和T2,T1和T2具有相同头实体和关系,T1和T2的头实体和关系均为H和R,尾实体分别为
Figure GDA0003238252980000033
Figure GDA0003238252980000034
3.2)、通过Ratcliff-Obershelp相似度算法计算
Figure GDA0003238252980000035
Figure GDA0003238252980000036
之间的相似度,若相似度为1,则说明
Figure GDA0003238252980000037
Figure GDA0003238252980000038
完全一样,不存在冲突;若
Figure GDA0003238252980000039
Figure GDA00032382529800000310
之间相似度小于1,那则两个实体不相同,存在冲突,且相似度越小,冲突程度越大。
优选的,所述步骤4)包括以下步骤:
4.1)、假设两个标准知识图谱
Figure GDA00032382529800000311
Figure GDA00032382529800000312
中,存在若干多尾实体三元组,
Figure GDA00032382529800000313
Figure GDA00032382529800000314
具有相同头实体和关系,
Figure GDA00032382529800000315
Figure GDA00032382529800000316
的头实体和关系均为H和R,尾实体列表分别为
Figure GDA00032382529800000317
Figure GDA00032382529800000318
为列表1中的第m个尾实体,
Figure GDA00032382529800000319
中有m个与H和R关联的尾实体,
Figure GDA00032382529800000320
Figure GDA00032382529800000321
为列表2中的第n个尾实体,
Figure GDA0003238252980000041
中有n个与H和R关联的尾实体;
4.2)、对于每一个在尾实体列表W1中的实体Wi 1,1≤i≤m,计算Wi 1和W2中所有实体Wj 2,1≤j≤n的相似度,得到两个列表的相似度矩阵S∈Ri×j,Ri×j表示实数集;
4.3)、对于两个尾实体列表,找到两两匹配,通过遍历所有可能的两两组合,根据相似度矩阵S计算出该组合的相似度总和,遍历完成后,得到两个列表相似度最高时的匹配组合;若该匹配组合中所有匹配的相似度均为1,则这两个尾实体列表无冲突;如果存在匹配相似度小于1,则存在不相同的尾实体,存在冲突,且相似度越小,冲突程度越大。
优选的,所述相似度通过Ratcliff-Obershelp相似度算法计算。
实现所述的一种基于标准知识图谱的标准文档冲突检测方法的系统,包括:标准知识图谱构建模块、唯一尾实体匹配模块、多尾实体匹配模块、相似度计算模块、冲突结果输出模块、数据集构建模块;
其中,标准知识图谱构建模块用于实现从标准文档到标准知识图谱的转换,将文本内容转换成三元组;
唯一尾实体匹配模块用于实现匹配标准知识图谱中的唯一尾实体三元组,所述唯一尾实体三元组指的是对于某一头实体和某一关系只存在唯一相对应的尾实体;
多尾实体匹配模块用于实现匹配标准知识图谱中的多尾实体三元组,所述多尾实体三元组指的是对于某一头实体和某一个关系存在多个尾实体,即存在多条具有相同头实体和关系的三元组;
相似度计算模块用于实现计算两个尾实体之间的相似度;
冲突结果输出模块用于实现冲突结果的输出,针对唯一尾实体三元组,如果两个尾实体相似度为1,则说明它们完全一样,不存在冲突;如果相似度小于1,那则两个尾实体不相同,存在冲突,且相似度越小,冲突程度越大;针对多尾实体三元组,通过遍历两个三元组列表所有元素的两两组合,根据相似度矩阵S计算出该组合的相似度总和,遍历完成后,得到两个列表相似度最高时的匹配组合;若该匹配组合中所有匹配的相似度均为1,则这两个尾实体列表无冲突;如果存在匹配相似度小于1,则存在不相同的尾实体,存在冲突,且相似度越小,冲突程度越大;
数据集构建模块用于实现构建测试所需的数据,通过人工修改标准文档中的句子以构建原句和修改句的句子对。
优选的,所述数据集构建模块中的数据集包括若干句子对,用于检测系统是否能检测出每个句子对中的冲突。
优选的,所述数据集中的每个样本包含两个标准文档中的文本,这两个文本存在冲突或者不冲突的关系,用数据集中文本判断一个样本中的两个文本是否冲突,用准确率进行评估。
优选的,数据集中包含N个样本,预测冲突关系正确的样本数M,则准确率为M/N,准确率越高,说明算法性能越好,预测的冲突关系越准确。
本发明与现有技术相比,具有如下优点和有益效果:
现阶段标准制定者在进行标准写作时,常常将大量时间花费在规范标准术语、解决标准间冲突等过程上,效率有待提升。本发明基于标准知识图谱,实现了一种全自动的标准冲突检测算法,能够快速定位标准文档间的冲突内容,帮助标准制定者快速定位问题,从而加快整个标准制定、发布、实施的进程。
附图说明
图1为本发明实施例一种基于标准知识图谱的标准文档冲突检测方法的流程图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
如图1所示,本实施例提供的一种基于标准知识图谱的标准文档冲突检测方法,包括以下步骤:
1)、对于标准文档D,通过命名实体识别、关系抽取等从D中抽取若干实体、属性及其关系,构建成相对应的标准知识图谱GD,知识图谱由若干条三元组构成,每一个三元组包含头实体、关系和尾实体三个元素;
2)、对于两个构建好的标准知识图谱
Figure GDA0003238252980000061
Figure GDA0003238252980000062
对其中的三元组进行分类,分为唯一尾实体三元组和多尾实体三元组。
2.1)、唯一尾实体三元组即对于某一头实体和某一关系只存在唯一相对应的尾实体,例如在GB 2626-2006标准文档所包含的三元组中,以“合成血液”为头实体,以“英文名称”为关系的三元组是唯一的,即只有(合成血液,英文名称,synthetic blood)这一条三元组:
2.2)、多尾实体三元组即即对于某一头实体和某一关系存在多个尾实体,即该标准文档中,存在多条具有相同头实体和关系的三元组,例如在GB 19082-2009标准文档所包含的三元组中,以“检测方法”为头实体,以“具体流程”为关系的三元组存在两条,分别:检测方法,具体流程包括以下步骤,0$在持续施加的压强下以合成血液对防护服材料进行试验和检测方法,具体流程,1$目视检查材料上合成血液是否穿透;
3)、对于
Figure GDA0003238252980000071
Figure GDA0003238252980000072
中具有相同头实体和关系的唯一尾实体三元组,采用Ratcliff-Obershelp文本相似度算法对比相同头实体的唯一关系三元组的尾实体间的相似度;
3.1)、假设两个标准知识图谱
Figure GDA0003238252980000073
Figure GDA0003238252980000074
中,存在唯一尾实体三元组T1和T2,T1和T2具有相同头实体和关系,T1和T2的头实体和关系均为H和R,尾实体分别为
Figure GDA0003238252980000075
Figure GDA0003238252980000076
3.2)、通过Ratcliff-Obershelp相似度算法计算
Figure GDA0003238252980000077
Figure GDA0003238252980000078
之间的相似度,若相似度为1,则说明
Figure GDA0003238252980000079
Figure GDA00032382529800000710
完全一样,不存在冲突;若
Figure GDA00032382529800000711
Figure GDA00032382529800000712
之间相似度小于1,那则两个实体不相同,存在冲突,且相似度越小,冲突程度越大。
4)、对于
Figure GDA00032382529800000713
Figure GDA00032382529800000714
中具有相同头实体和关系的多尾实体三元组,采用最大列表匹配算法,对具有相同头实体的多关系三元组列表中的所有三元组采用Ratcliff-Obershelp文本相似度算法依次计算相似度,并取列表匹配度最高的匹配作为匹配结果;
4.1)、假设两个标准知识图谱
Figure GDA00032382529800000715
Figure GDA00032382529800000716
中,存在若干多尾实体三元组,它们具有相同头实体和关系,它们的头实体和关系均为H和R,尾实体列表分别为
Figure GDA0003238252980000081
(即
Figure GDA0003238252980000082
中有m个与H和R关联的尾实体),
Figure GDA0003238252980000083
Figure GDA0003238252980000084
(即
Figure GDA0003238252980000085
中有n个与H和R关联的尾实体)。
4.2)、对于每一个在W1中的实体Wi 1(1≤i≤m),通过Ratcliff-Obershelp相似度算法计算Wi 1和W2中所有实体Wj 2(1≤j≤n)的相似度,得到两个列表的相似度矩阵S∈Ri×j,i、j表示在某个范围内任取一个,R表示实数集。
4.3)、对于两个尾实体列表,需要找到两两匹配。通过遍历所有可能的两两组合,根据相似度矩阵S计算出该组合的相似度总和。遍历完成后,得到两个列表相似度最高时的匹配组合。若该匹配组合中所有匹配的相似度均为1,则这两个尾实体列表无冲突;如果存在匹配相似度小于1,那么存在不相同的尾实体,存在冲突,且相似度越小,冲突程度越大。
、根据两种三元组的相似度匹配结果输出最终两个文档D1和D2间的冲突检测结果。输出的冲突检测结果是通过相似度得到的:相似度小于1,那么这两个实体不相同,存在冲突,且相似度越小,冲突程度越大。
本实施例提供了一种基于标准知识图谱的标准文档冲突检测装置,包括:标准知识图谱构建模块、唯一尾实体匹配模块、多尾实体匹配模块、相似度计算模块、冲突结果输出模块、数据集构建模块;
其中,标准知识图谱构建模块用于实现从标准文档到标准知识图谱的转换,将文本内容转换成三元组。
唯一尾实体匹配模块用于实现匹配标准知识图谱中的唯一尾实体三元组,所述唯一尾实体三元组指的是对于某一头实体和某一关系只存在唯一相对应的尾实体。
多尾实体匹配模块用于实现匹配标准知识图谱中的多尾实体三元组,所述多尾实体三元组指的是对于某一头实体和某一个关系存在多个尾实体,即存在多条具有相同头实体和关系的三元组。
相似度计算模块用于实现计算两个尾实体之间的相似度,采用Ratcliff-Obershelp文本相似度算法进行对比。
冲突结果输出模块用于实现冲突结果的输出。针对唯一尾实体三元组,如果两个尾实体相似度为1,则说明它们完全一样,不存在冲突;如果相似度小于1,那则两个尾实体不相同,存在冲突,且相似度越小,冲突程度越大;针对多尾实体三元组,通过遍历两个三元组列表所有元素的两两组合,根据相似度矩阵S计算出该组合的相似度总和,遍历完成后,得到两个列表相似度最高时的匹配组合;若该匹配组合中所有匹配的相似度均为1,则这两个尾实体列表无冲突;如果存在匹配相似度小于1,则存在不相同的尾实体,存在冲突,且相似度越小,冲突程度越大。
数据集构建模块用于实现构建测试所需的数据。具体实现方式为通过人工修改标准文档中的句子以构建原句和修改句的句子对。数据集由若干句子对构成,该数据集用于检测发明算法是否能检测出每个句子对中的冲突。数据集中的每个样本包含两个标准文档中的文本,这两个文本存在冲突或者不冲突的关系,用这个数据集来测试算法能不能准确判断一个样本中的两个文本是否冲突,用准确率进行评估。数据集中包含N个样本,模型预测冲突关系正确的样本数M,则准确率为M/N。准确率越高,说明算法性能越好,预测的冲突关系越准确。
在此需要说明的是,本实施例的装置仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
本实施例提供一种计算机可读存储介质,存储有程序,所述程序被处理器执行时,实现实施例所述的基于标准知识图谱的标准文档冲突检测方法。
本实施例中的计算机可读存储介质可以是磁盘、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、U盘、移动硬盘等介质。
本实施例中所述的计算设备可以是台式电脑、笔记本电脑或其他具有处理器功能的终端设备。
以上所述,仅为本发明较佳的实施例,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明所公开的范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都属于本发明的保护范围。

Claims (5)

1.一种基于标准知识图谱的标准文档冲突检测方法,其特征在于,所述方法包括以下步骤:
1)、对于标准文档D,通过命名实体识别、关系抽取从D中抽取若干实体、属性及其关系,构建成相对应的标准知识图谱GD,知识图谱由若干条三元组构成,每一个三元组包含头实体、关系和尾实体三个元素;
2)、对于两个构建好的标准知识图谱
Figure FDA0003731244310000011
Figure FDA0003731244310000012
对其中的三元组进行分类,分为唯一尾实体三元组和多尾实体三元组,具体包括:
2.1)、唯一尾实体三元组即对于某一头实体和某一关系只存在唯一相对应的尾实体;
2.2)、多尾实体三元组即对于某一头实体和某一关系存在多个尾实体,即该标准文档中,存在多条具有相同头实体和关系的三元组;
3)、对于
Figure FDA0003731244310000013
Figure FDA0003731244310000014
中具有相同头实体和关系的唯一尾实体三元组,采用Ratcliff-Obershelp文本相似度算法对比相同头实体的唯一关系三元组的尾实体间的相似度,具体包括:
3.1)、假设两个标准知识图谱
Figure FDA0003731244310000015
Figure FDA0003731244310000016
中,存在唯一尾实体三元组T1和T2,T1和T2具有相同头实体和关系,T1和T2的头实体和关系均为H和R,尾实体分别为
Figure FDA0003731244310000017
Figure FDA0003731244310000018
3.2)、通过Ratcliff-Obershelp相似度算法计算
Figure FDA0003731244310000019
Figure FDA00037312443100000110
之间的相似度,若相似度为1,则说明
Figure FDA00037312443100000111
Figure FDA00037312443100000112
完全一样,不存在冲突;若
Figure FDA00037312443100000113
Figure FDA00037312443100000114
之间相似度小于1,那则两个实体不相同,存在冲突,且相似度越小,冲突程度越大;
4)、对于
Figure FDA0003731244310000021
Figure FDA0003731244310000022
中具有相同头实体和关系的多尾实体三元组,采用最大列表匹配算法,对具有相同头实体的多关系三元组列表中的所有三元组采用Ratcliff-Obershelp文本相似度算法依次计算相似度,并取列表匹配度最高的匹配作为匹配结果;
4.1)、假设两个标准知识图谱
Figure FDA0003731244310000023
Figure FDA0003731244310000024
中,存在若干多尾实体三元组,若干多尾实体三元组具有相同头实体和关系,其头实体和关系均为H和R,尾实体列表分别为
Figure FDA0003731244310000025
Figure FDA0003731244310000026
中有m个与H和R关联的尾实体,
Figure FDA0003731244310000027
Figure FDA0003731244310000028
中有n个与H和R关联的尾实体;
4.2)、对于每一个在W1中的实体Wi 1,1≤i≤m,通过Ratcliff-Obershelp相似度算法计算Wi 1和W2中所有实体Wj 2,1≤j≤n的相似度,得到两个列表的相似度矩阵S∈Ri×j,i、j表示在某个范围内任取一个,R表示实数集;
4.3)、对于两个尾实体列表,需要找到两两匹配;通过遍历所有可能的两两组合,根据相似度矩阵S计算出该组合的相似度总和,遍历完成后,得到两个列表相似度最高时的匹配组合,若该匹配组合中所有匹配的相似度均为1,则这两个尾实体列表无冲突;如果存在匹配相似度小于1,那么存在不相同的尾实体,存在冲突,且相似度越小,冲突程度越大;
根据两种三元组的相似度匹配结果输出最终两个文档D1和D2间的冲突检测结果;输出的冲突检测结果是通过相似度得到的:相似度小于1,那么这两个实体不相同,存在冲突,且相似度越小,冲突程度越大。
2.实现权利要求1所述的一种基于标准知识图谱的标准文档冲突检测方法的系统,其特征在于,包括:标准知识图谱构建模块、唯一尾实体匹配模块、多尾实体匹配模块、相似度计算模块、冲突结果输出模块、数据集构建模块;
其中,标准知识图谱构建模块用于实现从标准文档到标准知识图谱的转换,将文本内容转换成三元组;
唯一尾实体匹配模块用于实现匹配标准知识图谱中的唯一尾实体三元组,所述唯一尾实体三元组指的是对于某一头实体和某一关系只存在唯一相对应的尾实体;
多尾实体匹配模块用于实现匹配标准知识图谱中的多尾实体三元组,所述多尾实体三元组指的是对于某一头实体和某一个关系存在多个尾实体,即存在多条具有相同头实体和关系的三元组;
相似度计算模块用于实现计算两个尾实体之间的相似度;
冲突结果输出模块用于实现冲突结果的输出,针对唯一尾实体三元组,如果两个尾实体相似度为1,则说明它们完全一样,不存在冲突;如果相似度小于1,那则两个尾实体不相同,存在冲突,且相似度越小,冲突程度越大;针对多尾实体三元组,通过遍历两个三元组列表所有元素的两两组合,根据相似度矩阵S计算出该组合的相似度总和,遍历完成后,得到两个列表相似度最高时的匹配组合;若该匹配组合中所有匹配的相似度均为1,则这两个尾实体列表无冲突;如果存在匹配相似度小于1,则存在不相同的尾实体,存在冲突,且相似度越小,冲突程度越大;
数据集构建模块用于实现构建测试所需的数据,通过人工修改标准文档中的句子以构建原句和修改句的句子对。
3.根据权利要求2所述的系统,其特征在于,所述数据集构建模块中的数据集包括若干句子对,用于检测系统是否能检测出每个句子对中的冲突。
4.根据权利要求3所述的系统,其特征在于,所述数据集中的每个样本包含两个标准文档中的文本,这两个文本存在冲突或者不冲突的关系,用数据集中文本判断一个样本中的两个文本是否冲突,用准确率进行评估。
5.根据权利要求4所述的系统,其特征在于,数据集中包含N个样本,预测冲突关系正确的样本数M,则准确率为M/N,准确率越高,说明算法性能越好,预测的冲突关系越准确。
CN202110732648.8A 2021-06-29 2021-06-29 一种基于标准知识图谱的标准文档冲突检测方法及系统 Active CN113449118B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110732648.8A CN113449118B (zh) 2021-06-29 2021-06-29 一种基于标准知识图谱的标准文档冲突检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110732648.8A CN113449118B (zh) 2021-06-29 2021-06-29 一种基于标准知识图谱的标准文档冲突检测方法及系统

Publications (2)

Publication Number Publication Date
CN113449118A CN113449118A (zh) 2021-09-28
CN113449118B true CN113449118B (zh) 2022-09-20

Family

ID=77814292

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110732648.8A Active CN113449118B (zh) 2021-06-29 2021-06-29 一种基于标准知识图谱的标准文档冲突检测方法及系统

Country Status (1)

Country Link
CN (1) CN113449118B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109543047A (zh) * 2018-11-21 2019-03-29 焦点科技股份有限公司 一种基于医疗领域网站的知识图谱构建方法
CN111831830A (zh) * 2020-07-01 2020-10-27 腾讯科技(深圳)有限公司 知识图谱实体领域冲突检测方法、装置及相关设备
CN112100403A (zh) * 2020-09-16 2020-12-18 浙江大学 一种基于神经网络的知识图谱不一致性推理方法
CN112579727A (zh) * 2020-12-16 2021-03-30 北京百度网讯科技有限公司 文档内容的提取方法、装置、电子设备及存储介质
CN112883201A (zh) * 2021-03-23 2021-06-01 西安电子科技大学昆山创新研究院 一种基于智慧社区大数据的知识图谱构建方法
CN112948535A (zh) * 2019-12-10 2021-06-11 复旦大学 一种文本的知识三元组抽取方法、装置及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109543047A (zh) * 2018-11-21 2019-03-29 焦点科技股份有限公司 一种基于医疗领域网站的知识图谱构建方法
CN112948535A (zh) * 2019-12-10 2021-06-11 复旦大学 一种文本的知识三元组抽取方法、装置及存储介质
CN111831830A (zh) * 2020-07-01 2020-10-27 腾讯科技(深圳)有限公司 知识图谱实体领域冲突检测方法、装置及相关设备
CN112100403A (zh) * 2020-09-16 2020-12-18 浙江大学 一种基于神经网络的知识图谱不一致性推理方法
CN112579727A (zh) * 2020-12-16 2021-03-30 北京百度网讯科技有限公司 文档内容的提取方法、装置、电子设备及存储介质
CN112883201A (zh) * 2021-03-23 2021-06-01 西安电子科技大学昆山创新研究院 一种基于智慧社区大数据的知识图谱构建方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A Novel Time Constraint-Based Approach for Knowledge Graph Conflict Resolution;Yanjun Wang et al.;《Applied sciences》;20190930;1-13 *
智能家居场景联动中基于知识图谱的隐式冲突检测方法研究;肖丁等;《计算机学报》;20190318(第06期);32-46 *

Also Published As

Publication number Publication date
CN113449118A (zh) 2021-09-28

Similar Documents

Publication Publication Date Title
Neudecker et al. A survey of OCR evaluation tools and metrics
CN109472310B (zh) 确定两份简历为相同人才的识别方法及装置
CN112651296A (zh) 一种无先验知识数据质量问题自动探查方法及系统
CN113836038A (zh) 测试数据构造方法、装置、设备及存储介质
Lomax Introduction to structural equation modeling
CN112181490B (zh) 功能点评估法中功能类别的识别方法、装置、设备及介质
CN111931750B (zh) 化验单的识别方法和识别装置
CN113486664A (zh) 文本数据可视化分析方法、装置、设备及存储介质
US10719536B2 (en) Efficiently finding potential duplicate values in data
Ladd Understanding and using common similarity measures for text analysis
CN117556050A (zh) 数据分类分级方法、装置、电子设备及存储介质
CN113449118B (zh) 一种基于标准知识图谱的标准文档冲突检测方法及系统
CN115373982A (zh) 基于人工智能的测试报告分析方法、装置、设备及介质
CN111898618B (zh) 一种识别古代图形文字的方法、装置和程序储存介质
CN114139530A (zh) 同义词提取方法、装置、电子设备及存储介质
CN113962197A (zh) 医疗化验单标准化方法、装置、电子设备及存储介质
CN113888265A (zh) 产品推荐方法、装置、设备及计算机可读存储介质
Kodali et al. Automated Plagiarism Detection in Moodle
Pepper et al. Metadata verification: A workflow for computational archival science
Shaikh et al. Comparative Analysis of Urdu Parts Of Speech Taggers using Machine Learning Techniques
CN117540107B (zh) 一种数据处理方法、装置、电子设备及存储介质
Thompson Augmenting biological pathway extraction with synthetic data and active learning
Jaskani et al. Comparative Analysis of Urdu Parts Of Speech Taggers using Machine Learning Techniques
Mahale et al. Data Validation using Sentence Transformers
Smiljković et al. Incorporating Practical Single Cell and Spatial Transcriptomics Analysis in a Bioinformatics Course

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant