CN115659945A - 一种标准文档相似度检测方法、装置及系统 - Google Patents

一种标准文档相似度检测方法、装置及系统 Download PDF

Info

Publication number
CN115659945A
CN115659945A CN202211656594.2A CN202211656594A CN115659945A CN 115659945 A CN115659945 A CN 115659945A CN 202211656594 A CN202211656594 A CN 202211656594A CN 115659945 A CN115659945 A CN 115659945A
Authority
CN
China
Prior art keywords
entity
documents
similarity
group
compared
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211656594.2A
Other languages
English (en)
Other versions
CN115659945B (zh
Inventor
周育忠
林正平
涂亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CSG Electric Power Research Institute
Original Assignee
CSG Electric Power Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CSG Electric Power Research Institute filed Critical CSG Electric Power Research Institute
Priority to CN202211656594.2A priority Critical patent/CN115659945B/zh
Publication of CN115659945A publication Critical patent/CN115659945A/zh
Application granted granted Critical
Publication of CN115659945B publication Critical patent/CN115659945B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种标准文档相似度检测方法、装置及系统,包括:从标准文档检索系统中确定出具有相似实体的
Figure DEST_PATH_IMAGE001
个待比对文档;对多个待比对文档进行两两互组,得到
Figure DEST_PATH_IMAGE002
个的比对组;针对每个比对组,基于该比对组内两个待比对文档的知识图谱,进行整体相似度比对,确定出整体相似度;若整体相似度不达第一阈值,确定该比对组内两个待比对文档互为非近似文档;若整体相似度达到第一阈值,确定比对组内两个待比对文档互为近似文档,并对互为近似文档的两个待比对文档中每一组相似实体进行相似度比对,确定出实体相似度;基于实体相似度是否达到第二阈值,确定互为近似文档的两个待比对文档是否存在冲突。

Description

一种标准文档相似度检测方法、装置及系统
技术领域
本申请涉及文档检索技术领域,具体而言,涉及一种标准文档相似度检测方法、装置及系统。
背景技术
信息检索是泛指用户从包含各种信息的文档集合中查找所需要的信息或知识的过程。信息检索往往是对自然语言的处理。由于自然语言不同于数据,它没有很好的结构,同时在语义上也存在模糊性,因此检索时对用户需求的分析有一定难度。
基于此,通过知识图谱构建检索系统的方式逐渐流行起来,通过文档的知识图谱构建检索系统,可以利用结构化的知识快速地查询信息,实现高效的信息检索。由于知识图谱的数据来源的不确定性,不可避免地存在文档冲突(不同文档中对同一知识点具有冲突)。因此,进行相应的文档相似度检测是必要的。
发明内容
本申请实施例的目的在于提供一种标准文档相似度检测方法、装置及系统,以实现对标准文档的相似度检测。
为了实现上述目的,本申请的实施例通过如下方式实现:
第一方面,本申请实施例提供一种标准文档相似度检测方法,包括:从标准文档检索系统中确定出具有相似实体的
Figure 954554DEST_PATH_IMAGE001
个待比对文档,其中,标准文档检索系统中的每个文档具有三元组形式构建的知识图谱,三元组形式为:头实体-关系-尾实体,
Figure 171384DEST_PATH_IMAGE002
;对多个待比对文档进行两两互组,得到
Figure 810307DEST_PATH_IMAGE003
个的比对组;针对每个比对组,基于该比对组内两个待比对文档的知识图谱,进行整体相似度比对,确定出整体相似度;若整体相似度不达第一阈值,确定该比对组内两个待比对文档互为非近似文档;若整体相似度达到第一阈值,确定比对组内两个待比对文档互为近似文档,并对互为近似文档的两个待比对文档中每一组相似实体进行相似度比对,确定出实体相似度;若实体相似度达到第二阈值,确定互为近似文档的两个待比对文档不存在冲突;若实体相似度未达第二阈值,确定互为近似文档的两个待比对文档存在冲突并进行标记。
在本申请实施例中,从标准文档检索系统中确定出具有相似实体的
Figure 129424DEST_PATH_IMAGE001
个待比对文档(具有三元组形式构建的知识图谱),对多个待比对文档进行两两互组,得到
Figure 142379DEST_PATH_IMAGE003
个的比对组;针对每个比对组,基于该比对组内两个待比对文档的知识图谱,进行整体相似度比对,确定出整体相似度。这样可以在进行实体的相似度比对之前,先确定整体相似度是否达到第一阈值,从而保证两个文档是相近的,具有应当一致的知识,从而保证对相近知识进行相似度检测的合理性,避免对近似但实际为不同知识的误检。若整体相似度不达第一阈值,确定该比对组内两个待比对文档互为非近似文档,不需要进行实体相似度的比对;若整体相似度达到第一阈值,确定比对组内两个待比对文档互为近似文档,并对互为近似文档的两个待比对文档中每一组相似实体进行相似度比对,确定出实体相似度。这样能够在确定两个待比对文档互为近似文档(实体名称一致时,理应具有相同的知识,即,表现为两个文档中同名的头实体所在的三元组应当不存在相悖的关系或尾实体)时,再去检测二者的实体相似度,进行实体层面的比对,进行有效的标准文档相似度检测。在实体相似度未达第二阈值,确定互为近似文档的两个待比对文档存在冲突并进行标记,以便进行后续的冲突消除处理(例如通过人工判断是否真的存在冲突)。
结合第一方面,在第一方面的第一种可能的实现方式中,基于该比对组内两个待比对文档的知识图谱,进行整体相似度比对,确定出整体相似度,包括:基于该比对组内两个待比对文档的知识图谱,确定出两个待比对文档之间的所有相似实体,共计
Figure 103513DEST_PATH_IMAGE004
组相似实体,其中,每组相似实体为同名实体;针对每组相似实体,以该组相似实体中的每个实体为头实体,从其所在知识图谱中确定出不超过
Figure 49473DEST_PATH_IMAGE005
层的实体网,并基于该组相似实体中每个实体的实体网,计算该组相似实体的相似度,共计得到
Figure 598878DEST_PATH_IMAGE004
个相似度,其中,
Figure 912179DEST_PATH_IMAGE005
层的实体网
Figure 411424DEST_PATH_IMAGE006
Figure 680732DEST_PATH_IMAGE007
Figure 341651DEST_PATH_IMAGE005
层的实体网,
Figure 798040DEST_PATH_IMAGE008
为头实体,
Figure 819086DEST_PATH_IMAGE009
为第
Figure 448561DEST_PATH_IMAGE005
层关系,
Figure 529649DEST_PATH_IMAGE010
表示第
Figure 207755DEST_PATH_IMAGE005
层尾实体,每相邻两个实体及其关系视为一层实体子网;确定相似度最高的一组相似实体为目标相似实体,确定目标相似实体对应的相似度为所述整体相似度。
在该实现方式中,通过以一组相似实体中的每个实体为头实体,从其所在知识图谱中确定出不超过
Figure 783224DEST_PATH_IMAGE005
层的实体网,并基于该组相似实体中每个实体的实体网,计算该组相似实体的相似度,共计得到
Figure 495965DEST_PATH_IMAGE004
个相似度,这样可以以相似实体中的每个实体为中心,检测其知识图谱构成的网络之间的相似度,从而可以有效地确定整体相似度,且此种方式确定的整体相似度,能够非常有效地对需要进行实体相似度检测的相似实体进行筛选,排除掉仅是同名,但实际不是同一种概念的相似实体,节约计算资源,也能够有效降低误检率。
结合第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式中,基于该组相似实体中每个实体的实体网,计算该组相似实体的相似度,包括:针对该组相似实体:对两个实体网中每层实体子网进行相似度比对,确定出每层实体子网的相似度分量;基于每层实体子网的相似度分量,确定出该组相似实体的相似度。
结合第一方面的第二种可能的实现方式,在第一方面的第三种可能的实现方式中,对两个实体网中每层实体子网进行相似度比对,确定出每层实体子网的相似度分量,包括:
针对两个实体网中第
Figure 13534DEST_PATH_IMAGE011
层实体子网:
将第一实体网中第
Figure 460827DEST_PATH_IMAGE011
层实体子网的每组关联向量与第二实体网中第
Figure 823676DEST_PATH_IMAGE011
层实体子网的每组关联向量进行对应匹配,确定出关联向量匹配结果,其中,一组关联向量由一个关系向量及其对应的尾实体向量组成;
基于每组关联向量匹配结果,按照以下公式计算第
Figure 672814DEST_PATH_IMAGE011
层实体子网的相似度分量:
Figure 95705DEST_PATH_IMAGE012
Figure 13983DEST_PATH_IMAGE013
,其中
Figure 928324DEST_PATH_IMAGE014
表示同一比对组内两个待比对文档的第
Figure 146816DEST_PATH_IMAGE015
组相似实体的第
Figure 491341DEST_PATH_IMAGE011
层实体子网中第
Figure 631335DEST_PATH_IMAGE016
组关联向量匹配结果,
Figure 335986DEST_PATH_IMAGE017
Figure 894138DEST_PATH_IMAGE018
Figure 393252DEST_PATH_IMAGE019
Figure 692646DEST_PATH_IMAGE020
Figure 948791DEST_PATH_IMAGE021
分别为对应分值,
Figure 610716DEST_PATH_IMAGE022
Figure 546311DEST_PATH_IMAGE023
Figure 146051DEST_PATH_IMAGE024
Figure 458084DEST_PATH_IMAGE025
Figure 521986DEST_PATH_IMAGE026
分别为对应
Figure 362903DEST_PATH_IMAGE017
Figure 964785DEST_PATH_IMAGE018
Figure 300083DEST_PATH_IMAGE019
Figure 936601DEST_PATH_IMAGE020
Figure 948419DEST_PATH_IMAGE021
的权重,
Figure 37598DEST_PATH_IMAGE027
Figure 173656DEST_PATH_IMAGE028
Figure 664681DEST_PATH_IMAGE029
Figure 847400DEST_PATH_IMAGE030
Figure 174608DEST_PATH_IMAGE031
分别为对应
Figure 100975DEST_PATH_IMAGE017
Figure 712085DEST_PATH_IMAGE018
Figure 816439DEST_PATH_IMAGE019
Figure 880210DEST_PATH_IMAGE020
Figure 610268DEST_PATH_IMAGE021
的数量,
Figure 810305DEST_PATH_IMAGE032
表示同一比对组内两个待比对文档的第
Figure 351139DEST_PATH_IMAGE015
组相似实体的第
Figure 902206DEST_PATH_IMAGE011
层实体子网的相似度分量。
在该实现方式中,通过此种方式可以将第一实体网中第
Figure 449338DEST_PATH_IMAGE011
层实体子网的每组关联向量与第二实体网中第
Figure 503881DEST_PATH_IMAGE011
层实体子网的每组关联向量进行对应匹配,确定出关联向量匹配结果,并基于关联向量匹配结果进行对应的相似度计算,最终得到第
Figure 464884DEST_PATH_IMAGE015
组相似实体的第
Figure 253980DEST_PATH_IMAGE011
层实体子网的相似度分量,且此相似度分量在计算时,排除了赘余关联向量的影响,能够更加准确地反映第
Figure 325841DEST_PATH_IMAGE011
层实体子网的相似度分量。
结合第一方面的第三种可能的实现方式,在第一方面的第四种可能的实现方式中,基于每层实体子网的相似度分量,确定出该组相似实体的相似度,包括:
基于每层实体子网的相似度分量,按照以下公式计算该组相似实体的相似度:
Figure 500470DEST_PATH_IMAGE033
,其中,
Figure 648686DEST_PATH_IMAGE034
表示同一比对组内两个待比对文档的第
Figure 908766DEST_PATH_IMAGE015
组相似实体的相似度,
Figure 49897DEST_PATH_IMAGE035
表示第
Figure 564187DEST_PATH_IMAGE011
层实体子网的相似度分量对应的权重,
Figure 132571DEST_PATH_IMAGE036
表示调节参数,
Figure 879947DEST_PATH_IMAGE037
表示第
Figure 41414DEST_PATH_IMAGE038
层实体子网到第
Figure 925056DEST_PATH_IMAGE005
层实体子网中具备同名实体的实体子网的层数。
在该实现方式中,在计算一组相似实体的相似度时,以该组相似实体的每层实体子网的相似度分量为基础,考虑第
Figure 664342DEST_PATH_IMAGE011
层实体子网之后(即第
Figure 243222DEST_PATH_IMAGE038
层实体子网到第
Figure 476888DEST_PATH_IMAGE005
层实体子网)中具备同名实体的实体子网的情况,后续层次的实体子网具备同名实体揭示了其具有较多匹配层级的事实,可以利用调节参数来调节权重(调节参数大于1),由此确定出的相似实体的相似度,可以更加有效地反映每层实体子网的匹配情况。
结合第一方面,或者结合第一方面的第一种至第四种中任一可能的实现方式,在第一方面的第五种可能的实现方式中,每一组相似实体内的每个实体具有实体名、属性名和属性值,作为该实体的关键知识,对互为近似文档的两个待比对文档中每一组相似实体进行相似度比对,确定出实体相似度,包括:
针对两个待比对文档中每一组相似实体,采用以下公式计算实体相似度:
Figure 480617DEST_PATH_IMAGE039
,其中,
Figure 125224DEST_PATH_IMAGE040
表示一组相似实体的实体相关度,
Figure 597925DEST_PATH_IMAGE041
Figure 353392DEST_PATH_IMAGE042
Figure 477205DEST_PATH_IMAGE043
分别表示相似实体的实体名相关度、属性名相关度和属性值相关度,
Figure 774938DEST_PATH_IMAGE044
在该实现方式中,相似实体内的每个实体具有实体名、属性名和属性值,作为该实体的关键知识,通过对相似实体的实体名相关度、属性名相关度和属性值相关度进行计算,可以得到实体相似度,从而对实体进行相对完善而准确的比对。
结合第一方面的第五种可能的实现方式,在第一方面的第六种可能的实现方式中,确定相关度的计算公式为:
Figure 984203DEST_PATH_IMAGE045
,其中,
Figure 543360DEST_PATH_IMAGE046
Figure 272413DEST_PATH_IMAGE047
Figure 258823DEST_PATH_IMAGE048
Figure 689805DEST_PATH_IMAGE049
Figure 803385DEST_PATH_IMAGE050
分别为控制关键知识频率的调节因子和控制关键知识长度的调节因子,
Figure 636212DEST_PATH_IMAGE051
Figure 793524DEST_PATH_IMAGE052
分别为一组相似实体内两个实体对应的两个关键知识在对应待比对文档中出现的频率,
Figure 711801DEST_PATH_IMAGE053
为对应待比对文档中包含的所有关键知识的个数,
Figure 629073DEST_PATH_IMAGE054
为所有文档中平均出现的关键知识的个数,
Figure 316406DEST_PATH_IMAGE055
Figure 644619DEST_PATH_IMAGE056
分别为关键知识两个关键知识的实体名、属性名或属性值在其相应待比对文档中所占的相关度权重值。
在该实现方式中,这样可以考虑到关键知识的频率、关键知识的长度、关键知识在对应待比对文档中出现的频率、对应待比对文档中包含的所有关键知识的个数、所有文档中平均出现的关键知识的个数、两个关键知识的实体名、属性名或属性值在其相应待比对文档中所占的相关度权重值等多种因素,更加全面地确定两个关键知识之间的相关度。
结合第一方面的第六种可能的实现方式,在第一方面的第七种可能的实现方式中,相关度权重值的计算公式为:
Figure 797996DEST_PATH_IMAGE057
,其中,
Figure 237067DEST_PATH_IMAGE058
表示关键知识
Figure 44486DEST_PATH_IMAGE015
的实体名、属性名或属性值在其相应待比对文档中所占的相关度权重值,
Figure 294333DEST_PATH_IMAGE059
为包含
Figure 187203DEST_PATH_IMAGE060
的文档数量,
Figure 695544DEST_PATH_IMAGE061
为文库中文档的总数量。
第二方面,本申请实施例提供一种标准文档相似度检测装置,包括:文档获取单元,用于从标准文档检索系统中确定出具有相似实体的
Figure 842623DEST_PATH_IMAGE001
个待比对文档,其中,标准文档检索系统中的每个文档具有三元组形式构建的知识图谱,三元组形式为:头实体-关系-尾实体,
Figure 512639DEST_PATH_IMAGE002
;文档分组单元,用于对多个待比对文档进行两两互组,得到
Figure 627225DEST_PATH_IMAGE003
个的比对组;相似比对单元,用于针对每个比对组,基于该比对组内两个待比对文档的知识图谱,进行整体相似度比对,确定出整体相似度;若整体相似度不达第一阈值,确定该比对组内两个待比对文档互为非近似文档;若整体相似度达到第一阈值,确定比对组内两个待比对文档互为近似文档,并对互为近似文档的两个待比对文档中每一组相似实体进行相似度比对,确定出实体相似度;冲突判定单元,用于在实体相似度达到第二阈值时,确定互为近似文档的两个待比对文档不存在冲突;在实体相似度未达第二阈值时,确定互为近似文档的两个待比对文档存在冲突并进行标记。
第三方面,本申请实施例提供一种标准文档检索系统,包括:文档存储单元,用于存储文档,其中,存储的每个文档具有三元组形式构建的知识图谱,三元组形式为:头实体-关系-尾实体;相似度检测单元,用于执行第一方面或第一方面的可能的实现方式中任一项所述的标准文档相似度检测方法,进行标准文档相似度检测;文档检索单元,用于接收文档检索信息,并基于文档检索信息从文档存储单元存储的文档中确定出相关文档,生成查询结果并返回。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种标准文档检索系统的示意图。
图2为本申请实施例提供的一种标准文档相似度检测方法的流程图。
图3为本申请实施例提供的一种标准文档相似度检测装置的结构框图。
图标:10-标准文档检索系统;11-文档存储单元;12-相似度检测单元;13-文档检索单元;20-标准文档相似度检测装置;21-文档获取单元;22-文档分组单元;23-相似比对单元;24-冲突判定单元。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
在对标准文档相似度检测方法进行介绍之前,先对标准文档检索系统10进行简单的介绍。
请参阅图1,图1为本申请实施例提供的一种标准文档检索系统10的示意图。在本实施例中,标准文档检索系统10可以包括文档存储单元11、相似度检测单元12和文档检索单元13。
示例性的,文档存储单元11用于存储文档,其中,存储的每个文档具有三元组形式构建的知识图谱,三元组形式为:头实体-关系-尾实体。因此,在对文档进行存储之前,需要对文档进行标准化处理,例如,主要使用Word及Pdf格式的文档,将文档主体内容规范为四个部分:标题部分、摘要部分(含关键词)、正文部分、结尾部分。
为了便于后续检索,可以对标准文档进行知识提取,一方面是提取出知识点(呈三元组形式:头实体-关系-尾实体),另一方面是提取每个实体的实体名、属性名和属性值,利用使用BERT语言模型进行训练,基于实体的实体名、属性名和属性值生成为词向量和位置向量,利用卷积神经网络训练提取特征,从而得到标准文档检索系统10的索引模型。由此,可以对文库中的所有标准文档使用训练好的卷积神经网络进行提取,将实体的实体名、属性名和属性值,以及各自出现的频率、位置等信息用作索引。由于构建索引这部分技术相对成熟,此处不展开说明。
示例性的,相似度检测单元12可以用于执行标准文档相似度检测方法,进行标准文档相似度检测,并对冲突的文档进行标记。对于标准文档相似度检测方法,后文将详细介绍,此处暂且不表。
示例性的,文档检索单元13用于接收文档检索信息,并基于文档检索信息从文档存储单元11存储的文档中确定出相关文档,生成查询结果并返回。
具体的,文档检索单元13可以接收用户侧(例如网页、客户端等)提交的文档检索请求(包含文档检索信息,是自然语言的语句),文档检索单元13可以先对语句进行分析,提取语句中的关键词,然后基于关键词对文档存储单元11存储的标准文档中已经生成的索引进行检索,将检索得到的信息进行相关度排序,接着根据排序将相关信息对应的标准文档进行排序,最后返回排序的标准文档展示给用户。
由于知识图谱的数据来源的不确定性,不可避免地存在文档冲突(不同文档中对同一知识点具有冲突)。因此,标准文档检索系统10中设计了文档检索单元13进行相应的文档相似度检测。文档检索单元13进行标准文档检测,可以是实时的(例如系统内每收入一篇新的标准文档就进行一次标准文档相似度检测),也可以是阶段性的,此处不作限定。
请参阅图2,图2为本申请实施例提供的一种标准文档相似度检测方法的流程图。在本实施例中,标准文档相似度检测方法可以包括步骤S10、步骤S20、步骤S30和步骤S40。
首先,文档检索单元13可以执行步骤S10。
步骤S10:从标准文档检索系统10中确定出具有相似实体的
Figure 939258DEST_PATH_IMAGE001
个待比对文档,其中,标准文档检索系统10中的每个文档具有三元组形式构建的知识图谱,三元组形式为:头实体-关系-尾实体,
Figure 206423DEST_PATH_IMAGE002
在本实施例中,文档检索单元13可以从标准文档检索系统10(的文档存储单元11)中确定出相似实体的
Figure 312919DEST_PATH_IMAGE001
个待比对文档(
Figure 914801DEST_PATH_IMAGE002
),标准文档检索系统10中的每个文档具有三元组形式构建的知识图谱,三元组形式为:头实体-关系-尾实体。而每个实体(头实体、尾实体)均具有实体名、属性名和属性值,且头实体和尾实体之间是可以相互转换的(例如实体A和实体B:实体A为头实体,实体B为尾实体时,二者的关系为C1;实体B为头实体,实体A为尾实体时,二者的关系为C2)。
需要说明的是,相似实体的实体名是一致的,表现为不同文档中,具有相同实体名的实体。另外,本方案为了便于说明,以对文档检索单元13内所有标准文档进行标准文档相似度检测为例,不应视为对本申请的限定,在其他情况下,例如已经做过一次或多次标准文档相似度检测的情况,可以挑选一部分文档作为比对的文档,用于与新加入的标准文档进行相似度检测,可以有效减少计算量,节约计算资源。
获取具有相似实体的
Figure 536186DEST_PATH_IMAGE001
个待比对文档后,文档检索单元13可以执行步骤S20。
步骤S20:对多个待比对文档进行两两互组,得到
Figure 907124DEST_PATH_IMAGE003
个的比对组。
在本实施例中,文档检索单元13可以对多个待比对文档进行两两互组,得到
Figure 184522DEST_PATH_IMAGE003
个的比对组,这样便于将每两个标准文档进行相互比对,防止遗漏。
确定出
Figure 24433DEST_PATH_IMAGE003
个的比对组后,文档检索单元13可以执行步骤S30。
步骤S30:针对每个比对组,基于该比对组内两个待比对文档的知识图谱,进行整体相似度比对,确定出整体相似度;若整体相似度不达第一阈值,确定该比对组内两个待比对文档互为非近似文档;若整体相似度达到第一阈值,确定比对组内两个待比对文档互为近似文档,并对互为近似文档的两个待比对文档中每一组相似实体进行相似度比对,确定出实体相似度。
在本实施例中,针对每个比对组:
文档检索单元13可以基于该比对组内两个待比对文档的知识图谱,进行整体相似度比对,确定出整体相似度。
示例性的,文档检索单元13可以基于该比对组内两个待比对文档的知识图谱,确定出两个待比对文档之间的所有相似实体,共计
Figure 943848DEST_PATH_IMAGE004
组相似实体,其中,每组相似实体为同名实体。这样可以将两个待比对文档之间的所有同名的相似实体确定出来,得到
Figure 185604DEST_PATH_IMAGE004
组相似实体,
Figure 633903DEST_PATH_IMAGE062
而针对每组相似实体:
文档检索单元13可以以该组相似实体中的每个实体为头实体,从其所在知识图谱中确定出不超过
Figure 210378DEST_PATH_IMAGE005
层的实体网(例如3层、5层等),并基于该组相似实体中每个实体的实体网,计算该组相似实体的相似度,共计得到
Figure 887478DEST_PATH_IMAGE004
个相似度,其中,
Figure 233009DEST_PATH_IMAGE005
层的实体网
Figure 852209DEST_PATH_IMAGE006
Figure 663783DEST_PATH_IMAGE007
Figure 393841DEST_PATH_IMAGE005
层的实体网,
Figure 859458DEST_PATH_IMAGE008
为头实体,
Figure 400292DEST_PATH_IMAGE009
为第
Figure 685779DEST_PATH_IMAGE005
层关系,
Figure 219529DEST_PATH_IMAGE010
表示第
Figure 274073DEST_PATH_IMAGE005
层尾实体,每相邻两个实体及其关系视为一层实体子网。之后,文档检索单元13可以确定相似度最高的一组相似实体为目标相似实体,确定目标相似实体对应的相似度为整体相似度。
通过以一组相似实体中的每个实体为头实体,从其所在知识图谱中确定出不超过
Figure 251387DEST_PATH_IMAGE005
层的实体网,并基于该组相似实体中每个实体的实体网,计算该组相似实体的相似度,共计得到
Figure 289750DEST_PATH_IMAGE004
个相似度,这样可以以相似实体中的每个实体为中心,检测其知识图谱构成的网络之间的相似度,从而可以有效地确定整体相似度,且此种方式确定的整体相似度,能够非常有效地对需要进行实体相似度检测的相似实体进行筛选,排除掉仅是同名,但实际不是同一种概念的相似实体,节约计算资源,也能够有效降低误检率。
在计算一组相似实体的相似度时,可以采用以下方式进行:
首先,文档检索单元13可以对两个实体网中每层实体子网进行相似度比对,确定出每层实体子网的相似度分量。
示例性的,针对两个实体网中第
Figure 112344DEST_PATH_IMAGE011
层实体子网:
文档检索单元13可以将第一实体网中第
Figure 286973DEST_PATH_IMAGE011
层实体子网的每组关联向量与第二实体网中第
Figure 418877DEST_PATH_IMAGE011
层实体子网的每组关联向量进行对应匹配,确定出关联向量匹配结果。此处,一组关联向量由一个关系向量及其对应的尾实体向量组成,以
Figure 678957DEST_PATH_IMAGE063
为例,由
Figure 302312DEST_PATH_IMAGE064
Figure 331448DEST_PATH_IMAGE065
组成一组关联向量,
Figure 899833DEST_PATH_IMAGE066
为例(需要注意的是,单独将
Figure 132362DEST_PATH_IMAGE066
取出来看时,
Figure 546026DEST_PATH_IMAGE065
相较于
Figure 429668DEST_PATH_IMAGE067
视为头实体),则
Figure 903375DEST_PATH_IMAGE068
Figure 888779DEST_PATH_IMAGE067
组成一组关联向量。而关联向量匹配结果可以分为5种情况:
(1)关系向量及尾实体向量均匹配;
(2)关系向量匹配,但尾实体向量不匹配;
(3)关系向量不匹配,但尾实体向量匹配;
(4)关系向量及尾实体向量均不匹配;
(5)属于赘余向量,即其他关联向量均具有对应的匹配关系(属于情况1~3的情形),但其中一个标准文档却对应多出了的几组关联向量。
基于每组关联向量匹配结果,可以按照以下公式计算第
Figure 840555DEST_PATH_IMAGE011
层实体子网的相似度分量:
Figure 844283DEST_PATH_IMAGE012
,(1)
Figure 239623DEST_PATH_IMAGE013
,其中,
Figure 696013DEST_PATH_IMAGE014
表示同一比对组内两个待比对文档的第
Figure 451479DEST_PATH_IMAGE015
组相似实体的第
Figure 309714DEST_PATH_IMAGE011
层实体子网中第
Figure 873026DEST_PATH_IMAGE016
组关联向量匹配结果,
Figure 816711DEST_PATH_IMAGE017
Figure 641447DEST_PATH_IMAGE018
Figure 104921DEST_PATH_IMAGE019
Figure 825752DEST_PATH_IMAGE020
Figure 256733DEST_PATH_IMAGE021
分别为对应分值(通常来说,
Figure 354002DEST_PATH_IMAGE017
Figure 937562DEST_PATH_IMAGE018
Figure 829294DEST_PATH_IMAGE019
Figure 13151DEST_PATH_IMAGE020
分值逐渐降低,
Figure 914111DEST_PATH_IMAGE021
可取0),
Figure 86597DEST_PATH_IMAGE022
Figure 414811DEST_PATH_IMAGE023
Figure 554805DEST_PATH_IMAGE024
Figure 259456DEST_PATH_IMAGE025
Figure 549098DEST_PATH_IMAGE026
分别为对应
Figure 48213DEST_PATH_IMAGE017
Figure 941082DEST_PATH_IMAGE018
Figure 934577DEST_PATH_IMAGE019
Figure 330923DEST_PATH_IMAGE020
Figure 939DEST_PATH_IMAGE021
的权重,
Figure 115526DEST_PATH_IMAGE027
Figure 647132DEST_PATH_IMAGE028
Figure 429144DEST_PATH_IMAGE029
Figure 270061DEST_PATH_IMAGE030
Figure 871943DEST_PATH_IMAGE031
分别为对应
Figure 207241DEST_PATH_IMAGE017
Figure 578179DEST_PATH_IMAGE018
Figure 589998DEST_PATH_IMAGE019
Figure 413597DEST_PATH_IMAGE020
Figure 549656DEST_PATH_IMAGE021
的数量,
Figure 775101DEST_PATH_IMAGE032
表示同一比对组内两个待比对文档的第
Figure 957821DEST_PATH_IMAGE015
组相似实体的第
Figure 534295DEST_PATH_IMAGE011
层实体子网的相似度分量。
通过此种方式可以将第一实体网中第
Figure 211396DEST_PATH_IMAGE011
层实体子网的每组关联向量与第二实体网中第
Figure 556926DEST_PATH_IMAGE011
层实体子网的每组关联向量进行对应匹配,确定出关联向量匹配结果,并基于关联向量匹配结果进行对应的相似度计算,最终得到第
Figure 176126DEST_PATH_IMAGE015
组相似实体的第
Figure 725051DEST_PATH_IMAGE011
层实体子网的相似度分量,且此相似度分量在计算时,排除了赘余关联向量的影响,能够更加准确地反映第
Figure 455109DEST_PATH_IMAGE011
层实体子网的相似度分量。
之后,文档检索单元13可以基于每层实体子网的相似度分量,确定出该组相似实体的相似度。
示例性的,文档检索单元13可以基于每层实体子网的相似度分量,按照以下公式计算该组相似实体的相似度:
Figure 389567DEST_PATH_IMAGE033
,(2)
其中,
Figure 179669DEST_PATH_IMAGE034
表示同一比对组内两个待比对文档的第
Figure 215889DEST_PATH_IMAGE015
组相似实体的相似度,
Figure 484059DEST_PATH_IMAGE035
表示第
Figure 538603DEST_PATH_IMAGE011
层实体子网的相似度分量对应的权重,
Figure 499606DEST_PATH_IMAGE036
表示调节参数,
Figure 20192DEST_PATH_IMAGE037
表示第
Figure 92053DEST_PATH_IMAGE038
层实体子网到第
Figure 266683DEST_PATH_IMAGE005
层实体子网中具备同名实体的实体子网的层数。
在计算一组相似实体的相似度时,以该组相似实体的每层实体子网的相似度分量为基础,考虑第
Figure 133008DEST_PATH_IMAGE011
层实体子网之后(即第
Figure 143820DEST_PATH_IMAGE038
层实体子网到第
Figure 753793DEST_PATH_IMAGE005
层实体子网)中具备同名实体的实体子网的情况,后续层次的实体子网具备同名实体揭示了其具有较多匹配层级的事实(即,在二者的实体网中存在多层子网具有同名实体的情况),可以利用调节参数来调节权重(调节参数大于1,可以取1~1.5,不含端点值),由此确定出的相似实体的相似度,可以更加有效地反映每层实体子网的匹配情况。
确定出整体相似度后,文档检索单元13可以判断整体相似度是否达到第一阈值(此值的设定基于具体情况设置,此处不作限定)。
若整体相似度不达第一阈值,文档检索单元13可以确定该比对组内两个待比对文档互为非近似文档,即二者不属于近似,不需要进行实体相似度的计算。
若整体相似度达到第一阈值,文档检索单元13可以确定比对组内两个待比对文档互为近似文档。然后,可以对互为近似文档的两个待比对文档中每一组相似实体进行相似度比对,确定出实体相似度。
在本实施例中,每一组相似实体内的每个实体具有实体名、属性名和属性值,作为该实体的关键知识,可以记为
Figure 782929DEST_PATH_IMAGE069
。那么,针对两个待比对文档中每一组相似实体,文档检索单元13可以采用以下公式计算实体相似度:
Figure 820155DEST_PATH_IMAGE039
,(3)
其中,
Figure 318264DEST_PATH_IMAGE040
表示一组相似实体的实体相关度,
Figure 731927DEST_PATH_IMAGE041
Figure 615570DEST_PATH_IMAGE042
Figure 89276DEST_PATH_IMAGE043
分别表示相似实体的实体名相关度、属性名相关度和属性值相关度,
Figure 809102DEST_PATH_IMAGE044
相似实体内的每个实体具有实体名、属性名和属性值,作为该实体的关键知识,通过对相似实体的实体名相关度、属性名相关度和属性值相关度进行计算,可以得到实体相似度,从而对实体进行相对完善而准确的比对。
示例性的,记:
Figure 760877DEST_PATH_IMAGE046
,(4)
其中,
Figure 30185DEST_PATH_IMAGE047
Figure 157016DEST_PATH_IMAGE048
那么,确定相关度的计算公式可以设计为:
Figure 613405DEST_PATH_IMAGE045
,(5)
其中,
Figure 368872DEST_PATH_IMAGE049
Figure 227106DEST_PATH_IMAGE050
分别为控制关键知识频率的调节因子和控制关键知识长度的调节因子,
Figure 793348DEST_PATH_IMAGE051
Figure 737033DEST_PATH_IMAGE052
分别为一组相似实体内两个实体对应的两个关键知识在对应待比对文档中出现的频率,
Figure 296191DEST_PATH_IMAGE053
为对应待比对文档中包含的所有关键知识的个数,
Figure 8932DEST_PATH_IMAGE054
为所有文档中平均出现的关键知识的个数,
Figure 746075DEST_PATH_IMAGE055
Figure 177056DEST_PATH_IMAGE056
分别为关键知识两个关键知识的实体名、属性名或属性值在其相应待比对文档中所占的相关度权重值。
这样可以考虑到关键知识的频率、关键知识的长度、关键知识在对应待比对文档中出现的频率、对应待比对文档中包含的所有关键知识的个数、所有文档中平均出现的关键知识的个数、两个关键知识的实体名、属性名或属性值在其相应待比对文档中所占的相关度权重值等多种因素,更加全面地确定两个关键知识之间的相关度。
示例性的,相关度权重值的计算公式为:
Figure 274325DEST_PATH_IMAGE057
,(6)
其中,
Figure 857884DEST_PATH_IMAGE058
表示关键知识
Figure 280775DEST_PATH_IMAGE015
的实体名、属性名或属性值在其相应待比对文档中所占的相关度权重值,
Figure 199053DEST_PATH_IMAGE059
为包含
Figure 834433DEST_PATH_IMAGE060
的文档数量,
Figure 371086DEST_PATH_IMAGE061
为文库(文档存储单元11)中文档的总数量。
Figure 433720DEST_PATH_IMAGE061
越大,
Figure 839294DEST_PATH_IMAGE059
越小时,说明
Figure 294677DEST_PATH_IMAGE060
文档中出现的次数越多,重要性越低,则相应的实体名、属性名或属性值的权重
Figure 836517DEST_PATH_IMAGE058
就越低。由于式(5)中
Figure 335631DEST_PATH_IMAGE049
为经验选取的常数参数,在不同文档中选取相同数值时,可能会导致相关度计算与实际相差较大,因此,为了提高相关度的计算准确度,这里将调节因子
Figure 962921DEST_PATH_IMAGE049
取为变参数
Figure 690837DEST_PATH_IMAGE070
,令
Figure 352763DEST_PATH_IMAGE070
为:
Figure 22778DEST_PATH_IMAGE071
,(7)
通过这样的方式,可以准确地计算出每一组相似实体的实体相关度。
在确定出两个待比对文档中每一组相似实体的实体相似度后,文档检索单元13可以进行判断:判断每一组相似实体的实体相似度是否达到第二阈值。
基于此,文档检索单元13可以执行步骤S40。
步骤S40:若实体相似度达到第二阈值,确定互为近似文档的两个待比对文档不存在冲突;若实体相似度未达第二阈值,确定互为近似文档的两个待比对文档存在冲突并进行标记。
在本实施例中,针对每一组相似实体的实体相似度,一组一组进行判断,若达到第二阈值,可以暂时确定互为近似文档的两个待比对文档不存在冲突,直到确定互为近似文档的两个待比对文档中存在一组实体相似度未达到第二阈值的相似实体时,即可确定互为近似文档的两个待比对文档存在冲突。对于存在冲突的两个待比对文档,文档检索单元13可以进行标记,例如可以将存在冲突的两个待比对文档,以及两者之间的实体相似度未达第二阈值的相似实体进行标记。
这样可以在进行实体的相似度比对之前,先确定整体相似度是否达到第一阈值,从而保证两个文档是相近的,具有应当一致的知识,从而保证对相近知识进行相似度检测的合理性,避免对近似但实际为不同知识的误检。在确定两个待比对文档互为近似文档(实体名称一致时,理应具有相同的知识,即,表现为两个文档中同名的头实体所在的三元组应当不存在相悖的关系或尾实体)时,再去检测二者的实体相似度,进行实体层面的比对,进行有效的标准文档相似度检测。在实体相似度未达第二阈值,确定互为近似文档的两个待比对文档存在冲突并进行标记,以便进行后续的冲突消除处理(例如通过人工判断是否真的存在冲突)。
请参阅图3,基于同一发明构思,本申请实施例还提供一种标准文档相似度检测装置20的结构框图。在本实施例中,标准文档相似度检测装置20,包括:
文档获取单元21,用于从标准文档检索系统10中确定出具有相似实体的
Figure 402944DEST_PATH_IMAGE001
个待比对文档,其中,标准文档检索系统10中的每个文档具有三元组形式构建的知识图谱,三元组形式为:头实体-关系-尾实体,
Figure 934551DEST_PATH_IMAGE002
。文档分组单元22,用于对多个待比对文档进行两两互组,得到
Figure 450983DEST_PATH_IMAGE003
个的比对组。
相似比对单元23,用于针对每个比对组,基于该比对组内两个待比对文档的知识图谱,进行整体相似度比对,确定出整体相似度;若整体相似度不达第一阈值,确定该比对组内两个待比对文档互为非近似文档;若整体相似度达到第一阈值,确定比对组内两个待比对文档互为近似文档,并对互为近似文档的两个待比对文档中每一组相似实体进行相似度比对,确定出实体相似度。
冲突判定单元24,用于在实体相似度达到第二阈值时,确定互为近似文档的两个待比对文档不存在冲突;在实体相似度未达第二阈值时,确定互为近似文档的两个待比对文档存在冲突并进行标记。
在本实施例中,相似比对单元23,具体用于:基于该比对组内两个待比对文档的知识图谱,确定出两个待比对文档之间的所有相似实体,共计
Figure 291900DEST_PATH_IMAGE004
组相似实体,其中,每组相似实体为同名实体;针对每组相似实体,以该组相似实体中的每个实体为头实体,从其所在知识图谱中确定出不超过
Figure 893782DEST_PATH_IMAGE005
层的实体网,并基于该组相似实体中每个实体的实体网,计算该组相似实体的相似度,共计得到
Figure 226150DEST_PATH_IMAGE004
个相似度,其中,
Figure 597089DEST_PATH_IMAGE005
层的实体网
Figure 608907DEST_PATH_IMAGE006
Figure 432507DEST_PATH_IMAGE007
Figure 571495DEST_PATH_IMAGE005
层的实体网,
Figure 62519DEST_PATH_IMAGE008
为头实体,
Figure 245239DEST_PATH_IMAGE009
为第
Figure 572446DEST_PATH_IMAGE005
层关系,
Figure 498814DEST_PATH_IMAGE010
表示第
Figure 578765DEST_PATH_IMAGE005
层尾实体,每相邻两个实体及其关系视为一层实体子网;确定相似度最高的一组相似实体为目标相似实体,确定目标相似实体对应的相似度为所述整体相似度。
在本实施例中,相似比对单元23,具体用于:针对该组相似实体:对两个实体网中每层实体子网进行相似度比对,确定出每层实体子网的相似度分量;基于每层实体子网的相似度分量,确定出该组相似实体的相似度。
在本实施例中,相似比对单元23,具体用于:针对两个实体网中第
Figure 463545DEST_PATH_IMAGE011
层实体子网:将第一实体网中第
Figure 12469DEST_PATH_IMAGE011
层实体子网的每组关联向量与第二实体网中第
Figure 476948DEST_PATH_IMAGE011
层实体子网的每组关联向量进行对应匹配,确定出关联向量匹配结果,其中,一组关联向量由一个关系向量及其对应的尾实体向量组成;基于每组关联向量匹配结果,按照以下公式计算第
Figure 676985DEST_PATH_IMAGE011
层实体子网的相似度分量:
Figure 467087DEST_PATH_IMAGE012
Figure 234798DEST_PATH_IMAGE013
,其中,
Figure 768548DEST_PATH_IMAGE014
表示同一比对组内两个待比对文档的第
Figure 88671DEST_PATH_IMAGE015
组相似实体的第
Figure 534827DEST_PATH_IMAGE011
层实体子网中第
Figure 307611DEST_PATH_IMAGE016
组关联向量匹配结果,
Figure 379472DEST_PATH_IMAGE017
Figure 288522DEST_PATH_IMAGE018
Figure 171158DEST_PATH_IMAGE019
Figure 165659DEST_PATH_IMAGE020
Figure 41211DEST_PATH_IMAGE021
分别为对应分值,
Figure 70347DEST_PATH_IMAGE022
Figure 858306DEST_PATH_IMAGE023
Figure 605682DEST_PATH_IMAGE024
Figure 19346DEST_PATH_IMAGE025
Figure 902988DEST_PATH_IMAGE026
分别为对应
Figure 124498DEST_PATH_IMAGE017
Figure 93591DEST_PATH_IMAGE018
Figure 310945DEST_PATH_IMAGE019
Figure 49094DEST_PATH_IMAGE020
Figure 444435DEST_PATH_IMAGE021
的权重,
Figure 900824DEST_PATH_IMAGE027
Figure 656290DEST_PATH_IMAGE028
Figure 530836DEST_PATH_IMAGE029
Figure 346346DEST_PATH_IMAGE030
Figure 24452DEST_PATH_IMAGE031
分别为对应
Figure 583609DEST_PATH_IMAGE017
Figure 47082DEST_PATH_IMAGE018
Figure 33493DEST_PATH_IMAGE019
Figure 464474DEST_PATH_IMAGE020
Figure 561743DEST_PATH_IMAGE021
的数量,
Figure 876794DEST_PATH_IMAGE032
表示同一比对组内两个待比对文档的第
Figure 299685DEST_PATH_IMAGE015
组相似实体的第
Figure 952383DEST_PATH_IMAGE011
层实体子网的相似度分量。
在本实施例中,相似比对单元23,具体用于:基于每层实体子网的相似度分量,按照以下公式计算该组相似实体的相似度:
Figure 853343DEST_PATH_IMAGE033
,其中,
Figure 25829DEST_PATH_IMAGE034
表示同一比对组内两个待比对文档的第
Figure 619622DEST_PATH_IMAGE015
组相似实体的相似度,
Figure 759616DEST_PATH_IMAGE035
表示第
Figure 198688DEST_PATH_IMAGE011
层实体子网的相似度分量对应的权重,
Figure 491260DEST_PATH_IMAGE036
表示调节参数,
Figure 255953DEST_PATH_IMAGE037
表示第
Figure 883244DEST_PATH_IMAGE038
层实体子网到第
Figure 876739DEST_PATH_IMAGE005
层实体子网中具备同名实体的实体子网的层数。
在本实施例中,每一组相似实体内的每个实体具有实体名、属性名和属性值,作为该实体的关键知识,相似比对单元23,具体用于:
针对两个待比对文档中每一组相似实体,采用以下公式计算实体相似度:
Figure 538664DEST_PATH_IMAGE039
,其中,
Figure 208680DEST_PATH_IMAGE040
表示一组相似实体的实体相关度,
Figure 57687DEST_PATH_IMAGE041
Figure 851943DEST_PATH_IMAGE042
Figure 368375DEST_PATH_IMAGE043
分别表示相似实体的实体名相关度、属性名相关度和属性值相关度,
Figure 209293DEST_PATH_IMAGE044
在本实施例中,确定相关度的计算公式为:
Figure 545596DEST_PATH_IMAGE045
,其中,
Figure 146473DEST_PATH_IMAGE046
Figure 517411DEST_PATH_IMAGE047
Figure 529230DEST_PATH_IMAGE048
Figure 618408DEST_PATH_IMAGE049
Figure 491817DEST_PATH_IMAGE050
分别为控制关键知识频率的调节因子和控制关键知识长度的调节因子,
Figure 982842DEST_PATH_IMAGE051
Figure 431141DEST_PATH_IMAGE052
分别为一组相似实体内两个实体对应的两个关键知识在对应待比对文档中出现的频率,
Figure 820665DEST_PATH_IMAGE053
为对应待比对文档中包含的所有关键知识的个数,
Figure 747032DEST_PATH_IMAGE054
为所有文档中平均出现的关键知识的个数,
Figure 840366DEST_PATH_IMAGE055
Figure 193987DEST_PATH_IMAGE056
分别为关键知识两个关键知识的实体名、属性名或属性值在其相应待比对文档中所占的相关度权重值。
在本实施例中,相关度权重值的计算公式为:
Figure 992178DEST_PATH_IMAGE057
,其中,
Figure 722237DEST_PATH_IMAGE058
表示关键知识
Figure 673007DEST_PATH_IMAGE015
的实体名、属性名或属性值在其相应待比对文档中所占的相关度权重值,
Figure 197529DEST_PATH_IMAGE059
为包含
Figure 483017DEST_PATH_IMAGE060
的文档数量,
Figure 16766DEST_PATH_IMAGE061
为文库中文档的总数量。
综上所述,本申请实施例提供一种标准文档相似度检测方法、装置及系统,从标准文档检索系统10中确定出具有相似实体的
Figure 822042DEST_PATH_IMAGE001
个待比对文档(具有三元组形式构建的知识图谱),对多个待比对文档进行两两互组,得到
Figure 517466DEST_PATH_IMAGE003
个的比对组;针对每个比对组,基于该比对组内两个待比对文档的知识图谱,进行整体相似度比对,确定出整体相似度。这样可以在进行实体的相似度比对之前,先确定整体相似度是否达到第一阈值,从而保证两个文档是相近的,具有应当一致的知识,从而保证对相近知识进行相似度检测的合理性,避免对近似但实际为不同知识的误检。若整体相似度不达第一阈值,确定该比对组内两个待比对文档互为非近似文档,不需要进行实体相似度的比对;若整体相似度达到第一阈值,确定比对组内两个待比对文档互为近似文档,并对互为近似文档的两个待比对文档中每一组相似实体进行相似度比对,确定出实体相似度。这样能够在确定两个待比对文档互为近似文档(实体名称一致时,理应具有相同的知识,即,表现为两个文档中同名的头实体所在的三元组应当不存在相悖的关系或尾实体)时,再去检测二者的实体相似度,进行实体层面的比对,进行有效的标准文档相似度检测。在实体相似度未达第二阈值,确定互为近似文档的两个待比对文档存在冲突并进行标记,以便进行后续的冲突消除处理(例如通过人工判断是否真的存在冲突)。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种标准文档相似度检测方法,其特征在于,包括:
从标准文档检索系统中确定出具有相似实体的
Figure 884952DEST_PATH_IMAGE001
个待比对文档,其中,标准文档检索系统中的每个文档具有三元组形式构建的知识图谱,三元组形式为:头实体-关系-尾实体,
Figure 296342DEST_PATH_IMAGE002
对多个待比对文档进行两两互组,得到
Figure 468697DEST_PATH_IMAGE003
个的比对组;
针对每个比对组,基于该比对组内两个待比对文档的知识图谱,进行整体相似度比对,确定出整体相似度;若整体相似度不达第一阈值,确定该比对组内两个待比对文档互为非近似文档;若整体相似度达到第一阈值,确定比对组内两个待比对文档互为近似文档,并对互为近似文档的两个待比对文档中每一组相似实体进行相似度比对,确定出实体相似度;
若实体相似度达到第二阈值,确定互为近似文档的两个待比对文档不存在冲突;若实体相似度未达第二阈值,确定互为近似文档的两个待比对文档存在冲突并进行标记。
2.根据权利要求1所述的标准文档相似度检测方法,其特征在于,基于该比对组内两个待比对文档的知识图谱,进行整体相似度比对,确定出整体相似度,包括:
基于该比对组内两个待比对文档的知识图谱,确定出两个待比对文档之间的所有相似实体,共计
Figure 623735DEST_PATH_IMAGE004
组相似实体,其中,每组相似实体为同名实体;
针对每组相似实体,以该组相似实体中的每个实体为头实体,从其所在知识图谱中确定出不超过
Figure 565146DEST_PATH_IMAGE005
层的实体网,并基于该组相似实体中每个实体的实体网,计算该组相似实体的相似度,共计得到
Figure 413017DEST_PATH_IMAGE004
个相似度,其中,
Figure 72668DEST_PATH_IMAGE005
层的实体网
Figure 31397DEST_PATH_IMAGE006
Figure 827315DEST_PATH_IMAGE007
Figure 846086DEST_PATH_IMAGE005
层的实体网,
Figure 727454DEST_PATH_IMAGE008
为头实体,
Figure 224295DEST_PATH_IMAGE009
为第
Figure 140298DEST_PATH_IMAGE005
层关系,
Figure 329971DEST_PATH_IMAGE010
表示第
Figure 961285DEST_PATH_IMAGE005
层尾实体,每相邻两个实体及其关系视为一层实体子网;
确定相似度最高的一组相似实体为目标相似实体,确定目标相似实体对应的相似度为所述整体相似度。
3.根据权利要求2所述的标准文档相似度检测方法,其特征在于,基于该组相似实体中每个实体的实体网,计算该组相似实体的相似度,包括:
针对该组相似实体:
对两个实体网中每层实体子网进行相似度比对,确定出每层实体子网的相似度分量;
基于每层实体子网的相似度分量,确定出该组相似实体的相似度。
4.根据权利要求3所述的标准文档相似度检测方法,其特征在于,对两个实体网中每层实体子网进行相似度比对,确定出每层实体子网的相似度分量,包括:
针对两个实体网中第
Figure 261817DEST_PATH_IMAGE011
层实体子网:
将第一实体网中第
Figure 766747DEST_PATH_IMAGE011
层实体子网的每组关联向量与第二实体网中第
Figure 127321DEST_PATH_IMAGE011
层实体子网的每组关联向量进行对应匹配,确定出关联向量匹配结果,其中,一组关联向量由一个关系向量及其对应的尾实体向量组成;基于每组关联向量匹配结果,按照以下公式计算第
Figure 983282DEST_PATH_IMAGE011
层实体子网的相似度分量:
Figure 87504DEST_PATH_IMAGE012
Figure 978100DEST_PATH_IMAGE013
,其中,
Figure 243996DEST_PATH_IMAGE014
表示同一比对组内两个待比对文档的第
Figure 587253DEST_PATH_IMAGE015
组相似实体的第
Figure 229587DEST_PATH_IMAGE011
层实体子网中第
Figure 974689DEST_PATH_IMAGE016
组关联向量匹配结果,
Figure 411486DEST_PATH_IMAGE017
Figure 242039DEST_PATH_IMAGE018
Figure 688064DEST_PATH_IMAGE019
Figure 553252DEST_PATH_IMAGE020
Figure 426530DEST_PATH_IMAGE021
分别为对应分值,
Figure 213220DEST_PATH_IMAGE022
Figure 462936DEST_PATH_IMAGE023
Figure 182630DEST_PATH_IMAGE024
Figure 226810DEST_PATH_IMAGE025
Figure 766375DEST_PATH_IMAGE026
分别为对应
Figure 554203DEST_PATH_IMAGE017
Figure 862824DEST_PATH_IMAGE018
Figure 77905DEST_PATH_IMAGE019
Figure 370346DEST_PATH_IMAGE020
Figure 696285DEST_PATH_IMAGE021
的权重,
Figure 390572DEST_PATH_IMAGE027
Figure 785343DEST_PATH_IMAGE028
Figure 33922DEST_PATH_IMAGE029
Figure 163552DEST_PATH_IMAGE030
Figure 712345DEST_PATH_IMAGE031
分别为对应
Figure 3649DEST_PATH_IMAGE017
Figure 5103DEST_PATH_IMAGE018
Figure 938424DEST_PATH_IMAGE019
Figure 341723DEST_PATH_IMAGE020
Figure 803928DEST_PATH_IMAGE021
的数量,
Figure 292679DEST_PATH_IMAGE032
表示同一比对组内两个待比对文档的第
Figure 29691DEST_PATH_IMAGE015
组相似实体的第
Figure 21917DEST_PATH_IMAGE011
层实体子网的相似度分量。
5.根据权利要求4所述的标准文档相似度检测方法,其特征在于,基于每层实体子网的相似度分量,确定出该组相似实体的相似度,包括:
基于每层实体子网的相似度分量,按照以下公式计算该组相似实体的相似度:
Figure 920603DEST_PATH_IMAGE033
,其中,
Figure 896649DEST_PATH_IMAGE034
表示同一比对组内两个待比对文档的第
Figure 171773DEST_PATH_IMAGE015
组相似实体的相似度,
Figure 284085DEST_PATH_IMAGE035
表示第
Figure 619252DEST_PATH_IMAGE011
层实体子网的相似度分量对应的权重,
Figure 551436DEST_PATH_IMAGE036
表示调节参数,
Figure 630250DEST_PATH_IMAGE037
表示第
Figure 597069DEST_PATH_IMAGE038
层实体子网到第
Figure 103137DEST_PATH_IMAGE005
层实体子网中具备同名实体的实体子网的层数。
6.根据权利要求1~5中任一项所述的标准文档相似度检测方法,其特征在于,每一组相似实体内的每个实体具有实体名、属性名和属性值,作为该实体的关键知识,对互为近似文档的两个待比对文档中每一组相似实体进行相似度比对,确定出实体相似度,包括:
针对两个待比对文档中每一组相似实体,采用以下公式计算实体相似度:
Figure 522617DEST_PATH_IMAGE039
,其中,
Figure 139543DEST_PATH_IMAGE040
表示一组相似实体的实体相关度,
Figure 226448DEST_PATH_IMAGE041
Figure 637838DEST_PATH_IMAGE042
Figure 807263DEST_PATH_IMAGE043
分别表示相似实体的实体名相关度、属性名相关度和属性值相关度,
Figure 227880DEST_PATH_IMAGE044
7.根据权利要求6所述的标准文档相似度检测方法,其特征在于,确定相关度的计算公式为:
Figure 903712DEST_PATH_IMAGE045
,其中,
Figure 751583DEST_PATH_IMAGE046
Figure 145655DEST_PATH_IMAGE047
Figure 104383DEST_PATH_IMAGE048
Figure 165880DEST_PATH_IMAGE049
Figure 653494DEST_PATH_IMAGE050
分别为控制关键知识频率的调节因子和控制关键知识长度的调节因子,
Figure 800441DEST_PATH_IMAGE051
Figure 562861DEST_PATH_IMAGE052
分别为一组相似实体内两个实体对应的两个关键知识在对应待比对文档中出现的频率,
Figure 478864DEST_PATH_IMAGE053
为对应待比对文档中包含的所有关键知识的个数,
Figure 340641DEST_PATH_IMAGE054
为所有文档中平均出现的关键知识的个数,
Figure 850251DEST_PATH_IMAGE055
Figure 150782DEST_PATH_IMAGE056
分别为关键知识两个关键知识的实体名、属性名或属性值在其相应待比对文档中所占的相关度权重值。
8.根据权利要求7所述的标准文档相似度检测方法,其特征在于,相关度权重值的计算公式为:
Figure 934674DEST_PATH_IMAGE057
,其中,
Figure 295248DEST_PATH_IMAGE058
表示关键知识
Figure 885629DEST_PATH_IMAGE015
的实体名、属性名或属性值在其相应待比对文档中所占的相关度权重值,
Figure 989852DEST_PATH_IMAGE059
为包含
Figure 349289DEST_PATH_IMAGE060
的文档数量,
Figure 880764DEST_PATH_IMAGE061
为文库中文档的总数量。
9.一种标准文档相似度检测装置,其特征在于,包括:
文档获取单元,用于从标准文档检索系统中确定出具有相似实体的
Figure 958442DEST_PATH_IMAGE001
个待比对文档,其中,标准文档检索系统中的每个文档具有三元组形式构建的知识图谱,三元组形式为:头实体-关系-尾实体,
Figure 600776DEST_PATH_IMAGE002
文档分组单元,用于对多个待比对文档进行两两互组,得到
Figure 345878DEST_PATH_IMAGE003
个的比对组;
相似比对单元,用于针对每个比对组,基于该比对组内两个待比对文档的知识图谱,进行整体相似度比对,确定出整体相似度;若整体相似度不达第一阈值,确定该比对组内两个待比对文档互为非近似文档;若整体相似度达到第一阈值,确定比对组内两个待比对文档互为近似文档,并对互为近似文档的两个待比对文档中每一组相似实体进行相似度比对,确定出实体相似度;
冲突判定单元,用于在实体相似度达到第二阈值时,确定互为近似文档的两个待比对文档不存在冲突;在实体相似度未达第二阈值时,确定互为近似文档的两个待比对文档存在冲突并进行标记。
10.一种标准文档检索系统,其特征在于,包括:
文档存储单元,用于存储文档,其中,存储的每个文档具有三元组形式构建的知识图谱,三元组形式为:头实体-关系-尾实体;相似度检测单元,用于执行权利要求1至8中任一项所述的标准文档相似度检测方法,进行标准文档相似度检测;
文档检索单元,用于接收文档检索信息,并基于文档检索信息从文档存储单元存储的文档中确定出相关文档,生成查询结果并返回。
CN202211656594.2A 2022-12-22 2022-12-22 一种标准文档相似度检测方法、装置及系统 Active CN115659945B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211656594.2A CN115659945B (zh) 2022-12-22 2022-12-22 一种标准文档相似度检测方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211656594.2A CN115659945B (zh) 2022-12-22 2022-12-22 一种标准文档相似度检测方法、装置及系统

Publications (2)

Publication Number Publication Date
CN115659945A true CN115659945A (zh) 2023-01-31
CN115659945B CN115659945B (zh) 2023-05-02

Family

ID=85022400

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211656594.2A Active CN115659945B (zh) 2022-12-22 2022-12-22 一种标准文档相似度检测方法、装置及系统

Country Status (1)

Country Link
CN (1) CN115659945B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110258181A1 (en) * 2010-04-15 2011-10-20 Palo Alto Research Center Incorporated Method for calculating semantic similarities between messages and conversations based on enhanced entity extraction
CN105302793A (zh) * 2015-10-21 2016-02-03 南方电网科学研究院有限责任公司 一种利用计算机自动评价科技文献新颖性的方法
CN113032584A (zh) * 2021-05-27 2021-06-25 北京明略软件系统有限公司 一种实体关联方法、装置、电子设备及存储介质
WO2022130579A1 (ja) * 2020-12-17 2022-06-23 富士通株式会社 類似度判定プログラム、類似度判定装置、及び、類似度判定方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110258181A1 (en) * 2010-04-15 2011-10-20 Palo Alto Research Center Incorporated Method for calculating semantic similarities between messages and conversations based on enhanced entity extraction
CN105302793A (zh) * 2015-10-21 2016-02-03 南方电网科学研究院有限责任公司 一种利用计算机自动评价科技文献新颖性的方法
WO2022130579A1 (ja) * 2020-12-17 2022-06-23 富士通株式会社 類似度判定プログラム、類似度判定装置、及び、類似度判定方法
CN113032584A (zh) * 2021-05-27 2021-06-25 北京明略软件系统有限公司 一种实体关联方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN115659945B (zh) 2023-05-02

Similar Documents

Publication Publication Date Title
US8326091B1 (en) Ranking of images and image labels
CN108804641B (zh) 一种文本相似度的计算方法、装置、设备和存储介质
CN105183923B (zh) 新词发现方法及装置
CN108647322B (zh) 基于词网识别大量Web文本信息相似度的方法
US20150178321A1 (en) Image-based 3d model search and retrieval
CN111708942B (zh) 多媒体资源推送方法、装置、服务器及存储介质
CN112732883A (zh) 基于知识图谱的模糊匹配方法、装置和计算机设备
US8527564B2 (en) Image object retrieval based on aggregation of visual annotations
WO2010139091A1 (en) Co-selected image classification
CN111090771B (zh) 歌曲搜索方法、装置及计算机存储介质
CN109492027B (zh) 一种基于弱可信数据的跨社群潜在人物关系分析方法
CN110162637B (zh) 信息图谱构建方法、装置及设备
CN109857873A (zh) 推荐实体的方法和装置、电子设备、计算机可读介质
JP2011128773A (ja) 画像検索装置、画像検索方法及びプログラム
CN107085568A (zh) 一种文本相似度判别方法及装置
CN109635004B (zh) 一种数据库的对象描述提供方法、装置及设备
JP5367632B2 (ja) 知識量推定装置及びプログラム
JP2012079186A (ja) 画像検索装置、画像検索方法及びプログラム
CN111950267B (zh) 文本三元组的抽取方法及装置、电子设备及存储介质
CN117807245A (zh) 网络资产图谱中节点特征提取方法及相似节点搜索方法
CN110362813B (zh) 基于bm25的搜索相关性度量方法、存储介质、设备及系统
CN115659945A (zh) 一种标准文档相似度检测方法、装置及系统
JP2024003752A (ja) 検索結果ソートモデルの訓練方法、検索結果ソート方法、検索結果ソートモデルの訓練装置、検索結果ソート装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム
CN107423319B (zh) 一种垃圾网页检测方法
CN113064554B (zh) 基于分布式存储的最优存储节点匹配方法、装置及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant