CN115659945A - 一种标准文档相似度检测方法、装置及系统 - Google Patents
一种标准文档相似度检测方法、装置及系统 Download PDFInfo
- Publication number
- CN115659945A CN115659945A CN202211656594.2A CN202211656594A CN115659945A CN 115659945 A CN115659945 A CN 115659945A CN 202211656594 A CN202211656594 A CN 202211656594A CN 115659945 A CN115659945 A CN 115659945A
- Authority
- CN
- China
- Prior art keywords
- entity
- documents
- similarity
- group
- compared
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims description 44
- 238000000034 method Methods 0.000 claims abstract description 24
- 239000013598 vector Substances 0.000 claims description 63
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000011524 similarity measure Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000008094 contradictory effect Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000008030 elimination Effects 0.000 description 3
- 238000003379 elimination reaction Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
技术领域
本申请涉及文档检索技术领域,具体而言,涉及一种标准文档相似度检测方法、装置及系统。
背景技术
信息检索是泛指用户从包含各种信息的文档集合中查找所需要的信息或知识的过程。信息检索往往是对自然语言的处理。由于自然语言不同于数据,它没有很好的结构,同时在语义上也存在模糊性,因此检索时对用户需求的分析有一定难度。
基于此,通过知识图谱构建检索系统的方式逐渐流行起来,通过文档的知识图谱构建检索系统,可以利用结构化的知识快速地查询信息,实现高效的信息检索。由于知识图谱的数据来源的不确定性,不可避免地存在文档冲突(不同文档中对同一知识点具有冲突)。因此,进行相应的文档相似度检测是必要的。
发明内容
本申请实施例的目的在于提供一种标准文档相似度检测方法、装置及系统,以实现对标准文档的相似度检测。
为了实现上述目的,本申请的实施例通过如下方式实现:
第一方面,本申请实施例提供一种标准文档相似度检测方法,包括:从标准文档检索系统中确定出具有相似实体的个待比对文档,其中,标准文档检索系统中的每个文档具有三元组形式构建的知识图谱,三元组形式为:头实体-关系-尾实体,;对多个待比对文档进行两两互组,得到个的比对组;针对每个比对组,基于该比对组内两个待比对文档的知识图谱,进行整体相似度比对,确定出整体相似度;若整体相似度不达第一阈值,确定该比对组内两个待比对文档互为非近似文档;若整体相似度达到第一阈值,确定比对组内两个待比对文档互为近似文档,并对互为近似文档的两个待比对文档中每一组相似实体进行相似度比对,确定出实体相似度;若实体相似度达到第二阈值,确定互为近似文档的两个待比对文档不存在冲突;若实体相似度未达第二阈值,确定互为近似文档的两个待比对文档存在冲突并进行标记。
在本申请实施例中,从标准文档检索系统中确定出具有相似实体的个待比对文档(具有三元组形式构建的知识图谱),对多个待比对文档进行两两互组,得到个的比对组;针对每个比对组,基于该比对组内两个待比对文档的知识图谱,进行整体相似度比对,确定出整体相似度。这样可以在进行实体的相似度比对之前,先确定整体相似度是否达到第一阈值,从而保证两个文档是相近的,具有应当一致的知识,从而保证对相近知识进行相似度检测的合理性,避免对近似但实际为不同知识的误检。若整体相似度不达第一阈值,确定该比对组内两个待比对文档互为非近似文档,不需要进行实体相似度的比对;若整体相似度达到第一阈值,确定比对组内两个待比对文档互为近似文档,并对互为近似文档的两个待比对文档中每一组相似实体进行相似度比对,确定出实体相似度。这样能够在确定两个待比对文档互为近似文档(实体名称一致时,理应具有相同的知识,即,表现为两个文档中同名的头实体所在的三元组应当不存在相悖的关系或尾实体)时,再去检测二者的实体相似度,进行实体层面的比对,进行有效的标准文档相似度检测。在实体相似度未达第二阈值,确定互为近似文档的两个待比对文档存在冲突并进行标记,以便进行后续的冲突消除处理(例如通过人工判断是否真的存在冲突)。
结合第一方面,在第一方面的第一种可能的实现方式中,基于该比对组内两个待比对文档的知识图谱,进行整体相似度比对,确定出整体相似度,包括:基于该比对组内两个待比对文档的知识图谱,确定出两个待比对文档之间的所有相似实体,共计组相似实体,其中,每组相似实体为同名实体;针对每组相似实体,以该组相似实体中的每个实体为头实体,从其所在知识图谱中确定出不超过层的实体网,并基于该组相似实体中每个实体的实体网,计算该组相似实体的相似度,共计得到个相似度,其中,层的实体网,为层的实体网,为头实体,为第层关系,表示第层尾实体,每相邻两个实体及其关系视为一层实体子网;确定相似度最高的一组相似实体为目标相似实体,确定目标相似实体对应的相似度为所述整体相似度。
在该实现方式中,通过以一组相似实体中的每个实体为头实体,从其所在知识图谱中确定出不超过层的实体网,并基于该组相似实体中每个实体的实体网,计算该组相似实体的相似度,共计得到个相似度,这样可以以相似实体中的每个实体为中心,检测其知识图谱构成的网络之间的相似度,从而可以有效地确定整体相似度,且此种方式确定的整体相似度,能够非常有效地对需要进行实体相似度检测的相似实体进行筛选,排除掉仅是同名,但实际不是同一种概念的相似实体,节约计算资源,也能够有效降低误检率。
结合第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式中,基于该组相似实体中每个实体的实体网,计算该组相似实体的相似度,包括:针对该组相似实体:对两个实体网中每层实体子网进行相似度比对,确定出每层实体子网的相似度分量;基于每层实体子网的相似度分量,确定出该组相似实体的相似度。
结合第一方面的第二种可能的实现方式,在第一方面的第三种可能的实现方式中,对两个实体网中每层实体子网进行相似度比对,确定出每层实体子网的相似度分量,包括:
,,其中表示同一比对组内两个待比对文档的第组相似实体的第层实体子网中第组关联向量匹配结果,、、、、分别为对应分值,、、、、分别为对应、、、、的权重,、、、、分别为对应、、、、的数量,表示同一比对组内两个待比对文档的第组相似实体的第层实体子网的相似度分量。
在该实现方式中,通过此种方式可以将第一实体网中第层实体子网的每组关联向量与第二实体网中第层实体子网的每组关联向量进行对应匹配,确定出关联向量匹配结果,并基于关联向量匹配结果进行对应的相似度计算,最终得到第组相似实体的第层实体子网的相似度分量,且此相似度分量在计算时,排除了赘余关联向量的影响,能够更加准确地反映第层实体子网的相似度分量。
结合第一方面的第三种可能的实现方式,在第一方面的第四种可能的实现方式中,基于每层实体子网的相似度分量,确定出该组相似实体的相似度,包括:
基于每层实体子网的相似度分量,按照以下公式计算该组相似实体的相似度:
在该实现方式中,在计算一组相似实体的相似度时,以该组相似实体的每层实体子网的相似度分量为基础,考虑第层实体子网之后(即第层实体子网到第层实体子网)中具备同名实体的实体子网的情况,后续层次的实体子网具备同名实体揭示了其具有较多匹配层级的事实,可以利用调节参数来调节权重(调节参数大于1),由此确定出的相似实体的相似度,可以更加有效地反映每层实体子网的匹配情况。
结合第一方面,或者结合第一方面的第一种至第四种中任一可能的实现方式,在第一方面的第五种可能的实现方式中,每一组相似实体内的每个实体具有实体名、属性名和属性值,作为该实体的关键知识,对互为近似文档的两个待比对文档中每一组相似实体进行相似度比对,确定出实体相似度,包括:
针对两个待比对文档中每一组相似实体,采用以下公式计算实体相似度:
在该实现方式中,相似实体内的每个实体具有实体名、属性名和属性值,作为该实体的关键知识,通过对相似实体的实体名相关度、属性名相关度和属性值相关度进行计算,可以得到实体相似度,从而对实体进行相对完善而准确的比对。
结合第一方面的第五种可能的实现方式,在第一方面的第六种可能的实现方式中,确定相关度的计算公式为:
,其中,,,,和分别为控制关键知识频率的调节因子和控制关键知识长度的调节因子,和分别为一组相似实体内两个实体对应的两个关键知识在对应待比对文档中出现的频率,为对应待比对文档中包含的所有关键知识的个数,为所有文档中平均出现的关键知识的个数,和分别为关键知识两个关键知识的实体名、属性名或属性值在其相应待比对文档中所占的相关度权重值。
在该实现方式中,这样可以考虑到关键知识的频率、关键知识的长度、关键知识在对应待比对文档中出现的频率、对应待比对文档中包含的所有关键知识的个数、所有文档中平均出现的关键知识的个数、两个关键知识的实体名、属性名或属性值在其相应待比对文档中所占的相关度权重值等多种因素,更加全面地确定两个关键知识之间的相关度。
结合第一方面的第六种可能的实现方式,在第一方面的第七种可能的实现方式中,相关度权重值的计算公式为:
第二方面,本申请实施例提供一种标准文档相似度检测装置,包括:文档获取单元,用于从标准文档检索系统中确定出具有相似实体的个待比对文档,其中,标准文档检索系统中的每个文档具有三元组形式构建的知识图谱,三元组形式为:头实体-关系-尾实体,;文档分组单元,用于对多个待比对文档进行两两互组,得到个的比对组;相似比对单元,用于针对每个比对组,基于该比对组内两个待比对文档的知识图谱,进行整体相似度比对,确定出整体相似度;若整体相似度不达第一阈值,确定该比对组内两个待比对文档互为非近似文档;若整体相似度达到第一阈值,确定比对组内两个待比对文档互为近似文档,并对互为近似文档的两个待比对文档中每一组相似实体进行相似度比对,确定出实体相似度;冲突判定单元,用于在实体相似度达到第二阈值时,确定互为近似文档的两个待比对文档不存在冲突;在实体相似度未达第二阈值时,确定互为近似文档的两个待比对文档存在冲突并进行标记。
第三方面,本申请实施例提供一种标准文档检索系统,包括:文档存储单元,用于存储文档,其中,存储的每个文档具有三元组形式构建的知识图谱,三元组形式为:头实体-关系-尾实体;相似度检测单元,用于执行第一方面或第一方面的可能的实现方式中任一项所述的标准文档相似度检测方法,进行标准文档相似度检测;文档检索单元,用于接收文档检索信息,并基于文档检索信息从文档存储单元存储的文档中确定出相关文档,生成查询结果并返回。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种标准文档检索系统的示意图。
图2为本申请实施例提供的一种标准文档相似度检测方法的流程图。
图3为本申请实施例提供的一种标准文档相似度检测装置的结构框图。
图标:10-标准文档检索系统;11-文档存储单元;12-相似度检测单元;13-文档检索单元;20-标准文档相似度检测装置;21-文档获取单元;22-文档分组单元;23-相似比对单元;24-冲突判定单元。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
在对标准文档相似度检测方法进行介绍之前,先对标准文档检索系统10进行简单的介绍。
请参阅图1,图1为本申请实施例提供的一种标准文档检索系统10的示意图。在本实施例中,标准文档检索系统10可以包括文档存储单元11、相似度检测单元12和文档检索单元13。
示例性的,文档存储单元11用于存储文档,其中,存储的每个文档具有三元组形式构建的知识图谱,三元组形式为:头实体-关系-尾实体。因此,在对文档进行存储之前,需要对文档进行标准化处理,例如,主要使用Word及Pdf格式的文档,将文档主体内容规范为四个部分:标题部分、摘要部分(含关键词)、正文部分、结尾部分。
为了便于后续检索,可以对标准文档进行知识提取,一方面是提取出知识点(呈三元组形式:头实体-关系-尾实体),另一方面是提取每个实体的实体名、属性名和属性值,利用使用BERT语言模型进行训练,基于实体的实体名、属性名和属性值生成为词向量和位置向量,利用卷积神经网络训练提取特征,从而得到标准文档检索系统10的索引模型。由此,可以对文库中的所有标准文档使用训练好的卷积神经网络进行提取,将实体的实体名、属性名和属性值,以及各自出现的频率、位置等信息用作索引。由于构建索引这部分技术相对成熟,此处不展开说明。
示例性的,相似度检测单元12可以用于执行标准文档相似度检测方法,进行标准文档相似度检测,并对冲突的文档进行标记。对于标准文档相似度检测方法,后文将详细介绍,此处暂且不表。
示例性的,文档检索单元13用于接收文档检索信息,并基于文档检索信息从文档存储单元11存储的文档中确定出相关文档,生成查询结果并返回。
具体的,文档检索单元13可以接收用户侧(例如网页、客户端等)提交的文档检索请求(包含文档检索信息,是自然语言的语句),文档检索单元13可以先对语句进行分析,提取语句中的关键词,然后基于关键词对文档存储单元11存储的标准文档中已经生成的索引进行检索,将检索得到的信息进行相关度排序,接着根据排序将相关信息对应的标准文档进行排序,最后返回排序的标准文档展示给用户。
由于知识图谱的数据来源的不确定性,不可避免地存在文档冲突(不同文档中对同一知识点具有冲突)。因此,标准文档检索系统10中设计了文档检索单元13进行相应的文档相似度检测。文档检索单元13进行标准文档检测,可以是实时的(例如系统内每收入一篇新的标准文档就进行一次标准文档相似度检测),也可以是阶段性的,此处不作限定。
请参阅图2,图2为本申请实施例提供的一种标准文档相似度检测方法的流程图。在本实施例中,标准文档相似度检测方法可以包括步骤S10、步骤S20、步骤S30和步骤S40。
首先,文档检索单元13可以执行步骤S10。
在本实施例中,文档检索单元13可以从标准文档检索系统10(的文档存储单元11)中确定出相似实体的个待比对文档(),标准文档检索系统10中的每个文档具有三元组形式构建的知识图谱,三元组形式为:头实体-关系-尾实体。而每个实体(头实体、尾实体)均具有实体名、属性名和属性值,且头实体和尾实体之间是可以相互转换的(例如实体A和实体B:实体A为头实体,实体B为尾实体时,二者的关系为C1;实体B为头实体,实体A为尾实体时,二者的关系为C2)。
需要说明的是,相似实体的实体名是一致的,表现为不同文档中,具有相同实体名的实体。另外,本方案为了便于说明,以对文档检索单元13内所有标准文档进行标准文档相似度检测为例,不应视为对本申请的限定,在其他情况下,例如已经做过一次或多次标准文档相似度检测的情况,可以挑选一部分文档作为比对的文档,用于与新加入的标准文档进行相似度检测,可以有效减少计算量,节约计算资源。
步骤S30:针对每个比对组,基于该比对组内两个待比对文档的知识图谱,进行整体相似度比对,确定出整体相似度;若整体相似度不达第一阈值,确定该比对组内两个待比对文档互为非近似文档;若整体相似度达到第一阈值,确定比对组内两个待比对文档互为近似文档,并对互为近似文档的两个待比对文档中每一组相似实体进行相似度比对,确定出实体相似度。
在本实施例中,针对每个比对组:
文档检索单元13可以基于该比对组内两个待比对文档的知识图谱,进行整体相似度比对,确定出整体相似度。
示例性的,文档检索单元13可以基于该比对组内两个待比对文档的知识图谱,确定出两个待比对文档之间的所有相似实体,共计组相似实体,其中,每组相似实体为同名实体。这样可以将两个待比对文档之间的所有同名的相似实体确定出来,得到组相似实体,。
而针对每组相似实体:
文档检索单元13可以以该组相似实体中的每个实体为头实体,从其所在知识图谱中确定出不超过层的实体网(例如3层、5层等),并基于该组相似实体中每个实体的实体网,计算该组相似实体的相似度,共计得到个相似度,其中,层的实体网,为层的实体网,为头实体,为第层关系,表示第层尾实体,每相邻两个实体及其关系视为一层实体子网。之后,文档检索单元13可以确定相似度最高的一组相似实体为目标相似实体,确定目标相似实体对应的相似度为整体相似度。
通过以一组相似实体中的每个实体为头实体,从其所在知识图谱中确定出不超过层的实体网,并基于该组相似实体中每个实体的实体网,计算该组相似实体的相似度,共计得到个相似度,这样可以以相似实体中的每个实体为中心,检测其知识图谱构成的网络之间的相似度,从而可以有效地确定整体相似度,且此种方式确定的整体相似度,能够非常有效地对需要进行实体相似度检测的相似实体进行筛选,排除掉仅是同名,但实际不是同一种概念的相似实体,节约计算资源,也能够有效降低误检率。
在计算一组相似实体的相似度时,可以采用以下方式进行:
首先,文档检索单元13可以对两个实体网中每层实体子网进行相似度比对,确定出每层实体子网的相似度分量。
文档检索单元13可以将第一实体网中第层实体子网的每组关联向量与第二实体网中第层实体子网的每组关联向量进行对应匹配,确定出关联向量匹配结果。此处,一组关联向量由一个关系向量及其对应的尾实体向量组成,以为例,由、组成一组关联向量,为例(需要注意的是,单独将取出来看时,相较于视为头实体),则、组成一组关联向量。而关联向量匹配结果可以分为5种情况:
(1)关系向量及尾实体向量均匹配;
(2)关系向量匹配,但尾实体向量不匹配;
(3)关系向量不匹配,但尾实体向量匹配;
(4)关系向量及尾实体向量均不匹配;
(5)属于赘余向量,即其他关联向量均具有对应的匹配关系(属于情况1~3的情形),但其中一个标准文档却对应多出了的几组关联向量。
,(1),其中,表示同一比对组内两个待比对文档的第组相似实体的第层实体子网中第组关联向量匹配结果,、、、、分别为对应分值(通常来说,、、、分值逐渐降低,可取0),、、、、分别为对应、、、、的权重,、、、、分别为对应、、、、的数量,表示同一比对组内两个待比对文档的第组相似实体的第层实体子网的相似度分量。
通过此种方式可以将第一实体网中第层实体子网的每组关联向量与第二实体网中第层实体子网的每组关联向量进行对应匹配,确定出关联向量匹配结果,并基于关联向量匹配结果进行对应的相似度计算,最终得到第组相似实体的第层实体子网的相似度分量,且此相似度分量在计算时,排除了赘余关联向量的影响,能够更加准确地反映第层实体子网的相似度分量。
之后,文档检索单元13可以基于每层实体子网的相似度分量,确定出该组相似实体的相似度。
示例性的,文档检索单元13可以基于每层实体子网的相似度分量,按照以下公式计算该组相似实体的相似度:
在计算一组相似实体的相似度时,以该组相似实体的每层实体子网的相似度分量为基础,考虑第层实体子网之后(即第层实体子网到第层实体子网)中具备同名实体的实体子网的情况,后续层次的实体子网具备同名实体揭示了其具有较多匹配层级的事实(即,在二者的实体网中存在多层子网具有同名实体的情况),可以利用调节参数来调节权重(调节参数大于1,可以取1~1.5,不含端点值),由此确定出的相似实体的相似度,可以更加有效地反映每层实体子网的匹配情况。
确定出整体相似度后,文档检索单元13可以判断整体相似度是否达到第一阈值(此值的设定基于具体情况设置,此处不作限定)。
若整体相似度不达第一阈值,文档检索单元13可以确定该比对组内两个待比对文档互为非近似文档,即二者不属于近似,不需要进行实体相似度的计算。
若整体相似度达到第一阈值,文档检索单元13可以确定比对组内两个待比对文档互为近似文档。然后,可以对互为近似文档的两个待比对文档中每一组相似实体进行相似度比对,确定出实体相似度。
相似实体内的每个实体具有实体名、属性名和属性值,作为该实体的关键知识,通过对相似实体的实体名相关度、属性名相关度和属性值相关度进行计算,可以得到实体相似度,从而对实体进行相对完善而准确的比对。
示例性的,记:
那么,确定相关度的计算公式可以设计为:
其中,和分别为控制关键知识频率的调节因子和控制关键知识长度的调节因子,和分别为一组相似实体内两个实体对应的两个关键知识在对应待比对文档中出现的频率,为对应待比对文档中包含的所有关键知识的个数,为所有文档中平均出现的关键知识的个数,和分别为关键知识两个关键知识的实体名、属性名或属性值在其相应待比对文档中所占的相关度权重值。
这样可以考虑到关键知识的频率、关键知识的长度、关键知识在对应待比对文档中出现的频率、对应待比对文档中包含的所有关键知识的个数、所有文档中平均出现的关键知识的个数、两个关键知识的实体名、属性名或属性值在其相应待比对文档中所占的相关度权重值等多种因素,更加全面地确定两个关键知识之间的相关度。
示例性的,相关度权重值的计算公式为:
当越大,越小时,说明文档中出现的次数越多,重要性越低,则相应的实体名、属性名或属性值的权重就越低。由于式(5)中为经验选取的常数参数,在不同文档中选取相同数值时,可能会导致相关度计算与实际相差较大,因此,为了提高相关度的计算准确度,这里将调节因子取为变参数,令为:,(7)
通过这样的方式,可以准确地计算出每一组相似实体的实体相关度。
在确定出两个待比对文档中每一组相似实体的实体相似度后,文档检索单元13可以进行判断:判断每一组相似实体的实体相似度是否达到第二阈值。
基于此,文档检索单元13可以执行步骤S40。
步骤S40:若实体相似度达到第二阈值,确定互为近似文档的两个待比对文档不存在冲突;若实体相似度未达第二阈值,确定互为近似文档的两个待比对文档存在冲突并进行标记。
在本实施例中,针对每一组相似实体的实体相似度,一组一组进行判断,若达到第二阈值,可以暂时确定互为近似文档的两个待比对文档不存在冲突,直到确定互为近似文档的两个待比对文档中存在一组实体相似度未达到第二阈值的相似实体时,即可确定互为近似文档的两个待比对文档存在冲突。对于存在冲突的两个待比对文档,文档检索单元13可以进行标记,例如可以将存在冲突的两个待比对文档,以及两者之间的实体相似度未达第二阈值的相似实体进行标记。
这样可以在进行实体的相似度比对之前,先确定整体相似度是否达到第一阈值,从而保证两个文档是相近的,具有应当一致的知识,从而保证对相近知识进行相似度检测的合理性,避免对近似但实际为不同知识的误检。在确定两个待比对文档互为近似文档(实体名称一致时,理应具有相同的知识,即,表现为两个文档中同名的头实体所在的三元组应当不存在相悖的关系或尾实体)时,再去检测二者的实体相似度,进行实体层面的比对,进行有效的标准文档相似度检测。在实体相似度未达第二阈值,确定互为近似文档的两个待比对文档存在冲突并进行标记,以便进行后续的冲突消除处理(例如通过人工判断是否真的存在冲突)。
请参阅图3,基于同一发明构思,本申请实施例还提供一种标准文档相似度检测装置20的结构框图。在本实施例中,标准文档相似度检测装置20,包括:
文档获取单元21,用于从标准文档检索系统10中确定出具有相似实体的个待比对文档,其中,标准文档检索系统10中的每个文档具有三元组形式构建的知识图谱,三元组形式为:头实体-关系-尾实体,。文档分组单元22,用于对多个待比对文档进行两两互组,得到个的比对组。
相似比对单元23,用于针对每个比对组,基于该比对组内两个待比对文档的知识图谱,进行整体相似度比对,确定出整体相似度;若整体相似度不达第一阈值,确定该比对组内两个待比对文档互为非近似文档;若整体相似度达到第一阈值,确定比对组内两个待比对文档互为近似文档,并对互为近似文档的两个待比对文档中每一组相似实体进行相似度比对,确定出实体相似度。
冲突判定单元24,用于在实体相似度达到第二阈值时,确定互为近似文档的两个待比对文档不存在冲突;在实体相似度未达第二阈值时,确定互为近似文档的两个待比对文档存在冲突并进行标记。
在本实施例中,相似比对单元23,具体用于:基于该比对组内两个待比对文档的知识图谱,确定出两个待比对文档之间的所有相似实体,共计组相似实体,其中,每组相似实体为同名实体;针对每组相似实体,以该组相似实体中的每个实体为头实体,从其所在知识图谱中确定出不超过层的实体网,并基于该组相似实体中每个实体的实体网,计算该组相似实体的相似度,共计得到个相似度,其中,层的实体网,为层的实体网,为头实体,为第层关系,表示第层尾实体,每相邻两个实体及其关系视为一层实体子网;确定相似度最高的一组相似实体为目标相似实体,确定目标相似实体对应的相似度为所述整体相似度。
在本实施例中,相似比对单元23,具体用于:针对该组相似实体:对两个实体网中每层实体子网进行相似度比对,确定出每层实体子网的相似度分量;基于每层实体子网的相似度分量,确定出该组相似实体的相似度。
在本实施例中,相似比对单元23,具体用于:针对两个实体网中第层实体子网:将第一实体网中第层实体子网的每组关联向量与第二实体网中第层实体子网的每组关联向量进行对应匹配,确定出关联向量匹配结果,其中,一组关联向量由一个关系向量及其对应的尾实体向量组成;基于每组关联向量匹配结果,按照以下公式计算第层实体子网的相似度分量:
,,其中,表示同一比对组内两个待比对文档的第组相似实体的第层实体子网中第组关联向量匹配结果,、、、、分别为对应分值,、、、、分别为对应、、、、的权重,、、、、分别为对应、、、、的数量,表示同一比对组内两个待比对文档的第组相似实体的第层实体子网的相似度分量。
在本实施例中,相似比对单元23,具体用于:基于每层实体子网的相似度分量,按照以下公式计算该组相似实体的相似度:
在本实施例中,每一组相似实体内的每个实体具有实体名、属性名和属性值,作为该实体的关键知识,相似比对单元23,具体用于:
针对两个待比对文档中每一组相似实体,采用以下公式计算实体相似度:
在本实施例中,确定相关度的计算公式为:
,其中,,,,和分别为控制关键知识频率的调节因子和控制关键知识长度的调节因子,和分别为一组相似实体内两个实体对应的两个关键知识在对应待比对文档中出现的频率,为对应待比对文档中包含的所有关键知识的个数,为所有文档中平均出现的关键知识的个数,和分别为关键知识两个关键知识的实体名、属性名或属性值在其相应待比对文档中所占的相关度权重值。
在本实施例中,相关度权重值的计算公式为:
综上所述,本申请实施例提供一种标准文档相似度检测方法、装置及系统,从标准文档检索系统10中确定出具有相似实体的个待比对文档(具有三元组形式构建的知识图谱),对多个待比对文档进行两两互组,得到个的比对组;针对每个比对组,基于该比对组内两个待比对文档的知识图谱,进行整体相似度比对,确定出整体相似度。这样可以在进行实体的相似度比对之前,先确定整体相似度是否达到第一阈值,从而保证两个文档是相近的,具有应当一致的知识,从而保证对相近知识进行相似度检测的合理性,避免对近似但实际为不同知识的误检。若整体相似度不达第一阈值,确定该比对组内两个待比对文档互为非近似文档,不需要进行实体相似度的比对;若整体相似度达到第一阈值,确定比对组内两个待比对文档互为近似文档,并对互为近似文档的两个待比对文档中每一组相似实体进行相似度比对,确定出实体相似度。这样能够在确定两个待比对文档互为近似文档(实体名称一致时,理应具有相同的知识,即,表现为两个文档中同名的头实体所在的三元组应当不存在相悖的关系或尾实体)时,再去检测二者的实体相似度,进行实体层面的比对,进行有效的标准文档相似度检测。在实体相似度未达第二阈值,确定互为近似文档的两个待比对文档存在冲突并进行标记,以便进行后续的冲突消除处理(例如通过人工判断是否真的存在冲突)。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种标准文档相似度检测方法,其特征在于,包括:
针对每个比对组,基于该比对组内两个待比对文档的知识图谱,进行整体相似度比对,确定出整体相似度;若整体相似度不达第一阈值,确定该比对组内两个待比对文档互为非近似文档;若整体相似度达到第一阈值,确定比对组内两个待比对文档互为近似文档,并对互为近似文档的两个待比对文档中每一组相似实体进行相似度比对,确定出实体相似度;
若实体相似度达到第二阈值,确定互为近似文档的两个待比对文档不存在冲突;若实体相似度未达第二阈值,确定互为近似文档的两个待比对文档存在冲突并进行标记。
2.根据权利要求1所述的标准文档相似度检测方法,其特征在于,基于该比对组内两个待比对文档的知识图谱,进行整体相似度比对,确定出整体相似度,包括:
针对每组相似实体,以该组相似实体中的每个实体为头实体,从其所在知识图谱中确定出不超过层的实体网,并基于该组相似实体中每个实体的实体网,计算该组相似实体的相似度,共计得到个相似度,其中,层的实体网,为层的实体网,为头实体,为第层关系,表示第层尾实体,每相邻两个实体及其关系视为一层实体子网;
确定相似度最高的一组相似实体为目标相似实体,确定目标相似实体对应的相似度为所述整体相似度。
3.根据权利要求2所述的标准文档相似度检测方法,其特征在于,基于该组相似实体中每个实体的实体网,计算该组相似实体的相似度,包括:
针对该组相似实体:
对两个实体网中每层实体子网进行相似度比对,确定出每层实体子网的相似度分量;
基于每层实体子网的相似度分量,确定出该组相似实体的相似度。
4.根据权利要求3所述的标准文档相似度检测方法,其特征在于,对两个实体网中每层实体子网进行相似度比对,确定出每层实体子网的相似度分量,包括:
将第一实体网中第层实体子网的每组关联向量与第二实体网中第层实体子网的每组关联向量进行对应匹配,确定出关联向量匹配结果,其中,一组关联向量由一个关系向量及其对应的尾实体向量组成;基于每组关联向量匹配结果,按照以下公式计算第层实体子网的相似度分量:
9.一种标准文档相似度检测装置,其特征在于,包括:
相似比对单元,用于针对每个比对组,基于该比对组内两个待比对文档的知识图谱,进行整体相似度比对,确定出整体相似度;若整体相似度不达第一阈值,确定该比对组内两个待比对文档互为非近似文档;若整体相似度达到第一阈值,确定比对组内两个待比对文档互为近似文档,并对互为近似文档的两个待比对文档中每一组相似实体进行相似度比对,确定出实体相似度;
冲突判定单元,用于在实体相似度达到第二阈值时,确定互为近似文档的两个待比对文档不存在冲突;在实体相似度未达第二阈值时,确定互为近似文档的两个待比对文档存在冲突并进行标记。
10.一种标准文档检索系统,其特征在于,包括:
文档存储单元,用于存储文档,其中,存储的每个文档具有三元组形式构建的知识图谱,三元组形式为:头实体-关系-尾实体;相似度检测单元,用于执行权利要求1至8中任一项所述的标准文档相似度检测方法,进行标准文档相似度检测;
文档检索单元,用于接收文档检索信息,并基于文档检索信息从文档存储单元存储的文档中确定出相关文档,生成查询结果并返回。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211656594.2A CN115659945B (zh) | 2022-12-22 | 2022-12-22 | 一种标准文档相似度检测方法、装置及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211656594.2A CN115659945B (zh) | 2022-12-22 | 2022-12-22 | 一种标准文档相似度检测方法、装置及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115659945A true CN115659945A (zh) | 2023-01-31 |
CN115659945B CN115659945B (zh) | 2023-05-02 |
Family
ID=85022400
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211656594.2A Active CN115659945B (zh) | 2022-12-22 | 2022-12-22 | 一种标准文档相似度检测方法、装置及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115659945B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110258181A1 (en) * | 2010-04-15 | 2011-10-20 | Palo Alto Research Center Incorporated | Method for calculating semantic similarities between messages and conversations based on enhanced entity extraction |
CN105302793A (zh) * | 2015-10-21 | 2016-02-03 | 南方电网科学研究院有限责任公司 | 一种利用计算机自动评价科技文献新颖性的方法 |
CN113032584A (zh) * | 2021-05-27 | 2021-06-25 | 北京明略软件系统有限公司 | 一种实体关联方法、装置、电子设备及存储介质 |
WO2022130579A1 (ja) * | 2020-12-17 | 2022-06-23 | 富士通株式会社 | 類似度判定プログラム、類似度判定装置、及び、類似度判定方法 |
-
2022
- 2022-12-22 CN CN202211656594.2A patent/CN115659945B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110258181A1 (en) * | 2010-04-15 | 2011-10-20 | Palo Alto Research Center Incorporated | Method for calculating semantic similarities between messages and conversations based on enhanced entity extraction |
CN105302793A (zh) * | 2015-10-21 | 2016-02-03 | 南方电网科学研究院有限责任公司 | 一种利用计算机自动评价科技文献新颖性的方法 |
WO2022130579A1 (ja) * | 2020-12-17 | 2022-06-23 | 富士通株式会社 | 類似度判定プログラム、類似度判定装置、及び、類似度判定方法 |
CN113032584A (zh) * | 2021-05-27 | 2021-06-25 | 北京明略软件系统有限公司 | 一种实体关联方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115659945B (zh) | 2023-05-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8326091B1 (en) | Ranking of images and image labels | |
CN108804641B (zh) | 一种文本相似度的计算方法、装置、设备和存储介质 | |
CN105183923B (zh) | 新词发现方法及装置 | |
CN108647322B (zh) | 基于词网识别大量Web文本信息相似度的方法 | |
US20150178321A1 (en) | Image-based 3d model search and retrieval | |
CN111708942B (zh) | 多媒体资源推送方法、装置、服务器及存储介质 | |
CN112732883A (zh) | 基于知识图谱的模糊匹配方法、装置和计算机设备 | |
US8527564B2 (en) | Image object retrieval based on aggregation of visual annotations | |
WO2010139091A1 (en) | Co-selected image classification | |
CN111090771B (zh) | 歌曲搜索方法、装置及计算机存储介质 | |
CN109492027B (zh) | 一种基于弱可信数据的跨社群潜在人物关系分析方法 | |
CN110162637B (zh) | 信息图谱构建方法、装置及设备 | |
CN109857873A (zh) | 推荐实体的方法和装置、电子设备、计算机可读介质 | |
JP2011128773A (ja) | 画像検索装置、画像検索方法及びプログラム | |
CN107085568A (zh) | 一种文本相似度判别方法及装置 | |
CN109635004B (zh) | 一种数据库的对象描述提供方法、装置及设备 | |
JP5367632B2 (ja) | 知識量推定装置及びプログラム | |
JP2012079186A (ja) | 画像検索装置、画像検索方法及びプログラム | |
CN111950267B (zh) | 文本三元组的抽取方法及装置、电子设备及存储介质 | |
CN117807245A (zh) | 网络资产图谱中节点特征提取方法及相似节点搜索方法 | |
CN110362813B (zh) | 基于bm25的搜索相关性度量方法、存储介质、设备及系统 | |
CN115659945A (zh) | 一种标准文档相似度检测方法、装置及系统 | |
JP2024003752A (ja) | 検索結果ソートモデルの訓練方法、検索結果ソート方法、検索結果ソートモデルの訓練装置、検索結果ソート装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム | |
CN107423319B (zh) | 一种垃圾网页检测方法 | |
CN113064554B (zh) | 基于分布式存储的最优存储节点匹配方法、装置及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |