CN113761104A - 知识图谱中实体关系的检测方法、装置和电子设备 - Google Patents
知识图谱中实体关系的检测方法、装置和电子设备 Download PDFInfo
- Publication number
- CN113761104A CN113761104A CN202110512898.0A CN202110512898A CN113761104A CN 113761104 A CN113761104 A CN 113761104A CN 202110512898 A CN202110512898 A CN 202110512898A CN 113761104 A CN113761104 A CN 113761104A
- Authority
- CN
- China
- Prior art keywords
- entity
- pair
- information
- morpheme
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/319—Inverted lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了一种知识图谱中实体关系的检测方法、装置和电子设备;本申请实施例可以获取待检测知识图谱中至少一个实体对,每个实体对包括在目标属性上存在链接关系的第一实体和第二实体;将所有实体对中第一实体的实体信息进行倒排,得到倒排索引列表;接着,分别对每个第二实体的实体信息进行语义分析,得到每个第二实体对应的查询信息;基于倒排索引列表和查询信息,计算每个实体对中第一实体与第二实体之间的第一相似度;并将第一相似度满足第一预设条件的实体对确定为待检测知识图谱中在目标属性上链接关系正确的实体对。该方案可以有效地提高知识图谱中实体关系检测的准确性。
Description
技术领域
本申请涉及计算机技术领域,具体涉及一种知识图谱中实体关系的检测方法、装置和电子设备。
背景技术
知识图谱以结构化的方式描述客观世界中的概念、实体及其键的关系,提供了一种更好的组织、管理和理解互联网海量信息的能力。错误检测是知识图谱应用研究的主要内容之一,在机器人、智能问答、信息检索等领域有着广阔的应用前景。因此,对其进行研究具有重要意义。然而,现有技术对知识图谱进行错误检测的方案,在检测过程中,正确率较低,检测效果较差。
发明内容
本申请实施例提供一种知识图谱中实体关系的检测方法、装置、电子设备和存储介质,可以有效地提高知识图谱中实体关系检测的准确性。
本申请实施例提供一种知识图谱中实体关系的检测方法,包括:
获取待检测知识图谱中至少一个实体对,每个实体对包括在目标属性上存在链接关系的第一实体和第二实体;
将所有实体对中第一实体的实体信息进行倒排,得到倒排索引列表;
分别对每个第二实体的实体信息进行语义分析,得到每个第二实体对应的查询信息;
基于所述倒排索引列表和所述查询信息,计算每个实体对中第一实体与第二实体之间的第一相似度;
将所述第一相似度满足第一预设条件的实体对确定为所述待检测知识图谱中在目标属性上链接关系正确的实体对。
相应的,本申请实施例还提供一种知识图谱中实体关系的检测装置,包括:
获取单元,用于获取待检测知识图谱中至少一个实体对,每个实体对包括在目标属性上存在链接关系的第一实体和第二实体;
倒排单元,用于将所有实体对中第一实体的实体信息进行倒排,得到倒排索引列表;
分析单元,用于分别对每个第二实体的实体信息进行语义分析,得到每个第二实体对应的查询信息;
计算单元,用于基于所述倒排索引列表和所述查询信息,计算每个实体对中第一实体与第二实体之间的第一相似度;
确定单元,用于将所述第一相似度满足第一预设条件的实体对确定为所述待检测知识图谱中在目标属性上链接关系正确的实体对。
可选的,在一些实施例中,所述知识图谱中实体关系的检测装置还可以包括候选单元,如下:
所述候选单元,具体可以将链接关系正确的实体对中的第一实体确定为目标第一实体,将与目标第一实体链接于同一第二实体的其他第一实体确定为候选第一实体;对所述目标第一实体的实体信息进行语义分析,得到所述目标第一实体对应的目标查询信息;基于所述目标查询信息和候选第一实体的实体信息,计算所述目标第一实体和候选第一实体之间的第二相似度;若所述第二相似度满足第二预设条件,则将所述候选第一实体,以及与目标第一实体链接的第二实体确定为所述待检测知识图谱中在目标属性上链接关系正确的实体对。
可选的,在一些实施例中,所述知识图谱中实体关系的检测装置还可以包括验证单元,如下:
所述验证单元,具体可以当所有候选第一实体计算完成时,将所述待检测知识图谱中所有在目标属性上链接关系正确的实体对添加到实体对集合中;若在目标属性上存在链接关系的实体对不在所述实体对集合中,则将不在所述实体对集合中的实体对确定为所述待检测知识图谱中在目标属性上链接关系错误的实体对。
可选的,在一些实施例中,所述倒排单元,具体可以用于将所有实体对中第一实体的实体信息进行分词,得到第一词集合;对所述第一词集合进行去重,得到去重后第一词集合;建立每个第一实体的实体信息与去重后第一词集合中每个词的映射关系,并基于所述映射关系生成倒排索引列表。
可选的,在一些实施例中,所述分析单元可以包括分词子单元、抽取子单元和筛选子单元,如下:
所述分词子单元,可以用于分别对每个第二实体的实体信息进行分词,得到每个第二实体对应的第二词集合;
所述抽取子单元,可以用于分别对各个第二词集合进行关键词抽取,得到每个第二实体对应的关键词集合;
所述筛选子单元,可以用于从每个关键词集合中筛选出预设数量的目标关键词,并将筛选出的目标关键词确定为相应第二实体对应的查询信息。
可选的,在一些实施例中,所述抽取子单元,具体可以用于分别计算各个第二词集合中每个词的词频和每个词的逆文档频率;基于各个第二词集合中每个词的词频和逆文档频率,确定每个第二实体对应的关键词集合。
可选的,在一些实施例中,所述分析单元,具体可以用于分别对每个第二实体的实体信息进行分词,得到每个第二实体对应的第二词集合;分别对各个第二词集合中的停用词进行去除,得到每个第二实体对应的非停用词集合;从每个第二实体对应的非停用词集合中按顺序选取预设数量的非停用词,确定为相应第二实体对应的查询信息。
可选的,在一些实施例中,所述计算单元可以包括解析子单元、第一计算子单元和第二计算子单元,如下:
所述解析子单元,可以用于从获取到的实体对中确定待处理实体对;对所述待处理实体对中第二实体的查询信息进行语素解析,得到所述待处理实体对中第二实体的语素集;
所述第一计算子单元,可以用于基于所有实体对中第一实体的实体信息,分别计算所述语素集中每个语素与所述待处理实体对中第一实体的实体信息之间的相关性;
所述第二计算子单元,可以用于基于所述倒排索引列表,对计算得到的相关性进行加权求和,得到所述待处理实体对中第一实体与第二实体之间的第一相似度。
可选的,在一些实施例中,所述第一计算子单元,具体可以用于基于所有实体对中第一实体的实体信息,计算所有实体对中第一实体的实体信息的平均长度,并确定待处理实体对中第一实体的实体信息的目标长度;计算所述语素集中每个语素在所述待处理实体对中第一实体的实体信息的出现频率,得到每个语素的出现频率;基于所述平均长度、目标长度、以及每个语素的出现频率,分别计算所述语素集中每个语素与所述待处理实体对中第一实体的实体信息之间的相关性。
可选的,在一些实施例中,所述第二计算子单元,具体可以用于基于所述倒排索引列表,确定所述语素集中每个语素在所有实体对中第一实体的实体信息的出现次数;基于各个语素的出现次数,确定每个语素的权重;利用每个语素的权重,对计算得到的相关性进行加权求和,得到所述待处理实体对中第一实体与第二实体之间的第一相似度。
此外,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行本申请实施例提供的任一种知识图谱中实体关系的检测方法中的步骤。
此外,本申请实施例还提供一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本申请实施例提供的任一种知识图谱中实体关系的检测方法中的步骤。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中,计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述知识图谱中实体关系的检测方面的各种可选实现方式中提供的方法。
本实施例可以获取待检测知识图谱中至少一个实体对,每个实体对包括在目标属性上存在链接关系的第一实体和第二实体;然后,将所有实体对中第一实体的实体信息进行倒排,得到倒排索引列表;接着,分别对每个第二实体的实体信息进行语义分析,得到每个第二实体对应的查询信息;再基于所述倒排索引列表和所述查询信息,计算每个实体对中第一实体与第二实体之间的第一相似度;再然后,将所述第一相似度满足第一预设条件的实体对确定为所述待检测知识图谱中在目标属性上链接关系正确的实体对。该方案可以有效地提高知识图谱中实体关系检测的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是本申请实施例提供的知识图谱中实体关系的检测方法的场景示意图;
图1b是本申请实施例提供的知识图谱中实体关系的检测方法的第一流程图;
图2a是本申请实施例提供的知识图谱中实体关系的检测方法的第二流程图;
图2b是本申请实施例提供的知识图谱中实体关系的检测方法的第三流程图;
图2c是本申请实施例提供的构建倒排和查询的示意图;
图3是本申请实施例提供的知识图谱中实体关系的检测装置的结构示意图;
图4是本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的原理是以实施在一适当的运算环境中来举例说明。在以下的说明中,本申请的具体实施例将参考由一部或多部计算机所执行的步骤及符号来说明,除非另有述明。因此,这些步骤及操作将有数次提到由计算机执行,本文所指的计算机执行包括了由代表了以一结构化型式中的数据的电子信号的计算机处理单元的操作。此操作转换该数据或将其维持在该计算机的内存系统中的位置处,其可重新配置或另外以本领域测试人员所熟知的方式来改变该计算机的运作。该数据所维持的数据结构为该内存的实体位置,其具有由该数据格式所定义的特定特性。但是,本申请原理以上述文字来说明,其并不代表为一种限制,本领域测试人员将可了解到以下该的多种步骤及操作亦可实施在硬件当中。
本文所使用的术语“单元”可看做为在该运算系统上执行的软件对象。本文该的不同组件、单元、引擎及服务可看做为在该运算系统上的实施对象。而本文该的装置及方法可以以软件的方式进行实施,当然也可在硬件上进行实施,均在本申请保护范围之内。
本申请中的术语“第一”、“第二”和“第三”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是某些实施例还包括没有列出的步骤或单元,或某些实施例还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本申请实施例提供一种知识图谱中实体关系的检测方法、装置、电子设备和存储介质。其中,该知识图谱中实体关系的检测装置可以集成在电子设备中,该电子设备可以是服务器,也可以是终端等设备。
本申请实施例提供的知识图谱中实体关系的检测方法涉及人工智能领域中的自然语言处理方向,可以通过第一实体的实体信息和第二实体的实体信息进行自然语言处理,从而实现知识图谱中实体关系的检测。
其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。其中,人工智能软件技术主要包括计算机视觉技术、机器学习/深度学习等方向。
其中,自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
例如,如图1a所示,首先,该集成了知识图谱中实体关系的检测装置的电子设备可以获取待检测知识图谱中至少一个实体对,每个实体对包括在目标属性上存在链接关系的第一实体和第二实体;然后,将所有实体对中第一实体的实体信息进行倒排,得到倒排索引列表;接着,分别对每个第二实体的实体信息进行语义分析,得到每个第二实体对应的查询信息;再基于所述倒排索引列表和所述查询信息,计算每个实体对中第一实体与第二实体之间的第一相似度;再然后,将所述第一相似度满足第一预设条件的实体对确定为所述待检测知识图谱中在目标属性上链接关系正确的实体对。由于该方案通过利用第一实体的实体信息构建倒排,利用第二实体的实体信息构建查询,并通过构建的倒排和查询,计算每个实体对中第一实体与第二实体之间的第一相似度,以对待检测知识图谱中实体对的链接关系进行检测,有效地提高知识图谱中实体关系检测的准确性。由于该方案主要依赖实体的实体信息进行匹配,无需过多的边关系就可以完成检测,有效地提高了检测的效率,提升了检测的便捷性。并且该方案不需要人工构建特征或使用神经网络进行表示学习,减少了计算量和人工标注成本,可以快速有效的进行错误边检测。
以下分别进行详细说明。需说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
本实施例将从知识图谱中实体关系的检测装置的角度进行描述,该知识图谱中实体关系的检测装置具体可以集成在电子设备中,该电子设备可以是服务器,也可以是终端等设备;其中,该终端可以包括手机、平板电脑、笔记本电脑、以及个人计算机(PersonalComputer,PC)等设备。
一种知识图谱中实体关系的检测方法,包括:获取待检测知识图谱中至少一个实体对,每个实体对包括在目标属性上存在链接关系的第一实体和第二实体;然后,将所有实体对中第一实体的实体信息进行倒排,得到倒排索引列表;接着,分别对每个第二实体的实体信息进行语义分析,得到每个第二实体对应的查询信息;再基于所述倒排索引列表和所述查询信息,计算每个实体对中第一实体与第二实体之间的第一相似度;再然后,将所述第一相似度满足第一预设条件的实体对确定为所述待检测知识图谱中在目标属性上链接关系正确的实体对。
如图1b所示,该知识图谱中实体关系的检测方法的具体流程可以如下:
101、获取待检测知识图谱中至少一个实体对,每个实体对包括在目标属性上存在链接关系的第一实体和第二实体。
其中,知识图谱是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系,其基本组成单位是【实体-属性-属性值】三元组。实体是指具有可区别性且独立存在的某种事物,实体可以是人、地方、组织机构、植物、商品等等,如,“刘五”,“北京市”等。这些实体发散出的边表示了这个实体相关的信息,可以是文本也可以是其他实体。比如,在图谱中“作品1”、“作者A”都是实体,两个实体存在一条边(即链接关系,也称链接边关系),边的名称是“作者”。
其中,实体对可以指的是在目标属性上存在链接关系的第一实体和第二实体组成的对。其中,属性可以指的是事物的内部特征,第一实体可以指的是在目标属性的链接关系中的一个实体,第二实体可以指的是在目标属性的链接关系中的另一个实体,比如,第一实体可以为头实体,第二实体可以为尾实体,或者,第二实体可以为头实体,第一实体可以为尾实体,而头尾实体可以基于目标属性的链接关系进行确定,比如,对于【作品1-作者-作者A】来说,作品1是头实体,作者A是尾实体,属性为作者;又比如,对于【作者A-作品-作品1】来说,作者A是头实体,作品1是尾实体,属性为作品,等等。
但是,构建的知识图谱中,可能存在链接错误的边关系,比如,《XX指南》的作者是张X三,但张X三如果链接到了【张X三(XX创始人)】这个实体上,则是链接错误。而知识图谱作为多个业务的数据源,对数据的准确率要求极高,而且图谱中的错误数据会影响到后续的推理和图谱表示的训练模块。比如,《XX指南》的作者是张X三,但张X三如果链接到了【张X三(XX创始人)】这个实体上,在推理过程中,会将《XX指南》作为【张X三(XX创始人)】的著作。这种对于累积误差会放大已有的错误。因此,需要对知识图谱中的实体关系进行检测,以确保该知识图谱链接关系的准确性。
比如,可以将知识图谱中的链接关系根据属性进行划分,获取相同属性下的链接关系的第一实体和第二实体,以及第一实体的实体信息,第二实体的实体信息,比如,可以获取相同属性下的链接边关系的头实体和尾实体,以及头实体的实体信息,尾实体的实体信息。其中,实体信息可以指的是关于该实体的信息,包括但不限于实体简介、实体属性信息等等。
在获取到待检测知识图谱中目标属性的多个实体对之后,可以对第一实体的实体信息构建倒排,然后将第二实体的实体信息作为检索query(查询),也可以对第二实体的实体信息构建倒排,然后将第一实体的实体信息构建检索query,在此不做限制。以下以对第一实体的实体信息构建倒排,然后对第二实体的实体信息构建query为例进行说明。
102、将所有实体对中第一实体的实体信息进行倒排,得到倒排索引列表。
其中,倒排索引(Inverted index),也常被称为反向索引、置入档案或反向档案,是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。通过倒排索引,可以根据单词快速获取包含这个单词的文档列表。倒排索引主要由两个部分组成:“单词词典”和“倒排文件”。
其中,构建倒排索引列表的方式可以有很多种,比如,可以将文档分析成单词term(词语)标记,然后使用hash(哈希)去重单词term,再对单词生成倒排索引列表。例如,具体可以将所有实体对中第一实体的实体信息进行分词,得到第一词集合;对所述第一词集合进行去重,得到去重后第一词集合;建立每个第一实体的实体信息与去重后第一词集合中每个词的映射关系,并基于所述映射关系生成倒排索引列表。
比如,可以将获取到的实体对中每个第一实体的实体信息作为一个待检索文档构建倒排索引,首先要用分词系统将文档自动切分成单词序列,每个文档就转换为由单词序列构成的数据流。为了系统后续处理方便,需要对每个不同的单词赋予唯一的单词编号,同时记录下哪些文档包含这个单词,在如此处理结束后,就可以得到最简单的倒排索引列表。比如,倒排索引列表可以包括三栏,第一栏可以记录每个单词的单词编号(Identitydocument,ID),第二栏是对应的单词,第三栏即每个单词对应的倒排列表。比如,有5个待检索文档,单词“项目”,第一栏单词编号为1,第二栏单词为“项目”,第三栏倒排列表为{1,2,3,4,5},说明文档集合中每个文档都包含了这个单词。
可选的,除了构建基本倒排索引,还可以构建带有单词频率信息的倒排索引,比如,在单词对应的倒排列表中不仅记录了文档编号,还记载了单词频率信息(termfrequency,TF),即这个单词在某个文档中的出现次数。因为词频信息在搜索结果排序时,是计算查询和文档相似度很重要的一个计算因子,所以将其记录在倒排列表中,以方便后续排序时进行分值计算。
为了构建倒排的合理性,比如,可以将实体属性信息以三元组拼接的方式构造实体信息的文本。比如,【作品1-作者-作者A】拼接后为“作品1作者作者A”,得到构造后的三元组文本,作为实体简介的补充,拼接到简介后面,与实体简介共同构成实体的实体信息。例如,具体可以获取第一实体的实体描述信息和实体属性信息;对所述实体属性信息进行拼接,得到拼接后属性信息;将所述拼接后属性信息添加到实体描述信息中,得到第一实体的实体信息。
103、分别对每个第二实体的实体信息进行语义分析,得到每个第二实体对应的查询信息。
其中,构建查询信息(即构建query)的方式可以有很多种,例如,具体可以分别对每个第二实体的实体信息进行分词,得到每个第二实体对应的第二词集合;分别对各个第二词集合进行关键词抽取,得到每个第二实体对应的关键词集合;从每个关键词集合中筛选出预设数量的目标关键词,并将筛选出的目标关键词确定为相应第二实体对应的查询信息。其中,相应第二实体指的是筛选出的目标关键词对应的关键词集对应的第二实体。
其中,预设数量的设定方式可以有很多种,比如,可以根据实际应用的需求灵活设置,也可以预先设置好存储在电子设备中。此外,预设数量可以内置于电子设备中,或者,也可以保存在存储器中并发送给电子设备,等等。比如预设数量可以设置为50。
其中,对各个第二词集合进行关键词抽取的方式可以有很多种,例如,步骤“分别对各个第二词集合进行关键词抽取,得到每个第二实体对应的关键词集合”,具体可以分别计算各个第二词集合中每个词的词频和每个词的逆文档频率;基于各个第二词集合中每个词的词频和逆文档频率,确定每个第二实体对应的关键词集合。其中,逆文档频率(inversedocument frequency,IDF)又称反文档频率,是文档频率的倒数,主要用于概念TF-IDF(term frequency–inverse document frequency)中。
比如,对于每个第二实体构建查询信息可以执行如下步骤:从获取到的第二实体中确定待处理第二实体;对所述待处理第二实体的实体信息进行分词,得到所述待处理第二实体对应的第二词集合;对所述第二词集合进行关键词抽取,得到所述待处理第二实体对应的关键词集合;从所述关键词集合中筛选出预设数量的目标关键词,并将筛选出的目标关键词确定为所述待处理第二实体对应的查询信息。其中,待处理第二实体可以为一个也可以为多个,也就是可以依次对每个第二实体构建查询信息,也可以同时对多个第二实体构建查询信息。
其中,对所述第二词集合进行关键词抽取的方式可以有很多种,比如,步骤“对所述第二词集合进行关键词抽取,得到所述待处理第二实体对应的关键词集合”,具体可以计算所述第二词集合中每个词的词频和每个词的逆文档频率;基于所述词频和所述逆文档频率,确定所述待处理第二实体对应的关键词集合。比如,可以利用词频-逆文档频率(termfrequency–inverse document frequency,TF-IDF)法进行关键词抽取。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF(term frequency)可以指的是词条(关键字)在文本中出现的频率,如词在文本中出现的次数,具体计算公式可以如下:
其中ni,j是该词在文件dj中出现的次数,分母则是文件dj中所有词汇出现的次数总和。即
IDF(inverse document frequency)可以指的是某个词的逆文档频率,可以由总文件数目除以包含该词语的文件的数目,再将得到的商取对数得到。如果包含词条t的文档越少,IDF越大,则说明词条具有很好的类别区分能力。具体计算公式可以如下:
其中,|D|是语料库中的文件总数。|{j:ti∈dj}|表示包含词语ti的文件数目(即ni,j≠0的文件数目)。如果该词语不在语料库中,就会导致分母为零,因此一般情况下使用1+|{j:ti∈dj}|,即:
则TF-IDF实际上是:TF*IDF,指的是某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF。因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语。即:
TF-IDF=TF*IDF
又例如,构建查询信息的方式具体可以:分别对每个第二实体的实体信息进行分词,得到每个第二实体对应的第二词集合;分别对各个第二词集合中的停用词进行去除,得到每个第二实体对应的非停用词集合;从每个第二实体对应的非停用词集合中按顺序选取预设数量的非停用词,确定为相应第二实体对应的查询信息。
比如,对于每个第二实体构建查询信息可以执行如下步骤:从获取到的第二实体中确定待处理第二实体;对所述待处理第二实体的实体信息进行分词,得到所述待处理第二实体对应的第二词集合;对所述第二词集合中的停用词进行去除,得到所述待处理第二实体对应的非停用词集合;从所述待处理第二实体对应的非停用词集合中按顺序选取预设数量的非停用词,确定为所述待处理第二实体对应的查询信息。
其中,停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为Stop Words(停用词)。这些停用词都是人工输入、非自动化生成的,生成后的停用词会形成一个停用词表。但是,并没有一个明确的停用词表能够适用于所有的工具。甚至有一些工具是明确地避免使用停用词来支持短语搜索的。
104、基于所述倒排索引列表和所述查询信息,计算每个实体对中第一实体与第二实体之间的第一相似度。
例如,对于每个实体对,都可以执行如下操作:从获取到的实体对中确定待处理实体对;对所述待处理实体对中第二实体的查询信息进行语素解析,得到所述待处理实体对中第二实体的语素集;基于所有实体对中第一实体的实体信息,分别计算所述语素集中每个语素与所述待处理实体对中第一实体的实体信息之间的相关性;基于所述倒排索引列表,对计算得到的相关性进行加权求和,得到所述待处理实体对中第一实体与第二实体之间的第一相似度。其中,待处理实体对可以为一对也可以为多对,也就是可以依次对每个实体对进行计算,也可以同时对多个实体对进行计算,等等。
其中,语素是指语言中最小的音义结合体。也就是说一个语言单位必须同时满足三个条件——“最小、有音、有义”才能被称作语素,尤其是“最小”和“有义”。单音节的语言单位可以直接运用语素的定义进行判定,双音节和多音节的语言单位可以使用替代法,即用已知语素替代有待确定是不是语素的语言单位。不论是成词语素还是不成词语素都可以和别的语素组合成词。语素不是独立运用的语言单位,它的主要功能是作为构成词语的材料。说它是语音、语义结合体,有意义的语言单位,目的是把它跟音节区分开来,有些音节只有音没有意义,不能看作语素,如“雳”、“馄”。说它是最小的有意义的语言单位,不属于独立运用的语言单位,目的是把它跟词区分开来。
比如,对Query进行语素解析,生成语素qi;然后,对于每个第一实体的实体信息(即每个待检索文档)D,计算每个语素qi与D的相关性得分,最后,将qi相对于D的相关性得分进行加权求和,从而得到Query与D的相关性得分。具体计算公式可以如下:
其中,Q表示Query,qi表示Q解析之后的一个语素(对于中文,可以把对Query的分词作为语素分析,每个词看成语素qi);d表示一个待检索文档;Wi表示语素qi的权重;R(qi,d)表示语素qi与待检索文档d的相关性得分。
其中,计算所述语素集中每个语素与所述待处理实体对中第一实体的实体信息之间的相关性的方式可以有很多种,例如,具体可以基于所有实体对中第一实体的实体信息,计算所有实体对中第一实体的实体信息的平均长度,并确定待处理实体对中第一实体的实体信息的目标长度;计算所述语素集中每个语素在所述待处理实体对中第一实体的实体信息的出现频率,得到每个语素的出现频率;基于所述平均长度、目标长度、以及每个语素的出现频率,分别计算所述语素集中每个语素与所述待处理实体对中第一实体的实体信息之间的相关性。
比如,语素qi与待检索文档d的相关性得分R(qi,d)的具体计算公式可以如下:
其中,k1,k2,b为调节因子,通常根据经验设置,比如,可以设置k1=2,b=0.75;fi为qi在d中的出现频率,qfi为qi在Query中的出现频率。dl为文档d的长度,avgdl为所有待检索文档的平均长度。由于绝大部分情况下,qi在Query中只会出现一次,即qfi=1,因此,公式可以简化为:
从K的定义中可以看到,参数b的作用是调整待检索文档长度对相关性影响的大小。b越大,待检索文档长度的对相关性得分的影响越大,反之越小。而待检索文档的相对长度越长,K值将越大,则相关性得分会越小。因此,可以理解为,当待检索文档较长时,包含qi的机会越大,因此,同等fi的情况下,长文档与qi的相关性应该比短文档与qi的相关性弱。
其中,对计算得到的相关性进行加权求和,得到所述待处理实体对中第一实体与第二实体之间的第一相似度的方式也可以有很多种,例如,具体可以基于所述倒排索引列表,确定所述语素集中每个语素在所有实体对中第一实体的实体信息的出现次数;基于各个语素的出现次数,确定每个语素的权重;利用每个语素的权重,对计算得到的相关性进行加权求和,得到所述待处理实体对中第一实体与第二实体之间的第一相似度。比如,判断一个词与一个待检索文档的相关性的权重的方法可以有多种,较常用的是IDF,具体计算公式可以如下:
其中,N为索引中的全部待检索文档数,n(qi)为包含了qi的待检索文档数。
根据IDF的定义可以看出,对于给定的待检索文档集合,包含了qi的待检索文档数越多,qi的权重则越低。也就是说,当很多待检索文档都包含了qi时,qi的区分度就不高,因此,使用qi来判断相关性时的重要度就较低。
综上可以得到,基于所述倒排索引列表和所述查询信息,计算每个实体对中第一实体与第二实体之间的第一相似度,具体计算方式可以如下:
其中,计算每个实体对中第一实体与第二实体之间的第一相似度还可以利用其他的文本匹配方式,比如,TF-IDF+VSM,等等。
105、将所述第一相似度满足第一预设条件的实体对确定为所述待检测知识图谱中在目标属性上链接关系正确的实体对。
其中,第一预设条件的设定方式可以有很多种,比如,可以根据实际应用的需求灵活设置,也可以预先设置好存储在电子设备中。此外,第一预设条件可以内置于电子设备中,或者,也可以保存在存储器中并发送给电子设备,等等。比如,第一预设条件可以设置为第一相似度大于或等于某一预设阈值,如80。预设阈值的设定方式也可以根据实际应用的需求灵活设置。
在计算得到所述待检测知识图谱中在目标属性上链接关系正确的实体对之后,可以将所述待检测知识图谱中在目标属性上存在链接关系的其他实体对确定为链接关系错误的实体对。例如,具体可以将所述第一相似度不满足第一预设条件的实体对确定为所述待检测知识图谱中在目标属性上链接关系错误的实体对。
可选的,为了提高待检测知识图谱中在目标属性上链接关系的召回率,可以将链接关系正确的实体对一侧的实体与同侧的实体进行匹配,进而扩大匹配率,减少错误率,比如,可以将链接关系正确的第一实体与链接于同一第二实体的其他第一实体进行匹配,也可以将链接关系正确的第二实体与链接于同一第一实体的其他第二实体进行匹配,具体情况可以根据实际情况进行设定,在此不做限制。
例如,可以将链接关系正确的实体对中的第一实体作为目标第一实体;计算目标第一实体与候选第一实体之间的第二相似度,其中,候选第一实体为与目标第一实体链接于同一第二实体的其他第一实体;将所述第二相似度满足第二预设条件的候选第一实体、以及与目标第一实体链接的第二实体确定为所述待检测知识图谱中在目标属性上链接关系正确的实体对。比如,具体可以将链接关系正确的实体对中的第一实体确定为目标第一实体,将与目标第一实体链接于同一第二实体的其他第一实体确定为候选第一实体;对所述目标第一实体的实体信息进行语义分析,得到所述目标第一实体对应的目标查询信息;基于所述目标查询信息和候选第一实体的实体信息,计算所述目标第一实体和候选第一实体之间的第二相似度;若所述第二相似度满足第二预设条件,则将所述候选第一实体,以及与目标第一实体链接的第二实体确定为所述待检测知识图谱中在目标属性上链接关系正确的实体对。
其中,第二预设条件的设定方式可以有很多种,比如,可以根据实际应用的需求灵活设置,也可以预先设置好存储在电子设备中。此外,第二预设条件可以内置于电子设备中,或者,也可以保存在存储器中并发送给电子设备,等等。比如,第二预设条件可以设置为第二相似度大于或等于某一预设阈值,如80。预设阈值的设定方式也可以根据实际应用的需求灵活设置。其中,可以设定第一预设条件和第二预设条件相同,也可以设定第一预设条件和第二预设条件不同,在此不做限定。
例如,在计算所述目标第一实体和候选第一实体之间的第二相似度之后,可以将第二相似度不满足第二预设条件的实体对确定为链接关系错误的实体对。比如,“若所述第二相似度满足第二预设条件,将所述候选第一实体,以及与目标第一实体链接的第二实体确定为所述待检测知识图谱中在目标属性上链接关系正确的实体对”之后,还可以包括:若所述第二相似度不满足第二预设条件,将所述候选第一实体,以及与目标第一实体链接的第二实体确定为所述待检测知识图谱中在目标属性上链接关系正确的实体对
例如,在计算所述目标第一实体和候选第一实体之间的第二相似度、以及所述目标第一实体和候选第一实体之间的第二相似度之后,可以将所述待检测知识图谱中在目标属性上除链接关系正确的实体对之外的其他实体对确定为链接关系错误的实体对。比如,“若所述第二相似度满足第二预设条件,将所述候选第一实体,以及与目标第一实体链接的第二实体确定为所述待检测知识图谱中在目标属性上链接关系正确的实体对”之后,还可以包括:当所有候选第一实体计算完成时,将所述待检测知识图谱中所有在目标属性上链接关系正确的实体对添加到实体对集合中;若在目标属性上存在链接关系的实体对不在所述实体对集合中,则将不在所述实体对集合中的实体对确定为所述待检测知识图谱中在目标属性上链接关系错误的实体对。
由上可知,本实施例可以获取待检测知识图谱中至少一个实体对,每个实体对包括在目标属性上存在链接关系的第一实体和第二实体;然后,将所有实体对中第一实体的实体信息进行倒排,得到倒排索引列表;接着,分别对每个第二实体的实体信息进行语义分析,得到每个第二实体对应的查询信息;再基于所述倒排索引列表和所述查询信息,计算每个实体对中第一实体与第二实体之间的第一相似度;再然后,将所述第一相似度满足第一预设条件的实体对确定为所述待检测知识图谱中在目标属性上链接关系正确的实体对。由于该方案通过利用第一实体的实体信息构建倒排,利用第二实体的实体信息构建查询,并通过构建的倒排和查询,计算每个实体对中第一实体与第二实体之间的第一相似度,以对待检测知识图谱中实体对的链接关系进行检测,有效地提高知识图谱中实体关系检测的准确性。由于该方案主要依赖实体的实体信息进行匹配,无需过多的边关系就可以完成检测,有效地提高了检测的效率,提升了检测的便捷性。并且该方案不需要人工构建特征或使用神经网络进行表示学习,减少了计算量和人工标注成本,可以快速有效的进行错误边检测。
根据上一个实施例所描述的方法,以下将举例作进一步详细说明。
在本实施例中,将以该知识图谱中实体关系的检测装置具体集成在电子设备,第一实体具体为头实体,第二实体具体为尾实体,为例进行说明。
如图2a和图2b所示,一种知识图谱中实体关系的检测方法,具体流程可以如下:
201、电子设备获取待检测知识图谱中至少一个实体对,每个实体对包括在目标属性上存在链接关系的头实体和尾实体。
其中,实体对可以指的是在目标属性上存在链接关系的头实体和尾实体组成的对。其中,属性可以指的是事物的内部特征,头实体可以指的是在目标属性的链接关系中的一个实体,尾实体可以指的是在目标属性的链接关系中的另一个实体,比如,头尾实体可以基于目标属性的链接关系进行确定,比如,对于【作品1-作者-作者A】来说,作品1是头实体,作者A是尾实体,属性为作者;又比如,对于【作者A-作品-作品1】来说,作者A是头实体,作品1是尾实体,属性为作品,等等。
比如,电子设备可以将知识图谱中的链接关系根据属性进行划分,获取相同属性下的链接关系的头实体、头实体信息、尾实体、以及尾实体信息,比如,可以获取相同属性下的链接边关系的头实体和尾实体,以及头实体的实体信息,尾实体的实体信息。其中,实体信息可以指的是关于该实体的信息,包括但不限于实体简介、实体属性信息等等。
比如,目标属性可以为作者,则在待检测知识图谱中获取到作者属性的链接边关系的实体对可以如下:实体对1、作品1-作者-作者A;实体对2、作品2-作者-作者A;实体对3、作品3-作者-作者A;实体对4、作品4-作者-作者B;实体对5、作品5-作者-作者B。
在获取到待检测知识图谱中目标属性的多个实体对之后,可以对头实体信息构建倒排,然后将尾实体信息作为检索query(查询),也可以对尾实体信息构建倒排,然后将头实体信息构建检索query,在此不做限制。以下以对头实体信息构建倒排,然后对尾实体信息构建query为例进行说明。
202、电子设备将所有实体对中头实体的头实体信息进行倒排,得到倒排索引列表。
比如,电子设备可以将实体信息进行分词,将头实体信息作为待检索文档构建倒排,尾实体信息作为检索query。不同于一般的倒排构建,由于实体名称是一个不可切分概念,在分词的时候,不对实体词进行切分。为了提高分词的便捷性,可以将头尾实体都加入到分词词典,以最大概率保留实体本身的信息。
例如,构建倒排索引列表,电子设备具体可以将所有实体对中头实体的头实体信息进行分词,得到第一词集合;对所述第一词集合进行去重,得到去重后第一词集合;建立每个头实体的头实体信息与去重后第一词集合中每个词的映射关系,并基于所述映射关系生成倒排索引列表。比如,电子设备可以将作品1、作品2、作品3、作品4、作品5的头实体信息进行倒排,得到倒排索引列表,比如,如图2c所示。构建的详细方式可以参见上述实施例。
为了构建倒排的合理性,比如,电子设备可以将头实体属性信息以三元组拼接的方式构造头实体信息的文本。比如,【作品1-作者-作者A】拼接后为“作品1作者作者A”,得到构造后的三元组文本,作为头实体简介的补充,拼接到简介后面,与实体简介共同构成实体的实体信息。例如,电子设备具体可以获取头实体的实体描述信息和实体属性信息;对所述实体属性信息进行拼接,得到拼接后属性信息;将所述拼接后属性信息添加到实体描述信息中,得到所述头实体的头实体信息。
203、电子设备分别对每个尾实体的尾实体信息进行语义分析,得到每个尾实体对应的查询信息。
由于每个实体信息的长度不一致,用于检索的时候,query的语素长度对后续的计算相似度有很大的影响,因此,要将实体信息剪裁到一定长度(如果达不到就按照实际长度)作为查询信息(query),然后根据query中的每个词(语素)计算query和文档的相似度得分。其中,裁剪方式可以有很多种,比如,可以有以下两种方式:一种是直接定长裁剪,如:取非停用词的前50个词作为query;另一种是取信息关键词方式构建query,如:利用TFIDF进行文档关键词抽取,获取固定个数,如top(最顶端的)50的关键词作为query,主要是为了获取实体信息中比较重要的词作为query的语素。
例如,构建查询信息(即构建query),电子设备具体可以分别对每个尾实体的尾实体信息进行分词,得到每个尾实体对应的第二词集合;分别对各个第二词集合进行关键词抽取,得到每个尾实体对应的关键词集合;从每个关键词集合中筛选出预设数量的目标关键词,并将筛选出的目标关键词确定为相应尾实体对应的查询信息。其中,相应尾实体指的是筛选出的目标关键词对应的关键词集对应的尾实体。比如,电子设备可以对作者A的尾实体信息进行分词,得到作者A对应的第二词集合;对作者A的第二词集合进行关键词抽取,得到作者A对应的关键词集合;从作者A的关键词集合中筛选出预设数量的目标关键词,并将筛选出的目标关键词确定为作者A对应的查询信息。其他尾实体(如作者B)的构建方式类似。其中,可以依次对每个尾实体构建查询信息,也可以同时对多个尾实体构建查询信息。
其中,预设数量的设定方式可以有很多种,比如,可以根据实际应用的需求灵活设置,也可以预先设置好存储在电子设备中。此外,预设数量可以内置于电子设备中,或者,也可以保存在存储器中并发送给电子设备,等等。比如预设数量可以设置为50。
例如,分别对各个第二词集合进行关键词抽取,电子设备具体可以分别计算各个第二词集合中每个词的词频和每个词的逆文档频率;基于各个第二词集合中每个词的词频和逆文档频率,确定每个尾实体对应的关键词集合。比如,电子设备可以计算作者A的第二词集合中每个词的词频和每个词的逆文档频率;基于作者A的第二词集合中每个词的词频和逆文档频率,确定作者A的对应的关键词集合。其他尾实体(如作者B)的构建方式类似。其他尾实体(如作者B)的关键词抽取方式类似。其中,可以依次对每个尾实体进行关键词抽取,也可以同时对多个尾实体进行关键词抽取。
比如,可以利用词频-逆文档频率(TF-IDF)法对作者A的尾实体信息A的词集合进行关键词抽取。TF可以指的是词(或字)在尾实体信息A中出现的频率,如词(或字)在尾实体信息A中出现的次数,具体计算公式可以如下:
其中ni,j是该词在尾实体信息Adj中出现的次数,分母则是尾实体信息Adj中所有词汇出现的次数总和。即
IDF(inverse document frequency)可以指的是某个词的逆文档频率,可以由总文件数目(所有尾实体信息数目)除以包含该词语的尾实体信息的数目,再将得到的商取对数得到。如果包含词条t的尾实体信息越少,IDF越大,则说明词条具有很好的类别区分能力。具体计算公式可以如下:
其中,|D|是语料库中的尾实体信息总数。|{j:ti∈dj}|表示包含词语ti的尾实体信息数目(即ni,j≠0的文件数目)。如果该词语不在语料库中,就会导致分母为零,因此一般情况下使用1+|{j:ti∈dj}|,即:
则TF-IDF实际上是:TF*IDF,指的是某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF。因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语。即:
TF-IDF=TF*IDF
又例如,构建查询信息,电子设备具体可以分别对每个尾实体的尾实体信息进行分词,得到每个尾实体对应的第二词集合;分别对各个第二词集合中的停用词进行去除,得到每个尾实体对应的非停用词集合;从每个尾实体对应的非停用词集合中按顺序选取预设数量的非停用词,确定为相应尾实体对应的查询信息。比如,电子设备可以对作者A的尾实体信息进行分词,得到作者A对应的第二词集合;对作者A的第二词集合中的停用词进行去除,得到作者A对应的非停用词集合;从作者A对应的非停用词集合中按顺序选取预设数量的非停用词,确定为作者A对应的查询信息。其他尾实体(如作者B)的构建方式类似。其中,可以依次对每个尾实体构建查询信息,也可以同时对多个尾实体构建查询信息。
204、电子设备基于所述倒排索引列表和所述查询信息,计算每个实体对中头实体与尾实体之间的第一相似度。
例如,对于每个实体对,都可以执行如下操作:电子设备从获取到的实体对中确定待处理实体对;对所述待处理实体对中尾实体的查询信息进行语素解析,得到所述待处理实体对中尾实体的语素集;基于所有实体对中头实体的头实体信息,分别计算所述语素集中每个语素与所述待处理实体对中头实体的头实体信息之间的相关性;基于所述倒排索引列表,对计算得到的相关性进行加权求和,得到所述待处理实体对中头实体与尾实体之间的第一相似度。其中,待处理实体对可以为一对也可以为多对,也就是可以依次对每个实体对进行计算,也可以同时对多个实体对进行计算,等等。
例如,对于实体对1:作品1-作者-作者A,可以执行如下操作:电子设备从获取到的实体对中确定待处理实体对(如实体对1);对实体对1中作者A的查询信息进行语素解析,得到实体对1的语素集;基于作品1、作品2、作品3、作品4以及作品5的头实体信息,分别计算作者A的语素集中每个语素与作品1的头实体信息之间的相关性;基于所述倒排索引列表,对计算得到的相关性进行加权求和,得到实体对1中作品1和作者A之间的第一相似度。其他实体对(如实体对2、实体对3、实体对4、实体对5)的计算方式类似。其中,可以依次对每个实体对进行计算,也可以同时对多个实体对进行计算。由于在该实施例中,步骤203已经对作者A的查询信息进行分词以及定长处理,所以可以将作者A对应的筛选出的目标关键词作为作者A语素集中的语素。
比如,对于实体对1:对Query(如作者A的查询信息)进行语素解析,生成语素qi;然后,对于每个头实体的头实体信息(如作品1的头实体信息)D,计算每个语素qi与D的相关性得分,最后,将qi相对于D的相关性得分进行加权求和,从而得到Query与D的相关性得分。具体计算公式可以如下:
其中,Q表示Query,qi表示Q解析之后的一个语素(对于中文,可以把对Query的分词作为语素分析,每个词看成语素qi);d表示一个待检索文档(如作品1的头实体信息);Wi表示语素qi的权重;R(qi,d)表示语素qi与待检索文档(如作品1的头实体信息)d的相关性得分。
例如,计算所述语素集中每个语素与所述待处理实体对中头实体的头实体信息之间的相关性,具体可以基于所有实体对中头实体的头实体信息,计算所有实体对中头实体的头实体信息的平均长度,并确定待处理实体对中头实体的头实体信息的目标长度;计算所述语素集中每个语素在所述待处理实体对中头实体的头实体信息的出现频率,得到每个语素的出现频率;基于所述平均长度、目标长度、以及每个语素的出现频率,分别计算所述语素集中每个语素与所述待处理实体对中头实体的头实体信息之间的相关性。
比如,对于实体对1:可以基于作品1、作品2、作品3、作品4以及作品5的头实体信息,计算作品1、作品2、作品3、作品4以及作品5的头实体信息的平均长度,并确定作品1的头实体信息的目标长度;计算作者A的语素集中每个语素在作品1的头实体信息中的出现频率,得到每个语素的出现频率;基于所述平均长度、目标长度、以及每个语素的出现频率,分别计算作者A语素集中每个语素与作品1的头实体信息之间的相关性。
比如,语素qi与待检索文档(如作品1的头实体信息)d的相关性得分R(qi,d)的具体计算公式可以如下:
其中,k1,k2,b为调节因子,通常根据经验设置,比如,可以设置k1=2,b=0.75;fi为qi在d中的出现频率,qfi为qi在Query中的出现频率。dl为文档(如作品1的头实体信息)d的长度,avgdl为所有待检索文档(作品1、作品2、作品3、作品4以及作品5的头实体信息)的平均长度。由于绝大部分情况下,qi在Query中只会出现一次,即qfi=1,因此,公式可以简化为:
例如,步骤“基于所述倒排索引列表,对计算得到的相关性进行加权求和,得到所述待处理实体对中头实体与尾实体之间的第一相似度”,电子设备具体可以基于所述倒排索引列表,确定所述语素集中每个语素在所有实体对中头实体的头实体信息的出现次数;基于各个语素的出现次数,确定每个语素的权重;利用每个语素的权重,对计算得到的相关性进行加权求和,得到所述待处理实体对中头实体与尾实体之间的第一相似度。
比如,可以基于所述倒排索引列表,确定作者A语素集中每个语素在所有实体对中头实体的头实体信息的出现次数;基于各个语素的出现次数,确定每个语素的权重;利用每个语素的权重,对计算得到的相关性进行加权求和,得到作品1和作者A之间的第一相似度。
比如,判断一个词与一个待检索文档的相关性的权重的方法可以有多种,较常用的是IDF,具体计算公式可以如下:
其中,N为索引中的全部待检索文档数(比如作品1、作品2、作品3、作品4以及作品5的头实体信息数,即全部待检索文档数为5),n(qi)为包含了qi的待检索文档数(比如,包含了qi的待检索文档数为2)。
根据IDF的定义可以看出,对于给定的待检索文档集合,包含了qi的待检索文档数越多,qi的权重则越低。也就是说,当很多待检索文档都包含了qi时,qi的区分度就不高,因此,使用qi来判断相关性时的重要度就较低。
综上可以得到,基于所述倒排索引列表和所述查询信息,计算每个实体对中头实体与尾实体之间的第一相似度,具体计算方式可以如下:
205、电子设备将所述第一相似度满足第一预设条件的实体对确定为所述待检测知识图谱中在目标属性上链接关系正确的实体对。
其中,第一预设条件的设定方式可以有很多种,比如,可以根据实际应用的需求灵活设置,也可以预先设置好存储在电子设备中。此外,第一预设条件可以内置于电子设备中,或者,也可以保存在存储器中并发送给电子设备,等等。比如,第一预设条件可以设置为第一相似度大于或等于80。
比如,计算得到实体对1中作品1和作者A的第一相似度大于80,实体对2中作品2和作者A的第一相似度小于80,实体对3中作品3和作者A的第一相似度小于80,实体对4中作品4和作者B的第一相似度大于80,实体对5中作品5和作者B的第一相似度大于80,则实体对1、实体对4、实体对5为所述待检测知识图谱中在作者属性上链接关系正确的实体对。
206、电子设备计算目标头实体与候选头实体之间的第二相似度。
其中,可以将链接关系正确的实体对中的头实体作为目标头实体,可以将与目标头实体链接于同一尾实体的其他头实体作为候选头实体。
为了提高待检测知识图谱中在目标属性上链接关系的召回率,可以将链接关系正确的实体对一侧的实体与同侧的实体进行匹配(如分别将作品1与作品2、作品3进行匹配),进而扩大匹配率,减少错误率。比如,可以利用自助法(bootstrapping)对同属性的头实体进行匹配,减少错误边的过召回情况。
其中,在统计学中,自助法(Bootstrap Method,Bootstrapping或自助抽样法)是一种从给定训练集中有放回的均匀抽样,也就是说,每当选中一个样本,它等可能地被再次选中并被再次添加到训练集中。
例如,可以将链接关系正确的实体对中的头实体作为目标头实体(如作品1);计算目标头实体与候选头实体之间的第二相似度,其中,候选头实体为与目标头实体链接于同一尾实体的其他头实体(如作品2、作品3与作品1链接到作者A,则将作品2、作品3作为候选头实体)。
其中,第二预设条件的设定方式可以有很多种,比如,可以根据实际应用的需求灵活设置,也可以预先设置好存储在电子设备中。此外,第二预设条件可以内置于电子设备中,或者,也可以保存在存储器中并发送给电子设备,等等。比如,第二预设条件可以设置为第二相似度大于或等于80。
207、电子设备将所述第二相似度满足第二预设条件的候选头实体、以及与目标头实体链接的尾实体确定为所述待检测知识图谱中在目标属性上链接关系正确的实体对。
例如,电子设备可以将所述第二相似度满足第二预设条件的候选头实体、以及与目标头实体链接的尾实体确定为所述待检测知识图谱中在目标属性上链接关系正确的实体对。比如,作品2与作品1之间的第二相似度满足第二预设条件,则将作品2与作者A对应的实体对2确定为所述待检测知识图谱中在作者属性上链接关系正确的实体对。
比如,电子设备具体可以将链接关系正确的实体对中的头实体确定为目标头实体,将与目标头实体链接于同一尾实体的其他头实体确定为候选头实体;对所述目标头实体的头实体信息(如作品1的头实体信息)进行语义分析,得到所述目标头实体对应的目标查询信息;基于所述目标查询信息和候选头实体的头实体信息,计算所述目标头实体和候选头实体之间的第二相似度;若所述第二相似度满足第二预设条件,则将所述候选头实体,以及与目标头实体链接的尾实体确定为所述待检测知识图谱中在目标属性上链接关系正确的实体对。
208、电子设备将第一相似度不满足第一预设条件的实体对,且所述第二相似度不满足第二预设条件的实体对确定为所述待检测知识图谱中在目标属性上链接关系错误的实体对。
例如,在计算所述目标头实体和候选头实体之间的第二相似度之后,电子设备可以将第二相似度不满足第二预设条件的实体对确定为链接关系错误的实体对。比如,若所述第二相似度不满足第二预设条件,电子设备将所述候选头实体,以及与目标头实体链接的尾实体确定为所述待检测知识图谱中在目标属性上链接关系正确的实体对。比如,作品3与作品1之间的第二相似度不满足第二预设条件,则将作品2与作者A对应的实体对2确定为所述待检测知识图谱中在作者属性上链接关系错误的实体对。
例如,当所有候选头实体计算完成时,电子设备将所述待检测知识图谱中所有在目标属性上链接关系正确的实体对添加到实体对集合中;若在目标属性上存在链接关系的实体对不在所述实体对集合中,则将不在所述实体对集合中的实体对确定为所述待检测知识图谱中在目标属性上链接关系错误的实体对。比如,可以将实体对1、实体对2、实体对4、实体对5添加到实体对集合中,若在作者属性上存在链接关系的实体对(如实体对3)不在所述实体对集合中,则将实体对3确定为所述待检测知识图谱中在目标属性上链接关系错误的实体对。
比如,在步骤206、步骤207利用bootstrapping的迭代下,如果作品已经没有新的召回,说明整个检索已经收敛,则终止检索。根据作者获取的所有相关作品,与该作者已知链接作品相匹配。如果已知链接的作品不在获取的相关作品中,则判定为错误链接边关系。
其中,第一条件和第二条件的设定可以根据在验证集的表现设定,验证集可以是已知答案的数据,比如,在评估数据质量的时候,可以标注一些数据。如采样100对为作者边关系的头尾实体,判定是否是正确的,用这100对数据可以作为验证集对结果进行验证,并可以根据验证的结果来对第一条件和第二条件中的预设阈值进行调整,等等。
该方案主要针对知识图谱中,已经存在的链接边关系进行相似度匹配,来检测是否存在链接错误的问题。该方案可以快速有效的获取可能的错误边,并减少检测错误的情况,即将正确的链接边判断成错误。
比如,如下表所示,表1为添加bootstrapping检索前,在测试数据上的指标,表2为添加bootstrapping检索后,在测试数据上的指标。其中,precision为准确率,recall为召回率,f1-score是两者(即准确率和召回率)的结合,support是样本数量。由表1和表2可以看到,在增加bootstrapping检索后,正确边的准确率不变,但是召回率提高了一倍,错误边的召回微降,但是正确率提高了30%。也就是说,添加bootstrapping检索,可以在保证检测质量的前提下,大大减少了检测错误的情况。
表1、未加bootstrapping检索的指标图
precision | recall | f1-score | support | |
错误边0 | 0.53 | 0.96 | 0.69 | 83 |
正确边1 | 0.94 | 0.40 | 0.56 | 117 |
avg/total | 0.77 | 0.64 | 0.61 | 200 |
表2、增加bootstrapping检索的指标图
precision | recall | f1-score | support | |
错误边0 | 0.77 | 0.93 | 0.84 | 83 |
正确边1 | 0.94 | 0.80 | 0.87 | 117 |
avg/total | 0.87 | 0.85 | 0.86 | 200 |
其中,f1-score(F1分数),是统计学中用来衡量二分类模型精确度的一种指标。它同时兼顾了分类模型的精确率和召回率。F1分数可以看作是模型精确率和召回率的一种调和平均,它的最大值是1,最小值是0。
由上可知,本实施例可以获取待检测知识图谱中至少一个实体对,每个实体对包括在目标属性上存在链接关系的第一实体和第二实体;然后,将所有实体对中第一实体的实体信息进行倒排,得到倒排索引列表;接着,分别对每个第二实体的实体信息进行语义分析,得到每个第二实体对应的查询信息;再基于所述倒排索引列表和所述查询信息,计算每个实体对中第一实体与第二实体之间的第一相似度;再然后,将所述第一相似度满足第一预设条件的实体对确定为所述待检测知识图谱中在目标属性上链接关系正确的实体对。由于该方案通过利用第一实体的实体信息构建倒排,利用第二实体的实体信息构建查询,并通过构建的倒排和查询,计算每个实体对中第一实体与第二实体之间的第一相似度,以对待检测知识图谱中实体对的链接关系进行检测,有效地提高知识图谱中实体关系检测的准确性。由于该方案主要依赖实体的实体信息进行匹配,无需过多的边关系就可以完成检测,有效地提高了检测的效率,提升了检测的便捷性。并且该方案不需要人工构建特征或使用神经网络进行表示学习,减少了计算量和人工标注成本,可以快速有效的进行错误边检测。该方案还采用了Bootstrapping方法,不仅仅依赖头尾实体匹配,还增加了同属性间的头实体匹配,扩大匹配量,来辅助错误边检测,减少错误边的过召回情况。
为了更好地实施以上方法,相应的,本申请实施例还提供一种知识图谱中实体关系的检测装置,该知识图谱中实体关系的检测装置具体可以集成在电子设备中,该电子设备可以是服务器,也可以是终端等设备。
例如,如图3所示,该知识图谱中实体关系的检测装置可以包括获取单元301、倒排单元302、分析单元303、计算单元304和确定单元305,如下:
获取单元301,用于获取待检测知识图谱中至少一个实体对,每个实体对包括在目标属性上存在链接关系的第一实体和第二实体;
倒排单元302,用于将所有实体对中第一实体的实体信息进行倒排,得到倒排索引列表;
分析单元303,用于分别对每个第二实体的实体信息进行语义分析,得到每个第二实体对应的查询信息;
计算单元304,用于基于所述倒排索引列表和所述查询信息,计算每个实体对中第一实体与第二实体之间的第一相似度;
确定单元305,用于将所述第一相似度满足第一预设条件的实体对确定为所述待检测知识图谱中在目标属性上链接关系正确的实体对。
可选的,在一些实施例中,所述知识图谱中实体关系的检测装置还可以包括候选单元,如下:
所述候选单元,具体可以将链接关系正确的实体对中的第一实体确定为目标第一实体,将与目标第一实体链接于同一第二实体的其他第一实体确定为候选第一实体;对所述目标第一实体的实体信息进行语义分析,得到所述目标第一实体对应的目标查询信息;基于所述目标查询信息和候选第一实体的实体信息,计算所述目标第一实体和候选第一实体之间的第二相似度;若所述第二相似度满足第二预设条件,则将所述候选第一实体,以及与目标第一实体链接的第二实体确定为所述待检测知识图谱中在目标属性上链接关系正确的实体对。
可选的,在一些实施例中,所述知识图谱中实体关系的检测装置还可以包括验证单元,如下:
所述验证单元,具体可以当所有候选第一实体计算完成时,将所述待检测知识图谱中所有在目标属性上链接关系正确的实体对添加到实体对集合中;若在目标属性上存在链接关系的实体对不在所述实体对集合中,则将不在所述实体对集合中的实体对确定为所述待检测知识图谱中在目标属性上链接关系错误的实体对。
可选的,在一些实施例中,所述倒排单元302,具体可以用于将所有实体对中第一实体的实体信息进行分词,得到第一词集合;对所述第一词集合进行去重,得到去重后第一词集合;建立每个第一实体的实体信息与去重后第一词集合中每个词的映射关系,并基于所述映射关系生成倒排索引列表。
可选的,在一些实施例中,所述分析单元303可以包括分词子单元、抽取子单元和筛选子单元,如下:
所述分词子单元,可以用于分别对每个第二实体的实体信息进行分词,得到每个第二实体对应的第二词集合;
所述抽取子单元,可以用于分别对各个第二词集合进行关键词抽取,得到每个第二实体对应的关键词集合;
所述筛选子单元,可以用于从每个关键词集合中筛选出预设数量的目标关键词,并将筛选出的目标关键词确定为相应第二实体对应的查询信息。
可选的,在一些实施例中,所述抽取子单元,具体可以用于分别计算各个第二词集合中每个词的词频和每个词的逆文档频率;基于各个第二词集合中每个词的词频和逆文档频率,确定每个第二实体对应的关键词集合。
可选的,在一些实施例中,所述分析单元303,具体可以用于分别对每个第二实体的实体信息进行分词,得到每个第二实体对应的第二词集合;分别对各个第二词集合中的停用词进行去除,得到每个第二实体对应的非停用词集合;从每个第二实体对应的非停用词集合中按顺序选取预设数量的非停用词,确定为相应第二实体对应的查询信息。
可选的,在一些实施例中,所述计算单元304可以包括解析子单元、第一计算子单元和第二计算子单元,如下:
所述解析子单元,可以用于从获取到的实体对中确定待处理实体对;对所述待处理实体对中第二实体的查询信息进行语素解析,得到所述待处理实体对中第二实体的语素集;
所述第一计算子单元,可以用于基于所有实体对中第一实体的实体信息,分别计算所述语素集中每个语素与所述待处理实体对中第一实体的实体信息之间的相关性;
所述第二计算子单元,可以用于基于所述倒排索引列表,对计算得到的相关性进行加权求和,得到所述待处理实体对中第一实体与第二实体之间的第一相似度。
可选的,在一些实施例中,所述第一计算子单元,具体可以用于基于所有实体对中第一实体的实体信息,计算所有实体对中第一实体的实体信息的平均长度,并确定待处理实体对中第一实体的实体信息的目标长度;计算所述语素集中每个语素在所述待处理实体对中第一实体的实体信息的出现频率,得到每个语素的出现频率;基于所述平均长度、目标长度、以及每个语素的出现频率,分别计算所述语素集中每个语素与所述待处理实体对中第一实体的实体信息之间的相关性。
可选的,在一些实施例中,所述第二计算子单元,具体可以用于基于所述倒排索引列表,确定所述语素集中每个语素在所有实体对中第一实体的实体信息的出现次数;基于各个语素的出现次数,确定每个语素的权重;利用每个语素的权重,对计算得到的相关性进行加权求和,得到所述待处理实体对中第一实体与第二实体之间的第一相似度。
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
由上可知,本实施例可以由获取单元301获取待检测知识图谱中至少一个实体对,每个实体对包括在目标属性上存在链接关系的第一实体和第二实体;然后,由倒排单元302将所有实体对中第一实体的实体信息进行倒排,得到倒排索引列表;接着,由分析单元303分别对每个第二实体的实体信息进行语义分析,得到每个第二实体对应的查询信息;再由计算单元304基于所述倒排索引列表和所述查询信息,计算每个实体对中第一实体与第二实体之间的第一相似度;再然后,由确定单元305将所述第一相似度满足第一预设条件的实体对确定为所述待检测知识图谱中在目标属性上链接关系正确的实体对。由于该方案通过利用第一实体的实体信息构建倒排,利用第二实体的实体信息构建查询,并通过构建的倒排和查询,计算每个实体对中第一实体与第二实体之间的第一相似度,以对待检测知识图谱中实体对的链接关系进行检测,有效地提高知识图谱中实体关系检测的准确性。由于该方案主要依赖实体的实体信息进行匹配,无需过多的边关系就可以完成检测,有效地提高了检测的效率,提升了检测的便捷性。并且该方案不需要人工构建特征或使用神经网络进行表示学习,减少了计算量和人工标注成本,可以快速有效的进行错误边检测。
此外,本申请实施例还提供一种电子设备,如图4所示,其示出了本申请实施例所涉及的电子设备的结构示意图,具体来讲:
该电子设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图4中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
电子设备还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该电子设备还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,电子设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,电子设备中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:
获取待检测知识图谱中至少一个实体对,每个实体对包括在目标属性上存在链接关系的第一实体和第二实体;然后,将所有实体对中第一实体的实体信息进行倒排,得到倒排索引列表;接着,分别对每个第二实体的实体信息进行语义分析,得到每个第二实体对应的查询信息;再基于所述倒排索引列表和所述查询信息,计算每个实体对中第一实体与第二实体之间的第一相似度;再然后,将所述第一相似度满足第一预设条件的实体对确定为所述待检测知识图谱中在目标属性上链接关系正确的实体对。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
由上可知,本实施例可以获取待检测知识图谱中至少一个实体对,每个实体对包括在目标属性上存在链接关系的第一实体和第二实体;然后,将所有实体对中第一实体的实体信息进行倒排,得到倒排索引列表;接着,分别对每个第二实体的实体信息进行语义分析,得到每个第二实体对应的查询信息;再基于所述倒排索引列表和所述查询信息,计算每个实体对中第一实体与第二实体之间的第一相似度;再然后,将所述第一相似度满足第一预设条件的实体对确定为所述待检测知识图谱中在目标属性上链接关系正确的实体对。由于该方案通过利用第一实体的实体信息构建倒排,利用第二实体的实体信息构建查询,并通过构建的倒排和查询,计算每个实体对中第一实体与第二实体之间的第一相似度,以对待检测知识图谱中实体对的链接关系进行检测,有效地提高知识图谱中实体关系检测的准确性。由于该方案主要依赖实体的实体信息进行匹配,无需过多的边关系就可以完成检测,有效地提高了检测的效率,提升了检测的便捷性。并且该方案不需要人工构建特征或使用神经网络进行表示学习,减少了计算量和人工标注成本,可以快速有效的进行错误边检测。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例还提供一种存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本申请实施例所提供的任一种知识图谱中实体关系的检测方法中的步骤。例如,该指令可以执行如下步骤:
获取待检测知识图谱中至少一个实体对,每个实体对包括在目标属性上存在链接关系的第一实体和第二实体;然后,将所有实体对中第一实体的实体信息进行倒排,得到倒排索引列表;接着,分别对每个第二实体的实体信息进行语义分析,得到每个第二实体对应的查询信息;再基于所述倒排索引列表和所述查询信息,计算每个实体对中第一实体与第二实体之间的第一相似度;再然后,将所述第一相似度满足第一预设条件的实体对确定为所述待检测知识图谱中在目标属性上链接关系正确的实体对。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的指令,可以执行本申请实施例所提供的任一种知识图谱中实体关系的检测方法中的步骤,因此,可以实现本申请实施例所提供的任一种知识图谱中实体关系的检测方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本申请实施例所提供的一种知识图谱中实体关系的检测方法、装置、电子设备和存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (13)
1.一种知识图谱中实体关系的检测方法,其特征在于,包括:
获取待检测知识图谱中至少一个实体对,每个实体对包括在目标属性上存在链接关系的第一实体和第二实体;
将所有实体对中第一实体的实体信息进行倒排,得到倒排索引列表;
分别对每个第二实体的实体信息进行语义分析,得到每个第二实体对应的查询信息;
基于所述倒排索引列表和所述查询信息,计算每个实体对中第一实体与第二实体之间的第一相似度;
将所述第一相似度满足第一预设条件的实体对确定为所述待检测知识图谱中在目标属性上链接关系正确的实体对。
2.根据权利要求1所述的方法,其特征在于,所述将所述第一相似度满足第一预设条件的实体对确定为所述待检测知识图谱中在目标属性上链接关系正确的实体对之后,还包括:
将链接关系正确的实体对中的第一实体确定为目标第一实体,将与目标第一实体链接于同一第二实体的其他第一实体确定为候选第一实体;
对所述目标第一实体的实体信息进行语义分析,得到所述目标第一实体对应的目标查询信息;
基于所述目标查询信息和候选第一实体的实体信息,计算所述目标第一实体和候选第一实体之间的第二相似度;
若所述第二相似度满足第二预设条件,则将所述候选第一实体,以及与目标第一实体链接的第二实体确定为所述待检测知识图谱中在目标属性上链接关系正确的实体对。
3.根据权利要求2所述的方法,其特征在于,所述若所述第二相似度满足第二预设条件,则将所述候选第一实体,以及与目标第一实体链接的第二实体确定为所述待检测知识图谱中在目标属性上链接关系正确的实体对之后,还包括:
当所有候选第一实体计算完成时,将所述待检测知识图谱中所有在目标属性上链接关系正确的实体对添加到实体对集合中;
若在目标属性上存在链接关系的实体对不在所述实体对集合中,则将不在所述实体对集合中的实体对确定为所述待检测知识图谱中在目标属性上链接关系错误的实体对。
4.根据权利要求1所述的方法,其特征在于,所述将所有实体对中第一实体的实体信息进行倒排,得到倒排索引列表,包括:
将所有实体对中第一实体的实体信息进行分词,得到第一词集合;
对所述第一词集合进行去重,得到去重后第一词集合;
建立每个第一实体的实体信息与去重后第一词集合中每个词的映射关系,并基于所述映射关系生成倒排索引列表。
5.根据权利要求1所述的方法,其特征在于,所述分别对每个第二实体的实体信息进行语义分析,得到每个第二实体对应的查询信息,包括:
分别对每个第二实体的实体信息进行分词,得到每个第二实体对应的第二词集合;
分别对各个第二词集合进行关键词抽取,得到每个第二实体对应的关键词集合;
从每个关键词集合中筛选出预设数量的目标关键词,并将筛选出的目标关键词确定为相应第二实体对应的查询信息。
6.根据权利要求5所述的方法,其特征在于,所述分别对各个第二词集合进行关键词抽取,得到每个第二实体对应的关键词集合,包括:
分别计算各个第二词集合中每个词的词频和每个词的逆文档频率;
基于各个第二词集合中每个词的词频和逆文档频率,确定每个第二实体对应的关键词集合。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述分别对每个第二实体的实体信息进行语义分析,得到每个第二实体对应的查询信息,包括:
分别对每个第二实体的实体信息进行分词,得到每个第二实体对应的第二词集合;
分别对各个第二词集合中的停用词进行去除,得到每个第二实体对应的非停用词集合;
从每个第二实体对应的非停用词集合中按顺序选取预设数量的非停用词,确定为相应第二实体对应的查询信息。
8.根据权利要求1至6任一项所述的方法,其特征在于,所述基于所述倒排索引列表和所述查询信息,计算每个实体对中第一实体与第二实体之间的第一相似度,包括:
从获取到的实体对中确定待处理实体对;
对所述待处理实体对中第二实体的查询信息进行语素解析,得到所述待处理实体对中第二实体的语素集;
基于所有实体对中第一实体的实体信息,分别计算所述语素集中每个语素与所述待处理实体对中第一实体的实体信息之间的相关性;
基于所述倒排索引列表,对计算得到的相关性进行加权求和,得到所述待处理实体对中第一实体与第二实体之间的第一相似度。
9.根据权利要求8所述的方法,其特征在于,所述基于所有实体对中第一实体的实体信息,分别计算所述语素集中每个语素与所述待处理实体对中第一实体的实体信息之间的相关性,包括:
基于所有实体对中第一实体的实体信息,计算所有实体对中第一实体的实体信息的平均长度,并确定待处理实体对中第一实体的实体信息的目标长度;
计算所述语素集中每个语素在所述待处理实体对中第一实体的实体信息的出现频率,得到每个语素的出现频率;
基于所述平均长度、目标长度、以及每个语素的出现频率,分别计算所述语素集中每个语素与所述待处理实体对中第一实体的实体信息之间的相关性。
10.根据权利要求8所述的方法,其特征在于,所述基于所述倒排索引列表,对计算得到的相关性进行加权求和,得到所述待处理实体对中第一实体与第二实体之间的第一相似度,包括:
基于所述倒排索引列表,确定所述语素集中每个语素在所有实体对中第一实体的实体信息的出现次数;
基于各个语素的出现次数,确定每个语素的权重;
利用每个语素的权重,对计算得到的相关性进行加权求和,得到所述待处理实体对中第一实体与第二实体之间的第一相似度。
11.一种知识图谱中实体关系的检测装置,其特征在于,包括:
获取单元,用于获取待检测知识图谱中至少一个实体对,每个实体对包括在目标属性上存在链接关系的第一实体和第二实体;
倒排单元,用于将所有实体对中第一实体的实体信息进行倒排,得到倒排索引列表;
分析单元,用于分别对每个第二实体的实体信息进行语义分析,得到每个第二实体对应的查询信息;
计算单元,用于基于所述倒排索引列表和所述查询信息,计算每个实体对中第一实体与第二实体之间的第一相似度;
确定单元,用于将所述第一相似度满足第一预设条件的实体对确定为所述待检测知识图谱中在目标属性上链接关系正确的实体对。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至10中任一项所述的知识图谱中实体关系的检测方法中的步骤。
13.一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现如权利要求1至10任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110512898.0A CN113761104A (zh) | 2021-05-11 | 2021-05-11 | 知识图谱中实体关系的检测方法、装置和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110512898.0A CN113761104A (zh) | 2021-05-11 | 2021-05-11 | 知识图谱中实体关系的检测方法、装置和电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113761104A true CN113761104A (zh) | 2021-12-07 |
Family
ID=78787046
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110512898.0A Pending CN113761104A (zh) | 2021-05-11 | 2021-05-11 | 知识图谱中实体关系的检测方法、装置和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113761104A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114880406A (zh) * | 2022-05-05 | 2022-08-09 | 国网智能电网研究院有限公司 | 一种数据管理方法及装置 |
-
2021
- 2021-05-11 CN CN202110512898.0A patent/CN113761104A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114880406A (zh) * | 2022-05-05 | 2022-08-09 | 国网智能电网研究院有限公司 | 一种数据管理方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106844658B (zh) | 一种中文文本知识图谱自动构建方法及系统 | |
CN109190117B (zh) | 一种基于词向量的短文本语义相似度计算方法 | |
CN112667794A (zh) | 一种基于孪生网络bert模型的智能问答匹配方法及系统 | |
CN104199965B (zh) | 一种语义信息检索方法 | |
CN111401045B (zh) | 一种文本生成方法、装置、存储介质和电子设备 | |
CN109299280B (zh) | 短文本聚类分析方法、装置和终端设备 | |
CN111797214A (zh) | 基于faq数据库的问题筛选方法、装置、计算机设备及介质 | |
Mills et al. | Graph-based methods for natural language processing and understanding—A survey and analysis | |
KR20160026892A (ko) | 논팩토이드형 질의 응답 시스템 및 방법 | |
CN110162768B (zh) | 实体关系的获取方法、装置、计算机可读介质及电子设备 | |
CN108241613A (zh) | 一种提取关键词的方法及设备 | |
CN110134777B (zh) | 问题去重方法、装置、电子设备和计算机可读存储介质 | |
CN111291177A (zh) | 一种信息处理方法、装置和计算机存储介质 | |
CN111414763A (zh) | 一种针对手语计算的语义消歧方法、装置、设备及存储装置 | |
CN108875065B (zh) | 一种基于内容的印尼新闻网页推荐方法 | |
CN108228612B (zh) | 一种提取网络事件关键词以及情绪倾向的方法及装置 | |
CN112883182A (zh) | 一种基于机器阅读的问答匹配方法及装置 | |
CN110727769A (zh) | 语料库生成方法及装置、人机交互处理方法及装置 | |
CN110728135A (zh) | 文本主题标引方法、装置、电子设备及计算机存储介质 | |
CN108595413B (zh) | 一种基于语义依存树的答案抽取方法 | |
CN114328800A (zh) | 文本处理方法、装置、电子设备和计算机可读存储介质 | |
CN116049376B (zh) | 一种信创知识检索回复的方法、装置和系统 | |
CN110705285B (zh) | 一种政务文本主题词库构建方法、装置、服务器及可读存储介质 | |
CN113761104A (zh) | 知识图谱中实体关系的检测方法、装置和电子设备 | |
CN113392305A (zh) | 关键词的提取方法及装置、电子设备、计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |