CN109582802A - 一种实体嵌入方法、装置、介质及设备 - Google Patents

一种实体嵌入方法、装置、介质及设备 Download PDF

Info

Publication number
CN109582802A
CN109582802A CN201811457758.2A CN201811457758A CN109582802A CN 109582802 A CN109582802 A CN 109582802A CN 201811457758 A CN201811457758 A CN 201811457758A CN 109582802 A CN109582802 A CN 109582802A
Authority
CN
China
Prior art keywords
entity
target
encyclopaedia
page
target entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811457758.2A
Other languages
English (en)
Other versions
CN109582802B (zh
Inventor
夏劲夫
郑凯
段立新
江建军
李彩虹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guoxin Youe Data Co Ltd
Original Assignee
Guoxin Youe Data Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guoxin Youe Data Co Ltd filed Critical Guoxin Youe Data Co Ltd
Priority to CN201811457758.2A priority Critical patent/CN109582802B/zh
Publication of CN109582802A publication Critical patent/CN109582802A/zh
Application granted granted Critical
Publication of CN109582802B publication Critical patent/CN109582802B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种实体嵌入方法、装置、介质及设备,该方法包括:基于知识图谱中目标实体的属性信息,确定目标实体的特征向量,作为第一特征向量;从百科数据库中查找与目标实体对应的目标百科页面;确定目标实体转移至目标百科页面中各链接实体的关系转移概率,链接实体为目标百科页面中的链接对应的实体;根据关系转移概率以及该目标实体对应的跳转步数,确定目标实体的参考实体;基于目标实体及目标实体的参考实体,确定目标实体的特征向量,作为第二特征向量;将第一特征向量和第二特征向量进行组合,得到目标实体的混合特征向量。本申请提高了实体嵌入效果,使得后续知识图谱的构建和/或应用效果足够理想。

Description

一种实体嵌入方法、装置、介质及设备
技术领域
本申请涉及知识图谱处理技术领域,具体而言,涉及一种实体嵌入方法、装置、介质及设备。
背景技术
知识图谱(Knowledge Graph)作为一种新的知识表示方法和数据管理模式,在自然语言处理、问题回答、信息检索等领域有着重要的应用。知识图谱旨在描述的是真实世界中存在的实体及其关系,一般可以采用三元组表示,该三元组包括头实体、尾实体和关系,实体之间是通过关系相互联结,形成了网状的知识结构。
实体嵌入是构建知识图谱的关键技术,其主要目的是应用低维度向量对实体及其关系进行建模。目前常用的实体嵌入方法多是直接从百科数据库中查找属于特定实体的一维向量。这种方法忽略了实体之间的关系,容易出现实体嵌入的准确度较低的问题。
发明内容
有鉴于此,本申请的目的在于提供一种实体嵌入方法、装置、介质及设备,能够充分考虑实体间的关系,提高实体嵌入效果。
第一方面,本申请实施例提供了一种实体嵌入方法,包括:
基于知识图谱中目标实体的属性信息,确定所述目标实体的特征向量,作为第一特征向量;
从百科数据库中查找与所述目标实体对应的目标百科页面;
确定所述目标实体转移至所述目标百科页面中各链接实体的关系转移概率,所述链接实体为所述目标百科页面中的链接对应的实体;
根据所述关系转移概率以及该目标实体对应的跳转步数,确定所述目标实体的参考实体;
基于所述目标实体及所述目标实体的参考实体,确定所述目标实体的特征向量,作为第二特征向量;
将所述第一特征向量和所述第二特征向量进行组合,得到所述目标实体的混合特征向量。
可选的,所述确定所述目标实体转移至所述目标百科页面中各链接实体的关系转移概率,具体包括:
针对所述目标百科页面中的每个链接实体,确定该链接实体在所述目标百科页面中出现的次数与第一数值的比值,其中,所述第一数值为所有链接实体在所述目标百科页面中出现的次数的和值;
将所述比值确定为所述目标实体转移至该链接实体的关系转移概率。
可选的,所述确定所述目标实体转移至所述目标百科页面中各链接实体的关系转移概率,包括:
针对所述目标百科页面中的每个链接实体,确定该链接实体在所述目标百科页面中出现的次数与第一数值的比值,其中,所述第一数值为所有链接实体在所述目标百科页面中出现的次数的和值;
统计所述百科数据库中同时出现所述目标实体与该链接实体的百科页面数;
根据统计的百科页面数以及百科数据库中百科页面的总数量,确定所述目标实体至该链接实体的逆向关系概率;
基于所述比值和所述逆向关系概率,确定所述目标实体转移至该链接实体的关系转移概率。
可选的,所述基于所述目标实体及所述目标实体的参考实体,确定所述目标实体的特征向量,具体包括:
基于所述目标实体及所述目标实体的参考实体,构建所述目标实体对应的局部子图;
将局部子图中各实体的原向量组成目标实体对应的原向量集合;
基于所述目标实体对应的原向量集合,确定所述目标实体的特征向量。
可选的,所述从百科数据库中查找与所述目标实体对应的目标百科页面,具体包括:
针对所述百科数据库中的每个百科页面,生成该百科页面对应的页面标识;以及
获取所述知识图谱中预先存储的所述目标实体的实体标识;
查找与所述实体标识的内容相同的页面标识;
将查找到的页面标识对应的百科页面,确定为与所述目标实体对应的目标百科页面。
可选的,所述将所述第一特征向量和所述第二特征向量进行组合,得到所述目标实体的混合特征向量,具体包括:
将所述第一特征向量与所述第二特征向量的加权求和结果,确定为所述目标实体的混合特征向量。
第二方面,本申请实施例还提供了一种实体嵌入装置,包括:
第一向量确定模块,用于基于知识图谱中目标实体的属性信息,确定所述目标实体的特征向量,作为第一特征向量;
页面查找模块,用于从百科数据库中查找与所述目标实体对应的目标百科页面;
概率确定模块,用于确定所述目标实体转移至所述目标百科页面中各链接实体的关系转移概率,所述链接实体为所述目标百科页面中的链接对应的实体;
实体确定模块,用于根据所述关系转移概率以及该目标实体对应的跳转步数,确定所述目标实体的参考实体;
第二向量确定模块,用于基于所述目标实体及所述目标实体的参考实体,确定所述目标实体的特征向量,作为第二特征向量;
混合向量生成模块,用于将所述第一特征向量和所述第二特征向量进行组合,得到所述目标实体的混合特征向量。
可选的,所述概率确定模块,具体用于:
针对所述目标百科页面中的每个链接实体,确定该链接实体在所述目标百科页面中出现的次数与第一数值的比值,其中,所述第一数值为所有链接实体在所述目标百科页面中出现的次数的和值;
将所述比值确定为所述目标实体转移至该链接实体的关系转移概率。
第三方面,本申请实施例还提供了一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当所述电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述处理器执行所述机器可读指令时实现如第一方面所述的实体嵌入方法的步骤。
第四方面,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所述的实体嵌入方法的步骤。
本申请实施例提供的实体嵌入方法、装置、介质及设备,一个目标实体对应百科数据库中一个百科页面且百科页面中包括与目标实体具有一定关联关系的链接实体,通过确定目标实体跳转至相应链接实体的跳转概率以及跳转步数,确定与目标实体有一定关联关系的链接实体,根据确定出的链接实体与目标实体确定目标实体的第二特征向量,并基于目标实体的属性,确定目标实体的第一特征向量,对将第一特征向量和第二特征向量进行组合得到目标实体的混合特征向量表示,从而使得到的目标实体的特征向量综合了目标实体与链接实体之间的关系,进而能够得到较为准确的实体嵌入结果。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的一种实体嵌入方法的流程图;
图2示出了本申请实施例所提供的另一种实体嵌入方法的流程图;
图3示出了本申请实施例所提供的又一种实体嵌入方法的流程图;
图4示出了本申请实施例所提供的一种实体嵌入方法中参考实体的应用示意图;
图5示出了本申请实施例所提供的再一种实体嵌入方法的流程图;
图6示出了本申请实施例所提供的一种实体嵌入装置的结构示意图;
图7示出了本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
考虑到现有嵌入方法忽略了实体之间的关联,会出现实体嵌入的准确度较低的问题,本申请实施例提供了一种实体嵌入方法。
如图1所示,为本申请实施例提供的实体嵌入方法的流程图,该实体嵌入方法的执行主体可以是电子设备,该实体嵌入方法可以包括如下步骤:
S101、基于知识图谱中目标实体的属性信息,确定目标实体的特征向量,作为第一特征向量。
这里,知识图谱可以是Freebase知识图谱,还可以是Wordnet知识图谱,还可以是YAGO知识图谱,还可以是其他知识图谱。本申请实施例中,知识图谱中包括与各个实体相对应的属性信息,该属性信息可以是预先从百科数据库中获取的。
下面结合在线百科(如百度百科)这一应用场景来阐述上述属性信息的获取过程。以目标实体张三为例,上述属性信息可以是百度百科信息框中的相关信息,如国籍、出生地、兴趣爱好等。对于上述属性信息,本申请实施例可以从互联网网站的数据库(如百度百科数据库)精确开放的数据接口获取,还可以采用网络爬虫技术将属性信息爬取到本地的电子设备。
其中,上述目标实体可以是知识图谱中的任一实体,该任一实体可以是基于用户需求选取的实体,该目标实体可以是人物、可以是地点、还可以是其他具有实体属性的实体,本申请实施例对此不做具体的限制。
这里,可以选用Facebook研究组在AAAI2018上提出的统一嵌入模型——MCE(Multi-channel Encoder,多信道编码器)模型对上述获取目标实体的属性信息进行训练,以得到对应于该目标实体的第一特征向量。
S102、从百科数据库中查找与目标实体对应的目标百科页面。
这里可预先存储各实体与各百科页面之间的对应关系,以根据该对应关系查找到与该目标实体对应的目标百科页面。
考虑到知识图谱的建立可以来源于百科数据库包含的百科页面。本申请实施例可以首先针对百科数据库中的每个百科页面,生成该百科页面对应的页面标识,以及,获取知识图谱中预先存储的目标实体的实体标识,然后查找与实体标识的内容相同的页面标识,最后将查找到的页面标识对应的百科页面,确定为与目标实体对应的目标百科页面。
在具体实施中,对于知识图谱中的每个实体均可以对应有实体标识,对于百科数据库中的每个百科页面而言,则需要通过文本相似度分析手段(如gensim分析)为每个百科页面确定对应的页面标识,该页面标识与上述实体标识一一对应,也即,对于知识图谱中的每个实体均可以对应有相应的百科页面。这样,针对目标实体而言,可以首先从知识图谱中获取预先存储的目标实体的实体标识,然后基于上述对应关系查找与实体标识的内容相同的页面标识,最后将查找到的页面标识对应的百科页面,确定为与目标实体对应的目标百科页面。
S103、确定目标实体转移至目标百科页面中各链接实体的关系转移概率。
这里,链接实体为目标百科页面中的链接对应的实体,以张三作为目标实体,张三对应的百科页面中包括李四以及王五为例,在张三对应的百科页面中,李四和王五分别为以链接形式存在的实体,用户通过点击李四这个链接实体即可进入李四对应的百科页面,同理,用户通过点击王五这个链接实体即可进入王五对应的百科页面。
本申请实施例可以确定目标实体至相应链接实体的关系转移概率。目标实体转移至任一链接实体的关系转移概率可以由目标百科页面中的该链接实体在目标百科页面中出现的次数以及目标百科页面中所有链接实体在目标百科页面中出现的次数的和值的比值来确定,还可以由上述比值以及逆向关系概率来共同确定。其中,上述逆向关系概率由百科数据库中同时出现目标实体与该链接实体的百科页面数以及百科数据库中百科页面的总数量来确定。
S104、根据关系转移概率以及该目标实体对应的跳转步数,确定目标实体的参考实体。
本申请实施例旨在利用上述计算得到的关系转移概率确定目标实体对应的参考实体。该参考实体可以是利用随机游走产生的用于描述上述目标实体的实体,也即,该参考实体不仅可以是与目标实体直接相连的相邻实体,还可以是与目标实体间接相连的实体,例如:实体A与实体B直接相连,实体B与实体C直接相连,而实体A与实体C并不直接相连,则实体A与实体C通过实体B间接相连,此时可以称实体C为实体A的参考节点。
在具体操作时,可以通过设定预设跳转步数确定目标实体对应的参考实体,例如:设定跳转步数为1,则将与目标实体直接相连的相邻节点作为参考实体;设定跳转步数为2,则以目标实体为起点,可以将跳转一步以及两步所对应的实体作为参考实体。
S105、基于目标实体及目标实体的参考实体,确定目标实体的特征向量,作为第二特征向量。
本申请实施例中,可以采用特征向量来表征实体。由于在百科数据库中,实体可能是以文字形式进行描述的,对于原始获得的数据,为了方便计算机处理,通常需要转化为向量表示,即将实体编码到向量空间,这样每一实体都由向量空间的向量进行表示。对于原始获得的实体的初始向量化表示,即将实体映射到向量空间,可以选择常见的方法或模型,例如现有的语义映射方法等等,此处不做限制。
由于目前对实体的向量映射,并不能充分反映实体之间的关联,本申请实施例通过确定实体所对应的参考实体的方式,进行多轮迭代向量运算,得到融合参考实体的特征的实体特征向量,使得实体的原始向量表示得以优化。
S106、将第一特征向量和第二特征向量进行组合,得到目标实体的混合特征向量。
这里,将基于知识图谱确定的目标实体的第一特征向量以及基于百科数据库确定的目标实体的第二特征向量进行组合,得到对应于目标实体的混合特征向量。
本申请实施例提供的实体嵌入方法,一个目标实体对应百科数据库中一个百科页面且百科页面中包括与目标实体具有一定关联关系的链接实体,通过确定目标实体跳转至相应链接实体的跳转概率以及跳转步数,确定与目标实体有一定关联关系的链接实体,根据确定出的链接实体与目标实体确定目标实体的第二特征向量,并基于目标实体的属性,确定目标实体的第一特征向量,对将第一特征向量和第二特征向量进行组合得到目标实体的混合特征向量表示,从而使得到的目标实体的特征向量综合了目标实体与链接实体之间的关系,进而能够得到较为准确的实体嵌入结果。
本申请实施例中,关系转移概率的计算会直接影响参考实体的确认,而参考实体的确认则直接影响了目标实体的实体嵌入效果。可见,上述关系转移概率的确定过程是本申请实施例提供的实体嵌入方法中较重要的计算过程。
作为一种可能的实施方式,可按照图2提供的内容,确定关系转移概率:
S201、针对目标百科页面中的每个链接实体,确定该链接实体在目标百科页面中出现的次数与第一数值的比值,其中,第一数值为所有链接实体在目标百科页面中出现的次数的和值。
这里,对于目标百科页面中的每个链接实体,可以确定该链接实体在目标百科页面中出现的次数,还可以确定所有链接实体在目标百科页面中出现的次数的和值,然后确定次数与和值之间的比值。
S202、将比值确定为目标实体转移至该链接实体的关系转移概率。
这里,可以直接将上述确定的比值作为目标实体转移至该链接实体的关系转移概率。
本申请实施例中,上述关系转移概率可以通过如下公式确定:
其中,f(ei,ej)用于表示目标实体ej转移至目标百科页面中任一链接实体ei的关系转移概率,pi用于表示目标实体ej对应的目标百科页面中所有链接实体组成的集合,e′用于表示链接实体集合中的一个链接实体,cnt(ei,ej)用于表示任一链接实体ei在目标实体ej对应的目标百科页面中出现的次数,用于表示链接实体集合包括的所有链接实体在目标实体ej对应的目标百科页面中出现的次数的和值。
作为另一种可能的实施方式,可按照图3提供的内容,确定关系转移概率:
S301、针对目标百科页面中的每个链接实体,确定该链接实体在目标百科页面中出现的次数与第一数值的比值,其中,第一数值为所有链接实体在目标百科页面中出现的次数的和值。
这里,对于目标百科页面中的每个链接实体,可以确定该链接实体在目标百科页面中出现的次数,还可以确定所有链接实体在目标百科页面中出现的次数的和值,然后确定次数与和值之间的比值。
S302、统计百科数据库中同时出现目标实体与该链接实体的百科页面数,并根据统计的百科页面数以及百科数据库中百科页面的总数量,确定目标实体至该链接实体的逆向关系概率。
这里,可以先统计百科数据库中同时出现目标实体与该链接实体的百科页面数,然后再基于统计的百科页面数,以及百科数据库中包括的所有百科页面的总数量,确定目标实体至链接实体的逆向关系概率。
S303、基于比值和逆向关系概率,确定目标实体转移至该链接实体的关系转移概率。
这里,可以基于上述确定的次数与和值之间的比值,以及逆向关系概率之间的预设运算关系,确定目标实体转移至链接实体的关系转移概率。
为了便于对上述计算过程进一步进行理解,接下来结合如下公式进行说明。
其中,f′(ei,ej)用于表示目标实体ej转移至目标百科页面中任一链接实体ei的关系转移概率,pi用于表示在目标实体ej对应的目标百科页面中所有链接实体组成的集合,e′用于表示链接实体集合中的一个链接实体,tf用于表示链接实体在目标百科页面中出现的次数与第一数值的比值,idf(ei,ej)用于表示逆向关系概率。需要说明的是,tf的计算方式参见上述实施例中f(ei,ej)的计算方式,这里不做详述。
基于上述计算得到的各关系转移概率以及目标实体对应的跳转步数,可以确定目标实体对应的所有参考实体。本申请实施例中,从目标实体跳转至链接实体时,可根据该目标实体转移至各链接实体的关系转移概率,确定目标实体的第一级参考实体,比如,可将对应的关系转系概率最大的链接实体作为目标实体的第一级参考实体;从第一级参考实体跳转至下一链接实体时,可根据该第一级参考实体转移至该第一级参考实体对应的百科页面中的各链接实体的关系转移概率,确定目标实体的第二级参考实体,以此类推,直至达到预设的跳转步数,得到目标实体的所有参考实体。
值得说明的是,针对各级参考实体,确定该级参考实体转移至该参考实体对应的百科页面中各个链接实体的关系转移概率的计算方法与上述确定目标实体转移至相应百科页面的链接实体的关系转移概率的计算方法类似,在此不再赘述。
如图4所示,以实体e1作为目标实体、跳转步数为2进行如下示例,实体e2和实体e3作为与实体e1直接相连的链接实体,可以基于实体e1转移至实体e2的关系转移概率以及实体e1转移至实体e3的关系转移概率从实体e2和实体e3中确定出第一级参考实体,这里,可以假设第一级参考实体为实体e3,此时,可以基于该实体e3转移至实体e4、实体e5的关系转移概率,确定目标实体的第二级参考实体,这里,可以假设第二级参考实体为实体e4,这样,实体e3和实体e4即为目标实体e1的所有参考实体。
本申请实施例提供的实体嵌入方法可以基于目标实体及对应的所有参考实体,计算该目标实体的特征向量。如图5所示,上述特征向量的计算过程具体包括如下步骤:
S501、基于目标实体及目标实体的参考实体,构建目标实体对应的局部子图。
基于目标实体及其参考实体所构建的局部子图可以包含目标实体与各个参考实体之间的连接关系,且构建的局部子图是与目标实体相对应的。仍以图4为例进行说明,假设确定实体e3和实体e4即为目标实体e1的所有参考实体,则e1->e3->e4即为跳转得到的局部子图。
S502、将局部子图中各实体的原向量组成目标实体对应的原向量集合。
正如前面所述,实体由向量来表示,此处将局部子图中各个实体的原向量作为集合中的元素,将该集合作为目标实体所对应的原向量集合,从而为下一步的计算提供基础。
此处的原向量,可以是通过现有向量空间映射所得到的初始向量。
这里,将局部子图中各实体的原向量组成目标实体对应的原向量集合。当局部子图的数量是多个的时候,可以选择所有或部分局部子图,对于所选择的局部子图,将该局部子图中各实体的原向量组成原向量集合。
S503、基于目标实体对应的原向量集合,确定目标实体的特征向量。
这里,利用局部子图得到目标实体以及参考实体之间的关联关系,对得到的原向量集合进行计算,便可以确定目标实体的特征向量。由于该特征向量参考了知识图谱的局部子图结构,能够反映实体间的关系,提升实体间关系的可靠性和强度。
值得提出的是,在本申请实施例中,有关上述基于原向量集合计算实体对应的特征向量的过程可以是一个循环的迭代过程,也即,可以将本轮计算得到与实体对应的特征向量作为下一轮该实体的原向量,并可以基于确定的该原向量进行该轮特征向量的计算。
在具体应用时,可以利用实体嵌入模型(如Skip-gram模型)来实现上述迭代过程。首先可以接收多个实体的原向量集合,并基于本轮迭代所采用的实体嵌入模型的内设参数,将每个原向量集合编码为与实体对应的特征向量,然后可以将多个特征向量再返回至实体嵌入模型,并基于多个特征向量之间的相似度来确定多个实体之间的关联强度,最后可以根据确定的关联强度与已知关联强度之间的比较结果来调节实体嵌入模型的内置参数,并更新内置参数,以进行下一轮的迭代,以此类推。
本申请实施例中,基于目标实体对应的原向量集合,确定的目标实体的特征向量可以作为第二特征向量,这样,在计算得到目标实体对应的第二特征向量后,可以将该目标实体对应的第二特征向量替换表示目标实体的原向量,这样,局部子图对应的原向量集合也随之发生变化,且基于原向量集合,计算得到目标实体对应的第二特征向量也会随之发生变化。能够理解的是,对于多次迭代运算,在进行向量替换之后,本轮实体的特征向量便构成了下一轮运算时该实体的原向量,以此类推,即通过多次迭代的方式,直至得到的目标实体对应的特征向量符合预设要求,该预设要求可以是达到迭代次数,还可以是在多个实体之间的关联强度达到评分函数的评估值,还可以是其它预设要求。
值得说明的是,本申请实施例提供的实体嵌入方法可以基于预先训练好的词向量转换模型,确定各个实体的原向量。其中,上述词向量转换模型的训练方法包括首先从获取的样本实体中提取出对应的原向量,然后将样本实体作为词向量转换模型的输入,将提取的原向量作为词向量转换模型的输出,训练词向量转换模型,这样,在将目标实体或者参考实体输入至词向量转换模型后,便可以得到对应的原向量。
本申请实施例中,可以将上述知识图谱确定的目标实体的第一特征向量以及基于百科知识库确定的目标实体的第二特征向量进行加权求和,以得到对应于目标实体的混合特征向量。
这里,用于表示目标实体的混合特征向量,用于表示目标实体的第一特征向量,用于表示目标实体的第二特征向量,γ和(1-γ)用于分别表示上述第一特征向量和第二特征向量的权重。
基于同一发明构思,本申请实施例提供了一种与实体嵌入方法对应的实体嵌入装置,如图6所示,为本申请实施例所提供的实体嵌入装置的结构示意图,该实体嵌入装置包括:
第一向量确定模块601,用于基于知识图谱中目标实体的属性信息,确定目标实体的特征向量,作为第一特征向量;
页面查找模块602,用于从百科数据库中查找与目标实体对应的目标百科页面;
概率确定模块603,用于确定目标实体转移至目标百科页面中各链接实体的关系转移概率,链接实体为目标百科页面中的链接对应的实体;
实体确定模块604,用于根据关系转移概率以及该目标实体对应的跳转步数,确定目标实体的参考实体;
第二向量确定模块605,用于基于目标实体及目标实体的参考实体,确定目标实体的特征向量,作为第二特征向量;
混合向量生成模块606,用于将第一特征向量和第二特征向量进行组合,得到目标实体的混合特征向量。
在一种实施方式中,概率确定模块603,具体用于:
针对目标百科页面中的每个链接实体,确定该链接实体在目标百科页面中出现的次数与第一数值的比值,其中,第一数值为所有链接实体在目标百科页面中出现的次数的和值;
将比值确定为目标实体转移至该链接实体的关系转移概率。
在另一种实施方式中,概率确定模块603,具体用于:
针对目标百科页面中的每个链接实体,确定该链接实体在目标百科页面中出现的次数与第一数值的比值,其中,第一数值为所有链接实体在目标百科页面中出现的次数的和值;
统计百科数据库中同时出现目标实体与该链接实体的百科页面数;
根据统计的百科页面数以及百科数据库中百科页面的总数量,确定目标实体至该链接实体的逆向关系概率;
基于比值和逆向关系概率,确定目标实体转移至该链接实体的关系转移概率。
在又一种实施方式中,第二向量确定模块605,具体用于:
基于目标实体及目标实体的参考实体,构建目标实体对应的局部子图;
将局部子图中各实体的原向量组成目标实体对应的原向量集合;
基于目标实体对应的原向量集合,确定目标实体的特征向量。
在再一种实施方式中,页面查找模块602,具体用于:
针对百科数据库中的每个百科页面,生成该百科页面对应的页面标识;以及
获取知识图谱中预先存储的目标实体的实体标识;
查找与实体标识的内容相同的页面标识;
将查找到的页面标识对应的百科页面,确定为与目标实体对应的目标百科页面。
在具体实施中,混合向量生成模块606,具体用于:
将第一特征向量与第二特征向量的加权求和结果,确定为目标实体的混合特征向量。
如图7所示,为本申请实施例所提供的电子设备的装置示意图,该电子设备包括:处理器701、存储器702和总线703,存储器702存储执行指令,当电子设备运行时,处理器701与存储器702之间通过总线703通信,处理器701执行存储器702中存储的如下执行指令:
基于知识图谱中目标实体的属性信息,确定目标实体的特征向量,作为第一特征向量;
从百科数据库中查找与目标实体对应的目标百科页面;
确定目标实体转移至目标百科页面中各链接实体的关系转移概率,链接实体为目标百科页面中的链接对应的实体;
根据关系转移概率以及该目标实体对应的跳转步数,确定目标实体的参考实体;
基于目标实体及目标实体的参考实体,确定目标实体的特征向量,作为第二特征向量;
将第一特征向量和第二特征向量进行组合,得到目标实体的混合特征向量。
在一种实施方式中,上述处理器701执行的处理中,确定目标实体转移至目标百科页面中各链接实体的关系转移概率,具体包括:
针对目标百科页面中的每个链接实体,确定该链接实体在目标百科页面中出现的次数与第一数值的比值,其中,第一数值为所有链接实体在目标百科页面中出现的次数的和值;
将比值确定为目标实体转移至该链接实体的关系转移概率。
在另一种实施方式中,上述处理器701执行的处理中,确定目标实体转移至目标百科页面中各链接实体的关系转移概率,包括:
针对目标百科页面中的每个链接实体,确定该链接实体在目标百科页面中出现的次数与第一数值的比值,其中,第一数值为所有链接实体在目标百科页面中出现的次数的和值;
统计百科数据库中同时出现目标实体与该链接实体的百科页面数;
根据统计的百科页面数以及百科数据库中百科页面的总数量,确定目标实体至该链接实体的逆向关系概率;
基于比值和逆向关系概率,确定目标实体转移至该链接实体的关系转移概率。
在又一种实施方式中,上述处理器701执行的处理中,基于目标实体及目标实体的参考实体,确定目标实体的特征向量,具体包括:
基于目标实体及目标实体的参考实体,构建目标实体对应的局部子图;
将局部子图中各实体的原向量组成目标实体对应的原向量集合;
基于目标实体对应的原向量集合,确定目标实体的特征向量。
在再一种实施方式中,上述处理器701执行的处理中,从百科数据库中查找与目标实体对应的目标百科页面,具体包括:
针对百科数据库中的每个百科页面,生成该百科页面对应的页面标识;以及
获取知识图谱中预先存储的目标实体的实体标识;
查找与实体标识的内容相同的页面标识;
将查找到的页面标识对应的百科页面,确定为与目标实体对应的目标百科页面。
在具体实施中,上述处理器701执行的处理中,将第一特征向量和第二特征向量进行组合,得到目标实体的混合特征向量,具体包括:
将第一特征向量与第二特征向量的加权求和结果,确定为目标实体的混合特征向量。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器701运行时执行上述实施例提供的任一实体嵌入方法的步骤。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述实体嵌入方法的步骤。
本申请实施例所提供的实体嵌入方法的计算机程序产品,包括存储了程序代码的计算机可读存储介质,程序代码包括的指令可用于执行上述任一实体嵌入方法的步骤,具体实现可参见上述方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种实体嵌入方法,其特征在于,包括:
基于知识图谱中目标实体的属性信息,确定所述目标实体的特征向量,作为第一特征向量;
从百科数据库中查找与所述目标实体对应的目标百科页面;
确定所述目标实体转移至所述目标百科页面中各链接实体的关系转移概率,所述链接实体为所述目标百科页面中的链接对应的实体;
根据所述关系转移概率以及该目标实体对应的跳转步数,确定所述目标实体的参考实体;
基于所述目标实体及所述目标实体的参考实体,确定所述目标实体的特征向量,作为第二特征向量;
将所述第一特征向量和所述第二特征向量进行组合,得到所述目标实体的混合特征向量。
2.根据权利要求1所述的方法,其特征在于,所述确定所述目标实体转移至所述目标百科页面中各链接实体的关系转移概率,具体包括:
针对所述目标百科页面中的每个链接实体,确定该链接实体在所述目标百科页面中出现的次数与第一数值的比值,其中,所述第一数值为所有链接实体在所述目标百科页面中出现的次数的和值;
将所述比值确定为所述目标实体转移至该链接实体的关系转移概率。
3.根据权利要求1所述的方法,其特征在于,所述确定所述目标实体转移至所述目标百科页面中各链接实体的关系转移概率,包括:
针对所述目标百科页面中的每个链接实体,确定该链接实体在所述目标百科页面中出现的次数与第一数值的比值,其中,所述第一数值为所有链接实体在所述目标百科页面中出现的次数的和值;
统计所述百科数据库中同时出现所述目标实体与该链接实体的百科页面数;
根据统计的百科页面数以及百科数据库中百科页面的总数量,确定所述目标实体至该链接实体的逆向关系概率;
基于所述比值和所述逆向关系概率,确定所述目标实体转移至该链接实体的关系转移概率。
4.根据权利要求1所述的方法,其特征在于,所述基于所述目标实体及所述目标实体的参考实体,确定所述目标实体的特征向量,具体包括:
基于所述目标实体及所述目标实体的参考实体,构建所述目标实体对应的局部子图;
将所述局部子图中各实体的原向量组成目标实体对应的原向量集合;
基于所述目标实体对应的原向量集合,确定所述目标实体的特征向量。
5.根据权利要求1所述的方法,其特征在于,所述从百科数据库中查找与所述目标实体对应的目标百科页面,具体包括:
针对所述百科数据库中的每个百科页面,生成该百科页面对应的页面标识;以及
获取所述知识图谱中预先存储的所述目标实体的实体标识;
查找与所述实体标识的内容相同的页面标识;
将查找到的页面标识对应的百科页面,确定为与所述目标实体对应的目标百科页面。
6.根据权利要求1所述的方法,其特征在于,所述将所述第一特征向量和所述第二特征向量进行组合,得到所述目标实体的混合特征向量,具体包括:
将所述第一特征向量与所述第二特征向量的加权求和结果,确定为所述目标实体的混合特征向量。
7.一种实体嵌入装置,其特征在于,包括:
第一向量确定模块,用于基于知识图谱中目标实体的属性信息,确定所述目标实体的特征向量,作为第一特征向量;
页面查找模块,用于从百科数据库中查找与所述目标实体对应的目标百科页面;
概率确定模块,用于确定所述目标实体转移至所述目标百科页面中各链接实体的关系转移概率,所述链接实体为所述目标百科页面中的链接对应的实体;
实体确定模块,用于根据所述关系转移概率以及该目标实体对应的跳转步数,确定所述目标实体的参考实体;
第二向量确定模块,用于基于所述目标实体及所述目标实体的参考实体,确定所述目标实体的特征向量,作为第二特征向量;
混合向量生成模块,用于将所述第一特征向量和所述第二特征向量进行组合,得到所述目标实体的混合特征向量。
8.根据权利要求7所述的装置,其特征在于,所述概率确定模块,具体用于:
针对所述目标百科页面中的每个链接实体,确定该链接实体在所述目标百科页面中出现的次数与第一数值的比值,其中,所述第一数值为所有链接实体在所述目标百科页面中出现的次数的和值;
将所述比值确定为所述目标实体转移至该链接实体的关系转移概率。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当所述电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述处理器执行所述机器可读指令时实现如权利要求1-6任一所述的实体嵌入方法的步骤。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现如权利要求1-6任一所述的实体嵌入方法的步骤。
CN201811457758.2A 2018-11-30 2018-11-30 一种实体嵌入方法、装置、介质及设备 Active CN109582802B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811457758.2A CN109582802B (zh) 2018-11-30 2018-11-30 一种实体嵌入方法、装置、介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811457758.2A CN109582802B (zh) 2018-11-30 2018-11-30 一种实体嵌入方法、装置、介质及设备

Publications (2)

Publication Number Publication Date
CN109582802A true CN109582802A (zh) 2019-04-05
CN109582802B CN109582802B (zh) 2020-11-03

Family

ID=65926758

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811457758.2A Active CN109582802B (zh) 2018-11-30 2018-11-30 一种实体嵌入方法、装置、介质及设备

Country Status (1)

Country Link
CN (1) CN109582802B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110427436A (zh) * 2019-07-31 2019-11-08 北京百度网讯科技有限公司 实体相似度计算的方法及装置
CN111241241A (zh) * 2020-01-08 2020-06-05 平安科技(深圳)有限公司 基于知识图谱的案件检索方法、装置、设备及存储介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7117434B2 (en) * 2001-06-29 2006-10-03 International Business Machines Corporation Graphical web browsing interface for spatial data navigation and method of navigating data blocks
US20120330649A1 (en) * 2009-07-01 2012-12-27 International Business Machines Corporation Systems and methods for extracting patterns from graph and unstructured data
CN103593792A (zh) * 2013-11-13 2014-02-19 复旦大学 一种基于中文知识图谱的个性化推荐方法与系统
US8811188B1 (en) * 2006-06-05 2014-08-19 Purdue Research Foundation Protocol for secure and energy-efficient reprogramming of wireless multi-hop sensor networks
US20160239653A1 (en) * 2015-02-13 2016-08-18 Yoti Ltd Digital identity
US20170024486A1 (en) * 2015-07-24 2017-01-26 Spotify Ab Automatic artist and content breakout prediction
CN106503035A (zh) * 2016-09-14 2017-03-15 海信集团有限公司 一种知识图谱的数据处理方法和装置
CN106776711A (zh) * 2016-11-14 2017-05-31 浙江大学 一种基于深度学习的中文医学知识图谱构建方法
US20180137155A1 (en) * 2015-03-24 2018-05-17 Kyndi, Inc. Cognitive memory graph indexing, storage and retrieval
CN108304933A (zh) * 2018-01-29 2018-07-20 北京师范大学 一种知识库的补全方法及补全装置
CN108595708A (zh) * 2018-05-10 2018-09-28 北京航空航天大学 一种基于知识图谱的异常信息文本分类方法
CN108604315A (zh) * 2015-12-30 2018-09-28 脸谱公司 使用深度学习模型识别实体
CN108875053A (zh) * 2018-06-28 2018-11-23 国信优易数据有限公司 一种知识图谱数据处理方法及装置

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7117434B2 (en) * 2001-06-29 2006-10-03 International Business Machines Corporation Graphical web browsing interface for spatial data navigation and method of navigating data blocks
US8811188B1 (en) * 2006-06-05 2014-08-19 Purdue Research Foundation Protocol for secure and energy-efficient reprogramming of wireless multi-hop sensor networks
US20120330649A1 (en) * 2009-07-01 2012-12-27 International Business Machines Corporation Systems and methods for extracting patterns from graph and unstructured data
CN103593792A (zh) * 2013-11-13 2014-02-19 复旦大学 一种基于中文知识图谱的个性化推荐方法与系统
US20160239653A1 (en) * 2015-02-13 2016-08-18 Yoti Ltd Digital identity
US20180137155A1 (en) * 2015-03-24 2018-05-17 Kyndi, Inc. Cognitive memory graph indexing, storage and retrieval
US20170024486A1 (en) * 2015-07-24 2017-01-26 Spotify Ab Automatic artist and content breakout prediction
CN108604315A (zh) * 2015-12-30 2018-09-28 脸谱公司 使用深度学习模型识别实体
CN106503035A (zh) * 2016-09-14 2017-03-15 海信集团有限公司 一种知识图谱的数据处理方法和装置
CN106776711A (zh) * 2016-11-14 2017-05-31 浙江大学 一种基于深度学习的中文医学知识图谱构建方法
CN108304933A (zh) * 2018-01-29 2018-07-20 北京师范大学 一种知识库的补全方法及补全装置
CN108595708A (zh) * 2018-05-10 2018-09-28 北京航空航天大学 一种基于知识图谱的异常信息文本分类方法
CN108875053A (zh) * 2018-06-28 2018-11-23 国信优易数据有限公司 一种知识图谱数据处理方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
AIUOINEHORDES等: "Translating embed出打gsformodeling multi-relational data", 《ADVANCESINNEURALINFORMATIONPROCESSINGSYSTEMS》 *
ALBERTOPACCANARO等: "Learningdistributedrepresentationsofconcepts usinglinear", 《KNOWLEDGEANDDATAENGINEERING,IEEETRANSACTIONSON》 *
虞盛康: "面向互联网数据的知识表达与推理", 《中国博士学位论文全文数据库 信息科技辑》 *
韩明皓: "基于知识图谱的关系推理算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110427436A (zh) * 2019-07-31 2019-11-08 北京百度网讯科技有限公司 实体相似度计算的方法及装置
CN110427436B (zh) * 2019-07-31 2022-03-22 北京百度网讯科技有限公司 实体相似度计算的方法及装置
CN111241241A (zh) * 2020-01-08 2020-06-05 平安科技(深圳)有限公司 基于知识图谱的案件检索方法、装置、设备及存储介质
CN111241241B (zh) * 2020-01-08 2024-05-31 平安科技(深圳)有限公司 基于知识图谱的案件检索方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN109582802B (zh) 2020-11-03

Similar Documents

Publication Publication Date Title
CN105893349B (zh) 类目标签匹配映射方法及装置
CN110825884B (zh) 基于人工智能的嵌入表示处理方法、装置及电子设备
WO2022218186A1 (zh) 个性化知识图谱的生成方法、装置及计算机设备
CN103678436B (zh) 信息处理系统和信息处理方法
US10713429B2 (en) Joining web data with spreadsheet data using examples
CN110134885B (zh) 一种兴趣点推荐方法、装置、设备以及计算机存储介质
JP7457125B2 (ja) 翻訳方法、装置、電子機器及びコンピュータプログラム
CN106202224B (zh) 搜索处理方法及装置
CN102135983A (zh) 基于网络用户行为的群体划分方法和装置
CN106599280B (zh) 确定网页节点路径信息的方法及装置
Csigi et al. Geometric explanation of the rich-club phenomenon in complex networks
CN110221959A (zh) 应用程序的测试方法、设备以及计算机可读介质
CN109582802A (zh) 一种实体嵌入方法、装置、介质及设备
CN105468654A (zh) 一种选定数字资源的阅读范围的方法及系统
CN113704420A (zh) 文本中的角色识别方法、装置、电子设备及存储介质
KR20210121921A (ko) 키워드 공동출현 네트워크를 기반으로 핵심 키워드를 추출하는 방법 및 장치
CN103885767A (zh) 用于地理区域相关网站的系统和方法
CN110209780A (zh) 一种问题模板生成方法、装置、服务器及存储介质
KR101494795B1 (ko) 문서를 매트릭스로 표현하는 방법
Dworzański et al. On compositionality of boundedness and liveness for nested Petri nets
CN107870862A (zh) 新控件预测模型的构建方法、遍历测试方法和计算设备
KR101331453B1 (ko) 연관어를 이용한 확장 키워드 검색 광고 방법
Smirnov Geographic space: an ancient story retold
CN106599305A (zh) 一种基于众包的异构媒体语义融合方法
JP2024507029A (ja) ウェブページ識別方法、装置、電子機器、媒体およびコンピュータプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100070, No. 101-8, building 1, 31, zone 188, South Fourth Ring Road, Beijing, Fengtai District

Applicant after: Guoxin Youyi Data Co., Ltd

Address before: 100070, No. 188, building 31, headquarters square, South Fourth Ring Road West, Fengtai District, Beijing

Applicant before: SIC YOUE DATA Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant