CN113297854A - 文本到知识图谱实体的映射方法、装置、设备及存储介质 - Google Patents

文本到知识图谱实体的映射方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113297854A
CN113297854A CN202110848694.4A CN202110848694A CN113297854A CN 113297854 A CN113297854 A CN 113297854A CN 202110848694 A CN202110848694 A CN 202110848694A CN 113297854 A CN113297854 A CN 113297854A
Authority
CN
China
Prior art keywords
entity
word
knowledge graph
vector
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110848694.4A
Other languages
English (en)
Inventor
黄宇翔
王健宗
倪子凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202110848694.4A priority Critical patent/CN113297854A/zh
Publication of CN113297854A publication Critical patent/CN113297854A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks

Abstract

本申请涉及文本语义处理领域,具体涉及文本到知识图谱实体的映射方法、装置、设备及存储介质,通过对知识图谱进行拓展和构建向量空间实现了文本到实体的映射。从预设的语料库中获取知识图谱中的实体的描述性文本并将其用于对知识图谱进行拓展。以拓展知识图谱中的实体作为起始节点通过随机游走得到预设数量个预设长度的随机游走序列,将其输入Skip‑Gram模型对模型进行训练。将知识图谱中的实体输入训练好的Skip‑Gram模型输出的实体词向量并与模型的参数生成知识图谱向量空间。将待映射的文本输入Multi‑Sense LSTM模型得到的预测词向量在向量空间中确定最接近的实体词向量,根据最接近的实体词向量确定映射的实体。

Description

文本到知识图谱实体的映射方法、装置、设备及存储介质
技术领域
本申请涉及互联网技术领域,尤其涉及一种文本到知识图谱实体的映射方法、装置、计算机设备及存储介质。
背景技术
在自然语言处理领域,常常需要将自然语言的语句和文本对应到相关的动作、概念或者知识中。知识图谱作为是语义网络的知识库,若将文本和知识图谱中的实体关联则可以完成问答、信息检索等任务。将文本映射到知识图谱实体的目的是对文本的重点进行简洁的表述。例如,输入文本“无法入睡,太累以致无法思考”将映射到医学知识图谱中的“失眠”实体。现有技术未考虑利用文本特征改善实体向量。
发明内容
本申请提供了一种文本到知识图谱实体的映射方法、装置、计算机设备及存储介质,通过获取知识图谱实体的描述性文本对知识图谱进行了拓展,并将知识图谱所转化的向量空间作为文本映射到实体的目标,有效地实现了文本到实体的映射。
第一方面,本申请提供了一种文本到知识图谱实体的映射方法,所述方法包括:
针对知识图谱中的实体,从预设的语料库中获取所述实体的描述性文本,根据所述描述性文本对所述知识图谱进行拓展,得到拓展知识图谱;
以所述拓展知识图谱中的实体为起始节点,通过随机游走得到预设数量个预设长度的随机游走序列;
将所述随机游走序列输入Skip-Gram模型,对所述Skip-Gram模型进行训练,得到训练好的Skip-Gram模型,将所述知识图谱中的实体输入所述训练好的Skip-Gram模型,输出实体词向量;
根据所述实体词向量和所述训练好的Skip-Gram模型的参数生成知识图谱向量空间;
将待映射的文本输入训练好的Multi-Sense LSTM模型,得到第一预测词向量;
根据所述第一预测词向量在所述知识图谱向量空间中确定最接近的实体词向量,根据所述最接近的实体词向量确定所述待映射的文本映射的知识图谱实体。
第二方面,本申请还提供了一种文本到知识图谱实体的映射装置,所述装置包括:
知识图谱拓展模块,用于针对知识图谱中的实体,从预设的语料库中获取所述实体的描述性文本,根据所述描述性文本对所述知识图谱进行拓展,得到拓展知识图谱;
随机游走序列生成模块,用于以所述拓展知识图谱中的实体为起始节点,通过随机游走得到预设数量个预设长度的随机游走序列;
实体词向量生成模块,用于将所述随机游走序列输入Skip-Gram模型,对所述Skip-Gram模型进行训练,得到训练好的Skip-Gram模型,将所述知识图谱中的实体输入所述训练好的Skip-Gram模型,输出实体词向量;
知识图谱向量空间生成模块,用于根据所述实体词向量和所述训练好的Skip-Gram模型的参数生成知识图谱向量空间;
预测词向量生成模块,用于将待映射的文本输入训练好的Multi-Sense LSTM模型,得到预测词向量;
实体映射模块,用于根据所述预测词向量在所述知识图谱向量空间中确定最接近的实体词向量,根据所述最接近的实体词向量确定所述待映射的文本映射的知识图谱实体。
第三方面,本申请还提供了一种计算机设备,所述计算机设备包括存储器和处理器;所述存储器用于存储计算机程序;所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现如上述的文本到知识图谱实体的映射方法。
第四方面,本申请还提供了一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如上述的文本到知识图谱实体的映射方法。
本申请公开了一种文本到知识图谱实体的映射方法、装置、计算机设备及存储介质。首先通过获取知识图谱中的实体的描述性文本对知识图谱进行拓展,而后针对拓展后的知识图谱基于Skip-Gram模型生成知识图谱向量空间,将待映射的文本通过训练好的Multi-Sense LSTM模型转化为知识图谱向量空间中的向量,根据所述待映射文本所转化为的向量在知识图谱向量空间中确定最接近的实体词向量,并根据最接近的实体词向量确定待映射的文本映射的知识图谱实体,从而实现了文本到知识图谱实体的映射。实验证明使用知识图谱空间向量作为将文本映射到知识图谱实体的目标是一种有效的文本到实体的方法。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请的实施例提供的一种文本到知识图谱实体的映射方法的示意流程图;
图2为本申请的实施例提供的一种文本到知识图谱实体的映射装置的示意性框图;
图3为本申请的实施例提供的一种计算机设备的结构示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进理解,在本申请说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
知识图谱(Knowledge Graph)于2012年由Google最先提出,其基本理念就是将网络中存在的多源异构数据进行实体、属性与关系的抽取,以属性来描述实体,以实体间的关系刻画客观存在的事实(即客观存在的知识)。最终这些实体、属性与关系都将以图的形式进行存储形成一张丰富的知识图谱,并在此基础上实现基于图的查询与分析,进而为用户提供更智能、更丰富的知识获取、挖掘与搜索服务。
在自然语言处理领域,常常需要将自然语言的语句和文本对应到相关的动作、概念或者知识中。知识图谱作为是语义网络的知识库,若将文本和知识图谱中的实体关联则可以完成问答、信息检索等任务。将文本映射到知识图谱实体的目的是对文本的重点进行简洁的表述。现有技术一方面未考虑利用文本特征改善实体向量的知识图谱,另一方面对待映射文本歧义的消除也是一项重要的工作,通常被作为模型前的独立步骤。
本申请的实施例提供了一种文本到知识图谱实体的映射方法、装置、计算机设备及存储介质。其中,该文本到知识图谱实体的映射方法可以应用于服务器中,通过对知识图谱通过实体的文字性描述进行拓展和构建知识图谱向量空间,实现了文本到知识图谱实体的映射。其中,该服务器可以为独立的服务器,也可以为服务器集群。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
请参阅图1,图1是本申请的实施例提供的一种文本到知识图谱实体的映射方法的示意流程图。该文本到知识图谱实体的映射方法可应用于服务器中,通过对知识图谱通过实体的文字性描述进行拓展和构建知识图谱向量空间,实现了文本到知识图谱实体的映射。
如图1所示,该文本到知识图谱实体方法具体包括步骤S101至步骤S106。
S101、针对知识图谱中的实体,从预设的语料库中获取所述实体的描述性文本,根据所述描述性文本对所述知识图谱进行拓展,得到拓展知识图谱。
具体的,对于知识图谱中的实体,从预设的语料库中获取该实体的描述性文本,描述性文本具体为在预设的语料库中针对该实体的解释或定义。
对所获得的描述性文本基于分词算法进行分词得到第一词集合,需要说明的是:对于英文的描述性文本,词集合由英文单词组成;对于中文的描述性文本,词集合为中文词组组成。
对第一词集合中的每个词计算TF-IDF值,将第一词集合中的每个词加入知识图谱作为对应的实体的文字属性节点,并根据每个词的TF-IDF值确定该文字属性节点对该实体的关系权重。
TF-IDF(term frequency–inverse document frequency,词频-逆向文件频率)是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。如果某个单词在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。
TF是词频,表示词条在文本中出现的频率,公式表征为:
Figure 900260DEST_PATH_IMAGE001
其中,
Figure 50619DEST_PATH_IMAGE002
是某个词语在该实体相关的描述性文本中出现的次数,分母则是在该实体相关的描述性文本中其他词出现的次数总和。
IDF是逆向文件频率,某个词语的IDF,可以由总文件数目除以包含该词语的文件的数目,再将得到的商取对数得到,公式表征为:
Figure DEST_PATH_IMAGE003
其中,
Figure 255335DEST_PATH_IMAGE004
是该实体所对应的描述性文本总数,
Figure DEST_PATH_IMAGE005
表示包含词语
Figure 18017DEST_PATH_IMAGE006
的描述性文本的数目(即
Figure 483634DEST_PATH_IMAGE007
的文件数目)。
如果包含词的描述性文本越少, IDF越大,则说明该词具有很好的类别区分能力。TF-IDF实际上是TF * IDF,某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF。因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语,公式表征为:
Figure 883522DEST_PATH_IMAGE008
示例性的,对于知识图谱中的一个实体,从大型词典中例如:WordNet, Wikipedia等库中获取对该实体的描述性文本
Figure 90381DEST_PATH_IMAGE009
,并对描述性文本
Figure 233918DEST_PATH_IMAGE010
中的每个单词t赋予TF-IDF值以表征对应边
Figure 22882DEST_PATH_IMAGE011
的权重,形成该实体的文字属性特征集。
对知识图谱中的每一个实体都进行如上的拓展操作,得到了拓展知识图谱。
S102、以所述拓展知识图谱中的实体为起始节点,通过随机游走得到预设次数个预设长度的随机游走序列。
具体的,以拓展知识图谱中的实体为起始节点,在所述拓展知识图谱中进行随机游走得到随机游走序列,所述随机游走序列的长度为预设长度。
从所述随机游走的当前节点行走到的与所述当前节点相邻的节点是根据概率分布来确定的,所述概率分布公式表征为:
Figure 983885DEST_PATH_IMAGE012
式中,N为在所述知识图谱中与所述当前节点相连的实体节点的数量,
Figure 615724DEST_PATH_IMAGE013
表示与所述当前节点相连的实体节点集合,M为所述当前节点所包含的文字属性节点的数量,
Figure 156426DEST_PATH_IMAGE014
表示当前节点的文字属性节点集合,
Figure 65477DEST_PATH_IMAGE015
为预设的比例系数,用以表征随机游走对文字属性节点的偏好。
将所述拓展知识图谱中的实体为起始节点,在所述拓展知识图谱中进行随机游走得到随机游走序列,所述随机游走序列的长度为预设长度。
参数λ可以根据任务自定义,本申请对此不作限定,在文本-实体映射和反向词典任务中,λ值越大,在随机游走过程中引入的文本特征越多,结果越准确。
示例性的,当λ取0时,随机游走序列只包含实体节点;当λ取1时,随机游走序列中实体节点和文字属性节点交替出现。
随机游走序列的长度也可以根据任务和场景自行设定,本申请对此不作限定。
示例性的,例如将随机游走序列的长度设为20,那么通过每一次随机游走会输出节点总数为20的随机游走序列。
在一些实施例中,将所述拓展知识图谱中的实体为起始节点,在所述拓展知识图谱中进行预设次数随机游走,得到预设次数个预设长度的随机游走序列。由于每一次随机游走都是概率分布,因此针对同一个实体作为起始节点,重复进行随机游走,能得到不同的随机游走序列。
示例性的,将预设次数取10,对于知识图谱中的每个实体,以该实体为起始节点,通过10次随机游走会输出10个随机游走序列。
对知识图谱中的每一个实体,以该实体作为起始节点,通过随机游走,得到预设数量个预设长度的随机游走序列,该随机游走序列中包含与该实体相关性比较大的实体节点和/或文字属性节点。
通过用文字属性节点充当实体之间的链接,可以使知识图谱中两个不相关的实体可能以某种方式彼此关联,增强图的连贯性。另外利用文字属性节点与为其分配的矢量形成的一组锚点,将文本与知识图谱空间链接在一起,可以用于支持文本到实体的映射的训练过程。
S103、将所述随机游走序列输入Skip-Gram模型,对所述Skip-Gram模型进行训练,得到训练好的Skip-Gram模型,将所述知识图谱中的实体输入所述训练好的Skip-Gram模型,输出实体词向量。
具体的,将基于拓展知识图谱进行随机游走得到的随机游走序列作为Skip-Gram模型的输入,对Skip-Gram模型进行训练,Skip-Gram模型的目标是预测文本中某个词上下文可能出现的词。Skip-Gram模型是将文本转化为词向量的一种word2vector模型。
在训练时,对于一个随机游走序列
Figure 666222DEST_PATH_IMAGE016
,给定预设窗长c,在训练的时候窗口中心词
Figure 536089DEST_PATH_IMAGE017
为已知的词,而
Figure 880483DEST_PATH_IMAGE017
在序列中的前c个和后c个词则被盖住,这些盖住的词就是Skip-Gram模型需要预测的词,可以用条件概率
Figure 644040DEST_PATH_IMAGE018
表示,概率越大就表示这个词是中心词
Figure 681266DEST_PATH_IMAGE017
前后词的可能性越大。
因为需要对序列中的每一个词都进行预测,每个词都有一个条件概率,把这些条件概率相乘就是这个中心词前后词的预测概率,转化成log就是相加,由于中心词可以是序列中的任意一个词,所以Skip-Gram模型的优化目标就是两个求和结果的最大化,第一个求和表示把输入的随机序列中每一个词都分别当作中心词所得到的条件概率求和,第二个求和表示给定了中心词后,预测这一中心词前后c个词的预测结果的条件概率求和。当两个条件概率的求和结果大于预设阈值时,得到训练好的Skip-Gram模型。
条件概率求和公式表征为:
Figure 290626DEST_PATH_IMAGE019
其中,T为输入的随机游走序列的长度,c为窗长,
Figure 438711DEST_PATH_IMAGE017
为已知词。
得到训练好的Skip-Gram模型之后,将知识图谱中的实体输入训练好的Skip-Gram模型,得到每个实体转化的词向量。
S104、根据所述实体词向量和所述训练好的Skip-Gram模型的参数生成知识图谱向量空间。
具体的,将知识图谱实体通过训练好的Skip-Gram模型生成的实体词向量和训练好的Skip-Gram模型的参数,用于构建知识图谱向量空间。
根据知识图谱实体转化的词向量与训练好的Skip-Gram模型的参数生成知识图谱向量空间,该知识图谱向量空间不仅能反映实体间的关联性,还包含了指向该实体的描述性文本所表达的信息。在知识图谱向量空间中,距离越近的点相关性越大。
S105、将待映射的文本输入训练好的Multi-Sense LSTM模型,得到第一预测词向量。
本申请提供的Multi-Sense LSTM(长短期记忆网络)模型包括一个通用词嵌入层、一个词义消歧层和二层LSTM网络。
首先需要得到训练好的Multi-Sense LSTM模型。具体的,将带实体标签的文本输入所述Multi-Sense LSTM模型,得到第二预测词向量;将所述文本对应的实体输入所述训练好的Skip-Gram模型,输出目标词向量;根据所述第二预测词向量和所述目标词向量之间的均方误差值优化所述Multi-Sense LSTM模型的参数;当所述第二预测词向量和所示目标词向量之间的均方误差值小于预设阈值时,得到训练好的Multi-Sense LSTM模型。
第二预测词向量和所示目标词向量之间的均方误差的计算公式表征为:
Figure 56774DEST_PATH_IMAGE020
其中,
Figure 140267DEST_PATH_IMAGE021
为所输入文本对应的实体生成的目标词向量,
Figure 843781DEST_PATH_IMAGE022
为对输入的文本生成的第二预测词向量。
然后,所述待映射的文本输入训练好的Multi-Sense LSTM模型,得到第一预测词向量。具体的,将所述待映射的文本进行分词得到第二词集合;将所述第二词集合中的词输入所述通用词嵌入层得到所述词的通用向量;将所述第二词集合中的词输入所述词义消歧层得到所述词的多个有义向量,其中,所述有义向量的数量为预先通过所述词义消歧层设置的数量;根据所述第二词集合中除所述词之外的其他词的通用向量的平均值,确定所述词的上下文向量;通过带有softmax层的注意力网络对所述多个有义向量进行加权运算得到所述词的有义向量加权和;将所述第二词集合中的所有词的通用向量、上下文向量以及有义向量加权和输入所述二层LSTM网络,得到所述第一预测词向量。
需要说明的是,有义向量的个数根据任务预先设定,本申请对此不作限定。
示例性的,当预设数量取值为3时,每个词输入词义消歧层输出3个有义向量。
具体的,LSTM网络的输入包含三部分:词的通用向量、词的上下文向量、词的预设数量个有义向量的加权和。其中词的通用向量由通用词嵌入层生成,词的上下文向量为带映射文本中其他词的通用向量的平均值,词的预设数量个有义向量的加权和由带有softmax层的注意力网络得到给定概率的有义向量的加权总和,其中有义向量的概率表示为:
Figure 529978DEST_PATH_IMAGE023
Figure 268126DEST_PATH_IMAGE024
式中,W和U是为注意力网络的参数,
Figure 771789DEST_PATH_IMAGE025
为词的上下文向量,
Figure 228178DEST_PATH_IMAGE026
为词的有义向量。
有义向量通过引入上下文向量更新向量权重,向量权重表征为和特定含义的相似程度。
Figure 718065DEST_PATH_IMAGE027
将待映射文本所分的每个词都得到词的通用向量、上下文向量、有义向量的加权和,将其输入二层的LSTM网络,得到待映射文本的预测的词向量。
Multi-Sense LSTM模型的目标是将待映射文本转化为知识图谱向量空间中一个与实体或概念相近的点,从而能够实现文本到对应实体的映射。进一步的,通过在LSTM模型中引入注意力机制很好地解决了词的多义性问题,从而实现对待映射文本的词义消歧。
S106、根据所述第一预测词向量在所述知识图谱向量空间中确定最接近的实体词向量,根据所述最接近的实体词向量确定所述待映射的文本映射的知识图谱实体。
在构建的知识图谱向量空间中,节点相似度越高,距离越近。因此通过将待映射文本通过训练好的Multi-Sense LSTM模型得到的第一预测词向量在知识图谱向量空间中确定最接近的实体向量,根据最接近的实体向量确定该文本映射的实体。
本申请通过获取知识图谱实体的描述性文本,对描述性文本进行分词,并将分词的结果作为知识图谱实体的属性节点加入知识图谱,对知识图谱进行了拓展。通过以知识图谱实体为起始节点随机游走得到的序列对Skip-Gram模型进行训练,训练得到的Skip-Gram模型的参数及知识图谱实体的词向量构成知识图谱的向量空间。将输入的待映射的文本转换为知识图谱向量空间中的点,可以实现文本到实体的映射。同名问题通过对量空间中的点建立对应的概念或者同义词集解决,在LSTM模型中引入注意力机制很好地解决了词的多义性问题,实验证明使用知识图谱空间向量作为将文本映射到知识图谱实体的目标是一种有效的方法。
请参阅图2,图2是本申请的实施例提供一种文本到知识图谱实体的映射装置的示意性框图,该文本到知识图谱实体的映射装置用于执行前述的文本到知识图谱实体的映射方法。其中,该文本到知识图谱实体的映射装置可以配置于服务器。
如图2所示,该文本到知识图谱实体的映射装置400,包括:
知识图谱拓展模块401,用于针对知识图谱中的实体,从预设的语料库中获取所述实体的描述性文本,根据所述描述性文本对所述知识图谱进行拓展,得到拓展知识图谱;
随机游走序列生成模块402,用于以所述拓展知识图谱中的实体为起始节点,通过随机游走得到预设数量个预设长度的随机游走序列;
实体词向量生成模块403,用于将所述随机游走序列输入Skip-Gram模型,对所述Skip-Gram模型进行训练,得到训练好的Skip-Gram模型,将所述知识图谱中的实体输入所述训练好的Skip-Gram模型,输出实体词向量;
知识图谱向量空间生成模块404,用于根据所述实体词向量和所述训练好的Skip-Gram模型的参数生成知识图谱向量空间;
预测词向量生成模块405,用于将待映射的文本输入训练好的Multi-Sense LSTM模型,得到预测词向量;
实体映射模块406,用于根据所述预测词向量在所述知识图谱向量空间中确定最接近的实体词向量,根据所述最接近的实体词向量确定所述待映射的文本映射的知识图谱实体。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和各模块的具体工作过程,可以参考前述文本到知识图谱实体的映射方法实施例中的对应过程,在此不再赘述。
上述的装置可以实现为一种计算机程序的形式,该计算机程序可以在如图3所示的计算机设备上运行。
请参阅图3,图3是本申请的实施例提供的一种计算机设备的结构示意性框图。该计算机设备可以是服务器。
参阅图3,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口,其中,存储器可以包括存储介质和内存储器。
存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令,该程序指令被执行时,可使得处理器执行任意一种文本到知识图谱实体的映射方法。
处理器用于提供计算和控制能力,支撑整个计算机设备的运行。
内存储器为存储介质中的计算机程序的运行提供环境,该计算机程序被处理器执行时,可使得处理器执行任意一种文本到知识图谱实体的映射方法。
该网络接口用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
应当理解的是,处理器可以是中央处理单元 (Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor,DSP)、专用集成电路 (Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
其中,在一个实施例中,所述处理器用于运行存储在存储器中的计算机程序,以实现如下步骤:
针对知识图谱中的实体,从预设的语料库中获取所述实体的描述性文本,根据所述描述性文本对所述知识图谱进行拓展,得到拓展知识图谱;
以所述拓展知识图谱中的实体为起始节点,通过随机游走得到预设数量个预设长度的随机游走序列;
将所述随机游走序列输入Skip-Gram模型,对所述Skip-Gram模型进行训练,得到训练好的Skip-Gram模型,将所述知识图谱中的实体输入所述训练好的Skip-Gram模型,输出实体词向量;
根据所述实体词向量和所述训练好的Skip-Gram模型的参数生成知识图谱向量空间;
将待映射的文本输入训练好的Multi-Sense LSTM模型,得到第一预测词向量;
根据所述第一预测词向量在所述知识图谱向量空间中确定最接近的实体词向量,根据所述最接近的实体词向量确定所述待映射的文本映射的知识图谱实体。
在一个实施例中,所述处理器在实现根据所述描述性文本对所述知识图谱进行拓展,得到拓展知识图谱时,用于实现:对所述描述性文本进行分词得到第一词集合,对所述第一词集合中的词计算TF-IDF值;将所述第一词集合中的词作为所述实体的文字属性节点加入所述知识图谱,并根据所述TF-IDF值确定所述文字属性节点对所述实体的关系权重,得到拓展知识图谱。
在一个实施例中,所述处理器在实现文本到知识图谱实体的映射时,用于实现:将所述拓展知识图谱中的实体作为起始节点,在所述拓展知识图谱中进行随机游走得到随机游走序列,所述随机游走序列的长度为预设长度;从所述随机游走的当前节点行走到的与所述当前节点相邻的节点是根据概率分布来确定的,所述概率分布公式表征为:
Figure 920508DEST_PATH_IMAGE012
式中,N为在所述知识图谱中与所述当前节点相连的实体节点的数量,
Figure 470438DEST_PATH_IMAGE013
表示与所述当前节点相连的实体节点集合,M为所述当前节点所包含的文字属性节点的数量,
Figure 148544DEST_PATH_IMAGE014
表示当前节点的文字属性节点集合,
Figure 442122DEST_PATH_IMAGE015
为预设的比例系数,用以表征随机游走对文字属性节点的偏好。
在一个实施例中,所述处理器在实现文本到知识图谱实体的映射时,用于实现:将所述拓展知识图谱中的实体作为起始节点,在所述拓展知识图谱中进行预设次数随机游走,得到预设次数个预设长度的随机游走序列。
在一个实施例中,文本到知识图谱实体的映射时,用于实现:
所述Multi-Sense LSTM模型包括:一个通用词嵌入层、一个词义消歧层和两层LSTM网络;
所述处理器在实现将待映射的文本输入训练好的Multi-Sense LSTM模型,得到第一预测词向量时,用于实现:将所述待映射的文本进行分词得到第二词集合;将所述第二词集合中的词输入所述通用词嵌入层得到所述词的通用向量;将所述第二词集合中的词输入所述词义消歧层得到所述词的多个有义向量,其中,所述有义向量的数量为预先通过所述词义消歧层设置的数量;根据所述第二词集合中除所述词之外的词的通用向量的平均值,确定所述词的上下文向量;通过带有softmax层的注意力网络对所述多个有义向量进行加权运算得到所述词的有义向量加权和;将所述第二次集中的所有词的通用向量、上下文向量以及有义向量加权和输入所述两层LSTM网络,得到所述第一预测词向量。
在一个实施例中,所述处理器在实现将所述随机游走序列输入Skip-Gram模型,对所述Skip-Gram模型进行训练,得到训练好的Skip-Gram模型时,用于实现:根据预设窗长,将所述随机游走序列中的窗口中心词作为已知词,将所述已知词在所述随机游走序列中的前预设窗长个词和后预设窗长个词作为待预测词;
将所述已知词输入所述Skip-Gram模型,得到所述已知词的前预设窗长个词和后预设窗长个词的预测结果;
根据所述预测结果和所述待预测词的真实结果确定预测的条件概率,当所述预测的条件概率大于预设阈值时,得到训练好的Skip-Gram模型。
在一个实施例中,所述处理器在实现文本到知识图谱实体的映射时,用于实现:将带实体标签的文本输入所述Multi-Sense LSTM模型,得到第二预测词向量;将所述文本对应的实体输入所述训练好的Skip-Gram模型,输出目标词向量;根据所述第二预测词向量和所述目标词向量之间的均方误差值优化所述Multi-Sense LSTM模型的参数;当所述第二预测词向量和所示目标词向量之间的均方误差值小于预设阈值时,得到训练好的Multi-Sense LSTM模型。
本申请的实施例中还提供一种存储介质,所述存储介质存储有计算机程序,所述计算机程序中包括程序指令,所述处理器执行所述程序指令,实现本申请实施例提供的任一项文本到知识图谱实体的映射方法。
其中,所述存储介质可以是前述实施例所述的计算机设备的内部存储单元,例如所述计算机设备的硬盘或内存。所述存储介质也可以是所述计算机设备的外部存储设备,例如所述计算机设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种文本到知识图谱实体的映射方法,其特征在于,包括:
针对知识图谱中的实体,从预设的语料库中获取所述实体的描述性文本,根据所述描述性文本对所述知识图谱进行拓展,得到拓展知识图谱;
以所述拓展知识图谱中的实体为起始节点,通过随机游走得到预设数量个预设长度的随机游走序列;
将所述随机游走序列输入Skip-Gram模型,对所述Skip-Gram模型进行训练,得到训练好的Skip-Gram模型,将所述知识图谱中的实体输入所述训练好的Skip-Gram模型,输出实体词向量;
根据所述实体词向量和所述训练好的Skip-Gram模型的参数生成知识图谱向量空间;
将待映射的文本输入训练好的Multi-Sense LSTM模型,得到第一预测词向量;
根据所述第一预测词向量在所述知识图谱向量空间中确定最接近的实体词向量,根据所述最接近的实体词向量确定所述待映射的文本映射的知识图谱实体。
2.根据权利要求1所述的方法,其特征在于,所述根据所述描述性文本对所述知识图谱进行拓展,得到拓展知识图谱,包括:
对所述描述性文本进行分词得到第一词集合,对所述第一词集合中的词计算TF-IDF值;
将所述第一词集合中的词作为所述实体的文字属性节点加入所述知识图谱,并根据所述TF-IDF值确定所述文字属性节点对所述实体的关系权重,得到拓展知识图谱。
3.根据权利要求2所述的方法,其特征在于,所述方法包括:
将所述拓展知识图谱中的实体作为起始节点,在所述拓展知识图谱中进行随机游走得到随机游走序列,所述随机游走序列的长度为预设长度;
从所述随机游走的当前节点行走到的与所述当前节点相邻的节点是根据概率分布来确定的,所述概率分布公式表征为:
Figure 962521DEST_PATH_IMAGE001
式中,N为在所述知识图谱中与所述当前节点相连的实体节点的数量,
Figure 145240DEST_PATH_IMAGE002
表示与所述当前节点相连的实体节点集合,M为所述当前节点所包含的文字属性节点的数量,
Figure 190557DEST_PATH_IMAGE003
表示当前节点的文字属性节点集合,
Figure 726712DEST_PATH_IMAGE004
为预设的比例系数,用以表征随机游走对文字属性节点的偏好。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
将所述拓展知识图谱中的实体作为起始节点,在所述拓展知识图谱中进行预设次数随机游走,得到预设次数个预设长度的随机游走序列。
5.根据权利要求1所述的方法,其特征在于,所述Multi-Sense LSTM模型包括:一个通用词嵌入层、一个词义消歧层和两层LSTM网络;
所述将待映射的文本输入训练好的Multi-Sense LSTM模型,得到第一预测词向量,包括:
将所述待映射的文本进行分词得到第二词集合;
将所述第二词集合中的词输入所述通用词嵌入层得到所述词的通用向量;
将所述第二词集合中的词输入所述词义消歧层得到所述词的多个有义向量,其中,所述有义向量的数量为预先通过所述词义消歧层设置的数量;
根据所述第二词集合中除所述词之外的词的通用向量的平均值,确定所述词的上下文向量;
通过带有softmax层的注意力网络对所述多个有义向量进行加权运算得到所述词的有义向量加权和;
将所述第二词集中的所有词的通用向量、上下文向量以及有义向量加权和输入所述两层LSTM网络,得到所述第一预测词向量。
6.根据权利要求1所述的方法,其特征在于,所述将所述随机游走序列输入Skip-Gram模型,对所述Skip-Gram模型进行训练,得到训练好的Skip-Gram模型,包括:
根据预设窗长,将所述随机游走序列中的窗口中心词作为已知词,将所述已知词在所述随机游走序列中的前预设窗长个词和后预设窗长个词作为待预测词;
将所述已知词输入所述Skip-Gram模型,得到所述已知词的前预设窗长个词和后预设窗长个词的预测结果;
根据所述预测结果和所述待预测词的真实结果确定预测的条件概率,当所述预测的条件概率大于预设阈值时,得到训练好的Skip-Gram模型。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述方法还包括;
将带实体标签的文本输入所述Multi-Sense LSTM模型,得到第二预测词向量;
将所述文本对应的实体输入所述训练好的Skip-Gram模型,输出目标词向量;
根据所述第二预测词向量和所述目标词向量之间的均方误差值优化所述Multi-SenseLSTM模型的参数;
当所述第二预测词向量和所示目标词向量之间的均方误差值小于预设阈值时,得到训练好的Multi-Sense LSTM模型。
8.一种文本到知识图谱实体的映射装置,其特征在于,包括:
知识图谱拓展模块,用于针对知识图谱中的实体,从预设的语料库中获取所述实体的描述性文本,根据所述描述性文本对所述知识图谱进行拓展,得到拓展知识图谱;
随机游走序列生成模块,用于以所述拓展知识图谱中的实体为起始节点,通过随机游走得到预设数量个预设长度的随机游走序列;
实体词向量生成模块,用于将所述随机游走序列输入Skip-Gram模型,对所述Skip-Gram模型进行训练,得到训练好的Skip-Gram模型,将所述知识图谱中的实体输入所述训练好的Skip-Gram模型,输出实体词向量;
知识图谱向量空间生成模块,用于根据所述实体词向量和所述训练好的Skip-Gram模型的参数生成知识图谱向量空间;
预测词向量生成模块,用于将待映射的文本输入训练好的Multi-Sense LSTM模型,得到预测词向量;
实体映射模块,用于根据所述预测词向量在所述知识图谱向量空间中确定最接近的实体词向量,根据所述最接近的实体词向量确定所述待映射的文本映射的知识图谱实体。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器;
所述存储器用于存储计算机程序;
所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现如权利要求1至7中任一项所述的文本到知识图谱实体的映射方法。
10.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如权利要求1至7中任一项所述的文本到知识图谱实体的映射方法。
CN202110848694.4A 2021-07-27 2021-07-27 文本到知识图谱实体的映射方法、装置、设备及存储介质 Pending CN113297854A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110848694.4A CN113297854A (zh) 2021-07-27 2021-07-27 文本到知识图谱实体的映射方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110848694.4A CN113297854A (zh) 2021-07-27 2021-07-27 文本到知识图谱实体的映射方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN113297854A true CN113297854A (zh) 2021-08-24

Family

ID=77331145

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110848694.4A Pending CN113297854A (zh) 2021-07-27 2021-07-27 文本到知识图谱实体的映射方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113297854A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113673249A (zh) * 2021-08-25 2021-11-19 北京三快在线科技有限公司 实体识别方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110309316A (zh) * 2018-06-08 2019-10-08 腾讯科技(深圳)有限公司 一种知识图谱向量的确定方法、装置、终端设备和介质
CN111241241A (zh) * 2020-01-08 2020-06-05 平安科技(深圳)有限公司 基于知识图谱的案件检索方法、装置、设备及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110309316A (zh) * 2018-06-08 2019-10-08 腾讯科技(深圳)有限公司 一种知识图谱向量的确定方法、装置、终端设备和介质
CN111241241A (zh) * 2020-01-08 2020-06-05 平安科技(深圳)有限公司 基于知识图谱的案件检索方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DIMITRI KARTSAKLIS ET AL.: "Mapping Text to Knowledge Graph Entities using Multi-Sense LSTMs", 《ARXIV》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113673249A (zh) * 2021-08-25 2021-11-19 北京三快在线科技有限公司 实体识别方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN108959246B (zh) 基于改进的注意力机制的答案选择方法、装置和电子设备
US11227118B2 (en) Methods, devices, and systems for constructing intelligent knowledge base
CN111539197B (zh) 文本匹配方法和装置以及计算机系统和可读存储介质
EP3819785A1 (en) Feature word determining method, apparatus, and server
US20160299975A1 (en) Concept Analysis Operations Utilizing Accelerators
US8386238B2 (en) Systems and methods for evaluating a sequence of characters
US10528662B2 (en) Automated discovery using textual analysis
CN111581949B (zh) 学者人名的消歧方法、装置、存储介质及终端
Mills et al. Graph-based methods for natural language processing and understanding—A survey and analysis
JP6848091B2 (ja) 情報処理装置、情報処理方法、及びプログラム
CN111737997A (zh) 一种文本相似度确定方法、设备及储存介质
CN112380319B (zh) 一种模型训练的方法及相关装置
CN112395875A (zh) 一种关键词提取方法、装置、终端以及存储介质
CN112256822A (zh) 文本搜索方法、装置、计算机设备和存储介质
CN114880447A (zh) 信息检索方法、装置、设备及存储介质
CN113297854A (zh) 文本到知识图谱实体的映射方法、装置、设备及存储介质
Thaiprayoon et al. Graph and centroid-based word clustering
JP2019082860A (ja) 生成プログラム、生成方法及び生成装置
Vaishnavi et al. Paraphrase identification in short texts using grammar patterns
CN115391551A (zh) 事件检测方法及装置
Hajlaoui et al. Enhancing patent expertise through automatic matching with scientific papers
CN111339287B (zh) 摘要生成方法及装置
KR100751295B1 (ko) 질의 기반의 문서요약 장치 및 그 방법
CN114462378A (zh) 科技项目查重方法、系统、计算机设备及存储介质
CN112182235A (zh) 一种构建知识图谱的方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210824