CN109472023B - 一种基于实体及文本联合嵌入的实体关联度衡量方法、系统及存储介质 - Google Patents

一种基于实体及文本联合嵌入的实体关联度衡量方法、系统及存储介质 Download PDF

Info

Publication number
CN109472023B
CN109472023B CN201811218394.2A CN201811218394A CN109472023B CN 109472023 B CN109472023 B CN 109472023B CN 201811218394 A CN201811218394 A CN 201811218394A CN 109472023 B CN109472023 B CN 109472023B
Authority
CN
China
Prior art keywords
entity
embedding
entities
text
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811218394.2A
Other languages
English (en)
Other versions
CN109472023A (zh
Inventor
赵翔
曾维新
唐九阳
黄培馨
郭得科
肖卫东
葛斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN201811218394.2A priority Critical patent/CN109472023B/zh
Publication of CN109472023A publication Critical patent/CN109472023A/zh
Application granted granted Critical
Publication of CN109472023B publication Critical patent/CN109472023B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了基于实体及文本联合嵌入的实体关联度衡量方法、系统及存储介质,该方法包括将词语和所述词语对应的实体进行第一联合嵌入训练,得到词语及实体联合嵌入;根据所述词语及实体联合嵌入进行第二联合嵌入训练,得到实体间的相似度、实体描述文本间的相似度、实体与实体描述文本间的相似度;根据实体间的相似度、实体描述文本间的相似度、实体与实体描述文本间的相似度计算基于文本的实体关联度和基于图结构的实体关联度;根据基于文本的实体关联度和基于图结构的实体关联度计算得到实体之间的实体关联度。本发明通过将实体及文本嵌入进行联合训练,实现了将基于文本的实体关联度和基于图结构的实体关联度结合的对实体关联度的直接衡量。

Description

一种基于实体及文本联合嵌入的实体关联度衡量方法、系统 及存储介质
技术领域
本发明涉及语义关联度衡量技术领域,具体涉及一种基于实体及文本联合嵌入的实体关联度衡量方法、系统及存储介质。
背景技术
随着知识图谱(KG)的发展及其广泛的应用,其基本组成单元—实体(Entity),也受到了越来越大的重视。实体是事物唯一的标识符,也是连接非结构化文本和结构化知识的重要枢纽。在许多与KG相关的工作中,如实体链接以及实体推荐,如何度量实体之间的关联度成为重要的部分。
实体关联度衡量任务旨在确定两个实体的相关程度。虽然这是一个看似基本的任务,但直接针对实体关联度度量方法的研究却很少。在大部分工作中,只是将实体关联度衡量作为外部任务(如实体链接等)的子任务,而这种方法存在的问题是所提出的相应方法是面向特定任务的,不具有普适性。因此,需要针对实体关联度的直接衡量提出相应的方法。
现有的实体关联度直接衡量方法主要可以分为两类,分别为基于文本的方法和基于图结构的方法。基于文本的方法利用文本信息为实体生成包含语义信息的嵌入,也就是高维向量,并利用嵌入相似度来表征实体关联度。基于图结构的方法则将实体看作知识图谱中的节点,并将问题转化为计算图中节点的关联度。基于图结构的方法的缺点在于只考虑了图信息并未考虑文本信息。具体的方法包括考虑待衡量节点的共有节点数目等等。但这两类方法并没有得到充分结合;并且在现有的基于文本的方法中,并未用到实体描述信息,不能更好的表示实体的语义信息。因此,行业内急需开发一种结合基于文本的方法和基于图结构的方法的实体关联度直接衡量方法。
发明内容
本发明的目的是为了克服以上现有技术存在的不足,提供了基于实体及文本联合嵌入的实体关联度衡量方法。
本发明的另一目的是为了克服以上现有技术存在的不足,提供了基于实体及文本联合嵌入的实体关联度衡量系统。
本发明的又一目的是为了克服以上现有技术存在的不足,提供了基于实体及文本联合嵌入的实体关联度衡量系统。
本发明的目的通过以下的技术方案实现:
一种基于实体及文本联合嵌入的实体关联度衡量方法,包括:
S1,将词语和所述词语对应的实体进行第一联合嵌入训练,得到词语及实体联合嵌入;
S2,根据所述词语及实体联合嵌入进行第二联合嵌入训练,得到实体间的相似度、实体描述文本间的相似度、实体与实体描述文本间的相似度;
S3,根据实体间的相似度、实体描述文本间的相似度、实体与实体描述文本间的相似度计算基于文本的实体关联度和基于图结构的实体关联度;
S4,根据基于文本的实体关联度和基于图结构的实体关联度计算得到实体之间的实体关联度。
优选地,所述将词语和所述词语对应的实体进行第一联合嵌入训练包括:将词语和所述词语对应的实体映射到相同的高维连续向量空间中;其中将相似度小于预设值k1的词和实体映射到高维连续向量空间中的距离间隔小于预设值k2的位置。
优选地,所述根据所述词语及实体联合嵌入进行第二联合嵌入训练包括:以所述词语及实体联合嵌入为输入,对词语嵌入进行计算,得到文本的嵌入;对所述文本的嵌入和实体嵌入进行第二联合嵌入训练。
优选地,以所述词语及实体联合嵌入为输入,对词语嵌入进行计算,得到文本的嵌入的计算公式为:
Figure GDA0001894201850000031
其中W是权重矩阵,b是偏向量
Figure GDA0001894201850000032
表示词语wm的嵌入;vt表示生成的文本。
对所述文本的嵌入和实体嵌入进行第二联合嵌入训练的训练公式为:
Figure GDA0001894201850000033
Figure GDA0001894201850000034
其中,t={w1,w2,...wN}表示给定文本,实体集Et={e1,e2,...en}表示实体集,Δ表示一组文本-实体对,其中每个文本实体对包括文本t以及与文本t对应的实体Et;P(e|t)表示文本t包含实体e的概率;EK表示预设的知识库中的所有实体,e*表示为EK中的随机实体;ve和vt分别是实体e和文本t的向量表示。
优选地,所述根据实体间的相似度、实体描述文本间的相似度、实体与实体描述文本间的相似度计算基于文本的实体关联度的计算公式为:
Figure GDA0001894201850000035
其中,ei和ej为预先设定的两个不同实体,di和dj分别为两个不同实体ei和ej的维基百科上的描述文本,
Figure GDA0001894201850000036
表示两个实体ei和ej的嵌入间的相似度,而
Figure GDA0001894201850000037
分别表示ei和dj之间的嵌入相似度,ej和di之间的嵌入相似度,di和dj之间的嵌入相似度,α1234是相应的权重参数;
所述将实体间的相似度、实体描述文本间的相似度、实体与实体描述文本间的相似度计算基于图结构的实体关联度的计算公式为:
Figure GDA0001894201850000041
其中I(e)表示维基百科页面中指向实体e的链接,n表示维基百科中的实体总数。
优选地,所述根据基于文本的实体关联度和基于图结构的实体关联度计算得到实体之间的实体关联度的计算公式为:
R(ei,ej)=ηRT(ei,ej)+θRG(ei,ej)
其中η和θ是平衡基于文本关联度和基于图结构关联度重要性的两个参数。
本发明的另一目的通过以下的技术方案实现:
一种基于实体及文本联合嵌入的实体关联度衡量系统,包括:第一联合嵌入训练模块,用于将词语和所述词语对应的实体进行第一联合嵌入训练,得到词语及实体联合嵌入;第二联合嵌入训练模块,用于根据所述词语及实体联合嵌入进行第二联合嵌入训练,得到实体间的相似度、实体描述文本间的相似度、实体与实体描述文本间的相似度;实体关联度计算模块,用于根据实体间的相似度、实体描述文本间的相似度、实体与实体描述文本间的相似度计算基于文本的实体关联度和基于图结构的实体关联度;根据基于文本的实体关联度和基于图结构的实体关联度计算得到实体之间的实体关联度。
优选地,所述第一联合嵌入训练模块,还用于将词语和所述词语对应的实体映射到相同的高维连续向量空间中;其中将相似度小于预设值k1的词和实体映射到高维连续向量空间中的距离间隔小于预设值k2的位置。
优选地,所述将词语和所述词语对应的实体进行第一联合嵌入训练,得到词语及实体联合嵌入的训练公式为:
Figure GDA0001894201850000042
其中W是权重矩阵,b是偏向量
Figure GDA0001894201850000043
表示词语wm的嵌入;vt表示生成的文本。
本发明的又一目的通过以下的技术方案实现:
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的方法的步骤。
本发明相对于现有技术具有如下的优点:
本发明通过将实体及文本嵌入进行联合训练,从而相应地由联合嵌入计算得到实体间的相似度、实体描述文本间的相似度、实体与实体描述文本间的相似度,根据实体间的相似度、实体描述文本间的相似度、实体与实体描述文本间的相似度计算基于文本的实体关联度和基于图结构的实体关联度,根据基于文本的实体关联度和基于图结构的实体关联度计算得到实体之间的实体关联度,这样实现了将基于文本的实体关联度和基于图结构的实体关联度结合的对实体关联度的直接衡量,并且还充分应用了实体描述信息和图信息,使实体关联度的直接衡量更加准确。
附图说明
图1是本发明的基于实体及文本联合嵌入的实体关联度衡量方法的原理示意图。
图2是本发明的基于实体及文本联合嵌入的实体关联度衡量系统的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。
参见图1-2、一种基于实体及文本联合嵌入的实体关联度衡量方法,包括:
S1,将词语和所述词语对应的实体进行第一联合嵌入训练,得到词语及实体联合嵌入,以更好地表示其语义信息,并作为神经网络的输入单元;在本实施例,所述词语为单词。其中,第一联合嵌入训练的训练方法源于传统的skip-gram模型,skip-gram模型的训练目标是生成可以帮助预测给定单词的上下文单词的单词表示,形式上,设O=ω12,...ωN是一个单词序列,该模型旨在最大化以下平均对数概率:
Figure GDA0001894201850000061
在(1)式中,c是上下文窗口的大小,ωi表示目标词(单词序列中的单词),ωi+j是目标词的上下文词;条件概率由以下softmax函数定义:
Figure GDA0001894201850000062
在(2)式中,W表示词汇表中所有单词的集合,即目标词和上下文词,vw和v′w代表单词w的输入和输出嵌入表示。训练之后,输出v′w用于生成单词嵌入。
第一联合嵌入训练的训练方法将传统模型扩展为联合嵌入模型,首先需要创建联合向量训练的语料库,该语料库包括句子本身以及两种扩展形式,以维基百科页面中的文本为例,句子由单词和锚文本组成,利用与每个锚文本相关联的链接,可以获得锚文本的相应实体标识符,使用实体标识符替代锚文本,可以生成用于联合向量训练的扩展句子,此外,还可以从原始句子中只提取实体标识符,以形成新的输入,更好地捕捉实体之间的关系。
联合嵌入训练方法通过将实体标识符视为特殊形式的词语,将相应的公式(1)和公式(2)修改成如下公式:
Figure GDA0001894201850000063
Figure GDA0001894201850000064
其中τ12,...τN是令牌(词或实体标识符)的序列,τi表示目标令牌并且τi+j是上下文令牌。Γ表示语料库中所有令牌集,vτ和v′τ表示令牌τ的输入和输出嵌入表示。训练之后,输出v′τ为词语及实体联合嵌入。
第一联合嵌入训练方法的优点有:
(1)最终词嵌入在概念上更准确,因为其上下文中形式各样的实体指称被常量实体标识替代;
(2)与源自知识库的相对较小的语料库相比,此方法获取的实体嵌入是在大规模文本语料库上学习得到的,在训练过程中实体嵌入也会具有较高的频率;
(3)由于单词和实体的表示是在同一高维连续向量空间中学习得到的,词,实体,词和实体之间相似性的度量可以通过余弦相似度实现。
具体的,所述将词语和所述词语对应的实体进行第一联合嵌入训练包括:将词语和所述词语对应的实体映射到相同的高维连续向量空间中;其中将相似度小于预设值k1的词和实体映射到高维连续向量空间中的距离间隔小于预设值k2的位置。
S2,根据所述词语及实体联合嵌入进行第二联合嵌入训练,得到实体间的相似度、实体描述文本间的相似度、实体与实体描述文本间的相似度;具体地,步骤S2包括:
首先,以所述词语及实体联合嵌入为输入,对词语嵌入进行计算,得到文本的嵌入,即以词语及实体联合嵌入为输入,通过对给定文本t={w1,w2,...wN}中词语嵌入加权求和并进行L2归一化,生成文本t的嵌入表示vt
Figure GDA0001894201850000071
其中W是权重矩阵,b是偏向量
Figure GDA0001894201850000072
表示词语wm的嵌入;vt表示生成的文本。
然后,对所述文本的嵌入和实体嵌入进行第二联合嵌入训练,即结合文本嵌入和实体嵌入,进行联合训练。所述根据所述词语及实体联合嵌入进行第二联合嵌入训练,得到实体间的相似度、实体描述文本间的相似度、实体与实体描述文本间的相似度的计算公式为:
Figure GDA0001894201850000073
Figure GDA0001894201850000081
其中,t={w1,w2,...wN}表示给定文本,实体集Et={e1,e2,...en}表示实体集,Δ表示一组文本-实体对,其中每个文本实体对包括文本t以及与文本t对应的实体Et;P(e|t)表示文本t包含实体e的概率;EK表示预设的知识库中的所有实体,e*表示为EK中的随机实体;ve和vt分别是实体e和文本t的向量表示。
S3,根据实体间的相似度、实体描述文本间的相似度、实体与实体描述文本间的相似度计算基于文本的实体关联度和基于图结构的实体关联度;在本实施例,所述根据实体间的相似度、实体描述文本间的相似度、实体与实体描述文本间的相似度计算基于文本的实体关联度的计算公式为:
Figure GDA0001894201850000082
其中,ei和ej为预先设定的两个不同实体,di和dj分别为两个不同实体ei和ej的维基百科上的描述文本,
Figure GDA0001894201850000083
表示两个实体ei和ej的嵌入间的相似度,而
Figure GDA0001894201850000084
分别表示ei和dj之间的嵌入相似度,ej和di之间的嵌入相似度,di和dj之间的嵌入相似度,α1234是相应的权重参数;
所述将实体间的相似度、实体描述文本间的相似度、实体与实体描述文本间的相似度计算基于图结构的实体关联度的计算公式为:
Figure GDA0001894201850000085
其中I(e)表示维基百科页面中指向实体e的链接,n表示维基百科中的实体总数。
S4,根据基于文本的实体关联度和基于图结构的实体关联度计算得到实体之间的实体关联度。
在本实施例,所述根据基于文本的实体关联度和基于图结构的实体关联度计算得到实体之间的实体关联度的计算公式为:
R(ei,ej)=ηRT(ei,ej)+θRG(ei,ej)
其中η和θ是平衡基于文本关联度和基于图结构关联度重要性的两个参数。
参见图2,上述基于实体及文本联合嵌入的实体关联度衡量方法适用的一种基于实体及文本联合嵌入的实体关联度衡量系统,包括:第一联合嵌入训练模块,用于将词语和所述词语对应的实体进行第一联合嵌入训练,得到词语及实体联合嵌入;第二联合嵌入训练模块,用于根据所述词语及实体联合嵌入进行第二联合嵌入训练,得到实体间的相似度、实体描述文本间的相似度、实体与实体描述文本间的相似度;实体关联度计算模块,用于根据实体间的相似度、实体描述文本间的相似度、实体与实体描述文本间的相似度计算基于文本的实体关联度和基于图结构的实体关联度;根据基于文本的实体关联度和基于图结构的实体关联度计算得到实体之间的实体关联度。
在本实施例,所述第一联合嵌入训练模块,还用于将词语和所述词语对应的实体映射到相同的高维连续向量空间中;其中将相似度小于预设值k1的词和实体映射到高维连续向量空间中的距离间隔小于预设值k2的位置。
在本实施例,所述将词语和所述词语对应的实体进行第一联合嵌入训练,得到词语及实体联合嵌入的训练公式为:
Figure GDA0001894201850000091
其中W是权重矩阵,b是偏向量
Figure GDA0001894201850000092
表示词语wm的嵌入;vt表示生成的文本。
在本实施例,所述根据所述词语及实体联合嵌入进行第二联合嵌入训练,得到实体间的相似度、实体描述文本间的相似度、实体与实体描述文本间的相似度的计算公式为:
Figure GDA0001894201850000093
Figure GDA0001894201850000101
其中,t={w1,w2,...wN}表示给定文本,实体集Et={e1,e2,...en}表示实体集,Δ表示一组文本-实体对,其中每个文本实体对包括文本t以及与文本t对应的实体Et;P(e|t)表示文本t包含实体e的概率;EK表示预设的知识库中的所有实体,e*表示为EK中的随机实体;ve和vt分别是实体e和文本t的向量表示。
本发明通过将实体及文本嵌入进行联合训练,从而相应地由联合嵌入计算得到实体间的相似度、实体描述文本间的相似度、实体与实体描述文本间的相似度,根据实体间的相似度、实体描述文本间的相似度、实体与实体描述文本间的相似度计算基于文本的实体关联度和基于图结构的实体关联度,根据基于文本的实体关联度和基于图结构的实体关联度计算得到实体之间的实体关联度,这样实现了将基于文本的实体关联度和基于图结构的实体关联度结合的对实体关联度的直接衡量,并且还充分应用了实体描述信息和图信息,使实体关联度的直接衡量更加准确。
此外,本发明还提出一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上所述的方法的步骤。
上述具体实施方式为本发明的优选实施例,并不能对本发明进行限定,其他的任何未背离本发明的技术方案而所做的改变或其它等效的置换方式,都包含在本发明的保护范围之内。

Claims (10)

1.一种基于实体及文本联合嵌入的实体关联度衡量方法,其特征在于,包括:
S1,将词语和所述词语对应的实体进行第一联合嵌入训练,得到词语及实体联合嵌入;
S2,根据所述词语及实体联合嵌入进行第二联合嵌入训练,得到实体间的相似度、实体描述文本间的相似度、实体与实体描述文本间的相似度;
S3,根据实体间的相似度、实体描述文本间的相似度、实体与实体描述文本间的相似度计算基于文本的实体关联度和基于图结构的实体关联度;
S4,根据基于文本的实体关联度和基于图结构的实体关联度计算得到实体之间的实体关联度。
2.根据权利要求1所述的基于实体及文本联合嵌入的实体关联度衡量方法,其特征在于,所述将词语和所述词语对应的实体进行第一联合嵌入训练包括:
将词语和所述词语对应的实体映射到相同的高维连续向量空间中;其中将相似度小于预设值k1的词和实体映射到高维连续向量空间中的距离间隔小于预设值k2的位置。
3.根据权利要求1所述的基于实体及文本联合嵌入的实体关联度衡量方法,其特征在于,所述根据所述词语及实体联合嵌入进行第二联合嵌入训练包括:
以所述词语及实体联合嵌入为输入,对词语嵌入进行计算,得到文本的嵌入;
对所述文本的嵌入和实体嵌入进行第二联合嵌入训练。
4.根据权利要求3所述的基于实体及文本联合嵌入的实体关联度衡量方法,其特征在于,以所述词语及实体联合嵌入为输入,对词语嵌入进行计算,得到文本的嵌入的计算公式为:
Figure FDA0001834128340000021
其中W是权重矩阵,b是偏向量
Figure FDA0001834128340000022
表示词语wm的嵌入;vt表示生成的文本;
对所述文本的嵌入和实体嵌入进行第二联合嵌入训练的训练公式为:
Figure FDA0001834128340000023
Figure FDA0001834128340000024
其中,t={w1,w2,...wN}表示给定文本,实体集Et={e1,e2,...en}表示实体集,Δ表示一组文本-实体对,其中每个文本实体对包括文本t以及与文本t对应的实体Et;P(e|t)表示文本t包含实体e的概率;EK表示预设的知识库中的所有实体,e*表示为EK中的随机实体;ve和vt分别是实体e和文本t的向量表示。
5.根据权利要求1所述的基于实体及文本联合嵌入的实体关联度衡量方法,其特征在于,所述根据实体间的相似度、实体描述文本间的相似度、实体与实体描述文本间的相似度计算基于文本的实体关联度的计算公式为:
Figure FDA0001834128340000025
其中,ei和ej为预先设定的两个不同实体,di和dj分别为两个不同实体ei和ej的维基百科上的描述文本,
Figure FDA0001834128340000026
表示两个实体ei和ej的嵌入间的相似度,而
Figure FDA0001834128340000027
分别表示ei和dj之间的嵌入相似度,ej和di之间的嵌入相似度,di和dj之间的嵌入相似度,α1234是相应的权重参数;
所述将实体间的相似度、实体描述文本间的相似度、实体与实体描述文本间的相似度计算基于图结构的实体关联度的计算公式为:
Figure FDA0001834128340000031
其中I(e)表示维基百科页面中指向实体e的链接,n表示维基百科中的实体总数。
6.根据权利要求5所述的基于实体及文本联合嵌入的实体关联度衡量方法,其特征在于,所述根据基于文本的实体关联度和基于图结构的实体关联度计算得到实体之间的实体关联度的计算公式为:
R(ei,ej)=ηRT(ei,ej)+θRG(ei,ej)
其中η和θ是平衡基于文本关联度和基于图结构关联度重要性的两个参数。
7.一种基于实体及文本联合嵌入的实体关联度衡量系统,其特征在于,包括:
第一联合嵌入训练模块,用于将词语和所述词语对应的实体进行第一联合嵌入训练,得到词语及实体联合嵌入;
第二联合嵌入训练模块,用于根据所述词语及实体联合嵌入进行第二联合嵌入训练,得到实体间的相似度、实体描述文本间的相似度、实体与实体描述文本间的相似度;
实体关联度计算模块,用于根据实体间的相似度、实体描述文本间的相似度、实体与实体描述文本间的相似度计算基于文本的实体关联度和基于图结构的实体关联度;根据基于文本的实体关联度和基于图结构的实体关联度计算得到实体之间的实体关联度。
8.根据权利要求7所述的基于实体及文本联合嵌入的实体关联度衡量系统,其特征在于,所述第一联合嵌入训练模块,还用于将词语和所述词语对应的实体映射到相同的高维连续向量空间中;其中将相似度小于预设值k1的词和实体映射到高维连续向量空间中的距离间隔小于预设值k2的位置。
9.根据权利要求7所述的基于实体及文本联合嵌入的实体关联度衡量系统,其特征在于,所述将词语和所述词语对应的实体进行第一联合嵌入训练,得到词语及实体联合嵌入的训练公式为:
Figure FDA0001834128340000041
其中W是权重矩阵,b是偏向量
Figure FDA0001834128340000042
表示词语wm的嵌入;vt表示生成的文本。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN201811218394.2A 2018-10-19 2018-10-19 一种基于实体及文本联合嵌入的实体关联度衡量方法、系统及存储介质 Active CN109472023B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811218394.2A CN109472023B (zh) 2018-10-19 2018-10-19 一种基于实体及文本联合嵌入的实体关联度衡量方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811218394.2A CN109472023B (zh) 2018-10-19 2018-10-19 一种基于实体及文本联合嵌入的实体关联度衡量方法、系统及存储介质

Publications (2)

Publication Number Publication Date
CN109472023A CN109472023A (zh) 2019-03-15
CN109472023B true CN109472023B (zh) 2022-11-11

Family

ID=65663866

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811218394.2A Active CN109472023B (zh) 2018-10-19 2018-10-19 一种基于实体及文本联合嵌入的实体关联度衡量方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN109472023B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110162640A (zh) * 2019-04-28 2019-08-23 北京百度网讯科技有限公司 新实体挖掘方法、装置、计算机设备及存储介质
CN113220833A (zh) * 2021-05-07 2021-08-06 支付宝(杭州)信息技术有限公司 实体关联度的识别方法和装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10606946B2 (en) * 2015-07-06 2020-03-31 Microsoft Technology Licensing, Llc Learning word embedding using morphological knowledge
CN107832306A (zh) * 2017-11-28 2018-03-23 武汉大学 一种基于Doc2vec的相似实体挖掘方法
CN108399163B (zh) * 2018-03-21 2021-01-12 北京理工大学 结合词聚合与词组合语义特征的文本相似性度量方法

Also Published As

Publication number Publication date
CN109472023A (zh) 2019-03-15

Similar Documents

Publication Publication Date Title
WO2020182122A1 (zh) 用于生成文本匹配模型的方法和装置
US10430255B2 (en) Application program interface mashup generation
CN109582956A (zh) 应用于句子嵌入的文本表示方法和装置
CN112771564A (zh) 生成网站的语义方向以自动实体寻的到映射身份的人工智能引擎
CN112148863A (zh) 一种融入常识知识的生成式对话摘要方法
CN108536735B (zh) 基于多通道自编码器的多模态词汇表示方法与系统
KR20180126589A (ko) 정보 검색 방법 및 장치
CN110633360B (zh) 一种语义匹配的方法以及相关装置
US20190005149A1 (en) Graph diffusion similarity measure for structured and unstructured data sets
CN109472023B (zh) 一种基于实体及文本联合嵌入的实体关联度衡量方法、系统及存储介质
CN113254716B (zh) 视频片段检索方法、装置、电子设备和可读存储介质
CN113128196A (zh) 文本信息处理方法及其装置、存储介质
CN111694967A (zh) 属性抽取方法、装置、电子设备及介质
JP6770709B2 (ja) 機械学習用モデル生成装置及びプログラム。
CN113722441B (zh) 一种相似文本的生成方法、装置、设备及存储介质
CN112989024B (zh) 文本内容的关系提取方法、装置、设备及存储介质
CN112989797B (zh) 模型训练、文本扩展方法,装置,设备以及存储介质
CN104881400A (zh) 基于联想网络的语义相关性计算方法
CN114912458A (zh) 一种情感分析方法、装置和计算机可读介质
CN106910013A (zh) 基于动态表达学习的不实信息检测方法和装置
Hosseini et al. Implicit entity linking through ad-hoc retrieval
US20160196266A1 (en) Inferring seniority based on canonical titles
CN116401372A (zh) 知识图谱表示学习方法、装置、电子设备及可读存储介质
JP7364065B2 (ja) 推定装置、学習装置、推定方法、学習方法及びプログラム
JP6261669B2 (ja) クエリ校正システムおよび方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant