CN104933039B - 面向资源缺乏语言的实体链接系统 - Google Patents

面向资源缺乏语言的实体链接系统 Download PDF

Info

Publication number
CN104933039B
CN104933039B CN201510304943.8A CN201510304943A CN104933039B CN 104933039 B CN104933039 B CN 104933039B CN 201510304943 A CN201510304943 A CN 201510304943A CN 104933039 B CN104933039 B CN 104933039B
Authority
CN
China
Prior art keywords
entity
item
context
uighur
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510304943.8A
Other languages
English (en)
Other versions
CN104933039A (zh
Inventor
蒋同海
李晓
马博
王磊
周喜
赵凡
杨雅婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xinjiang Technical Institute of Physics and Chemistry of CAS
Original Assignee
Xinjiang Technical Institute of Physics and Chemistry of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xinjiang Technical Institute of Physics and Chemistry of CAS filed Critical Xinjiang Technical Institute of Physics and Chemistry of CAS
Priority to CN201510304943.8A priority Critical patent/CN104933039B/zh
Publication of CN104933039A publication Critical patent/CN104933039A/zh
Application granted granted Critical
Publication of CN104933039B publication Critical patent/CN104933039B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明涉及一种面向资源缺乏语言的实体链接系统,该系统采用基于规则和统计相结合的方法,对维吾尔语词汇进行词干切分和词性标注;根据实体指称项的上下文,对实体指称项进行扩充,通过机器翻译的双语对齐技术,实现汉语和维吾尔语词汇的对齐操作,从而利用汉语的丰富语义对维吾尔语进行扩充,获取候选实体;通过融合实体上下文特征、篇章主题特征和知识库中的概念图特征,对候选实体进行排序,将实体指称项链接到排序后的目标实体。通过本发明所述的系统解决资源缺乏语言的实体链接问题并构建实用化的维吾尔语实体链接系统。该系统能够实现语言资源缺乏的维吾尔语的实体链接功能,从而满足智能信息处理需求。

Description

面向资源缺乏语言的实体链接系统
技术领域
本发明涉及信息技术领域中的信息抽取、知识发现领域,尤其涉及面向资源缺乏语言的实体链接系统。
背景技术
实体链接(Entity Linking)作为自然语言处理技术的一个分支,是指对于给定的实体指称项,将其链接到知识库中的实体概念的过程。主要针对自然语言的多样性和歧义性问题,通过将自然语言中的文本与知识库中的条目进行链接,实现阅读增强、以实体为中心的精准信息聚合、知识库扩建等工作。
在候选实体发现方面,主要有两种方法,一种是基于维基百科的方法,利用维基百科中锚文本的超链接关系、消歧页面以及重定向页面获得候选实体。另一种是基于主题模型的方法。
在候选实体链接方面,核心仍然是计算实体指称项和候选实体的相似度,并选择相似程度最高的候选实体作为链接的目标实体。从相似度计算的方式上,可以分成单一实体链接和协同实体链接。单一实体链接仅仅考虑实体指称项与目标实体间的语义相似度。协同实体链接通过利用协同式策略综合考虑多个实体间的语义关联,建立全局语义约束,从而更好地对于文本内的多个实体进行消岐。
在现有的实体链接系统中存在以下问题:
1)系统运行需要丰富的语言资源,包括词性标注、句法分析等工具和标注资源库和知识库等;
2)目前还不存在一种面向新疆地区维吾尔语等小语种的实体链接系统可供使用;
为解决上述常规实体链接系统中存在的问题,本发明提供了一种面向资源缺乏语言的实体链接系统。该系统可以通过词向量技术从未标注语料中进行语义发现并利用双语对齐技术进行语义扩充,缓解了传统实体链接系统的语言资源依赖问题。
发明内容
本发明目的在于,提供了一种面向资源缺乏语言的实体链接系统,该系统采用基于规则和统计相结合的方法,对维吾尔语词汇进行词干切分和词性标注;根据实体指称项的上下文,对实体指称项进行扩充,得到实体指称项的上下文信息;通过机器翻译的双语对齐技术,实现汉语和维吾尔语词汇的对齐操作,从而利用汉语的丰富语义对维吾尔语进行扩充,获取候选实体;通过融合实体上下文特征、篇章主题特征和知识库中的概念图特征,对候选实体进行排序,将实体指称项链接到排序后的目标实体。本发明所述系统通过双语对齐技术,利用资源丰富语言对资源缺乏语言的语义信息进行扩充,并融合了实体上下文特征、篇章主题特征和知识库中的概念图特征对候选实体进行排序,其目的在于解决资源缺乏语言的实体链接问题并构建实用化的维吾尔语实体链接系统。本发明所述的系统能够实现语言资源缺乏的维吾尔语的实体链接功能,从而满足智能信息处理需求。
本发明所述的一种面向资源缺乏语言的实体链接系统,该系统面向新疆地区的少数民族语言——维吾尔语,通过规则和统计相结合的方法,利用汉语的丰富语言资源对维吾尔语进行语义扩充,完成实体链接,具体操作按下列步骤进行:
a.实体指称项获取模块:识别出文本中待链接到实体库的实体指称项;
b.维吾尔语预处理模块:采用基于规则和统计相结合的方法,对维吾尔语词汇进行词干提取和词性标注,词干提取是将词汇切分为词干和词缀,并保留词干部分,其中词性标注为标明该词汇的词性,如名词、动词、形容词;
c.实体指称项扩充模块:根据实体指称项的上下文,对实体指称项进行扩充,得到实体指称项的上下文信息;
d.候选实体获取模块:通过机器翻译的双语对齐,实现汉语和维吾尔语词汇的对齐操作,利用汉语的丰富语义对维吾尔语进行扩充,扩充后的文本组成实体库中实体的上下文信息,将实体指称项的上下文信息与实体库中实体的上下文信息进行相似度计算,获取候选实体;
e.候选实体排序模块:通过融合实体上下文特征、篇章主题特征和知识库中概念图特征,对候选实体进行排序,将实体指称项链接到排序后的目标实体即可。
步骤b中所述的基于规则和统计相结合的词性标注方法:是根据维吾尔语词后缀的结合规则,总结出词缀组合规则与维吾尔语词性的对应关系,先使用最大熵统计方法和条件随机场统计方法对词性做出一个粗略的判断,然后利用总结出的规则,对使用统计得到的词性标注结果进行验证。
步骤c中所述的实体指称项的上下文是实体指称项前后指定长度的文本。
步骤c中所述的对实体指称项的上下文进行扩充是利用词向量模型和维基百科标签对其上下文进行扩充。
词向量的上下文扩充是使用深度学习方法进行多次迭代,通过逻辑回归的方法对文本进行训练,采用二次抽样的方法来平衡训练语料中的频繁词汇和非频繁词汇的不对称,将训练文本集合内的每个词汇表示成为200维的特征向量,通过度量向量之间的余弦相似度,获取词汇间的语义关联,并将语义最为近似的词汇作为实体指称项的上下文。
维基百科标签的上下文扩充是使用维基百科标签作为中间媒介,计算实体指称项上下文和所有维基百科标签上下文的余弦相似度,并从结果中选取相似性最高的一个子集,将相似性最高的标签作为实体指称项的上下文。
步骤e中所述的实体上下文特征是实体指称项的上下文特征与候选实体的知名度特征、名称特征的概率乘积。
步骤e中所述的实体篇章主题特征是在基于统计的主题模型中,实体指称项所包含的主题与候选实体包含的主题之间的相似程度。
步骤e中所述的实体概念图特征是在以维基百科为基础的知识网络中,基于语义相似度、共现度计算得到的实体指称项和候选实体相似程度。
本发明所述的一种面向资源缺乏语言的实体链接系统,该系统包括:1)实体指称项获取模块:识别出文本中待链接到实体库的实体指称项;2)维吾尔语预处理模块:采用基于规则和统计相结合的方法,对维吾尔语词汇进行词干提取和词性标注;3)实体指称项扩充模块:根据实体指称项的上下文,对实体指称项进行扩充,得到实体指称项的上下文信息;4)候选实体获取模块:通过机器翻译的双语对齐技术,实现汉语和维吾尔语词汇的对齐操作,从而利用汉语的丰富语义对维吾尔语进行扩充,获取候选实体;5)候选实体排序模块:通过融合实体上下文特征、篇章主题特征和知识库中的概念图特征,对候选实体进行排序,将实体指称项链接到排序后的目标实体。
本发明所述的一种面向资源缺乏语言的实体链接系统,该系统是通过以下技术方案实现的:
a、实体指称项获取:从输入文本中获得待链接到实体库的实体指称项;
b、维吾尔语预处理:对输入文本进行预处理,词干切分,去停用词,去标点符号;采用规则与统计相结合的方式进行词性标注,统计方法采用最大熵与条件随机场相结合的方式。先用最大熵为每个兼类词选择两个候选词性,然后再用条件随机场模型在这两个词性中进行选择,不仅保留最优路径,而且将从其余几条路径中为每个兼类词选择出第二个最合适的候选词性。根据维吾尔语词的构词特点和维吾尔语词后缀的结合规则,总结出词缀组合规则与维吾尔语词性的对应关系,先使用统计的方法对词性做出一个粗略地判断,然后利用总结出的规则,对使用统计得到的词性标注结果进行验证。
c、实体指称项扩充:利用词向量模型和维基百科标签,对实体指称项进行扩充,得到扩充后的实体指称项上下文信息;
d、基于双语对齐的候选实体获取:给定文档d的上下文窗口c,词汇w的上下文信息可由如下公式训练得到:
其中f是神经网络函数,wr是从词汇表中随机选取的一个子集,是包含wr的上下文窗口。该目标函数可以对比正确词汇放入上下文和随机词汇放入同一个上下文时的不同打分。
使用机器翻译中的词汇对齐技术来初始化双语词嵌入(word embeddings)过程,具体如下所示:
其中S表示与原始词汇对齐的可能的目标词汇数量,Cts表示原始词汇s与目标词汇t对齐的数量,Ct表示目标词汇t出现在目标语言中的总数量。
通过对齐数量来生成对齐矩阵Auy→zh和Azh→uy,对于Auy→zh,每行对应一个汉语词汇,每列对应一个维吾尔语词汇,矩阵中的一项aij初始化为第i个汉语词汇与第j个维吾尔语词汇在双语平行语料中对齐的数量。然后将矩阵中的每行归一化到加和为1。矩阵Azh→uy通过类似方式定义。
汉语词嵌入表示为Vzh,维吾尔语词嵌入表示为Vuy,通过这两个对齐矩阵,将汉语词嵌入表示为(其中,λ取值50):
JCO-zh+λ·JTEO-uy-zh (3)
JTEO-uy-zh=||Vzh-Auy-zh·Ven||2 (4)
维吾尔语词嵌入表示为:
JCO-uy+λ·JTEO-zh-uy (5)
JTEO-zh-uy=||Ven-Azh-en·Vzh||2 (6)
通过双语对齐,可以利用汉语的丰富语义信息对维吾尔语等资源缺乏的语言进行语义扩充,确保候选实体的正确选取。
e、多特征融合的候选实体排序:引入三种重要的附加语义特征,分别是实体上下文特征、篇章主题特征和知识库中的概念图特征,并融合这些特征对候选实体进行排序。
上下文与主题特征:实体本身包含知名度特征P(e)、名称特征P(s|e)和上下文特征P(c|e),一个实体指称项m(其上下文是c,名称是s)与实体e,实体e是实体指称项m的目标实体的概率可表示为:
P(m,e)=P(s,c,e)=P(e)·P(s|e)·P(c|e) (7)
文章中的实体通常与文本主题相关,因此这些实体之间也存在着语义相关性。基于这种主题一致性假设,构建面向实体链接的主题模型。假设每一篇文本都有N个内在主题,每一个主题是实体的多项式分布,为实体分配若干主题。
知识库概念图特征:以维基百科维吾尔语版作为维吾尔语知识库,从知识库中构建知识网络,并基于语义相似度、共现度来计算知识图间的相似度。通过实体指称项的上下文特征和知识库中概念的知识图片段进行基于语义的相似度计算,从而去除指称项的歧义性,正确定位所对应的实体。
基于图的协同推断通过将证据在图上的依存结构上传递来协同增强证据收敛,如下所示:
rt+1=(1-λ)×T×rt+λ×S (8)
其中,rt+1表示在时间t+1上的证据,T表示证据传递率矩阵(Referent Graph)的归一化相邻矩阵,λ表示证据重分配率,S表示初始证据。
本发明所述的一种面向资源缺乏语言的实体链接系统,该系统所提供的技术方案的积极效果是:通过机器翻译技术对双语进行自动对齐处理,利用常用语种(汉语)的丰富语言资源和语义特征,对资源缺乏语言(维吾尔语等)进行语义扩充,克服了小语种语言资源缺乏的问题。融合实体上下文特征、篇章主题特征和知识库中的概念图特征对候选实体进行排序,解决了在语言资源缺乏情况下,精确链接实体指称项和候选实体的问题。
附图说明
图1为本发明流程图;
图2为本发明最大熵结合条件随机场总体结构图;
图3为本发明基于主题特征的候选实体排序示意图;
图4为本发明基于知识库的实体关联示意图;
图5本发明基于概念图的协同推断示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面结合附图对本发明做进一步的详细说明。
实施例
a.实体指称项获取模块:识别出文本中待链接到实体库的实体指称项,实体指称项是准备链接到实体库的一段文本描述,如维吾尔语单词“kechiche”(汉语翻译:整夜,在专利内容的后半部分,将使用拉丁维文的方式书写维吾尔语);
b.维吾尔语预处理模块:采用基于规则和统计相结合的方法,对维吾尔语词汇进行词干提取和词性标注,词干提取是将词汇切分为词干和词缀,并保留词干部分,其中词性标注为标明该词汇的词性,如名词、动词、形容词,其中,对维吾尔语词汇进行词干和词缀切分,并保留词干部分。如维吾尔语单词“kechiche”,提取词干的结果是“kech”,汉语翻译是“晚上”;
词性标注采用规则与统计相结合的方式进行,如图2所示,统计方法采用最大熵与条件随机场相结合的方式。先用最大熵为每个兼类词选择两个候选词性,然后再用条件随机场模型在这两个词性中进行选择,不仅保留最优路径,而且将从其余几条路径中为每个兼类词选择出第二个最合适的候选词性;根据维吾尔语词的构词特点和维吾尔语词后缀的结合规则,总结出词缀组合规则与维吾尔语词性的对应关系,先使用统计的方法对词性做出一个粗略地判断,然后利用总结出的规则,对使用统计得到的词性标注结果进行验证。如如维吾尔语单词“kech”,词性标注的结果是“kech/n”,即“kech”的词性是名词;
c.实体指称项扩充模块:根据实体指称项的上下文,对实体指称项进行扩充,得到实体指称项的上下文信息,对经过词干提取和词性标注的实体指称项进行扩充。
其中,扩充包括以下两种方式:
1)以实体指称项作为输入,在词向量模型中通过余弦相似度方法,寻找语义相近词汇作为扩充项,如以“夜晚”作为输入,则可以获得“夜、夜色、傍晚”等扩充词汇项;
词向量模型的训练方法是:使用深度学习方法进行多次迭代,对文本进行训练,将训练文本集合内的每个词汇表示成为200维的向量特征,进而可以通过度量向量之间的余弦相似度,获取词汇间的语义关联,对于两个词汇对应的词向量,用A:[A1,A2,...,An]和B:[B1,B2,...,Bn]表示,余弦相似度的计算公式为:
2)以实体指称项作为输入,在维吾尔语维基百科标签库中,通过余弦相似度方法,寻找相似词汇,并作为扩充项;具体方法是:首先计算所有维基百科标签与输入文本的相似性,并从结果中选取相似性最高的一个子集;然后直接计算两个输入文本所对应的维基百科标签集之间的相似性,从而获取相似性结果。基于维基百科标签的相似性计算包括:对于词汇wi,vwi表示其词向量,整个文本的词向量用如下公式表示:
其中S表示文本,n表示S中的词汇数量。T={t1,t2,Λ,tn}表示维基百科标签集合,ti表示其中的一个标签,对于词向量表示vS,遍历计算vS与ti的相似性,并最终选出相似性最高的一个子集作为输入文本S的扩充维基百科标签。如以“维吾尔语”作为输入,则可以获得“突厥语族、土耳其语、新疆”等扩充词汇项;
d.候选实体获取模块:通过机器翻译的双语对齐,实现汉语和维吾尔语词汇的对齐操作,利用汉语的丰富语义对维吾尔语进行扩充,扩充后的文本组成实体库中实体的上下文信息,将实体指称项的上下文信息与实体库中实体的上下文信息进行相似度计算,获取候选实体;对符合条件的候选实体进行选取,其中,维吾尔语属于语言资源缺乏的小语种,通过实现基于双语平行语料的词嵌入(word embeddings)学习算法和基于机器翻译的双语对齐,利用资源丰富语言(汉语)对维吾尔语进行语义扩充。
使用机器翻译中的词汇对齐技术来初始化双语词嵌入过程,具体如下所示:
其中S表示与原始词汇对齐的可能的目标词汇数量,Cts表示原始词汇s与目标词汇t对齐的数量,Ct表示目标词汇t出现在目标语言中的总数量;
通过对齐数量来生成对齐矩阵Auy→zh和Azh→uy,对于Auy→zh,每行对应一个汉语词汇,每列对应一个维吾尔语词汇,矩阵中的一项aij初始化为第i个汉语词汇与第j个维吾尔语词汇在双语平行语料中对齐的数量。然后将矩阵中的每行归一化到加和为1。矩阵Azh→uy通过类似方式定义;
汉语词嵌入表示为Vzh,维吾尔语词嵌入表示为Vuy,通过这两个对齐矩阵,将汉语词嵌入表示为(其中,λ取值50):
JCO-zh+λ·JTEO-uy-zh (4)
JTEO-uy-zh=||Vzh-Auy-zh·Ven||2 (5)
维吾尔语词嵌入表示为:
JCO-uy+λ·JTEO-zh-uy (6)
JTEO-zh-uy=||Ven-Azh-en·Vzh||2 (7)
通过双语对齐,可以形成汉语-维语词对,如:Zh-Uy{'晚上','kech'},{'苹果','alma'}等;
e.候选实体排序模块:通过融合实体上下文特征、篇章主题特征和知识库中的概念图特征,对候选实体进行排序,将实体指称项链接到排序后的目标实体,采用多特征融合的方法对选取的候选实体进行排序,其中,基于主题特征的候选实体排序通过构建面向实体链接的主题模型来获取实体之间的语义相关信息;如一句文本:“苹果发布iphone”,通过主题模型,可以得到如下的主题分布结果,如图3所示:
苹果发布iPhone→{IT0.38,手机0.28,Apple公司0.36}。其中,基于知识库概念图特征的候选实体排序是:以维基百科维吾尔语版作为维语知识库,从知识库中构建知识网络,并基于语义相似度、共现度来计算知识图间的相似度;通过实体指称项的上下文特征和知识库中概念的知识图片段进行基于语义的相似度计算,从而去除指称项的歧义性,正确定位所对应的实体,如图4所示,乔丹本身可能是一位体育明星、影视明星或是一位学者,但是如果指称项的上下文有提及到篮球、棒球或者公牛队,则会以较高的相似度定位到迈克尔·乔丹这一实体概念;
候选实体在知识图中的相连节点也会与指称项上下文中的其他实体有着紧密的联系,从而可以通过基于图的协同推断对候选实体进行排序;
图5展示了一个基于图的协同推断示例:输入文本是:“在公牛期间,乔丹出演了电影大灌篮”。其中“公牛”有两个候选实体,分别是“芝加哥公牛队”和“公牛(动物)”;“乔丹”有三个候选实体,分别是“乔丹(NBA球星)”、“乔丹(好莱坞影星)”和“乔丹(机器学习专家)”;“大灌篮”则只有一个候选实体:“宇宙大灌篮”。而其中,实体“宇宙大灌篮”和“芝加哥公牛队”都与实体“乔丹(NBA球星)”有紧密联系,从而确定了输入文本中的“乔丹”的正确候选实体应为“乔丹(NBA球星)”。
本发明未详细阐述的部分属于本领域公知技术。显然,本领域的技术人员应该意识到,在本发明的范围内和精神指导下,各种改进、添加和替换都是可能的,如改变数据格式和内容、调整接口调用次序、使用不同编程语言(如Python、C、C++、Java等)实现等。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (4)

1.一种面向资源缺乏语言的实体链接系统,其特征在于该系统面向新疆地区的少数民族语言——维吾尔语,通过规则和统计相结合的方法,利用汉语的丰富语言资源对维吾尔语进行语义扩充,完成实体链接,具体操作按下列步骤进行:
a.实体指称项获取模块:识别出文本中待链接到实体库的实体指称项;
b.维吾尔语预处理模块:采用基于规则和统计相结合的方法,对维吾尔语词汇进行词干提取和词性标注,词干提取是将词汇切分为词干和词缀,并保留词干部分,其中词性标注为标明该词汇的词性;
c. 实体指称项扩充模块:根据实体指称项的上下文,对实体指称项进行扩充,得到实体指称项的上下文信息,其中实体指称项的上下文为实体指称项前后指定长度的文本,对实体指称项的上下文进行扩充是利用词向量模型和维基百科标签对其上下文进行扩充;
d.候选实体获取模块:通过机器翻译的双语对齐,实现汉语和维吾尔语词汇的对齐操作,利用汉语的丰富语义对维吾尔语进行扩充,扩充后的文本组成实体库中实体的上下文信息,将实体指称项的上下文信息与实体库中实体的上下文信息进行相似度计算,获取候选实体;
e.候选实体排序模块:通过融合实体上下文特征、篇章主题特征和知识库中概念图特征,对候选实体进行排序,将实体指称项链接到排序后的目标实体即可,其中实体上下文特征是实体指称项的上下文特征与候选实体的知名度特征、名称特征的概率乘积;实体篇章主题特征是在基于统计的主题模型中,实体指称项所包含的主题与候选实体包含的主题之间的相似程度;实体概念图特征是在以维基百科为基础的知识网络中,基于语义相似度、共现度计算得到的实体指称项和候选实体相似程度。
2.根据权利要求1所述的面向资源缺乏语言的实体链接系统,其特征在于步骤b中所述的基于规则和统计的相结合词性标注方法:是根据维吾尔语词后缀的结合规则,总结出词缀组合规则与维吾尔语词性的对应关系,先使用最大熵统计方法和条件随机场统计方法对词性做出一个粗略的判断,然后利用总结出的规则,对使用统计得到的词性标注结果进行验证。
3.根据权利要求1所述的面向资源缺乏语言的实体链接系统,其特征在于步骤c中词向量的上下文扩充是使用深度学习方法进行多次迭代,通过逻辑回归的方法对文本进行训练,采用二次抽样的方法来平衡训练语料中的频繁词汇和非频繁词汇的不对称,将训练文本集合内的每个词汇表示成为200维的特征向量,通过度量向量之间的余弦相似度,获取词汇间的语义关联,并将语义最为近似的词汇作为实体指称项的上下文。
4.根据权利要求1所述的面向资源缺乏语言的实体链接系统,其特征在于步骤c中维基百科标签的上下文扩充是使用维基百科标签作为中间媒介,计算实体指称项上下文和所有维基百科标签上下文的余弦相似度,并从结果中选取相似性最高的一个子集,将相似性最高的标签作为实体指称项的上下文。
CN201510304943.8A 2015-06-04 2015-06-04 面向资源缺乏语言的实体链接系统 Active CN104933039B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510304943.8A CN104933039B (zh) 2015-06-04 2015-06-04 面向资源缺乏语言的实体链接系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510304943.8A CN104933039B (zh) 2015-06-04 2015-06-04 面向资源缺乏语言的实体链接系统

Publications (2)

Publication Number Publication Date
CN104933039A CN104933039A (zh) 2015-09-23
CN104933039B true CN104933039B (zh) 2018-03-20

Family

ID=54120208

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510304943.8A Active CN104933039B (zh) 2015-06-04 2015-06-04 面向资源缺乏语言的实体链接系统

Country Status (1)

Country Link
CN (1) CN104933039B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105677913B (zh) * 2016-02-29 2019-04-26 哈尔滨工业大学 一种基于机器翻译的中文语义知识库的构建方法
CN106021371A (zh) * 2016-05-11 2016-10-12 苏州大学 一种事件识别方法及系统
CN106295796B (zh) * 2016-07-22 2018-12-25 浙江大学 基于深度学习的实体链接方法
CN108694201A (zh) * 2017-04-10 2018-10-23 华为软件技术有限公司 一种实体对齐方法和装置
CN107506486A (zh) * 2017-09-21 2017-12-22 北京航空航天大学 一种基于实体链接的关系扩充方法
CN107861939B (zh) * 2017-09-30 2021-05-14 昆明理工大学 一种融合词向量和主题模型的领域实体消歧方法
CN107861947B (zh) * 2017-11-07 2021-01-05 昆明理工大学 一种基于跨语言资源的柬语命名实体识别的方法
CN107977364B (zh) * 2017-12-30 2022-02-25 科大讯飞股份有限公司 维语子词切分方法及装置
CN109582965B (zh) * 2018-11-30 2022-03-01 四川长虹电器股份有限公司 语义分析引擎的分布式平台构架方法、系统
CN110147401A (zh) * 2019-05-22 2019-08-20 苏州大学 融合先验知识和上下文相关度的知识库抽取方法
CN110413736B (zh) * 2019-07-25 2022-02-25 百度在线网络技术(北京)有限公司 跨语言文本表示方法和装置
CN110532328B (zh) * 2019-08-26 2023-04-07 哈尔滨工程大学 一种文本概念图构造方法
CN110888946A (zh) * 2019-12-05 2020-03-17 电子科技大学广东电子信息工程研究院 一种基于知识驱动的查询的实体链接方法
CN111340006A (zh) * 2020-04-16 2020-06-26 深圳市康鸿泰科技有限公司 一种手语识别方法及系统
CN111814433B (zh) * 2020-08-20 2022-02-18 北京智源人工智能研究院 一种维吾尔语实体识别的方法、装置和电子设备
CN113158693A (zh) * 2021-03-13 2021-07-23 中国科学院新疆理化技术研究所 基于汉语关键词的维吾尔语关键词生成方法、装置、电子设备及存储介质
CN112926344B (zh) * 2021-03-13 2023-11-17 中国科学院新疆理化技术研究所 基于词向量替换数据增强的机器翻译模型训练方法、装置、电子设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101042692A (zh) * 2006-03-24 2007-09-26 富士通株式会社 基于语义预测的译文获取方法和设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IL140241A (en) * 2000-12-11 2007-02-11 Celebros Ltd Interactive searching system and method

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101042692A (zh) * 2006-03-24 2007-09-26 富士通株式会社 基于语义预测的译文获取方法和设备

Also Published As

Publication number Publication date
CN104933039A (zh) 2015-09-23

Similar Documents

Publication Publication Date Title
CN104933039B (zh) 面向资源缺乏语言的实体链接系统
CN111832275B (zh) 文本的创作方法、装置、设备以及存储介质
CN109493977B (zh) 文本数据处理方法、装置、电子设备及计算机可读介质
Yang et al. Fashion captioning: Towards generating accurate descriptions with semantic rewards
CN107818085B (zh) 阅读机器人进行阅读理解的答案选择方法及系统
CN106407236B (zh) 一种面向点评数据的情感倾向性检测方法
CN109871538A (zh) 一种中文电子病历命名实体识别方法
CN106407235B (zh) 一种基于点评数据的语义词典构建方法
CN106537370A (zh) 在存在来源和翻译错误的情况下对命名实体鲁棒标记的方法和系统
CN106599032A (zh) 一种结合稀疏编码和结构感知机的文本事件抽取方法
CN111142850B (zh) 一种基于深度神经网络的代码片段推荐方法与装置
CN112329467A (zh) 地址识别方法、装置、电子设备以及存储介质
Islam et al. Exploring video captioning techniques: A comprehensive survey on deep learning methods
CN106227719B (zh) 中文分词歧义消除方法和系统
CN108108468A (zh) 一种基于概念和文本情感的短文本情感分析方法和装置
CN106227714A (zh) 一种基于人工智能的获取生成诗词的关键词的方法和装置
CN107480200A (zh) 基于词标签的词语标注方法、装置、服务器及存储介质
CN115438674B (zh) 实体数据处理、实体链接方法、装置和计算机设备
Xian et al. Self-guiding multimodal LSTM—when we do not have a perfect training dataset for image captioning
CN108170678A (zh) 一种文本实体抽取方法与系统
CN109359300A (zh) 基于深度学习的医学文献中关键词筛选方法及装置
CN113761890A (zh) 一种基于bert上下文感知的多层级语义信息检索方法
Parameswarappa et al. Kannada word sense disambiguation using decision list
Che et al. Paragraph generation network with visual relationship detection
CN113268606A (zh) 知识图谱构建的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant