CN108491375B - 基于CN-DBpedia的实体识别与链接系统和方法 - Google Patents

基于CN-DBpedia的实体识别与链接系统和方法 Download PDF

Info

Publication number
CN108491375B
CN108491375B CN201810173270.0A CN201810173270A CN108491375B CN 108491375 B CN108491375 B CN 108491375B CN 201810173270 A CN201810173270 A CN 201810173270A CN 108491375 B CN108491375 B CN 108491375B
Authority
CN
China
Prior art keywords
entity
probability
word
linking
entities
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810173270.0A
Other languages
English (en)
Other versions
CN108491375A (zh
Inventor
梁家卿
陈砺寒
肖仰华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN201810173270.0A priority Critical patent/CN108491375B/zh
Publication of CN108491375A publication Critical patent/CN108491375A/zh
Application granted granted Critical
Publication of CN108491375B publication Critical patent/CN108491375B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Character Discrimination (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于CN‑DBpedia的实体识别与链接系统和方法。该系统包括实体链接模块和实体识别模块;实体链接模块包括同义词匹配单元和实体链接单元;实体识别模块包括分词器、词概率计算单元和实体判别单元。本发明构建了实体与词语的语义关系,从而能在极少的上下文中挖掘到与实体的关系。本发明将基于机器学习的实体识别算法与非监督的分词算法融合。能从全局性的角度考虑实体名划分的合理性,又扩展了分词的词表空间,以更加合理的算法计算实体词的成词概率。本发明先链接再识别,使得实体识别时充分利用到了文本的语义信息,实现更好的分词与实体识别。

Description

基于CN-DBpedia的实体识别与链接系统和方法
技术领域
本发明属于数据业务技术领域,具体涉及一种基于CN-DBpedia的实体识别与链接系统和方法。
背景技术
大数据时代的到来,为人工智能的飞速发展带来前所未有的数据红利。在大数据的“喂养”下,人工智能技术获得了前所未有的长足进步。其进展突出体现在以知识图谱为代表的知识工程以及深度学习为代表的机器学习等相关领域。随着深度学习对于大数据的红利消耗殆尽,深度学习模型效果的天花板日益迫近。另一方面大量知识图谱不断涌现,这些蕴含人类大量先验知识的宝库却尚未被深度学习有效利用。融合知识图谱与深度学习,已然成为进一步提升深度学习模型效果的重要思路之一。而在知识图谱技术中,最为基础且重要的是实体的识别与实体链接技术。
实体识别技术是指识别文本中的实体,实体链接是指将识别的实体链接到知识库中。现有的实体识别技术中,主要分为监督学习、半监督学习和无监督学习三类。其中监督学习是占主导地位的,包括隐含马尔可夫模型、决策树、最大熵模型、支持向量机、条件随机场以及神经网络。支持半监督学习的主要技术叫做拔靴法,即利用少量训练样本由多次重复抽样,重新建立起足以代表母体样本分布之新样本。无监督学习的一种典型方法是聚类。比如说,基于上下文相似度将命名实体进行聚类。实体链接的方法主要分为监督学习和无监督学习两类。其中监督学习是占主导地位的,包括二元分类建模、排序学习方法、概率模型以及图模型。无监督学习方法主要包括向量空间模型以及基于信息检索的模型。
现有的技术中,首先,主要是针对英文,英文知识图谱比中文的健全,多很多实体关系,少了很多噪音。其次,其所识别的实体一般限于命名实体,同时很多英文实体具有明显特征比如说大写、缩写等。
发明内容
本发明提供一种针对中文短文本的基于中文通用百科知识图谱CN-Dbpedia的实体识别与链接系统和方法。本发明能解决短文本上下文信息少的实体链接问题。
本发明的技术方案具体介绍如下。
本发明提供一种基于CN-DBpedia的实体识别与链接系统,其包括实体链接模块和实体识别模块;其中:
所述实体链接模块,用于检测出输入文本序列中所有可能的实体,并根据实体知识与上下文语义计算出每个位置出现每个实体的概率;
实体链接模块包括同义词匹配单元和实体链接单元;同义词匹配单元利用CN-DBpedia的同义词词库匹配文本中所有可能表示实体的子段,即实体同义词,并生成所有的候选实体;实体链接单元根据候选实体的本身特征以及与输入文本序列的匹配度,为每一个实体同义词对应每个实体的可能性进行计算,完成初步的实体链接;
所述实体识别模块,对序列做出概率最大的划分并最终判决出划分中的实体;
实体识别模块包括分词器、词概率计算单元和实体判别单元;分词器利用词概率单元计算每个子段成词概率,然后求出概率最大的划分;实体判别单元计算分词子段是实体的概率并输出实体判别结果,词概率计算单元根据实体判别单元的返回结果对普通词语与实体词语的成词概率分别进行计算,最后将经过划分的文本序列以及其中识别的实体结果输出,实体链接到CN-DBpedia中。
本发明还提供一种基于CN-DBpedia的实体识别与链接方法,具体步骤如下:实体链接的步骤:首先同义词匹配单元利用CN-DBpedia的同义词库匹配文本中所有可能表示实体的子段,即实体同义词,并生成所有的候选实体;然后实体链接单元根据候选实体的本身特征以及与输入文本序列的匹配度,为每一个实体同义词对应每个实体的可能性进行计算,完成初步的实体链接;
实体识别的步骤:分词器利用词语概率单元计算每个子段成词概率,然后求出概率最大的划分;实体判别单元计算分词子段是实体的概率并输出实体判别结果;词概率计算单元根据实体判别模块的返回结果对普通词语与实体词语的成词概率分别进行计算,最后将经过划分的文本序列以及其中识别的实体结果输出,实体链接到CN-DBpedia中。
本发明中,实体链接的步骤具体如下:
定义CN-DBpedia中的实体集E={ei},实体同义词表A={(ai,ei)},同时定义A(a)={ei|(a,ei)∈A};输入文本序列S=s1,s2...sn,其中每个元素si为一个中文字符,si,j=sisi+1...sj表示序列S从i至j的子段,
对于输入序列S,检测出所有候选实体同义词以及其对应候选实体C(S)={(m,ek)|m=(i,j)and(si,j,ek)∈A},计算每个候选实体e在特定位置m实体同义词的条件概率:
Figure BDA0001586483210000021
其中t为实体的目录标签,即概念;pop(e)为实体e的普及度,由实体被浏览和引用的次数计算;第一项分母对于同一个m相同,简写成正规化项Z;ct(S,m)=S1,i-1Sj+1,|S|为m=(i,j)的上下文;又有
p(t|ct(S,m))=Σw(p(t|w)*p(w|ct(S,m)))
其中p(w|ct(S,m))为词w出现在m上下文的概率,则有
Figure BDA0001586483210000031
Figure BDA0001586483210000032
为词w对m的影响函数,则有
Figure BDA0001586483210000033
分母对于同一个m为定值,简写成正规化项D;
又由知识库的目录关系,计算出
Figure BDA0001586483210000034
w(e,t)为实体e与概念t的权值;
由贝叶斯定理计算出
Figure BDA0001586483210000035
同理,算出条件概率p(t|w)
Figure BDA0001586483210000036
n(t,w)为词w在概念t下的出现次数,即词w在概念t下所有实体描述里出现次数。因此,结合上述所有公式,算出每个候选实体e在特定位置m实体同义词的条件概率:
Figure BDA0001586483210000037
本发明中,实体识别的步骤中,融合分词算法对句子生成包括实体名在内的所有可能成词情况进行概率最大的划分;利用实体识别算法筛选掉非实体词,最后对判定成实体的词语进行概率的计算。
本发明中,实体识别的步骤中,进行概率最大的划分采用结巴分词算法,具体如下:
对于输入文本序列S的一个划分W=w1w2...wk,如下计算概率:
Figure BDA0001586483210000038
其中词概率是以词频为分数的softmax,
Figure BDA0001586483210000039
求一个概率最大的划分:
Wbest=argmaxWlogp(W|S)
本发明中,利用动态规划方法选择概率最大的划分;
其令f(i)表示序列S1,i最佳划分的概率,转移方程为
f(i)=maxf(j-1)*p(sj,i-1),1<j<i。
本发明中,,实体识别算法为基于机器学习的实体识别算法;其训练判别器时,针对当前划分方案划分出来的实体同义词,抽取以下特征:
实体名长度、实体名逆文档频率、实体名词频、实体名对应概率最大实体的普及度、实体名对应概率最大实体的概率和实体名对应概率最大实体的在知识库里属性数量。
本发明中,最后对判定成实体的词语进行概率的计算,概率计算公式如下:
Figure BDA0001586483210000041
其中E为实体名表;pop(e)为实体e的普及度,m=(i,j)为w的位置标记,即Sm=w;T(w)为词性函数,若w为名词T为正否则为负,具体值为超参数;
Figure BDA0001586483210000042
为实体名与词语总分数的比率;K和L为超参数。
和现有技术相比,本发明的有益效果在于:
1、实体链接模块概念化计算。针对短文本这一严格的实体链接环境,本技术以实体的概念为媒介,构建了实体与词语的语义关系,从而能在极少的上下文中挖掘到与实体的关系。
2、实体识别模块。针对中文这一相对较难的实体识别语言环境,本技术创新地将基于机器学习的实体识别算法与非监督的分词算法巧妙地融合在一起。分词算法是的实体识别从全局性的角度考虑实体名划分的合理性,以达到更好的实体识别效果;而实体识别算法扩展了分词的词表空间,并且以更加合理的算法计算实体词的成词概率。
3、高度耦合的实体链接与实体识别模块。与传统的先识别再链接的低耦合模块不同,本技术提出的先链接再识别的方案,使得实体识别时充分利用到了文本的语义信息,从而进行更好的分词与实体识别。
附图说明
图1是基于CN-DBpedia的短文本实体识别与链接的具体流程图。
图2是网页信息抽取装置的详细架构图。
具体实施方式
下面结合附图和实施例对本发明的技术方案进行详细阐述。
实施例1
本发明提出了一种基于CN-DBpedia的短文本实体识别与链接的系统和方法。本发明提出的技术方案框架如图1所示,其包括实体链接模块和实体识别模块。实体链接模块包括同义词匹配单元和实体链接单元;实体识别模块包括分词器、词概率计算单元和实体判别单元。本发明首先同义词匹配单元对于输入的文本序列利用CN-DBpedia的同义词库进行候选实体识别,即识别序列中所有可能的实体同义词。然后对实体同义词所对应各实体的概率进行计算。最后,文本序列以及被识别的候选实体以及概率将输入到实体识别模块,实体识别模块的分词器对序列做出概率最大的划分并最终判别出划分中的实体。下面进行详细阐述。
1.实体链接模块
该模块的主要功能是检测出输入文本序列中所有可能的实体,并根据实体知识与上下文语义计算出每个位置出现每个实体的概率。先定义符号如下。
定义CN-DBpedia中的实体集E={ei},实体同义词表A={(ai,ei)},同时定义A(a)={ei|(a,ei)∈A}。输入文本序列S=s1,s2...sn,其中每个元素si为一个中文字符,si,j=sisi+1...sj表示序列S从i至j的子段。
对于输入序列S,检测出所有候选实体同义词以及其对应候选实体C(S)={(m,ek)|m=(i,j)and(si,j,ek)∈A}。计算每个候选实体e在特定位置m实体同义词的条件概率:
Figure BDA0001586483210000051
其中t为实体的目录标签,即概念。pop(e)为实体e的普及度,由实体被浏览和引用的次数计算。第一项分母对于同一个m相同,简写成正规化项Z。ct(S,m)=S1,i-1Sj+1,|S|为m=(i,j)的上下文。上下文可设定窗口范围。窗口大小是一个可以预先设定的超参数,如可以设m的上下文范围为前后7个词:ct7(S,m)=Si-7,i-1Sj+1,j+7。又有
p(t|ct(S,m))=Σw(p(t|w)*p(w|ct(S,m)))
其中p(w|ct(S,m))为词w出现在m上下文的概率,则有
Figure BDA0001586483210000052
Figure BDA0001586483210000053
为词w对m的影响函数,w和m的距离越远,对其的影响越小,则有
Figure BDA0001586483210000054
分母对于同一个m为定值,简写成正规化项D。
接下来只要计算出p(e|t)与p(t|w)即可计算出ps(e|m)。由知识库的目录关系,可很容易地计算出
Figure BDA0001586483210000061
w(e,t)为实体e与概念t的权值。由贝叶斯定理可计算
Figure BDA0001586483210000062
同理,可以算出条件概率p(t|w)
Figure BDA0001586483210000063
n(t,w)为词w在概念t下的出现次数,即词w在概念t下所有实体描述里出现次数。结合上述所有公式,可算出条件概率
Figure BDA0001586483210000064
对于一个文本序列中识别的实体同义词,算出其对应的各个实体的条件概率,取概率最高的实体即为实体链接的答案。
2实体识别模块
实体链接模块计算了所有候选实体的概率,但是这个概率的计算没有考虑到整个输入序列的划分,这对于需要分词的中文实体识别任务来说是一个很大的问题。具体来说,很有可能一个概率很高的实体因为其实体同义词在序列中所占的子段使得其他部分变得不合理,比如“刘若英语水平怎么样”,实体同义词“刘若英”对应的歌手实体“刘若英”的概率是最高的,但是考虑到整句的划分之后将该子段链接到实体“刘若英”却是错的。
考虑到先利用分词算法对序列进行分词,再进行实体的识别与链接。这样的解决方案也存在一些问题。首先,分词算法没有考虑到实体词库,特别是对于CN-DBpedia这种庞大的实体数量上千万的知识库,很多实体词会被错分。而将实体词库暴力地加入分词词典则会造成程序运行占用资源过大而且无法准确地针对实体的属性进行调整分词策略,因为实体相对于普通词来说有着更多的信息,在处理时需要更为周全的考量。
因此,对于中文的实体识别与链接问题,应该融合进分词算法一同进行。分词算法初步模型来自jieba分词,如下所述。
对于输入文本序列S的一个划分W=w1w2...wk,可如下计算概率。
Figure BDA0001586483210000065
其中词概率是以词频为分数的softmax。
Figure BDA0001586483210000071
目标则是求一个概率最大的划分即可。
Wbest=argmaxWlogp(W|S)
可通过动态规划选择最优的切分方案。令f(i)表示序列S1,i最佳划分的概率,转移方程为
f(i)=maxf(j-1)*p(sj,i-1),1<j<i
对于基于实体的划分模型,还需要实现另外两个额外的目标:判断词wi是否为一个实体;如果wi指的是一个实体,则需要一个更复杂算法计算概率p(wi)。
第一个问题看似一个假问题:直接取匹配同义词库的词判定为实体即可。考虑到两个问题。第一,CN-DBpedia的实体量庞大,涉及到不少噪音实体,如果只要匹配同义词库的词均当作实体,则一句话大部分词都会当作实体,包括一些动词形容词,因为这些词均在知识库里有解释。第二,实体的界限实际上是一个模棱两可的概念,实体识别的任务有许多细的划分的,有的任务是识别所有名词性实体,还有命名实体识别(NER),而NER也有不同的标准,时间这样的命名实体的是否需要识别。另外,有些实体识别任务可能要求识别偏领域方面的实体词而不用识别太过于通用或者常见的词。
综上所述,实体判别单元是需要一个判别器来筛选掉非实体词的,并且还能够根据需要调整判别策略。这里采用机器学习的方法来训练判别器。
首先描述实体判别模型的特征提取。针对当前划分方案划分出来的潜在实体名(实体同义词),抽取以下特征。
1)实体名长度
2)实体名逆文档频率
3)实体名词频
4)实体名对应概率最大实体的普及度
5)实体名对应概率最大实体的概率
6)实体名对应概率最大实体的在知识库里属性数量
然后利用上述特征,在训练数据上训练出一个线性模型对实体名进行真假的判别。
对于对判定成实体的词语,需要考虑到实体的属性进行概率的计算,概率计算公式如下
Figure BDA0001586483210000081
其中E为实体名表;pop(e)为实体e的普及度,m=(i,j)为w的位置标记,即Sm=w;T(w)为词性函数,若w为名词T为正否则为负,具体值为超参数;
Figure BDA0001586483210000082
为实体名与词语总分数的比率;K和L为超参数。
本发明的主要步骤如下:
步骤一:实体链接的步骤。本发明训练了一个打分模型对当前识别的实体名和上下文与所有可能的实体匹配的可能性进行一个打分,取分数最高的实体作为链接的结果。
步骤二:实体识别的步骤。首先,利用CN-DBpedia的同义词库匹配文本中所有可能的实体名。然后,对句子生成包括实体名在内的所有可能成词情况构造有向无环图(DAG),利用动态规划方法选择概率最高的实体分词方案。
实体识别与实体链接的统一解决方案。与之前大多数只单独针对实体链接或者实体识别任务的方法不同,本技术以使用角度出发,提出了一个同时解决两个问题的方案。

Claims (6)

1.一种基于CN-DBpedia的实体识别与链接的方法,其特征在于,其基于CN-DBpedia的实体识别与链接系统进行实体链接和实体识别,所述基于CN-DBpedia的实体识别与链接系统包括实体链接模块和实体识别模块;
所述实体链接模块,用于检测出输入文本序列中所有可能的实体,并根据实体知识与上下文语义计算出每个位置出现每个实体的概率;
实体链接模块包括同义词匹配单元和实体链接单元;同义词匹配单元利用CN-DBpedia的同义词词库匹配文本中所有可能表示实体的子段,即实体同义词,并生成所有的候选实体;实体链接单元根据候选实体的本身特征以及与输入文本序列的匹配度,为每一个实体同义词对应每个实体的可能性进行计算,完成初步的实体链接;
所述实体识别模块,对序列做出概率最大的划分并最终判决出划分的实体;
实体识别模块包括分词器、词概率计算单元和实体判别单元;分词器利用词概率计算单元计算每个子段成词概率,然后求出概率最大的划分;实体判别单元计算分词子段是实体的概率并输出实体判别结果,词概率计算单元根据实体判别单元的返回结果对普通词语与实体词语的成词概率分别进行计算,最后将经过划分的文本序列以及其中识别的实体结果输出,实体链接到CN-DBpedia中;
该方法包括如下步骤:
实体链接的步骤:首先同义词匹配单元利用CN-DBpedia的同义词库匹配文本中所有可能表示实体的子段,即实体同义词,并生成所有的候选实体;然后实体链接单元根据候选实体的本身特征以及与输入文本序列的匹配度,为每一个实体同义词对应每个实体的可能性进行计算,完成初步的实体链接;
实体识别的步骤:分词器利用词概率计算单元计算每个子段成词概率,然后求出概率最大的划分;实体判别单元计算分词子段是实体的概率并输出实体判别结果;词概率计算单元根据实体判别模块的返回结果对普通词语与实体词语的成词概率分别进行计算,最后将经过划分的文本序列以及其中识别的实体结果输出,实体链接到CN-DBpedia中;其中:实体链接的步骤具体如下:
定义CN-DBpedia中的实体集E={ei},实体同义词表A={(ai,ei)},同时定义A(a)={ei|(a,ei)∈A};输入文本序列S=s1,s2...sn,其中每个元素si为一个中文字符,si,j=sisi+ 1...sj表示序列S从i至j的子段,
对于输入序列S,检测出所有候选实体同义词以及其对应候选实体C(S)={(m,ek)|m=(i,j)and(si,j,ek)∈A},计算每个候选实体e在特定位置m实体同义词的条件概率:
Figure FDA0003491603610000021
其中t为实体的目录标签,即概念;pop(e)为实体e的普及度,由实体被浏览和引用的次数计算;
Figure FDA0003491603610000022
是一个依赖于m的项,对于同一个m为定值,简写成正规化项Z;ct(S,m)=s1,i-1sj+1,|S|为m=(i,j)的上下文;又有
p(t|ct(S,m))=∑w(p(t|w)*p(w|ct(S,m)))
其中p(w|ct(S,m))为词w出现在m上下文的概率,则有
Figure FDA0003491603610000023
Figure FDA0003491603610000024
为词w对m的影响函数,则有
Figure FDA0003491603610000025
分母
Figure FDA0003491603610000026
为一个依赖于m的定值,与前同理简写成正规化项Z′;
又由知识库的目录关系,计算出
Figure FDA0003491603610000027
w(e,t)为实体e与概念t的权值;
由贝叶斯定理计算出
Figure FDA0003491603610000028
同理,算出条件概率p(t|w)
Figure FDA0003491603610000029
n(t,w)为词w在概念t下的出现次数,即词w在概念t下所有实体描述里出现次数,因此,结合上述所有公式,算出每个候选实体e在特定位置m实体同义词的条件概率:
Figure FDA00034916036100000210
2.根据权利要求1所述的方法,其特征在于,实体识别的步骤中,融合分词算法对句子生成包括实体名在内的所有可能成词情况进行概率最大的划分;利用实体识别算法筛选掉非实体词,最后对判定成实体的词语进行概率的计算。
3.根据权利要求1所述的方法,其特征在于,实体识别的步骤中,进行概率最大的划分采用结巴分词算法,具体如下:
对于输入文本序列S的一个划分W=w1w2...wk,wi为文本序列的一个子段,1≤i≤k,所有wi串联起来等于S,即w1+w2+…+wk=S;对划分定义如下概率:
Figure FDA0003491603610000031
其中词概率是以词频为分数的softmax函数,
Figure FDA0003491603610000032
求一个概率最大的划分:
Wbest=argmaxWlog p(W|S)。
4.根据权利要求1所述的方法,其特征在于,利用动态规划方法选择概率最大的划分;
令f(i)表示序列S1,i最佳划分的概率,转移方程为:
f(i)=max f(j-1)*p(sj,i-1|S),1<j<i。
5.根据权利要求1所述的方法,其特征在于,实体识别算法为基于机器学习的实体识别算法;训练判别器时,针对当前划分方案划分出来的实体同义词,抽取以下特征:
实体名长度、实体名逆文档频率、实体名词频、实体名对应概率最大实体的普及度、实体名对应概率最大实体的概率和实体名对应概率最大实体的在知识库里属性数量。
6.根据权利要求1所述的方法,其特征在于,最后对判定成实体的词语进行概率的计算,词概率计算公式如下:
Figure FDA0003491603610000033
其中E为实体名表;pop(e)为实体e的普及度,p(e|m,S)为每个候选实体e在特定位置m实体同义词的条件概率;m=(i,j)为w的位置标记;T(w)为词性函数,若w为名词T为正否则为负,具体值为超参数;
Figure FDA0003491603610000034
为实体名与词语总分数的比率;K和L为超参数。
CN201810173270.0A 2018-03-02 2018-03-02 基于CN-DBpedia的实体识别与链接系统和方法 Active CN108491375B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810173270.0A CN108491375B (zh) 2018-03-02 2018-03-02 基于CN-DBpedia的实体识别与链接系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810173270.0A CN108491375B (zh) 2018-03-02 2018-03-02 基于CN-DBpedia的实体识别与链接系统和方法

Publications (2)

Publication Number Publication Date
CN108491375A CN108491375A (zh) 2018-09-04
CN108491375B true CN108491375B (zh) 2022-04-12

Family

ID=63341223

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810173270.0A Active CN108491375B (zh) 2018-03-02 2018-03-02 基于CN-DBpedia的实体识别与链接系统和方法

Country Status (1)

Country Link
CN (1) CN108491375B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109522551B (zh) * 2018-11-09 2024-02-20 天津新开心生活科技有限公司 实体链接方法、装置、存储介质及电子设备
CN112825112B (zh) * 2019-11-20 2024-05-31 阿里巴巴集团控股有限公司 数据处理方法、装置及计算机终端
CN111460821B (zh) * 2020-03-13 2023-08-29 云知声智能科技股份有限公司 一种实体识别与链接方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678336A (zh) * 2012-09-05 2014-03-26 阿里巴巴集团控股有限公司 实体词识别方法及装置
CN104462126A (zh) * 2013-09-22 2015-03-25 富士通株式会社 一种实体链接方法及装置
CN105224648A (zh) * 2015-09-29 2016-01-06 浪潮(北京)电子信息产业有限公司 一种实体链接方法与系统
CN106202382A (zh) * 2016-07-08 2016-12-07 南京缘长信息科技有限公司 链接实体方法和系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9135571B2 (en) * 2013-03-12 2015-09-15 Nuance Communications, Inc. Methods and apparatus for entity detection

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678336A (zh) * 2012-09-05 2014-03-26 阿里巴巴集团控股有限公司 实体词识别方法及装置
CN104462126A (zh) * 2013-09-22 2015-03-25 富士通株式会社 一种实体链接方法及装置
CN105224648A (zh) * 2015-09-29 2016-01-06 浪潮(北京)电子信息产业有限公司 一种实体链接方法与系统
CN106202382A (zh) * 2016-07-08 2016-12-07 南京缘长信息科技有限公司 链接实体方法和系统

Also Published As

Publication number Publication date
CN108491375A (zh) 2018-09-04

Similar Documents

Publication Publication Date Title
CN107861939B (zh) 一种融合词向量和主题模型的领域实体消歧方法
US11379668B2 (en) Topic models with sentiment priors based on distributed representations
CN107085581B (zh) 短文本分类方法和装置
Gupta et al. Analyzing the dynamics of research by extracting key aspects of scientific papers
CN113268995B (zh) 中文学术关键词抽取方法、装置和存储介质
CN108733647B (zh) 一种基于高斯分布的词向量生成方法
CN109885675B (zh) 基于改进lda的文本子话题发现方法
US11003950B2 (en) System and method to identify entity of data
Rahimi et al. An overview on extractive text summarization
Rizvi et al. Optical character recognition system for Nastalique Urdu-like script languages using supervised learning
CN112069312B (zh) 一种基于实体识别的文本分类方法及电子装置
CN108491375B (zh) 基于CN-DBpedia的实体识别与链接系统和方法
US11170169B2 (en) System and method for language-independent contextual embedding
Ren et al. Detecting the scope of negation and speculation in biomedical texts by using recursive neural network
CN110879834A (zh) 一种基于循环卷积网络的观点检索系统及其观点检索方法
Sousa et al. Word sense disambiguation: an evaluation study of semi-supervised approaches with word embeddings
CN112711666B (zh) 期货标签抽取方法及装置
CN112528653A (zh) 短文本实体识别方法和系统
Hassani et al. Disambiguating spatial prepositions using deep convolutional networks
AlMahmoud et al. The effect of clustering algorithms on question answering
CN114969324A (zh) 基于主题词特征扩展的中文新闻标题分类方法
Yang et al. Hierarchical dialog state tracking with unknown slot values
Sam et al. Combining proper name-coreference with conditional random fields for semi-supervised named entity recognition in Vietnamese text
Rajkumar et al. An efficient feature extraction with bidirectional long short term memory based deep learning model for Tamil document classification
Fakhrahmad et al. A new fuzzy rule-based classification system for word sense disambiguation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant