CN110866399A - 一种基于增强字符向量的中文短文本实体识别与消歧方法 - Google Patents

一种基于增强字符向量的中文短文本实体识别与消歧方法 Download PDF

Info

Publication number
CN110866399A
CN110866399A CN201911019637.4A CN201911019637A CN110866399A CN 110866399 A CN110866399 A CN 110866399A CN 201911019637 A CN201911019637 A CN 201911019637A CN 110866399 A CN110866399 A CN 110866399A
Authority
CN
China
Prior art keywords
character
sequence
entity
vector
disambiguation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911019637.4A
Other languages
English (en)
Other versions
CN110866399B (zh
Inventor
向阳
杨力
徐忠国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN201911019637.4A priority Critical patent/CN110866399B/zh
Publication of CN110866399A publication Critical patent/CN110866399A/zh
Application granted granted Critical
Publication of CN110866399B publication Critical patent/CN110866399B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Character Discrimination (AREA)

Abstract

本发明涉及一种基于增强字符向量的中文短文本实体识别与消歧方法,该方法包括以下步骤:步骤1:结合提及库与上下文语境对输入文本进行实体识别;步骤2:根据待消歧提及与候选实体的语义匹配对经过实体识别处理后的文本进行实体消歧。与现有技术相比,本发明提供一种基于增强字符向量的神经网络输入,包括引入提及词典库信息和提及位置信息,实现中文短文本实体识别与消歧的方法。

Description

一种基于增强字符向量的中文短文本实体识别与消歧方法
技术领域
本发明涉及神经语言程序学(Neuro-Linguistic Programming,NLP)领域,涉及一种中文短文本的实体链接方法,尤其是涉及一种基于增强字符向量的中文短文本实体识别与消歧方法。
背景技术
实体链接(Entity Linking,EL)旨在识别文本中实体潜在的、模糊的提及,并将它们链接到目标知识库(Knowledge Base,KB)。对于许多NLP任务(如知识融合、知识库构建和基于知识库的问答系统)来说,这是一个必不可少的步骤。EL系统通常由两个子任务组成:(1)实体识别(Entity Recognition,ER):从文本片段中提取所有潜在的实体引用(即提及);(2)实体消歧(Entity Disambiguation,ED):将这些有歧义的提及映射到KB中的正确实体。
实体链接已经研究多年,并借助神经网络取得了很大的进步。但大多数研究工作都是为英文语料库设计的,尤其是长文本。而与英语长文本的实体链接相比,中文短文本实体链接是一项更具挑战性的任务。首先,中文文本缺乏显式的分隔符,如缺少空格来分隔单词,因此很难识别提及的边界。以往对中文的实体识别的研究主要分为两类:基于单词序列输入和基于字符序列输入的方法。基于字符序列输入的方法已被证实要优于基于单词序列输入的方法,因为它不会受分词错误的影响。然而,这种方法不能完全利用潜在的有用的单词序列信息。为此,研究需要加入外部信息来改进其性能。其次,最近很多实体消歧模型利用全局上下文来捕捉在文档中一组相关的提及所对应的实体之间的一致性,以达到联合消歧的目的。然而,短文本往往噪声多,缺乏连贯性和丰富的全局信息,使得联合消歧模型无法直接应用。最后,在使用神经网络产生提及表征(Mention Representation)的时候,研究应考虑提及的位置,否则同一文本中的所有提及都被视为相同。以前的研究通常通过将上下文拆分为两个部分来考虑提及的位置:提及的左侧子句和右侧子句,并使用一对神经网络来分别处理这两个子句。然而这种并不适合短文本的情况,因为两侧的子句都会比原始文本短,更难提取有用的语义信息。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于增强字符向量的神经网络输入,包括引入提及词典库信息和提及位置信息,实现中文短文本实体识别与消歧的方法。
本发明的目的可以通过以下技术方案来实现:
一种基于增强字符向量的中文短文本实体识别与消歧方法,该方法显式结合提及库匹配信息和提及位置信息,包括以下步骤:
步骤1:结合提及库与上下文语境对输入文本进行实体识别;
步骤2:根据待消歧提及与候选实体的语义匹配对经过实体识别处理后的文本进行实体消歧。
进一步地,显式结合提及库匹配信息,所述的步骤1包括以下分步骤:
步骤11:根据输入文本获得字符序列,训练字符序列得到字符向量
Figure BDA0002246769620000021
步骤12:将所述字符序列输入至预训练语言模型中得到字符上下文向量
Figure BDA0002246769620000022
步骤13:针对所述输入文本进行切割得到邻接字序列,训练邻接字序列得到邻接字符向量
Figure BDA0002246769620000023
步骤14:使用分词工具导入提及词典库,并针对所述输入文本进行分词得到词序列,训练词序列得到字符所在词向量
Figure BDA0002246769620000024
步骤15:针对所述词序列进行分词边界标注得到字符位置标注序列,训练字符位置标注序列得到字符位置向量
Figure BDA0002246769620000025
步骤16:将所述字符序列和所述字符位置标注序列组合得到融合位置信息的字符序列,训练融合位置信息的字符序列得到位置感知字符向量
Figure BDA0002246769620000026
步骤17:结合所述提及词典库和所述输入文本得到候选提及列表,利用标注集标注字符在所述候选提及列表中的位置得到最大匹配标注序列,训练最大匹配标注序列得到最大匹配标注向量
Figure BDA0002246769620000027
步骤18:针对所述字符序列中的每个字符构造N元片段序列与所述提及词典库进行匹配,并利用所有构造的所述N元片段序列得到多热N元匹配特征向量
Figure BDA0002246769620000028
步骤19:将每个字符对应的步骤11~步骤18的各特征向量拼接成增强字符向量并构成序列,并输入至序列标注网络模型进行训练以识别出提及列表。
进一步地,显式结合提及位置信息,所述的步骤2包括以下分步骤:
步骤21:将步骤1中得到的识别结果,即提及列表输入至提及到实体的映射表中并得到候选实体列表;
步骤22:获取步骤1中输入文本的每个字符至所述提及列表的相对距离,并将所述相对距离转化为连续的字符相对距离向量
Figure BDA0002246769620000031
步骤23:将字符相对距离向量
Figure BDA0002246769620000032
与步骤1中输入文本对应的字符向量拼接得到位置增强的字符向量
Figure BDA0002246769620000033
并输入至消歧网络模型中并最终得到提及表征rm
步骤24:输入所述候选实体列表的描述文本至消歧网络模型中并最终得到实体表征re
步骤25:计算提及表征rm与实体表征re的余弦匹配相似度ej,并根据余弦匹配相似度ej选择得分最高的候选实体输出,实现实体消歧。
进一步地,所述步骤23中的提及表征rm,其计算公式为:
Figure BDA0002246769620000034
式中,
Figure BDA0002246769620000035
Figure BDA0002246769620000036
分别为将位置增强的字符向量输入至消歧网络模型中得到的隐藏状态序列中的第一个量和最后一个量,
Figure BDA0002246769620000037
表示自注意力机制向量。
进一步地,所述自注意力机制向量的计算公式为:
Figure BDA0002246769620000038
Figure BDA0002246769620000039
Figure BDA00022467696200000310
式中,
Figure BDA00022467696200000311
表示对应提及表征的映射参数,
Figure BDA00022467696200000312
Figure BDA00022467696200000313
分别表示对应提及表征的所述隐藏状态序列中的第i个量和第k个量,
Figure BDA00022467696200000314
Figure BDA00022467696200000315
分别表示对应提及表征的第i个和第k个自注意力权重。
进一步地,所述步骤24中的实体表征re,其计算公式为:
Figure BDA00022467696200000316
Figure BDA00022467696200000317
Figure BDA0002246769620000041
式中,
Figure BDA0002246769620000042
和wα表示对应实体表征的映射参数,
Figure BDA0002246769620000043
Figure BDA0002246769620000044
分别表示输入所述候选实体列表的描述文本至消歧网络模型中得到的隐藏状态序列中的第i个量和第t个量,
Figure BDA0002246769620000045
Figure BDA0002246769620000046
分别表示对应实体表征的第i个和第k个注意力权重。
进一步地,所述步骤25中的余弦匹配相似度ej,其计算公式为:
Figure BDA0002246769620000047
式中,
Figure BDA0002246769620000048
表示第j个提及表征,
Figure BDA0002246769620000049
表示根据第j个提及表征得到的第k个实体表征。
进一步地,所述步骤11中的字符序列的训练方法采用Word2vec、FastText或Glove;所述步骤12中的预训练语言模型为BERT、ERNIE或BERT_wwm;所述步骤13中的邻接字序为Bi-gram;所述步骤14中的分词工具为jieba、THULAC或HanLP;所述步骤14中的词序列的训练方法采用Word2vec、FastText或Glove;所述步骤16中的融合位置信息的字符序列的训练方法采用Word2vec、FastText或Glove;所述步骤19中的序列标注网络模型为BiLSTM+CNN+CRF。
进一步地,所述步骤23和步骤24中的消歧网络模型为BiLSTM+CNN。
与现有技术相比,本发明具有以下优点:
(1)本发明方法步骤中显式引入提及词典库信息,充分利用句子中单词的语义信息,同时不受分词错误的影响,有利于提及边界的识别。
(2)本发明网络模型的BiLSTM能捕捉全局信息,CNN能捕捉局部信息,CRF能保证连续标注之间的依赖性,适合中文短文本长度短的特点。
(3)本发明方法步骤中充分考虑实体识别模型抽取的提及位置信息,有效产生提及表征,精确消解实体歧义。
(4)本发明方法步骤中通过字符、词组语境信息拼接,弥补了上下文语义不足,增强了字符向量的语义表达。
附图说明
图1为本发明方法实体识别部分的模型示意图;
图2为本发明方法实体消歧部分的模型示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
本发明方法的技术方案分为2个部分:结合提及库与上下文语境进行实体识别,如图1所示,图中Enhanced Character Embedding表示增强字符向量;根据待消歧提及与候选实体的语义匹配进行实体消歧,如图2所示,图中Cosine similarity表示余弦相似度,Mention embedding表示提及向量,Entity embedding表示实体向量,First表示第一个,Last表示最后一个,Maxpool表示最大池化,Self-attention表示自注意力机制,Attentionor Maxpooling表示注意力机制或最大池化机制,Mention context表示提及文本,Entitydescription表示实体描述,Embedding表示字符向量,Position表示提及位置,具体内容如下:
第一部分的主要步骤为:
1.1输入中文短文本s,得到字符序列sc={c1,c2,...,cn},其中n表示总字符数;训练sc得到维度大小为d1的字符向量
Figure BDA0002246769620000051
Figure BDA0002246769620000052
其中ec为训练字符序列产生的字符向量查找表,ci表示sc中第i个字符。
1.2将1.1所述的sc输入至大规模语料预训练的语言模型中,得到维度大小为d2的字符上下文向量
Figure BDA0002246769620000053
Figure BDA0002246769620000054
其中e1为预训练语言模型产生的字符上下文向量查找表。
1.3将1.1所述的s切成邻接字序sb={c1c2,c2c3,...,cn-1cn},训练sb得到维度大小为d3的邻接字符向量
Figure BDA0002246769620000055
Figure BDA0002246769620000056
其中eb为训练邻接字序列产生的邻接字符向量查找表。
1.4使用分词工具导入提及词典库M={m1,m2,...,mu},其中u表示提及词典总数;对1.1所述的s进行分词得到词序列sw={w1,w2,...,wl},l表示分词总数;训练sw得到维度大小为d4的字符所在词向量
Figure BDA0002246769620000061
Figure BDA0002246769620000062
其中ew为训练词序列产生的词向量查找表;wj是sw中第j个词,表示字符ci所在的单词。
1.5使用对应标注集P对1.4的词序列进行分词边界标注,得到字符位置标注序列sp={p1,p2,...,pn};训练sp得到维度大小为d5的字符位置向量
Figure BDA0002246769620000063
Figure BDA0002246769620000064
其中ep为位置标注向量查找表,pi为sp中第i个标注符号。
1.6将1.1所述的字符序列sc与对应1.5所述的字符位置标注序列sp组合,得到融合位置信息的字符序列
Figure BDA0002246769620000065
训练scp得到维度大小为d6的位置感知字符向量
Figure BDA0002246769620000066
Figure BDA0002246769620000067
其中ecp为训练融合位置信息的字符序列产生的位置感知字符向量查找表。
1.7使用双向最大匹配算法,结合提及词典库M来找出1.1所述的中文短文本s的候选提及列表sh={h1,h2,...,hr},其中r表示总候选提及数;再使用对应标注集T标注字符在候选提及的位置,得到最大匹配标注序列st={t1,t2,...,tn};训练st得到维度大小为d7的最大匹配标注向量
Figure BDA0002246769620000068
Figure BDA0002246769620000069
其中et为最大匹配标注向量查找表;ti为st中第i个标注符号。
1.8为1.1所述的ci构造N元片段序列
Figure BDA00022467696200000610
与提及词典库M进行匹配,其中
Figure BDA00022467696200000611
以ci为中心扩充s长度为2n-1,从而保证单个序列的元素个数为2n-2;将这些N元片段构造一个多热N元匹配特征向量
Figure BDA00022467696200000612
Figure BDA00022467696200000613
Figure BDA00022467696200000614
Figure BDA00022467696200000615
1.9将1.1~1.8所述每个字符ci的特征向量拼接成增强字符向量xi
Figure BDA00022467696200000616
n个xi构成序列x={x1,x2,...,xn};输入x到序列标注模型进行训练,识别出提及列表m={m1,m2,...,mk},其中每个提及mj={cq...cr}均是s的一个子句。
第二部分的主要步骤为:
2.1将1.9所述的实体识别结果m作为待消歧实体,输入到提及到实体的映射表Q={m→E}中,为每个提及mj产生一个候选实体列表Ej={ej,1ej,2,...,ej,k}。
2.2计算1.1所述文本的每个字符ci到提及m的相对距离di,将之转为连续的字符相对距离向量
Figure BDA0002246769620000071
Figure BDA0002246769620000072
其中eb为字符相对距离向量查找表;
2.3将1.1所述的字符向量
Figure BDA0002246769620000073
拼接2.2所述的字符相对距离向量
Figure BDA0002246769620000074
得到位置增强的字符向量
Figure BDA0002246769620000075
Figure BDA0002246769620000076
Figure BDA0002246769620000077
输入到消歧网络模型中,得到隐藏状态序列
Figure BDA0002246769620000078
选取来自提及部分的隐藏状态序列
Figure BDA0002246769620000079
的第一个、最后一个以及对该部分序列进行自注意力机制计算的结果进行拼接,得到提及表征rm
Figure BDA00022467696200000710
式中,
Figure BDA00022467696200000711
Figure BDA00022467696200000712
分别为将位置增强的字符向量输入至消歧网络模型中得到的隐藏状态序列中的第一个量和最后一个量,
Figure BDA00022467696200000713
表示自注意力机制向量。
其中自注意力机制向量的计算如下:
Figure BDA00022467696200000714
Figure BDA00022467696200000715
Figure BDA00022467696200000716
式中,
Figure BDA00022467696200000717
表示对应提及表征的映射参数,
Figure BDA00022467696200000718
Figure BDA00022467696200000719
分别表示对应提及表征的所述隐藏状态序列中的第i个量和第k个量,
Figure BDA00022467696200000720
Figure BDA00022467696200000721
分别表示对应提及表征的第i个和第k个自注意力权重。
2.4输入候选实体e的描述文本
Figure BDA00022467696200000722
到消歧网络模型,得到隐藏状态序列
Figure BDA00022467696200000723
再进行注意力机制计算,输出实体表征re
Figure BDA00022467696200000724
Figure BDA0002246769620000081
Figure BDA0002246769620000082
式中,
Figure BDA0002246769620000083
和wα表示对应实体表征的映射参数,
Figure BDA0002246769620000084
Figure BDA0002246769620000085
分别表示输入所述候选实体列表的描述文本至消歧网络模型中得到的隐藏状态序列中的第i个量和第t个量,
Figure BDA0002246769620000086
Figure BDA0002246769620000087
分别表示对应实体表征的第i个和第k个注意力权重。
2.5计算2.3所述的提及表征与2.4所述的实体表征的余弦匹配相似度
Figure BDA0002246769620000088
式中,
Figure BDA0002246769620000089
表示第j个提及表征,
Figure BDA00022467696200000810
表示根据第j个提及表征得到的第k个实体表征。
根据ej选择得分最高的候选实体输出,实现实体消歧。
进一步地,1.1所述的训练的方法为Word2vec、FastText、Glove中的一种;
进一步地,1.2所述的预训练语言模型为BERT、ERNIE、BERT_wwm中的一种;
优选地,1.3所述的邻接字序列为Bi-gram;
进一步地,1.4所述的分词工具为jieba、THULAC、HanLP中的一种;
进一步地,1.4所述的训练的方法为Word2vec、FastText、Glove中的一种;
优选地,1.5所述标注每个字符在分词中的位置,是将第一个字符标记为B,中间字符标记为M,最后一个字符标记为E,单独作为一个词的字符标记为S。
进一步地,1.6所述的训练的方法为Word2vec、FastText、Glove中的一种;
进一步地,1.7所述标注每个字符在候选提及的位置,是将候选提及第一个字符标记为B,中间字符标记为M,最后一个字符标记为E,不在候选提及的字符标记为O。
优选地,1.9所述的序列标注网络模型为BiLSTM+CNN+CRF;
优选地,2.3所述消歧网络模型为BiLSTM+CNN;
优选地,2.4所述消歧网络模型为BiLSTM+CNN;
实施例
第一部分实体识别的主要步骤为:
1.1输入中文短文本“比特币吸粉无数”,得到字符序列[‘比’,‘特’,‘币’,‘吸’,‘粉’,‘无’,‘数’],字符数为7个,使用Word2vec的方法进行预训练,得到300维字符向量;
1.2输入1.1所述的中文短文本至大规模语料预训练的语言模型BERT中,得到768维的字符上下文向量;
1.3将1.1所述的中文短文本切成Bi-gram字序列[‘比特’,‘特币’,‘币吸’,‘吸粉’,‘粉无’,‘无数’],然后使用Word2vec的方法训练得到300维的邻接字符向量。
1.4输入1.1所述的中文短文本,将提及词典库导入至jieba分词工具而后进行分词,得到的词序列为:[‘比特币’,‘吸粉’,‘无数’],使用Word2vec的方法训练得到300维字符所在词向量;
1.5对1.4所述的分词词序列使用标注集P={B,M,E,S}进行分词边界标注,得到字符位置标注序列:[B,M,E,B,E,B,E],为这四个标记分别随机初始化一个50维向量,然后在模型训练时再进行优化。
1.6将1.5所述的字符位置标注序列与对应字符序列组合:[‘比B’,‘特M’,‘币E’,‘吸B’,‘粉E’,‘无B’,‘数E’]。对这些加入了位置信息的字序列使用Word2vec的方法进行训练,得到300维的位置感知字符向量。
1.7结合双向最大匹配算法和提及词典库来划分1.1所述的中文短文本,得到序列:[‘比特币’,‘吸’,‘粉’,‘无’,‘数’],再使用标注集T={B,M,E,O}标注为[B,M,E,O,O,O,O],为这四个标记分别随机初始化一个50维向量,然后在模型训练时再进行优化。
1.8将1.1所述的中文短文本中的每个字符为首(尾)的Bi-gram,Tri-gram,4-gram,5-gram,6-gram,7-gram片段与提及词典库进行匹配,生成14维的多热N元匹配特征向量;
1.9将上述向量相拼接构成增强字符向量,输入如图1所示的网络模型进行训练,得到实体识别结果:[‘比特币’]。
第二部分实体消歧的主要步骤为:
2.1将1.9所述的实体识别结果作为待消歧实体,输入到提及到实体的映射表产生候选实体列表:[‘比特币(货币)’,‘比特币(书籍)’];
2.2计算1.1所述文本的每个字符到提及[‘比特币’]的相对距离,进一步得到50维的字符相对距离向量;
2.3将1.1所述的字符向量拼接2.2所述的字符相对距离向量,输入到如图2所示的网络模型,对隐藏状态序列计算得到[‘比特币’]的提及表达;
2.4分别输入候选实体[‘比特币(货币)’]和[‘比特币(书籍)’]的描述文本到如图2的网络模型,对隐藏状态序列进行得到各自的实体表征;
2.5分别计算2.3所述的[‘比特币’]提及表征与2.4所述的[‘比特币(货币)’]实体表征和[‘比特币(书籍)’]实体表征的余弦匹配相似度,选择得分最高的候选实体[‘比特币”(货币)’]输出,实现实体消歧。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (9)

1.一种基于增强字符向量的中文短文本实体识别与消歧方法,其特征在于显式结合提及库匹配信息和提及位置信息,该方法包括以下步骤:
步骤1:结合提及库与上下文语境对输入文本进行实体识别;
步骤2:根据待消歧提及与候选实体的语义匹配对经过实体识别处理后的文本进行实体消歧。
2.根据权利要求1所述的一种基于增强字符向量的中文短文本实体识别与消歧方法,其特征在于显式结合提及库匹配信息,所述的步骤1包括以下分步骤:
步骤11:根据输入文本获得字符序列,训练字符序列得到字符向量
Figure FDA0002246769610000011
步骤12:将所述字符序列输入至预训练语言模型中得到字符上下文向量
Figure FDA0002246769610000012
步骤13:针对所述输入文本进行切割得到邻接字序列,训练邻接字序列得到邻接字符向量
Figure FDA0002246769610000013
步骤14:使用分词工具导入提及词典库,并针对所述输入文本进行分词得到词序列,训练词序列得到字符所在词向量
Figure FDA0002246769610000014
步骤15:针对所述词序列进行分词边界标注得到字符位置标注序列,训练字符位置标注序列得到字符位置向量
Figure FDA0002246769610000015
步骤16:将所述字符序列和所述字符位置标注序列组合得到融合位置信息的字符序列,训练融合位置信息的字符序列得到位置感知字符向量
Figure FDA0002246769610000016
步骤17:结合所述提及词典库和所述输入文本得到候选提及列表,利用标注集标注字符在所述候选提及列表中的位置得到最大匹配标注序列,训练最大匹配标注序列得到最大匹配标注向量
Figure FDA0002246769610000017
步骤18:针对所述字符序列中的每个字符构造N元片段序列与所述提及词典库进行匹配,并利用所有构造的所述N元片段序列得到多热N元匹配特征向量
Figure FDA0002246769610000018
步骤19:将每个字符对应的步骤11~步骤18的各特征向量拼接成增强字符向量并构成序列,并输入至序列标注网络模型进行训练以识别出提及列表。
3.根据权利要求1所述的一种基于增强字符向量的中文短文本实体识别与消歧方法,其特征在于显式结合提及位置信息,所述的步骤2包括以下分步骤:
步骤21:将步骤1中得到的识别结果,即提及列表输入至提及到实体的映射表中并得到候选实体列表;
步骤22:获取步骤1中输入文本的每个字符至所述提及列表的相对距离,并将所述相对距离转化为连续的字符相对距离向量
Figure FDA0002246769610000021
步骤23:将字符相对距离向量
Figure FDA0002246769610000022
与步骤1中输入文本对应的字符向量拼接得到位置增强的字符向量
Figure FDA0002246769610000023
并输入至消歧网络模型中并最终得到提及表征rm
步骤24:输入所述候选实体列表的描述文本至消歧网络模型中并最终得到实体表征re
步骤25:计算提及表征rm与实体表征re的余弦匹配相似度ej,并根据余弦匹配相似度ej选择得分最高的候选实体输出,实现实体消歧。
4.根据权利要求3所述的一种基于增强字符向量的中文短文本实体识别与消歧方法,其特征在于,所述步骤23中的提及表征rm,其计算公式为:
Figure FDA0002246769610000024
式中,
Figure FDA0002246769610000025
Figure FDA0002246769610000026
分别为将位置增强的字符向量输入至消歧网络模型中得到的隐藏状态序列中的第一个量和最后一个量,
Figure FDA0002246769610000027
表示自注意力机制向量。
5.根据权利要求4所述的一种基于增强字符向量的中文短文本实体识别与消歧方法,其特征在于,所述自注意力机制向量的计算公式为:
Figure FDA0002246769610000028
Figure FDA0002246769610000029
Figure FDA00022467696100000210
式中,
Figure FDA00022467696100000211
表示对应提及表征的映射参数,
Figure FDA00022467696100000212
Figure FDA00022467696100000213
分别表示对应提及表征的所述隐藏状态序列中的第i个量和第k个量,
Figure FDA00022467696100000214
Figure FDA00022467696100000215
分别表示对应提及表征的第i个和第k个自注意力权重。
6.根据权利要求3所述的一种基于增强字符向量的中文短文本实体识别与消歧方法,其特征在于,所述步骤24中的实体表征re,其计算公式为:
Figure FDA00022467696100000216
Figure FDA00022467696100000217
Figure FDA0002246769610000031
式中,
Figure FDA0002246769610000032
和wα表示对应实体表征的映射参数,
Figure FDA0002246769610000033
Figure FDA0002246769610000034
分别表示输入所述候选实体列表的描述文本至消歧网络模型中得到的隐藏状态序列中的第i个量和第t个量,
Figure FDA0002246769610000035
Figure FDA0002246769610000036
分别表示对应实体表征的第i个和第k个注意力权重。
7.根据权利要求3所述的一种基于增强字符向量的中文短文本实体识别与消歧方法,其特征在于,所述步骤25中的余弦匹配相似度ej,其计算公式为:
Figure FDA0002246769610000037
式中,
Figure FDA0002246769610000038
表示第j个提及表征,
Figure FDA0002246769610000039
表示根据第j个提及表征得到的第k个实体表征。
8.根据权利要求2所述的一种基于增强字符向量的中文短文本实体识别与消歧方法,其特征在于,所述步骤11中的字符序列的训练方法采用Word2vec、FastText或Glove;所述步骤12中的预训练语言模型为BERT、ERNIE或BERT_wwm;所述步骤13中的邻接字序为Bi-gram;所述步骤14中的分词工具为jieba、THULAC或HanLP;所述步骤14中的词序列的训练方法采用Word2vec、FastText或Glove;所述步骤16中的融合位置信息的字符序列的训练方法采用Word2vec、FastText或Glove;所述步骤19中的序列标注网络模型为BiLSTM+CNN+CRF。
9.根据权利要求3所述的一种基于增强字符向量的中文短文本实体识别与消歧方法,其特征在于,所述步骤23和步骤24中的消歧网络模型为BiLSTM+CNN。
CN201911019637.4A 2019-10-24 2019-10-24 一种基于增强字符向量的中文短文本实体识别与消歧方法 Active CN110866399B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911019637.4A CN110866399B (zh) 2019-10-24 2019-10-24 一种基于增强字符向量的中文短文本实体识别与消歧方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911019637.4A CN110866399B (zh) 2019-10-24 2019-10-24 一种基于增强字符向量的中文短文本实体识别与消歧方法

Publications (2)

Publication Number Publication Date
CN110866399A true CN110866399A (zh) 2020-03-06
CN110866399B CN110866399B (zh) 2023-05-02

Family

ID=69653095

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911019637.4A Active CN110866399B (zh) 2019-10-24 2019-10-24 一种基于增强字符向量的中文短文本实体识别与消歧方法

Country Status (1)

Country Link
CN (1) CN110866399B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111401049A (zh) * 2020-03-12 2020-07-10 京东方科技集团股份有限公司 一种实体链接方法及装置
CN111477320A (zh) * 2020-03-11 2020-07-31 北京大学第三医院(北京大学第三临床医学院) 治疗效果预测模型的构建系统、治疗效果预测系统及终端
CN111709243A (zh) * 2020-06-19 2020-09-25 南京优慧信安科技有限公司 一种基于深度学习的知识抽取方法与装置
CN112215008A (zh) * 2020-10-23 2021-01-12 中国平安人寿保险股份有限公司 基于语义理解的实体识别方法、装置、计算机设备和介质
CN112464669A (zh) * 2020-12-07 2021-03-09 宁波深擎信息科技有限公司 股票实体词消歧方法、计算机设备及存储介质
CN112507717A (zh) * 2020-12-16 2021-03-16 北京信息科技大学 融合实体关键字特征的医疗领域实体分类方法
CN112989832A (zh) * 2021-03-29 2021-06-18 华南理工大学 一种应用在网络安全领域的实体链接方法
CN113158687A (zh) * 2021-04-29 2021-07-23 新声科技(深圳)有限公司 语义的消歧方法及装置、存储介质、电子装置
CN113626613A (zh) * 2021-08-18 2021-11-09 中山大学附属第一医院 基于融入知识图谱子图信息及实体信息的实体链接方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108681537A (zh) * 2018-05-08 2018-10-19 中国人民解放军国防科技大学 一种基于神经网络及词向量的中文实体链接方法
CN109657230A (zh) * 2018-11-06 2019-04-19 众安信息技术服务有限公司 融合词向量和词性向量的命名实体识别方法及装置
CN109800437A (zh) * 2019-01-31 2019-05-24 北京工业大学 一种基于特征融合的命名实体识别方法
CN109871538A (zh) * 2019-02-18 2019-06-11 华南理工大学 一种中文电子病历命名实体识别方法
WO2019137562A2 (en) * 2019-04-25 2019-07-18 Alibaba Group Holding Limited Identifying entities in electronic medical records
CN110134954A (zh) * 2019-05-06 2019-08-16 北京工业大学 一种基于Attention机制的命名实体识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108681537A (zh) * 2018-05-08 2018-10-19 中国人民解放军国防科技大学 一种基于神经网络及词向量的中文实体链接方法
CN109657230A (zh) * 2018-11-06 2019-04-19 众安信息技术服务有限公司 融合词向量和词性向量的命名实体识别方法及装置
CN109800437A (zh) * 2019-01-31 2019-05-24 北京工业大学 一种基于特征融合的命名实体识别方法
CN109871538A (zh) * 2019-02-18 2019-06-11 华南理工大学 一种中文电子病历命名实体识别方法
WO2019137562A2 (en) * 2019-04-25 2019-07-18 Alibaba Group Holding Limited Identifying entities in electronic medical records
CN110134954A (zh) * 2019-05-06 2019-08-16 北京工业大学 一种基于Attention机制的命名实体识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
QI WANG 等: "Incorporating dictionaries into deep neural networks for the Chinese clinical named entity recognition" *
严红;陈兴蜀;王文贤;王海舟;殷明勇;: "基于深度神经网络的法语命名实体识别模型" *
陈玉博;何世柱;刘康;赵军;吕学强;: "融合多种特征的实体链接技术研究" *
韩鑫鑫;贲可荣;张献;: "军用软件测试领域的命名实体识别技术研究" *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111477320A (zh) * 2020-03-11 2020-07-31 北京大学第三医院(北京大学第三临床医学院) 治疗效果预测模型的构建系统、治疗效果预测系统及终端
CN111477320B (zh) * 2020-03-11 2023-05-30 北京大学第三医院(北京大学第三临床医学院) 治疗效果预测模型的构建系统、治疗效果预测系统及终端
WO2021179897A1 (zh) * 2020-03-12 2021-09-16 京东方科技集团股份有限公司 实体链接方法及装置
US11914959B2 (en) 2020-03-12 2024-02-27 Boe Technology Group Co., Ltd. Entity linking method and apparatus
CN111401049A (zh) * 2020-03-12 2020-07-10 京东方科技集团股份有限公司 一种实体链接方法及装置
CN111709243B (zh) * 2020-06-19 2023-07-07 南京优慧信安科技有限公司 一种基于深度学习的知识抽取方法与装置
CN111709243A (zh) * 2020-06-19 2020-09-25 南京优慧信安科技有限公司 一种基于深度学习的知识抽取方法与装置
CN112215008A (zh) * 2020-10-23 2021-01-12 中国平安人寿保险股份有限公司 基于语义理解的实体识别方法、装置、计算机设备和介质
CN112215008B (zh) * 2020-10-23 2024-04-16 中国平安人寿保险股份有限公司 基于语义理解的实体识别方法、装置、计算机设备和介质
CN112464669A (zh) * 2020-12-07 2021-03-09 宁波深擎信息科技有限公司 股票实体词消歧方法、计算机设备及存储介质
CN112464669B (zh) * 2020-12-07 2024-02-09 宁波深擎信息科技有限公司 股票实体词消歧方法、计算机设备及存储介质
CN112507717A (zh) * 2020-12-16 2021-03-16 北京信息科技大学 融合实体关键字特征的医疗领域实体分类方法
CN112989832A (zh) * 2021-03-29 2021-06-18 华南理工大学 一种应用在网络安全领域的实体链接方法
CN113158687A (zh) * 2021-04-29 2021-07-23 新声科技(深圳)有限公司 语义的消歧方法及装置、存储介质、电子装置
CN113158687B (zh) * 2021-04-29 2021-12-28 新声科技(深圳)有限公司 语义的消歧方法及装置、存储介质、电子装置
CN113626613A (zh) * 2021-08-18 2021-11-09 中山大学附属第一医院 基于融入知识图谱子图信息及实体信息的实体链接方法

Also Published As

Publication number Publication date
CN110866399B (zh) 2023-05-02

Similar Documents

Publication Publication Date Title
CN110866399B (zh) 一种基于增强字符向量的中文短文本实体识别与消歧方法
US8275604B2 (en) Adaptive pattern learning for bilingual data mining
Kumar et al. Part of speech taggers for morphologically rich indian languages: a survey
Salloum et al. Elissa: A dialectal to standard Arabic machine translation system
CN112926324B (zh) 融合词典与对抗迁移的越南语事件实体识别方法
CN105068997B (zh) 平行语料的构建方法及装置
CN112541356A (zh) 一种生物医学命名实体识别的方法和系统
Dien et al. POS-tagger for English-Vietnamese bilingual corpus
Jindal Generating image captions in Arabic using root-word based recurrent neural networks and deep neural networks
KR20190065665A (ko) 딥 러닝을 이용한 한국어 개체명 인식 장치 및 방법
CN114757184B (zh) 实现航空领域知识问答的方法和系统
CN114036955A (zh) 中心词跨句事件论元检测方法
CN117010387A (zh) 融合注意力机制的RoBERTa-BiLSTM-CRF语音对话文本命名实体识别系统
CN111950281B (zh) 一种基于深度学习和上下文语义的需求实体共指检测方法和装置
Jindal A deep learning approach for arabic caption generation using roots-words
Rasooli et al. Non-monotonic parsing of fluent umm I mean disfluent sentences
CN111767733A (zh) 一种基于统计分词的文献密级甄别方法
CN116306594A (zh) 一种医学ocr识别纠错方法
CN109960782A (zh) 一种基于深度神经网络的藏文分词方法及装置
Alfaidi et al. Exploring the performance of farasa and CAMeL taggers for arabic dialect tweets.
JP5298834B2 (ja) 例文マッチング翻訳装置、およびプログラム、並びに翻訳装置を含んで構成された句翻訳装置
JP5194920B2 (ja) 例文集合ベース翻訳装置、方法およびプログラム、並びに翻訳装置を含んで構成された句翻訳装置
Jafar Tafreshi et al. A novel approach to conditional random field-based named entity recognition using Persian specific features
Ezeani et al. Igbo diacritic restoration using embedding models
Nathani et al. Part of speech tagging for a resource poor language: Sindhi in Devanagari script using HMM and CRF

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant