CN110866399B - 一种基于增强字符向量的中文短文本实体识别与消歧方法 - Google Patents
一种基于增强字符向量的中文短文本实体识别与消歧方法 Download PDFInfo
- Publication number
- CN110866399B CN110866399B CN201911019637.4A CN201911019637A CN110866399B CN 110866399 B CN110866399 B CN 110866399B CN 201911019637 A CN201911019637 A CN 201911019637A CN 110866399 B CN110866399 B CN 110866399B
- Authority
- CN
- China
- Prior art keywords
- character
- sequence
- entity
- vector
- disambiguation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000013598 vector Substances 0.000 title claims abstract description 91
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000012545 processing Methods 0.000 claims abstract description 3
- 238000012549 training Methods 0.000 claims description 43
- 238000002372 labelling Methods 0.000 claims description 31
- 230000011218 segmentation Effects 0.000 claims description 16
- 238000012512 characterization method Methods 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000013507 mapping Methods 0.000 claims description 10
- 239000012634 fragment Substances 0.000 claims description 9
- 230000004927 fusion Effects 0.000 claims description 5
- 230000008676 import Effects 0.000 claims description 2
- 238000013528 artificial neural network Methods 0.000 abstract description 5
- 239000000843 powder Substances 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000009411 base construction Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Character Discrimination (AREA)
Abstract
本发明涉及一种基于增强字符向量的中文短文本实体识别与消歧方法,该方法包括以下步骤:步骤1:结合提及库与上下文语境对输入文本进行实体识别;步骤2:根据待消歧提及与候选实体的语义匹配对经过实体识别处理后的文本进行实体消歧。与现有技术相比,本发明提供一种基于增强字符向量的神经网络输入,包括引入提及词典库信息和提及位置信息,实现中文短文本实体识别与消歧的方法。
Description
技术领域
本发明涉及神经语言程序学(Neuro-Linguistic Programming,NLP)领域,涉及一种中文短文本的实体链接方法,尤其是涉及一种基于增强字符向量的中文短文本实体识别与消歧方法。
背景技术
实体链接(Entity Linking,EL)旨在识别文本中实体潜在的、模糊的提及,并将它们链接到目标知识库(Knowledge Base,KB)。对于许多NLP任务(如知识融合、知识库构建和基于知识库的问答系统)来说,这是一个必不可少的步骤。EL系统通常由两个子任务组成:(1)实体识别(Entity Recognition,ER):从文本片段中提取所有潜在的实体引用(即提及);(2)实体消歧(Entity Disambiguation,ED):将这些有歧义的提及映射到KB中的正确实体。
实体链接已经研究多年,并借助神经网络取得了很大的进步。但大多数研究工作都是为英文语料库设计的,尤其是长文本。而与英语长文本的实体链接相比,中文短文本实体链接是一项更具挑战性的任务。首先,中文文本缺乏显式的分隔符,如缺少空格来分隔单词,因此很难识别提及的边界。以往对中文的实体识别的研究主要分为两类:基于单词序列输入和基于字符序列输入的方法。基于字符序列输入的方法已被证实要优于基于单词序列输入的方法,因为它不会受分词错误的影响。然而,这种方法不能完全利用潜在的有用的单词序列信息。为此,研究需要加入外部信息来改进其性能。其次,最近很多实体消歧模型利用全局上下文来捕捉在文档中一组相关的提及所对应的实体之间的一致性,以达到联合消歧的目的。然而,短文本往往噪声多,缺乏连贯性和丰富的全局信息,使得联合消歧模型无法直接应用。最后,在使用神经网络产生提及表征(Mention Representation)的时候,研究应考虑提及的位置,否则同一文本中的所有提及都被视为相同。以前的研究通常通过将上下文拆分为两个部分来考虑提及的位置:提及的左侧子句和右侧子句,并使用一对神经网络来分别处理这两个子句。然而这种并不适合短文本的情况,因为两侧的子句都会比原始文本短,更难提取有用的语义信息。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于增强字符向量的神经网络输入,包括引入提及词典库信息和提及位置信息,实现中文短文本实体识别与消歧的方法。
本发明的目的可以通过以下技术方案来实现:
一种基于增强字符向量的中文短文本实体识别与消歧方法,该方法显式结合提及库匹配信息和提及位置信息,包括以下步骤:
步骤1:结合提及库与上下文语境对输入文本进行实体识别;
步骤2:根据待消歧提及与候选实体的语义匹配对经过实体识别处理后的文本进行实体消歧。
进一步地,显式结合提及库匹配信息,所述的步骤1包括以下分步骤:
步骤19:将每个字符对应的步骤11~步骤18的各特征向量拼接成增强字符向量并构成序列,并输入至序列标注网络模型进行训练以识别出提及列表。
进一步地,显式结合提及位置信息,所述的步骤2包括以下分步骤:
步骤21:将步骤1中得到的识别结果,即提及列表输入至提及到实体的映射表中并得到候选实体列表;
步骤24:输入所述候选实体列表的描述文本至消歧网络模型中并最终得到实体表征re;
步骤25:计算提及表征rm与实体表征re的余弦匹配相似度ej,并根据余弦匹配相似度ej选择得分最高的候选实体输出,实现实体消歧。
进一步地,所述步骤23中的提及表征rm,其计算公式为:
进一步地,所述自注意力机制向量的计算公式为:
进一步地,所述步骤24中的实体表征re,其计算公式为:
进一步地,所述步骤25中的余弦匹配相似度ej,其计算公式为:
进一步地,所述步骤11中的字符序列的训练方法采用Word2vec、FastText或Glove;所述步骤12中的预训练语言模型为BERT、ERNIE或BERT_wwm;所述步骤13中的邻接字序为Bi-gram;所述步骤14中的分词工具为jieba、THULAC或HanLP;所述步骤14中的词序列的训练方法采用Word2vec、FastText或Glove;所述步骤16中的融合位置信息的字符序列的训练方法采用Word2vec、FastText或Glove;所述步骤19中的序列标注网络模型为BiLSTM+CNN+CRF。
进一步地,所述步骤23和步骤24中的消歧网络模型为BiLSTM+CNN。
与现有技术相比,本发明具有以下优点:
(1)本发明方法步骤中显式引入提及词典库信息,充分利用句子中单词的语义信息,同时不受分词错误的影响,有利于提及边界的识别。
(2)本发明网络模型的BiLSTM能捕捉全局信息,CNN能捕捉局部信息,CRF能保证连续标注之间的依赖性,适合中文短文本长度短的特点。
(3)本发明方法步骤中充分考虑实体识别模型抽取的提及位置信息,有效产生提及表征,精确消解实体歧义。
(4)本发明方法步骤中通过字符、词组语境信息拼接,弥补了上下文语义不足,增强了字符向量的语义表达。
附图说明
图1为本发明方法实体识别部分的模型示意图;
图2为本发明方法实体消歧部分的模型示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
本发明方法的技术方案分为2个部分:结合提及库与上下文语境进行实体识别,如图1所示,图中Enhanced Character Embedding表示增强字符向量;根据待消歧提及与候选实体的语义匹配进行实体消歧,如图2所示,图中Cosine similarity表示余弦相似度,Mention embedding表示提及向量,Entity embedding表示实体向量,First表示第一个,Last表示最后一个,Maxpool表示最大池化,Self-attention表示自注意力机制,Attentionor Maxpooling表示注意力机制或最大池化机制,Mention context表示提及文本,Entitydescription表示实体描述,Embedding表示字符向量,Position表示提及位置,具体内容如下:
第一部分的主要步骤为:
其中ec为训练字符序列产生的字符向量查找表,ci表示sc中第i个字符。
其中e1为预训练语言模型产生的字符上下文向量查找表。
其中eb为训练邻接字序列产生的邻接字符向量查找表。
1.4使用分词工具导入提及词典库M={m1,m2,...,mu},其中u表示提及词典总数;对1.1所述的s进行分词得到词序列sw={w1,w2,...,wl},l表示分词总数;训练sw得到维度大小为d4的字符所在词向量
其中ew为训练词序列产生的词向量查找表;wj是sw中第j个词,表示字符ci所在的单词。
其中ep为位置标注向量查找表,pi为sp中第i个标注符号。
其中ecp为训练融合位置信息的字符序列产生的位置感知字符向量查找表。
1.7使用双向最大匹配算法,结合提及词典库M来找出1.1所述的中文短文本s的候选提及列表sh={h1,h2,...,hr},其中r表示总候选提及数;再使用对应标注集T标注字符在候选提及的位置,得到最大匹配标注序列st={t1,t2,...,tn};训练st得到维度大小为d7的最大匹配标注向量
其中et为最大匹配标注向量查找表;ti为st中第i个标注符号。
1.9将1.1~1.8所述每个字符ci的特征向量拼接成增强字符向量xi:
n个xi构成序列x={x1,x2,...,xn};输入x到序列标注模型进行训练,识别出提及列表m={m1,m2,...,mk},其中每个提及mj={cq...cr}均是s的一个子句。
第二部分的主要步骤为:
2.1将1.9所述的实体识别结果m作为待消歧实体,输入到提及到实体的映射表Q={m→E}中,为每个提及mj产生一个候选实体列表Ej={ej,1ej,2,...,ej,k}。
其中eb为字符相对距离向量查找表;
其中自注意力机制向量的计算如下:
2.5计算2.3所述的提及表征与2.4所述的实体表征的余弦匹配相似度
根据ej选择得分最高的候选实体输出,实现实体消歧。
进一步地,1.1所述的训练的方法为Word2vec、FastText、Glove中的一种;
进一步地,1.2所述的预训练语言模型为BERT、ERNIE、BERT_wwm中的一种;
优选地,1.3所述的邻接字序列为Bi-gram;
进一步地,1.4所述的分词工具为jieba、THULAC、HanLP中的一种;
进一步地,1.4所述的训练的方法为Word2vec、FastText、Glove中的一种;
优选地,1.5所述标注每个字符在分词中的位置,是将第一个字符标记为B,中间字符标记为M,最后一个字符标记为E,单独作为一个词的字符标记为S。
进一步地,1.6所述的训练的方法为Word2vec、FastText、Glove中的一种;
进一步地,1.7所述标注每个字符在候选提及的位置,是将候选提及第一个字符标记为B,中间字符标记为M,最后一个字符标记为E,不在候选提及的字符标记为O。
优选地,1.9所述的序列标注网络模型为BiLSTM+CNN+CRF;
优选地,2.3所述消歧网络模型为BiLSTM+CNN;
优选地,2.4所述消歧网络模型为BiLSTM+CNN;
实施例
第一部分实体识别的主要步骤为:
1.1输入中文短文本“比特币吸粉无数”,得到字符序列[‘比’,‘特’,‘币’,‘吸’,‘粉’,‘无’,‘数’],字符数为7个,使用Word2vec的方法进行预训练,得到300维字符向量;
1.2输入1.1所述的中文短文本至大规模语料预训练的语言模型BERT中,得到768维的字符上下文向量;
1.3将1.1所述的中文短文本切成Bi-gram字序列[‘比特’,‘特币’,‘币吸’,‘吸粉’,‘粉无’,‘无数’],然后使用Word2vec的方法训练得到300维的邻接字符向量。
1.4输入1.1所述的中文短文本,将提及词典库导入至jieba分词工具而后进行分词,得到的词序列为:[‘比特币’,‘吸粉’,‘无数’],使用Word2vec的方法训练得到300维字符所在词向量;
1.5对1.4所述的分词词序列使用标注集P={B,M,E,S}进行分词边界标注,得到字符位置标注序列:[B,M,E,B,E,B,E],为这四个标记分别随机初始化一个50维向量,然后在模型训练时再进行优化。
1.6将1.5所述的字符位置标注序列与对应字符序列组合:[‘比B’,‘特M’,‘币E’,‘吸B’,‘粉E’,‘无B’,‘数E’]。对这些加入了位置信息的字序列使用Word2vec的方法进行训练,得到300维的位置感知字符向量。
1.7结合双向最大匹配算法和提及词典库来划分1.1所述的中文短文本,得到序列:[‘比特币’,‘吸’,‘粉’,‘无’,‘数’],再使用标注集T={B,M,E,O}标注为[B,M,E,O,O,O,O],为这四个标记分别随机初始化一个50维向量,然后在模型训练时再进行优化。
1.8将1.1所述的中文短文本中的每个字符为首(尾)的Bi-gram,Tri-gram,4-gram,5-gram,6-gram,7-gram片段与提及词典库进行匹配,生成14维的多热N元匹配特征向量;
1.9将上述向量相拼接构成增强字符向量,输入如图1所示的网络模型进行训练,得到实体识别结果:[‘比特币’]。
第二部分实体消歧的主要步骤为:
2.1将1.9所述的实体识别结果作为待消歧实体,输入到提及到实体的映射表产生候选实体列表:[‘比特币(货币)’,‘比特币(书籍)’];
2.2计算1.1所述文本的每个字符到提及[‘比特币’]的相对距离,进一步得到50维的字符相对距离向量;
2.3将1.1所述的字符向量拼接2.2所述的字符相对距离向量,输入到如图2所示的网络模型,对隐藏状态序列计算得到[‘比特币’]的提及表达;
2.4分别输入候选实体[‘比特币(货币)’]和[‘比特币(书籍)’]的描述文本到如图2的网络模型,对隐藏状态序列进行得到各自的实体表征;
2.5分别计算2.3所述的[‘比特币’]提及表征与2.4所述的[‘比特币(货币)’]实体表征和[‘比特币(书籍)’]实体表征的余弦匹配相似度,选择得分最高的候选实体[‘比特币”(货币)’]输出,实现实体消歧。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (8)
1.一种基于增强字符向量的中文短文本实体识别与消歧方法,其特征在于显式结合提及库匹配信息和提及位置信息,该方法包括以下步骤:
步骤1:结合提及库与上下文语境对输入文本进行实体识别;
步骤2:根据待消歧提及与候选实体的语义匹配对经过实体识别处理后的文本进行实体消歧;
该方法显式结合提及库匹配信息,所述的步骤1包括以下分步骤:
步骤19:将每个字符对应的步骤11~步骤18的各特征向量拼接成增强字符向量并构成序列,并输入至序列标注网络模型进行训练以识别出提及列表。
2.根据权利要求1所述的一种基于增强字符向量的中文短文本实体识别与消歧方法,其特征在于显式结合提及位置信息,所述的步骤2包括以下分步骤:
步骤21:将步骤1中得到的识别结果,即提及列表输入至提及到实体的映射表中并得到候选实体列表;
步骤24:输入所述候选实体列表的描述文本至消歧网络模型中并最终得到实体表征re;
步骤25:计算提及表征rm与实体表征re的余弦匹配相似度ej,并根据余弦匹配相似度ej选择得分最高的候选实体输出,实现实体消歧。
7.根据权利要求1所述的一种基于增强字符向量的中文短文本实体识别与消歧方法,其特征在于,所述步骤11中的字符序列的训练方法采用Word2vec、FastText或Glove;所述步骤12中的预训练语言模型为BERT、ERNIE或BERT_wwm;所述步骤13中的邻接字序为Bi-gram;所述步骤14中的分词工具为jieba、THULAC或HanLP;所述步骤14中的词序列的训练方法采用Word2vec、FastText或Glove;所述步骤16中的融合位置信息的字符序列的训练方法采用Word2vec、FastText或Glove;所述步骤19中的序列标注网络模型为BiLSTM+CNN+CRF。
8.根据权利要求2所述的一种基于增强字符向量的中文短文本实体识别与消歧方法,其特征在于,所述步骤23和步骤24中的消歧网络模型为BiLSTM+CNN。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911019637.4A CN110866399B (zh) | 2019-10-24 | 2019-10-24 | 一种基于增强字符向量的中文短文本实体识别与消歧方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911019637.4A CN110866399B (zh) | 2019-10-24 | 2019-10-24 | 一种基于增强字符向量的中文短文本实体识别与消歧方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110866399A CN110866399A (zh) | 2020-03-06 |
CN110866399B true CN110866399B (zh) | 2023-05-02 |
Family
ID=69653095
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911019637.4A Active CN110866399B (zh) | 2019-10-24 | 2019-10-24 | 一种基于增强字符向量的中文短文本实体识别与消歧方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110866399B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111477320B (zh) * | 2020-03-11 | 2023-05-30 | 北京大学第三医院(北京大学第三临床医学院) | 治疗效果预测模型的构建系统、治疗效果预测系统及终端 |
CN111401049B (zh) | 2020-03-12 | 2024-08-13 | 京东方科技集团股份有限公司 | 一种实体链接方法及装置 |
CN111709243B (zh) * | 2020-06-19 | 2023-07-07 | 南京优慧信安科技有限公司 | 一种基于深度学习的知识抽取方法与装置 |
CN112215008B (zh) * | 2020-10-23 | 2024-04-16 | 中国平安人寿保险股份有限公司 | 基于语义理解的实体识别方法、装置、计算机设备和介质 |
CN112464669B (zh) * | 2020-12-07 | 2024-02-09 | 宁波深擎信息科技有限公司 | 股票实体词消歧方法、计算机设备及存储介质 |
CN112507717A (zh) * | 2020-12-16 | 2021-03-16 | 北京信息科技大学 | 融合实体关键字特征的医疗领域实体分类方法 |
CN112699683A (zh) * | 2020-12-31 | 2021-04-23 | 大唐融合通信股份有限公司 | 一种融合神经网络和规则的命名实体识别方法及装置 |
CN112989832B (zh) * | 2021-03-29 | 2023-04-28 | 华南理工大学 | 一种应用在网络安全领域的实体链接方法 |
CN113158687B (zh) * | 2021-04-29 | 2021-12-28 | 新声科技(深圳)有限公司 | 语义的消歧方法及装置、存储介质、电子装置 |
CN113626613B (zh) * | 2021-08-18 | 2022-07-05 | 中山大学附属第一医院 | 基于融入知识图谱子图信息及实体信息的实体链接方法 |
CN114330350B (zh) * | 2022-01-05 | 2024-10-11 | 北京环境特性研究所 | 一种命名实体识别方法、装置、电子设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108681537A (zh) * | 2018-05-08 | 2018-10-19 | 中国人民解放军国防科技大学 | 一种基于神经网络及词向量的中文实体链接方法 |
CN109657230A (zh) * | 2018-11-06 | 2019-04-19 | 众安信息技术服务有限公司 | 融合词向量和词性向量的命名实体识别方法及装置 |
CN109800437A (zh) * | 2019-01-31 | 2019-05-24 | 北京工业大学 | 一种基于特征融合的命名实体识别方法 |
CN109871538A (zh) * | 2019-02-18 | 2019-06-11 | 华南理工大学 | 一种中文电子病历命名实体识别方法 |
WO2019137562A2 (en) * | 2019-04-25 | 2019-07-18 | Alibaba Group Holding Limited | Identifying entities in electronic medical records |
CN110134954A (zh) * | 2019-05-06 | 2019-08-16 | 北京工业大学 | 一种基于Attention机制的命名实体识别方法 |
-
2019
- 2019-10-24 CN CN201911019637.4A patent/CN110866399B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108681537A (zh) * | 2018-05-08 | 2018-10-19 | 中国人民解放军国防科技大学 | 一种基于神经网络及词向量的中文实体链接方法 |
CN109657230A (zh) * | 2018-11-06 | 2019-04-19 | 众安信息技术服务有限公司 | 融合词向量和词性向量的命名实体识别方法及装置 |
CN109800437A (zh) * | 2019-01-31 | 2019-05-24 | 北京工业大学 | 一种基于特征融合的命名实体识别方法 |
CN109871538A (zh) * | 2019-02-18 | 2019-06-11 | 华南理工大学 | 一种中文电子病历命名实体识别方法 |
WO2019137562A2 (en) * | 2019-04-25 | 2019-07-18 | Alibaba Group Holding Limited | Identifying entities in electronic medical records |
CN110134954A (zh) * | 2019-05-06 | 2019-08-16 | 北京工业大学 | 一种基于Attention机制的命名实体识别方法 |
Non-Patent Citations (4)
Title |
---|
Qi Wang 等.Incorporating dictionaries into deep neural networks for the Chinese clinical named entity recognition.Journal of Biomedical Informatics .2019,第第92卷卷全文. * |
严红 ; 陈兴蜀 ; 王文贤 ; 王海舟 ; 殷明勇 ; .基于深度神经网络的法语命名实体识别模型.计算机应用.2019,(第05期),全文. * |
陈玉博 ; 何世柱 ; 刘康 ; 赵军 ; 吕学强 ; .融合多种特征的实体链接技术研究.中文信息学报.2016,(第04期),全文. * |
韩鑫鑫 ; 贲可荣 ; 张献 ; .军用软件测试领域的命名实体识别技术研究.计算机科学与探索.2019,(第05期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN110866399A (zh) | 2020-03-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110866399B (zh) | 一种基于增强字符向量的中文短文本实体识别与消歧方法 | |
Frinken et al. | A novel word spotting method based on recurrent neural networks | |
CN106537370B (zh) | 在存在来源和翻译错误的情况下对命名实体鲁棒标记的方法和系统 | |
CN103853710B (zh) | 一种基于协同训练的双语命名实体识别方法 | |
US8275604B2 (en) | Adaptive pattern learning for bilingual data mining | |
CN112100351A (zh) | 一种通过问题生成数据集构建智能问答系统的方法及设备 | |
CN110232192A (zh) | 电力术语命名实体识别方法及装置 | |
US8131539B2 (en) | Search-based word segmentation method and device for language without word boundary tag | |
CN110489760A (zh) | 基于深度神经网络文本自动校对方法及装置 | |
CN110175246B (zh) | 一种从视频字幕中提取概念词的方法 | |
CN112926324B (zh) | 融合词典与对抗迁移的越南语事件实体识别方法 | |
CN112541356B (zh) | 一种生物医学命名实体识别的方法和系统 | |
CN105068997B (zh) | 平行语料的构建方法及装置 | |
Zhikov et al. | An efficient algorithm for unsupervised word segmentation with branching entropy and MDL | |
CN114169312A (zh) | 一种针对司法裁判文书的两阶段混合式自动摘要方法 | |
CN111274829A (zh) | 一种利用跨语言信息的序列标注方法 | |
CN114036955A (zh) | 中心词跨句事件论元检测方法 | |
CN117010387A (zh) | 融合注意力机制的RoBERTa-BiLSTM-CRF语音对话文本命名实体识别系统 | |
CN114757184B (zh) | 实现航空领域知识问答的方法和系统 | |
Wan et al. | Enhancing metaphor detection by gloss-based interpretations | |
CN116069924A (zh) | 一种融合全局和局部语义特征的文本摘要生成方法及系统 | |
Lefever et al. | Identifying cognates in English-Dutch and French-Dutch by means of orthographic information and cross-lingual word embeddings | |
CN112307756A (zh) | 基于Bi-LSTM和字词融合的汉语分词方法 | |
CN111767733A (zh) | 一种基于统计分词的文献密级甄别方法 | |
JP5298834B2 (ja) | 例文マッチング翻訳装置、およびプログラム、並びに翻訳装置を含んで構成された句翻訳装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |