CN115630649A - 一种基于生成模型的医学中文命名实体识别方法 - Google Patents

一种基于生成模型的医学中文命名实体识别方法 Download PDF

Info

Publication number
CN115630649A
CN115630649A CN202211470749.3A CN202211470749A CN115630649A CN 115630649 A CN115630649 A CN 115630649A CN 202211470749 A CN202211470749 A CN 202211470749A CN 115630649 A CN115630649 A CN 115630649A
Authority
CN
China
Prior art keywords
task
chinese
cner
cws
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211470749.3A
Other languages
English (en)
Other versions
CN115630649B (zh
Inventor
郭永安
吴杰
钱琪杰
王宇翱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202211470749.3A priority Critical patent/CN115630649B/zh
Publication of CN115630649A publication Critical patent/CN115630649A/zh
Application granted granted Critical
Publication of CN115630649B publication Critical patent/CN115630649B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Primary Health Care (AREA)
  • Data Mining & Analysis (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明属于数据处理领域,公开了一种基于生成模型的医学中文命名实体识别方法,该生成模型包括对抗训练模块和私有任务模块,其中所述对抗训练模块由一个Shared BiLSTM生成器、一个Self‑Attention机制和一个CNN判别器组成,该医疗领域中文命名实体识别方法采用Lattice LSTM动态框架,动态的改变LSTM的结构以充分利用词与词之间的序列关系,克服了非结构化中文医学命名实体文本的局限性;采用对抗式训练的动态架构学习中文CNER任务和CWS任务的共同特征,提取医学文本中特定的信息,将实体与实体之间、实体与非实体之间的边界区分开来,实现中文医学命名实体的有效识别。

Description

一种基于生成模型的医学中文命名实体识别方法
技术领域
本发明属于数据处理领域,涉及面向医学命名实体识别的技术应用,具体的说是涉及一种基于生成模型的医疗领域中文命名实体识别方法。
背景技术
命名实体识别(NER)是自然语言处理(NLP)的一项核心任务,旨在从非结构化文本中识别潜在实体及其类别。作为许多自然语言处理(NLP)下游任务如关系提取、信息检索的重要组成部分,命名实体识别(NER)一直是自然语言处理(NLP)界的一个热点问题。
最近命名实体识别(NER)的研究更加关注特定领域,例如医疗领域,该领域复杂且需要外部领域的专业知识。医学领域的命名实体识别(Clinical Named EntityRecognition,CNER)旨在检测电子健康记录(HER)中的医疗实体,是进一步医学文本挖掘的一个重要步骤。
命名实体识别(NER)方法大致分为三类:基于规则和基于字典的方法、基于规则的方法和基于深度学习的方法,针对上述医学领域命名实体识别(CNER) 任务中存在的问题,现有技术方案存在以下问题:
1、基于词典的方法的基本思想是通过字符串模糊查找或者完全匹配的方法,但是随着新的实体名称不断涌现,词典的质量与大小有局限性;
2、基于规则的方法的基本思想是通过实体名称自身的特征和短语的常见搭配,来人为的指定一些规则,扩充规则集合,但是需要耗费巨大的人力资源和时间成本,规则一般只在某个特定的领域内有效,进行人工迁移的代价高,且规则移植性不强;
3、采用深度学习的方法是通过不断地优化模型训练,训练的模型在测试评估时表现出较好的性能。目前应用较多的模型有隐马尔可夫模型(HMM)、支持向量机(SVM)、最大熵马尔可夫模型(MEMM)、条件随机场模型(CRF)等,其中, CRF能对邻近标签对预测序列的影响问题进行有效地处理,所以在实体识别中应用较多且效果不错。
目前,最先进的英语NER方法是基于条件随机场的双向长短时记忆 (BiLSTM-CRF)方法,该方法将字符嵌入和单词嵌入作为输入,大量基于BiLSTM-CRF的模型已被广泛研究使用到英文CNER当中,如药品不良反应识别、文献级疾病等。
然而,中文CNER面临以下挑战:(1)一些实体因使用不标准的缩写或首字母缩写导致不能被识别出来;(2)同一实体的多种表现导致识别容易出错;(3) 中文缺乏有效的边界,语法比其他语言复杂。双向长短时记忆(BiLSTM-CRF) 的模型不能充分利用中文临床信息,基于词的分词算法容易出现分词错误,而基于字符的分词算法会遗漏词级信息,这对中文CNER影响很大。
考虑到上述中文的复杂性,目前较先进的中文NER方法是采用新的基于条件随机场的中文NER格结构LSTM(lattice LSTM-CRF)方法,该模型是一种基于字符的模型,具有相应的加权单词信息,优于基于单词和基于字符的LSTM基线模型,在多个数据集上实现了较先进的性能。
然而,上述所有这些NER任务都只使用已标记的样本来最大化性能,而忽略了未标记的样本。事实上,由于医学领域知识来注释样本的成本很高,大量的医学样本在生物医学领域是没有注释的;同时,由于隐私、道德和高度专业化的限制,带标注的中文医学NER数据很难获得且通常规模很小,这将导致收集到的特征过少,模型容易受到海量未标记数据的干扰,导致医学中文命名实体识别性能较差。因此,设计一个可提高医学领域海量未标记中文命名实体识别准确率的方法具有重要意义。
发明内容
为了解决现有技术中医学领域海量未标记中文命名实体识别性能差的缺陷,本发明提供了一种基于生成模型的医学中文命名实体识别方法,实现中文医学命名实体的有效识别。
为了达到上述目的,本发明是通过以下技术方案实现的:
本发明是一种基于生成模型的医学中文命名实体识别方法,该生成模型包括对抗训练模块和私有任务模块,其中所述对抗训练模块由一个Shared BiLSTM生成器、一个Self-Attention机制和一个CNN判别器组成,具体的,所述医学中文命名实体识别方法包括如下步骤:
步骤1:处理医疗中文命名实体语料库中的句子,将每个句子进行分类,形成两种数据集,分别用于对应的子任务,所述两种数据集分别为用于对抗训练模块的数据集和用于私有任务模块的数据集,
步骤2:将用于对抗训练模块的数据集中的句子与用于私有任务模块的数据集中的句子对齐,用于对抗训练模块和私有任务训练模块的数据集中相同且对齐的句子构成句子对,每个所述句子对被输入到所述生成模型中。
用于对抗训练的数据集和用于私有任务的数据集是相同的,均包含一个 CNER数据集以及一个CWS数据集,设CNER数据集中的一个字符为ci,则包含在CNER数据集中的一个句子表示为t=(c1,c2,c3,c4,…,cn),所述CNER数据集表示为CCNER=(t1,t2,t3,t4,…,tq),设CWS数据集中的一个字符为c'i,,则包含在CWS数据集中的一个句子表示为t'=(c'1,c'2,c'3,c'4,…,c'n),所述CWS数据集可以表示为CCWS=(t'1,t'2,t'3,t'4,…,t'q),其中n表示一个句子中所含字符数,q表示一个数据集中所含句子数,其中句子对被输入到所述生成模型中包括以下步骤:
步骤2-1:将所述句子对中的来自对抗训练的数据集的句子输入到对抗训练模块中,实现中文CNER任务的字符{c1,c2,c3,…,cn}和CWS任务的字符 {c'1,c'2,c'3,c'4,…,c'n}交替作为输入字符序列{s1,s2,s3,…,sn}输入对抗训练模块中,
步骤2-2:将所述句子对中的来自私有任务数据集的句子输入到相应的私有任务模块,实现来自中文CNER数据集中的句子字符{c1,c2,c3,…,cn}输入至中文CNER模块以及来自CWS数据集中的句子字符{c'1,c'2,c'3,c'4,…,c'n}输入至CWS 模块;
步骤3:输入对抗训练模块的字符序列,经过字嵌入转换为字向量,在字嵌入训练过程中,将中文医学文本作为神经网络的训练数据,经过神经网络训练后输出包含字的语义信息向量,所述字嵌入训练过程将每个字从高维空间嵌入至低维的连续向量空间,形成一个稠密向量,用于大数量级的中文医学文本表示。在此步骤中,字嵌入采用的是字的word2vec分布式表示法,所述word2vec分布式表示是一种简单的神经网络,属于一种维度大小相对较低的稠密向量表示,其将所有信息分布式表示在稠密向量的各维度上且各维度都是实数。
步骤4:将步骤3得到的字向量作为所述对抗训练模块中的Shared BiLSTM 生成器的输入,所述Shared BiLSTM生成器采用从左到右的策略进行文本生成并合并字符序列两边的信息,输出BiLSTM隐藏层的状态,其输出过程包括如下步骤:
步骤4-1:将输入的正序列输入到Shared BiLSTM生成器的前向神经网络,得到包含上文信息的前向隐藏向量
Figure RE-GDA0004014010580000041
具体计算过程为为
Figure RE-GDA0004014010580000042
其中xt表示字向量,
Figure RE-GDA0004014010580000043
表示t-1时刻LSTM的隐藏向量输出
步骤4-2:再将输入的逆序列输入到Shared BiLSTM生成器的后向神经网络,得到包含下文信息的后向隐藏向量
Figure RE-GDA0004014010580000044
具体计算过程为
Figure RE-GDA0004014010580000045
其中,
Figure RE-GDA0004014010580000046
表示t+1时刻LSTM的隐藏向量输出;
步骤4-3:合并前向隐藏向量和后向隐藏向量得到隐藏状态输出ht,具体计算过程为
Figure RE-GDA0004014010580000047
其中
Figure RE-GDA0004014010580000048
表示拼接运算。
其中:所述Shared BiLSTM生成器接收来自中文CNER任务和CWS任务的字符嵌入,使用BiLSTM模型合并字符序列两边的信息,分别从正向的正序列以及相反方向的逆序列学习医学文本信息,输出前向、后向隐藏层向量,充分集成上下文信息,学习训练集中实体和非实体的关系,生成隐藏状态;
其中:所述Self-Attention机制显式学习句子中任意两个字符之间的依赖关系,捕获句子的内部结构信息,根据文本中句子的权值有选择的输出中间结果。
所述Self-Attention机制在处理大量输入信息的过程中,获取需要重点关注的目标区域并对该目标区域投入更多关注,从中筛选出更多和目标特征相关的高价值输入信息,而忽视其他无关的信息,提高模型的训练效率。
其中:所述CNN判别器由一个最大池层和一个Softmax层组成,CNN判别器接收Self-Attention机制的输出并判断Shared BiLSTM生成器生成数据的数据来源,将来自中文CNER任务的输入发送至独立的中文CNER任务进行处理,将来自CWS任务的输入发送至CWS任务进行单独处理。
步骤5:利用对抗训练模块中的Self-Attention机制从Shared BiLSTM生成器的隐藏向量状态信息中获取句子不同的关键信息,并对这些信息赋予不同的实体特征权重,通过提取与整合得到固定大小的有用词向量,对抗训练模型进行批量计算;
步骤6:使用对抗训练模块中的CNN判别器区分句子来自哪个私有任务数据集,其中,所述私有任务模块的数据集为中文CNER任务模块数据集或CWS 任务模块数据集。
具体的,私有任务判别包括如下步骤:
步骤6-1:将步骤5中对抗训练模块中的Self-Attention机制计算出的实体特征权重送到CNN判别器中的最大池化层进行非极大值消除处理,去除冗余信息,压缩实体特性,降低上层Softmax层的计算复杂度;
步骤6-2:CNN判别器中的Softmax函数将输出概率限制在0-1之间,采用 Softmax函数将最大池化层清洗过的实体特征权重数值映射到输入医学文本来自中文CNER任务的概率分数;
步骤6-3:根据步骤6-2得到的概率分数,鉴别所嵌入字符序列所属任务类型,输出判别结果。
步骤7:根据步骤6中CNN判别器的判别结果跳转至相应的中文CNER任务模块数据集或CWS任务模块数据集执行相应的任务,如果所述CNN判别器判断输出来自中文CNER任务模块数据集,则将Self-Attention机制的输出发送给独立CNER任务进行后续处理并输出医学文本句子序列标注结果,如果中文 CNER任务模块数据集判断输出来自CWS任务模块数据集,则将Self-Attention 机制的输出发送给独立CWS任务。
在步骤7中CNN判别器的判别结果跳转至相应的中文CNER任务模块数据集执行中文CNER任务的具体过程包括如下步骤:
步骤7-1-1:将步骤2-2的中文CNER数据集中的句子字符{c1,c2,c3,…,cn} 送入Lattice LSTM模型中进行处理;
步骤7-1-2:所述Lattice LSTM模型对输入字符序列以及所有匹配字典的潜在单词进行编码,生成隐藏状态hi
生成隐藏状态hi的具体过程为:
步骤7-1-2-1:将中文CNER数据集中的句子字符{c1,c2,c3,…,cn}的所有字符子序列储存在单元储存器
Figure RE-GDA0004014010580000051
中;
步骤7-1-2-2:将子序列和与词典Dw进行词序列匹配,对每个单元字符匹配信息流循环路径;
步骤7-1-2-3:对每个单元字符匹配到的潜在词按照词长度进行排序;
步骤7-1-2-4:将当前字符向量和当前字与词典匹配到的潜在词均输入至Lattice LSTM模型中分别计算字级和词级的LSTM单元中的相关状态;
步骤7-1-2-5:采用归一化的方法为每个单元字符、潜在词分配权重,衡量对应输入信息的重要程度;
步骤7-1-2-6:将步骤7-1-2-4计算出的当前各个输入源的相关状态与步骤 7-1-2-5计算出的对应权重进行加权求和,得到最终的字符结果;
步骤7-1-2-7:采用Lattice LSTM模型中的字级输出门来控制字符结果的输出程度,输出最后的隐藏层隐藏状态。
步骤7-1-3:采用中文CNER模块中的Self-Attention机制提取中文CNER任务数据集中Lattice LSTM生成的关键特征并整合CWS任务模块以及对抗训练模块中的BiLSTM生成器生成的编码信息,生成隐藏状态h'i
步骤7-1-4:结合步骤7-1-3所得隐藏状态之间的相关性,利用条件随机场模型CRF学习相邻关系来模拟标签之间的顺序关系,解码最终的序列标签以确保预测标签的合法性;
步骤7-1-5:将步骤7-1-4的中文医学文预测标签结果输出至中文CNER结果集。
本发明的进一步改进在于:根据步骤7中CNN判别器的判别结果跳转至相应的CWS任务模块数据集执行CWS任务的具体过程包括如下步骤:
步骤7-2-1:将步骤2-2的CWS数据集中的句子字符{c'1,c'2,c'3,c'4,…,c'n}送入Bi-LSTM模型中进行处理;
步骤7-2-2:所述Bi-LSTM模型对输入字符序列进行编码,生成隐藏状态hj
步骤7-2-3:采用CWS私有任务练模块中的Self-Attention机制提取Bi-LSTM 生成的关键特征并整合对抗训练模块的Bi-LSTM生成器生成隐藏状态h″j,具体包括如下步骤:
步骤7-2-3-1:将步骤7-2-2的隐藏状态hj引入Self-Attention机制,将CWS 私有任务中Bi-LSTM模型生成的隐藏向量状态以及对抗训练模块Shared BiLSTM生成器生成的隐藏向量状态输入至对应的SA-1、SA-2自注意力神经网络;
步骤7-2-3-2:将SA-1、SA-2自注意力神经网络的输出反馈给第三个自注意力神经网络SA-3进行信息整合,得到一个输入句子的整体隐藏状态h″j
步骤7-2-4:结合所述步骤7-2-3所得的隐藏状态h″j之间的相关性,利用条件随机场模型CRF学习相邻关系来模拟标签之间的顺序关系,解码最终的序列标签以确保预测标签的合法性;
步骤7-2-5:通过不断的重复步骤7-2-1-步骤7-2-4,在CWS任务模块数据集上训练并选取在数据集的开发集上进行CWS任务时F1值最大的模型进行保存。
中文CNER任务的核心结构是使用LatticeLSTM-CRF模型来克服 BiLSTM-CRF的分词算法易出现分词错误以及词级信息遗漏问题。模型引入 LatticeLSTM层,充分利用临床医疗信息,整合词级信息和字符级信息。
所述CWS任务与中文CNER任务类似,使用BiLSTM-CRF模型实现将EHR 中文本类型的句子分为单词,分词任务与中文CNER任务进行联合训练,引入额外信息,有利于直接从主任务中学习到难以提取出的词边界特征。
通过上述对抗式训练模块,实现从未标注的医学样本数据集中提取出共同特征,最大化中文CNER的性能,最终利用高质量的生成数据来扩大训练集,达到提高中文医学命名实体识别性能的目的。
本发明的有益效果:
本发明采用Lattice LSTM动态框架,动态的改变LSTM的结构以充分利用字与词之间的序列关系,克服了非结构化中文医学命名实体文本的局限性;
本发明采用对抗式训练的动态架构学习中文CNER任务和CWS任务的共同特征,提取医学文本中特定的信息,将实体与实体之间、实体与非实体之间的边界区分开来,实现中文医学命名实体的有效识别。
附图说明
图1为基于生成模型的医疗领域中文命名实体识别流程框图。
图2为基于生成模型的医疗领域中文命名实体识别模型整体架构图。
图3为本发明的基于生成模型GAN的对抗式训练架构图。
图4为本发明的Lattice LSTM动态框架网格结构图。
图5为本发明的中文CNER模型网格结构图。
图6为本发明的CWS模型网格结构图。
具体实施方式
以下将以图式揭露本发明的实施方式,为明确说明起见,许多实务上的细节将在以下叙述中一并说明。然而,应了解到,这些实务上的细节不应用以限制本发明。也就是说,在本发明的部分实施方式中,这些实务上的细节是非必要的。此外,为简化图式起见,一些习知惯用的结构与组件在图式中将以简单的示意的方式绘示之。
如图1、图2和图3所示,本发明是一种基于生成模型的医学中文命名实体识别方法,该生成模型包括对抗训练模块和私有任务模块,
其中:对抗训练模块由一个Shared BiLSTM生成器、一个Self-Attention机制和一个CNN判别器组成,学习和训练医学领域中文命名实体的特征,提供医学中文命名实体的边界信息。
Shared BiLSTM生成器学习到的结果称为共同特征,共同特征包括任务共享词边界,有利于中文CNER任务识别医学中文命名实体边界,所述Shared BiLSTM生成器接收来自中文CNER任务和CWS任务的字符嵌入,使用BiLSTM 模型合并字符序列两边的信息,分别从正向的正序列以及相反方向的逆序列学习医学文本信息,输出前向、后向隐藏层向量,充分集成上下文信息,学习训练集中实体和非实体的关系,生成隐藏状态,通过不断的对抗性训练,Shared BiLSTM 生成器会提取出CNN判别器无法区分的共同特征。
所述Self-Attention机制显式学习句子中任意两个字符之间的依赖关系,捕获句子的内部结构信息,根据文本中句子的权值有选择的输出中间结果。
所述CNN判别器由一个最大池层和一个Softmax层组成,CNN判别器接收 Self-Attention机制的输出并判断Shared BiLSTM生成器生成数据的数据来源,将来自中文CNER任务的输入发送至独立的中文CNER任务进行处理,将来自 CWS任务的输入发送至CWS任务进行单独处理。
CNN判别器的最大池层消除非极大值,去除冗余信息,对特征进行压缩,降低上层Softmax层的计算复杂度。
Softmax层将最大池层的输出结果通过Softmax函数将数值映射为区间[0~1] 内并且输出能归一化到和为1。
Softmax函数是一种将数值转换为概率的标准映射方法,激活函数使用 softmax使鉴别器输出医学文本来自中文CNER任务的概率。
设计一个损失函数来优化目标,降低两个任务的预测差异,训练使得中文医疗数据集的损失函数最小化,优化函数表示为:
Figure RE-GDA0004014010580000091
其中,s'k是任务k的共享BiLSTM生成器之后的自关注层的输出;θd是鉴别器的参数;K是任务数;D(s'k;θd)是鉴别器的输出,将其视为softmax函数;θs是共享BiLSTM生成器的可训练参数,Tk是训练句子的数量。
其中:所述私有任务模块的数据集为中文CNER任务模块数据集或CWS任务模块数据集。
对抗训练模块基于GAN生成模型,将其优化成一种极大极小博弈问题, SharedBiLSTM生成器尽可能提取中文CNER任务模块数据集和CWS任务模块数据集中的医学文本句子的共同特征,使CNN判别器难以区分医学文本来自哪个任务。
通过上述对抗训练模块,实现从未标注的医学样本样本数据集中提取出共同特征,最大化中文CNER的性能,最终利用高质量的生成数据来扩大训练集,达到提高中文医学命名实体识别性能的目的。
具体的,所述医学中文命名实体识别方法包括如下步骤:
步骤1:处理医疗中文命名实体语料库中的句子,将每个句子进行分类,形成两种数据集,分别用于对应的子任务,所述两种数据集分别为用于对抗训练模块的数据集和用于私有任务模块的数据集。
所述用于对抗训练的数据集和用于私有任务的数据集是相同的,均包含一个CNER数据集以及一个CWS数据集,设CNER数据集中的一个字符为ci,则包含在CNER数据集中的一个句子表示为t=(c1,c2,c3,c4,…,cn),所述CNER数据集表示为CCNER=(t1,t2,t3,t4,…,tq),设CWS数据集中的一个字符为c'i,,则包含在CWS数据集中的一个句子表示为t'=(c'1,c'2,c'3,c'4,…,c'n),所述CWS数据集可以表示为CCWS=(t'1,t'2,t'3,t'4,…,t'q),其中n表示一个句子中所含字符数,q表示一个数据集中所含句子数。
步骤2:将用于对抗训练模块的数据集中的句子与用于私有任务模块的数据集中的句子对齐,用于对抗训练模块和私有任务训练模块的数据集中相同且对齐的句子构成句子对,每个所述句子对被输入到所述生成模型中。
其中,句子对被输入到所述生成模型中包括以下步骤:
步骤2-1:将句子对中的来自对抗训练的数据集的句子输入到对抗训练模块中,实现中文CNER任务的字符{c1,c2,c3,…,cn}和CWS任务的字符 {c'1,c'2,c'3,c'4,…,c'n}交替作为输入字符序列{s1,s2,s3,…,sn}输入对抗训练模块中;
步骤2-2:将所述句子对中的来自私有任务数据集的句子输入到相应的私有任务模块,实现来自中文CNER数据集中的句子字符{c1,c2,c3,…,cn}输入至中文CNER模块以及来自CWS数据集中的句子字符{c'1,c'2,c'3,c'4,…,c'n}输入至CWS 模块。
步骤3:输入对抗训练模块的字符序列{s1,s2,s3,…,sn},经过字嵌入转换为字向量表示形式{x1,x2,x3,…,xn},所述字嵌入采用的是字的word2vec分布式表示法,所述word2vec分布式表示是一种简单的神经网络,属于一种维度大小相对较低的稠密向量表示,其将所有信息分布式表示在稠密向量的各维度上且各维度都是实数。在word2vec字嵌入训练过程中,将中文医学文本作为神经网络的训练数据,经过神经网络训练后输出包含字的语义信息向量,所述字嵌入训练过程将每个字从高维空间嵌入至低维的连续向量空间,形成一个稠密向量,用于大数量级的中文医学文本表示;
步骤4:将步骤3得到的字向量作为对抗训练模块中的Shared BiLSTM生成器的输入,Shared BiLSTM生成器采用从左到右的策略进行文本生成并合并字符序列两边的信息,输出BiLSTM隐藏层的状态,其中,BiLSTM隐藏层的状态的输出过程包括如下步骤:
步骤4-1:将输入的正序列输入到Shared BiLSTM生成器的前向神经网络,得到包含上文信息的前向隐藏向量
Figure RE-GDA0004014010580000111
具体计算过程为为
Figure RE-GDA0004014010580000112
其中xt表示字向量,
Figure RE-GDA0004014010580000113
表示t-1时刻LSTM的隐藏向量输出
步骤4-2:再将输入的逆序列输入到Shared BiLSTM生成器的后向神经网络,得到包含下文信息的后向隐藏向量
Figure RE-GDA0004014010580000114
具体计算过程为
Figure RE-GDA0004014010580000115
其中,
Figure RE-GDA0004014010580000116
表示t+1时刻LSTM的隐藏向量输出;
步骤4-3:合并前向隐藏向量和后向隐藏向量得到隐藏状态输出ht,具体计算过程为
Figure RE-GDA0004014010580000117
其中
Figure RE-GDA0004014010580000118
表示拼接运算。如,给定中文医学文本“重度感冒患者容易出现支气管哮喘”,Shared BiLSTM模块正向学习句子获得重要信息“支气管哮喘”,同时Shared BiLSTM模型会反方向重新学习该句子获得“重度感冒”的重要信息,最后BiLSTM模型充分集成上下文信息,输出前向和后向隐藏层向量的合并隐藏向量信息“支气管哮喘”和“重度感冒”。
步骤5:利用对抗训练模块中的Self-Attention机制从Shared BiLSTM生成器的隐藏向量状态信息中获取句子不同的关键信息,并对这些信息赋予不同的实体特征权重,通过提取与整合得到固定大小的有用词向量,对抗训练模型进行批量计算。Self-Attention机制在处理大量输入信息的过程中,获取需要重点关注的目标区域并对该目标区域投入更多关注,从中筛选出更多和目标特征相关的高价值输入信息,而忽视其他无关的信息,提高模型的训练效率。
步骤6:使用对抗训练模块中的CNN判别器区分句子来自哪个私有任务数据集,具体的判别方法包括如下步骤:
步骤6-1:将步骤5中对抗训练模块中的Self-Attention机制计算出的实体特征权重送到CNN判别器中的最大池化层进行非极大值消除处理,去除冗余信息,压缩实体特性,降低上层Softmax层的计算复杂度;
步骤6-2:CNN判别器中的Softmax函数将输出概率限制在0-1之间,采用 Softmax函数将最大池化层清洗过的实体特征权重数值映射到输入医学文本来自中文CNER任务的概率分数;
步骤6-3:根据步骤6-2得到的概率分数,鉴别所嵌入字符序列所属任务类型,输出判别结果。
步骤7:根据步骤6中CNN判别器的判别结果跳转至相应的中文CNER任务模块数据集或CWS任务模块数据集执行相应的任务,如果所述CNN判别器判断输出来自中文CNER任务模块数据集,则将Self-Attention机制的输出发送给独立CNER任务进行后续处理并输出医学文本句子序列标注结果,如果中文 CNER任务模块数据集判断输出来自CWS任务模块数据集,则将Self-Attention 机制的输出发送给独立CWS任务。假设先训练中文CNER任务,再训练CWS 任务。
具体包括如下步骤:
步骤7-1:根据CNN判别器中判别出的中文CNER任务,执行中文CNER 任务训练,其中,中文CNER任务训练包括以下分步骤:
步骤7-1-1:将步骤2-2的中文CNER数据集中的句子字符{c1,c2,c3,…,cn} 送入Lattice LSTM模型中进行处理;
步骤7-1-2:所述Lattice LSTM模型对输入字符序列以及所有匹配字典的潜在单词进行编码,生成隐藏状态hi
Lattice LSTM编码生成的隐藏状态生成如图4所示,具体包括如下过程:
步骤7-1-2-1:将中文CNER数据集中的句子字符{c1,c2,c3,…,cn}的所有字符子序列储存在单元储存器,表示为字符
Figure RE-GDA0004014010580000121
中;
步骤7-1-2-2:将子序列和与词典Dw进行词序列匹配,对每个单元字符匹配信息流循环路径;
步骤7-1-2-3:每个字符
Figure RE-GDA0004014010580000122
中有不止一条信息流的循环路径,对每个单元字符匹配到的潜在词
Figure RE-GDA0004014010580000123
按照词长度进行排序,其中b、e分别表示词的开始字和结束字的索引;
步骤7-1-2-4:将当前字符
Figure RE-GDA0004014010580000126
和当前字与词典匹配到的潜在词均输入至LatticeLSTM模型中分别计算字级和词级的LSTM单元中的相关状态,;
步骤7-1-2-5:采用归一化的方法为每个单元字符
Figure RE-GDA0004014010580000124
潜在词
Figure RE-GDA0004014010580000125
分配权重,衡量对应输入信息的重要程度;
步骤7-1-2-6:将步骤7-1-2-4计算出的当前各个输入源的相关状态与步骤 7-1-2-5计算出的对应权重进行加权求和,得到最终的字符
Figure RE-GDA0004014010580000131
结果;
步骤7-1-2-7:采用Lattice LSTM模型中的字级输出门来控制当前字符
Figure RE-GDA0004014010580000132
结果的输出程度,输出最后的隐藏层隐藏状态hi
步骤7-1-3:采用中文CNER任务模块中的Self-Attention机制提取中文CNER 任务数据集中Lattice LSTM生成的关键特征并整合CWS任务模块以及对抗训练模块中的BiLSTM生成器生成的特征信息,生成隐藏状态,其中生成隐藏状态如图2所示,具体包括如下步骤:
步骤7-1-3-1:将步骤7-1-2-7的隐藏层隐藏状态hi引入Self-Attention机制,将Lattice LSTM模型生成的隐藏状态、对抗训练模块Shared BiLSTM模型生成的隐藏向量状态以及CWS私有任务中BiLSTM生成器生成的隐藏向量状态输入至中文CNER任务模块中对应的SA-1、SA-2、SA-3自注意力神经网络;
步骤7-1-3-2:将SA-1、SA-2、SA-3自注意力神经网络的输出反馈给中文 CNER任务模块中第四个自注意力神经网络SA-4进行信息整合,得到一个输入句子的整体隐藏状态h'i
步骤7-1-4:结合步骤7-1-3-2所得隐藏状态h'i之间的相关性,利用条件随机场模型CRF学习相邻关系来模拟标签之间的顺序关系,解码最终的序列标签以确保预测标签的合法性。
其中,条件随机场模型CRF是一种判别式的概率无向图模型,常用于序列标注问题,如对文字序列进行词性标注,即对文本句子中的每个字标注诸如“名词”、“动词”、“形容词”等这样的词性标签,CRF就可以根据语法规则考虑到这样的依赖关系,对当前字打上合适的词性标签。
而标注方法则采用BIO(Begin,Inside,Outside)标签约束法,将CRF层目标预测句子X={x1,x2,x3,…,xn}中的每一个标记xi进行BIO标记,得到最终医疗领域的标签输出Y={y1,y2,y3,…,yn},句子中标签实体例子如表1所示,其中 B-s代表实体症状的开始,I-s代表实体症状的内部,B-d代表实体疾病disease 的开始,I-d代表实体疾病disease的内部,B-p代表实体人物person的开始,I-p 代表实体人物person的内部,O代表外部实体。
表1句子中的BIO标签实体
Figure RE-GDA0004014010580000141
步骤7-1-5:将步骤7-1-4的中文医学文本预测标签结果输出至中文CNER 结果集,CNER模块的整体模型如图5所示。
步骤7-2:根据CNN判别器中判别出的CWS任务,执行CWS任务训练。
其中,所述CWS任务训练包括以下步骤:
步骤7-2-1:将步骤2-2的CWS数据集中的句子字符{c'1,c'2,c'3,c'4,…,c'n}送入Bi-LSTM模型中进行处理;
步骤7-2-2:所述Bi-LSTM模型对输入字符序列进行编码,生成隐藏状态hj
其中,所述Bi-LSTM编码生成的隐藏状态过程与步骤4所述对抗训练模块中SharedBiLSTM生成器的编码生成隐藏状态结果过程类似,具体为:
将步骤7-2-1中输入字符作为CWS任务模块中的Bi-LSTM的输入,Bi-LSTM 采用从左到右的策略进行文本生成并合并字符序列两边的信息,输出Bi-LSTM 隐藏层的状态,其中,Bi-LSTM隐藏层的状态的输出过程包括如下步骤:
步骤7-2-2-1:将输入的正序列输入到Bi-LSTM的前向神经网络,得到包含上文信息的前向隐藏向量
Figure RE-GDA0004014010580000142
具体计算过程为为
Figure RE-GDA0004014010580000143
其中c'j表示输入字符向量,
Figure RE-GDA0004014010580000144
表示j-1时刻LSTM的隐藏向量输出
步骤7-2-2-2:再将输入的逆序列输入到Bi-LSTM的后向神经网络,得到包含下文信息的后向隐藏向量
Figure RE-GDA0004014010580000145
具体计算过程为
Figure RE-GDA0004014010580000146
其中,
Figure RE-GDA0004014010580000147
表示j+1时刻LSTM的隐藏向量输出;
步骤7-2-2-3:合并前向隐藏向量和后向隐藏向量得到隐藏状态输出hj,具体计算过程为
Figure RE-GDA0004014010580000148
其中
Figure RE-GDA0004014010580000149
表示拼接运算。
步骤7-2-3:采用CWS任务模块中的Self-Attention机制提取提取Bi-LSTM 生成的关键特征并整合对抗训练模块中的BiLSTM生成器生成的特征信息,生成隐藏状态h″j,具体的,生成隐藏状态h″j包括如下步骤:
步骤7-2-3-1:将步骤7-2-2的隐藏状态hj引入Self-Attention机制,将CWS 私有任务中Bi-LSTM模型生成的隐藏向量状态以及对抗训练模块Shared BiLSTM生成器生成的隐藏向量状态分别输入至CWS任务模块对应的SA-1、 SA-2自注意力神经网络;
步骤7-2-3-2:将SA-1、SA-2自注意力神经网络的输出反馈给CWS任务模块第三个自注意力神经网络SA-3进行信息整合,得到一个输入句子的整体隐藏状态h″j
步骤7-2-4:结合所述步骤7-2-3-2所得的隐藏状态h″j之间的相关性,利用条件随机场模型CRF学习相邻关系来模拟标签之间的顺序关系,解码最终的序列标签以确保预测标签的合法性。
所述条件随机场模型CRF考虑到标签之间的依赖关系,使用条件随机场模型CRF来得到最终的实体预测结果,而不是直接使用Bi-LSTM的输出结果。条件随机场模型CRF可以向最后一个预测标签添加一些标注方法加以约束,确保预测标签合法。
所提到的标注方法采用BMES标签(Begin,Mediate,End,Single)约束预测句子中的每一个标记,将CWS任务中条件随机场模型CRF预测句子中的每一个标记进行BMES标记,得到最终医疗领域的中文单词分词输出,具体BMES 标签实体例子如下表2:
表2句子中的BMES标签实体
Figure RE-GDA0004014010580000151
步骤7-2-5:通过不断的重复步骤7-2-1到步骤7-2-4,在CWS任务模块数据集上训练并选取在CWS任务模块数据集的开发集上进行CWS任务时F1值最大的模型进行保存。所述CWS任务模块数据集分为三部分:训练集、开发集、测试集。训练集用于训练模型,开发集用于优化模型参数,测试集用于最终测试模型性能,所以在CWS数据集上训练并选取在开发集上进行CWS任务时F值最大的模型进行保存。CWS任务模块的整体模型如图6所示。
本发明关注的是CNER任务,仅CNER任务才会执行步骤7.1输出医学句子序列标注结果,步骤7.2CWS任务没有输出结果,所以CNN任务鉴别器将来自 CNER任务的输入作为正确的结果,将来自CWS的输入作为错误的结果并修改 Shared BiLSTM生成器的参数实现模型调优。
该实施例中的步骤4到步骤6中由Shared BiLSTM生成器以及CNN任务鉴别器组成的对抗训练框架模型可增加一个损失函数来优化目标,降低对中文 CNER以及CWS任务的预测差异,通过对抗式训练实现中文医疗数据集的损失函数最小化。优化函数可以表示为:
Figure RE-GDA0004014010580000161
其中,s'k是任务k的共享BiLSTM模型之后的自关注层的输出;θd是鉴别器的参数;K是任务数,D(s'k;θd)是CNN任务鉴别器的输出,将其视为softmax 函数;θs是共享BiLSTM模型的可训练参数,Tk是训练句子的数量。
所述对抗损失Ladv是一个极小极大公式,在模型训练过程中,最大化max部分通过不断更新CNN任务鉴别器中的参数θd,使得CNN任务鉴别器最大可能地正确识别出SharedBiLSTM生成器的输入特征来自哪个任务;而最小化min 部分通过不断更新Shared BiLSTM生成器网络中的共享模型参数θs,尽可能让 Shared BiLSTM生成器产生的两个任务的隐藏特征分布趋于一致,利用Shared BiLSTM生成器和CNN任务鉴别器之间的起到对抗的作用,最终达到目标状态: CNN任务鉴别器无法根据共享BiLSTM层学习到的特征来判别任务,此时, Shared BiLSTM生成器的输出就较好地融合了NER和CWS的特征。
所述Shared BiLSTM生成器学习到的融合了NER和CWS的特征称为共同特征,共同特征包括任务共享词边界,有利于医学中文命名实体边界的识别,提高中文CNER任务的准确率。
步骤1到步骤6会随着两个任务数据集中大量字符序列交替嵌入以及不断进行对抗式训练,Shared BiLSTM生成器将使得生成CNN判别器无法区分输入字符序列来自哪一个任务,因此可以跳过本实施例中的步骤6,直接执行步骤7.1,将Shared BiLSTM生成器学习到的公共特征输入到中文CNER模块中进行识别处理,提高医学中文命名实体识别速率。
本发明在训练阶段,中文CNER任务以及CWS任务是轮流进行的,每次迭代都依次从{CNER,CWS}中选择一个任务执行,然后从当前所选的任务数据集中抽取一批训练样本来更新参数,并采用Adam算法优化最终的损失函数。
生成模型最终的损失函数是中文CNER模块、CWS模块以及对抗训练模块的损失加权和,具体可以表示为:
L=LCNER·I(x)+LCWS·(1-I(x))+λLadv
其中,λ是超参数,LCNER和LCWS分别是中文CNER任务和CWS任务在各自 CRF层的损失函数,I(x)是一个0/1函数,用于指示当前输入数据来自于CNER 数据集或者CWS数据集:当输入数据来自CNER识别任务的训练样本时,I(x) 取1;相反,输入数据来自CWS任务训练样本时,I(x)取0。
所述Adam算法是深度学习中常用的优化算法,善于处理凸优化问题,适合解决含大规模训练数据和参数的优化问题,可以代替经典的随机梯度下降法来更有效地更新网络权重。Adam算法根据该实施例最终损失函数对对应私有任务模块中的每个参数的梯度一阶矩和二阶矩进行估计,使用指数加权移动平均计算,使每个参数的梯度的特征缩放不变,解决在参数空间迭代过程中的高噪声和梯度稀释等问题,滤除Lattice LSTM动态框架引入词信息而导致的一些噪声信息。
本发明的实体识别方法采用Lattice LSTM动态框架,动态的改变LSTM的结构以充分利用词语词之间的序列关系,克服了非结构化中文医学命名实体文本的局限性;采用对抗式训练的动态架构学习中文CNER任务和CWS任务的共同特征,提取医学文本中特定的信息,将实体与实体之间、实体与非实体之间的边界区分开来,实现中文医学命名实体的有效识别。
以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (10)

1.一种基于生成模型的医学中文命名实体识别方法,其特征在于:所述生成模型包括对抗训练模块和私有任务模块,其中所述对抗训练模块由一个Shared BiLSTM生成器、一个Self-Attention机制和一个CNN判别器组成,具体的,所述医学中文命名实体识别方法包括如下步骤:
步骤1:处理医疗中文命名实体语料库中的句子,将每个句子进行分类,形成两种数据集,分别用于对应的子任务,所述两种数据集分别为用于对抗训练模块的数据集和用于私有任务模块的数据集,
步骤2:将用于对抗训练模块的数据集中的句子与用于私有任务模块的数据集中的句子对齐,用于对抗训练模块和私有任务训练模块的数据集中相同且对齐的句子构成句子对,每个所述句子对被输入到所述生成模型中;
步骤3:输入对抗训练模块的字符序列,经过字嵌入转换为字向量,在字嵌入训练过程中,将中文医学文本作为神经网络的训练数据,经过神经网络训练后输出包含字的语义信息向量,所述字嵌入训练过程将每个字从高维空间嵌入至低维的连续向量空间,形成一个稠密向量,用于大数量级的中文医学文本表示;
步骤4:将步骤3得到的字向量作为所述对抗训练模块中的Shared BiLSTM生成器的输入,所述Shared BiLSTM生成器采用从左到右的策略进行文本生成并合并字符序列两边的信息,输出BiLSTM隐藏层的状态;
步骤5:利用对抗训练模块中的Self-Attention机制从Shared BiLSTM生成器的隐藏向量状态信息中获取句子不同的关键信息,并对这些信息赋予不同的实体特征权重,通过提取与整合得到固定大小的有用词向量,对抗训练模型进行批量计算;
步骤6:使用对抗训练模块中的CNN判别器区分句子来自哪个私有任务数据集,其中,所述私有任务模块的数据集为中文CNER任务模块数据集或CWS任务模块数据集;
步骤7:根据步骤6中CNN判别器的判别结果跳转至相应的中文CNER任务模块数据集或CWS任务模块数据集执行相应的任务,如果所述CNN判别器判断输出来自中文CNER任务模块数据集,则将Self-Attention机制的输出发送给独立CNER任务进行后续处理并输出医学文本句子序列标注结果,如果中文CNER任务模块数据集判断输出来自CWS任务模块数据集,则将Self-Attention机制的输出发送给独立CWS任务。
2.根据权利要求1所述一种基于生成模型的医学中文命名实体识别方法,其特征在于:所述用于对抗训练的数据集和用于私有任务的数据集是相同的,均包含一个CNER数据集以及一个CWS数据集,设CNER数据集中的一个字符为
Figure DEST_PATH_IMAGE002
,则包含在CNER数据集中的一个句子表示为
Figure DEST_PATH_IMAGE004
(
Figure DEST_PATH_IMAGE006
),所述CNER数据集表示为
Figure DEST_PATH_IMAGE008
,设CWS数据集中的一个字符为
Figure DEST_PATH_IMAGE010
,则包含在CWS数据集中的一个句子表示为
Figure DEST_PATH_IMAGE012
,所述CWS数据集可以表示为
Figure DEST_PATH_IMAGE014
,其中
Figure DEST_PATH_IMAGE016
表示一个句子中所含字符数,
Figure DEST_PATH_IMAGE018
表示一个数据集中所含句子数。
3.根据权利要求2所述一种基于生成模型的医学中文命名实体识别方法,其特征在于:所述句子对被输入到所述生成模型中包括以下步骤:
步骤2-1:将所述句子对中的来自对抗训练的数据集的句子输入到对抗训练模块中,实现中文CNER任务的字符{
Figure DEST_PATH_IMAGE020
}和CWS任务的字符
Figure DEST_PATH_IMAGE022
交替作为输入字符序列{
Figure DEST_PATH_IMAGE024
}输入对抗训练模块中,
步骤2-2:将所述句子对中的来自私有任务数据集的句子输入到相应的私有任务模块,实现来自中文CNER数据集中的句子字符{
Figure DEST_PATH_IMAGE020A
}输入至中文CNER模块以及来自CWS数据集中的句子字符
Figure DEST_PATH_IMAGE022A
输入至CWS模块。
4.根据权利要求3所述一种基于生成模型的医学中文命名实体识别方法,其特征在于:所述步骤7中CNN判别器的判别结果跳转至相应的中文CNER任务模块数据集执行中文CNER任务的具体过程包括如下步骤:
步骤7-1-1:将步骤2-2的中文CNER数据集中的句子字符{
Figure DEST_PATH_IMAGE020AA
}送入LatticeLSTM模型中进行处理;
步骤7-1-2:所述Lattice LSTM模型对输入字符序列以及所有匹配字典的潜在单词进行编码,生成隐藏状态
Figure DEST_PATH_IMAGE026
步骤7-1-3:采用中文CNER任务模块中的Self-Attention机制提取中文CNER任务数据集中Lattice LSTM生成的关键特征并整合CWS任务模块以及对抗训练模块中的BiLSTM生成器生成的特征信息,生成隐藏状态
Figure DEST_PATH_IMAGE028
步骤7-1-4:结合步骤7-1-3所得隐藏状态之间的相关性,利用条件随机场模型CRF学习相邻关系来模拟标签之间的顺序关系,解码最终的序列标签以确保预测标签的合法性;
步骤7-1-5:将步骤7-1-4的中文医学文预测标签结果输出至中文CNER结果集。
5.根据权利要求4所述一种基于生成模型的医学中文命名实体识别方法,其特征在于:在所述7-1-2中,所述Lattice LSTM模型进行编码,生成隐藏状态
Figure DEST_PATH_IMAGE026A
的具体过程为:
步骤7-1-2-1:将中文CNER数据集中的句子字符{
Figure DEST_PATH_IMAGE020AAA
}的所有字符子序列储存在单元储存器
Figure DEST_PATH_IMAGE030
中;
步骤7-1-2-2:将子序列和与词典
Figure DEST_PATH_IMAGE032
进行词序列匹配,对每个单元字符匹配信息流循环路径;
步骤7-1-2-3:对每个单元字符匹配到的潜在词按照词长度进行排序;
步骤7-1-2-4:将当前字符向量和当前字与词典匹配到的潜在词均输入至LatticeLSTM模型中分别计算字级和词级的LSTM单元中的相关状态;
步骤7-1-2-5:采用归一化的方法为每个单元字符、潜在词分配权重,衡量对应输入信息的重要程度;
步骤7-1-2-6:将步骤7-1-2-4计算出的当前各个输入源的相关状态与步骤7-1-2-5计算出的对应权重进行加权求和,得到最终的字符结果;
步骤7-1-2-7:采用Lattice LSTM模型中的字级输出门来控制字符结果的输出程度,输出最后的隐藏层隐藏状态。
6.根据权利要求4所述一种基于生成模型的医学中文命名实体识别方法,其特征在于:根据步骤7中CNN判别器的判别结果跳转至相应的CWS任务模块数据集执行CWS任务的具体过程包括如下步骤:
步骤7-2-1:将步骤2-2的CWS数据集中的句子字符
Figure DEST_PATH_IMAGE022AA
送入Bi-LSTM模型中进行处理;
步骤7-2-2:所述Bi-LSTM模型对输入字符序列进行编码,生成隐藏状态
Figure DEST_PATH_IMAGE034
步骤7-2-3:采用CWS任务模块中的Self-Attention机制提取Bi-LSTM生成的关键特征并整合对抗训练模块中BiLSTM生成器生成的特征信息,生成隐藏状态
Figure DEST_PATH_IMAGE036
步骤7-2-4:结合所述步骤7-2-3所得的隐藏状态
Figure DEST_PATH_IMAGE036A
之间的相关性,利用条件随机场模型CRF学习相邻关系来模拟标签之间的顺序关系,解码最终的序列标签以确保预测标签的合法性;
步骤7-2-5:通过不断的重复步骤7-2-1和步骤7-2-4,在CWS任务模块数据集上训练并选取在CWS任务模块数据集的开发集上进行CWS任务时将F1值最大的模型进行保存。
7.根据权利要求6所述一种基于生成模型的医学中文命名实体识别方法,其特征在于:在所述步骤7-2-3中,采用Self-Attention机制,生成隐藏状态
Figure DEST_PATH_IMAGE036AA
具体包括如下步骤:
步骤7-2-3-1:将步骤7-2-2的隐藏状态
Figure DEST_PATH_IMAGE034A
引入Self-Attention机制,将CWS私有任务中Bi-LSTM模型生成的隐藏向量状态以及对抗训练模块Shared BiLSTM生成器生成的隐藏向量状态输入至对应的SA-1、SA-2自注意力神经网络;
步骤7-2-3-2:将SA-1、SA-2自注意力神经网络的输出反馈给第三个自注意力神经网络SA-3进行信息整合,得到一个输入句子的整体隐藏状态
Figure DEST_PATH_IMAGE036AAA
8.根据权利要求1所述一种基于生成模型的医学中文命名实体识别方法,其特征在于:所述Shared BiLSTM生成器接收来自中文CNER任务和CWS任务的字符嵌入,使用BiLSTM模型合并字符序列两边的信息,分别从正向的正序列以及相反方向的逆序列学习医学文本信息,输出前向、后向隐藏层向量,充分集成上下文信息,学习训练集中实体和非实体的关系,生成隐藏状态;
所述Self-Attention机制显式学习句子中任意两个字符之间的依赖关系,捕获句子的内部结构信息,根据文本中句子的权值有选择的输出中间结果;
所述CNN判别器由一个最大池层和一个Softmax层组成,CNN判别器接收Self-Attention机制的输出并判断Shared BiLSTM生成器生成数据的数据来源,将来自中文CNER任务的输入发送至独立的中文CNER任务进行处理,将来自CWS任务的输入发送至CWS任务进行单独处理。
9.根据权利要求8所述一种基于生成模型的医学中文命名实体识别方法,其特征在于:步骤4中,BiLSTM隐藏层的状态的输出过程包括如下步骤:
步骤4-1:将输入的正序列输入到Shared BiLSTM生成器的前向神经网络,得到包含上文信息的前向隐藏向量
Figure DEST_PATH_IMAGE038
,具体计算过程为为
Figure DEST_PATH_IMAGE040
,其中
Figure DEST_PATH_IMAGE042
表示字向量,
Figure DEST_PATH_IMAGE044
表示
Figure DEST_PATH_IMAGE046
时刻LSTM的隐藏向量输出
步骤4-2: 再将输入的逆序列输入到Shared BiLSTM生成器的后向神经网络,得到包含下文信息的后向隐藏向量
Figure DEST_PATH_IMAGE048
,具体计算过程为
Figure DEST_PATH_IMAGE050
,其中,
Figure DEST_PATH_IMAGE052
表示
Figure DEST_PATH_IMAGE054
时刻LSTM的隐藏向量输出;
步骤4-3:合并前向隐藏向量和后向隐藏向量得到隐藏状态输出
Figure DEST_PATH_IMAGE056
,具体计算过程为
Figure DEST_PATH_IMAGE058
,其中
Figure DEST_PATH_IMAGE060
表示拼接运算。
10.根据权利要求1所述一种基于生成模型的医学中文命名实体识别方法,其特征在于:所述步骤6中,私有任务判别包括如下步骤:
步骤6-1:将步骤5中对抗训练模块中的Self-Attention机制计算出的实体特征权重送到CNN判别器中的最大池化层进行非极大值消除处理,去除冗余信息,压缩实体特性,降低上层Softmax层的计算复杂度;
步骤6-2:CNN判别器中的Softmax函数将输出概率限制在0-1之间,采用Softmax函数将最大池化层清洗过的实体特征权重数值映射到输入医学文本来自中文CNER任务的概率分数;
步骤6-3:根据步骤6-2得到的概率分数,鉴别所嵌入字符序列所属任务类型,输出判别结果。
CN202211470749.3A 2022-11-23 2022-11-23 一种基于生成模型的医学中文命名实体识别方法 Active CN115630649B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211470749.3A CN115630649B (zh) 2022-11-23 2022-11-23 一种基于生成模型的医学中文命名实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211470749.3A CN115630649B (zh) 2022-11-23 2022-11-23 一种基于生成模型的医学中文命名实体识别方法

Publications (2)

Publication Number Publication Date
CN115630649A true CN115630649A (zh) 2023-01-20
CN115630649B CN115630649B (zh) 2023-06-30

Family

ID=84910685

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211470749.3A Active CN115630649B (zh) 2022-11-23 2022-11-23 一种基于生成模型的医学中文命名实体识别方法

Country Status (1)

Country Link
CN (1) CN115630649B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116720519A (zh) * 2023-06-08 2023-09-08 吉首大学 一种苗医药命名实体识别方法
CN117057350A (zh) * 2023-08-07 2023-11-14 内蒙古大学 中文电子病历命名实体识别方法和系统

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229582A (zh) * 2018-02-01 2018-06-29 浙江大学 一种面向医学领域的多任务命名实体识别对抗训练方法
CN109284400A (zh) * 2018-11-28 2019-01-29 电子科技大学 一种基于Lattice LSTM和语言模型的命名实体识别方法
CN111079418A (zh) * 2019-11-06 2020-04-28 科大讯飞股份有限公司 命名体识别方法、装置、电子设备和存储介质
CN111460824A (zh) * 2020-03-30 2020-07-28 华南理工大学 一种基于对抗迁移学习的无标注命名实体识别方法
CN111738002A (zh) * 2020-05-26 2020-10-02 北京信息科技大学 基于Lattice LSTM的古文领域命名实体识别方法和系统
CN112151183A (zh) * 2020-09-23 2020-12-29 上海海事大学 一种基于Lattice LSTM模型的中文电子病历的实体识别方法
CN113343694A (zh) * 2021-04-29 2021-09-03 山东师范大学 一种医疗命名实体识别方法及系统
CN113361277A (zh) * 2021-06-16 2021-09-07 西南交通大学 基于注意力机制的医学命名实体识别建模方法
CN114091460A (zh) * 2021-11-24 2022-02-25 长沙理工大学 一种多任务中文实体命名识别方法
CN114462409A (zh) * 2022-01-28 2022-05-10 南京审计大学 一种基于对抗训练的审计领域命名实体识别方法
JP2022077202A (ja) * 2020-11-11 2022-05-23 株式会社デンソーアイティーラボラトリ 学習方法及び学習システム
CN114638214A (zh) * 2022-03-18 2022-06-17 中国人民解放军国防科技大学 一种医疗领域中文命名实体识别方法
CN114722818A (zh) * 2022-01-28 2022-07-08 大连民族大学 一种基于对抗迁移学习的命名实体识别模型
WO2022206599A1 (zh) * 2021-04-02 2022-10-06 北京京东拓先科技有限公司 分诊方法及装置、计算机可存储介质

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229582A (zh) * 2018-02-01 2018-06-29 浙江大学 一种面向医学领域的多任务命名实体识别对抗训练方法
CN109284400A (zh) * 2018-11-28 2019-01-29 电子科技大学 一种基于Lattice LSTM和语言模型的命名实体识别方法
CN111079418A (zh) * 2019-11-06 2020-04-28 科大讯飞股份有限公司 命名体识别方法、装置、电子设备和存储介质
CN111460824A (zh) * 2020-03-30 2020-07-28 华南理工大学 一种基于对抗迁移学习的无标注命名实体识别方法
CN111738002A (zh) * 2020-05-26 2020-10-02 北京信息科技大学 基于Lattice LSTM的古文领域命名实体识别方法和系统
CN112151183A (zh) * 2020-09-23 2020-12-29 上海海事大学 一种基于Lattice LSTM模型的中文电子病历的实体识别方法
JP2022077202A (ja) * 2020-11-11 2022-05-23 株式会社デンソーアイティーラボラトリ 学習方法及び学習システム
WO2022206599A1 (zh) * 2021-04-02 2022-10-06 北京京东拓先科技有限公司 分诊方法及装置、计算机可存储介质
CN113343694A (zh) * 2021-04-29 2021-09-03 山东师范大学 一种医疗命名实体识别方法及系统
CN113361277A (zh) * 2021-06-16 2021-09-07 西南交通大学 基于注意力机制的医学命名实体识别建模方法
CN114091460A (zh) * 2021-11-24 2022-02-25 长沙理工大学 一种多任务中文实体命名识别方法
CN114462409A (zh) * 2022-01-28 2022-05-10 南京审计大学 一种基于对抗训练的审计领域命名实体识别方法
CN114722818A (zh) * 2022-01-28 2022-07-08 大连民族大学 一种基于对抗迁移学习的命名实体识别模型
CN114638214A (zh) * 2022-03-18 2022-06-17 中国人民解放军国防科技大学 一种医疗领域中文命名实体识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YUE ZHANG, JIE YANG: "Chinese NER Using Lattice LSTM", pages 1 - 11 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116720519A (zh) * 2023-06-08 2023-09-08 吉首大学 一种苗医药命名实体识别方法
CN116720519B (zh) * 2023-06-08 2023-12-19 吉首大学 一种苗医药命名实体识别方法
CN117057350A (zh) * 2023-08-07 2023-11-14 内蒙古大学 中文电子病历命名实体识别方法和系统
CN117057350B (zh) * 2023-08-07 2024-05-10 内蒙古大学 中文电子病历命名实体识别方法和系统

Also Published As

Publication number Publication date
CN115630649B (zh) 2023-06-30

Similar Documents

Publication Publication Date Title
CN109582789B (zh) 基于语义单元信息的文本多标签分类方法
Yu et al. PICK: processing key information extraction from documents using improved graph learning-convolutional networks
CN109800411B (zh) 临床医疗实体及其属性抽取方法
CN108460013B (zh) 一种基于细粒度词表示模型的序列标注模型及方法
Logeswaran et al. Sentence ordering and coherence modeling using recurrent neural networks
CN111046668B (zh) 多模态文物数据的命名实体识别方法与装置
CN110969020B (zh) 基于cnn和注意力机制的中文命名实体识别方法、系统及介质
WO2021223323A1 (zh) 一种中文视觉词汇表构建的图像内容自动描述方法
CN110765775B (zh) 一种融合语义和标签差异的命名实体识别领域自适应的方法
CN106484674B (zh) 一种基于深度学习的中文电子病历概念抽取方法
CN114169330B (zh) 融合时序卷积与Transformer编码器的中文命名实体识别方法
CN111738003B (zh) 命名实体识别模型训练方法、命名实体识别方法和介质
CN110111864B (zh) 一种基于关系模型的医学报告生成系统及其生成方法
Lu et al. Bi-encoder transformer network for mandarin-english code-switching speech recognition using mixture of experts.
CN109918671A (zh) 基于卷积循环神经网络的电子病历实体关系抽取方法
CN109670177A (zh) 一种基于lstm实现医学语义归一化的控制方法及控制装置
CN111738007B (zh) 一种基于序列生成对抗网络的中文命名实体识别数据增强算法
CN115630649B (zh) 一种基于生成模型的医学中文命名实体识别方法
CN116204674B (zh) 一种基于视觉概念词关联结构化建模的图像描述方法
CN111666762A (zh) 一种基于多任务学习的肠癌诊断电子病历属性值抽取方法
Zhang et al. Using a pre-trained language model for medical named entity extraction in Chinese clinic text
CN115238693A (zh) 一种基于多分词和多层双向长短期记忆的中文命名实体识别方法
CN111145914A (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN114398488A (zh) 一种基于注意力机制的bilstm多标签文本分类方法
CN111582287B (zh) 一种基于充足视觉信息与文本信息的图像描述方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant