CN113343694B - 一种医疗命名实体识别方法及系统 - Google Patents
一种医疗命名实体识别方法及系统 Download PDFInfo
- Publication number
- CN113343694B CN113343694B CN202110474668.XA CN202110474668A CN113343694B CN 113343694 B CN113343694 B CN 113343694B CN 202110474668 A CN202110474668 A CN 202110474668A CN 113343694 B CN113343694 B CN 113343694B
- Authority
- CN
- China
- Prior art keywords
- vector
- phrases
- medical
- named entity
- obtaining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 239000013598 vector Substances 0.000 claims abstract description 91
- 238000013528 artificial neural network Methods 0.000 claims abstract description 17
- 230000007246 mechanism Effects 0.000 claims description 10
- 238000003860 storage Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 230000001419 dependent effect Effects 0.000 claims description 6
- 235000008694 Humulus lupulus Nutrition 0.000 claims description 4
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 14
- 238000012549 training Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 13
- 208000015634 Rectal Neoplasms Diseases 0.000 description 10
- 230000000694 effects Effects 0.000 description 10
- 206010038038 rectal cancer Diseases 0.000 description 10
- 201000001275 rectum cancer Diseases 0.000 description 10
- 210000002784 stomach Anatomy 0.000 description 10
- 206010028980 Neoplasm Diseases 0.000 description 9
- 201000011510 cancer Diseases 0.000 description 9
- 238000002474 experimental method Methods 0.000 description 9
- 238000004590 computer program Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000001356 surgical procedure Methods 0.000 description 7
- 230000008901 benefit Effects 0.000 description 4
- 201000010099 disease Diseases 0.000 description 4
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 4
- 201000009030 Carcinoma Diseases 0.000 description 3
- 208000005718 Stomach Neoplasms Diseases 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 206010017758 gastric cancer Diseases 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000000717 retained effect Effects 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 201000011549 stomach cancer Diseases 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 210000003484 anatomy Anatomy 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Epidemiology (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Machine Translation (AREA)
Abstract
本公开提供了一种医疗命名实体识别方法及系统,获取待识别的医疗文本数据;根据获取的医疗文本数据,得到至少一个句子中的词嵌入向量;进行句子中短语的语法角色标记,结合短语之间的依存关系,得到短语之间的关系图,根据预设图卷积神经网络中,得到特征向量;将获取的词嵌入向量和特征向量进行拼接,得到拼接后的输入向量;根据拼接后的输入向量和预设动态堆叠网络,得到医疗命名实体识别结果;本公开采用动态堆叠网络的原因是为了解决实体嵌套的问题,极大的提高了医疗命名实体的识别精度。
Description
技术领域
本公开涉及实体识别技术领域,特别涉及一种医疗命名实体识别方法及系统。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术,并不必然构成现有技术。
目前,出现了大量的电子病历数据,以电子格式提供的健康信息的可用性是整个医疗领域提高质量和降低医疗保健成本的战略选择,近年来,医疗保健系统在电子病历方面取得了重大突破。通过使用电子病历可以实现的实质性好处包括质量、安全性和效率的提高,以及教育和研究的能力的增强。尽管如此,在数据采用的过程中仍然存在许多障碍需要去克服。
医学数据的大规模研究,推动了医学领域的迅速发展。采用文本挖掘的方式,提取存储在数据库中的大量可用医学报告信息,可以获得丰富的医学知识,为医学研究和应用带来巨大的好处。在医学数据挖掘任务中,医疗命名实体的识别和规范化是最基本的任务。
发明人发现,从这些数据中提取临床信息并不容易,因为这些数据是用自然语言编写,充满医学术语、缩写词、速记符号、拼写错误和句子片段的记录。除此之外,还面临着许多挑战和难点。比如:命名实体识别在识别的过程中会存在实体彼此嵌套的问题。因此,语义注释资源尤为重要,比如句法结构分析在命名实体识别任务上也起着重要的作用。但是由于中文表达和英语表达不同,中文存在分词的问题,使得目前现阶段的句法分析大多数都集中在英语上。
发明内容
为了解决现有技术的不足,本公开提供了一种医疗命名实体识别方法及系统,采用动态堆叠网络的原因是为了解决实体嵌套的问题;采用XLnet预训练模型生成嵌入向量,更好地提取了医疗文本数据中的语义特征;采用图卷积神经网络对句法分析结果中结点的局部依赖关系建模,提取了有用的语法信息生成的嵌入向量,为命名实体识别任务提供了更丰富的语义特征,极大的提高了医疗命名实体的识别精度。
为了实现上述目的,本公开采用如下技术方案:
本公开第一方面提供了一种医疗命名实体识别方法。
一种医疗命名实体识别方法,包括以下过程:
获取待识别的医疗文本数据;
根据获取的医疗文本数据,得到至少一个句子中的词嵌入向量;
进行句子中短语的语法角色标记,结合短语之间的依存关系,得到短语之间的关系图,根据预设图卷积神经网络中,得到特征向量;
将获取的词嵌入向量和特征向量进行拼接,得到拼接后的输入向量;
根据拼接后的输入向量和预设动态堆叠网络,得到医疗命名实体识别结果。
进一步的,动态堆叠网络中,根据句子的嵌套层数确定Transformer-CRF层的叠加数量。
更进一步的,如果当前Transformer-CRF层预测到实体,则引入一个新的Transformer-CRF层,结合当前Transformer-CRF层检测到的每个实体的单词序列表示,组成该实体的新表示,然后将其作为输入传递到新的Transformer-CRF层。
更进一步的,动态堆叠网络中,如果当前Transformer-CRF层检预测到非实体,则保留字符表示而不进行任何处理。
进一步的,将短语定义为结点,将短语之间的依存关系定义为边,利用图卷积神经网络通过图上操作聚集结点的邻域特征;
如果只有一层卷积,则捕获直接邻居节点特征,如果具有多层卷积堆叠卷积层,则捕获最多K跳跃的任何结点特征。
进一步的,短语之间的依存关系分析时没有非终结符,词与词相互依存,两个词分别为核心词和从属词,用有向弧表示,弧的方向为核心词指向从属词,弧上的标记为依存关系类型。
进一步的,利用XLnet语言模型进行词向量的获取,且XLnet语言模型采用双流注意力机制。
本公开第二方面提供了一种医疗命名实体识别系统。
一种医疗命名实体识别系统,包括:
数据获取模块,被配置为:获取待识别的医疗文本数据;
词嵌入向量获取模块,被配置为:根据获取的医疗文本数据,得到至少一个句子中的词嵌入向量;
特征向量提取模块,被配置为:进行句子中短语的语法角色标记,结合短语之间的依存关系,得到短语之间的关系图,根据预设图卷积神经网络中,得到特征向量;
向量拼接模块,被配置为:将获取的词嵌入向量和特征向量进行拼接,得到拼接后的输入向量;
实体识别模块,被配置为:根据拼接后的输入向量和预设动态堆叠网络,得到医疗命名实体识别结果。
本公开第三方面提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如本公开第一方面所述的医疗命名实体识别方法中的步骤。
本公开第四方面提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本公开第一方面所述的医疗命名实体识别方法中的步骤。
与现有技术相比,本公开的有益效果是:
1、本公开所述的方法、系统、介质或电子设备,采用动态堆叠网络的原因是为了解决实体嵌套的问题,极大的提高了医疗命名实体的识别精度。
2、本公开所述的方法、系统、介质或电子设备,采用XLnet预训练模型生成嵌入向量,更好地提取了医疗文本数据中的语义特征,进一步的提高了医疗命名实体的识别精度。
3、本公开所述的方法、系统、介质或电子设备,采用图卷积神经网络对句法分析结果中结点的局部依赖关系建模,提取了有用的语法信息生成的嵌入向量,为命名实体识别任务提供了更丰富的语义特征,更进一步的提高了医疗命名实体的识别精度。
本公开附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本公开的实践了解到。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
图1为本公开实施例1提供的基于动态堆叠网络的命名实体识别方法的算法结构示意图。
图2为本公开实施例1提供的XLnet模型结构图。
图3为本公开实施例1提供的XLnet模型的mask机制示例图。
图4为本公开实施例1提供的依存句法分析结构图。
图5为本公开实施例1提供的基于图卷积神经网络的特征提取架构图。
图6为本公开实施例1提供的三种嵌入向量的比较结果图。
图7为本公开实施例1提供的动态网络对比实验图。
具体实施方式
下面结合附图与实施例对本公开作进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
实施例1:
本公开实施例1提供了一种医疗命名实体识别方法,包括以下过程:
首先,利用XLnet预训练模型生成嵌入向量,该嵌入向量分融合上下文特征,具有丰富的语义信息。
其次,利用图卷积神经网络对句法分析结果中结点的局部依赖关系建模,生成嵌入向量,该向量为命名实体识别任务提供更丰富的语义特征,
最后,利用动态堆叠网络,根据实体嵌套的层数进行网络的叠加,,对句中的嵌套实体进行动态堆叠式识别,利用内嵌实体的特征帮助外部实体的识别,从而解决实体嵌套的问题。
如图1所示,该网络架构由嵌入模块和动态堆叠模块组成,下面将具体介绍各个模块的工作流程。
S1:嵌入模块
为了更好地提取医疗文本数据中的语义特征,SD_NER模型采用了XLnet预训练模型生成的嵌入向量。
SD_NER模型采用XLnet语言模型实现向量嵌入模块,它有XLnet的所有优势。
第一,它是一种广义的自回归(AR)预训练方法。所谓广义自回归,是一种使用上下文词来预测下一个词的模型,可以实现双向预测,避免了传统的自回归只能单向预测的缺点(如图2所示),以及自编码语言模型引入mask之后独立预测的缺点(如图2所示)。比如,将句子中的字符“胃”和“癌”mask之后,只能独立预测,不能依赖之间的关系。
第二,嵌入模块采用XLnet的核心思想,以排列组合的方式重构输入文本。与BERT不同,XLnet并不是在输入阶段对文本进行排列组合,它是在Transformer内部通过attention mask矩阵来实现。通过这种方式可以得到不同的排列组合,使模型的训练充分融合上下文特征,同时不会造成mask机制下的有效信息缺失,克服了BERT模型的缺陷。XLnet的mask机制实现方式,如图3所示,假设原始输入句子为[胃,癌,根,治,术],输入XLnet的句子不是任意组合的序列,如[癌,根,胃,术,治],而仍然是[胃,癌,根,治,术]。然后,通过XLnet内部的掩码矩阵,实现文本序列的组合。对于排列后的“胃”字来说,它只能利用到“癌”和“根”两字的信息,所以在第一行中保留了第二个和第三个位置的信息(用红色圆圈表示),而其他位置的信息被掩盖掉(用蓝色圆圈表示)。再比如排列后的“癌”字,由于位于第一个位置,没有可以利用的信息,所以在第二行中全部以蓝色圆圈表示;其他类似。
嵌入模块采用XLnet的双流注意力机制,分别是内容流注意(content streamattention)和查询流注意(query stream attention)。采用这种方式的原因是因为排列组合采样后,再利用单词内容信息和位置信息时会产生矛盾。以“胃癌根治术”为例,经过排列组合后,会产生[癌,根,胃,术,治]和[根,癌,术,治,胃]等采样信息。如果在示例[癌,根,胃,术,治]中,想要预测“术”的内容,需要利用前面的信息“癌”,“根”和“胃”。因此,只需要知道“术”的位置即可。倘若在示例[根,癌,术,治,胃],想要预测“治”,需要知道“治”之前的信息“根”,“癌”和“术”。这个时候不仅需要知道“术”的位置信息还需要知道内容信息。因此,采用双流注意力机制,可以避免上述问题。
S2:基于图卷积神经网络的嵌入
S2.1:依存句法分析
基于图卷积神经网络嵌入方式首先需要句法分析。句法分析使用了开源工具HanLp,内含庞大的多语种语料库,可以支持分词、词性标注和依存句法分析等多种功能,分析结果如表1所示。
表1:分析结果
第一步,进行短语标记。以句子“患者因胃癌入院,手术方案为胃癌根治术。”为例进行分析,如表1所示。通过分析可以得到句子中每个词的词性。比如,短语“患者”的在句子中承担的是主语(subj),同时在成分树中承担了NN(名词)的角色。通过进行角色标记,可以关注句子的成分层级结构,以及短语成分的语法角色。
第二步,根据第一步生成角色标记后,将上述表1中的内容以txt的格式进行保存后,使用可视化工具Dependency Viewer,可以根据他们之间的依存关系生成关系图,如图4所示。依存分析结果没有非终结符,词与词相互依存,两个词分别称之为核心词和从属词,用有向弧表示,弧的方向为核心词指向从属词,弧上的标记为依存关系类型。句子中,(因,患者)对应的依存关系为pobj。
根据句法分析,得到了句子成分之间的依存关系,下一步为了提取他们之间的关系特征,可以将其输入到图神经网络中。
S2.2:图卷积神经网络提取特征
文本数据中不仅包含丰富的语义信息,还包含了复杂的语法结构,因此SD_NER模型的文本嵌入模块借助于图卷积神经网络(Graph Convolutional Networks,GCN),对句法分析结果中结点的局部依赖关系建模,提取有用的语法信息。这里的图是由结点和边组成,在本节中,将短语定义为结点,短语之间的依存关系定义为边。
首先,通过XLnet获取了词嵌入表达;然后,进行依存句法分析,获得短语之间的关系图;最后,将关系图输入到图卷积神经网络做进一步的特征提取,为命名实体识别任务提供更丰富的语义特征。GCN网络通过图上操作聚集结点的邻域特征,根据使用的卷积层数,GCN可以仅捕获关于直接邻居(具有一层卷积)或最多K跳跃的任何结点(如果K层彼此堆叠)的信息。基于GCN的特征提取框架结构如图5所示。图中描述的是提取语义特征的全部过程,左侧表示的是根据句子的依存关系生成的图结构,中间是卷积神经网络,右侧则是最终的输出向量。
S3:动态堆叠模块
针对实体嵌套的问题,SD_NER模型采用了动态堆叠网络,分为Transformer-CRF模块和动态堆叠模块。为了更好的提取语义信息,将XLnet嵌入向量和基于GCN的语义特征向量进行了拼接,作为动态堆叠网络的输入向量。因此,输入向量表示为:
xi=xXL:xsy (4)
其中xXL表示采用XLnet生成的嵌入向量,xsy表示采用GCN生成的特征向量。
S3.1:Transformer-CRF模块
生成输入向量后,下一步输入到Transformer-CRF模块。
首先,Transformer由N个相同的层组成,每层都由两个子层组成,即自注意层和全连接层。Transformer的核心思想是自注意机制,该机制将句子的不同位置关联起来以计算其表示形式。分别给定Q、K、V代表查询、键和值,以及维度dk,因此,可以将Transformer中使用的注意机制表示为:
Vatt=Att(Q,K)V (6)
为了学习不同的表示形式,多头注意将不同的线性变换应用于注意的每个“头”的值,键和查询。按照此方法,可以将q,k和v分别投影到dk,dk和dv维度。然后,再对这些投影向量中的每一个执行注意功能,从而得到dv维输出值,将其连接起来并再次投影,以得出最终值。因此,多头注意力机制表示为:
MultiHead(Q,K,V)=concat(head1,...,headh)Wo (7)
headi=Att(QWi Q,KWi K,VWi V) (8)
CRF模块对Transformer模块输出信息进行解码,得到标签序列,通过CRF生成的特征表示为:
h'=CRF(h) (9)
其中,h表示通过Transformer生成的隐藏状态。
S3.2:动态堆叠模块
动态堆叠模块是在Transformer-CRF层的基础上叠加Transformer-CRF层,叠加的层数是根据嵌套层数所决定的,旨在提取外部实体。具体而言,即将实体所在的上下文表示合并到检测到的实体中,来充实内部实体的表示。如公式10所述:
其中,wi表示Transformer-CRF层的第i个字符的表示,entityi表示实体的合并表示形式。其中s表示文本的开始位置,e表示文本的结束位置。
如果预测到实体,则引入一个新的Transformer-CRF层,并合当前Transformer-CRF层检测到的每个实体的单词序列表示,组成该实体的新表示,然后将其作为输入传递到新的Transformer-CRF层,检测到的实体的这种合并表示形式能够充分利用内部实体信息,以鼓励外部实体识别;如果该区域被检测为非实体,则保留字符表示而不进行任何处理。
在“直肠癌根治术”中,嵌套的实体有“直肠癌”和“直肠癌根治术”,根据提出的动态网络,在上述句子中嵌套层数是2,因此,模型共有两层Transformer-CRF组成,第一层检测到的实体为“直肠癌”,根据上下文信息“直肠癌根治术”利用加和平均可以得到“直肠癌”的新表示,然后将新的表示向量合并到当前层的字符向量中作为下一层Transformer-CRF的输入,进行下一层的识别任务,动态堆叠网络如算法1所示。
算法1描述了动态堆叠模块的算法过程。
在动态堆叠网络算法中,输入医学文本句子,在步骤1)中,创建Transformer-CRF架构。如果检测到实体,在步骤2-5)中,重新计算检测到的实体的向量表达,并作为下一层的输入。否则,在步骤7)中,保持字符向量不变。
S4:案例分析
S4.1:实验设置
经过多次试验调优,最终提出的SD_NER模型的实验采用如表2所述参数设置。
表2:参数配置
S4.2:实验结果
本节评估SD_NER模型的准确性,选择如下最先进的工作作为基线。
XLnet:采用XLnet预训练语言模型来增强单词的语义表示,并且完成识别任务。
Transformer-CRF:采用word2vec生成嵌入向量,将Transformer-CRF架构作为中文NER任务的主要模型。
Lattice LSTM:采用Word2vec生成嵌入向量,使用Lattice LSTM方法,与基于字符的方法相比,Lattice LSTM显式使用单词和单词序列信息。与基于单词的方法相比,Lattice LSTM没有分割错误。
Flat-Lattice:采用Word2vec生成嵌入向量,使用Flat-Lattice方法,该方法是在Lattice LSTM的基础的改进。
SD_NER:采用XLnet生成词向量,然后融合GCN提取的语义特征,联合作为整个模型的输入,最后采用Transformer-CRF作为SD_NER的架构完成识别任务。
(1)模型性能比较
不同模型的实验结果如表3和4所示所示。
表3:CCKS2018数据集的F1结果(严格指标)
表4:CCKS2019数据集的F1结果(严格指标)
通过分析上述两组数据集中的结果,虽然中间三组的整体架构均得到了提升,但是其预测结果仍低于XLnet的预测结果,是因为他们仍然采用了传统的词嵌入方式Word2vec,由此可见,词嵌入方式的重要性。这也就有了研究者提出目前XLnet模型的结果已经超过非XLnet的结论。
在实验过程发现Flat-Lattice的结果在本发明中的数据集上并不是很明显,原因在于输入过程中限制了文本数据的长度,针对较长的文本来说,结果可能不是很明显。通过总结前人经验和不足,提出的SD_NER模型采用了目前较为先进的预训练模型XLnet,并提出了动态堆叠的方式,去解决目前命名实体识别存在的实体嵌套的问题,超越了上述方法。
S4.3:分析验证
将详细讨论SD_NER模型各个模块的效果,以证明SD_NER的有效性。
(1)不同模块的性能验证
为了验证不同向量嵌入方式对模型的影响,采用不同的向量嵌入方式上进行实验,比较分析模型的实验结果。
BERT+LSTM-CRF:使用BERT预训练模型生成的向量,采用传统的LSTM-CRF架构完成预测任务。
XLnet+LSTM-CRF:使用XLnet预训练模型生成的向量,采用传统的LSTM-CRF架构完成预测任务。
T_NER:使用XLnet预训练模型生成的向量,采用Transformer-CRF架构完成预测任务。
ST_NER:首先,使用XLnet预训练模型生成的向量;然后,拼接采用GCN生成的语义特征;最后,采用Transformer-CRF完成预测任务。
SD_NER:首先,使用XLnet预训练模型生成向量;然后,拼接采用GCN生成的语义特征;最后,采用动态Transformer-CRF网络完成预测任务。
表5:不同嵌入方式的实验结果
在不同的数据集中进行了以下对比实验。
首先,比较了BERT+LSTM-CRF模型和XLnet+LSTM-CRF模型的结果。实验结果表明,第二个模型的效果较好,因为,它采用了效果比BERT要好的XLnet预训练模型作为向量嵌入工具,克服了BERT的许多缺点。
其次,比较了XLnet+LSTM-CRF模型和T_NER模型的实验结果。实验表明,采用Transformer的结果优于CRF的结果。
再次,比较了T_NER模型和ST_NER模型。实验表明,在XLnet嵌入向量的基础上添加语义特征之后的效果更好,因为在提取语义特征时,采用了GCN采取本发明的句法结构,有利于获取句子中的长距离依赖关系。
最后,比较了ST_NER模型和SD_NER模型,实验表明,在Transformer-CRF的基础上采用动态堆叠网络更有助于识别任务,因为引入动态堆叠网络目的就是为了解决实体嵌套的问题,因此在实体存在嵌套的情况下,第二种模型的结果较好。
通过以上四组实验表明:首先,采用XLnet生成的词向量是有效的。其次,在提取文本特征的过程中引入句法结构也很重要;再次,采用Transformer-CRF架构比传统的LSTM-CRF效果好;最后,证明了采用都动态堆叠网络模型结果确实有所提升。
(2)不同向量嵌入方式对模型效果的影响
通过对SD_NER模型采用不同的嵌入向量时进行的训练时间的比较,结果如图6所示。可以发现:Word2vec的效果最低,BERT次之,XLnet的效果最佳。原因在于,Word2vec没有考虑上下文信息,并且无法解决一词多义等问题。而BERT的出现,成为了词向量表示的里程碑,不仅可以联系上下文信息,还可以解决一词多义的问题,而且不断进行改进,丰富了向量的表达,融入了位置信息等。XLnet在BERT的基础上进行了改进,不仅避免数据在输入过程中产生损坏等问题,还可以双向提取上下文特征,促使效果得到了提升。
(3)动态堆叠验证
通过统计分析得出数据集中共有六类不同的实体,分别是手术类,药物类,解剖部位类,检查类,影像检验类和疾病类。为了更好的分析SD_NER模型的性能,分别使用ST_NER模型和SD_NER模型进行预测,发现手术类NER任务的提高较多,如图7所示。分析了实体的构成后,发手术类的实体多数存在实体嵌套的问题。
如果存在实体嵌套,在实体标记的时候,可能会出现标记错误,比如误将手术类实体标记为疾病类实体,比如表6所示。经过统计发现,这一类的实体大都是“疾病+根治术”的格式。因此,在这一类实体中,提升的效果最为明显。相对于药物等其他类的实体来说,效果可能不是特别明显,但是在本章提出的模型上也得到了一定的提升。由此可见动态堆叠网络在解决实体嵌套的问题上起着至关重要的作用。
表6:预测结果示例
实体 | 直肠癌根治术 |
标记实体 | 直肠癌根治术-手术 |
无动态网络 | 直肠癌-疾病 |
有动态网络 | 直肠癌根治术-手术 |
实施例2:
本公开实施例2提供了一种医疗命名实体识别系统,包括:
数据获取模块,被配置为:获取待识别的医疗文本数据;
词嵌入向量获取模块,被配置为:根据获取的医疗文本数据,得到至少一个句子中的词嵌入向量;
特征向量提取模块,被配置为:进行句子中短语的语法角色标记,结合短语之间的依存关系,得到短语之间的关系图,根据预设图卷积神经网络中,得到特征向量;
向量拼接模块,被配置为:将获取的词嵌入向量和特征向量进行拼接,得到拼接后的输入向量;
实体识别模块,被配置为:根据拼接后的输入向量和预设动态堆叠网络,得到医疗命名实体识别结果。
所述系统的工作方法与实施例1提供的医疗命名实体识别方法相同,这里不再赘述。
实施例3:
本公开实施例3提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如本公开实施例1所述的医疗命名实体识别方法中的步骤。
实施例4:
本公开实施例4提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本公开实施例1所述的医疗命名实体识别方法中的步骤。
本领域内的技术人员应明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
Claims (8)
1.一种医疗命名实体识别方法,其特征在于:包括以下过程:
获取待识别的医疗文本数据;
根据获取的医疗文本数据,得到至少一个句子中的词嵌入向量;
进行句子中短语的语法角色标记,结合短语之间的依存关系,得到短语之间的关系图,根据预设图卷积神经网络中,得到特征向量;
将获取的词嵌入向量和特征向量进行拼接,得到拼接后的输入向量;
根据拼接后的输入向量和预设动态堆叠网络,得到医疗命名实体识别结果;
其中,所述动态堆叠网络中,根据句子的嵌套层数确定Transformer-CRF层的叠加数量;
将短语定义为结点,将短语之间的依存关系定义为边,利用图卷积神经网络通过所述关系图上操作聚集结点的邻域特征;
如果只有一层卷积,则捕获直接邻居节点特征,如果具有多层卷积堆叠卷积层,则捕获最多K跳跃的任何结点特征。
2.如权利要求1所述的医疗命名实体识别方法,其特征在于:
如果当前Transformer-CRF层预测到实体,则引入一个新的Transformer-CRF层,结合当前Transformer-CRF层检测到的每个实体的单词序列表示,组成该实体的新表示,然后将其作为输入传递到新的Transformer-CRF层。
3.如权利要求1所述的医疗命名实体识别方法,其特征在于:
动态堆叠网络中,如果当前Transformer-CRF层检预测到非实体,则保留字符表示而不进行任何处理。
4.如权利要求1所述的医疗命名实体识别方法,其特征在于:
短语之间的依存关系分析时没有非终结符,词与词相互依存,两个词分别为核心词和从属词,用有向弧表示,弧的方向为核心词指向从属词,弧上的标记为依存关系类型。
5.如权利要求1所述的医疗命名实体识别方法,其特征在于:
利用XLnet语言模型进行词向量的获取,且XLnet语言模型采用双流注意力机制。
6.一种医疗命名实体识别系统,其特征在于:包括:
数据获取模块,被配置为:获取待识别的医疗文本数据;
词嵌入向量获取模块,被配置为:根据获取的医疗文本数据,得到至少一个句子中的词嵌入向量;
特征向量提取模块,被配置为:进行句子中短语的语法角色标记,结合短语之间的依存关系,得到短语之间的关系图,根据预设图卷积神经网络中,得到特征向量;
向量拼接模块,被配置为:将获取的词嵌入向量和特征向量进行拼接,得到拼接后的输入向量;
实体识别模块,被配置为:根据拼接后的输入向量和预设动态堆叠网络,得到医疗命名实体识别结果;
其中,所述动态堆叠网络中,根据句子的嵌套层数确定Transformer-CRF层的叠加数量;
将短语定义为结点,将短语之间的依存关系定义为边,利用图卷积神经网络通过所述关系图上操作聚集结点的邻域特征;
如果只有一层卷积,则捕获直接邻居节点特征,如果具有多层卷积堆叠卷积层,则捕获最多K跳跃的任何结点特征。
7.一种计算机可读存储介质,其上存储有程序,其特征在于,该程序被处理器执行时实现如权利要求1-5任一项所述的医疗命名实体识别方法中的步骤。
8.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-5任一项所述的医疗命名实体识别方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110474668.XA CN113343694B (zh) | 2021-04-29 | 2021-04-29 | 一种医疗命名实体识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110474668.XA CN113343694B (zh) | 2021-04-29 | 2021-04-29 | 一种医疗命名实体识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113343694A CN113343694A (zh) | 2021-09-03 |
CN113343694B true CN113343694B (zh) | 2023-04-07 |
Family
ID=77469087
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110474668.XA Active CN113343694B (zh) | 2021-04-29 | 2021-04-29 | 一种医疗命名实体识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113343694B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113836926A (zh) * | 2021-09-27 | 2021-12-24 | 北京林业大学 | 电子病历命名实体识别方法、电子设备及存储介质 |
CN114330474B (zh) * | 2021-10-20 | 2024-04-26 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、计算机设备以及存储介质 |
CN114446474A (zh) * | 2021-12-25 | 2022-05-06 | 新瑞鹏宠物医疗集团有限公司 | 宠物疾病预警装置、方法、电子设备及存储介质 |
CN115630649B (zh) * | 2022-11-23 | 2023-06-30 | 南京邮电大学 | 一种基于生成模型的医学中文命名实体识别方法 |
CN117316372B (zh) * | 2023-11-30 | 2024-04-09 | 天津大学 | 一种基于深度学习的耳疾电子病历解析方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109710932A (zh) * | 2018-12-22 | 2019-05-03 | 北京工业大学 | 一种基于特征融合的医疗实体关系抽取方法 |
WO2019229768A1 (en) * | 2018-05-28 | 2019-12-05 | Thottapilly Sanjeev | A bot engine for automatic dynamic intent computation |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109582948B (zh) * | 2017-09-29 | 2022-11-22 | 北京国双科技有限公司 | 评价观点抽取的方法及装置 |
US11574122B2 (en) * | 2018-08-23 | 2023-02-07 | Shenzhen Keya Medical Technology Corporation | Method and system for joint named entity recognition and relation extraction using convolutional neural network |
CN112560495B (zh) * | 2020-12-09 | 2024-03-15 | 新疆师范大学 | 一种基于情感分析的微博谣言检测方法 |
CN112597774B (zh) * | 2020-12-14 | 2023-06-23 | 山东师范大学 | 中文医疗命名实体识别方法、系统、存储介质和设备 |
-
2021
- 2021-04-29 CN CN202110474668.XA patent/CN113343694B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019229768A1 (en) * | 2018-05-28 | 2019-12-05 | Thottapilly Sanjeev | A bot engine for automatic dynamic intent computation |
CN109710932A (zh) * | 2018-12-22 | 2019-05-03 | 北京工业大学 | 一种基于特征融合的医疗实体关系抽取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113343694A (zh) | 2021-09-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113343694B (zh) | 一种医疗命名实体识别方法及系统 | |
Wang et al. | Text-to-SQL generation for question answering on electronic medical records | |
Reddy et al. | Transforming dependency structures to logical forms for semantic parsing | |
Zettlemoyer et al. | Learning to map sentences to logical form: Structured classification with probabilistic categorial grammars | |
Wong et al. | Learning for semantic parsing with statistical machine translation | |
CN104199831B (zh) | 信息处理方法及装置 | |
Zhang et al. | SG-Net: Syntax guided transformer for language representation | |
JPS62163173A (ja) | 機械翻訳方法 | |
JPH1091630A (ja) | テキスト処理方法及び装置 | |
CN113779220A (zh) | 一种基于三通道认知图谱和图注意力网络的蒙语多跳问答方法 | |
Abbas et al. | A review of nlidb with deep learning: findings, challenges and open issues | |
Donatelli et al. | Saarland at MRP 2019: Compositional parsing across all graphbanks | |
Le et al. | Learning compositional semantics for open domain semantic parsing | |
CN113408307B (zh) | 一种基于翻译模板的神经机器翻译方法 | |
Terdalkar et al. | Framework for question-answering in Sanskrit through automated construction of knowledge graphs | |
Lavie et al. | Experiments with a Hindi-to-English transfer-based MT system under a miserly data scenario | |
Pust et al. | Using syntax-based machine translation to parse english into abstract meaning representation | |
Anguiano et al. | Parse correction with specialized models for difficult attachment types | |
CN109992777B (zh) | 一种基于关键词的中医病情文本关键语义信息提取方法 | |
Constant et al. | Deep lexical segmentation and syntactic parsing in the easy-first dependency framework | |
Ye et al. | Going “deeper”: Structured sememe prediction via transformer with tree attention | |
Pinheiro et al. | ChartText: Linking Text with Charts in Documents | |
Zhang et al. | Semantics-aware inferential network for natural language understanding | |
Buchholz et al. | Bootstrapping UMR Annotations for Arapaho from Language Documentation Resources | |
CN114756679A (zh) | 基于交谈注意力机制的中文医学文本实体关系联合抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20240116 Address after: Room 506, Building C, Taihe Times Square, No. 20 Tangyan Road North Section, Lianhu District, Xi'an City, Shaanxi Province, 710000 Patentee after: Xi'an Shengxin Annuo Psychological Consultation Co.,Ltd. Address before: 250014 No. 88, Wenhua East Road, Lixia District, Shandong, Ji'nan Patentee before: SHANDONG NORMAL University |