CN112597774B - 中文医疗命名实体识别方法、系统、存储介质和设备 - Google Patents

中文医疗命名实体识别方法、系统、存储介质和设备 Download PDF

Info

Publication number
CN112597774B
CN112597774B CN202011468199.2A CN202011468199A CN112597774B CN 112597774 B CN112597774 B CN 112597774B CN 202011468199 A CN202011468199 A CN 202011468199A CN 112597774 B CN112597774 B CN 112597774B
Authority
CN
China
Prior art keywords
named entity
dictionary
embedded
medical
chinese
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011468199.2A
Other languages
English (en)
Other versions
CN112597774A (zh
Inventor
王红
王正军
杨杰
王彩雨
杨雪
李刚
滑美芳
胡斌
王吉华
贾伟宽
闫伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Micro Test Cloud Anhui Medical Information Co ltd
Original Assignee
Shandong Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Normal University filed Critical Shandong Normal University
Priority to CN202011468199.2A priority Critical patent/CN112597774B/zh
Publication of CN112597774A publication Critical patent/CN112597774A/zh
Application granted granted Critical
Publication of CN112597774B publication Critical patent/CN112597774B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明属于中文医疗命名实体识别技术领域,提供了一种中文医疗命名实体识别方法、系统、存储介质和设备。其中,中文医疗命名实体识别方法包括获取临床文本数据;将临床文本数据分别转换为医疗文本的字符嵌入表示、医学概念嵌入特征向量和跨语言中文嵌入表示并进行拼接,得到多元数据融合特征向量;将多元数据融合特征向量输入至基于多图的命名实体识别模型中,识别出中文医疗命名实体类型;基于多图的命名实体识别模型包括多图网络和LSTM‑CRF模型,多图网络用于接收以多元数据融合特征向量为节点构成的文本图,输出节点的最终状态并传送至LSTM‑CRF模型,由LSTM‑CRF模型输出识别结果。其提高了中文医疗命名实体识别准确性。

Description

中文医疗命名实体识别方法、系统、存储介质和设备
技术领域
本发明属于中文医疗命名实体识别技术领域,尤其涉及一种中文医疗命名实体识别方法、系统、存储介质和设备。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
命名实体识别是指识别自由文本中具有特定意义的实体,如人名、地名、专有名词等。医疗命名实体识别从医生的治疗记录中识别疾病、症状、治疗等实体。医疗命名实体识别是电子病历语义结构化的基础和关键,其任务是从电子病历的医疗文本中识别出不同的实体,如疾病、症状、治疗、药物、手术和解析部位等,为后续的关系抽取、实体连接、知识图谱构建等工作提供重要的支持。中文命名实体识别对临床实践和研究中具有广泛的实用价值,对其研究具有非常重要的意义。
在实现本公开的过程中,发明人发现现有技术中存在以下技术问题:
中文的医疗实体识别与英文的相比,存在诸多难点,挑战更大,目前未解决的难题更多。例如中文医疗文本具有予以提取不完整,分割错误和语义歧义等问题。具体来说,中文医疗文本语义信息,例如药物和临床疾病的诊断记录,很难提取完整,因为中文医疗文本的语义信息以不同的形式展现,例如字和词,如果仅采用基于字的分割来提取语义信息,虽然方法简单,并且不会出现单词边界划分错误,但是这种方法会缺失语义信息,也就是说,由于没有单词、位置、语法结构以及领域知识等其他类型的补充信息,可能会产生语义歧义。相反的,如果采用基于词的分割方式提取语义,很可能会产生分割错误,因为中文文本和英文文本不同,中文文本中词之间没有明显的分隔符。这种分割错误会级联地导致语义信息提取错误。比如“乙状结肠癌根治性切除术”,“奥沙利铂”等。如果没有医学领域知识的指导,对这些专业术语的分词变得非常困难。另外,很多中文词存在“同名异义或者异名同义”现象,即,同一个词,在不同上下文中的含义也可能不同。例如,“疾”字有“疾病”的意思也有“快”的意思,如果没有领域知识的指导,也可能会产生歧义。
发明内容
为了解决上述背景技术中存在的至少一项技术问题,本发明提供一种中文医疗命名实体识别方法、系统、存储介质和设备,其基于医学概念和跨语言,学习了一组紧凑的医学概念,作为隐藏语义与观察到的医学证据之间的桥梁,提取细粒度语义信息,减少多义词的歧义,结合跨语言知识迁移方法将高资源语言知识迁移到中文医疗文本中进行知识补充,以提高中文医疗命名实体识别的准确性。
为了实现上述目的,本发明采用如下技术方案:
本发明的第一个方面提供一种中文医疗命名实体识别方法。
在一个或多个实施例中,一种中文医疗命名实体识别方法,包括:
获取临床文本数据;
将临床文本数据分别转换为医疗文本的字符嵌入表示、医学概念嵌入特征向量和跨语言中文嵌入表示并进行拼接,得到多元数据融合特征向量;
将多元数据融合特征向量输入至基于多图的命名实体识别模型中,识别出中文医疗命名实体类型;
其中,基于多图的命名实体识别模型包括多图网络和LSTM-CRF模型,多图网络用于接收以多元数据融合特征向量为节点构成的文本图,输出节点的最终状态并传送至LSTM-CRF模型,由LSTM-CRF模型输出识别结果。
本发明的第二个方面提供一种中文医疗命名实体识别系统。
在一个或多个实施例中,一种中文医疗命名实体识别系统,包括:
数据获取模块,其用于获取临床文本数据;
融合特征模块,其用于将临床文本数据分别转换为医疗文本的字符嵌入表示、医学概念嵌入特征向量和跨语言中文嵌入表示并进行拼接,得到多元数据融合特征向量;
实体识别模块,其用于将多元数据融合特征向量输入至基于多图的命名实体识别模型中,识别出中文医疗命名实体类型;
其中,基于多图的命名实体识别模型包括多图网络和LSTM-CRF模型,多图网络用于接收以多元数据融合特征向量为节点构成的文本图,输出节点的最终状态并传送至LSTM-CRF模型,由LSTM-CRF模型输出识别结果。
本发明的第三个方面提供一种计算机可读存储介质。
在一个或多个实施例中,一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的中文医疗命名实体识别方法中的步骤。
本发明的第四个方面提供一种计算机设备。
在一个或多个实施例中,一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的中文医疗命名实体识别方法中的步骤。
与现有技术相比,本发明的有益效果是:
(1)本发明引入实体词典,将语义嵌入到实体表示中,能够更好的理解句子中丰富的语法和语义信息;
(2)本发明学习了一组紧凑的医学概念,作为隐藏语义与观察到的医学证据之间的桥梁,提取细粒度语义信息,减少了多义词的歧义;
(3)本发明采用跨语言知识迁移方法,将高资源语言知识迁移到中文医疗文本中,进行知识补充,借助外部语言知识监督中文命名实体识别任务;
(4)本发明提取医疗文本的多粒度特征,融合单词序列和字符序列信息,从而给出更一致的信号,丰富单词的语义,提高了实体识别的准确性。。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1是本发明实施例的中文医疗命名实体识别方法流程图;
图2是本发明实施例的字符嵌入表示生成流程图;
图3是本发明实施例的医学概念嵌入特征向量生成流程图;
图4是本发明实施例的跨语言中文嵌入表示生成流程图;
图5是本发明实施例的多元数据融合特征向量生成流程图;
图6是本发明实施例的文本图结构示意图;
图7是本发明实施例的中文医疗命名实体识别系统结构示意图;
图8是本发明实施例的不同类型实体的统计信息。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例一
参照图1,本实施例的一种中文医疗命名实体识别方法,其包括:
S101:获取临床文本数据。
具体地,从电子病历中获取临床文本数据。电子病历为患者健康信息的集合,包括临床文本、药物记录、疾病诊断记录、生理指标、实验室结果、非书面记录(医学图像、心电图和录音等)、手术史,遗传病史和医疗费用等;根据电子病历纯文本文档中的内容,提取其实体内容以及对应的位置,实体类别包括:疾病和诊断、检查、检验、手术、药物、解剖部位。
S102:将临床文本数据分别转换为医疗文本的字符嵌入表示、医学概念嵌入特征向量和跨语言中文嵌入表示并进行拼接,得到多元数据融合特征向量。
在本实施例中,医学概念是指包含语义信息的观察到的临床事件的组合,是潜在空间中临床事件的一种密集表表示。
临床事件为电子病历中记录的项目,它的值来自电子病历数据集中的所有可能医疗实体的串联,其中包括所有可能的诊断,药物,实验室检查和程序。
本实施例包括1967名患者的病历记录。其记录内容为:疾病和诊断,检查(影像检查+造影+超声+心电图),检验(在实验室进行的物理或化学检查),手术,药物和解剖部位。其中,379例未标记的语料作为测试数据集对评估模型进行评估。在训练过程中,出于模型调优以及超参数选择的需求,我们随机抽取1200例作为训练数据,400例作为验证数据。图8显示了六种不同类型实体的统计信息。
具体地,将数据转换为具有不同形式的嵌入表示,采用基于BERT的预训练模型获得医疗文本的字符嵌入,其具体步骤包括,如图2所示:
首先将输入的医疗文本转换成字符向量的序列,用预训练模型BRET生成嵌入向量,将每一个字符嵌入到向量中。
此处需要说明的是,BRET模型为现有的网络结构模块,此处不再累述。
利用基于注意力机制的语义树获取医学概念嵌入特征,其具体步骤包括,如图3所示:
构造语义树,以Hownet作为知识库,为每个该概念提供语义解释,并构造一棵语义树,实现更细粒度的特征提取。
采用注意力机制获得医学概念嵌入表示,给定一个词,首先通过检索Hownet获得它的所有语义相似的单词
Figure BDA0002835285820000061
利用/>
Figure BDA0002835285820000062
表示单词w的语义相似单词的集合。然后通过注意力机制将每个单词/>
Figure BDA0002835285820000063
转化为向量/>
Figure BDA0002835285820000071
然后,在目标词w的多个语义相似单词上利用上下文词注意机制,构建嵌入表达,如公式(1)所示;
Figure BDA0002835285820000072
其中
Figure BDA0002835285820000073
表示词w的嵌入表达,l表示概念的个数,/>
Figure BDA0002835285820000074
表示每个词的注意分数。上下文注意的定义如公式(2)所示:
Figure BDA0002835285820000075
其中,w′c是上下文嵌入,l表示语义相似词的个数,其中
Figure BDA0002835285820000076
表示第j个词w的语义相似词的嵌入表达。因为每个单词对应的语义相似词不止一个,因为我们采用平均法得到最终的语义嵌入,就是医学概念的嵌入表达,如公式(3)所示:
Figure BDA0002835285820000077
利用注意力机制将源语言单词翻译的多个目标语言单词嵌入到单词表示中,得到多元数据融合特征向量。如图4所示,多元数据融合特征向量的获取具体过程为:
采取特征迁移的方法,将高资源特征向低资源迁移。在迁移过程中,采用双语对齐实现双语之间的投影,通过这种方式,不同的语言可以进行知识的互补。首先根据语料库生成源语言(中文)词典,然后通过机器翻译,将源语言词典翻译成目标语言(英文),将两部分合并形成平行双语词典,获得的高资源特征,通过注意力机制进行融合,即可实现特征的迁移采用双语词典作为中介,实现双语单词之间的投影。假设给定双语词典
Figure BDA0002835285820000081
其中,xi和yi表示词典中每一个词的词向量矩阵,通过注意力机制将目标语言中的单词表示成我们需要的嵌入表示。词向量表示如公式(4)所示。
Figure BDA0002835285820000082
其中l表示高资源单词的个数,yj表示每个高资源单词嵌入表达,att(yj)表示每个单词的注意,如公式(5)所示:
Figure BDA0002835285820000083
其中w′c表示低资源的单词嵌入表达,
Figure BDA0002835285820000084
表示翻译的多个高资源单词嵌入表达。
在具体实施中,如图5所示,多元数据融合特征向量表达为:
Figure BDA0002835285820000085
S103:将多元数据融合特征向量输入至基于多图的命名实体识别模型中,识别出中文医疗命名实体类型。
其中,基于多图的命名实体识别模型包括多图网络和LSTM-CRF模型,多图网络用于接收以多元数据融合特征向量为节点构成的文本图,输出节点的最终状态并传送至LSTM-CRF模型,由LSTM-CRF模型输出识别结果。
本实施例的基于多图的命名实体识别模型构建具体步骤包括:
首先创建词典。根据临床文本中的实体类型,创造手术词典、疾病词典、解剖部位词典、药物词典、检验词典和基于临床文本实体类型的词典。
然后创建文本图,第一步,创建节点。节点有两类节点组成,分别是字符节点和词典节点。字符节点为句子中的每一个字符,我们用VC如图6所示。词典节点由开始节点和结束节点组成,例如drugs表示药物词典中的开始节点,druge表示药物词典中的结束节点。我们用VS表示开始节点,Ve表示结束节点,如图6所示。第二步,创建边。同样也有两类不同的边,第一类为字符节点之间的边,我们用E来表示,图6中用黑色箭头表示;第二类字符节点与词典节点的之间的边,我们用L来表示,如图6所示。其中,第一类边可以用来指示字符之间的自然顺序。第二类边可以用来指示实体类型和范围。
用G表示多图结构,G=(V,E,L)其中V表示不同的节点集合,E和L表示不同的边集合。其中V=VC∪Vs∪Ve
Figure BDA0002835285820000091
其中lc表示字符之间的连边,lgi表示在文本内容中的实体的连边,m表示词典节点的个数。
将文本图输入多图网络,学习加权组合。节点的初始状态
Figure BDA0002835285820000092
定义如下:
Figure BDA0002835285820000093
其中Wc和Wbi是节点所代表的字符或者双字符的查找表。在字符节点的基础上,使用一个二元嵌入表Wbi,相同标签的边具有相同的权重。接下来,GRU更新隐藏状态。此传播网络的基本重现性为:
Figure BDA0002835285820000094
Figure BDA0002835285820000095
Figure BDA0002835285820000101
Figure BDA0002835285820000102
Figure BDA0002835285820000103
Figure BDA0002835285820000104
其中
Figure BDA0002835285820000105
是节点v在t时刻处的隐藏状态,A表示存储图结构信息的邻接矩阵,/>
Figure BDA0002835285820000106
是邻接矩阵A中节点v对应的行向量。W和U表示学习的参数。H是在时间步长(t-1)创建的状态矩阵。公式(10)~(13)来自相邻节点的信息和节点的当前隐藏状态结合起来计算时间步长t处的新隐藏状态。在t步之后,我们得到了节点v的最终状态/>
Figure BDA0002835285820000107
最后将GGNN的最终字符节点状态输入到LSTM-CRF中,使用双向LSTM从全局上下文中学习字符的隐藏表示。其LSTM网络学到的特征可以表示为h1,h2,h3,...,hn。LSTM网络的主要结构可以形式化地表示为:
it=σ(Wi·[ht-1,xt]+bi) (14)
ft=σ(Wf·[ht-1,xt]+bf) (15)
ot=σ(Wo·[ht-1,xt]+bo) (16)
Figure BDA0002835285820000108
Figure BDA0002835285820000109
Figure BDA00028352858200001010
ht=ot·tanh(ct) (20)
其中,xt为输入向量,σ、tanh表示sigmod函数和双曲正切函数;W、b表示权重矩阵;it,ft,ot分别表示t时刻对应的输入门、忘记门和输出们。ct表示t时刻获得的不同路径的单词序列和位置信息的状态;
Figure BDA0002835285820000111
表示tanh层创建的新候选值向量;h表示最后的输出。
在基于字符的命名实体识别任务中,需要考虑标签的依赖关系,例如,I-DRUG(药物实体的中间位置)标签后应跟I-DRUG标签或者E-DRUG(药物实体结束位置)标签,而I-DRUG标签不能跟B-DRUG标签或S-DRUG(单个)标签。因此,本实施例采用CRF解码字符的标签,CRF能够考虑到相邻标签的关系获得一个全局最优的标记序列。通常,CRF层由连接连续的输出层的线表示,并具有状态转移矩阵作为参数。通过这一层,我们可以有效地使用过去和将来的标签来预测当前标签,这类似于通过LSTM网络使用过去和将来的输入功能。此任务将CRF融合到LSTM模块中,对联合输出
Figure BDA0002835285820000112
进行处理,获得全局最优的标记序列。对于一个句子X={x1,x2,x3,...,xn}送入网络中训练,对于一个预测序列y={y1,y2,y3,...,yn},则预测序列的总得分为:
Figure BDA0002835285820000113
对所有可能的序列路径进行归一化,产生关于输出序列y的概率分布,其中
Figure BDA0002835285820000114
表示全局特征向量。如公式(22)所示:
Figure BDA0002835285820000115
在训练过程中,最大化正确标签序列y*的对数概率,如公式(23)所示:
Figure BDA0002835285820000121
由公式(23)可知,采用句级似然函数的目的是生成正确的标签序列。在解码阶段,预测总得分最高的序列作为最优序列,如公式(24)所示:
Figure BDA0002835285820000122
本实施例引入实体词典,将语义嵌入到实体表示中,能够更好的理解句子中丰富的语法和语义信息;学习了一组紧凑的医学概念,作为隐藏语义与观察到的医学证据之间的桥梁,提取细粒度语义信息,减少了多义词的歧义;采用跨语言知识迁移方法,将高资源语言知识迁移到中文医疗文本中,进行知识补充,借助外部语言知识监督中文命名实体识别任务;提取医疗文本的多粒度特征,融合单词序列和字符序列信息,从而给出更一致的信号,丰富单词的语义,提高了实体识别的准确性。
实施例二
参照图7,本实施例提供了一种中文医疗命名实体识别系统,其包括:
数据获取模块,其用于获取临床文本数据;
融合特征模块,其用于将临床文本数据分别转换为医疗文本的字符嵌入表示、医学概念嵌入特征向量和跨语言中文嵌入表示并进行拼接,得到多元数据融合特征向量;
实体识别模块,其用于将多元数据融合特征向量输入至基于多图的命名实体识别模型中,识别出中文医疗命名实体类型;
其中,基于多图的命名实体识别模型包括多图网络和LSTM-CRF模型,多图网络用于接收以多元数据融合特征向量为节点构成的文本图,输出节点的最终状态并传送至LSTM-CRF模型,由LSTM-CRF模型输出识别结果。
本实施例的中文医疗命名实体识别系统中的各个模块,与实施例一中的中文医疗命名实体识别方法中的各个步骤一一对应,其具体实施过程相同,此处不再累述。
本实施例引入实体词典,将语义嵌入到实体表示中,能够更好的理解句子中丰富的语法和语义信息;学习了一组紧凑的医学概念,作为隐藏语义与观察到的医学证据之间的桥梁,提取细粒度语义信息,减少了多义词的歧义;采用跨语言知识迁移方法,将高资源语言知识迁移到中文医疗文本中,进行知识补充,借助外部语言知识监督中文命名实体识别任务;提取医疗文本的多粒度特征,融合单词序列和字符序列信息,从而给出更一致的信号,丰富单词的语义,提高了实体识别的准确性。
实施例三
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例一所述的中文医疗命名实体识别方法中的步骤。
本实施例引入实体词典,将语义嵌入到实体表示中,能够更好的理解句子中丰富的语法和语义信息;学习了一组紧凑的医学概念,作为隐藏语义与观察到的医学证据之间的桥梁,提取细粒度语义信息,减少了多义词的歧义;采用跨语言知识迁移方法,将高资源语言知识迁移到中文医疗文本中,进行知识补充,借助外部语言知识监督中文命名实体识别任务;提取医疗文本的多粒度特征,融合单词序列和字符序列信息,从而给出更一致的信号,丰富单词的语义,提高了实体识别的准确性。
实施例四
本实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述实施例一所述的中文医疗命名实体识别方法中的步骤。
本实施例引入实体词典,将语义嵌入到实体表示中,能够更好的理解句子中丰富的语法和语义信息;学习了一组紧凑的医学概念,作为隐藏语义与观察到的医学证据之间的桥梁,提取细粒度语义信息,减少了多义词的歧义;采用跨语言知识迁移方法,将高资源语言知识迁移到中文医疗文本中,进行知识补充,借助外部语言知识监督中文命名实体识别任务;提取医疗文本的多粒度特征,融合单词序列和字符序列信息,从而给出更一致的信号,丰富单词的语义,提高了实体识别的准确性。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种中文医疗命名实体识别方法,其特征在于,包括:
获取临床文本数据;
将临床文本数据分别转换为医疗文本的字符嵌入表示、医学概念嵌入特征向量和跨语言中文嵌入表示并进行拼接,得到多元数据融合特征向量;
其中,采用基于BERT的预训练模型,获得医疗文本的字符嵌入表示;利用基于注意力机制的语义树,获取医学概念嵌入特征向量;采用注意力机制将源语言单词翻译的多个目标语言单词嵌入到单词表示中,得到跨语言中文嵌入表示;
将多元数据融合特征向量输入至基于多图的命名实体识别模型中,识别出中文医疗命名实体类型;
其中,基于多图的命名实体识别模型包括多图网络和LSTM-CRF模型,多图网络用于接收以多元数据融合特征向量为节点构成的文本图,输出节点的最终状态并传送至LSTM-CRF模型,由LSTM-CRF模型输出识别结果;
多元数据融合特征向量的获取具体过程为:采取特征迁移的方法,将高资源特征向低资源迁移;
在迁移过程中,采用双语对齐实现双语之间的投影,首先根据语料库生成中文源语言词典,然后通过机器翻译,将源语言词典翻译成英文目标语言,将两部分合并形成平行双语词典,获得的高资源特征,通过注意力机制进行融合,实现特征的迁移,采用双语词典作为中介,实现双语单词之间的投影;
假设给定双语词典
Figure FDF0000024135410000021
其中,xi和yi表示词典中每一个词的词向量矩阵,通过注意力机制将目标语言中的单词表示成需要的嵌入表示;词向量/>
Figure FDF0000024135410000022
表示为:
Figure FDF0000024135410000023
其中l表示高资源单词的个数,yj表示每个高资源单词嵌入表达,att(yj)表示每个单词的注意:
Figure FDF0000024135410000024
其中wc′表示低资源的单词嵌入表达,
Figure FDF0000024135410000025
表示翻译的多个高资源单词嵌入表达。
2.如权利要求1所述的中文医疗命名实体识别方法,其特征在于,文本图中的节点有两类节点组成,分别是字符节点和词典节点,字符节点为句子中的每一个字符,词典节点由开始节点和结束节点组成。
3.如权利要求2所述的中文医疗命名实体识别方法,其特征在于,词典节点隶属于手术词典、疾病词典、解剖部位词典、药物词典、检验词典或基于临床文本实体类型的词典,这些词典根据临床文本中的实体类型得到。
4.如权利要求1所述的中文医疗命名实体识别方法,其特征在于,在所述LSTM-CRF模型中,采用双向LSTM从全局上下文中学习字符的隐藏表示,采用CRF解码字符的标签。
5.一种中文医疗命名实体识别系统,其特征在于,包括:
数据获取模块,其用于获取临床文本数据;
融合特征模块,其用于将临床文本数据分别转换为医疗文本的字符嵌入表示、医学概念嵌入特征向量和跨语言中文嵌入表示并进行拼接,得到多元数据融合特征向量;
其中,采用基于BERT的预训练模型,获得医疗文本的字符嵌入表示;利用基于注意力机制的语义树,获取医学概念嵌入特征向量;用注意力机制将源语言单词翻译的多个目标语言单词嵌入到单词表示中,得到跨语言中文嵌入表示;
实体识别模块,其用于将多元数据融合特征向量输入至基于多图的命名实体识别模型中,识别出中文医疗命名实体类型;
其中,基于多图的命名实体识别模型包括多图网络和LSTM-CRF模型,多图网络用于接收以多元数据融合特征向量为节点构成的文本图,输出节点的最终状态并传送至LSTM-CRF模型,由LSTM-CRF模型输出识别结果;
多元数据融合特征向量的获取具体过程为:采取特征迁移的方法,将高资源特征向低资源迁移;
在迁移过程中,采用双语对齐实现双语之间的投影,首先根据语料库生成中文源语言词典,然后通过机器翻译,将源语言词典翻译成英文目标语言,将两部分合并形成平行双语词典,获得的高资源特征,通过注意力机制进行融合,实现特征的迁移,采用双语词典作为中介,实现双语单词之间的投影;
其中,假设给定双语词典
Figure FDF0000024135410000031
其中,xi和yi表示词典中每一个词的词向量矩阵,通过注意力机制将目标语言中的单词表示成需要的嵌入表示;词向量/>
Figure FDF0000024135410000041
表示为:
Figure FDF0000024135410000042
其中l表示高资源单词的个数,yj表示每个高资源单词嵌入表达,att(yj)表示每个单词的注意:
Figure FDF0000024135410000043
其中wc′表示低资源的单词嵌入表达,
Figure FDF0000024135410000044
表示翻译的多个高资源单词嵌入表达。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-4中任一项所述的中文医疗命名实体识别方法中的步骤。
7.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-4中任一项所述的中文医疗命名实体识别方法中的步骤。
CN202011468199.2A 2020-12-14 2020-12-14 中文医疗命名实体识别方法、系统、存储介质和设备 Active CN112597774B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011468199.2A CN112597774B (zh) 2020-12-14 2020-12-14 中文医疗命名实体识别方法、系统、存储介质和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011468199.2A CN112597774B (zh) 2020-12-14 2020-12-14 中文医疗命名实体识别方法、系统、存储介质和设备

Publications (2)

Publication Number Publication Date
CN112597774A CN112597774A (zh) 2021-04-02
CN112597774B true CN112597774B (zh) 2023-06-23

Family

ID=75195221

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011468199.2A Active CN112597774B (zh) 2020-12-14 2020-12-14 中文医疗命名实体识别方法、系统、存储介质和设备

Country Status (1)

Country Link
CN (1) CN112597774B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113343694B (zh) * 2021-04-29 2023-04-07 山东师范大学 一种医疗命名实体识别方法及系统
CN113204968A (zh) * 2021-05-28 2021-08-03 平安科技(深圳)有限公司 医学实体的概念识别方法、装置、设备及存储介质
CN113420557B (zh) * 2021-06-09 2024-03-08 山东师范大学 中文命名实体识别方法、系统、设备及存储介质
CN113779993B (zh) * 2021-06-09 2023-02-28 北京理工大学 一种基于多粒度文本嵌入的医学实体识别方法
CN113487024A (zh) * 2021-06-29 2021-10-08 任立椋 交替序列生成模型训练方法、从文本中抽取图的方法
CN113420561B (zh) * 2021-07-14 2022-12-13 上海浦东发展银行股份有限公司 一种命名实体识别方法、装置、设备及存储介质
CN113536799B (zh) * 2021-08-10 2023-04-07 西南交通大学 基于融合注意力的医疗命名实体识别建模方法
CN114564959A (zh) * 2022-01-14 2022-05-31 北京交通大学 中文临床表型细粒度命名实体识别方法及系统
CN114580414A (zh) * 2022-02-24 2022-06-03 医渡云(北京)技术有限公司 一种基于ac自动机的实体识别方法、装置及电子设备
CN116894436B (zh) * 2023-09-06 2023-12-15 神州医疗科技股份有限公司 基于医学命名实体识别的数据增强方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110110061A (zh) * 2019-04-26 2019-08-09 同济大学 基于双语词向量的低资源语种实体抽取方法
CN111738003A (zh) * 2020-06-15 2020-10-02 中国科学院计算技术研究所 命名实体识别模型训练方法、命名实体识别方法和介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107977361B (zh) * 2017-12-06 2021-05-18 哈尔滨工业大学深圳研究生院 基于深度语义信息表示的中文临床医疗实体识别方法
CN111460804B (zh) * 2019-01-02 2023-05-02 阿里巴巴集团控股有限公司 文本处理方法、装置和系统
CN111274829B (zh) * 2020-02-07 2023-06-16 中国科学技术大学 一种利用跨语言信息的序列标注方法
CN112001177A (zh) * 2020-08-24 2020-11-27 浪潮云信息技术股份公司 融合深度学习与规则的电子病历命名实体识别方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110110061A (zh) * 2019-04-26 2019-08-09 同济大学 基于双语词向量的低资源语种实体抽取方法
CN111738003A (zh) * 2020-06-15 2020-10-02 中国科学院计算技术研究所 命名实体识别模型训练方法、命名实体识别方法和介质

Also Published As

Publication number Publication date
CN112597774A (zh) 2021-04-02

Similar Documents

Publication Publication Date Title
CN112597774B (zh) 中文医疗命名实体识别方法、系统、存储介质和设备
Dalianis Clinical text mining: Secondary use of electronic patient records
US11093688B2 (en) Enhancing reading accuracy, efficiency and retention
He et al. Pathvqa: 30000+ questions for medical visual question answering
US10929420B2 (en) Structured report data from a medical text report
Banerjee et al. Radiology report annotation using intelligent word embeddings: Applied to multi-institutional chest CT cohort
Catelli et al. Crosslingual named entity recognition for clinical de-identification applied to a COVID-19 Italian data set
CN109192255B (zh) 病历结构化方法
CN110705293A (zh) 基于预训练语言模型的电子病历文本命名实体识别方法
Wang Annotating and recognising named entities in clinical notes
Soysal et al. Design and evaluation of an ontology based information extraction system for radiological reports
Wang et al. Chinese medical named entity recognition based on multi-granularity semantic dictionary and multimodal tree
CN112241457A (zh) 一种融合扩展特征的事理知识图谱事件检测方法
Viani et al. Supervised methods to extract clinical events from cardiology reports in Italian
Dynomant et al. Word embedding for the French natural language in health care: comparative study
Liu et al. Effectiveness of lexico-syntactic pattern matching for ontology enrichment with clinical documents
Adduru et al. Towards Dataset Creation And Establishing Baselines for Sentence-level Neural Clinical Paraphrase Generation and Simplification.
Ke et al. Medical entity recognition and knowledge map relationship analysis of Chinese EMRs based on improved BiLSTM-CRF
Yu et al. Bios: An algorithmically generated biomedical knowledge graph
Goenaga et al. A section identification tool: towards hl7 cda/ccr standardization in spanish discharge summaries
Wang et al. Research on named entity recognition of doctor-patient question answering community based on bilstm-crf model
Satti et al. A semantic sequence similarity based approach for extracting medical entities from clinical conversations
Chen et al. Named entity recognition of Chinese electronic medical records based on cascaded conditional random field
Nair et al. Automated clinical concept-value pair extraction from discharge summary of pituitary adenoma patients
Zhang et al. Disease-pertinent knowledge extraction in online health communities using GRU based on a double attention mechanism

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240428

Address after: 230000 room 1414, building D, Yinhe happiness Plaza, intersection of Luzhou Avenue and Fuzhou Road, Baohe District, Hefei City, Anhui Province

Patentee after: Hefei keyiguo Information Technology Co.,Ltd.

Country or region after: China

Address before: 250014 No. 88, Wenhua East Road, Lixia District, Shandong, Ji'nan

Patentee before: SHANDONG NORMAL University

Country or region before: China

TR01 Transfer of patent right

Effective date of registration: 20240510

Address after: 230000, Room 401, Building E3A, Phase II, Innovation Industrial Park, No. 2800 Innovation Avenue, High tech Zone, Hefei Area, China (Anhui) Free Trade Pilot Zone, Hefei City, Anhui Province

Patentee after: Micro Test Cloud (Anhui) Medical Information Co.,Ltd.

Country or region after: China

Address before: 230000 room 1414, building D, Yinhe happiness Plaza, intersection of Luzhou Avenue and Fuzhou Road, Baohe District, Hefei City, Anhui Province

Patentee before: Hefei keyiguo Information Technology Co.,Ltd.

Country or region before: China