CN113836926A - 电子病历命名实体识别方法、电子设备及存储介质 - Google Patents
电子病历命名实体识别方法、电子设备及存储介质 Download PDFInfo
- Publication number
- CN113836926A CN113836926A CN202111133749.XA CN202111133749A CN113836926A CN 113836926 A CN113836926 A CN 113836926A CN 202111133749 A CN202111133749 A CN 202111133749A CN 113836926 A CN113836926 A CN 113836926A
- Authority
- CN
- China
- Prior art keywords
- named entity
- model
- entity recognition
- single character
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了电子病历命名实体识别方法、电子设备及存储介质。该命名实体识别方法包括:获取电子病历的文本数据;以及将所述文本数据输入至命名实体识别模型,获得与所述文本数据相对应的命名实体识别结果,其中,所述命名实体识别模型包括嵌入层、卷积神经网络层、多头注意力层和条件随机场层。该命名实体识别方法在卷积神经网络层的单个字符识别结果的基础上,采用多头注意力层进行特征提取以解决多个字符的不同相关性问题,从而提高模型有效性。
Description
技术领域
本发明涉及自然语言处理技术领域,更具体地,涉及基于深度学习的电子病历命名实体识别方法、电子设备及存储介质。
背景技术
临床命名实体识别(Clinical Named Entity Recognition,CNER)是自然语言处理技术在医疗信息化研究中的一项基础性关键任务,目的是从电子病历(ElectronicMedical Records,EMR)文本中识别并抽取出与医学临床相关的实体提及,并将它们归类到预定义的类别,如疾病和诊断、影像检查、实验室检验、手术、药物和解剖部位等实体。从大量半结构化或非结构化的电子病历中提取出命名实体有助于后续进一步地分析和研究,例如构建临床决策支持系统(Clinical Decision Support System,CDSS)、构建医疗领域的知识图谱等。
近年来,随着深度学习的兴起,研究者们开始将深度神经网络应用于自然语言处理领域,深度学习方法在生物医学领域中也得到了广泛应用。相比于传统的基于规则和词典的方法或机器学习方法,深度学习方法具有泛化能力更强和更少依赖规则设计或特征工程的优点。
中文医疗电子病历中的命名实体有着特殊和严谨的语言结构,使得中文CNER具有更大的挑战性。基于深度神经网络的CNER方法,存在无法准确表示具有多义性的字符或者词语的问题。例如“患者神志清、精神可”和“于我院行淋巴结清扫术”,两个句子中的“清”字在各自的语境中是两个完全不同的含义。在上下文无关的词嵌入表示方法中,两个“清”字却映射成完全相同的向量,因此,采用静态训练得到的向量无法考虑到句子的上下文语义信息。
在中文CNER任务中,后接条件随机场的双向长短期记忆网络(BidirectionalLong Short-Term Memory with Conditional Random Field,BiLSTM-CRF)方法,已经取得了显著的效果。然而,基于词的BiLSTM模型无法解决实体边界识别错误造成的误差传播问题。采用迭代膨胀卷积神经网络(Iterated Dilated Convolutional Neural Network,IDCNN)进行命名实体识别,可以同时提高训练速度和准确率,但难以有效融入句子的上下文语义信息,存在无法准确表示多义词的问题。如果引入预训练词嵌入模型BERT,则可以动态获取电子病历中每个字的嵌入表示,从而可以更准确地表示电子病历中与上下文相关的语义信息。因此,已经提出多层结构的命名实体识别模型以提高模型的有效性,如BERT-BiLSTM-CRF模型。然而,该模型复杂度过高,存储开销较大,大量的参数限制了模型效率和在实际场景中的应用。
发明内容
鉴于上述问题,本申请的目的在于提供电子病历命名实体识别方法、电子设备及存储介质,在卷积神经网络模层识别结果的基础上,采用多头注意力层以获取字符在句子中的长距离依赖特征以体现多个字符的不同相关性,从而提高模型有效性。
根据本发明的第一方面,提供一种电子病历命名实体识别方法,包括:获取电子病历的文本数据;以及将所述文本数据输入至命名实体识别模型,获得与所述文本数据相对应的命名实体识别结果,其中,所述命名实体识别模型包括嵌入层、卷积神经网络层、多头注意力层和条件随机场层,在嵌入层中,在电子病历文本的句子中提取单个字符,以及动态获取所述单个字符上下文相关的语义表示,在卷积神经网络层中,基于所述单个字符上下文相关的语义表示获取全局语义信息,在多头注意力层中,通过采用多角度捕获所述句子的多个字符之间的相关性,获得多个预测标签的概率,以及在条件随机场层中,通过约束所述多个预测标签之间的依赖关系,获得所述单个字符的最佳预测标签。
优选地,动态获取所述单个字符上下文相关的语义表示的步骤包括:采用ALBERT模型,计算所述单个字符的字符特征、所述句子的句子特征、所述单个字符在所述句子中的位置特征;以及将字符特征、句子特征和位置特征叠加得到上下文相关的字符向量。
优选地,基于所述单个字符上下文相关的语义表示获取全局语义信息的步骤包括:采用迭代膨胀卷积神经网络模型,将所述单个字符进行膨胀卷积编码,自动提取所述单个字符在文本中的长距离语义特征,从而获得所述单个字符的特征向量,所述特征向量包括权重相同的多个特征。
优选地,获得多个预测标签的概率的步骤包括:对所述单个字符的特征向量进行多次单头自注意力计算;以及拼接所述多次单头自注意力计算的计算结果以及进行线性变换,以获得所述单个字符的多头注意力计算结果,其中,所述多头注意力计算结果表示所述单个字符的多个预测标签的概率。
优选地,获得所述单个字符的最佳预测标签的步骤包括:对于电子病历文本中的句子,采用条件随机场模型对多个字符的标签序列进行标签解码,以获得单个字符的最佳预测标签。
优选地,还包括:根据所述最佳预测标签将彼此关联的多个字符组合成一个实体提及。
优选地,所述命名实体识别结果包括实体提及和预定义类别。
优选地,所述预定义类别包括疾病和诊断、影像检查、实验室检验、手术、药物和解剖部位。
根据本发明的第二方面,提供一种电子设备,包括存储器和处理器,所述存储器存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述基于深度学习的命名实体识别方法中的步骤。
根据本发明的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述基于深度学习的命名实体识别方法中的步骤。
根据本发明实施例的电子病历命名实体识别方法,在卷积神经网络模层识别结果的基础上,采用多头注意力层以获取字符在句子中的长距离依赖特征以体现多个字符在句子中的不同相关性,提高了命名实体识别的有效性。
在优选的实施例中,在卷积神经网络层中,采用IDCNN方法替换BiLSTM方法。采用IDCNN方法可以实现对实体的全局信息编码,不仅获得与BiLSTM方法相当的识别效果,而且优点在于加快模型训练速度。进一步地,在卷积神经网络层和条件随机场层之间插入多头注意力机制,获取字符在句子中的长距离依赖特征,可以弥补IDCNN方法难以有效融入句子的上下文语义信息的缺点,使得字符在句子中的不同相关性得以体现,进一步提高了命名实体识别的识别速度和有效性。
在优选的实施例中,采用BERT模型的Lite版本ALBERT模型作为预训练嵌入模型,可以动态获取字符的语义表示。与BERT模型相比,ALBERT模型减少了模型参数以加快训练速度和提高模型效果。进一步地,ALBERT模型与多头注意力机制相结合,可以更准确地表示单个字符在电子病历文本的句子中的上下文语义,进一步提高了命名实体识别的识别速度和有效性。
附图说明
图1示出根据本发明实施例的电子病历命名实体识别方法的流程图。
图2示出图1所示电子病历的方法中采用的命名实体识别模型示意性框图。
图3示出图2中所示命名实体识别模型中ALBERT层的单个汉字字符的嵌入表示。
图4示出图1所示电子病历的方法对不同医疗实体的实验结果。
具体实施方式
以下将结合附图所示的具体实施方式对本发明进行详细描述。但这些实施方式并不限制本发明,本领域的普通技术人员根据这些实施方式所做出的结构、方法、或功能上的变换均包含在本发明的保护范围内。
图1示出根据本发明实施例的电子病历命名实体识别方法的流程图。
在步骤S01中,获取电子病历的文本数据。
在步骤S02中,将文本数据输入至命名实体识别模型,获得与所述文本数据相对应的命名实体识别结果。
该命名实体识别模型包括嵌入层、卷积神经网络层、多头注意力层和条件随机场层。
在嵌入层中,在电子病历文本的句子中提取单个字符,以及动态获取单个字符上下文相关的语义表示。优选地,采用ALBERT模型,计算单个字符的字符特征、句子的句子特征、单个字符在句子中的位置特征,以及将字符特征、句子特征和位置特征叠加得到上下文相关的字符嵌入。
在卷积神经网络层中,基于单个字符上下文相关的语义表示获取全局语义信息。优选地,采用迭代膨胀卷积神经网络模型,将单个字符进行膨胀卷积编码,自动提取单个字符在文本中的长距离语义特征,从而获得单个字符的特征向量,特征向量包括权重相同的多个特征。
在多头注意力层中,通过采用多角度捕获句子的多个字符之间的相关性,获得多个预测标签的概率。优选地,对单个字符的特征向量进行多次单头自注意力计算;以及拼接多次单头自注意力计算的计算结果以及进行线性变换,以获得单个字符的多头注意力计算结果,其中,多头注意力计算结果表示单个字符的多个预测标签的概率。
在条件随机场层中,通过约束多个预测标签之间的依赖关系,获得单个字符的最佳预测标签。进一步地,根据在句子中出现的多个字符的最佳预测标签将彼此关联的多个字符组合成一个实体提及。
根据本发明实施例的电子病历命名实体识别方法,命名实体识别结果包括实体提及和预定义类别。实体的预定义类别包括疾病和诊断、影像检查、实验室检验、手术、药物和解剖部位。例如,对于电子病历中的一个句子:“行胃癌根治术,手术顺利”,其中,“胃癌根治术”的最佳预测标签依次为B-OPE,I-OPE,I-OPE,I-OPE,I-OPE。因此,将“胃癌根治术”组合成一个实体提及,并且将预定义类别确认为“手术”。
图2示出图1所示电子病历的方法中采用的命名实体识别模型示意性框图。
命名实体识别模型包括嵌入层、卷积神经网络层和多头注意力层和条件随机场层。嵌入层计算电子病历中的每个字符在句子中的字符特征、句子特征和位置特征,并将这三个特征相加得到最终的与文本上下文相关的字符嵌入。在该实施例中,卷积神经网络层例如采用IDCNN方法,将每个字符的向量进行膨胀卷积编码来提取字符的全局特征向量。多头注意力层接收字符的全局特征向量,通过采用多角度捕获所述句子的多个字符之间的相关性,获得多个预测标签的概率。条件随机场层约束预测标签之间的依赖关系,对标签序列进行建模,从而获取全局最优序列。
在嵌入层中,采用BERT模型的Lite版本ALBERT模型作为预训练嵌入模型,可以动态获取字符的语义表示。BERT在CNER中具有非常优异的表现,但其“过度参数化”的性质导致占用内存较大且计算效率较低,这个缺点极大地阻碍了BERT在实际CNER系统中的应用。与BERT相比,ALBERT主要进行了“对嵌入参数的因式分解”、“跨层参数共享”和“句间连贯性损失”三方面的改进,从而极大地压缩了参数总量,降低了模型复杂度,模型训练速度得到有效提升。与BERT模型相比,ALBERT模型减少了模型参数以加快训练速度和提高模型效果。
在BERT模型中,词嵌入大小E与隐藏层大小H相同,总参数量为词汇表长度V乘以每个词嵌入隐藏层大小H,其复杂度为O(V×H)。在ALBERT模型中,词级别的嵌入不包括词的上下文连接。同时,隐含层的输出不仅包括词语的原意,还包括词语的上下文信息。因此隐含层的表达包含更多的信息,应该使得H>>E。ALBERT提出利用因式分解降低参数的方法,先把one-hot向量映射到一个大小为E的低维度空间,然后通过高维矩阵变换到隐藏层空间,从而使得参数量的复杂度变换如下:
O(V×H)→O(V×E+E×H) H>>E (1)
ALBERT模型采用了转换器的全连接层与注意力层都进行参数共享的策略,共享了隐层的所有参数,极大地压缩了参数总量,提升了训练速度。然而,模型复杂度的降低也导致模型性能受损。
为了弥补参数减少带来的性能损失,ALBERT模型采用了一种新的训练任务,即句间连贯性损失。在BERT模型中,相比于掩码语言模型的提升,BERT模型采用下一句预测任务降低了下游任务的性能,因为该任务包含了两个子任务,主题预测与关系一致性预测,而前者比后者简单很多。在ALBERT模型中,对下一个句子预测任务采用一种新的句子顺序预测策略,仅保留关系一致性预测。在该任务中,正样本与“下一句预测”任务相同,即在同一文档中选择两个顺序相连的句子,负样本则由正样本的两个句子调换顺序获得。
ALBERT模型获取电子病历文本的单个汉字字符的嵌入表示。在采用ALBERT模型进行处理之后,电子病历文本中的句子表示为:X=(X1,X2,...Xt,...Xn),其中,Xt表示第t个字符的字符向量。
如图3所示,单个汉字字符的嵌入表示由字符嵌入、段嵌入和位置嵌入三部分组成,其中,字符嵌入表示一个字符向量,段嵌入用于区分句子对,位置嵌入是从模型学习中获得的位置信息。
例如,位置嵌入的计算公式如式(2)和(3)所示。
其中,pos代表的是电子病历文本中的位置,i代表维数,dmodel代表编码后的向量维度。
进一步地,为了有效提取电子病历文本特征,同时提高训练速度和预测效率,采用IDCNN模型进行特征提取。膨胀卷积最初是应用在图像处理领域,不同于传统CNN,其通过在卷积核之间增加一个膨胀宽度增大感受视野,并且跳过池化操作,从而扩大获取信息的范围,减少了信息损失。
在该实施例中,将4个结构相同的膨胀卷积块进行堆叠,每个膨胀卷积块内有膨胀宽度分别为1、1、2的3层膨胀卷积。相当于进行了4次迭代,每次迭代将前一次的结果作为输入,这种参数共享机制可有效防止模型过拟合。随着层数不断的增加,感受野呈指数级增加,而参数呈线性增加,这样感受野就能够很快地覆盖到全部输入序列。在膨胀卷积神经网络结构中,每层的参数都是相互独立且数量相同的,能够有效减少训练时的参数,从而加快训练速度。
IDCNN模型对电子病历文本中的单个字符进行膨胀卷积编码,自动提取文本中单个字符的特征向量。在采用IDCNN模型进行处理之后,电子病历文本中的句子表示为:Y=(Y1,Y2,...Yt,...Yn),其中,Yt表示第t个字符的特征向量。特征向量中的每个特征的权重相同。
在IDCNN模型中,经过编码的隐向量包含长距离的语义特征,然而多个字符特征具有相同的权重,无法解决多个字符之间具有不同相关性的问题,因此还需经多头注意力层进行进一步地特征提取。
由于电子病历中的实体不是孤立存在的,相互之间存在着一定的依赖关系,并且组成实体的字符之间存在较长的间隔,例如“患者因胃癌于2015-5-19于我院行胃癌根治术,术后恢复良好“。其中,”胃癌“属于”疾病和诊断“实体,“胃癌根治术”代表“手术”实体。在医学语料库中,这两者往往在同一病历中出现,这表明它们之间存在一定的依赖性。
为了捕获电子病历中的实体的依赖关系,应该更多地关注于使用与当前字符有依赖关系的字符信息,将较高的权重赋给这些依赖字符,将较小的权重赋给其他不相关字符,从而更好地识别字符的实体类型。在该实施例中,采用多头注意力(MHA)模型,实质上是进行多次自注意力计算,从而使模型在不同的表示子空间里学习到相关的信息,同时具有优于RNN的并行计算性能。
放缩点积注意力(Scaled Dot-Product Attention)是多头注意力的重要部件,具体公式如式(4)所示。
对于电子病历文本的句子中的第t个字符的特征向量Yt,通过式(5)进行单头自注意力计算,共进行h次计算,第i次计算的结果是headi。
headi=Attention(YtWi Q,YtWi K,YtWi V) (5)
然后,拼接这h次的计算结果,再进行线性变换后,即可以得到句子中第t个字符的多头注意力计算结果,具体的计算公式如式(6)所示。
MHAt=concat(head1,head2,...,headi)Wo (6)
在采用多头注意力模型进行处理之后,电子病历文本中的句子相对应的标签序列可以表示为:y=(y1,y2,...yt,...yn),其中,yt表示第t个字符相对应的多个预测标签的概率。
进一步地,采用条件随机场(CRF)模型进行标签解码。条件随机场模型可以有效地约束预测标签之间的依赖关系,对标签序列进行建模,从而获取全局最优序列。
如上所述,电子病历文本中的句子采用字符向量表示为X=(X1,X2,...Xt,...Xn),相应的标签序列表示为y=(y1,y2,...yt,...yn),则,条件随机场模型的评估分数表示为:
其中,P是打分矩阵,Pi,j表示从第i个字符分类到第j个标签的分数;W是转移矩阵,Wi,j表示从标签i到标签j的状态转移分数。
在标签解码时,选择y*作为输出预测标签序列,采用维特比(Viterbi)算法来求得最优解:
在该实施例中,采用的数据集为CCKS2019评测任务之一的“面向中文电子病历的医疗实体识别及属性抽取”数据集,所有电子病历语料由专业的医学团队进行人工标注,共包括疾病和诊断、影像检查、实验室检验、手术、药物和解剖部位6类预定义类别。该标注数据集分为训练集和测试集,其中训练集包含1 000份医疗电子病历,测试集共包含379份医疗电子病历。表1是各类医疗实体个数统计信息。
表1医疗实体类别数据统计
在该实施例中,选择字标注方法完成对数据集的标注,采用BIO(B-begin,I-inside,O-outside)标注体系,其具体格式为B-X、I-X和O。B代表医疗实体起始位置,I代表医疗实体剩余部分,O代表非医疗实体。X代表医疗实体的类别,可分别取DIS、INS、CHE、OPE、MED和ANA,因此待预测标签共有13种。
虽然电子病历语料由专业的医学团队进行人工标注,但是不可避免地会出现实体类别或者开始、结束位置的标注错误以及标注前后不一致等问题,这将影响实体识别的效果。因此,针对实体类别或者开始、结束位置的标注错误问题,在数据集的预处理中采取人工纠错的方式,将标注错误的实体进行纠正。
由于每个临床记录可能包含几个句子,如果把一个记录作为一个整体来看待,就会导致样本太长。因此,在该实施例中,用中文句号“。”来分隔每个记录。分隔记录后,将最大序列长度设置为128,IDCNN使用128个滤波器构建。在训练期间,使用反向传播算法和Adam优化器,初始学习率为3×10-5。词嵌入大小为128,激活函数为Relu。此外,批大小为20,丢弃率为0.5。
根据本发明实施例的命名实体识别模型,在下文中称为ALBERT-IDCNN-MHA-CRF模型,将该模型和以下模型进行对比:
(1)BiLSTM-CRF模型。即基于BiLSTM的特征抽取和CRF约束的模型,在该模型中,使用128维的Word2Vec静态字向量。
(2)IDCNN-CRF模型。即基于IDCNN的特征抽取和CRF约束的模型。在该模型中,使用128维的Word2Vec静态字向量。
(3)IDCNN-MHA-CRF模型。即在(2)的基础上加入多头注意力层。
(4)ALBERT-IDCNN-CRF模型。即在(2)的基础上加入ALBERT预训练模型并进行微调。
表2是不同模型的实验结果,实验结果表明,ALBERT-IDCNN-MHA-CRF模型的精确率、召回率和F1值在对比模型中达到最高值,相比于BiLSTM-CRF基线模型分别提高了3.67%,3.15%,3.42%,验证了在该实施例中,提出的模型的有效性。BiLSTM-CRF模型和IDCNN-CRF模型的F1值分别为81.27%和81.49%,说明两种模型的识别效果相当。但是,IDCNN的并行计算能力比BiLSTM的更强,训练一轮快21s。引入多头注意力机制后,在IDCNN-CRF和ALBERT-IDCNN-CRF上的F1值分别提升了0.99%和1.33%,说明多头注意力机制能进一步抽取文本的上下文特征。采用微调ALBERT替代传统的词向量模型后,F1值分别提升了1.87%和2.21%,说明ALBERT具有更好的语义信息表达能力,对于中文CNER任务性能提升有较大影响。
表2不同模型的命名实体识别效果
模型名称 | P | R | F1 |
BiLSTM-CRF(Baseline) | 79.79 | 82.81 | 81.27 |
IDCNN-CRF | 80.37 | 82.65 | 81.49 |
IDCNN-MHA-CRF | 82.16 | 82.81 | 82.48 |
ALBERT-IDCNN-CRF | 82.70 | 84.03 | 83.36 |
ALBERT-IDCNN-MHA-CRF | 83.46 | 85.96 | 84.69 |
图4示出图1所示电子病历的方法对不同医疗实体的实验结果。在上述观察整个测试数据集的评估指标之外,进一步查看预测结果。可以看出,ALBERT-IDCNN-MHA-CRF模型在药物和影像检查方面的优于有效识别疾病和诊断和解剖部位的表现,例如,在药物和影像检查方面分别达到了92.62%和89.66%的F1值,。
进一步地,本发明一实施方式提供一种电子设备,包括存储器和处理器,所述存储器存储有可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述基于深度学习的电子病历命名实体识别方法中的步骤。
进一步地,本发明一实施方式提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述基于深度学习的电子病历命名实体识别方法中的步骤。
综上所述,本发明的基于深度学习的电子病历命名实体识别方法、电子设备及存储介质,采用ALBERT模型进行预训练以获得字符嵌入,可以更准确地表示电子病历句子中的上下文语义,采用IDCNN模型对实体的多层卷积编码可以达到更好的识别效果,且训练速度有所提高,采用多头注意力机制可以获取电子病历句子中的长距离依赖特征,获得多个预测标签的概率,采用条件随机场模型,通过约束所述多个预测标签之间的依赖关系,获得所述单个字符的最佳预测标签。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本发明时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
以上所描述的装置实施方式仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施方式方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施方式中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明,它们并非用以限制本发明的保护范围,凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。
Claims (10)
1.一种电子病历命名实体识别方法,包括:
获取电子病历的文本数据;以及
将所述文本数据输入至命名实体识别模型,获得与所述文本数据相对应的命名实体识别结果,
其中,所述命名实体识别模型包括嵌入层、卷积神经网络层、多头注意力层和条件随机场层,
在嵌入层中,在电子病历文本的句子中提取单个字符,以及动态获取所述单个字符上下文相关的语义表示,
在卷积神经网络层中,基于所述单个字符上下文相关的语义表示获取全局语义信息,
在多头注意力层中,通过采用多角度捕获所述句子的多个字符之间的相关性,获得多个预测标签的概率,以及
在条件随机场层中,通过约束所述多个预测标签之间的依赖关系,获得所述单个字符的最佳预测标签。
2.根据权利要求1所述的命名实体识别方法,其中,动态获取所述单个字符上下文相关的语义表示的步骤包括:
采用ALBERT模型,计算所述单个字符的字符特征、所述句子的句子特征、所述单个字符在所述句子中的位置特征;以及
将字符特征、句子特征和位置特征叠加得到上下文相关的字符向量。
3.根据权利要求2所述的命名实体识别方法,其中,基于所述单个字符上下文相关的语义表示获取全局语义信息的步骤包括:
采用迭代膨胀卷积神经网络模型,将所述单个字符进行膨胀卷积编码,自动提取所述单个字符在文本中的长距离语义特征,从而获得所述单个字符的特征向量,所述特征向量包括权重相同的多个特征。
4.根据权利要求3所述的命名实体识别方法,获得多个预测标签的概率的步骤包括:
对所述单个字符的特征向量进行多次单头自注意力计算;以及
拼接所述多次单头自注意力计算的计算结果以及进行线性变换,以获得所述单个字符的多头注意力计算结果,
其中,所述多头注意力计算结果表示所述单个字符的多个预测标签的概率。
5.根据权利要求4所述的命名实体识别方法,其中,获得所述单个字符的最佳预测标签的步骤包括:
对于电子病历文本中的句子,采用条件随机场模型对多个字符的标签序列进行标签解码,以获得单个字符的最佳预测标签。
6.根据权利要求1所述的命名实体识别方法,还包括:根据所述最佳预测标签将彼此关联的多个字符组合成一个实体提及。
7.根据权利要求1所述的命名实体识别方法,其中,所述命名实体识别结果包括实体提及和预定义类别。
8.根据权利要求7所述的命名实例识别国方法,其中,所述预定义类别包括疾病和诊断、影像检查、实验室检验、手术、药物和解剖部位。
9.一种电子设备,包括存储器和处理器,所述存储器存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-8任意一项所述基于深度学习的命名实体识别方法中的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-8任意一项所述基于深度学习的命名实体识别方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111133749.XA CN113836926A (zh) | 2021-09-27 | 2021-09-27 | 电子病历命名实体识别方法、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111133749.XA CN113836926A (zh) | 2021-09-27 | 2021-09-27 | 电子病历命名实体识别方法、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113836926A true CN113836926A (zh) | 2021-12-24 |
Family
ID=78970599
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111133749.XA Pending CN113836926A (zh) | 2021-09-27 | 2021-09-27 | 电子病历命名实体识别方法、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113836926A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109670179A (zh) * | 2018-12-20 | 2019-04-23 | 中山大学 | 基于迭代膨胀卷积神经网络的病历文本命名实体识别方法 |
CN110837736A (zh) * | 2019-11-01 | 2020-02-25 | 浙江大学 | 一种基于字结构的迭代膨胀卷积神经网络-条件随机场的中文医疗记录的命名实体识别方法 |
CN111709241A (zh) * | 2020-05-27 | 2020-09-25 | 西安交通大学 | 一种面向网络安全领域的命名实体识别方法 |
CN112733541A (zh) * | 2021-01-06 | 2021-04-30 | 重庆邮电大学 | 基于注意力机制的BERT-BiGRU-IDCNN-CRF的命名实体识别方法 |
CN113343694A (zh) * | 2021-04-29 | 2021-09-03 | 山东师范大学 | 一种医疗命名实体识别方法及系统 |
-
2021
- 2021-09-27 CN CN202111133749.XA patent/CN113836926A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109670179A (zh) * | 2018-12-20 | 2019-04-23 | 中山大学 | 基于迭代膨胀卷积神经网络的病历文本命名实体识别方法 |
CN110837736A (zh) * | 2019-11-01 | 2020-02-25 | 浙江大学 | 一种基于字结构的迭代膨胀卷积神经网络-条件随机场的中文医疗记录的命名实体识别方法 |
CN111709241A (zh) * | 2020-05-27 | 2020-09-25 | 西安交通大学 | 一种面向网络安全领域的命名实体识别方法 |
CN112733541A (zh) * | 2021-01-06 | 2021-04-30 | 重庆邮电大学 | 基于注意力机制的BERT-BiGRU-IDCNN-CRF的命名实体识别方法 |
CN113343694A (zh) * | 2021-04-29 | 2021-09-03 | 山东师范大学 | 一种医疗命名实体识别方法及系统 |
Non-Patent Citations (2)
Title |
---|
梁文桐等: "基于 BERT 的医疗电子病历命名实体识别", 湖南工业大学学报 * |
陈晓玲等: "基于ALBERT模型的园林植物知识实体与关系抽取方法", 地球信息科学 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11694297B2 (en) | Determining appropriate medical image processing pipeline based on machine learning | |
CN109920501B (zh) | 基于卷积神经网络和主动学习的电子病历分类方法及系统 | |
CN112214995B (zh) | 用于同义词预测的分层多任务术语嵌入学习 | |
CN109670179B (zh) | 基于迭代膨胀卷积神经网络的病历文本命名实体识别方法 | |
US10949456B2 (en) | Method and system for mapping text phrases to a taxonomy | |
Ayesha et al. | Automatic medical image interpretation: State of the art and future directions | |
CN111292848B (zh) | 一种基于贝叶斯估计的医疗知识图谱辅助推理方法 | |
CN110069779B (zh) | 医疗文本的症状实体识别方法及相关装置 | |
CN110442840B (zh) | 序列标注网络更新方法、电子病历处理方法及相关装置 | |
US20220004906A1 (en) | Learning and applying contextual similiarities between entities | |
CN112800766B (zh) | 基于主动学习的中文医疗实体识别标注方法及系统 | |
US11468989B2 (en) | Machine-aided dialog system and medical condition inquiry apparatus and method | |
CN111651991B (zh) | 一种利用多模型融合策略的医疗命名实体识别方法 | |
CN111696640A (zh) | 自动获取病历模板的方法、装置和存储介质 | |
US10847261B1 (en) | Methods and systems for prioritizing comprehensive diagnoses | |
CN110444261B (zh) | 序列标注网络训练方法、电子病历处理方法及相关装置 | |
CN113707307A (zh) | 病情分析方法、装置、电子设备及存储介质 | |
WO2024001104A1 (zh) | 一种图文数据互检方法、装置、设备及可读存储介质 | |
US20220375576A1 (en) | Apparatus and method for diagnosing a medical condition from a medical image | |
Cai et al. | NE–LP: normalized entropy-and loss prediction-based sampling for active learning in Chinese word segmentation on EHRs | |
Kaya | Feature fusion-based ensemble CNN learning optimization for automated detection of pediatric pneumonia | |
Goenaga et al. | A section identification tool: towards hl7 cda/ccr standardization in spanish discharge summaries | |
Zhao et al. | Knowledge guided feature aggregation for the prediction of chronic obstructive pulmonary disease with Chinese EMRs | |
Zhang et al. | Graph-based structural knowledge-aware network for diagnosis assistant | |
Ren et al. | Clinical questionnaire filling based on question answering framework |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |