CN114492444A - 一种中文电子病例医疗实体词类标注方法 - Google Patents

一种中文电子病例医疗实体词类标注方法 Download PDF

Info

Publication number
CN114492444A
CN114492444A CN202210123929.8A CN202210123929A CN114492444A CN 114492444 A CN114492444 A CN 114492444A CN 202210123929 A CN202210123929 A CN 202210123929A CN 114492444 A CN114492444 A CN 114492444A
Authority
CN
China
Prior art keywords
electronic medical
medical record
medical
text
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210123929.8A
Other languages
English (en)
Inventor
杜金莲
杨金昭
金雪云
杜晓林
王丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202210123929.8A priority Critical patent/CN114492444A/zh
Publication of CN114492444A publication Critical patent/CN114492444A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种中文电子病例医疗实体词类标注方法,该方法包括两部分,第一部分为细粒度中文电子病历医疗实体类别划分规则制定与语料数据集构建;第二部分为基于结合门控注意力机制的中文电子病历医疗实体词类标注方法;根据中文电子病历文本特点制定了一种细粒度中文电子病历医疗实体标注规则,同时依照此规则构建了中文电子病历医疗实体语料数据集,并且基于中文电子病历行文特点发明了一种结合门控注意力机制的GATTLCN模型,通过门控注意力网络动态选择需要重点关注的上下文元素来增强文本聚焦,提升模型效果。运用此发明解决了中文电子病历细粒度医疗实体词类标注方面存在的不足。

Description

一种中文电子病例医疗实体词类标注方法
技术领域
本发明涉及医疗实体词类标注领域,具体包括中文电子病历医疗实体类别标注规则与数据集的构建,以及一种结合门控注意力机制的Bi-LSTM+CRF联合网络模型(GATTLCN模型)对中文电子病历进行医疗实体词类标注的方法。
背景技术
在科学技术飞速发展的时代背景下,随着“互联网+医疗”技术的不断发展,越来越多的研究开始聚焦在计算机与医疗信息的交叉领域。在医疗信息化飞速发展的时代,各大医院都积累了海量的临床电子病历数据。电子病历(Electronic Medical Record,EMR)也称之为基于计算机的病人记录。它是通过电子设备(计算机、电子卡等)对患者在就医过程中产生的临床医疗记录进行数字化的存储、传输、重现和管理,用以取代手写纸张病历。电子病历的内容包括原始纸张病历的所有信息,是指医务人员在医疗活动过程中使用医疗机构信息系统生成的文本、图形、符号、影像等数字化的信息,并能实现存储、传输、重现和管理的医疗记录。
当前电子病历系统在国内各医疗机构已经得到了非常广泛的应用前景,研究者对电子病历的认识也更加完善,它不仅包含患者的临床诊治信息,如症状描述,检查结果,疾病诊断,治疗措施等信息,同时还包含了海量的医疗实体信息,然而要想实现电子病历医疗实体信息的电子化,并且在此基础上进一步挖掘其潜在医学价值,对电子病历文本中的医疗实体进行结构化这一点就显得尤为重要。电子病历医疗实体词类标注是构建医疗知识图谱、医疗决策辅助的第一步,其医疗实体标注效果直接决定了辅助医疗决策的效果与质量。
早在上个世纪八九十年代国外就开展了对电子病历信息结构化提取方面的相关研究。然而我国电子病历相关研究起步较晚,自我国卫生部提出卫生信息化建设方案以来,临床和科研界都开展了大量针对电子病历的研究。同时在中文电子病历的医疗词类实体标注研究方面的研究目前同样大幅落后,不仅没有标准、统一的医疗实体类别定义,还缺少能够有效应对病历文本特点的研究方法。
目前通用文本领域词性标注技术日益成熟,像THULAC、Jieba等词性标注工具在通用领域公开数据集上标注准确率都达到了90%以上。然而在处理中文电子病历医疗实体词类标注这种特殊领域中,由于当前并没有一个统一的医疗实体划分标准,以及电子病历独特的语法结构与文本风格,现有标注工具包无法对中文电子病历中的医疗实体进行准确标注。
对中文电子病历中的医疗实体进行词类标注,其本质上就是在对中文电子病历做命名实体识别(NER)任务。医疗实体是电子病历中相关医学知识的主要载体,临床命名实体识别(Clinical Named Entity Recognition,CNER)也是中文电子病历文本分析处理中最基础性的任务之一。近些年来研究人员针对电子病历命名实体识别展开了广泛的研究,并且提出了许多高准确率的方法。这些方法大体可以分为:基于规则与词匹配的方法、基于机器学习的方法、基于深度学习的方法三种类型。
此外注意力机制在与各种模型联合使用中取得了很好的效果,但是传统注意力机制关注输入句子的全部单词,从整个隐藏状态序列中聚合信息,其计算输入源中每个位置隐向量的注意力权重然后获取文本聚焦向量。然而在中文电子病历医疗实体词类标注任务中,输入基于每一份病历,在标注过程中并不需要对每个单词都分配注意力权重,即并不是所有注意力都是必须的,尤其是在长序列电子病历文本中。因此为了能更好的提取文本聚焦语义,本发明采用了门控注意力机制来提高模型性能,通过辅助门结构来动态选择需要关注的单词集合,然后计算文本聚焦向量,其避免了对所有元素进行计算,并允许模型动态关注序列中重要的部分。
发明内容
本发明旨在解决现有中文电子病历医疗实体词类标注方面存在的不足,根据中文电子病历文本特点制定了一种细粒度中文电子病历医疗实体标注规则,同时依照此规则构建了中文电子病历医疗实体语料数据集,并且基于中文电子病历行文特点发明了一种结合门控注意力机制的Bi-LSTM+CRF联合网络模型(GATTLCN模型),通过门控注意力网络动态选择需要重点关注的上下文元素来增强文本聚焦,提升模型效果。
为实现上述目的,本发明采用如下的技术方案,其主要分为两部分。
第一部分细粒度中文电子病历医疗实体类别划分规则制定与语料数据集构建包括以下步骤:
步骤一:制定中文电子病历医疗实体类别划分规则。
本发明在参考了UMLS语义类型中对医疗实体类别的定义,同时结合了国内外众多学者在相似课题下的研究并结合专业人士给出的建议。将中文电子病历医疗实体划分为六大基本实体类别:人体部位、症状、药物、治疗、疾病与检验。同时在基本类别的基础上制定了十种延伸类别:时间点、时间段、具体情景、医学指标、病史、非患者本人、否定词、高程度、低程度和机构。最后设定“无具体类别”用于标注不属于上述类别的实体。
步骤二:人工标注,构建中文电子病历医疗实体标注语料数据集。
作为优选,步骤二中标注工作应完全按照定义的医疗实体划分类别进行,当标注中出现有歧义或模棱两可的情况时,应当暂停标注并进行讨论,参考医学专家的建议达成一致的观点。
作为优选,步骤二中标注工作分为两个阶段进行。第一阶段在专业人员的全程指导下进行,初期主要为了让标注者适应标注模式,在熟悉规则的同时进行交叉检查,保住标注结果的一致,后期为主要标注过程。第二阶段由专业人员对标注结果进行统一抽样检查与修正。
第二部分一种基于结合门控注意力机制的中文电子病历医疗实体词类标注方法包括以下步骤:
步骤一:获取中文电子病历词向量,本发明采用word2vec的skip-gram模型对分词后的中文电子病历文本进行训练获取中文电子病历的低维稠密向量。
步骤二:获取中文电子病历上下文语义信息,将步骤一中获得的词向量作为输入向量,输入到双向长短期记忆网络中,提取输入文本的上下文语义信息,捕获中文电子病历文本的序列信息与中远程依赖信息。
步骤三:使用门控注意力层提取中文电子病历文本语义聚焦向量,将步骤二输出的隐向量作为输入向量,输入到门控注意力网络中,从文本全局来聚焦关注那些对于当前任务更关键的信息,过滤掉与当前任务无关的信息。通过将门控注意力机制应用到模型当中,使得模型可以动态的计算电子病历文本中词的权重,进一步得出每个词对不同医疗实体的重要性,以此过滤掉那些无关紧要的信息,增强模型的动态语义聚焦能力。
步骤四:使用条件随机场充分考虑医疗实体标签之间的约束与依赖关系,将步骤三输出的文本语义聚焦向量作为输入向量,输入到CRF层中根据上下文医疗实体句子级别标签信息来预测得到最佳医疗实体词类标签。
步骤五:用训练好的GATTLCN联合网络模型对测试数据集进行医疗实体词类标注。
作为优选,步骤一中使用已经分好词的中文电子病历训练词向量,本发明采用word2vec的skip-gram模型来获取中文电子病历的低维稠密词向量,词向量维度设置为100维。得到每个单词向量为:X={x1,x2,……,x100},每个句子的文本向量为:S={X1,X2,……,Xn},其中n为每个句子长度,每个单词向量的维度为100。
作为优选,步骤二中Bi-LSTM层使用步骤一中输出的词向量Xt作为输入。LSTM神经网络单元对隐藏层进行了巧妙的门结构设计,其使用三个逻辑门输入门、输出门、遗忘门来控制输入数据传输到记忆单元的比例,以及遗忘先前状态的比例,以此来提取病历文本的上下文语义信息。
此外,前后上下文信息对于中文电子病历医疗实体词类的标注具有非常重要的价值,为了能够同时考虑电子病历上下文语义信息,本发明采用双向LSTM来从全局上下文信息中学习句子的隐藏表示。
作为优选,步骤三中门控注意力层使用步骤二输出的隐向量ht作为输入。本发明在模型中添加了门控注意力机制,这样对文本序列关系的编码建模就突破了电子病历文本序列长距离的限制,从文本全局来聚焦关注那些重要语义信息,过滤掉那些不重要信息。将门控注意力机制应用到模型当中,使得模型可以动态的计算电子病历文本中词的权重,进一步得出每个词对不同医疗实体的重要性,以此过滤掉无关信息。
门控注意力网络使用辅助门结构动态选择需要重点关注的元素子集,并计算其注意力权重然后根据其注意力权重对相应元素隐向量计算加权平均。门控注意力网络包含一系列辅助门结构与一个主干注意力网络。辅助门结构生成一组与输入相关的二进制门,以确定每个单词在当前任务中是否需要被关注。主干网络是一个常规的注意力网络,其通过计算选定重要病历文本中单词的注意力权重值来聚合相应单词的隐向量,然后计算选择隐向量的累加和来获取文本聚焦向量。
作为优选,针对步骤三中门控注意力层使用辅助门结构动态选择关注元素子集过程中二进制门函数将变量离散化导致函数不可微这一问题,本发明采用Gumbel Softmax方法对离散变量采样过程进行连续化,这样就可以使用正常反向传播算法对模型进行优化。
作为优选,步骤四中CRF层使用步骤三输出的文本聚焦向量Ct作为输入。条件随机场能够通过转移矩阵来描述输出标签之间的相互依赖关系,充分考虑医疗实体标签之间的约束与依赖关系。在预测最优医疗实体类时基于维特比算法,计算每个单词的最大概率标签序列,作为该单词医疗实体类别识别的结果,完成医疗实体标注。
作为优选,步骤五在训练模型过程中采用负对数似然函数作为损失函数,通过最小化损失函数来对参数进行优化。
本发明在提出的细粒度中文电子病历医疗实体类别划分规则基础上,基于1200份真实病历构建中文电子病历医疗实体语料数据集,并在此数据集上训练了GATTLCN模型。本发明在多层Bi-LSTM网络训练出上下文语义特征后,进一步通过门控注意力网络使用辅助门结构动态选择需要重点关注的元素子集,增强模型的文本聚焦能力。门控注意力机制的引入不仅提升了模型的标注准确率,对未登录单词的标注也有一定的增强效果。运用此发明解决了中文电子病历细粒度医疗实体词类标注方面存在的不足,
本发明与现有技术相比较,具有以下优点:
1.提出了一种细粒度中文电子病历医疗实体类别划分规则。
2.基于1200份真实病历构建了中文电子病历医疗实体语料数据集。
3.不需要外部医学字典辅助,减少了医疗实体词典构建工作。
4.将门控注意力机制融入模型,提高了模型的动态语义聚焦能力。
附图说明
图1为本发明方法的流程图。
图2为本发明标注规则构建数据集构建的流程图。
图3为中文电子病历医疗实体数据集图。
图4为本发明联合神经网络模型结构图。
图5为本发明门控注意力机制动态选择过程图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述。下面的描述涵盖了许多具体细节,以便提供对本发明的全面理解。本发明绝不限于下面所提出的任何具体配置和算法,而是在不脱离本发明的精神的前提下覆盖了相关元素、部件和算法的任何修改、替换和改进。
如图1到图5所示,本发明所提供的中文电子病历医疗实体词类识别方法,主要是在细粒度中文电子病历医疗实体类别划分规则基础上构建数据集,并结合中文电子病历行文风格与开发领域文本差距较大等特点,在深度神经网络中加入门控注意力机制。在数据集构建阶段基于提出的细粒度中文电子病历医疗实体类别划分规则人工标注真实电子病历数据构建数据集。在数据处理阶段将自构建数据集通过word2vec训练获取文本词向量。将词向量输入Bi-LSTM网络,从病历文本的前后两个方向提取其上下文语义特征信息,然后将带有上下文语义信息的向量输入门控注意力网络使用辅助门结构动态选择需要重点关注的元素子集并对其分配不同的注意力权重计算文本聚焦向量,提高模型聚焦效果强化上下文之间的联系,最后经过CRF层输出标注结果。
如图1所示为本发明方法的流程图,本发明的具体步骤如下:
步骤一,制定细粒度中文电子病历医疗实体类别划分规则。
1.1)根据病历文本记录内容首先制定六大基本实体类别:人体部位、症状、药物、治疗、检查与疾病。基本类别中的实体均与医疗信息直接相关,能够直接地覆盖病历中最主要信息。
1.2)在基本类别的基础上制定十一种延伸类别:时间点、时间段、具体情景、医学指标、病史、非患者本人、否定词、高程度、低程度、机构与无类别。延伸类别虽未直接带有医学含义,却能在时间空间上对患者的健康信息进行细致描述。
步骤二,人工标注真实电子病历,构建中文电子病历医疗实体类别标注语料数据集。
中文电子病历医疗实体类别语料数据集构建流程如图2所示,在制定医疗实体类别划分规则后标注主要分为预标注阶段与正式标注两个阶段。
2.1)将标注人员分为两组进行预标注,在标注完成后对比两组标注结果计算其一致性并分析不一致的标注,然后根据对比结果对医疗实体类别划分规则进行更新,然后再进行一轮预标注。
2.2)标注人员在进行完两轮预标注熟悉标注流程与医疗实体类别划分规则完善后进行正式标注,标注完成后构建的中文电子病历医疗实体类别标注语料数据集如图3所示。
步骤三,构建结合门控注意力机制的Bi-LSTM+CRF联合网络模型。
3.1)将自构建数据集通过word2vec训练获取中文电子病历的低维稠密词向量,词向量维度设置为100维。得到每个单词向量为:X={x1,x2,……,x100},每个句子的文本向量为:S={X1,X2,……,Xn},其中n为每个句子长度,每个单词向量的维度为100。
3.2)将病历文本词向量X输入LSTM层,利用LSTM神经网络提取病历文本上下文语义信息。LSTM对其神经单元进行了巧妙的门机构设计,其使用三个逻辑门来控制输入数据到记忆单元的比例,以及遗忘先前状态的比例。LSTM通过在每个存储单元中引入输入门、输出门、遗忘门三个门结构来控制信息的流动,LSTM神经网络单元中四种状态计算公式如下:
ft=σ(Wf·[ht-1,xt]+bf) (1)
it=σ(Wi·[ht-1,xt]+bi) (2)
Figure BDA0003499608790000061
Figure BDA0003499608790000062
ot=σ(Wo·[ht-1,xt]+bo) (5)
ht=ot*tanh(ct) (6)
其中σ、tanh分别是Sigmoid函数与双曲正切函数。ht-1、ct-1是上一个神经网络单元输出的隐向量与单元向量,xt、ht分别是当前网络单元的输入与输出向量,it、ft、ot分别是输入法、遗忘门、输出门的向量,
Figure BDA0003499608790000063
ct是单元向量,W、b是可训练参数。
此外为了同时提取病历文本前后上下文信息,本发明采用双向LSTM来从全局上下文信息中学习句子的隐藏表示。将
Figure BDA0003499608790000064
表示为从左向右扫描文本,将
Figure BDA0003499608790000065
表示为从右向左扫描文本。则双向LSTM网络学习到的隐向量可以表示为
Figure BDA0003499608790000066
Figure BDA0003499608790000067
其中第i个字符的隐藏表示是
Figure BDA0003499608790000068
Figure BDA0003499608790000069
的连接,即
Figure BDA00034996087900000610
Figure BDA00034996087900000611
Bi-LSTM层的输出为h=[h1,h2,…,hn]。
3.3)在双向LSTM网络提取到病历文本上下文语义信息h=[h1,h2,…hn]后将其输入到门控注意力层。不同于传统的注意力网络直接计算输出注意力权重,门控注意力机制网络有额外的二进制门结构G={g1,g2,…,gt}gt∈{0,1},由该二进制门来控制选择当前单元隐向量的流入。当gt=1时,第t个二进制门打开,当前单元隐向量流入参与注意力计算,当gt=0时,第t个二进制关闭,抹除当前单元隐向量信息。通过门控注意力网络中的辅助二进制门来动态选择需要重点关注的元素子集,并计算其注意力权重然后根据其注意力权重对相应元素的隐向量计算其加权平均,门控注意力机制网络中注意力权重的计算如下:
et,i=score(ht,hi) (7)
pi=sigmoid(score(ht,hi)) (8)
Figure BDA0003499608790000071
Figure BDA0003499608790000072
其中N是电子病历文本单词个数,β是二进制门开启与否的阈值。score函数是注意力打分函数,其可以是任意对比向量的函数,如点积、参数矩阵、缩放点积等。在本发明中采用的是点积的方法。at,i指的是第i个单词对预测第t个单词标签的注意力权重。
通过门控注意力计算文本聚焦向量Ct时,使用经过gt=1的二进制门选出来单元的隐向量进行计算,对于二进制门gt=0所对应单元的隐向量不参加计算。最终通过计算加权和的方式计算选择出集合M所包含的隐向量,文本聚焦向量ct计算如下所示:
Figure BDA0003499608790000073
其中M是经过辅助门结构筛选后需要聚焦单词个数。门控注意力机制动态选择重要元素过程如图4所示。
同时针对二进制门函数gt将变量离散化导致函数不可微这一问题,本发明借鉴Jang等人(2017)提出的Gumbel Softmax方法对离散变量采样过程进行连续化,这样就可以使用正常的反向传播算法对模型进行优化。为了使得辅助二进制门结构在模型训练过程中可微,再训练过程中使用Gumbel Softmax分布近似的代替gt门函数,近似后的
Figure BDA0003499608790000074
门函数如下。
Figure BDA0003499608790000075
其中Gi,j是两个独立的Gumbel(0,1)随机噪声,τ∈(0,∞)是温度参数,当其接近0时,Gumbel Softmax分布近似gt门控输出。在训练时使用
Figure BDA0003499608790000076
函数来替代门控机制函数完成对β以及后续参数的优化。
3.4)在门控注意力层提取到病历文本的语义聚焦向量后将其输入到CRF层,条件随机场能够通过状态转移矩阵来获取标签之间的依赖关系,根据上下文医疗实体句子级别标签来得到最佳病历文本医疗实体类别标签序列y=[y1,y2,…,yn]。序列标签y的得分函数Score(x,y)计算如下:
Figure BDA0003499608790000081
其中T是状态转移概率矩阵,Tyi,yi+1表示当前实体被标记为yi标签且其下一实体被标记为yi+1标签的概率。C是门控注意力层输出的分数矩阵,Cxi,yi表示句子中第i个单词x被标记为yi标签的概率。
在计算完所有可能标签序列得分后,使用Softmax函数来对词类标签序列y的概率进行归一化计算得到其条件概率,其计算公式如下:
Figure BDA0003499608790000082
在模型训练过程中采用负对数似然函数作为模型的损失函数,通过最小化损失函数来对参数进行优化,负对数似然函数如下:
Figure BDA0003499608790000083
步骤四,中文电子病历医疗实体类别标注预测。
4.1)将需要标注医疗实体类别且经过分词后的病历文本(如:体检发现胆囊结石……)经过word2vec训练后得词向量X={x1,x2,……,xn}。
4.2)将4.1中得到词向量输入训练好的GATTLCN模型中,对待提取实体类别的中文电子病历数据进行实体类别标签预测。取概率y*最大的预测序列作为最终标注结果,y*计算公式如下:
Figure BDA0003499608790000084
其中
Figure BDA0003499608790000085
表示所有可能的标签序列集合。
本发明并不局限于上文所描述并在图中示出的特定配置和处理。并且,为了简明起见,这里省略对已知方法技术的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例,但是并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为了清楚起见,本领域的技术人员应当将说明书作为一个整体,各个实施方式中的技术方案也可以适当组合,按照本领域技术人员的理解来实施。本发明可以以其他的具体形式实现,而不脱离其精神和本质特征。例如,特定实施例中所描述的算法可以被修改,而系统体系结构并不脱离本发明的基本精神。
上文所列出的一系列详细说明仅仅是针对本发明的可行性实施方式的具体说明,它们并非用于限制本发明的保护范围,凡是未脱离发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。

Claims (7)

1.一种中文电子病例医疗实体词类标注方法,其特征在于:实现该标注方法主要包括两部分:
第一部分细粒度中文电子病历医疗实体类别划分规则制定与语料数据集构建包括以下步骤:
步骤一:制定中文电子病历医疗实体类别划分规则;
参考UMLS语义类型中对医疗实体类别的定义,将中文电子病历医疗实体划分为六大基本实体类别:人体部位、症状、药物、治疗、疾病与检验;在基本类别的基础上制定了十种延伸类别:时间点、时间段、具体情景、医学指标、病史、非患者本人、否定词、高程度、低程度和机构;最后设定“无具体类别”用于标注不属于上述类别的实体;
步骤二:人工标注,构建中文电子病历医疗实体标注语料数据集;
步骤二中标注工作完全按照定义的医疗实体划分类别进行,步骤二中标注工作分为两个阶段进行;第一阶段在专业人员的全程指导下进行;第二阶段由专业人员对标注结果进行统一抽样检查与修正;
第二部分为基于结合门控注意力机制的中文电子病历医疗实体词类标注方法包括以下步骤:
步骤一:获取中文电子病历词向量,采用word2vec的skip-gram模型对分词后的中文电子病历文本进行训练获取中文电子病历的低维稠密向量;
步骤二:获取中文电子病历上下文语义信息,将步骤一中获得的词向量作为输入向量,输入到双向长短期记忆网络中,提取输入文本的上下文语义信息,捕获中文电子病历文本的序列信息与中远程依赖信息;
步骤三:使用门控注意力层提取中文电子病历文本语义聚焦向量,将步骤二输出的隐向量作为输入向量,输入到门控注意力网络中,从文本全局来聚焦关注那些对于当前任务更关键的信息,过滤掉与当前任务无关的信息;通过将门控注意力机制应用到模型当中,使得模型动态的计算电子病历文本中词的权重,得出每个词对不同医疗实体的重要性,过滤掉那些无关紧要的信息,增强模型的动态语义聚焦能力;
步骤四:使用条件随机场充分考虑医疗实体标签之间的约束与依赖关系,将步骤三输出的文本语义聚焦向量作为输入向量,输入到CRF层中根据上下文医疗实体句子级别标签信息来预测得到最佳医疗实体词类标签;
步骤五:用训练好的GATTLCN联合网络模型对测试数据集进行医疗实体词类标注。
2.根据权利要求1所述的一种中文电子病例医疗实体词类标注方法,其特征在于:第二部分的步骤一中,使用已经分好词的中文电子病历训练词向量,采用word2vec的skip-gram模型来获取中文电子病历的低维稠密词向量,词向量维度设置为100维;得到每个单词向量为:X={x1,x2,……,x100},每个句子的文本向量为:S={X1,X2,……,Xn},其中n为每个句子长度,每个单词向量的维度为100。
3.根据权利要求1所述的一种中文电子病例医疗实体词类标注方法,其特征在于:第二部分的步骤二中,Bi-LSTM层使用步骤一中输出的词向量Xt作为输入;LSTM神经网络单元对隐藏层进行了巧妙的门结构设计,其使用三个逻辑门输入门、输出门、遗忘门来控制输入数据传输到记忆单元的比例,以及遗忘先前状态的比例,提取病历文本的上下文语义信息;
为了能够同时考虑电子病历上下文语义信息,采用双向LSTM来从全局上下文信息中学习句子的隐藏表示。
4.根据权利要求1所述的一种中文电子病例医疗实体词类标注方法,其特征在于:第二部分的步骤三中,门控注意力层使用步骤二输出的隐向量ht作为输入;在模型中添加了门控注意力机制,这样对文本序列关系的编码建模就突破了电子病历文本序列长距离的限制,从文本全局来聚焦关注那些重要语义信息,过滤掉那些不重要信息;将门控注意力机制应用到模型当中,使得模型动态的计算电子病历文本中词的权重,得出每个词对不同医疗实体的重要性,过滤掉无关信息;
门控注意力网络使用辅助门结构动态选择需要重点关注的元素子集,并计算其注意力权重然后根据其注意力权重对相应元素隐向量计算加权平均;门控注意力网络包含一系列辅助门结构与一个主干注意力网络;辅助门结构生成一组与输入相关的二进制门,以确定每个单词在当前任务中是否需要被关注;主干网络是一个注意力网络,其通过计算选定重要病历文本中单词的注意力权重值来聚合相应单词的隐向量,然后计算选择隐向量的累加和来获取文本聚焦向量。
5.根据权利要求1所述的一种中文电子病例医疗实体词类标注方法,其特征在于:第二部分的步骤三中门控注意力层使用辅助门结构动态选择关注元素子集过程中二进制门函数将变量离散化导致函数不可微这一问题,采用Gumbel Softmax方法对离散变量采样过程进行连续化,这样就可以使用正常反向传播算法对模型进行优化。
6.根据权利要求1所述的一种中文电子病例医疗实体词类标注方法,其特征在于:第二部分的步骤四中CRF层使用步骤三输出的文本聚焦向量Ct作为输入;条件随机场能够通过转移矩阵来描述输出标签之间的相互依赖关系,充分考虑医疗实体标签之间的约束与依赖关系;在预测最优医疗实体类时基于维特比算法,计算每个单词的最大概率标签序列,作为该单词医疗实体类别识别的结果,完成医疗实体标注。
7.根据权利要求1所述的一种中文电子病例医疗实体词类标注方法,其特征在于:doer部分的步骤五在训练模型过程中采用负对数似然函数作为损失函数,通过最小化损失函数来对参数进行优化。
CN202210123929.8A 2022-02-10 2022-02-10 一种中文电子病例医疗实体词类标注方法 Pending CN114492444A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210123929.8A CN114492444A (zh) 2022-02-10 2022-02-10 一种中文电子病例医疗实体词类标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210123929.8A CN114492444A (zh) 2022-02-10 2022-02-10 一种中文电子病例医疗实体词类标注方法

Publications (1)

Publication Number Publication Date
CN114492444A true CN114492444A (zh) 2022-05-13

Family

ID=81478367

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210123929.8A Pending CN114492444A (zh) 2022-02-10 2022-02-10 一种中文电子病例医疗实体词类标注方法

Country Status (1)

Country Link
CN (1) CN114492444A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116721779A (zh) * 2023-08-10 2023-09-08 成都安哲斯生物医药科技有限公司 医疗数据预处理方法及系统
CN118113792A (zh) * 2024-04-23 2024-05-31 生命奇点(北京)科技有限公司 一种获取实体和实体关系的系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116721779A (zh) * 2023-08-10 2023-09-08 成都安哲斯生物医药科技有限公司 医疗数据预处理方法及系统
CN116721779B (zh) * 2023-08-10 2023-11-24 成都安哲斯生物医药科技有限公司 医疗数据预处理方法及系统
CN118113792A (zh) * 2024-04-23 2024-05-31 生命奇点(北京)科技有限公司 一种获取实体和实体关系的系统

Similar Documents

Publication Publication Date Title
Fan et al. Adverse drug event detection and extraction from open data: A deep learning approach
Yin et al. Chinese clinical named entity recognition with radical-level feature and self-attention mechanism
CN110534192B (zh) 一种基于深度学习的肺结节良恶性识别方法
Yu et al. Automatic ICD code assignment of Chinese clinical notes based on multilayer attention BiRNN
CN113035362B (zh) 一种基于语义图网络的医疗预测方法及系统
Yang et al. Combining deep learning with token selection for patient phenotyping from electronic health records
Li et al. Intelligent diagnosis with Chinese electronic medical records based on convolutional neural networks
Li et al. A hybrid medical text classification framework: Integrating attentive rule construction and neural network
Yao et al. A convolutional neural network model for online medical guidance
Hasan et al. Clinical natural language processing with deep learning
CN108091397B (zh) 一种缺血性心脏病患者的出血事件预测方法
CN110298036B (zh) 一种基于词性增量迭代的在线医疗文本症状识别方法
CN112735597A (zh) 半监督自学习驱动的医学文本病症辨识方法
CN114492444A (zh) 一种中文电子病例医疗实体词类标注方法
Liu et al. Heterogeneous graph reasoning for knowledge-grounded medical dialogue system
Liu et al. Recognition and extraction of named entities in online medical diagnosis data based on a deep neural network
CN113707339B (zh) 一种多源异质数据库间概念对齐与内容互译方法及系统
CN112420191A (zh) 一种中医辅助决策系统及方法
Pan et al. AMAM: an attention-based multimodal alignment model for medical visual question answering
Liu et al. Deep neural network-based recognition of entities in Chinese online medical inquiry texts
Cai et al. NE–LP: normalized entropy-and loss prediction-based sampling for active learning in Chinese word segmentation on EHRs
Zhang et al. Graph-based structural knowledge-aware network for diagnosis assistant
CN113035303A (zh) 一种中文电子病历的命名实体类别标注方法与系统
Hu et al. Label-indicator morpheme growth on LSTM for Chinese healthcare question department classification
CN113704481B (zh) 一种文本处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination