CN110032648B - 一种基于医学领域实体的病历结构化解析方法 - Google Patents

一种基于医学领域实体的病历结构化解析方法 Download PDF

Info

Publication number
CN110032648B
CN110032648B CN201910208301.6A CN201910208301A CN110032648B CN 110032648 B CN110032648 B CN 110032648B CN 201910208301 A CN201910208301 A CN 201910208301A CN 110032648 B CN110032648 B CN 110032648B
Authority
CN
China
Prior art keywords
medical
entity
event
text
medical record
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910208301.6A
Other languages
English (en)
Other versions
CN110032648A (zh
Inventor
毛葛永
孟海忠
吴边
尹伟东
任宇翔
陈啸冬
曹晓光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Weiyiyun Hangzhou Holding Co ltd
Original Assignee
Weiyiyun Hangzhou Holding Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Weiyiyun Hangzhou Holding Co ltd filed Critical Weiyiyun Hangzhou Holding Co ltd
Priority to CN201910208301.6A priority Critical patent/CN110032648B/zh
Publication of CN110032648A publication Critical patent/CN110032648A/zh
Application granted granted Critical
Publication of CN110032648B publication Critical patent/CN110032648B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Animal Behavior & Ethology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于医学领域实体的病历结构化解析方法,该方法包括:1)对于常见的病历文本构建医学实体和属性类别表,以及相应的关系映射;2)采用Bert_BiLSTM_CRF模型对病历文本中的医学实体进行识别;3)按照语义切分病历文本形成一个个事件;4)重新组合事件;5)构建属性识别模型,抽取切分后的事件中的属性;6)利用知识图谱将同一个句子中的事件的医学实体进行连接,获取实体间的关系;7)对于不同类别的病历文本段定制不同的属性识别模型,最后按照文本顺序堆积结构化解析的结果,形成最终的病历结构化解析文本。

Description

一种基于医学领域实体的病历结构化解析方法
技术领域
本申请涉及一种基于医学领域实体的病历结构化解析方法。
背景技术
医学领域实体具有其特殊性,主要包括症状、疾病、药物、治疗、体征、检查检验等类。
文本结构化主要是利用算法进行信息关系抽取,将非结构化或者半结构化的文本数据转化为计算机可以自动分析、处理的格式。
在病历结构化,由于病历文本书写的特异性,利用传统的信息关系抽取发法或者句法分析模型,难以获得较好的结构化结果。病历文本的结构化常见方法是识别病历中的医学实体,并对医学实体进行关系映射,而且由于实体其关系的复杂性,一般做法是识别实体和描述的key-values对或者识别给定的实体类的关系。
医学领域的病历结构化主要有以下流程:
第一,具有丰富医学的医学领域相关从业人员来规划了医学领域的实体类别和实体关系的类别。
第二,根据不同的病历文本选取不同的实体类别和实体关系类别。
第三,构建命名实体识别模型,识别医学实体。
第四:基于位置或者语义形成实体对,构建实体关系识别模型。
第五:结构化展示、存储。
现有病历结构化方法主要存在以下问题:
不同文本中关系的设定差别较大,需要根据特定的需求设定特定的模板;单纯实体表示的含义不够,一些修饰词会在很大程度上影响实体关系的判别。
常用的实体识别模型如CRF模型需要人工提取足够的特征,才能够获取较好的结果,而人工提取特征的成本较大;深度学习模型RNN系列的序列模型+CRF模型中首先需要对输入文本进行向量化表示,而对于字或者词的向量表示常用的算法word2vec、glove训练的深度(网络的层数)较少,都难以利用上下文的丰富信息,且不能解决词的歧义问题。
不同文本中关系的设定差别较大,需要根据特定的需求设定特定的模板;单纯实体表示的含义不够,病历中不同的实体有不同的属性,这些属性在一定程度上影响实体的意义,如描述否定的属性、程度的属性,在很大程度上超过了实体词本身涵盖的意思,影响实体关系的识别结果。
发明内容
本发明的目的是针对现有病历文本结构化解析的不足,提供一种基于医学领域实体的病历结构化解析方法。
由于结构化作为文本分析的底层服务,所以信息解析的越充分则后续利用越方便,这里将病历文本进行实体抽取,分句,切割事件,形成最小语意块。在语意块中提取实体和属性的关系对,并基于医学逻辑判断关系对是否合法;而后利用信息准确且丰富的知识图谱将句子中的实体关系进行连接,最后利用实体识别模型发现新类型文本中的新词,优化结构化解析结果。
本发明的目的是通过以下的技术方案来实现:一种基于医学领域实体的病历结构化解析方法,在利用文本信息、领域知识、知识图谱的情况下充分结构化解析文本,该方法包括如下步骤:
1)对于常见的病历文本构建医学实体和属性类别表,以及相应的关系映射。不同的实体差别较大,可以有多种属性识别模型;同一属性在不同实体中表现不同,映射关系会有一定的改变。如在症状中程度属性,在体征中可能为值属性。
2)首先引用google的Bert预训练模型,将病历文本作为转化为输入向量,添加BiLSTM_CRF模型对病历文本中的医学实体进行识别,并标记句子中实体的位置。该步骤步骤利用了Bert_BiLSTM_CRF模型,这里采用了google的Bert预训练模型,并在其上封装BiLSTM_CRF模型,采用Bert模型丰富了字和词的语义内容,一定程度上避免了词的歧义性问题,利用Bert预训练模型的输出作为BiLSTM_CRF的输入,构建Bert_BiLSTM_CRF模型,在实体识别中获得较基于词向量+字向量的BiLSTM_CRF模型更好的识别结果。
3)按照语义切分病历文本形成一个个事件,事件作为结构化解析的最小单元。按照句法中断句标点切分句子,记录事件所属的句子。
4)重新组合事件,进行如下判断,如果事件作为起始句,但不包含实体,则将该事件的添加到下一个事件中组合为新的事件;如果事件不是起始句且不包含实体,则将事件添加到上一个事件中组合成为新的事件。该步骤对按照语言习惯(标点符号切分的事件)按照实体存在与否,重新合并相邻的事件,形成新的事件,并在组合中按照正向最大匹配的原则,一直组合到满足结束条件的事件。
5)构建属性识别模型,抽取切分后的事件中的属性,以事件中医学实体为中心,按照实体和属性的关系映射表,形成有效的实体和属性的关系对,基于医学逻辑剔除不符合医学逻辑的实体和属性关系对。
6)利用知识图谱将同一个句子中的事件的医学实体进行连接,获取实体间的关系,充分结构化解析病历文本。该步骤基于知识图谱的逻辑推理能力有效挖掘句子中跨事件的实体关系。
7)对于不同类别的病历文本段定制不同的属性识别模型,最后按照文本顺序堆积结构化解析的结果,形成最终的病历结构化解析文本。
本发明的有益效果是:本发明在病历文本的结构化解析中,①提出了相对完整的实体和属性类型和映射框架;②在实体识别中利用新的模型Bert_BiLSTM_CRF模型,基于Bert预训练的BiLSTM_CRF获得了较BiLSTM_CRF更好的识别结果;③在事件中,利用句子语义信息切分事件,将实体和属性约束在同一个事件中,有效提高实体和属性对的准确率;④利用知识图谱完善句子中实体与实体之间的关系,在医学领域的知识图谱是具备准确知识和逻辑推理能力的知识库,能够确保实体间关系的准确性。按照该框架能够对病历文本进行较为充分和相对准确的结构化解析。
附图说明
图1是本申请一种基于医学领域实体的病历结构化解析方法的整体实现框架图;
图2是本申请Bert_BiLSTM_CRF模型的实现框架图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。
图1是本申请一种基于医学领域实体的病历结构化解析方法的整体实现框架图,该方法包括如下步骤:
第一步:医学研究人员选定医学领域的实体。医学领域的实体主要包括:疾病、症状、药物、检查、体征、治疗六类,表1是本申请定义的病历结构化的实体属性对应的框架;
表1:
Figure BDA0001999710230000031
第二步:建实体与属性的映射关系表;其中属性也是经过具有医学经验的从业者结合业务需求设定的,主要包括:部位、发生时间、持续时间、频率、大小、数量、程度、诱因、加重因素、减轻因素、性质、颜色、气味、状态、分期/型、剂量、药效、给药方式、治疗效果、检查描述值等类。具体映射关系见图2。
第三步:构建Bert_BiLSTM_CRF模型识别病历文本中医学实体,这里主要分为6类,疾病、症状、药物、检查、体征、治疗。Bert_BiLSTM_CRF,可以分为三部分,Bert作为预训练的输入层,BiLSTM作为训练中间层,CRF作为顶层输出层。具体如下:
这里先介绍Bert预训练模型,google的Bert通过深度双向Transformer编码器表征训练出来,该方法将来自左右的上下文信息加入到每一层中,训练出来的Bert模型稍作添加就能迁移到其他任务中,目前在11项自然语言处理领域的任务和比赛中取得了最好的结果。这里引入的Bert_BiLSTM_CRF模型是在bert-base-chinese的基础上添加BiLSTM_CRF,即输入文本,对文本格式进行预处理,添加段落开始和结束标志,以及段落id,将文本按照字分割,将字映射为对应的id号,转化为向量形式,记录文本中字的位置,并将位置转化为向量形式,同时将段落转化为向量形式,将文本字级别的向量、位置向量、段落向量输入深度双向Transformer模型,将该模型的输出节点向量作为BiLSTM_CRF的输入向量,最后经过BiLSTM_CRF的模型预测每一个字的类别,将分类按照词的组合形式组合起来,即为实体识别的结果。
简单介绍Bert模型,Bert的全称是Bidirectional Encoder Representationsfrom Transformers(基于Transformer的双向编码器表征),其中双向表示模型在处理某一个词时,它能同时利用前面的词和后面的词两部分信息。这种双向的来源在于Bert与传统语言模型不同,它不是在给定所有前面词的条件下预测最可能的当前词,而是随机遮掩一些词,并利用所有没被遮掩的词进行预测。BERT可以视为结合了OpenAI的GPT和ELMo优势的新模型。其中ELMo使用两条独立训练的LSTM获取双向信息,而GPT使用新型的Transformer和经典语言模型只能获取单向信息。Bert的主要目标是在GPT的基础上对预训练任务做一些改进,以同时利用Transformer深度模型与双向信息的优势。
输入表征:模型的输入有A句和B句两个自然句,我们首先需要将每个字及特殊符号都转化为词嵌入向量。两个句子中间加入特殊符[SEP]用于分割两个句子,句子最后也加入[SEP]。且在A/B句最前面的特殊符[CLS],该特殊符可以视为汇集了整个输入序列的表征。最后的位置编码是Transformer架构本身决定的,因为基于完全注意力的方法并不能像CNN或RNN那样编码词与词之间的位置关系,但是正因为这种属性才能无视距离长短建模两个词之间的关系。因此为了令Transformer感知词与词之间的位置关系,我们需要使用位置编码给每个词加上位置信息。
Bert最核心的就是预训练过程,简单而言,模型会从数据集抽取两句话,其中B句有50%的概率是A句的下一句,然后将这两句话转化为前面所示的输入表征。现在我们随机遮掩(Mask掉)输入序列中15%的词,并要求Transformer预测这些被遮掩的词,以及B句是A句下一句的概率这两个任务。在实体识别领域中,保留Bert模型转化后的Tokens,将其作为序列识别模型的输入,即可在Bert模型的基础上完成迁移学习,实现实体识别的目的。
这里选取的Bert的中文预训练模型bert_base_chinese,模型有12层,768个隐状态节点,12个self-Attention的‘头’(Head)。具体的注意力机制(Attention)简单来说就是给定一个查找(query)和一个键值表(key-value pairs),将query映射到正确的输入的过程。此处的query、key、value和最终的输出都是向量。输出往往是一个加权求和的形式,而权重则由query、key和value决定,self-Attention中query、key、value均等于输入序列x,其中Head的个数h表示利用h个线性变换分别将d维的key、value和query映射成dk维、dk维和dv维,然后再代入注意力机制,产生总共h×dv维输出,然后拼起来,再用一个线性变换得到最终的输出。具体公式如下:
head=Attention(QW,KW,VW)
MultiHead(Q,K,V)=Concat(head1,head2,...,headn)W
其中W代表权重矩阵,n表示Head的个数。
BILSTM+CRF模型:是目前主流的实体识别模型,BiLSTM能够获取序列左右语序中上下文信息,对输入的字给以预测的标签的概率,在其上添加CRF层,能够将整个文本序列中预测出来标签概率按照约束形成一个相对最准确符合语言学描述的预测路径。而这条路径就是我们实体识别模型预测结果,从这条路径中提取需要的目标实体类别。
简单介绍一下BiLSTM+CRF模型,该模型分为两大部分:第一部分为双向的长短记忆模型(BiLSTM),第二部分是CRF层。BiLSTM考虑的是输入序列中每一个单元X的上下文信息,添加CRF可以考虑标签(tag)之间的依赖关系信息。
第一部分:BiLSTM可以参照LSTM,输入序列经过遗忘门、输入门、输出门,输出隐状态向量;双向LSTM即不仅考虑序列的正向影响,也考虑序列的后向影响,前向的LSTM与后向的LSTM结合成BiLSTM。比如,我们对“我爱中国”这句话进行编码,前向的LSTML依次输入“我”,“爱”,“中”,“国”得到四个向量{hL0,hL1,hL2,hL3},后向的LSTMR依次输入“国”,“中”,“爱”,“我”得到四个向量{hR0,hR1,hR2,hR3},最后将前向和后向的隐向量进行拼接得到{[hL0,hR3],[hL1,hR2],[hL2,hR1],[hL3,hR0]},即{h0,h1,h2,h3},连接转化后标签序列,训练模型。
LSTM简单介绍:LSTM的关键就是细胞状态,细胞状态类似于传送带,直接在整个链上运行,只有一些少量的线性交互,信息在上面流传保持不变会很容易。LSTM有通过“门”的结构来去除或者增加信息到细胞状态的能力。门是一种让信息选择式通过的方法。他们包含一个sigmoid神经网络层和一个pointwise乘法操作Sigmoid层输出0到1之间的数值,描述每个部分有多少量可以通过。0代表“不许任何量通过”,1就指“允许任意量通过”。LSTM拥有三个门,来保护和控制细胞状态,即遗忘门、输入门、输出门。LSTM中的第一步是决定我们会从细胞状态中丢弃什么信息,这个决定通过一个称为遗忘门层完成;下一步是确定什么样的新信息被存放在细胞状态中,这里包含两个部分:第一,sigmoid层称“输入门层”决定什么值我们将要更新。然后,一个tanh层创建一个新的候选值向量;再下一步,用这两个信息来产生对状态的更新;最后我们需要确定输出什么值,这个输出将会基于我们的细胞状态,首先运行一个sigmoid层来确定细胞状态的哪个部分将输出出去,而后把细胞状态通过tanh进行处理(得到一个在-1到1之间的值)并将它和sigmoid门的输出相乘,最终我们仅仅会输出我们确定输出的那部分。具体公式如下:
Figure BDA0001999710230000061
CRF模型:这里CRF采用BMIOS标记方法,一个字对应一个标签,其中B表示词的起始,M表示字在词的中间,I表示字为词的结尾,S表示单个字符成一个独立的词,O表示非目标实体的其他字。CRF在计算中有发射概率矩阵和转移概率矩阵两部分,在BILSTM+CRF中BiLSTM层的输出是每个词的所有标签的各自得分,相当于每个词映射到标签的发射概率值,CRF中的转移概率矩阵A,Ai,j代表tagi转移到tagj的转移概率。对于输入序列X对应的输出tag序列y,定义分数为score,其中每一个score对应一个完整的路径。利用维特比算法进行预测,求解最优路径,最优的路径即输出序列的最后预测结果。
第四步:按照语义切分病历文本形成一个个事件,一个事件代表一件相对完整的语义内容。
首先是基于文本的形式按照常见的中文和英文标点符号进行首次切分,经过中文标点符号的句子作为最小的实践。
其次,导入各类实体的字典,由于时间模式具有特殊性,将时间识别模型镶嵌入分词模型中,在分词的时候识别时间和各类实体。对最小事件进行切分,保留事件和实体以及事件所属句子标识。
事件切分后,按照以下几个标准组合形成新的事件:
首先:判断切分事件的标点符号,如果为句号,则代表句子的结束,下一个事件作为新的句子的起始,记录句子标识。如果为其他标识语义停顿的标点符号,记为一个个事件并将句子的标识添加到事件上。
然后判断是否需要组合事件,如果句子中首个事件不包含实体则往下添加下一个事件作为一个完整的事件,按照前向最大匹配的原则,直到下一个事件中存在实体为止。如果在其他位置的事件,下一个事件中不包含实体则将下一个事件加入到该事件形成新的事件,迭代进行,直到下一个事件中存在实体为止。如此进行下去,将所有的句子按照这种原则切分一个个事件。将事件作为实体和属性对应的文本范围。
第五步:抽取事件中的属性,形成实体和属性对。
属性识别:状态,即有、无和不确定的情况。病例中,经常出现否认XX疾病,无XX症状等,状态在病历解析中尤为重要。这里主要利用经验经病历文本中书写方式中常见的否定词放入字典,利用分词模型进行分词后,利用贪婪匹配的原则,逐一对应到同一事件的实体(具有状态属性的实体:疾病和症状)上。
属性识别:发生时间和持续时间。在上面的事件切分的时候,将时间识别模嵌入到分词模型中去,因此在前面(第三步中)就识别出识别出事件中的时间,这里需要判断时间是发生时间还是持续时间,约定发生时间就是一个时间点,持续时间是一个时间段。基于时间段和时间点的区别可以将二者以规则的模式区分开来。由于在时间模型中,未能识别一些医院的特定时间如:出院时、入院时等词,这里额外添加正则规则对这列词进行识别。
属性识别:部位。一方面基于领域字典在分词时获取部位,另一方利用正则规则扩充部位,将相邻的部位组合,将部位附近的方位词与部位组合在一起生成新的部位。
属性识别:频率。一方面基于领域字典在分词时获取部分频率,另一方利用实体中常见的常见的情况构建正则规则识别频率,不同的实体下频率的表达方式也有较大的差别,如症状一般是X次这类,而在药物中一般是X次/天等。
属性识别:大小和数量。基于模式匹配识别大小和数量属性,其中在大小中,可分为两类,一为形容物体大小的形容词,二为数值+计量单位。识别计量单位,来锁定属性所在位置,基于模式匹配抽取属性。这里区分单位类别如果单位为容量和质量则记为数量属性,否则记为大小属性。而且大小中需要识别单位,由于词库中添加的单位一般为单一的单位,中间不包含/或者*等符号链接的组合单位,因此在识别大小属性前,需要添加规则识别这部分组合单位。
属性识别:诱因、加重因素和减轻因素。基于正则规则和词性识别诱因,诱因一般出现在症状和疾病实体文本附近,而当诱因后有症状的变化的情况,如果是导致症状或者疾病恶化则为加重因素,如果是导致症状或疾病减轻则为减轻因素。
属性识别:用药方式和剂量,参照大量的药品说明书和病例中提取正则规则,基于规则抽取这类属性。
属性识别:程度、颜色、性质、气温。基于字典的词分割,选取对应的词性作为属性。
不同的实体存在不同的属性,对事件中心的实体进行判别,基于实体属性对照表,形成候选实体属性对。
在实体中也会存在属性,如在症状和疾病中常存在部位属性以及性质属性,对这两种实体再次提取属性和部位。
第六步:添加逻辑判断剔除不符合医学逻辑的关系对。
在匹配的实体和属性对中,一个事件内的属性会匹配到事件内所有的实体上,为了进一步减少错误实体属性对,这里做了如下处理:当属性为性质、颜色、尺寸、数量时,默认只对应一个实体,取和这类属性的位置距离最近的实体,作为有效的实体属性对,其余实体和该类属性对剔除;如果一个事件中多个时间属性,导致每一个实体可能对应多个时间属性,部分时间不能对应在实体上,可能是属性对应的时间,这里需要对时间进行匹配,如果是加重减轻等属性的时间,则在这类实体属性对上剔除这部分时间;按照医学逻辑进行剔除,如果是含血、呕吐、结节、肿块等症状的实体才可能存在数量,发热、胸口痛等大部分实体不存在这类属性,因此添加判断,如果非含血、呕吐、结节、肿块等症状则剔除存在的数量属性。
第七步:应用知识图谱将句子中实体与实体间进行连接。
利用构建好的知识图谱,获取实体间的对应关系,知识图谱中包含实体的同义词、简写等而且有确定的医学关系,利用图谱获取句子中实体关系间的对应。
第八步:基于病历不同的文本段构建定制的识别模型,文本类支持扩展。
对主诉、现病史、既往史、个人史、家族史、体格检查、诊断等文本类型的结果分别进行结构化,然后对总体的结果按照顺序进行排列,形成文本总的结构化解析。其中对体格检查文本段进行特殊处理,当输入文本为体格检查时,将文本中识别为症状的实体类型转变为体征,在一定程度上消除体征和症状词相似度较高的情况。
本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (1)

1.一种基于医学领域实体的病历结构化解析方法,其特征在于,包括如下步骤:
1)对于常见的病历文本构建医学实体和属性类别表,以及相应的关系映射;
2)首先引用google的Bert预训练模型,将病历文本作为转化为输入向量,添加BiLSTM_CRF模型对病历文本中的医学实体进行识别,并标记句子中实体的位置;
3)按照语义切分病历文本形成一个个事件,事件作为结构化解析的最小单元;按照句法中断句标点切分句子,记录事件所属的句子;该步骤包括:首先是基于文本的形式按照常见的中文和英文标点符号进行首次切分,经过中文标点符号的句子作为最小的事件,其次,导入各类实体的字典,由于时间模式具有特殊性,将时间识别模型镶嵌入分词模型中,在分词的时候识别时间和各类实体,对最小事件进行切分,保留事件和实体以及事件所属句子标识;
4)重新组合事件,进行如下判断:如果事件作为起始句,但不包含实体,则将该事件添加到下一个事件中组合为新的事件;如果事件不是起始句且不包含实体,则将事件添加到上一个事件中组合成为新的事件;
5)构建属性识别模型,抽取切分后的事件中的属性,以事件中医学实体为中心,按照实体和属性的关系映射表,形成有效的实体和属性的关系对,基于医学逻辑剔除不符合医学逻辑的实体和属性关系对;
6)利用知识图谱将同一个句子中的事件的医学实体进行连接,获取实体间的关系,充分结构化解析病历文本;其中所述知识图谱中包含实体的同义词、简写,而且有确定的医学关系,利用图谱获取句子中实体关系间的对应;
7)对于不同类别的病历文本段定制不同的属性识别模型,最后按照文本顺序堆积结构化解析的结果,形成最终的病历结构化解析文本;该步骤包括:
对主诉、现病史、既往史、个人史、家族史、体格检查、诊断文本类型的结果分别进行结构化,然后对总体的结果按照顺序进行排列,形成文本总的结构化解析;其中对体格检查文本段进行特殊处理,当输入文本为体格检查时,将文本中识别为症状的实体类型转变为体征。
CN201910208301.6A 2019-03-19 2019-03-19 一种基于医学领域实体的病历结构化解析方法 Active CN110032648B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910208301.6A CN110032648B (zh) 2019-03-19 2019-03-19 一种基于医学领域实体的病历结构化解析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910208301.6A CN110032648B (zh) 2019-03-19 2019-03-19 一种基于医学领域实体的病历结构化解析方法

Publications (2)

Publication Number Publication Date
CN110032648A CN110032648A (zh) 2019-07-19
CN110032648B true CN110032648B (zh) 2021-05-07

Family

ID=67236285

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910208301.6A Active CN110032648B (zh) 2019-03-19 2019-03-19 一种基于医学领域实体的病历结构化解析方法

Country Status (1)

Country Link
CN (1) CN110032648B (zh)

Families Citing this family (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110413785B (zh) * 2019-07-25 2021-10-19 淮阴工学院 一种基于bert和特征融合的文本自动分类方法
CN110569486B (zh) * 2019-07-30 2023-01-03 平安科技(深圳)有限公司 基于双架构的序列标注方法、装置和计算机设备
CN110489750A (zh) * 2019-08-12 2019-11-22 昆明理工大学 基于双向lstm-crf的缅甸语分词及词性标注方法及装置
CN110634546A (zh) * 2019-08-14 2019-12-31 中国科学院苏州生物医学工程技术研究所 电子病历文本规范化检测方法
CN110489565B (zh) * 2019-08-15 2023-05-16 广州拓尔思大数据有限公司 基于领域知识图谱本体中的对象根类型设计方法及系统
CN110570920B (zh) * 2019-08-20 2023-07-14 华东理工大学 一种基于集中注意力模型的实体、关系联合学习方法
CN110534185A (zh) * 2019-08-30 2019-12-03 腾讯科技(深圳)有限公司 标注数据获取方法、分诊方法、装置、存储介质及设备
CN110705212B (zh) * 2019-09-09 2023-08-25 广州小鹏汽车科技有限公司 文本序列的处理方法、处理装置、电子终端和介质
CN110825872B (zh) * 2019-09-11 2023-05-23 成都数之联科技股份有限公司 一种提取和分类诉讼请求信息的方法及系统
CN110909549B (zh) * 2019-10-11 2021-05-18 北京师范大学 对古汉语进行断句的方法、装置以及存储介质
CN110827941B (zh) * 2019-11-06 2020-12-22 山东众阳健康科技集团有限公司 电子病历信息校正方法及系统
CN110837558B (zh) * 2019-11-07 2022-04-15 成都星云律例科技有限责任公司 一种裁判文书实体关系抽取方法及系统
CN110991535A (zh) * 2019-12-04 2020-04-10 中山大学 一种基于多类型医学数据的pCR预测方法
CN112948347A (zh) * 2019-12-11 2021-06-11 北京懿医云科技有限公司 文本数据结构化处理方法、装置、设备及存储介质
CN111091883B (zh) * 2019-12-16 2023-07-04 东软集团股份有限公司 一种医疗文本处理方法、装置、存储介质及设备
CN111125309A (zh) * 2019-12-23 2020-05-08 中电云脑(天津)科技有限公司 自然语言处理方法、装置及计算设备、存储介质
CN111222336B (zh) * 2019-12-25 2023-11-07 北京明略软件系统有限公司 一种识别未知实体的方法及装置
CN111192646A (zh) * 2019-12-30 2020-05-22 北京爱医生智慧医疗科技有限公司 一种电子病历中体征信息提取方法及装置
CN113139382A (zh) * 2020-01-20 2021-07-20 北京国双科技有限公司 命名实体识别方法及装置
CN111324742B (zh) * 2020-02-10 2024-01-23 同方知网数字出版技术股份有限公司 一种数字人文知识图谱的构建方法
CN111462893B (zh) * 2020-03-13 2023-08-04 云知声智能科技股份有限公司 一种提供诊断依据的中文病历辅助诊断方法及系统
CN111291569B (zh) * 2020-04-15 2021-01-29 智者四海(北京)技术有限公司 多类别实体识别模型的训练方法及装置
CN111553318A (zh) * 2020-05-14 2020-08-18 北京华宇元典信息服务有限公司 敏感信息提取方法、裁判文书处理方法、装置和电子设备
CN111798847A (zh) * 2020-06-22 2020-10-20 广州小鹏车联网科技有限公司 语音交互方法、服务器和计算机可读存储介质
CN111767371B (zh) * 2020-06-28 2024-03-12 微医云(杭州)控股有限公司 一种智能问答方法、装置、设备及介质
CN111916169B (zh) * 2020-06-29 2021-04-27 南京大经中医药信息技术有限公司 一种中医电子病历结构化方法和终端
CN111785367A (zh) * 2020-06-30 2020-10-16 平安科技(深圳)有限公司 基于神经网络模型的分诊方法、装置和计算机设备
CN111538895A (zh) * 2020-07-07 2020-08-14 成都数联铭品科技有限公司 一种基于图网络的数据处理系统
CN111950540A (zh) * 2020-07-24 2020-11-17 浙江师范大学 一种基于深度学习的知识点提取方法、系统、装置及介质
CN111950283B (zh) * 2020-07-31 2021-09-07 合肥工业大学 面向大规模医疗文本挖掘的中文分词和命名实体识别系统
CN112036189A (zh) * 2020-08-10 2020-12-04 中国人民大学 一种金文语义识别方法和系统
CN112016279B (zh) * 2020-09-04 2023-11-14 平安科技(深圳)有限公司 电子病历结构化方法、装置、计算机设备和存储介质
CN112015900B (zh) * 2020-09-07 2024-05-03 平安科技(深圳)有限公司 医学属性知识图谱构建方法、装置、设备及介质
CN112016274B (zh) * 2020-09-08 2024-03-08 平安科技(深圳)有限公司 医学文本结构化方法、装置、计算机设备及存储介质
CN112329467B (zh) * 2020-11-03 2022-09-30 腾讯科技(深圳)有限公司 地址识别方法、装置、电子设备以及存储介质
CN112420191A (zh) * 2020-11-23 2021-02-26 北京麦岐科技有限责任公司 一种中医辅助决策系统及方法
CN112420151A (zh) * 2020-12-07 2021-02-26 医惠科技有限公司 一种超声报告后结构化解析方法、系统、设备和介质
CN112614559A (zh) * 2020-12-29 2021-04-06 苏州超云生命智能产业研究院有限公司 病历文本处理方法、装置、计算机设备和存储介质
CN112700866A (zh) * 2021-01-07 2021-04-23 北京左医科技有限公司 基于transformer模型的智能交互方法及系统
CN112885478B (zh) * 2021-01-28 2023-07-07 平安科技(深圳)有限公司 医疗文献的检索方法、装置、电子设备及存储介质
CN113033203A (zh) * 2021-02-05 2021-06-25 浙江大学 一种面向医药说明书文本的结构化信息抽取方法
CN112494063B (zh) * 2021-02-08 2021-06-01 四川大学 一种基于注意力机制神经网络的腹部淋巴结分区方法
CN112925918B (zh) * 2021-02-26 2023-03-24 华南理工大学 一种基于疾病领域知识图谱的问答匹配系统
CN113342974B (zh) * 2021-06-10 2022-02-08 国网电子商务有限公司 一种网络安全实体重叠关系的识别方法、装置及设备
CN113435200A (zh) * 2021-06-22 2021-09-24 上海交通大学医学院附属仁济医院 实体识别模型训练、电子病历处理方法、系统及设备
CN113407672A (zh) * 2021-06-22 2021-09-17 珠海格力电器股份有限公司 一种命名实体识别方法、装置、存储介质及电子设备
CN113705237A (zh) * 2021-08-02 2021-11-26 清华大学 融合关系短语知识的关系抽取方法、装置和电子设备
CN114168745B (zh) * 2021-11-30 2022-08-09 大连理工大学 面向环氧乙烷衍生品生产过程的知识图谱构建方法
CN114169966B (zh) * 2021-12-08 2022-08-05 海南港航控股有限公司 一种用张量提取货物订单元数据的方法及系统
CN114821603B (zh) * 2022-03-03 2023-09-01 北京百度网讯科技有限公司 票据识别方法、装置、电子设备以及存储介质
CN114596931B (zh) * 2022-05-10 2022-08-02 上海柯林布瑞信息技术有限公司 基于病历的医学实体和关系联合提取方法和装置
WO2024042348A1 (zh) * 2022-08-24 2024-02-29 Evyd科技有限公司 英文医疗文本结构化的方法、装置、介质及电子设备
CN116108000B (zh) * 2023-04-14 2023-06-20 成都安哲斯生物医药科技有限公司 医疗数据管理查询方法
CN116227484B (zh) * 2023-05-09 2023-07-28 腾讯科技(深圳)有限公司 模型训练方法、装置、设备、存储介质和计算机程序产品
CN116720519B (zh) * 2023-06-08 2023-12-19 吉首大学 一种苗医药命名实体识别方法
CN118093736A (zh) * 2024-04-23 2024-05-28 奇点数联(北京)科技有限公司 一种病历文本对应实体和实体标签的获取系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106980608A (zh) * 2017-03-16 2017-07-25 四川大学 一种中文电子病历分词和命名实体识别方法及系统
CN107609163A (zh) * 2017-09-15 2018-01-19 南京深数信息科技有限公司 医学知识图谱的生成方法、存储介质及服务器
CN107818083A (zh) * 2017-09-29 2018-03-20 华南师范大学 基于三层条件随机场的疾病数据命名实体识别方法及系统
CN109063159A (zh) * 2018-08-13 2018-12-21 桂林电子科技大学 一种基于神经网络的实体关系抽取方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10121557B2 (en) * 2014-01-21 2018-11-06 PokitDok, Inc. System and method for dynamic document matching and merging

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106980608A (zh) * 2017-03-16 2017-07-25 四川大学 一种中文电子病历分词和命名实体识别方法及系统
CN107609163A (zh) * 2017-09-15 2018-01-19 南京深数信息科技有限公司 医学知识图谱的生成方法、存储介质及服务器
CN107818083A (zh) * 2017-09-29 2018-03-20 华南师范大学 基于三层条件随机场的疾病数据命名实体识别方法及系统
CN109063159A (zh) * 2018-08-13 2018-12-21 桂林电子科技大学 一种基于神经网络的实体关系抽取方法

Also Published As

Publication number Publication date
CN110032648A (zh) 2019-07-19

Similar Documents

Publication Publication Date Title
CN110032648B (zh) 一种基于医学领域实体的病历结构化解析方法
CN112214995B (zh) 用于同义词预测的分层多任务术语嵌入学习
CN111274806B (zh) 分词和词性识别方法、装置及电子病历的分析方法、装置
CN110210037B (zh) 面向循证医学领域的类别检测方法
CN109871538A (zh) 一种中文电子病历命名实体识别方法
CN112084381A (zh) 一种事件抽取方法、系统、存储介质以及设备
CN113688248B (zh) 一种小样本弱标注条件下的医疗事件识别方法及系统
CN106599032A (zh) 一种结合稀疏编码和结构感知机的文本事件抽取方法
CN112420191A (zh) 一种中医辅助决策系统及方法
CN111222318B (zh) 基于双通道双向lstm-crf网络的触发词识别方法
CN110277167A (zh) 基于知识图谱的慢性非传染性疾病风险预测系统
CN111476024A (zh) 一种文本分词方法、装置及模型训练方法
CN115293161A (zh) 基于自然语言处理和药品知识图谱的合理用药系统及方法
Deng et al. Self-attention-based BiGRU and capsule network for named entity recognition
CN114077673A (zh) 一种基于btbc模型的知识图谱构建方法
CN113641809A (zh) 一种基于XLNet-BiGRU-CRF的智能问答方法
CN115238026A (zh) 一种基于深度学习的医疗文本主题分割方法和装置
Trabelsi et al. SeLaB: Semantic labeling with BERT
CN113160917B (zh) 一种电子病历实体关系抽取方法
CN112069825B (zh) 面向警情笔录数据的实体关系联合抽取方法
Tripathi et al. SimNER–an accurate and faster algorithm for named entity recognition
Yan et al. Grape diseases and pests named entity recognition based on BiLSTM-CRF
CN111125378A (zh) 一种基于自动样本标注的闭环实体抽取方法
CN111523302B (zh) 一种句法分析方法、装置、存储介质及电子设备
CN114444467A (zh) 一种中医文献内容分析方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant