CN112749564A - 病历事件元素抽取方法、装置、电子设备和存储介质 - Google Patents
病历事件元素抽取方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN112749564A CN112749564A CN202110132072.1A CN202110132072A CN112749564A CN 112749564 A CN112749564 A CN 112749564A CN 202110132072 A CN202110132072 A CN 202110132072A CN 112749564 A CN112749564 A CN 112749564A
- Authority
- CN
- China
- Prior art keywords
- event
- medical record
- entity
- extracting
- entities
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 49
- 238000003745 diagnosis Methods 0.000 claims abstract description 70
- 238000000034 method Methods 0.000 claims abstract description 21
- 208000024891 symptom Diseases 0.000 claims description 50
- 238000007689 inspection Methods 0.000 claims description 13
- 239000000284 extract Substances 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 11
- 238000002372 labelling Methods 0.000 claims description 6
- 230000005540 biological transmission Effects 0.000 abstract description 4
- 230000036772 blood pressure Effects 0.000 description 24
- 208000034783 hypoesthesia Diseases 0.000 description 20
- 230000001154 acute effect Effects 0.000 description 18
- 208000004044 Hypesthesia Diseases 0.000 description 13
- 231100000862 numbness Toxicity 0.000 description 13
- 206010008479 Chest Pain Diseases 0.000 description 12
- 208000004552 Lacunar Stroke Diseases 0.000 description 12
- 206010051078 Lacunar infarction Diseases 0.000 description 12
- 206010033557 Palpitations Diseases 0.000 description 12
- 206010037660 Pyrexia Diseases 0.000 description 12
- 206010047513 Vision blurred Diseases 0.000 description 12
- 206010047700 Vomiting Diseases 0.000 description 12
- 208000002173 dizziness Diseases 0.000 description 12
- 210000003625 skull Anatomy 0.000 description 12
- 206010063659 Aversion Diseases 0.000 description 10
- 239000012634 fragment Substances 0.000 description 9
- 229920000742 Cotton Polymers 0.000 description 8
- 206010028813 Nausea Diseases 0.000 description 8
- 208000032140 Sleepiness Diseases 0.000 description 8
- 206010041349 Somnolence Diseases 0.000 description 8
- 230000008693 nausea Effects 0.000 description 8
- 210000001103 thalamus Anatomy 0.000 description 8
- 206010008118 cerebral infarction Diseases 0.000 description 6
- 208000026106 cerebrovascular disease Diseases 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 206010013082 Discomfort Diseases 0.000 description 4
- 206010024264 Lethargy Diseases 0.000 description 4
- 206010028372 Muscular weakness Diseases 0.000 description 4
- 206010003549 asthenia Diseases 0.000 description 4
- 208000027905 limb weakness Diseases 0.000 description 4
- 231100000861 limb weakness Toxicity 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000004088 simulation Methods 0.000 description 4
- 230000037321 sleepiness Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000005856 abnormality Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000013872 defecation Effects 0.000 description 2
- 230000037213 diet Effects 0.000 description 2
- 235000005911 diet Nutrition 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 230000027939 micturition Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
Landscapes
- Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Epidemiology (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明涉及一种病历事件元素抽取方法、装置、电子设备和存储介质,该方法包括:获取待抽取事件元素的病历文本;识别病历文本对应的诊断依据片段;根据诊断依据片段识别事件类型;判断事件类型中是否包括主事件和从事件;若判断结果为事件类型中包括主事件和/或从事件,则从主事件和/或从事件中抽取实体元素。通过从病历文本中识别出包含诊断依据片段的文书,从诊断依据片段中识别出主从事件,从主从事件中抽取事件元素,每一级别都能精准定位到目标单元。每一级别的特征都会在这一级别的信息提取过程中得到强化,每一级别定位更精确,错误传递减少,最里面的层级信息更准确,从而不会弱化每一个层级所包含独特的信息。
Description
技术领域
本发明涉及互联网应用技术领域,具体涉及一种病历事件元素抽取方法、装置、电子设备和存储介质。
背景技术
目前,事件元素抽取是分别提取句子级别特征、段落级别特征、文档级别特征,然后融合三个层次的特征得到融合全文信息的特征,基于融合全文信息的特征和标注的标签,通过有监督的深度学习算法,进行实体识别、事件识别和事件元素分类的训练,得到事件抽取模型,然后抽取事件元素,上述三个层次特征融合信息融合的方式,虽然信息更全面,但同时也弱化了每一个层级所包含独特的信息。
发明内容
本发明提供一种病历事件元素抽取方法、装置、电子设备和存储介质,能够解决上述弱化每一个层级所包含独特的信息的技术问题。
本发明解决上述技术问题的技术方案如下:
一种病历事件元素抽取方法,包括:
获取待抽取事件元素的病历文本;
识别病历文本对应的诊断依据片段;
根据诊断依据片段识别事件类型;
判断事件类型中是否包括主事件和从事件;
若判断结果为事件类型中包括主事件和/或从事件,则从主事件和/或从事件中抽取实体元素。
在一些实施例中,识别病历对应的诊断依据片段之前,上述方法还包括:对所述病历文本进行结构化处理。
在一些实施例中,识别病历文本对应的诊断依据片段、根据诊断依据片段识别事件类型和所述从主事件和/或从事件中抽取实体元素,均使用Bert+BiLSTM+CRF序列标注模型。
在一些实施例中,若判断结果为所述事件类型中包括主事件和/或从事件,则从主事件和/或从事件中抽取实体元素,包括:
若判断结果为事件类型中包括主事件和/或从事件,
则从主事件中抽取诊断实体元素;和/或,
从从事件中抽取阳性症状实体、阴性症状实体、阳性体征实体、阴性体征实体;和/或,
从从事件中抽取检查实体、检验实体。
在一些实施例中,病历中的事件元素抽取方法从从事件中抽取阳性症状实体、阴性症状实体、阳性体征实体、阴性体征实体;和/或,从从事件中抽取检查实体、检验实体,包括:
从临床表现事件中抽取阳性症状实体、阴性症状实体、阳性体征实体、阴性体征实体;和/或,
从辅助检查事件中抽取检查实体、检验实体。
在一些实施例中,从主事件和/或从事件中抽取实体元素抽取后,上述方法还包括:
构建病历与实体元素的相关关系。
第二方面,本申请实施例还提供了一种病历中事件元素抽取装置,包括:
获取模块:用于获取待抽取事件元素的病历文本;
第一识别模块:用于识别病历文本对应的诊断依据片段;
第二识别模块:用于根据诊断依据片段识别事件类型;
判断模块:用于判断事件类型中是否包括主事件和从事件;
抽取模块:用于若判断结果为事件类型中包括主事件和/或从事件,则从主事件和/或从事件中抽取实体元素。
在一些实施例中,所述装置还包括:结构化处理模块,所述结构化处理模块:用于对病历文本进行结构化处理。
在一些实施例中,上述装置中识别病历文本对应的诊断依据片段、根据所述诊断依据片段识别事件类型和从所述主事件和/或从事件中抽取实体元素,均使用Bert+BiLSTM+CRF序列标注模型。
在一些实施例中,上述装置中若判断结果为所述事件类型中包括主事件和/或从事件,则从所述主事件和/或从事件中抽取实体元素,包括:
若判断结果为所述事件类型中包括主事件和/或从事件,
则从主事件中抽取诊断实体元素;和/或,
从从事件中抽取阳性症状实体、阴性症状实体、阳性体征实体、阴性体征实体;和/或,
从从事件中抽取检查实体、检验实体。
在一些实施例中,上述装置中病历中的事件元素抽取方法从从事件中抽取阳性症状实体、阴性症状实体、阳性体征实体、阴性体征实体;和/或,从所述从事件中抽取检查实体、检验实体,包括:
从临床表现事件中抽取阳性症状实体、阴性症状实体、阳性体征实体、阴性体征实体;和/或,
从辅助检查事件中抽取所述检查实体、所述检验实体。
在一些实施例中,上述装置还包括构建模块,
所述构建模块用于:构建病历与实体元素的相关关系。
第三方面,本申请实施例还提供了一种电子设备,包括:处理器和存储器;
所述处理器通过调用所述存储器存储的程序或指令,用于执行上述病历中事件元素抽取方法。
第四方面,本申请实施例还一种提供了一种计算机可读存储介质,所述非暂态计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如上述病历中事件元素抽取方法。
本发明的有益效果是:获取待抽取事件元素的病历文本;识别病历文本对应的诊断依据片段;根据诊断依据片段识别事件类型;判断事件类型中是否包括主事件和从事件;若判断结果为事件类型中包括主事件和/或从事件,则从主事件和/或从事件中抽取实体元素。本申请实施例中从病历文本中识别出包含诊断依据片段的文书,从诊断依据片段中识别出主从事件,从主从事件中抽取事件元素,每一级别都能精准定位到目标单元。每一级别的特征都会在这一级别的信息提取过程中得到强化,每一级别定位更精确,错误传递减少,最里面的层级信息更准确,从而不会弱化每一个层级所包含独特的信息。
附图说明
图1为本发明实施例提供的一种事件元素抽取方法;
图2为本发明实施例提供的一种事件元素抽取装置;
图3为本发明实施例提供的一种电子设备的示意性框图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
在本申请的示例性实施例中,在介绍本申请实施例方案之前,可以首先对本申请实施例涉及的术语进行介绍:
1、事件类型及定义:
事件类型是指不同的事件所属的类别,比如在医疗技术领域有“主事件类型”、“从事件类型”等事件类型。事件类型的定义一般由该领域的专家或经验人士来确定。
2、事件抽取:
给定一段文本,判断文本中的事件类型以及识别对应的元素。
3、分类:
分类是指通过模型或特定的方法判断一条数据所属的类型即标签,一般而言,分类任务中的每条数据只属于一个类别。
4、多标签分类:
多标签分类是指通过模型或特定的方法判断一条数据属于哪些类别,即一条数据可以属于多个类别。
目前事件元素抽取是分别提取句子级别特征、段落级别特征、文档级别特征,然后融合三个层次的特征得到融合全文信息的特征,基于融合全文信息的特征和标注的标签,通过有监督的深度学习算法,进行实体识别、事件识别和事件元素分类的训练,得到事件抽取模型,然后抽取事件元素,上述三个层次特征融合信息融合的方式,虽然信息更全面,但同时也弱化了每一个层级所包含独特的信息。本申请实施例提出的一种病历事件元素抽取方法,不会弱化每一个层级所包含独特的信息。
图1为本发明实施例提供的一种事件元素抽取方法。
本申请实施例提出的一种病历事件元素抽取方法,包括如下S101、S102、S103、S104和S105五个步骤:
S101:获取待抽取事件元素的病历文本;
具体的,获取到待抽取事件元素的病历文本举例如下:患者xxx,男性,45岁,因“左侧肢体麻木2天”入院。患者2天前无明显诱因下出现左侧肢体麻木,伴肢体乏力、脚踩棉花感,偶有头晕,伴嗜睡,无视物旋转、视物模糊、恶心呕吐、畏寒发热、心慌胸闷等不适症状。立即至明基医院查头颅磁共振提示右侧背侧丘脑急性腔隙性脑梗塞,查血压169/130mmhg,休息数小时后复测血压179/135mmhg。今为求进一步诊治,至我院就诊,门诊拟“急性腔隙性脑梗塞”收住入院。其他补充内容:病程中,患者神志清,精神可,饮食睡眠可,大小便未见明显异常,近期...并不以此病历文本限制本发明的保护范围,具体应用中,可以是其他种类的病历文本。
S102:识别病历文本对应的诊断依据片段;
具体的,识别上述病历文本对应的诊断依据片段如下:因“左侧肢体麻木2天”入院。患者2天前无明显诱因下出现左侧肢体麻木,伴肢体乏力、脚踩棉花感,偶有头晕,伴嗜睡,无视物旋转、视物模糊、恶心呕吐、畏寒发热、心慌胸闷等不适症状。立即至明基医院查头颅磁共振提示右侧背侧丘脑急性腔隙性脑梗塞,查血压169/130mmhg,休息数小时后复测血压179/135mmhg。门诊拟“急性腔隙性脑梗塞”收住入院。
S103:根据诊断依据片段识别事件类型;
具体的,识别诊断依据片段中的因“左侧肢体麻木2天”入院。患者2天前无明显诱因下出现左侧肢体麻木,伴肢体乏力、脚踩棉花感,偶有头晕,伴嗜睡,无视物旋转、视物模糊、恶心呕吐、畏寒发热、心慌胸闷等不适症状为临床表现事件;识别诊断依据片段中的立即至明基医院查头颅磁共振提示右侧背侧丘脑急性腔隙性脑梗塞,查血压169/130mmhg,休息数小时后复测血压179/135mmhg为辅助检查事件;识别诊断依据片段中的门诊拟“急性腔隙性脑梗塞”收住入院为诊断事件。
S104:判断事件类型中是否包括主事件和从事件;
具体的,判断诊断依据片段中是否同时含有主事件和从事件的一种,否,则该文书事件抽取结束。
具体的,本申请实施例中,主事件为诊断事件,从事件包括临床表现事件和辅助检查事件。
S105:若判断结果为事件类型中包括主事件和/或从事件,则从主事件和/或从事件中抽取实体元素。
具体的,识别诊断依据片段中的因“左侧肢体麻木2天”入院。患者2天前无明显诱因下出现左侧肢体麻木,伴肢体乏力、脚踩棉花感,偶有头晕,伴嗜睡,无视物旋转、视物模糊、恶心呕吐、畏寒发热、心慌胸闷等不适症状为临床表现事件;识别诊断依据片段中的立即至明基医院查头颅磁共振提示右侧背侧丘脑急性腔隙性脑梗塞,查血压169/130mmhg,休息数小时后复测血压179/135mmhg为辅助检查事件;识别诊断依据片段中的门诊拟“急性腔隙性脑梗塞”收住入院为诊断事件。
应理解,上述例子中既包括主事件也包括从事件,从主事件和从事件中抽取实体元素。例如:从主事件中抽取诊断实体,从从事件中的临床表现事件中抽取阳性症状实体、阴性症状实体、阳性体征实体、阴性体征实体,从从事件中的辅助检查事件中抽取检查实体、检验实体。
在一些实施例中,识别病历对应的诊断依据片段之前,上述方法还包括:对所述病历文本进行结构化处理。
应理解,医疗病历中很大一部分都是由医生用自然语言书写而成,内容繁复,形式多样,无法直接对其进行处理,因而将其转化为结构化数据。这里的结构化手段可以是ETL。对输入的病历文本进行结构化处理后,将病历划分成主诉、现病史、既往史、诊疗过程等病历结构化文书。
还应理解,诊断依据片段分散在不同的病历结构化文书中。有的结构化文书包含了诊断依据片段,有的结构化文书不包含诊断依据片段,比如医疗费用记录文书中就不包含诊断依据的片段。
应理解,预处理是将原始的病历文本结构化出病历文书,如主诉、现病史(目标单元)。然后从病历文书中确定出包含诊断依据片段的文书,识别文书中的诊断依据片段(目标单元),从诊断依据片段中识别出主从事件(目标单元),从主从事件中能抽取元素,每一级别都精准定位到目标单元。每一级别的特征都会在这一级别的信息提取过程中得到强化,每一级别定位更精确,错误传递减少,最里面的层级信息更准确。
在一些实施例中,识别病历文本对应的诊断依据片段、根据诊断依据片段识别事件类型和所述从主事件和/或从事件中抽取实体元素,均使用Bert+BiLSTM+CRF序列标注模型。
具体的,本申请实施例中Bert+BiLSTM+CRF序列标注模型的原理是将Bert模型中的词向量替换为BiLSTM模型的Word2Vec向量,BiLSTM模型用来计算出当前词语最可能的标签,CRF利用转移特征确保标签之间的顺序性。
其中,X=(x1,x2,...,xn)表示BiLSTM的输入序列,y=(y1,y2,...,yn)表示一种输出标签序列。表示输入Xi在BiLSTM的softmax层输出标签为yi的概率,表示从标签yi到yi+1的转移概率。选择得分最高的标签序列作为输入序列的标签。
在一些实施例中,若判断结果为所述事件类型中包括主事件和/或从事件,则从主事件和/或从事件中抽取实体元素,包括:
若判断结果为事件类型中包括主事件和/或从事件,
则从主事件中抽取诊断实体元素;和/或,
从从事件中抽取阳性症状实体、阴性症状实体、阳性体征实体、阴性体征实体;和/或,
从从事件中抽取检查实体、检验实体。
具体的,从从事件抽取左侧肢体麻木、肢体乏力、头晕和嗜睡为阳性症状实体。从从事件抽取无视物旋转、视物模糊、恶心呕吐、畏寒发热、心慌胸闷为阴性症状;从从事件抽取头颅磁共振、查血压、测血压为检查实体,从主事件抽取急性腔隙性脑梗塞为诊断实体。
在一些实施例中,病历中的事件元素抽取方法从从事件中抽取阳性症状实体、阴性症状实体、阳性体征实体、阴性体征实体;和/或,从从事件中抽取检查实体、检验实体,包括:
从临床表现事件中抽取阳性症状实体、阴性症状实体、阳性体征实体、阴性体征实体;和/或,
从辅助检查事件中抽取检查实体、检验实体。
具体的,从临床表现事件抽取左侧肢体麻木、肢体乏力、头晕和嗜睡为阳性症状实体。从临床表现事件抽取无视物旋转、视物模糊、恶心呕吐、畏寒发热、心慌胸闷为阴性症状;从辅助检查事件抽取头颅磁共振、查血压、测血压为检查实体。
在一些实施例中,从主事件和/或从事件中抽取实体元素抽取后,上述方法还包括:
构建病历与实体元素的相关关系。
应理解,从主事件中抽取诊断实体,从从事件中的临床表现事件中抽取阳性症状实体、阴性症状实体、阳性体征实体、阴性体征实体,从从事件中的辅助检查事件中抽取检查实体、检验实体后,构建病历与实体元素的相关关系,从而根据病历可以直接诊断相关阳性症状、诊断相关阴性症状、诊断相关阳性体征、诊断相关阴性体征、诊断相关检查、诊断相关检验。
图2为本发明实施例提供的一种事件元素抽取装置。
第二方面,本申请实施例还提供了一种病历中事件元素抽取装置,结合图2,包括获取模块201、第一识别模块202、第二识别模块203、判断模块204和抽取模块205。
获取模块201:用于获取待抽取事件元素的病历文本。
具体的,获取模块获取到待抽取事件元素的病历文本举例如下:患者xxx,男性,45岁,因“左侧肢体麻木2天”入院。患者2天前无明显诱因下出现左侧肢体麻木,伴肢体乏力、脚踩棉花感,偶有头晕,伴嗜睡,无视物旋转、视物模糊、恶心呕吐、畏寒发热、心慌胸闷等不适症状。立即至明基医院查头颅磁共振提示右侧背侧丘脑急性腔隙性脑梗塞,查血压169/130mmhg,休息数小时后复测血压179/135mmhg。今为求进一步诊治,至我院就诊,门诊拟“急性腔隙性脑梗塞”收住入院。其他补充内容:病程中,患者神志清,精神可,饮食睡眠可,大小便未见明显异常,近期...
第一识别模块202:用于识别病历文本对应的诊断依据片段。
具体的,第一识别模块识别上述病历文本对应的诊断依据片段如下:因“左侧肢体麻木2天”入院。患者2天前无明显诱因下出现左侧肢体麻木,伴肢体乏力、脚踩棉花感,偶有头晕,伴嗜睡,无视物旋转、视物模糊、恶心呕吐、畏寒发热、心慌胸闷等不适症状。立即至明基医院查头颅磁共振提示右侧背侧丘脑急性腔隙性脑梗塞,查血压169/130mmhg,休息数小时后复测血压179/135mmhg。门诊拟“急性腔隙性脑梗塞”收住入院。
第二识别模块203:用于根据诊断依据片段识别事件类型。
具体的,第二识别模块识别诊断依据片段中的因“左侧肢体麻木2天”入院。患者2天前无明显诱因下出现左侧肢体麻木,伴肢体乏力、脚踩棉花感,偶有头晕,伴嗜睡,无视物旋转、视物模糊、恶心呕吐、畏寒发热、心慌胸闷等不适症状为临床表现事件;识别诊断依据片段中的立即至明基医院查头颅磁共振提示右侧背侧丘脑急性腔隙性脑梗塞,查血压169/130mmhg,休息数小时后复测血压179/135mmhg为辅助检查事件;识别诊断依据片段中的门诊拟“急性腔隙性脑梗塞”收住入院为诊断事件。
判断模块204:用于判断事件类型中是否包括主事件和从事件。
具体的,判断模块判断诊断依据片段中是否同时含有主事件和从事件的一种,否,则该文书事件抽取结束。
具体的,本申请实施例中,主事件为诊断事件,从事件包括临床表现事件和辅助检查事件。
抽取模块205:用于若判断结果为事件类型中包括主事件和/或从事件,则从主事件和/或从事件中抽取实体元素。
具体的,识别诊断依据片段中的因“左侧肢体麻木2天”入院。患者2天前无明显诱因下出现左侧肢体麻木,伴肢体乏力、脚踩棉花感,偶有头晕,伴嗜睡,无视物旋转、视物模糊、恶心呕吐、畏寒发热、心慌胸闷等不适症状为临床表现事件;识别诊断依据片段中的立即至明基医院查头颅磁共振提示右侧背侧丘脑急性腔隙性脑梗塞,查血压169/130mmhg,休息数小时后复测血压179/135mmhg为辅助检查事件;识别诊断依据片段中的门诊拟“急性腔隙性脑梗塞”收住入院为诊断事件。
应理解,上述例子中既包括主事件也包括从事件,抽取模块从主事件和从事件中抽取实体元素。例如:抽取模块从主事件中抽取诊断实体,从从事件中的临床表现事件中抽取阳性症状实体、阴性症状实体、阳性体征实体、阴性体征实体,从从事件中的辅助检查事件中抽取检查实体、检验实体。
在一些实施例中,所述装置还包括:结构化处理模块,所述结构化处理模块:用于对病历文本进行结构化处理。
应理解,医疗病历中很大一部分都是由医生用自然语言书写而成,内容繁复,形式多样,无法直接对其进行处理,因而需要将其转化为结构化数据。这里的结构化手段可以是ETL。结构化处理模块对输入的病历文本进行结构化处理后,将病历划分成主诉、现病史、既往史、诊疗过程等病历结构化文书。
还应理解,诊断依据片段分散在不同的病历结构化文书中。有的结构化文书包含了诊断依据片段,有的结构化文书不包含诊断依据片段,比如医疗费用记录文书中就不包含诊断依据的片段。
在一些实施例中,上述装置中识别病历文本对应的诊断依据片段、根据所述诊断依据片段识别事件类型和从所述主事件和/或从事件中抽取实体元素,均使用Bert+BiLSTM+CRF序列标注模型。
在一些实施例中,上述装置中若判断结果为所述事件类型中包括主事件和/或从事件,则从所述主事件和/或从事件中抽取实体元素,包括:
若判断结果为所述事件类型中包括主事件和/或从事件,
则从主事件中抽取诊断实体元素;和/或,
从从事件中抽取阳性症状实体、阴性症状实体、阳性体征实体、阴性体征实体;和/或,
从从事件中抽取检查实体、检验实体。
具体的,从从事件抽取左侧肢体麻木、肢体乏力、头晕和嗜睡为阳性症状实体。从从事件抽取无视物旋转、视物模糊、恶心呕吐、畏寒发热、心慌胸闷为阴性症状;从从事件抽取头颅磁共振、查血压、测血压为检查实体,从主事件抽取急性腔隙性脑梗塞为诊断实体。
在一些实施例中,上述装置中病历中的事件元素抽取方法从从事件中抽取阳性症状实体、阴性症状实体、阳性体征实体、阴性体征实体;和/或,从所述从事件中抽取检查实体、检验实体,包括:
从临床表现事件中抽取阳性症状实体、阴性症状实体、阳性体征实体、阴性体征实体;和/或,
从辅助检查事件中抽取所述检查实体、所述检验实体。
具体的,从临床表现事件抽取左侧肢体麻木、肢体乏力、头晕和嗜睡为阳性症状实体。从临床表现事件抽取无视物旋转、视物模糊、恶心呕吐、畏寒发热、心慌胸闷为阴性症状;从辅助检查事件抽取头颅磁共振、查血压、测血压为检查实体。
在一些实施例中,上述装置还包括构建模块,
所述构建模块用于:构建病历与实体元素的相关关系。
应理解,从主事件中抽取诊断实体,从从事件中的临床表现事件中抽取阳性症状实体、阴性症状实体、阳性体征实体、阴性体征实体,从从事件中的辅助检查事件中抽取检查实体、检验实体后,构建病历与实体元素的相关关系,从而根据病历可以直接诊断相关阳性症状、诊断相关阴性症状、诊断相关阳性体征、诊断相关阴性体征、诊断相关检查、诊断相关检验。
第三方面,本申请实施例还提供了一种电子设备,包括:处理器和存储器;
所述处理器通过调用所述存储器存储的程序或指令,用于执行上述病历中事件元素抽取方法。
第四方面,本申请实施例还一种提供了一种计算机可读存储介质,所述非暂态计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如上述病历中事件元素抽取方法。
图3是本公开实施例提供的一种电子设备的示意性框图。
如图3所示,电子设备包括:至少一个处理器301、至少一个存储器302和至少一个通信接口303。电子设备中的各个组件通过总线系统304耦合在一起。通信接口303,用于与外部设备之间的信息传输。可理解,总线系统304用于实现这些组件之间的连接通信。总线系统304除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但为了清楚说明起见,在图3中将各种总线都标为总线系统304。
可以理解,本实施例中的存储器302可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。
在一些实施方式中,存储器302存储了如下的元素,可执行单元或者数据结构,或者他们的子集,或者他们的扩展集:操作系统和应用程序。
其中,操作系统,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序,包含各种应用程序,例如媒体播放器(Media Player)、浏览器(Browser)等,用于实现各种应用业务。实现本申请实施例提供的事件元素抽取方法中任一方法的程序可以包含在应用程序中。
在本申请实施例中,处理器301通过调用存储器302存储的程序或指令,具体的,可以是应用程序中存储的程序或指令,处理器301用于执行本申请实施例提供的事件元素抽取方法各实施例的步骤。
本申请实施例提供的事件元素抽取方法中任一方法可以应用于处理器301中,或者由处理器301实现。处理器301可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器301中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器301可以是通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本申请实施例提供的事件元素抽取方法中任一方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器302,处理器301读取存储器302中的信息,结合其硬件完成方法的步骤。
本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。
本领域的技术人员能够理解,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
虽然结合附图描述了本申请的实施方式,但是本领域技术人员可以在不脱离本申请的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种病历事件元素抽取方法,其特征在于,包括:
获取待抽取事件元素的病历文本;
识别所述病历文本对应的诊断依据片段;
根据所述诊断依据片段识别事件类型;
判断所述事件类型中是否包括主事件和从事件;
若判断结果为所述事件类型中包括所述主事件和/或所述从事件,则从所述主事件和/或所述从事件中抽取实体元素。
2.根据权利要求1所述的病历事件元素抽取方法,其特征在于,所述识别所述病历对应的诊断依据片段之前,所述方法还包括:对所述病历文本进行结构化处理。
3.根据权利要求1所述的病历事件元素抽取方法,其特征在于,所述识别所述病历文本对应的诊断依据片段、所述根据所述诊断依据片段识别事件类型和所述从所述主事件和/或从事件中抽取实体元素,均使用Bert+BiLSTM+CRF序列标注模型。
4.根据权利要求1所述的病历事件元素抽取方法,其特征在于,若判断结果为所述事件类型中包括主事件和/或从事件,则从所述主事件和/或所述从事件中抽取实体元素,包括:
若判断结果为所述事件类型中包括主事件和/或从事件,
则从所述主事件中抽取诊断实体元素;和/或,
从所述从事件中抽取阳性症状实体、阴性症状实体、阳性体征实体、阴性体征实体;和/或,
从所述从事件中抽取检查实体、检验实体。
5.根据权利要求书4所述的病历事件元素抽取方法,病历中的事件元素抽取方法所述从所述从事件中抽取阳性症状实体、阴性症状实体、阳性体征实体、阴性体征实体;和/或,从所述从事件中抽取检查实体、检验实体,包括:
从所述临床表现事件中抽取所述阳性症状实体、所述阴性症状实体、所述阳性体征实体、所述阴性体征实体;和/或,
从所述辅助检查事件中抽取所述检查实体、所述检验实体。
6.根据权利要求1所述的病历事件元素抽取方法,其特征在于,从所述主事件和/或从事件中抽取实体元素抽取后,所述方法还包括:
构建病历与实体元素的相关关系。
7.一种病历事件元素抽取装置,其特征在于,包括:
获取模块:用于获取待抽取事件元素的病历文本;
第一识别模块:用于识别所述病历文本对应的诊断依据片段;
第二识别模块:用于根据所述诊断依据片段识别事件类型;
判断模块:用于判断所述事件类型中是否包括主事件和从事件;
抽取模块:用于若判断结果为所述事件类型中包括主事件和/或从事件,则从所述主事件和/或从事件中抽取实体元素。
8.根据权利要求7所述的病历中事件元素抽取装置,其特征在于,所述装置还包括:结构化处理模块,所述结构化处理模块:用于对所述病历文本进行结构化处理。
9.一种电子设备,其特征在于,包括:处理器和存储器;
所述处理器通过调用所述存储器存储的程序或指令,用于执行如权利要求1至6任一项所述病历事件元素抽取方法。
10.一种计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如权利要求1至6任一项所述病历事件元素抽取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110132072.1A CN112749564A (zh) | 2021-01-31 | 2021-01-31 | 病历事件元素抽取方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110132072.1A CN112749564A (zh) | 2021-01-31 | 2021-01-31 | 病历事件元素抽取方法、装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112749564A true CN112749564A (zh) | 2021-05-04 |
Family
ID=75653403
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110132072.1A Pending CN112749564A (zh) | 2021-01-31 | 2021-01-31 | 病历事件元素抽取方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112749564A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113241138A (zh) * | 2021-06-21 | 2021-08-10 | 中国平安人寿保险股份有限公司 | 医疗事件信息的抽取方法、装置、计算机设备及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109192255A (zh) * | 2018-07-03 | 2019-01-11 | 北京康夫子科技有限公司 | 病历结构化方法 |
CN109920501A (zh) * | 2019-01-24 | 2019-06-21 | 西安交通大学 | 基于卷积神经网络和主动学习的电子病历分类方法及系统 |
CN110134720A (zh) * | 2019-05-17 | 2019-08-16 | 苏州大学 | 融合局部特征与深度学习的事件联合抽取方法 |
WO2020172607A1 (en) * | 2019-02-22 | 2020-08-27 | University Of Florida Research Foundation, Incorporated | Systems and methods for using deep learning to generate acuity scores for critically ill or injured patients |
CN111625584A (zh) * | 2020-05-22 | 2020-09-04 | 中国航天科工集团第二研究院 | 一种基于事件抽取与规则引擎的盗窃事件赃物归属方法 |
CN112001177A (zh) * | 2020-08-24 | 2020-11-27 | 浪潮云信息技术股份公司 | 融合深度学习与规则的电子病历命名实体识别方法及系统 |
US20200388396A1 (en) * | 2019-06-04 | 2020-12-10 | Dana-Farber Cancer Institute, Inc. | System and method of using machine learning for extraction of symptoms from electronic health records |
CN112132710A (zh) * | 2020-09-23 | 2020-12-25 | 平安国际智慧城市科技股份有限公司 | 法律要素处理方法、装置、电子设备及存储介质 |
CN112241457A (zh) * | 2020-09-22 | 2021-01-19 | 同济大学 | 一种融合扩展特征的事理知识图谱事件检测方法 |
-
2021
- 2021-01-31 CN CN202110132072.1A patent/CN112749564A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109192255A (zh) * | 2018-07-03 | 2019-01-11 | 北京康夫子科技有限公司 | 病历结构化方法 |
CN109920501A (zh) * | 2019-01-24 | 2019-06-21 | 西安交通大学 | 基于卷积神经网络和主动学习的电子病历分类方法及系统 |
WO2020172607A1 (en) * | 2019-02-22 | 2020-08-27 | University Of Florida Research Foundation, Incorporated | Systems and methods for using deep learning to generate acuity scores for critically ill or injured patients |
CN110134720A (zh) * | 2019-05-17 | 2019-08-16 | 苏州大学 | 融合局部特征与深度学习的事件联合抽取方法 |
US20200388396A1 (en) * | 2019-06-04 | 2020-12-10 | Dana-Farber Cancer Institute, Inc. | System and method of using machine learning for extraction of symptoms from electronic health records |
CN111625584A (zh) * | 2020-05-22 | 2020-09-04 | 中国航天科工集团第二研究院 | 一种基于事件抽取与规则引擎的盗窃事件赃物归属方法 |
CN112001177A (zh) * | 2020-08-24 | 2020-11-27 | 浪潮云信息技术股份公司 | 融合深度学习与规则的电子病历命名实体识别方法及系统 |
CN112241457A (zh) * | 2020-09-22 | 2021-01-19 | 同济大学 | 一种融合扩展特征的事理知识图谱事件检测方法 |
CN112132710A (zh) * | 2020-09-23 | 2020-12-25 | 平安国际智慧城市科技股份有限公司 | 法律要素处理方法、装置、电子设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
周晶晶 等: "基于依存树的越南语新闻事件元素抽取", 计算机工程与设计, vol. 37, no. 08, pages 2233 - 2237 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113241138A (zh) * | 2021-06-21 | 2021-08-10 | 中国平安人寿保险股份有限公司 | 医疗事件信息的抽取方法、装置、计算机设备及存储介质 |
CN113241138B (zh) * | 2021-06-21 | 2022-06-17 | 中国平安人寿保险股份有限公司 | 医疗事件信息的抽取方法、装置、计算机设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107562732B (zh) | 电子病历的处理方法及系统 | |
CN112597774B (zh) | 中文医疗命名实体识别方法、系统、存储介质和设备 | |
CN110827941B (zh) | 电子病历信息校正方法及系统 | |
Shin et al. | Classification of radiology reports using neural attention models | |
CN109166608A (zh) | 电子病历信息提取方法、装置和设备 | |
CN112635011A (zh) | 疾病诊断方法、疾病诊断系统和可读存储介质 | |
Pearce et al. | Coding and classifying GP data: the POLAR project | |
Yadav et al. | Automated outcome classification of emergency department computed tomography imaging reports | |
Grundmeier et al. | Identification of long bone fractures in radiology reports using natural language processing to support healthcare quality improvement | |
Morioka et al. | Automatic classification of ultrasound screening examinations of the abdominal aorta | |
Chen et al. | Early short-term prediction of emergency department length of stay using natural language processing for low-acuity outpatients | |
CN113096756A (zh) | 病情演变分类方法、装置、电子设备和存储介质 | |
Goryachev et al. | Identification and extraction of family history information from clinical reports | |
CN111177309A (zh) | 病历数据的处理方法及装置 | |
CN112749564A (zh) | 病历事件元素抽取方法、装置、电子设备和存储介质 | |
Deng et al. | Development and validation of an automatic system for intracerebral hemorrhage medical text recognition and treatment plan output | |
CN113553840A (zh) | 一种文本信息处理方法、装置、设备及存储介质 | |
CN116612879B (zh) | 诊断结果预测方法、装置、电子设备及存储介质 | |
CN117350291A (zh) | 一种电子病历命名实体识别方法、装置、设备及存储介质 | |
CN112329461A (zh) | 相似病历确定方法、计算机设备及计算机存储介质 | |
Satti et al. | Unsupervised semantic mapping for healthcare data storage schema | |
CN115910327B (zh) | 小样本癌症事件分析方法、装置、设备以及存储介质 | |
CN108831560B (zh) | 一种确定医疗数据属性数据的方法和装置 | |
Zhang et al. | Clinical utility of automatic phenotype annotation in unstructured clinical notes: intensive care unit use | |
Sacoransky et al. | ChatGPT and assistive AI in structured radiology reporting: a systematic review |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210504 |
|
RJ01 | Rejection of invention patent application after publication |