CN114334049A - 一种电子病历结构化处理方法和装置及设备 - Google Patents
一种电子病历结构化处理方法和装置及设备 Download PDFInfo
- Publication number
- CN114334049A CN114334049A CN202011619887.4A CN202011619887A CN114334049A CN 114334049 A CN114334049 A CN 114334049A CN 202011619887 A CN202011619887 A CN 202011619887A CN 114334049 A CN114334049 A CN 114334049A
- Authority
- CN
- China
- Prior art keywords
- medical record
- entities
- entity
- clause
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims description 7
- 238000004458 analytical method Methods 0.000 claims abstract description 45
- 238000000034 method Methods 0.000 claims abstract description 42
- 238000012545 processing Methods 0.000 claims abstract description 39
- 230000011218 segmentation Effects 0.000 claims description 28
- 238000004590 computer program Methods 0.000 claims description 18
- 238000005065 mining Methods 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 5
- 238000007418 data mining Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 22
- 208000024891 symptom Diseases 0.000 description 14
- 201000010099 disease Diseases 0.000 description 11
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 11
- 238000012015 optical character recognition Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 230000001419 dependent effect Effects 0.000 description 6
- 230000001815 facial effect Effects 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 238000003745 diagnosis Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000012552 review Methods 0.000 description 5
- 206010037660 Pyrexia Diseases 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 206010019233 Headaches Diseases 0.000 description 3
- 206010024453 Ligament sprain Diseases 0.000 description 3
- 206010024642 Listless Diseases 0.000 description 3
- 208000002193 Pain Diseases 0.000 description 3
- 206010047700 Vomiting Diseases 0.000 description 3
- 208000023505 abnormal feces Diseases 0.000 description 3
- 230000001154 acute effect Effects 0.000 description 3
- 238000005452 bending Methods 0.000 description 3
- 230000036772 blood pressure Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 235000005911 diet Nutrition 0.000 description 3
- 230000037213 diet Effects 0.000 description 3
- 208000002173 dizziness Diseases 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 231100000869 headache Toxicity 0.000 description 3
- 238000011835 investigation Methods 0.000 description 3
- 208000017971 listlessness Diseases 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 210000003205 muscle Anatomy 0.000 description 3
- 235000021590 normal diet Nutrition 0.000 description 3
- 210000000056 organ Anatomy 0.000 description 3
- 210000002700 urine Anatomy 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 229940079593 drug Drugs 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 239000003607 modifier Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 208000034693 Laceration Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000740 bleeding effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000035487 diastolic blood pressure Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000000474 nursing effect Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 210000002345 respiratory system Anatomy 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000008961 swelling Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Images
Landscapes
- Medical Treatment And Welfare Office Work (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种电子病历结构化处理方法和装置及设备,所述方法包括:获取包括多个病历文本的电子病历集;根据预设的主题及关联的内容的特征,解析病历文本中的主题及关联的内容,并将解析的各主题及关联的内容划分为段落;对各段落进行子句划分,并对划分的各子句进行依存句法分析,确定实体以及其依存关系特征;根据实体的依存关系特征,提取各子句中符合预设依存关系的实体,并填充到预设实体结构的对应实体位置,得到各子句对应的结构化实体,所述预设实体结构包括不同实体位置且不同实体位置间存在预设依存关系。利用本发明提供的方法,可以对电子病历进行结构化处理,获得具有预设关系的结构化实体,为对病历文本进行数据挖掘提供了可能。
Description
技术领域
本发明涉及自然语言分析领域,尤其涉及一种电子病历结构化处理方法和装置及设备。
背景技术
病历是病人在医院诊断治疗全过程的原始记录,它包含有首页、病程记录、检查检验结果、医嘱、手术记录、护理记录等等。电子病历是以电子化方式管理的,有关个人终生健康状态和医疗保健行为的信息,涉及病人信息的采集、存储、传输、处理和利用的所有过程信息。
为了能够根据电子病历进行核心数据分析以及数据检索,需要对电子病历进行结构化分析,高效地提取出病历中的关键信息。但是现有的电子病历结构化的方案仅能够通过电子病历进行文本分析,提取预设的特征,实现对病历中的疾病、症状、用药等相关实体的识别,但是只能得到无法关联的实体信息。例如,在病历中提取出四个实体:舒张压、收缩压、120、80,现有的技术方案无法对应上述实体间的关系,不能确定上述例子中舒张压是120还是80。因此,现有的对电子病历进行结构化分析的方案无法将上述提取出的信息应用到诊断推理上,更无法为进一步的数据挖掘提供可能。因此,急需一种对电子病历进行深层次的结构化处理,得到关系确定的实体信息的方案。
发明内容
本发明提供一种电子病历结构化处理方法和装置及设备,解决现有的电子病历结构化的方案仅能实现对病历中相关实体的识别,只能得到无法关联的实体信息的问题。
第一方面,本发明提供一种电子病历结构化处理方法,该方法包括:
获取包括多个病历文本的电子病历集;
根据预设的主题及与所述主题关联的内容的特征,解析所述病历文本中的主题及其关联的内容,并将解析的各主题及该主题关联的内容划分为段落;
对各段落进行子句划分,并对划分得到的各子句进行依存句法分析,确定所述各子句中的实体以及所述实体的依存关系特征;
根据所述实体的依存关系特征,提取各子句中符合预设依存关系的实体,并填充到预设实体结构的对应实体位置,得到所述各子句对应的结构化实体,所述预设实体结构包括不同实体位置且不同实体位置间存在预设依存关系。
可选地,根据预设的主题及与所述主题关联的内容的特征,解析所述病历文本中的主题及其关联的内容,并将解析的各主题及该主题关联的内容划分为段落,包括:
根据槽位组结构体中槽位映射的主题的特征,解析所述病历文本中对应的主题,所述槽位组结构体为根据病历模板中不同主题及其关联内容对应的结构,确定的包括映射不同主题的槽位及所述槽位之间对应的结构关系的结构;
根据解析的主题,在所述病历文本中确定与所述解析的主题关联的内容;
将解析的各主题及相关联的内容划分为段落,并填充到对应的槽位中,得到对应的结构化数据组。
可选地,根据病历模板中不同主题及其关联内容对应的结构确定槽位组结构体,包括:
挖掘病历模板中的主题及所述主题之间的结构关系,并根据所述主题及其结构关系确定对应的槽位和所述槽位之间的结构关系,所述结构关系包括但不限于并列关系,包含关系,选择关系;
根据所述槽位和所述槽位之间的结构关系,构建树形结构的槽位组结构体。
可选地,根据病历模板中不同主题及其关联内容对应的结构,确定槽位组结构体,还包括:
根据所述电子病历集中病历文本的内容类型,对所述病例文本进行病历模板类型划分;
根据不同病历模板中不同主题及其关联内容对应的结构,确定对应的槽位组结构体。
可选地,得到所述各子句对应的结构化实体后,还包括:
对所述结构化实体进行有关联关系的键值对提取,获得实体关键词和所述实体关键词对应的数值。
可选地,对划分得到的各子句进行依存句法分析,确定所述各子句中的实体以及所述实体的依存关系特征,包括:
根据预先训练的分词模型,对所述划分得到的各子句分别进行分词处理,获得所述各子句对应的子词;
根据预先训练的词性标注模型,对所述子词进行词性标注,获得标注词性的子词;
根据预先训练的依存句法分析模型,对所述标注词性的子词进行依存句法分析,确定所述各子句中的实体以及所述实体的依存关系特征,所述依存关系特征包括实体的词性特征和实体间的关联关系特征。
可选地,根据所述实体的依存关系特征,提取各子句中符合预设依存关系的实体,并填充到预设实体结构的对应实体位置,得到所述各子句对应的结构化实体,包括:
确定与所述预设实体结构中不同实体位置,相匹配的实体的预设依存关系;
根据所述实体的依存关系特征,提取各子句中符合所述预设依存关系的实体;
将提取的实体填充到所述预设实体结构的对应实体位置,得到所述各子句对应的结构化实体。
第二方面,本发明提供一种电子病历结构化处理设备,包括存储器和处理器,其中:
所述存储器用于存储计算机程序;
所述处理器用于读取所述存储器中的程序并执行如下步骤:
获取包括多个病历文本的电子病历集;
根据预设的主题及与所述主题关联的内容的特征,解析所述病历文本中的主题及其关联的内容,并将解析的各主题及该主题关联的内容划分为段落;
对各段落进行子句划分,并对划分得到的各子句进行依存句法分析,确定所述各子句中的实体以及所述实体的依存关系特征;
根据所述实体的依存关系特征,提取各子句中符合预设依存关系的实体,并填充到预设实体结构的对应实体位置,得到所述各子句对应的结构化实体,所述预设实体结构包括不同实体位置且不同实体位置间存在预设依存关系。
可选地,所述处理器根据预设的主题及与所述主题关联的内容的特征,解析所述病历文本中的主题及其关联的内容,并将解析的各主题及该主题关联的内容划分为段落,包括:
根据槽位组结构体中槽位映射的主题的特征,解析所述病历文本中对应的主题,所述槽位组结构体为根据病历模板中不同主题及其关联内容对应的结构,确定的包括映射不同主题的槽位及所述槽位之间对应的结构关系的结构;
根据解析的主题,在所述病历文本中确定与所述解析的主题关联的内容;
将解析的各主题及相关联的内容划分为段落,并填充到对应的槽位中,得到对应的结构化数据组。
可选地,所述处理器根据病历模板中不同主题及其关联内容对应的结构确定槽位组结构体,包括:
挖掘病历模板中的主题及所述主题之间的结构关系,并根据所述主题及其结构关系确定对应的槽位和所述槽位之间的结构关系,所述结构关系包括但不限于并列关系,包含关系,选择关系;
根据所述槽位和所述槽位之间的结构关系,构建树形结构的槽位组结构体。
可选地,所述处理器根据病历模板中不同主题及其关联内容对应的结构,确定槽位组结构体,还包括:
根据所述电子病历集中病历文本的内容类型,对所述病例文本进行病历模板类型划分;
根据不同病历模板中不同主题及其关联内容对应的结构,确定对应的槽位组结构体。
可选地,所述处理器得到所述各子句对应的结构化实体后,还用于:
对所述结构化实体进行有关联关系的键值对提取,获得实体关键词和所述实体关键词对应的数值。
可选地,所述处理器对划分得到的各子句进行依存句法分析,确定所述各子句中的实体以及所述实体的依存关系特征,包括:
根据预先训练的分词模型,对所述划分得到的各子句分别进行分词处理,获得所述各子句对应的子词;
根据预先训练的词性标注模型,对所述子词进行词性标注,获得标注词性的子词;
根据预先训练的依存句法分析模型,对所述标注词性的子词进行依存句法分析,确定所述各子句中的实体以及所述实体的依存关系特征,所述依存关系特征包括实体的词性特征和实体间的关联关系特征。
可选地,所述处理器根据所述实体的依存关系特征,提取各子句中符合预设依存关系的实体,并填充到预设实体结构的对应实体位置,得到所述各子句对应的结构化实体,包括:
确定与所述预设实体结构中不同实体位置,相匹配的实体的预设依存关系;
根据所述实体的依存关系特征,提取各子句中符合所述预设依存关系的实体;
将提取的实体填充到所述预设实体结构的对应实体位置,得到所述各子句对应的结构化实体。
第三方面,本发明提供一种电子病历结构化处理方法装置,包括:
病历获取单元,用于获取包括多个病历文本的电子病历集;
段落划分单元,用于根据预设的主题及与所述主题关联的内容的特征,解析所述病历文本中的主题及其关联的内容,并将解析的各主题及该主题关联的内容划分为段落;
子句处理单元,用于对各段落进行子句划分,并对划分得到的各子句进行依存句法分析,确定所述各子句中的实体以及所述实体的依存关系特征;
结构提取单元,用于根据所述实体的依存关系特征,提取各子句中符合预设依存关系的实体,并填充到预设实体结构的对应实体位置,得到所述各子句对应的结构化实体,所述预设实体结构包括不同实体位置且不同实体位置间存在预设依存关系。
可选地,所述段落划分单元根据预设的主题及与所述主题关联的内容的特征,解析所述病历文本中的主题及其关联的内容,并将解析的各主题及该主题关联的内容划分为段落,包括:
根据槽位组结构体中槽位映射的主题的特征,解析所述病历文本中对应的主题,所述槽位组结构体为根据病历模板中不同主题及其关联内容对应的结构,确定的包括映射不同主题的槽位及所述槽位之间对应的结构关系的结构;
根据解析的主题,在所述病历文本中确定与所述解析的主题关联的内容;
将解析的各主题及相关联的内容划分为段落,并填充到对应的槽位中,得到对应的结构化数据组。
可选地,所述段落划分单元根据病历模板中不同主题及其关联内容对应的结构确定槽位组结构体,包括:
挖掘病历模板中的主题及所述主题之间的结构关系,并根据所述主题及其结构关系确定对应的槽位和所述槽位之间的结构关系,所述结构关系包括但不限于并列关系,包含关系,选择关系;
根据所述槽位和所述槽位之间的结构关系,构建树形结构的槽位组结构体。
可选地,所述段落划分单元根据病历模板中不同主题及其关联内容对应的结构,确定槽位组结构体,还包括:
根据所述电子病历集中病历文本的内容类型,对所述病例文本进行病历模板类型划分;
根据不同病历模板中不同主题及其关联内容对应的结构,确定对应的槽位组结构体。
可选地,所述结构提取单元得到所述各子句对应的结构化实体后,还用于:
对所述结构化实体进行有关联关系的键值对提取,获得实体关键词和所述实体关键词对应的数值。
可选地,所述子句处理单元对划分得到的各子句进行依存句法分析,确定所述各子句中的实体以及所述实体的依存关系特征,包括:
根据预先训练的分词模型,对所述划分得到的各子句分别进行分词处理,获得所述各子句对应的子词;
根据预先训练的词性标注模型,对所述子词进行词性标注,获得标注词性的子词;
根据预先训练的依存句法分析模型,对所述标注词性的子词进行依存句法分析,确定所述各子句中的实体以及所述实体的依存关系特征,所述依存关系特征包括实体的词性特征和实体间的关联关系特征。
可选地,所述结构提取单元根据所述实体的依存关系特征,提取各子句中符合预设依存关系的实体,并填充到预设实体结构的对应实体位置,得到所述各子句对应的结构化实体,包括:
确定与所述预设实体结构中不同实体位置,相匹配的实体的预设依存关系;
根据所述实体的依存关系特征,提取各子句中符合所述预设依存关系的实体;
将提取的实体填充到所述预设实体结构的对应实体位置,得到所述各子句对应的结构化实体。
第四方面,本发明提供一种计算机程序介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面提供的一种电子病历结构化处理方法的步骤。
本发明提供的一种电子病历结构化处理方法和装置及设备,具有以下有益效果:
对电子病历进行结构化处理,获得具有预设关系的结构化实体,便于对病历文本进行数据挖掘,为诊断推理提供可能。
附图说明
图1为本发明实施例提供的一种电子病历结构化处理方法的流程图;
图2为本发明实施例提供的一种扫描病历的示意图;
图3为本发明实施例提供的一种段落划分方法的流程图;
图4为本发明实施例提供的一种槽位组结构体的示意图;
图5为本发明实施例提供的一种子句中实体的依存关系特征的示意图;
图6为本发明实施例提供的一种预设实体结构的示意图;
图7为本发明实施例提供的一种结构化实体的示意图;
图8为本发明实施例提供的一种电子病历结构化处理设备的示意图;
图9为本发明实施例提供的一种电子病历结构化处理装置的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,并不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请实施例的描述中,除非另有说明,“/”表示或的意思,例如,A/B可以表示A或B;文本中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况,另外,在本申请实施例的描述中,“多个”是指两个或多于两个,其它量词与之类似应当理解,此处所描述的优选实施例仅用于说明和解释本申请,并不用于限定本申请,并且在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
需要说明的是,以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
以下,对本公开实施例中的部分用语进行解释说明,以便于本领域技术人员理解。
(1)本公开实施例中术语“依存句法”,在自然语言处理中,用词与词之间的依存关系来描述语言结构的框架称为依存语法,又称从属关系语法。其中,“依存关系”指词与词之间支配与被支配的关系,且这种关系具有方向性,即一个依存关系连接核心词(head)和依存词(dependent)。
(2)本公开实施例中术语“依存句法分析”,又称依存关系分析,简称依存分析,是对输入的文本句子进行分析以得到句子的句法结构的处理过程,作用是识别句子中词汇与词汇之间的相互依存关系。
(3)本公开实施例中术语“三元组”,是指形如((x,y),z)的集合,常简记为(x,y,z)。
(4)本公开实施例中术语“语料库”,是以电子计算机为载体承载语言知识的基础资源,其中存放在语言的实际使用中真实出现过的语言材料,真实语料需要经过分析和处理,才能成为有用的资源。
(5)本公开实施例中术语“中文分词”,是将连续的字序列按照一定的规范重新组合成词序列的过程。
(6)本公开实施例中术语“词性标注”,也被称为语法标注或词类消疑,是将语料库内单词的词性按其含义和上下文内容进行标记的文本数据处理技术。
(7)本公开实施例中术语“光学字符识别”(Optical Character Recognition,OCR),是指电子设备,例如扫描仪或数码相机,检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
鉴于现有的电子病历结构化的方案仅能实现对病历中的疾病、症状、用药等相关实体的识别,但是无法得到具有关联关系的实体信息的问题,本申请提出一种电子病历结构化处理方法和装置及设备。
下面结合附图对本申请实施例中的一种电子病历结构化处理方法和装置及设备进行详细说明。
实施例1
本发明实施例提供一种电子病历结构化处理方法的流程图,如图1所示,包括:
步骤S101,获取包括多个病历文本的电子病历集;
方式1:根据预先获取的纸质病历获取电子病历集。
对预先获取的纸质病历进行扫描后进行光学字符识别,获取包括多个病历文本的电子病历集。
目前很多医院的病历为纸质,为了挖掘其中的患者数据,需要对纸质病历进行扫描并使用OCR技术转化为文本,才能进行后续处理。
方式2:根据预先获取的扫描病历获取电子病历集。
对预先获取的图片格式的扫描病历进行光学字符识别,获取包括多个病历文本的电子病历集。
如图2所示,本发明实施例提供一种扫描病历的示意图。
上述扫描病历可以为任意图片格式,例如,位图(Bit Map,BMP)格式、标签图像文件(TagImage File Format,TIF)格式、联合照片专家组(Joint Photographic ExpertGroup,JPEG)等。
通过对上述扫描病历进行批量OCR识别,将上述扫描病历识别为文本文件并存储,获取包括多个病历文本的电子病历集。
步骤S102,根据预设的主题及与所述主题关联的内容的特征,解析所述病历文本中的主题及其关联的内容,并将解析的各主题及该主题关联的内容划分为段落;
如图3所示,本发明实施例提供一种段落划分方法的流程图,包括:
步骤S301,根据槽位组结构体中槽位映射的主题的特征,解析所述病历文本中对应的主题,所述槽位组结构体为根据病历模板中不同主题及其关联内容对应的结构,确定的包括映射不同主题的槽位及所述槽位之间对应的结构关系的结构;
其中,预先根据病历模板中不同主题及其关联内容对应的结构,确定槽位组结构体,包括:
挖掘病历模板中的主题及所述主题之间的结构关系,并根据所述主题及其结构关系确定对应的槽位和所述槽位之间的结构关系,所述结构关系包括但不限于并列关系,包含关系,选择关系;
上述病历模板为根据国家标准与具体实施时的需求预先设置的,存在多种不同类型的病历模板。
作为一种可选的实施方式,通过下述方式预先设置不同类型的病历模板:
挖掘病历临床标准中的数据元和数据组结构信息;
上述病历临床标准为国家对病历的相关标准,例如《病历书写基本规范》。
上述数据元为病历模板中的主题,上述数据组结构信息为病历模板中不同主题及其关联内容对应的结构。
根据上述挖掘的数据元和数据组结构信息,构建基本的病历模板;
在上述基本的病历模板的基础上,针对医院的需求对病历模板进行扩展。
上述扩展包括:(1)横向扩展:将同一主题的内容合并到同一主题名称下。(2)纵向扩展:增加新的主题。
例如,可以根据医院的科室对上述基本的病历模板进行扩展,形成不同类型的病历模板。
通过上述方式预先设置不同类型的病历模板,可以适应现行医疗标准的电子病历临床文档的分类和结构化体系;对于各个不同医院间不同的电子病历格式和写作规范,可配置性强,可扩展性强,可以适应各个不同医院的需求和各类不同的电子病历后结构化场景。
作为一种可选的实施方式,根据病历模板中不同主题及其关联内容对应的结构,确定槽位组结构体,还包括:
根据所述电子病历集中病历文本的内容类型,对所述病例文本进行病历模板类型划分;
根据不同病历模板中不同主题及其关联内容对应的结构,确定对应的槽位组结构体。
上述电子病历集中包括多个病历文本,确定上述多个病历文本分别对应的内容类型,然后根据病历文本的内容类型确定对应类型的病历模板,根据确定的病历模板的类型构建对应的槽位组结构体。
作为一种可选的实施方式,根据病历的相关业务活动记录进行分类,如各类病史,体格检查,检验检查报告等。
根据所述槽位和所述槽位之间的结构关系,构建树形结构的槽位组结构体。
如图4所示,为本发明实施例提供的一种槽位组结构体的示意图。
上述图4中的槽位组结构体为树形结构,包含多个槽位,并且上述槽位之间存在固定的结构关系。
图4的槽位组结构体包括病历模板1、病历1至病历n等槽位,其中,病历1包含病史和体格检查两个子槽位,病史包含主诉、现病史、既往史、系统回顾四个子槽位,系统回顾包括五官器和呼吸系两个子槽位。
上述图4中的槽位映射病历模板中不同主题,槽位之间的结构映射所述主题之间的结构关系,其中,所述结构关系包括但不限于并列关系,包含关系,选择关系。
例如,在上述图4中,病史和体格检查为并列关系,系统回顾包含五官器和呼吸器,系统回顾和五官器、系统回顾和呼吸器均为包含关系。
上述图4中只对病历1的子槽位进行了展开的示例,病历2至病历n中也包含相似的子槽位的结构,在此不再赘述。
需要说明的是,上述图4提供的指示一种槽位组结构体的示例,并不对本发明实施例进行限定,可以根据具体的实施情况进行槽位的增减、删改。
步骤S302,根据解析的主题,在所述病历文本中确定与所述解析的主题关联的内容;
需要说明的是,任意可以确定与主题相关联的内容的实施方式都可以应用到本发明实施例中,例如根据正则匹配确定与所述解析的主题关联的内容。
在上述图2给出的病历中,确定与现病史主题关联的内容为:入院前1小时,患者因下楼梯时,不慎将腰部扭伤,立即出现腰部疼痛剧烈,不能站立及行走,活动明显受限。患者家属将其扶于一旁体息,但症状未见好转,继而出现面色发青,精神萎靡,未出现头晕、头痛、呕心、呕吐。于是前来我科诊治。我科查:神志清楚,血压正常,生命体征平稳,腰部肌肉紧张,肿胀,广泛压痛明显,屈伸侧弯,活动受限,右直腿拍高试验(-)加强试验(-)。故以“急性腰扭伤”收入我科住院治疗。患病以来精神休息欠佳,饮食一般,二便未见异常。
其他主题关联的内容,与上述与现病史主题关联的内容的形式相似,在此不再赘述。
步骤S303,将解析的各主题及相关联的内容划分为段落,并填充到对应的槽位中,得到对应的结构化数据组。
段落填充后的现病史槽位为:{现病史:入院前1小时,患者因下楼梯时,不慎将腰部扭伤,立即出现腰部疼痛剧烈,不能站立及行走,活动明显受限。患者家属将其扶于一旁体息,但症状未见好转,继而出现面色发青,精神萎靡,未出现头晕、头痛、呕心、呕吐。于是前来我科诊治。我科查:神志清楚,血压正常,生命体征平稳,腰部肌肉紧张,肿胀,广泛压痛明显,屈伸侧弯,活动受限,右直腿拍高试验(-)加强试验(-)。故以“急性腰扭伤”收入我科住院治疗。患病以来精神休息欠佳,饮食一般,二便未见异常。}。
上述结构化数据组包括至少一个子句。
需要说明的是,可以通过关键字或标签检索调取上述结构化数据组。
例如,通过现病史的关键字,可以实现上述槽位组结构体中全部现病史结构化数据组的调取。
使用槽位填充技术,结合上述结构化好的槽位组结构体,对文本格式存储的病历进行结构化填充,将非结构化的文本构建为结构化的文本,最终形成标准化和结构化的文档段落,可进行检索或更细粒度的病案挖掘分析。
通过上述段落划分的方案,实现了对海量病历文档进行文档级的结构化,形成可检索的数据组。克服了现有的电子病历的结构化方案中,没有体系化的数据组分类和标示,不方便临床文档跨机构交换与共享时的标识、定位和管理的问题。
步骤S103,对各段落进行子句划分,并对划分得到的各子句进行依存句法分析,确定所述各子句中的实体以及所述实体的依存关系特征;
对各段落进行子句划分,例如,对上述现病史段落进行划分,得到多个子句。其中,子句1:入院前1小时,患者因下楼梯时,不慎将腰部扭伤,立即出现腰部疼痛剧烈,不能站立及行走,活动明显受限。子句2:患者家属将其扶于一旁体息,但症状未见好转,继而出现面色发青,精神萎靡,未出现头晕、头痛、呕心、呕吐。子句3:于是前来我科诊治。子句4:我科查:神志清楚,血压正常,生命体征平稳,腰部肌肉紧张,肿胀,广泛压痛明显,屈伸侧弯,活动受限,右直腿拍高试验(-)加强试验(-)。子句5:故以“急性腰扭伤”收入我科住院治疗。子句6:患病以来精神休息欠佳,饮食一般,二便未见异常。
上述对划分得到的各子句进行依存句法分析,确定所述各子句中的实体以及所述实体的依存关系特征,包括:
根据预先训练的分词模型,对所述划分得到的各子句分别进行分词处理,获得所述各子句对应的子词;
以上述子句1为例,分词处理后,获得的所述子句1对应的子词为:入院、前1小时、患者、因、下楼梯、时、不慎、将、腰部、扭伤、立即、出现、腰部、疼痛、剧烈、不能、站立、及、行走、活动、明显、受限。
根据预先训练的词性标注模型,对所述子词进行词性标注,获得标注词性的子词;
上述词性为现代汉语中的词性分类,包括:实词:名词、动词、形容词、数量词、代词;虚词:副词、介词、连词、助词、叹词、拟声词。
以上述子句1对应的子词为例,其中,患者为名词,站立为动词,剧烈为副词。
根据预先训练的依存句法分析模型,对所述标注词性的子词进行依存句法分析,确定所述各子句中的实体以及所述实体的依存关系特征,所述依存关系特征包括实体的词性特征和实体间的关联关系特征。
上述依存关系包括:主谓关系、动宾关系、间宾关系、前置宾语、兼语、定中关系、状中结构、动补结构、并列关系、介宾关系、左附加关系、右附加关系、独立关系、核心关系。
上述依存关系为现有的定义,其具体含义在此不再赘述。
作为一种可选的实施方式,在对数据组中的子句进行依存句法分析时,使用主语补足算法对缺少主语的句子进行主语补充,以使得句子结构完整。
在语言习惯中,当连续的多句话使用同一个主语时,常常会缩略主语。例如,他的脸色很难看。还有点发烧。此时,使用主语补足算法畸形主语补充。例如,将上述子句“还有点发烧”,补充为“他还有点发烧”。
如图5所示,本发明实施例提供一种子句中实体的依存关系特征的示意图。
图5中的子句为,现在他脸色难看,好像病了。
分词获得多个子词:现在、他、脸色、难看、好像、病、了。另外,也可以把子句中的标点符号标注出来。
在上述图5中,词性标注在各个子词下面,例如,他是代词,难看是形容词。
各个子词之间的依存关系使用依存弧进行标注。
依存句法的结构没有非终结点,词与词之间直接发生依存关系,构成一个依存对,其中一个是核心词,也叫支配词,另一个叫修饰词,也叫从属词。
例如,在上述图5中,难看为核心词,脸色为修饰词。
依存关系用一个有向弧表示,叫做依存弧。依存弧的方向为由从属词指向支配词。
例如,在上述图5中,依存弧从难看指向脸色,难看和脸色之间的关系为主谓关系。
需要说明的是,上述预先训练分词模型/词性标注模型/依存句法分析模型,包括:
根据通用中文语料库,对所述分词模型/词性标注模型/依存句法分析模型进行训练,初步调整所述分词模型/词性标注模型/依存句法分析模型的参数;
根据预先获取的电子病历样本集,对所述分词模型/词性标注模型/依存句法分析模型进行训练,对初步调整后的分词模型/词性标注模型/依存句法分析模型的参数进行调整。
使用通用中文语料库训练中文分词,词性标注和依存句法分析模型,并在病历文本上进行微调,获得上述分词模型/词性标注模型/依存句法分析模型。
在对文本病历进行段落分割和子句分割的基础上,使用基于预训练模型的中文分词,词性标注和依存句法分析技术和句法结构补足算法对分割后的子句进行结构化,确定所述各子句中的实体以及所述实体的依存关系特征。
步骤S104,根据所述实体的依存关系特征,提取各子句中符合预设依存关系的实体,并填充到预设实体结构的对应实体位置,得到所述各子句对应的结构化实体,所述预设实体结构包括不同实体位置且不同实体位置间存在预设依存关系。
确定与所述预设实体结构中不同实体位置,相匹配的实体的预设依存关系;
如图6所示,本发明实施例提供一种预设实体结构的示意图。
在图6给出的预设实体结构中存在三个实体位置,分别为实体位置1、实体位置2、实体位置3,而且规定他们的词性分别为名词、动词、名词,而且规定上述实体位置1、实体位置2之间存在主谓关系,实体位置2、实体位置3之间存在动宾关系。
需要说明的是,上述预设实体结构只是对本发明实施例的一种示例,并不对本发明实施例构成任何限定,可以根据具体的实施情况对上述预设实体结构的具体结构进行更改,例如调整其中实体位置的数量,调整各个实体位置间的关系等。
需要说明的是,根据每一数据组的语言结构特点,制定相应的句法规则,上述句法规则中设定,不同实体位置和对应的相匹配的实体的预设依存关系。
例如,在上述图6中,制定句法规则,提取符合上述图6中结构化实体的实体。
具体的,规定在子句中提取具有主谓宾关系的子词,并将主语与上述实体位置1相匹配,谓语与上述实体位置2相匹配,宾语与上述实体位置3相匹配。而且,上述主语和宾语的词性为名词,上述谓语的词性为动词。
根据所述实体的依存关系特征,提取各子句中符合所述预设依存关系的实体;需要说明的是,在提取各子句中符合所述预设依存关系的实体时,对于任一子句可能提取成功或失败,也可能只能提取出部分符合要求的实体。
例如,根据上述句法规则,在子句“他的胳膊被划破十分钟了”,提取出“胳膊”,“划破”,“十分钟”,为提取成功的情况。
例如,根据上述图7的实体结构在上述图6给出的子句中只能提取出符合要求的“好像”,“病”两个实体对应实体位置2和实体位置3,为提取部分实体的情况。
如果不存在任何符合要求的实体,则为提取失败的情况。
将提取的实体填充到所述预设实体结构的对应实体位置,得到所述各子句对应的结构化实体。
作为一种可选的实施方式,上述结构化实体为三元组结构。
具体的,上述结构化实体为<部位,症状,表现>的三元组结构。
上述部位的含义为人体的部位,例如,胳膊、心脏、皮肤等。
上述症状的含义为上述部位的异常类型,例如,发热、流血、红肿等。
上述表现的含义为上述症状的异常程度,例如,38摄氏度,一天三次,一周等。
提取上述结构化实体后,可以根据结构化实体进行简单的诊断推理,例如,提取关联疾病和并发症的结构化实体,可以实现疾病和并发症的推理;提取关联症状和疾病的结构化实体,可以实现简单的疾病类型的诊断推理。
如图7所示,为本发明实施例提供的一种结构化实体的示意图。
上述结构化实体为<胳膊,划破,十分钟>。
得到所述各子句对应的结构化实体后,还包括:
对所述结构化实体进行有关联关系的键值对提取,获得实体关键词和所述实体关键词对应的数值。
对上述结构化实体中的部分实体进行量化,提取有关联关系的键值对,上述键值对中包括数值。
例如,对上述<部位,症状,表现>的三元组结构中的症状和表现进行进一步量化,获得为<key,value>形式的键值对。
例如,对<人体,发热,39摄氏度>进行有关联关系的键值对提取,获得<发热,39摄氏度>的键值对。
需要说明的是,得到所述各子句对应的结构化实体后,还包括:
将上述结构化实体存储至数据结构库。
在存储上述结构化实体时,将上述结构化实体到相应指标项,以供后续进行数据统计挖掘。
实施例2
本发明实施例提供一种电子病历结构化处理设备800的示意图,包括存储器801和处理器802,如图8所示,其中:
所述存储器用于存储计算机程序;
所述处理器用于读取所述存储器中的程序并执行如下步骤:
获取包括多个病历文本的电子病历集;
根据预设的主题及与所述主题关联的内容的特征,解析所述病历文本中的主题及其关联的内容,并将解析的各主题及该主题关联的内容划分为段落;
对各段落进行子句划分,并对划分得到的各子句进行依存句法分析,确定所述各子句中的实体以及所述实体的依存关系特征;
根据所述实体的依存关系特征,提取各子句中符合预设依存关系的实体,并填充到预设实体结构的对应实体位置,得到所述各子句对应的结构化实体,所述预设实体结构包括不同实体位置且不同实体位置间存在预设依存关系。
可选地,所述处理器根据预设的主题及与所述主题关联的内容的特征,解析所述病历文本中的主题及其关联的内容,并将解析的各主题及该主题关联的内容划分为段落,包括:
根据槽位组结构体中槽位映射的主题的特征,解析所述病历文本中对应的主题,所述槽位组结构体为根据病历模板中不同主题及其关联内容对应的结构,确定的包括映射不同主题的槽位及所述槽位之间对应的结构关系的结构;
根据解析的主题,在所述病历文本中确定与所述解析的主题关联的内容;
将解析的各主题及相关联的内容划分为段落,并填充到对应的槽位中,得到对应的结构化数据组。
可选地,所述处理器根据病历模板中不同主题及其关联内容对应的结构确定槽位组结构体,包括:
挖掘病历模板中的主题及所述主题之间的结构关系,并根据所述主题及其结构关系确定对应的槽位和所述槽位之间的结构关系,所述结构关系包括但不限于并列关系,包含关系,选择关系;
根据所述槽位和所述槽位之间的结构关系,构建树形结构的槽位组结构体。
可选地,所述处理器根据病历模板中不同主题及其关联内容对应的结构,确定槽位组结构体,还包括:
根据所述电子病历集中病历文本的内容类型,对所述病例文本进行病历模板类型划分;
根据不同病历模板中不同主题及其关联内容对应的结构,确定对应的槽位组结构体。
可选地,所述处理器得到所述各子句对应的结构化实体后,还用于:
对所述结构化实体进行有关联关系的键值对提取,获得实体关键词和所述实体关键词对应的数值。
可选地,所述处理器对划分得到的各子句进行依存句法分析,确定所述各子句中的实体以及所述实体的依存关系特征,包括:
根据预先训练的分词模型,对所述划分得到的各子句分别进行分词处理,获得所述各子句对应的子词;
根据预先训练的词性标注模型,对所述子词进行词性标注,获得标注词性的子词;
根据预先训练的依存句法分析模型,对所述标注词性的子词进行依存句法分析,确定所述各子句中的实体以及所述实体的依存关系特征,所述依存关系特征包括实体的词性特征和实体间的关联关系特征。
可选地,所述处理器根据所述实体的依存关系特征,提取各子句中符合预设依存关系的实体,并填充到预设实体结构的对应实体位置,得到所述各子句对应的结构化实体,包括:
确定与所述预设实体结构中不同实体位置,相匹配的实体的预设依存关系;
根据所述实体的依存关系特征,提取各子句中符合所述预设依存关系的实体;
将提取的实体填充到所述预设实体结构的对应实体位置,得到所述各子句对应的结构化实体。
本发明实施例提供一种电子病历结构化处理装置的示意图,如图9所示,包括:
病历获取单元901,用于获取包括多个病历文本的电子病历集;
段落划分单元902,用于根据预设的主题及与所述主题关联的内容的特征,解析所述病历文本中的主题及其关联的内容,并将解析的各主题及该主题关联的内容划分为段落;
子句处理单元903,用于对各段落进行子句划分,并对划分得到的各子句进行依存句法分析,确定所述各子句中的实体以及所述实体的依存关系特征;
结构提取单元904,用于根据所述实体的依存关系特征,提取各子句中符合预设依存关系的实体,并填充到预设实体结构的对应实体位置,得到所述各子句对应的结构化实体,所述预设实体结构包括不同实体位置且不同实体位置间存在预设依存关系。
可选地,所述段落划分单元根据预设的主题及与所述主题关联的内容的特征,解析所述病历文本中的主题及其关联的内容,并将解析的各主题及该主题关联的内容划分为段落,包括:
根据槽位组结构体中槽位映射的主题的特征,解析所述病历文本中对应的主题,所述槽位组结构体为根据病历模板中不同主题及其关联内容对应的结构,确定的包括映射不同主题的槽位及所述槽位之间对应的结构关系的结构;
根据解析的主题,在所述病历文本中确定与所述解析的主题关联的内容;
将解析的各主题及相关联的内容划分为段落,并填充到对应的槽位中,得到对应的结构化数据组。
可选地,所述段落划分单元根据病历模板中不同主题及其关联内容对应的结构确定槽位组结构体,包括:
挖掘病历模板中的主题及所述主题之间的结构关系,并根据所述主题及其结构关系确定对应的槽位和所述槽位之间的结构关系,所述结构关系包括但不限于并列关系,包含关系,选择关系;
根据所述槽位和所述槽位之间的结构关系,构建树形结构的槽位组结构体。
可选地,所述段落划分单元根据病历模板中不同主题及其关联内容对应的结构,确定槽位组结构体,还包括:
根据所述电子病历集中病历文本的内容类型,对所述病例文本进行病历模板类型划分;
根据不同病历模板中不同主题及其关联内容对应的结构,确定对应的槽位组结构体。
可选地,所述结构提取单元得到所述各子句对应的结构化实体后,还用于:
对所述结构化实体进行有关联关系的键值对提取,获得实体关键词和所述实体关键词对应的数值。
可选地,所述子句处理单元对划分得到的各子句进行依存句法分析,确定所述各子句中的实体以及所述实体的依存关系特征,包括:
根据预先训练的分词模型,对所述划分得到的各子句分别进行分词处理,获得所述各子句对应的子词;
根据预先训练的词性标注模型,对所述子词进行词性标注,获得标注词性的子词;
根据预先训练的依存句法分析模型,对所述标注词性的子词进行依存句法分析,确定所述各子句中的实体以及所述实体的依存关系特征,所述依存关系特征包括实体的词性特征和实体间的关联关系特征。
可选地,所述结构提取单元根据所述实体的依存关系特征,提取各子句中符合预设依存关系的实体,并填充到预设实体结构的对应实体位置,得到所述各子句对应的结构化实体,包括:
确定与所述预设实体结构中不同实体位置,相匹配的实体的预设依存关系;
根据所述实体的依存关系特征,提取各子句中符合所述预设依存关系的实体;
将提取的实体填充到所述预设实体结构的对应实体位置,得到所述各子句对应的结构化实体。
本发明还提供一种计算机程序介质,其上存储有计算机程序,该程序被处理器执行时实现上述实施例1中提供的一种电子病历结构化处理方法的步骤。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
以上对本申请所提供的技术方案进行了详细介绍,本申请中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (10)
1.一种电子病历结构化处理方法,其特征在于,包括:
获取包括多个病历文本的电子病历集;
根据预设的主题及与所述主题关联的内容的特征,解析所述病历文本中的主题及其关联的内容,并将解析的各主题及该主题关联的内容划分为段落;
对各段落进行子句划分,并对划分得到的各子句进行依存句法分析,确定所述各子句中的实体以及所述实体的依存关系特征;
根据所述实体的依存关系特征,提取各子句中符合预设依存关系的实体,并填充到预设实体结构的对应实体位置,得到所述各子句对应的结构化实体,所述预设实体结构包括不同实体位置且不同实体位置间存在预设依存关系。
2.根据权利要求1所述的方法,其特征在于,根据预设的主题及与所述主题关联的内容的特征,解析所述病历文本中的主题及其关联的内容,并将解析的各主题及该主题关联的内容划分为段落,包括:
根据槽位组结构体中槽位映射的主题的特征,解析所述病历文本中对应的主题,所述槽位组结构体为根据病历模板中不同主题及其关联内容对应的结构,确定的包括映射不同主题的槽位及所述槽位之间对应的结构关系的结构;
根据解析的主题,在所述病历文本中确定与所述解析的主题关联的内容;
将解析的各主题及相关联的内容划分为段落,并填充到对应的槽位中,得到对应的结构化数据组。
3.根据权利要求2所述的方法,其特征在于,根据病历模板中不同主题及其关联内容对应的结构确定槽位组结构体,包括:
挖掘病历模板中的主题及所述主题之间的结构关系,并根据所述主题及其结构关系确定对应的槽位和所述槽位之间的结构关系,所述结构关系包括但不限于并列关系,包含关系,选择关系;
根据所述槽位和所述槽位之间的结构关系,构建树形结构的槽位组结构体。
4.根据权利要求3所述的方法,其特征在于,根据病历模板中不同主题及其关联内容对应的结构,确定槽位组结构体,还包括:
根据所述电子病历集中病历文本的内容类型,对所述病例文本进行病历模板类型划分;
根据不同病历模板中不同主题及其关联内容对应的结构,确定对应的槽位组结构体。
5.根据权利要求1所述的方法,其特征在于,得到所述各子句对应的结构化实体后,还包括:
对所述结构化实体进行有关联关系的键值对提取,获得实体关键词和所述实体关键词对应的数值。
6.根据权利要求1所述的方法,其特征在于,对划分得到的各子句进行依存句法分析,确定所述各子句中的实体以及所述实体的依存关系特征,包括:
根据预先训练的分词模型,对所述划分得到的各子句分别进行分词处理,获得所述各子句对应的子词;
根据预先训练的词性标注模型,对所述子词进行词性标注,获得标注词性的子词;
根据预先训练的依存句法分析模型,对所述标注词性的子词进行依存句法分析,确定所述各子句中的实体以及所述实体的依存关系特征,所述依存关系特征包括实体的词性特征和实体间的关联关系特征。
7.根据权利要求1所述的方法,其特征在于,根据所述实体的依存关系特征,提取各子句中符合预设依存关系的实体,并填充到预设实体结构的对应实体位置,得到所述各子句对应的结构化实体,包括:
确定与所述预设实体结构中不同实体位置,相匹配的实体的预设依存关系;
根据所述实体的依存关系特征,提取各子句中符合所述预设依存关系的实体;
将提取的实体填充到所述预设实体结构的对应实体位置,得到所述各子句对应的结构化实体。
8.一种电子病历结构化处理设备,其特征在于,包括存储器和处理器,其中:
所述存储器用于存储计算机程序;
所述处理器用于读取所述存储器中的程序并执行权利要求1~7任一所述的一种电子病历结构化处理方法。
9.一种电子病历结构化处理装置,其特征在于,包括:
病历获取单元,用于获取包括多个病历文本的电子病历集;
段落划分单元,用于根据预设的主题及与所述主题关联的内容的特征,解析所述病历文本中的主题及其关联的内容,并将解析的各主题及该主题关联的内容划分为段落;
子句处理单元,用于对各段落进行子句划分,并对划分得到的各子句进行依存句法分析,确定所述各子句中的实体以及所述实体的依存关系特征;
结构提取单元,用于根据所述实体的依存关系特征,提取各子句中符合预设依存关系的实体,并填充到预设实体结构的对应实体位置,得到所述各子句对应的结构化实体,所述预设实体结构包括不同实体位置且不同实体位置间存在预设依存关系。
10.一种计算机程序介质,其特征在于,其上存储有计算机程序,该程序被处理器执行时实现如权利要求1~7任一所述一种电子病历结构化处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011619887.4A CN114334049B (zh) | 2020-12-31 | 2020-12-31 | 一种电子病历结构化处理方法和装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011619887.4A CN114334049B (zh) | 2020-12-31 | 2020-12-31 | 一种电子病历结构化处理方法和装置及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114334049A true CN114334049A (zh) | 2022-04-12 |
CN114334049B CN114334049B (zh) | 2024-06-07 |
Family
ID=81032368
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011619887.4A Active CN114334049B (zh) | 2020-12-31 | 2020-12-31 | 一种电子病历结构化处理方法和装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114334049B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117174234A (zh) * | 2023-11-03 | 2023-12-05 | 南京都昌信息科技有限公司 | 医疗文本数据分析方法及系统 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106897568A (zh) * | 2017-02-28 | 2017-06-27 | 北京大数医达科技有限公司 | 病历结构化的处理方法和装置 |
CN107785075A (zh) * | 2017-11-01 | 2018-03-09 | 杭州依图医疗技术有限公司 | 基于文本病历的小儿发热疾病深度学习辅助诊断系统 |
CN108628824A (zh) * | 2018-04-08 | 2018-10-09 | 上海熙业信息科技有限公司 | 一种基于中文电子病历的实体识别方法 |
CN109166608A (zh) * | 2018-09-17 | 2019-01-08 | 新华三大数据技术有限公司 | 电子病历信息提取方法、装置和设备 |
CN109192255A (zh) * | 2018-07-03 | 2019-01-11 | 北京康夫子科技有限公司 | 病历结构化方法 |
CN110427491A (zh) * | 2019-07-04 | 2019-11-08 | 北京爱医生智慧医疗科技有限公司 | 一种基于电子病历的医学知识图谱构建方法及装置 |
KR20200003329A (ko) * | 2018-06-29 | 2020-01-09 | 김태정 | 자연어 처리 기반의 청크 구성 방법 및 장치 |
CN111090988A (zh) * | 2019-12-31 | 2020-05-01 | 南京新一代人工智能研究院有限公司 | 一种基于依存句法分析的医疗病历症状识别方法及其系统 |
CN111223539A (zh) * | 2019-12-30 | 2020-06-02 | 同济大学 | 中文电子病历的关系抽取方法 |
CN111326226A (zh) * | 2020-02-14 | 2020-06-23 | 腾讯科技(深圳)有限公司 | 电子病历的解析处理及显示方法、装置、设备及存储介质 |
CN111708874A (zh) * | 2020-08-24 | 2020-09-25 | 湖南大学 | 基于复杂意图智能识别的人机交互问答方法与系统 |
-
2020
- 2020-12-31 CN CN202011619887.4A patent/CN114334049B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106897568A (zh) * | 2017-02-28 | 2017-06-27 | 北京大数医达科技有限公司 | 病历结构化的处理方法和装置 |
CN107785075A (zh) * | 2017-11-01 | 2018-03-09 | 杭州依图医疗技术有限公司 | 基于文本病历的小儿发热疾病深度学习辅助诊断系统 |
CN108628824A (zh) * | 2018-04-08 | 2018-10-09 | 上海熙业信息科技有限公司 | 一种基于中文电子病历的实体识别方法 |
KR20200003329A (ko) * | 2018-06-29 | 2020-01-09 | 김태정 | 자연어 처리 기반의 청크 구성 방법 및 장치 |
CN109192255A (zh) * | 2018-07-03 | 2019-01-11 | 北京康夫子科技有限公司 | 病历结构化方法 |
CN109166608A (zh) * | 2018-09-17 | 2019-01-08 | 新华三大数据技术有限公司 | 电子病历信息提取方法、装置和设备 |
CN110427491A (zh) * | 2019-07-04 | 2019-11-08 | 北京爱医生智慧医疗科技有限公司 | 一种基于电子病历的医学知识图谱构建方法及装置 |
CN111223539A (zh) * | 2019-12-30 | 2020-06-02 | 同济大学 | 中文电子病历的关系抽取方法 |
CN111090988A (zh) * | 2019-12-31 | 2020-05-01 | 南京新一代人工智能研究院有限公司 | 一种基于依存句法分析的医疗病历症状识别方法及其系统 |
CN111326226A (zh) * | 2020-02-14 | 2020-06-23 | 腾讯科技(深圳)有限公司 | 电子病历的解析处理及显示方法、装置、设备及存储介质 |
CN111708874A (zh) * | 2020-08-24 | 2020-09-25 | 湖南大学 | 基于复杂意图智能识别的人机交互问答方法与系统 |
Non-Patent Citations (2)
Title |
---|
吕愿愿;邓永莉;刘明亮;崔宇佳;陆起涌;: "利用实体与依存句法结构特征的病历短文本分类方法", 中国医疗器械杂志, no. 04, 30 July 2016 (2016-07-30), pages 425 - 249 * |
田驰远;陈德华;王梅;乐嘉锦;: "基于依存句法分析的病理报告结构化处理方法", 计算机研究与发展, no. 12, 15 December 2016 (2016-12-15), pages 2669 - 2680 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117174234A (zh) * | 2023-11-03 | 2023-12-05 | 南京都昌信息科技有限公司 | 医疗文本数据分析方法及系统 |
CN117174234B (zh) * | 2023-11-03 | 2024-01-05 | 南京都昌信息科技有限公司 | 医疗文本数据分析方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114334049B (zh) | 2024-06-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Dalianis | Clinical text mining: Secondary use of electronic patient records | |
CN112597774B (zh) | 中文医疗命名实体识别方法、系统、存储介质和设备 | |
Uzuner et al. | Evaluating the state-of-the-art in automatic de-identification | |
WO2023029506A1 (zh) | 病情分析方法、装置、电子设备及存储介质 | |
Huang et al. | Improved identification of noun phrases in clinical radiology reports using a high-performance statistical natural language parser augmented with the UMLS specialist lexicon | |
Porturas et al. | Forty years of emergency medicine research: Uncovering research themes and trends through topic modeling | |
CN105184053B (zh) | 一种中文医疗服务项目信息的自动编码方法及系统 | |
Báez et al. | The Chilean Waiting List Corpus: a new resource for clinical named entity recognition in Spanish | |
Friedman et al. | Natural language and text processing in biomedicine | |
Tang et al. | Detecting adverse drug reactions in discharge summaries of electronic medical records using Readpeer | |
Zhu et al. | Detecting concept relations in clinical text: Insights from a state-of-the-art model | |
Holzinger et al. | Semantic Information in Medical Information Systems: Utilization of Text Mining Techniques to Analyze Medical Diagnoses. | |
Piad-Morffis et al. | A corpus to support ehealth knowledge discovery technologies | |
Grossman et al. | A method for harmonization of clinical abbreviation and acronym sense inventories | |
Chen et al. | Semantic analysis of free text and its application on automatically assigning ICD-9-CM codes to patient records | |
Dornescu et al. | Relative clause extraction for syntactic simplification | |
CN114334049B (zh) | 一种电子病历结构化处理方法和装置及设备 | |
CN116992839B (zh) | 病案首页自动生成方法、装置及设备 | |
Tiwari et al. | Experience and Evidence are the eyes of an excellent summarizer! Towards Knowledge Infused Multi-modal Clinical Conversation Summarization | |
Chapman et al. | Anaphoric reference in clinical reports: characteristics of an annotated corpus | |
Liu et al. | Extracting patient demographics and personal medical information from online health forums | |
Avdić et al. | Normalization of Health Records in the Serbian Language with the Aim of Smart Health Services Realization | |
Nair et al. | Automated clinical concept-value pair extraction from discharge summary of pituitary adenoma patients | |
Roberts et al. | Toward a natural language interface for EHR questions | |
Ghoulam et al. | Using local grammar for entity extraction from clinical reports |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |