CN111755091B - 一种电子病历的处理方法及装置 - Google Patents
一种电子病历的处理方法及装置 Download PDFInfo
- Publication number
- CN111755091B CN111755091B CN202010598583.8A CN202010598583A CN111755091B CN 111755091 B CN111755091 B CN 111755091B CN 202010598583 A CN202010598583 A CN 202010598583A CN 111755091 B CN111755091 B CN 111755091B
- Authority
- CN
- China
- Prior art keywords
- medical record
- electronic medical
- chapter
- information
- type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title abstract description 8
- 238000000605 extraction Methods 0.000 claims abstract description 80
- 238000013145 classification model Methods 0.000 claims abstract description 23
- 238000012545 processing Methods 0.000 claims abstract description 18
- 238000001514 detection method Methods 0.000 claims description 29
- 238000000034 method Methods 0.000 claims description 24
- 238000012795 verification Methods 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 10
- 230000011218 segmentation Effects 0.000 claims description 9
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 7
- 201000010099 disease Diseases 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000002372 labelling Methods 0.000 claims description 3
- 230000010354 integration Effects 0.000 claims description 2
- 239000000284 extract Substances 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 7
- 206010020772 Hypertension Diseases 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000036772 blood pressure Effects 0.000 description 3
- 238000012937 correction Methods 0.000 description 3
- 230000036760 body temperature Effects 0.000 description 2
- 230000000391 smoking effect Effects 0.000 description 2
- 235000002256 Diospyros oleifera Nutrition 0.000 description 1
- 244000153389 Diospyros oleifera Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Public Health (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Epidemiology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明提供了一种电子病历的处理方法及装置,通过调用电子病历分类模型对电子病历进行准确分类,并在此基础上,根据电子病历的类型对电子病历的章节进行准确拆分,从章节维度进行信息抽取,避免由于电子病历数据错乱导致从电子病历类别的维度进行信息抽取时导致的信息抽取错漏问题,提高了对电子病历进行信息抽取的准确性。
Description
技术领域
本发明涉及数据处理技术领域,更具体的,涉及一种电子病历的处理方法及装置。
背景技术
随着医院信息化建设的不断完善,医院的各个业务系统都会产生大量的临床数据,对于医院产生的最重要的临床研究数据-电子病历数据,其包含着巨大的临床研究价值。但是由于电子病历数据往往是非结构化的数据,很难直接进行应用,为了充分挖掘电子病历中的临床研究价值,需要对电子病历数据进行结构化的处理,从而进行精准的信息抽取工作。
根据电子病历的书写规范,对于住院和门诊的就诊患者,在电子病历系统中往往产生不同的类型的电子病历,不同类型的电子病历具有不同的类别编码,其记录的内容具有一定的差异性。为了对电子病历中的数据进行准确抽取,一般会先根据电子病历的类别编码确定电子病历的类型,然后采用相应的信息抽取方法对电子病历进行信息抽取。
但是在医院电子病历系统的实际应用过程中,很多电子病历存在大量的错乱数据,在一个电子病历中可能存在多种类型的病历数据,例如,出院记录中既有出院记录又有手术记录。因此,仅根据电子病历的类别编码无法对电子病历进行准确分类,从而导致无法准确对电子病历进行信息抽取。
发明内容
有鉴于此,本发明提供了一种电子病历的处理方法及装置,通过对电子病历进行准确分类和章节拆分,提高信息抽取的准确性。
为了实现上述发明目的,本发明提供的具体技术方案如下:
一种电子病历的处理方法,包括:
调用电子病历分类模型,确定电子病历的类型;
根据电子病历的类型,对电子病历的章节进行拆分,得到电子病历的章节信息;
分别调用与章节信息类型相对应的信息抽取模型对每个章节信息进行信息抽取;
将每个章节信息的抽取结果进行整合,得到电子病历的结构化数据。
可选的,所述调用电子病历分类模型,确定电子病历的类型,包括:
对电子病历进行预处理,将电子病历转化为预设格式的电子病历;
提取预设格式的电子病历的文本主题特征;
将提取到的文本主题特征输入到病历分类模型中进行处理,得到电子病历的类型,所述病历分类模型为预先利用病历分类训练样本对预设分类器进行后训练得到的。
可选的,所述根据电子病历的类型,对电子病历的章节进行拆分,得到电子病历的章节信息,包括:
删除电子病历中的非必要信息,得到待拆分电子病历;
采用与所述电子病历的类型相对应的章节拆分规则,对所述待拆分电子病历进行章节拆分,得到电子病历的章节信息。
可选的,所述根据电子病历的类型,对电子病历的章节进行拆分,得到电子病历的章节信息,包括:
在采用与所述电子病历的类型相对应的章节拆分规则无法得到章节信息的情况下,调用与所述电子病历的类型相对应的章节分割模型,对所述待拆分电子病历进行章节拆分,得到电子病历的章节信息。
可选的,所述调用与所述电子病历的类型相对应的章节分割模型,对所述待拆分电子病历进行章节拆分,得到电子病历的章节信息,包括:
将所述待拆分电子病历输入与所述电子病历的类型相对应的章节分割模型,将所述待拆分电子病历进行切分,得到多个句子;
分别对每个句子进行文本分类,得到每个句子的索引和预测章节标签;
依据每个句子的索引的顺序,将预测章节标签相同的句子进行合并,得到与预测章节标签相对应的章节信息。
可选的,所述分别调用与章节信息类型相对应的信息抽取模型对每个章节信息进行信息抽取,包括:
分别对每个章节信息进行错别字校验;
分别调用与章节信息类型相对应的信息抽取模型,识别错别字校验后的章节信息中的实体,并建立实体之间的关系。
可选的,所述分别调用与章节信息类型相对应的信息抽取模型对每个章节信息进行信息抽取,包括:
在调用与章节信息类型相对应的信息抽取模型无法对章节信息进行抽取的情况下,利用预设规则抽取方式抽取规则性实体。
可选的,在所述分别调用与章节信息类型相对应的信息抽取模型对每个章节信息进行信息抽取之后,所述方法还包括:
对抽取到的章节信息进行语义逻辑检测,并将检测到的错误信息进行标注。
可选的,所述对抽取到的章节信息进行语义逻辑检测,并将检测到的错误信息进行标注,包括:
对抽取到的章节信息中同一类实体中同一实例的前后文抽取结果进行一致性性检测,并将检测到的错误信息进行标注;
对抽取到的章节信息中每类实体中的每个实例的取值进行合法性检测,并将检测到的错误信息进行标注。
一种电子病历的处理装置,包括:
病历分类单元,用于调用电子病历分类模型,确定电子病历的类型;
章节拆分单元,用于根据电子病历的类型,对电子病历的章节进行拆分,得到电子病历的章节信息;
信息抽取单元,用于分别调用与章节信息类型相对应的信息抽取模型对每个章节信息进行信息抽取;
信息整合单元,用于将每个章节信息的抽取结果进行整合,得到电子病历的结构化数据。
可选的,所述病历分类单元,具体用于:
对电子病历进行预处理,将电子病历转化为预设格式的电子病历;
提取预设格式的电子病历的文本主题特征;
将提取到的文本主题特征输入到病历分类模型中进行处理,得到电子病历的类型,所述病历分类模型为预先利用病历分类训练样本对预设分类器进行后训练得到的。
可选的,所述章节拆分单元,具体用于:
删除电子病历中的非必要信息,得到待拆分电子病历;
采用与所述电子病历的类型相对应的章节拆分规则,对所述待拆分电子病历进行章节拆分,得到电子病历的章节信息。
可选的,所述章节拆分单元,还用于:
在采用与所述电子病历的类型相对应的章节拆分规则无法得到章节信息的情况下,调用与所述电子病历的类型相对应的章节分割模型,对所述待拆分电子病历进行章节拆分,得到电子病历的章节信息。
可选的,所述章节拆分单元,具体用于:
将所述待拆分电子病历输入与所述电子病历的类型相对应的章节分割模型,将所述待拆分电子病历进行切分,得到多个句子;
分别对每个句子进行文本分类,得到每个句子的索引和预测章节标签;
依据每个句子的索引的顺序,将预测章节标签相同的句子进行合并,得到与预测章节标签相对应的章节信息。
可选的,所述信息抽取单元,具体用于:
分别对每个章节信息进行错别字校验;
分别调用与章节信息类型相对应的信息抽取模型,识别错别字校验后的章节信息中的实体,并建立实体之间的关系。
可选的,所述信息抽取单元,还用于:
在调用与章节信息类型相对应的信息抽取模型无法对章节信息进行抽取的情况下,利用预设规则抽取方式抽取规则性实体。
可选的,所述装置还包括:
逻辑检测单元,用于在所述分别调用与章节信息类型相对应的信息抽取模型对每个章节信息进行信息抽取之后,对抽取到的章节信息进行语义逻辑检测,并将检测到的错误信息进行标注。
可选的,所述逻辑检测单元,具体用于:
对抽取到的章节信息中同一类实体中同一实例的前后文抽取结果进行一致性性检测,并将检测到的错误信息进行标注;
对抽取到的章节信息中每类实体中的每个实例的取值进行合法性检测,并将检测到的错误信息进行标注。
相对于现有技术,本发明的有益效果如下:
本发明公开的一种电子病历的处理方法,通过调用电子病历分类模型对电子病历进行准确分类,并在此基础上,根据电子病历的类型对电子病历的章节进行准确拆分,从章节维度进行信息抽取,避免由于电子病历数据错乱导致从电子病历类别的维度进行信息抽取时导致的信息抽取错漏问题,提高了对电子病历进行信息抽取的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例公开的一种电子病历的处理方法的流程示意图;
图2为本发明实施例公开的一种电子病历的分类示意图;
图3为本发明实施例公开的一种章节之间划分比较清晰的电子病历示意图;
图4为本发明实施例公开的一种章节之间划分比较清晰的电子病历的章节拆分结果示意图;
图5为本发明实施例公开的一种章节混合的电子病历示意图;
图6为本发明实施例公开的一种章节混合的电子病历的章节拆分结果示意图;
图7为本发明实施例公开的标注错误信息的抽取结果示意图;
图8为本发明实施例公开的一种电子病历的处理装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了提高对电子病历进行信息抽取的准确率,本发明提供了一种电子病历的处理方法,在对电子病历进行准确分类的基础上,根据电子病历的类型对电子病历的章节进行准确拆分,从章节维度进行信息抽取,最后将每个章节信息的抽取结果进行整合,得到电子病历的结构化数据。
具体的,请参阅图1,本实施例公开的一种电子病历的处理方法包括以下步骤:
S101:调用电子病历分类模型,确定电子病历的类型;
电子病历系统中的电子病历一般为HTML格式的,为了便于对电子病历的处理,需要对电子病历系统中导出的电子病历进行预处理,将电子病历转化为预设格式的电子病历,如将HTML格式的电子病历转化为TEXT格式的电子病历。
然后,提取预设格式的电子病历的文本主题特征,将提取到的文本主题特征输入到病历分类模型中进行处理,得到电子病历的类型,其中,病历分类模型为预先利用病历分类训练样本对预设分类器进行后训练得到的。
如图2所示,左侧是电子病历的内容,右侧为利用病历分类模型预测到的电子病历类型,本实施例可以确定电子病历系统中的所有电子病历所对应的电子病历类型。
S102:根据电子病历的类型,对电子病历的章节进行拆分,得到电子病历的章节信息;
格式转换后的电子病历中可能存在页眉、页脚等非必要信息,为了便于后续的章节拆分,需要预先删除电子病历中的非必要信息,得到待拆分电子病历。
对于如图3所示的章节之间划分比较清晰的电子病历,可以采用与电子病历的类型相对应的章节拆分规则,对待拆分电子病历进行章节拆分,如根据章节之间的分隔符,对电子病历进行章节拆分,如将入院记录的主诉、现病史、既往史、家族史、婚育史等章节进行准确拆分,拆分后的章节信息如图4所示。
对于如图5所示的章节混合的电子病历,需要调用与所述电子病历的类型相对应的章节分割模型,对所述待拆分电子病历进行章节拆分,得到电子病历的章节信息。
具体的,将所述待拆分电子病历输入与所述电子病历的类型相对应的章节分割模型,按句号将所述待拆分电子病历进行切分,得到多个句子,分别对每个句子进行文本分类,得到每个句子的索引和预测章节标签,依据每个句子的索引的顺序,将预测章节标签相同的句子进行合并,得到与预测章节标签相对应的章节信息。
例如:对于一个存在8句话的电子病历,其预测章节标签序列:[(1,“主诉”),(2,“现病史”),(3,“现病史”),(4,“现病史”),(5,“现病史”),(6,“现病史”),(7,“体格检查”),(8,“体格检查”)],标签序列中括号对应的(句子索引,预测章节标签),其合并的具体结果为主诉、现病史、体格检查章节,最终得到的拆分后的章节信息如图6所示。
S103:分别调用与章节信息类型相对应的信息抽取模型对每个章节信息进行信息抽取;
在实际应用中,电子病历中经常会出现错别字,错别字将影响后续的信息抽取,为了解决由于错别字引起的信息抽取错漏,本实施例在对每个章节信息进行信息抽取之前,分别对每个章节信息进行错别字校验,对章节信息中的错别字进行修正。
考虑到医疗领域对抽取结果的准确性的要求比较高,因此错别字校验过程中,必须要保证错别字检测的准确率。本实施例采用了错别字词典纠错方式,使用中文文本纠错工具pycorrector,并添加了医疗领域常见的错别字和修正字词典,实现对各个章节信息的错别字检测和修正。
在此基础上,分别调用与章节信息类型相对应的信息抽取模型,识别错别字校验后的章节信息中的实体,并建立实体之间的关系。
在调用与章节信息类型相对应的信息抽取模型无法对章节信息进行抽取的情况下,如部分不能够通过分词得到的实体或者较简单的数值信息数据,本实施例利用预设规则抽取方式抽取规则性实体。
规则性实体为规律性较强的实体内容,如电子病历中对体征信息的描述,体温37.2℃,脉搏60次/分,考虑到这样的数据具有很强的规则性,而且采用规则的方式速度很快,所以综合效果和性能两个方面,本实施例采用规则的方式抽取该类数据。预先设定体温、身高、脉搏、血压等规则抽取方式,抽取这些规则性实体。
发明人通过研究发现:在实际的电子病历内容中,存在一些前后语义描述存在矛盾的问题或者因书写问题导致病历内容描述不符合实际逻辑,抽取到的信息在后续分析使用中将存在问题,为了解决这一技术问题,本实施例对抽取到的章节信息进行语义逻辑检测,并将检测到的错误信息进行标注。
语义逻辑检测主要包括一致性检测和合法性检测,一致性检测为对抽取到的章节信息中同一类实体中同一实例的前后文抽取结果进行一致性性检测,如对于疾病实体中出现的高血压实例来说,如果前面说了高血压3年,后面又否认高血压,则说明抽取到的高血压这个结果存在语义逻辑冲突的,需要对这个抽取结果进行抽取逻辑错误标识。合法性检测为对抽取到的章节信息中每类实体中的每个实例的取值进行合法性检测,对于病历中常见的抽取结果实例中,设定值域范围,如果超出这个范围,则认为存在逻辑错误。例如,患者血压15090mmHg,导致抽取血压结果是15090,这样的结果往往不符合逻辑,对于这样的变量直接根据规定的值域进行校验,如果不符合实际逻辑的,则直接标记为抽取逻辑错误。
将病历内容中存在问题的抽取结果,可以用特殊字段进行标注,具体如下述示例;
对于个人史章节,“生于山东省,久居本地,无疫水,疫源接触史。否认冶游史。无性病。吸烟500年。”,描述了吸烟500年,是一个明显的逻辑错误,我们则对抽取的结果进行逻辑校验,存在逻辑错误的抽取结果,则需要将其放入到相应的抽取字段,默认情况下是原始字段+”_error”来描述存在逻辑错误的抽取结果,具体如图7所示。
后续工作人员可以根据标注的错误进行修正,或系统自动将错误信息修改为与错误信息类型相对应的默认值。
S104:将每个章节信息的抽取结果进行整合,得到电子病历的结构化数据。
对于每个章节信息抽取的结果合并之后得到最终结果所示:
可见,本实施例公开的一种电子病历的处理方法,通过调用电子病历分类模型对电子病历进行准确分类,并在此基础上,根据电子病历的类型对电子病历的章节进行准确拆分,从章节维度进行信息抽取,避免由于电子病历数据错乱导致从电子病历类别的维度进行信息抽取时导致的信息抽取错漏问题,并通过错别字校验、语义逻辑检测,进一步提高了对电子病历进行信息抽取的准确性。
基于上述实施例公开的一种电子病历的处理方法,本实施例对应公开了一种电子病历的处理装置,请参阅图8,该装置包括:
病历分类单元100,用于调用电子病历分类模型,确定电子病历的类型;
章节拆分单元200,用于根据电子病历的类型,对电子病历的章节进行拆分,得到电子病历的章节信息;
信息抽取单元300,用于分别调用与章节信息类型相对应的信息抽取模型对每个章节信息进行信息抽取;
信息整合单元400,用于将每个章节信息的抽取结果进行整合,得到电子病历的结构化数据。
可选的,所述病历分类单元100,具体用于:
对电子病历进行预处理,将电子病历转化为预设格式的电子病历;
提取预设格式的电子病历的文本主题特征;
将提取到的文本主题特征输入到病历分类模型中进行处理,得到电子病历的类型,所述病历分类模型为预先利用病历分类训练样本对预设分类器进行后训练得到的。
可选的,所述章节拆分单元200,具体用于:
删除电子病历中的非必要信息,得到待拆分电子病历;
采用与所述电子病历的类型相对应的章节拆分规则,对所述待拆分电子病历进行章节拆分,得到电子病历的章节信息。
可选的,所述章节拆分单元200,还用于:
在采用与所述电子病历的类型相对应的章节拆分规则无法得到章节信息的情况下,调用与所述电子病历的类型相对应的章节分割模型,对所述待拆分电子病历进行章节拆分,得到电子病历的章节信息。
可选的,所述章节拆分单元200,具体用于:
将所述待拆分电子病历输入与所述电子病历的类型相对应的章节分割模型,将所述待拆分电子病历进行切分,得到多个句子;
分别对每个句子进行文本分类,得到每个句子的索引和预测章节标签;
依据每个句子的索引的顺序,将预测章节标签相同的句子进行合并,得到与预测章节标签相对应的章节信息。
可选的,所述信息抽取单元300,具体用于:
分别对每个章节信息进行错别字校验;
分别调用与章节信息类型相对应的信息抽取模型,识别错别字校验后的章节信息中的实体,并建立实体之间的关系。
可选的,所述信息抽取单元300,还用于:
在调用与章节信息类型相对应的信息抽取模型无法对章节信息进行抽取的情况下,利用预设规则抽取方式抽取规则性实体。
可选的,所述装置还包括:
逻辑检测单元,用于在所述分别调用与章节信息类型相对应的信息抽取模型对每个章节信息进行信息抽取之后,对抽取到的章节信息进行语义逻辑检测,并将检测到的错误信息进行标注。
可选的,所述逻辑检测单元,具体用于:
对抽取到的章节信息中同一类实体中同一实例的前后文抽取结果进行一致性性检测,并将检测到的错误信息进行标注;
对抽取到的章节信息中每类实体中的每个实例的取值进行合法性检测,并将检测到的错误信息进行标注。
本实施例公开的一种电子病历的处理装置,通过调用电子病历分类模型对电子病历进行准确分类,并在此基础上,根据电子病历的类型对电子病历的章节进行准确拆分,从章节维度进行信息抽取,避免由于电子病历数据错乱导致从电子病历类别的维度进行信息抽取时导致的信息抽取错漏问题,提高了对电子病历进行信息抽取的准确性。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (7)
1.一种电子病历的处理方法,其特征在于,包括:
调用电子病历分类模型,确定电子病历的类型;
根据电子病历的类型,对电子病历的章节进行拆分,得到电子病历的章节信息;
其中,所述根据电子病历的类型,对电子病历的章节进行拆分,得到电子病历的章节信息,包括:删除电子病历中的非必要信息,得到待拆分电子病历;所述非必要信息包括页眉和页脚;采用与所述电子病历的类型相对应的章节拆分规则,对所述待拆分电子病历进行章节拆分,得到电子病历的章节信息;当所述待拆分电子病历为章节混合的电子病历时,将所述待拆分电子病历输入与所述电子病历的类型相对应的章节分割模型,将所述待拆分电子病历进行切分,得到多个句子;分别对每个句子进行文本分类,得到每个句子的索引和预测章节标签;依据每个句子的索引的顺序,将预测章节标签相同的句子进行合并,得到与预测章节标签相对应的章节信息;
分别调用与章节信息类型相对应的信息抽取模型对每个章节信息进行信息抽取;
将每个章节信息的抽取结果进行整合,得到电子病历的结构化数据。
2.根据权利要求1所述的方法,其特征在于,所述调用电子病历分类模型,确定电子病历的类型,包括:
对电子病历进行预处理,将电子病历转化为预设格式的电子病历;
提取预设格式的电子病历的文本主题特征;
将提取到的文本主题特征输入到病历分类模型中进行处理,得到电子病历的类型,所述病历分类模型为预先利用病历分类训练样本对预设分类器进行后训练得到的。
3.根据权利要求1所述的方法,其特征在于,所述分别调用与章节信息类型相对应的信息抽取模型对每个章节信息进行信息抽取,包括:
分别对每个章节信息进行错别字校验;
分别调用与章节信息类型相对应的信息抽取模型,识别错别字校验后的章节信息中的实体,并建立实体之间的关系。
4.根据权利要求3所述的方法,其特征在于,所述分别调用与章节信息类型相对应的信息抽取模型对每个章节信息进行信息抽取,包括:
在调用与章节信息类型相对应的信息抽取模型无法对章节信息进行抽取的情况下,利用预设规则抽取方式抽取规则性实体。
5.根据权利要求4所述的方法,其特征在于,在所述分别调用与章节信息类型相对应的信息抽取模型对每个章节信息进行信息抽取之后,所述方法还包括:
对抽取到的章节信息进行语义逻辑检测,并将检测到的错误信息进行标注。
6.根据权利要求5所述的方法,其特征在于,所述对抽取到的章节信息进行语义逻辑检测,并将检测到的错误信息进行标注,包括:
对抽取到的章节信息中同一类实体中同一实例的前后文抽取结果进行一致性性检测,并将检测到的错误信息进行标注;
对抽取到的章节信息中每类实体中的每个实例的取值进行合法性检测,并将检测到的错误信息进行标注。
7.一种电子病历的处理装置,其特征在于,包括:
病历分类单元,用于调用电子病历分类模型,确定电子病历的类型;
章节拆分单元,用于根据电子病历的类型,对电子病历的章节进行拆分,得到电子病历的章节信息;
其中,所述章节拆分单元,具体用于:删除电子病历中的非必要信息,得到待拆分电子病历;所述非必要信息包括页眉和页脚;采用与所述电子病历的类型相对应的章节拆分规则,对所述待拆分电子病历进行章节拆分,得到电子病历的章节信息;当所述待拆分电子病历为章节混合的电子病历时,将所述待拆分电子病历输入与所述电子病历的类型相对应的章节分割模型,将所述待拆分电子病历进行切分,得到多个句子;分别对每个句子进行文本分类,得到每个句子的索引和预测章节标签;依据每个句子的索引的顺序,将预测章节标签相同的句子进行合并,得到与预测章节标签相对应的章节信息;
信息抽取单元,用于分别调用与章节信息类型相对应的信息抽取模型对每个章节信息进行信息抽取;
信息整合单元,用于将每个章节信息的抽取结果进行整合,得到电子病历的结构化数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010598583.8A CN111755091B (zh) | 2020-06-28 | 2020-06-28 | 一种电子病历的处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010598583.8A CN111755091B (zh) | 2020-06-28 | 2020-06-28 | 一种电子病历的处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111755091A CN111755091A (zh) | 2020-10-09 |
CN111755091B true CN111755091B (zh) | 2024-02-27 |
Family
ID=72677639
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010598583.8A Active CN111755091B (zh) | 2020-06-28 | 2020-06-28 | 一种电子病历的处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111755091B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101236579A (zh) * | 2008-02-20 | 2008-08-06 | 杭州创业软件股份有限公司 | 一种动态结构化的电子病历 |
CN101587518A (zh) * | 2009-07-03 | 2009-11-25 | 深圳市宝安区人民医院 | 一种实现数字化病案分类管理的方法 |
CN107391933A (zh) * | 2017-07-24 | 2017-11-24 | 山东中关创业信息科技股份有限公司 | 一种电子病历质量控制管理装置及方法 |
CN107578798A (zh) * | 2017-10-26 | 2018-01-12 | 北京康夫子科技有限公司 | 电子病历的处理方法及系统 |
WO2018031628A1 (en) * | 2016-08-09 | 2018-02-15 | Ripcord, Inc. | Systems and methods for electronic records tagging |
CN107833603A (zh) * | 2017-11-13 | 2018-03-23 | 医渡云(北京)技术有限公司 | 电子病历文档分类方法、装置、电子设备及存储介质 |
CN108920706A (zh) * | 2018-07-20 | 2018-11-30 | 吴怡 | 一种法律意见咨询数据库及其构建方法 |
CN109002538A (zh) * | 2018-07-20 | 2018-12-14 | 吴怡 | 基于数据库的法律咨询云平台及方法 |
CN109101520A (zh) * | 2018-06-12 | 2018-12-28 | 中车青岛四方机车车辆股份有限公司 | 一种电子手册和电子手册的显示方法 |
CA3009280A1 (en) * | 2017-06-30 | 2018-12-30 | Accenture Global Solutions Limited | Automatic identification and extraction of medical conditions and evidences from electronic health records |
CN111223539A (zh) * | 2019-12-30 | 2020-06-02 | 同济大学 | 中文电子病历的关系抽取方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11461785B2 (en) * | 2008-07-10 | 2022-10-04 | Ron M. Redlich | System and method to identify, classify and monetize information as an intangible asset and a production model based thereon |
JP6143437B2 (ja) * | 2012-11-12 | 2017-06-07 | キヤノン株式会社 | 情報処理装置および情報処理方法 |
-
2020
- 2020-06-28 CN CN202010598583.8A patent/CN111755091B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101236579A (zh) * | 2008-02-20 | 2008-08-06 | 杭州创业软件股份有限公司 | 一种动态结构化的电子病历 |
CN101587518A (zh) * | 2009-07-03 | 2009-11-25 | 深圳市宝安区人民医院 | 一种实现数字化病案分类管理的方法 |
WO2018031628A1 (en) * | 2016-08-09 | 2018-02-15 | Ripcord, Inc. | Systems and methods for electronic records tagging |
CA3009280A1 (en) * | 2017-06-30 | 2018-12-30 | Accenture Global Solutions Limited | Automatic identification and extraction of medical conditions and evidences from electronic health records |
CN107391933A (zh) * | 2017-07-24 | 2017-11-24 | 山东中关创业信息科技股份有限公司 | 一种电子病历质量控制管理装置及方法 |
CN107578798A (zh) * | 2017-10-26 | 2018-01-12 | 北京康夫子科技有限公司 | 电子病历的处理方法及系统 |
CN107833603A (zh) * | 2017-11-13 | 2018-03-23 | 医渡云(北京)技术有限公司 | 电子病历文档分类方法、装置、电子设备及存储介质 |
CN109101520A (zh) * | 2018-06-12 | 2018-12-28 | 中车青岛四方机车车辆股份有限公司 | 一种电子手册和电子手册的显示方法 |
CN108920706A (zh) * | 2018-07-20 | 2018-11-30 | 吴怡 | 一种法律意见咨询数据库及其构建方法 |
CN109002538A (zh) * | 2018-07-20 | 2018-12-14 | 吴怡 | 基于数据库的法律咨询云平台及方法 |
CN111223539A (zh) * | 2019-12-30 | 2020-06-02 | 同济大学 | 中文电子病历的关系抽取方法 |
Non-Patent Citations (3)
Title |
---|
基于引用内容与位置的共被引分析改进研究;刘盛博;张春博;丁踉蛟;情报学报(12);18-26 * |
基于碎片重组的动态数字出版模型研究;温有奎;;数字图书馆论坛(04);4-10 * |
自底向上的Web数据抽取方法研究;刘桐;中国优秀硕士学位论文全文数据库信息科技辑(第3期);I138-816 * |
Also Published As
Publication number | Publication date |
---|---|
CN111755091A (zh) | 2020-10-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10706228B2 (en) | Heuristic domain targeted table detection and extraction technique | |
CN107562732B (zh) | 电子病历的处理方法及系统 | |
CN107644011B (zh) | 用于细粒度医疗实体提取的系统和方法 | |
US10650192B2 (en) | Method and device for recognizing domain named entity | |
US11200412B2 (en) | Method and system for generating parsed document from digital document | |
CN112464667A (zh) | 文本的实体识别方法、装置、电子设备和存储介质 | |
CN109299467B (zh) | 医学文本识别方法及装置、语句识别模型训练方法及装置 | |
CN112287664B (zh) | 文本指标数据解析方法、系统及相应设备和存储介质 | |
Fischbach et al. | Towards causality extraction from requirements | |
Sarkhel et al. | Improving information extraction from visually rich documents using visual span representations | |
CN113515587B (zh) | 一种标的物信息提取方法、装置、计算机设备及存储介质 | |
CN111104481A (zh) | 一种识别匹配字段的方法、装置及设备 | |
CN110534170A (zh) | 数据处理方法、装置、电子设备及计算机可读存储介质 | |
CN112749277B (zh) | 医学数据的处理方法、装置及存储介质 | |
Klampfl et al. | Machine learning techniques for automatically extracting contextual information from scientific publications | |
CN111755091B (zh) | 一种电子病历的处理方法及装置 | |
CN116306655A (zh) | 基于汉字字形和词语边界特征的命名实体识别方法及系统 | |
CN113723085B (zh) | 一种隐私政策文档中伪模糊检测方法 | |
CN112818687B (zh) | 一种用于构建标题识别模型的方法、装置、电子设备以及存储介质 | |
CN112883717A (zh) | 一种错别字检测方法及装置 | |
Redd et al. | A pilot study of a heuristic algorithm for novel template identification from VA electronic medical record text | |
CN112735543A (zh) | 医学数据的处理方法、装置及存储介质 | |
CN112151186A (zh) | 一种在医疗文本中提取疾病诱因、病因的方法及装置及系统 | |
CN110704639A (zh) | 一种缩略语文档的生成方法及装置 | |
CN111209754B (zh) | 一种用于越南语实体识别的数据集构造方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |