CN109509557A - 一种基于大数据平台的中文电子病历信息抽取预处理方法 - Google Patents
一种基于大数据平台的中文电子病历信息抽取预处理方法 Download PDFInfo
- Publication number
- CN109509557A CN109509557A CN201811363273.7A CN201811363273A CN109509557A CN 109509557 A CN109509557 A CN 109509557A CN 201811363273 A CN201811363273 A CN 201811363273A CN 109509557 A CN109509557 A CN 109509557A
- Authority
- CN
- China
- Prior art keywords
- electronic health
- health record
- file
- different
- corpus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Public Health (AREA)
- Pathology (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种基于大数据平台的中文电子病历信息抽取预处理方法,属于大数据技术领域,通过对非结构化的电子病历进行预处理,使用文本分割,判定非结构化的电子病历所属类别,并根据不同的类别再次分解为部分,最终形成按照业务逻辑分解为HIVE表字段的分区表;根据不同标注设计,分别输出预标注语料,解决了快速方便的进行语料标注的技术问题,本发明通过合理设计的信息预处理,利用大数据技术,能够极大提高语料标注的效率。
Description
技术领域
本发明属于大数据技术领域,特别涉及一种基于大数据平台的中文电子病历信息抽取预处理方法。
背景技术
在医疗领域中,临床一线积累下的大量珍贵数据蕴藏在非结构化的电子病历中,电子病历信息抽取是智慧医疗应用开发的基础,主要技术为规则和统计相结合的自然语言处理,其中统计的核心算法正逐渐迁移到深度学习平台。
目前现有技术中,部分研究机构、软件厂商在测试数据集上取得了不错的成绩,但普遍面临着几个问题:医学语料标注工作量大、效率低;缺乏海量数据的实践检验;模型泛化性不高,其精确率、召回率、F1值一般限定于某一科室,某一医院。
发明内容
本发明的目的是提供一种基于大数据平台的中文电子病历信息抽取预处理方法,解决了快速方便的进行语料标注的技术问题。
为实现上述目的,本发明采用以下技术方案:
一种基于大数据平台的中文电子病历信息抽取预处理方法,包括如下步骤:
步骤1:建立HDFS数据平台,在HDFS数据平台中汇集EMR、HIS和LIS中的非结构化的电子病历;
步骤2:对非结构化的电子病历进行预处理,使用文本分割,判定非结构化的电子病历所属类别,并根据不同的类别再次分解为部分,最终形成按照业务逻辑分解为HIVE表字段的分区表;根据不同标注设计,分别输出预标注语料,其具体步骤如下:
步骤S1:合并文件导入HDFS:首先进行隐形信息识别,隐形信息包括文件名为住院号和文件路径名为年月的信息;其次,对非结构化的电子病历的文本中回车符号替换成预定的不可见特殊字符;再次,将批量电子病历的文本进行合并;最后导入到HDFS中,形成合并后的EMR文件;
步骤S2:文本分割:首先,读取步骤S1中获得的合并后的EMR文件,确定其文件所属分类,文件所属分类包括入院记录、病程记录、出院记录、诊断证明书和手术记录;其次,根据不同分类,进行划分部分,最后形成分割后文件;
步骤S3:导入HIVE:首先,按照年份、月份、类别进行分区设计;其次,将文件导入到HIVE中,形成有元数据描述表结构;再次,使用join方式与其他结构数据关联;再次,补充或完善其他元数据信息;最后,形成按照不同分割类型对应的各类字段的HIVE表;
步骤S4:导出预标注语料:预置不同场景的SQL语句,使用SPARK-SQL数据库软件将数据按照不同的分类部分进行导出,形成预标注语料;或是按照科室、疾病的方式导出,形成预标注语料;
步骤3:语料标注:首先按照电子病历的分布特点选择需要标注的电子病历,其次采用人工标注按照规范对电子病历进行标注,最后生成各类标注语料;
步骤4:模型训练:依据不同的标注语料分别进行模型训练,即,使用LSTM+CRF模型训练包括分词模型训练、实体识别模型训练和语义模型训练;
步骤5:信息抽取:首先将非结构化的电子病历进行段落文本分割,其次将不同的电子病历文本段带入对应训练模型进行分析,最后将非结构化电子病历生成结构化数据。
在执行步骤S2时,文本分割部分在信息抽取过程仍需要负责段落、句子分割以及选择不同模型解析文本的功能。
本发明所述的一种基于大数据平台的中文电子病历信息抽取预处理方法,解决了快速方便的进行语料标注的技术问题,本发明通过合理设计的信息预处理,利用大数据技术,能够极大提高语料标注的效率。
附图说明
图1是本发明的总体流程图;
图2是本发明的对非结构化的电子病历进行预处理的流程图;
图3是本发明的郑州大学第一附属医院2013-2016入院病历统计图。
具体实施方式
在医疗领域中,临床一线积累下的大量珍贵数据蕴藏在非结构化的电子病历中。利用自然语言处理(NLP)技术将非结构化电子病历转化为可分析的结构化电子病历是医疗大数据分析的基础。
电子病历是指医务人员在医疗活动过程中,使用信息系统生成的文字、符号、图表、图形、数字、影像等数字化信息,并能实现存储、管理、传输和重现的医疗记录,是病历的一种记录形式,包括门(急)诊病历和住院病历。
如图1所示的一种基于大数据平台的中文电子病历信息抽取预处理方法,包括如下步骤:
步骤1:建立HDFS数据平台,在HDFS数据平台中汇集EMR、HIS和LIS中的非结构化的电子病历;
步骤2:对非结构化的电子病历进行预处理,使用文本分割,判定非结构化的电子病历所属类别,并根据不同的类别再次分解为部分(如:入院记录,分解为:主诉、现病史等),最终形成按照业务逻辑分解为HIVE表字段的分区表;根据不同标注设计,分别输出预标注语料,其具体步骤如下:
步骤S1:合并文件导入HDFS:首先进行隐形信息识别,隐形信息包括文件名为住院号和文件路径名为年月的信息;其次,对非结构化的电子病历的文本中回车符号替换成预定的不可见特殊字符,如,将回车符号替换成双空格符号等,用户可以自行制定替换的符号;再次,将批量电子病历进行文本合并;最后导入到HDFS中,形成合并后的EMR文件;
步骤S2:文本分割:首先,读取步骤S1中获得的合并后的EMR文件,确定其文件所属分类,文件所属分类包括入院记录、病程记录、出院记录、诊断证明书和手术记录;其次,根据不同分类,进行划分部分(如:“入院记录”,分解为“主诉”、“现病史”、“既往史”和“个人史”等),,最后形成分割后文件;
步骤S3:导入HIVE:首先,按照年份、月份、类别进行分区设计,以便于快速的提出数据,并为之后增量导入数据提供便利;其次,将文件导入到HIVE中,形成有元数据描述表结构;再次,使用join方式与其他结构数据关联;再次,补充或完善其他元数据信息;最后,形成按照不同分割类型对应的各类字段的HIVE表;
如图3所示,郑州大学第一附属医院2013-2016入院病历总计13,918,200份,其中,2013年2,451,612份,2014年3,462,614,2015年3,821,440份,2016年4,182,534份;
如表1所示,以2014年部分示例,其分区方式采用年year、月month和类别class三级分区;表2为类别class的分类表。
表1
编号 | 分类 |
1 | 入院记录 |
2 | 病程记录 |
3 | 出院记录 |
4 | 病情告知书 |
5 | 沟通记录单 |
6 | 病历质量评定表 |
7 | 情评估表 |
8 | 转科知情同意书 |
9 | 诊断证明书 |
10 | 住院患者病情评估表 |
11 | VTE风险评分 |
12 | 手术同意书 |
13 | 患者授权委托书 |
14 | 知情同意书 |
15 | 告知同意书 |
16 | 手术风险评估表NNIS分级 |
17 | 术前讨论 |
18 | 手术记录 |
19 | 患者出院须知 |
20 | 出院证明书 |
表2
步骤S4:导出预标注语料:预置不同场景的SQL语句,使用SPARK-SQL数据库软件将数据按照不同的分类部分进行导出,形成预标注语料;或是按照科室、疾病的方式导出,形成预标注语料;
如表3所示,在所示2014年部分示例中,共计预置导出了299个字段,其中基本字段为54个,将这299个字段作为预标注语料使用;
表3
步骤3:语料标注:首先按照电子病历的分布特点选择需要标注的电子病历,其次采用人工标注按照规范对电子病历进行标注,最后生成各类标注语料;
语料标注在人工标注时采用的规范为用户自行制定的标注规范。
步骤4:模型训练:依据不同的标注语料分别进行模型训练,使用LSTM+CRF模型训练包括分词模型训练、实体识别模型训练和语义模型训练;
步骤5:信息抽取:首先将非结构化的电子病历进行段落文本分割,其次将不同的电子病历文本段带入对应训练模型进行分析,最后将非结构化电子病历生成结构化数据。
在执行步骤S2时,文本分割部分在信息抽取过程仍需要负责段落、句子分割以及选择不同模型解析文本的功能。
本发明所述的一种基于大数据平台的中文电子病历信息抽取预处理方法,解决了快速方便的进行语料标注的技术问题,本发明通过合理设计的信息预处理,利用大数据技术,能够极大提高语料标注的效率。
Claims (2)
1.一种基于大数据平台的中文电子病历信息抽取预处理方法,其特征在于:包括如下步骤:
步骤1:建立HDFS数据平台,在HDFS数据平台中汇集EMR、HIS和LIS中的非结构化的电子病历;
步骤2:对非结构化的电子病历进行预处理,使用文本分割,判定非结构化的电子病历所属类别,并根据不同的类别再次分解为部分,最终形成按照业务逻辑分解为HIVE表字段的分区表;根据不同标注设计,分别输出预标注语料,其具体步骤如下:
步骤S1:合并文件导入HDFS:首先进行隐形信息识别,隐形信息包括文件名为住院号和文件路径名为年月的信息;其次,对非结构化的电子病历的文本中回车符号替换成预定的不可见特殊字符;再次,将批量电子病历的文本进行合并;最后导入到HDFS中,形成合并后的EMR文件;
步骤S2:文本分割:首先,读取步骤S1中获得的合并后的EMR文件,确定其文件所属分类,文件所属分类包括入院记录、病程记录、出院记录、诊断证明书和手术记录;其次,根据不同分类,进行划分部分,最后形成分割后文件;
步骤S3:导入HIVE:首先,按照年份、月份、类别进行分区设计;其次,将文件导入到HIVE中,形成有元数据描述表结构;再次,使用join方式与其他结构数据关联;再次,补充或完善其他元数据信息;最后,形成按照不同分割类型对应的各类字段的HIVE表;
步骤S4:导出预标注语料:预置不同场景的SQL语句,使用SPARK-SQL数据库软件将数据按照不同的分类部分进行导出,形成预标注语料;或是按照科室、疾病的方式导出,形成预标注语料;
步骤3:语料标注:首先按照电子病历的分布特点选择需要标注的电子病历,其次采用人工标注按照规范对电子病历进行标注,最后生成各类标注语料;
步骤4:模型训练:依据不同的标注语料分别进行模型训练,即,使用LSTM+CRF模型训练包括分词模型训练、实体识别模型训练和语义模型训练;
步骤5:信息抽取:首先将非结构化的电子病历进行段落文本分割,其次将不同的电子病历文本段带入对应训练模型进行分析,最后将非结构化电子病历生成结构化数据。
2.如权利要求1所述的一种基于大数据平台的中文电子病历信息抽取预处理方法,其特征在于:在执行步骤S2时,文本分割部分在信息抽取过程仍需要负责段落、句子分割以及选择不同模型解析文本的功能。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811363273.7A CN109509557B (zh) | 2018-11-16 | 2018-11-16 | 一种基于大数据平台的中文电子病历信息抽取预处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811363273.7A CN109509557B (zh) | 2018-11-16 | 2018-11-16 | 一种基于大数据平台的中文电子病历信息抽取预处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109509557A true CN109509557A (zh) | 2019-03-22 |
CN109509557B CN109509557B (zh) | 2021-07-27 |
Family
ID=65748780
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811363273.7A Active CN109509557B (zh) | 2018-11-16 | 2018-11-16 | 一种基于大数据平台的中文电子病历信息抽取预处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109509557B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109947838A (zh) * | 2019-03-26 | 2019-06-28 | 中国联合网络通信集团有限公司 | 一种存储数据的方法及装置 |
CN110010217A (zh) * | 2019-04-11 | 2019-07-12 | 中国医学科学院医学信息研究所 | 一种电子病历的标注方法及装置 |
CN110517788A (zh) * | 2019-08-30 | 2019-11-29 | 山东健康医疗大数据有限公司 | 一种中文电子病历信息抽取的方法 |
CN110851488A (zh) * | 2019-09-26 | 2020-02-28 | 贵阳信息技术研究院(中科院软件所贵阳分部) | 基于多源多模态数据融合分析处理方法及平台 |
CN111339126A (zh) * | 2020-02-27 | 2020-06-26 | 平安医疗健康管理股份有限公司 | 医疗数据筛选方法、装置、计算机设备和存储介质 |
CN113012776A (zh) * | 2021-03-30 | 2021-06-22 | 南通大学 | 大规模不平衡糖尿病电子病历并行分类邻域证据Spark方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103116643A (zh) * | 2013-02-25 | 2013-05-22 | 江苏物联网研究发展中心 | 基于Hadoop的智慧医疗数据管理方法 |
CN104111996A (zh) * | 2014-07-07 | 2014-10-22 | 山大地纬软件股份有限公司 | 基于hadoop平台的医保门诊大数据抽取系统及方法 |
US9639662B2 (en) * | 2010-09-01 | 2017-05-02 | Apixio, Inc. | Systems and methods for event stream platforms which enable applications |
CN107341264A (zh) * | 2017-07-19 | 2017-11-10 | 东北大学 | 一种支持自定义实体的电子病历检索系统及方法 |
-
2018
- 2018-11-16 CN CN201811363273.7A patent/CN109509557B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9639662B2 (en) * | 2010-09-01 | 2017-05-02 | Apixio, Inc. | Systems and methods for event stream platforms which enable applications |
CN103116643A (zh) * | 2013-02-25 | 2013-05-22 | 江苏物联网研究发展中心 | 基于Hadoop的智慧医疗数据管理方法 |
CN104111996A (zh) * | 2014-07-07 | 2014-10-22 | 山大地纬软件股份有限公司 | 基于hadoop平台的医保门诊大数据抽取系统及方法 |
CN107341264A (zh) * | 2017-07-19 | 2017-11-10 | 东北大学 | 一种支持自定义实体的电子病历检索系统及方法 |
Non-Patent Citations (2)
Title |
---|
CHEN, DEQUAN: "Real-Time or Near Real-Time Persisting Daily Healthcare Data Into HDFS and ElasticSearch Index Inside a Big Data Platform", 《IEEE TRANSACTIONS ON INDUSTRIAL 》 * |
CHRIMES, DILLON 等: "Using Distributed Data over HBase in Big Data Analytics Platform for Clinical Services", 《COMPUTATIONAL AND MATHEMATICAL METHODS IN MEDICINE》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109947838A (zh) * | 2019-03-26 | 2019-06-28 | 中国联合网络通信集团有限公司 | 一种存储数据的方法及装置 |
CN110010217A (zh) * | 2019-04-11 | 2019-07-12 | 中国医学科学院医学信息研究所 | 一种电子病历的标注方法及装置 |
CN110517788A (zh) * | 2019-08-30 | 2019-11-29 | 山东健康医疗大数据有限公司 | 一种中文电子病历信息抽取的方法 |
CN110851488A (zh) * | 2019-09-26 | 2020-02-28 | 贵阳信息技术研究院(中科院软件所贵阳分部) | 基于多源多模态数据融合分析处理方法及平台 |
CN111339126A (zh) * | 2020-02-27 | 2020-06-26 | 平安医疗健康管理股份有限公司 | 医疗数据筛选方法、装置、计算机设备和存储介质 |
CN111339126B (zh) * | 2020-02-27 | 2023-02-07 | 平安医疗健康管理股份有限公司 | 医疗数据筛选方法、装置、计算机设备和存储介质 |
CN113012776A (zh) * | 2021-03-30 | 2021-06-22 | 南通大学 | 大规模不平衡糖尿病电子病历并行分类邻域证据Spark方法 |
CN113012776B (zh) * | 2021-03-30 | 2022-11-04 | 南通大学 | 大规模不平衡糖尿病电子病历并行分类邻域证据Spark方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109509557B (zh) | 2021-07-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109509557A (zh) | 一种基于大数据平台的中文电子病历信息抽取预处理方法 | |
Qiu et al. | Deep learning for automated extraction of primary sites from cancer pathology reports | |
Maghari et al. | Books’ rating prediction using just neural network | |
CN111222340B (zh) | 基于多标准主动学习的乳腺电子病历实体识别系统 | |
CN108628824A (zh) | 一种基于中文电子病历的实体识别方法 | |
CN110337645A (zh) | 可适配的处理组件 | |
CN112115712B (zh) | 基于话题的群体情感分析方法 | |
CN107480137A (zh) | 用语义迭代提取网络突发事件并识别外延事件关系的方法 | |
Baghdadi et al. | An optimized deep learning approach for suicide detection through Arabic tweets | |
Joshi et al. | An analysis of mental health of social media users using unsupervised approach | |
Galal Elsayed et al. | A two-level deep learning approach for emotion recognition in Arabic news headlines | |
Dima | On the compositionality and semantic interpretation of english noun compounds | |
Sandhiya et al. | A review of topic modeling and its application | |
CN113111159A (zh) | 问答记录生成方法、装置、电子设备及存储介质 | |
CN117454217A (zh) | 一种基于深度集成学习的抑郁情绪识别方法、装置及系统 | |
Marerngsit et al. | A two-stage text-to-emotion depressive disorder screening assistance based on contents from online community | |
Rabani et al. | Multi-Class Suicide Risk Prediction on Twitter Using Machine Learning Techniques | |
CN115982460A (zh) | 健康科普信息个性化推荐方法、系统及介质 | |
Ezzat et al. | Topicanalyzer: A system for unsupervised multi-label arabic topic categorization | |
CN116186422A (zh) | 基于社交媒体和人工智能的疾病相关舆情分析系统 | |
CN102165443B (zh) | 文章抽取方法、文章抽取装置 | |
CN110010231A (zh) | 一种数据处理系统及计算机可读存储介质 | |
AlSaleh et al. | SNAD arabic dataset for deep learning | |
CN112818122A (zh) | 一种面向对话文本的事件抽取方法及系统 | |
CN110413899A (zh) | 服务器存储新闻的存储资源优化方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |