CN111429985B - 电子病历数据处理方法及系统 - Google Patents
电子病历数据处理方法及系统 Download PDFInfo
- Publication number
- CN111429985B CN111429985B CN202010137584.2A CN202010137584A CN111429985B CN 111429985 B CN111429985 B CN 111429985B CN 202010137584 A CN202010137584 A CN 202010137584A CN 111429985 B CN111429985 B CN 111429985B
- Authority
- CN
- China
- Prior art keywords
- data
- information
- medical record
- electronic medical
- record data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title description 9
- 238000012545 processing Methods 0.000 claims abstract description 67
- 238000000034 method Methods 0.000 claims abstract description 43
- 238000004458 analytical method Methods 0.000 claims abstract description 13
- 238000007781 pre-processing Methods 0.000 claims abstract description 11
- 201000010099 disease Diseases 0.000 claims description 45
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 45
- 238000012549 training Methods 0.000 claims description 29
- 238000006243 chemical reaction Methods 0.000 claims description 17
- 238000002372 labelling Methods 0.000 claims description 16
- 238000003062 neural network model Methods 0.000 claims description 7
- 238000003745 diagnosis Methods 0.000 description 19
- 230000008569 process Effects 0.000 description 13
- 208000024891 symptom Diseases 0.000 description 9
- 206010011224 Cough Diseases 0.000 description 7
- 238000000605 extraction Methods 0.000 description 6
- 238000010606 normalization Methods 0.000 description 6
- 206010036790 Productive cough Diseases 0.000 description 5
- 206010035664 Pneumonia Diseases 0.000 description 4
- 208000037920 primary disease Diseases 0.000 description 4
- 206010008479 Chest Pain Diseases 0.000 description 3
- 206010020772 Hypertension Diseases 0.000 description 3
- 206010000060 Abdominal distension Diseases 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 208000001072 type 2 diabetes mellitus Diseases 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 208000004998 Abdominal Pain Diseases 0.000 description 1
- 206010037660 Pyrexia Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 206010012601 diabetes mellitus Diseases 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000011423 initialization method Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 208000037921 secondary disease Diseases 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Abstract
本发明公开了一种电子病历数据处理方法及系统,对获取的待处理的电子病历数据进行预处理,得到所述电子病历数据相匹配的第一数据;调用预构建的信息识别模型,所述信息识别模型的样本数据与所述第一数据相匹配;数据处理装置将所述第一数据输入所述信息识别模型,确定与所述待处理的电子病历数据相匹配的目标信息,该目标信息表征与电子病历数据具有特定关联关系的信息,输出目标信息。本发明能够利用信息模型自动获得电子病历数据的关联信息,解决了现有技术中依靠人工分析得到关联信息的效率低和准确性差的问题。
Description
技术领域
本发明涉及计算机技术领域,特别是涉及一种电子病历数据处理方法及系统。
背景技术
电子病历包含了关于患者个人健康信息的全面、详实、即时的描述,含有非常丰富的信息知识。通过深入分析和挖掘电子病历中的信息,可以获得大量与患者密切相关的医疗信息,这些信息可以应用于构建临床决策支持系统,为医生诊断提供有效地中间信息和参考信息。
但是现有的电子病历系统只能对患者的相关信息进行录入,然后由医生对电子病历数据进行分析,得到与电子病历数据相关的关联信息,再结合医生的诊断经验和其他诊断设备的诊断结果,对该关联信息进行判断,从而得到患者的疾病诊断信息。可见,在获得电子病历数据相关的关联信息的过程中是人工获得的,从而使得处理效率较低,并且由于电子病历信息的格式不统一,容易造成对某些电子病历数据的忽略分析,从而使得获得的关联信息不准确,进而医生可能无法通过关联信息得到准确的诊断结果。
发明内容
针对于上述问题,本发明提供一种电子病历数据处理方法及系统,能够通过电子病历数据自动分析得到准确的关联信息,使得信息处理效率高、并降低了处理错误率。
为了实现上述目的,本发明提供了如下技术方案:
一种电子病历数据处理方法,所述方法包括:
对获取的待处理的电子病历数据进行预处理,得到所述电子病历数据相匹配的第一数据;
调用预构建的信息识别模型,所述信息识别模型的样本数据与所述第一数据相匹配;
将所述第一数据输入所述信息识别模型,确定与所述待处理的电子病历数据相匹配的目标信息,其中,所述目标信息表征与所述电子病历数据具有特定关联关系的信息,所述信息识别模型具有预测所述第一数据的目标信息趋于所述第一数据的真实目标信息的能力;
输出所述目标信息。
可选地,所述方法还包括:训练所述信息识别模型,包括:
将获取到的电子病历数据,依据特定数据转换条件转换为第二数据;
确定与所述第二数据相匹配的标注信息,所述标注信息表征与所述第二数据相匹配的特征信息;
基于所述第二数据和所述标注信息,生成样本数据;
基于所述样本数据训练神经网络模型,得到信息识别模型。
可选地,所述将获取到的电子病历数据,依据特定数据转换条件转换为第二数据,包括:
将获取到的电子病历数据进行标准化处理,得到第三数据;
对所述第三数据进行特征提取,得到初始特征;
依据所述初始特征之间的关联关系,对所述初始特征进行特征组合,得到组合后的特征;
依据与所述组合后的特征对应的权重数据,对所述组合后的特征进行处理,得到第二数据。
可选地,所述确定与所述第二数据相匹配的标注信息,包括:
对所述第二数据进行划分,依据数据换分结果确定划分标注数据;
对所述第二数据进行疾病关联信息分析,得到关联信息标注数据。
可选地,所述信息识别模型包括第一信息识别模型和第二信息识别模型,且所述第二信息识别模型为所述第一信息识别模型的子模型,所述通过所述信息识别模型确定与所述待处理的电子病历数据相匹配的目标信息,包括:
通过所述第一信息识别模型确定与所述待处理的电子病历数据相匹配的第一层级信息;
通过所述第二信息识别模型和所述第一层级信息,确定与所述第一层级信息相匹配的目标信息。
可选地,所述方法还包括:
按照与所述待处理的电子病历数据的时间标识信息,对所述待处理的电子病历数据进行更新;
获取待处理的电子病历数据更新时间,依据所述更新时间将所述第一数据输入所述信息识别模型,确定与所述待处理的电子病历数据相匹配的目标信息,其中,所述目标信息的数量与所述更新时间的时间点数量相匹配。
可选地,所述输出所述目标信息,包括:
在预设时间段分别输出与所述时间段相匹配的目标信息。
一种电子病历数据处理系统,所述系统包括:
数据获取装置,用于对获取的待处理的电子病历数据进行预处理,得到所述电子病历数据相匹配的第一数据;
模型调用装置,用于调用预构建的信息识别模型,所述信息识别模型的样本数据与所述第一数据相匹配;
数据处理装置,用于将所述第一数据输入所述信息识别模型,确定与所述待处理的电子病历数据相匹配的目标信息,其中,所述目标信息表征与所述电子病历数据具有特定关联关系的信息,所述信息识别模型具有预测所述第一数据的目标信息趋于所述第一数据的真实目标信息的能力。
可选地,所述系统还包括:模型训练装置,所述模型训练装置,用于训练信息识别模型,所述模型训练装置包括:
数据转换单元,用于将获取到的电子病历数据,依据特定数据转换条件转换为第二数据;
信息确定单元,用于确定与所述第二数据相匹配的标注信息,所述标注信息表征与所述第二数据相匹配的特征信息;
样本生成单元,用于基于所述第二数据和所述标注信息,生成样本数据;
训练单元,用于基于所述样本数据训练神经网络模型,得到信息识别模型。
可选地,所述数据转换单元具体用于:
将获取到的电子病历数据进行标准化处理,得到第三数据;
对所述第三数据进行特征提取,得到初始特征;
依据所述初始特征之间的关联关系,对所述初始特征进行特征组合,得到组合后的特征;
依据与所述组合后的特征对应的权重数据,对所述组合后的特征进行处理,得到第二数据。
可选地,所述信息确定单元具体用于:
对所述第二数据进行划分,依据数据换分结果确定划分标注数据;
对所述第二数据进行疾病关联信息分析,得到关联信息标注数据。
可选地,所述系统还包括存储单元,所述存储单元,用于存储信息识别模型,所述信息识别模型包括第一信息识别模型和第二信息识别模型,且所述第二信息识别模型为所述第一信息识别模型的子模型,所述数据处理装置具体用于:
通过所述第一信息识别模型确定与所述待处理的电子病历数据相匹配的第一层级信息;
通过所述第二信息识别模型和所述第一层级信息,确定与所述第一层级信息相匹配的目标信息。
可选地,所述数据获取装置还包括:
数据更新单元,用于按照与所述待处理的电子病历数据的时间标识信息,对所述待处理的电子病历数据进行更新;
其中,所述数据处理装置具体用于:
获取待处理的电子病历数据更新时间,依据所述更新时间将所述第一数据输入所述信息识别模型,确定与所述待处理的电子病历数据相匹配的目标信息,其中,所述目标信息的数量与所述更新时间的时间点数量相匹配。
可选地,所述输出装置具体用于:
在预设时间段分别输出与所述时间段相匹配的目标信息。
可选地,所述系统还包括:
数据录入装置,用于录入电子病历数据;使得所述数据获取装置与所述数据录入装置连接,以获得待处理的电子病历数据。
相较于现有技术,本发明提供了一种电子病历数据处理方法及系统,对获取的待处理的电子病历数据进行预处理,得到所述电子病历数据相匹配的第一数据;调用预构建的信息识别模型,所述信息识别模型的样本数据与所述第一数据相匹配;将所述第一数据输入所述信息识别模型,确定与所述待处理的电子病历数据相匹配的目标信息,并输出目标信息。该目标信息表征与电子病历数据具有特定该关联关系的信息,本发明的能够利用信息模型自动获得电子病历数据的关联信息,解决了现有技术中依靠人工分析得到关联信息的效率低和准确性差的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种电子病历数据处理方法的流程示意图;
图2为本发明实施例提供的一种目标信息获得的方法的流程示意图;
图3为本发明实施例提供的一种电子病历数据处理系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”和“第二”等是用于区别不同的对象,而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有设定于已列出的步骤或单元,而是可包括没有列出的步骤或单元。
在本发明实施例中提供了一种电子病历数据处理方法,可以应用于数据处理系统,该系统属于信息辅助系统,可以与电子病历系统进行连接,以获得电子病历数据,并生成与电子病历数据相匹配的目标信息,辅助根据电子病历数据获得相关诊断或者作为判断诊断过程中的中间信息。其中,该数据处理系统可以与电子病历系统进行连接,另一方面该数据处理系统也可以嵌入至电子病历系统中作为电子病历系统中的一部分。
参见图1,其示出了本发明实施例提供的一种电子病历数据处理方法的流程示意图,该方法可以包括:
S101、对获取的待处理的电子病历数据进行预处理,得到所述电子病历数据相匹配的第一数据。
在一种可能的实现方式中,电子病历数据是已经生成的电子病历数据,可以是通过电子病历数据录入系统已经录入完成的电子病历数据,也可以是纸质病历数据经过扫描生成的电子病历数据。在另一种可能的实现方式中将本发明的数据处理方法应用在电子病历数据录入系统中,这样当对患者的病历数据进行录入完成后,该电子病历数据录入系统的处理器会直接调用本发明的数据处理方法,对当前录入完成的电子病历数据进行后续处理。例如,所述数据处理系统还包括数据录入装置,用于录入电子病历数据;使得所述数据获取装置与所述数据录入装置连接,以获得待处理的电子病历数据。
由于不同的电子病历录入系统设置的录入格式不同,或者不同录入者的录入习惯不同,会使得电子病历数据的格式不统一,若要直接对电子病历数据进行处理,需要对电子病历数据进行逐一分析,处理效率较低。因此,在本申请实施例中先对电子病历数据进行预处理,使得电子病历数据进行后续处理时为同一的数据处理格式,也便于后续处理模式的简单统一化生成。需要说明的是,对电子病历数据进行预处理可以包括数据标准化和归一化处理本发明会在后续的实施例中进行详细说明。
S102、调用预构建的信息识别模型;
所述信息识别模型的样本数据与所述第一数据相匹配。
可以通过模型调用装置调用信息识别模型,模型调用装置可以与本发明的数据处理系统的存储装置进行连接,具体的存储装置可以用于存储信息识别模型,另外,信息识别模型可以包括多个,也可以包括不同层级的识别模型,例如第一识别模型和与第一识别模型对应的子模型。
S103、将所述第一数据输入所述信息识别模型,确定与所述待处理的电子病历数据相匹配的目标信息。
S104、输出所述目标信息。
其中,所述目标信息表征与所述电子病历数据具有特定关联关系的信息,所述信息识别模型具有预测所述第一数据的目标信息趋于所述第一数据的真实目标信息的能力。
其中,预先构建的信息识别模型为神经网络模型或者机器学习模型,是通过对大量样本数据进行学习获得的模型,在本申请实施例中对模型的具体结构不进行限制。该信息识别模型的样本数据与电子病历数据对应的第一数据相匹配。即样本数据与第一数据的数据结构、数据标准和数据模式都为同一类型,例如,样本数据中包括年龄、性别字段,则获得到的电子病历数据的第一数据也要包括年龄、性别字段,这就使得在对电子病历数据进行预处理时需要按照样本数据的规范对其进行处理,以便于信息识别模型对第一数据的处理。
该信息识别模型具有预测第一数据的目标信息趋于第一数据的真实目标信息的能力。即将第一数据作为信息识别模型的输入数据,对应的该信息识别模型的输出数据为目标信息。通过信息识别模型得到的目标信息是第一数据的预测数据,但是该数据趋于其真实数据。并且,目标信息表征与电子病历数据具有特定关联关系的信息。需要说明的是,目标信息来源于电子病历数据,并且能够与之有一定的关联关系,该关联关系表示通过第一数据得到可以得到目标信息的关系,如,通过第一数据得到目标信息的计算关系,则对应的目标信息表示为第一信息出现某个特征的概率信息。需要说明的是,在本申请的各个实施例中目标信息并不是根据电子病历数据得到的直接诊断信息,其并不能作为诊断结果,即信息识别模型数据的并不是某种疾病。需要医生根据自身经验或者其他辅助诊断信息(如超声图像等)结合该目标信息,才能得到对应的诊断结果或者最终的疾病种类。举例说明,例如,目标信息可以是具有能够预测出疾病种类的中间信息,如该疾病对应的指标参数信息。该指标参数信息对于专业人员并不能直接获得疾病诊断结果。
然后可以通过信息输出装置对目标信息进行输出,例如,通过显示器直接对目标信息进行显示,实现了对电子病历数据的自动化处理和目标信息的自动输出,可以解决人工对电子病历数据的分析的不便和不准确的问题。
本发明提供了一种电子病历数据处理方法,对获取的待处理的电子病历数据进行预处理,得到所述电子病历数据相匹配的第一数据;调用预构建的信息识别模型,所述信息识别模型的样本数据与所述第一数据相匹配;将所述第一数据输入所述信息识别模型,确定与所述待处理的电子病历数据相匹配的目标信息,该目标信息表征与电子病历数据具有特定该关联关系的信息,最后输出目标信息。即本发明能够利用信息模型自动获得电子病历数据的关联信息,解决了现有技术中依靠人工分析得到关联信息的效率低和准确性差的问题。
具体的在本申请实施例中的信息识别模型可以包括模型训练和预测应用两个阶段。训练阶段为大数据工程师从原始电子病例系统中抽取数据和转换,形成同一格式(也是对病历数据标准化和归一的过程),NLP信息抽取技术实现后结构化处理,特征工程和目标信息标注形成训练数据集,训练模型和调参调优,得到训练好的信息识别模型。
应用阶段是可以将信息是被模型嵌入到新的电子病历系统中使用与训练过程相同的数据抽取、NLP处理和特征处理过程,得到信息识别模型的输入数据,调用训练好的模型得到疾病概率预测列表。其中,特征工程工作主要包括特征提取、特征构建、特征选择等。因为好的特征具有更强的灵活性,可以用简单的模型做训练,更可以得到好的结果,所以特征工程是训练模型前至关重要的数据处理过程。特征提取过程属于特征工程中的一部分工作。
对应的,在本发明的电子病历数据处理方法中还包括训练信息识别模型,该过程包括:
将获取到的电子病历数据,依据特定数据转换条件转换为第二数据;
确定与所述第二数据相匹配的标注信息,所述标注信息表征与所述第二数据相匹配的特征信息;
基于所述第二数据和所述标注信息,生成样本数据;
基于所述样本数据训练神经网络模型,得到信息识别模型。
其中,确定与所述第二数据相匹配的标注信息,包括:
对所述第二数据进行划分,依据数据换分结果确定划分标注数据;
对所述第二数据进行疾病关联信息分析,得到关联信息标注数据。
为了能够得到信息识别模型,首先需要的样本数据,然后通过神经网络或者机器学习的方式对样本数据进行处理,得到信息识别模型。具体的,这里的电子病历数据是历史电子病历数据,即该电子病历数据是完整的电子病历数据,其包括目标信息,这里的目标信息可以理解为是出院主诊断信息,例如,从电子病历数据中首页诊断中获取到的信息。即一条电子病历的主诉病史和检查检验等内容为输入信息,首页诊断的出院主诊断信息作为目标信息,这样就构成了一条学习样本。
由于电子病历数据通常没有统一的格式或者规范,需要将电子病历信息进行格式转换,即依据特定数据转换条件转换为第二数据,例如,可以是根据数据清洗格式对数据进行清洗。为了能够使得样本分布更加均匀,不仅可以利用历史电子病历数据作为学习样本,也可以利用初始电子病历数据作为学习样本,这类数据由于没有最终的诊断信息,可以通过专家共识等方式进行信息标注,以得到目标信息,这样可以使得训练得到的识别模型可以针对不同时期的电子病历数据进行预测,保证了预测的全面和准确性。标注过程包括:对第二数据进行划分,依据数据划分结果确定划分标注数据;对第二数据进行疾病关联信息分析,得到关联信息标注信息。即标注信息包括了目标信息,也可以包括其他划分信息,如年龄划分信息、性别划分信息、疾病层级信息等。这样才能使得得到的样本数据能够被模型进行学习。
具体的,在本发明实施例中,所述将获取到的电子病历数据,依据特定数据转换条件转换为第二数据,包括:
将获取到的电子病历数据进行标准化处理,得到第三数据;
对所述第三数据进行特征提取,得到初始特征;
依据所述初始特征之间的关联关系,对所述初始特征进行特征组合,得到组合后的特征;
依据与所述组合后的特征对应的权重数据,对所述组合后的特征进行处理,得到第二数据。
基于知识库体系中同义词和层级关系对实体做标准和归一化处理,基于章节和实体关系的特征拼接,基于时间节点的权重初始化等方式之外,还包括一些基础的数据预处理方式,比如清洗异常样本、数据不均衡处理、补缺失值,区间缩放法等等。
在另一种可能的实现方式中是先根据临床专家指定的抽取范围先做特征抽取,然后对抽取到的有效特征再做标准化、归一化、特征拼接等后续处理。因为电子病历中的文书较多,每个文书中又包含很多内容,所以为了减少标准化和归一处理花费的时间和复杂度,可以先根据实体和实体关系抽取所需要的信息。
具体的:
由于医护人员在电子病历数据录入过程中,不同医生对症状、体征等信息的描述存在差异性较大。例如,电子病历数据中对于腹部胀痛的描述有腹部胀、腹胀感、腹部胀感等。可以通过引入知识库中本体的同义词关系对抽取的实体进行标准化,将描述不同但实际指代同一对象的结果归一为标准名称。另外不同的本体如症状、疾病、药品等都有层级关系,在电子病历数据中的相应描述信息可能处于不同的层级。因此,我们根据相应的层级关系将实体信息归一处理。
在电子病历信息中不同的章节中有可能包含相同的实体信息,但在医学上表示着不同的医疗意义,如主诉症状和现病史中以前时间节点的症状名称相同,但是一个代表着现在的主要症状,一个代表着以前出现过得症状,因此,在对这些症状特征数据进行提取后,即得到了初始特征,需要基于章节信息对上述特征进行拼接。例如,可以通过实体关系进行拼接,实体关系是表示不同实体之间的属性或联系,比如主诉中“咳嗽3天,伴咳痰2天”包含了咳嗽和咳痰两个症状实体,3天和2天两个时间实体。其中咳嗽与咳痰的实体关系是伴随,3天与咳嗽的实体关系是持续时间,2天与咳痰的实体关系是持续时间。因此我们得到咳嗽,咳嗽3天,咳痰,咳痰2天四个症状。
权重初始化的目的是防止在深度神经网络的前向传播过程中激活函数的输出损失梯度出现爆炸或消失。以及根据医学专业知识认为干预特征对结果的重要程度。
另外,对根据电子病历数据转换得到的第二数据进行划分时,可以依据知识库中疾病的人群信息进行划分。临床上存在一些疾病对应的特征信息其表征极为相似,但是不同年龄段和不同性别最终的诊断结果是不相同。如,肺炎与小儿肺炎,症状表现都是发烧、咳嗽等,最大的不同就是年龄不同,而年龄在信息识别模型中会作为一维特征去处理,所占比重并不能初始化较大,因为很多其他疾病并不跟年龄有很大关系。还有一些男性与女性疾病,表现也尤为相似,这就会使得模型可能将一名男性患者预测为与女性疾病相关的关联信息,或者将一名女性患者预测为与男性疾病相关的关联信息。所以本发明中可以根据人群信息对识别模型进行细分,如依据人群信息将信息识别模型划分为男性信息模型、女性信息识别模型和儿科信息识别模型,从而解决了以上问题。
对应的,在本发明实施例中也可以依据疾病信息的层级关系对模型进一步的划分,如将男性信息模型分为第一信息识别模型和第二信息识别模型。对应的数据处理系统还包括存储单元,所述存储单元,用于存储信息识别模型,所述信息识别模型包括第一信息识别模型和第二信息识别模型,且所述第二信息识别模型为所述第一信息识别模型的子模型,所述数据处理装置具体用于:
通过所述第一信息识别模型确定与所述待处理的电子病历数据相匹配的第一层级信息;
通过所述第二信息识别模型和所述第一层级信息,确定与所述第一层级信息相匹配的目标信息。
例如,该数据处理系统首先根据年龄和性别信息,将电子病历数据经过预处理后输入到相应的男性或女性或儿科的第一层信息识别模型,预测出一级疾病,如高血压,然后用同样的电子病历信息经过预处理与高血压一起作为二层信息识别模型的输入预测出二级疾病,如高血压1级。
由于疾病种类较多,那么对应疾病的关联信息的种类更多。如果直接通过信息识别模型进行预测,其难度较大,精度也会相对较低。还有些交叉学科疾病在不同的科室下归属于不同的系统,但是其上层级的疾病并无此类问题,所以依据疾病层级关系对疾病的关联信息按照层级预测。例如,可以首先预测出一级疾病的关联信息,然后依据该关联信息预测出二级的关联信息。
在本发明的一些实施例中,电子病历数据处理方法还包括:
按照与所述待处理的电子病历数据的时间标识信息,对所述待处理的电子病历数据进行更新;
获取待处理的电子病历数据更新时间,依据所述更新时间将所述第一数据输入所述信息识别模型,确定与所述待处理的电子病历数据相匹配的目标信息,其中,所述目标信息的数量与所述更新时间的时间点数量相匹配。
由于本发明应用电子病历数据处理方法的数据处理系统可以与电子病历系统相结合,这样可以根据电子病历系统录入信息的程度进行信息识别。由于电子病历系统中录入的电子病历信息可以根据患者在不同的住院时期进行更新,因此,为了预测更加准确,可以在当电子病例数据进行更细后,即完成一次信息的预测。
对应的,输出所述目标信息包括在预设时间段分别输出与所述时间段相匹配的目标信息。
可以在数据处理系统默认的时间段完成目标信息的预测,例如,通过数据处理系统获取电子病历中的一诉五史和检查检验内容,分别在入院时,入院后24小时等不同时间节点上实时地预测目标信息,如推荐出患者可能所得疾病的概率列表给医生参考,从而减少医生的漏诊率和误诊率,减少患者的确诊时间等。
参见图2,其示出了本发明实施例提供的一种目标信息获得的方法的流程示意图。该过程包括:
将非结构的电子病历数据进行处理,得到结构化后电子病历数据库。然后基于知识库对实体标准化和归一处理,其中,知识库中同义词和上下级关系的构建方法,采用爬虫爬取医学专业书籍、医学指南中的疾病、症状、体征、检查、检验等实体的别名信息和上下级关系,并参照某种医学标准定义各个实体的标准名称,存储到知识库中,由专业人员完成审核校验。在电子病历数据库中,通过NLP信息抽取处理技术识别出实体与实体关系实现后结构化处理,并按照原始章节关系保存到数据库中。从结构化后的数据库中抽取出实体,然后依据知识库中本体和层级信息,将别名替换为标准名。如电子病历信息中的“Ⅱ型糖尿病”和“2-糖尿病”标准化为“2型糖尿病”。将子级实体归一为父级实体,如将“右下肢充血”,“左下肢充血”和“双下肢充血”向上归一为下肢充血。
实体名称标准化和按照层级向上归一处理之后,基于章节信息,如电子病历数据中的主诉、现病史、个人史等作为特征的前缀,以此区别不同章节的相同实体名称的不同含义,如主诉中的胸闷,现病史中的胸闷。另外,将实体与实体按照实体关系做拼接,从而达到同一份电子病例数据中不同实体之间的所述关系。最终形成需要的特征,如胸闷与6个月两个实体的关系为持续时间。
在电子病历数据中,现病史的时间节点字段是很复杂,不同医院不同医生不同患者对于时间节点的描述是不一样的。所以在做权重初始化之前,需要先将不同的时间节点进行规范化后,在进行比较合并。
将现病史中关于时间节点的字段,基于病历数据中的就诊时间,使用正则表达式将时间处理为标准日期格式,例如,就诊时间为2019年8月1日,电子病历中记载的“两年前”可以规范化后的时间为“2017年8月1日”。然后按照时间节点从远到近排序,之后通过公式:
increment=权重值(weight)/时间节点数;
获得增量权重值,循环时间节点之前初始权重值为0,将每个时间节点的特征权重赋值为weight=weight+increment。
基于人群和疾病层级划分模型:受限依据知识库中疾病的人群属性,将所有疾病归属为儿科疾病、男性疾病和女性疾病三大类。然后基于疾病层级关系分别将儿科、男性和女性下疾病分为一级疾病和一级疾病下的子疾病,然后可以通过对应的模型识别到一级疾病对应的关联信息(目标信息),然后继续识别得到子疾病的关联信息。实现了依据以上划分关系分别训练出例如儿科预测一级模型、儿科预测二级模型等,从而实现对关联信息的预测的准确性。
通常的特征组合方法是简单的将特征相乘而组合出非线性特征,但是这种组合方式没有针对医疗背景的充分分析,很可能会得出很多并非有实际关联意义的组合,而且工作复杂。而基于实体关系的组合方式,更符合语义信息。并且拼接章节信息,借此区分不同章节相同实体信息的不同表述意义。
并且在电子病历数据中现病史权重自动初始化方法,能够精细的表达出病人病情的发展过程,时间节点越早的特征权重越小,时间节点越接近现在的权重值越大。对于不同性别不同年龄和较差学科疾病的辅助信息问题,分别采用人群划分和疾病层级关系能够有效地降低模型预测误差。
参见图3,在本发明实施例中还提供了一种电子病历数据处理系统,所述系统包括:
数据获取装置10,用于对获取的待处理的电子病历数据进行预处理,得到所述电子病历数据相匹配的第一数据;
模型调用装置20,用于调用预构建的信息识别模型,所述信息识别模型的样本数据与所述第一数据相匹配;
数据处理装置30,用于将所述第一数据输入所述信息识别模型,确定与所述待处理的电子病历数据相匹配的目标信息,其中,所述目标信息表征与所述电子病历数据具有特定关联关系的信息,所述信息识别模型具有预测所述第一数据的目标信息趋于所述第一数据的真实目标信息的能力;
输出装置40,用于输出所述目标信息。
在上述实施例的基础上,所述系统还包括:模型训练装置,所述模型训练装置,用于训练信息识别模型,所述模型训练装置包括:
数据转换单元,用于将获取到的电子病历数据,依据特定数据转换条件转换为第二数据;
信息确定单元,用于确定与所述第二数据相匹配的标注信息,所述标注信息表征与所述第二数据相匹配的特征信息;
样本生成单元,用于基于所述第二数据和所述标注信息,生成样本数据;
训练单元,用于基于所述样本数据训练神经网络模型,得到信息识别模型。
在上述实施例的基础上,所述数据转换单元具体用于:
将获取到的电子病历数据进行标准化处理,得到第三数据;
对所述第三数据进行特征提取,得到初始特征;
依据所述初始特征之间的关联关系,对所述初始特征进行特征组合,得到组合后的特征;
依据与所述组合后的特征对应的权重数据,对所述组合后的特征进行处理,得到第二数据。
在上述实施例的基础上,所述信息确定单元具体用于:
对所述第二数据进行划分,依据数据换分结果确定划分标注数据;
对所述第二数据进行疾病关联信息分析,得到关联信息标注数据。
在上述实施例的基础上,所述系统还包括存储单元,所述存储单元,用于存储信息识别模型,所述信息识别模型包括第一信息识别模型和第二信息识别模型,且所述第二信息识别模型为所述第一信息识别模型的子模型,所述数据处理装置具体用于:
通过所述第一信息识别模型确定与所述待处理的电子病历数据相匹配的第一层级信息;
通过所述第二信息识别模型和所述第一层级信息,确定与所述第一层级信息相匹配的目标信息。
在上述实施例的基础上,所述数据获取装置还包括:
数据更新单元,用于按照与所述待处理的电子病历数据的时间标识信息,对所述待处理的电子病历数据进行更新;
其中,所述数据处理装置具体用于:
获取待处理的电子病历数据更新时间,依据所述更新时间将所述第一数据输入所述信息识别模型,确定与所述待处理的电子病历数据相匹配的目标信息,其中,所述目标信息的数量与所述更新时间的时间点数量相匹配。
在上述实施例的基础上,所述输出装置具体用于:
在预设时间段分别输出与所述时间段相匹配的目标信息。
在上述实施例的基础上,所述系统还包括:
数据录入装置,用于录入电子病历数据;使得所述数据获取装置与所述数据录入装置连接,以获得待处理的电子病历数据。
本发明提供了一种数据处理系统,数据获取装置对获取的待处理的电子病历数据进行预处理,得到所述电子病历数据相匹配的第一数据;模型调用装置调用预构建的信息识别模型,所述信息识别模型的样本数据与所述第一数据相匹配;数据处理装置将所述第一数据输入所述信息识别模型,确定与所述待处理的电子病历数据相匹配的目标信息,该目标信息表征与电子病历数据具有特定该关联关系的信息,即本发明的数据处理系统能够利用信息模型自动获得电子病历数据的关联信息,解决了现有技术中依靠人工分析得到关联信息的效率低和准确性差的问题。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (9)
1.一种电子病历数据处理方法,其特征在于,所述方法包括:
对获取的待处理的电子病历数据进行预处理,得到所述电子病历数据相匹配的第一数据;
调用预构建的信息识别模型,所述信息识别模型的样本数据与所述第一数据相匹配;
将所述第一数据输入所述信息识别模型,确定与所述待处理的电子病历数据相匹配的目标信息,其中,所述目标信息表征与所述电子病历数据具有特定关联关系的信息,所述信息识别模型具有预测所述第一数据的目标信息趋于所述第一数据的真实目标信息的能力;所述信息识别模型包括第一信息识别模型和第二信息识别模型,且所述第二信息识别模型为所述第一信息识别模型的子模型,通过所述信息识别模型确定与所述待处理的电子病历数据相匹配的目标信息,包括:
通过所述第一信息识别模型确定与所述待处理的电子病历数据相匹配的第一层级信息;所述第一信息识别模型包括男性或女性或儿科的第一信息识别模型;
通过所述第二信息识别模型和所述第一层级信息,确定与所述第一层级信息相匹配的目标信息;
输出所述目标信息。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:训练所述信息识别模型,包括:
将获取到的电子病历数据,依据特定数据转换条件转换为第二数据;
确定与所述第二数据相匹配的标注信息,所述标注信息表征与所述第二数据相匹配的特征信息;
基于所述第二数据和所述标注信息,生成样本数据;
基于所述样本数据训练神经网络模型,得到信息识别模型。
3.根据权利要求2所述的方法,其特征在于,所述将获取到的电子病历数据,依据特定数据转换条件转换为第二数据,包括:
将获取到的电子病历数据进行标准化处理,得到第三数据;
对所述第三数据进行特征提取,得到初始特征;
依据所述初始特征之间的关联关系,对所述初始特征进行特征组合,得到组合后的特征;
依据与所述组合后的特征对应的权重数据,对所述组合后的特征进行处理,得到第二数据。
4.根据权利要求2所述的方法,其特征在于,所述确定与所述第二数据相匹配的标注信息,包括:
对所述第二数据进行划分,依据数据换分结果确定划分标注数据;
对所述第二数据进行疾病关联信息分析,得到关联信息标注数据。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
按照与所述待处理的电子病历数据的时间标识信息,对所述待处理的电子病历数据进行更新;
获取待处理的电子病历数据更新时间,依据所述更新时间将所述第一数据输入所述信息识别模型,确定与所述待处理的电子病历数据相匹配的目标信息,其中,所述目标信息的数量与所述更新时间的时间点数量相匹配。
6.根据权利要求5所述的方法,其特征在于,所述输出所述目标信息,包括:
在预设时间段分别输出与所述时间段相匹配的目标信息。
7.一种电子病历数据处理系统,其特征在于,所述系统包括:
数据获取装置,用于对获取的待处理的电子病历数据进行预处理,得到所述电子病历数据相匹配的第一数据;
模型调用装置,用于调用预构建的信息识别模型,所述信息识别模型的样本数据与所述第一数据相匹配;
存储单元,用于存储信息识别模型,所述信息识别模型包括第一信息识别模型和第二信息识别模型,且所述第二信息识别模型为所述第一信息识别模型的子模型;
数据处理装置,用于将所述第一数据输入所述信息识别模型,确定与所述待处理的电子病历数据相匹配的目标信息,其中,所述目标信息表征与所述电子病历数据具有特定关联关系的信息,所述信息识别模型具有预测所述第一数据的目标信息趋于所述第一数据的真实目标信息的能力;
所述数据处理装置具体用于:通过所述第一信息识别模型确定与所述待处理的电子病历数据相匹配的第一层级信息;通过所述第二信息识别模型和所述第一层级信息,确定与所述第一层级信息相匹配的目标信息;输出装置,用于输出所述目标信息。
8.根据权利要求7所述的系统,其特征在于,所述系统还包括:模型训练装置,所述模型训练装置,用于训练信息识别模型,所述模型训练装置包括:
数据转换单元,用于将获取到的电子病历数据,依据特定数据转换条件转换为第二数据;
信息确定单元,用于确定与所述第二数据相匹配的标注信息,所述标注信息表征与所述第二数据相匹配的特征信息;
样本生成单元,用于基于所述第二数据和所述标注信息,生成样本数据;
训练单元,用于基于所述样本数据训练神经网络模型,得到信息识别模型。
9.根据权利要求8所述的系统,其特征在于,所述数据转换单元具体用于:
将获取到的电子病历数据进行标准化处理,得到第三数据;
对所述第三数据进行特征提取,得到初始特征;
依据所述初始特征之间的关联关系,对所述初始特征进行特征组合,得到组合后的特征;
依据与所述组合后的特征对应的权重数据,对所述组合后的特征进行处理,得到第二数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010137584.2A CN111429985B (zh) | 2020-03-02 | 2020-03-02 | 电子病历数据处理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010137584.2A CN111429985B (zh) | 2020-03-02 | 2020-03-02 | 电子病历数据处理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111429985A CN111429985A (zh) | 2020-07-17 |
CN111429985B true CN111429985B (zh) | 2023-10-27 |
Family
ID=71547391
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010137584.2A Active CN111429985B (zh) | 2020-03-02 | 2020-03-02 | 电子病历数据处理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111429985B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112133390B (zh) * | 2020-09-17 | 2024-03-22 | 吾征智能技术(北京)有限公司 | 一种基于电子病历的肝病认知系统 |
CN114743621A (zh) * | 2022-03-21 | 2022-07-12 | 北京左医科技有限公司 | 病历的输入预测方法、病历的输入预测装置以及存储介质 |
TWI833566B (zh) * | 2023-02-02 | 2024-02-21 | 國立臺灣大學 | 應用於高缺值電子醫療病歷的輕量化自注意力模型裝置 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101903884A (zh) * | 2007-12-18 | 2010-12-01 | 皇家飞利浦电子股份有限公司 | 在医疗决策支持系统中整合生理模型 |
CN106951719A (zh) * | 2017-04-10 | 2017-07-14 | 荣科科技股份有限公司 | 临床诊断模型的构建方法及构建系统、临床诊断系统 |
CN107818083A (zh) * | 2017-09-29 | 2018-03-20 | 华南师范大学 | 基于三层条件随机场的疾病数据命名实体识别方法及系统 |
CN108154928A (zh) * | 2017-12-27 | 2018-06-12 | 北京嘉和美康信息技术有限公司 | 一种疾病诊断方法及装置 |
CN108170677A (zh) * | 2017-12-27 | 2018-06-15 | 北京嘉和美康信息技术有限公司 | 一种医疗术语抽取方法及装置 |
CN109036545A (zh) * | 2018-05-31 | 2018-12-18 | 平安医疗科技有限公司 | 医疗信息处理方法、装置、计算机设备和存储介质 |
CN109754012A (zh) * | 2018-12-29 | 2019-05-14 | 新华三大数据技术有限公司 | 实体语义关系分类方法、模型训练方法、装置及电子设备 |
CN110444259A (zh) * | 2019-06-06 | 2019-11-12 | 昆明理工大学 | 基于实体关系标注策略的中医电子病历实体关系提取方法 |
CN110491499A (zh) * | 2019-07-10 | 2019-11-22 | 厦门大学 | 面向标注电子病历的临床辅助决策方法及系统 |
CN110569511A (zh) * | 2019-09-22 | 2019-12-13 | 河南工业大学 | 基于混合神经网络的电子病历特征提取方法 |
-
2020
- 2020-03-02 CN CN202010137584.2A patent/CN111429985B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101903884A (zh) * | 2007-12-18 | 2010-12-01 | 皇家飞利浦电子股份有限公司 | 在医疗决策支持系统中整合生理模型 |
CN106951719A (zh) * | 2017-04-10 | 2017-07-14 | 荣科科技股份有限公司 | 临床诊断模型的构建方法及构建系统、临床诊断系统 |
CN107818083A (zh) * | 2017-09-29 | 2018-03-20 | 华南师范大学 | 基于三层条件随机场的疾病数据命名实体识别方法及系统 |
CN108154928A (zh) * | 2017-12-27 | 2018-06-12 | 北京嘉和美康信息技术有限公司 | 一种疾病诊断方法及装置 |
CN108170677A (zh) * | 2017-12-27 | 2018-06-15 | 北京嘉和美康信息技术有限公司 | 一种医疗术语抽取方法及装置 |
CN109036545A (zh) * | 2018-05-31 | 2018-12-18 | 平安医疗科技有限公司 | 医疗信息处理方法、装置、计算机设备和存储介质 |
CN109754012A (zh) * | 2018-12-29 | 2019-05-14 | 新华三大数据技术有限公司 | 实体语义关系分类方法、模型训练方法、装置及电子设备 |
CN110444259A (zh) * | 2019-06-06 | 2019-11-12 | 昆明理工大学 | 基于实体关系标注策略的中医电子病历实体关系提取方法 |
CN110491499A (zh) * | 2019-07-10 | 2019-11-22 | 厦门大学 | 面向标注电子病历的临床辅助决策方法及系统 |
CN110569511A (zh) * | 2019-09-22 | 2019-12-13 | 河南工业大学 | 基于混合神经网络的电子病历特征提取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111429985A (zh) | 2020-07-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11232856B2 (en) | Methods for automatic cohort selection in epidemiologic studies and clinical trials | |
US7917377B2 (en) | Patient data mining for automated compliance | |
US8949108B2 (en) | Document processing, template generation and concept library generation method and apparatus | |
CN111429985B (zh) | 电子病历数据处理方法及系统 | |
US20150178386A1 (en) | System and Method for Extracting Measurement-Entity Relations | |
Caruccio et al. | Can ChatGPT provide intelligent diagnoses? A comparative study between predictive models and ChatGPT to define a new medical diagnostic bot | |
US20070192143A1 (en) | Quality Metric Extraction and Editing for Medical Data | |
JP2017174405A (ja) | オープンデータ及び臨床医の入力を用いて患者の治療リスクを評価するシステム及び方法 | |
US20090083203A1 (en) | Method for constructing database to deduce disease and providing u-health service | |
CN113724848A (zh) | 基于人工智能的医疗资源推荐方法、装置、服务器及介质 | |
CN102405473A (zh) | 医护点动作医疗系统和方法 | |
CN113851220A (zh) | 基于时序医疗健康数据的病情趋势预测方法和系统 | |
US11875884B2 (en) | Expression of clinical logic with positive and negative explainability | |
Gudivada et al. | A literature review on machine learning based medical information retrieval systems | |
US11127502B2 (en) | Computer apparatus and method to identify healthcare resources used by a patient given a potential diagnosis | |
JP2017167738A (ja) | 診断処理装置、診断処理システム、サーバ、端末装置、診断処理方法及びプログラム | |
Alvarez et al. | Application of the spreading activation technique for recommending concepts of well-known ontologies in medical systems | |
JP7238705B2 (ja) | 診療支援方法、診療支援システム、学習モデルの生成方法、および、診療支援プログラム | |
CN108630290B (zh) | 一种面向慢病患者的健康知识个性化推荐方法和系统 | |
CN114864088B (zh) | 一种基于医疗健康的数字孪生建立方法、装置和存储介质 | |
Jia et al. | Dkdr: An approach of knowledge graph and deep reinforcement learning for disease diagnosis | |
GB2548627A (en) | A system and a method for assessing patient treatment risk using open data and clinician input | |
O'Sullivan et al. | Mobile case-based decision support for intelligent patient knowledge management | |
Raboudi et al. | The PACIFIC ontology for heterogeneous data management in cardiology | |
Argüello et al. | Electronic health records (ehrs) standards and the semantic edge: A case study of visualising clinical information from ehrs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |