CN112365939B

CN112365939B - 一种基于医疗健康大数据的数据治理方法及系统

Info

Publication number: CN112365939B
Application number: CN202011097864.1A
Authority: CN
Inventors: 崔立真; 艾丽娜; 闫中敏; 鹿旭东; 何伟; 郭伟
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2020-10-14
Filing date: 2020-10-14
Publication date: 2023-04-07
Anticipated expiration: 2040-10-14
Also published as: CN112365939A

Abstract

本发明公开了一种基于医疗健康大数据的数据治理方法及系统，所述方法包括以下步骤：获取多源异构医疗健康大数据；根据预设的标准数据结构，对医疗健康大数据进行标准化；检测存在数据缺失的属性特征，对缺失数据采用聚类方法或随机森林预测模型预测方法进行补全。本发明从多个角度出发，更加全面系统对医疗数据进行数据治理，提高医疗数据质量，为医疗数据分析及挖掘工作提供便利。

Description

一种基于医疗健康大数据的数据治理方法及系统

技术领域

本发明属于医疗大数据处理技术领域，尤其涉及一种基于医疗健康大数据的数据治理方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

随着互联网、计算机等信息技术的飞速发展，医疗健康信息化的广泛普及，使得医疗健康大数据海量增长，医疗健康领域已经真正进入了“大数据时代”。计算机信息技术的快速发展，大数据技术手段的不断革新，国家政策的大力支持，都使医疗服务得到更好的延伸，为人们提供了更简洁、更便捷的医疗健康服务，也为医疗健康大数据指明了新的方向。对医疗健康大数据的进行有效挖掘及研究，为医生和科研人员的决策提供新的可靠支撑等已成为当下医疗健康大数据的重要课题。

据发明人了解，目前针对医疗健康大数据的治理方法存在以下问题：

基于医疗大数据多源异构的特点，目前对医疗数据的格式没有标准的数据结构和统一的存储模式；对于缺失的、不完整的医疗数据，没有有效的补全机制；且没有对医疗数据进行高效的质量核查和管理等。

发明内容

为了解决上述问题，本发明提供一种基于医疗健康大数据的数据治理方法及系统，从多个角度出发，更加全面系统对医疗数据进行数据治理，提高医疗数据质量，为医疗数据分析及挖掘工作提供便利。

为实现上述目的，本发明采用如下技术方案：

第一方面，本发明提供一种基于医疗健康大数据的数据治理方法，包括：

获取多源异构医疗健康大数据；

根据预设的标准数据结构，对医疗健康大数据进行标准化；

对标准化后的医疗健康大数据检测存在数据缺失的属性特征，对缺失数据进行补全。

第二方面，本发明提供一种基于医疗健康大数据的数据治理系统，包括：

数据获取模块，用于获取多源异构医疗健康大数据；

数据标准化模块，用于根据预设的标准数据结构，对医疗健康大数据进行标准化；

缺失补全模块，用于对标准化后的医疗健康大数据检测存在数据缺失的属性特征，对缺失数据进行补全。

第三方面，本发明提供一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成第一方面所述的方法。

第四方面，本发明提供一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面所述的方法。

与现有技术相比，本发明的有益效果为：

本发明提出针对医疗健康大数据的数据治理方法，对医疗数据的集成、医疗数据存储模式统一、医学术语的标准化规范化、医疗数据的质量核查和管理、病历文本的结构化信息提取等方面，从多个角度出发，更加全面系统对医疗数据进行数据治理，提高医疗数据质量，有助于开发医疗数据的潜在价值，为医疗数据分析及挖掘工作提供便利。

本发明的医疗健康大数据的数据治理方法，实现将来源不同、存储形式不同的医疗数据进行数据存储模式的整合统一，对于不规范的医学术语进行标准化操作，对电子病历文本进行结构化抽取，实现通过构建疾病队列对特定病种的疾病进行研究与分析。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例1提供的医疗健康大数据治理方法流程图；

图2为本发明实施例1提供的对医疗健康大数据的医学术语标准化方法流程图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

技术术语介绍：

CRF：条件随机场(Conditional Random Field,CRF)模型是基于机器学习识别中的一种重要方法。CRF模型具有最大熵算法的独立性强、隐马尔科夫模型的识别性能高的特点，可以有效地避免识别复杂命名实体难度大的问题。CRF模型比神经网络模型在可解释性方面效果更佳,对于实体识别中的特征可以做出较好的解释，具有良好的识别性能，可以有效地实现病历文本的结构化。

K-means：k均值(K-means)是一种非常著名的划分聚类算法，由于简洁和效率使得他成为所有聚类算法中最广泛使用的。给定一个数据点集合和需要的聚类数目k，k由用户指定，k均值算法根据某个距离函数反复把数据分入k个聚类中。

Random Forest：随机森林(Random Forest)是机器学习中的一种经典算法模型，可利用多棵树对样本进行训练并预测的一种分类器。对于每个训练集，构造一颗决策树，在节点找特征进行分裂的时候，并不是对所有特征找到能使得指标(如信息增益)最大的，而是在特征中随机抽取一部分特征，在抽到的特征中间找到最优解，应用于节点，进行分裂。

实施例1

本实施例提供了一种基于医疗健康大数据的数据治理方法，如图1所示，包括以下步骤：

步骤1：获取多源异构医疗健康大数据。

本步骤的目的是将各类医疗数据进行集成。由于医疗健康大数据具有多源异构的特性，在对医疗数据进行治理之前，需要将各类医疗数据进行集中和有效的整合。对医疗数据进行抽取，并将抽取整合后的医疗数据统一存储到数据库中，以实现对多源异构医疗数据的整合，为后续医疗数据治理工作做准备。所述步骤1具体包括：

步骤1.1：根据预设的数据抽取规则，抽取医疗健康大数据。

具体地，预先根据各类数据源的特点，对数据抽取规则进行配置，包括但不限于：配置各类数据源要抽取的数据字段名称、数据类型，抽取方式、抽取频率各类数据源的抽取顺序等。

根据预设的数据抽取规则，即可执行抽取操作，具体地，通过调用数据抽取接口类，逐条进行医疗数据抽取。

采用全量抽取方式抽取历史数据，采用增量抽取方式抽取新增数据。

抽取过程中，还生成抽取任务的日志信息，所述日志信息包括数据的抽取进度，可供用户随时查看。

步骤1.2：将医疗健康大数据进行分类存储。

根据非结构化和结构化数据进行分类存储，具体地，将就诊记录、体检记录等结构化数据存储在数据库中，将病历文本、检查报告等文本信息转换成相应的文件类型进行存储。

步骤2：根据预设的标准数据结构，对医疗健康大数据进行标准化。

获取集成后的医疗数据，对于这些多源异构数据，若不预先对这些多源异构的数据进行数据模式统一，形成标准的数据结构，会对医疗数据的后期治理及数据分析应用造成困难。

对于结构化的数据，可以为各个医疗数据信息数据表定义其标准的数据结构，并且加以管理和维护，同时可将数据中认为重要的字段提取出来进行单独的操作及维护。

对于非结构化的数据，如病例文本，需要首先进行结构化，通过对电子病历文本数据进行结构化信息抽取，准确快速地对病历文本进行结构化拆分，形成可分析数据，抽取其中有价值的数据信息。同时还提供完善的数据审核机制，保证结构化数据信息的正确性。具体包括：

本实施例在设计病历文本结构化自动识别时，选用条件随机场模型，即CRF模型，利用医疗数据标准化后信息构建的实体词典作为训练特征输入CRF模型训练预测，进行关于病人住院期间诊断信息的相关数据的实体识别；从而根据标注和预设数据结构，将非结构化数据进行结构化。

CRF模型比神经网络模型，在可解释性方面效果更佳，对于实体识别中的特征可以做出较好的解释。

通过自定义构建实体词典数据，标注病历语料集对CRF模型进行训练，生成学习模型，对没有标注过的病历文本语料进行自动识别标注，从而实现病历文本的结构化。

通过建立人工语料库，经模型不断训练来对未标记的语料进行识别标注，相比基于规则的识别方法和基于词典的识别方法效果更好。

步骤3：检测存在数据缺失的属性特征，对缺失数据进行补全。

医疗数据不完整现象的治理是对医疗数据质量管理非常重要的一个环节。而医疗数据缺失补全是对医疗数据不完整的一个重要解决途径。

所述步骤3具体包括：

步骤3.1：检测存在数据缺失的属性特征，并计算各属性特征的缺失比例；

步骤3.2：对于缺失比例超过设定阈值的属性特征，不进行处理；对于缺失比例小于设定阈值的属性特征，对缺失数据进行补全。

在医疗领域，当某一属性特征数据大量缺失时，如体检项目中身高体重信息、病人的种族信息等特征，对于这类数据在进行数据治理时，不会对补全处理，而是选择忽略处理。同时在进行数据分析及场景应用中也会舍弃对这类特征数据的使用，以免混入噪声，对结果的准确性产生一定影响。而当某一属性特征数据值缺失较少时(本实施例中设定缺失比例在10％以内)，为使之后医疗数据标准化操作更完善，不采取删除特征的操作，而是换一种方式，通过缺失补全的方法对其进行填充处理。

对于医疗数据的缺失补全来说，单纯地使用某个特定数值来进行补全常常不是最优选择。本实施例通过建立一些算法模型，通过算法拟合填充的方式来对缺失数据进行补全处理。本实施例提供了以下两种缺失数据补全方法：

(1)采用K-means缺失填充方法，对非重要字段缺失数据进行均值补全；

当缺失数据为非重要字段数据时，可以选择K-means缺失填充方法进行补全，将均值作为缺失填充依据进行简单填充。通过计算缺失数据与非缺失数据的欧氏距离，利用K个距离缺失数据最近的值的加权平均的方式来填补缺失数据。

(2)采用Random Forest缺失填充方法，对重要字段缺失数据进行预测填充。

当缺失数据为重要字段数据时，仅通过K-means均值填充的方法可能会人为增加了噪声，使数据缺失补全效果变差，因此对于这些数据采用Random Forest缺失填充方法进行数据预测填充更为恰当。Random Forest缺失填充方法考虑到变量间的相互作用及非线性特点，利用数据表中某些没有缺失的特征属性来预测某特征属性的缺失值，从而进行数据缺失补全。

步骤4：对医疗健康大数据中的医学术语进行标准化。

所述的步骤4是医疗数据进行数据融合的一种重要的解决途径，也是对医疗实体冲突消解的重要方法。通过对医疗健康领域的疾病医疗实体的名称和代码的不一致行为进一步规范，来解决疾病、药品、手术和检验项目指标等医学术语的信息冲突问题。

如图2所示，所述步骤4具体包括：

步骤4.1：获取医学术语标准名称和标准代码，基于SimHash将抽取的医学术语名称与标准名称进行初步匹配，若完全匹配，对抽取的医学术语名称进行标准化并赋予标准代码，并标记为已匹配；否则，执行步骤4.2。

其中，基于SimHash将抽取的医学术语名称与标准名称进行初步匹配包括：

(1)对名称进行分词；

(2)基于TF-IDF方法对每个词语计算权重；

(3)计算每个词语的hash值，得到一串0，1序列；

(4)根据每个词语的权重，对各个词语的hash值进行调整：如果一个词语的权重为weight、hash值为0，则这个hash值调整为-weight，若hash值为1，调整为weight；

(5)对名称中所有词语调整后得到的序列按位进行相加，对于相加后的序列，将负数置为0，其他置为1，得到权重调整后的序列。

(6)根据权重调整后的序列，对抽取的医学术语名称与标准名称进行初步匹配。

步骤4.2：对不能完全匹配的医学术语，基于TF-IDF方法对医学术语名称和标准名称分别进行权重调整，基于SimHash对权重调整后的医学术语名称和标准名称进行二次匹配，若能够近似匹配，则对抽取的医学术语名称进行标准化并赋予标准代码，并标记为已匹配；若否，标记为未匹配。

其中，基于TF-IDF方法对医学术语名称和标准名称分别进行权重调整包括：

本实施例中对传统的TF-IDF方法进行权重调整，不是根据词频而是根据专家知识将分词后的词汇分成“修饰性词”、“重要人体部位”、“核心疾病”三类，再根据词汇类别不同设置不同权重。对各类词汇在疾病名称匹配结果中的贡献程度进行统计(即统计各类词汇在疾病名称匹配结果所占比例)。据此将“修饰性词”、“重要人体部位”、“核心疾病”的权重设置不同权重。

将权重调整后的TF-IDF方法应用于医学术语的标准化问题，通过建立医疗健康领域词典，采用权重调整的TF-IDF方法，将不同的医学术语匹配至标准术语的名称和代码中，来提高疾病匹配的准确率，以达到医学术语标准化的目的。

步骤5：对数据质量进行核查。

所述的步骤5对历史医疗数据进行值域指标核查、空置指标核查、缺失率统计等全面核查方法可以了解当前数据质量情况，同时还完善了系统的数据检错手段，对数据进行定期检查，及时发现数据问题，实现数据质量实时监控，方便后续数据研究。

本实施例提出一个针对医疗健康大数据的数据治理方法，考虑了整个医疗数据治理的流程，不单单偏向于特定的方向对医疗数据进行数据治理。对医疗数据的集成、医疗数据存储模式统一，医学术语的标准化规范化、医疗数据的质量核查和管理、病历文本的结构化信息提取等方面内容进行分析和设计。从多个角度出发，更加全面系统对医疗数据进行数据治理，提高医疗数据质量。本发明有助于对医疗健康大数据预先进行医疗数据治理，利用好医疗健康大数据的规模大、结构多样、应用价值高等特点，给相关的医疗工作人员提供良好的数据基础；有助于开发医疗数据的潜在价值，为医疗数据分析及挖掘工作提供便利。

实施例2

本实施例提供一种基于医疗健康大数据的数据治理系统，包括：

数据获取模块，被配置为获取多源异构医疗健康大数据；

数据结构标准化模块，被配置为根据预设的标准数据结构，对医疗健康大数据进行标准化；

缺失补全模块，被配置为检测存在数据缺失的属性特征，对缺失数据进行补全；

术语标准化模块，被配对置为医疗健康大数据中的术语进行标准化。

此处需要说明的是，上述模块对应于实施例1中的步骤S1至S4，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

在更多实施例中，还提供：

一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例1中所述的方法。为了简洁，在此不再赘述。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例1中所述的方法。

实施例1中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元即算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于医疗健康大数据的数据治理方法，其特征在于，包括：

获取多源异构医疗健康大数据；

根据预设的标准数据结构，对医疗健康大数据进行标准化；

对标准化后的医疗健康大数据检测存在数据缺失的属性特征，对缺失数据进行补全；

所述的获取多源异构医疗健康大数据包括：

根据预设的数据抽取规则，抽取医疗健康大数据；

将医疗健康大数据根据结构化和非结构化数据进行分类存储；

对于非结构化数据，在进行标准化之前进行结构化；

对于非结构化数据，基于实体识别模型进行实体识别，并进行自动识别标注；其中，所述实体识别模型基于预先构建的实体词典采用条件随机场模型训练得到；

根据标注和预设数据结构，将非结构化数据进行结构化；

对缺失数据采用聚类方法进行补全包括：

当缺失数据为非重要字段数据时，采用K-means缺失填充方法进行补全，通过计算缺失数据与非缺失数据的欧氏距离，利用K个距离缺失数据最近的值的加权平均的方式填补缺失数据；

当缺失数据为重要字段数据时，对缺失数据采用随机森林预测模型预测方法进行补全，通过非缺失数据的特征属性预测缺失数据，从而进行数据缺失补全；

基于TF-IDF方法对医学术语名称和标准名称分别进行权重调整包括：

对传统的TF-IDF方法进行权重调整，不是根据词频而是根据专家知识将分词后的词汇分成“修饰性词”、“重要人体部位”、“核心疾病”三类，再根据词汇类别不同设置不同权重，对各类词汇在疾病名称匹配结果中的贡献程度进行统计各类词汇在疾病名称匹配结果所占比例，将“修饰性词”、“重要人体部位”、“核心疾病”的权重设置不同权重。

2.如权利要求1所述的一种基于医疗健康大数据的数据治理方法，其特征在于，检测存在数据缺失的属性特征后，计算各属性特征的缺失比例；对于缺失比例超过设定阈值的属性特征，不进行处理；对于缺失比例小于设定阈值的属性特征，对缺失数据进行补全。

3.如权利要求1所述的一种基于医疗健康大数据的数据治理方法，其特征在于，所述方法还包对医疗健康大数据中的医学术语进行标准化：

获取医学术语标准名称和标准代码，基于SimHash将抽取的医学术语名称与标准名称进行初步匹配，若完全匹配，对抽取的医学术语名称进行标准化并赋予标准代码，并标记为已匹配；

对于不能完全匹配的医学术语名称，基于TF-IDF方法对医学术语名称和标准名称分别进行权重调整，基于SimHash对权重调整后的医学术语名称和标准名称进行二次匹配，若能够近似匹配，则对抽取的医学术语名称进行标准化并赋予标准代码，并标记为已匹配；若否，标记为未匹配。

4.一种基于医疗健康大数据的数据治理系统，其特征在于，包括：

数据获取模块，用于获取多源异构医疗健康大数据；

缺失补全模块，用于对标准化后的医疗健康大数据检测存在数据缺失的属性特征，对缺失数据进行补全；

所述的获取多源异构医疗健康大数据包括：

根据预设的数据抽取规则，抽取医疗健康大数据；

对于非结构化数据，在进行标准化之前进行结构化；

根据标注和预设数据结构，将非结构化数据进行结构化；

对缺失数据采用聚类方法进行补全包括：

5.一种电子设备，其特征在于，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求1-3任一项所述的方法。

6.一种计算机可读存储介质，其特征在于，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-3任一项所述的方法。