CN108182963A

CN108182963A - 一种医疗数据处理方法及装置

Info

Publication number: CN108182963A
Application number: CN201711339040.9A
Authority: CN
Inventors: 崔金梦; 崔乐乐
Original assignee: Shandong Inspur Cloud Service Information Technology Co Ltd
Current assignee: Shandong ICity Information Technology Co., Ltd.
Priority date: 2017-12-14
Filing date: 2017-12-14
Publication date: 2018-06-19

Abstract

本发明提供了一种医疗数据处理方法及装置，该方法包括：针对每一类医疗数据均执行：利用当前医疗数据的数据类型所对应的预设数据采集方式，将当前医疗数据采集到该数据类型对应的关系型数据库；将各关系型数据库中的医疗数据导入到一分布式数据库时，根据预设数据清洗规则对采集到的医疗数据进行清洗处理；根据预设数据处理规则，对清洗后的医疗数据进行汇总处理。基于大数据技术以自动处理海量医疗数据，故本方案能够解决现有医疗数据处理费时费力的问题。

Description

一种医疗数据处理方法及装置

技术领域

本发明涉及计算机技术领域，特别涉及一种医疗数据处理方法及装置。

背景技术

在现今社会，医疗和健康数据呈几何级增长趋势急剧扩容，使得医疗数据数量庞大。

目前，工作人员可以按需查询分析部分特定医疗数据，以从中获得有用信息。

但是，当医疗数据数量庞大时，现有实现方式费时费力。

发明内容

本发明提供了一种医疗数据处理方法及装置，能够解决现有医疗数据处理费时费力的问题。

为了达到上述目的，本发明是通过如下技术方案实现的：

一方面，本发明提供了一种医疗数据处理方法，包括：

针对至少一类医疗数据中的每一类医疗数据均执行：根据当前医疗数据的数据类型，利用所述数据类型对应的预设数据采集方式，将所述当前医疗数据采集到所述数据类型对应的关系型数据库；

将每一个所述关系型数据库中的医疗数据导入到一分布式数据库时，根据预设数据清洗规则，对采集到的所述医疗数据进行清洗处理；

根据预设数据处理规则，对清洗后的所述医疗数据进行汇总处理。

进一步地，所述数据类型为结构化数据时，所述预设数据采集方式包括：利用kettle中的输入组件以进行医疗数据的输入，并采用正则表达式对输入的医疗数据进行匹配；其中，所述输入组件包括Access输入、CSV(Comma-Separated Values，逗号分隔值)文件输入、数据库表输入、OLAP(Online Analytical Processing，联机分析处理)输入、RSS(Really Simple Syndication，简易信息聚合)输入、Cube输入中的任意一种；

所述数据类型为半结构化数据，且所述医疗数据来源于网页时，所述预设数据采集方式包括：采用机器学习技术、交互式元数据知识模型建模、引导学习方法对xml(Extensible Markup Language，可扩展标记语言)文件中的医疗数据进行抽取；

所述数据类型为非结构化数据时，所述预设数据采集方式包括：使用3种线型模型来表示表格，并采用模糊匹配方法识别表格中直线行上的字段；针对手写汉字文件中的医疗数据，使用引力搜索算法识别并抽取表格中的汉字。

进一步地，所述预设数据清洗规则包括：通过维护源数据文件相关的元数据，利用信息复写方法进行数据映射转换，以将医疗数据复写为具有预设数据格式的医疗数据；利用kettle中的转换组件，对源数据库中不存在的医疗数据，进行拆分字段、字段选择、剪切字符串中的任一处理操作；利用所述转换组件，基于N Grams距离法、快速过滤法、基本近邻排序方法、多趟排序近邻方法和优先队列策略中的任一方法，检测待清洗医疗数据中的重复数据，并对检测出的重复数据进行去重处理；利用kettle执行多进程、多线程、流水、多处理器中的任一技术，以进行医疗数据的并行增量处理；

其中，所述转换组件包括排序记录、去除重复记录、哈希值计算中的任意一种。

进一步地，所述预设数据处理规则包括：基于物理数据模型定义的表结构，将医疗数据装入预设数据库内部数据表中，其中，

所述预设数据库与所述分布式数据库处于同一系统中时，使用kettle中的输出组件执行医疗数据装入，其中，所述输出组件包括SQL(Structured Query Language，结构化查询语言)文件输出、数据库表输出、Access输出、删除、RSS输出中的任意一种；

所述预设数据库与所述分布式数据库不处于同一系统中时，通过元数据定义的数据规则和格式检查，更新对应数据库内的医疗数据，以及保存原有的医疗数据。

进一步地，所述至少一类医疗数据包括：医疗影像数据、病历数据、检验检查结果、诊疗费用数据中的任意一类或多类。

另一方面，本发明提供了一种医疗数据处理装置，包括：

数据采集单元，用于针对至少一类医疗数据中的每一类医疗数据均执行：根据当前医疗数据的数据类型，利用所述数据类型对应的预设数据采集方式，将所述当前医疗数据采集到所述数据类型对应的关系型数据库；

数据清洗单元，用于将每一个所述关系型数据库中的医疗数据导入到一分布式数据库时，根据预设数据清洗规则，对采集到的所述医疗数据进行清洗处理；

数据处理单元，用于根据预设数据处理规则，对清洗后的所述医疗数据进行汇总处理。

进一步地，所述数据类型为结构化数据时，所述预设数据采集方式包括：利用kettle中的输入组件以进行医疗数据的输入，并采用正则表达式对输入的医疗数据进行匹配；其中，所述输入组件包括Access输入、CSV文件输入、数据库表输入、OLAP输入、RSS输入、Cube输入中的任意一种；

所述数据类型为半结构化数据，且所述医疗数据来源于网页时，所述预设数据采集方式包括：采用机器学习技术、交互式元数据知识模型建模、引导学习方法对xml文件中的医疗数据进行抽取；

所述预设数据库与所述分布式数据库处于同一系统中时，使用kettle中的输出组件执行医疗数据装入，其中，所述输出组件包括SQL文件输出、数据库表输出、Access输出、删除、RSS输出中的任意一种；

本发明提供了一种医疗数据处理方法及装置，该方法包括：针对每一类医疗数据均执行：利用当前医疗数据的数据类型所对应的预设数据采集方式，将当前医疗数据采集到该数据类型对应的关系型数据库；将各关系型数据库中的医疗数据导入到一分布式数据库时，根据预设数据清洗规则对采集到的医疗数据进行清洗处理；根据预设数据处理规则，对清洗后的医疗数据进行汇总处理。基于大数据技术以自动处理海量医疗数据，故本发明能够解决现有医疗数据处理费时费力的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种医疗数据处理方法的流程图；

图2是本发明一实施例提供的一种医疗数据处理装置的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供了一种医疗数据处理方法，可以包括以下步骤：

步骤101：针对至少一类医疗数据中的每一类医疗数据均执行：根据当前医疗数据的数据类型，利用所述数据类型对应的预设数据采集方式，将所述当前医疗数据采集到所述数据类型对应的关系型数据库。

步骤102：将每一个所述关系型数据库中的医疗数据导入到一分布式数据库时，根据预设数据清洗规则，对采集到的所述医疗数据进行清洗处理。

步骤103：根据预设数据处理规则，对清洗后的所述医疗数据进行汇总处理。

本发明实施例提供了一种医疗数据处理方法，针对每一类医疗数据均执行：利用当前医疗数据的数据类型所对应的预设数据采集方式，将当前医疗数据采集到该数据类型对应的关系型数据库；将各关系型数据库中的医疗数据导入到一分布式数据库时，根据预设数据清洗规则对采集到的医疗数据进行清洗处理；根据预设数据处理规则，对清洗后的医疗数据进行汇总处理。基于大数据技术以自动处理海量医疗数据，故本发明实施例能够解决现有医疗数据处理费时费力的问题。

在本发明的一个实施例中，所述至少一类医疗数据包括：医疗影像数据、病历数据、检验检查结果、诊疗费用数据中的任意一类或多类。

详细地，通过对各种医疗数据的采集、清洗和处理，处理后所得的医疗数据结果可以实际应用到临床数据对比、药品研发、临床决策支持等场景领域，以为广大患者、医务人员、科研人员及政府决策者提供服务和协助。

详细地，对于各类医疗数据，可以通过大数据采集方式，将医疗数据采集到各种类型数据库，如oracle、mysql等关系型数据库中。其中，医疗数据的数据类型不同时，数据采集方式可以不同。

因此，在本发明的一个实施例中，所述数据类型为结构化数据时，所述预设数据采集方式包括：利用kettle中的输入组件以进行医疗数据的输入，并采用正则表达式对输入的医疗数据进行匹配；其中，所述输入组件包括Access输入、CSV文件输入、数据库表输入、OLAP输入、RSS输入、Cube输入中的任意一种；

详细地，对于结构化数据来说：

具有固定规律和结构的数据为结构化数据。可以通过大数据工具kettle中的输入组件进行结构化数据的输入，然后用正则表达式，或其他表达式和语句，来解析结构化的规律。

详细地，对于半结构化数据来说：

可以采用机器学习的技术对网页内容进行抽取，使用交互式的元数据知识模型建模并用引导学习的方法，对xml文件中的数据进行说明和抽取。

详细地，对于非结构化数据来说：

可以使用3种线型模型来表示表格，并采用模糊匹配方法识别表格中直线行上的字段。针对手写汉字文件的数据，使用基于引力的算法，以有效识别并抽取表格中的汉字。

详细地，完成数据采集后，数据可以导入到一个集中的大型分布式数据库，或者分布式存储集群，并且可以在导入基础上进行清洗和处理工作，使数据变得规范，无错乱数据，供以后的统计分析使用。

因此，在本发明的一个实施例中，所述预设数据清洗规则包括：通过维护源数据文件相关的元数据，利用信息复写方法进行数据映射转换，以将医疗数据复写为具有预设数据格式的医疗数据；利用kettle中的转换组件，对源数据库中不存在的医疗数据，进行拆分字段、字段选择、剪切字符串中的任一处理操作；利用所述转换组件，基于N Grams距离法、快速过滤法、基本近邻排序方法、多趟排序近邻方法和优先队列策略中的任一方法，检测待清洗医疗数据中的重复数据，并对检测出的重复数据进行去重处理；利用kettle执行多进程、多线程、流水、多处理器中的任一技术，以进行医疗数据的并行增量处理；

详细地，数据清洗中可以执行数据的转化。比如，数据名称及格式的统一，即数据粒度转换、商务规则计算以及统一的命名、数据格式、计量单位等。针对这一问题，可以使用信息复写的方法，用以处理数据转换和集成问题，通过对数据源的描述将信息复写成目标格式，从而保证了转换过程的正确性。通过维护源数据文件相关的元数据来进行数据映射和转换。

再比如，存在源数据库中可能不存在的数据时，可以进行字段的组合、分割或计算。针对这一问题，可以通过业务逻辑分析，例如使用kettle中转换组件进行处理，如拆分字段、计算器、字段选择、剪切字符串等。

详细地，除了数据转化，数据清洗中还可以执行对重复数据的清洗，以消除数据集中近似重复的记录。为了从数据集中消除重复记录，首先可以检测重复记录，其中字符串的匹配问题是检测重复记录的基础。如此，可以使用N Grams距离法、快速过滤法等。消除大型数据集中相似重复记录方面的策略，可以有基本近邻排序方法、多趟排序近邻方法和优先队列策略等。对重复数据的清洗，可以使用kettle的转换组件，如：排序记录、去除重复记录、哈希值计算等。

此外，还可以针对海量数据集进行增量处理的数据清洗。例如，可以利用kettle工具可以进行多进程、多线程、流水、多处理器等技术，来进行数据的并行集成与清洗，并提供数据的增量复制功能。

详细地，统计与分析主要利用分布式数据库，或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等，以满足大多数常见的分析需求。在这一方面，一些实时性需求可以用到EMC的GreenPlum、Oracle的Exadata，以及基于MySQL的列式存储Infobright等。

在本发明的一个实施例中，所述预设数据处理规则包括：基于物理数据模型定义的表结构，将医疗数据装入预设数据库内部数据表中，其中，

在本发明一个实施例中，可以将清洗后的干净的数据集，按照物理数据模型定义的表结构装入目标数据库的数据表中，并允许人工干预，以及提供强大的错误报告、系统日志、数据备份与恢复功能。其中，这一整个数据载入操作过程往往要跨网络、跨操作平台。

详细地，装载问题可以分为两类：

第一类，若目标数据库处于同一系统中，可以将数据及相关元数据直接存入。例如，可以使用kettle中的输出组件，如SQL文件输出、数据库表输出、Access输出、删除、RSS输出等。

第二类，数据库中已有数据的更新，可看成增量数据的装载，在通过元数据定义的数据规则和格式检查之后，更新对应数据库内的数据，同时将原有数据保存。通常情况下，整个装载过程需要加时间戳。

优选地，数据库的装载是以确定的周期进行的，影响了实时决策的精确性，因此应使用实时数据库的装载，将数据库内的信息变化定义为实时发生的，通过表结构复制、查询断言约束等方法使得数据库的装载最小化地影响查询响应，以提供实时的决策分析。其中，可以使用kettle的输出组件和转换组件，如：插入/更新，更新，数据同步。

详细地，可以对分析统计后的数据进行应用，如临床数据对比、药品研发、临床决策支持等。

综上所述，大数据技术可以帮助人们存储管理好医疗大数据，并从大体量、高复杂的数据中提取价值，从而促进医疗行业的发展。

如图2所示，本发明一个实施例提供了一种医疗数据处理装置，包括：

数据采集单元201，用于针对至少一类医疗数据中的每一类医疗数据均执行：根据当前医疗数据的数据类型，利用所述数据类型对应的预设数据采集方式，将所述当前医疗数据采集到所述数据类型对应的关系型数据库；

数据清洗单元202，用于将每一个所述关系型数据库中的医疗数据导入到一分布式数据库时，根据预设数据清洗规则，对采集到的所述医疗数据进行清洗处理；

数据处理单元203，用于根据预设数据处理规则，对清洗后的所述医疗数据进行汇总处理。

在本发明的一个实施例中，所述数据类型为结构化数据时，所述预设数据采集方式包括：利用kettle中的输入组件以进行医疗数据的输入，并采用正则表达式对输入的医疗数据进行匹配；其中，所述输入组件包括Access输入、CSV文件输入、数据库表输入、OLAP输入、RSS输入、Cube输入中的任意一种；

在本发明的一个实施例中，所述预设数据清洗规则包括：通过维护源数据文件相关的元数据，利用信息复写方法进行数据映射转换，以将医疗数据复写为具有预设数据格式的医疗数据；利用kettle中的转换组件，对源数据库中不存在的医疗数据，进行拆分字段、字段选择、剪切字符串中的任一处理操作；利用所述转换组件，基于N Grams距离法、快速过滤法、基本近邻排序方法、多趟排序近邻方法和优先队列策略中的任一方法，检测待清洗医疗数据中的重复数据，并对检测出的重复数据进行去重处理；利用kettle执行多进程、多线程、流水、多处理器中的任一技术，以进行医疗数据的并行增量处理；

上述装置内的各单元之间的信息交互、执行过程等内容，由于与本发明方法实施例基于同一构思，具体内容可参见本发明方法实施例中的叙述，此处不再赘述。

综上所述，本发明的各个实施例至少具有如下有益效果：

1、本发明实施例中，针对每一类医疗数据均执行：利用当前医疗数据的数据类型所对应的预设数据采集方式，将当前医疗数据采集到该数据类型对应的关系型数据库；将各关系型数据库中的医疗数据导入到一分布式数据库时，根据预设数据清洗规则对采集到的医疗数据进行清洗处理；根据预设数据处理规则，对清洗后的医疗数据进行汇总处理。基于大数据技术以自动处理海量医疗数据，故本发明实施例能够解决现有医疗数据处理费时费力的问题。

2、本发明实施例中，通过对各种医疗数据的采集、清洗和处理，处理后所得的医疗数据结果可以实际应用到临床数据对比、药品研发、临床决策支持等场景领域，以为广大患者、医务人员、科研人员及政府决策者提供服务和协助。

需要说明的是，在本文中，诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个〃····〃”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储在计算机可读取的存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。

最后需要说明的是：以上所述仅为本发明的较佳实施例，仅用于说明本发明的技术方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种医疗数据处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，

所述数据类型为结构化数据时，所述预设数据采集方式包括：利用kettle中的输入组件以进行医疗数据的输入，并采用正则表达式对输入的医疗数据进行匹配；其中，所述输入组件包括Access输入、逗号分隔值CSV文件输入、数据库表输入、联机分析处理OLAP输入、简易信息聚合RSS输入、Cube输入中的任意一种；

所述数据类型为半结构化数据，且所述医疗数据来源于网页时，所述预设数据采集方式包括：采用机器学习技术、交互式元数据知识模型建模、引导学习方法对可扩展标记语言xml文件中的医疗数据进行抽取；

3.根据权利要求1所述的方法，其特征在于，

所述预设数据清洗规则包括：通过维护源数据文件相关的元数据，利用信息复写方法进行数据映射转换，以将医疗数据复写为具有预设数据格式的医疗数据；利用kettle中的转换组件，对源数据库中不存在的医疗数据，进行拆分字段、字段选择、剪切字符串中的任一处理操作；利用所述转换组件，基于N Grams距离法、快速过滤法、基本近邻排序方法、多趟排序近邻方法和优先队列策略中的任一方法，检测待清洗医疗数据中的重复数据，并对检测出的重复数据进行去重处理；利用kettle执行多进程、多线程、流水、多处理器中的任一技术，以进行医疗数据的并行增量处理；

4.根据权利要求1所述的方法，其特征在于，

所述预设数据处理规则包括：基于物理数据模型定义的表结构，将医疗数据装入预设数据库内部数据表中，其中，

所述预设数据库与所述分布式数据库处于同一系统中时，使用kettle中的输出组件执行医疗数据装入，其中，所述输出组件包括结构化查询语言SQL文件输出、数据库表输出、Access输出、删除、RSS输出中的任意一种；

5.根据权利要求1至4中任一所述的方法，其特征在于，

所述至少一类医疗数据包括：医疗影像数据、病历数据、检验检查结果、诊疗费用数据中的任意一类或多类。

6.一种医疗数据处理装置，其特征在于，包括：

7.根据权利要求6所述的医疗数据处理装置，其特征在于，

8.根据权利要求6所述的医疗数据处理装置，其特征在于，

9.根据权利要求6所述的医疗数据处理装置，其特征在于，

10.根据权利要求6至9中任一所述的医疗数据处理装置，其特征在于，