CN108182963A - 一种医疗数据处理方法及装置 - Google Patents

一种医疗数据处理方法及装置 Download PDF

Info

Publication number
CN108182963A
CN108182963A CN201711339040.9A CN201711339040A CN108182963A CN 108182963 A CN108182963 A CN 108182963A CN 201711339040 A CN201711339040 A CN 201711339040A CN 108182963 A CN108182963 A CN 108182963A
Authority
CN
China
Prior art keywords
data
medical
medical data
database
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711339040.9A
Other languages
English (en)
Inventor
崔金梦
崔乐乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong ICity Information Technology Co., Ltd.
Original Assignee
Shandong Inspur Cloud Service Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Inspur Cloud Service Information Technology Co Ltd filed Critical Shandong Inspur Cloud Service Information Technology Co Ltd
Priority to CN201711339040.9A priority Critical patent/CN108182963A/zh
Publication of CN108182963A publication Critical patent/CN108182963A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明提供了一种医疗数据处理方法及装置,该方法包括:针对每一类医疗数据均执行:利用当前医疗数据的数据类型所对应的预设数据采集方式,将当前医疗数据采集到该数据类型对应的关系型数据库;将各关系型数据库中的医疗数据导入到一分布式数据库时,根据预设数据清洗规则对采集到的医疗数据进行清洗处理;根据预设数据处理规则,对清洗后的医疗数据进行汇总处理。基于大数据技术以自动处理海量医疗数据,故本方案能够解决现有医疗数据处理费时费力的问题。

Description

一种医疗数据处理方法及装置
技术领域
本发明涉及计算机技术领域,特别涉及一种医疗数据处理方法及装置。
背景技术
在现今社会,医疗和健康数据呈几何级增长趋势急剧扩容,使得医疗数据数量庞大。
目前,工作人员可以按需查询分析部分特定医疗数据,以从中获得有用信息。
但是,当医疗数据数量庞大时,现有实现方式费时费力。
发明内容
本发明提供了一种医疗数据处理方法及装置,能够解决现有医疗数据处理费时费力的问题。
为了达到上述目的,本发明是通过如下技术方案实现的:
一方面,本发明提供了一种医疗数据处理方法,包括:
针对至少一类医疗数据中的每一类医疗数据均执行:根据当前医疗数据的数据类型,利用所述数据类型对应的预设数据采集方式,将所述当前医疗数据采集到所述数据类型对应的关系型数据库;
将每一个所述关系型数据库中的医疗数据导入到一分布式数据库时,根据预设数据清洗规则,对采集到的所述医疗数据进行清洗处理;
根据预设数据处理规则,对清洗后的所述医疗数据进行汇总处理。
进一步地,所述数据类型为结构化数据时,所述预设数据采集方式包括:利用kettle中的输入组件以进行医疗数据的输入,并采用正则表达式对输入的医疗数据进行匹配;其中,所述输入组件包括Access输入、CSV(Comma-Separated Values,逗号分隔值)文件输入、数据库表输入、OLAP(Online Analytical Processing,联机分析处理)输入、RSS(Really Simple Syndication,简易信息聚合)输入、Cube输入中的任意一种;
所述数据类型为半结构化数据,且所述医疗数据来源于网页时,所述预设数据采集方式包括:采用机器学习技术、交互式元数据知识模型建模、引导学习方法对xml(Extensible Markup Language,可扩展标记语言)文件中的医疗数据进行抽取;
所述数据类型为非结构化数据时,所述预设数据采集方式包括:使用3种线型模型来表示表格,并采用模糊匹配方法识别表格中直线行上的字段;针对手写汉字文件中的医疗数据,使用引力搜索算法识别并抽取表格中的汉字。
进一步地,所述预设数据清洗规则包括:通过维护源数据文件相关的元数据,利用信息复写方法进行数据映射转换,以将医疗数据复写为具有预设数据格式的医疗数据;利用kettle中的转换组件,对源数据库中不存在的医疗数据,进行拆分字段、字段选择、剪切字符串中的任一处理操作;利用所述转换组件,基于N Grams距离法、快速过滤法、基本近邻排序方法、多趟排序近邻方法和优先队列策略中的任一方法,检测待清洗医疗数据中的重复数据,并对检测出的重复数据进行去重处理;利用kettle执行多进程、多线程、流水、多处理器中的任一技术,以进行医疗数据的并行增量处理;
其中,所述转换组件包括排序记录、去除重复记录、哈希值计算中的任意一种。
进一步地,所述预设数据处理规则包括:基于物理数据模型定义的表结构,将医疗数据装入预设数据库内部数据表中,其中,
所述预设数据库与所述分布式数据库处于同一系统中时,使用kettle中的输出组件执行医疗数据装入,其中,所述输出组件包括SQL(Structured Query Language,结构化查询语言)文件输出、数据库表输出、Access输出、删除、RSS输出中的任意一种;
所述预设数据库与所述分布式数据库不处于同一系统中时,通过元数据定义的数据规则和格式检查,更新对应数据库内的医疗数据,以及保存原有的医疗数据。
进一步地,所述至少一类医疗数据包括:医疗影像数据、病历数据、检验检查结果、诊疗费用数据中的任意一类或多类。
另一方面,本发明提供了一种医疗数据处理装置,包括:
数据采集单元,用于针对至少一类医疗数据中的每一类医疗数据均执行:根据当前医疗数据的数据类型,利用所述数据类型对应的预设数据采集方式,将所述当前医疗数据采集到所述数据类型对应的关系型数据库;
数据清洗单元,用于将每一个所述关系型数据库中的医疗数据导入到一分布式数据库时,根据预设数据清洗规则,对采集到的所述医疗数据进行清洗处理;
数据处理单元,用于根据预设数据处理规则,对清洗后的所述医疗数据进行汇总处理。
进一步地,所述数据类型为结构化数据时,所述预设数据采集方式包括:利用kettle中的输入组件以进行医疗数据的输入,并采用正则表达式对输入的医疗数据进行匹配;其中,所述输入组件包括Access输入、CSV文件输入、数据库表输入、OLAP输入、RSS输入、Cube输入中的任意一种;
所述数据类型为半结构化数据,且所述医疗数据来源于网页时,所述预设数据采集方式包括:采用机器学习技术、交互式元数据知识模型建模、引导学习方法对xml文件中的医疗数据进行抽取;
所述数据类型为非结构化数据时,所述预设数据采集方式包括:使用3种线型模型来表示表格,并采用模糊匹配方法识别表格中直线行上的字段;针对手写汉字文件中的医疗数据,使用引力搜索算法识别并抽取表格中的汉字。
进一步地,所述预设数据清洗规则包括:通过维护源数据文件相关的元数据,利用信息复写方法进行数据映射转换,以将医疗数据复写为具有预设数据格式的医疗数据;利用kettle中的转换组件,对源数据库中不存在的医疗数据,进行拆分字段、字段选择、剪切字符串中的任一处理操作;利用所述转换组件,基于N Grams距离法、快速过滤法、基本近邻排序方法、多趟排序近邻方法和优先队列策略中的任一方法,检测待清洗医疗数据中的重复数据,并对检测出的重复数据进行去重处理;利用kettle执行多进程、多线程、流水、多处理器中的任一技术,以进行医疗数据的并行增量处理;
其中,所述转换组件包括排序记录、去除重复记录、哈希值计算中的任意一种。
进一步地,所述预设数据处理规则包括:基于物理数据模型定义的表结构,将医疗数据装入预设数据库内部数据表中,其中,
所述预设数据库与所述分布式数据库处于同一系统中时,使用kettle中的输出组件执行医疗数据装入,其中,所述输出组件包括SQL文件输出、数据库表输出、Access输出、删除、RSS输出中的任意一种;
所述预设数据库与所述分布式数据库不处于同一系统中时,通过元数据定义的数据规则和格式检查,更新对应数据库内的医疗数据,以及保存原有的医疗数据。
进一步地,所述至少一类医疗数据包括:医疗影像数据、病历数据、检验检查结果、诊疗费用数据中的任意一类或多类。
本发明提供了一种医疗数据处理方法及装置,该方法包括:针对每一类医疗数据均执行:利用当前医疗数据的数据类型所对应的预设数据采集方式,将当前医疗数据采集到该数据类型对应的关系型数据库;将各关系型数据库中的医疗数据导入到一分布式数据库时,根据预设数据清洗规则对采集到的医疗数据进行清洗处理;根据预设数据处理规则,对清洗后的医疗数据进行汇总处理。基于大数据技术以自动处理海量医疗数据,故本发明能够解决现有医疗数据处理费时费力的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的一种医疗数据处理方法的流程图;
图2是本发明一实施例提供的一种医疗数据处理装置的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种医疗数据处理方法,可以包括以下步骤:
步骤101:针对至少一类医疗数据中的每一类医疗数据均执行:根据当前医疗数据的数据类型,利用所述数据类型对应的预设数据采集方式,将所述当前医疗数据采集到所述数据类型对应的关系型数据库。
步骤102:将每一个所述关系型数据库中的医疗数据导入到一分布式数据库时,根据预设数据清洗规则,对采集到的所述医疗数据进行清洗处理。
步骤103:根据预设数据处理规则,对清洗后的所述医疗数据进行汇总处理。
本发明实施例提供了一种医疗数据处理方法,针对每一类医疗数据均执行:利用当前医疗数据的数据类型所对应的预设数据采集方式,将当前医疗数据采集到该数据类型对应的关系型数据库;将各关系型数据库中的医疗数据导入到一分布式数据库时,根据预设数据清洗规则对采集到的医疗数据进行清洗处理;根据预设数据处理规则,对清洗后的医疗数据进行汇总处理。基于大数据技术以自动处理海量医疗数据,故本发明实施例能够解决现有医疗数据处理费时费力的问题。
在本发明的一个实施例中,所述至少一类医疗数据包括:医疗影像数据、病历数据、检验检查结果、诊疗费用数据中的任意一类或多类。
详细地,通过对各种医疗数据的采集、清洗和处理,处理后所得的医疗数据结果可以实际应用到临床数据对比、药品研发、临床决策支持等场景领域,以为广大患者、医务人员、科研人员及政府决策者提供服务和协助。
详细地,对于各类医疗数据,可以通过大数据采集方式,将医疗数据采集到各种类型数据库,如oracle、mysql等关系型数据库中。其中,医疗数据的数据类型不同时,数据采集方式可以不同。
因此,在本发明的一个实施例中,所述数据类型为结构化数据时,所述预设数据采集方式包括:利用kettle中的输入组件以进行医疗数据的输入,并采用正则表达式对输入的医疗数据进行匹配;其中,所述输入组件包括Access输入、CSV文件输入、数据库表输入、OLAP输入、RSS输入、Cube输入中的任意一种;
所述数据类型为半结构化数据,且所述医疗数据来源于网页时,所述预设数据采集方式包括:采用机器学习技术、交互式元数据知识模型建模、引导学习方法对xml文件中的医疗数据进行抽取;
所述数据类型为非结构化数据时,所述预设数据采集方式包括:使用3种线型模型来表示表格,并采用模糊匹配方法识别表格中直线行上的字段;针对手写汉字文件中的医疗数据,使用引力搜索算法识别并抽取表格中的汉字。
详细地,对于结构化数据来说:
具有固定规律和结构的数据为结构化数据。可以通过大数据工具kettle中的输入组件进行结构化数据的输入,然后用正则表达式,或其他表达式和语句,来解析结构化的规律。
详细地,对于半结构化数据来说:
可以采用机器学习的技术对网页内容进行抽取,使用交互式的元数据知识模型建模并用引导学习的方法,对xml文件中的数据进行说明和抽取。
详细地,对于非结构化数据来说:
可以使用3种线型模型来表示表格,并采用模糊匹配方法识别表格中直线行上的字段。针对手写汉字文件的数据,使用基于引力的算法,以有效识别并抽取表格中的汉字。
详细地,完成数据采集后,数据可以导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上进行清洗和处理工作,使数据变得规范,无错乱数据,供以后的统计分析使用。
因此,在本发明的一个实施例中,所述预设数据清洗规则包括:通过维护源数据文件相关的元数据,利用信息复写方法进行数据映射转换,以将医疗数据复写为具有预设数据格式的医疗数据;利用kettle中的转换组件,对源数据库中不存在的医疗数据,进行拆分字段、字段选择、剪切字符串中的任一处理操作;利用所述转换组件,基于N Grams距离法、快速过滤法、基本近邻排序方法、多趟排序近邻方法和优先队列策略中的任一方法,检测待清洗医疗数据中的重复数据,并对检测出的重复数据进行去重处理;利用kettle执行多进程、多线程、流水、多处理器中的任一技术,以进行医疗数据的并行增量处理;
其中,所述转换组件包括排序记录、去除重复记录、哈希值计算中的任意一种。
详细地,数据清洗中可以执行数据的转化。比如,数据名称及格式的统一,即数据粒度转换、商务规则计算以及统一的命名、数据格式、计量单位等。针对这一问题,可以使用信息复写的方法,用以处理数据转换和集成问题,通过对数据源的描述将信息复写成目标格式,从而保证了转换过程的正确性。通过维护源数据文件相关的元数据来进行数据映射和转换。
再比如,存在源数据库中可能不存在的数据时,可以进行字段的组合、分割或计算。针对这一问题,可以通过业务逻辑分析,例如使用kettle中转换组件进行处理,如拆分字段、计算器、字段选择、剪切字符串等。
详细地,除了数据转化,数据清洗中还可以执行对重复数据的清洗,以消除数据集中近似重复的记录。为了从数据集中消除重复记录,首先可以检测重复记录,其中字符串的匹配问题是检测重复记录的基础。如此,可以使用N Grams距离法、快速过滤法等。消除大型数据集中相似重复记录方面的策略,可以有基本近邻排序方法、多趟排序近邻方法和优先队列策略等。对重复数据的清洗,可以使用kettle的转换组件,如:排序记录、去除重复记录、哈希值计算等。
此外,还可以针对海量数据集进行增量处理的数据清洗。例如,可以利用kettle工具可以进行多进程、多线程、流水、多处理器等技术,来进行数据的并行集成与清洗,并提供数据的增量复制功能。
详细地,统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求。在这一方面,一些实时性需求可以用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存储Infobright等。
在本发明的一个实施例中,所述预设数据处理规则包括:基于物理数据模型定义的表结构,将医疗数据装入预设数据库内部数据表中,其中,
所述预设数据库与所述分布式数据库处于同一系统中时,使用kettle中的输出组件执行医疗数据装入,其中,所述输出组件包括SQL文件输出、数据库表输出、Access输出、删除、RSS输出中的任意一种;
所述预设数据库与所述分布式数据库不处于同一系统中时,通过元数据定义的数据规则和格式检查,更新对应数据库内的医疗数据,以及保存原有的医疗数据。
在本发明一个实施例中,可以将清洗后的干净的数据集,按照物理数据模型定义的表结构装入目标数据库的数据表中,并允许人工干预,以及提供强大的错误报告、系统日志、数据备份与恢复功能。其中,这一整个数据载入操作过程往往要跨网络、跨操作平台。
详细地,装载问题可以分为两类:
第一类,若目标数据库处于同一系统中,可以将数据及相关元数据直接存入。例如,可以使用kettle中的输出组件,如SQL文件输出、数据库表输出、Access输出、删除、RSS输出等。
第二类,数据库中已有数据的更新,可看成增量数据的装载,在通过元数据定义的数据规则和格式检查之后,更新对应数据库内的数据,同时将原有数据保存。通常情况下,整个装载过程需要加时间戳。
优选地,数据库的装载是以确定的周期进行的,影响了实时决策的精确性,因此应使用实时数据库的装载,将数据库内的信息变化定义为实时发生的,通过表结构复制、查询断言约束等方法使得数据库的装载最小化地影响查询响应,以提供实时的决策分析。其中,可以使用kettle的输出组件和转换组件,如:插入/更新,更新,数据同步。
详细地,可以对分析统计后的数据进行应用,如临床数据对比、药品研发、临床决策支持等。
综上所述,大数据技术可以帮助人们存储管理好医疗大数据,并从大体量、高复杂的数据中提取价值,从而促进医疗行业的发展。
如图2所示,本发明一个实施例提供了一种医疗数据处理装置,包括:
数据采集单元201,用于针对至少一类医疗数据中的每一类医疗数据均执行:根据当前医疗数据的数据类型,利用所述数据类型对应的预设数据采集方式,将所述当前医疗数据采集到所述数据类型对应的关系型数据库;
数据清洗单元202,用于将每一个所述关系型数据库中的医疗数据导入到一分布式数据库时,根据预设数据清洗规则,对采集到的所述医疗数据进行清洗处理;
数据处理单元203,用于根据预设数据处理规则,对清洗后的所述医疗数据进行汇总处理。
在本发明的一个实施例中,所述数据类型为结构化数据时,所述预设数据采集方式包括:利用kettle中的输入组件以进行医疗数据的输入,并采用正则表达式对输入的医疗数据进行匹配;其中,所述输入组件包括Access输入、CSV文件输入、数据库表输入、OLAP输入、RSS输入、Cube输入中的任意一种;
所述数据类型为半结构化数据,且所述医疗数据来源于网页时,所述预设数据采集方式包括:采用机器学习技术、交互式元数据知识模型建模、引导学习方法对xml文件中的医疗数据进行抽取;
所述数据类型为非结构化数据时,所述预设数据采集方式包括:使用3种线型模型来表示表格,并采用模糊匹配方法识别表格中直线行上的字段;针对手写汉字文件中的医疗数据,使用引力搜索算法识别并抽取表格中的汉字。
在本发明的一个实施例中,所述预设数据清洗规则包括:通过维护源数据文件相关的元数据,利用信息复写方法进行数据映射转换,以将医疗数据复写为具有预设数据格式的医疗数据;利用kettle中的转换组件,对源数据库中不存在的医疗数据,进行拆分字段、字段选择、剪切字符串中的任一处理操作;利用所述转换组件,基于N Grams距离法、快速过滤法、基本近邻排序方法、多趟排序近邻方法和优先队列策略中的任一方法,检测待清洗医疗数据中的重复数据,并对检测出的重复数据进行去重处理;利用kettle执行多进程、多线程、流水、多处理器中的任一技术,以进行医疗数据的并行增量处理;
其中,所述转换组件包括排序记录、去除重复记录、哈希值计算中的任意一种。
在本发明的一个实施例中,所述预设数据处理规则包括:基于物理数据模型定义的表结构,将医疗数据装入预设数据库内部数据表中,其中,
所述预设数据库与所述分布式数据库处于同一系统中时,使用kettle中的输出组件执行医疗数据装入,其中,所述输出组件包括SQL文件输出、数据库表输出、Access输出、删除、RSS输出中的任意一种;
所述预设数据库与所述分布式数据库不处于同一系统中时,通过元数据定义的数据规则和格式检查,更新对应数据库内的医疗数据,以及保存原有的医疗数据。
在本发明的一个实施例中,所述至少一类医疗数据包括:医疗影像数据、病历数据、检验检查结果、诊疗费用数据中的任意一类或多类。
上述装置内的各单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
综上所述,本发明的各个实施例至少具有如下有益效果:
1、本发明实施例中,针对每一类医疗数据均执行:利用当前医疗数据的数据类型所对应的预设数据采集方式,将当前医疗数据采集到该数据类型对应的关系型数据库;将各关系型数据库中的医疗数据导入到一分布式数据库时,根据预设数据清洗规则对采集到的医疗数据进行清洗处理;根据预设数据处理规则,对清洗后的医疗数据进行汇总处理。基于大数据技术以自动处理海量医疗数据,故本发明实施例能够解决现有医疗数据处理费时费力的问题。
2、本发明实施例中,通过对各种医疗数据的采集、清洗和处理,处理后所得的医疗数据结果可以实际应用到临床数据对比、药品研发、临床决策支持等场景领域,以为广大患者、医务人员、科研人员及政府决策者提供服务和协助。
需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个〃····〃”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储在计算机可读取的存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。
最后需要说明的是:以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种医疗数据处理方法,其特征在于,包括:
针对至少一类医疗数据中的每一类医疗数据均执行:根据当前医疗数据的数据类型,利用所述数据类型对应的预设数据采集方式,将所述当前医疗数据采集到所述数据类型对应的关系型数据库;
将每一个所述关系型数据库中的医疗数据导入到一分布式数据库时,根据预设数据清洗规则,对采集到的所述医疗数据进行清洗处理;
根据预设数据处理规则,对清洗后的所述医疗数据进行汇总处理。
2.根据权利要求1所述的方法,其特征在于,
所述数据类型为结构化数据时,所述预设数据采集方式包括:利用kettle中的输入组件以进行医疗数据的输入,并采用正则表达式对输入的医疗数据进行匹配;其中,所述输入组件包括Access输入、逗号分隔值CSV文件输入、数据库表输入、联机分析处理OLAP输入、简易信息聚合RSS输入、Cube输入中的任意一种;
所述数据类型为半结构化数据,且所述医疗数据来源于网页时,所述预设数据采集方式包括:采用机器学习技术、交互式元数据知识模型建模、引导学习方法对可扩展标记语言xml文件中的医疗数据进行抽取;
所述数据类型为非结构化数据时,所述预设数据采集方式包括:使用3种线型模型来表示表格,并采用模糊匹配方法识别表格中直线行上的字段;针对手写汉字文件中的医疗数据,使用引力搜索算法识别并抽取表格中的汉字。
3.根据权利要求1所述的方法,其特征在于,
所述预设数据清洗规则包括:通过维护源数据文件相关的元数据,利用信息复写方法进行数据映射转换,以将医疗数据复写为具有预设数据格式的医疗数据;利用kettle中的转换组件,对源数据库中不存在的医疗数据,进行拆分字段、字段选择、剪切字符串中的任一处理操作;利用所述转换组件,基于N Grams距离法、快速过滤法、基本近邻排序方法、多趟排序近邻方法和优先队列策略中的任一方法,检测待清洗医疗数据中的重复数据,并对检测出的重复数据进行去重处理;利用kettle执行多进程、多线程、流水、多处理器中的任一技术,以进行医疗数据的并行增量处理;
其中,所述转换组件包括排序记录、去除重复记录、哈希值计算中的任意一种。
4.根据权利要求1所述的方法,其特征在于,
所述预设数据处理规则包括:基于物理数据模型定义的表结构,将医疗数据装入预设数据库内部数据表中,其中,
所述预设数据库与所述分布式数据库处于同一系统中时,使用kettle中的输出组件执行医疗数据装入,其中,所述输出组件包括结构化查询语言SQL文件输出、数据库表输出、Access输出、删除、RSS输出中的任意一种;
所述预设数据库与所述分布式数据库不处于同一系统中时,通过元数据定义的数据规则和格式检查,更新对应数据库内的医疗数据,以及保存原有的医疗数据。
5.根据权利要求1至4中任一所述的方法,其特征在于,
所述至少一类医疗数据包括:医疗影像数据、病历数据、检验检查结果、诊疗费用数据中的任意一类或多类。
6.一种医疗数据处理装置,其特征在于,包括:
数据采集单元,用于针对至少一类医疗数据中的每一类医疗数据均执行:根据当前医疗数据的数据类型,利用所述数据类型对应的预设数据采集方式,将所述当前医疗数据采集到所述数据类型对应的关系型数据库;
数据清洗单元,用于将每一个所述关系型数据库中的医疗数据导入到一分布式数据库时,根据预设数据清洗规则,对采集到的所述医疗数据进行清洗处理;
数据处理单元,用于根据预设数据处理规则,对清洗后的所述医疗数据进行汇总处理。
7.根据权利要求6所述的医疗数据处理装置,其特征在于,
所述数据类型为结构化数据时,所述预设数据采集方式包括:利用kettle中的输入组件以进行医疗数据的输入,并采用正则表达式对输入的医疗数据进行匹配;其中,所述输入组件包括Access输入、逗号分隔值CSV文件输入、数据库表输入、联机分析处理OLAP输入、简易信息聚合RSS输入、Cube输入中的任意一种;
所述数据类型为半结构化数据,且所述医疗数据来源于网页时,所述预设数据采集方式包括:采用机器学习技术、交互式元数据知识模型建模、引导学习方法对可扩展标记语言xml文件中的医疗数据进行抽取;
所述数据类型为非结构化数据时,所述预设数据采集方式包括:使用3种线型模型来表示表格,并采用模糊匹配方法识别表格中直线行上的字段;针对手写汉字文件中的医疗数据,使用引力搜索算法识别并抽取表格中的汉字。
8.根据权利要求6所述的医疗数据处理装置,其特征在于,
所述预设数据清洗规则包括:通过维护源数据文件相关的元数据,利用信息复写方法进行数据映射转换,以将医疗数据复写为具有预设数据格式的医疗数据;利用kettle中的转换组件,对源数据库中不存在的医疗数据,进行拆分字段、字段选择、剪切字符串中的任一处理操作;利用所述转换组件,基于N Grams距离法、快速过滤法、基本近邻排序方法、多趟排序近邻方法和优先队列策略中的任一方法,检测待清洗医疗数据中的重复数据,并对检测出的重复数据进行去重处理;利用kettle执行多进程、多线程、流水、多处理器中的任一技术,以进行医疗数据的并行增量处理;
其中,所述转换组件包括排序记录、去除重复记录、哈希值计算中的任意一种。
9.根据权利要求6所述的医疗数据处理装置,其特征在于,
所述预设数据处理规则包括:基于物理数据模型定义的表结构,将医疗数据装入预设数据库内部数据表中,其中,
所述预设数据库与所述分布式数据库处于同一系统中时,使用kettle中的输出组件执行医疗数据装入,其中,所述输出组件包括结构化查询语言SQL文件输出、数据库表输出、Access输出、删除、RSS输出中的任意一种;
所述预设数据库与所述分布式数据库不处于同一系统中时,通过元数据定义的数据规则和格式检查,更新对应数据库内的医疗数据,以及保存原有的医疗数据。
10.根据权利要求6至9中任一所述的医疗数据处理装置,其特征在于,
所述至少一类医疗数据包括:医疗影像数据、病历数据、检验检查结果、诊疗费用数据中的任意一类或多类。
CN201711339040.9A 2017-12-14 2017-12-14 一种医疗数据处理方法及装置 Pending CN108182963A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711339040.9A CN108182963A (zh) 2017-12-14 2017-12-14 一种医疗数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711339040.9A CN108182963A (zh) 2017-12-14 2017-12-14 一种医疗数据处理方法及装置

Publications (1)

Publication Number Publication Date
CN108182963A true CN108182963A (zh) 2018-06-19

Family

ID=62545938

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711339040.9A Pending CN108182963A (zh) 2017-12-14 2017-12-14 一种医疗数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN108182963A (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109344148A (zh) * 2018-10-16 2019-02-15 万达信息股份有限公司 一种数据采集管理系统及方法
CN109597847A (zh) * 2018-11-09 2019-04-09 金色熊猫有限公司 医疗数据回沉方法及装置、存储介质、电子终端
CN109684393A (zh) * 2018-12-11 2019-04-26 中科恒运股份有限公司 数据采集方法、计算机可读存储介质及终端设备
CN109947751A (zh) * 2018-12-29 2019-06-28 医渡云(北京)技术有限公司 一种医疗数据处理方法、装置、可读介质及电子设备
CN110096495A (zh) * 2019-03-22 2019-08-06 武汉明炀大数据科技有限公司 精准医学大数据分析处理系统
CN110413602A (zh) * 2019-07-31 2019-11-05 南京安夏电子科技有限公司 一种分层清洗式大数据清洗方法
CN110584601A (zh) * 2019-08-26 2019-12-20 首都医科大学 一种老人认知功能监测和评估方法
CN110825759A (zh) * 2019-11-04 2020-02-21 北京首汽智行科技有限公司 一种基于kettle工具的数据更新方法
CN110888926A (zh) * 2019-10-22 2020-03-17 北京百度网讯科技有限公司 医疗文本结构化的方法以及装置
CN110908999A (zh) * 2019-11-18 2020-03-24 北京明略软件系统有限公司 数据采集方式的确定方法及装置、存储介质、电子装置
WO2020119386A1 (zh) * 2018-12-13 2020-06-18 平安医疗健康管理股份有限公司 基于大数据的异常数据识别方法、设备、存储介质及装置
CN111522815A (zh) * 2020-04-15 2020-08-11 山东爱城市网信息技术有限公司 一种企业基本信息入库的方法
CN112802608A (zh) * 2021-02-22 2021-05-14 杭州联众医疗科技股份有限公司 基于真实世界的客观医疗数据平台
CN112988875A (zh) * 2021-04-08 2021-06-18 北京澎思科技有限公司 一种多维数据采集装置、系统及方法
CN113485990A (zh) * 2021-07-05 2021-10-08 南昌大学第一附属医院 基于输血大数据的多维度智能数据清洗方法及系统
CN115617840A (zh) * 2022-12-19 2023-01-17 江西曼荼罗软件有限公司 医疗数据检索平台构建方法、系统、计算机及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106446131A (zh) * 2016-09-19 2017-02-22 中国南方电网有限责任公司电网技术研究中心 配用电多源异构数据的混合存储方法和系统
CN106991100A (zh) * 2016-01-21 2017-07-28 北京京东尚科信息技术有限公司 数据导入方法及装置
CN107330238A (zh) * 2016-08-12 2017-11-07 中国科学院上海技术物理研究所 医疗信息采集、处理、存储与显示方法与装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106991100A (zh) * 2016-01-21 2017-07-28 北京京东尚科信息技术有限公司 数据导入方法及装置
CN107330238A (zh) * 2016-08-12 2017-11-07 中国科学院上海技术物理研究所 医疗信息采集、处理、存储与显示方法与装置
CN106446131A (zh) * 2016-09-19 2017-02-22 中国南方电网有限责任公司电网技术研究中心 配用电多源异构数据的混合存储方法和系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
QIU YUEFENG,TIAN ZENGPING,JI WENYUN,ET: "An Efficient Approach for Detecting Approximately Duplicate Database Records", 《CHINESE JOURNAL OF COMPUTERS》 *
徐俊刚,裴莹: "数据ETL研究综述", 《计算机科学》 *
马将,唐万伟,张垒: "基于hadoop的虚拟化云数据中心研究与设计", 《内蒙古师范大学学报(自然科学汉文版)》 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109344148A (zh) * 2018-10-16 2019-02-15 万达信息股份有限公司 一种数据采集管理系统及方法
CN109597847A (zh) * 2018-11-09 2019-04-09 金色熊猫有限公司 医疗数据回沉方法及装置、存储介质、电子终端
CN109684393A (zh) * 2018-12-11 2019-04-26 中科恒运股份有限公司 数据采集方法、计算机可读存储介质及终端设备
WO2020119386A1 (zh) * 2018-12-13 2020-06-18 平安医疗健康管理股份有限公司 基于大数据的异常数据识别方法、设备、存储介质及装置
CN109947751A (zh) * 2018-12-29 2019-06-28 医渡云(北京)技术有限公司 一种医疗数据处理方法、装置、可读介质及电子设备
CN109947751B (zh) * 2018-12-29 2023-04-07 医渡云(北京)技术有限公司 一种医疗数据处理方法、装置、可读介质及电子设备
CN110096495A (zh) * 2019-03-22 2019-08-06 武汉明炀大数据科技有限公司 精准医学大数据分析处理系统
CN110413602A (zh) * 2019-07-31 2019-11-05 南京安夏电子科技有限公司 一种分层清洗式大数据清洗方法
CN110413602B (zh) * 2019-07-31 2023-05-02 南京安夏电子科技有限公司 一种分层清洗式大数据清洗方法
CN110584601A (zh) * 2019-08-26 2019-12-20 首都医科大学 一种老人认知功能监测和评估方法
CN110888926A (zh) * 2019-10-22 2020-03-17 北京百度网讯科技有限公司 医疗文本结构化的方法以及装置
CN110888926B (zh) * 2019-10-22 2022-10-28 北京百度网讯科技有限公司 医疗文本结构化的方法以及装置
CN110825759A (zh) * 2019-11-04 2020-02-21 北京首汽智行科技有限公司 一种基于kettle工具的数据更新方法
CN110825759B (zh) * 2019-11-04 2023-09-12 北京首汽智行科技有限公司 一种基于kettle工具的数据更新方法
CN110908999A (zh) * 2019-11-18 2020-03-24 北京明略软件系统有限公司 数据采集方式的确定方法及装置、存储介质、电子装置
CN111522815A (zh) * 2020-04-15 2020-08-11 山东爱城市网信息技术有限公司 一种企业基本信息入库的方法
CN112802608A (zh) * 2021-02-22 2021-05-14 杭州联众医疗科技股份有限公司 基于真实世界的客观医疗数据平台
CN112988875A (zh) * 2021-04-08 2021-06-18 北京澎思科技有限公司 一种多维数据采集装置、系统及方法
CN113485990A (zh) * 2021-07-05 2021-10-08 南昌大学第一附属医院 基于输血大数据的多维度智能数据清洗方法及系统
CN115617840B (zh) * 2022-12-19 2023-03-10 江西曼荼罗软件有限公司 医疗数据检索平台构建方法、系统、计算机及存储介质
CN115617840A (zh) * 2022-12-19 2023-01-17 江西曼荼罗软件有限公司 医疗数据检索平台构建方法、系统、计算机及存储介质

Similar Documents

Publication Publication Date Title
CN108182963A (zh) 一种医疗数据处理方法及装置
JP5715261B2 (ja) 時系列データ管理システム,および方法
Alserafi et al. Towards information profiling: data lake content metadata management
US9542456B1 (en) Automated name standardization for big data
CN108304382B (zh) 基于制造过程文本数据挖掘的质量分析方法与系统
CN114003791B (zh) 基于深度图匹配的医疗数据元自动化分类方法及系统
Hamad et al. An enhanced technique to clean data in the data warehouse
CN112000656A (zh) 基于元数据的智能化数据清洗方法及装置
CN112036997B (zh) 预测纳税人中的非正常户的方法及装置
JP6375029B2 (ja) レポートの重要度を分析するメタデータ基盤のオンライン分析処理システム
Wrembel Data integration, cleaning, and deduplication: Research versus industrial projects
CN112733538B (zh) 一种基于文本的本体构建方法及装置
CN116756373A (zh) 基于知识图谱更新的项目评审专家筛选方法、系统及介质
Dong et al. Scene-based big data quality management framework
Jabeen et al. Divided we stand out! forging cohorts for numeric outlier detection in large scale knowledge graphs (conod)
Ma et al. Design of medical examination data mining system based on decision tree model
CN115098585A (zh) 一种基于大数据的法律法规数据自动处理方法及系统
CN115511408A (zh) 一种药品集中采购监测预警可视化平台及其监测预警方法
Matsumura et al. A strategy for reusing the data of electronic medical record systems for clinical research
CN110010231A (zh) 一种数据处理系统及计算机可读存储介质
CN113722472A (zh) 一种技术文献信息提取方法、系统及存储介质
Hu et al. A classification model of power operation inspection defect texts based on graph convolutional network
Dasari et al. Employing various data cleaning techniques to achieve better data quality using python
Pfaff et al. Natural language processing techniques for document classification in it benchmarking
WO2016013099A1 (ja) 素性データ管理システム、および素性データ管理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200811

Address after: 250100 Room 3110, S01 Building, Tidal Building, 1036 Tidal Road, Jinan High-tech Zone, Shandong Province

Applicant after: Shandong Aicheng Network Information Technology Co.,Ltd.

Address before: 250100 Ji'nan science and technology zone, Shandong high tide Road, No. 1036 wave of science and Technology Park, building S06

Applicant before: SHANDONG INSPUR CLOUD SERVICE INFORMATION TECHNOLOGY Co.,Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180619