CN111881136A - 一种实现医疗行业增量数据治理的方法 - Google Patents

一种实现医疗行业增量数据治理的方法 Download PDF

Info

Publication number
CN111881136A
CN111881136A CN202010742436.3A CN202010742436A CN111881136A CN 111881136 A CN111881136 A CN 111881136A CN 202010742436 A CN202010742436 A CN 202010742436A CN 111881136 A CN111881136 A CN 111881136A
Authority
CN
China
Prior art keywords
data
incremental
increment
sql script
configuration information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010742436.3A
Other languages
English (en)
Inventor
马良
刘芳
陈超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Health Medical Big Data Co ltd
Original Assignee
Shandong Health Medical Big Data Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Health Medical Big Data Co ltd filed Critical Shandong Health Medical Big Data Co ltd
Priority to CN202010742436.3A priority Critical patent/CN111881136A/zh
Publication of CN111881136A publication Critical patent/CN111881136A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明特别涉及一种实现医疗行业增量数据治理的方法。该实现医疗行业增量数据治理的方法,利用全量数据治理的SQL脚本,利用识别出的增量主键在全量数据治理的SQL脚本中添加过滤条件,提取出医疗行业系统中产生的增量业务数据;利用配置信息表维护增量主键数据的业务识别,实现业务分析和代码处理流程的解耦合,从而将贴源库中各医疗行业系统中产生的增量业务数据进行快速数据治理,并入归一库。该实现医疗行业增量数据治理的方法,充分利用全量数据治理所形成的SQL脚本而无需再次对增量数据进行业务治理分析,极大的减轻了数据治理的复杂度,同时将增量数据的个性化业务分析放入配置信息表DG_INCRE_CONFIG中,实现了个性业务分析与代码处理流程的解耦合。

Description

一种实现医疗行业增量数据治理的方法
技术领域
本发明涉及数据治理技术领域,特别涉及一种实现医疗行业增量数据治理的方法。
背景技术
医疗行业的业务系统众多,主要涉及HIS(Hospital Information System,医院信息系统)、LIS(Laboratory Information Management System,实验室(检验科)信息系统)、RIS(Radiation Information System,放射科信息系统)、PACS(Picture Archiving andCommunication Systems,影像归档和通信系统)、EMR(Electronic Medical Record,电子病历系统)体检,手术麻醉等等。并且这些系统的HIT厂商众多,每个HIT厂商的设计各有不同,这就导致各个医疗系统下的业务数据存储方式多种多样。
数据治理是按照平台既有标准对采集数据合理化处理,对数据的获取、处理、使用进行监管。医疗行业的业务数据复杂多样,把各医疗数据经过汇聚、治理到输出标准数据是一项复杂而繁重的工作,因而目前业内并没有形成统一的数据治理方案。
通常,截止到某个时间节点医疗系统数据库中的现存数据被称为全量数据。
而医疗系统随着业务的进行对数据进行增加,更新和删除操作所产生的数据则被称为增量数据,即包括新增数据、更新数据、删除数据三种。
标准数据是指对全量数据和增量数据进行数据治理,形成的结构统一、值域规范的数据。
数据治理的目的就是对这些采集来的业务数据进行统一治理形成结构相同,数据规范的标准数据。全量数据治理是对静态的数据进行分步处理,最终可实现标准数据的输出。但医疗的业务系统会实时产生新的业务数据(如新的患者就诊),如何把这些新生成的业务数据识别出来,快速治理并入库是数据治理中一直探索的最佳实践。
为了对纷繁冗杂的医疗行业数据实现科学、统一的数据治理,本发明提出了一种实现医疗行业增量数据治理的方法。
发明内容
本发明为了弥补现有技术的缺陷,提供了一种简单高效的实现医疗行业增量数据治理的方法。
本发明是通过如下技术方案实现的:
一种实现医疗行业增量数据治理的方法,其特征在于:利用全量数据治理的SQL脚本,利用识别出的增量主键在全量数据治理的SQL脚本中添加过滤条件,提取出医疗行业系统中产生的增量业务数据;将个性化的增量业务分析逻辑放入增量配置信息表中,利用配置信息表维护增量主键数据的业务识别,实现业务分析和代码处理流程的解耦合,从而将贴源库中各医疗行业系统中产生的增量业务数据进行快速数据治理,并入归一库。
包括以下步骤:
第一步,利用配置信息表维护增量主键数据的业务识别;
第二步,组装SQL脚本,获取映射到归一库目标表涉及到的所有来源表的下次最大采集时间;
第三步,组装并执行识别增量主键数据的SQL脚本,获取增量主键数据;
第四步,删除目标表中增量主键为删除标识的数据;
第五步,组装并执行增量SQL脚本,实现增量数据进入归一库;
第六步,更新最大采集时间数据为下次最大采集时间。
所述第一步中,记录映射到归一库目标表涉及到的所有来源表的配置信息,并将所有配置信息存入配置信息表DG_INCRE_CONF中;所述第六步中,更新配置信息表 DG_INCRE_CONF中的最大更新时间。
所述配置信息包括:
增量主键字段,即来源表向目标表映射时,形成目标表主键的字段;
增量识别字段,即来源表向目标表映射时,识别来源表增量数据的字段;
最大采集时间,即上次取增量数据时来源表中的增量识别字段所对应的数据最大时间;
下次最大采集时间,即下次取增量数据时来源表中的增量识别字段所对应的数据最大时间。
所述第二步中,根据配置信息组装SQL脚本,计算本次执行增量时所有来源表的增量识别字段所对应的最大采集时间,并将执行结果更新到下次最大采集时间列。
所述第三步中,首先根据配置信息表组装识别增量主键数据的SQL脚本,然后根据医疗机构名称和目标表名称查询并执行识别增量主键数据的SQL脚本,查找来源库表分别大于等于各自上次最大采集时间的增量主键记录,存入增量主键数据表 DG_INCRE_PK_DATA中。
所述识别增量主键数据的SQL脚本的组装模板为:
SELECT增量主键字段,增量标识FROM来源表名WHERE增量识别字段>最大采集时间。
所述第四步中,取出DG_INCRE_PK_DATA表中增量标识为删除的主键数据,在目标表中进行删除操作。
所述第五步中,对目标表的全量SQL脚本添加过滤条件,利用增量主键数据表 DG_INCRE_PK_DATA中的主键数据形成增量SQL脚本;执行增量SQL脚本,增量数据根据有则更新,无则插入的原则进入归一库。
本发明的有益效果是:该实现医疗行业增量数据治理的方法,充分利用全量数据治理所形成的SQL脚本而无需再次对增量数据进行业务治理分析,极大的减轻了数据治理的复杂度,同时将增量数据的个性化业务分析放入配置信息表DG_INCRE_CONFIG中,实现了个性业务分析与代码处理流程的解耦合。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
附图1为医疗行业数据治理流程示意图。
附图2为本发明医疗行业增量数据治理逻辑处理流程示意图。
具体实施方式
为了使本技术领域的人员更好的理解本发明中的技术方案,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚,完整的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
该实现医疗行业增量数据治理的方法,利用全量数据治理的SQL脚本,利用识别出的增量主键在全量数据治理的SQL脚本中添加过滤条件,提取出医疗行业系统中产生的增量业务数据;将个性化的增量业务分析逻辑放入增量配置信息表中,利用配置信息表维护增量主键数据的业务识别,实现业务分析和代码处理流程的解耦合,从而将贴源库中各医疗行业系统中产生的增量业务数据进行快速数据治理,并入归一库。
包括以下步骤:
第一步,利用配置信息表维护增量主键数据的业务识别;
第二步,组装SQL脚本,获取映射到归一库目标表涉及到的所有来源表的下次最大采集时间;
第三步,组装并执行识别增量主键数据的SQL脚本,获取增量主键数据;
第四步,删除目标表中增量主键为删除标识的数据;
第五步,组装并执行增量SQL脚本,实现增量数据进入归一库;
第六步,更新最大采集时间数据为下次最大采集时间。
所述第一步中,记录映射到归一库目标表涉及到的所有来源表的配置信息,并将所有配置信息存入配置信息表DG_INCRE_CONF中;所述第六步中,更新配置信息表 DG_INCRE_CONF中的最大更新时间。
所述配置信息包括:
增量主键字段,即来源表向目标表映射时,形成目标表主键的字段,如住院号字段;
增量识别字段,即来源表向目标表映射时,识别来源表增量数据的字段,一般为业务时间字段,如住院日期;
最大采集时间,即上次取增量数据时来源表中的增量识别字段所对应的数据最大时间;
下次最大采集时间,即下次取增量数据时来源表中的增量识别字段所对应的数据最大时间。
表1配置信息表DG_INCRE_CONF
Figure BDA0002607183120000051
所述第二步中,根据配置信息组装SQL脚本,计算本次执行增量时所有来源表的增量识别字段所对应的最大采集时间,并将执行结果更新到下次最大采集时间列。
表2最大采集时间组装SQL表
Figure BDA0002607183120000052
所述第三步中,首先根据配置信息表组装识别增量主键数据的SQL脚本,然后根据医疗机构名称和目标表名称查询并执行识别增量主键数据的SQL脚本,查找来源库表分别大于等于各自上次最大采集时间的增量主键记录,存入增量主键数据表 DG_INCRE_PK_DATA中。
所述识别增量主键数据的SQL脚本的组装模板为:
SELECT增量主键字段,增量标识FROM来源表名WHERE增量识别字段>最大采集时间。
表3识别增量主键数据的SQL表
Figure BDA0002607183120000053
Figure BDA0002607183120000061
表4增量主键数据表DG_INCRE_PK_DATA
Figure BDA0002607183120000062
所述第四步中,取出DG_INCRE_PK_DATA表中增量标识为删除的主键数据,在目标表中进行删除操作。
表5全量和增量守脚本示意表
Figure BDA0002607183120000063
所述第五步中,对目标表的全量SQL脚本添加过滤条件,利用增量主键数据表 DG_INCRE_PK_DATA中的主键数据形成增量SQL脚本;执行增量SQL脚本,增量数据根据有则更新,无则插入的原则进入归一库。
表6全量和增量脚本示意表
Figure BDA0002607183120000064
Figure BDA0002607183120000071
以上所述的实施例,只是本发明具体实施方式的一种,本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。

Claims (9)

1.一种实现医疗行业增量数据治理的方法,其特征在于:利用全量数据治理的SQL脚本,利用识别出的增量主键在全量数据治理的SQL脚本中添加过滤条件,提取出医疗行业系统中产生的增量业务数据;将个性化的增量业务分析逻辑放入增量配置信息表中,利用配置信息表维护增量主键数据的业务识别,实现业务分析和代码处理流程的解耦合,从而将贴源库中各医疗行业系统中产生的增量业务数据进行快速数据治理,并入归一库。
2.根据权利要求1所述的实现医疗行业增量数据治理的方法,其特征在于:包括以下步骤:
第一步,利用配置信息表维护增量主键数据的业务识别;
第二步,组装SQL脚本,获取映射到归一库目标表涉及到的所有来源表的下次最大采集时间;
第三步,组装并执行识别增量主键数据的SQL脚本,获取增量主键数据;
第四步,删除目标表中增量主键为删除标识的数据;
第五步,组装并执行增量SQL脚本,实现增量数据进入归一库;
第六步,更新最大采集时间数据为下次最大采集时间。
3.根据权利要求2所述的实现医疗行业增量数据治理的方法,其特征在于:所述第一步中,记录映射到归一库目标表涉及到的所有来源表的配置信息,并将所有配置信息存入配置信息表DG_INCRE_CONF中;所述第六步中,更新配置信息表DG_INCRE_CONF中的最大更新时间。
4.根据权利要求3所述的实现医疗行业增量数据治理的方法,其特征在于:所述配置信息包括:
增量主键字段,即来源表向目标表映射时,形成目标表主键的字段;
增量识别字段,即来源表向目标表映射时,识别来源表增量数据的字段;
最大采集时间,即上次取增量数据时来源表中的增量识别字段所对应的数据最大时间;
下次最大采集时间,即下次取增量数据时来源表中的增量识别字段所对应的数据最大时间。
5.根据权利要求2、3或4所述的实现医疗行业增量数据治理的方法,其特征在于:所述第二步中,根据配置信息组装SQL脚本,计算本次执行增量时所有来源表的增量识别字段所对应的最大采集时间,并将执行结果更新到下次最大采集时间列。
6.根据权利要求5所述的实现医疗行业增量数据治理的方法,其特征在于:所述第三步中,首先根据配置信息表组装识别增量主键数据的SQL脚本,然后根据医疗机构名称和目标表名称查询并执行识别增量主键数据的SQL脚本,查找来源库表分别大于等于各自上次最大采集时间的增量主键记录,存入增量主键数据表DG_INCRE_PK_DATA中。
7.根据权利要求6所述的实现医疗行业增量数据治理的方法,其特征在于:所述识别增量主键数据的SQL脚本的组装模板为:
SELECT增量主键字段,增量标识FROM来源表名WHERE增量识别字段>最大采集时间。
8.根据权利要求6所述的实现医疗行业增量数据治理的方法,其特征在于:所述第四步中,取出DG_INCRE_PK_DATA表中增量标识为删除的主键数据,在目标表中进行删除操作。
9.根据权利要求6或8所述的实现医疗行业增量数据治理的方法,其特征在于:所述第五步中,对目标表的全量SQL脚本添加过滤条件,利用增量主键数据表DG_INCRE_PK_DATA中的主键数据形成增量SQL脚本;执行增量SQL脚本,增量数据根据有则更新,无则插入的原则进入归一库。
CN202010742436.3A 2020-07-29 2020-07-29 一种实现医疗行业增量数据治理的方法 Pending CN111881136A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010742436.3A CN111881136A (zh) 2020-07-29 2020-07-29 一种实现医疗行业增量数据治理的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010742436.3A CN111881136A (zh) 2020-07-29 2020-07-29 一种实现医疗行业增量数据治理的方法

Publications (1)

Publication Number Publication Date
CN111881136A true CN111881136A (zh) 2020-11-03

Family

ID=73201932

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010742436.3A Pending CN111881136A (zh) 2020-07-29 2020-07-29 一种实现医疗行业增量数据治理的方法

Country Status (1)

Country Link
CN (1) CN111881136A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112486955A (zh) * 2020-12-04 2021-03-12 高慧军 基于大数据和人工智能的数据维护方法及大数据平台
WO2022166859A1 (zh) * 2021-02-07 2022-08-11 无锡慧方科技有限公司 一种医疗数据治理系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140330780A1 (en) * 2013-05-06 2014-11-06 Sap Ag Universal delta data load
CN105488187A (zh) * 2015-12-02 2016-04-13 北京四达时代软件技术股份有限公司 多源异构数据增量抽取的方法及装置
CN107229721A (zh) * 2017-06-02 2017-10-03 泰华智慧产业集团股份有限公司 一种变更数据抽取的方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140330780A1 (en) * 2013-05-06 2014-11-06 Sap Ag Universal delta data load
CN105488187A (zh) * 2015-12-02 2016-04-13 北京四达时代软件技术股份有限公司 多源异构数据增量抽取的方法及装置
CN107229721A (zh) * 2017-06-02 2017-10-03 泰华智慧产业集团股份有限公司 一种变更数据抽取的方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘念祖: "《智能信息管理探究》", 31 October 2008, 立信会计出版社, pages: 3 - 33 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112486955A (zh) * 2020-12-04 2021-03-12 高慧军 基于大数据和人工智能的数据维护方法及大数据平台
WO2022166859A1 (zh) * 2021-02-07 2022-08-11 无锡慧方科技有限公司 一种医疗数据治理系统

Similar Documents

Publication Publication Date Title
US11341155B2 (en) Mapping instances of a dataset within a data management system
CN107958057B (zh) 一种用于异构数据库中数据迁移的代码生成方法及装置
US12099531B2 (en) Information retrieval
CN101739390B (zh) 基于技术设计文档的数据转换
US8589424B1 (en) Method and system for accurate medical-code translation
US7107182B2 (en) Program and process for generating data used in software function test
CN111291049A (zh) 一种创建表的方法、装置、设备和存储介质
KR20130130706A (ko) 컴퓨터 프로그램을 나타내는 데이터플로우 그래프 내의 데이터세트 객체의 관리
CN117238433B (zh) 基于LibreOffice进行文档数据自动隔离的方法
CN108345658B (zh) 算法计算轨迹的分解处理方法、服务器及存储介质
CN111881136A (zh) 一种实现医疗行业增量数据治理的方法
CN111143422B (zh) 数据检索方法、数据检索装置、存储介质及电子设备
EP3847655A1 (en) Method of classifying medical records
CN115543402A (zh) 一种基于代码提交的软件知识图谱增量更新方法
CN117539893A (zh) 数据处理方法、介质、装置和计算设备
US20180101571A1 (en) Data flow modeling and execution
US11354165B1 (en) Automated cluster execution support for diverse code sources
WO2017072872A1 (ja) 業務プログラム生成支援システムおよび業務プログラム生成支援方法
CN116225902A (zh) 生成测试用例的方法、装置及设备
CN112051987B (zh) 业务数据处理方法、装置及设备、程序生成方法及装置
CN112667691B (zh) 基于数据库的专利标引方法、装置、设备和存储介质
US20160224918A1 (en) Business influenced part extraction method and business influenced part extraction device based on business variation
CN114519071A (zh) 规则匹配模型的生成方法、匹配方法、系统、设备和介质
CN109597847B (zh) 医疗数据回沉方法及装置、存储介质、电子终端
CN109019217B (zh) 一种电梯控制软件现场调试系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination