CN111881136A - 一种实现医疗行业增量数据治理的方法 - Google Patents
一种实现医疗行业增量数据治理的方法 Download PDFInfo
- Publication number
- CN111881136A CN111881136A CN202010742436.3A CN202010742436A CN111881136A CN 111881136 A CN111881136 A CN 111881136A CN 202010742436 A CN202010742436 A CN 202010742436A CN 111881136 A CN111881136 A CN 111881136A
- Authority
- CN
- China
- Prior art keywords
- data
- incremental
- increment
- sql script
- configuration information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000013523 data management Methods 0.000 title claims abstract description 23
- 238000013515 script Methods 0.000 claims abstract description 42
- 238000012545 processing Methods 0.000 claims abstract description 9
- 238000001914 filtration Methods 0.000 claims abstract description 4
- 238000010606 normalization Methods 0.000 claims description 15
- 238000012217 deletion Methods 0.000 claims description 9
- 230000037430 deletion Effects 0.000 claims description 9
- 206010002091 Anaesthesia Diseases 0.000 description 1
- 230000037005 anaesthesia Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000003339 best practice Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明特别涉及一种实现医疗行业增量数据治理的方法。该实现医疗行业增量数据治理的方法,利用全量数据治理的SQL脚本,利用识别出的增量主键在全量数据治理的SQL脚本中添加过滤条件,提取出医疗行业系统中产生的增量业务数据;利用配置信息表维护增量主键数据的业务识别,实现业务分析和代码处理流程的解耦合,从而将贴源库中各医疗行业系统中产生的增量业务数据进行快速数据治理,并入归一库。该实现医疗行业增量数据治理的方法,充分利用全量数据治理所形成的SQL脚本而无需再次对增量数据进行业务治理分析,极大的减轻了数据治理的复杂度,同时将增量数据的个性化业务分析放入配置信息表DG_INCRE_CONFIG中,实现了个性业务分析与代码处理流程的解耦合。
Description
技术领域
本发明涉及数据治理技术领域,特别涉及一种实现医疗行业增量数据治理的方法。
背景技术
医疗行业的业务系统众多,主要涉及HIS(Hospital Information System,医院信息系统)、LIS(Laboratory Information Management System,实验室(检验科)信息系统)、RIS(Radiation Information System,放射科信息系统)、PACS(Picture Archiving andCommunication Systems,影像归档和通信系统)、EMR(Electronic Medical Record,电子病历系统)体检,手术麻醉等等。并且这些系统的HIT厂商众多,每个HIT厂商的设计各有不同,这就导致各个医疗系统下的业务数据存储方式多种多样。
数据治理是按照平台既有标准对采集数据合理化处理,对数据的获取、处理、使用进行监管。医疗行业的业务数据复杂多样,把各医疗数据经过汇聚、治理到输出标准数据是一项复杂而繁重的工作,因而目前业内并没有形成统一的数据治理方案。
通常,截止到某个时间节点医疗系统数据库中的现存数据被称为全量数据。
而医疗系统随着业务的进行对数据进行增加,更新和删除操作所产生的数据则被称为增量数据,即包括新增数据、更新数据、删除数据三种。
标准数据是指对全量数据和增量数据进行数据治理,形成的结构统一、值域规范的数据。
数据治理的目的就是对这些采集来的业务数据进行统一治理形成结构相同,数据规范的标准数据。全量数据治理是对静态的数据进行分步处理,最终可实现标准数据的输出。但医疗的业务系统会实时产生新的业务数据(如新的患者就诊),如何把这些新生成的业务数据识别出来,快速治理并入库是数据治理中一直探索的最佳实践。
为了对纷繁冗杂的医疗行业数据实现科学、统一的数据治理,本发明提出了一种实现医疗行业增量数据治理的方法。
发明内容
本发明为了弥补现有技术的缺陷,提供了一种简单高效的实现医疗行业增量数据治理的方法。
本发明是通过如下技术方案实现的:
一种实现医疗行业增量数据治理的方法,其特征在于:利用全量数据治理的SQL脚本,利用识别出的增量主键在全量数据治理的SQL脚本中添加过滤条件,提取出医疗行业系统中产生的增量业务数据;将个性化的增量业务分析逻辑放入增量配置信息表中,利用配置信息表维护增量主键数据的业务识别,实现业务分析和代码处理流程的解耦合,从而将贴源库中各医疗行业系统中产生的增量业务数据进行快速数据治理,并入归一库。
包括以下步骤:
第一步,利用配置信息表维护增量主键数据的业务识别;
第二步,组装SQL脚本,获取映射到归一库目标表涉及到的所有来源表的下次最大采集时间;
第三步,组装并执行识别增量主键数据的SQL脚本,获取增量主键数据;
第四步,删除目标表中增量主键为删除标识的数据;
第五步,组装并执行增量SQL脚本,实现增量数据进入归一库;
第六步,更新最大采集时间数据为下次最大采集时间。
所述第一步中,记录映射到归一库目标表涉及到的所有来源表的配置信息,并将所有配置信息存入配置信息表DG_INCRE_CONF中;所述第六步中,更新配置信息表 DG_INCRE_CONF中的最大更新时间。
所述配置信息包括:
增量主键字段,即来源表向目标表映射时,形成目标表主键的字段;
增量识别字段,即来源表向目标表映射时,识别来源表增量数据的字段;
最大采集时间,即上次取增量数据时来源表中的增量识别字段所对应的数据最大时间;
下次最大采集时间,即下次取增量数据时来源表中的增量识别字段所对应的数据最大时间。
所述第二步中,根据配置信息组装SQL脚本,计算本次执行增量时所有来源表的增量识别字段所对应的最大采集时间,并将执行结果更新到下次最大采集时间列。
所述第三步中,首先根据配置信息表组装识别增量主键数据的SQL脚本,然后根据医疗机构名称和目标表名称查询并执行识别增量主键数据的SQL脚本,查找来源库表分别大于等于各自上次最大采集时间的增量主键记录,存入增量主键数据表 DG_INCRE_PK_DATA中。
所述识别增量主键数据的SQL脚本的组装模板为:
SELECT增量主键字段,增量标识FROM来源表名WHERE增量识别字段>最大采集时间。
所述第四步中,取出DG_INCRE_PK_DATA表中增量标识为删除的主键数据,在目标表中进行删除操作。
所述第五步中,对目标表的全量SQL脚本添加过滤条件,利用增量主键数据表 DG_INCRE_PK_DATA中的主键数据形成增量SQL脚本;执行增量SQL脚本,增量数据根据有则更新,无则插入的原则进入归一库。
本发明的有益效果是:该实现医疗行业增量数据治理的方法,充分利用全量数据治理所形成的SQL脚本而无需再次对增量数据进行业务治理分析,极大的减轻了数据治理的复杂度,同时将增量数据的个性化业务分析放入配置信息表DG_INCRE_CONFIG中,实现了个性业务分析与代码处理流程的解耦合。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
附图1为医疗行业数据治理流程示意图。
附图2为本发明医疗行业增量数据治理逻辑处理流程示意图。
具体实施方式
为了使本技术领域的人员更好的理解本发明中的技术方案,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚,完整的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
该实现医疗行业增量数据治理的方法,利用全量数据治理的SQL脚本,利用识别出的增量主键在全量数据治理的SQL脚本中添加过滤条件,提取出医疗行业系统中产生的增量业务数据;将个性化的增量业务分析逻辑放入增量配置信息表中,利用配置信息表维护增量主键数据的业务识别,实现业务分析和代码处理流程的解耦合,从而将贴源库中各医疗行业系统中产生的增量业务数据进行快速数据治理,并入归一库。
包括以下步骤:
第一步,利用配置信息表维护增量主键数据的业务识别;
第二步,组装SQL脚本,获取映射到归一库目标表涉及到的所有来源表的下次最大采集时间;
第三步,组装并执行识别增量主键数据的SQL脚本,获取增量主键数据;
第四步,删除目标表中增量主键为删除标识的数据;
第五步,组装并执行增量SQL脚本,实现增量数据进入归一库;
第六步,更新最大采集时间数据为下次最大采集时间。
所述第一步中,记录映射到归一库目标表涉及到的所有来源表的配置信息,并将所有配置信息存入配置信息表DG_INCRE_CONF中;所述第六步中,更新配置信息表 DG_INCRE_CONF中的最大更新时间。
所述配置信息包括:
增量主键字段,即来源表向目标表映射时,形成目标表主键的字段,如住院号字段;
增量识别字段,即来源表向目标表映射时,识别来源表增量数据的字段,一般为业务时间字段,如住院日期;
最大采集时间,即上次取增量数据时来源表中的增量识别字段所对应的数据最大时间;
下次最大采集时间,即下次取增量数据时来源表中的增量识别字段所对应的数据最大时间。
表1配置信息表DG_INCRE_CONF
所述第二步中,根据配置信息组装SQL脚本,计算本次执行增量时所有来源表的增量识别字段所对应的最大采集时间,并将执行结果更新到下次最大采集时间列。
表2最大采集时间组装SQL表
所述第三步中,首先根据配置信息表组装识别增量主键数据的SQL脚本,然后根据医疗机构名称和目标表名称查询并执行识别增量主键数据的SQL脚本,查找来源库表分别大于等于各自上次最大采集时间的增量主键记录,存入增量主键数据表 DG_INCRE_PK_DATA中。
所述识别增量主键数据的SQL脚本的组装模板为:
SELECT增量主键字段,增量标识FROM来源表名WHERE增量识别字段>最大采集时间。
表3识别增量主键数据的SQL表
表4增量主键数据表DG_INCRE_PK_DATA
所述第四步中,取出DG_INCRE_PK_DATA表中增量标识为删除的主键数据,在目标表中进行删除操作。
表5全量和增量守脚本示意表
所述第五步中,对目标表的全量SQL脚本添加过滤条件,利用增量主键数据表 DG_INCRE_PK_DATA中的主键数据形成增量SQL脚本;执行增量SQL脚本,增量数据根据有则更新,无则插入的原则进入归一库。
表6全量和增量脚本示意表
以上所述的实施例,只是本发明具体实施方式的一种,本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。
Claims (9)
1.一种实现医疗行业增量数据治理的方法,其特征在于:利用全量数据治理的SQL脚本,利用识别出的增量主键在全量数据治理的SQL脚本中添加过滤条件,提取出医疗行业系统中产生的增量业务数据;将个性化的增量业务分析逻辑放入增量配置信息表中,利用配置信息表维护增量主键数据的业务识别,实现业务分析和代码处理流程的解耦合,从而将贴源库中各医疗行业系统中产生的增量业务数据进行快速数据治理,并入归一库。
2.根据权利要求1所述的实现医疗行业增量数据治理的方法,其特征在于:包括以下步骤:
第一步,利用配置信息表维护增量主键数据的业务识别;
第二步,组装SQL脚本,获取映射到归一库目标表涉及到的所有来源表的下次最大采集时间;
第三步,组装并执行识别增量主键数据的SQL脚本,获取增量主键数据;
第四步,删除目标表中增量主键为删除标识的数据;
第五步,组装并执行增量SQL脚本,实现增量数据进入归一库;
第六步,更新最大采集时间数据为下次最大采集时间。
3.根据权利要求2所述的实现医疗行业增量数据治理的方法,其特征在于:所述第一步中,记录映射到归一库目标表涉及到的所有来源表的配置信息,并将所有配置信息存入配置信息表DG_INCRE_CONF中;所述第六步中,更新配置信息表DG_INCRE_CONF中的最大更新时间。
4.根据权利要求3所述的实现医疗行业增量数据治理的方法,其特征在于:所述配置信息包括:
增量主键字段,即来源表向目标表映射时,形成目标表主键的字段;
增量识别字段,即来源表向目标表映射时,识别来源表增量数据的字段;
最大采集时间,即上次取增量数据时来源表中的增量识别字段所对应的数据最大时间;
下次最大采集时间,即下次取增量数据时来源表中的增量识别字段所对应的数据最大时间。
5.根据权利要求2、3或4所述的实现医疗行业增量数据治理的方法,其特征在于:所述第二步中,根据配置信息组装SQL脚本,计算本次执行增量时所有来源表的增量识别字段所对应的最大采集时间,并将执行结果更新到下次最大采集时间列。
6.根据权利要求5所述的实现医疗行业增量数据治理的方法,其特征在于:所述第三步中,首先根据配置信息表组装识别增量主键数据的SQL脚本,然后根据医疗机构名称和目标表名称查询并执行识别增量主键数据的SQL脚本,查找来源库表分别大于等于各自上次最大采集时间的增量主键记录,存入增量主键数据表DG_INCRE_PK_DATA中。
7.根据权利要求6所述的实现医疗行业增量数据治理的方法,其特征在于:所述识别增量主键数据的SQL脚本的组装模板为:
SELECT增量主键字段,增量标识FROM来源表名WHERE增量识别字段>最大采集时间。
8.根据权利要求6所述的实现医疗行业增量数据治理的方法,其特征在于:所述第四步中,取出DG_INCRE_PK_DATA表中增量标识为删除的主键数据,在目标表中进行删除操作。
9.根据权利要求6或8所述的实现医疗行业增量数据治理的方法,其特征在于:所述第五步中,对目标表的全量SQL脚本添加过滤条件,利用增量主键数据表DG_INCRE_PK_DATA中的主键数据形成增量SQL脚本;执行增量SQL脚本,增量数据根据有则更新,无则插入的原则进入归一库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010742436.3A CN111881136A (zh) | 2020-07-29 | 2020-07-29 | 一种实现医疗行业增量数据治理的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010742436.3A CN111881136A (zh) | 2020-07-29 | 2020-07-29 | 一种实现医疗行业增量数据治理的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111881136A true CN111881136A (zh) | 2020-11-03 |
Family
ID=73201932
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010742436.3A Pending CN111881136A (zh) | 2020-07-29 | 2020-07-29 | 一种实现医疗行业增量数据治理的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111881136A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112486955A (zh) * | 2020-12-04 | 2021-03-12 | 高慧军 | 基于大数据和人工智能的数据维护方法及大数据平台 |
WO2022166859A1 (zh) * | 2021-02-07 | 2022-08-11 | 无锡慧方科技有限公司 | 一种医疗数据治理系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140330780A1 (en) * | 2013-05-06 | 2014-11-06 | Sap Ag | Universal delta data load |
CN105488187A (zh) * | 2015-12-02 | 2016-04-13 | 北京四达时代软件技术股份有限公司 | 多源异构数据增量抽取的方法及装置 |
CN107229721A (zh) * | 2017-06-02 | 2017-10-03 | 泰华智慧产业集团股份有限公司 | 一种变更数据抽取的方法及装置 |
-
2020
- 2020-07-29 CN CN202010742436.3A patent/CN111881136A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140330780A1 (en) * | 2013-05-06 | 2014-11-06 | Sap Ag | Universal delta data load |
CN105488187A (zh) * | 2015-12-02 | 2016-04-13 | 北京四达时代软件技术股份有限公司 | 多源异构数据增量抽取的方法及装置 |
CN107229721A (zh) * | 2017-06-02 | 2017-10-03 | 泰华智慧产业集团股份有限公司 | 一种变更数据抽取的方法及装置 |
Non-Patent Citations (1)
Title |
---|
刘念祖: "《智能信息管理探究》", 31 October 2008, 立信会计出版社, pages: 3 - 33 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112486955A (zh) * | 2020-12-04 | 2021-03-12 | 高慧军 | 基于大数据和人工智能的数据维护方法及大数据平台 |
WO2022166859A1 (zh) * | 2021-02-07 | 2022-08-11 | 无锡慧方科技有限公司 | 一种医疗数据治理系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11341155B2 (en) | Mapping instances of a dataset within a data management system | |
CN107958057B (zh) | 一种用于异构数据库中数据迁移的代码生成方法及装置 | |
US12099531B2 (en) | Information retrieval | |
CN101739390B (zh) | 基于技术设计文档的数据转换 | |
US8589424B1 (en) | Method and system for accurate medical-code translation | |
US7107182B2 (en) | Program and process for generating data used in software function test | |
CN111291049A (zh) | 一种创建表的方法、装置、设备和存储介质 | |
KR20130130706A (ko) | 컴퓨터 프로그램을 나타내는 데이터플로우 그래프 내의 데이터세트 객체의 관리 | |
CN117238433B (zh) | 基于LibreOffice进行文档数据自动隔离的方法 | |
CN108345658B (zh) | 算法计算轨迹的分解处理方法、服务器及存储介质 | |
CN111881136A (zh) | 一种实现医疗行业增量数据治理的方法 | |
CN111143422B (zh) | 数据检索方法、数据检索装置、存储介质及电子设备 | |
EP3847655A1 (en) | Method of classifying medical records | |
CN115543402A (zh) | 一种基于代码提交的软件知识图谱增量更新方法 | |
CN117539893A (zh) | 数据处理方法、介质、装置和计算设备 | |
US20180101571A1 (en) | Data flow modeling and execution | |
US11354165B1 (en) | Automated cluster execution support for diverse code sources | |
WO2017072872A1 (ja) | 業務プログラム生成支援システムおよび業務プログラム生成支援方法 | |
CN116225902A (zh) | 生成测试用例的方法、装置及设备 | |
CN112051987B (zh) | 业务数据处理方法、装置及设备、程序生成方法及装置 | |
CN112667691B (zh) | 基于数据库的专利标引方法、装置、设备和存储介质 | |
US20160224918A1 (en) | Business influenced part extraction method and business influenced part extraction device based on business variation | |
CN114519071A (zh) | 规则匹配模型的生成方法、匹配方法、系统、设备和介质 | |
CN109597847B (zh) | 医疗数据回沉方法及装置、存储介质、电子终端 | |
CN109019217B (zh) | 一种电梯控制软件现场调试系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |