CN113555075A - 一种基于etl数据处理的老年疾病数据管理系统 - Google Patents

一种基于etl数据处理的老年疾病数据管理系统 Download PDF

Info

Publication number
CN113555075A
CN113555075A CN202110822762.XA CN202110822762A CN113555075A CN 113555075 A CN113555075 A CN 113555075A CN 202110822762 A CN202110822762 A CN 202110822762A CN 113555075 A CN113555075 A CN 113555075A
Authority
CN
China
Prior art keywords
data
disease
scientific research
diagnosis
senile
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110822762.XA
Other languages
English (en)
Inventor
张丽
顾娟
高堃
何克磊
高阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Wanwei Aisi Network Intelligent Industry Innovation Center Co ltd
Nanjing University
Nanjing Brain Hospital
Original Assignee
Jiangsu Wanwei Aisi Network Intelligent Industry Innovation Center Co ltd
Nanjing University
Nanjing Brain Hospital
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Wanwei Aisi Network Intelligent Industry Innovation Center Co ltd, Nanjing University, Nanjing Brain Hospital filed Critical Jiangsu Wanwei Aisi Network Intelligent Industry Innovation Center Co ltd
Priority to CN202110822762.XA priority Critical patent/CN113555075A/zh
Publication of CN113555075A publication Critical patent/CN113555075A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明公开了一种基于ETL数据处理的老年疾病数据管理系统。属于数据库的管理系统领域,本发明通过抽取、转换及加载等过程,将老年疾病诊断数据仓库转换为老年疾病科研数据仓库;还定期同步两个仓库;将老年疾病不同的数据源的诊断和评估表,按照规范化的元数据进行ETL处理后集成存储,方便了对数据的维护,也减少了数据的丢失,保证后续用于科研的数据量。在老年疾病诊断数据仓库的基础上,对各表格进行ETL处理后形成的科研数据仓库,减少了由诊断数据转化为科研数据的数据清洗的工作量;科研数据仓库的定期更新,增加了可用于科研的数据,减少了数据清洗的重复操作。

Description

一种基于ETL数据处理的老年疾病数据管理系统
技术领域
本发明属于数据库的管理系统领域,具体地,涉及一种基于ETL数据处理的老年疾病数据管理系统。
背景技术
老年疾病是指人在老年期所患的与衰老有关的,并且有自身特点的疾病。在我国,医疗行业关系到国民健康,是人民的刚性需求,随着我国老龄化社会的到来,老年疾病给社会造成的负担将越来越重,利用大数据和机器学习技术为老年疾病的科研工作助力,既是时代的需要,也是满足人民美好生活的需要。
传统的老年疾病数据管理系统当中的数据是医护人员手动录入的患者一般信息、诊断信息、量表信息等患者原始诊断数据,将其作为机器学习算法的数据输入需要经过大量的数据预处理和清洗的工作,且随着日常诊断数据的不断增长,需人工重复进行上述的数据预处理和数据清洗的操作,非常繁琐。
此外,老年疾病的诊断量表众多,比如帕金森疾病的诊断和评估,常用的就包括统一帕金森评定量表、汉密顿焦虑量表(HAMA)、汉密顿抑郁量表(HAMD)、帕金森病睡眠量表(PDSS)、快速眼动睡眠期行为紊乱筛查量表(RBDSQ)、匹兹堡睡眠质量指数量表在内的十几个量表,甚至可定制更多的评估量表。除了表格众多之外,诊断量表的内容和数量也在变动更新。传统的做法就是在数据库中新建表格,或者重新建立数据库存放。使得现存的老年疾病患者诊断量表数据存放在多个数据库系统中,且同种诊断量表有多种表格形式,在字段名和数据格式上也存在差异,缺乏对元数据的管理和维护。
对于上述面临的问题,可在数据规范化和标准化的基础上,通过ETL(抽取、转换、加载)数据处理流程,将病患的历史数据导入,并定期将诊断数据转换为提前定义好的科研数据形式,根据诊断数据和科研数据来建立统一的老年疾病数据管理平台,为不同的服务对象提供不同的数据服务,从而提升数据的质量并减少冗余工作,统一病患管理并促进老年疾病科研工作的发展。
发明内容
发明目的:本发明建立了一种基于ETL数据处理的老年疾病数据管理系统,通过建立两个数据仓库,即老年疾病诊断数据仓库和老年疾病科研数据仓库。将历史数据通过ETL(抽取、转换、加载)数据处理流程存储到老年疾病诊断数据仓库中,并将老年疾病诊断数据仓库中数据,通过ETL(抽取、转换、加载)数据处理流程存储到老年疾病科研数据仓库中,并在使用过程中定期同步两个数据仓库。在这两个数据仓库的基础上,构建统一的老年疾病数据管理系统,为医护人员和科研工作者提供不同的数据服务,如向医护人员提供数据录入、数据报表在线生成和下载服务等,向科研工作者提供患者条件筛选服务、科研数据下载服务等。
技术方案:本发明所述的一种基于ETL数据处理的老年疾病数据管理系统,是建立在老年疾病诊断数据仓库和老年疾病科研数据仓库基础上的数据管理系统,其支持不同数据源的原始数据的导入,并提供不同的数据服务,其数据流程具体操作步骤如下:
(1)、对老年疾病的患者信息进行统一化和规范化的数据格式制定;并根据制定的元数据信息,建立老年疾病诊断数据仓库和老年疾病科研数据仓库,再按照提前确定好的数据表和数据格式建立关系型数据空表;
设老年疾病诊断数据仓库最终建立的n种老年疾病诊断数据表为(zd_table1,zd_table2,…,zd_tablen),其中,zd_tablei(i=1,…,n)表示老年疾病的一个诊断数据表;
设老年疾病科研数据仓库最终建立的m种老年疾病科研数据表为(ky_table1,ky_table2,…,ky_tablem),其中,ky_tablej(j=1,…,m)表示老年疾病的一个科研数据表;
(2)、确定老年疾病数据源是多种数据库或是同一数据库中的不同的数据表,在将数据源数据导入到老年疾病诊断数据仓库之前,先建立多个老年疾病数据源和老年疾病诊断数据仓库中数据表之间的对应关系;
设老年疾病诊断数据表zd_tablei(i=1,…,n)在不同数据源中存储的源数据表为(zd_tablei1,zd_tablei2,…,zd_tableik),其中,源数据表zd_tableit(i=1,…,n,t=1,…,k)是存放在多个数据库地址当中;
根据元数据信息和历史数据,建立病患诊断数据表zd_tablie和源数据表zd_tableit字段名的对应关系字典,无法匹配对应关系的字段名称统一以某个字段名;
假设老年疾病诊断数据表zd_tablie的字段名为{A1,A2,…,Ar},源数据表zd_tableit的字段名为{B1,B2,…,Bs},则最终确定的字段字典为{B1:A1,B2:A2,…,Br:Ar,…,Bs:C},其中,Au(u=1,…,r)、Bv(v=1,…,s)、C均为具体的字段名称;
(3)、将不同数据源的老年疾病诊断源数据表,通过ETL数据处理流程,导入到老年疾病诊断数据仓库对应的病患诊断数据表中;即对每个源数据表zd_tableit分别进行ETL操作,并集成存储到老年疾病诊断数据表zd_tablei中;
(4)、重复步骤(2)、(3),直至将所有的相关历史源数据都集成到步骤(1)中建立的n个老年疾病诊断数据表(zd_table1,zd_table2,…,zd_tablen)中,从而完成对老年疾病诊断数据仓库的建立;
(5)、老年疾病科研仓库的建立与老年疾病诊断仓库的建立类似;先建立老年疾病诊断数据表和老年疾病科研数据表之间的具体的对应关系。建立数据表之间的对应关系字典,包括字段的对应关系字典,数据格式的对应关系字典,具体数值的对应关系字典等;与步骤(2)类似;
(6)、将老年疾病诊断数据表,通过ETL(抽取、转换、加载)数据处理流程,导入到老年疾病科研数据仓库对应的老年疾病科研数据表中。与步骤(3)类似;
(7)、重复步骤(5)、(6),直到将所有的相关老年疾病诊断数据转换并存储到(1)中建立的m种病患科研数据表(ky_table1,ky_table2,…,ky_tablem)中,从而完成对老年疾病科研数据仓库的建立。
(8)、老年疾病诊断数据仓库中的数据量会在老年疾病数据管理系统的使用过程中不断增长,需对老年疾病科研数据仓库与老年疾病诊断数据仓库的同步定期,保持两者病例数据量的一致性。可通过定期执行步骤(7)完成老年疾病科研数据仓库与老年疾病诊断数据仓库的同步。如对实时性要求较高,则需对增量数据进行实时ETL操作完成同步;
(9)、在步骤(4)和(7)建立的老年疾病诊断数据仓库和老年疾病科研数据仓库的基础上,构建统一的老年疾病数据管理系统,为医护人员和科研工作者提供不同的数据服务。
进一步的,在步骤(1)中,所述老年疾病的患者信息包括患者的一般信息、诊断信息、及量表信息。
进一步的,在步骤(2)中,除了字段的对应关系,还包括数据格式和具体数值的对应关系,均需建立对应的字典关系。
进一步的,在步骤(3)中,所述ETL数据处理流程包括数据的抽取、转换及加载。
进一步的,在步骤(3)中,所述的将不同数据源的老年疾病诊断源数据表,通过ETL数据处理流程,导入到老年疾病诊断数据仓库对应的病患诊断数据表中;其具体操作步骤如下:
(3.1)、确定源数据表zd_tableit所处的数据库地址,与老年疾病诊断数据表zd_tablei位置为相同的数据库系统可直接链接,对不同的数据库可通过ODBC或JDBC的方式进行链接,或者通过中间文件的方式进行交互;
(3.2)、数据抽取:将源数据表zd_tableit中的源数据进行读取,并获取源数据表zd_tableit的字段名{B1,B2,…,Bs},其中Bv(v=1,…,s)表示具体的字段名称;
(3.3)、数据转换:根据步骤(2)中确定的病患诊断数据表zd_tablei和源数据表zd_tableit对应关系字典;把源数据转换成可以存储到老年疾病诊断数据表zd_tablei的合法规范数据;
(3.4)数据加载:将待加载数据集成到老年疾病诊断数据仓库的病患诊断数据表tablei中。
进一步的,在步骤(6)中,将老年疾病诊断数据表,通过ETL数据处理流程,导入到老年疾病科研数据仓库对应的老年疾病科研数据表中;其具体操作步骤如下:
(6.1)、确定老年疾病诊断数据表所处的数据库地址,与老年疾病科研数据表位置为相同的数据库系统可直接链接,对不同的数据库可通过ODBC或JDBC的方式进行链接,或通过中间文件的方式进行交互;
(6.2)、数据抽取:将老年疾病诊断数据表的对应数据进行读取;
(6.3)、数据转换:根据步骤(5)中确定的病患诊断数据表和老年疾病科研数据表的对应关系字典;将病患诊断数据转换成可存储到老年疾病科研数据表的合法规范的待加载数据;
(6.4)、数据加载:将待加载数据集成到老年疾病科研数据仓库的病患科研数据表中。
进一步的,在步骤(9)中,所述构建统一的老年疾病数据管理系统的具体操作步骤如下:
(9.1)、向医护人员提供数据录入、数据报表在线生成及下载服务;
(9.2)、向科研工作者提供患者条件筛选服务及科研数据下载服务。
有益效果:本发明与现有技术相比,本发明将老年疾病不同的数据源的诊断和评估表,按照规范化的元数据进行ETL处理后集成存储,一方面方便对数据的维护,另一方面减少了数据的丢失,保证后续用于科研的数据量。在老年疾病诊断数据仓库的基础上,对各表格进行ETL处理后形成的科研数据仓库,减少了由诊断数据转化为科研数据的数据清洗的工作量。科研数据仓库的定期更新,增加了可用于科研的数据,减少了数据清洗的重复操作。数据管理系统的应用层既可对单个病人进行病历的模板化打印,也可设置筛选条件用于筛选数据作为科研平台的输入。
附图说明
图1是本发明的操作流程图;
图2是本发明中老年疾病诊断数据仓库与老年疾病科研数据仓库定期更新的ETL过程示意图;
图3是本发明中老年疾病诊断数据仓库中快速眼动睡眠期行为紊乱筛查量表(RBDSQ)示例图;
图4是本发明中老年疾病诊断科研数据仓库中快速眼动睡眠期行为紊乱筛查量表(RBDSQ)示例图;
图5是本发明中快速眼动睡眠期行为紊乱筛查量表(RBDSQ)前端在线展示示例图。
具体实施方式
以下结合附图和具体实施例,对本发明做出进一步说明;在下面的描述中阐述了很多具体细节以便于充分理解本申请,但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似改进,因此本申请不受下面公开的具体实施的限制。
本发明通过建立两个数据仓库,即老年疾病诊断数据仓库和老年疾病科研数据仓库。将历史数据通过ETL(抽取、转换、加载)数据处理流程存储到老年疾病诊断数据仓库中,并将老年疾病诊断数据仓库中数据,通过ETL(抽取、转换、加载)数据处理流程存储到老年疾病科研数据仓库中,并在使用过程中定期同步两个数据仓库。在这两个数据仓库的基础上,构建统一的老年疾病数据管理系统,为医护人员和科研工作者提供不同的数据服务,如向医护人员提供数据录入、数据报表在线生成和下载服务等,向科研工作者提供患者条件筛选服务、科研数据下载服务等。
本发明所述的一种基于ETL数据处理的老年疾病数据管理系统,是建立在老年疾病诊断数据仓库和老年疾病科研数据仓库基础上的数据管理系统,支持不同数据源的原始数据的导入,并为医护人员和科研工作者提供不同的数据服务(流程图见附图图1),其数据流程特征在于包括步骤如下:
(1)、对老年疾病的患者信息,如患者一般信息、诊断信息、量表信息等,进行统一化和规范化的数据格式制定,并根据制定的元数据信息,建立老年疾病诊断数据仓库和老年疾病科研数据仓库,按照提前确定好的数据表和数据格式建立关系型数据空表;
假设最终建立的n种老年疾病诊断数据表为(zd_table1,zd_table2,…,zd_tablen),其中zd_tablei(i=1,…,n)代表老年疾病的一个诊断数据表;
最终建立的m种老年疾病科研数据表为(ky_table1,ky_table2,…,ky_tablem),其中ky_tablej(j=1,…,m)代表老年疾病的一个科研数据表;
(2)、老年疾病数据源可以是多种数据库,也可以是同一数据库中的不同的数据表,在将数据源数据导入到老年疾病诊断数据仓库之前,需建立多个老年疾病数据源和老年疾病诊断数据仓库中数据表之间的具体的对应关系;
假设老年疾病诊断数据表zd_tablei(i=1,…,n)在不同数据源中存储的源数据表为(zd_tabil1e,zd_tablei2,…,zd_tableik),其中,源数据表zd_tableit(i=1,…,n,t=1,…,k)是存放在多个数据库地址当中的,根据元数据信息和历史数据,建立病患诊断数据表zd_tablei和源数据表zd_tableit字段名的对应关系字典,无法匹配对应关系的字段名称统一以某个字段名(如C)来代替;
假设病患诊断数据表zd_tablei的字段名为{A1,A2,…,Ar},源数据表zd_tableit的字段名为{B1,B2,…,Bs},最终确定的字段字典为{B1:A1,B2:A2,…,Br:Ar,…,Bs:C},其中,Au(u=1,…,r)、Bv(v=1,…,s)、C均为具体的字段名称;
除了字段的对应关系,还包括数据格式和具体数值的对应关系等,都需建立对应的字典关系。
(3)、将不同数据源的老年疾病诊断源数据表,通过ETL(抽取、转换、加载)数据处理流程,导入到老年疾病诊断数据仓库对应的病患诊断数据表中;即对每个源数据表zd_tableit,分别进行ETL操作,并集成存储到老年疾病诊断数据表zd_tablei中;其中,(i=1,…,n,t=1,…,k);具体操作步骤如下:
(3.1)确定源数据表zd_tableit所处的数据库地址,与老年疾病诊断数据表zd_tablei位置为相同的数据库系统可直接链接,对不同的数据库可通过ODBC或JDBC的方式进行链接,或者通过中间文件的方式进行交互,如csv,json等;
(3.2)数据抽取(E)。将源数据表zd_tableit中的源数据读取出来,并获取源数据表zd_tableit的字段名{B1,B2,…,Bs},其中Bv(v=1,…,s)为具体的字段名称。
(3.3)数据转换(T)。根据(2)中确定的病患诊断数据表zd_tablei和源数据表zd_tableit对应关系字典,如字段字典、数据格式字典、数值字典等,把源数据转换成可以存储到老年疾病诊断数据表zd_tablei的合法规范数据。
以字段字典为例,假设病患诊断数据表zd_tablei的字段名为{A1,A2,…,Ar},源数据表zd_tableit的字段名为{B1,B2,…,Bs},最终确定的字段字典为{B1:A1,B2:A2,…,Br:Ar,…,Bs:C}。其中,Au(u=1,…,r)、Bv(v=1,…,s)、C均为具体的字段名称。根据字段字典修改源数据表zd_tableit的字段名,如将源数据表zd_tableit的字段名由{B1,B2,…,Bs}根据字段字典转换为{A1,A2,…,Ar,…,C}。将转换后的字段名中与病患诊断数据表zd_tablei的字段名{A1,A2,…,Ar}的相交部分{A1,A2,…,Ar}对应的数据提取出来。再根据数据格式字典、数值字典等对应关系将数据转换成合法规范的待加载数据。
(3.4)数据加载(L)。将待加载数据集成到老年疾病诊断数据仓库的病患诊断数据表tablei中。
(4)、重复步骤(2)、(3),直到将所有的相关历史源数据都集成到(1)中建立的n个病患诊断数据表(zd_table1,zd_table2,…,zd_tablen)中,从而完成对老年疾病诊断数据仓库的建立;
(5)、老年疾病科研仓库的建立与老年疾病诊断仓库的建立类似;先建立老年疾病诊断数据表和老年疾病科研数据表之间的具体的对应关系,建立数据表之间的对应关系字典,包括字段的对应关系字典,数据格式的对应关系字典,具体数值的对应关系字典等。与步骤(2)类似;
(6)、将老年疾病诊断数据表,通过ETL(抽取、转换、加载)数据处理流程,导入到老年疾病科研数据仓库对应的老年疾病科研数据表中。与步骤(3)类似;
具体操作步骤如下:
(6.1)确定老年疾病诊断数据表所处的数据库地址,与老年疾病科研数据表位置为相同的数据库系统可直接链接,对不同的数据库可通过ODBC或JDBC的方式进行链接,或者通过中间文件的方式进行交互,如csv,json等。
(6.2)数据抽取(E)。将老年疾病诊断数据表的对应数据读取出来。
(6.3)数据转换(T)。根据(5)中确定的病患诊断数据表和老年疾病科研数据表的对应关系字典,如字段字典、数据格式字典、数值字典等,把病患诊断数据转换成可以存储到老年疾病科研数据表的合法规范的待加载数据。此外,根据需要增加科研必要的衍生变量,补全缺失的数据。
(6.4)数据加载(L)。将待加载数据集成到老年疾病科研数据仓库的病患科研数据表中。
(7)、重复步骤(5)、(6),直到将所有的相关老年疾病诊断数据转换并存储到(1)中建立的m种病患科研数据表(ky_table1,ky_table2,…,ky_tablem)中,从而完成对老年疾病科研数据仓库的建立;
(8)、老年疾病诊断数据仓库中的数据量会在老年疾病数据管理系统的使用过程中不断增长,需对老年疾病科研数据仓库与老年疾病诊断数据仓库的同步定期,保持两者病例数据量的一致性;可通过定期执行步骤(7)完成老年疾病科研数据仓库与老年疾病诊断数据仓库的同步;如对实时性要求较高,则需对增量数据进行实时ETL操作完成同步。(更新流程见附图2)
(9)、在步骤(4)和(7)建立的老年疾病诊断数据仓库和老年疾病科研数据仓库的基础上,构建统一的老年疾病数据管理系统,为医护人员和科研工作者提供不同的数据服务;具体操作步骤如下:
(9.1)、向医护人员提供数据录入、数据报表在线生成和下载服务等;以数据报表在线生成为例;提前设置好数据报表表格的模板,表格中需填入的数据字段与表格字段一致;在后端通过JACOB组件,在Java应用程序中调用COM组件和Win32程序库,进而打开提前设置好的表格模板,再通过查询对应的老年疾病诊断数据仓库数据表,根据病例id找到病例信息,将病例的信息填入模板,并在前端展示;
(9.2)、向科研工作者提供患者条件筛选服务、科研数据下载服务等;以科研数据下载服务为例,将符合科研目的设置查询条件的病例从老年疾病科研数据仓库中筛出,并形成宽表在前端提供下载,作为后续数据分析和智能算法的输入。
实施例1:
1、一种基于ETL数据处理的老年疾病数据管理系统,是建立在老年疾病诊断数据仓库和老年疾病科研数据仓库基础上的数据管理系统,支持不同数据源的原始数据的导入,并为医护人员和科研工作者提供不同的数据服务(流程图见附图图1),其数据流程特征在于包括步骤如下(下文中引号内的内容为名称):
(1)、对老年疾病的患者信息,如患者一般信息、诊断信息、量表信息等,进行统一化和规范化的数据格式制定,并根据制定的元数据信息,在Mysql中建立老年疾病诊断数据仓库和老年疾病科研数据仓库,按照提前确定好的数据表和数据格式在Mysql中建立关系型数据空表;假设最终建立的14种老年疾病诊断数据表为(“统一帕金森评定量表”,“快速眼动睡眠期行为紊乱筛查量表RBDSQ”,“帕金森病睡眠量表PDSS”,“汉密顿焦虑量表HAMA”,……,“匹兹堡睡眠质量指数量表”);最终建立的14种老年疾病科研数据表为(“统一帕金森评定量表科研版”,“快速眼动睡眠期行为紊乱筛查量表RBDSQ科研版”,“帕金森病睡眠量表PDSS科研版”,“汉密顿焦虑量表HAMA科研版”,……,“匹兹堡睡眠质量指数量表科研版”);
(2)、老年疾病数据源在MySQL和Oracle中,在将数据源数据导入到老年疾病诊断数据仓库之前,需建立多个老年疾病数据源和老年疾病诊断数据仓库中数据表之间的具体的对应关系。无法匹配对应关系的字段名称统一以某个字段名(如“none”)来代替;
如“汉密顿焦虑量表HAMA”在老年疾病诊断数据仓库中的表格名称为“hama”,14个目标字段名为(“字段1”,“字段2”,……,“字段14”)。在数据源Mysql中对应的是数据表名称为“hama 1”,14个字段名是(“字段1”,“字段2”,……,“字段14”),在数据源Oracle中对应的是数据表名称为“hama 2”,15个字段名是(“字段1”,“字段2”,……,“字段15”);
根据元数据信息和历史数据,建立病患诊断数据表“hama”和源数据表“hama1”和源数据表“hama 2”的字段名的对应关系字典;如病患诊断数据表“hama”与源数据表“hama1”字段名的对应关系字典为{“字段1”:“字段1”,“字段2”:“字段2”,……,“字段14”:“字段14”};如病患诊断数据表“hama”与源数据表“hama 2”字段名的对应关系字典为{“字段1”:“字段1”,“字段2”:“字段2”,……,“字段14”:“字段14”,“字段15”:“none”};
除了字段的对应关系,还包括数据格式和具体数值的对应关系等,都需建立对应的字典关系;
(3)、将不同数据源的老年疾病诊断源数据表,通过ETL(抽取、转换、加载)数据处理流程,导入到老年疾病诊断数据仓库对应的病患诊断数据表中;比如对病患诊断数据表“hama”的源数据表“hama 1”“hama 2”,分别进行ETL操作,并集成存储到老年疾病诊断数据表“hama”中;以源数据表“hama 2”为例:
1)、确定源数据表“hama 2”所处的数据库Oracle地址,通过JDBC的方式进行连接;
2)、数据抽取(E):将源数据表“hama 2”中的源数据读取出来,并获取源数据表“hama 2”的字段名(“字段1”,“字段2”,……,“字段15”);
3)、数据转换(T):根据(2)中确定的病患诊断数据表“hama”和源数据表“hama 2”对应关系字典,如字段字典、数据格式字典、数值字典等,把源数据转换成可以存储到老年疾病诊断数据表“hama”的合法规范数据;
以字段字典为例,病患诊断数据表“hama”与源数据表“hama 2”字段名的对应关系字典为{“字段1”:“字段1”,“字段2”:“字段2”,……,“字段14”:“字段14”,“字段15”:“none”};根据字段字典修改源数据表“hama 2”的字段名(“字段1”,“字段2”,……,“字段15”)为(“字段1”,“字段2”,……,“none”);将转换后的字段名中与病患诊断数据表“hama”的字段名(“字段1”,“字段2”,……,“字段15”)的相交部分(“字段1”,“字段2”,……,“字段15”)对应的数据提取出来;再根据数据格式字典、数值字典等对应关系将数据转换成合法规范的待加载数据;
4)、数据加载(L):将待加载数据集成到老年疾病诊断数据仓库的病患诊断数据表“hama”中;
(4)、重复步骤(2)、(3),直到将所有的相关历史源数据都集成到(1)中建立的病患诊断数据表(“统一帕金森评定量表”,“快速眼动睡眠期行为紊乱筛查量表RBDSQ”,“帕金森病睡眠量表PDSS”,“汉密顿焦虑量表HAMA科研版”,……,“匹兹堡睡眠质量指数量表”)中,从而完成对老年疾病诊断数据仓库的建立;
(5)、老年疾病科研仓库的建立与老年疾病诊断仓库的建立类似;先建立老年疾病诊断数据表和老年疾病科研数据表之间的具体的对应关系;建立数据表之间的对应关系字典,包括字段的对应关系字典,数据格式的对应关系字典,具体数值的对应关系字典等。与步骤(2)类似;
(6)、将老年疾病诊断数据表,通过ETL(抽取、转换、加载)数据处理流程,导入到老年疾病科研数据仓库对应的老年疾病科研数据表中;与步骤(3)类似,以“汉密顿焦虑量表HAMA科研版”的数据源老年疾病诊断数据表“hama”为例。
1)、确定老年疾病诊断数据表“hama”所处的Mysql数据库地址,通过JDBC的方式进行连接;
2)、数据抽取(E):将老年疾病诊断数据表“hama”的对应数据读取出来;
3)、数据转换(T):根据(5)中确定的病患诊断数据表和老年疾病科研数据表的对应关系字典,如字段字典、数据格式字典、数值字典等,把病患诊断数据转换成可以存储到老年疾病科研数据表的合法规范的待加载数据;根据衍生变量的转换公式,比如总分
Figure BDA0003172561550000111
其中wi是每个问题的得分权重,scorei是每个问题的得分;并把总分“total_score”加入元数据并进行管理维护。
4)、数据加载(L):将待加载数据集成到老年疾病科研数据仓库的病患科研数据表中;
(7)、重复步骤(5)、(6),直到将所有的相关老年疾病诊断数据转换并存储到(1)中建立的14种病患科研数据表(“统一帕金森评定量表科研版”,“快速眼动睡眠期行为紊乱筛查量表RBDSQ科研版”,“帕金森病睡眠量表PDSS科研版”,“汉密顿焦虑量表HAMA科研版”,……,“匹兹堡睡眠质量指数量表科研版”)中,从而完成对老年疾病科研数据仓库的建立;
(8)、老年疾病诊断数据仓库中的数据量会在老年疾病数据管理系统的使用过程中不断增长,需对老年疾病科研数据仓库与老年疾病诊断数据仓库的同步定期,保持两者病例数据量的一致性;可通过定期执行步骤(7)完成老年疾病科研数据仓库与老年疾病诊断数据仓库的同步;如对实时性要求较高,则需对增量数据进行实时ETL操作完成同步(更新流程见附图2);也可以在科研仓库已有的数据表上进行叠加操作,不断衍生出新的变量,新的科研数据表,并维护数据表的元数据信息和转换字典、转换公式;
(9)、在步骤(4)和(7)建立的老年疾病诊断数据仓库和老年疾病科研数据仓库的基础上,构建统一的老年疾病数据管理系统,为医护人员和科研工作者提供不同的数据服务;
1)、向医护人员提供数据录入、数据报表在线生成和下载服务等;以数据报表在线生成为例;提前设置好“汉密顿焦虑量表HAMA”表格的模板,表格中需填入的数据字段与表格字段一致;在后端通过JACOB组件,在Java应用程序中调用COM组件和Win32程序库,进而打开提前设置好的“汉密顿焦虑量表HAMA”表格模板,再通过查询对应的老年疾病诊断数据仓库数据表,根据病例id找到病例信息,将病例的信息填入模板,并在前端展示;
2)、向科研工作者提供患者条件筛选服务、科研数据下载服务等;以科研数据下载服务为例,将符合科研目的设置查询条件的病例从老年疾病科研数据仓库中筛出,如筛选出科研数据仓库中(“RBDSQ总分”>50)∩(“HAMA总分”>10)的患者集合S,并形成宽表在前端提供下载,作为后续数据分析和智能算法的输入。
实施例2:
“快速眼动睡眠期行为紊乱筛查量表RBDSQ”(简称表RBDSQ)是帕金森疾病诊断的量表之一,以表“快速眼动睡眠期行为紊乱筛查量表RBDSQ”为例来说明数据流程;表RBDSQ的历史数据存放在Mysql中,字段名称为(“dream1”,“dream2”,……,“dream10”,“dream11”),字段名称没有明确的指代含义,且字段“dream11”所代表的答案已经废弃;
(1)、对“快速眼动睡眠期行为紊乱筛查量表RBDSQ”进行统一化和规范化的数据格式制定,并根据制定的元数据信息;在Oracle中建立老年疾病诊断数据仓库和老年疾病科研数据仓库,按照提前确定好的数据表和数据格式在Oracle中建立“快速眼动睡眠期行为紊乱筛查量表RBDSQ”的关系型数据空表,分别简称为诊断表RBDSQ和科研表RBDSQ;
诊断表RBDSQ的10个字段名称为(“dream_vivid”,“dream_volence”,……,“used_disease”),每个字段的值为字符串类型的“是”或“否”;科研表RBDSQ的11个字段名称为(“dream_vivid”,“dream_volence”,……,“used_disease”,“total_score”),每个字段的值为数值类型,其中“total_score”是针对前10个字段数值的和;诊断表RBDSQ的目标数据形式如附图3所示,科研表RBDSQ的目标数据形式如附图4所示;
(2)、将Mysql中存放的RBDSQ历史数据的字段名称(“dream1”,“dream2”,……,“dream10”,“dream11”)和诊断表RBDSQ的字段名称(“dream_vivid”,“dream_volence”,……,“used_disease”)建立关系字典{“dream1”:“dream_vivid”,“dream2”:“dream_volence”,……,“dream10”:“dream_influence”,“dream11”:“none”};
(3)、将RBDSQ历史数据,通过ETL(抽取、转换、加载)数据处理流程,导入到诊断表RBDSQ中;
1)、通过JDBC连接源数据表RBDSQ历史数据所处的数据库Mysql地址;
2)、数据抽取(E):将RBDSQ历史数据读取出来;
3)、数据转换(T):根据(2)中确定的字典,把RBDSQ历史数据转换为诊断表RBDSQ数据;根据字段字典修改源数据表RBDSQ历史数据的字段名(“dream1”,“dream2”,……,“dream10”,“dream11”)为(“dream_vivid”,“dream_volence”,……,“dream_influence”,“none”)。将转换后的字段名中与诊断表RBDSQ的字段名(“dream_vivid”,“dream_volence”,……,“dream_influence”)的相交部分(“dream_vivid”,“dream_volence”,……,“dream_influence”)对应的数据提取出来;再根据数据格式字典、数值字典等对应关系将数据转换成合法规范的待加载数据;
4)、数据加载(L):将待加载数据集成到诊断表RBDSQ中;(如附图3所示)
(4)、重复步骤(2)、(3),直到完成所有量表,完成对老年疾病诊断数据仓库的建立;
(5)、建立诊断表RBDSQ和科研表RBDSQ之间的对应关系字典;如字段字典{“dream_vivid”:“dream_vivid”,“dream_volence”:“dream_volence”,……,“dream_influence”:“dream_influence”,“total_score”:“none”},数据类型的关系为诊断表RBDSQ的字符串类型转换为科研表RBDSQ的数值类型。
(6)、将诊断表RBDSQ,通过ETL(抽取、转换、加载)数据处理流程,导入到科研表RBDSQ中。与步骤(3)类似;
1)、通过JDBC连接诊断表RBDSQ所处的数据库Oracle地址;
2)、数据抽取(E):将诊断表RBDSQ的对应数据读取出来。假设病人1的10个问题存储的答案为(是,否,否,……,是,是);
3)、数据转换(T):根据(5)中确定的诊断表RBDSQ和科研表RBDSQ之间的对应关系字典,把诊断表RBDSQ数据转换成可以存储到科研表RBDSQ的合法规范的待加载数据;比如根据数值字典{是:10,否:0},将病人1的答案转换为(10,0,0,……,10,10)的形式,病人1的total_score为所有答案的分值之和;
4)、数据加载(L):将待加载数据集成到科研表RBDSQ中;(如附图4所示)
(7)、重复步骤(5)、(6),直到完成所有科研数据表的转换,进而完成对老年疾病科研数据仓库的建立;
(8)、定期同步诊断表RBDSQ和科研表RBDSQ两个表格,保证病例数的一致性;
(9)、在步骤(4)和(7)建立的老年疾病诊断数据仓库和老年疾病科研数据仓库的基础上,构建统一的老年疾病数据管理系统,为医护人员和科研工作者提供不同的数据服务;
1)、向医护人员提供诊断表RBDSQ的数据录入、数据报表在线生成和下载服务等;如病人1的“快速眼动睡眠期行为紊乱筛查量表RBDSQ”的在线生成(见附图5);
2)、向科研工作者提供科研表RBDSQ筛选服务、科研数据下载服务等;如筛选出科研数据仓库中(“RBDSQ总分”>50)的患者集合S,并形成宽表在前端提供下载,作为后续数据分析和智能算法的输入。

Claims (7)

1.一种基于ETL数据处理的老年疾病数据管理系统,其特征在于,是建立在老年疾病诊断数据仓库和老年疾病科研数据仓库基础上的数据管理系统,其支持不同数据源的原始数据的导入,并提供不同的数据服务,其数据流程具体操作步骤如下:
(1)、对老年疾病的患者信息进行统一化和规范化的数据格式制定;并根据制定的元数据信息,建立老年疾病诊断数据仓库和老年疾病科研数据仓库,再按照提前确定好的数据表和数据格式建立关系型数据空表;
设老年疾病诊断数据仓库中最终建立的n种老年疾病诊断数据表为(zd_table1,zd_table2,...,zd_tablen),其中,zd_tablei(i=1,...,n)表示老年疾病的一个诊断数据表;
设老年疾病科研数据仓库中最终建立的m种老年疾病科研数据表为(ky_table1,ky_table2,...,ky_tablem),其中,ky_tablej(j=1,...,m)表示老年疾病的一个科研数据表;
(2)、确定老年疾病数据源是多种数据库或是同一数据库中的不同的数据表,在将数据源数据导入到老年疾病诊断数据仓库之前,先建立多个老年疾病数据源和老年疾病诊断数据仓库中数据表之间的对应关系;
设老年疾病诊断数据表zd_tablei(i=1,...,n)在不同数据源中存储的源数据表为(zd_tablei1,zd_tablei2,...,zd_tableik),其中,源数据表zd_tableit(i=1,...,n,t=1,...,k)是存放在多个数据库地址当中;
根据元数据信息和历史数据,建立病患诊断数据表zd_tablie和源数据表zd_tableit字段名的对应关系字典,无法匹配对应关系的字段名称统一以某个字段名;
假设老年疾病诊断数据表zd_tablie的字段名为{A1,A2,...,Ar},源数据表zd_tableit的字段名为{B1,B2,...,Bs},则最终确定的字段字典为{B1:A1,B2:A2,...,Br:Ar,...,Bs:C},其中,Au(u=1,...,r)、Bv(v=1,...,s)、C均为具体的字段名称;
(3)、将不同数据源的老年疾病诊断源数据表,通过ETL数据处理流程,导入到老年疾病诊断数据仓库对应的病患诊断数据表中;即对每个源数据表zd_tableit分别进行ETL操作,并集成存储到老年疾病诊断数据表zd_tablei中;
(4)、重复步骤(2)、(3),直至将所有的相关历史源数据都集成到步骤(1)中建立的n个老年疾病诊断数据表(zd_table1,zd_table2,...,zd_tablen)中,从而完成对老年疾病诊断数据仓库的建立;
(5)、建立老年疾病诊断数据表和老年疾病科研数据表之间的具体的对应关系,建立两个数据表之间的对应关系字典;其中,所述的对应关系字典包括字段的对应关系字典,数据格式的对应关系字典及具体数值的对应关系字典;
(6)、将老年疾病诊断数据表,通过ETL数据处理流程,导入到老年疾病科研数据仓库对应的老年疾病科研数据表中;
(7)、重复步骤(5)、(6),直到将所有的相关老年疾病诊断数据转换并存储到(1)中建立的m种病患科研数据表(ky_table1,ky_table2,...,ky_tablem)中,从而完成对老年疾病科研数据仓库的建立;
(8)、定期执行步骤(7)完成老年疾病科研数据仓库与老年疾病诊断数据仓库的同步;
(9)、在步骤(4)和(7)建立的老年疾病诊断数据仓库和老年疾病科研数据仓库的基础上,构建统一的老年疾病数据管理系统。
2.根据权利要求1所述的一种基于ETL数据处理的老年疾病数据管理系统,其特征在于,
在步骤(1)中,所述老年疾病的患者信息包括患者的一般信息、诊断信息、及量表信息。
3.根据权利要求1所述的一种基于ETL数据处理的老年疾病数据管理系统,其特征在于,
在步骤(2)中,除了字段的对应关系,还包括数据格式和具体数值的对应关系,均需建立对应的字典关系。
4.根据权利要求1所述的一种基于ETL数据处理的老年疾病数据管理系统,其特征在于,
在步骤(3)中,所述ETL数据处理流程包括数据的抽取、转换及加载。
5.根据权利要求1所述的一种基于ETL数据处理的老年疾病数据管理系统,其特征在于,
在步骤(3)中,所述的将不同数据源的老年疾病诊断源数据表,通过ETL数据处理流程,导入到老年疾病诊断数据仓库对应的病患诊断数据表中;其具体操作步骤如下:
(3.1)、确定源数据表zd_tableit所处的数据库地址,与老年疾病诊断数据表zd_tablei位置为相同的数据库系统可直接链接,对不同的数据库可通过ODBC或JDBC的方式进行链接,或者通过中间文件的方式进行交互;
(3.2)、数据抽取:将源数据表zd_tableit中的源数据进行读取,并获取源数据表zd_tableit的字段名{B1,B2,...,Bs},其中Bv(v=1,...,s)表示具体的字段名称;
(3.3)、数据转换:根据步骤(2)中确定的病患诊断数据表zd_tablei和源数据表zd_tableit对应关系字典;把源数据转换成可以存储到老年疾病诊断数据表zd_tablei的合法规范数据;
(3.4)数据加载:将待加载数据集成到老年疾病诊断数据仓库的病患诊断数据表tablei中。
6.根据权利要求1所述的一种基于ETL数据处理的老年疾病数据管理系统,其特征在于,
在步骤(6)中,将老年疾病诊断数据表,通过ETL数据处理流程,导入到老年疾病科研数据仓库对应的老年疾病科研数据表中;其具体操作步骤如下:
(6.1)、确定老年疾病诊断数据表所处的数据库地址,与老年疾病科研数据表位置为相同的数据库系统可直接链接,对不同的数据库可通过ODBC或JDBC的方式进行链接,或通过中间文件的方式进行交互;
(6.2)、数据抽取:将老年疾病诊断数据表的对应数据进行读取;
(6.3)、数据转换:根据步骤(5)中确定的病患诊断数据表和老年疾病科研数据表的对应关系字典;将病患诊断数据转换成可存储到老年疾病科研数据表的合法规范的待加载数据;
(6.4)、数据加载:将待加载数据集成到老年疾病科研数据仓库的病患科研数据表中。
7.根据权利要求1所述的一种基于ETL数据处理的老年疾病数据管理系统,其特征在于,在步骤(9)中,所述构建统一的老年疾病数据管理系统的具体操作步骤如下:
(9.1)、向医护人员提供数据录入、数据报表在线生成及下载服务;
(9.2)、向科研工作者提供患者条件筛选服务及科研数据下载服务。
CN202110822762.XA 2021-07-21 2021-07-21 一种基于etl数据处理的老年疾病数据管理系统 Pending CN113555075A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110822762.XA CN113555075A (zh) 2021-07-21 2021-07-21 一种基于etl数据处理的老年疾病数据管理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110822762.XA CN113555075A (zh) 2021-07-21 2021-07-21 一种基于etl数据处理的老年疾病数据管理系统

Publications (1)

Publication Number Publication Date
CN113555075A true CN113555075A (zh) 2021-10-26

Family

ID=78103679

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110822762.XA Pending CN113555075A (zh) 2021-07-21 2021-07-21 一种基于etl数据处理的老年疾病数据管理系统

Country Status (1)

Country Link
CN (1) CN113555075A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050044097A1 (en) * 2003-08-19 2005-02-24 Jaime Singson Method and apparatus for facilitating data stewardship for metadata in an ETL and data warehouse system
CN110033834A (zh) * 2019-03-01 2019-07-19 医利捷(上海)信息科技有限公司 临床科研大数据服务平台及方法
CN110335647A (zh) * 2019-06-21 2019-10-15 上海市精神卫生中心(上海市心理咨询培训中心) 一种临床数据标准化系统及标准化数据采集方法
CN110415831A (zh) * 2019-07-18 2019-11-05 天宜(天津)信息科技有限公司 一种医疗大数据云服务分析平台

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050044097A1 (en) * 2003-08-19 2005-02-24 Jaime Singson Method and apparatus for facilitating data stewardship for metadata in an ETL and data warehouse system
CN110033834A (zh) * 2019-03-01 2019-07-19 医利捷(上海)信息科技有限公司 临床科研大数据服务平台及方法
CN110335647A (zh) * 2019-06-21 2019-10-15 上海市精神卫生中心(上海市心理咨询培训中心) 一种临床数据标准化系统及标准化数据采集方法
CN110415831A (zh) * 2019-07-18 2019-11-05 天宜(天津)信息科技有限公司 一种医疗大数据云服务分析平台

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
宋红梅;刘保延;何丽云;张润顺;周雪忠;: "基于中医药临床科研一体化的数据挖掘需求与数据前处理方法", 中国中医基础医学杂志, no. 12 *
牛绍莉;王鸿燕;许如意;华参;王庆;卞宁;李晶;干卓坤;蔡伟萍;田海涛;罗晶;黄悦;: "老年心血管常见疾病数据库的建立及应用", 转化医学杂志, no. 06 *

Similar Documents

Publication Publication Date Title
US11360950B2 (en) System for analysing data relationships to support data query execution
US20210011891A1 (en) System for importing data into a data repository
US11409764B2 (en) System for data management in a large scale data repository
US10191931B2 (en) Systems and methods for generating event stream data
CN111061841B (zh) 知识图谱的构建方法及装置
US20170154057A1 (en) Efficient consolidation of high-volume metrics
CN107145744A (zh) 医学知识图谱的构建方法、装置及辅助诊断方法
US20130238642A1 (en) Systems and Methods for Data Integration and Standardization
CN113555075A (zh) 一种基于etl数据处理的老年疾病数据管理系统
Phillips et al. The Household Registration System: computer software for the rapid dissemination of demographic surveillance systems
CN116360881B (zh) 一种数据集生成方法、装置、电子设备及存储介质
CN111640476A (zh) 一种实验数据治理和管理的方法
US20230377697A1 (en) System and a way to automatically monitor clinical trials - virtual monitor (vm) and a way to record medical history
CN115456800A (zh) 一种通过保险理赔单据还原疾病病程的方法
Kubick et al. Toward a comprehensive CDISC submission data standard
CN115080594A (zh) 一种对数据进行多维度分析方法、系统和电子设备
Pezoulas et al. A hybrid data harmonization workflow using word embeddings for the interlinking of heterogeneous cross-domain clinical data structures
Bowen Construction of Business English Subject System Based on Data Mining Algorithm
Hoa et al. A probabilistic relational data model for uncertain information
US20220327164A1 (en) Data processing assistant system, data processing assistant method, and data processing assistant program
EP4068028A1 (en) Screen generation assisting program, screen generation assisting apparatus, and generation assisting method
CN113160964A (zh) 一种智能医学大脑模型建立系统、方法、服务系统及介质
Eiranto Reporting system for large process plants
Deharja et al. Electronic Health Records Design in the Nutrition Care Center of Teaching Factory
CN114861361A (zh) 一种航空失效快速决策方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination