CN109344148A - 一种数据采集管理系统及方法 - Google Patents

一种数据采集管理系统及方法 Download PDF

Info

Publication number
CN109344148A
CN109344148A CN201811202980.8A CN201811202980A CN109344148A CN 109344148 A CN109344148 A CN 109344148A CN 201811202980 A CN201811202980 A CN 201811202980A CN 109344148 A CN109344148 A CN 109344148A
Authority
CN
China
Prior art keywords
data
management
configuration
data acquisition
platform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811202980.8A
Other languages
English (en)
Inventor
徐奎东
沈欢
潘宁
杨秋芬
张鹏
高扬
夏列鹏
邵慧斌
孙恒
黄丰林
钟南
赵世杰
张�浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WANDA INFORMATION CO Ltd
Original Assignee
WANDA INFORMATION CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WANDA INFORMATION CO Ltd filed Critical WANDA INFORMATION CO Ltd
Priority to CN201811202980.8A priority Critical patent/CN109344148A/zh
Publication of CN109344148A publication Critical patent/CN109344148A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种数据采集管理系统及方法,该系统包括系统管理、对码管理、数据质量控制、资源库管理、数据源管理、ETL参数配置、ETL运行管理、ETL运行日志、监控节点配置、运行监控与分析;该系统连接Kettle C/S数据采集流程配置;该方法包括在数据采集流程中,自动生成平台建设所需机构数据库中涉及的表结构,自动采集配置规则范围内的数据,自动校验本生成数据质量检验结果;本发明解决了现有技术中存在的人员角色过多、定时任务之间衔接贯通不便及数据质量得不到保障的缺陷,本发明实现了大数据平台建设数据标准化采集、数据汇聚、数据清洗、对码转码、数据质量校验等各流程动态配置,运行流畅、数据质量可控、易于实施维护、数据采集高效稳定。

Description

一种数据采集管理系统及方法
技术领域
本发明涉及医疗技术领域,具体涉及一种数据采集管理系统及方法。
背景技术
目前各行各业都在建设大数据平台,建设大数据平台需要收集行业内各种业务数据。收集业务数据现有方式为:
1)异地导出数据文件,然后拷贝到平台端进行导入继续数据清洗整理。该方式存在数据不及时、导出过程中存在数据文件损坏或数据丢失,且处理麻烦耗时。
2)数据推动方式。下属行业机构提供一台服务器,在服务器上建立一套平台数据底层结构,有下属机构直接推送写入数据,然后平台再把推送过来的数据取到中心端清洗整理。该方式处理环节多、参入人员角色多、协调管理繁琐。
如中国专利申请CN108234605A公开了一种医疗数据采集装置及方法、医疗数据管理平台,通过将云消息采集节点分别部署在一个医疗机构的业务系统中,将云消息传输节点部署在大数据管理系统中;每一个云消息采集节点用于采集部署业务系统产生的每一条医疗数据,并将采集的每一条医疗数据传输至云消息传输节点;云消息传输节点将接收的每一个医疗数据分别传输至大数据管理系统。该发明存在采集节点多,数据传输不及时,各采集节点规则不统一,出现问题时,不利于快速定位,数据质量无法保证。
如中国专利申请CN107391926A公开了一种医疗数据采集分析系统,该系统包括多个医疗数据收集管理平台、医疗数据通信模块和医疗数据诊断平台,医疗数据收集管理平台用于收集并管理患者的医疗数据,并通过医疗数据通信模块将医疗数据传送至医疗数据诊断平台;医疗数据诊断平台用于对患者的医疗数据进行分析、诊断,生成诊断结果发送给医疗数据收集管理平台。该发明采用下属机构采集数据,并将其推送到上级机构,该方式处理环节多,不可控因素多,且效率低、数据传输质量无法保证。
根据国家卫生健康委员会(原卫生部)要求各级区域需要建设辖区内全民健康信息平台,以实现区域内及区域间医疗卫生数据汇聚、互联互通、数据共享。在全民健康信息平台建设的过程中各医院需要按全民健康信息平台建设数据接入要求,提供医院医疗卫生数据到全民健康信息平台。现有技术的方案简述,如附图1所示,目前医院数据接入采用按照全民健康信息平台建设规范拼装数据结构,在医院内网,医院操作人员进行数据上传,推送数据至平台前置机服务器,即直接写入到全民健康信息平台在医院端的前置机,然后通过前置机上的数据交换工具,推送数据到平台数据库服务器,即卫生专网的全民健康信息平台端,其中医院数据服务器、平台前置机服务器、平台数据库服务器均设有定时任务规则,且分别设有医院操作人员、数据交换操作人及平台操作人员。
现有技术存在的客观缺点:
1)数据操作流程的人员角色过多,对于整体流程不便形成统一的认知。
2)数据操作流程定时任务规则多,且在不同系统或工具、不同的网络内设置,定时任务之间的衔接贯通不便。
3)若在整个流程中若出现问题,所有的操作人员都需要来参入问题排查,各关联方多,投入人力多,且可能形成问题推诿,不利于快速分析、定位、解决问题。
4)数据接口升级、数据反复拉取等操作,现有流程会造成实施周期长、多人力物力投入、多方、多次协调沟通、且数据质量得不到保障。
发明内容
为克服现有技术中的不足,本发明的目的在于提供一种简化数据接入和数据升级流程,数据交换和数据采集流程可视化、数据质量和数据问题可控制的数据采集管理系统及方法,其技术方案如下:
一种数据采集管理系统,包括系统管理、对码管理、数据质量控制、资源库管理、数据源管理、ETL参数配置、ETL运行管理、ETL运行日志、监控节点配置、运行监控与分析;该系统连接数据采集流程配置,所述数据采集流程配置提供数据采集配置文件规则。
优选地,所述系统管理提供对操作本系统的人员组织机构信息管理、用户基本信息管理、系统资源管理、用户角色管理、会话管理、操作日志记录、系统字典管理、定时任务管理;
所述对码管理提供原始数据值域字典管理,平台值域字典管理及两者之间的映射关系维护管理;
所述数据质量控制提供数据校验配置和配置规则,还提供数据质量校验结果报告,提供统计指标公式配置,根据天、月为周期自动计算统计指标;
所述监控节点配置可以根据需要配置哪些数据采集流程需要详细监控;
所述运行监控与分析根据监控节点配置的数据采集流程提供流程内节点每次运行详细;分析数据采集流程在一定时间内每次的运行情况,形成图形报表,图形报表包括x轴、y轴,x轴包括年、月、日,y轴包括数据采集耗时和数据采集的数据量。
优选地,所述数据采集流程配置通过使用kettle来配置,生成数据采集配置文件,数据格式为xml,文件类型包括数据源、transformation和job;数据采集流程配置提供数据采集文件规则。
优选地,所述资源库管理主要对数据采集配文件提供一个管理容器,只有这个容器启动,数据源、job、transformation配置才可用;
所述数据源管理提供数据采集配置的数据源连接配置管理,主要连接方式包括JDBC和JNDI;支持集群环境连接,支持主流关系和非关系型数据库;
所述ETL参数配置提供数据采集原始数据映射规则、数据采集标志位、数据采集时间段起止时间配置、时间步长配置、时间周期类型配置;
所述ETL运行管理提供job、transformation运行管理,提供定时任务运行规则,job的定时运行规则配置可以按秒、分钟、小时、天、星期、月为单位的自定义间隔周期运行;查看job、transformation每次运行的运行日志记录;
所述ETL运行日志提供记录所有job、transformation每次运行的运行日志管理维护,运行日志会根据运行情况显示相应的运行状态,运行日志可以下载到本地。
优选地,所述数据采集流程配置的输入读取源头包括数据库表格、文本文件、execl文件、xml文件、Json文件、webservice接口;所述数据采集流程配置的输出端包括数据库表格、文本文件、execl文件、xml文件、Json文件。
一种数据采集管理方法,包括以下步骤:
(1)数据抽取阶段,根据ETL参数配置自动生成平台建设所需医疗机构数据库中涉及的表结构;
(2)数据清洗阶段,自动清洗校验数据;
(3)数据上传阶段,把清洗校验后的数据进行加密,然后自动上传到平台端。
优选地,所述数据抽取阶段包括以下步骤:
(1)数据映射:筛选出涉及的数据表,把这些数据表配置到数据采集管理系统中;
(2)源数据缓存:从医疗机构通过数据映射过来的数据会根据缓存规则自动清理和存储固定时间段的数据,以备数据问题分析定位;
(3)平台数据采集接口规范:即是数据采集的规则库,根据这个规则库定义各项数据的类型、长度及值域范围;
(4)数据汇聚:数据采集映射过来后,根据规则库的数据项定义,形成数据汇聚;
(5)数据汇聚完成,即得到数据视图,数据视图的各项定义和规则库的数据项定义对应;
(6)数据匹配:在数据清洗前进行,匹配规则来源于平台数据采集接口规范。
优选地,所述数据清洗阶段包括以下步骤:
(1)对码转码:根据数据采集管理生产的对码映射关系,在数据采集流程中调用继续转码;
(2)数据备份:在进行数据校验控制前,先备份清洗好的数据,以备数据问题分析定位;
(3)数据质量校验控制:根据平台数据采集接口规范形成的规则库领域模型进行数据校验,校验完成后形成校验结果报告;
(4)数据写入:将校验通过的数据写入到数据发送区。
优选地,所述数据上传阶段包括以下步骤:
(1)数据上传采用加密传输,上传时使用定时任务配置;
(2)平台端接收数据后,进入平台端数据处理流程。
优选地,所述加密传输包括传输通道加密和数据加密。
本发明所获得的有益技术效果:
1)本发明解决了现有技术中所存在人员角色过多、定时任务之间衔接贯通不便及数据质量得不到保障的问题,本发明实现了大数据平台建设数据标准化采集、数据汇聚、数据清洗、对码转码、数据质量校验等各流程动态配置,运行流畅、数据质量可控、易于实施维护、数据采集高效稳定;本发明所有的操作流程用一套流程全面覆盖各个关联方,提供统一的管理系统操作保障;数据在哪个流程环节出现问题,什么问题都可以进行追踪查看;实施周期相对较短,需要协调的方面较少;数据交互过程中数据质量可控,减少数据采集流程的操作人员,节省人力、物力及时间;
2)本发明采用主动采集方式,医院数据接入方式,采用数据采集的方式,主动拉取数据,准备阶段协调工作少,资源准备简单,周期短;本发明整个数据操作流程的人员角色只需要一个;数据接口升级、数据反复拉取等操作,由单一操作人员即可在同一个流程内灵活配置,减少不可控因素,降低人力成本;
3)本发明通过在同一系统工具、同一网络内设置数据操作流程定时任务规则,同时定时器配置提供按月、周、天、小时、分钟、秒为单位的任意时间间隔周期运行,实现标准化流程动态配置,易于实施维护,数据采集高效稳定;所有的操作在同一个系统工具内有统一的系统工具日志,便于问题分析定位;
4)本发明通过数据采集流程提供原始数据缓存、数据质量控制前备份、数据质量控制后备份,以便于出现数据问题时,提供数据排查;通过提供数据质控前数据写入的错误数据处理、提供数据质量控制、校验数据质量、提供数据指标核对,确保数据采集的数据准确。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
附图1为现有全民健康信息平台建设数据管理流程图;
附图2为本发明数据采集管理系统功能架构图;
附图3为本发明数据采集流程图。
具体实施方式
以下将参照附图,通过实施例方式详细地描述本发明的技术方案。在此需要说明的是,对于这些实施例方式的说明用于帮助理解本发明,但并不构成对本发明的限定。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,单独存在B,同时存在A和B三种情况,本文中术语“/和”是描述另一种关联对象关系,表示可以存在两种关系,例如,A/和B,可以表示:单独存在A,单独存在A和B两种情况,另外,本文中字符“/”,一般表示前后关联对象是一种“或”关系。
实施例1
如附图2所示,一种数据采集管理系统,包括系统管理、对码管理、数据质量控制、资源库管理、数据源管理、ETL参数配置、ETL运行管理、ETL运行日志、监控节点配置、运行监控与分析;该系统连接数据采集流程配置,数据采集流程配置提供数据采集配置文件规则。
Kettle C/S数据采集流程配置:数据采集流程配置使用kettle来配置,生成数据采集配置文件,数据格式为xml,内容类型包括数据源(.kdb文件,数据源连接配置)、transformation(.ktr文件,单个数据采集配置)和job(.kjb文件,带定时运行规则的数据采集配置)。transformation可以嵌套transformation,job可以嵌套transformation和job。数据采集配置的输入读取源头包括数据库表格、文本文件、execl文件、xml文件、Json文件、webservice接口,输出端包括数据库表格、文本文件、execl文件、xml文件、Json文件。
kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,数据抽取高效稳定。
系统管理提供对操作本系统的人员组织机构信息管理、用户基本信息管理、系统资源管理、用户角色管理、会话管理、操作日志记录、系统字典管理、定时任务管理。
对码管理提供原始数据值域字典管理,平台值域字典管理及两者之间的映射关系维护管理。
数据质量控制提供数据校验配置和配置规则,包括如下规则:主键唯一性、数据长度、数据类型、数据值的范围、数据关联性、数据一致性、数据完整性;还提供数据质量校验结果报告;提供统计指标公式配置,根据天、月为周期自动计算统计指标。
资源库管理主要对数据采集配文件提供一个管理容器,只有这个容器启动,数据源、job、transformation配置才可用。
数据源管理提供数据采集配置的数据源连接配置管理,包括服务器地址、实例名、用户名、密码、连接方式等信息;主要连接方式包括JDBC和JNDI;支持集群环境连接,支持主流关系和非关系型数据库,oracle、mysql、mssql、db2、postgresql、cache、sybase等。
ETL参数配置提供数据采集原始数据映射规则、数据采集标志位、数据采集时间段起止时间配置、时间步长配置、时间周期类型配置;
ETL运行管理提供job、transformation运行管理,提供定时任务运行规则,job的定时运行规则配置可以按秒、分钟、小时、天、星期、月为单位的自定义间隔周期运行;查看job、transformation每次运行的运行日志记录。
ETL运行日志提供记录所有job(单个job、job内嵌的job)、transformation(job内嵌的transformation、transformation内嵌的transformation)每次运行的运行日志管理维护,运行日志会根据运行情况显示相应的运行状态,运行日志可以下载到本地。
监控节点配置可以根据需要配置哪些数据采集流程需要详细监控。
运行监控与分析根据监控节点配置的数据采集流程提供流程内节点每次运行详细,运行详情包括运行耗时、开始时间、停止时间、处理的数据量;分析数据采集流程在一定时间内每次的运行情况,业务主要维度包括数据采集耗时和数据采集的数据量;时间维度包括年、月、日。
实施例2
基于上述实施例,一种数据采集管理方法,在数据采集流程中,包括以下步骤:
(1)数据抽取阶段,根据ETL参数配置自动生成平台建设所需机构数据库中涉及的表结构;
(2)数据清洗阶段,根据数据采集配置文件规则、对码管理提供的平台及原始数据的映射管理和数据质量控制提供的配置规则进行自动清洗校验数据;
(3)数据上传阶段,把清洗校验后的数据进行加密,然后根据定时器配置规则自动上传到平台端。
如附图3所示,以医疗卫生行业大数据平台建设数据采集举例说明数据采集流程。
数据抽取阶段:
(1)数据映射:筛选出平台建设在医疗机构业务系统中涉及的数据表,把这些数据表配置到数据采集管理系统中;运行数据采集流程时,以同医疗机构表结构1:1的方式自动创建表结构;创建完表结构后,根据ETL参数配置,获取个业务表数据;运行时使用定时器,即定时任务配置,定时任务支持按秒、分钟、小时、天、星期、月为单位的自定义间隔为周期运行;
(2)源数据缓存:从医疗机构通过数据映射过来的数据会根据缓存规则自动清理和存储固定时间段的数据,以备数据问题分析定位;
(3)平台数据采集接口规范:即大数据平台建设的一套数据底层结构,这套数据结构对数据采集来说,即是数据采集的规则库,根据这个规则库定义各项数据的类型、长度及值域范围;
(4)数据汇聚:数据采集映射过来后,根据规则库的数据项定义,形成数据汇聚;
(5)数据汇聚完成,即得到数据视图,数据视图的各项定义和规则库的数据项定义一一对应;
(6)在数据进行清洗前,进行数据匹配,匹配规则来源于平台数据采集接口规范。
数据清洗阶段:
(1)对码转码:根据数据采集管理生产的对码映射关系,在数据采集流程中调用继续转码;平台数据元值域代码即是数据采集规则库的数据字典,由数据采集管理系统维护管理,对码后还有问题的数据,进入错误数据处理流程,处理之后再次进行提交;
(2)数据备份:在进行数据校验控制前,先备份清洗好的数据,以备数据问题分析定位;
(3)数据质量校验控制:根据平台数据采集接口规范形成的规则库领域模型进行数据校验,校验数据的长度、类型、值域范围、数据主键,数据关联性、数据一致性、完整性;校验完成后形成校验结果报告;
(4)数据写入:将校验通过的数据写入到数据发送区,在写入发送区前先备份通过校验的数据。
数据上传:
(1)数据上传采用加密传输,加密传输方式包括传输通道加密和数据加密。上传时使用定时器,即定时任务配置,定时任务支持按秒、分钟、小时、天、星期、月为单位的自定义间隔为周期运行;
(2)平台端接收数据后,进入平台端数据处理流程。
本发明的系统及方法解决了大数据平台建设数据标准化采集、数据汇聚、数据清洗、对码转码、数据质量校验等各流程动态配置、流畅运行、数据质量可控、易于实施维护、数据采集高效稳定。
实施例3
本发明在医疗卫生行业大数据平台建设及医疗机构数据采集上的应用,具体应用步骤如下:
(1)项目组向医院申请跟平台接口有关表的数据库权限;
a.根据平台建设数据接入接口标准整理医院系统中需要使用的数据表;
b.制作数据视图;
c.医院分配数据库表的读取权限及数据表操作账号信息;
(2)根据医院提供的数据表操作账号信息,配置数据源,可以访问医院数据库,根据医院提供的数据表资料,经数据映射、数据视图调试;
(3)根据kettle工具配置数据采集流程规则文件,然后导入到数据采集管理系统;
(4)在数据采集管理系统进行对码转码,进行数据清洗,且配置好job定时任务;
(5)配置好定时数据质量校验运行时间,自动进行数据质量校验,医院和实施人员可以通过数据质控查看每天的数据质量报告;
(6)实施人员查看数据采集运行情况和数据校验质量报告,一旦发现有问题,在数据采集管理系统进行处理;
(7)接口调整或升级:若接口出现调整,项目组数据采集工程师远程登陆数据采集管理系统,重新配置多数据源采集和转码规则。
其中,不同实施阶段的职责分工如下:
本发明与现有技术相比:
(1)数据主动采集,医院数据接入方式,采用数据采集的方式,主动拉取数据;医院无需准备,由平台统一提供一体机配置网络、预置软件、映射数据库、完成数据转换等;
(2)准备阶段协调工作少,资源准备简单,周期短;实施阶段主要以平台为主导,医院小范围配合,时间可控;后续维护、升级以平台为主导,医院小范围配合,管理可控;
(3)整个数据操作流程的人员角色只需要一个;数据操作流程定时任务规则,在同一系统工具,同一的网络内设置;
(4)所有的操作在同一个系统工具内,有统一的系统工具日志,便于问题分析定位;
(5)数据接口升级、数据反复拉取等操作,由单一操作人员即可在同一个流程内灵活配置;
(6)定时器配置提供按月、周、天、小时、分钟、秒为单位的任意时间间隔周期运行;
(7)提供数据采集流程提供原始数据缓存、数据质量控制前备份、数据质量控制后备份,便于出现数据问题时,提供数据排查;
(8)提供数据质控前数据写入的错误数据处理;提供数据质量控制,校验数据质量;提供数据指标核对,确保数据采集的数据准确,质量可控,安全可靠。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种数据采集管理系统,其特征在于,包括系统管理、对码管理、数据质量控制、资源库管理、数据源管理、ETL参数配置、ETL运行管理、ETL运行日志、监控节点配置、运行监控与分析;该系统连接数据采集流程配置,所述数据采集流程配置提供数据采集配置文件规则。
2.根据权利要求1所述的数据采集管理系统,其特征在于,所述系统管理提供对操作本系统的人员组织机构信息管理、用户基本信息管理、系统资源管理、用户角色管理、会话管理、操作日志记录、系统字典管理、定时任务管理;
所述对码管理提供原始数据值域字典管理,平台值域字典管理及两者之间的映射关系维护管理;
所述数据质量控制提供数据校验配置和配置规则,还提供数据质量校验结果报告,提供统计指标公式配置,根据天、月为周期自动计算统计指标;
所述监控节点配置可以根据需要配置哪些数据采集流程需要详细监控;
所述运行监控与分析根据监控节点配置的数据采集流程提供流程内节点每次运行详细,分析数据采集流程在一定时间内每次的运行情况,形成图形报表,图形报表包括x轴、y轴,x轴包括年、月、日,y轴包括数据采集耗时和数据采集的数据量。
3.根据权利要求1所述的数据采集管理系统,其特征在于,所述数据采集流程配置通过使用kettle来配置,生成数据采集配置文件,数据格式为xml,文件类型包括数据源、transformation和job;数据采集流程配置提供数据采集文件规则。
4.根据权利要求3所述的数据采集管理系统,其特征在于,
所述资源库管理主要对数据采集配文件提供一个管理容器,只有这个容器启动,数据源、job、transformation配置才可用;
所述数据源管理提供数据采集配置的数据源连接配置管理,连接方式包括JDBC和JNDI;支持集群环境连接,支持主流关系和非关系型数据库;
所述ETL参数配置提供数据采集原始数据映射规则、数据采集标志位、数据采集时间段起止时间配置、时间步长配置、时间周期类型配置;
所述ETL运行管理提供job、transformation运行管理,提供定时任务运行规则,job的定时运行规则配置按秒、分钟、小时、天、星期、月为单位自定义间隔周期运行;查看job、transformation每次运行的运行日志记录;
所述ETL运行日志提供记录所有job、transformation每次运行的运行日志管理维护,运行日志会根据运行情况显示相应的运行状态,运行日志可以下载到本地。
5.根据权利要求3所述的数据采集管理系统,其特征在于,所述数据采集流程配置的输入读取源头包括数据库表格、文本文件、execl文件、xml文件、Json文件、webservice接口;所述数据采集流程配置的输出端包括数据库表格、文本文件、execl文件、xml文件、Json文件。
6.一种根据权利要求1-5任一项所述数据采集管理系统的数据采集管理方法,其特征在于,包括以下步骤:
(1)数据抽取阶段,根据ETL参数配置自动生成平台建设所需机构数据库中涉及的表结构;
(2)数据清洗阶段,根据数据采集配置文件规则、对码管理提供的平台及原始数据的映射管理和数据质量控制提供的配置规则进行自动清洗校验数据;
(3)数据上传阶段,把清洗校验后的数据进行加密,然后根据定时器配置规则自动上传到平台端。
7.根据权利要求6所述的数据采集管理方法,其特征在于,所述数据抽取阶段包括以下步骤:
(1)数据映射:筛选出涉及的数据表,把这些数据表配置到数据采集管理系统中;
(2)源数据缓存:从机构通过数据映射过来的数据会根据缓存规则自动清理和存储固定时间段的数据,以备数据问题分析定位;
(3)平台数据采集接口规范:即是数据采集的规则库,根据这个规则库定义各项数据的类型、长度及值域范围;
(4)数据汇聚:数据采集映射过来后,根据规则库的数据项定义,形成数据汇聚;
(5)数据汇聚完成,即得到数据视图,数据视图的各项定义和规则库的数据项定义对应;
(6)数据匹配:在数据清洗前进行,匹配规则来源于平台数据采集接口规范。
8.根据权利要求6所述的数据采集管理方法,其特征在于,所述数据清洗阶段包括以下步骤:
(1)对码转码:根据数据采集管理生产的对码映射关系,在数据采集流程中调用继续转码;
(2)数据备份:在进行数据校验控制前,先备份清洗好的数据,以备数据问题分析定位;
(3)数据质量校验控制:根据平台数据采集接口规范形成的规则库领域模型进行数据校验,校验完成后形成校验结果报告;
(4)数据写入:将校验通过的数据写入到数据发送区。
9.根据权利要求6所述的数据采集管理方法,其特征在于,所述数据上传阶段包括以下步骤:
(1)数据上传采用加密传输,上传时使用定时任务配置;
(2)平台端接收数据后,进入平台端数据处理流程。
10.根据权利要求9所述的数据采集管理方法,其特征在于,所述加密传输包括传输通道加密和数据加密。
CN201811202980.8A 2018-10-16 2018-10-16 一种数据采集管理系统及方法 Pending CN109344148A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811202980.8A CN109344148A (zh) 2018-10-16 2018-10-16 一种数据采集管理系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811202980.8A CN109344148A (zh) 2018-10-16 2018-10-16 一种数据采集管理系统及方法

Publications (1)

Publication Number Publication Date
CN109344148A true CN109344148A (zh) 2019-02-15

Family

ID=65309609

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811202980.8A Pending CN109344148A (zh) 2018-10-16 2018-10-16 一种数据采集管理系统及方法

Country Status (1)

Country Link
CN (1) CN109344148A (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109992627A (zh) * 2019-04-09 2019-07-09 太原理工大学 一种用于临床科研的大数据系统
CN110515994A (zh) * 2019-08-20 2019-11-29 合肥英泽信息科技有限公司 一种基于大数据的地质勘查分析管理系统
CN111291143A (zh) * 2020-01-16 2020-06-16 深圳市华傲数据技术有限公司 网格数据采集方法以及系统
CN111797178A (zh) * 2020-07-06 2020-10-20 国网安徽省电力有限公司 一种基于报表工具的数据采集与处理方法
CN111797084A (zh) * 2020-06-16 2020-10-20 中国人民解放军92493部队参谋部 基于武器装备试验流程的数据编码贯标检查方法及系统
CN112000652A (zh) * 2020-08-17 2020-11-27 杭州数云信息技术有限公司 一种基于实时计算数据标准化处理引擎及处理方法
CN112181959A (zh) * 2020-09-15 2021-01-05 山东特检鲁安工程技术服务有限公司 一种特种设备多源数据处理平台及处理方法
CN112231310A (zh) * 2020-10-15 2021-01-15 浪潮云信息技术股份公司 数据核验分类处理系统及方法
CN112486967A (zh) * 2020-11-27 2021-03-12 智业软件股份有限公司 一种数据采集方法、终端设备及存储介质
CN113177039A (zh) * 2021-04-27 2021-07-27 中通服咨询设计研究院有限公司 一种基于数据融合的数据中心数据清洗系统
CN113485894A (zh) * 2021-07-14 2021-10-08 深信服科技股份有限公司 一种数据采集方法、装置、设备及可读存储介质
CN113535835A (zh) * 2021-07-12 2021-10-22 上海浦东发展银行股份有限公司 内核数据处理软件的数据采集方法、装置、介质及设备
CN115687486A (zh) * 2022-11-14 2023-02-03 浪潮智慧科技有限公司 一种基于kettle的轻量级数据采集方法及设备
CN115934825A (zh) * 2023-02-02 2023-04-07 成都卓讯智安科技有限公司 基于Elasticsearch的数据接入方法、系统、电子设备和存储介质
CN116108476A (zh) * 2022-11-03 2023-05-12 广东加一信息技术有限公司 一种基于大数据的信息安全管理及监控系统
CN116860741A (zh) * 2023-08-31 2023-10-10 成都智慧锦城大数据有限公司 基于消息队列的数据标准自动检验和同步系统及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107992552A (zh) * 2017-11-28 2018-05-04 南京莱斯信息技术股份有限公司 一种数据交换平台及数据交换方法
CN108010573A (zh) * 2017-11-24 2018-05-08 苏州市环亚数据技术有限公司 一种医院数据融合系统、方法、电子设备及存储介质
CN108090209A (zh) * 2017-12-29 2018-05-29 河南电力医院 基于大数据并行处理的健康决策系统
CN108182963A (zh) * 2017-12-14 2018-06-19 山东浪潮云服务信息科技有限公司 一种医疗数据处理方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108010573A (zh) * 2017-11-24 2018-05-08 苏州市环亚数据技术有限公司 一种医院数据融合系统、方法、电子设备及存储介质
CN107992552A (zh) * 2017-11-28 2018-05-04 南京莱斯信息技术股份有限公司 一种数据交换平台及数据交换方法
CN108182963A (zh) * 2017-12-14 2018-06-19 山东浪潮云服务信息科技有限公司 一种医疗数据处理方法及装置
CN108090209A (zh) * 2017-12-29 2018-05-29 河南电力医院 基于大数据并行处理的健康决策系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
孙安健: ""通用ETL工具的研究与设计"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109992627A (zh) * 2019-04-09 2019-07-09 太原理工大学 一种用于临床科研的大数据系统
CN110515994A (zh) * 2019-08-20 2019-11-29 合肥英泽信息科技有限公司 一种基于大数据的地质勘查分析管理系统
CN111291143A (zh) * 2020-01-16 2020-06-16 深圳市华傲数据技术有限公司 网格数据采集方法以及系统
CN111797084A (zh) * 2020-06-16 2020-10-20 中国人民解放军92493部队参谋部 基于武器装备试验流程的数据编码贯标检查方法及系统
CN111797084B (zh) * 2020-06-16 2022-11-29 中国人民解放军92493部队参谋部 基于武器装备试验流程的数据编码贯标检查方法及系统
CN111797178A (zh) * 2020-07-06 2020-10-20 国网安徽省电力有限公司 一种基于报表工具的数据采集与处理方法
CN112000652A (zh) * 2020-08-17 2020-11-27 杭州数云信息技术有限公司 一种基于实时计算数据标准化处理引擎及处理方法
CN112181959A (zh) * 2020-09-15 2021-01-05 山东特检鲁安工程技术服务有限公司 一种特种设备多源数据处理平台及处理方法
CN112231310A (zh) * 2020-10-15 2021-01-15 浪潮云信息技术股份公司 数据核验分类处理系统及方法
CN112486967A (zh) * 2020-11-27 2021-03-12 智业软件股份有限公司 一种数据采集方法、终端设备及存储介质
CN113177039A (zh) * 2021-04-27 2021-07-27 中通服咨询设计研究院有限公司 一种基于数据融合的数据中心数据清洗系统
CN113177039B (zh) * 2021-04-27 2024-02-27 中通服咨询设计研究院有限公司 一种基于数据融合的数据中心数据清洗系统
CN113535835A (zh) * 2021-07-12 2021-10-22 上海浦东发展银行股份有限公司 内核数据处理软件的数据采集方法、装置、介质及设备
CN113485894A (zh) * 2021-07-14 2021-10-08 深信服科技股份有限公司 一种数据采集方法、装置、设备及可读存储介质
CN116108476A (zh) * 2022-11-03 2023-05-12 广东加一信息技术有限公司 一种基于大数据的信息安全管理及监控系统
CN116108476B (zh) * 2022-11-03 2023-08-25 深圳市和合信诺大数据科技有限公司 一种基于大数据的信息安全管理及监控系统
CN115687486B (zh) * 2022-11-14 2023-06-13 浪潮智慧科技有限公司 一种基于kettle的轻量级数据采集方法及设备
CN115687486A (zh) * 2022-11-14 2023-02-03 浪潮智慧科技有限公司 一种基于kettle的轻量级数据采集方法及设备
CN115934825A (zh) * 2023-02-02 2023-04-07 成都卓讯智安科技有限公司 基于Elasticsearch的数据接入方法、系统、电子设备和存储介质
CN115934825B (zh) * 2023-02-02 2023-08-25 成都卓讯智安科技有限公司 基于Elasticsearch的数据接入方法、系统、电子设备和存储介质
CN116860741A (zh) * 2023-08-31 2023-10-10 成都智慧锦城大数据有限公司 基于消息队列的数据标准自动检验和同步系统及方法
CN116860741B (zh) * 2023-08-31 2023-11-10 成都智慧锦城大数据有限公司 基于消息队列的数据标准自动检验和同步系统及方法

Similar Documents

Publication Publication Date Title
CN109344148A (zh) 一种数据采集管理系统及方法
CN112685385B (zh) 一种用于智慧城市建设的大数据平台
US11347384B2 (en) Horticultural care tracking, validation and verification
Philip et al. Cancer care: Challenges in the developing world
CN112396404A (zh) 一种数据中台系统
Wiggins et al. Data management guide for public participation in scientific research
US8601029B2 (en) Data stewardship in federated multi-level master data management systems
US8635249B2 (en) Federation of multi-level master data management systems
Mennecke et al. Geographic information systems in developing countries: issues in data collection, implementation and management
Radzi et al. The relationship among transformational leadership, organizational learning, and organizational innovation: A case study in asian manufacturing food industry
US20200168304A1 (en) Clinical trial oversight and identification of errors in clinical trial procedure
CN106251092A (zh) 基于作业模板的现场作业管控系统
US11276484B1 (en) Clinical activity network generation
CN110188132A (zh) 一种数据交换方法及系统
CN109616184A (zh) 一种基于互联网的医疗数据集成系统
DE102012015808A1 (de) Vorrichtung, Verfahren und System zur automatisierten Erfassung und Verarbeitung von Vitaldaten
US20220078829A1 (en) Scheduling database system
CN107506422A (zh) 一种多数据源的分布式日志处理系统及方法
CN117527568A (zh) 一种数据整合平台的数据接入方法及系统
Heymann et al. Monitoring user-system interactions through graph-based intrinsic dynamics analysis
CN103116860A (zh) 一种企业税务档案管理平台
CN115330420B (zh) 基于标准的宝玉石追溯方法及系统
CN110136790A (zh) 一种云共享电子病历信息系统
US11204762B2 (en) Systems and methods for tracking features in a development environment
US20130127909A1 (en) Multiple simultaneous biometric data acquisition and display system and method of use

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190215