CN109739851A - 流动人口大数据多源采集方法及系统 - Google Patents

流动人口大数据多源采集方法及系统 Download PDF

Info

Publication number
CN109739851A
CN109739851A CN201910054401.8A CN201910054401A CN109739851A CN 109739851 A CN109739851 A CN 109739851A CN 201910054401 A CN201910054401 A CN 201910054401A CN 109739851 A CN109739851 A CN 109739851A
Authority
CN
China
Prior art keywords
data
source
acquisition
etl
data source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910054401.8A
Other languages
English (en)
Inventor
乔明明
赵鲁闽
刘宇
廖道国
张新福
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Polytron Technologies Inc
Original Assignee
Guangdong Polytron Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Polytron Technologies Inc filed Critical Guangdong Polytron Technologies Inc
Priority to CN201910054401.8A priority Critical patent/CN109739851A/zh
Publication of CN109739851A publication Critical patent/CN109739851A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种流动人口大数据多源采集方法及系统,所述方法包括:从原始数据源系统中获取目的数据源系统需要的数据;将获取到的数据按照业务需求,转换成所述目的数据源系统要求的形式,并对错误和/或不一致的数据进行清洗和加工,完成数据转换;将转换后的数据装载到所述目的数据源系统中。本发明实现了从现有的各个异构数据系统中统一集中采集、存储和管控的效果,从而能够有效的对流动人口大数据进行多源采集,为流动人口的大数据分析提供基础,各类数据源可以通过大数据多源采集方法中提供的接口和平台进行对接和数据交换共享,各类大数据多源采集系统也可基于此对采集和管理的数据进行开发和运行。

Description

流动人口大数据多源采集方法及系统
技术领域
本发明涉及人口分析技术领域,特别是涉及一种流动人口大数据多源采集方法及系统。
背景技术
目前,随着经济的快速发展,国家和各地政府在流动人口管理和服务领域的投入力度在逐年递增,我国流动人口总量整体呈稳定态势,特别是在一些特大城市和大中型城市,流动人口占城市总人口比例高达50%以上,政府对流动人口的管理和服务也日益重视。
我国人口基数大,流动人口众多,因此对流动人口进行统计分析的难度较大,大数据分析技术能够很好的应用于流动人口分析中,在建立流动人口大数据分析系统之前,需要对流动人口大数据进行采集,因此,采集系统是大数据应用项目建设中的重要子系统之一。
目前,由于缺乏有效的针对流动人口大数据进行多源采集的解决方案,当然人口管理机构使用系统中,系统现存的各个业务系统存在数据壁垒问题,各家数据成为信息孤岛,各家的数据存储方式、数据库品牌、接入网络的方式都各有不同,无法实现流动人口大数据的多源采集。
发明内容
为此,本发明的一个目的在于提出一种流动人口大数据多源采集方法,以有效对流动人口大数据进行多源采集,为流动人口的大数据分析提供基础。
根据本发明提供的流动人口大数据多源采集方法,包括:
从原始数据源系统中获取目的数据源系统需要的数据;
将获取到的数据按照业务需求,转换成所述目的数据源系统要求的形式,并对错误和/或不一致的数据进行清洗和加工,完成数据转换;
将转换后的数据装载到所述目的数据源系统中。
上述流动人口大数据多源采集方法,其中,所述从原始数据源系统中获取目的数据源系统需要的数据的步骤中,采用全自动化、半自动化、人工采集三种方式对原始数据源系统中的数据进行采集;
全自动化方式采用Kettle进行数据自动化采集,并用Azkaban工具进行数据采集的时间调度管理;
半自动化方式采用数据接口方式,先将数据源输入到前置机,然后采用Kettle、Azkaban工具采集到数据仓库的ODS层进行存储;
人工采集方式使用移动存储方式在固定时间段导出数据源的数据,并将数据使用Kettle、数据库导入导出工具、Azkaban工具进行数据导入,最终存储到数据仓库的ODS层。
上述流动人口大数据多源采集方法,其中,在数据采集和转换过程中,采用以下方法建立数据质量控制体系:
建立符合多数据源任务式接口的ETL程序;
在ETL程序中设置对应多数据源的连接程序,建立起多数据源与前置机,以及前置机与ODS层之间的桥联;
ETL程序在一个串口下与多个数据源连接,获取多个数据源的信息数据,并将信息数据写入到目标库;
在ETL程序中设置多个参数配置信息,分别对应不同的数据源;
通过读取ETL程序中的参数配置信息,对多数据源进行全量或增量的数据装载,其中,数据在装载过程中,ETL程序支持对数据进行预处理、格式检查和转换;
根据ETL程序中的参数配置信息,进行多任务固化信息执行;
判断当前ETL中的任务是否执行完,如果出现错误,则记录当前步骤的错误信息,否则执行下一条采集任务,最终实现对多个数据源的采集任务。
上述流动人口大数据多源采集方法,其中,所述方法还包括:
在ETL程序中写入不同的参数配置信息,然后通过对ETL程序中的参数配置信息的循环读取;
调取与参数配置信息对应的数据源与目标库进行联通通信,以实现ETL程序与多个数据源的采集需求。
上述流动人口大数据多源采集方法,其中,所述从原始数据源系统中获取目的数据源系统需要的数据的步骤中,以文件的方式描述系统与各个专业子系统之间数据接口的内容和格式信息,并由ETL过程对数据源进行直接抽取,在格式和数据定义上不作任何改变,且ODS层数据具有时间戳。
根据本发明提供的流动人口大数据多源采集方法,具有以下有益效果:
(1)本发明从原始数据源系统中获取目的数据源系统需要的数据,并按照业务需求,转换成所述目的数据源系统要求的形式,且能够对错误和/或不一致的数据进行清洗和加工,实现了从现有的各个异构数据系统中统一集中采集、存储和管控的效果,解决了数据壁垒的问题,从而能够有效的对流动人口大数据进行多源采集,为流动人口的大数据分析提供基础,各类数据源可以通过大数据多源采集方法提供的接口和平台进行对接和数据交换共享,各类大数据多源采集系统也可基于此对采集和管理的数据进行开发和运行;
(2)本发明能够为针对流动人口的分析所需的各类信息资源进行采集、存储、预处理、整合和各类管理工作,包括数据资源目录、标准化管理、数据源质量管理、元数据管理、ETL管理、接口管理等;
(3)本发明集成了数据采集、数据清洗、数据过滤、数据存储等一系列管理技术方案,建立了完善的数据质量控制系列,保证了数据的真实性、完整性、准确性、一致性、唯一性;
(4)通过在ETL程序中写入不同的参数配置信息,然后通过对ETL程序中的参数配置信息的循环读取,调取与参数配置信息对应的数据源与目标库进行联通通信,从而实现ETL程序与多个数据源的采集需求,减少了数据采集的复杂性。
本发明的另一个目的在于提出一种流动人口大数据多源采集系统,以有效对流动人口大数据进行多源采集,为流动人口的大数据分析提供基础。
根据本发明提供的流动人口大数据多源采集系统,包括:
获取模块,用于从原始数据源系统中获取目的数据源系统需要的数据;
转换模块,用于将获取到的数据按照业务需求,转换成所述目的数据源系统要求的形式,并对错误和/或不一致的数据进行清洗和加工,完成数据转换;
装载模块,用于将转换后的数据装载到所述目的数据源系统中。
上述流动人口大数据多源采集系统,其中,所述获取模块具体用于采用全自动化、半自动化、人工采集三种方式对原始数据源系统中的数据进行采集;
全自动化方式采用Kettle进行数据自动化采集,并用Azkaban工具进行数据采集的时间调度管理;
半自动化方式采用数据接口方式,先将数据源输入到前置机,然后采用Kettle、Azkaban工具采集到数据仓库的ODS层进行存储;
人工采集方式使用移动存储方式在固定时间段导出数据源的数据,并将数据使用Kettle、数据库导入导出工具、Azkaban工具进行数据导入,最终存储到数据仓库的ODS层。
上述流动人口大数据多源采集系统,其中,所述系统还包括质量控制模块,用于在所述获取模块和所述转换模块在进行数据采集和转换过程中,建立数据质量控制体系,所述质量控制模块具体用于:
建立符合多数据源任务式接口的ETL程序;
在ETL程序中设置对应多数据源的连接程序,建立起多数据源与前置机,以及前置机与ODS层之间的桥联;
ETL程序在一个串口下与多个数据源连接,获取多个数据源的信息数据,并将信息数据写入到目标库;
在ETL程序中设置多个参数配置信息,分别对应不同的数据源;
通过读取ETL程序中的参数配置信息,对多数据源进行全量或增量的数据装载,其中,数据在装载过程中,ETL程序支持对数据进行预处理、格式检查和转换;
根据ETL程序中的参数配置信息,进行多任务固化信息执行;
判断当前ETL中的任务是否执行完,如果出现错误,则记录当前步骤的错误信息,否则执行下一条采集任务,最终实现对多个数据源的采集任务。
上述流动人口大数据多源采集系统,其中,所述质量控制模块还用于:
在ETL程序中写入不同的参数配置信息,然后通过对ETL程序中的参数配置信息的循环读取;
调取与参数配置信息对应的数据源与目标库进行联通通信,以实现ETL程序与多个数据源的采集需求。
上述流动人口大数据多源采集系统,其中,所述获取模块具体用于:
以文件的方式描述系统与各个专业子系统之间数据接口的内容和格式信息,并由ETL过程对数据源进行直接抽取,在格式和数据定义上不作任何改变,且ODS层数据具有时间戳。
根据本发明提供的流动人口大数据多源采集系统,具有以下有益效果:
(1)本发明从原始数据源系统中获取目的数据源系统需要的数据,并按照业务需求,转换成所述目的数据源系统要求的形式,且能够对错误和/或不一致的数据进行清洗和加工,实现了从现有的各个异构数据系统中统一集中采集、存储和管控的效果,解决了数据壁垒的问题,从而能够有效的对流动人口大数据进行多源采集,为流动人口的大数据分析提供基础,各类数据源可以通过大数据多源采集系统提供的接口和平台进行对接和数据交换共享,各类大数据多源采集系统也可基于此对采集和管理的数据进行开发和运行;
(2)本发明能够为针对流动人口的分析所需的各类信息资源进行采集、存储、预处理、整合和各类管理工作,包括数据资源目录、标准化管理、数据源质量管理、元数据管理、ETL管理、接口管理等;
(3)本发明集成了数据采集、数据清洗、数据过滤、数据存储等一系列管理技术方案,建立了完善的数据质量控制系列,保证了数据的真实性、完整性、准确性、一致性、唯一性;
(4)通过在ETL程序中写入不同的参数配置信息,然后通过对ETL程序中的参数配置信息的循环读取,调取与参数配置信息对应的数据源与目标库进行联通通信,从而实现ETL程序与多个数据源的采集需求,减少了数据采集的复杂性。
附图说明
本发明实施例的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是根据本发明第一实施例的流动人口大数据多源采集方法的流程图;
图2是建立数据质量控制体系的流程图;
图3是根据本发明第二实施例的流动人口大数据多源采集系统的结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身并没有特定的意义。因此,“模块”与“部件”或“单元”可以混合地使用。
请参阅图1,本发明第一实施例提供的流动人口大数据多源采集方法,包括步骤S1~S3:
S1,从原始数据源系统中获取目的数据源系统需要的数据;
其中,具体可以采用全自动化、半自动化、人工采集三种方式对原始数据源系统中的数据进行采集;
全自动化方式采用Kettle进行数据自动化采集,并用Azkaban工具进行数据采集的时间调度管理;
半自动化方式采用数据接口方式,先将数据源输入到前置机,然后采用Kettle、Azkaban工具采集到数据仓库的ODS层(临时存放区)进行存储;
人工采集方式使用移动存储方式在固定时间段导出数据源的数据,并将数据使用Kettle、数据库导入导出工具、Azkaban工具进行数据导入,最终存储到数据仓库的ODS层。
其中,具体实施时,在从原始数据源系统中获取目的数据源系统需要的数据的过程中,可以以文件的方式描述系统与各个专业子系统之间数据接口的内容和格式信息。ODS是生产系统数据源的直接拷贝,由ETL过程对数据源进行直接抽取,在格式和数据定义上不作任何改变。与生产系统数据的唯一不同是,ODS层数据具有时间戳。
S2,将获取到的数据按照业务需求,转换成所述目的数据源系统要求的形式,并对错误和/或不一致的数据进行清洗和加工,完成数据转换;
需要指出的是,请参阅图2,在实际实施时,为了保证数据的质量,可以在数据采集和转换过程中,采用以下步骤S101~S107所述的方法建立数据质量控制体系:
S101,建立符合多数据源任务式接口的ETL程序;
S102,在ETL程序中设置对应多数据源的连接程序,建立起多数据源与前置机,以及前置机与ODS层之间的桥联;
S103,ETL程序在一个串口下与多个数据源连接,获取多个数据源的信息数据,并将信息数据写入到目标库;
S104,在ETL程序中设置多个参数配置信息,分别对应不同的数据源;
S105,通过读取ETL程序中的参数配置信息,对多数据源进行全量或增量的数据装载;
其中,数据在装载过程中,ETL程序支持对数据进行预处理、格式检查和转换;
S106,根据ETL程序中的参数配置信息,进行多任务固化信息执行;
S107,判断当前ETL中的任务是否执行完,如果出现错误,则记录当前步骤的错误信息,否则执行下一条采集任务,最终实现对多个数据源的采集任务。
上述建立数据质量控制体系的过程,可以通过在ETL程序中写入不同的参数配置信息,然后通过对ETL程序中的参数配置信息的循环读取,调取与参数配置信息对应的数据源与目标库进行联通通信,从而实现ETL程序与多个数据源的采集需求,减少了数据采集的复杂性。
此外,通过建立数据质量控制体系,能够保证数据的真实性、完整性、准确性、一致性和唯一性,其中,真实性即保证数据的真实可靠的,数据的真实性是最基本前提,在此基础之上,才能有效地进行数据的共享、协同与深入分析挖掘;完整性:对于政府系统软件使用者,保证没有缺失的信息字段;准确性:保证数据没有技术错误和逻辑错误;一致性:同一个业务实体通过不同的数据来源中进入大数据系统,要保证一致性;唯一性:同一个业务实体在整个系统中是同一个数据编码,不能出现多个版本。
通过数据库约束、ETL程序等对数据进行清洗、加载、转换等工作,能够过滤质量低下的数据,提供数据仓库层的总体质量。
S3,将转换后的数据装载到所述目的数据源系统中。
其中,数据转换完成后,即可以装载到目的数据源系统中进行存储。各业务系统之间的数据交换功能可以通过与现有业务系统进行数据对接,使用前置机和内外网数据映射技术实现双向数据同步与关联,在平台中更新的数据能够及时反馈到业务系统中,同时在业务系统中收集到的数据也可以抽取到平台中进行数据对比分析与校验。部门间数据共享将建立业务部门之间的数据共享机制,平台按照共享规则提供相应的交换与共享的管理与授权界面,并提供数据交换接口,实现流动人口信息的跨部门共享功能。
综上,根据本实施例提供的流动人口大数据多源采集方法,具有以下有益效果:
(1)本发明从原始数据源系统中获取目的数据源系统需要的数据,并按照业务需求,转换成所述目的数据源系统要求的形式,且能够对错误和/或不一致的数据进行清洗和加工,实现了从现有的各个异构数据系统中统一集中采集、存储和管控的效果,解决了数据壁垒的问题,从而能够有效的对流动人口大数据进行多源采集,为流动人口的大数据分析提供基础,各类数据源可以通过大数据多源采集方法提供的接口和平台进行对接和数据交换共享,各类大数据多源采集系统也可基于此对采集和管理的数据进行开发和运行;
(2)本发明能够为针对流动人口的分析所需的各类信息资源进行采集、存储、预处理、整合和各类管理工作,包括数据资源目录、标准化管理、数据源质量管理、元数据管理、ETL管理、接口管理等;
(3)本发明集成了数据采集、数据清洗、数据过滤、数据存储等一系列管理技术方案,建立了完善的数据质量控制系列,保证了数据的真实性、完整性、准确性、一致性、唯一性;
(4)通过在ETL程序中写入不同的参数配置信息,然后通过对ETL程序中的参数配置信息的循环读取,调取与参数配置信息对应的数据源与目标库进行联通通信,从而实现ETL程序与多个数据源的采集需求,减少了数据采集的复杂性。
请参阅图3,基于同一发明构思,本发明第二实施例提出的流动人口大数据多源采集系统,包括:
获取模块10,用于从原始数据源系统中获取目的数据源系统需要的数据;
转换模块20,用于将获取到的数据按照业务需求,转换成所述目的数据源系统要求的形式,并对错误和/或不一致的数据进行清洗和加工,完成数据转换;
装载模块30,用于将转换后的数据装载到所述目的数据源系统中。
本实施例中,其中,所述获取模块10具体用于采用全自动化、半自动化、人工采集三种方式对原始数据源系统中的数据进行采集;
全自动化方式采用Kettle进行数据自动化采集,并用Azkaban工具进行数据采集的时间调度管理;
半自动化方式采用数据接口方式,先将数据源输入到前置机,然后采用Kettle、Azkaban工具采集到数据仓库的ODS层进行存储;
人工采集方式使用移动存储方式在固定时间段导出数据源的数据,并将数据使用Kettle、数据库导入导出工具、Azkaban工具进行数据导入,最终存储到数据仓库的ODS层。
本实施例中,所述系统还包括质量控制模块40,用于在所述获取模块和所述转换模块在进行数据采集和转换过程中,建立数据质量控制体系,所述质量控制模块40具体用于:
建立符合多数据源任务式接口的ETL程序;
在ETL程序中设置对应多数据源的连接程序,建立起多数据源与前置机,以及前置机与ODS层之间的桥联;
ETL程序在一个串口下与多个数据源连接,获取多个数据源的信息数据,并将信息数据写入到目标库;
在ETL程序中设置多个参数配置信息,分别对应不同的数据源;
通过读取ETL程序中的参数配置信息,对多数据源进行全量或增量的数据装载,其中,数据在装载过程中,ETL程序支持对数据进行预处理、格式检查和转换;
根据ETL程序中的参数配置信息,进行多任务固化信息执行;
判断当前ETL中的任务是否执行完,如果出现错误,则记录当前步骤的错误信息,否则执行下一条采集任务,最终实现对多个数据源的采集任务。
本实施例中,所述质量控制模块40还用于:
在ETL程序中写入不同的参数配置信息,然后通过对ETL程序中的参数配置信息的循环读取;
调取与参数配置信息对应的数据源与目标库进行联通通信,以实现ETL程序与多个数据源的采集需求。
本实施例中,所述获取模块10具体用于:
以文件的方式描述系统与各个专业子系统之间数据接口的内容和格式信息,并由ETL过程对数据源进行直接抽取,在格式和数据定义上不作任何改变,且ODS层数据具有时间戳。
根据本实施例提供的流动人口大数据多源采集系统,具有以下有益效果:
(1)本发明从原始数据源系统中获取目的数据源系统需要的数据,并按照业务需求,转换成所述目的数据源系统要求的形式,且能够对错误和/或不一致的数据进行清洗和加工,实现了从现有的各个异构数据系统中统一集中采集、存储和管控的效果,解决了数据壁垒的问题,从而能够有效的对流动人口大数据进行多源采集,为流动人口的大数据分析提供基础,各类数据源可以通过大数据多源采集系统提供的接口和平台进行对接和数据交换共享,各类大数据多源采集系统也可基于此对采集和管理的数据进行开发和运行;
(2)本发明能够为针对流动人口的分析所需的各类信息资源进行采集、存储、预处理、整合和各类管理工作,包括数据资源目录、标准化管理、数据源质量管理、元数据管理、ETL管理、接口管理等;
(3)本发明集成了数据采集、数据清洗、数据过滤、数据存储等一系列管理技术方案,建立了完善的数据质量控制系列,保证了数据的真实性、完整性、准确性、一致性、唯一性;
(4)通过在ETL程序中写入不同的参数配置信息,然后通过对ETL程序中的参数配置信息的循环读取,调取与参数配置信息对应的数据源与目标库进行联通通信,从而实现ETL程序与多个数据源的采集需求,减少了数据采集的复杂性。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

Claims (10)

1.一种流动人口大数据多源采集方法,其特征在于,包括:
从原始数据源系统中获取目的数据源系统需要的数据;
将获取到的数据按照业务需求,转换成所述目的数据源系统要求的形式,并对错误和/或不一致的数据进行清洗和加工,完成数据转换;
将转换后的数据装载到所述目的数据源系统中。
2.根据权利要求1所述的流动人口大数据多源采集方法,其特征在于,所述从原始数据源系统中获取目的数据源系统需要的数据的步骤中,采用全自动化、半自动化、人工采集三种方式对原始数据源系统中的数据进行采集;
全自动化方式采用Kettle进行数据自动化采集,并用Azkaban工具进行数据采集的时间调度管理;
半自动化方式采用数据接口方式,先将数据源输入到前置机,然后采用Kettle、Azkaban工具采集到数据仓库的ODS层进行存储;
人工采集方式使用移动存储方式在固定时间段导出数据源的数据,并将数据使用Kettle、数据库导入导出工具、Azkaban工具进行数据导入,最终存储到数据仓库的ODS层。
3.根据权利要求1或2所述的流动人口大数据多源采集方法,其特征在于,在数据采集和转换过程中,采用以下方法建立数据质量控制体系:
建立符合多数据源任务式接口的ETL程序;
在ETL程序中设置对应多数据源的连接程序,建立起多数据源与前置机,以及前置机与ODS层之间的桥联;
ETL程序在一个串口下与多个数据源连接,获取多个数据源的信息数据,并将信息数据写入到目标库;
在ETL程序中设置多个参数配置信息,分别对应不同的数据源;
通过读取ETL程序中的参数配置信息,对多数据源进行全量或增量的数据装载,其中,数据在装载过程中,ETL程序支持对数据进行预处理、格式检查和转换;
根据ETL程序中的参数配置信息,进行多任务固化信息执行;
判断当前ETL中的任务是否执行完,如果出现错误,则记录当前步骤的错误信息,否则执行下一条采集任务,最终实现对多个数据源的采集任务。
4.根据权利要求3所述的流动人口大数据多源采集方法,其特征在于,所述方法还包括:
在ETL程序中写入不同的参数配置信息,然后通过对ETL程序中的参数配置信息的循环读取;
调取与参数配置信息对应的数据源与目标库进行联通通信,以实现ETL程序与多个数据源的采集需求。
5.根据权利要求1所述的流动人口大数据多源采集方法,其特征在于,所述从原始数据源系统中获取目的数据源系统需要的数据的步骤中,以文件的方式描述系统与各个专业子系统之间数据接口的内容和格式信息,并由ETL过程对数据源进行直接抽取,在格式和数据定义上不作任何改变,且ODS层数据具有时间戳。
6.一种流动人口大数据多源采集系统,其特征在于,包括:
获取模块,用于从原始数据源系统中获取目的数据源系统需要的数据;
转换模块,用于将获取到的数据按照业务需求,转换成所述目的数据源系统要求的形式,并对错误和/或不一致的数据进行清洗和加工,完成数据转换;
装载模块,用于将转换后的数据装载到所述目的数据源系统中。
7.根据权利要求6所述的流动人口大数据多源采集系统,其特征在于,所述获取模块具体用于采用全自动化、半自动化、人工采集三种方式对原始数据源系统中的数据进行采集;
全自动化方式采用Kettle进行数据自动化采集,并用Azkaban工具进行数据采集的时间调度管理;
半自动化方式采用数据接口方式,先将数据源输入到前置机,然后采用Kettle、Azkaban工具采集到数据仓库的ODS层进行存储;
人工采集方式使用移动存储方式在固定时间段导出数据源的数据,并将数据使用Kettle、数据库导入导出工具、Azkaban工具进行数据导入,最终存储到数据仓库的ODS层。
8.根据权利要求6或7所述的流动人口大数据多源采集系统,其特征在于,所述系统还包括质量控制模块,用于在所述获取模块和所述转换模块在进行数据采集和转换过程中,建立数据质量控制体系,所述质量控制模块具体用于:
建立符合多数据源任务式接口的ETL程序;
在ETL程序中设置对应多数据源的连接程序,建立起多数据源与前置机,以及前置机与ODS层之间的桥联;
ETL程序在一个串口下与多个数据源连接,获取多个数据源的信息数据,并将信息数据写入到目标库;
在ETL程序中设置多个参数配置信息,分别对应不同的数据源;
通过读取ETL程序中的参数配置信息,对多数据源进行全量或增量的数据装载,其中,数据在装载过程中,ETL程序支持对数据进行预处理、格式检查和转换;
根据ETL程序中的参数配置信息,进行多任务固化信息执行;
判断当前ETL中的任务是否执行完,如果出现错误,则记录当前步骤的错误信息,否则执行下一条采集任务,最终实现对多个数据源的采集任务。
9.根据权利要求8所述的流动人口大数据多源采集系统,其特征在于,所述质量控制模块还用于:
在ETL程序中写入不同的参数配置信息,然后通过对ETL程序中的参数配置信息的循环读取;
调取与参数配置信息对应的数据源与目标库进行联通通信,以实现ETL程序与多个数据源的采集需求。
10.根据权利要求6所述的流动人口大数据多源采集系统,其特征在于,所述获取模块具体用于:
以文件的方式描述系统与各个专业子系统之间数据接口的内容和格式信息,并由ETL过程对数据源进行直接抽取,在格式和数据定义上不作任何改变,且ODS层数据具有时间戳。
CN201910054401.8A 2019-01-21 2019-01-21 流动人口大数据多源采集方法及系统 Pending CN109739851A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910054401.8A CN109739851A (zh) 2019-01-21 2019-01-21 流动人口大数据多源采集方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910054401.8A CN109739851A (zh) 2019-01-21 2019-01-21 流动人口大数据多源采集方法及系统

Publications (1)

Publication Number Publication Date
CN109739851A true CN109739851A (zh) 2019-05-10

Family

ID=66365469

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910054401.8A Pending CN109739851A (zh) 2019-01-21 2019-01-21 流动人口大数据多源采集方法及系统

Country Status (1)

Country Link
CN (1) CN109739851A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110399401A (zh) * 2019-07-08 2019-11-01 武汉东湖大数据交易中心股份有限公司 基于政务数据的数据分析系统及方法
CN110826096A (zh) * 2019-10-29 2020-02-21 杭州趣链科技有限公司 一种基于区块链的数据源共享方法
CN112732828A (zh) * 2020-12-22 2021-04-30 航天信息股份有限公司 基于数据仓库工具的跨平台数据共享方法
CN113111104A (zh) * 2021-04-06 2021-07-13 创意信息技术股份有限公司 一种基于一体化的Web-ETL大数据融合方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050066240A1 (en) * 2002-10-04 2005-03-24 Tenix Investments Pty Ltd Data quality & integrity engine
US20140310231A1 (en) * 2013-04-16 2014-10-16 Cognizant Technology Solutions India Pvt. Ltd. System and method for automating data warehousing processes
CN105159951A (zh) * 2015-08-17 2015-12-16 成都中科大旗软件有限公司 一种开放式的旅游多源异构数据融合方法及系统
CN106709016A (zh) * 2016-12-27 2017-05-24 山东麦港数据系统有限公司 一种基于服务总线的数据交换方法
CN108846076A (zh) * 2018-06-08 2018-11-20 山大地纬软件股份有限公司 支持接口适配的海量多源异构数据etl方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050066240A1 (en) * 2002-10-04 2005-03-24 Tenix Investments Pty Ltd Data quality & integrity engine
US20140310231A1 (en) * 2013-04-16 2014-10-16 Cognizant Technology Solutions India Pvt. Ltd. System and method for automating data warehousing processes
CN105159951A (zh) * 2015-08-17 2015-12-16 成都中科大旗软件有限公司 一种开放式的旅游多源异构数据融合方法及系统
CN106709016A (zh) * 2016-12-27 2017-05-24 山东麦港数据系统有限公司 一种基于服务总线的数据交换方法
CN108846076A (zh) * 2018-06-08 2018-11-20 山大地纬软件股份有限公司 支持接口适配的海量多源异构数据etl方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110399401A (zh) * 2019-07-08 2019-11-01 武汉东湖大数据交易中心股份有限公司 基于政务数据的数据分析系统及方法
CN110826096A (zh) * 2019-10-29 2020-02-21 杭州趣链科技有限公司 一种基于区块链的数据源共享方法
CN112732828A (zh) * 2020-12-22 2021-04-30 航天信息股份有限公司 基于数据仓库工具的跨平台数据共享方法
CN113111104A (zh) * 2021-04-06 2021-07-13 创意信息技术股份有限公司 一种基于一体化的Web-ETL大数据融合方法

Similar Documents

Publication Publication Date Title
CN109739851A (zh) 流动人口大数据多源采集方法及系统
CN106339274B (zh) 一种数据快照获取的方法及系统
US8024373B2 (en) Computer-implemented system for producing, processing and managing structured data sets
CN110245078A (zh) 一种软件的压力测试方法、装置、存储介质和服务器
CN102932195A (zh) 一种基于网络协议分析的业务分析监控方法及系统
CN101178798A (zh) 跨业务系统的流程监控方法
CN102722769A (zh) 一种实验数据处理的系统和方法
CN110287120B (zh) 一种单元测试系统及测试方法
CN109817319A (zh) 设备运营状态统计分析系统平台和设备运营状态实时监控方法及系统
CN114169061B (zh) 一种基于bim与轻量化三维引擎结合的智慧社区隐蔽工程管理方法
CN118012958B (zh) 一种基于区块链链上链下互操协同控制方法及系统
CN110750596A (zh) 一种医疗机构实现信息共享的流程设计方法
CN109191083A (zh) 一种员工总工时的计算方法、系统、装置及存储介质
US20100010842A1 (en) Computer-Implemented Systems and methods for Producing, Processing and Managing Structured Data Sets
CN108564261A (zh) 基于工作票的电力信息确定方法、装置和计算机设备
CN111597166B (zh) 电力数据库模型构建方法、装置、计算机设备和存储介质
CN104361086A (zh) 一种计量资产全寿命周期管理系统数据集成方法
CN117196274A (zh) 一种设计项目的流程管控系统
CN111782711A (zh) 一种水量数据统计方法
CN109325221B (zh) 表格文件的合并方法和装置
CN111061793A (zh) 一种数据处理系统和方法
CN110209722A (zh) 一种用于数据交换的数据接口
CN107979174B (zh) 一种基于电网运行管理系统的工作流运行方法
CN108920522A (zh) 用于数据库的数据处理方法、系统及计算机可读存储介质
CN115686317A (zh) 一种业务数据处理方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190510