CN111680082B - 基于数据整合的政府财政数据采集系统及数据采集方法 - Google Patents
基于数据整合的政府财政数据采集系统及数据采集方法 Download PDFInfo
- Publication number
- CN111680082B CN111680082B CN202010365658.8A CN202010365658A CN111680082B CN 111680082 B CN111680082 B CN 111680082B CN 202010365658 A CN202010365658 A CN 202010365658A CN 111680082 B CN111680082 B CN 111680082B
- Authority
- CN
- China
- Prior art keywords
- data
- heterogeneous
- unit
- source
- data acquisition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 230000010354 integration Effects 0.000 title claims abstract description 43
- 239000011159 matrix material Substances 0.000 claims description 28
- 238000004458 analytical method Methods 0.000 claims description 24
- 238000013524 data verification Methods 0.000 claims description 22
- 238000013507 mapping Methods 0.000 claims description 17
- 230000001105 regulatory effect Effects 0.000 claims description 13
- 238000012795 verification Methods 0.000 claims description 10
- 238000013480 data collection Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 abstract description 5
- 238000003672 processing method Methods 0.000 abstract 1
- 230000008569 process Effects 0.000 description 10
- 238000006243 chemical reaction Methods 0.000 description 7
- 238000013523 data management Methods 0.000 description 6
- 238000013479 data entry Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 108010001267 Protein Subunits Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/252—Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Tourism & Hospitality (AREA)
- Educational Administration (AREA)
- Development Economics (AREA)
- Quality & Reliability (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明属于数据采集技术领域,具体涉及基于数据整合的政府财政数据采集系统及数据采集方法。所述系统包括:数据源数据库、存储数据库、数据表格生成单元和数据表格读取单元;所述数据表格生成单元,用于根据选取的数据字段生成对应的数据采集表格;数据采集单元,用于按照生成的数据采集表格对应的格式,从数据源数据库获取数据,得到相应格式的源数据;数据表格读取单元,用于读取源数据,校验源数据,然后将源数据并导入存储数据库。具有智能化程度高、数据误差小和数据处理效率高的优点。
Description
技术领域
本发明属于数据处理技术领域,具体涉及基于数据整合的政府财政数据采集系统及数据采集方法。
背景技术
数据整合是共享或者合并来自于两个或者更多应用的数据,创建一个具有更多功能的企业应用的过程。传统的商业应用有很强的面向对象性——即他们依靠持续的数据结构为商业实体和过程建模。当这种情况发生时,逻辑方式是通过数据共享或合并进行整合,而其他情况下,来自于一个应用的数据可能是重新构造才能和另一个应用的数据结构匹配,然后被直接写进另一个数据库。
数据采集,又称数据获取,是利用一种装置,从系统外部采集数据并输入到系统内部的一个接口。数据采集技术广泛应用在各个领域。比如摄像头,麦克风,都是数据采集工具。
被采集数据是已被转换为电讯号的各种物理量,如温度、水位、风速、压力等,可以是模拟量,也可以是数字量。采集一般是采样方式,即隔一定时间(称采样周期)对同一点数据重复采集。采集的数据大多是瞬时值,也可是某段时间内的一个特征值。准确的数据测量是数据采集的基础。数据量测方法有接触式和非接触式,检测元件多种多样。不论哪种方法和元件,均以不影响被测对象状态和测量环境为前提,以保证数据的正确性。数据采集含义很广,包括对面状连续物理量的采集。在计算机辅助制图、测图、设计中,对图形或图像数字化过程也可称为数据采集,此时被采集的是几何量(或包括物理量,如灰度)数据。
在互联网行业快速发展的今天,数据采集已经被广泛应用于互联网及分布式领域,数据采集领域已经发生了重要的变化。首先,分布式控制应用场合中的智能数据采集系统在国内外已经取得了长足的发展。其次,总线兼容型数据采集插件的数量不断增大,与个人计算机兼容的数据采集系统的数量也在增加。国内外各种数据采集机先后问世,将数据采集带入了一个全新的时代。
现有政府财政系统包括多个子系统,例如管理预算的预算系统、管理财政支出的出纳系统等多个系统,每个系统搭建在不同的服务器上,数据独立,需要做核算或者其他数据统计工作时,需要从涉及到的系统上导出数据表格,数据共通性低,增大数据统计难度,因此建立政府财政数据管理系统,政府财政数据管理系统能够自动进入多个子系统获取相应数据,并对数据进行整合,使得数据具有共通性,便于数据统计,然而,部分地区没有配置在线的系统,政府财政数据管理系统不能够自动登录获取数据,根据现有技术,通常人工制作相应的数据采集表格,发送给相关部门进行填写,相关部分返回表格后将数据导入数据管理系统,然而,由于表格填写的数据不规整,例如对于金额,会填写阿拉伯数字、大写数字等数据格式,因此数据导入过程会出现错误,需要人工介入,降低数据采集效率。
发明内容
有鉴于此,本发明的主要目的在于提供基于数据整合的政府财政数据采集系统及数据采集方法,具有智能化程度高、数据误差小和数据处理效率高的优点。
为达到上述目的,本发明的技术方案是这样实现的:
基于数据整合的政府财政数据采集系统,所述系统包括:数据源数据库、存储数据库、数据表格生成单元和数据表格读取单元;所述数据表格生成单元,用于根据选取的数据字段生成对应的数据采集表格;数据采集单元,用于按照生成的数据采集表格对应的格式,从数据源数据库获取数据,得到相应格式的源数据;数据表格读取单元,用于读取源数据,校验源数据,然后将源数据并导入存储数据库。
进一步的,所述数据采集单元在按照生成的数据采集表格对应的格式,从数据源数据库获取数据时,若获取的数据源数据库为多个不同的数据库时,还需要对从不同的数据库获取的数据进行数据整合;所述数据整合的方法包括:步骤S1:对来源于不同数据库的异构数据进行异构数据成分分析;步骤S2:根据异构数据成分分析的结果,对异构数据进行数据整合。
进一步的,所述数据表格生成单元包括:目标数据选择单元,用于选择需要采集的数据字段;采集表格生成单元,用于根据选择的数据字段生成对应的数据采集表格;校验字段生成单元,用于在生成的数据采集表格的基础上生成校验字段。
进一步的,所述数据表格读取单元包括:数据校验单元,用于对数据采集单元按照数据采集表格获取的相应格式的源数据进行校验;数据类型规整单元,用于根据校验字段记录的数据类型规整源数据的数据类型;数据录入单员用于将源数据导入存储数据库;校验结果输出单元,用于输出数据校验信息,统计未通过数据校验的数据,以及对应的错误信息。
进一步的,所述步骤S1中:进行异构数据成分分析的方法包括:分析来自于不同数据源的异构数据的主成分,根据主成分,得出异构数据之间的异构程度值,将异构程度值低于设定的阈值的异构数据归为同构数据,完成异构数据的初步整合;具体包括:以下步骤:使用如下公式,利用自相关算法计算不同数据源的异构数据之间的相似系数:
其中,xi和x为不同两个不同数据源的异构数据的主成分,n为计算次数,B为调整系数,取值范围为:15~20。
进一步的,所述步骤S2基于步骤S1中得出的异构数据成分分析结果,完成异构数据整合的方法执行以下步骤:基于异构数据成分分析结果;对异构数据进行归一化处理得到分类目标异构数据矩阵;使用如下公式,将分类目标异构数据矩阵分别与每一个数据库的数据特征群进行映射匹配:
其中,sim(dj,dk)为映射匹配结果,为产品目标异构数据矩阵,wji为矩阵行值,|dj|为对应的矩阵行列式的值;为定向特征空间群,wki为矩阵行值,|dk|为对应的矩阵行列式的值;根据最终映射匹配的结果,将匹配映射结果sim(dj,dk)最小的值对应的数据特征群作为对应数据的整合结果。
一种基于数据整合的政府财政数据采集方法,所述方法执行以下步骤:
步骤1:数据表格生成单元,根据选取的数据字段生成对应的数据采集表格;
步骤2:数据采集单元,按照生成的数据采集表格对应的格式,从数据源数据库获取数据,得到相应格式的源数据;
步骤3:数据表格读取单元,读取源数据,校验源数据,然后将源数据并导入存储数据库。
进一步的,所述数据采集单元在按照生成的数据采集表格对应的格式,从数据源数据库获取数据时,若获取的数据源数据库为多个不同的数据库时,还需要对从不同的数据库获取的数据进行数据整合;所述数据整合的方法包括:步骤S1:对来源于不同数据库的异构数据进行异构数据成分分析;步骤S2:根据异构数据成分分析的结果,对异构数据进行数据整合。
进一步的,所述数据表格生成单元包括:目标数据选择单元,用于选择需要采集的数据字段;采集表格生成单元,用于根据选择的数据字段生成对应的数据采集表格;校验字段生成单元,用于在生成的数据采集表格的基础上生成校验字段。
进一步的,所述数据表格读取单元包括:数据校验单元,用于对数据采集单元按照数据采集表格获取的相应格式的源数据进行校验;数据类型规整单元,用于根据校验字段记录的数据类型规整源数据的数据类型;数据录入单员用于将源数据导入存储数据库;校验结果输出单元,用于输出数据校验信息,统计未通过数据校验的数据,以及对应的错误信息。
本发明的基于数据整合的政府财政数据采集系统及数据采集方法,具有如下有益效果:本发明的数据采集系统及数据采集方法,能够从多个不同数据库中采集数据,即便各个数据库中存储的数据格式不一致,也能将异构数据进行整合,无需人工进行介入,提升了数据采集的效率。同时本发明适用于部分地区没有配置在线的系统的情况,现有技术中,通常人工制作相应的数据采集表格,发送给相关部门进行填写,相关部分返回表格后将数据导入数据管理系统,然而,由于表格填写的数据不规整,例如对于金额,会填写阿拉伯数字、大写数字等数据格式,因此数据导入过程会出现错误,需要人工介入,降低数据采集效率。而本发明通过按照设定自动生成数据采集表格,然后进行数据采集后进行数据校验,提升了数据采集的安全性。
附图说明
图1为本发明实施例提供的基于数据整合的政府财政数据采集系统的系统结构示意图;
图2为本发明实施例提供的基于数据整合的政府财政数据采集方法的的方法流程示意图;
图3为本发明实施例提供的基于数据整合的政府财政数据采集系统及采集方法的采集效率实验效果示意图与现有技术的对比实验效果示意图。
1-现有技术实验效果示意图,2-本发明实验效果示意图。
具体实施方式
下面结合附图及本发明的实施例对本发明的方法作进一步详细的说明。
实施例1
如图1所示,基于数据整合的政府财政数据采集系统,所述系统包括:数据源数据库、存储数据库、数据表格生成单元和数据表格读取单元;所述数据表格生成单元,用于根据选取的数据字段生成对应的数据采集表格;数据采集单元,用于按照生成的数据采集表格对应的格式,从数据源数据库获取数据,得到相应格式的源数据;数据表格读取单元,用于读取源数据,校验源数据,然后将源数据并导入存储数据库。
具体的,提供本发明提供的数据采集系统,数据表格生成单元用于生成数据采集表格,数据表格读取单元用于获取数据采集表格中记录的数据,并导入存储数据库。目标数据选择单元用于选择需要采集的数据字段,采集表格生成单元用于将目标数据字段生成采集表格,校验字段生成单元用于生成校验字段,校验字段包括字段的类型信息;财政数据资源库记录财政数据信息,包括财政数据字段名称以及字段类型;数据校验单元用于校验数据,数据类型规整单元用于根据校验字段记录的数据类型规整数据类型,数据录入单员用于将数据导入财政数据资源库,校验结果输出单元用于输出数据校验信息,统计未通过数据校验的数据,以及对应的错误信息;表格结构性校验单元用于根据每个字段的校验字段以及表格结构校验字段校验表格结构完整性。
实施例2
在上一实施例的基础上,所述数据采集单元在按照生成的数据采集表格对应的格式,从数据源数据库获取数据时,若获取的数据源数据库为多个不同的数据库时,还需要对从不同的数据库获取的数据进行数据整合;所述数据整合的方法包括:步骤S1:对来源于不同数据库的异构数据进行异构数据成分分析;步骤S2:根据异构数据成分分析的结果,对异构数据进行数据整合。
具体的,本发明的数据采集系统及数据采集方法,能够从多个不同数据库中采集数据,即便各个数据库中存储的数据格式不一致,也能将异构数据进行整合,无需人工进行介入,提升了数据采集的效率。同时本发明适用于部分地区没有配置在线的系统的情况,现有技术中,通常人工制作相应的数据采集表格,发送给相关部门进行填写,相关部分返回表格后将数据导入数据管理系统,然而,由于表格填写的数据不规整,例如对于金额,会填写阿拉伯数字、大写数字等数据格式,因此数据导入过程会出现错误,需要人工介入,降低数据采集效率。而本发明通过按照设定自动生成数据采集表格,然后进行数据采集后进行数据校验,提升了数据采集的安全性。
实施例3
在上一实施例的基础上,所述数据表格生成单元包括:目标数据选择单元,用于选择需要采集的数据字段;采集表格生成单元,用于根据选择的数据字段生成对应的数据采集表格;校验字段生成单元,用于在生成的数据采集表格的基础上生成校验字段。
实施例4
在上一实施例的基础上,所述数据表格读取单元包括:数据校验单元,用于对数据采集单元按照数据采集表格获取的相应格式的源数据进行校验;数据类型规整单元,用于根据校验字段记录的数据类型规整源数据的数据类型;数据录入单员用于将源数据导入存储数据库;校验结果输出单元,用于输出数据校验信息,统计未通过数据校验的数据,以及对应的错误信息。
具体的,所述数据校验单元包括:表格结构校验单元、数据有效性校验单元和目标字段校验单元;所述表格结构性校验单元用于根据每个字段的校验字段以及表格结构校验字段校验表格结构完整性;所述数据有效性校验单元用于校验数据有效性,例如某字段设置有数据有效性规则为数据在10~200之间,字段数据在有效性范围之外则不能通过数据有效性校验;所述目标字段校验单元用于校验目标字段是为已知字段,目标字段为填写的目标,例如某某项目组,如果目标字段在财政数据资源库中没有记录则可能填错或者有错别字,则不能通过校验。
实施例5
在上一实施例的基础上,所述步骤S1中:进行异构数据成分分析的方法包括:分析来自于不同数据源的异构数据的主成分,根据主成分,得出异构数据之间的异构程度值,将异构程度值低于设定的阈值的异构数据归为同构数据,完成异构数据的初步整合;具体包括:以下步骤:使用如下公式,利用自相关算法计算不同数据源的异构数据之间的相似系数:
其中,xi和x为不同两个不同数据源的异构数据的主成分,n为计算次数,B为调整系数,取值范围为:15~20。
实施例6
在上一实施例的基础上,所述步骤S2基于步骤S1中得出的异构数据成分分析结果,完成异构数据整合的方法执行以下步骤:基于异构数据成分分析结果;对异构数据进行归一化处理得到分类目标异构数据矩阵;使用如下公式,将分类目标异构数据矩阵分别与每一个数据库的数据特征群进行映射匹配:,
其中,sim(dj,dk)为映射匹配结果,
为产品目标异构数据矩阵,wji为矩阵行值,|dj|为对应的矩阵行列式的值;/>为定向特征空间群,wki为矩阵行值,|dk|为对应的矩阵行列式的值;根据最终映射匹配的结果,将匹配映射结果sim(dj,dk)最小的值对应的数据特征群作为对应数据的整合结果。
具体的,异构数据库系统是相关的多个数据库系统的集合,可以实现数据的共享和透明访问,几个数据库系统在加入异构数据库系统之前本身就已经存在,拥有自己的数据库管理系统、外构数据库的各个组成部分具有自身的自治性,实现数据共享的同时,每个数据库系统仍有自己的应用特性、完整性控制和安全性控制。
如果两种数据库系统之间的数据定义模型不同,如分别为关系模型和层次模型,那么需要重新定义实体属性和联系,以防止属性或联系信息的丢失。
总之,在进行数据转换后,一方面源数据库模式中所有需要共享的信息都转换到目的数据库中,另一方面这种转换又不能包含冗余的关联信息。
数据库转换工具可以实现不同数据库系统之间的数据模型转换,需要进一步研究的问题是:如果数据库转换同时进行数据定义模式转换和数据转换,就可能引起同一数据集合在异构数据库系统中存在多个副本,因此需要引入新的访问控制机制。在保证各个参与数据库自治,维护其完整性、安全性的基础上,对于异构数据库系统提供全局的访问控制、并发机制和安全控制。
如果数据库转换只进行数据定义转换,不产生数据的副本,那么在新的目的数据库定义模型的框架下访问数据,实现上仍是对源数据库系统中数据的访问。这时利用新的数据库系统中的数据处理语言实现的事务,不能直接访问源数据库,必须进行事务级的翻译才可以执行。
实施例7
一种基于数据整合的政府财政数据采集方法,所述方法执行以下步骤:
步骤1:数据表格生成单元,根据选取的数据字段生成对应的数据采集表格;
步骤2:数据采集单元,按照生成的数据采集表格对应的格式,从数据源数据库获取数据,得到相应格式的源数据;
步骤3:数据表格读取单元,读取源数据,校验源数据,然后将源数据并导入存储数据库。
具体的,数据在传输的过程中,会受到各种干扰的影响,如脉冲干扰,随机噪声干扰和人为干扰等,这会使数据产生差错。为了能够控制传输过程的差错,通信系统必须采用有效措施来控制差错的产生。
常用的差错控制方法让每个传输的数据单元带有足以使接收端发现差错的冗余信息,这种方法不能纠正错误,但可以发现数据错误,这种方法容易实现,检错速度快,可以通过重传使错误纠正,所以是非常常用的检错方案。
在种方案中常用的校验方法有奇偶校验、CRC(循环冗余校验)和校验和。
实施例8
在上一实施例的基础上,所述数据采集单元在按照生成的数据采集表格对应的格式,从数据源数据库获取数据时,若获取的数据源数据库为多个不同的数据库时,还需要对从不同的数据库获取的数据进行数据整合;所述数据整合的方法包括:步骤S1:对来源于不同数据库的异构数据进行异构数据成分分析;步骤S2:根据异构数据成分分析的结果,对异构数据进行数据整合。
实施例9
在上一实施例的基础上,所述数据表格生成单元包括:目标数据选择单元,用于选择需要采集的数据字段;采集表格生成单元,用于根据选择的数据字段生成对应的数据采集表格;校验字段生成单元,用于在生成的数据采集表格的基础上生成校验字段。
实施例10
在上一实施例的基础上,所述数据表格读取单元包括:数据校验单元,用于对数据采集单元按照数据采集表格获取的相应格式的源数据进行校验;数据类型规整单元,用于根据校验字段记录的数据类型规整源数据的数据类型;数据录入单员用于将源数据导入存储数据库;校验结果输出单元,用于输出数据校验信息,统计未通过数据校验的数据,以及对应的错误信息。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的系统,仅以上述各功能单元的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能单元来完成,即将本发明实施例中的单元或者步骤再分解或者组合,例如,上述实施例的单元可以合并为一个单元,也可以进一步拆分成多个子单元,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的单元、步骤的名称,仅仅是为了区分各个单元或者步骤,不视为对本发明的不当限定。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的单元、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件单元、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。
Claims (6)
1.基于数据整合的政府财政数据采集系统,其特征在于,
所述系统包括:数据源数据库、存储数据库、数据表格生成单元和数据表格读取单元和数据采集单元;
所述数据表格生成单元,用于根据选取的数据字段生成对应的数据采集表格;
所述数据采集单元,用于按照生成的数据采集表格对应的格式,从数据源数据库获取数据,得到相应格式的源数据;
所述数据表格读取单元,用于读取源数据,校验源数据,然后将源数据并导入存储数据库;
所述数据采集单元在按照生成的数据采集表格对应的格式,从数据源数据库获取数据时,若获取的数据源数据库为多个不同的数据库时,还需要对从不同的数据库获取的数据进行数据整合;
所述数据整合的方法包括:
步骤S1:对来源于不同数据库的异构数据进行异构数据成分分析;
步骤S2:根据异构数据成分分析的结果,对异构数据进行数据整合;
所述步骤S1中:进行异构数据成分分析的方法包括:
分析来自于不同数据源的异构数据的主成分,根据主成分,得出异构数据之间的异构程度值,将异构程度值低于设定的阈值的异构数据归为同构数据,完成异构数据的初步整合;
具体包括:以下步骤:使用如下公式,利用自相关算法计算不同数据源的异构数据之间的相似系数:
其中,xi和x为不同两个不同数据源的异构数据的主成分,n为计算次数,B为调整系数,取值范围为:15~20;
所述步骤S2基于步骤S1中得出的异构数据成分分析结果,完成异构数据整合的方法执行以下步骤:
基于异构数据成分分析结果;对异构数据进行归一化处理得到分类目标异构数据矩阵;使用如下公式,将分类目标异构数据矩阵分别与每一个数据库的数据特征群进行映射匹配:
其中,sim(dj,dk)为映射匹配结果,为产品目标异构数据矩阵,wji为矩阵行值,|dj|为对应的矩阵行列式的值;为定向特征空间群,wki为矩阵行值,|dk|为对应的矩阵行列式的值;根据最终映射匹配的结果,将匹配映射结果sim(dj,dk)最小的值对应的数据特征群作为对应数据的整合结果。
2.如权利要求1所述的系统,其特征在于,所述数据表格生成单元包括:
目标数据选择单元,用于选择需要采集的数据字段;
采集表格生成单元,用于根据选择的数据字段生成对应的数据采集表格;
校验字段生成单元,用于在生成的数据采集表格的基础上生成校验字段。
3.如权利要求2所述的系统,其特征在于,所述数据表格读取单元包括:
数据校验单元,用于对数据采集单元按照数据采集表格获取的相应格式的源数据进行校验;
数据类型规整单元,用于根据校验字段记录的数据类型规整源数据的数据类型;
数据录入单元用于将源数据导入存储数据库;校验结果输出单元,用于输出数据校验信息,统计未通过数据校验的数据,以及对应的错误信息。
4.一种基于数据整合的政府财政数据采集方法,其特征在于,所述方法执行以下步骤:
步骤1:数据表格生成单元,根据选取的数据字段生成对应的数据采集表格;
步骤2:数据采集单元,按照生成的数据采集表格对应的格式,从数据源数据库获取数据,得到相应格式的源数据;
步骤3:数据表格读取单元,读取源数据,校验源数据,然后将源数据并导入存储数据库;
所述数据采集单元在按照生成的数据采集表格对应的格式,从数据源数据库获取数据时,若获取的数据源数据库为多个不同的数据库时,还需要对从不同的数据库获取的数据进行数据整合;
所述数据整合的方法包括:
步骤S1:对来源于不同数据库的异构数据进行异构数据成分分析;
步骤S2:根据异构数据成分分析的结果,对异构数据进行数据整合;
所述步骤S1中:进行异构数据成分分析的方法包括:
分析来自于不同数据源的异构数据的主成分,根据主成分,得出异构数据之间的异构程度值,将异构程度值低于设定的阈值的异构数据归为同构数据,完成异构数据的初步整合;
具体包括:以下步骤:使用如下公式,利用自相关算法计算不同数据源的异构数据之间的相似系数:
其中,xi和x为不同两个不同数据源的异构数据的主成分,n为计算次数,B为调整系数,取值范围为:15~20;
所述步骤S2基于步骤S1中得出的异构数据成分分析结果,完成异构数据整合的方法执行以下步骤:
基于异构数据成分分析结果;对异构数据进行归一化处理得到分类目标异构数据矩阵;使用如下公式,将分类目标异构数据矩阵分别与每一个数据库的数据特征群进行映射匹配:
其中,sim(dj,dk)为映射匹配结果,为产品目标异构数据矩阵,wji为矩阵行值,|dj|为对应的矩阵行列式的值;为定向特征空间群,wki为矩阵行值,|dk|为对应的矩阵行列式的值;根据最终映射匹配的结果,将匹配映射结果sim(dj,dk)最小的值对应的数据特征群作为对应数据的整合结果。
5.如权利要求4所述的方法,其特征在于,所述数据表格生成单元包括:
目标数据选择单元,用于选择需要采集的数据字段;
采集表格生成单元,用于根据选择的数据字段生成对应的数据采集表格;
校验字段生成单元,用于在生成的数据采集表格的基础上生成校验字段。
6.如权利要求4所述的方法,其特征在于,所述数据表格读取单元包括:
数据校验单元,用于对数据采集单元按照数据采集表格获取的相应格式的源数据进行校验;
数据类型规整单元,用于根据校验字段记录的数据类型规整源数据的数据类型;
数据录入单元用于将源数据导入存储数据库;
校验结果输出单元,用于输出数据校验信息,统计未通过数据校验的数据,以及对应的错误信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010365658.8A CN111680082B (zh) | 2020-04-30 | 2020-04-30 | 基于数据整合的政府财政数据采集系统及数据采集方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010365658.8A CN111680082B (zh) | 2020-04-30 | 2020-04-30 | 基于数据整合的政府财政数据采集系统及数据采集方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111680082A CN111680082A (zh) | 2020-09-18 |
CN111680082B true CN111680082B (zh) | 2023-08-18 |
Family
ID=72452601
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010365658.8A Active CN111680082B (zh) | 2020-04-30 | 2020-04-30 | 基于数据整合的政府财政数据采集系统及数据采集方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111680082B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112667872B (zh) * | 2020-11-17 | 2023-04-07 | 国家计算机网络与信息安全管理中心 | 新冠肺炎疫情数据的实时采集方法 |
CN112711626A (zh) * | 2020-12-29 | 2021-04-27 | 长威信息科技发展股份有限公司 | 一种多源异构数据统一汇聚方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013076736A2 (en) * | 2011-10-12 | 2013-05-30 | Tata Consultancy Services Limited | A method and system for consolidating a plurality of heterogeneous storage systems in a data center |
CN105956015A (zh) * | 2016-04-22 | 2016-09-21 | 四川中软科技有限公司 | 一种基于大数据的服务平台整合方法 |
CN107526786A (zh) * | 2017-08-01 | 2017-12-29 | 江苏速度信息科技股份有限公司 | 基于多源数据的地名地址数据整合的方法和系统 |
CN109582722A (zh) * | 2018-11-30 | 2019-04-05 | 珠海市新德汇信息技术有限公司 | 公安资源数据服务系统 |
CN109766378A (zh) * | 2018-12-26 | 2019-05-17 | 吕杨 | 一种多源异构水利水文数据共享系统 |
WO2019150287A1 (en) * | 2018-01-30 | 2019-08-08 | Encapsa Technology Llc | Method and system for encapsulating and storing information from multiple disparate data sources |
WO2020008180A1 (en) * | 2018-07-02 | 2020-01-09 | Data Value Factory Limited | Method and system for integrating data sets |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10296632B2 (en) * | 2015-06-19 | 2019-05-21 | Sap Se | Synchronization on reactivation of asynchronous table replication |
-
2020
- 2020-04-30 CN CN202010365658.8A patent/CN111680082B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013076736A2 (en) * | 2011-10-12 | 2013-05-30 | Tata Consultancy Services Limited | A method and system for consolidating a plurality of heterogeneous storage systems in a data center |
CN105956015A (zh) * | 2016-04-22 | 2016-09-21 | 四川中软科技有限公司 | 一种基于大数据的服务平台整合方法 |
CN107526786A (zh) * | 2017-08-01 | 2017-12-29 | 江苏速度信息科技股份有限公司 | 基于多源数据的地名地址数据整合的方法和系统 |
WO2019150287A1 (en) * | 2018-01-30 | 2019-08-08 | Encapsa Technology Llc | Method and system for encapsulating and storing information from multiple disparate data sources |
WO2020008180A1 (en) * | 2018-07-02 | 2020-01-09 | Data Value Factory Limited | Method and system for integrating data sets |
CN109582722A (zh) * | 2018-11-30 | 2019-04-05 | 珠海市新德汇信息技术有限公司 | 公安资源数据服务系统 |
CN109766378A (zh) * | 2018-12-26 | 2019-05-17 | 吕杨 | 一种多源异构水利水文数据共享系统 |
Non-Patent Citations (1)
Title |
---|
Research on multi-source heterogeneous data collection for the Smart City public information platform;Shufu Liu 等;《2016 IEEE International Geoscience and Remote Sensing Symposium》;第623-626页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111680082A (zh) | 2020-09-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Berndt et al. | Healthcare data warehousing and quality assurance | |
CN109446341A (zh) | 知识图谱的构建方法及装置 | |
CN111324602A (zh) | 一种实现面向金融大数据分析可视化方法 | |
US20210366055A1 (en) | Systems and methods for generating accurate transaction data and manipulation | |
US20120136896A1 (en) | System and method for imputing missing values and computer program product thereof | |
CN111680082B (zh) | 基于数据整合的政府财政数据采集系统及数据采集方法 | |
CN111680083B (zh) | 智能化多级政府财政数据采集系统及数据采集方法 | |
CN111814432A (zh) | 确定疾病的标准诊断编码的方法和装置 | |
CN114281950B (zh) | 基于多图加权融合的数据检索方法与系统 | |
US8650180B2 (en) | Efficient optimization over uncertain data | |
CN117892820A (zh) | 一种基于大语言模型的多级数据建模方法及系统 | |
CN117236300A (zh) | 一种基于pdf的crf采集表的自动生成方法、装置及设备 | |
CN109144999B (zh) | 一种数据定位方法、装置及存储介质、程序产品 | |
CN114416686B (zh) | 一种车辆设备指纹carid识别系统及识别方法 | |
CN115237859A (zh) | 需求文档质量检测方法、装置、设备及存储介质 | |
CN113849618A (zh) | 基于知识图谱的策略确定方法、装置、电子设备及介质 | |
CN111062751A (zh) | 一种基于药品自动关联耗材的计费系统及方法 | |
CN116484230B (zh) | 识别异常业务数据的方法及ai数字人的训练方法 | |
CN117539920B (zh) | 基于房产交易多维度数据的数据查询方法及系统 | |
CN116662326B (zh) | 多能源品种数据清洗采集方法 | |
CN114327377B (zh) | 需求跟踪矩阵生成方法、装置、计算机设备及存储介质 | |
WO2024174135A1 (zh) | 确定日志片的异常模式的方法、装置、设备及存储介质 | |
CN117472737A (zh) | 面向增量代码的质量检测方法及其系统 | |
CN117708611A (zh) | 一种数据处理方法、装置、电子设备及存储介质 | |
Juneblad | A Comparative Analysis of Metadata Tools for use on Unknown Operational Datasets |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |