CN111680082A - 基于数据整合的政府财政数据采集系统及数据采集方法 - Google Patents

基于数据整合的政府财政数据采集系统及数据采集方法 Download PDF

Info

Publication number
CN111680082A
CN111680082A CN202010365658.8A CN202010365658A CN111680082A CN 111680082 A CN111680082 A CN 111680082A CN 202010365658 A CN202010365658 A CN 202010365658A CN 111680082 A CN111680082 A CN 111680082A
Authority
CN
China
Prior art keywords
data
heterogeneous
unit
source
data acquisition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010365658.8A
Other languages
English (en)
Other versions
CN111680082B (zh
Inventor
王晓丹
王益洋
曾宇
颜鑫
杨功德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Honasoft Technology Co ltd
Original Assignee
Sichuan Honasoft Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Honasoft Technology Co ltd filed Critical Sichuan Honasoft Technology Co ltd
Priority to CN202010365658.8A priority Critical patent/CN111680082B/zh
Publication of CN111680082A publication Critical patent/CN111680082A/zh
Application granted granted Critical
Publication of CN111680082B publication Critical patent/CN111680082B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/252Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明属于数据采集技术领域,具体涉及基于数据整合的政府财政数据采集系统及数据采集方法。所述系统包括:数据源数据库、存储数据库、数据表格生成单元和数据表格读取单元;所述数据表格生成单元,用于根据选取的数据字段生成对应的数据采集表格;数据采集单元,用于按照生成的数据采集表格对应的格式,从数据源数据库获取数据,得到相应格式的源数据;数据表格读取单元,用于读取源数据,校验源数据,然后将源数据并导入存储数据库。具有智能化程度高、数据误差小和数据处理效率高的优点。

Description

基于数据整合的政府财政数据采集系统及数据采集方法
技术领域
本发明属于数据处理技术领域,具体涉及基于数据整合的政府财政数据采集系统及数据采集方法。
背景技术
数据整合是共享或者合并来自于两个或者更多应用的数据,创建一个具有更多功能的企业应用的过程。传统的商业应用有很强的面向对象性——即他们依靠持续的数据结构为商业实体和过程建模。当这种情况发生时,逻辑方式是通过数据共享或合并进行整合,而其他情况下,来自于一个应用的数据可能是重新构造才能和另一个应用的数据结构匹配,然后被直接写进另一个数据库。
数据采集,又称数据获取,是利用一种装置,从系统外部采集数据并输入到系统内部的一个接口。数据采集技术广泛应用在各个领域。比如摄像头,麦克风,都是数据采集工具。
被采集数据是已被转换为电讯号的各种物理量,如温度、水位、风速、压力等,可以是模拟量,也可以是数字量。采集一般是采样方式,即隔一定时间(称采样周期)对同一点数据重复采集。采集的数据大多是瞬时值,也可是某段时间内的一个特征值。准确的数据测量是数据采集的基础。数据量测方法有接触式和非接触式,检测元件多种多样。不论哪种方法和元件,均以不影响被测对象状态和测量环境为前提,以保证数据的正确性。数据采集含义很广,包括对面状连续物理量的采集。在计算机辅助制图、测图、设计中,对图形或图像数字化过程也可称为数据采集,此时被采集的是几何量(或包括物理量,如灰度)数据。
在互联网行业快速发展的今天,数据采集已经被广泛应用于互联网及分布式领域,数据采集领域已经发生了重要的变化。首先,分布式控制应用场合中的智能数据采集系统在国内外已经取得了长足的发展。其次,总线兼容型数据采集插件的数量不断增大,与个人计算机兼容的数据采集系统的数量也在增加。国内外各种数据采集机先后问世,将数据采集带入了一个全新的时代。
现有政府财政系统包括多个子系统,例如管理预算的预算系统、管理财政支出的出纳系统等多个系统,每个系统搭建在不同的服务器上,数据独立,需要做核算或者其他数据统计工作时,需要从涉及到的系统上导出数据表格,数据共通性低,增大数据统计难度,因此建立政府财政数据管理系统,政府财政数据管理系统能够自动进入多个子系统获取相应数据,并对数据进行整合,使得数据具有共通性,便于数据统计,然而,部分地区没有配置在线的系统,政府财政数据管理系统不能够自动登录获取数据,根据现有技术,通常人工制作相应的数据采集表格,发送给相关部门进行填写,相关部分返回表格后将数据导入数据管理系统,然而,由于表格填写的数据不规整,例如对于金额,会填写阿拉伯数字、大写数字等数据格式,因此数据导入过程会出现错误,需要人工介入,降低数据采集效率。
发明内容
有鉴于此,本发明的主要目的在于提供基于数据整合的政府财政数据采集系统及数据采集方法,具有智能化程度高、数据误差小和数据处理效率高的优点。
为达到上述目的,本发明的技术方案是这样实现的:
基于数据整合的政府财政数据采集系统,所述系统包括:数据源数据库、存储数据库、数据表格生成单元和数据表格读取单元;所述数据表格生成单元,用于根据选取的数据字段生成对应的数据采集表格;数据采集单元,用于按照生成的数据采集表格对应的格式,从数据源数据库获取数据,得到相应格式的源数据;数据表格读取单元,用于读取源数据,校验源数据,然后将源数据并导入存储数据库。
进一步的,所述数据采集单元在按照生成的数据采集表格对应的格式,从数据源数据库获取数据时,若获取的数据源数据库为多个不同的数据库时,还需要对从不同的数据库获取的数据进行数据整合;所述数据整合的方法包括:步骤S1:对来源于不同数据库的异构数据进行异构数据成分分析;步骤S2:根据异构数据成分分析的结果,对异构数据进行数据整合。
进一步的,所述数据表格生成单元包括:目标数据选择单元,用于选择需要采集的数据字段;采集表格生成单元,用于根据选择的数据字段生成对应的数据采集表格;校验字段生成单元,用于在生成的数据采集表格的基础上生成校验字段。
进一步的,所述数据表格读取单元包括:数据校验单元,用于对数据采集单元按照数据采集表格获取的相应格式的源数据进行校验;数据类型规整单元,用于根据校验字段记录的数据类型规整源数据的数据类型;数据录入单员用于将源数据导入存储数据库;校验结果输出单元,用于输出数据校验信息,统计未通过数据校验的数据,以及对应的错误信息。
进一步的,所述步骤S1中:进行异构数据成分分析的方法包括:分析来自于不同数据源的异构数据的主成分,根据主成分,得出异构数据之间的异构程度值,将异构程度值低于设定的阈值的异构数据归为同构数据,完成异构数据的初步整合;具体包括:以下步骤:使用如下公式,利用自相关算法计算不同数据源的异构数据之间的的相似系数:
Figure BDA0002476659300000031
其中,xi和x为不同两个不同数据源的异构数据的主成分,n为计算次数,B为调整系数,取值范围为:15~20。
进一步的,所述步骤S2基于步骤S1中得出的异构数据成分分析结果,完成异构数据整合的方法执行以下步骤:基于异构数据成分分析结果;对异构数据进行归一化处理得到分类目标异构数据矩阵;使用如下公式,将分类目标异构数据矩阵分别与每一个数据库的数据特征群进行映射匹配:
Figure BDA0002476659300000041
其中,sim(dj,dk)为映射匹配结果,
Figure BDA0002476659300000042
为产品目标异构数据矩阵,wji为矩阵行值,|dj|为对应的矩阵行列式的值;
Figure BDA0002476659300000043
为定向特征空间群,wki为矩阵行值,|dk||为对应的矩阵行列式的值;根据最终映射匹配的结果,将匹配映射结果sim(dj,dk)最小的值对应的数据特征群作为对应数据的整合结果。
一种基于数据整合的政府财政数据采集方法,所述方法执行以下步骤:
步骤1:数据表格生成单元,根据选取的数据字段生成对应的数据采集表格;
步骤2:数据采集单元,按照生成的数据采集表格对应的格式,从数据源数据库获取数据,得到相应格式的源数据;
步骤3:数据表格读取单元,读取源数据,校验源数据,然后将源数据并导入存储数据库。
进一步的,所述数据采集单元在按照生成的数据采集表格对应的格式,从数据源数据库获取数据时,若获取的数据源数据库为多个不同的数据库时,还需要对从不同的数据库获取的数据进行数据整合;所述数据整合的方法包括:步骤S1:对来源于不同数据库的异构数据进行异构数据成分分析;步骤S2:根据异构数据成分分析的结果,对异构数据进行数据整合。
进一步的,所述数据表格生成单元包括:目标数据选择单元,用于选择需要采集的数据字段;采集表格生成单元,用于根据选择的数据字段生成对应的数据采集表格;校验字段生成单元,用于在生成的数据采集表格的基础上生成校验字段。
进一步的,所述数据表格读取单元包括:数据校验单元,用于对数据采集单元按照数据采集表格获取的相应格式的源数据进行校验;数据类型规整单元,用于根据校验字段记录的数据类型规整源数据的数据类型;数据录入单员用于将源数据导入存储数据库;校验结果输出单元,用于输出数据校验信息,统计未通过数据校验的数据,以及对应的错误信息。
本发明的基于数据整合的政府财政数据采集系统及数据采集方法,具有如下有益效果:本发明的数据采集系统及数据采集方法,能够从多个不同数据库中采集数据,即便各个数据库中存储的数据格式不一致,也能将异构数据进行整合,无需人工进行介入,提升了数据采集的效率。同时本发明适用于部分地区没有配置在线的系统的情况,现有技术中,通常人工制作相应的数据采集表格,发送给相关部门进行填写,相关部分返回表格后将数据导入数据管理系统,然而,由于表格填写的数据不规整,例如对于金额,会填写阿拉伯数字、大写数字等数据格式,因此数据导入过程会出现错误,需要人工介入,降低数据采集效率。而本发明通过按照设定自动生成数据采集表格,然后进行数据采集后进行数据校验,提升了数据采集的安全性。
附图说明
图1为本发明实施例提供的基于数据整合的政府财政数据采集系统的系统结构示意图;
图2为本发明实施例提供的基于数据整合的政府财政数据采集方法的的方法流程示意图;
图3为本发明实施例提供的基于数据整合的政府财政数据采集系统及采集方法的采集效率实验效果示意图与现有技术的对比实验效果示意图。
1-现有技术实验效果示意图,2-本发明实验效果示意图。
具体实施方式
下面结合附图及本发明的实施例对本发明的方法作进一步详细的说明。
实施例1
如图1所示,基于数据整合的政府财政数据采集系统,所述系统包括:数据源数据库、存储数据库、数据表格生成单元和数据表格读取单元;所述数据表格生成单元,用于根据选取的数据字段生成对应的数据采集表格;数据采集单元,用于按照生成的数据采集表格对应的格式,从数据源数据库获取数据,得到相应格式的源数据;数据表格读取单元,用于读取源数据,校验源数据,然后将源数据并导入存储数据库。
具体的,提供本发明提供的数据采集系统,数据表格生成单元用于生成数据采集表格,数据表格读取单元用于获取数据采集表格中记录的数据,并导入存储数据库。目标数据选择单元用于选择需要采集的数据字段,采集表格生成单元用于将目标数据字段生成采集表格,校验字段生成单元用于生成校验字段,校验字段包括字段的类型信息;财政数据资源库记录财政数据信息,包括财政数据字段名称以及字段类型;数据校验单元用于校验数据,数据类型规整单元用于根据校验字段记录的数据类型规整数据类型,数据录入单员用于将数据导入财政数据资源库,校验结果输出单元用于输出数据校验信息,统计未通过数据校验的数据,以及对应的错误信息;表格结构性校验单元用于根据每个字段的校验字段以及表格结构校验字段校验表格结构完整性。
实施例2
在上一实施例的基础上,所述数据采集单元在按照生成的数据采集表格对应的格式,从数据源数据库获取数据时,若获取的数据源数据库为多个不同的数据库时,还需要对从不同的数据库获取的数据进行数据整合;所述数据整合的方法包括:步骤S1:对来源于不同数据库的异构数据进行异构数据成分分析;步骤S2:根据异构数据成分分析的结果,对异构数据进行数据整合。
具体的,本发明的数据采集系统及数据采集方法,能够从多个不同数据库中采集数据,即便各个数据库中存储的数据格式不一致,也能将异构数据进行整合,无需人工进行介入,提升了数据采集的效率。同时本发明适用于部分地区没有配置在线的系统的情况,现有技术中,通常人工制作相应的数据采集表格,发送给相关部门进行填写,相关部分返回表格后将数据导入数据管理系统,然而,由于表格填写的数据不规整,例如对于金额,会填写阿拉伯数字、大写数字等数据格式,因此数据导入过程会出现错误,需要人工介入,降低数据采集效率。而本发明通过按照设定自动生成数据采集表格,然后进行数据采集后进行数据校验,提升了数据采集的安全性。
实施例3
在上一实施例的基础上,所述数据表格生成单元包括:目标数据选择单元,用于选择需要采集的数据字段;采集表格生成单元,用于根据选择的数据字段生成对应的数据采集表格;校验字段生成单元,用于在生成的数据采集表格的基础上生成校验字段。
实施例4
在上一实施例的基础上,所述数据表格读取单元包括:数据校验单元,用于对数据采集单元按照数据采集表格获取的相应格式的源数据进行校验;数据类型规整单元,用于根据校验字段记录的数据类型规整源数据的数据类型;数据录入单员用于将源数据导入存储数据库;校验结果输出单元,用于输出数据校验信息,统计未通过数据校验的数据,以及对应的错误信息。
具体的,所述数据校验单元包括:表格结构校验单元、数据有效性校验单元和目标字段校验单元;所述表格结构性校验单元用于根据每个字段的校验字段以及表格结构校验字段校验表格结构完整性;所述数据有效性校验单元用于校验数据有效性,例如某字段设置有数据有效性规则为数据在10~200之间,字段数据在有效性范围之外则不能通过数据有效性校验;所述目标字段校验单元用于校验目标字段是为已知字段,目标字段为填写的目标,例如某某项目组,如果目标字段在财政数据资源库中没有记录则可能填错或者有错别字,则不能通过校验。
实施例5
在上一实施例的基础上,所述步骤S1中:进行异构数据成分分析的方法包括:分析来自于不同数据源的异构数据的主成分,根据主成分,得出异构数据之间的异构程度值,将异构程度值低于设定的阈值的异构数据归为同构数据,完成异构数据的初步整合;具体包括:以下步骤:使用如下公式,利用自相关算法计算不同数据源的异构数据之间的的相似系数:
Figure BDA0002476659300000081
Figure BDA0002476659300000082
其中,xi和x为不同两个不同数据源的异构数据的主成分,n为计算次数,B为调整系数,取值范围为:15~20。
实施例6
在上一实施例的基础上,所述步骤S2基于步骤S1中得出的异构数据成分分析结果,完成异构数据整合的方法执行以下步骤:基于异构数据成分分析结果;对异构数据进行归一化处理得到分类目标异构数据矩阵;使用如下公式,将分类目标异构数据矩阵分别与每一个数据库的数据特征群进行映射匹配:
Figure BDA0002476659300000083
其中,sim(dj,dk)为映射匹配结果,
Figure BDA0002476659300000084
为产品目标异构数据矩阵,wji为矩阵行值,|dj|为对应的矩阵行列式的值;
Figure BDA0002476659300000085
为定向特征空间群,wki为矩阵行值,|dk||为对应的矩阵行列式的值;根据最终映射匹配的结果,将匹配映射结果sim(dj,dk)最小的值对应的数据特征群作为对应数据的整合结果。
具体的,异构数据库系统是相关的多个数据库系统的集合,可以实现数据的共享和透明访问,几个数据库系统在加入异构数据库系统之前本身就已经存在,拥有自己的数据库管理系统、外构数据库的各个组成部分具有自身的自治性,实现数据共享的同时,每个数据库系统仍有自己的应用特性、完整性控制和安全性控制。
如果两种数据库系统之间的数据定义模型不同,如分别为关系模型和层次模型,那么需要重新定义实体属性和联系,以防止属性或联系信息的丢失。
总之,在进行数据转换后,一方面源数据库模式中所有需要共享的信息都转换到目的数据库中,另一方面这种转换又不能包含冗余的关联信息。
数据库转换工具可以实现不同数据库系统之间的数据模型转换,需要进一步研究的问题是:如果数据库转换同时进行数据定义模式转换和数据转换,就可能引起同一数据集合在异构数据库系统中存在多个副本,因此需要引入新的访问控制机制。在保证各个参与数据库自治,维护其完整性、安全性的基础上,对于异构数据库系统提供全局的访问控制、并发机制和安全控制。
如果数据库转换只进行数据定义转换,不产生数据的副本,那么在新的目的数据库定义模型的框架下访问数据,实现上仍是对源数据库系统中数据的访问。这时利用新的数据库系统中的数据处理语言实现的事务,不能直接访问源数据库,必须进行事务级的翻译才可以执行。
实施例7
一种基于数据整合的政府财政数据采集方法,所述方法执行以下步骤:
步骤1:数据表格生成单元,根据选取的数据字段生成对应的数据采集表格;
步骤2:数据采集单元,按照生成的数据采集表格对应的格式,从数据源数据库获取数据,得到相应格式的源数据;
步骤3:数据表格读取单元,读取源数据,校验源数据,然后将源数据并导入存储数据库。
具体的,数据在传输的过程中,会受到各种干扰的影响,如脉冲干扰,随机噪声干扰和人为干扰等,这会使数据产生差错。为了能够控制传输过程的差错,通信系统必须采用有效措施来控制差错的产生。
常用的差错控制方法让每个传输的数据单元带有足以使接收端发现差错的冗余信息,这种方法不能纠正错误,但可以发现数据错误,这种方法容易实现,检错速度快,可以通过重传使错误纠正,所以是非常常用的检错方案。
在种方案中常用的校验方法有奇偶校验、CRC(循环冗余校验)和校验和。
实施例8
在上一实施例的基础上,所述数据采集单元在按照生成的数据采集表格对应的格式,从数据源数据库获取数据时,若获取的数据源数据库为多个不同的数据库时,还需要对从不同的数据库获取的数据进行数据整合;所述数据整合的方法包括:步骤S1:对来源于不同数据库的异构数据进行异构数据成分分析;步骤S2:根据异构数据成分分析的结果,对异构数据进行数据整合。
实施例9
在上一实施例的基础上,所述数据表格生成单元包括:目标数据选择单元,用于选择需要采集的数据字段;采集表格生成单元,用于根据选择的数据字段生成对应的数据采集表格;校验字段生成单元,用于在生成的数据采集表格的基础上生成校验字段。
实施例10
在上一实施例的基础上,所述数据表格读取单元包括:数据校验单元,用于对数据采集单元按照数据采集表格获取的相应格式的源数据进行校验;数据类型规整单元,用于根据校验字段记录的数据类型规整源数据的数据类型;数据录入单员用于将源数据导入存储数据库;校验结果输出单元,用于输出数据校验信息,统计未通过数据校验的数据,以及对应的错误信息。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的系统,仅以上述各功能单元的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能单元来完成,即将本发明实施例中的单元或者步骤再分解或者组合,例如,上述实施例的单元可以合并为一个单元,也可以进一步拆分成多个子单元,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的单元、步骤的名称,仅仅是为了区分各个单元或者步骤,不视为对本发明的不当限定。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的单元、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件单元、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

Claims (10)

1.基于数据整合的政府财政数据采集系统,其特征在于,所述系统包括:数据源数据库、存储数据库、数据表格生成单元和数据表格读取单元;所述数据表格生成单元,用于根据选取的数据字段生成对应的数据采集表格;数据采集单元,用于按照生成的数据采集表格对应的格式,从数据源数据库获取数据,得到相应格式的源数据;数据表格读取单元,用于读取源数据,校验源数据,然后将源数据并导入存储数据库。
2.如权利要求1所述的系统,其特征在于,所述数据采集单元在按照生成的数据采集表格对应的格式,从数据源数据库获取数据时,若获取的数据源数据库为多个不同的数据库时,还需要对从不同的数据库获取的数据进行数据整合;所述数据整合的方法包括:步骤S1:对来源于不同数据库的异构数据进行异构数据成分分析;步骤S2:根据异构数据成分分析的结果,对异构数据进行数据整合。
3.如权利要求2所述的系统,其特征在于,所述数据表格生成单元包括:目标数据选择单元,用于选择需要采集的数据字段;采集表格生成单元,用于根据选择的数据字段生成对应的数据采集表格;校验字段生成单元,用于在生成的数据采集表格的基础上生成校验字段。
4.如权利要求3所述的系统,其特征在于,所述数据表格读取单元包括:数据校验单元,用于对数据采集单元按照数据采集表格获取的相应格式的源数据进行校验;数据类型规整单元,用于根据校验字段记录的数据类型规整源数据的数据类型;数据录入单员用于将源数据导入存储数据库;校验结果输出单元,用于输出数据校验信息,统计未通过数据校验的数据,以及对应的错误信息。
5.如权利要求4所述的系统,其特征在于,所述步骤S1中:进行异构数据成分分析的方法包括:分析来自于不同数据源的异构数据的主成分,根据主成分,得出异构数据之间的异构程度值,将异构程度值低于设定的阈值的异构数据归为同构数据,完成异构数据的初步整合;具体包括:以下步骤:使用如下公式,利用自相关算法计算不同数据源的异构数据之间的的相似系数:
Figure FDA0002476659290000021
其中,xi和x为不同两个不同数据源的异构数据的主成分,n为计算次数,B为调整系数,取值范围为:15~20。
6.如权利要求5所述的系统,其特征在于,所述步骤S2基于步骤S1中得出的异构数据成分分析结果,完成异构数据整合的方法执行以下步骤:基于异构数据成分分析结果;对异构数据进行归一化处理得到分类目标异构数据矩阵;使用如下公式,将分类目标异构数据矩阵分别与每一个数据库的数据特征群进行映射匹配:
Figure FDA0002476659290000022
其中,sim(dj,dk)为映射匹配结果,
Figure FDA0002476659290000023
为产品目标异构数据矩阵,wji为矩阵行值,|dj|为对应的矩阵行列式的值;
Figure FDA0002476659290000024
为定向特征空间群,wki为矩阵行值,|dk||为对应的矩阵行列式的值;根据最终映射匹配的结果,将匹配映射结果sim(dj,dk)最小的值对应的数据特征群作为对应数据的整合结果。
7.一种基于权利要求1至6之一所述系统的基于数据整合的政府财政数据采集方法,其特征在于,所述方法执行以下步骤:
步骤1:数据表格生成单元,根据选取的数据字段生成对应的数据采集表格;
步骤2:数据采集单元,按照生成的数据采集表格对应的格式,从数据源数据库获取数据,得到相应格式的源数据;
步骤3:数据表格读取单元,读取源数据,校验源数据,然后将源数据并导入存储数据库。
8.如权利要求7所述的方法,其特征在于,所述数据采集单元在按照生成的数据采集表格对应的格式,从数据源数据库获取数据时,若获取的数据源数据库为多个不同的数据库时,还需要对从不同的数据库获取的数据进行数据整合;所述数据整合的方法包括:步骤S1:对来源于不同数据库的异构数据进行异构数据成分分析;步骤S2:根据异构数据成分分析的结果,对异构数据进行数据整合。
9.如权利要求8所述的方法,其特征在于,所述数据表格生成单元包括:目标数据选择单元,用于选择需要采集的数据字段;采集表格生成单元,用于根据选择的数据字段生成对应的数据采集表格;校验字段生成单元,用于在生成的数据采集表格的基础上生成校验字段。
10.如权利要求3所述的系统,其特征在于,所述数据表格读取单元包括:数据校验单元,用于对数据采集单元按照数据采集表格获取的相应格式的源数据进行校验;数据类型规整单元,用于根据校验字段记录的数据类型规整源数据的数据类型;数据录入单员用于将源数据导入存储数据库;校验结果输出单元,用于输出数据校验信息,统计未通过数据校验的数据,以及对应的错误信息。
CN202010365658.8A 2020-04-30 2020-04-30 基于数据整合的政府财政数据采集系统及数据采集方法 Active CN111680082B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010365658.8A CN111680082B (zh) 2020-04-30 2020-04-30 基于数据整合的政府财政数据采集系统及数据采集方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010365658.8A CN111680082B (zh) 2020-04-30 2020-04-30 基于数据整合的政府财政数据采集系统及数据采集方法

Publications (2)

Publication Number Publication Date
CN111680082A true CN111680082A (zh) 2020-09-18
CN111680082B CN111680082B (zh) 2023-08-18

Family

ID=72452601

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010365658.8A Active CN111680082B (zh) 2020-04-30 2020-04-30 基于数据整合的政府财政数据采集系统及数据采集方法

Country Status (1)

Country Link
CN (1) CN111680082B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112667872A (zh) * 2020-11-17 2021-04-16 国家计算机网络与信息安全管理中心 新冠肺炎疫情数据的实时采集方法
CN112711626A (zh) * 2020-12-29 2021-04-27 长威信息科技发展股份有限公司 一种多源异构数据统一汇聚方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013076736A2 (en) * 2011-10-12 2013-05-30 Tata Consultancy Services Limited A method and system for consolidating a plurality of heterogeneous storage systems in a data center
CN105956015A (zh) * 2016-04-22 2016-09-21 四川中软科技有限公司 一种基于大数据的服务平台整合方法
US20160371319A1 (en) * 2015-06-19 2016-12-22 Sap Se Synchronization on reactivation of asynchronous table replication
CN107526786A (zh) * 2017-08-01 2017-12-29 江苏速度信息科技股份有限公司 基于多源数据的地名地址数据整合的方法和系统
CN109582722A (zh) * 2018-11-30 2019-04-05 珠海市新德汇信息技术有限公司 公安资源数据服务系统
CN109766378A (zh) * 2018-12-26 2019-05-17 吕杨 一种多源异构水利水文数据共享系统
WO2019150287A1 (en) * 2018-01-30 2019-08-08 Encapsa Technology Llc Method and system for encapsulating and storing information from multiple disparate data sources
WO2020008180A1 (en) * 2018-07-02 2020-01-09 Data Value Factory Limited Method and system for integrating data sets

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013076736A2 (en) * 2011-10-12 2013-05-30 Tata Consultancy Services Limited A method and system for consolidating a plurality of heterogeneous storage systems in a data center
US20160371319A1 (en) * 2015-06-19 2016-12-22 Sap Se Synchronization on reactivation of asynchronous table replication
CN105956015A (zh) * 2016-04-22 2016-09-21 四川中软科技有限公司 一种基于大数据的服务平台整合方法
CN107526786A (zh) * 2017-08-01 2017-12-29 江苏速度信息科技股份有限公司 基于多源数据的地名地址数据整合的方法和系统
WO2019150287A1 (en) * 2018-01-30 2019-08-08 Encapsa Technology Llc Method and system for encapsulating and storing information from multiple disparate data sources
WO2020008180A1 (en) * 2018-07-02 2020-01-09 Data Value Factory Limited Method and system for integrating data sets
CN109582722A (zh) * 2018-11-30 2019-04-05 珠海市新德汇信息技术有限公司 公安资源数据服务系统
CN109766378A (zh) * 2018-12-26 2019-05-17 吕杨 一种多源异构水利水文数据共享系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SHUFU LIU 等: "Research on multi-source heterogeneous data collection for the Smart City public information platform", 《2016 IEEE INTERNATIONAL GEOSCIENCE AND REMOTE SENSING SYMPOSIUM》, pages 623 - 626 *
柳原: "多源异构数据整合系统在医疗大数据中的研究", pages 64 - 65 *
汤艳: "企业异构数据集成系统研究与实现", 《万方学术》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112667872A (zh) * 2020-11-17 2021-04-16 国家计算机网络与信息安全管理中心 新冠肺炎疫情数据的实时采集方法
CN112711626A (zh) * 2020-12-29 2021-04-27 长威信息科技发展股份有限公司 一种多源异构数据统一汇聚方法及系统

Also Published As

Publication number Publication date
CN111680082B (zh) 2023-08-18

Similar Documents

Publication Publication Date Title
US20230297446A1 (en) Data model generation using generative adversarial networks
CN106663037B (zh) 用于管理特征处理的系统和方法
WO2022105115A1 (zh) 问答对匹配方法、装置、电子设备及存储介质
EP3591586A1 (en) Data model generation using generative adversarial networks and fully automated machine learning system which generates and optimizes solutions given a dataset and a desired outcome
CN111144210B (zh) 图像的结构化处理方法及装置、存储介质及电子设备
US11087409B1 (en) Systems and methods for generating accurate transaction data and manipulation
CN112434024B (zh) 面向关系型数据库的数据字典生成方法、装置、设备及介质
CN111125266B (zh) 数据处理方法、装置、设备及存储介质
Deming et al. Exploratory Data Analysis and Visualization for Business Analytics
CN111680082B (zh) 基于数据整合的政府财政数据采集系统及数据采集方法
US11017572B2 (en) Generating a probabilistic graphical model with causal information
CN111680083B (zh) 智能化多级政府财政数据采集系统及数据采集方法
US8650180B2 (en) Efficient optimization over uncertain data
Jiang et al. A Large-scale Benchmark for Log Parsing
CN116881971A (zh) 一种敏感信息泄露检测方法、设备及存储介质
CN110826616A (zh) 信息处理方法及装置、电子设备、存储介质
CN114416686B (zh) 一种车辆设备指纹carid识别系统及识别方法
CN113849618A (zh) 基于知识图谱的策略确定方法、装置、电子设备及介质
Chuang et al. Integrating web query results: holistic schema matching
CN116881262B (zh) 一种智能化的多格式数字身份映射方法及系统
CN115905561B (zh) 本体对齐方法、装置、电子设备及存储介质
Ghita et al. Processing incoherent open government data: A case-study about Romanian public contracts funded by the European Union
CN117539920B (zh) 基于房产交易多维度数据的数据查询方法及系统
Campesato Data Literacy with Python
CN117472737A (zh) 面向增量代码的质量检测方法及其系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant