CN111680082B - 基于数据整合的政府财政数据采集系统及数据采集方法 - Google Patents

基于数据整合的政府财政数据采集系统及数据采集方法 Download PDF

Info

Publication number
CN111680082B
CN111680082B CN202010365658.8A CN202010365658A CN111680082B CN 111680082 B CN111680082 B CN 111680082B CN 202010365658 A CN202010365658 A CN 202010365658A CN 111680082 B CN111680082 B CN 111680082B
Authority
CN
China
Prior art keywords
data
heterogeneous
unit
source
data acquisition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010365658.8A
Other languages
English (en)
Other versions
CN111680082A (zh
Inventor
王晓丹
王益洋
曾宇
颜鑫
杨功德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Honasoft Technology Co ltd
Original Assignee
Sichuan Honasoft Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Honasoft Technology Co ltd filed Critical Sichuan Honasoft Technology Co ltd
Priority to CN202010365658.8A priority Critical patent/CN111680082B/zh
Publication of CN111680082A publication Critical patent/CN111680082A/zh
Application granted granted Critical
Publication of CN111680082B publication Critical patent/CN111680082B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/252Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明属于数据采集技术领域,具体涉及基于数据整合的政府财政数据采集系统及数据采集方法。所述系统包括:数据源数据库、存储数据库、数据表格生成单元和数据表格读取单元;所述数据表格生成单元,用于根据选取的数据字段生成对应的数据采集表格;数据采集单元,用于按照生成的数据采集表格对应的格式,从数据源数据库获取数据,得到相应格式的源数据;数据表格读取单元,用于读取源数据,校验源数据,然后将源数据并导入存储数据库。具有智能化程度高、数据误差小和数据处理效率高的优点。

Description

基于数据整合的政府财政数据采集系统及数据采集方法
技术领域
本发明属于数据处理技术领域,具体涉及基于数据整合的政府财政数据采集系统及数据采集方法。
背景技术
数据整合是共享或者合并来自于两个或者更多应用的数据,创建一个具有更多功能的企业应用的过程。传统的商业应用有很强的面向对象性——即他们依靠持续的数据结构为商业实体和过程建模。当这种情况发生时,逻辑方式是通过数据共享或合并进行整合,而其他情况下,来自于一个应用的数据可能是重新构造才能和另一个应用的数据结构匹配,然后被直接写进另一个数据库。
数据采集,又称数据获取,是利用一种装置,从系统外部采集数据并输入到系统内部的一个接口。数据采集技术广泛应用在各个领域。比如摄像头,麦克风,都是数据采集工具。
被采集数据是已被转换为电讯号的各种物理量,如温度、水位、风速、压力等,可以是模拟量,也可以是数字量。采集一般是采样方式,即隔一定时间(称采样周期)对同一点数据重复采集。采集的数据大多是瞬时值,也可是某段时间内的一个特征值。准确的数据测量是数据采集的基础。数据量测方法有接触式和非接触式,检测元件多种多样。不论哪种方法和元件,均以不影响被测对象状态和测量环境为前提,以保证数据的正确性。数据采集含义很广,包括对面状连续物理量的采集。在计算机辅助制图、测图、设计中,对图形或图像数字化过程也可称为数据采集,此时被采集的是几何量(或包括物理量,如灰度)数据。
在互联网行业快速发展的今天,数据采集已经被广泛应用于互联网及分布式领域,数据采集领域已经发生了重要的变化。首先,分布式控制应用场合中的智能数据采集系统在国内外已经取得了长足的发展。其次,总线兼容型数据采集插件的数量不断增大,与个人计算机兼容的数据采集系统的数量也在增加。国内外各种数据采集机先后问世,将数据采集带入了一个全新的时代。
现有政府财政系统包括多个子系统,例如管理预算的预算系统、管理财政支出的出纳系统等多个系统,每个系统搭建在不同的服务器上,数据独立,需要做核算或者其他数据统计工作时,需要从涉及到的系统上导出数据表格,数据共通性低,增大数据统计难度,因此建立政府财政数据管理系统,政府财政数据管理系统能够自动进入多个子系统获取相应数据,并对数据进行整合,使得数据具有共通性,便于数据统计,然而,部分地区没有配置在线的系统,政府财政数据管理系统不能够自动登录获取数据,根据现有技术,通常人工制作相应的数据采集表格,发送给相关部门进行填写,相关部分返回表格后将数据导入数据管理系统,然而,由于表格填写的数据不规整,例如对于金额,会填写阿拉伯数字、大写数字等数据格式,因此数据导入过程会出现错误,需要人工介入,降低数据采集效率。
发明内容
有鉴于此,本发明的主要目的在于提供基于数据整合的政府财政数据采集系统及数据采集方法,具有智能化程度高、数据误差小和数据处理效率高的优点。
为达到上述目的,本发明的技术方案是这样实现的:
基于数据整合的政府财政数据采集系统,所述系统包括:数据源数据库、存储数据库、数据表格生成单元和数据表格读取单元;所述数据表格生成单元,用于根据选取的数据字段生成对应的数据采集表格;数据采集单元,用于按照生成的数据采集表格对应的格式,从数据源数据库获取数据,得到相应格式的源数据;数据表格读取单元,用于读取源数据,校验源数据,然后将源数据并导入存储数据库。
进一步的,所述数据采集单元在按照生成的数据采集表格对应的格式,从数据源数据库获取数据时,若获取的数据源数据库为多个不同的数据库时,还需要对从不同的数据库获取的数据进行数据整合;所述数据整合的方法包括:步骤S1:对来源于不同数据库的异构数据进行异构数据成分分析;步骤S2:根据异构数据成分分析的结果,对异构数据进行数据整合。
进一步的,所述数据表格生成单元包括:目标数据选择单元,用于选择需要采集的数据字段;采集表格生成单元,用于根据选择的数据字段生成对应的数据采集表格;校验字段生成单元,用于在生成的数据采集表格的基础上生成校验字段。
进一步的,所述数据表格读取单元包括:数据校验单元,用于对数据采集单元按照数据采集表格获取的相应格式的源数据进行校验;数据类型规整单元,用于根据校验字段记录的数据类型规整源数据的数据类型;数据录入单员用于将源数据导入存储数据库;校验结果输出单元,用于输出数据校验信息,统计未通过数据校验的数据,以及对应的错误信息。
进一步的,所述步骤S1中:进行异构数据成分分析的方法包括:分析来自于不同数据源的异构数据的主成分,根据主成分,得出异构数据之间的异构程度值,将异构程度值低于设定的阈值的异构数据归为同构数据,完成异构数据的初步整合;具体包括:以下步骤:使用如下公式,利用自相关算法计算不同数据源的异构数据之间的相似系数:
其中,xi和x为不同两个不同数据源的异构数据的主成分,n为计算次数,B为调整系数,取值范围为:15~20。
进一步的,所述步骤S2基于步骤S1中得出的异构数据成分分析结果,完成异构数据整合的方法执行以下步骤:基于异构数据成分分析结果;对异构数据进行归一化处理得到分类目标异构数据矩阵;使用如下公式,将分类目标异构数据矩阵分别与每一个数据库的数据特征群进行映射匹配:
其中,sim(dj,dk)为映射匹配结果,为产品目标异构数据矩阵,wji为矩阵行值,|dj|为对应的矩阵行列式的值;为定向特征空间群,wki为矩阵行值,|dk|为对应的矩阵行列式的值;根据最终映射匹配的结果,将匹配映射结果sim(dj,dk)最小的值对应的数据特征群作为对应数据的整合结果。
一种基于数据整合的政府财政数据采集方法,所述方法执行以下步骤:
步骤1:数据表格生成单元,根据选取的数据字段生成对应的数据采集表格;
步骤2:数据采集单元,按照生成的数据采集表格对应的格式,从数据源数据库获取数据,得到相应格式的源数据;
步骤3:数据表格读取单元,读取源数据,校验源数据,然后将源数据并导入存储数据库。
进一步的,所述数据采集单元在按照生成的数据采集表格对应的格式,从数据源数据库获取数据时,若获取的数据源数据库为多个不同的数据库时,还需要对从不同的数据库获取的数据进行数据整合;所述数据整合的方法包括:步骤S1:对来源于不同数据库的异构数据进行异构数据成分分析;步骤S2:根据异构数据成分分析的结果,对异构数据进行数据整合。
进一步的,所述数据表格生成单元包括:目标数据选择单元,用于选择需要采集的数据字段;采集表格生成单元,用于根据选择的数据字段生成对应的数据采集表格;校验字段生成单元,用于在生成的数据采集表格的基础上生成校验字段。
进一步的,所述数据表格读取单元包括:数据校验单元,用于对数据采集单元按照数据采集表格获取的相应格式的源数据进行校验;数据类型规整单元,用于根据校验字段记录的数据类型规整源数据的数据类型;数据录入单员用于将源数据导入存储数据库;校验结果输出单元,用于输出数据校验信息,统计未通过数据校验的数据,以及对应的错误信息。
本发明的基于数据整合的政府财政数据采集系统及数据采集方法,具有如下有益效果:本发明的数据采集系统及数据采集方法,能够从多个不同数据库中采集数据,即便各个数据库中存储的数据格式不一致,也能将异构数据进行整合,无需人工进行介入,提升了数据采集的效率。同时本发明适用于部分地区没有配置在线的系统的情况,现有技术中,通常人工制作相应的数据采集表格,发送给相关部门进行填写,相关部分返回表格后将数据导入数据管理系统,然而,由于表格填写的数据不规整,例如对于金额,会填写阿拉伯数字、大写数字等数据格式,因此数据导入过程会出现错误,需要人工介入,降低数据采集效率。而本发明通过按照设定自动生成数据采集表格,然后进行数据采集后进行数据校验,提升了数据采集的安全性。
附图说明
图1为本发明实施例提供的基于数据整合的政府财政数据采集系统的系统结构示意图;
图2为本发明实施例提供的基于数据整合的政府财政数据采集方法的的方法流程示意图;
图3为本发明实施例提供的基于数据整合的政府财政数据采集系统及采集方法的采集效率实验效果示意图与现有技术的对比实验效果示意图。
1-现有技术实验效果示意图,2-本发明实验效果示意图。
具体实施方式
下面结合附图及本发明的实施例对本发明的方法作进一步详细的说明。
实施例1
如图1所示,基于数据整合的政府财政数据采集系统,所述系统包括:数据源数据库、存储数据库、数据表格生成单元和数据表格读取单元;所述数据表格生成单元,用于根据选取的数据字段生成对应的数据采集表格;数据采集单元,用于按照生成的数据采集表格对应的格式,从数据源数据库获取数据,得到相应格式的源数据;数据表格读取单元,用于读取源数据,校验源数据,然后将源数据并导入存储数据库。
具体的,提供本发明提供的数据采集系统,数据表格生成单元用于生成数据采集表格,数据表格读取单元用于获取数据采集表格中记录的数据,并导入存储数据库。目标数据选择单元用于选择需要采集的数据字段,采集表格生成单元用于将目标数据字段生成采集表格,校验字段生成单元用于生成校验字段,校验字段包括字段的类型信息;财政数据资源库记录财政数据信息,包括财政数据字段名称以及字段类型;数据校验单元用于校验数据,数据类型规整单元用于根据校验字段记录的数据类型规整数据类型,数据录入单员用于将数据导入财政数据资源库,校验结果输出单元用于输出数据校验信息,统计未通过数据校验的数据,以及对应的错误信息;表格结构性校验单元用于根据每个字段的校验字段以及表格结构校验字段校验表格结构完整性。
实施例2
在上一实施例的基础上,所述数据采集单元在按照生成的数据采集表格对应的格式,从数据源数据库获取数据时,若获取的数据源数据库为多个不同的数据库时,还需要对从不同的数据库获取的数据进行数据整合;所述数据整合的方法包括:步骤S1:对来源于不同数据库的异构数据进行异构数据成分分析;步骤S2:根据异构数据成分分析的结果,对异构数据进行数据整合。
具体的,本发明的数据采集系统及数据采集方法,能够从多个不同数据库中采集数据,即便各个数据库中存储的数据格式不一致,也能将异构数据进行整合,无需人工进行介入,提升了数据采集的效率。同时本发明适用于部分地区没有配置在线的系统的情况,现有技术中,通常人工制作相应的数据采集表格,发送给相关部门进行填写,相关部分返回表格后将数据导入数据管理系统,然而,由于表格填写的数据不规整,例如对于金额,会填写阿拉伯数字、大写数字等数据格式,因此数据导入过程会出现错误,需要人工介入,降低数据采集效率。而本发明通过按照设定自动生成数据采集表格,然后进行数据采集后进行数据校验,提升了数据采集的安全性。
实施例3
在上一实施例的基础上,所述数据表格生成单元包括:目标数据选择单元,用于选择需要采集的数据字段;采集表格生成单元,用于根据选择的数据字段生成对应的数据采集表格;校验字段生成单元,用于在生成的数据采集表格的基础上生成校验字段。
实施例4
在上一实施例的基础上,所述数据表格读取单元包括:数据校验单元,用于对数据采集单元按照数据采集表格获取的相应格式的源数据进行校验;数据类型规整单元,用于根据校验字段记录的数据类型规整源数据的数据类型;数据录入单员用于将源数据导入存储数据库;校验结果输出单元,用于输出数据校验信息,统计未通过数据校验的数据,以及对应的错误信息。
具体的,所述数据校验单元包括:表格结构校验单元、数据有效性校验单元和目标字段校验单元;所述表格结构性校验单元用于根据每个字段的校验字段以及表格结构校验字段校验表格结构完整性;所述数据有效性校验单元用于校验数据有效性,例如某字段设置有数据有效性规则为数据在10~200之间,字段数据在有效性范围之外则不能通过数据有效性校验;所述目标字段校验单元用于校验目标字段是为已知字段,目标字段为填写的目标,例如某某项目组,如果目标字段在财政数据资源库中没有记录则可能填错或者有错别字,则不能通过校验。
实施例5
在上一实施例的基础上,所述步骤S1中:进行异构数据成分分析的方法包括:分析来自于不同数据源的异构数据的主成分,根据主成分,得出异构数据之间的异构程度值,将异构程度值低于设定的阈值的异构数据归为同构数据,完成异构数据的初步整合;具体包括:以下步骤:使用如下公式,利用自相关算法计算不同数据源的异构数据之间的相似系数:
其中,xi和x为不同两个不同数据源的异构数据的主成分,n为计算次数,B为调整系数,取值范围为:15~20。
实施例6
在上一实施例的基础上,所述步骤S2基于步骤S1中得出的异构数据成分分析结果,完成异构数据整合的方法执行以下步骤:基于异构数据成分分析结果;对异构数据进行归一化处理得到分类目标异构数据矩阵;使用如下公式,将分类目标异构数据矩阵分别与每一个数据库的数据特征群进行映射匹配:,
其中,sim(dj,dk)为映射匹配结果,
为产品目标异构数据矩阵,wji为矩阵行值,|dj|为对应的矩阵行列式的值;/>为定向特征空间群,wki为矩阵行值,|dk|为对应的矩阵行列式的值;根据最终映射匹配的结果,将匹配映射结果sim(dj,dk)最小的值对应的数据特征群作为对应数据的整合结果。
具体的,异构数据库系统是相关的多个数据库系统的集合,可以实现数据的共享和透明访问,几个数据库系统在加入异构数据库系统之前本身就已经存在,拥有自己的数据库管理系统、外构数据库的各个组成部分具有自身的自治性,实现数据共享的同时,每个数据库系统仍有自己的应用特性、完整性控制和安全性控制。
如果两种数据库系统之间的数据定义模型不同,如分别为关系模型和层次模型,那么需要重新定义实体属性和联系,以防止属性或联系信息的丢失。
总之,在进行数据转换后,一方面源数据库模式中所有需要共享的信息都转换到目的数据库中,另一方面这种转换又不能包含冗余的关联信息。
数据库转换工具可以实现不同数据库系统之间的数据模型转换,需要进一步研究的问题是:如果数据库转换同时进行数据定义模式转换和数据转换,就可能引起同一数据集合在异构数据库系统中存在多个副本,因此需要引入新的访问控制机制。在保证各个参与数据库自治,维护其完整性、安全性的基础上,对于异构数据库系统提供全局的访问控制、并发机制和安全控制。
如果数据库转换只进行数据定义转换,不产生数据的副本,那么在新的目的数据库定义模型的框架下访问数据,实现上仍是对源数据库系统中数据的访问。这时利用新的数据库系统中的数据处理语言实现的事务,不能直接访问源数据库,必须进行事务级的翻译才可以执行。
实施例7
一种基于数据整合的政府财政数据采集方法,所述方法执行以下步骤:
步骤1:数据表格生成单元,根据选取的数据字段生成对应的数据采集表格;
步骤2:数据采集单元,按照生成的数据采集表格对应的格式,从数据源数据库获取数据,得到相应格式的源数据;
步骤3:数据表格读取单元,读取源数据,校验源数据,然后将源数据并导入存储数据库。
具体的,数据在传输的过程中,会受到各种干扰的影响,如脉冲干扰,随机噪声干扰和人为干扰等,这会使数据产生差错。为了能够控制传输过程的差错,通信系统必须采用有效措施来控制差错的产生。
常用的差错控制方法让每个传输的数据单元带有足以使接收端发现差错的冗余信息,这种方法不能纠正错误,但可以发现数据错误,这种方法容易实现,检错速度快,可以通过重传使错误纠正,所以是非常常用的检错方案。
在种方案中常用的校验方法有奇偶校验、CRC(循环冗余校验)和校验和。
实施例8
在上一实施例的基础上,所述数据采集单元在按照生成的数据采集表格对应的格式,从数据源数据库获取数据时,若获取的数据源数据库为多个不同的数据库时,还需要对从不同的数据库获取的数据进行数据整合;所述数据整合的方法包括:步骤S1:对来源于不同数据库的异构数据进行异构数据成分分析;步骤S2:根据异构数据成分分析的结果,对异构数据进行数据整合。
实施例9
在上一实施例的基础上,所述数据表格生成单元包括:目标数据选择单元,用于选择需要采集的数据字段;采集表格生成单元,用于根据选择的数据字段生成对应的数据采集表格;校验字段生成单元,用于在生成的数据采集表格的基础上生成校验字段。
实施例10
在上一实施例的基础上,所述数据表格读取单元包括:数据校验单元,用于对数据采集单元按照数据采集表格获取的相应格式的源数据进行校验;数据类型规整单元,用于根据校验字段记录的数据类型规整源数据的数据类型;数据录入单员用于将源数据导入存储数据库;校验结果输出单元,用于输出数据校验信息,统计未通过数据校验的数据,以及对应的错误信息。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的系统,仅以上述各功能单元的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能单元来完成,即将本发明实施例中的单元或者步骤再分解或者组合,例如,上述实施例的单元可以合并为一个单元,也可以进一步拆分成多个子单元,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的单元、步骤的名称,仅仅是为了区分各个单元或者步骤,不视为对本发明的不当限定。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的单元、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件单元、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

Claims (6)

1.基于数据整合的政府财政数据采集系统,其特征在于,
所述系统包括:数据源数据库、存储数据库、数据表格生成单元和数据表格读取单元和数据采集单元;
所述数据表格生成单元,用于根据选取的数据字段生成对应的数据采集表格;
所述数据采集单元,用于按照生成的数据采集表格对应的格式,从数据源数据库获取数据,得到相应格式的源数据;
所述数据表格读取单元,用于读取源数据,校验源数据,然后将源数据并导入存储数据库;
所述数据采集单元在按照生成的数据采集表格对应的格式,从数据源数据库获取数据时,若获取的数据源数据库为多个不同的数据库时,还需要对从不同的数据库获取的数据进行数据整合;
所述数据整合的方法包括:
步骤S1:对来源于不同数据库的异构数据进行异构数据成分分析;
步骤S2:根据异构数据成分分析的结果,对异构数据进行数据整合;
所述步骤S1中:进行异构数据成分分析的方法包括:
分析来自于不同数据源的异构数据的主成分,根据主成分,得出异构数据之间的异构程度值,将异构程度值低于设定的阈值的异构数据归为同构数据,完成异构数据的初步整合;
具体包括:以下步骤:使用如下公式,利用自相关算法计算不同数据源的异构数据之间的相似系数:
其中,xi和x为不同两个不同数据源的异构数据的主成分,n为计算次数,B为调整系数,取值范围为:15~20;
所述步骤S2基于步骤S1中得出的异构数据成分分析结果,完成异构数据整合的方法执行以下步骤:
基于异构数据成分分析结果;对异构数据进行归一化处理得到分类目标异构数据矩阵;使用如下公式,将分类目标异构数据矩阵分别与每一个数据库的数据特征群进行映射匹配:
其中,sim(dj,dk)为映射匹配结果,为产品目标异构数据矩阵,wji为矩阵行值,|dj|为对应的矩阵行列式的值;为定向特征空间群,wki为矩阵行值,|dk|为对应的矩阵行列式的值;根据最终映射匹配的结果,将匹配映射结果sim(dj,dk)最小的值对应的数据特征群作为对应数据的整合结果。
2.如权利要求1所述的系统,其特征在于,所述数据表格生成单元包括:
目标数据选择单元,用于选择需要采集的数据字段;
采集表格生成单元,用于根据选择的数据字段生成对应的数据采集表格;
校验字段生成单元,用于在生成的数据采集表格的基础上生成校验字段。
3.如权利要求2所述的系统,其特征在于,所述数据表格读取单元包括:
数据校验单元,用于对数据采集单元按照数据采集表格获取的相应格式的源数据进行校验;
数据类型规整单元,用于根据校验字段记录的数据类型规整源数据的数据类型;
数据录入单元用于将源数据导入存储数据库;校验结果输出单元,用于输出数据校验信息,统计未通过数据校验的数据,以及对应的错误信息。
4.一种基于数据整合的政府财政数据采集方法,其特征在于,所述方法执行以下步骤:
步骤1:数据表格生成单元,根据选取的数据字段生成对应的数据采集表格;
步骤2:数据采集单元,按照生成的数据采集表格对应的格式,从数据源数据库获取数据,得到相应格式的源数据;
步骤3:数据表格读取单元,读取源数据,校验源数据,然后将源数据并导入存储数据库;
所述数据采集单元在按照生成的数据采集表格对应的格式,从数据源数据库获取数据时,若获取的数据源数据库为多个不同的数据库时,还需要对从不同的数据库获取的数据进行数据整合;
所述数据整合的方法包括:
步骤S1:对来源于不同数据库的异构数据进行异构数据成分分析;
步骤S2:根据异构数据成分分析的结果,对异构数据进行数据整合;
所述步骤S1中:进行异构数据成分分析的方法包括:
分析来自于不同数据源的异构数据的主成分,根据主成分,得出异构数据之间的异构程度值,将异构程度值低于设定的阈值的异构数据归为同构数据,完成异构数据的初步整合;
具体包括:以下步骤:使用如下公式,利用自相关算法计算不同数据源的异构数据之间的相似系数:
其中,xi和x为不同两个不同数据源的异构数据的主成分,n为计算次数,B为调整系数,取值范围为:15~20;
所述步骤S2基于步骤S1中得出的异构数据成分分析结果,完成异构数据整合的方法执行以下步骤:
基于异构数据成分分析结果;对异构数据进行归一化处理得到分类目标异构数据矩阵;使用如下公式,将分类目标异构数据矩阵分别与每一个数据库的数据特征群进行映射匹配:
其中,sim(dj,dk)为映射匹配结果,为产品目标异构数据矩阵,wji为矩阵行值,|dj|为对应的矩阵行列式的值;为定向特征空间群,wki为矩阵行值,|dk|为对应的矩阵行列式的值;根据最终映射匹配的结果,将匹配映射结果sim(dj,dk)最小的值对应的数据特征群作为对应数据的整合结果。
5.如权利要求4所述的方法,其特征在于,所述数据表格生成单元包括:
目标数据选择单元,用于选择需要采集的数据字段;
采集表格生成单元,用于根据选择的数据字段生成对应的数据采集表格;
校验字段生成单元,用于在生成的数据采集表格的基础上生成校验字段。
6.如权利要求4所述的方法,其特征在于,所述数据表格读取单元包括:
数据校验单元,用于对数据采集单元按照数据采集表格获取的相应格式的源数据进行校验;
数据类型规整单元,用于根据校验字段记录的数据类型规整源数据的数据类型;
数据录入单元用于将源数据导入存储数据库;
校验结果输出单元,用于输出数据校验信息,统计未通过数据校验的数据,以及对应的错误信息。
CN202010365658.8A 2020-04-30 2020-04-30 基于数据整合的政府财政数据采集系统及数据采集方法 Active CN111680082B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010365658.8A CN111680082B (zh) 2020-04-30 2020-04-30 基于数据整合的政府财政数据采集系统及数据采集方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010365658.8A CN111680082B (zh) 2020-04-30 2020-04-30 基于数据整合的政府财政数据采集系统及数据采集方法

Publications (2)

Publication Number Publication Date
CN111680082A CN111680082A (zh) 2020-09-18
CN111680082B true CN111680082B (zh) 2023-08-18

Family

ID=72452601

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010365658.8A Active CN111680082B (zh) 2020-04-30 2020-04-30 基于数据整合的政府财政数据采集系统及数据采集方法

Country Status (1)

Country Link
CN (1) CN111680082B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112667872B (zh) * 2020-11-17 2023-04-07 国家计算机网络与信息安全管理中心 新冠肺炎疫情数据的实时采集方法
CN112711626A (zh) * 2020-12-29 2021-04-27 长威信息科技发展股份有限公司 一种多源异构数据统一汇聚方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013076736A2 (en) * 2011-10-12 2013-05-30 Tata Consultancy Services Limited A method and system for consolidating a plurality of heterogeneous storage systems in a data center
CN105956015A (zh) * 2016-04-22 2016-09-21 四川中软科技有限公司 一种基于大数据的服务平台整合方法
CN107526786A (zh) * 2017-08-01 2017-12-29 江苏速度信息科技股份有限公司 基于多源数据的地名地址数据整合的方法和系统
CN109582722A (zh) * 2018-11-30 2019-04-05 珠海市新德汇信息技术有限公司 公安资源数据服务系统
CN109766378A (zh) * 2018-12-26 2019-05-17 吕杨 一种多源异构水利水文数据共享系统
WO2019150287A1 (en) * 2018-01-30 2019-08-08 Encapsa Technology Llc Method and system for encapsulating and storing information from multiple disparate data sources
WO2020008180A1 (en) * 2018-07-02 2020-01-09 Data Value Factory Limited Method and system for integrating data sets

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10296632B2 (en) * 2015-06-19 2019-05-21 Sap Se Synchronization on reactivation of asynchronous table replication

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013076736A2 (en) * 2011-10-12 2013-05-30 Tata Consultancy Services Limited A method and system for consolidating a plurality of heterogeneous storage systems in a data center
CN105956015A (zh) * 2016-04-22 2016-09-21 四川中软科技有限公司 一种基于大数据的服务平台整合方法
CN107526786A (zh) * 2017-08-01 2017-12-29 江苏速度信息科技股份有限公司 基于多源数据的地名地址数据整合的方法和系统
WO2019150287A1 (en) * 2018-01-30 2019-08-08 Encapsa Technology Llc Method and system for encapsulating and storing information from multiple disparate data sources
WO2020008180A1 (en) * 2018-07-02 2020-01-09 Data Value Factory Limited Method and system for integrating data sets
CN109582722A (zh) * 2018-11-30 2019-04-05 珠海市新德汇信息技术有限公司 公安资源数据服务系统
CN109766378A (zh) * 2018-12-26 2019-05-17 吕杨 一种多源异构水利水文数据共享系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Research on multi-source heterogeneous data collection for the Smart City public information platform;Shufu Liu 等;《2016 IEEE International Geoscience and Remote Sensing Symposium》;第623-626页 *

Also Published As

Publication number Publication date
CN111680082A (zh) 2020-09-18

Similar Documents

Publication Publication Date Title
Berndt et al. Healthcare data warehousing and quality assurance
CN109446341A (zh) 知识图谱的构建方法及装置
CN111324602A (zh) 一种实现面向金融大数据分析可视化方法
US20210366055A1 (en) Systems and methods for generating accurate transaction data and manipulation
US20120136896A1 (en) System and method for imputing missing values and computer program product thereof
CN111680082B (zh) 基于数据整合的政府财政数据采集系统及数据采集方法
CN111680083B (zh) 智能化多级政府财政数据采集系统及数据采集方法
CN111814432A (zh) 确定疾病的标准诊断编码的方法和装置
CN114281950B (zh) 基于多图加权融合的数据检索方法与系统
US8650180B2 (en) Efficient optimization over uncertain data
CN117892820A (zh) 一种基于大语言模型的多级数据建模方法及系统
CN117236300A (zh) 一种基于pdf的crf采集表的自动生成方法、装置及设备
CN109144999B (zh) 一种数据定位方法、装置及存储介质、程序产品
CN114416686B (zh) 一种车辆设备指纹carid识别系统及识别方法
CN115237859A (zh) 需求文档质量检测方法、装置、设备及存储介质
CN113849618A (zh) 基于知识图谱的策略确定方法、装置、电子设备及介质
CN111062751A (zh) 一种基于药品自动关联耗材的计费系统及方法
CN116484230B (zh) 识别异常业务数据的方法及ai数字人的训练方法
CN117539920B (zh) 基于房产交易多维度数据的数据查询方法及系统
CN116662326B (zh) 多能源品种数据清洗采集方法
CN114327377B (zh) 需求跟踪矩阵生成方法、装置、计算机设备及存储介质
WO2024174135A1 (zh) 确定日志片的异常模式的方法、装置、设备及存储介质
CN117472737A (zh) 面向增量代码的质量检测方法及其系统
CN117708611A (zh) 一种数据处理方法、装置、电子设备及存储介质
Juneblad A Comparative Analysis of Metadata Tools for use on Unknown Operational Datasets

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant