CN111680083B - 智能化多级政府财政数据采集系统及数据采集方法 - Google Patents
智能化多级政府财政数据采集系统及数据采集方法 Download PDFInfo
- Publication number
- CN111680083B CN111680083B CN202010365682.1A CN202010365682A CN111680083B CN 111680083 B CN111680083 B CN 111680083B CN 202010365682 A CN202010365682 A CN 202010365682A CN 111680083 B CN111680083 B CN 111680083B
- Authority
- CN
- China
- Prior art keywords
- data
- data acquisition
- unit
- heterogeneous
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 71
- 230000010354 integration Effects 0.000 claims description 28
- 238000013524 data verification Methods 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 20
- 238000004458 analytical method Methods 0.000 claims description 18
- 230000001105 regulatory effect Effects 0.000 claims description 12
- 238000013480 data collection Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000012795 verification Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 8
- 238000006243 chemical reaction Methods 0.000 description 7
- 238000013523 data management Methods 0.000 description 5
- 238000013479 data entry Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 108010001267 Protein Subunits Proteins 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/252—Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Tourism & Hospitality (AREA)
- Educational Administration (AREA)
- Development Economics (AREA)
- Quality & Reliability (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于数据处理技术领域,具体涉及智能化多级政府财政数据采集系统及数据采集方法。所述系统包括:主干网和若干个分属不同行政级别的区域网;每一个区域网均分别对应一级行政单位;所述区域网为区块链网络;所述区域网均与主干网信号连接;所述区域网内的每一个同级的行政单位均分设有一个网络节点;所述网络节点均包括:存储服务器、数据采集单元、数据表格生成单元和数据表格读取单元;所述数据表格生成单元,根据选取的数据字段生成对应的数据采集表格。其能够完成不同行政级别,不同数据源的数据采集,并自动进行校验和录入,具有自动化程度高、数据采集效率高和适用性广的优点。
Description
技术领域
本发明属于数据处理技术领域,具体涉及智能化多级政府财政数据采集系统及数据采集方法。
背景技术
数据整合是共享或者合并来自于两个或者更多应用的数据,创建一个具有更多功能的企业应用的过程。传统的商业应用有很强的面向对象性——即他们依靠持续的数据结构为商业实体和过程建模。当这种情况发生时,逻辑方式是通过数据共享或合并进行整合,而其他情况下,来自于一个应用的数据可能是重新构造才能和另一个应用的数据结构匹配,然后被直接写进另一个数据库。
数据采集,又称数据获取,是利用一种装置,从系统外部采集数据并输入到系统内部的一个接口。数据采集技术广泛应用在各个领域。比如摄像头,麦克风,都是数据采集工具。
被采集数据是已被转换为电讯号的各种物理量,如温度、水位、风速、压力等,可以是模拟量,也可以是数字量。采集一般是采样方式,即隔一定时间(称采样周期)对同一点数据重复采集。采集的数据大多是瞬时值,也可是某段时间内的一个特征值。准确的数据测量是数据采集的基础。数据量测方法有接触式和非接触式,检测元件多种多样。不论哪种方法和元件,均以不影响被测对象状态和测量环境为前提,以保证数据的正确性。数据采集含义很广,包括对面状连续物理量的采集。在计算机辅助制图、测图、设计中,对图形或图像数字化过程也可称为数据采集,此时被采集的是几何量(或包括物理量,如灰度)数据。
在互联网行业快速发展的今天,数据采集已经被广泛应用于互联网及分布式领域,数据采集领域已经发生了重要的变化。首先,分布式控制应用场合中的智能数据采集系统在国内外已经取得了长足的发展。其次,总线兼容型数据采集插件的数量不断增大,与个人计算机兼容的数据采集系统的数量也在增加。国内外各种数据采集机先后问世,将数据采集带入了一个全新的时代。
现有政府财政系统包括多个子系统,例如管理预算的预算系统、管理财政支出的出纳系统等多个系统,每个系统搭建在不同的服务器上,数据独立,需要做核算或者其他数据统计工作时,需要从涉及到的系统上导出数据表格,数据共通性低,增大数据统计难度,因此建立政府财政数据管理系统,政府财政数据管理系统能够自动进入多个子系统获取相应数据,并对数据进行整合,使得数据具有共通性,便于数据统计,然而,部分地区没有配置在线的系统,政府财政数据管理系统不能够自动登录获取数据,根据现有技术,通常人工制作相应的数据采集表格,发送给相关部门进行填写,相关部分返回表格后将数据导入数据管理系统,然而,由于表格填写的数据不规整,例如对于金额,会填写阿拉伯数字、大写数字等数据格式,因此数据导入过程会出现错误,需要人工介入,降低数据采集效率。同时,不同数据库和数据源的数据在采集过程中,因为数据库格式不同或者数据的级别导致采集过程异常困难。
发明内容
有鉴于此,本发明的主要目的在于提供智能化多级政府财政数据采集系统及数据采集方法,其能够完成不同行政级别,不同数据源的数据采集,并自动进行校验和录入,具有自动化程度高、数据采集效率高和适用性广的优点。
为达到上述目的,本发明的技术方案是这样实现的:
智能化多级政府财政数据采集系统,所述系统包括:主干网和若干个分属不同行政级别的区域网;每一个区域网均分别对应一级行政单位;所述区域网为区块链网络;所述区域网均与主干网信号连接;所述区域网内的每一个同级的行政单位均分设有一个网络节点;所述网络节点均包括:存储服务器、数据采集单元、数据表格生成单元和数据表格读取单元;所述数据表格生成单元,根据选取的数据字段生成对应的数据采集表格;所述数据字段具备多个类型,包括:向区域网内同级别其他行政单位请求数据的同级数据字段,以及通过主干网向其他不同级别行政单位请求数据的多级数据字段;所述数据采集单元,用于按照生成的数据采集表格对应的格式,从目标的存储服务器库获取数据,得到相应格式的源数据;具体过程为:数据采集单元按照生成的数据采集表格对应的格式,首先向区域网内的其他网络节点请求数据,其他网络节点的存储服务器接收到该请求后,首先识别数据采集表格中的字段,将同级字段对应的数据填写入数据采集表格中,发送至数据采集单元;然后,数据采集单元将数据采集表格通过主干网数据采集请求至其他各级行政单位对应的区域网中,该区域网的目标网络节点接收到该请求后,识别数据采集表格中与其行政级别对应的字段,将对应的数据填写入数据采集表格中,经主干网返回至数据采集单元;数据表格读取单元,用于读取采集到的数据,校验采集到的数据,然后将采集到的数据导入存储服务器中。
进一步的,所述数据采集单元在按照生成的数据采集表格对应的格式,从数据源数据库获取数据时,若获取的数据源数据库为多个不同的数据库时,还需要对从不同的数据库获取的数据进行数据整合;所述数据整合的方法包括:步骤S1:对来源于不同数据库的异构数据进行异构数据成分分析;步骤S2:根据异构数据成分分析的结果,对异构数据进行数据整合。
进一步的,所述数据表格生成单元包括:目标数据选择单元,用于选择需要采集的数据字段;采集表格生成单元,用于根据选择的数据字段生成对应的数据采集表格;校验字段生成单元,用于在生成的数据采集表格的基础上生成校验字段。
进一步的,所述数据表格读取单元包括:数据校验单元,用于对数据采集单元按照数据采集表格获取的相应格式的数据进行校验;数据类型规整单元,用于根据校验字段记录的数据类型规整采集到的数据的数据类型;数据录入单员用于将源数据导入存储数据库;校验结果输出单元,用于输出数据校验信息,统计未通过数据校验的数据,以及对应的错误信息。
进一步的,所述步骤S1中:进行异构数据成分分析的方法包括:分析来自于不同数据源的异构数据的主成分,根据主成分,得出异构数据之间的异构程度值,将异构程度值低于设定的阈值的异构数据归为同构数据,完成异构数据的初步整合;具体包括:以下步骤:使用如下公式,利用自相关算法计算不同数据源的异构数据之间的的相似系数:
一种智能化多级政府财政数据采集方法,所述方法执行以下步骤:数据表格生成单元,根据选取的数据字段生成对应的数据采集表格;所述数据字段具备多个类型,包括:向区域网内同级别其他行政单位请求数据的同级数据字段,以及通过主干网向其他不同级别行政单位请求数据的多级数据字段;数据采集单元,按照生成的数据采集表格对应的格式,从目标的存储服务器库获取数据,得到相应格式的源数据;具体过程为:数据采集单元按照生成的数据采集表格对应的格式,首先向区域网内的其他网络节点请求数据,其他网络节点的存储服务器接收到该请求后,首先识别数据采集表格中的字段,将同级字段对应的数据填写入数据采集表格中,发送至数据采集单元;然后,数据采集单元将数据采集表格通过主干网数据采集请求至其他各级行政单位对应的区域网中,该区域网的目标网络节点接收到该请求后,识别数据采集表格中与其行政级别对应的字段,将对应的数据填写入数据采集表格中,经主干网返回至数据采集单元;数据表格读取单元,读取采集到的数据,校验采集到的数据,然后将采集到的数据导入存储服务器中。
进一步的,所述数据采集单元在按照生成的数据采集表格对应的格式,从数据源数据库获取数据时,若获取的数据源数据库为多个不同的数据库时,还需要对从不同的数据库获取的数据进行数据整合;所述数据整合的方法包括:步骤S1:对来源于不同数据库的异构数据进行异构数据成分分析;步骤S2:根据异构数据成分分析的结果,对异构数据进行数据整合。
进一步的,所述数据表格生成单元包括:目标数据选择单元,用于选择需要采集的数据字段;采集表格生成单元,用于根据选择的数据字段生成对应的数据采集表格;校验字段生成单元,用于在生成的数据采集表格的基础上生成校验字段。
进一步的,所述数据表格读取单元包括:数据校验单元,用于对数据采集单元按照数据采集表格获取的相应格式的数据进行校验;数据类型规整单元,用于根据校验字段记录的数据类型规整采集到的数据的数据类型;数据录入单员用于将源数据导入存储数据库;校验结果输出单元,用于输出数据校验信息,统计未通过数据校验的数据,以及对应的错误信息。
进一步的,所述步骤S1中:进行异构数据成分分析的方法包括:分析来自于不同数据源的异构数据的主成分,根据主成分,得出异构数据之间的异构程度值,将异构程度值低于设定的阈值的异构数据归为同构数据,完成异构数据的初步整合;具体包括:以下步骤:使用如下公式,利用自相关算法计算不同数据源的异构数据之间的的相似系数:
本发明的智能化多级政府财政数据采集系统及数据采集方法,具有如下有益效果:
1.适用性广:本发明的数据采集系统及数据采集方法除了能够针对同级数据库进行数据采集以外,还可以实现对不同行政级别的政府单位的数据库进行数据采集。适用性非常广。
2.智能化程度高:本发明在进行数据采集和整合时,按照需求自动生成想采集的数据的数据采集表格。且根据想采集的数据的级别,设置不同级别对应的字段。这样直接发送该数据采集表格,自动获取数据的过程中,不会出现数据采集的错漏。
3.数据采集效率高:本发明在进行数据采集时,对不同数据源的数据进行异构数据整合,而不会因为数据结构的不同,对采集到的数据再次进行二次加工。提升了数据采集的效率。
4.安全性高:本发明通过对不同级别的行政单位设置不同的区域网络,再通过主干网络连通区域网络,各个区域网络之间彼此独立。区域网络中为区块链网络,在保证区域内网络的沟通效率的情况下,又保证了安全性。
附图说明
图1为本发明实施例提供的智能化多级政府财政数据采集系统的系统结构示意图;
图2为本发明实施例提供的智能化多级政府财政数据采集方法的区域网中的各个网络节点的结构示意图;
图3为本发明实施例提供的基于数据整合的政府财政数据采集系统及采集方法的采集数据误差占比的实验效果示意图与现有技术的对比实验效果示意图;
图4为本发明实施例提供的智能化多级政府财政数据采集系统级方法的采集数据量与采集时间的实验曲线示意图与现有技术的对比实验曲线示意图。
1-现有技术实验效果示意图,2-本发明实验效果示意图。
具体实施方式
下面结合附图及本发明的实施例对本发明的方法作进一步详细的说明。
实施例1
如图1、图3和图4所示,智能化多级政府财政数据采集系统,所述系统包括:主干网和若干个分属不同行政级别的区域网;每一个区域网均分别对应一级行政单位;所述区域网为区块链网络;所述区域网均与主干网信号连接;所述区域网内的每一个同级的行政单位均分设有一个网络节点;所述网络节点均包括:存储服务器、数据采集单元、数据表格生成单元和数据表格读取单元;所述数据表格生成单元,根据选取的数据字段生成对应的数据采集表格;所述数据字段具备多个类型,包括:向区域网内同级别其他行政单位请求数据的同级数据字段,以及通过主干网向其他不同级别行政单位请求数据的多级数据字段;所述数据采集单元,用于按照生成的数据采集表格对应的格式,从目标的存储服务器库获取数据,得到相应格式的源数据;具体过程为:数据采集单元按照生成的数据采集表格对应的格式,首先向区域网内的其他网络节点请求数据,其他网络节点的存储服务器接收到该请求后,首先识别数据采集表格中的字段,将同级字段对应的数据填写入数据采集表格中,发送至数据采集单元;然后,数据采集单元将数据采集表格通过主干网数据采集请求至其他各级行政单位对应的区域网中,该区域网的目标网络节点接收到该请求后,识别数据采集表格中与其行政级别对应的字段,将对应的数据填写入数据采集表格中,经主干网返回至数据采集单元;数据表格读取单元,用于读取采集到的数据,校验采集到的数据,然后将采集到的数据导入存储服务器中。
具体的,本发明具有如下优点:适用性广:本发明的数据采集系统及数据采集方法除了能够针对同级数据库进行数据采集以外,还可以实现对不同行政级别的政府单位的数据库进行数据采集。适用性非常广。智能化程度高:本发明在进行数据采集和整合时,按照需求自动生成想采集的数据的数据采集表格。且根据想采集的数据的级别,设置不同级别对应的字段。这样直接发送该数据采集表格,自动获取数据的过程中,不会出现数据采集的错漏。数据采集效率高:本发明在进行数据采集时,对不同数据源的数据进行异构数据整合,而不会因为数据结构的不同,对采集到的数据再次进行二次加工。提升了数据采集的效率。安全性高:本发明通过对不同级别的行政单位设置不同的区域网络,再通过主干网络连通区域网络,各个区域网络之间彼此独立。区域网络中为区块链网络,在保证区域内网络的沟通效率的情况下,又保证了安全性
实施例2
在上一实施例的基础上,所述数据采集单元在按照生成的数据采集表格对应的格式,从数据源数据库获取数据时,若获取的数据源数据库为多个不同的数据库时,还需要对从不同的数据库获取的数据进行数据整合;所述数据整合的方法包括:步骤S1:对来源于不同数据库的异构数据进行异构数据成分分析;步骤S2:根据异构数据成分分析的结果,对异构数据进行数据整合。
具体的,能够从多个不同数据库中采集数据,即便各个数据库中存储的数据格式不一致,也能将异构数据进行整合,无需人工进行介入,提升了数据采集的效率。同时本发明适用于部分地区没有配置在线的系统的情况,现有技术中,通常人工制作相应的数据采集表格,发送给相关部门进行填写,相关部分返回表格后将数据导入数据管理系统,然而,由于表格填写的数据不规整,例如对于金额,会填写阿拉伯数字、大写数字等数据格式,因此数据导入过程会出现错误,需要人工介入,降低数据采集效率。而本发明通过按照设定自动生成数据采集表格,然后进行数据采集后进行数据校验,提升了数据采集的安全性
实施例3
在上一实施例的基础上,所述数据表格生成单元包括:目标数据选择单元,用于选择需要采集的数据字段;采集表格生成单元,用于根据选择的数据字段生成对应的数据采集表格;校验字段生成单元,用于在生成的数据采集表格的基础上生成校验字段。
具体的,所述数据校验单元包括:表格结构校验单元、数据有效性校验单元和目标字段校验单元;所述表格结构性校验单元用于根据每个字段的校验字段以及表格结构校验字段校验表格结构完整性;所述数据有效性校验单元用于校验数据有效性,例如某字段设置有数据有效性规则为数据在10~200之间,字段数据在有效性范围之外则不能通过数据有效性校验;所述目标字段校验单元用于校验目标字段是为已知字段,目标字段为填写的目标,例如某某项目组,如果目标字段在财政数据资源库中没有记录则可能填错或者有错别字,则不能通过校验
实施例4
在上一实施例的基础上,所述数据表格读取单元包括:数据校验单元,用于对数据采集单元按照数据采集表格获取的相应格式的数据进行校验;数据类型规整单元,用于根据校验字段记录的数据类型规整采集到的数据的数据类型;数据录入单员用于将源数据导入存储数据库;校验结果输出单元,用于输出数据校验信息,统计未通过数据校验的数据,以及对应的错误信息。
实施例5
在上一实施例的基础上,所述步骤S1中:进行异构数据成分分析的方法包括:分析来自于不同数据源的异构数据的主成分,根据主成分,得出异构数据之间的异构程度值,将异构程度值低于设定的阈值的异构数据归为同构数据,完成异构数据的初步整合;具体包括:以下步骤:使用如下公式,利用自相关算法计算不同数据源的异构数据之间的的相似系数: 其中,xi和x为不同两个不同数据源的异构数据的主成分,n为计算次数,B为调整系数,取值范围为:10~15。
实施例6
如图2所示,一种智能化多级政府财政数据采集方法,所述方法执行以下步骤:数据表格生成单元,根据选取的数据字段生成对应的数据采集表格;所述数据字段具备多个类型,包括:向区域网内同级别其他行政单位请求数据的同级数据字段,以及通过主干网向其他不同级别行政单位请求数据的多级数据字段;数据采集单元,按照生成的数据采集表格对应的格式,从目标的存储服务器库获取数据,得到相应格式的源数据;具体过程为:数据采集单元按照生成的数据采集表格对应的格式,首先向区域网内的其他网络节点请求数据,其他网络节点的存储服务器接收到该请求后,首先识别数据采集表格中的字段,将同级字段对应的数据填写入数据采集表格中,发送至数据采集单元;然后,数据采集单元将数据采集表格通过主干网数据采集请求至其他各级行政单位对应的区域网中,该区域网的目标网络节点接收到该请求后,识别数据采集表格中与其行政级别对应的字段,将对应的数据填写入数据采集表格中,经主干网返回至数据采集单元;数据表格读取单元,读取采集到的数据,校验采集到的数据,然后将采集到的数据导入存储服务器中。
实施例7
在上一实施例的基础上,所述数据采集单元在按照生成的数据采集表格对应的格式,从数据源数据库获取数据时,若获取的数据源数据库为多个不同的数据库时,还需要对从不同的数据库获取的数据进行数据整合;所述数据整合的方法包括:步骤S1:对来源于不同数据库的异构数据进行异构数据成分分析;步骤S2:根据异构数据成分分析的结果,对异构数据进行数据整合。
具体的,异构数据库系统是相关的多个数据库系统的集合,可以实现数据的共享和透明访问,几个数据库系统在加入异构数据库系统之前本身就已经存在,拥有自己的数据库管理系统、外构数据库的各个组成部分具有自身的自治性,实现数据共享的同时,每个数据库系统仍有自己的应用特性、完整性控制和安全性控制。
如果两种数据库系统之间的数据定义模型不同,如分别为关系模型和层次模型,那么需要重新定义实体属性和联系,以防止属性或联系信息的丢失。
总之,在进行数据转换后,一方面源数据库模式中所有需要共享的信息都转换到目的数据库中,另一方面这种转换又不能包含冗余的关联信息。
数据库转换工具可以实现不同数据库系统之间的数据模型转换,需要进一步研究的问题是:如果数据库转换同时进行数据定义模式转换和数据转换,就可能引起同一数据集合在异构数据库系统中存在多个副本,因此需要引入新的访问控制机制。在保证各个参与数据库自治,维护其完整性、安全性的基础上,对于异构数据库系统提供全局的访问控制、并发机制和安全控制。
如果数据库转换只进行数据定义转换,不产生数据的副本,那么在新的目的数据库定义模型的框架下访问数据,实现上仍是对源数据库系统中数据的访问。这时利用新的数据库系统中的数据处理语言实现的事务,不能直接访问源数据库,必须进行事务级的翻译才可以执行。
实施例8
在上一实施例的基础上,所述数据表格生成单元包括:目标数据选择单元,用于选择需要采集的数据字段;采集表格生成单元,用于根据选择的数据字段生成对应的数据采集表格;校验字段生成单元,用于在生成的数据采集表格的基础上生成校验字段。
实施例9
在上一实施例的基础上,所述数据表格读取单元包括:数据校验单元,用于对数据采集单元按照数据采集表格获取的相应格式的数据进行校验;数据类型规整单元,用于根据校验字段记录的数据类型规整采集到的数据的数据类型;数据录入单员用于将源数据导入存储数据库;校验结果输出单元,用于输出数据校验信息,统计未通过数据校验的数据,以及对应的错误信息。
实施例10
在上一实施例的基础上,所述步骤S1中:进行异构数据成分分析的方法包括:分析来自于不同数据源的异构数据的主成分,根据主成分,得出异构数据之间的异构程度值,将异构程度值低于设定的阈值的异构数据归为同构数据,完成异构数据的初步整合;具体包括:以下步骤:使用如下公式,利用自相关算法计算不同数据源的异构数据之间的的相似系数: 其中,xi和x为不同两个不同数据源的异构数据的主成分,n为计算次数,B为调整系数,取值范围为:10~15。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的系统,仅以上述各功能单元的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能单元来完成,即将本发明实施例中的单元或者步骤再分解或者组合,例如,上述实施例的单元可以合并为一个单元,也可以进一步拆分成多个子单元,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的单元、步骤的名称,仅仅是为了区分各个单元或者步骤,不视为对本发明的不当限定。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的单元、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件单元、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。
Claims (6)
1.智能化多级政府财政数据采集系统,其特征在于,所述系统包括:主干网和若干个分属不同行政级别的区域网;每一个区域网均分别对应一级行政单位;所述区域网为区块链网络;所述区域网均与主干网信号连接;所述区域网内的每一个同级的行政单位均分设有一个网络节点;所述网络节点均包括:存储服务器、数据采集单元、数据表格生成单元和数据表格读取单元;所述数据表格生成单元,根据选取的数据字段生成对应的数据采集表格;所述数据字段具备多个类型,包括:向区域网内同级别其他行政单位请求数据的同级数据字段,以及通过主干网向其他不同级别行政单位请求数据的多级数据字段;所述数据采集单元,用于按照生成的数据采集表格对应的格式,从目标的存储服务器库获取数据,得到相应格式的源数据;具体过程为:数据采集单元按照生成的数据采集表格对应的格式,首先向区域网内的其他网络节点请求数据,其他网络节点的存储服务器接收到该请求后,首先识别数据采集表格中的字段,将同级字段对应的数据填写入数据采集表格中,发送至数据采集单元;然后,数据采集单元将数据采集表格通过主干网数据采集请求至其他各级行政单位对应的区域网中,该区域网的目标网络节点接收到该请求后,识别数据采集表格中与其行政级别对应的字段,将对应的数据填写入数据采集表格中,经主干网返回至数据采集单元;数据表格读取单元,用于读取采集到的数据,校验采集到的数据,然后将采集到的数据导入存储服务器中;
所述数据采集单元在按照生成的数据采集表格对应的格式,从数据源数据库获取数据时,若获取的数据源数据库为多个不同的数据库时,还需要对从不同的数据库获取的数据进行数据整合;所述数据整合的方法包括:步骤S1:对来源于不同数据库的异构数据进行异构数据成分分析;步骤S2:根据异构数据成分分析的结果,对异构数据进行数据整合;
2.如权利要求1所述的系统,其特征在于,所述数据表格生成单元包括:目标数据选择单元,用于选择需要采集的数据字段;采集表格生成单元,用于根据选择的数据字段生成对应的数据采集表格;校验字段生成单元,用于在生成的数据采集表格的基础上生成校验字段。
3.如权利要求2所述的系统,其特征在于,所述数据表格读取单元包括:数据校验单元,用于对数据采集单元按照数据采集表格获取的相应格式的数据进行校验;数据类型规整单元,用于根据校验字段记录的数据类型规整采集到的数据的数据类型;数据录入单元用于将源数据导入存储数据库;校验结果输出单元,用于输出数据校验信息,统计未通过数据校验的数据,以及对应的错误信息。
4.一种基于权利要求1至3之一所述系统的智能化多级政府财政数据采集方法,其特征在于,所述方法执行以下步骤:数据表格生成单元,根据选取的数据字段生成对应的数据采集表格;所述数据字段具备多个类型,包括:向区域网内同级别其他行政单位请求数据的同级数据字段,以及通过主干网向其他不同级别行政单位请求数据的多级数据字段;数据采集单元,按照生成的数据采集表格对应的格式,从目标的存储服务器库获取数据,得到相应格式的源数据;具体过程为:数据采集单元按照生成的数据采集表格对应的格式,首先向区域网内的其他网络节点请求数据,其他网络节点的存储服务器接收到该请求后,首先识别数据采集表格中的字段,将同级字段对应的数据填写入数据采集表格中,发送至数据采集单元;然后,数据采集单元将数据采集表格通过主干网数据采集请求至其他各级行政单位对应的区域网中,该区域网的目标网络节点接收到该请求后,识别数据采集表格中与其行政级别对应的字段,将对应的数据填写入数据采集表格中,经主干网返回至数据采集单元;数据表格读取单元,读取采集到的数据,校验采集到的数据,然后将采集到的数据导入存储服务器中;
所述数据采集单元在按照生成的数据采集表格对应的格式,从数据源数据库获取数据时,若获取的数据源数据库为多个不同的数据库时,还需要对从不同的数据库获取的数据进行数据整合;所述数据整合的方法包括:步骤S1:对来源于不同数据库的异构数据进行异构数据成分分析;步骤S2:根据异构数据成分分析的结果,对异构数据进行数据整合;
5.如权利要求4所述的方法,其特征在于,所述数据表格生成单元包括:目标数据选择单元,用于选择需要采集的数据字段;采集表格生成单元,用于根据选择的数据字段生成对应的数据采集表格;校验字段生成单元,用于在生成的数据采集表格的基础上生成校验字段。
6.如权利要求5所述的方法,其特征在于,所述数据表格读取单元包括:数据校验单元,用于对数据采集单元按照数据采集表格获取的相应格式的数据进行校验;数据类型规整单元,用于根据校验字段记录的数据类型规整采集到的数据的数据类型;数据录入单元用于将源数据导入存储数据库;校验结果输出单元,用于输出数据校验信息,统计未通过数据校验的数据,以及对应的错误信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010365682.1A CN111680083B (zh) | 2020-04-30 | 2020-04-30 | 智能化多级政府财政数据采集系统及数据采集方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010365682.1A CN111680083B (zh) | 2020-04-30 | 2020-04-30 | 智能化多级政府财政数据采集系统及数据采集方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111680083A CN111680083A (zh) | 2020-09-18 |
CN111680083B true CN111680083B (zh) | 2023-07-11 |
Family
ID=72451964
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010365682.1A Active CN111680083B (zh) | 2020-04-30 | 2020-04-30 | 智能化多级政府财政数据采集系统及数据采集方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111680083B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113269637B (zh) * | 2020-12-28 | 2024-06-18 | 上海零数众合信息科技有限公司 | 一种基于区块链的智能设备数据的存证与验证方法 |
CN113836202A (zh) * | 2021-09-27 | 2021-12-24 | 安徽省财政信息中心 | 一种数据实时采集系统及采集方法 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105159951A (zh) * | 2015-08-17 | 2015-12-16 | 成都中科大旗软件有限公司 | 一种开放式的旅游多源异构数据融合方法及系统 |
CN106446277A (zh) * | 2016-08-21 | 2017-02-22 | 宁化宽信科技服务有限公司 | 一种大数据存储系统 |
US10311079B1 (en) * | 2017-06-27 | 2019-06-04 | On Full Display, LLC | Database interface system |
CN107730394B (zh) * | 2017-09-07 | 2021-07-06 | 国网山东省电力公司淄博供电公司 | 基于大数据的全景电网多元异构数据融合方法 |
CN110019519A (zh) * | 2017-11-28 | 2019-07-16 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、存储介质和电子装置 |
CN110019474B (zh) * | 2017-12-19 | 2022-03-04 | 北京金山云网络技术有限公司 | 异构数据库中的同义数据自动关联方法、装置及电子设备 |
US10853353B2 (en) * | 2018-08-03 | 2020-12-01 | American Express Travel Related Services Company, Inc. | Blockchain-enabled datasets shared across different database systems |
CN109360136A (zh) * | 2018-09-05 | 2019-02-19 | 中电科大数据研究院有限公司 | 一种政务数据统一融合系统 |
CN110008282A (zh) * | 2019-03-12 | 2019-07-12 | 平安信托有限责任公司 | 交易数据同步对接方法、装置、计算机设备及存储介质 |
CN110990391A (zh) * | 2019-12-04 | 2020-04-10 | 中山市凯能集团有限公司 | 多源异构数据的整合方法、系统、计算机设备及存储介质 |
-
2020
- 2020-04-30 CN CN202010365682.1A patent/CN111680083B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111680083A (zh) | 2020-09-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11615208B2 (en) | Systems and methods for synthetic data generation | |
CN111680083B (zh) | 智能化多级政府财政数据采集系统及数据采集方法 | |
CN111125266B (zh) | 数据处理方法、装置、设备及存储介质 | |
CN111680082B (zh) | 基于数据整合的政府财政数据采集系统及数据采集方法 | |
US8650180B2 (en) | Efficient optimization over uncertain data | |
CN109711849B (zh) | 以太坊地址画像生成方法、装置、电子设备及存储介质 | |
Talha et al. | Towards a powerful solution for data accuracy assessment in the big data context | |
CN115982429B (zh) | 一种基于流程控制的知识管理方法及系统 | |
CN112631889A (zh) | 针对应用系统的画像方法、装置、设备及可读存储介质 | |
CN114281950B (zh) | 基于多图加权融合的数据检索方法与系统 | |
CN112836033B (zh) | 业务模型的管理方法、装置、设备及存储介质 | |
Zhu et al. | A likelihood for correlated extreme series | |
CN114841579A (zh) | 指标数据生成方法、装置、设备及存储介质 | |
CN113849618A (zh) | 基于知识图谱的策略确定方法、装置、电子设备及介质 | |
CN113849702A (zh) | 一种确定目标数据的方法、装置、电子设备及存储介质 | |
Uanhoro | Handling dependent samples in meta-analytic structural equation models: A Wishart-based approach | |
CN117555950B (zh) | 基于数据中台的数据血缘关系构建方法 | |
CN117575172B (zh) | 一种多层级统分结合的一体化社会治理信息化系统 | |
CN117708611A (zh) | 一种数据处理方法、装置、电子设备及存储介质 | |
CN117389994A (zh) | 项目数据库的构建方法、装置、设备及存储介质 | |
CN117312268A (zh) | 基于多源多库的流批一体化主数据治理方法、装置及可读介质 | |
Yusop et al. | Data Quality Issues in Big Data: A Review | |
CN114281814A (zh) | 一种数据查重方法、装置、计算机设备及存储介质 | |
CN118071009A (zh) | 数据预测方法及系统 | |
CN116955337A (zh) | 一种基于流批一体的数据湖构建系统、方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |