CN115827618A - 一种全局数据整合方法及装置 - Google Patents

一种全局数据整合方法及装置 Download PDF

Info

Publication number
CN115827618A
CN115827618A CN202211739066.3A CN202211739066A CN115827618A CN 115827618 A CN115827618 A CN 115827618A CN 202211739066 A CN202211739066 A CN 202211739066A CN 115827618 A CN115827618 A CN 115827618A
Authority
CN
China
Prior art keywords
data
source
data source
rating
subset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211739066.3A
Other languages
English (en)
Inventor
张美跃
周业
陈伏前
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hengruitong Fujian Information Technology Co ltd
Original Assignee
Hengruitong Fujian Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hengruitong Fujian Information Technology Co ltd filed Critical Hengruitong Fujian Information Technology Co ltd
Priority to CN202211739066.3A priority Critical patent/CN115827618A/zh
Publication of CN115827618A publication Critical patent/CN115827618A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供的一种全局数据整合方法及装置,其方法包括:通过爬虫工具爬取各个数据源可共享的原始数据,将其存储至基础信息数据库中;按照预设管控规则对基础信息数据库中的原始数据进行数据过滤和数据清洗后得到可用数据,并对可用数据进行数据转换和数据组合之后,得到已加工数据并进行存储;针对每一个数据源,根据数据源在每一次采集周期时其原始数据和可用数据之间的比例得到数据源的数据评级,并根据数据评级对数据源的采集周期进行实时调整。本发明能兼顾数据采集时的数据质量和采集效率。

Description

一种全局数据整合方法及装置
技术领域
本发明涉及数据处理技术领域,特别涉及一种全局数据整合方法及装置。
背景技术
目前的政务平台之间需要实现数据共享功能和智能分析效果,但数据共享功能和智能分析效果的实现,需要将不同行业、不同部门和不同区域的数据进行整合起来,而多数据源的数据整合过程的第一步便是数据采集。
对于数据共享和智能分析来说,其数据量越大,最后的效果便越好,但数据采集压力也会随之增大,因此,现有急需一种能够保证数据采集的质量和效率的方法。
发明内容
为了解决现有技术的上述问题,本发明提供一种全局数据整合方法及装置,以兼顾数据采集时的数据质量和采集效率。
为了达到上述目的,本发明采用的技术方案为:
第一方面,本发明提供一种全局数据整合方法,包括:
通过爬虫工具爬取各个数据源可共享的原始数据,将其存储至基础信息数据库中;
按照预设管控规则对所述基础信息数据库中的原始数据进行数据过滤和数据清洗后得到可用数据,并对所述可用数据进行数据转换和数据组合之后,得到已加工数据并进行存储;
针对每一个数据源,根据所述数据源在每一次采集周期时其原始数据和可用数据之间的比例得到所述数据源的数据评级,并根据所述数据评级对所述数据源的采集周期进行实时调整。
本发明的有益效果在于:在对原始数据进行数据过滤和数据清洗后得到可用数据,利用可用数据和原始数据之间的比例来评估每个数据源的数据质量,从而基于数据质量调整其采集周期,使得数据质量差的降低其采集频次,以减少数据压力,且能保证数据质量,从而兼顾数据采集时的数据质量和采集效率。
可选地,所述根据所述数据评级对所述数据源的采集周期进行实时调整包括:
获取所述数据源当前使用的第一采集周期以及所述数据源对应的数据评级所对应的第二采集周期,判断所述第一采集周期和所述第二采集周期是否相同,若是,则忽略此次调整,否则将所述数据源的第一采集周期修改为第二采集周期。
根据上述描述可知,当数据评级与采集周期不对应时,按照其数据评级所对应的采集周期进行替换,从而使得有限的处理能力更多的使用于数据质量高的数据源上。
可选地,所述根据所述数据评级对所述数据源的采集周期进行实时调整还包括:
根据所述数据源的数据评级以及数据重要程度对所述数据源的采集周期进行实时调整。
可选地,得到所述数据重要程度包括:
对于每一个已加工数据进行全面溯源,并根据其溯源到的数据源进行所有所述已加工数据的统计,得到每一个数据源所包括的已加工数据的数据子集以及以所有所述已加工数据形成的一个数据全集;
从所有所述数据子集中寻找到代价最低的数据子集集合,所述数据子集集合中的全部数据子集能够并集为一个所述数据全集,所述代价为从所述数据源获取数据的付出成本;
针对所述数据子集集合中的每一个数据子集,将其中的每一个数据元素在所述数据子集集合中的出现次数分配不同的权重数值,并对整个数据子集中的所有权重数值进行平均化得到这个数据子集所对应的数据源的数据重要程度,其中,未出现在所述数据子集集合内的数据子集所对应的数据源的数据重要程度为最低。
根据上述描述可知,先从所有数据的完整度出发得到其数据子集集合,再从其不可或缺性的角度出发来评价各个数据源的数据重要程度,从而综合反应出各个数据源的数据重要程度,将其和代表数据质量的数据评级一起评估数据源的采集周期,能够进一步兼顾数据采集时的数据质量和采集效率。
可选地,所述原始数据和所述可用数据之间的比例越高,则所述数据源的数据评级越高,则所述数据源的采集周期越短。
第二方面,本发明提供一种全局数据整合装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如下:
通过爬虫工具爬取各个数据源可共享的原始数据,将其存储至基础信息数据库中;
按照预设管控规则对所述基础信息数据库中的原始数据进行数据过滤和数据清洗后得到可用数据,并对所述可用数据进行数据转换和数据组合之后,得到已加工数据并进行存储;
针对每一个数据源,根据所述数据源在每一次采集周期时其原始数据和可用数据之间的比例得到所述数据源的数据评级,并根据所述数据评级对所述数据源的采集周期进行实时调整。
可选地,所述处理器执行所述计算机程序的根据所述数据评级对所述数据源的采集周期进行实时调整时包括:
获取所述数据源当前使用的第一采集周期以及所述数据源对应的数据评级所对应的第二采集周期,判断所述第一采集周期和所述第二采集周期是否相同,若是,则忽略此次调整,否则将所述数据源的第一采集周期修改为第二采集周期。
可选地,所述处理器执行所述计算机程序的根据所述数据评级对所述数据源的采集周期进行实时调整时还包括:
根据所述数据源的数据评级以及数据重要程度对所述数据源的采集周期进行实时调整。
可选地,所述处理器执行所述计算机程序时,在得到所述数据重要程度包括:
对于每一个已加工数据进行全面溯源,并根据其溯源到的数据源进行所有所述已加工数据的统计,得到每一个数据源所包括的已加工数据的数据子集以及以所有所述已加工数据形成的一个数据全集;
从所有所述数据子集中寻找到代价最低的数据子集集合,所述数据子集集合中的全部数据子集能够并集为一个所述数据全集,所述代价为从所述数据源获取数据的付出成本;
针对所述数据子集集合中的每一个数据子集,将其中的每一个数据元素在所述数据子集集合中的出现次数分配不同的权重数值,并对整个数据子集中的所有权重数值进行平均化得到这个数据子集所对应的数据源的数据重要程度,其中,未出现在所述数据子集集合内的数据子集所对应的数据源的数据重要程度为最低。
可选地,所述原始数据和所述可用数据之间的比例越高,则所述数据源的数据评级越高,则所述数据源的采集周期越短。
其中,第二方面所提供的一种全局数据整合装置所对应的技术效果参照第一方面所提供的一种全局数据整合方法的相关描述。
附图说明
图1为本发明实施例的一种全局数据整合方法的主要流程示意图;
图2为本发明实施例的一种全局数据整合装置的结构示意图。
【附图标记说明】
1:一种全局数据整合装置;
2:处理器;
3:存储器。
具体实施方式
为了更好的理解上述技术方案,下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更清楚、透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
实施例一
请参照图1,一种全局数据整合方法,包括步骤:
S1、通过爬虫工具爬取各个数据源可共享的原始数据,将其存储至基础信息数据库中;
其中,爬虫工具是一种按照一定的规则,自动抓取数据信息的程序或者脚本。
其中,当本实施例应用于政务平台时,则多个数据源为不同政务平台的业务系统服务器中的数据对接接口,获取到的原始数据即为各个政务部门可共享的业务指标数据。
S2、按照预设管控规则对基础信息数据库中的原始数据进行数据过滤和数据清洗后得到可用数据,并对可用数据进行数据转换和数据组合之后,得到已加工数据并进行存储;
其中,数据过滤和数据清洗包括但不限于数据二义性、不完整、违反业务规则等等,从而进行字段合法性检查、数据完整性校验和数据格式类型转换等方面的数据清洗过滤,增强数据可用性,减少系统吞吐量及其他处理消耗。
S3、针对每一个数据源,根据数据源在每一次采集周期时其原始数据和可用数据之间的比例得到数据源的数据评级,并根据数据评级对数据源的采集周期进行实时调整。
在本实施例中,步骤S3具体为:
S31、针对每一个数据源,根据数据源在每一次采集周期时其原始数据和可用数据之间的比例得到数据源的数据评级;
其中采集周期的增长可以呈倍数增长,比如1天、2天、4天之类的,也可以是无规律的增长,比如1天、3天、7天等。在本实施例中采用的是1天、2天、3天、5天、10天这五个采集周期。
对于每一个数据源,都有一个初始的采集周期,完成一个采集周期的数据整合之后,就可以得到这个数据源的数据评价,比如某一个数据源的原始数据有64354条,可用数据为56475条,则两者比例为87.76%,该数据评级为B级,对应采集周期为2天。
S32、对于每一个已加工数据进行全面溯源,并根据其溯源到的数据源进行所有已加工数据的统计,得到每一个数据源所包括的已加工数据的数据子集以及以所有已加工数据形成的一个数据全集;
由于已加工数据的数据量巨大,本实施例采用数个数据进行举例说明,包括有三个数据源,分别为数据源一、数据源二和数据源三,已加工数据有数据A、B、C、D、E、F和G,此时,数据源一、数据源二和数据源三的数据子集分别为{A、B、C、G}、{C、D、E、F和G}、{A、B}。
S33、从所有数据子集中寻找到代价最低的数据子集集合,数据子集集合中的全部数据子集能够并集为一个数据全集,代价为从数据源获取数据的付出成本;
其中,付出成本为获取数据所需要的处理量,比如内存、处理器等资源的一个总和成本,在上述三个数据源中,数据源一和二可以并集为一个数据全集,数据源二和数据源三可以并集为一个数据全集,其中后者的成本更低,因此,数据子集集合为数据源二和数据源三。
S34、针对数据子集集合中的每一个数据子集,将其中的每一个数据元素在数据子集集合中的出现次数分配不同的权重数值,并对整个数据子集中的所有权重数值进行平均化得到这个数据子集所对应的数据源的数据重要程度,其中,未出现在数据子集集合内的数据子集所对应的数据源的数据重要程度为最低。
其中,在本实施例中,刚好七个数据元素出现次数都是1次,因此其权重数值均相同,平均化也均相同,则按数据源二和数据源三均为数据重要程度高的,而数据源一为数据重要程度低的。
S35、获取数据源当前使用的第一采集周期以及数据源对应的数据评级所对应的第二采集周期,判断第一采集周期和第二采集周期是否相同,若是,则忽略此次调整,否则将数据源的第一采集周期修改为第二采集周期。
在本实施例中,考虑到数据重要程度,则步骤S35具体为:
根据数据源的数据评级以及数据重要程度得到最终的一个数据评价系数,获取数据源当前使用的第一采集周期以及数据源对应的数据评价系数所对应的第二采集周期,判断第一采集周期和第二采集周期是否相同,若是,则忽略此次调整,否则将数据源的第一采集周期修改为第二采集周期。
其中,数据评级以及数据重要程度可以按照35%:65%的比例进行换算来得到最终的一个数据评价系数。
在本实施例中,原始数据和可用数据之间的比例越高,则数据源的数据评级越高,则数据源的采集周期越短。
由此,本实施例综合考虑了数据源的数据质量之后对其采集周期进行调整,以减少数据采集的处理压力,从而兼顾了数据采集时的数据质量和采集效率。
实施例二
请参照图2,一种全局数据整合装置1,包括存储器3、处理器2及存储在存储器3上并可在处理器2上运行的计算机程序,所述处理器2执行所述计算机程序时实现上述实施例一中的步骤。
由于本发明上述实施例所描述的装置/装置,为实施本发明上述实施例的方法所采用的装置/装置,故而基于本发明上述实施例所描述的方法,本领域所属技术人员能够了解该装置/装置的具体结构及变形,因而在此不再赘述。凡是本发明上述实施例的方法所采用的装置/装置都属于本发明所欲保护的范围。
本领域内的技术人员应明白,本发明的实施例可提供为方法、装置或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例,或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(装置)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。
应当注意的是,在权利要求中,不应将位于括号之间的任何附图标记理解成对权利要求的限制。词语“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的词语“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的权利要求中,这些装置中的若干个可以是通过同一个硬件来具体体现。词语第一、第二、第三等的使用,仅是为了表述方便,而不表示任何顺序。可将这些词语理解为部件名称的一部分。
此外,需要说明的是,在本说明书的描述中,术语“一个实施例”、“一些实施例”、“实施例”、“示例”、“具体示例”或“一些示例”等的描述,是指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管已描述了本发明的优选实施例,但本领域的技术人员在得知了基本创造性概念后,则可对这些实施例作出另外的变更和修改。所以,权利要求应该解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种修改和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也应该包含这些修改和变型在内。

Claims (10)

1.一种全局数据整合方法,其特征在于,包括:
通过爬虫工具爬取各个数据源可共享的原始数据,将其存储至基础信息数据库中;
按照预设管控规则对所述基础信息数据库中的原始数据进行数据过滤和数据清洗后得到可用数据,并对所述可用数据进行数据转换和数据组合之后,得到已加工数据并进行存储;
针对每一个数据源,根据所述数据源在每一次采集周期时其原始数据和可用数据之间的比例得到所述数据源的数据评级,并根据所述数据评级对所述数据源的采集周期进行实时调整。
2.根据权利要求1所述的一种全局数据整合方法,其特征在于,所述根据所述数据评级对所述数据源的采集周期进行实时调整包括:
获取所述数据源当前使用的第一采集周期以及所述数据源对应的数据评级所对应的第二采集周期,判断所述第一采集周期和所述第二采集周期是否相同,若是,则忽略此次调整,否则将所述数据源的第一采集周期修改为第二采集周期。
3.根据权利要求1所述的一种全局数据整合方法,其特征在于,所述根据所述数据评级对所述数据源的采集周期进行实时调整还包括:
根据所述数据源的数据评级以及数据重要程度对所述数据源的采集周期进行实时调整。
4.根据权利要求3所述的一种全局数据整合方法,其特征在于,得到所述数据重要程度包括:
对于每一个已加工数据进行全面溯源,并根据其溯源到的数据源进行所有所述已加工数据的统计,得到每一个数据源所包括的已加工数据的数据子集以及以所有所述已加工数据形成的一个数据全集;
从所有所述数据子集中寻找到代价最低的数据子集集合,所述数据子集集合中的全部数据子集能够并集为一个所述数据全集,所述代价为从所述数据源获取数据的付出成本;
针对所述数据子集集合中的每一个数据子集,将其中的每一个数据元素在所述数据子集集合中的出现次数分配不同的权重数值,并对整个数据子集中的所有权重数值进行平均化得到这个数据子集所对应的数据源的数据重要程度,其中,未出现在所述数据子集集合内的数据子集所对应的数据源的数据重要程度为最低。
5.根据权利要求1至4任一所述的一种全局数据整合方法,其特征在于,所述原始数据和所述可用数据之间的比例越高,则所述数据源的数据评级越高,则所述数据源的采集周期越短。
6.一种全局数据整合装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如下:
通过爬虫工具爬取各个数据源可共享的原始数据,将其存储至基础信息数据库中;
按照预设管控规则对所述基础信息数据库中的原始数据进行数据过滤和数据清洗后得到可用数据,并对所述可用数据进行数据转换和数据组合之后,得到已加工数据并进行存储;
针对每一个数据源,根据所述数据源在每一次采集周期时其原始数据和可用数据之间的比例得到所述数据源的数据评级,并根据所述数据评级对所述数据源的采集周期进行实时调整。
7.根据权利要求6所述的一种全局数据整合装置,其特征在于,所述处理器执行所述计算机程序的根据所述数据评级对所述数据源的采集周期进行实时调整时包括:
获取所述数据源当前使用的第一采集周期以及所述数据源对应的数据评级所对应的第二采集周期,判断所述第一采集周期和所述第二采集周期是否相同,若是,则忽略此次调整,否则将所述数据源的第一采集周期修改为第二采集周期。
8.根据权利要求6所述的一种全局数据整合装置,其特征在于,所述处理器执行所述计算机程序的根据所述数据评级对所述数据源的采集周期进行实时调整时还包括:
根据所述数据源的数据评级以及数据重要程度对所述数据源的采集周期进行实时调整。
9.根据权利要求8所述的一种全局数据整合装置,其特征在于,所述处理器执行所述计算机程序时,在得到所述数据重要程度包括:
对于每一个已加工数据进行全面溯源,并根据其溯源到的数据源进行所有所述已加工数据的统计,得到每一个数据源所包括的已加工数据的数据子集以及以所有所述已加工数据形成的一个数据全集;
从所有所述数据子集中寻找到代价最低的数据子集集合,所述数据子集集合中的全部数据子集能够并集为一个所述数据全集,所述代价为从所述数据源获取数据的付出成本;
针对所述数据子集集合中的每一个数据子集,将其中的每一个数据元素在所述数据子集集合中的出现次数分配不同的权重数值,并对整个数据子集中的所有权重数值进行平均化得到这个数据子集所对应的数据源的数据重要程度,其中,未出现在所述数据子集集合内的数据子集所对应的数据源的数据重要程度为最低。
10.根据权利要求6至9任一所述的一种全局数据整合装置,其特征在于,所述原始数据和所述可用数据之间的比例越高,则所述数据源的数据评级越高,则所述数据源的采集周期越短。
CN202211739066.3A 2022-12-31 2022-12-31 一种全局数据整合方法及装置 Pending CN115827618A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211739066.3A CN115827618A (zh) 2022-12-31 2022-12-31 一种全局数据整合方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211739066.3A CN115827618A (zh) 2022-12-31 2022-12-31 一种全局数据整合方法及装置

Publications (1)

Publication Number Publication Date
CN115827618A true CN115827618A (zh) 2023-03-21

Family

ID=85519918

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211739066.3A Pending CN115827618A (zh) 2022-12-31 2022-12-31 一种全局数据整合方法及装置

Country Status (1)

Country Link
CN (1) CN115827618A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116069869A (zh) * 2023-03-24 2023-05-05 江苏曼荼罗软件股份有限公司 一种用于多设备的数据获取方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116069869A (zh) * 2023-03-24 2023-05-05 江苏曼荼罗软件股份有限公司 一种用于多设备的数据获取方法及系统
CN116069869B (zh) * 2023-03-24 2023-06-06 江苏曼荼罗软件股份有限公司 一种用于多设备的数据获取方法及系统

Similar Documents

Publication Publication Date Title
EP2414975A2 (en) Testing efficiency and stability of a database query engine
CN110377519B (zh) 大数据系统的性能容量测试方法、装置、设备及存储介质
CN111400288A (zh) 数据质量检查方法及系统
CN115827618A (zh) 一种全局数据整合方法及装置
CN113704077A (zh) 测试用例生成方法及装置
CN117725437B (zh) 一种基于机器学习的数据精准匹配分析方法
CN115576834A (zh) 支撑故障还原的软件测试复用方法、系统、终端及介质
CN111125199A (zh) 一种数据库访问方法、装置及电子设备
CN111831545A (zh) 测试用例生成方法、生成装置、计算机设备和存储介质
CN112328865A (zh) 信息处理和推荐方法、装置、设备及存储介质
CN117172633B (zh) 一种面向工业互联网平台的制造服务子图仿真方法及系统
CN110134646A (zh) 知识平台服务数据存储与集成方法及系统
CN113792084A (zh) 数据热度的分析方法、装置、设备及存储介质
CN112948469A (zh) 数据挖掘方法、装置、计算机设备及存储介质
CN110765100B (zh) 标签的生成方法、装置、计算机可读存储介质及服务器
CN102546235A (zh) 云计算环境下面向web应用的性能诊断方法和系统
LU505740B1 (en) Data monitoring method and system
CN111444312A (zh) 一种多平台联合检索专利的方法和装置
CN113742495B (zh) 基于预测模型的评级特征权重确定方法及装置、电子设备
CN107423759A (zh) 低维逐次投影寻踪聚类模型综合评价方法、装置及应用
CN107092599B (zh) 一种用于为用户提供知识信息的方法与设备
CN114327586A (zh) 一种非嵌入式军用软件质量评价方法、系统及存储介质
CN113806205A (zh) 软件性能测试方法、装置、电子设备及可读存储介质
CN116069595B (zh) 一种基于日志的运维监控方法
CN111177188A (zh) 一种基于聚合边与时序聚合边的快速海量时序数据处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination