CN111767446A

CN111767446A - 一种基于大数据的数据采集方法

Info

Publication number: CN111767446A
Application number: CN202010656157.5A
Authority: CN
Inventors: 高强
Original assignee: Beijing Dingtai Zhiyuan Technology Co ltd
Current assignee: Beijing Dingtai Zhiyuan Technology Co ltd
Priority date: 2020-07-09
Filing date: 2020-07-09
Publication date: 2020-10-13

Abstract

本发明公开的基于大数据的数据采集方法，涉及大数据技术领域，根据预设的优先级采集模式，持续采集目标数据源中的初始数据，直至目标数据源中的初始数据全部采集完成，根据预设的增量采集模式，采集目标数据源中的增量数据，根据预设的定时检测模式，采集目标数据源中的更新数据，提高了数据采集的准确率及完整度。

Description

一种基于大数据的数据采集方法

技术领域

本发明涉及大数据技术领域，具体涉及一种基于大数据的数据采集方法。

背景技术

大数据，是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。

对大数据进行分析、价值挖掘基于对目标领域数据全面的储备，而如何提高数据采集的准确率，对增量数据进行补采，对于更新数据进行跟踪以提高数据采集的完整度，是大数据行业面临的难题。

发明内容

为解决现有技术的不足，本发明实施例提供了一种基于大数据的数据采集方法，该方法包括以下步骤：

根据预设的优先级采集模式，持续采集目标数据源中的初始数据，直至目标数据源中的初始数据全部采集完成；

根据预设的增量采集模式，采集所述目标数据源中的增量数据；

根据预设的定时检测模式，采集所述目标数据源中的更新数据。

优选地，在采集所述目标数据源中被更新的数据之后，所述方法还包括：

对采集到的数据进行分析，统计所述数据的准确率。

优选地，对采集到的数据进行分析，统计所述数据的准确率包括：

分别计算所述数据在不同维度下的准确率p₁、p₂…p_n并为各个准确率分别设置相应的权重w₁、w₂…w_n；

根据公式p＝p₁ w₁+p₂ w₂+…+p_n w_n，计算所述数据的准确率。

优选地，分别计算所述数据在不同维度下的准确率p₁、p₂…p_n包括：

根据公式p₁＝m₁/n₁，计算公布维度下所述数据的准确率，其中，m₁为本次采集的数据量，n₁为目标数据源中的数据总量；

根据公式p₂＝m₂/n₂，计算查询维度下所述数据的准确率，其中，m₂为从本次采集的数据中抽取的数据量，n₂为本次采集的数据总量；

根据公式p₃＝m₃/n₃，计算同行维度下所述数据的准确率，其中，m₃为本次采集的数据量，n₃为同行采集到的数据总量；

根据公式p＝p₁w₁+p₂w₂+p₃w₃，得到所述数据的准确率，其中，w₁、w₂及w₃分别为预设的p₁、p₂及p₃对应的权重。

优选地，目标数据源包括多个数据源网站。

本发明实施例提供的基于大数据的数据采集方法具有以下有益效果：

通过预设的优先级采集模式、增量采集模式及定时检测模式，提高了数据采集的准确率及完整度。

具体实施方式

以下结合具体实施例对本发明作具体的介绍。

本发明实施例提供了一种基于大数据的数据采集方法，该方法包括以下步骤：

S101，根据预设的优先级采集模式，持续采集目标数据源中的初始数据，直至目标数据源中的初始数据全部采集完成。

其中，在生产实践有的数据需要紧急采集，有的数据源网站容易崩溃不易采集，本发明实施例采用优先级采集策略来解决此类问题。

在本发明的一个实施例中，优先级采集策略的采集顺序由高到低依次为：特殊队列、标准队列、蜗牛队列。

其中，标准队列是处于日常采集活动的队列，蜗牛队列是数据需求不紧急的采集队列，特殊队列是需要紧急采集、数据源网站不稳定的采集队列。

在对目标采集源进行初次采集时，采用预设参数设置方式对数据采用逐条逐页采集，直至目标采集源中的数据全部采集完成。

其中，预设参数设置方式包括：输入目标采集源的URL地址、全采集模式和采集优先级策略；设置对目标采集源的数据源完整翻页方式、翻页起始页、页结束页、页面类型；采集模式和调度方式。

具体地，对目标数据源初次采集时，对数据逐条逐页采集，直至全部数据采集结束。

在采集系统中，通过以下几步完成数据采集基本参数设置：

输入数据源网站对应的url，设置全采集模式、采集优先级；

设置翻页方式：get、post、put、options，翻页起始页，翻页结束页，页面类型：列表、详情、json、xml，页面编码：utf-8、GBK、GB2312；

设置采集模式：jsoup、httpclient、htmlunit、selenium。

采集调度时间：定时任务设置的值为0 0/8。

S102，根据预设的增量采集模式，采集目标数据源中的增量数据。

具体地，在本步骤中，对采集过的数据源网站在智能系统中通过设置增量采集模式和每日定时检测任务，以解决增量数据或更新数据的补采工作。

S103，根据预设的定时检测模式，采集目标数据源中的更新数据。

在本发明的一个实施例中，对采集过的数据源网站，以预设周期进行定期重采补漏方式，从而双重保障数据全部采集。

可选地，在采集目标数据源中被更新的数据之后，该方法还包括：

对采集到的数据进行分析，统计数据的准确率。

可选地，对采集到的数据进行分析，统计数据的准确率包括：

分别计算数据在不同维度下的准确率p₁、p₂…p_n并为各个准确率分别设置相应的权重w₁、w₂…w_n；

可选地，分别计算所述数据在不同维度下的准确率p₁、p₂…p_n包括：

作为一个具体的实施例，如下表所示：

表1

其中，各个维度下的准确率满足设定的阀值时为1，不满足设定的阀值时为0。

当各指标阀值有效值有一个或一个以上为0的情况下，数据质量判为不合格；

当各指标阀值有效值均为1的条件下，数据质量合格，可对数据质量总体评价打分。

可选地，目标数据源包括多个数据源网站。

本发明实施例提供的基于大数据的数据采集方法，根据预设的优先级采集模式，持续采集目标数据源中的初始数据，直至目标数据源中的初始数据全部采集完成，根据预设的增量采集模式，采集目标数据源中的增量数据，根据预设的定时检测模式，采集目标数据源中的更新数据，提高了数据采集的准确率及完整度。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于大数据的数据采集方法，其特征在于，包括：

2.根据权利要求1所述的基于大数据的数据采集方法，其特征在于，在采集所述目标数据源中被更新的数据之后，所述方法还包括：

对采集到的数据进行分析，统计所述数据的准确率。

3.根据权利要求2所述的基于大数据的数据采集方法，其特征在于，对采集到的数据进行分析，统计所述数据的准确率包括：

4.根据权利要求3所述的基于大数据的数据采集方法，其特征在于，分别计算所述数据在不同维度下的准确率p₁、p₂…p_n包括：

5.根据权利要求1所述的基于大数据的数据采集方法，其特征在于，所述目标数据源包括多个数据源网站。