CN108681579A - 一种大数据遗漏率分析方法 - Google Patents

一种大数据遗漏率分析方法 Download PDF

Info

Publication number
CN108681579A
CN108681579A CN201810444690.8A CN201810444690A CN108681579A CN 108681579 A CN108681579 A CN 108681579A CN 201810444690 A CN201810444690 A CN 201810444690A CN 108681579 A CN108681579 A CN 108681579A
Authority
CN
China
Prior art keywords
data
acquisition
source
missing rate
page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810444690.8A
Other languages
English (en)
Inventor
高强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dingtai Zhiyuan Technology Co Ltd
Original Assignee
Beijing Dingtai Zhiyuan Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dingtai Zhiyuan Technology Co Ltd filed Critical Beijing Dingtai Zhiyuan Technology Co Ltd
Priority to CN201810444690.8A priority Critical patent/CN108681579A/zh
Publication of CN108681579A publication Critical patent/CN108681579A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提出了一种大数据遗漏率分析方法,包括:步骤S1,设置多线程任务方式采集目标采集源中的大数据,对采集任务设置优先级策略,根据优先级进行数据采集;其中,在对所述目标采集源进行初次采集时,采用预设参数设置方式对数据采用逐条逐页采集,直至所述目标采集源中的数据全部采集完成;步骤S2,对所述步骤S1中已经采集过的目标采集源中的数据源网站设置增量采集模式和定时检测任务,实现对上述数据源网站中新增数据和更新数据的补充采集;步骤S3,对采集到的数据进行分析,统计遗漏率P。本发明,可以实现目标领域单位数据源数据采集无遗漏。

Description

一种大数据遗漏率分析方法
技术领域
本发明涉及大数据分析技术领域,特别涉及一种大数据遗漏率分析方法。
背景技术
大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
大数据的分析、价值挖掘基于对目标领域数据全面的储备。而如何对数据源的数据进行全部采集,对新增数据补采,对于更新数据的跟踪,是大数据行业都面临的难题。
发明内容
本发明的目的旨在至少解决所述技术缺陷之一。
为此,本发明的目的在于提出一种大数据遗漏率分析方法。
为了实现上述目的,本发明的实施例提供一种大数据遗漏率分析方法,包括如下步骤:
步骤S1,设置多线程任务方式采集目标采集源中的大数据,对采集任务设置优先级策略,根据优先级进行数据采集;其中,在对所述目标采集源进行初次采集时,采用预设参数设置方式对数据采用逐条逐页采集,直至所述目标采集源中的数据全部采集完成;
步骤S2,对所述步骤S1中已经采集过的目标采集源中的数据源网站设置增量采集模式和定时检测任务,实现对上述数据源网站中新增数据和更新数据的补充采集;
步骤S3,对采集到的数据进行分析,统计遗漏率P,包括:
公布型遗漏率分值p1:(1-采集数据总量/公布数据总量)*100%,公布型遗漏率权值w1;
查询型遗漏率分值p2:(1-抽查已采集数/抽查样本数据总量)*100%,查询型遗漏率权值w2;
同行同数据对比分值p3:采集数据量/同行数据总量*100%,同行同数据对比权值w3;
P=p1*w1+p2*w2+p3*w3。
进一步,在所述步骤S1中,所述优先级策略的采集顺序由高到低依次为:特殊队列、标准队列、蜗牛队列,
其中,标准队列是处于日常采集活动的队列;蜗牛队列是数据需求不紧急的采集队列;特殊队列是需要紧急采集,数据源网站不稳定的采集队列。
进一步,在所述步骤S1中,所述预设参数设置方式,包括:
输入目标采集源的URL地址、全采集模式和采集优先级测量;设置对目标采集源的数据源完整翻页方式、翻页起始页,翻页结束页,页面类型;设置采集模式和调度方式。
进一步,设置翻页方式:get、post、delete、put、options;
设置页面类型:列表、详情、json;
设置页面编码:utf-8、gbk、gb2312。
进一步,在所述步骤S1,对于目标采集源中暂时不能访问的数据源网站,开启采取时时监控任务监控网站状态,当监控器访问正常或访问量较小时多,执行线程采集。
进一步,对已经采集过的数据源网站,以预设周期进行定期重采补漏方式。
根据本发明实施例的大数据遗漏率分析方法,解决了对数据源数据采集不全数据遗漏的问题,总结出对某一领域大数据全采集的评价标准。公布型网站采集总量需大于或等于该网站公布总数,已公布数据采集无遗漏,遗漏率应为0%;查询型网站,查询结果需被完全采集,遗漏率应为0%;同领域数据总量不少于同行业公司的同领域数据量。本发明提出的大数据遗漏率分析方法,可以实现目标领域单位数据源数据采集无遗漏。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明实施例的大数据遗漏率分析方法的流程图。
具体实施方式
下面详细描述本发明的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
本发明提出一种大数据遗漏率分析方法,可以为确保数据采集无遗漏,对不同的采集源采取不同的采集策略,采用智能系统采集和人工采集相结合的方式进行。首先利用智能系统进行采集,然后由人工采集进行补漏采集,实现采集无遗漏。智能采集系统采集是在智能采集系统中设置多线程任务,自动化高效率大量采集。人工采集是部分智能系统采集失败的数据,人工排查原因,补采数据。
如图1所示,本发明实施例的大数据遗漏率分析方法,包括如下步骤:
步骤S1,设置多线程任务方式采集目标采集源中的大数据,对采集任务设置优先级策略,根据优先级进行数据采集。
在生产实践有的数据需要紧急采集,有的数据源网站容易崩溃不易采集,本发明设置采集优先级的策略来解决此类问题。
在本发明的一个实施例中,优先级策略的采集顺序由高到低依次为:特殊队列、标准队列、蜗牛队列。
其中,标准队列是处于日常采集活动的队列。蜗牛队列是数据需求不紧急的采集队列。特殊队列是需要紧急采集,数据源网站不稳定的采集队列。
在对目标采集源进行初次采集时,采用预设参数设置方式对数据采用逐条逐页采集,直至目标采集源中的数据全部采集完成。
其中,预设参数设置方式,包括:输入目标采集源的URL地址、全采集模式和采集优先级测量;设置对目标采集源的数据源完整翻页方式、翻页起始页,翻页结束页,页面类型;设置采集模式和调度方式。
具体的,目标采集源初次采集时,对数据逐条逐页采集,直至全部数据采集结束。
在智能采集系统中,通过以下几步完成数据采集基本参数设置:
1)输入数据源url,设置全采集模式,采集优先级;
2)设置翻页方式:get、post、delete、put、options等,翻页起始页,翻页结束页,页面类型:列表、详情、json,页面编码:utf-8、gbk、gb2312;
3)设置采集模式:jsoup、httpclient、htmlunit、selenium。
4)采集调度时间:定时0 0 8**?。
需要说明的是,采集过程中常遇到数据源不能访问,易崩溃等情况。本发明对暂时不能访问的数据源网站,开启采取时时监控任务监控网站状态,在访问正常、访问量较小的时候状态时多线程及时采集。
步骤S2,对步骤S1中已经采集过的目标采集源中的数据源网站设置增量采集模式和定时检测任务,实现对上述数据源网站中新增数据和更新数据的补充采集。
具体的,在本步骤中,对已采集过的数据源网站在智能系统中通过设置增量采集模式和每日定时检测任务,以解决新增数据或更新数据的补采工作。
在本发明的一个实施例中,对已经采集过的数据源网站,以预设周期进行定期重采补漏方式,从而双重保障数据全部采集。
步骤S3,对采集到的数据进行分析,统计遗漏率P,包括:
公布型遗漏率分值p1:(1-采集数据总量/公布数据总量)*100%,公布型遗漏率权值w1;
查询型遗漏率分值p2:(1-抽查已采集数/抽查样本数据总量)*100%,查询型遗漏率权值w2;
同行同数据对比分值p3:采集数据量/同行数据总量*100%,同行同数据对比权值w3;
P=p1*w1+p2*w2+p3*w3 (1)
计算方式:
阀值有效值:阀值条件满足为1,阀值条件不满足为0;
1)当各指标阀值有效值有一个或一个以上为0的情况下,数据质量判为不合格;
2)当各指标阀值有效值均为1的条件下,数据质量合格,可对数据质量总体评价打分,计算方式如下:
公布型遗漏率分值:(1-采集数据总量/公布数据总量)*100%;
查询型遗漏率分值:(1-抽查已采集数/抽查样本数据总量)*100%;
同行同数据对比分值:采集数据量/同行数据总量*100%;
以表1为例,大数据采集遗漏率评定采用科学的计算方法,准确反映目标领域或目标维度的数据采集情况。
表1
根据本发明实施例的大数据遗漏率分析方法,解决了对数据源数据采集不全数据遗漏的问题,总结出对某一领域大数据全采集的评价标准。公布型网站采集总量需大于或等于该网站公布总数,已公布数据采集无遗漏,遗漏率应为0%;查询型网站,查询结果需被完全采集,遗漏率应为0%;同领域数据总量不少于同行业公司的同领域数据量。本发明提出的大数据遗漏率分析方法,可以实现目标领域单位数据源数据采集无遗漏。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。本发明的范围由所附权利要求及其等同限定。

Claims (6)

1.一种大数据遗漏率分析方法,其特征在于,包括如下步骤:
步骤S1,设置多线程任务方式采集目标采集源中的大数据,对采集任务设置优先级策略,根据优先级进行数据采集;其中,在对所述目标采集源进行初次采集时,采用预设参数设置方式对数据采用逐条逐页采集,直至所述目标采集源中的数据全部采集完成;
步骤S2,对所述步骤S1中已经采集过的目标采集源中的数据源网站设置增量采集模式和定时检测任务,实现对上述数据源网站中新增数据和更新数据的补充采集;
步骤S3,对采集到的数据进行分析,统计遗漏率P,包括:
公布型遗漏率分值p1:(1-采集数据总量/公布数据总量)*100%,公布型遗漏率权值w1;
查询型遗漏率分值p2:(1-抽查已采集数/抽查样本数据总量)*100%,查询型遗漏率权值w2;
同行同数据对比分值p3:采集数据量/同行数据总量*100%,同行同数据对比权值w3;
P=p1*w1+p2*w2+p3*w3。
2.如权利要求1所述的大数据遗漏率分析方法,其特征在于,在所述步骤S1中,所述优先级策略的采集顺序由高到低依次为:特殊队列、标准队列、蜗牛队列,
其中,特殊队列是需要紧急采集,数据源网站不稳定的采集队列;标准队列是处于日常采集活动的队列;蜗牛队列是数据需求不紧急的采集队列。
3.如权利要求1所述的大数据遗漏率分析方法,其特征在于,在所述步骤S1中,所述预设参数设置方式,包括:
输入目标采集源的URL地址、全采集模式和采集优先级测量;设置对目标采集源的数据源完整翻页方式、翻页起始页,翻页结束页,页面类型;设置采集模式和调度方式。
4.如权利要求3所述的大数据遗漏率分析方法,其特征在于,
设置翻页方式:get、post、delete、put、options;
设置页面类型:列表、详情、json;
设置页面编码:utf-8、gbk、gb2312。
5.如权利要求1所述的大数据遗漏率分析方法,其特征在于,在所述步骤S1,对于目标采集源中暂时不能访问的数据源网站,开启采取时时监控任务监控网站状态,当监控器访问正常或访问量较小时多,执行线程采集。
6.如权利要求1所述的大数据遗漏率分析方法,其特征在于,对已经采集过的数据源网站,以预设周期进行定期重采补漏方式。
CN201810444690.8A 2018-05-10 2018-05-10 一种大数据遗漏率分析方法 Pending CN108681579A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810444690.8A CN108681579A (zh) 2018-05-10 2018-05-10 一种大数据遗漏率分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810444690.8A CN108681579A (zh) 2018-05-10 2018-05-10 一种大数据遗漏率分析方法

Publications (1)

Publication Number Publication Date
CN108681579A true CN108681579A (zh) 2018-10-19

Family

ID=63805939

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810444690.8A Pending CN108681579A (zh) 2018-05-10 2018-05-10 一种大数据遗漏率分析方法

Country Status (1)

Country Link
CN (1) CN108681579A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111177221A (zh) * 2019-12-26 2020-05-19 苏州亿歌网络科技有限公司 一种统计数据采集方法、装置及设备
CN111767446A (zh) * 2020-07-09 2020-10-13 北京鼎泰智源科技有限公司 一种基于大数据的数据采集方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079683A (zh) * 2007-06-27 2007-11-28 中国移动通信集团四川有限公司 数据一致性处理方法
CN101262367A (zh) * 2008-03-07 2008-09-10 中兴通讯股份有限公司 性能数据的采集方法和装置
CN101976247A (zh) * 2010-09-30 2011-02-16 北京新媒传信科技有限公司 Rss数据采集方法及系统
CN103678726A (zh) * 2012-09-05 2014-03-26 亿阳信通股份有限公司 一种数据补采方法和数据补采系统
US20150135183A1 (en) * 2013-11-12 2015-05-14 Oxide Interactive, LLC Method and system of a hierarchical task scheduler for a multi-thread system
CN105138547A (zh) * 2015-07-10 2015-12-09 无锡天脉聚源传媒科技有限公司 一种数据搜索方法及装置
CN105843935A (zh) * 2016-03-30 2016-08-10 乐视控股(北京)有限公司 一种数据采集方法以及etl组件
CN106055619A (zh) * 2016-05-26 2016-10-26 达而观信息科技(上海)有限公司 一种基于动态的网页抓取方法及装置
CN106202300A (zh) * 2016-06-30 2016-12-07 浪潮软件集团有限公司 一种网络信息采集方法及装置
CN106570053A (zh) * 2016-09-22 2017-04-19 山东浪潮云服务信息科技有限公司 一种网络数据采集验证方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079683A (zh) * 2007-06-27 2007-11-28 中国移动通信集团四川有限公司 数据一致性处理方法
CN101262367A (zh) * 2008-03-07 2008-09-10 中兴通讯股份有限公司 性能数据的采集方法和装置
CN101976247A (zh) * 2010-09-30 2011-02-16 北京新媒传信科技有限公司 Rss数据采集方法及系统
CN103678726A (zh) * 2012-09-05 2014-03-26 亿阳信通股份有限公司 一种数据补采方法和数据补采系统
US20150135183A1 (en) * 2013-11-12 2015-05-14 Oxide Interactive, LLC Method and system of a hierarchical task scheduler for a multi-thread system
CN105138547A (zh) * 2015-07-10 2015-12-09 无锡天脉聚源传媒科技有限公司 一种数据搜索方法及装置
CN105843935A (zh) * 2016-03-30 2016-08-10 乐视控股(北京)有限公司 一种数据采集方法以及etl组件
CN106055619A (zh) * 2016-05-26 2016-10-26 达而观信息科技(上海)有限公司 一种基于动态的网页抓取方法及装置
CN106202300A (zh) * 2016-06-30 2016-12-07 浪潮软件集团有限公司 一种网络信息采集方法及装置
CN106570053A (zh) * 2016-09-22 2017-04-19 山东浪潮云服务信息科技有限公司 一种网络数据采集验证方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
胡建洪 等: ""移动新闻自适应采集方法研究"", 《计算机应用研究》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111177221A (zh) * 2019-12-26 2020-05-19 苏州亿歌网络科技有限公司 一种统计数据采集方法、装置及设备
CN111767446A (zh) * 2020-07-09 2020-10-13 北京鼎泰智源科技有限公司 一种基于大数据的数据采集方法

Similar Documents

Publication Publication Date Title
EP3097506B1 (de) Verfahren und system zur gewinnung und analyse von forensischen daten in einer verteilten rechnerinfrastruktur
Kumar et al. Deep learning in wheat diseases classification: A systematic review
CN103559083B (zh) 网页爬取任务调度方法与任务调度器
CN107436277B (zh) 基于相似距离判别的单指标数据质量控制方法
Ding et al. Spatial-temporal hotspot pattern analysis of provincial environmental pollution incidents and related regional sustainable management in China in the period 1995–2012
CN104504200A (zh) 一种用于旋转机械在线振动监测的趋势曲线图显示方法
CN104714532A (zh) 质量管控方法及装置
CN107403005A (zh) 一种网站监控方法及装置
CN108681579A (zh) 一种大数据遗漏率分析方法
Punt et al. Evaluating empirical decision rules for southern rock lobster fisheries: a South Australian example
WO2023165007A1 (zh) 农作物长势的监测方法、系统、设备及介质
CN106021552A (zh) 基于人群行为模拟的互联网爬虫并发数据采集方法及系统
DE202023105203U1 (de) Überwachungssystem für nachhaltige Umwelt
CN113962476A (zh) 一种虫害预测方法、装置、设备及存储介质
Abubakar et al. Determination of repair and maintenance cost for MF375 tractor: A case study in Kano Metropolis, Nigeria
CN116313132A (zh) 一种慢性疾病医疗管理系统
CN102609786B (zh) 一种预测用户离网的方法和装置
DE112011100168T5 (de) Erfassen von Diagnosedaten in einer Datenverarbeitungsumgebung
CN106487571A (zh) 一种评估网络性能指标变化趋势的方法及装置
Iriondo et al. National strategies for the conservation of crop wild relatives.
CN106357445A (zh) 一种用户体验监控方法及监控服务器
CN113361730B (zh) 一种检修计划的风险预警方法、装置、设备和介质
Yang et al. A novel framework for evaluating the effect of vegetation restoration via grazing exclusion by fencing: A case‐study from the Qinghai–Tibet Plateau
CN104809547A (zh) 基于事实及服务结果的服务评级系统及其评级方法
US10025769B2 (en) Systems and methods for generating a two-dimensional graphical grid representation of the treatment of a document

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181019