CN111767446A - 一种基于大数据的数据采集方法 - Google Patents
一种基于大数据的数据采集方法 Download PDFInfo
- Publication number
- CN111767446A CN111767446A CN202010656157.5A CN202010656157A CN111767446A CN 111767446 A CN111767446 A CN 111767446A CN 202010656157 A CN202010656157 A CN 202010656157A CN 111767446 A CN111767446 A CN 111767446A
- Authority
- CN
- China
- Prior art keywords
- data
- accuracy
- collected
- target
- big
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
- G06F16/2379—Updates performed during online database operations; commit processing
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开的基于大数据的数据采集方法,涉及大数据技术领域,根据预设的优先级采集模式,持续采集目标数据源中的初始数据,直至目标数据源中的初始数据全部采集完成,根据预设的增量采集模式,采集目标数据源中的增量数据,根据预设的定时检测模式,采集目标数据源中的更新数据,提高了数据采集的准确率及完整度。
Description
技术领域
本发明涉及大数据技术领域,具体涉及一种基于大数据的数据采集方法。
背景技术
大数据,是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。
对大数据进行分析、价值挖掘基于对目标领域数据全面的储备,而如何提高数据采集的准确率,对增量数据进行补采,对于更新数据进行跟踪以提高数据采集的完整度,是大数据行业面临的难题。
发明内容
为解决现有技术的不足,本发明实施例提供了一种基于大数据的数据采集方法,该方法包括以下步骤:
根据预设的优先级采集模式,持续采集目标数据源中的初始数据,直至目标数据源中的初始数据全部采集完成;
根据预设的增量采集模式,采集所述目标数据源中的增量数据;
根据预设的定时检测模式,采集所述目标数据源中的更新数据。
优选地,在采集所述目标数据源中被更新的数据之后,所述方法还包括:
对采集到的数据进行分析,统计所述数据的准确率。
优选地,对采集到的数据进行分析,统计所述数据的准确率包括:
分别计算所述数据在不同维度下的准确率p1、p2…pn并为各个准确率分别设置相应的权重w1、w2…wn;
根据公式p=p1 w1+p2 w2+…+pn wn,计算所述数据的准确率。
优选地,分别计算所述数据在不同维度下的准确率p1、p2…pn包括:
根据公式p1=m1/n1,计算公布维度下所述数据的准确率,其中,m1为本次采集的数据量,n1为目标数据源中的数据总量;
根据公式p2=m2/n2,计算查询维度下所述数据的准确率,其中,m2为从本次采集的数据中抽取的数据量,n2为本次采集的数据总量;
根据公式p3=m3/n3,计算同行维度下所述数据的准确率,其中,m3为本次采集的数据量,n3为同行采集到的数据总量;
根据公式p=p1w1+p2w2+p3w3,得到所述数据的准确率,其中,w1、w2及w3分别为预设的p1、p2及p3对应的权重。
优选地,目标数据源包括多个数据源网站。
本发明实施例提供的基于大数据的数据采集方法具有以下有益效果:
通过预设的优先级采集模式、增量采集模式及定时检测模式,提高了数据采集的准确率及完整度。
具体实施方式
以下结合具体实施例对本发明作具体的介绍。
本发明实施例提供了一种基于大数据的数据采集方法,该方法包括以下步骤:
S101,根据预设的优先级采集模式,持续采集目标数据源中的初始数据,直至目标数据源中的初始数据全部采集完成。
其中,在生产实践有的数据需要紧急采集,有的数据源网站容易崩溃不易采集,本发明实施例采用优先级采集策略来解决此类问题。
在本发明的一个实施例中,优先级采集策略的采集顺序由高到低依次为:特殊队列、标准队列、蜗牛队列。
其中,标准队列是处于日常采集活动的队列,蜗牛队列是数据需求不紧急的采集队列,特殊队列是需要紧急采集、数据源网站不稳定的采集队列。
在对目标采集源进行初次采集时,采用预设参数设置方式对数据采用逐条逐页采集,直至目标采集源中的数据全部采集完成。
其中,预设参数设置方式包括:输入目标采集源的URL地址、全采集模式和采集优先级策略;设置对目标采集源的数据源完整翻页方式、翻页起始页、页结束页、页面类型;采集模式和调度方式。
具体地,对目标数据源初次采集时,对数据逐条逐页采集,直至全部数据采集结束。
在采集系统中,通过以下几步完成数据采集基本参数设置:
输入数据源网站对应的url,设置全采集模式、采集优先级;
设置翻页方式:get、post、put、options,翻页起始页,翻页结束页,页面类型:列表、详情、json、xml,页面编码:utf-8、GBK、GB2312;
设置采集模式:jsoup、httpclient、htmlunit、selenium。
采集调度时间:定时任务设置的值为0 0/8。
S102,根据预设的增量采集模式,采集目标数据源中的增量数据。
具体地,在本步骤中,对采集过的数据源网站在智能系统中通过设置增量采集模式和每日定时检测任务,以解决增量数据或更新数据的补采工作。
S103,根据预设的定时检测模式,采集目标数据源中的更新数据。
在本发明的一个实施例中,对采集过的数据源网站,以预设周期进行定期重采补漏方式,从而双重保障数据全部采集。
可选地,在采集目标数据源中被更新的数据之后,该方法还包括:
对采集到的数据进行分析,统计数据的准确率。
可选地,对采集到的数据进行分析,统计数据的准确率包括:
分别计算数据在不同维度下的准确率p1、p2…pn并为各个准确率分别设置相应的权重w1、w2…wn;
根据公式p=p1 w1+p2 w2+…+pn wn,计算所述数据的准确率。
可选地,分别计算所述数据在不同维度下的准确率p1、p2…pn包括:
根据公式p1=m1/n1,计算公布维度下所述数据的准确率,其中,m1为本次采集的数据量,n1为目标数据源中的数据总量;
根据公式p2=m2/n2,计算查询维度下所述数据的准确率,其中,m2为从本次采集的数据中抽取的数据量,n2为本次采集的数据总量;
根据公式p3=m3/n3,计算同行维度下所述数据的准确率,其中,m3为本次采集的数据量,n3为同行采集到的数据总量;
根据公式p=p1w1+p2w2+p3w3,得到所述数据的准确率,其中,w1、w2及w3分别为预设的p1、p2及p3对应的权重。
作为一个具体的实施例,如下表所示:
表1
其中,各个维度下的准确率满足设定的阀值时为1,不满足设定的阀值时为0。
当各指标阀值有效值有一个或一个以上为0的情况下,数据质量判为不合格;
当各指标阀值有效值均为1的条件下,数据质量合格,可对数据质量总体评价打分。
可选地,目标数据源包括多个数据源网站。
本发明实施例提供的基于大数据的数据采集方法,根据预设的优先级采集模式,持续采集目标数据源中的初始数据,直至目标数据源中的初始数据全部采集完成,根据预设的增量采集模式,采集目标数据源中的增量数据,根据预设的定时检测模式,采集目标数据源中的更新数据,提高了数据采集的准确率及完整度。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (5)
1.一种基于大数据的数据采集方法,其特征在于,包括:
根据预设的优先级采集模式,持续采集目标数据源中的初始数据,直至目标数据源中的初始数据全部采集完成;
根据预设的增量采集模式,采集所述目标数据源中的增量数据;
根据预设的定时检测模式,采集所述目标数据源中的更新数据。
2.根据权利要求1所述的基于大数据的数据采集方法,其特征在于,在采集所述目标数据源中被更新的数据之后,所述方法还包括:
对采集到的数据进行分析,统计所述数据的准确率。
3.根据权利要求2所述的基于大数据的数据采集方法,其特征在于,对采集到的数据进行分析,统计所述数据的准确率包括:
分别计算所述数据在不同维度下的准确率p1、p2…pn并为各个准确率分别设置相应的权重w1、w2…wn;
根据公式p=p1 w1+p2 w2+…+pn wn,计算所述数据的准确率。
4.根据权利要求3所述的基于大数据的数据采集方法,其特征在于,分别计算所述数据在不同维度下的准确率p1、p2…pn包括:
根据公式p1=m1/n1,计算公布维度下所述数据的准确率,其中,m1为本次采集的数据量,n1为目标数据源中的数据总量;
根据公式p2=m2/n2,计算查询维度下所述数据的准确率,其中,m2为从本次采集的数据中抽取的数据量,n2为本次采集的数据总量;
根据公式p3=m3/n3,计算同行维度下所述数据的准确率,其中,m3为本次采集的数据量,n3为同行采集到的数据总量;
根据公式p=p1w1+p2w2+p3w3,得到所述数据的准确率,其中,w1、w2及w3分别为预设的p1、p2及p3对应的权重。
5.根据权利要求1所述的基于大数据的数据采集方法,其特征在于,所述目标数据源包括多个数据源网站。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010656157.5A CN111767446A (zh) | 2020-07-09 | 2020-07-09 | 一种基于大数据的数据采集方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010656157.5A CN111767446A (zh) | 2020-07-09 | 2020-07-09 | 一种基于大数据的数据采集方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111767446A true CN111767446A (zh) | 2020-10-13 |
Family
ID=72725858
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010656157.5A Pending CN111767446A (zh) | 2020-07-09 | 2020-07-09 | 一种基于大数据的数据采集方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111767446A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103900822A (zh) * | 2013-06-21 | 2014-07-02 | 上海汽车集团股份有限公司 | 发动机台架性能柔性测试系统 |
CN104158699A (zh) * | 2014-08-08 | 2014-11-19 | 广州新科佳都科技有限公司 | 一种基于优先级和分段的数据采集方法 |
CN105007294A (zh) * | 2015-05-26 | 2015-10-28 | 华北电力大学(保定) | 输变电设备状态监测大数据快速接收和分发系统 |
CN108664606A (zh) * | 2018-05-10 | 2018-10-16 | 北京鼎泰智源科技有限公司 | 一种大数据覆盖率采集分析方法 |
CN108681579A (zh) * | 2018-05-10 | 2018-10-19 | 北京鼎泰智源科技有限公司 | 一种大数据遗漏率分析方法 |
CN109977285A (zh) * | 2019-03-21 | 2019-07-05 | 中南大学 | 一种面向Deep Web的自适应增量数据采集方法 |
-
2020
- 2020-07-09 CN CN202010656157.5A patent/CN111767446A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103900822A (zh) * | 2013-06-21 | 2014-07-02 | 上海汽车集团股份有限公司 | 发动机台架性能柔性测试系统 |
CN104158699A (zh) * | 2014-08-08 | 2014-11-19 | 广州新科佳都科技有限公司 | 一种基于优先级和分段的数据采集方法 |
CN105007294A (zh) * | 2015-05-26 | 2015-10-28 | 华北电力大学(保定) | 输变电设备状态监测大数据快速接收和分发系统 |
CN108664606A (zh) * | 2018-05-10 | 2018-10-16 | 北京鼎泰智源科技有限公司 | 一种大数据覆盖率采集分析方法 |
CN108681579A (zh) * | 2018-05-10 | 2018-10-19 | 北京鼎泰智源科技有限公司 | 一种大数据遗漏率分析方法 |
CN109977285A (zh) * | 2019-03-21 | 2019-07-05 | 中南大学 | 一种面向Deep Web的自适应增量数据采集方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103164427B (zh) | 新闻聚合方法及装置 | |
CA2777506C (en) | System and method for grouping multiple streams of data | |
CN105447184B (zh) | 信息抓取方法及装置 | |
CN105187641B (zh) | 一种对应用程序通知进行智能提醒的方法及系统 | |
TW201224972A (en) | Sorting method and apparatus of query results | |
CN104915455A (zh) | 一种基于用户行为的网站异常访问识别方法及系统 | |
CN111414520B (zh) | 一种舆情信息中敏感信息的智能挖掘系统 | |
CN103309894B (zh) | 基于用户属性的搜索实现方法及系统 | |
KR101868729B1 (ko) | 리소스조합 처리방법, 장치, 설비 및 컴퓨터 저장매체 | |
CN102750320A (zh) | 一种网络视频实时关注度的计算方法、装置和系统 | |
CN110895586A (zh) | 生成新闻页面的方法、装置、计算机设备及存储介质 | |
CN116644184B (zh) | 基于数据聚类的人力资源信息管理系统 | |
US9369340B2 (en) | User-centered engagement analysis | |
TWI557662B (zh) | The method of proactively advising events | |
CN109145109B (zh) | 基于社交网络的用户群体消息传播异常分析方法及装置 | |
Albers | The optimal choice of negative binomial charts for monitoring high-quality processes | |
CN105405051B (zh) | 金融事件预测方法和装置 | |
CN111767446A (zh) | 一种基于大数据的数据采集方法 | |
CN116304128B (zh) | 基于大数据的多媒体资讯推荐系统 | |
CN107368464B (zh) | 一种获取招标产品信息的方法及装置 | |
CN113660147B (zh) | 一种基于模糊熵的ip会话序列周期性评估方法 | |
Shi et al. | An approximation model of the collective risk model with INAR (1) claim process | |
CN108681579A (zh) | 一种大数据遗漏率分析方法 | |
CN109033133A (zh) | 基于特征项权重增长趋势的事件检测与跟踪方法 | |
CN106354839B (zh) | 一种检测数据时效性的方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |