CN111753163A - 一种数据采集方法 - Google Patents

一种数据采集方法 Download PDF

Info

Publication number
CN111753163A
CN111753163A CN202010649685.8A CN202010649685A CN111753163A CN 111753163 A CN111753163 A CN 111753163A CN 202010649685 A CN202010649685 A CN 202010649685A CN 111753163 A CN111753163 A CN 111753163A
Authority
CN
China
Prior art keywords
data source
source website
access frequency
website
optimal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010649685.8A
Other languages
English (en)
Inventor
高强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dingtai Zhiyuan Technology Co ltd
Original Assignee
Beijing Dingtai Zhiyuan Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dingtai Zhiyuan Technology Co ltd filed Critical Beijing Dingtai Zhiyuan Technology Co ltd
Priority to CN202010649685.8A priority Critical patent/CN111753163A/zh
Publication of CN111753163A publication Critical patent/CN111753163A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开的数据采集方法,涉及大数据技术领域,利用Q‑Learning算法,分别为各个数据源网站建立Q表,根据Q表中的最佳访问频率,访问相应的数据源网站,采用时间差分法,更新各个数据源网站的最佳访问频率,提高了采集效率。

Description

一种数据采集方法
技术领域
本发明涉及大数据技术领域,具体涉及一种数据采集方法。
背景技术
随着大数据采集范围的扩大,采集的数据源网站的类型多样。如果数据源网站的访问频率过大,会触发网站反爬机制,导致不能正常访问该数据源网站,反之,每次采集的数据量比正常情况少,导致采集效率较低。
现有一般方案就是采用固定频率访问数据源网站,当无法访问数据源网站时,更换ip地址再访问该数据源网站。
发明内容
为解决现有技术的不足,本发明实施例提供了一种数据采集方法,该方法包括以下步骤:
利用Q-Learning算法,分别为各个数据源网站建立Q表,其中,Q表以各个需要访问的数据源网站的最佳访问频率为字段、以各个数据源网站对应的网址为主键;
根据所述Q表中的最佳访问频率,访问相应的数据源网站。
优选地,各个需要访问的数据源网站的最佳访问频率的计算过程包括:
分别使用不同的访问频率访问数据源网站,直至不能正常访问所述数据源网站;
提取能够正常访问所述数据源网站的访问频率,得到访问频率集合;
从所述访问频率集合提取数值最大的访问频率作为所述数据源网站的最佳访问频率。
优选地,该方法还包括:
采用时间差分法,更新各个数据源网站的最佳访问频率。
优选地,分别使用不同的访问频率访问数据源网站包括:
以数值递增的方式,使用不同的访问频率访问所述数据源网站。
本发明实施例提供的数据采集方法具有以下有益效果:
采用迭代的方式,获取各个数据源网站的最佳访问频率并采用时间差分法,更新各个数据源网站的最佳访问频率,提高了采集效率。
具体实施方式
以下结合具体实施例对本发明作具体的介绍。
本发明实施例提供了一种数据采集方法,该方法包括以下步骤:
S101,利用Q-Learning算法,分别为各个数据源网站建立Q表,其中,Q表以各个需要访问的数据源网站的最佳访问频率为字段、以各个数据源网站对应的网址为主键;
S102,根据Q表中的最佳访问频率,访问相应的数据源网站。
可选地,各个需要访问的数据源网站的最佳访问频率的计算过程包括:
分别使用不同的访问频率访问数据源网站,直至不能正常访问数据源网站;
提取能够正常访问数据源网站的访问频率,得到访问频率集合;
从访问频率集合提取数值最大的访问频率作为数据源网站的最佳访问频率。
可选地,该方法还包括:
采用时间差分法,更新各个数据源网站的最佳访问频率。
作为一个具体的实施例,当计算得出一个数据源网站本次的最佳访问频率为30次/分钟而下次的最佳访问频率为40次/分钟时,将40次/分钟为下次访问该数据源网站时的最佳访问频率。
可选地,分别使用不同的访问频率访问数据源网站包括:
以数值递增的方式,使用不同的访问频率访问数据源网站。
作为一个具体的实施例,当以每分钟1次、2次、3次及4次的访问频率均能够正常访问一个数据源网站,而以每分钟5次的访问频率不能够正常访问该数据源网站时,则以每分钟4次的访问频率作为该数据源网站的最佳访问频率。
本发明实施例提供的数据采集方法,利用Q-Learning算法,分别为各个数据源网站建立Q表,根据Q表中的最佳访问频率,访问相应的数据源网站,采用时间差分法,更新各个数据源网站的最佳访问频率,提高了采集效率。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (5)

1.一种数据采集方法,其特征在于,包括:
利用Q-Learning算法,分别为各个数据源网站建立Q表,其中,Q表以各个需要访问的数据源网站的最佳访问频率为字段、以各个数据源网站对应的网址为主键;
根据所述Q表中的最佳访问频率,访问相应的数据源网站。
2.根据权利要求1所述的数据采集方法,其特征在于,各个需要访问的数据源网站的最佳访问频率的计算过程包括:
分别使用不同的访问频率访问数据源网站,直至不能正常访问所述数据源网站;
提取能够正常访问所述数据源网站的访问频率,得到访问频率集合;
从所述访问频率集合提取数值最大的访问频率作为所述数据源网站的最佳访问频率。
3.根据权利要求1所述的数据采集方法,其特征在于,所述方法还包括:
采用时间差分法,更新各个数据源网站的最佳访问频率。
4.根据权利要求1所述的数据采集方法,其特征在于,分别使用不同的访问频率访问数据源网站包括:
以数值递增的方式,使用不同的访问频率访问所述数据源网站。
5.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-4所述的步骤。
CN202010649685.8A 2020-07-08 2020-07-08 一种数据采集方法 Pending CN111753163A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010649685.8A CN111753163A (zh) 2020-07-08 2020-07-08 一种数据采集方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010649685.8A CN111753163A (zh) 2020-07-08 2020-07-08 一种数据采集方法

Publications (1)

Publication Number Publication Date
CN111753163A true CN111753163A (zh) 2020-10-09

Family

ID=72680152

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010649685.8A Pending CN111753163A (zh) 2020-07-08 2020-07-08 一种数据采集方法

Country Status (1)

Country Link
CN (1) CN111753163A (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103297469A (zh) * 2012-02-25 2013-09-11 阿里巴巴集团控股有限公司 一种网站数据的采集方法及装置
CN107943582A (zh) * 2017-11-14 2018-04-20 广东欧珀移动通信有限公司 特征处理方法、装置、存储介质及电子设备
US20180349514A1 (en) * 2017-06-05 2018-12-06 International Business Machines Corporation Domain-oriented predictive model feature recommendation system
CN109388736A (zh) * 2018-09-21 2019-02-26 真相网络科技(北京)有限公司 爬虫系统中的响应调度方法
CN110213827A (zh) * 2019-05-24 2019-09-06 南京理工大学 基于深度强化学习的车辆数据采集频率动态调节方法
US20200027124A1 (en) * 2018-07-02 2020-01-23 Bluecore, Inc. Automatic Frequency Capping
CN110825791A (zh) * 2019-11-14 2020-02-21 北京京航计算通讯研究所 基于分布式系统的数据访问性能优化系统
CN110895451A (zh) * 2019-11-14 2020-03-20 北京京航计算通讯研究所 基于分布式系统的数据访问性能优化方法
CN110968816A (zh) * 2019-12-23 2020-04-07 广东技术师范大学 一种基于强化学习的内容缓存方法、装置及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103297469A (zh) * 2012-02-25 2013-09-11 阿里巴巴集团控股有限公司 一种网站数据的采集方法及装置
US20180349514A1 (en) * 2017-06-05 2018-12-06 International Business Machines Corporation Domain-oriented predictive model feature recommendation system
CN107943582A (zh) * 2017-11-14 2018-04-20 广东欧珀移动通信有限公司 特征处理方法、装置、存储介质及电子设备
US20200027124A1 (en) * 2018-07-02 2020-01-23 Bluecore, Inc. Automatic Frequency Capping
CN109388736A (zh) * 2018-09-21 2019-02-26 真相网络科技(北京)有限公司 爬虫系统中的响应调度方法
CN110213827A (zh) * 2019-05-24 2019-09-06 南京理工大学 基于深度强化学习的车辆数据采集频率动态调节方法
CN110825791A (zh) * 2019-11-14 2020-02-21 北京京航计算通讯研究所 基于分布式系统的数据访问性能优化系统
CN110895451A (zh) * 2019-11-14 2020-03-20 北京京航计算通讯研究所 基于分布式系统的数据访问性能优化方法
CN110968816A (zh) * 2019-12-23 2020-04-07 广东技术师范大学 一种基于强化学习的内容缓存方法、装置及存储介质

Similar Documents

Publication Publication Date Title
CN107133234B (zh) 缓存数据更新的方法、装置及系统
CN107273522B (zh) 面向多应用的数据存储系统和数据调用方法
US8745012B2 (en) Log-structured store for streaming data
EP3702932A1 (en) Method, apparatus, device and medium for storing and querying data
CN107193827B (zh) 分库分表的幂等控制方法和装置
KR20190044145A (ko) 원격 데이터베이스에 대한 변경사항들의 처리
US9235613B2 (en) Flexible partitioning of data
US11609937B2 (en) Efficient association of related entities
US8521768B2 (en) Data storage and management system
CN109690522B (zh) 一种基于b+树索引的数据更新方法、装置及存储装置
US11249946B2 (en) Path name cache for notifications of file changes
JP6982049B2 (ja) インデックスを管理するための方法、装置、設備及び記憶媒体
CN102968456B (zh) 一种栅格数据读取处理方法和装置
US11366821B2 (en) Epsilon-closure for frequent pattern analysis
CN108319608A (zh) 访问日志存储查询的方法、装置及系统
CN109614411B (zh) 数据存储方法、设备和存储介质
CN108874304B (zh) 一种缓存系统的规则配置方法和装置
CN114840487A (zh) 分布式文件系统的元数据管理方法和装置
JP2015076892A (ja) 権威ネームサーバの変化に基づくドメイン名の特徴付け
CN111753163A (zh) 一种数据采集方法
US8725765B2 (en) Hierarchical registry federation
CN115277386A (zh) 一种基于apisix的注册中心管理方法
CN107153653B (zh) 一种分库分表的轮询访问方法及装置
US11599516B1 (en) Scalable metadata index for a time-series database
CN107679093B (zh) 一种数据查询方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination