CN111753163A - 一种数据采集方法 - Google Patents
一种数据采集方法 Download PDFInfo
- Publication number
- CN111753163A CN111753163A CN202010649685.8A CN202010649685A CN111753163A CN 111753163 A CN111753163 A CN 111753163A CN 202010649685 A CN202010649685 A CN 202010649685A CN 111753163 A CN111753163 A CN 111753163A
- Authority
- CN
- China
- Prior art keywords
- data source
- source website
- access frequency
- website
- optimal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000013480 data collection Methods 0.000 claims 1
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开的数据采集方法,涉及大数据技术领域,利用Q‑Learning算法,分别为各个数据源网站建立Q表,根据Q表中的最佳访问频率,访问相应的数据源网站,采用时间差分法,更新各个数据源网站的最佳访问频率,提高了采集效率。
Description
技术领域
本发明涉及大数据技术领域,具体涉及一种数据采集方法。
背景技术
随着大数据采集范围的扩大,采集的数据源网站的类型多样。如果数据源网站的访问频率过大,会触发网站反爬机制,导致不能正常访问该数据源网站,反之,每次采集的数据量比正常情况少,导致采集效率较低。
现有一般方案就是采用固定频率访问数据源网站,当无法访问数据源网站时,更换ip地址再访问该数据源网站。
发明内容
为解决现有技术的不足,本发明实施例提供了一种数据采集方法,该方法包括以下步骤:
利用Q-Learning算法,分别为各个数据源网站建立Q表,其中,Q表以各个需要访问的数据源网站的最佳访问频率为字段、以各个数据源网站对应的网址为主键;
根据所述Q表中的最佳访问频率,访问相应的数据源网站。
优选地,各个需要访问的数据源网站的最佳访问频率的计算过程包括:
分别使用不同的访问频率访问数据源网站,直至不能正常访问所述数据源网站;
提取能够正常访问所述数据源网站的访问频率,得到访问频率集合;
从所述访问频率集合提取数值最大的访问频率作为所述数据源网站的最佳访问频率。
优选地,该方法还包括:
采用时间差分法,更新各个数据源网站的最佳访问频率。
优选地,分别使用不同的访问频率访问数据源网站包括:
以数值递增的方式,使用不同的访问频率访问所述数据源网站。
本发明实施例提供的数据采集方法具有以下有益效果:
采用迭代的方式,获取各个数据源网站的最佳访问频率并采用时间差分法,更新各个数据源网站的最佳访问频率,提高了采集效率。
具体实施方式
以下结合具体实施例对本发明作具体的介绍。
本发明实施例提供了一种数据采集方法,该方法包括以下步骤:
S101,利用Q-Learning算法,分别为各个数据源网站建立Q表,其中,Q表以各个需要访问的数据源网站的最佳访问频率为字段、以各个数据源网站对应的网址为主键;
S102,根据Q表中的最佳访问频率,访问相应的数据源网站。
可选地,各个需要访问的数据源网站的最佳访问频率的计算过程包括:
分别使用不同的访问频率访问数据源网站,直至不能正常访问数据源网站;
提取能够正常访问数据源网站的访问频率,得到访问频率集合;
从访问频率集合提取数值最大的访问频率作为数据源网站的最佳访问频率。
可选地,该方法还包括:
采用时间差分法,更新各个数据源网站的最佳访问频率。
作为一个具体的实施例,当计算得出一个数据源网站本次的最佳访问频率为30次/分钟而下次的最佳访问频率为40次/分钟时,将40次/分钟为下次访问该数据源网站时的最佳访问频率。
可选地,分别使用不同的访问频率访问数据源网站包括:
以数值递增的方式,使用不同的访问频率访问数据源网站。
作为一个具体的实施例,当以每分钟1次、2次、3次及4次的访问频率均能够正常访问一个数据源网站,而以每分钟5次的访问频率不能够正常访问该数据源网站时,则以每分钟4次的访问频率作为该数据源网站的最佳访问频率。
本发明实施例提供的数据采集方法,利用Q-Learning算法,分别为各个数据源网站建立Q表,根据Q表中的最佳访问频率,访问相应的数据源网站,采用时间差分法,更新各个数据源网站的最佳访问频率,提高了采集效率。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (5)
1.一种数据采集方法,其特征在于,包括:
利用Q-Learning算法,分别为各个数据源网站建立Q表,其中,Q表以各个需要访问的数据源网站的最佳访问频率为字段、以各个数据源网站对应的网址为主键;
根据所述Q表中的最佳访问频率,访问相应的数据源网站。
2.根据权利要求1所述的数据采集方法,其特征在于,各个需要访问的数据源网站的最佳访问频率的计算过程包括:
分别使用不同的访问频率访问数据源网站,直至不能正常访问所述数据源网站;
提取能够正常访问所述数据源网站的访问频率,得到访问频率集合;
从所述访问频率集合提取数值最大的访问频率作为所述数据源网站的最佳访问频率。
3.根据权利要求1所述的数据采集方法,其特征在于,所述方法还包括:
采用时间差分法,更新各个数据源网站的最佳访问频率。
4.根据权利要求1所述的数据采集方法,其特征在于,分别使用不同的访问频率访问数据源网站包括:
以数值递增的方式,使用不同的访问频率访问所述数据源网站。
5.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-4所述的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010649685.8A CN111753163A (zh) | 2020-07-08 | 2020-07-08 | 一种数据采集方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010649685.8A CN111753163A (zh) | 2020-07-08 | 2020-07-08 | 一种数据采集方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111753163A true CN111753163A (zh) | 2020-10-09 |
Family
ID=72680152
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010649685.8A Pending CN111753163A (zh) | 2020-07-08 | 2020-07-08 | 一种数据采集方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111753163A (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103297469A (zh) * | 2012-02-25 | 2013-09-11 | 阿里巴巴集团控股有限公司 | 一种网站数据的采集方法及装置 |
CN107943582A (zh) * | 2017-11-14 | 2018-04-20 | 广东欧珀移动通信有限公司 | 特征处理方法、装置、存储介质及电子设备 |
US20180349514A1 (en) * | 2017-06-05 | 2018-12-06 | International Business Machines Corporation | Domain-oriented predictive model feature recommendation system |
CN109388736A (zh) * | 2018-09-21 | 2019-02-26 | 真相网络科技(北京)有限公司 | 爬虫系统中的响应调度方法 |
CN110213827A (zh) * | 2019-05-24 | 2019-09-06 | 南京理工大学 | 基于深度强化学习的车辆数据采集频率动态调节方法 |
US20200027124A1 (en) * | 2018-07-02 | 2020-01-23 | Bluecore, Inc. | Automatic Frequency Capping |
CN110825791A (zh) * | 2019-11-14 | 2020-02-21 | 北京京航计算通讯研究所 | 基于分布式系统的数据访问性能优化系统 |
CN110895451A (zh) * | 2019-11-14 | 2020-03-20 | 北京京航计算通讯研究所 | 基于分布式系统的数据访问性能优化方法 |
CN110968816A (zh) * | 2019-12-23 | 2020-04-07 | 广东技术师范大学 | 一种基于强化学习的内容缓存方法、装置及存储介质 |
-
2020
- 2020-07-08 CN CN202010649685.8A patent/CN111753163A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103297469A (zh) * | 2012-02-25 | 2013-09-11 | 阿里巴巴集团控股有限公司 | 一种网站数据的采集方法及装置 |
US20180349514A1 (en) * | 2017-06-05 | 2018-12-06 | International Business Machines Corporation | Domain-oriented predictive model feature recommendation system |
CN107943582A (zh) * | 2017-11-14 | 2018-04-20 | 广东欧珀移动通信有限公司 | 特征处理方法、装置、存储介质及电子设备 |
US20200027124A1 (en) * | 2018-07-02 | 2020-01-23 | Bluecore, Inc. | Automatic Frequency Capping |
CN109388736A (zh) * | 2018-09-21 | 2019-02-26 | 真相网络科技(北京)有限公司 | 爬虫系统中的响应调度方法 |
CN110213827A (zh) * | 2019-05-24 | 2019-09-06 | 南京理工大学 | 基于深度强化学习的车辆数据采集频率动态调节方法 |
CN110825791A (zh) * | 2019-11-14 | 2020-02-21 | 北京京航计算通讯研究所 | 基于分布式系统的数据访问性能优化系统 |
CN110895451A (zh) * | 2019-11-14 | 2020-03-20 | 北京京航计算通讯研究所 | 基于分布式系统的数据访问性能优化方法 |
CN110968816A (zh) * | 2019-12-23 | 2020-04-07 | 广东技术师范大学 | 一种基于强化学习的内容缓存方法、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107133234B (zh) | 缓存数据更新的方法、装置及系统 | |
CN107273522B (zh) | 面向多应用的数据存储系统和数据调用方法 | |
US8745012B2 (en) | Log-structured store for streaming data | |
EP3702932A1 (en) | Method, apparatus, device and medium for storing and querying data | |
CN107193827B (zh) | 分库分表的幂等控制方法和装置 | |
KR20190044145A (ko) | 원격 데이터베이스에 대한 변경사항들의 처리 | |
US9235613B2 (en) | Flexible partitioning of data | |
US11609937B2 (en) | Efficient association of related entities | |
US8521768B2 (en) | Data storage and management system | |
CN109690522B (zh) | 一种基于b+树索引的数据更新方法、装置及存储装置 | |
US11249946B2 (en) | Path name cache for notifications of file changes | |
JP6982049B2 (ja) | インデックスを管理するための方法、装置、設備及び記憶媒体 | |
CN102968456B (zh) | 一种栅格数据读取处理方法和装置 | |
US11366821B2 (en) | Epsilon-closure for frequent pattern analysis | |
CN108319608A (zh) | 访问日志存储查询的方法、装置及系统 | |
CN109614411B (zh) | 数据存储方法、设备和存储介质 | |
CN108874304B (zh) | 一种缓存系统的规则配置方法和装置 | |
CN114840487A (zh) | 分布式文件系统的元数据管理方法和装置 | |
JP2015076892A (ja) | 権威ネームサーバの変化に基づくドメイン名の特徴付け | |
CN111753163A (zh) | 一种数据采集方法 | |
US8725765B2 (en) | Hierarchical registry federation | |
CN115277386A (zh) | 一种基于apisix的注册中心管理方法 | |
CN107153653B (zh) | 一种分库分表的轮询访问方法及装置 | |
US11599516B1 (en) | Scalable metadata index for a time-series database | |
CN107679093B (zh) | 一种数据查询方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |