CN114722258A - 一种网络爬虫调度方法、装置、设备及可读存储介质 - Google Patents
一种网络爬虫调度方法、装置、设备及可读存储介质 Download PDFInfo
- Publication number
- CN114722258A CN114722258A CN202110001476.7A CN202110001476A CN114722258A CN 114722258 A CN114722258 A CN 114722258A CN 202110001476 A CN202110001476 A CN 202110001476A CN 114722258 A CN114722258 A CN 114722258A
- Authority
- CN
- China
- Prior art keywords
- time period
- information release
- target
- release data
- target time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/48—Program initiating; Program switching, e.g. by interrupt
- G06F9/4806—Task transfer initiation or dispatching
- G06F9/4843—Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种网络爬虫调度方法、装置、设备及可读存储介质,涉及网络爬虫技术领域,该网络爬虫调度方法,包括获取目标网站在目标时刻前第一时间段内的历史信息发布数据;基于历史信息发布数据与第一时间段,获取信息发布数据与目标时间段之间的对应关系,第一时间段包括多个目标时间段;基于对应关系预测目标网站在目标时刻后第二时间段内的预测信息发布数据;基于目标时间段和预测信息发布数据确定调度频率;基于调度频率执行网络爬虫调度。可以解决现有的网络爬虫调度方法无法在节省硬件资源的同时提升网络爬取的时效性的问题。
Description
技术领域
本发明涉及网络爬虫技术领域,尤其涉及一种网络爬虫调度方法、装置、设备及可读存储介质。
背景技术
网络爬虫(Web Crawler)是指一系列按照特定规则进行互联网信息自动抓取的程序或者脚本,它通常从一个称为种子页面的列表页开始抓取,通过遍历请求其中的详情页链接,获取到详情页响应并提取出目标信息。
目前采用的网络爬虫调度方法,是根据间隔时间对种子页面进行抓取和遍历。由于间隔时间的设置存在较多弊端,如果设置的间隔时间过长,不能及时获取到最新的数据,降低了获取数据的时效性;如果设置的间隔时间太短,则对硬件资源要求较高,可见,现有的网络爬虫调度方法无法在节省硬件资源的同时提升网络爬取的时效性。
发明内容
本发明实施例提供一种网络爬虫调度方法、装置、设备及可读存储介质,以解决现有的网络爬虫调度方法无法在节省硬件资源的同时提升网络爬取的时效性的问题。
为解决上述技术问题,本发明是这样实现的:
第一方面,本发明实施例提供了一种网络爬虫调度方法,包括:
获取目标网站在目标时刻前第一时间段内的历史信息发布数据;
基于所述历史信息发布数据与所述第一时间段,获取信息发布数据与目标时间段之间的对应关系,所述第一时间段包括多个所述目标时间段;
基于所述对应关系预测所述目标网站在所述目标时刻后第二时间段内的预测信息发布数据;
基于所述目标时间段和所述预测信息发布数据确定调度频率;
基于所述调度频率执行网络爬虫调度。
第二方面,本发明实施例提供了一种网络爬虫调度装置,包括:
第一处理单元,用于获取目标网站在目标时刻前第一时间段内的历史信息发布数据;
第二处理单元,用于基于所述历史信息发布数据与所述第一时间段,获取信息发布数据与目标时间段之间的对应关系,所述第一时间段包括多个所述目标时间段;
第三处理单元,用于基于所述对应关系预测所述目标网站在所述目标时刻后第二时间段内的预测信息发布数据;
第四处理单元,用于基于所述目标时间段和所述预测信息发布数据确定调度频率;
第五处理单元,用于基于所述调度频率执行网络爬虫调度。
第三方面,本发明实施例提供了一种电子设备,包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的网络爬虫调度方法的步骤。
第四方面,本发明实施例提供一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的网络爬虫调度方法的步骤。
本发明实施例中,首先获取目标网站在目标时刻前第一时间段内的历史信息发布数据;基于历史信息发布数据与第一时间段,获取信息发布数据与目标时间段之间的对应关系,其中,第一时间段包括多个目标时间段;然后基于对应关系预测目标网站在目标时刻后第二时间段内的预测信息发布数据;基于目标时间段和预测信息发布数据确定调度频率;再基于调度频率执行网络爬虫调度。这样,通过对应关系预测目标网站在目标时刻后第二时间段内的预测信息发布数据,充分挖掘了信息发布数据与时间的关联规律,并根据预测信息发布数据确定调度频率,可以提高调度信息的时效性,并节省了硬件资源。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种网络爬虫调度方法的流程图;
图2是本发明实施例提供的一种预测模型的训练流程图;
图3是本发明实施例提供的一种网络爬虫调度装置的结构示意图;
图4是本发明实施例提供的一种电子设备的模块结构示意图;
图5是本发明实施例提供的一种电子设备的硬件结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前采用的网络爬虫调度方法,是根据间隔时间对种子页面进行抓取和遍历。由于间隔时间的设置存在较多弊端,如果设置的间隔时间过长,不能及时获取到最新的数据,降低了获取数据的时效性;如果设置的间隔时间太短,则对硬件资源要求较高,可见,现有的网络爬虫调度方法存在时效性差的问题。基于此,本申请实施例提供了一种网络爬虫调度方法。
应理解,本申请实施例提供的一种网络爬虫调度方法,可以应用但不限于任意网站的信息发布数据的调度和获取,以提升调度的时效性。示例性的,可以应用于视频网站的信息调度,还可以应用于新闻类网站的信息调度,此处仅作示例,不做限定。
请参见图1,图1是本申请实施例提供的一种网络爬虫调度方法的流程图,如图1所示,包括:
步骤101、获取目标网站在目标时刻前第一时间段内的历史信息发布数据。
在该实施方式中,目标网站可以是视频网站或者新闻类网站,历史信息发布数据可以是历史发布的视频数据,也可以是历史发布的新闻文章数据等,此处仅作示例,不做限定,可变换地,在其他可行的实施方式中,目标网站还可以是其他类型的网站,但不论其作何变换,都在本申请实施例保护的范围之内。
此外,目标时刻可以是当前时刻,例如,当前需要进行网络爬虫调度的时刻。第一时间段,可以是当前时刻之前的历史时刻,也就是说,若将历史时刻进行时段划分,那么,历史时刻可以被划分为多个第一时间段。例如,以二月一日为例,那么二月一日之前的所有时刻为历史时刻,第一时间段可以是一天,则,历史时刻包括多个第一时间段。
步骤102、基于历史信息发布数据与第一时间段,获取信息发布数据与目标时间段之间的对应关系,第一时间段包括多个目标时间段。
应理解,目标时间段小于第一时间段,例如,第一时间段为1天,则目标时间段可以是15分钟,也可以是一个小时,在该实施方式中,以目标时间段为15分钟为例进行说明。此处仅作示例,不做限定,可变换地,在其他可行的实施方式中,还可以将目标时间段设置为其他的时间段,但不论其作何变换,都在本申请实施方式保护的范围之内。
在该实施方式中,信息发布数据与目标时间段之间的对应关系是指,在目标时间段内的信息发布数据,例如,某一个15分钟内,目标网站的信息发布数据。
步骤103、基于对应关系预测目标网站在目标时刻后第二时间段内的预测信息发布数据。
可理解地,目标时刻后第二时间段为当前时刻的未来时间段,例如,当前时刻为二月一日,则二月一日之后的时间段都可以是第二时间段。
步骤104、基于目标时间段和预测信息发布数据确定调度频率。
可理解地,调度频率是指对目标网站进行网络爬虫调度的频率。
步骤105、基于调度频率执行网络爬虫调度。
由于目标网站的信息更新具有历史依赖性,也即,目标网站的更新频率个历史更新频率之间存在一定的关联性。上述的网络爬虫调度方法,通过对应关系预测目标网站在目标时刻后第二时间段内的预测信息发布数据,充分挖掘了信息发布数据与时间的关联规律,并根据预测信息发布数据确定调度频率,可以提高调度信息的时效性,并节省了硬件资源。
可选地,基于历史信息发布数据与第一时间段,获取信息发布数据与目标时间段之间的对应关系,包括:
基于预测模型获取信息发布数据与目标时间段之间的对应关系,其中,预测模型为输入为历史信息发布数据,输出为预测信息发布数据的神经网络模型;
基于对应关系预测目标网站在目标时刻后第二时间段内的预测信息发布数据,包括:
获取预测模型输出的在目标时刻后第二时间段内的预测信息发布数据。
在该实施方式中,首先建立预测模型,其中,建立预测模型的步骤如下。
选择至少一种神经网络模型,在该实施方式中,神经网络模型可以是长短期记忆神经网络模型(Long Short-Term Memory,LSTM),将第一时间段内的一部分历史信息发布数据作为输入,第一时间段内一部分的实际信息发布数据作为输出对上述神经网络模型进行训练,其中,将模型的预测值与实际信息发布数据进行比对,若比对的误差大于预设误差阈值,基于实际信息发布数据,更新所预测模型的权重。采用多组样本数据进行迭代训练。以此,可以得到上述的预测模型。
可选地,基于历史信息发布数据与第一时间段,获取信息发布数据与目标时间段之间的对应关系,包括:
将第一时间段等分为多个目标时间段;
基于历史信息发布数据确定每一个目标时间段内的信息发布数量;
确定信息发布数量与目标时间段之间的对应关系。
在该实施方式中,以30天作为第一时间段,获取目标网站近期的30天发布的数据作为历史信息发布数据,并抽取每条历史信息的发布时间。需要说明的是,若无法抽取历史信息的详细发布时间,则可以在较高调度频次,例如,每5分钟调度一次的情况下持续进行信息的爬取,并以两次调度的时间中点近似作为信息的发布时间,这样,累计运行30天获取数据。此处仅作示例,不做限定,可变换地,在其他可行的实施方式中,还可以在一定程度上调整第一时间段的时长。
进一步地,将30天分为若干个目标时间段,例如,可以以15分钟为时间间隔Δt,并进一步对每个时间段内,目标网站的历史信息发布数量进行统计,得到每一个目标时间段内的信息发布数量如下表1所示。
表1目标时间段内的信息发布数量
目标时间段 | 信息发布数量 |
…… | …… |
2020-06-02 09:00:00 | 2 |
2020-06-02 09:15:00 | 6 |
2020-06-02 09:30:00 | 11 |
2020-06-02 09:45:00 | 19 |
2020-06-02 10:00:00 | 15 |
2020-06-02 10:15:00 | 23 |
2020-06-02 10:30:00 | 20 |
2020-06-02 10:45:00 | 13 |
2020-06-02 11:00:00 | 17 |
2020-06-02 11:15:00 | 11 |
2020-06-02 11:30:00 | 9 |
2020-06-02 11:45:00 | 10 |
…… | …… |
进一步地,根据上述每一个目标时间段内的信息发布数量构建预测模型的训练数据集。
在该实施方式中,为了提升预测模型的收敛速度,避免神经元饱和,需要对模型的输入数据进行归一化处理,将信息发布数量归一化至[0,1]的区间内。具体地,此处采用min-max标准归一化处理,可以满足如下计算公式:
式中,Xi为网站信息发布数量的时间序列值,minX表示所有序列值中的最小值,maxX表示所有序列值中的最大值,经过数据归一化,所有序列值被线性变换到[0,1]区间。
其中,归一化后的数据如下表2所示。
表2归一化数据
目标时间段 | 信息发布数量 |
…… | …… |
2020-06-02 09:00:00 | 0.07 |
2020-06-02 09:15:00 | 0.21 |
2020-06-02 09:30:00 | 0.39 |
2020-06-02 09:45:00 | 0.68 |
2020-06-02 10:00:00 | 0.54 |
2020-06-02 10:15:00 | 0.82 |
2020-06-02 10:30:00 | 0.71 |
2020-06-02 10:45:00 | 0.46 |
2020-06-02 11:00:00 | 0.61 |
2020-06-02 11:15:00 | 0.39 |
2020-06-02 11:30:00 | 0.32 |
2020-06-02 11:45:00 | 0.36 |
…… | …… |
进一步地,基于前n个目标时间段的信息发布数量预测n+1个时间段的信息发布数量,此处,n为8,此处仅作示例不做限定,可变换地,在其他可行的实施方式中,n还可以是7或者其他数量的目标时间段。
在该实施方式中,使用前n个目标时间段的信息发布数量作为神经网络模型的输入X,n+1个目标时间段的信息发布数量作为神经网络模型的输出Y。
可变换地,神经网络模型的输入X和输出Y可以通过滚动向前采样的方式得到,例如,每次采样n+1个数据,前n个数据作为输入序列,第n+1个数据作为输出序列,在预测时同样进行滚动预测,以此构造更多的样本数目。
在该实施方式中,选取的第一时间段为30天,每天24小时,以每15分钟作为一个目标时间段,则30天被划分为2880个目标时间段(每一个目标时间段也可以视为一个时间序列值),若每次采样m+1个序列值,使用前m个序列值作为输入序列,第m+1个序列值作为输出序列,则可以构造的样本数目为(2880-m)个。构造的训练数据集部分数据形式如下表3所示(该表以m=8为例)。
表3训练数据集
X | Y |
…… | …… |
0.07,0.21,0.39,0.68,0.54,0.82,0.71,0.46 | 0.61 |
0.21,0.39,0.68,0.54,0.82,0.71,0.46,0.61 | 0.39 |
0.39,0.68,0.54,0.82,0.71,0.46,0.61,0.39 | 0.32 |
0.68,0.54,0.82,0.71,0.46,0.61,0.39,0.32 | 0.36 |
0.54,0.82,0.71,0.46,0.61,0.39,0.32,0.36 | 0.32 |
0.82,0.71,0.46,0.61,0.39,0.32,0.36,0.32 | 0.29 |
0.71,0.46,0.61,0.39,0.32,0.36,0.32,0.29 | 0.36 |
0.46,0.61,0.39,0.32,0.36,0.32,0.29,0.36 | 0.57 |
…… | …… |
进一步地,采用上述训练数据集对神经网络模型进行训练。如图2所示,在该实施方式中,模型的输入为X1,X2,X3,…,Xn,表示的是网站一个历史数据中前n个时段的信息发布数量(每个时段相隔Δt=15min),模型利用前n个时段的信息发布数量,预测第n+1个时段的发布数量,因此在训练和学习时先将第n+1个时段的信息发布数量值作为模型理论输出。整个模型框架由输入层、隐藏层、输出层、网络训练和信息发布数量预测5个模块组成,其中输入层对原始数据进行数据预处理并提取时间序列值,然后构造数据集将其作为神经网络模型的输入,隐藏层由神经网络模型的LSTM单元构建的单层循环神经网络构成,预测结果从输出层模块得到。模型采用梯度下降算法算法训练,预测使用逐点预测的方法进行。
具体而言,在训练神经网络模型的过程中,首先确定神经网络模型的损失函数为均方误差函数MSE,其计算公式满足如下关系:
式中,fi表示LSTM神经网络的预测值,X(n+1)m表示真实的欲预测的第n+1个时刻的信息发布数量,m为神经网络输入的样本数量;
将样本的前n个时刻值作为LSTM输入层的输入向量,第n+1个时刻值作为和网络预测值比较的真实值,LSTM隐藏层中每个LSTM单元的前向计算公式满足如下关系:
ft=σ(Wf×[ht-1,xt]+bf);
it=σ(Wi×[ht-1,xt]+bi);
ot=σ(Wo×[ht-1,xt]+bo);
ht=ot*tanh(ct);
式中,×表示矩阵叉乘,*表示矩阵点乘,Wf、Wi、Wc、Wo分别表示遗忘门、输入门、状态单元、输出门的权重矩阵,bf、bi、bc、bo分别表示遗忘门、输入门、状态单元、输出门的偏置,xt、ft、it、ct、ot、ht分别表示当前时刻网络的输入、遗忘门输出、输入门输出、状态单元输出、输出门输出以及记忆单元的最终输出,ct-1、ht-1分别表示前一时刻的状态门输出和单元输出,c~t表示记忆单元的状态,σ表示sigmod函数。
在模型训练的过程中,将模型预测值和真实值相比较,计算模型的预测误差,然后反向计算每个神经元的误差,对网络进行迭代训练,这样,可以更新模型的权重,实现模型的优化。在训练模型时,当网络迭代训练到均方误差不再下降或满足一定精度时,保存网络参数,得到训练好的网络,此时训练过程结束。
可选地,基于对应关系预测目标网站在目标时刻后第二时间段内的预测信息发布数据,包括:
基于目标网站在目标时刻前的信息发布数量和对应关系,预测目标网站在目标时刻后第二时间段内的预测信息发布数量。
进一步地,基于上述训练好的预测模型,预测目标网站在目标时刻后第二时间段内的预测信息发布数量,这样,可以充分挖掘目标网站在目标时刻后的更新频率与目标时刻前的更新频率的关联规律,进一步基于该关联规律预测目标网站在目标时刻后第二时间段内的预测信息发布数量,可以更加精准的预测目标网站的更新情况。
可选地,基于目标时间段和预测信息发布数据确定调度频率,包括:
基于目标时间段和预测信息发布数据的比值,确定调度频率。
在该实施方式中,计算调度频率的公式可以满足如下关系。
式中,delay为调度频率,fT为预测模型预测出目标网站在目标时刻后的信息发布数量,Δt为序列值的时间间隔,COST为单次采集的成本常数,也可理解为单次采集期望的新链命中条数。
进一步地,基于上述调度频率执行网络爬虫调度,这样,可以提高调度信息的时效性,并节省了硬件资源。
请参见图3,图3是本实施例提供的一种网络爬虫调度装置300,其特征在于,包括:
第一处理单元301,用于获取目标网站在目标时刻前第一时间段内的历史信息发布数据;
第二处理单元302,用于基于所述历史信息发布数据与所述第一时间段,获取信息发布数据与目标时间段之间的对应关系,所述第一时间段包括多个所述目标时间段;
第三处理单元303,用于基于所述对应关系预测所述目标网站在所述目标时刻后第二时间段内的预测信息发布数据;
第四处理单元304,用于基于所述目标时间段和所述预测信息发布数据确定调度频率;
第五处理单元305,用于基于所述调度频率执行网络爬虫调度。
可选地,所述第二处理单元302用于:
基于预测模型获取信息发布数据与目标时间段之间的对应关系,其中,所述预测模型为输入为所述历史信息发布数据,输出为预测信息发布数据的神经网络模型;
所述第三处理单元303用于:
获取所述预测模型输出的在所述目标时刻后第二时间段内的预测信息发布数据。
可选地,所述第四处理单元304用于:
基于所述目标时间段和所述预测信息发布数据的比值,确定调度频率。
可选地,所述第二处理单元302具体用于:
将所述第一时间段等分为多个目标时间段;
基于所述历史信息发布数据确定每一个所述目标时间段内的信息发布数量;
确定所述信息发布数量与所述目标时间段之间的对应关系。
可选地,所述第三处理单元303具体用于:
基于所述目标网站在目标时刻前的信息发布数量和所述对应关系,预测所述目标网站在目标时刻后第二时间段内的预测信息发布数量。
上述的网络爬虫调度装置300,可以实现上述网络爬虫调度方法的各个实施例的步骤,能达到相同的技术效果,此处,不做赘述。
本申请实施例中的网络爬虫调度装置可以是装置,也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备,也可以为非移动电子设备。示例性的,移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本或者个人数字助理(personal digital assistant,PDA)等,非移动电子设备可以为服务器、网络附属存储器(Network Attached Storage,NAS)、个人计算机(personal computer,PC)、电视机(television,TV)、柜员机或者自助机等,本申请实施例不作具体限定。
本申请实施例中的网络爬虫调度装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统,可以为ios操作系统,还可以为其他可能的操作系统,本申请实施例不作具体限定。
本申请实施例提供的网络爬虫调度装置能够实现图1至图2的方法实施例实现的各个过程,为避免重复,这里不再赘述。
可选的,如图4所示,本申请实施例还提供一种电子设备400,包括处理器401,存储器402,存储在存储器402上并可在所述处理器401上运行的程序或指令,该程序或指令被处理器401执行时实现上述方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要说明的是,本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。
图5为实现本申请实施例的一种电子设备的硬件结构示意图。
该电子设备500包括但不限于:射频单元501、网络模块502、音频输出单元503、输入单元504、传感器505、显示单元506、用户输入单元507、接口单元508、存储器509、以及处理器510等部件。
本领域技术人员可以理解,电子设备500还可以包括给各个部件供电的电源(比如电池),电源可以通过电源管理系统与处理器510逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图5中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,在此不再赘述。
其中,处理器510用于:
获取目标网站在目标时刻前第一时间段内的历史信息发布数据;
基于所述历史信息发布数据与所述第一时间段,获取信息发布数据与目标时间段之间的对应关系,所述第一时间段包括多个所述目标时间段;
基于所述对应关系预测所述目标网站在所述目标时刻后第二时间段内的预测信息发布数据;
基于所述目标时间段和所述预测信息发布数据确定调度频率;
基于所述调度频率执行网络爬虫调度。
可选地,处理器510还用于:
基于预测模型获取信息发布数据与目标时间段之间的对应关系,其中,所述预测模型为输入为所述历史信息发布数据,输出为预测信息发布数据的神经网络模型;
所述基于所述对应关系预测所述目标网站在所述目标时刻后第二时间段内的预测信息发布数据,包括:
获取所述预测模型输出的在所述目标时刻后第二时间段内的预测信息发布数据。
可选地,处理器510还用于:
基于所述目标时间段和所述预测信息发布数据的比值,确定调度频率。
可选地,处理器510还用于:
将所述第一时间段等分为多个目标时间段;
基于所述历史信息发布数据确定每一个所述目标时间段内的信息发布数量;
确定所述信息发布数量与所述目标时间段之间的对应关系。
可选地,处理器510还用于:
基于所述目标网站在目标时刻前的信息发布数量和所述对应关系,预测所述目标网站在目标时刻后第二时间段内的预测信息发布数量。
在本申请实施例中,电子设备500,通过对应关系预测目标网站在目标时刻后第二时间段内的预测信息发布数据,充分挖掘了信息发布数据与时间的关联规律,并根据预测信息发布数据确定调度频率,可以提高调度信息的时效性,并节省了硬件资源。
应理解的是,本申请实施例中,输入单元504可以包括图形处理器(GraphicsProcessing Unit,GPU)5041和麦克风5042,图形处理器5041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元506可包括显示面板5061,可以采用液晶显示器、有机发光二极管等形式来配置显示面板5061。用户输入单元507包括触控面板5071以及其他输入设备5072。触控面板5071,也称为触摸屏。触控面板5071可包括触摸检测装置和触摸控制器两个部分。其他输入设备5072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。存储器509可用于存储软件程序以及各种数据,包括但不限于应用程序和操作系统。处理器510可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器510中。
本申请实施例还提供一种可读存储介质,所述可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述图1至图2的方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。
Claims (10)
1.一种网络爬虫调度方法,其特征在于,包括:
获取目标网站在目标时刻前第一时间段内的历史信息发布数据;
基于所述历史信息发布数据与所述第一时间段,获取信息发布数据与目标时间段之间的对应关系,所述第一时间段包括多个所述目标时间段;
基于所述对应关系预测所述目标网站在所述目标时刻后第二时间段内的预测信息发布数据;
基于所述目标时间段和所述预测信息发布数据确定调度频率;
基于所述调度频率执行网络爬虫调度。
2.根据权利要求1所述的网络爬虫调度方法,其特征在于,所述基于所述历史信息发布数据与所述第一时间段,获取信息发布数据与目标时间段之间的对应关系,包括:
基于预测模型获取信息发布数据与目标时间段之间的对应关系,其中,所述预测模型为输入为所述历史信息发布数据,输出为预测信息发布数据的神经网络模型;
所述基于所述对应关系预测所述目标网站在所述目标时刻后第二时间段内的预测信息发布数据,包括:
获取所述预测模型输出的在所述目标时刻后第二时间段内的预测信息发布数据。
3.根据权利要求1所述的网络爬虫调度方法,其特征在于,所述基于所述目标时间段和所述预测信息发布数据确定调度频率,包括:
基于所述目标时间段和所述预测信息发布数据的比值,确定调度频率。
4.根据权利要求1所述的网络爬虫调度方法,其特征在于,
所述基于所述历史信息发布数据与所述第一时间段,获取信息发布数据与目标时间段之间的对应关系,包括:
将所述第一时间段等分为多个目标时间段;
基于所述历史信息发布数据确定每一个所述目标时间段内的信息发布数量;
确定所述信息发布数量与所述目标时间段之间的对应关系。
5.根据权利要求4所述的网络爬虫调度方法,其特征在于,所述基于所述对应关系预测所述目标网站在所述目标时刻后第二时间段内的预测信息发布数据,包括:
基于所述目标网站在目标时刻前的信息发布数量和所述对应关系,预测所述目标网站在目标时刻后第二时间段内的预测信息发布数量。
6.一种网络爬虫调度装置,其特征在于,包括:
第一处理单元,用于获取目标网站在目标时刻前第一时间段内的历史信息发布数据;
第二处理单元,用于基于所述历史信息发布数据与所述第一时间段,获取信息发布数据与目标时间段之间的对应关系,所述第一时间段包括多个所述目标时间段;
第三处理单元,用于基于所述对应关系预测所述目标网站在所述目标时刻后第二时间段内的预测信息发布数据;
第四处理单元,用于基于所述目标时间段和所述预测信息发布数据确定调度频率;
第五处理单元,用于基于所述调度频率执行网络爬虫调度。
7.根据权利要求6所述的网络爬虫调度装置,其特征在于,所述第二处理单元用于:
基于预测模型获取信息发布数据与目标时间段之间的对应关系,其中,所述预测模型为输入为所述历史信息发布数据,输出为预测信息发布数据的神经网络模型;
所述第三处理单元用于:
获取所述预测模型输出的在所述目标时刻后第二时间段内的预测信息发布数据。
8.根据权利要求6所述的网络爬虫调度装置,其特征在于,所述第四处理单元用于:
基于所述目标时间段和所述预测信息发布数据的比值,确定调度频率。
9.一种电子设备,其特征在于,包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1-5中任一所述的网络爬虫调度方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1-5中任一所述的网络爬虫调度方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110001476.7A CN114722258A (zh) | 2021-01-04 | 2021-01-04 | 一种网络爬虫调度方法、装置、设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110001476.7A CN114722258A (zh) | 2021-01-04 | 2021-01-04 | 一种网络爬虫调度方法、装置、设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114722258A true CN114722258A (zh) | 2022-07-08 |
Family
ID=82233523
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110001476.7A Pending CN114722258A (zh) | 2021-01-04 | 2021-01-04 | 一种网络爬虫调度方法、装置、设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114722258A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116668086A (zh) * | 2023-05-09 | 2023-08-29 | 广州钛动科技股份有限公司 | 爬虫程序的调度方法、调度装置、服务器和存储介质 |
CN116668086B (zh) * | 2023-05-09 | 2024-06-11 | 广州钛动科技股份有限公司 | 爬虫程序的调度方法、调度装置、服务器和存储介质 |
-
2021
- 2021-01-04 CN CN202110001476.7A patent/CN114722258A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116668086A (zh) * | 2023-05-09 | 2023-08-29 | 广州钛动科技股份有限公司 | 爬虫程序的调度方法、调度装置、服务器和存储介质 |
CN116668086B (zh) * | 2023-05-09 | 2024-06-11 | 广州钛动科技股份有限公司 | 爬虫程序的调度方法、调度装置、服务器和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11301755B2 (en) | Methods, computing devices, and storage media for predicting traffic matrix | |
CN110476172A (zh) | 用于卷积神经网络的神经架构搜索 | |
CN112488183B (zh) | 一种模型优化方法、装置、计算机设备及存储介质 | |
CN112052948B (zh) | 一种网络模型压缩方法、装置、存储介质和电子设备 | |
CN112910710B (zh) | 网络流量时空预测方法、装置、计算机设备和存储介质 | |
US11334758B2 (en) | Method and apparatus of data processing using multiple types of non-linear combination processing | |
US20210232986A1 (en) | Parking lot free parking space predicting method, apparatus, electronic device and storage medium | |
CN113301442A (zh) | 确定直播资源的方法、设备、介质及程序产品 | |
CN111460384A (zh) | 策略的评估方法、装置和设备 | |
CN113284142A (zh) | 图像检测方法、装置、计算机可读存储介质及计算机设备 | |
CN112035320A (zh) | 业务监控方法、装置、电子设备及可读存储介质 | |
CN114494776A (zh) | 一种模型训练方法、装置、设备以及存储介质 | |
CN114863243A (zh) | 一种模型的数据遗忘方法、装置、设备及存储介质 | |
CN111627029B (zh) | 图像实例分割结果的获取方法及装置 | |
CN113869377A (zh) | 训练方法、装置及电子设备 | |
CN114722258A (zh) | 一种网络爬虫调度方法、装置、设备及可读存储介质 | |
CN111553324B (zh) | 人体姿态预测值校正方法、装置,服务器及存储介质 | |
CN113961765A (zh) | 基于神经网络模型的搜索方法、装置、设备和介质 | |
CN113515701A (zh) | 信息推荐方法及装置 | |
CN114492905A (zh) | 基于多模型融合的客诉率预测方法、装置和计算机设备 | |
CN112948763A (zh) | 件量预测方法、装置、电子设备及存储介质 | |
CN111598037B (zh) | 人体姿态预测值的获取方法、装置,服务器及存储介质 | |
CN113672801B (zh) | 信息的处理方法、装置、存储介质和电子设备 | |
KR102531291B1 (ko) | 건물의 에너지 소비량 예측 방법 및 상기 방법을 수행하는 컴퓨팅 장치 | |
CN115630687A (zh) | 模型训练方法、交通流量预测方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |