CN110020073B

CN110020073B - 一种直播网页爬取方法及装置

Info

Publication number: CN110020073B
Application number: CN201710946257.XA
Authority: CN
Inventors: 满悦
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2017-10-12
Filing date: 2017-10-12
Publication date: 2021-04-27
Anticipated expiration: 2037-10-12
Also published as: CN110020073A

Abstract

本发明公开了一种直播网页爬取方法及装置，该方法包括：接收直播网页爬取指令，所述直播网页爬取指令包括直播时段、目标直播网页地址；在直播时段内，将目标直播网页地址所对应的目标直播网页加载至预设浏览器的标签页中；若目标直播网页在标签页中加载完成，将预定义的爬取脚本文件嵌入到标签页中；实时检测目标直播网页是否符合预设爬取条件，并在符合预设爬取条件的情况下，运行爬取脚本文件，爬取目标直播网页上的直播数据。这就可以在直播网页运行的过程中不断爬取直播数据，从而保证所爬取直播数据的全面性。

Description

一种直播网页爬取方法及装置

技术领域

本发明涉及互联网技术领域，尤其涉及一种直播网页爬取方法及装置。

背景技术

视频直播是指用户通过网络收看远端正在进行的现场视频实况，比如，主播表演、赛事、会议等，具有较高的实时性。

由于直播网页上的直播数据，例如，弹幕内容和参观人数等会实时更新，并且不会被保存下来，因此，传统静态网页爬虫无法爬取到所有的直播数据。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的直播网页爬取方法及装置。

具体技术方案如下：

一种直播网页爬取方法，包括：

接收直播网页爬取指令，所述直播网页爬取指令包括直播时段、目标直播网页地址；

在所述直播时段内，将所述目标直播网页地址所对应的目标直播网页加载至预设浏览器的标签页中；

若所述目标直播网页在所述标签页中加载完成，将预定义的爬取脚本文件嵌入到所述标签页中；

实时检测所述目标直播网页是否符合预设爬取条件，并在符合所述预设爬取条件的情况下，运行所述爬取脚本文件，爬取所述目标直播网页上的直播数据。

可选的，还包括：

将爬取到的直播数据上传至服务器。

可选的，还包括：

判断爬取到的直播数据中是否存在和历史爬取的历史直播数据不同的新数据；

若是，将所述新数据上传至服务器。

可选的，当所述预设爬取条件为预先生成的爬取时间条件时，所述实时检测所述目标直播网页是否符合预设爬取条件，包括：

实时获取所述目标直播网页的当前时间点；

判断所述当前时间点是否符合所述爬取时间条件。

可选的，爬取时间条件的生成过程，包括：

确定所述目标直播网页在所述标签页中加载完成时的加载完成时间点；

根据所述加载完成时间点和预设时间间隔，计算所述直播时段内的全部爬取时间点；

生成包含有全部所述爬取时间点的爬取时间条件。

可选的，所述运行所述爬取脚本文件，爬取所述目标直播网页上的直播数据，包括：

根据所述目标直播网页地址，确定所述目标直播网页所对应的规则文件；

依据所述规则文件生成所述目标直播网页的元素路径配置文件；

基于所述元素路径配置文件中的元素路径信息运行所述爬取脚本文件，爬取所述目标直播网页上的直播数据。

一种直播网页爬取装置，包括：指令接收模块、网页加载模块、脚本文件嵌入模块和数据爬取模块；

所述指令接收模块，用于接收直播网页爬取指令，所述直播网页爬取指令包括直播时段、目标直播网页地址；

所述网页加载模块，用于在所述直播时段内，将所述目标直播网页地址所对应的目标直播网页加载至预设浏览器的标签页中；

所述脚本文件嵌入模块，用于若检测到所述目标直播网页在所述标签页中加载完成，将预定义的爬取脚本文件嵌入到所述标签页中；

所述数据爬取模块，用于实时检测所述目标直播网页是否符合预设爬取条件，并在符合所述预设爬取条件的情况下，运行所述爬取脚本文件，爬取所述目标直播网页上的直播数据。

可选的，还包括：数据上传模块；

所述数据上传模块，用于判断爬取到的直播数据中是否存在和历史爬取的历史直播数据不同的新数据；若是，将所述新数据上传至服务器。

一种存储介质，所述存储介质包括存储的程序，其中，所述程序执行上述技术方案任意一项所述的直播网页爬取方法。

一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行上述技术方案任意一项所述的直播网页爬取方法。

借由上述技术方案，本发明提供的直播网页爬取方法及装置，可对定时直播的直播网页进行数据爬取；具体的，在直播开始时，先将直播网页加载至预设浏览器的标签页中，以打开直播网页；进而在目标直播网页加载完成，也就是直播网页开始运行之后，以预设爬取条件为依据、利用嵌入到标签中的爬取脚本文件循环，爬取直播网页上的直播数据。这就可以在直播网页运行的过程中不断爬取直播数据，从而保证所爬取直播数据的全面性。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了直播网页爬取方法的方法流程图；

图2示出了直播网页爬取方法的部分方法流程图；

图3示出了直播网页爬取方法的另一部分方法流程图；

图4示出了直播网页爬取方法的另一方法流程图；

图5示出了直播网页爬取装置的结构示意图；

图6示出了直播网页爬取装置的另一结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明实施例提供一种直播网页爬取方法，该方法的方法流程图如图1所示，包括如下步骤：

S10，接收直播网页爬取指令，所述直播网页爬取指令包括直播时段、目标直播网页地址；

在执行步骤S10的过程中，由于视频直播在具有实时性的同时，也具有定时性，也就是说，视频直播的直播时段是可以预知的，例如，某个主播将在晚上9点开始直播、晚上10点结束；因此，在采集某一直播网页的直播数据时，可在其直播时段内爬取直播数据，这就可避免无效爬取。

在具体实施时，可将直播网页爬取指令发送至后端服务器，也就是预先在后端服务器中配置一个定时直播爬取任务，其中就包括目标直播网页的地址以及其直播时段。在直播开始，也就是当前时间点到达直播时段的开始时刻时，由后端服务器选定一台执行爬取任务的服务器，进而将该直播网页爬取指令发送至选定的服务器，由此选定的服务器进行后续步骤示出的爬取过程。当然，还可直接将直播网页爬取指令发送至进行执行爬取任务的服务器，由该服务器自行计时，在直播开始时执行后续步骤示出的爬取过程，本实施例不做具体限定。

S20，在直播时段内，将目标直播网页地址所对应的目标直播网页加载至预设浏览器的标签页中；

在执行步骤S20的过程中，若当前时间点为直播开启时间点，则将目标直播网页地址输至预设浏览器的地址栏中，以在预设浏览器的标签页中加载该目标直播网页地址所对应的目标直播网页，比如，在Chrome浏览器的标签页中打开直播节目A的网页。

S30，若目标直播网页在标签页中加载完成，将预定义的爬取脚本文件嵌入到标签页中；

在执行步骤S30的过程中，确定目标直播网页在标签页中是否加载完成，需要确定两部分内容，一是确定页面加载是否完成，二是确定异步加载是否完成。由于onload事件会在页面或者图像加载完成之后立即发生，因此可通过检测是否存在onload事件来确定目标直播网页的页面加载是否完成；而判断目标直播网页异步加载是否完成，则是通过检测其异步加载数据是否加载完成来实现的。

检测目标直播网页的异步加载是否完成的过程可为：利用预置网络监控器监控预设浏览器向其对应的服务器发送的异步加载请求和对应的服务器反馈的异步加载响应；进而，判断异步加载请求与异步加载响应的数量是否一致；若一致，则表示目标直播网页的异步加载完成；反之，则表示目标直播网页的异步加载未完成。

在具体实施时，预置网络监控器可监控浏览器的应用程序编程(ApplicationProgram Inferface，API)接口的交互数据。可将该网络监控器预先嵌入预设浏览的标签页中，当标签页加载目标直播网页时，通过监控预设浏览器的API接口，实现监控预设浏览器与对应服务器之间的交互数据，也就是异步加载请求和异步加载响应。

当然，还可通过匹配异步加载请求和异步加载响应的内容，来判断所有异步加载请求都有对应的异步加载响应，本实施例不做具体限定，可根据实际需要具体选择。

S40，实时检测目标直播网页是否符合预设爬取条件，并在符合预设爬取条件的情况下，运行爬取脚本文件，爬取目标直播网页上的直播数据。

在执行步骤S40的过程中，预先设定的爬取条件可以以时间为基准，例如，每间隔1S爬取一次；还可以以网页内容为基准，例如，一旦确定直播网页内容存在更新就进行爬取；当然，还可以用户指令为基准。爬取条件的设定本实施例不做具体限定，可按照实际需要选择。

在预设爬取条件为预先生成的爬取时间条件时，可实时获取目标直播网页的当前时间点，进一步，判断当前时间点是否符合片爬取时间条件，若符合，则运行爬取脚本文件，爬取目标直播网页上的直播数据。其中，爬取时间条件中由多个爬取时间点，爬取时间点可预先设定，还可基于预设时间间隔来确定。

在具体实现过程中，爬取时间条件的生成过程，可以具体采用以下步骤，方法流程图如图2所示：

S201，确定目标直播网页在标签页中加载完成时的加载完成时间点；

S202，根据加载完成时间点和预设时间间隔，计算直播时段内的全部爬取时间点；

在执行步骤S202的过程中，若直播时段为0点到0点30分、加载完成时间点为0点01秒、预设时间间隔为1S，则计算0点01秒～0点30分之间有179个爬取时间点，分别为0点02秒、0点03秒、0点04秒……0点30分。

S203，生成包含有全部爬取时间点的爬取时间条件。

在具体实现过程中，步骤S40中“运行所述爬取脚本文件，爬取所述目标直播网页上的直播数据”，可以具体采用以下步骤，方法流程图如图3所示：

S301，根据目标直播网页地址，确定目标直播网页所对应的规则文件；

在执行步骤S301的过程中，可根据目标直播网页地址确定目标直播网页的网站域名，进一步，从预先存储的规则文件中查找与该网站域名对应的规则文件，也就是目标直播网页所对应的规则文件。其中，规则文件在指网页的样式信息文件，比如，针对网站中包含的文字、图片、音频、视频和动画等页面内容信息所设置的显示规则信息。

本实施例中可以采用现有抓取规则文件的方法，比如，分析网站的编写代码，并提取其中CSS代码中包含的样式信息。在网站编辑过程中，对于网页的内容和样式两者的处理是分开的，具体的，利用HTML文件编辑网页的内容，利用CSS文件控制网页的样式，并将不同网页的样式所对应的CSS文件存储于CSS样式表中。因此，可通过CSS样式表对网页的样式信息进行管理，而规则文件即是与网站对应的CSS文件，其存储于CSS样式表中。

S302，依据规则文件生成目标直播网页的元素路径配置文件；

在执行步骤S302的过程中，规则文件中包含有网页中各元素的元素路径信息，即CSS样式表中包含有网页中各元素的元素路径信息，其中，网页中的元素是指在网页中显示的文字、图片、音频、视频和动画等页面内容信息，元素路径信息是指元素在网页中的位置信息。

本实施例中，可通过预先编写的浏览器插件加载规则文件中的元素路径信息，以生成元素路径配置文件，用于在后续运行爬取脚本文件时，可以根据元素路径配置文件中所包含的元素路径信息，实现网页中各元素在其网页位置处的直播数据。

S303，基于元素路径配置文件中的元素路径信息运行爬取脚本文件，爬取目标直播网页上的直播数据。

目标直播网页上的直播数据由网页中全部元素的在其网页位置处的直播数据构成。

以上步骤S201～步骤S203仅仅是本申请实施例公开的爬取时间条件的生成过程的一种优选的实现方式，有关此过程的具体实现方式可根据自己的需求任意设置，在此不做限定。

以上步骤S301～步骤S303仅仅是本申请实施例公开的步骤S40中“运行所述爬取脚本文件，爬取所述目标直播网页上的直播数据”过程的一种优选的实现方式，有关此过程的具体实现方式可根据自己的需求任意设置，在此不做限定。

本发明实施例提供的直播网页爬取方法，可在直播网页运行的过程中不断爬取直播数据，从而保证所爬取直播数据的全面性。

基于上述实施例提供的直播网页爬取方法，本发明实施例提供另一种直播网页爬取方法，方法流程图如图4所示，包括如下步骤：

S50，将爬取到的直播数据上传至服务器；

在执行步骤S50的过程中，在每次爬取完成目标直播网上的直播数据之后，将爬取到的直播数据实时上传至服务器，从而实现将所爬取到的全部直播数据保存于服务器，在服务器中进行数据备份。

当然，为保证上传至服务器的直播数据的有效性，还可以仅上传爬取到的新数据，具体的，在每次爬取完成目标直播网上的直播数据之后，会得到目标直播网页中各个元素的直播数据；对于每一个元素来说，可将此次爬取到的直播数据与历史爬取，也就是上一次爬取到的该元素的历史直播数据进行比较，以确定该元素此次爬取到的直播数据中是否存在新数据；若存在新数据，则将该元素的新数据上传至服务器。在本发明实施例提供的直播网页爬取方法中，步骤S10～步骤S40的执行过程与上述实施例中步骤S10～步骤S40一致，在此不再赘述，请参照本发明上述实施例公开的部分。

本发明实施例提供的直播网页爬取方法，可在直播网页运行的过程中不断爬取直播数据，并将爬取到的直播数据上传至服务器。从而在保证所爬取直播数据的全面性的前提下，实现对直播数据进行备份。

基于上述实施例提供的直播网页爬取方法，本发明实施例则提供执行上述直播网页爬取方法的装置，其结构示意图如图5所示，包括：指令接收模块10、网页加载模块20、脚本文件嵌入模块30和数据爬取模块40；

指令接收模块10，用于接收直播网页爬取指令，所述直播网页爬取指令包括直播时段、目标直播网页地址；

网页加载模块20，用于在直播时段内，将目标直播网页地址所对应的目标直播网页加载至预设浏览器的标签页中；

脚本文件嵌入模块30，用于若检测到目标直播网页在所述标签页中加载完成，将预定义的爬取脚本文件嵌入到所述标签页中；

数据爬取模块40，用于实时检测目标直播网页是否符合预设爬取条件，并在符合预设爬取条件的情况下，运行爬取脚本文件，爬取目标直播网页上的直播数据。

本发明实施例提供的直播网页爬取装置，可在直播网页运行的过程中不断爬取直播数据，从而保证所爬取直播数据的全面性。

基于上述实施例提供的直播网页爬取装置，本发明实施例提供另一种直播网页爬取装置，其结构示意图如图6所示，还包括：数据上传模块50；

数据上传模块50，用于判断爬取到的直播数据中是否存在和历史爬取的历史直播数据不同的新数据；若是，将所述新数据上传至服务器。

本发明实施例提供的直播网页爬取装置，可在直播网页运行的过程中不断爬取直播数据，并将爬取到的直播数据上传至服务器。从而在保证所爬取直播数据的全面性的前提下，实现对直播数据进行备份。

可选的，本发明的实施例还提供另一种直播网页爬取装置，所述直播网页爬取装置包括处理器和存储器，上述指令接收模块、网页加载模块、脚本文件嵌入模块和数据爬取模块等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来不断爬取直播数据。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本发明实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现所述直播网页爬取方法。

本发明实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述直播网页爬取方法。

本发明实施例提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现以下步骤：

其中，还包括：

将爬取到的直播数据上传至服务器。

其中，还包括：

若是，将所述新数据上传至服务器。

其中，当所述预设爬取条件为预先生成的爬取时间条件时，所述实时检测所述目标直播网页是否符合预设爬取条件，包括：

实时获取所述目标直播网页的当前时间点；

判断所述当前时间点是否符合所述爬取时间条件。

其中，爬取时间条件的生成过程，包括：

生成包含有全部所述爬取时间点的爬取时间条件。

其中，运行所述爬取脚本文件，爬取所述目标直播网页上的直播数据，包括：

本文中的设备可以是服务器、PC、PAD、手机等。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：

其中，还包括：

将爬取到的直播数据上传至服务器。

其中，还包括：

若是，将所述新数据上传至服务器。

实时获取所述目标直播网页的当前时间点；

判断所述当前时间点是否符合所述爬取时间条件。

其中，爬取时间条件的生成过程，包括：

生成包含有全部所述爬取时间点的爬取时间条件。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种直播网页爬取方法，其特征在于，包括：

实时检测所述目标直播网页是否符合预设爬取条件，并在符合所述预设爬取条件的情况下，运行所述爬取脚本文件，爬取所述目标直播网页上的直播数据；

当所述预设爬取条件为预先生成的爬取时间条件时，所述实时检测所述目标直播网页是否符合预设爬取条件，包括：

实时获取所述目标直播网页的当前时间点；

判断所述当前时间点是否符合所述爬取时间条件；

爬取时间条件的生成过程，包括：

生成包含有全部所述爬取时间点的爬取时间条件。

2.根据权利要求1所述的方法，其特征在于，还包括：

将爬取到的直播数据上传至服务器。

3.根据权利要求1所述的方法，其特征在于，还包括：

若是，将所述新数据上传至服务器。

4.根据权利要求1所述的方法，其特征在于，所述运行所述爬取脚本文件，爬取所述目标直播网页上的直播数据，包括：

5.一种直播网页爬取装置，其特征在于，包括：指令接收模块、网页加载模块、脚本文件嵌入模块和数据爬取模块；

所述数据爬取模块，用于实时检测所述目标直播网页是否符合预设爬取条件，并在符合所述预设爬取条件的情况下，运行所述爬取脚本文件，爬取所述目标直播网页上的直播数据；当所述预设爬取条件为预先生成的爬取时间条件时，所述实时检测所述目标直播网页是否符合预设爬取条件，包括：

实时获取所述目标直播网页的当前时间点；

判断所述当前时间点是否符合所述爬取时间条件；

爬取时间条件的生成过程，包括：

生成包含有全部所述爬取时间点的爬取时间条件。

6.根据权利要求5所述的装置，其特征在于，还包括：数据上传模块；

7.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，所述程序执行权利要求1至4中任意一项所述的直播网页爬取方法。

8.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至4中任意一项所述的直播网页爬取方法。