CN103455600A - 一种视频url抓取方法、装置及服务器设备 - Google Patents

一种视频url抓取方法、装置及服务器设备 Download PDF

Info

Publication number
CN103455600A
CN103455600A CN2013103956756A CN201310395675A CN103455600A CN 103455600 A CN103455600 A CN 103455600A CN 2013103956756 A CN2013103956756 A CN 2013103956756A CN 201310395675 A CN201310395675 A CN 201310395675A CN 103455600 A CN103455600 A CN 103455600A
Authority
CN
China
Prior art keywords
video
url
webpage
digital certificate
tab
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013103956756A
Other languages
English (en)
Other versions
CN103455600B (zh
Inventor
徐琰
张少伟
左景龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiaomi Inc
Original Assignee
Xiaomi Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiaomi Inc filed Critical Xiaomi Inc
Priority to CN201310395675.6A priority Critical patent/CN103455600B/zh
Publication of CN103455600A publication Critical patent/CN103455600A/zh
Application granted granted Critical
Publication of CN103455600B publication Critical patent/CN103455600B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种视频URL抓取方法、装置及服务器设备。所述方法包括:接收终端设备发送的包含网页URL的视频URL抓取请求;根据所述网页URL从对应的网页中识别视频标签,并从所述视频标签中抓取第一视频URL;将所抓取的第一视频URL与所述网页URL对应存储。

Description

一种视频URL抓取方法、装置及服务器设备
技术领域
本发明涉及网页分析技术领域,尤其涉及一种视频URL抓取方法、装置及服务器设备。
背景技术
当用户需要下载的内容比较冷门或下载速度较慢时,可以采用离线下载的方式下载视频。离线下载其实就是下载工具的服务器代替电脑用户先行下载。比如,电脑用户的正常下载最大速度能达到200KB/S,但是某个资源是冷门资源,下载速度只能达到10KB/S,电脑用户就得下很久,如果用户使用离线下载技术,就可以让服务商的服务器代替电脑用户下载,电脑用户就可以关掉下载工具或者机器,节约时间和电费。等到离线下载完毕,电脑用户再从下载工具的服务器上以200KB/S的速度下载到自己的电脑上。即使对于热门资源,离线下载也能省却许多挂机等待的时间,最重要的是能够腾出电脑带宽做其他的事情。
现有对于视频资源的离线下载,都是基于对自身网站的资源调用,即其知道相关视频的视频统一资源定位符(Uniform Resource Locator,URL)。但是,当视频URL地址未知的情况下,就不能自动抓取视频资源。
发明内容
本发明实施例提供一种视频URL抓取方法、装置及服务器设备,用于实现服务器设备对网页上视频URL的自动抓取。
一种视频URL抓取方法,包括:
接收终端设备发送的包含网页URL的视频URL抓取请求;
根据所述网页URL从对应的网页中识别视频标签,并从所述视频标签中抓取第一视频URL;
将所抓取的第一视频URL与所述网页URL对应存储。
本实施例中,当用户通过终端访问视频网站时,服务器设备接收包含该视频网站的网页URL的视频URL抓取请求,将自动从该视频网站的网页上抓取视频URL。这样,不需要每个终端都进行视频URL的抓取,当用户需要进行视频下载时,服务器设备将抓取到的视频URL反馈给终端设备。不仅降低了视频URL抓取的时间,还节约了终端设备的CPU资源及网络资源。终端设备通过获取到视频URL,便于用户对视频资源的批量下载,提高下载效率。另外,通过对提取到的视频标签的类型进行识别,来抓取视频URL,使得在视频URL未知的情况下,可以从网页上准确地抓取可用视频URL。
优选地,根据所述网页URL从对应的网页中识别视频标签包括:
扫描所述网页URL对应的网页的DOM树,找到所有文字节点;
从所有文字节点中提取包括有预设特征文字的文字节点;
将包括有预设特征文字的文字节点的父节点作为所述视频标签。
本实施例中,通过视频标签的文字特性对视频标签进行提取,可以快速准确地提取到网页URL对应的网页中的视频标签。
优选地,根据所述网页URL从对应的网页中识别视频标签之后还包括:
从所述网页URL对应的网页提取视频标题;
分析所述视频标签是否包含前导符,所述前导符为所述视频标签中除所述预设特征文字外的文字;
当所述视频标签包含前导符,分析所述前导符中是否包含有提取到的所述视频标题;
当所述视频标签中的前导符不包含有提取到的所述视频标题时,判定所述视频标签无效,不作处理。
本方案中,通过对视频标签前导符的验证,实现对视频标签的准确提取,过滤掉无效的视频标签。
优选地,根据所述网页URL从对应的网页中识别视频标签之后还包括:
检测所述视频标签是否为超链接或所述视频标签是否包含onclick事件;
当所述视频标签不是超链接且不包含onclick事件时,判定所述视频标签无效,不作处理。
本方案中,进一步提高视频标签提取的准确性,过滤掉无效的视频标签。
优选地,根据所述网页URL从对应的网页中识别视频标签之前还包括:
解析所述网页URL对应的网页,判断所述网页URL对应的网页是否包含video标签;
当所述网页URL对应的网页包含video标签,从所述网页URL对应的网页上提取视频标签。
本方案中,提高视频标签提取的效率,避免对不包含视频元素的网页进行视频标签提取,而造成对处理资源的浪费。
优选地,所述视频URL抓取方法,还包括:
在所述接收终端设备发送的包含网页URL的视频URL抓取请求时,检查是否已存储有与所述网页URL相对应的所述第一视频URL;
若没有与所述网页URL相对应的所述第一视频URL时,则根据所述网页URL从对应的网页中识别视频标签,并从所述视频标签中抓取第一视频URL;并将所抓取的第一视频URL反馈给所述终端设备;
若有与所述网页URL相对应的所述第一视频URL时,则将所存储的与所述网页URL相对应的第一视频URL反馈给所述终端设备。
本实施例中,通过检查该网页是否已进行过视频URL的抓取,来确定是否执行视频URL抓取的操作。如果已进行过视频URL的抓取,直接使用已有的抓取结果即可,只有当未对该网页进行过视频URL抓取时,才执行抓取操作。这样,提高了服务器设备视频URL抓取的效率,节约了服务器设备的CPU资源及网络资源。
优选地,所述视频URL抓取方法,还包括:
若存储有与所述网页URL相对应的所述第一视频URL时,判断最近一次从所述网页URL中抓取第一视频URL的时间与本次视频URL抓取请求时间之间的时间间隔是否已超过预设的时间阈值;
若超过所述预设的时间阈值,则根据所述网页URL从对应的网页中识别视频标签,并从所述视频标签中抓取第一视频URL;并将所抓取的第一视频URL与所述网页URL对应存储,并将所抓取的第一视频URL反馈给所述终端设备;
若未超过所述预设的时间阈值,则将所存储的与所述网页URL相对应的第一视频URL反馈给所述终端设备。
优选地,所述视频URL抓取方法,还包括:根据所述网页URL定时从所述网页上抓取第一视频URL,以更新所存储的第一视频URL。
本实施例中,通过以上两种方式对抓取到的视频URL进行更新,为用户提供最新的视频URL,提高视频URL抓取的及时性准确性。
优选地,所述方法还包括:
根据所述第一视频URL下载视频;
在视频下载完成后,根据视频下载后的存储位置生成所述视频的第二视频URL;
将所述第二视频URL与所述第一视频URL所对应的网页URL对应存储。
本实施例中,服务器设备抓取到第一视频URL后,将视频下载到服务器设备上,并为该视频重新生成一个URL,即服务器设备的URL,作为该视频的第二视频URL,用该第二视频URL替换掉抓取到的第一视频URL。终端设备根据该第二视频URL进行视频资源的下载,避免由于网页上的第一视频URL过期造成的无法下载的情况,保证提供给用户的视频URL的可用性,提高视频下载速度。
优选地,所述根据所述第一视频URL下载视频,包括:
计算所下载视频的数字证书;
将计算得到的数字证书与已存储视频的数字证书进行比较;
当已存储视频的数字证书中有与所下载视频的数字证书相同的数字证书时,则删除所下载视频;
当已存储视频的数字证书中没有与所下载视频的数字证书相同的数字证书时,则存储所下载视频。
本实施例中,通过对已下载视频数字证书的分析比较来去除重复视频,节约了服务器设备的存储资源。
优选地,所述根据所述第一视频URL下载视频,包括:
获取所述第一视频URL所对应视频的数字证书;
将所获得的数字证书与已存储视频的数字证书进行比较;
当已存储视频的数字证书中有与所获得的数字证书相同的数字证书时,则不下载所述第一视频URL所对应视频;根据与所获得的数字证书具有相同数字证书的已存储视频的存储位置生成所述第二视频URL;
当已存储视频的数字证书中没有与所获得的数字证书相同的数字证书时,则存储所下载视频。
本实施例中,通过对未下载视频数字证书的分析比较来避免重复下载相同视频,不仅节约了服务器设备的存储资源,还节约了服务器的CPU资源及网络资源。
优选地,所述数字证书包括根据所述视频计算的Hash码。
本实施例中,通过比较数字证书,可以准确地判断视频是否相同,去除重复视频。
一种视频URL抓取装置,包括:
接收模块,用于接收终端设备发送的包含网页URL的视频URL抓取请求;
抓取模块,用于根据所述网页URL从对应的网页中识别视频标签,并从所述视频标签中抓取第一视频URL;
存储模块,用于将所抓取的第一视频URL与所述网页URL对应存储。
优选地,所述抓取模块包括:
标签提取子模块,用于扫描所述网页URL对应的网页的DOM树,找到所有文字节点;从所有文字节点中提取包括有预设特征文字的文字节点;将包括有预设特征文字的文字节点的父节点作为所述视频标签。
优选地,所述抓取模块还包括:标题提取子模快、第一分析子模块和第二分析子模块,
所述标题提取子模快,用于从所述网页URL对应的网页提取视频标题;
所述第一分析子模块,用于分析所述视频标签是否包含前导符,所述前导符为所述视频标签中除所述预设特征文字外的文字;
所述第二分析子模块,用于当所述视频标签包含前导符,分析所述前导符中是否包含有提取到的所述视频标题;
所述标签提取子模块,用于当所述视频标签中的前导符不包含有提取到的所述视频标题时,判定所述视频标签无效,不作处理。
优选地,所述抓取模块还包括:
检测子模块,用于检测所述视频标签是否为超链接或所述视频标签是否包含onclick事件;
所述标签提取子模块,用于当所述视频标签不是超链接且不包含onclick事件时,判定所述视频标签无效,不作处理。
优选地,所述抓取模块还包括:
解析子模块,用于解析所述网页URL对应的网页,判断所述网页URL对应的网页是否包含video标签;
所述标签提取模块,用于当所述网页URL对应的网页包含video标签,从所述网页URL对应的网页上提取视频标签。
优选地,所述装置还包括:检查模块,
所述检查模块,用于在所述接收终端设备发送的包含网页URL的视频URL抓取请求时,检查是否已存储有与所述网页URL相对应的所述第一视频URL;所述抓取模块,用于若没有与所述网页URL相对应的所述第一视频URL时,则根据所述网页URL从对应的网页中识别视频标签,并从所述视频标签中抓取第一视频URL;并将所抓取的第一视频URL反馈给所述终端设备;若有与所述网页URL相对应的所述第一视频URL时,则将所存储的与所述网页URL相对应的第一视频URL反馈给所述终端设备。
优选地,所述装置还包括:判断模块,
所述判断模块,用于若存储有与所述网页URL相对应的所述第一视频URL时,判断最近一次从所述网页URL中抓取第一视频URL的时间与本次视频URL抓取请求时间之间的时间间隔是否已超过预设的时间阈值;
所述抓取模块,用于若超过所述预设的时间阈值,则根据所述网页URL从对应的网页中识别视频标签,并从所述视频标签中抓取第一视频URL;并将所抓取的第一视频URL与所述网页URL对应存储,并将所抓取的第一视频URL反馈给所述终端设备;若未超过所述预设的时间阈值,则将所存储的与所述网页URL相对应的第一视频URL反馈给所述终端设备。
优选地,所述抓取模块,用于根据所述网页URL定时从所述网页上抓取第一视频URL,以更新所存储的第一视频URL。
优选地,所述装置还包括:下载模块和URL生成模块,
所述下载模块,用于根据所述第一视频URL下载视频;
所述URL生成模块,用于在视频下载完成后,根据视频下载后的存储位置生成所述视频的第二视频URL;
所述存储模块,用于将所述第二视频URL与所述第一视频URL所对应的网页URL对应存。
优选地,所述装置还包括:计算模块和比较模块,
所述计算模块,用于计算所下载视频的数字证书;
所述比较模块,用于将计算得到的数字证书与已存储视频的数字证书进行比较;
所述下载模块,用于当已存储视频的数字证书中有与所下载视频的数字证书相同的数字证书时,则删除所下载视频;当已存储视频的数字证书中没有与所下载视频的数字证书相同的数字证书时,则存储所下载视频。
优选地,所述装置还包括:获取模块和比较模块,
所述获取模块,用于获取所述第一视频URL所对应视频的数字证书;
所述比较模块,用于将所获得的数字证书与已存储视频的数字证书进行比较;
所述下载模块,用于当已存储视频的数字证书中有与所获得的数字证书相同的数字证书时,则不下载所述第一视频URL所对应视频;根据与所获得的数字证书具有相同数字证书的已存储视频的存储位置生成所述第二视频URL;当已存储视频的数字证书中没有与所获得的数字证书相同的数字证书时,则存储所下载视频。
一种服务器设备,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
接收终端设备发送的包含网页URL的视频URL抓取请求;
根据所述网页URL从对应的网页中识别视频标签,并从所述视频标签中抓取第一视频URL;
将所抓取的第一视频URL与所述网页URL对应存储。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中视频URL抓取方法的流程示意图;
图2为本发明实施例中从提取视频标签的流程示意图;
图3为本发明实施例中对视频标签前导符的验证的流程示意图;
图4为本发明实施例中根据视频标签的类型提取第一视频URL的流程示意图;
图5为本发明实施例中根据HTML页面URL获取第一视频URL的流程示意图;
图6为本发明实施例中对抓取到的视频URL进行更新的流程示意图;
图7为本发明实施例中视频URL抓取装置的结构示意图;
图8为本发明实施例中抓取模块的结构示意图;
图9为本发明实施例中视频URL抓取装置的另一结构示意图;
图10为本发明实施例中视频URL抓取装置的再一结构示意图;
图11为本发明实施例中服务器设备的结构示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明实施例用于在视频URL未知的情况下,服务器设备从网页上抓取可用的视频URL,以实现对视频资源的批量下载。对网页上的视频URL的抓取,可以在服务器设备上进行,也可以在终端设备上进行。但是,终端设备进行视频URL的抓取,会占用终端的CPU资源,且在终端设备正常情况下,抓取一个视频URL平均需要1秒到5秒,花费的时间较多;另外,如果多个终端设备对同一视频进行下载,每个终端都要进行视频URL的提取,造成网络资源的浪费。而在服务器设备上进行视频URL的抓取则能够解决上述问题。
如图1所示,本发明实施例提供了一种视频URL抓取方法,包括以下步骤:
步骤102,接收终端设备发送的包含网页URL的视频URL抓取请求;
步骤104,根据网页URL从对应的网页中识别视频标签,并从视频标签中抓取第一视频URL;
步骤106,将所抓取的第一视频URL与网页URL对应存储。
本实施例中,当用户通过终端访问视频网站时,服务器设备接收包含该视频网站的网页URL的视频URL抓取请求,将自动从该视频网站的网页上抓取视频URL。这样,不需要每个终端都进行视频URL的抓取,当用户需要进行视频下载时,服务器设备将抓取到的视频URL反馈给终端设备。不仅降低了视频URL抓取的时间,还节约了终端设备的CPU资源及网络资源。终端设备通过获取到视频URL,便于用户对视频资源的批量下载,提高下载效率。另外,通过对提取到的视频标签的类型进行识别,来抓取视频URL,使得在视频URL未知的情况下,可以从网页上准确地抓取可用视频URL。
由于视频标签都拥有诸如:1、第2集、3集、十、第十八集、二十一集等模式的文字,因此本发明实施例中,将这些模式的文字作为预设特征文字,通过识别预设特征文字的方式提取视频标签,如图2所示,步骤102包括:
步骤202,扫描网页URL对应的网页的文件对象模型(Document ObjectModel,简称DOM)树,找到所有文字节点;
步骤204,从所有文字节点中提取包括有预设特征文字的文字节点;
步骤206,将包括有预设特征文字的文字节点的父节点作为视频标签。
下面是两个视频标签的超文本标记语言(Hypertext Markup Language,HTML)示例:
<a href=”example.html”>1</a>
<span onclick=”return apply();”>爱在春天第二集</a>
在上述示例中,a元素和span元素是文字节点”1”和”爱在春天第二集”的父元素,因此,a元素和span元素被判定为视频标签。
本实施例中,通过视频标签的文字特性对视频标签进行提取,可以快速准确地提取到网页URL对应的网页中的视频标签。
本发明实施例中,定义前导符为视频标签中除预设特征文字外的文字。例如,“爱在春天第二集”这个视频标签中,“第二集”为预设特征文字,“爱在春天”即为前导符。视频标签中,要么没有前导符,要么前导符应当与从网页URL对应的网页中提取出来的标题一致。例如:视频标题为“爱在春天”的页面中,如果出现“爱情公寓2”,则判定该视频标签无效,应删除。
通常从页面标题中就可以提取出视频标题。例如,优库网连续剧页面的标题大致如下:“爱在春天–优库视频”,可以从中提取出视频标题“爱在春天”。
优选地,如图3所示,步骤102之后还包括:
步骤302,从网页URL对应的网页提取视频标题;
步骤304,分析视频标签是否包含前导符;如果是,执行步骤306,如果否,执行步骤308;
步骤306,分析前导符中是否包含有提取到的视频标题;如果是,执行步骤308,如果否,执行步骤310;
步骤308,判定视频标签有效,保留该视频标签;
步骤310,判定视频标签无效,不作处理。
这样,通过对视频标签前导符的验证,实现对视频标签的准确提取,过滤掉无效的视频标签。
由于视频标签应该具有可点击的特性,即视频标签要么是一个超链接,要么具有点击(onclick)事件。因此,步骤102之后还包括:检测视频标签是否为超链接或视频标签是否包含点击onclick事件;当视频标签不是超链接且不包含onclick事件时,判定该视频标签无效,不作处理。这样,进一步提高视频标签提取的准确性,过滤掉无效的视频标签。
另外,本发明实施例中,并不是对所有web网页都会进行上述视频标签的提取,而是仅对有视频元素的网页提取视频标签。通过判断web网页中是否有video标签来判断web该网页是否需要进行视频标签的提取。因此,步骤102之前还包括:解析web网页,判断web网页是否包含video标签;当web网页包含video标签,从网页URL对应的网页上提取视频标签。这样,提高视频标签提取的效率,避免对不包含视频元素的网页进行视频标签提取,而造成对处理资源的浪费。
本发明实施例中,对视频标签的分类如下:
第一类型,视频标签为指向视频的超链接;例如,<a href=”somepath.mp4”>第1集</a>;
第二类型,视频标签包含onclick事件的元素,点击后页面跳转到视频;
第三类型,视频标签包含onclick事件的元素,视频标签所在页面包含视频,点击后在页面上播放视频(通过调用video元素的setAttribute方法更改其src属性);
第四类型,视频标签为指向包含视频的HTML页面的超链接;
第五类型,视频标签包含onclick事件的元素,点击后页面跳转到包含视频的HTML页面。
这5种类型覆盖了绝大部分的视频网站中的视频标签类型,因此,这5种类型之外的标签可认为不是有效的视频标签。优选地,步骤106之前还包括:判断视频标签是否属于第一至第五类型;当视频标签不属于第一至第五类型时,判定该视频标签无效,不作处理。通过对视频标签类别的识别,进一步对视频标签进行过滤,提高后续根据视频标签提取视频URL的准确度和效率。
由于视频标签可能是上述五种类型的任意一种,因此,通过视频标签获取到的URL可能不是最终的视频URL。对于第一类型、第二类型和第三类型的视频标签,通过视频标签获取到的URL即为最终的视频URL,但是对于第四类型和第五类型来说,通过视频标签获取到的URL是一个可能包含视频的HTML页面URL。本实施例中,可以准确地根据视频标签类型获取第一URL,进一步提高视频下载的准确性和效率。
首先,通过视频标签获取到一个初步的URL,即第一URL。本发明实施例中需要对第一URL进行网络验证,即通过一次网络访问确定第一URL是最终的视频URL,还是HTML页面URL。
本发明实施例中,优选地,如图4所示,步骤106包括:
步骤402,通过视频标签提取第一URL;
步骤404,通过第一URL进行网络访问,获取包括多用途因特网邮件扩充类型(Multipurpose Internet Mail Extensions,MIME Type)的协议头;
步骤406,当MIME Type为视频类型时,判定第一URL为第一视频URL;
步骤408,当MIME Type为HTML页面类型时,判定第一URL为HTML页面URL;
步骤410,当第一URL为视频URL时,则获取该第一视频URL;
步骤412,当第一URL为HTML页面URL时,根据HTML页面URL获取第一视频URL。
本实施例中,通过对从视频标签中提取的URL进行网络验证,使得抓取到的URL为最终的视频URL,避免获得不可下载的HTML页面URL,提高了视频URL抓取的准确性,使得后续可以根据该视频URL顺利的下载到视频资源,提高视频下载的效率。
优选地,步骤402包括:当视频标签的类型为第一类型或第四类型时,从超链接的超文本引用(Hyper text Reference,href)属性中提取第一URL;当视频标签的类型为第二类型、第三类型或第五类型时,通过调用onclick事件提取第一URL。
当视频标签的类型为第二类型和第五类型时,页面通常通过JavaScript代码调用window.location=xxx来跳转到一个新页面。在WebKit中的对应位置截断这次调用,以免真的跳转到新页面,并且截获到第一URL。
当视频标签的类型为第三类型时,页面通常通过JavaScript代码设置video元素的src属性来改变其播放的视频,在WebKit中的对应位置截断这次调用,并截获到第一URL。
步骤404中,利用HTTP的Partial Content特性,获得网络访问返回的HTTP协议的Range协议头中的MIME Type,如果MIME Type是视频类型,例如video或mp4,则判定第一URL为第一视频URL,否则该第一URL为HTML页面URL。
当MIME Type是视频类型时,只需要验证其类型即可,不需要真的获取数据,因为视频数据比较大,会占用很多网络带宽。而当MIME Type为HTML页面类型时,必须得到完整的HTML页面数据,否则无法找到它包含的视频。
步骤410中,当第一URL为HTML页面URL时,重新发送一个网络请求,获取该HTML页面数据。从HTML页面数据查找到页面中的URL,该URL可能是视频URL,也可能还是一个HTML页面URL。为了获取最终的视频URL,可能需要多次对获得的URL进行网络验证。
优选地,如图5所示,步骤410包括:
步骤502,根据HTML页面URL获取HTML页面数据;
步骤504,从HTML页面数据中查找第二URL;
步骤506,通过第二URL进行网络访问,获取包括MIME Type的协议头;
步骤508,当MIME Type为视频类型时,判定第二URL为第一视频URL,并获取该第一视频URL;
步骤510,当MIME Type为HTML页面类型时,判定第二URL为HTML页面URL;返回步骤502,直到从HTML页面中获取到第一视频URL。
步骤504中,可以利用视频嗅探技术从HTML页面数据查找到页面中的URL。扫描HTML页面,从中找出video元素。很多页面的HTML元素都是用JavaScript生成的,在页面加载完毕时video元素可能并没有生成。因此需要等待页面一段时间,并截获其插入元素的动作。
本实施例中,通过对获取到的URL进行反复网络验证,当出现多次页面跳转到视频资源时,可以过滤掉中间的跳转页面,直接获得最终的视频URL,提高视频URL抓取的准确性,使得后续可以根据该视频URL顺利的下载到视频资源,提高视频下载的效率。
优选地,本发明实施例中,步骤404和步骤506中,在进行网络访问时,还进一步获取预设字节个数的数据。当MIME Type为视频类型时,根据取预设字节个数的数据获得视频的基本信息;当MIME Type为HTML页面类型时,根据HTML页面URL获取预设字节个数的数据之外的其他HTML页面数据。
例如,可以设定获取第一URL或第二URL对应的目标内容的前100个字节的数据,当MIME Type为视频类型时,则本次网络验证结束;当MIME Type为HTML页面类型时,创建一个HTML页面,将这100个字节写入HTML页面内,然后重新发送一个网络请求,以获取第100个字节之后的所有数据,并且将这些数据也写入HTML页面中。
本实施例中,通过获取URL对应目标内容的部分数据,当目标内容为视频时,可以预先获取视频信息,方便用户了解要下载视频内容的信息,可以根据视频信息判断是否对该视频进行下载或根据视频信息设置下载策略,进一步提高视频下载效率和准确性。
优选地,服务器设备并不是在获取到网页URL后就直接进行视频URL的抓取,步骤104包括:
在接收终端设备发送的包含网页URL的视频URL抓取请求时,检查是否已存储有与网页URL相对应的第一视频URL;
若没有与网页URL相对应的第一视频URL时,则根据网页URL从对应的网页中识别视频标签,并从视频标签中抓取第一视频URL;并将所抓取的第一视频URL反馈给终端设备;
若有与网页URL相对应的第一视频URL时,则将所存储的与网页URL相对应的第一视频URL反馈给终端设备。
本实施例中,通过检查该网页是否已进行过视频URL的抓取,来确定是否执行视频URL抓取的操作。如果已进行过视频URL的抓取,直接使用已有的抓取结果即可,只有当未对该网页进行过视频URL抓取时,才执行抓取操作。这样,提高了服务器设备视频URL抓取的效率,节约了服务器设备的CPU资源及网络资源。
优选地,服务器设备还以如下方式对抓取到的视频URL进行更新,如图6所示,步骤104包括:
步骤602,若存储有与网页URL相对应的第一视频URL时,判断最近一次从网页URL中抓取第一视频URL的时间与本次视频URL抓取请求时间之间的时间间隔是否已超过预设的时间阈值;如果超过,执行步骤604,如果未超过,执行步骤606;
步骤604,根据网页URL从对应的网页中识别视频标签,并从视频标签中抓取第一视频URL;并将所抓取的第一视频URL与网页URL对应存储,并将所抓取的第一视频URL反馈给终端设备;
步骤606,将所存储的与网页URL相对应的第一视频URL反馈给终端设备。
例如,预设的时间阈值为24小时,上一次检查时间为2013-8-14-9:00,本次检查时间为2013-8-14-19:00,两次检查之间的时间间隔未超过24小时,将所存储的与网页URL相对应的第一视频URL反馈给终端设备。如果本次检查时间为2013-8-15-10:00,两次检查之间的时间间隔超过24小时则根据网页URL从对应的网页中识别视频标签,从视频标签中抓取第一视频URL;将所抓取的第一视频URL与网页URL对应存储,并将所抓取的第一视频URL反馈给终端设备。
优选地,服务器设备还以另一种方式对抓取到的视频URL进行更新,步骤104包括:根据网页URL定时从网页上抓取第一视频URL,以更新所存储的第一视频URL。例如,设定每隔2小时,服务器自动从网页上抓取视频URL,更新之前抓取过的视频URL。
本实施例中,通过以上两种方式对抓取到的视频URL进行更新,为用户提供最新的视频URL,提高视频URL抓取的及时性准确性。
优选地,为了进一步提高终端对视频资源的下载速度,该方法还包括:
根据第一视频URL下载视频;
在视频下载完成后,根据视频下载后的存储位置生成视频的第二视频URL;
将第二视频URL与第一视频URL所对应的网页URL对应存储。
本实施例中,服务器设备抓取到第一视频URL后,将视频下载到服务器设备上,并为该视频重新生成一个URL,即服务器设备的URL,作为该视频的第二视频URL,将该第二视频URL反馈给终端设备。终端设备根据该第二视频URL进行视频资源的下载,避免由于网页上的第一视频URL过期造成的无法下载的情况,保证提供给用户的视频URL的可用性,提高视频下载速度。
优选地,为了避免服务器设备上存储多个相同的视频资源,还进一步对下载到的视频进行去重处理。该方法还包括:
计算所下载视频的数字证书;
将计算得到的数字证书与已存储视频的数字证书进行比较;
当已存储视频的数字证书中有与所下载视频的数字证书相同的数字证书时,则删除所下载视频;
当已存储视频的数字证书中没有与所下载视频的数字证书相同的数字证书时,则存储所下载视频。
本实施例中,通过对已下载视频数字证书的分析比较来去除重复视频,节约了服务器设备的存储资源。
优选地,当视频网站上提供视频的数字证书时,该方法还包括:
获取第一视频URL所对应视频的数字证书;
将所获得的数字证书与已存储视频的数字证书进行比较;
当已存储视频的数字证书中有与所获得的数字证书相同的数字证书时,则不下载第一视频URL所对应视频;根据与所获得的数字证书具有相同数字证书的已存储视频的存储位置生成第二视频URL;
当已存储视频的数字证书中没有与所获得的数字证书相同的数字证书时,则存储所下载视频。
本实施例中,通过对未下载视频数字证书的分析比较来避免重复下载相同视频,不仅节约了服务器设备的存储资源,还节约了服务器的CPU资源及网络资源。
优选地,数字证书包括根据视频计算的哈希(Hash)码,即通过Hash算法计算获得的表示视频完整性的代码。该hash码可以为消息摘要算法第五版(Message Digest Algorithm,MD5)码。由于不同视频的数字证书不同。通过比较数字证书,可以准确地判断视频是否相同,去除重复视频。
基于同一发明构思,本发明实施例还提供一种视频URL抓取装置,如图7所示,该装置包括:
接收模块701,用于接收终端设备发送的包含网页URL的视频URL抓取请求;
抓取模块702,用于根据网页URL从对应的网页中识别视频标签,并从视频标签中抓取第一视频URL;
存储模块703,用于将所抓取的第一视频URL与网页URL对应存储。
优选地,如图8所示,抓取模块702包括:
标签提取子模块7021,用于扫描网页URL对应的网页的DOM树,找到所有文字节点;从所有文字节点中提取包括有预设特征文字的文字节点;将包括有预设特征文字的文字节点的父节点作为视频标签。
优选地,抓取模块还包括:标题提取子模快7022、第一分析子模块7023和第二分析子模块7024,
标题提取子模快7022,用于从网页URL对应的网页提取视频标题;
第一分析子模块7023,用于分析视频标签是否包含前导符,前导符为视频标签中除预设特征文字外的文字;
第二分析子模块7024,用于当视频标签包含前导符,分析前导符中是否包含有提取到的视频标题;
标签提取子模块7021,用于当视频标签中的前导符不包含有提取到的视频标题时,判定视频标签无效,不作处理。
优选地,抓取模块702还包括:
检测子模块7025,用于检测视频标签是否为超链接或视频标签是否包含onclick事件;
标签提取子模块7021,用于当视频标签不是超链接且不包含onclick事件时,判定视频标签无效,不作处理。
优选地,抓取模块还包括:
解析子模块7026,用于解析网页URL对应的网页,判断网页URL对应的网页是否包含video标签;
标签提取模块7021,用于当网页URL对应的网页包含video标签,从网页URL对应的网页上提取视频标签。
优选地,该装置还包括:检查模块704,用于在接收终端设备发送的包含网页URL的视频URL抓取请求时,检查是否已存储有与网页URL相对应的第一视频URL。抓取模块702,用于若没有与网页URL相对应的第一视频URL时,则根据网页URL从对应的网页中识别视频标签,并从视频标签中抓取第一视频URL;并将所抓取的第一视频URL反馈给终端设备;若有与网页URL相对应的第一视频URL时,则将所存储的与网页URL相对应的第一视频URL反馈给终端设备。
优选地,该装置还包括:判断模块705,用于若存储有与网页URL相对应的第一视频URL时,判断最近一次从网页URL中抓取第一视频URL的时间与本次视频URL抓取请求时间之间的时间间隔是否已超过预设的时间阈值。抓取模块702,用于若超过预设的时间阈值,则根据网页URL从对应的网页中识别视频标签,并从视频标签中抓取第一视频URL;并将所抓取的第一视频URL与网页URL对应存储,并将所抓取的第一视频URL反馈给终端设备;若未超过预设的时间阈值,则将所存储的与网页URL相对应的第一视频URL反馈给终端设备。
优选地,抓取模块702,用于根据网页URL定时从网页上抓取第一视频URL,以更新所存储的第一视频URL。
优选地,装置还包括:下载模块706和URL生成模块707,
下载模块706,用于根据第一视频URL下载视频;
URL生成模块707,用于在视频下载完成后,根据视频下载后的存储位置生成视频的第二视频URL;
存储模块703,用于将第二视频URL与第一视频URL所对应的网页URL对应存。
优选地,为了避免服务器设备上存储多个相同的视频资源,还进一步对下载到的视频进行去重处理。如图9所示,当视频网站上不提供视频的数字证书时,该装置还包括:计算模块708和比较模块709,
计算模块708,用于计算所下载视频的数字证书;
比较模块709,用于将计算得到的数字证书与已存储视频的数字证书进行比较;
下载模块706,用于当已存储视频的数字证书中有与所下载视频的数字证书相同的数字证书时,则删除所下载视频;当已存储视频的数字证书中没有与所下载视频的数字证书相同的数字证书时,则存储所下载视频。
优选地,如图10所示,当视频网站上提供视频的数字证书时,该装置还包括:装置还包括:获取模块710和比较模块709,
获取模块710,用于获取第一视频URL所对应视频的数字证书;
比较模块709,用于将所获得的数字证书与已存储视频的数字证书进行比较;
下载模块706,用于当已存储视频的数字证书中有与所获得的数字证书相同的数字证书时,则不下载第一视频URL所对应视频;根据与所获得的数字证书具有相同数字证书的已存储视频的存储位置生成第二视频URL;当已存储视频的数字证书中没有与所获得的数字证书相同的数字证书时,则存储所下载视频。
图11是本发明实施例提供的一种服务器结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)1922(例如,一个或一个以上处理器)和存储器1932,一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中,存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块,每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1922可以设置为与存储介质1930通信,在服务器1900上执行存储介质1930中的一系列指令操作。
服务器1900还可以包括一个或一个以上电源1926,一个或一个以上有线或无线网络接口1950,一个或一个以上输入输出接口1958,一个或一个以上键盘1956,和/或,一个或一个以上操作系统1941,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
具体在本实施例中,服务器设备包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行一个或者一个以上程序包含用于进行以下操作的指令:
接收终端设备发送的包含网页URL的视频URL抓取请求;
根据网页URL从对应的网页中识别视频标签,并从视频标签中抓取第一视频URL;
将所抓取的第一视频URL与网页URL对应存储。
优选地,还包含用于进行以下操作的指令:扫描网页URL对应的网页的DOM树,找到所有文字节点;
从所有文字节点中提取包括有预设特征文字的文字节点;
将包括有预设特征文字的文字节点的父节点作为视频标签。
优选地,还包含用于进行以下操作的指令:从网页URL对应的网页提取视频标题;
分析视频标签是否包含前导符,前导符为视频标签中除预设特征文字外的文字;
当视频标签包含前导符,分析前导符中是否包含有提取到的视频标题;
当视频标签中的前导符不包含有提取到的视频标题时,判定视频标签无效,不作处理。
优选地,还包含用于进行以下操作的指令:检测视频标签是否为超链接或视频标签是否包含onclick事件;
当视频标签不是超链接且不包含onclick事件时,判定视频标签无效,不作处理。
优选地,还包含用于进行以下操作的指令:
解析网页URL对应的网页,判断网页URL对应的网页是否包含video标签;
当网页URL对应的网页包含video标签,从网页URL对应的网页上提取视频标签。
优选地,还包含用于进行以下操作的指令:在接收终端设备发送的包含网页URL的视频URL抓取请求时,检查是否已存储有与网页URL相对应的第一视频URL;
若没有与网页URL相对应的第一视频URL时,则根据网页URL从对应的网页中识别视频标签,并从视频标签中抓取第一视频URL;并将所抓取的第一视频URL反馈给终端设备;
若有与网页URL相对应的第一视频URL时,则将所存储的与网页URL相对应的第一视频URL反馈给终端设备。
优选地,还包含用于进行以下操作的指令:若存储有与网页URL相对应的第一视频URL时,判断最近一次从网页URL中抓取第一视频URL的时间与本次视频URL抓取请求时间之间的时间间隔是否已超过预设的时间阈值;
若超过预设的时间阈值,则根据网页URL从对应的网页中识别视频标签,并从视频标签中抓取第一视频URL;并将所抓取的第一视频URL与网页URL对应存储,并将所抓取的第一视频URL反馈给终端设备;
若未超过预设的时间阈值,则将所存储的与网页URL相对应的第一视频URL反馈给终端设备。
优选地,还包含用于进行以下操作的指令:根据网页URL定时从网页上抓取第一视频URL,以更新所存储的第一视频URL。
优选地,还包含用于进行以下操作的指令:
根据第一视频URL下载视频;
在视频下载完成后,根据视频下载后的存储位置生成视频的第二视频URL;
将第二视频URL与第一视频URL所对应的网页URL对应存储。
优选地,还包含用于进行以下操作的指令:
计算所下载视频的数字证书;
将计算得到的数字证书与已存储视频的数字证书进行比较;
当已存储视频的数字证书中有与所下载视频的数字证书相同的数字证书时,则删除所下载视频;
当已存储视频的数字证书中没有与所下载视频的数字证书相同的数字证书时,则存储所下载视频。
优选地,还包含用于进行以下操作的指令:
获取第一视频URL所对应视频的数字证书;
将所获得的数字证书与已存储视频的数字证书进行比较;
当已存储视频的数字证书中有与所获得的数字证书相同的数字证书时,则不下载第一视频URL所对应视频;根据与所获得的数字证书具有相同数字证书的已存储视频的存储位置生成第二视频URL;
当已存储视频的数字证书中没有与所获得的数字证书相同的数字证书时,则存储所下载视频。
本实施例的视频URL抓取方法、装置及服务器设备,当用户通过终端访问视频网站时,服务器设备接收包含该视频网站的网页URL的视频URL抓取请求,将自动从该视频网站的网页上抓取视频URL。这样,不需要每个终端都进行视频URL的抓取,当用户需要进行视频下载时,服务器设备将抓取到的视频URL反馈给终端设备。不仅降低了视频URL抓取的时间,还节约了终端设备的CPU资源及网络资源。终端设备通过获取到视频URL,便于用户对视频资源的批量下载,提高下载效率。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (24)

1.一种视频URL抓取方法,其特征在于,包括:
接收终端设备发送的包含网页URL的视频URL抓取请求;
根据所述网页URL从对应的网页中识别视频标签,并从所述视频标签中抓取第一视频URL;
将所抓取的第一视频URL与所述网页URL对应存储。
2.根据权利要求1所述的方法,其特征在于,根据所述网页URL从对应的网页中识别视频标签包括:
扫描所述网页URL对应的网页的DOM树,找到所有文字节点;
从所有文字节点中提取包括有预设特征文字的文字节点;
将包括有预设特征文字的文字节点的父节点作为所述视频标签。
3.根据权利要求2所述的方法,其特征在于,根据所述网页URL从对应的网页中识别视频标签之后还包括:
从所述网页URL对应的网页提取视频标题;
分析所述视频标签是否包含前导符,所述前导符为所述视频标签中除所述预设特征文字外的文字;
当所述视频标签包含前导符,分析所述前导符中是否包含有提取到的所述视频标题;
当所述视频标签中的前导符不包含有提取到的所述视频标题时,判定所述视频标签无效,不作处理。
4.根据权利要求2所述的方法,其特征在于,根据所述网页URL从对应的网页中识别视频标签之后还包括:
检测所述视频标签是否为超链接或所述视频标签是否包含onclick事件;
当所述视频标签不是超链接且不包含onclick事件时,判定所述视频标签无效,不作处理。
5.根据权利要求1所述的方法,其特征在于,根据所述网页URL从对应的网页中识别视频标签之前还包括:
解析所述网页URL对应的网页,判断所述网页URL对应的网页是否包含video标签;
当所述网页URL对应的网页包含video标签,从所述网页URL对应的网页上提取视频标签。
6.根据权利要求1所述的方法,其特征在于,所述视频URL抓取方法,还包括:
在所述接收终端设备发送的包含网页URL的视频URL抓取请求时,检查是否已存储有与所述网页URL相对应的所述第一视频URL;
若没有与所述网页URL相对应的所述第一视频URL时,则根据所述网页URL从对应的网页中识别视频标签,并从所述视频标签中抓取第一视频URL;并将所抓取的第一视频URL反馈给所述终端设备;
若有与所述网页URL相对应的所述第一视频URL时,则将所存储的与所述网页URL相对应的第一视频URL反馈给所述终端设备。
7.根据权利要求6所述的方法,其特征在于,所述视频URL抓取方法,还包括:
若存储有与所述网页URL相对应的所述第一视频URL时,判断最近一次从所述网页URL中抓取第一视频URL的时间与本次视频URL抓取请求时间之间的时间间隔是否已超过预设的时间阈值;
若超过所述预设的时间阈值,则根据所述网页URL从对应的网页中识别视频标签,并从所述视频标签中抓取第一视频URL;并将所抓取的第一视频URL与所述网页URL对应存储,并将所抓取的第一视频URL反馈给所述终端设备;
若未超过所述预设的时间阈值,则将所存储的与所述网页URL相对应的第一视频URL反馈给所述终端设备。
8.根据权利要求1所述的方法,其特征在于,所述视频URL抓取方法,还包括:根据所述网页URL定时从所述网页上抓取第一视频URL,以更新所存储的第一视频URL。
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述第一视频URL下载视频;
在视频下载完成后,根据视频下载后的存储位置生成所述视频的第二视频URL;
将所述第二视频URL与所述第一视频URL所对应的网页URL对应存储。
10.根据权利要求9所述的方法,其特征在于,所述根据所述第一视频URL下载视频,包括:
计算所下载视频的数字证书;
将计算得到的数字证书与已存储视频的数字证书进行比较;
当已存储视频的数字证书中有与所下载视频的数字证书相同的数字证书时,则删除所下载视频;
当已存储视频的数字证书中没有与所下载视频的数字证书相同的数字证书时,则存储所下载视频。
11.根据权利要求9所述的方法,其特征在于,所述根据所述第一视频URL下载视频,包括:
获取所述第一视频URL所对应视频的数字证书;
将所获得的数字证书与已存储视频的数字证书进行比较;
当已存储视频的数字证书中有与所获得的数字证书相同的数字证书时,则不下载所述第一视频URL所对应视频;根据与所获得的数字证书具有相同数字证书的已存储视频的存储位置生成所述第二视频URL;
当已存储视频的数字证书中没有与所获得的数字证书相同的数字证书时,则存储所下载视频。
12.根据权利要求10或11所述的方法,其特征在于,所述数字证书包括根据所述视频计算的Hash码。
13.一种视频URL抓取装置,其特征在于,包括:
接收模块,用于接收终端设备发送的包含网页URL的视频URL抓取请求;
抓取模块,用于根据所述网页URL从对应的网页中识别视频标签,并从所述视频标签中抓取第一视频URL;
存储模块,用于将所抓取的第一视频URL与所述网页URL对应存储。
14.根据权利要求13所述的装置,其特征在于,所述抓取模块包括:
标签提取子模块,用于扫描所述网页URL对应的网页的DOM树,找到所有文字节点;从所有文字节点中提取包括有预设特征文字的文字节点;将包括有预设特征文字的文字节点的父节点作为所述视频标签。
15.根据权利要求14所述的装置,其特征在于,所述抓取模块还包括:标题提取子模快、第一分析子模块和第二分析子模块,
所述标题提取子模快,用于从所述网页URL对应的网页提取视频标题;
所述第一分析子模块,用于分析所述视频标签是否包含前导符,所述前导符为所述视频标签中除所述预设特征文字外的文字;
所述第二分析子模块,用于当所述视频标签包含前导符,分析所述前导符中是否包含有提取到的所述视频标题;
所述标签提取子模块,用于当所述视频标签中的前导符不包含有提取到的所述视频标题时,判定所述视频标签无效,不作处理。
16.根据权利要求14所述的装置,其特征在于,所述抓取模块还包括:
检测子模块,用于检测所述视频标签是否为超链接或所述视频标签是否包含onclick事件;
所述标签提取子模块,用于当所述视频标签不是超链接且不包含onclick事件时,判定所述视频标签无效,不作处理。
17.根据权利要求14所述的装置,其特征在于,所述抓取模块还包括:
解析子模块,用于解析所述网页URL对应的网页,判断所述网页URL对应的网页是否包含video标签;
所述标签提取模块,用于当所述网页URL对应的网页包含video标签,从所述网页URL对应的网页上提取视频标签。
18.根据权利要求13所述的装置,其特征在于,所述装置还包括:检查模块,
所述检查模块,用于在所述接收终端设备发送的包含网页URL的视频URL抓取请求时,检查是否已存储有与所述网页URL相对应的所述第一视频URL;所述抓取模块,用于若没有与所述网页URL相对应的所述第一视频URL时,则根据所述网页URL从对应的网页中识别视频标签,并从所述视频标签中抓取第一视频URL;并将所抓取的第一视频URL反馈给所述终端设备;若有与所述网页URL相对应的所述第一视频URL时,则将所存储的与所述网页URL相对应的第一视频URL反馈给所述终端设备。
19.根据权利要求11所述的装置,其特征在于,所述装置还包括:判断模块,
所述判断模块,用于若存储有与所述网页URL相对应的所述第一视频URL时,判断最近一次从所述网页URL中抓取第一视频URL的时间与本次视频URL抓取请求时间之间的时间间隔是否已超过预设的时间阈值;
所述抓取模块,用于若超过所述预设的时间阈值,则根据所述网页URL从对应的网页中识别视频标签,并从所述视频标签中抓取第一视频URL;并将所抓取的第一视频URL与所述网页URL对应存储,并将所抓取的第一视频URL反馈给所述终端设备;若未超过所述预设的时间阈值,则将所存储的与所述网页URL相对应的第一视频URL反馈给所述终端设备。
20.根据权利要求13所述的装置,其特征在于,所述抓取模块,用于根据所述网页URL定时从所述网页上抓取第一视频URL,以更新所存储的第一视频URL。
21.根据权利要求13所述的装置,其特征在于,所述装置还包括:下载模块和URL生成模块,
所述下载模块,用于根据所述第一视频URL下载视频;
所述URL生成模块,用于在视频下载完成后,根据视频下载后的存储位置生成所述视频的第二视频URL;
所述存储模块,用于将所述第二视频URL与所述第一视频URL所对应的网页URL对应存。
22.根据权利要求21所述的装置,其特征在于,所述装置还包括:计算模块和比较模块,
所述计算模块,用于计算所下载视频的数字证书;
所述比较模块,用于将计算得到的数字证书与已存储视频的数字证书进行比较;
所述下载模块,用于当已存储视频的数字证书中有与所下载视频的数字证书相同的数字证书时,则删除所下载视频;当已存储视频的数字证书中没有与所下载视频的数字证书相同的数字证书时,则存储所下载视频。
23.根据权利要求21所述的装置,其特征在于,所述装置还包括:获取模块和比较模块,
所述获取模块,用于获取所述第一视频URL所对应视频的数字证书;
所述比较模块,用于将所获得的数字证书与已存储视频的数字证书进行比较;
所述下载模块,用于当已存储视频的数字证书中有与所获得的数字证书相同的数字证书时,则不下载所述第一视频URL所对应视频;根据与所获得的数字证书具有相同数字证书的已存储视频的存储位置生成所述第二视频URL;当已存储视频的数字证书中没有与所获得的数字证书相同的数字证书时,则存储所下载视频。
24.一种服务器设备,其特征在于,所述服务器设备包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
接收终端设备发送的包含网页URL的视频URL抓取请求;
根据所述网页URL从对应的网页中识别视频标签,并从所述视频标签中抓取第一视频URL;
将所抓取的第一视频URL与所述网页URL对应存储。
CN201310395675.6A 2013-09-03 2013-09-03 一种视频url抓取方法、装置及服务器设备 Active CN103455600B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310395675.6A CN103455600B (zh) 2013-09-03 2013-09-03 一种视频url抓取方法、装置及服务器设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310395675.6A CN103455600B (zh) 2013-09-03 2013-09-03 一种视频url抓取方法、装置及服务器设备

Publications (2)

Publication Number Publication Date
CN103455600A true CN103455600A (zh) 2013-12-18
CN103455600B CN103455600B (zh) 2017-06-16

Family

ID=49737963

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310395675.6A Active CN103455600B (zh) 2013-09-03 2013-09-03 一种视频url抓取方法、装置及服务器设备

Country Status (1)

Country Link
CN (1) CN103455600B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104166545A (zh) * 2014-07-25 2014-11-26 北京搜狗科技发展有限公司 一种网页资源的嗅探方法以及装置
CN104881452A (zh) * 2015-05-18 2015-09-02 百度在线网络技术(北京)有限公司 一种资源地址的嗅探方法、装置及系统
CN104980793A (zh) * 2015-03-20 2015-10-14 腾讯科技(深圳)有限公司 一种视频检测的方法及终端
CN105279215A (zh) * 2014-06-10 2016-01-27 中兴通讯股份有限公司 资源的下载方法及装置
CN105635163A (zh) * 2016-01-19 2016-06-01 努比亚技术有限公司 一种资源获取方法和装置
CN108363769A (zh) * 2018-02-07 2018-08-03 大连大学 基于语义的音乐检索数据集的建立方法
CN108475275A (zh) * 2016-09-26 2018-08-31 微软技术许可有限责任公司 识别视频页面
CN109857953A (zh) * 2018-11-08 2019-06-07 北京达佳互联信息技术有限公司 音视频分离方法、装置、电子设备及可读存储介质
CN112367549A (zh) * 2020-11-10 2021-02-12 四川长虹电器股份有限公司 电视浏览器的视频播放实现方法及浏览器应用运行方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120246685A1 (en) * 2007-11-30 2012-09-27 Google Inc. Video Object Tag Creation and Processing
CN103248641A (zh) * 2012-02-07 2013-08-14 腾讯科技(深圳)有限公司 网络下载方法、装置及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120246685A1 (en) * 2007-11-30 2012-09-27 Google Inc. Video Object Tag Creation and Processing
CN103248641A (zh) * 2012-02-07 2013-08-14 腾讯科技(深圳)有限公司 网络下载方法、装置及系统

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105279215A (zh) * 2014-06-10 2016-01-27 中兴通讯股份有限公司 资源的下载方法及装置
CN105320661A (zh) * 2014-06-10 2016-02-10 中兴通讯股份有限公司 资源的下载方法及装置
CN104166545B (zh) * 2014-07-25 2018-01-02 北京搜狗科技发展有限公司 一种网页资源的嗅探方法以及装置
CN104166545A (zh) * 2014-07-25 2014-11-26 北京搜狗科技发展有限公司 一种网页资源的嗅探方法以及装置
CN104980793A (zh) * 2015-03-20 2015-10-14 腾讯科技(深圳)有限公司 一种视频检测的方法及终端
CN104980793B (zh) * 2015-03-20 2018-11-06 腾讯科技(深圳)有限公司 一种视频检测的方法及终端
CN104881452A (zh) * 2015-05-18 2015-09-02 百度在线网络技术(北京)有限公司 一种资源地址的嗅探方法、装置及系统
CN105635163A (zh) * 2016-01-19 2016-06-01 努比亚技术有限公司 一种资源获取方法和装置
CN105635163B (zh) * 2016-01-19 2020-08-11 三人行传媒集团股份有限公司 一种资源获取方法和装置
CN108475275A (zh) * 2016-09-26 2018-08-31 微软技术许可有限责任公司 识别视频页面
CN108363769A (zh) * 2018-02-07 2018-08-03 大连大学 基于语义的音乐检索数据集的建立方法
CN109857953A (zh) * 2018-11-08 2019-06-07 北京达佳互联信息技术有限公司 音视频分离方法、装置、电子设备及可读存储介质
CN112367549A (zh) * 2020-11-10 2021-02-12 四川长虹电器股份有限公司 电视浏览器的视频播放实现方法及浏览器应用运行方法
CN112367549B (zh) * 2020-11-10 2021-08-06 四川长虹电器股份有限公司 电视浏览器的视频播放实现方法及浏览器应用运行方法

Also Published As

Publication number Publication date
CN103455600B (zh) 2017-06-16

Similar Documents

Publication Publication Date Title
CN103455600A (zh) 一种视频url抓取方法、装置及服务器设备
CN107562620B (zh) 一种埋点自动设置方法和装置
CN106941493B (zh) 一种网络安全态势感知结果输出方法及装置
CN102054028B (zh) 一种网络爬虫系统实现页面渲染功能的方法
CN109033115B (zh) 一种动态网页爬虫系统
EP2680624A1 (en) Method, system and device for improving security of terminal when surfing internet
CN105243159A (zh) 一种基于可视化脚本编辑器的分布式网络爬虫系统
CN110083391A (zh) 调用请求监控方法、装置、设备及存储介质
CN107977473B (zh) 基于Logback的分布式系统日志的检索方法和系统
CN103888490A (zh) 一种全自动的web客户端人机识别的方法
CN102487403B (zh) 由服务器端执行js的方法和装置
CN111008405A (zh) 一种基于文件Hash的网站指纹识别方法
CN114417197A (zh) 一种访问记录处理方法、装置及存储介质
CN112818201A (zh) 一种网络数据采集方法、装置、计算机设备及存储介质
CN114528457A (zh) Web指纹检测方法及相关设备
CN111984896A (zh) 埋点数据采集方法、装置、计算机设备及可读存储介质
CN106547683A (zh) 一种冗余代码检测方法及装置
CN111177623A (zh) 信息处理方法及装置
CN103605770A (zh) 网页模板生成方法和服务器
CN105975599B (zh) 一种监测网站的页面埋点的方法和装置
CN104281629A (zh) 从网页中提取图片的方法、装置及客户端设备
CN103455602A (zh) 一种视频url抓取方法、装置及终端设备
CN104636340A (zh) 网页url过滤方法、装置及系统
CN105282094A (zh) 一种数据采集方法和系统
CN103354546A (zh) 报文过滤方法与装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant