CN103455602B - 一种视频url抓取方法、装置及终端设备 - Google Patents

一种视频url抓取方法、装置及终端设备 Download PDF

Info

Publication number
CN103455602B
CN103455602B CN201310395725.0A CN201310395725A CN103455602B CN 103455602 B CN103455602 B CN 103455602B CN 201310395725 A CN201310395725 A CN 201310395725A CN 103455602 B CN103455602 B CN 103455602B
Authority
CN
China
Prior art keywords
video
url
type
tab
video tab
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310395725.0A
Other languages
English (en)
Other versions
CN103455602A (zh
Inventor
徐琰
张少伟
左景龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiaomi Inc
Original Assignee
Xiaomi Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiaomi Inc filed Critical Xiaomi Inc
Priority to CN201310395725.0A priority Critical patent/CN103455602B/zh
Publication of CN103455602A publication Critical patent/CN103455602A/zh
Application granted granted Critical
Publication of CN103455602B publication Critical patent/CN103455602B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种视频URL抓取方法、装置及终端设备。其中,该方法包括:从web页面上提取视频标签;对所述视频标签的类型进行识别;根据所述视频标签的类型提取视频URL。

Description

一种视频URL抓取方法、装置及终端设备
技术领域
本发明涉及网页分析技术领域,尤其涉及一种视频URL抓取方法、装置及终端设备。
背景技术
现有技术中,当用户需要下载的内容比较冷门或下载速度较慢时,可以采用离线下载的方式下载视频。离线下载其实就是下载工具的服务器代替电脑用户先行下载。比如,电脑用户的正常下载最大速度能达到200KB/S,但是某个资源是冷门资源,下载速度只能达到10KB/S,电脑用户就得下很久,如果用户使用离线下载技术,就可以让服务商的服务器代替电脑用户下载,电脑用户就可以关掉下载工具或者机器,节约时间和电费。等到离线下好了,电脑用户再从下载工具的服务器上以200KB/S的速度下到自己的电脑上。即使对于热门资源,离线下载也能省却许多挂机等待的时间,最重要的是能够腾出电脑宽带做其他的事情。
现有对于视频资源的离线下载,都是基于对自身网站的资源调用,即其知道相关视频的视频统一资源定位符(Uniform Resource Locator,URL)。但是,当视频URL地址未知的情况下,就不能自动抓取视频资源。
发明内容
本发明实施例提供一种视频URL抓取方法、装置及终端设备,用于实现对视频URL的准确抓取。
一种视频URL抓取方法方法,包括:
从web页面上提取视频标签;
对所述视频标签的类型进行识别;
根据所述视频标签的类型提取视频URL。
本方案中,通过对提取到的视频标签的类型进行识别,来抓取视频URL,使得在视频URL未知的情况下,可以从网页上准确地抓取可用视频URL,以实现对视频资源的自动批量下载,并且下载的效率较高。
优选地,从web页面上提取视频标签包括:
扫描web页面的DOM树,找到所有文字节点;
从所有文字节点中提取包括有预设特征文字的文字节点;
将包括有预设特征文字的文字节点的父节点作为所述视频标签。
本方案中,通过视频标签的文字特性对视频标签进行提取,可以快速准确地提取到web页面中的视频标签。
优选地,从web页面上提取视频标签之后还包括:
从所述web页面提取视频标题;
分析所述视频标签是否包含前导符,所述前导符为所述视频标签中除所述预设特征文字外的文字;
当所述视频标签包含前导符,分析所述前导符中是否包含有提取到的所述视频标题;
当所述视频标签中的前导符不包含有提取到的所述视频标题时,判定所述视频标签无效,不作处理。
本方案中,通过对视频标签前导符的验证,实现对视频标签的准确提取,过滤掉无效的视频标签。
优选地,从web页面上提取视频标签之后还包括:
检测所述视频标签是否为超链接或所述视频标签是否包含onclick事件;
当所述视频标签不是超链接且不包含onclick事件时,判定所述视频标签无效,不作处理。
本方案中,进一步提高视频标签提取的准确性,过滤掉无效的视频标签。
优选地,从web页面上提取视频标签之前还包括:
解析所述web网页,判断所述web网页是否包含video标签;
当所述web网页包含video标签,从web页面上提取视频标签。
本方案中,提高视频标签提取的效率,避免对不包含视频元素的网页进行视频标签提取,而造成对处理资源的浪费。
优选地,根据所述视频标签的类型提取视频URL包括:
通过所述视频标签提取第一URL;
通过所述第一URL进行网络访问,获取包括MIME Type的协议头;
当所述MIME Type为视频类型时,判定所述第一URL为视频URL;当所述MIME Type为HTML页面类型时,判定所述第一URL为HTML页面URL;
当所述第一URL为视频URL时,则获取该视频URL;
当所述第一URL为HTML页面URL时,根据所述HTML页面URL获取视频URL。
本方案中,通过对从视频标签中提取的URL进行网络验证,使得抓取到的URL为最终的视频URL,避免获得不可下载的HTML页面URL,提高了视频URL抓取的准确性,使得后续可以根据该视频URL顺利的下载到视频资源,提高视频下载的效率。
优选地,根据所述HTML页面URL获取视频URL包括:
根据所述HTML页面URL获取HTML页面数据;
从所述HTML页面数据中查找第二URL;
通过所述第二URL进行网络访问,获取包括MIME Type的协议头;
当所述MIME Type为视频类型时,判定所述第二URL为视频URL,并获取该视频URL;
当所述MIME Type为HTML页面类型时,判定所述第二URL为HTML页面URL,则重复根据所述HTML页面URL获取HTML页面数据的步骤,直到从HTML页面中获取到视频URL。
本方案中,通过对获取到的URL进行反复网络验证,当出现多次页面跳转到视频资源时,可以过滤掉中间的跳转页面,直接获得最终的视频URL,提高视频URL抓取的准确性,使得后续可以根据该视频URL顺利的下载到视频资源,提高视频下载的效率。
优选地,该方法还包括:
在进行网络访问时,还获取预设字节个数的数据;
当所述MIME Type为视频类型时,根据所述取预设字节个数的数据获得所述视频的基本信息;
当所述MIME Type为HTML页面类型时,根据所述HTML页面URL获取所述预设字节个数的数据之外的其他HTML页面数据。
本方案中,通过获取URL对应目标内容的部分数据,当目标内容为视频时,可以预先获取视频信息,方便用户了解要下载视频内容的信息,可以根据视频信息判断是否对该视频进行下载或根据视频信息设置下载策略,进一步提高视频下载效率和准确性。
优选地,所述视频标签的类型包括:
第一类型,所述视频标签为指向视频的超链接;
第二类型,所述视频标签包含onclick事件的元素,点击后页面跳转到视频;
第三类型,所述视频标签包含onclick事件的元素,所述视频标签所在页面包含视频,点击后在所述页面上播放视频;
第四类型,所述视频标签为指向包含视频的超文本标记语言HTML页面的超链接;
第五类型,所述视频标签包含onclick事件的元素,点击后页面跳转到包含视频的HTML页面。
本方案中,这5种类型覆盖了绝大部分的视频网站中的视频标签类型,通过对标签类型的设定,可以根据视频标签类型对视频标签进行筛选,使得根据视频标签类型获取第一URL更加准确,并进一步提高视频下载的准确性和效率。
优选地,根据所述视频标签的类型提取URL之前还包括:
判断所述视频标签是否属于所述第一至第五类型;
当所述视频标签不属于所述第一至第五类型时,判定所述视频标签无效,不作处理。
本方案中,通过对视频标签类别的识别,进一步对视频标签进行过滤,提高后续根据视频标签提取视频URL的准确度和效率。
优选地,从所述视频标签中提取第一URL包括:
当所述视频标签的类型为第一类型或第四类型时,从所述超链接的超文本引用href属性中提取第一URL;
当所述视频标签的类型为第二类型、第三类型或第五类型时,通过调用onclick事件提取第一URL。
本方案中,可以准确地根据视频标签类型获取第一URL,进一步提高视频下载的准确性和效率。
优选地,该方法还包括:
根据所述视频URL进行视频下载。
本方案中,通过对提取到的视频标签的类型进行识别,来抓取视频URL,使得在视频URL未知的情况下,可以从网页上准确地抓取可用视频URL,以实现对视频资源的自动批量下载,并且提高在线下载或离线下载的效率。
一种视频URL抓取装置,包括:
标签提取模块,用于从web页面上提取视频标签;
识别模块,用于对所述视频标签的类型进行识别;
URL提取模块,用于根据所述视频标签的类型提取视频URL。
优选地,所述标签提取模块,用于
扫描web页面的DOM树,找到所有文字节点;从所有文字节点中提取包括有预设特征文字的文字节点;将包括有预设特征文字的文字节点的父节点作为所述视频标签。
优选地,该装置还包括:标题提取模快、第一分析模块和第二分析模块,
所述标题提取模块,用于从所述web页面提取视频标题;
所述第一分析模块,用于分析所述视频标签是否包含前导符,所述前导符为所述视频标签中除所述预设特征文字外的文字;
所述第二分析模块,用于当所述视频标签包含前导符,分析所述前导符中是否包含有提取到的所述视频标题;
所述标签提取模块,用于当所述视频标签中的前导符不包含有提取到的所述视频标题时,判定所述视频标签无效,不作处理。
优选地,该装置还包括:检测模块,
所述检测模块,用于检测所述视频标签是否为超链接或所述视频标签是否包含onclick事件;
所述标签提取模块,用于当所述视频标签不是超链接且不包含onclick事件时,判定所述视频标签无效,不作处理。
优选地,该装置还包括:解析模块,用于解析所述web网页,判断所述web网页是否包含video标签;
所述标签提取模块,用于当所述web网页包含video标签,从web页面上提取视频标签。
优选地,所述URL提取模块包括:
第一提取子模块,用于通过所述视频标签提取第一URL;
第一获取子模块,用于通过所述第一URL进行网络访问,获取包括MIME Type的协议头;
类型分析子模块,用于当所述MIME Type为视频类型时,判定所述第一URL为视频URL;当所述MIME Type为HTML页面类型时,判定所述第一URL为HTML页面URL;
第二获取子模块,用于当所述第一URL为视频URL时,则获取该视频URL;当所述第一URL为HTML页面URL时,根据所述HTML页面URL获取视频URL。
优选地,所述第二获取子模块,用于根据所述HTML页面URL获取HTML页面数据;从所述HTML页面数据中查找第二URL;通过所述第二URL进行网络访问,获取包括MIME Type的协议头;当所述MIME Type为视频类型时,判定所述第二URL为视频URL,获取该视频URL;当所述MIME Type为HTML页面类型时,判定第二URL为HTML页面URL,则重复根据所述HTML页面URL获取HTML页面数据的步骤,直到从HTML页面中获取到视频URL。
优选地,所述URL提取模块还包括第三获取子模块,
所述第一获取子模块,还用于通过所述第二URL进行网络访问,还获取预设字节个数的数据;
所述第二获取子模块,还用于当所述MIME Type为HTML页面类型时,根据所述HTML页面URL获取所述预设字节个数的数据之外的其他HTML页面数据;
所述第三获取子模块,用于当所述MIME Type为视频类型时,根据所述取预设字节个数的数据获得所述视频的基本信息。
优选地,所述视频标签的类型包括:
第一类型,所述视频标签为指向视频的超链接;
第二类型,所述视频标签包含onclick事件的元素,点击后页面跳转到视频;
第三类型,所述视频标签包含onclick事件的元素,所述视频标签所在页面包含视频,点击后在所述页面上播放视频;
第四类型,所述视频标签为指向包含视频的HTML页面的超链接;
第五类型,所述视频标签包含onclick事件的元素,点击后页面跳转到包含视频的HTML页面。
优选地,该装置还包括:
判断模块,用于判断所述视频标签是否属于所述第一至第五类型;
所述标签提取模块,用于当所述视频标签不属于所述第一至第五类型时,判定所述视频标签无效,不作处理。
优选地,所述第一提取子模块,用于当所述视频标签的类型为第一类型或第四类型时,从所述超链接的超文本引用href属性中提取第一URL;当所述视频标签的类型为第二类型、第三类型或第五类型时,通过调用onclick事件提取第一URL。
优选地,该装置还包括:下载模块,用于根据所述视频URL进行视频下载。
一种终端设备,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
从web页面上提取视频标签;
对所述视频标签的类型进行识别;
根据所述视频标签的类型提取视频URL。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中提供的一种视频URL抓取方法流程示意图;
图2为本发明实施例中从web页面上提取视频标签的流程示意图;
图3为本发明实施例中对视频标签前导符的验证的流程示意图;
图4为本发明实施例中根据视频标签的类型提取视频URL的流程示意图;
图5为本发明实施例中根据HTML页面URL获取视频URL的流程示意图;
图6为本发明实施例中提供的一种视频URL抓取装置结构示意图;
图7为本发明实施例中提供的另一种视频URL抓取装置结构示意图;
图8为本发明实施例中提供的一种URL提取模块结构示意图;
图9为本发明实施例中提供的一种终端设备结构示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明实施例用于在视频URL未知的情况下,根据用户需求,从网页上抓取可用的视频URL,以实现对视频资源的自动批量下载。
如图1所示,本发明实施例提供了一种视频URL抓取方法,包括以下步骤:
步骤102,从web页面上提取视频标签;
步骤104,对视频标签的类型进行识别;
步骤106,根据视频标签的类型提取视频URL。
本发明实施例,通过对提取到的视频标签的类型进行识别,来抓取视频URL,使得在视频URL未知的情况下,可以从网页上准确地抓取可用视频URL,以实现对视频资源的自动批量下载,并且下载的效率较高。
由于视频标签都拥有诸如:1、第2集、3集、十、第十八集、二十一集等模式的文字,因此本发明实施例中,将这些模式的文字作为预设特征文字,通过识别预设特征文字的方式提取视频标签,如图2所示,步骤102包括:
步骤202,扫描web页面的文件对象模型(Document Object Model,简称DOM)树,找到所有文字节点;
步骤204,从所有文字节点中提取包括有预设特征文字的文字节点;
步骤206,将包括有预设特征文字的文字节点的父节点作为视频标签。
下面是两个视频标签的超文本标记语言(Hypertext Markup Language,HTML)示例:
<a href=”example.html”>1</a>
<span onclick=”return apply();”>爱在春天第二集</a>
在上述示例中,a元素和span元素是文字节点”1”和”爱在春天第二集”的父元素,因此,a元素和span元素被判定为视频标签。
本实施例中,通过视频标签的文字特性对视频标签进行提取,可以快速准确地提取到web页面中的视频标签。
本发明实施例中,定义前导符为视频标签中除预设特征文字外的文字。例如,“爱在春天第二集”这个视频标签中,“第二集”为预设特征文字,“爱在春天”即为前导符。视频标签中,要么没有前导符,要么前导符应当与从web页面中提取出来的标题一致。例如:视频标题为“爱在春天”的页面中,如果出现“爱情公寓2”,则判定该视频标签无效,应删除。
通常从页面标题中就可以提取出视频标题。例如,优库网连续剧页面的标题大致如下:“爱在春天–优库视频”,可以从中提取出视频标题“爱在春天”。
优选地,如图3所示,步骤102之后还包括:
步骤302,从web页面提取视频标题;
步骤304,分析视频标签是否包含前导符;如果是,执行步骤306,如果否,执行步骤308;
步骤306,分析前导符中是否包含有提取到的视频标题;如果是,执行步骤308,如果否,执行步骤310;
步骤308,判定视频标签有效,保留该视频标签;
步骤310,判定视频标签无效,不作处理。
这样,通过对视频标签前导符的验证,实现对视频标签的准确提取,过滤掉无效的视频标签。
由于视频标签应该具有可点击的特性,即视频标签要么是一个超链接,要么具有点击(onclick)事件。因此,步骤102之后还包括:检测视频标签是否为超链接或视频标签是否包含点击onclick事件;当视频标签不是超链接且不包含onclick事件时,判定该视频标签无效,不作处理。这样,进一步提高视频标签提取的准确性,过滤掉无效的视频标签。
另外,本发明实施例中,并不是对所有web网页都会进行上述视频标签的提取,而是仅对有视频元素的网页提取视频标签。通过判断web网页中是否有video标签来判断web该网页是否需要进行视频标签的提取。因此,步骤102之前还包括:解析web网页,判断web网页是否包含video标签;当web网页包含video标签,从web页面上提取视频标签。这样,提高视频标签提取的效率,避免对不包含视频元素的网页进行视频标签提取,而造成对处理资源的浪费。
本发明实施例中,对视频标签的分类如下:
第一类型,视频标签为指向视频的超链接;例如,<a href=”somepath.mp4”>第1集</a>;
第二类型,视频标签包含onclick事件的元素,点击后页面跳转到视频;
第三类型,视频标签包含onclick事件的元素,视频标签所在页面包含视频,点击后在页面上播放视频(通过调用video元素的setAttribute方法更改其src属性);
第四类型,视频标签为指向包含视频的HTML页面的超链接;
第五类型,视频标签包含onclick事件的元素,点击后页面跳转到包含视频的HTML页面。
这5种类型覆盖了绝大部分的视频网站中的视频标签类型,因此,这5种类型之外的标签可认为不是有效的视频标签。优选地,步骤106之前还包括:判断视频标签是否属于第一至第五类型;当视频标签不属于第一至第五类型时,判定该视频标签无效,不作处理。通过对视频标签类别的识别,进一步对视频标签进行过滤,提高后续根据视频标签提取视频URL的准确度和效率。
由于视频标签可能是上述五种类型的任意一种,因此,通过视频标签获取到的URL可能不是最终的视频URL。对于第一类型、第二类型和第三类型的视频标签,通过视频标签获取到的URL即为最终的视频URL,但是对于第四类型和第五类型来说,通过视频标签获取到的URL是一个可能包含视频的HTML页面URL。本实施例中,可以准确地根据视频标签类型获取第一URL,进一步提高视频下载的准确性和效率。
首先,通过视频标签获取到一个初步的URL,即第一URL。本发明实施例中需要对第一URL进行网络验证,即通过一次网络访问确定第一URL是最终的视频URL,还是HTML页面URL。
本发明实施例中,优选地,如图4所示,步骤106包括:
步骤402,通过视频标签提取第一URL;
步骤404,通过第一URL进行网络访问,获取包括多用途因特网邮件扩充类型(Multipurpose Internet Mail Extensions,MIME Type)的协议头;
步骤406,当MIME Type为视频类型时,判定第一URL为视频URL;
步骤408,当MIME Type为HTML页面类型时,判定第一URL为HTML页面URL;
步骤410,当第一URL为视频URL时,则获取该视频URL;
步骤412,当第一URL为HTML页面URL时,根据HTML页面URL获取视频URL。本实施例中,通过对从视频标签中提取的URL进行网络验证,使得抓取到的URL为最终的视频URL,避免获得不可下载的HTML页面URL,提高了视频URL抓取的准确性,使得后续可以根据该视频URL顺利的下载到视频资源,提高视频下载的效率。
优选地,步骤402包括:当视频标签的类型为第一类型或第四类型时,从超链接的超文本引用(Hyper text Reference,href)属性中提取第一URL;当视频标签的类型为第二类型、第三类型或第五类型时,通过调用onclick事件提取第一URL。
当视频标签的类型为第二类型和第五类型时,页面通常通过JavaScript代码调用window.location=xxx来跳转到一个新页面。在WebKit中的对应位置截断这次调用,以免真的跳转到新页面,并且截获到第一URL。
当视频标签的类型为第三类型时,页面通常通过JavaScript代码设置video元素的src属性来改变其播放的视频,在WebKit中的对应位置截断这次调用,并截获到第一URL。
步骤404中,利用HTTP的Partial Content特性,获得网络访问返回的HTTP协议的Range协议头中的MIME Type,如果MIME Type是视频类型,例如video或mp4,则判定第一URL为视频URL,否则该第一URL为HTML页面URL。
当MIME Type是视频类型时,只需要验证其类型即可,不需要真的获取数据,因为视频数据比较大,会占用很多网络带宽。而当MIME Type为HTML页面类型时,必须得到完整的HTML页面数据,否则无法找到它包含的视频。
步骤410中,当第一URL为HTML页面URL时,重新发送一个网络请求,获取该HTML页面数据。从HTML页面数据查找到页面中的URL,该URL可能是视频URL,也可能还是一个HTML页面URL。为了获取最终的视频URL,可能需要多次对获得的URL进行网络验证。
优选地,如图5所示,步骤410包括:
步骤502,根据HTML页面URL获取HTML页面数据;
步骤504,从HTML页面数据中查找第二URL;
步骤506,通过第二URL进行网络访问,获取包括MIME Type的协议头;
步骤508,当MIME Type为视频类型时,判定第二URL为视频URL,并获取该视频URL;
步骤510,当MIME Type为HTML页面类型时,判定第二URL为HTML页面URL;返回步骤502,直到从HTML页面中获取到视频URL。
步骤504中,可以利用视频嗅探技术从HTML页面数据查找到页面中的URL。扫描HTML页面,从中找出video元素。很多页面的HTML元素都是用JavaScript生成的,在页面加载完毕时video元素可能并没有生成。因此需要等待页面一段时间,并截获其插入元素的动作。
本实施例中,通过对获取到的URL进行反复网络验证,当出现多次页面跳转到视频资源时,可以过滤掉中间的跳转页面,直接获得最终的视频URL,提高视频URL抓取的准确性,使得后续可以根据该视频URL顺利的下载到视频资源,提高视频下载的效率。
优选地,本发明实施例中,步骤404和步骤506中,在进行网络访问时,还进一步获取预设字节个数的数据。当MIME Type为视频类型时,根据取预设字节个数的数据获得视频的基本信息;当MIME Type为HTML页面类型时,根据HTML页面URL获取预设字节个数的数据之外的其他HTML页面数据。
例如,可以设定获取第一URL或第二URL对应的目标内容的前100个字节的数据,当MIME Type为视频类型时,则本次网络验证结束;当MIME Type为HTML页面类型时,创建一个HTML页面,将这100个字节写入HTML页面内,然后重新发送一个网络请求,以获取第100个字节之后的所有数据,并且将这些数据也写入HTML页面中。
本实施例中,通过获取URL对应目标内容的部分数据,当目标内容为视频时,可以预先获取视频信息,方便用户了解要下载视频内容的信息,可以根据视频信息判断是否对该视频进行下载或根据视频信息设置下载策略,进一步提高视频下载效率和准确性。
本发明实施例中,获取的视频URL后,根据视频URL进行视频下载,包括在线下载或离线下载。
本发明实施例,通过对提取到的视频标签的类型进行识别,来抓取视频URL,使得在视频URL未知的情况下,可以从网页上准确地抓取可用视频URL,以实现对视频资源的自动批量下载,并且提高在线下载或离线下载的效率。
基于同一发明构思,本发明还提供了一种视频URL抓取装置,如图6所示,该装置包括:
标签提取模块601,用于从web页面上提取视频标签;
识别模块602,用于对视频标签的类型进行识别;
URL提取模块603,用于根据视频标签的类型提取视频URL。
优选地,标签提取模块,用于扫描web页面的DOM树,找到所有文字节点;从所有文字节点中提取包括有预设特征文字的文字节点;将包括有预设特征文字的文字节点的父节点作为视频标签。
优选地,如图7所示,该装置还包括:标题提取模快604、第一分析模块605和第二分析模块606。
标题提取模块604,用于从web页面提取视频标题;
第一分析模块605,用于分析视频标签是否包含前导符,前导符为视频标签中除预设特征文字外的文字;
第二分析模块606,用于当视频标签包含前导符,分析所述前导符中是否包含有提取到的所述视频标题;
标签提取模块601,用于当所述视频标签中的前导符不包含有提取到的所述视频标题时,判定视频标签无效,不作处理。
优选地,该装置还包括:检测模块610。检测模块610,用于检测视频标签是否为超链接或视频标签是否包含onclick事件;标签提取模块601,用于当视频标签不是超链接且不包含onclick事件时,判定视频标签无效,不作处理。
优选地,如图7所示,该装置还包括:
解析模块607,用于解析web网页,判断web网页是否包含video标签;
标签提取模块601,用于当web网页包含video标签,从web页面上提取视频标签。
优选地,如图8所示,URL提取模块603包括:
第一提取子模块6031,用于通过视频标签提取第一URL;
第一获取子模块6032,用于通过第一URL进行网络访问,获取包括MIMEType的协议头;
类型分析子模块6033,用于当MIME Type为视频类型时,判定第一URL为视频URL;当MIME Type为HTML页面类型时,判定第一URL为HTML页面URL;
第二获取子模块6034,用于当所述第一URL为视频URL时,则获取该视频URL;当第一URL为HTML页面URL时,根据HTML页面URL获取视频URL。
优选地,第一提取子模块6031,用于当视频标签的类型为第一类型或第四类型时,从超链接的超文本引用href属性中提取第一URL;当视频标签的类型为第二类型、第三类型或第五类型时,通过调用onclick事件提取第一URL。
优选地,第二获取子模块6034,用于根据HTML页面URL获取HTML页面数据;从HTML页面数据中查找第二URL;通过第二URL进行网络访问,获取包括MIME Type的协议头;当MIME Type为视频类型时,判定第二URL为视频URL;当MIME Type为HTML页面类型时,判定第一URL为HTML页面URL,返回根据HTML页面URL获取HTML页面数据的步骤,直到从HTML页面中获取到视频URL。
优选地,如图8所示,URL提取模块还包括第三获取子模块6035。第一获取子模块6032,用于在进行网络访问时,还获取预设字节个数的数据;第二获取子模块6034,用于当MIME Type为HTML页面类型时,根据HTML页面URL获取预设字节个数的数据之外的其他HTML页面数据;第三获取子模块6035,用于当MIME Type为视频类型时,根据取预设字节个数的数据获得视频的基本信息。
优选地,如图7所示,本实施例中,该装置还包括:判断模块608,用于判断视频标签是否属于第一至第五类型;标签提取模块601,用于当视频标签不属于第一至第五类型时,判定视频标签无效,不作处理。
优选地,如图7所示,本实施例中,该装置还包括下载模块609,用于根据视频URL进行视频下载。
图9是本发明实施例提供的一种终端设备结构示意图。如图9所示,该终端设备可以用于实施上述实施例中提供的视频URL抓取方法。其中,该终端设备可以为手机、平板电脑pad、穿戴式移动设备(如智能手表)等。优先的:
终端设备900可以包括通信单元910、包括有一个或一个以上计算机可读存储介质的存储器920、输入单元930、显示单元940、传感器950、音频电路960、WiFi(wirelessfidelity,无线保真)模块970、包括有一个或者一个以上处理核心的处理器980、以及电源990等部件。本领域技术人员可以理解,图9中示出的终端设备结构并不构成对终端设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
通信单元910可用于收发信息或通话过程中,信号的接收和发送,该通信单元910可以为RF(Radio Frequency,射频)电路、路由器、调制解调器、等网络通信设备。特别地,当通信单元910为RF电路时,将基站的下行信息接收后,交由一个或者一个以上处理器980处理;另外,将涉及上行的数据发送给基站。通常,作为通信单元的RF电路包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、LNA(Low Noise Amplifier,低噪声放大器)、双工器等。此外,通信单元910还可以通过无线通信与网络和其他设备通信。无线通信可以使用任一通信标准或协议,包括但不限于GSM(Global System of Mobile communication,全球移动通讯系统)、GPRS(General PacketRadio Service,通用分组无线服务)、CDMA(Code Division Multiple Access,码分多址)、WCDMA(Wideband Code Division Multiple Access,宽带码分多址)、LTE(Long TermEvolution,长期演进)、电子邮件、SMS(Short Messaging Service,短消息服务)等。存储器920可用于存储软件程序以及模块,处理器980通过运行存储在存储器920的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器920可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据终端设备900的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器920可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器920还可以包括存储器控制器,以提供处理器980和输入单元930对存储器920的访问。
输入单元930可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。优选地,输入单元930可包括触敏表面931以及其他输入设备932。触敏表面931,也称为触摸显示屏或者触控板,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面931上或在触敏表面931附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触敏表面931可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器980,并能接收处理器980发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面931。除了触敏表面931,输入单元930还可以包括其他输入设备932。优选地,其他输入设备932可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元940可用于显示由用户输入的信息或提供给用户的信息以及终端设备900的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元940可包括显示面板941,可选的,可以采用LCD(Liquid Crystal Display,液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板941。进一步的,触敏表面931可覆盖显示面板941,当触敏表面931检测到在其上或附近的触摸操作后,传送给处理器980以确定触摸事件的类型,随后处理器980根据触摸事件的类型在显示面板941上提供相应的视觉输出。虽然在图9中,触敏表面931与显示面板941是作为两个独立的部件来实现输入和输入功能,但是在某些实施例中,可以将触敏表面931与显示面板941集成而实现输入和输出功能。
终端设备900还可包括至少一种传感器950,比如光传感器、运动传感器以及其他传感器。优选地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板941的亮度,接近传感器可在终端设备900移动到耳边时,关闭显示面板941和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于终端设备900还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路960、扬声器961,传声器962可提供用户与终端设备900之间的音频接口。音频电路960可将接收到的音频数据转换后的电信号,传输到扬声器961,由扬声器961转换为声音信号输出;另一方面,传声器962将收集的声音信号转换为电信号,由音频电路960接收后转换为音频数据,再将音频数据输出处理器980处理后,经RF电路910以发送给比如另一终端设备,或者将音频数据输出至存储器920以便进一步处理。音频电路960还可能包括耳塞插孔,以提供外设耳机与终端设备900的通信。
为了实现无线通信,该终端设备上可以配置有无线通信单元970,该无线通信单元970可以为WiFi模块。WiFi属于短距离无线传输技术,终端设备900通过无线通信单元970可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图9示出了无线通信单元970,但是可以理解的是,其并不属于终端设备900的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器980是终端设备900的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器920内的软件程序和/或模块,以及调用存储在存储器920内的数据,执行终端设备900的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器980可包括一个或多个处理核心;优选的,处理器980可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器980中。
终端设备900还包括给各个部件供电的电源990(比如电池),优选的,电源可以通过电源管理系统与处理器980逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源990还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
尽管未示出,终端设备900还可以包括摄像头、蓝牙模块等,在此不再赘述。
具体在本实施例中,终端设备的显示单元是触摸屏显示器,终端设备还包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行一个或者一个以上程序包含用于进行以下操作的指令:
从web页面上提取视频标签;
对视频标签的类型进行识别;
根据视频标签的类型提取视频URL。
优选地,还包含用于进行以下操作的指令:
扫描web页面的DOM树,找到所有文字节点;
从所有文字节点中提取包括有预设特征文字的文字节点;
将包括有预设特征文字的文字节点的父节点作为视频标签。
优选地,还包含用于进行以下操作的指令:
从web页面提取视频标题;
分析视频标签是否包含前导符,前导符为视频标签中除预设特征文字外的文字;
当视频标签包含前导符,分析前导符中是否包含有提取到的视频标题;
当视频标签中的前导符不包含有提取到的视频标题时,判定视频标签无效,不作处理。
优选地,还包含用于进行以下操作的指令:
检测视频标签是否为超链接或视频标签是否包含onclick事件;
当视频标签不是超链接且不包含onclick事件时,判定视频标签无效,不作处理。
优选地,还包含用于进行以下操作的指令:
解析web网页,判断web网页是否包含video标签;
当web网页包含video标签,从web页面上提取视频标签。
优选地,还包含用于进行以下操作的指令:
通过视频标签提取第一URL;
通过第一URL进行网络访问,获取包括MIME Type的协议头;
当MIME Type为视频类型时,判定第一URL为视频URL;当MIME Type为HTML页面类型时,判定第一URL为HTML页面URL;
当第一URL为视频URL时,则获取视频URL;当第一URL为HTML页面URL时,根据HTML页面URL获取视频URL。
优选地,还包含用于进行以下操作的指令:
根据HTML页面URL获取HTML页面数据;
从HTML页面数据中查找第二URL;
通过第二URL进行网络访问,获取包括MIME Type的协议头;
当MIME Type为视频类型时,判定第二URL为视频URL,并获取视频URL;
当MIME Type为HTML页面类型时,判定第二URL为HTML页面URL,则重复根据HTML页面URL获取HTML页面数据的步骤,直到从HTML页面中获取到视频URL。
优选地,还包含用于进行以下操作的指令:通过第二URL进行网络访问,还获取预设字节个数的数据;
当MIME Type为视频类型时,根据取预设字节个数的数据获得视频的基本信息;
当MIME Type为HTML页面类型时,根据HTML页面URL获取预设字节个数的数据之外的其他HTML页面数据。
视频标签的类型包括:
第一类型,视频标签为指向视频的超链接;
第二类型,视频标签包含onclick事件的元素,点击后页面跳转到视频;
第三类型,视频标签包含onclick事件的元素,视频标签所在页面包含视频,点击后在页面上播放视频;
第四类型,视频标签为指向包含视频的超文本标记语言HTML页面的超链接;
第五类型,视频标签包含onclick事件的元素,点击后页面跳转到包含视频的HTML页面。
优选地,还包含用于进行以下操作的指令:
判断视频标签是否属于第一至第五类型;
当视频标签不属于第一至第五类型时,判定视频标签无效,不作处理。
优选地,还包含用于进行以下操作的指令:
当视频标签的类型为第一类型或第四类型时,从超链接的超文本引用href属性中提取第一URL;
当视频标签的类型为第二类型、第三类型或第五类型时,通过调用onclick事件提取第一URL。
优选地,还包含用于进行以下操作的指令:
根据视频URL进行视频下载。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (19)

1.一种视频URL抓取方法,其特征在于,该方法包括:
解析web页面,判断所述web页面是否包含video标签;
当所述web页面包含video标签,从web页面上提取视频标签;
对所述视频标签的类型进行识别;
根据所述视频标签的类型提取视频URL;
从web页面上提取视频标签包括:
扫描web页面的DOM树,找到所有文字节点;
从所有文字节点中提取包括有预设特征文字的文字节点;
将包括有预设特征文字的文字节点的父节点作为所述视频标签;
根据所述视频标签的类型提取视频URL包括:
通过所述视频标签提取第一URL;
通过所述第一URL进行网络访问,获取包括MIME Type的协议头;
当所述MIME Type为视频类型时,判定所述第一URL为视频URL;当所述MIME Type为HTML页面类型时,判定所述第一URL为HTML页面URL;
当所述第一URL为视频URL时,则获取所述视频URL;
当所述第一URL为HTML页面URL时,根据所述HTML页面URL获取视频URL。
2.根据权利要求1所述的方法,其特征在于,从web页面上提取视频标签之后还包括:
从所述web页面提取视频标题;
分析所述视频标签是否包含前导符,所述前导符为所述视频标签中除所述预设特征文字外的文字;
当所述视频标签包含前导符,分析所述前导符中是否包含有提取到的所述视频标题;
当所述视频标签中的前导符不包含有提取到的所述视频标题时,判定所述视频标签无效,不作处理。
3.根据权利要求1所述的方法,其特征在于,从web页面上提取视频标签之后还包括:
检测所述视频标签是否为超链接或所述视频标签是否包含onclick事件;
当所述视频标签不是超链接且不包含onclick事件时,判定所述视频标签无效,不作处理。
4.根据权利要求1所述的方法,其特征在于,根据所述HTML页面URL获取视频URL包括:
根据所述HTML页面URL获取HTML页面数据;
从所述HTML页面数据中查找第二URL;
通过所述第二URL进行网络访问,获取包括MIME Type的协议头;
当所述MIME Type为视频类型时,判定所述第二URL为视频URL,并获取所述视频URL;
当所述MIME Type为HTML页面类型时,判定所述第二URL为HTML页面URL,则重复根据所述HTML页面URL获取HTML页面数据的步骤,直到从HTML页面中获取到视频URL。
5.根据权利要求1或4所述的方法,其特征在于,该方法还包括:
在进行网络访问时,还获取预设字节个数的数据;
当所述MIME Type为视频类型时,根据所述预设字节个数的数据获得所述视频的基本信息;
当所述MIME Type为HTML页面类型时,根据所述HTML页面URL获取所述预设字节个数的数据之外的其他HTML页面数据。
6.根据权利要求1所述的方法,其特征在于,所述视频标签的类型包括:
第一类型,所述视频标签为指向视频的超链接;
第二类型,所述视频标签包含onclick事件的元素,点击后页面跳转到视频;
第三类型,所述视频标签包含onclick事件的元素,所述视频标签所在页面包含视频,点击后在所述页面上播放视频;
第四类型,所述视频标签为指向包含视频的HTML页面的超链接;
第五类型,所述视频标签包含onclick事件的元素,点击后页面跳转到包含视频的HTML页面。
7.根据权利要求6所述的方法,其特征在于,根据所述视频标签的类型提取视频URL之前还包括:
判断所述视频标签是否属于所述第一至第五类型;
当所述视频标签不属于所述第一至第五类型时,判定所述视频标签无效,不作处理。
8.根据权利要求6所述的方法,其特征在于,从所述视频标签中提取第一URL包括:
当所述视频标签的类型为所述第一类型或第四类型时,从所述超链接的href属性中提取所述第一URL;
当所述视频标签的类型为所述第二类型、第三类型或第五类型时,通过调用onclick事件提取所述第一URL。
9.根据权利要求1所述的方法,其特征在于,该方法还包括:
根据所述视频URL进行视频下载。
10.一种视频URL抓取装置,其特征在于,该装置包括:
解析模块,用于解析web页面,判断所述web页面是否包含video标签;
标签提取模块,用于当所述web页面包含video标签,从web页面上提取视频标签;
识别模块,用于对所述视频标签的类型进行识别;
URL提取模块,用于根据所述视频标签的类型提取视频URL;
所述标签提取模块,用于扫描web页面的DOM树,找到所有文字节点;从所有文字节点中提取包括有预设特征文字的文字节点;将包括有预设特征文字的文字节点的父节点作为所述视频标签;
所述URL提取模块包括:
第一提取子模块,用于通过所述视频标签提取第一URL;
第一获取子模块,用于通过所述第一URL进行网络访问,获取包括MIME Type的协议头;
类型分析子模块,用于当所述MIME Type为视频类型时,判定所述第一URL为视频URL;当所述MIME Type为HTML页面类型时,判定所述第一URL为HTML页面URL;
第二获取子模块,用于当所述第一URL为视频URL时,则获取该视频URL;当所述第一URL为HTML页面URL时,根据所述HTML页面URL获取视频URL。
11.根据权利要求10所述的装置,其特征在于,该装置还包括:标题提取模快、第一分析模块和第二分析模块,
所述标题提取模块,用于从所述web页面提取视频标题;
所述第一分析模块,用于分析所述视频标签是否包含前导符,所述前导符为所述视频标签中除所述预设特征文字外的文字;
所述第二分析模块,用于当所述视频标签包含前导符,分析所述前导符中是否包含有提取到的所述视频标题;
所述标签提取模块,用于当所述视频标签中的前导符不包含有提取到的所述视频标题时,判定所述视频标签无效,不作处理。
12.根据权利要求10所述的装置,其特征在于,所述装置还包括:检测模块,
所述检测模块,用于检测所述视频标签是否为超链接或所述视频标签是否包含onclick事件;
所述标签提取模块,用于当所述视频标签不是超链接且不包含onclick事件时,判定所述视频标签无效,不作处理。
13.根据权利要求10所述的装置,其特征在于,所述第二获取子模块,用于根据所述HTML页面URL获取HTML页面数据;从所述HTML页面数据中查找第二URL;通过所述第二URL进行网络访问,获取包括MIME Type的协议头;当所述MIME Type为视频类型时,判定所述第二URL为视频URL,获取该视频URL;当所述MIME Type为HTML页面类型时,判定第二URL为HTML页面URL,则重复根据所述HTML页面URL获取HTML页面数据的步骤,直到从HTML页面中获取到视频URL。
14.根据权利要求10或13所述的装置,其特征在于,所述URL提取模块还包括第三获取子模块,
所述第一获取子模块,用于在进行网络访问时,还获取预设字节个数的数据;
所述第二获取子模块,用于当所述MIME Type为HTML页面类型时,根据所述HTML页面URL获取所述预设字节个数的数据之外的其他HTML页面数据;
所述第三获取子模块,用于当所述MIME Type为视频类型时,根据所述取预设字节个数的数据获得所述视频的基本信息。
15.根据权利要求10所述的装置,其特征在于,所述视频标签的类型包括:
第一类型,所述视频标签为指向视频的超链接;
第二类型,所述视频标签包含onclick事件的元素,点击后页面跳转到视频;
第三类型,所述视频标签包含onclick事件的元素,所述视频标签所在页面包含视频,点击后在所述页面上播放视频;
第四类型,所述视频标签为指向包含视频的HTML页面的超链接;
第五类型,所述视频标签包含onclick事件的元素,点击后页面跳转到包含视频的HTML页面。
16.根据权利要求15所述的装置,其特征在于,该装置还包括:
判断模块,用于判断所述视频标签是否属于所述第一至第五类型;
所述标签提取模块,用于当所述视频标签不属于所述第一至第五类型时,判定所述视频标签无效,不作处理。
17.根据权利要求15所述的装置,其特征在于,所述第一提取子模块,用于当所述视频标签的类型为所述第一类型或第四类型时,从所述超链接的超文本引用href属性中提取所述第一URL;当所述视频标签的类型为所述第二类型、第三类型或第五类型时,通过调用onclick事件提取所述第一URL。
18.根据权利要求10所述的装置,其特征在于,该装置还包括:下载模块,用于根据所述视频URL进行视频下载。
19.一种终端设备,其特征在于,终端设备包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
解析web页面,判断所述web页面是否包含video标签;
当所述web页面包含video标签,从web页面上提取视频标签;
对所述视频标签的类型进行识别;
根据所述视频标签的类型提取视频URL;
从web页面上提取视频标签包括:
扫描web页面的DOM树,找到所有文字节点;
从所有文字节点中提取包括有预设特征文字的文字节点;
将包括有预设特征文字的文字节点的父节点作为所述视频标签;
根据所述视频标签的类型提取视频URL包括:
通过所述视频标签提取第一URL;
通过所述第一URL进行网络访问,获取包括MIME Type的协议头;
当所述MIME Type为视频类型时,判定所述第一URL为视频URL;当所述MIME Type为HTML页面类型时,判定所述第一URL为HTML页面URL;
当所述第一URL为视频URL时,则获取所述视频URL;
当所述第一URL为HTML页面URL时,根据所述HTML页面URL获取视频URL。
CN201310395725.0A 2013-09-03 2013-09-03 一种视频url抓取方法、装置及终端设备 Active CN103455602B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310395725.0A CN103455602B (zh) 2013-09-03 2013-09-03 一种视频url抓取方法、装置及终端设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310395725.0A CN103455602B (zh) 2013-09-03 2013-09-03 一种视频url抓取方法、装置及终端设备

Publications (2)

Publication Number Publication Date
CN103455602A CN103455602A (zh) 2013-12-18
CN103455602B true CN103455602B (zh) 2017-03-29

Family

ID=49737965

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310395725.0A Active CN103455602B (zh) 2013-09-03 2013-09-03 一种视频url抓取方法、装置及终端设备

Country Status (1)

Country Link
CN (1) CN103455602B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104010231A (zh) * 2014-04-30 2014-08-27 小米科技有限责任公司 数据同步方法及装置
CN105279215A (zh) * 2014-06-10 2016-01-27 中兴通讯股份有限公司 资源的下载方法及装置
CN104036011B (zh) * 2014-06-24 2020-06-12 北京奇虎科技有限公司 网页元素的显示方法以及浏览器装置
CN104978398A (zh) * 2015-06-02 2015-10-14 广东欧珀移动通信有限公司 一种音乐播放方法及终端设备
CN106021291B (zh) * 2016-04-29 2019-10-08 努比亚技术有限公司 一种信息处理方法及移动终端
CN112367549B (zh) * 2020-11-10 2021-08-06 四川长虹电器股份有限公司 电视浏览器的视频播放实现方法及浏览器应用运行方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101944111A (zh) * 2010-09-09 2011-01-12 中国科学技术大学 新闻视频的搜索方法和装置
CN102880674A (zh) * 2012-09-10 2013-01-16 杭州电子科技大学 基于视频网站的主题类视频自动采集方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070288426A1 (en) * 2006-06-12 2007-12-13 Joshua Schachter System and method for bookmarking and auto-tagging a content item based on file type
JP2010262534A (ja) * 2009-05-08 2010-11-18 Kazuhiko Akamine コンテンツ情報配信装置、方法、及びコンピュータプログラム
CN102904937A (zh) * 2012-09-25 2013-01-30 百度在线网络技术(北京)有限公司 移动终端访问网页的方法、系统、浏览器和中转服务器

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101944111A (zh) * 2010-09-09 2011-01-12 中国科学技术大学 新闻视频的搜索方法和装置
CN102880674A (zh) * 2012-09-10 2013-01-16 杭州电子科技大学 基于视频网站的主题类视频自动采集方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
中文互联网视频搜索引擎系统策略研究;郭眈;《中国博士学位论文全文数据库 信息科技辑》;20120915;第I138-77卷(第09期);第83、85-87页 *

Also Published As

Publication number Publication date
CN103455602A (zh) 2013-12-18

Similar Documents

Publication Publication Date Title
CN103455602B (zh) 一种视频url抓取方法、装置及终端设备
CN103455582B (zh) 浏览器导航页的显示方法及移动终端
CN104182429B (zh) 网页处理方法和终端
CN102663135B (zh) 用于嵌入式浏览器的图形化书签实现方法、装置及终端
CN104636664B (zh) 基于文档对象模型的跨站脚本攻击漏洞检测方法及装置
CN105681872A (zh) 直播过程中信息交互方法及装置
CN104794396A (zh) 跨站式脚本漏洞检测方法及装置
CN103336838B (zh) 一种网页的处理方法、装置和终端设备
CN103501485B (zh) 推送应用的方法、装置和终端设备
CN103310007B (zh) 网页切换方法、装置和设备
CN104424278B (zh) 一种获取热点资讯的方法及装置
CN106294839A (zh) 一种链接跳转方法和装置
CN104239332A (zh) 网页内容处理方法、装置及浏览器客户端
CN107766358A (zh) 一种页面分享的方法及相关装置
CN104063400B (zh) 数据搜索方法和装置
CN104216929A (zh) 一种页面元素的拦截方法和装置
CN106775194A (zh) 一种应用界面切换方法及装置
CN107229618A (zh) 一种显示页面的方法及装置
CN105955597A (zh) 信息显示方法及装置
CN107391518A (zh) 统计页面加载性能信息的系统、方法及装置
CN104239369A (zh) 一种过滤网页广告的方法、装置和系统
CN106155888A (zh) 一种移动应用中网页加载性能的检测方法和装置
CN103455601A (zh) 一种网页处理方法、装置及终端设备
CN108182090A (zh) 基于blink内核的Flash插件加载方法及装置
CN103824003B (zh) 应用程序保护方法、装置和终端

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant