CN101446954A - 针对视频网站的广域网爬虫系统 - Google Patents
针对视频网站的广域网爬虫系统 Download PDFInfo
- Publication number
- CN101446954A CN101446954A CNA2008101808265A CN200810180826A CN101446954A CN 101446954 A CN101446954 A CN 101446954A CN A2008101808265 A CNA2008101808265 A CN A2008101808265A CN 200810180826 A CN200810180826 A CN 200810180826A CN 101446954 A CN101446954 A CN 101446954A
- Authority
- CN
- China
- Prior art keywords
- video
- hyperlink
- address
- area network
- wide area
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种针对视频网站的广域网爬虫系统,包括以下部件:超链接扫描器,通用地址分析提取器,视频标识提取器,播放地址合成器,视频真实地址提取器,真实地址存储库,视频数据下载器,视频数据存储库,以及超链接喂食器。通过应用本发明所描述的系统,可以有效地解决爬虫系统无法采集广域网中视频网站数据的问题;可以为视频爬虫系统中的核心技术转址功能提供通用的框架;可以为搭建针对广域网视频的搜索引擎系统的重要组成部分视频数据采集系统提供通用的搭建架构;显著降低广域网视频爬虫系统的开发难度,进一步有效地降低系统开发成本。
Description
技术领域
本发明涉及网络数据采集系统,尤其涉及一种针对视频网站的广域网爬虫系统。
背景技术
随着信息时代的到来和影像视频技术的发展,影像视频由于有着无可比拟的优势和强烈的视觉冲击力而吸引着越来越多的人们欣赏。但是由于视频的数据量巨大和普遍网络带宽的限制,人们很难方便地在本机观看视频。正是由于这个主要原因,广域网上纷纷建立起许多视频网站,实行视频数据的在线播放来使得人们方便快捷的实时欣赏视频。但是随着视频网站视频数据量的激增,加之视频不像文本信息那样易于识别,人们不可能简单快捷地在广域网上找到所希望的视频,因此针对广域网视频的搜索引擎就孕育而生了。但很不幸的是因特网上的一般搜索引擎对于检索文本信息如网页的能力较强但检索视频的能力相对很弱。为了解决这一问题,人们提出了如何在最小的代价下将一般的广域网搜索引擎转变为针对广域网视频的搜索引擎的思想。而从一般因特网上的搜索引擎转变为针对广域网视频的搜索引擎,搜索引擎系统的其他部分几乎相同,惟一的巨大的差别是数据的来源问题,也即爬虫系统,因此针对视频网站的广域网爬虫系统是针对广域网视频的搜索引擎的核心。怎样做到爬虫系统有效准确地采集视频数据已受到越来越多的学者的关注。
由于广域网上的视频数据类型有很多种,如包括:avi、rm、rmvb、wmv等,而且视频数据又是以二进制比特流的形式存在,加之往往广域网上的视频的地址信息往往都是经过处理的,这些都为爬虫系统有效准确地采集视频数据增加了难度。解决了这个问题能够大大地提高视频检索效率和降低针对广域网视频搜索引擎的开发难度。因而怎样行之有效地解决这个难题成为众多学者关注的焦点问题。因此,本发明引入转址技术来解决这一问题。
发明内容
针对现有技术存在的问题,本发明的目的是提供一种能够有效地抓取广域网视频数据的爬虫系统。
为达到上述目的,本发明提供一种针对视频网站的广域网爬虫系统,其特征在于包括:
超链接扫描器,用于提取网页中的所有超链接;
通用地址分析提取器,用于分析并提取网页中的指向视频的通用形式超链接;
视频标识提取器,用于分析并提取网页中的视频的标识符号;
播放地址合成器,用于将所述视频标识提取器提取的视频标识符号合成播放器所需的网页地址;
视频真实地址提取器,用于在所述播放地址合成器合成的播放地址所指向的页面中提取视频真实存放地址;
通用地址存储库,用于保存在所述通用地址分析提取器中被提取的指向视频的通用形式超链接;
真实地址存储库,用于保存在所述视频真实地址提取器中被提取的视频真实存放地址超链接;
视频数据下载器,用于下载在所述真实地址存储库中存储的视频真实存放地址超链接指向的视频数据;
视频数据存储库,用于存储在所述视频数据下载器中下载的数据;
超链接喂食器,用于向所述超链接扫描器提供需要处理的超链接。所述系统中,所述超链接扫描器包括:
超链接判断器,用于分析判断网页中的超链接;
超链接摘取器,用于提取在所述超链接判断器中被判定的超链接。
本发明的有益效果在于,通过应用本发明所描述的系统,可以有效地解决爬虫系统无法采集广域网中视频网站数据的问题;可以为视频爬虫系统中的核心技术------转址功能提供通用的框架;可以为搭建针对广域网视频的搜索引擎系统的重要组成部分------视频数据采集系统提供通用的搭建架构;显著降低广域网视频爬虫系统的开发难度,进一步有效地降低系统开发成本。
结合附图,本发明的其他特点和优点可以从下面通过举例来对本发明的原理进行解释的优选实施方式的说明中变得更清楚。
附图说明
图1是根据本发明的一个实施方式的系统的结构图。
图2示出图1中超链接扫描器内部结构的一个例子。
具体实施方式
下面将结合附图对本发明的具体实施方式进行详细描述。
图1是根据本发明的一个实施方式的系统的结构图。101表示超链接扫描器,102表示通用地址分析提取器,103表示视频标识提取器,104表示播放地址合成器,105表示视频真实地址提取器,106表示通用地址存储库,107表示真实地址存储库,108表示视频数据下载器,109表示视频数据存储库,以及110表示超链接喂食器。
超链接扫描器101,用于分析并提取网页中的超链接。一个具体实施例在图2中所示。
通用地址分析提取器102,用于分析并提取网页中的指向视频的通用形式超链接。视频的通用形式超链接由三部分组成。需要指出的是为了说明清晰的目的,以下用于举例的超链接是视频网站中一个具体的视频的地址,对于不同的视频网站和同一视频网站中不同的视频,三部分的各个具体字符串是不同的,此处仅仅是举例,不同的字符串不构成对本发明的限制。一个通用地址分析提取器102的具体实施例是通过正则表达式技术匹配如此此形式的超链接:www.tudou.com/programs/view/mCZ03uY6zYM/,其中字符串“www.tudou.com”为视频网站的主机域名,“programs/view/”为视频网站的树形文件系统中的文件夹,“mCZ03uY6zYM”为具体视频的视频网站内部的标识码。视频的通用形式超链接就由以上三部分组成。对于已知的视频网站前两部分是已知的。能够匹配上的属于该视频网站的视频通用形式超链接并提取,不能够匹配上的不属于该视频网站的视频通用形式超链接并且不做任何提取处理。以上是通用地址分析提取器102的一个具体实施例,其他不同的实施例不构成对本发明的限制。
同样为了说明清晰的目的,以下在视频标识提取器103,播放地址合成器104,视频真实地址提取器105中用于举例的超链接是视频网站中一个具体的视频的地址,对于不同的视频网站和同一视频网站中不同的视频,超链接的具体字符串是不同的,此处仅仅是举例,不同的字符串不构成对本发明的限制。
视频标识提取器103,用于分析并提取网页中的视频的标识符号。一个视频标识提取器103的具体实施例是通过字符串查找技术在视频的通用形式超链接所指向的网页中查找视频的标识符号。如通用地址分析提取器102中的例子,通过查找可得到“var iid=11272862”的视频标识符号。将其中的数字部分提取出,即提取“11272862”。需要指出对于不同的视频网站用于标识的符号具体字符是略有不同的,此处的举例不够成对本发明的限制。以上是视频标识提取器103的一个具体实施例,其他不同的实施例不构成对本发明的限制。
播放地址合成器104,用于将视频标识提取器103提取的视频标识符号合成播放器所需的网页地址。一个播放地址合成器104的具体实施例是在播放器调用地址后加上视频标识符号。如通用地址分析提取器102中的例子,该视频网站的播放器调用地址为:http://www.tudou.com/player/v.php,这个是flash播放器调用的XML的PHP页面,然后在后面加上字符串“?id=11272862”,其中“11272862”即为该视频标识符号。最终合成播放器所需的网页地址为:http://www.tudou.com/player/v.php?id=11272862。需要指出的是视频网站的播放器调用地址对于已知的视频网站是可在其网页中找到的,不同的视频网站播放器调用地址和在视频标识符号前加的参数传递符号是不同的,此处的举例不够成对本发明的限制。以上是播放地址合成器104的一个具体实施例,其他不同的实施例不构成对本发明的限制。
视频真实地址提取器105,用于在播放地址合成器104合成的播放地址所指向的页面中提取视频真实存放地址。一个视频真实地址提取器105的具体实施例是通过正则表达式在播放地址合成器104合成的播放地址所指向的页面中匹配以视频的真实地址信息。如通用地址分析提取器102中的例子,可得到页面中视频真实存放地址为:http://player0071.tudou.com/flv/011/272/862/11272862.flv,匹配的原则是以字符串“http://”开头,以视频后缀名结束,如“.flv”。需要指出的是视频的后缀名是可列的有限几个,此处的.flv为举例不够成对本发明的限制。以上是视频真实地址提取器105的一个具体实施例,其他不同的实施例不构成对本发明的限制。
通用地址存储库106,用于保存在通用地址分析提取器102中被提取的指向视频的通用形式超链接。一个通用地址存储库106的具体实施例是通过文本形式,将被提取的指向视频的通用形式超链接逐条存储。以上是同话题网页超链接存储库106的一个具体实施例,其他不同的实施例不构成对本发明的限制。
真实地址存储库107,用于保存在视频真实地址提取器105中被提取的视频真实存放地址超链接。一个真实地址存储库107的具体实施例是通过文本形式,将被提取的视频真实存放地址超链接逐条存储。以上是真实地址存储库107的一个具体实施例,其他不同的实施例不构成对本发明的限制。
视频数据下载器108,用于下载在真实地址存储库107中存储的视频真实存放地址超链接指向的视频数据。
视频数据存储库109,用于存储在视频数据下载器108中下载的数据。一个视频数据存储库109的具体实施例是通过文本形式,将在视频数据下载器108中下载的数据存储。以上是视频数据存储库109的一个具体实施例,其他不同的实施例不构成对本发明的限制。
超链接喂食器110,用于向超链接扫描器101提供需要处理的超链接。一个超链接喂食器110的具体实施例是检测通用地址存储库106中是否还有未被处理的超链接,若还有未被处理的超链接,则读取此超链接,然后将此超链接提供给超链接扫描器101;若没有未被处理的超链接,则爬虫系统停止。以上是超链接喂食器110的一个具体实施例,其他不同的实施例不构成对本发明的限制。
图2示出图1中超链接扫描器内部结构的一个例子。除了超链接扫描器101以外,图2中的各部件与图1中的各部件相同。
如图2所示,超链接扫描器101包括超链接判断器1011和超链接摘取器1012。
超链接判断器1011,用于分析判断网页中的超链接。一个网页判断器1011具体实施例是通过标记语言来判断网页中的超链接,标记语言一般有:<a href="URL"></a>,<a href="#NAME"></a>,<img src="URL">等等。在网页中通过正则表达式来匹配这些超链接的标记语言,若能够匹配上,则可判断此处为网页的超链接;若不能够匹配上,则可判断此处不是网页的超链接。以上是超链接判断器1011的一个具体实施例,其他不同的实施例不构成对本发明的限制。
超链接摘取器1012,用于提取在超链接判断器1011中被判定的超链接。一个超链接摘取器1012具体实施例是将超链接判断器1011中被判断为超链接的网页中的文本信息保存下来。以上是超链接摘取器1012的一个具体实施例,其他不同的实施例不构成对本发明的限制。
以上结合附图描述了本发明的具体实施方式,各种举例说明不对发明的实质内容构成限制,本发明不限于上面提供的实施细节,可以在不脱离本发明特征的情况下以另外的实施例实现。所属技术领域的普通技术人员在阅读了说明书后可以对以前所述的具体实施方式做修改或变形,而不背离发明的实质和范围。
Claims (2)
1.一种针对视频网站的广域网爬虫系统,其特征在于包括:
超链接扫描器,用于提取网页中的所有超链接;
通用地址分析提取器,用于分析并提取网页中的指向视频的通用形式超链接;
视频标识提取器,用于分析并提取网页中的视频的标识符号;
播放地址合成器,用于将所述视频标识提取器提取的视频标识符号合成播放器所需的网页地址;
视频真实地址提取器,用于在所述播放地址合成器合成的播放地址所指向的页面中提取视频真实存放地址;
通用地址存储库,用于保存在所述通用地址分析提取器中被提取的指向视频的通用形式超链接;
真实地址存储库,用于保存在所述视频真实地址提取器中被提取的视频真实存放地址超链接;
视频数据下载器,用于下载在所述真实地址存储库中存储的视频真实存放地址超链接指向的视频数据;
视频数据存储库,用于存储在所述视频数据下载器中下载的数据;
超链接喂食器,用于向所述超链接扫描器提供需要处理的超链接。
2.根据权利要求1所述的针对视频网站的广域网爬虫系统,其特征在于,所述超链接扫描器包括:
超链接判断器,用于分析判断网页中的超链接;
超链接摘取器,用于提取在所述超链接判断器中被判定的超链接。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2008101808265A CN101446954B (zh) | 2008-11-25 | 2008-11-25 | 针对视频网站的广域网爬虫系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2008101808265A CN101446954B (zh) | 2008-11-25 | 2008-11-25 | 针对视频网站的广域网爬虫系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101446954A true CN101446954A (zh) | 2009-06-03 |
CN101446954B CN101446954B (zh) | 2010-09-08 |
Family
ID=40742632
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2008101808265A Expired - Fee Related CN101446954B (zh) | 2008-11-25 | 2008-11-25 | 针对视频网站的广域网爬虫系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101446954B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102457488A (zh) * | 2010-10-22 | 2012-05-16 | 腾讯数码(天津)有限公司 | 一种网络视频信息分享方法及其系统、网关服务器 |
CN102761532A (zh) * | 2011-04-29 | 2012-10-31 | 腾讯科技(深圳)有限公司 | 网络视频的信息处理系统和方法 |
CN101715004B (zh) * | 2009-11-12 | 2013-01-09 | 中国科学院计算技术研究所 | 面向网络视频的分布式采集方法和系统 |
CN103796046A (zh) * | 2013-12-24 | 2014-05-14 | Tcl集团股份有限公司 | 一种视频源地址检测方法及装置 |
CN103986974A (zh) * | 2014-06-05 | 2014-08-13 | 安一恒通(北京)科技有限公司 | 视频加载判定方法和装置 |
CN104284250A (zh) * | 2013-07-12 | 2015-01-14 | 贝壳网际(北京)安全技术有限公司 | 一种视频处理方法、装置、服务器和客户端设备 |
CN104598571A (zh) * | 2015-01-12 | 2015-05-06 | 百度在线网络技术(北京)有限公司 | 一种多媒体资源的播放方法及装置 |
WO2015062388A1 (zh) * | 2013-10-31 | 2015-05-07 | 优视科技有限公司 | 图片加载方法、装置及视频播放方法、装置 |
WO2015062380A1 (zh) * | 2013-11-01 | 2015-05-07 | 北京奇虎科技有限公司 | 一种对网页视频进行播放的方法和装置 |
CN105635038A (zh) * | 2014-10-27 | 2016-06-01 | 任子行网络技术股份有限公司 | 一种甄别音视频网站的方法及系统 |
CN109068153A (zh) * | 2018-09-28 | 2018-12-21 | 华为技术有限公司 | 视频播放方法、装置和计算机可读存储介质 |
CN109857953A (zh) * | 2018-11-08 | 2019-06-07 | 北京达佳互联信息技术有限公司 | 音视频分离方法、装置、电子设备及可读存储介质 |
CN110290405B (zh) * | 2018-03-19 | 2020-10-16 | 北大方正集团有限公司 | 视频地址的解析方法、装置、设备及可读存储介质 |
-
2008
- 2008-11-25 CN CN2008101808265A patent/CN101446954B/zh not_active Expired - Fee Related
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101715004B (zh) * | 2009-11-12 | 2013-01-09 | 中国科学院计算技术研究所 | 面向网络视频的分布式采集方法和系统 |
CN102457488A (zh) * | 2010-10-22 | 2012-05-16 | 腾讯数码(天津)有限公司 | 一种网络视频信息分享方法及其系统、网关服务器 |
CN102457488B (zh) * | 2010-10-22 | 2016-04-27 | 腾讯数码(天津)有限公司 | 一种网络视频信息分享方法及其系统、网关服务器 |
CN102761532A (zh) * | 2011-04-29 | 2012-10-31 | 腾讯科技(深圳)有限公司 | 网络视频的信息处理系统和方法 |
CN102761532B (zh) * | 2011-04-29 | 2015-11-25 | 腾讯科技(深圳)有限公司 | 网络视频的信息处理系统和方法 |
CN104284250A (zh) * | 2013-07-12 | 2015-01-14 | 贝壳网际(北京)安全技术有限公司 | 一种视频处理方法、装置、服务器和客户端设备 |
WO2015062388A1 (zh) * | 2013-10-31 | 2015-05-07 | 优视科技有限公司 | 图片加载方法、装置及视频播放方法、装置 |
US10360694B2 (en) | 2013-10-31 | 2019-07-23 | Uc Mobile Co., Ltd. | Methods and devices for image loading and methods and devices for video playback |
US10121263B2 (en) | 2013-10-31 | 2018-11-06 | Uc Mobile Co., Ltd. | Methods and devices for image loading and methods and devices for video playback |
CN103823829B (zh) * | 2013-11-01 | 2017-07-28 | 北京奇虎科技有限公司 | 一种对网页视频进行播放的方法和装置 |
WO2015062380A1 (zh) * | 2013-11-01 | 2015-05-07 | 北京奇虎科技有限公司 | 一种对网页视频进行播放的方法和装置 |
CN103796046B (zh) * | 2013-12-24 | 2018-08-31 | Tcl集团股份有限公司 | 一种视频源地址检测方法及装置 |
CN103796046A (zh) * | 2013-12-24 | 2014-05-14 | Tcl集团股份有限公司 | 一种视频源地址检测方法及装置 |
CN103986974B (zh) * | 2014-06-05 | 2018-01-19 | 安一恒通(北京)科技有限公司 | 视频加载判定方法和装置 |
CN103986974A (zh) * | 2014-06-05 | 2014-08-13 | 安一恒通(北京)科技有限公司 | 视频加载判定方法和装置 |
CN105635038A (zh) * | 2014-10-27 | 2016-06-01 | 任子行网络技术股份有限公司 | 一种甄别音视频网站的方法及系统 |
CN105635038B (zh) * | 2014-10-27 | 2018-08-21 | 任子行网络技术股份有限公司 | 一种甄别音视频网站的方法及系统 |
CN104598571A (zh) * | 2015-01-12 | 2015-05-06 | 百度在线网络技术(北京)有限公司 | 一种多媒体资源的播放方法及装置 |
CN110290405B (zh) * | 2018-03-19 | 2020-10-16 | 北大方正集团有限公司 | 视频地址的解析方法、装置、设备及可读存储介质 |
CN109068153A (zh) * | 2018-09-28 | 2018-12-21 | 华为技术有限公司 | 视频播放方法、装置和计算机可读存储介质 |
CN109857953A (zh) * | 2018-11-08 | 2019-06-07 | 北京达佳互联信息技术有限公司 | 音视频分离方法、装置、电子设备及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN101446954B (zh) | 2010-09-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101446954B (zh) | 针对视频网站的广域网爬虫系统 | |
Trampuš et al. | Internals of an aggregated web news feed | |
CN109033358B (zh) | 新闻聚合与智能实体关联的方法 | |
CN102200980B (zh) | 一种提供网络资源的方法及系统 | |
CN106649778B (zh) | 基于深度问答的交互方法和装置 | |
US8489609B1 (en) | Indexing multimedia web content | |
CN103544176A (zh) | 用于生成多个页面所对应的页面结构模板的方法和设备 | |
CN104715064A (zh) | 一种实现在网页上标注关键词的方法和服务器 | |
CN102054028A (zh) | 具备页面渲染功能的网络爬虫系统及其实现方法 | |
CN102915318B (zh) | 一种浏览器中定位查找信息的方法和装置 | |
CN101673266A (zh) | 音频、视频内容的搜索方法 | |
CN106874502A (zh) | 一种视频搜索的方法、装置及终端 | |
WO2020101479A1 (en) | System and method to detect and generate relevant content from uniform resource locator (url) | |
CN114443928B (zh) | 一种网络文本数据爬虫方法与系统 | |
CN101436196B (zh) | 自动动态更新论坛爬虫系统的构建方法 | |
CN104778232B (zh) | 一种基于长查询的搜索结果的优化方法和装置 | |
CN101673262A (zh) | 音频内容的搜索方法 | |
CN104965902A (zh) | 一种富集化url的识别方法和装置 | |
Sluban et al. | URL Tree: Efficient unsupervised content extraction from streams of web documents | |
CN108595453B (zh) | Url标识映射获取方法及装置 | |
Lin et al. | Combining a segmentation-like approach and a density-based approach in content extraction | |
Oyri | News Item Extraction for Text Mining inWeb Newspapers | |
JP2009259248A (ja) | ウェブページに含まれるイメージに対してタグ付けを実行し、その結果を利用してウェブ検索サービスを提供するための方法、装置及びコンピュータ読み取り可能な記録媒体 | |
CN104504070B (zh) | 一种搜索的方法和装置 | |
Lingwal | Noise reduction and content retrieval from web pages |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20100908 Termination date: 20101125 |