CN103856827A - 一种基于服务模拟交互的视频内容获取方法及系统 - Google Patents
一种基于服务模拟交互的视频内容获取方法及系统 Download PDFInfo
- Publication number
- CN103856827A CN103856827A CN201210505518.1A CN201210505518A CN103856827A CN 103856827 A CN103856827 A CN 103856827A CN 201210505518 A CN201210505518 A CN 201210505518A CN 103856827 A CN103856827 A CN 103856827A
- Authority
- CN
- China
- Prior art keywords
- video
- file
- simulation
- web server
- download address
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
本发明提供了一种基于服务模拟交互的视频内容获取方法及系统,该方法通过模拟浏览器和Web服务器交互得到视频的下载地址,所述方法包含:步骤101)模拟浏览器通过视频播放页面的html文件,取得视频的ID号;步骤102)模拟浏览器根据视频的ID号组装请求视频播放列表的url,向Web服务器发送http请求得到该Web服务器反馈的播放列表文件;步骤103)模拟浏览器从url播放列表中提取出视频的清晰度信息,拼成视频播放列表的url,再次向Web服务器发送http请求,得到视频播放列表的文件;步骤104)模拟浏览器从视频播放列表文件中提取相关信息,拼接成视频的下载地址。
Description
技术领域
本发明属于网络新媒体技术领域,特别涉及到视频网站内容获取的方法,具体涉及一种基于服务模拟交互的视频内容获取方法及系统。
背景技术
网络媒体的迅速发展,影响了相应的延伸媒体,而视频网站依附网络这一快速、便捷手段,迅速发展,成为了网民的不可或缺的部分。视频网站的优势主要在视频内容分享上满足网民的多样需求。视频内容的分享为人们提供了信息存储空间和发布平台,人们可以在线观看和视频下载。
浏览器和Web服务器之间使用的主要是HTTP协议,HTTP是互联网上应用最广泛的协议,能够将超文本标记语言(HTML)文档从Web服务器传送到浏览器。HTML始终用于创建文档的标记语言,这些文档包含了相关信息的链接。HTTP因其简捷、快速的方式,适用于分布式超媒体信息系统。
当今的各大视频网站的最终视频的下载地址基本上不会出现在原始的html文件中,若要下载视频,必须注册视频网站的账号或者安装播放器,由于这个原因,使批量下载视频变得不可能。当通过浏览器请求视频的播放页面时,浏览器和Web服务器使用HTTP协议互相传送了很多消息,虽然视频的下载地址包含在这些消息中,但是如何找到有效的信息是一个关键问题。因此寻找一种能够解析出视频下载地址的方法势在必行。
发明内容
本发明的目的在于,为克服上述问题本发明提供一种基于服务模拟交互的视频内容获取方法及系统。
为了实现上述目的,本发明提供了一种基于服务模拟交互的视频内容获取方法,该方法通过模拟浏览器和Web服务器交互得到视频的下载地址,所述方法包含:
步骤101)模拟浏览器通过视频播放页面的html文件,取得视频的ID号;
步骤102)模拟浏览器根据视频的ID号组装请求视频播放列表的url,向Web服务器发送http请求得到该Web服务器反馈的播放列表文件;
步骤103)模拟浏览器从url播放列表中提取出视频的清晰度信息,拼成视频播放列表的url,再次向Web服务器发送http请求,得到视频播放列表的文件;
步骤104)模拟浏览器从视频播放列表文件中提取相关信息,拼接成视频的下载地址。
上述步骤101)之前还包含如下步骤:
模拟浏览器提取视频播放url中的主机IP地址和主机资源的具体地址,将上述两个地址填写到请求报文头里,向Web视频服务器发送http请求,得到一个视频播放页面的html文件。
上述视频播放列表的文件中的相关信息包含:视频文件各个分片的大小、视频分片的总数或视频的播放时长。
上述步骤104)进一步包含:
模拟浏览器直接从视频播放列表文件中提取视频下载地址;或
模拟浏览器将提取出来的下载地址向Web服务器发送请求,得到重定向后的最终下载地址。
所述浏览器和Web服务器使用http协议通信,浏览器发送http请求,得到一个或多个Web服务器返回的响应。
基于上述方法本发明还提供了一种基于服务模拟交互的视频内容获取系统,该系统通过模拟浏览器和Web服务器交互得到视频的下载地址,所述系统包含:
视频ID号获取模块,用于通过视频播放页面的html文件,取得视频的ID号;
第一播放列表获取模块,用于根据视频的ID号组装请求视频播放列表的url,向Web服务器发送http请求得到该Web服务器反馈的播放列表文件;
第二播放列表获取模块,用于从url播放列表中提取出视频相关信息,拼成视频播放列表的url,再次向Web服务器发送http请求,得到视频播放列表的文件;和
下载地址提取模块,用于从视频播放列表文件中提取相关信息,拼接成视频的下载地址。
上述系统还包含:
视频播放页面的html文件获取模块,用于提取视频播放url中的主机IP地址和主机资源的具体地址,将上述两个地址填写到请求报文头里,向Web视频服务器发送http请求,得到一个视频播放页面的html文件。
上述视频播放列表的文件中的相关信息包含:视频文件各个分片的大小、视频分片的总数或视频的播放时长。
上述下载地址提取模块进一步包含:
第一提取子模块,用于直接从视频播放列表文件中提取视频下载地址;
第二提取子模块,用于将提取出来的下载地址向Web服务器发送请求,得到重定向后的最终下载地址。
总之,本发明提供的一种基于服务模拟交互的视频内容获取方法是对于特定的视频的原始播放地址,解析出该视频所有规格的下载地址。
与现有技术相比,本发明的技术优势在于:
本发明提供的方法主要利用浏览模拟技术,通过视频播放页面的地址向视频网站服务器发送请求,得到一个包含视频相关信息的页面文件,从中提取出视频的相关信息,利用视频信息拼成请求视频播放页面的网址,向视频服务器发送请求,从而得到一个视频播放列表的文件,通过对文件内容进行分析得到的相关信息,整合得到视频的下载地址。使用本方法,可以很方便得获得视频的下载地址,用于快速高效的批量获取视频内容。
附图说明
图1是本发明实施例提供的基于服务模拟交互的视频内容获取系统组成框架图;
图2是本发明实施例提供的基于服务模拟交互的视频内容获取方法的流程图。
具体实施方式
下面结合附图对本发明的内容做进一步详细阐述。
本发明的技术内容:通过视频的播放url发送http请求,模拟浏览器和Web服务器交互的过程,通过分析该模拟过程,最终得到视频的下载地址。
下面介绍模拟交互获取视频下载地址的方法的实现步骤:
(1)利用视频的原始播放url向Web视频服务器发送请求,得到的响应是一个html文件,其中html文件中包含有视频的id。
(2)根据视频网站的不同情况,拼接成请求播放列表的url也不同,但大部分都与视频的id有关,利用视频的id拼接成请求播放列表的url。
(3)通过请求播放列表的url向Web服务器发送请求,得到一个关于该视频播放列表的Json或XML等格式的文件。
(4)提取出播放列表中有关视频的信息,拼接成视频下载地址的url。
(5)要得到不同清晰度的视频下载地址,可以利用得到的播放列表文件的各个清晰度的id,然后重复步骤(4)即可。
(6)把视频所有清晰度的下载地址保存下来。
进一步的,在向Web视频服务器发送请求时,提取出视频播放url中的主机IP地址(不包含端口号)和主机资源的具体地址,把这两部分填写到请求报文头里,发送http请求,得到一个视频播放页面的html文件,从中提取视频的id。某些视频网站的部分视频的播放url中包含有视频的id,可以从url直接提取出视频的id。
进一步的,从视频的播放列表的文件中得到视频的相关信息,如视频文件各个分片的大小、视频分片的总数、视频的播放时长等。有些视频网站的最终下载地址就包含在视频的播放列表中,可以从中提取出下载地址,而另一些视频网站,需要用到播放列表中的相关信息,拼成一个请求下载地址的url。
进一步的把下载地址提取出来,有些视频网站的下载地址需要再以提取出来的下载地址像Web服务器发送请求,得到重定向后的最终下载地址。
实施例
本发明的视频内容获取系统的整体框架示意图如图1所示。
首先,从视频的播放url出发,通过视频的解析模块解析出视频的下载地址。
然后,把视频的下载地址写入到存储模块中(此处采用数据库)。
最后,从数据库中取出下载地址,通过视频下载模块下载视频文件。
本发明的视频解析模块是整个视频内容获取系统的核心部分,视频解析模块的流程图如图2所示,详细功能流程如下所述(以搜狐视频为例):
第一步,获得视频播放页面的url,由此url向Web服务器发送http请求,得到html文件,从文件中提取出字段“var vid=”后的值作为视频的id。
第二步,由视频的vid拼接请求播放列表的playlistUrl,playlistUrl=http://hot.vrs.sohu.com/vrs_flash.action?vid=videoVid&ver=1&bw=1175&g=8&referer=videoUrl&t=,其中videoVid为视频的id,videoUrl为视频播放页面的url。
第三步,由playlistUrl向Web服务器发送http请求,得到播放列表的Json文件。从Json文件中可以得到不同清晰度的视频的id,norVid为普清视频的id,highVid为高清视频的id,superVid为超清视频的id,oriVid为原画质视频的id,这些视频的id值若为空,则不存在此清晰度的视频。从字段“allot”中提取出的值作为host,从字段“clipsURL”中提取出的值作为fileName,字段“su”提取出的值作为newName,视频若有多个分片,则对应多个fileName和newName。组成的下载地址downloadUrl=http://host/?prot=2&file=filename&new=newName;
第四步,通过downloadUrl向Web服务器发送http请求,得到一个html文件的响应。从html文件中提取出最终下载地址的主机IP地址和资源的目录,记为hostIpDir,并且从中获得下载地址中的key值,记为downloadKey。视频最终下载地址finalDownloadUrl=http://hostIpDir/newName?key=downloadKey,其中的newName是第三步所得到的。
第五步,若视频有多片组成,则重复第三步、第四步的过程,直到解析出视频的所有分片。
第六步,若视频有多个清晰度,则从第三步得到不同清晰度视频的id值,然重复第二步、第三步、第四步、第五步的过程。
第七步,在成功得到视频的下载地址之后,把所有清晰度的视频的全部分片的最终下载地址保存下来。
总之本发明提供的一种自动解析和获取视频播放内容下载地址的方法,属于网络新媒体技术领域。该方法主要利用浏览模拟技术,通过视频播放页面的地址向视频网站服务器发送请求,得到一个包含视频相关信息的页面文件,从中提取出视频的相关信息,利用视频信息拼成请求视频播放页面的网址,向视频服务器发送请求,从而得到一个视频播放列表的文件,通过对文件内容进行分析得到的相关信息,整合得到视频的下载地址。使用本方法,可以很方便得获得视频的下载地址,用于批量获取视频内容。
需要说明的是,以上介绍的本发明的实施方案而并非限制。本领域的技术人员应当理解,任何对本发明技术方案的修改或者等同替代都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围内。
Claims (10)
1.一种基于服务模拟交互的视频内容获取方法,该方法通过模拟浏览器和Web服务器交互得到视频的下载地址,所述方法包含:
步骤101)模拟浏览器通过视频播放页面的html文件,取得视频的ID号;
步骤102)模拟浏览器根据视频的ID号组装请求视频播放列表的url,向Web服务器发送http请求得到该Web服务器反馈的播放列表文件;
步骤103)模拟浏览器从url播放列表中提取出视频的清晰度信息,拼成视频播放列表的url,再次向Web服务器发送http请求,得到视频播放列表的文件;
步骤104)模拟浏览器从视频播放列表文件中提取相关信息,拼接成视频的下载地址。
2.根据权利要求1所述的基于服务模拟交互的视频内容获取方法,其特征在于,所述步骤101)之前还包含如下步骤:
模拟浏览器提取视频播放url中的主机IP地址和主机资源的具体地址,将上述两个地址填写到请求报文头里,向Web视频服务器发送http请求,得到一个视频播放页面的html文件。
3.根据权利要求1所述的基于服务模拟交互的视频内容获取方法,其特征在于,所述视频播放列表的文件中的相关信息包含:视频文件各个分片的大小、视频分片的总数或视频的播放时长。
4.根据权利要求1所述的基于服务模拟交互的视频内容获取方法,其特征在于,所述步骤104)进一步包含:
模拟浏览器直接从视频播放列表文件中提取视频下载地址;或
模拟浏览器将提取出来的下载地址向Web服务器发送请求,得到重定向后的最终下载地址。
5.根据权利要求1所述的基于服务模拟交互的视频内容获取方法,其特征在于,浏览器和Web服务器使用http协议通信,浏览器发送http请求,得到一个或多个Web服务器返回的响应。
6.一种基于服务模拟交互的视频内容获取系统,该系统通过模拟浏览器和Web服务器交互得到视频的下载地址,所述系统包含:
视频ID号获取模块,用于通过视频播放页面的html文件,取得视频的ID号;
第一播放列表获取模块,用于根据视频的ID号组装请求视频播放列表的url,向Web服务器发送http请求得到该Web服务器反馈的播放列表文件;
第二播放列表获取模块,用于从url播放列表中提取出视频相关信息,拼成视频播放列表的url,再次向Web服务器发送http请求,得到视频播放列表的文件;和
下载地址提取模块,用于从视频播放列表文件中提取相关信息,拼接成视频的下载地址。
7.根据权利要求6所述的基于服务模拟交互的视频内容获取系统,其特征在于,所述系统还包含:
视频播放页面的html文件获取模块,用于提取视频播放url中的主机IP地址和主机资源的具体地址,将上述两个地址填写到请求报文头里,向Web视频服务器发送http请求,得到一个视频播放页面的html文件。
8.根据权利要求6所述的基于服务模拟交互的视频内容获取系统,其特征在于,所述视频播放列表的文件中的相关信息包含:视频文件各个分片的大小、视频分片的总数或视频的播放时长。
9.根据权利要求6所述的基于服务模拟交互的视频内容获取系统,其特征在于,所述下载地址提取模块进一步包含:
第一提取子模块,用于直接从视频播放列表文件中提取视频下载地址;
第二提取子模块,用于将提取出来的下载地址向Web服务器发送请求,得到重定向后的最终下载地址。
10.根据权利要求6所述的基于服务模拟交互的视频内容获取系统,其特征在于,模拟浏览器和Web服务器使用http协议通信,即模拟浏览器向Web服务器发送http请求同时得到一个或多个Web服务器返回的响应。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210505518.1A CN103856827B (zh) | 2012-11-30 | 2012-11-30 | 一种基于服务模拟交互的视频内容获取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210505518.1A CN103856827B (zh) | 2012-11-30 | 2012-11-30 | 一种基于服务模拟交互的视频内容获取方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103856827A true CN103856827A (zh) | 2014-06-11 |
CN103856827B CN103856827B (zh) | 2017-02-08 |
Family
ID=50863960
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210505518.1A Expired - Fee Related CN103856827B (zh) | 2012-11-30 | 2012-11-30 | 一种基于服务模拟交互的视频内容获取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103856827B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104283955A (zh) * | 2014-09-30 | 2015-01-14 | 百度在线网络技术(北京)有限公司 | 一种浏览器、服务器、下载系统及下载方法 |
CN105141638A (zh) * | 2015-09-29 | 2015-12-09 | 北京奇艺世纪科技有限公司 | 一种视频资源的下载方法及装置 |
CN106844672A (zh) * | 2017-01-22 | 2017-06-13 | 青岛海信电器股份有限公司 | 一种文档中附件文件的下载方法和设备 |
CN109361963A (zh) * | 2018-10-18 | 2019-02-19 | 恒峰信息技术有限公司 | 一种教学视频安全处理方法及系统 |
CN111953659A (zh) * | 2020-07-21 | 2020-11-17 | 北京思特奇信息技术股份有限公司 | 一种http请求模拟处理的方法及系统 |
CN115278365A (zh) * | 2022-09-26 | 2022-11-01 | 成都华栖云科技有限公司 | 一种网站视频获取方法及系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102098327A (zh) * | 2010-12-15 | 2011-06-15 | 百度在线网络技术(北京)有限公司 | 在线视频嗅探下载方法及装置 |
CN102510536A (zh) * | 2011-12-21 | 2012-06-20 | 中国传媒大学 | 一种互联网音视频下载方法 |
CN102647634B (zh) * | 2012-05-02 | 2014-07-02 | 合一网络技术(北京)有限公司 | 一种基于HTML5video的多分片视频播放方法及装置 |
-
2012
- 2012-11-30 CN CN201210505518.1A patent/CN103856827B/zh not_active Expired - Fee Related
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104283955A (zh) * | 2014-09-30 | 2015-01-14 | 百度在线网络技术(北京)有限公司 | 一种浏览器、服务器、下载系统及下载方法 |
CN105141638A (zh) * | 2015-09-29 | 2015-12-09 | 北京奇艺世纪科技有限公司 | 一种视频资源的下载方法及装置 |
CN105141638B (zh) * | 2015-09-29 | 2018-08-03 | 北京奇艺世纪科技有限公司 | 一种视频资源的下载方法及装置 |
CN106844672A (zh) * | 2017-01-22 | 2017-06-13 | 青岛海信电器股份有限公司 | 一种文档中附件文件的下载方法和设备 |
CN109361963A (zh) * | 2018-10-18 | 2019-02-19 | 恒峰信息技术有限公司 | 一种教学视频安全处理方法及系统 |
CN109361963B (zh) * | 2018-10-18 | 2019-08-06 | 恒峰信息技术有限公司 | 一种教学视频安全处理方法及系统 |
CN111953659A (zh) * | 2020-07-21 | 2020-11-17 | 北京思特奇信息技术股份有限公司 | 一种http请求模拟处理的方法及系统 |
CN111953659B (zh) * | 2020-07-21 | 2023-02-07 | 北京思特奇信息技术股份有限公司 | 一种http请求模拟处理的方法及系统 |
CN115278365A (zh) * | 2022-09-26 | 2022-11-01 | 成都华栖云科技有限公司 | 一种网站视频获取方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN103856827B (zh) | 2017-02-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104412603B (zh) | 处理互动服务的方法及接收互动服务的装置 | |
CN103856827A (zh) | 一种基于服务模拟交互的视频内容获取方法及系统 | |
CN103533428A (zh) | 将智能终端网页视频推送到电视播放的方法及智能终端 | |
CN104426925B (zh) | 网页资源获取方法及装置 | |
US20220337676A1 (en) | Dynamic and static data of metadata objects | |
US20140201617A1 (en) | Method for Browsing Web Page on Mobile Terminal | |
CN102546781B (zh) | 课程资源播放方法和课程资源播放系统 | |
CN104063460A (zh) | 一种在浏览器中加载网页的方法和装置 | |
CN104918105B (zh) | 媒体文件的多屏播放方法、设备及系统 | |
CN102098327A (zh) | 在线视频嗅探下载方法及装置 | |
EP2574004A1 (en) | Method, apparatus and system for improving synchronization efficiency of really simple syndication service | |
CN103268319A (zh) | 一种基于网页的云浏览器 | |
CN102131110B (zh) | 一种iptv内容发布系统和方法 | |
CN101616166A (zh) | 在互联网中用于高速下载多媒体内容的方法与装置 | |
US20150363505A1 (en) | Reception device, information processing method in reception device, transmission device, information processing device, and information processing method | |
CN104580380B (zh) | 登录状态的同步方法和系统 | |
CN105992021A (zh) | 视频弹幕方法、装置及系统 | |
CN103116645A (zh) | 移动设备浏览网页的方法及装置 | |
CN106817587A (zh) | 视频流的生成/分享方法、系统、终端设备和服务器集群 | |
US20130138770A1 (en) | Apparatus and method for sharing web contents using inspector script | |
CN104504006A (zh) | 对新闻客户端的数据采集及解析的方法及系统 | |
CN103702138A (zh) | 自适应指定转码的方法和系统 | |
CN112449250B (zh) | 一种视频资源的下载方法、装置、设备和介质 | |
CN103747280B (zh) | 一种创建节目单的方法及电子设备 | |
CN103905496A (zh) | 一种图片下载方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170208 Termination date: 20191130 |
|
CF01 | Termination of patent right due to non-payment of annual fee |