CN115278365B - 一种网站视频获取方法及系统 - Google Patents

一种网站视频获取方法及系统 Download PDF

Info

Publication number
CN115278365B
CN115278365B CN202211170496.8A CN202211170496A CN115278365B CN 115278365 B CN115278365 B CN 115278365B CN 202211170496 A CN202211170496 A CN 202211170496A CN 115278365 B CN115278365 B CN 115278365B
Authority
CN
China
Prior art keywords
video
link
file
audio
fragment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211170496.8A
Other languages
English (en)
Other versions
CN115278365A (zh
Inventor
黄晓雷
颜涛
张汨
朱愚
胡查旭
徐嘉诺
向万春
黄信云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Chinamcloud Technology Co ltd
Original Assignee
Chengdu Chinamcloud Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Chinamcloud Technology Co ltd filed Critical Chengdu Chinamcloud Technology Co ltd
Priority to CN202211170496.8A priority Critical patent/CN115278365B/zh
Publication of CN115278365A publication Critical patent/CN115278365A/zh
Application granted granted Critical
Publication of CN115278365B publication Critical patent/CN115278365B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/433Content storage operation, e.g. storage operation in response to a pause request, caching operations
    • H04N21/4334Recording operations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/478Supplemental services, e.g. displaying phone caller identification, shopping application
    • H04N21/4782Web browsing, e.g. WebTV

Abstract

本发明涉及互联网技术领域,公开了一种网站视频获取方法及系统,通过浏览器插件拓展接口监听浏览器请求的响应信息,利用数据头信息中的文件类型信息、文件后缀信息和文件附件信息过滤得到有效视频链接,再通过请求参数自适应将任务分发给对应的视频解析器进行解析,然后在缓存单元查询解析通过后的链接的缓存命中情况,如果命中则直接将命中的视音频文件入库到资源管理单元,否则通过链接下载器下载该链接对应的视音频文件。本发明提出的是一种支持多种网站平台的视频文件自适应获取方法,同时具备包括单链接视频、视音频分离、分片视频等三种解析方式,能够方便用户快速、准确地下载视频文件。

Description

一种网站视频获取方法及系统
技术领域
本发明涉及互联网技术领域,特别是提出了一种网站视频获取方法及系统。
背景技术
在短视频爆发的时代,传统广电媒体或自媒体用户都会通过各大互联网网站寻找视频素材,用于自己视频内容的制作。
现市面上视频文件抓取手段,主要面临以下几个问题:
1、对于分片文件抓取不完整,例如:m3u8格式文件;
2、支持的网站较少;
3、无法区分清晰度;
4、无法对于切片进行排序。
发明内容
本发明的目的在于克服现有技术的不足,本申请提供一种支持各种网站平台的视频文件获取方法,方便用户能够快速、准确地下载视频文件。
本发明的目的是通过以下技术方案来实现的:
一种网站视频获取方法,所述方法包括以下步骤:S100,监听流程:通过浏览器插件拓展接口监听浏览器请求的响应信息,获取所述响应信息的数据头信息,利用所述数据头信息中的文件类型信息、文件后缀信息和文件附件信息过滤得到有效视频链接;S300,链接解析流程:接收所述浏览器插件发送的所述有效视频链接,通过请求参数自适应将任务分发给对应的视频解析器进行解析;所述视频解析器主要由单链接视频解析器、视音频分离视频解析器和分片视频解析器组成;S301,通过单链接视频解析器解析单链链接;S302,通过视音频分离视频解析器解析视频和音频分离的链接;S303,通过分片视频解析器解析分片视频链接;S500,文件下载流程:在缓存单元查询解析通过后的链接的缓存命中情况,如果命中则直接将命中的视音频文件入库到资源管理单元,否则通过链接下载器下载该链接对应的视音频文件;S501,针对单链接视音频文件,通过链接下载器下载该链接对应的视音频文件,并在所述缓存单元登记后入库到所述资源管理单元;S502,针对视音频分离文件,通过链接下载器分别下载该链接对应的视频文件和音频文件,并将下载的视频文件和音频文件的存储路径作为参数,调用视频合成器合成为完整的视音频文件,然后在所述缓存单元登记,并入库到所述资源管理单元;S503,针对分片视频文件,通过链接下载器下载该链接对应的所有视频分片文件后,将该所有视频分片文件的存储路径根据分片ID进行排序,并将排序后的存储路径作为参数,调用视频合成器将该所有视频分片文件合成为完整的视音频文件,然后在所述缓存单元登记,并入库到所述资源管理单元。
优选的,所述S100监听流程包括以下步骤:S101,通过浏览器插件拓展接口监听浏览器响应事件,获取请求的响应信息,提取所述响应信息的数据头信息;S102,判断所述数据头信息中的所述文件后缀是否与满足用户设置的文件后缀要求,若满足则执行S103,否则结束请求;S103,判断所述数据头信息中的所述文件类型是否与满足用户设置的文件类型要求,若满足则执行S104,否则结束请求;S104,判断所述数据头信息中的所述文件附件是否与满足用户设置的文件附件要求,若满足则执行S105,否则结束请求;S105,通过统一资源定位符URL判断链接所属网站平台,若其所属网站平台有已适配标签,则进行第一适配处理过滤得到有效视频链接,再将经第一适配处理或未经适配处理后得到的统一资源定位符URL和网页信息加入到可抓取文件列表。
优选的,所述S301包括以下步骤:通过单链接视频解析器解析单链链接,若其所属网站平台为通用平台,则直接获取其统一资源定位符URL作为视音频文件的下载地址;若其所属网站平台为预设的特殊平台,则通过第二适配处理过滤掉其中表示时间区间的参数和/或在数据头信息中添加其所属网站平台的主域信息,再作为视音频文件的下载地址。
优选的,所述S302包括以下步骤:通过视音频分离视频解析器解析各个视频链接和音频链接,通过各个统一资源定位符URL中的参数信息来区分出视频链接和音频链接,或者根据统一资源定位符URL中的路径来判断音频链接;对于没有明显标识的统一资源定位符URL,则对各个统一资源定位符URL发出一个预请求,根据返回的数据头信息来区分出视频链接和音频链接,得到视音频全部下载地址。
优选的,所述S303包括以下步骤:通过分片视频解析器解析分片视频链接,向统一资源定位符URL发出一个预请求,读取返回结果中的分片信息,并将该分片信息和统一资源定位符URL相结合,组成分片视频的下载数组,并通过分片信息的ID升序/降序进行排序,得到全部下载地址。
优选的,在所述缓存单元登记的方式包括:将网站标识、统一资源定位符URL中的视频标识及清晰度标识作为缓存的密钥key在所述缓存单元登记。
优选的,在缓存单元查询解析通过后的链接的缓存命中情况时,所述命中情况判断方式包括:获取解析后的链接的网站标识、统一资源定位符URL中的视频标识及清晰度标识,并将其作为密钥key在所述缓存单元中进行匹配。
优选的,所述方法还包括:S700,监听视音频文件下载进度,并实时反馈任务完成情况。
优选的,所述方法还包括:S900,清理所述缓存单元和/或资源管理单元中的非热点视音频文件。
本申请还提出了一种网站视频获取系统,所述系统主要由监听插件模块、任务分发器、链接解析器、缓存单元、链接下载器、视频合成器和资源管理单元等组成;其中,监听插件模块,用于通过浏览器插件拓展接口监听浏览器请求的响应信息,获取所述响应信息的数据头信息,利用所述数据头信息中的文件类型信息、文件后缀信息和文件附件信息过滤得到有效视频链接;任务分发器,用于接收所述浏览器插件发送的所述有效视频链接,通过请求参数自适应将任务分发给对应的视频解析器进行解析;链接解析器,主要由单链接视频解析器、视音频分离视频解析器和分片视频解析器组成;所述单链接视频解析器用于解析单链链接;所述视音频分离视频解析器用于解析视频和音频分离的链接;所述分片视频解析器用于解析分片视频链接;缓存单元,用于缓存解析后的链接及网站信息,在缓存单元查询解析通过后的链接的缓存命中情况,如果命中则直接将命中的视音频文件入库到资源管理单元,否则通过链接下载器下载该链接对应的视音频文件;链接下载器,用于下载链接对应的视音频文件;视频合成器,用于将下载的视音频文件合成为完整的视音频文件;资源管理单元,用于存储和管理用户下载的视音频文件;针对单链接视音频文件,通过链接下载器下载该链接对应的视音频文件,并在所述缓存单元登记后入库到所述资源管理单元;针对视音频分离文件,通过链接下载器分别下载该链接对应的视频文件和音频文件,并将下载的视频文件和音频文件的存储路径作为参数,调用视频合成器合成为完整的视音频文件,然后在所述缓存单元登记,并入库到所述资源管理单元;针对分片视频文件,通过链接下载器下载该链接对应的所有视频分片文件后,将该所有视频分片文件的存储路径根据分片ID进行排序,并将排序后的存储路径作为参数,调用视频合成器将该所有视频分片文件合成为完整的视音频文件,然后在所述缓存单元登记,并入库到所述资源管理单元。
本发明的有益效果是:本发明提出的网站视频获取方法及系统,是一种支持多种网站平台的视频文件自适应获取手段,能够方便用户快速、准确地下载视频文件,包括单链接视频、视音频分离、分片视频等三种解析方式。
附图说明
图1为本发明网站视频获取系统的系统结构示意图;
图2为本发明监听流程的示意图。
具体实施方式
下面将结合实施例,对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有付出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
为满足用户快速、准确、完整、下载视频文件,本发明提出了一种网站视频获取方法,可结合如图1所示的系统架构来理解,所述方法可以包括S100-S900等步骤,本领域技术人员可以理解的,在一些实施例中,某些步骤可以节省,某些步骤之间还可再增加其他处理程序,另外S100-S900并不表示必须按此标号顺序进行执行,某些步骤可以同时执行,某些步骤可以变换顺序而不影响最终结果。
监听流程S100:通过浏览器插件拓展接口监听浏览器请求的响应信息,获取所述响应信息的数据头信息,利用所述数据头信息中的文件类型信息、文件后缀信息和文件附件信息过滤得到有效视频链接。例如,可以在支持扩展安装插件的浏览器中安装本发明的监听插件模块,例如在谷歌浏览器中安装该插件,通过谷歌浏览器插件拓展接口监听浏览器请求的响应信息response,基于http协议通过响应信息response的数据头信息header中的文件类型信息content-type、文件附件信息Content-Disposition和文件后缀信息等过滤得到有效视频链接,并发送给后台进行链接解析。
在一些实施例中,所述S100监听流程可如图2所示,包括S101-S105等步骤。
S101,通过浏览器插件拓展接口监听浏览器响应事件,获取请求的响应信息response,提取所述响应信息的数据头信息header。
S102,判断所述数据头信息中的所述文件后缀是否与满足用户设置的文件后缀要求,若满足则执行S103,否则结束请求;在一些实施例中,用户设置的文件后缀要求可包括但不限于flv、hlv、f4v、mp4、mp3、wma、wav、m4a、m4s、letv、ts、m3u8、webm、ogg、ogv、acc、mov、mkv等格式文件的后缀名,当请求下载链接中文件后缀满足所设置的要求时,继续执行监听分析。
S103,判断所述数据头信息中的所述文件类型content-type是否与满足用户设置的文件类型要求,若满足则执行S104,否则结束请求;在一些实施例中,用户设置的文件类型要求可包括视频文件类型和音频文件类型。
S104,判断所述数据头信息中的所述文件附件是否与满足用户设置的文件附件要求,若满足则执行S105,否则结束请求;在一些实施例中,用户设置的文件附件要求可包括但不限于flv、hlv、f4v、mp4、mp3、wma、wav、m4a、m4s、letv、ts、m3u8、webm、ogg、ogv、acc、mov、mkv等格式的附件。
S105,通过统一资源定位符URL判断链接所属网站平台,若其所属网站平台有已适配标签,则进行第一适配处理过滤得到有效视频链接,若没有已适配标签也可以做个标记反馈给后台便于后期对该网站平台进行适配分析,然后将经第一适配处理或未经适配处理后得到的统一资源定位符URL和网页信息加入到可抓取文件列表。所述第一适配处理包括但不限于过滤广告视频和过滤直播流等处理。
前端浏览器监听插在提取到有效视频链接后,将该有效视频链接发生给后台进行解析、下载等操作。
链接解析流程S300:在接收到所述浏览器插件发送的所述有效视频链接后,通过请求参数自适应将任务分发给对应的视频解析器进行解析;所述视频解析器主要由单链接视频解析器、视音频分离视频解析器和分片视频解析器组成。
S301,通过单链接视频解析器解析单链链接;在一些实施例中,所述S301包括以下步骤:通过单链接视频解析器解析单链链接,若其所属网站平台为通用平台,则直接获取其统一资源定位符URL作为视音频文件的下载地址;若其所属网站平台为预设的特殊平台,则通过第二适配处理过滤掉其中表示时间区间的参数和/或在数据头信息中添加其所属网站平台的主域信息,再作为视音频文件的下载地址。
S302,通过视音频分离视频解析器解析视频和音频分离的链接;在一些实施例中,所述S302包括以下步骤:通过视音频分离视频解析器解析各个视频链接和音频链接,通过各个统一资源定位符URL中的参数信息来区分出视频链接和音频链接,或者根据统一资源定位符URL中的路径来判断音频链接;对于没有明显标识的统一资源定位符URL,则对各个统一资源定位符URL发出一个预请求,根据返回的数据头信息header来区分出视频链接和音频链接,得到视音频全部下载地址。在一些实施例中,可以通过返回的header头中包含的文件大小来判断视频链接和音频链接,一般情形下,可将最小的文件判定为音频文件。在一些实施例中,还可以通过返回的header头中包含的文件大小来判断视频的清晰度,一般情形下,文件越大的视频清晰度越高,最大的文件为清晰度最高的文件。
S303,通过分片视频解析器解析分片视频链接;在一些实施例中,所述S303包括以下步骤:通过分片视频解析器解析分片视频链接,向统一资源定位符URL发出一个预请求,读取返回结果中的分片信息,并将该分片信息和统一资源定位符URL相结合,组成分片视频的下载数组,并通过分片信息的ID升序/降序进行排序,得到全部下载地址。
文件下载流程S500:在缓存单元查询解析通过后的链接的缓存命中情况,如果命中则直接将命中的视音频文件入库到资源管理单元,否则通过链接下载器下载该链接对应的视音频文件。在一些实施例中,在缓存单元查询解析通过后的链接的缓存命中情况时,所述命中情况判断方式包括:获取解析后的链接的网站标识、统一资源定位符URL中的视频标识及清晰度标识,并将其作为密钥key在所述缓存单元中进行匹配,如若有匹配成功的,则说明资源管理单元中存储有该视音频文件,则直接调取该资源而不用再去下载。
S501,针对单链接视音频文件,通过链接下载器下载该链接对应的视音频文件,并在所述缓存单元登记后入库到所述资源管理单元。
S502,针对视音频分离文件,通过链接下载器分别下载该链接对应的视频文件和音频文件,并将下载的视频文件和音频文件的存储路径作为参数,调用视频合成器合成为完整的视音频文件,然后在所述缓存单元登记,并入库到所述资源管理单元。在一些实施例中,在所述缓存单元登记的方式包括:将网站标识、统一资源定位符URL中的视频标识及清晰度标识作为缓存的密钥key在所述缓存单元登记。
S503,针对分片视频文件,通过链接下载器下载该链接对应的所有视频分片文件后,将该所有视频分片文件的存储路径根据分片ID进行排序,并将排序后的存储路径作为参数,调用视频合成器将该所有视频分片文件合成为完整的视音频文件,然后在所述缓存单元登记,并入库到所述资源管理单元。
在一些实施例中,本申请所述方法还可包括任务进度监听流程S700,监听视音频文件下载进度,并实时反馈任务完成情况。例如:S701,通过下载监听器监听下载任务完成情况,具体的可以为,下载监听器实时监听下载的文件大小,并获取响应信息response的数据头信息header中表示文件大小的Content-Length信息,再将两者进行比较计算得到任务完成的百分比,并反馈给任务管理单元;S702,通过合成监听器监听合成进度,并实时反馈合成情况,具体的可以为,通过视频合成器输出的日志获取其完成进度,实时计算得到合成任务完成的百分比。
在一些实施例中,本申请所述方法还可包括缓存清理流程S900,定期或不定期地清理所述缓存单元和/或资源管理单元中的非热点视音频文件,也可以设置暂存期限来进行清理,定期或不定期地清理非热点视音频文件或超过暂存期限的视音频文件,以实现合理管理资源。
本申请提出的一种网站视频获取方法,是一种支持多种网站平台的视频文件自适应获取方法,通过浏览器插件拓展接口监听浏览器请求的响应信息,利用数据头信息中的文件类型信息、文件后缀信息和文件附件信息过滤得到有效视频链接,通过请求参数自适应将任务分发给对应的视频解析器进行解析,再在缓存单元查询解析通过后的链接的缓存命中情况,如果命中则直接将命中的视音频文件入库到资源管理单元,否则通过链接下载器下载该链接对应的视音频文件。本发明提出的方法同时具备包括单链接视频、视音频分离、分片视频等三种解析方式,能够方便用户快速、准确地下载视频文件。
本申请还提出了一种网站视频获取系统,所述系统基于前述各个实施例中所述的网站视频获取方法,主要由监听插件模块、任务分发器、链接解析器、缓存单元、链接下载器、视频合成器和资源管理单元等组成,在一些实施例中,还可包括进度监听器、任务管理单元、缓存清理器等,并通过这些单元模块执行前述各个实施例中所述的网站视频获取方法,实现相应的目的和功能。一般的其中监听插件模块会被安装在前端浏览器上,其余单元模块被设置在后台,可以设置在本地端,也可分布设置在云服务器上。
所述监听插件模块,用于执行S100中对应的监听流程,通过浏览器插件拓展接口监听浏览器请求的响应信息,获取所述响应信息的数据头信息,利用所述数据头信息中的文件类型信息、文件后缀信息和文件附件信息过滤得到有效视频链接。
所述任务分发器,用于执行S300中对应的任务分发流程,接收所述浏览器插件发送的所述有效视频链接,通过请求参数自适应将任务分发给对应的视频解析器进行解析。
所述链接解析器,用于执行S300中对应的链接解析流程,主要由单链接视频解析器、视音频分离视频解析器和分片视频解析器组成;所述单链接视频解析器用于执行S301对应的单链链接解析流程;所述视音频分离视频解析器用于执行S302对应的视频和音频分离的链接解析流程;所述分片视频解析器用于执行S303对应的分片视频链接解析流程。
所述缓存单元,用于缓存解析后的链接及网站信息,在缓存单元查询解析通过后的链接的缓存命中情况,如果命中则直接将命中的视音频文件入库到资源管理单元,否则通过链接下载器下载该链接对应的视音频文件。
所述链接下载器,用于执行S500中对应的文件下载流程,下载链接对应的视音频文件。
所述视频合成器,用于执行S500中对应的视频合成流程,将下载的视音频文件合成为完整的视音频文件。
所述资源管理单元,用于存储和管理用户下载的视音频文件。资源管理单元还可以是媒体用户使用的视频素材管理单元,便于媒体用户制作视频。
本系统中,针对单链接视音频文件,通过链接下载器下载该链接对应的视音频文件,并在所述缓存单元登记后入库到所述资源管理单元;针对视音频分离文件,通过链接下载器分别下载该链接对应的视频文件和音频文件,并将下载的视频文件和音频文件的存储路径作为参数,调用视频合成器合成为完整的视音频文件,然后在所述缓存单元登记,并入库到所述资源管理单元;针对分片视频文件,通过链接下载器下载该链接对应的所有视频分片文件后,将该所有视频分片文件的存储路径根据分片ID进行排序,并将排序后的存储路径作为参数,调用视频合成器将该所有视频分片文件合成为完整的视音频文件,然后在所述缓存单元登记,并入库到所述资源管理单元。
所述进度监听器,用于执行S700对应的进度监听流程,监听视音频文件下载进度,并实时反馈任务完成情况。可包括下载监听器,用于执行S701对应的流程,监听下载任务完成情况;可包括合成监听器,用于执行S702对应的流程,监听合成进度。
所述任务管理单元,用于创建任务、控制任务分发器、处理进度监听器反馈的任务完成情况等。
所述缓存清理器,用于执行S900对应的缓存清理流程,定期或不定期地清理所述缓存单元和/或资源管理单元中的非热点视音频文件。
以上所述仅是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (10)

1.一种网站视频获取方法,其特征在于包括以下步骤:
S100,监听流程:通过浏览器插件拓展接口监听浏览器请求的响应信息,获取所述响应信息的数据头信息,利用所述数据头信息中的文件类型信息、文件后缀信息和文件附件信息过滤得到有效视频链接;
S300,链接解析流程:接收所述浏览器插件发送的所述有效视频链接,通过请求参数自适应将任务分发给对应的视频解析器进行解析;所述视频解析器由单链接视频解析器、视音频分离视频解析器和分片视频解析器组成;
S301,通过单链接视频解析器解析单链链接;
S302,通过视音频分离视频解析器解析视频和音频分离的链接;
S303,通过分片视频解析器解析分片视频链接;
S500,文件下载流程:在缓存单元查询解析通过后的链接的缓存命中情况,如果命中则直接将命中的视音频文件入库到资源管理单元,否则通过链接下载器下载该链接对应的视音频文件;
S501,针对单链接视音频文件,通过链接下载器下载该链接对应的视音频文件,并在所述缓存单元登记后入库到所述资源管理单元;
S502,针对视音频分离文件,通过链接下载器分别下载该链接对应的视频文件和音频文件,并将下载的视频文件和音频文件的存储路径作为参数,调用视频合成器合成为完整的视音频文件,然后在所述缓存单元登记,并入库到所述资源管理单元;
S503,针对分片视频文件,通过链接下载器下载该链接对应的所有视频分片文件后,将该所有视频分片文件的存储路径根据分片ID进行排序,并将排序后的存储路径作为参数,调用视频合成器将该所有视频分片文件合成为完整的视音频文件,然后在所述缓存单元登记,并入库到所述资源管理单元。
2.根据权利要求1所述的一种网站视频获取方法,其特征在于所述S100监听流程包括以下步骤:
S101,通过浏览器插件拓展接口监听浏览器响应事件,获取请求的响应信息,提取所述响应信息的数据头信息;
S102,判断所述数据头信息中的所述文件后缀是否与满足用户设置的文件后缀要求,若满足则执行S103,否则结束请求;
S103,判断所述数据头信息中的所述文件类型是否与满足用户设置的文件类型要求,若满足则执行S104,否则结束请求;
S104,判断所述数据头信息中的所述文件附件是否与满足用户设置的文件附件要求,若满足则执行S105,否则结束请求;
S105,通过统一资源定位符URL判断链接所属网站平台,若其所属网站平台有已适配标签,则进行第一适配处理过滤得到有效视频链接,再将经第一适配处理或未经适配处理后得到的统一资源定位符URL和网页信息加入到可抓取文件列表,所述第一适配处理包括过滤广告视频和过滤直播流处理。
3.根据权利要求1所述的一种网站视频获取方法,其特征在于所述S301包括以下步骤:
通过单链接视频解析器解析单链链接,若其所属网站平台为通用平台,则直接获取其统一资源定位符URL作为视音频文件的下载地址;若其所属网站平台为预设的特殊平台,则通过第二适配处理过滤掉其中表示时间区间的参数和/或在数据头信息中添加其所属网站平台的主域信息,再作为视音频文件的下载地址。
4.根据权利要求1所述的一种网站视频获取方法,其特征在于所述S302包括以下步骤:
通过视音频分离视频解析器解析各个视频链接和音频链接,通过各个统一资源定位符URL中的参数信息来区分出视频链接和音频链接,或者根据统一资源定位符URL中的路径来判断音频链接;对于没有明显标识的统一资源定位符URL,则对各个统一资源定位符URL发出一个预请求,根据返回的数据头信息来区分出视频链接和音频链接,得到视音频全部下载地址。
5.根据权利要求1所述的一种网站视频获取方法,其特征在于所述S303包括以下步骤:
通过分片视频解析器解析分片视频链接,向统一资源定位符URL发出一个预请求,读取返回结果中的分片信息,并将该分片信息和统一资源定位符URL相结合,组成分片视频的下载数组,并通过分片信息的ID升序/降序进行排序,得到全部下载地址。
6.根据权利要求1所述的一种网站视频获取方法,其特征在于在所述缓存单元登记的方式包括:
将网站标识、统一资源定位符URL中的视频标识及清晰度标识作为缓存的密钥key在所述缓存单元登记。
7.根据权利要求6所述的一种网站视频获取方法,其特征在于在缓存单元查询解析通过后的链接的缓存命中情况时,所述命中情况判断方式包括:
获取解析后的链接的网站标识、统一资源定位符URL中的视频标识及清晰度标识,并将其作为密钥key在所述缓存单元中进行匹配。
8.根据权利要求1所述的一种网站视频获取方法,其特征在于还包括:
S700,监听视音频文件下载进度,并实时反馈任务完成情况。
9.根据权利要求1所述的一种网站视频获取方法,其特征在于还包括:
S900,清理所述缓存单元和/或资源管理单元中的非热点视音频文件。
10.一种网站视频获取系统,其特征在于所述系统包括:
监听插件模块,用于通过浏览器插件拓展接口监听浏览器请求的响应信息,获取所述响应信息的数据头信息,利用所述数据头信息中的文件类型信息、文件后缀信息和文件附件信息过滤得到有效视频链接;
任务分发器,用于接收所述浏览器插件发送的所述有效视频链接,通过请求参数自适应将任务分发给对应的视频解析器进行解析;
链接解析器,由单链接视频解析器、视音频分离视频解析器和分片视频解析器组成;所述单链接视频解析器用于解析单链链接;所述视音频分离视频解析器用于解析视频和音频分离的链接;所述分片视频解析器用于解析分片视频链接;
缓存单元,用于缓存解析后的链接及网站信息,在缓存单元查询解析通过后的链接的缓存命中情况,如果命中则直接将命中的视音频文件入库到资源管理单元,否则通过链接下载器下载该链接对应的视音频文件;
链接下载器,用于下载链接对应的视音频文件;
视频合成器,用于将下载的视音频文件合成为完整的视音频文件;
资源管理单元,用于存储和管理用户下载的视音频文件;
针对单链接视音频文件,通过链接下载器下载该链接对应的视音频文件,并在所述缓存单元登记后入库到所述资源管理单元;针对视音频分离文件,通过链接下载器分别下载该链接对应的视频文件和音频文件,并将下载的视频文件和音频文件的存储路径作为参数,调用视频合成器合成为完整的视音频文件,然后在所述缓存单元登记,并入库到所述资源管理单元;针对分片视频文件,通过链接下载器下载该链接对应的所有视频分片文件后,将该所有视频分片文件的存储路径根据分片ID进行排序,并将排序后的存储路径作为参数,调用视频合成器将该所有视频分片文件合成为完整的视音频文件,然后在所述缓存单元登记,并入库到所述资源管理单元。
CN202211170496.8A 2022-09-26 2022-09-26 一种网站视频获取方法及系统 Active CN115278365B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211170496.8A CN115278365B (zh) 2022-09-26 2022-09-26 一种网站视频获取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211170496.8A CN115278365B (zh) 2022-09-26 2022-09-26 一种网站视频获取方法及系统

Publications (2)

Publication Number Publication Date
CN115278365A CN115278365A (zh) 2022-11-01
CN115278365B true CN115278365B (zh) 2023-01-03

Family

ID=83756072

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211170496.8A Active CN115278365B (zh) 2022-09-26 2022-09-26 一种网站视频获取方法及系统

Country Status (1)

Country Link
CN (1) CN115278365B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007101182A2 (en) * 2006-02-28 2007-09-07 Maven Networks, Inc. Systems and methods for delivering and managing media content downloaded to a network connected device
CN102510536A (zh) * 2011-12-21 2012-06-20 中国传媒大学 一种互联网音视频下载方法
CN102843614A (zh) * 2012-07-27 2012-12-26 优视科技有限公司 播放流媒体的方法、装置及系统
CN104021170A (zh) * 2014-05-30 2014-09-03 华为技术有限公司 一种信息获取方法及云端服务器
CN109857953A (zh) * 2018-11-08 2019-06-07 北京达佳互联信息技术有限公司 音视频分离方法、装置、电子设备及可读存储介质
CN114925222A (zh) * 2022-05-20 2022-08-19 东南大学 一种多平台视频样本库的构建方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070204003A1 (en) * 2006-02-28 2007-08-30 Maven Networks, Inc. Downloading a file over HTTP from multiple servers
CN100456296C (zh) * 2006-06-28 2009-01-28 腾讯科技(深圳)有限公司 一种多媒体文件搜索引擎的排序方法
US20080154889A1 (en) * 2006-12-22 2008-06-26 Pfeiffer Silvia Video searching engine and methods
TW201030541A (en) * 2009-02-12 2010-08-16 Sunplus Technology Co Ltd Method and system to realize downloading network data into multimedia player
CN103856827B (zh) * 2012-11-30 2017-02-08 中国科学院声学研究所 一种基于服务模拟交互的视频内容获取方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007101182A2 (en) * 2006-02-28 2007-09-07 Maven Networks, Inc. Systems and methods for delivering and managing media content downloaded to a network connected device
CN102510536A (zh) * 2011-12-21 2012-06-20 中国传媒大学 一种互联网音视频下载方法
CN102843614A (zh) * 2012-07-27 2012-12-26 优视科技有限公司 播放流媒体的方法、装置及系统
CN104021170A (zh) * 2014-05-30 2014-09-03 华为技术有限公司 一种信息获取方法及云端服务器
CN109857953A (zh) * 2018-11-08 2019-06-07 北京达佳互联信息技术有限公司 音视频分离方法、装置、电子设备及可读存储介质
CN114925222A (zh) * 2022-05-20 2022-08-19 东南大学 一种多平台视频样本库的构建方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
WAP网站视听节目监管系统;韦月琼等;《广播与电视技术》;20150415(第04期);122-125 *

Also Published As

Publication number Publication date
CN115278365A (zh) 2022-11-01

Similar Documents

Publication Publication Date Title
US20230127341A1 (en) Methods and apparatus to credit media presentations for online media distributions
US10992762B2 (en) Processing link identifiers in click records of a log file
US8156216B1 (en) Distributed data collection and aggregation
US9888089B2 (en) Client side cache management
US20080294647A1 (en) Methods and apparatus to monitor content distributed by the internet
CN1949259B (zh) 通过在网页中嵌入代码来采集网页的点击信息的方法
EP1376914A2 (en) Collection of behaviour data on a broadcast data network
US8972374B2 (en) Content acquisition system and method of implementation
US20060212347A1 (en) System and method for advertisement delivery in a network system
CA2959487C (en) Using messaging associated with adaptive bitrate streaming to perform media monitoring for mobile platforms
CN101179474A (zh) 一种下载方法、系统及装置
JP2004062479A (ja) 情報収集装置、方法及びプログラム
CN112468839B (zh) 直播内容的回放方法、系统、设备、及可读存储介质
CN105516734A (zh) 一种视频可播放性的检测方法和装置
CN104394475A (zh) 一种流媒体文件的播放方法及媒体播放器
CN104219230A (zh) 识别恶意网站的方法及装置
CN102833241B (zh) 流媒体业务流量记录合并处理方法及装置
CN108076385B (zh) 一种推广信息监测数据的上报方法及装置
CN115278365B (zh) 一种网站视频获取方法及系统
US20070174877A1 (en) Device and method for automatically obtaining information relating to the audiences of programs transmitted by a communication network
CN106412661B (zh) 智能电视网络视频播放信息采集方法及系统
CN114925222A (zh) 一种多平台视频样本库的构建方法
CN105721885B (zh) 转码数据处理的方法、装置和系统
KR20070003902A (ko) Ui 어셋들의 계층적 브로드케스트
JP2001125822A (ja) 情報源観測装置および情報源観測方法、ならびに情報源観測プログラムを記録したコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant