CN104978338A - 一种针对视频格式的网络爬虫提取url并索引及与关键帧映射的框架 - Google Patents
一种针对视频格式的网络爬虫提取url并索引及与关键帧映射的框架 Download PDFInfo
- Publication number
- CN104978338A CN104978338A CN201410138059.7A CN201410138059A CN104978338A CN 104978338 A CN104978338 A CN 104978338A CN 201410138059 A CN201410138059 A CN 201410138059A CN 104978338 A CN104978338 A CN 104978338A
- Authority
- CN
- China
- Prior art keywords
- url
- key frame
- webpage
- link
- transmitting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Transfer Between Computers (AREA)
- Computer And Data Communications (AREA)
Abstract
本发明公开一种针对视频格式的网络爬虫提取URL并索引及与关键帧映射的框架,其具体步骤如下:网络爬虫从遍历参数和起始URL开始;使用URL库中的第一个URL从网络上下载网页;将其传递给重复网页检查,重复核查的准确性取决于具体的遍历参数;如果网页没有被拒绝,则将它保存到网页库中;并传递给链接提取;链接提取从网页的METAFILE中提取链接,传递给URL检查;如果之前访问过,或不符合遍历参数表中列出的标准,则拒绝下载;同时提取关键帧,传递给关键帧库;将没有被拒绝的URL进行索引,递给URL库;并与相关关键帧建立映射;URL库然后将一个未被访问的URL传递给网页提取。
Description
技术领域
本发明涉及一种针对视频格式的网络爬虫提取URL并索引及与关键帧映射的框架
背景技术
网络爬虫,也称网络蜘蛛、网络机器人,是一个自动提取网页的程序,它从因特网上下载网页,是搜索引擎的重要组成部分。网络爬虫利用标准的HTTP协议,根据超级链接和Web文档检索的方法遍历因特网信息空间。
因特网上有数千种不同的数据类型,HTTP给每种要通过Web传输的对象都打上了名为MIME类型的数据格式标签(常见视频格式:video/MP4V-ES,video/mpeg,video/quicktime,video/vnd.mpegurl,video/x-msvideo)。统一资源定位符(URL)是资源标识符最常见的形式。URL描述了一台特定服务器上某资源的特定位置。元素文件(METAFILE)可提供有关页面的元信息,如针对搜索引擎和更新频度的描述和关键词,可针对元素的关键词进行索引。
目前网络爬虫只爬取文本,不能爬取音乐、图片和视频等多媒体文件,原因主要是多媒体数据量太大;如何索引多媒体文件;进而对处理过的多媒体文件检索。现在因特网上有大量的多媒体文件,特别是社交网站和多媒体分享的兴起,需要对多媒体文件进行精准检索。
本发明提供了一种针对视频格式的网络爬虫提取URL并索引及与关键帧映射的框架,可在适当增加数据量的前提下,通过METAFILE的关键词对URL进行索引,并与相关关键帧建立映射,利用关键词对视频格式文件进行检索,再对检索结果进行关键帧的精准检索。
发明内容
本发明的目的在于提供一种针对视频格式的网络爬虫提取URL并索引及与关键帧映射的框架。本发明包括以下特征:
发明技术方案
一种针对视频格式的网络爬虫提取URL并索引及与关键帧映射的框架,其具体步骤如下:
1)网络爬虫从遍历参数和起始URL开始;
2)使用URL库中的第一个URL从网络上下载网页;
3)将其传递给重复网页检查,重复核查的准确性取决于具体的遍历参数;
4)如果网页没有被拒绝,则将它保存到网页库中;
5)并传递给链接提取;
6)链接提取从网页的METAFILE中提取链接,传递给URL检查;如果之前访问过,或不符合遍历参数表中列出的标准,则拒绝下载;
7)同时提取关键帧,传递给关键帧库;
8)将没有被拒绝的URL进行索引,递给URL库;并与相关关键帧建立映射;
9)URL库然后将一个未被访问的URL传递给网页提取。
附图说明
图1是针对视频格式的网络爬虫框架图。
具体实施方式
这种针对视频格式的网络爬虫提取URL并索引及与关键帧映射的框架,包括如下步骤:
1)网络爬虫从遍历参数和起始URL开始;
2)使用URL库中的第一个URL从网络上下载网页;
3)将其传递给重复网页检查,重复核查的准确性取决于具体的遍历参数;
4)如果网页没有被拒绝,则将它保存到网页库中;
5)并传递给链接提取;
6)链接提取从网页的METAFILE中提取链接,传递给URL检查;如果之前访问过,或不符合遍历参数表中列出的标准,则拒绝下载;
7)同时提取关键帧,传递给关键帧库;
8)将没有被拒绝的URL进行索引,递给URL库;并与相关关键帧建立映射;
9)URL库然后将一个未被访问的URL传递给网页提取。
Claims (1)
1.针对视频格式的网络爬虫提取URL并索引及与关键帧映射的框架,其具体步骤如下:
1)网络爬虫从遍历参数和起始URL开始;
2)使用URL库中的第一个URL从网络上下载网页;
3)将其传递给重复网页检查,重复核查的准确性取决于具体的遍历参数;
4)如果网页没有被拒绝,则将它保存到网页库中;
5)并传递给链接提取;
6)链接提取从网页的METAFILE中提取链接,传递给URL检查;如果之前访问过,或不符合遍历参数表中列出的标准,则拒绝下载;
7)同时提取关键帧,传递给关键帧库;
8)将没有被拒绝的URL进行索引,递给URL库;并与相关关键帧建立映射;
9)URL库然后将一个未被访问的URL传递给网页提取。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410138059.7A CN104978338A (zh) | 2014-04-08 | 2014-04-08 | 一种针对视频格式的网络爬虫提取url并索引及与关键帧映射的框架 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410138059.7A CN104978338A (zh) | 2014-04-08 | 2014-04-08 | 一种针对视频格式的网络爬虫提取url并索引及与关键帧映射的框架 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104978338A true CN104978338A (zh) | 2015-10-14 |
Family
ID=54274853
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410138059.7A Pending CN104978338A (zh) | 2014-04-08 | 2014-04-08 | 一种针对视频格式的网络爬虫提取url并索引及与关键帧映射的框架 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104978338A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106503253A (zh) * | 2016-11-11 | 2017-03-15 | 张军 | 一种针对图片格式的网络爬虫提取url并索引及映射的框架 |
CN107145603A (zh) * | 2017-06-08 | 2017-09-08 | 上海德衡数据科技有限公司 | 一种针对关键词的网络文档搜索引擎框架 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102957672A (zh) * | 2011-08-25 | 2013-03-06 | 中国电信股份有限公司 | 自适应播放flv媒体流的方法、客户端和系统 |
CN103581693A (zh) * | 2013-11-12 | 2014-02-12 | 北京清源新创科技有限公司 | 面向互联网的基于分片传输的大尺度直播时移方法及系统 |
-
2014
- 2014-04-08 CN CN201410138059.7A patent/CN104978338A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102957672A (zh) * | 2011-08-25 | 2013-03-06 | 中国电信股份有限公司 | 自适应播放flv媒体流的方法、客户端和系统 |
CN103581693A (zh) * | 2013-11-12 | 2014-02-12 | 北京清源新创科技有限公司 | 面向互联网的基于分片传输的大尺度直播时移方法及系统 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106503253A (zh) * | 2016-11-11 | 2017-03-15 | 张军 | 一种针对图片格式的网络爬虫提取url并索引及映射的框架 |
CN107145603A (zh) * | 2017-06-08 | 2017-09-08 | 上海德衡数据科技有限公司 | 一种针对关键词的网络文档搜索引擎框架 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102333122B (zh) | 一种下载资源提供方法、装置及系统 | |
US8903800B2 (en) | System and method for indexing food providers and use of the index in search engines | |
CN102098234A (zh) | 基于即时通信消息中超链接提供目标内容的方法与设备 | |
CN102184185A (zh) | 一种用于多媒体资源搜索的方法与设备 | |
CN102254027A (zh) | 批量获取网页内容的方法 | |
CN103744856A (zh) | 联动性扩展搜索方法及装置、系统 | |
CN102663319A (zh) | 下载链接安全提示方法及装置 | |
CN102169501A (zh) | 基于搜索结果对应文档的类型信息生成摘要的方法与设备 | |
CN103279507A (zh) | 网页爬虫操作方法和系统 | |
CN103077250A (zh) | 一种网页内容抓取方法及装置 | |
CN103823907A (zh) | 一种整合在线视频资源地址的方法、装置及引擎 | |
CN106611008A (zh) | 一种互联网内容标签的管理方法及装置 | |
CN105740417A (zh) | 一种基于网页的目标数据搜索方法、模块、浏览器及终端 | |
CN104283865A (zh) | 一种下载处理方法、装置、服务器及客户端设备 | |
CN110933193B (zh) | 域名解析方法、装置、电子设备及计算机可读存储介质 | |
CN103605773A (zh) | 一种多媒体文件搜索方法及装置 | |
CN103744944A (zh) | 网络爬虫在抓取网页或数据时再过滤的方法 | |
CN103618742A (zh) | 获取子域名的方法和系统以及网站管理员权限验证方法 | |
CN104978338A (zh) | 一种针对视频格式的网络爬虫提取url并索引及与关键帧映射的框架 | |
CN104978337A (zh) | 一种基于软件定义网络的分布式视频搜索引擎框架 | |
CN106503253A (zh) | 一种针对图片格式的网络爬虫提取url并索引及映射的框架 | |
CN104021143A (zh) | 一种记录网页访问行为的方法及装置 | |
CN103793516A (zh) | 网址图标的获取方法和获取装置 | |
CN103699661A (zh) | 视频资源数据的获取方法及其系统 | |
CN102033914A (zh) | 基于权威度确定链接资源的可靠描述信息的方法与设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20151014 |
|
WD01 | Invention patent application deemed withdrawn after publication |