CN104978338A - 一种针对视频格式的网络爬虫提取url并索引及与关键帧映射的框架 - Google Patents

一种针对视频格式的网络爬虫提取url并索引及与关键帧映射的框架 Download PDF

Info

Publication number
CN104978338A
CN104978338A CN201410138059.7A CN201410138059A CN104978338A CN 104978338 A CN104978338 A CN 104978338A CN 201410138059 A CN201410138059 A CN 201410138059A CN 104978338 A CN104978338 A CN 104978338A
Authority
CN
China
Prior art keywords
url
key frame
webpage
link
transmitting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410138059.7A
Other languages
English (en)
Inventor
宋惟忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201410138059.7A priority Critical patent/CN104978338A/zh
Publication of CN104978338A publication Critical patent/CN104978338A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Transfer Between Computers (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明公开一种针对视频格式的网络爬虫提取URL并索引及与关键帧映射的框架,其具体步骤如下:网络爬虫从遍历参数和起始URL开始;使用URL库中的第一个URL从网络上下载网页;将其传递给重复网页检查,重复核查的准确性取决于具体的遍历参数;如果网页没有被拒绝,则将它保存到网页库中;并传递给链接提取;链接提取从网页的METAFILE中提取链接,传递给URL检查;如果之前访问过,或不符合遍历参数表中列出的标准,则拒绝下载;同时提取关键帧,传递给关键帧库;将没有被拒绝的URL进行索引,递给URL库;并与相关关键帧建立映射;URL库然后将一个未被访问的URL传递给网页提取。

Description

一种针对视频格式的网络爬虫提取URL并索引及与关键帧映射的框架
技术领域
本发明涉及一种针对视频格式的网络爬虫提取URL并索引及与关键帧映射的框架 
背景技术
网络爬虫,也称网络蜘蛛、网络机器人,是一个自动提取网页的程序,它从因特网上下载网页,是搜索引擎的重要组成部分。网络爬虫利用标准的HTTP协议,根据超级链接和Web文档检索的方法遍历因特网信息空间。 
因特网上有数千种不同的数据类型,HTTP给每种要通过Web传输的对象都打上了名为MIME类型的数据格式标签(常见视频格式:video/MP4V-ES,video/mpeg,video/quicktime,video/vnd.mpegurl,video/x-msvideo)。统一资源定位符(URL)是资源标识符最常见的形式。URL描述了一台特定服务器上某资源的特定位置。元素文件(METAFILE)可提供有关页面的元信息,如针对搜索引擎和更新频度的描述和关键词,可针对元素的关键词进行索引。 
目前网络爬虫只爬取文本,不能爬取音乐、图片和视频等多媒体文件,原因主要是多媒体数据量太大;如何索引多媒体文件;进而对处理过的多媒体文件检索。现在因特网上有大量的多媒体文件,特别是社交网站和多媒体分享的兴起,需要对多媒体文件进行精准检索。 
本发明提供了一种针对视频格式的网络爬虫提取URL并索引及与关键帧映射的框架,可在适当增加数据量的前提下,通过METAFILE的关键词对URL进行索引,并与相关关键帧建立映射,利用关键词对视频格式文件进行检索,再对检索结果进行关键帧的精准检索。 
发明内容
本发明的目的在于提供一种针对视频格式的网络爬虫提取URL并索引及与关键帧映射的框架。本发明包括以下特征: 
发明技术方案 
一种针对视频格式的网络爬虫提取URL并索引及与关键帧映射的框架,其具体步骤如下: 
1)网络爬虫从遍历参数和起始URL开始; 
2)使用URL库中的第一个URL从网络上下载网页; 
3)将其传递给重复网页检查,重复核查的准确性取决于具体的遍历参数; 
4)如果网页没有被拒绝,则将它保存到网页库中; 
5)并传递给链接提取; 
6)链接提取从网页的METAFILE中提取链接,传递给URL检查;如果之前访问过,或不符合遍历参数表中列出的标准,则拒绝下载; 
7)同时提取关键帧,传递给关键帧库; 
8)将没有被拒绝的URL进行索引,递给URL库;并与相关关键帧建立映射; 
9)URL库然后将一个未被访问的URL传递给网页提取。 
附图说明
图1是针对视频格式的网络爬虫框架图。 
具体实施方式
这种针对视频格式的网络爬虫提取URL并索引及与关键帧映射的框架,包括如下步骤: 
1)网络爬虫从遍历参数和起始URL开始; 
2)使用URL库中的第一个URL从网络上下载网页; 
3)将其传递给重复网页检查,重复核查的准确性取决于具体的遍历参数; 
4)如果网页没有被拒绝,则将它保存到网页库中; 
5)并传递给链接提取; 
6)链接提取从网页的METAFILE中提取链接,传递给URL检查;如果之前访问过,或不符合遍历参数表中列出的标准,则拒绝下载; 
7)同时提取关键帧,传递给关键帧库; 
8)将没有被拒绝的URL进行索引,递给URL库;并与相关关键帧建立映射; 
9)URL库然后将一个未被访问的URL传递给网页提取。 

Claims (1)

1.针对视频格式的网络爬虫提取URL并索引及与关键帧映射的框架,其具体步骤如下:
1)网络爬虫从遍历参数和起始URL开始;
2)使用URL库中的第一个URL从网络上下载网页;
3)将其传递给重复网页检查,重复核查的准确性取决于具体的遍历参数;
4)如果网页没有被拒绝,则将它保存到网页库中;
5)并传递给链接提取;
6)链接提取从网页的METAFILE中提取链接,传递给URL检查;如果之前访问过,或不符合遍历参数表中列出的标准,则拒绝下载;
7)同时提取关键帧,传递给关键帧库;
8)将没有被拒绝的URL进行索引,递给URL库;并与相关关键帧建立映射;
9)URL库然后将一个未被访问的URL传递给网页提取。
CN201410138059.7A 2014-04-08 2014-04-08 一种针对视频格式的网络爬虫提取url并索引及与关键帧映射的框架 Pending CN104978338A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410138059.7A CN104978338A (zh) 2014-04-08 2014-04-08 一种针对视频格式的网络爬虫提取url并索引及与关键帧映射的框架

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410138059.7A CN104978338A (zh) 2014-04-08 2014-04-08 一种针对视频格式的网络爬虫提取url并索引及与关键帧映射的框架

Publications (1)

Publication Number Publication Date
CN104978338A true CN104978338A (zh) 2015-10-14

Family

ID=54274853

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410138059.7A Pending CN104978338A (zh) 2014-04-08 2014-04-08 一种针对视频格式的网络爬虫提取url并索引及与关键帧映射的框架

Country Status (1)

Country Link
CN (1) CN104978338A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106503253A (zh) * 2016-11-11 2017-03-15 张军 一种针对图片格式的网络爬虫提取url并索引及映射的框架
CN107145603A (zh) * 2017-06-08 2017-09-08 上海德衡数据科技有限公司 一种针对关键词的网络文档搜索引擎框架

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102957672A (zh) * 2011-08-25 2013-03-06 中国电信股份有限公司 自适应播放flv媒体流的方法、客户端和系统
CN103581693A (zh) * 2013-11-12 2014-02-12 北京清源新创科技有限公司 面向互联网的基于分片传输的大尺度直播时移方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102957672A (zh) * 2011-08-25 2013-03-06 中国电信股份有限公司 自适应播放flv媒体流的方法、客户端和系统
CN103581693A (zh) * 2013-11-12 2014-02-12 北京清源新创科技有限公司 面向互联网的基于分片传输的大尺度直播时移方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106503253A (zh) * 2016-11-11 2017-03-15 张军 一种针对图片格式的网络爬虫提取url并索引及映射的框架
CN107145603A (zh) * 2017-06-08 2017-09-08 上海德衡数据科技有限公司 一种针对关键词的网络文档搜索引擎框架

Similar Documents

Publication Publication Date Title
CN102333122B (zh) 一种下载资源提供方法、装置及系统
US8903800B2 (en) System and method for indexing food providers and use of the index in search engines
CN102098234A (zh) 基于即时通信消息中超链接提供目标内容的方法与设备
CN102184185A (zh) 一种用于多媒体资源搜索的方法与设备
CN102254027A (zh) 批量获取网页内容的方法
CN103744856A (zh) 联动性扩展搜索方法及装置、系统
CN102663319A (zh) 下载链接安全提示方法及装置
CN102169501A (zh) 基于搜索结果对应文档的类型信息生成摘要的方法与设备
CN103279507A (zh) 网页爬虫操作方法和系统
CN103077250A (zh) 一种网页内容抓取方法及装置
CN103823907A (zh) 一种整合在线视频资源地址的方法、装置及引擎
CN106611008A (zh) 一种互联网内容标签的管理方法及装置
CN105740417A (zh) 一种基于网页的目标数据搜索方法、模块、浏览器及终端
CN104283865A (zh) 一种下载处理方法、装置、服务器及客户端设备
CN110933193B (zh) 域名解析方法、装置、电子设备及计算机可读存储介质
CN103605773A (zh) 一种多媒体文件搜索方法及装置
CN103744944A (zh) 网络爬虫在抓取网页或数据时再过滤的方法
CN103618742A (zh) 获取子域名的方法和系统以及网站管理员权限验证方法
CN104978338A (zh) 一种针对视频格式的网络爬虫提取url并索引及与关键帧映射的框架
CN104978337A (zh) 一种基于软件定义网络的分布式视频搜索引擎框架
CN106503253A (zh) 一种针对图片格式的网络爬虫提取url并索引及映射的框架
CN104021143A (zh) 一种记录网页访问行为的方法及装置
CN103793516A (zh) 网址图标的获取方法和获取装置
CN103699661A (zh) 视频资源数据的获取方法及其系统
CN102033914A (zh) 基于权威度确定链接资源的可靠描述信息的方法与设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20151014

WD01 Invention patent application deemed withdrawn after publication