CN106503253A - 一种针对图片格式的网络爬虫提取url并索引及映射的框架 - Google Patents

一种针对图片格式的网络爬虫提取url并索引及映射的框架 Download PDF

Info

Publication number
CN106503253A
CN106503253A CN201610997044.5A CN201610997044A CN106503253A CN 106503253 A CN106503253 A CN 106503253A CN 201610997044 A CN201610997044 A CN 201610997044A CN 106503253 A CN106503253 A CN 106503253A
Authority
CN
China
Prior art keywords
url
picture format
framework
web crawlers
indexes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610997044.5A
Other languages
English (en)
Inventor
张军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai DC Science Co Ltd
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201610997044.5A priority Critical patent/CN106503253A/zh
Publication of CN106503253A publication Critical patent/CN106503253A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种针对图片格式的网络爬虫提取URL并索引及映射的框架,可在适当增加数据量的前提下,通过METAFILE的关键词对URL进行索引,并与相关直方图建立映射,利用关键词对图片格式文件进行检索,再对检索结果进行直方图的精准检索,构建网络图片格式文件的搜索引擎。

Description

一种针对图片格式的网络爬虫提取URL并索引及映射的框架
技术领域
本发明涉及一种针对图片格式的网络爬虫提取URL并索引及映射的框架
背景技术
网络爬虫,也称网络蜘蛛、网络机器人,是一个自动提取网页的程序,它从因特网上下载网页,是搜索引擎的重要组成部分。网络爬虫利用标准的HTTP协议,根据超级链接和Web文档检索的方法遍历因特网信息空间。
目前网络爬虫只爬取文本,不能爬取音乐、图片和视频等多媒体文件,原因主要是多媒体数据量巨大;如何下载传输多媒体文件;如何索引多媒体文件;进而对处理过的多媒体文件进行检索。现在因特网上有大量的多媒体文件,特别是社交网站和多媒体分享的兴起,需要对多媒体文件进行精准检索。
因特网上有数千种不同的数据类型,HTTP给每种要通过Web传输的对象都打上了名为MIME类型的数据格式标签(常见图片格式:image/jpeg,image/gif)。统一资源定位符(URL)是资源标识符最常见的形式。URL描述了一台特定服务器上某资源的特定位置。元素文件(METAFILE)可提供有关页面的元信息,如针对搜索引擎和更新频度的描述和关键词,可针对元素的关键词进行索引。
UDP是OSI参考模型中一种无连接的传输层协议,它主要用于不要求分组顺序到达的传输中,分组传输顺序的检查与排序由应用层完成,提供面向事务的简单不可靠信息传送服务。网络图片可通过UDP进行下载,因为UDP具有TCP所望尘莫及的速度优势。
基于关键帧的网络视频格式文件摘要提取,计算量非常大,实时要求很难实现。而针对网络视频缩略图进行检索,是基于现有技术,一种可行的路径。
本发明提供了一种针对图片格式的网络爬虫提取URL并索引及映射的框架,可在适当增加数据量的前提下,通过METAFILE的关键词对URL进行索引,并与相关直方图建立映射,利用关键词对图片格式文件进行检索,再对检索结果进行直方图的精准检索,构建网络图片格式文件的搜索引擎。
发明内容
本发明的目的在于提供一种针对图片格式的网络爬虫提取URL并索引及映射的框架。本发明包括以下特征:
发明技术方案
1.一种针对图片格式的网络爬虫提取URL并索引及映射的框架,其具体步骤如下:
1)网络爬虫从遍历参数和起始URL开始;
2)使用URL库中的第一个URL从网络上下载网页;
3)将其传递给重复网页检查,重复核查的准确性取决于具体的遍历参数;
4)如果网页没有被拒绝,则将它保存到网页库中;
5)并传递给链接提取;
6)链接提取从网页的METAFILE中提取链接,传递给URL检查;如果之前访问过,或不符合遍历参数表中列出的标准,则拒绝下载;
7)同时提取直方图,传递给直方图库;
8)将没有被拒绝的URL进行索引,递给URL库;并与相关直方图建立映射;
9)URL库然后将一个未被访问的URL传递给网页提取。
2.基于权利要求1的框架,构建网络图片格式文件搜索引擎。
附图说明
图1是针对图片格式的网络爬虫框架图。
具体实施方式
这种针对图片格式的网络爬虫提取URL并索引及映射的框架,包括如下步骤:
1)网络爬虫从遍历参数和起始URL开始;
2)使用URL库中的第一个URL从网络上下载网页;
3)将其传递给重复网页检查,重复核查的准确性取决于具体的遍历参数;
4)如果网页没有被拒绝,则将它保存到网页库中;
5)并传递给链接提取;
6)链接提取从网页的METAFILE中提取链接,传递给URL检查;如果之前访问过,或不符合遍历参数表中列出的标准,则拒绝下载;
7)同时提取直方图,传递给直方图库;
8)将没有被拒绝的URL进行索引,递给URL库;并与相关直方图建立映射;
9)URL库然后将一个未被访问的URL传递给网页提取;
10)构建网络图片格式文件的搜索引擎。

Claims (2)

1.一种针对图片格式的网络爬虫提取URL并索引及映射的框架,其具体步骤如下:
1)网络爬虫从遍历参数和起始URL开始;
2)使用URL库中的第一个URL从网络上下载网页;
3)将其传递给重复网页检查,重复核查的准确性取决于具体的遍历参数;
4)如果网页没有被拒绝,则将它保存到网页库中;
5)并传递给链接提取;
6)链接提取从网页的METAFILE中提取链接,传递给URL检查;如果之前访问过,或不符合遍历参数表中列出的标准,则拒绝下载;
7)同时提取直方图,传递给直方图库;
8)将没有被拒绝的URL进行索引,递给URL库;并与相关直方图建立映射;
9)URL库然后将一个未被访问的URL传递给网页提取。
2.基于权利要求1的框架,构建网络图片格式文件的搜索引擎。
CN201610997044.5A 2016-11-11 2016-11-11 一种针对图片格式的网络爬虫提取url并索引及映射的框架 Pending CN106503253A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610997044.5A CN106503253A (zh) 2016-11-11 2016-11-11 一种针对图片格式的网络爬虫提取url并索引及映射的框架

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610997044.5A CN106503253A (zh) 2016-11-11 2016-11-11 一种针对图片格式的网络爬虫提取url并索引及映射的框架

Publications (1)

Publication Number Publication Date
CN106503253A true CN106503253A (zh) 2017-03-15

Family

ID=58324211

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610997044.5A Pending CN106503253A (zh) 2016-11-11 2016-11-11 一种针对图片格式的网络爬虫提取url并索引及映射的框架

Country Status (1)

Country Link
CN (1) CN106503253A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107220362A (zh) * 2017-06-08 2017-09-29 上海德衡数据科技有限公司 一种针对网络文档的网络爬虫提取url并索引及与关键词映射的框架
CN107870975A (zh) * 2017-09-22 2018-04-03 平安科技(深圳)有限公司 网络图片的爬取方法及应用服务器

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102054028A (zh) * 2010-12-10 2011-05-11 黄斌 具备页面渲染功能的网络爬虫系统及其实现方法
CN104978338A (zh) * 2014-04-08 2015-10-14 宋惟忠 一种针对视频格式的网络爬虫提取url并索引及与关键帧映射的框架
CN105005566A (zh) * 2014-04-21 2015-10-28 上海京知信息科技有限公司 一种针对网络图片格式文件的链接方法
CN105022738A (zh) * 2014-04-21 2015-11-04 上海京知信息科技有限公司 一种基于直方图的网络图片格式文件提取及映射方法
CN105989003A (zh) * 2015-01-27 2016-10-05 张军 一种基于人脸检测的网络视频缩略图提取及映射方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102054028A (zh) * 2010-12-10 2011-05-11 黄斌 具备页面渲染功能的网络爬虫系统及其实现方法
CN104978338A (zh) * 2014-04-08 2015-10-14 宋惟忠 一种针对视频格式的网络爬虫提取url并索引及与关键帧映射的框架
CN105005566A (zh) * 2014-04-21 2015-10-28 上海京知信息科技有限公司 一种针对网络图片格式文件的链接方法
CN105022738A (zh) * 2014-04-21 2015-11-04 上海京知信息科技有限公司 一种基于直方图的网络图片格式文件提取及映射方法
CN105989003A (zh) * 2015-01-27 2016-10-05 张军 一种基于人脸检测的网络视频缩略图提取及映射方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107220362A (zh) * 2017-06-08 2017-09-29 上海德衡数据科技有限公司 一种针对网络文档的网络爬虫提取url并索引及与关键词映射的框架
CN107870975A (zh) * 2017-09-22 2018-04-03 平安科技(深圳)有限公司 网络图片的爬取方法及应用服务器

Similar Documents

Publication Publication Date Title
CN110008378B (zh) 基于人工智能的语料收集方法、装置、设备及存储介质
CN105608134A (zh) 一种基于多线程的网络爬虫系统及其网页爬取方法
CN111104587A (zh) 网页显示方法、装置和服务器
CN102436564A (zh) 一种识别被篡改网页的方法及装置
CN108021598B (zh) 页面抽取模板匹配方法、装置及服务器
CN103902664A (zh) 页面中图片的渲染方法及信息的提供方法、装置
WO2017071179A1 (zh) 基于流量分析识别用户行为对象的方法和装置
CN103838862B (zh) 一种视频搜索的方法、装置及终端
CN108900554B (zh) Http协议资产检测方法、系统、设备及计算机介质
CN104156389A (zh) 基于Hadoop平台的深度包检测系统及方法
CN103823907A (zh) 一种整合在线视频资源地址的方法、装置及引擎
CN113038153A (zh) 金融直播违规检测方法、装置、设备及可读存储介质
CN105740417A (zh) 一种基于网页的目标数据搜索方法、模块、浏览器及终端
CN105469463A (zh) 一种基于行车记录仪的路景分享方法及装置
CN103902571A (zh) 保存网页完整内容的方法、系统及相应的客户端和服务器
CN106503253A (zh) 一种针对图片格式的网络爬虫提取url并索引及映射的框架
CN102571922B (zh) 一种数据流处理方法及装置
CN105469462A (zh) 一种基于行车记录仪的路景分享方法及系统
CN106776694A (zh) 一种基于软件定义的网络分布式图片搜索引擎框架
CN102968412A (zh) 一种用于获取多媒体数据的特征信息的方法和设备
CN105992074A (zh) 一种基于关键帧和颜色直方图的网络视频格式文件摘要提取方法
EP2711838A1 (en) Documentation parser
CN103117892A (zh) 添加网站访问记录的方法及装置
CN107491530B (zh) 一种基于文件自动标记信息的社会关系挖掘分析方法
CN104899320A (zh) 网页修复方法、终端、服务器及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20180427

Address after: 200000 4A06 room 6, 277 Ruichang Road, Pudong New Area, Shanghai.

Applicant after: Shanghai Deheng Data Technology Co. Ltd.

Address before: 200061 1103, 40 Lane 100 lane, middle Tan Road, Putuo District, Shanghai.

Applicant before: Zhang Jun

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170315