CN106503253A - 一种针对图片格式的网络爬虫提取url并索引及映射的框架 - Google Patents
一种针对图片格式的网络爬虫提取url并索引及映射的框架 Download PDFInfo
- Publication number
- CN106503253A CN106503253A CN201610997044.5A CN201610997044A CN106503253A CN 106503253 A CN106503253 A CN 106503253A CN 201610997044 A CN201610997044 A CN 201610997044A CN 106503253 A CN106503253 A CN 106503253A
- Authority
- CN
- China
- Prior art keywords
- url
- picture format
- framework
- web crawlers
- indexes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000000284 extract Substances 0.000 title claims abstract description 15
- 238000013507 mapping Methods 0.000 claims abstract description 4
- 238000007689 inspection Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000000034 method Methods 0.000 description 2
- 241000239290 Araneae Species 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9566—URL specific, e.g. using aliases, detecting broken or misspelled links
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种针对图片格式的网络爬虫提取URL并索引及映射的框架,可在适当增加数据量的前提下,通过METAFILE的关键词对URL进行索引,并与相关直方图建立映射,利用关键词对图片格式文件进行检索,再对检索结果进行直方图的精准检索,构建网络图片格式文件的搜索引擎。
Description
技术领域
本发明涉及一种针对图片格式的网络爬虫提取URL并索引及映射的框架
背景技术
网络爬虫,也称网络蜘蛛、网络机器人,是一个自动提取网页的程序,它从因特网上下载网页,是搜索引擎的重要组成部分。网络爬虫利用标准的HTTP协议,根据超级链接和Web文档检索的方法遍历因特网信息空间。
目前网络爬虫只爬取文本,不能爬取音乐、图片和视频等多媒体文件,原因主要是多媒体数据量巨大;如何下载传输多媒体文件;如何索引多媒体文件;进而对处理过的多媒体文件进行检索。现在因特网上有大量的多媒体文件,特别是社交网站和多媒体分享的兴起,需要对多媒体文件进行精准检索。
因特网上有数千种不同的数据类型,HTTP给每种要通过Web传输的对象都打上了名为MIME类型的数据格式标签(常见图片格式:image/jpeg,image/gif)。统一资源定位符(URL)是资源标识符最常见的形式。URL描述了一台特定服务器上某资源的特定位置。元素文件(METAFILE)可提供有关页面的元信息,如针对搜索引擎和更新频度的描述和关键词,可针对元素的关键词进行索引。
UDP是OSI参考模型中一种无连接的传输层协议,它主要用于不要求分组顺序到达的传输中,分组传输顺序的检查与排序由应用层完成,提供面向事务的简单不可靠信息传送服务。网络图片可通过UDP进行下载,因为UDP具有TCP所望尘莫及的速度优势。
基于关键帧的网络视频格式文件摘要提取,计算量非常大,实时要求很难实现。而针对网络视频缩略图进行检索,是基于现有技术,一种可行的路径。
本发明提供了一种针对图片格式的网络爬虫提取URL并索引及映射的框架,可在适当增加数据量的前提下,通过METAFILE的关键词对URL进行索引,并与相关直方图建立映射,利用关键词对图片格式文件进行检索,再对检索结果进行直方图的精准检索,构建网络图片格式文件的搜索引擎。
发明内容
本发明的目的在于提供一种针对图片格式的网络爬虫提取URL并索引及映射的框架。本发明包括以下特征:
发明技术方案
1.一种针对图片格式的网络爬虫提取URL并索引及映射的框架,其具体步骤如下:
1)网络爬虫从遍历参数和起始URL开始;
2)使用URL库中的第一个URL从网络上下载网页;
3)将其传递给重复网页检查,重复核查的准确性取决于具体的遍历参数;
4)如果网页没有被拒绝,则将它保存到网页库中;
5)并传递给链接提取;
6)链接提取从网页的METAFILE中提取链接,传递给URL检查;如果之前访问过,或不符合遍历参数表中列出的标准,则拒绝下载;
7)同时提取直方图,传递给直方图库;
8)将没有被拒绝的URL进行索引,递给URL库;并与相关直方图建立映射;
9)URL库然后将一个未被访问的URL传递给网页提取。
2.基于权利要求1的框架,构建网络图片格式文件搜索引擎。
附图说明
图1是针对图片格式的网络爬虫框架图。
具体实施方式
这种针对图片格式的网络爬虫提取URL并索引及映射的框架,包括如下步骤:
1)网络爬虫从遍历参数和起始URL开始;
2)使用URL库中的第一个URL从网络上下载网页;
3)将其传递给重复网页检查,重复核查的准确性取决于具体的遍历参数;
4)如果网页没有被拒绝,则将它保存到网页库中;
5)并传递给链接提取;
6)链接提取从网页的METAFILE中提取链接,传递给URL检查;如果之前访问过,或不符合遍历参数表中列出的标准,则拒绝下载;
7)同时提取直方图,传递给直方图库;
8)将没有被拒绝的URL进行索引,递给URL库;并与相关直方图建立映射;
9)URL库然后将一个未被访问的URL传递给网页提取;
10)构建网络图片格式文件的搜索引擎。
Claims (2)
1.一种针对图片格式的网络爬虫提取URL并索引及映射的框架,其具体步骤如下:
1)网络爬虫从遍历参数和起始URL开始;
2)使用URL库中的第一个URL从网络上下载网页;
3)将其传递给重复网页检查,重复核查的准确性取决于具体的遍历参数;
4)如果网页没有被拒绝,则将它保存到网页库中;
5)并传递给链接提取;
6)链接提取从网页的METAFILE中提取链接,传递给URL检查;如果之前访问过,或不符合遍历参数表中列出的标准,则拒绝下载;
7)同时提取直方图,传递给直方图库;
8)将没有被拒绝的URL进行索引,递给URL库;并与相关直方图建立映射;
9)URL库然后将一个未被访问的URL传递给网页提取。
2.基于权利要求1的框架,构建网络图片格式文件的搜索引擎。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610997044.5A CN106503253A (zh) | 2016-11-11 | 2016-11-11 | 一种针对图片格式的网络爬虫提取url并索引及映射的框架 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610997044.5A CN106503253A (zh) | 2016-11-11 | 2016-11-11 | 一种针对图片格式的网络爬虫提取url并索引及映射的框架 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106503253A true CN106503253A (zh) | 2017-03-15 |
Family
ID=58324211
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610997044.5A Pending CN106503253A (zh) | 2016-11-11 | 2016-11-11 | 一种针对图片格式的网络爬虫提取url并索引及映射的框架 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106503253A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107220362A (zh) * | 2017-06-08 | 2017-09-29 | 上海德衡数据科技有限公司 | 一种针对网络文档的网络爬虫提取url并索引及与关键词映射的框架 |
CN107870975A (zh) * | 2017-09-22 | 2018-04-03 | 平安科技(深圳)有限公司 | 网络图片的爬取方法及应用服务器 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102054028A (zh) * | 2010-12-10 | 2011-05-11 | 黄斌 | 具备页面渲染功能的网络爬虫系统及其实现方法 |
CN104978338A (zh) * | 2014-04-08 | 2015-10-14 | 宋惟忠 | 一种针对视频格式的网络爬虫提取url并索引及与关键帧映射的框架 |
CN105005566A (zh) * | 2014-04-21 | 2015-10-28 | 上海京知信息科技有限公司 | 一种针对网络图片格式文件的链接方法 |
CN105022738A (zh) * | 2014-04-21 | 2015-11-04 | 上海京知信息科技有限公司 | 一种基于直方图的网络图片格式文件提取及映射方法 |
CN105989003A (zh) * | 2015-01-27 | 2016-10-05 | 张军 | 一种基于人脸检测的网络视频缩略图提取及映射方法 |
-
2016
- 2016-11-11 CN CN201610997044.5A patent/CN106503253A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102054028A (zh) * | 2010-12-10 | 2011-05-11 | 黄斌 | 具备页面渲染功能的网络爬虫系统及其实现方法 |
CN104978338A (zh) * | 2014-04-08 | 2015-10-14 | 宋惟忠 | 一种针对视频格式的网络爬虫提取url并索引及与关键帧映射的框架 |
CN105005566A (zh) * | 2014-04-21 | 2015-10-28 | 上海京知信息科技有限公司 | 一种针对网络图片格式文件的链接方法 |
CN105022738A (zh) * | 2014-04-21 | 2015-11-04 | 上海京知信息科技有限公司 | 一种基于直方图的网络图片格式文件提取及映射方法 |
CN105989003A (zh) * | 2015-01-27 | 2016-10-05 | 张军 | 一种基于人脸检测的网络视频缩略图提取及映射方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107220362A (zh) * | 2017-06-08 | 2017-09-29 | 上海德衡数据科技有限公司 | 一种针对网络文档的网络爬虫提取url并索引及与关键词映射的框架 |
CN107870975A (zh) * | 2017-09-22 | 2018-04-03 | 平安科技(深圳)有限公司 | 网络图片的爬取方法及应用服务器 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110008378B (zh) | 基于人工智能的语料收集方法、装置、设备及存储介质 | |
CN105608134A (zh) | 一种基于多线程的网络爬虫系统及其网页爬取方法 | |
CN111104587A (zh) | 网页显示方法、装置和服务器 | |
CN102436564A (zh) | 一种识别被篡改网页的方法及装置 | |
CN108021598B (zh) | 页面抽取模板匹配方法、装置及服务器 | |
CN103902664A (zh) | 页面中图片的渲染方法及信息的提供方法、装置 | |
WO2017071179A1 (zh) | 基于流量分析识别用户行为对象的方法和装置 | |
CN103838862B (zh) | 一种视频搜索的方法、装置及终端 | |
CN108900554B (zh) | Http协议资产检测方法、系统、设备及计算机介质 | |
CN104156389A (zh) | 基于Hadoop平台的深度包检测系统及方法 | |
CN103823907A (zh) | 一种整合在线视频资源地址的方法、装置及引擎 | |
CN113038153A (zh) | 金融直播违规检测方法、装置、设备及可读存储介质 | |
CN105740417A (zh) | 一种基于网页的目标数据搜索方法、模块、浏览器及终端 | |
CN105469463A (zh) | 一种基于行车记录仪的路景分享方法及装置 | |
CN103902571A (zh) | 保存网页完整内容的方法、系统及相应的客户端和服务器 | |
CN106503253A (zh) | 一种针对图片格式的网络爬虫提取url并索引及映射的框架 | |
CN102571922B (zh) | 一种数据流处理方法及装置 | |
CN105469462A (zh) | 一种基于行车记录仪的路景分享方法及系统 | |
CN106776694A (zh) | 一种基于软件定义的网络分布式图片搜索引擎框架 | |
CN102968412A (zh) | 一种用于获取多媒体数据的特征信息的方法和设备 | |
CN105992074A (zh) | 一种基于关键帧和颜色直方图的网络视频格式文件摘要提取方法 | |
EP2711838A1 (en) | Documentation parser | |
CN103117892A (zh) | 添加网站访问记录的方法及装置 | |
CN107491530B (zh) | 一种基于文件自动标记信息的社会关系挖掘分析方法 | |
CN104899320A (zh) | 网页修复方法、终端、服务器及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20180427 Address after: 200000 4A06 room 6, 277 Ruichang Road, Pudong New Area, Shanghai. Applicant after: Shanghai Deheng Data Technology Co. Ltd. Address before: 200061 1103, 40 Lane 100 lane, middle Tan Road, Putuo District, Shanghai. Applicant before: Zhang Jun |
|
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170315 |