CN105022738A - 一种基于直方图的网络图片格式文件提取及映射方法 - Google Patents

一种基于直方图的网络图片格式文件提取及映射方法 Download PDF

Info

Publication number
CN105022738A
CN105022738A CN201410160165.5A CN201410160165A CN105022738A CN 105022738 A CN105022738 A CN 105022738A CN 201410160165 A CN201410160165 A CN 201410160165A CN 105022738 A CN105022738 A CN 105022738A
Authority
CN
China
Prior art keywords
picture format
format file
network picture
extracting
url
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410160165.5A
Other languages
English (en)
Inventor
张军
宋惟忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai DC Science Co Ltd
Original Assignee
Shanghai Jingzhi Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jingzhi Information Technology Co Ltd filed Critical Shanghai Jingzhi Information Technology Co Ltd
Priority to CN201410160165.5A priority Critical patent/CN105022738A/zh
Publication of CN105022738A publication Critical patent/CN105022738A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种基于直方图的网络图片格式文件提取及映射方法,其具体步骤如下:1)通过URL确定网络图片格式文件的地址;2)利用UDP协议缓存下载网络图片格式文件;3)提取网络图片格式文件的颜色和灰阶直方图,并建立与URL的映射;4)然后存储到服务器集成数据中心;5)以便对网络图片格式文件,进行关键词基础上的精准检索。

Description

一种基于直方图的网络图片格式文件提取及映射方法
技术领域
本发明涉及一种基于直方图的网络图片格式文件提取及映射方法 
背景技术
目前网络爬虫只爬取文本,不能爬取音乐、图片和视频等多媒体文件,原因主要是多媒体数据量巨大;如何下载传输多媒体文件;如何索引多媒体文件;进而对处理过的多媒体文件进行检索。现在因特网上有大量的多媒体文件,特别是社交网站和多媒体分享的兴起,需要对多媒体文件进行精准检索。 
网络爬虫,也称网络蜘蛛、网络机器人,是一个自动提取网页的程序,它从因特网上下载网页,是搜索引擎的重要组成部分。网络爬虫利用标准的HTTP协议,根据超级链接和Web文档检索的方法遍历因特网信息空间。 
因特网上有数千种不同的数据类型,HTTP给每种要通过Web传输的对象都打上了名为MIME类型的数据格式标签(常见图片格式:image/jpeg,image/gif)。统一资源定位符(URL)是资源标识符最常见的形式。URL描述了一台特定服务器上某资源的特定位置。元素文件(METAFILE)可提供有关页面的元信息,如针对搜索引擎和更新频度的描述和关键词,可针对元素的关键词进行索引。 
UDP是OSI参考模型中一种无连接的传输层协议,它主要用于不要求分组顺序到达的传输中,分组传输顺序的检查与排序由应用层完成,提供面向事务的简单不可靠信息传送服务。网络图片可通过UDP进行下载,因为UDP具有TCP所望尘莫及的速度优势。 
本发明提供了一种基于直方图的网络图片格式文件提取及映射方法,可在适当增加数据量的前提下,通过URL确定网络图片格式文件的地址,利用UDP协议缓存下载网络图片格式文件,提取网络图片格式文件的直方图,建立与URL的映射,然后存储到服务器集成数据中心,以便对网络图片格式文件进行精准检索。 
发明内容
本发明的目的在于提供一种基于直方图的网络图片格式文件提取及映射方法。本发明包括以下特征: 
发明技术方案 
一种基于直方图的网络图片格式文件提取及映射方法,其具体步骤如下: 
1)通过URL确定网络图片格式文件的地址; 
2)利用UDP协议缓存下载网络图片格式文件; 
3)提取网络图片格式文件的颜色和灰阶直方图,并建立与URL的映射; 
4)然后存储到服务器集成数据中心; 
5)以便对网络图片格式文件,进行关键词基础上的精准检索。 
附图说明
图1是基于直方图的网络图片格式文件提取及映射流程图。 
具体实施方式
这种基于直方图的网络图片格式文件提取及映射方法,包括如下步骤: 
1)通过URL确定网络图片格式文件的地址; 
2)利用UDP协议缓存下载网络图片格式文件; 
3)提取网络图片格式文件的颜色和灰阶直方图,并建立与URL的映射; 
4)然后存储到服务器集成数据中心; 
5)以便对网络图片格式文件,进行关键词基础上的精准检索。 

Claims (1)

1.一种基于直方图的网络图片格式文件提取及映射方法,其具体步骤如下:
1)通过URL确定网络图片格式文件的地址;
2)利用UDP协议缓存下载网络图片格式文件;
3)提取网络图片格式文件的颜色和灰阶直方图,并建立与URL的映射;
4)然后存储到服务器集成数据中心;
5)以便对网络图片格式文件,进行关键词基础上的精准检索。
CN201410160165.5A 2014-04-21 2014-04-21 一种基于直方图的网络图片格式文件提取及映射方法 Pending CN105022738A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410160165.5A CN105022738A (zh) 2014-04-21 2014-04-21 一种基于直方图的网络图片格式文件提取及映射方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410160165.5A CN105022738A (zh) 2014-04-21 2014-04-21 一种基于直方图的网络图片格式文件提取及映射方法

Publications (1)

Publication Number Publication Date
CN105022738A true CN105022738A (zh) 2015-11-04

Family

ID=54412722

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410160165.5A Pending CN105022738A (zh) 2014-04-21 2014-04-21 一种基于直方图的网络图片格式文件提取及映射方法

Country Status (1)

Country Link
CN (1) CN105022738A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106503253A (zh) * 2016-11-11 2017-03-15 张军 一种针对图片格式的网络爬虫提取url并索引及映射的框架

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101646050A (zh) * 2009-09-09 2010-02-10 中国电信股份有限公司 视频文件的文本注释方法和系统、播放方法和系统
CN102932482A (zh) * 2012-11-19 2013-02-13 昆山鼎胜数据服务有限公司 网络蜘蛛垂直数据收集方法
CN103617262A (zh) * 2013-12-02 2014-03-05 北京奇虎科技有限公司 图片内容属性识别方法和系统
CN103631916A (zh) * 2013-11-29 2014-03-12 北京奇虎科技有限公司 一种进行可下载资源下载的方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101646050A (zh) * 2009-09-09 2010-02-10 中国电信股份有限公司 视频文件的文本注释方法和系统、播放方法和系统
CN102932482A (zh) * 2012-11-19 2013-02-13 昆山鼎胜数据服务有限公司 网络蜘蛛垂直数据收集方法
CN103631916A (zh) * 2013-11-29 2014-03-12 北京奇虎科技有限公司 一种进行可下载资源下载的方法和装置
CN103617262A (zh) * 2013-12-02 2014-03-05 北京奇虎科技有限公司 图片内容属性识别方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王永强等: "基于内容的图像搜索引擎技术", 《桂林电子工业学院学报》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106503253A (zh) * 2016-11-11 2017-03-15 张军 一种针对图片格式的网络爬虫提取url并索引及映射的框架

Similar Documents

Publication Publication Date Title
US8478701B2 (en) Locating a user based on aggregated tweet content associated with a location
CN104333531B (zh) 网络资源的分享及获取方法、装置、终端
CN103297270A (zh) 应用类型识别方法及网络设备
CN105027121A (zh) 对本机应用的应用页面建索引
CN102789470A (zh) 加载网页中的图片的方法和装置
WO2016000507A1 (zh) 省流量模式搜索服务的方法、服务器、客户端和系统
US20120084516A1 (en) Methods and apparatuses for data resource provision
CN111104587A (zh) 网页显示方法、装置和服务器
CN103440243A (zh) 一种教学资源推荐方法及其装置
CN103139252B (zh) 一种网络代理缓存加速的实现方法及其装置
CN104010035A (zh) 一种应用程序分发的方法及系统
CN104951466A (zh) 一种poi信息搜索方法、装置、系统及相关设备
CN105227514A (zh) 基于浏览器的文件传输处理方法和浏览器
CN106776694A (zh) 一种基于软件定义的网络分布式图片搜索引擎框架
CN104978337A (zh) 一种基于软件定义网络的分布式视频搜索引擎框架
CN105022738A (zh) 一种基于直方图的网络图片格式文件提取及映射方法
CN105992074A (zh) 一种基于关键帧和颜色直方图的网络视频格式文件摘要提取方法
CN104021170A (zh) 一种信息获取方法及云端服务器
CN103220327B (zh) 用户信息存储方法及装置
CN106503253A (zh) 一种针对图片格式的网络爬虫提取url并索引及映射的框架
CN105989003A (zh) 一种基于人脸检测的网络视频缩略图提取及映射方法
CN104978338A (zh) 一种针对视频格式的网络爬虫提取url并索引及与关键帧映射的框架
US20150026266A1 (en) Share to stream
CN103793516A (zh) 网址图标的获取方法和获取装置
CN105992073A (zh) 一种基于直方图的网络视频缩略图提取及映射方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
DD01 Delivery of document by public notice

Addressee: SHANGHAI JINGZHI INFORMATION TECHNOLOGY Co.,Ltd.

Document name: Notification of Publication of the Application for Invention

DD01 Delivery of document by public notice

Addressee: SHANGHAI JINGZHI INFORMATION TECHNOLOGY Co.,Ltd.

Document name: Notification of before Expiration of Request of Examination as to Substance

DD01 Delivery of document by public notice
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 200060 room No. 100, Lane 40, Tam Tam Road, Shanghai, Putuo District, China 1103

Applicant after: SHANGHAI JINGZHI INFORMATION TECHNOLOGY Co.,Ltd.

Address before: 200060 room 1716A, No. 1388, Putuo District, Shanghai, North Shaanxi Road

Applicant before: SHANGHAI JINGZHI INFORMATION TECHNOLOGY Co.,Ltd.

CB03 Change of inventor or designer information

Inventor after: Zhang Jun

Inventor before: Zhang Jun

Inventor before: Song Weizhong

CB03 Change of inventor or designer information
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20171222

Address after: 200120 room 4A06, No. 277, Ruichang Road, Pudong New Area, Shanghai, 6 rooms

Applicant after: SHANGHAI DATACENTER SCIENCE Co.,Ltd.

Address before: 200060 room No. 100, Lane 40, Tam Tam Road, Shanghai, Putuo District, China 1103

Applicant before: SHANGHAI JINGZHI INFORMATION TECHNOLOGY Co.,Ltd.

DD01 Delivery of document by public notice

Addressee: Zhang Jun

Document name: Notice of First Examination Opinion

DD01 Delivery of document by public notice
DD01 Delivery of document by public notice

Addressee: SHANGHAI DATACENTER SCIENCE Co.,Ltd. Person in charge of patents

Document name: Deemed withdrawal notice

DD01 Delivery of document by public notice
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20151104

WD01 Invention patent application deemed withdrawn after publication