CN104361006A - 一种轻量级图片搜索方法 - Google Patents

一种轻量级图片搜索方法 Download PDF

Info

Publication number
CN104361006A
CN104361006A CN201410535692.XA CN201410535692A CN104361006A CN 104361006 A CN104361006 A CN 104361006A CN 201410535692 A CN201410535692 A CN 201410535692A CN 104361006 A CN104361006 A CN 104361006A
Authority
CN
China
Prior art keywords
picture
data
image
image data
chain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410535692.XA
Other languages
English (en)
Inventor
成涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongsou Network Technology Co ltd
Original Assignee
Beijing Zhongsou Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongsou Network Technology Co ltd filed Critical Beijing Zhongsou Network Technology Co ltd
Priority to CN201410535692.XA priority Critical patent/CN104361006A/zh
Publication of CN104361006A publication Critical patent/CN104361006A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种轻量级图片搜索方法,该方法包括以下:图像信息采集器抓取图片源数据;图片粒化链化处理模块进行图片数据粒化换算处理,实现图片数据链化处理,存储到图像链化信息存储数据库;客户端输入预搜索图片,通过图片粒化链化处理模块进行图片数据粒化换算处理,实现图片数据链化处理;数据匹配模块读取所述图像链化信息存储数据库和所述图片粒化链化处理模块的图片数据,对所述进行所述预图片数据的检索和匹配;检索结果展示。该方法简单高效,搜索系统的搭建简洁易懂,使用语言面广,维护成本低廉,尤其适合电商、行业门户等中小型企业使用。

Description

一种轻量级图片搜索方法
技术领域
本发明涉及一种互联网领域的方法,具体讲涉及一种轻量级图片搜索方法。
背景技术
随着互联网文字型搜索已经被广泛的应用于搜索引擎行业,随着互联网技术的发展,搜索引擎是人们获取资讯查找资料的主要方式。通过搜索引擎对图片进行搜索也是搜索引擎应用之一。
方式是搜索者使用文字性的描述作为关键词告知搜索引擎,而搜索引擎主要通过围绕图片的文字来给图片加上特定标签,通过这些标签与搜索者提供的关键词进行相关度评价,最终给搜索者呈现搜索结果。
现有技术中,图片搜索方法多为采用对图片进行分类或加文字标注,即搜索者使用文字性的描述作为关键词告知搜索引擎,而搜索引擎主要通过围绕图片的文字来给图片加上特定标签,根据用户搜索时输入的文字信息对图片检索数据库中图片信息的文字描述进行匹配检索;最终给搜索者呈现搜索结果。该方法最大的不足便是,检索到的图片内容精准不是很理想,例如,一张主要内容为老虎,老虎边上有只很不起眼苍蝇的图片,被用苍蝇进行了文字标注,通过文字检索老虎时,是检索不到这张图片的,反而在检索苍蝇时会检索到这张图片,从而出现词非达意的效果,大大降低了搜索的质量,而这一点,也正是现在很多电商网站或行业门户网站不采用通过图片检索图片的原因,而本专利所直面的便是现在的电商网站和行业门户网站,通过本专利可以极大程度上降低他们实现图片搜索图片的成本,达到资源利用的最有效和最合理化。
因此,提供一种准确、高效、架构简单的图片搜索方法尤为重要。
发明内容
为克服上述现有技术的不足,本发明提供一种轻量级图片搜索方法。
实现上述目的所采用的解决方案为:
一种轻量级图片搜索方法,其改进之处在于:所述方法包括以下:
步骤一、图像信息采集器抓取图片源数据;
步骤二、图片粒化链化处理模块进行图片数据粒化换算处理,实现图片数据链化处理,存储到图像链化信息存储数据库;
步骤三、客户端输入预搜索图片,通过图片粒化链化处理模块进行图片数据粒化换算处理,实现图片数据链化处理;
步骤四、数据匹配模块读取所述图像链化信息存储数据库和所述图片粒化链化处理模块的图片数据,对所述进行所述预图片数据的检索和匹配;
步骤五、检索结果展示。
进一步的,所述图片搜索方法检索的图片数据的信息量范围为一千万到九千万的图片。
进一步的,所述步骤一包括:根据抓取图片源数据的网站图片显示结构制定图片源数据的抓取规则,与所述图片源数据的网站绑定,存于图片抓取源映射数据库中,作为爬虫工作源,图片抓取源映射数据层更新后图片抓取爬虫根据更新后的规则对图片源数据进行抓取,获取图片信息发送至所述图片粒化链化处理模块。
进一步的,所述图片粒化链化处理模块用于进行图片数据的粒化换算处理,实现图片数据链化处理;包括以下步骤:
I、对所述数据源图片进行缩略图粒度化处理,生成尺寸为8×8的缩略图,对粒度化处理后的缩略图进行灰度处理,转为64级灰度的图片;
II、获取所有64个像素的灰度平均值,并比较每个像素的灰度与平均值;
III、将比较值结合,构成64位整数的所述图片源数据的标识码。
进一步的,所述比较像素的灰度与平均值包括以下步骤:所述灰度大于或等于所述平均值,记为1;所述灰度小于所述平均值,记为0。
进一步的,所述步骤二包括以下步骤:
S201、对所述数据源图片进行图片数据粒化换算处理,实现图片数据链化处理;
S202、获取所述图片源数据的标识码;
S203、将图片信息和所述标识码发送至所述图片链化信息存储数据库。
进一步的,所述步骤三包括以下步骤:
S301、客户端输入预搜索图片,通过图片粒化链化处理模块进行数据粒化换算处理,实现图片数据链化处理;
S302、获取所述预搜索图片的标识码;
S303、将所述标识码发送至所述数据匹配模块。
8、如权利要求1所述的方法,其特征在于:所述步骤四包括以下步骤:
所述数据匹配模块读取所述图像链化信息存储数据库和所述图片粒化链化处理模块的图片数据,运用汉明距离算法根据预搜索图片的标识码在所述图片链化存储数据库中查询可以匹配的标识码,将匹配的数据以数组方式返回至数据封装模块;
所述数据封装模块将匹配的数据封装后发送至所述显示界面。
进一步的,所述步骤五中,以人机交互形式将检索结果展示。
与现有技术相比,本发明具有以下有益效果:
1、本发明的方法简单高效,搜索系统的搭建简洁易懂,使用语言面广,维护成本低廉,尤其适合电商、行业门户等中小型企业使用。
2、本发明的方法中提供了一种基于数据库的、便捷的、易用的、灵活的图片检索算法,有利于图片搜索算法多元化。在图片经过粒度化和链化处理后,生成64位整数型标识码并存于数据库,而不需要建立任何倒排索引;再图片匹配检索时,通过存储数据库的自带函数即可完成匹配检索;通过汉明距离的大小灵活调控检索范围,即相关图片的吻合度,不需修改其余任何算法。
3、本发明的方法图片内容有效查询结果更多,检索结果范围调节灵活度更高。用户输入的预检索图片和数据库中存储的数据源图片,均经过了灰度处理,如:某人的一张1寸照片,一张是黑白的,一张是彩色的,经过灰度处理后,两张图片汉明距离极短,会被视为吻合度极高的一组图片;经过灰度处理并将图片统一压缩为固定尺寸,更进一步统一了参比标准;而调整检索范围,即根据需求随意修改检索吻合度(汉明距离的范围),检索出最大限度上能接受的图片检索结果。
4、本发明的方法可承载百万级数据图片的检索,响应速度可达毫秒级,大幅度降低了网站中图片检索服务的使用成本。
附图说明
图1为本发明的轻量级图片搜索方法流程图。
具体实施方式
下面结合附图对本发明的具体实施方式做进一步的详细说明。
本发明提供了一种轻量级图片搜索方法,轻量级图片搜索是指该搜索方法的数据处理量级,即本发明方法的图片搜索数据信息量为1千万到9千万,数据检索能力属于轻量级。主要用于多以中小企业或电商网站等服务器资源较为紧缺的主体用户,很大程度上克服了传统图片搜索引擎对软硬件资源要求苛刻的缺点,通过低廉服务器设备的并用(即N台低廉服务器并用,N≥1)的模式下完成图片搜索引擎的部署,使得以图片搜图片的搜索引擎在低性能服务器(群)上得以实现,从而大幅度降低图片搜索引擎的构架成本。
如图1所示,图1为本发明的轻量级图片搜索方法流程图,该方法包括以下步骤:
步骤一、图像信息采集器抓取图片源数据;
步骤二、图片粒化链化处理模块进行图片数据粒化换算处理,实现图片数据链化处理,存储到图像链化信息存储数据库;
步骤三、客户端输入预搜索图片,通过图片粒化链化处理模块进行图片数据粒化换算处理,实现图片数据链化处理;
步骤四、数据匹配模块读取所述图像链化信息存储数据库和所述图片粒化链化处理模块的图片数据,对所述进行所述预图片数据的检索和匹配;
步骤五、检索结果展示。
所述步骤一包括:信息采集规则管理模块根据抓取图片源数据的网站图片显示结构制定数据源抓取规则,与所述图片源数据的网站绑定,存于图片抓取源映射数据库中,图片抓取爬虫根据所述数据抓取规则获取图片信息,当所述图片抓取源映射数据库更新后图片抓取爬虫根据更新后的规则对图片源数据进行抓取,获取图片信息发送至所述图片粒化链化处理模块。
本实施例中,管理人员根据预抓取图片网站(图片源)中图片的显示结构,即:HTML标签展示结构,制定数据源的抓取规则,以某网站中车型的图片抓取采集为例,包括以下步骤:
根据对页面HTML代码分析,总结出预采集的图片容器元素格式<div class=”mainPicDiv”></div>,提供正则表达式将有效地图片元素提取出来,入库存储,为链化数据做基础,并与图片源网站进行绑定,并存于图片抓取源映射数据库中,数据库做持久化,映射关系数据同步至缓存数据库中,作为数据源爬虫工作的依据,图片抓取源映射数据层更新后,数据同步至数据库持久化层与缓存层,图片抓取爬虫将根据更新后的规则,先从缓存数据库中获取映射数据关系,若无法获得,则访问持久化数据库,再将获得的数据同步至缓存数据库,供下次爬虫使用,如上设置提高了工作效率。
对数据源的数据进行抓取,提炼出真实有效的图片信息,包括图片自身文件,图片URL地址,图片所在页面URL地址,图片点击后跳转的URL地址等,存储于本地,为数据的链化处理提供数据。
又一实施例中,可通过在信息采集规则管理模块读取突破网站中的图片显示结构,分析HTML标签显示结构,分析并确定数据源抓取规则,再将数据源抓权规则存储于图片抓取源映射数据库中,供图片抓取爬虫根据所述数据抓取规则获取图片信息。
步骤二和步骤三中通过图片粒化链化处理模块进行图片数据的粒化换算处理,实现图片数据链化处理;图片粒化链化处理模块包括完成以下步骤的模块:
I、对所述数据源图片进行缩略图粒度化处理,生成尺寸为8×8的缩略图,对粒度化处理后的缩略图进行灰度处理,转为64级灰度的图片。
II、获取所有64个像素的灰度平均值,并比较每个像素的灰度与平均值;比较像素的灰度与平均值包括以下步骤:所述灰度大于或等于所述平均值,记为1;所述灰度小于所述平均值,记为0。
本发明中,图片粒化链化处理模块实现缩略图粒化处理的方法为:
1、实现技术:PHP
2、方法:获取预处理的图片信息,存储至服务器,并完成服务器端待处理图片的压缩,即将图片压缩为8*8像素的尺寸,压缩用到PHP现有函数如下:
Imagecreatetruecolor、getimagesize、imagecopyresampled
3、实现缩略图粒化处理。
III、将比较值结合,构成64位整数的所述图片源数据的标识码。
步骤二包括以下步骤:
S201、对所述数据源图片进行图片数据粒化换算处理,实现图片数据链化处理;
S202、获取所述图片源数据的标识码;
S203、将图片信息及图片链化所生成的标识码所述标识码发送至所述图片链化信息存储数据库;
图片信息包括图片自身文件、图片URL地址、图片所在页面URL地址、图片点击后跳转的URL地址等。
步骤三包括以下步骤:
S301、客户端输入预搜索图片,通过图片粒化链化处理模块进行数据粒化换算处理,实现图片数据链化处理;
S302、获取所述预搜索图片的标识码;
S303、将所述标识码发送至所述数据匹配模块。
步骤四包括以下步骤:
所述数据匹配模块读取所述图像链化信息存储数据库和所述图片粒化链化处理模块的图片数据,运用汉明距离算法根据预搜索图片的标识码在所述图片链化存储数据库中查询可以匹配的标识码,将匹配的数据以数组方式返回至数据封装模块。
数据封装模块将匹配的数据封装并发送至人机交互界面,显示。
给出运用汉明距离算法进行匹配的方法如下:
I、对预检索图片进行粒化和链化处理,可得其64位标识码,如:00000000000000000000000100101011
II、检索结果的匹配度(吻合度)的汉明距离为5;
III、检索时,通过汉明距离算法求出数据库中与预检索图片标识码的汉明距离在5以内的数据,以MySQL数据库为例,检索语句如下:
SELECT*FROM图片链化数据存储表名p WHERE(BIT_COUNT(p.hash^b'00000000000000011110000000000001')<=5)
通过上述过程,即可检索出数据库中检索范围内的所有数据。
汉明距离示意如下:
1与0之间的汉明距离是1。
214与214之间的汉明距离是0。
"abcd"与"aacd"之间的汉明距离是1。
本实施例中,数据封装模块的规则及用途如下:
1、规则:
根据不同的应用场景和所通过服务的数据要求,检索结果的数据封装模块主要是将检索出的数据以固定数据格式提供给第三方使用,通讯协议可以是HTTP或SOCKET,数据结构可以为JSON、XML、字符串、BSON等,具体以应用场景为准。
2、用途:
主要用于搭建的图片搜索引擎为第三方(手机客户端、合作伙伴)提供数据检索服务。
步骤五中,以人机交互形式将检索结果展示。
本发明还提供了一种轻量级图片搜索系统,该系统包括图像信息采集器、图片粒化链化处理模块、图像链化信息存储数据库和数据匹配模块。
图像信息采集器用于抓取图片源数据。
图片粒化链化处理模块用于进行图片数据粒化换算处理,实现图片数据链化处理,存储到图像链化信息存储数据库。
图像链化信息存储数据库用于存储图片信息和图片的标识码。
图片粒化链化处理模块用于根据客户端输入的预搜索图片,进行图片数据粒化换算处理,实现图片数据链化处理。
数据匹配模块用于读取所述图像链化信息存储数据库和所述图片粒化链化处理模块的图片数据,对所述进行所述预图片数据的检索和匹配。
最后应当说明的是:以上实施例仅用于说明本申请的技术方案而非对其保护范围的限制,尽管参照上述实施例对本申请进行了详细的说明,所属领域的普通技术人员应当理解:本领域技术人员阅读本申请后依然可对申请的具体实施方式进行种种变更、修改或者等同替换,但这些变更、修改或者等同替换,均在申请待批的权利要求保护范围之内。

Claims (9)

1.一种轻量级图片搜索方法,其特征在于:所述方法包括以下:
步骤一、图像信息采集器抓取图片源数据;
步骤二、图片粒化链化处理模块进行图片数据粒化换算处理,实现图片数据链化处理,存储到图像链化信息存储数据库;
步骤三、客户端输入预搜索图片,通过图片粒化链化处理模块进行图片数据粒化换算处理,实现图片数据链化处理;
步骤四、数据匹配模块读取所述图像链化信息存储数据库和所述图片粒化链化处理模块的图片数据,对所述进行所述预图片数据的检索和匹配;
步骤五、检索结果展示。
2.如权利要求1所述的方法,其特征在于:所述图片搜索方法检索的图片数据的信息量范围为一千万到九千万的图片。
3.如权利要求1所述的方法,其特征在于:所述步骤一包括:根据抓取图片源数据的网站图片显示结构制定图片源数据的抓取规则,与所述图片源数据的网站绑定,存于图片抓取源映射数据库中,作为爬虫工作源,图片抓取源映射数据层更新后图片抓取爬虫根据更新后的规则对图片源数据进行抓取,获取图片信息发送至所述图片粒化链化处理模块。
4.如权利要求1所述的方法,其特征在于:所述图片粒化链化处理模块用于进行图片数据的粒化换算处理,实现图片数据链化处理;包括以下步骤:
I、对所述数据源图片进行缩略图粒度化处理,生成尺寸为8×8的缩略图,对粒度化处理后的缩略图进行灰度处理,转为64级灰度的图片;
II、获取所有64个像素的灰度平均值,并比较每个像素的灰度与平均值;
III、将比较值结合,构成64位整数的所述图片源数据的标识码。
5.如权利要求4所述的方法,其特征在于:所述比较像素的灰度与平均值包括以下步骤:所述灰度大于或等于所述平均值,记为1;所述灰度小于所述平均值,记为0。
6.如权利要求1所述的方法,其特征在于:所述步骤二包括以下步骤:
S201、对所述数据源图片进行图片数据粒化换算处理,实现图片数据链化处理;
S202、获取所述图片源数据的标识码;
S203、将图片信息和所述标识码发送至所述图片链化信息存储数据库。
7.如权利要求1所述的方法,其特征在于:所述步骤三包括以下步骤:
S301、客户端输入预搜索图片,通过图片粒化链化处理模块进行数据粒化换算处理,实现图片数据链化处理;
S302、获取所述预搜索图片的标识码;
S303、将所述标识码发送至所述数据匹配模块。
8.如权利要求1所述的方法,其特征在于:所述步骤四包括以下步骤:
所述数据匹配模块读取所述图像链化信息存储数据库和所述图片粒化链化处理模块的图片数据,运用汉明距离算法根据预搜索图片的标识码在所述图片链化存储数据库中查询可以匹配的标识码,将匹配的数据以数组方式返回至数据封装模块;
所述数据封装模块将匹配的数据封装后发送至所述显示界面。
9.如权利要求1所述的方法,其特征在于:所述步骤五中,以人机交互形式将检索结果展示。
CN201410535692.XA 2014-10-11 2014-10-11 一种轻量级图片搜索方法 Pending CN104361006A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410535692.XA CN104361006A (zh) 2014-10-11 2014-10-11 一种轻量级图片搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410535692.XA CN104361006A (zh) 2014-10-11 2014-10-11 一种轻量级图片搜索方法

Publications (1)

Publication Number Publication Date
CN104361006A true CN104361006A (zh) 2015-02-18

Family

ID=52528268

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410535692.XA Pending CN104361006A (zh) 2014-10-11 2014-10-11 一种轻量级图片搜索方法

Country Status (1)

Country Link
CN (1) CN104361006A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105335469A (zh) * 2015-09-29 2016-02-17 武汉传神信息技术有限公司 一种图像匹配、检索方法和装置
CN106919571A (zh) * 2015-12-24 2017-07-04 北京奇虎科技有限公司 获取与搜索关键词相匹配的图片的方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101556611A (zh) * 2009-05-08 2009-10-14 白青山 一种基于视觉特征的图片搜索方法
US7870116B2 (en) * 2007-02-08 2011-01-11 Microsoft Corporation Method for administrating data storage in an information search and retrieval system
CN102253989A (zh) * 2011-07-04 2011-11-23 厦门市美亚柏科信息股份有限公司 图像处理方法、装置及图像检索方法、系统
CN103336776A (zh) * 2013-05-13 2013-10-02 云南瑞攀科技有限公司 基于图片内容的图片搜索方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7870116B2 (en) * 2007-02-08 2011-01-11 Microsoft Corporation Method for administrating data storage in an information search and retrieval system
CN101556611A (zh) * 2009-05-08 2009-10-14 白青山 一种基于视觉特征的图片搜索方法
CN102253989A (zh) * 2011-07-04 2011-11-23 厦门市美亚柏科信息股份有限公司 图像处理方法、装置及图像检索方法、系统
CN103336776A (zh) * 2013-05-13 2013-10-02 云南瑞攀科技有限公司 基于图片内容的图片搜索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
深度开源: ""用汉明距离进行图片相似度检测的Java实现"", 《深度开源—WWW.OPEN-OPEN.COM/LIB/VIEW/OPEN1358901340114.HTML》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105335469A (zh) * 2015-09-29 2016-02-17 武汉传神信息技术有限公司 一种图像匹配、检索方法和装置
CN106919571A (zh) * 2015-12-24 2017-07-04 北京奇虎科技有限公司 获取与搜索关键词相匹配的图片的方法及装置

Similar Documents

Publication Publication Date Title
CN102436513B (zh) 分布式检索方法和系统
US8807421B2 (en) Composite code with dynamic linking to internet addresses
US8788529B2 (en) Information sharing between images
US8892990B2 (en) Automatic creation of a table and query tools
CN102411582B (zh) 图片搜索方法、装置及客户端
US20100208997A1 (en) Image-Based Advertisement Platform
CN103425699B (zh) 获取网页的方法、设备和系统
CN102682105B (zh) 利用移动终端识别并获取相关网页信息的系统及方法
CN106202362A (zh) 图像推荐方法和图像推荐装置
US11797634B2 (en) System and method for providing a content item based on computer vision processing of images
CN102855298B (zh) 图像检索方法及系统
CN105824928A (zh) 移动终端、服务器、基于内容的图像识别搜索方法及系统
US10380267B2 (en) System and method for tagging multimedia content elements
CN103077248B (zh) 一种云端图片处理方法及系统
CN104899261A (zh) 一种构建结构化视频图像信息的设备和方法
CN102147815A (zh) 图片搜索方法和图片搜索系统
CN202918341U (zh) 一种基于智能手持终端及二维码的地理位置分享系统
CN103164759A (zh) 基于rfid的智能药盒管理系统
CN108062368A (zh) 全量数据翻译方法、装置、服务器及存储介质
CN109241384A (zh) 一种科研信息的可视化方法及装置
CN103970800A (zh) 网页相关关键词的抽取处理方法和系统
CN201628974U (zh) 立体仓库货物盘点系统
CN104361006A (zh) 一种轻量级图片搜索方法
CN105183737A (zh) 外观设计专利即时检索系统及检索方法
CN206775533U (zh) 一种用于公共平台的网络舆情监控系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150218

WD01 Invention patent application deemed withdrawn after publication