CN102012934A - 图片搜索方法及搜索系统 - Google Patents

图片搜索方法及搜索系统 Download PDF

Info

Publication number
CN102012934A
CN102012934A CN 201010574563 CN201010574563A CN102012934A CN 102012934 A CN102012934 A CN 102012934A CN 201010574563 CN201010574563 CN 201010574563 CN 201010574563 A CN201010574563 A CN 201010574563A CN 102012934 A CN102012934 A CN 102012934A
Authority
CN
China
Prior art keywords
picture
feature
module
image searching
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 201010574563
Other languages
English (en)
Inventor
文林福
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN 201010574563 priority Critical patent/CN102012934A/zh
Publication of CN102012934A publication Critical patent/CN102012934A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明提供一种图片搜索方法,包括:接收并处理上传图片;计算所述图片局部特征;通过所述图片局部特征在图片特征索引中搜索相似图片;通过所述相似图片在文本索引中搜索文本数据;输出所述相似图片与所述文本数据。与现有技术相比,本发明的有益效果是:通过本发明的基于图片的搜索方法和系统,不仅可实现在全网通过图片搜索与之相似的图片,还可以根据图片搜索与之相对应的文本信息,满足用户需求,提高搜索效率,节约网络流量,同时,本发明通过空间划分,进行视觉字量化和进行索引,解决了大数据量的查询效率问题,使得上几十亿的图片,检索只需要几百毫秒。

Description

图片搜索方法及搜索系统
技术领域
本发明涉及搜索引擎技术,尤其涉及一种图片搜索方法及搜索系统。
背景技术
随着互联网上信息的飞速增长,网络上充斥了越来越多的冗余信息,而对于在网络上搜寻自己所需要信息的互联网用户而言,面对这些漫无边际的信息无疑像大海捞针。搜索引擎的出现无疑在一定程度上为用户的搜索需求带来了很大便利。搜索引擎是一种在网络上应用的软件系统,其以一定的策略在网络上搜集和发现信息,并在对信息进行处理和组织后,为用户提供互联网上的信息搜索服务。通常,这种软件系统提供一个网页界面,让用户在客户端通过浏览器软件提交搜索词,然后很快返回一个可能和用户输入的搜索内容相关的信息列表。这个列表通常会包括上万个条目,每个条目代表一篇搜索到的相关网页。
过去十几年以来,相应地,众多的互联网搜索引擎及对应的网站应运而生,这中间的佼佼者包括百度公司的百度搜索(www.baidu.com)和谷歌公司的谷歌搜索(www.google.cn)。
随着网络技术的不断发展,用户对搜索引擎的要求已经不再满足于只是对文本的搜索,很多用户还希望可以通过搜索引擎对网络图片进行搜索。然而,在目前的图片搜索系统中,如谷歌、YAHOO、BING等均是采用基于文本的搜索技术。基于文本的图片搜索是将图片作为数据库存储的对象,用关键字或自由文本对其进行描述。然而,对于图片中包含的视觉特征,如颜色或形状等,无法用文本对这些视觉特征进行客观的描述。当需要根据图片中包含的视觉特征搜索图片时,基于文本的搜索技术将不再适用。举例说明:现在多数使用搜索引擎的用户经常遇到这样的问题,在网站或电脑上看到一张图片,该图片可能是人物、风景、物品等,而并不知道该图片中的人物是谁、风景是在哪儿、物品是什么,如图1所示,该图片10是用户在网站上看到的一个物品,当用户想了解该图片10中的物品是什么时,很难将该物品的视觉特征用语言描述出来,即便表达能力较好的用户将其视觉特征描述出来了,也很难在现有的搜索引擎中找到与该图片相似的图片和相应的文本信息,导致搜索效率低下,使用网络流量较大。
中国专利申请第200910300147.1号,揭示了一种图片搜索系统及方法,该方法首先提取查询图片的视觉特征,再根据查询图片的视觉特征及图片索引数据库中各个图库图片的索引信息计算各个图库图片的相似度,并且利用分布式架构执行搜索任务,最后快速地搜索出与查询图片相似的图库图片。该系统包括提取模块,用于提取查询图片的视觉特征,并将查询图片的视觉特征发送给各个计算子节点服务器;分配模块,用于根据图片索引数据库的大小以及计算子结点服务器的数量给各个计算子结点服务器分配搜索任务,以使各个计算子结点服务器根据各个图库图片的索引信息及查询图片的视觉特征计算各个图库图片的相似度并返回各个图库图片的相似度及索引信息;汇总模块,用于对各个计算子结点服务器返回的各个图库图片的相似度及索引信息进行汇总;排序模块,用于将汇总后的各个图库图片的相似度发送给排序服务器,以使排序服务器根据各个图库图片的相似度对各个图库图片进行排序;输出模块,用于接收排序服务器的排序结果,并根据该排序结果输出各个图库图片的索引信息。然而这种图片搜索系统及方法均不是提供对全网图片的搜索,且只能根据图片搜索到其相似的图片,而并不能搜索到与之相对应的文本信息。
有鉴于此,需要提供一种图片搜索方法及搜索系统,可根据图片本身搜索其相似图片和对应文本信息,满足用户需求。
发明内容
本发明的目的在于提供一种改进的基于图片的搜索方法,其不仅可以通过图片搜索相似图片,还可以根据图片搜索到与之相对应的文本信息。
本发明的目的还在于提供一种实现上述基于图片的搜索方法的搜索系统。
为实现上述发明目的之一,本发明的一种基于图片的搜索方法,包括以下步骤:
S1、接收并处理上传图片;
S2、计算所述图片局部特征;
S3、通过所述图片局部特征在图片特征索引中搜索相似图片;
S4、通过所述相似图片在文本索引中搜索文本数据;
S5、输出所述相似图片与所述文本数据。
作为本发明的进一步改进,在所述S5前,还包括:
排序步骤,对搜索到的所述相似图片和所述文本数据进行排序。
作为本发明的进一步改进,所述排序参考因素为图片相似度。
作为本发明的进一步改进,所述排序参考因素为图片相似度、死链状态,以及网页权值。
作为本发明的进一步改进,所述S1步骤包括:
S11、接收用户上传图片;
S13、根据图片的内容签名分发所述上传图片。
作为本发明的进一步改进,在所述S13步骤前,还包括:
S12、压缩所述上传图片:若上传图片大于设定阈值,则将所述上传图片压缩后,再进入S13步骤。
作为本发明的进一步改进,所述S2步骤包括:
判断上传图片是否为本地图片;
若不是本地图片,则下载所述URL地址的图片;
计算所述图片局部特征。
作为本发明的进一步改进,所述S5步骤包括:
S51、将排序后的搜索结果缓存;
S52、将所述搜索结果拼装后输出结果页面;
S53、将所述结果页面输出。
作为本发明的进一步改进,所述图片特征索引和所述文本索引的建立方法包括:
通过网络数据获取网络图片的URL;
获取所述图片的文本信息;
计算所述图片的局部特征;
查询存储的已有图片特征;
判断在已有图片特征中是否存在与所述局部特征相似的图片特征;
若存在与所述局部特征相似的图片特征,则对所述图片的文本信息和图片特征标记至少一个索引号;
重复上述步骤,建立索引。
作为本发明的进一步改进,所述图片特征索引和所述文本索引的建立方法包括:
通过网络数据获取网络图片的URL;
获取图片的URL;
计算所述图片的局部特征;
查询存储的已有图片特征;
判断在已有图片特征中是否存在与所述局部特征相似的图片特征;
若存在与所述局部特征相似的图片特征,则对所述图片的文本信息和图片特征标记至少一个索引号;
重复上述步骤,建立索引。
作为本发明的进一步改进,所述图片特征索引和所述文本索引的建立方法包括:
通过网络数据获取网络图片的URL;
计算所述图片的局部特征;
查询存储的已有图片特征;
判断在已有图片特征中是否存在与所述局部特征相似的图片特征;
若存在与所述局部特征相似的图片特征,则对所述图片的文本信息和图片特征标记至少一个索引号;
重复上述步骤,建立索引。
作为本发明的进一步改进,在查询存储的已有图片特征后,还包括建缩略图库,所述缩略图库可将缩略图插入到线上缩略图访问服务系统中。
作为本发明的进一步改进,在通过网络数据获取网络图片的URL步骤中,所述网络数据为展示数据,所述网络图片为展示图片。
作为本发明的进一步改进,建立所述已有图片特征,包括以下步骤:
在全网图片数据中提取图片;
分布式计算所述图片的图片特征;
存储所述图片特征。
作为本发明的进一步改进,在“分布式计算所述图片的图片特征”步骤之前,还包括:
判断该图片是否已计算过图片特征;
若未计算过图片特征,则进行“分布式计算所述图片的图片特征”步骤。
作为本发明的进一步改进,在“分布式计算所述图片的图片特征”之前,还包括:
判断该图片是否已计算过图片特征;
若已计算过所述图片的图片特征,则回到“在全网图片数据中提取图片”步骤中,提取下一图片。
作为本发明的进一步改进,所述分布式计算图片特征是载入视觉字典,将图片相关的特征量化到视觉字。
相应地,作为实现上述另一目的,本发明的一种基于图片的搜索系统包括:
WEB服务器和分发拼装模块:用于接收并处理上传图片,以及输出搜索到的所述相似图片与所述文本数据;
特征提取模块:用于计算所述图片局部特征;
图片特征索引模块:用于通过所述图片局部特征在所述图片特征索引模块中搜索相似图片;
文本索引模块:用于通过所述相似图片在所述文本索引模块中搜索文本数据。
作为本发明的进一步改进,所述WEB服务器的功能还包括:用于负责与用户浏览器交互,支持用户在浏览器上进行图片上传的POST请求,维持与用户的连接,并将用户上传的图片发送给所述分发拼装模块,并维持与所述分发拼装模块的连接,等待所述分发拼装模块返回的结果页面,再得到该所述结果页面后将其返回至所述用户浏览器。
作为本发明的进一步改进,所述分发拼装模块的功能还包括:用于接收所述WEB服务器传递的图片,并根据图片内容签名发送给不同的特征提取模块,以及将搜索结果拼装为结果页面并返回至所述WEB服务器。
作为本发明的进一步改进,所述特征提取模块的功能还包括:用于对搜索到的所述相似图片与所述文本数据进行缓存和排序。
作为本发明的进一步改进,所述排序参考因素为图片相似度。
作为本发明的进一步改进,所述排序参考因素为图片相似度、死链状态,以及网页权值。
作为本发明的进一步改进,所述一个分发拼装模块对应多个特征提取模块。
作为本发明的进一步改进,所述一个特征提取模块对应多个图片特征索引模块和多个文本索引模块。
作为本发明的进一步改进,所述图片搜索系统还包括URL图片下载模块:用于当用户上传图片URL地址时,下载URL地址上的图片,并将所述图片发送至特征提取模块。
作为本发明的进一步改进,为建立所述图片特征索引模块和所述文本索引模块,所述图片搜索系统还包括:
图片获取模块:用于通过网络数据获取网络图片的URL;
文本获取模块:用于获取所述图片的文本信息;
图片特征计算模块:用于计算所述图片的局部特征;
特征存储模块:用于查询存储的已有图片特征;
索引建立模块:用于建立文本索引模块和图片特征索引模块。
作为本发明的进一步改进,所述图片搜索系统还包括缩略图建库模块:用于建立缩略图库,将缩略图插入到线上缩略图访问服务系统中。
作为本发明的进一步改进,所述网络数据为展示数据,所述网络图片为展示图片。
作为本发明的进一步改进,为了建立所述特征存储模块,所述图片搜索系统还包括:
图片数据存储模块:用于存储全网图片数据;
图片传输模块:用于在所述图片数据存储模块中提取图片,并将所述图片传输至分布式计算平台,以及,接收所述分布式计算平台计算完成的图片特征,并将该图片特征传输至所述的所述特征存储模块;
分布式计算平台:用于分布式计算所述图片的图片特征。
作为本发明的进一步改进,所述分布式计算图片特征是载入视觉字典,将图片相关的特征量化到视觉字。
与现有技术相比,本发明的有益效果是:通过本发明的基于图片的搜索方法和系统,不仅可实现在全网通过图片搜索与之相似的图片,还可以根据图片搜索与之相对应的文本信息,满足用户需求,提高搜索效率,节约网络流量,同时,本发明通过空间划分,进行视觉字量化和进行索引,解决了大数据量的查询效率问题,使得上几十亿的图片,检索只需要几百毫秒。
附图说明
图1是本发明中具体实例中的待搜索图片;
图2是本发明图片搜索引擎结果页面;
图3是本发明一实施方式图片搜索系统的模块图;
图4是本发明一实施方式图片搜索方法的流程图;
图5是本发明S1步骤的子流程图;
图6是本发明S2步骤的子流程图;
图7是本发明S6步骤的子流程图;
图8是本发明图片特征索引和文本索引建立方法的流程图;
图9是本发明为建立图片特征索引模块和文本索引模块的系统模块图;
图10是本发明特征存储模块建立方法的流程图;
图11是本发明为建立特征存储模块的系统模块图。
具体实施方式
以下将结合附图所示的各实施方式对本发明进行详细描述。但这些实施方式并不限制本发明,本领域的普通技术人员根据这些实施方式所轻易做出的结构、方法、或功能上的变换均包含在本发明的保护范围内。
本发明的图片搜索方法及搜索系统的搜索思维与文本搜索方法及搜索系统的搜索思维完全不一样。文本搜索方法及搜索系统实现了文本到图片的关联,而本发明则是实现了图片到文本的关联,它可以通过接收用户上传的图片来搜索和该图片相关的文本或者其他信息。其主要解决的问题是寻找图片的相关文本信息,以及寻找更高质量图片的需求。
如图2所示,本发明的图片搜索方法及搜索系统可通过用户在浏览器20中上传待搜索的本地图片或上传待搜索图片的URL地址对待搜索图片进行搜索。例如,当待搜索图片为本地图片时,首先应点击上传本地图片按钮201,并通过浏览器20上传本地图片完成后,点击确认按钮203进行搜索;当待搜索图片为网络图片时,则可首先点击输入图片URL地址按钮202,并输入图片相应的URL地址后点击确认按钮203进行搜索。
通过对图片的搜索可返回一条或多条搜索结果,每一条搜索结果可包括相似图片栏204和文本栏205,该搜索结果可按照相似图片栏204中的结果图片与待搜索图片的相似度进行排序,优选地,相似度越高的结果图片越靠前显示,该文本栏205中可显示与该结果图片相应的文本信息,例如,该结果图片的长宽信息、格式信息、名称、相关报道等。举例说明:参照图1、图2,用户在一网站上看到了图片10,并想了解该图片10中的物品是什么,则可打开本发明的图片搜索系统,并输入该图片10的URL地址,点击确认按钮203,本发明的图片搜索系统即会根据该图片10进行搜索,并得到多条搜索结果,从搜索结果的文本信息中,可让用户了解到,该待查图片10中的物品为苹果公司出品的“IPAD”。满足用户了需求,提高了搜索效率,节约了网络流量。
为实现上述技术效果,如图3所示,本发明的图片搜索系统包括WEB服务器100、分发拼装模块102、特征提取模块104、图片特征索引模块106、文本索引模块108。
WEB服务器100和分发拼装模块102用于接收并处理用户上传图片。其中,WEB服务器100:用于负责与用户浏览器20交互,支持用户在浏览器20上进行图片上传的POST请求,维持与用户的连接,并将用户上传的图片发送给分发拼装模块102,并维持与分发拼装模块102的连接,等待分发拼装模块102返回的结果页面,再得到该结果页面后将其返回至用户浏览器20。
分发拼装模块102:用于负责页面建立和各种错误的处理。该分发拼装模块102可接收WEB服务器100传递的图片,并根据图片内容签名发送给不同的特征提取模块104,另外,该分发拼装模块102还负责将搜索结果拼装为结果页面并返回至WEB服务器100。
特征提取模块104:用于计算图片局部特征。优选地,该局部特征可包括角点、Sift等。需要说明的是:该特征提取模块104除了用于图片的特征计算外,还用于对搜索结果进行缓存和排序。该特征提取模块104可接收分发拼装模块102传递的图片,转换各种图片的格式后计算图片特征,并将计算出的图片特征发送至图片特征索引模块106进行相似图片查询,在相似图片查询得到结果后,向文本索引模块108查询该结果的文本数据,并将查询结果(相似图片+文本数据)发送至分发拼装模块102。
图片特征索引模块106:用于搜索上述计算出的图片特征搜索,并返回相似图片的搜索结果该图片特征索引模块106可接收特征提取模块104提取的图片特征,并进行查询,将查询到的图片的内容签名返回给特征提取模块104。优选地,本发明的图片特征索引模块可设置为多个,在每一个图片特征索引模块中查找该图片特征,并返回给特征提取模块104。
文本索引模块108:根据特征提取模块104的查询请求,对相似图片的相应文本数据进行搜索,并返回文本数据至特征提取模块104。优选地,本发明的文本索引模块可设置为多个,在每一个文本索引模块中查找相似图片对应的文本数据,并返回给特征提取模块104。
值得一提的是:本发明的图片搜索系统还可以进一步地包括URL图片下载模块110,该图片URL图片下载模块用于当用户上传图片URL地址时,特征提取模块104会将该URL地址发送至图片URL图片下载模块,并在该模块中下载该URL上的图片后,将该图片返回至特征提取模块104,并通过特征提取模块104向图片特征索引模块106和文本索引模块108发出查询请求,得到相似图片以及相应文本数据。
优选地,本发明采用了多个特征提取模块104协同多个图片特征索引模块106和文本索引模块108的分布式模式,使得图片检索速度较快,反应时间较短。
相应地,如图4所示,本发明的图片搜索方法包括以下步骤:
S1、接收并处理上传图片。如上所述,该图片为用户通过浏览器所提交,优选地,其可通过上传本地图片或上传图片URL地址完成。
S2、计算所述图片特征。计算所接收到的图片的局部特征,优选地,该局部特征可包括角点、Sift等。
S3、通过所述图片特征在图片特征索引中搜索相似图片;
S4、通过所述相似图片在文本索引中查询文本数据;
S5、搜索结果排序。对搜索到的相似图片和文本数据进行排序,排序原则一般地是依照图片相似度进行,即与输入图片越相似的图片排名越靠前。当然,在本发明的其他实施方式中,该排序除了可参考图片相似度之外,还需要依据死链状态,以及网页权值,即是先对图片相似度、死链状态、网页权值的进行非线性计算,并根据计算结果进行排序。值得一提的是:在本发明中,该步骤是为了更好的提升用户体验,提高搜索效率,而并非本发明的图片搜索方法的必要步骤,在其他实施方式中,可以省略该步骤。
S6、输出搜索结果。将搜索到的相似图片和文本按照图2所示的方式输出至用户浏览器,以供用户参考。
如图5所示,所述S1具体包括:
S11、接收用户上传图片。
S12、压缩所述图片;浏览器的JS对于大于一个设定阈值的图片进行压缩,并将压缩后的图片发送至WEB服务器。值得一提的是:在本发明中,该步骤是为了更好的提升用户体验,减少网络流量,而并非本发明的图片搜索方法的必要步骤,在其他实施方式中,可以省略该步骤。
S13、分发所述图片;WEB服务器接收到该图片后,发送至分发拼装模块,并由该分发拼装模块根据图片的内容签名发送给不同的特征提取模块。
如图6所示,在本发明的另一实施方式中,所述S2步骤包括:
S21、判断上传图片是否为本地图片;若是,则进入S23、若不是,则进入S22;
S22、下载所述URL地址的图片,并进入S23;
S23、计算所述图片特征。
如图7所示,所述S6具体包括:
S61、将排序后的搜索结果缓存;
S62、将搜索结果拼装后输出结果页面,所述结果页面包括正常结果页面、错误结果页面、无结果页面;
S63、将结果页面输出至用户浏览器。
如图8所示,为了实现上述S3、S4步骤,在本发明的图片搜索系统中,首先需要建立图片特征索引和文本索引。其中,对于图片特征索引和文本索引的建立方法包括以下流程:
S31、通过网络数据获取网络图片的URL;该图片数据可通过网络抓取方法,将互联网上的图片抓取至本地服务器,该抓取方法本领域普通技术人员已能通过现有技术熟练掌握,在此不再赘述。
S32、获取上述图片的文本信息;
S33、计算所述图片的局部特征;优选地,在本发明中,是通过分布式计算平台对图片的特征进行计算,该分布式计算平台可载入视觉字典,将相关的特征量化到视觉字典,该局部特征可包括角点、Sift等。
S34、查询存储的已有图片特征;
S35、判断在已有图片特征中是否存在与所述局部特征相似的图片特征;
S36、若有相似特征的图片特征,则建立文本信息索引和图片特征标记至少一个索引号;优选地,一张图片的特征可能包括多个,每个特征都可对应一个索引号,这样,即可使得一张图片对应多个索引号,而相同的索引号又可能对应多张图片。
S37、若无相似特征的图片特征,则过滤掉该图片;
S38、重复上述步骤,通过索引号建立索引。
S39、优选地,在本发明最佳实施方式中,还会建立一缩略图库,建立缩略图库的主要目的是将缩略图插入到线上缩略图访问服务系统中,需要做的事情就是生成相应的缩略图字典即可。该缩略图库的建立方法,本领域的普通技术人员已能通过现有技术熟练掌握,在此不再赘述。
值得一提的是:当对一个含有图片的网页进行抓取时,即会给该网页中的图片一个内部ID,并且给该网页中的文本信息一个相应的内部ID,这样,当通过图片特征找到相似的图片后,即可通过该图片的内部ID,搜索到相应内部ID文本信息,这样即可将该图片索引与该文本索引进行关联。使得在通过图片特征搜索到图片时,一并可以搜索到该图片的文本信息,以满足用户需求。
另外,在本发明的另一实施方式中,上述S31和S32的顺序也可以颠倒,即先获取文本信息,再获取与该文本信息相应的图片URL,其余步骤相同,仍然可建立图片特征索引和文本索引。在本发明的再一实施方式中,上述S31和S32也可同时进行,即在获取图片URL的同时,也获取与该图片相应的文本信息,其余步骤相同,仍可建立图片特征索引和文本索引。
优选地,在S31中获得的网页图片数据为展示数据,该“展示数据”是指在一般搜索引擎下可搜索到的图片;该“展示图片”是指被展现于搜索结果中次数较多的图片。
相应地,如图9所示,为建立图片特征索引模块和文本索引模块,本发明的图片搜索系统还包括:
图片获取模块31:用于通过网络图片数据获得图片对应的URL;该图片数据可通过网络抓取方法,将互联网上的图片抓取至本地服务器,该抓取方法本领域普通技术人员已能通过现有技术熟练掌握,在此不再赘述。
文本获取模块32:获取上述图片的文本信息。
图片特征计算模块33:用于计算图片的图片特征;优选地,在本发明中,是通过分布式计算平台对图片的特征进行计算,该分布式计算平台可载入视觉字典,将相关的特征量化到视觉字典,该特征可包括角点、Sift等。
特征存储模块34:用于存储图片特征,并可查询该图片特征,判断是否存在相似特征的图片。
索引建立模块35:用于建立文本索引模块和图片特征索引模块。
缩略图建库模块36:用于建立缩略图库,建立缩略图库的主要目的是将缩略图插入到线上缩略图访问服务系统中,需要做的事情就是生成相应的缩略图字典即可。
为了提高建立文本信息库和图片特征库的效率,使得在建库时候不需要等待图片的特征计算(因图片特征计算是比较耗时的),方便图片特征比对,因此需要首先提供一用于查询存储的已有图片特征的特征存储模块,如图10所示,建立所述已有图片特征,包括:
S101、在存储的图片数据中提取图片,优选地,该图片数据为全网图片数据。
S102、判断该图片是否已计算过图片特征;
S103、若未计算过图片特征,则对图片进行分布式计算,计算图片特征;需要载入视觉字典,将相关的特征量化到视觉字。若已计算过图片特征,则回到S101步骤中,提取下一图片。
S104、存储该图片特征。
相应地,如图11所示,为建立该特征存储模块,本发明的图片搜索系统还包括:
图片数据存储模块101:用于存储从网页中抓取下的图片数据,优选地,该图片数据为全网图片数据。
图片传输模块102:用于在图片数据存储模块101中提取图片,并将图片传输至分布式计算平台,同时,接收分布式计算平台计算完成的图片特征,并将该图片特征传输至所述的特征存储模块。该图片传输模块102还可以用于判断该图片是否已计算过图片特征,若未计算过图片特征,则对图片发送至分布式计算平台103;若已计算过图片特征,重新再图片数据存储模块101中提取图片数据。
分布式计算平台103:用于分布式计算所述图片的图片特征,其需要载入视觉字典,将相关的特征量化到视觉字。
通过上述的图片数据存储模块101、图片传输模块102、分布式计算平台103算出的图片特征,即可存储一数据库,形成特征存储模块34,以便在图片特征建库时运用。
通过上述的描述可知,通过本发明的基于图片的搜索方法和系统,不仅可实现在全网通过图片搜索与之相似的图片,还可以根据图片搜索与之相对应的文本信息,满足用户需求,提高搜索效率,节约网络流量,同时,本发明通过空间划分,进行视觉字量化和进行索引,解决了大数据量的查询效率问题,使得上几十亿的图片,检索只需要几百毫秒。
应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明,它们并非用以限制本发明的保护范围,凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。

Claims (31)

1.一种图片搜索方法,其特征在于,所述图片搜索方法包括以下步骤:
S1、接收并处理上传图片;
S2、计算所述图片局部特征;
S3、通过所述图片局部特征在图片特征索引中搜索相似图片;
S4、通过所述相似图片在文本索引中搜索文本数据;
S5、输出所述相似图片与所述文本数据。
2.根据权利要求1所述的图片搜索方法,其特征在于,在所述S5前,还包括:
排序步骤,对搜索到的所述相似图片和所述文本数据进行排序。
3.根据权利要求2所述的图片搜索方法,其特征在于,所述排序参考因素为图片相似度。
4.根据权利要求2所述的图片搜索方法,其特征在于,所述排序参考因素为图片相似度、死链状态,以及网页权值。
5.根据权利要求1所述的图片搜索方法,其特征在于,所述S1步骤包括:
S11、接收用户上传图片;
S13、根据图片的内容签名分发所述上传图片。
6.根据权利要求5所述的图片搜索方法,其特征在于,在所述S13步骤前,还包括:
S12、压缩所述上传图片:若上传图片大于设定阈值,则将所述上传图片压缩后,再进入S13步骤。
7.根据权利要求1所述的图片搜索方法,其特征在于,所述S2步骤包括:
判断上传图片是否为本地图片;
若不是本地图片,则下载所述URL地址的图片;
计算所述图片局部特征。
8.根据权利要求1所述的图片搜索方法,其特征在于,所述S5步骤包括:
S51、将排序后的搜索结果缓存;
S52、将所述搜索结果拼装后输出结果页面;
S53、将所述结果页面输出。
9.根据权利要求1所述的图片搜索方法,其特征在于,所述图片特征索引和所述文本索引的建立方法包括:
通过网络数据获取网络图片的URL;
获取所述图片的文本信息;
计算所述图片的局部特征;
查询存储的已有图片特征;
判断在已有图片特征中是否存在与所述局部特征相似的图片特征;
若存在与所述局部特征相似的图片特征,则对所述图片的文本信息和图片特征标记至少一个索引号;
重复上述步骤,建立索引。
10.根据权利要求1所述的图片搜索方法,其特征在于,所述图片特征索引和所述文本索引的建立方法包括:
通过网络数据获取网络图片的URL;
获取图片的URL;
计算所述图片的局部特征;
查询存储的已有图片特征;
判断在已有图片特征中是否存在与所述局部特征相似的图片特征;
若存在与所述局部特征相似的图片特征,则对所述图片的文本信息和图片特征标记至少一个索引号;
重复上述步骤,建立索引。
11.根据权利要求1所述的图片搜索方法,其特征在于,所述图片特征索引和所述文本索引的建立方法包括:
通过网络数据获取网络图片的URL;
计算所述图片的局部特征;
查询存储的已有图片特征;
判断在已有图片特征中是否存在与所述局部特征相似的图片特征;
若存在与所述局部特征相似的图片特征,则对所述图片的文本信息和图片特征标记至少一个索引号;
重复上述步骤,建立索引。
12.根据权利要求9或10或11所述的图片搜索方法,其特征在于,在查询存储的已有图片特征后,还包括建缩略图库,所述缩略图库可将缩略图插入到线上缩略图访问服务系统中。
13.根据权利要求9或10或11所述的图片搜索方法,其特征在于,在通过网络数据获取网络图片的URL步骤中,所述网络数据为展示数据,所述网络图片为展示图片。
14.根据权利要求9或10或11所述的图片搜索方法,其特征在于,建立所述已有图片特征,包括以下步骤:
在全网图片数据中提取图片;
分布式计算所述图片的图片特征;
存储所述图片特征。
15.根据权利要求14所述的图片搜索方法,其特征在于,在“分布式计算所述图片的图片特征”步骤之前,还包括:
判断该图片是否已计算过图片特征;
若未计算过图片特征,则进行“分布式计算所述图片的图片特征”步骤。
16.根据权利要求14所述的图片搜索方法,其特征在于,在“分布式计算所述图片的图片特征”之前,还包括:
判断该图片是否已计算过图片特征;
若已计算过所述图片的图片特征,则回到“在全网图片数据中提取图片”步骤中,提取下一图片。
17.根据权利要求14所述的图片搜索方法,其特征在于,所述分布式计算图片特征是载入视觉字典,将图片相关的特征量化到视觉字。
18.一种图片搜索系统,其特征在于,所述图片搜索系统包括:
WEB服务器和分发拼装模块:用于接收并处理上传图片,以及输出搜索到的所述相似图片与所述文本数据;
特征提取模块:用于计算所述图片局部特征;
图片特征索引模块:用于通过所述图片局部特征在所述图片特征索引模块中搜索相似图片;
文本索引模块:用于通过所述相似图片在所述文本索引模块中搜索文本数据。
19.根据权利要求18所述的图片搜索系统,其特征在于,所述WEB服务器的功能还包括:用于负责与用户浏览器交互,支持用户在浏览器上进行图片上传的POST请求,维持与用户的连接,并将用户上传的图片发送给所述分发拼装模块,并维持与所述分发拼装模块的连接,等待所述分发拼装模块返回的结果页面,再得到该所述结果页面后将其返回至所述用户浏览器。
20.根据权利要求18所述的图片搜索系统,其特征在于,所述分发拼装模块的功能还包括:用于接收所述WEB服务器传递的图片,并根据图片内容签名发送给不同的特征提取模块,以及将搜索结果拼装为结果页面并返回至所述WEB服务器。
21.根据权利要求18所述的图片搜索系统,其特征在于,所述特征提取模块的功能还包括:用于对搜索到的所述相似图片与所述文本数据进行缓存和排序。
22.根据权利要求21所述的图片搜索系统,其特征在于,所述排序参考因素为图片相似度。
23.根据权利要求21所述的图片搜索系统,其特征在于,所述排序参考因素为图片相似度、死链状态,以及网页权值。
24.根据权利要求18所述的图片搜索系统,其特征在于,所述一个分发拼装模块对应多个特征提取模块。
25.根据权利要求18或24所述的图片搜索系统,其特征在于,所述一个特征提取模块对应多个图片特征索引模块和多个文本索引模块。
26.根据权利要求18所述的图片搜索系统,其特征在于,所述图片搜索系统还包括URL图片下载模块:用于当用户上传图片URL地址时,下载URL地址上的图片,并将所述图片发送至特征提取模块。
27.根据权利要求18所述的图片搜索系统,其特征在于,为建立所述图片特征索引模块和所述文本索引模块,所述图片搜索系统还包括:
图片获取模块:用于通过网络数据获取网络图片的URL;
文本获取模块:用于获取所述图片的文本信息;
图片特征计算模块:用于计算所述图片的局部特征;
特征存储模块:用于查询存储的已有图片特征;
索引建立模块:用于建立文本索引模块和图片特征索引模块。
28.根据权利要求27所述的图片搜索系统,其特征在于,所述图片搜索系统还包括缩略图建库模块:用于建立缩略图库,将缩略图插入到线上缩略图访问服务系统中。
29.根据权利要求27所述的图片搜索系统,其特征在于,所述网络数据为展示数据,所述网络图片为展示图片。
30.根据权利要求27所述的图片搜索系统,其特征在于,为了建立所述特征存储模块,所述图片搜索系统还包括:
图片数据存储模块:用于存储全网图片数据;
图片传输模块:用于在所述图片数据存储模块中提取图片,并将所述图片传输至分布式计算平台,以及,接收所述分布式计算平台计算完成的图片特征,并将该图片特征传输至所述的所述特征存储模块;
分布式计算平台:用于分布式计算所述图片的图片特征。
31.根据权利要求30所述的图片搜索系统,其特征在于,所述分布式计算图片特征是载入视觉字典,将图片相关的特征量化到视觉字。
CN 201010574563 2010-11-30 2010-11-30 图片搜索方法及搜索系统 Pending CN102012934A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201010574563 CN102012934A (zh) 2010-11-30 2010-11-30 图片搜索方法及搜索系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201010574563 CN102012934A (zh) 2010-11-30 2010-11-30 图片搜索方法及搜索系统

Publications (1)

Publication Number Publication Date
CN102012934A true CN102012934A (zh) 2011-04-13

Family

ID=43843107

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201010574563 Pending CN102012934A (zh) 2010-11-30 2010-11-30 图片搜索方法及搜索系统

Country Status (1)

Country Link
CN (1) CN102012934A (zh)

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521257A (zh) * 2011-11-18 2012-06-27 百度在线网络技术(北京)有限公司 一种用于根据缩略图提供对应的在线图片的方法与设备
CN102750380A (zh) * 2012-06-27 2012-10-24 山东师范大学 一种结合差异特征分布与链接特征的网页排序方法
CN102831242A (zh) * 2012-09-10 2012-12-19 东莞宇龙通信科技有限公司 搜索图片信息的方法及装置
CN103064981A (zh) * 2013-01-18 2013-04-24 浪潮电子信息产业股份有限公司 一种基于云计算的图片搜索方法
CN103176996A (zh) * 2011-12-21 2013-06-26 阿里巴巴集团控股有限公司 基于图片特征信息的图片搜索方法及图片搜索引擎服务器
CN103177100A (zh) * 2013-03-20 2013-06-26 百度在线网络技术(北京)有限公司 搜索成套图像的方法和设备
CN103246646A (zh) * 2012-02-01 2013-08-14 腾讯科技(深圳)有限公司 一种网络数据获取方法和装置
CN103345516A (zh) * 2013-07-10 2013-10-09 百度在线网络技术(北京)有限公司 基于应用程序图标的应用程序搜索方法和系统
CN103559248A (zh) * 2013-10-30 2014-02-05 广东明创软件科技有限公司 基于移动终端相册图片的搜索方法及其移动终端
CN103678704A (zh) * 2013-12-30 2014-03-26 北京奇虎科技有限公司 一种基于图片信息的识图方法、系统、设备及装置
CN103793434A (zh) * 2012-11-02 2014-05-14 北京百度网讯科技有限公司 一种基于内容的图片搜索方法和装置
CN103838769A (zh) * 2012-11-26 2014-06-04 鸿富锦精密工业(深圳)有限公司 搜索系统及方法
CN104268504A (zh) * 2014-09-02 2015-01-07 百度在线网络技术(北京)有限公司 图片识别方法和装置
CN104598578A (zh) * 2015-01-13 2015-05-06 百度在线网络技术(北京)有限公司 图片搜索方法和装置
CN104699783A (zh) * 2015-03-13 2015-06-10 西安电子科技大学 基于个性化视觉字典自适应调整的社交图像检索方法
WO2016050172A1 (zh) * 2014-09-29 2016-04-07 优视科技有限公司 图片压缩方法及装置
CN105657445A (zh) * 2015-12-30 2016-06-08 Tcl海外电子(惠州)有限公司 电视购物系统及其实现方法
CN106557503A (zh) * 2015-09-28 2017-04-05 杭州海康威视数字技术股份有限公司 一种图像检索的方法和系统
CN107851124A (zh) * 2015-07-27 2018-03-27 高通股份有限公司 自组织网络中的媒体标记传播
CN108959586A (zh) * 2012-08-08 2018-12-07 谷歌有限责任公司 响应于可视化查询标识文本词汇
CN111339331A (zh) * 2020-02-18 2020-06-26 深圳信可通讯技术有限公司 一种以图搜文的方法、智能终端及计算机可读介质
CN111966856A (zh) * 2020-06-29 2020-11-20 北京百度网讯科技有限公司 图片数据处理方法、装置、电子设备和存储介质
CN112347282A (zh) * 2020-11-12 2021-02-09 四川长虹电器股份有限公司 基于原生JavaScript实现查找相似度最高图片的方法
CN113780038A (zh) * 2020-06-10 2021-12-10 深信服科技股份有限公司 一种图片审计方法、装置、计算设备及存储介质
US11379534B2 (en) 2019-11-19 2022-07-05 International Business Machines Corporation Document feature repository management

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1267280A2 (en) * 2000-05-31 2002-12-18 Samsung Electronics Co., Ltd. Method and apparatus for populating, indexing and searching a non-html web content database
CN101093542A (zh) * 2006-02-15 2007-12-26 索尼株式会社 查询系统、成像装置、查询装置、信息处理方法及其程序
CN101510218A (zh) * 2009-03-26 2009-08-19 阿里巴巴集团控股有限公司 实现图片搜索的方法及网站服务器
CN101777064A (zh) * 2009-01-12 2010-07-14 鸿富锦精密工业(深圳)有限公司 图片搜索系统及方法
CN101847154A (zh) * 2010-02-26 2010-09-29 宇龙计算机通信科技(深圳)有限公司 一种查询信息的方法、系统及移动终端查询信息的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1267280A2 (en) * 2000-05-31 2002-12-18 Samsung Electronics Co., Ltd. Method and apparatus for populating, indexing and searching a non-html web content database
CN101093542A (zh) * 2006-02-15 2007-12-26 索尼株式会社 查询系统、成像装置、查询装置、信息处理方法及其程序
CN101777064A (zh) * 2009-01-12 2010-07-14 鸿富锦精密工业(深圳)有限公司 图片搜索系统及方法
CN101510218A (zh) * 2009-03-26 2009-08-19 阿里巴巴集团控股有限公司 实现图片搜索的方法及网站服务器
CN101847154A (zh) * 2010-02-26 2010-09-29 宇龙计算机通信科技(深圳)有限公司 一种查询信息的方法、系统及移动终端查询信息的方法

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521257A (zh) * 2011-11-18 2012-06-27 百度在线网络技术(北京)有限公司 一种用于根据缩略图提供对应的在线图片的方法与设备
CN103176996A (zh) * 2011-12-21 2013-06-26 阿里巴巴集团控股有限公司 基于图片特征信息的图片搜索方法及图片搜索引擎服务器
CN103246646A (zh) * 2012-02-01 2013-08-14 腾讯科技(深圳)有限公司 一种网络数据获取方法和装置
CN102750380A (zh) * 2012-06-27 2012-10-24 山东师范大学 一种结合差异特征分布与链接特征的网页排序方法
CN102750380B (zh) * 2012-06-27 2014-10-15 山东师范大学 一种结合差异特征分布与链接特征的网页排序方法
CN108959586B (zh) * 2012-08-08 2022-02-01 谷歌有限责任公司 响应于可视化查询标识文本词汇
CN108959586A (zh) * 2012-08-08 2018-12-07 谷歌有限责任公司 响应于可视化查询标识文本词汇
CN102831242A (zh) * 2012-09-10 2012-12-19 东莞宇龙通信科技有限公司 搜索图片信息的方法及装置
CN102831242B (zh) * 2012-09-10 2016-08-24 东莞宇龙通信科技有限公司 搜索图片信息的方法及装置
CN103793434A (zh) * 2012-11-02 2014-05-14 北京百度网讯科技有限公司 一种基于内容的图片搜索方法和装置
CN103838769A (zh) * 2012-11-26 2014-06-04 鸿富锦精密工业(深圳)有限公司 搜索系统及方法
CN103064981A (zh) * 2013-01-18 2013-04-24 浪潮电子信息产业股份有限公司 一种基于云计算的图片搜索方法
CN103177100A (zh) * 2013-03-20 2013-06-26 百度在线网络技术(北京)有限公司 搜索成套图像的方法和设备
CN103177100B (zh) * 2013-03-20 2016-05-04 百度在线网络技术(北京)有限公司 搜索成套图像的方法和设备
CN103345516A (zh) * 2013-07-10 2013-10-09 百度在线网络技术(北京)有限公司 基于应用程序图标的应用程序搜索方法和系统
CN103559248A (zh) * 2013-10-30 2014-02-05 广东明创软件科技有限公司 基于移动终端相册图片的搜索方法及其移动终端
CN103678704A (zh) * 2013-12-30 2014-03-26 北京奇虎科技有限公司 一种基于图片信息的识图方法、系统、设备及装置
CN104268504B (zh) * 2014-09-02 2017-10-27 百度在线网络技术(北京)有限公司 图片识别方法和装置
CN104268504A (zh) * 2014-09-02 2015-01-07 百度在线网络技术(北京)有限公司 图片识别方法和装置
CN105528798A (zh) * 2014-09-29 2016-04-27 优视科技有限公司 图片压缩方法及装置
CN105528798B (zh) * 2014-09-29 2019-10-08 优视科技有限公司 图片压缩方法及装置
WO2016050172A1 (zh) * 2014-09-29 2016-04-07 优视科技有限公司 图片压缩方法及装置
CN104598578A (zh) * 2015-01-13 2015-05-06 百度在线网络技术(北京)有限公司 图片搜索方法和装置
CN104699783A (zh) * 2015-03-13 2015-06-10 西安电子科技大学 基于个性化视觉字典自适应调整的社交图像检索方法
CN107851124A (zh) * 2015-07-27 2018-03-27 高通股份有限公司 自组织网络中的媒体标记传播
CN106557503A (zh) * 2015-09-28 2017-04-05 杭州海康威视数字技术股份有限公司 一种图像检索的方法和系统
CN105657445A (zh) * 2015-12-30 2016-06-08 Tcl海外电子(惠州)有限公司 电视购物系统及其实现方法
US11379534B2 (en) 2019-11-19 2022-07-05 International Business Machines Corporation Document feature repository management
CN111339331A (zh) * 2020-02-18 2020-06-26 深圳信可通讯技术有限公司 一种以图搜文的方法、智能终端及计算机可读介质
CN113780038A (zh) * 2020-06-10 2021-12-10 深信服科技股份有限公司 一种图片审计方法、装置、计算设备及存储介质
CN111966856A (zh) * 2020-06-29 2020-11-20 北京百度网讯科技有限公司 图片数据处理方法、装置、电子设备和存储介质
CN112347282A (zh) * 2020-11-12 2021-02-09 四川长虹电器股份有限公司 基于原生JavaScript实现查找相似度最高图片的方法

Similar Documents

Publication Publication Date Title
CN102012934A (zh) 图片搜索方法及搜索系统
CN101025737B (zh) 基于关注度的同源信息搜索引擎聚合显示方法
CN102968495B (zh) 搜索对比关联购物信息的垂直搜索引擎及方法
CN102063476B (zh) 视频搜索方法及系统
US9842167B2 (en) Search suggestion and display environment
CN103886090B (zh) 基于用户喜好的内容推荐方法及装置
CN102298616B (zh) 一种用于在搜索结果中提供相关子链接的方法和设备
US8392394B1 (en) Merging search results
CN111708740A (zh) 基于云平台的海量搜索查询日志计算分析系统
CN105701216A (zh) 一种信息推送方法及装置
CN102446225A (zh) 一种实时搜索的方法、装置和系统
CN105022827A (zh) 一种面向领域主题的Web新闻动态聚合方法
CN101847161A (zh) 搜索网页的方法和建立数据库的方法
CN102521251A (zh) 个性化搜索直达的方法、实现该方法的装置和搜索服务器
CN102054003A (zh) 网络信息推荐、建立网络资源索引的方法及系统
CN105045932A (zh) 一种基于降序存储的数据分页查询方法
CN101833587A (zh) 网络视频搜索系统
CN101997933A (zh) 一种网址提供方法、装置及系统
CN103064852A (zh) 网站统计信息处理方法及系统
CN102214207A (zh) 一种用于对信息实体中的属性集合进行排序的方法与设备
CN103745006A (zh) 一种互联网信息搜索系统及方法
CN103365893A (zh) 一种用于实现搜索用户的个体信息的方法和设备
CN103559258A (zh) 基于云计算的网页排序方法
CN106327226A (zh) 基于大数据的物联网智能衣柜开放平台的控制方法
KR100729184B1 (ko) 연상 키워드를 이용한 관계 정보 검색 방법 및 장치

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20110413