CN102141994A - 基于内容的图片搜索方法及其并行优化技术 - Google Patents
基于内容的图片搜索方法及其并行优化技术 Download PDFInfo
- Publication number
- CN102141994A CN102141994A CN2010101047897A CN201010104789A CN102141994A CN 102141994 A CN102141994 A CN 102141994A CN 2010101047897 A CN2010101047897 A CN 2010101047897A CN 201010104789 A CN201010104789 A CN 201010104789A CN 102141994 A CN102141994 A CN 102141994A
- Authority
- CN
- China
- Prior art keywords
- picture
- proper vector
- content
- user
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于内容的图片搜索方法和并行优化技术,涉及互联网图片搜索引擎技术,旨在精确地、快速地搜索与用户提交图片内容相似的图片。用户以图搜图,提交想要查询的图片,图片搜索系统返回给用户与之视觉上相似的图片。包括前端查询和后端处理两部分。前端包括用户输入界面和结果返回界面;后端包括特征提取、相似度计算、特征向量降维和索引。通过挖掘搜索系统的并行性,从串行和并行两个方面来优化整个图片搜索系统的性能,提高查询相应速度。
Description
技术领域
本发明涉及互联网图片搜索引擎和并行优化技术,特别是涉及基于图片本身内容的图片高效搜索方法。
背景技术
随着大容量存储器和数字化图像设备(摄像机、照相机)的普及,每天都会产生大量的不同类型的图片,例如科学,医学,地理,生活等等。如何对这些海量的图片进行有效的检索,进而便于人们有效的浏览、搜索、管理自己感兴趣的图片,是目前急需解决的一个问题。
目前商用的图片搜索引擎有谷歌图片搜索和百度图片搜索。这些以后的搜索系统都是基于关键字和图片标签的。基于关键字的图片视频检索有着其本质的缺点。图片中内容丰富,仅用几个关键字或数句话很难表达清楚,而且不同的人对图片有不同的理解,导致同一幅图片可能会有相差很大的说明。图片的数量呈爆炸式的增加,很多图片只有很少的文字信息或者根本就没有说明文字,想要高效地索引这些图片就需要人们手工的添加标签和说明文字,对于海量的图片这是非常繁重的工作。
图片搜索系统通常涉及到比较大的数据量和计算量,计算机的处理速度严重制约着图片搜索系统的能力和发展。随着多核处理器的出现和普及,通用处理器的计算能力大大加强,为进一步提高图片搜索系统的质量和速度提供了可能。多核处理器指的是在一颗处理器芯片中集成两个或多个完整的计算内核,从而提高计算能力。多核的概念最早是由IBM、HP、Sun等支持RISC架构的高端服务器厂商提出的,主要运用于服务器上。最近,在Intel和AMD的推广下,多核处理器在台式机上得到了广泛的应用。目前Intel已推出了四核处理器,更多核的处理器也将在不久面世。多核处理器,较之以前的单核处理器,能带来更多的性能。
发明内容
本发明的目的就是为了克服当前基于文本的图片搜索引擎的局限性,充分发挥多核处理器的计算潜力,提供一种基于内容的图片搜索方法,并针对多核处理器的特点提供并行优化方法。本发明能够快速、准确地向公众提供相似图片搜索服务。
根据本发明的一个目的,提出一种基于内容的图片搜索方法,用户可以提交想要查询的图片,图片搜索系统返回给用户与之视觉上相似的图片,即以图搜图,包括前端和后端两部分,前端负责用户界面,包括用户的输入和搜索结果呈现;后端负责图片颜色和边缘特征的提取,数据库图片建立索引,待搜索图片和数据库中图片的相似度计算,图片间相似度排序。
根据本发明的另一个目的,提出了图片搜索系统在多核处理器上的并行优化方法,主要包括优化系统的访存行为,采用高效的数据结构,采用SIMD指令有效优化向量操作,挖掘图片搜索系统中并行性,均衡每个核上的任务负载,减少多个核之间数据同步开销,绑定每个线程到一个固定的核以减少上下文切换开销。通过针对多核处理器的优化,来提高基于内容的图片搜索引擎的响应速度,提升用户体验。
所述的用户是指图片搜索引擎的使用者;所述的用户输入是指用途提交的待查询图片;所述的搜索结果是指数据库中与用户提交的带查询图片比较相似的图片;所述的数据库是指图片搜索引擎系统中已存在的图片集合;所述的图片特征是指图片颜色直方图和图片边缘梯度直方图;所述的相似度是指待查询图片和数据库中图片特征向量间的距离;所述的图片可以是各种互联网上存在的图片格式;所述的多核处理器是指目前普遍应用的桌面计算机和服务器;所述的SIMD指令是指现代处理器普遍支持的单指令多数据流技术。
与现有技术相比,本发明具有以下优点:
(1)本发明以图搜图,更加符合普通用户的视觉习惯。
(2)优化了搜索系统关键部分,提高了在多核处理器上的搜索速度。
附图说明
图1是基于内容的图片搜索系统流程图。
具体实施方式
下面结合附图,详细介绍本发明基于内容的图片搜索方法及其并行优化方法。本发明整个图片搜索过程分为:后端处理和前端的查询过程,如图1所示。原始图片通过特征提取、降维和索引得到一个索引后的查询数据库。用户输入一张包含自己想要查询内容的图片,系统抽取查询图片的特征得到特征向量,然后用和后端图片处理相同的方法进行降维,用降维后的向量到索引数据库中查找最匹配的若干张图片,按相似度进行排序,最终系统把排好序的图片呈现给用户,完成一次查询过程。
特征抽取是用来获得图片视觉特征的方法,用一个高维向量来描述一副图片,这样图片相似性的比较就等价为向量相似性的比较。本发明用到的特征为颜色直方图和边缘梯度直方图。颜色直方图的核心思想是在一定的颜色空间对图像各种颜色出现的频数进行统计。把颜色区间划分成有限个小区域,每个区域关联于颜色直方图中的一维,然后计算落在直方图每一维对应的空间区域中的像素的个数。图像的边缘是指其周围像素灰度有较大幅值变化的那些像素的集合,用这些边缘像素的梯度值,来描述一副图像的边缘特征,计算不同梯度区间的边缘像素个数来得到边缘梯度直方图。
本发明通过计算特征向量的相似度,来判断两幅图是否相似。特征向量的相似性匹配,通常采用空间向量模型,即把特征向量看作是空间中的点,把这些点之间的距离作为向量间的相似度,距离越近,特征向量越相似。本发明采用欧式距离米计算空间中点的距离。
由于图片的数量巨大,如果每次检索对数据库中的图片依次按顺序进行比较计算相似度,效率会非常低。如果数据库中有成千上万张图片,一个查询就要很长的时间才能返回结果,这在实际应用中将是不能忍受的。为了在包含大量图片的数据库上进行高效的检索,首先需要对抽取的特征进行降维,然后采用高维索引技术来支持快速的相似匹配。本发明中降维采用随机投影方法,高维索引采用k-d tree结构。
为了利用多核处理器的特性,本发明从三个方面挖掘系统的并行性,来提高并行性能。首先,搜索系统可以同时处理多个查询。这是一种粗粒度的任务并行方案。不同用户的查询相互没有关联是独立的,多个独立的查询具有自然的并行性,每个查询分配给一个核去执行。其次,对于每个查询,可以挖掘更细粒度的并行性。通常一副图片内有上万个像素,对于这些像素可以划分成块,每块分配给一个核去处理,图片数据库中有大量的图片,查询图片需要跟数据库中大部分图片进行比较,计算相似度,和数据库中图片的比较可以并行的执行。最后,还可以采用更细粒度的并行,图片的特征向量通常是很高维的,每一维的计算可以并行来做。
系统所做的串行和并行优化包括:(1)对程序的访存行为进行优化,使得程序访存更为合理,减少处理器等待数据的时间;(2)采用高效的数据结构,如把查找到的图片保存到一个优先队列而不是线性队列里,这样可以实现迅速的插入和删除;(3)系统有大量的向量操作,可以用SIMD指令有效的优化这些运算;(4)负载均衡,尽量把任务平均的分配到各个核上;(5)减少同步开销,并行程序中的锁和临界区会使得一些核等待另一些核执行,这样会降低系统利用率,采用合理的任务划分,减少不必要的同步操作;(6)利用线程亲和性,默认情况下,操作系统会采用时间片轮转的策略来调度线程在每个核上执行,这样会照成频繁的上下文切换,增加缓存失效,浪费总线带宽。本发明把有数据共享的线程调度到共享缓存的一些核上,把对总线带宽需求高的线程调度到不共享前端总线的核上以充分利用存储带宽。
Claims (5)
1.一种基于内容的图片搜索方法,该方法利用图片本身所包含的视觉内容,以图搜图,查找与用户提交图片相似的图片,该方法包括图片特征提取,特征向量降维,特征向量索引,相似度比较,搜索结果排序几大模块,同时利用并行计算技术对该方法进行性能优化,提高其响应速度,提供更好的用户体验,起特征在于:该方法包括如下步骤:数据库图片通过特征提取、降维和索引得到一个查询数据库,用户输入一张包含自己想要查询内容的图片,对该待查询图片进行特征提取、降维后得到一个查询特征向量,然后再索引好的查询数据库中进行匹配,查找若干个相似度比较大的特征向量,然后向用户返回这些特征向量对应的数据库图片,图片按照与查询图片相似度大小排序。在查询过程中为加快速度,利用并行优化方法来优化查询速度。
2.根据权利要求1所述的基于内容的搜索方法,其特征在于:所述的视觉内容是图片的颜色和纹理,用计算得到的颜色直方图和边缘梯度直方图作为特征向量。
3.根据权利要求1所述的基于内容的搜索方法,其特征在于:所述的特征向量降维是指利用随机投影的方法来减少特征向量的维数;所述的特征向量索引是指利用kd-tree来对特征向量进行索引,以便后续对某一特征向量进行搜索。
4.根据权利要求1所述的基于内容的搜索方法,其特征在于:所述的相似度比较是指特征向量间的距离比较,距离采用的是欧氏距离;所述的相似度排序是指根据特征向量间的距离从小到大排序,距离越小认为两幅图片的相似度越大。
5.根据权利要求1所述的基于内容的搜索方法,其特征在于:所述的并行优化技术是指发掘系统并行性,优化访存行为,采用高效的优先队列数据结构,利用SIMD指令优化向量操作,优化负载平衡,减少同步开销,利用线程亲和性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010101047897A CN102141994A (zh) | 2010-02-03 | 2010-02-03 | 基于内容的图片搜索方法及其并行优化技术 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010101047897A CN102141994A (zh) | 2010-02-03 | 2010-02-03 | 基于内容的图片搜索方法及其并行优化技术 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102141994A true CN102141994A (zh) | 2011-08-03 |
Family
ID=44409520
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2010101047897A Pending CN102141994A (zh) | 2010-02-03 | 2010-02-03 | 基于内容的图片搜索方法及其并行优化技术 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102141994A (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102436491A (zh) * | 2011-11-08 | 2012-05-02 | 张三明 | 一种基于BigBase的海量图片搜索系统及方法 |
CN102955784A (zh) * | 2011-08-19 | 2013-03-06 | 北京百度网讯科技有限公司 | 一种基于数字签名对多个图像进行相似判断的设备和方法 |
CN103325107A (zh) * | 2013-05-22 | 2013-09-25 | 北京小米科技有限责任公司 | 图片处理方法、装置及终端设备 |
CN104036009A (zh) * | 2014-06-24 | 2014-09-10 | 北京奇虎科技有限公司 | 一种搜索匹配图片的方法、图片搜索方法及装置 |
CN104036281A (zh) * | 2014-06-24 | 2014-09-10 | 北京奇虎科技有限公司 | 一种图片的匹配方法、搜索方法及其装置 |
CN104283842A (zh) * | 2013-07-02 | 2015-01-14 | 中兴通讯股份有限公司 | 主题管理方法及系统 |
CN105447846A (zh) * | 2014-08-25 | 2016-03-30 | 联想(北京)有限公司 | 一种图像处理方法及电子设备 |
CN105512255A (zh) * | 2015-12-01 | 2016-04-20 | 上海斐讯数据通信技术有限公司 | 图片筛选方法及装置、移动终端 |
CN107066459A (zh) * | 2016-08-30 | 2017-08-18 | 广东百华科技股份有限公司 | 一种高效图像检索方法 |
CN108052535A (zh) * | 2017-11-15 | 2018-05-18 | 国家计算机网络与信息安全管理中心 | 基于多处理器平台的视觉特征并行快速匹配方法和系统 |
CN110019913A (zh) * | 2018-06-01 | 2019-07-16 | 平安好房(上海)电子商务有限公司 | 图片匹配方法、用户设备、存储介质及装置 |
CN114168770A (zh) * | 2022-02-14 | 2022-03-11 | 成都四方伟业软件股份有限公司 | 一种基于深度学习的以图搜图方法及装置 |
-
2010
- 2010-02-03 CN CN2010101047897A patent/CN102141994A/zh active Pending
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102955784A (zh) * | 2011-08-19 | 2013-03-06 | 北京百度网讯科技有限公司 | 一种基于数字签名对多个图像进行相似判断的设备和方法 |
CN102436491A (zh) * | 2011-11-08 | 2012-05-02 | 张三明 | 一种基于BigBase的海量图片搜索系统及方法 |
CN103325107A (zh) * | 2013-05-22 | 2013-09-25 | 北京小米科技有限责任公司 | 图片处理方法、装置及终端设备 |
CN104283842A (zh) * | 2013-07-02 | 2015-01-14 | 中兴通讯股份有限公司 | 主题管理方法及系统 |
CN104036009A (zh) * | 2014-06-24 | 2014-09-10 | 北京奇虎科技有限公司 | 一种搜索匹配图片的方法、图片搜索方法及装置 |
CN104036281A (zh) * | 2014-06-24 | 2014-09-10 | 北京奇虎科技有限公司 | 一种图片的匹配方法、搜索方法及其装置 |
CN105447846A (zh) * | 2014-08-25 | 2016-03-30 | 联想(北京)有限公司 | 一种图像处理方法及电子设备 |
CN105512255A (zh) * | 2015-12-01 | 2016-04-20 | 上海斐讯数据通信技术有限公司 | 图片筛选方法及装置、移动终端 |
CN107066459A (zh) * | 2016-08-30 | 2017-08-18 | 广东百华科技股份有限公司 | 一种高效图像检索方法 |
CN108052535A (zh) * | 2017-11-15 | 2018-05-18 | 国家计算机网络与信息安全管理中心 | 基于多处理器平台的视觉特征并行快速匹配方法和系统 |
CN110019913A (zh) * | 2018-06-01 | 2019-07-16 | 平安好房(上海)电子商务有限公司 | 图片匹配方法、用户设备、存储介质及装置 |
CN114168770A (zh) * | 2022-02-14 | 2022-03-11 | 成都四方伟业软件股份有限公司 | 一种基于深度学习的以图搜图方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102141994A (zh) | 基于内容的图片搜索方法及其并行优化技术 | |
Zhang et al. | Visual search at alibaba | |
Ertekin et al. | Active learning for class imbalance problem | |
Wang et al. | Query-specific visual semantic spaces for web image re-ranking | |
US20110179002A1 (en) | System and Method for a Vector-Space Search Engine | |
Wang et al. | High performance spatial queries for spatial big data: from medical imaging to GIS | |
CN104021125A (zh) | 一种搜索引擎排序的方法、系统以及一种搜索引擎 | |
CN103927337A (zh) | 用于联机分析处理中关联关系的数据处理方法和装置 | |
CN108052535B (zh) | 基于多处理器平台的视觉特征并行快速匹配方法和系统 | |
US20120117090A1 (en) | System and method for managing digital contents | |
Qin et al. | High-dimensional similarity query processing for data science | |
Mandl et al. | Preference analytics in EXASolution | |
CN108319604B (zh) | 一种hive中大小表关联的优化方法 | |
CN110968723A (zh) | 一种图像特征值的搜索方法、装置及电子设备 | |
Zhang et al. | Dboost: a fast algorithm for dbscan-based clustering on high dimensional data | |
JP2011216029A (ja) | 分散メモリデータベースシステム、データベースサーバ、データ処理方法およびそのプログラム | |
Candan et al. | Rankloud: A scalable ranked query processing framework on hadoop | |
CN114138831A (zh) | 一种数据搜索方法、装置及存储介质 | |
Ding et al. | Selective deep ensemble for instance retrieval | |
CN112256730A (zh) | 信息检索方法、装置、电子设备及可读存储介质 | |
Li et al. | Towards visual SLAM with memory management for large-scale environments | |
Yan et al. | Mitigating shortage of labeled data using clustering-based active learning with diversity exploration | |
Escalante et al. | TIA-INAOE's Participation at ImageCLEF 2007. | |
Pisani et al. | Contextual Spaces Re‐Ranking: accelerating the Re‐sort Ranked Lists step on heterogeneous systems | |
Chen et al. | Time-aware boolean spatial keyword queries |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20110803 |