JP6778625B2 - Image search system, image search method and image search program - Google Patents

Image search system, image search method and image search program Download PDF

Info

Publication number
JP6778625B2
JP6778625B2 JP2017015717A JP2017015717A JP6778625B2 JP 6778625 B2 JP6778625 B2 JP 6778625B2 JP 2017015717 A JP2017015717 A JP 2017015717A JP 2017015717 A JP2017015717 A JP 2017015717A JP 6778625 B2 JP6778625 B2 JP 6778625B2
Authority
JP
Japan
Prior art keywords
image
attention
interest
query image
specific category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017015717A
Other languages
Japanese (ja)
Other versions
JP2018124740A (en
Inventor
悠一 吉田
悠一 吉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso IT Laboratory Inc
Original Assignee
Denso IT Laboratory Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso IT Laboratory Inc filed Critical Denso IT Laboratory Inc
Priority to JP2017015717A priority Critical patent/JP6778625B2/en
Publication of JP2018124740A publication Critical patent/JP2018124740A/en
Application granted granted Critical
Publication of JP6778625B2 publication Critical patent/JP6778625B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Processing Or Creating Images (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Description

本発明は、大量の参照画像の中からクエリ画像に対応する参照画像を検索する画像検索システム、画像検索方法及び画像検索プログラムに関する。 The present invention relates to an image search system, an image search method, and an image search program for searching a reference image corresponding to a query image from a large number of reference images.

従来、大量の参照画像の中からクエリ画像に対応する参照画像を検索し、クエリ画像に撮影された物体を特定する特定物体認識が行われている。画像検索では、事前準備として、特定の物体が撮影された画像を多種多様な物体について大量に準備して参照画像とし、当該参照画像をデータベースに記録しておく。さらに、各参照画像について、参照画像の特徴を示す特徴量を算出し、当該特徴量を各参照画像に対応付けてデータベースに記録しておく。画像検索を行う場合には、撮影装置によって撮影された画像をクエリ画像とする。そして、クエリ画像について特徴量を算出し、クエリ画像の特徴量と各参照画像の特徴量とを比較して、クエリ画像の特徴量と最も一致度の高い特徴量を有する参照画像を対応する参照画像として選択する。選択された参照画像に撮影された物体がクエリ画像に撮影された物体であるといえ、クエリ画像に撮影された物体が特定されることになる(例えば、特許文献1参照)。 Conventionally, specific object recognition has been performed by searching for a reference image corresponding to a query image from a large number of reference images and identifying an object captured in the query image. In the image search, as a preliminary preparation, a large number of images of a specific object are prepared for a wide variety of objects as reference images, and the reference images are recorded in a database. Further, for each reference image, a feature amount indicating the feature of the reference image is calculated, and the feature amount is associated with each reference image and recorded in the database. When performing an image search, an image taken by the photographing device is used as a query image. Then, the feature amount of the query image is calculated, the feature amount of the query image is compared with the feature amount of each reference image, and the reference image having the feature amount having the highest degree of matching with the feature amount of the query image is referred to. Select as an image. It can be said that the object captured in the selected reference image is the object captured in the query image, and the object captured in the query image is specified (see, for example, Patent Document 1).

特開2015−111339号公報Japanese Unexamined Patent Publication No. 2015-11139

近年、撮影装置によって撮影可能な画像のサイズが大きくなっている。このような大きなサイズの画像をクエリ画像として画像検索を行う場合には、特徴量の算出ないし参照画像の選択に時間を要し、実用的な時間内で画像検索を実行することが困難となる。
本発明の目的は、高速に画像検索を行うことが可能な画像検索システム、画像検索方法及び画像検索プログラムを提供することである。
In recent years, the size of an image that can be captured by a photographing device has increased. When performing an image search using such a large size image as a query image, it takes time to calculate the feature amount and select the reference image, and it becomes difficult to execute the image search within a practical time. ..
An object of the present invention is to provide an image search system, an image search method, and an image search program capable of performing an image search at high speed.

本発明の第1実施態様は、クエリ画像から前記クエリ画像の各位置において特定のカテゴリに属する物体が存在する可能性を示す注目度を表す注目度画像を生成する注目度画像生成部と、前記注目度画像から前記注目度に基づいて興味領域を生成する興味領域生成部と、前記クエリ画像から前記興味領域に対応する領域を切り出して特定カテゴリクエリ画像を生成する特定カテゴリクエリ画像生成部と、複数の参照画像が記録されているデータベースから前記特定カテゴリクエリ画像に対応する参照画像を検索する参照画像検索部と、を有し、前記注目度画像生成部は、前記特定のカテゴリを含む複数のカテゴリに属する物体が撮影された画像を用いて学習した深層畳み込みニューラルネットワークを用いる、画像検索システムである。 A first embodiment of the present invention includes a attention level image generation unit that generates a attention level image representing a attention level indicating the possibility that an object belonging to a specific category exists at each position of the query image from the query image. An interest region generation unit that generates an interest region based on the attention level image, a specific category query image generation unit that cuts out a region corresponding to the interest region from the query image and generates a specific category query image, possess a reference image retrieval unit in which a plurality of reference images to find the reference image corresponding to the specific category query image from the database being recorded, the said prominence image generation unit, a plurality of containing the specific category This is an image search system that uses a deep convolution neural network learned by using images of objects belonging to the category .

本実施態様では、クエリ画像の各位置に特定のカテゴリに属する物体が存在する可能性を示す注目度に基づいて興味領域を生成し、クエリ画像から興味領域に対応する領域を切り出して特定カテゴリクエリ画像を生成し、当該特定カテゴリクエリ画像に基づいて参照画像の検索を行っている。このため、参照画像の検索処理を高速で行うことができ、画像検索を高速で行うことが可能となっている。 In the present embodiment, an area of interest is generated based on the degree of attention indicating the possibility that an object belonging to a specific category exists at each position of the query image, and an area corresponding to the area of interest is cut out from the query image to perform a specific category query. An image is generated, and a reference image is searched based on the specific category query image. Therefore, the reference image search process can be performed at high speed, and the image search can be performed at high speed.

本発明の第2実施態様は、前記画像検索システムは、前記クエリ画像のサイズを縮小するクエリ画像縮小部をさらに有し、前記注目度画像生成部は、前記クエリ画像縮小部によって縮小された前記クエリ画像から前記注目度画像を生成する、画像検索システムである。 In a second embodiment of the present invention, the image search system further includes a query image reduction unit that reduces the size of the query image, and the attention level image generation unit is reduced by the query image reduction unit. This is an image search system that generates the attention level image from a query image.

本実施態様では、縮小されたサイズの小さなクエリ画像に基づいて注目度画像の生成を行っている。このため、注目度画像の生成処理を高速で行うこができ、画像検索をさらに高速で行うことが可能となっている。 In this embodiment, the attention level image is generated based on the reduced size query image. Therefore, the attention level image generation process can be performed at high speed, and the image search can be performed at even higher speed.

本発明の第3実施態様は、クエリ画像から前記クエリ画像の各位置において特定のカテゴリに属する物体が存在する可能性を示す注目度を表す注目度画像を生成する注目度画像生成ステップと、前記注目度画像から前記注目度に基づいて興味領域を生成する興味領域生成ステップと、前記クエリ画像から前記興味領域に対応する領域を切り出して特定カテゴリクエリ画像を生成する特定カテゴリクエリ画像生成ステップと、複数の参照画像が記録されているデータベースから前記特定カテゴリクエリ画像に対応する参照画像を検索する参照画像検索ステップと、を有し、前記注目度画像生成ステップは、前記特定のカテゴリを含む複数のカテゴリに属する物体が撮影された画像を用いて学習した深層畳み込みニューラルネットワークを用いる、画像検索方法である。
本実施態様では、第1実施態様と同様の効果を奏する。
A third embodiment of the present invention includes a attention level image generation step of generating a attention level image representing a attention level indicating the possibility that an object belonging to a specific category exists at each position of the query image from the query image. An interest region generation step that generates an interest region based on the attention level image from an attention level image, a specific category query image generation step that cuts out a region corresponding to the interest region from the query image and generates a specific category query image, and the like. possess a reference image retrieval step in which a plurality of reference images to find the reference image corresponding to the specific category query image from the database being recorded, the said prominence image generating step, the plurality including the specific category This is an image search method that uses a deep convolution neural network learned by using images of objects belonging to the category .
In this embodiment, the same effect as in the first embodiment is obtained.

本発明の第4実施態様は、コンピュータに、クエリ画像から前記クエリ画像の各位置において特定のカテゴリに属する物体が存在する可能性を示す注目度を表す注目度画像を生成する注目度画像生成機能と、前記注目度画像から前記注目度に基づいて興味領域を生成する興味領域生成機能と、前記クエリ画像から前記興味領域に対応する領域を切り出して特定カテゴリクエリ画像を生成する特定カテゴリクエリ画像生成機能と、複数の参照画像が記録されているデータベースから前記特定カテゴリクエリ画像に対応する参照画像を検索する参照画像検索機能と、を実現させ、前記注目度画像生成機能は、前記特定のカテゴリを含む複数のカテゴリに属する物体が撮影された画像を用いて学習した深層畳み込みニューラルネットワークを用いる、画像検索プログラムである。
本実施態様では、第1実施態様と同様の効果を奏する。
A fourth embodiment of the present invention is a attention level image generation function that generates a attention level image representing a attention level indicating the possibility that an object belonging to a specific category exists at each position of the query image from the query image in a computer. And an interest area generation function that generates an interest area based on the attention degree from the attention degree image, and a specific category query image generation that cuts out an area corresponding to the interest area from the query image and generates a specific category query image. The function and the reference image search function for searching the reference image corresponding to the specific category query image from the database in which a plurality of reference images are recorded are realized, and the attention level image generation function sets the specific category. This is an image search program that uses a deep convolution neural network learned by using images of objects belonging to a plurality of categories including the images .
In this embodiment, the same effect as in the first embodiment is obtained.

本発明では、高速に画像検索を行うことが可能となっている。 In the present invention, it is possible to perform an image search at high speed.

本発明の各実施形態の画像検索方法の概要を示す模式図。The schematic diagram which shows the outline of the image search method of each embodiment of this invention. 本発明の第1実施形態の画像検索システムを示すブロック図。The block diagram which shows the image search system of 1st Embodiment of this invention. 本発明の第1実施形態のニューラルネットワーク部を示す模式図。The schematic diagram which shows the neural network part of 1st Embodiment of this invention. 本発明の第1実施形態の画像検索方法を示すフロー図。The flow chart which shows the image search method of 1st Embodiment of this invention. 本発明の第1実施形態の画像検索方法を示すフロー図。The flow chart which shows the image search method of 1st Embodiment of this invention. 本発明の第2実施形態の興味領域生成ステップを示すフロー図。The flow chart which shows the interest area generation step of 2nd Embodiment of this invention. 本発明の第3実施形態の興味領域生成ステップを示すフロー図。The flow chart which shows the interest area generation step of 3rd Embodiment of this invention.

図1を参照して、本発明の各実施形態の画像検索方法の概要を説明する。
本概要説明については、各実施形態の理解に資することを目的として、基本的な概念のみを示すものであり、本発明の画像検索方法については、様々な変形態様が考えられ、本概要説明において示される処理方法に限定されるものではない。
An outline of the image search method according to each embodiment of the present invention will be described with reference to FIG.
This outline explanation shows only the basic concept for the purpose of contributing to the understanding of each embodiment, and various modifications of the image search method of the present invention can be considered. It is not limited to the processing method shown.

各実施形態の画像検索方法については、大量の参照画像からクエリ画像に対応する参照画像を検索する際に、クエリ画像に前処理を施して、参照画像の検索処理を高速で行えるようにするものである。前処理においては、認識対象である特定のカテゴリに属する物体が存在する可能性の高い領域をクエリ画像から切り出し、切り出した画像に基づいて参照画像の検索処理を行う。 Regarding the image search method of each embodiment, when a reference image corresponding to a query image is searched from a large number of reference images, the query image is preprocessed so that the reference image search process can be performed at high speed. Is. In the preprocessing, a region in which an object belonging to a specific category to be recognized is likely to exist is cut out from the query image, and a reference image search process is performed based on the cut out image.

具体的には、図1に示されるように、まず、クエリ画像81から、クエリ画像81の各位置において特定のカテゴリに属する物体が存在する可能性を示す注目度を表す注目度画像83を生成する。そして、生成された注目度画像83から、注目度に基づいて注目領域a,bを抽出し、抽出した注目領域a,bに基づいて興味領域Dを生成する。注目領域a,bの決定方法、興味領域Dの設定方法としては、様々な方法を用いることが可能であり、その具体例を各実施形態で説明する。続いて、クエリ画像81から興味領域Dに対応する領域D´を切り出して、特定カテゴリクエリ画像85を生成する。このようにして生成された特定カテゴリクエリ画像85に基づいて参照画像の検索処理を行う。 Specifically, as shown in FIG. 1, first, from the query image 81, an attention level image 83 showing the degree of attention indicating the possibility that an object belonging to a specific category exists at each position of the query image 81 is generated. To do. Then, the attention areas a and b are extracted from the generated attention area 83 based on the attention degree, and the interest area D is generated based on the extracted attention areas a and b. Various methods can be used as a method for determining the regions of interest a and b and a method for setting the region of interest D, and specific examples thereof will be described in each embodiment. Subsequently, the region D'corresponding to the region of interest D is cut out from the query image 81 to generate the specific category query image 85. The reference image search process is performed based on the specific category query image 85 generated in this way.

図2乃至図5を参照し、本発明の第1実施形態について説明する。
図2及び図3を参照し、本実施形態の画像検索システムについて説明する。
図2に示されるように、本実施形態の画像検索システムは画像を撮影する撮影部10を有する。撮影部10としては、モバイルデバイスのカメラや車両の車載カメラ等が用いられる。撮影部10は比較的サイズの大きな画像を撮影する。画像のサイズの大小とは画素数の多寡を示す。撮影部10によって撮影された画像がクエリ画像81となる。
The first embodiment of the present invention will be described with reference to FIGS. 2 to 5.
The image search system of the present embodiment will be described with reference to FIGS. 2 and 3.
As shown in FIG. 2, the image search system of the present embodiment has a photographing unit 10 for photographing an image. As the photographing unit 10, a camera of a mobile device, an in-vehicle camera of a vehicle, or the like is used. The photographing unit 10 captures a relatively large image. The size of the image indicates the number of pixels. The image captured by the photographing unit 10 becomes the query image 81.

画像検索システムは、データベース部60に記録されている大量の参照画像からクエリ画像81に対応する参照画像を検索する演算制御部12を有する。演算制御部12は以下に述べる各機能を有する。なお、演算制御部12に当該各機能を実現させるためのプログラムについても本願発明の範囲に含まれる。 The image search system includes a calculation control unit 12 that searches a large number of reference images recorded in the database unit 60 for a reference image corresponding to the query image 81. The arithmetic control unit 12 has each function described below. The program for realizing each of the functions in the arithmetic control unit 12 is also included in the scope of the present invention.

演算制御部12は、クエリ画像81のサイズを縮小するクエリ画像縮小部15を有する。クエリ画像81は、以下に述べる注目度画像生成部20による注目度画像83の生成に適したサイズに適宜縮小される。画像のサイズの縮小においては、複数の画素を、当該複数の画素の画素値の平均の画素値を有する単一の画素に置換する等、適宜の粗視化を行う。このため、画像のサイズの縮小により解像度は低下することになる。 The arithmetic control unit 12 has a query image reduction unit 15 that reduces the size of the query image 81. The query image 81 is appropriately reduced to a size suitable for generating the attention level image 83 by the attention level image generation unit 20 described below. In reducing the size of the image, appropriate coarse graining is performed, such as replacing a plurality of pixels with a single pixel having an average pixel value of the pixel values of the plurality of pixels. Therefore, the resolution is lowered by reducing the size of the image.

演算制御部12は、クエリ画像縮小部15によって縮小されたクエリ画像81から、特定のカテゴリについての注目度を表す注目度画像83を生成する注目度画像生成部20を有する。注目度とは、クエリ画像の各位置において、所定のカテゴリに属する物体が存在する可能性を示すものである。このような注目度画像を生成する方法としては、例えば、B. Zhou, A. Khosla, A. Lapedriza, A. Oliva, and A. Torralba, 「Learning Deep Features for Discriminative Localization」 Computer Vision and Pattern Recognition (CVPR), 2016に記載された技術を用いることができる。 The arithmetic control unit 12 has an attention level image generation unit 20 that generates an attention level image 83 representing the attention level for a specific category from the query image 81 reduced by the query image reduction unit 15. The degree of attention indicates the possibility that an object belonging to a predetermined category exists at each position of the query image. Examples of methods for generating such attention level images include B. Zhou, A. Khosla, A. Lapedriza, A. Oliva, and A. Torralba, "Learning Deep Features for Discriminative Localization" Computer Vision and Pattern Recognition ( The techniques described in CVPR), 2016 can be used.

注目度画像生成部20は、様々なカテゴリについての注目度を算出するニューラルネットワーク部21と、特定のカテゴリについての注目度を表す注目度画像83を描画する画像描画部22と、を有する。 The attention level image generation unit 20 includes a neural network unit 21 that calculates attention levels for various categories, and an image drawing unit 22 that draws attention level images 83 that represent attention levels for specific categories.

カテゴリとしては、DVD/CDジャケット、ポスター、道路標識等の様々なカテゴリが用いられる。特定のカテゴリについては、画像検索システムの目的に応じて適宜選択される。例えば、DVD/CDジャケットの撮影された画像から、撮影されているDVD/CDを特定し、当該DVD/CDの内容等の関連情報を得るような画像検索システムでは、特定のカテゴリとしてDVD/CDジャケットのカテゴリが選択される。また、道路標識の撮影された画像から、撮影されている道路標識を特定し、速度規制、一方通行等の当該道路標識の内容を得るような画像検索システムでは、特定のカテゴリとして道路標識が選択される。 As the category, various categories such as DVD / CD jackets, posters, and road signs are used. Specific categories are appropriately selected according to the purpose of the image search system. For example, in an image search system that identifies a DVD / CD being shot from a shot image of a DVD / CD jacket and obtains related information such as the contents of the DVD / CD, the DVD / CD is classified as a specific category. The jacket category is selected. In addition, in an image search system that identifies the road sign being photographed from the photographed image of the road sign and obtains the content of the road sign such as speed regulation and one-way traffic, the road sign is selected as a specific category. Will be done.

図3に示されるように、ニューラルネットワーク部21では、深層畳込ニューラルネットワークが用いられる。深層畳込ニューラルネットワークは、入力層23、多数の中間層24、全結合層28及び出力層29を積層することにより形成されており、中間層24は、畳込層25、活性化層26及びプーリング層27を積層することにより形成されている。 As shown in FIG. 3, a deep convolution neural network is used in the neural network unit 21. The deep convolutional neural network is formed by laminating an input layer 23, a large number of intermediate layers 24, a fully connected layer 28, and an output layer 29, and the intermediate layer 24 includes a convolution layer 25, an activation layer 26, and an activation layer 26. It is formed by laminating the pooling layers 27.

深層畳込ニューラルネットワークは、画像が入力される入力層23を有する。
そして、深層畳込ニューラルネットワークは多数の中間層24を有する。
中間層24は、画像の各位置における特徴を抽出する畳込層25を有する。即ち、畳込層25は、式(1)に示されるように、各ユニットlについて、画像の所定の位置(i,j)における前層からの入力xに対して、入力xの全ユニットについての重み付け和Σαxにバイアスβを付加して、次層への出力yとする。
The deep convolution neural network has an input layer 23 into which an image is input.
And the deep convolution neural network has a large number of intermediate layers 24.
The intermediate layer 24 has a convolutional layer 25 that extracts features at each position in the image. That is, as shown in the equation (1), the convolutional layer 25 is used for all the units of the input x with respect to the input x from the front layer at the predetermined position (i, j) of the image for each unit l. Bias β is added to the weighted sum Σαx of the above to obtain the output y to the next layer.

中間層24は、収束性や学習速度の向上に寄与する活性化層26を有する。活性化層26は、式(2)に示されるように、各ユニットlについて、畳込層25からの入力xに対する活性化関数fからの応答を次層への出力yとする。活性化関数としてはReLU(rectified linear unit)を用いる。なお、活性化関数としては、シグモイド関数等、その他の適宜の関数を用いてもよい。
The intermediate layer 24 has an activation layer 26 that contributes to improvement of convergence and learning speed. As shown in the equation (2), the activation layer 26 sets the response from the activation function f to the input x from the convolution layer 25 as the output y to the next layer for each unit l. ReLU (rectified liner unit) is used as the activation function. As the activation function, other appropriate functions such as a sigmoid function may be used.

中間層24は、画像における局所的な変動を捨象して情報を圧縮するプーリング層27を有する。即ち、プーリング層27は、式(3)に示されるように、各ユニットlについて、m個の要素を包含する小領域M内において、活性化層26からの入力xの平均値をとる平均プーリングを行う。なお、プーリング方法としては、最大プーリング等、その他の適宜のプーリング方法を用いてもよい。
The intermediate layer 24 has a pooling layer 27 that abstracts information by abstracting local fluctuations in the image. That is, as shown in the formula (3), the pooling layer 27 takes an average value of the inputs x from the activation layer 26 in the small region M including m elements for each unit l. I do. As the pooling method, other appropriate pooling method such as maximum pooling may be used.

そして、深層畳込ニューラルネットワークは、各カテゴリcについて注目度を算出する全結合層28を有する。即ち、全結合層28は、式(4)に示されるように、各カテゴリcについて、前層からの入力xの全ユニットについての重み付き和S(=Σωx)を算出する。
そして、全結合層28は、式(5)に示されるように、重み付き和Sの入力に対するソフトマップ関数の応答を各カテゴリcについての注目度Pとする。
さらに、深層畳込ニューラルネットワークは、各カテゴリcについての注目度Pを画像描画部22に出力する出力層29を有する。
Then, the deep convolution neural network has a fully connected layer 28 for calculating the degree of attention for each category c. That is, as shown in the equation (4), the fully connected layer 28 calculates the weighted sum S (= Σωx) for all the units of the input x from the previous layer for each category c.
Then, as shown in the equation (5), the fully connected layer 28 sets the response of the softmap function to the input of the weighted sum S as the degree of attention P for each category c.
Further, the deep convolution neural network has an output layer 29 that outputs the degree of attention P for each category c to the image drawing unit 22.

深層畳込ニューラルネットワークでは、上述した重みα,ω及びバイアスβ等のパラメーターについては、各カテゴリcに属する物体の撮影された多数の画像を用いた学習により、予め決定されている。即ち、理想的な出力Qと実際の出力Rとの乖離については、式(6)に示される交差エントロピーEによって測定される。
当該交差エントロピーEが極小化されるように、式(7)に示されるように、誤差逆伝搬法を用いて、重みα,ωないしバイアスβ等のパラメーターを順次更新して、パラメーターを決定する。
In the deep convolution neural network, the parameters such as the weights α, ω and the bias β described above are determined in advance by learning using a large number of captured images of the objects belonging to each category c. That is, the dissociation between the ideal output Q and the actual output R is measured by the cross entropy E shown in the equation (6).
As shown in Eq. (7), parameters such as weights α, ω, and bias β are sequentially updated to determine the parameters so that the cross entropy E is minimized by using the error back propagation method. ..

図2に示されるように、注目度画像生成部20は、ニューラルネットワーク部21から入力されたカテゴリcについての注目度Pから、特定のカテゴリCについての注目度Pを表す注目度画像83を描画する画像描画部22を有する。
注目度画像生成部20で生成される注目度画像83は縮小されたクエリ画像81と同一のサイズとなる。
As shown in FIG. 2, the attention level image generation unit 20 draws a attention level image 83 representing the attention level P for a specific category C from the attention level P for the category c input from the neural network unit 21. The image drawing unit 22 is provided.
The attention level image 83 generated by the attention level image generation unit 20 has the same size as the reduced query image 81.

演算制御部12は、クエリ画像81の縮小率に基づいて、注目度画像83のサイズを縮小前のクエリ画像81と同一のサイズに拡大する注目度画像拡大部35を有する。画像のサイズの拡大においては、単一の画素を、当該画素の画素値と同一の画素値を有する複数の画素に置換する等、適宜の補完を行う。 The arithmetic control unit 12 has an attention image enlargement unit 35 that enlarges the size of the attention image 83 to the same size as the query image 81 before reduction based on the reduction ratio of the query image 81. In expanding the size of the image, appropriate complementation is performed, such as replacing a single pixel with a plurality of pixels having the same pixel value as the pixel value of the pixel.

演算制御部12は、拡大された注目度画像83から、注目度に基づいて興味領域Dを生成する興味領域生成部40を有する。
即ち、興味領域生成部40は、所定の閾値以上の注目度を有する1つ以上の領域を注目領域a,bとして抽出する注目領域抽出部41を有する。興味領域生成部40は、注目領域抽出部41で抽出された1つ以上の注目領域a,bから1つ以上の注目領域a,bを選択する注目領域選択部42を有する。本実施形態では、注目領域選択部42は注目領域抽出部41で抽出された全ての注目領域a,bを選択する。興味領域生成部40は、選択された全ての注目領域a,bに外接する長方形状の領域を興味領域Dとして設定する興味領域設定部43を有する。当該興味領域Dについては、クエリ画像81の対応する領域において、特定のカテゴリに属する物体が存在する可能性が高い領域を示すものである。
The arithmetic control unit 12 has an interest region generation unit 40 that generates an interest region D based on the attention level from the enlarged attention level image 83.
That is, the interest region generation unit 40 has an attention region extraction unit 41 that extracts one or more regions having a degree of attention equal to or higher than a predetermined threshold value as attention regions a and b. The area of interest generation unit 40 has an area of interest 42 that selects one or more areas of interest a, b from one or more areas of interest a, b extracted by the area of interest 41. In the present embodiment, the attention area selection unit 42 selects all the attention areas a and b extracted by the attention area extraction unit 41. The interest region generation unit 40 has an interest region setting unit 43 that sets a rectangular region circumscribing all the selected interest regions a and b as the interest region D. The region of interest D indicates a region in the corresponding region of the query image 81 where an object belonging to a specific category is likely to exist.

演算制御部12は、クエリ画像81から興味領域Dに対応する領域を切り出して、特定カテゴリクエリ画像85を生成する特定カテゴリクエリ画像生成部45を有する。画像の切出しとは、画像のサイズの拡縮を伴うことなく、画像の一部を分離することを示す。このため、画像の切出しによって画像のサイズ自体は小さくなるものの、画像のサイズが縮小されるわけではなく、解像度が低下することはない。 The arithmetic control unit 12 has a specific category query image generation unit 45 that cuts out a region corresponding to the region of interest D from the query image 81 and generates a specific category query image 85. Clipping an image means separating a part of an image without scaling the size of the image. Therefore, although the size of the image itself is reduced by cropping the image, the size of the image is not reduced and the resolution is not reduced.

演算制御部12は、特定カテゴリクエリ画像85を縮小する特定カテゴリクエリ画像縮小部50を有する。特定カテゴリクエリ画像85のサイズは、以下に述べる参照画像検索部52による参照画像の検索に適したサイズに適宜縮小される。 The arithmetic control unit 12 has a specific category query image reduction unit 50 that reduces the specific category query image 85. The size of the specific category query image 85 is appropriately reduced to a size suitable for searching the reference image by the reference image search unit 52 described below.

演算制御部12は、データベース部60に記録されている多量の参照画像から、特定カテゴリクエリ画像85に対応する参照画像を検索する参照画像検索部52を有する。
参照画像検索部52は、特定カテゴリクエリ画像85の特徴量を算出する特徴量算出部55を有する。即ち、特徴量算出部55は、特定カテゴリクエリ画像85からエッジを抽出してエッジ画像を生成し、エッジ画像から複数の特徴点を検出する特徴点検出部56を有する。特徴量算出部55は、各特徴点における局所特徴量を抽出する局所特徴量抽出部57を有する。局所特徴量としてはSIFT特徴量が用いられ、SIFT特徴量はN次元ベクトルとして得られる。特徴量算出部55は、SIFT特徴量をバイナリコードに変換するバイナリ変換部58を有する。バイナリ変換部58は、式(8)に示されるように、SIFT特徴量vを二値によって表現されるバイナリコードhに変換する。ここで、dは変換後のバイナリコードのサイズ、wは、N行d列の行列であり、N次元における半径1の超球上の点から、正規分布に従ってランダムサンプリングをして得られるベクトルである。
The arithmetic control unit 12 has a reference image search unit 52 that searches for a reference image corresponding to the specific category query image 85 from a large number of reference images recorded in the database unit 60.
The reference image search unit 52 has a feature amount calculation unit 55 that calculates the feature amount of the specific category query image 85. That is, the feature amount calculation unit 55 has a feature point detection unit 56 that extracts an edge from the specific category query image 85 to generate an edge image and detects a plurality of feature points from the edge image. The feature amount calculation unit 55 has a local feature amount extraction unit 57 that extracts local feature amounts at each feature point. The SIFT feature is used as the local feature, and the SIFT feature is obtained as an N-dimensional vector. The feature amount calculation unit 55 has a binary conversion unit 58 that converts the SIFT feature amount into a binary code. As shown in the equation (8), the binary conversion unit 58 converts the SIFT feature amount v into the binary code h represented by the binary value. Here, d is the size of the converted binary code, w is a matrix of N rows and d columns, and is a vector obtained by random sampling according to a normal distribution from a point on a hypersphere having a radius of 1 in the N dimension. is there.

一方、データベース部60は、大量の参照画像が記録されている参照画像記録部61を有する。参照画像としては、多種多様なカテゴリについて、カテゴリ毎に、当該カテゴリに属する物体が撮影された画像が多数記録されている。例えば、カテゴリとして、DVD/CDジャケット、ポスター、道路標識等が用いられ、DVD/CDジャケットのカテゴリに属する物体として、様々な種類のDVD/CDジャケット、道路標識のカテゴリに属する物体として、速度規制、一方通行等の様々な道路標識が用いられる。 On the other hand, the database unit 60 has a reference image recording unit 61 in which a large amount of reference images are recorded. As the reference image, a large number of images of objects belonging to the category are recorded for each of a wide variety of categories. For example, DVD / CD jackets, posters, road signs, etc. are used as categories, and speed regulation is used as objects belonging to the DVD / CD jacket category, various types of DVD / CD jackets, and objects belonging to the road sign category. , One-way traffic signs, etc. are used.

データベース部60は、各参照画像について算出された特徴量が各参照画像と対応付けられて記録されている特徴量記録部62を有する。特徴量としては、特徴量算出部55によって算出される特徴量と同様、各特徴点におけるSIFT特徴量をバイナリ変換したバイナリコードが用いられる。 The database unit 60 has a feature amount recording unit 62 in which the feature amount calculated for each reference image is recorded in association with each reference image. As the feature amount, a binary code obtained by binary-converting the SIFT feature amount at each feature point is used as in the feature amount calculated by the feature amount calculation unit 55.

データベース部60は、各参照画像に関連する関連情報が各参照画像と対応付けられて記録されている関連情報記録部63を有する。関連情報としては、例えば、参照画像がDVD/CDジャケットである場合には、当該DVD/CDの内容、映画DVDであれば監督や出演者の情報、音楽CDであれば作曲者や演奏者の情報が用いられる。また、参照画像が交通標識である場合には、制限速度や一方通行等の当該交通標識の内容が用いられる。 The database unit 60 has a related information recording unit 63 in which related information related to each reference image is recorded in association with each reference image. As related information, for example, when the reference image is a DVD / CD jacket, the contents of the DVD / CD, the information of the director or performer if it is a movie DVD, or the composer or performer if it is a music CD. Information is used. When the reference image is a traffic sign, the content of the traffic sign such as speed limit or one-way traffic is used.

そして、参照画像検索部52は、データベース部60に記録されている多数の参照画像から、特定カテゴリクエリ画像85に対応する参照画像を選択する参照画像選択部65を有する。即ち、参照画像選択部65は、特定カテゴリクエリ画像85の各特徴点の特徴量と全参照画像の全特徴点の特徴量とを比較し、特定カテゴリクエリ画像85の特徴点の特徴量と最も一致度の高い特徴量を有する参照画像の特徴点を、当該特定カテゴリクエリ画像85の特徴点に対応する特徴点として選択する。ここで、両バイナリコードの不一致度を示すハミング距離が最も小さくなる特徴量が最も一致度の高い特徴量とされる。そして、参照画像選択部65は、全参照画像の内、特定カテゴリクエリ画像85の特徴点に対応する特徴点の数が最も多い参照画像を、当該特定カテゴリクエリ画像85に対応する参照画像として選択する。 Then, the reference image search unit 52 has a reference image selection unit 65 that selects a reference image corresponding to the specific category query image 85 from a large number of reference images recorded in the database unit 60. That is, the reference image selection unit 65 compares the feature amount of each feature point of the specific category query image 85 with the feature amount of all the feature points of all the reference images, and compares the feature amount of the feature points of the specific category query image 85 with the feature amount of the most. The feature points of the reference image having a feature amount with a high degree of matching are selected as the feature points corresponding to the feature points of the specific category query image 85. Here, the feature amount having the smallest Hamming distance indicating the degree of mismatch between the two binary codes is regarded as the feature amount having the highest degree of matching. Then, the reference image selection unit 65 selects the reference image having the largest number of feature points corresponding to the feature points of the specific category query image 85 as the reference image corresponding to the specific category query image 85 among all the reference images. To do.

クエリ画像81に撮影されている物体と、特定カテゴリクエリ画像85に対応する参照画像に撮影されている物体は同一種類の物体であるといえ、参照画像に撮影されている物体の種類は予め特定されているから、クエリ画像81に撮影されている物体の種類が特定されることになる。
画像検索システムは、選択された参照画像に対応付けられた関連情報を読み出す関連情報読出部70を有する。
It can be said that the object captured in the query image 81 and the object captured in the reference image corresponding to the specific category query image 85 are the same type of object, and the type of the object captured in the reference image is specified in advance. Therefore, the type of the object captured in the query image 81 is specified.
The image search system has a related information reading unit 70 that reads related information associated with the selected reference image.

画像検索システムは、読み出された関連情報に基づいて出力を行う出力部75を有する。出力部75は、例えば、モバイルデバイスのカメラでDVD/CDジャケットが撮影された場合には、当該モバイルデバイスの画面に当該DVD/CDの関連情報を表示し、車載カメラで道路標識が撮影された場合には、当該道路標識の内容に基づいて車両を自動制御する。 The image search system has an output unit 75 that outputs based on the read related information. For example, when the DVD / CD jacket is photographed by the camera of the mobile device, the output unit 75 displays the related information of the DVD / CD on the screen of the mobile device, and the road sign is photographed by the in-vehicle camera. In that case, the vehicle is automatically controlled based on the content of the road sign.

図4及び図5を参照し、本発明の第1実施形態の画像検索方法について説明する。
撮影ステップ(S10)
撮影ステップ(S10)では、比較的サイズの大きな画像を撮影する。本実施形態では、モバイルデバイスのカメラによりDVD/CDジャケットが撮影されており、画像のサイズは4000×3000画素である。撮影された画像がクエリ画像81となる。
The image search method of the first embodiment of the present invention will be described with reference to FIGS. 4 and 5.
Shooting step (S10)
In the shooting step (S10), a relatively large image is shot. In the present embodiment, the DVD / CD jacket is photographed by the camera of the mobile device, and the size of the image is 4000 × 3000 pixels. The captured image becomes the query image 81.

クエリ画像縮小ステップ(S15)
クエリ画像縮小ステップ(S15)では、クエリ画像81を縮小する。クエリ画像81は、以下に述べる注目度画像生成ステップ(S20)における注目度画像83の生成に適したサイズに適宜縮小される。本実施形態では、クエリ画像81のサイズを4000×3000画素から256×256画素まで縮小している。
Query image reduction step (S15)
In the query image reduction step (S15), the query image 81 is reduced. The query image 81 is appropriately reduced to a size suitable for generating the attention level image 83 in the attention level image generation step (S20) described below. In the present embodiment, the size of the query image 81 is reduced from 4000 × 3000 pixels to 256 × 256 pixels.

注目度画像生成ステップ(S20)
注目度画像生成ステップ(S20)では、上述したように深層畳込ニューラルネットワークを用いて、縮小したクエリ画像81から注目度画像83を生成する。注目度画像83のサイズは、縮小したクエリ画像81のサイズと同一であり、本実施形態では256×256画素である。
Attention level image generation step (S20)
In the attention level image generation step (S20), the attention level image 83 is generated from the reduced query image 81 by using the deep convolution neural network as described above. The size of the attention level image 83 is the same as the size of the reduced query image 81, and is 256 × 256 pixels in this embodiment.

注目度画像拡大ステップ(S25)
注目度画像拡大ステップ(S25)では、クエリ画像81の縮小率に基づいて、注目度画像83を縮小前のクエリ画像81と同一のサイズに拡大する。本実施形態では、注目度画像83のサイズを256×256画素から4000×3000画素まで拡大する。
Attention level image enlargement step (S25)
In the attention level image enlargement step (S25), the attention level image 83 is enlarged to the same size as the query image 81 before reduction based on the reduction ratio of the query image 81. In the present embodiment, the size of the attention level image 83 is increased from 256 × 256 pixels to 4000 × 3000 pixels.

興味領域生成ステップ(S30)
興味領域生成ステップ(S30)では、拡大された注目度画像83から注目度に基づいて興味領域Dを生成する。即ち、注目領域抽出ステップ(S31)では、注目度画像83において所定の閾値以上の注目度を有する1つ以上の注目領域a,bを抽出する。そして、注目領域選択ステップ(S32)では、抽出された全ての注目領域a,bを選択する。興味領域設定ステップ(S33)では、選択された全ての注目領域a,bに外接する長方形状の領域を興味領域Dに設定する。
Area of interest generation step (S30)
In the interest region generation step (S30), the interest region D is generated from the enlarged attention level image 83 based on the attention level. That is, in the attention region extraction step (S31), one or more attention regions a and b having an attention degree equal to or higher than a predetermined threshold value are extracted in the attention degree image 83. Then, in the attention area selection step (S32), all the extracted attention areas a and b are selected. In the area of interest setting step (S33), a rectangular area circumscribing all the selected areas of interest a and b is set as the area of interest D.

特定カテゴリクエリ画像生成ステップ(S35)
特定カテゴリクエリ画像生成ステップ(S35)では、クエリ画像81から興味領域Dに対応する領域D´を切り出して、特定カテゴリクエリ画像85を生成する。本実施形態では、クエリ画像81のサイズが4000×3000画素であるのに対して、特定カテゴリクエリ画像85のサイズは2000×1800画素である。
Specific category query image generation step (S35)
In the specific category query image generation step (S35), the area D'corresponding to the area of interest D is cut out from the query image 81, and the specific category query image 85 is generated. In the present embodiment, the size of the query image 81 is 4000 × 3000 pixels, whereas the size of the specific category query image 85 is 2000 × 1800 pixels.

特定カテゴリクエリ画像縮小ステップ(S40)
特定カテゴリクエリ画像縮小ステップ(S40)では、特定カテゴリクエリ画像85を縮小する。特定カテゴリクエリ画像85のサイズは、以下に述べる参照画像検索ステップ(S42)における参照画像の検索に適したサイズに適宜設定される。本実施形態では、特定カテゴリクエリ画像85のサイズは2000×1800画素から320×240画素まで縮小される。
Specific category query image reduction step (S40)
In the specific category query image reduction step (S40), the specific category query image 85 is reduced. The size of the specific category query image 85 is appropriately set to a size suitable for searching the reference image in the reference image search step (S42) described below. In the present embodiment, the size of the specific category query image 85 is reduced from 2000 × 1800 pixels to 320 × 240 pixels.

参照画像検索ステップ(S42)
参照画像検索ステップ(S42)において、特徴量算出ステップ(S45)では、特定カテゴリクエリ画像85の特徴量が算出される。即ち、特徴量算出ステップ(S46)において、特徴点検出ステップ(S46)では、特定カテゴリクエリ画像85からエッジを抽出してエッジ画像を生成し、エッジ画像から複数の特徴点を検出する。局所特徴量抽出ステップ(S47)では、各特徴点においてSIFT特徴量を抽出する。バイナリ変換ステップ(S48)では、SIFT特徴量をバイナリコードに変換する。
Reference image search step (S42)
In the reference image search step (S42), the feature amount calculation step (S45) calculates the feature amount of the specific category query image 85. That is, in the feature amount calculation step (S46), in the feature point detection step (S46), an edge is extracted from the specific category query image 85 to generate an edge image, and a plurality of feature points are detected from the edge image. In the local feature amount extraction step (S47), the SIFT feature amount is extracted at each feature point. In the binary conversion step (S48), SIFT features are converted into binary code.

参照画像検索ステップ(S42)において、参照画像選択ステップ(S50)では、データベースに記録されている多数の参照画像から、特定カテゴリクエリ画像85に対応する参照画像を選択する。即ち、検索画像の各特徴点のバイナリコードと、データベースに記録されている全参照画像の全特徴点のバイナリコードとを比較し、ハミング距離が最も近い参照画像の特徴点を、当該特定カテゴリクエリ画像85の特徴点に対応する特徴点として選択する。そして、全参照画像の内、特定カテゴリクエリ画像85の特徴点に対応する特徴点の数が最も多い参照画像を、特定カテゴリクエリ画像85に対応する参照画像として選択する。 In the reference image search step (S42), in the reference image selection step (S50), a reference image corresponding to the specific category query image 85 is selected from a large number of reference images recorded in the database. That is, the binary code of each feature point of the search image is compared with the binary code of all the feature points of all the reference images recorded in the database, and the feature points of the reference image having the closest Hamming distance are subjected to the specific category query. It is selected as a feature point corresponding to the feature point of the image 85. Then, among all the reference images, the reference image having the largest number of feature points corresponding to the feature points of the specific category query image 85 is selected as the reference image corresponding to the specific category query image 85.

本実施形態の画像検索システム及び画像検索方法は以下の効果を奏する。
本実施形態の画像検索システム及び画像検索方法では、縮小されたクエリ画像81に基づき、深層畳込ニューラルネットワークを用いてクエリ画像81の各位置において特定のカテゴリに属する物体が存在する可能性を示す注目度を表す注目度画像83を生成している。そして、縮小前のクエリ画像81と同じサイズに拡大した注目度画像83に基づいて、クエリ画像81において特定のカテゴリに属する物体の存在する可能性の高い興味領域Dを生成し、クエリ画像81から当該興味領域Dに対応する領域D´を特定カテゴリクエリ画像85として切り出し、当該特定カテゴリクエリ画像85に基づいて参照画像の検索を行っている。このため、クエリ画像81よりも小さなサイズの特定カテゴリクエリ画像85に基づいて、参照画像の検索処理を行うこととなるため、画像検索を高速で行うことが可能となっている。さらに、縮小されたサイズの小さなクエリ画像81に基づいて、注目度画像83の生成を行っているため、深層畳込ニューラルネットワークを用いた注目度画像83の生成処理を高速で行うことができ、画像検索をさらに高速で行うことが可能となっている。なお、特定カテゴリクエリ画像85のサイズはクエリ画像81のサイズよりも小さくなっているが、特定カテゴリクエリ画像85はクエリ画像81から切り出されて生成されており、特定カテゴリクエリ画像85の解像度はクエリ画像81の解像度から低下しているわけではない。このため、クエリ画像81をそのまま用いて画像検索を行った場合と同程度の検索精度が実現されている。
The image search system and the image search method of the present embodiment have the following effects.
In the image search system and the image search method of the present embodiment, based on the reduced query image 81, an object belonging to a specific category may exist at each position of the query image 81 by using a deep convolution neural network. The attention level image 83 showing the attention level is generated. Then, based on the attention level image 83 enlarged to the same size as the query image 81 before reduction, an interest region D in which an object belonging to a specific category is likely to exist in the query image 81 is generated, and the query image 81 is used. The area D'corresponding to the area of interest D is cut out as the specific category query image 85, and the reference image is searched based on the specific category query image 85. Therefore, since the reference image search process is performed based on the specific category query image 85 having a size smaller than that of the query image 81, the image search can be performed at high speed. Further, since the attention level image 83 is generated based on the reduced size query image 81, the attention level image 83 can be generated at high speed using the deep convolution neural network. Image search can be performed at even higher speeds. Although the size of the specific category query image 85 is smaller than the size of the query image 81, the specific category query image 85 is cut out from the query image 81 and generated, and the resolution of the specific category query image 85 is a query. It is not reduced from the resolution of image 81. Therefore, the same level of search accuracy as when the image search is performed using the query image 81 as it is is realized.

本実施形態では、縮小したクエリ画像に基づいて注目度画像を生成しているが、充分な演算能力を有するコンピュータを用いる場合には、クエリ画像を縮小することなく、クエリ画像をそのまま用いて、注目度画像の生成を行うようにしてもよい。 In the present embodiment, the attention level image is generated based on the reduced query image, but when a computer having sufficient computing power is used, the query image is used as it is without reducing the query image. The attention degree image may be generated.

また、本実施形態では、縮小されたクエリ画像から注目度画像を生成し、注目度画像を拡大した後に拡大した注目度画像から興味領域を生成し、クエリ画像から興味領域に対応する領域を切り出して、特定カテゴリクエリ画像を生成している。しかしながら、注目度画像を拡大する前に興味領域を生成し、クエリ画像の縮小率に基づいて興味領域を拡大して、クエリ画像から拡大した興味領域に対応する領域を切り出し、特定カテゴリクエリ画像を生成するようにしてもよい。 Further, in the present embodiment, the attention level image is generated from the reduced query image, the interest level image is generated from the enlarged attention level image after the attention level image is enlarged, and the area corresponding to the interest area is cut out from the query image. And generate a specific category query image. However, the area of interest is generated before the attention level image is enlarged, the area of interest is expanded based on the reduction ratio of the query image, the area corresponding to the expanded area of interest is cut out from the query image, and the specific category query image is obtained. It may be generated.

図6を参照し、本発明の第2実施形態について説明する。
図6に示されるように、本実施形態の画像検索方法において、興味領域生成ステップ(S60)では、注目領域抽出ステップ(S61)は第1実施形態と同様である。注目領域選択ステップ(S62)では、注目領域抽出ステップ(S61)で抽出された1つ以上の注目領域a,b,cの内、最大の面積を有する注目領域aを選択する。また、興味領域設定ステップ(S63)は第1実施形態と同様である。
A second embodiment of the present invention will be described with reference to FIG.
As shown in FIG. 6, in the image search method of the present embodiment, in the interest region generation step (S60), the attention region extraction step (S61) is the same as that of the first embodiment. In the attention area selection step (S62), the attention area a having the largest area is selected from the one or more attention areas a, b, and c extracted in the attention area extraction step (S61). Further, the area of interest setting step (S63) is the same as that of the first embodiment.

図7を参照し、本発明の第3実施形態について説明する。
図7に示されるように、本実施形態の画像検索方法において、興味領域生成ステップ(S65)では、注目領域抽出ステップ(S66)は第1実施形態と同様である。注目領域選択ステップ(S67)では、注目領域抽出ステップ(S66)で抽出された1つ以上の注目領域a,b,cの内、所定の閾値以上の面積を有する注目領域a,bを選択する。また、興味領域設定ステップ(S68)は第1実施形態と同様である。
A third embodiment of the present invention will be described with reference to FIG. 7.
As shown in FIG. 7, in the image search method of the present embodiment, in the interest region generation step (S65), the attention region extraction step (S66) is the same as that of the first embodiment. In the attention area selection step (S67), among the one or more attention areas a, b, c extracted in the attention area extraction step (S66), the attention areas a and b having an area equal to or larger than a predetermined threshold value are selected. .. Further, the area of interest setting step (S68) is the same as that of the first embodiment.

15 クエリ画像縮小部
20 注目度画像生成部
40 興味領域生成部
41 注目領域抽出部
42 注目領域選択部
43 興味領域設定部
45 特定カテゴリクエリ画像生成部
52 参照画像検索部
81 クエリ画像
83 注目度画像
85 特定カテゴリクエリ画像
a,b,c 注目領域
D 興味領域
15 Query image reduction unit 20 Attention image generation unit 40 Interest area generation unit 41 Interest area extraction unit 42 Interest area selection unit 43 Interest area setting unit 45 Specific category query image generation unit 52 Reference image search unit 81 Query image 83 Attention image 85 Specific category query image a, b, c Area of interest D Area of interest

Claims (8)

クエリ画像から前記クエリ画像の各位置において特定のカテゴリに属する物体が存在する可能性を示す注目度を表す注目度画像を生成する注目度画像生成部と、
前記注目度画像から前記注目度に基づいて興味領域を生成する興味領域生成部と、
前記クエリ画像から前記興味領域に対応する領域を切り出して特定カテゴリクエリ画像を生成する特定カテゴリクエリ画像生成部と、
複数の参照画像が記録されているデータベースから前記特定カテゴリクエリ画像に対応する参照画像を検索する参照画像検索部と、
を有し、
前記注目度画像生成部は、前記特定のカテゴリを含む複数のカテゴリに属する物体が撮影された画像を用いて学習した深層畳み込みニューラルネットワークを用いる、
画像検索システム。
An attention level image generation unit that generates a attention level image indicating the degree of attention indicating the possibility that an object belonging to a specific category exists at each position of the query image from the query image.
An interest region generation unit that generates an interest region based on the attention degree image from the attention degree image,
A specific category query image generation unit that generates a specific category query image by cutting out an area corresponding to the area of interest from the query image.
A reference image search unit that searches for a reference image corresponding to the specific category query image from a database in which a plurality of reference images are recorded, and
Have a,
The attention level image generation unit uses a deep convolutional neural network learned by using images taken of objects belonging to a plurality of categories including the specific category.
Image search system.
前記画像検索システムは、前記クエリ画像のサイズを縮小するクエリ画像縮小部をさらに有し、
前記注目度画像生成部は、前記クエリ画像縮小部によって縮小された前記クエリ画像から前記注目度画像を生成する、
請求項1に記載の画像検索システム。
The image search system further includes a query image reduction unit that reduces the size of the query image.
The attention level image generation unit generates the attention level image from the query image reduced by the query image reduction unit.
The image search system according to claim 1.
前記興味領域生成部は、
前記注目度画像から前記注目度が所定の閾値以上である1つ以上の注目領域を抽出する注目領域抽出部と、
前記注目領域抽出部によって抽出された1つ以上の注目領域から1つ以上の注目領域を選択する注目領域選択部と、
前記注目領域選択部によって選択された全ての注目領域に外接する長方形状の領域を興味領域として設定する興味領域設定部と、
を備える、
請求項1に記載の画像検索システム。
The area of interest generation unit
An attention region extraction unit that extracts one or more attention regions whose attention degree is equal to or higher than a predetermined threshold value from the attention degree image.
A region of interest selection unit that selects one or more regions of interest from one or more regions of interest extracted by the region of interest.
An interest area setting unit that sets a rectangular area circumscribing all the attention areas selected by the attention area selection unit as an interest area, and an interest area setting unit.
To prepare
The image search system according to claim 1.
前記注目領域選択部は、前記注目領域抽出部によって抽出された全ての注目領域を選択する、
請求項に記載の画像検索システム。
The attention region selection unit selects all the attention regions extracted by the attention region extraction unit.
The image search system according to claim 3 .
前記注目領域選択部は、前記注目領域抽出部によって抽出された1つ以上の注目領域の内、最大の面積を有する注目領域を選択する、
請求項に記載の画像検索システム。
The attention region selection unit selects the attention region having the largest area among one or more attention regions extracted by the attention region extraction unit.
The image search system according to claim 3 .
前記注目領域選択部は、前記注目領域抽出部によって抽出された1つ以上の注目領域の内、所定の閾値以上の面積を有する注目領域を選択する、
請求項に記載の画像検索システム。
The attention region selection unit selects an attention region having an area equal to or larger than a predetermined threshold value among one or more attention regions extracted by the attention region extraction unit.
The image search system according to claim 3 .
クエリ画像から前記クエリ画像の各位置において特定のカテゴリに属する物体が存在する可能性を示す注目度を表す注目度画像を生成する注目度画像生成ステップと、
前記注目度画像から前記注目度に基づいて興味領域を生成する興味領域生成ステップと、
前記クエリ画像から前記興味領域に対応する領域を切り出して特定カテゴリクエリ画像を生成する特定カテゴリクエリ画像生成ステップと、
複数の参照画像が記録されているデータベースから前記特定カテゴリクエリ画像に対応
する参照画像を検索する参照画像検索ステップと、
を有し、
前記注目度画像生成ステップは、前記特定のカテゴリを含む複数のカテゴリに属する物体が撮影された画像を用いて学習した深層畳み込みニューラルネットワークを用いる、
画像検索方法。
A attention level image generation step of generating a attention level image indicating a degree of attention indicating the possibility that an object belonging to a specific category exists at each position of the query image from the query image.
An interest region generation step of generating an interest region from the attention level image based on the attention level,
A specific category query image generation step of cutting out an area corresponding to the area of interest from the query image to generate a specific category query image, and
A reference image search step for searching a reference image corresponding to the specific category query image from a database in which a plurality of reference images are recorded, and
Have a,
The attention level image generation step uses a deep convolutional neural network learned using images taken of objects belonging to a plurality of categories including the specific category.
Image search method.
コンピュータに、
クエリ画像から前記クエリ画像の各位置において特定のカテゴリに属する物体が存在する可能性を示す注目度を表す注目度画像を生成する注目度画像生成機能と、
前記注目度画像から前記注目度に基づいて興味領域を生成する興味領域生成機能と、
前記クエリ画像から前記興味領域に対応する領域を切り出して特定カテゴリクエリ画像を生成する特定カテゴリクエリ画像生成機能と、
複数の参照画像が記録されているデータベースから前記特定カテゴリクエリ画像に対応する参照画像を検索する参照画像検索機能と、
を実現させ
前記注目度画像生成機能は、前記特定のカテゴリを含む複数のカテゴリに属する物体が撮影された画像を用いて学習した深層畳み込みニューラルネットワークを用いる、
画像検索プログラム。
On the computer
An attention level image generation function that generates a attention level image indicating the degree of attention indicating the possibility that an object belonging to a specific category exists at each position of the query image from the query image.
An interest region generation function that generates an interest region based on the attention level from the attention level image,
A specific category query image generation function that generates a specific category query image by cutting out an area corresponding to the area of interest from the query image, and
A reference image search function that searches for a reference image corresponding to the specific category query image from a database in which a plurality of reference images are recorded, and
Realized ,
The attention level image generation function uses a deep convolutional neural network learned by using images taken of objects belonging to a plurality of categories including the specific category.
Image search program.
JP2017015717A 2017-01-31 2017-01-31 Image search system, image search method and image search program Active JP6778625B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017015717A JP6778625B2 (en) 2017-01-31 2017-01-31 Image search system, image search method and image search program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017015717A JP6778625B2 (en) 2017-01-31 2017-01-31 Image search system, image search method and image search program

Publications (2)

Publication Number Publication Date
JP2018124740A JP2018124740A (en) 2018-08-09
JP6778625B2 true JP6778625B2 (en) 2020-11-04

Family

ID=63109001

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017015717A Active JP6778625B2 (en) 2017-01-31 2017-01-31 Image search system, image search method and image search program

Country Status (1)

Country Link
JP (1) JP6778625B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220075815A1 (en) * 2018-11-13 2022-03-10 Semiconductor Energy Laboratory Co.Ltd. Image retrieval system and image retrieval method
CN110223279B (en) * 2019-05-31 2021-10-08 上海商汤智能科技有限公司 Image processing method and device and electronic equipment

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5202148B2 (en) * 2008-07-15 2013-06-05 キヤノン株式会社 Image processing apparatus, image processing method, and computer program
JP2012226429A (en) * 2011-04-15 2012-11-15 Takashi Toriu Image retrieval and recognition system
JP5894492B2 (en) * 2012-04-19 2016-03-30 日本放送協会 Image processing apparatus, image search apparatus, and program
JP6402653B2 (en) * 2015-03-05 2018-10-10 オムロン株式会社 Object recognition device, object recognition method, and program
CN106296638A (en) * 2015-06-04 2017-01-04 欧姆龙株式会社 Significance information acquisition device and significance information acquisition method

Also Published As

Publication number Publication date
JP2018124740A (en) 2018-08-09

Similar Documents

Publication Publication Date Title
US11416710B2 (en) Feature representation device, feature representation method, and program
JP4545641B2 (en) Similar image retrieval method, similar image retrieval system, similar image retrieval program, and recording medium
CN111062871B (en) Image processing method and device, computer equipment and readable storage medium
CN109583483B (en) Target detection method and system based on convolutional neural network
JP5782404B2 (en) Image quality evaluation
US7215828B2 (en) Method and system for determining image orientation
CN105760488B (en) Image expression method and device based on multi-level feature fusion
CN111738055B (en) Multi-category text detection system and bill form detection method based on same
CN115171165A (en) Pedestrian re-identification method and device with global features and step-type local features fused
WO2012046426A1 (en) Object detection device, object detection method, and object detection program
CN116721301B (en) Training method, classifying method, device and storage medium for target scene classifying model
CN111079648A (en) Data set cleaning method and device and electronic system
CN112580480A (en) Hyperspectral remote sensing image classification method and device
CN111179270A (en) Image co-segmentation method and device based on attention mechanism
CN111461196B (en) Rapid robust image identification tracking method and device based on structural features
JP2001043368A5 (en)
JP6778625B2 (en) Image search system, image search method and image search program
CN113298871A (en) Map generation method, positioning method, system thereof, and computer-readable storage medium
CN110210572B (en) Image classification method, device, storage medium and equipment
CN115311550B (en) Remote sensing image semantic change detection method and device, electronic equipment and storage medium
CN114220078A (en) Target re-identification method and device and computer readable storage medium
CN115129915A (en) Repeated image retrieval method, device, equipment and storage medium
CN112632315A (en) Method and device for retrieving remote sensing image
JP7439953B2 (en) Learning device, processing device, learning method, processing method and program
CN111340090B (en) Image feature comparison method and device, equipment and computer readable storage medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190326

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200304

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200407

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200521

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201006

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201012

R150 Certificate of patent or registration of utility model

Ref document number: 6778625

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250