JP6615225B2 - 画像処理装置、画像検索インタフェース表示装置、及び画像検索インタフェースの表示方法 - Google Patents

画像処理装置、画像検索インタフェース表示装置、及び画像検索インタフェースの表示方法 Download PDF

Info

Publication number
JP6615225B2
JP6615225B2 JP2017555943A JP2017555943A JP6615225B2 JP 6615225 B2 JP6615225 B2 JP 6615225B2 JP 2017555943 A JP2017555943 A JP 2017555943A JP 2017555943 A JP2017555943 A JP 2017555943A JP 6615225 B2 JP6615225 B2 JP 6615225B2
Authority
JP
Japan
Prior art keywords
image
search
query
information
processing apparatus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017555943A
Other languages
English (en)
Other versions
JPWO2017104043A1 (ja
Inventor
裕樹 渡邉
健一 森田
敦 廣池
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Publication of JPWO2017104043A1 publication Critical patent/JPWO2017104043A1/ja
Application granted granted Critical
Publication of JP6615225B2 publication Critical patent/JP6615225B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5838Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5854Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using shape and object relationship
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9038Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/768Arrangements for image or video recognition or understanding using pattern recognition or machine learning using context analysis, e.g. recognition aided by known co-occurring patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content

Description

本発明は、画像処理装置、画像検索インタフェース表示装置、及び画像検索インタフェースの表示方法に関する。
テレビ映像のデジタルアーカイブ化やインターネット上の動画配信サービスの普及により、大規模な画像データを高速に検索及び分類する必要性が増加している。また、セキュリティ向けに蓄積された監視画像の解析に対する期待が高まっている。これらの膨大な画像に対して人手でテキスト情報を付与することが困難なことから、画像中の特徴量を用いた画像検索技術が求められている。
大規模かつ高速な類似画像検索システムが実用化されつつある。例えば、事前に画像特徴量を抽出してデータベースを構築し、クエリ画像に見た目の類似する画像を高速に探し出す技術が提案されている。また、画像中の物体を含む領域を検出する画像処理技術と組み合わせることで、画像中の物体に着目した詳細な類似画像検索が可能となる。
本技術分野の背景技術として、特許文献1がある。特許文献1には、「検索したい画像に含まれるオブジェクトの名称をキーワードとして入力し、そのオブジェクトをレイアウト配置したクエリ画像を生成し画像検索する。」と記載されている(要約参照)。
特許文献1に記載のシステムは、ユーザが指定した複数のキーワードから物体の画像サンプルを取得し、物体の平均的な大きさ及び位置に従って自動的にレイアウトを作成し、当該レイアウトに従って合成された画像を用いて類似画像検索を行う。
特開2011−197892号公報
特許文献1に記載のシステムにおいては、ユーザが、多数の物体の情報(キーワード)を入力する必要がある。ここで、特許文献1に記載のシステムでは、複数の物体の情報を入力したとしても、複数の物体間の関係性を考慮した検索クエリとならないため、検索精度が低下する可能性がある。
そこで、本発明は、複数の物体間の関係性を考慮した検索クエリの作成を支援する技術を提供する。
例えば、上記課題を解決するために、請求の範囲に記載の構成を採用する。本願は上記課題を解決する手段を複数含んでいるが、その一例をあげるならば、プロセッサと、前記プロセッサに接続され、画像データベースを記憶する記憶部と、前記プロセッサに接続される表示部とを備える画像処理装置が提供される。前記プロセッサは、前記表示部を介して第1のオブジェクトの入力を受け付けると、前記表示部での前記第1のオブジェクトの配置情報を取得し、前記第1のオブジェクトと前記第1のオブジェクトの前記配置情報とを用いて、前記画像データベースに基づく前記第1のオブジェクトとの相関関係を示す第1の共起情報を取得し、前記第1の共起情報に基づく第2のオブジェクトの候補を前記表示部へ出力する。
また、他の例として、プロセッサと、前記プロセッサに接続され、クエリ入力領域を有する画像検索インタフェースを表示する表示部とを備える画像検索インタフェース表示装置が提供される。前記プロセッサは、前記クエリ入力領域に第1のオブジェクトが入力されると、第2のオブジェクトの候補を前記画像検索インタフェースに表示し、前記第2のオブジェクトが選択されると、前記第2のオブジェクトを前記クエリ入力領域に表示する。
また、他の例として、プロセッサと、前記プロセッサに接続され、画像データベースを記憶する記憶部と、前記プロセッサに接続される表示部とを備える情報処理装置における画像検索インタフェースの表示方法が提供される。当該画像検索インタフェースの表示方法は、前記プロセッサが、前記表示部を介して第1のオブジェクトの入力を受け付けると、前記表示部での前記第1のオブジェクトの配置情報を取得するステップと、前記プロセッサが、前記第1のオブジェクトと前記第1のオブジェクトの前記配置情報とを用いて、前記画像データベースに基づく前記第1のオブジェクトとの相関関係を示す第1の共起情報を取得するステップと、前記プロセッサが、前記第1の共起情報に基づく第2のオブジェクトの候補を前記表示部へ出力するステップとを含む。
本発明によれば、複数の物体間の関係性を考慮した検索クエリの作成を支援することができる。なお、本発明に関連する更なる特徴は、本明細書の記述、添付図面から明らかになるものである。また、上記した以外の、課題、構成及び効果は、以下の実施例の説明により明らかにされる。
実施例1における画像検索システムの構成例を示すブロック図である。 実施例1における画像検索システムのハードウェア構成例を示すブロック図である。 実施例1における画像データベースの構造例を示す図である。 実施例1における画像データベースの構造例を示す図である。 実施例1における、画像中の物体の配置情報の第1の例を示す図である。 実施例1における、画像中の物体の配置情報の第2の例を示す図である。 実施例1における、データベース登録処理のフローチャートの一例である。 実施例1において、共起情報を用いたクエリ入力支援および画像検索の例を説明する図である。 実施例1において、共起情報生成の例を説明する図である。 実施例1における、共起情報を用いたクエリ入力支援および画像検索の処理のフローチャートの一例である。 実施例1における、共起情報生成の処理のフローチャートの一例である。 実施例1において、画像検索の処理のフローチャートの一例である。 実施例1における画像検索インタフェースの一例を示す図である。 実施例1における画像検索インタフェースの一例を示す図であり、物体の配置を変更したときの画像検索インタフェースを示す。 実施例1におけるシステム全体の処理のシーケンス図の一例である。 実施例2における、検索結果で得られた画像に対する補正処理を説明するための図である。 実施例2における、共起情報生成の処理のフローチャートの一例である。
以下、添付図面を参照して本発明の実施例について説明する。なお、添付図面は本発明の原理に則った具体的な実施例を示しているが、これらは本発明の理解のためのものであり、決して本発明を限定的に解釈するために用いられるものではない。なお、各図において共通の構成については同一の参照符号が付されている場合がある。
<実施例の概要>
以下で説明する画像検索装置は、画像中の物体に着目した類似画像検索を行う装置である。画像検索装置は、新規の登録対象の画像から物体を検出し、検出した物体の特徴量を抽出し、カテゴリを推定する。データベースには、画像と共に、物体の配置情報と特徴量が蓄積される。検索時には、入力された第一クエリ(物体の画像とその配置情報)を条件にして、自動的に画像検索を行う。得られた検索結果から、第一クエリを含む画像に含まれる、他の物体の情報をデータベースから取得し、第一クエリの物体との共起情報を求める。画像における物体の共起性とは、物体Aと物体Bが画像中に同時に存在する確率を表す。以下の例では、画像における物体の共起性は、物体Aが画像中のある領域Xに存在したときの物体Bの出現確率を領域ごとに表すものとする。
画像検索装置は、求めた共起情報を用いて、第二クエリ(物体及びその配置情報)の候補をユーザに提示する。ユーザは、提示された候補の中から所望の物体を選択するだけで、検索クエリを詳細化することができる。この繰り返し操作の結果得られた検索クエリは、もっともらしい物体の組み合わせ及びそれらの配置となっているため、画像検索の精度が上がる。
[実施例1]
図1は、実施例1の画像検索システム100の構成例を示すブロック図である。画像検索システム100は、物体の共起情報を用いたクエリ入力支援のユーザインタフェースを備える。この構成によれば、画像中の物体に着目した画像検索を効率的に実行することができる。
画像検索システム100は、例えば、画像記憶装置101と、入力装置102と、表示装置103と、画像検索装置104とを含む。画像記憶装置101は、静止画データ又は動画データを保存する記憶媒体であり、例えば、コンピュータ内蔵のハードディスクドライブ、又は、NAS(Network Attached Storage)もしくはSAN(Storage Area Network)などのネットワークで接続されたストレージシステムを用いて構成される。また、画像記憶装置101は、例えば、カメラから継続的に入力される画像データを一時的に保持するキャッシュメモリであってもよい。
入力装置102は、例えば、マウス、キーボード、タッチデバイスなどの、ユーザの操作を画像検索装置104に伝えるための入力インタフェースである。表示装置103は、例えば、液晶ディスプレイなどの出力インタフェースであり、画像検索装置104の検索結果の表示、及び、ユーザとの対話的操作などのために用いられる。
画像検索装置104は、検索に必要な情報を抽出し、データベースへの登録処理を行う。登録処理は、画像記憶装置101に蓄積された画像から物体領域を検出することと、検出した各領域について画像特徴量の抽出することと、物体のカテゴリを推定することと、これらの情報を画像データベース109に登録することとを含む。
また、画像検索装置104は、ユーザが入力装置102から指定した検索クエリを用いて画像データベース109から検索クエリに合致する画像を検索し、検索結果を表示装置103に表示するための検索処理を行う。
検索処理において、ユーザはクエリを指定する。クエリは、物体及び物体の配置情報を含む。ユーザは、例えば、表示装置103に表示されたキャンバス上に、物体の配置情報を指定し、物体の名称又は画像を入力する。配置情報は、物体の大きさ及び位置情報(以下の例では、座標)を含む。画像検索装置104は、画像データベース109に蓄積されたデータから、入力された物体の共起情報を生成し、ユーザが次に入力する可能性の高い物体を推定し、表示装置103に候補を表示する。ユーザは提示された候補から選択することで、何度も物体の画像及び配置情報を入力することなく、複数の物体を指定した検索クエリを作成することができる。画像検索装置104は、作成された検索クエリを用いて画像検索を実行し、検索結果を表示装置103に表示する。
画像検索装置104は、画像入力部105と、物体検出部106と、特徴量抽出部107と、カテゴリ推定部108と、画像データベース109と、クエリ入力部110と、共起情報生成部111と、クエリ候補推定部112と、画像検索部113とを含む。画像入力部105と、物体検出部106と、特徴量抽出部107と、カテゴリ推定部108は、上記の登録処理を実行するための処理モジュールである。クエリ入力部110と、共起情報生成部111と、クエリ候補推定部112と、画像検索部113は、上記の検索処理を実行するための処理モジュールである。
画像入力部105は、画像記憶装置101から、静止画データ又は動画データの入力を受け付け、入力されたデータのデータ形式に応じて、入力されたデータを画像検索装置104内部で使用するデータ形式に変換する。例えば、動画データの入力を受け付けた場合、画像入力部105は、フレーム(静止画データ形式)に分解する動画デコード処理を行う。
物体検出部106は、入力された画像から物体が含まれる部分領域を検出する。物体検出処理は、公知の手法を用いることができる。例えば、物体検出部106は、特定のカテゴリの物体にのみ反応する識別器を用いて、画像中をスキャンすることで領域を検出してもよい。また、物体検出部106は、局所的な色及び形状の特徴を用いて、領域セグメンテーションを行うことで、任意の物体が含まれる可能性の高い領域の候補を検出してもよい。なお、「物体(オブジェクト)」は、定形のものだけでなく、例えば、「空」、「海」、「森」などの非定形のものも含んでよい。本システムでは、物体検出処理により、例えば一枚の画像から数個〜数十個の物体領域が検出される。検出結果の情報は、例えば、領域の中心の水平座標、垂直座標、領域の幅、高さの4値で表現される。物体検出部106は、検出結果の情報を、画像データベース109に登録する。
特徴量抽出部107は、入力画像全体及び入力画像から検出された物体領域から、画像特徴量を抽出する。画像特徴量は、画像の色、形状、テクスチャなどの特徴を示す画像間で比較可能な値である。画像特徴量は、例えば、固定長のベクトルで表現される。画像特徴量としては、画像間で比較可能な情報であればよく、公知の様々な情報が採用されてよい。特徴量抽出部107は、得られた画像特徴量を、画像データベース109に登録する。
特徴量抽出部107は、例えば、画像データベース109に画像特徴量を登録する際に、高速検索を目的として、データのクラスタリング処理を行ってもよい。特徴量抽出部107は、例えば、k−meansアルゴリズムなどのクラスタリング処理によって、類似度の高い特徴量を有する1以上の登録データからなるクラスタを生成する。類似度は、同種の2つの特徴量間の類似性を示す指標であり、例えば、値域が[0,1]の所定の減少関数に2つの特徴量間の距離を代入することにより得られる。なお、類似度の算出に関しては、公知の様々な手法を採用してもよい。
画像データベース109は、例えば、クラスタの代表値(例えばクラスタメンバの平均ベクトル)とクラスタメンバのIDを記録する。画像検索装置104は、検索時において、例えば、検索クエリの特徴量とクラスタの代表値とを比較し、類似度の高いクラスタに対してのみ、検索クエリと当該クラスタのメンバとの間で特徴量比較を行う。これにより、処理回数を削減し、高速に探索することができる。
カテゴリ推定部108は、物体検出部106で検出された部分領域のカテゴリ又は物体名称を推定する。カテゴリ推定部108は、例えば、機械学習によって生成された画像カテゴリ分類器を備える。カテゴリ推定部108は、画像カテゴリ分類器に、特徴量抽出部107で抽出された特徴量を入力することにより、カテゴリを出力する。物体検出処理において、特定カテゴリの識別器を用いた場合は、識別器のカテゴリをそのまま用いても良い。カテゴリ推定部108は、得られた物体のカテゴリ又は名称を、画像データベース109に登録する。
画像データベース109は、以上の処理で得られた、画像データ、物体検出結果、物体の画像特徴量、及び物体のカテゴリなどを保持する。画像データベース109は、特徴量を保存しているため、後述する共起情報生成部111及び画像検索部113は、その特徴量を用いた類似画像検索行うことができる。
画像検索装置104における類似画像検索は、クエリと特徴量が近い順にデータを並び替えて出力する機能である。画像検索部113は、例えば、ベクトル間のユークリッド距離を用いて特徴量を比較する。また、類似画像検索では、条件に一致するデータのみを検索対象とすることができる。例えば、物体の座標を条件として、探索範囲を絞り込むことができる。画像データベース109の構造について、詳しくは図3を用いて後述する。
以上が、画像検索装置104の登録処理における各部の動作である。次に、画像検索装置104の検索処理における各部の動作を説明する。
クエリ入力部110は、ユーザが入力装置102を介して指定したクエリを受け付ける。画像検索装置104では、クエリは、物体の画像及び配置情報(物体の大きさ及び座標)で与えられる。また、画像検索装置104の内部に、キーワード又は音声と画像とを関連付けた変換テーブルを保持してもよく、クエリ入力部110は、クエリとしてキーワード又は音声を受け付けるように構成されてもよい。さらに、よく使用される物体に関しては、テンプレートとして保持しておき、ユーザインタフェース上でリスト表示されたテンプレートからユーザに選択させるようにしてもよい。
共起情報生成部111は、入力された物体と配置情報から、その物体と他の物体との共起情報を生成する。共起情報とは、ある物体Aが画像中に現れた時に、他の物体Bが画像中に出現する確率を表す情報である。画像に関する共起情報は、他の物体Bが画像中のどの領域に出現するか可能性が高いか、という空間情報を含む。例えば画像中の座標に関しては、画像を格子状に分割し、物体Aがある領域に指定されたときに、各領域について物体Bが含まれる確率を求める。共起情報には、物体の奥行き及びサイズなどの情報を含めてもよい。共起情報生成部111は、画像データベース109に蓄積された物体情報を用いて共起情報を生成する。共起情報の生成に関しては図7を用いて詳しく後述する。
クエリ候補推定部112は、生成された共起情報を用いて、ユーザが次に入力する可能性の高いクエリの候補を表示装置103に表示する。クエリ候補推定部112は、ユーザが第一クエリを入力した後に、共起性の高い物体とその位置を、表示装置103上のユーザインタフェース上に描画してもよい。別の例として、クエリ候補推定部112は、ユーザが第二クエリの場所を指定した後に、その場所に関して共起性の高い物体(例えば、出現確率が高い物体)を、出現確率が高い順にリスト表示してもよい。また、別の例として、クエリ候補推定部112は、ユーザが物体名を指定した場合に、その物体の配置の候補を表示するようにしてもよい。
以上のクエリ入力処理を繰り返し行うことで、複数の物体とそれらの配置を条件とする検索クエリが得られる。画像検索部113は、この検索クエリに該当する画像を画像データベース109から検索する。検索処理の詳細については、図10の説明として後述する。検索結果は、画像データベース109に登録された画像のIDと、クエリとの類似度のペアを、類似度が高い順にソートしたリストとして出力される。画像検索部113は、以上の検索処理によって得られた検索結果を、表示装置103のユーザインタフェース上に表示することにより検索結果をユーザに提示する。
図2は、本実施例の画像検索システム100のハードウェア構成例を示すブロック図である。画像検索装置104は、例えば、一般的な計算機によって実現される。例えば、画像検索装置104を構成する計算機は、相互に接続されたプロセッサ201及び記憶装置202を有してもよい。記憶装置202は、任意の種類の記憶媒体によって構成される。例えば、記憶装置202は、半導体メモリと、ハードディスクドライブとの組み合わせによって構成されてもよい。入力装置102及び表示装置103は、プロセッサ201に接続され、当該計算機での入出力操作が可能である。
なお、画像入力部105、物体検出部106、特徴量抽出部107、カテゴリ推定部108、クエリ入力部110、共起情報生成部111、クエリ候補推定部112、及び画像検索部113といった機能モジュールは、例えば、プロセッサ201が記憶装置202に格納された処理プログラム203を実行することによって実現される。言い換えると、上記の各機能モジュールを実現するプログラムが処理プログラム203に含まれており、各機能モジュールの処理は、処理プログラム203に基づいて、プロセッサ201によって実行される。したがって、以下の説明において、図1の機能モジュールを主語として処理内容を説明した場合、プロセッサ201を主語とした説明としてもよい。
また、画像データベース109のデータは、例えば記憶装置202に含まれる。処理負荷分散などを目的として、複数のサーバで構成する場合は、画像データベース109と処理プログラム203が実行される装置は、ネットワークで接続された物理的に異なるサーバであってもよい。
画像検索装置104は、さらに、プロセッサ201に接続されたネットワークインターフェース装置(NIF)204を含む。画像記憶装置101は、例えば、ネットワークインターフェース装置204を介して画像検索装置104に接続された、NAS又はSANであってもよい。なお、別の例として、画像記憶装置101は、記憶装置202に含まれてもよい。
図3A及び図3Bは、本実施例の画像データベース109の構成及びデータ例を示す説明図である。なお、本実施形態において、システムが使用する情報は、データ構造に依存せず、どのようなデータ構造で表現されていてもよい。図3A及び図3Bはテーブル形式の例を示しているが、例えば、テーブル、リスト、データベース又はキューから適切に選択したデータ構造体が、情報を格納することができる。
画像データベース109は、例えば、画像情報を保持する画像テーブル300と、物体情報を保持する物体テーブル310とを含む。図3A及び図3Bの各テーブル構成及び各テーブルのフィールド構成は、あくまで一例であり、例えばアプリケーションに応じてテーブル及びフィールドが追加されてもよい。また、同様の情報を保持していれば、テーブル構成を変えてもよい。例えば、画像データベース109は、画像テーブル300と物体テーブル310とが結合された一つのテーブルで構成されてもよい。
画像テーブル300は、例えば、画像IDフィールド301、画像データフィールド302、及び特徴量フィールド303を含む。画像IDフィールド301は、各画像データの識別番号を保持する。画像データフィールド302は、例えば、検索結果を表示する際に用いられる画像データをバイナリで保持する。特徴量フィールド303は、画像から抽出された特徴量を保持する。特徴量は、例えば、固定長のベクトルデータで与えられる。
物体テーブル310は、例えば、物体IDフィールド311、画像IDフィールド312、カテゴリフィールド313、水平座標フィールド314、垂直座標フィールド315、幅フィールド316、高さフィールド317及び特徴量フィールド318を含む。
物体IDフィールド311は、画像から検出された物体の識別番号を保持する。画像IDフィールド312は、物体の検出元の画像のIDを保持する。カテゴリフィールド313は、物体のカテゴリ推定結果を保持する。図3Bでは、カテゴリを文字列で表現しているが、カテゴリフィールド313は、テーブル又はアプリケーション内部で管理する識別番号で保持してもよい。
水平座標フィールド314は、物体の中心座標の水平座標を保持し、垂直座標フィールド315は、物体の中心座標の垂直座標を保持し、幅フィールド316は、物体の幅を保持し、高さフィールド317は、物体の高さを保持する。図3Bの例では、これらのフィールド314〜317は、画像サイズで正規化した値を保持している。水平座標及び幅については、検出元の画像の幅を1とした時の割合を表し、垂直座標及び高さについては、検出元の画像の高さを1とした時の割合を表す。
図4A及び図4Bは、物体検出部106での物体検出の例と正規化された座標を説明するための図である。図4Aは、画像400から物体401、物体402、及び物体403が検出された例を示す。図4Bは、画像410から物体411、及び物体412が検出された例を示す。例えば、物体401は、正規化された中心座標が[0.5,0.3]、幅が0.8、高さが0.4である。
特徴量抽出部107は、物体の領域から特徴量を抽出する。特徴量フィールド318は、物体の領域から抽出された特徴量を保持する。物体の特徴量は、画像全体の特徴量と異なるアルゴリズムで抽出されたものを用いてもよい。
本実施例の画像検索装置104は、登録時に構築された物体情報を用いて共起情報を生成し、共起情報に基づいてユーザのクエリ入力を補助することにより、画像検索を容易に実行することができる。
共起情報の生成に必要な情報を得るために、検索を実行する前に、検索対象の画像データベース109への登録処理を実行しておく必要がある。図3A及び図3Bで説明した画像データベース109の構成例の情報が蓄積されていれば、登録時の手順は任意であっても良いが、例えば、図5の手順を用いることができる。
図5は、データベース登録の処理フローを表す図である。以下、図5の各ステップについて説明する。
画像入力部105は、画像記憶装置101から画像データを取得し、取得した画像データを必要に応じてシステム内部で利用可能な形式に変換する(S501)。画像入力部105は、例えば、動画データの入力を受け付けた場合、動画データをフレーム(静止画データ形式)に分解する動画デコード処理を行う。
特徴量抽出部107は、ステップS501で入力された画像から特徴量を抽出する(S502)。
物体検出部106は、ステップS501で入力された画像から、物体候補領域(以下、単に「物体」という)を検出する(S503)。そして、物体検出部106は、検出された物体の中心座標(水平座標及び垂直座標)、幅、及び高さを、それぞれ、画像の幅、高さで正規化する。物体検出は、前述した通り、識別器を用いたラスタスキャンを用いる手法や、領域セグメンテーションを用いる手法が利用できる。
画像検索装置104は、ステップS503で検出された各物体について、ステップS505からステップS506の処理を繰り返す(S504〜S507のループ)。特徴量抽出部107は、処理対象の物体の領域から画像特徴量を抽出する(S505)。カテゴリ推定部108は、ステップ505で得られた特徴量を用いて物体のカテゴリを推定する(S506)。例えば、カテゴリの推定には、機械学習によって生成されたカテゴリ分類器を用いることができる。この時、カテゴリ推定部108は、どのカテゴリにも該当しない物体を、誤検出と判定して破棄してもよい。
画像検索装置104は、上記の処理によって得られた画像と物体の情報を画像データベース109に登録する(S508)。この時、特徴量について、高速検索を実現するためのデータクラスタリング処理を実施してもよい。
図6は、共起情報に基づくクエリ入力支援を説明するための図である。図6の600は、表示装置103に表示されるクエリ入力画面の遷移を時系列で表し、図6の610は、画像検索装置104内部のデータフローを表す。
表示装置103には、空のキャンバスが表示されている(601)。ユーザは入力装置102を用いてキャンバス上にクエリを配置していく。ユーザは、例えば、マウスカーソル621を操作することで画像検索装置104のクエリ入力部110に情報を伝える。図6の例では、まずユーザが第1の物体(Object_A)の画像をキャンバスの左上に入力する(602)。このとき、クエリ入力部110は、第1の物体(Object_A)の入力を受付けると、第1の物体(Object_A)の配置情報(大きさ及び座標)を取得する。
画像検索装置104の共起情報生成部111は、キャンバス602に入力された第1の物体(Object_A)の画像と配置情報を用いて、画像データベース109から該当する物体の情報を取得する。なお、前述の通り、クエリの入力方法は、テキスト又は音声によるキーワードであってもよい。このとき画像検索方法は例えば、以下の4つが考えられる。
(1)クエリが画像の場合、画像特徴量で検索
(2)クエリが画像の場合、物体カテゴリを推定し、カテゴリを条件として検索
(3)クエリがキーワードの場合、キーワードをカテゴリの条件として検索
(4)クエリがキーワードの場合、変換テーブルを用いて画像に変換し、画像特徴量で検索
上記の画像検索方法を実現するために、共起情報生成部111は、特徴量抽出部107及びカテゴリ推定部108の機能を用いてもよい。これにより、クエリから画像特徴量を抽出したり、カテゴリを推定することができる。
(1)〜(4)のいずれも検索方法についても、検索結果は同様の形式で得られる。すなわち、上記の検索方法により、共起情報生成部111は、図3Bの中のある特定の物体(ここでは、Object_A)を検索することができる。この検索結果を用いて第1の物体(Object_A)が左上に入力された時の、他の物体との共起性を推定する。
図7は、検索結果から共起情報を生成する手順を表す図である。ここでは、共起情報生成部111が、第1の物体(Object_A)の画像をキャンバスの左上に配置した第一クエリを用いて、画像データベース109を検索することを想定する。物体及びその配置情報を含む第一クエリを用いて絞り込み検索を行うと、第一クエリの条件に類似する複数の画像、すなわち、類似の物体が類似の場所に存在する複数の画像が得られる(701)。
共起情報生成部111は、条件付き検索結果701として得られた複数の画像から、これらの画像に含まれる他の物体の配置情報を取得する。そして、共起情報生成部111は、取得した他の物体のカテゴリを、カテゴリごとに集計する(702)。例えば、共起情報生成部111は、画像を複数の領域に分割し、各領域に対して他の物体の出現数をカウントする。この時、複数の領域にまたがって物体が配置されている場合は、その物体の出現数を複数の領域にカウントしてもよい。また、物体の中心座標に近いほど値が大きくなるように重みを付けてカウントしてもよい。
共起情報生成部111は、集計した結果を、例えば全体の出現数で割るなどして正規化することで、共起情報のマップ(以下、共起性マップ)を作成する(703)。共起性マップは、画像データベース109に基づく第1の物体(Object_A)と他の物体との相関関係を表すものである。図7の例では、共起情報生成部111は、画像を9個の領域に分割し、対象のカテゴリの領域毎に出現数(ここでは、正規化した値)を計算する。図7の例では、物体のカテゴリ(Object_B、Object_C、Object_D)ごとに共起性マップが作成されている。共起性マップは、ある物体に関して、他の物体が画像中のどの領域に出現するかを示す空間情報を含めばよく、図7の形式に限定されない。
クエリ候補推定部112は、この共起性マップにおいて、相対的に値の大きいカテゴリ及び位置をクエリ候補(第2の物体の候補)として表示装置103に表示する。また、ユーザから第二クエリの場所が指定された後、クエリ候補推定部112は、その領域に限定して値の高いカテゴリをクエリ候補として提示してもよい。図7の例では、ユーザが第二クエリにおいて点線の領域705を指定したとき、クエリ候補推定部112は、共起性マップの対応する領域において値が大きい物体(Object_B、Object_C)を表示装置103に表示する(704)。
図6の説明に戻り、ユーザが、第二クエリの場所をマウスカーソルによって選択する(603)。クエリ候補推定部112は、上記の処理によって得られた共起性マップを用いて、該当領域に存在する確率の高い物体のカテゴリをクエリ候補リストとしてポップアップ表示する(604)。表示方法は、カテゴリ名でも良いし、画像であってもよい。
ユーザは、ポップアップ表示されたクエリ候補リストに所望の物体があれば、その物体を選択する。クエリ入力部110は、選択された物体を第2の物体(Object_B)としてキャンバスに追加する(605)。クエリ候補リストに所望の物体が見つからなければ、ユーザは、第一クエリと同様に手動で入力してもよい。また、ユーザは、新たな物体をキャンバスに追加した後に、その物体の配置を調整しても良い。なお、クエリ入力部110は、第1の物体(Object_A)又は第2の物体(Object_B)の入力の際に、背景の画像の入力を受付けてもよい。この場合、キャンバスには、背景画像が表示される。物体の入力時に背景の合成を行うことで、類似画像検索の精度を上げることができる。
クエリ入力部110は、第2の物体(Object_B)の入力を受付けると、第2の物体(Object_B)の配置情報(大きさ及び座標)を取得する。共起情報生成部111は、第一クエリ(第1の物体(Object_A)及びその配置情報)と第二クエリ(第2の物体(Object_B)及びその配置情報)を用いて、画像データベース109に基づく第1の物体及び第2の物体の双方との相関関係を示す第2の共起性マップを取得する。クエリ候補推定部112は、第2の共起性マップに基づく第3の物体の候補を表示装置103へ出力する。この構成によれば、第3の物体の候補は、第1の物体及び第2の物体の双方と関係があるものとなり、作成される検索クエリの精度が上がる。
なお、上述の例では、第二クエリが入力された場合、第2の共起性マップは、第1の物体及び第2の物体の双方との相関関係を示すものであるが、これに限定されない。例えば、第2の物体(Object_B)の入力を受付けた後、共起情報生成部111は、第二クエリ(第2の物体(Object_B)及び配置情報)を用いて、画像データベース109に基づく第2の物体との相関関係を示す第2の共起性マップを取得してもよい。この構成によれば、第3の物体の候補としてより多くの物体が提示されることになり、ユーザは多くの候補から適切な第3の物体を選択できる。
上記の操作を繰り返し行うことで、複数の物体とそれらの配置情報を含むキャンバス(検索クエリ)が作成される(606)。ここでは、キャンバス601に第1の物体(Object_A)、第2の物体(Object_B)、第3の物体(Object_C)が配置された検索クエリが得られる。なお、複数のクエリが入力された状態で、次のクエリを推定する場合は、入力済みの全てのクエリを条件として画像検索をしても良いが、条件に一致する画像が十分に見つからず、共起情報を生成出来ない場合がある。そのため、上述したように直前に入力されたクエリのみを使用したり、ユーザが指定したクエリのみを使用してもよい。
画像検索部113は、以上で得られたキャンバスを用いて、類似画像検索を実行し、最終的な検索結果を得る(607)。類似画像検索の一例として、画像検索部113は、キャンバスを複数の物体からなる合成画像と考えて、画像全体の特徴量を抽出し、その特徴量を用いて画像データベース109に対して検索を行ってもよい。また、画像検索部113は、キャンバス上の各クエリ(物体及び配置情報)で検索した後、それらの検索結果を統合してもよい。
図8は、共起情報に基づくクエリ入力支援を用いた画像検索の処理フローを表す図である。以下、図8の各ステップについて説明する。
クエリ入力部110は、ユーザが入力したクエリを受け付ける(S801)。クエリは、物体の画像とその物体の配置を表す情報である。例えば図6の説明で述べたように、クエリは、表示装置103に表示されたキャンバスを用いて入力される。
共起情報生成部111は、ステップS801で入力されたクエリの物体の画像から特徴量を抽出し、画像データベース109から類似画像を検索する(S802)。この時、共起情報生成部111は、ステップS801で入力された物体及びその物体の配置情報を条件として、検索結果を絞り込む。
共起情報生成部111は、ステップS802で得られた類似画像検索結果から、共起情報を生成する(S803)。共起情報の生成処理フローの詳細は、図9の説明として後述する。
クエリ候補推定部112は、ステップS803で得られた共起情報から、ユーザが次に入力するクエリを推定し、表示装置103に表示する(S804)。クエリの推定方法については図7で説明した通りである。
クエリ入力部110は、ステップS804で提示されたクエリ候補からユーザが選択したクエリを受け付ける(S805)。また、クエリ入力部110は、ユーザからクエリの画像及び配置の変更指示を受け付け、それに従い、表示装置103に表示されるクエリを変更してもよい。また、クエリ入力部110は、ユーザが選択又は修正した履歴を記憶装置202に蓄積してもよい。クエリ入力部110は、蓄積された履歴を、次回の候補提示において利用してもよい。例えば、クエリ入力部110は、多数のユーザが選択したクエリ候補を優先的に表示してもよい。
画像検索装置104は、ユーザからクエリ入力完了の通知を受けたら(S806:YES)、クエリ入力を終えてステップS807に移動し、そうでなければ(S806:NO)、ステップS801に戻って次のクエリを受け付ける。
画像検索部113は、ステップS801からステップS805の繰り返しで得られた検索クエリを用いて、画像データベース109から類似画像を検索する。画像検索部113は、複数の物体画像を合成することで得られる画像を用いて画像テーブル300に対して検索しても良いし、各物体画像を用いて物体テーブル310に対して検索した結果を統合してもよい。詳しい処理フローは図10の説明として後述する。
画像検索部113は、検索結果を表示装置103に表示し、検索処理を終了する(S880)。
図9は、画像検索結果から共起情報を生成するための処理フローであり、図8のステップS803に相当する。以下、図9の各ステップについて説明する。
共起情報生成部111は、共起性マップを初期化する(S901)。共起性マップは、図7の703で説明したような領域毎の物体の共起性を表すマップである。共起性マップは物体のカテゴリごとに用意する。
共起情報生成部111は、図8のステップS802で得られた各検索結果に関して、ステップS903からステップ907の処理を繰り返す(S902〜S908のループ)。
共起情報生成部111は、図8のステップS802で得られた各検索結果の画像に含まれる物体の画像ID312を物体テーブル310から取得する(S903)。
共起情報生成部111は、ステップS903で得られた画像ID312に対応する物体データ(ここでは、物体テーブル310のレコード)を画像データベース109から取得する(S904)。
共起情報生成部111は、ステップS904で取得された各物体データについて、ステップS906を繰り返し実行する(S905〜S907のループ)。
共起情報生成部111は、物体データから物体のカテゴリと配置情報を取得し、該当カテゴリの共起性マップを配置情報に従って更新する(S906)。更新方法は、図10の説明として後述するように、例えば、出現場所の1つ以上の領域に対して値を可算していく。
共起情報生成部111は、カテゴリ毎の共起性マップを共起情報として出力する(S909)。必要であれば、共起情報生成部111は、全体の出現頻度等を用いて、共起性マップ内の値を正規化しても良い。
なお、共起性マップの生成は、画像検索、データ取得、データ集計を多数行う必要があり、計算負荷が高い。そのため、システム要件に応じて、データ取得数を制限したり、生成した共起情報をキャッシュしておいたりしてもよい。
図10は、入力された複数の物体を用いて画像検索を行うための処理フローであり、図10のステップS807に相当する。以下、図10の各ステップについて説明する。
画像検索部113は、ユーザから画像全体を用いた検索を実行する指示を受けたら(S1001:YES)、ステップS1002に移動し、そうでなければ(S1001:NO)、ステップS1005に移動する。
画像検索部113は、入力された複数のクエリに従って、1枚の画像(合成画像)を生成する(S1002)。すなわち、画像検索部113は、入力された複数の物体をそれらの配置情報に従って合成し、1枚の画像(合成画像)を生成する。例えば、説明を簡単にするために、図6の605の状態で検索の指示を受けたと想定する。この場合、画像検索部113は、第1の物体(Object_A)及び第2の物体(Object_B)を含む合成画像を作成する。画像検索部113は、必要に応じて、背景画像を合成したり、自然に合成されるような画像処理を加えても良い。
画像検索部113は、ステップS1002で生成された合成画像から特徴量を抽出し、画像テーブル300に対して類似画像を検索する(S1003)。なお、特徴量は、画像データベース109への登録時と同じアルゴリズムで抽出される。
画像検索部113は、ユーザから物体ごとの検索を実行する指示を受けたら(S1004:YES)、ステップS1005に移動し、そうでなければ(S1004:NO)、ステップS1009に移動する。
画像検索部113は、入力された複数のクエリに含まれる各物体に対してステップS1006を実行する(1005)。
画像検索部113は、各物体の画像から特徴量を抽出し、物体テーブル310に対して配置情報を条件にした類似画像検索を実行する(1006)。例えば、説明を簡単にするために、図6の605の状態で検索の指示を受けたと想定する。この場合、画像検索部113は、第一クエリ(第1の物体(Object_A)及びその配置情報)を用いて類似画像検索を実行し、その後、第二クエリ(第2の物体(Object_B)及びその配置情報)を用いて類似画像検索を実行する。このとき、画像検索部113は、第一クエリの検索結果と第二クエリの検索結果を統合する。統合方法の一例として、同一画像IDの複数の検索結果の類似度を可算してもよい。
なお、画像検索時の特徴量は、画像データベース109への登録時と同じアルゴリズムで抽出する。物体テーブル310に対する検索結果は、物体データ(物体テーブル310のレコード単位)で得られる。したがって、画像検索部113は、物体テーブル310の各レコードの画像ID312を元に、画像テーブル300から画像データを取得する。
なお、検索の際に、物体毎に異なる条件で検索しても良い。例えば、物体毎に特徴量を切り替えて、キャンバス上でサイズの小さい物体に関しては、概形を捉える特徴量を使用し、大きい物体に関しては詳細なテクスチャ特徴を使うようにしても良い。例えば、説明を簡単にするために、図6の605の状態で検索の指示を受けたと想定する。この場合、画像検索部113は、第1の物体(Object_A)の大きさ及び第2の物体(Object_B)の大きさに基づいて、画像データベース109を検索する際に使用する特徴量を第一クエリと第二クエリとで切り替えて、類似画像検索を実行してもよい。
また、別の例として、画像検索部113は、複数の物体の入力順序に基づいて、それら複数の物体のそれぞれに重み付けし、類似画像検索を実行してもよい。この場合、入力順序が早い物体の検索に対して、より大きな重みを付与してもよい。例えば、説明を簡単にするために、図6の605の状態で検索の指示を受けたと想定する。この場合、画像検索部113は、第1の物体(Object_A)及び第2の物体(Object_B)の入力順序に基づいて、第一クエリと第二クエリとに重み付けしてもよく、例えば、入力順序が早い第一クエリに対してより大きな重みを付与してよい。また、重み付けは入力順序に基づくだけでなく、ユーザがどの物体を重視して検索するかを指定してもよい。
画像検索部113は、ステップS1003で得られた検索結果及びステップS1006で得られた検索結果を、画像ID単位で統合する(S1008)。例えば、画像検索部113は、同一画像IDの複数の検索結果の類似度を可算して、一つの検索結果に統合してもよい。
画像検索部113は、検索結果を類似度順にソートして表示装置103に出力する(S1009)。
図11Aは、本実施例の画像検索装置104を用いて、画像検索を行うための操作画面(画像検索インタフェース)の構成例を示す図である。操作画面は、例えば、表示装置103上でユーザに提示される。ユーザは、例えば入力装置102を用いて、画面上に表示されたカーソルを操作することで、画像検索装置104に処理の指示を与える。なお、図11Aの例は、据え置き型の操作端末であるが、入力と表示が可能なデバイスであれば、様々な形態をとりうる。例えば、スマートフォンやタブレットのように、タッチ操作を用いても良い。また例えば、ヘッドマウント型のディスプレイや、情報表示可能なメガネ型のデバイスを表示装置103として用い、音声入力やジェスチャを受け付ける入力装置を使用してもよい。このような、ウェアラブルデバイス、携帯デバイスを用いる場合、据え置き型コンピュータに比べて検索クエリの入力に効率性が求められるため、本実施例のクエリ入力支援が効果的である。
操作画面は、例えば、クエリ入力領域1101、クエリ候補表示領域1102、検索ボタン1103、検索オプション表示領域1104、及び検索結果表示領域1105を含む。
クエリ入力領域1101に表示される情報は、例えば、クエリ入力部110によって表示装置103に出力される。クエリ候補表示領域1102に表示される情報は、例えば、クエリ候補推定部112によって表示装置103に出力される。検索結果表示領域1105に表示される情報は、例えば、画像検索部113によって表示装置103に出力される。
まず、ユーザは検索の手がかりとなる画像を指定する。操作画面は、例えば、登録画像選択のためのダイアログを表示してもよいし、外部の画像を入力するインタフェースを含んでもよい。また、図1の説明で前述した通り、テキスト又は音声のキーワード入力としてもよい。ユーザは、クエリ入力領域1101上のどこに画像を配置するかを指定する。クエリ入力領域1101には、指定された位置に入力された画像(ここでは自動車の画像)が表示される。
共起情報生成部111は、入力された画像と配置情報に従って、共起情報を生成する。ユーザがクエリ入力領域1101に次のクエリの領域1100を指定すると、クエリ候補推定部112は、生成された共起情報に従い、クエリ候補表示領域1102にクエリ候補を表示する。なお、ユーザが次のクエリの領域を指定する前に、共起情報生成部111は、物体の候補とその配置情報をクエリ入力領域1101にオーバーレイ表示し、ユーザに選択させるようにしてもよい。
ユーザがクエリ候補表示領域1102から物体を選択すると、選択された物体の画像がクエリ入力領域1101の領域1100に表示される。この操作を繰り返し行い、クエリ入力領域1101に複数の物体の画像を配置していく。
なお、クエリ候補表示領域1102は、クエリ候補から不要な物体を除去できるようなインタフェースを備えてもよい。これにより、ユーザは、所望のクエリ候補のみを表示しながら、検索クエリを作成することができる。
全ての物体の入力が終わったら、ユーザは検索ボタン1103をクリックする。この時、検索オプション表示領域1104から検索オプションを指定して、画像検索部113の内部動作を切り替えられるようにしても良い。例えば、検索オプション表示領域1104において「画像全体で検索」が選択されると、画像検索部113は、合成画像を生成し、類似画像検索を実行する(図10のステップS1002〜S1003)。また、検索オプション表示領域1104において「物体毎に検索」が選択されると、画像検索部113は、物体毎に配置条件付き類似画像検索を実行し(図10のステップS1005〜S1007)、それらの検索結果を統合する(図10のステップS1008)。
画像検索部113は、画像データベース109に対してクエリ入力領域1101で入力された条件に合致する類似画像検索を行う。検索結果は、例えば、類似度順に並び替えられ、同一画像IDを有する検索結果は集約されて、検索結果表示領域1105に表示される。検索結果の表示方法として、類似画像を一覧表示するのではなく、例えば、クエリ入力領域1101に類似画像を合成表示することにより、クエリを更新するたびに徐々に検索結果が所望の画像に近づいていくようなインタフェースにしてもよい。
図11Bは、物体の配置を変更したときの操作画面(画像検索インタフェース)を示す。クエリ入力領域1101は、配置された物体の配置情報を変更できるインタフェースを備える。例えば、ユーザは、カーソルで物体を指定して、物体の大きさ及び位置の少なくとも一方を変更できる。ここでは、クエリ入力領域1101の自動車の位置が変更されたとする。クエリ入力部110は、例えば、クエリ入力領域1101の自動車の位置が変更されたことを受け取ると、自動車の変更された配置情報を取得する。
共起情報生成部111は、自動車及びその変更された配置情報を用いて、共起情報(共起性マップ)を再計算する。共起情報生成部111は、再計算された共起情報に基づくクエリ候補をクエリ候補表示領域1102に表示する。図11Bの例では、クエリ入力領域1101の自動車の配置の変更によって、クエリ候補表示領域1102に表示される複数のクエリ候補の種類及び表示順序が変更されている。この構成によれば、ユーザのクエリの変更に応じて、リアルタイムにクエリ候補を提示することができる。
図12は、本実施例の画像検索システム100の処理の一例を説明するシーケンス図である。図12は、具体的には上記した画像検索システム100の画像登録及び画像検索処理における、ユーザ1200、画像記憶装置101、計算機1201、及び画像データベース109間の処理シーケンスを示す。なお、計算機1201は、画像検索装置104を実現する計算機である。ユーザ1200は、例えば、入力装置102を介して、計算機1201に対する要求及び指示の送信、並びにデータの入力等を行い、表示装置103を介して計算機1201からの処理結果等の提示を受ける。
図12において、S1210は登録処理を、S1220は検索処理を示す。登録処理S1210は、ステップS1211〜ステップS1218に示す処理を含む。
ユーザ1200が登録要求を出すと(S1211)、計算機1201は画像記憶装置101に画像データ取得要求を出し(S1212)、画像記憶装置101から画像データを取得する(S1213)。以下に述べるステップS1214〜ステップS1217の処理は、図5において説明した一連の登録処理に相当する。計算機1201は、取得した画像から物体を検出し、物体の領域毎に特徴量を抽出し、カテゴリを推定する(S1214〜S1216)。また、特徴量抽出においては、画像全体の特徴量を抽出する。この結果得られた、画像データ、画像全体の特徴量、物体検出結果(物体の座標情報、幅、高さなど)、物体の特徴量、物体のカテゴリを画像データベース109に登録する(S1217)。登録処理が終了すると、計算機1201はユーザ1200に対して登録完了の通知を行う(S1218)。
検索処理S1220は、ステップS1221〜ステップS1229に示す処理を含み、図8において説明した一連の検索処理に相当する。
ユーザ1200が、計算機1201に対してクエリを入力すると(S1221)、計算機1201は、入力されたクエリの条件に従って画像データベース109から画像を検索し、検索結果から共起情報を生成する(S1223)。また、計算機1201は、生成された共起情報からユーザ1200が次に入力するクエリを推定し、ユーザ1200に提示する(S1224〜S1225)。ユーザ1200は、入力クエリの修正または候補を選択し、計算機1201に伝える(S1226)。S1222の一連の処理を繰り返し行うことで、複数の物体が配置された検索クエリが作られる。
ユーザ1200が検索要求を出すと、計算機1201は入力された検索クエリを用いて画像データベース109から類似する画像を検索する(S1227〜S1228)。計算機1201は、得られた検索結果を、類似度順に並び替え、検索結果をユーザ1200に提示する(S1229)。なお、この時、計算機1201は、同一画像IDを有する検索結果を集約して、ユーザ1200に提示してよい。
本実施例の画像検索装置104は、複数の物体を含む画像を検索する際に、ユーザが最初に入力した物体から次に入力する物体を予測し、提示する。より詳細には、複数の物体を含む画像を検索する際に、高い検索精度に結び付く検索クエリの入力である、第1の物体と相関関係がある第2の物体の候補を提案することができる。これにより、ユーザによる検索クエリの入力の効率を高めることができる。
本実施例の画像検索装置104は、空間情報を含む物体の共起性に従って、検索クエリ内で複数の物体を配置することができ、したがって、適切な配置の検索クエリを作ることができる。その結果、検索精度を高めることができる。
[実施例2]
実施例1で示した共起情報の生成においては、図7の説明で述べたように、配置情報の条件付き検索により、第一クエリが含まれる画像を取得する。そして、共起情報生成部111は、取得された画像に含まれる他の画像の出現頻度を領域ごとに集計することで、共起性マップを作成する。しかし、画像データベース109に十分に画像が蓄積されていない場合、配置条件に一致する画像が少なく、有用な共起情報を得られない可能性がある。そこで、実施例2では、配置条件による絞り込みを行わず、第一クエリの物体が含まれる画像を検索した後に、位置補正を行うことで多数のサンプルを得る例を説明する。
図13は、検索結果の位置補正を表す図である。共起情報生成部111は、第一クエリ内の配置情報を条件に使用せずに、画像データベース109を検索する。配置情報を条件に付けずに検索すると、第一クエリの第1の物体(Object_A)が異なる領域に現れる画像、及び第一クエリの第1の物体(Object_A)が異なるサイズで現れる画像が得られる(1301)。
共起情報生成部111は、入力された第一クエリの物体の位置及びサイズにあわせて、検索結果の画像を補正する(1302)。すなわち、共起情報生成部111は、検索(1301)によって得られた画像の中の第1の物体(Object_A)が第一クエリの配置情報と一致するように画像を補正する。この補正処理には、拡大、縮小、回転、反転、平行移動など、様々な処理が含まれてよい。なお、ここでの補正処理は、検索(1301)によって得られた画像の中の第1の物体(Object_A)が第一クエリの配置情報と完全に一致するように補正する必要はなく、第1の物体(Object_A)が第一クエリの配置情報と類似する程度に補正されればよい。図13の補正処理の例では、補正後の画像は、第1の物体(Object_A)が第一クエリと同じサイズで、かつ同じ位置に配置された画像となる。本実施例では、共起情報生成部111が、このような補正を行った後の補正画像を用いて、第一クエリの第1の物体(Object_A)と他の物体との共起性マップを作成する。
図14は、位置補正を導入した共起情報生成の処理フローである。基本的な処理フローは、図9と同様であるため、同じ処理については図9と同じ符号を付し、説明を省略する。なお、図14の前に実行する検索処理(図8のS802)では、配置情報を条件に使用せずに検索が実行される。図14に示すように、共起情報生成部111は、物体データを取得した後、第一クエリの物体のサイズ及び配置の情報を取得し、図8のS802で得られた画像の各物体の位置を補正する。共起情報生成部111は、補正された各物体の位置関係を用いて、共起性マップを更新する(S906)。
上記の処理によれば、画像データベース109に十分に画像が蓄積されていない場合でも、有用な共起情報を得ることができる。特に、図13の1302に示すように、補正処理により各物体の配置情報が変更され得るが、第一クエリの物体と他の物体との共起性は維持されるため、有用な共起情報を得ることができる。結果として、画像検索装置104は、第一クエリの物体と相関関係がある第2の物体の候補を提案できる。
なお、上記の補正処理は、ユーザの指定により実行されてもよいし、画像検索装置104によって自動的に実行されてもよい。例えば、画像データベース109が所定の蓄積量よりも小さいとき、画像検索装置104が、その蓄積量を判定して自動的に補正処理を実行してもよい。また、別の例として、第2の物体の候補として取得できた物体数が所定の数よりも小さいとき、画像検索装置104が、その物体数を判定して自動的に補正処理を実行して、再度第2の物体の候補を提示してもよい。
本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。上記実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることもできる。また、ある実施例の構成に他の実施例の構成を加えることもできる。また、各実施例の構成の一部について、他の構成を追加・削除・置換することもできる。
上述の例では、画像検索について説明したが、本発明は、動画の検索にも適用できる。例えば、上述の通り、動画データはフレーム(静止画データ形式)の集合で画像データベースに蓄積されている。したがって、画像検索部113は、上記で説明した検索クエリに類似する動画像のフレームを検索することにより、動画の検索を実現してもよい。
また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)に記憶させることが可能である。非一時的なコンピュータ可読媒体としては、例えば、フレキシブルディスク、CD−ROM、DVD−ROM、ハードディスク、光ディスク、光磁気ディスク、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどが用いられる。
上記の実施例において、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていてもよい。
100 …画像検索システム
101 …画像記憶装置
102 …入力装置
103 …表示装置
104 …画像検索装置
105 …画像入力部
106 …物体検出部
107 …特徴量抽出部
108 …カテゴリ推定部
109 …画像データベース
110 …クエリ入力部
111 …共起情報生成部
112 …クエリ候補推定部
113 …画像検索部
201 …プロセッサ
202 …記憶装置
203 …処理プログラム
204 …ネットワークインターフェース装置
300 …画像テーブル
310 …物体テーブル

Claims (13)

  1. プロセッサと、
    前記プロセッサに接続され、画像データベースを記憶する記憶部と、
    前記プロセッサに接続される表示部とを備え、
    前記プロセッサは、
    前記表示部を介して第1のオブジェクトの入力を受け付けると、前記表示部での前記第1のオブジェクトの配置情報を取得し、
    前記第1のオブジェクトと前記第1のオブジェクトの前記配置情報とを用いて、前記画像データベースに基づき、前記第1のオブジェクトと他のオブジェクトとが画像の中に同時に出現する出現確率に関する相関関係を示す第1の共起情報を取得し、
    前記第1の共起情報に基づき、次に入力される可能性が高い第2のオブジェクトの候補を前記表示部へ出力する、画像処理装置。
  2. 請求項1に記載の画像処理装置において、
    前記配置情報は、前記第1のオブジェクトの大きさ及び位置情報を含むことを特徴とする画像処理装置。
  3. 請求項1に記載の画像処理装置において、
    前記第1の共起情報は、前記出現確率を領域ごとに表すものであることを特徴とする画像処理装置。
  4. 請求項1に記載の画像処理装置において、
    前記プロセッサは、
    前記表示部を介して前記第2のオブジェクトの入力を受け付けると、前記表示部での前記第2のオブジェクトの配置情報を取得し、
    前記第1のオブジェクトと前記第1のオブジェクトの前記配置情報と前記第2のオブジェクトと前記第2のオブジェクトの前記配置情報とを用いて、前記画像データベースに基づき、前記第1のオブジェクト及び前記第2のオブジェクトの双方と他のオブジェクトとが画像の中に同時に出現する出現確率に関する相関関係を示す第2の共起情報を取得し、
    前記第2の共起情報に基づき、次に入力される可能性が高い第3のオブジェクトの候補を前記表示部へ出力することを特徴とする画像処理装置。
  5. 請求項1に記載の画像処理装置において、
    前記プロセッサは、
    前記表示部を介して前記第2のオブジェクトの入力を受け付けると、前記表示部での前記第2のオブジェクトの配置情報を取得し、
    前記第2のオブジェクトと前記第2のオブジェクトの前記配置情報とを用いて、前記画像データベースに基づく前記第2のオブジェクトとの相関関係を示す第2の共起情報を取得し、
    前記第2の共起情報に基づく第3のオブジェクトの候補を前記表示部へ出力することを特徴とする画像処理装置。
  6. 請求項1に記載の画像処理装置において、
    前記プロセッサは、
    前記表示部を介して、前記第1のオブジェクトと前記第1のオブジェクトの前記配置情報と前記第2のオブジェクトと前記第2のオブジェクトの前記配置情報とを含む検索クエリを用いた画像検索の指示を受け付けると、前記第1のオブジェクトと前記第2のオブジェクトを含む合成画像を作成し、
    前記合成画像を用いて前記検索クエリに類似する画像を前記画像データベースから検索し、検索結果を前記表示部へ表示することを特徴とする画像処理装置。
  7. 請求項6に記載の画像処理装置において、
    前記プロセッサは、更に、
    前記第1のオブジェクトと前記第1のオブジェクトの前記配置情報を含む第1クエリに類似する画像を前記画像データベースから検索し、前記第2のオブジェクトと前記第2のオブジェクトの前記配置情報を含む第2クエリに類似する画像を前記画像データベースから検索し、
    前記合成画像による検索結果と、前記第1クエリによる検索結果と、前記第2クエリによる検索結果とを統合し、統合した結果を前記表示部へ表示することを特徴とする画像処理装置。
  8. 請求項1に記載の画像処理装置において、
    前記プロセッサは、
    前記表示部を介して、前記第1のオブジェクトと前記第1のオブジェクトの前記配置情報と前記第2のオブジェクトと前記第2のオブジェクトの前記配置情報とを含む検索クエリを用いた画像検索の指示を受け付けると、前記第1のオブジェクトと前記第1のオブジェクトの前記配置情報を含む第1クエリに類似する画像を前記画像データベースから検索し、前記第2のオブジェクトと前記第2のオブジェクトの前記配置情報を含む第2クエリに類似する画像を前記画像データベースから検索し、
    前記第1クエリによる検索結果と前記第2クエリによる検索結果を統合し、統合した結果を前記表示部へ表示することを特徴とする画像処理装置。
  9. 請求項8に記載の画像処理装置において、
    前記プロセッサは、
    前記第1のオブジェクトの大きさ及び前記第2のオブジェクトの大きさに基づいて、前記画像データベースを検索する際に使用する特徴量を前記第1クエリと前記第2クエリとで切り替えることを特徴とする画像処理装置。
  10. 請求項8に記載の画像処理装置において、
    前記プロセッサは、
    前記第1のオブジェクト及び前記第2のオブジェクトの入力順序に基づいて、前記第1クエリと前記第2クエリとに重み付けすることを特徴とする画像処理装置。
  11. 請求項1に記載の画像処理装置において、
    前記プロセッサは、
    前記第1のオブジェクトの前記配置情報が変更されると、前記第1のオブジェクトと前記第1のオブジェクトの前記変更された配置情報とを用いて、前記第1の共起情報を再計算し、
    前記再計算された第1の共起情報に基づく第2のオブジェクトの候補を前記表示部へ出力することを特徴とする画像処理装置。
  12. 請求項1に記載の画像処理装置において、
    前記プロセッサは、
    前記第1のオブジェクトを用いて前記画像データベースを検索し、
    前記検索によって得られた画像の中の前記第1のオブジェクトが前記第1のオブジェクトの前記配置情報と類似するように前記画像を補正し、
    前記補正された画像を用いて前記第1の共起情報を取得することを特徴とする画像処理装置。
  13. プロセッサと、前記プロセッサに接続され、画像データベースを記憶する記憶部と、前記プロセッサに接続される表示部とを備える情報処理装置における画像検索インタフェースの表示方法であって、
    前記プロセッサが、前記表示部を介して第1のオブジェクトの入力を受け付けると、前記表示部での前記第1のオブジェクトの配置情報を取得するステップと、
    前記プロセッサが、前記第1のオブジェクトと前記第1のオブジェクトの前記配置情報とを用いて、前記画像データベースに基づき、前記第1のオブジェクトと他のオブジェクトとが画像の中に同時に出現する出現確率に関する相関関係を示す第1の共起情報を取得するステップと、
    前記プロセッサが、前記第1の共起情報に基づき、次に入力される可能性が高い第2のオブジェクトの候補を前記表示部へ出力するステップと
    を含む画像検索インタフェースの表示方法。
JP2017555943A 2015-12-17 2015-12-17 画像処理装置、画像検索インタフェース表示装置、及び画像検索インタフェースの表示方法 Active JP6615225B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2015/085347 WO2017104043A1 (ja) 2015-12-17 2015-12-17 画像処理装置、画像検索インタフェース表示装置、及び画像検索インタフェースの表示方法

Publications (2)

Publication Number Publication Date
JPWO2017104043A1 JPWO2017104043A1 (ja) 2018-08-02
JP6615225B2 true JP6615225B2 (ja) 2019-12-04

Family

ID=59056235

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017555943A Active JP6615225B2 (ja) 2015-12-17 2015-12-17 画像処理装置、画像検索インタフェース表示装置、及び画像検索インタフェースの表示方法

Country Status (4)

Country Link
US (1) US10872114B2 (ja)
JP (1) JP6615225B2 (ja)
CN (1) CN108431800B (ja)
WO (1) WO2017104043A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10789288B1 (en) * 2018-05-17 2020-09-29 Shutterstock, Inc. Relational model based natural language querying to identify object relationships in scene
JP2020091662A (ja) * 2018-12-05 2020-06-11 富士ゼロックス株式会社 情報処理装置及びプログラム
JP6579727B1 (ja) * 2019-02-04 2019-09-25 株式会社Qoncept 動体検出装置、動体検出方法、動体検出プログラム
US11749021B2 (en) * 2019-05-27 2023-09-05 Nec Corporation Retrieval device, control method, and non-transitory storage medium
CN110442806B (zh) * 2019-08-05 2022-04-26 百度在线网络技术(北京)有限公司 用于识别图像的方法和装置

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6381365B2 (en) * 1997-08-22 2002-04-30 Minolta Co., Ltd. Image data processing apparatus and image data processing method
WO2000043910A1 (en) * 1999-01-22 2000-07-27 Kent Ridge Digital Labs Method and apparatus for indexing and retrieving images using visual keywords
US7386170B2 (en) * 2000-06-30 2008-06-10 Texas Instruments Incorporated Image object ranking
JP2002024256A (ja) 2000-07-03 2002-01-25 Fujitsu Ltd 情報処理システムおよび情報入力支援プログラム記憶媒体
JP5009577B2 (ja) * 2005-09-30 2012-08-22 富士フイルム株式会社 画像検索装置および方法並びにプログラム
JP4958476B2 (ja) * 2006-05-24 2012-06-20 株式会社日立製作所 検索装置
CN101276361B (zh) 2007-03-28 2010-09-15 阿里巴巴集团控股有限公司 一种显示相关关键词的方法及系统
CN100535906C (zh) * 2007-06-28 2009-09-02 北京交通大学 融合伪相关反馈与检索技术的自动图像标注方法
US8059891B2 (en) * 2007-12-30 2011-11-15 Intel Corporation Markov stationary color descriptor
WO2010070804A1 (ja) * 2008-12-19 2010-06-24 パナソニック株式会社 画像検索装置及び画像検索方法
JP5541868B2 (ja) * 2009-02-04 2014-07-09 富士フイルム株式会社 画像検索指令システムおよびその動作制御方法
CN101996210A (zh) * 2009-08-31 2011-03-30 国际商业机器公司 用于搜索电子地图的方法和系统
JP5697860B2 (ja) * 2009-09-09 2015-04-08 クラリオン株式会社 情報検索装置,情報検索方法及びナビゲーションシステム
JP5356289B2 (ja) * 2010-03-18 2013-12-04 株式会社日立製作所 画像検索システム
WO2012073729A1 (ja) * 2010-11-30 2012-06-07 富士フイルム株式会社 撮像装置及びその合焦位置検出方法
US9600499B2 (en) * 2011-06-23 2017-03-21 Cyber Ai Entertainment Inc. System for collecting interest graph by relevance search incorporating image recognition system
JP2013084074A (ja) * 2011-10-07 2013-05-09 Sony Corp 情報処理装置、情報処理サーバ、情報処理方法、情報抽出方法及びプログラム
JP5743849B2 (ja) 2011-10-27 2015-07-01 株式会社日立製作所 映像解析装置及びシステム
US8768048B1 (en) * 2011-11-18 2014-07-01 Google Inc. System and method for exploiting segment co-occurrence relationships to identify object location in images
CN102663010A (zh) * 2012-03-20 2012-09-12 复旦大学 基于标注语义的个性化图像浏览与推荐方法及系统
US20140193077A1 (en) * 2013-01-08 2014-07-10 Canon Kabushiki Kaisha Image retrieval apparatus, image retrieval method, query image providing apparatus, query image providing method, and program
CN103530405B (zh) * 2013-10-23 2016-08-31 天津大学 一种基于分层结构的图像检索方法
CN103810299B (zh) * 2014-03-10 2017-02-15 西安电子科技大学 基于多特征融合的图像检索方法
US20150363660A1 (en) * 2014-06-12 2015-12-17 Asap54.Com Ltd System for automated segmentation of images through layout classification
CN104794429B (zh) * 2015-03-23 2018-10-23 中国科学院软件研究所 一种面向监控视频的关联可视分析方法

Also Published As

Publication number Publication date
CN108431800A (zh) 2018-08-21
CN108431800B (zh) 2021-12-14
WO2017104043A1 (ja) 2017-06-22
US20180373737A1 (en) 2018-12-27
JPWO2017104043A1 (ja) 2018-08-02
US10872114B2 (en) 2020-12-22

Similar Documents

Publication Publication Date Title
US20220075806A1 (en) Natural language image search
JP6615225B2 (ja) 画像処理装置、画像検索インタフェース表示装置、及び画像検索インタフェースの表示方法
EP2612263B1 (en) Sketch-based image search
JP5857124B2 (ja) 画像解析装置、画像解析システム、画像解析方法
US8416982B2 (en) Image processing apparatus, image processing method and program
US11703333B2 (en) Method and apparatus for determining route, device and computer storage medium
JP2012108961A (ja) 画像認識アルゴリズム、それを用いて目標画像を識別する方法、および、携帯用電子装置へ送信するデータを選択する方法
US8243988B1 (en) Clustering images using an image region graph
JP5469046B2 (ja) 情報検索装置、情報検索方法及び情報検索プログラム
CN106407268B (zh) 一种基于覆盖率最优化法的内容检索方法及系统
JP2008102594A (ja) コンテンツの検索方法及び検索装置
Zhang et al. Dataset-driven unsupervised object discovery for region-based instance image retrieval
US11138257B2 (en) Object search in digital images
US10331739B2 (en) Video search apparatus, video search method, and non-transitory computer readable medium
Abbasi et al. Large scale tag recommendation using different image representations
JP3985826B2 (ja) 画像検索方法及びその装置
JP6336827B2 (ja) 画像検索装置、画像検索方法および検索システム
JP6976537B1 (ja) 情報検索装置、情報検索方法および情報検索用プログラム
US20230153338A1 (en) Sparse embedding index for search
KR20100001684A (ko) 얼굴 분석을 이용한 가족 검색 시스템 및 방법
JP2013089079A (ja) 画像検索に適した特徴ベクトルを抽出するプログラム、方法及び画像検索装置
JP2012203752A (ja) 類似画像検索装置
Hu et al. A crude to fine method to detect the salient region
Zhang et al. Sign language video retrieval based on trajectory
JPH05233718A (ja) 情報検索表示装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180213

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190416

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190531

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191008

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191105

R150 Certificate of patent or registration of utility model

Ref document number: 6615225

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150