JP2020149337A

JP2020149337A - 画像検索装置、画像検索方法およびコンピュータプログラム

Info

Publication number: JP2020149337A
Application number: JP2019046127A
Authority: JP
Inventors: 田村　雅人; Masahito Tamura; 雅人田村; 廣池　敦; Atsushi Hiroike; 敦廣池; 俊明垂井; Toshiaki Tarui; 智明吉永; Tomoaki Yoshinaga
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2019-03-13
Filing date: 2019-03-13
Publication date: 2020-09-17
Anticipated expiration: 2039-03-13
Also published as: JP7227799B2

Abstract

【課題】画像検索の精度を向上させること。【解決手段】画像検索装置１は、画像に含まれる複数のオブジェクトのオブジェクト名情報と、画像に含まれる複数のオブジェクト間の所定の関係性を示す関係名称情報とを含む検索用データを算出する特徴抽出部１２２と、検索用データを画像に対応付けて記憶する記憶部と、オブジェクト名情報または関係名称情報のうち少なくともいずれか一方を検索クエリとして入力を受け付ける入力部１２０と、検索クエリに基づいて記憶部を検索し、検索クエリに対応する所定の画像を抽出する検索部１２１と、検索結果を出力する出力部１２５と、を備える。【選択図】図１

Description

本発明は、画像検索装置、画像検索方法およびコンピュータプログラムに関するものである。

従来、コンピュータを使用してユーザの求める画像を検索する画像検索装置は、入力されたキーワードに基づいて画像を検索する。画像検索装置は、サーバに保存される複数の画像にそれぞれ紐づけられるキーワードと、ユーザが入力したキーワードと、を比較して、検索結果をユーザに提示する。

特許文献１の技術では、設定されたキーワードに関連するサムネイル画像を複数枚表示させる。この場合において、サーバコンピュータは、キーワードごとのサムネイル画像の表示枚数に、キーワードごとの検出率を反映する。キーワードごとの検出率は、画像検索する際に、ユーザによって入力される。これにより、ユーザが考える各キーワードに対する重要度を検索に反映させることが可能なサーバコンピュータが、開示されている。

特開２０１３−００３７２７号公報

特許文献１では、Ｗｅｂページに記載されているテキストと、入力されたキーワードと、に基づいて画像検索する。しかしながら、Ｗｅｂページに記載されているテキストが人の主観で設定されたものである為、特許文献１の技術では、人の認識外の情報に基づいて検索することができない。

さらに、キーワードによって示される複数のオブジェクト同士の関連性が各画像に設定されていない為、特許文献１では、画像に示される複数のオブジェクト間の関連性を含めて検索することができない。

そこで本発明は、上記の課題を解決する為になされたものであり、画像検索の精度を向上させることが可能な画像検索装置、画像検索方法およびコンピュータプログラムの提供を目的とする。

画像検索装置は、画像に含まれる複数のオブジェクトのオブジェクト名情報と、画像に含まれる複数のオブジェクト間の所定の関係性を示す関係名称情報とを含む検索用データを算出する特徴抽出部と、検索用データを画像に対応付けて記憶する記憶部と、オブジェクト名情報または関係名称情報のうち少なくともいずれか一方を検索クエリとして入力を受け付ける入力部と、検索クエリに基づいて記憶部を検索し、検索クエリに対応する所定の画像を抽出する検索部と、検索結果を出力する出力部と、を備える。

本発明によると、画像検索の精度を向上させることができる。

第１実施例に係る画像検索装置の概略図。画像検索装置のハードウェア構成図。検索クエリ入力部の説明図。オブジェクト名情報の説明図。関連名称情報の説明図。検索用データの説明図。検索結果出力部の説明図。検索部の処理の流れ図。特徴抽出部の処理の流れ図。Ａ領域の拡大図。オブジェクトを強調表示する検索結果出力部の説明図。第２実施例に係る画像検索装置の概略図。学習処理の流れ図。第３実施例に係る画像検索装置の概略図。検索クエリ入力部の説明図。画像検索処理の流れ図。第４実施例に係る画像検索装置の概略図。検索クエリ入力部の説明図。画像検索処理の流れ図。第５実施例に係るオブジェクト名情報の説明図。第６実施例に係る駅の概略図。オブジェクト名情報の説明図。第７実施例に係る画像検索装置のハードウェア構成図。第８実施例に係る画像検索システムのハードウェア構成図。

以下、本実施形態を添付図面に基づいて説明するが、当該図面に記載の構成に限定されない。本実施形態は、画像を検索する画像検索装置に関するものである。本実施形態の画像検索装置１は、例えば、空港、駅、港、百貨店、ホテル、イベント会場などの各種施設において入場者を監視する監視システムに用いることができる。本実施形態の画像検索装置１は、ウェブ上での通常の画像検索エンジンとは異なり、一つの画像に含まれる複数のオブジェクトと各オブジェクト間の関係性（物理的関係性）とを自動的に算出して保存する。これにより、本実施形態によれば、記憶部に蓄積された画像の中から検索目的に関連する画像を精度よく抽出できるとともに、使い勝手が向上する。

本実施形態に係る画像検索装置１が適用される監視システムは、通常、何かテーマまたはモチーフを決めて特定の被写体を意図的に撮影するのではなく、特定の監視対象領域を淡々と撮影する。したがって、監視の結果取得された画像には、雑多な複数のオブジェクトが主従の関係なく写っている。本実施形態に係る画像検索装置１は、複数のオブジェクト間の画像上の位置に基づいて物理的関係性を決定し、画像に対応付けて保存する。

監視システムに限らず、複数のオブジェクトが写っている静止画像または動画像についても同様に、各オブジェクト間の物理的関係性を自動的に抽出して、その画像に対応付けて保存することができる。

ウェブサイトなどで提供されている画像検索サービスは、撮影者の意図に沿った説明文（例えば「入学式」「結婚式」など）が画像に対応付けられるか、あるいは、解析者による画像解析結果に沿った説明文（例えば「学生の登校風景」「海開きで賑わう浜辺」など）が画像に対応付けられるだけである。すなわち、ウェブ上で提供されている画像検索エンジンは、オブジェクト間の物理的関係性を考慮しておらず、その画像の検索に使用する語句または説明文も少数である。以下の説明に明らかなように、本実施形態に係る画像検索装置１は、ウェブ上の画像検索エンジンを含む従来技術と全く異なる点に留意すべきである。

図１は、画像検索装置１の概略図である。本実施例における画像検索装置１は、画像データ蓄積部１２３に保存される複数の画像の中から、ユーザの目的の画像（以下、所定の画像と示す場合がある）を検索する。

画像検索装置１は、「入力部」の一例としての検索クエリ入力部１２０と、検索部１２１と、特徴抽出部１２２と、画像データ蓄積部１２３と、特徴データ蓄積部１２４と、「出力部」の一例としての検索結果出力部１２５と、画像データ取得部１２６とを有する。

検索クエリ入力部１２０は、ユーザから検索クエリを受け付ける機能である。検索クエリは、オブジェクト名情報１２４２（図４参照）または関係名称情報１２４４（図５参照）のうち少なくともいずれか一方を含む。なお、「オブジェクト」は、図中において「物体」と示す場合がある。オブジェクト名情報１２４２は、画像に含まれる複数のオブジェクトを示す。関係名称情報１２４４は、複数のオブジェクトの間の関係性を示す。

検索クエリ入力部１２０は、例えば、出力装置１１（以降、モニタ１１と示す場合がある）に表示されたＵＩ（ＵｓｅｒＩｎｔｅｒｆａｃｅ）である。検索クエリ入力部１２０は、検索部１２１と単方向に通信可能に接続される。なお、検索クエリ入力部１２０は、図３にて後述する。

検索部１２１は、検索クエリに基づいて記憶部１２（図２にて後述）を検索し、検索クエリに対応する所定の画像を抽出する機能である。検索部１２１は、画像データ蓄積部１２３、特徴データ蓄積部１２４および検索結果出力部１２５と単方向に通信可能に接続される。検索部１２１は、特徴抽出部１２２と双方向に通信可能に接続されてもよい。検索部１２１は、図８にて後述する。

特徴抽出部１２２は、画像から検索用データ（図４〜６参照）を算出する機能である。検索用データには、オブジェクト名情報１２４２および関係名称情報１２４４が含まれる。特徴抽出部１２２は、画像データ蓄積部１２３と単方向に通信可能に接続される。特徴抽出部１２２は、特徴データ蓄積部１２４と双方向に通信可能に接続される。特徴抽出部１２２は、図９にて後述する。

画像データ蓄積部１２３は、複数の画像を保存するデータベースである。画像データ蓄積部１２３は、画像データ取得部１２６と単方向に通信可能に接続される。特徴データ蓄積部１２４は、検索用データを保存するデータベースである。

検索結果出力部１２５は、検索結果を出力する機能である。検索結果出力部１２５は、例えば、モニタ１１に検索結果を表示させる。なお、検索結果出力部１２５は、モニタ１１に検索結果を表示することに限らず、通信インターフェース（図中、通信Ｉ／Ｆ（ＩｎｔｅｒＦａｃｅ））１６（図２参照）を介して外部端末に検索結果を出力してもよい。検索結果出力部１２５は、図７にて後述する。

画像データ取得部１２６は、画像データ蓄積部１２３に複数の画像データを保存する機能である。画像データ取得部１２６は、例えば、監視カメラ等によって撮影された動画データを取得し、動画のフレームごとの画像を画像データ蓄積部１２３に保存する。なお、画像データ取得部１２６は、監視カメラ等によって撮影された動画データに限らず、複数の画像データ（静止画像、動画像のいずれでもよい）をインターネット上等から取得してもよい。画像データ取得部１２６は、例えば、画像２を取得する。画像データ取得部１２６は、例えば、画像２を画像データ蓄積部１２３に保存する。

画像２は、例えば、監視カメラによって撮影された動画データの中の１フレームの画像である。画像２には、例えば、駅５構内が表示される。画像２には、例えば、入口５１と、人２１，２５，２９，３３，３７，４０，と、が表示される。

人２１は、子供である。人２１は、服２２および靴２３を身に着け、鞄２４を持つ。人２５は、大人の女性である。人２５は、スーツ２６および靴２７を身に着け、鞄２８を持つ。人２９は、大人の男性である。人２９は、スーツ３０および靴３１を身に着け、飲み物３２を持つ。人３３は、大人の男性である。人３３は、私服３４および靴３５を身に着け、鞄３６を持つ。人３７は、子供である。人３７は、私服３８および靴３９を身に着ける。人４０は、大人の女性である。人４０は、私服４１および靴４２を身に着ける。そして、人３３と人３７とは手をつないで接触しており、同様に、人４０と人３７も手をつないで接触している。

図２は、画像検索装置１のハードウェア構成図である。画像検索装置１は、モニタ１１（図中、出力部１１）と、入力装置１３と、記憶部１２と、ＣＰＵ１４と、メモリ１５と、通信インターフェース１６と、各機能１１〜１６を双方向に通信可能に接続するデータ伝送路１７と、を有する。

モニタ１１は、例えば、パーソナルコンピュータに設けられるディスプレイまたは、携帯情報端末、携帯電話（いわゆるスマートフォン）、ウェアラブル端末に設けられるディスプレイ等である。入力装置１３は、例えば、キーボードまたはマウス等である。なお、入力装置１３は、マイクであってもよい。この場合には、検索クエリ入力部１２０は、音声によって入力されたデータを、検索クエリを示す文章データに変換する機能を有してもよい。さらに、入力装置１３と出力装置１１とをタブレットまたはＡＲ（ＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙ）ディスプレイのように一体化させてもよい。

記憶部１２は、例えば、ハードディスクまたはＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の不揮発性記憶装置である。記憶媒体の種類は問わない。記憶部１２は、検索クエリ入力部１２０と、検索部１２１と、特徴抽出部１２２と、検索結果出力部１２５と、画像データ取得部１２６と、のコンピュータプログラム（以下、プログラム）を記憶する。記憶部１２は、画像データ蓄積部１２３および特徴データ蓄積部１２４といった、データベースも記憶する。

ＣＰＵ１４は、メモリ１５を介して記憶部１２から各プログラムを読み込んで実行する。メモリ１５は、例えば、「ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）」等の揮発性記憶装置である。

通信インターフェース１６は、例えば、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、インターネット、ＳＡＮ（ＳｔｏｒａｇｅＡｒｅａＮｅｔｗｏｒｋ）などの通信ネットワークを介して外部装置と通信する装置である。

図３は、検索クエリ入力部１２０の説明図である。検索クエリ入力部１２０は、モニタ１１に、複数のオブジェクト名入力欄１２０１（１），１２０１（２）と、関係名入力欄１２０２と、検索ボタン１２０３と、を表示させる。オブジェクト名入力欄１２０１（１），１２０１（２）は、特に区別しない場合には、オブジェクト名入力欄１２０１と示す場合がある。

オブジェクト名入力欄１２０１は、オブジェクト名情報１２４２を受け付ける機能である。オブジェクト名入力欄１２０１（１）には、例えば、「人」と入力される。オブジェクト名入力欄１２０１（２）には、例えば、「鞄」と入力される。

なお、オブジェクト名入力欄１２０１は、オブジェクト名情報１２４２を受け付ける機能に限らず、「オブジェクトＩＤ（ＩＤｅｎｔｉｆｉｃａｔｉｏｎ）」１２４１（図４参照）を受け付ける機能を有してもよい。検索クエリ入力部１２０は、オブジェクト名入力欄１２０１（１），１２０１（２）を二つ表示させることに限らず、三つ以上のオブジェクト名入力欄１２０１をモニタ１１に表示してもよい。

関係名入力欄１２０２は、関係名称情報１２４４を受け付ける機能である。関係名入力欄１２０２には、例えば、「持っている」と入力される。

なお、関係名入力欄１２０２には、関係名称情報１２４４を受け付ける機能に限らず、「関係性ＩＤ」１２４３（図５参照）を受け付ける機能を有してもよい。検索クエリ入力部１２０は、関係名入力欄１２０２を一つ表示させることに限らず、二つ以上の関係名称情報１２４４を表示させてもよい。

すなわち、ユーザは、「人」が「鞄」を「持っている」画像を検索する。検索ボタン１２０３は、画像検索を実行させるボタンである。

検索クエリ入力部１２０は、複数のオブジェクト名入力欄１２０１と、少なくとも一つの関係名入力欄１２０２と、をモニタ１１のスクロール方向に並べて表示させる。モニタ１１のスクロール方向は、例えば、モニタ１１の上下方向（図中Ｓ方向）である。

すなわち、検索クエリ入力部１２０は、例えば、オブジェクト名入力欄１２０１（１）をモニタ１１の上側に表示させる。検索クエリ入力部１２０は、例えば、オブジェクト名入力欄１２０１（２）を、オブジェクト名入力欄１２０１（１）から下方向に表示させる。検索クエリ入力部１２０は、例えば、関係名入力欄１２０２を、オブジェクト名入力欄１２０１（２）から下方向に表示させる。

これにより、携帯電話等に設けられる縦に長いモニタ１１を使用する場合であっても、ユーザは、下方向にスクロールすることによって、複数のオブジェクト名入力欄１２０１と、少なくとも一つの関係名入力欄１２０２と、を表示させることができる。これにより、検索クエリ入力部１２０の操作性を向上させることができる。

オブジェクト名入力欄１２０１および関係名入力欄１２０２が受け付ける情報は、プルダウンメニューによって選択されてもよい。プルダウンメニューに表示される情報は、特徴データ蓄積部１２４に保存される情報が表示されてもよい。

図４は、オブジェクト名情報１２４２の説明図である。特徴データ蓄積部１２４には、「オブジェクトＩＤ」１２４１と、オブジェクト名情報１２４２と、が保存される。

「オブジェクトＩＤ」１２４１には、オブジェクト名情報１２４２を識別する情報が保存される。オブジェクト名情報１２４２には、画像に含まれるオブジェクトの名称が保存される。オブジェクト名情報１２４２には、例えば、「人」、「車」、「電車」、「鞄」または「ステッカー」等が保存される。

図５は、関係名称情報１２４４の説明図である。特徴データ蓄積部１２４には、「関係性ＩＤ」１２４３と、関係名称情報１２４４と、が保存される。

「関係性ＩＤ」１２４３には、関係名称情報１２４４を識別する情報が保存される。関係名称情報１２４４には、各オブジェクト間の関係性を示す情報が保存される。各オブジェクト間の関係性は、物理的関係性を示す。関係名称情報１２４４には、例えば、「持っている」、「乗っている」、「くっついている」、「触れている」または「ぶら下がっている」等が保存される。

図６は、検索用データの説明図である。特徴データ蓄積部１２４には、「画像ＩＤ」１２４５と、「組み合わせＩＤ」１２４６と、各オブジェクトの識別情報１２４１（１），１２４１（２）と、各オブジェクトの位置情報１２４７（１），１２４７（２）と、各オブジェクトの大きさの情報１２４８（１），１２４８（２）と、「関係性ＩＤ」１２４３と、が保存される。なお、図中において特徴データ蓄積部１２４には、一つの画像に対して二つのオブジェクトが含まれる検索用データが保存される場合を示すが、一つの画像に対して三つ以上のオブジェクトが含まれる検索用データが保存されてもよい。図中において、「関係性ＩＤ」１２４３、「画像ＩＤ」１２４５および「組み合わせＩＤ」１２４６は、文字が枠内に収まらない場合が考えられるため、符号を直接記載する。

「画像ＩＤ」１２４５には、画像を識別する情報が保存される。「画像ＩＤ」が「０」の画像には、例えば、画像２を示す。「組み合わせＩＤ」１２４６には、「オブジェクト１ＩＤ」１２４１（１）と、「オブジェクト２ＩＤ」１２４１（２）と、「関係性ＩＤ」１２４３と、の組み合わせを識別する情報が保存される。

「オブジェクト１ＩＤ」１２４１（１）および「オブジェクト２ＩＤ」１２４１（２）には、オブジェクトを識別する情報が保存される。「オブジェクト１ＩＤ」１２４１（１）と、「オブジェクト２ＩＤ」１２４１（２）とは、「オブジェクトＩＤ」１２４１（図４参照）に対応する。

オブジェクトの位置情報１２４７（１），１２４７（２）には、オブジェクトの位置情報が保存される。なお、位置情報は、例えば、画像端から画素数を数えることによって算出されてもよい。位置情報は、画像上のｘ座標及びｙ座標の二次元座標を用いて示されてもよい。なお、位置情報は、三次元座標を用いて示されてもよい。

オブジェクトの大きさの情報１２４８（１），１２４８（２）には、オブジェクトの大きさの情報が保存される。なお、大きさの情報は、例えば、画像上の画素数で算出されてもよい。大きさの情報は、各オブジェクトの重心から各オブジェクトの端部の長さによって算出されてもよい。オブジェクトの大きさは、画像上のオブジェクト体の幅ｗ及び高さｈを用いて示されてもよい。

図７は、検索結果出力部１２５の説明図である。検索結果出力部１２５は、モニタ１１に、検索部１２１の検索した所定の画像を表示させる。検索結果出力部１２５は、例えば、所定の画像である画像２を表示する。

図８は、検索部１２１の処理の流れ図である。画像検索装置１が起動後、検索部１２１は、複数の画像データを画像データ蓄積部１２３から取得し、検索用データを特徴データ蓄積部１２４から取得する（Ｓ１１）。検索部１２１は、検索クエリ入力部１２０の検索ボタン１２０３が押されることによって（Ｓ１２：Ｙｅｓ）、画像検索処理（Ｓ１３〜Ｓ１５）を実行する。

なお、検索部１２１の処理を説明する場合において、図３に示す「人」、「鞄」および「持っている」を、検索クエリ入力部１２０に入力された場合を一例に挙げて説明する。

検索部１２１は、検索クエリ入力部１２０から、「人」および「鞄」を示すオブジェクト名情報１２４２と、「持っている」を示す関係名称情報１２４４と、を取得する（Ｓ１３）。検索部１２１は、所定の画像を複数の画像の中から検索する（Ｓ１４）。所定の画像は、例えば、「人」および「鞄」のオブジェクト名情報１２４２と、「持っている」の関係名称情報１２４４と、を含む検索用データを有する。

図６の検索用データに示すように、「組み合わせＩＤ」１２４６が「１」の場合には、「オブジェクト１ＩＤ」１２４１（１）は「０」を示し、「オブジェクト２ＩＤ」１２４１（２）は「３」を示し、「関係性ＩＤ」１２４３は、「０」を示す。「オブジェクトＩＤ」１２４１の「０」は、「人」を示す（図４参照）。「オブジェクトＩＤ」１２４１の「３」は、「鞄」を示す。「関係性ＩＤ」１２４３の「０」は、「持っている」を示す。

検索部１２１は、「画像ＩＤ」１２４５の「０」の画像が、「人」および「鞄」のオブジェクト名情報１２４２と、「持っている」の関係名称情報１２４４と、を含むと判定する。検索部１２１は、画像２を所定の画像として設定する。

検索部１２１は、画像２を検索結果出力部１２５へ送信する（Ｓ１５）。検索部１２１は、画像２に含まれるオブジェクトの情報および、オブジェクト間の関係性の情報を検索結果出力部１２５に送信する。検索部１２１の処理は、検索を続行する場合（Ｓ１６：Ｎｏ）には、処理（Ｓ１２）に戻る。検索部１２１の処理は、検索を終了する場合（Ｓ１６：Ｙｅｓ）には、終了する。

図９は、特徴抽出部１２２の処理の流れ図である。特徴抽出部１２２は、例えば、画像データ蓄積部１２３に新たに画像が追加された場合に実行される。なお、特徴抽出部１２２は、ユーザによって実行されてもよい。特徴抽出部１２２は、スケジューラ等に設定された所定周期で実行されてもよい。

特徴抽出部１２２は、画像データ蓄積部１２３から少なくとも一つの画像データを取得する（Ｓ２１）。画像抽出部１２２は、例えば、画像データ蓄積部１２３に新しく追加された画像データを取得してもよい。画像抽出部１２２は、画像データ蓄積部１２３に保存される全ての画像データを取得してもよい。

特徴抽出部１２２は、オブジェクト名情報１２４２（図４参照）を算出する（Ｓ２２）。特徴抽出部１２２は、処理（Ｓ２２）にて算出したオブジェクト名情報１２４２を用いて、関係名称情報１２４４（図５参照）を算出する（Ｓ２３）。

なお、特徴抽出部１２２の処理（Ｓ２２，２３）は、例えば、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）を用いることによって、オブジェクト名情報１２４２および関係名称情報１２４４を算出する。特徴抽出部１２２は、オブジェクトの位置情報およびオブジェクトの大きさの情報を算出してもよい。特徴抽出部１２２の検索用データの算出式を以下の数式１に示す。

（ｏ１，ｘ１，ｙ１，ｗ１，ｈ１，ｃ１，ｏ２，ｘ２，ｙ２，ｗ２，ｈ２，ｃ２，ｒ，ｃｒ）＝φ（Ｉ；θ）・・・式（１）

数式１の右辺において、「φ」は、ＣＮＮの式を示す。「Ｉ」は、入力画像のデータを示す。「θ」は、ＣＮＮのパラメータを示す。パラメータ「θ」は、画像に示される複数のオブジェクトのデータおよび、画像に示される複数のオブジェクトの間の関連性のデータを算出する為に、特徴抽出部１２２に設定される。特徴抽出部１２２は、「Ｉ」および「θ」を用いて、「φ」の式によって検索用データを算出する。

数式１の左辺は、検索用データを示す。「ｏ１」および「ｏ２」は、各オブジェクトの名称１２４２を示す。「ｘ１」、「ｘ２」、「ｙ１」および「ｙ２」は各オブジェクトの位置１２４７を示す。「ｗ１」、「ｗ２」、「ｈ１」および「ｈ２」は、各オブジェクトの大きさ１２４８を示す。「ｃ１」および「ｃ２」は、各オブジェクトの推定の信頼度を示す。「ｒ」は、関係名称情報１２４４を示す。「ｃｒ」は、関係名称情報１２４４の推定の信頼度を示す。なお、「ｏ１」および「ｏ２」を「ｏ」と示すように、各オブジェクト間で特に区別しない場合には、略記して各検索用データを示す場合がある。

なお、特徴抽出部１２２は、各オブジェクト間の関係名称情報１２４４を算出することに限らず、各オブジェクトの状態を示す状態名称情報を算出してもよい。すなわち、特徴抽出部１２２は、例えば、人の表情等を読み取ることによって、「笑っている」等の状態名称情報を算出する。検索部は、状態名称情報に基づいて、画像検索をしてもよい。

特徴抽出部１２２は、各オブジェクト間の距離に基づいて関係名称情報１２４４を算出する。図１０は、Ａ領域の拡大図である。特徴抽出部１２２は、例えば、オブジェクトの重心の位置を、オブジェクトの位置情報（図中、ひし形のマークとして示す）として算出する。位置情報は、例えば、ｙ座標および画像のｘ座標の二次元情報で示される。

特徴抽出部１２２は、人２１の位置情報（ｘ１１，ｙ１１）を算出する。特徴抽出部１２２は、鞄２３の位置情報（ｘ１２，ｙ１２）を算出する。特徴抽出部１２２は、人２５の位置情報（ｘ２１，ｙ２１）を算出する。特徴抽出部１２２は、鞄２６の位置情報（ｘ２２，ｙ２２）を算出する。

特徴抽出部１２２は、各位置情報間の距離を算出する。特徴抽出部１２２は、所定距離以内にある各オブジェクト同士を、関係性を有するオブジェクトとして判定する。すなわち、例えば、位置情報（ｘ１１，ｙ１１）および位置情報（ｘ１２，ｙ１２）の間の距離が所定距離以内であるため、特徴抽出部１２２は、人２５および鞄２６の間で関係名称情報１２４４を算出する。位置情報（ｘ１１，ｙ１１）および位置情報（ｘ２２，ｙ２２）の間の距離が所定距離よりも長いため、特徴抽出部１２２は、人２５および鞄２３の間の関係名称情報１２４４を算出しない。

なお、特徴抽出部１２２は、オブジェクトの重心の位置情報に基づいて各オブジェクトの距離を算出することに限らず、各オブジェクトの外形の最短距離によって各オブジェクトの距離を算出してもよい。各オブジェクトの位置情報は、二次元空間に限らず、三次元空間で位置情報を算出してもよい。

図９に戻り、特徴抽出部１２２は、算出した検索用データを特徴データ蓄積部１２４に送信する（Ｓ２４）。特徴抽出部１２２は、処理（Ｓ２４）の後に終了する。

検索部１２１は、検索ボタン１２０３が押される前に、画像データ蓄積部１２３および特徴データ蓄積部１２４から画像データおよび検索用データを取得することができる。これにより、検索部１２１は、画像検索（Ｓ１３〜Ｓ１５）の際に、画像データ蓄積部１２３と、特徴データ蓄積部１２４と、の通信頻度を抑制することができる。

なお、検索部１２１は、画像データおよび検索用データ取得処理（Ｓ１１）を画像検索開始処理（Ｓ１２：Ｙｅｓ）の後に実行してもよい。これにより、待機状態の場合において、検索部１２１は、メモリ１５の使用量を抑制することができる。

特徴抽出部１２２は、画像検索開始処理（Ｓ１２：Ｙｅｓ）の後に、画像データ蓄積部１２３の複数の画像から検索用データを算出してもよい。この場合において、検索部１２１は、検索用データを特徴抽出部１２２から取得してもよい。これにより、特徴データ蓄積部１２４に保存されるデータ容量を削減することができる。

ユーザは、一つのオブジェクトの情報と、一つの関連性の情報と、を検索クエリ入力部１２０に入力してもよい。この場合には、検索部１２１は、任意のオブジェクトのデータを特徴データ蓄積部１２４の中から選択する。検索部１２１は、検索クエリのオブジェクトと、選択した任意のオブジェクトと、の関連性のデータを取得する。検索部１２１は、取得した関連性のデータと、検索クエリの関連性のデータと、を比較することによって画像検索してもよい。

検索結果出力部１２５には、所定の画像に含まれる複数のオブジェクトが強調表示されてもよい。図１１はオブジェクトを強調表示する検索結果出力部１２５の説明図である。

検索結果出力部１２５は、検索クエリに含まれる所定のオブジェクトと、検索クエリに含まれる所定の関係名称情報と、を表示させる。検索結果出力部１２５は、例えば、人２１と、鞄２２と、「持っている」１２４４（１）と、モニタ１１に表示させる。

検索結果出力部１２５は、複数の所定のオブジェクトを離間してそれぞれ表示させる。検索結果出力部１２５は、表示される複数の所定のオブジェクト間に、所定の関係名称情報を表示させる。検索結果出力部１２５は、例えば、人２１および鞄２２を離間して表示させ、人２１および鞄２２の間に関連性を示すように「持っている」１２４４（１）を表示させる。

検索結果出力部１２５は、検索クエリに含まれない他の関係名称情報と、所定のオブジェクトと、他のオブジェクトと、の間の他の関係性表示させる。検索結果出力部１２５は、ステッカー４３と、「くっついている」１２４４（２）とを、表示させる。

検索結果出力部１２５は、他のオブジェクトを、表示される所定のオブジェクトから離間して表示させる。検索結果出力部１２５は、他の関係名称情報を、表示される所定のオブジェクトと、表示される他のオブジェクトと、の間に表示させる。検索結果出力部１２５は、鞄２２およびステッカー４３を離間して表示させ、鞄２２およびステッカー４３の間に関連性を示すように「くっついている」１２４４（２）を表示させる。

検索結果出力部１２５は、所定のオブジェクトと、所定の関係名称情報と、他のオブジェクトと、他の関係名称情報と、を画面のスクロール方向に並べて表示させる。検索結果出力部１２５は、例えば、モニタ１１のスクロール方向（Ｓ方向）において、人２１の下方向に人２５を表示し、鞄２２の下方向に鞄２８を表示し、「持っている」１２４４（１）の下方向に「持っている」１２４４（３）を表示させる。

検索結果出力部１２５は、検索クエリを表示させてもよい。検索クエリを表示することによって、ユーザが入力した情報を確認することができる。

検索結果出力部１２５は、図７，１１で示すレイアウトに限らず、視認性を向上させるために他の表示方法を採用してもよい。検索結果出力部１２５は、オブジェクトの推定の信頼度「ｃ」（数式１参照）に応じて、表示するオブジェクトの画像の大きさを設定してもよい。これにより、画像検索装置１は、検索結果の視認性を向上させることができる。

本実施例に示す画像検索装置１は、入力部１２０と、検索部１２１と、特徴抽出部１２２と、出力部１２５と、記憶部１２と、を備えることによって、関係名称情報１２４４を使用して画像検索することができる。その結果、画像検索装置１は、画像検索の精度を向上させることができる。

関係名称情報１２４４は、各オブジェクト間の物理的関係性を示すため、特徴抽出部１２２が各オブジェクト間の位置情報に基づいて関係名称情報１２４４を算出することができる。

特徴抽出部１２２は、画像に含まれるオブジェクト名情報１２４２を算出することができる。これにより、特徴抽出部１２２は、人の認識から漏れるオブジェクト名情報１２４２も特徴データ蓄積部１２４４に保存することができる。その結果、ユーザが自らオブジェクト名情報を入力せずともよくなるため、使い勝手が向上する。

特徴抽出部１２２は、各オブジェクトの位置情報に基づいて、物理的関係性を有する各オブジェクト間の関係名称情報１２４４を算出する為、所定の距離以上のオブジェクト間の関係名称情報１２４４を算出することを抑制する。これにより、特徴抽出部１２２は、余分な関係名称情報１２４４を算出することを抑制することができる。

検索クエリ入力部１２０は、検索クエリが文字で入力される機能を有するため、画像検索装置１の使い勝手が向上する。

検索クエリ入力部１２０は、オブジェクト名入力欄１２０１と、関係名入力欄１２０２と、をモニタ１１のスクロール方向に並べて表示する機能を有するため、モニタ１１に収まりきらない欄を表示することができる。これにより、画像検索装置１１の使い勝手が向上する。

検索結果出力部１２５は、複数の所定のオブジェクトを他のオブジェクトよりも強調して表示させる機能を有する。これにより、ユーザは、画像内に複数のオブジェクトが表示される場合であっても、所定のオブジェクトを容易に発見することができる。

検索結果出力部１２５は、所定の関係名称情報を表示させる機能を有する。これにより、ユーザは、どのオブジェクト同士が所定の関係性を有しているかを、容易に把握することができる。

検索結果出力部１２５は、他のオブジェクトと、他の関係名称情報と、を表示させる機能を有する。これにより、ユーザは、他のオブジェクトと、他の関係名称情報と、を把握することができる。

検索結果出力部１２５は、複数の所定のオブジェクトを離間してそれぞれ表示させる機能と、表示される複数の所定のオブジェクト間に、所定の関係名称情報を表示させる機能と、他のオブジェクトを表示される所定のオブジェクトから離間して表示させる機能と、他の関係名称情報を、表示される所定のオブジェクトおよび、表示される他のオブジェクト、の間に表示させる機能と、所定のオブジェクト、所定の関係名称情報、他のオブジェクトおよび、他の関係名称情報、画面のスクロール方向に並べて表示させる機能と、を有する。これにより、検索結果出力部１２５は、検索結果の視認性を向上させることができる。

本実施例は、第１実施例の変形例に相当するため、第１実施例との相違を中心に説明する。図１２は、画像検索装置１ａの概略図である。本実施例における画像検索装置１ａは、学習部１２７によって、特徴抽出部１２２ａに設定されるパラメータを学習する。

画像検索装置１ａは、検索クエリ入力部１２０ａと、検索部１２１と、特徴抽出部１２２ａと、画像データ蓄積部１２３ａと、特徴データ蓄積部１２４ａと、検索結果出力部１２５ａと、画像データ取得部１２６と、学習部１２７と、を有する。検索クエリ入力部１２０ａは、ユーザから検索クエリを受け付ける機能である。検索クエリ入力部１２０ａは、例えば、モニタ１１に表示されたＵＩである。検索クエリ入力部１２０ａは、検索部１２１および学習部１２７と単方向に通信可能に接続される。

特徴抽出部１２２ａは、画像から検索用データを算出する機能である。特徴抽出部１２２ａは、画像データ蓄積部１２３ａと単方向に通信可能に接続される。特徴抽出部１２２ａは、特徴データ蓄積部１２４ａおよび学習部１２７と双方向に通信可能に接続される。特徴抽出部１２２ａは、検索部１２１と双方向に通信可能に接続されてもよい。

画像データ蓄積部１２３ａは、複数の画像を保存するデータベースである。画像データ蓄積部１２３ａには、学習部１２７で使用される学習用画像が保存される。特徴データ蓄積部１２４ａは、画像ごとの検索用データを保存するデータベースである。特徴データ蓄積部１２４ａには、学習用画像に含まれる検索用データを示す教師データが保存される。

学習部１２７は、パラメータ「θ」を学習する機能である。学習部１２７は、画像データ蓄積部１２３、特徴データ蓄積部１２４ａおよび検索結果出力部１２５ａと単方向に通信可能に接続される。なお、学習処理は、図１３にて後述する。

検索結果出力部１２５ａは、検索部１２１の検索結果をユーザへ出力する機能である。検索結果出力部１２５ａは、例えば、モニタ１１に表示されるＵＩである。検索結果出力部１２５ａは、学習部１２７の学習結果を出力してもよい。

図１３は、学習処理の流れ図である。学習処理は、学習部１２７の処理（Ｓ３０，Ｓ３１，Ｓ３６，Ｓ３７）と、特徴抽出部１２２ａの処理（Ｓ３２〜Ｓ３５，Ｓ３８）と、にて実行される。学習処理は、ユーザからの操作に限らず、所定周期で実行されてもよい。

学習部１２７は、学習用画像のデータを画像データ蓄積部１２３から複数取得する（Ｓ３０）。学習部１２７は、複数の学習用画像それぞれに対応する教師データを特徴データ蓄積部１２４ａから取得する（Ｓ３１）。

特徴抽出部１２２ａは、パラメータ「θ」を初期化する（Ｓ３２）。特徴抽出部１２２ａがＣＮＮで構成されている場合には、特徴抽出部１２２ａは、例えば、ガウス分布や一様分布からランダムに値を抽出することよって、パラメータ「θ」を初期化する。学習部１２７は、複数の学習用画像のデータを特徴抽出部１２２ａに送信する（Ｓ３３）。

特徴抽出部１２２ａは、学習用画像から検索用データを算出する（Ｓ３４）。すなわち、学習部１２７は、学習用画像に示される複数のオブジェクトのデータおよび、学習用画像に示される複数のオブジェクトの間の関連性のデータを、学習前のデータとして特徴抽出部１２２に算出させる。特徴抽出部１２２ａは、学習用画像ごとに算出した複数の検索用データを学習部１２７に送信する（Ｓ３５）。

学習部１２７は、教師データと、特徴抽出部１２２ａが算出した学習前の検索用データと、に基づいてパラメータの更新値を算出する（Ｓ３６）。学習部１２７は、例えば、特徴抽出部１２２ａから受信した複数の検索用データと、特徴データ蓄積部１２４から受信した複数の教師データと、を学習用画像ごとに対応させる。学習部１２７は、検索用データと、教師データと、の誤差を算出する。学習部１２７は、算出した誤差に基づいて、複数のパラメータの更新値を計算する。

学習部１２７は、例えば、二乗誤差の計算方法を用いることによって、各オブジェクトの位置「ｘ」，「ｙ」および各オブジェクトの大きさ「ｗ」，「ｈ」（数式１参照）の誤差を算出する。学習部１２７は、例えば、「Ｓｏｆｔｍａｘｃｒｏｓｓｅｎｔｒｏｐｙ」を用いることによって、推定の信頼度「ｃ」，「ｃｒ」の誤差を算出する。学習部１２７は、例えば、誤差逆伝播法を用いることによって、算出した各誤差の値からパラメータの更新値を算出する。

学習部１２７は、パラメータの更新値を特徴抽出部１２２ａに送信する（Ｓ３７）。特徴抽出部１２２ａは、パラメータの値を更新する（Ｓ３８）。特徴抽出部１２２ａは、例えば、確率的勾配降下法を用いることによって、パラメータを更新する。

学習部１２７は、学習を継続するか終了するかを決定する（Ｓ３９）。学習を続行する場合（Ｓ３９：Ｎｏ）には、学習部１２７の処理は、処理（Ｓ３３）に移動する。学習を終了する場合（Ｓ３９：Ｙｅｓ）には、学習部１２７の処理は、終了する。

なお、学習部１２７の終了処理は、ユーザによって操作されてもよい。学習部１２７は、更新後のパラメータにて算出された検索用データおよび教師データの誤差と、更新前のパラメータにて算出された検索用データおよび教師データの誤差と、の差分を監視することによって、学習を続行させるかどうかを判断してもよい。

なお、検索開始処理（Ｓ１２：Ｙｅｓ）（図８参照）が実行された場合には、特徴抽出部１２２ａは、画像データ蓄積部１２３から複数の画像を取得し、検索用データを算出してもよい。これにより、検索部１２１は、パラメータが更新された特徴抽出部１２２ａによって算出された検索用データに基づいて画像検索することができる。

このように構成される本実施例では、第１の実施例と同様の作用効果を奏する。さらに、本実施例によれば、画像検索装置１ａは、学習部１２７を備える為、特徴抽出部１２２ａのパラメータを更新することができる。これにより、特徴抽出部１２２ａは、検索用データを算出する精度を向上させることができる。その結果、画像検索装置１ａは、画像検索の精度を向上させることができる。

本実施例は、第１実施例および第２実施例の変形例に相当するため、第１実施例および第２実施例との相違を中心に説明する。図１４は、画像検索装置１ｂの概略図である。本実施例における画像検索装置１ｂは、入力画像に基づいて、所定の画像を検索する。

画像検索装置１ｂは、検索クエリ入力部１２０ｂと、検索部１２１ｂと、特徴抽出部１２２ｂと、画像データ蓄積部１２３ａと、特徴データ蓄積部１２４ａと、検索結果出力部１２５ａと、画像データ取得部１２６と、学習部１２７と、を有する。

検索クエリ入力部１２０ｂは、ユーザから入力画像を受け付ける機能である。入力画像には、所定の画像に含まれる複数のオブジェクトと同一または類似する複数のオブジェクトが表示される。検索クエリ入力部１２０ｂは、例えば、モニタ１１に表示されたＵＩである。検索クエリ入力部１２０ｂは、検索部１２１ｂおよび学習部１２７と単方向に通信可能に接続される。検索クエリ入力部１２０ｂは、図１５にて後述する。

特徴抽出部１２２ｂは、画像から検索用データを算出する機能である。特徴抽出部１２２ｂは、画像データ蓄積部１２３ａと単方向に通信可能に接続される。特徴抽出部１２２ｂは、検索部１２１ｂ、特徴データ蓄積部１２４ｂおよび学習部１２７と双方向に通信可能に接続される。

特徴抽出部１２２ｂは、入力画像のデータから検索クエリを算出する。検索部１２１ｂは、特徴抽出部１２２にて算出された検索クエリに基づいて記憶部１２を検索し、検索クエリに対応する所定の画像を抽出する機能である。検索部１２１ｂは、画像データ蓄積部１２３ａ、特徴データ蓄積部１２４ａおよび検索結果出力部１２５ａと単方向に通信可能に接続される。検索部１２１ｂと特徴抽出部１２２ｂとの処理は、図１６にて後述する。

図１５は、検索クエリ入力部１２０ｂの説明図である。検索クエリ入力部１２０ｂは、画像入力欄１２０４と、検索ボタン１２０３と、が表示される。画像入力欄１２０４は、入力画像を入力する領域である。ユーザは、所定の画像に含まれるオブジェクトの画像を入力してもよい。ユーザは、所定の画像に含まれるオブジェクトに類似するオブジェクトの画像を入力してもよい。ユーザは、所定の画像に類似する画像を入力してもよい。

画像入力欄１２０４は、例えば、モニタ１１の中央に表示される。ユーザは、１枚の画像を入力することに限らず、複数の画像を入力してもよい。この場合には、画像入力欄１２０４は、例えば、モニタ１１のスクロール方向に並べて複数表示されてもよい。

図１６は、画像検索処理の流れ図である。画像検索処理は、検索ボタン１２０３をユーザが押すことによって実行されてもよい。検索部１２１ｂは、検索クエリ入力部１２０ｂから入力画像のデータを取得（Ｓ４１）する。検索部１２１ｂは、特徴抽出部１２２ｂへ入力画像のデータを送信する（Ｓ４２）。

特徴抽出部１２２ｂは、入力画像から検索クエリを算出する（Ｓ４３）。特徴抽出部１２２ｂは、検索部１２１ｂに検索クエリを送信する（Ｓ４４）。

検索部１２１ｂは、特徴抽出部１２２ｂから取得した入力画像の検索クエリと、特徴データ蓄積部１２４に保存される複数の画像の検索用データとを比較することによって、複数の画像の中から所定の画像を検索する（Ｓ４５）。検索部１２１ｂは、所定の画像を検索結果出力部１２５ａへ送信する（Ｓ４６）。

なお、画像検索装置１ｂは、入力画像と複数の画像との類似度に基づいて所定の画像を検索してもよい。この場合において、特徴抽出部１２２ｂは、例えば、ＣＮＮを用いることによって、画像から特徴ベクトルを算出する。

特徴ベクトルは、例えば、画像に示される特徴を示すｍ次元（ｍは所定の定数）のデータ群である。特徴ベクトルには、画像に含まれる複数のオブジェクトの特徴と、前記画像に含まれる複数のオブジェクト間の関係性の特徴と、が含まれる。特徴抽出部１２２ｂは、オブジェクトの色の特徴およびオブジェクトの模様の特徴等を特徴ベクトルとして算出してもよい。

特徴抽出部１２２ｂは、入力画像から算出した特徴ベクトルおよび、記憶部１２に保存される画像から算出した特徴ベクトル、に基づいて、入力画像に対する類似度を記憶部１２に保存される画像ごとに複数算出する。検索部１２１ｂは、複数の類似度に基づいて記憶部１２を検索し、所定の画像を抽出する。

なお、特徴抽出部１２２ｂは、ＣＮＮの「Ａｃｔｉｖａｔｉｏｎｍａｐ」を用いて画像からオブジェクトが表示される領域の情報を算出してもよい。特徴抽出部１２２ｂは、算出した領域の特徴ベクトルを算出することによって、入力画像および複数の画像に示される同一のオブジェクトに関する類似度を向上させることができる。

特徴抽出部１２２ｂは、例えば、入力画像の特徴ベクトルと、複数の画像の特徴ベクトルと、の類似度を、ユークリッド距離を用いて計算してもよい。すなわち、ｍ種類の特徴を軸としたｍ次元において、入力画像の特徴ベクトルと、複数の画像の特徴ベクトルと、の距離を測ることによって、特徴抽出部１２２ｂは、類似度を算出する。

学習部１２７は、特徴抽出部１２２ｂに画像の特徴ベクトルを算出するパラメータを設定してもよい。学習部１２７は、複数の画像を色補正して特徴ベクトルを算出する処理を特徴抽出部１２２ｂに学習させてもよい。これにより、検索部１２１ｂは、色補正なしで算出した類似度よりも高い類似度を算出することができる。

検索結果出力部１２５ｂは、類似度に基づいて所定の画像を出力してもよい。検索結果出力部１２５ｂは、例えば、類似度の高い方から順番に複数の所定の画像を並べてモニタ１１に表示させてもよい。これにより、画像検索装置１ｂは、視認性を向上させることができる。

このように構成される本実施例では、第１，２実施例と同様の作用効果を奏する。さらに、本実施例によれば、画像検索装置１ｂは、検索クエリ入力部１２０ｂと、入力画像から検索クエリを算出する特徴抽出部１２２ｂと、を備える為、入力画像に類似する画像を検索することができる。これにより、ユーザは、入力画像を入力する事によって画像検索することができる。

さらに、特徴抽出部１２２ｂは、画像の特徴ベクトルを算出する機能と、入力画像および画像データ記憶部１２３aに保存される画像の間の類似度を記憶部に保存される画像ごとに複数算出する機能と、を有する。検索部は、複数の類似度に基づいて記憶部を検索し、所定の画像を抽出する機能を有する。これにより、画像検索装置１ｂは、入力画像と、画像データ蓄積部１２３aと、の間の類似度に基づいて画像検索することができる。

本実施例は、第１実施例〜第３実施例の変形例に相当するため、第１実施例〜第３実施例との相違を中心に説明する。図１７は、画像検索装置１ｃの概略図である。本実施例における画像検索装置１ｃは、入力された検索クエリによって画像検索し、入力画像に基づいて、検索結果の複数の所定の画像を並び変えて表示させる。

画像検索装置１ｃは、検索クエリ入力部１２０ｃと、検索部１２１ｃと、特徴抽出部１２２ｃと、画像データ蓄積部１２３ａと、特徴データ蓄積部１２４ａと、検索結果出力部１２５ａと、画像データ取得部１２６と、学習部１２７と、を有する。

検索クエリ入力部１２０ｃは、ユーザから検索クエリおよび入力画像を受け付ける機能である。検索クエリ入力部１２０ｃは、検索クエリを文字で受け付ける。検索クエリ入力部１２０ｃは、例えば、モニタ１１に表示されたＵＩである。検索クエリ入力部１２０ｃは、検索部１２１ｃおよび学習部１２７と単方向に通信可能に接続される。検索クエリ入力部１２０ｃは、図１８にて後述する。

特徴抽出部１２２ｃは、画像から検索用データを算出する機能と、画像のデータから特徴ベクトルを算出する機能と、である。特徴抽出部１２２ｃは、画像データ蓄積部１２３ｃと単方向に通信可能に接続される。特徴抽出部１２２ｃは、検索部１２１ｃ、特徴データ蓄積部１２４ａおよび学習部１２７と双方向に通信可能に接続される。

検索部１２１ｃは、検索クエリに基づいて記憶部１２を検索し、検索クエリに対応する所定の画像を抽出する機能である。検索部１２１ｃは、画像データ蓄積部１２３ａ、特徴データ蓄積部１２４ａおよび検索結果出力部１２５ａと単方向に通信可能に接続される。検索部１２１ｂおよび特徴抽出部１２２ｂの処理は、図１９にて後述する。

図１８は、検索クエリ入力部１２０ｃの説明図である。検索クエリ入力部１２０ｃは、オブジェクト名入力欄１２０１と、関係名入力欄１２０２と、検索ボタン１２０３と、画像入力欄１２０４と、をモニタ１１に表示させる。オブジェクト名入力欄１２０１および関係名入力欄１２０２には、例えば、「人」および「鞄」を示すオブジェクト名情報１２４２と、「持っている」を示す関係名称情報１２４４ｄと、が入力される。

図１９は、画像検索処理の流れ図である。検索部１２１ｃは、検索クエリ入力部１２０ｃから入力画像と検索クエリとを取得する（Ｓ５１）。検索部１２１ｃは、複数の画像から少なくとも一つの所定の画像を検索する（Ｓ５２）。検索部１２１ｃは、例えば、第１実施例における検索処理（Ｓ１２〜Ｓ１５）（図８参照）と同様にして、複数の画像の中から複数の所定の画像を検索する。

特徴抽出部１２２ｃは、検索部１２１ｃから、入力画像のデータと、複数の所定の画像のデータと、を取得する。特徴抽出部１２１ｃは、入力画像に含まれる特徴ベクトルを算出する。特徴抽出部１２１ｃは、所定の画像に含まれる特徴ベクトルを算出する。特徴抽出部１２１ｃは、算出した特徴ベクトルに基づいて、入力画像に対しての類似度を所定の画像ごとに算出する（Ｓ５３）。

特徴抽出部１２２ｃは、検索部１２１ｃに複数の類似度のデータを送信する（Ｓ５４）。検索部１２１ｃは、検索結果出力部１２５ｃに、複数の所定の画像のデータと、所定の画像に設定される類似度のデータと、を送信する。検索結果出力部１２５ｃは、類似度に基づいて、複数の所定の画像をモニタ１１に表示させる（Ｓ５５）。たとえば、検索結果出力部１２５ｃは、複数の所定の画像のうち類似度が上位に位置する画像を、他の画像よりも優先してモニタに表示する。

このように構成される本実施例では、第１〜第３の実施例と同様の作用効果を奏する。さらに、本実施例によれば、画像検索装置１ｃは、検索クエリ入力部１２０ｃと、検索部１２１ｃと、を有する事によって、検索クエリにて検索した画像を並び替えて表示することができる。画像検索装置１ｃは、検索部１２１ｃで検索した画像を、入力画像との類似度に基づいて表示することができる。これにより、画像検索装置は、検索結果の視認性を向上させることができる。

本実施例は、第１実施例〜第４実施例の変形例に相当するため、第１実施例〜第４実施例との相違を中心に説明する。図２０は、オブジェクトの情報の説明図である。本実施例における画像検索装置は、入力された上位キーワード１２５８から下位キーワード１２５９を算出し、下位キーワード１２５９に基づいて画像検索する。検索部１２１ｄは、上位キーワード１２５８から複数の下位キーワード１２５９を算出する処理を有する。

上位キーワード１２５８は、所定の画像の特徴を示すキーワードである。上位キーワード１２５８は、ユーザによって検索クエリ入力部に入力される。下位キーワード１２５９は、上位キーワード１２５８を構成するオブジェクトの名称である。なお、下位キーワードは、所定の画像に含まれるオブジェクトの性質を示してもよい。下位キーワード１２５９は、上位キーワード１２５８の性質を示してもよい。

ユーザが、例えば、「女性社員」を検索クエリ入力部へ入力する。検索部１２１ｄは、「女性社員」を示すデータを入力部から取得する。

検索部１２１ｄは、「女性社員」に対応する複数の下位キーワード１２５９を算出する。検索部１２１ｄは、例えば、「女性」、「スーツ」、「パンプス」または「靴」等を示すデータを算出する。なお、検索部１２１ｄは、画像検索履歴に基づいて上位キーワード１２５８から下位キーワード１２５９を推定してもよい。

検索部１２１ｄは、特徴データ蓄積部に保存される検索用データと、「女性社員」に対応する複数の下位キーワード１２５９と、を比較して所定の画像を少なくとも一つ検索する。検索部は、検索結果出力部に所定の画像のデータを送信する。出力部は、所定の画像を表示する。

本実施例に示す画像検索装置は、一つの上位キーワード１２５８をユーザが入力した場合でも、複数の下位キーワード１２５９を用いて画像検索することができる。これにより、画像検索装置は、画像検索の精度が向上する。

本実施例は、第１実施例〜第４実施例の変形例に相当するため、第１実施例〜第４実施例との相違を中心に説明する。本実施例における画像検索装置は、動画に映る複数のオブジェクトの時間経過による変化に基づいて画像検索する。以下、本実施例の画像検索装置を駅５の中を移動する人２５，２９を一例に挙げながら説明する。

図２１は、駅５の概略図である。駅５には、例えば、入口５１と、券売機５２と、改札口５３と、が設けられる。駅５内を移動する人２５，２９は、監視カメラ等の動画を撮影する機器によって撮影される。

人２５は、例えば、入口５１から券売機５２へ向かい、券売機５２で切符を購入し、改札口５３へ向かう。人２９は、改札口５３から出た後、入口５１へ向かう。

図２２（１）は、駅５構内を移動する人２５，２９の情報の説明図である。特徴データ蓄積部１２４ｅは、「特徴ＩＤ」１２６１と、特徴情報１２６２と、前時間特徴１２６３と、後時間特徴１２６４と、を有する。「特徴ＩＤ」１２６１には、人２５，２９の特徴情報１２６２を識別する情報が保存される。

特徴情報１２６２には、人２５，２９の特徴を示すデータが保存される。特徴情報１２６２には、例えば、「電車に乗る人」または「電車から降りた人」等が保存される。前時間特徴１２６３と、後時間特徴１２６４とは、人２５，２９の時間経過の状態を示す。すなわち、人２５，２９が「財布を持っている」状態から「券売機から改札へ向かう」状態に移る場合には、人２５，２９は、「電車に乗る人」の特徴を有する。

図２２（２）は、前時間特徴１２６３の詳細を示す図である。前時間特徴１２６３は、「前特徴ＩＤ」１２６３１と、第１オブジェクト１２６３２と、第２オブジェクト１２６３３と、関係性１２６３４と、を有する。「前特徴ＩＤ」１２６３１には、前時間特徴１２６３を識別する為の情報が保存される。

第１オブジェクト１２６３２および第２オブジェクト１２６３３には、オブジェクトの情報が保存される。第１オブジェクト１２６３２には、例えば、「人」等が保存される。第２オブジェクト１２６３３には、例えば、「財布」または「改札口」等が保存される。

関係性１２６３４には、第１オブジェクト１２６３２と、第２オブジェクト１２６３３と、の関連性の情報が保存される。関係性１２６３４には、例えば、「持っている」または「通過」等が保存される。

図２２（３）は、後時間特徴１２６４の詳細を示す図である。後時間特徴１２６４は、「後特徴ＩＤ」１２６４１と、第１オブジェクト１２６４２と、第２オブジェクト１２６４３と、関連性１２６４４と、を有する。「後特徴ＩＤ」１２６４１には、後時間特徴１２６４を識別する為の情報が保存される。

第１オブジェクト１２６４２および第２オブジェクト１２６４３には、オブジェクトの情報が保存される。第１オブジェクト１２６４２には、例えば、「人」等が保存される。第２オブジェクト１２６４３には、例えば、「切符」または「入口」等が保存される。関連性１２６４４には、第１オブジェクト１２６４２と、第２オブジェクト１２６４３と、の関連性が保存される。関連性１２６４４には、例えば、「持っている」または「通過」等が保存される。

ユーザは、例えば、「電車に乗る人」と入力部に入力する。検索部は、「電車に乗る人」を示すデータを入力部から取得する。検索部は、駅５を撮影する動画の中に、「財布を持っている」状態から「券売機から改札へ向かう」状態に移る人２５，２９を検索する。

位置情報２９１において、検索部は、人２５が「財布」を「持っている」状態であると認識する。位置情報２９２において、検索部は、人２５が「切符」を「持っている」状態であると認識する。人２５が位置情報２９１から位置情報２９２に移動する為、検索部は、人２５を「電車に乗る人」と判定する。

検索部は、人２５の映る所定の画像を所定の画像として、画像データ蓄積部に保存される動画データから抽出する。検索部は、所定の画像を出力部へ送信する。検索結果出力部は、所定の画像をモニタへ表示する。

本実施例に示す画像検索装置は、時間によって変動するオブジェクトまたはオブジェクト間の関連性に基づいて所定の画像を検索することができる。

本実施例は、第１実施例〜第４実施例の変形例に相当するため、第１実施例〜第４実施例との相違を中心に説明する。本実施例における画像検索装置１ｆは、複数のユーザによって画像検索され、ユーザごとに隔離した画像データ蓄積部１２３を有する。図２３は、画像検索装置１ｆのハードウェア構成図である。画像検索装置１ｆには、ネットワーク７を介して、複数の端末６（１）〜６（ｎ）（ｎは任意の整数）が接続される。端末６（１）〜６（ｎ）は、特に区別しない場合には、端末６と示す場合がある。

画像検索装置１ｆは、記憶部１２ｆと、ＣＰＵ１４と、メモリ１５と、通信インターフェース１６と、データ伝送路１７と、有する。記憶部１２ｆには、検索部１２１と、特徴抽出部１２２と、画像データ取得部１２６と、端末データベース１２８（１）〜１２８（ｎ）と、を有する。端末データベース１２８（１）〜１２８（ｎ）は、特に区別しない場合には、端末データベース１２８と示す場合がある。画像検索装置１ｆは、いわゆるクラウドとして知られているように、ネットワーク上に設けられた一つまたは複数のコンピュータ上に設けることができる。

端末データベース１２８は、端末６ごとに画像データと検索用データとを記憶するデータベースである。端末データベース１２８ごとに保存されるデータが隔離されることによって、ユーザは、対応する端末６以外の他の端末６からのアクセスが制限される。例えば、端末データベース１２８（１）は、端末６（１）からアクセス可能であり、端末６（２）からのアクセスが制限される。端末データベース１２８は、画像データ蓄積部１２３（１）〜１２３（ｎ）と、特徴データ蓄積部１２４（１）〜１２４（ｎ）と、を有する。

端末６は、通信インターフェース（図中、通信Ｉ／Ｆと示す）６１（１）〜６１（ｎ）と、検索クエリ入力部１２０と、検索結果出力部１２５と、を有するコンピュータである。通信インターフェース６１（１）〜６１（ｎ）は、特に区別しない場合には、通信インターフェース６１と示す場合がある。

通信インターフェース６１は、例えば、ＬＡＮの接続端子、ＳＡＮの接続端子または無線通信の接続装置である。検索クエリ入力部１２０と、検索結果出力部１２５と、は、各端末６の記憶部に記憶される。

ユーザは、例えば、複数の端末６の内の端末６（１）を使用する。ユーザは、検索クエリ入力部１２５に検索クエリを入力する。端末６（１）は、通信インターフェース６１（１）を介して検索クエリと端末（１）とを識別する情報を画像検索装置１ｆへ送信する。

画像検索装置１ｆは、取得した検索クエリに基づいて検索部１２１にて画像検索をする。検索部１２１は、端末（１）を識別する情報に基づいて、端末データベース１２８（１）を選択する。検索部１２１は、特徴データ蓄積部１２４（１）に保存される検索用データと、端末６（１）から取得した検索クエリと、に基づいて、画像データ蓄積部１２３（１）に保存される複数の画像の中から所定の画像を検索する。

画像検索装置１ｆは、通信インターフェース１６を介して、所定の画像を端末６（１）に送信する。検索結果出力部１２５は、取得した所定の画像を検索結果出力部１２５によって出力する。

本実施例に示す画像検索装置１ｆは、複数の端末６で一台の画像検索装置１ｆを共有して使用することができる。これにより、複数のユーザが画像検索装置１ｆを使用することができる。

記憶部１２に保存される画像データおよび検索用データが端末データベース１２８ごとに隔離されるため、画像検索装置１ｆは、異なる属性の複数のユーザによって使用されても、他のユーザに対してデータを隠蔽することができる。

本実施例は、第１実施例〜第４実施例の変形例に相当するため、第１実施例〜第４実施例との相違を中心に説明する。本実施例における画像検索システムは、ユーザが複数の監視カメラ９の動画データ中から画像検索をする機能を有する。図２３は、画像検索システム８の説明図である。画像検索システム８は、画像検索装置８１，８２（１）〜８２（ｎ）を有する。「ｐ」は、任意の定数である。画像検索装置８２（１）〜８２（ｐ）は、特に区別しない場合には、画像検索装置８２と示す場合がある。画像検索装置８１がユーザごとにデータを追加学習させることによって、画像検索装置８２は生成される。

各画像検索装置８２は、ネットワーク７を介して、複数の端末６と、監視カメラ９（１）〜９（ｑ）と、双方向に通信可能に接続される。「ｑ」は、任意の定数である。監視カメラ９（１）〜９（ｑ）は、特に区別しない場合には、監視カメラ９と示す場合がある。なお、監視カメラ９は、動画を撮影する他の機器でもよい。

ユーザは、端末６を操作することによって、監視カメラ９の撮影データの中から所定の画像を検索する。すなわち、ユーザは、例えば、端末６（１）を選択する。ユーザは、端末６（１）を操作して、各監視カメラ９の中から一つ選択する。ユーザは、例えば、監視カメラ９（１）を選択する。

ユーザは、画像検索装置８２にて監視カメラ９（１）の撮影データの中から所定の画像を検索する。本実施例において、ユーザに対応する画像検索装置８２は、例えば、画像検索装置８２（１）である。画像検索装置８２（１）は、監視カメラ９（１）から撮影データを取得することによって画像検索する。画像検索装置８２（１）は、検索結果の画像を端末６（１）に送信する。端末６（１）は、検索結果の画像を出力する。

本実施例に示す画像検索システム８は、各端末６および各監視カメラ９とネットワーク７を介して接続されることによって、ユーザが各監視カメラの撮影データを利用して画像検索することができる。

なお、本発明は上述の実施形態に限定されず、様々な変形例が含まれる。上記実施形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施形態の構成の一部を他の実施形態の構成に置き換えることもできる。また、ある実施形態の構成に他の実施形態の構成を加えることもできる。また、各実施形態の構成の一部について、他の構成を追加・削除・置換することもできる。

上記各構成、機能、処理部、処理手段等は、それらの一部や全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスク、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記録装置、ＩＣカード、ＳＤカード、ＤＶＤ等の記録媒体に格納することができる。

また、上述した実施形態に含まれる技術的特徴は、特許請求の範囲に明示された組み合わせに限らず、適宜組み合わせることができる。

１…画像検索装置，２…画像，１２０…検索クエリ入力部，１２１…検索部，１２２…特徴抽出部，１２３…画像データ蓄積部，１２４…特徴データ蓄積部，１２５…検索結果出力部，１２６…画像データ取得部

Claims

画像検索装置であって、
画像に含まれる複数のオブジェクトのオブジェクト名情報と、前記画像に含まれる複数のオブジェクト間の所定の関係性を示す関係名称情報とを含む検索用データを算出する特徴抽出部と、
前記検索用データを前記画像に対応付けて記憶する記憶部と、
前記オブジェクト名情報または前記関係名称情報のうち少なくともいずれか一方を検索クエリとして入力を受け付ける入力部と、
前記検索クエリに基づいて前記記憶部を検索し、前記検索クエリに対応する所定の画像を抽出する検索部と、
検索結果を出力する出力部と、を備える
画像検索装置。
前記所定の関係性は、前記各オブジェクト間の物理的関係性を示す
請求項１に記載の画像検索装置。
前記特徴抽出部は、
画像に含まれる前記複数のオブジェクトそれぞれの位置情報を算出する機能と、
前記関係名称情報を前記位置情報に基づいて算出する機能と、を有する
請求項１に記載の画像検索装置。
前記入力部は、前記検索クエリを文字で受け付ける機能を有する
請求項１に記載の画像検索装置。
前記入力部は、
前記オブジェクト名情報を受け付ける複数のオブジェクト名入力欄と、前記関係名称情報を受け付ける少なくとも一つの関係名入力欄と、を表示させる機能と、
前記複数のオブジェクト名入力欄および前記少なくとも一つの関係名入力欄を、画面のスクロール方向に並べて表示させる機能と、を有する
請求項４に記載の画像検索装置。
前記入力部は、複数のオブジェクトを含む入力画像を受け付ける機能を有し、
前記特徴抽出部は、前記入力画像から検索クエリを算出する機能を有し、
前記検索部は、前記入力画像から算出された検索クエリに対応する所定の画像を前記記憶部から抽出する機能を有する
請求項１に記載の画像検索装置。
さらに、前記特徴抽出部は、
前記画像に含まれる複数のオブジェクトの特徴と、前記画像に含まれる複数のオブジェクト間の関係性の特徴と、を示す特徴ベクトルを算出する機能と、
前記入力画像から算出した特徴ベクトルおよび、前記記憶部に保存される画像から算出した特徴ベクトル、に基づいて、前記入力画像に対する類似度を前記記憶部に保存される画像ごとに複数算出する機能と、を有し、
前記検索部は、前記複数の類似度に基づいて前記記憶部を検索し、所定の画像を抽出する機能を有する
請求項６に記載の画像検索装置。
前記入力部は、複数のオブジェクトを含む入力画像を受け付ける機能を有し、
前記検索部は、前記文字で受け付けた検索クエリに対応する所定の画像を前記記憶部から複数抽出する機能を有し、
前記特徴抽出部は、
前記画像に含まれる複数のオブジェクトの特徴と、前記画像に含まれる複数のオブジェクト間の関係性の特徴と、を示す特徴ベクトルを算出する機能と、
前記所定の画像から算出した特徴ベクトルおよび、前記入力画像から算出した特徴ベクトル、に基づいて、前記入力画像に対する類似度を前記所定の画像ごとに複数算出する機能と、を有し、
さらに、前記出力部は、前記類似度に基づいて、前記所定の画像を出力する機能を有する
請求項４に記載の画像検索装置。
さらに、前記特徴抽出部は、前記画像から前記検索用データを算出する為のパラメータを有し、
さらに、前記画像検索装置は、前記パラメータを学習する学習部を有し、
さらに、前記記憶部には、
前記学習部が学習する際に用いる学習用画像と、
前記学習用画像に含まれる検索用データを示す教師データと、が記憶され、
前記学習部は、
前記学習用画像に含まれる検索用データを、パラメータ更新前の特徴抽出部に学習前データとして算出させる機能と、
前記教師データおよび前記学習前データに基づいて、前記パラメータの更新値を学習する機能と、
前記パラメータの更新値に基づいて、前記特徴抽出部の前記パラメータを更新する機能と、を有する
請求項１に記載の画像検索装置。
前記検索クエリに含まれるオブジェクト名情報は、複数の所定のオブジェクトを示し、
前記出力部は、前記所定の画像に含まれる前記所定のオブジェクトを他のオブジェクトよりも強調して表示させる機能を有する
請求項１に記載の画像検索装置。
前記検索クエリに含まれる関係名称情報は、所定の関係名称情報を示し、
さらに、前記出力部は、前記所定の関係名称情報を表示させる機能を有する
請求項１０に記載の画像検索装置。
他の関係名称情報は、前記所定のオブジェクトと、前記他のオブジェクトと、の間の関係性を示し、
さらに、前記出力部は、前記他のオブジェクトと、前記他の関係名称情報と、を表示させる機能を有する
請求項１１に記載の画像検索装置。
さらに、前記出力部は、
前記複数の所定のオブジェクトを離間してそれぞれ表示させる機能と、
前記表示される複数の所定のオブジェクト間に、前記所定の関係名称情報を表示させる機能と、
前記他のオブジェクトを前記表示される所定のオブジェクトから離間して表示させる機能と、
前記他の関係名称情報を、前記表示される所定のオブジェクトおよび、前記表示される他のオブジェクト、の間に表示させる機能と、
前記所定のオブジェクト、前記所定の関係名称情報、前記他のオブジェクトおよび、前記他の関係名称情報、画面のスクロール方向に並べて表示させる機能と、を有する
請求項１２に記載の画像検索装置。
画像に含まれる複数のオブジェクトのオブジェクト名情報と、前記画像に含まれる複数のオブジェクト間の所定の関係性を示す関係名称情報とを含む検索用データを算出し、
前記検索用データを画像に対応付けて記憶し、
前記オブジェクト名情報または前記関係名称情報のうち少なくともいずれか一方が検索クエリとして入力され、
前記検索クエリに基づいて記憶部を検索し、
前記検索クエリに対応する所定の画像を抽出し、
検索結果を出力する
画像検索方法。
コンピュータを、画像検索装置として機能させるためのコンピュータプログラムであって、
前記コンピュータ上に、
画像に含まれる複数のオブジェクトのオブジェクト名情報と、前記画像に含まれる複数のオブジェクト間の所定の関係性を示す関係名称情報とを含む検索用データを算出する特徴抽出部と、
前記検索用データを画像に対応付けて記憶する記憶部と、
前記オブジェクト名情報または前記関係名称情報のうち少なくともいずれか一方を検索クエリとして入力を受け付ける入力部と、
前記検索クエリに基づいて前記記憶部を検索し、前記検索クエリに対応する所定の画像を抽出する検索部と、
検索結果を出力する出力部と、をそれぞれ実現させるためのコンピュータプログラム。