以下、図面に従って本発明を適用した画像検索システムを用いて好ましい本発明に関連する技術及び実施形態について説明する。本発明に関連する技術は、本発明に関連する技術をカメラ10に適用した例である。このカメラ10は、通信部を介して、外部のサーバー等に記録されている画像の検索が可能である。画像検索にあたっては、まず、キーワード等によって画像を検索し、これによって検索された類似画像の共通の特徴情報を抽出し、抽出された特徴情報を用いてさらに類似画像の検索を行う。特徴情報を用いての類似画像の検索にあたっては、キーワード等を必要としないので、別言語が付与されている画像についても検索を行うことができる。
図1は、本発明に関連する技術に係わるカメラ10の構成を示すブロック図である。カメラ10は、制御部1、撮影部2、顔検出部2b、記録部3、時間・位置判定部3c、文字検索部4、画像検索部5、特徴量数値化部5a、通信部6、再生部7、液晶表示部8、操作部9、文字入力部9aを有している。
制御部1は、CPU(Central Processing Unit)等によって構成され、このカメラ10の各部と接続され、内蔵されたプログラムに従って全体制御を行う。操作部9は、レリーズ釦や、メニュー釦等の操作部材を含み、ユーザーが操作部9を操作すると、制御部1は操作に応じて各部に制御信号を出力する。
撮影部2は、被写体像を結像するための光学系、被写体像を光電変換する撮像素子、撮像素子から出力される画像信号を処理する画像処理部等を含み、画像データを出力する。なお、この撮影部2は静止画、動画(連写も含む)の画像データを出力可能である。
顔検出部2bは、撮影部2によって取得された画像データに基づき、その画像データ中に顔が含まれているか否かの検出を行い、また、顔が含まれている場合には、その位置を検出する。なお、顔の検出はパターンマッチング法等によって行う。ここで、検出された顔情報は、記録部3において画像データと共に記録される。
記録部3は、撮影部2から出力される静止画や動画の画像データを記録する。再生部7は、記録部3に記録された画像データを再生し、液晶表示部8は、再生部7によって再生された画像を表示する。液晶表示部8は、記録部3に記録された画像データの再生のほか、撮影時に観察用に被写体像を表示する、いわゆるライブビュー表示も行う。また、再生時には、画像検索結果も表示する。
時間・位置判定部3cは、日時を測るための時計部と位置を測定するためのGPS(Global Positioning System:全地球測位システム)等を有し、撮影時刻や撮影位置を判定する。前述の記録部3は、画像データを記録する際に、画像データに関連付けて撮影時刻や撮影位置を記録する。
文字入力部9aは、液晶表示部8の表示面に配置されたタッチパネル等を有し、タッチパネル上に書かれた文字を読み取り、また、液晶表示部8に図2(a)に示すような電子キーボード21を表示させ、この電子キーボード21にタッチすることによって文字入力を行う。この文字入力部9aによって、撮影写真にキーワードやタイトル等の付与を行う。文字入力部9aによって文字等を入力すると、例えば、図2(b)に示すように、入力表示部25に画像のタイトルやコメントが入る。
記録部3内には文字情報記録部3bが設けてあり、この文字情報記録部3bは、文字の種類を記録する。すなわち、文字入力部9aから、漢字、ひらがな、カタカナ、英数字等が選択され、文字が入力されるので、この選択された文字の種別が記録される。図2(a)に示す例では、電子キーボード21に数字が0〜9が表示されているが、「切替」部23をタッチすることにより、キーボード表示が数字やアルファベット等に切り替わる。また、「変換」部24をタッチすることにより、漢字等に変換され、入力された文字等は、入力表示部25に表示される。また、文字では分かり難い場合には、テーマを表すアイコン26が表示される。また、このアイコン26はカメラ10が自動的にシーン分類した結果を表示するようにしても良い。図2(b)の例では、ポートレートモードが選択された様子を示している。なお、ユーザーが撮影時に手動設定した撮影モードを反映するようにしても勿論かまわない。
特徴量数値化部5aは、記録部3に記録された画像に含まれる色や輪郭などの特徴量を数値化する。ここで数値化された特徴情報は、画像データと一緒に記録される。通信部6は、外部に画像データ等を送信するための送受信部である。送受信の方式としては、無線通信、赤外通信、無線LAN、USB端子等を利用した有線通信等である。この通信部6を介して、記録部3に記録されている画像データや、前述の撮影日時・撮影時刻情報や、画像の特徴を示す特徴情報等を、外部に送信する。
文字検索部4は、記録部3に記録されている画像に付与されている文字データ(キーワードとも称す)に基づいて画像検索を行う。前述したように、文字入力部9aによって文字データが入力され、この文字データを画像データに関連付けて付与し、これを記録部3に記録する。文字検索部4は、この付与された文字データに基づいて画像を検索する。画像検索部5は、記録部3に記録されている画像に付与されている特徴情報に基づいて画像検索を行う。前述したように、特徴量数値化部5aによって、画像の特徴が数値化され、画像データと共に記録されているので、この特徴情報を基づいて画像検索を行う。
検索エリア3aは、文字検索部4および画像検索部5によって画像検索を行う際の検索エリアである。画像内の情報を画像ごとに検索していくと、非常に時間がかかるので、記録部3内に、検索エリア3aを設け、ここに記憶されている一覧表形式のデータから検索を行うようにしている。
図3は、記録部3の内部のデータ構造を示し、記録部3内には、アドレス31を割り振られた画像ファイル32が記録されている。また、記録部3内には、検索エリア3aと文字情報記録部3bの領域が設けられている。
検索エリア3aには、記録部3内に記録されている画像データについて、画像アドレスとそこに記録されている画像の関連データ、例えば、タイトル、コメント、撮影時の日時や位置などの撮影情報、サムネイル画像、特徴量数値化部によって数値化された特徴情報等が表形式で記憶されている。この検索エリア3aに表形式で記憶されている情報を用いて、画像との関連データを簡単に検索することができる。
上述の関連データは、検索などで利用できるので、タグデータと呼ぶ。タグとはモノに付する小さな札のことであり、画像等に付加情報を埋め込む特殊な文字列をタグと称している。
また、文字情報記録部3bには、文字情報が、例えば、電子キーボードに表示されたボタンの位置と、各文字の関係で記憶されている。制御部1は、何れのモードなら何れの文字を入力するかを、文字情報記録部3bに記録された情報に基づいて判定する。なお、文字に限らず、図2(b)に示すようにアイコン26を絵文字風に併用するようにしても良い。
本関連技術においては、後述するように、画像検索が可能であり、例えば、「ばら」というキーワード入力すると、図2(c)に示すように、ばらに関連した画像が液晶表示部8に表示される。このとき、キーワード(文字データ)として「ばら」が付与されている画像27a、27bのみならず、キーワードとしては一致しない画像であっても、類似している画像28を、特徴情報に基づいて検索し、参考画像として表示する。
このように、本関連技術においては、ユーザーが誤って撮影画像に合わないキーワードを付与してしまった場合や、また他のユーザーから受信した画像であって、キーワードが異なっていても、類似する画像なら検索される。このため、忘れてしまっていた記憶が蘇ったり、想定外の画像から更なる画像検索をおこなったり、他のユーザーに連絡をとったりと、様々な楽しみに発展させることができる。
次に、本関連技術におけるカメラ10の動作について、図4に示すカメラ制御のフローチャートを用いて説明する。
カメラ制御のフローに入ると、まず、撮影モードか否かの判定を行う(S101)。このカメラ10は、撮影モード、再生モード、受信モードの3つのモードが設定可能である。ステップS101の判定の結果、撮影モードであった場合には、撮影準備に移る。
撮影準備に移ると、まず、画像の取り込みを行う(S102)。このステップでは、撮影部2によって画像データを取り込み、この画像データに基づいて、液晶表示部8にライブビュー表示を行う。ライブビュー表示によって、ユーザーは、撮影範囲や構図を確かめることができる。また、顔検出部2bは、取り込まれた画像データを用い、顔の部分が存在するか否か、また存在する場合には画面中のどの位置にあるかについて検出する。ここで検出した顔に関する情報は撮影時に併せて記録する。
画像の取り込みを行うと、次に、レリーズ操作がなされたか否かの判定を行う(S103)。ユーザーはライブビュー表示を観察しながら、撮影者の意図する被写体像となった際に、操作部9内のレリーズ釦を操作する。したがって、このステップでは、レリーズ釦が操作されたか否かを判定する。ステップS103における判定の結果、レリーズでなかった場合には、ステップS101に戻り、前述の処理を行う。
一方、ステップS103における判定の結果、レリーズされた場合には、撮影を行う(S104)。ここで、レリーズ操作されたタイミングにおける撮影部2からの画像データを記録部3に記録する。続いて、画像の特徴を抽出する(S105)。このステップでは、特徴量数値化部5aによって、画像の特徴を数値化し、この特徴情報を画像データに関連付けて記録部3に記録する。
続いて、コメントが入力され、またはアイコンが設定されているか否かの判定を行う(S106)。被写体を撮影し画像を記録する際に、画像に関するコメントを入力することができる。すなわち、レリーズされ撮影が終わると、図2(a)に示したような電子キーボード21が、液晶表示部8に表示される。ユーザーはこの電子キーボード21を用いて、コメントやキーワードを、あたかもワープロで書き込むように入力することができる。なお、アイコンは、シーン分類や撮影モード等に応じて自動的に設定されるが、手動で設定するようにしても良い。
また、電子キーボード21上の切替部23をタッチすることにより、アイコン画面に切り換えることができる。アイコンとしては、「人物」、「花」、「ペット」等、種々のテーマを用意しておけば、整理が簡単になる。特徴情報に基づいて、自動的にアイコンが選択されるようにしても良いが、選択されなかった場合には、手動入力とすれば良い。
ステップS106における判定の結果、コメントやアイコンの入力がなされていない場合には、ステップS118に進み、一方、入力がなされていた場合には、この操作状態に基づいてコメントやアイコンの入力を行う(S107)。続いて、サムネイル作成とコメント等の記録を行う(S108)。このステップでは、ステップS107において入力したコメント(キーワード含む)やアイコンを、画像データに関連付けて記録し、また、サムネイル表示のためのデータを作成し記録する。
サムネイル作成・記録を行うと、次に、送信モードか否かの判定を行う(S118)。送信は、通信部6を介して行い、このステップでは、カメラ10が送信モードに手動設定され、送信ボタン等の操作部材が操作されたか否かを判定する。判定の結果、送信を行う場合であれば、送信を行う(S119)。このステップでは、通信部6を介して、記録部3に記録された画像データおよびこれに付随する関連情報を、外部のカメラや他の機器に送信する。ホットスポット等を介して、外部のサーバー等に送信しても勿論かまわない。
ステップS118における判定の結果、送信でなかった場合、または、ステップS119における送信を実行すると、このフローを終了し、再び、ステップS101から実行する。
ステップS101における判定の結果、撮影モードでなかった場合には、再生モードが否かの判定を行う(S111)。この判定の結果、再生モードであった場合には、画像再生を行う(S112)。このステップでは、選択されている画像を表示するが、この通常の再生表示以外にも、選択画像と類似の画像を、キーワードや特徴情報を用いて検索し、図2(c)に示すように、液晶表示部8に表示する。この画像再生のサブルーチンについては、図5を用いて後述する。画像再生が終わると、このフローを終了し、ステップS101から再び実行する。
ステップS111における判定の結果、再生モードでなかった場合には、受信モードか否かの判定を行う(S131)。このカメラ10は、通信部6を介して、他のカメラ等の機器より、画像データを取得することができる。このステップでは、他の機器より画像データを受けているか否かの判定を行う。
ステップS131における判定の結果、受信モードでなかった場合には、各種設定を行う(S134)。このステップでは、被写体をきれいに撮影するためのモード等、ユーザーが各種の撮影モード等を設定することができる。なお、撮影モード等を設定すると、選択されたモードに関連するアイコンをタグデータに記録できるようしても良いことは既に述べた通りである。設定を行うと、ステップS101に戻る。
ステップS131における判定の結果、受信モードであった場合には、画像の取得を行う(S132)。すなわち、通信部9にて受信した画像データを、記録部3に記録する。続いて、記録部3に記録した受信画像のデータについて、特徴抽出を行う(S133)。このステップでは、記録部3に記録した受信画像の画像データについて、特徴量数値化部5aによって特徴情報を求める。
ステップS133における特徴抽出を行うと、ステップS106に進み、前述したように、コメント(キーワード含む)の入力やアイコンの選択を行い、画像データに関連付けて、記録部3に記録することができる。
このように、カメラ制御のフローでは、撮影画像や他のユーザーから入手した画像に対して、キーワード等を含むコメントを入力したり、アイコンの選択を行って、これらの情報を画像データに関連付けて記録することができる。また、画像の特徴情報を求め、この特徴情報も画像データに関連付けて記録することができる。
次に、ステップS112における画像再生のサブルーチンについて、図5に示すフローチャートを用いて説明する。
まず、撮影画像の表示を行う(S151)。このステップでは、他のユーザーから受信した画像も含め記録部3に記録されている画像をサムネイル形式で液晶表示部8に表示する。続いて、検索モードか否かの判定を行う(S152)。操作部9によるメニュー画面等かにおいて検索モード設定するので、このステップでは検索モードに設定されたか否かの判定を行う。
ステップS152における判定の結果、検索であった場合には、タグ検索表示を行う(S171)。このステップでは、図2(a)に示すように、タグに対応する言葉や数字、記号等を入力する入力画面を表示する。ユーザーはこの入力画面を用いて、検索したいキーワード、アイコン、特徴情報等を入力することができる。
タグ検索表示画面で検索用のキーワード等が入力されると、続いて、類似タグ有りか否かの判定を行う(S172)。このステップでは、文字検索部4によってキーワード等を用いて、類似タグが付された画像が有るか否か、また画像検索部5によって特徴情報を用いて類似画像が有るか否かを判定する。ステップS172における判定の結果、類似タグの付された画像が存在しなかった場合には、液晶表示部8に警告表示を行う(S181)。警告表示を行うと、元のフローに戻る。
ステップS172における判定の結果、類似タグが有った場合には、検索された画像を、図2(b)に示すように表示する(S173)。続いて、検索された画像が複数あるか否かの判定を行う(S174)。この判定の結果、検索された画像が複数なかった場合には、ステップS176に進む。一方、類似画像があった場合には、元の画像も含めて複数の画像で共通する特徴の抽出を行う(S175)。
ステップS175において行う共通する特徴の抽出については、第1実施形態において、図10ないし図16を用いて詳細に説明するが、簡単に説明する。図15(a)、図16(a)のような画像が類似画像として検索された場合、図15(b)、図16(b)に示す特徴パターンがあり、画面上半分は両者、類似していることから、重ねた場合に一致度の高いパターン分布(図14(b)参照)を、共通特徴とする。このように、特徴パターンの一致度を判定することにより行う。
次に、液晶表示部8に検索の結果、所定数の画像を表示できか否かの判定を行う(S176)。この判定の結果、所定数の画像が表示されていた場合には、十分楽しむだけの画像が検索されたことから、ステップS153に進む。一方、所定数の画像が表示できない場合には、表示画像を増やすために、さらに画像を検索する。まず、検索された画像に、ステップS171において検索されたタグとは別のタグが付与されている否かの判定を行う(S177)。
ステップS177における判定の結果、別タグの付与された画像が存在しなかった場合には、前述のステップS181に進み、警告表示を行う。一方、別タグが有った場合には、別タグを用いて類似画像を検索する(S178)。このステップでは、ステップS175において、抽出された共通の特徴情報が存在する場合に、この特徴情報を用いて類似画像が存在するか否かを判定する。その他、ステップS174において検出された類似画像に共通するコメントやキーワード等のタグを用いて類似画像を検索しても良い。
このステップで検索されて類似画像は、液晶表示部8に表示される(S179)。表示を行うと、ステップS176に戻り、所定数に達するまで、ステップS177〜S179が繰り返される(但し、別タグが存在しなくなるとこれらのステップは終了する)。
ステップS152における判定の結果、検索でなかった場合には、通常の画像再生を行い、また、ステップS176において画像検索の結果、所定数の画像を検索し図2(c)に示すように検索画像を表示すると、次に検索された画像の再生を行う。まず、液晶表示部8に表示されている複数の画像の内の何れかが選択されているか否かの判定を行う(S153)。
ステップS153における判定の結果、タッチパネルがタッチされ、何れかの画像が選択された場合には、その画像の拡大表示を行う(S154)。続いて、画像を再度タッチされる等の操作により、戻し操作がなされたかを判定する(S155)。戻し操作がなされた場合には、画像のサイズを元に戻す(S156)。元のサイズに戻し、サムネイル表示にしてから、ステップS153に戻る。
ステップS153における判定の結果、何れかの画像が選択されていなかった場合には、次に、ユーザーが別画像を見たいか否かの判定を行う(S161)。この場合には、ユーザーは、次候補のアイコンをタッチする。この判定の結果、別画像(次候補)が選択された場合には、次の候補をサムネイル表示で一覧表示する(S162)。すでに表示された画像の次の候補を表示し、ステップS151に戻り、前述の動作を実行する。
以上、説明したように、本関連技術においては、ユーザーが探したい画像を画像に付与されているタグを用いて、文字検索部4や画像検索部5において検索し(S171)、また、検索された複数の画像から共通する特徴を抽出している(S175)。ここで抽出された特徴情報を用いて再度、ユーザーが探したい画像の検索を行っている(S178)。このように、ユーザーが探したい画像をキーワード以外でも検索して表示可能としており、多数の画像が検索され表示され、表示画面は賑やかになる。カメラを利用するのが楽しくなり、また、思わぬ画像も表示され、思い手の喚起やコミュニケーションの促進に寄与することができる。
なお、本関連技術においては、撮影のための機器として、デジタルカメラを用いて説明したが、カメラとしては、デジタル一眼レフカメラでもコンパクトデジタルカメラでもよく、また、携帯電話や携帯情報端末(PDA:Personal Digital Assist)等に内蔵されるカメラでも構わない。
また、本関連技術においては、カメラ10内に、撮影機能と再生・検索表示機能の両方を兼ね備えていた。しかし、このうち、再生・検索表示機能のみをパーソナルコンピュータ等の機器で実行するようにしてもよい。この場合には、カメラ10の記録部3に記録された画像データや関連データを、パーソナルコンピュータ等の機器にインストールし、再生や検索を行えば良い。また、特徴情報の抽出もパーソナルコンピュータ等の機器で行うようにしても良い。
次に、本発明の第1実施形態について、図6ないし図17を用いて説明する。本発明に関連する技術に係る画像検索システムは、カメラ10に適用した例であった。第1実施形態に係る画像検索装置は、インターネットを介して複数のサーバーが連携するシステムによって構成される。文化や言語が異なると、同じキーワードでも簡単に画像検索を行うことができないが、本実施形態の画像検索システムを世界的な規模で構成すると、大きな効果を発揮する。
図6は、本実施形態の構成を示し、インターネットによって互いにアクセス可能な複数のサーバー90、100、110から構成されている。サーバー100は、その内部に、制御部101、ネットアクセス部102、画像記録部103、および翻訳部104を有する。
制御部101は、サーバー100内の各部に接続され、サーバー100の全体の制御を行う。ネットアクセス部102は、インターネットを介して外部のサーバー90、110等にアクセス可能である。画像記録部103は、ユーザー41等のパーソナルコンピュータ等から送信されてきた画像を記録する。翻訳部104は、画像記録部103や外部のサーバーに記録されている画像の検索を行う際に、タグ等に付与されているキーワードを翻訳する。
サーバー110は、その内部に、制御部111、ネットアクセス部112、および画像記録部113を有する。制御部111は制御部101と同様、サーバー110内の制御を行い、ネットアクセス部112はネットアクセス部102と同様、インターネットを介して他のサーバー等にアクセスする。また、画像記録部113は、ユーザー42のパーソナルコンピュータ等から送信されてきた画像を記録する。
サーバー90は、本実施形態において中核的なサーバーであり、その内部に、制御部91、ネットアクセス部92、タグ検索部93、特徴抽出部94、類似画像検索部95、地域/言語判定部96、および表示画像決定部97を有している。
制御部91は、制御部101、111と同様、サーバー90の全体を制御し、ネットアクセス部92は、ネットアクセス部102、112と同様に、インターネットを通じて外部のサーバー等にアクセスし、また、外部のサーバー等からアクセスされた際に通信を行う。なお、画像記録部は図中、明示されていないが、サーバー90内に設けてあり、外部からアクセスしてきた画像データの記録を行う。
タグ検索部93は、サーバー90内の画像記録部に記録された画像について、画像データに付与されているタグの検索を行う。なお、本発明に関連する技術と同様に検索エリアを設け、一覧表形式でタグデータを整理し、これを検索するようにしても良い。特徴抽出部94は、画像記録部に記録されている画像について特徴を抽出する。類似画像検索部95は、特徴抽出部94によって抽出された特徴に基づいて、類似の画像を検索する。
表示画像決定部97は、タグ検索部93、特徴抽出部94、および類似画像検索部95等によって検索された画像等の表示画像を決定する。地域/言語判定部96は、他のサーバー100、110が、主に使用している言語や設置地域を判定する。本実施形態においては、地域/言語判定部96によって言葉による検索ができないと判定された場合には、画像の特徴情報に基づいて類似画像検索部95によって類似画像を検索することができる。
サーバー100、110は、ローカルなサーバーであり、その設置国の言語によりサーバー内の画像の検索は可能であるが、外国語での検索は基本的には対応していない。サーバー90は、外部サーバーにある画像について、各種言語で検索することが可能であり、また、特徴抽出部94や類似画像検索部95によって画像自体での検索が可能である。例えば、外国のユーザー42が自国語で画像検索を行い、パーソナルコンピュータに検索画像43を表示する際に、日本のユーザー41がウェブ上に公開した画像44も検索し、表示することができる。この画像44は、勿論、外国のユーザー42の使用言語ではキーワードが付与されておらず(場合によっては、何らキーワードが付与されていない)、このことが分かるようにするために、日の丸(国旗)を画像44の脇に表示するようにしても良い。
図7は、サーバー90で検索された画像表示の例である。世界地図がバックになっており、いずれのサーバーによって記録された画像であるかによって、世界地図上における画像の表示位置を決定している。世界各地域の画像を見ることができると楽しいことから、各地域ごとに少なくとも1枚ずつ画像が表示できるように表示枠を設けておき、そこに順次検索画像を表示する。
例えば、日本において薔薇の画像を見たいユーザーが、「薔薇」でキーワード検索を行う。近年、翻訳技術も発達していることから、「Rose」と英訳し、アメリカやオーストラリア等における画像を、キーワードの翻訳によって検索することができる。その他の地域では、言語が錯綜していたり、言語の数も多いことから、サーバーに記録されている画像を、画像の特徴を抽出して検索する。日米豪で検索され表示された画像と、類似の特徴を持つ画像を探すことにより、間違いがなく画面にマッチした画像を表示することが可能となる。
次に、本発明の第1実施形態における画像検出と表示を行うためのサーバー90の動作を、図8および図9に示すフローチャートを用いて説明する。
図8に示す画像表示のフローに入ると、まず、一覧表示か否かの判定を行う(S201)。画像表示のフローにおいては、ユーザー自身が撮影した画像を、保管一覧表から探すか、キーワード等により検索するかのいずれかを選択できる。この判定の結果、一覧表示であった場合には、次に記録場所の指定を行う(S202)。このステップでは、ユーザーの画像を保管した場所のアドレス等を指定する。
続いて、画像の記録場所の指定がなされたか否かを判定する(S203)。この判定の結果、指定がなされていなければ、ステップS202に戻り、一方、指定がなされた場合には、指定の新しい順に画像を順次表示する(S204)。次いで、一覧表示が終了か否かの判定を行い(S205)、この判定の結果、終了でなければ、1枚画像表示を行う(S231)。続いて、画像が人物以外か否かの判定を行い(S232)、判定の結果、人物であれば、そのままステップS204に戻り、一方、判定の結果、人物以外であれば、参考画像の表示を行い(S233)、ステップS204に戻る。
すなわち、ステップS202において指定された場所に保管されている画像は、所定の数で画面内を満たすまでは、1枚ずつ表示され(S231)、人物以外の画像であれば、この画像に類似する参考画像を検索し表示する(S233)。参考画像は、花や風景など、類似殿高い画像であり、図6の画像44に示すように、同一画面上にユーザーの撮影した画像43と並置して表示する。
このステップS233の参考画像表示のサブルーチンについては、図9を用いて後述する。なお、人物の画像の場合には、表示された人物と似た人物を表示することは、表示された人物からみて面白いことではないので、人物の場合には、類似画像検索は行っていない。
ステップS205における判定の結果、表示画像の数が所定数に達すると、一覧表示を終了する。一覧表示を終了すると、次に、拡大を行うか否かの判定を行う(S206)。このステップでは、ユーザーによってパーソナルコンピュータで拡大操作がなされてか否かを判定する。この判定の結果、拡大操作がなければ、ステップS202に戻る。一方、判定の結果、拡大操作がなされていれば、選択された画像の拡大表示を行う(S207)。
続いて、画像表示を終了するか否かの判定を行う(S208)。このステップでは、ユーザーによって終了操作がなれたか否かの判定を行う。この判定の結果、終了であれば終了処理を行い、一方、終了でなかった場合には、別候補の表示を行うか、または拡大表示された画像を縮小するかの判定を行う。この判定の結果、縮小することが選択された場合には、画像の縮小を行い(S213)、一方、別候補の選択であれば、別候補の画像の表示を行う(S212)。これらのステップを処理すると、ステップS201に戻る。
ステップS201における判定の結果、一覧表示でなかった場合には、次に、検索入力を行う(S221)。このステップで、ユーザーはキーワード等を入力する。この検索入力に基づいて、次に、ステップS233と同様に、参考画像を検索し、表示する(S222)。ここでのサブルーチンは図9を用いて後述する。参考画像の表示を行うと、ステップS201に戻る。
次に、ステップS222およびS233における参考画像表示のサブルーチンについて、図9を用いて説明する。
まず、文字情報の読出しを行う(S251)。このステップでは、ステップS221において入力されたキーワード等の文字情報の読出しを行う。この検索にあたっては、図3に示したように、検索用の画像とキーワード等の関係を一覧にした表示を別に有し、この一覧表を用いて検索するようにしても勿論かまわない。次に、このキーワード等の文字情報に基づいて類似画像の選択を行う(S252)。このステップでは、文字データを用いて、画像に添付されているタグ情報を検索し、類似画像を選択する。
続いて、ステップS252において、類似画像が選択されたか否かを判定する(S253)。この判定の結果、1枚も画像を選択することができなかった場合には、警告表示を行い(S259)、元のフローに戻る。一方、1枚でも類似画像を選択することができた場合には、その類似画像を表示する(S254)。ここでは、入力キーワードと同様のキーワードやコメントを有する画像を表示する。なお、本実施形態においては、キーワード等でヒットした画像のみならず、これに類似する画像を表示することにより、画面を楽しくするために、画面上に予め定められた数の類似画像が表示されるまで、類似画像の表示を繰り返す。
ステップS254において画像を表示すると、次に、所定数再生を行ったかを判定する(S255)。これは、前述したように、所定数まで類似画像が表示されたかを判定するためである。この判定の結果、所定数の表示が終わっていなかった場合には、次に、複数の類似画像があるか否かの判定を行う(S261)。このステップは、ステップS254で複数の類似画像を表示することができたか否かの判定を行うものである。
このステップS261における判定の結果、複数の類似画像がなかった場合には、ステップS263に進み、一方、判定の結果、複数の類似画像があれば、次に共通特徴の抽出を行う(S262)。この共通特徴の抽出については、図9ないし図17を用いて後述する。共通特徴の抽出を行うと、次に、別言語サーバーを選択できるか否かの判定を行う(S263)。
ここで、別言語サーバーを選択するのは、キーワード等の文字データで検索する場合には、同じ言語であるなら既に検索されている可能性があり、二度手間になってしまうおそれがあるのに対して、別言語サーバーを選択することによって、バラエティに富んだ画像を検索し表示することが可能だからである。
ステップS263における判定の結果、別言語サーバーが見つからなかった場合には、ステップS255に戻り、一方、別言語サーバーが見つかった場合には、特徴量類似画像検索を行う(S264)。このステップでの検索は、ステップS262において抽出した共通特徴量(特徴情報)を用いて行う。言語が相違していても、画像の特徴情報を用いるので、画像検索を行うことができる。
続いて、ステップS264における検索の結果、類似画像が検索されたかを判定する(S265)。この判定の結果、類似画像が検索された場合には、類似度の高い画像を表示する(S266)。画像表示を行うと、ステップS255に戻り、所定数の類似画像を表示するまでは、前述のステップを実行する。
ステップS255における判定の結果、所定数の類似画像を再生表示すると、NGか否かの判定を行う(S271)。このステップでは、ユーザーは、類似画像を見て気に入らない場合には、NGである旨の操作を行うので、NG操作がなされたか否かの判定を行う。この判定の結果、NGでなければ、所定数の類似画像を表示したことから、元のフローに戻る。
ステップS271における判定の結果、NGであった場合には、つぎに、NG画像判定を行う(S272)。ここでは、表示した複数の類似画像のうち、いずれの画像がNGであったかを判定する。続いて、検索を文字でやり直すか否かの判定を行う(S273)。このステップでは、ユーザーの操作状態から判定する。この判定の結果、文字で検索をやり直す場合には、類似カテゴリーの文字を入力する(S275)。新たに検索用のキーワードが入力されると、ステップS251に戻り、前述の処理を実行する。
ステップS273における判定の結果、文字入力がなかった場合には、特徴量の微修正を行う(S274)。この特徴量の微修正は、後述する図14(b)の例では、類似特徴をとる範囲を、図中の円の大きさを変更する等により変更することにより行う。特徴量を微修正すると、ステップS263に進み、特徴量を用いて、再度、別言語サーバーで類似画像の検索を行い、検索画像の再生表示を行う。
このように、本実施形態においては、検索時には、キーワード等の文字を入力することにより類似画像の検索を行い、検索された類似画像の特徴情報を抽出し、キーワード等とは別言語のサーバーにアクセスし、特徴情報を用いて画像検索を行うようにしている。このため、世界中のサーバーに蓄積されている画像の中から、類似している画像を、精度良く、効率よく検索し、表示することができる。
ユーザーは、検索時にはキーワードを入力するだけでよい。なわち、キーワードの方が思いつきやすく、また、入力しやすいことから、検索が簡単で便利である。
また、パーソナルコンピュータやインターネット等のネットも、画像検索等を得意としているが、言語や文化の壁があり、また翻訳の正確さや世界中で検索することは困難である。しかし、本実施形態によれば、言語が異なる場合には、画像の特徴情報から検索することができ、言語上の問題を解決することができ、よりバラエティに富んだ画像の表示が可能となる。
次に、図10ないし図17を用いて、本実施形態における類似画像の特徴情報の抽出と類似画像の検索について説明する。
今、図10(a)に示すバラの画像について、類似画像を検索するために、特徴情報を抽出する。図10(b)(c)は、バラの画像の一部分を拡大し、画素レベルでエッジ強調し二値化した様子を示す。図10(d)(e)は、さらに、所定ピッチで残した黒い部分が、直交する直線に乗る場合、直交した部分(丸く囲んだ直交部分51)を特徴点と考える。
図11は、図10(a)に示した画像の特徴点の分布を示す。この特徴点の分布図を、密度に従って画面を分割し分類すると、図12のようになる。この例では、隣接する特徴点が近く、その付近の色が例えば赤い部分(△を付した部分)と、隣接する特徴点が遠く、その付近の色が赤い部分(○を付した部分)と、隣接する特徴点が離散的で、その付近の色が例えば、緑の部分(□を付した部分)と、3つの部分に分割することができる。
このような特徴点の画面内の分布や色の関係を、前述の図3に示したような特徴情報として、数値化して記録することにより、全ての画像を再生しなくても、数値を比較することにより、画像の一致度を迅速に調べることができる。類似する画像は、これらの各部分の形状や、前述の○部分と△部分の関係や、○部分と□部分の関係が類似している。
次に、図13(a)に示す画像を、特徴点によって分析し画面を分割し分類すると図13(b)のようになる。両図を特徴点に基づいて分析した図12と図13(b)を比較すると、○部が△部を丸く囲んでいる部分が類似していることから、図10(a)の画像と図13(a)の画像を同様の画像と判定することができる。同時に、この○部が△部を丸く囲む点が共通の特徴と考えることができる。また、図13(b)の×で表した部分は、図12の□部とは異なることから、ここは共通の特徴とはみなされない。
図14(a)は、図12と図13(b)の共通の特徴部を重ねた図であり、図14(b)は両者の平均的なエリアを示す。この特徴的なパターンを図14(c)に示すように、画面内をシフトさせながら一致度を調べ、一致する画像は類似画像といえる。
図15(a)に示すような人物画像の特徴点の分布や色から得られるパターンは、図15(b)に示すようになる。この図15(b)に示すパターンと、図14(c)に示すパターンとを比較しても一致する部分がない。しかし、図16(a)に示すような花木の画像のパターン(図16(b)参照)は、図14(c)に示すパターンと一致度が高く、類似画像と判定することができる。
また、類似画像の検索にあたって、特徴情報を用いるほかに、キーワードの一致度も調べる。キーワードの一致度を見るにあたっては、各言葉の関連語について、図17に示すように、一致度を数値化したデータベースをネットワーク上のサーバーに用意し、これを参照して一致度の高低を判定すればよい。
図17に示す例では、「ばら」で検索する場合、「薔薇」は、一致度は「ばら」と同程度の10であり、「Rose」の一致度は少し低く9であり、「花」だと一致度は低く5となる。また、このようなデータベースを用意しなくても、ネット上のサーバーが有する辞書を検索し、その辞書にある言葉であれば、一致度が高い言葉として利用するようにしても良い。例えば、「ばら」を検索する場合、辞書に「バラ科の低木、観賞用に栽培される。高さ1〜3mに達し、とげがあり、花は重弁」と解説があれば、「低木」「とげ」「花」といった単語を拾い出し、これらの単語をキーワードに持つ画像を表示するようにしても良い。
このように、本実施形態においては、画像から輪郭点のエッジを表す特徴点を抽出し、その分布形状とそこでの色情報を利用して、特徴情報を抽出し、この特徴情報を用いて類似画像を検索するようにしている。このため、迅速な類似画像の検索が可能である。
このように、本発明の第1実施形態においては、ネット上に配置されたサーバーにおいて、キーワード等の言葉によって類似画像を検索し、この検索された類似画像から特徴情報を抽出することによって、キーワード等の言葉を使用しなくても類似画像を検索するようにしている。このため、最初に入力したキーワード等に基づいて、画像に付与されている言語が異なっている画像からも、類似画像を簡単に検索することができる。
次に、本発明の第2実施形態を図18および図19を用いて説明する。本発明の第1および第1実施形態では、地域指定は特に行っていないが、第2実施形態においては、検索する地域を指定し、この地域内で類似画像を検索し、これを表示するようにしている。
例えば、ユーザーが撮影した画像と類似画像を選択し、この類似画像にさらに類似する画像を、興味のある地域で検索する場合を考える。この場合、その地域が英語、ポルトガル語、スペイン語など、種々の言語を使用する地域である場合、英語のように多くの国において理解される言語であれば、その言語をキーワードとして検索が可能である。しかし、英語以外のキーワードが付与された画像にユーザーが興味を持つものがあり、英語等のキーワードで検索された画像に興味を持たない場合がある。そこで、本実施形態においては、指定された地域内で、キーワード等の言葉以外にも画像の特徴情報に応じて検索している。
本実施形態も、図6に示すようなサーバー90等によって構成される。このサーバー90における類似画像の検索を、図18に示すフローチャートを用いて説明する。
類似画像を検索しこれを表示するための表示画像決定のフローに入ると、まず、画像を指定し(S301)、地域を指定し(S302)、指定画像のタグを判定する(S303)。ここでは、図19に示すように、選択された画像61と、その選択画像を取得した地域62において、その地域特有で、かつ選択画像61に類似した写真を検索するために、選択画像に付与されているタグを判定している。指定画像に日本語でタグが付与されている場合には、サーバーの翻訳機能を利用して、キーワードを英語等に変換する。英語に翻訳しても、前述したように、他言語のキーワードが付与されている画像に興味深い場合があることから、画像検索を行い、キーワード検索で足りない部分を補うようにする。
続いて、ステップS301〜S303で得た情報に基づいて検索を開始する(S304)。検索を開始すると、類似画像を所定数検索したか否かの判定を行う(S305)。この判定の結果、所定数検索していなかった場合には、画像の特徴が一致したか否かの判定を行う(S306)。類似画像か否かの判定は、図10ないし図16において説明したようなパターンの一致度で判定する。
ステップS306における判定の結果、画像の特徴が一致していなかった場合には、ステップS305に戻る。一方、画像の特徴が一致したと判断されたときには、画像、タグ(キーワード等)、画像の一致度を記録する(S307)。これらを記録すると、ステップS305に戻る。
ステップS305〜S307を繰り返し実行するうちに、ステップS305における判定の結果、類似画像が所定数に達する。この場合には、次に、タグ(キーワード等)の一致度の低い画像を優先して表示する(S311)。すなわち、ステップS303においてタグ判定を行っており、このタグ(キーワード等)とは一致度の低い画像を優先して表示するようにしている。これによって、キーワードでは検索することができないけれども、かつ、類似度の高い画像を見つけることが可能となる。
キーワード検索で画像を探す例は多々あるが、むしろ、簡単には見つけられない画像の方が、稀少な画像で、表示して楽しい場合がある。本実施形態においては、言葉では難しいコミュニケーションの手段として、画像を有効活用でき、しかも、すぐ見て分かるコンテンツによって、様々なイマジネーションを膨らませることが可能となる。つまり、画面の楽しさが増すばかりか、外国に対する興味などがかきたてられるという効果を奏する。
以上説明したように、本発明に関連する技術及び本発明の各実施形態においては、まず、キーワード等を用いて画像を検索し、検索された類似画像から特徴情報を抽出し、この特徴情報を用いてさらに類似度を求めている。このため、異なった言語でキーワード等が付与されている画像であっても検索することが可能となり、外国のユーザーが撮影した写真画像であっても容易に検索し、楽しむことができる。
なお、本発明に関連する技術及び本発明の各実施形態においては、カメラ10やサーバー90に、画像検索機能を集中していたが、一部や全部をパーソナルコンピュータで実行するようにしても勿論かまわない。
本発明は、上記実施形態にそのまま限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素の幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
1・・・制御部、2・・・撮影部、2a・・・顔検出部、3・・・記録部、3a・・・検索エリア、3b・・・文字情報記録部、3c・・・時間・位置判定部、4・・・文字検索部、5・・・画像検索部、6・・・通信部、7・・・再生部、8・・・液晶表示部、9・・・操作部、9a・・・文字入力部、10・・・カメラ、21・・・電子キーボード、23・・・切替部、24・・・変換部、25・・・入力表示部、26・・・アイコン、27a・27b・・・画像、28・・・参考画像、31・・・アドレス、32・・・画像ファイル、41・・・ユーザー、42・・・ユーザー、43・・・画像、44・・・画像、51・・・直交部分、90・・・サーバー、91・・・制御部、92・・・ネットアクセス部、93・・・タグ検索部、94・・・特徴抽出部、95・・・類似画像検索部、96・・・地域/言語判定部、97・・・表示画像決定部、100・・・サーバー、101・・・制御部、102・・・ネットアクセス部、103・・・画像記録部、104・・・翻訳部、110・・・サーバー、111・・・制御部、112・・・ネットアクセス部、113・・・画像記録部