JP5114871B2

JP5114871B2 - 映像提供装置

Info

Publication number: JP5114871B2
Application number: JP2006151446A
Authority: JP
Inventors: 雄介鈴木
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2006-05-31
Filing date: 2006-05-31
Publication date: 2013-01-09
Anticipated expiration: 2026-05-31
Also published as: JP2007323268A

Description

本発明は、映像提供装置に関し、より詳細には、データベースから映像を検索して提供する映像提供装置に関する。

例えば手話のような、語や文章、記号に対応付けられた特定の意味を有する動作を含む映像を、複数の映像が記憶されたデータベースから検索する検索装置が、学習等の目的のため用いられている。従来、このような検索装置は、例えば、手の位置、手の形等の分類を、表示される候補の中から随時ボタンやマウス等によって範囲を選択して絞り込むといった作業が必要なものであった（例えば、特許文献１）。

特開２０００−３１２７号公報

しかし、上記のように、動作の分類を選択する検索方法では、検索されるべき映像の情報をユーザがある程度正確に把握していることが必要である。また、ダイナミックサーチと呼ばれる検索キーと検索結果との動的な変更が難しい等の問題があった。

そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、ユーザの動作に基づいて映像を検索して提供することの可能な、新規かつ改良された映像提供装置を提供することにある。

上記課題を解決するために、本発明のある観点によれば、特定の概念を表す身体の動作に対応した動作映像を提供する映像提供装置が提供される。かかる映像提供装置は、複数の動作映像および各動作映像を特徴付ける特徴データを記憶する映像記憶部と、ユーザの身体の動作から特徴データを取得するユーザ特徴データ取得部と、ユーザ特徴データ取得部により取得された特徴データと映像記憶部に記憶された特徴データとを比較して、映像記憶部からユーザの身体の動作に類似する動作映像を取得する映像検索部とを備えることを特徴とする。

本発明によれば、映像提供装置は、複数の動作映像と、その動作映像を特徴付ける特徴データを記憶する映像記憶部を備えている。一方、映像提供装置は、ユーザが行う動作から、その動作を特徴付ける特徴データを映像記憶部に記憶された動作映像の特徴データと同様の形式で取得する。そして、映像提供装置は、映像記憶部に記憶された特徴データと、ユーザの動作から取得された特徴データとを比較して、類似すると判定された特徴データに対応する動作映像を取得する。これにより、ボタンやマウス等を用いずに、ユーザの動作から所望の動作映像を取得することが可能となる。

ここで、ユーザ特徴データ取得部は、１つの動作映像から所定の時間ごとに複数の静止画像を取得し、取得した複数の静止画像から、該静止画像における身体の特定部位（例えば手）の位置を特徴データとしてそれぞれ抽出するようにしてもよい。さらに、ユーザ特徴データ取得部は、取得した複数の静止画像から、身体の特定部位（例えば手）の形状を特徴データとしてそれぞれ抽出することもできる。すなわち、この場合には、時間の経過とともに変化する身体の特定部位の位置や形状の変化を、所定の時間ごとに特徴データを取得することで、動作の変化をデータとして把握する。

また、ユーザ特徴データ取得部は、ユーザの身体の動作を映像として取得する映像取得部と、取得した映像からユーザの身体の動作を特徴付ける特徴データを抽出する特徴データ抽出部とを備えてもよい。すなわち、動作するユーザを映像取得部により撮影して映像を取得し、この映像から特徴データを抽出することができる。あるいは、ユーザ特徴データ取得部は、ユーザが装着することにより、該ユーザの身体の動作を特徴付ける特徴データを取得することの可能な装着型入出力装置、例えばデータグローブを備えることもできる。このような装置を用いれば、データの加工をせずとも直接的に特徴データを取得することが可能である。

映像検索部は、ユーザ特徴データ取得部により取得された特徴データと映像記憶部に記憶された特徴データとの類否判断を、例えばＤＰマッチングを用いて行うことができる。

また、ユーザ特徴データ取得部は、特徴データとして、１つの動作映像から１つの静止画像を作成して取得することもできる。この場合、ユーザ特徴データ取得部は、ユーザの身体の動作を映像として取得する映像取得部と、映像取得部により取得された映像から静止画像を作成する映像加工部とを備える。映像検索部は、映像加工部により作成された静止画像と映像記憶部に記憶された静止画像とを比較して、映像記憶部からユーザの身体の動作に類似する動作映像を取得する。

ここで、映像加工部は、映像取得部により取得された１つの映像から複数の静止画像を抽出し、抽出された該複数の静止画像の各画素について、画素値を平均化して平均画素値を算出して、算出された各画素の平均画素値から１つの平均化画像を作成することができる。すなわち、この場合には、時間の経過とともに変化する身体の特定部位の位置や形状の変化を、時間を畳み込んだ１つの静止画像を作成することにより、動作の変化をデータとして把握する。

また、映像提供装置は、映像取得部により取得された映像から、ユーザの身体の特定部位が位置する領域を認識する画像認識部をさらに備えることもできる。映像記憶部が、動作映像における人物の身体の特定部位が位置する領域にしたがって、動作映像を分類して記憶している場合、画像認識部は、認識した領域に基づいて、映像記憶部に記憶された動作映像のうち、特定の分類に属する動作映像のみを検索対象として決定する。すなわち、検索する記憶部に記憶される情報を大まかに分類しておくことにより、ユーザの動作と大きく異なる動作映像を検索対象から除外することができるので、検索処理を高速化することが可能となる。

また、映像検索部は、ユーザ特徴データ取得部により取得された特徴データと映像記憶部に記憶された特徴データとの類否判断を、例えばパターンマッチング処理により行うことができる。具体的には、例えば差分総和法や正規化相関法等の方法を用いることができる。

さらに、映像提供装置は、ユーザ特徴データ取得部により取得されたユーザの身体の動作、または映像取得部により取得された動作映像のうち、少なくとも１つを表示することの可能な映像表示部をさらに備えることができる。かかる映像表示部には、ユーザが動作を行う時間を示す動作時間表示部を設けてもよい。

また、本発明にかかる映像提供装置は、ユーザ特徴データ取得部により取得された特徴データに応じて、映像表示部における映像の表示を制御する制御部をさらに備えることもできる。かかる制御部は、例えばユーザの特徴データとして身体の手の位置を取得した場合、手の位置が映像表示部の特定の領域に位置すると判定した場合に、例えば表示する映像を拡大する制御命令を映像表示部に送信する。このように、制御部は、ユーザの特徴データに応じて、映像表示部の表示を制御する。

このような映像提供装置に適用する動作映像は、例えば、特定の意味を表現する手話とすることができる。この際、表示部には、１または２以上の手話単語を表す映像を表示するようにしてもよい。手話は身体の動作により意味を伝達するため、動作を中断せずに検索、画面操作等を行うことができる点で本発明の映像提供装置への適用に適している。

以上説明したように本発明によれば、ユーザの動作に基づいて映像を検索して提供することの可能な映像提供装置を提供することができる。

以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

以下に示す各実施形態では、手話の学習に際して使用することを想定した、ユーザが行う動作と類似する手話動作をデータベースから検索する装置への適用例について説明する。

（第１の実施形態）
まず、図１〜４に基づいて、本発明の第１の実施形態にかかる映像提供装置について説明する。ここで、図１は、本実施形態にかかる映像提供装置１００の構成を示すブロック図である。図２は、手の位置情報を説明するための説明図である。図３は、検索情報データベース１６０に記憶される情報の例を示す説明図である。図４は、手の形を説明するための説明図である。

図１に示すように、本実施形態にかかる映像提供装置１００は、映像取得部１１０と、画像処理部１２０と、画像認識部１３０と、情報検索部１４０と、映像表示部１５０と、検索情報データベース１６０と、映像データベース１７０とを備える。また、符号１０は、映像検索を行うユーザである。

映像取得部１１０は、ユーザ１０の動作を撮影して動作映像を取得する機能部であり、例えばカメラを用いることができる。映像取得部１１０は、外部から入力される指示にしたがって動作可能であり、向き、ズーム動作、パン・チルト動作等の撮影条件を変更することができる。映像取得部１１０により取得された映像は、画像処理部１２０に送信される。なお、映像提供装置１００の構成により、１または２以上の映像取得部１１０を備えることができる。

画像処理部１２０は、映像取得部１１０により取得された映像から静止画像を取得し、取得した静止画像に対して画像処理を行う機能部である。画像処理部１２０により取得された静止画像は、画像認識部１３０に送信される。

画像認識部１３０は、画像処理部１２０により取得された静止画像から特徴データを抽出する機能部である。本実施形態における特徴データは、静止画像におけるユーザ１０の重心位置、手の位置、手の形等からなる。例えば、ユーザ１０の重心位置および手の位置は、ユーザ１０が表示された画面を、図２左下を原点（０、０）とするｘｙ座標系として、画面内での手の位置を二次元座標で表した値により示すことができる。例えば、図２に示すように、ユーザ１０の重心位置は、ユーザ１０の体領域の重心位置Ｇ（Ｘ_Ｇ、Ｙ_Ｇ）とし、手の位置は、右手領域、左手領域の各重心位置を左右の手の位置Ｐ_Ｒ（Ｘ_Ｒ、Ｙ_Ｒ）、Ｐ_Ｌ（Ｘ_Ｌ、Ｙ_Ｌ）としてもよい。画像認識部１３０により取得された特徴データは、情報検索部１４０に送信される。

情報検索部１４０は、ユーザ１０の動作と類似する動作映像を検索する機能部である。情報検索部１４０は、画像認識部１３０から受信した特徴データを、１つの動作映像の時間に相当する所定時間分蓄積し、蓄積した特徴データと対応する動作映像の映像ＩＤを検索情報データベース１６０から取得する。後述する検索情報データベース１６０には、動作映像に付された固有の映像ＩＤと、検索のために動作映像からあらかじめ抽出された特徴データ等が記憶されている。ユーザ１０の動作と類似する動作映像の映像ＩＤは、例えばＤＰ（ＤｙｎａｍｉｃＰｒｏｇｒａｍｍｉｎｇ）マッチング等の既存の方法を用いて、画像認識部１３０により取得されたユーザ１０の特徴データと、検索情報データベース１６０に記憶された特徴データとを比較することにより検索することができる。このとき、１または２以上の映像ＩＤが、検索情報データベース１６０から取得される。また、複数の映像ＩＤを取得した場合には、例えば所定の値に設定された類似度等に基づいて、動作映像に対してユーザ１０に提示する順序付けを行うこともできる。

映像表示部１５０は、映像を表示する機能部であり、例えばディスプレイ等を用いることができる。映像表示部１５０には、映像取得部１１０が取得したユーザ１０の動作の映像や、情報検索部１４０により取得された映像ＩＤに対応する動作映像等が表示される。

検索情報データベース１６０は、情報検索部１４０による映像ＩＤ検索のために用いるデータを記憶する記憶部であり、例えばＲＡＭやハードディスク等のメモリを含んで構成される。検索情報データベース１６０は、少なくとも、映像データベース１７０に記憶されている動作映像に関連付けられた映像ＩＤと、情報検索部１４０が検索に用いる、ユーザ１０の動作を示す特徴データと比較可能なデータとが記憶されている。ここで、「ユーザ１０の動作を示す特徴データと比較可能なデータ」とは、ユーザ１０の動作の映像についての特徴データと同一の形式で、映像データベース１７０に記憶された映像から抽出された特徴データをいう。例えば、手話の例を挙げれば、動作映像における一定時間ごとの手の位置や手の形等が数値として格納される。

検索情報データベース１６０は、例えば、図２に示すように、映像ＩＤ１６１、日本語ラベル１６２、ファイル名１６３、特徴データ１６４等を記憶している。映像ＩＤ１６１は、映像データベース１７０に記憶されている動作映像に関連付けられた固有の記号である。日本語ラベル１６２は、動作映像の示す内容の理解を容易にするために設けられる文字列であり、また、検索された動作映像を映像表示部１５０に表示する際に、検索結果の一部として表示することもできる。ファイル名１６３は、動作映像のファイル名を示す。

特徴データ１６４は、動作映像から抽出された一定時間分のデータであり、例えば、左右の手について手の位置、手の形を一定の時間ごとに記憶している。ここで、「手の位置」とは、図２を参照しながら上述したように、二次元座標上の位置で表される手の位置である。また、「手の形」とは、指を伸ばしたり曲げたりすることにより表される手の形状をいう。図４に、手の形と記号とを対応付けした例を示す。例えば、通常手話の場合、手の形は約８０種類に区別されている。例えば、手を握った形状を０、０の状態から親指を開いた形状を１０、人差し指と中指を開いて前方にほぼ直角に傾けた形状を６５等のように対応させることができる。

映像データベース１７０は、情報検索部１４０により取得された映像ＩＤに関連付けられた動作映像を記憶する記憶部であり、例えばＲＡＭやハードディスク等のメモリを含んで構成される。映像データベース１７０は、例えば、映像ＩＤ、動作映像等を記憶している。映像データベース１７０に記憶される動作映像は、検索結果として、映像表示部１５０を介してユーザ１０に提示される映像である。

このような構成の映像提供装置１００を用いた検索では、例えば図５に示すように、映像表示部１５０に、映像取得部１１０により取得されたユーザ１０の動作を示す画像１５５および情報検索部１４０の検索により取得された動作映像１５７が表示させることにより、ユーザ１０に対して検索結果を提示することができる。次に、図６および図７に基づいて、かかる映像提供装置１００による動作映像の検索処理について説明する。ここで、図６は、初期設定の処理を示すフローチャートである。図７は、映像提供装置１００による動作映像の検索処理を示すフローチャートである。

＜１．初期設定処理＞
映像提供装置１００の初期設定は、映像取得部１１０から出力される映像の質を最適化するために行う処理であり、かかる処理により、検索の精度を向上させることができる。映像提供装置１００の初期設定では、図６に示すように、まず、画像認識部１３０により、初期設定用テンプレート画像（以下、「テンプレート画像」とする。）について、特徴データを抽出して保持する（Ｓ１０１）テンプレート画像とは、ユーザ１０に指示する姿勢と同一の姿勢を最適な撮影条件下において撮像した静止画像である。すなわち、ステップＳ１０１では、テンプレート画像の、例えば手の位置および手の形を認識する。

次いで、ユーザ１０に対してテンプレート画像と同一の姿勢をとるように指示し、ユーザ１０の姿勢を映像取得部１１０により撮影する（Ｓ１０３）。ステップＳ１０３では、映像表示部１５０にテンプレート画像を表示することにより、ユーザ１０に動作を促すことができる。また、ユーザ１０は、例えば初期設定が終了するまで姿勢を変更しないことが望ましい。

さらに、画像処理部１２０により、映像取得部１１０で取得した映像から、１つの画像を取得する（Ｓ１０５）。取得される画像は、例えば、映像の撮像時間の中間時点における画像とすることができる。画像処理部１２０により取得された画像は、画像認識部１３０に送信される。

その後、画像処理部１２０により取得された静止画像について、特徴データを抽出する（Ｓ１０７）。ステップＳ１０７において抽出する特徴データは、ステップＳ１０１において抽出されたテンプレート画像の特徴データと同様、例えば手の位置および手の形に関する情報とすることができる。手の位置は映像のｘｙ座標における座標値により、手の形は各形状に対応付けられた記号により、数値として表すことができる。そして、ユーザの姿勢に関する特徴データとテンプレート画像の特徴データとを比較して、映像提供装置１００の設定の調整を行う。

まず、映像撮像部１１０により取得された映像から得た画像において、ユーザが画像の中心位置にいるか否かを判定する（Ｓ１０９）。ステップＳ１０９において、ユーザが画像の中心位置にいると判定された場合には、ステップＳ１１１の処理に移行する。一方、ユーザが画像の中心位置から外れていると判定された場合には、映像取得部１１０の調整を行う（Ｓ１１３）。この場合、例えば映像取得部１１０を、ユーザが画像の中心位置から外れて位置する方向と反対方向に回転移動させる等の調整が行われる。ステップＳ１１３における調整処理を終えると、再度ステップＳ１０５の処理を実行する。

次いで、映像撮像部１１０により取得された映像において、映像内のユーザの大きさが適当か否かを判定する（Ｓ１１１）。ステップＳ１１１において映像内のユーザの大きさが適当であると判定された場合には、初期処理を終了する。一方、映像内のユーザの大きさが大きすぎたり小さすぎたりして不適当であると判定された場合には、映像取得部１１０の調整を行う（Ｓ１１３）。この場合、例えば映像取得部１１０のズーム調整等の調整が行われる。ステップＳ１１３における調整処理を終えると、再度ステップＳ１０５の処理を実行する。

以上の処理を行うことにより、最終的に、映像取得部１１０は、撮影したユーザが画面の中心位置に、適当な大きさで表示される映像を取得することができるように設定される。

以上、映像提供装置１００の初期処理について説明した。かかる初期処理では、映像取得部１１０から取得された映像から静止画像を取得し、取得した静止画像に対して特徴データを抽出する認識処理を行う。そして、認識処理結果に基づいて映像取得部１１０に撮影状況修正のための指示を送信することにより、映像取得部１１０から出力される映像の質を向上させることが可能となる。

なお、初期設定方法は、上述した方法に限定されない。例えば、テンプレート画像や映像取得部１１０により取得する映像の特徴データは、映像全体に対するものではなく、映像の一部分に関するデータでも構わない。また、映像取得部１１０により取得する映像の特徴データは、映像の一部分に関するデータでもよく、周波数領域に展開したもの、モザイク処理や中間値を取得して画像の画素数を減らしたデータ、またはこれらのデータに対して処理を施したもの等であってもよい。

＜２．動作映像検索処理＞
次に、図７に基づいて、本実施形態にかかる映像提供装置１００における動作映像の検索処理について説明する。まず、ユーザの動作を映像取得部１１０により映像として取得する（Ｓ１１５）。映像取得部１１０により取得された映像は、画像処理部１２０に送信される。

次いで、画像処理部１２０は、映像取得部１１０から受信した映像から静止画像を取得する（Ｓ１１７）。画像処理部１２０は、例えば、１つの映像から所定の時間ごとに複数の静止画像を取得する。こうして取得された複数の静止画像は、画像認識部１３０に送信される。

さらに、画像認識部１３０は、画像処理部１２０より受信した複数の画像について、それぞれ特徴データを取得する（Ｓ１１９）。ステップＳ１１９では、検索情報データベース１６０に記憶された動作映像の特徴データと比較して、ユーザの動作と類似する動作映像を検索するために用いられるための情報を取得する。本実施形態では、ユーザの左右の手の位置および手の形等の情報が取得される。取得された特徴データは、画像認識部１３０から情報検索部１４０へ送信される。

その後、情報検索部１４０は、画像認識部１３０により取得された特徴データに基づいて、検索情報データベース１６０からユーザの動作と類似する動作内容を含む動作映像の映像ＩＤを取得する（Ｓ１２１）。情報検索部１４０は、まず、画像認識部１３０により取得された特徴データを一定時間分蓄積する。そして、蓄積された特徴データと検索情報データベース１６０に記憶された特徴データとを比較する。

具体的には、例えば、ＤＰマッチングを用いることができる。ここで、ＤＰマッチングとは、音声認識など、パターン認識の分野で広く用いられている手法である。例えば、時系列データで与えられる系列長の異なる２つの時系列パターンの類似度を求めることができる。認識に用いる場合には、入力された時系列のパターンと、認識の対象となる比較対象時系列パターンとを、時間などの制約のもとで、可能な照合と類似度計算を実施する。各時点における類似度を所定の時間の範囲で累積した値を入力パターンと比較パターンとの距離とし、入力パターンと認識の対象となるすべてのデータのパターンとの距離を計算し、その中で最小の距離を示すデータを認識結果とする。この計算は、動的計画法を用いると効率よく解くことができるため、ＤＰマッチングと呼ばれている。

これにより、ユーザの動作を示す特徴データと類似度の高いデータを有する動作映像の映像ＩＤを取得する。取得される映像ＩＤの数は、１または２以上とすることができ、あらかじめ設定してもよく、所定の類似度以上の映像を示すようにしてもよい。取得された映像ＩＤは、映像表示部１５０に送信される。このとき、映像ＩＤとともに、日本語ラベル、映像ファイル名を送信してもよい。

次いで、映像表示部１５０は、情報検索部１４０により取得された映像ＩＤに基づいて、映像ＩＤに対応付けられた動作映像を映像データベース１７０より取得する（Ｓ１２３）。そして、取得された映像は、映像表示部１５０に表示される（Ｓ１２５）。この際、映像表示部１５０が情報検索部１４０から日本語ラベルも受信している場合には、日本語ラベルも映像表示部１５０に表示してもよい。このようにして、検索結果をユーザに提示することができる。

以上、第１の実施形態にかかる情報提供装置１００について説明した。本実施形態によれば、手の位置や手の形を、マウスなど入力装置を用いて明示的に選択することなく、カメラなどの映像取得部１１０によりユーザ１０の動作を検索情報として入力することにより、ユーザ１０の動作に類似した動作内容を有する動作映像を容易に検索でき、ユーザ１０に提供することができる。

（第２の実施形態）
次に、図８および図９に基づいて、本発明の第２の実施形態にかかる映像提供装置について説明する。なお、図８は、本実施形態にかかる映像提供装置２００の構成を示すブロック図である。図９は、本実施形態にかかる映像検索処理を示すフローチャートである。

本実施形態にかかる映像提供装置２００は、ユーザ情報取得部２１０と、情報検索部２２０と、映像表示部２３０と、検索情報データベース２４０と、映像データベース２５０とを備える。本実施形態にかかる映像提供装置２００は、第１の実施形態と比較して、映像取得部１１０の代わりに、ユーザ１０の動作を取得するためのユーザ情報取得部２１０を備える点で相違する。なお、図８における符号２０は、ユーザ１０の手を表している。

ユーザ情報取得部２１０は、ユーザ１０の動作を示す情報（特徴データ）を映像以外の方法で取得する機能部であり、例えば、データグローブ（手袋状の入出力装置）等を用いることができる。ユーザ１０は、例えば、データグローブを手２０に装着して動作することにより、特徴データとして使用される手の位置情報、手の形等の手に関する情報を直接的に取得することができる。このため、第１の実施形態のように画像処理部１２０による画像処理、画像認識部１３０による特徴データの取得処理を行わなくともよい。ユーザ情報取得部２１０で取得された特徴データは、情報検索部２２０に送信される。

なお、情報検索部２２０、映像表示部２３０、検索情報データベース２４０および映像データベース２５０は、第１の実施形態にかかる情報検索部１４０、映像表示部１５０、検索情報データベース１６０および映像データベース１７０にそれぞれ対応し、同一の機能を有するため、ここではその説明を省略する。

次に、本実施形態にかかる映像提供装置２００による動作映像の検索処理について説明する。なお、第１の実施形態と同一の処理については、その詳細な説明は省略する。

＜動作映像検索処理＞
まず、図９に示すように、ユーザの動作をユーザ情報取得部２１０により取得する（Ｓ２０１）。ユーザ１０は、例えばデータグローブ等のユーザ情報取得部２１０を装着して動作することにより、特徴データとして、例えばユーザ１０の手の位置および手の形に関する情報が一定時間ごとに取得される。ユーザ情報取得部２１０により取得された特徴データは、情報検索部２２０に送信される。なお、ユーザ情報取得部２１０の初期設定処理は、必要に応じて行えばよい。

次いで、情報検索部２２０は、ユーザ情報取得部２１０により取得された特徴データに基づいて、検索情報データベース２４０からユーザの動作と類似する動作内容を含む動作映像の映像ＩＤを取得する（Ｓ２０３）。情報検索部２２０は、まず、ユーザ情報取得部２１０により取得された特徴データを一定時間分蓄積する。そして、蓄積された特徴データと検索情報データベース２４０に記憶された特徴データとを比較する。具体的には、例えば、ＤＰマッチングを用いることができる。取得される映像ＩＤの数は、１または２以上とすることができ、あらかじめ設定してもよく、所定の類似度以上の映像を示すようにしてもよい。取得された映像ＩＤは、映像表示部２３０に送信される。このとき、映像ＩＤとともに、日本語ラベル、映像ファイル名を送信してもよい。

さらに、映像表示部２３０は、情報検索部２２０により取得された映像ＩＤに基づいて、映像ＩＤに対応付けられた動作映像を映像データベース２５０より取得する（Ｓ２０５）。そして、取得された映像は、映像表示部２３０に表示される（Ｓ２０７）。この際、映像表示部２３０が情報検索部２２０から日本語ラベルも受信している場合には、日本語ラベルも映像表示部２３０に表示してもよい。このようにして、検索結果をユーザに提示することができる。

以上、第２の実施形態にかかる情報提供装置２００について説明した。本実施形態によれば、手の位置や手の形を、マウスなど入力装置を用いて明示的に選択することなく、ユーザ情報取得部２１０によりユーザ１０の動作を示す特徴データを検索情報として入力することにより、ユーザ１０の動作に類似した動作内容を有する動作映像を容易に検索でき、ユーザ１０に提供することができる。

さらに、本実施形態にかかる情報提供装置２００は、第１の実施形態と比較して、ユーザの動作を示す特徴データを、映像からではなくユーザ情報取得部２１０により直接取得する。すなわち、第１の実施形態のように画像処理、画像認識時の手の位置、手の形状の抽出処理の精度によって、検索情報データベースから取得された、ユーザへ提供される映像は変動する可能性がある。一方、本実施形態では、このように画像処理、画像認識の精度に依存することなく、一定の精度でユーザの動作を示す特徴データを取得することができる。このため、例えば、ユーザの背景が複雑すぎるために、映像からは精度よくユーザの位置情報等を抽出することが困難な場合にも、画像処理等を行うことなくユーザの動作を示す特徴データを取得することができるので、精度よく検索処理を行うことができる。

（第３の実施形態）
次に、図１０〜図１３に基づいて、第３の実施形態にかかる映像提供装置３００について説明する。ここで、図１０は、本実施形態にかかる映像提供装置３００の構成を示すブロック図である。図１１は、平均化画像の生成方法を示すフローチャートである。図１２は、平均化画像の生成方法を説明するための説明図である。図１３は、本実施形態にかかる映像提供装置３００による動作映像の検索処理を示すフローチャートである。

本実施形態にかかる映像提供装置３００は、図１０に示すように、映像取得部３１０と、映像加工部３２０と、画像検索部３３０と、映像表示部３４０と、平均化画像データベース３５０と、映像データベース３６０とを備える。なお、映像取得部３１０、画像検索部３３０、映像表示部３４０および映像データベース３６０は、第１の実施形態にかかる映像取得部１１０、情報検索部１４０、映像表示部１５０および映像データベース１７０にそれぞれ対応している。このため、同一の機能についてはその詳細な説明を省略する。

映像加工部３２０は、映像取得部３１０により取得された映像に対して加工処理を行い、画像検索部３３０が行う検索処理に用いる形式の画像を作成するための機能部である。本実施形態の映像加工部３２０は、映像取得部３１０により取得された映像から、後述する平均化画像を作成し、平均化画像を検索するための特徴データとして画像検索部３３０へ送信する。

映像表示部３４０は、映像を表示する機能部であり、例えばディスプレイ等を用いることができる。映像表示部３４０には、図５に示すように、映像取得部３１０が取得したユーザ１０の動作の映像や、画像検索部３３０により取得された映像ＩＤに対応する動作映像等が表示され、さらに、ユーザ１０に対して動作を行うべき時間を指示する動作時間指示部１５３を設けることができる。動作時間指示部１５３は、例えば、時間の経過とともに動作時間指示部１５３の領域内を塗りつぶし、または移動して時間経過を示すバーとすることにより実現することができる。このように、ユーザ１０に対して動作指示を行うことにより、映像取得部３１０により取得される動作の開始部分および終了部分を定めることができる。

平均化画像データベース３５０は、映像データベース３６０に記憶された動作映像から、後述する平均化画像作成方法により作成された平均化画像を記憶する記憶部である。平均化画像は、映像データベース３６０に記憶された動作映像と同様、動作映像を特定するために関連付けられた映像ＩＤと関連付けて記憶されている。さらに、日本語ラベルも平均化画像に関連付けて記憶してもよい。

このような映像提供装置３００は、映像加工部３２０により映像取得部３１０が取得した映像を加工して作成された平均化画像と、映像データベース３６０の各動作映像について作成された平均化画像とを比較した結果に基づいて、映像データベース３６０からユーザ１０の動作と類似する動作内容を有する動作映像を取得することを特徴とする。そこで、以下に、平均化画像作成処理、および映像提供装置３００による動作映像の検索処理について詳細に説明する。

＜１．平均化画像作成処理＞
本実施形態において、平均化画像とは、映像を構成する静止画像の各時間における各座標値の平均により作成される静止画像をいう。平均化画像作成処理では、まず、映像加工部３２０は、映像取得部３１０により取得された映像から複数の静止画像を取得する（Ｓ３０９１）。例えば、図１２に示すような、１つの動作を撮影した映像３５０があるとする。映像加工部３２０は、映像３５０から各時間における静止画像を取り出し、取り出した各静止画像の背景を除去する処理を行う。背景除去がなされた各静止画像は、図１２において、３５０Ｉｍ（＿１〜＿Ｎ、Ｎは正の整数）で表される。

次いで、各静止画像３５０Ｉｍにおける同一座標における画素値を平均化する（Ｓ３０９３）。図１２における各静止画像３５０Ｉｍの同一座標における画素値をＰ（ｘ、ｙ）（＿１〜＿Ｎ、Ｎは正の整数）で表したとすると、これらの画素値の平均（以下、「平均画素値」という。）は、以下の数式１で表される。

このように、静止画像３５０Ｉｍを構成する各画素について、平均画素値を算出する。

その後、ステップＳ３０９３により算出された各画素における平均画素値から平均化画像３６０Ｉｍが作成される（Ｓ３０９５）。作成された平均化画像３６０Ｉｍは、換言すると、映像時間を畳み込んで作成された画像であり、手の位置の変化や手の形状の変化、変化の緩急等の情報を含んでいる。このようにして、時間経過に伴う動作の変化を組み込んだ１つの静止画像（平均化画像）を作成することができる。

＜２．動作映像検索処理＞
次に、図１３に基づいて、本実施形態にかかる映像提供装置３００における動作映像の検索処理について説明する。なお、本実施形態における検索処理の前に、第１の実施形態にて説明した初期設定処理を行ってもよい。

まず、映像提供装置３００は、ユーザ１０に対して、動作開始の指示を行う（Ｓ３０１）。動作開始の指示は、例えば図５に示すように、映像表示部３４０に動作時間指示部１５３を設け、動作時間指示部１５３にバーを表示させ始めることにより行うことができる。映像提供装置３００は、動作開始の指示を行った後、映像取得部３１０によるユーザ１０の撮影を開始する（Ｓ３０３）。

動作開始の指示を受けたユーザ１０は、動作を開始する（Ｓ３０５）。そして、所定の時間の経過後、映像提供装置３００は、ユーザ１０に対して動作終了の指示を行う（Ｓ３０７）。動作終了の指示は、例えば映像表示部３４０に設けられた動作時間指示部１５３の範囲内がバーにより満たされたことにより行うことができる。映像提供装置３００は、動作終了の指示を行った後、映像取得部３１０によるユーザ１０の撮影を終了する。このようにして取得されたユーザ１０の動作の映像は、映像取得部３１０から映像加工部３２０に送信される。

次いで、映像加工部３２０は、受信した映像から平均化画像を作成する（Ｓ３０９）。ステップＳ３０９では、画像検索部３３０による検索処理に用いる平均化画像を、例えば上述の平均化画像作成処理により作成する。なお、平均化画像を取得するアルゴリズムは、上記の例に限定されず、例えば論理和を用いる等、同様の効果が得られる方法を用いてもよい。映像加工部３２０により作成された平均化画像は、画像検索部３３０に送信される。

さらに、画像検索部３３０は、受信した平均化画像に基づいて、平均化画像データベース３５０を検索し、平均化画像と類似する画像と対応する映像ＩＤを取得する（Ｓ３１１）。画像検索部３３０は、ユーザ１０の動作の映像から作成した平均化画像と平均化画像データベース３５０が記憶する動作映像の平均化画像とを比較する。そして、類似度が高いと判定された平均化画像データベース３５０の平均化画像について、この平均化画像に関連付けられた映像ＩＤを取得する。

ステップＳ３１１の画像検索は、例えば、パターンマッチング処理において一般的に使用される差分総和法、正規化相関法等の既存の方法を用いることができる。画像の類否判断は、例えば、各画像の各座標における画素値の差分の合計値を算出し、その差分の合計値が小さいものをより類似度が高い画像であると判断することができる。そして、画像検索部３３０は、類似度の高い画像を１または２以上選択して、選択した画像に関連付けられた映像ＩＤを取得して、映像表示部３４０に送信する。画像の選択は、例えば、類似度の高いものから所定数だけ選択してもよく、所定の類似度以上の値を有する画像を選択してもよい。

その後、映像表示部３４０は、受信した映像ＩＤに対応する動作映像を映像データベース３６０から取得し、映像表示部３４０に表示する（Ｓ３１５）。この際、映像表示部３４０が画像検索部３３０から日本語ラベルも受信している場合には、日本語ラベルも映像表示部３４０に表示してもよい。このようにして、検索結果をユーザに提示することができる。

以上、第３の実施形態にかかる情報提供装置３００について説明した。本実施形態では、映像を検索する際に、映像取得部により取得された映像から、認識処理を用いて特徴データを取得するのではなく、映像加工部３２０によって平均化画像を作成し、映像データベース３６０に記憶された各動作映像について作成された平均化画像と比較して、平均化画像間での類似度検索処理を行うことを特徴とする。

本実施形態によれば、手の位置や手の形を、マウスなど入力装置を用いて明示的に選択することなく、カメラなどの映像取得部３１０によりユーザ１０の動作を検索情報として入力することにより、ユーザ１０の動作に類似した動作内容を有する動作映像を容易に検索でき、ユーザ１０に提供することができる。

さらに、映像検索処理において平均化画像を用いて検索することにより、第１の実施形態と比較して、比較するデータ量が少ないため検索処理が単純であり、ハードウェアへの実装、並列化が容易であるため、検索処理を高速化することができる。また、誤差の影響を受け難く、検索結果の制度を高めることもできる。第２の実施形態と比較しても、データグローブ等、ユーザ１０の情報取得のために特別な装置を用意する必要がなく、装置を容易に構成することができる。

（第４の実施形態）
次に、図１４および図１５に基づいて、第４の実施形態にかかる映像提供装置４００について説明する。ここで、図１４は、本実施形態にかかる映像提供装置４００の構成を示すブロック図である。図１５は、本実施形態にかかる映像提供装置４００による動作映像の検索処理を示すフローチャートである。

本実施形態にかかる映像提供装置４００は、図１４に示すように、映像取得部４１０と、映像加工部４２０と、画像処理部４３０と、画像認識部４４０と、画像検索部４５０と、映像表示部４６０と、平均化画像データベース４７０と、映像データベース４８０とを備える。なお、映像取得部４１０、画像加工部４２０、画像検索部４５０、映像表示部４６０、平均化画像データベース４７０および映像データベース４８０は、第３の実施形態にかかる映像取得部４１０、画像加工部３２０、画像検索部３３０、映像表示部３４０、平均化画像データベース３５０および映像データベース３６０にそれぞれ対応している。このため、同一の機能についてはその詳細な説明を省略する。

本実施形態にかかる映像提供装置４００は、第３の実施形態と比較して、平均化画像データベース４７０を複数に分割し、平均化画像データベース４７０に記憶される平均化画像を、動作中の人物の手の位置等に基づいて大別することを特徴とする。平均化画像データベース４７０は、例えば、動作を行う人物の手が最もよく滞留する位置によって分類することができる。複数の平均化画像データベース４７０には、それぞれを区別するためのデータベースＩＤが付与されている。

画像処理部４３０は、映像取得部４１０により取得された映像から、検索すべき平均化画像データベース４７０を特定するために用いられる静止画像を取得する機能部である。本実施形態では、例えば、画像提供装置４００によるユーザ１０への動作開始の指示と動作終了の指示との中間時点における画像を取得する。画像処理部４３０により取得された静止画像は、画像認識部４４０に送信される。

画像認識部４４０は、画像処理部４３０により取得された画像から、検索すべき平均化画像データベース４７０を特定するための画像認識処理を行う機能部である。画像認識部４４０は、平均化画像データベース４７０の分類条件に基づいて画像を認識する。例えば、平均化画像データベース４７０が人物の手の滞留位置により分類されている場合、画像処理部４３０により取得された画像から手の位置を認識し、画像の手の位置と最も類似する条件により分類された平均化画像データベース４７０を決定する。画像認識処理部４４０は、決定された平均化画像データベース４７０のデータベースＩＤを、画像検索部４５０に送信する。

このような映像提供装置３００は、映像加工部３２０により映像取得部３１０が取得した映像を加工して作成された平均化画像と類似する平均化画像を検索する際、あらかじめ所定の条件により大別された複数の平均化画像データベース４７０のうち、１つのデータベースについて検索することを特徴とする。以下に、本実施形態にかかる映像提供装置４００による動作映像の検索処理について説明する。なお、第３の実施形態と同様の処理については、詳細な説明を省略する。

＜動作映像検索処理＞
まず、映像提供装置４００は、ユーザ１０に対して、動作開始の指示を行う（Ｓ４０１）。映像提供装置４００は、動作開始の指示を行った後、映像取得部４１０によるユーザ１０の撮影を開始する（Ｓ４０３）。

動作開始の指示を受けたユーザ１０は、動作を開始する（Ｓ４０５）。そして、所定の時間の経過後、映像提供装置４００は、ユーザ１０に対して動作終了の指示を行う（Ｓ４０７）。映像提供装置４００は、動作終了の指示を行った後、映像取得部４１０によるユーザ１０の撮影を終了する。このようにして取得されたユーザ１０の動作の映像は、映像取得部４１０から映像加工部４２０および画像処理部４３０に送信される。

次いで、映像加工部４２０は、受信した映像から平均化画像を作成する（Ｓ４０９）。ステップＳ４０９では、画像検索部３３０による検索処理に用いる平均化画像を、例えば第３の実施形態と同様、平均化画像作成処理により作成する。なお、平均化画像を取得するアルゴリズムは、上記の例に限定されず、同様の効果が得られる方法を用いてもよい。映像加工部４２０により作成された平均化画像は、画像検索部４５０に送信される。

一方、画像処理部４３０は、受信した映像から、検索すべき平均化画像データベース４７０を特定するための静止画像を取得する（Ｓ４１１）。本実施形態では、例えば、画像提供装置４００によるユーザ１０への動作開始の指示と動作終了の指示との中間時点における画像を取得する。そして、画像処理部４３０は、取得された中間時点における画像に対して、認識精度を高める目的で平滑化フィルタを利用したノイズ除去処理等の前処理を行い（Ｓ４１３）、画像認識部４４０に送信する。

画像認識部４４０は、受信した中間時点における画像から、手の位置や手の形等の情報を取得する（Ｓ４１５）。例えば、「スカート」という日本語ラベルで表される手話は、体の下側（腹部付近）での手の動きが多い。したがって、画像認識部４４０は、「スカート」を意味する動作を行ったユーザ１０の映像から手の滞留位置は体の下側であることを認識する。手の位置は、例えば手の色、手の重心、手の形状等の情報から認識することができる。そして、画像認識部４４０は、手の滞留位置が主に体の下側である平均化画像を記憶した平均化画像データベース４７０を特定し、特定した平均化画像データベース４７０に付与されたデータベースＩＤを画像検索部４５０に送信する（Ｓ４１７）。

さらに、画像検索部４５０は、受信した平均化画像およびデータベースＩＤに基づいて、平均化画像データベース４７０を検索し、平均化画像と類似する画像と対応する映像ＩＤを取得する（Ｓ４１９）。画像検索部４５０は、受信したデータベースＩＤと関連付けられた平均化画像データベース４７０についてのみ検索する。すなわち、ステップＳ４１７において、手の滞留位置が主に体の下側である平均化画像を記憶した平均化画像データベース４７０が特定された場合には、ステップＳ４１９ではかかる平均化画像データベース４７０のみが検索される。したがって、例えば、体の上側（例えば頭の上部）での手の動きが多い「晴れ」という日本語ラベルを意味する手話の動作映像は、別の平均化画像データベース４７０に記憶されているため、検索対象から除外される。このように、検索対象を絞り込むことが可能となる。

そして、平均化画像と平均化画像データベース４７０が記憶する動作映像の平均化画像とを比較し、類似度の高い平均化画像の映像ＩＤを取得する。ステップＳ４１９における検索処理は、第３の実施形態におけるステップＳ３１３と同様であるので、その詳細は省略する。そして、画像検索部４５０は、取得した映像ＩＤを映像表示部４６０に送信する。

その後、映像表示部４６０は、受信した映像ＩＤに対応する動作映像を映像データベース４８０から取得し（Ｓ４２１）、映像表示部４６０に表示する（Ｓ４２３）。この際、映像表示部４６０が画像検索部４５０から日本語ラベルも受信している場合には、日本語ラベルも映像表示部４６０に表示してもよい。このようにして、検索結果をユーザに提示することができる。

以上、第４の実施形態にかかる情報提供装置４００について説明した。本実施形態によれば、平均化画像データベース４７０を所定の分類条件にしたがって複数に分割し、分割された平均化画像データベース４７０のうち、検索すべき平均化画像データベース４７０を特定して、検索するデータベースの範囲を制限することを特徴とする。

本実施形態によれば、手の位置や手の形を、マウスなど入力装置を用いて明示的に選択することなく、カメラなどの映像取得部４１０によりユーザ１０の動作を検索情報として入力することにより、ユーザ１０の動作に類似した動作内容を有する動作映像を容易に検索でき、ユーザ１０に提供することができる。

さらに、映像検索処理において平均化画像を用いて検索することにより、第１の実施形態と比較して、検索処理が単純であり、ハードウェアへの実装、並列化が容易であるため、検索処理を高速化することができる。また、誤差の影響を受け難く、検索結果の制度を高めることもできる。第２の実施形態と比較しても、データグローブ等、ユーザ１０の情報取得のために特別な装置を用意する必要がなく、装置を容易に構成することができる。そして、検索する平均化画像データベース４７０の範囲を制限することにより、大量の映像を検索する場合にも高速な処理を行うことができる。

（第５の実施形態）
次に、図１６および図１７に基づいて、第５の実施形態にかかる映像提供装置５００について説明する。ここで、図１６は、本実施形態にかかる映像提供装置５００の構成を示すブロック図である。図１７は、本実施形態にかかる映像提供装置５００による画面操作処理を示すフローチャートである。

本実施形態にかかる映像提供装置５００は、画面表示部５６０に表示された映像の選択等を、ユーザ１０の動作によって行うことができる。すなわち、映像検索処理により検索された結果に対して、ユーザ１０がインタラクティブに操作することができるように制御部５７０を備えることを特徴とする。以下では、第４の実施形態にかかる映像提供装置４００に対して、上記機能を備えた映像提供装置５００について説明するが、第１〜第３の実施形態にかかる映像提供装置１００、２００、３００に備えることも可能である。

本実施形態にかかる映像提供装置５００は、図１６に示すように、映像取得部５１０と、映像加工部５２０と、画像処理部５３０と、画像認識部５４０と、画像検索部５５０と、映像表示部５６０と、制御部５７０と、平均化画像データベース５８０と、映像データベース５９０とを備える。なお、映像取得部５１０、映像加工部５２０、画像処理部５３０、画像認識部５４０、画像検索部５５０、映像表示部５６０、平均化画像データベース５８０および映像データベース５９０は、第４の実施形態にかかる映像取得部４１０、映像加工部４２０、画像処理部４３０、画像認識部４４０、画像検索部４５０、映像表示部４６０、平均化画像データベース４７０および映像データベース４８０にそれぞれ対応している。このため、同一の機能についてはその詳細な説明を省略する。

制御部５７０は、画像認識部５４０により認識されたユーザ１０の手の位置に応じて、映像表示部５６０に表示される映像を制御する機能部である。例えば、特定の領域内にユーザ１０の手が位置しているときに、その領域内にある画像を拡大したり、再度表示したり、表示を中止したりする等といった処理を行う。

このような機能を備える映像提供装置５００の画面操作処理は、図１７に示すように行われる。図１７に示す画面操作処理は、図１５に示す動作映像の検索処理の後に行われる。

＜画面操作処理＞
まず、画像処理部５３０は、映像取得部５１０により取得された映像に対して前処理を行い、画像を作成する（Ｓ５０１）。そして、画像処理部５３０は、取得された中間時点における画像に対して、認識精度を高める目的で平滑化フィルタを利用したノイズ除去処理等の前処理を行い、画像認識部５４０に送信する。

次いで、画像認識部５４０は、受信した画像から、手の位置を認識する（Ｓ５０３）。認識された手の位置情報は、画像認識部５４０から制御部５７０に送信される。

手の位置情報を受信した制御部５７０は、映像表示部５６０の表示を変更するかを判定する（Ｓ５０５）。例えば、手の位置が、ｘｙ座標平面において特定の領域内にあるかについて判定する。ここで、特定の領域内とは、例えば操作したい対象のある領域とすることができ、具体的には、拡大したい画像の領域や、再度表示するための表示ボタンの位置する領域等とすることができる。

ステップＳ５０５において、手の位置が特定の領域内とあると判定された場合、手の位置に応じた制御命令（コマンド）を映像表示部５６０へ送信する（Ｓ５０７）。例えば、拡大したい画像の領域に手が位置している場合には、画像を拡大する命令が映像表示部５６０に送信される。そして、制御命令を受信した映像表示部５６０は、命令にしたがって映像表示部５６０における映像表示方法を変更して、再表示する（Ｓ５０９）。このようにして、映像表示部５６０に表示される映像の表示方法を変更することができる。

以上、第５の実施形態にかかる映像提供装置５００について説明した。本実施形態では、映像の検索処理機能を備える映像提供装置に対して、ユーザの手の位置に応じて画面の表示を操作することができるように制御部５７０を備えることを特徴とする。これにより、ユーザ１０は、インタラクティブに映像提供装置５００を操作することができるので、映像の検索と映像の表示変更との動作を途切れることなく行うことができる。

以上、添付図面を参照しながら本発明の好適な実施形態について説明したが、本発明は係る例に限定されないことは言うまでもない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。

例えば、上記実施形態において、手話の映像を用いて説明したが、本発明はかかる例に限定されず、記号に対応付けることの可能な、意味を有する映像であれば適用可能である。このような映像としては、例えば、バレエやダンス、ヨガ、手旗信号等の映像が考えられる。

また、上記実施形態において、検索に使用するユーザの動作映像は、完全な情報として映像取得部により取得する必要はなく、モザイク処理や中間値処理等の方法により画素数や画素値のビット数を減らした映像であってもよい。

さらに、上記実施形態において、映像加工部は、映像取得部により取得された映像から実際に静止画像を作成する必要はなく、必要な画素のみについて情報を取得するようにしてもよい。

また、第４の実施形態において、画像処理部４３０により取得した静止画像に対して、画像認識部４４０は画像認識処理を行ったが、本発明はかかる例に限定されず、例えば、映像加工部４２０により生成された平均化画像に対して画像認識処理を行ってもよい。

本発明は、映像提供装置に適用可能であり、特に、データベースから映像を検索して提供する映像提供装置に適用可能である。

本発明の第１の実施形態にかかる映像提供装置の構成を示すブロック図である。手の位置情報を説明するための説明図である。検索情報データベースに記憶される情報の例を示す説明図である。手の形を説明するための説明図である。映像表示部の映像表示例を示す説明図である。初期設定の処理を示すフローチャートである。同実施形態にかかる映像提供装置による動作映像の検索処理を示すフローチャートである。本発明の第２の実施形態にかかる映像提供装置の構成を示すブロック図である。同実施形態にかかる映像提供装置による動作映像の検索処理を示すフローチャートである。本発明の第３の実施形態にかかる映像提供装置の構成を示すブロック図である。平均化画像の生成方法を示すフローチャートである。平均化画像の生成方法を説明するための説明図である。同実施形態にかかる映像提供装置による動作映像の検索処理を示すフローチャートである。本発明の第４の実施形態にかかる映像提供装置の構成を示すブロック図である。同実施形態にかかる映像提供装置による動作映像の検索処理を示すフローチャートである。本発明の第５の実施形態にかかる映像提供装置の構成を示すブロック図である。同実施形態にかかる映像提供装置による画面操作処理を示すフローチャートである。

符号の説明

１００、２００、３００、４００、５００映像提供装置
１１０、３１０、４１０、５１０映像取得部
１２０、４３０、５３０画像処理部
１３０、４４０、５４０画像認識部
１４０、２２０情報検索部
１５０、２３０、３４０、４６０、５６０映像表示部
１５３動作時間指示部
１６０、２４０検索情報データベース
１７０、２５０、３６０、４８０、５９０映像データベース
２１０ユーザ情報取得部
３２０、４２０、５２０映像加工部
３３０、４５０、５５０画像検索部
３５０、４７０、５８０平均化画像データベース
３６０Ｉｍ平均値画像
５７０制御部

Claims

特定の概念を表す身体の動作に対応した動作映像を提供する映像提供装置であって：
複数の動作映像および前記各動作映像を特徴付ける特徴データを記憶する映像記憶部と；
検索対象とするユーザの身体の動作の範囲を、ユーザが動作を行う時間により指定すると共に、取得される動作の開始部分および終了部分を時間経過として表示する動作時間指示部と；
ユーザの身体の動作から特徴データを取得するユーザ特徴データ取得部と；
前記ユーザ特徴データ取得部により取得された特徴データと前記映像記憶部に記憶された特徴データとを比較して、前記映像記憶部から前記ユーザの身体の動作に類似する動作映像を検索する映像検索部と；
を備えることを特徴とする、映像提供装置。
前記ユーザ特徴データ取得部は、１つの動作映像から所定の時間ごとに複数の静止画像を取得し、
前記取得した複数の静止画像から、該静止画像における身体の特定部位の位置を特徴データとしてそれぞれ抽出することを特徴とする、請求項１に記載の映像提供装置。
前記ユーザ特徴データ取得部は、前記取得した複数の静止画像から、身体の特定部位の形状を特徴データとしてそれぞれ抽出することを特徴とする、請求項１または２に記載の映像提供装置。
前記ユーザ特徴データ取得部は、
ユーザの身体の動作を映像として取得する映像取得部と、
前記取得した映像から前記ユーザの身体の動作を特徴付ける特徴データを抽出する特徴データ抽出部と、
を備えることを特徴とする、請求項１〜３のいずれか１項に記載の映像提供装置。
前記ユーザ特徴データ取得部は、ユーザが装着することにより、該ユーザの身体の動作を特徴付ける特徴データを取得することの可能なデータグローブであることを特徴とする、請求項１〜３のいずれか１項に記載の映像提供装置。
前記映像検索部は、前記ユーザ特徴データ取得部により取得された特徴データと前記映像記憶部に記憶された特徴データとの類否判断を、ＤＰマッチングを用いて行うことを特徴とする、請求項１〜５のいずれか１項に記載の映像提供装置。
前記ユーザ特徴データ取得部は、特徴データとして、１つの動作映像から１つの静止画像を作成して取得することを特徴とする、請求項１に記載の映像提供装置。
前記ユーザ特徴データ取得部は、
ユーザの身体の動作を映像として取得する映像取得部と、
前記映像取得部により取得された映像から前記静止画像を作成する映像加工部と、
を備え、
前記映像検索部は、前記映像加工部により作成された静止画像と前記映像記憶部に記憶された静止画像とを比較して、前記映像記憶部から前記ユーザの身体の動作に類似する動作映像を取得することを特徴とする、請求項７に記載の映像提供装置。
前記映像加工部は、前記映像取得部により取得された１つの映像から複数の静止画像を抽出し、
抽出された該複数の静止画像の各画素について、画素値を平均化して平均画素値を算出し、
前記算出された各画素の平均画素値から、１つの平均化画像を作成することを特徴とする、請求項８に記載の映像提供装置。
前記映像取得部により取得された映像から、ユーザの身体の特定部位が位置する領域を認識する画像認識部をさらに備え、
前記映像記憶部は、動作映像における人物の身体の特定部位が位置する領域にしたがって、前記動作映像を分類して記憶し、
前記画像認識部は、認識した領域に基づいて、前記映像記憶部に記憶された動作映像のうち、特定の分類に属する動作映像のみを検索対象として決定することを特徴とする、請求項７〜９のいずれか１項に記載の映像提供装置。
前記映像検索部は、前記ユーザ特徴データ取得部により取得された特徴データと前記映像記憶部に記憶された特徴データとの類否判断を、パターンマッチング処理により行うことを特徴とする、請求項７〜１０のいずれか１項に記載の映像提供装置。
前記ユーザ特徴データ取得部により取得されたユーザの身体の動作、または前記映像取得部により取得された動作映像のうち、少なくとも１つを表示することの可能な映像表示部をさらに備えることを特徴とする、請求項１〜１１のいずれか１項に記載の映像提供装置。
前記ユーザ特徴データ取得部により取得された特徴データに応じて、前記映像表示部の映像の表示を制御する制御部をさらに備えることを特徴とする、請求項１２に記載の映像提供装置。
前記動作映像は、特定の意味を表現する手話であることを特徴とする、請求項１〜１３のいずれか１項に記載の映像提供装置。
前記映像表示部は、１または２以上の手話単語を表す映像を表示することを特徴とする、請求項１４に記載の映像提供装置。