JP2006129376A

JP2006129376A - 映像装置、映像表示方法及びプログラム

Info

Publication number: JP2006129376A
Application number: JP2004318266A
Authority: JP
Inventors: Yusuke Suzuki; 雄介鈴木; Koichi Takeuchi; 晃一竹内
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2004-11-01
Filing date: 2004-11-01
Publication date: 2006-05-18
Anticipated expiration: 2024-11-01
Also published as: JP4492299B2

Abstract

【課題】連続動作映像合成の際、合成処理負担を少なくし、かつ高品質の映像を作成、表示できる映像装置、映像表示方法及びプログラムを提供する。
【解決手段】本発明の映像装置は、動作映像格納手段と、各情報に、動作映像の読み出し情報と、動作映像内に表示されている１又は複数の連結基準情報とを対応付けて格納する連結基準情報格納手段と、時間的順序のある複数の入力情報に基づいて連結基準情報格納手段から動作映像の読み出し情報を検索し、その情報に基づいて動作映像格納手段から動作映像を取り出す動作映像取得手段と、動作映像取得手段が取り出した複数の動作映像を連結して動作映像を出力する出力手段とを備え、動作映像取得手段が、入力情報の検索結果が複数ある場合に、少なくとも入力情報の直前情報の連結基準情報と、検索したそれぞれの連結基準情報との比較により、入力情報に対応する動作映像を選択することを特徴とする。
【選択図】図１

Description

本発明は、映像装置、映像表示方法及びプログラムに関し、例えば、ある複数の映像を連結させた連続動作映像を表示する映像装置に適用し得る。

従来、写実性の高い映像コンテンツを動的に作成するためには、例えば、実際の人物の動きを撮影した実写の映像ファイルを複数用意しておき、それらを必要に応じて連結するといった方法がある。

例えば、特許文献１は、複数の単一動作映像を連結させて連続動作映像を作成する際に、連結する単一動作映像間の被写体の動作が滑らかにつながるように、単一動作映像内で被写体のずれを補正し、また単一動作映像間の被写体のずれを補正する技術が開示されている。

また、特許文献１及び非特許文献１は、特徴点位置のずれを補正するワーピングという技術が開示されている。具体的には、実写の人物の映像に手動で特徴点を設定し、特徴点の映像ファイル中での移動量を計算して、その移動量を用いて画像合成処理で映像ファイルの中での人物位置が一定になるように処理を行うなどして人物の位置を補正するなどして映像の質を高めるなどの方法が提案されている。
特開２００３−６９９００号公報横山哲，林正樹，「実写による二次元バーチャルアクターの検討」，情報処理学会全国大会講演予稿集、２００１年３月

しかしながら、特許文献１に記載の技術は、単一動作映像内及び単一動作映像間の被写体のずれを補正するものであり、写実性の高い複数の映像フレームを断片的に単純に連結しても、連結する映像部分で被写体の形状や動作速度などが異なると、たとえ被写体のずれを補正しても被写体の位置がずれるなど連結部分で不整合が生じてしまい、不自然な印象を与えてしまうことがあるという問題がある。

また、非特許文献１に示す技術は、非特許文献１にも指摘されているように、人物の位置を補正するなどの処理は映像ファイル中の全フレーム、すなわち全画面の画素を処理対象とするため、合成の際に大量の処理時間が必要であるという問題がある。

そのため、上記問題を解決するため、連続動作映像合成の際に、動作映像内の表示映像の構成情報を利用することで、合成時に必要な処理を少なくし、かつ品質の高い合成映像を作成、表示できる映像装置、映像表示方法及びプログラムを提供する。

かかる課題を解決するために、第１の本発明の映像装置は、ある情報に応じた動作を表わした動作映像を複数連結して連続動作映像を出力する映像装置において、（１）動作映像を複数格納する動作映像格納手段と、（２）各情報に、動作映像の読み出し情報と、動作映像内に表示されている１又は複数の連結基準情報とを対応付けて格納する連結基準情報格納手段と、（３）入力された時間的順序のある複数の入力情報に基づいて連結基準情報格納手段から対応する動作映像の読み出し情報を検索し、その動作映像の読み出し情報に基づいて動作映像格納手段から動作映像を取り出す動作映像取得手段と、（４）動作映像取得手段が取り出した複数の動作映像を連結して動作映像を出力する出力手段とを備え、動作映像取得手段は、入力情報の検索結果が複数ある場合に、少なくとも入力情報の直前情報の連結基準情報と、検索したそれぞれの連結基準情報との比較により、当該入力情報に対応する動作映像を選択することを特徴とする。

また、第２の本発明の映像表示方法は、第１の本発明の映像装置に対応するものである。つまり、第２の本発明の映像表示装置は、ある情報に応じた動作を表わした動作映像を複数連結して連続動作映像を出力する映像表示方法において、（１）動作映像を複数格納する動作映像格納手段と、（２）各情報に、動作映像の読み出し情報と、動作映像内に表示されている１又は複数の連結基準情報とを対応付けて格納する連結基準情報格納手段とを備え、（３）動作映像取得手段が、入力された時間的順序のある複数の入力情報に基づいて連結基準情報格納手段から対応する動作映像の読み出し情報を検索し、その動作映像の読み出し情報に基づいて動作映像格納手段から動作映像を取り出し、（４）出力手段が、動作映像取得手段が取り出した複数の動作映像を連結して動作映像を出力し、動作映像取得手段が、入力情報の検索結果が複数ある場合に、少なくとも入力情報の直前情報の連結基準情報と、検索したそれぞれの連結基準情報との比較により、入力情報に対応する動作映像を選択することを特徴とする。

さらに、第３の本発明のプログラムは、ある情報に応じた動作を表わした動作映像を複数連結して連続動作映像を出力する映像装置に、（１）動作映像を複数格納する動作映像格納手段、（２）各情報に、動作映像の読み出し情報と、動作映像内に表示されている１又は複数の連結基準情報とを対応付けて格納する連結基準情報格納手段と、（３）入力された時間的順序のある複数の入力情報に基づいて連結基準情報格納手段から対応する動作映像の読み出し情報を検索し、その動作映像の読み出し情報に基づいて動作映像格納手段から動作映像を取り出す動作映像取得手段、（４）動作映像取得手段が取り出した複数の動作映像を連結して動作映像を出力する出力手段として機能させ、動作映像取得手段が、入力情報の検索結果が複数ある場合に、少なくとも入力情報の直前情報の連結基準情報と、検索したそれぞれの連結基準情報との比較により、入力情報に対応する動作映像を選択するものとして機能させるためのプログラム。

本発明の映像装置、映像表示方法及びプログラムにより、連続動作映像合成の際に、動作映像内の表示映像の構成情報を利用することで、合成時に必要な処理を少なくし、かつ品質の高い合成映像を作成、表示できる。

以下、本発明の映像装置、映像表示方法及びプログラムの実施形態について図面を参照して説明する。

（Ａ）第１の実施形態
本実施形態は、入力文章の意味を表現する手話を連続映像として表示する映像表示装置に適用した場合について説明する。

（Ａ−１）第１の実施形態の構成
図１は、本実施形態の映像表示装置の機能ブロック図である。なお、本実施形態の映像表示装置は、ハードウェア的には、入出力装置、中央演算処理装置、記憶装置などからなるワークステーションやパソコン等の情報処理装置で実現されるものであるが、その機能構成の説明便宜上、図１では機能ブロックとして示す。

図１において、映像表示装置１は、入力部１０、形態素解析部１１、翻訳部１２、データ選択部１３、単語辞書１４、映像ファイル群１５、選択映像ファイル１６、表示部１７を備える。

入力部１０は、ユーザが映像表示を希望する意味の文章（本実施形態では日本語とする。）を取り込み、取り込んだ文章を形態素解析部１１に与えるものである。入力部１０の機能を実現する例として、例えば、キーボードによる文字入力受付、マイクからの入力音声をテキスト変換した音声テキスト入力受付、又はアンテナが捕捉した放送電波によるデータストリームの入力受付など多様な形態を想定している。

形態素解析部１１は、入力部１０から入力文章を受け取り、その入力文章に対して形態素解析を行ない、入力文を形態素に分解し、図示しない辞書を用いて形態素に品詞を割り当てるものである。また、形態素解析部１１は、解析した単語を翻訳部１２に与えるものである。

翻訳部１２は、形態素解析部１１により解析された単語を受け取り、単語の情報、単語の品詞情報に従って、単語の語順の変更や不要単語の除去や必要な語の追加などの処理を行なうものである。また、翻訳部１２は、処理結果をデータ選択部１３に与えるものである。

データ選択部１３は、翻訳部１２から調整された単語を受け取ると、単語辞書１４の中からその単語に対応付けられている情報（後述するが、例えば映像ファイル名、映像内のメタデータ、動作継続時間など）を取り出し、映像ファイル名とメタデータ等を検索キーとして、映像ファイル群１５からその単語意味を表現するために必要となる映像ファイルを検索するものである。また、データ選択部１３は、検索した映像ファイルを選択映像ファイル１６に蓄積するものである。また、データ選択部１３は、入力単語が単語辞書１４に登録されていない場合、単語の音を手話で表現した指文字を示す映像をから検索し、選択映像ファイル１６に与えるものである。

ここで、映像ファイルとは、手話を行っている人物を撮影した映像を、各単語意味を表現する部分で区切り、名前をつけたものである。また、映像ファイルは、複数枚の静止画像を連続的に並べたものとして構成されており、その静止画像の一枚一枚をフレームという。

単語辞書１４は、各単語ごとに、単語意味を表現する映像を含んでいる映像ファイルの映像ファイル名、映像ファイル中の動作継続時間、映像内のメタデータなどが対応付けられて記憶される記憶領域である。なお、単語辞書１４は、その内容を新規登録、追加、削除、変更が可能である。

図２は、本実施形態の単語辞書１４の構成例を示す。図２に示すように、単語辞書１４は、各単語に対して、読み、品詞、ファイル名、作成日時、継続時間が対応付けられ、また各映像ファイルを構成する各フレームのメタデータも対応付けられている。また、メタデータは、映像に映し出されている人物の手の位置、手の形、手の向きを示すデータから構成される。

単語名は、登録されている単語の名前を示す。読みは、その単語の読みを示す。品詞は、単語の品詞名を示す。ファイル名は、単語を表している映像ファイルの名前を示す。作成日時は、作成された映像ファイルの単語辞書１４へのデータ登録された日時を示す。継続時間は、映像ファイル中の動作の継続時間を示し、図２の単位は秒とする。

メタデータは、映像ファイルの内容の中から映像合成、映像連結に必要なデータをフレーム単位で抜き出したデータである。メタデータの構成は、映像ファイルの内容、出力すべき映像の内容によって異なる構成とすることが可能である。なお、メタデータは、特許請求の範囲における連結基準情報の一例である。

この連結基準情報は、少なくとも、連結する映像合成時に、連結するフレーム間で映像表示のぶれをなくすよう調整するための表示映像に関する情報である。

本実施形態では、出力映像を手話映像とするため、単語辞書１４は入力された単語意味を表す手話映像の各フレーム中での人物の手の位置、手の形を示す情報（記号）、手の向きを示す情報（記号）、動作速度ベクトルなどをメタデータとする。

図２において、始動点とは映像ファイルの先頭フレームのメタデータをいい、終了点とは映像ファイルの最終フレームのメタデータをいう。また、それ以外のフレームのメタデータも始動点及び終了点と同様の構造をしている。

次に、メタデータ中の項目について図面を参照して説明する。

手の位置とは、映像中に現れる人物の手の領域の重心位置を映像中での二次元座標で表したものである。なお、図２には示していないが、手の位置を時間で微分した動作速度ベクトルを設けるようにしてもよい。

図３に示す画面例において、垂直方向をｙ軸とし、水平方向をｘ軸とし、ｙ軸とｘ軸の交点を基準点（０，０）とする。この場合、当該フレーム中の右手の位置を座標（ｘ，ｙ）とし左手の位置を座標（ｘ０，ｙ０）とすることができる。

手の形とは、手話をする人物が手の指を伸ばしたり、曲げたりしている指の形を示す。通常、手話においては、約８０種類程度の手の形が区別されているから、本実施形態では、その区別されている手の形を示す記号を予め取り決め、その記号を用いる。図４に手の形とそれに対応する記号の一例を示す。

手の向きとは、手の向いている方向と手のひらが向いている方向とを組み合わせて表したものである。ここでいう手の向いている方向とは、人物の肘から手首まで引いた直線が向いている方向である。通常、手話においては手の向いている方向は２０〜２８種類程度であり、手のひらの向きは６〜８種類程度が区別されているから、これらの向きの種類をそれぞれ記号で表現し、これらの記号の組み合わせを用いる。

図５、図６、図７に手の向いている方向と記号との対応付けの例を示し、図８に手のひらの向きと記号との対応付けの例を示す。

図５は、人物を真正面から見た平面、いわゆる前頭面上での方向を示す。例えば、図５での人物の右手の指している方向をａ８と表す。図５中のｘ軸、ｙ軸は図３で説明したものと同様の軸である。図６は、人物を側面から見た平面、いわゆる矢状面上での６方向を示す。図６での人物の右手の指している方向をａ１０と表す。図６中のｚ軸とは、図５のｘ軸、ｙ軸に垂直な軸で人物の体から顔の向いている方向に向かっている軸である。図７は、人物を真上から見おろした平面、いわゆる水平面上での４方向を示す。図７での人物の右手の指している方向をａ１６と表す。図７中の各軸は図５及び６のものと同様である。図８の軸ｖはこれまでに説明した手の向いている方向を示す軸である。細い矢印は軸に対して垂直な平面状に配置されている手のひらの向いている方向を示す。図８での手のひらが向いている方向をａＧと表す。

なお、本実施形態では、手話映像を表示する映像表示装置に適用するため、メタデータは以上のような構成となっているが、映像の表現する内容の情報や映像周波数の情報やカラーヒストグラムなど映像自体の持つ情報の一部をメタデータとして用いる構成としてもよい。

図１に戻って、映像ファイル群１５は、最終的に表示部１６に表示される連続映像を構成する要素となる、表現すべき日本語の各単語と日本語の音を手話で表現するための動作である指文字動作に対応する動作が撮影された映像を含んでいる複数の映像ファイルを示す。

選択映像ファイル１６は、データ選択部１３が検索した単語毎の映像ファイルを受け取り、これら映像ファイルを保持するものである。

表示部１７は、選択映像ファイル１６の各映像ファイルを連続して表示する機能部である。

（Ａ−２）第１の実施形態の動作
次に、本実施形態の映像表示装置１の動作について図面を参照して説明する。図９は、本実施形態の映像表示動作のフローチャートである。

図９において、まず、ユーザが手話映像で表現させる文を入力部１０に入力する（Ｓ９０、Ｓ９１、Ｓ９２）。このとき、ユーザは、例えばキーボード等の文章入力手段を用いて入力する方法（Ｓ９０）や、例えばマイクに向けて音声を発して入力する方法（Ｓ９１）が適用可能である。音声入力の場合、入力音声はテキスト変換（Ｓ９２）がなされる。

入力部１０が入力文を取り込むと、入力文は、形態素解析部１１により形態素に分解される（Ｓ９３）。そして、分解された形態素は、形態素解析部１１において、図示しない一般的な日本語の辞書を用いて品詞が割り当てられ、その品詞が割り当てられた形態素（これを単語という）が翻訳部１２に与えられる（Ｓ９４）。

入力文の単語が翻訳部１２に与えられると、翻訳部１２により、単語に分割された入力文は、構文解析され（Ｓ９５）、既存の研究と同様に、単語間の状態遷移として表現されている文法に従った並び順に変更される（Ｓ９６）。

翻訳部１２により入力文の構成が調整されると、各単語はデータ選択部１３により１つずつ読み出され、データ選択部１３は、各単語名と割り当てられた品詞とをキーとして単語辞書１４を検索し、登録されている単語が単語辞書１４にあるか否かを調べる（Ｓ９７）。

Ｓ９７において、単語が単語辞書１４に登録されていない場合は、Ｓ９８に進み、その単語の音を手話で表現する指文字を撮影した映像ファイルを検索する指文字検索処理を行う（Ｓ９８）。

ここで、指文字検索処理について図１０のフローチャートを参照して説明する。

まず、指文字で表現する入力単語の音が文字単位に分解され（Ｓ９８１）、単語を構成する文字が１つずつ読み出される（Ｓ９８２）。文字に相当する指文字動作を表しているファイルの名前を単語辞書１４から検索して（Ｓ９８３）、そのファイル名を指文字用データに蓄積する（Ｓ９８４）。

すべての文字についてＳ９８２〜Ｓ９８４の処理が終了するまで繰り返し続行され（Ｓ９８５）、最終的に指文字用データを用いて呼び出すファイル名を決定する（Ｓ９８６）。Ｓ９８７で、ファイルを映像ファイル群１５から読み出し（Ｓ９８７）、読み出した映像ファイルを選択映像ファイルに追加する（Ｓ９１３）。

このようにして、入力単語の音を手話で表現した指文字を示す映像を検索することができる。

図９に戻り、Ｓ９７において、入力単語が単語辞書１４に登録されている場合、入力単語の登録件数が何件であるか判断される（Ｓ９９）。

このとき、入力単語の登録件数が１件である場合、Ｓ９１２に進み、検索結果のファイル名の項目を利用して、映像ファイルを映像ファイル群１５から読み出し（Ｓ９１２）、読み出した映像ファイルを選択映像ファイル１６に追加する（Ｓ９１３）。

一方、入力単語の登録件数が複数ある場合、単語辞書１４中のメタデータを利用して候補の中から読み出すファイルを決定する（Ｓ９１０、Ｓ９１１）。

まず、データ選択部１３は１つ前の単語を表す映像ファイルのメタデータを参照する（Ｓ９１０）。

例えば、メタデータが参照できた場合の具体的な例として、図２を参照して説明する。ここでは、現在の単語が「会う」であり、１つ前の単語が「明日」であるとする。このとき、１つ前の単語「明日」の映像ファイル名は「０１．ａｖｉ」であるから、このファイル名が示す映像ファイルが選択される。

図２のように、「会う」を表す映像ファイルの候補は複数あるため、どのファイルを使用するかファイルを選択する必要が生じる。このとき、まず、前の単語である「明日」を現す映像ファイル「０１．ａｖｉ」のメタデータのうち終了時の右手の位置と左手の位置の座標を得る（Ｓ９１０）。

そして、「会う」を表す複数候補のファイルのメタデータから始動時の右手の位置と左手の位置の座標を得る。

ここで、終了時の手の位置と各始動時の手の位置のユークリッド距離の左右の和をそれぞれ求め、その値がもっとも小さいファイルを選択ファイルとして決定する（Ｓ９１１）。

この例の場合、「０１．ａｖｉ」と「０４．ａｖｉ」とを比較した場合には左右の手のユークリッド距離の和は、
右手：（（５０−５０）^２＋（５０−６０）^２）^１／２＝１０
左手：（（１００−８０）^２＋（９０−６０）^２）^１／２＝３６．０６
であるから、１０＋３６．０６＝４６．０６となる。

同様にして、「０１．ａｖｉ」と「０２．ａｖｉ」とを比較して左右の手のユークリッド距離の和は、
右手：（（５０−１００）^２＋（５０−６０）^２）^１／２＝５０．９９
左手：（（１００−１３０）^２＋（９０−６０）^２）^１／２＝５８．２１
であるから、５０．９９＋５８．２１＝１０９．３０となる。

従って、これらの比較の結果、左右の手のユークリッド距離の和が小さい「０４．ａｖｉ」が選択される。

この処理によって、前の単語の終了時点から現在の単語の始動時の手の位置のずれが小さい映像ファイルが連続するファイルとして選択されるため単語間のつなぎの部分での手の位置のずれが小さい映像が表示されるという効果が得られる。

なお、選択されたファイルのメタデータが参照できない場合には更新日時の新しいデータを出力結果として出力するようにしてもよい。

以降、データ選択部１３は、選択された映像ファイルを映像ファイル群１５から読み出し（Ｓ９１２）、その読み出した映像ファイルを選択映像ファイル１６に追加する（Ｓ９１３）。入力文を構成するすべての単語についてＳ９７〜Ｓ９１３の処理を繰り返す。

そして、表示部１７は、選択映像ファイル１６に保持されている映像ファイルを読み出して連続的な映像を出力する。

図１１は、表示部１７の表示画面のイメージを示す。図１１において、１９０１はユーザにより入力された入力文が表示され、入力後例えばスタートボタン１９０３が押下されることで、上述した映像表示動作が開始し、１９０２の表示部に入力文に対する手話の連続映像が表示される。

なお、本実施形態では、手話の映像を表示するために、以上のような処理を行うが、映像の表現する内容の情報や映像周波数の情報やカラーヒストグラムなど映像自体の持つ情報の一部をメタデータとして用いる構成として、それらの値を比較することにより類似した映像を探して利用するといった構成とすることも可能である。

また、２つの映像ファイルについて、それぞれの終了付近の速度ベクトルと開始付近の動作速度ベクトルとを比較し、その類似度の近いものを選択するといった方法も可能である。

（Ａ−３）第１の実施形態の効果
以上、本実施形態によれば、入力した文章を単語に分解し、辞書を参照して手話を行っている人物を撮影した映像ファイル群から対応する手話の単語を表現する映像ファイルを決定することができる。

また、その際に、辞書に表される先行する映像ファイル内の人物の動作終了部分での手の位置などのメタ情報を、次の単語を表す映像ファイルを決定する際の指標として用いて合成した場合に前後の映像の接続部分のずれを小さくすることができる。

さらに、本実施形態によれば、連結して表示するための映像ファイルの候補が複数ある場合に、映像ファイルのメタデータを利用して、前後のファイルでの人物の動きのずれが小さいものを選択することができるため、出力結果である連結された映像がより滑らかで見易いものになる効果が得られる。このとき、位置情報や速度ベクトル情報を参照して結合すると、映像データ収録時点でもともと連続していた単語同士が結合される確率が高くなり、ほとんどギャップのない連結が可能となる。

（Ｂ）第２の実施形態
次に、本発明の映像装置、映像表示方法及びプログラムの第２の実施形態について図面を参照して説明する。

本実施形態は、第１の実施形態と同様に手話映像を表示する映像表示装置に適用した場合について説明する。また、本実施形態は、選択映像ファイルの一部を使用し、２つの映像ファイルの間に単語の間の人物の動作を補完する映像ファイルを合成することにより、より見易い映像の効果が得られるシステムの構成について説明する。

（Ｂ−１）第２の実施形態の構成
図１２は、第２の実施形態の映像表示装置の機能ブロック図である。第２の実施形態の映像表示装置２が、第１の実施形態と異なる点は、合成部１０１を新たに追加する点である。

従って、図１２において、図１に同一、対応する構成要件については対応する符号を付して示す。また、対応する構成要件の詳細な機能説明は第１の実施形態で説明したので省略する。

合成部１０１は、蓄積された選択映像ファイル１６から前後する２つの映像ファイルを抜き出し、２つの映像ファイルの中間の映像ファイルを合成する処理を行なうものである。

（Ｂ−２）第２の実施形態の動作
次に、本実施形態の映像表示装置２の動作について図面を参照して説明する。なお、入力文の入力処理、入力文の形態素・構文解析処理、映像ファイルの選択処理など基本的な動作は、第１の実施形態と同様であるので、ここでは、映像表示装置２の合成部１０１による中間フレームの作成、合成処理を中心に説明する。

図１３（Ａ）は合成部１０１の動作フローチャートを示し、図１３（Ｂ）は動作フローに対応したイメージを示す。

図１３（Ａ）において、合成部１０１は、選択映像ファイル１６に保存されている映像ファイルのうち、まだ処理されていない先行する単語を表わす先映像ファイル１１０７とそのすぐ後の後映像ファイル１１０９とを抜き出す（Ｓ１１０１）。

次に、合成部１０１は、抜き出した先映像ファイル１１０７の最終フレーム１１０８と、後映像ファイル１１０９の先頭フレーム１１１０とをそれぞれ取り出す（Ｓ１１０２）。

最終フレーム１１０８と先頭フレーム１１１０を取り出すと、合成部１０１は、最終フレーム１１０８と先頭フレーム１１１０とに基づいて、所定のモーフィング処理を行ない、複数の中間フレーム１１１１を作成する（Ｓ１１０３）。

ここで、モーフィング処理とは、２つのフレーム間の映像の割合を徐々に変化させることで２フレーム間の中間フレームを作成する処理であって、例えば、既存の技術であるクロスディゾルブやワーピングなどの方法を用いることが可能である。

複数の中間フレームが作成されると、その作成された中間フレームは、作成枚数に応じた時間情報が追加され、最終フレーム１１０８と先頭フレーム１１１０との間に補完するための映像ファイル１１０６が作成される（Ｓ１１０４）。

映像ファイル１１０６が作成されると、選択映像ファイル１６に追加される（Ｓ１１０５）。このとき、先映像ファイル１１０７と後映像ファイル１１０９との中間部分に挿入される映像ファイルとして選択映像ファイル１６に保管される。

なお、この処理は、選択映像ファイル１６内のすべての映像ファイルについて処理が完了するまで反復される。

（Ｂ−３）第２の実施形態の効果
以上、本実施形態によれば、連結して表示する映像ファイルの中間の映像を合成する処理を追加することにより、連結する２映像間に比較的大きなギャップがあっても出力結果である連結された映像がより滑らかで見易いものになるという効果が得られる。

（Ｃ）第３の実施形態
次に、本発明の映像装置、映像表示方法及びプログラムの第３の実施形態について図面を参照して説明する。

本実施形態も、第１及び第２の実施形態と同様に、手話映像を表示する映像表示装置に適用した場合である。また本実施形態は、映像ファイル合成の際に、単語辞書のメタデータを利用して映像ファイル群に蓄積されている映像ファイルから逐次適当な参照フレームを取り出し、その参照フレームも利用して映像合成するものである。

（Ｃ−１）第３の実施形態の構成
図１４は、第３の実施形態の映像表示装置の機能ブロック図である。なお、図１４において、図１と同一又は対応する構成要件については対応符号を付して示す。また、第１の実施形態で説明した構成要件の機能説明は省略する。

図１４において、合成部１２０１の機能が、第１及び第２の実施形態と異なる。合成部１２０１は、蓄積された選択映像ファイルから前後する２つの映像ファイルを抜き出し、２つの映像ファイルの中間を埋める映像ファイルを合成する処理を行なうものである。このとき、合成部１２０１は、単語辞書１４内のメタデータを用いて映像ファイル群を検索し、映像ファイル中の適当なフレームを取得し、合成に用いるものである。

（Ｃ−２）第３の実施形態の動作
次に、本実施形態の映像表示装置３の動作について図面を参照して説明する。なお、入力文の入力処理、入力文の形態素・構文解析処理、映像ファイルの選択処理など基本的な動作は、第１の実施形態と同様であるので、ここでは、映像表示装置３の合成部１２０１による中間フレームの作成、合成処理を中心に説明する。

図１５（Ａ）は合成部１２０１の動作フローチャートを示し、図１５（Ｂ）は動作フローに対応したイメージを示す。

なお、図１５において、図１３と対応する処理については対応符号を付して示し、その処理の詳細な説明は省略する。

図１５（Ａ）において、合成部１２０１は、第２の実施形態と同様に、選択映像ファイル１６から咲き映像１１０７と後映像ファイル１１０９とを抜き出し（Ｓ１１０１）、最終フレーム１１０８と先頭フレーム１１１０を取り出す（Ｓ１１０２）。

この処理と同時に、合成部１２０１は、先映像ファイル１１０７及び後映像ファイル１１０９のファイル名をキーとして単語辞書１４を検索し（Ｓ１３０１）、当該ファイル名に対応するメタデータを取り出す（Ｓ１３０２）。

各ファイル名に対応するメタデータを取得すると、合成部１２０１は、そのメタデータを用いて所定処理を施すことにより検索データを作成する（Ｓ１３０３）。この検索データとは、参照フレームを検索するためのデータをいう。

ここで、検索データを作成するための所定処理は、種々の方法が考えられるが、本実施形態では、手話動作の滑らかな動きを図るため、最終フレーム１１０８と先頭フレーム１１１０との中間部分に近いフレームを参照フレームとする。従って、このような参照フレームを検索するために、次のような方法により検索データを作成するものとする。

例えば、合成部１２０１は、最終フレーム１１０８のメタデータと先頭フレームのメタデータのうち、手話を行なう人物の左右の手の位置、手の向きのデータを取得し（Ｓ１３０１、Ｓ１３０２）、これらフレーム間での手の位置の中間位置を検索データとして求める（Ｓ１３０３）。

まず、最終フレームの右手の座標位置が（ｘ，ｙ）であり、先頭フレームの右手の座標位置が（ｘ１，ｙ１）であるときには、検索データの右手の座標位置（ｍ，ｎ）は、（（ｘ＋ｘ１）／２、（ｙ＋ｙ１）／２）とする。左手の位置も同様にして座標を求める。

次に、手の向きについて、最終フレームの右の手の向きが図５でのａ３で、先頭フレームの右の手の向きがａ５であるときには、検索データの手の向きはおおまかにａ４と推定する。このようにして、本実施形態の検索データを作成する。

Ｓ１３０３において検索データが作成されると、合成部１２０１は、その作成された検索データをキーとして単語辞書１４を検索し（Ｓ１３０４）、検索データに最も近いデータを持つフレームを映像ファイル群１５から１つ取り出す（Ｓ１３０５）。なお、この取り出したフレームを参照フレーム１３０７とする。

合成部１２０１が参照フレーム１３０７を取得すると、合成部１２０１は、最終フレーム１１０８、参照フレーム１３０７、先頭フレーム１１１０を用いて、モーフィング処理によって、複数の中間フレーム１１１１を作成する（Ｓ１３０６）。

このとき、合成部１２０１は、最終フレーム１１０８から参照フレーム１３０７へと徐々に変化する複数の中間フレームを作成すると共に、参照フレーム１３０７から先頭フレーム１１１０へと徐々に変化する複数の中間フレームをそれぞれ作成する。なお、中間フレームの作成方法は、第２の実施形態と同様に、モーフィング、クロスディゾルブなどを適用し得る。

以降の動作は、第１及び第２の実施形態と同様であるので省略する。

（Ｃ−３）第３の実施形態の効果
以上、本実施形態によれば、中間フレームの合成の際に、前後の映像ファイルのフレームのメタデータを処理した結果を利用して検索し、撮影された実際の映像データをもつ参照フレームを合成に用いるフレームとして追加することで、手の位置や手の向きの変化が最終フレームと先頭フレームとで著しいときに通常の合成を行うと合成したフレームに合成画像特有のゆがみなどの不自然さが生じるという影響を小さくすることができる。

（Ｄ）第４の実施形態
次に、本発明の映像装置、映像表示方法及びプログラムの第４の実施形態について図面を参照して説明する。

本実施形態も、手話映像を表示する映像表示装置に適用した場合である。また、本実施形態は、システムに辞書作成部1401と呼ばれる要素を追加することにより
手話の文章を表現している人物を撮影した映像ファイルを解析、文節することにより単語に相当する映像ファイルに切り分け映像ファイル群に格納し、単語辞書に検索に必要なメタデータを追加することを可能にしたシステムについて説明する。

本実施例のシステム構成で、手話を撮影した映像ファイルをシステムに入力するだけで必要なメタデータ等を簡便に単語辞書に追加することが容易になる。

（Ｄ−１）第４の実施形態の構成
図１６は、本実施形態の映像表示装置の機能ブロック図である。第４の実施形態は、辞書作成部１４０１を新たに追加する点で第１の実施形態と異なる。従って、図１６において、図１と同一又は対応する構成要件については対応符号を付して示す。また、第１の実施形態で説明した構成要件の機能説明は省略する。

辞書作成部１４０１は、手話の文章を表現している人物を撮影した映像ファイルを解析、文節することにより、単語に相当する映像ファイルに切り分け映像ファイル群に格納し、単語辞書に検索に必要なメタデータを追加することを特徴とする機能部である。

（Ｄ−２）第４の実施形態の動作
次に、本実施形態の映像表示装置４の動作について図１７を参照して説明する。なお、入力文の入力処理、入力文の形態素・構文解析処理、映像ファイルの選択処理など基本的な動作は、第１の実施形態と同様であるので、ここでは、映像表示装置４の辞書作成部１４０１による辞書作成処理を中心に説明する。

図１７において、映像ファイル１５１０は、ある文章を手話で表現している人物を撮影した映像ファイルである。以下では、この映像ファイル１５１０を単語毎に切り分けて、映像ファイル群１５及び単語辞書１４に追加する場合について説明する。

まず、辞書作成部１４０１は、追加対象の映像ファイル１５１０を取り込み、映像ファイル１５１０を構成する複数の映像フレームについて、所定のフレーム群１５１１に分割する（Ｓ１５００）。このフレーム群１５１１は、複数の静止画像をまとめたものであり、例えば、映像ファイルを所定時間ごとに分割した時系列的なフレーム群とすることができる。

映像フレーム１５１０が複数のフレーム群１５１１に分割されると、辞書作成部１４０１は、１つのフレーム群を取り出し（Ｓ１５０１）、この取り出したフレーム群を処理フレーム１５１２とする。

また、辞書作成部１４０１は、処理フレーム１５１２中の人物の手や肘の位置などを認識する（Ｓ１５０２）。この画面上での手や肘などの位置認識方法として、例えば、既存のアルゴリズムである色検出や重心検出処理などを用いて処理フレーム１５１２中の人物の手や、肘の位置などを画面上の二次元座標として認識する方法が考えられる。これにより、処理フレーム１５１２中の位置データ１５１３を作成できる。

各処理フレームの位置データを作成すると、辞書作成部１４０１は、位置データ１５１３の情報を用いて、当該処理フレーム１５１２中の人物の手と肘の位置関係から手の向きを認識し、その認識した手の向きについて記号分類する（Ｓ１５０３）。

次に、認識した手の位置周辺の一定面積の画素情報を取得し、その画素情報に基づいて手の形を認識し、その認識した手の形について記号分類する（Ｓ１５０４）。このとき、手の形を認識する方法として、例えば、手の位置周辺の一定面積の画素に対して、既存の画像認識アルゴリズムである、ニューラルネットワークや高次局所自己相関特徴の計算などの手法を適用できる。

このようにして、辞書作成部１４０１は、映像ファイル１５１０中における処理フレーム１５１２の表示時間を示す情報を加えて、手の位置、手の向き、手の形のデータを時系列データに追加する（Ｓ１５０５）。

ここで、図１８に時系列データの構造例を示す。図１８に示すように、時系列データは、所定時間（図１８では時間単位はミリ秒とする）ごとのメタデータ（手の位置、手の向き、手の形）からなる。

なお、Ｓ１５０１〜Ｓ１５０５の処理をすべてのフレーム群１５１１が終了するまで繰り返す。

すべてのフレーム群１５１１について処理が終了すると、辞書作成部１４０１は、作成した時系列データに対し、手の位置やその時間微分である動作速度ベクトル、手の向きなどを入力とする隠れマルコフモデル（ＨＭＭ）などの既存の認識方法を用いて手話認識処理を行い、時系列データを手話単語に相当する部分ごとに区切る（Ｓ１５０７）。

また、辞書作成部１４０１は、区切った時系列データに認識結果の手話単語名のラベルをつけ（Ｓ１５０８）、映像ファイル１５１０を読み込み、時系列データに付されたラベルごとに時系列データの時間情報を用いて映像ファイルをラベルごとに分割する（Ｓ１５０９）。

そして、辞書作成部１４０１は、分割した映像ファイル１５１０に名前をつけて映像ファイル群１５に保存し、単語辞書１４に映像ファイル名と区切られた時系列データを新しいレコードとして追加する処理を行う（Ｓ１５１４）。

（Ｄ−３）第４の実施形態の効果
以上、本実施形態によれば、第１〜第３の実施形態と同様の効果を奏すことができる。

また、本実施形態によれば、辞書作成部１４０１を備えることで、容易に映像ファイルに対するメタデータを付与することができるので、作業者が大量の映像ファイルに対してメタデータ付与作業の手間をなくすことができる。

（Ｅ）第５の実施形態
次に、本発明の映像装置、映像表示方法及びプログラムの第５の実施形態について図面を参照して説明する。

本実施形態も、手話映像を表示する映像表示装置に適用した場合である。また、本実施形態は、辞書作成部が作成した映像ファイルに関するデータついて、データの類似度などを用いて単語辞書に登録されているか否かを判断し、辞書内容をメンテナンスする点に特徴がある。これにより、同一単語の過剰登録を回避することができ、単語辞書検索負担の軽減ができるので、結果として映像ファイルの選択性を高めることができる。

（Ｅ−１）第５の実施形態の構成
図１９は、本実施形態の映像表示装置の機能ブロック図である。第５の実施形態は、辞書作成部１４０１に接続する辞書保全部１７０１を新たに追加する点で第４の実施形態と異なる。従って、図１９において、図１及び図１６と同一又は対応する構成要件については対応符号を付して示す。また、第１及び第４の実施形態で説明した構成要件の機能説明は省略する。

辞書保全部１７０１は、辞書作成部１４０１が映像ファイルと位置データから新しいデータを単語辞書１４と映像ファイル群１５に追加する際に、新しいデータの単語名と既存の単語辞書のデータを比較して、新しいデータを追加したり又は破棄したり、既存のデータと新しいデータを統合したりするような処理を行なうものである。

（Ｅ−２）第５の実施形態の動作
次に、本実施形態の映像表示装置５の動作について図２０を参照して説明する。なお、入力文の入力処理、入力文の形態素・構文解析処理、映像ファイルの選択処理など基本的な動作は、第１の実施形態と同様であるので、ここでは、映像表示装置５の辞書保全部１７０１の単語辞書１４の保全処理を中心に説明する。

図２０では、辞書作成部１４０１により手話単語ごとの映像ファイルのデータを新規データとする場合の辞書保全部１７０１の動作を示す。

まず、辞書作成部１４０１が出力した新規データが辞書保全部１７０１に与えられる（Ｓ１８０１）。新規データが辞書保全部１７０１に与えられると、辞書保全部１７０１は、新規データの単語名を検索キーとして単語辞書１４を検索し（Ｓ１８０２）、既存データを取得する（Ｓ１８０３）。

ここで、新規データとは、辞書作成部１４０１から出力される区切られた映像ファイルと単語辞書１４に追加されるメタデータの組である。なお、既存データは、該当するデータがないとき空である場合もある。

辞書保全部１７０１は、映像ファイル群１５に全体で映像ファイルが何個含まれているかを調べ（Ｓ１８０４）、それが一定数以上である場合、Ｓ１８０５に進み、新規データと既存データとの適合度を計算する。

一方、映像ファイル群の映像ファイルが一定数以下である場合、辞書保全部１７０１は、Ｓ１８０３で取得した単語辞書１４内の既存データの個数を調べ（Ｓ１８０４ｂ）、それが一定数以下である場合にはＳ１８１０に進み、辞書保全部１７０１はデータを追加する（Ｓ１８１０）。なお、既存データが単語辞書１４にない場合にもそのままデータを追加する（Ｓ１８１０）。また、Ｓ１８０４ｂにおいて、単語辞書１４内の既存データの個数が一定数以上である場合、Ｓ１８０５に進み、新規データと既存データとの適合度を計算する。

ここで、適合度とは、新規データと既存データとの整合性を表す値である。この適合度の算出方法は、新規データと既存データとの比較ができれば、種々の方法が考えられる。

例えば、まず、継続時間に基づいて適合度を計算する方法について説明する。この場合、新規データの継続時間と既存データの継続時間の平均値とに基づいてその変化率の絶対値を適合度とするものである。

適合度＝｜（ｎ−ｍ）／ｍ｜…（１）
ｎ＝新規データの継続時間であり、ｍ＝既存データの継続時間の平均値である。

このとき、新規データの動作の継続時間が既存のデータの継続時間の平均値に比べて著しく短かったり又は長かったりする場合、新規データの適合度が低くなる。

また例えば、適合度として加速度の平均値を用いた場合についても説明する。この場合、まず、新規データの動作速度ベクトルの各フレーム間の差分を求め、加速度ベクトルを計算する。そして、全フレームにおける加速度ベクトルの大きさを計算し、その平均値を求める。また、既存データについても同様にして加速度ベクトルの平均値を求める。

そして、新規データの加速度の平均値と既存データの加速度の平均値とに基づいて変化率の絶対値を適合度とする。

このとき、新規データの動きの変化量が、既存データに比べて大きい場合、新規データの適合度が低くなる。

次に、Ｓ１８０５で計算した適合度について閾値を用いて判断する（Ｓ１８０６）。そして、適合度が閾値より低い場合、辞書保全部１７０１は新規データを破棄する（Ｓ１８０９）。ここで、閾値とは例えば現在の既存データの適合度の平均値の８０％の値とする。

一方、新規データの適合度が閾値以上の場合、新規データと既存データとの類似度を求める（Ｓ１８０７）。

ここで、類似度とは、新規データと既存データとの類似性の度合いを表す値である。

例えば、新規データの各フレームの手の位置と、比較される既存データの同一フレームでの手の位置の差分の絶対値を、両データの始動点からどちらかのデータが終了点に達するまで加算し、加算した値を加算したフレーム数で割った平均値ｄのような値から計算することができる。

この値ｄの逆数を類似度Ｓとすると、類似度の値が大きいほど類似性の高いデータであることを示す。

ｄ＝（｜ｒ＿１−Ｒ＿１｜＋｜ｒ＿２−Ｒ＿２｜＋…
＋｜ｒ＿ｎ−１−Ｒ＿ｎ−１｜＋｜ｒ＿ｎ−Ｒ＿ｎ｜）／ｎ …（２）
ここで、ｒ＿ｔは、フレームｔにおける新規データの手の位置（ベクトルで表現）であり、Ｒ＿１は、フレームｔにおける既存データの手の位置（ベクトルで表現）であり、ｎは、既存データのフレーム数と新規データのフレーム数で小さいほうの値である。

Ｓ＝１／ｄ …（３）
次に、Ｓ１８０７で新規データと既存データとの類似度Ｓを求めると、類似度について閾値を用いて判断する（Ｓ１８０８）。ここで閾値とはたとえば現在の既存データの類似度の平均値の８０％の値とする。

そして、類似度が閾値より大きい場合、新規データは既存データによく似たデータであると判断できるので、辞書保全部１７０１は新規データを破棄する（Ｓ１８０９）。

一方、類似度が閾値以下である場合、新規データに類似する既存データ存在しないと判断できるので、辞書保全部１７０１は新規データを単語辞書１４及び映像ファイル群１５に追加する（Ｓ１８１０）。

（Ｅ−３）第５の実施形態の効果
以上、本実施形態によれば、辞書保全部１７０１を備えることにより、類似度や適合度などを用いて１つの単語に相当する映像ファイルの候補が一定の数、一定の品質を保つことが可能となる。これにより、映像データが必要以上に肥大化したり、検索速度が低下したりすることを防ぐことができる。

(Ｆ)他の実施形態
（Ｆ−１）第１〜第５の実施形態において、入力部としてキーボードなどの方法を用いたが、これは音声入力、ＧＵＩ的なインターフェース、ボタン、バーコードリーダーなど別の入力装置を用いる構成としてもよい。

（Ｆ−２）第１〜第５の実施形態において、映像ファイル１５と単語辞書１４とは別の実体として構成されてものとして説明したが、映像ファイルのヘッダなどにメタデータを埋め込み、特定の映像ファイル群のヘッダを単語辞書として随時検索するといった構成としてもよい。

（Ｆ−３）第１〜第５の実施形態では、映像ファイルのメタデータを、手話を表現するために、手の位置、手の向き、手の形としたが、これらに限定されず、例えば、顔の表情など他のデータを用いる構成としてもよい。

（Ｆ−４）第１の実施形態では、映像ファイルを選択する評価基準についてユークリッド距離を用いて説明したが、これは同様の効果が得られる別の値としてもよい。

（Ｆ−５）第２の実施形態では、モーフィングの方法としてクロスディゾルブ、ワーピングを例としてあげたが、これらは排他的なものでなく、どちらか一方又は両方を組み合わせて使う構成としてもよい。またその他の合成方法を用いてもよい。

（Ｆ−６）第４の実施形態では、位置データ１５１３を画像処理の方法によって得たが、これは撮影時に別のデータとしてモーションキャプチャ装置などを用いて取得し、データ解析時にフレームデータと同期を取るような構成としてもよい。

（Ｆ−７）第５の実施形態では、新規データについて既存のファイルとの適合度、類似度の計算方法の例を挙げたがこれは同様の効果が得られる別の計算方法で求めてもよい。

（Ｆ−８）第１〜第５の実施形態において、手話映像を表示する映像表示装置について説明したが、手話にかぎらず、語や文章、記号に対応付けることができる意味を持った映像を含んだ映像を複数連結して、連続する動作映像を表示する装置であれば、例えば、手旗信号、パントマイム、ダンスなど特定の意味を表現する為の動作の映像を表示するシステムに応用可能である。

（Ｆ−９）第１〜第５の実施形態において、日本語による辞書検索を行ったが、辞書のデータを変更することで、その他外国語による手話表示システムとすることも可能である。

（Ｆ−１０）第１〜第５の実施形態において、各辞書の構成を表の形として示したが、ツリーなどの異なるデータ構造を用いてもよい。

（Ｆ−１１）第４及び第５の実施形態では、第１の実施形態で説明した映像表示装置１に辞書作成部１４０１、辞書保全部１７０１を設けたものとして説明したが、第２及び第３の実施形態の映像表示装置２、３にも適用できる。

（Ｆ−１２）本発明を構成する構成要素は、１台のＰＣ上に存在していてもよいし、データベース等要素の一部又はすべてがネットワーク上のサーバーなどである構成としてもよい。

第１の実施形態の映像表示装置の機能ブロック図である。第１の実施形態の単語辞書のデータ構造図である。第１の実施形態の画面中の人の手の位置を示す説明図である。第１の実施形態の手の形と記号との関係を説明する説明図である。第１の実施形態の手の向きと記号の関係を説明する説明図である。第１の実施形態の手の向きと記号の関係を説明する説明図である。第１の実施形態の手の向きと記号の関係を説明する説明図である。第１の実施形態の手の向きと記号の関係を説明する説明図である。第１の実施形態の映像表示装置の動作フローチャートである。第１の実施形態の指文字検索の動作フローチャートである。第１の実施形態における表示部の表示画面例を示す。第２の実施形態の映像表示装置の機能ブロック図である。第２の実施形態の映像表示装置の動作フローチャートである。第３の実施形態の映像表示装置の機能ブロック図である。第３の実施形態の映像表示装置の動作フローチャートである。第４の実施形態の映像表示装置の機能ブロック図である。第４の実施形態の映像表示装置の動作フローチャートである。第４の実施形態の時系列データの構造例を示す図である。第５の実施形態の映像表示装置の機能ブロック図である。第５の実施形態の映像表示装置の動作フローチャートである。

符号の説明

１、２、３、４、５…映像表示装置、１０…入力部、１１…形態素解析部、
１２…翻訳部、１３…データ選択部、１４…単語辞書、１５…映像ファイル群、
１６…選択映像ファイル、１７…表示部、１０１、１２０１…合成部、
１４０１…辞書作成部、１７０１…辞書保全部。

Claims

ある情報に応じた動作を表わした動作映像を複数連結して連続動作映像を出力する映像装置において、
上記動作映像を複数格納する動作映像格納手段と、
上記各情報に、上記動作映像の読み出し情報と、上記動作映像内に表示されている１又は複数の連結基準情報とを対応付けて格納する連結基準情報格納手段と、
入力された時間的順序のある複数の入力情報に基づいて上記連結基準情報格納手段から対応する上記動作映像の読み出し情報を検索し、その上記動作映像の読み出し情報に基づいて上記動作映像格納手段から上記動作映像を取り出す動作映像取得手段と、
上記動作映像取得手段が取り出した複数の上記動作映像を連結して動作映像を出力する出力手段と
を備え、
上記動作映像取得手段は、当該入力情報の検索結果が複数ある場合に、少なくとも当該入力情報の直前情報の上記連結基準情報と、検索したそれぞれの上記連結基準情報との比較により、当該入力情報に対応する上記動作映像を選択する
ことを特徴とする映像装置。
上記連結基準情報は、上記動作映像に映し出されている表示映像の構成情報を示すメタデータであることを特徴とする請求項１に記載の映像装置。
上記動作映像取得手段が取得した時間的に前後する複数の上記動作映像に基づいて中間動作映像を作成し、上記出力手段に引き渡す合成手段を備えることを特徴とする請求項１又は２に記載の映像装置。
上記合成手段が、上記複数の動作映像の上記連結基準情報のそれぞれを用いて、上記中間動作映像を作成するための参照動作映像を上記動作映像格納手段から取り出し、上記参照動作映像もさらに用いて上記中間動作映像を作成することを特徴とする請求項３に記載の映像装置。
ある入力動作映像を分解して得た複数の処理フレームの画像情報に基づいて当該入力動作映像の連結基準情報を生成する連結基準情報生成手段と、
予め用意された情報辞書に基づいて上記入力動作映像が表わす１又は複数の情報を認識する情報認識手段と、
上記情報認識手段が認識した各認識情報ごとの動作映像を上記入力動作映像から分割し、その分割動作映像及び上記認識情報に対応する上記連結基準情報を上記動作映像格納手段及び上記連結基準情報格納手段に登録する登録手段と
を備えることを特徴とする請求項１〜４のいずれかに記載の映像装置。
上記登録手段の登録の際、登録情報と同等の既存情報が上記連結基準情報格納手段に存在するか否かを判断し、存在する場合に上記登録情報を登録せずに破棄する登録保全手段を備えることを特徴とする請求項５に記載の映像装置。
上記動作映像が、ある単語の意味を表現する手話映像であり、
上記連結基準情報が、手話をする人の手の位置、手の向き、手の形を含むメタデータである
ことを特徴とする請求項１〜６のいずれかに記載の映像装置。
ある情報に応じた動作を表わした動作映像を複数連結して連続動作映像を出力する映像表示方法において、
上記動作映像を複数格納する動作映像格納手段と、
上記各情報に、上記動作映像の読み出し情報と、上記動作映像内に表示されている１又は複数の連結基準情報とを対応付けて格納する連結基準情報格納手段と
を備え、
動作映像取得手段が、入力された時間的順序のある複数の入力情報に基づいて上記連結基準情報格納手段から対応する上記動作映像の読み出し情報を検索し、その上記動作映像の読み出し情報に基づいて上記動作映像格納手段から上記動作映像を取り出し、
出力手段が、上記動作映像取得手段が取り出した複数の上記動作映像を連結して動作映像を出力し、
上記動作映像取得手段が、当該入力情報の検索結果が複数ある場合に、少なくとも当該入力情報の直前情報の上記連結基準情報と、検索したそれぞれの上記連結基準情報との比較により、当該入力情報に対応する上記動作映像を選択する
ことを特徴とする映像表示方法。
ある情報に応じた動作を表わした動作映像を複数連結して連続動作映像を出力する映像装置に、
上記動作映像を複数格納する動作映像格納手段、
上記各情報に、上記動作映像の読み出し情報と、上記動作映像内に表示されている１又は複数の連結基準情報とを対応付けて格納する連結基準情報格納手段と、
入力された時間的順序のある複数の入力情報に基づいて上記連結基準情報格納手段から対応する上記動作映像の読み出し情報を検索し、その上記動作映像の読み出し情報に基づいて上記動作映像格納手段から上記動作映像を取り出す動作映像取得手段、
上記動作映像取得手段が取り出した複数の上記動作映像を連結して動作映像を出力する出力手段
として機能させ、
上記動作映像取得手段が、当該入力情報の検索結果が複数ある場合に、少なくとも当該入力情報の直前情報の上記連結基準情報と、検索したそれぞれの上記連結基準情報との比較により、当該入力情報に対応する上記動作映像を選択するものとして機能させるためのプログラム。