JP2006129376A - 映像装置、映像表示方法及びプログラム - Google Patents

映像装置、映像表示方法及びプログラム Download PDF

Info

Publication number
JP2006129376A
JP2006129376A JP2004318266A JP2004318266A JP2006129376A JP 2006129376 A JP2006129376 A JP 2006129376A JP 2004318266 A JP2004318266 A JP 2004318266A JP 2004318266 A JP2004318266 A JP 2004318266A JP 2006129376 A JP2006129376 A JP 2006129376A
Authority
JP
Japan
Prior art keywords
video
information
motion
input
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004318266A
Other languages
English (en)
Other versions
JP4492299B2 (ja
Inventor
Yusuke Suzuki
雄介 鈴木
Koichi Takeuchi
晃一 竹内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2004318266A priority Critical patent/JP4492299B2/ja
Publication of JP2006129376A publication Critical patent/JP2006129376A/ja
Application granted granted Critical
Publication of JP4492299B2 publication Critical patent/JP4492299B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Television Signal Processing For Recording (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)
  • Studio Circuits (AREA)

Abstract

【課題】連続動作映像合成の際、合成処理負担を少なくし、かつ高品質の映像を作成、表示できる映像装置、映像表示方法及びプログラムを提供する。
【解決手段】本発明の映像装置は、動作映像格納手段と、各情報に、動作映像の読み出し情報と、動作映像内に表示されている1又は複数の連結基準情報とを対応付けて格納する連結基準情報格納手段と、時間的順序のある複数の入力情報に基づいて連結基準情報格納手段から動作映像の読み出し情報を検索し、その情報に基づいて動作映像格納手段から動作映像を取り出す動作映像取得手段と、動作映像取得手段が取り出した複数の動作映像を連結して動作映像を出力する出力手段とを備え、動作映像取得手段が、入力情報の検索結果が複数ある場合に、少なくとも入力情報の直前情報の連結基準情報と、検索したそれぞれの連結基準情報との比較により、入力情報に対応する動作映像を選択することを特徴とする。
【選択図】 図1

Description

本発明は、映像装置、映像表示方法及びプログラムに関し、例えば、ある複数の映像を連結させた連続動作映像を表示する映像装置に適用し得る。
従来、写実性の高い映像コンテンツを動的に作成するためには、例えば、実際の人物の動きを撮影した実写の映像ファイルを複数用意しておき、それらを必要に応じて連結するといった方法がある。
例えば、特許文献1は、複数の単一動作映像を連結させて連続動作映像を作成する際に、連結する単一動作映像間の被写体の動作が滑らかにつながるように、単一動作映像内で被写体のずれを補正し、また単一動作映像間の被写体のずれを補正する技術が開示されている。
また、特許文献1及び非特許文献1は、特徴点位置のずれを補正するワーピングという技術が開示されている。具体的には、実写の人物の映像に手動で特徴点を設定し、特徴点の映像ファイル中での移動量を計算して、その移動量を用いて画像合成処理で映像ファイルの中での人物位置が一定になるように処理を行うなどして人物の位置を補正するなどして映像の質を高めるなどの方法が提案されている。
特開2003−69900号公報 横山 哲,林 正樹,「実写による二次元バーチャルアクターの検討」,情報処理学会全国大会講演予稿集、2001年3月
しかしながら、特許文献1に記載の技術は、単一動作映像内及び単一動作映像間の被写体のずれを補正するものであり、写実性の高い複数の映像フレームを断片的に単純に連結しても、連結する映像部分で被写体の形状や動作速度などが異なると、たとえ被写体のずれを補正しても被写体の位置がずれるなど連結部分で不整合が生じてしまい、不自然な印象を与えてしまうことがあるという問題がある。
また、非特許文献1に示す技術は、非特許文献1にも指摘されているように、人物の位置を補正するなどの処理は映像ファイル中の全フレーム、すなわち全画面の画素を処理対象とするため、合成の際に大量の処理時間が必要であるという問題がある。
そのため、上記問題を解決するため、連続動作映像合成の際に、動作映像内の表示映像の構成情報を利用することで、合成時に必要な処理を少なくし、かつ品質の高い合成映像を作成、表示できる映像装置、映像表示方法及びプログラムを提供する。
かかる課題を解決するために、第1の本発明の映像装置は、ある情報に応じた動作を表わした動作映像を複数連結して連続動作映像を出力する映像装置において、(1)動作映像を複数格納する動作映像格納手段と、(2)各情報に、動作映像の読み出し情報と、動作映像内に表示されている1又は複数の連結基準情報とを対応付けて格納する連結基準情報格納手段と、(3)入力された時間的順序のある複数の入力情報に基づいて連結基準情報格納手段から対応する動作映像の読み出し情報を検索し、その動作映像の読み出し情報に基づいて動作映像格納手段から動作映像を取り出す動作映像取得手段と、(4)動作映像取得手段が取り出した複数の動作映像を連結して動作映像を出力する出力手段とを備え、動作映像取得手段は、入力情報の検索結果が複数ある場合に、少なくとも入力情報の直前情報の連結基準情報と、検索したそれぞれの連結基準情報との比較により、当該入力情報に対応する動作映像を選択することを特徴とする。
また、第2の本発明の映像表示方法は、第1の本発明の映像装置に対応するものである。つまり、第2の本発明の映像表示装置は、ある情報に応じた動作を表わした動作映像を複数連結して連続動作映像を出力する映像表示方法において、(1)動作映像を複数格納する動作映像格納手段と、(2)各情報に、動作映像の読み出し情報と、動作映像内に表示されている1又は複数の連結基準情報とを対応付けて格納する連結基準情報格納手段とを備え、(3)動作映像取得手段が、入力された時間的順序のある複数の入力情報に基づいて連結基準情報格納手段から対応する動作映像の読み出し情報を検索し、その動作映像の読み出し情報に基づいて動作映像格納手段から動作映像を取り出し、(4)出力手段が、動作映像取得手段が取り出した複数の動作映像を連結して動作映像を出力し、動作映像取得手段が、入力情報の検索結果が複数ある場合に、少なくとも入力情報の直前情報の連結基準情報と、検索したそれぞれの連結基準情報との比較により、入力情報に対応する動作映像を選択することを特徴とする。
さらに、第3の本発明のプログラムは、ある情報に応じた動作を表わした動作映像を複数連結して連続動作映像を出力する映像装置に、(1)動作映像を複数格納する動作映像格納手段、(2)各情報に、動作映像の読み出し情報と、動作映像内に表示されている1又は複数の連結基準情報とを対応付けて格納する連結基準情報格納手段と、(3)入力された時間的順序のある複数の入力情報に基づいて連結基準情報格納手段から対応する動作映像の読み出し情報を検索し、その動作映像の読み出し情報に基づいて動作映像格納手段から動作映像を取り出す動作映像取得手段、(4)動作映像取得手段が取り出した複数の動作映像を連結して動作映像を出力する出力手段として機能させ、動作映像取得手段が、入力情報の検索結果が複数ある場合に、少なくとも入力情報の直前情報の連結基準情報と、検索したそれぞれの連結基準情報との比較により、入力情報に対応する動作映像を選択するものとして機能させるためのプログラム。
本発明の映像装置、映像表示方法及びプログラムにより、連続動作映像合成の際に、動作映像内の表示映像の構成情報を利用することで、合成時に必要な処理を少なくし、かつ品質の高い合成映像を作成、表示できる。
以下、本発明の映像装置、映像表示方法及びプログラムの実施形態について図面を参照して説明する。
(A)第1の実施形態
本実施形態は、入力文章の意味を表現する手話を連続映像として表示する映像表示装置に適用した場合について説明する。
(A−1)第1の実施形態の構成
図1は、本実施形態の映像表示装置の機能ブロック図である。なお、本実施形態の映像表示装置は、ハードウェア的には、入出力装置、中央演算処理装置、記憶装置などからなるワークステーションやパソコン等の情報処理装置で実現されるものであるが、その機能構成の説明便宜上、図1では機能ブロックとして示す。
図1において、映像表示装置1は、入力部10、形態素解析部11、翻訳部12、データ選択部13、単語辞書14、映像ファイル群15、選択映像ファイル16、表示部17を備える。
入力部10は、ユーザが映像表示を希望する意味の文章(本実施形態では日本語とする。)を取り込み、取り込んだ文章を形態素解析部11に与えるものである。入力部10の機能を実現する例として、例えば、キーボードによる文字入力受付、マイクからの入力音声をテキスト変換した音声テキスト入力受付、又はアンテナが捕捉した放送電波によるデータストリームの入力受付など多様な形態を想定している。
形態素解析部11は、入力部10から入力文章を受け取り、その入力文章に対して形態素解析を行ない、入力文を形態素に分解し、図示しない辞書を用いて形態素に品詞を割り当てるものである。また、形態素解析部11は、解析した単語を翻訳部12に与えるものである。
翻訳部12は、形態素解析部11により解析された単語を受け取り、単語の情報、単語の品詞情報に従って、単語の語順の変更や不要単語の除去や必要な語の追加などの処理を行なうものである。また、翻訳部12は、処理結果をデータ選択部13に与えるものである。
データ選択部13は、翻訳部12から調整された単語を受け取ると、単語辞書14の中からその単語に対応付けられている情報(後述するが、例えば映像ファイル名、映像内のメタデータ、動作継続時間など)を取り出し、映像ファイル名とメタデータ等を検索キーとして、映像ファイル群15からその単語意味を表現するために必要となる映像ファイルを検索するものである。また、データ選択部13は、検索した映像ファイルを選択映像ファイル16に蓄積するものである。また、データ選択部13は、入力単語が単語辞書14に登録されていない場合、単語の音を手話で表現した指文字を示す映像をから検索し、選択映像ファイル16に与えるものである。
ここで、映像ファイルとは、手話を行っている人物を撮影した映像を、各単語意味を表現する部分で区切り、名前をつけたものである。また、映像ファイルは、複数枚の静止画像を連続的に並べたものとして構成されており、その静止画像の一枚一枚をフレームという。
単語辞書14は、各単語ごとに、単語意味を表現する映像を含んでいる映像ファイルの映像ファイル名、映像ファイル中の動作継続時間、映像内のメタデータなどが対応付けられて記憶される記憶領域である。なお、単語辞書14は、その内容を新規登録、追加、削除、変更が可能である。
図2は、本実施形態の単語辞書14の構成例を示す。図2に示すように、単語辞書14は、各単語に対して、読み、品詞、ファイル名、作成日時、継続時間が対応付けられ、また各映像ファイルを構成する各フレームのメタデータも対応付けられている。また、メタデータは、映像に映し出されている人物の手の位置、手の形、手の向きを示すデータから構成される。
単語名は、登録されている単語の名前を示す。読みは、その単語の読みを示す。品詞は、単語の品詞名を示す。ファイル名は、単語を表している映像ファイルの名前を示す。作成日時は、作成された映像ファイルの単語辞書14へのデータ登録された日時を示す。継続時間は、映像ファイル中の動作の継続時間を示し、図2の単位は秒とする。
メタデータは、映像ファイルの内容の中から映像合成、映像連結に必要なデータをフレーム単位で抜き出したデータである。メタデータの構成は、映像ファイルの内容、出力すべき映像の内容によって異なる構成とすることが可能である。なお、メタデータは、特許請求の範囲における連結基準情報の一例である。
この連結基準情報は、少なくとも、連結する映像合成時に、連結するフレーム間で映像表示のぶれをなくすよう調整するための表示映像に関する情報である。
本実施形態では、出力映像を手話映像とするため、単語辞書14は入力された単語意味を表す手話映像の各フレーム中での人物の手の位置、手の形を示す情報(記号)、手の向きを示す情報(記号)、動作速度ベクトルなどをメタデータとする。
図2において、始動点とは映像ファイルの先頭フレームのメタデータをいい、終了点とは映像ファイルの最終フレームのメタデータをいう。また、それ以外のフレームのメタデータも始動点及び終了点と同様の構造をしている。
次に、メタデータ中の項目について図面を参照して説明する。
手の位置とは、映像中に現れる人物の手の領域の重心位置を映像中での二次元座標で表したものである。なお、図2には示していないが、手の位置を時間で微分した動作速度ベクトルを設けるようにしてもよい。
図3に示す画面例において、垂直方向をy軸とし、水平方向をx軸とし、y軸とx軸の交点を基準点(0,0)とする。この場合、当該フレーム中の右手の位置を座標(x,y)とし左手の位置を座標(x0,y0)とすることができる。
手の形とは、手話をする人物が手の指を伸ばしたり、曲げたりしている指の形を示す。通常、手話においては、約80種類程度の手の形が区別されているから、本実施形態では、その区別されている手の形を示す記号を予め取り決め、その記号を用いる。図4に手の形とそれに対応する記号の一例を示す。
手の向きとは、手の向いている方向と手のひらが向いている方向とを組み合わせて表したものである。ここでいう手の向いている方向とは、人物の肘から手首まで引いた直線が向いている方向である。通常、手話においては手の向いている方向は20〜28種類程度であり、手のひらの向きは6〜8種類程度が区別されているから、これらの向きの種類をそれぞれ記号で表現し、これらの記号の組み合わせを用いる。
図5、図6、図7に手の向いている方向と記号との対応付けの例を示し、図8に手のひらの向きと記号との対応付けの例を示す。
図5は、人物を真正面から見た平面、いわゆる前頭面上での方向を示す。例えば、図5での人物の右手の指している方向をa8と表す。図5中のx軸、y軸は図3で説明したものと同様の軸である。図6は、人物を側面から見た平面、いわゆる矢状面上での6方向を示す。図6での人物の右手の指している方向をa10と表す。図6中のz軸とは、図5のx軸、y軸に垂直な軸で人物の体から顔の向いている方向に向かっている軸である。図7は、人物を真上から見おろした平面、いわゆる水平面上での4方向を示す。図7での人物の右手の指している方向をa16と表す。図7中の各軸は図5及び6のものと同様である。図8の軸vはこれまでに説明した手の向いている方向を示す軸である。細い矢印は軸に対して垂直な平面状に配置されている手のひらの向いている方向を示す。図8での手のひらが向いている方向をaGと表す。
なお、本実施形態では、手話映像を表示する映像表示装置に適用するため、メタデータは以上のような構成となっているが、映像の表現する内容の情報や映像周波数の情報やカラーヒストグラムなど映像自体の持つ情報の一部をメタデータとして用いる構成としてもよい。
図1に戻って、映像ファイル群15は、最終的に表示部16に表示される連続映像を構成する要素となる、表現すべき日本語の各単語と日本語の音を手話で表現するための動作である指文字動作に対応する動作が撮影された映像を含んでいる複数の映像ファイルを示す。
選択映像ファイル16は、データ選択部13が検索した単語毎の映像ファイルを受け取り、これら映像ファイルを保持するものである。
表示部17は、選択映像ファイル16の各映像ファイルを連続して表示する機能部である。
(A−2)第1の実施形態の動作
次に、本実施形態の映像表示装置1の動作について図面を参照して説明する。図9は、本実施形態の映像表示動作のフローチャートである。
図9において、まず、ユーザが手話映像で表現させる文を入力部10に入力する(S90、S91、S92)。このとき、ユーザは、例えばキーボード等の文章入力手段を用いて入力する方法(S90)や、例えばマイクに向けて音声を発して入力する方法(S91)が適用可能である。音声入力の場合、入力音声はテキスト変換(S92)がなされる。
入力部10が入力文を取り込むと、入力文は、形態素解析部11により形態素に分解される(S93)。そして、分解された形態素は、形態素解析部11において、図示しない一般的な日本語の辞書を用いて品詞が割り当てられ、その品詞が割り当てられた形態素(これを単語という)が翻訳部12に与えられる(S94)。
入力文の単語が翻訳部12に与えられると、翻訳部12により、単語に分割された入力文は、構文解析され(S95)、既存の研究と同様に、単語間の状態遷移として表現されている文法に従った並び順に変更される(S96)。
翻訳部12により入力文の構成が調整されると、各単語はデータ選択部13により1つずつ読み出され、データ選択部13は、各単語名と割り当てられた品詞とをキーとして単語辞書14を検索し、登録されている単語が単語辞書14にあるか否かを調べる(S97)。
S97において、単語が単語辞書14に登録されていない場合は、S98に進み、その単語の音を手話で表現する指文字を撮影した映像ファイルを検索する指文字検索処理を行う(S98)。
ここで、指文字検索処理について図10のフローチャートを参照して説明する。
まず、指文字で表現する入力単語の音が文字単位に分解され(S981)、単語を構成する文字が1つずつ読み出される(S982)。文字に相当する指文字動作を表しているファイルの名前を単語辞書14から検索して(S983)、そのファイル名を指文字用データに蓄積する(S984)。
すべての文字についてS982〜S984の処理が終了するまで繰り返し続行され(S985)、最終的に指文字用データを用いて呼び出すファイル名を決定する(S986)。S987で、ファイルを映像ファイル群15から読み出し(S987)、読み出した映像ファイルを選択映像ファイルに追加する(S913)。
このようにして、入力単語の音を手話で表現した指文字を示す映像を検索することができる。
図9に戻り、S97において、入力単語が単語辞書14に登録されている場合、入力単語の登録件数が何件であるか判断される(S99)。
このとき、入力単語の登録件数が1件である場合、S912に進み、検索結果のファイル名の項目を利用して、映像ファイルを映像ファイル群15から読み出し(S912)、読み出した映像ファイルを選択映像ファイル16に追加する(S913)。
一方、入力単語の登録件数が複数ある場合、単語辞書14中のメタデータを利用して候補の中から読み出すファイルを決定する(S910、S911)。
まず、データ選択部13は1つ前の単語を表す映像ファイルのメタデータを参照する(S910)。
例えば、メタデータが参照できた場合の具体的な例として、図2を参照して説明する。ここでは、現在の単語が「会う」であり、1つ前の単語が「明日」であるとする。このとき、1つ前の単語「明日」の映像ファイル名は「01.avi」であるから、このファイル名が示す映像ファイルが選択される。
図2のように、「会う」を表す映像ファイルの候補は複数あるため、どのファイルを使用するかファイルを選択する必要が生じる。このとき、まず、前の単語である「明日」を現す映像ファイル「01.avi」のメタデータのうち終了時の右手の位置と左手の位置の座標を得る(S910)。
そして、「会う」を表す複数候補のファイルのメタデータから始動時の右手の位置と左手の位置の座標を得る。
ここで、終了時の手の位置と各始動時の手の位置のユークリッド距離の左右の和をそれぞれ求め、その値がもっとも小さいファイルを選択ファイルとして決定する(S911)。
この例の場合、「01.avi」と「04.avi」とを比較した場合には左右の手のユークリッド距離の和は、
右手:((50−50)+(50−60)1/2=10
左手:((100−80)+(90−60)1/2=36.06
であるから、10+36.06=46.06となる。
同様にして、「01.avi」と「02.avi」とを比較して左右の手のユークリッド距離の和は、
右手:((50−100)+(50−60)1/2=50.99
左手:((100−130)+(90−60)1/2=58.21
であるから、50.99+58.21=109.30となる。
従って、これらの比較の結果、左右の手のユークリッド距離の和が小さい「04.avi」が選択される。
この処理によって、前の単語の終了時点から現在の単語の始動時の手の位置のずれが小さい映像ファイルが連続するファイルとして選択されるため単語間のつなぎの部分での手の位置のずれが小さい映像が表示されるという効果が得られる。
なお、選択されたファイルのメタデータが参照できない場合には更新日時の新しいデータを出力結果として出力するようにしてもよい。
以降、データ選択部13は、選択された映像ファイルを映像ファイル群15から読み出し(S912)、その読み出した映像ファイルを選択映像ファイル16に追加する(S913)。入力文を構成するすべての単語についてS97〜S913の処理を繰り返す。
そして、表示部17は、選択映像ファイル16に保持されている映像ファイルを読み出して連続的な映像を出力する。
図11は、表示部17の表示画面のイメージを示す。図11において、1901はユーザにより入力された入力文が表示され、入力後例えばスタートボタン1903が押下されることで、上述した映像表示動作が開始し、1902の表示部に入力文に対する手話の連続映像が表示される。
なお、本実施形態では、手話の映像を表示するために、以上のような処理を行うが、映像の表現する内容の情報や映像周波数の情報やカラーヒストグラムなど映像自体の持つ情報の一部をメタデータとして用いる構成として、それらの値を比較することにより類似した映像を探して利用するといった構成とすることも可能である。
また、2つの映像ファイルについて、それぞれの終了付近の速度ベクトルと開始付近の動作速度ベクトルとを比較し、その類似度の近いものを選択するといった方法も可能である。
(A−3)第1の実施形態の効果
以上、本実施形態によれば、入力した文章を単語に分解し、辞書を参照して手話を行っている人物を撮影した映像ファイル群から対応する手話の単語を表現する映像ファイルを決定することができる。
また、その際に、辞書に表される先行する映像ファイル内の人物の動作終了部分での手の位置などのメタ情報を、次の単語を表す映像ファイルを決定する際の指標として用いて合成した場合に前後の映像の接続部分のずれを小さくすることができる。
さらに、本実施形態によれば、連結して表示するための映像ファイルの候補が複数ある場合に、映像ファイルのメタデータを利用して、前後のファイルでの人物の動きのずれが小さいものを選択することができるため、出力結果である連結された映像がより滑らかで見易いものになる効果が得られる。このとき、位置情報や速度ベクトル情報を参照して結合すると、映像データ収録時点でもともと連続していた単語同士が結合される確率が高くなり、ほとんどギャップのない連結が可能となる。
(B)第2の実施形態
次に、本発明の映像装置、映像表示方法及びプログラムの第2の実施形態について図面を参照して説明する。
本実施形態は、第1の実施形態と同様に手話映像を表示する映像表示装置に適用した場合について説明する。また、本実施形態は、選択映像ファイルの一部を使用し、2つの映像ファイルの間に単語の間の人物の動作を補完する映像ファイルを合成することにより、より見易い映像の効果が得られるシステムの構成について説明する。
(B−1)第2の実施形態の構成
図12は、第2の実施形態の映像表示装置の機能ブロック図である。第2の実施形態の映像表示装置2が、第1の実施形態と異なる点は、合成部101を新たに追加する点である。
従って、図12において、図1に同一、対応する構成要件については対応する符号を付して示す。また、対応する構成要件の詳細な機能説明は第1の実施形態で説明したので省略する。
合成部101は、蓄積された選択映像ファイル16から前後する2つの映像ファイルを抜き出し、2つの映像ファイルの中間の映像ファイルを合成する処理を行なうものである。
(B−2)第2の実施形態の動作
次に、本実施形態の映像表示装置2の動作について図面を参照して説明する。なお、入力文の入力処理、入力文の形態素・構文解析処理、映像ファイルの選択処理など基本的な動作は、第1の実施形態と同様であるので、ここでは、映像表示装置2の合成部101による中間フレームの作成、合成処理を中心に説明する。
図13(A)は合成部101の動作フローチャートを示し、図13(B)は動作フローに対応したイメージを示す。
図13(A)において、合成部101は、選択映像ファイル16に保存されている映像ファイルのうち、まだ処理されていない先行する単語を表わす先映像ファイル1107とそのすぐ後の後映像ファイル1109とを抜き出す(S1101)。
次に、合成部101は、抜き出した先映像ファイル1107の最終フレーム1108と、後映像ファイル1109の先頭フレーム1110とをそれぞれ取り出す(S1102)。
最終フレーム1108と先頭フレーム1110を取り出すと、合成部101は、最終フレーム1108と先頭フレーム1110とに基づいて、所定のモーフィング処理を行ない、複数の中間フレーム1111を作成する(S1103)。
ここで、モーフィング処理とは、2つのフレーム間の映像の割合を徐々に変化させることで2フレーム間の中間フレームを作成する処理であって、例えば、既存の技術であるクロスディゾルブやワーピングなどの方法を用いることが可能である。
複数の中間フレームが作成されると、その作成された中間フレームは、作成枚数に応じた時間情報が追加され、最終フレーム1108と先頭フレーム1110との間に補完するための映像ファイル1106が作成される(S1104)。
映像ファイル1106が作成されると、選択映像ファイル16に追加される(S1105)。このとき、先映像ファイル1107と後映像ファイル1109との中間部分に挿入される映像ファイルとして選択映像ファイル16に保管される。
なお、この処理は、選択映像ファイル16内のすべての映像ファイルについて処理が完了するまで反復される。
(B−3)第2の実施形態の効果
以上、本実施形態によれば、連結して表示する映像ファイルの中間の映像を合成する処理を追加することにより、連結する2映像間に比較的大きなギャップがあっても出力結果である連結された映像がより滑らかで見易いものになるという効果が得られる。
(C)第3の実施形態
次に、本発明の映像装置、映像表示方法及びプログラムの第3の実施形態について図面を参照して説明する。
本実施形態も、第1及び第2の実施形態と同様に、手話映像を表示する映像表示装置に適用した場合である。また本実施形態は、映像ファイル合成の際に、単語辞書のメタデータを利用して映像ファイル群に蓄積されている映像ファイルから逐次適当な参照フレームを取り出し、その参照フレームも利用して映像合成するものである。
(C−1)第3の実施形態の構成
図14は、第3の実施形態の映像表示装置の機能ブロック図である。なお、図14において、図1と同一又は対応する構成要件については対応符号を付して示す。また、第1の実施形態で説明した構成要件の機能説明は省略する。
図14において、合成部1201の機能が、第1及び第2の実施形態と異なる。合成部1201は、蓄積された選択映像ファイルから前後する2つの映像ファイルを抜き出し、2つの映像ファイルの中間を埋める映像ファイルを合成する処理を行なうものである。このとき、合成部1201は、単語辞書14内のメタデータを用いて映像ファイル群を検索し、映像ファイル中の適当なフレームを取得し、合成に用いるものである。
(C−2)第3の実施形態の動作
次に、本実施形態の映像表示装置3の動作について図面を参照して説明する。なお、入力文の入力処理、入力文の形態素・構文解析処理、映像ファイルの選択処理など基本的な動作は、第1の実施形態と同様であるので、ここでは、映像表示装置3の合成部1201による中間フレームの作成、合成処理を中心に説明する。
図15(A)は合成部1201の動作フローチャートを示し、図15(B)は動作フローに対応したイメージを示す。
なお、図15において、図13と対応する処理については対応符号を付して示し、その処理の詳細な説明は省略する。
図15(A)において、合成部1201は、第2の実施形態と同様に、選択映像ファイル16から咲き映像1107と後映像ファイル1109とを抜き出し(S1101)、最終フレーム1108と先頭フレーム1110を取り出す(S1102)。
この処理と同時に、合成部1201は、先映像ファイル1107及び後映像ファイル1109のファイル名をキーとして単語辞書14を検索し(S1301)、当該ファイル名に対応するメタデータを取り出す(S1302)。
各ファイル名に対応するメタデータを取得すると、合成部1201は、そのメタデータを用いて所定処理を施すことにより検索データを作成する(S1303)。この検索データとは、参照フレームを検索するためのデータをいう。
ここで、検索データを作成するための所定処理は、種々の方法が考えられるが、本実施形態では、手話動作の滑らかな動きを図るため、最終フレーム1108と先頭フレーム1110との中間部分に近いフレームを参照フレームとする。従って、このような参照フレームを検索するために、次のような方法により検索データを作成するものとする。
例えば、合成部1201は、最終フレーム1108のメタデータと先頭フレームのメタデータのうち、手話を行なう人物の左右の手の位置、手の向きのデータを取得し(S1301、S1302)、これらフレーム間での手の位置の中間位置を検索データとして求める(S1303)。
まず、最終フレームの右手の座標位置が(x,y)であり、先頭フレームの右手の座標位置が(x1,y1)であるときには、検索データの右手の座標位置(m,n)は、((x+x1)/2、(y+y1)/2)とする。左手の位置も同様にして座標を求める。
次に、手の向きについて、最終フレームの右の手の向きが図5でのa3で、先頭フレームの右の手の向きがa5であるときには、検索データの手の向きはおおまかにa4と推定する。このようにして、本実施形態の検索データを作成する。
S1303において検索データが作成されると、合成部1201は、その作成された検索データをキーとして単語辞書14を検索し(S1304)、検索データに最も近いデータを持つフレームを映像ファイル群15から1つ取り出す(S1305)。なお、この取り出したフレームを参照フレーム1307とする。
合成部1201が参照フレーム1307を取得すると、合成部1201は、最終フレーム1108、参照フレーム1307、先頭フレーム1110を用いて、モーフィング処理によって、複数の中間フレーム1111を作成する(S1306)。
このとき、合成部1201は、最終フレーム1108から参照フレーム1307へと徐々に変化する複数の中間フレームを作成すると共に、参照フレーム1307から先頭フレーム1110へと徐々に変化する複数の中間フレームをそれぞれ作成する。なお、中間フレームの作成方法は、第2の実施形態と同様に、モーフィング、クロスディゾルブなどを適用し得る。
以降の動作は、第1及び第2の実施形態と同様であるので省略する。
(C−3)第3の実施形態の効果
以上、本実施形態によれば、中間フレームの合成の際に、前後の映像ファイルのフレームのメタデータを処理した結果を利用して検索し、撮影された実際の映像データをもつ参照フレームを合成に用いるフレームとして追加することで、手の位置や手の向きの変化が最終フレームと先頭フレームとで著しいときに通常の合成を行うと合成したフレームに合成画像特有のゆがみなどの不自然さが生じるという影響を小さくすることができる。
(D)第4の実施形態
次に、本発明の映像装置、映像表示方法及びプログラムの第4の実施形態について図面を参照して説明する。
本実施形態も、手話映像を表示する映像表示装置に適用した場合である。また、本実施形態は、システムに辞書作成部1401と呼ばれる要素を追加することにより
手話の文章を表現している人物を撮影した映像ファイルを解析、文節することにより単語に相当する映像ファイルに切り分け映像ファイル群に格納し、単語辞書に検索に必要なメタデータを追加することを可能にしたシステムについて説明する。
本実施例のシステム構成で、手話を撮影した映像ファイルをシステムに入力するだけで必要なメタデータ等を簡便に単語辞書に追加することが容易になる。
(D−1)第4の実施形態の構成
図16は、本実施形態の映像表示装置の機能ブロック図である。第4の実施形態は、辞書作成部1401を新たに追加する点で第1の実施形態と異なる。従って、図16において、図1と同一又は対応する構成要件については対応符号を付して示す。また、第1の実施形態で説明した構成要件の機能説明は省略する。
辞書作成部1401は、手話の文章を表現している人物を撮影した映像ファイルを解析、文節することにより、単語に相当する映像ファイルに切り分け映像ファイル群に格納し、単語辞書に検索に必要なメタデータを追加することを特徴とする機能部である。
(D−2)第4の実施形態の動作
次に、本実施形態の映像表示装置4の動作について図17を参照して説明する。なお、入力文の入力処理、入力文の形態素・構文解析処理、映像ファイルの選択処理など基本的な動作は、第1の実施形態と同様であるので、ここでは、映像表示装置4の辞書作成部1401による辞書作成処理を中心に説明する。
図17において、映像ファイル1510は、ある文章を手話で表現している人物を撮影した映像ファイルである。以下では、この映像ファイル1510を単語毎に切り分けて、映像ファイル群15及び単語辞書14に追加する場合について説明する。
まず、辞書作成部1401は、追加対象の映像ファイル1510を取り込み、映像ファイル1510を構成する複数の映像フレームについて、所定のフレーム群1511に分割する(S1500)。このフレーム群1511は、複数の静止画像をまとめたものであり、例えば、映像ファイルを所定時間ごとに分割した時系列的なフレーム群とすることができる。
映像フレーム1510が複数のフレーム群1511に分割されると、辞書作成部1401は、1つのフレーム群を取り出し(S1501)、この取り出したフレーム群を処理フレーム1512とする。
また、辞書作成部1401は、処理フレーム1512中の人物の手や肘の位置などを認識する(S1502)。この画面上での手や肘などの位置認識方法として、例えば、既存のアルゴリズムである色検出や重心検出処理などを用いて処理フレーム1512中の人物の手や、肘の位置などを画面上の二次元座標として認識する方法が考えられる。これにより、処理フレーム1512中の位置データ1513を作成できる。
各処理フレームの位置データを作成すると、辞書作成部1401は、位置データ1513の情報を用いて、当該処理フレーム1512中の人物の手と肘の位置関係から手の向きを認識し、その認識した手の向きについて記号分類する(S1503)。
次に、認識した手の位置周辺の一定面積の画素情報を取得し、その画素情報に基づいて手の形を認識し、その認識した手の形について記号分類する(S1504)。このとき、手の形を認識する方法として、例えば、手の位置周辺の一定面積の画素に対して、既存の画像認識アルゴリズムである、ニューラルネットワークや高次局所自己相関特徴の計算などの手法を適用できる。
このようにして、辞書作成部1401は、映像ファイル1510中における処理フレーム1512の表示時間を示す情報を加えて、手の位置、手の向き、手の形のデータを時系列データに追加する(S1505)。
ここで、図18に時系列データの構造例を示す。図18に示すように、時系列データは、所定時間(図18では時間単位はミリ秒とする)ごとのメタデータ(手の位置、手の向き、手の形)からなる。
なお、S1501〜S1505の処理をすべてのフレーム群1511が終了するまで繰り返す。
すべてのフレーム群1511について処理が終了すると、辞書作成部1401は、作成した時系列データに対し、手の位置やその時間微分である動作速度ベクトル、手の向きなどを入力とする隠れマルコフモデル(HMM)などの既存の認識方法を用いて手話認識処理を行い、時系列データを手話単語に相当する部分ごとに区切る(S1507)。
また、辞書作成部1401は、区切った時系列データに認識結果の手話単語名のラベルをつけ(S1508)、映像ファイル1510を読み込み、時系列データに付されたラベルごとに時系列データの時間情報を用いて映像ファイルをラベルごとに分割する(S1509)。
そして、辞書作成部1401は、分割した映像ファイル1510に名前をつけて映像ファイル群15に保存し、単語辞書14に映像ファイル名と区切られた時系列データを新しいレコードとして追加する処理を行う(S1514)。
(D−3)第4の実施形態の効果
以上、本実施形態によれば、第1〜第3の実施形態と同様の効果を奏すことができる。
また、本実施形態によれば、辞書作成部1401を備えることで、容易に映像ファイルに対するメタデータを付与することができるので、作業者が大量の映像ファイルに対してメタデータ付与作業の手間をなくすことができる。
(E)第5の実施形態
次に、本発明の映像装置、映像表示方法及びプログラムの第5の実施形態について図面を参照して説明する。
本実施形態も、手話映像を表示する映像表示装置に適用した場合である。また、本実施形態は、辞書作成部が作成した映像ファイルに関するデータついて、データの類似度などを用いて単語辞書に登録されているか否かを判断し、辞書内容をメンテナンスする点に特徴がある。これにより、同一単語の過剰登録を回避することができ、単語辞書検索負担の軽減ができるので、結果として映像ファイルの選択性を高めることができる。
(E−1)第5の実施形態の構成
図19は、本実施形態の映像表示装置の機能ブロック図である。第5の実施形態は、辞書作成部1401に接続する辞書保全部1701を新たに追加する点で第4の実施形態と異なる。従って、図19において、図1及び図16と同一又は対応する構成要件については対応符号を付して示す。また、第1及び第4の実施形態で説明した構成要件の機能説明は省略する。
辞書保全部1701は、辞書作成部1401が映像ファイルと位置データから新しいデータを単語辞書14と映像ファイル群15に追加する際に、新しいデータの単語名と既存の単語辞書のデータを比較して、新しいデータを追加したり又は破棄したり、既存のデータと新しいデータを統合したりするような処理を行なうものである。
(E−2)第5の実施形態の動作
次に、本実施形態の映像表示装置5の動作について図20を参照して説明する。なお、入力文の入力処理、入力文の形態素・構文解析処理、映像ファイルの選択処理など基本的な動作は、第1の実施形態と同様であるので、ここでは、映像表示装置5の辞書保全部1701の単語辞書14の保全処理を中心に説明する。
図20では、辞書作成部1401により手話単語ごとの映像ファイルのデータを新規データとする場合の辞書保全部1701の動作を示す。
まず、辞書作成部1401が出力した新規データが辞書保全部1701に与えられる(S1801)。新規データが辞書保全部1701に与えられると、辞書保全部1701は、新規データの単語名を検索キーとして単語辞書14を検索し(S1802)、既存データを取得する(S1803)。
ここで、新規データとは、辞書作成部1401から出力される区切られた映像ファイルと単語辞書14に追加されるメタデータの組である。なお、既存データは、該当するデータがないとき空である場合もある。
辞書保全部1701は、映像ファイル群15に全体で映像ファイルが何個含まれているかを調べ(S1804)、それが一定数以上である場合、S1805に進み、新規データと既存データとの適合度を計算する。
一方、映像ファイル群の映像ファイルが一定数以下である場合、辞書保全部1701は、S1803で取得した単語辞書14内の既存データの個数を調べ(S1804b)、それが一定数以下である場合にはS1810に進み、辞書保全部1701はデータを追加する(S1810)。なお、既存データが単語辞書14にない場合にもそのままデータを追加する(S1810)。また、S1804bにおいて、単語辞書14内の既存データの個数が一定数以上である場合、S1805に進み、新規データと既存データとの適合度を計算する。
ここで、適合度とは、新規データと既存データとの整合性を表す値である。この適合度の算出方法は、新規データと既存データとの比較ができれば、種々の方法が考えられる。
例えば、まず、継続時間に基づいて適合度を計算する方法について説明する。この場合、新規データの継続時間と既存データの継続時間の平均値とに基づいてその変化率の絶対値を適合度とするものである。
適合度=|(n−m)/m|…(1)
n=新規データの継続時間であり、m=既存データの継続時間の平均値である。
このとき、新規データの動作の継続時間が既存のデータの継続時間の平均値に比べて著しく短かったり又は長かったりする場合、新規データの適合度が低くなる。
また例えば、適合度として加速度の平均値を用いた場合についても説明する。この場合、まず、新規データの動作速度ベクトルの各フレーム間の差分を求め、加速度ベクトルを計算する。そして、全フレームにおける加速度ベクトルの大きさを計算し、その平均値を求める。また、既存データについても同様にして加速度ベクトルの平均値を求める。
そして、新規データの加速度の平均値と既存データの加速度の平均値とに基づいて変化率の絶対値を適合度とする。
このとき、新規データの動きの変化量が、既存データに比べて大きい場合、新規データの適合度が低くなる。
次に、S1805で計算した適合度について閾値を用いて判断する(S1806)。そして、適合度が閾値より低い場合、辞書保全部1701は新規データを破棄する(S1809)。ここで、閾値とは例えば現在の既存データの適合度の平均値の80%の値とする。
一方、新規データの適合度が閾値以上の場合、新規データと既存データとの類似度を求める(S1807)。
ここで、類似度とは、新規データと既存データとの類似性の度合いを表す値である。
例えば、新規データの各フレームの手の位置と、比較される既存データの同一フレームでの手の位置の差分の絶対値を、両データの始動点からどちらかのデータが終了点に達するまで加算し、加算した値を加算したフレーム数で割った平均値dのような値から計算することができる。
この値dの逆数を類似度Sとすると、類似度の値が大きいほど類似性の高いデータであることを示す。
d=(|r_1−R_1|+|r_2−R_2|+…
+|r_n−1−R_n−1|+|r_n−R_n|)/n …(2)
ここで、r_tは、フレームtにおける新規データの手の位置(ベクトルで表現)であり、R_1は、フレームtにおける既存データの手の位置(ベクトルで表現)であり、nは、既存データのフレーム数と新規データのフレーム数で小さいほうの値である。
S=1/d …(3)
次に、S1807で新規データと既存データとの類似度Sを求めると、類似度について閾値を用いて判断する(S1808)。ここで閾値とはたとえば現在の既存データの類似度の平均値の80%の値とする。
そして、類似度が閾値より大きい場合、新規データは既存データによく似たデータであると判断できるので、辞書保全部1701は新規データを破棄する(S1809)。
一方、類似度が閾値以下である場合、新規データに類似する既存データ存在しないと判断できるので、辞書保全部1701は新規データを単語辞書14及び映像ファイル群15に追加する(S1810)。
(E−3)第5の実施形態の効果
以上、本実施形態によれば、辞書保全部1701を備えることにより、類似度や適合度などを用いて1つの単語に相当する映像ファイルの候補が一定の数、一定の品質を保つことが可能となる。これにより、映像データが必要以上に肥大化したり、検索速度が低下したりすることを防ぐことができる。
(F)他の実施形態
(F−1)第1〜第5の実施形態において、入力部としてキーボードなどの方法を用いたが、これは音声入力、GUI的なインターフェース、ボタン、バーコードリーダーなど別の入力装置を用いる構成としてもよい。
(F−2)第1〜第5の実施形態において、映像ファイル15と単語辞書14とは別の実体として構成されてものとして説明したが、映像ファイルのヘッダなどにメタデータを埋め込み、特定の映像ファイル群のヘッダを単語辞書として随時検索するといった構成としてもよい。
(F−3)第1〜第5の実施形態では、映像ファイルのメタデータを、手話を表現するために、手の位置、手の向き、手の形としたが、これらに限定されず、例えば、顔の表情など他のデータを用いる構成としてもよい。
(F−4)第1の実施形態では、映像ファイルを選択する評価基準についてユークリッド距離を用いて説明したが、これは同様の効果が得られる別の値としてもよい。
(F−5)第2の実施形態では、モーフィングの方法としてクロスディゾルブ、ワーピングを例としてあげたが、これらは排他的なものでなく、どちらか一方又は両方を組み合わせて使う構成としてもよい。またその他の合成方法を用いてもよい。
(F−6)第4の実施形態では、位置データ1513を画像処理の方法によって得たが、これは撮影時に別のデータとしてモーションキャプチャ装置などを用いて取得し、データ解析時にフレームデータと同期を取るような構成としてもよい。
(F−7)第5の実施形態では、新規データについて既存のファイルとの適合度、類似度の計算方法の例を挙げたがこれは同様の効果が得られる別の計算方法で求めてもよい。
(F−8)第1〜第5の実施形態において、手話映像を表示する映像表示装置について説明したが、手話にかぎらず、語や文章、記号に対応付けることができる意味を持った映像を含んだ映像を複数連結して、連続する動作映像を表示する装置であれば、例えば、手旗信号、パントマイム、ダンスなど特定の意味を表現する為の動作の映像を表示するシステムに応用可能である。
(F−9)第1〜第5の実施形態において、日本語による辞書検索を行ったが、辞書のデータを変更することで、その他外国語による手話表示システムとすることも可能である。
(F−10)第1〜第5の実施形態において、各辞書の構成を表の形として示したが、ツリーなどの異なるデータ構造を用いてもよい。
(F−11)第4及び第5の実施形態では、第1の実施形態で説明した映像表示装置1に辞書作成部1401、辞書保全部1701を設けたものとして説明したが、第2及び第3の実施形態の映像表示装置2、3にも適用できる。
(F−12)本発明を構成する構成要素は、1台のPC上に存在していてもよいし、データベース等要素の一部又はすべてがネットワーク上のサーバーなどである構成としてもよい。
第1の実施形態の映像表示装置の機能ブロック図である。 第1の実施形態の単語辞書のデータ構造図である。 第1の実施形態の画面中の人の手の位置を示す説明図である。 第1の実施形態の手の形と記号との関係を説明する説明図である。 第1の実施形態の手の向きと記号の関係を説明する説明図である。 第1の実施形態の手の向きと記号の関係を説明する説明図である。 第1の実施形態の手の向きと記号の関係を説明する説明図である。 第1の実施形態の手の向きと記号の関係を説明する説明図である。 第1の実施形態の映像表示装置の動作フローチャートである。 第1の実施形態の指文字検索の動作フローチャートである。 第1の実施形態における表示部の表示画面例を示す。 第2の実施形態の映像表示装置の機能ブロック図である。 第2の実施形態の映像表示装置の動作フローチャートである。 第3の実施形態の映像表示装置の機能ブロック図である。 第3の実施形態の映像表示装置の動作フローチャートである。 第4の実施形態の映像表示装置の機能ブロック図である。 第4の実施形態の映像表示装置の動作フローチャートである。 第4の実施形態の時系列データの構造例を示す図である。 第5の実施形態の映像表示装置の機能ブロック図である。 第5の実施形態の映像表示装置の動作フローチャートである。
符号の説明
1、2、3、4、5…映像表示装置、10…入力部、11…形態素解析部、
12…翻訳部、13…データ選択部、14…単語辞書、15…映像ファイル群、
16…選択映像ファイル、17…表示部、101、1201…合成部、
1401…辞書作成部、1701…辞書保全部。

Claims (9)

  1. ある情報に応じた動作を表わした動作映像を複数連結して連続動作映像を出力する映像装置において、
    上記動作映像を複数格納する動作映像格納手段と、
    上記各情報に、上記動作映像の読み出し情報と、上記動作映像内に表示されている1又は複数の連結基準情報とを対応付けて格納する連結基準情報格納手段と、
    入力された時間的順序のある複数の入力情報に基づいて上記連結基準情報格納手段から対応する上記動作映像の読み出し情報を検索し、その上記動作映像の読み出し情報に基づいて上記動作映像格納手段から上記動作映像を取り出す動作映像取得手段と、
    上記動作映像取得手段が取り出した複数の上記動作映像を連結して動作映像を出力する出力手段と
    を備え、
    上記動作映像取得手段は、当該入力情報の検索結果が複数ある場合に、少なくとも当該入力情報の直前情報の上記連結基準情報と、検索したそれぞれの上記連結基準情報との比較により、当該入力情報に対応する上記動作映像を選択する
    ことを特徴とする映像装置。
  2. 上記連結基準情報は、上記動作映像に映し出されている表示映像の構成情報を示すメタデータであることを特徴とする請求項1に記載の映像装置。
  3. 上記動作映像取得手段が取得した時間的に前後する複数の上記動作映像に基づいて中間動作映像を作成し、上記出力手段に引き渡す合成手段を備えることを特徴とする請求項1又は2に記載の映像装置。
  4. 上記合成手段が、上記複数の動作映像の上記連結基準情報のそれぞれを用いて、上記中間動作映像を作成するための参照動作映像を上記動作映像格納手段から取り出し、上記参照動作映像もさらに用いて上記中間動作映像を作成することを特徴とする請求項3に記載の映像装置。
  5. ある入力動作映像を分解して得た複数の処理フレームの画像情報に基づいて当該入力動作映像の連結基準情報を生成する連結基準情報生成手段と、
    予め用意された情報辞書に基づいて上記入力動作映像が表わす1又は複数の情報を認識する情報認識手段と、
    上記情報認識手段が認識した各認識情報ごとの動作映像を上記入力動作映像から分割し、その分割動作映像及び上記認識情報に対応する上記連結基準情報を上記動作映像格納手段及び上記連結基準情報格納手段に登録する登録手段と
    を備えることを特徴とする請求項1〜4のいずれかに記載の映像装置。
  6. 上記登録手段の登録の際、登録情報と同等の既存情報が上記連結基準情報格納手段に存在するか否かを判断し、存在する場合に上記登録情報を登録せずに破棄する登録保全手段を備えることを特徴とする請求項5に記載の映像装置。
  7. 上記動作映像が、ある単語の意味を表現する手話映像であり、
    上記連結基準情報が、手話をする人の手の位置、手の向き、手の形を含むメタデータである
    ことを特徴とする請求項1〜6のいずれかに記載の映像装置。
  8. ある情報に応じた動作を表わした動作映像を複数連結して連続動作映像を出力する映像表示方法において、
    上記動作映像を複数格納する動作映像格納手段と、
    上記各情報に、上記動作映像の読み出し情報と、上記動作映像内に表示されている1又は複数の連結基準情報とを対応付けて格納する連結基準情報格納手段と
    を備え、
    動作映像取得手段が、入力された時間的順序のある複数の入力情報に基づいて上記連結基準情報格納手段から対応する上記動作映像の読み出し情報を検索し、その上記動作映像の読み出し情報に基づいて上記動作映像格納手段から上記動作映像を取り出し、
    出力手段が、上記動作映像取得手段が取り出した複数の上記動作映像を連結して動作映像を出力し、
    上記動作映像取得手段が、当該入力情報の検索結果が複数ある場合に、少なくとも当該入力情報の直前情報の上記連結基準情報と、検索したそれぞれの上記連結基準情報との比較により、当該入力情報に対応する上記動作映像を選択する
    ことを特徴とする映像表示方法。
  9. ある情報に応じた動作を表わした動作映像を複数連結して連続動作映像を出力する映像装置に、
    上記動作映像を複数格納する動作映像格納手段、
    上記各情報に、上記動作映像の読み出し情報と、上記動作映像内に表示されている1又は複数の連結基準情報とを対応付けて格納する連結基準情報格納手段と、
    入力された時間的順序のある複数の入力情報に基づいて上記連結基準情報格納手段から対応する上記動作映像の読み出し情報を検索し、その上記動作映像の読み出し情報に基づいて上記動作映像格納手段から上記動作映像を取り出す動作映像取得手段、
    上記動作映像取得手段が取り出した複数の上記動作映像を連結して動作映像を出力する出力手段
    として機能させ、
    上記動作映像取得手段が、当該入力情報の検索結果が複数ある場合に、少なくとも当該入力情報の直前情報の上記連結基準情報と、検索したそれぞれの上記連結基準情報との比較により、当該入力情報に対応する上記動作映像を選択するものとして機能させるためのプログラム。

JP2004318266A 2004-11-01 2004-11-01 映像装置、映像表示方法及びプログラム Expired - Fee Related JP4492299B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004318266A JP4492299B2 (ja) 2004-11-01 2004-11-01 映像装置、映像表示方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004318266A JP4492299B2 (ja) 2004-11-01 2004-11-01 映像装置、映像表示方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2006129376A true JP2006129376A (ja) 2006-05-18
JP4492299B2 JP4492299B2 (ja) 2010-06-30

Family

ID=36723532

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004318266A Expired - Fee Related JP4492299B2 (ja) 2004-11-01 2004-11-01 映像装置、映像表示方法及びプログラム

Country Status (1)

Country Link
JP (1) JP4492299B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011123422A (ja) * 2009-12-14 2011-06-23 Asutemu:Kk 手話映像生成装置、手話映像出力装置、手話映像生成方法、及びプログラム
JP2014014104A (ja) * 2013-08-12 2014-01-23 Taito Corp 手旗信号通信システム
CN112640443A (zh) * 2018-09-20 2021-04-09 奥林巴斯株式会社 图像处理装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0792904A (ja) * 1993-09-22 1995-04-07 Hitachi Ltd 手話合成装置
JP2000149042A (ja) * 1998-11-18 2000-05-30 Fujitsu Ltd ワード手話映像変換方法並びに装置及びそのプログラムを記録した記録媒体

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0792904A (ja) * 1993-09-22 1995-04-07 Hitachi Ltd 手話合成装置
JP2000149042A (ja) * 1998-11-18 2000-05-30 Fujitsu Ltd ワード手話映像変換方法並びに装置及びそのプログラムを記録した記録媒体

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011123422A (ja) * 2009-12-14 2011-06-23 Asutemu:Kk 手話映像生成装置、手話映像出力装置、手話映像生成方法、及びプログラム
JP2014014104A (ja) * 2013-08-12 2014-01-23 Taito Corp 手旗信号通信システム
CN112640443A (zh) * 2018-09-20 2021-04-09 奥林巴斯株式会社 图像处理装置
CN112640443B (zh) * 2018-09-20 2023-05-19 奥林巴斯株式会社 图像处理装置、图像处理方法以及内窥镜系统

Also Published As

Publication number Publication date
JP4492299B2 (ja) 2010-06-30

Similar Documents

Publication Publication Date Title
US5892520A (en) Picture query system using abstract exemplary motions of a pointing device
Cosatto et al. Sample-based synthesis of photo-realistic talking heads
EP0786115B1 (en) System and method for skimming digital audio/video data
EP1980960A2 (en) Methods and apparatuses for converting electronic content descriptions
CN112367551B (zh) 视频编辑的方法及装置、电子设备和可读存储介质
CN114419702B (zh) 数字人生成模型、模型的训练方法以及数字人生成方法
KR20010072936A (ko) 정보 스트림의 포스트-동기화
JP6339529B2 (ja) 会議支援システム、及び会議支援方法
CN110781328A (zh) 基于语音识别的视频生成方法、系统、装置和存储介质
JP2007148976A (ja) 関連情報検索装置
JP6917210B2 (ja) 要約映像生成装置およびそのプログラム
JP3608758B2 (ja) 索引生成方法、索引生成装置、索引付け装置、索引付け方法、ビデオ議事録生成方法、フレーム編集方法及びフレーム編集装置
CN115129934A (zh) 一种多模态视频理解方法
WO2010070519A1 (en) Method and apparatus for synthesizing speech
JP2014109988A (ja) モーション映像生成装置及びモーション映像生成プログラム
JP2007026090A (ja) 映像作成装置
JP4492299B2 (ja) 映像装置、映像表示方法及びプログラム
US20040205655A1 (en) Method and system for producing a book from a video source
CN106162328A (zh) 一种视频同步信息展示方法及系统
JP4548313B2 (ja) 映像作成装置及び映像作成方法
JPH09274428A (ja) 手話アニメーション生成装置
JP2004185424A (ja) プレゼンテーション記録装置
JP4456573B2 (ja) 映像抽出装置及び映像抽出プログラム
US11900505B2 (en) Method and data processing apparatus
CN112764601B (zh) 信息显示方法、装置及电子设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061219

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091215

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100215

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100316

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100329

R150 Certificate of patent or registration of utility model

Ref document number: 4492299

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130416

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130416

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130416

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140416

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees