JP2011175598A

JP2011175598A - 手話アニメーション生成装置及び手話アニメーション生成プログラム

Info

Publication number: JP2011175598A
Application number: JP2010040965A
Authority: JP
Inventors: Hiroyuki Kaneko; 浩之金子; Seiki Inoue; 誠喜井上; Toshihiro Shimizu; 俊宏清水; Naoto Kato; 直人加藤; Yuji Nagashima; 祐二長嶋
Original assignee: Nippon Hoso Kyokai NHK; Kogakuin University; Japan Broadcasting Corp
Current assignee: Kogakuin University; Japan Broadcasting Corp
Priority date: 2010-02-25
Filing date: 2010-02-25
Publication date: 2011-09-08

Abstract

【課題】制作者の負担を軽減してより自然な手話アニメーションを生成する。
【解決手段】ユーザから入力されたテキストデータに対応する手話をＣＧアニメーションで生成する手話アニメーション生成装置において、テキストデータを入力する入力手段と、テキストデータに含まれる単語毎に予め複数の手話単語モーションデータと該手話単語モーションデータに対応するパラメータ情報とが蓄積された手話単語データベースに取得要求を行い前記取得要求に対応するパラメータ情報を取得する単語要求手段と、パラメータ情報を解析し、テキストデータに入力された手話文における単語間の連結部分の補間に用いるパラメータを決定するパラメータ情報解析手段と、解析結果として得られるパラメータに基づいてスクリプトを生成するスクリプト生成手段と、スクリプトに基づいて手話単語モーションデータを用いた前記ＣＧアニメーションの再生を行う再生手段とを有する。
【選択図】図１

Description

本発明は、手話アニメーション生成装置及び手話アニメーション生成プログラムに係り、特に制作者の負担を軽減してより自然な手話アニメーションを生成するための手話アニメーション生成装置及び手話アニメーション生成プログラムに関する。

従来より、聴覚障害者等に対する情報伝達のために、ＣＧ（ＣｏｍｐｕｔｅｒＧｒａｐｈｉｃｓ）キャラクタ等を用いたＣＧアニメーションにより手話を表現する技術が知られている（例えば、特許文献１，２参照。）。

なお、特許文献１では、災害や事故等の緊急時の情報を文字と音声の他に手話によって、聴覚障害者にもわかり易く提供する手話アニメーション生成装置が開示されている。

このアニメーション生成装置は、よく用いられる手話の文毎に、可変部分をもつ手話文テンプレートを用意し、その可変部分に代入する手話単語を選択する手段を用いて手話アニメーションを生成すると共に、手話アニメーションが再生される前に画面の色や明るさを変化させる手段を有することにより、手話文の表示が開始されることを聴覚障害者に伝える技術が示されている。

また、特許文献２では、アニメーションを生成し、生成したアニメーションをメール情報として送受信する携帯端末及びメールサーバが開示されている。

このシステムでは、予め単語と単語の表示情報を対応づけた単語イメージ対応辞書としてメールサーバに記憶しておき、メールサーバの制御部が携帯端末からＩＤコード、キャラクタ情報、テキスト情報及び選択された表情情報を受け取ると、受け取ったテキストを単語単位に分割し、単語に対応する表示情報と表情情報を用いてキャラクタの動画像を合成して端末へ出力する処理を制御する技術が示されている。

特許第３５６７５９６号公報特許第３９６８２７７号公報

しかしながら、上述した従来技術は、手話単語毎のモーションデータに対して一部を部分再生することにより自然な手話アニメーションを生成することができなかった。また、そのような映像コンテンツを制作する場合には、部分再生用に予め複数のフレームで分割したモーションデータを単語毎に多数作成して蓄積しておかなければならず、制作者に負担がかかってしまう。また、ＣＧの専門技術を持たない一般のユーザが容易に利用できる手話ＣＧアニメーション生成ツールは現在のところ存在していない。

更に、従来において手話文を表すＣＧアニメーションを生成する場合には、単純に画面に表示される１体のＣＧキャラクタによって、手話単語の見出しを時系列に連結した手話の動作や表情を表現する手法であり、例えば番組に出演しているＣＧキャラクタがその演出の中で手話を用いるといった場合や、複数のＣＧキャラクタによる対話はできない。つまり、手話以外の身体動作や、番組中のカメラのカメラワークやスイッチング等の番組演出を表現することができず、映像コンテンツを制作することは不可能であった。したがって、手話アニメーションを用いて情報伝達する映像コンテンツを制作する環境としては、まだ十分ではない。

本発明は、上述した問題点に鑑みなされたものであり、制作者の負担を軽減してより自然な手話アニメーションを生成するための手話アニメーション生成装置及び手話アニメーション生成プログラムを提供することを目的とする。

上記課題を解決するために、本件発明は、以下の特徴を有する課題を解決するための手段を採用している。

請求項１に記載された発明は、ユーザから入力されたテキストデータに対応する手話をＣＧアニメーションで生成する手話アニメーション生成装置において、前記テキストデータを入力する入力手段と、前記入力手段により得られるテキストデータに含まれる単語毎に、予め複数の手話単語モーションデータと該手話単語モーションデータに対応するパラメータ情報とが蓄積された手話単語データベースに取得要求を行い、前記取得要求に対応する前記パラメータ情報を取得する単語要求手段と、前記単語要求手段により得られる前記単語毎のパラメータ情報を解析し、前記テキストデータに入力された手話文における単語間の連結部分の補間に用いるパラメータを決定するパラメータ情報解析手段と、前記パラメータ情報解析手段により解析結果として得られる前記パラメータに基づいてスクリプトを生成するスクリプト生成手段と、前記スクリプト生成手段により得られるスクリプトに基づいて、前記手話単語モーションデータを用いた前記ＣＧアニメーションの再生を行う再生手段とを有することを特徴とする。

請求項１記載の発明によれば、制作者の負担を軽減してより自然な手話アニメーションを生成することができる。

請求項２に記載された発明は、前記パラメータ情報解析手段は、前記単語間の連結部分の補間に必要となる時間長を設定する際、現在の単語の動作の終了及び次の単語の動作の開始として設定されたフレームに対し、前記ＣＧアニメーションに含まれるＣＧキャラクタにおける所定の関節部分の３次元座標上の距離を算出し、算出された距離に応じて前記時間長を設定することを特徴とする。

請求項２記載の発明によれば、単語間におけるＣＧキャラクタの動きをより自然に表現することができる。

請求項３に記載された発明は、前記パラメータ情報解析手段は、前記現在の単語の動作の終了又は次の単語の動作の開始として設定されるフレームを複数のフレームとし、前記複数のフレーム同士で上述した３次元座標上の距離を算出し、算出された距離の最も小さいフレーム同士を連結対象として決定することを特徴とする。

請求項３記載の発明によれば、単語間におけるＣＧキャラクタの動きを最小にすることで、補間部分を少なくすることができ、より自然な動きを実現することができる。

請求項４に記載された発明は、前記スクリプト生成手段は、前記ＣＧアニメーションに含まれる複数のＣＧキャラクタに対するスクリプトを生成することを特徴とする。

請求項４記載の発明によれば、複数のＣＧキャラクタに対しても適宜手話単語モーションを実行させることができる。

請求項５に記載された発明は、前記単語要求手段は、前記取得要求の結果として前記テキストデータに含まれる単語に対応するパラメータ情報が取得できなかった場合、前記単語を文字単位に分解して、前記手話単語データベースに取得要求を行うことを特徴とする。

請求項５記載の発明によれば、データベースに登録されていない新語等についても手話による情報提供を実現することができる。

請求項６に記載された発明は、ユーザから入力されたテキストデータに対応する手話をＣＧアニメーションで生成する手話アニメーション生成プログラムにおいて、コンピュータを、前記テキストデータを入力する入力手段、前記入力手段により得られるテキストデータに含まれる単語毎に、予め複数の手話単語モーションデータと該手話単語モーションデータに対応するパラメータ情報とが蓄積された手話単語データベースに取得要求を行い、前記取得要求に対応する前記パラメータ情報を取得する単語要求手段、前記単語要求手段により得られる前記単語毎のパラメータ情報を解析し、前記テキストデータに入力された手話文における単語間の連結部分の補間に用いるパラメータを決定するパラメータ情報解析手段、前記パラメータ情報解析手段により解析結果として得られる前記パラメータに基づいてスクリプトを生成するスクリプト生成手段、及び、前記スクリプト生成手段により得られるスクリプトに基づいて、前記手話単語モーションデータを用いた前記ＣＧアニメーションの再生を行う再生手段として機能させる。

請求項６記載の発明によれば、制作者の負担を軽減してより自然な手話アニメーションを生成することができる。また、実行プログラムをコンピュータにインストールすることにより、容易に手話アニメーション生成処理を実現することができる。

本発明によれば、制作者の負担を軽減してより自然な手話アニメーションを生成することができる。

本実施形態における手話アニメーション生成システムの概略構成の一例を示す図である。手話アニメーション生成処理の処理手順の一例を示すフローチャートである。モーションデータの一例を示す図である。本実施形態における手話単語モーションデータ及びパラメータ情報の一例を示す図である。手話単語モーションデータの連結例を示す図である。本実施形態における補間生成処理手順の一例を示すフローチャートである。補間生成の一例をフレーム動作により説明するための図である。本実施形態におけるスクリプト生成の一例を示す図である。本実施形態における画面インターフェイスの一例を示す図である。単語拡張領域における各機能を説明するための図である。複数のＣＧキャラクタを用いた手話映像コンテンツの一例を示す図である。新語に対するモーションデータの生成例を説明するための図である。

＜本発明について＞
本発明は、例えば、テレビ番組をテキスト台本（スクリプト）により制作・記述し、ＣＧと音声合成等を用いて再生する分野等で適用され得るものであり、複数の手話単語を表現するモーションデータを連結して手話文を表現する１又は複数のＣＧキャラクタを含むＣＧアニメーションを再生するテキスト台本（スクリプト）を自動的に生成するものである。

以下に、本発明における手話アニメーション生成装置及び手話アニメーション生成プログラムを好適に実施した形態について、図面を用いて説明する。

なお、以下の実施形態では、一例としてＴＶＭＬ（ＴＶｐｒｏｇｒａｍＭａｋｉｎｇＬａｎｇｕａｇｅ）を用いて番組の制作を行うものとする。ここで、ＴＶＭＬとは、テレビ番組を制作するためのスクリプト言語である。ＴＶＭＬは、テレビ番組の映像と音声を、素材と台本（演出内容）とに分けて記述するものであり、番組台本を記述すれば、パソコン等で動作するソフトウェア等がこれを読み取り、即座にテレビ番組として視聴（提示）することができるものである。

また、ＴＶＭＬを用いた番組制作では、制作者側で制作された番組の台本や、その台本に記述される演出等を予め設定された定義ファイルを用いて実現する番組制作エンジン（ＡＰＥ：ＡｕｔｏｍａｔｉｃＰｒｏｄｕｃｔｉｏｎＥｎｇｉｎｅ）、制作した番組に用いられる素材データ等を用いて番組を制作する。ここで、上述した番組制作エンジンとは、番組に登場する番組司会者や出演者等のＣＧキャラクタや番組における１つの動作の単位で「タイトル表示」、「ズームイン」、「ＣＧキャラクタの動作」等のイベントが予め定義されたものであり、この番組制作エンジンを用いることにより、ニュースやバラエティ、スポーツ、ドラマ等の所定のジャンルの番組制作を効率的に実現することができる。

また、本実施形態では、番組等のコンテンツについて、ＣＧキャラクタ等を動作させる場合に、例えばｂｖｈファイル形式のモーションデータファイルを使用する。モーションデータファイルとは、例えばＣＧキャラクタの仮想空間上の動作情報を扱うファイルであり、実際に人体等の動作を計測して作成したデータであるため、ＣＧキャラクタの自然な動作を可能とする。なお、上述したＴＶＭＬでは、ｂｖｈファイル形式に対応している。したがって、このモーションデータを用いて手話の文を表現する一連の身体動作を生成し、多関節の骨格構造を持つＣＧキャラクタにおいて手話の文を再現するＣＧアニメーションを生成する。

＜手話アニメーション生成システム：概略構成例＞
図１は、本実施形態における手話アニメーション生成システムの概略構成の一例を示す図である。図１に示す手話アニメーション生成システム１０は、手話単語データベース１１と手話アニメーション生成装置１２とを有するよう構成されている。なお、手話単語データベース１１は、手話アニメーション生成装置１２の中に構成されていてもよい。また、手話単語データベース１１と手話アニメーション生成装置１２とは、離れた位置に設置され、例えば図１に示すようなＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）やインターネット等に代表される通信ネットワーク１３を介してデータの送受信を行ってもよい。

また、手話単語データベース１１は、単語検索・回答手段２１と、モーションデータ管理手段２２と、モーションデータ配信手段２３とを有するよう構成されている。また、手話アニメーション生成手段１２は、入力手段３１と、蓄積手段３２と、単語要求手段３３と、パラメータ情報解析手段３４と、スクリプト生成手段３５と、再生手段３６と、出力手段３７とを有するよう構成されている。

ここで、手話単語データベース１１における単語検索・回答手段２１は、手話アニメーション生成装置１２からの単語要求に対してモーションデータ管理手段２２に問い合わせを行い、モーションデータ管理手段２２から単語要求に対応する手話単語モーションデータ４１に対するパラメータ情報４２を１又は複数取得する。なお、パラメータ情報４２とは、部分再生を行うフレーム及び関節等の情報を含んでいる。また、単語検索・回答手段２１は、得られたパラメータ情報４２等を回答情報として手話アニメーション生成装置１２に出力する。

モーションデータ管理手段２２は、本実施形態における手話単語モーションデータ４１と、パラメータ情報４２とを管理する。なお、これらの情報は、予め準備されたサンプルデータ群４３により、所定のモーションデータ及びそのパラメータ情報が蓄積される。サンプルデータ群４３の一例としては、手指動作４３−１や手指動作以外の動作４３−２、表情４３−３等に関する情報である。

モーションデータ管理手段２２は、サンプルデータ群４３に含まれるこれらのデータから所定の単語や文字毎に対応した動作を行う手話単語モーションデータ４１と、そのモーションデータの動作等に関連するパラメータ情報４２を生成し、生成した各情報を蓄積する。

また、モーションデータ管理手段２２は、単語検索・回答手段２１の単語要求に対する手話単語モーションデータ４１を入力された単語に基づいて検索し、その検索結果となる手話単語モーションデータ４１に関連する１又は複数のパラメータ情報４２を単語検索・回答手段２１に出力する。

ここで、モーションデータ管理手段２２は、検索対象の単語が手話単語モーションデータ４１に登録されている場合には，該当する単語のパラメータ情報４２を取得して単語検索・回答手段２１に出力する。一方、検索した結果、登録されていない単語がある場合には、その手話単語の読み仮名に対応する指文字に変換し、そのパラメータ情報４２を単語検索・回答手段２１に出力する。

また、モーションデータ配信手段２３は、手話アニメーション生成装置１２からのモーションデータの取得要求をモーションデータ管理手段２２に対して行い、その結果として得られる手話単語モーションデータ４１を、手話アニメーション生成装置１２に送信する。

一方、手話アニメーション生成装置１２における入力手段３１は、制作者等のユーザが手話アニメーションを制作するための手話文テキストを入力する。なお、入力手段３１により手話文を入力する場合には、予め設定される専用の画面レイアウトを表示させることにより、ユーザ等の操作性を向上させることができる。

また、入力手段３１は、複数のＣＧキャラクタを用いて画像を生成する場合には、予め入力時の手話文テキストにキャラクタを識別するキャラクタ識別情報を含めておくことで、複数のＣＧキャラクタによる手話アニメーションを取得することができ、番組における手話による対話を実現することができる。

なお、入力手段３１は、その他にも、本実施形態におけるＣＧアニメーション生成に関するユーザ等からのアニメーション生成指示や、単語要求指示、パラメータ情報解析指示と、スクリプト生成指示、再生指示、出力指示等の入力を受け付ける。なお、入力手段３１は、例えばキーボードや、マウス等のポインティングデバイス、マイク等の音声入力デバイス等からなる。

蓄積手段３２は、本実施形態における手話アニメーションの生成や再生をするための各種プログラムや、手話アニメーションの生成等に必要な各種データが蓄積される。また、蓄積手段３２は、例えば、手話以外のスクリプト等も蓄積することもでき、後述する再生手段３６により再生時に適宜必要なスクリプトが読み出されて出力される。なお、蓄積手段３２に蓄積されるデータとしては、例えば、台本に対応するＴＶＭＬスクリプト、番組制作エンジンに対応するＡＰＥスクリプト、素材データ等の本実施形態における番組を生成するための各種データであってもよい。

ここで、上述した台本に対応するＴＶＭＬスクリプトとは、例えば番組としてどのようなスタジオセット、小道具、照明、出演者（出演者同士の関係（性別、年齢、性格、職業（歌手、コメンテータ、コメディアン等）も含む）、音声を用いるか等の番組の初期設定情報が指定されたスクリプトである。なお、蓄積手段３２は、例えばデータベース等のように文字情報や画像情報、その他の情報の集合物であり、問い合わせの内容から蓄積された各種情報を検索することができるように体系的に構成されていてもよい。

なお、上述したＡＰＥスクリプトや素材データ等の各種データは、手話単語データベース１１で管理されていてもよく、その場合には、再生手段３６でデータをダウンロードして再生に使用する。更に、本実施形態における手話アニメーションの再生に必要な各種データは、例えば上述した通信ネットワーク１３等に接続された外部装置等から取得することもできる。

単語要求手段３３は、入力手段３１により入力された手話文テキストに基づいて、これが手話文であるか否かを判断し、手話文である場合には使用されている手話単語が手話単語データベース１１に登録されているかどうか検索要求を行う。

なお、単語要求手段３３は、入力手段３１において入力されたテキストデータに対して、予め設定される既存の言語解析手法や単語辞書等を用いて手話文であるか否かを判断し、手話文と判断された場合に、そのテキストデータから１又は複数の単語を抽出する。また、単語要求手段３３は、抽出した単語に対するモーションデータのパラメータ情報等を取得するため手話単語データベース１１に対して単語毎に単語要求を行い、手話単語データベース１１から対応する手話単語に関するパラメータ情報等を取得する。

パラメータ情報解析手段３４は、単語要求手段３３により得られる複数の単語に対するパラメータ情報を解析して、入力手段３１にて入力された手話文を表現する一連の動作を生成するのに必要なパラメータを決定する。

したがって、例えば、パラメータ情報解析手段３４は、取得した手話文に含まれる複数の単語にそれぞれ対応したパラメータ情報を解析し、手話文を構成する連続する単語間のＣＧキャラクタの動作を補間する際に必要となる時間長を、現在の単語の動作の終了及び次の単語の動作の開始として設定されたフレームに対し、所定の関節部分の仮想空間上における３次元座標上の距離（差分値）を算出することで、その算出された距離に応じた動きの時間長を設定し、この処理を、手話文を構成する一連の単語間で行う。

なお、パラメータ情報解析手段３４は、現在の単語の動作の終了又は次の単語の動作の開始として複数のフレームを設定してもよく、その場合には、それぞれ設定された複数のフレーム同士で上述した３次元座標上の距離（差分値）を算出し、算出した距離が最も小さいフレーム同士を連結対象として決定し、そのときの時間長を設定する。

スクリプト生成手段３５は、パラメータ情報解析手段３４で生成されたパラメータ情報に基づいてＴＶＭＬスクリプトを生成する。また、スクリプト生成手段３５は、上述したパラメータ情報に対する手話文の表現以外の番組制作用のスクリプトを生成する。つまり、スクリプト生成手段３５は、番組のナレーションやテロップ、画像や映像等の素材データの表示タイミング、番組進行中におけるＣＧカメラのスイッチング等の各種の番組演出等を、他のスクリプトに順次付加して番組を制作することができる。

また、再生手段３６は、スクリプト生成手段３５により得られるＴＶＭＬスクリプトに基づいて、手話単語データベース１１に対して手話文動作の生成に必要な上述のパラメータ情報に対応する手話単語モーションデータ４１の配信要求を行い、対応する手話単語モーションデータ４１をダウンロードし、その情報に基づいて手話アニメーションを生成する。つまり、再生手段３６は、スクリプト生成手段３５で生成されたスクリプトに従って、手話単語のモーションデータの部分再生と、各単語同士の動作連結による手話文動作の生成を行う。

また、再生手段３６は、手話単語データベース１１に対して台本に対応するＴＶＭＬスクリプト、番組制作エンジンに対応するＡＰＥスクリプト、素材データ等の手話以外のスクリプト等の配信要求を行い、要求により得られた各種データを用いて、上述した手話アニメーションを含む、番組の映像や音声をリアルタイムに出力する。なお、再生手段３６は、上述した再生に用いられる手話以外のスクリプト等の各種データを蓄積手段３２等から取得してもよい。

ここで、再生手段３６は、ＴＶＭＬプレイヤー等の機能を有している。ＴＶＭＬプレイヤーとは、ＴＶＭＬで記述されたスクリプトを読み取り、番組の映像や音声をリアルタイムに出力することができるソフトウェアである。また、ＴＶＭＬプレイヤーは、スタジオセットをリアルタイムＣＧで生成し、ＣＧスタジオセットの中に登場する番組司会者や出演者等のＣＧキャラクタがＴＶＭＬスクリプト中に記述された台詞を合成音声で喋り、演技するところを表示する機能を有する。

出力手段３７は、再生手段３６により再生された映像や音声を表示画面に出力する。また、出力手段３７は、入力手段３１により入力された指示内容、指示内容に基づいて生成された番組、手話アニメーション、その他番組に係る映像及び音声等の編集内容等の内容を表示したり、音声等を出力する。なお、出力手段３７は、ディスプレイやスピーカ等からなる。

このように、本実施形態によれば、手話単語を表すモーションデータと部分再生を行うフレーム及び関節等のパラメータ情報をデータベースにより一元管理し、テキスト入力された手話文に基づいて、各手話単語の検索を行い、データベースに登録されたパラメータ情報に従って複数の手話単語を表すモーションデータを組み合わせたＴＶＭＬスクリプトを生成することができる。なお、登録されていない単語については，複数の手話単語の身体動作を組み合わせることにより手話単語を生成することができる。

また、本実施形態では、中間言語としてＴＶＭＬスクリプトを用いているため、ＣＧカメラのカメラワークやカメラスイッチングのような、手話動作以外の演出表現を手話文の表現を邪魔することなく番組（映像コンテンツ）に順次付加することが可能となる。

＜実行プログラム＞
ここで、上述した手話アニメーション生成装置１２は、ＣＰＵ、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等の揮発性の記憶媒体、ＲＯＭ等の不揮発性の記憶媒体、マウスやキーボード、ポインティングデバイス等の入力装置、画像やデータを表示する表示部、並びに外部と通信するためのインターフェイスを備えたコンピュータによって構成することができる。

したがって、手話アニメーション生成装置１２が有する各機能は、これらの機能を記述したプログラムをＣＰＵに実行させることによりそれぞれ実現可能となる。また、これらのプログラムは、磁気ディスク（フロッピィーディスク、ハードディスク等）、光ディスク（ＣＤ−ＲＯＭ、ＤＶＤ等）、半導体メモリ等の記録媒体に格納して頒布することもできる。

つまり、上述した各構成における処理をコンピュータに実行させるための実行プログラム（手話アニメーション生成プログラム）を生成し、例えば、汎用のパーソナルコンピュータやサーバ等にそのプログラムをインストールすることにより、手話アニメーション生成処理を実現することができる。

次に、本発明における実行プログラムによる処理手順についてコンテンツ制作システムにおける手話アニメーション生成処理についてフローチャートを用いて説明する。

＜手話アニメーション生成処理手順について＞
図２は、手話アニメーション生成処理の処理手順の一例を示すフローチャートである。図２において、まず、手話アニメーション生成装置１２は、テキストの入力を受け付けると（Ｓ０１）、入力されたテキストが手話文であるか否かを判断する（Ｓ０２）。なお、本実施形態における手話文とは、手話が可能な１つ以上の単語を用いた一連の文を示しているが、例えば会話中の「はい」、「いいえ」等の１つの単語も含まれる。

ここで、入力されたテキストが手話文である場合（Ｓ０２において、ＹＥＳ）、手話単語データベース１１又はそれに類似する他のデータベースに対して手話単語要求を行う（Ｓ０３）。また、Ｓ０３の処理に対して得られた結果により、手話単語が登録されているか否かの判断を行う（Ｓ０４）。なお、Ｓ０４の処理では、手話単語データベース１１からの検索結果として得られるパラメータ情報が１件でもあれば、単語が登録されていると判断し、検索結果が１件も存在しない場合、又は検索エラーとなった場合には単語が登録されていないと判断する。

手話単語が登録されている場合（Ｓ０４において、ＹＥＳ）、検索結果として得られるパラメータ情報に対する解析を行い（Ｓ０５）、手話単語のスクリプトを生成する（Ｓ０６）。また、Ｓ０４の処理において、手話単語が登録されていない場合（Ｓ０４において、ＮＯ）、手話単語の各文字の読み仮名に対応する指文字を指定して手話単語データベース１１に文字要求を行い（Ｓ０７）、その文字に対応するパラメータ情報を取得して、パラメータ情報の解析を行う（Ｓ０８）。更に、解析結果に基づいて読み仮名から指文字のスクリプトを生成する（Ｓ０９）。

ここで、Ｓ０２で入力されたテキストが手話文でない場合（Ｓ０２において、ＮＯ）、入力された内容に基づいてスクリプト生成を行う（Ｓ１０）。なお、Ｓ１０の処理では、手話以外のスクリプトが生成される。

次に、上述したＳ０６及びＳ０９の処理が終了後、生成したスクリプトを再生するため、手話単語データベース１１等からパラメータ情報に対応する手話のモーションデータの配信要求を行う（Ｓ１１）。また、Ｓ１０及びＳ１１の処理によって得られたスクリプトやモーションデータを再生して映像や音声を出力する（Ｓ１２）。なお、上述した一連の処理は、ユーザ等からテキスト入力がある度に行われ、得られたスクリプトを順次再生して映像や音声を出力する。

＜各処理の具体例＞
次に、上述した本実施形態における各処理の具体例について図を用いて説明する。図３は、モーションデータの一例を示す図である。図３に示す例では、「名前」という手話単語を表すモーションデータの一例を示している。

手話の単語を表す動作は、図３に示すように気をつけの姿勢（基本姿勢）から手話単語を表す部分に至るまでの動作（“わたり”）と、手話単語を表す部分の動作（“実”の部分）、更に手話単語を表す部分から“わたり”を経て基本姿勢に戻るまでの動作の全てを含んだ一連の身体動作が１ファイル（例えば、ｂｖｈファイル）として手話単語モーションデータ４１に蓄積されている。なお、“わたり”には、上述した意味の他にも単語間の動作を“わたり”という場合もある。

つまり、“実”の動作は、手形が決まり始めから崩れ始めるまでの間の動きを指し、それが手話単語の意味を持つ動作となる。また、“わたり”は、手話単語においては意味をもたない部分の動きで、手話単語を表す前後の遷移動作となる。

図３に示すように、「名前」という手話単語では“実”の開始フレーム番号は、１４フレームであり、終了フレーム番号は４４フレームである。ここで、本実施形態における手話文を表現するには、気をつけの基本姿勢は不要である。そのため、“実”の部分だけを順番に時間軸において部分再生を行う必要がある。

そこで、手話単語データベース１１では、手話単語モーションデータ４１毎に対応するパラメータ情報４２を蓄積しておく。

ここで、図４は、本実施形態における手話単語モーションデータ及びパラメータ情報の一例を示す図である。なお、図４（ａ）は、手話単語に対応するＣＧキャラクタの動作を示すｂｖｈファイルの一例を示し、図４（ｂ）は、パラメータ情報の一例を示す図である。また、図の左側には、説明を容易にするために行番号が示されている。

図４（ａ）に示すモーションデータファイルには、それぞれの手話単語又は文字に対する動作に対応したデータの総フレーム数（例えば、図４（ａ）の（２２）行目）とフレームあたりの時間長（例えば、図４（ａ）の（２３）行目）の記述、及び各フレームの動作中における各関節の回転量（オイラー角）が時系列に記述されている（例えば、図４（ａ）の（２４）〜（３３）行目）。これらのモーションデータは、手話単語及び５０音等の文字毎に設定されている。

また、図４（ｂ）に示すパラメータ情報は、一例としてタグ情報を含むＸＭＬ（ＥｘｔｅｎｓｉｂｌｅＭａｒｋｕｐＬａｎｇｕａｇｅ）フォーマットで作成されているが、本発明においては特に限定されるものではない。

図４（ｂ）の例では、アイテムタグ（＜ｉｔｅｍ＞）の中にパラメータ情報が示されている。具体的に説明すると、図４（ｂ）の（０２）行目には、モーションデータが行う手話単語の内容が＜ｌａｂｅｌ＞タグで示されており、図４（ｂ）の（０３）行目には、ｂｖｈファイルのファイル名（２６８４）が＜ｎａｍｅ＞タグで示されている。

また、図４（ｂ）の（０４）、（０５）行目に示すように、手話単語を表現する“実”の部分の開始フレーム番号と終了フレーム番号を＜ｂｏｄｙ＿ｓｔａｒｔ＞タグと＜ｂｏｄｙ＿ｅｎｄ＞タグにより管理する。また、図４（ｂ）の（０６）、（０７）行目に示すように、上述した“実”の部分の動作の開始フレーム及び終了フレームにおける左右手首関節の３次元座標値（ｘｙｚ座標）を、パラメータ情報として＜ｂｏｄｙ＿ｓｔａｒｔ＿ｘｙｚ＞タグ、＜ｂｏｄｙ＿ｅｎｄ＿ｘｙｚ＞タグで管理する。

ここで、上述したパラメータ情報解析手段３４は、取得した複数の単語にそれぞれ対応したパラメータ情報を解析して、手話文を構成する連続する単語間の動作を補間生成する際に必要となる時間長を、現在の単語の“実”の部分の動作終了時における仮想空間上の３次元座標（＜ｂｏｄｙ＿ｅｎｄ＿ｘｙｚ＞タグ）と、次の単語の“実”の部分の動作開始時における仮想空間上の３次元座標（＜ｂｏｄｙ＿ｓｔａｒｔ＿ｘｙｚ＞）とから算出することで距離に応じた時間長を設定する。

したがって、上述したパラメータ情報解析手段３４が生成した複数のパラメータ情報を用いて、再生手段３６が上述したように補間処理を行いながら、単語を組み合わせて手話文に対応するモーションデータを生成する。

ここで、図５は、手話単語モーションデータの連結例を示す図である。なお、図５の例では、「私の名前は金子です。」という文を手話で表現する場合について説明する。この文を表現するには、「わたし」「名前」「金子」「言う」という４つの単語のモーションデータを順番に再生することによって表現する。なお、図５の例では、時間に対応するモーションデータの遷移が示されている。

図５の例において、「わたし」の単語については、手話文の最初の単語であるため、対応するｂｖｈファイル（３９２１．ｂｖｈ）の０フレーム（基本姿勢）から再生を開始し、６２フレームまで再生する。次に、連結する「名前」については、手首の位置の３次元座標との差から“わたり”に使用される時間長が算出される。この場合には、０．１秒が“わたり”の時間長として使用される。なお、このときの“わたり”の動作は、上述した現在の単語の動作の最後と次の単語の動作の開始のそれぞれの３次元座標値に基づいて、上述した０．１秒という設定時間内で容易に動作させることができる。

更に、「名前」については、対応するｂｖｈファイル（２６８４．ｂｖｈ）の１０フレームから４４フレームまでを再生する。次に、２６８４．ｂｖｈファイルの４４フレームにおける手首の３次元座標と、連結する「金子」に対応するｂｖｈファイル（５１３０．ｂｖｈ）の１４フレームの手首の３次元座標との差から“わたり”の時間が設定される。この場合には、０．４秒が“わたり”として使用される。

更に、「金子」の“実”の動作の終了位置と「言う」の“実”の動作の開始位置との３次元座標の差を比較し、その差に応じて“わたり”を設定する。この場合には、０．１５秒が“わたり”として使用される。なお、「言う」については、手話文の最後の単語であるため、基本姿勢に戻る部分まで使用される。

このように、単語間の“わたり”部分を補間生成することにより、手話文として違和感なく、連続した手話単語動作を行うことができる。また、これらの“わたり”の条件は、ＣＧキャラクタ毎の手の長さの違いや体格、動作の違い等により任意に設定することができる。なお、上述の説明では、単語間の“わたり”に対して時間を設定していたが、本発明においてはこれに限定されるのではなく、例えば“わたり”に用いられる時間長等を設定してもよい。

＜パラメータ情報解析手段３４における補間生成について＞
次に、上述したパラメータ情報解析手段３４における補間生成について、図等を用いて説明する。図６は、本実施形態における補間生成処理手順の一例を示すフローチャートである。また、図７は、補間生成の一例をフレーム動作により説明するための図である。なお、図７の例では、「わたし」、「名前」という２つの単語を用いて“わたり”動作を生成する仕組みが示されており、図７（ａ）には、「わたし」のモーションデータの遷移とそのパラメータ情報とが示されており、図７（ｂ）には、「名前」のモーションデータの遷移とそのパラメータ情報とが示されており、図７（ｃ）には、上述した２つの単語を連結したモーションデータの例が示されている。なお、図７（ａ），（ｂ）に示す手話単語を表すモーションデータ及びパラメータ情報は、上述したように手話単語データベース１１により管理される。

手話文を表現する場合、単語間に発生する“わたり”の部分の表現が非常に重要である。これは、“わたり”の部分で不自然な動作があると、どこからどこまでが手話の単語を表しているのか分からず、文章全体を読み取れなくなってしまうためである。ここで、従来技術では、腕の長さの異なるＣＧキャラクタで再現する場合に、“わたり”にかける時間を変化させる仕組みがなかった。このため、例文登録されていない文を表現する場合に、自然な動作を生成することができなかった。そこで、本発明では、上述したように、手話単語のモーションデータに気をつけの姿勢と手話の単語間の“わたり”動作を含めた形態を定義しており、前後２つの単語のモーションデータ内の“わたり”動作において、単語間でできるだけ近い姿勢を見つけ、近い姿勢のフレーム間を補間生成する。具体的には、本実施形態では、前後の単語に対する仮想空間上の姿勢における手首関節のユークリッド距離等を算出し、その算出結果から、新たに生成する“わたり”の時間長を設定する。これにより、適切な時間長をかけた手話動作を表現することが可能となる。

図６に示す補間生成処理手順において、まず複数単語からなる手話文か否かを判断し（Ｓ２１）、複数単語からなる手話文である場合（Ｓ２１において、ＹＥＳ）、現在の単語に対する次の単語のパラメータ情報を取得し（Ｓ２２）、予め設定された所定数の開始・終了フレームでの左右手首座標値を算出する（Ｓ２３）。

また、前後の単語の左右手首の移動距離を比較し（Ｓ２４）、その差分値が最も小さいフレームを連結対象のフレームとして補間するための補間フレーム番号（ｔｏ，ｆｒｏｍ）を決定し（Ｓ２５）、更に“わたり”の補間を行う補間時間長（ｐｒｅｒｅｓｅｔｔｉｍｅ）を算出する（Ｓ２６）。なお、Ｓ２６の処理では、例えば、補間生成にかける時間長は、左右手首の座標値の距離の値を用いて適切な時間長を算出する。

ここで、図７（ａ），（ｂ）では、「わたし」の“実”と“わたり”の終了フレーム、そして、「名前」の“わたり”と“実”の開始フレームの４つのフレームにおける手首関節の座標値を左右の手首についてそれぞれ比較し、距離の近いもの同士のフレームを連結対象と決定する。また、図７の例では、「わたし」の“わたり”の終了フレーム（６２フレーム）と、「名前」の“わたり”の開始フレーム（１０フレーム）が座標値の距離が近く、この２つのフレームの姿勢を用いて動作を補間生成する。図７（ａ）,（ｂ）の例では、例えば左手首の移動にかかるユークリッド距離から補間生成にかける時間長を設定する（Ｓ２６）。また、時間長が設定されると、対応するＴＶＭＬスクリプトにおける連結用のｋｅｙｆｒａｍｅコマンドを生成する（Ｓ２７）。

更に、次の単語があるか否かを判断し（Ｓ２８）、次の単語がある場合（Ｓ２８において、ＹＥＳ）、Ｓ２２に戻り後続の処理を行う。また、Ｓ２２の処理において、複数単語からなる手話文でない場合（Ｓ２２において、ＮＯ）、その単語に対応するＴＶＭＬスクリプトにおけるｋｅｙｆｒａｍｅコマンドを生成する（Ｓ２９）。

ここで、従来の再生手段３６（ＴＶＭＬプレイヤー）では、ｂｖｈファイルを最初から最後まで全て再生する機能しかなかったため、上述したような単語間の“わたり”動作を生成する場合には、ｂｖｈファイルを分割したものを事前に多数用意しておかなければならなかった。しかしながら、本実施形態によれば、上述したように、パラメータ情報を用いてｂｖｈファイルを時間軸方向で部分再生する機能を有し、開始フレームと終了フレームを指定することで図７（ｃ）に示すように２つの単語の姿勢から生成された動作で自然に単語間を連結させて手話文を再生することができる。

＜スクリプト生成例＞
次に、本実施形態におけるスクリプト生成例について説明する。図８は、本実施形態におけるスクリプト生成の一例を示す図である。なお、図の左側には、説明を容易にするために行番号を付している。図８に示すＴＶＭＬスクリプトは、（０２）〜（０５）行目に示すように上述したｋｅｙｆｒａｍｅコマンドが設定されている。

ｋｅｙｆｒａｍｅコマンドは、予め設定されたモーションデータに従ってＣＧキャラクタを制御するコマンドである。本実施形態では、ｋｅｙｆｒａｍｅコマンドの引数により、動作させるＣＧキャラクタがｎａｍｅで指定され（図６の例では、ｎａｍｅ＝Ａ）、再生するモーションデータのｂｖｈファイルがｋｅｙｆｒａｍｅｎａｍｅで指定されている（例えば、（０２）行目の例では、ｋｅｙｆｒａｍｅｎａｍｅ＝ｍｏｔｉｏｎ３９２１）。

また、図８の例では、“実”の開始と終了フレームとがそれぞれｆｒｏｍ，ｔｏで指定されている。更に、図８の例では、上述した単語間の動作を補間生成する補間時間長（秒）がｐｒｅｒｅｓｅｔｔｉｍｅで指定されている。このＴＶＭＬスクリプトをＴＶＭＬプレイヤーが順次再生することにより、手話文を表す一連の動作を生成することができる。

＜画面インターフェイス＞
次に、本実施形態における画面インターフェイスの一例について図を用いて説明する。図９は、本実施形態における画面インターフェイスの一例を示す図である。図９に示すテキスト入力画面５０は、モーションデータ表示領域５１と、台本表示領域５２と、単語拡張領域５３と、テキスト入力領域５４と、実行（送信）ボタン５５とを有するよう構成されている。なお、上記の画面レイアウトは一例であり、本発明における領域の位置、場所、種類については、これに限定されるものではない。

図９の例では、テキスト入力画面５０を用いて台本表示領域５２に示される台本テキストを制作しており、モーションデータ表示領域５１にＣＧキャラクタＡが表示され、そのキャラクタが行う手話内容について、テキスト入力領域５４により、ユーザ等から入力手段３１等を用いて入力が行われ、送信の実行ボタン５５を押すことにより、上述した本実施形態における手話単語の連結に対応したスクリプトが生成される。また、テキスト入力領域５４の内容が台本表示領域５２に示される台本テキストに書き込まれる。なお、モーションデータ表示領域５１は、ＴＶＭＬプレイヤーとしての機能を有する。

ここで、単語拡張領域５３には、予め登録されている単語や例文、５０音、濁音、半濁音、拗音の仮名等が表示され、そこから適切な単語や文字を選択してテキストを入力することもできる。また、単語拡張領域５３は、手話の翻訳機能を有し、入力された話し言葉の日本語文を、手話単語の語順で並びかえられたテキストに翻訳することもできる。

ここで、上述した単語拡張領域５３における各機能について図を用いて説明する。図１０は、単語拡張領域における各機能を説明するための図である。なお、図１０（ａ）は、仮名入力機能の一例を示し、図１０（ｂ）は、翻訳機能の一例を示している。また、図１０は、上述したテキスト入力画面５０のうち、左側の部分のみ（台本表示領域５２、単語拡張領域５３、テキスト入力領域５４、実行ボタン５５）を示している。

本実施形態において、手話単語データベース１１に登録されていない固有名詞や専門用語等は、単語の読み仮名を用いて指文字として表現する。その場合、例えば図１０（ａ）に示すように、単語拡張領域５３に５０音等の文字を表示させ、ユーザに１文字ずつ表示している文字を入力させることにより、その結果をテキスト入力領域５４等に入力させると共に、実行ボタン５５を押すことでテキスト入力領域５４の内容が台本表示領域５２に示される台本テキストに書き込まれる。

また、手話の翻訳機能の場合は、入力された話し言葉の日本語文を、日本手話における語順で並びかえられたテキストに翻訳する。具体的には、図１０（ｂ）に示すように、単語拡張領域５３に「今日は天気が良いです」という文章を入力すると、翻訳機能により対応するモーションデータの単語とそのファイル名（今日（０９０１）天気（２４８８）良い（３７３３））がテキスト入力領域５４に入力され、実行ボタン５５を押すことにより、上述した本実施形態における手話単語の連結に対応したスクリプトが生成される。また、テキスト入力領域５４の内容が台本表示領域５２に示される台本テキストに書き込まれる。手話アニメーション生成装置１２では、このような機能により翻訳した結果を入力として、手話文を表現するＣＧアニメーションを生成する。

上述した画面インターフェイスにより、手話の知識のない人でも手話によるコミュニケーションが可能となる。

上述した本実施形態によれば、複数の手話単語を表すモーションデータを組み合わせた手話文生成が可能となる。

＜複数のＣＧキャラクタによる手話＞
次に、本実施形態における複数のＣＧキャラクタを用いた手話映像コンテンツの例について、図を用いて説明する。図１１は、複数のＣＧキャラクタを用いた手話映像コンテンツの一例を示す図である。なお、手話映像コンテンツには、番組、映画等の手話アニメーション全般が含まれる。

本実施形態であるＴＶＭＬプレイヤーは、複数のＣＧキャラクタを用いて、映像コンテンツを制作することができる。本実施形態では、男性と女性の二人のＣＧキャラクタが掛け合いをしながら進行する情報番組を示しており、女性が口話による情報提示を行いつつ、隣にいる男性キャラクタが同じ情報を手話により表現することができる。

具体的には、図１１（ａ）に示す台本に記述された内容から、上述した単語要求手段３３における処理やパラメータ情報解析手段３４における処理を実施した後、スクリプト生成手段３５によりＴＶＭＬスクリプトを生成して再生することで、図１１（ｂ）に示すように、女性キャラクタの話した言葉を男性キャラクタが手話に翻訳し、画面で表現するといったコンテンツの提供を容易に行うことができる。

なお、本実施形態では、図１１（ａ）に示すように、男性キャラクタに対する台本のテキストデータに、“（手話翻訳）”等のような手話を行わせるための所定の識別情報を記述しておくことで、その台本の直前に記述されている文章を手話翻訳することができる。なお、本発明においては上記の内容に限定されるものではなく、例えば男性キャラクタの台本に手話を行わせるための手話文を直接入力してもよい。上述したように台本に手話を行うための簡単な記述をしておくことで複数のＣＧキャラクタに対しても適宜手話単語モーションを実行させることができる。

＜新語に対するモーションデータの生成例＞
次に、新語に対するモーションデータの生成例について図を用いて説明する。図１２は、新語に対するモーションデータの生成例を説明するための図である。

上述した手話単語モーションデータベース１１では、手話の動作は、１つの単語の動作を形態素毎に分けて登録することができる。したがって、例えば、「飛行機」という手話単語は、図１２（ａ）に示すように右手の手指を指文字の「ヤ」の形にし、図１２（ｂ）に示すように右腕の振りにより飛行機が離陸するところを表現する。これを右手指関節の動作、肩及び肘関節の動作の２つに分けて形態素として登録しておく。

これにより、本実施形態において新語を制作する場合には、例えば上述したテキスト入力画面５０のモーションデータ表示領域５１の画面を見ながら形態素毎に動作を検索し、動作を組み合わせることで表現することができる。

上述したように、本発明によれば、制作者の負担を軽減してより自然な手話アニメーションを生成することができる。具体的には、発明によって複数の手話単語を表すモーションデータを組み合わせた手話文生成が可能となる。

以上本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変更が可能である。

１０手話アニメーション生成システム
１１手話単語データベース
１２手話アニメーション生成装置
１３通信ネットワーク
２１単語検索・回答手段
２２モーションデータ管理手段
２３モーションデータ配信手段
３１入力手段
３２蓄積手段
３３単語要求手段
３４パラメータ情報解析手段
３５スクリプト生成手段
３６再生手段
３７出力手段
４１手話単語モーションデータ
４２パラメータ情報
４３サンプルデータ群
４３−１手指動作
４３−２手指動作以外の動作
４３−３表情
５０テキスト入力画面
５１モーションデータ表示領域
５２台本表示領域
５３単語拡張領域
５４テキスト入力領域
５５実行（送信）ボタン

Claims

ユーザから入力されたテキストデータに対応する手話をＣＧアニメーションで生成する手話アニメーション生成装置において、
前記テキストデータを入力する入力手段と、
前記入力手段により得られるテキストデータに含まれる単語毎に、予め複数の手話単語モーションデータと該手話単語モーションデータに対応するパラメータ情報とが蓄積された手話単語データベースに取得要求を行い、前記取得要求に対応する前記パラメータ情報を取得する単語要求手段と、
前記単語要求手段により得られる前記単語毎のパラメータ情報を解析し、前記テキストデータに入力された手話文における単語間の連結部分の補間に用いるパラメータを決定するパラメータ情報解析手段と、
前記パラメータ情報解析手段により解析結果として得られる前記パラメータに基づいてスクリプトを生成するスクリプト生成手段と、
前記スクリプト生成手段により得られるスクリプトに基づいて、前記手話単語モーションデータを用いた前記ＣＧアニメーションの再生を行う再生手段とを有することを特徴とする手話アニメーション生成装置。
前記パラメータ情報解析手段は、
前記単語間の連結部分の補間に必要となる時間長を設定する際、現在の単語の動作の終了及び次の単語の動作の開始として設定されたフレームに対し、前記ＣＧアニメーションに含まれるＣＧキャラクタにおける所定の関節部分の３次元座標上の距離を算出し、算出された距離に応じて前記時間長を設定することを特徴とする請求項１に記載の手話アニメーション生成装置。
前記パラメータ情報解析手段は、
前記現在の単語の動作の終了又は次の単語の動作の開始として設定されるフレームを複数のフレームとし、前記複数のフレーム同士で上述した３次元座標上の距離を算出し、算出された距離の最も小さいフレーム同士を連結対象として決定することを特徴とする請求項２に記載の手話アニメーション生成装置。
前記スクリプト生成手段は、
前記ＣＧアニメーションに含まれる複数のＣＧキャラクタに対するスクリプトを生成することを特徴とする請求項１乃至３の何れか１項に記載の手話アニメーション生成装置。
前記単語要求手段は、
前記取得要求の結果として前記テキストデータに含まれる単語に対応するパラメータ情報が取得できなかった場合、前記単語を文字単位に分解して、前記手話単語データベースに取得要求を行うことを特徴とする請求項１乃至４の何れか１項に記載の手話アニメーション生成装置。
ユーザから入力されたテキストデータに対応する手話をＣＧアニメーションで生成する手話アニメーション生成プログラムにおいて、
コンピュータを、
前記テキストデータを入力する入力手段、
前記入力手段により得られるテキストデータに含まれる単語毎に、予め複数の手話単語モーションデータと該手話単語モーションデータに対応するパラメータ情報とが蓄積された手話単語データベースに取得要求を行い、前記取得要求に対応する前記パラメータ情報を取得する単語要求手段、
前記単語要求手段により得られる前記単語毎のパラメータ情報を解析し、前記テキストデータに入力された手話文における単語間の連結部分の補間に用いるパラメータを決定するパラメータ情報解析手段、
前記パラメータ情報解析手段により解析結果として得られる前記パラメータに基づいてスクリプトを生成するスクリプト生成手段、及び、
前記スクリプト生成手段により得られるスクリプトに基づいて、前記手話単語モーションデータを用いた前記ＣＧアニメーションの再生を行う再生手段として機能させるための手話アニメーション生成プログラム。