JP2003296753A

JP2003296753A - 聴覚障害者用対話システム

Info

Publication number: JP2003296753A
Application number: JP2002102801A
Authority: JP
Inventors: Kenji Hatanaka; 兼司畠中
Original assignee: COMPUTER IMAGE LABORATORY CO Ltd; IMAGE LAB CO Ltd COMP
Current assignee: COMPUTER IMAGE LABORATORY CO Ltd; IMAGE LAB CO Ltd COMP
Priority date: 2002-04-04
Filing date: 2002-04-04
Publication date: 2003-10-17

Abstract

(57)【要約】【課題】伝えたい言葉をテキスト入力してアニメーシ
ョン画像で手話及び唇の動作をリアルタイムにて行うこ
とができ、聴覚障害者が容易に正しい情報を受け取って
健常者との意思疎通を良好に行うことを可能とし、さら
にインターネットでの情報配信も容易な聴覚障害者用対
話システムを提供すること。【解決手段】単語をテキストデータとして入力する手
段と、入力単語から音声を合成して発音する手段と、人
間の顔と手を含むアニメーション画像を生成する手段
と、アニメーション画像を表示させる手段と、発音され
た音声に同期させてアニメーション画像の唇を動かす手
段と、手話単語の手形状や手の位置等の手話動作パター
ンを記憶したデータベースと、入力単語に対応する手話
動作パターンをデータベースから読み出してアニメーシ
ョン画像の手を動かす手段とからなり、アニメーション
画像の生成がＸＶＬ３次元データを用いてなされるシス
テム。

Description

【発明の詳細な説明】【０００１】【発明の属する技術分野】本発明は、聴覚障害者用対話
システムに関し、より詳しくは、アニメーション画像で
手話及び唇の動作をリアルタイムにて行わせることがで
き、聴覚障害者と健常者とのコミュニケーションを良好
に行うことを可能とするシステムに関するものである。【０００２】【従来の技術】聴覚障害者が他人とコミュニケーション
をとる手段としては手話が一般的である。しかしなが
ら、健常者の中には手話ができる人が少ないため、聴覚
障害者と健常者との間ではコミュニケーションが充分に
とれないことが多かった。このような実情に鑑みて、テ
キストデータとして入力された単語を基に、コンピュー
タグラフィックスにより生成されたアニメーション画像
で手話を行わせるシステムが提案されており、このシス
テムによれば、手話を知らない健常者と聴覚障害者との
間で容易にコミュニケーションをとることが可能とな
る。【０００３】しかし、実際には、聴覚障害者が健常者と
コミュニケーションをとる場合、手の動きだけでなく、
唇の動きから多くの情報を得ている。例えば、難聴者の
場合には、僅かに聞こえる音声と唇の動きの両方から情
報を得ている。また、動作が同じで意味が異なる手話単
語については、口の形によって使い分けられている。こ
のような実情から、従来のアニメーション画像で手話を
行わせるシステムでは、聴覚障害者が正しく情報を受け
取れない場合があった。【０００４】このような課題を解決するための技術とし
ては、特開平９−２６５２５３号公報に開示の技術が存
在している。この開示技術は、入力された日本語の文字
列から、手話の手動作と口の動きをコンピュータグラフ
ィックスのアニメーションで合成する方法及び装置に関
するものであって、アニメーション画像で手話の手動作
と口の動きの両方を行わせることで上記した問題点を解
決することを可能としたものであった。しかしながら、
この特開平９−２６５２５３号公報の開示技術を含む従
来のアニメーション画像を利用するシステムにおいて
は、３次元アニメーション画像をＷＷＷ上で取り扱うた
めにＶＲＭＬ（Virtual Reality Modeling Language）
が用いられているが、ＶＲＭＬはポリゴンベースのデー
タ表現であってデータ量が巨大であるため、ネットワー
ク転送速度が遅く、リアルタイムでの応答が要求される
対話的利用に適用するには適していなかった。また、ポ
リゴンが基本となるため、データの表現に制限が大き
く、３次元形状の表現力に乏しいという欠点もあった。【０００５】【発明が解決しようとする課題】本発明は上記した従来
技術の問題点を解決すべくなされたものであって、伝え
たい言葉をテキスト入力するだけで、アニメーション画
像で手話及び唇の動作をリアルタイムにて行わせること
ができ、聴覚障害者が容易に且つ正しく情報を受け取る
ことが可能となって健常者とのコミュニケーションを良
好に行うことができ、インターネット上での使用にも適
した聴覚障害者用対話システムを提供せんとするもので
ある。【０００６】【課題を解決するための手段】本発明は、聴覚障害者に
伝えたい単語をテキストデータとして入力する入力手段
と、テキストデータとして入力された単語から音声を合
成して発音するテキスト−音声変換手段と、人間の顔と
手を含むアニメーション画像を生成するアニメ画像生成
手段と、生成されたアニメーション画像を表示させる表
示手段と、前記発音された音声に同期させてアニメーシ
ョン画像の唇を動かす唇画像動作手段と、手話単語の手
形状や手の位置等の手話動作パターンを記憶した手話動
作データベースと、前記テキストデータとして入力され
た単語に対応する手話動作パターンを該手話動作データ
ベースから読み出して前記アニメーション画像の手を動
かす手話画像動作手段とからなり、前記アニメ画像生成
手段によるアニメーション画像の生成が、ＸＶＬ３次元
データを用いてなされることを特徴とする聴覚障害者用
対話システムに関する。【０００７】【発明の実施の形態】以下、本発明に係る聴覚障害者用
対話システムの好適な実施形態について、図面を参照し
つつ説明する。図１は本発明に係るシステムの全体構成
を概略的に示すブロック図である。本発明に係るシステ
ムは、テキストデータ入力手段（１）と、テキストデー
タとして入力された単語から音声を合成して発音するテ
キスト−音声変換手段（２）と、人間の顔と手を含むア
ニメーション画像を生成するアニメ画像生成手段（３）
と、生成されたアニメーション画像を表示させる表示手
段（８）と、発音された音声に同期させてアニメーショ
ン画像の唇を動かす唇画像動作手段（４）と、手話単語
の手形状や手の位置等の手話動作パターンを記憶した手
話動作データベース（５）と、テキストデータとして入
力された単語に対応する手話動作パターンを手話動作デ
ータベース（５）から読み出してアニメーション画像の
手を動かす手話画像動作手段（６）とを備えている。【０００８】テキストデータ入力手段（１）は、文字列
からなるテキストデータを入力するためのキーボード等
からなるものであって、例えば「こんにちは」、「あり
がとう」等の聴覚障害者に伝えたい単語が入力される。【０００９】テキスト−音声変換手段（２）は、テキス
トデータ入力手段（１）から入力されたテキストデータ
から音声を合成する手段であって、一般にＴＴＳ（Text
ToSpeech）と呼ばれる公知のテキスト／音声変換器が
用いられる。このテキスト／音声変換器による変換処理
の方法については特に限定されず、従来公知の方法を使
用することが可能であり、例えば次のような方法で行な
われる。先ず、第１のステップとして、入力されたテキ
ストを音素列に変換し、この音素列から韻律情報を推定
してこれをシンボル化する。韻律情報は、構文構造分析
結果を利用した句・節境界、単語内アクセント位置、文
型等から推定する。次いで、第２のステップとして、シ
ンボル化した韻律情報から規則及びテーブル値を利用し
て韻律制御パラメータの値を計算する。韻律制御パラメ
ータには、音素の持続時間、ピッチ輪郭、エネルギー輪
郭、休み時間情報等がある。最後に、第３のステップと
して、韻律制御パラメータと音素の合成単位データベー
スとを利用して合成音を生成する。【００１０】アニメ画像生成手段（３）は、人間の顔と
手を含む少なくとも上半身のアニメーション画像を生成
する手段であって、本発明においては、このアニメーシ
ョン画像の生成は、ＸＶＬ３次元データを用いて行われ
る。ＸＶＬ（eXtensible Virtual world description L
anguage）は、ラティス格子（３次元格子）を利用した
超軽量３次元コンテンツ・ファイル・フォーマットであ
って、例えば３次元ＣＡＤデータ等の各種３次元データ
により作成されたアニメーション画像をＸＶＬ３次元デ
ータに変換することにより、データ容量を１／１００以
下に圧縮することが可能となる。また、ポリゴンデータ
と形状要素に対する丸め関数を持つラティスメッシュ
と、新しい曲面内挿モデルであるラティスサーフェイス
による表現により、ポリゴンデータと異なり、曲面を曲
面のまま表現できる。そのため、後述する唇画像動作手
段（４）及び手話画像動作手段（６）によるアニメーシ
ョン画像の動きをリアルタイムでスムーズなものとする
ことができるとともに、動画像をインターネットで配信
することも容易となる。【００１１】唇画像動作手段（４）は、テキスト−音声
変換手段（２）により発音された音声に同期させて、ア
ニメ画像生成手段（３）により生成された人間のアニメ
ーション画像の唇を動かす手段である。この唇画像動作
手段（４）としては、リップシンク技術として公知の技
術を使用することが可能であって特に限定はされない
が、例えば以下のように構成される。また、前述した特
開平９−２６５２５３号の開示技術を用いてもよい。ア
ニメ画像生成手段（３）により生成された人間のアニメ
ーション画像において、予め単語や単音節毎に生成した
唇の動作のアニメーション動画像を、それぞれ唇動画片
として唇動作データベース（７）に記憶しておき、前記
テキスト−音声変換手段（２）により発音された音声に
対応する複数の唇動画片を唇動作データベースから読み
出して、フィールド内挿処理により画像を繋ぎ合せるこ
とによって、一連の視覚情報となる唇が動く動画像
（Ａ）を合成する。このとき、個々の動画片の接合部分
において、内挿するフィールド数について、映像の動き
ベクトルの値に応じて内挿する枚数と位置を可変とする
ことで、動画片の接合部分をスムーズなものとすること
ができる。この場合、映像の内挿位置と原画とを比較し
て、映像と音声のズレの検知限の範囲内に設定すること
ができ、合成映像と音声のタイミングをリップシンクの
検知限以下に抑えて、一連の動画を合成することができ
る。【００１２】手話動作データベース（５）には、アニメ
画像生成手段（３）により生成された人間のアニメーシ
ョン画像における手話単語の手形状や手の位置等の手話
動作パターンが、３次元アニメーションのデジタルデー
タとして記憶されている。そして、手話画像動作手段
（６）は、テキストデータ入力手段（１）からテキスト
データとして入力された単語に対応する手話動作パター
ンを、手話動作データベース（５）から読み出して接続
することによって、アニメーション画像（Ｂ）の手を動
かす。【００１３】以下、本発明に係るシステムの作用の一例
について説明する。聴覚障害者と対話したい健常者等
が、テキストデータ入力手段（１）を用いて例えば「こ
んにちは」という単語をテキストデータとして入力する
と、テキストデータとして入力された単語は、テキスト
−音声変換手段（２）によって音声に合成されてスピー
カから「こんにちは」と発音される。ＣＲＴ、ＬＣＤ等
からなる表示手段（８）には、アニメ画像生成手段
（３）により生成された人間の顔と手を含むアニメーシ
ョン画像が表示されており、唇画像動作手段（４）は発
音された音声に同期させて表示されているアニメーショ
ン画像の唇を「こんにちは」と動かす。これによって、
聴覚障害者は、唇の動きによって健常者等が伝えたい言
葉（「こんにちは」）を読み取ることができる。そして
同時に、手話画像動作手段（６）は、テキストデータと
して入力された単語（「こんにちは」）に対応する手話
動作パターンを手話動作データベース（５）から読み出
して、表示手段（８）に表示されているアニメーション
画像の手を動かし、これによって、聴覚障害者は、唇の
動きに加えて手話によって健常者等が伝えたい言葉
（「こんにちは」）を読み取ることができる。【００１４】上記一例の作用において、アニメ画像生成
手段（３）によるアニメーション画像の生成にＸＶＬ３
次元データが用いられていることによって、唇画像動作
手段（４）及び手話画像動作手段（６）によるアニメー
ション画像の動きをリアルタイムでスムーズに行わせる
ことが可能となる。また、データが非常に軽量であるた
め、得られたアニメーション動画像をインターネットで
配信することも容易となる。【００１５】【発明の効果】以上説明したように、本発明は、聴覚障
害者に伝えたい単語をテキストデータとして入力する入
力手段と、テキストデータとして入力された単語から音
声を合成して発音するテキスト−音声変換手段と、人間
の顔と手を含むアニメーション画像を生成するアニメ画
像生成手段と、生成されたアニメーション画像を表示さ
せる表示手段と、前記発音された音声に同期させてアニ
メーション画像の唇を動かす唇画像動作手段と、手話単
語の手形状や手の位置等の手話動作パターンを記憶した
手話動作データベースと、前記テキストデータとして入
力された単語に対応する手話動作パターンを該手話動作
データベースから読み出して前記アニメーション画像の
手を動かす手話画像動作手段とからなり、前記アニメ画
像生成手段によるアニメーション画像の生成が、ＸＶＬ
３次元データを用いてなされることを特徴とする聴覚障
害者用対話システムであるから、聴覚障害者に伝えたい
言葉をテキスト入力するだけで、アニメーション画像で
手話及び唇の動作を行わせることができる。従って、聴
覚障害者が容易に且つ正しく情報を受け取ることが可能
となって健常者とのコミュニケーションを良好に行うこ
とができる。また、アニメーション画像での手話及び唇
の動作を入力に対してリアルタイムに行わせることが可
能となり、得られたアニメーション動画像をインターネ
ットで配信することも容易となる。

【図面の簡単な説明】【図１】本発明に係る聴覚障害者用対話システムの全体
構成を概略的に示すブロック図である。【符号の説明】１テキストデータ入力手段２テキスト−音声変換手段３アニメ画像生成手段４唇画像動作手段５手話動作データベース６手話画像動作手段７唇動作データベース８表示手段

Claims

【特許請求の範囲】【請求項１】聴覚障害者に伝えたい単語をテキストデ
ータとして入力する入力手段と、テキストデータとして
入力された単語から音声を合成して発音するテキスト−
音声変換手段と、人間の顔と手を含むアニメーション画
像を生成するアニメ画像生成手段と、生成されたアニメ
ーション画像を表示させる表示手段と、前記発音された
音声に同期させてアニメーション画像の唇を動かす唇画
像動作手段と、手話単語の手形状や手の位置等の手話動
作パターンを記憶した手話動作データベースと、前記テ
キストデータとして入力された単語に対応する手話動作
パターンを該手話動作データベースから読み出して前記
アニメーション画像の手を動かす手話画像動作手段とか
らなり、前記アニメ画像生成手段によるアニメーション
画像の生成が、ＸＶＬ３次元データを用いてなされるこ
とを特徴とする聴覚障害者用対話システム。