JP2013045282A

JP2013045282A - コミュニケーション支援システム

Info

Publication number: JP2013045282A
Application number: JP2011182594A
Authority: JP
Inventors: Takashi Saito; 剛史齊藤
Original assignee: Kyushu Institute of Technology NUC
Current assignee: Kyushu Institute of Technology NUC
Priority date: 2011-08-24
Filing date: 2011-08-24
Publication date: 2013-03-04

Abstract

【課題】誤認識の場合でも誤ったメッセージが話し相手に伝わることを避けることができる発話障害者のための、あるいは異なる言語間の通訳のための、読唇技術を利用した実用性の高いコミュニケーション支援システムを提供する。
【解決手段】事前に登録した発話内容の中から話し相手に伝えたい発話内容を、その口唇の動きに基づきその特徴量をリアルタイムに計測し、この計測された特徴量とデータベースに登録されている特徴量を比較して、発話内容を判断して認識結果をコントローラに出力する。コントローラの指示に基づき正しい認識結果を出力部に出力する。
【選択図】図１

Description

本発明は、発話障害者のための、あるいは異なる言語間の通訳のための読唇技術を用いたコミュニケーション支援システムに関する。

発話音声は人間の日常生活で最も身近かつ重要なコミュニケーション手段である。しかし喉頭摘出による声帯音源の喪失、筋・神経系の障害による構音制御の不具合、あるいは運動性言語中枢の麻痺により発話に障害をもつ人は、音声を用いたコミュニケーションが困難である。そのため、発話障害を補助する機器が開発されている。古くからあるもっとも単純な機器として50音の仮名が並べられた文字盤、あるいは指で示した文字を音声に置き換えて出力する電子機器がある。その他、文字でなく絵を利用する機器、人工喉頭などがある。

音声認識技術を利用して通訳するシステムに関しては、例えば、特許文献１がある。特許文献１は、音声だけでなく非言語情報（表情、読話、ジェスチャ、手話）を利用すると記述されているが、コンピュータにより認識するのは音声情報のみである。ユーザでなく話者（話し相手）の音声を言語情報として入力して認識する。話者の非言語情報は音声情報に対する認識とは異なり、単に映像として呈示しているのみで、コンピュータによる読話は行っていない。音声認識技術は、騒音環境下の音声が明瞭でない場所では認識精度が低下する。また声を出しにくい公共の場所などでは音声認識は利用できない。通訳（翻訳）システムに音声認識を利用する場合、ユーザは音声を発声するため、話し相手に声が聞こえるという問題がある。

一方、画像処理技術を利用して、発話時の視覚情報から発話内容を認識する読唇に関する研究が近年盛んに取り組まれている。読唇技術を利用したリアルタイムシステムは、単一フレーム画像を用いた口形認識を利用するアプローチと、口唇の時系列変化を利用した、いわゆる読唇を利用するアプローチの二つに大別される。

特許文献２では、口形認識とキー操作を併用したテキスト入力システムが提案されている。日本語の仮名50音表の異なる子音に対してはキーを、母音に対しては口形を対応させることによりテキスト入力を実現している。キー操作を利用することにより、早いテキスト入力を実現している。特許文献２のアプローチは半自動の口形認識である。

非特許文献１では、口形認識を利用した日常会話伝達システムが提案されている。これは障害をもつユーザであっても比較的容易に実施でき、かつ特徴的なパターンを有する、「口を開ける」、「歯を見せる」、「口をつぼめる」、「舌を出す」の4種類に相当する口形をメッセージ項目の選択に用いている。多くのメッセージに対応させるために日常会話を階層化している。

口形認識ではなく読唇を利用したリアルタイムシステムとして、音声認識技術と読唇技術を統合した音声自動認識システム（AV-ASR）が提案されている。これらのシステムは騒音環境下において音声認識精度が低下するのを防ぐことを目的として、補助的な機能として読唇技術を利用している。

非特許文献２は、本発明者らが先に提案したものであり、音声認識技術を利用せずに読唇技術のみを用いて単語を認識し、認識結果に応じて音声メッセージを出力する。このシステムでは顔下半分の画像を入力とし、Active appearance modelを適用した口唇領域の抽出、トラジェクトリ特徴量とDPマッチングによる認識を適用している。顔下半分の画像を用いているため、顔を大きく動かすと口唇領域が画像外に動いてしまう問題がある。また音声メッセージの出力が可能であるが、誤認識された場合においてもメッセージが出力されてしまい実用には不向きである。

特開２００２−２４４８４２号公報特開２００５−３０９９５２号公報

渡邊睦、西奈津子、「口部パターン認識を用いた日常会話伝達システムの研究」、電気学会論文誌、Vol．124、no．3、pp．680-688、2004年3月加藤友哉、齊藤剛史、小西亮介、「トラジェクトリ特徴量を用いたリアルタイム単語認識」、電気・情報関連学会中国支部第59回連合大会、pp．427-428、2008年10月 Viola, P. and Jones, M.J.: Rapid object detection using a boosted cascade of simple features; Proc. of Computer Vision and Pattern Recognition, 1, pp. 511-518 (2001). Cootes, T. F., Edwards, G. J. and Taylor, C. J.: Active appearance models; Proc. of European Conference on Computer Vision, 2, pp. 484-498 (1998).

コミュニケーション支援システムを想定する場合、発話内容を正確に認識するだけでなく、インタフェースとしての利便性を考慮する必要がある。つまり、100%の認識率を得られることができない場合、誤認識によりシステムが誤った情報を話し相手（話者）に伝達することを防ぐことが大切である。

コミュニケーション支援システムの一例として、発話障害をもつ人のための支援システムとして応用する場合、ユーザ（利用者）は話し相手に伝えたいメッセージを（口パクで）発話し、読唇により認識された結果を音声メッセージあるいはコンピュータのモニターなどに表示する。このとき誤認識の場合に誤ったメッセージが話し相手に伝わることを避ける必要がある。

別の例として、コンピュータによる通訳システムとして応用する場合、例えば日本語を話すユーザが通訳システムを利用して英語でメッセージを伝える際、ユーザの発した日本語が話し相手に伝わってしまうのを防ぐ必要がある。従来の音声認識技術を利用する場合、通訳結果が話し相手に伝わる前に必ずユーザの音声が話し相手に伝わってしまう。そのため話し相手は英語だけでなく日本語も聞いてしまうことになる。

そこで本発明は、係る問題点を解決して、誤認識の場合でも誤ったメッセージが話し相手に伝わることを避けることができる発話障害者のための、あるいは異なる言語間の通訳のための、読唇技術を利用した実用性の高いコミュニケーション支援システムを提供することを目的としている。

ユーザの発話した発話内容を、読唇により認識して話し相手に伝達する本発明のコミュニケーション支援システムは、発話内容の口唇の動きを計測するカメラと、前記口唇の動きに基づき発話内容の特徴量をデータベースに登録する登録部と、認識結果を表示する表示部、及び認識結果をもとにユーザが操作する入力手段とを有するコントローラと、事前に登録した発話内容の中から話し相手に伝えたい発話内容を、その口唇の動きに基づきその特徴量をリアルタイムに計測し、この計測された特徴量と前記データベースに登録されている特徴量を比較して、発話内容を判断して認識結果を前記コントローラに出力すると共に、前記コントローラの指示に基づき正しい認識結果を出力する認識部と、前記認識部より出力された認識結果を出力する出力部と、から構成される。

前記登録部は、前記カメラによって取得した取得顔画像から口唇領域を抽出する領域抽出手段、抽出された口唇領域より特徴量を計測する特徴量計測手段、及び抽出された口唇領域の変化より発話区間を検出する発話区間検出手段を有し、前記認識部は、前記領域抽出手段、前記特徴量計測手段、前記発話区間検出手段に加えて、計測された特徴量と登録されている前記データベースの特徴量を比較し、前記発話区間の発話内容を判断してその認識結果を前記コントローラに出力すると共に、前記コントローラの指示に基づき正しいと指示された認識結果をメッセージ出力手段に出力する判断手段を有する。

前記認識部は、誤認識と判断された認識結果を認識候補リストから取り除くことにより、連続して同じ認識結果に誤認識されることを防ぐ。正認識結果を得られた場合、前記コントローラによる操作だけでなく、次の発話内容を入力することにより正認識を得られたと前記認識部が判断する。

また、本発明は、前記コントローラに出力された認識結果の第１の言語（例えば、日本語）と、前記メッセージ出力手段に出力された認識結果の第２の言語（例えば、英語）は互いに異なる言語であり、かつ、第２の言語は、第１の言語を通訳した関係にある通訳システムとして用いることができる。

本発明によれば、音声情報を用いないコミュニケーション支援システムであるため、喉頭摘出による声帯音源の喪失、筋・神経系の障害による構音制御の不具合、あるいは運動性言語中枢の麻痺などによる発話障害をもつ人が利用することができる。

また、本発明では、音声情報を用いずに読唇技術のみを用いているため、通訳システムとして利用が可能である。例えば、ユーザが日本語、話し相手が英語を理解している場合、音声認識技術を利用した通訳システムの場合はユーザの日本語音声が話し相手に聞こえてしまう。その後、通訳システムにより英語が話し相手に伝わる。本発明を利用することにより、ユーザの日本語音声は話し相手に聞こえず、英語のみが話し相手に伝わる。このためスムーズなコミュニケーションが可能となる。

本発明では、音声情報を用いずに読唇技術のみを用いているため、騒音環境下の音声が明瞭でない場所や公共の場所など音声認識では利用が困難な場所において利用が可能となる。携帯電話やスマートフォンなどの電話通話機能をもつ携帯端末に実装することにより、騒音環境下や公共の場所などにおける電話通話機能の利用が可能となる。本発明は、単に認識するだけでなく、認識結果をユーザにフィードバックさせることにより誤認識による誤伝達を防ぐことができる。更にユーザが誤認識された内容を繰り返し入力する際に再び誤認識されることを防ぐことができる。

本発明のコミュニケーション支援システムを例示する概略構成図である。本発明に基づき構成したコミュニケーション支援システムの機能構成図である。登録モードの処理の流れを示す図である。認識モードの処理の流れを示す図である。構築した顔モデルを例示する図である。構築した口唇モデルを例示する図である。プロトタイプシステムのメイン画面を例示する図である。実験の結果を示すグラフである。

以下、例示に基づき本発明を説明する。図１は、本発明のコミュニケーション支援システムを例示する概略構成図である。例示のコミュニケーション支援システムは、コンピュータPCに対して、カメラ、コントローラ、及びディスプレイからなる各パーツを組み合わせることにより構成されている。これら各パーツは、コンピュータPCとは別に設けて有線若しくは無線で接続することも、或いは各パーツのいくつか或いは全てを、コンピュータPCと同一の筐体に一体に組み立てることもできる。このコミュニケーション支援システムは、事前に登録した定型文の一つを、リアルタイムで認識し、認識結果を音声メッセージとして出力する。本システムは認識対象として定型文と表記したが、文でなく単語でもよい。本システムは登録モードと認識モードの二つの操作モードをもつ。登録モードはユーザが事前に定型文を登録する場合に利用する。認識モードはユーザが話し相手とコミュニケーションする際に利用する。

本システムは読唇技術に基づくため、口唇の動きを計測するカメラはシステムを構成する重要な装置である。一方、コントローラはディスプレイを介して認識結果をユーザに示し、結果の成否を判断するために用いる。コントローラでなく、視線や瞬き、顔の向きなどの情報を利用することも可能である。二つのボタン操作を行うコントローラを利用することにより、早く正確かつ容易に操作することができる。ここで、ユーザ（利用者）は、例えば、発話障害をもつ人である。或いは、ユーザ（利用者）は、例えば、英語に通訳することを望む日本語を話す人である。口パクでユーザの発した日本語が話し相手に英語で伝わるコンピュータによる通訳システムとして応用することができる。なお、以下、ユーザの発話内容を読唇し、話者（話し相手）へ伝えることを想定して説明するが、逆に、話者の発話内容を読唇し、ユーザへ伝えることも可能である。また、例えば、日本語から英語への通訳システムとして応用する場合、ユーザが利用するコントローラはディスプレイを介して日本語を表示し、出力部から英語（システム利用時にボタン或いはスイッチなどでユーザが選択した言語）を出力する。

登録部における登録は以下の手順で行う。まずユーザは登録したい内容を発話する。システムにより発話区間が自動的に検出され、発話内容を登録するダイアログが自動的にディスプレイに表示される。検出された発話区間の発話内容（その特徴量）をデータベースに登録する場合、ユーザは発話内容をテキストとして入力することにより、発話内容が登録される。登録をキャンセルしたい場合はダイアログのキャンセルボタンを選択する。テキストの入力は、例えば、登録情報（例えば、テキストデータに該当する番号のことであり、後述する表２に示すように、「暖かいです」は01、「暑いです」は02、などのように発話内容に割り当てた番号）を用いて行うことができる。また、例えば、日本語から英語への通訳システムとして応用する場合、01「暖かいです」に対して“It is warm”が、02「暑いです」に対して“It is hot”のように、日本語と共に、日本語に対応した英語が登録されている。以下の認識処理後にディスプレイで確認するための認識結果としては、日本語部分が表示され、確認後に音声メッセージとして、出力部から出力されるのは英語部分である。

認識部における認識は以下の手順で行う。ユーザは事前に登録したメッセージの中から話者に伝えたいメッセージを発話する。システムは発話区間の自動検出および認識処理を適用する。認識後すぐにディスプレイに認識結果が表示される。このとき、本システムでは認識結果をもとに音声メッセージを出力せず、ユーザへの提示に留める。ユーザは認識結果をディスプレイで確認し、認識結果が正しく話し相手へメッセージとして伝えられた場合は、ユーザはコントローラの該当するボタンを押すことにより、音声メッセージが出力され、話し相手へ伝達される。誤認識の場合、誤ったメッセージが話し相手へ伝わることを防ぐため、ユーザはクリアボタンを押す、あるいはTW秒待機することにより認識結果が消去される。つまり本システムではユーザに認識結果をフィードバックさせることにより誤認識による誤伝達を防ぐ。ユーザの操作が必要になるが、コミュニケーションにおいて誤伝達、誤解釈を防ぐことが可能であり、この処理は実利用するのにとても重要な要素である。TWは認識結果を表示してからユーザ操作がない場合に認識結果を自動的にクリアするまでの時間である。

また、誤認識の場合、ユーザが繰り返し同じ発話内容を入力する可能性は極めて高い。この場合、ユーザが発話時の口唇の動きを意識して変えない限り、システムが直前と同じ誤認識結果を表示する確率が高い。そこで本システムでは、誤認識と判断された文を認識候補リストから取り除くことにより、連続して同じ文に誤認識されることを防ぐ。正しい認識結果が得られた場合は認識候補リストを変更すること無くリセットする。

前述の処理は登録されているメッセージを一文ずつ伝える手順である。このことを本明細書では孤立文伝達と呼ぶ。挨拶などの決まり文句のような定型文を伝える場合は孤立文伝達により話者にメッセージを伝えられる。しかし、この方式では登録されていない定型文以外の文を伝えることはできない。一方、定型文でなくとも単語を複数登録し、単語を順に発話することにより単語を組み合わせたメッセージを伝えることが期待できる。そこで本システムでは孤立文伝達だけでなく単語を組み合わせたメッセージを伝える機能をもたせる。このとき孤立文伝達を利用する。すなわち1単語単位でメッセージを出力する場合、単語間に待ち時間が生じてしまいスムーズにメッセージを伝達することが難しい。この問題を回避するため本システムでは、正認識結果を得られた場合、ボタン操作だけでなく、次の発話内容を入力することにより正認識を得られたと判断する手段を採る。すなわち、（発話）→（ボタン操作）→（メッセージ出力）→（発話）でなく、（発話）→（発話）→（発話）→（ボタン操作）→（メッセージ出力）のように連続して発話を入力し、メッセージとして出力したい場合にボタン操作を行うことにより一度にまとめてメッセージを出力する機能をもたせる。このことを本明細書では組合せ文伝達と呼ぶ。

以下、本発明のコミュニケーション支援システムについて、さらに詳述する。図２は、本発明に基づき構成したコミュニケーション支援システムの機能構成図である。図２中の撮像手段１は、少なくとも口唇領域を含む顔画像を取得する1台の撮像装置であり、これはカメラでよい。入力手段２は、認識結果をもとにユーザがボタン操作する入力装置である。領域抽出手段３、特徴量計測手段４、発話区間検出手段５、及び判断手段７は、コンピュータPCによって構成可能の機能手段である。データベース６は、コンピュータ記憶装置によって構成可能である。なお、図１に示した登録部は、図２に例示の領域抽出手段３、特徴量計測手段４、発話区間検出手段５に相当し、また、認識部は、領域抽出手段３、特徴量計測手段４、発話区間検出手段５、判断手段７に相当する。さらには、登録部と認識部に共通する領域抽出手段３、特徴量計測手段４、発話区間検出手段５については、共通に用いるものとして、図２には例示したが、登録部と認識部のそれぞれに設けることも可能である。

領域抽出手段３は取得顔画像から口唇領域を抽出する。特徴量計測手段４は抽出された口唇領域より特徴量を計測する。発話区間検出手段５は抽出された口唇領域の変化より発話区間を検出する。データベース６には、計測された発話シーン（検出された発話区間の発話内容）の特徴量を登録する。登録する発話内容は文や単語でよい。判断手段７は計測された特徴量と登録されている発話内容データベースの特徴量を比較し、口唇の発話内容を判断して、登録されている発話内容の一つとして特定する。入力手段２（図１に例示のコントローラに相当）は、認識結果をもとにユーザがボタン操作する入力装置であり、結果表示手段８（図１に例示のディスプレイに相当）は、ユーザに表示する表示装置であり、ディスプレイでよい。メッセージ出力手段９は認識結果をもとに話し相手にメッセージを伝える出力装置であり、スピーカ（ディスプレイなどでも可）でよい。

本発明のシステムは登録モードと認識モードの二つの操作モードをもつ。登録モードはユーザが事前に定型文を登録する場合に利用する。認識モードはユーザが話し相手とコミュニケーションする際に利用する。

登録モードにおいて、ユーザが登録すべき文の発話シーンから、口唇形状変化を登録する。このため、撮像手段１により取得した顔画像から、領域抽出手段３により口唇領域を抽出する。特徴量計測手段４は、抽出された口唇領域より特徴量を計測する。発話区間検出手段５は、抽出された口唇領域の変化より発話区間を検出する。発話区間が検出されると、この検出された発話区間の特徴量の登録の有無をユーザに提示し、ユーザが入力手段を用いて登録の有無を入力する。登録する場合は特徴量をデータベース６に登録する。

認識モードにおいては、ユーザは認識すべき文を発話する。登録モードと同様に、撮像手段１により取得した顔画像から、領域抽出手段３により口唇領域を抽出する。特徴量計測手段４は、抽出された口唇領域より特徴量を計測する。発話区間検出手段５により発話区間が検出されると、計測された特徴量は、判断手段７において、登録モードで登録されたデータベースの特徴量と比較して、認識を行う。結果表示手段８は、判断結果を表示する。ユーザがこの認識結果を正しいと判断する場合、入力手段２を用いてボタンを操作する。その操作に基づき、メッセージ出力手段９によりメッセージが出力され話し相手に伝わる。

次に、図３及び図４を参照して、上述した登録モード及び認識モードについてさらに説明する。図３は、登録モードの処理の流れを示す図である。ステップS1はシステムの待機状態である。ステップS2でユーザは登録する文を発話する。少なくとも口唇領域を含むユーザの顔画像は、ステップS3でカメラより画像として取得する。ステップS4で取得画像から口唇領域を抽出し、ステップS5で特徴量を計測する。ステップS6で口唇領域の変化より発話区間を検出し、ステップS7で発話内容を登録するダイアログを表示する。ステップS8で発話内容を登録したい場合、ステップS9でユーザは発話内容をテキスト情報として入力し、登録ボタンを選択することによりステップS10で発話情報と発話内容の特徴量をデータベースへ登録する。ステップS8で発話内容を登録しない場合、ユーザはステップS11でクリアボタンを選択することにより、ステップS12で発話内容をクリアする。

図４は認識モードの処理の流れを示す図である。ステップS1はシステムの待機状態である。まずステップS2でユーザは認識すべき文を発話する。図３に示す登録モードと同様に、ユーザの顔画像は、ステップS3でカメラより画像として取得され、ステップS4で取得画像から口唇領域を抽出し、ステップS5で発話シーンの入力画像系列から得られる特徴量を計測する。ステップS6で口唇領域の変化より発話区間を検出し、ステップS7で登録発話シーンを参照パターンとして得られた特徴量と比較する認識処理がなされる。ステップS8で認識結果を表示する。ステップS9で認識結果が正しい場合で、またステップS10でユーザは発話を終えてメッセージを話し相手に伝えたい場合、ステップS11で入力装置のボタンを選択することにより、ステップS12でメッセージが出力される。発話を終えずに継続して認識したい場合は、ステップS10のあと、ステップS2に戻り、次の文を発話する。ステップS9で認識結果が間違っている場合、ユーザはステップS13でクリアボタンを選択する、あるいはステップS14で未処理が一定時間経過することにより、ステップS15で認識結果をクリアする。

（口唇領域の抽出）
図５は、構築した顔モデルを例示する図であり、図６は、構築した口唇モデルを例示する図である。撮像手段（カメラ）により取得した顔画像には、目や眉、首など口唇以外の部位が多く写っており、このような画像から直接口唇領域を抽出することは困難である。そこで、本発明では処理を３段階にわけて口唇領域を抽出する。最初にViolaとJones（非特許文献３参照）が提案した顔検出器を適用して画像中から顔領域を抽出する。第１段階の処理では、顔位置を大まかにかつ確実に抽出する。第２段階の処理として、Cootesらが提案したActive appearance model（AAM：非特許文献４参照）を適用し、口唇以外の目、眉、鼻の部位を検出する。AAMは動的輪郭モデルの一種であり、学習サンプルをもとに抽出対象物体の形状と内部の明度分布を同時に低次元で表現する統計モデルとして周知である。画像から学習サンプルに近い物体を抽出する手法であり、顔や臓器など変形を伴う物体を抽出できる利点をもつ。

顔領域を抽出するために、図５に示す顔モデルを構築する。顔モデルの特徴点は、左右の目輪郭に対してそれぞれ8点、左右の眉に対してそれぞれ5点、鼻輪郭に対して11点、合計37点を与える。ここで顔モデルに口唇輪郭と顔輪郭を含めないのは、発話時の口唇の動きにより抽出精度が低下することを防ぐためである。本発明のコミュニケーション支援システムは、実時間処理で利用することを想定している。事前にビデオカメラなどで撮影したビデオファイルに対して抽出処理を適用するのではない。そのためユーザの様々な姿勢に対して抽出できるように、AAMを1回適用するのではなく、AAMを複数回適用し、その中で最も抽出精度が高い結果を採用する。これにより抽出精度を向上させることができる。

第３段階の処理として、口唇領域を抽出するために、図６に示す口唇モデルを構築する。第２段階の処理として先に抽出された顔領域より、口唇領域の位置を与える。図６に示す口唇モデルの特徴点は、例えば、外側唇輪郭に対して16点、内側唇輪郭に対して12点、左右の鼻孔にそれぞれ5点ずつ、合計38点を与える。鼻孔に特徴点を与えるのは、唇輪郭のみのモデルを構築する場合、発話時の口唇の急激な変化に対応することができない問題が生じるためである。鼻孔は発話中に大きな変化がほとんどなく常に安定した抽出が行える。
（特徴量の計測）
AAM（Active appearance model）は、モデルの特徴点を並べたベクトルである形状パラメータ、特徴点を囲む領域内の明度分布ベクトルであるテクスチャパラメータをもとに、両パラメータを組み合わせたappearanceパラメータを用いて物体領域を抽出する。appearanceパラメータは、領域の形状と内部のテクスチャを表現しており、読唇の特徴量としても利用されている。本発明でもappearanceパラメータを認識の特徴量として用いることができる。
（発話区間検出）
AAMの口唇モデルより得られる唇の高さh(f)を求め、h(f)≦Thを満たすフレームfを、口を閉じた閉唇口形と判定する。Thは閉唇判定のためのしきい値である。発話中においても両唇音などにより閉唇口形が観測される。そこで数フレーム連続して閉唇口形が観測された場合に、真に閉唇と判定することができる。
（認識処理）
認識手法にはk-NN（Nearest Neighbor）法を適用する。k-NN法は、特徴量空間における最も近い学習サンプルに基づいた統計分類の手法であり、パターン認識でよく使われる。認識対象データである入力画像系列（発話シーン）から得られる特徴量Xに対して、データベースの全学習サンプル（参照パターン）の特徴量Ynとの距離D(X, Yn)を計算する。次に距離Dが小さいk個を選び出す。つまり、Xの近傍にあるk個の学習サンプルを選び出す。k個の最近傍に最も多く存在するクラス（発話内容）を認識結果とする。このとき、k個の近傍を選び出す距離Dを、DP（Dynamic Programing）マッチングの距離とする。DPマッチングは時系列データの認識によく用いられている手法である。

XをX={x1、x2、…、xI}、ある一つの参照パターンをYn={yn1、yn2、…、ynJ}と表記する。DPマッチングは累積距離g(i、j)の初期値をg(i、0)=0、(i=0、1、…、I)、g(0、j)=∞、(j=1、2、…、J)として漸化式g(i、j)=min{ g(i-1、j)+d(i、j)、 g(i-1、j-1)+2d(i、j)、 g(i、j-1)+d(i、j) }により各格子点(i、j)における累積距離g(i、j)を求める。ただしd(i、j)はユークリッド距離とする。XとYnの距離はd(X、Yn)=g(I、J)/(I+J)で求まる。

（プロトタイプ）
本発明ではコミュニケーション支援システムのプロトタイプを開発した。プロトタイプシステムでは、USBカメラ（Point Grey Research社製USBカメラChameleon）、ノートPC（CPU: Intel Core2 i5-520M、2.40GHz）、無線で把持しやすい形状をもつコントローラ（任天堂Wiiリモコン）を利用した。カメラより取得される画像サイズは640×480画素であるが、抽出処理の高速化を図るため160×120画素に縮小した。また前述のハードウェア構成における処理速度は22.3fpsであり、リアルタイム性を確認した。

システムのメイン画面を図７に示す。図中、(1)は撮影画像と抽出結果を示している。(2)は発話区間検出に用いる唇の高さh(f)の推移図である。(3)は登録された定型文リスト、(4)は認識結果を示している。(5)は操作ボタン群である。

実験は被験者4人（A〜D、全て成人男性、健常者）の協力のもと実施した。表１にAAMのモデルに関するデータを示す。表１中、NfaceとNmouthはそれぞれ顔モデルと口唇モデルの学習サンプル画像枚数である。

学習サンプルはまず経験的に決めた典型的な顔表情や口形を用意した。その後、リアルタイムで抽出処理を適用し、抽出に失敗した顔表情や口形を追加した。様々な表情や口形においても正しく抽出されていることを目視で確認した。また特徴量数は認識に用いる口唇モデルのappearanceパラメータの特徴量数である。被験者に応じて学習サンプルにばらつきがあるが、口唇は11〜14次元で表現されることを示している。
（孤立文の伝達実験）
本実験では定型文として表２に示す電話会話で用いられる日本語50文を選択した。登録モードを利用して各発話内容においてそれぞれ10サンプル登録した。1サンプル50文の登録に要する時間は5〜10分であった。登録作業は、被験者Aは3日間、その他の3人は6日間に分けて実施した。

一人10サンプルずつの登録作業を終えた後に認識実験を実施した。50文の認識実験を1セットと定義し、認識実験は全ての被験者について9〜11セット実施した。実験実施日は被験者により異なるが37日〜53日の長い期間に実施した。但し、実験システムは、発話障害者のコミュニケーション支援システムであることを考慮し、認識実験は特定話者実験とした。認識結果を表３に示す。

表３中、Nframeは被験者毎の50文登録サンプルの平均発話フレーム数、R[%]は平均認識率、Nfは1セットあたりの平均認識失敗回数、tr[秒]は発話区間検出から認識結果が表示されるまでの認識処理時間、tv[秒]は認識結果を表示してから音声メッセージを出力するまでの時間である。被験者による認識精度のばらつきは生じているものの、平均認識率94%と高い精度を得られている。また認識処理時間trは約0.2秒であり、リアルタイムで認識が行えていることを示している。被験者Aは他の被験者に比べ平均認識率Rが低い。これはNframeが少ない、つまり発話時の口唇の動きが早くかつ情報量が少ないために誤認識が生じやすかったと推測する。

図８に登録終了後から認識実験を実施した経過日数に対する被験者毎の認識率推移を示す。実験開始の頃は不慣れなためか認識率の変動が観測されるが、発話登録から5週間以上経過してからも十分な認識率を得られており、実用性の高いシステムであることを確認できる。
（組合せ文の伝達実験）
本実験では定型文として0〜9までの10数字を登録し、4桁の数字をランダムに表示させてその内容を被験者に発話させる実験を実施した。つまりデータベースに登録されていない4桁数字を組合せ文伝達として利用して出力する実験である。被験者は前実験と同じ4人であり、登録サンプル数は10サンプルとした。登録作業は、被験者Aは3日間、その他の3人は6日間に分けて実施した。認識実験は、被験者がボタンを押すと、システムは4桁の数字をランダムに表示する。前実験では1文を入力し終えた後に音声メッセージを出力したが、本実験では、4桁の数字を正しく入力し終えるまでメッセージを出力させず、正しい認識結果が得られた場合は次の数字を入力させた。一人10サンプルずつの登録作業を終えた後に認識実験を実施した。一つの4桁数字の入力を1試行として、全ての被験者に対して50回以上の試行を実施した。実験実施日は被験者により異なるが15日〜50日の期間に実施した。前実験と同様に特定話者実験とした。認識結果を表４に示す。

表４中、Nframeは登録サンプルの平均フレーム数、Nは試行回数、Nfは1回あたりの平均認識失敗回数、tc[秒]は4桁数字を表示されてから、被験者が正しく入力し音声を出力し始めるまでの時間である。平均65回の試行において認識失敗は毎回1回ずつある。これは前実験の電話会話文と異なり、数字は発話フレーム数が少なく、数字発話による口唇の動きの違いが小さいために誤認識が多くなったと推測する。ただし約1回の失敗があるが平均16秒で入力を終えている。

Claims

ユーザの発話した発話内容を、読唇により認識して話し相手に伝達するコミュニケーション支援システムにおいて、
発話内容の口唇の動きを計測するカメラと、
前記口唇の動きに基づき発話内容の特徴量をデータベースに登録する登録部と、
認識結果を表示する表示部、及び認識結果をもとにユーザが操作する入力手段とを有するコントローラと、
事前に登録した発話内容の中から話し相手に伝えたい発話内容を、その口唇の動きに基づきその特徴量をリアルタイムに計測し、この計測された特徴量と前記データベースに登録されている特徴量を比較して、発話内容を判断して認識結果を前記コントローラに出力すると共に、前記コントローラの指示に基づき正しい認識結果を出力する認識部と、
前記認識部より出力された認識結果を出力する出力部と、
から成るコミュニケーション支援システム。
前記登録部は、前記カメラによって取得した取得顔画像から口唇領域を抽出する領域抽出手段、抽出された口唇領域より特徴量を計測する特徴量計測手段、及び抽出された口唇領域の変化より発話区間を検出する発話区間検出手段を有し、前記認識部は、前記領域抽出手段、前記特徴量計測手段、前記発話区間検出手段に加えて、計測された特徴量と登録されている前記データベースの特徴量を比較し、前記発話区間の発話内容を判断してその認識結果を前記コントローラに出力すると共に、前記コントローラの指示に基づき正しいと指示された認識結果をメッセージ出力手段に出力する判断手段を有する請求項１に記載のコミュニケーション支援システム。
前記認識部は、誤認識と判断された認識結果を認識候補リストから取り除くことにより、連続して同じ認識結果に誤認識されることを防ぐ請求項１に記載のコミュニケーション支援システム。
正認識結果を得られた場合、前記コントローラによる操作だけでなく、次の発話内容を入力することにより正認識を得られたと前記認識部が判断する請求項１に記載のコミュニケーション支援システム。
前記コントローラに出力された認識結果の第１の言語と、前記メッセージ出力手段に出力された認識結果の第２の言語は互いに異なる言語であり、かつ、第２の言語は、第１の言語を通訳した関係にある通訳システムとして用いられる請求項１に記載のコミュニケーション支援システム。