JP2011048096A

JP2011048096A - 動作訓練装置、動作訓練システム、動作訓練装置の制御方法及びプログラム

Info

Publication number: JP2011048096A
Application number: JP2009195824A
Authority: JP
Inventors: Hirokazu Akisada; 浩和秋定; Hironori Goto; 裕典後藤
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2009-08-26
Filing date: 2009-08-26
Publication date: 2011-03-10

Abstract

【課題】動作訓練の効率を向上する動作訓練装置を提供する。
【解決手段】訓練者が模範とすべき予め定めた動作の基準画像を用いて、当該動作の訓練を行うための動作訓練装置であって、訓練者を撮影するための撮影手段と、基準画像をディスプレイを介して訓練者に提示する提示手段と、撮影手段で撮影した画像から抽出した訓練者の特徴情報に基づいて、提示手段で提示した基準画像のサイズ及び位置を正規化し、該正規化した画像と撮影画像とを合成する合成手段と、合成手段で合成した画像をディスプレイに表示する表示制御手段とを備える。
【選択図】図２

Description

本発明は、特定の動作の訓練を行うための動作訓練装置、動作訓練システム及び動作訓練装置の制御方法及びプログラムに関する。

特定の動作の訓練を行うための動作訓練装置及び動作訓練システムとして、従来より種々の技術が提案されている。例えば、特許文献１に開示された発話練習システムでは、教師用の音声波形データと聾者や知的障害等の訓練者自身が発声する音声波形データを当該聾者が見るディスプレイに同時に表示することで、当該聾者が両方の波形データを比較しながら発声練習を実行できるようにしている。このシステムによれば、当該聾者のディスプレイに予め記憶されている教師用の映像とカメラが撮影した当該聾者の映像を同時に表示することにより、聾者の発話訓練を行うことができる。一方、非特許文献１に開示された言葉学習支援システムでは、知的障害児の発話訓練において、当該障害児が見るディスプレイに発話の手本となる教師の画像とＷｅｂカメラが撮影した当該障害児の顔のライブ画像を同一画面上に並べて表示し、障害児自身の口の動きを手本と比較して確認可能としている。

特開平１０−１６１５１８号公報

知的障害児の「ことば」の学習支援コンテンツの開発（兵庫県立教育研修所，２００３年）：http://web3.cec.or.jp/jissenjirei/public/jyugyou_tenkai1/CEC01225_1.html

しかしながら、従来のこのような動作訓練装置は、訓練者が模範とすべき基準画像と自分の画像（例えば、顔画像）とを見比べながら訓練を行う必要があった。このため、その訓練者がどのような動作に矯正すべきかを認識することが困難であった。

本発明は、上述の課題に鑑みてなされたものであり、動作訓練の効率を向上する動作訓練装置を提供するものである。

上記課題を解決するため、本発明に係る動作訓練装置は、訓練者が模範とすべき予め定めた動作の基準画像を用いて、当該動作の訓練を行うための動作訓練装置であって、訓練者を撮影するための撮影手段と、前記基準画像をディスプレイを介して訓練者に提示する提示手段と、前記提示手段で提示した基準画像と前記撮影画像とをサイズ及び位置を合わせて合成する合成手段と、前記合成手段で合成した画像を前記ディスプレイに表示する表示制御手段と、を備える。

本発明によれば、動作訓練の効率を向上する動作訓練装置を提供することができる。

本発明の実施例１に係る発話訓練システムの全体構成を示す図。実施例１、２、４に係る発話訓練システムの内部構成を示すブロック図。実施例１に係る発話訓練システムの全体の処理の流れを示す図。実施例１及び３に係る発話訓練システムの画像正規化合成処理の流れを示す図。実施例１乃至３に係る発話訓練システムの画像表示部に表示した情報を示す図。実施例２に係る発話訓練システムの全体の処理の流れを示す図。実施例２に係る発話訓練システムの指導メッセージ生成処理の流れを示す図。実施例２に係る発話訓練システムの訓練者２の画像及び基準口形画像における口のサイズと位置の情報を示す図。実施例３に係る発話訓練システムの全体の処理の流れを示す図。実施例４に係る発話訓練システムの全体の処理の流れを示す図。

以下に、本発明の実施の形態について添付図面を参照して詳細に説明する。なお、以下に説明する実施の形態は、本発明の実現手段としての一例であり、本発明は、その趣旨を逸脱しない範囲で以下の実施形態を修正又は変形したものに適用可能である。

＜実施例１＞
本実施例に係る動作訓練システムは、遠隔地に居る訓練者（聾者）と指導者との間にデジタル双方向回線を設定し、その端末間で映像・音声を介した発話訓練を行うための発話訓練システムを想定して説明する。

［発話訓練システムの全体構成（図１）］
本実施例に係る発話訓練システムは、訓練者２が用いるための訓練者端末１１（第１の情報処理装置）と、訓練者端末１１とネットワーク７１で接続された、指導者６が用いるための指導者端末３１（第２の情報処理装置）とを備える。訓練者端末１１及び指導者端末３１は、本実施例では、地理的に離れた２つの地点１、５に設置されているものとする。地点１は、例えば、訓練者２である聾者の自宅であり、地点５は、例えば、指導者６が駐在する指導センター等の施設である。

訓練者端末１１は、訓練者２である聾者を撮影するためのカメラ等で構成される撮像部１７（第１の撮影手段）と、発話訓練に必要な画像情報や各種の指示を聾者へ表示するためのディスプレイ等で構成される画像表示部１６（以下、表示部１６）と、訓練者２の音声を入力するためのマイク等で構成される音声入力部１４と、通信相手である指導者６の音声データによる指示を発音するためのスピーカ等で構成される音声出力部１５とを有する。

一方の指導者端末３１は、指導者６を撮影するためのカメラ等で構成される撮像部３７（第２の撮影手段、取得手段）と、聾者の発話訓練に必要な各種情報を表示するためのディスプレイ等で構成される画像表示部３６（以下、表示部３６）と、音声を入力するためのマイク等で構成される音声入力部３４と、通信相手である訓練者２の音声データを発音するためのスピーカ等で構成される音声出力部３５とを有する。また、システム全体の制御もこの指導者端末３１の全体制御部３２が管理している。

ここで、本実施例に係る発話訓練システムの全体の処理の概要を説明する。まず、発話訓練の予定時刻等に指導者６がマウス（不図示）等を用いて指導者端末３１の表示部３６に表示された「接続」ボタンを押下する。「接続」ボタンが押下されると、接続要求が訓練者端末１１へと送信され、必要な接続開始処理がなされた後、訓練者端末１１と指導者端末３１との間の映像・音声のコネクションが確立する。

次に、指導者６が表示部３６で発話訓練を行う単語（例えば「いぬ」）を選択すると、その単語のテキストデータが訓練者端末１１へ送信される。訓練者端末１１で受信された単語のテキストデータは、表示部１６に表示される。これにより、訓練者２はまず、発話訓練語が「いぬ」であることを確認することができる。次に、指導者６が表示部１６の「発話練習開始」ボタンを押すと、まず、最初の単語「い」が発話対象文字として設定され、単語「い」の基準口形画像データが基準口形データベースから読み出されて訓練者端末１１へ送信される。訓練者端末１１で受信された基準口形画像データは、表示部１６に表示される。聾者が単語「い」の基準口形画像とテロップ情報を参照しながら、音声入力部１４に向かって「い」の音声を発声する。音声が発生されると、入力された音声データ及び撮像部１７が撮影した訓練者２の顔画像が指導者端末３１へ送信される。

指導者端末３１側では、まず、受信した訓練者２の顔画像データを分析し、聾者の顔の輪郭情報と口の中心位置を算出する。続いて、これらの抽出情報に基づいて、基準画像から抜き出した当該「い」の基本口形画像の表示サイズと表示位置（基準位置）とを正規化し、当該訓練者２の顔画像上に合成を施した後に訓練者端末１１へ送信する。ただし、ここでいう「合成」とは、「重畳」という言葉と同等の意味であるものとする。

訓練者端末１１で受信された当該合成画像は表示部１６に表示される。訓練者２は自分の顔画像上に適切な位置に合成された「い」の発音時の手本となる口形情報を確認し、正しい発音になるように自分の口の開き方を修正することができる。次に、指導者６がマウス等で表示部３６に表示された「次の文字」ボタンを押下すると、発話対象文字として「ぬ」の文字が設定され、上述の手順を繰り返す。更に、次の単語の発話練習を行う場合は、指導者６が画面から単語を選び直した後に上記の手順を繰り返す。このようにして、訓練者２である聾者が様々な単語の発話練習を容易に実行することが可能となる。

［発話訓練システムの内部構成（図２（ａ））］
訓練者端末１１は、制御部１２、コマンド入力部１３、音声入力部１４、音声出力部１５、表示部１６、撮像部１７、通信部１８（画像入力手段）、表示制御部１９（第１の表示制御手段）、及びこれらの各要素を接続するためのバス２１を備える。

まず、コマンド入力部１３は、ボタン等のインターフェイスからなり、訓練者２である聾者の各種指示をバス２１を介して制御部１２へと出力する。音声入力部１４は、訓練者２の音声データを入力し、バス２１を介して制御部１２へ出力するためのものであり、例えば、エレクトリックコンデンサ式のマイクロフォンが用いられる。音声出力部１５は、通信相手である指導者６の音声データや訓練者２に対する音声による指示を出力するためのものであり、例えば、一般的なダイナミック型スピーカが用いられる。

表示部１６は、表示制御部１９が出力する画像データやテキストデータを表示するためのものであり、例えば液晶ディスプレイが用いられる。撮像部１７は、訓練者２である聾者の様子を撮影するためのものであり、例えば、Ｐａｎ、Ｔｉｌｔ、Ｚｏｏｍカメラや、固定式のカメラ等が用いられる。

通信部１８は、訓練者端末１１から出力するデータ及び訓練者端末１１に外部から入力されるデータに対してプロトコルの変換等を行い、ネットワーク７１を経由した指導者端末３１とのデータ通信を可能としている。表示制御部１９は、指導者端末３１から受信した基準口形画像、合成画像及び訓練者の動作を矯正するための指導情報等のデータの表示出力制御を行うためのものである。制御部１２は、ＲＡＭ（不図示）に記憶されている訓練者端末１１用のアプリケーションプログラムに基づいて自ら演算処理等を行い、或いは上述した各構成要素を制御し、訓練者端末１１を機能させる。

指導者端末３１は、全体制御部３２、コマンド入力部３３、音声入力部３４、音声出力部３５、表示部３６、撮像部３７、基準画像データベース、通信部３８、表示制御部３９（第２の表示制御手段）、画像正規化合成部４４（以下、合成部４４）、及びこれらの各要素を接続するためのバス４１を備える。

コマンド入力部３３は、押下ボタン等のインターフェイスからなり、指導者６の各種指示をバス４１を介して全体制御部３２へ出力する。音声入力部３４は、指導者６の音声データを入力し、バス４１を介して制御部１２へ出力するためのものであり、例えば、エレクトリックコンデンサ式のマイクロフォンが用いられる。

音声出力部３５は、通信相手である訓練者２の音声データ等を出力するためのものであり、例えば、一般的なダイナミック型スピーカが用いられる。表示部３６は、表示制御部３９が出力する画像データやテキストデータを出力するためのものであり、例えば液晶ディスプレイが用いられる。

表示制御部３９は、訓練者２に提示するものと同等の情報、すなわち、基準口形画像、合成画像及び指導情報等のデータの表示出力制御を行うためのものである。撮像部３７は、指導者６の様子を撮影するためのものであり、例えば、Ｐａｎ、Ｔｉｌｔ、Ｚｏｏｍカメラや、固定式のカメラ等が用いられる。

通信部３８は、指導者端末３１から出力するデータ及び指導者端末３１に入力するデータに対してプロトコルの変換等を行い、ネットワーク７１を経由した訓練者端末１１とのデータ通信を可能としている。基準画像データベース４２は、日本語の５０音やアルファベット等の各発話音の模範的な口形を撮影した基準口形画像データ（静止画）、及び発話訓練の対象となる単語や語句のリスト（テキストデータ）を記憶するものである。

合成部４４は、訓練者端末１１から受信した訓練者２の顔画像データから抽出した特徴情報に基づいて、模範とすべき基準画像から抽出した口の部分画像の表示サイズと表示位置を正規化して当該撮影画像上に合成するためのものである。

最後に、全体制御部３２は、ＲＡＭ（不図示）に記憶された発話訓練システム制御用のアプリケーションプログラムに基づいて自ら演算処理等を行い、或いは上述の各構成要素を制御し、訓練者端末１１及び指導者端末３１を機能させる。

一方、７１はネットワークを示している。このネットワーク７１は、本実施例では、ＴＣＰ／ＩＰネットワークを用いる。このため、インターネットやＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）等のいずれも用いることが可能である。また、通信プロトコルはＴＣＰ／ＩＰに依存する必要はなく、ＩＰＸ／ＩＳＸやＡｐｐｌｅＴａｌｋと言った同様の機能を果たすプロトコルを用いても良い。回線に関しても、これらのプロトコルを使用できるのであれば、有線や無線等のいかなる回線を用いても構わない。

［発話訓練システムの全体的な処理手順（動作訓練手順）（図３）］
まず、指導者６が指導者端末３１に処理開始の命令を与えると、全体制御部３２が記憶装置（不図示）に格納された発話訓練システムのプログラムをＲＡＭ（不図示）で展開し、画面に必要な情報を表示させた後、所定の処理をスタートさせる。一方、訓練者２が訓練者端末１１に対して処理開始の命令を与えると、制御部１２が記憶装置（不図示）内の訓練者端末１１用のプログラムをＲＡＭ（不図示）で展開し、画面に必要な情報を表示した後、所定の処理をスタートさせる。

次に、指導者６が指導者端末３１のコマンド入力部３３であるマウスを用いて画面の「接続」ボタンを押下すると、全体制御部３２は通信部を介して訓練者端末１１に対して「接続開始要求」を送信する（Ｔ１０１）。訓練者端末１１は、通信部１８を介して当該要求を受信した後に「接続許可」の返信を行う（Ｓ１０１）。この結果、訓練者端末１１及び指導者端末３１の双方で接続開始に必要な処理が実行され、両端末間の映像・音声のコネクションが確立する。

次に、全体制御部３２は、基準画像データベース４２内の単語・語句のリストを画面に表示する。指導者６がコマンド入力部３３のマウスにより、表示された単語・語句の一覧の中から訓練者２に発声させる単語（例えば「いぬ」）を選択する（Ｔ１０２）。選択した単語「いぬ」は、発声対象語としてＲＡＭに格納される。ただし、ここでは画面に表示した単語・語句の一覧の中から発声対象語を選択したが本発明はその限りでなく、キーボード等のデータ入力装置により当該発声対象語を直接入力するように構成してもよい。

次に、全体制御部３２は、ＲＡＭに格納された発声対象語のテキストデータを通信部３８を介して訓練者端末１１へ送信する（Ｔ１０３）。訓練者端末１１において、通信部１８が当該発声対象語のテキストデータを受信すると、表示制御部１９は図５（ａ）の符号５０２のように当該テキストデータを画面５０１に表示する（Ｓ１０２）。

次に、全体制御部３２は、インデックスｉを１で初期化する（Ｔ１０４）。次に、全体制御部３２は、基準画像データベース４２から発声対象語「いぬ」のｉ番目の発話音の基準口形画像データ（静止画）を読み出し、通信部３８を介して訓練者端末１１へ送信する（Ｔ１０５）。その後、表示制御部３９が当該基準口形画像データを表示部３６に表示する。

一方、訓練者端末１１において、通信部１８が当該基準口形画像データを受信した後、表示制御部１９が図５（ａ）の５０３のように当該基準口形画像データを表示部１６に表示する（Ｓ１０３）。このように基準画像である基準口形画像データを訓練者に提示する提示手順を行う。同時に、表示制御部１９は画面のテキストデータの現在の発話音を図５（ａ）の符号５０２のように強調表示するように制御する。

続いて、撮像部１７により訓練者を撮影する撮影手順を行う。そして、訓練者端末１１の制御部１２は、撮像部１７が撮影した訓練者２の撮影画像データ、及び、音声入力部１４から入力された訓練者２の音声データを通信部１８を介して指導者端末３１へ送信する（Ｓ１０４）。

次に、指導者端末３１は通信部３８を介して訓練者２の撮影画像データと音声データのセットを受信し、ＲＡＭに格納する（Ｔ１０６）。続いて、全体制御部３２の命令により合成部４４は、当該訓練者２の撮影画像データと基準口形画像データに基づいて、次のような処理手順（図４（ａ）参照）により画像正規化合成処理を実行する（Ｔ１０７）。この画像正規化合成処理は、基準口形画像データと撮影画像データとをサイズ及び位置を合わせて合成する合成手順である。

まず、合成部４４は、当該撮影画像データをしかるべき顔抽出手法で解析して訓練者２の顎の輪郭情報５０５（図５（ａ）参照）を抽出し、ＲＡＭに格納する（Ｍ１０１）。次に、合成部４４は、ＲＡＭに格納された現在の発話音の基本口形動画像データをしかるべき顔抽出手法で解析して基準口形の顎の輪郭情報５０８（図５（ａ）参照）を同様に抽出し、ＲＡＭに格納する（Ｍ１０２）。ただし、Ｍ１０１及びＭ１０２における顎の輪郭情報の算出手段としては、公知のいかなる顔抽出手法を用いてもよいものとして説明を省略する。

次に、合成部４４は、抽出した両輪郭情報５０５、５０８のサイズ比ｒを算出する（Ｍ１０３）。そして、合成部４４は、当該訓練者２の画像データをしかるべき顔抽出手法で解析して訓練者２の口の中心座標５０６（ｘｃ、ｙｃ）を求め、ＲＡＭに格納する（Ｍ１０４）。ただし、この口の中心座標の算出手段としては、公知のいかなる顔抽出手法を用いてもよいものとし、説明を省略する。

次に、合成部４４は、当該基本口形画像データから口の領域をトリミングし、口の部分画像５１０を作成する。続いて、この口の部分画像５１０を上記顎のサイズ比ｒを用いて適切に拡大あるいは縮小した後、上記中心座標５０６（ｘｃ、ｙｃ）に基づいて口の中心位置を一致させて当該訓練者２の撮影画像上に合成する（図５（ａ）の符号５０７参照）（Ｍ１０５）。基本口形画像データの顎の方が撮影画像データよりも大きい場合は、口の部分画像５１０を縮小し、基本口形画像データの顎の方が撮影画像データよりも小さい場合は、口の部分画像５１０を拡大する。ただし、訓練者自身の口と基本口形との比較がしやすいように、アルファブレンディング等に代表される透過合成アルゴリズムを用いて画像を合成してもよい。合成画像５０４はＲＡＭに格納される。また、逆に、基準口形画像データのサイズに合わせて、撮影画像データを拡大、縮小して、部分画像５１０を合成してもよい。この場合、部分画像５１０の拡大、縮小は不要である。

このような画像正規化合成処理（Ｔ１０７）を実行した後、全体制御部３２は、合成部４４が生成した当該合成画像を通信部３８を介して訓練者端末１１へ送信する（Ｔ１０８）。その後、表示制御部３９が、当該合成画像５０４（図５（ａ）参照）を指導者端末３１の表示部３６に表示する。

一方、訓練者２の訓練者端末１１では、通信部１８が当該合成画像を受信した後、表示制御部１９が当該合成画像を表示部１６に表示する（Ｓ１０５）。この表示は合成画像を表示する表示制御手順である。次に、全体制御部３２は、Ｔ１０６で受信した訓練者２の音声データを音声出力部３５であるスピーカから出力する（Ｔ１０９）。一方、訓練者端末１１においても、制御部１２が、Ｓ１０４で入力された訓練者２自身の音声データを音声出力部１５であるスピーカから出力する（Ｓ１０６）。

なお、上述のＴ１０６〜Ｔ１０９、及びＳ１０３〜Ｓ１０６の処理は高速で実行が繰り返されるものとし、この結果、訓練者端末１１の表示部１６に表示された訓練者の撮影画像上には当該基準静止画データがほぼリアルタイムに表示される（図５（ａ）の５０７参照）。

次に、全体制御部３２は、しかるべき選択メッセージを表示部３６に表示し、指導者６に対して次の文字に進めるか否かの判断を促す（Ｔ１１０）。指導者６がコマンド入力部３３であるマウスにより「はい」を選択した場合はＴ１１１へ進んでインデックスｉを１インクリメントし（Ｔ１１１）、「いいえ」を選択した場合は本ステップの待ち状態を続ける。

次に、制御部１２は、インデックスｉが発声対象語「いぬ」の文字数（＝２）を超えたか否かを判断する。真ならばＴ１１３へ、偽ならばＴ１０５へ処理を進める（Ｔ１１２）。次に、制御部１２は、しかるべき選択メッセージを表示部３６に表示し、指導者６に対して今の発声対象語の発話訓練を繰り返すか否かの判断を促す。指導者６がコマンド入力部３３であるマウスにより「はい」を選択した場合はＴ１０４へ、「いいえ」を選択した場合はＴ１１４へ処理を進める（Ｔ１１３）。

次に、制御部１２は、しかるべき選択メッセージを表示部３６に表示し、指導者６に対して次の単語を選択するか、発話訓練を終了するかの判断を促す。指導者６がコマンド入力部３３であるマウスにより前者を選択した場合はＴ１０２へ、後者を選択した場合はＴ１１５へ処理を進める（Ｔ１１２）。

次に、全体制御部３２は通信部３８を介して訓練者端末１１に対して「接続終了要求」を送信する（Ｔ１１５）。訓練者端末１１は、通信部１８を介して当該要求を受信した後に「切断許可」の返信を行う（Ｓ１０７）。その後、両端末において接続終了に必要な処理が実行され、両端末間の映像・音声のコネクションが切断される。以上が、基準口形画像として静止画データを用いた時の発話訓練実行時の処理の流れである。

以上述べた通り、本実施例によれば、訓練者２は、自分自身の撮影画像上に正規化されて合成された基準動作形状を参照しながら容易に訓練を実行することができるため、動作訓練の効果を向上させることが可能となる。

＜実施例２＞
本実施例の発話訓練システム全体の物理的構成は実施例１と同様である（図１参照）。本実施例の発話訓練システムの内部構成は、実施例１の内部構成に対して、指導者端末３１に指導メッセージ生成部４５が追加されている点が異なる（図２（ｂ）参照）。

指導メッセージ生成部４５は、訓練者端末１１から受信した訓練者の撮影画像データ及び基準画像データベース４２に記憶された基準画像データにおける口の部分領域の差分に応じて、訓練者２向けの指導メッセージを適切に生成してバス４１へと出力するためのものである。

［発話訓練システムの全体的な処理手順（図６）］
本実施例では、実施例１の発話訓練システムのフローチャート（図３）に対して、Ｔ１０８Ｂ、Ｔ１０８Ｃ及びＳ１０５Ｂが追加される点が異なる。以下、この３ステップの処理内容について説明する。

全体制御部３２の命令により、指導メッセージ生成部４５は後述する指導メッセージ生成処理を実行する（Ｔ１０８Ｂ）。続いて、全体制御部３２は、当該生成された指導メッセージデータｇｍｓｇを、通信部１８を介して訓練者端末１１へ送信する（Ｔ１０８Ｃ）。一方、訓練者端末１１の通信部１８が当該指導メッセージデータを受信すると、表示制御部１９は当該メッセージデータを図５（ｂ）の符号１０１１のように表示部１６に表示する（Ｓ１０５Ｂ）。このようにして、訓練者２の撮影画像と基準口形画像との差分に応じて指導メッセージを生成して、当該指導メッセージを訓練者２に提示する。

［指導メッセージ生成部４５の詳細な処理手順（図７）］
まず、指導メッセージ生成部４５は、適切な顔抽出手法により訓練者端末１１から受信した撮影画像データから口の部分画像９０１を抽出した後、当該撮影画像データにおける口のサイズ（Ｈ１，Ｗ１，Ｓ１）と位置（Ｘ１，Ｙ１）を算出し（図８（ａ）参照）、ＲＡＭに格納する（Ｇ１０１）。

次に、指導メッセージ生成部４５は、適切な顔抽出手法により基準口形画像から基準口形の部分画像９１１を抽出した後、基準口形の部分画像９１１のサイズ（Ｈｒｅｆ，Ｗｒｅｆ，Ｓｒｅｆ）と位置（Ｘｒｅｆ，Ｙｒｅｆ）を算出し（図８（ｂ）参照）、ＲＡＭに格納する（Ｇ１０２）。

次に、指導メッセージ生成部４５は、指導メッセージデータ（ｇｍｓｇとする）を空文字列（“”）で初期化する（Ｇ１０３）。次に、指導メッセージ生成部４５は、縦方向の口の開き具合が適切であるか否かの判断を次式を用いて行い、真ならばＧ１０９へ、偽ならばＧ１０５へ進む（Ｇ１０４）。
Ｈｒｅｆ−差分＜Ｈ１＜Ｈｒｅｆ＋差分
次に、指導メッセージ生成部４５は、縦方向の口の開き具合が基準よりも小さいか否かの判断を次式を用いて行う（Ｇ１０５）。
Ｈ１＜Ｈｒｅｆ−差分
Ｇ１０５で真である場合には、ｇｍｓｇに次の文字列を追加する（Ｇ１０６）。
「“（発声対象文字）”は口を縦に開いてください」
ただし、“（発声対象文字）”の部分には発話対象語の“い”や“ぬ”の文字が挿入されるものとする。

次に、指導メッセージ生成部４５は、縦方向の口の開き具合が基準よりも大きいか否かの判断を次式を用いて行う（Ｇ１０７）。
Ｈｒｅｆ＋差分＜Ｈ１
Ｇ１０７で真である場合には、ｇｍｓｇに次の文字列を追加する（Ｇ１０８）。
「“（発声対象文字）”は口を縦に閉じてください」
ただし、“（発声対象文字）”の部分には発話対象語の“い”や“ぬ”の文字が挿入されるものとする。

次に、指導メッセージ生成部４５は、横方向の口の開き具合が適切であるか否かの判断を次式を用いて行う（Ｇ１０９）。
Ｗｒｅｆ−差分＜Ｗ１＜Ｗｒｅｆ＋差分
Ｇ１０９で真である場合にはＧ１１４へ、偽である場合にはＧ１１０へ進む。

次に、指導メッセージ生成部４５は、横方向の口の開き具合が基準よりも小さいか否かの判断を次式を用いて行う（Ｇ１１０）。
Ｗ１＜Ｗｒｅｆ−差分
Ｇ１１０で真である場合には、ｇｍｓｇに次の文字列を追加する（Ｇ１１１）。
「“（発声対象文字）”は口を横に開いてください」
次に、指導メッセージ生成部４５は、横方向の口の開き具合が基準よりも大きいか否かの判断を次式を用いて行う（Ｇ１１２）。
Ｗｒｅｆ＋差分＜Ｗ１
Ｇ１１２で真である場合には、ｇｍｓｇに次の文字列を追加する（Ｇ１１３）。
「“（発声対象文字）”は口を横に閉じてください」
次に、指導メッセージ生成部４５は、歯の間隔が適切であるか否かの判断を次式を用いて行い（Ｇ１１４）、真である場合にはＧ１１５へ進み、偽である場合には指導メッセージ生成処理を終了する。
Ｓｒｅｆ−差分＜Ｓ１＜Ｓｒｅｆ＋差分
次に、指導メッセージ生成部４５は、上歯と下歯との間隔が基準よりも小さいか否かの判断を次式を用いて行う（Ｇ１１５）。
Ｓ１＜Ｓｒｅｆ−差分
Ｇ１１５で真である場合には、ｇｍｓｇに次の文字列を追加する（Ｇ１１６）。
「“（発声対象文字）”は歯を開いてください」
次に、指導メッセージ生成部４５は、歯の間隔が基準よりも大きいか否かの判断を次式を用いて行う（Ｇ１１７）。
Ｓｒｅｆ＋差分＜Ｓ１
Ｇ１１７で真である場合には、ｇｍｓｇに次の文字列を追加し、偽である場合には、指導メッセージ生成処理を終了する（Ｇ１１８）。
「“（発声対象文字）”は歯を閉じてください」
このような指導メッセージ生成処理により、ＲＡＭのｇｍｓｇには訓練者２に提示する指導メッセージデータが格納される。

以上述べた通り、本実施例によれば、訓練者２は自分自身の撮影画像上に合成された基準動作形状の情報に加えて適切な内容の指導メッセージを確認することで、自分の動作の修正方法を容易に確認することができるようになる。

＜実施例３＞
本実施例では、基準口形画像データとして動画像データを利用する発話訓練システムの一態様について説明する。本実施例の発話訓練システムの全体の物理的構成は、実施例１と同様である（図１参照）。

また、本実施例の内部構成は、実施例１と同様であるが（図２参照）、基準画像データベース４２の機能が次のように変更される。基準画像データベース４２は、発話訓練の際に用いる複数の単語や語句のテキストデータ、及びそれらの各々を発話する際の模範的な口の動きを含んだ基準口形動画像データを記憶するためのものである。

［発話訓練システムの全体的な処理手順（図９）］
Ｐ１０１〜Ｐ１０３及びＵ１０１〜Ｕ１０２は、それぞれ、実施例１のフローチャート（図３）におけるＴ１０１〜Ｔ１０３及びＳ１０１〜Ｓ１０２と同等なので説明を省略する。

指導者６の指導者端末３１の全体制御部３２は、訓練者端末１１からの音声入力開始の待ち状態となっている（Ｐ１０４）。ここで、訓練者２が訓練者端末１１の音声入力部１４から音声データの入力を開始すると、制御部１２は通信部１８を介して当該音声データを指導者端末３１へ送信する（Ｕ１０３）。

指導者端末３１の全体制御部３２は、通信部３８を介して当該訓練者２の音声データを受信すると（Ｐ１０４）、基準画像データベース４２内の現在の発話対象語「いぬ」に対応した基準動画像データをＲＡＭにロードし、再生を開始する（Ｐ１０５）。

次に、全体制御部３２は、当該基準動画像データの現在の再生フレームを、通信部３８を介して訓練者端末１１へ送信する（Ｐ１０５）。一方、訓練者端末１１の通信部１８が当該動画再生フレームを受信すると、表示制御部１９が当該再生フレームを図５（ｃ）の１３０３のように表示部１６に表示する（Ｕ１０４）。同時に、表示制御部１９は、現在の動画再生フレームの再生位置を再生進捗バー１３１１に表示する。なお、同時に表示部１６に配置された再生制御ボタン１３１０を用いて、訓練者２自身が当該基準口形動画データの再生・一時停止・終了を制御できるようにしてもよい。

続いて、制御部１２は、撮像部１７が撮影した訓練者２の画像データ、及び音声入力部１４から入力された訓練者２の音声データを通信部１８を介して指導者端末３１へ送信する（Ｕ１０５）。

次に、指導者端末３１は、通信部３８を介して訓練者２の撮影画像データと音声データとのセットを受信し、ＲＡＭへ格納する（Ｐ１０６）。次に、全体制御部３２の命令により合成部４４は、受信した当該撮影画像データと基準口形動画像データに基づいて、図４（ｂ）のフローチャートで示される画像正規化合成処理を実行する（Ｐ１０７）。なお、図４（ｂ）のフローチャートの各ステップの内、Ｎ１０１、Ｎ１０３〜Ｎ１０５は、実施例１の画像正規化合成処理のフローチャート（図４（ａ））のＭ１０１、Ｍ１０３〜Ｍ１０５と夫々処理内容が同じであるので説明を省略する。

ここでは、処理内容が異なるＮ１０２の処理内容について説明する。合成部４４は、ＲＡＭの基本口形動画像データの現在の再生フレームにおける顎の輪郭情報１２０８（図５（ｃ）参照）を抽出し、当該ＲＡＭに格納する（Ｎ１０２）。その後、Ｎ１０３〜Ｎ１０５において、基準口形が正規化されて構成された合成画像が生成され、ＲＡＭに格納される。以上が、実施例３における画像正規化合成処理の流れである。

次に、全体制御部３２は、合成部４４が生成した合成画像５０４を通信部３８を介して訓練者端末１１へ送信する。続いて、表示制御部３９が、当該合成画像５０４を表示部３６に表示する（Ｐ１０８）。一方、訓練者２の訓練者端末１１では、通信部１８が当該合成画像を受信した後、表示制御部１９が当該合成画像を図５（ｃ）の符号１３０４で示すように表示部１６に表示する（Ｕ１０６）。

次に、全体制御部３２は、Ｔ１０７で受信した訓練者２の音声データを音声出力部３５であるスピーカから出力する（Ｐ１０９）。一方、訓練者端末１１でも、制御部１２が、Ｕ１０５で入力された訓練者２自身の音声データを音声出力部１５であるスピーカから出力する（Ｕ１０７）。また、基準動画像データが基準音声データを有する場合、Ｕ１０４でこの基準音声データも含めて訓練者端末１１で受信するようにして、当該訓練者２自身の音声データと合成して出力するようにしてもよい。

続いて、訓練者端末１１の全体制御部３２は、現在の基本口形動画像データの再生フレームを１つ進める（Ｐ１１２）。なお、上述のＰ１０５〜Ｐ１１２及びＵ１０４〜Ｕ１０７の処理は高速で実行が繰り返されるものとし、この結果、訓練者端末１１の表示部１６に表示された訓練者２の撮影画像上には基準動画像データがほぼリアルタイムに重畳合成される（図５（ｃ）の符号１３０７参照）。

次に、訓練者端末１１の全体制御部３２は、現在の基本口形動画像データの再生が最終フレームまで到達したか否かを判断し、真ならば次のステップへ、偽ならばＰ１０５へ進む（Ｐ１１３）。

次に、全体制御部３２は、しかるべき選択メッセージを表示部３６に表示し、訓練者２に対して今の発声対象語の動画像による発話訓練を繰り返すか否かの判断を促す。指導者６がコマンド入力部であるマウスにより「はい」を選択した場合はＰ１０５へ、「いいえ」を選択した場合はＰ１１５へ処理を進める（Ｐ１１４）。

次に、全体制御部３２は、しかるべき選択メッセージを表示部３６に表示し、指導者６に対して次の単語を選択するか発話訓練を終了するかの判断を促す。指導者６がコマンド入力部３３であるマウスにより前者を選択した場合はＰ１０２へ、後者を選択した場合はＰ１１６へ処理を進める（Ｐ１１５）。

続いて、Ｐ１１６及びＵ１０８において、夫々、実施例１のＴ１１５、Ｓ１０７と同様の接続終了処理が実行され、指導者端末３１と訓練者端末１１との間の映像・音声のコネクションが切断され、本発話訓練システムの処理が終了する。以上が、基準口形画像として動画像データを用いた時の発話訓練実行処理の流れである。

以上述べた通り、本実施例によれば、訓練者２は、自分自身の撮影画像上に正規化されて合成された基準口形の動画像を参照しながら容易に訓練を実行することができるため、発話訓練の効果を向上させることが可能となる。

＜実施例４＞
上述の実施例１〜３では、指導者端末３１側に設けた合成部４４（図２（ａ）参照）が訓練者端末１１から受信した訓練者２の撮影画像へ正規化した基準画像を合成した後に訓練者端末１１へ返信したが、本発明はその限りではない。本実施例では、訓練者端末１１側に当該画像正規化合成部２４（図２（ｃ）参照）を設け、訓練者端末１１の撮像部１７が撮影画像を出力した直後に正規化した基準画像を合成し、当該合成画像を表示部１６にリアルタイムに表示するように構成してもよい。

［発話訓練システムの全体的な処理手順（図１０）］
Ｖ１０１〜Ｖ１０５及びＷ１０１〜Ｗ１０３は、それぞれ、実施例１のフローチャート（図３）におけるＴ１０１〜Ｔ１０５及びＳ１０１〜Ｓ１０３と同等なので説明を省略する。

続いて、訓練者２の訓練者端末１１の撮像部１７は、撮影画像をバス２１を介して制御部１２へ出力する。一方、音声入力部１４は、入力された音声データを当該制御部１２へ出力する（Ｗ１０４）。

次に、訓練者端末１１の制御部１２の命令により画像正規化合成部２４は、画像正規化合成処理を実行する（Ｗ１０５）。ただし、この画像正規化合成処理のフローチャートは実施例１と同様であり（図４参照）、かつ、各ステップの処理内容も同等であるため説明を省略する。

まず、制御部１２の命令により表示制御部１９は、画像正規化合成部２４が出力した当該合成画像を表示部１６に図５（ａ）の符号５０７のように出力する（Ｗ１０６）。このように、本実施例４における訓練者端末１１の表示部１６に表示される情報の内容は、実施例１の場合と全く同じであって図５（ａ）で示される。一方、当該制御部１２は、通信部１８を介して当該合成画像を訓練者端末１１へ送信する。

一方、指導者６の指導者端末３１では、通信部３８が当該合成画像を受信した後、表示制御部３９が当該合成画像を表示部３６に表示する（Ｖ１０８）。続いて、訓練者端末１１の制御部１２は、Ｗ１０４で入力された音声データを音声出力部３５から出力する一方、通信部１８を介して指導者端末３１へ送信する（Ｗ１０７）。

一方、指導者６の指導者端末３１では、通信部３８が当該音声データを受信すると、全体制御部３２が当該音声データを音声出力部３５から出力する（Ｖ１０９）。

なお、Ｖ１０８〜Ｖ１０９及びＷ１０３〜Ｗ１０７の処理は高速でその実行が繰り返されるものとし、その結果、表示部１６に表示された訓練者２の撮影画像上には基準口形画像がリアルタイムで重畳合成される（図５の符号５０７参照）。

以降のＶ１１０〜Ｖ１１５、Ｗ１０９の処理は、実施例１の発話訓練システムのフローチャート（図３）におけるＴ１１０〜Ｔ１１５、Ｓ１０７と夫々処理内容が同じであるので説明を省略する。以上が、実施例４の発話訓練システムの処理の流れである。

以上述べた通り、本実施例によれば、訓練者２は、自分自身の撮影画像上にリアルタイムで正規化されて合成された基準口形を確認しながら容易に訓練を実行することができるため、発話訓練の効果を向上させることが可能となる。

＜他の実施例＞
上述の実施例１乃至４では、遠隔地にある訓練者端末１１と指導者端末３１とをネットワークで接続した動作訓練システムについて言及したが、本発明はその限りではない。例えば、両端末が同一地点内にあって近接している構成や１つの端末を訓練者と指導者が共有する構成にも適用することが可能である。更に、訓練者の端末のみが存在し、その中で実行される指導用のプログラムを用いて当該訓練者が単独で動作訓練をする構成にも適用できる。更に、訓練者が音声入力部で入力した音声データ及び基準画像に含まれる音声データ（基準口形動画像データに含まれる音声データ）のスペクトルを合成するスペクトル合成部を更に備え、表示制御部が、スペクトル合成部で合成したスペクトルを少なくとも訓練者２の画像表示部に同時に表示するようにしてもよい。

また、上述の実施例１乃至４では、本発明を聾者の発話訓練に適用した場合の例について述べたが本発明はその限りでなく、例えば、身体障害者の手足等の動きのレッスンにも適用することも可能である。更に、ダンスやバレエのレッスンから各種スポーツ（ゴルフ、テニス、野球等）の練習等、様々なジャンルにおける動作の訓練にも適用できることは言うまでもない。

また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（またはＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である

Claims

訓練者が模範とすべき予め定めた動作の基準画像を用いて、当該動作の訓練を行うための動作訓練装置であって、
訓練者を撮影するための撮影手段と、
前記基準画像をディスプレイを介して訓練者に提示する提示手段と、
前記提示手段で提示した基準画像と前記撮影画像とをサイズ及び位置を合わせて合成する合成手段と、
前記合成手段で合成した画像を前記ディスプレイに表示する表示制御手段と、
を備えることを特徴とする動作訓練装置。
前記訓練者を指導する指導者の前記動作を撮影することにより前記基準画像を取得する取得手段を更に備えることを特徴とする請求項１に記載の動作訓練装置。
前記基準画像を予め記憶する記憶手段を更に備えることを特徴とする請求項１に記載の動作訓練装置。
前記基準画像を外部から入力するための画像入力手段を更に備えることを特徴とする請求項１に記載の動作訓練装置。
前記基準画像における基準位置と、前記撮影画像における前記基準位置に対応する位置との差分を算出する算出手段と、
前記算出手段で算出した差分に基づいて、訓練者の動作を矯正するための指導情報を生成する生成手段と、を更に備え、
前記表示制御手段は、前記生成手段で生成した指導情報を前記ディスプレイに表示することを特徴とする請求項１に記載の動作訓練装置。
訓練者の音声を入力するための音声入力手段を更に備え、
前記表示制御手段は、前記音声入力手段で訓練者の音声が入力された場合に、前記合成手段で合成した画像の表示を開始することを特徴とする請求項１に記載の動作訓練装置。
訓練者の音声を入力するための音声入力手段と、
前記音声入力手段で入力した音声データ及び前記基準画像に含まれる音声データのスペクトルを合成するスペクトル合成手段と、を更に備え、
前記表示制御手段は、前記スペクトル合成手段で合成したスペクトルを前記ディスプレイに表示することを特徴とする請求項１に記載の動作訓練装置。
第１の情報処理装置と、
前記第１の情報処理装置とネットワークで接続された第２の情報処理装置と、を備え、
前記第１の情報処理装置が、
第１の表示制御手段と、
訓練者を撮影するための第１の撮影手段と、
訓練者が模範とすべき予め定めた動作の基準画像をディスプレイを介して訓練者に提示する提示手段と、を備え、
前記第２の情報処理装置が、
第２の表示制御手段と、
前記訓練者を指導する指導者の前記動作を撮影することにより前記提示手段で提示するための基準画像を取得する第２の撮影手段と、
を備えた動作訓練システムであって、
前記第１、第２の情報処理装置のいずれかが、
前記提示手段で提示した基準画像と前記撮影画像とをサイズ及び位置を合わせて合成する合成手段を備え、
前記第１及び第２の表示制御手段が、前記合成手段で合成した画像をそれぞれのディスプレイに表示することを特徴とする動作訓練システム。
訓練者が模範とすべき予め定めた動作の基準画像を用いて、当該動作の訓練を行うための動作訓練装置の制御方法であって、
撮影手段が、訓練者を撮影し、
提示手段が、前記基準画像をディスプレイを介して訓練者に提示し、
合成手段が、前記提示手段で提示した基準画像と前記撮影画像とをサイズ及び位置を合わせて合成し、
表示制御手段が、前記合成手段で合成した画像を前記ディスプレイに表示することを特徴とする制御方法。
コンピュータを、訓練者が模範とすべき予め定めた動作の基準画像を用いて、当該動作の訓練を行うための動作訓練装置として機能させるプログラムであって、
訓練者を撮影する撮影手順と、
前記基準画像をディスプレイを介して訓練者に提示する提示手順と、
前記提示手順で提示した基準画像と前記撮影画像とをサイズ及び位置を合わせて合成する合成手順と、
前記合成手順で合成した画像を前記ディスプレイに表示する表示制御手順と、
を有することを特徴とするプログラム。