JP2017146402A

JP2017146402A - 学習支援装置及びプログラム

Info

Publication number: JP2017146402A
Application number: JP2016026895A
Authority: JP
Inventors: 建彦紀井; Tatsuhiko Kii
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2016-02-16
Filing date: 2016-02-16
Publication date: 2017-08-24

Abstract

【課題】シャドーイング学習をより簡単に且つ効果的に行なう学習支援装置を提供する。【解決手段】模範音声のうち口元の形に特徴が出る“ｍ”の発音に対応した基準画像ｍと、模範音声の再生時間のうち、基準画像ｍの口元の形が出現する位置の各検出時間ｍ１，ｍ２，…とを、予め対応付けて記憶する。そして、撮影部により連続撮影されているユーザの口元の撮影画像Ｘ-n…Ｘ0…Ｘnのうち、基準画像ｍとの類似度Ｙ-n…Ｙ0…Ｙnが閾値Ｙthより高く最大になる撮影画像Ｘmaxが選択され、基準画像ｍの検出時間ｍ１，ｍ２，…と選択された撮影画像Ｘmaxの撮影時間との時間差ｄに基づき、模範音声の再生に対するユーザの発話の速さ遅さが判断される。そして、時間差ｄがシャドーイングの学習に効果的な範囲内（ｄmin＜ｄ≦ｄmax）になるように模範音声の再生速度が制御され調整される。【選択図】図６

Description

本発明は、例えば外国語を発話して学習するための学習支援装置及びその制御プログラムに関する。

近年、外国語を学習するための電子機器やソフトウエアの利用が広まっている。

外国語を学習する手法として、模範となる会話やテキストの音声をユーザ（学習者）が聴きながら後追いして発話するシャドーイングの手法がある。また、発音に伴う口の動きを学習する以下の手法もある。

ユーザの発音に伴う口の動きの動画を撮影し、模範となる話者の口の動きの動画との比較画像を生成して出力する語学学習装置が考えられている（例えば、特許文献１参照。）。

講師のテキストの発声に伴う予め記録されたテキスト・映像・音声の模範例データと、当該テキストの生徒の発声に伴う撮影映像とを再生しながら、前記模範例データに自動的に最適な間合いを挿入して生徒に反復練習させる反復学習装置が考えられている（例えば、特許文献２参照。）。

特開２００６−１６３２６９号公報特開２００６−３３０３９５号公報

シャドーイングによる学習をより簡単に且つ効果的に行わせたい要望がある。

本発明は、このような課題に鑑みなされたもので、シャドーイングの学習をより簡単に且つ効果的に行なうことが可能になる学習支援装置及びその制御プログラムを提供することを目的とする。

本発明に係る学習支援装置は、音声データを再生する音声再生手段と、前記音声再生手段により再生される音声に合わせて発声するユーザの口元を撮影する撮影手段と、前記音声データに含まれる音声の所定の発声に応じた口元の基準画像データと、前記音声再生手段により前記音声データに含まれる前記所定の発声が再生される時間位置とを記憶している基準データ記憶手段と、前記撮影手段により撮影されているユーザの口元の撮影画像から前記所定の音声が発声されたと推定されるユーザの口元の撮影画像を特定し、当該特定した撮影画像の撮影時間と前記基準データ記憶手段に記憶されている所定の発声が再生される時間位置に基づき前記音声データの再生速度を制御する再生制御手段と、を備えたことを特徴とする。

本発明によれば、シャドーイングの学習をより簡単に且つ効果的に行なうことが可能になる。

本発明の実施形態に係る学習支援装置１０の電子回路の構成を示すブロック。前記学習支援装置１０を搭載した電子機器を示す図であり、同図（Ａ）は置き型装置１０Ｒを示す外観図、同図（Ｂ）はタブレット端末１０Ｈを示す外観図。前記学習支援装置１０の会話練習ＤＢ２２ｂに記憶されたシャドーイング学習用の会話練習データ２２ｂ１を示す図。前記学習支援装置１０のシャドーイングによる発話練習の学習コンテンツにおいて、基準画像ｍ（３３ａ）の検出時間ｍ１（３３ａｔ）に基づき、音声データ３２の再生時間ｔに対しユーザが発話しているタイミングのずれ（時間差）ｄを判断する具体例を示す概念図。前記音声データ３２の再生時間ｔに対しユーザが発話しているタイミングのずれｄを判断する過程での再生音声（３２）と基準画像ｍ，ｆ（３３ａ，３３ｂ）と検出時間ｍｎ，ｆｎ（３３ａｔ，３３ｂｔ）と撮影画像（２６ｂ）との関係を示す図。前記学習支援装置１０のシャドーイング学習処理（１）を示すフローチャート。前記学習支援装置１０の会話練習ＤＢ２２ｂに記憶された第２実施形態のシャドーイング学習用の会話練習データ２２ｂ１´を示す図。前記学習支援装置１０のシャドーイング学習処理（２）を示すフローチャート。前記シャドーイング学習処理（２）での［撮影・登録処理］（ステップＳ２ａ）に際してユーザに対し基準画像の撮影・登録を促すためのガイド画面Ｇ１と、［シャドーイング開始処理］（ステップＳ３）以降のユーザに対して予め記憶された模範の口元の模範画像（３４）とユーザの口元を撮影した撮影画像（２６ｂ）とを並べて確認させるためのシャドーイング確認画面Ｇ２とを示す図。

以下図面により本発明の実施の形態について説明する。

図１は、本発明の実施形態に係る学習支援装置１０の電子回路の構成を示すブロックである。

図２は、前記学習支援装置１０を搭載した電子機器を示す図であり、同図（Ａ）は置き型装置１０Ｒを示す外観図、同図（Ｂ）はタブレット端末１０Ｈを示す外観図である。

図２（Ａ）に示すように、置き型装置１０Ｒの場合、例えばユーザが親しみ易いようにロボットをイメージさせる頭部と胴体部とで構成され、頭部の正面にタッチパネル付き表示部１１と撮影部（カメラ）１４が設けられ、胴体部に音声入力部（マイク）１２と音声出力部（スピーカ）１３が設けられる。

図２（Ｂ）に示すように、タブレット端末１０Ｈの場合、端末本体の正面にタッチパネル付き表示部１１、音声入力部（マイク）１２、音声出力部（スピーカ）１３、撮影部（カメラ）１４が設けられる。

前記学習支援装置１０は、各種の記録媒体に記録されたプログラムを読み込んで、その読み込んだプログラムによって動作が制御されるコンピュータによって構成され、その電子回路には、制御装置（ＣＰＵ）２１が備えられる。

前記ＣＰＵ２１は、記憶装置２２内に記憶された装置制御プログラム２２ａを、ＲＡＭ２６を作業用メモリとして実行し、回路各部の動作を制御する。なお、装置制御プログラム２２ａは、ＲＯＭカードなどの外部記録媒体２３から記録媒体読み取り部２４を介して前記記憶装置２２に読み込ませたり、あるいはインターネット上のＷｅｂサーバ（この場合はプログラムサーバ）から通信部２５を介して前記記憶装置２２に読み込ませたりしてもよい。

前記記憶装置２２に記憶された装置制御プログラム２２ａは、キー入力部２７、タッチパネル付き表示部１１からのユーザ操作に応じた入力信号、あるいは音声入力部１２により入力された音声入力信号、あるいは撮影部１４により撮影された画像信号、あるいは記録媒体読み取り部２４による外部記録媒体２３の装着信号、あるいは通信部２５を介して接続されるインターネット上の各Ｗｅｂサーバ…（図示せず）との通信信号に応じて起動される。

このように、前記ＣＰＵ２１には、前記タッチパネル付き表示部１１、音声入力部１２、音声出力部１３、撮影部１４、前記記憶装置２２、記録媒体読み取り部２４、通信部２５、ＲＡＭ２６、キー入力部２７が接続される。

前記記憶装置２２に記憶される装置制御プログラム２２ａとしては、装置全体の動作を司るシステムプログラム、通信部２５を介して図示しないインターネット上の各Ｗｅｂサーバ…やＰＣ等の外部機器とデータ通信するための通信プログラム等が記憶される。また、前記装置制御プログラム２２ａとして、外国語の学習を、典型的な挨拶、場面に応じた会話、シャドーイングによる発話の練習等の各種の学習コンテンツにより、ユーザに行なわせるための会話練習用プログラムも記憶される。

そして、前記記憶装置２２には、会話練習ＤＢ（データベース）２２ｂ、スケジュールデータ２２ｃなどが記憶される。

なお、前記会話練習用プログラムは、各種学習コンテンツのメニューからユーザ操作に応じて選択された学習コンテンツの処理を開始する通常の学習開始機能に加えて、ユーザのスケジュールや、当日のニュースに応じて、学習コンテンツを自動的に選択し、ユーザが学習に違和感なく入れるようなメッセージを音声出力して学習の開始を働きかける機能、更には、装置本体に人が近付いたことを撮影部１４による撮影画像に基づき認識し、前記同様に学習コンテンツを自動的に選択して学習の開始を働きかける機能を有する。

図３は、前記学習支援装置１０の会話練習ＤＢ２２ｂに記憶されたシャドーイング学習用の会話練習データ２２ｂ１を示す図である。

この会話練習データ２２ｂ１には、例えば英会話練習用のテキストデータ３１と、当該テキストデータ３１のテキストを読み上げた模範の音声データ３２が含まれる。更に、前記模範の音声データ３２に含まれるテキストの発音のうち、基準とする発音、つまり口元の形に特徴が出るスペル（ここでは“ｍ”と“ｆ”）の発音に対応した口元の形の各基準画像データｍ３３ａ，ｆ３３ｂと、前記音声データ３２の再生時間のうち、前記各基準画像データｍ３３ａ，ｆ３３ｂの口元の形が出現する位置に対応したｍの検出時間データ（ｍ１，ｍ２，…）３３ａｔ，ｆの検出時間データ（ｆ１，ｆ２，…）３３ｂｔが記憶される。

前記ＲＡＭ２６には、表示データメモリ２６ａ、撮影画像データメモリ２６ｂなどが確保される。

前記表示データメモリ（表示バッファ）２６ａには、前記タッチパネル付き表示部１１に表示させる表示データがビットマップパターンに展開されて記憶される。

前記撮影画像データメモリ２６ｂには、前記撮影部１４により撮影された画像データが記憶される。

前記会話練習用プログラムに含まれる各種の学習コンテンツのうち、シャドーイングによる発話練習の学習コンテンツは、発話しているユーザの口元の画像を連続撮影し、この撮影画像の中から前記基準画像データｍ３３ａやｆ３３ｂと一致する（類似度高い）撮影画像を判断し、当該撮影画像が撮影された時間と前記ｍの検出時間データ（ｍ１，ｍ２，…）３３ａｔやｆの検出時間データ（ｆ１，ｆ２，…）３３ｂｔとの前後時間差を判断する。そして、前記音声データ３２の再生速度がユーザの発話速度よりどの程度速いか遅いかを判断し、速すぎる場合には再生速度を遅く、遅すぎる場合には再生速度を速く制御することで、当該音声データ３２の再生速度をシャドーイングに効果的な速度に調整する機能を有する。

ここで、前記シャドーイングでは、前記音声データ３２の再生（速度）に対してユーザが０．５sec程度遅れて発話して行くのが効果的とされているので、本実施形態では、ユーザの発話が１sec（＝ｄmax）を超えて遅れる場合（再生速度が速すぎる場合に相当）は、学習効果が低いと判断し再生速度を遅く制御する。一方、人間（ユーザ）の反応速度を考慮すると、前記音声データ３２の再生（速度）に対してユーザが０．１sec以内の遅れで発話して行くのは難しため、本実施形態では、ユーザの発話が０．１sec（＝ｄmin）以内の遅れであるか、あるいは再生（速度）と同じかそれより速い場合（再生速度が遅すぎる場合に相当）は、再生音声（音声データ３２）を暗記してしまっている可能性が高いと判断し再生速度を速く制御する。

図４は、前記学習支援装置１０のシャドーイングによる発話練習の学習コンテンツにおいて、基準画像ｍ（３３ａ）の検出時間ｍ１（３３ａｔ）に基づき、音声データ３２の再生時間ｔに対しユーザが発話しているタイミングのずれ（時間差）ｄを判断する具体例を示す概念図である。

図５は、前記音声データ３２の再生時間ｔに対しユーザが発話しているタイミングのずれｄを判断する過程での再生音声（３２）と基準画像ｍ，ｆ（３３ａ，３３ｂ）と検出時間ｍｎ，ｆｎ（３３ａｔ，３３ｂｔ）と撮影画像（２６ｂ）との関係を示す図である。

本実施形態では、音声データ３２の再生を開始するのに伴い、ユーザがシャドーイングの発話を開始した後に、前記基準画像ｍ（３３ａ）の検出時間ｍ１，ｍ２，…（３３ａｔ）やｆ（３３ｂ）の検出時間ｆ１，ｆ２，…（３３ｂｔ）が、所定時間Ｔsec（例えば１．５sec）前に近付くと、ユーザの口元の連続撮影（フレームレート２４fps）を開始し同所定時間Ｔsec後まで行なう。

ここでは、図４に示すように、前記基準画像ｍ（３３ａ）の検出時間ｍ１（３３ａｔ）に基づきユーザの発話のタイミングのずれｄを判断する具体例として説明する。

前記所定時間Ｔsec×２（＝３sec）の間に連続撮影された各撮影画像Ｘ-n…Ｘ0…Ｘnの中から、前記基準画像ｍ（３３ａ）との類似度が最大（Ｙmax）の撮影画像Ｘmaxを選択する。前記選択した撮影画像Ｘmaxの検出時間（撮影時間）ｔｍ１と前記基準画像ｍの検出時間ｍ１との時間差ｄで、前記音声データ３２の再生速度がユーザの発話速度よりどの程度速いか遅いかを判断する。

このように構成された学習支援装置１０は、前記ＣＰＵ２１が前記装置制御プログラム２２ａ（前記会話練習用プログラムを含む）に記述された命令に従い回路各部の動作を制御し、ソフトウエアとハードウエアとが協働して動作することにより、以下の動作説明で述べる機能を実現する。

次に、前記構成による学習支援装置１０の動作について説明する。

（第１実施形態）
図６は、前記学習支援装置１０のシャドーイング学習処理（１）を示すフローチャートである。

ＣＰＵ２１の制御により、撮影部１４により撮影されている撮影画像（２６ｂ）に基づいて、装置本体に人（ユーザ）が近付いたことが認識されると、記憶装置２２に記憶されているユーザのスケジュールや、通信部２５を介してＷｅｂ上から取得される当日のニュースに応じて、会話練習ＤＢ２２ｂに予め記憶されているユーザを会話学習に導くための音声メッセージ（例えば「It is beginning to rain.…？（天気が悪くなりそう。出かけるの？）」）が選択され、選択された音声メッセージが音声出力部１３から出力される。

ここで、前記会話練習用プログラムに含まれる各学習コンテンツのメニューが表示部１１に表示され、表示されたメニューからシャドーイングの学習コンテンツが自動的に、あるいはユーザ操作に応じて選択されると（ステップＳ１）、選択されたシャドーイングの学習コンテンツが学習対象に設定される（ステップＳ２）。

すると、前記シャドーイングの学習コンテンツの実行が開始され、前記ユーザに対して顔を撮影部１４に向けるよう促す音声メッセージが前記音声出力部１３から出力される（ステップＳ３）。

前記撮影部１４により撮影されている撮影画像（２６ｂ）において、前記ユーザの顔と口の位置が認識されると、前記会話練習ＤＢ２２ｂに記憶されているシャドーイング学習用会話練習データ２２ｂ１（図３参照）のテキストデータ３１が表示部１１に表示され、また、模範の音声データ３２の再生が開始される（ステップＳ４）。

すると、前記テキストデータ３１の表示及び音声データ３２の再生開始に合わせて、ユーザがシャドーイングの学習を開始する。

この後、前記図４，図５で示したように、前記基準画像データｍ３３ａの検出時間ｍ１（３３ａｔ）（又は基準画像データｆ３３ｂの検出時間ｆ１（３３ｂｔ））の所定時間Ｔsec（＝１．５sec）前に設定した基準画像“ｍ”（又は“ｆ”）を検出するためのタイミングになったと判断されると（ステップＳ５（Ｙｅｓ））、そのタイミングから前記検出時間ｍ１（３３ａｔ）（又は検出時間ｆ１（３３ｂｔ））後の所定時間Ｔsecまでの間（２Ｔsec＝３sec）、前記撮影部１４により撮影されているユーザの口元の撮影画像Ｘ-n…Ｘ0…Ｘnが取得され撮影画像データメモリ２６ｂに記憶される（ステップＳ６）。

そして、前記取得されたユーザの口元の撮影画像Ｘ-n…Ｘ0…Ｘnのそれぞれについて、前記基準画像データｍ３３ａ（又は基準画像データｆ３３ｂ）との類似度Ｙ-n…Ｙ0…Ｙnが算出される（ステップＳ７）。

ここで、前記撮影画像Ｘ-n…Ｘ0…Ｘnそれぞれの類似度Ｙ-n…Ｙ0…Ｙnのうち、予め設定された閾値Ｙthを超える類似度があると判断されると（ステップＳ８（Ｙｅｓ））、当該閾値Ｙthを超えた類似度のうち最大類似度Ｙmaxの撮影画像Ｘmax（前記テキストデータ３１の“ｍ”（又は“ｆ”）のスペルを発音した口元の画像）が選択される（ステップＳ９）。つまり、最大類似度Ｙmaxが得られた撮影画像Ｘmaxが特定されると、その撮影画像Ｘmaxが撮影されたときに基準となる発音がされたものと推定されるのである。

すると、前記選択された撮影画像Ｘmaxの検出時間（撮影時間）ｔｍ１と前記基準画像ｍ（又はｆ）の検出時間ｍ１（またはｆ１）との時間差ｄが、前記予め設定されたシャドーイングに効果的な発話遅れの範囲内（ｄmin＜ｄ≦ｄmax）か否かが判断される（ステップＳ１０）。

ここで、前記時間差ｄが予め設定された発話遅れの範囲内（ｄmin＜ｄ≦ｄmax）であると判断された場合は（ステップＳ１０（Ｙｅｓ））、前記ステップＳ４からの処理に戻り、前記音声データ３２の再生が継続される。

一方、前記時間差ｄが予め設定された発話遅れの範囲内（ｄmin＜ｄ≦ｄmax）にないと判断された場合は（ステップＳ１０（Ｎｏ））、前記音声データ３２の再生速度が速すぎるのか（ｄmax＜ｄ）、又は遅すぎるのか（ｄ≦ｄmin）が判断される（ステップＳ１１，Ｓ１２）。

そして、前記音声データ３２の再生速度が速すぎる（ｄmax＜ｄ）と判断された場合は（ステップＳ１１（Ｙｅｓ））、当該音声データ３２の再生を一時停止するか再生速度を遅らせて、前記時間差ｄが前記予め設定された発話遅れの範囲内（ｄmin＜ｄ≦ｄmax）になるよう制御する（ステップＳ１１ａ）。

また、前記音声データ３２の再生速度が遅すぎる（ｄ≦ｄmin）と判断された場合は（ステップＳ１２（Ｙｅｓ））、当該音声データ３２の再生を一時飛ばす（スキップする）か再生速度を速くして、前記時間差ｄが前記予め設定された発話遅れの範囲内（ｄmin＜ｄ≦ｄmax）になるよう制御する（ステップＳ１２ａ）。

この後、前記音声データ３２の再生が終了したか否かが判断され（ステップＳ１３）、終了していないと判断された場合は（ステップＳ１３（Ｎｏ））、前記ステップＳ４からの処理に戻り、当該音声データ３２の再生が継続される。また、前記音声データ３２の再生が終了したと判断された場合は（ステップＳ１３（Ｙｅｓ））、前記一連のシャドーイング学習処理（１）が終了される（Ｅｎｄ）。

したがって、前記構成の第１実施形態の学習支援装置１０によれば、会話練習データ２２ｂ１（図３参照）の音声データ３２を再生しながらユーザが後追いで発話して行くシャドーイングの学習において、前記音声データ３２の音声のうち、口元の形に特徴が出る“ｍ”と“ｆ”の発音に対応した口元の形の各基準画像データｍ３３ａ，ｆ３３ｂと、前記音声データ３２の再生時間のうち、前記各基準画像データｍ３３ａ，ｆ３３ｂの口元の形が出現する位置の各検出時間データ（ｍ１，ｍ２，…）３３ａｔ，（ｆ１，ｆ２，…）３３ｂｔとを、予め対応付けて記憶する。そして、撮影部１４により連続撮影されているユーザの口元の撮影画像Ｘ-n…Ｘ0…Ｘnのうち、前記基準画像データｍ３３ａ，ｆ３３ｂとの類似度Ｙ-n…Ｙ0…Ｙnが閾値Ｙthより高い撮影画像Ｘmaxが選択され、前記基準画像データｍ３３ａ，ｆ３３ｂの検出時間データ（ｍ１，ｍ２，…）３３ａｔ，（ｆ１，ｆ２，…）３３ｂｔと前記選択された撮影画像Ｘmaxの撮影時間との時間差ｄに基づき、前記音声データ３２の再生に対する前記ユーザの発話の速さ遅さが判断される。そして、前記時間差ｄが前記シャドーイングの学習に効果的な範囲内（ｄmin＜ｄ≦ｄmax）にない場合は、前記音声データ３２の再生速度が制御され、前記時間差ｄが前記範囲内（ｄmin＜ｄ≦ｄmax）になるように調整される。

これにより、ユーザに対して前記音声データ３２の再生によるシャドーイングの学習が常に効果的に行われるように、当該音声データ３２の再生速度を自動的に制御し調整することができる。よって、シャドーイングの学習をより簡単に且つ効果的に行なうことが可能になる。

（第２実施形態）
図７は、前記学習支援装置１０の会話練習ＤＢ２２ｂに記憶された第２実施形態のシャドーイング学習用の会話練習データ２２ｂ１´を示す図である。

この第２実施形態の会話練習データ２２ｂ１´には、前記第１実施形態の会話練習データ２２ｂ１（図３参照）として記憶されているテキストデータ３１と模範の音声データ３２に加えて、当該音声データ３２を発声した講師等の模範の話者の口元の画像を撮影した模範画像データ（動画）３４が記憶される。

また、前記第１実施形態の会話練習データ２２ｂ１（図３参照）として記憶されている“ｍ”の基準画像データ３３ａと“ｆ”の基準画像データ３３ｂに代えて、ユーザ自身に“ｍ”の発音の口の形をさせて撮影した登録画像データｍ３３ａ´と、“ｆ”の発音の口の形をさせて撮影した登録画像データｆ３３ｂ´とを記憶させる。

図８は、前記学習支援装置１０のシャドーイング学習処理（２）を示すフローチャートである。

このシャドーイング学習処理（２）は、前記第１実施形態のシャドーイング学習処理（１）における［学習対象設定処理］（ステップＳ２）と［シャドーイング開始処理］（ステップＳ３）との間に、前記登録画像データｍ３３ａ´と前記登録画像データｆ３３ｂ´とを基準画像として撮影して登録するための［撮影・登録処理］（ステップＳ２ａ）を追加して構成する。

なお、前記シャドーイング学習処理（２）におけるステップＳ４以降の処理は、前記シャドーイング学習処理（１）での処理と同様に、前記登録画像データｍ３３ａ´（又はｆ３３ｂ´）の検出時間データ３３ａｔ（又は２２ｂｔ）と、当該登録画像データｍ３３ａ´（又はｆ３３ｂ´）との最大類似度Ｙmaxの撮影画像Ｘmaxに対応する撮影時間との時間差ｄに基づき、前記音声データ３２の再生に対する前記ユーザの発話の速さ遅さが判断される。そして、前記時間差ｄが前記シャドーイングの学習に効果的な範囲内（ｄmin＜ｄ≦ｄmax）になるように、前記音声データ３２の再生速度が制御され調整される。

図９は、前記シャドーイング学習処理（２）での［撮影・登録処理］（ステップＳ２ａ）に際してユーザに対し基準画像の撮影・登録を促すためのガイド画面Ｇ１と、［シャドーイング開始処理］（ステップＳ３）以降のユーザに対して予め記憶された模範の口元の模範画像（３４）とユーザの口元を撮影した撮影画像（２６ｂ）とを並べて確認させるためのシャドーイング確認画面Ｇ２とを示す図である。

すなわち、前記シャドーイング学習処理（２）の［撮影・登録処理］（ステップＳ２ａ）では、図９（Ａ）に示すようなガイド画面Ｇ１を表示部１１に表示させて、ユーザに対し基準画像の撮影・登録を促すためのメッセージ「“if”と発音してください。」と“ｆ”の発音に対応する模範の口元画像ｇ0とを示すことで、前記登録画像データｆ３３ｂ´を容易に且つ正しく撮影して登録できる。なお、前記登録画像データｍ３３ａ´の撮影・登録を促すためのガイド画面Ｇ１には、例えばメッセージ「“him”と発音してください。」と“ｍ”の発音に対応する模範の口元画像ｇ0とが示される。

また、前記シャドーイング学習処理（２）によるシャドーイングの実行中（ステップＳ３〜Ｓ１３）には、図９（Ｂ）に示すようなシャドーイング確認画面Ｇ２によって、前記テキストデータ３１と音声データ３２の再生に対応した模範の口元の模範画像（３４）とユーザ自身の口元の撮影画像（２６ｂ）とを並べて確認できる。これにより、模範の音声データ３２の再生に対するユーザのシャドーイングによる発話の練習を更に効果的に行なうことができる。

また、前記シャドーイングの実行中にユーザの口元を撮影した各撮影画像Ｘ-n…Ｘ0…Ｘnの中から基準となる口元の画像を検出するための登録画像データｍ３３ａ´及び登録画像データｆ３３ｂ´は、前記［撮影・登録処理］（ステップＳ２ａ）に従い撮影・登録されたユーザ自身の口元の画像になる。これにより、前記ユーザの口元を撮影した各撮影画像Ｘ-n…Ｘ0…Ｘnの中から基準となる口元の画像をより正確に検出できる。

なお、前記各実施形態では、模範の音声データ３２の再生時間上で、ユーザが発話している位置を検出するための口元の形の基準画像（３３ａ，３３ｂ）や登録画像（３３ａ´，３３ｂ´）として、“ｍ”“ｆ”等のテキストデータ３１に含まれる特定のスペルの発音に対応した画像を用いたが、これに限らず、“The”“have”等の前記テキストデータ３１に頻出する単語の発音に対応した画像（動画）を用いてもよい。

前記各実施形態において記載した学習支援装置１０による各処理の手法、すなわち、図６のフローチャートに示すシャドーイング学習処理（１）、図８のフローチャートに示すシャドーイング学習処理（２）等の各手法は、何れもコンピュータに実行させることができるプログラムとして、メモリカード（ＲＯＭカード、ＲＡＭカード等）、磁気ディスク（フロッピー（登録商標）ディスク、ハードディスク等）、光ディスク（ＣＤ−ＲＯＭ、ＤＶＤ等）、半導体メモリ等の外部記録装置の媒体（２３）に格納して配布することができる。そして、表示部、音声出力部、撮影部を備えた電子機器のコンピュータ（２１）は、この外部記録装置の媒体（２３）に記憶されたプログラムを記憶装置（２２）に読み込み、この読み込んだプログラムによって動作が制御されることにより、前記各実施形態において説明したシャドーイング学習機能を実現し、前述した手法による同様の処理を実行することができる。また、このようなプログラムをタッチパネル式のＰＤＡ(personal digital assistants)、ＰＣ(personal computer)、携帯電話、電子ブック、携帯ゲーム機等に読み込ませて、前記学習支援装置１０と同じ機能を持たせることもできる。

また、前記各手法を実現するためのプログラムのデータは、プログラムコードの形態として通信ネットワーク上を伝送させることができ、この通信ネットワークに接続されたコンピュータ装置（プログラムサーバ）から前記プログラムのデータを、表示部、音声出力部、撮影部を備えた電子機器に取り込んで記憶装置（２２）に記憶させ、前述したシャドーイング学習機能を実現することもできる。

本願発明は、前記各実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。さらに、前記各実施形態には種々の段階の発明が含まれており、開示される複数の構成要件における適宜な組み合わせにより種々の発明が抽出され得る。例えば、各実施形態に示される全構成要件から幾つかの構成要件が削除されたり、幾つかの構成要件が異なる形態にして組み合わされても、発明が解決しようとする課題の欄で述べた課題が解決でき、発明の効果の欄で述べられている効果が得られる場合には、この構成要件が削除されたり組み合わされた構成が発明として抽出され得るものである。

以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。

［１］
音声データを再生する音声再生手段と、
前記音声再生手段により再生される音声に合わせて発声するユーザの口元を撮影する撮影手段と、
前記音声データに含まれる音声の所定の発声に応じた口元の基準画像データと、前記音声再生手段により前記音声データに含まれる前記所定の発声が再生される時間位置とを記憶している基準データ記憶手段と、
前記撮影手段により撮影されているユーザの口元の撮影画像から前記所定の音声が発声されたと推定されるユーザの口元の撮影画像を特定し、当該特定した撮影画像の撮影時間と前記基準データ記憶手段に記憶されている所定の発声が再生される時間位置に基づき前記音声データの再生速度を制御する再生制御手段と、
を備えたことを特徴とする学習支援装置。

［２］
前記再生制御手段は、前記撮影手段により撮影されているユーザの口元の撮影画像を対象に前記基準データ記憶手段により記憶されている基準画像データとの類似度を算出する類似度算出手段を有し、前記類似度算出手段により算出された類似度に基づいて、前記所定の音声が発声されたと推定されるユーザの口元の撮影画像を特定し、当該撮影画像の撮影時間と前記所定の発声が再生される時間位置との時間差に基づき前記音声データの再生速度を制御する、
ことを特徴とする［１］に記載の学習支援装置。

［３］
前記基準データ記憶手段は、ユーザに所定の発声をさせた際の当該ユーザの口元の撮影画像を基準画像データとして登録する基準画像登録手段を有する、
ことを特徴とする［１］又は［２］に記載の学習支援装置。

［４］
前記音声再生手段による音声の再生に合わせて当該音声を発声する口元の模範画像を表示させる模範画像表示手段と、
前記模範画像表示手段により表示される模範画像と並べて、前記撮影手段により撮影されるユーザの口元の撮影画像を表示させる撮影画像表示手段と、
を備えたことを特徴とする［１］乃至［３］の何れかに記載の学習支援装置。

［５］
電子機器のコンピュータを、
音声データを再生する音声再生手段と、
前記音声再生手段により再生される音声に合わせて発声するユーザの口元を撮影する撮影手段と、
前記音声データに含まれる音声の所定の発声に応じた口元の基準画像データと、前記音声再生手段により前記音声データに含まれる前記所定の発声が再生される時間位置とを記憶する基準データ記憶手段と、
前記撮影手段により撮影されているユーザの口元の撮影画像から前記所定の音声が発声されたと推定されるユーザの口元の撮影画像を特定し、当該特定した撮影画像の撮影時間と前記基準データ記憶手段に記憶されている所定の発声が再生される時間位置に基づき前記音声データの再生速度を制御する再生制御手段、
として機能させるためのコンピュータ読み込み可能なプログラム。

１０ …学習支援装置
１０Ｒ…置き型装置（学習支援装置）
１０Ｈ…タブレット端末（学習支援装置）
１１ …タッチパネル付き表示部
１２ …音声入力部（マイク）
１３ …音声出力部（スピーカ）
１４ …撮影部（カメラ）
２１ …ＣＰＵ
２２ …記憶装置
２２ａ…装置制御プログラム
２２ｂ…会話練習データベース
２２ｂ１…シャドーイング学習用の会話練習データ
２２ｃ…スケジュールデータ
２６ｂ…撮影画像データメモリ
３１ …テキストデータ
３２ …音声データ
３３ａ…基準画像データｍ
３３ａ´…登録画像データｍ
３３ａｔ…ｍの検出時間データ（ｍ１，ｍ２，…）
３３ｂ…基準画像データｆ
３３ｂ´…登録画像データｆ
３３ｂｔ…ｆの検出時間データ（ｆ１，ｆ２，…）
３４ …模範画像データ
Ｇ１ …基準画像撮影・登録ガイド画面
Ｇ２ …シャドーイング確認画面

Claims

音声データを再生する音声再生手段と、
前記音声再生手段により再生される音声に合わせて発声するユーザの口元を撮影する撮影手段と、
前記音声データに含まれる音声の所定の発声に応じた口元の基準画像データと、前記音声再生手段により前記音声データに含まれる前記所定の発声が再生される時間位置とを記憶している基準データ記憶手段と、
前記撮影手段により撮影されているユーザの口元の撮影画像から前記所定の音声が発声されたと推定されるユーザの口元の撮影画像を特定し、当該特定した撮影画像の撮影時間と前記基準データ記憶手段に記憶されている所定の発声が再生される時間位置に基づき前記音声データの再生速度を制御する再生制御手段と、
を備えたことを特徴とする学習支援装置。
前記再生制御手段は、前記撮影手段により撮影されているユーザの口元の撮影画像を対象に前記基準データ記憶手段により記憶されている基準画像データとの類似度を算出する類似度算出手段を有し、前記類似度算出手段により算出された類似度に基づいて、前記所定の音声が発声されたと推定されるユーザの口元の撮影画像を特定し、当該撮影画像の撮影時間と前記所定の発声が再生される時間位置との時間差に基づき前記音声データの再生速度を制御する、
ことを特徴とする請求項１に記載の学習支援装置。
前記基準データ記憶手段は、ユーザに所定の発声をさせた際の当該ユーザの口元の撮影画像を基準画像データとして登録する基準画像登録手段を有する、
ことを特徴とする請求項１又は請求項２に記載の学習支援装置。
前記音声再生手段による音声の再生に合わせて当該音声を発声する口元の模範画像を表示させる模範画像表示手段と、
前記模範画像表示手段により表示される模範画像と並べて、前記撮影手段により撮影されるユーザの口元の撮影画像を表示させる撮影画像表示手段と、
を備えたことを特徴とする請求項１乃至請求項３の何れか１項に記載の学習支援装置。
電子機器のコンピュータを、
音声データを再生する音声再生手段と、
前記音声再生手段により再生される音声に合わせて発声するユーザの口元を撮影する撮影手段と、
前記音声データに含まれる音声の所定の発声に応じた口元の基準画像データと、前記音声再生手段により前記音声データに含まれる前記所定の発声が再生される時間位置とを記憶する基準データ記憶手段と、
前記撮影手段により撮影されているユーザの口元の撮影画像から前記所定の音声が発声されたと推定されるユーザの口元の撮影画像を特定し、当該特定した撮影画像の撮影時間と前記基準データ記憶手段に記憶されている所定の発声が再生される時間位置に基づき前記音声データの再生速度を制御する再生制御手段、
として機能させるためのコンピュータ読み込み可能なプログラム。