JP2006162760A

JP2006162760A - 語学学習装置

Info

Publication number: JP2006162760A
Application number: JP2004351206A
Authority: JP
Inventors: Sukeyuki Shibuya; 資之渋谷
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2004-12-03
Filing date: 2004-12-03
Publication date: 2006-06-22

Abstract

【課題】模範音声とユーザ音声の発声時の唇や舌の動きの差異を示すこと。
【解決手段】本発明は、模範音声データおよび模範動画データを複数記憶する第１の記憶手段と、１の模範音声データおよび１の模範動画データを選択する選択手段と、選択された模範音声データを再生する再生手段と、ユーザ音声データを生成する音声取得手段と、音声データから抽出される特徴量と対応付けられた画像データを複数記憶する第２の記憶手段と、ユーザ音声データから特徴量を抽出する特徴量抽出手段と、特徴量抽出手段により抽出された特徴量に最も近似する特徴量と対応付けられた画像データを抽出する画像抽出手段と、抽出した画像を時系列に並べて動画データを生成するユーザ動画生成手段と、模範動画データとユーザ動画データとを合成する合成手段と、合成手段により合成された動画データを再生する動画再生手段とを有する語学学習装置を提供する。
【選択図】図２

Description

本発明は、語学学習を支援する語学学習装置に関し、特に、話者の口の形や舌の位置を示す画像を表示する機能を有する語学学習装置に関する。

外国語あるいは母国語の語学学習、特に、発音あるいは発話の独習においては、ＣＤ（Compact Disk）等の記録媒体に記録された模範音声を再生し、その模範音声の真似をして発音あるいは発話するという学習方法が広く用いられている。これは模範音声の真似をすることで正しい発音を身につけることを目的とするものである。特に外国語の学習においては、母国語には無い発音を習得しなければならない場合もある。例えば、英語の「th」の発音は日本語には無いものである。このような母国語に無い発音を習得することは難しく、たとえネイティブスピーカーが「th」と発音した音声を聞いても、初めて英語を学習する日本人はその発音を真似しようにも発音方法がまったく分からないという問題がある。

この問題を解決するためには、発音（発声）時の唇や舌の動きを図解すればよい（例えば、特許文献１、２参照）。特許文献１には、語学学習において、先生（模範音声の話者）のアニメーションを表示する技術が開示されている。また、特許文献２には、正しい発音時の唇の形や舌の位置の画像と、学習者の音声から推測した唇の形や舌の位置の画像推測画像を表示する技術が開示されている。
特開２００１−１５９８６５号公報特開平６−３４８２９７号公報

特許文献１、２に記載の技術は、模範音声発声時の口の形を、音韻単位の静止画で表示するものであった。ところが、実際には、例えば英語の「ｒ」の発音では１つの音韻に対する発音においても舌を動かす必要がある。しかし、このような場合に舌をどのように動かせばよいかは、静止画から学ぶことはできないという問題があった。また、唇や舌の動きはその音韻に後続する音韻の影響も受ける。例えば、「ｔｈｉｒｄ」と「ｔｈａｎｋ」では同じ「ｔｈ」の発音でも後続する音韻によって舌の動きは異なるものとなる。しかし、このような場合の唇および舌の動きは、静止画からは学ぶことができないという問題があった。さらに、模範音声発声時の唇や舌の動きと、学習者の唇や舌の動きの差異が分かりづらく、効率的に学習を進めることができないという問題もあった。

本発明は上述の事情に鑑みてなされたものであり、模範音声発声時の唇や舌の動きを動画で示すことにより、より効率的に学習を進めることができる語学学習装置を提供することを目的とする。さらに、模範音声発声時の唇や舌の動きと学習者の唇や舌の動きとの差異を容易に特定することができる語学学習装置を提供することを目的とする。

上述の課題を解決するため、本発明は、模範音声データと模範音声を発声したときの話者の唇の形および舌の位置の少なくとも一方の変化を示す模範動画データとを複数記憶する第１の記憶手段と、前記第１の記憶手段から１の模範音声データおよび１の模範動画データを選択する選択手段と、前記選択手段により選択された模範音声データを再生する再生手段と、ユーザの音声からユーザ音声データを生成する音声取得手段と、話者の唇の形および舌の位置の少なくとも一方を示し、音声データから抽出される特徴量と対応付けられた画像データを複数記憶する第２の記憶手段と、前記ユーザ音声データから特徴量を抽出する特徴量抽出手段と、前記特徴量抽出手段により抽出された特徴量に最も近似する特徴量と対応付けられた画像データを前記第２の記憶手段から抽出する画像抽出手段と、前記画像抽出手段により抽出した画像を時系列に並べて動画データを生成するユーザ動画生成手段と、前記選択手段により選択された模範動画データと前記ユーザ動画生成手段により生成されたユーザ動画データとを合成する合成手段と、前記合成手段により合成された動画データを再生する動画再生手段とを有する語学学習装置を提供する。

好ましい態様において、この語学学習装置は、前記ユーザ音声データと前記模範音声データとの差異点を抽出する差異点抽出手段と、前記差異点抽出手段により抽出された差異があらかじめ決められた値より大きい場合に、その旨を示すデータを生成するデータ生成手段と、前記データ生成手段により生成されたデータにより指定されるタイミングで、ユーザの触覚を刺激する触覚刺激手段とをさらに有する。

本発明によれば、模範音声を発声するときの唇の形および舌の位置を示す画像と、ユーザがそれを真似て発声したときの唇の形および舌の位置を示す画像とが重ねて表示されるので、ユーザは正しい発音をするためには自分の唇や舌をどのように動かせばよいのかを的確に把握することができる。

以下、図面を参照して本発明の実施形態について説明する。
＜第１実施形態＞
図１は、本発明の第１実施形態に係る語学学習装置１００のハードウェア構成を示すブロック図である。ＣＰＵ（Central Processing Unit）１０１は、ＲＡＭ（Random Access Memory）１０２を作業エリアとして、ＲＯＭ（Read Only Memory）１０３あるいはＨＤＤ（Hard Disk Drive）１０４に記憶されているプログラムを読み出して実行する。ＨＤＤ１０４は、各種アプリケーションプログラムやデータを記憶する記憶装置である。本実施形態に関して、特に、ＨＤＤ１０４は、語学学習プログラムを記憶している（後述）。

ディスプレイ１０５は、ＣＲＴ（Cathode Ray Tube）やＬＣＤ（Liquid Crystal Display）等、ＣＰＵ１０１の制御下で文字や画像を表示する表示装置である。画像処理回路１２１は、所定のフォーマットの動画データを受け取ると、その動画データに従って動画を表示させる制御信号をディスプレイ１０５に出力する。マイク１０６は、ユーザの音声を取得するための集音装置であり、ユーザの発した音声に対応する音声信号を出力する。音声処理部１０７は、マイク１０６により出力されたアナログ音声信号をデジタル音声データに変換する機能や、ＨＤＤ１０４に記憶された音声データを音声信号に変換してスピーカ１０８に出力する機能を有する。また、ユーザはキーボード１０９を操作することにより、語学学習装置１００に対して指示入力を行うことができる。各構成要素は、バス１１０を介して相互に接続されている。

図２は、本実施形態に係る語学学習装置１００の機能構成を示すブロック図である。データ記憶部１１１は、語学学習における例文のテキストデータである例文テキストデータ、単語毎の模範音声を示す模範音声データ、および模範音声を発声したときの唇および舌の動きを示す模範動画データを記憶している。データ記憶部１１１は、図１に示されるハードウェア構成におけるＨＤＤ１０４に相当する。模範音声選択部１１２は、ユーザの指示入力あるいは語学学習プログラムに従ってデータ記憶部１１１から１の例文テキストデータ、およびそれに対応する模範音声データおよび模範動画データを選択する。表示部１１３は、模範音声選択部１１２により選択された模範音声の動画を再生し表示する。音声出力部１１４は、模範音声選択部１１２により選択された模範音声を再生し、音声として出力する。以上の機能構成要素により模範音声の音声データおよび動画データが再生される。

音声取得部１１５は、ユーザの音声からユーザ音声データを生成し、出力する。ユーザ動画生成部１１６は、ユーザ音声データおよびデータ記憶部１１１の記憶内容に基づきユーザが発した音声に対応する唇および舌の動きを示すユーザ動画データを生成する。混合データ生成部１１７は、模範音声選択部１１２により選択された模範動画データと、ユーザ動画生成部１１６により生成されたユーザ動画データとを重ね合わせた混合動画データを生成する。表示部１１３は、混合データ生成部１１７により生成された混合動画データを表示する。なお、語学学習装置１００の動作については以下で詳細に説明する。

続いて、本実施形態における語学学習装置１００の動作について説明する。
ユーザがキーボード１０９を操作する等の方法により語学学習プログラムの実行を指示すると、ＣＰＵ１０１は、ＨＤＤ１０４から語学学習プログラムを読み出して実行する。語学学習プログラムを実行することにより、語学学習装置１００は図２に示す機能を具備する。

図３は、本実施形態に係る語学学習装置１００の動作を示すフローチャートである。語学学習プログラムを実行すると、ディスプレイ１０５上に、例文の選択を促すメッセージが表示される。ユーザはディスプレイ１０５上に表示されたメッセージに従い、例文を選択する（ステップＳ１０１）。ＣＰＵ１０１は選択された例文に基づいて例文の動画データを生成する（ステップＳ１０２）。具体的には次のとおりである。

ＨＤＤ１０４は、例文のテキストデータを記録した例文テキストデータベースＤＢ１と、単語毎に、その単語の発音時の唇の動きおよび舌の動きを示す模範動画データを記録した模範動画データベースＤＢ２とを記憶している。図４は、模範動画データベースＤＢ２に記録された動画の内容を例示する図である。本実施形態において、模範音声は、動画データ中の音声トラックとして模範動画データに内包されているが、ＨＤＤ１０４が動画データと音声データとをそれぞれ別個のデータとして記憶してもよい。その場合、動画データおよび音声データは、お互いの対応関係を示すデータを有する。なお、模範動画データは単語毎ではなく、文（センテンス）毎、音節毎等、異なる単位で区分されたものであってもよい。また、音素（発音記号単位）毎に模範動画データを記憶しておき、これらを時系列に並べて動画像を生成してもよい。

ＣＰＵ１０１は、選択された例文に対応する例文テキストデータを例文テキストデータベースＤＢ１から抽出する。ＣＰＵ１０１は、抽出した例文テキストデータをスペースやカンマ、ピリオド等の区切り記号に従って単語に分解する。ＣＰＵ１０１は、模範動画データベースＤＢ２から、分解した単語の各々に対応する動画データを検索する。ＣＰＵ１０１は、検索で発見した動画データを例文中に登場する順番に結合する。なお、動画データを結合する際に、結合部において前後の動画が滑らかに結合されるように補間処理を行ってもよい。このようにして、例文に対応する模範動画データが生成される。本実施形態においては、音声データは音声トラックとして動画データに内包されているので、模範動画データが生成されると同時に模範音声データが生成されることとなる。以上の処理は図２に示される機能ブロック図における模範音声選択部１１２の機能に相当する。

次に、ＣＰＵ１０１は、生成した模範動画データを画像処理回路１２１に出力する。この処理は図２に示される機能ブロック図における表示部１１３の機能に相当する。画像処理回路１２１は、模範動画データに従ってディスプレイ１０５に制御信号を出力する。こうして、ディスプレイ１０５上に動画が再生される（ステップＳ１０３）。また、ＣＰＵ１０１は、模範動画データから音声トラックに記録された模範音声データを抽出し、音声処理部１０７に出力する。音声処理部１０７は受け取った模範音声データをデジタル／アナログ変換して例文の模範音声信号を生成する。音声処理部１０７は、生成した模範音声信号をスピーカ１０８に出力する。こうしてスピーカ１０８から模範音声が出力される（ステップＳ１０３）。この処理は図２に示される機能ブロック図における音声出力部１１４の機能に相当する。

スピーカ１０８から出力された模範音声を聞き、ディスプレイ１０５に表示された唇および舌の動きを見たユーザは、それを真似してマイク１０６に向かって例文を発声する。マイク１０６は、ユーザの発した音声を電気信号に変換し、ユーザ音声信号として出力する（ステップＳ１０４）。この処理は図２に示される機能ブロック図における音声取得部１１５の機能に相当する。

次に、ユーザ動画生成部１１６は、ユーザ音声信号に基づいて音声解析を行う（ステップＳ１０５）。これは例えば以下のように行われる。ＣＰＵ１０１は、まずユーザ音声の波形を一定の時間（フレーム）ごとに分割する。ＣＰＵ１０１は、フレーム毎に、ユーザ音声の波形をフーリエ変換して得られた振幅スペクトルの対数を求め、それをフーリエ逆変換してスペクトル包絡を得る。ＣＰＵ１０１はこうして得られたスペクトル包絡から、ユーザ音声の特徴量として例えば低周波数側から第１〜第３フォルマントの３つのフォルマントのフォルマント周波数を算出する。

次に、ユーザ動画生成部１１６は、ユーザが例文を発声した時の唇および舌の動きを示すユーザ動画データの生成を行う（ステップＳ１０６）。これは例えば以下のように行われる。ＨＤＤ１０４は、例えば単語毎に、フォルマント（例えば低周波数側から第１〜第３フォルマントの３つのフォルマント）の周波数を示すデータを複数記録したフォルマントデータベースＤＢ３を記憶している。ＣＰＵ１０１は、フォルマントデータベースＤＢ３内のデータと、先ほどユーザ音声から求められたフォルマント周波数とのマッチングを行う。ＣＰＵ１０１は、マッチングにより１のフォルマントデータを抽出する。

ＨＤＤ１０４はさらに、発音時の唇の形および舌の位置を示す画像を複数記録した発音画像データベースＤＢ４を記憶している。図５は、発音画像データベースＤＢ４に記録された画像の内容を示す図である。発音画像データベースＤＢ４中の画像の各々はフォルマントデータベースＤＢ３中の１のフォルマントデータと対応付けられている。ＣＰＵ１０１は、マッチングにより抽出した１のフォルマントデータに対応する発音画像を抽出する。ＣＰＵ１０１は、このようにして抽出した発音画像を時系列に並べることによりユーザが例文を発声（発音）したときの唇および舌の動きを示すユーザ動画を生成する。

次に、混合データ生成部１１７は、模範動画とユーザ動画とを重ね合わせた合成動画を生成する（ステップＳ１０７）。これは例えば以下のように行われる。ＣＰＵ１０１は、動画を構成する画像１フレームごとに、模範動画データとユーザ動画データとを合成する。その際、唇および舌以外の部分のデータは透明を示すデータとして扱う。したがって、唇および舌の画像がそれぞれ２枚重ねられた画像を示す合成動画データが生成される。ＣＰＵ１０１は生成した合成動画データを画像処理回路１２１に出力する。

画像処理回路１２１は、合成動画データに基づいてディスプレイ１０５に対し制御信号を出力する。これにより、ディスプレイ１０５上に模範動画とユーザ動画とを合成した動画が表示される（ステップＳ１０８）。図６は、ディスプレイ１０５上に表示される合成動画を例示する図である。
以上の合成動画を表示する処理は、ユーザが例文を発声するのに伴ってリアルタイムで行ってもよいし、ユーザが例文を全て発声し終わった後で行ってもよい。

＜第２実施形態＞
続いて、本発明の第２実施形態について説明する。
図７は、本実施形態に係る語学学習装置２００のハードウェア構成を示すブロック図である。語学学習装置２００は、第１実施形態における語学学習装置１００に、ユーザの触覚を刺激するバイブレータ２０１を付加した構成となっている。バイブレータ２０１は、ヘッドホン、リストバンド等ユーザが身に着けるものに設置すればよい。なお、図７において第１実施形態の語学学習装置１００と同一の構成要素には同一の参照番号を付しており、その説明を省略する。

図８は、本実施形態に係る語学学習装置２００の機能構成を示すブロック図である。語学学習装置２００は、第１実施形態における語学学習装置１００と共通する構成要素を有する。これらの構成要素については、語学学習装置１００の構成要素と共通する参照符号を付しており、その説明は省略する。音声比較部２１１は、模範音声選択部１１２により選択された模範音声と、音声取得部１１５により取得されたユーザ音声とを比較し、差異点を抽出する。触覚刺激部２１２は、模範音声を再度再生する際に、音声比較部２１１によって抽出された差異点に基づいてユーザの触覚を刺激する機能を有する。これらの機能の詳細は後述する。

以下、語学学習装置２００の動作について説明する。第１実施形態と同様に、ユーザがキーボード１０９を操作する等の方法により語学学習プログラムの実行を指示すると、ＣＰＵ１０１は、ＨＤＤ１０４から語学学習プログラムを読み出して実行する。語学学習プログラムを実行することにより、語学学習装置１００は図８に示す機能を具備する。
図９は、本実施形態に係る語学学習装置２００の動作を示すフローチャートである。
まず、第１実施形態において説明したステップＳ１０１〜Ｓ１０５の処理が行われる。ここで、ステップＳ１０３において模範動画が再生された後、ＣＰＵ１０１は、模範動画の再生回数を示す変数の値を１に設定し、ＲＡＭ１０２に記憶する。ステップＳ１０５の処理に続いて、音声比較部２１１は、模範音声とユーザ音声との比較を行い、差異点を抽出する（ステップＳ２０１）。これは例えば以下のように行われる。ＣＰＵ１０１は、模範音声データ（模範動画データの音声トラック）に対し、ユーザ音声と同様の音声解析処理を行う。すなわち、ＣＰＵ１０１は、まず模範音声の波形をフレーム毎に分割する。次に、ＣＰＵ１０１は、フレーム毎に、フーリエ変換して得られた振幅スペクトルの対数を求め、それをフーリエ逆変換してスペクトル包絡を得る。ＣＰＵ１０１はこうして得られたスペクトル包絡から、例えば低周波数側から第１〜第３フォルマントの３つのフォルマントのフォルマント周波数を算出する。

ＣＰＵ１０１は、模範音声のフォルマント周波数とユーザ音声のフォルマント周波数とを比較し、その差があらかじめ決められたしきい値を超えていた場合は、模範音声とユーザ音声とに差異があったことを示すデータ（フラグＦ）を付加する。また、ＣＰＵ１０１は、その模範音声に対して、再度の再生が必要である箇所を示すフラグを記録したデータＤを生成する。ＣＰＵ１０１は、選択された例文の最初から最後まですべてのフレームについてこの処理を実行する。選択された例文について模範音声とユーザ音声との差異が検出されない場合は、ＣＰＵ１０１は、その模範音声に対して、再度の再生は必要ないことを示すフラグを記録したフラグＦを生成する。

続いてＣＰＵ１０１は、フラグＦに基づいて、模範音声について再度の再生が必要であるか否か判断する（ステップＳ２０２）。再度の再生が必要でないと判断された場合（Ｓ２０２：ＮＯ）は、処理を終了する。再度の再生が必要であると判断された場合（Ｓ２０２：ＹＥＳ）は、模範音声の再生を行う。ＣＰＵ１０１は、模範音声の再生回数を示す変数の値を１増加させる。再生に際し、データＤが示す、模範音声と差異があった箇所には、模範音声の再生と同時にバイブレータの駆動を行う（ステップＳ２０３）。すなわち、ＣＰＵ１０１は、データＤが示す、模範音声と差異があった箇所でバイブレータ２０１に駆動信号を出力する。バイブレータ２０１は駆動信号により振動し、ユーザの触覚を刺激する。ＣＰＵ１０１はフレーム毎にこの処理を行う。これによりユーザは、自分の発音が模範音声と異なっていた箇所については再度の再生時にバイブレータ２０１が振動することにより、その発音が異なっていた箇所を具体的に特定することができる。その際、第１実施形態で説明したように、ステップＳ１０５〜Ｓ１０８の処理も行われ、模範音声発声時の唇および舌の動きと、ユーザの唇および舌の動きとが重ねて表示されるので、ユーザは自分の発音方法をどのように改善すればよいかを視覚的に把握することができる。

＜変形例＞
本発明は上述の実施形態に限定されるものではなく、種々の変形実施が可能である。
上述の実施形態においては、フレーム単位で音声データの処理を行う態様について説明したが、音声データの処理単位はこれに限定されるものではない。文（センテンス）毎、音節毎、音素（発音記号単位）毎等、様々な単位が考えられる。例えば音素単位の動画または静止画をＨＤＤ１０４に用意し、音声解析において音素単位に音声を分割し、対応する動画または静止画を抽出することにより音素毎に模範画像とユーザ画像とを重ね合わせ、これらを時系列に並べることにより合成動画を生成してもよい。
また、上記実施形態においては音声の特徴量としてフォルマントを抽出する態様について説明したが、特徴量はこれに限定されるものではない。スペクトログラムの抽出等、音声の特徴量を抽出できる手法であれば何でもよい。
模範音声および模範動画の再生の際に、その再生速度を可変とする構成としてもよい。すなわち、ＣＰＵ１０１は、ユーザの指示入力に応じて再生速度を指定する変数の値を変更し、ＲＡＭ１０２に記憶する。ＣＰＵ１０１はこの変数の値に応じて模範動画の再生速度を制御する。

動画データは、ビットマップグラフィックス（ラスタグラフィックス）あるいはベクタグラフィックスのいずれの方式で記述されたものであってもよい。
また、模範動画１コマあたりの時間（秒数）と、音声分析におけるフレームの長さとは、一方が他方の整数倍の関係にあることが好ましく、さらに同一であることが最も好ましい。これらが同一でない場合は、生成される動画データが模範動画データと同じコマ数となるようにする必要がある。例えば音声分析におけるフレームの長さが模範動画１コマあたりの時間の３倍であった場合、同じ画像を３コマ連続して配置する。あるいは、動画がより滑らかに動くように補間処理を行ってもよい。

第２実施形態においては、音声データに基づいて模範音声とユーザ音声とに差異があるか否かを判断したが、画像データ（動画データ）に基づいて模範音声とユーザ音声とに差異があるか否か判断する構成としてもよい。すなわち、ＣＰＵ１０１は、模範動画データとユーザ動画データとを比較し、舌の位置、舌の動き（軌跡）、唇の形等の差が、あらかじめ決められたしきい値以上あった場合は模範音声とユーザ音声との差異があると判断する。

また、上述の実施形態においては、ＣＰＵ１０１が語学学習プログラムを実行することにより図２あるいは図８に示される機能を具備する態様について説明したが、語学学習装置１００、２００が図２あるいは図８に示される機能構成要素に相当する回路を有し、その回路が上述の処理を行う構成としてもよい。

また、上述の実施形態においては、唇および舌の動画（画像）がある特定の角度から見た断面図である態様について説明したが、それぞれ異なる角度から見た唇の形あるいは舌の位置を表した動画を複数用意しておき、ユーザの指示入力により選択された１の角度から見た動画を表示する構成としてもよい。あるいは、動画データとして２次元の画像データではなく３次元の画像データを用いてもよい。

また、上述の実施形態においては、動画データは話者の唇の形および舌の位置の双方を示すものであったが、これらのうちいずれか一方のみを示すデータであってもよい。

本発明の第１実施形態に係る語学学習装置１００のハードウェア構成を示すブロック図である。同実施形態に係る語学学習装置１００の機能構成を示すブロック図である。同実施形態に係る語学学習装置１００の動作を示すフローチャートである。模範動画データベースＤＢ２に記録された動画の内容を例示する図である。発音画像データベースＤＢ４に記録された画像の内容を示す図である。合成動画を例示する図である。本発明の第２実施形態に係る語学学習装置２００のハードウェア構成を示すブロック図である。同実施形態に係る語学学習装置２００の機能構成を示すブロック図である。同実施形態に係る語学学習装置２００の動作を示すフローチャートである。

符号の説明

１００…語学学習装置、１０１…ＣＰＵ、１０２…ＲＡＭ、１０４…ＨＤＤ、１０５…ディスプレイ、１０６…マイク、１０７…音声処理部、１０８…スピーカ、１０９…キーボード、１１０…バス、１１１…データ記憶部、１１２…模範音声選択部、１１３…表示部、１１４…音声出力部、１１５…音声取得部、１１６…ユーザ動画生成部、１１７…混合データ生成部、１２１…画像処理回路、２００…語学学習装置、２０１…バイブレータ、２１１…音声比較部、２１２…触覚刺激部

Claims

模範音声データと模範音声を発声したときの話者の唇の形および舌の位置の少なくとも一方の変化を示す模範動画データとを複数記憶する第１の記憶手段と、
前記第１の記憶手段から１の模範音声データおよび１の模範動画データを選択する選択手段と、
前記選択手段により選択された模範音声データを再生する再生手段と、
ユーザの音声からユーザ音声データを生成する音声取得手段と、
話者の唇の形および舌の位置の少なくとも一方を示し、音声データから抽出される特徴量と対応付けられた画像データを複数記憶する第２の記憶手段と、
前記ユーザ音声データから特徴量を抽出する特徴量抽出手段と、
前記特徴量抽出手段により抽出された特徴量に最も近似する特徴量と対応付けられた画像データを前記第２の記憶手段から抽出する画像抽出手段と、
前記画像抽出手段により抽出した画像を時系列に並べて動画データを生成するユーザ動画生成手段と、
前記選択手段により選択された模範動画データと前記ユーザ動画生成手段により生成されたユーザ動画データとを合成する合成手段と、
前記合成手段により合成された動画データを再生する動画再生手段と
を有する語学学習装置。
前記ユーザ音声データと前記模範音声データとの差異点を抽出する差異点抽出手段と、
前記差異点抽出手段により抽出された差異があらかじめ決められた値より大きい場合に、その旨を示すデータを生成するデータ生成手段と、
前記データ生成手段により生成されたデータにより指定されるタイミングで、ユーザの触覚を刺激する触覚刺激手段と
をさらに有する請求項１に記載の語学学習装置。