JP2006162760A - 語学学習装置 - Google Patents
語学学習装置 Download PDFInfo
- Publication number
- JP2006162760A JP2006162760A JP2004351206A JP2004351206A JP2006162760A JP 2006162760 A JP2006162760 A JP 2006162760A JP 2004351206 A JP2004351206 A JP 2004351206A JP 2004351206 A JP2004351206 A JP 2004351206A JP 2006162760 A JP2006162760 A JP 2006162760A
- Authority
- JP
- Japan
- Prior art keywords
- data
- model
- voice
- user
- moving image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】 模範音声とユーザ音声の発声時の唇や舌の動きの差異を示すこと。
【解決手段】 本発明は、模範音声データおよび模範動画データを複数記憶する第1の記憶手段と、1の模範音声データおよび1の模範動画データを選択する選択手段と、選択された模範音声データを再生する再生手段と、ユーザ音声データを生成する音声取得手段と、音声データから抽出される特徴量と対応付けられた画像データを複数記憶する第2の記憶手段と、ユーザ音声データから特徴量を抽出する特徴量抽出手段と、特徴量抽出手段により抽出された特徴量に最も近似する特徴量と対応付けられた画像データを抽出する画像抽出手段と、抽出した画像を時系列に並べて動画データを生成するユーザ動画生成手段と、模範動画データとユーザ動画データとを合成する合成手段と、合成手段により合成された動画データを再生する動画再生手段とを有する語学学習装置を提供する。
【選択図】 図2
【解決手段】 本発明は、模範音声データおよび模範動画データを複数記憶する第1の記憶手段と、1の模範音声データおよび1の模範動画データを選択する選択手段と、選択された模範音声データを再生する再生手段と、ユーザ音声データを生成する音声取得手段と、音声データから抽出される特徴量と対応付けられた画像データを複数記憶する第2の記憶手段と、ユーザ音声データから特徴量を抽出する特徴量抽出手段と、特徴量抽出手段により抽出された特徴量に最も近似する特徴量と対応付けられた画像データを抽出する画像抽出手段と、抽出した画像を時系列に並べて動画データを生成するユーザ動画生成手段と、模範動画データとユーザ動画データとを合成する合成手段と、合成手段により合成された動画データを再生する動画再生手段とを有する語学学習装置を提供する。
【選択図】 図2
Description
本発明は、語学学習を支援する語学学習装置に関し、特に、話者の口の形や舌の位置を示す画像を表示する機能を有する語学学習装置に関する。
外国語あるいは母国語の語学学習、特に、発音あるいは発話の独習においては、CD(Compact Disk)等の記録媒体に記録された模範音声を再生し、その模範音声の真似をして発音あるいは発話するという学習方法が広く用いられている。これは模範音声の真似をすることで正しい発音を身につけることを目的とするものである。特に外国語の学習においては、母国語には無い発音を習得しなければならない場合もある。例えば、英語の「th」の発音は日本語には無いものである。このような母国語に無い発音を習得することは難しく、たとえネイティブスピーカーが「th」と発音した音声を聞いても、初めて英語を学習する日本人はその発音を真似しようにも発音方法がまったく分からないという問題がある。
この問題を解決するためには、発音(発声)時の唇や舌の動きを図解すればよい(例えば、特許文献1、2参照)。特許文献1には、語学学習において、先生(模範音声の話者)のアニメーションを表示する技術が開示されている。また、特許文献2には、正しい発音時の唇の形や舌の位置の画像と、学習者の音声から推測した唇の形や舌の位置の画像推測画像を表示する技術が開示されている。
特開2001−159865号公報
特開平6−348297号公報
特許文献1、2に記載の技術は、模範音声発声時の口の形を、音韻単位の静止画で表示するものであった。ところが、実際には、例えば英語の「r」の発音では1つの音韻に対する発音においても舌を動かす必要がある。しかし、このような場合に舌をどのように動かせばよいかは、静止画から学ぶことはできないという問題があった。また、唇や舌の動きはその音韻に後続する音韻の影響も受ける。例えば、「third」と「thank」では同じ「th」の発音でも後続する音韻によって舌の動きは異なるものとなる。しかし、このような場合の唇および舌の動きは、静止画からは学ぶことができないという問題があった。さらに、模範音声発声時の唇や舌の動きと、学習者の唇や舌の動きの差異が分かりづらく、効率的に学習を進めることができないという問題もあった。
本発明は上述の事情に鑑みてなされたものであり、模範音声発声時の唇や舌の動きを動画で示すことにより、より効率的に学習を進めることができる語学学習装置を提供することを目的とする。さらに、模範音声発声時の唇や舌の動きと学習者の唇や舌の動きとの差異を容易に特定することができる語学学習装置を提供することを目的とする。
上述の課題を解決するため、本発明は、模範音声データと模範音声を発声したときの話者の唇の形および舌の位置の少なくとも一方の変化を示す模範動画データとを複数記憶する第1の記憶手段と、前記第1の記憶手段から1の模範音声データおよび1の模範動画データを選択する選択手段と、前記選択手段により選択された模範音声データを再生する再生手段と、ユーザの音声からユーザ音声データを生成する音声取得手段と、話者の唇の形および舌の位置の少なくとも一方を示し、音声データから抽出される特徴量と対応付けられた画像データを複数記憶する第2の記憶手段と、前記ユーザ音声データから特徴量を抽出する特徴量抽出手段と、前記特徴量抽出手段により抽出された特徴量に最も近似する特徴量と対応付けられた画像データを前記第2の記憶手段から抽出する画像抽出手段と、前記画像抽出手段により抽出した画像を時系列に並べて動画データを生成するユーザ動画生成手段と、前記選択手段により選択された模範動画データと前記ユーザ動画生成手段により生成されたユーザ動画データとを合成する合成手段と、前記合成手段により合成された動画データを再生する動画再生手段とを有する語学学習装置を提供する。
好ましい態様において、この語学学習装置は、前記ユーザ音声データと前記模範音声データとの差異点を抽出する差異点抽出手段と、前記差異点抽出手段により抽出された差異があらかじめ決められた値より大きい場合に、その旨を示すデータを生成するデータ生成手段と、前記データ生成手段により生成されたデータにより指定されるタイミングで、ユーザの触覚を刺激する触覚刺激手段とをさらに有する。
本発明によれば、模範音声を発声するときの唇の形および舌の位置を示す画像と、ユーザがそれを真似て発声したときの唇の形および舌の位置を示す画像とが重ねて表示されるので、ユーザは正しい発音をするためには自分の唇や舌をどのように動かせばよいのかを的確に把握することができる。
以下、図面を参照して本発明の実施形態について説明する。
<第1実施形態>
図1は、本発明の第1実施形態に係る語学学習装置100のハードウェア構成を示すブロック図である。CPU(Central Processing Unit)101は、RAM(Random Access Memory)102を作業エリアとして、ROM(Read Only Memory)103あるいはHDD(Hard Disk Drive)104に記憶されているプログラムを読み出して実行する。HDD104は、各種アプリケーションプログラムやデータを記憶する記憶装置である。本実施形態に関して、特に、HDD104は、語学学習プログラムを記憶している(後述)。
<第1実施形態>
図1は、本発明の第1実施形態に係る語学学習装置100のハードウェア構成を示すブロック図である。CPU(Central Processing Unit)101は、RAM(Random Access Memory)102を作業エリアとして、ROM(Read Only Memory)103あるいはHDD(Hard Disk Drive)104に記憶されているプログラムを読み出して実行する。HDD104は、各種アプリケーションプログラムやデータを記憶する記憶装置である。本実施形態に関して、特に、HDD104は、語学学習プログラムを記憶している(後述)。
ディスプレイ105は、CRT(Cathode Ray Tube)やLCD(Liquid Crystal Display)等、CPU101の制御下で文字や画像を表示する表示装置である。画像処理回路121は、所定のフォーマットの動画データを受け取ると、その動画データに従って動画を表示させる制御信号をディスプレイ105に出力する。マイク106は、ユーザの音声を取得するための集音装置であり、ユーザの発した音声に対応する音声信号を出力する。音声処理部107は、マイク106により出力されたアナログ音声信号をデジタル音声データに変換する機能や、HDD104に記憶された音声データを音声信号に変換してスピーカ108に出力する機能を有する。また、ユーザはキーボード109を操作することにより、語学学習装置100に対して指示入力を行うことができる。各構成要素は、バス110を介して相互に接続されている。
図2は、本実施形態に係る語学学習装置100の機能構成を示すブロック図である。データ記憶部111は、語学学習における例文のテキストデータである例文テキストデータ、単語毎の模範音声を示す模範音声データ、および模範音声を発声したときの唇および舌の動きを示す模範動画データを記憶している。データ記憶部111は、図1に示されるハードウェア構成におけるHDD104に相当する。模範音声選択部112は、ユーザの指示入力あるいは語学学習プログラムに従ってデータ記憶部111から1の例文テキストデータ、およびそれに対応する模範音声データおよび模範動画データを選択する。表示部113は、模範音声選択部112により選択された模範音声の動画を再生し表示する。音声出力部114は、模範音声選択部112により選択された模範音声を再生し、音声として出力する。以上の機能構成要素により模範音声の音声データおよび動画データが再生される。
音声取得部115は、ユーザの音声からユーザ音声データを生成し、出力する。ユーザ動画生成部116は、ユーザ音声データおよびデータ記憶部111の記憶内容に基づきユーザが発した音声に対応する唇および舌の動きを示すユーザ動画データを生成する。混合データ生成部117は、模範音声選択部112により選択された模範動画データと、ユーザ動画生成部116により生成されたユーザ動画データとを重ね合わせた混合動画データを生成する。表示部113は、混合データ生成部117により生成された混合動画データを表示する。なお、語学学習装置100の動作については以下で詳細に説明する。
続いて、本実施形態における語学学習装置100の動作について説明する。
ユーザがキーボード109を操作する等の方法により語学学習プログラムの実行を指示すると、CPU101は、HDD104から語学学習プログラムを読み出して実行する。語学学習プログラムを実行することにより、語学学習装置100は図2に示す機能を具備する。
ユーザがキーボード109を操作する等の方法により語学学習プログラムの実行を指示すると、CPU101は、HDD104から語学学習プログラムを読み出して実行する。語学学習プログラムを実行することにより、語学学習装置100は図2に示す機能を具備する。
図3は、本実施形態に係る語学学習装置100の動作を示すフローチャートである。語学学習プログラムを実行すると、ディスプレイ105上に、例文の選択を促すメッセージが表示される。ユーザはディスプレイ105上に表示されたメッセージに従い、例文を選択する(ステップS101)。CPU101は選択された例文に基づいて例文の動画データを生成する(ステップS102)。具体的には次のとおりである。
HDD104は、例文のテキストデータを記録した例文テキストデータベースDB1と、単語毎に、その単語の発音時の唇の動きおよび舌の動きを示す模範動画データを記録した模範動画データベースDB2とを記憶している。図4は、模範動画データベースDB2に記録された動画の内容を例示する図である。本実施形態において、模範音声は、動画データ中の音声トラックとして模範動画データに内包されているが、HDD104が動画データと音声データとをそれぞれ別個のデータとして記憶してもよい。その場合、動画データおよび音声データは、お互いの対応関係を示すデータを有する。なお、模範動画データは単語毎ではなく、文(センテンス)毎、音節毎等、異なる単位で区分されたものであってもよい。また、音素(発音記号単位)毎に模範動画データを記憶しておき、これらを時系列に並べて動画像を生成してもよい。
CPU101は、選択された例文に対応する例文テキストデータを例文テキストデータベースDB1から抽出する。CPU101は、抽出した例文テキストデータをスペースやカンマ、ピリオド等の区切り記号に従って単語に分解する。CPU101は、模範動画データベースDB2から、分解した単語の各々に対応する動画データを検索する。CPU101は、検索で発見した動画データを例文中に登場する順番に結合する。なお、動画データを結合する際に、結合部において前後の動画が滑らかに結合されるように補間処理を行ってもよい。このようにして、例文に対応する模範動画データが生成される。本実施形態においては、音声データは音声トラックとして動画データに内包されているので、模範動画データが生成されると同時に模範音声データが生成されることとなる。以上の処理は図2に示される機能ブロック図における模範音声選択部112の機能に相当する。
次に、CPU101は、生成した模範動画データを画像処理回路121に出力する。この処理は図2に示される機能ブロック図における表示部113の機能に相当する。画像処理回路121は、模範動画データに従ってディスプレイ105に制御信号を出力する。こうして、ディスプレイ105上に動画が再生される(ステップS103)。また、CPU101は、模範動画データから音声トラックに記録された模範音声データを抽出し、音声処理部107に出力する。音声処理部107は受け取った模範音声データをデジタル/アナログ変換して例文の模範音声信号を生成する。音声処理部107は、生成した模範音声信号をスピーカ108に出力する。こうしてスピーカ108から模範音声が出力される(ステップS103)。この処理は図2に示される機能ブロック図における音声出力部114の機能に相当する。
スピーカ108から出力された模範音声を聞き、ディスプレイ105に表示された唇および舌の動きを見たユーザは、それを真似してマイク106に向かって例文を発声する。マイク106は、ユーザの発した音声を電気信号に変換し、ユーザ音声信号として出力する(ステップS104)。この処理は図2に示される機能ブロック図における音声取得部115の機能に相当する。
次に、ユーザ動画生成部116は、ユーザ音声信号に基づいて音声解析を行う(ステップS105)。これは例えば以下のように行われる。CPU101は、まずユーザ音声の波形を一定の時間(フレーム)ごとに分割する。CPU101は、フレーム毎に、ユーザ音声の波形をフーリエ変換して得られた振幅スペクトルの対数を求め、それをフーリエ逆変換してスペクトル包絡を得る。CPU101はこうして得られたスペクトル包絡から、ユーザ音声の特徴量として例えば低周波数側から第1〜第3フォルマントの3つのフォルマントのフォルマント周波数を算出する。
次に、ユーザ動画生成部116は、ユーザが例文を発声した時の唇および舌の動きを示すユーザ動画データの生成を行う(ステップS106)。これは例えば以下のように行われる。HDD104は、例えば単語毎に、フォルマント(例えば低周波数側から第1〜第3フォルマントの3つのフォルマント)の周波数を示すデータを複数記録したフォルマントデータベースDB3を記憶している。CPU101は、フォルマントデータベースDB3内のデータと、先ほどユーザ音声から求められたフォルマント周波数とのマッチングを行う。CPU101は、マッチングにより1のフォルマントデータを抽出する。
HDD104はさらに、発音時の唇の形および舌の位置を示す画像を複数記録した発音画像データベースDB4を記憶している。図5は、発音画像データベースDB4に記録された画像の内容を示す図である。発音画像データベースDB4中の画像の各々はフォルマントデータベースDB3中の1のフォルマントデータと対応付けられている。CPU101は、マッチングにより抽出した1のフォルマントデータに対応する発音画像を抽出する。CPU101は、このようにして抽出した発音画像を時系列に並べることによりユーザが例文を発声(発音)したときの唇および舌の動きを示すユーザ動画を生成する。
次に、混合データ生成部117は、模範動画とユーザ動画とを重ね合わせた合成動画を生成する(ステップS107)。これは例えば以下のように行われる。CPU101は、動画を構成する画像1フレームごとに、模範動画データとユーザ動画データとを合成する。その際、唇および舌以外の部分のデータは透明を示すデータとして扱う。したがって、唇および舌の画像がそれぞれ2枚重ねられた画像を示す合成動画データが生成される。CPU101は生成した合成動画データを画像処理回路121に出力する。
画像処理回路121は、合成動画データに基づいてディスプレイ105に対し制御信号を出力する。これにより、ディスプレイ105上に模範動画とユーザ動画とを合成した動画が表示される(ステップS108)。図6は、ディスプレイ105上に表示される合成動画を例示する図である。
以上の合成動画を表示する処理は、ユーザが例文を発声するのに伴ってリアルタイムで行ってもよいし、ユーザが例文を全て発声し終わった後で行ってもよい。
以上の合成動画を表示する処理は、ユーザが例文を発声するのに伴ってリアルタイムで行ってもよいし、ユーザが例文を全て発声し終わった後で行ってもよい。
<第2実施形態>
続いて、本発明の第2実施形態について説明する。
図7は、本実施形態に係る語学学習装置200のハードウェア構成を示すブロック図である。語学学習装置200は、第1実施形態における語学学習装置100に、ユーザの触覚を刺激するバイブレータ201を付加した構成となっている。バイブレータ201は、ヘッドホン、リストバンド等ユーザが身に着けるものに設置すればよい。なお、図7において第1実施形態の語学学習装置100と同一の構成要素には同一の参照番号を付しており、その説明を省略する。
続いて、本発明の第2実施形態について説明する。
図7は、本実施形態に係る語学学習装置200のハードウェア構成を示すブロック図である。語学学習装置200は、第1実施形態における語学学習装置100に、ユーザの触覚を刺激するバイブレータ201を付加した構成となっている。バイブレータ201は、ヘッドホン、リストバンド等ユーザが身に着けるものに設置すればよい。なお、図7において第1実施形態の語学学習装置100と同一の構成要素には同一の参照番号を付しており、その説明を省略する。
図8は、本実施形態に係る語学学習装置200の機能構成を示すブロック図である。語学学習装置200は、第1実施形態における語学学習装置100と共通する構成要素を有する。これらの構成要素については、語学学習装置100の構成要素と共通する参照符号を付しており、その説明は省略する。音声比較部211は、模範音声選択部112により選択された模範音声と、音声取得部115により取得されたユーザ音声とを比較し、差異点を抽出する。触覚刺激部212は、模範音声を再度再生する際に、音声比較部211によって抽出された差異点に基づいてユーザの触覚を刺激する機能を有する。これらの機能の詳細は後述する。
以下、語学学習装置200の動作について説明する。第1実施形態と同様に、ユーザがキーボード109を操作する等の方法により語学学習プログラムの実行を指示すると、CPU101は、HDD104から語学学習プログラムを読み出して実行する。語学学習プログラムを実行することにより、語学学習装置100は図8に示す機能を具備する。
図9は、本実施形態に係る語学学習装置200の動作を示すフローチャートである。
まず、第1実施形態において説明したステップS101〜S105の処理が行われる。ここで、ステップS103において模範動画が再生された後、CPU101は、模範動画の再生回数を示す変数の値を1に設定し、RAM102に記憶する。ステップS105の処理に続いて、音声比較部211は、模範音声とユーザ音声との比較を行い、差異点を抽出する(ステップS201)。これは例えば以下のように行われる。CPU101は、模範音声データ(模範動画データの音声トラック)に対し、ユーザ音声と同様の音声解析処理を行う。すなわち、CPU101は、まず模範音声の波形をフレーム毎に分割する。次に、CPU101は、フレーム毎に、フーリエ変換して得られた振幅スペクトルの対数を求め、それをフーリエ逆変換してスペクトル包絡を得る。CPU101はこうして得られたスペクトル包絡から、例えば低周波数側から第1〜第3フォルマントの3つのフォルマントのフォルマント周波数を算出する。
図9は、本実施形態に係る語学学習装置200の動作を示すフローチャートである。
まず、第1実施形態において説明したステップS101〜S105の処理が行われる。ここで、ステップS103において模範動画が再生された後、CPU101は、模範動画の再生回数を示す変数の値を1に設定し、RAM102に記憶する。ステップS105の処理に続いて、音声比較部211は、模範音声とユーザ音声との比較を行い、差異点を抽出する(ステップS201)。これは例えば以下のように行われる。CPU101は、模範音声データ(模範動画データの音声トラック)に対し、ユーザ音声と同様の音声解析処理を行う。すなわち、CPU101は、まず模範音声の波形をフレーム毎に分割する。次に、CPU101は、フレーム毎に、フーリエ変換して得られた振幅スペクトルの対数を求め、それをフーリエ逆変換してスペクトル包絡を得る。CPU101はこうして得られたスペクトル包絡から、例えば低周波数側から第1〜第3フォルマントの3つのフォルマントのフォルマント周波数を算出する。
CPU101は、模範音声のフォルマント周波数とユーザ音声のフォルマント周波数とを比較し、その差があらかじめ決められたしきい値を超えていた場合は、模範音声とユーザ音声とに差異があったことを示すデータ(フラグF)を付加する。また、CPU101は、その模範音声に対して、再度の再生が必要である箇所を示すフラグを記録したデータDを生成する。CPU101は、選択された例文の最初から最後まですべてのフレームについてこの処理を実行する。選択された例文について模範音声とユーザ音声との差異が検出されない場合は、CPU101は、その模範音声に対して、再度の再生は必要ないことを示すフラグを記録したフラグFを生成する。
続いてCPU101は、フラグFに基づいて、模範音声について再度の再生が必要であるか否か判断する(ステップS202)。再度の再生が必要でないと判断された場合(S202:NO)は、処理を終了する。再度の再生が必要であると判断された場合(S202:YES)は、模範音声の再生を行う。CPU101は、模範音声の再生回数を示す変数の値を1増加させる。再生に際し、データDが示す、模範音声と差異があった箇所には、模範音声の再生と同時にバイブレータの駆動を行う(ステップS203)。すなわち、CPU101は、データDが示す、模範音声と差異があった箇所でバイブレータ201に駆動信号を出力する。バイブレータ201は駆動信号により振動し、ユーザの触覚を刺激する。CPU101はフレーム毎にこの処理を行う。これによりユーザは、自分の発音が模範音声と異なっていた箇所については再度の再生時にバイブレータ201が振動することにより、その発音が異なっていた箇所を具体的に特定することができる。その際、第1実施形態で説明したように、ステップS105〜S108の処理も行われ、模範音声発声時の唇および舌の動きと、ユーザの唇および舌の動きとが重ねて表示されるので、ユーザは自分の発音方法をどのように改善すればよいかを視覚的に把握することができる。
<変形例>
本発明は上述の実施形態に限定されるものではなく、種々の変形実施が可能である。
上述の実施形態においては、フレーム単位で音声データの処理を行う態様について説明したが、音声データの処理単位はこれに限定されるものではない。文(センテンス)毎、音節毎、音素(発音記号単位)毎等、様々な単位が考えられる。例えば音素単位の動画または静止画をHDD104に用意し、音声解析において音素単位に音声を分割し、対応する動画または静止画を抽出することにより音素毎に模範画像とユーザ画像とを重ね合わせ、これらを時系列に並べることにより合成動画を生成してもよい。
また、上記実施形態においては音声の特徴量としてフォルマントを抽出する態様について説明したが、特徴量はこれに限定されるものではない。スペクトログラムの抽出等、音声の特徴量を抽出できる手法であれば何でもよい。
模範音声および模範動画の再生の際に、その再生速度を可変とする構成としてもよい。すなわち、CPU101は、ユーザの指示入力に応じて再生速度を指定する変数の値を変更し、RAM102に記憶する。CPU101はこの変数の値に応じて模範動画の再生速度を制御する。
本発明は上述の実施形態に限定されるものではなく、種々の変形実施が可能である。
上述の実施形態においては、フレーム単位で音声データの処理を行う態様について説明したが、音声データの処理単位はこれに限定されるものではない。文(センテンス)毎、音節毎、音素(発音記号単位)毎等、様々な単位が考えられる。例えば音素単位の動画または静止画をHDD104に用意し、音声解析において音素単位に音声を分割し、対応する動画または静止画を抽出することにより音素毎に模範画像とユーザ画像とを重ね合わせ、これらを時系列に並べることにより合成動画を生成してもよい。
また、上記実施形態においては音声の特徴量としてフォルマントを抽出する態様について説明したが、特徴量はこれに限定されるものではない。スペクトログラムの抽出等、音声の特徴量を抽出できる手法であれば何でもよい。
模範音声および模範動画の再生の際に、その再生速度を可変とする構成としてもよい。すなわち、CPU101は、ユーザの指示入力に応じて再生速度を指定する変数の値を変更し、RAM102に記憶する。CPU101はこの変数の値に応じて模範動画の再生速度を制御する。
動画データは、ビットマップグラフィックス(ラスタグラフィックス)あるいはベクタグラフィックスのいずれの方式で記述されたものであってもよい。
また、模範動画1コマあたりの時間(秒数)と、音声分析におけるフレームの長さとは、一方が他方の整数倍の関係にあることが好ましく、さらに同一であることが最も好ましい。これらが同一でない場合は、生成される動画データが模範動画データと同じコマ数となるようにする必要がある。例えば音声分析におけるフレームの長さが模範動画1コマあたりの時間の3倍であった場合、同じ画像を3コマ連続して配置する。あるいは、動画がより滑らかに動くように補間処理を行ってもよい。
また、模範動画1コマあたりの時間(秒数)と、音声分析におけるフレームの長さとは、一方が他方の整数倍の関係にあることが好ましく、さらに同一であることが最も好ましい。これらが同一でない場合は、生成される動画データが模範動画データと同じコマ数となるようにする必要がある。例えば音声分析におけるフレームの長さが模範動画1コマあたりの時間の3倍であった場合、同じ画像を3コマ連続して配置する。あるいは、動画がより滑らかに動くように補間処理を行ってもよい。
第2実施形態においては、音声データに基づいて模範音声とユーザ音声とに差異があるか否かを判断したが、画像データ(動画データ)に基づいて模範音声とユーザ音声とに差異があるか否か判断する構成としてもよい。すなわち、CPU101は、模範動画データとユーザ動画データとを比較し、舌の位置、舌の動き(軌跡)、唇の形等の差が、あらかじめ決められたしきい値以上あった場合は模範音声とユーザ音声との差異があると判断する。
また、上述の実施形態においては、CPU101が語学学習プログラムを実行することにより図2あるいは図8に示される機能を具備する態様について説明したが、語学学習装置100、200が図2あるいは図8に示される機能構成要素に相当する回路を有し、その回路が上述の処理を行う構成としてもよい。
また、上述の実施形態においては、唇および舌の動画(画像)がある特定の角度から見た断面図である態様について説明したが、それぞれ異なる角度から見た唇の形あるいは舌の位置を表した動画を複数用意しておき、ユーザの指示入力により選択された1の角度から見た動画を表示する構成としてもよい。あるいは、動画データとして2次元の画像データではなく3次元の画像データを用いてもよい。
また、上述の実施形態においては、動画データは話者の唇の形および舌の位置の双方を示すものであったが、これらのうちいずれか一方のみを示すデータであってもよい。
100…語学学習装置、101…CPU、102…RAM、104…HDD、105…ディスプレイ、106…マイク、107…音声処理部、108…スピーカ、109…キーボード、110…バス、111…データ記憶部、112…模範音声選択部、113…表示部、114…音声出力部、115…音声取得部、116…ユーザ動画生成部、117…混合データ生成部、121…画像処理回路、200…語学学習装置、201…バイブレータ、211…音声比較部、212…触覚刺激部
Claims (2)
- 模範音声データと模範音声を発声したときの話者の唇の形および舌の位置の少なくとも一方の変化を示す模範動画データとを複数記憶する第1の記憶手段と、
前記第1の記憶手段から1の模範音声データおよび1の模範動画データを選択する選択手段と、
前記選択手段により選択された模範音声データを再生する再生手段と、
ユーザの音声からユーザ音声データを生成する音声取得手段と、
話者の唇の形および舌の位置の少なくとも一方を示し、音声データから抽出される特徴量と対応付けられた画像データを複数記憶する第2の記憶手段と、
前記ユーザ音声データから特徴量を抽出する特徴量抽出手段と、
前記特徴量抽出手段により抽出された特徴量に最も近似する特徴量と対応付けられた画像データを前記第2の記憶手段から抽出する画像抽出手段と、
前記画像抽出手段により抽出した画像を時系列に並べて動画データを生成するユーザ動画生成手段と、
前記選択手段により選択された模範動画データと前記ユーザ動画生成手段により生成されたユーザ動画データとを合成する合成手段と、
前記合成手段により合成された動画データを再生する動画再生手段と
を有する語学学習装置。 - 前記ユーザ音声データと前記模範音声データとの差異点を抽出する差異点抽出手段と、
前記差異点抽出手段により抽出された差異があらかじめ決められた値より大きい場合に、その旨を示すデータを生成するデータ生成手段と、
前記データ生成手段により生成されたデータにより指定されるタイミングで、ユーザの触覚を刺激する触覚刺激手段と
をさらに有する請求項1に記載の語学学習装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004351206A JP2006162760A (ja) | 2004-12-03 | 2004-12-03 | 語学学習装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004351206A JP2006162760A (ja) | 2004-12-03 | 2004-12-03 | 語学学習装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006162760A true JP2006162760A (ja) | 2006-06-22 |
Family
ID=36664885
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004351206A Pending JP2006162760A (ja) | 2004-12-03 | 2004-12-03 | 語学学習装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006162760A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010081395A1 (zh) * | 2009-01-19 | 2010-07-22 | 腾讯科技(深圳)有限公司 | 语音驱动动画中嘴唇形状变化、获取嘴唇动画的方法及装置 |
JP2012047998A (ja) * | 2010-08-27 | 2012-03-08 | Tokai Univ | 発話学習支援装置およびそのプログラム |
JP2014529771A (ja) * | 2011-09-01 | 2014-11-13 | スピーチエフエックス・インコーポレイテッド | 言語学習のためのシステムおよび方法 |
JP7425243B1 (ja) | 2023-05-08 | 2024-01-30 | ムーン クリエイティブ ラボ インク. | 情報処理装置及び情報処理方法 |
-
2004
- 2004-12-03 JP JP2004351206A patent/JP2006162760A/ja active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010081395A1 (zh) * | 2009-01-19 | 2010-07-22 | 腾讯科技(深圳)有限公司 | 语音驱动动画中嘴唇形状变化、获取嘴唇动画的方法及装置 |
US8350859B2 (en) | 2009-01-19 | 2013-01-08 | Tencent Technology (Shenzhen) Company Limited | Method and apparatus for changing lip shape and obtaining lip animation in voice-driven animation |
JP2012047998A (ja) * | 2010-08-27 | 2012-03-08 | Tokai Univ | 発話学習支援装置およびそのプログラム |
JP2014529771A (ja) * | 2011-09-01 | 2014-11-13 | スピーチエフエックス・インコーポレイテッド | 言語学習のためのシステムおよび方法 |
JP7425243B1 (ja) | 2023-05-08 | 2024-01-30 | ムーン クリエイティブ ラボ インク. | 情報処理装置及び情報処理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH10153998A (ja) | 補助情報利用型音声合成方法、この方法を実施する手順を記録した記録媒体、およびこの方法を実施する装置 | |
KR101153736B1 (ko) | 발음기관 애니메이션 생성 장치 및 방법 | |
JP2003186379A (ja) | 音声可視化処理のためのプログラム、音声可視化図形表示と音声及び動画像の再生処理のためのプログラム、及び訓練結果表示のためのプログラム、並びに発声発話訓練装置及びコンピュータ・システム | |
JP2011085641A (ja) | 語学学習支援システム及び語学学習支援方法 | |
Wang et al. | Computer-assisted audiovisual language learning | |
JP2013072903A (ja) | 合成辞書作成装置および合成辞書作成方法 | |
KR100710600B1 (ko) | 음성합성기를 이용한 영상, 텍스트, 입술 모양의 자동동기 생성/재생 방법 및 그 장치 | |
KR100888267B1 (ko) | 언어의 문자이미지와 음성을 매칭 시키는 언어 학습방법 및학습장치 | |
JP3110215B2 (ja) | 発音訓練装置 | |
JP3569278B1 (ja) | 発音学習支援方法、学習者端末及び処理プログラム並びに該プログラムを記録した記録媒体 | |
JP2003162291A (ja) | 語学学習装置 | |
WO2023276539A1 (ja) | 音声変換装置、音声変換方法、プログラム、および記録媒体 | |
JP2006162760A (ja) | 語学学習装置 | |
JP2005321706A (ja) | 電子書籍の再生方法及びその装置 | |
JP2844817B2 (ja) | 発声練習用音声合成方式 | |
JP5248365B2 (ja) | 記憶支援システム、記憶支援プログラム、及び記憶支援方法 | |
JP2015102773A (ja) | 音声発生装置、音声変形装置及び方法 | |
JP2006139162A (ja) | 語学学習装置 | |
JPH10268753A (ja) | 中国語学習プログラムを記録したコンピュータ読取り可能な記録媒体及び中国語学習装置 | |
JP4651168B2 (ja) | 合成音声出力装置およびその方法並びに記録媒体 | |
Karpov et al. | Audio-visual speech asynchrony modeling in a talking head | |
JPH01154189A (ja) | 発音訓練装置 | |
JP6486582B2 (ja) | 電子機器、音声制御方法、およびプログラム | |
Kolivand et al. | Realistic lip syncing for virtual character using common viseme set | |
JP2001125599A (ja) | 音声データ同期装置及び音声データ作成装置 |