以下、本発明の発音評価システムの実施形態を各図に基づいて説明する。このシステムは、学習者の音声をマイクで集音しそれに含まれる母音のフォルマント周波数に基づいて、自分の発音が目標の音に近づいているか否かを視覚的に判断可能にするものである。
まず、本実施形態に係る発音評価システム10の構成を図1を参照して説明する。図1は、発音評価システム10の構成例を示す説明図である。
図1に示すように、発音評価システム10は、制御ユニット20を中心に、マイク32、ディスプレイ33、入力デバイス(マウスやキーボード)34、スピーカアンプ35等により構成されている。制御ユニット20は、CPU21、メモリ22、データベース23、システムバス24、入出力インタフェイス25等により構成されている。
CPU21は、制御ユニット20を制御する中央演算処理装置で、システムバス24を介してメモリ22、データベース23や入出力インタフェイス25に接続されている。
メモリ22は、いわゆるRAMやROM等の半導体記憶装置で、システムバス24を介してCPU21に接続されている。このメモリ22には、CPU21を制御するシステムプログラム22aのほかに、後述する発音評価処理を可能にする各種制御プログラム22b〜22gが格納されており、前述したCPU21はこれらをメモリ22に読み出して逐次実行している。
データベース23は、ハードディスク装置やDVD装置あるいはギガビットクラスのフラッシュメモリ等の大容量タイプの情報記録媒体で、後述するモデルフォルマントデータ23a、モデル音声データ23bやモデル画像データ23c等が格納されており、お手本となるフォルマントデータ等を表示する際に読み出されるものである。また、後述するように、マイク32等により取得された生データの蓄積媒体や情報処理後の音声データの格納(記録)媒体としても用いられる。
入出力インタフェイス25は、前述したマイク32、ディスプレイ33、入力デバイス34、スピーカアンプ35等とCPU21等とのデータのやり取りを仲介する装置で、システムバス24に接続されている。
なお、マイク32と入出力インタフェイス25との間には、図略のA/D変換装置が介在しており、マイク32から入力されたアナログ音声信号をディジタル音声信号に変換して入出力インタフェイス25に出力している。また、スピーカアンプ35と入出力インタフェイス25との間には、図略のD/A変換装置が介在しており、入出力インタフェイス25から入力されたディジタルオーディオ信号をアナログオーディオ信号に変換してスピーカアンプ35に出力している。
このように構成される発音評価システム10は、制御ユニット20による音声データ取得プログラム22bやフォルマント抽出プログラム22c等によって、録音した音声データから各フォルマントを抽出することになるので、ここで図2を参照してフォルマントの概要について説明する。
フォルマントとは、音声データに含まれる音声周波数のスペクトルで時間的に変化する周波数のピークのことで、一般に、音声学においては、図2に示すように、その周波数が低いものから周波数の高い方に向かって順番に現れるスペクトルの山の頂点を、第1フォルマント、第2フォルマント、第3フォルマント、第4フォルマント等と定義する。
本実施形態では、唇、歯、口蓋、鼻腔、咽頭、舌等の調音器官の動きによって周波数が変動し得る第1フォルマント、第2フォルマントおよび第3フォルマントに着目してそれらに基づいて情報処理をするので、以下、明細書や図に「Fn」と表記されている場合は(n=1,2,3)、第nフォルマントの周波数のことを表すものとする。
次に、図3〜図29を参照して制御ユニット20による発音評価処理の流れを説明する。なお、この情報処理は、マウス等の入力デバイス34による発音評価プログラムの起動命令等の入力によって、音声データ取得プログラム22b、フォルマント抽出プログラム22c、イメージデータ生成プログラム22d、イメージデータ出力プログラム22e等がメモリ22上に展開されてCPU21がこれらを実行することにより実現される。
なお、図3には本実施形態の発音評価システムによる発音評価処理、図4には図3に示す音声データ取得処理、図5には図3に示すフォルマント抽出処理、図6には図3に示すイメージデータ生成処理、図7には図3に示すイメージデータ生成処理の他の例、図8には図3に示すイメージデータ出力処理、のそれぞれの流れを示すフローチャートが図示されている。また、図9には本実施形態の発音評価システムによるモデル音声出力処理、図10には本実施形態の発音評価システムによるモデル画像出力処理、のそれぞれの流れを示すフローチャートが図示されている。
図3に示すように、発音評価処理は、ステップS100による所定の初期化処理(例えば、メモリ22の作業エリアのクリア、各種カウンタやフラグの初期値設定等)の後、ステップS200により音声データ取得処理が行われる。この処理は、音声データ取得プログラム22bにより実現されるもので、その詳細は図4に図示されている。そのため、ここからは図4を参照して説明する。
図4に示すように、音声データ取得処理では、まずステップS201により「録音中」や「REC」(RECordingの略語)の表示をディスプレイ33に出力する。これは、マイク32により集音される音声等が音声データとして記録されることを示すものである。この表示期間中に、例えば当該学習者がマイク32に向かって日本語の母音(「あ」、「い」、「う」、「え」、「お」)を発音する。なお、この期間中のディスプレイ33には、録音の停止を命令する「終了」や「STOP」あるいは「停止」、「中止」といった表示兼入力ボタンも出力されている。
次のステップS203ではA/D変換入力処理が行われる。この処理は、マイク32から入力されたアナログ信号をディジタル信号に変換するもので、この変換後の音声データ(評価対象となる音声データ)は続くステップS205による生データ蓄積処理によってメモリ22やデータベース23に音声ファイルとして蓄積される。なお、ステップS205による生データ蓄積処理では、録音時の年月日時分秒に基づいて、各音声ファイルのファイル名を自動的に付与することで、他の音声ファイルとの区別を可能にしている。なお、このステップS205により蓄積された音声ファイルを再生しそのオーディオ出力をスピーカアンプ35に出力する機能と、このような再生機能の実行命令の受付を可能にする「再生」や「PLAY」といった表示兼入力ボタンを表示する機能とを有する音声データ再生処理を構成することで、当該学習者は、録音した自分の発音を聞くこともできる。
ステップS207では、録音の停止を指示する入力があるか否かを判断する処理が行われる。録音可能な期間においては、前述したように、ディスプレイ33に録音の停止を命令する「終了」の表示等も出力されている。このため、このステップS207による処理では、この表示によるボタン部分が入力デバイス34により選択されたか否か、つまり録音停止命令の有無を検出する。そして、この入力がある場合には(S207;Yes)、次のステップS209に音素区間検出処理を移行し、それがない場合には(S207;No)、ステップS203に移行して録音処理を継続する。先の例では、当該学習者が日本語の母音(「あ」〜「お」)を発音し終わった後に、マウス等で停止命令の入力をすることで、次のステップS209に処理が移る。
ステップS209による音素区間検出処理では、メモリ22等に蓄積された音声ファイルを読み出して音素間を検出する処理が行われる。例えば、「あ」、「い」、「う」、「え」、「お」の各母音の間を区切って発音した場合には、無音区間が存在するので、これを検出することによって音素区間の検出をすることができ、続くステップS211による音素数のカウントや母音の切り出しも可能となる。
なお、このステップS205により蓄積されている生データには、音素区間の検出の妨げとなり得る種々の雑音成分が含まれているため、音素区間検出処理(S209)の前段で、これらを除去可能なフィルタリング処理を施すことによって、当該検出処理による音素区間の検出がより確実なものになる。
続くステップS211による音素数カウント処理では、音素区間を数えることにより音素数をカウントし、さらにステップS213では、ステップS209により検出された無音区間を境界にして音声データを各母音の音素ごとに分割して格納する処理、つまり音声データ格納処理が行われる。これにより、切り出された音声データは、母音単位で分割された音声データとして、メモリ22やデータベース23に格納される。なお、このステップS213では、各音声データを識別可能なファイル名を当該生データの音声ファイル名に基づいて自動生成し各音声データに付与することによって、他の音声データとの区別を可能にしている。
ステップS213による音声データ格納処理が完了すると、図3に示す発音評価処理に戻って次のステップS300によるフォルマント抽出処理が行われる。この処理は、フォルマント抽出プログラム22cにより実現されるもので、その詳細は図5に図示されている。そのため、ここからは図5を参照して説明する。
図5に示すように、フォルマント抽出処理は、ステップS301により音声データ読出処理が行われる。この処理は、先に説明した音声データ取得処理(図4を参照)によって母音ごとにメモリ22やデータベース23に格納された音声データをメモリ22等から読み出す。これにより読み出された音声データは、次のステップS303によるフォルマント検出処理の対象となる。
ステップS303によるフォルマント検出処理では、例えば、当該音声データをFFT(Fast Fourier Transform;高速フーリエ変換)によって周波数スペクトルを分析しその包絡線波形を取得する。これにより、図2に示すような各フォルマントを含んだ包絡線が得られるため、この包絡線波形に含まれる各ピーク(山)を周波数の低い順に検出することによって、フォルマント周波数F1〜F3を検出することが可能となる。また、伝達関数の極として各フォルマントを検出できるため、LPC(Linear Predictive Coding;線形予測分析)によってフォルマント周波数F1〜F3を検出可能に構成してもよい。
ステップS303によるフォルマント検出処理により各フォルマントが検出されると、続くステップS305により、各母音の音声データに対応するフォルマント周波数F1〜F3を当該音声データに関連付けてフォルマント周波数を登録する処理が行われる。この登録は、例えば、各音声データが格納されているメモリ22やデータベース23に行われる。先の例では、「あ」の音声データに関連付けて、例えば、第1フォルマントの周波数F1=690Hz、第2フォルマントの周波数F2=1170Hz、第3フォルマントの周波数F3=2370Hzが、それぞれ登録される。
ステップS305によるフォルマント周波数登録処理が完了すると、図3に示す発音評価処理に戻って次のステップS400により全ての音声データに対してフォルマント抽出処理が終了しているか否かを判断する処理が行われる。そして、全データのフォルマント抽出処理が終了している場合には(S400;Yes)、続くステップS500に処理を移行し、終了していない場合には(S400;No)、再びステップS300に処理を戻してフォルマント抽出処理が行われる。
ステップS500では、イメージデータ生成処理が行われる。この処理は、イメージデータ生成プログラム22dにより実現されるもので、その詳細は図6,7に図示されている。そのため、ここからは図6を参照して説明する。また、この処理により生成されるイメージデータの例として、図11,図12,図16(A)を参照して説明する。
図6に示すように、イメージデータ生成処理は、ステップS501により三次元座標空間生成処理が行われる。この処理は、メモリ22の作業エリア等に三次元座標空間をなすイメージデータ、つまり三次元座標イメージデータを生成する。これにより、例えば、図11に示すようなコンピュータグラフィック(以下「CG」という)による三次元座標空間の画像イメージが形成可能となる。なお、この座標空間が、後述する三次元フォルマント母音図の表示空間に相当する。
即ち、ディスプレイ33の表示画面33aにおいて、そのほぼ全体を占める矩形状の座標イメージ表示領域Daに、三次元座標を構成する緑軸J1、赤軸J2および青軸J3を表示し得るように各軸のイメージデータを形成する。本実施形態では、例えば、第1フォルマントの周波数軸(第1の周波数軸)として緑色に着色された緑軸J1を表示画面33aの縦(垂直)方向に、また第2フォルマントの周波数軸(第2の周波数軸)として赤色に着色された赤軸J2を表示画面33aの横(水平)方向に、さらに第3ォルマントの周波数軸(第3の周波数軸)として青色に着色された青軸J3を表示画面33aのほぼ中心(奥行き)方向に、それぞれ画面表示可能にイメージデータを生成する。
なお、本実施形態では、緑軸J1および赤軸J2により構成される二次元座標イメージによる座標平面に対して垂直方向に遠近感を与えるため、表示画面33aのほぼ中心に仮想的な無限遠方に遠点Gpを設定し、この遠点Gpを中心に収束し得る矩形や同心円によるCG化された三次元立体グリッドを形成している。
即ち、当該二次元座標イメージを構成する緑軸J1および赤軸J2に、緑軸J1に平行に位置する緑軸J1’と赤軸J2に平行に位置する赤軸J2’とを加え、これら4本の各軸に囲まれる矩形のほぼ中心を当該遠点Gpに位置させ、またこの矩形(外側矩形)に相似形で小さい矩形(内側矩形)を緑軸J5,J5’および赤軸J6,J6’により形成しこの内側矩形もそのほぼ中心を当該遠点Gpに位置させる。そして、遠点Gpから放射状に延びる4本の青軸J3,J3’,J4,J4’上に、外側矩形(J1,J1’,J2,J2’)および内側矩形(J5,J5’,J6,J6’)のそれぞれの四隅(各角)を位置させる。
これにより、ディスプレイ33の表示画面33aを介して当該学習者には、外側矩形(J1,J1’,J2,J2’)が手前に、また内側矩形(J5,J5’,J6,J6’)が奥に、それぞれ位置するように立体的に見えるため、遠点Gpを仮想的な遠方とした視覚的な遠近感を当該学習者に与えることが可能となる。なお、外側矩形を構成する各軸J1,J1’,J2,J2’の線幅を、内側矩形を構成する各線J5,J5’,J6,J6’の線幅よりも太く(または内側矩形を構成する各線J5,J5’,J6,J6’の線幅を、外側矩形を構成する各軸J1,J1’,J2,J2’の線幅よりも細く)設定することで、このような遠近感を当該学習者により強く与えることができる。
また、図11に示すように、本実施形態では、緑軸J1、赤軸J2、青軸J4のそれぞれに沿って周波数値を表示している。例えば、緑軸J1については、表示画面33aの上方から下方に向かって0Hz→500Hz→1000Hzというようにフォルマント周波数F1が高くなるように周波数値を表示し、また赤軸J2については、表示画面33aの右側から左側に向かって0Hz→1600Hz→3200Hzというようにフォルマント周波数F2が高くなるように周波数値を表示している。なお、本実施形態では、周波数表示の見やすさを考慮して、青軸J3ではなく青軸J4に周波数値を表示している。例えば、表示画面33aの手前(下方)から奥(上方)に向かって2000Hz→2750Hz→3500Hzというように青軸J4に周波数値を表示している。
さらに、本実施形態では、座標イメージ表示領域Daにおいて、遠点Gpを中心にほぼ等間隔に位置する複数の同心円からなる遠近サークルグリッドGcを形成したり、また遠点Gpからほぼ同じ中心角で放射状に延びる複数の放射線からなる遠近ラジアルグリッドGrを形成している。これにより、遠点Gpを仮想的な無限遠方とした視覚的な遠近感をより強く当該学習者に与えられるようにしている。
なお、本実施形態では、図11に示すように、表示画面33aの下方に操作パネル表示領域Dbを設定し、この領域Db内に、後述するように、各軸J1,J2,J3に沿った回転を与え得るスライドレバーS1,S2,S3や、表示画面33a内の座標空間を拡大表示(ズームイン)したり縮小表示(ズームアウト)したりするスライドレバーS4を設けている。また、後述するように、表示画面33a内に表示される球体イメージの表示状態を初期状態に戻す押しボタンスイッチS5(View Reset;視点初期化)を設けている。
さらに、表示画面33aの左側上方には、「ファイル」と表示されるボタンS8や「オプション」と表示されるボタンS9が設けられている。例えば、「ファイル」のボタンS8を選択することによって、前述した音声データ取得処理により格納された音声データの一覧を表示するとともにそれらの中から任意の音声データに対して前述した図5に示すフォルマント抽出処理(S300)の実行命令の受付を可能にする「読出し」ボタンの表示や、これから説明する各処理によって既に生成されてディスプレイ33に表示されている球体イメージ等をイメージデータクリア処理の実行命令の受付を可能にする「消去」ボタンの表示が行われる。また、「オプション」のボタンS9を選択することによって、後述する、フォルマント周波数表示の有/無の切り替え、透過表示/非透過表示の切り替え、座標空間の三次元表示/二次元表示の切り替え、球体イメージ・周波数軸・周波数表示・座標空間の背景・発音記号の表示色(例えば256色から任意色)の選択等、各処理の実行命令の受付を可能にするボタンの表示が行われる。
また、これらとは別の画面(図略)において、当該学習者の性別、年齢、身長の各データの入力を可能にする当該学習者データ入力処理によって、当該学習者に固有な身体的特徴(個人性)を表す情報を取得する。これにより、予めデータベース23等に蓄積された性別・年齢・身長等の身体的特徴に起因する調音器官のデータに基づいて、当該学習者が有する調音器官の長さや大きさを推定することが可能となるので(調音器官推定処理)、この推定された調音器官の長さ等に基づいて、後述する各モデルデータ(モデルフォルマントデータ、モデル音声データ、モデル画像データ)を当該学習者の性別、年齢、身長等に適合したものに設定することが可能となる。なお、これらの各ボタンS1〜S9は、マウス等の入力デバイス34によって選択可能に構成されている。
また、本実施形態では、白地の座標空間に、緑・赤・青等の色を有する軸線や各グリッド線を描画するように構成したが、黒地(または紺地)の座標空間に、白色を有する軸線やグリッド線を描画するように構成しても良い。
続くステップS503ではフォルマント周波数読出処理が行われる。この処理では、前述したフォルマント抽出処理により登録されて関連付けられた音声データのフォルマント周波数F1〜F3をメモリ22やデータベース23から読み出す。これにより、次のステップS505による中心位置設定処理の対象となるフォルマント周波数F1〜F3が得られる。なお、ステップS505による中心位置設定処理とステップS507による直径設定処理によって球体イメージが生成されて三次元座標空間に割り付けられる。
ステップS505では中心位置設定処理が行われる。この処理は、ステップS503により読み出されたフォルマント周波数F1〜F3に基づいて、ステップS501による三次元座標空間に球体イメージの中心位置を設定する。即ち、ステップS501により生成される三次元座標空間は、第1フォルマントの緑軸J1、第2フォルマントの赤軸J2および第3フォルマントの青軸J3により形成されているため、緑軸J1にフォルマント周波数F1、赤軸J2にフォルマント周波数F2、青軸J3にフォルマント周波数F3をそれぞれ割り付けることにより、座標空間中の一点を定めることができ、この位置を次に説明する球体イメージの中心位置として設定する。
続くステップS507では直径設定処理が行われる。この処理は、ステップS505により三次元座標空間に割り付けられた中心位置に直径を付与して球体イメージの直径を設定して球体イメージを生成するもので、青軸J3によるフォルマント周波数F3に基づいて定められる。本実施形態では、図11に示すように、青軸J4の周波数は、表示画面33aの手前方向に低く、奥方向に高く定義されている。このため、球体イメージの直径を、フォルマント周波数F3が低いほど大きく、フォルマント周波数F3が高いほど小さくなるように設定することにより、球体イメージは、フォルマント周波数F3が低い場合に表示画面33aの手前に近くに位置し、フォルマント周波数F3が高い場合に表示画面33aの奥に位置するように生成される。
このように球体イメージの直径はフォルマント周波数F3の高低を表すが、フォルマントそのものには、性別、年齢、言語等の個人差を要因とするバラツキが必ず存在するため、そのバラツキの範囲をおおよそ表したものとしても設定されている。また、球体イメージの内側に当該球体イメージに対応する発音記号を表示することで、球体イメージとそれに対応する発音記号との関連が瞬時に把握できるので、発音記号の視覚的な把握を容易にしている。
なお、本ステップS507では生成する球体イメージの形状が視覚的に立体を呈するように、例えば、表示画面33aの上方よりも下方(また右側よりも左側)が色彩的に暗くなるような陰影をCG処理により与えている。また、後述するように、球体イメージの色彩に透過性を与えて視覚的な透明度を高めることで(透過表示)、球体イメージ同士が重畳表示された場合にも背後に位置する球体イメージの把握を容易にしている。
ステップS509では、メモリ22やデータベース23に格納された音声データの全てについてステップS503,S505,S507による処理が終了しているか否かを判断する処理が行われる。即ち、前述したフォルマント抽出処理により登録されて関連付けられた音声データについて、ステップS505,S507による球体イメージの座標割付が完了(終了)しているか否かを判断する。先の例では、当該学習者による日本語の母音(「あ」、「い」、「う」、「え」、「お」)に対応する音声データがメモリ22等に格納されているので、これら5つの音声データに対する球体イメージの割付が完了しているか否かを判断する。
そして、全データについての球体イメージの座標割付が終了していない場合には(S509;No)、再度ステップS503に処理を戻し、終了している場合には(S509;Yes)、図3に示す発音評価処理に戻る。これにより、フォルマント周波数F1〜F3に対応する音声データのフォルマント母音図の三次元イメージデータが出来上がる。
図12に示すように、先の例においては、「あ」の音声データに対応する球体イメージU1、「い」の音声データに対応する球体イメージU2、「う」の音声データに対応する球体イメージU3、「え」の音声データに対応する球体イメージU4、「お」の音声データに対応する球体イメージU5、がそれぞれ生成されて三次元座標空間に割り付けられる。なお、図12に示す例では、フォルマント周波数F3が「う」→「あ」→「え」→「お」→「い」の順番で高まるため、球体イメージの直径は、r3→r1→r4→r5→r2の順番に小さくなっていることが当該図からわかる。
なお、フォルマント母音図を三次元イメージデータではなく、二次元イメージデータとして生成する場合には、図7に示すイメージデータ生成処理を実行する。なお、図6に示す三次元のイメージデータ生成処理と実質的に同様の情報処理を行うステップについては、図7において図6の符号と同じ符号を付すものとし、その説明を省略する。
図7に示すように、二次元座標のイメージデータ生成処理では、ステップS501’により二次元座標空間生成処理が行われる。この処理は、メモリ22の作業エリア等に二次元座標空間をなすイメージデータ、つまり二次元座標イメージデータを生成する。これにより、例えば、図16(A)に示すようなCGによる二次元座標空間の画像イメージが形成可能となる。なお、この図16(A)においては、後述するステップS505により生成されて割付られる球体イメージU1〜U5が表示されているが、このステップS501’で生成される二次元座標イメージデータにはこれらの球体イメージU1等は含まれない。
即ち、図6を参照して説明したステップS501とほぼ同様に、表示画面33aの座標イメージ表示領域Daに、二次元座標を構成する緑軸J1および赤軸J2を表示し得るように各軸のイメージデータを形成する。本実施形態では、例えば、第1フォルマントの周波数軸(第1の周波数軸)として緑色に着色された緑軸J1を表示画面33aの縦(垂直)方向に、また第2フォルマントの周波数軸(第2の周波数軸)として赤色に着色された赤軸J2を表示画面33aの横(水平)方向に、それぞれ画面表示可能にイメージデータを生成する。
続くステップS503以下、S505、S507、S509については、図6に示す三次元座標のイメージデータ生成処理と同様、ステップS503によりフォルマント周波数を読み出した後、ステップS505により中心位置を設定する。なお、二次元座標空間生成処理の場合には、奥行き方向の青軸J3は設けていないので、フォルマント周波数F3については考慮せず、フォルマント周波数F1およびフォルマント周波数F2に基づいて、ステップS501’による二次元座標空間に球体イメージの中心位置を設定する。
ステップS507では直径設定処理が行われ、さらにステップS509によりメモリ22等に格納された音声データの全てについてステップS503,S505,S507による処理が終了しているか否かを判断する処理が行われる。そして、全データについての球体イメージの座標割付が終了している場合には(S509;Yes)、図3に示す発音評価処理に戻る。これにより、フォルマント周波数F1〜F3に対応する音声データのフォルマント母音図の二次元イメージデータが出来上がる。
図16(A)に示すように、先の例においては、「あ」の音声データに対応する球体イメージU1、「い」の音声データに対応する球体イメージU2、「う」の音声データに対応する球体イメージU3、「え」の音声データに対応する球体イメージU4、「お」の音声データに対応する球体イメージU5、がそれぞれ生成されて二次元座標空間に割り付けられる。なお、図16(B)に示す表示画面33aは、後述する回転命令によって回転した二次元座標空間の右側方から見たものが表示されているが、これを見て判るように、二次元座標のイメージデータ生成処理では、表示画面33aの奥行き方向について、フォルマント周波数F3による座標を与えていないため、各球体イメージU1〜U5が同一平面上に位置するようにイメージデータが生成されている。
なお、図16に示す例では、二次元座標空間に割り付けるものとして、球体イメージU1〜U5の場合を例示したが、これに限られることはなく、例えば、平面的な円形イメージであっても良い。ただし、この場合においても、円形イメージの直径の違いによって、視覚的な遠近感を与えることができるため、可能であればフォルマント周波数F3の高低に基づいて円形イメージの直径を定めた方が良い。
このようにイメージデータ生成処理によって生成された三次元または二次元によるフォルマント母音図は、図3に示すステップS600によるイメージデータ出力処理によってディスプレイ33に出力される。この処理は、イメージデータ出力プログラム22eにより実現されるもので、その詳細は図8に図示されている。そのため、ここからは図8を参照して説明する。
図8に示すように、イメージデータ出力処理では、まずステップS601により初期表示設定処理が行われる。この処理は、ディスプレイ33の表示画面33aに表示する画面設定として標準的なものを初期画面として設定するもので、例えば、座標イメージ表示領域Da内での表示レイアウトを、図11や図12に示すような三次元フォルマント母音図の全体が含まれる同図の正面画像に設定する。
続くステップS603では画像出力処理、即ち設定された表示レイアウトに基づいて、ステップS500により生成されたイメージデータをディスプレイ33の表示画面33aに出力する処理が行われる。これにより、先に説明した例では、当該学習者による日本語の母音(「あ」、「い」、「う」、「え」、「お」)のフォルマントが三次元フォルマント母音図として、図12に示すように表示画面33aに表示される。
次のステップS605では操作入力処理が行われる。この処理は、表示画面33aに表示されているスライドレバーS1〜S4や押ボタンスイッチS5がマウス等の入力デバイス34により選択された場合にその入力(レバーの移動位置や押しボタンのオンオフ)を受け付けて、続くステップS607に受け渡すものである。
ステップS607は、ステップS605により受付られた操作入力の情報を判断する処理で、入力された情報に基づいて、要求されている表示態様に応じた表示設定処理を起動するものである。例えば、座標イメージ表示領域Da内の表示を拡大や縮小し得るスライドレバーS4の拡大操作(スライドレバーを画面右側に移動させる操作)の入力があったと判断した場合には(S607;拡大)、ステップS611に処理を移行して拡大表示設定処理を行う。これにより、例えば、図13(A)に示す三次元フォルマント母音図は、図13(B)に示すように、三次元フォルマント母音図の一部を拡大表示した画面に変更される(図13(B)に示すスライドレバーS4’)。
これとは逆に、スライドレバーS4の縮小操作(スライドレバーを画面左側に移動させる操作)の入力があったと判断した場合には(S607;縮小)、ステップS613に処理を移行して縮小表示設定処理を行う。これにより、例えば、図13(B)に示す拡大された三次元フォルマント母音図が縮小されて図13(A)に示す座標イメージに変更される。なお、図13においては、例えば、球体イメージU3の近傍にフォルマント周波数F1〜F3が数値表示されているが、これは、例えば、図6に示すイメージデータ生成処理の直径設定処理(S507)の後に、フォルマント周波数F1〜F3を表す数値イメージを生成する数値イメージ生成処理を設けることによって、このようなフォルマント周波数の表示を可能にしている。
また、例えば、座標イメージ表示領域Da内の表示を当該領域Da中心で各軸周りに回転し得るスライドレバーS1〜3の回転操作の入力があったと判断した場合には(S607;回転)、ステップS615に処理を移行して回転表示設定処理を行う。なお、回転方向は、スライドレバーを移動させる方向(画面右側または左側)によって時計回りまたは反時計回りに決定されるものとする。これにより、例えば、図12に示す三次元フォルマント母音図は、図14や図15(A)に示すように、座標イメージ表示領域Da中心で緑軸J1,J1’,J5,J5’周りに回転した三次元フォルマント母音図で図12に示す正面イメージに対して画面右側方向から見た画像イメージに変更される(図14に示すスライドレバーS1’)。
また、図15(B)に示すようにスライドレバーS2を操作することで(図15(B)に示すスライドレバーS2’)、図12に示す三次元フォルマント母音図は、座標イメージ表示領域Da中心で赤軸J2,J2’,J6,J6’周りに座標イメージが回転し、さらに、図15(C)に示すようにスライドレバーS3を操作することで(図15(C)に示すスライドレバーS3’)、座標イメージ表示領域Da中心で青軸J3,J3’,J4,J4’周りに座標イメージが回転する。これにより、図15(B)に示す三次元フォルマント母音図は、図12に示す正面イメージに対して画面下側方向から見た画像イメージに変更され、図15(C)に示す三次元フォルマント母音図は、図12に示す正面イメージを反時計回りに180度回転した画像イメージに変更される。なお、図15(B)においては、スライドレバーS4を操作することによって座標イメージの拡大表示も併せて行っている(図15(B)に示すスライドレバーS4’)。
なお、図16(B)には、図16(A)に示す二次元フォルマント母音図の座標イメージを回転させた場合の表示例が図示されている。即ち、表示画面33aに二次元フォルマント母音図が表示されている場合において、例えば、スライドレバーS1を画面左側に移動させると、緑軸J1周りに回転して、図16(A)に示す正面イメージに対して画面右側方向から見た画像イメージに変更される(図16(B)に示すスライドレバーS1’)。なお、図16(B)に示すように、球体イメージに重ねて表示される発音記号は、このような回転に合わせて球体イメージと共に回転するのはではなく、常に、画面正面方向を向くように正面に追従して発音記号自体を回転させる画像処理を行う。これにより、ディスプレイ33を見る当該学習者の方向に向けて発音記号が画面表示されるので、球体イメージと共に発音記号が回転してその方向によっては発音記号が縦長や線状になって見難くなってしまうような事態を防止することが可能となる。
このように本実施形態では、三次元フォルマント母音図を単に正面方向(緑軸J1と赤軸J2とからなる二次元平面に垂直な方向)から表示するだけでなく、スライドレバーS1〜S3により三次元フォルマント母音図をその正面・背面・平面・底面・右側面・左側面の少なくとも一面を含む方向から自在に表示することができるので、特に、青軸J3方向に位置する第3フォルマントの周波数F3の違いを明確に把握することができる。即ち、これらの各面のうち2面または3面を含む方向(正面および右側面を含む方向、正面および左側面を含む方向、正面および平面を含む方向、正面および底面を含む方向、平面および右側面を含む方向、平面および左側面を含む方向、平面および背面を含む方向、底面および右側面を含む方向、底面および左側面を含む方向、底面および背面を含む方向、背面および右側面を含む方向、背面および左側面を含む方向、正面、平面および右側面を含む方向、正面、平面および左側面を含む方向、正面、底面および右側面を含む方向、正面、底面および左側面を含む方向、背面、平面および右側面を含む方向、背面、平面および左側面を含む方向、背面、底面および右側面を含む方向、背面、底面および左側面を含む方向)から、当該学習者に対して三次元フォルマント母音図を視覚的に把握させることができる。
なお、座標イメージ表示領域Da内における座標イメージ、球体イメージおよび発音記号の拡大、縮小、各方向の回転に関する技術は、既存のCG処理を用いることにより実現することができるので、ここではこれらのCG処理に関する説明は省略する。
また、例えば、座標イメージ表示領域Da内の表示を初期状態に戻す押ボタンスイッチS5の入力があったと判断した場合には(S607;リセット)、ステップS601に処理を移行して初期表示設定処理を行う。これにより、例えば、図12に示す三次元フォルマント母音図の表示、つまり正面から見た三次元フォルマント母音図に戻る。
なお、ステップS607により操作入力の情報がないと判断された場合には(S607;入力なし)、ステップS603に戻りその時の表示設定を保持し、つまり前回と同様、座標イメージ表示領域Da内の三次元フォルマント母音図の表示を変化させることなく、表示画面33aに出力する。また、エスケープキー等の表示処理の終了を命令するキー入力等があった場合には(S607;終了)、当該イメージデータ出力処理を終了する。
以上説明した例では、一人の学習者がマイク32に向かって日本語の母音(「あ」、「い」、「う」、「え」、「お」)を発音した場合について述べたが、二人以上の学習者による発音あるいは学習者による発音とその手本となるモデルデータについて、上記発音評価システムを適用しても良い。この場合には、図1に示すマイク32により二人以上の学習者の音声を集音し、各人ごとの音声データを識別し得るファイル名やコードを付与することにより、前述と同様の発音評価処理を各人ごとに行うことができるので、三次元フォルマント母音図や二次元フォルマント母音図をディスプレイ33に表示することが可能となる。
これにより、例えば、図17に示すように、三次元フォルマント母音図において二重表示することができる。即ち、図17に示す例では、一方の学習者がマイク32に向かって日本語の母音を発音した後、他方の学習者がマイク32に向かってフィンランド語の短母音を発音し、それぞれの母音に対する球体イメージU1〜U5(日本語の母音)および球体イメージV1〜V8(フィンランド語の短母音)をディスプレイ33の表示画面33bに表示した。
2種類の球体イメージU1〜U5および球体イメージV1〜V8には、それぞれ異なる着色が施されており、例えば、日本語母音の球体イメージU1〜U5は桃色、フィンランド語短母音の球体イメージV1〜V8は黄色に設定されている。また、これらの球体イメージには、それぞれの言語に対応した母音の発音記号がその内側に表示されているため、一目して両言語の母音発音の相違を把握することができる。
また、図17に示す表示例では、球体イメージU1〜U5,V1〜V8の画面表示を視覚的に透過にしているため、例えば、球体イメージU4と球体イメージV8や、球体イメージU1と球体イメージV3のように、両言語間のフォルマント周波数F1,F2が互い接近している場合であっても、その前後関係、つまり第3フォルマントの周波数F3の違いを視覚的に容易に把握することができる。
より具体的には、図18(A)に示す表示画面33bを非透過表示にした例と、図18(B)に示す表示画面33b’を透過表示にした例とを比較すると、図18(A)に示す球体イメージW2の場合には、非透過表示であるため、それよりも手前で直径の大きな球体イメージW1に隠れてしまいその存在を視覚的に確認することができない。ところが、図18(B)に示す球体イメージW2’の場合には、透過表示であるため、図18(A)と同様の配置であってもその前方に位置する球体イメージW1’に邪魔されることなくその存在を視覚的に把握することができる。
図19や図20に示す表示例は、前述したように、スライドレバーS1’の操作によって緑軸J1周りに座標イメージ表示領域Daを回転させたもので、これらの例においても、図19(A)や図20(A)に示す表示画面33bでは非透過表示、図19(B)や図20(B)に示す表示画面33b’では透過表示にそれぞれ設定している。このため、図18に示す各例と同様に、図19(A)や図20(A)に示す表示画面33bよりも、図19(B)や図20(B)に示す表示画面33b’の方が、各音声データに対応する球体イメージの位置関係を把握し易いことが、これらの図からわかる。
また、図19や図20に示す表示例では、図18に示す三次元フォルマント母音図をその正面方向(緑軸J1と赤軸J2とからなる二次元平面に垂直な方向)から見たものではなく、ほぼ側面方向(赤軸J2に沿った方向)またはほぼ上下方向(緑軸J1に沿った方向)から三次元フォルマント母音図を見たものを表示するため、各音声データに対応する球体イメージの位置関係として、青軸J3に対応する周波数F3の違いを容易に把握することができる。これにより、第3フォルマントに関連性の高い唇の形状、例えば唇の横方向の拡がり等の違いを容易に理解することが可能となる。
図21に示す表示例は、三次元フォルマント母音図において三重表示をした表示画面33cで、スライドレバーS1’の操作によって緑軸J1周りに座標イメージ表示領域Daを回転させたものである。この表示画面33cの場合、日本語の母音、フィンランド語の短母音および英語の短母音について三次元フォルマント母音図による各球体イメージを表示している。この表示例も透過表示に設定しているので、各音声データに対応する球体イメージの位置関係を把握し易いことがわかる。
なお、図17〜図21を参照して説明した各表示やその情報処理では、二重表示や三重表示の一例として、日本語の母音とフィンランド語の短母音を題材に三次元フォルマント母音図とその球体イメージを表示する表示画面33b,33cを説明したが、これに限られることはなく、お手本(発音の基準となるモデルデータ)については、例えば、マイク32からの音声入力に代えて、お手本としてデータベース23に予め格納されているモデルフォルマントデータ23aを読み込んで、そのフォルマント周波数F1〜F3に基づいてお手本となるイメージデータ等を生成しても良い。
この場合、お手本データについては、入力デバイス34により当該学習者によるお手本の選択によって、データベース23に格納されたモデルフォルマントデータ23a(お手本データ)によるフォルマント周波数F1〜F3を図6や図7に示すフォルマント周波数読出処理(S503)により読み出す。これにより、お手本データに対応する球体イメージの生成や三次元座標イメージへの割付けが可能となる。なお、読み出されるモデルフォルマントデータ23aは、前述した学習者データ入力処理によって得られた当該学習者に固有な身体的特徴を表す情報(性別・年齢・身長等)に基づいて、最適なものが選択される。
また、図4に示す音声データ取得処理において、ステップS209による音素区間検出処理およびステップS211による音素数カウント処理を行うことなく、図5に示すフォルマント抽出処理において、ステップS303によるフォルマント検出処理の後、検出したフォルマント周波数を中心に所定周波数幅の窓を設定しその窓の周波数範囲で音素区間を切り出して検出するように構成しても良い。これにより、例えば、「あ」、「い」、「う」、「え」、「お」の各母音の間を区切って発音することなく、「あ」〜「お」を連続的に発音した場合においても、音素区間を検出することができる。また、連続して母音が変化する二重母音や三重母音についても音素相当を検出することが可能となる。さらに、ステップS200〜S600を極めて高速に繰り返し処理可能な情報処理能力の高いCPU、メモリ等の情報処理装置を用いることによって、マイク32から入力された二重母音や三重母音の多重母音等についても、母音の移り変わりをリアルタイムにディスプレイ33の表示画面33aに表示することが可能となる。
具体的には、図22〜図25に示すように、例えば、球体イメージUnから球体イメージUn’に向かって順番(時系列的)にパラパラ漫画のように所定時間(例えば5ミリ秒)毎に表示されることで、二重母音による母音の渡り(転移状態)を視覚的に把握することができる。なお、このような二重母音による球体イメージUn(Un’)の転移をその軌跡により表現することで母音の渡りを視覚的に表すことが可能となるが、このような軌跡を残すことなく、単に球体イメージUn(Un’)の移動だけを視覚的に把握可能なゆっくりとした移動速度で表しても良い。
図22(A)に示す表示画面33dには、三次元フォルマント母音図の表示例として二重母音の場合が図示されており、また図22(B)に示す表示画面33dには、二次元フォルマント母音図の表示例として二重母音の場合が図示されている。また、図23(A)には、図22(A)に示す三次元フォルマント母音図の座標イメージを回転させた場合の表示例が図示されており(スライドレバーS1’を画面左側に移動)、図23(B)には座標イメージをさらに回転させた場合(スライドレバーS1”を画面左側にさらに移動)の表示例が図示されている。さらに、図24(A)および図24(B)には、楕円球体イメージを二重母音の表示例として表したものが図示されている。これらの図中符号Un,Un’は二重母音により転移する球体イメージを示す。このように球体イメージを上下に押しつぶしたような楕円状に変形させることにより、重なりあった球体イメージの前後の位置関係を視覚的に把握し易くなるので、当該学習者は母音の渡り具合をより容易に理解することができる。
なお、本実施形態では、緑軸J1および赤軸J2により構成される二次元座標イメージによる座標平面に対して垂直方向に遠近感を与えるため、表示画面33aのほぼ中心に仮想的な無限遠方に遠点Gpを設定し、この遠点Gpを中心に収束し得る矩形や同心円によるCG化された三次元立体グリッドを形成したが、これに代えて、例えば、図25(A)や図25(B)に示す表示画面33eのように、手前側から奥方向に向かって色の濃淡が濃くなるグラデーション(色彩やその色の濃さ・明るさ(輝度)の連続的な変化)による塗りつぶしよって、座標平面に対して垂直方向に遠近感を与えても良い。図25(B)には、このようなグラデーションにより視覚的な遠近感が付与された三次元フォルマント母音図に楕円球体イメージを二重母音の表示例として表したものが図示されている。これらの図中符号Um,Um’は二重母音により転移する楕円球体イメージを示す。なお、図22〜図25では、いずれも「母音の渡り」を明示するため、パラパラ漫画で言うところの1コマだけを図示しており、これら一部のコマの前後には「母音の渡り」の表示途中にある図略の複数コマが存在していることに留意されたい。
ここで、発音評価システム10による音声評価処理の拡張機能として、モデル音声出力処理(図9)とモデル画像出力処理(図10)を説明する。なお、これらの処理も、音声データ取得プログラム22b等と同様に、モデル音声出力プログラムやモデル画像出力プログラムがメモリ22上に読み出されて展開されてCPU21がそれらを実行することによって実現されるもので、音声評価処理とほぼ同時に並列処理されるものである。
図9に示すように、モデル音声出力処理では、ステップS801による所定の初期化処理の後、ステップS803により選択情報取得処理が行われる。この処理では、マウス等の入力デバイス34に選択された球体イメージU1等に関する選択対象情報を取得する。例えば、図12に示される表示画面33aにおいて、球体イメージU1がマウス(入力デバイス)によりクリック(選択)された場合には、選択対象が球体イメージU1である旨の選択対象情報を当該ステップS803により取得する。
続くステップS805では、音声ファイル取得処理が行われる。この処理は、ステップS803により得られた選択対象情報に基づいてこれに対応する母音のモデル音声データ23bをデータベース23から取得する。例えば、先の例では、球体イメージU1に対応する日本語の母音「あ」のモデル音声データ23bをデータベース23から取得する。なお、当該モデル音声データ23bは、例えばMP3等の汎用のファイル形式でデータベース23に格納されている。なお、ここで取得されるモデル音声データ23bは、前述した学習者データ入力処理によって得られた当該学習者に固有な身体的特徴を表す情報(性別・年齢・身長等)に基づいて、最適なものが選択される。
次のステップS807では、モデル音声出力処理が行われる。この処理は、データベース23から取得したモデル音声データ23bを再生しそのオーディオ出力をスピーカアンプ35に出力することで、当該学習者は、選択された母音のお手本となる発音を聞くことができる。つまり、当該学習者は、三次元フォルマント母音図の表示と同期して模範的な発音を耳で確かめることが可能となる。
また、図10に示すようにモデル画像出力処理では、ステップS901による所定の初期化処理の後、ステップS903により選択情報取得処理が行われる。この処理は、図9に示す選択情報取得処理(S803)と同様で、入力デバイス34に選択された球体イメージU1等に関する選択対象情報を取得する。
続くステップS905では、画像ファイル取得処理が行われる。この処理は、ステップS903により得られた選択対象情報に基づいてこれに対応する母音のモデル画像データ23cをデータベース23から取得する。例えば、先の例では、球体イメージU1に対応する日本語の母音「あ」を発音する際の口唇や口腔の画像で、発音の前中後等にわたる複数のモデル画像データ23cをデータベース23から取得する。なお、当該モデル画像データ23cは、例えばJPEGやMPEG等の汎用のファイル形式でデータベース23に格納されている。なお、ここで取得されるモデル画像データ23cは、前述した当該学習者データ入力処理によって得られた当該学習者に固有な身体的特徴を表す情報(性別・年齢・身長等)に基づいて、最適なものが選択される。
次のステップS907では、モデル画像出力処理が行われる。この処理は、データベース23から取得したモデル画像データ23cをディスプレイ33に出力して表示することで、当該学習者は、選択された母音のお手本となる口唇等の画像を見ることができる。つまり、当該学習者は、三次元フォルマント母音図の表示と同期して模範的な口唇等の動きを目で確かめることが可能となる。なお、このモデル画像データ23cの画面表示は、例えば、操作パネル表示領域Db(図11参照)等の表示画面33aの下方に形成される別ウィンドウ内に出力される。
例えば、図26に示される表示画面33g(図26(A)),33g’(図26(B))は、発音時の口唇正面イメージで顔の正面から見た様子を表示するもので、上から順番にパラパラ漫画のように所定時間(例えば5ミリ秒)毎に表示される。
また、図27に示される表示画面33h(図27(A)),33h’(図27(B))は、発音時の口唇正面イメージで顔の左斜め前側方から見た様子を表示するもので、図26と同様、上から順番に所定時間(例えば5ミリ秒)毎に表示される。
また、図28に示される表示画面33j(図28(A)),33j’(図28(B))は、発音時の口唇正面イメージおよび口腔三次元イメージで顔の左側方から見た様子を表示するもので、図26と同様、上から順番に所定時間(例えば5ミリ秒)毎に表示される。
さらに、図29に示される表示画面33k(図29(A)),33k’(図29(B)),33k”(図29(C))には、発音時の口腔三次元イメージで、唇、歯、舌の様子がわかるように、これらだけを取り出したものが表示される。なお、図29(A)は正面から見たもの、図29(B)は左側斜め前方から見たもの、図29(C)は左側方から見たものである。
なお、図26〜図29では、いずれもモデル画像の表示例を明示するため、パラパラ漫画で言うところの所定時間前後の2コマ(図29では3コマ)だけを図示しており、これら一部のコマの前後にはモデル画像の表示途中にある図略の複数コマが存在しており、こによりパラパラ漫画のような原理で動画が構成されていることに留意されたい。
また、図11に示すスライドレバーS1,S2,S3のように、モデル画像の頭部(顔下部)に対して仮想的な三次元の軸(X軸,Y軸,Z軸)を設定しこれらの軸に沿った回転を与え得るスライドレバーをX軸、Y軸、Z軸に対応してディスプレイ33に表示するとともに、表示されているスライドレバーがマウス等の入力デバイス34によりこれらのスライドレバーが選択されて移動した場合にその入力(移動位置)を受け付けて、指定された軸に沿ってモデル画像の頭部(顔下部)が自在に回転するように画像処理を可能に構成しても良い(回転に関する技術は、既存のCG処理を用いることにより実現することができるので、ここではこれらのCG処理に関する説明は省略する)。
このようにモデル画像の頭部(顔下部)を自在回転可能にすることで、唇、歯、口蓋、鼻腔、咽頭、舌等の調音器官(調音器官構成部位)を収容した顔の、正面・背面・平面・底面・右側面・左側面の少なくとも一面を含む口腔三次元イメージを画面表示できるので、フォルマント周波数F1〜F3に影響を与える調音器官(唇、歯、口蓋、鼻腔、咽頭、舌等)の動きを、正面の方向から見た座標イメージの他に、背面・平面・底面・右側面・左側面の各方向からや、これらの各面のうち2面または3面を含む方向(正面および右側面を含む方向、正面および左側面を含む方向、正面および平面を含む方向、正面および底面を含む方向、平面および右側面を含む方向、平面および左側面を含む方向、平面および背面を含む方向、底面および右側面を含む方向、底面および左側面を含む方向、底面および背面を含む方向、背面および右側面を含む方向、背面および左側面を含む方向、正面、平面および右側面を含む方向、正面、平面および左側面を含む方向、正面、底面および右側面を含む方向、正面、底面および左側面を含む方向、背面、平面および右側面を含む方向、背面、平面および左側面を含む方向、背面、底面および右側面を含む方向、背面、底面および左側面を含む方向)から、口腔三次元イメージとして当該学習者に対して視覚的に明示することができる。
さらに、唇、歯、口蓋、鼻腔、咽頭、舌等の調音器官を収容する鼻、頬、顎、首等(調音器官収容部位)にそれぞれ対応するスライドレバーを、図11に示すスライドレバーS1,S2,S3のようにディスプレイ33に表示可能に設け、これらのスライドレバーがマウス等の入力デバイス34により選択されて移動した場合にその入力(移動位置)を受け付け、この入力に従って、鼻、頬、顎、首等の三次元イメージが視覚的に非透過から半透過を経て透過(表示なし)に変化するように画像処理を可能に構成しても良い(視覚的な透過・半透過等にする技術は、既存のCG処理を用いることにより実現することができるので、ここではこれらのCG処理に関する説明は省略する)。これにより、フォルマント周波数F1〜F3に影響を与える、唇、歯、口蓋、鼻腔、咽頭、舌等の調音器官の動きを、視覚的に透過または半透過に表示される鼻、頬、顎、首等を透して当該学習者に対して視覚的に明示することができる。なお、ここでは、唇、歯、口蓋、鼻腔、咽頭、舌等の調音器官を非透過に表示しているが、唇、歯、口蓋、鼻腔、咽頭、舌等に対応付けたスライドレバーをディスプレイ33に表示しまたその入力を受け付けるように構成し、さらにそれらの入力に従って、唇、歯、口蓋、鼻腔、咽頭、舌等の三次元イメージが視覚的に非透過から半透過を経て透過(表示なし)に変化するように画像処理を可能に構成しても良い。これにより、特に注目をしたい部位(例えば舌)だけを他の部位(例えば歯や口蓋)に比べて視覚的に浮かびあがらせたり、また取り出すように当該学習者に見せることができるので、より一層その様子を視覚的に明示することができる。例えば、図29(A)や図29(B)に示すように、舌の窪みや膨らみの状態(舌の凹凸状態)を把握することができる。
なお、図示されてはいないが、例えば、発音時の口腔断面イメージをモデル画像データ23cとして、例えばJPEGやMPEG等の汎用のファイル形式でデータベース23に格納し、それを読み出してディスプレイ33に表示可能に構成しても良い。また、動画ファイルをMPEG等の汎用のファイル形式でデータベース23に格納し球体イメージに対応した発音時の口唇等の状態を動画で表示しても良い。
また、モデル画像データ23cに加えて、モデル音声データ23bもデータベース23から取得することで、図26〜図29に示す画像表示とともに、選択された母音のお手本となるモデル音声をスピーカアンプ35に出力するように構成しても良い。
さらにまた、当該学習者の口唇を図略のビデオカメラで顔の正面、斜め前方、側方等から撮影しその画像をディスプレイ33に表示したり、またモデル画像データ23cによるモデル画像と比較可能にモデル画像と並べてディスプレイ33に表示するように構成しても良い。これにより、当該学習者は、自分の口唇とお手本となるモデル画像の口唇を視覚的に比較できるので、正面等から見た口唇の開き具合の差異を容易に把握することができる。
以上説明したように、本実施形態に係る発音評価システム10によると、音声データ取得プログラム22bにより取得した評価対象の音声データから、フォルマント周波数F1、フォルマント周波数F2およびフォルマント周波数F3をフォルマント抽出プログラム22cによって抽出する。そして、イメージデータ生成プログラム22dにより、フォルマント周波数F1に対応する緑軸J1とフォルマント周波数F2に対応する赤軸J2とからなる二次元座標イメージの各軸J1,J2にフォルマント周波数F1およびフォルマント周波数F2を割り付けて定まる座標を中心に球体イメージU1(円形イメージ)を生成するとともに、二次元座標イメージによる座標平面に対し垂直方向の遠近感をフォルマント周波数F3に基づいて球体イメージU1に与え、イメージデータ出力プログラム22eにより二次元仮想座標イメージおよび球体イメージU1をディスプレイ33に出力する。
これにより、フォルマント周波数F1およびフォルマント周波数F2による二次元座標平面の球体イメージに対してさらに垂直方向の遠近感をフォルマント周波数F3に基づいて与えることで、これまであまり着目されることがなかったフォルマント周波数F3の高低に基づいて唇の形状を視覚的に明示することができる。したがって、当該学習者は、自分の発音が目標の音に近づいているか否かを視覚的に判断することができるので、個人学習に適した発音評価システムを提供することができる。
例えば、二次元座標平面に対し垂直方向の遠近感を与える例として、球体イメージU1の直径がフォルマント周波数F3に基づいて、フォルマント周波数F3が低いほど球体イメージU1の直径を大きく設定し、フォルマント周波数F3が高いほど球体イメージU1の直径を小さく設定する。これにより、当該学習者に対してフォルマント周波数F3の大きさを視覚的に把握させることが可能となる。
また、二次元座標平面に対し垂直方向の遠近感を与える他の例として、イメージデータ生成プログラム22dでは、二次元座標イメージによる座標平面に対し垂直方向に延びる青軸J3を加えて三次元座標イメージを生成しこの青軸J3にフォルマルト周波数F3を割り付け、球体イメージU1は、その直径がフォルマント周波数F3に基づいて設定される球体で、三次元形状に生成する。これにより、例えば、フォルマント周波数F3が低いほど球形イメージU1の直径を大きく設定し、フォルマント周波数F3が高いほど球形イメージU1の直径を小さく設定することで、当該学習者に対してフォルマント周波数F3の大きさを視覚的に把握させることが可能となる。
また、本実施形態に係る発音評価システム10によると、イメージデータ生成プログラム22dは、三次元座標イメージによる座標空間を、正面・背面・平面・底面・右側面・左側面の少なくとも一面を含む三次元空間として、イメージデータ出力プログラム22eによるディスプレイ33への画面表示可能に生成する。これにより、フォルマント周波数F1およびフォルマント周波数F2による二次元座標平面を正面から見た座標イメージの他に、背面・平面・底面・右側面・左側面の各方向からや、これらの各面のうち2面または3面を含む方向(正面および右側面を含む方向、正面および左側面を含む方向、正面および平面を含む方向、正面および底面を含む方向、平面および右側面を含む方向、平面および左側面を含む方向、平面および背面を含む方向、底面および右側面を含む方向、底面および左側面を含む方向、底面および背面を含む方向、背面および右側面を含む方向、背面および左側面を含む方向、正面、平面および右側面を含む方向、正面、平面および左側面を含む方向、正面、底面および右側面を含む方向、正面、底面および左側面を含む方向、背面、平面および右側面を含む方向、背面、平面および左側面を含む方向、背面、底面および右側面を含む方向、背面、底面および左側面を含む方向)から、当該学習者に対して三次元空間の座標イメージを視覚的に把握させることができるので、フォルマント周波数F3の大きさを視覚的に容易に把握させることが可能となる。また、表示対象となる球形イメージU1が複数存在する場合には、二次元座標平面を正面から見たときには重なって表示されたとしても、三次元空間の座標イメージでは離れて表示されるので、当該学習者に対して複数の球形イメージU1〜U5間の周波数関係を視覚的に容易に把握させることが可能となる。したがって、当該学習者は、自分の発音が目標の音に近づいているか否かを視覚的に容易に判断することができるので、個人学習により適した発音評価システムを提供することができる。
さらに、本実施形態に係る発音評価システム10によると、音声データ取得プログラム22bにより取得される音声データが複数である場合、イメージデータ生成プログラム22dは、複数の音声データごとに対応する複数の球体イメージU1〜U5を、視覚的に透明または半透明に生成する。これにより、表示対象となる球体イメージU1〜U5が複数存在する場合には、二次元座標平面を正面から見たときには重なって表示されたとしても、前景側に位置する球体イメージU1〜U5が視覚的に透明または半透明であるため、背景側に位置する球体イメージが透けて見える。このため、当該学習者に対して複数の球体イメージU1〜U5の前後関係から周波数の違いを視覚的に把握させることが可能となる。したがって、当該学習者は、自分の発音が目標の音に近づいているのか否かを視覚的に容易に判断することができるので、個人学習により適した発音評価システムを提供することができる。
さらにまた、本実施形態に係る発音評価システム10によると、音声データ取得プログラム22bにより取得される複数の音声データには、発音の基準となるモデルデータが含まれる。これにより、モデルデータとの違いを、フォルマント周波数F1〜F3の各周波数関係を球体イメージU1として表示できるので、当該学習者に対して手本となるモデルデータによる球体イメージV1の位置関係からフォルマント周波数F1〜F3の違いを視覚的に把握させることが可能となる。したがって、当該学習者は、自分の発音とモデルデータによる発音との差異を視覚的に容易に判断することができるので、個人学習により適した発音評価システムを提供することができる。
また、本実施形態に係る発音評価システム10によると、ディスプレイ33に表示された球体イメージU1を入力デバイス34により選択し、この入力デバイス34により選択された球体イメージU1に対応するデータベース23のモデル音声データ23bに基づいて手本となる発音をスピーカアンプ35から出力をする。これにより、視覚に加えて聴覚からもフォルマント周波数F1〜F3の違いを把握させることが可能となる。したがって、当該学習者は、自分の発音と他人等の発音との差異を視覚に加えて聴覚的にも判断することができるので、個人学習により一層適した発音評価システムを提供することができる。
また、本実施形態に係る発音評価システム10によると、ディスプレイ33に表示された球体イメージU1を入力デバイス34により選択し、この入力デバイス34により選択された球体イメージU1に対応するデータベース23のモデル画像データ23cに基づいて手本となる口やその付近の顔部分の画像(動画や静止画)あるいは発音時の口腔断面のイメージ画像をディスプレイ33に出力をする。これにより、フォルマント周波数F1〜F3に影響を与える、唇、歯、口蓋、鼻腔、咽頭、舌等の調音器官の動きを、口唇正面イメージとして当該学習者に対して視覚的に明示できるので、よりさらに個人学習により適した発音評価システムを提供することができる。
なお、発音時の口腔三次元イメージを生成するように構成しても良い。これにより、フォルマント周波数F1〜F3に影響を与える、唇、歯、口蓋、鼻腔、咽頭、舌等の調音器官の動きを、口腔三次元イメージとして当該学習者に対して視覚的に明示できるので、よりさらに個人学習により適した発音評価システムを提供することができる。
なお、本実施形態に係る発音評価処理は、音声データ取得プログラム22b、フォルマント抽出プログラム22c、イメージデータ生成プログラム22d、イメージデータ出力プログラム22eにより実現される。具体的には、コンピュータを、音声データ取得プログラム22bによりマイク32から取得した評価対象の音声データから、フォルマント周波数F1、フォルマント周波数F2およびフォルマント周波数F3をフォルマント抽出プログラム22cにより抽出し、イメージデータ生成プログラム22dにより、フォルマント周波数F1に対応する緑軸J1とフォルマント周波数F2に対応する赤軸J2とからなる二次元座標イメージの各軸J1,J2にフォルマント周波数F1およびフォルマント周波数F2を割り付けて定まる座標を中心に球体イメージ(円形イメージ)U1を生成するとともに、二次元座標イメージによる座標平面に対し垂直方向の遠近感をフォルマント周波数F3に基づいて球体イメージに与え、イメージデータ出力プログラム22eにより二次元仮想座標イメージおよび球体イメージをディスプレイ33に出力するように機能させる。
これにより、フォルマント周波数F1およびフォルマント周波数F2による二次元座標平面の球体イメージに対してさらに垂直方向の遠近感をフォルマント周波数F3に基づいて与えることで、これまであまり着目されることがなかったフォルマント周波数F3の高低に基づいて唇の形状を視覚的に明示することができる。したがって、当該学習者は、自分の発音が目標の音に近づいているのか否かを視覚的に判断することができるので、個人学習に適した発音評価プログラムを提供することができる。
なお、以上説明した実施形態では、日本語、英語、フィンランド語の各言語について例示して説明したが、本発明の適用はこれらの言語に限定されるものではなく、例えば、ドイツ語、フランス語、スペイン語、中国語、等の全世界の全言語における母音(単母音、二重母音等の多重母音)についての発音評価に適用することができる。