JP2011076044A

JP2011076044A - 発音評価システムおよび発音評価プログラム

Info

Publication number: JP2011076044A
Application number: JP2009230502A
Authority: JP
Inventors: Isei Toshiko Jaakkola; 伊勢井敏子ヤーッコラ
Original assignee: Chubu University
Current assignee: Chubu University
Priority date: 2009-10-02
Filing date: 2009-10-02
Publication date: 2011-04-14
Anticipated expiration: 2029-10-02
Also published as: JP5469984B2

Abstract

【課題】個人学習に適した発音評価システムおよび発音評価プログラムを提供する。
【解決手段】本実施形態に係る発音評価システムによると、音声データ取得プログラムにより取得した評価対象の音声データから、フォルマント周波数Ｆ１〜Ｆ３をフォルマント抽出プログラムによって抽出する。そして、イメージデータ生成プログラムにより、フォルマント周波数Ｆ１に対応する緑軸Ｊ１とフォルマント周波数Ｆ２に対応する赤軸Ｊ２とからなる二次元座標イメージの各軸Ｊ１，Ｊ２にフォルマント周波数Ｆ１，Ｆ２を割り付けて定まる座標を中心に円形イメージを生成するとともに、二次元座標イメージによる座標平面に対し垂直方向の遠近感をフォルマント周波数Ｆ３に基づいて円形イメージに与え、イメージデータ出力プログラムにより二次元仮想座標イメージおよび円形イメージをディスプレイに出力する。
【選択図】図１２

Description

本発明は、言語発音の学習を支援する発音評価システムおよび発音評価プログラムに関するものである。

英語等の言語発音を学習する者（以下「学習者」という）は、下記非特許文献１に挙げられるような教科書を参考に発音練習をしていることが多い。例えば、基本母音の発音学習においては、口唇の開き具合や口腔内における舌の位置を模式的に表した国際音声記号（ＩＰＡ；（International Phonetic Alphabet）による図表（同文献の第１５頁に示される第５図、以下「ＩＰＡ母音図」という）を用いて、発音記号で表される母音とその発音時における舌の位置関係とを把握した発音練習を可能にしている。なお、図３０にＩＰＡ母音図の例を示す（出典は、http://www.langsci.ucl.ac.uk/ipa/vowels.html）。

特開２００６−１２６４９８号公報竹林滋・渡邊末耶子・清水あつ子・斎藤弘子、共著「初級英語音声学」株式会社大修館書店出版初版１９９１年５月１日

ところが、図３０に示すようなＩＰＡ母音図は、口腔内における舌位置の高低や前後は把握できるが、唇の形状については情報が不足している。例えば、唇の丸めは、その有無が発音記号で把握できるものの、唇の突き出し具合については、その状態が記号化されているわけではなく何等の情報がない。また、唇の丸めを示す情報も記号によるため、その意味が理解できなければ役に立たない。

そこで、このような問題を解決し得る技術として、例えば、上記特許文献１に開示される「英語の発音の学習を支援するためのプログラム、英語発音学習支援方法、英語発音支援装置、英語発音支援システム、及びプログラムを記録した記憶媒体」がある。この技術によると、音素を表す表音文字である音素文字を表示し、その音素を発音する際に必要な口唇や口腔、鼻腔、咽喉などの発声器官の動きを示す動画を表示し、その音素が発声された音声を出力することにより、英語の学習者が、表示された音素文字や動画を見て、出力された音声を聞いて、音素毎の発音の学習を行うことができるようになっている。

しかしながら、この種の技術では、学習者は表示される動画等を一方的に見るだけにとどまるため、たとえ手本となるモデル画像に習って舌の位置や唇の形状を意識しても、自分の発音が目標の音に近づいているのか否かを視覚的に判断することは難しい。つまり、上記特許文献１に開示される技術は、個人学習（一人での学習）には向いていない。

本発明は、上述した課題を解決するためになされたもので、個人学習に適した発音評価システムおよび発音評価プログラムを提供することを目的とする。

上記目的を達成するため、特許請求の範囲に記載された請求項１の技術的手段を採用する。この手段によると、音声データ取得手段により取得した評価対象の音声データから、第１フォルマント、第２フォルマントおよび第３フォルマントをフォルマント抽出手段によって抽出する。そして、イメージ生成手段により、第１の周波数軸と第２の周波数軸とからなる二次元座標イメージの周波数軸に第１フォルマントおよび第２フォルマントを割り付けて定まる座標を中心に円形イメージを生成するとともに、二次元座標イメージによる座標平面に対し垂直方向の遠近感を第３フォルマントの周波数に基づいて円形イメージに与え、イメージ出力手段により二次元仮想座標イメージおよび円形イメージを画面表示可能に出力する。つまり、第３フォルマント（の周波数）に基づく情報を円形イメージの遠近感として表現する。

フォルマント抽出手段により抽出される、第１フォルマント、第２フォルマントおよび第３フォルマントは、音声データに含まれる音声周波数のスペクトルで時間的に変化する周波数のピークであり、このピークの周波数（以下、「フォルマントの周波数」または「フォルマント周波数」という）は、唇、歯、口蓋、鼻腔、咽頭、舌等の調音器官の動きにより大きく影響される。特に、第３フォルマントの周波数は、本願発明者の研究により唇の形状と深い関わりをもっていることがわかっている。このため、第１フォルマントの周波数および第２フォルマントの周波数による二次元座標平面の円形イメージに対してさらに垂直方向の遠近感を第３フォルマントの周波数に基づいて与えることで、これまであまり着目されることがなかった第３フォルマントの周波数による情報（第３フォルマント周波数の高低）に基づいて唇の形状を視覚的に明示することができる。

また、特許請求の範囲に記載された請求項２の技術的手段を採用する。この手段によると、二次元座標平面に対し垂直方向の遠近感を与える例として、円形イメージの直径が第３フォルマントの周波数に基づいて設定される。一般に、表示したイメージの大きさが大きいほど距離的に近い感覚を、また小さいほど距離的に遠い感覚を視覚的に与えるので、例えば、第３フォルマントの周波数が低いほど円形イメージの直径を大きく設定し、同周波数が高いほど円形イメージの直径を小さく設定することで、学習者に対して第３フォルマントの周波数の大きさを視覚的に把握させることが可能となる。なお、第３フォルマントの周波数が高いほど直径を大きく、周波数が低いほど直径を小さく設定しても良い。

また、特許請求の範囲に記載された請求項３の技術的手段を採用する。この手段によると、二次元座標平面に対し垂直方向の遠近感を与える例として、イメージ生成手段は、二次元座標イメージによる座標平面に対し垂直方向に延びる第３の周波数軸を加えて三次元座標イメージを生成しこの第３の周波数軸に第３フォルマントの周波数を割り付け、円形イメージは、その直径が第３フォルマントの周波数に基づいて設定される球体で、三次元形状に生成される。一般に、表示したイメージの大きさが大きいほど距離的に近く、また小さいほど距離的に遠い、感覚を視覚的に与えるので、二次元座標平面に対し垂直方向に延びる第３の周波数軸を加え、これに第３フォルマントの周波数に基づいて直径が設定される球体イメージを割り付ける。そして、例えば、第３フォルマントの周波数が低いほど球形イメージの直径を大きく設定し、同周波数が高いほど球形イメージの直径を小さく設定することで、学習者に対して第３フォルマントの周波数の大きさを視覚的に把握させることが可能となる。なお、第３フォルマントの周波数が高いほど直径を大きく、周波数が低いほど直径を小さく設定しても良い。

また、特許請求の範囲に記載された請求項４の技術的手段を採用する。この手段によると、イメージ生成手段は、三次元座標イメージによる座標空間を、正面・背面・平面・底面・右側面・左側面の少なくとも一面を含む三次元空間として、イメージ出力手段による画面表示可能に生成する。これにより、第１フォルマントの周波数および第２フォルマントの周波数による二次元座標平面を正面の方向から見た座標イメージの他に、背面・平面・底面・右側面・左側面の各方向からや、これらの各面のうち２面または３面を含む方向（正面および右側面を含む方向、正面および左側面を含む方向、正面および平面を含む方向、正面および底面を含む方向、平面および右側面を含む方向、平面および左側面を含む方向、平面および背面を含む方向、底面および右側面を含む方向、底面および左側面を含む方向、底面および背面を含む方向、背面および右側面を含む方向、背面および左側面を含む方向、正面、平面および右側面を含む方向、正面、平面および左側面を含む方向、正面、底面および右側面を含む方向、正面、底面および左側面を含む方向、背面、平面および右側面を含む方向、背面、平面および左側面を含む方向、背面、底面および右側面を含む方向、背面、底面および左側面を含む方向）から、学習者に対して三次元空間の座標イメージを視覚的に把握させることができるので、第３フォルマントの周波数の大きさを視覚的に容易に把握させることが可能となる。また、表示対象となる球形イメージが複数存在する場合には、二次元座標平面を正面から見たときには重なって表示されたとしても、三次元空間の座標イメージでは離れて表示されるので、学習者に対して複数の球形イメージ間の周波数関係を視覚的に容易に把握させることが可能となる。

また、特許請求の範囲に記載された請求項５の技術的手段を採用する。この手段によると、音声データ取得手段により取得される音声データが複数である場合、イメージ生成手段は、複数の音声データごとに対応する複数の円形イメージを、視覚的に透明または半透明に生成する。これにより、表示対象となる円形イメージが複数存在する場合には、二次元座標平面を正面から見たときには重なって表示されたとしても、前景側に位置する円形イメージが視覚的に透明または半透明であるため、背景側に位置する円形イメージが透けて見える。このため、学習者に対して複数の円形イメージの前後関係から周波数の違いを視覚的に把握させることが可能となる。

また、特許請求の範囲に記載された請求項６の技術的手段を採用する。この手段によると、音声データ取得手段により取得される複数の音声データには、複数人による音声データが含まれる。これにより、複数人による音声データについて、第１フォルマント、第２フォルマントおよび第３フォルマントの各周波数関係を円形イメージとして表示できるので、学習者に対して複数人による円形イメージの位置関係から各フォルマントの周波数の違いを視覚的に把握させることが可能となる。

また、特許請求の範囲に記載された請求項７の技術的手段を採用する。この手段によると、音声データ取得手段により取得される複数の音声データには、発音の基準となるモデルデータが含まれる。これにより、モデルデータとの違いを、第１フォルマント、第２フォルマントおよび第３フォルマントの各周波数関係を円形イメージとして表示できるので、学習者に対して手本となるモデルデータによる円形イメージの位置関係から各フォルマントの周波数の違いを視覚的に把握させることが可能となる。

また、特許請求の範囲に記載された請求項８の技術的手段を採用する。この手段によると、画面表示された円形イメージを任意に選択可能なイメージ選択手段と、イメージ選択手段により選択された円形イメージに対応する音声データに基づいて音響出力をする音声出力手段と、を備える。これにより、視覚に加えて聴覚からも各フォルマントの周波数の違いを把握させることが可能となる。

また、特許請求の範囲に記載された請求項９の技術的手段を採用する。この手段によると、画面表示された円形イメージを任意に選択可能なイメージ選択手段と、イメージ選択手段により選択された円形イメージに対応する音声データに基づいて、発音時の口唇および口腔内の三次元形状を口腔三次元イメージとして生成する口腔三次元イメージ生成手段と、口腔三次元イメージを画面表示可能に出力するイメージ出力手段と、を備える。これにより、各フォルマント周波数に影響を与える、唇、歯、口蓋、鼻腔、咽頭、舌等の調音器官の動きを、口腔三次元イメージとして学習者に対して視覚的に明示できるので、よりさらに個人学習により適した発音評価システムを提供することができる。

また、特許請求の範囲に記載された請求項１０の技術的手段を採用する。この手段によると、口腔三次元イメージ生成手段は、発音時の口腔内の三次元形状を構成する「唇、歯、口蓋、鼻腔、咽頭、舌等の調音器官を構成する調音器官構成部位」の少なくとも一つの三次元イメージを視覚的に不透過に生成し、発音時の口唇を含んで調音器官構成部位を収容する「鼻、頬、顎、首等の調音器官収容部位」の少なくとも一つを視覚的に透過または半透過に生成する。これにより、各フォルマント周波数に影響を与える、唇、歯、口蓋、鼻腔、咽頭、舌等の調音器官の動きを、視覚的に透過または半透過に生成される調音器官収容部位を通して学習者に対し視覚的に明示できるので、よりさらに個人学習により適した発音評価システムを提供することができる。

また、特許請求の範囲に記載された請求項１１の技術的手段を採用する。この手段によると、口腔三次元イメージ生成手段は、調音器官収容部位を含む顔の、正面・背面・平面・底面・右側面・左側面の少なくとも一面を含む口腔三次元イメージをイメージ出力手段による画面表示可能に生成する。これにより、各フォルマント周波数に影響を与える、唇、歯、口蓋、鼻腔、咽頭、舌等の調音器官の動きを、正面の方向から見た座標イメージの他に、背面・平面・底面・右側面・左側面の各方向からや、これらの各面のうち２面または３面を含む方向（正面および右側面を含む方向、正面および左側面を含む方向、正面および平面を含む方向、正面および底面を含む方向、平面および右側面を含む方向、平面および左側面を含む方向、平面および背面を含む方向、底面および右側面を含む方向、底面および左側面を含む方向、底面および背面を含む方向、背面および右側面を含む方向、背面および左側面を含む方向、正面、平面および右側面を含む方向、正面、平面および左側面を含む方向、正面、底面および右側面を含む方向、正面、底面および左側面を含む方向、背面、平面および右側面を含む方向、背面、平面および左側面を含む方向、背面、底面および右側面を含む方向、背面、底面および左側面を含む方向）から、口腔三次元イメージとして学習者に対して視覚的に明示できるので、よりさらに個人学習により適した発音評価システムを提供することができる。

また、特許請求の範囲に記載された請求項１２の技術的手段を採用する。この手段によると、コンピュータを、音声データ取得手段により音声入力装置から取得した評価対象の音声データから、第１フォルマント、第２フォルマントおよび第３フォルマントをフォルマント抽出手段により抽出し、イメージ生成手段により、第１の周波数軸と第２の周波数軸とからなる二次元座標イメージの周波数軸に第１フォルマントおよび第２フォルマントを割り付けて定まる座標を中心に円形イメージを生成するとともに、二次元座標イメージによる座標平面に対し垂直方向の遠近感を第３フォルマントの周波数に基づいて円形イメージに与え、イメージ出力手段により二次元仮想座標イメージおよび円形イメージを画像出力装置に出力するように機能させる。つまり、第３フォルマント（の周波数）に基づく情報を円形イメージの遠近感として表現する。

フォルマント抽出手段により抽出される、第１フォルマント、第２フォルマントおよび第３フォルマントは、音声データに含まれる音声周波数のスペクトルで時間的に変化する周波数のピークであり、各フォルマント周波数は、唇、歯、口蓋、鼻腔、咽頭、舌等の調音器官の動きにより大きく影響をする。特に、第３フォルマントの周波数は、本願発明者の研究により唇の形状と深い関わりをもっていることがわかっている。このため、第１フォルマントの周波数および第２フォルマントの周波数による二次元座標平面の円形イメージに対してさらに垂直方向の遠近感を第３フォルマントの周波数に基づいて与えることで、これまであまり着目されることがなかった第３フォルマントの周波数による情報（第３フォルマント周波数の高低）に基づいて唇の形状を視覚的に明示することができる。

請求項１の発明では、第１フォルマントおよび第２フォルマントによる二次元座標平面の円形イメージに対してさらに垂直方向の遠近感を第３フォルマントの周波数に基づいて与える。つまり、第３フォルマントに基づく情報を円形イメージの遠近感として表現することで、これまであまり着目されることがなかった第３フォルマントによる情報（第３フォルマント周波数の高低）に基づいて唇の形状を視覚的に明示することができる。したがって、学習者は、自分の発音が目標の音に近づいているのか否かを視覚的に判断することができるので、個人学習に適した発音評価システムを提供することができる。

請求項２の発明では、例えば、第３フォルマントの周波数が低いほど円形イメージの直径を大きく設定し、同周波数が高いほど円形イメージの直径を小さく設定することで、学習者に対して第３フォルマントの周波数の大きさを視覚的に把握させることが可能となる。したがって、個人学習に適した発音評価システムを提供することができる。

請求項３の発明では、例えば、第３フォルマントの周波数が低いほど球形イメージの直径を大きく設定し、同周波数が高いほど球形イメージの直径を小さく設定することで、学習者に対して第３フォルマントの周波数の大きさを視覚的に把握させることが可能となる。したがって、個人学習に適した発音評価システムを提供することができる。

請求項４の発明では、第１フォルマントの周波数および第２フォルマントの周波数による二次元座標平面を正面から見た座標イメージの他に、背面・平面・底面・右側面・左側面の各方向等、様々な方向の視点から、学習者に対して三次元空間の座標イメージを視覚的に把握させることができるので、第３フォルマントの周波数の大きさを視覚的に容易に把握させることが可能となる。また、表示対象となる球形イメージが複数存在する場合には、二次元座標平面を正面から見たときには重なって表示されたとしても、三次元空間の座標イメージでは離れて表示されるので、学習者に対して複数の球形イメージ間の周波数関係を視覚的に容易に把握させることが可能となる。したがって、学習者は、自分の発音が目標の音に近づいているのか否かを視覚的に容易に判断することができるので、個人学習により適した発音評価システムを提供することができる。

請求項５の発明では、表示対象となる円形イメージが複数存在する場合には、二次元座標平面を正面から見たときには重なって表示されたとしても、前景側に位置する円形イメージが視覚的に透明または半透明であるため、背景側に位置する円形イメージが透けて見える。このため、学習者に対して複数の円形イメージの前後関係から周波数の違いを視覚的に把握させることが可能となる。したがって、学習者は、自分の発音が目標の音に近づいているのか否かを視覚的に容易に判断することができるので、個人学習により適した発音評価システムを提供することができる。

請求項６の発明では、複数人による音声データについて、第１フォルマント、第２フォルマントおよび第３フォルマントの各周波数関係を円形イメージとして表示できるので、学習者に対して複数人による円形イメージの位置関係から各フォルマントの周波数の違いを視覚的に把握させることが可能となる。したがって、学習者は、自分の発音と他人の発音との差異を視覚的に容易に判断することができるので、個人学習により適した発音評価システムを提供することができる。

請求項７の発明では、モデルデータとの違いを、第１フォルマント、第２フォルマントおよび第３フォルマントの各周波数関係を円形イメージとして表示できるので、学習者に対して手本となるモデルデータによる円形イメージの位置関係から各フォルマントの周波数の違いを視覚的に把握させることが可能となる。したがって、学習者は、自分の発音とモデルデータによる発音との差異を視覚的に容易に判断することができるので、個人学習により適した発音評価システムを提供することができる。

請求項８の発明では、視覚に加えて聴覚からも各フォルマントの周波数の違いを把握させることが可能となる。したがって、学習者は、自分の発音と他人等の発音との差異を視覚に加えて聴覚的にも判断することができるので、個人学習により一層適した発音評価システムを提供することができる。

請求項９の発明では、各フォルマント周波数に影響を与える、唇、歯、口蓋、鼻腔、咽頭、舌等の調音器官の動きを、口腔三次元イメージとして学習者に対して視覚的に明示でき、舌や唇の位置や動き等についての理解を容易にするため、よりさらに個人学習により適した発音評価システムを提供することができる。

請求項１０の発明では、各フォルマント周波数に影響を与える、唇、歯、口蓋、鼻腔、咽頭、舌等の調音器官の動きを、視覚的に透過または半透過に生成される調音器官収容部位を通して学習者に対し視覚的に明示でき、舌や唇の位置や動き等についての理解を容易にするため、よりさらに個人学習により適した発音評価システムを提供することができる。

請求項１１の発明では、各フォルマント周波数に影響を与える、唇、歯、口蓋、鼻腔、咽頭、舌等の調音器官の動きを、正面の方向から見た座標イメージの他に、背面・平面・底面・右側面・左側面の各方向等、様々な方向の視点から、口腔三次元イメージとして学習者に対して視覚的に明示で、舌や唇の位置や動き等についての理解を一層容易にするため、よりさらに個人学習により適した発音評価システムを提供することができる。

請求項１２の発明では、第１フォルマントおよび第２フォルマントによる二次元座標平面の円形イメージに対してさらに垂直方向の遠近感を第３フォルマントの周波数に基づいて与える。つまり、第３フォルマントに基づく情報を円形イメージの遠近感として表現することで、これまであまり着目されることがなかった第３フォルマントによる情報（第３フォルマント周波数の高低）に基づいて唇の形状を視覚的に明示することができる。したがって、学習者は、自分の発音が目標の音に近づいているのか否かを視覚的に判断することができるので、個人学習に適した発音評価プログラムを提供することができる。

本発明の実施形態に係る発音評価システムの構成例を示す説明図である。フォルマント周波数の例を示す説明図である。本実施形態の発音評価システムによる発音評価処理の流れを示すフローチャートである。図３に示す音声データ取得処理の流れを示すフローチャートである。図３に示すフォルマント抽出処理の流れを示すフローチャートである。図３に示すイメージデータ生成処理の流れを示すフローチャートである。図３に示すイメージデータ生成処理の他の例の流れを示すフローチャートである。図３に示すイメージデータ出力処理の流れを示すフローチャートである。本実施形態の発音評価システムによるモデル音声出力処理の流れを示すフローチャートである。本実施形態の発音評価システムによるモデル画像出力処理の流れを示すフローチャートである。図６に示すイメージデータ生成処理により生成される座標空間イメージの出力例を示す説明図である。図８に示すイメージデータ出力処理により出力される初期表示設定された三次元フォルマント母音図の表示例を示す説明図である。図１３(A)は、図１２に示す三次元フォルマント母音図にフォルマント周波数値を重畳表示した例を示す説明図で、図１３(B)は、図１３(A)を拡大表示した例を示す説明図である。イメージデータ出力処理により出力される回転表示設定された三次元フォルマント母音図の表示例を示す説明図である。他の回転表示の例を示す説明図で、図１５(A)は緑軸周りに回転させた例、図１５(B)は赤軸周りに回転させた例、図１５(C)は青軸周りに回転させた例である。図１６(A)は、イメージデータ出力処理により出力される二次元フォルマント母音図の出力例を示す説明図で、図１６(B)は、回転表示設定された二次元フォルマント母音図の表示例を示す説明図である。イメージデータ出力処理により出力される二重表示の例を示す説明図である。初期表示設定された三次元フォルマント母音図の二重表示の例を示す説明図で、図１８(A)は非透過(不透明)表示の例、図１８(B)は透過(透明)表示の例である。回転表示設定された三次元フォルマント母音図の二重表示の例を示す説明図で、図１９(A)は非透過(不透明)表示の例、図１９(B)は透過(透明)表示の例である。図１９に示す回転表示の設定角度を変えた場合を示す説明図で、図２０(A)は非透過(不透明)表示の例、図２０(B)は透過(透明)表示の例である。イメージデータ出力処理により出力される母音の三重表示の例を示す説明図である。図２２(A)は、イメージデータ出力処理により出力される初期表示設定された三次元フォルマント母音図の表示例を示す説明図で、二重母音の場合の例である。また図２２(B)は、同処理により出力される初期表示設定された二次元フォルマント母音図の表示例を示す説明図で、二重母音の場合の例である。図２３(A)は、回転表示設定された三次元フォルマント母音図の表示例を示す説明図で、二重母音の場合の例である。図２３(B)は、図２３(A)に示す回転表示の設定角度を変えた場合の例を示す説明図である。三次元フォルマント母音図における二重母音の表示例で、楕円球体イメージを表示した例を示す説明図である。グラデーションによる奥行き表現の例を示す説明図である。図１０に示すモデル画像出力処理による表示例を示す説明図で、顔の下半分を正面から見たように表示したものである。モデル画像出力処理による表示例を示す説明図で、顔の下半分を前方斜め左側から見たように表示したものである。モデル画像出力処理による表示例を示す説明図で、顔の下半分を左側面から見たように表示したもので、口腔内の一部を透過表示した例である。モデル画像出力処理による表示例を示す説明図で、図２９(A)は、唇、歯および舌だけを正面から見たように表示した例、図２９(B)は、これらを顔の前方斜め左側から見たように表示した例、図２９(C)は、これらを顔の左側から見たように表示した例である。ＩＰＡ母音図（出典は、http://www.langsci.ucl.ac.uk/ipa/vowels.html）の例である。

以下、本発明の発音評価システムの実施形態を各図に基づいて説明する。このシステムは、学習者の音声をマイクで集音しそれに含まれる母音のフォルマント周波数に基づいて、自分の発音が目標の音に近づいているか否かを視覚的に判断可能にするものである。
まず、本実施形態に係る発音評価システム１０の構成を図１を参照して説明する。図１は、発音評価システム１０の構成例を示す説明図である。

図１に示すように、発音評価システム１０は、制御ユニット２０を中心に、マイク３２、ディスプレイ３３、入力デバイス（マウスやキーボード）３４、スピーカアンプ３５等により構成されている。制御ユニット２０は、ＣＰＵ２１、メモリ２２、データベース２３、システムバス２４、入出力インタフェイス２５等により構成されている。

ＣＰＵ２１は、制御ユニット２０を制御する中央演算処理装置で、システムバス２４を介してメモリ２２、データベース２３や入出力インタフェイス２５に接続されている。

メモリ２２は、いわゆるＲＡＭやＲＯＭ等の半導体記憶装置で、システムバス２４を介してＣＰＵ２１に接続されている。このメモリ２２には、ＣＰＵ２１を制御するシステムプログラム２２ａのほかに、後述する発音評価処理を可能にする各種制御プログラム２２ｂ〜２２ｇが格納されており、前述したＣＰＵ２１はこれらをメモリ２２に読み出して逐次実行している。

データベース２３は、ハードディスク装置やＤＶＤ装置あるいはギガビットクラスのフラッシュメモリ等の大容量タイプの情報記録媒体で、後述するモデルフォルマントデータ２３ａ、モデル音声データ２３ｂやモデル画像データ２３ｃ等が格納されており、お手本となるフォルマントデータ等を表示する際に読み出されるものである。また、後述するように、マイク３２等により取得された生データの蓄積媒体や情報処理後の音声データの格納（記録）媒体としても用いられる。

入出力インタフェイス２５は、前述したマイク３２、ディスプレイ３３、入力デバイス３４、スピーカアンプ３５等とＣＰＵ２１等とのデータのやり取りを仲介する装置で、システムバス２４に接続されている。

なお、マイク３２と入出力インタフェイス２５との間には、図略のＡ／Ｄ変換装置が介在しており、マイク３２から入力されたアナログ音声信号をディジタル音声信号に変換して入出力インタフェイス２５に出力している。また、スピーカアンプ３５と入出力インタフェイス２５との間には、図略のＤ／Ａ変換装置が介在しており、入出力インタフェイス２５から入力されたディジタルオーディオ信号をアナログオーディオ信号に変換してスピーカアンプ３５に出力している。

このように構成される発音評価システム１０は、制御ユニット２０による音声データ取得プログラム２２ｂやフォルマント抽出プログラム２２ｃ等によって、録音した音声データから各フォルマントを抽出することになるので、ここで図２を参照してフォルマントの概要について説明する。

フォルマントとは、音声データに含まれる音声周波数のスペクトルで時間的に変化する周波数のピークのことで、一般に、音声学においては、図２に示すように、その周波数が低いものから周波数の高い方に向かって順番に現れるスペクトルの山の頂点を、第１フォルマント、第２フォルマント、第３フォルマント、第４フォルマント等と定義する。

本実施形態では、唇、歯、口蓋、鼻腔、咽頭、舌等の調音器官の動きによって周波数が変動し得る第１フォルマント、第２フォルマントおよび第３フォルマントに着目してそれらに基づいて情報処理をするので、以下、明細書や図に「Ｆｎ」と表記されている場合は（ｎ＝１，２，３）、第ｎフォルマントの周波数のことを表すものとする。

次に、図３〜図２９を参照して制御ユニット２０による発音評価処理の流れを説明する。なお、この情報処理は、マウス等の入力デバイス３４による発音評価プログラムの起動命令等の入力によって、音声データ取得プログラム２２ｂ、フォルマント抽出プログラム２２ｃ、イメージデータ生成プログラム２２ｄ、イメージデータ出力プログラム２２ｅ等がメモリ２２上に展開されてＣＰＵ２１がこれらを実行することにより実現される。

なお、図３には本実施形態の発音評価システムによる発音評価処理、図４には図３に示す音声データ取得処理、図５には図３に示すフォルマント抽出処理、図６には図３に示すイメージデータ生成処理、図７には図３に示すイメージデータ生成処理の他の例、図８には図３に示すイメージデータ出力処理、のそれぞれの流れを示すフローチャートが図示されている。また、図９には本実施形態の発音評価システムによるモデル音声出力処理、図１０には本実施形態の発音評価システムによるモデル画像出力処理、のそれぞれの流れを示すフローチャートが図示されている。

図３に示すように、発音評価処理は、ステップＳ１００による所定の初期化処理（例えば、メモリ２２の作業エリアのクリア、各種カウンタやフラグの初期値設定等）の後、ステップＳ２００により音声データ取得処理が行われる。この処理は、音声データ取得プログラム２２ｂにより実現されるもので、その詳細は図４に図示されている。そのため、ここからは図４を参照して説明する。

図４に示すように、音声データ取得処理では、まずステップＳ２０１により「録音中」や「ＲＥＣ」（RECordingの略語）の表示をディスプレイ３３に出力する。これは、マイク３２により集音される音声等が音声データとして記録されることを示すものである。この表示期間中に、例えば当該学習者がマイク３２に向かって日本語の母音（「あ」、「い」、「う」、「え」、「お」）を発音する。なお、この期間中のディスプレイ３３には、録音の停止を命令する「終了」や「ＳＴＯＰ」あるいは「停止」、「中止」といった表示兼入力ボタンも出力されている。

次のステップＳ２０３ではＡ／Ｄ変換入力処理が行われる。この処理は、マイク３２から入力されたアナログ信号をディジタル信号に変換するもので、この変換後の音声データ（評価対象となる音声データ）は続くステップＳ２０５による生データ蓄積処理によってメモリ２２やデータベース２３に音声ファイルとして蓄積される。なお、ステップＳ２０５による生データ蓄積処理では、録音時の年月日時分秒に基づいて、各音声ファイルのファイル名を自動的に付与することで、他の音声ファイルとの区別を可能にしている。なお、このステップＳ２０５により蓄積された音声ファイルを再生しそのオーディオ出力をスピーカアンプ３５に出力する機能と、このような再生機能の実行命令の受付を可能にする「再生」や「ＰＬＡＹ」といった表示兼入力ボタンを表示する機能とを有する音声データ再生処理を構成することで、当該学習者は、録音した自分の発音を聞くこともできる。

ステップＳ２０７では、録音の停止を指示する入力があるか否かを判断する処理が行われる。録音可能な期間においては、前述したように、ディスプレイ３３に録音の停止を命令する「終了」の表示等も出力されている。このため、このステップＳ２０７による処理では、この表示によるボタン部分が入力デバイス３４により選択されたか否か、つまり録音停止命令の有無を検出する。そして、この入力がある場合には（Ｓ２０７；Ｙｅｓ）、次のステップＳ２０９に音素区間検出処理を移行し、それがない場合には（Ｓ２０７；Ｎｏ）、ステップＳ２０３に移行して録音処理を継続する。先の例では、当該学習者が日本語の母音（「あ」〜「お」）を発音し終わった後に、マウス等で停止命令の入力をすることで、次のステップＳ２０９に処理が移る。

ステップＳ２０９による音素区間検出処理では、メモリ２２等に蓄積された音声ファイルを読み出して音素間を検出する処理が行われる。例えば、「あ」、「い」、「う」、「え」、「お」の各母音の間を区切って発音した場合には、無音区間が存在するので、これを検出することによって音素区間の検出をすることができ、続くステップＳ２１１による音素数のカウントや母音の切り出しも可能となる。

なお、このステップＳ２０５により蓄積されている生データには、音素区間の検出の妨げとなり得る種々の雑音成分が含まれているため、音素区間検出処理（Ｓ２０９）の前段で、これらを除去可能なフィルタリング処理を施すことによって、当該検出処理による音素区間の検出がより確実なものになる。

続くステップＳ２１１による音素数カウント処理では、音素区間を数えることにより音素数をカウントし、さらにステップＳ２１３では、ステップＳ２０９により検出された無音区間を境界にして音声データを各母音の音素ごとに分割して格納する処理、つまり音声データ格納処理が行われる。これにより、切り出された音声データは、母音単位で分割された音声データとして、メモリ２２やデータベース２３に格納される。なお、このステップＳ２１３では、各音声データを識別可能なファイル名を当該生データの音声ファイル名に基づいて自動生成し各音声データに付与することによって、他の音声データとの区別を可能にしている。

ステップＳ２１３による音声データ格納処理が完了すると、図３に示す発音評価処理に戻って次のステップＳ３００によるフォルマント抽出処理が行われる。この処理は、フォルマント抽出プログラム２２ｃにより実現されるもので、その詳細は図５に図示されている。そのため、ここからは図５を参照して説明する。

図５に示すように、フォルマント抽出処理は、ステップＳ３０１により音声データ読出処理が行われる。この処理は、先に説明した音声データ取得処理（図４を参照）によって母音ごとにメモリ２２やデータベース２３に格納された音声データをメモリ２２等から読み出す。これにより読み出された音声データは、次のステップＳ３０３によるフォルマント検出処理の対象となる。

ステップＳ３０３によるフォルマント検出処理では、例えば、当該音声データをＦＦＴ（Fast Fourier Transform；高速フーリエ変換）によって周波数スペクトルを分析しその包絡線波形を取得する。これにより、図２に示すような各フォルマントを含んだ包絡線が得られるため、この包絡線波形に含まれる各ピーク（山）を周波数の低い順に検出することによって、フォルマント周波数Ｆ１〜Ｆ３を検出することが可能となる。また、伝達関数の極として各フォルマントを検出できるため、ＬＰＣ（Linear Predictive Coding；線形予測分析）によってフォルマント周波数Ｆ１〜Ｆ３を検出可能に構成してもよい。

ステップＳ３０３によるフォルマント検出処理により各フォルマントが検出されると、続くステップＳ３０５により、各母音の音声データに対応するフォルマント周波数Ｆ１〜Ｆ３を当該音声データに関連付けてフォルマント周波数を登録する処理が行われる。この登録は、例えば、各音声データが格納されているメモリ２２やデータベース２３に行われる。先の例では、「あ」の音声データに関連付けて、例えば、第１フォルマントの周波数Ｆ１＝６９０Hz、第２フォルマントの周波数Ｆ２＝１１７０Hz、第３フォルマントの周波数Ｆ３＝２３７０Hzが、それぞれ登録される。

ステップＳ３０５によるフォルマント周波数登録処理が完了すると、図３に示す発音評価処理に戻って次のステップＳ４００により全ての音声データに対してフォルマント抽出処理が終了しているか否かを判断する処理が行われる。そして、全データのフォルマント抽出処理が終了している場合には（Ｓ４００；Ｙｅｓ）、続くステップＳ５００に処理を移行し、終了していない場合には（Ｓ４００；Ｎｏ）、再びステップＳ３００に処理を戻してフォルマント抽出処理が行われる。

ステップＳ５００では、イメージデータ生成処理が行われる。この処理は、イメージデータ生成プログラム２２ｄにより実現されるもので、その詳細は図６，７に図示されている。そのため、ここからは図６を参照して説明する。また、この処理により生成されるイメージデータの例として、図１１，図１２，図１６(A)を参照して説明する。

図６に示すように、イメージデータ生成処理は、ステップＳ５０１により三次元座標空間生成処理が行われる。この処理は、メモリ２２の作業エリア等に三次元座標空間をなすイメージデータ、つまり三次元座標イメージデータを生成する。これにより、例えば、図１１に示すようなコンピュータグラフィック（以下「ＣＧ」という）による三次元座標空間の画像イメージが形成可能となる。なお、この座標空間が、後述する三次元フォルマント母音図の表示空間に相当する。

即ち、ディスプレイ３３の表示画面３３ａにおいて、そのほぼ全体を占める矩形状の座標イメージ表示領域Ｄａに、三次元座標を構成する緑軸Ｊ１、赤軸Ｊ２および青軸Ｊ３を表示し得るように各軸のイメージデータを形成する。本実施形態では、例えば、第１フォルマントの周波数軸（第１の周波数軸）として緑色に着色された緑軸Ｊ１を表示画面３３ａの縦（垂直）方向に、また第２フォルマントの周波数軸（第２の周波数軸）として赤色に着色された赤軸Ｊ２を表示画面３３ａの横（水平）方向に、さらに第３ォルマントの周波数軸（第３の周波数軸）として青色に着色された青軸Ｊ３を表示画面３３ａのほぼ中心（奥行き）方向に、それぞれ画面表示可能にイメージデータを生成する。

なお、本実施形態では、緑軸Ｊ１および赤軸Ｊ２により構成される二次元座標イメージによる座標平面に対して垂直方向に遠近感を与えるため、表示画面３３ａのほぼ中心に仮想的な無限遠方に遠点Ｇｐを設定し、この遠点Ｇｐを中心に収束し得る矩形や同心円によるＣＧ化された三次元立体グリッドを形成している。

即ち、当該二次元座標イメージを構成する緑軸Ｊ１および赤軸Ｊ２に、緑軸Ｊ１に平行に位置する緑軸Ｊ１’と赤軸Ｊ２に平行に位置する赤軸Ｊ２’とを加え、これら４本の各軸に囲まれる矩形のほぼ中心を当該遠点Ｇｐに位置させ、またこの矩形（外側矩形）に相似形で小さい矩形（内側矩形）を緑軸Ｊ５，Ｊ５’および赤軸Ｊ６，Ｊ６’により形成しこの内側矩形もそのほぼ中心を当該遠点Ｇｐに位置させる。そして、遠点Ｇｐから放射状に延びる４本の青軸Ｊ３，Ｊ３’，Ｊ４，Ｊ４’上に、外側矩形（Ｊ１，Ｊ１’，Ｊ２，Ｊ２’）および内側矩形（Ｊ５，Ｊ５’，Ｊ６，Ｊ６’）のそれぞれの四隅（各角）を位置させる。

これにより、ディスプレイ３３の表示画面３３ａを介して当該学習者には、外側矩形（Ｊ１，Ｊ１’，Ｊ２，Ｊ２’）が手前に、また内側矩形（Ｊ５，Ｊ５’，Ｊ６，Ｊ６’）が奥に、それぞれ位置するように立体的に見えるため、遠点Ｇｐを仮想的な遠方とした視覚的な遠近感を当該学習者に与えることが可能となる。なお、外側矩形を構成する各軸Ｊ１，Ｊ１’，Ｊ２，Ｊ２’の線幅を、内側矩形を構成する各線Ｊ５，Ｊ５’，Ｊ６，Ｊ６’の線幅よりも太く（または内側矩形を構成する各線Ｊ５，Ｊ５’，Ｊ６，Ｊ６’の線幅を、外側矩形を構成する各軸Ｊ１，Ｊ１’，Ｊ２，Ｊ２’の線幅よりも細く）設定することで、このような遠近感を当該学習者により強く与えることができる。

また、図１１に示すように、本実施形態では、緑軸Ｊ１、赤軸Ｊ２、青軸Ｊ４のそれぞれに沿って周波数値を表示している。例えば、緑軸Ｊ１については、表示画面３３ａの上方から下方に向かって０Hz→５００Hz→１０００Hzというようにフォルマント周波数Ｆ１が高くなるように周波数値を表示し、また赤軸Ｊ２については、表示画面３３ａの右側から左側に向かって０Hz→１６００Hz→３２００Hzというようにフォルマント周波数Ｆ２が高くなるように周波数値を表示している。なお、本実施形態では、周波数表示の見やすさを考慮して、青軸Ｊ３ではなく青軸Ｊ４に周波数値を表示している。例えば、表示画面３３ａの手前（下方）から奥（上方）に向かって２０００Hz→２７５０Hz→３５００Hzというように青軸Ｊ４に周波数値を表示している。

さらに、本実施形態では、座標イメージ表示領域Ｄａにおいて、遠点Ｇｐを中心にほぼ等間隔に位置する複数の同心円からなる遠近サークルグリッドＧｃを形成したり、また遠点Ｇｐからほぼ同じ中心角で放射状に延びる複数の放射線からなる遠近ラジアルグリッドＧｒを形成している。これにより、遠点Ｇｐを仮想的な無限遠方とした視覚的な遠近感をより強く当該学習者に与えられるようにしている。

なお、本実施形態では、図１１に示すように、表示画面３３ａの下方に操作パネル表示領域Ｄｂを設定し、この領域Ｄｂ内に、後述するように、各軸Ｊ１，Ｊ２，Ｊ３に沿った回転を与え得るスライドレバーＳ１，Ｓ２，Ｓ３や、表示画面３３ａ内の座標空間を拡大表示（ズームイン）したり縮小表示（ズームアウト）したりするスライドレバーＳ４を設けている。また、後述するように、表示画面３３ａ内に表示される球体イメージの表示状態を初期状態に戻す押しボタンスイッチＳ５（View Reset；視点初期化）を設けている。

さらに、表示画面３３ａの左側上方には、「ファイル」と表示されるボタンＳ８や「オプション」と表示されるボタンＳ９が設けられている。例えば、「ファイル」のボタンＳ８を選択することによって、前述した音声データ取得処理により格納された音声データの一覧を表示するとともにそれらの中から任意の音声データに対して前述した図５に示すフォルマント抽出処理（Ｓ３００）の実行命令の受付を可能にする「読出し」ボタンの表示や、これから説明する各処理によって既に生成されてディスプレイ３３に表示されている球体イメージ等をイメージデータクリア処理の実行命令の受付を可能にする「消去」ボタンの表示が行われる。また、「オプション」のボタンＳ９を選択することによって、後述する、フォルマント周波数表示の有／無の切り替え、透過表示／非透過表示の切り替え、座標空間の三次元表示／二次元表示の切り替え、球体イメージ・周波数軸・周波数表示・座標空間の背景・発音記号の表示色（例えば２５６色から任意色）の選択等、各処理の実行命令の受付を可能にするボタンの表示が行われる。

また、これらとは別の画面（図略）において、当該学習者の性別、年齢、身長の各データの入力を可能にする当該学習者データ入力処理によって、当該学習者に固有な身体的特徴（個人性）を表す情報を取得する。これにより、予めデータベース２３等に蓄積された性別・年齢・身長等の身体的特徴に起因する調音器官のデータに基づいて、当該学習者が有する調音器官の長さや大きさを推定することが可能となるので（調音器官推定処理）、この推定された調音器官の長さ等に基づいて、後述する各モデルデータ（モデルフォルマントデータ、モデル音声データ、モデル画像データ）を当該学習者の性別、年齢、身長等に適合したものに設定することが可能となる。なお、これらの各ボタンＳ１〜Ｓ９は、マウス等の入力デバイス３４によって選択可能に構成されている。

また、本実施形態では、白地の座標空間に、緑・赤・青等の色を有する軸線や各グリッド線を描画するように構成したが、黒地（または紺地）の座標空間に、白色を有する軸線やグリッド線を描画するように構成しても良い。

続くステップＳ５０３ではフォルマント周波数読出処理が行われる。この処理では、前述したフォルマント抽出処理により登録されて関連付けられた音声データのフォルマント周波数Ｆ１〜Ｆ３をメモリ２２やデータベース２３から読み出す。これにより、次のステップＳ５０５による中心位置設定処理の対象となるフォルマント周波数Ｆ１〜Ｆ３が得られる。なお、ステップＳ５０５による中心位置設定処理とステップＳ５０７による直径設定処理によって球体イメージが生成されて三次元座標空間に割り付けられる。

ステップＳ５０５では中心位置設定処理が行われる。この処理は、ステップＳ５０３により読み出されたフォルマント周波数Ｆ１〜Ｆ３に基づいて、ステップＳ５０１による三次元座標空間に球体イメージの中心位置を設定する。即ち、ステップＳ５０１により生成される三次元座標空間は、第１フォルマントの緑軸Ｊ１、第２フォルマントの赤軸Ｊ２および第３フォルマントの青軸Ｊ３により形成されているため、緑軸Ｊ１にフォルマント周波数Ｆ１、赤軸Ｊ２にフォルマント周波数Ｆ２、青軸Ｊ３にフォルマント周波数Ｆ３をそれぞれ割り付けることにより、座標空間中の一点を定めることができ、この位置を次に説明する球体イメージの中心位置として設定する。

続くステップＳ５０７では直径設定処理が行われる。この処理は、ステップＳ５０５により三次元座標空間に割り付けられた中心位置に直径を付与して球体イメージの直径を設定して球体イメージを生成するもので、青軸Ｊ３によるフォルマント周波数Ｆ３に基づいて定められる。本実施形態では、図１１に示すように、青軸Ｊ４の周波数は、表示画面３３ａの手前方向に低く、奥方向に高く定義されている。このため、球体イメージの直径を、フォルマント周波数Ｆ３が低いほど大きく、フォルマント周波数Ｆ３が高いほど小さくなるように設定することにより、球体イメージは、フォルマント周波数Ｆ３が低い場合に表示画面３３ａの手前に近くに位置し、フォルマント周波数Ｆ３が高い場合に表示画面３３ａの奥に位置するように生成される。

このように球体イメージの直径はフォルマント周波数Ｆ３の高低を表すが、フォルマントそのものには、性別、年齢、言語等の個人差を要因とするバラツキが必ず存在するため、そのバラツキの範囲をおおよそ表したものとしても設定されている。また、球体イメージの内側に当該球体イメージに対応する発音記号を表示することで、球体イメージとそれに対応する発音記号との関連が瞬時に把握できるので、発音記号の視覚的な把握を容易にしている。

なお、本ステップＳ５０７では生成する球体イメージの形状が視覚的に立体を呈するように、例えば、表示画面３３ａの上方よりも下方（また右側よりも左側）が色彩的に暗くなるような陰影をＣＧ処理により与えている。また、後述するように、球体イメージの色彩に透過性を与えて視覚的な透明度を高めることで（透過表示）、球体イメージ同士が重畳表示された場合にも背後に位置する球体イメージの把握を容易にしている。

ステップＳ５０９では、メモリ２２やデータベース２３に格納された音声データの全てについてステップＳ５０３，Ｓ５０５，Ｓ５０７による処理が終了しているか否かを判断する処理が行われる。即ち、前述したフォルマント抽出処理により登録されて関連付けられた音声データについて、ステップＳ５０５，Ｓ５０７による球体イメージの座標割付が完了（終了）しているか否かを判断する。先の例では、当該学習者による日本語の母音（「あ」、「い」、「う」、「え」、「お」）に対応する音声データがメモリ２２等に格納されているので、これら５つの音声データに対する球体イメージの割付が完了しているか否かを判断する。

そして、全データについての球体イメージの座標割付が終了していない場合には（Ｓ５０９；Ｎｏ）、再度ステップＳ５０３に処理を戻し、終了している場合には（Ｓ５０９；Ｙｅｓ）、図３に示す発音評価処理に戻る。これにより、フォルマント周波数Ｆ１〜Ｆ３に対応する音声データのフォルマント母音図の三次元イメージデータが出来上がる。

図１２に示すように、先の例においては、「あ」の音声データに対応する球体イメージＵ１、「い」の音声データに対応する球体イメージＵ２、「う」の音声データに対応する球体イメージＵ３、「え」の音声データに対応する球体イメージＵ４、「お」の音声データに対応する球体イメージＵ５、がそれぞれ生成されて三次元座標空間に割り付けられる。なお、図１２に示す例では、フォルマント周波数Ｆ３が「う」→「あ」→「え」→「お」→「い」の順番で高まるため、球体イメージの直径は、ｒ３→ｒ１→ｒ４→ｒ５→ｒ２の順番に小さくなっていることが当該図からわかる。

なお、フォルマント母音図を三次元イメージデータではなく、二次元イメージデータとして生成する場合には、図７に示すイメージデータ生成処理を実行する。なお、図６に示す三次元のイメージデータ生成処理と実質的に同様の情報処理を行うステップについては、図７において図６の符号と同じ符号を付すものとし、その説明を省略する。

図７に示すように、二次元座標のイメージデータ生成処理では、ステップＳ５０１’により二次元座標空間生成処理が行われる。この処理は、メモリ２２の作業エリア等に二次元座標空間をなすイメージデータ、つまり二次元座標イメージデータを生成する。これにより、例えば、図１６(A)に示すようなＣＧによる二次元座標空間の画像イメージが形成可能となる。なお、この図１６(A)においては、後述するステップＳ５０５により生成されて割付られる球体イメージＵ１〜Ｕ５が表示されているが、このステップＳ５０１’で生成される二次元座標イメージデータにはこれらの球体イメージＵ１等は含まれない。

即ち、図６を参照して説明したステップＳ５０１とほぼ同様に、表示画面３３ａの座標イメージ表示領域Ｄａに、二次元座標を構成する緑軸Ｊ１および赤軸Ｊ２を表示し得るように各軸のイメージデータを形成する。本実施形態では、例えば、第１フォルマントの周波数軸（第１の周波数軸）として緑色に着色された緑軸Ｊ１を表示画面３３ａの縦（垂直）方向に、また第２フォルマントの周波数軸（第２の周波数軸）として赤色に着色された赤軸Ｊ２を表示画面３３ａの横（水平）方向に、それぞれ画面表示可能にイメージデータを生成する。

続くステップＳ５０３以下、Ｓ５０５、Ｓ５０７、Ｓ５０９については、図６に示す三次元座標のイメージデータ生成処理と同様、ステップＳ５０３によりフォルマント周波数を読み出した後、ステップＳ５０５により中心位置を設定する。なお、二次元座標空間生成処理の場合には、奥行き方向の青軸Ｊ３は設けていないので、フォルマント周波数Ｆ３については考慮せず、フォルマント周波数Ｆ１およびフォルマント周波数Ｆ２に基づいて、ステップＳ５０１’による二次元座標空間に球体イメージの中心位置を設定する。

ステップＳ５０７では直径設定処理が行われ、さらにステップＳ５０９によりメモリ２２等に格納された音声データの全てについてステップＳ５０３，Ｓ５０５，Ｓ５０７による処理が終了しているか否かを判断する処理が行われる。そして、全データについての球体イメージの座標割付が終了している場合には（Ｓ５０９；Ｙｅｓ）、図３に示す発音評価処理に戻る。これにより、フォルマント周波数Ｆ１〜Ｆ３に対応する音声データのフォルマント母音図の二次元イメージデータが出来上がる。

図１６(A)に示すように、先の例においては、「あ」の音声データに対応する球体イメージＵ１、「い」の音声データに対応する球体イメージＵ２、「う」の音声データに対応する球体イメージＵ３、「え」の音声データに対応する球体イメージＵ４、「お」の音声データに対応する球体イメージＵ５、がそれぞれ生成されて二次元座標空間に割り付けられる。なお、図１６(B)に示す表示画面３３ａは、後述する回転命令によって回転した二次元座標空間の右側方から見たものが表示されているが、これを見て判るように、二次元座標のイメージデータ生成処理では、表示画面３３ａの奥行き方向について、フォルマント周波数Ｆ３による座標を与えていないため、各球体イメージＵ１〜Ｕ５が同一平面上に位置するようにイメージデータが生成されている。

なお、図１６に示す例では、二次元座標空間に割り付けるものとして、球体イメージＵ１〜Ｕ５の場合を例示したが、これに限られることはなく、例えば、平面的な円形イメージであっても良い。ただし、この場合においても、円形イメージの直径の違いによって、視覚的な遠近感を与えることができるため、可能であればフォルマント周波数Ｆ３の高低に基づいて円形イメージの直径を定めた方が良い。

このようにイメージデータ生成処理によって生成された三次元または二次元によるフォルマント母音図は、図３に示すステップＳ６００によるイメージデータ出力処理によってディスプレイ３３に出力される。この処理は、イメージデータ出力プログラム２２ｅにより実現されるもので、その詳細は図８に図示されている。そのため、ここからは図８を参照して説明する。

図８に示すように、イメージデータ出力処理では、まずステップＳ６０１により初期表示設定処理が行われる。この処理は、ディスプレイ３３の表示画面３３ａに表示する画面設定として標準的なものを初期画面として設定するもので、例えば、座標イメージ表示領域Ｄａ内での表示レイアウトを、図１１や図１２に示すような三次元フォルマント母音図の全体が含まれる同図の正面画像に設定する。

続くステップＳ６０３では画像出力処理、即ち設定された表示レイアウトに基づいて、ステップＳ５００により生成されたイメージデータをディスプレイ３３の表示画面３３ａに出力する処理が行われる。これにより、先に説明した例では、当該学習者による日本語の母音（「あ」、「い」、「う」、「え」、「お」）のフォルマントが三次元フォルマント母音図として、図１２に示すように表示画面３３ａに表示される。

次のステップＳ６０５では操作入力処理が行われる。この処理は、表示画面３３ａに表示されているスライドレバーＳ１〜Ｓ４や押ボタンスイッチＳ５がマウス等の入力デバイス３４により選択された場合にその入力（レバーの移動位置や押しボタンのオンオフ）を受け付けて、続くステップＳ６０７に受け渡すものである。

ステップＳ６０７は、ステップＳ６０５により受付られた操作入力の情報を判断する処理で、入力された情報に基づいて、要求されている表示態様に応じた表示設定処理を起動するものである。例えば、座標イメージ表示領域Ｄａ内の表示を拡大や縮小し得るスライドレバーＳ４の拡大操作（スライドレバーを画面右側に移動させる操作）の入力があったと判断した場合には（Ｓ６０７；拡大）、ステップＳ６１１に処理を移行して拡大表示設定処理を行う。これにより、例えば、図１３(A)に示す三次元フォルマント母音図は、図１３(B)に示すように、三次元フォルマント母音図の一部を拡大表示した画面に変更される（図１３(B)に示すスライドレバーＳ４’）。

これとは逆に、スライドレバーＳ４の縮小操作（スライドレバーを画面左側に移動させる操作）の入力があったと判断した場合には（Ｓ６０７；縮小）、ステップＳ６１３に処理を移行して縮小表示設定処理を行う。これにより、例えば、図１３(B)に示す拡大された三次元フォルマント母音図が縮小されて図１３(A)に示す座標イメージに変更される。なお、図１３においては、例えば、球体イメージＵ３の近傍にフォルマント周波数Ｆ１〜Ｆ３が数値表示されているが、これは、例えば、図６に示すイメージデータ生成処理の直径設定処理（Ｓ５０７）の後に、フォルマント周波数Ｆ１〜Ｆ３を表す数値イメージを生成する数値イメージ生成処理を設けることによって、このようなフォルマント周波数の表示を可能にしている。

また、例えば、座標イメージ表示領域Ｄａ内の表示を当該領域Ｄａ中心で各軸周りに回転し得るスライドレバーＳ１〜３の回転操作の入力があったと判断した場合には（Ｓ６０７；回転）、ステップＳ６１５に処理を移行して回転表示設定処理を行う。なお、回転方向は、スライドレバーを移動させる方向（画面右側または左側）によって時計回りまたは反時計回りに決定されるものとする。これにより、例えば、図１２に示す三次元フォルマント母音図は、図１４や図１５(A)に示すように、座標イメージ表示領域Ｄａ中心で緑軸Ｊ１，Ｊ１’，Ｊ５，Ｊ５’周りに回転した三次元フォルマント母音図で図１２に示す正面イメージに対して画面右側方向から見た画像イメージに変更される（図１４に示すスライドレバーＳ１’）。

また、図１５(B)に示すようにスライドレバーＳ２を操作することで（図１５(B)に示すスライドレバーＳ２’）、図１２に示す三次元フォルマント母音図は、座標イメージ表示領域Ｄａ中心で赤軸Ｊ２，Ｊ２’，Ｊ６，Ｊ６’周りに座標イメージが回転し、さらに、図１５(C)に示すようにスライドレバーＳ３を操作することで（図１５(C)に示すスライドレバーＳ３’）、座標イメージ表示領域Ｄａ中心で青軸Ｊ３，Ｊ３’，Ｊ４，Ｊ４’周りに座標イメージが回転する。これにより、図１５(B)に示す三次元フォルマント母音図は、図１２に示す正面イメージに対して画面下側方向から見た画像イメージに変更され、図１５(C)に示す三次元フォルマント母音図は、図１２に示す正面イメージを反時計回りに１８０度回転した画像イメージに変更される。なお、図１５(B)においては、スライドレバーＳ４を操作することによって座標イメージの拡大表示も併せて行っている（図１５(B)に示すスライドレバーＳ４’）。

なお、図１６(B)には、図１６(A)に示す二次元フォルマント母音図の座標イメージを回転させた場合の表示例が図示されている。即ち、表示画面３３ａに二次元フォルマント母音図が表示されている場合において、例えば、スライドレバーＳ１を画面左側に移動させると、緑軸Ｊ１周りに回転して、図１６(A)に示す正面イメージに対して画面右側方向から見た画像イメージに変更される（図１６(B)に示すスライドレバーＳ１’）。なお、図１６(B)に示すように、球体イメージに重ねて表示される発音記号は、このような回転に合わせて球体イメージと共に回転するのはではなく、常に、画面正面方向を向くように正面に追従して発音記号自体を回転させる画像処理を行う。これにより、ディスプレイ３３を見る当該学習者の方向に向けて発音記号が画面表示されるので、球体イメージと共に発音記号が回転してその方向によっては発音記号が縦長や線状になって見難くなってしまうような事態を防止することが可能となる。

このように本実施形態では、三次元フォルマント母音図を単に正面方向（緑軸Ｊ１と赤軸Ｊ２とからなる二次元平面に垂直な方向）から表示するだけでなく、スライドレバーＳ１〜Ｓ３により三次元フォルマント母音図をその正面・背面・平面・底面・右側面・左側面の少なくとも一面を含む方向から自在に表示することができるので、特に、青軸Ｊ３方向に位置する第３フォルマントの周波数Ｆ３の違いを明確に把握することができる。即ち、これらの各面のうち２面または３面を含む方向（正面および右側面を含む方向、正面および左側面を含む方向、正面および平面を含む方向、正面および底面を含む方向、平面および右側面を含む方向、平面および左側面を含む方向、平面および背面を含む方向、底面および右側面を含む方向、底面および左側面を含む方向、底面および背面を含む方向、背面および右側面を含む方向、背面および左側面を含む方向、正面、平面および右側面を含む方向、正面、平面および左側面を含む方向、正面、底面および右側面を含む方向、正面、底面および左側面を含む方向、背面、平面および右側面を含む方向、背面、平面および左側面を含む方向、背面、底面および右側面を含む方向、背面、底面および左側面を含む方向）から、当該学習者に対して三次元フォルマント母音図を視覚的に把握させることができる。

なお、座標イメージ表示領域Ｄａ内における座標イメージ、球体イメージおよび発音記号の拡大、縮小、各方向の回転に関する技術は、既存のＣＧ処理を用いることにより実現することができるので、ここではこれらのＣＧ処理に関する説明は省略する。

また、例えば、座標イメージ表示領域Ｄａ内の表示を初期状態に戻す押ボタンスイッチＳ５の入力があったと判断した場合には（Ｓ６０７；リセット）、ステップＳ６０１に処理を移行して初期表示設定処理を行う。これにより、例えば、図１２に示す三次元フォルマント母音図の表示、つまり正面から見た三次元フォルマント母音図に戻る。

なお、ステップＳ６０７により操作入力の情報がないと判断された場合には（Ｓ６０７；入力なし）、ステップＳ６０３に戻りその時の表示設定を保持し、つまり前回と同様、座標イメージ表示領域Ｄａ内の三次元フォルマント母音図の表示を変化させることなく、表示画面３３ａに出力する。また、エスケープキー等の表示処理の終了を命令するキー入力等があった場合には（Ｓ６０７；終了）、当該イメージデータ出力処理を終了する。

以上説明した例では、一人の学習者がマイク３２に向かって日本語の母音（「あ」、「い」、「う」、「え」、「お」）を発音した場合について述べたが、二人以上の学習者による発音あるいは学習者による発音とその手本となるモデルデータについて、上記発音評価システムを適用しても良い。この場合には、図１に示すマイク３２により二人以上の学習者の音声を集音し、各人ごとの音声データを識別し得るファイル名やコードを付与することにより、前述と同様の発音評価処理を各人ごとに行うことができるので、三次元フォルマント母音図や二次元フォルマント母音図をディスプレイ３３に表示することが可能となる。

これにより、例えば、図１７に示すように、三次元フォルマント母音図において二重表示することができる。即ち、図１７に示す例では、一方の学習者がマイク３２に向かって日本語の母音を発音した後、他方の学習者がマイク３２に向かってフィンランド語の短母音を発音し、それぞれの母音に対する球体イメージＵ１〜Ｕ５（日本語の母音）および球体イメージＶ１〜Ｖ８（フィンランド語の短母音）をディスプレイ３３の表示画面３３ｂに表示した。

２種類の球体イメージＵ１〜Ｕ５および球体イメージＶ１〜Ｖ８には、それぞれ異なる着色が施されており、例えば、日本語母音の球体イメージＵ１〜Ｕ５は桃色、フィンランド語短母音の球体イメージＶ１〜Ｖ８は黄色に設定されている。また、これらの球体イメージには、それぞれの言語に対応した母音の発音記号がその内側に表示されているため、一目して両言語の母音発音の相違を把握することができる。

また、図１７に示す表示例では、球体イメージＵ１〜Ｕ５，Ｖ１〜Ｖ８の画面表示を視覚的に透過にしているため、例えば、球体イメージＵ４と球体イメージＶ８や、球体イメージＵ１と球体イメージＶ３のように、両言語間のフォルマント周波数Ｆ１，Ｆ２が互い接近している場合であっても、その前後関係、つまり第３フォルマントの周波数Ｆ３の違いを視覚的に容易に把握することができる。

より具体的には、図１８(A)に示す表示画面３３ｂを非透過表示にした例と、図１８(B)に示す表示画面３３ｂ’を透過表示にした例とを比較すると、図１８(A)に示す球体イメージＷ２の場合には、非透過表示であるため、それよりも手前で直径の大きな球体イメージＷ１に隠れてしまいその存在を視覚的に確認することができない。ところが、図１８(B)に示す球体イメージＷ２’の場合には、透過表示であるため、図１８(A)と同様の配置であってもその前方に位置する球体イメージＷ１’に邪魔されることなくその存在を視覚的に把握することができる。

図１９や図２０に示す表示例は、前述したように、スライドレバーＳ１’の操作によって緑軸Ｊ１周りに座標イメージ表示領域Ｄａを回転させたもので、これらの例においても、図１９(A)や図２０(A)に示す表示画面３３ｂでは非透過表示、図１９(B)や図２０(B)に示す表示画面３３ｂ’では透過表示にそれぞれ設定している。このため、図１８に示す各例と同様に、図１９(A)や図２０(A)に示す表示画面３３ｂよりも、図１９(B)や図２０(B)に示す表示画面３３ｂ’の方が、各音声データに対応する球体イメージの位置関係を把握し易いことが、これらの図からわかる。

また、図１９や図２０に示す表示例では、図１８に示す三次元フォルマント母音図をその正面方向（緑軸Ｊ１と赤軸Ｊ２とからなる二次元平面に垂直な方向）から見たものではなく、ほぼ側面方向（赤軸Ｊ２に沿った方向）またはほぼ上下方向（緑軸Ｊ１に沿った方向）から三次元フォルマント母音図を見たものを表示するため、各音声データに対応する球体イメージの位置関係として、青軸Ｊ３に対応する周波数Ｆ３の違いを容易に把握することができる。これにより、第３フォルマントに関連性の高い唇の形状、例えば唇の横方向の拡がり等の違いを容易に理解することが可能となる。

図２１に示す表示例は、三次元フォルマント母音図において三重表示をした表示画面３３ｃで、スライドレバーＳ１’の操作によって緑軸Ｊ１周りに座標イメージ表示領域Ｄａを回転させたものである。この表示画面３３ｃの場合、日本語の母音、フィンランド語の短母音および英語の短母音について三次元フォルマント母音図による各球体イメージを表示している。この表示例も透過表示に設定しているので、各音声データに対応する球体イメージの位置関係を把握し易いことがわかる。

なお、図１７〜図２１を参照して説明した各表示やその情報処理では、二重表示や三重表示の一例として、日本語の母音とフィンランド語の短母音を題材に三次元フォルマント母音図とその球体イメージを表示する表示画面３３ｂ，３３ｃを説明したが、これに限られることはなく、お手本（発音の基準となるモデルデータ）については、例えば、マイク３２からの音声入力に代えて、お手本としてデータベース２３に予め格納されているモデルフォルマントデータ２３ａを読み込んで、そのフォルマント周波数Ｆ１〜Ｆ３に基づいてお手本となるイメージデータ等を生成しても良い。

この場合、お手本データについては、入力デバイス３４により当該学習者によるお手本の選択によって、データベース２３に格納されたモデルフォルマントデータ２３ａ（お手本データ）によるフォルマント周波数Ｆ１〜Ｆ３を図６や図７に示すフォルマント周波数読出処理（Ｓ５０３）により読み出す。これにより、お手本データに対応する球体イメージの生成や三次元座標イメージへの割付けが可能となる。なお、読み出されるモデルフォルマントデータ２３ａは、前述した学習者データ入力処理によって得られた当該学習者に固有な身体的特徴を表す情報（性別・年齢・身長等）に基づいて、最適なものが選択される。

また、図４に示す音声データ取得処理において、ステップＳ２０９による音素区間検出処理およびステップＳ２１１による音素数カウント処理を行うことなく、図５に示すフォルマント抽出処理において、ステップＳ３０３によるフォルマント検出処理の後、検出したフォルマント周波数を中心に所定周波数幅の窓を設定しその窓の周波数範囲で音素区間を切り出して検出するように構成しても良い。これにより、例えば、「あ」、「い」、「う」、「え」、「お」の各母音の間を区切って発音することなく、「あ」〜「お」を連続的に発音した場合においても、音素区間を検出することができる。また、連続して母音が変化する二重母音や三重母音についても音素相当を検出することが可能となる。さらに、ステップＳ２００〜Ｓ６００を極めて高速に繰り返し処理可能な情報処理能力の高いＣＰＵ、メモリ等の情報処理装置を用いることによって、マイク３２から入力された二重母音や三重母音の多重母音等についても、母音の移り変わりをリアルタイムにディスプレイ３３の表示画面３３ａに表示することが可能となる。

具体的には、図２２〜図２５に示すように、例えば、球体イメージＵｎから球体イメージＵｎ’に向かって順番（時系列的）にパラパラ漫画のように所定時間（例えば５ミリ秒）毎に表示されることで、二重母音による母音の渡り（転移状態）を視覚的に把握することができる。なお、このような二重母音による球体イメージＵｎ（Ｕｎ’）の転移をその軌跡により表現することで母音の渡りを視覚的に表すことが可能となるが、このような軌跡を残すことなく、単に球体イメージＵｎ（Ｕｎ’）の移動だけを視覚的に把握可能なゆっくりとした移動速度で表しても良い。

図２２(A)に示す表示画面３３ｄには、三次元フォルマント母音図の表示例として二重母音の場合が図示されており、また図２２(B)に示す表示画面３３ｄには、二次元フォルマント母音図の表示例として二重母音の場合が図示されている。また、図２３(A)には、図２２(A)に示す三次元フォルマント母音図の座標イメージを回転させた場合の表示例が図示されており（スライドレバーＳ１’を画面左側に移動）、図２３(B)には座標イメージをさらに回転させた場合（スライドレバーＳ１”を画面左側にさらに移動）の表示例が図示されている。さらに、図２４(A)および図２４(B)には、楕円球体イメージを二重母音の表示例として表したものが図示されている。これらの図中符号Ｕｎ，Ｕｎ’は二重母音により転移する球体イメージを示す。このように球体イメージを上下に押しつぶしたような楕円状に変形させることにより、重なりあった球体イメージの前後の位置関係を視覚的に把握し易くなるので、当該学習者は母音の渡り具合をより容易に理解することができる。

なお、本実施形態では、緑軸Ｊ１および赤軸Ｊ２により構成される二次元座標イメージによる座標平面に対して垂直方向に遠近感を与えるため、表示画面３３ａのほぼ中心に仮想的な無限遠方に遠点Ｇｐを設定し、この遠点Ｇｐを中心に収束し得る矩形や同心円によるＣＧ化された三次元立体グリッドを形成したが、これに代えて、例えば、図２５(A)や図２５(B)に示す表示画面３３ｅのように、手前側から奥方向に向かって色の濃淡が濃くなるグラデーション（色彩やその色の濃さ・明るさ（輝度）の連続的な変化）による塗りつぶしよって、座標平面に対して垂直方向に遠近感を与えても良い。図２５(B)には、このようなグラデーションにより視覚的な遠近感が付与された三次元フォルマント母音図に楕円球体イメージを二重母音の表示例として表したものが図示されている。これらの図中符号Ｕｍ，Ｕｍ’は二重母音により転移する楕円球体イメージを示す。なお、図２２〜図２５では、いずれも「母音の渡り」を明示するため、パラパラ漫画で言うところの１コマだけを図示しており、これら一部のコマの前後には「母音の渡り」の表示途中にある図略の複数コマが存在していることに留意されたい。

ここで、発音評価システム１０による音声評価処理の拡張機能として、モデル音声出力処理（図９）とモデル画像出力処理（図１０）を説明する。なお、これらの処理も、音声データ取得プログラム２２ｂ等と同様に、モデル音声出力プログラムやモデル画像出力プログラムがメモリ２２上に読み出されて展開されてＣＰＵ２１がそれらを実行することによって実現されるもので、音声評価処理とほぼ同時に並列処理されるものである。

図９に示すように、モデル音声出力処理では、ステップＳ８０１による所定の初期化処理の後、ステップＳ８０３により選択情報取得処理が行われる。この処理では、マウス等の入力デバイス３４に選択された球体イメージＵ１等に関する選択対象情報を取得する。例えば、図１２に示される表示画面３３ａにおいて、球体イメージＵ１がマウス（入力デバイス）によりクリック（選択）された場合には、選択対象が球体イメージＵ１である旨の選択対象情報を当該ステップＳ８０３により取得する。

続くステップＳ８０５では、音声ファイル取得処理が行われる。この処理は、ステップＳ８０３により得られた選択対象情報に基づいてこれに対応する母音のモデル音声データ２３ｂをデータベース２３から取得する。例えば、先の例では、球体イメージＵ１に対応する日本語の母音「あ」のモデル音声データ２３ｂをデータベース２３から取得する。なお、当該モデル音声データ２３ｂは、例えばＭＰ３等の汎用のファイル形式でデータベース２３に格納されている。なお、ここで取得されるモデル音声データ２３ｂは、前述した学習者データ入力処理によって得られた当該学習者に固有な身体的特徴を表す情報（性別・年齢・身長等）に基づいて、最適なものが選択される。

次のステップＳ８０７では、モデル音声出力処理が行われる。この処理は、データベース２３から取得したモデル音声データ２３ｂを再生しそのオーディオ出力をスピーカアンプ３５に出力することで、当該学習者は、選択された母音のお手本となる発音を聞くことができる。つまり、当該学習者は、三次元フォルマント母音図の表示と同期して模範的な発音を耳で確かめることが可能となる。

また、図１０に示すようにモデル画像出力処理では、ステップＳ９０１による所定の初期化処理の後、ステップＳ９０３により選択情報取得処理が行われる。この処理は、図９に示す選択情報取得処理（Ｓ８０３）と同様で、入力デバイス３４に選択された球体イメージＵ１等に関する選択対象情報を取得する。

続くステップＳ９０５では、画像ファイル取得処理が行われる。この処理は、ステップＳ９０３により得られた選択対象情報に基づいてこれに対応する母音のモデル画像データ２３ｃをデータベース２３から取得する。例えば、先の例では、球体イメージＵ１に対応する日本語の母音「あ」を発音する際の口唇や口腔の画像で、発音の前中後等にわたる複数のモデル画像データ２３ｃをデータベース２３から取得する。なお、当該モデル画像データ２３ｃは、例えばＪＰＥＧやＭＰＥＧ等の汎用のファイル形式でデータベース２３に格納されている。なお、ここで取得されるモデル画像データ２３ｃは、前述した当該学習者データ入力処理によって得られた当該学習者に固有な身体的特徴を表す情報（性別・年齢・身長等）に基づいて、最適なものが選択される。

次のステップＳ９０７では、モデル画像出力処理が行われる。この処理は、データベース２３から取得したモデル画像データ２３ｃをディスプレイ３３に出力して表示することで、当該学習者は、選択された母音のお手本となる口唇等の画像を見ることができる。つまり、当該学習者は、三次元フォルマント母音図の表示と同期して模範的な口唇等の動きを目で確かめることが可能となる。なお、このモデル画像データ２３ｃの画面表示は、例えば、操作パネル表示領域Ｄｂ（図１１参照）等の表示画面３３ａの下方に形成される別ウィンドウ内に出力される。

例えば、図２６に示される表示画面３３ｇ（図２６(A)），３３ｇ’（図２６(B)）は、発音時の口唇正面イメージで顔の正面から見た様子を表示するもので、上から順番にパラパラ漫画のように所定時間（例えば５ミリ秒）毎に表示される。

また、図２７に示される表示画面３３ｈ（図２７(A)），３３ｈ’（図２７(B)）は、発音時の口唇正面イメージで顔の左斜め前側方から見た様子を表示するもので、図２６と同様、上から順番に所定時間（例えば５ミリ秒）毎に表示される。

また、図２８に示される表示画面３３ｊ（図２８(A)），３３ｊ’（図２８(B)）は、発音時の口唇正面イメージおよび口腔三次元イメージで顔の左側方から見た様子を表示するもので、図２６と同様、上から順番に所定時間（例えば５ミリ秒）毎に表示される。

さらに、図２９に示される表示画面３３ｋ（図２９(A)），３３ｋ’（図２９(B)），３３ｋ”（図２９(C)）には、発音時の口腔三次元イメージで、唇、歯、舌の様子がわかるように、これらだけを取り出したものが表示される。なお、図２９(A)は正面から見たもの、図２９(B)は左側斜め前方から見たもの、図２９(C)は左側方から見たものである。

なお、図２６〜図２９では、いずれもモデル画像の表示例を明示するため、パラパラ漫画で言うところの所定時間前後の２コマ（図２９では３コマ）だけを図示しており、これら一部のコマの前後にはモデル画像の表示途中にある図略の複数コマが存在しており、こによりパラパラ漫画のような原理で動画が構成されていることに留意されたい。

また、図１１に示すスライドレバーＳ１，Ｓ２，Ｓ３のように、モデル画像の頭部（顔下部）に対して仮想的な三次元の軸（Ｘ軸，Ｙ軸，Ｚ軸）を設定しこれらの軸に沿った回転を与え得るスライドレバーをＸ軸、Ｙ軸、Ｚ軸に対応してディスプレイ３３に表示するとともに、表示されているスライドレバーがマウス等の入力デバイス３４によりこれらのスライドレバーが選択されて移動した場合にその入力（移動位置）を受け付けて、指定された軸に沿ってモデル画像の頭部（顔下部）が自在に回転するように画像処理を可能に構成しても良い（回転に関する技術は、既存のＣＧ処理を用いることにより実現することができるので、ここではこれらのＣＧ処理に関する説明は省略する）。

このようにモデル画像の頭部（顔下部）を自在回転可能にすることで、唇、歯、口蓋、鼻腔、咽頭、舌等の調音器官（調音器官構成部位）を収容した顔の、正面・背面・平面・底面・右側面・左側面の少なくとも一面を含む口腔三次元イメージを画面表示できるので、フォルマント周波数Ｆ１〜Ｆ３に影響を与える調音器官（唇、歯、口蓋、鼻腔、咽頭、舌等）の動きを、正面の方向から見た座標イメージの他に、背面・平面・底面・右側面・左側面の各方向からや、これらの各面のうち２面または３面を含む方向（正面および右側面を含む方向、正面および左側面を含む方向、正面および平面を含む方向、正面および底面を含む方向、平面および右側面を含む方向、平面および左側面を含む方向、平面および背面を含む方向、底面および右側面を含む方向、底面および左側面を含む方向、底面および背面を含む方向、背面および右側面を含む方向、背面および左側面を含む方向、正面、平面および右側面を含む方向、正面、平面および左側面を含む方向、正面、底面および右側面を含む方向、正面、底面および左側面を含む方向、背面、平面および右側面を含む方向、背面、平面および左側面を含む方向、背面、底面および右側面を含む方向、背面、底面および左側面を含む方向）から、口腔三次元イメージとして当該学習者に対して視覚的に明示することができる。

さらに、唇、歯、口蓋、鼻腔、咽頭、舌等の調音器官を収容する鼻、頬、顎、首等（調音器官収容部位）にそれぞれ対応するスライドレバーを、図１１に示すスライドレバーＳ１，Ｓ２，Ｓ３のようにディスプレイ３３に表示可能に設け、これらのスライドレバーがマウス等の入力デバイス３４により選択されて移動した場合にその入力（移動位置）を受け付け、この入力に従って、鼻、頬、顎、首等の三次元イメージが視覚的に非透過から半透過を経て透過（表示なし）に変化するように画像処理を可能に構成しても良い（視覚的な透過・半透過等にする技術は、既存のＣＧ処理を用いることにより実現することができるので、ここではこれらのＣＧ処理に関する説明は省略する）。これにより、フォルマント周波数Ｆ１〜Ｆ３に影響を与える、唇、歯、口蓋、鼻腔、咽頭、舌等の調音器官の動きを、視覚的に透過または半透過に表示される鼻、頬、顎、首等を透して当該学習者に対して視覚的に明示することができる。なお、ここでは、唇、歯、口蓋、鼻腔、咽頭、舌等の調音器官を非透過に表示しているが、唇、歯、口蓋、鼻腔、咽頭、舌等に対応付けたスライドレバーをディスプレイ３３に表示しまたその入力を受け付けるように構成し、さらにそれらの入力に従って、唇、歯、口蓋、鼻腔、咽頭、舌等の三次元イメージが視覚的に非透過から半透過を経て透過（表示なし）に変化するように画像処理を可能に構成しても良い。これにより、特に注目をしたい部位（例えば舌）だけを他の部位（例えば歯や口蓋）に比べて視覚的に浮かびあがらせたり、また取り出すように当該学習者に見せることができるので、より一層その様子を視覚的に明示することができる。例えば、図２９(A)や図２９(B)に示すように、舌の窪みや膨らみの状態（舌の凹凸状態）を把握することができる。

なお、図示されてはいないが、例えば、発音時の口腔断面イメージをモデル画像データ２３ｃとして、例えばＪＰＥＧやＭＰＥＧ等の汎用のファイル形式でデータベース２３に格納し、それを読み出してディスプレイ３３に表示可能に構成しても良い。また、動画ファイルをＭＰＥＧ等の汎用のファイル形式でデータベース２３に格納し球体イメージに対応した発音時の口唇等の状態を動画で表示しても良い。

また、モデル画像データ２３ｃに加えて、モデル音声データ２３ｂもデータベース２３から取得することで、図２６〜図２９に示す画像表示とともに、選択された母音のお手本となるモデル音声をスピーカアンプ３５に出力するように構成しても良い。

さらにまた、当該学習者の口唇を図略のビデオカメラで顔の正面、斜め前方、側方等から撮影しその画像をディスプレイ３３に表示したり、またモデル画像データ２３ｃによるモデル画像と比較可能にモデル画像と並べてディスプレイ３３に表示するように構成しても良い。これにより、当該学習者は、自分の口唇とお手本となるモデル画像の口唇を視覚的に比較できるので、正面等から見た口唇の開き具合の差異を容易に把握することができる。

以上説明したように、本実施形態に係る発音評価システム１０によると、音声データ取得プログラム２２ｂにより取得した評価対象の音声データから、フォルマント周波数Ｆ１、フォルマント周波数Ｆ２およびフォルマント周波数Ｆ３をフォルマント抽出プログラム２２ｃによって抽出する。そして、イメージデータ生成プログラム２２ｄにより、フォルマント周波数Ｆ１に対応する緑軸Ｊ１とフォルマント周波数Ｆ２に対応する赤軸Ｊ２とからなる二次元座標イメージの各軸Ｊ１，Ｊ２にフォルマント周波数Ｆ１およびフォルマント周波数Ｆ２を割り付けて定まる座標を中心に球体イメージＵ１（円形イメージ）を生成するとともに、二次元座標イメージによる座標平面に対し垂直方向の遠近感をフォルマント周波数Ｆ３に基づいて球体イメージＵ１に与え、イメージデータ出力プログラム２２ｅにより二次元仮想座標イメージおよび球体イメージＵ１をディスプレイ３３に出力する。

これにより、フォルマント周波数Ｆ１およびフォルマント周波数Ｆ２による二次元座標平面の球体イメージに対してさらに垂直方向の遠近感をフォルマント周波数Ｆ３に基づいて与えることで、これまであまり着目されることがなかったフォルマント周波数Ｆ３の高低に基づいて唇の形状を視覚的に明示することができる。したがって、当該学習者は、自分の発音が目標の音に近づいているか否かを視覚的に判断することができるので、個人学習に適した発音評価システムを提供することができる。

例えば、二次元座標平面に対し垂直方向の遠近感を与える例として、球体イメージＵ１の直径がフォルマント周波数Ｆ３に基づいて、フォルマント周波数Ｆ３が低いほど球体イメージＵ１の直径を大きく設定し、フォルマント周波数Ｆ３が高いほど球体イメージＵ１の直径を小さく設定する。これにより、当該学習者に対してフォルマント周波数Ｆ３の大きさを視覚的に把握させることが可能となる。

また、二次元座標平面に対し垂直方向の遠近感を与える他の例として、イメージデータ生成プログラム２２ｄでは、二次元座標イメージによる座標平面に対し垂直方向に延びる青軸Ｊ３を加えて三次元座標イメージを生成しこの青軸Ｊ３にフォルマルト周波数Ｆ３を割り付け、球体イメージＵ１は、その直径がフォルマント周波数Ｆ３に基づいて設定される球体で、三次元形状に生成する。これにより、例えば、フォルマント周波数Ｆ３が低いほど球形イメージＵ１の直径を大きく設定し、フォルマント周波数Ｆ３が高いほど球形イメージＵ１の直径を小さく設定することで、当該学習者に対してフォルマント周波数Ｆ３の大きさを視覚的に把握させることが可能となる。

また、本実施形態に係る発音評価システム１０によると、イメージデータ生成プログラム２２ｄは、三次元座標イメージによる座標空間を、正面・背面・平面・底面・右側面・左側面の少なくとも一面を含む三次元空間として、イメージデータ出力プログラム２２ｅによるディスプレイ３３への画面表示可能に生成する。これにより、フォルマント周波数Ｆ１およびフォルマント周波数Ｆ２による二次元座標平面を正面から見た座標イメージの他に、背面・平面・底面・右側面・左側面の各方向からや、これらの各面のうち２面または３面を含む方向（正面および右側面を含む方向、正面および左側面を含む方向、正面および平面を含む方向、正面および底面を含む方向、平面および右側面を含む方向、平面および左側面を含む方向、平面および背面を含む方向、底面および右側面を含む方向、底面および左側面を含む方向、底面および背面を含む方向、背面および右側面を含む方向、背面および左側面を含む方向、正面、平面および右側面を含む方向、正面、平面および左側面を含む方向、正面、底面および右側面を含む方向、正面、底面および左側面を含む方向、背面、平面および右側面を含む方向、背面、平面および左側面を含む方向、背面、底面および右側面を含む方向、背面、底面および左側面を含む方向）から、当該学習者に対して三次元空間の座標イメージを視覚的に把握させることができるので、フォルマント周波数Ｆ３の大きさを視覚的に容易に把握させることが可能となる。また、表示対象となる球形イメージＵ１が複数存在する場合には、二次元座標平面を正面から見たときには重なって表示されたとしても、三次元空間の座標イメージでは離れて表示されるので、当該学習者に対して複数の球形イメージＵ１〜Ｕ５間の周波数関係を視覚的に容易に把握させることが可能となる。したがって、当該学習者は、自分の発音が目標の音に近づいているか否かを視覚的に容易に判断することができるので、個人学習により適した発音評価システムを提供することができる。

さらに、本実施形態に係る発音評価システム１０によると、音声データ取得プログラム２２ｂにより取得される音声データが複数である場合、イメージデータ生成プログラム２２ｄは、複数の音声データごとに対応する複数の球体イメージＵ１〜Ｕ５を、視覚的に透明または半透明に生成する。これにより、表示対象となる球体イメージＵ１〜Ｕ５が複数存在する場合には、二次元座標平面を正面から見たときには重なって表示されたとしても、前景側に位置する球体イメージＵ１〜Ｕ５が視覚的に透明または半透明であるため、背景側に位置する球体イメージが透けて見える。このため、当該学習者に対して複数の球体イメージＵ１〜Ｕ５の前後関係から周波数の違いを視覚的に把握させることが可能となる。したがって、当該学習者は、自分の発音が目標の音に近づいているのか否かを視覚的に容易に判断することができるので、個人学習により適した発音評価システムを提供することができる。

さらにまた、本実施形態に係る発音評価システム１０によると、音声データ取得プログラム２２ｂにより取得される複数の音声データには、発音の基準となるモデルデータが含まれる。これにより、モデルデータとの違いを、フォルマント周波数Ｆ１〜Ｆ３の各周波数関係を球体イメージＵ１として表示できるので、当該学習者に対して手本となるモデルデータによる球体イメージＶ１の位置関係からフォルマント周波数Ｆ１〜Ｆ３の違いを視覚的に把握させることが可能となる。したがって、当該学習者は、自分の発音とモデルデータによる発音との差異を視覚的に容易に判断することができるので、個人学習により適した発音評価システムを提供することができる。

また、本実施形態に係る発音評価システム１０によると、ディスプレイ３３に表示された球体イメージＵ１を入力デバイス３４により選択し、この入力デバイス３４により選択された球体イメージＵ１に対応するデータベース２３のモデル音声データ２３ｂに基づいて手本となる発音をスピーカアンプ３５から出力をする。これにより、視覚に加えて聴覚からもフォルマント周波数Ｆ１〜Ｆ３の違いを把握させることが可能となる。したがって、当該学習者は、自分の発音と他人等の発音との差異を視覚に加えて聴覚的にも判断することができるので、個人学習により一層適した発音評価システムを提供することができる。

また、本実施形態に係る発音評価システム１０によると、ディスプレイ３３に表示された球体イメージＵ１を入力デバイス３４により選択し、この入力デバイス３４により選択された球体イメージＵ１に対応するデータベース２３のモデル画像データ２３ｃに基づいて手本となる口やその付近の顔部分の画像（動画や静止画）あるいは発音時の口腔断面のイメージ画像をディスプレイ３３に出力をする。これにより、フォルマント周波数Ｆ１〜Ｆ３に影響を与える、唇、歯、口蓋、鼻腔、咽頭、舌等の調音器官の動きを、口唇正面イメージとして当該学習者に対して視覚的に明示できるので、よりさらに個人学習により適した発音評価システムを提供することができる。

なお、発音時の口腔三次元イメージを生成するように構成しても良い。これにより、フォルマント周波数Ｆ１〜Ｆ３に影響を与える、唇、歯、口蓋、鼻腔、咽頭、舌等の調音器官の動きを、口腔三次元イメージとして当該学習者に対して視覚的に明示できるので、よりさらに個人学習により適した発音評価システムを提供することができる。

なお、本実施形態に係る発音評価処理は、音声データ取得プログラム２２ｂ、フォルマント抽出プログラム２２ｃ、イメージデータ生成プログラム２２ｄ、イメージデータ出力プログラム２２ｅにより実現される。具体的には、コンピュータを、音声データ取得プログラム２２ｂによりマイク３２から取得した評価対象の音声データから、フォルマント周波数Ｆ１、フォルマント周波数Ｆ２およびフォルマント周波数Ｆ３をフォルマント抽出プログラム２２ｃにより抽出し、イメージデータ生成プログラム２２ｄにより、フォルマント周波数Ｆ１に対応する緑軸Ｊ１とフォルマント周波数Ｆ２に対応する赤軸Ｊ２とからなる二次元座標イメージの各軸Ｊ１，Ｊ２にフォルマント周波数Ｆ１およびフォルマント周波数Ｆ２を割り付けて定まる座標を中心に球体イメージ（円形イメージ）Ｕ１を生成するとともに、二次元座標イメージによる座標平面に対し垂直方向の遠近感をフォルマント周波数Ｆ３に基づいて球体イメージに与え、イメージデータ出力プログラム２２ｅにより二次元仮想座標イメージおよび球体イメージをディスプレイ３３に出力するように機能させる。

これにより、フォルマント周波数Ｆ１およびフォルマント周波数Ｆ２による二次元座標平面の球体イメージに対してさらに垂直方向の遠近感をフォルマント周波数Ｆ３に基づいて与えることで、これまであまり着目されることがなかったフォルマント周波数Ｆ３の高低に基づいて唇の形状を視覚的に明示することができる。したがって、当該学習者は、自分の発音が目標の音に近づいているのか否かを視覚的に判断することができるので、個人学習に適した発音評価プログラムを提供することができる。

なお、以上説明した実施形態では、日本語、英語、フィンランド語の各言語について例示して説明したが、本発明の適用はこれらの言語に限定されるものではなく、例えば、ドイツ語、フランス語、スペイン語、中国語、等の全世界の全言語における母音（単母音、二重母音等の多重母音）についての発音評価に適用することができる。

１０…発音評価システム
２０…制御ユニット
２１…ＣＰＵ（音声データ取得手段、フォルマント抽出手段、イメージデータ生成手段、イメージデータ出力手段）
２２…メモリ
２２ｂ…音声データ取得プログラム（音声データ取得手段）
２２ｃ…フォルマント抽出プログラム（フォルマント抽出手段）
２２ｄ…イメージデータ生成プログラム（イメージデータ生成手段）
２２ｅ…イメージデータ出力プログラム（イメージデータ出力手段）
２２ｆ…モデル音声出力プログラム（音声出力手段）
２２ｇ…モデル画像出力プログラム（音声出力手段）
２３…データベース
２３ａ…モデルフォルマントデータ（発音の基準となるモデルデータ）
２３ｂ…モデル音声データ
２３ｃ…モデル画像データ
２４…システムバス
２５…入出力インタフェイス
３２…マイク（音声入力装置、音声データ取得手段）
３３…ディスプレイ（画像出力装置）
３３ａ…表示画面
３４…入力デバイス
３５…スピーカアンプ（音声出力手段）
１００…三次元フォルマント母音図
１０１…三次元座標（三次元座標イメージ）
２００…二次元フォルマント母音図
２０１…二次元座標（二次元座標イメージ）
Ｄａ…座標イメージ表示領域
Ｄｂ…操作パネル表示領域
Ｆ１…フォルマント周波数（第１フォルマントの周波数）
Ｆ２…フォルマント周波数（第２フォルマントの周波数）
Ｆ３…フォルマント周波数（第３フォルマントの周波数）
Ｇｃ…遠近サークルグリッド
Ｇｐ…遠点
Ｇｒ…遠近ラジアルグリッド
Ｊ１…緑軸（第１の周波数軸）
Ｊ２…赤軸（第２の周波数軸）
Ｊ３、Ｊ４…青軸（第３の周波数軸）
Ｓ１、Ｓ２、Ｓ３、Ｓ４…スライドレバー
Ｓ５…押ボタンスイッチ
ｒ１…直径
Ｕ１、Ｕ２、Ｕ３、Ｕ４、Ｕ５…球体イメージ（球形イメージ）

Claims

評価対象となる音声データを取得する音声データ取得手段と、
前記音声データに含まれる母音のフォルマントで、周波数の最も低い第１フォルマント、この次に周波数の高い第２フォルマントおよびさらに高い周波数の第３フォルマントを抽出するフォルマント抽出手段と、
第１の周波数軸と第２の周波数軸とからなる二次元座標イメージを生成しこれらの周波数軸に前記第１フォルマントおよび前記第２フォルマントを割り付けて定まる座標を中心に円形イメージを生成するとともに、前記二次元座標イメージによる座標平面に対し垂直方向の遠近感を前記第３フォルマントの周波数に基づいて前記円形イメージに与えるイメージ生成手段と、
前記二次元仮想座標イメージおよび前記円形イメージを画面表示可能に出力するイメージ出力手段と、
を備えることを特徴とする発音評価システム。
前記円形イメージは、その直径が前記第３フォルマントの周波数に基づいて設定されることを特徴とする請求項１記載の発音評価システム。
前記イメージ生成手段は、前記二次元座標イメージによる座標平面に対し垂直方向に延びる第３の周波数軸を加えて三次元座標イメージを生成しこの第３の周波数軸に前記第３フォルマントの周波数を割り付け、
前記円形イメージは、その直径が前記第３フォルマントの周波数に基づいて設定される球体で、三次元形状に生成されることを特徴とする請求項１記載の発音評価システム。
前記イメージ生成手段は、前記三次元座標イメージによる座標空間を、正面・背面・平面・底面・右側面・左側面の少なくとも一面を含む三次元空間として、前記イメージ出力手段による画面表示可能に生成することを特徴とする請求項３記載の発音評価システム。
前記音声データ取得手段により取得される前記音声データが複数である場合、
前記イメージ生成手段は、複数の前記音声データごとに対応する複数の前記円形イメージを、視覚的に透過または半透過に生成することを特徴とする請求項１〜４のいずれか一項に記載の発音評価システム。
前記音声データ取得手段により取得される前記複数の音声データには、複数人による音声データが含まれることを特徴とする請求項５記載の発音評価システム。
前記音声データ取得手段により取得される前記複数の音声データには、発音の基準となるモデルデータが含まれることを特徴とする請求項５記載の発音評価システム。
画面表示された前記円形イメージを任意に選択可能なイメージ選択手段と、
前記イメージ選択手段により選択された前記円形イメージに対応する音声データに基づいて音響出力をする音声出力手段と、
を備えることを特徴とする請求項１〜７のいずれか一項に記載の発音評価システム。
画面表示された前記円形イメージを任意に選択可能なイメージ選択手段と、
前記イメージ選択手段により選択された前記円形イメージに対応する音声データに基づいて、発音時の口唇および口腔内の三次元形状を口腔三次元イメージとして生成する口腔三次元イメージ生成手段と、
前記口腔三次元イメージを画面表示可能に出力するイメージ出力手段と、
を備えることを特徴とする請求項１〜８のいずれか一項に記載の発音評価システム。
前記口腔三次元イメージ生成手段は、
前記発音時の口腔内の三次元形状を構成する「唇、歯、口蓋、鼻腔、咽頭、舌等の調音器官を構成する調音器官構成部位」の少なくとも一つの三次元イメージを視覚的に不透過に生成し、
前記発音時の口唇を含んで前記調音器官構成部位を収容する「鼻、頬、顎、首等の調音器官収容部位」の少なくとも一つを視覚的に透過または半透過に生成することを特徴とする請求項９記載の発音評価システム。
前記口腔三次元イメージ生成手段は、
前記調音器官収容部位を含む顔の、正面・背面・平面・底面・右側面・左側面の少なくとも一面を含む前記口腔三次元イメージを前記イメージ出力手段による画面表示可能に生成することを特徴とする請求項１０記載の発音評価システム。
コンピュータを、
評価対象となる音声データを音声入力装置から取得する音声データ取得手段、
前記音声データに含まれる母音のフォルマントで、周波数の最も低い第１フォルマント、この次に周波数の高い第２フォルマントおよびさらに高い周波数の第３フォルマントを抽出するフォルマント抽出手段、
第１の周波数軸と第２の周波数軸とからなる二次元座標イメージを生成しこれらの周波数軸に前記第１フォルマントおよび前記第２フォルマントを割り付けて定まる座標を中心に円形イメージを生成するとともに、前記二次元座標イメージによる座標平面に対し垂直方向の遠近感を前記第３フォルマントの周波数に基づいて前記円形イメージに与えるイメージ生成手段、
前記二次元仮想座標イメージおよび前記円形イメージを画像出力装置に出力するイメージ出力手段、
として機能させることを特徴とする発音評価プログラム。