JP4626310B2

JP4626310B2 - 発音評価装置

Info

Publication number: JP4626310B2
Application number: JP2005005694A
Authority: JP
Inventors: 紀行畑; 卓也田丸; 卓朗曽根; 勝一刑部; 資之渋谷
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2005-01-12
Filing date: 2005-01-12
Publication date: 2011-02-09
Anticipated expiration: 2025-01-12
Also published as: JP2006195093A

Description

本発明は、発音の矯正を支援する技術に関する。

従来より、外国語の学習を支援する種々の技術が提案されてきた。例えば、特許文献１には、一人の指導者による複数の学習者を対象とした発音指導を支援する技術の開示がある。同文献に開示された集合語学研修支援装置は、各学習者及び指導者が利用する端末である研修支援ユニットに、話者の口の動きや顔の表情などを撮像する撮像装置を搭載させてなる。この装置によれば、指導者は、各学習者の研修支援ユニットから自らに送信されてくる画像情報を基に各学習者の発音の様子を了解し、各々に合わせた指導を効率的に行うことができる。
特開平１１−２１２４３７

ところで、特許文献１に開示された類の装置を用いた発音指導の多くは、お手本となる単語やセンテンスを真似て学習者に発音させた後、その発音内容とお手本との相違が単に判定されるに過ぎないものであった。このため、学習者は、自らの発音内容のどの部分が良好でないのかを具体的に把握することが難しかった。
本発明は、このような背景の下に案出されたものであり、外国語の発音を学習する学習者に対し、その発音内容のどの部分が良好でないのかを具体的に提示できるようなシステムを提供することを目的とする。

本発明の好適な態様である発音評価装置は、外部の特定の装置と情報の遣り取りを行う発音評価装置であって、発音のお手本となるセンテンス又は単語の発音手順を示す発音記号列を記憶した発音記号記憶手段と、話者が発音した前記センテンス又は単語を示す音声情報、又はその音声情報が示す波形の解析結果である特徴パラメータ列を前記外部の特定の装置から受信する発音内容受信手段と、前記発音記号記憶手段から発音記号列を読み出す記号列読出手段と、前記発音内容受信手段が受信した音声情報又は特徴パラメータ列に所定の変換処理を施すことにより、前記話者の発音内容を表す発音記号列を取得する記号列取得手段と、前記記号列取得手段が取得した発音記号列と前記記号列読出手段が読み出した発音記号列との不一致の度合いを評価する発音評価手段と、前記発音評価手段による評価結果を内包した評価情報を前記外部の特定の装置へ送信する送信手段と、音声情報を記憶する音声情報記憶手段と、前記記号列取得手段が取得した発音記号列と前記記号列読出手段が読み出した発音記号列との不一致の度合いが所定値を下回ると、その音声情報を前記音声情報記憶手段に記憶させる高評価音声蓄積手段と、高評価を受けた音声情報の送信を求めるメッセージを前記外部の特定の装置から受信する要求受信手段とを備え、前記送信手段は、前記要求受信手段が前記メッセージを受信すると、前記音声情報記憶手段に記憶された音声情報を前記外部の特定の装置へ送信する。

また、本発明の別の好適な態様である発音評価装置は、外部の特定の装置と情報の遣り取りを行う発音評価装置であって、発音のお手本となるセンテンス又は単語の発音手順を示す発音記号列を記憶した発音記号記憶手段と、話者が発音した前記センテンス又は単語を示す音声情報、又はその音声情報が示す波形の解析結果である特徴パラメータ列を前記外部の特定の装置から受信する発音内容受信手段と、前記発音記号記憶手段から発音記号列を読み出す記号列読出手段と、前記受信した音声情報又は特徴パラメータ列に所定の変換処理を施すことにより、前記話者の発音内容を表す発音記号列を取得する記号列取得手段と、前記記号列取得手段が取得した発音記号列と前記記号列読出手段が読み出した発音記号列との不一致の度合いを評価する発音評価手段と、前記センテンス又は単語を良好に発音するためのお手本となる息遣いの状態を示す息遣い情報を記憶した息遣い情報記憶手段と、話者が前記センテンス又は単語を発音した際の息遣いの状態を示す息遣い情報を前記外部の特定の装置から受信する息遣い情報受信手段と、前記息遣い情報記憶手段から息遣い情報を読み出す息遣い情報読出手段と、前記息遣い情報受信手段が受信した息遣い情報と、前記息遣い情報読出手段が読み出した息遣い情報との不一致の度合いを評価する息遣い評価手段と、前記発音評価手段および前記息遣い評価手段のそれぞれによる各評価結果を内包した評価情報を前記外部の特定の装置へ送信する送信手段とを備える。

また、上述の態様において、前記発音内容受信手段は、前記話者が発音した前記センテンス又は単語を示す音声情報を前記外部の特定の装置から受信する手段であり、全ての音声素片が網羅されるように体系化された複数のフレーズのそれぞれを前記話者が発音した発音内容を示す各音声情報を、前記外部の特定の装置から受信するフレーズ音声情報受信手段と、前記フレーズ音声情報受信手段により受信された前記各音声情報をそれぞれ解析して前記話者が発音した全ての音声素片のそれぞれについて、周波数スペクトルの特徴を示すパラメータである特徴パラメータを当該音声素片毎にそれぞれ生成することにより取得して素片データベースに蓄積する全特徴パラメータ取得手段と、前記発音内容受信手段が受信した音声情報を解析して前記センテンス又は単語に含まれる音声素片毎の周波数スペクトルの特徴をそれぞれ示す一連のパラメータからなる特徴パラメータ列を取得する特徴パラメータ列取得手段と、前記記号列取得手段が取得した発音記号列と前記記号列読出手段が読み出した発音記号列とが一致しない箇所を特定する不一致箇所特定手段と、前記特徴パラメータ列取得手段が取得した特徴パラメータ列において、前記不一致箇所特定手段が特定した前記箇所の音声素片と対応する区間を特定し、特定した当該区間の前記パラメータを、前記全特徴パラメータ取得手段により蓄積され、且つ、当該音声素片と対応する特徴パラメータに置換することにより、前記話者が発音の仕方を矯正するための正しい発音内容を示す音声情報である矯正音声情報を合成する矯正音声情報合成手段と、前記矯正音声情報の送信を求めるメッセージを前記外部の特定の装置から受信する矯正音声情報要求受信手段とを備え、前記送信手段は、前記矯正音声情報要求受信手段が前記メッセージを受信すると、前記矯正音声情報合成手段により合成された矯正音声情報を前記外部の特定の装置へ送信するようにしてもよい。

また、上述の態様において、前記発音内容受信手段は、前記話者が発音した前記センテンス又は単語を示す音声情報を解析して当該センテンス又は単語に含まれる音声素片毎の周波数スペクトルの特徴をそれぞれ示す一連のパラメータからなる特徴パラメータ列を生成する前記外部の特定の装置から、生成した当該特徴パラメータ列を受信する手段であり、全ての音声素片が網羅されるように体系化された複数のフレーズのそれぞれを前記話者が発音した発音内容により示される各音声情報をそれぞれ解析して前記音声素片毎の周波数スペクトルの特徴を示すパラメータである特徴パラメータを生成した前記外部の特定の装置から、生成した当該特徴パラメータを取得して素片データベースに蓄積する全特徴パラメータ取得手段と、前記記号列取得手段が取得した発音記号列と前記記号列読出手段が読み出した発音記号列とが一致しない箇所を特定する不一致箇所特定手段と、前記発音内容受信手段が受信した特徴パラメータ列において、前記不一致箇所特定手段が特定した前記箇所の音声素片と対応する区間を特定し、特定した当該区間の前記パラメータを、前記全特徴パラメータ取得手段により蓄積され、且つ、当該音声素片と対応する特徴パラメータに置換することにより、前記話者が発音の仕方を矯正するための正しい発音内容を示す音声情報である矯正音声情報を合成する矯正音声情報合成手段と、前記矯正音声情報の送信を求めるメッセージを前記外部の特定の装置から受信する矯正音声情報要求受信手段とを備え、前記送信手段は、前記矯正音声情報要求受信手段が前記メッセージを受信すると、前記矯正音声情報合成手段により合成された矯正音声情報を前記外部の特定の装置へ送信するようにしてもよい。

本発明によると、語学を学習する学習者に対し、自身の発音内容のどこが良好でないかを具体的に把握させることができる。

（発明の実施の形態）
本願発明の実施形態について説明する。
まず、以降の説明において用いる主要な用語を定義しておく。「センテンス」の語は、発音のお手本となる一纏まりのフレーズを意味する。「発音記号」の語は、英語に存在する母音及び子音を夫々固有に表す記号を意味する。「音声素片」の語は、音声の構成要素を意味し、母音のみからなる音素、母音から子音に遷移する音素連鎖、子音から母音に遷移する音素連鎖、及び母音から別の母音に遷移する音素連鎖のいずれをも含む。

本実施形態にかかる英語発音向上ＬＬシステムの特徴は、英語の正しい発音の習得を希望する者（以下、「生徒」と呼ぶ）に対し、ネットワーク上に設けた専用のサーバ装置を介して以下の２つのサービスを提供するようにした点である。
（１）発音評価サービス
これは、教材として予め準備しておいた複数のセンテンスを生徒に発音させてそれらの音声情報を解析することにより、その生徒の発音の良否を客観的に評価するサービスである。
（２）高評価発音リマインダーサービス
これは、各生徒に対し、自身が高評価を受けた過去の発音の音声情報を提示するサービスである。

図１は、本発明の実施形態にかかる英語発音向上ＬＬ（language laboratory）システムの全体構成を示すブロック図である。図に示すように、このシステムは、複数の生徒端末１０と、講師端末５０と、ＤＳＰ（digital signal processor）サーバ装置４０とを備える。
生徒端末１０の各々は、マイクロホンアレイ３０と接続される。このマイクロホンアレイ３０は、話者である生徒の発した音声を最適に集音する機能に加えて、その発音が行われた際の息遣いの状況を計測する機能を搭載している。

図２は、マイクロホンアレイ３０のハードウェア構成を示すブロック図である。図に示すように、このマイクロホンアレイ３０は、集音手段である複数のマイクロホンユニット３１、アナログ／デジタル（以下、「Ａ／Ｄ」と称す）変換器３２、音圧測定部３３、加算器３４、パラメータ記憶制御部３５、パラメータ記憶メモリ３６、集音特性制御部３７、及び入出力インターフェース３８を備える。

複数のマイクロホンユニット３１は、生徒の口元の方向に指向性を持たせるべく、縦方向及び横方向に夫々１６列ずつ配列されている。それらマイクロホンユニット３１の各々は、自身に到達した音波をアナログ音声信号に変換し、Ａ／Ｄ変換器３２へ供給する。すると、Ａ／Ｄ変換器３２にて変換されたデジタル音声信号が、音圧測定部３３を経由して加算器３４に供給される。

音圧測定部３３は、自身を経由するデジタル音声信号を基に、各マイクロホンユニット３１に到達した音波の音圧を夫々測定する。そして、各マイクロホンユニット３１の位置とそれらに到達した音波の音圧との関係を示す音圧分布情報を入出力インターフェース３８を介して生徒端末１０へ出力する。出力された音圧分布情報は、生徒端末１０からＤＳＰサーバ装置４０に送信され、同サーバ装置４０にて発音時の息遣いの良否を評価する材料として利用される。

パラメータ記憶制御部３５は、入出力インターフェース３８を介して生徒端末１０から入力される集音特性制御パラメータをパラメータ記憶メモリ３６に記憶させる。この集音特性制御パラメータは、フィルタのカットオフ周波数を表すパラメータであり、ＤＳＰサーバ装置４０から生徒端末１０を経由して取得されることになっている。

集音特性制御部３７は、ハイパスフィルタやローパスフィルタなどを内蔵しており、自身が内蔵する各フィルタのカットオフ周波数をパラメータ記憶メモリ３６の集音特性制御パラメータに応じて設定する。加算器３４にてミキシングされたデジタル音声信号は、集音特性制御部３７にて所定の周波数成分が減衰された後、入出力インターフェース３８を介して生徒端末１０に出力されることになる。

図３は、生徒端末１０のハードウェア構成を示すブロック図である。図に示すように、この端末１０は、各種制御を行うＣＰＵ１１、ＣＰＵ１１にワークエリアを提供するＲＡＭ１２、ＩＰＬ（initial program loader）を記憶したＲＯＭ１３、マイクロホンアレイ３０との間で各種情報の入出力を行うマイクインターフェース１４、スピーカ６０に音声信号を出力するスピーカインターフェース１５のほか、ネットワークインターフェース１６、コンピュータディスプレイ１７、キーボード１８、マウス１９、ハードディスク２０などを備える。そして、ハードディスク２０は、ＯＳ（operating system）や、ブラウザなどの各種アプリケーションソフトウェアを記憶する。

図４は、ＤＳＰサーバ装置４０のハードウェア構成を示すブロック図である。図に示すように、この装置４０は、ＣＰＵ４１、ＲＡＭ４２、ＲＯＭ４３、ネットワークインターフェース４４、ハードディスク４５などを備える。そして、ハードディスク４５は、センテンスデータベース４５ａ、生徒管理データベース４５ｂ、生徒別素片データベース４５ｃ、及び発音記号辞書データベース４５ｄを記憶する。これら各データベースのうち、生徒別素片データベース４５ｃは、各生徒毎に個別に設けられ、それら各生徒の生徒ＩＤと各々対応付けられる。

図５は、センテンスデータベース４５ａのデータ構造図である。このデータベースは、各々が１つのセンテンスと対応する複数のレコードの集合体であり、それら各レコードは、発音の難易度が低いセンテンスと対応するものから順にソートされている。このデータベースを構成する１つのレコードは、「センテンス」、「欧文字スペル」、「発音記号列」、「息遣い」、及び「音声素片列」の５つのフィールドを有している。「センテンス」のフィールドには、各センテンスを識別するセンテンス識別子が記憶される。「欧文字スペル」のフィールドには、各センテンスのスペルを欧文字列として表すスペル情報が記憶される。「発音記号列」のフィールドには、各センテンスの発音手順を発音記号列として表すお手本記号列情報が記憶される。「息遣い」のフィールドには、お手本息遣い情報を記憶する。お手本息遣い情報は、各センテンスを良好に発音するための息遣いを音圧分布の遷移として示す情報である。「音声素片列」のフィールドには、各センテンスの音声を音声素片列として表すお手本素片列情報が記憶される。

図６は、生徒管理データベース４５ｂのデータ構造図である。このデータベースは、各々が一人の生徒と対応する複数のレコードの集合体である。このデータベースを構成する１つのレコードは、「生徒」、「認証情報」、「評価ポイント」、及び「高評価音声ライブラリ」の４つのフィールドを有している。「生徒」のフィールドには、各生徒を識別する生徒ＩＤを記憶する。「認証情報」のフィールドには、集音特性制御パラメータを記憶する。ＤＳＰサーバ装置４０は、自装置４０が各生徒の声質の解析結果を基に生成した集音特性制御パラメータをそれら各生徒のマイクロホンアレイ３０に設定させる一方で、生成した集音特性制御パラメータを各生徒に固有の認証キーとして「認証情報」のフィールドに記憶することになっている。

「評価ポイント」のフィールドには、評価ポイントを記憶する。評価ポイントとは、各生徒の発音の巧拙の程度を客観的に表すポイントを意味する。後の動作説明の項にて詳述するように、本実施形態における発音評価サービスでは、生徒の発音内容を示す音声情報を変換して得た発音記号列とセンテンスデータベース４５ａの「発音記号列」のフィールドに記憶された発音記号列との差異を発音減点ポイントとして定量化すると共に、生徒のマイクロホンアレイ３０から取得した音圧分布情報とセンテンスデータベース４５ａの「息遣い」のフィールドに記憶されたお手本息遣い情報との差異を息遣い減点ポイントとして定量化することになっている。そして、満点である「１００」から発音減点ポイントと息遣い減点ポイントとを減じて得た残りのポイントが、評価ポイントとして生徒に提示されると共に、「評価ポイント」のフィールドに記憶されることになる。
「高評価音声ライブラリ」のフィールドには、発音評価サービスにおいて、発音減点ポイントが「０」と算出された音声情報を蓄積する。そして、このフィールドに蓄積された音声情報は、高評価発音リマインダーサービスを通じて生徒に提示されることになっている。

図７は、ある生徒と対応する生徒別素片データベース４５ｃのデータ構造図である。このデータベースは、各々が１つの音声素片と対応する複数のレコードの集合体である。このデータベースを構成する１つのレコードは、「音声素片」と「特徴パラメータ」の２つのフィールドを有している。「音声素片」のフィールドには、各音声素片の名称を示す素片名情報が記憶される。「特徴パラメータ」のフィールドには、特徴パラメータを記憶する。特徴パラメータは、各音声素片毎の周波数スペクトルの特徴を示すパラメータである。

図８は、発音記号辞書データベース４５ｄのデータ構造図である。このデータベースは、各々が１つの母音又は子音と対応する複数のレコードの集合体である。このデータベースを構成する１つのレコードは、「発音記号」、「フォルマント」、及び「スペクトル情報」の３つのフィールドを有している。
「発音記号」のフィールドには、母音又は子音の発音記号を表す発音記号情報が記憶される。「フォルマント」のフィールドには、フォルマント情報が記憶される。フォルマント情報は、第１、第２、及び第３フォルマントのフォルマントレベルとフォルマント周波数とを示す情報である。フォルマントとは、音声波形の周波数スペクトル上の優勢な周波数成分であり、周波数の低い順に第１フォルマント、第２フォルマント、第３フォルマント、第４フォルマント・・・と呼ばれる。これらのうち、第３フォルマントまでが音韻性に寄与しており、第１乃至第３フォルマントの特徴を参照すれば、発音された音声に含まれる母音の種類を一意に特定できる。「スペクトル情報」のフィールドには、スペクトル情報が記憶される。スペクトル情報は、各母音及び子音のスペクトルの遷移を示す情報である。子音は第１乃至第３フォルマントを参照しただけではその種類を特定できないことも多いが、そのような場合は、フォルマントに加えてスペクトルの遷移を参照することによって、子音の種類を一意に特定できる。

講師端末５０は、生徒端末１０と同様に、ＣＰＵ、ＲＡＭ、ＲＯＭ、マイクインターフェース、スピーカインターフェース、ネットワークインターフェース、コンピュータディスプレイ、キーボード、マウス、ハードディスクなどを備えており、各生徒端末１０とＤＳＰサーバ装置４０の間の情報の遣り取りの履歴や、同サーバ装置４０のデータベースの記憶内容などを適宜取得できるようになっている。

次に本実施形態の動作を説明する。
本実施形態の動作は、初期登録処理と、音声評価処理と、高評価音声提示処理とに分けることができる。
ある生徒端末１０がＤＳＰサーバ装置４０へアクセスすると、ＤＳＰサーバ装置４０のＣＰＵ４１はその生徒端末１０へサービス選択画面の表示データを送信する。そして、表示データを受信した生徒端末１０のＣＰＵ１１は、サービス選択画面を自らのコンピュータディスプレイ１７に表示させる。

図９に示すように、このサービス選択画面の上段には、「ご利用になるサービスを選択してください。始めて利用される方は、「初期登録サービス」を選択してください。」という内容を示す文字列が表示され、その下には、「初期登録サービス」、「発音評価サービス」、及び「高評価発音リマインダーサービス」と夫々記したボタンが表示される。そして、「初期登録サービス」と記したボタンが選択されると初期登録処理が、「発音評価サービス」と記したボタンが選択されると発音評価サービス処理が、「高評価発音リマインダーサービス」と記したボタンが選択されると高評価音声提示処理が夫々実行される。

図１０及び１１は、初期登録処理を示すフローチャートである。
「初期登録サービス」と記したボタンが選択されると、生徒端末１０のＣＰＵ１１は、初期登録サービスの提供を求めるメッセージをＤＳＰサーバ装置４０へ送信する（Ｓ１００）。
メッセージを受信したＤＳＰサーバ装置４０のＣＰＵ４１は、生徒管理データベース４５ｂにレコードを一つ追加する（Ｓ１１０）。
続いて、ＣＰＵ４１は、新規な生徒ＩＤを生成し、その生徒ＩＤをステップ１１０で追加したレコードの「生徒」のフィールドに記憶する（Ｓ１２０）。

ＣＰＵ４１は、マイク調整用フレーズ発音要求画面の表示データを生成し、その表示データを生徒端末１０へ送信する（Ｓ１３０）。
表示データを受信した生徒端末１０のＣＰＵ１１は、マイク調整用フレーズ発音要求画面をコンピュータディスプレイ１７に表示させる（Ｓ１４０）。
マイク調整用フレーズ発音要求画面の上段には、「マイクロホンアレイの集音特性を最適化しますので、以下のフレーズをはっきりと発音してください。」という内容の文字列が表示され、その下には、マイク調整用フレーズを示す文字列が表示される。

この画面を参照した生徒は、自らの生徒端末１０にマイクロホンアレイ３０が接続されていることを確認した後、同画面に表示されているマイク調整用フレーズをマイクロホンアレイ３０に向かって発音する。すると、その発音内容を示すデジタル音声信号が、入出力インターフェース３８から生徒端末１０に順次入力される。
生徒端末１０は、マイクロホンアレイ３０から自端末１０に入力されてくるデジタル音声信号に所定の符号化処理を施して得た音声情報をＤＳＰサーバ装置４０へ送信する（Ｓ１５０）。

ＤＳＰサーバ装置４０のＣＰＵ４１は、生徒端末１０から受信した音声情報を復号化して音声信号を取得すると、その音声信号が示す所定時間長分の時間波形の周波数成分の分布に応じて集音特性制御パラメータを生成する（Ｓ１６０）。例えば、マイク調整用フレーズを発音した生徒が比較的高い声質の持ち主であった場合、高い周波数域に周波数成分が偏ることになるため、生成される集音特性制御パラメータが示すカットオフ周波数もそれだけ高いものにする。反対に、生徒が比較的低い声質の持ち主であった場合、低い周波数域に周波数成分が偏ることになるため、集音特性制御パラメータが示すカットオフ周波数もそれだけ低いものにする。

ＣＰＵ４１は、ステップ１７０で生成した集音特性制御パラメータをステップ１１０で追加したレコードの「認証情報」のフィールドに記憶する（Ｓ１７０）。
更に、ＣＰＵ４１は、ステップ１７０で記憶したものと同じ集音特性制御パラメータを生徒端末１０へ送信する（Ｓ１８０）。
集音特性制御パラメータを受信した生徒端末１０のＣＰＵ１１は、その集音特性制御パラメータをマイクロホンアレイ３０に出力する（Ｓ１９０）。上述したように、マイクロホンアレイ３０は、集音特性制御パラメータを記憶するためのパラメータ記憶メモリ３６を備えている。生徒端末１０から入力された集音特性制御パラメータがパラメータ記憶制御部３５によってこのメモリ３６に記憶されると、集音特性制御部３７は、記憶されたパラメータに応じて自身が内蔵するフィルタのカットオフ周波数を直ちに設定する。この設定により、マイクロホンアレイ３０の集音特性がその利用者である生徒の声質に応じて最適化されることになる。

集音特性制御パラメータをマイクロホンアレイ３０に出力した生徒端末１０のＣＰＵ１１は、マイクの調整が完了したことを示すメッセージをＤＳＰサーバ装置４０に送信する（Ｓ２００）。
メッセージを受信したＤＳＰサーバ装置４０のＣＰＵ４１は、新たな生徒別素片データベース４５ｃをハードディスク４５に設ける（Ｓ２１０）。設けられた生徒別素片データベース４５ｃを構成する各レコードの「音声素片」のフィールドには、各音声素片の素片名情報が既に記憶されている。その一方で、「特徴パラメータ」のフィールドには未だ特徴パラメータが記憶されておらず、以下に実行される一連の処理を通じて、特徴パラメータが順次蓄積されることになる。
ＣＰＵ４１は、予め準備されている素片抽出用フレーズ群のうちの１つを所定の雛形に埋め込んで素片抽出用フレーズ発音要求画面の表示データを生成し、生成した表示データを生徒端末１０へ送信する（Ｓ２２０）。

ここで、素片抽出用フレーズ群とは、全ての音声素片が網羅されるように体系化された複数のフレーズの纏まりを意味する。

表示データをＤＳＰサーバ装置４０から受信した生徒端末１０のＣＰＵ１１は、素片抽出用フレーズ発音要求画面をコンピュータディスプレイ１７に表示させる（Ｓ２３０）。
素片抽出用フレーズ発音要求画面の上段には、「あなたの肉声を基に音声合成用のデータベースを作成します。以下のフレーズを発音してください。」という内容の文字列が表示され、その下には、素片抽出用フレーズを示す文字列が表示される。

この画面を参照した生徒は、同画面に表示されている素片抽出用フレーズをマイクロホンアレイ３０に向かって発音する。すると、その発音内容を示すデジタル音声信号が、入出力インターフェース３８から生徒端末１０に順次入力される。
生徒端末１０のＣＰＵ１１は、マイクロホンアレイ３０から自端末１０に入力されてくるデジタル音声信号に所定の符号化処理を施して得た音声情報をＤＳＰサーバ装置４０へ送信する（Ｓ２４０）。

ＤＳＰサーバ装置４０のＣＰＵ４１は、生徒端末１０から送信されてきた音声情報をＲＡＭ４２に記憶する（Ｓ２５０）。
ＣＰＵ４１は、ステップ２５０でＲＡＭ４２に記憶した音声情報に復号化処理を施して元の音声信号を取得すると、その音声信号が示す時間波形を解析して音声素片の特徴パラメータを取得する（Ｓ２６０）。
このステップについて更に具体的に説明する。本ステップでは、まず、音声情報を復号化して得た音声信号が示す時間波形に高速フーリエ変換をかけ、所定のフレーム毎の周波数スペクトルの特徴を示す特徴パラメータ列を取得する。そして、取得された一連の特徴パラメータを、時間波形に含まれる各音声素片の長さと夫々対応する区間毎に切り出す。

ＣＰＵ４１は、ステップ２６０で取得した特徴パラメータを、それらの音声素片名を示す素片名情報と対応付け、ステップ２１０で設けた生徒別素片データベース４５ｃに記憶する（Ｓ２７０）。
全ての素片抽出用フレーズの音声信号から取得した特徴パラメータが生徒別素片データベース４５ｃに蓄積されるまで、ステップ２２０乃至ステップ２７０の処理は繰返される。

特徴パラメータを蓄積し終えると、ＣＰＵ４１は、ステップ１２０で「生徒」のフィールドに記憶したものと同じ生徒ＩＤを生徒端末１０へ送信する（Ｓ２８０）。
生徒ＩＤを受信した生徒端末１０のＣＰＵ１１は、その生徒ＩＤをハードディスク２０の所定領域に記憶する（Ｓ２９０）。
以上で、初期登録処理が終了する。

図１２及び１３は、発音評価サービス処理を示すフローチャートである。
「発音評価サービス」と記したボタンが選択されると、生徒端末１０のＣＰＵ１１は、発音評価サービスの提供を求めるメッセージをＤＳＰサーバ装置４０へ送信する（Ｓ４００）。
メッセージを受信したＤＳＰサーバ装置４０のＣＰＵ４１は、生徒ＩＤの送信を求めるメッセージを生徒端末１０へ送信する（Ｓ４１０）。
メッセージを受信した生徒端末１０のＣＰＵ１１は、初期登録処理を通じてＤＳＰサーバ装置４０から取得していた生徒ＩＤをハードディスク２０の所定領域から読み出し、その生徒ＩＤをＤＳＰサーバ装置４０へ送信する（Ｓ４２０）。

ＤＳＰサーバ装置４０のＣＰＵ４１は、生徒端末１０から送信されたものと同じ生徒ＩＤを「生徒」のフィールドに記憶したレコードを生徒管理データベース４５ｂから特定する（Ｓ４３０）。
続いて、ＣＰＵ４１は、集音特性制御パラメータの送信を求めるメッセージを生徒端末１０へ送信する（Ｓ４４０）。
メッセージを受信した生徒端末１０のＣＰＵ１１は、自端末１０に接続されたマイクロホンアレイ３０のパラメータ記憶メモリ３６に記憶されている集音特性制御パラメータを取得し、取得した集音特性制御パラメータをＤＳＰサーバ装置４０へ送信する（Ｓ４５０）。

ＤＳＰサーバ装置４０のＣＰＵ４１は、生徒端末１０から送信されてきた集音特性制御パラメータと、ステップ４３０で特定したレコードの「認証情報」のフィールドに記憶された集音特性制御パラメータとが一致するか否か判断する（Ｓ４６０）。
ステップ４６０にて、集音特性制御パラメータが一致しないと判断したＣＰＵ４１は、サービスの提供を拒否するメッセージを生徒端末１０へ送信する（Ｓ４７０）。
一方、ステップ４６０にて、集音特性制御パラメータが一致すると判断したＣＰＵ４１は、評価ポイントの算出に用いる領域（以下、「ポイント算出領域」と呼ぶ）をＲＡＭ４２の一部に確保し、そのポイント算出領域に評価ポイントの満点である「１００」を記憶する（Ｓ４８０）。

ＣＰＵ４１は、センテンスデータベース４５ａのレコードの１つを参照対象として特定する（Ｓ４９０）。なお、上述したように、このセンテンスデータベース４５ａは、発音の難易度が低いセンテンスと対応するレコードから順にソートされており、本ステップからステップ７００までの一連の処理は、参照対象となるレコードをシフトさせながら繰返されることになっている。
ＣＰＵ４１は、ステップ４９０で特定したレコードの「発音記号列」のフィールドに記憶されているお手本記号列情報、「息遣い」のフィールドに記憶されたお手本息遣い情報、及び「音声素片列」のフィールドに記憶された音声素片列情報をＲＡＭ４２に読み出す（Ｓ５００）。

続いて、ＣＰＵ４１は、ステップ４９０で特定したレコードの「欧文字スペル」のフィールドに記憶されているスペル情報を所定の雛形に埋め込んで発音課題提示画面の表示データを生成し、その表示データを生徒端末１０へ送信する（Ｓ５１０）。
表示データを受信した生徒端末１０のＣＰＵ１１は、発音課題提示画面をコンピュータディスプレイ１７に表示させる（Ｓ５２０）。
発音課題提示画面の上段には、「以下のセンテンスをはっきり発音して下さい。」という内容を示す文字列が表示され、その下には、センテンスのスペルを示す欧文字列が表示される。

この画面を参照した生徒は、自らの生徒端末１０にマイクロホンアレイ３０が接続されていることを確認した後、同画面に表示されているセンテンスをマイクロホンアレイ３０に向かって発音する。すると、各マイクロホンユニット３１に到達した音波を示すデジタル音声信号が、音圧測定部３３を経由して加算器３４に夫々供給される。加算器３４にてミキシングされたデジタル音声信号は、集音特性制御部３７において所定の周波数成分が減衰された後、音圧測定部３３によって生成された音圧分布情報と共に入出力インターフェース３８から生徒端末１０へと順次出力される。
生徒端末１０のＣＰＵ１１は、マイクロホンアレイ３０から自端末１０へデジタル音声信号と音圧分布情報とが入力されてくると、デジタル音声信号を音声情報化し、その音声情報を音圧分布情報と併せてＤＳＰサーバ装置４０へ順次送信する（Ｓ５３０）。

ＤＳＰサーバ装置４０のＣＰＵ４１は、生徒端末１０から送信されてくる音声情報と音圧分布情報とをＲＡＭ４２に順次記憶する（Ｓ５４０）。
ＣＰＵ４１は、ステップ５４０でＲＡＭ４２に記憶した音声情報に所定の変換処理を施すことにより、生徒の発音内容を示す発音記号列を取得する（Ｓ５５０）。
このステップについて更に具体的に説明する。本ステップでは、まず、音声情報を復号化して得た音声信号に高速フーリエ変換をかけ、所定のフレーム毎の周波数スペクトルを取得する。そして、取得された周波数スペクトルから、第１、第２、及び第３フォルマントのフォルマント周波数とフォルマントレベルとを抽出する。続いて、抽出したフォルマント周波数とフォルマントレベルの各対を、時間波形に含まれる子音及び母音の長さと各々対応する区間毎に夫々切り出す。更に、発音記号辞書データベース４５ｄの各レコードを参照し、切り出したフォルマント周波数及びフォルマントレベルと「フォルマント」のフィールドの記憶内容が最も近い母音又は子音の発音記号を取得する。なお、子音については、各レコードの「フォルマント」のフィールドを参照しただけでは発音記号の候補を１つに絞り込めないケースが生じうる。その場合は、その子音と対応する区間の周波数スペクトルの遷移と各レコードの「スペクトル情報」の記憶内容とを夫々比較して更なる絞込みを行い、周波数スペクトルの遷移の特徴が最も近似する唯一の子音の発音記号を取得する。

ＣＰＵ４１は、ステップ５５０で取得した発音記号列を構成する一連の発音記号のうち、ステップ５００で読み出したお手本記号列情報が示す発音記号列と一致しない箇所を特定する（Ｓ５６０）。
ＣＰＵ４１は、お手本記号列情報が示す発音記号列と一致しなかった箇所の発音記号の数に所定のポイント換算率を作用させて発音減点ポイントを取得する（Ｓ５７０）。

ＣＰＵ４１は、ステップ５７０で取得した発音減点ポイントが「０」であるか否か判断する（Ｓ５８０）。
ステップ５８０にて、発音減点ポイントが「０」であると判断したＣＰＵ４１は、ステップ５４０でＲＡＭ４２に記憶した音声情報を、ステップ４３０で特定したレコードの「高評価音声ライブラリ」のフィールドへ記憶する（Ｓ５９０）。
一方、ステップ５８０にて、発音減点ポイントが「０」でないと判断したＣＰＵ４１は、ステップ５９０を実行することなく次のステップへ進む。

続いて、ＣＰＵ４１は、ステップ５４０でＲＡＭ４２に記憶した一連の音圧分布情報が示す音圧分布の遷移と、ステップ５００で読み出したお手本息遣い情報が示す音圧分布の遷移との差分を求め、求めた差分値に所定のポイント換算率を作用させて息遣い減点ポイントを取得する（Ｓ６００）。
ＣＰＵ４１は、ステップ５７０で取得した発音減点ポイントとステップ５８０で取得した息遣い減点ポイントの合計を、ＲＡＭ４２のポイント算出領域に記憶させてある評価ポイントから減算する（Ｓ６１０）。
ＣＰＵ４１は、ステップ５００で読み出したお手本記号列情報とステップ５６０で特定した箇所との関係を表す要矯正箇所提示画面の表示データを生成し、生成した表示データを生徒端末１０に送信する（Ｓ６２０）。

表示データを受信した生徒端末１０のＣＰＵ１１は、要矯正箇所提示画面をコンピュータディスプレイ１７に表示させる（Ｓ６３０）。
図１４は、要矯正箇所提示画面である。
「センテンスの正しい発音手順を示す発音記号は以下のようになっています。赤色で表示された箇所の発音をお手本のように矯正する必要があります。」という内容の文字列が表示され、その下には、発音記号列表示領域Ａと、スペル表示領域Ｂとが表示される。

発音記号列表示領域Ａには、お手本記号列情報が示す一連の発音記号列が表示される。これら一連の発音記号列のうち、ステップ５６０で特定した箇所と対応する発音記号は、残りの発音記号とは別の色である赤色で表示される（図面上では赤色の文字を鎖線の矩形として標記）。

なお、本実施形態では、ステップ５６０で特定した箇所と対応する発音記号を残りの発音記号と異なる色によって表わしているが、文字の大きさ、書体等によって両者の表示態様に違いを与えてもよい。
また、スペル表示領域Ｂには、センテンスのスペルを示す欧文字列が表示される。
更に、画面の下段には、「自分の声の正しい発音を聴いてみる」と記したボタンと、「次のセンテンスに進む」と記したボタンとが表示される。

生徒は、画面上の発音記号列表示領域Ａとスペル表示領域Ｂとを参照し、矯正を要する発音の箇所を確認した後、何れかのボタンを選択する。
「自分の声の正しい発音を聴いてみる」と記したボタンが選択されると、生徒端末１０のＣＰＵ１１は、矯正音声情報の送信を求めるメッセージをＤＳＰサーバ装置４０へ送信する（Ｓ６４０）。
メッセージを受信したＤＳＰサーバ装置４０のＣＰＵ４１は、ステップ５００で読み出した音声素片列情報が示す一連の音声素片のうち、ステップ５６０で特定した箇所と対応する一部の音声素片又は音声素片列を抽出し、抽出した音声素片又は音声素片列と特徴パラメータを生徒別音声データベース４５ｃから読み出す（Ｓ６５０）。

ＣＰＵ４１は、ステップ６５０で読み出した特徴パラメータを基にセンテンスの矯正音声情報を合成する（Ｓ６６０）。
このステップについて更に具体的に説明する。本ステップでは、まず、音声情報を復号化して得た音声信号が示す時間波形に高速フーリエ変換をかけ、所定のフレーム毎の周波数スペクトルの特徴を示す特徴パラメータ列を取得する。そして、取得された一連の特徴パラメータのうち、ステップ５６０で特定した箇所の音声素片又は音声素片列と対応する区間を特定し、特定した区間の特徴パラメータをステップ６５０で読み出した特徴パラメータに置換する。次に、置換が施された後の特徴パラメータ列に逆フーリエ変換をかけ、時間波形を示すデジタル音声信号を取得した後、その音声信号に所定の符号化処理を施すことにより、矯正音声情報を取得する。

ＤＳＰサーバ装置４０のＣＰＵ４１は、ステップ６６０で取得した矯正音声情報を生徒端末１０へ送信する（Ｓ６７０）。
矯正音声情報を受信した生徒端末１０のＣＰＵ１１は、その矯正音声情報を復号化して得たデジタル音声信号をスピーカインターフェース１５を介してスピーカ６０へ供給する（Ｓ６８０）。これにより、スピーカ６０からは、センテンスの正しい発音が、生徒自身の声質の音声として放音される。

一方、要矯正箇所提示画面において、「次のセンテンスに進む」と記したボタンが選択されると、生徒端末１０のＣＰＵ１１は、次のセンテンスの提示を求めるメッセージをＤＳＰサーバ装置４０へ送信する（Ｓ６９０）。
メッセージを受信したＤＳＰサーバ装置４０のＣＰＵ４１は、未だ参照対象となっていないレコードがセンテンスデータベース４５ａに残っているか否かを判断する（Ｓ７００）。
ステップ７００にて、参照対象となっていないレコードが残っていると判断されると、再びステップ４９０に戻って、参照対象となるレコードを１つシフトさせた後、以降の一連の処理が繰返される。

ステップ７００にて、参照対象となっていないレコードが残っていないと判断されると、ＤＳＰサーバ装置４０のＣＰＵ４１は、ＲＡＭ４２のポイント算出領域に記憶されている評価ポイントを、ステップ４３０で特定したレコードの「評価ポイント」のフィールドに記憶する（Ｓ７１０）。
続いて、ＣＰＵ４１は、評価ポイントを所定の雛形に埋め込んで評価結果通知画面の表示データを生成し、その表示データを生徒端末１０に送信する（Ｓ７２０）。

表示データを受信した生徒端末１０のＣＰＵ１１は、評価結果通知画面をコンピュータディスプレイ１７に表示させる（Ｓ７３０）。
評価結果通知画面の上段には、「あなたの今回の評価ポイントは以下の通りです。」という内容を示す文字列が表示され、その下には、評価ポイントが表示される。
以上で、発音評価サービス処理が終了する。

図１５は、高評価音声提示処理を示すフローチャートである。
「高評価音声リマインダーサービス」と記したボタンが選択されると、生徒端末１０のＣＰＵ１１は、高評価音声リマインダーサービスの提供を求めるメッセージをＤＳＰサーバ装置４０へ送信し、その後、ＤＳＰサーバ装置４０は、集音特性制御パラメータを用いた認証を行う。これら一連の処理の内容は、図１２に示したステップ４００乃至４７０と同様であるので、再度の説明を割愛する。
ステップ４６０にて、集音特性制御パラメータが一致すると判断したＤＳＰサーバ装置４０のＣＰＵ４１は、ステップ４３０で生徒管理データベース４５ｂから特定したレコードの「高評価音声ライブラリ」のフィールドに蓄積されている音声情報をＲＡＭ４２に読み出す（Ｓ８００）。

ＣＰＵ４１は、ステップ８００で読み出した音声情報を、生徒端末１０へ送信する（Ｓ８１０）。
音声情報を受信した生徒端末１０のＣＰＵ１１は、その音声情報を復号化して得たデジタル音声信号をスピーカインターフェース１５を介してスピーカ６０へ出力する（Ｓ８２０）。これにより、過去の発音評価サービスにおいて高い評価を得ていた自らの音声が、スピーカ６０から放音される。

以上説明した本実施形態は、以下に示す有用な効果を奏する。
第１に、自身の発音内容のどの箇所が良好でないかを生徒に具体的に把握させることができる。本実施形態における発音評価サービスでは、ＤＳＰサーバ装置４０が、生徒の発音内容を示す音声情報を変換して得た発音記号列とお手本となる発音記号列の不一致の度合いを評価する。そして、その結果が要矯正箇所提示画面として生徒に提示される。この要矯正箇所提示画面では、お手本記号列情報が示す一連の発音記号列のうち、生徒が正しく発音できなかった箇所の発音記号が残りの発音記号とは異なる色で表示されるようになっている。従って、各生徒は、要矯正箇所提示画面を参照することにより、自らが正しく発音できていた箇所と正しく発音できなかった箇所とを発音記号レベルではっきりと把握することができる。

第２に、生徒の学習意欲を引き出すことができる。本実施形態における発音評価サービスでは、同サービスを通じて生徒が発音する各センテンスの音声情報のうち、発音減点ポイントが「０」であった音声情報、つまり、お手本と同じように発音できた音声情報を生徒管理データベース４５ｂの「高評価音声ライブラリ」のフィールドに蓄積するようになっている。そして、高評価発音リマインダーサービスを通じて生徒が高評価音声の提示を求めると、ＤＳＰサーバ装置４０は、「高評価音声ライブラリ」のフィールドから読み出した音声情報をその生徒の生徒端末１０へ送信するようになっている。各生徒は、自身の過去の良好な発音を聴取することにより、高い学習意欲を保ったまま学習を継続していくことができる。

第３に、英語の話し方の良否を複数の切り口から総合的に評価することができる。本実施形態では、各生徒端末１０にマイクロホンアレイ３０が接続され、このマイクロホンアレイ３０は、生徒の発音した音声の波形を示すデジタル音声信号だけでなく、その発音を行った際の息遣いの状態を示す音圧分布情報をも生徒端末１０へ供給するようになっている。そして、ＤＳＰサーバ装置４０は、生徒端末１０から送信されてくる音声情報を基に生徒の発音内容である音声そのものの評価を行うだけでなく、同端末１０から送信されてくる音圧分布情報を基に息遣いの評価をも行い、２つの評価の結果を評価ポイントに反映させるようになっている。従って、音声の波形を解析するだけでは得られないような精緻な評価結果を生徒に提示することができる。

第４に、サービスを不正に利用する悪意者を簡易且つ確実に排除することができる。本実施形態では、所定の周波数成分を減衰させて集音特性を最適化する集音特性制御部３７を各生徒のマイクロホンアレイ３０に内蔵させており、この集音特性制御部３７の制御内容を示す集音特性制御パラメータは、生徒の認証キーとしてＤＳＰサーバ装置４０側に登録されることになっている。そして、発音評価サービス及び高評価発音リマインダーサービスを利用する生徒端末１０は、ＤＳＰサーバ装置４０にアクセスするとマイクロホンアレイ３０の集音特性制御パラメータを引き渡し、引渡した集音特性制御パラメータがＤＳＰサーバ装置４０に登録されているものと一致することを条件として、両サービスの提供が許可されるようになっている。このように、各生徒の声質に依存して生成される固有の集音特性制御パラメータを認証キーとしても利用することにより、不正なサービスの利用を確実に排除することができる。また、パスワードやＩＤの入力といった煩わしい認証手続きを生徒に強いる必要も無くなる。

（他の実施形態）
本願発明は、種々の変形実施が可能である。
上記実施形態において、ＤＳＰサーバ装置４０は、あるセンテンスの音声情報を変換して得た発音記号列がお手本記号列情報が示す発音記号列と一致しているか否かを判断した後、その判断結果を要矯正箇所提示画面の表示データとして生徒端末１０へ送信するようになっていた。これに対し、センテンスを良好に発音するための口の動きを示す動画像を併せて提示してもよい。この変形例では、ＤＳＰサーバ装置１０が、口の動きを示す動画像情報を各発音記号と対応付けて自らのハードディスク４５に記憶しておく。同サーバ装置４０は、音声情報を変換して得た発音記号列を構成する一連の発音記号のうち、お手本記号列情報が示す発音記号列と内容が一致しない箇所を特定した後、その箇所の発音記号と対応付けられた動画像情報をハードディスク４５から読み出す。そして、読み出した動画像情報を生徒端末１０へ送信する。

上記実施形態において、ＤＳＰサーバ装置４０は、ある音声情報から取得された音声素片列について算出した発音減点ポイントが「０」であることを条件として、その音声情報を生徒管理データベース４５ｂの「高評価音声ライブラリ」のフィールドに記憶するようになっていた。これに対し、「高評価音声ライブラリ」のフィールドに記憶する条件を、発音減点ポイントが「０」であることだけに限定する必要はなく、発音減点ポイントが予め設定された他の所定値（例えば、３ポイント）を下回ったことを条件としてもよい。

上記実施形態における初期登録処理では、ＤＳＰサーバ装置４０が、生徒端末１０から送信されてきた音声情報を復号化して音声信号を取得し、その音声信号が示す波形に高速フーリエ変換をかけて得た周波数スペクトルの特徴パラメータを生徒別素片データベース４５ｃに蓄積するようになっていた。また、発音評価サービス処理においても同様に、ＤＳＰサーバ装置４０が、生徒端末１０から送信されてきた音声情報を復号化して音声信号を取得した後、その音声信号が示す波形に高速フーリエ変換をかけて得た周波数スペクトルの特徴パラメータ列の一部を生徒別素片データベース４５ｃから抽出した特徴パラメータで置換することによって矯正音声情報を取得していた。
これに対し、音声信号の波形に高速フーリエ変換をかける機能を生徒端末１０にも搭載させ、同端末１０はマイクロホンアレイ３０から入力されたデジタル音声信号に高速フーリエ変換を施して得た特徴パラメータ列をＤＳＰサーバ装置４０に送信するようにしてもよい。かかる変形例によると、ＤＳＰサーバ装置４０は、音声信号に改めて高速フーリエ変換を施す必要がなくなり、同サーバ装置４０の処理負担が軽減される。つまり、初期登録処理においては、生徒端末１０から送信されてきた特徴パラメータ列を各音声素片と対応する区間毎に切り出して生徒別素片データベース４５ｃに蓄積すればよく、また、発音評価サービス処理においては、送信されてきた特徴パラメータ列のうち、お手本と一致しなかった箇所を生徒別素片データベース４５ｃから読み出した特徴パラメータで置換するだけでよい。

上記実施形態において、ＤＳＰサーバ装置４０のセンテンスデータベース４５ａには、お手本記号列情報やお手本息遣い情報がセンテンス毎に記憶さており、発音評価サービス処理における減点ポイントの算出もセンテンス毎に行われていた。これに対し、センテンスよりも細かな会話の構成要素である単語ごとにお手本記号列情報やお手本息遣い情報をデータベース化しておき、発音評価サービス処理では、それら各単語毎に減点ポイントの算出を行うようにしてもよい。

上記実施形態において、ＤＳＰサーバ装置４０は、生徒の音声情報が示す時間波形に高速フーリエ変換をかけて得た一連の特徴パラメータのうち、お手本どおりに発音できていない区間を正しい音声素片の特徴パラメータで置換することによって矯正音声情報を合成していた。これに対し、以下に示すような他の手順に従って矯正音声情報を合成してもよい。この手順では、まず、生徒の音声情報の時間軸を、その音声情報に含まれる各音声素片の位置がお手本となる音声情報に含まれる各音声素片と同じ位置になるように正規化する。その上で、お手本となる音声情報のピッチとベロシティを、生徒の音声情報のそれと差し替える。最後に、生徒の音声情報に含まれる子音の部分だけをお手本となる音声情報のそれと入れ替える。このような手順によっても、矯正音声情報、つまり、発音の仕方を矯正するための正しい発音内容を示す音声情報の生成は可能である。

上記実施形態におけるマイクロホンアレイ３０の集音部は、複数のマイクロホンユニット３１を縦方向及び横方向に夫々１６列ずつ配列した構造を取っていた。しかしながら、マイクロホンユニット３１をこのような方向及び数で並べる必要はなく、生徒の発音時における音圧分布をデータ化できるようになってさえいれば、別の構造にしてもよい。

上記実施形態において、ＤＳＰサーバ装置４０の発音記号辞書データベース４５ｄは、フォルマント情報に加えてスペクトル情報を各母音及び子音の各々と対応付けて蓄積していた。そして、同サーバ装置４０は、生徒の発音情報を発音記号列に変換する際、その音声情報の時間波形に含まれるある子音の種類をフォルマントの比較によって一意に特定できなかったときは、その子音と対応する区間の周波数スペクトルの遷移と発音記号辞書データベース４５ｄに記憶された各スペクトル情報とを比較することによって種類を特定していた。これに対し、Hidden Markov Model（隠れマルコフモデル）を利用して変換を行なってもよい。この変形例によると、音節、単語、文節といったセグメンテーション単位で発音記号列の候補を絞り込んでいくことになるため、母音及び子音毎の独立した認識を行う上記実施形態よりも確度の高い変換結果を得ることができる。

実施形態の全体構成を示すブロック図である。マイクロホンアレイのハードウェア構成図である。生徒端末のハードウェア構成図である。ＤＳＰサーバ装置のハードウェア構成図である。センテンスデータベースのデータ構造図である。生徒管理データベースのデータ構造図である。生徒別素片データベースのデータ構造図である。発音記号辞書データベースのデータ構造図である。サービス選択画面である。初期登録処理を示すフローチャートである（前半部分）。初期登録処理を示すフローチャートである（後半部分）。発音評価サービス処理を示すフローチャートである（前半部分）。発音評価サービス処理を示すフローチャートである（後半部分）。要矯正箇所提示画面である。高評価音声提示処理を示すフローチャートである。

符号の説明

１０…生徒端末、１１，４１…ＣＰＵ、１２，４２…ＲＡＭ、１３，４３…ＲＯＭ、１４…マイクインターフェース、１５…スピーカインターフェース、１６，４４…ネットワークインターフェース、１７…コンピュータディスプレイ、１８…キーボード、１９…マウス、２０，４５…ハードディスク、５０…講師端末、３０…マイクロホンアレイ、３１…マイクロホンユニット、３２…Ａ／Ｄ変換器、３３…音圧測定部、３４…加算器、３５…パラメータ記憶制御部、３６…パラメータ記憶メモリ、３７…集音特性制御部、３８…入出力インターフェース、４０…ＤＳＰサーバ装置、６０…スピーカ

Claims

外部の特定の装置と情報の遣り取りを行う発音評価装置であって、
発音のお手本となるセンテンス又は単語の発音手順を示す発音記号列を記憶した発音記号記憶手段と、
話者が発音した前記センテンス又は単語を示す音声情報、又はその音声情報が示す波形の解析結果である特徴パラメータ列を前記外部の特定の装置から受信する発音内容受信手段と、
前記発音記号記憶手段から発音記号列を読み出す記号列読出手段と、
前記発音内容受信手段が受信した音声情報又は特徴パラメータ列に所定の変換処理を施すことにより、前記話者の発音内容を表す発音記号列を取得する記号列取得手段と、
前記記号列取得手段が取得した発音記号列と前記記号列読出手段が読み出した発音記号列との不一致の度合いを評価する発音評価手段と、
前記発音評価手段による評価結果を内包した評価情報を前記外部の特定の装置へ送信する送信手段と、
音声情報を記憶する音声情報記憶手段と、
前記記号列取得手段が取得した発音記号列と前記記号列読出手段が読み出した発音記号列との不一致の度合いが所定値を下回ると、その音声情報を前記音声情報記憶手段に記憶させる高評価音声蓄積手段と、
高評価を受けた音声情報の送信を求めるメッセージを前記外部の特定の装置から受信する要求受信手段とを備え、
前記送信手段は、
前記要求受信手段が前記メッセージを受信すると、前記音声情報記憶手段に記憶された音声情報を前記外部の特定の装置へ送信する
発音評価装置。
外部の特定の装置と情報の遣り取りを行う発音評価装置であって、
発音のお手本となるセンテンス又は単語の発音手順を示す発音記号列を記憶した発音記号記憶手段と、
話者が発音した前記センテンス又は単語を示す音声情報、又はその音声情報が示す波形の解析結果である特徴パラメータ列を前記外部の特定の装置から受信する発音内容受信手段と、
前記発音記号記憶手段から発音記号列を読み出す記号列読出手段と、
前記発音内容受信手段が受信した音声情報又は特徴パラメータ列に所定の変換処理を施すことにより、前記話者の発音内容を表す発音記号列を取得する記号列取得手段と、
前記記号列取得手段が取得した発音記号列と前記記号列読出手段が読み出した発音記号列との不一致の度合いを評価する発音評価手段と、
前記センテンス又は単語を良好に発音するためのお手本となる息遣いの状態を示す息遣い情報を記憶した息遣い情報記憶手段と、
話者が前記センテンス又は単語を発音した際の息遣いの状態を示す息遣い情報を前記外部の特定の装置から受信する息遣い情報受信手段と、
前記息遣い情報記憶手段から息遣い情報を読み出す息遣い情報読出手段と、
前記息遣い情報受信手段が受信した息遣い情報と、前記息遣い情報読出手段が読み出した息遣い情報との不一致の度合いを評価する息遣い評価手段と、
前記発音評価手段および前記息遣い評価手段のそれぞれによる各評価結果を内包した評価情報を前記外部の特定の装置へ送信する送信手段と
を備えた発音評価装置。
請求項１または２に記載の発音評価装置において、
前記発音内容受信手段は、前記話者が発音した前記センテンス又は単語を示す音声情報を前記外部の特定の装置から受信する手段であり、
全ての音声素片が網羅されるように体系化された複数のフレーズのそれぞれを前記話者が発音した発音内容を示す各音声情報を、前記外部の特定の装置から受信するフレーズ音声情報受信手段と、
前記フレーズ音声情報受信手段により受信された前記各音声情報をそれぞれ解析して前記話者が発音した全ての音声素片について、周波数スペクトルの特徴を示すパラメータである特徴パラメータを当該音声素片毎にそれぞれ生成することにより取得して素片データベースに蓄積する全特徴パラメータ取得手段と、
前記発音内容受信手段が受信した音声情報を解析して前記センテンス又は単語に含まれる音声素片毎の周波数スペクトルの特徴をそれぞれ示す一連のパラメータからなる特徴パラメータ列を取得する特徴パラメータ列取得手段と、
前記記号列取得手段が取得した発音記号列と前記記号列読出手段が読み出した発音記号列とが一致しない箇所を特定する不一致箇所特定手段と、
前記特徴パラメータ列取得手段が取得した特徴パラメータ列において、前記不一致箇所特定手段が特定した前記箇所の音声素片と対応する区間を特定し、特定した当該区間の前記パラメータを、前記全特徴パラメータ取得手段により蓄積され、且つ、当該音声素片と対応する特徴パラメータに置換することにより、前記話者が発音の仕方を矯正するための正しい発音内容を示す音声情報である矯正音声情報を合成する矯正音声情報合成手段と、
前記矯正音声情報の送信を求めるメッセージを前記外部の特定の装置から受信する矯正音声情報要求受信手段とを備え、
前記送信手段は、
前記矯正音声情報要求受信手段が前記メッセージを受信すると、前記矯正音声情報合成手段により合成された矯正音声情報を前記外部の特定の装置へ送信する
発音評価装置。
請求項１または２に記載の発音評価装置において、
前記発音内容受信手段は、前記話者が発音した前記センテンス又は単語を示す音声情報を解析して当該センテンス又は単語に含まれる音声素片毎の周波数スペクトルの特徴をそれぞれ示す一連のパラメータからなる特徴パラメータ列を生成する前記外部の特定の装置から、生成した当該特徴パラメータ列を受信する手段であり、
全ての音声素片が網羅されるように体系化された複数のフレーズのそれぞれを前記話者が発音した発音内容により示される各音声情報をそれぞれ解析して前記音声素片毎の周波数スペクトルの特徴を示すパラメータである特徴パラメータを生成した前記外部の特定の装置から、生成した当該特徴パラメータを取得して素片データベースに蓄積する全特徴パラメータ取得手段と、
前記記号列取得手段が取得した発音記号列と前記記号列読出手段が読み出した発音記号列とが一致しない箇所を特定する不一致箇所特定手段と、
前記発音内容受信手段が受信した特徴パラメータ列において、前記不一致箇所特定手段が特定した前記箇所の音声素片と対応する区間を特定し、特定した当該区間の前記パラメータを、前記全特徴パラメータ取得手段により蓄積され、且つ、当該音声素片と対応する特徴パラメータに置換することにより、前記話者が発音の仕方を矯正するための正しい発音内容を示す音声情報である矯正音声情報を合成する矯正音声情報合成手段と、
前記矯正音声情報の送信を求めるメッセージを前記外部の特定の装置から受信する矯正音声情報要求受信手段とを備え、
前記送信手段は、
前記矯正音声情報要求受信手段が前記メッセージを受信すると、前記矯正音声情報合成手段により合成された矯正音声情報を前記外部の特定の装置へ送信する
発音評価装置。