JP2006195095A

JP2006195095A - 音声処理サービス提供装置、マイクロホン

Info

Publication number: JP2006195095A
Application number: JP2005005696A
Authority: JP
Inventors: Noriyuki Hata; 紀行畑; Takuya Tamaru; 卓也田丸; Takuro Sone; 卓朗曽根; Katsuichi Osakabe; 勝一刑部; Sukeyuki Shibuya; 資之渋谷
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2005-01-12
Filing date: 2005-01-12
Publication date: 2006-07-27

Abstract

【課題】発音評価サービスの利用者に複雑な認証手続きを強いることなく、不正な利用を確実に排除できるような仕組みを提供すること。
【解決手段】生徒端末１０はマイクロホンアレイ３０を使ってサービスの提供を受ける。マイクロホンアレイ３０の集音特性制御部３７は、パラメータ記憶メモリ３６に記憶された集音特性制御パラメータを基に集音特性を制御する。また、ＤＳＰサーバ装置４０は、各生徒の集音特性制御パラメータを生成し、生成した集音特性制御パラメータを認証キーとして登録する。
【選択図】図１

Description

本発明は、発音の矯正を支援する技術に関する。

従来より、外国語の学習を支援する種々の技術が提案されてきた。例えば、特許文献１には、一人の指導者による複数の学習者を対象とした発音指導を支援する技術の開示がある。同文献に開示された集合語学研修支援装置は、各学習者及び指導者が利用する端末である研修支援ユニットに、話者の口の動きや顔の表情などを撮像する撮像装置を搭載させてなる。この装置によれば、指導者は、各学習者の研修支援ユニットから自らに送信されてくる画像情報を基に各学習者の発音の様子を了解し、各々に合わせた指導を効率的に行うことができる。
また、最近では、専用のサーバ装置をネットワーク上に設置し、このサーバ装置を介して学習者へ有料の語学学習のレッスンを提供するサービスを行っている事業者もある。
特開平１１−２１２４３７

上述した類のサービスを行っている事業者の多くは、自らのサービスを不正に享受する悪意者を排除するため、サービスの利用を認める利用者に対して固有のＩＤとパスワードとを交付し、利用者が自らのサーバ装置にアクセスしてくると、ＩＤとパスワードによる認証をパスした場合のみ、サービスの利用を認める。
しかしながら、このような認証を行う場合、他者のパスワード等を不正に入手してアクセスしてくる悪意者までも排除することはできない。また、利用者の側から見ると、自らがサービスを利用するたびにＩＤとパスワードを入力する操作を強いられるのは煩わしさに耐えない。
本発明は、このような背景の下に案出されたものであり、利用者に対して複雑な認証手続きを強いることなく、サービスの不正な利用を確実に排除できるような仕組みを提供することを目的とする。

本発明の好適な態様である音声処理サービス提供装置は、マイクより出力される音声情報に所定の処理を施すサービスの利用者を夫々示す識別子と、それら各利用者のマイクの集音特性の制御内容を示す集音特性制御パラメータとを各々対応付けて記憶する利用者情報記憶手段と、情報の通信手段と、利用者としての登録を求める端末からテスト音声の音声情報を前記通信手段を介して取得するテスト音声取得手段と、前記取得した音声情報を解析して集音特性制御パラメータを生成するパラメータ生成手段と、前記生成された集音特性制御パラメータを、新規に生成された固有の識別子と対応付けて前記利用者情報記憶手段に記憶させると共に、当該記憶させた集音特性制御パラメータと識別子とを前記音声情報の発信元であった端末へ前記通信手段を介して通知する登録制御手段と、サービスの利用を求める端末から集音特性制御パラメータと識別子とを前記通信手段を介して取得する認証情報取得手段と、前記認証情報取得手段が取得した集音特性制御パラメータと識別子とが前記利用者情報記憶手段において対応付けられているか否か判断し、両者が対応付けられていることを条件として、処理対象となる音声情報の送信を求めるメッセージを前記サービスの利用を求める端末宛てに前記通信手段を介して通知する認証制御手段と、前記メッセージの宛先であった端末から処理対象となる音声情報を前記通信手段を介して取得し、取得した音声情報に前記所定の処理を施すサービス制御手段とを備える。

本発明の別の好適な態様であるマイクロホンは、集音手段と、前記集音手段の集音特性の制御内容を示す集音特性制御パラメータを記憶する記憶手段と、前記集音手段が集音したテスト音声の音声情報を外部の特定の装置へ送信するテスト音声送信手段と、前記送信した音声情報を解析して得られた集音特性制御パラメータを前記装置から受信するパラメータ受信手段と、前記受信した集音特性制御パラメータを前記記憶手段に記憶させるパラメータ記憶制御手段と、前記記憶手段に集音特性制御パラメータが記憶されると、その集音特性制御パラメータの内容に応じて前記集音手段の集音特性を制御する集音特性制御手段とを備える。

本発明によると、利用者に対して複雑な認証手続きを強いることなく、サービスの不正な利用を確実に排除することができる。

（発明の実施の形態）
本願発明の実施形態について説明する。
まず、以降の説明において用いる主要な用語を定義しておく。「センテンス」の語は、発音のお手本となる一纏まりのフレーズを意味する。「発音記号」の語は、英語に存在する母音及び子音を夫々固有に表す記号を意味する。「音声素片」の語は、音声の構成要素を意味し、母音のみからなる音素、母音から子音に遷移する音素連鎖、子音から母音に遷移する音素連鎖、及び母音から別の母音に遷移する音素連鎖のいずれをも含む。

本実施形態にかかる英語発音向上ＬＬシステムは、以下の２つの特徴を有している。１つ目の特徴は、サービスの提供を受ける生徒本人の肉声を前もって解析し、各音声素片の特徴を示すパラメータを生徒毎にデータベース化しておくようにした点である。２つ目の特徴は、教材となるセンテンスを生徒に発音させて発音の良否を評価した後、発音の仕方を矯正するための正しい発音内容を示す音声情報（以下、この音声情報を「矯正音声情報」と呼ぶ。）を、生徒のデータベースから抽出したパラメータを基に合成して提示するようにした点である。

図１は、本発明の実施形態にかかる英語発音向上ＬＬ（language laboratory）システムの全体構成を示すブロック図である。図に示すように、このシステムは、複数の生徒端末１０と、講師端末５０と、ＤＳＰ（digital signal processor）サーバ装置４０とを備える。
生徒端末１０の各々は、マイクロホンアレイ３０と接続される。このマイクロホンアレイ３０は、話者である生徒の発した音声を最適に集音する機能に加えて、その発音が行われた際の息遣いの状況を計測する機能を搭載している。

図２は、マイクロホンアレイ３０のハードウェア構成を示すブロック図である。図に示すように、このマイクロホンアレイ３０は、集音手段である複数のマイクロホンユニット３１、アナログ／デジタル（以下、「Ａ／Ｄ」と称す）変換器３２、音圧測定部３３、加算器３４、パラメータ記憶制御部３５、パラメータ記憶メモリ３６、集音特性制御部３７、及び入出力インターフェース３８を備える。

複数のマイクロホンユニット３１は、生徒の口元の方向に指向性を持たせるべく、縦方向及び横方向に夫々１６列ずつ配列されている。それらマイクロホンユニット３１の各々は、自身に到達した音波をアナログ音声信号に変換し、Ａ／Ｄ変換器３２へ供給する。すると、Ａ／Ｄ変換器３２にて変換されたデジタル音声信号が、音圧測定部３３を経由して加算器３４に供給される。

音圧測定部３３は、自身を経由するデジタル音声信号を基に、各マイクロホンユニット３１に到達した音波の音圧を夫々測定する。そして、各マイクロホンユニット３１の位置とそれらに到達した音波の音圧との関係を示す音圧分布情報を入出力インターフェース３８を介して生徒端末１０へ出力する。出力された音圧分布情報は、生徒端末１０からＤＳＰサーバ装置４０に送信され、同サーバ装置４０にて発音時の息遣いの良否を評価する材料として利用される。

パラメータ記憶制御部３５は、入出力インターフェース３８を介して生徒端末１０から入力される集音特性制御パラメータをパラメータ記憶メモリ３６に記憶させる。この集音特性制御パラメータは、フィルタのカットオフ周波数を表すパラメータであり、ＤＳＰサーバ装置４０から生徒端末１０を経由して取得されることになっている。

集音特性制御部３７は、ハイパスフィルタやローパスフィルタなどを内蔵しており、自身が内蔵する各フィルタのカットオフ周波数をパラメータ記憶メモリ３６の集音特性制御パラメータに応じて設定する。加算器３４にてミキシングされたデジタル音声信号は、集音特性制御部３７にて所定の周波数成分が減衰された後、入出力インターフェース３８を介して生徒端末１０に出力されることになる。

図３は、生徒端末１０のハードウェア構成を示すブロック図である。図に示すように、この端末１０は、各種制御を行うＣＰＵ１１、ＣＰＵ１１にワークエリアを提供するＲＡＭ１２、ＩＰＬ（initial program loader）を記憶したＲＯＭ１３、マイクロホンアレイ３０との間で各種情報の入出力を行うマイクインターフェース１４、スピーカ６０に音声信号を出力するスピーカインターフェース１５のほか、ネットワークインターフェース１６、コンピュータディスプレイ１７、キーボード１８、マウス１９、ハードディスク２０などを備える。そして、ハードディスク２０は、ＯＳ（operating system）や、ブラウザなどの各種アプリケーションソフトウェアを記憶する。

図４は、ＤＳＰサーバ装置４０のハードウェア構成を示すブロック図である。図に示すように、この装置４０は、ＣＰＵ４１、ＲＡＭ４２、ＲＯＭ４３、ネットワークインターフェース４４、ハードディスク４５などを備える。そして、ハードディスク４５は、センテンスデータベース４５ａ、生徒管理データベース４５ｂ、生徒別素片データベース４５ｃ、及び発音記号辞書データベース４５ｄを記憶する。これら各データベースのうち、生徒別素片データベース４５ｃは、各生徒毎に個別に設けられ、それら各生徒の生徒ＩＤと各々対応付けられることになっている。

図５は、センテンスデータベース４５ａのデータ構造図である。このデータベースは、各々が１つのセンテンスと対応する複数のレコードの集合体であり、それら各レコードは、発音の難易度が低いセンテンスと対応するものから順にソートされている。このデータベースを構成する１つのレコードは、「センテンス」、「欧文字スペル」、「発音記号列」、「息遣い」、及び「音声素片列」の５つのフィールドを有している。「センテンス」のフィールドには、各センテンスを識別するセンテンス識別子が記憶される。「欧文字スペル」のフィールドには、各センテンスのスペルを欧文字列として表すスペル情報が記憶される。「発音記号列」のフィールドには、各センテンスの発音手順を発音記号列として表すお手本記号列情報が記憶される。「息遣い」のフィールドには、お手本息遣い情報を記憶する。お手本息遣い情報は、各センテンスを良好に発音するための息遣いを音圧分布の遷移として示す情報である。「音声素片列」のフィールドには、各センテンスの音声を音声素片列として表す音声素片列情報が記憶される。

図６は、生徒管理データベース４５ｂのデータ構造図である。このデータベースは、各々が一人の生徒と対応する複数のレコードの集合体である。このデータベースを構成する１つのレコードは、「生徒」、「認証情報」、及び「評価ポイント」の３つのフィールドを有している。「生徒」のフィールドには、各生徒を識別する生徒ＩＤを記憶する。「認証情報」のフィールドには、集音特性制御パラメータを記憶する。ＤＳＰサーバ装置４０は、自装置４０が各生徒の声質の解析結果を基に生成した集音特性制御パラメータをそれら各生徒のマイクロホンアレイ３０に設定させる一方で、生成した集音特性制御パラメータを各生徒に固有の認証キーとして「認証情報」のフィールドに記憶することになっている。

「評価ポイント」のフィールドには、評価ポイントを記憶する。評価ポイントとは、各生徒の発音の巧拙の程度を客観的に表すポイントを意味する。後の動作説明の項にて詳述するように、本実施形態では、生徒の発音内容を示す音声情報を変換して得た発音記号列とセンテンスデータベース４５ａの「発音記号列」のフィールドに記憶された発音記号列との差異を発音減点ポイントとして定量化すると共に、生徒のマイクロホンアレイ３０から取得した音圧分布情報とデータベース４５ａの「息遣い」のフィールドに記憶されたお手本息遣い情報との差異を息遣い減点ポイントとして定量化することになっている。そして、満点である「１００」から発音減点ポイントと息遣い減点ポイントとを減じて得た残りのポイントが、評価ポイントとして生徒に提示されると共に、「評価ポイント」のフィールドに記憶されることになる。

図７は、ある生徒と対応する生徒別素片データベース４５ｃのデータ構造図である。このデータベース４５ｃは、各々が１つの音声素片と対応する複数のレコードの集合体である。このデータベースを構成する１つのレコードは、「音声素片」と「特徴パラメータ」の２つのフィールドを有している。「音声素片」のフィールドには、各音声素片の名称を示す素片名情報が記憶される。「特徴パラメータ」のフィールドには、特徴パラメータを記憶する。特徴パラメータは、各音声素片毎の周波数スペクトルの特徴を示すパラメータである。

図８は、発音記号辞書データベース４５ｄのデータ構造図である。このデータベースは、各々が英語に存在する１つの母音又は子音と対応する複数のレコードの集合体である。このデータベースを構成する１つのレコードは、「発音記号」、「フォルマント」、及び「スペクトル情報」の３つのフィールドを有している。
「発音記号」のフィールドには、母音又は子音の発音記号を表す発音記号情報が記憶される。「フォルマント」のフィールドには、フォルマント情報が記憶される。フォルマント情報は、第１、第２、及び第３フォルマントのフォルマントレベルとフォルマント周波数とを示す情報である。フォルマントとは、音声波形の周波数スペクトル上の優勢な周波数成分であり、周波数の低い順に第１フォルマント、第２フォルマント、第３フォルマント、第４フォルマント・・・と呼ばれる。これらのうち、第３フォルマントまでが音韻性に寄与しており、第１乃至第３フォルマントの特徴を参照すれば、発音された音声に含まれる母音の種類を一意に特定できる。「スペクトル情報」のフィールドには、スペクトル情報が記憶される。スペクトル情報は、各母音及び子音のスペクトルの遷移を示す情報である。子音は第１乃至第３フォルマントを参照しただけではその種類を特定できないことも多いが、そのような場合は、フォルマントに加えてスペクトルの遷移を参照することによって、子音の種類を一意に特定できる。

講師端末５０は、生徒端末１０と同様に、ＣＰＵ、ＲＡＭ、ＲＯＭ、マイクインターフェース、スピーカインターフェース、ネットワークインターフェース、コンピュータディスプレイ、キーボード、マウス、ハードディスクなどを備えており、各生徒端末１０とＤＳＰサーバ装置４０の間の情報の遣り取りの履歴や、同サーバ装置４０のデータベースの記憶内容などを適宜取得できるようになっている。

次に本実施形態の動作を説明する。
本実施形態の動作は、初期登録処理と発音評価サービス処理とに分けることができる。
ある生徒端末１０がＤＳＰサーバ装置４０へアクセスすると、ＤＳＰサーバ装置４０のＣＰＵ４１はその生徒端末１０へサービス選択画面の表示データを送信する。そして、表示データを受信した生徒端末１０のＣＰＵ１１は、サービス選択画面を自らのコンピュータディスプレイ１７に表示させる。

図９に示すように、このサービス選択画面の上段には、「ご利用になるサービスを選択してください。始めて利用される方は、「初期登録サービス」を選択してください。」という内容を示す文字列が表示され、その下には、「初期登録サービス」、及び「発音評価サービス」と夫々記したボタンが表示される。そして、「初期登録サービス」と記したボタンが選択されると初期登録処理が、「発音評価サービス」と記したボタンが選択されると発音評価サービス処理が夫々実行される。

図１０及び１１は、初期登録処理を示すフローチャートである。
「初期登録サービス」と記したボタンが選択されると、生徒端末１０のＣＰＵ１１は、初期登録サービスの提供を求めるメッセージをＤＳＰサーバ装置４０へ送信する（Ｓ１００）。
メッセージを受信したＤＳＰサーバ装置４０のＣＰＵ４１は、生徒管理データベース４５ｂにレコードを一つ追加する（Ｓ１１０）。
続いて、ＣＰＵ４１は、新規な生徒ＩＤを生成し、その生徒ＩＤをステップ１１０で追加したレコードの「生徒」のフィールドに記憶する（Ｓ１２０）。

ＣＰＵ４１は、マイク調整用フレーズ発音要求画面の表示データを生成し、その表示データを生徒端末１０へ送信する（Ｓ１３０）。
表示データを受信した生徒端末１０のＣＰＵ１１は、マイク調整用フレーズ発音要求画面をコンピュータディスプレイ１７に表示させる（Ｓ１４０）。
マイク調整用フレーズ発音要求画面の上段には、「マイクロホンアレイの集音特性を最適化しますので、以下のフレーズをはっきりと発音してください。」という内容の文字列が表示され、その下には、マイク調整用フレーズを示す文字列が表示される。

この画面を参照した生徒は、自らの生徒端末１０にマイクロホンアレイ３０が接続されていることを確認した後、同画面に表示されているマイク調整用フレーズをマイクロホンアレイ３０に向かって発音する。すると、その発音内容を示すデジタル音声信号が、マイクロホンアレイ３０の入出力インターフェース３８から生徒端末１０に順次入力される。
生徒端末１０は、マイクロホンアレイ３０から自端末１０に入力されてくるデジタル音声信号に所定の符号化処理を施して得た音声情報をＤＳＰサーバ装置４０へ送信する（Ｓ１５０）。

ＤＳＰサーバ装置４０のＣＰＵ４１は、生徒端末１０から受信した音声情報を復号化して音声信号を取得すると、その音声信号が示す所定時間長分の時間波形の周波数成分の分布に応じて集音特性制御パラメータを生成する（Ｓ１６０）。例えば、マイク調整用フレーズを発音した生徒が比較的高い声質の持ち主であった場合、高い周波数域に周波数成分が偏ることになるため、生成される集音特性制御パラメータが示すカットオフ周波数もそれだけ高いものにする。反対に、生徒が比較的低い声質の持ち主であった場合、低い周波数域に周波数成分が偏ることになるため、集音特性制御パラメータが示すカットオフ周波数もそれだけ低いものにする。

ＣＰＵ４１は、ステップ１７０で生成した集音特性制御パラメータをステップ１１０で追加したレコードの「認証情報」のフィールドに記憶する（Ｓ１７０）。
更に、ＣＰＵ４１は、ステップ１７０で記憶したものと同じ集音特性制御パラメータを生徒端末１０へ送信する（Ｓ１８０）。
集音特性制御パラメータを受信した生徒端末１０のＣＰＵ１１は、その集音特性制御パラメータをマイクロホンアレイ３０に出力する（Ｓ１９０）。上述したように、マイクロホンアレイ３０は、集音特性制御パラメータを記憶するためのパラメータ記憶メモリ３６を備えている。生徒端末１０から入力された集音特性制御パラメータがパラメータ記憶制御部３５によってこのメモリ３６に記憶されると、集音特性制御部３７は、記憶されたパラメータに応じて自身が内蔵するフィルタのカットオフ周波数を直ちに設定する。この設定により、マイクロホンアレイ３０の集音特性がその利用者である生徒の声質に応じて最適化されることになる。

集音特性制御パラメータをマイクロホンアレイ３０に出力した生徒端末１０のＣＰＵ１１は、マイクの調整が完了したことを示すメッセージをＤＳＰサーバ装置４０に送信する（Ｓ２００）。
メッセージを受信したＤＳＰサーバ装置４０のＣＰＵ４１は、新たな生徒別素片データベース４５ｃをハードディスク４５に設ける（Ｓ２１０）。設けられた生徒別素片データベース４５ｃを構成する各レコードの「音声素片」のフィールドには、各音声素片の素片名情報が既に記憶されている。その一方で、「特徴パラメータ」のフィールドには未だ特徴パラメータが記憶されておらず、以下に実行される一連の処理を通じて、特徴パラメータが順次蓄積されることになる。
ＣＰＵ４１は、予め準備されている素片抽出用フレーズ群のうちの１つを所定の雛形に埋め込んで素片抽出用フレーズ発音要求画面の表示データを生成し、生成した表示データを生徒端末１０へ送信する（Ｓ２２０）。

ここで、素片抽出用フレーズ群とは、全ての音声素片が網羅されるように体系化された複数のフレーズの纏まりを意味する。

表示データをＤＳＰサーバ装置４０から受信した生徒端末１０のＣＰＵ１１は、素片抽出用フレーズ発音要求画面をコンピュータディスプレイ１７に表示させる（Ｓ２３０）。
素片抽出用フレーズ発音要求画面の上段には、「あなたの肉声を基に音声合成用のデータベースを作成します。以下のフレーズを発音してください。」という内容の文字列が表示され、その下には、素片抽出用フレーズを示す文字列が表示される。

この画面を参照した生徒は、同画面に表示されている素片抽出用フレーズをマイクロホンアレイ３０に向かって発音する。すると、その発音内容を示すデジタル音声信号が、入出力インターフェース３８から生徒端末１０に順次入力される。
生徒端末１０のＣＰＵ１１は、マイクロホンアレイ３０から自端末１０に入力されてくるデジタル音声信号に所定の符号化処理を施して得た音声情報をＤＳＰサーバ装置４０へ送信する（Ｓ２４０）。

ＤＳＰサーバ装置４０のＣＰＵ４１は、生徒端末１０から送信されてきた音声情報をＲＡＭ４２に記憶する（Ｓ２５０）。
ＣＰＵ４１は、ステップ２５０でＲＡＭ４２に記憶した音声情報に復号化処理を施して元の音声信号を取得すると、その音声信号が示す時間波形を解析して音声素片の特徴パラメータを取得する（Ｓ２６０）。
このステップについて更に具体的に説明する。本ステップでは、まず、音声情報を復号化して得た音声信号が示す時間波形に高速フーリエ変換をかけ、所定のフレーム毎の周波数スペクトルの特徴を示す特徴パラメータ列を取得する。そして、取得された一連の特徴パラメータを、時間波形に含まれる各音声素片の長さと夫々対応する区間毎に切り出す。

ＣＰＵ４１は、ステップ２６０で取得した特徴パラメータを、それらの音声素片名を示す素片名情報と対応付け、ステップ２１０で設けた生徒別素片データベース４５ｃに記憶する（Ｓ２７０）。
全ての素片抽出用フレーズの音声信号から取得した特徴パラメータが生徒別素片データベース４５ｃに蓄積されるまで、ステップ２２０乃至ステップ２７０の処理は繰返される。

特徴パラメータを蓄積し終えると、ＣＰＵ４１は、ステップ１２０で「生徒」のフィールドに記憶したものと同じ生徒ＩＤを生徒端末１０へ送信する（Ｓ２８０）。
生徒ＩＤを受信した生徒端末１０のＣＰＵ１１は、その生徒ＩＤをハードディスク２０の所定領域に記憶する（Ｓ２９０）。
以上で、初期登録処理が終了する。

図１２及び１３は、発音評価サービス処理を示すフローチャートである。
「発音評価サービス」と記したボタンが選択されると、生徒端末１０のＣＰＵ１１は、発音評価サービスの提供を求めるメッセージをＤＳＰサーバ装置４０へ送信する（Ｓ４００）。
メッセージを受信したＤＳＰサーバ装置４０のＣＰＵ４１は、生徒ＩＤの送信を求めるメッセージを生徒端末１０へ送信する（Ｓ４１０）。
メッセージを受信した生徒端末１０のＣＰＵ１１は、初期登録処理を通じてＤＳＰサーバ装置４０から取得していた生徒ＩＤをハードディスク２０の所定領域から読み出し、その生徒ＩＤをＤＳＰサーバ装置４０へ送信する（Ｓ４２０）。

ＤＳＰサーバ装置４０のＣＰＵ４１は、生徒端末１０から送信されたものと同じ生徒ＩＤを「生徒」のフィールドに記憶したレコードを生徒管理データベース４５ｂから特定する（Ｓ４３０）。
続いて、ＣＰＵ４１は、集音特性制御パラメータの送信を求めるメッセージを生徒端末１０へ送信する（Ｓ４４０）。
メッセージを受信した生徒端末１０のＣＰＵ１１は、自端末１０に接続されたマイクロホンアレイ３０のパラメータ記憶メモリ３６に記憶されている集音特性制御パラメータを取得し、取得した集音特性制御パラメータをＤＳＰサーバ装置４０へ送信する（Ｓ４５０）。

ＤＳＰサーバ装置４０のＣＰＵ４１は、生徒端末１０から送信されてきた集音特性制御パラメータと、ステップ４３０で特定したレコードの「認証情報」のフィールドに記憶された集音特性制御パラメータとが一致するか否か判断する（Ｓ４６０）。
ステップ４６０にて、集音特性制御パラメータが一致しないと判断したＣＰＵ４１は、サービスの提供を拒否するメッセージを生徒端末１０へ送信する（Ｓ４７０）。
一方、ステップ４６０にて、集音特性制御パラメータが一致すると判断したＣＰＵ４１は、評価ポイントの算出に用いる領域（以下、「ポイント算出領域」と呼ぶ）をＲＡＭ４２の一部に確保し、そのポイント算出領域に評価ポイントの満点である「１００」を記憶する（Ｓ４８０）。

ＣＰＵ４１は、センテンスデータベース４５ａのレコードの１つを参照対象として特定する（Ｓ４９０）。なお、上述したように、このセンテンスデータベース４５ａは、発音の難易度が低いセンテンスと対応するレコードから順にソートされており、本ステップからステップ６８０までの一連の処理は、参照対象となるレコードをシフトさせながら繰返されることになっている。
ＣＰＵ４１は、ステップ４９０で特定したレコードの「発音記号列」のフィールドに記憶されているお手本記号列情報、「息遣い」のフィールドに記憶されたお手本息遣い情報、及び「音声素片列」のフィールドに記憶された音声素片列情報をＲＡＭ４２に読み出す（Ｓ５００）。

続いて、ＣＰＵ４１は、ステップ４９０で特定したレコードの「欧文字スペル」のフィールドに記憶されているスペル情報を所定の雛形に埋め込んで発音課題提示画面の表示データを生成し、その表示データを生徒端末１０へ送信する（Ｓ５１０）。
表示データを受信した生徒端末１０のＣＰＵ１１は、発音課題提示画面をコンピュータディスプレイ１７に表示させる（Ｓ５２０）。
発音課題提示画面の上段には、「以下のセンテンスをはっきり発音して下さい。」という内容を示す文字列が表示され、その下には、センテンスのスペルの示す欧文字列が表示される。

この画面を参照した生徒は、自らの生徒端末１０にマイクロホンアレイ３０が接続されていることを確認した後、同画面に表示されているセンテンスをマイクロホンアレイ３０に向かって発音する。すると、各マイクロホンユニット３１に到達した音波を示すデジタル音声信号が、音圧測定部３３を経由して加算器３４に夫々供給される。加算器３４にてミキシングされたデジタル音声信号は、集音特性制御部３７において所定の周波数成分が減衰された後、音圧測定部３３によって生成された音圧分布情報と共に入出力インターフェース３８から生徒端末１０へと順次出力される。
生徒端末１０のＣＰＵ１１は、マイクロホンアレイ３０から自端末１０へデジタル音声信号と音圧分布情報とが入力されてくると、デジタル音声信号を音声情報化し、その音声情報を音圧分布情報と併せてＤＳＰサーバ装置４０へ順次送信する（Ｓ５３０）。

ＤＳＰサーバ装置４０のＣＰＵ４１は、生徒端末１０から送信されてくる音声情報と音圧分布情報とをＲＡＭ４２に順次記憶する（Ｓ５４０）。
ＣＰＵ４１は、ステップ５４０でＲＡＭ４２に記憶した音声情報に所定の変換処理を施すことにより、生徒の発音内容を示す発音記号列を取得する（Ｓ５５０）。
このステップについて更に具体的に説明する。本ステップでは、まず、音声情報を復号化して得た音声信号に高速フーリエ変換をかけ、所定のフレーム毎の周波数スペクトルを取得する。そして、取得された周波数スペクトルから、第１、第２、及び第３フォルマントのフォルマント周波数とフォルマントレベルとを抽出する。続いて、抽出したフォルマント周波数とフォルマントレベルの各対を、時間波形に含まれる子音及び母音の長さと各々対応する区間毎に夫々切り出す。更に、発音記号辞書データベース４５ｄの各レコードを参照し、切り出したフォルマント周波数及びフォルマントレベルと「フォルマント」のフィールドの記憶内容が最も近い母音又は子音の発音記号を取得する。なお、子音については、各レコードの「フォルマント」のフィールドを参照しただけでは発音記号の候補を１つに絞り込めないケースが生じうる。その場合は、その子音と対応する区間の周波数スペクトルの遷移と各レコードの「スペクトル情報」の記憶内容とを夫々比較して更なる絞込みを行い、周波数スペクトルの遷移の特徴が最も近似する唯一の子音の発音記号を取得する。

ＣＰＵ４１は、ステップ５５０で取得した発音記号列を構成する一連の発音記号のうち、ステップ５００で読み出したお手本記号列情報が示す発音記号列と一致しない箇所を特定する（Ｓ５６０）。
ＣＰＵ４１は、お手本記号列情報が示す発音記号列と一致しなかった箇所の発音記号の数に所定のポイント換算率を作用させて発音減点ポイントを取得する（Ｓ５７０）。
続いて、ＣＰＵ４１は、ステップ５４０でＲＡＭ４２に記憶した一連の音圧分布情報が示す音圧分布の遷移と、ステップ５００で読み出したお手本息遣い情報が示す音圧分布の遷移との差分を求め、求めた差分値に所定のポイント換算率を作用させて息遣い減点ポイントを取得する（Ｓ５８０）。

ＣＰＵ４１は、ステップ５７０で取得した発音減点ポイントとステップ５８０で取得した息遣い減点ポイントの合計を、ＲＡＭ４２のポイント算出領域に記憶させてある評価ポイントから減算する（Ｓ５９０）。
更に、ＣＰＵ４１は、ステップ５００で読み出したお手本記号列情報とステップ５６０で特定した箇所との関係を表す要矯正箇所提示画面の表示データを生成し、生成した表示データを生徒端末１０に送信する（Ｓ６００）。

表示データを受信した生徒端末１０のＣＰＵ１１は、要矯正箇所提示画面をコンピュータディスプレイ１７に表示させる（Ｓ６１０）。
図１４は、要矯正箇所提示画面である。
「センテンスの正しい発音手順を示す発音記号は以下のようになっています。赤色で表示された箇所の発音をお手本のように矯正する必要があります。」という内容の文字列が表示され、その下には、発音記号列表示領域Ａと、スペル表示領域Ｂとが表示される。

発音記号列表示領域Ａには、お手本記号列情報が示す一連の発音記号列が表示される。これら一連の発音記号列のうち、ステップ５６０で特定した箇所とは対応する発音記号は、残りの発音記号とは別の色である赤色で表示される。（図面上では赤色の文字を鎖線の矩形として標記）。

なお、本実施形態では、ステップ５６０で特定した箇所と対応する発音記号を残りの発音記号と異なる色によって表しているが、文字の大きさ、書体等によって両者の表示態様に違いを与えてもよい。
また、スペル表示領域Ｂには、センテンスのスペルを示す欧文字列が表示される。
更に、画面の下段には、「自分の声の正しい発音を聴いてみる」と記したボタンと、「次のセンテンスに進む」と記したボタンとが表示される。

生徒は、画面上の発音記号列表示領域Ａとスペル表示領域Ｂとを参照し、矯正を要する発音の箇所を確認した後、何れかのボタンを選択する。
「自分の声の正しい発音を聴いてみる」と記したボタンが選択されると、生徒端末１０のＣＰＵ１１は、矯正音声情報の送信を求めるメッセージをＤＳＰサーバ装置４０へ送信する（Ｓ６２０）。
メッセージを受信したＤＳＰサーバ装置４０のＣＰＵ４１は、ステップ５００で読み出した音声素片列情報が示す一連の音声素片のうち、ステップ５６０で特定した箇所と対応する一部の音声素片又は音声素片列を抽出し、抽出した音声素片又は音声素片列の特徴パラメータを生徒別音声データベース４５ｃから読み出す（Ｓ６３０）。

ＣＰＵ４１は、ステップ６３０で読み出した特徴パラメータを基にセンテンスの矯正音声情報を合成する（Ｓ６４０）。
このステップについて更に具体的に説明する。本ステップでは、まず、音声情報を復号化して得た音声信号が示す時間波形に高速フーリエ変換をかけ、所定のフレーム毎の周波数スペクトルの特徴を示す特徴パラメータ列を取得する。そして、取得された一連の特徴パラメータのうち、ステップ５６０で特定した箇所の音声素片又は音声素片列と対応する区間を特定し、特定した区間の特徴パラメータをステップ６３０で読み出した特徴パラメータに置換する。次に、置換が施された後の特徴パラメータ列に逆フーリエ変換をかけ、時間波形を示すデジタル音声信号を取得した後、その音声信号に所定の符号化処理を施すことにより、矯正音声情報を取得する。

ＤＳＰサーバ装置４０のＣＰＵ４１は、ステップ６４０で取得した矯正音声情報を生徒端末１０へ送信する（Ｓ６５０）。
矯正音声情報を受信した生徒端末１０のＣＰＵ１１は、その矯正音声情報を復号化して得たデジタル音声信号をスピーカインターフェース１５を介してスピーカ６０へ供給する（Ｓ６６０）。すると、スピーカ６０からは、センテンスの正しい発音が、生徒自身の声質の音声として放音され、ステップ６１０に戻り、要矯正箇所提示画面を表示する。

一方、要矯正箇所提示画面において、「次のセンテンスに進む」と記したボタンが選択されると、生徒端末１０のＣＰＵ１１は、次のセンテンスの提示を求めるメッセージをＤＳＰサーバ装置４０へ送信する（Ｓ６７０）。
メッセージを受信したＤＳＰサーバ装置４０のＣＰＵ４１は、未だ参照対象となっていないレコードがセンテンスデータベース４５ａに残っているか否かを判断する（Ｓ６８０）。
ステップ６８０にて、参照対象となっていないレコードが残っていると判断されると、再びステップ４９０に戻って、参照対象となるレコードを１つシフトさせた後、以降の一連の処理が繰返される。

ステップ６８０にて、参照対象となっていないレコードが残っていないと判断されると、ＤＳＰサーバ装置４０のＣＰＵ４１は、ＲＡＭ４２のポイント算出領域に記憶されている評価ポイントを、ステップ４３０で特定したレコードの「評価ポイント」のフィールドに記憶する（Ｓ６９０）。
続いて、ＣＰＵ４１は、評価ポイントを所定の雛形に埋め込んで評価結果通知画面の表示データを生成し、その表示データを生徒端末１０に送信する（Ｓ７００）。

表示データを受信した生徒端末１０のＣＰＵ１１は、評価結果通知画面をコンピュータディスプレイ１７に表示させる（Ｓ７１０）。
評価結果通知画面の上段には、「あなたの今回の評価ポイントは以下の通りです。」という内容を示す文字列が表示され、その下には、評価ポイントが表示される。
以上で、発音評価サービス処理が終了する。

以上説明した本実施形態は、以下に示す有用な効果を奏する。
第１に、英語を話す際に「訛り」として現れるような微妙な発音の癖を矯正できる。本実施形態では、初期登録サービスを通じ、音声の合成に必要な各音声素片毎の特徴パラメータを各生徒の肉声から取得し、それら各特徴パラメータを生徒別素片データベース４５ｃとしてＤＳＰサーバ装置４０に蓄積する。そして、生徒が発音評価サービスを利用する際は、予め教材として準備した各センテンスを発音させてお手本と異なる発音の箇所を発音記号レベルで特定し、特定した箇所を矯正した矯正音声情報を生徒別素片データベース４５ｃから読み出した特徴パラメータを基に合成するようになっている。この矯正音声情報の提示を受ける生徒は、英語を母国語とする話者に対して「訛り」と聞こえてしまうような発音の癖を客観的に把握し、その癖を矯正することができる。

第２に、英語の話し方の良否を複数の切り口から総合的に評価することができる。本実施形態では、各生徒端末１０にマイクロホンアレイ３０が接続され、このマイクロホンアレイ３０は、生徒の発音した音声の波形を示すデジタル音声信号だけでなく、その発音を行った際の息遣いの状態を示す音圧分布情報をも生徒端末１０へ供給するようになっている。そして、ＤＳＰサーバ装置４０は、生徒端末１０から送信されてくる音声情報を基に生徒の発音内容である音声そのものの評価を行うだけでなく、同端末１０から送信されてくる音圧分布情報を基に息遣いの評価をも行い、２つの評価の結果を評価ポイントに反映させるようになっている。従って、音声の波形を解析するだけでは得られないような精緻な評価結果を生徒に提示することができる。

第３に、サービスを不正に利用する悪意者を簡易且つ確実に排除することができる。本実施形態では、所定の周波数成分を減衰させて集音特性を最適化する集音特性制御部３７を各生徒のマイクロホンアレイ３０に内蔵させており、この集音特性制御部３７の制御内容を示す集音特性制御パラメータは、生徒の認証キーとしてＤＳＰサーバ装置４０側に登録されることになっている。そして、発音評価サービスを利用する生徒端末１０は、ＤＳＰサーバ装置４０にアクセスするとマイクロホンアレイ３０の集音特性制御パラメータを引き渡し、引渡した集音特性制御パラメータとＤＳＰサーバ装置４０に登録されているものとが一致することを条件として、同サービスの提供が許可されるようになっている。このように、各生徒の声質に依存して生成される固有の集音特性制御パラメータを認証キーとしても利用することにより、不正なサービスの利用を確実に排除することができる。また、パスワードやＩＤの入力といった煩わしい認証手続きを生徒に強いる必要も無くなる。

（他の実施形態）
本実施形態は、種々の変形実施が可能である。
上記実施形態において、マイクロホンアレイ３０に内蔵された集音特性制御部３７は、各生徒の声質に応じて集音特性を最適化すべく、自身に供給された音声信号から所定の周波数成分を減衰させるようになっていた。
これに対し、集音特性制御部３７は、自身に供給される音声信号が示す波形の振幅レベルを増幅させるといった別の制御を行なってもよい。この変形例の場合、初期登録処理では、ＤＳＰサーバ装置４０が、生徒端末１０から受信した音声情報を解析して最も良好な集音特性となる振幅レベルの増幅率を求め、求めた増幅率を示す集音特性パラメータを「認証情報」のフィールドに記憶すると共に、そのパラメータを生徒端末１０を経由してマイクロホンアレイ３０のパラメータ記憶メモリ３６に記憶させる。要するに、本願発明の実施形態においては、マイクロホンに設定されるべき集音特性の制御内容を示すパラメータをＤＳＰサーバ装置４０に認証情報として登録しうるようになっているのであれば、そのパラメータによって制御されるマイクロホンの集音特性の内容は問わない。

上記実施形態において、講師端末５０は、生徒端末１０とＤＳＰサーバ装置４０との間の情報の遣り取りの履歴を閲覧するといったようなシステム管理者としての役割を果たすのみであった。これに対し、この講師端末５０を、各サービスの提供に積極的に関与させてもよい。例えば、初期登録処理においては、予め準備された素片抽出用フレーズの各々を生徒に順に発音させてその時間波形を解析することにより、生徒別素片データベース４５ｃに蓄積すべき特徴パラメータを取得するようになっていた。そして、この素片抽出用フレーズは、生徒による発音のし易さを考慮し、文脈構造が単純なものが準備されることになっていた。

このような不測のケースの発生を回避すべく講師端末５０を積極的に関与させる態様としては、以下のようなものが考えられる。まず、生徒による素片抽出用フレーズの発音内容を示す音声情報を講師端末５０にも送信する。そして、同端末５０にて生徒の発音内容を聴取した講師によってその発音が良好であるか否か判断される。講師によって発音が良好であると判断されると、ＤＳＰサーバ装置４０はその音声情報から特徴パラメータを生成し、生徒別素片データベース４５ｃに蓄積する。かかる態様によると、生徒別素片データベース４５ｃの構築に必要な特徴パラメータを漏れなく取得できる。また、生徒端末１０と講師端末５０とで音声チャットを行えるようにし、その音声チャットを通じた講師の支援を受けつつ、生徒が素片抽出用フレーズを発音できるようにすると尚よい。

上記実施形態において、ＤＳＰサーバ装置４０は、生徒の音声情報が示す時間波形に高速フーリエ変換をかけて得た一連の特徴パラメータのうち、お手本どおりに発音できていない区間を正しい音声素片の特徴パラメータで置換することによって矯正音声情報を合成していた。これに対し、以下に示すような他の手順に従って矯正音声情報を合成してもよい。この手順では、まず、生徒の音声情報の時間軸を、その音声情報に含まれる各音声素片の位置がお手本となる音声情報に含まれる各音声素片と同じ位置になるように正規化する。その上で、お手本となる音声情報のピッチとベロシティを、生徒の音声情報のそれと差し替える。最後に、生徒の音声情報に含まれる子音の部分だけをお手本となる音声情報のそれと入れ替える。このような手順によっても、矯正音声情報、つまり、発音の仕方を矯正するための正しい発音内容を示す音声情報の生成は可能である。

上記実施形態におけるマイクロホンアレイ３０の集音部は、複数のマイクロホンユニット３１を縦方向及び横方向に夫々１６列ずつ配列した構造を取っていた。しかしながら、マイクロホンユニット３１をこのような方向及び数で並べる必要はなく、生徒の発音時における音圧分布をデータ化できるようになってさえいれば、別の構造にしてもよい。

上記実施形態において、ＤＳＰサーバ装置４０の発音記号辞書データベース４５ｄは、フォルマント情報に加えてスペクトル情報を各母音及び子音の各々と対応付けて蓄積していた。そして、同サーバ装置４０は、生徒の音声情報を発音記号列に変換する際、その音声情報の時間波形に含まれる子音の種類をフォルマントの比較によって一意に特定できなかったときは、その子音と対応する区間の周波数スペクトルの遷移と発音記号辞書データベース４５ｄに記憶された各スペクトル情報とを比較することによって種類を特定していた。これに対し、Hidden Markov Model（隠れマルコフモデル）を利用して変換を行なってもよい。この変形例によると、音節、単語、文節といったセグメンテーション単位で発音記号列の候補を絞り込んでいくことになるため、母音及び子音毎の独立した認識を行う上記実施形態よりも確度の高い変換結果を得ることができる。

実施形態の全体構成図である。マイクロホンアレイのハードウェア構成図である。生徒端末のハードウェア構成図である。ＤＳＰサーバ装置のハードウェア構成図である。センテンスデータベースのデータ構造図である。生徒管理データベースのデータ構造図である。生徒別素片データベースのデータ構造図である。発音記号辞書データベースのデータ構造図である。サービス選択画面である。初期登録処理を示すフローチャートである（前半部分）。初期登録処理を示すフローチャートである（後半部分）。発音評価サービス処理を示すフローチャートである（前半部分）。発音評価サービス処理を示すフローチャートである（後半部分）。要矯正箇所提示画面である。

符号の説明

１０…生徒端末、１１，４１…ＣＰＵ、１２，４２…ＲＡＭ、１３，４３…ＲＯＭ、１４…マイクインターフェース、１５…スピーカインターフェース、１６，４４…ネットワークインターフェース、１７…コンピュータディスプレイ、１８…キーボード、１９…マウス、２０，４５…ハードディスク、５０…講師端末、３０…マイクロホンアレイ、３１…マイクロホンユニット、３２…Ａ／Ｄ変換器、３３…音圧測定部、３４…加算器、３５…パラメータ記憶制御部、３６…パラメータ記憶メモリ、３７…集音特性制御部、３８…入出力インターフェース、４０…ＤＳＰサーバ装置、６０…スピーカ

Claims

マイクより出力される音声情報に所定の処理を施すサービスの利用者を夫々示す識別子と、それら各利用者のマイクの集音特性の制御内容を示す集音特性制御パラメータとを各々対応付けて記憶する利用者情報記憶手段と、
情報の通信手段と、
利用者としての登録を求める端末からテスト音声の音声情報を前記通信手段を介して取得するテスト音声取得手段と、
前記取得した音声情報を解析して集音特性制御パラメータを生成するパラメータ生成手段と、
前記生成された集音特性制御パラメータを、新規に生成された固有の識別子と対応付けて前記利用者情報記憶手段に記憶させると共に、当該記憶させた集音特性制御パラメータと識別子とを前記音声情報の発信元であった端末へ前記通信手段を介して通知する登録制御手段と、
サービスの利用を求める端末から集音特性制御パラメータと識別子とを前記通信手段を介して取得する認証情報取得手段と、
前記認証情報取得手段が取得した集音特性制御パラメータと識別子とが前記利用者情報記憶手段において対応付けられているか否か判断し、両者が対応付けられていることを条件として、処理対象となる音声情報の送信を求めるメッセージを前記サービスの利用を求める端末宛てに前記通信手段を介して通知する認証制御手段と、
前記メッセージの宛先であった端末から処理対象となる音声情報を前記通信手段を介して取得し、取得した音声情報に前記所定の処理を施すサービス制御手段と
を備えた音声処理サービス提供装置。
集音手段と、
前記集音手段の集音特性の制御内容を示す集音特性制御パラメータを記憶する記憶手段と、
前記集音手段が集音したテスト音声の音声情報を外部の特定の装置へ送信するテスト音声送信手段と、
前記送信した音声情報を解析して得られた集音特性制御パラメータを前記装置から受信するパラメータ受信手段と、
前記受信した集音特性制御パラメータを前記記憶手段に記憶させるパラメータ記憶制御手段と、
前記記憶手段に集音特性制御パラメータが記憶されると、その集音特性制御パラメータの内容に応じて前記集音手段の集音特性を制御する集音特性制御手段と
を備えたマイクロホン。