JP6314879B2

JP6314879B2 - 音読評価装置、音読評価方法、及びプログラム

Info

Publication number: JP6314879B2
Application number: JP2015044963A
Authority: JP
Inventors: 典昭阿瀬見
Original assignee: Brother Industries Ltd
Current assignee: Brother Industries Ltd
Priority date: 2015-03-06
Filing date: 2015-03-06
Publication date: 2018-04-25
Anticipated expiration: 2035-03-06
Also published as: JP2016164628A

Description

本発明は、話者が文字列を音読したときに発した音声に基づいて、文の音読に対する評価を行うシステム等の技術分野に関する。

近年、語学学習、発声発話訓練等の支援を目的として、話者の音読に対する評価を行う技術が知られている。例えば、特許文献１には、予め決められた模範音データに対して、自動車のクラクションや走行音或いは人々の話し声といった効果音を付与して再生させ、この模範音データが再生された後に収音手段から供給される信号が表す音と、模範音データが表す音とを比較し、双方の音の一致度に応じた評価内容を出力する評価装置が開示されている。

特開２００７−１９２８８２号公報

しかしながら、従来の技術では、背景雑音によるマスキングの影響が考慮されておらず、実際に人が聞いたときの感覚とは異なる評価結果になっていた。

本発明は、以上の点に鑑みてなされたものであり、背景雑音によるマスキングの影響が考慮され、人が聞いたときの感覚により近い評価結果を求めることが可能な音読評価装置、音読評価方法、及びプログラムを提供する。

上記課題を解決するために、請求項１に記載の発明は、複数の文字により構成される文字列を話者が音読したときに発した音声の波形を示す話者音声波形データを入力する入力手段と、背景雑音の波形を示す背景雑音波形データを記憶する記憶手段と、前記話者音声波形データに基づいて所定時間毎に周波数分析を行うことで第１周波数スペクトルを所定時間毎に算出する第１算出手段と、前記背景雑音波形データに基づいて所定時間毎に周波数分析を行うことで第２周波数スペクトルを所定時間毎に算出する第２算出手段と、前記第２算出手段により算出された第２周波数スペクトルにおいてマスキング効果を有する周波数を基準として各周波数におけるマスクトレベルを所定時間毎に算出する第３算出手段と、前記第１算出手段により算出された第１周波数スペクトルにおける各周波数のレベルと、前記第３算出手段により算出された、各周波数におけるマスクトレベルとの差分を表すマスクト音声周波数スペクトルを所定時間毎に算出する第４算出手段と、前記話者音声波形データが示す音声の波形において時間区間と音素情報とを対応付けたラベリング情報から、音素のモデルとなるモデル周波数スペクトルを前記時間区間毎に算出する第５算出手段と、前記第４算出手段により算出された前記所定時間毎のマスクト音声周波数スペクトルと、前記第５算出手段により算出された前記時間区間毎のモデル周波数スペクトルとの類似度に基づいて前記背景雑音の存在下での前記音読における話者音声の明瞭度の評価を行う評価手段と、を備えることを特徴とする。

請求項２に記載の発明は、請求項１に記載の音読評価装置において、前記評価手段は、前記第４算出手段により算出された前記所定時間毎のマスクト音声周波数スペクトルに含まれるフォルマント周波数を基準とする周波数範囲内のレベル分布と、前記第５算出手段により算出された前記時間区間毎のモデル周波数スペクトルに含まれるフォルマント周波数を基準とする周波数範囲内のレベル分布との類似度に基づいて前記話者音声の明瞭度の評価を行うことを特徴とする。

請求項３に記載の発明は、請求項１または２に記載の音読評価装置において、前記評価手段は、前記マスクト音声周波数スペクトルに基づく前記所定時間毎の音圧レベルの時間的な変化と、前記モデル周波数スペクトルに基づく前記時間区間毎の音圧レベルの時間的な変化との類似度に基づいて前記話者音声の明瞭度の評価を行うことを特徴とする。

請求項４に記載の発明は、請求項１乃至３の何れか一項に記載の音読評価装置において、前記記憶手段は、前記文字列のテキストデータを記憶し、前記テキストデータが示す前記文字例に基づいて前記音声の波形を時間軸方向において前記時間区間毎に区切ることで、前記時間区間と音素情報とを対応付けたラベリング情報を生成する生成手段を更に備え、前記第５算出手段は、前記生成手段により生成されたラベリング情報から、前記音素情報のモデルとなるモデル周波数スペクトルを前記時間区間毎に算出することを特徴とする。請求項５に記載の発明は、請求項１乃至４の何れか一項に記載の音読評価装置において、母音に対応する音素情報が対応付けられた時間区間である母音区間毎の前記第１周波数スペクトルにおける母音Ｓ／Ｎ比の平均値を平均母音Ｓ／Ｎ比として算出し、且つ、子音に対応する音素情報が対応付けられた時間区間である子音区間毎の前記第１周波数スペクトルにおける子音Ｓ／Ｎ比の平均値を平均子音Ｓ／Ｎ比として算出する第６算出手段を更に備え、前記評価手段は、Ｓ／Ｎ比が０から所定値Ｘまでは重み係数が徐々に増加しＳ／Ｎ比が当該所定値Ｘ以降は重み係数が徐々に減少するレベル適正度関数を用いて前記平均母音Ｓ／Ｎ比に前記重み係数を乗算した値と、前記レベル適正度関数を用いて前記平均子音Ｓ／Ｎ比に前記重み係数を乗算した値と、前記類似度とに基づいて前記話者音声の明瞭度の評価を行うことを特徴とする。

請求項６に記載の発明は、１つ以上のコンピュータにより実行される音読評価方法であって、複数の文字により構成される文字列を話者が音読したときに発した音声の波形を示す話者音声波形データを入力する入力ステップと、背景雑音の波形を示す背景雑音波形データを記憶手段に記憶する記憶ステップと、前記話者音声波形データに基づいて所定時間毎に周波数分析を行うことで第１周波数スペクトルを所定時間毎に算出する第１算出ステップと、前記背景雑音波形データに基づいて所定時間毎に周波数分析を行うことで第２周波数スペクトルを所定時間毎に算出する第２算出ステップと、前記第２算出ステップにより算出された第２周波数スペクトルにおいてマスキング効果を有する周波数を基準として各周波数におけるマスクトレベルを所定時間毎に算出する第３算出ステップと、前記第１算出ステップにより算出された第１周波数スペクトルにおける各周波数のレベルと、前記第３算出ステップにより算出された、各周波数におけるマスクトレベルとの差分を表すマスクト音声周波数スペクトルを所定時間毎に算出する第４算出ステップと、前記話者音声波形データが示す音声の波形において時間区間と音素情報とを対応付けたラベリング情報から、前記音素情報のモデルとなるモデル周波数スペクトルを前記時間区間毎に算出する第５算出ステップと、前記第４算出ステップにより算出された前記所定時間毎のマスクト音声周波数スペクトルと、前記第５算出ステップにより算出された前記時間区間毎のモデル周波数スペクトルとの類似度に基づいて前記背景雑音の存在下での前記音読における話者音声の明瞭度の評価を行う評価ステップと、を含むことを特徴とする。

請求項７に記載の発明は、複数の文字により構成される文字列を話者が音読したときに発した音声の波形を示す話者音声波形データを入力する入力ステップと、背景雑音の波形を示す背景雑音波形データを記憶手段に記憶する記憶ステップと、前記話者音声波形データに基づいて所定時間毎に周波数分析を行うことで第１周波数スペクトルを所定時間毎に算出する第１算出ステップと、前記背景雑音波形データに基づいて所定時間毎に周波数分析を行うことで第２周波数スペクトルを所定時間毎に算出する第２算出ステップと、前記第２算出ステップにより算出された第２周波数スペクトルにおいてマスキング効果を有する周波数を基準として各周波数におけるマスクトレベルを所定時間毎に算出する第３算出ステップと、前記第１算出ステップにより算出された第１周波数スペクトルにおける各周波数のレベルと、前記第３算出ステップにより算出された、各周波数におけるマスクトレベルとの差分を表すマスクト音声周波数スペクトルを所定時間毎に算出する第４算出ステップと、前記話者音声波形データが示す音声の波形において時間区間と音素情報とを対応付けたラベリング情報から、前記音素情報のモデルとなるモデル周波数スペクトルを前記時間区間毎に算出する第５算出ステップと、前記第４算出ステップにより算出された前記所定時間毎のマスクト音声周波数スペクトルと、前記第５算出ステップにより算出された前記時間区間毎のモデル周波数スペクトルとの類似度に基づいて前記背景雑音の存在下での前記音読における話者音声の明瞭度の評価を行う評価ステップと、をコンピュータに実行させることを特徴とする。

請求項１，４〜７に記載の発明によれば、背景雑音によるマスキングの影響が考慮され、人が聞いたときの感覚により近い評価結果を求めることができる。

請求項２に記載の発明によれば、話者音声の明瞭度を表す一要素である「母音らしさ」を評価することができる。

請求項３に記載の発明によれば、話者音声の明瞭度を表す一要素である「抑揚」を評価することができる。

本実施形態に係る音読評価装置Ｓの概要構成例を示す図である。（Ａ），（Ｂ）は、特定の周波数ｆaを基準としたマスクトレベルの一例を示す図であり、（Ｃ）は、各周波数スペクトルの一例を示す図である。マスクト音声周波数スペクトルとモデル周波数スペクトルのそれぞれにおける第１フォルマント曲線及び第２フォルマント曲線の一例を示す図である。制御部３により実行される音読録音処理の一例を示すフローチャートである。（Ａ）は、制御部３により実行される音読評価処理の一例を示すフローチャートであり、（Ｂ）は、レベル適正関数を表す曲線の一例を示す図である。制御部３により実行される音読評価フィードバック処理の一例を示すフローチャートである。アナウンス評価結果画面の一例を示す図である。

以下、本発明の実施形態を図面に基づいて説明する。

［１.音読評価装置Ｓの構成及び機能］
初めに、図１を参照して、本発明の実施形態に係る音読評価装置Ｓの構成及び機能について説明する。図１は、本実施形態に係る音読評価装置Ｓの概要構成例を示す図である。なお、音読評価装置の一例として、パーソナルコンピュータや、携帯型情報端末（スマートフォン等）などが挙げられる。図１に示すように、音読評価装置Ｓは、通信部１、記憶部２、制御部３、操作部４、及びインターフェース（ＩＦ）部５等を備えて構成され、これらの構成要素はバス６に接続されている。操作部４は、ユーザからの操作指示を受け付け、受け付けた操作に応じた信号を制御部３へ出力する。インターフェース部５には、マイクＭ、ヘッドホンＨ、及びディスプレイＤ等が接続される。マイクＭは、語学学習や発声発話訓練等を行う話者が、複数の文字により構成される文字列（例えば、アナウンス文字列）を音読したときに発した音声を集音する。ヘッドホンＨは、話者の両耳にスピーカ部分が当たるように話者の頭部に装着される。ヘッドホンＨのスピーカからは、後述する背景雑音が出力される。なお、ヘッドホンに代えてイヤホンが用いられてもよい。ディスプレイＤは、制御部３からの表示指令にしたがって、評価結果、及び評価結果に基づくアドバイスを画面に表示する。なお、マイクＭ、及びディスプレイＤは、音読評価装置Ｓと一体型であってもよいし、別体であってもよい。

通信部１は、有線または無線によりネットワーク（図示せず）に接続してサーバ等と通信を行う。記憶部２は、例えばハードディスクドライブ等からなり、ＯＳ（オペレーティングシステム）、及び音読評価処理プログラム（本発明のプログラムの一例）等を記憶する。音読評価処理プログラムは、コンピュータとしての制御部３に、後述する音読評価処理を実行させるプログラムである。音読評価処理プログラムは、アプリケーションとして、所定のサーバからダウンロードされてもよいし、ＣＤ、ＤＶＤ等の記録媒体に記憶されて提供されてもよい。

また、記憶部２は、背景雑音の波形を示す背景雑音波形データを所定のファイル形式で記憶する。背景雑音は、例えばアナウンス訓練のための音読前に、実際のアナウンスが行われる環境下（例えば電車内）において予め集音されて背景雑音波形データとして記憶される。また、記憶部２は、複数の文字により構成される文字列のテキストデータと、各文字に対応する音素毎のモデルとなる音素モデル波形データとを所定のファイル形式で記憶する。テキストデータは複数種類あってもよく、それぞれのテキストデータは、背景雑音波形データとペアリングされていてもよい。例えば、あるテキストデータが示すアナウンス文字列が音読される環境下で存在する背景雑音が特定されていれば、この背景雑音の波形を示す背景雑音波形データと、このアナウンス文字列のテキストデータとがペアリングされる。なお、テキストデータには、例えば、各文字の発音タイミング（例えば、発音開始からの経過時間）が文字毎に対応付けられて含まれる。また、音読対象となる文字列の例として、例えば、語学学習またはアナウンス訓練などで用いられる文字列（アナウンス文字列）、または歌唱に用いられる文字列などが挙げられる。また、音素の例として、母音のみ、子音のみ、子音と母音との組合せの３つが挙げられる。母音には、ａ（あ）、ｉ（い）、ｕ（う）、ｅ（え）、ｏ（お）の５母音がある。子音には、母音以外の音成分（例えば、ｋ、ｓ、ｔ、ｎ、ｈ、ｍ、ｙ、ｒ、ｗ・・・など）がある。また、例えば、日本語の「か」という音素は、ローマ字表記では“ｋａ”であるから、子音と母音の組合せということになる。また、日本語の「しゃ」という音素は、ローマ字表記では“ｓｈａ”であるから、子音と母音の組合せということになる。

制御部３は、コンピュータとしてのＣＰＵ（Central Processing Unit）、ＲＯＭ（Read Only Memory）、及びＲＡＭ（Random Access Memory）等により構成される。制御部３は、音読評価処理プログラムにより、音声処理部３１、音読評価部３２、及び表示処理部３３として機能する。音声処理部３１は、本発明における入力手段、第１〜第５算出手段、及び生成手段の一例である。音読評価部３２は、本発明の評価手段の一例である。記憶部２または制御部３におけるＲＡＭは、本発明における記憶手段の一例である。

音声処理部３１は、話者が上記文字列を音読したときに発した音声であってマイクＭにより集音された音声の波形を示す話者音声波形データを入力する。話者音声波形データは、離散化された時系列の音圧波形データであり、例えば、サンプリングレート44.1kHz、量子化16bit、及びモノラルの波形データである。

次に、音声処理部３１は、入力された話者音声波形データに基づいてフレーム区間（所定時間の一例）毎に周波数分析を行うことで第１音声周波数スペクトル（以下、「話者音声周波数スペクトル」という）を所定時間毎に算出する。例えば、音声処理部３１は、話者音声波形データを、スライディングの時間窓で、一定時間（例えば10ms）毎にオーバーラップさせながらフレーム毎に切り出して離散フーリエ変換を行うことで話者音声周波数スペクトルをフレーム区間（所定時間の一例）毎に算出する。これと同様の方法で、音声処理部３１は、記憶部２に記憶されている背景雑音波形データに基づいて所定時間毎に周波数分析を行うことで第２周波数スペクトル（以下、「背景雑音周波数スペクトル」という）をフレーム区間（所定時間の一例）毎に算出する。

次に、音声処理部３１は、算出した背景雑音周波数スペクトルにおいてマスキング効果を有する周波数を基準にして各周波数におけるマスクトレベルをフレーム区間（所定時間の一例）毎に算出する。ここで、マスキング効果とは、人の耳に入ってきた音（音波）の中に、特定の周波数（例えば、音圧レベルが高い周波数）の音がある場合、その特定の周波数の近傍にある周波数の音がマスクされ（かき消され）てしまい、人の聴覚で聞こえなくなってしまう現象である。特定の周波数が、マスキング効果を有する周波数である。なお、本実施形態では、音圧として、瞬時音圧（Pa）の二乗平均平方根（RMS）である実効音圧（Pa）の大きさを計算上扱い易い数値で表した音圧レベル(dB)を適用する。音圧レベル(dB)は、広義には音量ともいう。

図２（Ａ），（Ｂ）は、特定の周波数ｆaを基準としたマスクトレベルの一例を示す図である。図２（Ａ）に示すマスクトレベルは、特定の周波数ｆaにより決まる包絡（マスキングカーブ）である。マスクトレベル以下の音圧レベルの他の周波数の音は、人の聴覚で聞こえない。このようなマスクトレベルは、図２（Ａ）に示すように、特定の周波数ｆaより高い周波数に向かうカーブの方が、低い周波数に向かうカーブよりも傾きが緩やかになっている。もっとも、このようなカーブの形状、及び臨界帯域幅（例えば、1/4オクターブバンド）は、特定の周波数ｆaやその音圧レベルによって変化する。このため、例えば所定の周波数帯毎、且つ所定の音圧レベル範囲毎に、マスクトレベルを示すデータを予め記憶しておくとよい。そして、音声処理部３１は、背景雑音周波数スペクトルにおいてマスキング効果を有する周波数として、例えば背景雑音周波数スペクトルの包絡において山となる周波数を特定の周波数として選定する。音声処理部３１は、選定した特定の周波数に応じたマスクトレベルを示すデータに基づいて、当該特定の周波数を基準として含む所定周波数帯におけるマスクトレベルを算出する。なお、背景雑音周波数スペクトルの包絡において山となる周波数が複数ある場合、音声処理部３１は、複数の特定の周波数毎に、当該特定の周波数に応じたマスクトレベルを示すデータに基づいて（例えば、マスクトレベルの包絡が交差した場合、音圧レベルの高い方のマスクトレベルをとる）、背景雑音周波数スペクトルに基づくマスクトレベルを算出することになる。

なお、マスクトレベルは、ISO532B規格であるZwickerのラウドネス（音の主観的な大きさ）計算手法を用いることでも算出することができる。ラウドネス計算手法では、図２（Ｂ）に示すマスクトレベルを示すデータが用いられる。特定の周波数より高い周波数に向かうカーブの方が、低い周波数に向かうカーブよりも近傍の周波数の音に及ぼす影響が大きいため、図２（Ｂ）に示すマスクトレベルでは、高い周波数側のカーブのみを考慮している。この場合、音声処理部３１は、背景雑音波形データに基づいて、1/3オクターブバンド分析を行うことで1/3オクターブバンド毎に音圧レベルを算出する。そして、音声処理部３１は、1/3オクターブバンド毎に規定される目盛を持ったグラフに、1/3オクターブバンド毎に算出した音圧レベルを最大値とする図２（Ｂ）に示すマスクトレベルを書き込んで得た音圧レベルの階段状スペクトルを、背景雑音周波数スペクトルに基づくマスクトレベルとして算出する。

次に、音声処理部３１は、算出した話者音声周波数スペクトルにおける各周波数の音圧レベルと、背景雑音周波数スペクトルに基づくマスクトレベルとの差分を表すマスクト音声周波数スペクトルをフレーム区間（所定時間の一例）毎に算出する。図２（Ｃ）は、各周波数スペクトルの一例を示す図である。なお、図２（Ｃ）の縦軸には音圧レベルが割り当てられているが、音圧レベルの代わりに音のパワー（例えば、音圧レベルの自乗に相当）であってもよい。図２（Ｃ）の例では、話者音声周波数スペクトル５１と、背景雑音周波数スペクトル５２に基づくマスクトレベル５３との間の部分５４が、マスクト音声周波数スペクトルを示す。つまり、マスクト音声周波数スペクトル５４は、話者音声周波数スペクトル５１のうち、マスクトレベル５３（基準レベル）以上のレベルを持つ周波数スペクトルということになる。

次に、音声処理部３１は、例えばテキストデータが示す文字例に基づいて当該文字列を解析し、話者音声波形データが示す音声の波形を、時間軸方向において時間区間毎に区切ることで、時間区間と音素ラベル（音素情報の一例）とを対応付けたラベリング情報を生成する。一例として、「アイタイトオモウ」という文字列であるとすると、音声処理部３１は、例えば、“ａ”、“ｉ”、“ｔａ”、“ｉ”、“ｔｏ”、“ｏ”、“ｍｏ”、“ｕ”の順で配列された各音素を表す音素ラベルの列を生成し、生成された音素ラベルの列の先頭から順に、話者音声波形データが示す音声の波形を８個の音素の波形へと区切る。なお、区切りの位置は、生成された音素ラベルと、記憶部２に記憶されている音素モデル波形データが示す音素モデル波形とに基づいて例えば公知のViterbiアルゴリズムにより決定される。こうして、区切られた時間区間ごとに音素ラベルが対応付けられ（ラベリングされ）、ラベリング情報が生成される。なお、母音に対応する音素ラベルが対応付けられた時間区間を、「母音区間」という。子音（又は子音＋母音）に対応する音素ラベルが対応付けられた時間区間を、「子音区間」という。

次に、音声処理部３１は、話者音声波形データが示す音声の波形において時間区間と音素ラベルとを対応付けたラベリング情報から、音素のモデルとなるモデル周波数スペクトルを時間区間毎に算出する。例えば、音声処理部３１は、音素ラベルの列から選択した音素ラベル（例えば“ａ”）に対応する上記音素モデル波形データが示す音素モデル波形を、上記選択した音素ラベルが対応付けられた時間区間に合った音素モデル波形に調整し、調整した音素モデル波形のデータに対して離散フーリエ変換を行うことでモデル周波数スペクトルを時間区間毎に算出する。このモデル周波数スペクトルは、例えば理想的な母音のフォルマント周波数などを再現したスペクトルとなる。なお、このとき、例えば同一音節内での発声開始から発声終了までの音圧レベルを付与しておいてもよい。この場合、音圧レベルの変化を示す曲線には、アタック（開始時点から最大音量に到達するまでの時間を設定するパラメータ）＋減衰（アタックで到達した最大音量から持続音量レベルに移行するまでの時間を設定するパラメータ）のモデルを設定しても良いし、手本となる発話音声からモデル化した曲線（カーブ）を適用しても良い。

そして、音読評価部３２は、フレーム区間毎のマスクト音声周波数スペクトルと、時間区間毎のモデル周波数スペクトルとの類似度に基づいて背景雑音の存在下における音読に対する評価を行う。この評価は、背景雑音の存在下での話者音声の明瞭度（聞き易さ）の評価である。例えば、音読評価部３２は、先頭の時間区間から最後の時間区間まで、所定の１つ以上の時間区間に対応する（例えば、時間帯が重複する）フレーム区間を１つ以上選定し、選定したフレーム区間のマスクト音声周波数スペクトルと、これに対応する時間区間のモデル周波数スペクトルとの類似度を算出（つまり、全ての時間区間毎に類似度を算出）する。ここで、類似度の一例として、相関係数を用いるとよい。この場合、例えば、算出された相関係数が大きいほど類似度が高くなる。そして、音読評価部３２は、例えば、評価点（評価スコア）を算出（類似度が高いほど、評価点が高くなる）することで評価を行う。複数の時間区間において類似度が算出された場合、例えば、それぞれの時間区間における類似度の平均値に応じた評価点が算出される。

ところで、話者音声の明瞭度の評価精度を向上させるために、音読評価部３２は、マスクト音声周波数スペクトルとモデル周波数スペクトルとの類似度として、例えば、上記時間区間のうち母音区間毎に、マスクト音声周波数スペクトルに含まれるフォルマント周波数を基準とする周波数範囲内のレベル分布と、モデル周波数スペクトルに含まれるフォルマント周波数を基準とする周波数範囲内のレベル分布との間の類似度を算出するように構成するとよい。ここで、フォルマント周波数とは、周波数スペクトルの包絡において山となる周波数をいい、周波数の低い方から第１フォルマント周波数、第２フォルマント周波数、第３フォルマント周波数・・・という。なお、フォルマント周波数を基準（例えば、フォルマント周波数の音圧レベルを頂点）とする周波数範囲内のレベル分布とは、フォルマントの山を形成する包絡（つまり、山の頂上から裾野にかけた包絡）を示す曲線（以下、「フォルマント曲線」という）を意味する。また、フォルマント周波数を基準とする周波数範囲内のレベル分布が類似するとは、フォルマントの山の形状が類似することを意味する。一般に、第１フォルマント周波数を横軸にとり、第２フォルマント周波数を縦軸にとったときのフォルマント分布（２次元座標平面）に基づき、母音の別を判定することができる。このため、音読評価部３２は、母音区間毎に、第１フォルマント周波数を基準とする周波数範囲内のレベル分布（第１フォルマント曲線）と、第２フォルマント周波数を基準とする周波数範囲内のレベル分布（第２フォルマント曲線）とのそれぞれについて、上記類似度（例えば、相関係数）を算出して平均するとよい。これにより、話者音声の明瞭度を表す一要素である「母音らしさ」を評価することができる。図３は、マスクト音声周波数スペクトルとモデル周波数スペクトルのそれぞれにおける第１フォルマント曲線及び第２フォルマント曲線の一例を示す図である。

また、音読評価部３２は、マスクト音声周波数スペクトルとモデル周波数スペクトルとの類似度として、マスクト音声周波数スペクトルに基づく時間区間毎の音圧レベルの時間的な変化と、モデル周波数スペクトルに基づく時間区間毎の音圧レベルの時間的な変化との間の類似度を算出するように構成してもよい。これにより、話者音声の明瞭度を表す一要素である「抑揚」を評価することができる。なお、区間毎の音圧レベルとしては、例えば、当該区間毎の周波数スペクトルにおける各周波数が持つ音圧レベルの平均値、またはＳ／Ｎ比（パワー比）の平均値が用いられる。ここで、Ｓとは、例えば、話者音声周波数スペクトルにおける各周波数が持つ音圧レベル（またはパワー）であり、Ｎとは、背景雑音周波数スペクトルに基づくマスクトレベルにおける各周波数が持つ音圧レベル（またはパワー）を意味する。母音区間毎のＳ／Ｎ比（パワー比）の平均値により、話者音声の明瞭度を表す一要素として「母音大きさ」を評価することができ、子音区間毎のＳ／Ｎ比（パワー比）の平均値により、話者音声の明瞭度を表す一要素として「子音大きさ」を評価することができる。

表示処理部３３は、音読評価部３２による評価結果、及び評価結果に基づくアドバイスをディスプレイＤの画面に表示させる。

［２.音読評価装置Ｓの動作例］
次に、図４〜図６等を参照して、音読評価装置Ｓの動作の一例について説明する。図４は、制御部３により実行される音読録音処理の一例を示すフローチャートである。図５（Ａ）は、制御部３により実行される音読評価処理の一例を示すフローチャートである。図６は、制御部３により実行される音読評価フィードバック処理の一例を示すフローチャートである。

先ず、図４に示す処理は、例えば、話者が操作部４を介して音読録音開始指示を行うことにより開始される。図４に示す処理が開始されると、制御部３は、例えばアナウンス訓練用の複数種類のテキストデータのファイル名等（文字列の一部であってもよい）を選択可能に画面に表示させる（ステップＳ１）。

そして、制御部３は、ヘッドホンＨを頭部に装着した話者により操作部４を介して選択されたファイル名に対応するテキストデータと、これとペアリングされた背景雑音波形データとを記憶部２から取得する（ステップＳ２）。なお、テキストデータとペアリングされた背景雑音波形データがない場合、制御部３は、複数種類の背景雑音波形データのファイル名等（背景雑音の説明文であってもよい）を選択可能に画面に表示させてもよい。この場合、制御部３は、話者により操作部４を介して選択されたファイル名に対応する背景雑音波形データを記憶部２から取得する。

次いで、制御部３は、ステップＳ２で取得したテキストデータが示す文字列を画面に表示させる（ステップＳ３）。次いで、制御部３は、ステップＳ２で取得した背景雑音波形データに基づいて背景雑音を再生してヘッドホンＨのスピーカから出力させる（ステップＳ４）。なお、背景雑音を、話者が音読を行う部屋の空間に出力させた場合、話者の音読中に、背景雑音が回り込みマイクＭに集音されてしまうため、本実施形態ではヘッドホンＨから背景雑音を出力させている。ただし、背景雑音の回り込みを低減できる環境下である場合、話者が音読を行う部屋の空間に背景雑音をスピーカから出力する。

次いで、制御部３がマイク入力をオンにし、話者が背景雑音を聞きながら例えばアナウンス文字列の音読を開始すると、この文字列の音読中の発せられた音声がマイクＭにより集音される。そして、制御部３は、マイクＭにより集音された音声の波形を示す話者音声波形データを、インターフェース部５を介して入力し記憶部２に記憶（つまり、録音）する（ステップＳ５）。なお、こうして記憶される話者音声波形データは、ステップＳ２で取得したテキストデータとステップＳ２で取得した背景雑音波形データとに対応付けられる（例えば記憶部２内の同一のフォルダに格納される）。また、上述したように、部屋の空間に背景雑音をスピーカから出力する場合、ステップＳ５で記憶される波形データは、話者音声波形データと背景雑音波形データとから構成される。このため、記憶された波形データは、話者音声波形データと背景雑音波形データとに分離されて記憶され、図５（Ａ）に示す処理で使用される。

次いで、制御部３は、音読録音処理を終了するか否かを判定する（ステップＳ６）。例えば話者から操作部４を介して音読録音終了指示があった場合、或いは予め定められた音読時間が経過した場合、音読録音処理を終了すると判定され（ステップＳ６：ＹＥＳ）、音読録音処理が終了する。一方、制御部３は、音読録音処理を終了しないと判定した場合（ステップＳ６：ＮＯ）、ステップＳ３に戻り、処理を継続する。

次に、図５（Ａ）に示す処理は、例えば、話者が操作部４を介して評価対象の話者音声波形データのファイル名を選択して音読評価開始指示を行うことにより開始される。なお、図５（Ａ）に示すステップＳ１１〜Ｓ２４の処理の順序は、あくまで一例であり、この順序以外の順序で処理が行われてもよい。図５（Ａ）に示す処理が開始されると、制御部３は、選択されたファイル名に対応する話者音声波形データを記憶部２から取得する（ステップＳ１１）。次いで、制御部３は、ステップＳ１１で取得された話者音声波形データに基づいて、上述したように周波数分析を行うことで話者音声周波数スペクトルをフレーム区間毎に算出する（ステップＳ１２）。こうして算出された話者音声周波数スペクトルのデータは、例えば、上記話者音声波形データに対応付けられて記憶部２に記憶される。

次いで、制御部３は、ステップＳ１１で取得された話者音声波形データに対応付けられた背景雑音波形データを記憶部２から取得する（ステップＳ１３）。次いで、制御部３は、ステップＳ１３で取得された背景雑音波形データに基づいて、上述したように周波数分析を行うことで背景雑音周波数スペクトルをフレーム区間毎に算出する（ステップＳ１４）。次いで、制御部３は、ステップＳ１４で算出された背景雑音周波数スペクトルからマスキング効果を有するマスクトレベルをフレーム区間毎に算出する（ステップＳ１５）。こうして算出されたマスクトレベルのデータは、例えば、上記話者音声波形データに対応付けられて記憶部２に記憶される。次いで、制御部３は、ステップＳ１２で算出された話者音声周波数スペクトルにおける各周波数の音圧レベルと、ステップＳ１５で算出されたマスクトレベルとの差分を表すマスクト音声周波数スペクトルをフレーム区間毎に算出する（ステップＳ１６）。

次いで、制御部３は、ステップＳ１１で取得された話者音声波形データに対応付けられたテキストデータを記憶部２から取得する（ステップＳ１７）。次いで、制御部３は、ステップＳ１７で取得されたテキストデータが示す文字例に基づいて当該文字列を解析し、ステップＳ１１で取得された話者音声波形データが示す音声の波形を、上述したように、時間軸方向において時間区間毎に区切ることで、時間区間と音素ラベルとを対応付けたラベリング情報を生成する（ステップＳ１８）。次いで、制御部３は、ステップＳ１８で生成されたラベリング情報から、上述したように、音素のモデルとなるモデル周波数スペクトルを時間区間毎に算出する（ステップＳ１９）。

次いで、制御部３は、ステップＳ１６で算出された母音区間毎のマスクト音声周波数スペクトルに含まれるフォルマント周波数を基準とする周波数範囲内のレベル分布と、ステップＳ１９で算出された母音区間毎のモデル周波数スペクトルに含まれるフォルマント周波数を基準とする周波数範囲内のレベル分布との類似度（以下、「フォルマント類似度」という）を母音区間毎に算出する（ステップＳ２０）。

次いで、制御部３は、母音区間毎の話者周波数スペクトルにおける母音Ｓ／Ｎ比（パワー比）を母音区間毎に算出する（ステップＳ２１）。次いで、制御部３は、子音区間毎の話者周波数スペクトルにおける子音Ｓ／Ｎ比（パワー比）を子音区間毎に算出する（ステップＳ２２）。次いで、制御部３は、マスクト音声周波数スペクトルに基づく時間区間毎の音圧レベルの時間的な変化を表す曲線を算出（例えば、連続関数を定義）する（ステップＳ２３）。例えば、上述したように、制御部３は、ステップＳ２１で算出された母音Ｓ／Ｎ比の平均値を母音区間毎に平均母音Ｓ／Ｎ比として算出し、ステップＳ２２で算出された子音Ｓ／Ｎ比の平均値を子音区間毎に平均子音Ｓ／Ｎ比として算出する。そして、制御部３は、算出した各母音区間毎の平均母音Ｓ／Ｎ比と各子音区間毎の平均子音Ｓ／Ｎ比を時系列で並べることで、マスクト音声周波数スペクトルに基づく時間区間毎の音圧レベルの時間的な変化を表す曲線を算出する。

次いで、制御部３は、ステップＳ２３で算出したマスクト音声周波数スペクトルに基づく時間区間毎の音圧レベルの時間的な変化を表す曲線と、モデル周波数スペクトルに基づく時間区間毎の音圧レベルの時間的な変化を表す曲線との間の類似度（以下、「音圧変化類似度」という）を算出する（ステップＳ２４）。ここで、モデル周波数スペクトルに基づく時間区間毎の音圧レベルの時間的な変化を表す曲線には、例えば、上述したように、アタック＋減衰のモデルが設定されても良いし、手本となる発話音声からモデル化した曲線が適用されても良い。

次いで、制御部３は、背景雑音の存在下での話者音声の明瞭度の評価を行う（ステップＳ２５）。ここで、ステップＳ２０で算出された母音区間毎のフォルマント類似度と、ステップＳ２４で算出された音圧変化類似度と、の少なくとも何れか一方の類似度に基づいて当該評価を行うように構成すれば、背景雑音によるマスキングの影響が考慮され、人が聞いたときの感覚により近い評価結果を求めることができるという効果を奏する。しかし、図５に示す音読評価処理の例では、制御部３は、上記フォルマント類似度と、上記音圧変化類似度と、上記母音区間毎の平均母音Ｓ／Ｎ比と、上記子音区間毎の平均子音Ｓ／Ｎ比との４つの評価要素に基づいて話者音声の明瞭度の評価を行う。この構成によれば、より一層、人が聞いたときの感覚により近い評価結果を求めることができる。

例えば、制御部３は、類似度（例えば相関係数）が高いほど評価点が高くなる所定の関数を用いて、上記フォルマント類似度を全母音区間において平均した値に応じた点数を「母音らしさ」の評価点として算出し、且つ、上記音圧変化類似度に応じた点数（例えば、１００点満点中、７０点）を「抑揚」の評価点として算出する。さらに、制御部３は、Ｓ／Ｎ比が高いほど評価点が高くなる所定の関数を用いて、上記母音区間毎の平均母音Ｓ／Ｎ比を全区間において平均した値に応じた点数を「母音大きさ」の評価点として算出し、且つ、上記子音区間毎に平均子音Ｓ／Ｎ比を全区間において平均した値に応じた点数を「子音大きさ」の評価点として算出する。こうして算出された各評価点は、雑音の存在下での話者音声の明瞭度の個別評価結果として、上記話者音声波形データに対応付けられて記憶部２に記憶される。さらに、制御部３は、上記算出した各評価点（つまり、「母音らしさ」の評価点、「抑揚」の評価点、「母音大きさ」の評価点、「子音大きさ」の評価点）を平均した点数を総合評価点として算出する。こうして算出された総合評価点は、雑音の存在下での話者音声の明瞭度の総合評価結果として、上記話者音声波形データに対応付けられて記憶部２に記憶される。

なお、制御部３は、レベル適正度関数を用いて、上記平均母音Ｓ／Ｎ比の全区間における平均値に重み係数を乗算した値に応じた点数を「母音大きさ」の評価点として算出し、且つ、上記平均子音Ｓ／Ｎ比の全区間における平均値に重み係数を乗算した値に応じた点数を「子音大きさ」の評価点として算出するように構成すれば、より効果的である。図５（Ｂ）は、レベル適正関数を表す曲線の一例を示す図である。このレベル適正関数として、例えば、ガウス分布（正規分布）の確率密度関数を用いるとよい。図５（Ｂ）に示す２次元座標系では、縦軸には重み係数が割り当てられ、横軸にはＳ／Ｎ比が割り当てられている。図５（Ｂ）に示すように、レベル適正関数によれば、Ｓ／Ｎ比が０から“Ｘ”までは重み係数が徐々に増加していくが、Ｓ／Ｎ比が“Ｘ”以降は重み係数が徐々に減少していくようになっている。Ｓ／Ｎ比が高いほど評価点が高くなる所定の関数を用いる場合、背景雑音の音圧レベルに関係なく、発話音声がとにかく大きければ大きいほど、「母音大きさ」や「子音大きさ」の評価点が高く（つまり、明瞭度の評価が高く）なる。しかし、実際、例えば大きい声で怒鳴るように話されても明瞭度が上がるわけではなく、逆に、声がうるさいから聞く相手からすれば不快に感じる可能性がある。このため、レベル適正度関数を用いることで、Ｓ／Ｎ比が“Ｘ”より高くなれば、それ以降、重み係数が減少することで評価点が低下していくように構成される。

次に、図６に示す音読評価フィードバック処理は、話者が操作部４を介して図５（Ａ）に示す処理の対象となった話者音声波形データのファイル名を選択して表示指示を行うことにより開始される。或いは、図６に示す音読評価フィードバック処理は、図５（Ａ）に示す処理が終了することにより開始する。図６に示す処理が開始されると、制御部３は、図５（Ａ）に示す処理の対象となった話者音声波形データと、この話者音声波形データに対応付けられた背景雑音波形データ及びテキストデータを記憶部２から取得する（ステップＳ３１）。

次いで、制御部３は、ステップＳ３１で取得された話者音声波形データと背景雑音波形データとに基づいて、話者音声波形と背景雑音波形とを重畳させて画面に表示させ、且つ、ステップＳ３１で取得されたテキストデータに基づいて、話者音声波形の対応する位置に文字列を表示させる（ステップＳ３２）。

次いで、制御部３は、ステップＳ３１で取得された話者音声波形データに対応付けられた話者音声周波数スペクトルのデータ及びマスクトレベルのデータを記憶部２から取得する（ステップＳ３３）。

次いで、制御部３は、ステップＳ３３で取得された話者音声周波数スペクトルのデータとマスクトレベルのデータとに基づいて、話者音声周波数スペクトルとマスクトレベルとを重畳させて画面に表示させる（ステップＳ３４）。

次いで、制御部３は、ステップＳ３１で取得された話者音声波形データに個別評価結果として対応付けられた、例えば「母音らしさ」の評価点、「抑揚」の評価点、「母音大きさ」の評価点、及び「子音大きさ」の評価点を記憶部２から取得する（ステップＳ３５）。

次いで、制御部３は、ステップＳ３３で取得された各評価点のチャートを生成して画面に表示させる（ステップＳ３６）。なお、制御部３は、ステップＳ３１で取得された話者音声波形データに対応付けられた総合評価結果を記憶部２から取得して画面に表示させてもよい。次いで、制御部３は、予め設定された、複数の話者の音読に対するアドバイス情報の中から、ステップＳ３３で取得された各評価点に基づいてアドバイス情報を選択して画面に表示させる（ステップＳ３７）。アドバイス情報は、例えば評価点が相対的に低い評価項目（例えば、「母音らしさ」や「子音大きさ」など）に関して話者に改善させるためのアドバイスを示す。

図７は、アナウンス評価結果画面の一例を示す図である。図７に示すアナウンス評価結果画面には、波形表示部７１、スペクトル表示部７２、評価結果表示部７３、及びアドバイス表示部７４が設けられている。波形表示部７１には、話者音声波形、背景雑音波形、及び音読された文字列が表示されている。スペクトル表示部７２には、話者音声周波数スペクトル及びマスクトレベルが表示されている。評価結果表示部７３には、「母音らしさ」の評価点、「抑揚」の評価点、「母音大きさ」の評価点、及び「子音大きさ」の評価点のチャートが表示されている。なお、評価結果表示部７３には、総合評価結果が表示されてもよい。アドバイス表示部７４には、アドバイス情報が表示されている。

以上説明したように、上記実施形態によれば、話者音声周波数スペクトルにおける各周波数のレベルと、背景雑音周波数スペクトルにおいてマスキング効果を有する周波数を基準として各周波数におけるマスクトレベルとの差分を表すマスクト音声周波数スペクトルを算出し、マスクト音声周波数スペクトルと、モデル周波数スペクトルとの類似度に基づいて背景雑音の存在下における音読に対する評価を行うように構成したので、背景雑音によるマスキングの影響が考慮され、人が聞いたときの感覚により近い評価結果を求めることができる。

１通信部
２記憶部
３制御部
４操作部
５インターフェース部
６バス
３１音声処理部
３２音読評価部
３３表示処理部
Ｓ音読評価装置

Claims

複数の文字により構成される文字列を話者が音読したときに発した音声の波形を示す話者音声波形データを入力する入力手段と、
背景雑音の波形を示す背景雑音波形データを記憶する記憶手段と、
前記話者音声波形データに基づいて所定時間毎に周波数分析を行うことで第１周波数スペクトルを所定時間毎に算出する第１算出手段と、
前記背景雑音波形データに基づいて所定時間毎に周波数分析を行うことで第２周波数スペクトルを所定時間毎に算出する第２算出手段と、
前記第２算出手段により算出された第２周波数スペクトルにおいてマスキング効果を有する周波数を基準として各周波数におけるマスクトレベルを所定時間毎に算出する第３算出手段と、
前記第１算出手段により算出された第１周波数スペクトルにおける各周波数のレベルと、前記第３算出手段により算出された、各周波数におけるマスクトレベルとの差分を表すマスクト音声周波数スペクトルを所定時間毎に算出する第４算出手段と、
前記話者音声波形データが示す音声の波形において時間区間と音素情報とを対応付けたラベリング情報から、音素のモデルとなるモデル周波数スペクトルを前記時間区間毎に算出する第５算出手段と、
前記第４算出手段により算出された前記所定時間毎のマスクト音声周波数スペクトルと、前記第５算出手段により算出された前記時間区間毎のモデル周波数スペクトルとの類似度に基づいて前記背景雑音の存在下での前記音読における話者音声の明瞭度の評価を行う評価手段と、
を備えることを特徴とする音読評価装置。
前記評価手段は、前記第４算出手段により算出された前記所定時間毎のマスクト音声周波数スペクトルに含まれるフォルマント周波数を基準とする周波数範囲内のレベル分布と、前記第５算出手段により算出された前記時間区間毎のモデル周波数スペクトルに含まれるフォルマント周波数を基準とする周波数範囲内のレベル分布との類似度に基づいて前記話者音声の明瞭度の評価を行うことを特徴とする請求項１に記載の音読評価装置。
前記評価手段は、前記マスクト音声周波数スペクトルに基づく前記所定時間毎の音圧レベルの時間的な変化と、前記モデル周波数スペクトルに基づく前記時間区間毎の音圧レベルの時間的な変化との類似度に基づいて前記話者音声の明瞭度の評価を行うことを特徴とする請求項１または２に記載の音読評価装置。
前記記憶手段は、前記文字列のテキストデータを記憶し、
前記テキストデータが示す前記文字例に基づいて前記音声の波形を時間軸方向において前記時間区間毎に区切ることで、前記時間区間と音素情報とを対応付けたラベリング情報を生成する生成手段を更に備え、
前記第５算出手段は、前記生成手段により生成されたラベリング情報から、前記音素情報のモデルとなるモデル周波数スペクトルを前記時間区間毎に算出することを特徴とする請求項１乃至３の何れか一項に記載の音読評価装置。
母音に対応する音素情報が対応付けられた時間区間である母音区間毎の前記第１周波数スペクトルにおける母音Ｓ／Ｎ比の平均値を平均母音Ｓ／Ｎ比として算出し、且つ、子音に対応する音素情報が対応付けられた時間区間である子音区間毎の前記第１周波数スペクトルにおける子音Ｓ／Ｎ比の平均値を平均子音Ｓ／Ｎ比として算出する第６算出手段を更に備え、
前記評価手段は、Ｓ／Ｎ比が０から所定値Ｘまでは重み係数が徐々に増加しＳ／Ｎ比が当該所定値Ｘ以降は重み係数が徐々に減少するレベル適正度関数を用いて前記平均母音Ｓ／Ｎ比に前記重み係数を乗算した値と、前記レベル適正度関数を用いて前記平均子音Ｓ／Ｎ比に前記重み係数を乗算した値と、前記類似度とに基づいて前記話者音声の明瞭度の評価を行うことを特徴とする請求項１乃至４の何れか一項に記載の音読評価装置。
１つ以上のコンピュータにより実行される音読評価方法であって、
複数の文字により構成される文字列を話者が音読したときに発した音声の波形を示す話者音声波形データを入力する入力ステップと、
背景雑音の波形を示す背景雑音波形データを記憶手段に記憶する記憶ステップと、
前記話者音声波形データに基づいて所定時間毎に周波数分析を行うことで第１周波数スペクトルを所定時間毎に算出する第１算出ステップと、
前記背景雑音波形データに基づいて所定時間毎に周波数分析を行うことで第２周波数スペクトルを所定時間毎に算出する第２算出ステップと、
前記第２算出ステップにより算出された第２周波数スペクトルにおいてマスキング効果を有する周波数を基準として各周波数におけるマスクトレベルを所定時間毎に算出する第３算出ステップと、
前記第１算出ステップにより算出された第１周波数スペクトルにおける各周波数のレベルと、前記第３算出ステップにより算出された、各周波数におけるマスクトレベルとの差分を表すマスクト音声周波数スペクトルを所定時間毎に算出する第４算出ステップと、
前記話者音声波形データが示す音声の波形において時間区間と音素情報とを対応付けたラベリング情報から、前記音素情報のモデルとなるモデル周波数スペクトルを前記時間区間毎に算出する第５算出ステップと、
前記第４算出ステップにより算出された前記所定時間毎のマスクト音声周波数スペクトルと、前記第５算出ステップにより算出された前記時間区間毎のモデル周波数スペクトルとの類似度に基づいて前記背景雑音の存在下での前記音読における話者音声の明瞭度の評価を行う評価ステップと、
を含むことを特徴とする音読評価方法。
複数の文字により構成される文字列を話者が音読したときに発した音声の波形を示す話者音声波形データを入力する入力ステップと、
背景雑音の波形を示す背景雑音波形データを記憶手段に記憶する記憶ステップと、
前記話者音声波形データに基づいて所定時間毎に周波数分析を行うことで第１周波数スペクトルを所定時間毎に算出する第１算出ステップと、
前記背景雑音波形データに基づいて所定時間毎に周波数分析を行うことで第２周波数スペクトルを所定時間毎に算出する第２算出ステップと、
前記第２算出ステップにより算出された第２周波数スペクトルにおいてマスキング効果を有する周波数を基準として各周波数におけるマスクトレベルを所定時間毎に算出する第３算出ステップと、
前記第１算出ステップにより算出された第１周波数スペクトルにおける各周波数のレベルと、前記第３算出ステップにより算出された、各周波数におけるマスクトレベルとの差分を表すマスクト音声周波数スペクトルを所定時間毎に算出する第４算出ステップと、
前記話者音声波形データが示す音声の波形において時間区間と音素情報とを対応付けたラベリング情報から、前記音素情報のモデルとなるモデル周波数スペクトルを前記時間区間毎に算出する第５算出ステップと、
前記第４算出ステップにより算出された前記所定時間毎のマスクト音声周波数スペクトルと、前記第５算出ステップにより算出された前記時間区間毎のモデル周波数スペクトルとの類似度に基づいて前記背景雑音の存在下での前記音読における話者音声の明瞭度の評価を行う評価ステップと、
をコンピュータに実行させることを特徴とするプログラム。