JP2016183992A

JP2016183992A - 音読評価装置、音読評価方法、及びプログラム

Info

Publication number: JP2016183992A
Application number: JP2015062769A
Authority: JP
Inventors: 伸行浅野; Nobuyuki Asano
Original assignee: Brother Industries Ltd
Current assignee: Brother Industries Ltd
Priority date: 2015-03-25
Filing date: 2015-03-25
Publication date: 2016-10-20
Anticipated expiration: 2035-03-25
Also published as: JP6314884B2

Abstract

【課題】文脈上重要な部分かどうかに応じて評価を行うことが可能な音読評価装置、音読評価方法、及びプログラムを提供する。
【解決手段】音読評価装置Ｓは、話者が１以上の文節からなるフレーズを複数含む文を音読したときに発した音声の波形を示す音声波形データに基づいてフレーズ毎に算出された得点を取得する。そして、音読評価装置Ｓは、上記フレーズ毎の重みを決定し、決定したそれぞれの重みに応じた配点比率をフレーズ毎に決定し、上記取得されたフレーズ毎の得点を、上記決定した配点比率によりフレーズ毎に調整し、調整したフレーズ毎の得点に基づいて、複数のフレーズを含む文全体の音読に対する総得点を算出する。
【選択図】図５

Description

本発明は、話者が文を音読したときに発した音声に基づいて、文の音読に対する評価を行うシステム等の技術分野に関する。

近年、アナウンス評価や歌唱評価等の支援を目的とした様々なシステムが提案されている。例えば特許文献１には、歌唱者の歌唱音声信号から抽出された抑揚（音高）や音量などに基づいて、曲の区間別に歌唱を採点することにより、歌唱の巧拙を正しく採点評価する技術が開示されている。一方、アナウンス評価における評価項目には、抑揚、声量、滑舌、スピードなどがあるが、アナウンスでは、伝えるべき情報を伝えることが重要であり、例えば文の一部が聞き取れなかったとしても、必要な情報が聴者に伝わればアナウンスとしての意味を成していると言える。

特開平１０−７８７４９号公報

しかしながら、従来のシステムでは、例えばアナウンス評価の得点化の際に、文脈上重要かを考慮しておらず、一ヶ所ミスが発生した場合は、ミスの発生箇所が文脈上重要かどうかに関わらず、一律で同じ点数しか出すことができなかった。このため、練習者側も表示される点数に対して納得感がなく、高得点を取るためには実際の重要度と関係なく、アナウンス全体を万遍なく練習する必要があった。

本発明は、以上の点に鑑みてなされたものであり、文脈上重要な部分かどうかに応じて評価を行うことが可能な音読評価装置、音読評価方法、及びプログラムを提供する。

上記課題を解決するために、請求項１に記載の発明は、話者が１以上の文節からなるフレーズを複数含む文を音読したときに発した音声の波形を示す音声波形データに基づいて前記フレーズ毎に算出された得点を取得する取得手段と、前記フレーズ毎の重みを決定する第１決定手段と、前記第１決定手段により決定された前記フレーズ毎の重みに応じた配点比率を前記フレーズ毎に決定する第２決定手段と、前記取得手段により取得された前記得点を、前記第２決定手段により決定された前記配点比率により前記フレーズ毎に調整し、調整したフレーズ毎の得点に基づいて、前記複数のフレーズを含む文全体の音読に対する総得点を算出する算出手段と、を備えることを特徴とする。

請求項２に記載の発明は、請求項１に記載の音読評価装置において、前記文を前記複数のフレーズに区分して画面に表示させ、且つ前記複数のフレーズの中で相対的に高い重み付けがなされた前記フレーズを他のフレーズとは異なる表示態様で表示させる表示制御手段を更に備えることを特徴とする。

請求項３に記載の発明は、請求項１または２に記載の音読評価装置において、前記表示制御手段は、前記取得手段により前記フレーズ毎に取得された前記得点と、前記フレーズ毎に調整された得点との少なくとも何れか一方をそれぞれの前記フレーズに対応付けて前記画面に表示させることを特徴とする。

請求項４に記載の発明は、請求項１乃至３の何れか一項に記載の音読評価装置において、前記文のテキストデータを入力する第１入力手段と、前記第１入力手段により入力されたテキストデータが示す文を複数の単語に分解する分解手段と、単語の重要度を規定する参照情報を参照して、前記分解されたそれぞれの前記単語の重要度を特定する第１特定手段と、を更に備え、前記第１決定手段は、前記第１特定手段により特定された前記単語の重要度に基づいて、前記単語により構成されるフレーズの重みを前記フレーズ毎に決定することを特徴とする。

請求項５に記載の発明は、請求項４に記載の音読評価装置において、前記文を音読した得点算出の基準となる音声の波形を示す基準音声波形データを入力する第２入力手段と、前記第２入力手段により入力された基準音声波形データが示す音声の波形に基づいて特定される前記フレーズの時間長を前記フレーズ毎に特定する第２特定手段と、を更に備え前記第１決定手段は、前記第１特定手段により特定された前記単語の重要度と、前記第２特定手段により特定された前記フレーズの時間長とに基づいて、前記単語により構成されるフレーズの重みを前記フレーズ毎に決定することを特徴とする。

請求項６に記載の発明は、話者が複数の文節を含む文を音読したときに発した音声の波形を示す音声波形データに基づいて前記文節毎に算出された得点を取得する取得手段と、前記文節毎の重みを決定する第１決定手段と、前記第１決定手段により決定された前記文節毎の重みに応じた配点比率を前記文節毎に決定する第２決定手段と、前記取得手段により取得された前記得点を、前記第２決定手段により決定された前記配点比率により前記文節毎に調整し、調整した文節毎の得点に基づいて、前記複数の文節を含む文全体の音読に対する総得点を算出する算出手段と、を備えることを特徴とする。

請求項７に記載の発明は、請求項６に記載の音読評価装置において、前記文を前記複数の文節に区分して画面に表示させ、且つ前記複数の文節の中で相対的に高い重み付けがなされた前記文節を他の文節とは異なる表示態様で表示させる表示制御手段を更に備えることを特徴とする。

請求項８に記載の発明は、請求項６または７に記載の音読評価装置において、前記表示制御手段は、前記取得手段により前記文節毎に取得された前記得点と、前記文節毎に調整された得点との少なくとも何れか一方をそれぞれの前記文節に対応付けて前記画面に表示させることを特徴とする。

請求項９に記載の発明は、請求項６乃至８の何れか一項に記載の音読評価装置において、前記文のテキストデータを入力する第１入力手段と、前記第１入力手段により入力されたテキストデータが示す文を複数の単語に分解する分解手段と、単語の重要度を規定する参照情報を参照して、前記分解されたそれぞれの前記単語の重要度を特定する第１特定手段と、を更に備え、前記第１決定手段は、前記第１特定手段により特定された前記単語の重要度に基づいて、前記単語により構成される文節の重みを前記文節毎に決定することを特徴とする。

請求項１０に記載の発明は、請求項９に記載の音読評価装置において、前記文を音読した得点算出の基準となる音声の波形を示す基準音声波形データを入力する第２入力手段と、前記第２入力手段により入力された基準音声波形データが示す音声の波形に基づいて特定される前記文節の時間長を前記文節毎に特定する第２特定手段と、を更に備え、前記第１決定手段は、前記第１特定手段により特定された前記単語の重要度と、前記第２特定手段により特定された前記文節の時間長とに基づいて、前記単語により構成される文節の重みを前記文節毎に決定することを特徴とする。

請求項１１に記載の発明は、話者が複数の単語を含む文を音読したときに発した音声の波形を示す音声波形データに基づいて前記単語毎に算出された得点を取得する取得手段と、前記文のテキストデータを入力する入力手段と、前記入力手段により入力されたテキストデータが示す文を複数の単語に分解する分解手段と、単語の重要度を規定する参照情報を参照して、前記分解されたそれぞれの前記単語の重要度を特定する特定手段と、前記特定手段により特定された前記単語毎の重要度に応じた配点比率を前記単語毎に決定する決定手段と、前記取得手段により取得された前記得点を、前記決定手段により決定された前記配点比率により前記単語毎に調整し、調整した単語毎の得点に基づいて、前記複数の単語を含む文全体の音読に対する総得点を算出する算出手段と、を備えることを特徴とする。

請求項１２に記載の発明は、請求項１１に記載の音読評価装置において、前記文を前記複数の単語に区分して画面に表示させ、且つ前記複数の単語の中で相対的に高い重要度が付与された前記単語を他の単語とは異なる表示態様で表示させる表示制御手段を更に備えることを特徴とする。

請求項１３に記載の発明は、請求項１２に記載の音読評価装置において、前記表示制御手段は、前記取得手段により前記単語毎に取得された前記得点と、前記単語毎に調整された得点との少なくとも何れか一方をそれぞれの前記単語に対応付けて前記画面に表示させることを特徴とする。

請求項１４に記載の発明は、１つ以上のコンピュータにより実行される音読評価方法であって、話者が１以上の文節からなるフレーズを複数含む文を音読したときに発した音声の波形を示す音声波形データに基づいて前記フレーズ毎に算出された得点を取得する取得ステップと、前記フレーズ毎の重みを決定する第１決定ステップと、前記第１決定ステップにより決定された前記フレーズ毎の重みに応じた配点比率を前記フレーズ毎に決定する第２決定ステップと、前記取得ステップにより取得された前記得点を、前記第２決定ステップにより決定された前記配点比率により前記フレーズ毎に調整し、調整したフレーズ毎の得点に基づいて、前記複数のフレーズを含む文全体の音読に対する総得点を算出する算出ステップと、を含むことを特徴とする。

請求項１５に記載の発明は、話者が複数のフレーズを含む文を音読したときに発した音声の波形を示す音声波形データに基づいて前記フレーズ毎に算出された得点を取得する取得ステップと、前記フレーズ毎の重みを決定する第１決定ステップと、前記第１決定ステップにより決定された前記フレーズ毎の重みに応じた配点比率を前記フレーズ毎に決定する第２決定ステップと、前記取得ステップにより取得された前記得点を、前記第２決定ステップにより決定された前記配点比率により前記フレーズ毎に調整し、調整したフレーズ毎の得点に基づいて、前記複数のフレーズを含む文全体の音読に対する総得点を算出する算出ステップと、をコンピュータに実行させることを特徴とする。

請求項１６に記載の発明は、１つ以上のコンピュータにより実行される音読評価方法であって、話者が複数の文節を含む文を音読したときに発した音声の波形を示す音声波形データに基づいて前記文節毎に算出された得点を取得する取得ステップと、前記文節毎の重みを決定する第１決定ステップと、前記第１決定ステップにより決定された前記文節毎の重みに応じた配点比率を前記文節毎に決定する第２決定ステップと、前記取得ステップにより取得された前記得点を、前記第２決定ステップにより決定された前記配点比率により前記文節毎に調整し、調整した文節毎の得点に基づいて、前記複数の文節を含む文全体の音読に対する総得点を算出する算出ステップと、を含むことを特徴とする。

請求項１７に記載の発明は、話者が複数の文節を含む文を音読したときに発した音声の波形を示す音声波形データに基づいて前記文節毎に算出された得点を取得する取得ステップと、前記文節毎の重みを決定する第１決定ステップと、前記第１決定ステップにより決定された前記文節毎の重みに応じた配点比率を前記文節毎に決定する第２決定ステップと、前記取得ステップにより取得された前記得点を、前記第２決定ステップにより決定された前記配点比率により前記文節毎に調整し、調整した文節毎の得点に基づいて、前記複数の文節を含む文全体の音読に対する総得点を算出する算出ステップと、をコンピュータに実行させることを特徴とする。

請求項１８に記載の発明は、１つ以上のコンピュータにより実行される音読評価方法であって、話者が複数の単語を含む文を音読したときに発した音声の波形を示す音声波形データに基づいて前記単語毎に算出された得点を取得する取得ステップと、前記文のテキストデータを入力する入力ステップと、前記入力ステップにより入力されたテキストデータが示す文を複数の単語に分解する分解ステップと、単語の重要度を規定する参照情報を参照して、前記分解されたそれぞれの前記単語の重要度を特定する特定ステップと、前記特定ステップにより特定された前記単語毎の重要度に応じた配点比率を前記単語毎に決定する決定ステップと、前記取得ステップにより取得された前記得点を、前記決定ステップにより決定された前記配点比率により前記単語毎に調整し、調整した単語毎の得点に基づいて、前記複数の単語を含む文全体の音読に対する総得点を算出する算出ステップと、を含むことを特徴とする。

請求項１９に記載の発明は、話者が複数の単語を含む文を音読したときに発した音声の波形を示す音声波形データに基づいて前記単語毎に算出された得点を取得する取得ステップと、前記文のテキストデータを入力する入力ステップと、前記入力ステップにより入力されたテキストデータが示す文を複数の単語に分解する分解ステップと、単語の重要度を規定する参照情報を参照して、前記分解されたそれぞれの前記単語の重要度を特定する特定ステップと、前記特定ステップにより特定された前記単語毎の重要度に応じた配点比率を前記単語毎に決定する決定ステップと、前記取得ステップにより取得された前記得点を、前記決定ステップにより決定された前記配点比率により前記単語毎に調整し、調整した単語毎の得点に基づいて、前記複数の単語を含む文全体の音読に対する総得点を算出する算出ステップと、をコンピュータに実行させることを特徴とする。

請求項１，６，１１，１４〜１９に記載の発明によれば、文脈上重要な部分かどうかに応じて評価を行うことができる。

請求項２，７，１２に記載の発明によれば、複数のフレーズ、文節、または単語の中で相対的に高い重み付けがなされたフレーズをユーザに一見して確認させることができる。

請求項３，８，１３に記載の発明によれば、フレーズ、文節、または単語毎の得点をユーザに一見して確認させることができる。

請求項４，９に記載の発明によれば、単語単位でフレーズまたは文節の重要度を重みに反映させることができる。

請求項５，１０に記載の発明によれば、フレーズまたは文節の重みの適切さを高めることができる。

本実施形態に係る音読評価装置Ｓの概要構成例を示す図である。ある評価項目についてのフレーズ毎の得点が配点比率により調整されて文全体の音読に対する総得点が算出される例を示す概念図である。図２に示す重み付けエンジン内で、フレーズを構成する複数の単語それぞれの重要度に基づいてフレーズ毎に重要度が決定される例を示す概念図である。話者の音読に対する評価を示す情報を表示する画面例を示す図である。実施例１における制御部３の音読評価処理の一例を示すフローチャートである。（Ａ）は、単語の重要度及び単語長に基づいてフレーズの重要度が決定される例を示す概念図である。（Ｂ）は、フレーズの重要度及びフレーズ長に基づいてフレーズの重み及び配点比率が決定される例を示す概念図である。実施例２における制御部３の音読評価処理の一例を示すフローチャートである。単語毎の得点が配点比率により調整されて文全体の音読に対する総得点が算出される例を示す図である。

以下、本発明の実施形態を図面に基づいて説明する。

［１.音読評価装置Ｓの構成及び機能］
初めに、図１を参照して、本発明の一実施形態に係る音読評価装置Ｓの構成及び機能について説明する。図１は、本実施形態に係る音読評価装置Ｓの概要構成例を示す図である。なお、音読評価装置の一例として、パーソナルコンピュータや、携帯型情報端末（スマートフォン等）などが挙げられる。図１に示すように、音読評価装置Ｓは、通信部１、記憶部２、制御部３、操作部４、及びインターフェース（ＩＦ）部５等を備えて構成され、これらの構成要素はバス６に接続されている。操作部４は、ユーザからの操作指示を受け付け、受け付けた操作に応じた信号を制御部３へ出力する。インターフェース部５には、マイクＭ、及びディスプレイＤ等が接続される。マイクＭは、語学学習や、アナウンス、朗読などの発声発話訓練等を行う話者が、文（文章）を音読したときに発した音声を集音する。文は、複数のフレーズ、または複数の文節を含む。フレーズは、１以上の文節からなり、一般に一息で話される文節のまとまりである。フレーズと文節は、それぞれ、１以上の単語を含む。そのため、文は、１以上の単語を含む。単語には、名詞、動詞、形容詞、副詞、及び接続詞等の自立語（単独で文節を構成できる品詞）や、助動詞及び助詞等の付属語（単独で文節を構成できない品詞）などがある。音読対象となる文の例として、例えば、語学学習またはアナウンス訓練や朗読訓練などで用いられる文章、または歌唱に用いられる歌詞文などが挙げられる。ディスプレイＤは、制御部３からの表示指令にしたがって、例えば、話者の音読に対する評価を示す情報（例えば、得点）を画面に表示する。この評価には、声量の評価、抑揚（音高またはピッチともいう）の評価、滑舌の評価、スピード（音読スピード）の評価、間（間合い）の評価、総合評価などがある。なお、マイクＭ、及びディスプレイＤは、音読評価装置Ｓと一体型であってもよいし、別体であってもよい。

通信部１は、有線または無線によりネットワーク（図示せず）に接続してサーバ等と通信を行う。記憶部２は、例えばハードディスクドライブ等からなり、ＯＳ（オペレーティングシステム）、及び音読評価処理プログラム（本発明のプログラムの一例）等を記憶する。音読評価処理プログラムは、コンピュータとしての制御部３に、後述する音読評価処理を実行させるプログラムである。音読評価処理プログラムは、アプリケーションとして、所定のサーバからダウンロードされてもよいし、ＣＤ、ＤＶＤ等の記録媒体に記憶されて提供されてもよい。また、記憶部２は、上述した文のテキストデータと、この文を音読した得点算出の基準となる音声（例えば、音読するときの手本となる音声）の波形を示す音声波形データ（以下、「基準音声波形データ」という）とを記憶する。ここで、テキストデータには、例えば、各文字の発音タイミング（例えば、発音開始からの経過時間）が文字毎または単語毎に対応付けられて含まれる。なお、基準音声波形データは、所定の音声ファイル形式で記憶される。

また、記憶部２には、単語の重要度を規定する参照情報を登録する単語重要度データベース（ＤＢ）が構築される。単語の重要度とは、単語が文中に含まれた場合に文脈上どの程度重要になるかを示す度合である。例えば、固有名詞や、数値を示す単語は、アナウンス等の聞き手に伝えるべき重要な情報ということができるため、このような単語には重要度が高く設定（他の単語と比較して相対的に高い重要度が付与）される。特に、数によって数量や順序を表す数詞は、重要な情報であるため、無条件で重要度が高く設定されるとよい。単語の重要度は、例えば、「小（低）」、「中」、「大（高）」というように文字で表されてもよいし、「１」、「２」、「３」、「４」、「５」というように数値で表されてもよい。これにより、例えば、重要である単語とそうでない単語とに差がつけられる。参照情報には、文に含まれる全ての単語について単語毎に重要度が規定されていてもよいし、重要度が高い単語のみ（または重要度が低い単語のみ）が規定されてもよい。

制御部３は、コンピュータとしてのＣＰＵ（Central Processing Unit）、ＲＯＭ（Read Only Memory）、及びＲＡＭ（Random Access Memory）等により構成される。制御部３は、音読評価処理プログラムにより、音声処理部３１、音読評価部３２、得点調整部３３、及び表示制御部３４として機能する。音声処理部３１、音読評価部３２、及び得点調整部３３は、本発明における取得手段、第１入力手段、第２入力手段、入力手段、第１決定手段、第２決定手段、決定手段、算出手段、分解手段、第１特定手段、第２特定手段、及び特定手段の一例である。表示制御部３４は、本発明における表示制御手段の一例である。

制御部３は、所定の音声ファイル形式で記憶された基準音声波形データを記憶部２から音声処理部３１へ入力する。また、制御部３は、話者が上記文を音読したときに発した音声であってマイクＭにより集音された音声の波形を示す音声波形データ（以下、「話者音声波形データ」という）を音声処理部３１へ入力する。基準音声波形データ及び話者音声波形データを総称して音声波形データという。なお、音声波形データは、離散化された時系列の音圧波形データであり、例えば、サンプリングレート44.1kHz、量子化16bit、及びモノラルの波形データである。なお、音圧とは、音波による空気の圧力の変化分（Pa）をいう。本実施形態では、音圧として、瞬時音圧（Pa）の二乗平均平方根（RMS）である実効音圧（Pa）の大きさを計算上扱い易い数値で表した音圧レベル(dB)を適用する。音圧レベル(dB)は、広義には音量ともいう。音圧レベルは、声量の評価に用いられる。

音声処理部３１は、音声波形データから例えば所定時間（例えば、10ms）毎に切り出したデータから音圧レベル(dB)を声量として所定時間毎に（所定時間間隔で）算出する。また、音声処理部３１は、音声波形データから例えば所定時間毎に切り出したデータから基本周波数（Hz）を算出し、算出した基本周波数（Hz）を抑揚として所定時間毎に算出する。なお、抑揚の算出方法には、例えば、ゼロクロス法やベクトル自己相関等の公知の手法を適用できる。また、音声処理部３１は、滑舌の評価に用いる声道特性を示す特徴量（音響特性）を単語毎に算出する。例えば、音声処理部３１は、音声波形データを単語（単語区間）毎に切り出し（例えば、音読された文のテキストデータに基づいて切り出し）、切り出した単語区間のデータを窓掛けで区切って（例えば、25ms毎にフレーム化）、フーリエ解析（ＦＦＴ）することで振幅スペクトルを求める。そして、音声処理部３１は、求めた振幅スペクトルにメルフィルタバンクをかけ、メルフィルタバンクの出力を対数化した値を離散コサイン変換（ＤＣＴ）することでＭＦＣＣ（メル周波数ケプストラム係数）を、声道特性を示す特徴量として単語毎に算出する。

また、音声処理部３１は、基準音声波形データに基づいて、各フレーズの開始タイミングから終了タイミングまでのフレーズ区間（以下、「基準フレーズ区間」という）をフレーズ毎に特定する。ここで、開始タイミングと終了タイミングは、それぞれ、音声の波形から認識されてもよいし、上述したように算出された音圧レベル(dB)から認識されてもよい。例えば、音声処理部３１は、音声の波形の振幅幅が所定値以上になった時点を開始タイミングとして認識する。或いは、音声処理部３１は、音圧レベル(dB)が所定値以上になった時点を開始タイミングとして認識する。また、例えば、音声処理部３１は、音声の波形の振幅幅が所定値未満になった時点を終了タイミングとして認識する。或いは、音声処理部３１は、音圧レベル(dB)が所定値未満になった時点を終了タイミングとして認識する。また、音声処理部３１は、複数のフレーズのうち何れかのフレーズの終了タイミングから次のフレーズの開始タイミングまでのインターバル区間（以下、「基準インターバル区間」という）を特定する。また、音声処理部３１は、複数の文節のうち何れかの文節の終了タイミングから次の文節の開始タイミングまでの基準インターバル区間を特定してもよい。また、音声処理部３１は、例えば、音読された文のテキストデータが示す発音タイミングに基づいて、各単語の単語区間（以下、「基準単語区間」という）を単語毎に特定してもよい。さらに、音声処理部３１は、例えば、音読された文のテキストデータが示す発音タイミングに基づいて、各文節の開始タイミングから終了タイミングまでの文節区間（以下、「基準文節区間」という）を、文節毎に特定してもよい。

また、音声処理部３１は、話者音声波形データに基づいて、各フレーズの開始タイミングから終了タイミングまでのフレーズ区間（以下、「話者フレーズ区間」という）をフレーズ毎に特定する。また、音声処理部３１は、複数のフレーズのうち何れかのフレーズの終了タイミングから次のフレーズの開始タイミングまでのインターバル区間（以下、「話者インターバル区間」という）を特定する。また、音声処理部３１は、複数の文節のうち何れかの文節の終了タイミングから次の文節の開始タイミングまでの話者インターバル区間を特定してもよい。また、音声処理部３１は、例えば、音読された文のテキストデータが示す発音タイミングに基づいて、各単語の単語区間（以下、「話者単語区間」という）を単語毎に特定してもよい。さらに、音声処理部３１は、例えば、音読された文のテキストデータが示す発音タイミングに基づいて、各文節の開始タイミングから終了タイミングまでの文節区間（以下、「話者文節区間」という）を、文節毎に特定してもよい。

以上のようにして特定されたフレーズ区間（または文節区間）、単語区間、及びインターバル区間のデータは、例えば、それぞれの音声波形データの音声ファイルに対応付けられて記憶部２に記憶される。なお、特定された各区間（フレーズ区間（または文節区間）、単語区間、及びインターバル区間）は、例えば波形の開始時点からの時間の範囲（例えば、01:00-03:00）で表される。また、特定された各区間には、それぞれ、例えば先頭から順番にシリアル番号が付与される。

次に、音読評価部３２は、基準フレーズ区間の声量と、基準フレーズ区間に対応する（例えばシリアル番号が一致する）話者フレーズ区間の声量とを比較して、声量の評価をフレーズ毎に行う。比較される声量には、例えば上述した音圧レベル(dB)が用いられる。音読評価部３２は、例えば、声量の比較結果として、基準フレーズ区間の声量と話者フレーズ区間の声量との差を算出し、この差に基づいて得点（評価点）を算出することで声量の評価を行う。この得点は、例えば、差が０に近いほど、評価が高く（つまり、得点が高く）なるように算出される。つまり、話者の声量が基準の声量よりも大きいまたは小さいほど差が大きくなるので評価は低くなる。一方、話者の声量が基準の声量に近づくほど差が小さくなるので評価は高くなる。このようにしてフレーズ区間毎に声量の評価がなされる（つまり、得点が算出される）。ところで、各フレーズ区間において、所定時間毎に算出された声量を比較する場合、声量の評価は、基準フレーズ区間と話者フレーズ区間との開始の時間位置を合わせて、フレーズ区間を伸縮させてフレーズ区間の時間長を合わせて行われるとよい。このとき、単純に伸縮させて長さを合わせてもよいし、ＤＰマッチング等の手法を使い、フレーズ区間の中で動的に評価する位置を合わせるようにしてもよい。或いは、比較される声量は、各フレーズ区間において所定時間毎に算出された声量の平均値としてもよい。なお、音読評価部３２は、フレーズ毎の声量と同様の評価方法で、基準文節区間の声量と、基準文節区間に対応する話者文節区間の声量とを比較して、声量の評価を文節毎に行ってもよい（つまり、文節毎に得点が算出される）。また、音読評価部３２は、フレーズ毎の声量と同様の評価方法で、基準単語区間の声量と、基準単語区間に対応する話者単語区間の声量とを比較して、声量の評価を単語毎に行ってもよい（つまり、単語毎に得点が算出される）。

また、音読評価部３２は、基準フレーズ区間の抑揚（音高）と、基準フレーズ区間に対応する話者フレーズ区間の抑揚とを比較して、抑揚の評価をフレーズ毎に行う。音読評価部３２は、例えば、抑揚の比較結果として、基準フレーズ区間の抑揚と話者フレーズ区間の抑揚との差を算出し、この差に基づいて得点を算出することで抑揚の評価を行う。この得点は、例えば、差が０に近いほど、評価が高く（つまり、得点が高く）なるように算出される。つまり、話者の抑揚が基準の抑揚よりも高いまたは低いほど差が大きくなるので評価は低くなる。一方、話者の抑揚が基準の抑揚に近づくほど差が小さくなるので評価は高くなる。このようにしてフレーズ区間毎に抑揚の評価がなされる（つまり、得点が算出される）。また、声量の場合と同様、抑揚の評価は、基準フレーズ区間と話者フレーズ区間との開始の時間位置を合わせて、フレーズ区間を伸縮させてフレーズ区間の時間長を合わせて行われるとよい。或いは、比較される抑揚は、各フレーズ区間において所定時間毎に算出された抑揚の平均値としてもよい。なお、音読評価部３２は、フレーズ毎の抑揚と同様の評価方法で、基準文節区間の抑揚と、基準文節区間に対応する話者文節区間の抑揚とを比較して、抑揚の評価を文節毎に行ってもよい（つまり、文節毎に得点が算出される）。また、音読評価部３２は、フレーズ毎の抑揚と同様の評価方法で、基準単語区間の抑揚と、基準単語区間に対応する話者単語区間の抑揚とを比較して、抑揚の評価を単語毎に行ってもよい（つまり、単語毎に得点が算出される）。

また、音読評価部３２は、基準単語区間の滑舌と、基準単語区間に対応する話者単語区間の滑舌とを比較して、滑舌の評価を単語毎に行う。音読評価部３２は、滑舌の評価では、例えば、単語毎に算出された声道特性を示す特徴量（ＭＦＣＣ）が用いられる。音読評価部３２は、例えば、滑舌の比較結果として、基準単語区間の特徴量と話者単語区間の特徴量との類似度を算出し、この類似度に基づいて得点を算出することで滑舌の評価を行う。この得点は、例えば、類似度が高いほど、評価が高く（つまり、得点が高く）なるように算出される。このようにして単語区間毎に滑舌の評価がなされる（つまり、得点が算出される）。更に、音読評価部３２は、基準フレーズ区間に含まれる複数の基準単語区間それぞれの特徴量に基づいて（例えば平均して）、基準フレーズ区間の特徴量を基準フレーズ区間毎に算出する。また、音読評価部３２は、話者フレーズ区間に含まれる複数の話者単語区間それぞれの特徴量に基づいて（例えば平均して）、話者フレーズ区間の特徴量を話者フレーズ区間毎に算出する。そして、音読評価部３２は、例えば、基準フレーズ区間の特徴量と話者フレーズ区間の特徴量との類似度を算出し、この類似度に基づいて得点を算出することで滑舌の評価をフレーズ毎に行う。なお、音読評価部３２は、フレーズ毎の滑舌と同様の評価方法で、基準文節区間の滑舌と、基準文節区間に対応する話者文節区間の滑舌とを比較して、滑舌の評価を文節毎に行ってもよい（つまり、文節毎に得点が算出される）。

また、音読評価部３２は、基準フレーズ区間の時間長（時間的長さ）と、話者フレーズ区間の時間長とを比較して文を音読するスピード（音読スピード）の評価をフレーズ（つまり、フレーズ区間）毎に行う。音読評価部３２は、例えば、時間長の比較結果として、フレーズ毎に、基準フレーズ区間の時間長と話者フレーズ区間の時間長との時間差を算出し、この時間差の絶対値に基づいて得点を算出することでスピードの評価を行う。例えば、時間差の絶対値が０に近いほど、評価が高く（つまり、得点が高く）なるように算出される。つまり、話者のスピードが、基準のスピードよりも速いまたは遅いほど時間差の絶対値が大きくなるので評価は低くなる。一方、話者のスピードが基準のスピードに近づくほど時間差の絶対値が小さくなるので評価は高くなる。このようにしてフレーズ毎にスピードの評価がなされる（つまり、得点が算出される）。なお、音読評価部３２は、フレーズ毎のスピードと同様の評価方法で、基準文節区間の時間長と、基準文節区間に対応する話者文節区間の時間長とを比較して、スピードの評価を文節毎に行ってもよい（つまり、文節毎に得点が算出される）。また、音読評価部３２は、フレーズ毎のスピードと同様の評価方法で、基準単語区間の時間長と、基準単語区間に対応する話者単語区間の時間長とを比較して、スピードの評価を単語毎に行ってもよい（つまり、単語毎に得点が算出される）。

なお、上述した声量、抑揚、及びスピードの評価それぞれにおいて算出されるフレーズ毎の得点は、それぞれのフレーズを構成する複数の単語それぞれの得点に基づいて算出されてもよい。例えば、フレーズの得点は、このフレーズを構成する複数の単語それぞれの得点の平均点として算出される。或いは、例えば、フレーズの得点は、このフレーズを構成する複数の単語それぞれの得点及び重要度（上述したように単語それぞれに付与された重要度）に基づいて算出される。例えば、フレーズを構成する複数の単語の得点が、それぞれ、５，５，６，７であり、フレーズを構成する複数の単語の重要度が、それぞれ、小，小，大，小であるとする。この場合、重みの比率が「大：小＝２：１」の場合、フレーズを構成する複数の単語の重みは、それぞれ、１，１，２，１に決定される。そして、この場合のフレーズの得点は、５×1/5[1/(1+1+2+1)]＋５×1/5[1/(1+1+2+1)]＋６×2/5［２／(1+1+2+1)]＋７×1/5[1/(1+1+2+1)]＝５．８として算出される。同様に、声量、抑揚、及びスピードの評価それぞれにおいて算出される文節毎の得点は、それぞれの文節を構成する複数の単語それぞれの得点に基づいて算出されてもよい。

また、音読評価部３２は、基準インターバル区間の時間長と、話者インターバル区間の時間長とを比較して文を音読したときの間（間合い）の評価を行う。音読評価部３２は、例えば、時間長の比較結果として、基準インターバル区間の時間長と話者インターバル区間の時間長との時間差を算出し、この時間差の絶対値に基づいて得点を算出することで間の評価を行う。また、音読評価部３２は、インターバル区間毎の間の評価に基づいて全てのインターバル区間における間の評価を行う。全てのインターバル区間における間の評価では、例えば、インターバル区間毎に算出された間の得点の平均値が全てのインターバル区間における間の総得点として算出される。

得点調整部３３は、音読評価部３２により音声波形データに基づいてフレーズ毎に算出された得点を、調整対象として設定された評価項目について取得する。例えば、声量、抑揚、スピード、及び滑舌毎に、フレーズ毎の得点が取得される。そして、得点調整部３３は、フレーズ毎の重みを決定（つまり、フレーズ毎に重み付けがなされる）し、決定したそれぞれの重みに応じた配点比率をフレーズ毎に決定する。配点比率により配点に傾斜がかけられる。なお、フレーズの重みは、例えば、単語重要度データベースが用いられ、フレーズを構成する複数の単語それぞれの重要度に基づいてフレーズ毎に決定される。これにより、単語単位でフレーズの重要度を重みに反映させることができる。また、フレーズの重みは、フレーズを構成する複数の単語それぞれの重要度と、フレーズ（例えば基準フレーズ区間）の時間長とに基づいてフレーズ毎に決定されるようにすれば、フレーズの重みの適切さを高めることができる。そして、得点調整部３３は、上記取得した得点を、上記決定した配点比率によりフレーズ毎に調整し、調整したフレーズ毎の得点に基づいて、複数のフレーズを含む文全体の音読に対する総得点を算出する。例えば、声量、抑揚、スピード、及び滑舌毎に調整されたフレーズ毎の得点に基づいて文全体の音読に対する総得点が算出される。なお、調整後の得点と調整前の得点とは必ずしも異なるとは限らず、同一の場合もある。

図２は、ある評価項目についてのフレーズ毎の得点が配点比率により調整されて文全体の音読に対する総得点が算出される例を示す概念図である。図２の例では、音読された文はフレーズＦ１〜Ｆ４から構成されており、例えば得点調整部３３が備える重み付けエンジン（ソフトウェアモジュール）より、フレーズＦ１〜Ｆ４の重要度が、それぞれ、「小」，「大」，「小」，「大」に決定されている。重みの比率が「大：小＝２：１」に設定されている場合、フレーズＦ１〜Ｆ４の重みは、図２に示すように、それぞれ、「１」，「２」，「１」，「２」に決定される。これにより、フレーズＦ１〜Ｆ４の重みに応じた配点比率は、それぞれ、「1/6[1/(1+2+1+2)]」，「1/3[2/(1+2+1+2)]」，「1/6[1/(1+2+1+2)]」，「1/3[2/(1+2+1+2)]」に決定される。そして、フレーズＦ１〜Ｆ４の得点（１０点，９点，８点，７点）それぞれに、フレーズＦ１〜Ｆ４の配点比率それぞれが乗算されることで得点が調整され、調整されたフレーズ毎の得点の合計が総得点（８．３３点）として算出されている。ここで、図２の例では、フレーズＦ１〜Ｆ４の得点（１０点，９点，８点，７点）は、配点（＝満点）を１０点としたときの得点になっている。なお、別の例として、仮に、フレーズＦ１〜Ｆ４の重要度が、それぞれ、「中」，「大」，「小」，「大」であり、重みの比率が「大：中：小＝３：２：１」に設定されている場合、フレーズＦ１〜Ｆ４の重みは、それぞれ、「２」，「３」，「１」，「３」に決定されることになる。この場合、フレーズＦ１〜Ｆ４の重みに応じた配点比率は、それぞれ、「2/9[2/(2+3+1+3)]」，「1/3[3/(2+3+1+3)]」，「1/9[1/(2+3+1+3)]」，「1/3[3/(2+3+1+3)]」に決定される。

図３は、図２に示す重み付けエンジン内で、フレーズを構成する複数の単語それぞれの重要度に基づいてフレーズ毎に重要度が決定される例を示す概念図である。図３の例では、フレーズＦ１を構成する複数の単語の重要度は、単語重要度データベースにより、それぞれ、「小」，「小」になっている。これにより、フレーズＦ１を構成する単語の重みは、それぞれ、「１」，「１」に決定されている。フレーズＦ２〜Ｆ４を構成する複数の単語の重みについても、同様に決定される。そして、フレーズＦ１を構成する複数の単語の重みの平均値は「１」であり、フレーズＦ２を構成する複数の単語の重みの平均値は「１．２（便宜上、小数点以下２桁目以降を切り捨て）」であり、フレーズＦ３を構成する複数の単語の重みの平均値は「１」であり、フレーズＦ４を構成する複数の単語の重みの平均値は「１．２」である。これにより、フレーズＦ１〜Ｆ４の重要度は、それぞれ、「小」，「大」，「小」，「大」に決定されている。なお、単語の重みの数値のとり方は一例であり、単語の重要度に応じて単語間で差がつけばどのような数値をとってもよい。

また、得点調整部３３は、音読評価部３２により音声波形データに基づいて文節毎に算出された得点を所定の評価項目について取得してもよい。この場合、得点調整部３３は、フレーズの場合と同様に、文節毎の重みを決定し（つまり、文節毎に重み付けがなされる）、決定したそれぞれの重みに応じた配点比率を文節毎に決定する。そして、得点調整部３３は、フレーズの場合と同様に、上記取得した得点を、上記決定した配点比率により文節毎に調整し、調整した文節毎の得点に基づいて、複数の文節を含む文全体の音読に対する総得点を算出する。また、得点調整部３３は、音読評価部３２により音声波形データに基づいて単語毎に算出された得点を所定の評価項目について取得してもよい。この場合、得点調整部３３は、単語毎の重要度を単語重要度データベースから特定し、特定された単語毎の重要度が反映された重みに応じた配点比率を単語毎に決定する。そして、得点調整部３３は、取得した得点を、決定した配点比率により単語毎に調整し、調整した単語毎の得点に基づいて、複数の単語を含む文全体の音読に対する総得点を算出する。

音読評価部３２は、各評価項目（例えば、声量、抑揚、滑舌、スピード、間）について算出された総得点に基づいて、文全体の音読に対する総合評価を行う。この総合評価では、例えば、各評価項目（例えば、声量、抑揚、滑舌、スピード、間）について算出された総得点の合計が、文全体の音読に対する総合得点として算出される。

表示制御部３４は、文を複数のフレーズに区分して画面に表示させ、且つ複数のフレーズの中で相対的に高い重み付けがなされたフレーズを他のフレーズとは異なる表示態様で表示させる。これにより、複数のフレーズの中で相対的に高い重み付けがなされたフレーズをユーザに一見して確認させることができる。このとき、表示制御部３４は、フレーズ毎に取得（算出）された得点（つまり、得点調整部３３により調整される前の得点）と、フレーズ毎に調整された得点との少なくとも何れか一方をそれぞれのフレーズに対応付けて画面に表示させるとよい。これにより、相対的に高い重み付けがなされたフレーズ毎の得点についてもユーザに一見して確認させることができる。

図４（Ａ），（Ｂ）は、話者の音読に対する評価を示す情報を表示する画面例を示す図である。図４（Ａ）に示す画面には、グラフ表示部５１、フレーズ表示部５２、フレーズ得点表示部５３、及び総得点表示部５４が設けられている。グラフ表示部５１には、基準音声波形データに基づいて所定時間毎に算出された抑揚の時系列的な変化を表すグラフ５１ａと、話者音声波形データに基づいて所定時間毎に算出された抑揚の時系列的な変化を表すグラフ５１ｂと、基準音声波形データに基づいて所定時間毎に算出された声量の時系列的な変化を表すグラフ５１ｃと、話者音声波形データに基づいて所定時間毎に算出された声量の時系列的な変化を表すグラフ５１ｄとがフレーズ毎に区分されて表示されている。

フレーズ表示部５２には、文が複数のフレーズに区分されて表示されている。フレーズ得点表示部５３には、フレーズ表示部５２に表示された各フレーズに対応する評価項目（例えば、滑舌）の得点を表示する表示欄５３ａ〜５３ｄが各フレーズに対応付けられて設けられている。表示制御部３４は、これらの表示欄５３ａ〜５３ｄのうち、相対的に高い重み付けがなされたフレーズに対応する表示欄５３ｂ及び５３ｄの欄内の色（つまり、得点の背景色）を、相対的に低い重み付けがなされたフレーズに対応する表示欄５３ａ及び５３ｃの欄内の色と異ならせることで表示欄５３ｂ及び５３ｄの欄内を強調表示させている。これにより、ユーザは、文に含まれる複数のフレーズの中で相対的に高い重み付けがなされたフレーズを判別することができる。なお、相対的に高い重み付けがなされたフレーズに対応する表示欄５３ｂ及び５３ｄの欄内の模様が、相対的に低い重み付けがなされたフレーズに対応する表示欄５３ａ及び５３ｃの欄内の模様と異なるように表示させてもよい。表示欄５３ａ〜５３ｄに表示された各得点（１０点，９点，８点，７点）に対して、それぞれに対応する配点比率が乗算されることで得点が調整され、調整されたフレーズ毎の得点の合計が総得点（８．３３点／１０点）として算出されることになる。

なお、フレーズに対応する表示欄５３ａ〜５３ｄには、得点調整部３３により調整される前の得点が表示されているが、得点調整部３３により調整された後の得点が表示されてもよい。或いは、フレーズに対応する表示欄５３ａ〜５３ｄには、得点調整部３３により調整される前の得点と、得点調整部３３により調整された後の得点とが併記されて表示されてもよい。また、表示制御部３４は、例えば、総得点表示部５４に表示された評価項目のうちから選択された評価項目（この例では、抑揚）に対応するフレーズ得点表示部５３を表示（つまり、切り替え表示）させている。別の例として、画面には、評価対象となった全ての評価項目に対応するフレーズ得点表示部５３が設けられてもよい。

総得点表示部５４には、評価対象となった全ての評価項目について算出された総得点と、総合評価について算出された総合得点とが表示されている。表示された総得点のうち、調整対象となった評価項目（例えば、声量、抑揚、滑舌、スピード）の総得点は、上述したように、得点調整部３３により調整されたフレーズ毎の得点に基づいて算出された総得点である。なお、総得点表示部５４内で総得点及び総合得点の右側（／の右側）には、それぞれの配点が表示されている。この例では、５種類の評価項目それぞれの配点は２０点であり、総合評価の配点は１００点である。このため、図４（Ａ）の例では、滑舌について算出された総得点（８．３３点／１０点）は、２倍された総得点（１６．７点／２０点）で表示されている。

一方、図４（Ｂ）に示す画面の構成は、図４（Ａ）に示す画面の構成と基本的に同じであるが、フレーズ得点表示部５５における表示欄５５ａ〜５５ｄには、「得点／配点」の形式で表示されており、特に、相対的に高い重み付けがなされたフレーズに対応する表示欄５５ｂ及び５５ｄにおける得点と配点には、それぞれ重み「２」が乗算されて表示されている。これにより、どのフレーズの配点が高いか（つまり、重要なのか）をユーザに対して明示的に示すことができる。

なお、表示制御部３４は、文を複数の文節に区分して画面に表示させ、且つ複数の文節の中で相対的に高い重み付けがなされた文節を他の文節とは異なる表示態様で表示させてもよい。このとき、表示制御部３４は、文節毎に取得された得点と、文節毎に調整された得点との少なくとも何れか一方をそれぞれの文節に対応付けて画面に表示させるとよい。また、表示制御部３４は、文を複数の単語に区分して画面に表示させ、且つ複数の単語の中で相対的に高い重要度が付与された単語を他の単語とは異なる表示態様で表示させてもよい。このとき、表示制御部３４は、単語毎に取得された得点と、単語毎に調整された得点との少なくとも何れか一方をそれぞれの単語に対応付けて画面に表示させるとよい。

［２.音読評価装置Ｓの動作例］
次に、音読評価装置Ｓの動作の一例について、実施例１と実施例２に分けて説明する。実施例１では、所定の評価項目についての文全体の音読に対する総得点がフレーズ毎または文節毎の得点に基づいて算出される場合の例である。実施例２では、所定の評価項目についての文全体の音読に対する総得点が単語毎の得点に基づいて算出される場合の例である。

（実施例１）
先ず、図５等を参照して、実施例１における制御部３の音読評価処理について説明する。図５は、実施例１における制御部３の音読評価処理の一例を示すフローチャートである。なお、以下に説明する音読評価処理では、複数のフレーズを含む文を例にとって説明するが、処理内容は複数の文節を含む文に対しても同じように適用できる。また、以下に説明する音読評価処理の前提として、基準音声波形データに基づいて特定された基準フレーズ区間、基準インターバル区間及び基準単語区間のデータと、基準音声波形データに基づいて所定時間毎に算出された声量及び抑揚のデータと、基準音声波形データに基づいて基準フレーズ区間毎に算出された声道の特徴量（ＭＦＣＣ）のデータとが、例えば、基準音声波形データの音声ファイルに対応付けられて記憶部２に記憶されているものとする。

図５に示す処理は、例えば、話者が操作部４を介して、音読に対する得点算出の基準（お手本）となる所望の音声ファイルを指定して開始指示を行うことにより開始される。図５に示す処理が開始されると、制御部３は、マイク入力をオンにし、上記指定された音声ファイルに対応付けられた文のテキストデータ、基準フレーズ区間、基準インターバル区間、基準単語区間、声量、抑揚、及び声道の特徴量（ＭＦＣＣ）のデータを記憶部２から入力する（ステップＳ１）。入力されたデータは、ＲＡＭに記憶される。なお、基準フレーズ区間、及び基準インターバル区間には、それぞれ、シリアル番号が付与される。基準単語区間は、これを含む基準フレーズ区間に対応付けられている。そして、話者が文の音読を開始すると、この文の音読中の発せられた音声がマイクＭにより集音され、集音された音声の波形を示す話者音声波形データが、インターフェース部５を介して音読評価装置Ｓに入力される。

音読評価装置Ｓの制御部３は、入力された話者音声波形データを記憶部２に記憶（録音）しつつ、入力された話者音声波形データに基づいて、上述したように、話者フレーズ区間、及び話者インターバル区間を順次特定する（ステップＳ２）。特定された話者フレーズ区間及び話者インターバル区間のデータには、それぞれ、シリアル番号が付与されてＲＡＭに記憶される。こうして記憶された各話者フレーズ区間、及び各話者インターバル区間のデータは、後述する評価に用いられる。

次いで、制御部３は、入力された話者音声波形データに基づいて、上述したように、所定時間毎に声量及び抑揚を算出し、且つ、話者フレーズ区間毎に声道の特徴量（ＭＦＣＣ）を算出する（ステップＳ３）。算出された声量、抑揚、及び声道の特徴量（ＭＦＣＣ）のデータはＲＡＭに記憶される。こうして記憶された声量、抑揚、及び声道の特徴量（ＭＦＣＣ）のデータは、後述する評価に用いられる。次いで、制御部３は、基準フレーズ区間の抑揚と話者フレーズ区間の抑揚とをシリアル番号順に比較して抑揚の評価を行う（ステップＳ４）。抑揚の評価により、上述したように、フレーズ毎の抑揚の得点が算出され、例えば文のテキストデータが示すフレーズ毎に対応付けられて記憶部２に記憶される。

次いで、制御部３は、基準フレーズ区間の声量と話者フレーズ区間の声量とをシリアル番号順に比較して声量の評価を行う（ステップＳ５）。声量の評価により、上述したように、フレーズ毎の声量の得点が算出され、例えば文のテキストデータが示すフレーズ毎に対応付けられて記憶部２に記憶される。次いで、制御部３は、基準フレーズ区間の声道特性を示す特徴量（ＭＦＣＣ）と話者フレーズ区間の声道特性を示す特徴量（ＭＦＣＣ）とをシリアル番号順に比較して滑舌の評価を行う（ステップＳ６）。滑舌の評価により、上述したように、フレーズ毎の滑舌の得点が算出され、例えば文のテキストデータが示すフレーズ毎に対応付けられて記憶部２に記憶される。

次いで、制御部３は、基準フレーズ区間の時間長と話者フレーズ区間の時間長とをシリアル番号順に比較してスピードの評価を行う（ステップＳ７）。スピードの評価により、上述したように、フレーズ毎のスピードの得点が算出され、例えば文のテキストデータが示すフレーズ毎に対応付けられて記憶部２に記憶される。次いで、制御部３は、基準インターバル区間の時間長と話者インターバル区間の時間長とをシリアル番号順に比較して間の評価を行う（ステップＳ８）。間の評価により、上述したように、全てのインターバル区間における間の総得点が算出され、記憶部２に記憶される。

次いで、制御部３は、ステップＳ１で入力されたテキストデータが示す文をフレーズ毎に複数の単語に分解する（ステップＳ９）。次いで、制御部３は、単語重要度データベースに登録された、単語の重要度を規定する参照情報を参照して、ステップＳ９で分解されたそれぞれの単語の重要度を特定する（ステップＳ１０）。次いで、制御部３は、ステップＳ１０により特定された単語の重要度に基づいて、例えば図３に示すように、フレーズの重要度をフレーズ毎に決定する（ステップＳ１１）。なお、フレーズの重要度は、単語の重要度と、単語の基準単語区間の時間長（以下、「単語長」という）とに基づいて決定されてもよい。

図６（Ａ）は、単語の重要度及び単語長に基づいてフレーズの重要度が決定される例を示す概念図である。図６（Ａ）の例では、フレーズＦ１１を構成する複数の単語の重要度は、それぞれ、「小」，「小」，「小」になっている。これにより、フレーズＦ１１を構成する複数の単語の重みは、それぞれ、「１」，「１」，「１」に決定されている。また、フレーズＦ１１を構成する複数の単語の単語長は、それぞれ、「0.5秒」，「0.75秒」，「0.75秒」になっている。そして、これらの単語の重み及び単語長に基づいて、図６（Ａ）に示す計算式（１）により算出された値に応じた重要度が、フレーズＦ１１の重要度として決定されることになる。同様に、図６（Ａ）に示す計算式（２）により算出された値に応じた重要度が、フレーズＦ１２の重要度として決定されることになる。

次いで、制御部３は、ステップＳ１で入力された基準フレーズ区間のデータから、基準フレーズ区間の時間長（基準音声波形データが示す音声の波形に基づいて特定されたフレーズの時間長、以下、「フレーズ長」という））をフレーズ毎に特定する（ステップＳ１２）。次いで、制御部３は、ステップＳ１１で決定されたフレーズの重要度と、ステップＳ１２で特定されたフレーズ長とに基づいて、フレーズの重みをフレーズ毎に決定する（ステップＳ１３）。次いで、制御部３は、ステップＳ１３で決定された重みに応じた配点比率をフレーズ毎に決定する（ステップＳ１４）。

図６（Ｂ）は、フレーズの重要度及びフレーズ長に基づいてフレーズの重み及び配点比率が決定される例を示す概念図である。フレーズＦ１１〜Ｆ１３の重要度は、それぞれ、小，大，大になっている。一方、フレーズＦ１１〜Ｆ１３のフレーズ長は、それぞれ、「２秒」，「１秒」，「２秒」になっている。そして、重みの比率が「大：小＝２：１」及び「２秒：１秒＝２：１」に設定されている場合、図６（Ｂ）に示すように、フレーズＦ１１〜Ｆ１３の全体重みは、それぞれ、「２」，「２」，「４」に決定される。これにより、フレーズＦ１１〜Ｆ１３の重みに応じた配点比率は、それぞれ、「1/4」，「1/4」，「1/2」に決定される。

なお、制御部３は、ステップＳ１１で決定されたフレーズの重要度のみに基づいてフレーズの重みをフレーズ毎に決定するように構成してもよい。

次いで、制御部３は、ステップＳ４〜Ｓ７で算出された、各評価項目についてのフレーズ毎の得点（つまり、抑揚、声量、滑舌、及びスピードの得点）をそれぞれ取得する（ステップＳ１５）。次いで、制御部３は、ステップＳ１５で取得した得点に対して、ステップＳ１４で決定した配点比率を乗算することでフレーズ毎に得点を調整する（ステップＳ１６）。このような得点の調整は、評価項目毎に実行される。

次いで、制御部３は、ステップＳ１６で調整されたフレーズ毎の得点に基づいて、文全体の音読に対する総得点を算出する（ステップＳ１７）。例えば、フレーズ毎に調整された得点の総和が総得点として算出される。このような総得点の算出は、評価項目毎に実行される。次いで、制御部３は、ステップＳ８で算出された間の総得点と、ステップＳ１７で算出された各評価項目の総得点とに基づいて文全体の音読に対する総合得点を算出する（ステップＳ１８）。次いで、制御部３は、ステップＳ１〜Ｓ１８で得られた得点等の情報に基づいて、図４（Ａ）又は（Ｂ）に示すように、話者の音読に対する評価を示す情報を表示する画面をディスプレイＤに表示させる（ステップＳ１９）。

以上説明したように、上記実施例１によれば、音読評価装置Ｓは、フレーズ（または文節）毎の重みを決定し、決定したそれぞれの重みに応じた配点比率をフレーズ（または文節）毎に決定し、音読に対する所定の評価項目についてフレーズ（または文節）毎に評価された得点を、上記決定した配点比率によりフレーズ（または文節）毎に調整し、調整したフレーズ（または文節）毎の得点に基づいて、複数のフレーズ（または文節）を含む文全体の音読に対する総得点を算出するように構成したので、文脈上重要な部分かどうかに応じて評価を行うことができる。これにより、話者（練習者）は文脈上の重要な位置（フレーズ箇所等）が分かるため、どこに注力すべきかが分かり、得点算出の納得感が上がる。そのため、例えばアナウンス全体を万遍なく練習するのではなく、文脈上の重要な位置を重点的に練習することができる。

（実施例２）
次に、図７等を参照して、実施例２における制御部３の音読評価処理について説明する。図７は、実施例２における制御部３の音読評価処理の一例を示すフローチャートである。なお、以下に説明する音読評価処理の前提として、基準音声波形データに基づいて特定された基準単語区間及び基準インターバル区間のデータと、基準音声波形データに基づいて所定時間毎に算出された声量及び抑揚のデータと、基準音声波形データに基づいて単語（話者単語区間）毎に算出された声道の特徴量（ＭＦＣＣ）のデータとが、例えば、基準音声波形データの音声ファイルに対応付けられて記憶部２に記憶されているものとする。

図７に示す処理は、図５に示す処理と同様に開始される。図７に示す処理が開始されると、制御部３は、マイク入力をオンにし、指定された音声ファイルに対応付けられた文のテキストデータ、基準単語区間、基準インターバル区間、声量、抑揚、及び声道の特徴量（ＭＦＣＣ）のデータを記憶部２から入力する（ステップＳ２１）。なお、基準単語区間、及び基準インターバル区間には、それぞれ、シリアル番号が付与される。そして、話者が文の音読を開始すると、この文の音読中に発せられた音声がマイクＭにより集音され、集音された音声の波形を示す話者音声波形データが、インターフェース部５を介して音読評価装置Ｓに入力される。

音読評価装置Ｓの制御部３は、入力された話者音声波形データを記憶部２に記憶しつつ、入力された話者音声波形データに基づいて、上述したように、話者単語区間、及び話者インターバル区間を順次特定する（ステップＳ２２）。特定された話者単語区間及び話者インターバル区間のデータには、それぞれ、シリアル番号が付与されてＲＡＭに記憶される。

次いで、制御部３は、入力された話者音声波形データに基づいて、上述したように、所定時間毎に声量及び抑揚を算出し、且つ、話者単語区間毎に声道の特徴量（ＭＦＣＣ）を算出する（ステップＳ２３）。算出された声量、抑揚、及び声道の特徴量（ＭＦＣＣ）のデータはＲＡＭに記憶される。次いで、制御部３は、基準単語区間の抑揚と話者単語区間の抑揚とをシリアル番号順に比較して抑揚の評価を行う（ステップＳ２４）。抑揚の評価により、上述したように、単語毎の抑揚の得点が算出され、記憶部２に記憶される。

次いで、制御部３は、基準単語区間の声量と話者単語区間の声量とをシリアル番号順に比較して声量の評価を行う（ステップＳ２５）。声量の評価により、上述したように、単語毎の声量の得点が算出され、記憶部２に記憶される。次いで、制御部３は、基準単語区間の声道特性を示す特徴量（ＭＦＣＣ）と話者単語区間の声道特性を示す特徴量（ＭＦＣＣ）とをシリアル番号順に比較して滑舌の評価を行う（ステップＳ２６）。滑舌の評価により、上述したように、単語毎の滑舌の得点が算出され、記憶部２に記憶される。

次いで、制御部３は、基準単語区間の時間長と話者単語区間の時間長とをシリアル番号順に比較してスピードの評価を行う（ステップＳ２７）。スピードの評価により、上述したように、単語毎のスピードの得点が算出され、記憶部２に記憶される。次いで、制御部３は、基準インターバル区間の時間長と話者インターバル区間の時間長とをシリアル番号順に比較して間の評価を行う（ステップＳ２８）。間の評価により、上述したように、全てのインターバル区間における間の総得点が算出され、記憶部２に記憶される。

次いで、制御部３は、ステップＳ２１で入力されたテキストデータが示す文を複数の単語に分解する（ステップＳ２９）。次いで、制御部３は、単語重要度データベースに登録された、単語の重要度を規定する参照情報を参照して、ステップＳ２９で分解されたそれぞれの単語の重要度を特定する（ステップＳ３０）。次いで、制御部３は、ステップＳ２１で入力された基準単語区間のデータから、単語長を単語毎に特定する（ステップＳ３１）。

次いで、制御部３は、ステップＳ３０で決定された単語の重要度と、ステップＳ３１で特定された単語長とに基づいて、単語の重みを単語毎に決定する（ステップＳ３２）。次いで、制御部３は、ステップＳ３２で決定された重みに応じた配点比率を単語毎に決定する（ステップＳ３３）。なお、制御部３は、ステップＳ３０で決定された単語の重要度のみに基づいて単語の重みを単語毎に決定するように構成してもよい。

次いで、制御部３は、ステップＳ２４〜Ｓ２７で算出された、各評価項目についての単語毎の得点（つまり、抑揚、声量、滑舌、及びスピードの得点）をそれぞれ取得する（ステップＳ３４）。次いで、制御部３は、ステップＳ３４で取得した得点に対して、ステップＳ３３で決定した配点比率を乗算することで単語毎に得点を調整する（ステップＳ３５）。このような得点の調整は、評価項目毎に実行される。

次いで、制御部３は、ステップＳ３５で調整された単語毎の得点に基づいて、文全体の音読に対する総得点を算出する（ステップＳ３６）。例えば、単語毎に調整された得点の総和が総得点として算出される。このような総得点の算出は、評価項目毎に実行される。

図８は、単語毎の得点が配点比率により調整されて文全体の音読に対する総得点が算出される例を示す概念図である。図８の例では、重みの比率が「大：小＝２：１」及び「１．０秒：０．５秒＝２：１」に設定されており、これにより、単語Ｗ１〜Ｗ７の重みは、それぞれ、「２」，「２」，「１」，「１」，「１」，「２」，「１」に決定されている。そして、単語Ｗ１〜Ｗ７の得点（１０点満点中、６点，５点，４点，８点，７点，１０点，６点）それぞれに、単語Ｗ１〜Ｗ７の配点比率それぞれが乗算されることで得点が調整され、調整された単語毎の得点の合計が総得点（７．２３点／１０点）として算出されている。

次いで、制御部３は、ステップＳ２８で算出された間の総得点と、ステップＳ３６で算出された各評価項目の総得点とに基づいて文全体の音読に対する総合得点を算出する（ステップＳ３７）。次いで、制御部３は、ステップＳ２１〜Ｓ３７で得られた得点等の情報に基づいて、話者の音読に対する評価を示す情報を表示する画面をディスプレイＤに表示させる（ステップＳ３８）。

以上説明したように、上記実施例２によれば、音読評価装置Ｓは、単語毎の重要度を単語重要度データベースから特定し、特定された単語毎の重要度が反映された重みに応じた配点比率を単語毎に決定し、音読に対する所定の評価項目について単語毎に評価された得点を、決定した配点比率により単語毎に調整し、調整した単語毎の得点に基づいて、複数の単語を含む文全体の音読に対する総得点を算出するように構成したので、単語重要度データベースから迅速に単語毎の重要度を特定して、文脈上重要な部分かどうかに応じて評価を行うことができる。これにより、話者は文脈上の重要な位置（単語部分）が分かるため、どこに注力すべきかが分かり、得点算出の納得感が上がる。そのため、例えばアナウンス全体を万遍なく練習するのではなく、文脈上の重要な位置を重点的に練習することができる。

１通信部
２記憶部
３制御部
４操作部
５インターフェース部
６バス
Ｓ音読評価装置

Claims

話者が１以上の文節からなるフレーズを複数含む文を音読したときに発した音声の波形を示す音声波形データに基づいて前記フレーズ毎に算出された得点を取得する取得手段と、
前記フレーズ毎の重みを決定する第１決定手段と、
前記第１決定手段により決定された前記フレーズ毎の重みに応じた配点比率を前記フレーズ毎に決定する第２決定手段と、
前記取得手段により取得された前記得点を、前記第２決定手段により決定された前記配点比率により前記フレーズ毎に調整し、調整したフレーズ毎の得点に基づいて、前記複数のフレーズを含む文全体の音読に対する総得点を算出する算出手段と、
を備えることを特徴とする音読評価装置。
前記文を前記複数のフレーズに区分して画面に表示させ、且つ前記複数のフレーズの中で相対的に高い重み付けがなされた前記フレーズを他のフレーズとは異なる表示態様で表示させる表示制御手段を更に備えることを特徴とする請求項１に記載の音読評価装置。
前記表示制御手段は、前記取得手段により前記フレーズ毎に取得された前記得点と、前記フレーズ毎に調整された得点との少なくとも何れか一方をそれぞれの前記フレーズに対応付けて前記画面に表示させることを特徴とする請求項１または２に記載の音読評価装置。
前記文のテキストデータを入力する第１入力手段と、
前記第１入力手段により入力されたテキストデータが示す文を複数の単語に分解する分解手段と、
単語の重要度を規定する参照情報を参照して、前記分解されたそれぞれの前記単語の重要度を特定する第１特定手段と、
を更に備え、
前記第１決定手段は、前記第１特定手段により特定された前記単語の重要度に基づいて、前記単語により構成されるフレーズの重みを前記フレーズ毎に決定することを特徴とする請求項１乃至３の何れか一項に記載の音読評価装置。
前記文を音読した得点算出の基準となる音声の波形を示す基準音声波形データを入力する第２入力手段と、
前記第２入力手段により入力された基準音声波形データが示す音声の波形に基づいて特定される前記フレーズの時間長を前記フレーズ毎に特定する第２特定手段と、を更に備え
前記第１決定手段は、前記第１特定手段により特定された前記単語の重要度と、前記第２特定手段により特定された前記フレーズの時間長とに基づいて、前記単語により構成されるフレーズの重みを前記フレーズ毎に決定することを特徴とする請求項４に記載の音読評価装置。
話者が複数の文節を含む文を音読したときに発した音声の波形を示す音声波形データに基づいて前記文節毎に算出された得点を取得する取得手段と、
前記文節毎の重みを決定する第１決定手段と、
前記第１決定手段により決定された前記文節毎の重みに応じた配点比率を前記文節毎に決定する第２決定手段と、
前記取得手段により取得された前記得点を、前記第２決定手段により決定された前記配点比率により前記文節毎に調整し、調整した文節毎の得点に基づいて、前記複数の文節を含む文全体の音読に対する総得点を算出する算出手段と、
を備えることを特徴とする音読評価装置。
前記文を前記複数の文節に区分して画面に表示させ、且つ前記複数の文節の中で相対的に高い重み付けがなされた前記文節を他の文節とは異なる表示態様で表示させる表示制御手段を更に備えることを特徴とする請求項６に記載の音読評価装置。
前記表示制御手段は、前記取得手段により前記文節毎に取得された前記得点と、前記文節毎に調整された得点との少なくとも何れか一方をそれぞれの前記文節に対応付けて前記画面に表示させることを特徴とする請求項６または７に記載の音読評価装置。
前記文のテキストデータを入力する第１入力手段と、
前記第１入力手段により入力されたテキストデータが示す文を複数の単語に分解する分解手段と、
単語の重要度を規定する参照情報を参照して、前記分解されたそれぞれの前記単語の重要度を特定する第１特定手段と、
を更に備え、
前記第１決定手段は、前記第１特定手段により特定された前記単語の重要度に基づいて、前記単語により構成される文節の重みを前記文節毎に決定することを特徴とする請求項６乃至８の何れか一項に記載の音読評価装置。
前記文を音読した得点算出の基準となる音声の波形を示す基準音声波形データを入力する第２入力手段と、
前記第２入力手段により入力された基準音声波形データが示す音声の波形に基づいて特定される前記文節の時間長を前記文節毎に特定する第２特定手段と、を更に備え、
前記第１決定手段は、前記第１特定手段により特定された前記単語の重要度と、前記第２特定手段により特定された前記文節の時間長とに基づいて、前記単語により構成される文節の重みを前記文節毎に決定することを特徴とする請求項９に記載の音読評価装置。
話者が複数の単語を含む文を音読したときに発した音声の波形を示す音声波形データに基づいて前記単語毎に算出された得点を取得する取得手段と、
前記文のテキストデータを入力する入力手段と、
前記入力手段により入力されたテキストデータが示す文を複数の単語に分解する分解手段と、
単語の重要度を規定する参照情報を参照して、前記分解されたそれぞれの前記単語の重要度を特定する特定手段と、
前記特定手段により特定された前記単語毎の重要度に応じた配点比率を前記単語毎に決定する決定手段と、
前記取得手段により取得された前記得点を、前記決定手段により決定された前記配点比率により前記単語毎に調整し、調整した単語毎の得点に基づいて、前記複数の単語を含む文全体の音読に対する総得点を算出する算出手段と、
を備えることを特徴とする音読評価装置。
前記文を前記複数の単語に区分して画面に表示させ、且つ前記複数の単語の中で相対的に高い重要度が付与された前記単語を他の単語とは異なる表示態様で表示させる表示制御手段を更に備えることを特徴とする請求項１１に記載の音読評価装置。
前記表示制御手段は、前記取得手段により前記単語毎に取得された前記得点と、前記単語毎に調整された得点との少なくとも何れか一方をそれぞれの前記単語に対応付けて前記画面に表示させることを特徴とする請求項１２に記載の音読評価装置。
１つ以上のコンピュータにより実行される音読評価方法であって、
話者が１以上の文節からなるフレーズを複数含む文を音読したときに発した音声の波形を示す音声波形データに基づいて前記フレーズ毎に算出された得点を取得する取得ステップと、
前記フレーズ毎の重みを決定する第１決定ステップと、
前記第１決定ステップにより決定された前記フレーズ毎の重みに応じた配点比率を前記フレーズ毎に決定する第２決定ステップと、
前記取得ステップにより取得された前記得点を、前記第２決定ステップにより決定された前記配点比率により前記フレーズ毎に調整し、調整したフレーズ毎の得点に基づいて、前記複数のフレーズを含む文全体の音読に対する総得点を算出する算出ステップと、
を含むことを特徴とする音読評価方法。
話者が複数のフレーズを含む文を音読したときに発した音声の波形を示す音声波形データに基づいて前記フレーズ毎に算出された得点を取得する取得ステップと、
前記フレーズ毎の重みを決定する第１決定ステップと、
前記第１決定ステップにより決定された前記フレーズ毎の重みに応じた配点比率を前記フレーズ毎に決定する第２決定ステップと、
前記取得ステップにより取得された前記得点を、前記第２決定ステップにより決定された前記配点比率により前記フレーズ毎に調整し、調整したフレーズ毎の得点に基づいて、前記複数のフレーズを含む文全体の音読に対する総得点を算出する算出ステップと、
をコンピュータに実行させることを特徴とするプログラム。
１つ以上のコンピュータにより実行される音読評価方法であって、
話者が複数の文節を含む文を音読したときに発した音声の波形を示す音声波形データに基づいて前記文節毎に算出された得点を取得する取得ステップと、
前記文節毎の重みを決定する第１決定ステップと、
前記第１決定ステップにより決定された前記文節毎の重みに応じた配点比率を前記文節毎に決定する第２決定ステップと、
前記取得ステップにより取得された前記得点を、前記第２決定ステップにより決定された前記配点比率により前記文節毎に調整し、調整した文節毎の得点に基づいて、前記複数の文節を含む文全体の音読に対する総得点を算出する算出ステップと、
を含むことを特徴とする音読評価方法。
話者が複数の文節を含む文を音読したときに発した音声の波形を示す音声波形データに基づいて前記文節毎に算出された得点を取得する取得ステップと、
前記文節毎の重みを決定する第１決定ステップと、
前記第１決定ステップにより決定された前記文節毎の重みに応じた配点比率を前記文節毎に決定する第２決定ステップと、
前記取得ステップにより取得された前記得点を、前記第２決定ステップにより決定された前記配点比率により前記文節毎に調整し、調整した文節毎の得点に基づいて、前記複数の文節を含む文全体の音読に対する総得点を算出する算出ステップと、
をコンピュータに実行させることを特徴とするプログラム。
１つ以上のコンピュータにより実行される音読評価方法であって、
話者が複数の単語を含む文を音読したときに発した音声の波形を示す音声波形データに基づいて前記単語毎に算出された得点を取得する取得ステップと、
前記文のテキストデータを入力する入力ステップと、
前記入力ステップにより入力されたテキストデータが示す文を複数の単語に分解する分解ステップと、
単語の重要度を規定する参照情報を参照して、前記分解されたそれぞれの前記単語の重要度を特定する特定ステップと、
前記特定ステップにより特定された前記単語毎の重要度に応じた配点比率を前記単語毎に決定する決定ステップと、
前記取得ステップにより取得された前記得点を、前記決定ステップにより決定された前記配点比率により前記単語毎に調整し、調整した単語毎の得点に基づいて、前記複数の単語を含む文全体の音読に対する総得点を算出する算出ステップと、
を含むことを特徴とする音読評価方法。
話者が複数の単語を含む文を音読したときに発した音声の波形を示す音声波形データに基づいて前記単語毎に算出された得点を取得する取得ステップと、
前記文のテキストデータを入力する入力ステップと、
前記入力ステップにより入力されたテキストデータが示す文を複数の単語に分解する分解ステップと、
単語の重要度を規定する参照情報を参照して、前記分解されたそれぞれの前記単語の重要度を特定する特定ステップと、
前記特定ステップにより特定された前記単語毎の重要度に応じた配点比率を前記単語毎に決定する決定ステップと、
前記取得ステップにより取得された前記得点を、前記決定ステップにより決定された前記配点比率により前記単語毎に調整し、調整した単語毎の得点に基づいて、前記複数の単語を含む文全体の音読に対する総得点を算出する算出ステップと、
をコンピュータに実行させることを特徴とするプログラム。