JP2017122880A

JP2017122880A - 音読評価装置、表示制御方法、及びプログラム

Info

Publication number: JP2017122880A
Application number: JP2016002550A
Authority: JP
Inventors: 林　宏一; Koichi Hayashi; 宏一林
Original assignee: Brother Industries Ltd
Current assignee: Brother Industries Ltd
Priority date: 2016-01-08
Filing date: 2016-01-08
Publication date: 2017-07-13
Anticipated expiration: 2036-01-08
Also published as: JP6531654B2

Abstract

【課題】話者が特に確認したい何れかの区間において算出された評価点の詳細を、より見易い表示態様で表示させることが可能な音読評価装置、表示制御方法、及びプログラムを提供する。【解決手段】音読評価装置は、話者による音読に対する総合評価点が表示される状態で、話者テキスト表示領域５２ａ１〜５２ａ３、及び話者スペース領域５２ｓ１，５２ｓ２のうち、何れか一の領域がユーザ操作により指定された場合、指定された何れか一の領域に対応する区間において算出された評価点を表示するウインドウＷ１１をポップアップ表示させる。【選択図】図２

Description

本発明は、話者が文を音読したときに発した音声に基づいて、文の音読に対する評価を行うシステム等の技術分野に関する。

近年、語学学習、アナウンス、または歌唱等の練習支援を目的として、複数の文要素（例えば、フレーズや単語）毎に抑揚や音量等の評価点を算出し、その結果を基に音読に対する総合評価点を算出して表示するシステムが知られている。例えば、特許文献１に開示された技術では、歌唱者の歌唱音声信号から抽出された抑揚や音量等に基づいて、曲の区間別に歌唱を採点し、これら各区間の得点に基づいて求めた総合得点を表示（特許文献１の図３参照）するようになっている。

特開平１０−０７８７４９号公報

しかしながら、従来の技術では、話者による音読に対する総合評価点が表示されている状態で、音読された文を構成する文要素に対応する文要素区間うち、例えば話者が特に確認したい何れかの文要素区間において算出された抑揚や音量等の評価点の詳細を、その文要素区間における文要素を表すテキスト等に対応付けて、より見易い表示態様で表示させることは困難であった。

本発明は、以上の点に鑑みてなされたものであり、例えば話者が特に確認したい何れかの区間において算出された評価点の詳細を、より見易い表示態様で表示させることが可能な音読評価装置、表示制御方法、及びプログラムを提供する。

上記課題を解決するために、請求項１に記載の発明は、話者が文を音読したときに発した音声の波形を示す音声波形データに基づいて、前記音読された文を構成する各文要素の開始タイミングから終了タイミングまでの文要素区間と、複数の前記文要素のうち何れかの前記文要素の終了タイミングから次の前記文要素の開始タイミングまでのインターバル区間との少なくとも何れか一方の区間毎に前記音読に対する評価点を算出する評価点算出手段と、前記評価点算出手段により算出された前記区間毎の評価点に基づいて、前記音読に対する総合評価点を算出する総合評価点算出手段と、前記音読された文を構成する各文要素を表すテキストの少なくとも一部を、それぞれの前記文要素区間の時間長に応じた長さの第１の表示領域に時間軸に沿って前記文要素区間毎に表示させる第１表示制御手段と、前記文要素区間の時間長より短い所定時間間隔毎に前記音声波形データに基づいて特定された音高と音圧との少なくとも何れか一方の音要素の時系列的な変化を表すグラフを第２の表示領域に前記時間軸に沿って表示させる第２表示制御手段と、前記総合評価点算出手段により算出された総合評価点を第３の表示領域に表示させる第３表示制御手段と、前記第１の表示領域、前記第２の表示領域、及び複数の前記第１の表示領域間に前記時間軸に沿って位置するスペース領域のうち、何れか一の領域がユーザ操作により指定された場合、指定された前記何れか一の領域に対応する前記区間において算出された前記評価点を表示する第１のウインドウをポップアップ表示させる第４表示制御手段と、を備えることを特徴とする。

請求項２に記載の発明は、請求項１に記載の音読評価装置において、前記第４表示制御手段は、前記第１のウインドウの表示を継続させ、前記第１のウインドウの表示が継続している間に前記何れか一の領域とは異なる他の領域がユーザ操作により新たに指定された場合、新たに指定された他の領域に対応する前記区間において算出された前記評価点を表示する第２のウインドウをポップアップ表示させ、前記第１のウインドウの表示と前記第２のウインドウの表示を継続させることを特徴とする。

請求項３に記載の発明は、請求項１または２に記載の音読評価装置において、前記第４表示制御手段は、前記第１の表示領域または前記第２の表示領域がユーザ操作により指定された場合、前記指定された前記第１の表示領域または前記第２の表示領域に対応する前記区間において算出された評価点であって、前記音読に対する評価項目として予め設定された抑揚、音量、滑舌、及び速度のうち少なくとも何れか一つに対する前記評価点を表示する第１のウインドウをポップアップ表示させることを特徴とする。

請求項４に記載の発明は、請求項１乃至３の何れか一項に記載の音読評価装置において、前記第４表示制御手段は、前記スペース領域がユーザ操作により指定された場合、前記指定された前記スペース領域に対応する前記区間において算出された評価点であって、前記音読に対する評価項目として予め設定された間合いに対する前記評価点を表示する第１のウインドウをポップアップ表示させることを特徴とする。

請求項５に記載の発明は、請求項１乃至４の何れか一項に記載の音読評価装置において、前記第４表示制御手段は、前記第１の表示領域がユーザ操作により指定された場合、指定された前記第１の表示領域に少なくとも一部が表示された前記テキストの全部を表示する第３のウインドウをポップアップ表示させることを特徴とする。

請求項６に記載の発明は、請求項１乃至５の何れか一項に記載の音読評価装置において、前記音読に対する評価項目として予め設定された抑揚、音量、滑舌、及び速度のうち少なくとも何れか一つのそれぞれに対応する前記評価点であって、前記文要素区間毎に算出された前記評価点に基づいて、前記音読に対する区間評価点を前記文要素区間毎に算出する区間評価点算出手段と、前記区間評価点算出手段により算出された各区間評価点を表すアイコンを、前記第１の表示領域毎に対応して配置された第４の表示領域に前記時間軸に沿って前記文要素区間毎に表示させる第５表示制御手段と、を更に備え、前記第４表示制御手段は、前記アイコンがユーザ操作により指定された場合、前記指定された前記アイコンに対応する前記文要素区間において算出された評価点であって、前記音読に対する評価項目として予め設定された抑揚、音量、滑舌、及び速度のうち少なくとも何れか一つのそれぞれに対する前記評価点を表示する第４のウインドウをポップアップ表示させることを特徴とする。

請求項７に記載の発明は、１つ以上のコンピュータにより実行される表示制御方法であって、話者が文を音読したときに発した音声の波形を示す音声波形データに基づいて、前記音読された文を構成する各文要素の開始タイミングから終了タイミングまでの文要素区間と、複数の前記文要素のうち何れかの前記文要素の終了タイミングから次の前記文要素の開始タイミングまでのインターバル区間との少なくとも何れか一方の区間毎に前記音読に対する評価点を算出する評価点算出ステップと、前記評価点算出ステップにより算出された前記区間毎の評価点に基づいて、前記音読に対する総合評価点を算出する総合評価点算出ステップと、前記音読された文を構成する各文要素を表すテキストの少なくとも一部を、それぞれの前記文要素区間の時間長に応じた長さの第１の表示領域に時間軸に沿って前記文要素区間毎に表示させる第１表示制御ステップと、前記文要素区間の時間長より短い所定時間間隔毎に前記音声波形データに基づいて特定された音高と音圧との少なくとも何れか一方の音要素の時系列的な変化を表すグラフを第２の表示領域に前記時間軸に沿って表示させる第２表示制御ステップと、前記総合評価点算出ステップにより算出された総合評価点を第３の表示領域に表示させる第３表示制御ステップと、前記第１の表示領域、前記第２の表示領域、及び複数の前記第１の表示領域間に前記時間軸に沿って位置するスペース領域のうち、何れか一の領域がユーザ操作により指定された場合、指定された前記何れか一の領域に対応する前記区間において算出された前記評価点を表示する第１のウインドウをポップアップ表示させる第４表示制御ステップと、を含むことを特徴とする。

請求項８に記載の発明は、話者が文を音読したときに発した音声の波形を示す音声波形データに基づいて、前記音読された文を構成する各文要素の開始タイミングから終了タイミングまでの文要素区間と、複数の前記文要素のうち何れかの前記文要素の終了タイミングから次の前記文要素の開始タイミングまでのインターバル区間との少なくとも何れか一方の区間毎に前記音読に対する評価点を算出する評価点算出ステップと、前記評価点算出ステップにより算出された前記区間毎の評価点に基づいて、前記音読に対する総合評価点を算出する総合評価点算出ステップと、前記音読された文を構成する各文要素を表すテキストの少なくとも一部を、それぞれの前記文要素区間の時間長に応じた長さの第１の表示領域に時間軸に沿って前記文要素区間毎に表示させる第１表示制御ステップと、前記文要素区間の時間長より短い所定時間間隔毎に前記音声波形データに基づいて特定された音高と音圧との少なくとも何れか一方の音要素の時系列的な変化を表すグラフを第２の表示領域に前記時間軸に沿って表示させる第２表示制御ステップと、前記総合評価点算出ステップにより算出された総合評価点を第３の表示領域に表示させる第３表示制御ステップと、前記第１の表示領域、前記第２の表示領域、及び複数の前記第１の表示領域間に前記時間軸に沿って位置するスペース領域のうち、何れか一の領域がユーザ操作により指定された場合、指定された前記何れか一の領域に対応する前記区間において算出された前記評価点を表示する第１のウインドウをポップアップ表示させる第４表示制御ステップと、をコンピュータに実行させることを特徴とする。

請求項１，７及び８に記載の発明によれば、話者による音読に対する総合評価点が表示される状態で、話者等が特に確認したい何れかの区間において算出された評価点の詳細を、より見易い表示態様で表示させることができる。

請求項２に記載の発明によれば、話者等が区間毎の評価点を見比べることが可能となり、どの区間における評価が良いか悪いかを話者等に一見して把握させることができる。

請求項３に記載の発明によれば、話者等が特に確認したい何れかの文要素区間において算出された評価点の詳細を、その文要素区間における文要素を表すテキスト等に対応付けて、より見易い表示態様で表示させることができる。

請求項４に記載の発明によれば、話者等が特に確認したい何れかのインターバル区間において算出された評価点の詳細を、より見易い表示態様で表示させることができる。

請求項５に記載の発明によれば、表示領域内にテキストが収まらない場合であっても、そのテキストで表される文要素の内容を話者等に把握させることができる。

請求項６に記載の発明によれば、アイコンの絵柄が示す区間評価点の内訳を話者等に、効果的に把握させることができる。

本実施形態に係る音読評価装置Ｓの概要構成例を示す図である。手本表示領域５１、話者表示領域５２、及び総合評価点表示領域５３等が配置される表示画面の表示例を示す図である。手本表示領域５１、話者表示領域５２、及び総合評価点表示領域５３等が配置される表示画面の表示例を示す図である。手本表示領域５１、話者表示領域５２、及び総合評価点表示領域５３等が配置される表示画面の表示例を示す図である。実施例１における制御部３の音読評価表示処理を示すフローチャートである。実施例２における制御部３の音読評価表示処理を示すフローチャートである。

以下、本発明の実施形態を図面に基づいて説明する。

［１.音読評価装置Ｓの構成及び機能］
初めに、図１を参照して、本発明の一実施形態に係る音読評価装置Ｓの構成及び機能について説明する。図１は、本実施形態に係る音読評価装置Ｓの概要構成例を示す図である。なお、音読評価装置の一例として、パーソナルコンピュータや、携帯型情報端末（スマートフォン等）などが挙げられる。図１に示すように、音読評価装置Ｓは、通信部１、記憶部２、制御部３、操作部４、及びインターフェース（ＩＦ）部５等を備えて構成され、これらの構成要素はバス６に接続されている。操作部４は、ユーザからの操作（ユーザ操作）を受け付け、そのユーザ操作に応じた信号を制御部３へ出力する。ユーザ操作の例として、マウス操作が挙げられる。なお、ディスプレイＤがタッチパネルディスプレイである場合、ユーザ操作は、ユーザの指やペン等による接触操作であってもよい。インターフェース部５には、マイクＭ、及びディスプレイＤ等が接続される。マイクＭは、語学学習や、アナウンス、朗読などの発話練習等を行う練習者である話者が、複数の文要素を含む文（文章）を音読したときに発した音声を集音する。文要素は、文を構成する単位である。文要素の例として、フレーズ、文節、単語の他、後述するように複数のフレーズが結合した結合フレーズ等が挙げられる。ここで、フレーズは、一般に文章を読むときに一息で読む単位である。フレーズは、１以上の文節から構成される。つまり、１つのフレーズが１つの文節から構成される場合もあるし、１つのフレーズが複数の文節から構成される場合もある。文節は、例えば、１つ以上の単語のまとまりである。単語には、名詞、動詞、形容詞、副詞、及び接続詞等の自立語（単独で文節を構成できる品詞）や、助動詞及び助詞等の付属語（単独で文節を構成できない品詞）などがある。音読対象となる文の例として、語学学習や、アナウンス、朗読などで用いられる文章などが挙げられる。ディスプレイＤは、制御部３からの表示指令にしたがって、後述する表示領域等が配置される表示画面を表示する。なお、マイクＭ、及びディスプレイＤは、音読評価装置Ｓと一体型であってもよいし、別体であってもよい。

通信部１は、有線または無線によりネットワーク（図示せず）に接続してサーバ等と通信を行う。記憶部２は、例えばハードディスクドライブ等からなり、ＯＳ（オペレーティングシステム）、及び音読評価表示処理プログラム（本発明のプログラムの一例）等を記憶する。音読評価表示処理プログラムは、コンピュータとしての制御部３に、後述する音読評価表示処理を実行させるプログラムである。音読評価表示処理プログラムは、アプリケーションとして、所定のサーバからダウンロードされてもよいし、ＣＤ、ＤＶＤ等の記録媒体に記憶されて提供されてもよい。また、記憶部２は、複数の文要素を含む文のテキストデータと、この文を音読するときの手本となる音声の波形を示す手本音声波形データを記憶する。ここで、テキストデータには、例えば、音読対象となる文を構成する各文要素を表すテキスト（文字）が文要素毎に区切られて規定されている。例えば、文要素間に挿入される句読点により区切られる。或いは、文要素を表すテキストには、先頭から順番にシリアル番号が付与されていてもよい。なお、手本音声波形データは、所定の音声ファイル形式で記憶される。

制御部３は、コンピュータとしてのＣＰＵ（Central Processing Unit）、ＲＯＭ（Read Only Memory）、及びＲＡＭ（Random Access Memory）等により構成される。制御部３は、音読評価表示処理プログラムにより、音声処理部３１、音読評価部３２、及び表示処理部３３として機能する。音読評価部３２は、本発明における評価点算出手段、区間評価点算出手段、及び総合評価点算出手段の一例である。表示処理部３３は、本発明における第１表示制御手段、第２表示制御手段、第３表示制御手段、第４表示制御手段、及び第５表示制御手段の一例である。

音声処理部３１は、所定の音声ファイル形式で記憶された手本音声波形データを処理対象として記憶部２から入力する。入力された手本音声波形データはＲＡＭに記憶される。また、音声処理部３１は、話者が上記文を音読したときに発した音声であってマイクＭにより集音された音声の波形を示す話者音声波形データを入力する。入力された話者音声波形データはＲＡＭに記憶される。なお、音声波形データは、離散化された時系列の音圧波形データであり、例えば、サンプリングレート44.1kHz、量子化16bit、及びモノラルの波形データである。音圧とは、音波による空気の圧力の変化分（Pa）をいう。本実施形態では、音圧として、瞬時音圧（Pa）の二乗平均平方根（RMS）である実効音圧（Pa）の大きさを計算上扱い易い数値で表した音圧レベル(dB)を適用する。音圧レベル(dB)は、広義には音量ともいう。

音声処理部３１は、手本音声波形データに基づいて、各文要素の開始タイミングから終了タイミングまでの手本文要素区間を文要素毎に特定する。そして、音声処理部３１は、文要素毎に特定した手本文要素区間を示す手本文要素区間データに、それぞれの文要素を表すテキストを対応付けてＲＡＭに記憶する。これらの文要素を表すテキストは、例えば、上記処理対象の手本音声波形データに対応付けられているテキストデータから抽出される。なお、手本文要素区間データは、例えば、特定された手本文要素区間の先頭から順番を示すシリアル番号と、この手本文要素区間の時間範囲（例えば、01:00-03:00）とから構成される。同様に、音声処理部３１は、話者音声波形データに基づいて、各文要素の開始タイミングから終了タイミングまでの話者文要素区間を文要素毎に特定する。そして、音声処理部３１は、文要素毎に特定した話者文要素区間を示す話者文要素区間データに、それぞれの文要素を表すテキストを対応付けてＲＡＭに記憶する。これらの文要素を表すテキストは、例えば、話者音声波形データが示す音声の波形から特定される音素から抽出される。音素の例として、母音のみ、子音のみ、子音と母音との組合せの３つが挙げられる。なお、音素の特定方法は、ラベリング手法等で公知であるので詳しい説明を省略する。また、話者文要素区間データは、例えば、特定された話者文要素区間の先頭から順番を示すシリアル番号と、この話者文要素区間の時間範囲とから構成される。

ここで、開始タイミングと終了タイミングは、それぞれ、音声の波形から認識されてもよいし、上述したように算出された音圧レベル(dB)から認識されてもよい。例えば、音声処理部３１は、音声の波形の振幅が所定値以上になった時点を開始タイミングとして認識する。或いは、音声処理部３１は、音圧レベル(dB)が所定値以上になった時点を開始タイミングとして認識する。また、例えば、音声処理部３１は、音声の波形の振幅幅が所定値未満になった時点を終了タイミングとして認識する。或いは、音声処理部３１は、音圧レベル(dB)が所定値未満になった時点を終了タイミングとして認識する。なお、例えば、音圧レベル(dB)が所定値未満になった時点から、音圧レベル(dB)が所定値以上になった時点までの時間（無音時間）が閾値以上である場合に限り、音圧レベル(dB)が所定値未満になった時点が終了タイミングとして認識され、且つ音圧レベル(dB)が所定値以上になった時点が開始タイミングとして認識されるとよい（音声の波形の振幅についても同様）。これは、無音時間が閾値より短い場合、その区間で文要素を区切らない趣旨である。

ところで、「車内では（間合い）携帯電話は（間合い）マナーモードに設定の上（間合い）通話はご遠慮下さい」と区切り区切りゆっくり音読するお手本の音声波形データがあるとすると、上記の方法で開始タイミングと終了タイミングとを認識することにより、「車内では」、「携帯電話は」、「マナーモードに設定の上」、「通話はご遠慮下さい」というように、４つのフレーズ毎に対応する手本文要素区間に区切られて特定される。また、話者が、同じ文を、手本と同じ間合いで区切り区切り音読した場合に、上記の方法で開始タイミングと終了タイミングとを認識することで、「車内では」、「携帯電話は」、「マナーモードに設定の上」、「通話はご遠慮下さい」というように、４つのフレーズ毎に対応する話者文要素区間に区切られて特定される。これに対し、話者が、例えば、上記文のうち、「マナーモードに設定の上」と「通話はご遠慮下さい」の部分を、一息で「マナーモードに設定の上通話はご遠慮下さい」と素早く音読した場合、この部分が一息で読むフレーズとなり、上記の方法で開始タイミングと終了タイミングとを認識すると、上記部分は特に区切られずに話者文要素区間が特定されることになる。このように、手本により音読される複数のフレーズが、話者により音読される１つのフレーズに対応している場合、手本により音読されるフレーズに対応する手本文要素区間と、話者により音読されるフレーズの話者文要素区間とを比較し難くなる。このため、このような場合、音声処理部３１は、話者により音読されるフレーズ（「マナーモードに設定の上通話はご遠慮下さい」）を、手本により音読されるフレーズに合わせるように複数の文節または単語に区分して話者文要素区間を特定するとよい。

上記とは逆に、例えば、「車内では（間合い）携帯電話はマナーモードに設定の上通話はご遠慮下さい」というように、一部素早く音読するお手本の音声波形データがあるとすると、上記の方法で開始タイミングと終了タイミングとを認識することにより、「車内では」、「携帯電話はマナーモードに設定の上通話はご遠慮下さい」というように、２つのフレーズ毎に対応する手本文要素区間に区切られて特定される。これに対し、話者が、「車内では（間合い）携帯電話は（間合い）マナーモードに設定の上（間合い）通話はご遠慮下さい」と区切り区切りゆっくり音読した場合、上記の方法で開始タイミングと終了タイミングとを認識することで、「車内では」、「携帯電話は」、「マナーモードに設定の上」、「通話はご遠慮下さい」というように、４つのフレーズ毎に対応する話者文要素区間に区切られて特定されることになる。このように、手本により音読される１つのフレーズが、話者により音読される複数のフレーズに対応している場合も、手本により音読されるフレーズに対応する手本文要素区間と、話者により音読されるフレーズの話者文要素区間とを比較し難くなる。このため、このような場合、音声処理部３１は、例えば、手本により音読されるフレーズに合わせるように、例えば「携帯電話は」と「マナーモードに設定の上」と「通話はご遠慮下さい」という３つのフレーズを含む結合フレーズに対応する話者文要素区間を特定するとよい。

また、音声処理部３１は、手本音声波形データに基づいて、複数の文要素のうち何れかの文要素の終了タイミングから次の文要素の開始タイミングまでの手本インターバル区間を特定する。そして、音声処理部３１は、特定した手本インターバル区間を示す手本インターバル区間データをＲＡＭに記憶する。なお、特定された手本インターバル区間には、例えば先頭から順番にシリアル番号が付与される。同様に、音声処理部３１は、話者音声波形データに基づいて、複数の文要素のうち何れかの文要素の終了タイミングから次の文要素の開始タイミングまでの話者インターバル区間を特定する。そして、音声処理部３１は、特定した話者インターバル区間を示す話者インターバル区間データをＲＡＭに記憶する。なお、特定された話者インターバル区間には、例えば先頭から順番にシリアル番号が付与される。

また、音声処理部３１は、手本音声波形データから所定時間毎に切り出したデータから音圧レベル(dB)を手本音圧として所定時間間隔毎に特定する。そして、音声処理部３１は、所定時間間隔毎に特定した手本音圧を示す手本音圧データをＲＡＭに記憶する。同様に、音声処理部３１は、話者音声波形データから所定時間毎に切り出したデータから音圧レベル(dB)を話者音圧として所定時間間隔毎に特定する。そして、音声処理部３１は、所定時間間隔毎に特定した話者音圧を示す話者音圧データをＲＡＭに記憶する。また、音声処理部３１は、手本音声波形データから所定時間毎に切り出したデータから基本周波数（Hz）を算出し、算出した基本周波数（Hz）を手本音高として所定時間間隔毎に特定する。なお、音高（抑揚、ピッチともいう）の特定方法には、例えば、ゼロクロス法やベクトル自己相関等の公知の手法を適用できる。そして、音声処理部３１は、所定時間間隔毎に特定した手本音高を示す手本音高データをＲＡＭに記憶する。同様に、音声処理部３１は、話者音声波形データから所定時間毎に切り出したデータから基本周波数（Hz）を算出し、算出した基本周波数（Hz）を話者音高として所定時間間隔毎に特定する。そして、音声処理部３１は、所定時間間隔毎に特定した話者音高を示す話者音高データをＲＡＭに記憶する。なお、音圧特定及び音高特定するための上記所定時間は、文要素区間の時間長（時間的長さ）より短い時間であり、例えば１０ｍｓ程度に設定される。

また、音声処理部３１は、手本音声波形データから所定時間毎に切り出したデータを窓掛けで区切って（例えば、25ms毎にフレーム化）、フーリエ解析（ＦＦＴ）することで振幅スペクトルを求める。そして、音声処理部３１は、求めた振幅スペクトルにメルフィルタバンクをかけ、メルフィルタバンクの出力を対数化した値を離散コサイン変換（ＤＣＴ）することでＭＦＣＣ（メル周波数ケプストラム係数）を算出することで、手本の声道特性を示す特徴量として手本文要素区間毎に特定する。そして、音声処理部３１は、手本文要素区間毎に特定した、手本の声道特性を示す特徴量を示す手本特徴量データをＲＡＭに記憶する。同様に、音声処理部３１は、話者音声波形データから所定時間毎に切り出したデータを窓掛けで区切って、フーリエ解析することで振幅スペクトルを求める。そして、音声処理部３１は、求めた振幅スペクトルにメルフィルタバンクをかけ、メルフィルタバンクの出力を対数化した値を離散コサイン変換することでＭＦＣＣを算出することで、話者の声道特性を示す特徴量として話者文要素区間毎に特定する。そして、音声処理部３１は、話者文要素区間毎に特定した、話者の声道特性を示す特徴量を示す話者特徴量データをＲＡＭに記憶する。

次に、音読評価部３２（評価点算出手段の一例）は、話者文要素区間と話者インターバル区間との少なくとも何れか一方の区間毎、且つ、予め設定された評価項目毎に、話者の音読に対する評価点を算出する。ここで、話者文要素区間における評価項目の例として、抑揚、音量、滑舌、及び速度が挙げられる。また、話者インターバル区間における評価項目の例として、間（間合い）が挙げられる。例えば、音読評価部３２は、音声処理部３１により特定された手本音高と話者音高との差を文要素区間毎（つまり、シリアル番号が互いに同一の手本文要素区間及び話者文要素区間毎）に算出し、算出した差に基づいて、話者の抑揚に対する評価点を文要素区間毎に算出する。この評価点は、例えば３０点を満点とし、差が０に近いほど高くなる（満点に近づく）ように算出される。また、音読評価部３２は、手本音圧と話者音圧との差を文要素区間毎に算出し、算出した差に基づいて、話者の音量に対する評価点を文要素区間毎に算出する。この評価点は、例えば３０点を満点とし、差が０に近いほど高くなるように算出される。また、音読評価部３２は、手本の声道特性を示す特徴量と話者の声道特性を示す特徴量との類似度を文要素区間毎に算出し、算出した類似度に基づいて、話者の滑舌に対する評価点を文要素区間毎に算出する。この評価点は、例えば３０点を満点とし、類似度が高いほど高くなるように算出される。また、音読評価部３２は、手本文要素区間の時間長と話者文要素区間の時間長との時間差を文要素区間毎に算出し、算出した時間差の絶対値に基づいて、話者の速度（音読スピード）に対する評価点を文要素区間毎に算出する。この評価点は、例えば３０点を満点とし、時間差の絶対値が０に近いほど高くなるように算出される。また、音読評価部３２は、手本インターバル区間の時間長と、話者インターバル区間の時間長との時間差をインターバル区間毎に算出し、算出した時間差の絶対値に基づいて、話者の間合いに対する評価点をインターバル区間毎に算出する。この評価点は、例えば３０点を満点とし、時間差の絶対値が０に近いほど高くなるように算出される。

また、音読評価部３２（区間評価点算出手段の一例）は、文要素区間毎に算出された、評価項目別の評価点に基づいて、話者の音読に対する区間評価点を文要素区間毎に算出する。例えば、評価項目が抑揚と音量とである場合、音読評価部３２は、抑揚に対する評価点と音量に対する評価点との平均値（合計値でもよい）を、区間評価点として文要素区間毎に算出する。また、評価項目が抑揚のみである場合、音読評価部３２は、抑揚に対する評価点を、区間評価点としてもよい。また、音読評価部３２（総合評価点算出手段の一例）は、上述したように算出された文要素区間毎の評価項目別の評価点に基づいて、全文要素区間における評価項目別の総合評価点を算出する。例えば、音読評価部３２は、文要素区間毎に算出された、評価項目別の評価点の平均値（合計値でもよい）を、全文要素区間における評価項目別の総合評価点として算出する。また、音読評価部３２は、上述したように算出されたインターバル区間毎の評価点に基づいて、全インターバル区間における間合いに対する総合評価点を算出する。例えば、音読評価部３２は、インターバル区間毎に算出された、間合いに対する評価点の平均値または合計値を、全インターバル区間における間合いに対する総合評価点として算出する。そして、音読評価部３２（総合評価点算出手段の一例）は、全文要素区間における評価項目別の総合評価点と、全インターバル区間における間合いに対する総合評価点との合計値（平均値でもよい）を、全区間（つまり、文要素区間及びインターバル区間）における総合評価点として算出する。

次に、表示処理部３３は、文を音読するときの手本となる音声に関する情報が表示される手本表示領域、話者が文を音読したときに発した音声に関する情報が表示される話者表示領域、及び話者の音読に対する総合評価点が表示される総合評価点表示領域等が配置される表示画面をディスプレイＤに表示させる。図２乃至図４は、手本表示領域５１、話者表示領域５２、及び総合評価点表示領域５３等が配置される表示画面の表示例を示す図である。図２（Ａ）に示す表示画面には、時間軸ｔを例えば横軸（Ｘ軸）とすることで、手本表示領域５１と話者表示領域５２とが時間軸ｔと直交する上下方向（縦方向）に並んで配置されている。このとき、表示処理部３３は、手本表示領域５１において、音読対象となる文を構成する各文要素を表すテキストの少なくとも一部を、それぞれの手本文要素区間の時間長に応じた長さの手本テキスト表示領域５１ａ１〜５１ａ３に時間軸ｔに沿って手本文要素区間毎に表示させる。ここで、手本テキスト表示領域５１ａ１〜５１ａ３の領域内に表示されるテキストは、それぞれの手本文要素区間の手本文要素区間データに対応付けられたテキストである。

また、表示処理部３３（第１表示制御手段の一例）は、話者表示領域５２において、話者により音読された文を構成する各文要素を表すテキストの少なくとも一部を、それぞれの話者文要素区間の時間長に応じた長さの話者テキスト表示領域（第１の表示領域の一例）５２ａ１〜５２ａ３に時間軸ｔに沿って話者文要素区間毎に表示させる。ここで、話者テキスト表示領域５２ａ１〜５２ａ３の輪郭内に表示されるテキストは、それぞれの話者文要素区間の話者文要素区間データに対応付けられたテキストである。また、例えば、話者テキスト表示領域５２ａ１の時間軸ｔと並行する方向の長さＤ１（言い換えれば、ピクセル数）は、話者テキスト表示領域５２ａ１に対応する話者文要素区間の時間長に応じた長さに設定されている。すなわち、文要素区間の時間長が長いほど、これに対応するテキスト表示領域の長さは距離的に長く設定される。テキスト表示領域内にテキストが収まらない場合、本実施形態では、図２（Ａ）に示す話者テキスト表示領域５２ａ３のように、話者テキスト表示領域５２ａ３の領域からはみ出す部分のテキストは表示されないように構成される。また、図２（Ａ）に示すように、話者テキスト表示領域５２ａ１と話者テキスト表示領域５２ａ２との間には、時間軸ｔに沿って話者スペース領域５２ｓ１が位置する。また、話者テキスト表示領域５２ａ２と話者テキスト表示領域５２ａ３との間には、時間軸ｔに沿って話者スペース領域５２ｓ２が位置する。例えば、話者スペース領域５２ｓ１の時間軸ｔと並行する方向の長さＤ２は、話者スペース領域５２ｓ１に対応する話者インターバル区間の時間長に応じた長さに設定されている。すなわち、話者インターバル区間の時間長が長いほど、これに対応する話者スペース領域の長さは距離的に長く設定される。

また、表示処理部３３（第５表示制御手段の一例）は、音読評価部３２により算出された各区間評価点を表すアイコン５２ａ１１〜５２ａ３１を、それぞれのアイコンに対応する話者文要素区間に対応する話者テキスト表示領域５２ａ１〜５２ａ３毎に対応して配置された領域（第４の表示領域の一例）に時間軸ｔに沿って話者文要素区間毎に表示させる。図２（Ａ）の例では、アイコン５２ａ１１〜５２ａ３１は、話者テキスト表示領域５２ａ１〜５２ａ３内の右端部に配置されている。区間評価点を表すアイコンの絵柄の例として、晴れを示す絵柄、曇りを示す絵柄、及び雨を示す絵柄が挙げられる。ここで、区間評価点の満点を３０点としたとき、晴れを示す絵柄は、区間評価点が例えば２１〜３０点であることを示す。曇りを示す絵柄は、区間評価点が例えば１１〜２０点であることを示す。雨を示す絵柄は、区間評価点が例えば０〜１０点であることを示す。なお、区間評価点を表すアイコンの絵柄及び絵柄の数は、任意に設定可能である。

また、表示処理部３３は、音声処理部３１により特定された手本音高と手本音圧との少なくとも何れか一方の音要素の時系列的な変化を表す手本グラフを手本グラフ表示領域５１ｂに時間軸に沿って表示させる。また、表示処理部３３（第２表示制御手段の一例）は、音声処理部３１により特定された話者音高と話者音圧との少なくとも何れか一方の音要素の時系列的な変化を表す話者グラフを話者グラフ表示領域５２ｂ（第２の表示領域の一例）に時間軸ｔに沿って表示させる。このとき、表示処理部３３は、手本グラフにより表される音要素（つまり、手本音高または手本音圧）と同じ種類の音要素（例えば、手本音高と同じ種類の音要素は話者音高）の時系列的な変化を表す話者グラフを、時間軸ｔに沿って表示させることになる。図２（Ａ）の例では、手本グラフ表示領域５１ｂには、手本音高の時系列的な変化を表す手本グラフ（折線グラフ）５１ｂ１１〜５１ｂ３１と、手本音圧の時系列的な変化を表す手本グラフ（棒グラフ）５１ｂ１２〜５１ｂ３２とが、時間軸ｔに沿って手本文要素区間毎に区別して表示されている。また、話者グラフ表示領域５２ｂには、話者音高の時系列的な変化を表す話者グラフ（折線グラフ）５２ｂ１１〜５２ｂ３１と、話者音圧の時系列的な変化を表す話者グラフ（棒グラフ）５２ｂ１２〜５２ｂ３２とが、時間軸ｔに沿って話者文要素区間毎に区別して表示されている。

また、図２（Ａ）に示す表示画面には、総合評価点表示領域５３（第３の表示領域の一例）、スクロールバー５４、及び表示画面を閉じるための「閉じる」キー５５が配置されている。表示処理部３３（第３表示制御手段の一例）は、音読評価部３２により算出された総合評価点を総合評価点表示領域５３に表示させる。図２（Ａ）の例では、全話者文要素区間における評価項目（抑揚、音量、滑舌、及び速度）別の総合評価点と、全話者インターバル区間における間合い（間）に対する総合評価点と、全区間における総合評価点とが表示されている。なお、手本表示領域５１及び話者表示領域５２における表示内容は、スクロールバー５４のユーザ操作に応じて、時間軸ｔと並行する方向にスクロール表示される。

そして、表示処理部３３は、話者テキスト表示領域５２ａ１〜５２ａ３、及び話者スペース領域５２ｓ１，５２ｓ２のうち、何れか一の領域がユーザ操作により指定された場合、指定された何れか一の領域に対応する区間（文要素区間、またはインターバル区間）において算出された評価点を表示するウインドウＷ１１（第１のウインドウの一例）をポップアップ表示させる。これにより、話者等が特に確認したい何れかの区間において算出された評価点の詳細を、より見易い表示態様で表示させることができる。

図２（Ｂ）の例は、話者テキスト表示領域５２ａ１上に、マウスのポインタＰ（カーソル）を重畳させることにより、話者テキスト表示領域５２ａ１が指定された場合を示している。この場合、表示処理部３３は、指定された話者テキスト表示領域５２ａ１に対応する話者文要素区間において算出された、話者の抑揚、音量、滑舌、及び速度それぞれに対する評価点を表示するウインドウＷ１１をポップアップ表示させる。これにより、話者等が特に確認したい何れかの話者文要素区間において算出された評価点の詳細を、その話者文要素区間における文要素を表すテキスト等に対応付けて、より見易い表示態様で表示させることができる。こうして表示されたウインドウＷ１１は、話者テキスト表示領域５２ａ１からポインタＰが離れることにより、話者テキスト表示領域５２ａ１の指定が解除された場合に消去される（つまり、ウインドウＷ１１が閉じる）。一方、ウインドウＷ１１の表示は、話者テキスト表示領域５２ａ１上にマウスのポインタＰが重畳されている状態で、マウスの操作ボタンがクリックされることにより継続（継続表示）される。こうして継続表示されたウインドウＷ１１は、話者テキスト表示領域５２ａ１上にマウスのポインタＰが重畳されている状態で、マウスの操作ボタンが再度、クリックされることにより消去される。なお、ウインドウＷ１１に表示される評価点は、抑揚、音量、滑舌、及び速度のうちの一部（例えば、音量と速度）に対する評価点であってもよい。

図３（Ａ）の例は、話者スペース領域５２ｓ１上に、マウスのポインタＰを重畳させることにより、話者スペース領域５２ｓ１が指定された場合を示している。この場合、表示処理部３３は、指定された話者スペース領域５２ｓ１に対応する話者インターバル区間において算出された、話者の間合いに対する評価点を表示するウインドウＷ２１をポップアップ表示させる。これにより、話者等が特に確認したい何れかの話者インターバル区間において算出された評価点の詳細を、より見易い表示態様で表示させることができる。こうして表示されたウインドウＷ２１は、話者スペース領域５２ｓ１からポインタＰが離れることにより、話者スペース領域５２ｓ１の指定が解除された場合に消去される。一方、ウインドウＷ２１の表示は、話者スペース領域５２ｓ１上にマウスのポインタＰが重畳されている状態で、マウスの操作ボタンがクリックされることにより継続される。こうして継続表示されたウインドウＷ２１は、話者スペース領域５２ｓ１上にマウスのポインタＰが重畳されている状態で、マウスの操作ボタンが再度、クリックされることにより消去される。

なお、上記ウインドウＷ１１，Ｗ２１は、話者グラフ表示領域５２ｂがユーザ操作により指定された場合にポップアップ表示されるように構成してもよい。この場合、話者グラフ表示領域５２ｂは、上記各区間（話者文要素区間、及び話者インターバル区間）に対応するように複数の領域に区分（例えば、時間軸ｔと直交する線で区分）される。そして、表示処理部３３は、話者グラフ表示領域５２ｂにおいて指定された領域に対応する話者文要素区間において算出された、話者の抑揚、音量、滑舌、及び速度それぞれに対する評価点を表示するウインドウＷ１１をポップアップ表示させる。或いは、表示処理部３３は、話者グラフ表示領域５２ｂにおいて指定された領域に対応する話者インターバル区間において算出された、話者の間合いに対する評価点を表示するウインドウＷ２１をポップアップ表示させる。

また、表示処理部３３は、上述したように、ウインドウＷ１１の表示を継続させ、ウインドウＷ１１の表示が継続している間に何れか一の領域とは異なる他の領域（つまり、話者テキスト表示領域、話者グラフ表示領域、または話者スペース領域）がユーザ操作により新たに指定された場合、新たに指定された他の領域に対応する区間において算出された評価点を表示するウインドウＷ１２（第２のウインドウの一例）をポップアップ表示させ、ウインドウＷ１１の表示とウインドウＷ１２の表示を継続させる。これにより、話者等が区間毎の評価点を見比べることが可能となり、どの区間における評価が良いか悪いかを話者等に一見して把握させることができる。図３（Ｂ）の例は、ウインドウＷ１１とウインドウＷ１２のポップアップ表示が継続している例を示している。ウインドウＷ１２は、話者テキスト表示領域５２ａ１の後に指定された話者テキスト表示領域５２ａ２に対応する話者文要素区間において算出された、話者の抑揚、音量、滑舌、及び速度それぞれに対する評価点を表示している。

また、表示処理部３３は、アイコン（５２ａ１１〜５２ａ３１の何れか）がユーザ操作により指定された場合、指定されたアイコンに対応する話者文要素区間において算出された、話者の抑揚、音量、滑舌、及び速度のうち少なくとも何れか一つのそれぞれに対する評価点を表示するウインドウＷ３１（第４のウインドウの一例）をポップアップ表示させる。図４（Ａ）の例は、アイコン５２ａ３１上に、マウスのポインタＰを重畳させることにより、アイコン５２ａ３１が指定された場合を示している。この場合、表示処理部３３は、指定されたアイコン５２ａ３１に対応する話者文要素区間において算出された、話者の抑揚、音量、滑舌、及び速度それぞれに対する評価点を表示するウインドウＷ３１をポップアップ表示させる。ここで、ウインドウＷ３１に表示された各評価点は、アイコン５２ａ３１に対応する話者文要素区間における区間評価点（つまり、アイコン５２ａ３１の絵柄が示す区間評価点）の算出に用いられた評価点である。従って、ウインドウＷ３１のポップアップ表示により、アイコン５２ａ３１の絵柄が示す区間評価点の内訳を話者等に、効果的に把握させることができる。こうして表示されたウインドウＷ３１は、アイコン５２ａ３１からポインタＰが離れることにより、アイコン５２ａ３１の指定が解除された場合に消去される。一方、ウインドウＷ３１の表示は、アイコン５２ａ３１上にマウスのポインタＰが重畳されている状態で、マウスの操作ボタンがクリックされることにより継続される。こうして継続表示されたウインドウＷ３１は、アイコン５２ａ３１上にマウスのポインタＰが重畳されている状態で、マウスの操作ボタンが再度、クリックされることにより消去される。なお、この場合も、ウインドウＷ３１の表示が継続している間に、アイコン５２ａ３１とは異なる他のアイコンがユーザ操作により新たに指定された場合、新たに指定された他のアイコンに対応する話者文要素区間において算出された評価点を表示する新たなウインドウをポップアップ表示させ、ウインドウＷ３１の表示と新たなウインドウの表示を継続させてもよい。

また、表示処理部３３は、話者テキスト表示領域（５２ａ１〜５２ａ３の何れか）がユーザ操作により指定された場合、指定された話者テキスト表示領域に少なくとも一部が表示されたテキストの全部を表示するウインドウＷＴ（第３のウインドウの一例）をポップアップ表示させてもよい。図４（Ｂ）の例は、話者テキスト表示領域５２ａ３上に、マウスのポインタＰを重畳させることにより、話者テキスト表示領域５２ａ３が指定された場合を示している。この場合、表示処理部３３は、指定された話者テキスト表示領域５２ａ３に対応する話者文要素区間の話者文要素区間データに対応付けられたテキストの全部を表示するウインドウＷＴをポップアップ表示する。これにより、話者テキスト表示領域５２ａ３内にテキストが収まらない場合であっても、そのテキストで表される文要素の内容を話者等に把握させることができる。こうして表示されたウインドウＷＴは、話者テキスト表示領域５２ａ３からポインタＰが離れることにより、話者テキスト表示領域５２ａ３の指定が解除された場合に消去される。一方、ウインドウＷＴの表示は、話者テキスト表示領域５２ａ３上にマウスのポインタＰが重畳されている状態で、マウスの操作ボタンがクリックされることにより継続される。こうして継続表示されたウインドウＷＴは、話者テキスト表示領域５２ａ３上にマウスのポインタＰが重畳されている状態で、マウスの操作ボタンが再度、クリックされることにより消去される。

［２.音読評価装置Ｓの動作例］
次に、音読評価装置Ｓの動作例について、実施例１と実施例２に分けて説明する。なお、以下に説明する動作の前提として、手本文要素区間データ及び話者音声波形データが制御部３に取り込まれ、音声処理部３１により、手本文要素区間、手本インターバル区間、手本音圧、手本音高、手本特徴量、話者文要素区間、話者インターバル区間、話者音圧、話者音高、及び話者特徴量が特定され、これらのデータ、及び手本文要素区間毎のテキスト、並びに話者文要素区間毎のテキストが、例えば、音読対象のお手本となる所望の音声ファイルの識別情報に対応付けられて記憶部２に記憶されているものとする。さらに、音読評価部３２により、評価項目別の評価点、区間評価点、総合評価点が算出され、これらの評価点が、音読対象のお手本となる所望の音声ファイルの識別情報に対応付けられて記憶部２に記憶されているものとする。

（実施例１）
先ず、図５を参照して、実施例１について説明する。図５は、実施例１における制御部３の音読評価表示処理を示すフローチャートである。図５に示す処理は、例えば、話者が操作部４を介して音読対象のお手本となる所望の音声ファイルを指定して表示開始指示を行うことにより開始される。図５に示す処理が開始されると、制御部３（表示処理部３３）は、指定された音声ファイルの識別情報に対応付けられたデータ（文要素区間データ、インターバル区間データ、テキストデータ等）、及び評価点のデータを記憶部２から読み込み、図２（Ａ）に示すように、手本表示領域５１、話者表示領域５２、及び総合評価点表示領域５３等が配置された表示画面をディスプレイＤに表示させる（ステップＳ１）。図２（Ａ）の例では、手本表示領域５１と話者表示領域５２と総合評価点表示領域５３とは同一画面上に配置されている。これにより、全区間における総合評価点と、話者等が確認したい一部区間における評価点とを、話者等に同時に参照させることができる。ただし、総合評価点表示領域５３は、手本表示領域５１と話者表示領域５２とが配置される画面とは別の画面に配置されてもよい。つまり、例えば、別の画面では総合評価点は表示されるが、手本表示領域５１と話者表示領域５２が表示されている画面には総合評価点が表示されなくてもよい。

次いで、制御部３は、話者テキスト表示領域５２ａ１〜５２ａ３、及び話者スペース領域５２ｓ１，５２ｓ２のうち、何れか一の領域がユーザ操作により指定されたか否かを判定する（ステップＳ２）。例えば、ユーザがマウスを操作することで、マウスのポインタＰが話者テキスト表示領域または話者スペース領域上に重畳すると、その領域がユーザ操作により指定されたと判定される。或いは、ディスプレイＤがタッチパネルディスプレイである場合、ユーザが、話者テキスト表示領域または話者スペース領域を指やペン等で触れると、その領域がユーザ操作により指定されたと判定される。なお、ステップＳ２において、上述したように話者グラフ表示領域がユーザ操作により指定されたか否かが判定されてもよい。そして、制御部３は、何れか一の領域がユーザ操作により指定されたと判定した場合（ステップＳ２：ＹＥＳ）、ステップＳ３へ進む。一方、制御部３は、何れか一の領域がユーザ操作により指定されていないと判定した場合（ステップＳ２：ＮＯ）、ステップＳ１０へ進む。

ステップＳ３では、制御部３は、指定された領域に対応するウインドウが継続表示中であるか否かを判定する。制御部３は、上記ウインドウが継続表示中であると判定した場合（ステップＳ３：ＹＥＳ）、ステップＳ１０へ進む。一方、制御部３は、上記ウインドウが継続表示中でないと判定した場合（ステップＳ３：ＮＯ）、ステップＳ４へ進む。ステップＳ４では、制御部３は、指定された領域（つまり、指定されたと判定した領域）に対応する区間において算出された評価点を特定する。次いで、制御部３は、ステップＳ４で特定した評価点を表示するウインドウを表示画面上にポップアップ表示させる（ステップＳ５）。例えば、話者テキスト表示領域５２ａ１が指定された場合、この領域に対応する話者文要素区間において算出された、話者の抑揚、音量、滑舌、及び速度それぞれに対する評価点を表示するウインドウＷ１１が、図２（Ｂ）に示すようにポップアップ表示される。一方、話者スペース領域５２ｓ１が指定された場合、この領域に対応する話者インターバル区間において算出された、話者の間合いに対する評価点を表示するウインドウＷ２１が、図３（Ａ）に示すようにポップアップ表示される。

次いで、制御部３は、上記領域への指定が解除されたか否かを判定する（ステップＳ６）。例えば、ユーザがマウスを操作することで、マウスのポインタＰが話者テキスト表示領域または話者スペース領域上から離れると、その領域への指定が解除されたと判定される。或いは、ディスプレイＤがタッチパネルディスプレイである場合、ユーザが、話者テキスト表示領域または話者スペース領域から指やペン等を離すと、その領域への指定が解除されたと判定される。そして、制御部３は、上記領域への指定が解除されたと判定した場合（ステップＳ６：ＹＥＳ）、判定した領域に対応するウインドウの表示消去を行い（ステップＳ７）、ステップＳ１０へ進む。

一方、制御部３は、上記領域への指定が解除されていないと判定した場合（ステップＳ６：ＮＯ）、判定した領域に対応するウインドウの継続表示指示があったか否かを判定する（ステップＳ８）。例えば、ステップＳ６で判定された領域上にマウスのポインタＰが重畳されている状態で、ユーザがマウスの操作ボタンをクリックすると、その領域に対応するウインドウの継続表示指示があったと判定される。或いは、ディスプレイＤがタッチパネルディスプレイである場合、ユーザが、ステップＳ６で判定された領域上を指やペン等で触れている状態から、一旦、指やペン等を離して素早くタップすると、その領域に対応するウインドウの継続表示指示があったと判定される。そして、制御部３は、上記領域に対応するウインドウの継続表示指示があったと判定した場合（ステップＳ８：ＹＥＳ）、そのウインドウを継続表示させ（ステップＳ９）、ステップＳ１０へ進む。一方、制御部３は、上記領域に対応するウインドウの継続表示指示がないと判定した場合（ステップＳ８：ＮＯ）、ステップＳ６に戻る。

ステップＳ１０では、制御部３は、継続表示中のウインドウの継続表示解除指示があったか否かを判定する。なお、ステップＳ１０において、ウインドウが継続表示されていない場合、そもそも、継続表示解除指示は受け付けられないので、ステップＳ１２へ進む。制御部３は、継続表示中のウインドウの継続表示解除指示があったと判定した場合（ステップＳ１０：ＹＥＳ）、ステップＳ１１へ進む。例えば、ユーザがマウスを操作して、継続表示中のウインドウ上にマウスのポインタＰを重畳させた状態で、ユーザがマウスの操作ボタンをクリックすると、そのウインドウの継続表示解除指示があったと判定される。或いは、ディスプレイＤがタッチパネルディスプレイである場合、ユーザが、継続表示中のウインドウ上を指やペン等でタップすると、そのウインドウの継続表示解除指示があったと判定される。ステップＳ１１では、制御部３は、継続表示解除指示されたウインドウの表示消去を行い、ステップＳ１２へ進む。一方、制御部３は、継続表示中のウインドウの継続表示解除指示がないと判定した場合（ステップＳ１０：ＮＯ）、ステップＳ１２へ進む。

ステップＳ１２では、制御部３は、表示終了指示があったか否かを判定する。制御部３は、閉じるボタン５５のユーザ操作に応じて、表示終了指示があったと判定した場合（ステップＳ１２：ＹＥＳ）、図５に示す処理を終了する。一方、制御部３は、表示終了指示がないと判定した場合（ステップＳ１２：ＮＯ）、ステップＳ２に戻る。なお、図示しないが、図５に示す処理において、制御部３は、スクロールバー５４のユーザ操作に応じて、手本表示領域５１及び話者表示領域５２を左方向又は右方向へスクロールさせる。

（実施例２）
次に、図６を参照して、実施例２について説明する。図６は、実施例２における制御部３の音読評価表示処理を示すフローチャートである。なお、実施例２は、話者テキスト表示領域においてテキストの領域が指定された場合と、話者テキスト表示領域においてアイコンの領域が指定された場合とで、ウインドウに表示される内容を切り替える構成である。なお、図６に示す処理では、話者スペース領域がユーザ操作により指定された場合の処理を省略している。図６に示す処理は、図５に示す処理と同様に開始される。図６に示すステップＳ２１は、図５に示すステップＳ１と同様である。

ステップＳ２２では、制御部３は、話者テキスト表示領域５２ａ１〜５２ａ３のうち、何れか一の話者テキスト表示領域におけるテキストの領域がユーザ操作により指定されたか否かを判定する。制御部３は、テキストの領域がユーザ操作により指定されたと判定した場合（ステップＳ２２：ＹＥＳ）、ステップＳ２３へ進む。一方、制御部３は、テキストの領域がユーザ操作により指定されていないと判定した場合（ステップＳ２２：ＮＯ）、ステップＳ３０へ進む。

ステップＳ２３では、制御部３は、指定されたテキストの領域に対応するウインドウが継続表示中であるか否かを判定する。制御部３は、上記ウインドウが継続表示中であると判定した場合（ステップＳ２３：ＹＥＳ）、ステップＳ３０へ進む。一方、制御部３は、上記ウインドウが継続表示中でないと判定した場合（ステップＳ２３：ＮＯ）、ステップＳ２４へ進む。ステップＳ２４では、制御部３は、指定されたテキストの領域に対応する話者文要素区間の話者文要素区間データに対応付けられたテキストを特定する。次いで、制御部３は、ステップＳ２４で特定したテキストの全部を表示するウインドウを表示画面上にポップアップ表示させる（ステップＳ２５）。これにより、指定された話者テキスト表示領域に少なくとも一部が表示されたテキストの全部を表示するウインドウＷＴが、図４（Ｂ）に示すようにポップアップ表示される。なお、ステップＳ２６〜Ｓ２９の処理は、図５に示すステップＳ６〜Ｓ９と同様である。

ステップＳ３０では、制御部３は、アイコン５２ａ１１〜５２ａ３１のうち、何れか一のアイコンがユーザ操作により指定されたか否かを判定する。制御部３は、何れか一のアイコンがユーザ操作により指定されたと判定した場合（ステップＳ３０：ＹＥＳ）、ステップＳ３１へ進む。一方、制御部３は、何れか一のアイコンがユーザ操作により指定されていないと判定した場合（ステップＳ３０：ＮＯ）、ステップＳ３８へ進む。

ステップＳ３１では、制御部３は、指定されたアイコンに対応するウインドウが継続表示中であるか否かを判定する。制御部３は、上記ウインドウが継続表示中であると判定した場合（ステップＳ３１：ＹＥＳ）、ステップＳ３８へ進む。一方、制御部３は、上記ウインドウが継続表示中でないと判定した場合（ステップＳ３１：ＮＯ）、ステップＳ３２へ進む。ステップＳ３２では、制御部３は、指定されたアイコンに対応する話者文要素区間において算出された評価点を特定する。次いで、制御部３は、ステップＳ３２で特定した評価点を表示するウインドウを表示画面上にポップアップ表示させる（ステップＳ３３）。これにより、指定されたアイコンに対応する話者文要素区間において算出された評価点を表示するウインドウＷ３１が、図４（Ａ）に示すようにポップアップ表示される。なお、ステップＳ３４〜Ｓ３７の処理は、図５に示すステップＳ６〜Ｓ９と同様である。また、ステップＳ３８〜Ｓ４０の処理は、図５に示すステップＳ１０〜Ｓ１２と同様である。

以上説明したように、上記実施形態によれば、音読評価装置Ｓは、話者による音読に対する総合評価点が表示される状態で、話者テキスト表示領域５２ａ１〜５２ａ３、及び話者スペース領域５２ｓ１，５２ｓ２のうち、何れか一の領域がユーザ操作により指定された場合、指定された何れか一の領域に対応する区間において算出された評価点を表示するウインドウをポップアップ表示させるので、話者等が特に確認したい何れかの区間において算出された評価点の詳細を、より見易い表示態様で表示させることができる。

１通信部
２記憶部
３制御部
４操作部
５インターフェース部
６バス
３１音声処理部
３２音読評価部
３３表示処理部
Ｓ音読評価装置

Claims

話者が文を音読したときに発した音声の波形を示す音声波形データに基づいて、前記音読された文を構成する各文要素の開始タイミングから終了タイミングまでの文要素区間と、複数の前記文要素のうち何れかの前記文要素の終了タイミングから次の前記文要素の開始タイミングまでのインターバル区間との少なくとも何れか一方の区間毎に前記音読に対する評価点を算出する評価点算出手段と、
前記評価点算出手段により算出された前記区間毎の評価点に基づいて、前記音読に対する総合評価点を算出する総合評価点算出手段と、
前記音読された文を構成する各文要素を表すテキストの少なくとも一部を、それぞれの前記文要素区間の時間長に応じた長さの第１の表示領域に時間軸に沿って前記文要素区間毎に表示させる第１表示制御手段と、
前記文要素区間の時間長より短い所定時間間隔毎に前記音声波形データに基づいて特定された音高と音圧との少なくとも何れか一方の音要素の時系列的な変化を表すグラフを第２の表示領域に前記時間軸に沿って表示させる第２表示制御手段と、
前記総合評価点算出手段により算出された総合評価点を第３の表示領域に表示させる第３表示制御手段と、
前記第１の表示領域、前記第２の表示領域、及び複数の前記第１の表示領域間に前記時間軸に沿って位置するスペース領域のうち、何れか一の領域がユーザ操作により指定された場合、指定された前記何れか一の領域に対応する前記区間において算出された前記評価点を表示する第１のウインドウをポップアップ表示させる第４表示制御手段と、
を備えることを特徴とする音読評価装置。
前記第４表示制御手段は、前記第１のウインドウの表示を継続させ、前記第１のウインドウの表示が継続している間に前記何れか一の領域とは異なる他の領域がユーザ操作により新たに指定された場合、新たに指定された他の領域に対応する前記区間において算出された前記評価点を表示する第２のウインドウをポップアップ表示させ、前記第１のウインドウの表示と前記第２のウインドウの表示を継続させることを特徴とする請求項１に記載の音読評価装置。
前記第４表示制御手段は、前記第１の表示領域または前記第２の表示領域がユーザ操作により指定された場合、前記指定された前記第１の表示領域または前記第２の表示領域に対応する前記区間において算出された評価点であって、前記音読に対する評価項目として予め設定された抑揚、音量、滑舌、及び速度のうち少なくとも何れか一つに対する前記評価点を表示する第１のウインドウをポップアップ表示させることを特徴とする請求項１または２に記載の音読評価装置。
前記第４表示制御手段は、前記スペース領域がユーザ操作により指定された場合、前記指定された前記スペース領域に対応する前記区間において算出された評価点であって、前記音読に対する評価項目として予め設定された間合いに対する前記評価点を表示する第１のウインドウをポップアップ表示させることを特徴とする請求項１乃至３の何れか一項に記載の音読評価装置。
前記第４表示制御手段は、前記第１の表示領域がユーザ操作により指定された場合、指定された前記第１の表示領域に少なくとも一部が表示された前記テキストの全部を表示する第３のウインドウをポップアップ表示させることを特徴とする請求項１乃至４の何れか一項に記載の音読評価装置。
前記音読に対する評価項目として予め設定された抑揚、音量、滑舌、及び速度のうち少なくとも何れか一つのそれぞれに対応する前記評価点であって、前記文要素区間毎に算出された前記評価点に基づいて、前記音読に対する区間評価点を前記文要素区間毎に算出する区間評価点算出手段と、
前記区間評価点算出手段により算出された各区間評価点を表すアイコンを、前記第１の表示領域毎に対応して配置された第４の表示領域に前記時間軸に沿って前記文要素区間毎に表示させる第５表示制御手段と、
を更に備え、
前記第４表示制御手段は、前記アイコンがユーザ操作により指定された場合、前記指定された前記アイコンに対応する前記文要素区間において算出された評価点であって、前記音読に対する評価項目として予め設定された抑揚、音量、滑舌、及び速度のうち少なくとも何れか一つのそれぞれに対する前記評価点を表示する第４のウインドウをポップアップ表示させることを特徴とする請求項１乃至５の何れか一項に記載の音読評価装置。
１つ以上のコンピュータにより実行される表示制御方法であって、
話者が文を音読したときに発した音声の波形を示す音声波形データに基づいて、前記音読された文を構成する各文要素の開始タイミングから終了タイミングまでの文要素区間と、複数の前記文要素のうち何れかの前記文要素の終了タイミングから次の前記文要素の開始タイミングまでのインターバル区間との少なくとも何れか一方の区間毎に前記音読に対する評価点を算出する評価点算出ステップと、
前記評価点算出ステップにより算出された前記区間毎の評価点に基づいて、前記音読に対する総合評価点を算出する総合評価点算出ステップと、
前記音読された文を構成する各文要素を表すテキストの少なくとも一部を、それぞれの前記文要素区間の時間長に応じた長さの第１の表示領域に時間軸に沿って前記文要素区間毎に表示させる第１表示制御ステップと、
前記文要素区間の時間長より短い所定時間間隔毎に前記音声波形データに基づいて特定された音高と音圧との少なくとも何れか一方の音要素の時系列的な変化を表すグラフを第２の表示領域に前記時間軸に沿って表示させる第２表示制御ステップと、
前記総合評価点算出ステップにより算出された総合評価点を第３の表示領域に表示させる第３表示制御ステップと、
前記第１の表示領域、前記第２の表示領域、及び複数の前記第１の表示領域間に前記時間軸に沿って位置するスペース領域のうち、何れか一の領域がユーザ操作により指定された場合、指定された前記何れか一の領域に対応する前記区間において算出された前記評価点を表示する第１のウインドウをポップアップ表示させる第４表示制御ステップと、
を含むことを特徴とする表示制御方法。
話者が文を音読したときに発した音声の波形を示す音声波形データに基づいて、前記音読された文を構成する各文要素の開始タイミングから終了タイミングまでの文要素区間と、複数の前記文要素のうち何れかの前記文要素の終了タイミングから次の前記文要素の開始タイミングまでのインターバル区間との少なくとも何れか一方の区間毎に前記音読に対する評価点を算出する評価点算出ステップと、
前記評価点算出ステップにより算出された前記区間毎の評価点に基づいて、前記音読に対する総合評価点を算出する総合評価点算出ステップと、
前記音読された文を構成する各文要素を表すテキストの少なくとも一部を、それぞれの前記文要素区間の時間長に応じた長さの第１の表示領域に時間軸に沿って前記文要素区間毎に表示させる第１表示制御ステップと、
前記文要素区間の時間長より短い所定時間間隔毎に前記音声波形データに基づいて特定された音高と音圧との少なくとも何れか一方の音要素の時系列的な変化を表すグラフを第２の表示領域に前記時間軸に沿って表示させる第２表示制御ステップと、
前記総合評価点算出ステップにより算出された総合評価点を第３の表示領域に表示させる第３表示制御ステップと、
前記第１の表示領域、前記第２の表示領域、及び複数の前記第１の表示領域間に前記時間軸に沿って位置するスペース領域のうち、何れか一の領域がユーザ操作により指定された場合、指定された前記何れか一の領域に対応する前記区間において算出された前記評価点を表示する第１のウインドウをポップアップ表示させる第４表示制御ステップと、
をコンピュータに実行させることを特徴とするプログラム。