JP2017015823A

JP2017015823A - 発話練習装置、表示制御方法、及びプログラム

Info

Publication number: JP2017015823A
Application number: JP2015130009A
Authority: JP
Inventors: 林　宏一; Koichi Hayashi; 宏一林
Original assignee: Brother Industries Ltd
Current assignee: Brother Industries Ltd
Priority date: 2015-06-29
Filing date: 2015-06-29
Publication date: 2017-01-19

Abstract

【課題】表示画面上のどの部分を基準として音声の各音要素を比較して良いかを練習者等に分り易く把握させることが可能な発話練習装置、表示制御方法、及びプログラムを提供する。
【解決手段】発話練習装置は、手本グラフが表示される上側表示領域と話者グラフが表示される下側表示領域の境界部分において、手本文要素区間の時間長に応じた長さの手本表示バーと、話者文要素区間の時間長に応じた長さの話者表示バーとを上下方向に並べて表示させる。
【選択図】図２

Description

本発明は、話者が文字列を音読したときに発した音声を視覚的に表現することが可能なシステム等の技術分野に関する。

近年、語学学習、発声発話訓練等の支援を目的として、話者が文字列を音読したときに発した音声を視覚的に表現する技術が知られている。例えば、特許文献１には、基準音声に対応し且つ発声のタイミング、発声長、音程及び促音を表す図形を表示し、発声部分を図形の色を変更することにより表示するシステムが開示されている。

一方、特許文献２には、練習者が歌唱の練習を行う際の操作性を向上させることを目的とする歌唱指導装置が開示されている。この歌唱指導装置では、お手本音声のピッチの時間的な変化を示すグラフＡ１や練習者音声のピッチの時間的な変化を示すグラフＡ２を表示し、さらに、お手本音声と練習者音声との音量やリズムの違いを比較するために、お手本音声に対応する歌詞Ｗ１にあわせて、練習者音声に対応する歌詞Ｗ２を表示することもできる（特許文献２の図５参照）。

特開２００３−１８６３７９号公報特開２００８−２０７９８号公報

ところで、例えば発声のスピードやタイミングの比較評価に関して、歌唱練習では楽曲のタイミングに歌が合っているかどうかを判定するのに対して、語学やアナウンス練習等では必ずしも模範となるお手本の音声と同じタイミングで発声する必要はなく、そのままのタイミングで比較しなくてもよい。その場合、音高（ピッチ）や音圧、各フレーズのタイミングの比較のためには、お手本の音声と練習者の音声の各音要素を、例えば上下に且つフレーズ順に並べて表示することが考えられる。しかしながら、このように表示しただけでは、例えば練習者が表示画面上のどの部分を基準として（換言すると、注視して）、音声の各音要素を比較して良いか分り難く、このため、お手本と練習者の音高や音圧と合せて、各フレーズのタイミングや間の取り方を一見して比較することは容易ではなかった。

本発明は、以上の点に鑑みてなされたものであり、表示画面上のどの部分を基準として音声の各音要素を比較して良いかを練習者等に分り易く把握させることが可能な発話練習装置、表示制御方法、及びプログラムを提供する。

上記課題を解決するために、請求項１に記載の発明は、第１表示領域と第２表示領域とが時間軸と直交する一方向に並んで配置される表示画面を表示させる発話練習装置であって、文を音読するときの手本となる音声の波形を示す第１音声波形データに基づいて特定された第１文要素区間であって、前記文を構成する文要素の開始タイミングから終了タイミングまでの第１文要素区間を示す第１文要素区間データを文要素毎に記憶する第１記憶手段と、話者が前記文を音読したときに発した音声の波形を示す第２音声波形データに基づいて特定された第２文要素区間であって、前記文要素の開始タイミングから終了タイミングまでの第２文要素区間を示す第２文要素区間データを文要素毎に記憶する第２記憶手段と、前記第１音声波形データに基づいて、前記第１文要素区間データが示す第１文要素区間の時間長より短い所定時間間隔毎に特定された第１音高と第１音圧との少なくとも何れか一方の音要素を示す第１音要素データを記憶する第３記憶手段と、前記第２音声波形データに基づいて、前記第２文要素区間データが示す第２文要素区間の時間長より短い所定時間間隔毎に特定された第２音高と第２音圧との少なくとも何れか一方の音要素を示す第２音要素データを記憶する第４記憶手段と、前記第１音要素データが示す第１音高と第１音圧との少なくとも何れか一方の音要素の時系列的な変化を表す第１グラフを前記時間軸に沿って前記第１表示領域に表示させる第１表示制御手段と、前記第１グラフにより表される音要素と同じ種類の音要素であって、前記第２音要素データが示す第２音高と第２音圧との少なくとも何れか一方の音要素の時系列的な変化を表す第２グラフを前記時間軸に沿って前記第２表示領域に表示させる第２表示制御手段と、前記第１文要素区間データが示す第１文要素区間の時間長に応じた長さの第１表示バーと前記文要素を表すテキストとを前記第１文要素区間毎に前記時間軸に沿って表示させ、且つ、前記第２文要素区間データが示す第２文要素区間の時間長に応じた長さの第２表示バーと前記文要素を表すテキストとを前記第２文要素区間毎に前記時間軸に沿って表示させる第３表示制御手段であって、前記第１表示バーと前記第２表示バーとを前記第１表示領域と前記第２表示領域の境界部分において前記一方向に並べて表示させる第３表示制御手段と、を備えることを特徴とする。

請求項２に記載の発明は、請求項１に記載の発話練習装置において、前記第３表示制御手段は、前記第１文要素区間毎に表示される前記第１表示バー上に前記文要素を表すテキストを表示させ、且つ、前記第２文要素区間毎に表示される前記第２表示バー上に前記文要素を表すテキストを表示させることを特徴とする。

請求項３に記載の発明は、請求項２に記載の発話練習装置において、前記第３表示制御手段は、前記表示バー上に前記文要素を表すテキストが前記時間軸に沿って１行で収まるように表示可能か否かを判定し、１行で収まらない場合には、前記文要素を表すテキストを複数行で前記表示バー上に表示させることを特徴とする。

請求項４に記載の発明は、請求項１乃至３の何れか一項に記載の発話練習装置において、ユーザからの文要素切換指示に応じて、複数の文要素の中の何れか１つの文要素に対応する前記第１文要素区間の開始位置と前記第２文要素区間の開始位置とが前記時間軸と並行する方向で一致するように前記第１表示領域における表示内容全体または前記第２表示領域における表示内容全体を前記時間軸と並行する方向にシフトさせる第４表示制御手段を更に備えることを特徴とする。

請求項５に記載の発明は、請求項１乃至４の何れか一項に記載の発話練習装置において、前記話者による前記文の音読中に前記第２音声波形データを入力する入力手段と、前記話者による音読タイミングを表す線であって前記第１表示領域と前記第２表示領域とを通り前記一方向に延びる線を表示させ、前記入力手段からの前記第２音声波形データの入力に応じて、前記第１表示領域における表示内容全体と前記第２表示領域における表示内容全体とを前記時間軸と並行する方向に別々にスクロールさせる第５表示制御手段と、を更に備えることを特徴とする。

請求項６に記載の発明は、請求項１乃至５の何れか一項に記載の発話練習装置において、前記第１音圧及び前記第２音圧それぞれの時系列的な変化を表すグラフは棒グラフであることを特徴とする。

請求項７に記載の発明は、請求項６に記載の発話練習装置において、前記第１表示制御手段及び第２表示制御手段は、前記棒グラフにおいて音圧レベルが高い部分の色より音圧レベルが低い部分の色を薄く表示させることを特徴とする。

請求項８に記載の発明は、請求項１乃至７の何れか一項に記載の発話練習装置において、前記文要素は、フレーズであることを特徴とする。

請求項９に記載の発明は、第１表示領域と第２表示領域とが時間軸と直交する一方向に並んで配置される表示画面を表示させる発話練習装置に含まれるコンピュータにより実行される表示制御方法であって、文を音読するときの手本となる音声の波形を示す第１音声波形データに基づいて特定された第１文要素区間であって、前記文を構成する文要素の開始タイミングから終了タイミングまでの第１文要素区間を示す第１文要素区間データを文要素毎に記憶する第１記憶ステップと、話者が前記文を音読したときに発した音声の波形を示す第２音声波形データに基づいて特定された第２文要素区間であって、前記文要素の開始タイミングから終了タイミングまでの第２文要素区間を示す第２文要素区間データを文要素毎に記憶する第２記憶ステップと、前記第１音声波形データに基づいて、前記第１文要素区間データが示す第１文要素区間の時間長より短い所定時間間隔毎に第１音高と第１音圧との少なくとも何れか一方の音要素を示す第１音要素データを記憶する第３記憶ステップと、前記第２音声波形データに基づいて、前記第２文要素区間データが示す第２文要素区間の時間長より短い所定時間間隔毎に第２音高と第２音圧との少なくとも何れか一方の音要素を示す第２音要素データを記憶する第４記憶ステップと、前記第１音要素データが示す第１音高と第１音圧との少なくとも何れか一方の音要素の時系列的な変化を表す第１グラフを前記時間軸に沿って前記第１表示領域に表示させる第１表示制御ステップと、前記第１グラフにより表される音要素と同じ種類の音要素であって、前記第２音要素データが示す第２音高と第２音圧との少なくとも何れか一方の音要素の時系列的な変化を表す第２グラフを前記時間軸に沿って前記第２表示領域に表示させる第２表示制御ステップと、前記第１文要素区間データが示す第１文要素区間の時間長に応じた長さの第１表示バーと前記文要素を表すテキストとを前記第１文要素区間毎に前記時間軸に沿って表示させ、且つ、前記第２文要素区間データが示す第２文要素区間の時間長に応じた長さの第２表示バーと前記文要素を表すテキストとを前記第２文要素区間毎に前記時間軸に沿って表示させる第３表示制御ステップであって、前記第１表示バーと前記第２表示バーとを前記第１表示領域と前記第２表示領域の境界部分において前記一方向に並べて表示させる第３表示制御ステップと、を含むことを特徴とする。

請求項１０に記載の発明は、第１表示領域と第２表示領域とが時間軸と直交する一方向に並んで配置される表示画面を表示させる発話練習装置に含まれるコンピュータに、文を音読するときの手本となる音声の波形を示す第１音声波形データに基づいて特定された第１文要素区間であって、前記文を構成する文要素の開始タイミングから終了タイミングまでの第１文要素区間を示す第１文要素区間データを文要素毎に記憶する第１記憶ステップと、話者が前記文を音読したときに発した音声の波形を示す第２音声波形データに基づいて特定された第２文要素区間であって、前記文要素の開始タイミングから終了タイミングまでの第２文要素区間を示す第２文要素区間データを文要素毎に記憶する第２記憶ステップと、前記第１音声波形データに基づいて、前記第１文要素区間データが示す第１文要素区間の時間長より短い所定時間間隔毎に第１音高と第１音圧との少なくとも何れか一方の音要素を示す第１音要素データを記憶する第３記憶ステップと、前記第２音声波形データに基づいて、前記第２文要素区間データが示す第２文要素区間の時間長より短い所定時間間隔毎に第２音高と第２音圧との少なくとも何れか一方の音要素を示す第２音要素データを記憶する第４記憶ステップと、前記第１音要素データが示す第１音高と第１音圧との少なくとも何れか一方の音要素の時系列的な変化を表す第１グラフを前記時間軸に沿って前記第１表示領域に表示させる第１表示制御ステップと、前記第１グラフにより表される音要素と同じ種類の音要素であって、前記第２音要素データが示す第２音高と第２音圧との少なくとも何れか一方の音要素の時系列的な変化を表すグラフを前記時間軸に沿って前記第２表示領域に表示させる第２表示制御ステップと、前記第１文要素区間データが示す第１文要素区間の時間長に応じた長さの第１表示バーと前記文要素を表すテキストとを前記第１文要素区間毎に前記時間軸に沿って表示させ、且つ、前記第２文要素区間データが示す第２文要素区間の時間長に応じた長さの第２表示バーと前記文要素を表すテキストとを前記第２文要素区間毎に前記時間軸に沿って表示させる第３表示制御ステップであって、前記第１表示バーと前記第２表示バーとを前記第１表示領域と前記第２表示領域の境界部分において前記一方向に並べて表示させる第３表示制御ステップと、を実行させることを特徴とする。

請求項１，６〜１０に記載の発明によれば、表示画面上のどの部分を基準として音声の各音要素を比較して良いかを練習者等に分り易く把握させることができる。

請求項２に記載の発明によれば、第１表示バーと第２表示バーが、どの文要素に対応するかを、話者等に、一見して把握させることができる。

請求項３に記載の発明によれば、表示バー上にテキストが収まらない場合であっても、各文要素の内容を話者等に把握させることができる。

請求項４に記載の発明によれば、話者の音読タイミングと手本の音読タイミングとが全体的にずれている場合であっても、複数の文要素のうちで話者等が注目している文要素における手本の音要素と話者の音要素との違いを、話者等に、より分り易く把握させることができる。

請求項５に記載の発明によれば、手本の音読スピードと話者の音読スピードとの違いを、話者等に、より分かり易く把握させることができる。

本実施形態に係る発話練習装置Ｓの概要構成例を示す図である。話者による文の音読中にリアルタイムに表示された、音要素の時系列的な変化を表すグラフ及び表示バーの表示例１を示す図である。話者による文の音読中にリアルタイムに表示された、音要素の時系列的な変化を表すグラフ及び表示バーの表示例２を示す図である。話者による文の音読中にリアルタイムに表示された、音要素の時系列的な変化を表すグラフ及び表示バーの表示例３を示す図である。手本文要素区間の開始位置と話者文要素区間の開始位置とを時間軸と並行する方向で一致させる例を示す図である。発話練習装置Ｓにおける制御部３の音要素表示処理を示すフローチャートである。

以下、本発明の実施形態を図面に基づいて説明する。

［１. 発話練習装置Ｓの構成及び機能］
初めに、図１を参照して、本発明の一実施形態に係る発話練習装置Ｓの構成及び機能について説明する。図１は、本実施形態に係る発話練習装置Ｓの概要構成例を示す図である。なお、発話練習装置の一例として、パーソナルコンピュータや、携帯型情報端末（スマートフォン等）などが挙げられる。図１に示すように、発話練習装置Ｓは、通信部１、記憶部２、制御部３、操作部４、及びインターフェース（ＩＦ）部５等を備えて構成され、これらの構成要素はバス６に接続されている。操作部４は、ユーザからの操作指示を受け付け、受け付けた操作に応じた信号を制御部３へ出力する。インターフェース部５には、マイクＭ、及びディスプレイＤ等が接続される。マイクＭは、語学学習や、アナウンス、朗読などの発話練習等を行う練習者である話者が、複数の文要素を含む文（文章）を音読したときに発した音声を集音する。文要素は、文を構成する単位である。文要素の例として、フレーズ、文節、単語の他、後述するように複数のフレーズが結合した結合フレーズ等が挙げられる。ここで、フレーズは、一般に文章を読むときに一息で読む単位である。フレーズは、１以上の文節から構成される。つまり、１つのフレーズが１つの文節から構成される場合もあるし、１つのフレーズが複数の文節から構成される場合もある。文節は、例えば、１つ以上の単語のまとまりである。単語には、名詞、動詞、形容詞、副詞、及び接続詞等の自立語（単独で文節を構成できる品詞）や、助動詞及び助詞等の付属語（単独で文節を構成できない品詞）などがある。音読対象となる文の例として、語学学習や、アナウンス、朗読などで用いられる文章などが挙げられる。

ディスプレイＤは、制御部３からの表示指令にしたがって、第１表示領域と第２表示領域とが時間軸と直交する一方向に並んで配置される表示画面を表示する。ここで、第１表示領域は、文を音読するときの手本（模範）となる音声の各音要素の情報が表示される領域である。一方、第２表示領域は、話者が文を音読したときに発した音声の各音要素の情報が表示される領域である。音要素の例として、音高（ピッチまたは抑揚ともいう)、音圧、音読スピード、間合いなどが挙げられる。時間軸を例えば横軸（Ｘ軸）とすることで、第１表示領域と第２表示領域とが時間軸と直交する上下方向（縦方向）に並んで配置されるように構成するとよい。以下の説明では、第１表示領域を上側に、第２表示領域を下側にそれぞれ配置した場合を例にとり、第１表示領域を上側表示領域といい、第２表示領域を下側表示領域というものとする。なお、第１表示領域を下側に、第２表示領域を上側にそれぞれ配置しても構わない。また、マイクＭ、及びディスプレイＤは、発話練習装置Ｓと一体型であってもよいし、別体であってもよい。

通信部１は、有線または無線によりネットワーク（図示せず）に接続してサーバ等と通信を行う。記憶部２は、例えばハードディスクドライブ等からなり、ＯＳ（オペレーティングシステム）、及び音要素表示処理プログラム（本発明のプログラムの一例）等を記憶する。音要素表示処理プログラムは、コンピュータとしての制御部３に、後述する音要素表示処理を実行させるプログラムである。音要素表示処理プログラムは、アプリケーションとして、所定のサーバからダウンロードされてもよいし、ＣＤ、ＤＶＤ等の記録媒体に記憶されて提供されてもよい。また、記憶部２は、複数の文要素を含む文のテキストデータと、この文を音読するときの手本となる音声の波形を示す手本音声波形データ（第１音声波形データの一例）を記憶する。ここで、テキストデータには、例えば、音読対象となる文を構成する各文要素を表すテキスト（文字）が文要素毎に区切られて規定されている。例えば、文要素間に挿入される句読点により区切られる。或いは、文要素を表すテキストには、先頭から順番にシリアル番号が付与されていてもよい。なお、手本音声波形データは、所定の音声ファイル形式で記憶される。

制御部３は、コンピュータとしてのＣＰＵ（Central Processing Unit）、ＲＯＭ（Read Only Memory）、及びＲＡＭ（Random Access Memory）等により構成される。制御部３は、音要素表示処理プログラムにより、音声処理部３１、音読評価部３２、及び表示処理部３３として機能する。音声処理部３１は、本発明における入力手段の一例である。表示処理部３３は、本発明における第１表示制御手段、第２表示制御手段、第３表示制御手段、第４表示制御手段、及び第５表示制御手段の一例である。記憶部２または制御部３におけるＲＡＭは、本発明における第１記憶手段〜第４記憶手段の一例である。

音声処理部３１は、所定の音声ファイル形式で記憶された手本音声波形データを処理対象として記憶部２から入力する。入力された手本音声波形データはＲＡＭに記憶される。また、音声処理部３１は、話者が上記文を音読したときに発した音声であってマイクＭにより集音された音声の波形を示す話者音声波形データ（第２音声波形データの一例）を入力する。入力された話者音声波形データはＲＡＭに記憶される。なお、音声波形データは、離散化された時系列の音圧波形データであり、例えば、サンプリングレート44.1kHz、量子化16bit、及びモノラルの波形データである。音圧とは、音波による空気の圧力の変化分（Pa）をいう。本実施形態では、音圧として、瞬時音圧（Pa）の二乗平均平方根（RMS）である実効音圧（Pa）の大きさを計算上扱い易い数値で表した音圧レベル(dB)を適用する。音圧レベル(dB)は、広義には音量ともいう。

音声処理部３１は、手本音声波形データに基づいて、各文要素の開始タイミングから終了タイミングまでの手本文要素区間（第１文要素区間の一例）を文要素毎に特定する。そして、音声処理部３１は、文要素毎に特定した手本文要素を示す手本文要素区間データ（第１文要素区間データの一例）をＲＡＭに記憶する。なお、特定された手本文要素区間には、例えば先頭から順番にシリアル番号が付与される。また、文要素は、例えば波形の開始時点からの時間の範囲（例えば、01:00-03:00）で表される。同様に、音声処理部３１は、話者音声波形データに基づいて、各文要素の開始タイミングから終了タイミングまでの話者文要素区間（第２文要素区間の一例）を文要素毎に特定する。そして、音声処理部３１は、文要素毎に特定した話者文要素区間を示す話者文要素区間データ（第２文要素区間データの一例）をＲＡＭに記憶する。なお、特定された話者文要素区間には、例えば先頭から順番にシリアル番号が付与される。

ここで、開始タイミングと終了タイミングは、それぞれ、音声の波形から認識されてもよいし、上述したように算出された音圧レベル(dB)から認識されてもよい。例えば、音声処理部３１は、音声の波形の振幅が所定値以上になった時点を開始タイミングとして認識する。或いは、音声処理部３１は、音圧レベル(dB)が所定値以上になった時点を開始タイミングとして認識する。また、例えば、音声処理部３１は、音声の波形の振幅幅が所定値未満になった時点を終了タイミングとして認識する。或いは、音声処理部３１は、音圧レベル(dB)が所定値未満になった時点を終了タイミングとして認識する。なお、例えば、音圧レベル(dB)が所定値未満になった時点から、音圧レベル(dB)が所定値以上になった時点までの時間（無音時間）が閾値以上である場合に限り、音圧レベル(dB)が所定値未満になった時点が終了タイミングとして認識され、且つ音圧レベル(dB)が所定値以上になった時点が開始タイミングとして認識されるとよい（音声の波形の振幅についても同様）。これは、無音時間が閾値より短い場合、その区間で文要素を区切らない趣旨である。ところで、「車内では（間合い）携帯電話は（間合い）マナーモードに設定の上（間合い）通話はご遠慮下さい」と区切り区切りゆっくり音読するお手本の音声波形データがあるとすると、上記の方法で開始タイミングと終了タイミングとを認識することにより、「車内では」、「携帯電話は」、「マナーモードに設定の上」、「通話はご遠慮下さい」というように、４つのフレーズ毎に対応する手本文要素区間に区切られて特定される。また、話者が、同じ文を、手本と同じ間合いで区切り区切り音読した場合に、上記の方法で開始タイミングと終了タイミングとを認識することで、「車内では」、「携帯電話は」、「マナーモードに設定の上」、「通話はご遠慮下さい」というように、４つのフレーズ毎に対応する話者文要素区間に区切られて特定される。これに対し、話者が、例えば、上記文のうち、「マナーモードに設定の上」と「通話はご遠慮下さい」の部分を、一息で「マナーモードに設定の上通話はご遠慮下さい」と素早く音読した場合、この部分が一息で読むフレーズとなり、上記の方法で開始タイミングと終了タイミングとを認識すると、上記部分は特に区切られずに話者文要素区間が特定されることになる。このように、手本により音読される複数のフレーズが、話者により音読される１つのフレーズに対応している場合、手本により音読されるフレーズに対応する手本文要素区間と、話者により音読されるフレーズの話者文要素区間とを比較し難くなる。このため、このような場合、音声処理部３１は、話者により音読されるフレーズ（「マナーモードに設定の上通話はご遠慮下さい」）を、手本により音読されるフレーズに合わせるように複数の文節または単語に区分して話者文要素区間を特定するとよい。

より具体的には、音声処理部３１は、例えば、記憶されている手本音声波形データが示す音声の波形から音圧の累積値（以下、「手本音圧累積値」という）を手本文要素区間毎にあらかじめ算出し、手本文要素区間毎に対応付けてＲＡＭ等に記憶しておく。手本音圧累積値は、例えば「車内では」→「携帯電話は」→「マナーモードに設定の上」→「通話はご遠慮下さい」というように音読されるフレーズ順に算出される。つまり、第１の手本音圧累積値、第２の手本音圧累積値・・・というように算出される。また、音声処理部３１は、例えば、記憶されている手本音声波形データが示す音声の波形から音素（以下、「手本音素」という）の数を手本文要素区間毎にあらかじめ算出し、手本文要素区間毎に対応付けてＲＡＭ等に記憶しておく。音素の例として、母音のみ、子音のみ、子音と母音との組合せの３つが挙げられる。母音には、ａ（あ）、ｉ（い）、ｕ（う）、ｅ（え）、ｏ（お）の５母音がある。子音には、母音以外の音成分（例えば、ｋ、ｓ、ｔ、ｎ、ｈ、ｍ、ｙ、ｒ、ｗ・・・など）がある。手本音素の数は、例えば「車内では」→「携帯電話は」→「マナーモードに設定の上」→「通話はご遠慮下さい」というように音読されるフレーズ順に算出される。つまり、第１の手本音素の数、第２の手本音素の数・・・・というように特定される。なお、音素の特定方法は、ラベリング手法等で公知であるので詳しい説明を省略する。

そして、音声処理部３１は、話者が上記文を音読したときの音声の波形を示す話者音声波形データを入力し、入力された話者音声波形データが示す音声の波形から時系列で音圧を積算し、且つ時系列で音素の数を特定していく。この期間中、音声処理部３１は、音圧の積算値がどれぐらいになったか、何個の音素が特定されたかなど複合的に判断して、区切タイミング（開始タイミングまたは終了タイミングに相当）を特定する。例えば、音声処理部３１は、音圧の積算値と手本音圧累積値とを比較（第１の手本音圧累積値、第２の手本音圧累積値・・・という順に比較）し、その差が閾値以内になった第１のタイミングと、特定した音素の数と手本音素の数とを比較（第１の手本音素の数、第２の手本音素の数・・・という順に比較）しその差が閾値以内になった第２のタイミングから区切タイミングを順次特定する。例えば、第１のタイミング（例えば音声の波形の開始位置からの経過時間）と、第２のタイミングとの間の時間が区切タイミングとして特定される。そして、音声処理部３１は、上述したように音圧レベル等により特定した話者文要素区間を区切タイミングでさらに区切ることで最終的な話者文要素区間を順次特定する。この場合、例えば、「マナーモードに設定の上通話はご遠慮下さい」の部分は、「マナーモードに設定の上」と「通話はご遠慮下さい」とに区切られることで、話者文要素区間が特定されることになる。つまり、上記区分タイミングは、例えば、「マナーモードに設定の上」に対応する話者文要素区間の終了タイミングとなり、且つ「通話はご遠慮下さい」に対応する話者文要素区間の開始タイミングとなる。これに伴い、「マナーモードに設定の上通話はご遠慮下さい」を表すテキストは、「マナーモードに設定の上」を表すテキストと、「通話はご遠慮下さい」を表すテキストとに分割されることになる。これにより、手本により音読されるフレーズに対応する手本文要素区間と、話者により音読される例えば文節（フレーズが複数に区切られた文節）に対応する話者文要素区間とが比較されることになる。

上記とは逆に、例えば、「車内では（間合い）携帯電話はマナーモードに設定の上通話はご遠慮下さい」というように、一部素早く音読するお手本の音声波形データがあるとすると、上記の方法で開始タイミングと終了タイミングとを認識することにより、「車内では」、「携帯電話はマナーモードに設定の上通話はご遠慮下さい」というように、２つのフレーズ毎に対応する手本文要素区間に区切られて特定される。これに対し、話者が、「車内では（間合い）携帯電話は（間合い）マナーモードに設定の上（間合い）通話はご遠慮下さい」と区切り区切りゆっくり音読した場合、上記の方法で開始タイミングと終了タイミングとを認識することで、「車内では」、「携帯電話は」、「マナーモードに設定の上」、「通話はご遠慮下さい」というように、４つのフレーズ毎に対応する話者文要素区間に区切られて特定されることになる。このように、手本により音読される１つのフレーズが、話者により音読される複数のフレーズに対応している場合も、手本により音読されるフレーズに対応する手本文要素区間と、話者により音読されるフレーズの話者文要素区間とを比較し難くなる。このため、このような場合、音声処理部３１は、例えば、手本により音読されるフレーズに合わせるように、例えば「携帯電話は」と「マナーモードに設定の上」と「通話はご遠慮下さい」という３つのフレーズを含む結合フレーズに対応する話者文要素区間を特定するとよい。

この場合も、上記と同様、音声処理部３１は、例えば、手本音圧累積値と手本音素の数とを手本文要素区間毎に記憶しておく。そして、音声処理部３１は、話者が上記文を音読したときの音声の波形を示す話者音声波形データを入力し、入力された話者音声波形データが示す音声の波形から時系列で音圧を積算し、且つ時系列で音素の数を特定していく。音声処理部３１は、例えば、音圧の積算値と手本音圧累積値とを比較し、その差が閾値以内になったタイミング（例えば、音圧の積算値が手本音圧累積値に到達したタイミング）と、特定した音素の数と手本音素の数とを比較しその差が閾値以内になったタイミング（例えば、特定した音素の数が手本音素の数に到達したタイミング）とから結合フレーズの終了タイミングを特定する。なお、結合フレーズの開始タイミングは、結合フレーズが含む先頭のフレーズの開始タイミングに相当する。そして、音声処理部３１は、結合フレーズの開始タイミングから終了タイミングまでの区間を、最終的な手本文要素区間として特定する。この場合、例えば、「携帯電話は」と「マナーモードに設定の上」と「通話はご遠慮下さい」を含む３つのフレーズは、「携帯電話はマナーモードに設定の上通話はご遠慮下さい」という結合フレーズとして、その話者文要素区間が特定されることになる。これに伴い、「携帯電話は」を表すテキストと、「マナーモードに設定の上」を表すテキストと、「通話はご遠慮下さい」を表すテキストとは、「携帯電話はマナーモードに設定の上通話はご遠慮下さい」を表すテキストに結合されることになる。これにより、手本により音読されるフレーズに対応する手本文要素区間と、話者により音読される結合フレーズに対応する話者文要素区間とが比較されることになる。

なお、音声処理部３１は、手本音声波形データに基づいて、複数の文要素のうち何れかの文要素の終了タイミングから次の文要素の開始タイミングまでの手本インターバル区間を特定してもよい。同様に、音声処理部３１は、話者音声波形データに基づいて、複数の文要素のうち何れかの文要素の終了タイミングから次の文要素の開始タイミングまでの話者インターバル区間を特定してもよい。

また、音声処理部３１は、手本音声波形データから所定時間毎に切り出したデータから音圧レベル(dB)を手本音圧（第１音圧の一例）として所定時間間隔毎に特定する。そして、音声処理部３１は、所定時間間隔毎に特定した手本音圧を示す手本音圧データ（第１音要素データの一例）をＲＡＭに記憶する。同様に、音声処理部３１は、話者音声波形データから所定時間毎に切り出したデータから音圧レベル(dB)を話者音圧（第２音圧の一例）として所定時間間隔毎に特定する。そして、音声処理部３１は、所定時間間隔毎に特定した話者音圧を示す話者音圧データ（第２音要素データの一例）をＲＡＭに記憶する。また、音声処理部３１は、手本音声波形データから所定時間毎に切り出したデータから基本周波数（Hz）を算出し、算出した基本周波数（Hz）を手本音高（第１音高の一例）として所定時間間隔毎に特定する。なお、音高の特定方法には、例えば、ゼロクロス法やベクトル自己相関等の公知の手法を適用できる。そして、音声処理部３１は、所定時間間隔毎に特定した手本音高を示す手本音高データ（第１音要素データの一例）をＲＡＭに記憶する。同様に、音声処理部３１は、話者音声波形データから所定時間毎に切り出したデータから基本周波数（Hz）を算出し、算出した基本周波数（Hz）を話者音高（第２音高の一例）として所定時間間隔毎に特定する。そして、音声処理部３１は、所定時間間隔毎に特定した話者音高を示す話者音高データ（第２音要素データの一例）をＲＡＭに記憶する。なお、音圧特定及び音高特定するための上記所定時間は、文要素区間の時間長（時間的長さ）より短い時間であり、例えば１０ｍｓ程度に設定される。

音読評価部３２は、手本文要素区間データが示す手本文要素区間の時間長と、話者文要素区間データが示す話者文要素区間の時間長とを比較して文を音読するスピード（音読スピード）の評価を文要素（つまり、文要素区間）毎に行う。例えば、音読評価部３２は、時間長の比較結果として、文要素毎に、手本文要素区間の時間長と話者文要素区間の時間長との時間差を算出し、この時間差の絶対値に基づいて評価点を算出することで音読スピードの評価を行う。例えば、時間差の絶対値が０に近いほど、評価が高く（つまり、評価点が高く）なるように算出される。このようにして文要素毎に音読スピードの評価がなされる。なお、音読評価部３２は、手本インターバル区間の時間長と、話者インターバル区間の時間長とを比較して文を音読したときの間合いの評価を行ってもよい。この場合、音読評価部３２は、例えば、時間長の比較結果として、手本インターバル区間の時間長と話者インターバル区間の時間長との時間差を算出し、この時間差の絶対値に基づいて評価点を算出することで間合いの評価を行う。

また、音読評価部３２は、手本音圧データが示す手本音圧と、話者音圧データが示す話者音圧とを比較して、音圧の評価を文要素毎に行う。例えば、音読評価部３２は、音圧の比較結果として、手本文要素区間の手本音圧と話者文要素区間の話者音圧との差を算出し、この差に基づいて評価点を算出することで音量の評価を行う。この評価点は、例えば、差が０に近いほど、評価が高く（つまり、評価点が高く）なるように算出される。また、音読評価部３２は、手本音高データが示す手本音高と、話者音高データが示す話者音高とを比較して、音高の評価を文要素毎に行う。例えば、音読評価部３２は、音高の比較結果として、手本文要素区間の手本音高と話者文要素区間の話者音高との差を算出し、この差に基づいて評価点を算出することで音高の評価を行う。この評価点は、例えば、差が０に近いほど、評価が高く（つまり、評価点が高く）なるように算出される。そして、音読評価部３２は、例えば、１つの文要素区間における音読スピードの評価と、この文要素区間における音圧の評価と、この文要素区間における音高の評価とに基づいて、文要素区間毎に総合評価を行う。例えば、音読スピードの評価点と、音圧の評価点と、音高の評価点との合計値または平均値が総合評価点として文要素区間毎に算出される。

表示処理部３３は、手本音高データが示す手本音高の時系列的な変化を表す手本グラフ（第１グラフの一例）と、手本音圧データが示す手本音圧の時系列的な変化を表す手本グラフ（第１グラフの一例）とを、時間軸に沿って上側表示領域に表示させる。また、表示処理部３３は、話者音高データが示す話者音高の時系列的な変化を表す話者グラフ（第２グラフの一例）と、話者音圧データが示す話者音圧の時系列的な変化を表す話者グラフ（第２グラフの一例）とを、時間軸に沿って下側表示領域に表示させる。なお、手本音高の時系列的な変化を表す手本グラフと、手本音圧の時系列的な変化を表す手本グラフとの何れか一方の手本グラフが上側表示領域に表示されるように構成してもよい。この場合、表示処理部３３は、手本グラフにより表される音要素（つまり、手本音高または手本音圧）と同じ種類の音要素（例えば、手本音高と同じ種類の音要素は話者音高）の時系列的な変化を表す話者グラフを、時間軸に沿って下側表示領域に表示させることになる。そして、表示処理部３３は、手本文要素区間データが示す手本文要素区間の時間長に応じた長さの手本表示バー（第１表示バーの一例）と、この手本文要素区間の文要素を表すテキストとを手本文要素区間毎に時間軸に沿って表示させ、且つ、話者文要素区間データが示す話者文要素区間の時間長に応じた長さの話者表示バー（第２表示バーの一例）と話者文要素区間の文要素を表すテキストとを、話者文要素区間毎に時間軸に沿って表示させる。このとき、表示処理部３３は、手本表示バーと話者表示バーとを上側表示領域と下側表示領域の境界部分において上下方向に並べて表示させる。これにより、表示画面上のどの部分を基準として音声の各音要素を比較して良いかを話者等に分り易く把握させることができる。すなわち、話者は、表示画面上の手本表示バーと話者表示バーとを基準として手本の音要素と話者の音要素とを比較することで、手本の音要素と話者の音要素との違いを、一見して把握することができる。

図２乃至図４は、話者による文の音読中にリアルタイムに表示された、音要素の時系列的な変化を表すグラフ及び表示バーの表示例１〜３を示す図である。なお、図２の例は、上述したように算出された音圧レベルに基づいて文要素区間が特定された場合において、手本により音読される１つのフレーズが、話者により音読される１つのフレーズに対応している場合の例である。図２に示す上側表示領域５１には、手本音高の時系列的な変化を表す手本グラフ５１ａ１〜５１ａ４と、手本音圧の時系列的な変化を表す手本グラフ５１ｂ１〜５１ｂ４とが、時間軸ｔに沿って手本文要素区間毎に区別して表示されている。また、図２に示す下側表示領域５２には、話者音高の時系列的な変化を表す話者グラフ５２ａ１〜５２ａ４と、話者音圧の時系列的な変化を表す話者グラフ５２ｂ１〜５２ｂ４とが、時間軸ｔに沿って話者文要素区間毎に区別して表示されている。手本グラフ５１ａ１〜５１ａ４と話者グラフ５２ａ１〜５２ａ４とは折線グラフであり、手本グラフ５１ｂ１〜５１ｂ４と話者グラフ５２ｂ１〜５２ｂ４とは棒グラフである。ここで、表示処理部３３は、棒グラフにおいて音圧レベルが高い部分の色より音圧レベルが低い部分の色を薄く表示させるようにするとよい。図２の例では、音圧レベルの高い部分Ｈから、音圧レベルの低い部分Ｌになるにつれて色が徐々に薄くなるように表示されている。これにより、音圧レベルの大きさを、話者等に、より分かり易く把握させることができる。

さらに、図２の例では、手本表示バー５１ｃ１〜５１ｃ４と話者表示バー５２ｃ１〜５２ｃ４とが、それぞれに対応する文要素区間毎に、上側表示領域５１と下側表示領域５２の境界部分Ｂにおいて上下方向に並べられて表示されている。手本表示バー５１ｃ１の時間軸ｔと並行する方向の長さＤ１（言い換えれば、ピクセル数）は、手本表示バー５１ｃ１に対応する手本文要素区間の時間長に応じた長さに設定されている（他の手本表示バー５１ｃ２〜５１ｃ４についても同様）。つまり、手本文要素区間の時間長が長いほど、手本表示バー５１ｃ１の長さＤ１は距離的に長く設定される。同様に、話者表示バー５２ｃ１の時間軸ｔと並行する方向の長さＤ２は、話者表示バー５２ｃ１に対応する話者文要素区間の時間長に応じた長さに設定されている。なお、表示バーの開始タイミングと手本グラフの開始タイミングは必ずしも一致せず、図２に示すように、タイムラグδが発生する場合がある。この理由は、例えば音圧レベルは一定値以上でないと開始タイミングとして認識されないことや、計算上数値を丸めるときに出る誤差等によるものである。

また、表示処理部３３は、図２に示すように、手本文要素区間毎に表示される手本表示バー５１ｃ１〜５１ｃ４上に上記文要素を表すテキストを表示させ、且つ、話者文要素区間毎に表示される話者表示バー５２ｃ１〜５２ｃ４上に上記文要素を表すテキストを表示させるようにするとよい。これにより、手本表示バーと話者表示バーが、どの文要素に対応するかを、話者等に、一見して把握させることができる。例えば、表示処理部３３は、手本表示バー５１ｃ１〜５１ｃ４に対応する手本文要素区間に対応するテキストを、上記処理対象の手本音声波形データに対応付けられているテキストデータから抽出する。ここで、手本文要素区間に対応するテキストとは、手本文要素区間に付与されたシリアル番号と一致する順番（例えば文要素の先頭からの順番）のテキストを意味する。そして、表示処理部３３は、抽出したテキストを手本表示バー５１ｃ１〜５１ｃ４の輪郭内に表示（例えば、白抜き表示）させる。同様に、表示処理部３３は、話者表示バー５２ｃ１〜５２ｃ４に対応する話者文要素区間に対応するテキストを、上記処理対象の話者音声波形データに対応付けられているテキストデータから抽出する。そして、表示処理部３３は、抽出したテキストを話者表示バー５２ｃ１〜５２ｃ４の輪郭内に表示（例えば、白抜き表示）させる。なお、表示されるテキストには、図２に示すように、句読点が含まれる。ここで、例えば話者表示バー５２ｃ１〜５２ｃ４上にテキストが収まらない場合、テキストが話者表示バー５２ｃ１〜５２ｃ４の領域からはみ出す部分の文字は表示されないか、或いは、テキストが話者表示バー５２ｃ１〜５２ｃ４の領域からはみ出して表示されることになる。このため、表示処理部３３は、手本表示バー５１ｃ１〜５１ｃ４と話者表示バー５２ｃ１〜５２ｃ４との少なくとも何れか一方の表示バー上に上記文要素を表すテキストが時間軸ｔに沿って１行で収まるように表示可能か否かを判定し、１行で収まらない場合には、上記文要素を表すテキストを複数行で表示バー上に表示させるようにするとよい。これにより、表示バー上にテキストが収まらない場合であっても、各文要素の内容を話者等に把握させることができる。なお、制御部３は、話者による音読中に入力された話者音声波形データから、公知の音声認識技術によりワードを抽出することで、表示バー上に表示させるべきテキストを取得してもよい。

また、図２の例では、音読評価部３２により算出された総合評価点に応じた絵柄（評価結果）が、各文要素区間の話者表示バー５２ｃ１〜５２ｃ４上の右端部に表示されている。ここで、晴れを示す絵柄は、その文要素区間の総合評価点が例えば７０〜１００点であることを示す。曇りを示す絵柄は、その文要素区間の総合評価点が例えば５０〜６９点であることを示す。雨を示す絵柄は、その文要素区間の総合評価点が例えば４９〜０点であることを示す。なお、上側表示領域５１に表示される手本グラフ及び手本表示バーの色を例えば青系統とし、下側表示領域５２に表示される話者グラフ及び話者表示バーの色を例えばオレンジ系統とするように、上側表示領域５１と下側表示領域５２とで色分け表示させるように構成するとよい。これにより、手本の音要素と話者の音要素との違いを、話者等に、より分かり易く把握させることができる。

また、図２の例では、表示処理部３３は、話者による文の音読中に、上側表示領域５１と下側表示領域５２とを通り上下方向に延びる線Ｔを固定表示させている。この線Ｔは、話者による音読タイミングを表す線である。下側表示領域５２において線Ｔの左側には、話者による文の音読中に入力された話者音声波形データに基づいて特定された話者音圧と話者音高それぞれの変化を表す話者グラフが表示される。つまり、表示処理部３３は、話者音声波形データの入力に応じて、下側表示領域５２における表示内容全体を左方向（時間軸ｔと並行する方向）にスクロールさせる。このときのスクロールの速度は、話者の音読スピードに応じた速度となる。また、表示処理部３３は、手本音声波形データの入力に応じて、上側表示領域５１における表示内容全体を左方向にスクロールさせる。このときのスクロールの速度は、手本の音読スピードに応じた速度となる。このため、話者の音読スピードと、手本の音読スピードとが異なる場合、表示処理部３３は、上側表示領域５１における表示内容全体と下側表示領域５２における表示内容全体とを左方向に別々にスクロールさせることになる。これにより、手本の音読スピードと話者の音読スピードとの違いを、話者等に、より分かり易く把握させることができる。

一方、図３の例は、上述したように算出された音圧レベルに基づいて文要素区間が特定された場合において、手本により音読される複数のフレーズ（「マナーモードに設定の上」と「通話はご遠慮下さい」）が、話者により音読される１つのフレーズ（「マナーモードに設定の上通話はご遠慮下さい」）に対応している場合の例である。この場合、上述したように、音声処理部３１は、話者により音読される１つのフレーズ（「マナーモードに設定の上通話はご遠慮下さい」）を、手本により音読される複数のフレーズ（「マナーモードに設定の上」と「通話はご遠慮下さい」）に合わせるように、図３に示す区切タイミングＤＴで区切ることで話者文要素区間を特定する。これにより、図３に示すように、話者表示バー５２ｃ３と話者表示バー５２ｃ４とが分かれて表示されることになる。これに伴い、話者表示バー５２ｃ３，５２ｃ４上には、それぞれ、「携帯電話は」を表すテキストと、「マナーモードに設定の上」を表すテキストが表示されることになる（なお、図３の例では、総合評価点に応じた絵柄により一部テキストが隠れている）。一方、図４の例は、上述したように算出された音圧レベルに基づいて文要素区間が特定された場合において、手本により音読される１つのフレーズ（「携帯電話はマナーモードに設定の上通話はご遠慮下さい」）が、話者により音読される複数のフレーズ（「携帯電話は」と「マナーモードに設定の上」と「通話はご遠慮下さい」）に対応している場合の例である。この場合、上述したように、音声処理部３１は、手本により音読される１つのフレーズ（「携帯電話はマナーモードに設定の上通話はご遠慮下さい」）に合わせるように、話者により音読される複数のフレーズ（「携帯電話は」と「マナーモードに設定の上」と「通話はご遠慮下さい」）を含む結合フレーズに対応する話者文要素区間を特定する。これにより、図４に示すように、結合フレーズに対応する話者表示バー５２ｃ３’が表示されることになる。これに伴い、話者表示バー５２ｃ３’上には、それぞれ、「携帯電話はマナーモードに設定の上通話はご遠慮下さい」を表すテキストが表示されることになる。

なお、上述したように音声処理部３１によりＲＡＭに記憶された手本文要素区間データ、話者文要素区間データ、手本音圧データ、話者音圧データ、手本音高データ、及び話者音高データは、それぞれ、上記処理対象の手本音声波形データに対応付けられて記憶部２に記憶されることになる。これにより、話者による音読終了後、表示処理部３３は、ユーザからの表示指示に応じて、記憶部２から手本文要素区間データ、話者文要素区間データ、手本音圧データ、話者音圧データ、手本音高データ、及び話者音高データを読み込み、音要素の時系列的な変化を表すグラフ、及びテキストが表示される表示バーを上側表示領域と下側表示領域のそれぞれに表示させる。このように表示された状態において、表示処理部３３は、ユーザからの文要素切換指示に応じて、複数の文要素の中の何れか１つの文要素に対応する手本文要素区間の開始位置と話者文要素区間の開始位置とが時間軸ｔと並行する方向で一致するように上側表示領域における表示内容全体または下側表示領域における表示内容全体を時間軸ｔと並行する方向にシフトさせる。これにより、話者の音読タイミングと手本の音読タイミングとが全体的にずれている場合であっても、複数の文要素のうちで話者等が注目している文要素における手本の音要素と話者の音要素との違いを、話者等に、より分り易く把握させることができる。なお、上記「一致するように」とは、完全一致には限定されるものではなく、数％程度の誤差があってもよい趣旨である。また、開始位置を一致させる対象となる手本文要素区間と話者文要素区間とのそれぞれの先頭からの順番を合わせるために、例えばそれぞれに付与されたシリアル番号を互いに一致させるように構成するとよい。

図５は、手本文要素区間の開始位置と話者文要素区間の開始位置とが時間軸と並行する方向で一致させる例を示す図である。図５（Ａ）は、文要素切換指示前の表示例を示す。図５（Ａ）の例では、複数の文要素の中で全ての文要素に対応する手本文要素区間の開始位置（時間軸ｔの座標値）と話者文要素区間の開始位置とが時間軸ｔと並行する方向で一致していない。つまり、手本表示バー５１ｃ１〜５１ｃ４のそれぞれの開始位置と話者表示バー５２ｃ１〜５２ｃ４のそれぞれの開始位置とは一致していない。一方、図５（Ｂ）は、図５（Ａ）の表示状態から、文要素切換指示が１回あったときの表示例を示す。図５（Ｂ）の例では、複数の文要素の中で先頭の文要素に対応する手本文要素区間（例えば、シリアル番号：１）の開始位置と話者文要素区間（例えば、シリアル番号：１）の開始位置とが時間軸ｔと並行する方向で一致（図中、Ｐ１で一致）している。また、図５（Ｃ）は、図５（Ａ）の表示状態から、文要素切換指示が３回あったときの表示例を示す。図５（Ｃ）の例では、複数の文要素の中で先頭から３番目の文要素に対応する手本文要素区間（例えば、シリアル番号：３）の開始位置と話者文要素区間（例えば、シリアル番号：３）の開始位置とが時間軸ｔと並行する方向で一致（図中、Ｐ２で一致）している。

［２.発話練習装置Ｓの動作例］
次に、図６等を参照して、発話練習装置Ｓの動作の一例について説明する。図６は、発話練習装置Ｓにおける制御部３の音要素表示処理を示すフローチャートである。なお、図６に示す音要素表示処理の前提として、手本文要素区間データ、手本音圧データ、手本音高データが、例えば、手本音声波形データの音声ファイルに対応付けられて記憶部２に記憶されているものとする。

図６に示す処理は、例えば、話者が操作部４を介して音読対象のお手本となる所望の音声ファイルを指定して音読開始指示を行うことにより開始される。図６に示す処理が開始されると、制御部３は、マイク入力をオンにし、上記指定された音声ファイルに格納された手本音声波形データと、上記指定された音声ファイルに対応付けられた手本文要素区間データ、手本音圧データ、及び手本音高データ等を記憶部２から読み込む（ステップＳ１）。なお、読み込まれたデータは、ＲＡＭに記憶される。次いで、制御部３は、話者音声波形データの入力を開始する（ステップＳ２）。話者が文の音読を開始すると、この文の音読中の発せられた音声がマイクＭにより集音され、集音された音声の波形を示す話者音声波形データが、インターフェース部５を介して発話練習装置Ｓに入力される。こうして、話者による文の音読中に入力された話者音声波形データは、ＲＡＭに記憶される。

次いで、発話練習装置Ｓの制御部３は、話者による音読タイミングを表す線Ｔを上側表示領域５１及び下側表示領域５２を有する表示画面上に固定表示し、上側表示領域表示処理（ステップＳ３）、及び下側表示領域表示処理（ステップＳ４）をそれぞれ開始する。上側表示領域表示処理と下側表示領域表示処理は、例えばマルチタスクにより並列的に実行される。

上側表示領域表示処理では、制御部３は、読み込まれた手本音声波形データにより特定される音読スピードに応じた速度で上側表示領域５１を例えば左方向にスクロールさせながら、手本音高データが示す手本音高の時系列的な変化を表す手本グラフ５１ａ１〜５１ａ４と、手本音圧データが示す手本音圧の時系列的な変化を表す手本グラフ５１ｂ１〜５１ｂ４とを手本文要素区間毎に区別して上側表示領域５１に表示させる。更に、制御部３は、手本文要素区間データが示す手本文要素区間の時間長に応じた長さの手本表示バー５１ｃ１〜５１ｃ４を手本文要素区間毎に区別して上側表示領域５１に表示させ、それぞれの手本表示バー５１ｃ１〜５１ｃ４上に文要素を表すテキストを表示させる。このような上側表示領域表示処理は、手本音声波形データが全て処理されるまで継続して行われ、その後、ステップＳ５に進む。

一方、下側表示領域表示処理では、制御部３は、入力された話者音声波形データにより特定される音読スピードに応じた速度で下側表示領域５２を例えば左方向にスクロールさせながら、上述したように話者音声波形データに基づいて話者音高及び話者音圧を所定時間間隔毎に特定するとともに、特定した話者音高の時系列的な変化を表す話者グラフ５２ａ１〜５２ａ４と、特定した話者音圧の時系列的な変化を表す話者グラフ５２ｂ１〜５２ｂ４とを話者文要素区間毎に区別して下側表示領域５２に表示させる。更に、制御部３は、上述したように話者音声波形データに基づいて話者文要素区間を特定し、特定した話者文要素区間の時間長に応じた長さの話者表示バー５２ｃ１〜５２ｃ４を話者文要素区間毎に区別して下側表示領域５２に表示させ、それぞれの話者表示バー５２ｃ１〜５２ｃ４上に文要素を表すテキストを表示させる。また、下側表示領域表示処理では、上述したように文要素区間毎に総合評価が行われ、その評価結果が、それぞれの話者表示バー５２ｃ１〜５２ｃ４上に表示される。なお、上記特定された話者文要素区間を示す話者文要素区間データ、上記特定された話者音圧を示す話者音圧データ、及び上記特定された話者音高を示す話者音高データ等は、ＲＡＭに記憶される。このような下側表示領域表示処理は、話者音声波形データの入力が終了するまで継続して行われ、その後、ステップＳ５に進む。

ステップＳ５では、制御部３は、話者等の操作により操作部４から音要素再表示指示があったか否かを判定する。制御部３は、音要素再表示指示があったと判定した場合（ステップＳ５：ＹＥＳ）、ステップＳ６へ進む。一方、制御部３は、例えば所定時間内に音要素再表示指示がないと判定した場合（ステップＳ５：ＮＯ）、図６に示す処理を終了する。

ステップＳ６では、制御部３は、ＲＡＭに記憶された手本文要素区間データ、手本音圧データ、手本音高データ、話者文要素区間データ、話者音圧データ、及び話者音高データ等に基づいて、例えば図５（Ａ）に示すように、音要素の時系列的な変化を表すグラフ、及びテキストが表示される表示バー等を上側表示領域５１と下側表示領域５２のそれぞれに表示させ、ステップＳ７へ進む。

ステップＳ７では、制御部３は、話者等の操作により操作部４からスクロール指示があったか否かを判定する。制御部３は、スクロール指示があったと判定した場合（ステップＳ７：ＹＥＳ）、ステップＳ８へ進む。一方、制御部３は、スクロール指示がないと判定した場合（ステップＳ７：ＮＯ）、ステップＳ９へ進む。

ステップＳ８では、制御部３は、スクロール指示にしたがって、上側表示領域５１と下側表示領域５２とを同時に左方向又は右方向へスクロールさせる。ステップＳ９では、制御部３は、話者等の操作により操作部４から文要素切換指示があったか否かを判定する。制御部３は、文要素切換指示があったと判定した場合（ステップＳ９：ＹＥＳ）、ステップＳ１０へ進む。一方、制御部３は、文要素切換指示がないと判定した場合（ステップＳ９：ＮＯ）、ステップＳ１１へ進む。

ステップＳ１０では、制御部３は、例えば図５（Ａ）に示すように、何れか１つの文要素に対応する手本文要素区間の開始位置と話者文要素区間の開始位置とが時間軸と並行する方向で一致するように上側表示領域５１における表示内容全体または下側表示領域５２における表示内容全体を時間軸と並行する方向にシフトさせる。ステップＳ１１では、制御部３は、話者等の操作により操作部４から表示終了指示があったか否かを判定する。制御部３は、表示終了指示があったと判定した場合（ステップＳ１１：ＹＥＳ）、図６に示す処理を終了する。一方、制御部３は、表示終了指示がないと判定した場合（ステップＳ１１：ＮＯ）、ステップＳ７に戻る。

以上説明したように、上記実施形態によれば、発話練習装置Ｓは、手本グラフが表示される上側表示領域と話者グラフが表示される下側表示領域の境界部分において、手本文要素区間の時間長に応じた長さの手本表示バーと、話者文要素区間の時間長に応じた長さの話者表示バーとを上下方向に並べて表示させるように構成したので、表示画面上のどの部分を基準として音声の各音要素を比較して良いかを話者等に分り易く把握させることができる。

なお、上記実施形態において、表示処理部３３は、ユーザからの文要素切換指示に応じて、複数の文要素の中の何れか１つの文要素に対応する手本文要素区間の終了位置（言い換えれば、手本インターバル区間の開始位置）と話者文要素区間の終了位置（言い換えれば、話者インターバル区間の開始位置）とが時間軸ｔと並行する方向で一致するように上側表示領域における表示内容全体または下側表示領域における表示内容全体を時間軸ｔと並行する方向にシフトさせるように構成してもよい。この構成によっても、話者の音読タイミングと手本の音読タイミングとが全体的にずれている場合であっても、複数の文要素のうちで話者等が注目している文要素における手本の音要素と話者の音要素との違いを、話者等に、より分り易く把握させることができる。なお、終了位置を一致させる対象となる手本文要素区間と話者文要素区間とのそれぞれの先頭からの順番を合わせるために、例えばそれぞれに付与されたシリアル番号を互いに一致させるように構成するとよい。

１通信部
２記憶部
３制御部
４操作部
５インターフェース部
６バス
３１音声処理部
３２音読評価部
３３表示処理部
Ｓ発話練習装置

Claims

第１表示領域と第２表示領域とが時間軸と直交する一方向に並んで配置される表示画面を表示させる発話練習装置であって、
文を音読するときの手本となる音声の波形を示す第１音声波形データに基づいて特定された第１文要素区間であって、前記文を構成する文要素の開始タイミングから終了タイミングまでの第１文要素区間を示す第１文要素区間データを文要素毎に記憶する第１記憶手段と、
話者が前記文を音読したときに発した音声の波形を示す第２音声波形データに基づいて特定された第２文要素区間であって、前記文要素の開始タイミングから終了タイミングまでの第２文要素区間を示す第２文要素区間データを文要素毎に記憶する第２記憶手段と、
前記第１音声波形データに基づいて、前記第１文要素区間データが示す第１文要素区間の時間長より短い所定時間間隔毎に特定された第１音高と第１音圧との少なくとも何れか一方の音要素を示す第１音要素データを記憶する第３記憶手段と、
前記第２音声波形データに基づいて、前記第２文要素区間データが示す第２文要素区間の時間長より短い所定時間間隔毎に特定された第２音高と第２音圧との少なくとも何れか一方の音要素を示す第２音要素データを記憶する第４記憶手段と、
前記第１音要素データが示す第１音高と第１音圧との少なくとも何れか一方の音要素の時系列的な変化を表す第１グラフを前記時間軸に沿って前記第１表示領域に表示させる第１表示制御手段と、
前記第１グラフにより表される音要素と同じ種類の音要素であって、前記第２音要素データが示す第２音高と第２音圧との少なくとも何れか一方の音要素の時系列的な変化を表す第２グラフを前記時間軸に沿って前記第２表示領域に表示させる第２表示制御手段と、
前記第１文要素区間データが示す第１文要素区間の時間長に応じた長さの第１表示バーと前記文要素を表すテキストとを前記第１文要素区間毎に前記時間軸に沿って表示させ、且つ、前記第２文要素区間データが示す第２文要素区間の時間長に応じた長さの第２表示バーと前記文要素を表すテキストとを前記第２文要素区間毎に前記時間軸に沿って表示させる第３表示制御手段であって、前記第１表示バーと前記第２表示バーとを前記第１表示領域と前記第２表示領域の境界部分において前記一方向に並べて表示させる第３表示制御手段と、
を備えることを特徴とする発話練習装置。
前記第３表示制御手段は、前記第１文要素区間毎に表示される前記第１表示バー上に前記文要素を表すテキストを表示させ、且つ、前記第２文要素区間毎に表示される前記第２表示バー上に前記文要素を表すテキストを表示させることを特徴とする請求項１に記載の発話練習装置。
前記第３表示制御手段は、前記表示バー上に前記文要素を表すテキストが前記時間軸に沿って１行で収まるように表示可能か否かを判定し、１行で収まらない場合には、前記文要素を表すテキストを複数行で前記表示バー上に表示させることを特徴とする請求項２に記載の発話練習装置。
ユーザからの文要素切換指示に応じて、複数の文要素の中の何れか１つの文要素に対応する前記第１文要素区間の開始位置と前記第２文要素区間の開始位置とが前記時間軸と並行する方向で一致するように前記第１表示領域における表示内容全体または前記第２表示領域における表示内容全体を前記時間軸と並行する方向にシフトさせる第４表示制御手段を更に備えることを特徴とする請求項１乃至３の何れか一項に記載の発話練習装置。
前記話者による前記文の音読中に前記第２音声波形データを入力する入力手段と、
前記話者による音読タイミングを表す線であって前記第１表示領域と前記第２表示領域とを通り前記一方向に延びる線を表示させ、前記入力手段からの前記第２音声波形データの入力に応じて、前記第１表示領域における表示内容全体と前記第２表示領域における表示内容全体とを前記時間軸と並行する方向に別々にスクロールさせる第５表示制御手段と、
を更に備えることを特徴とする請求項１乃至４の何れか一項に記載の発話練習装置。
前記第１音圧及び前記第２音圧それぞれの時系列的な変化を表すグラフは棒グラフであることを特徴とする請求項１乃至５の何れか一項に記載の発話練習装置。
前記第１表示制御手段及び第２表示制御手段は、前記棒グラフにおいて音圧レベルが高い部分の色より音圧レベルが低い部分の色を薄く表示させることを特徴とする請求項６に記載の発話練習装置。
前記文要素は、フレーズであることを特徴とする請求項１乃至７の何れか一項に記載の発話練習装置。
第１表示領域と第２表示領域とが時間軸と直交する一方向に並んで配置される表示画面を表示させる発話練習装置に含まれるコンピュータにより実行される表示制御方法であって、
文を音読するときの手本となる音声の波形を示す第１音声波形データに基づいて特定された第１文要素区間であって、前記文を構成する文要素の開始タイミングから終了タイミングまでの第１文要素区間を示す第１文要素区間データを文要素毎に記憶する第１記憶ステップと、
話者が前記文を音読したときに発した音声の波形を示す第２音声波形データに基づいて特定された第２文要素区間であって、前記文要素の開始タイミングから終了タイミングまでの第２文要素区間を示す第２文要素区間データを文要素毎に記憶する第２記憶ステップと、
前記第１音声波形データに基づいて、前記第１文要素区間データが示す第１文要素区間の時間長より短い所定時間間隔毎に第１音高と第１音圧との少なくとも何れか一方の音要素を示す第１音要素データを記憶する第３記憶ステップと、
前記第２音声波形データに基づいて、前記第２文要素区間データが示す第２文要素区間の時間長より短い所定時間間隔毎に第２音高と第２音圧との少なくとも何れか一方の音要素を示す第２音要素データを記憶する第４記憶ステップと、
前記第１音要素データが示す第１音高と第１音圧との少なくとも何れか一方の音要素の時系列的な変化を表す第１グラフを前記時間軸に沿って前記第１表示領域に表示させる第１表示制御ステップと、
前記第１グラフにより表される音要素と同じ種類の音要素であって、前記第２音要素データが示す第２音高と第２音圧との少なくとも何れか一方の音要素の時系列的な変化を表す第２グラフを前記時間軸に沿って前記第２表示領域に表示させる第２表示制御ステップと、
前記第１文要素区間データが示す第１文要素区間の時間長に応じた長さの第１表示バーと前記文要素を表すテキストとを前記第１文要素区間毎に前記時間軸に沿って表示させ、且つ、前記第２文要素区間データが示す第２文要素区間の時間長に応じた長さの第２表示バーと前記文要素を表すテキストとを前記第２文要素区間毎に前記時間軸に沿って表示させる第３表示制御ステップであって、前記第１表示バーと前記第２表示バーとを前記第１表示領域と前記第２表示領域の境界部分において前記一方向に並べて表示させる第３表示制御ステップと、
を含むことを特徴とする表示制御方法。
第１表示領域と第２表示領域とが時間軸と直交する一方向に並んで配置される表示画面を表示させる発話練習装置に含まれるコンピュータに、
文を音読するときの手本となる音声の波形を示す第１音声波形データに基づいて特定された第１文要素区間であって、前記文を構成する文要素の開始タイミングから終了タイミングまでの第１文要素区間を示す第１文要素区間データを文要素毎に記憶する第１記憶ステップと、
話者が前記文を音読したときに発した音声の波形を示す第２音声波形データに基づいて特定された第２文要素区間であって、前記文要素の開始タイミングから終了タイミングまでの第２文要素区間を示す第２文要素区間データを文要素毎に記憶する第２記憶ステップと、
前記第１音声波形データに基づいて、前記第１文要素区間データが示す第１文要素区間の時間長より短い所定時間間隔毎に第１音高と第１音圧との少なくとも何れか一方の音要素を示す第１音要素データを記憶する第３記憶ステップと、
前記第２音声波形データに基づいて、前記第２文要素区間データが示す第２文要素区間の時間長より短い所定時間間隔毎に第２音高と第２音圧との少なくとも何れか一方の音要素を示す第２音要素データを記憶する第４記憶ステップと、
前記第１音要素データが示す第１音高と第１音圧との少なくとも何れか一方の音要素の時系列的な変化を表す第１グラフを前記時間軸に沿って前記第１表示領域に表示させる第１表示制御ステップと、
前記第１グラフにより表される音要素と同じ種類の音要素であって、前記第２音要素データが示す第２音高と第２音圧との少なくとも何れか一方の音要素の時系列的な変化を表すグラフを前記時間軸に沿って前記第２表示領域に表示させる第２表示制御ステップと、
前記第１文要素区間データが示す第１文要素区間の時間長に応じた長さの第１表示バーと前記文要素を表すテキストとを前記第１文要素区間毎に前記時間軸に沿って表示させ、且つ、前記第２文要素区間データが示す第２文要素区間の時間長に応じた長さの第２表示バーと前記文要素を表すテキストとを前記第２文要素区間毎に前記時間軸に沿って表示させる第３表示制御ステップであって、前記第１表示バーと前記第２表示バーとを前記第１表示領域と前記第２表示領域の境界部分において前記一方向に並べて表示させる第３表示制御ステップと、
を実行させることを特徴とするプログラム。