JP2017156614A

JP2017156614A - 対応付け編集装置、対応付け編集方法、及びプログラム

Info

Publication number: JP2017156614A
Application number: JP2016041016A
Authority: JP
Inventors: 雅弘亀井; Masahiro Kamei
Original assignee: Brother Industries Ltd
Current assignee: Brother Industries Ltd
Priority date: 2016-03-03
Filing date: 2016-03-03
Publication date: 2017-09-07

Abstract

【課題】手本の文要素区間と話者の文要素区間との対応付けを適切に修正することが可能な対応付け編集装置、対応付け編集方法、及びプログラムを提供する。
【解決手段】音読練習装置Ｓは、手本文要素区間の手本文要素情報と、手本文要素区間に対応付けられた話者文要素区間の話者文要素情報とを対応付けて表示させ、表示された第１文要素情報または第２文要素情報に対するユーザ操作に応じて、少なくとも１つの話者文要素区間と手本文要素区間との対応関係を変更する。
【選択図】図４

Description

本発明は、文を音読するときの手本となる音声の波形と、話者が文を音読したときに発した音声の波形とを、文を構成する複数の文要素毎に対応付けることが可能なシステム等の技術分野に関する。

近年、語学学習、歌唱、またはアナウンス等の練習支援を目的として、複数の文要素（例えば、フレーズや単語）毎に抑揚や音量等の評価点を算出するシステムが知られている。例えば、特許文献１に開示されたカラオケ装置では、歌唱者の歌唱音声信号から抽出された抑揚や音量等に基づいて、曲の区間別に歌唱を採点するようになっている。また、特許文献２に開示されたカラオケ装置では、歌唱者音声データの時間軸を伸縮しガイドボーカルデータの時間軸と合わせ、音節区切りデータで区切られた音節ごとの音量変化を比較することで、各音節内の微妙な変化についても評価を行うようになっている。

特開平１０−０７８７４９号公報特開２００８−０３９８３３号公報

ところで、例えばアナウンス等の音読（スピーチ）に対する評価を行うシステムでは、手本となる文要素（例えば、フレーズ）毎に採点を行うが、音読の練習では、カラオケ装置を用いた歌唱の練習のように、手本に合わせたタイミングや速度で音読するわけではないため、同じことを音読しても話者によって音読するタイミングや速度は異なる。このため、音読に対する評価を行うためには、評価前に手本となる音声の波形と、話者の波形とを、文要素区間毎に対応付けを行う必要がある。ここで、文要素区間とは、音声の波形の塊が文要素単位で分割された区間（言い換えれば、文要素の波形の区間）である。また、対応付けとは、例えば手本と同じフレーズを、話者が何秒から何秒までの区間で話しているかを判断する処理のことを指す。しかしながら、話者が途中で間違ったことを話したり、言い直したりする場合に、正しく対応付けができずに採点が正常に行われない場合がある。

本発明は、以上の点に鑑みてなされたものであり、手本の文要素区間と話者の文要素区間との対応付けを適切に修正することが可能な対応付け編集装置、対応付け編集方法、及びプログラムを提供する。

上記課題を解決するために、請求項１に記載の発明は、文を音読するときの手本となる音声の波形を示す第１音声波形データに基づいて複数に区分された第１文要素区間であって前記文を構成する複数の文要素それぞれの開始タイミングから終了タイミングまでの第１文要素区間それぞれの第１文要素情報を時系列で表示させる第１表示制御手段と、話者が前記文を音読したときに発した音声の波形を示す第２音声波形データに基づいて複数に区分された第２文要素区間であって前記文を構成する複数の文要素それぞれの開始タイミングから終了タイミングまでの第２文要素区間を前記文の先頭から時系列で前記第１文要素区間に対応付ける対応付け手段と、前記第２文要素区間それぞれの第２文要素情報を、前記対応付け手段により対応付けられた前記第１文要素区間の前記第１文要素情報に対応付けて表示させる第２表示制御手段と、前記表示された第１文要素情報または第２文要素情報に対するユーザ操作に応じて、少なくとも１つの前記第２文要素区間と前記第１文要素区間との対応関係を変更する対応関係変更手段と、を備えることを特徴とする。

請求項２に記載の発明は、請求項１に記載の対応付け編集装置において、前記対応付け手段により前記第１文要素区間と前記第２文要素区間とが対応付けられた区間毎に前記音読に対する評価を行う評価手段を備え、前記対応関係変更手段により前記第２文要素区間と前記第１文要素区間との対応関係が変更された場合、前記評価手段は、少なくとも前記対応関係が変更された区間の前記音読に対する評価を行うことを特徴とする。

請求項３に記載の発明は、請求項２に記載の対応付け編集装置において、前記対応関係変更手段により前記第２文要素区間と前記第１文要素区間との対応関係が変更された場合、前記評価手段は、前記対応関係が変更された区間のみの前記音読に対する評価を行うことを特徴とする。

請求項４に記載の発明は、請求項１乃至３の何れか一項に記載の対応付け編集装置において、隣合う２つの前記第１文要素区間を結合する結合手段を更に備え、前記対応関係変更手段は、前記結合手段により前記隣合う２つの前記第１文要素区間が結合された場合、前記隣合う２つの前記第１文要素区間それぞれに対応する隣合う２つの前記第２文要素区間を結合して、前記結合された前記第１文要素区間と、前記結合された前記第２文要素区間とを時系列で対応付けることを特徴とする。

請求項５に記載の発明は、請求項４に記載の対応付け編集装置において、前記第１文要素情報は、前記第１文要素区間の時間長であり、前記第１表示制御手段は、前記第１文要素区間の時間長に応じた長さのオブジェクトを表示させ、前記隣合う２つの前記第１文要素区間それぞれに対応する前記オブジェクト間の部分に対する指定を受け付ける第１受付手段を更に備え、前記第１受付手段により前記部分の指定が受け付けられた後、結合指示を示すユーザ操作があった場合、前記結合手段は、前記隣合う２つの前記第１文要素区間を結合することを特徴とする。

請求項６に記載の発明は、請求項１乃至３の何れか一項に記載の対応付け編集装置において、前記第１文要素区間を複数に分離する分離手段を更に備え、前記対応関係変更手段は、前記分離手段により前記第１文要素区間が分離された場合、分離前の前記第１文要素区間に対応付けられていた前記第２文要素区間を、前記第１文要素区間の分離数だけ分離し、前記分離された前記第２文要素区間それぞれを、前記分離された前記第１文要素区間それぞれに時系列で対応付けることを特徴とする。

請求項７に記載の発明は、請求項６に記載の対応付け編集装置において、前記第１文要素情報は、前記第１文要素区間の時間長であり、前記第１表示制御手段は、前記第１文要素区間の時間長に応じた長さのオブジェクトを表示させ、前記オブジェクトにおいて分離する部分に対する指定を受け付ける第２受付手段を更に備え、前記第２受付手段により前記部分の指定が受け付けられた後、分離指示を示すユーザ操作があった場合、前記分離手段は、前記オブジェクトに対応する前記第１文要素区間を複数に分離することを特徴とする。

請求項８に記載の発明は、請求項１乃至７の何れか一項に記載の対応付け編集装置において、対応付けから除外する前記第１文要素区間の指定を受け付ける第３受付手段と、前記対応付け手段は、前記第３受付手段により指定が受け付けられた前記第１文要素区間を除外して前記第２文要素区間を前記文の先頭から時系列で前記第１文要素区間に対応付けることを特徴とする。

請求項９に記載の発明は、請求項２に記載の対応付け編集装置において、評価対象から除外する前記第１文要素区間及び前記第２文要素区間の指定を受け付ける第３受付手段と、前記評価手段は、前記第３受付手段により指定が受け付けられた前記第１文要素区間及び前記第２文要素区間を除外して前記区間毎に前記音読に対する評価を行うことを特徴とする。

請求項１０に記載の発明は、１つ以上のコンピュータにより実行される対応付け編集方法であって、文を音読するときの手本となる音声の波形を示す第１音声波形データに基づいて複数に区分された第１文要素区間であって前記文を構成する複数の文要素それぞれの開始タイミングから終了タイミングまでの第１文要素区間それぞれの第１文要素情報を時系列で表示させる第１表示制御ステップと、話者が前記文を音読したときに発した音声の波形を示す第２音声波形データに基づいて複数に区分された第２文要素区間であって前記文を構成する複数の文要素それぞれの開始タイミングから終了タイミングまでの第２文要素区間を前記文の先頭から時系列で前記第１文要素区間に対応付ける対応付けステップと、前記第２文要素区間それぞれの第２文要素情報を、前記対応付けステップにより対応付けられた前記第１文要素区間の前記第１文要素情報に対応付けて表示させる第２表示制御ステップと、前記表示された第１文要素情報または第２文要素情報に対するユーザ操作に応じて、少なくとも１つの前記第２文要素区間と前記第１文要素区間との対応関係を変更する対応関係変更ステップと、を含むことを特徴とする。

請求項１１に記載の発明は、文を音読するときの手本となる音声の波形を示す第１音声波形データに基づいて複数に区分された第１文要素区間であって前記文を構成する複数の文要素それぞれの開始タイミングから終了タイミングまでの第１文要素区間それぞれの第１文要素情報を時系列で表示させる第１表示制御ステップと、話者が前記文を音読したときに発した音声の波形を示す第２音声波形データに基づいて複数に区分された第２文要素区間であって前記文を構成する複数の文要素それぞれの開始タイミングから終了タイミングまでの第２文要素区間を前記文の先頭から時系列で前記第１文要素区間に対応付ける対応付けステップと、前記第２文要素区間それぞれの第２文要素情報を、前記対応付けステップにより対応付けられた前記第１文要素区間の前記第１文要素情報に対応付けて表示させる第２表示制御ステップと、前記表示された第１文要素情報または第２文要素情報に対するユーザ操作に応じて、少なくとも１つの前記第２文要素区間と前記第１文要素区間との対応関係を変更する対応関係変更ステップと、をコンピュータに実行させることを特徴とする。

請求項１，１０及び１１に記載の発明によれば、話者が途中で間違ったことを話したり、言い直したりする場合であっても、手本の文要素区間（第１文要素区間）と話者の文要素区間（第２文要素区間）との対応付けを適切に修正することができる。

請求項２に記載の発明によれば、手本の文要素区間と話者の文要素区間との適切に修正された対応付けにしたがって、音読に対する適切な評価を行うことができる。

請求項３に記載の発明によれば、対応関係が変更された区間の音読に対する評価を迅速に得ることができる。

請求項４に記載の発明によれば、隣合う２つの手本の文要素区間が結合された場合に、手本の文要素区間と話者の文要素区間との対応付けを適切に修正することができる。

請求項５に記載の発明によれば、結合対象となる２つの手本の文要素区間の指定をユーザに簡易に行わせることができる。

請求項６に記載の発明によれば、１つの手本の文要素区間が分離された場合に、手本の文要素区間と話者の文要素区間との対応付けを適切に修正することができる。

請求項７に記載の発明によれば、分離対象となる１つの手本の文要素区間の指定をユーザに簡易に行わせることができる。

請求項８に記載の発明によれば、手本の文要素区間と話者の文要素区間との対応付けにおける利便性を向上させることができる。

請求項９に記載の発明によれば、文要素区間毎の音読に対する評価における利便性を向上させることができる。

本実施形態に係る音読練習装置Ｓの概要構成例を示す図である。ディスプレイＤに表示された表示画面の一例を示す図である。ユーザ操作により話者文要素区間と手本文要素区間との対応関係が変更される様子の一例を示す図である。制御部３により実行される対応付け編集処理の一例を示すフローチャートである。対応付け編集処理において、手本文要素区間と話者文要素区間との対応関係の変更が行われるときの様子を示す概念図である。手本文要素区間と話者文要素区間との対応付け前に、対応付けから除外する手本文要素区間の指定を受け付けるときの画面遷移例を示す図である。手本文要素区間と話者文要素区間との対応付け前に、隣合う２つの手本文要素区間を結合するときの画面遷移例を示す図である。手本文要素区間と話者文要素区間との対応付け後、評価対象から除外する手本文要素区間及び話者文要素区間の指定を受け付けるときの画面遷移例を示す図である。手本文要素区間と話者文要素区間との対応付け後に、隣合う２つの手本文要素区間を結合するときの画面遷移例を示す図である。

以下、本発明の実施形態を図面に基づいて説明する。なお、以下に説明する実施の形態は、音読練習装置に対して本発明を適用した場合の実施形態である。

［１.音読練習装置Ｓの構成及び機能］
初めに、図１を参照して、本発明の一実施形態に係る音読練習装置Ｓの構成及び機能について説明する。図１は、本実施形態に係る音読練習装置Ｓの概要構成例を示す図である。音読練習装置Ｓは、本発明の対応付け編集装置の一例である。なお、音読練習装置の一例として、パーソナルコンピュータや、携帯型情報端末（スマートフォン等）などが挙げられる。図１に示すように、音読練習装置Ｓは、通信部１、記憶部２、制御部３、操作部４、及びインターフェース（ＩＦ）部５等を備えて構成され、これらの構成要素はバス６に接続されている。音読練習装置Ｓは、発話練習装置ともいう。操作部４は、ユーザからの操作（ユーザ操作）を受け付け、そのユーザ操作に応じた信号を制御部３へ出力する。ユーザ操作の例として、マウス操作が挙げられる。なお、ディスプレイＤがタッチパネルディスプレイである場合、ユーザ操作は、ユーザの指やペン等による接触操作であってもよい。インターフェース部５には、マイクＭ、及びディスプレイＤ等が接続される。マイクＭは、語学学習、アナウンス、朗読などの発話練習等を行う練習者である話者が、複数の文要素を含む文（文章）を音読したときに発した音声を集音する。文要素は、文を構成する単位である。文要素の例として、フレーズ、文節、単語の他、複数のフレーズが結合した結合フレーズ等が挙げられる。ここで、フレーズは、一般に文章を読むときに一息で読む単位である。フレーズは、１以上の文節から構成される。つまり、１つのフレーズが１つの文節から構成される場合もあるし、１つのフレーズが複数の文節から構成される場合もある。文節は、例えば、１つ以上の単語のまとまりである。単語には、名詞、動詞、形容詞、副詞、及び接続詞等の自立語（単独で文節を構成できる品詞）や、助動詞及び助詞等の付属語（単独で文節を構成できない品詞）などがある。音読対象となる文の例として、語学学習や、アナウンス、朗読などで用いられる文章などが挙げられる。ディスプレイＤは、制御部３からの表示指令にしたがって、後述する表示領域等が配置される表示画面を表示する。なお、マイクＭ、及びディスプレイＤは、音読練習装置Ｓと一体型であってもよいし、別体であってもよい。

通信部１は、有線または無線によりネットワーク（図示せず）に接続してサーバ等と通信を行う。記憶部２は、例えばハードディスクドライブ等からなり、ＯＳ（オペレーティングシステム）、及び音読練習処理プログラム（本発明の対応付け編集処理プログラムを含む）を記憶する。音読練習処理プログラムは、コンピュータとしての制御部３に、音読練習処理（対応付け編集処理を含む）を実行させるプログラムである。音読練習処理プログラムは、アプリケーションとして、所定のサーバからダウンロードされてもよいし、ＣＤ、ＤＶＤ等の記録媒体に記憶されて提供されてもよい。また、記憶部２は、複数の文要素を含む文のテキストデータと、この文を音読するときの手本となる音声の波形を示す手本音声波形データ（第１音声波形データの一例）を記憶する。ここで、テキストデータには、例えば、音読対象となる文を構成する各文要素を表すテキスト（文字）が文要素毎に区切られて規定されている。例えば、文要素間に挿入される句読点により区切られる。或いは、文要素を表すテキストには、先頭から順番にシリアル番号が付与されていてもよい。なお、手本音声波形データは、所定の音声ファイル形式で記憶される。

制御部３は、コンピュータとしてのＣＰＵ（Central Processing Unit）、ＲＯＭ（Read Only Memory）、及びＲＡＭ（Random Access Memory）等により構成される。制御部３は、音読練習処理プログラムにより、音声処理部３１、対応付け部３２、対応付け編集部３３、音読評価部３４、及び表示処理部３５として機能する。対応付け部３２は、本発明における第３受付手段及び対応付け手段の一例である。対応付け編集部３３は、本発明における対応関係変更手段、第１受付手段、第２受付手段、結合手段、及び分離手段の一例である。音読評価部３４は、本発明における第３受付手段及び評価手段の一例である。表示処理部３５は、本発明における第１表示制御手段及び第２表示制御手段の一例である。

音声処理部３１は、所定の音声ファイル形式で記憶された手本音声波形データを処理対象として記憶部２から入力する。入力された手本音声波形データはＲＡＭに記憶される。また、音声処理部３１は、話者が音読練習で上記文を音読したときに発した音声であってマイクＭにより集音された音声の波形を示す話者音声波形データ（第２音声波形データの一例）を入力する。入力された話者音声波形データはＲＡＭに記憶される。なお、音声波形データは、離散化された時系列の音圧波形データであり、例えば、サンプリングレート44.1kHz、量子化16bit、及びモノラルの波形データである。音圧とは、音波による空気の圧力の変化分（Pa）をいう。本実施形態では、音圧として、瞬時音圧（Pa）の二乗平均平方根（RMS）である実効音圧（Pa）の大きさを計算上扱い易い数値で表した音圧レベル(dB)を適用する。音圧レベル(dB)は、広義には音量ともいう。

音声処理部３１は、手本音声波形データに基づいて、各文要素の開始タイミングから終了タイミングまでの手本文要素区間（第１文要素区間の一例）を文要素毎に特定する。ここで、文要素区間とは、音声の波形の塊が例えばフレーズ単位で区分された区間である。そして、音声処理部３１は、文要素毎に特定した手本文要素区間を示す手本文要素区間データに、それぞれの文要素を表すテキストを対応付けてＲＡＭに記憶する。これらの文要素を表すテキストは、例えば、上記処理対象の手本音声波形データに対応付けられているテキストデータから抽出され、例えば先頭の手本文要素区間から順に対応付けられる。なお、手本文要素区間データは、例えば、この手本文要素区間の時間範囲（例えば、01:00-03:00）により構成される。

同様に、音声処理部３１は、話者音声波形データに基づいて、各文要素の開始タイミングから終了タイミングまでの話者文要素区間（第２文要素区間の一例）を文要素毎に特定する。そして、音声処理部３１は、文要素毎に特定した話者文要素区間を示す話者文要素区間データに、それぞれの文要素を表すテキストを対応付けてＲＡＭに記憶する。この場合も、各文要素を表すテキストは、手本文要素区間と同様、上記処理対象の話者音声波形データに対応付けられているテキストデータから抽出され、例えば先頭の話者文要素区間から順に対応付けられる。なお、話者文要素区間データは、例えば、この話者文要素区間の時間範囲により構成される。

ここで、開始タイミングと終了タイミングは、それぞれ、音声の波形から認識されてもよいし、上述したように算出された音圧レベル(dB)から認識されてもよい。例えば、音声処理部３１は、音声の波形の振幅が所定値以上になった時点を開始タイミングとして認識する。或いは、音声処理部３１は、音圧レベル(dB)が所定値以上になった時点を開始タイミングとして認識する。また、例えば、音声処理部３１は、音声の波形の振幅幅が所定値未満になった時点を終了タイミングとして認識する。或いは、音声処理部３１は、音圧レベル(dB)が所定値未満になった時点を終了タイミングとして認識する。なお、例えば、音圧レベル(dB)が所定値未満になった時点から、音圧レベル(dB)が所定値以上になった時点までの時間（無音時間）が閾値以上である場合に限り、音圧レベル(dB)が所定値未満になった時点が終了タイミングとして認識され、且つ音圧レベル(dB)が所定値以上になった時点が開始タイミングとして認識されるとよい（音声の波形の振幅についても同様）。これは、無音時間が閾値より短い場合、その区間で文要素を区切らない趣旨である。

また、音声処理部３１は、手本音声波形データに基づいて、複数の文要素のうち何れかの文要素の終了タイミングから次の文要素の開始タイミングまでの手本インターバル区間を特定する。そして、音声処理部３１は、特定した手本インターバル区間を示す手本インターバル区間データをＲＡＭに記憶する。同様に、音声処理部３１は、話者音声波形データに基づいて、複数の文要素のうち何れかの文要素の終了タイミングから次の文要素の開始タイミングまでの話者インターバル区間を特定する。そして、音声処理部３１は、特定した話者インターバル区間を示す話者インターバル区間データをＲＡＭに記憶する。

また、音声処理部３１は、手本音声波形データから所定時間毎に切り出したデータから音圧レベル(dB)を手本音圧として所定時間間隔毎に特定する。そして、音声処理部３１は、所定時間間隔毎に特定した手本音圧を示す手本音圧データをＲＡＭに記憶する。同様に、音声処理部３１は、話者音声波形データから所定時間毎に切り出したデータから音圧レベル(dB)を話者音圧として所定時間間隔毎に特定する。そして、音声処理部３１は、所定時間間隔毎に特定した話者音圧を示す話者音圧データをＲＡＭに記憶する。また、音声処理部３１は、手本音声波形データから所定時間毎に切り出したデータから基本周波数（Hz）を算出し、算出した基本周波数（Hz）を手本音高として所定時間間隔毎に特定する。なお、音高（抑揚、ピッチともいう）の特定方法には、例えば、ゼロクロス法やベクトル自己相関等の公知の手法を適用できる。そして、音声処理部３１は、所定時間間隔毎に特定した手本音高を示す手本音高データをＲＡＭに記憶する。同様に、音声処理部３１は、話者音声波形データから所定時間毎に切り出したデータから基本周波数（Hz）を算出し、算出した基本周波数（Hz）を話者音高として所定時間間隔毎に特定する。そして、音声処理部３１は、所定時間間隔毎に特定した話者音高を示す話者音高データをＲＡＭに記憶する。なお、音圧特定及び音高特定するための上記所定時間は、文要素区間の時間長（時間的長さ）より短い時間であり、例えば１０ｍｓ程度に設定される。

また、音声処理部３１は、手本音声波形データから所定時間毎に切り出したデータを窓掛けで区切って（例えば、25ms毎にフレーム化）、フーリエ解析（ＦＦＴ）することで振幅スペクトルを求める。そして、音声処理部３１は、求めた振幅スペクトルにメルフィルタバンクをかけ、メルフィルタバンクの出力を対数化した値を離散コサイン変換（ＤＣＴ）することでＭＦＣＣ（メル周波数ケプストラム係数）を算出することで、手本の声道特性を示す特徴量として手本文要素区間毎に特定する。そして、音声処理部３１は、手本文要素区間毎に特定した、手本の声道特性を示す特徴量を示す手本特徴量データをＲＡＭに記憶する。同様に、音声処理部３１は、話者音声波形データから所定時間毎に切り出したデータを窓掛けで区切って、フーリエ解析することで振幅スペクトルを求める。そして、音声処理部３１は、求めた振幅スペクトルにメルフィルタバンクをかけ、メルフィルタバンクの出力を対数化した値を離散コサイン変換することでＭＦＣＣを算出することで、話者の声道特性を示す特徴量として話者文要素区間毎に特定する。そして、音声処理部３１は、話者文要素区間毎に特定した、話者の声道特性を示す特徴量を示す話者特徴量データをＲＡＭに記憶する。

次に、対応付け部３２は、上記特定された手本文要素区間の先頭から順番を示すシリアル番号付与し、且つ、上記特定された話者文要素区間の先頭から順番を示すシリアル番号を付与することで、手本文要素区間と話者文要素区間とを先頭から時系列で対応付ける（プログラムによる自動対応付け）。つまり、シリアル番号が同一である手本文要素区間と話者文要素区間とが対応付けられる。なお、手本文要素区間毎に付与されたシリアル番号は、それぞれの手本文要素区間を示す手本文要素区間データに対応付けられてＲＡＭに記憶される。また、話者文要素区間毎に付与されたシリアル番号は、それぞれの話者文要素区間を示す話者文要素区間データに対応付けられてＲＡＭに記憶される。

ところで、「車内では（間合い）携帯電話はマナーモードに設定の上（間合い）通話はご遠慮下さい」と音読する手本音声波形データがあるとすると、上記の方法で開始タイミングと終了タイミングとを認識することにより、「車内では」、「携帯電話はマナーモードに設定の上」、「通話はご遠慮下さい」というように、３つのフレーズ毎に対応する手本文要素区間に区切られて特定される。また、話者が、同じ文を、手本と同じ間合いで音読した場合に、上記の方法で開始タイミングと終了タイミングとを認識することで、「車内では」、「携帯電話はマナーモードに設定の上」、「通話はご遠慮下さい」というように、３つのフレーズ毎に対応する話者文要素区間に区切られて特定される。このような場合、対応付け部３２により「車内では」→「携帯電話はマナーモードに設定の上」→「通話はご遠慮下さい」の順に対応付けが行われるので、文要素区間の対応付けは成功することになる。これに対し、話者が、例えば、「えーーー（間合い）車内では（間合い）携帯電話はマナーモードに設定の上（間合い）通話はご遠慮下さい」というように、手本の音読には含まれていなかったフレーズ「えーーー」を発話した場合、「車内では」に対応する手本文要素区間に対して、「えーーー」に対応する話者文要素区間が対応付けられてしまい、文要素区間の対応付けは失敗することになる。このような場合、対応付け編集部３３は、ユーザ操作に応じて、例えば、「えーーー」に対応する話者文要素区間に代えて「車内では」に対応する話者文要素区間が、「車内では」に対応する手本文要素区間に対応付けられるように、少なくとも１つの話者文要素区間と手本文要素区間との対応関係を変更（つまり、手動変更）する（詳細は後述）。

次に、音読評価部３４は、手本文要素区間と話者文要素区間とが対応付けられた文要素区間毎に、話者の音読に対する評価を行う。このとき、音読評価部３４は、上記区間毎、且つ複数の評価項目毎に、話者の音読に対する評価を行うとよい。ここで、評価項目の例として、抑揚、音量、滑舌、及び速度が挙げられる。例えば、音読評価部３４は、手本音高と話者音高との差を、対応付け部３２により対応付けられた文要素区間毎に算出し、算出した差に基づいて、話者の抑揚に対する評価点を文要素区間毎に算出する。この評価点は、例えば３０点を満点とし、差が０に近いほど高くなる（満点に近づく）ように算出される。また、音読評価部３４は、手本音圧と話者音圧との差を、対応付け部３２により対応付けられた文要素区間毎に算出し、算出した差に基づいて、話者の音量に対する評価点を文要素区間毎に算出する。この評価点は、例えば３０点を満点とし、差が０に近いほど高くなるように算出される。また、音読評価部３４は、手本の声道特性を示す特徴量と話者の声道特性を示す特徴量との類似度を、対応付け部３２により対応付けられた文要素区間毎に算出し、算出した類似度に基づいて、話者の滑舌に対する評価点を文要素区間毎に算出する。この評価点は、例えば３０点を満点とし、類似度が高いほど高くなるように算出される。また、音読評価部３４は、手本文要素区間の時間長と話者文要素区間の時間長との時間差を、対応付け部３２により対応付けられた文要素区間毎に算出し、算出した時間差の絶対値に基づいて、話者の速度（音読スピード）に対する評価点を文要素区間毎に算出する。この評価点は、例えば３０点を満点とし、時間差の絶対値が０に近いほど高くなるように算出される。なお、文要素区間毎に算出された評価項目別の評価点は、評価結果として、それぞれの話者文要素区間を示す話者文要素区間データに対応付けられてＲＡＭに記憶される。

さらに、音読評価部３４は、対応付け部３２により手本インターバル区間と話者インターバル区間とが対応付けられたインターバル区間毎に、話者の間（間合い）に対する評価を行ってもよい。例えば、音読評価部３４は、手本インターバル区間の時間長と、話者インターバル区間の時間長との時間差を、対応付け部３２により対応付けられたインターバル区間毎に算出し、算出した時間差の絶対値に基づいて、話者の間合いに対する評価点をインターバル区間毎に算出する。この評価点は、例えば３０点を満点とし、時間差の絶対値が０に近いほど高くなるように算出される。なお、インターバル区間毎に算出された評価点は、評価結果として、それぞれの話者インターバル区間データに対応付けられてＲＡＭに記憶される。

また、音読評価部３４は、文要素区間毎の評価項目別の評価点の平均値（合計値でもよい）を全文要素区間における評価項目別の総合評価点として算出し、インターバル区間毎の評価点の平均値（合計値でもよい）を全インターバル区間における間合いに対する総合評価点として算出する。さらに、音読評価部３４は、全文要素区間における評価項目別の総合評価点と、全インターバル区間における間合いに対する総合評価点との合計値（平均値でもよい）を、全区間（全文要素区間と全インターバル区間）における総合評価点として算出する。また、音読評価部３４により話者の音読に対する評価が行われた後に、対応付け編集部３３により話者文要素区間と手本文要素区間との対応関係が変更された場合、音読評価部３４は、少なくとも対応関係が変更された区間の音読に対する評価（再評価）を行う。この場合、音読評価部３４は、対応関係が変更された区間のみの音読に対する評価を行うとよい。これにより、対応関係が変更されなかった区間の音読に対する評価は流用されるので、対応関係が変更された区間の音読に対する評価を迅速に得ることができる。つまり、対応関係が変更された区間の再評価結果が得られるまでの時間を短縮することができる。なお、音読評価部３４は、少なくとも対応関係が変更された区間の音読に対する評価（再評価）を行った場合、この再評価に基づいて評価項目別の総合評価点、及び全区間における総合評価点を算出することになる。

次に、表示処理部３５は、話者が音読練習を行うための表示画面をディスプレイＤに表示させる。図２（Ａ）は、ディスプレイＤに表示された表示画面の一例を示す図であり、手本文要素区間と話者文要素区間との対応付けが成功した場合の表示例である。図２（Ａ）に示す表示画面には、手本表示領域５１、話者表示領域５２、総合評価点表示領域５３、及び全文表示領域５４等が設けられている。表示処理部３５は、手本表示領域５１において、手本文要素区間それぞれの手本文要素情報（第１文要素情報の一例）を時系列で表示させる。手本文要素情報の例として、手本文要素区間の時間長、時系列的に変化する手本音高、及び時系列的に変化する手本音圧が挙げられる。図２（Ａ）の例では、手本文要素区間の時間長に応じた長さの表示バー（オブジェクトの一例）５１ａ１〜５１ａ３、手本音高の時系列的な変化を表す折線グラフ５１ｂ１〜５１ｂ３、及び手本音圧の時系列的な変化を表す棒グラフ５１ｃ１〜５１ｃ３が表示されている。すなわち、表示バー５１ａ１〜５１ａ３は、手本文要素区間の時間長という情報を表している。折線グラフ５１ｂ１〜５１ｂ３は、時系列的に変化する手本音高という情報を表している。棒グラフ５１ｃ１〜５１ｃ３は、時系列的に変化する手本音圧いう情報を表している。表示バー５１ａ１〜５１ａ３に対応する限られた領域には、表示バー５１ａ１〜５１ａ３それぞれに対応する手本文要素区間に対応付けられたテキストの全部または一部が表示される。なお、表示バー５１ａ１〜５１ａ３に対応する限られた領域は、図２（Ａ）の例では、表示バー５１ａ１〜５１ａ３（表示バー５２ａ１〜５２ａ３についても同様）を画する領域であるが、これに限定されるものではない。例えば、表示バーと、その背景色との区別がつかなくなっており、テキストの一部が表示バーから、はみ出しているように見える領域も、表示バーに対応する限られた領域に該当する。また、表示バーに隣接した領域にテキストが表示される場合もあり、このように表示バーに隣接した領域もまた、表示バーに対応する限られた領域に該当する。なお、本実施形態では、表示バーの形状は矩形状としたが、これに限定されるものではなく、表示バーを一例とするオブジェクトは、例えば、多角形上、円形、または雲形になっていたり、波線になっていたり、単に縦棒で境界を示されただけであったりしてもよい。

また、表示処理部３５は、話者表示領域５２において、話者文要素区間それぞれの話者文要素情報（第２文要素情報の一例）を、それぞれの話者文要素区間に対応付けられた話者文要素区間の話者文要素情報に対応付けて表示させる。話者文要素情報の例として、話者文要素区間の時間長、時系列的に変化する話者音高、及び時系列的に変化する話者音圧が挙げられる。図２（Ａ）の例では、話者文要素区間の時間長に応じた長さの表示バー５２ａ１〜５２ａ３、話者音高の時系列的な変化を表す折線グラフ５２ｂ１〜５２ｂ３、及び話者音圧の時系列的な変化を表す棒グラフ５２ｃ１〜５２ｃ３が表示されている。すなわち、表示バー５２ａ１〜５２ａ３は、話者文要素区間の時間長という情報を表している。折線グラフ５２ｂ１〜５２ｂ３は、時系列的に変化する話者音高という情報を表している。棒グラフ５２ｃ１〜５２ｃ３は、時系列的に変化する話者音圧いう情報を表している。表示バー５２ａ１〜５２ａ３に対応する限られた領域には、表示バー５２ａ１〜５２ａ３それぞれに対応する話者文要素区間に対応付けられたテキストの全部または一部が表示される。なお、総合評価点表示領域５３には、全文要素区間における評価項目（抑揚、音量、滑舌、及び速度）別の総合評価点と、全インターバル区間における間合いに対する総合評価点と、全区間における総合評価点とが表示されている。全文表示領域５４には、音読対象となる文全体（テキスト全文）が表示されている。なお、手本表示領域５１及び話者表示領域５２における表示内容は、スクロールバー５５のユーザ操作に応じて、時間軸ｔと並行する方向にスクロール表示される。

一方、図２（Ｂ）は、ディスプレイＤに表示された表示画面の一例を示す図であり、手本文要素区間と話者文要素区間との対応付けが失敗した場合の表示例である。図２（Ｂ）に示す話者表示領域５２には、図２（Ａ）に示す話者表示領域５２と比べると、手本音高の時系列的な変化を表す折線グラフ５２ｂ１’、及び手本音圧の時系列的な変化を表す棒グラフ５２ｃ１’が余分に表示されていることが分かる。これは、話者により余分に発話された「えーーー」に対応する話者文要素区間の音声の波形から得られたものである。なお、図２（Ｂ）に示す話者表示領域５２には、「車内では、」というテキストが示された表示バー５２ａ２が表示されているが、この表示バー５２ａ２に対応する話者文要素区間は「えーーー」に対応する話者文要素区間である。つまり、この話者文要素区間に誤って「車内では」というフレーズが対応付けられている。

そして、手本表示領域５１に表示された手本文要素情報、または話者表示領域５２に表示された話者文要素情報に対するユーザ操作に応じて、上述したように、対応付け編集部３３により、話者文要素区間と手本文要素区間との対応関係が変更される。図３は、ユーザ操作により話者文要素区間と手本文要素区間との対応関係が変更される様子の一例を示す図である。図３（Ａ）に示すように、ユーザが例えばマウス操作または接触操作により表示バー５２ａ２を右側に移動（修正）させることで、折線グラフ５２ｂ１’及び棒グラフ５２ｃ１’に対応する話者文要素区間がとばされ、次の折線グラフ５２ｂ２及び棒グラフ５２ｃ２に対応する話者文要素区間が、折線グラフ５１ｂ２及び棒グラフ５１ｃ２に対応する手本文要素区間に対応付けられることになる。こうして話者文要素区間と手本文要素区間との対応関係が変更されると、図３（Ｂ）に示すように、表示画面には再評価（再採点）ボタン５６が表示されることになる。ユーザ操作により再評価ボタン５６が指定されると、音読評価部３４により、少なくとも対応関係が変更された区間の音読に対する再評価が行われる。

［２.音読練習装置Ｓの対応付け編集処理］
次に、図４及び図５を参照して、音読練習装置Ｓの対応付け編集処理について説明する。図４は、制御部３により実行される対応付け編集処理の一例を示すフローチャートである。図５は、対応付け編集処理において、手本文要素区間と話者文要素区間との対応関係の変更が行われるときの様子を示す概念図である。なお、図５の例では、説明の便宜上、各文要素区間を、音圧の時系列的な変化を表す棒グラフで表している。また、図５（Ａ）は、手本文要素区間Ｋ１１〜Ｋ１６に対して先頭から順番にシリアル番号“Ｎ”（Ｎ＝１〜６）が付与（自動付与）された例を示しており、図５（Ｂ）は、話者文要素区間Ｋ２１〜Ｋ２６に対して先頭から順番にシリアル番号“Ｎ”（Ｎ＝１〜６）が付与（自動付与）された例を示している。なお、シリアル番号が同一である手本文要素区間と話者文要素区間とが対応付けられる。このような対応付けを前提として、図４に示す対応付け編集処理が行われる。

図４に示す対応付け編集処理は、例えばユーザから対応関係変更開始指示があった場合に開始される。図４に示すステップＳ１では、制御部３（対応付け編集部３３）は、ユーザ操作に応じて、少なくとも１つの話者文要素区間に対してシリアル番号を付与（これを「手動付与」という）する。例えば、図５（Ｃ）に示すように、話者文要素区間Ｋ２３に対して既に付与されているシリアル番号“３”が“２”に修正（つまり、手動付与により修正）され、話者文要素区間Ｋ２７に対してシリアル番号“５”が新たに手動付与されている。これにより、話者文要素区間Ｋ２３を示す話者文要素区間データに対してシリアル番号“２”が対応付けられて記憶され、話者文要素区間Ｋ２７を示す話者文要素区間データに対してシリアル番号“５”が対応付けられて記憶される。こうして、話者文要素区間Ｋ２３が手本文要素区間Ｋ１２に対応付けられるように対応関係が変更され、話者文要素区間Ｋ２７が手本文要素区間Ｋ１５に対応付けられるように対応関係が変更される。なお、図５（Ｃ）に示すようにシリアル番号が付け直されることで、以降の処理でシリアル番号“３”，“４”，“６”が自動的に話者文要素区間に付け直されることになる。

ステップＳ２では、制御部３（対応付け編集部３３）は、シリアル番号を示す変数Ｎに“１”を代入する。次いで、制御部３（対応付け編集部３３）は、シリアル番号“Ｎ”は手動付与されたシリアル番号であるか否かを判定する（ステップＳ３）。制御部３（対応付け編集部３３）は、シリアル番号“Ｎ”は手動付与されたシリアル番号でないと判定した場合（ステップＳ３：ＮＯ）、ステップＳ４へ進む。図５（Ｃ）の例の場合、シリアル番号“１”は手動付与されていないので、手動付与されたシリアル番号でないと判定され、ステップＳ４へ進む。一方、制御部３（対応付け編集部３３）は、シリアル番号“Ｎ”は手動付与されたシリアル番号であると判定した場合（ステップＳ３：ＹＥＳ）、ステップＳ６へ進む。図５（Ｃ）の例の場合、シリアル番号“２”は手動付与されているので、シリアル番号Ｎは手動付与されたシリアル番号であると判定され、ステップＳ６へ進む。

ステップＳ４では、制御部３（対応付け編集部３３）は、自動付与されたシリアル番号“Ｎ”と、このシリアル番号“Ｎ”が付与されている話者文要素区間を示す話者文要素区間データと、この話者文要素区間データに対応付けられている評価結果（先の評価結果）とを対応付けてＲＡＭの再評価結果記憶領域に記憶する。図５（Ｃ）の例の場合、シリアル番号“１”と、話者文要素区間Ｋ２１を示す話者文要素区間データと、既になされた評価結果とが再評価結果記憶領域に記憶される。次いで、制御部３（対応付け編集部３３）は、シリアル番号“Ｎ”を１加算し（ステップＳ５）、ステップＳ３に戻る。

ステップＳ６では、制御部３（対応付け編集部３３）は、手動付与されたシリアル番号“Ｎ”と、このシリアル番号“Ｎ”が付与されている話者文要素区間を示す話者文要素区間データとを対応付けて再評価結果記憶領域に記憶する。図５（Ｃ）の例の場合、シリアル番号“２”と、話者文要素区間Ｋ２３を示す話者文要素区間データとが再評価結果記憶領域に記憶される。この場合、話者文要素区間Ｋ２３が対応付けられる手本文要素区間は変更されるので、この話者文要素区間Ｋ２３については再評価を行う必要がある。このため、この話者文要素区間Ｋ２３について既に行われた評価結果は破棄される。

次いで、制御部３（対応付け編集部３３）は、シリアル番号“Ｎ”は最後のシリアル番号であるか否かを判定する（ステップＳ７）。すなわち、シリアル番号“Ｎ”は、手本文要素区間Ｋ１１〜Ｋ１６に対して付与されたシリアル番号のうち末尾のシリアル番号（図５（Ａ）の例の場合、“６”となる）であるか否かが判定される。制御部３（対応付け編集部３３）は、シリアル番号“Ｎ”は最後のシリアル番号でないと判定した場合（ステップＳ７：ＮＯ）、ステップＳ８へ進む。一方、制御部３（対応付け編集部３３）は、シリアル番号“Ｎ”は最後のシリアル番号であると判定した場合（ステップＳ７：ＹＥＳ）、ステップＳ１２へ進む。

ステップＳ８では、制御部３（対応付け編集部３３）は、シリアル番号“Ｎ”を１加算し、ステップＳ９へ進む。ステップＳ９では、制御部３（対応付け編集部３３）は、シリアル番号“Ｎ”は手動付与されたシリアル番号であるか否かを判定する。制御部３（対応付け編集部３３）は、シリアル番号“Ｎ”は手動付与されたシリアル番号でないと判定した場合（ステップＳ９：ＮＯ）、ステップＳ１０へ進む。図５（Ｃ）の例の場合、シリアル番号“３”は手動付与されていないので、ステップＳ１０へ進む。一方、制御部３（対応付け編集部３３）は、シリアル番号“Ｎ”は手動付与されたシリアル番号であると判定した場合（ステップＳ９：ＹＥＳ）、ステップＳ６に戻る。図５（Ｃ）の例の場合、シリアル番号“５”は手動付与されているので、ステップＳ６に戻り、シリアル番号“５”と、話者文要素区間Ｋ２７を示す話者文要素区間データとが再評価結果記憶領域に記憶される。

ステップＳ１０では、制御部３（対応付け編集部３３）は、シリアル番号“Ｎ−１”より後の（つまり、番号が大きい）シリアル番号が付与されていない話者文要素区間に対して、シリアル番号“Ｎ”を付与（自動付与）する。例えば、図５（Ｄ）に示すように、シリアル番号“３”が、話者文要素区間Ｋ２４に対して付与される。次いで、制御部３（対応付け編集部３３）は、ステップＳ１０で付与されたシリアル番号“Ｎ”と、このシリアル番号“Ｎ”が付与された話者文要素区間を示す話者文要素区間データとを対応付けて再評価結果記憶領域に記憶し（ステップＳ１１）、ステップＳ７に戻る。その後、ステップＳ７からステップＳ１１の処理により、図５（Ｅ），（Ｆ）に示すように、まだ付与されていない残りのシリアル番号が話者文要素区間に対して付与されることになる。

ステップＳ１２では、制御部３（音読評価部３４）は、ステップＳ６で記憶された話者文要素区間データが示す話者文要素区間と、ステップＳ１１で記憶された話者文要素区間データが示す話者文要素区間とのそれぞれの区間の（つまり、手本文要素区間との対応関係が変更された文要素区間の）話者の音読に対する評価項目別の再評価を行う。この再評価により算出された評価項目別の評価点は、評価結果として、それぞれの話者文要素区間を示す話者文要素区間データに対応付けられてＲＡＭの再評価結果記憶領域に記憶される。こうして対応関係が変更されなかった話者文要素区間の評価結果に、対応関係が変更された話者文要素区間の再評価結果が補完されることになる。

以上説明したように、上記実施形態によれば、音読練習装置Ｓは、手本文要素区間の手本文要素情報と、手本文要素区間に対応付けられた話者文要素区間の話者文要素情報とを対応付けて表示させ、表示された第１文要素情報または第２文要素情報に対するユーザ操作に応じて、少なくとも１つの話者文要素区間と手本文要素区間との対応関係を変更するように構成したので、話者が途中で間違ったことを話したり、言い直したりする場合であっても、手本文要素区間と話者文要素区間との対応付けを適切に修正することができる。

［３.音読練習装置Ｓの処理の変形例］
次に、音読練習装置Ｓの処理の変形例について説明する。

（変形例１）
変形例１は、手本文要素区間と話者文要素区間との対応付け前（例えば、話者による音読前）に、対応付けから除外する手本文要素区間の指定を受け付ける例である。図６は、手本文要素区間と話者文要素区間との対応付け前に、対応付けから除外する手本文要素区間の指定を受け付けるときの画面遷移例を示す図である。変形例１の場合、制御部３（対応付け部３２）は、対応付けから除外する手本文要素区間の指定を受け付ける。例えば、図６（Ｂ）に示すように、ユーザがマウス操作または接触操作により、対応付けから除外する手本文要素区間に対応する表示バー５１ａ２を指定すると、指定された表示バー５１ａ２の色が変化し、且つ、対応付けから除外する手本文要素区間に対応付けられた文要素を表すテキスト（この例では、「車内では」）が全文表示領域５４において非表示になる。このように、対応付けから除外するとして指定された手本文要素区間は、制御部３（対応付け部３２）により対応付け対象外として認識される。その後、話者が音読練習で上記文（この例では、「車内では」を除く）を音読したときに発した音声であってマイクＭにより集音された音声の波形を示す話者音声波形データが入力されると、上述したように、話者音声波形データから話者文要素区間が特定される。そして、制御部３（対応付け部３２）は、対応付けから除外するとして指定された手本文要素区間を除外して、上記話者文要素区間を文の先頭から時系列で手本文要素区間に対応付ける。これにより、手本文要素区間と話者文要素区間との対応付けにおける利便性を向上させることができる。

（変形例２）
変形例２は、手本文要素区間と話者文要素区間との対応付け前（例えば、話者による音読前）に、隣合う２つの手本文要素区間を結合する例である。図７は、手本文要素区間と話者文要素区間との対応付け前に、隣合う２つの手本文要素区間を結合するときの画面遷移例を示す図である。変形例２の場合、制御部３は、隣合う２つの手本文要素区間それぞれに対応する表示バー間の部分に対する指定を受け付ける。例えば、図７（Ａ）に示すように、ユーザがマウス操作または接触操作により、手本表示領域５１及び話者表示領域５２上に描かれた縦線Ｌを、結合対象となる２つの手本文要素区間それぞれに対応する表示バー５１ａ２と５２ａ３との間の部分に位置させることで、表示バー間の部分に対する指定が受け付けられる。これにより、結合対象となる２つの手本文要素区間の指定をユーザに簡易に行わせることができる。この状態で、例えば結合ボタン５７が指定されることで結合指示を示すユーザ操作があった場合、制御部３は、図７（Ｂ）に示すように、結合対象となる２つの手本文要素区間を結合する。その後、話者が音読練習で上記文を音読したときに発した音声であってマイクＭにより集音された音声の波形を示す話者音声波形データが入力されると、上述したように、話者音声波形データから話者文要素区間が特定される。そして、制御部３（対応付け部３２）は、特定された話者文要素区間を文の先頭から時系列で、上記結合された手本文要素区間を含む複数の手本文要素区間に対応付ける。これにより、隣合う２つの手本文要素区間が結合された場合に、手本文要素区間と話者文要素区間との対応付けを適切に修正することができる。

また、上記例では、隣合う２つの手本文要素区間を結合する例について説明したが、１つの手本文要素区間を複数に分離するように構成してもよい。この場合、制御部３は、１つの手本文要素区間に対応する表示バーにおいて分離する部分に対する指定を受け付ける。例えばユーザがマウス操作または接触操作により、スクロールバー５５を移動させることで手本表示領域５１及び話者表示領域５２上に描かれた縦線Ｌを、分離対象となる１つの手本文要素区間に対応する表示バーを分断するように位置させることで、この表示バーにおいて分離する部分に対する指定が受け付けられる。これにより、分離対象となる１つの手本文要素区間の指定をユーザに簡易に行わせることができる。この状態で、例えば分離ボタン５８が指定されることで分離指示を示すユーザ操作があった場合、制御部３は、分離対象となる１つの手本文要素区間を複数に分離する。その後、話者が音読練習で上記文を音読したときに発した音声であってマイクＭにより集音された音声の波形を示す話者音声波形データが入力されると、上述したように、話者音声波形データから話者文要素区間が特定される。そして、制御部３（対応付け部３２）は、特定された話者文要素区間を文の先頭から時系列で、上記分離された手本文要素区間を含む複数の手本文要素区間に対応付ける。これにより、１つの手本文要素区間が分離された場合に、手本文要素区間と話者文要素区間との対応付けを適切に修正することができる。

（変形例３）
変形例３は、手本文要素区間と話者文要素区間との対応付け後（例えば、文要素区間毎の評価後）に、評価対象から除外する手本文要素区間及び話者文要素区間の指定を受け付ける例である。図８は、手本文要素区間と話者文要素区間との対応付け後、評価対象から除外する手本文要素区間及び話者文要素区間の指定を受け付けるときの画面遷移例を示す図である。変形例３の場合、制御部３（対応付け編集部３３）は、評価対象から除外する手本文要素区間及び話者文要素区間の指定を受け付ける。例えば、図８（Ｂ）に示すように、ユーザがマウス操作または接触操作により、評価対象から除外する手本文要素区間に対応する表示バー５１ａ２を指定すると、指定された表示バー５１ａ２の色が変化するとともに、この手本文要素区間に対応付けられた話者文要素区間に対応する表示バー５２ａ２の色が変化する。或いは、ユーザがマウス操作または接触操作により、評価対象から除外する話者文要素区間に対応する表示バー５２ａ２を指定すると、指定された表示バー５２ａ２の色が変化するとともに、この話者文要素区間に対応付けられた手本文要素区間に対応する表示バー５１ａ２の色が変化する。このように、評価対象から除外するとして指定された手本文要素区間及び話者文要素区間は、制御部３（音読評価部３４）により評価対象外として認識される。そして、制御部３（音読評価部３４）は、例えば再評価ボタン５６が指定されることで再評価指示を示すユーザ操作があった場合、評価対象から除外するとして指定された手本文要素区間及び話者文要素区間を図８（Ｃ）に示すように除外して音読に対する再評価を行う。すなわち、制御部３（音読評価部３４）は、上記指定された文要素区間の評価結果を除く文要素区間毎の評価項目別の評価点の平均値（合計値でもよい）を全文要素区間における評価項目別の総合評価点として再算出し、全区間における総合評価点を再算出する。こうして、図８（Ｂ），（Ｃ）に示すように、総合評価点表示領域５３に表示される総合評価点が再評価の前と後とで変わることになる。これにより、文要素区間毎の音読に対する評価における利便性を向上させることができる。

（変形例４）
変形例４は、手本文要素区間と話者文要素区間との対応付け後（例えば、文要素区間毎の評価後）に、隣合う２つの手本文要素区間を結合する例である。図９は、手本文要素区間と話者文要素区間との対応付け後に、隣合う２つの手本文要素区間を結合するときの画面遷移例を示す図である。変形例４の場合、制御部３は、隣合う２つの手本文要素区間それぞれに対応する表示バー間の部分に対する指定を受け付ける。例えば、図９（Ｂ）に示すように、ユーザがマウス操作または接触操作により、手本表示領域５１及び話者表示領域５２上に描かれた縦線Ｌを、結合対象となる２つの手本文要素区間それぞれに対応する表示バー５１ａ２と５１ａ３との間の部分に位置させることで、表示バー間の部分に対する指定が受け付けられる。この状態で、例えば結合ボタン５７が指定されることで結合指示を示すユーザ操作があった場合、制御部３（対応付け編集部３３）は、図９（Ｃ）に示すように、結合対象となる２つの手本文要素区間を結合し、且つ、結合対象となる２つの手本文要素区間それぞれに対応する隣合う２つの話者文要素区間を結合して、結合された手本文要素区間と、結合された話者文要素区間とを時系列で対応付ける。これにより、隣合う２つの手本文要素区間が結合された場合に、手本文要素区間と話者文要素区間との対応付けを適切に修正して再評価を行うことができる。制御部３（音読評価部３４）は、例えば再評価ボタン５６が指定されることで再評価指示を示すユーザ操作があった場合、少なくとも、結合された文要素区間における評価項目別の再評価を行う。そして、制御部３（音読評価部３４）は、結合された文要素区間の評価結果を含む文要素区間毎の評価項目別の評価点の平均値（合計値でもよい）を全文要素区間における評価項目別の総合評価点として再算出し、全区間における総合評価点を再算出する。これにより、図９（Ｂ），（Ｃ）に示すように、総合評価点表示領域５３に表示される総合評価点が再評価の前と後とで変わることになる。

なお、手本表示領域５１及び話者表示領域５２上に描かれた縦線Ｌを、結合対象となる２つの話者文要素区間それぞれに対応する表示バー５２ａ２と５２ａ３との間の部分に位置させることで、表示バー間の部分に対する指定が受け付けられてもよい。この場合、例えば結合ボタン５７が指定されることで結合指示を示すユーザ操作があった場合、制御部３（対応付け編集部３３）は、結合対象となる２つの話者文要素区間を結合し、且つ、結合対象となる２つの話者文要素区間それぞれに対応する隣合う２つの手本文要素区間を結合して、結合された話者文要素区間と、結合された手本文要素区間とを対応付けることになる。

また、上記の例では、隣合う２つの手本文要素区間を結合する例について説明したが、１つの手本文要素区間を複数に分離するように構成してもよい。この場合、制御部３は、１つの手本文要素区間に対応する表示バーにおいて分離する部分に対する指定を受け付ける。例えばユーザがマウス操作または接触操作により、手本表示領域５１及び話者表示領域５２上に描かれた縦線Ｌを、分離対象となる１つの手本文要素区間に対応する表示バーを分断するように位置させることで、この表示バーにおいて分離する部分に対する指定が受け付けられる。この状態で、例えば分離ボタン５８が指定されることで分離指示を示すユーザ操作があった場合、制御部３は、分離対象となる１つの手本文要素区間を複数に分離し、且つ、分離前の手本文要素区間に対応付けられていた話者文要素区間を、手本文要素区間の分離数だけ分離し、分離された話者文要素区間それぞれを、分離された手本文要素区間それぞれに時系列で対応付ける。これにより、１つの手本文要素区間が分離された場合に、手本文要素区間と話者文要素区間との対応付けを適切に修正して再評価を行うことができる。制御部３（音読評価部３４）は、例えば再評価ボタン５６が指定されることで再評価指示を示すユーザ操作があった場合、少なくとも、分離された文要素区間のそれぞれにおける評価項目別の再評価を行う。そして、制御部３（音読評価部３４）は、分離された文要素区間のそれぞれの評価結果を含む文要素区間毎の評価項目別の評価点の平均値（合計値でもよい）を全文要素区間における評価項目別の総合評価点として再算出し、全区間における総合評価点を再算出する。

なお、手本表示領域５１及び話者表示領域５２上に描かれた縦線Ｌを、分離対象となる１つの話者文要素区間に対応する表示バーを分断するように位置させることで、この表示バーにおいて分離する部分に対する指定が受け付けられてもよい。この場合、例えば分離ボタン５８が指定されることで分離指示を示すユーザ操作があった場合、制御部３（対応付け編集部３３）は、分離対象となる１つの話者文要素区間を複数に分離し、且つ、分離前の話者文要素区間に対応付けられていた手本文要素区間を、話者文要素区間の分離数だけ分離し、分離された手本文要素区間それぞれを、分離された話者文要素区間それぞれに時系列で対応付けることになる。

１通信部
２記憶部
３制御部
４操作部
５インターフェース部
６バス
３１音声処理部
３２対応付け部
３３対応付け編集部
３４音読評価部
３５表示処理部
Ｓ音読練習装置

Claims

文を音読するときの手本となる音声の波形を示す第１音声波形データに基づいて複数に区分された第１文要素区間であって前記文を構成する複数の文要素それぞれの開始タイミングから終了タイミングまでの第１文要素区間それぞれの第１文要素情報を時系列で表示させる第１表示制御手段と、
話者が前記文を音読したときに発した音声の波形を示す第２音声波形データに基づいて複数に区分された第２文要素区間であって前記文を構成する複数の文要素それぞれの開始タイミングから終了タイミングまでの第２文要素区間を前記文の先頭から時系列で前記第１文要素区間に対応付ける対応付け手段と、
前記第２文要素区間それぞれの第２文要素情報を、前記対応付け手段により対応付けられた前記第１文要素区間の前記第１文要素情報に対応付けて表示させる第２表示制御手段と、
前記表示された第１文要素情報または第２文要素情報に対するユーザ操作に応じて、少なくとも１つの前記第２文要素区間と前記第１文要素区間との対応関係を変更する対応関係変更手段と、
を備えることを特徴とする対応付け編集装置。
前記対応付け手段により前記第１文要素区間と前記第２文要素区間とが対応付けられた区間毎に前記音読に対する評価を行う評価手段を備え、
前記対応関係変更手段により前記第２文要素区間と前記第１文要素区間との対応関係が変更された場合、前記評価手段は、少なくとも前記対応関係が変更された区間の前記音読に対する評価を行うことを特徴とする請求項１に記載の対応付け編集装置。
前記対応関係変更手段により前記第２文要素区間と前記第１文要素区間との対応関係が変更された場合、前記評価手段は、前記対応関係が変更された区間のみの前記音読に対する評価を行うことを特徴とする請求項２に記載の対応付け編集装置。
隣合う２つの前記第１文要素区間を結合する結合手段を更に備え、
前記対応関係変更手段は、前記結合手段により前記隣合う２つの前記第１文要素区間が結合された場合、前記隣合う２つの前記第１文要素区間それぞれに対応する隣合う２つの前記第２文要素区間を結合して、前記結合された前記第１文要素区間と、前記結合された前記第２文要素区間とを時系列で対応付けることを特徴とする請求項１乃至３の何れか一項に記載の対応付け編集装置。
前記第１文要素情報は、前記第１文要素区間の時間長であり、前記第１表示制御手段は、前記第１文要素区間の時間長に応じた長さのオブジェクトを表示させ、
前記隣合う２つの前記第１文要素区間それぞれに対応する前記オブジェクト間の部分に対する指定を受け付ける第１受付手段を更に備え、
前記第１受付手段により前記部分の指定が受け付けられた後、結合指示を示すユーザ操作があった場合、前記結合手段は、前記隣合う２つの前記第１文要素区間を結合することを特徴とする請求項４に記載の対応付け編集装置。
前記第１文要素区間を複数に分離する分離手段を更に備え、
前記対応関係変更手段は、前記分離手段により前記第１文要素区間が分離された場合、分離前の前記第１文要素区間に対応付けられていた前記第２文要素区間を、前記第１文要素区間の分離数だけ分離し、前記分離された前記第２文要素区間それぞれを、前記分離された前記第１文要素区間それぞれに時系列で対応付けることを特徴とする請求項１乃至３の何れか一項に記載の対応付け編集装置。
前記第１文要素情報は、前記第１文要素区間の時間長であり、前記第１表示制御手段は、前記第１文要素区間の時間長に応じた長さのオブジェクトを表示させ、
前記オブジェクトにおいて分離する部分に対する指定を受け付ける第２受付手段を更に備え、
前記第２受付手段により前記部分の指定が受け付けられた後、分離指示を示すユーザ操作があった場合、前記分離手段は、前記オブジェクトに対応する前記第１文要素区間を複数に分離することを特徴とする請求項６に記載の対応付け編集装置。
対応付けから除外する前記第１文要素区間の指定を受け付ける第３受付手段と、
前記対応付け手段は、前記第３受付手段により指定が受け付けられた前記第１文要素区間を除外して前記第２文要素区間を前記文の先頭から時系列で前記第１文要素区間に対応付けることを特徴とする請求項１乃至７の何れか一項に記載の対応付け編集装置。
評価対象から除外する前記第１文要素区間及び前記第２文要素区間の指定を受け付ける第３受付手段と、
前記評価手段は、前記第３受付手段により指定が受け付けられた前記第１文要素区間及び前記第２文要素区間を除外して前記区間毎に前記音読に対する評価を行うことを特徴とする請求項２に記載の対応付け編集装置。
１つ以上のコンピュータにより実行される対応付け編集方法であって
文を音読するときの手本となる音声の波形を示す第１音声波形データに基づいて複数に区分された第１文要素区間であって前記文を構成する複数の文要素それぞれの開始タイミングから終了タイミングまでの第１文要素区間それぞれの第１文要素情報を時系列で表示させる第１表示制御ステップと、
話者が前記文を音読したときに発した音声の波形を示す第２音声波形データに基づいて複数に区分された第２文要素区間であって前記文を構成する複数の文要素それぞれの開始タイミングから終了タイミングまでの第２文要素区間を前記文の先頭から時系列で前記第１文要素区間に対応付ける対応付けステップと、
前記第２文要素区間それぞれの第２文要素情報を、前記対応付けステップにより対応付けられた前記第１文要素区間の前記第１文要素情報に対応付けて表示させる第２表示制御ステップと、
前記表示された第１文要素情報または第２文要素情報に対するユーザ操作に応じて、少なくとも１つの前記第２文要素区間と前記第１文要素区間との対応関係を変更する対応関係変更ステップと、
を含むことを特徴とする対応付け編集方法。
文を音読するときの手本となる音声の波形を示す第１音声波形データに基づいて複数に区分された第１文要素区間であって前記文を構成する複数の文要素それぞれの開始タイミングから終了タイミングまでの第１文要素区間それぞれの第１文要素情報を時系列で表示させる第１表示制御ステップと、
話者が前記文を音読したときに発した音声の波形を示す第２音声波形データに基づいて複数に区分された第２文要素区間であって前記文を構成する複数の文要素それぞれの開始タイミングから終了タイミングまでの第２文要素区間を前記文の先頭から時系列で前記第１文要素区間に対応付ける対応付けステップと、
前記第２文要素区間それぞれの第２文要素情報を、前記対応付けステップにより対応付けられた前記第１文要素区間の前記第１文要素情報に対応付けて表示させる第２表示制御ステップと、
前記表示された第１文要素情報または第２文要素情報に対するユーザ操作に応じて、少なくとも１つの前記第２文要素区間と前記第１文要素区間との対応関係を変更する対応関係変更ステップと、
をコンピュータに実行させることを特徴とするプログラム。