JP2017156614A - 対応付け編集装置、対応付け編集方法、及びプログラム - Google Patents

対応付け編集装置、対応付け編集方法、及びプログラム Download PDF

Info

Publication number
JP2017156614A
JP2017156614A JP2016041016A JP2016041016A JP2017156614A JP 2017156614 A JP2017156614 A JP 2017156614A JP 2016041016 A JP2016041016 A JP 2016041016A JP 2016041016 A JP2016041016 A JP 2016041016A JP 2017156614 A JP2017156614 A JP 2017156614A
Authority
JP
Japan
Prior art keywords
sentence
sentence element
element section
section
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016041016A
Other languages
English (en)
Inventor
雅弘 亀井
Masahiro Kamei
雅弘 亀井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Brother Industries Ltd
Original Assignee
Brother Industries Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Brother Industries Ltd filed Critical Brother Industries Ltd
Priority to JP2016041016A priority Critical patent/JP2017156614A/ja
Publication of JP2017156614A publication Critical patent/JP2017156614A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Electrically Operated Instructional Devices (AREA)

Abstract

【課題】手本の文要素区間と話者の文要素区間との対応付けを適切に修正することが可能な対応付け編集装置、対応付け編集方法、及びプログラムを提供する。
【解決手段】音読練習装置Sは、手本文要素区間の手本文要素情報と、手本文要素区間に対応付けられた話者文要素区間の話者文要素情報とを対応付けて表示させ、表示された第1文要素情報または第2文要素情報に対するユーザ操作に応じて、少なくとも1つの話者文要素区間と手本文要素区間との対応関係を変更する。
【選択図】図4

Description

本発明は、文を音読するときの手本となる音声の波形と、話者が文を音読したときに発した音声の波形とを、文を構成する複数の文要素毎に対応付けることが可能なシステム等の技術分野に関する。
近年、語学学習、歌唱、またはアナウンス等の練習支援を目的として、複数の文要素(例えば、フレーズや単語)毎に抑揚や音量等の評価点を算出するシステムが知られている。例えば、特許文献1に開示されたカラオケ装置では、歌唱者の歌唱音声信号から抽出された抑揚や音量等に基づいて、曲の区間別に歌唱を採点するようになっている。また、特許文献2に開示されたカラオケ装置では、歌唱者音声データの時間軸を伸縮しガイドボーカルデータの時間軸と合わせ、音節区切りデータで区切られた音節ごとの音量変化を比較することで、各音節内の微妙な変化についても評価を行うようになっている。
特開平10−078749号公報 特開2008−039833号公報
ところで、例えばアナウンス等の音読(スピーチ)に対する評価を行うシステムでは、手本となる文要素(例えば、フレーズ)毎に採点を行うが、音読の練習では、カラオケ装置を用いた歌唱の練習のように、手本に合わせたタイミングや速度で音読するわけではないため、同じことを音読しても話者によって音読するタイミングや速度は異なる。このため、音読に対する評価を行うためには、評価前に手本となる音声の波形と、話者の波形とを、文要素区間毎に対応付けを行う必要がある。ここで、文要素区間とは、音声の波形の塊が文要素単位で分割された区間(言い換えれば、文要素の波形の区間)である。また、対応付けとは、例えば手本と同じフレーズを、話者が何秒から何秒までの区間で話しているかを判断する処理のことを指す。しかしながら、話者が途中で間違ったことを話したり、言い直したりする場合に、正しく対応付けができずに採点が正常に行われない場合がある。
本発明は、以上の点に鑑みてなされたものであり、手本の文要素区間と話者の文要素区間との対応付けを適切に修正することが可能な対応付け編集装置、対応付け編集方法、及びプログラムを提供する。
上記課題を解決するために、請求項1に記載の発明は、文を音読するときの手本となる音声の波形を示す第1音声波形データに基づいて複数に区分された第1文要素区間であって前記文を構成する複数の文要素それぞれの開始タイミングから終了タイミングまでの第1文要素区間それぞれの第1文要素情報を時系列で表示させる第1表示制御手段と、話者が前記文を音読したときに発した音声の波形を示す第2音声波形データに基づいて複数に区分された第2文要素区間であって前記文を構成する複数の文要素それぞれの開始タイミングから終了タイミングまでの第2文要素区間を前記文の先頭から時系列で前記第1文要素区間に対応付ける対応付け手段と、前記第2文要素区間それぞれの第2文要素情報を、前記対応付け手段により対応付けられた前記第1文要素区間の前記第1文要素情報に対応付けて表示させる第2表示制御手段と、前記表示された第1文要素情報または第2文要素情報に対するユーザ操作に応じて、少なくとも1つの前記第2文要素区間と前記第1文要素区間との対応関係を変更する対応関係変更手段と、を備えることを特徴とする。
請求項2に記載の発明は、請求項1に記載の対応付け編集装置において、前記対応付け手段により前記第1文要素区間と前記第2文要素区間とが対応付けられた区間毎に前記音読に対する評価を行う評価手段を備え、前記対応関係変更手段により前記第2文要素区間と前記第1文要素区間との対応関係が変更された場合、前記評価手段は、少なくとも前記対応関係が変更された区間の前記音読に対する評価を行うことを特徴とする。
請求項3に記載の発明は、請求項2に記載の対応付け編集装置において、前記対応関係変更手段により前記第2文要素区間と前記第1文要素区間との対応関係が変更された場合、前記評価手段は、前記対応関係が変更された区間のみの前記音読に対する評価を行うことを特徴とする。
請求項4に記載の発明は、請求項1乃至3の何れか一項に記載の対応付け編集装置において、隣合う2つの前記第1文要素区間を結合する結合手段を更に備え、前記対応関係変更手段は、前記結合手段により前記隣合う2つの前記第1文要素区間が結合された場合、前記隣合う2つの前記第1文要素区間それぞれに対応する隣合う2つの前記第2文要素区間を結合して、前記結合された前記第1文要素区間と、前記結合された前記第2文要素区間とを時系列で対応付けることを特徴とする。
請求項5に記載の発明は、請求項4に記載の対応付け編集装置において、前記第1文要素情報は、前記第1文要素区間の時間長であり、前記第1表示制御手段は、前記第1文要素区間の時間長に応じた長さのオブジェクトを表示させ、前記隣合う2つの前記第1文要素区間それぞれに対応する前記オブジェクト間の部分に対する指定を受け付ける第1受付手段を更に備え、前記第1受付手段により前記部分の指定が受け付けられた後、結合指示を示すユーザ操作があった場合、前記結合手段は、前記隣合う2つの前記第1文要素区間を結合することを特徴とする。
請求項6に記載の発明は、請求項1乃至3の何れか一項に記載の対応付け編集装置において、前記第1文要素区間を複数に分離する分離手段を更に備え、前記対応関係変更手段は、前記分離手段により前記第1文要素区間が分離された場合、分離前の前記第1文要素区間に対応付けられていた前記第2文要素区間を、前記第1文要素区間の分離数だけ分離し、前記分離された前記第2文要素区間それぞれを、前記分離された前記第1文要素区間それぞれに時系列で対応付けることを特徴とする。
請求項7に記載の発明は、請求項6に記載の対応付け編集装置において、前記第1文要素情報は、前記第1文要素区間の時間長であり、前記第1表示制御手段は、前記第1文要素区間の時間長に応じた長さのオブジェクトを表示させ、前記オブジェクトにおいて分離する部分に対する指定を受け付ける第2受付手段を更に備え、前記第2受付手段により前記部分の指定が受け付けられた後、分離指示を示すユーザ操作があった場合、前記分離手段は、前記オブジェクトに対応する前記第1文要素区間を複数に分離することを特徴とする。
請求項8に記載の発明は、請求項1乃至7の何れか一項に記載の対応付け編集装置において、対応付けから除外する前記第1文要素区間の指定を受け付ける第3受付手段と、前記対応付け手段は、前記第3受付手段により指定が受け付けられた前記第1文要素区間を除外して前記第2文要素区間を前記文の先頭から時系列で前記第1文要素区間に対応付けることを特徴とする。
請求項9に記載の発明は、請求項2に記載の対応付け編集装置において、評価対象から除外する前記第1文要素区間及び前記第2文要素区間の指定を受け付ける第3受付手段と、前記評価手段は、前記第3受付手段により指定が受け付けられた前記第1文要素区間及び前記第2文要素区間を除外して前記区間毎に前記音読に対する評価を行うことを特徴とする。
請求項10に記載の発明は、1つ以上のコンピュータにより実行される対応付け編集方法であって、文を音読するときの手本となる音声の波形を示す第1音声波形データに基づいて複数に区分された第1文要素区間であって前記文を構成する複数の文要素それぞれの開始タイミングから終了タイミングまでの第1文要素区間それぞれの第1文要素情報を時系列で表示させる第1表示制御ステップと、話者が前記文を音読したときに発した音声の波形を示す第2音声波形データに基づいて複数に区分された第2文要素区間であって前記文を構成する複数の文要素それぞれの開始タイミングから終了タイミングまでの第2文要素区間を前記文の先頭から時系列で前記第1文要素区間に対応付ける対応付けステップと、前記第2文要素区間それぞれの第2文要素情報を、前記対応付けステップにより対応付けられた前記第1文要素区間の前記第1文要素情報に対応付けて表示させる第2表示制御ステップと、前記表示された第1文要素情報または第2文要素情報に対するユーザ操作に応じて、少なくとも1つの前記第2文要素区間と前記第1文要素区間との対応関係を変更する対応関係変更ステップと、を含むことを特徴とする。
請求項11に記載の発明は、文を音読するときの手本となる音声の波形を示す第1音声波形データに基づいて複数に区分された第1文要素区間であって前記文を構成する複数の文要素それぞれの開始タイミングから終了タイミングまでの第1文要素区間それぞれの第1文要素情報を時系列で表示させる第1表示制御ステップと、話者が前記文を音読したときに発した音声の波形を示す第2音声波形データに基づいて複数に区分された第2文要素区間であって前記文を構成する複数の文要素それぞれの開始タイミングから終了タイミングまでの第2文要素区間を前記文の先頭から時系列で前記第1文要素区間に対応付ける対応付けステップと、前記第2文要素区間それぞれの第2文要素情報を、前記対応付けステップにより対応付けられた前記第1文要素区間の前記第1文要素情報に対応付けて表示させる第2表示制御ステップと、前記表示された第1文要素情報または第2文要素情報に対するユーザ操作に応じて、少なくとも1つの前記第2文要素区間と前記第1文要素区間との対応関係を変更する対応関係変更ステップと、をコンピュータに実行させることを特徴とする。
請求項1,10及び11に記載の発明によれば、話者が途中で間違ったことを話したり、言い直したりする場合であっても、手本の文要素区間(第1文要素区間)と話者の文要素区間(第2文要素区間)との対応付けを適切に修正することができる。
請求項2に記載の発明によれば、手本の文要素区間と話者の文要素区間との適切に修正された対応付けにしたがって、音読に対する適切な評価を行うことができる。
請求項3に記載の発明によれば、対応関係が変更された区間の音読に対する評価を迅速に得ることができる。
請求項4に記載の発明によれば、隣合う2つの手本の文要素区間が結合された場合に、手本の文要素区間と話者の文要素区間との対応付けを適切に修正することができる。
請求項5に記載の発明によれば、結合対象となる2つの手本の文要素区間の指定をユーザに簡易に行わせることができる。
請求項6に記載の発明によれば、1つの手本の文要素区間が分離された場合に、手本の文要素区間と話者の文要素区間との対応付けを適切に修正することができる。
請求項7に記載の発明によれば、分離対象となる1つの手本の文要素区間の指定をユーザに簡易に行わせることができる。
請求項8に記載の発明によれば、手本の文要素区間と話者の文要素区間との対応付けにおける利便性を向上させることができる。
請求項9に記載の発明によれば、文要素区間毎の音読に対する評価における利便性を向上させることができる。
本実施形態に係る音読練習装置Sの概要構成例を示す図である。 ディスプレイDに表示された表示画面の一例を示す図である。 ユーザ操作により話者文要素区間と手本文要素区間との対応関係が変更される様子の一例を示す図である。 制御部3により実行される対応付け編集処理の一例を示すフローチャートである。 対応付け編集処理において、手本文要素区間と話者文要素区間との対応関係の変更が行われるときの様子を示す概念図である。 手本文要素区間と話者文要素区間との対応付け前に、対応付けから除外する手本文要素区間の指定を受け付けるときの画面遷移例を示す図である。 手本文要素区間と話者文要素区間との対応付け前に、隣合う2つの手本文要素区間を結合するときの画面遷移例を示す図である。 手本文要素区間と話者文要素区間との対応付け後、評価対象から除外する手本文要素区間及び話者文要素区間の指定を受け付けるときの画面遷移例を示す図である。 手本文要素区間と話者文要素区間との対応付け後に、隣合う2つの手本文要素区間を結合するときの画面遷移例を示す図である。
以下、本発明の実施形態を図面に基づいて説明する。なお、以下に説明する実施の形態は、音読練習装置に対して本発明を適用した場合の実施形態である。
[1.音読練習装置Sの構成及び機能]
初めに、図1を参照して、本発明の一実施形態に係る音読練習装置Sの構成及び機能について説明する。図1は、本実施形態に係る音読練習装置Sの概要構成例を示す図である。音読練習装置Sは、本発明の対応付け編集装置の一例である。なお、音読練習装置の一例として、パーソナルコンピュータや、携帯型情報端末(スマートフォン等)などが挙げられる。図1に示すように、音読練習装置Sは、通信部1、記憶部2、制御部3、操作部4、及びインターフェース(IF)部5等を備えて構成され、これらの構成要素はバス6に接続されている。音読練習装置Sは、発話練習装置ともいう。操作部4は、ユーザからの操作(ユーザ操作)を受け付け、そのユーザ操作に応じた信号を制御部3へ出力する。ユーザ操作の例として、マウス操作が挙げられる。なお、ディスプレイDがタッチパネルディスプレイである場合、ユーザ操作は、ユーザの指やペン等による接触操作であってもよい。インターフェース部5には、マイクM、及びディスプレイD等が接続される。マイクMは、語学学習、アナウンス、朗読などの発話練習等を行う練習者である話者が、複数の文要素を含む文(文章)を音読したときに発した音声を集音する。文要素は、文を構成する単位である。文要素の例として、フレーズ、文節、単語の他、複数のフレーズが結合した結合フレーズ等が挙げられる。ここで、フレーズは、一般に文章を読むときに一息で読む単位である。フレーズは、1以上の文節から構成される。つまり、1つのフレーズが1つの文節から構成される場合もあるし、1つのフレーズが複数の文節から構成される場合もある。文節は、例えば、1つ以上の単語のまとまりである。単語には、名詞、動詞、形容詞、副詞、及び接続詞等の自立語(単独で文節を構成できる品詞)や、助動詞及び助詞等の付属語(単独で文節を構成できない品詞)などがある。音読対象となる文の例として、語学学習や、アナウンス、朗読などで用いられる文章などが挙げられる。ディスプレイDは、制御部3からの表示指令にしたがって、後述する表示領域等が配置される表示画面を表示する。なお、マイクM、及びディスプレイDは、音読練習装置Sと一体型であってもよいし、別体であってもよい。
通信部1は、有線または無線によりネットワーク(図示せず)に接続してサーバ等と通信を行う。記憶部2は、例えばハードディスクドライブ等からなり、OS(オペレーティングシステム)、及び音読練習処理プログラム(本発明の対応付け編集処理プログラムを含む)を記憶する。音読練習処理プログラムは、コンピュータとしての制御部3に、音読練習処理(対応付け編集処理を含む)を実行させるプログラムである。音読練習処理プログラムは、アプリケーションとして、所定のサーバからダウンロードされてもよいし、CD、DVD等の記録媒体に記憶されて提供されてもよい。また、記憶部2は、複数の文要素を含む文のテキストデータと、この文を音読するときの手本となる音声の波形を示す手本音声波形データ(第1音声波形データの一例)を記憶する。ここで、テキストデータには、例えば、音読対象となる文を構成する各文要素を表すテキスト(文字)が文要素毎に区切られて規定されている。例えば、文要素間に挿入される句読点により区切られる。或いは、文要素を表すテキストには、先頭から順番にシリアル番号が付与されていてもよい。なお、手本音声波形データは、所定の音声ファイル形式で記憶される。
制御部3は、コンピュータとしてのCPU(Central Processing Unit)、ROM(Read Only Memory)、及びRAM(Random Access Memory)等により構成される。制御部3は、音読練習処理プログラムにより、音声処理部31、対応付け部32、対応付け編集部33、音読評価部34、及び表示処理部35として機能する。対応付け部32は、本発明における第3受付手段及び対応付け手段の一例である。対応付け編集部33は、本発明における対応関係変更手段、第1受付手段、第2受付手段、結合手段、及び分離手段の一例である。音読評価部34は、本発明における第3受付手段及び評価手段の一例である。表示処理部35は、本発明における第1表示制御手段及び第2表示制御手段の一例である。
音声処理部31は、所定の音声ファイル形式で記憶された手本音声波形データを処理対象として記憶部2から入力する。入力された手本音声波形データはRAMに記憶される。また、音声処理部31は、話者が音読練習で上記文を音読したときに発した音声であってマイクMにより集音された音声の波形を示す話者音声波形データ(第2音声波形データの一例)を入力する。入力された話者音声波形データはRAMに記憶される。なお、音声波形データは、離散化された時系列の音圧波形データであり、例えば、サンプリングレート44.1kHz、量子化16bit、及びモノラルの波形データである。音圧とは、音波による空気の圧力の変化分(Pa)をいう。本実施形態では、音圧として、瞬時音圧(Pa)の二乗平均平方根(RMS)である実効音圧(Pa)の大きさを計算上扱い易い数値で表した音圧レベル(dB)を適用する。音圧レベル(dB)は、広義には音量ともいう。
音声処理部31は、手本音声波形データに基づいて、各文要素の開始タイミングから終了タイミングまでの手本文要素区間(第1文要素区間の一例)を文要素毎に特定する。ここで、文要素区間とは、音声の波形の塊が例えばフレーズ単位で区分された区間である。そして、音声処理部31は、文要素毎に特定した手本文要素区間を示す手本文要素区間データに、それぞれの文要素を表すテキストを対応付けてRAMに記憶する。これらの文要素を表すテキストは、例えば、上記処理対象の手本音声波形データに対応付けられているテキストデータから抽出され、例えば先頭の手本文要素区間から順に対応付けられる。なお、手本文要素区間データは、例えば、この手本文要素区間の時間範囲(例えば、01:00-03:00)により構成される。
同様に、音声処理部31は、話者音声波形データに基づいて、各文要素の開始タイミングから終了タイミングまでの話者文要素区間(第2文要素区間の一例)を文要素毎に特定する。そして、音声処理部31は、文要素毎に特定した話者文要素区間を示す話者文要素区間データに、それぞれの文要素を表すテキストを対応付けてRAMに記憶する。この場合も、各文要素を表すテキストは、手本文要素区間と同様、上記処理対象の話者音声波形データに対応付けられているテキストデータから抽出され、例えば先頭の話者文要素区間から順に対応付けられる。なお、話者文要素区間データは、例えば、この話者文要素区間の時間範囲により構成される。
ここで、開始タイミングと終了タイミングは、それぞれ、音声の波形から認識されてもよいし、上述したように算出された音圧レベル(dB)から認識されてもよい。例えば、音声処理部31は、音声の波形の振幅が所定値以上になった時点を開始タイミングとして認識する。或いは、音声処理部31は、音圧レベル(dB)が所定値以上になった時点を開始タイミングとして認識する。また、例えば、音声処理部31は、音声の波形の振幅幅が所定値未満になった時点を終了タイミングとして認識する。或いは、音声処理部31は、音圧レベル(dB)が所定値未満になった時点を終了タイミングとして認識する。なお、例えば、音圧レベル(dB)が所定値未満になった時点から、音圧レベル(dB)が所定値以上になった時点までの時間(無音時間)が閾値以上である場合に限り、音圧レベル(dB)が所定値未満になった時点が終了タイミングとして認識され、且つ音圧レベル(dB)が所定値以上になった時点が開始タイミングとして認識されるとよい(音声の波形の振幅についても同様)。これは、無音時間が閾値より短い場合、その区間で文要素を区切らない趣旨である。
また、音声処理部31は、手本音声波形データに基づいて、複数の文要素のうち何れかの文要素の終了タイミングから次の文要素の開始タイミングまでの手本インターバル区間を特定する。そして、音声処理部31は、特定した手本インターバル区間を示す手本インターバル区間データをRAMに記憶する。同様に、音声処理部31は、話者音声波形データに基づいて、複数の文要素のうち何れかの文要素の終了タイミングから次の文要素の開始タイミングまでの話者インターバル区間を特定する。そして、音声処理部31は、特定した話者インターバル区間を示す話者インターバル区間データをRAMに記憶する。
また、音声処理部31は、手本音声波形データから所定時間毎に切り出したデータから音圧レベル(dB)を手本音圧として所定時間間隔毎に特定する。そして、音声処理部31は、所定時間間隔毎に特定した手本音圧を示す手本音圧データをRAMに記憶する。同様に、音声処理部31は、話者音声波形データから所定時間毎に切り出したデータから音圧レベル(dB)を話者音圧として所定時間間隔毎に特定する。そして、音声処理部31は、所定時間間隔毎に特定した話者音圧を示す話者音圧データをRAMに記憶する。また、音声処理部31は、手本音声波形データから所定時間毎に切り出したデータから基本周波数(Hz)を算出し、算出した基本周波数(Hz)を手本音高として所定時間間隔毎に特定する。なお、音高(抑揚、ピッチともいう)の特定方法には、例えば、ゼロクロス法やベクトル自己相関等の公知の手法を適用できる。そして、音声処理部31は、所定時間間隔毎に特定した手本音高を示す手本音高データをRAMに記憶する。同様に、音声処理部31は、話者音声波形データから所定時間毎に切り出したデータから基本周波数(Hz)を算出し、算出した基本周波数(Hz)を話者音高として所定時間間隔毎に特定する。そして、音声処理部31は、所定時間間隔毎に特定した話者音高を示す話者音高データをRAMに記憶する。なお、音圧特定及び音高特定するための上記所定時間は、文要素区間の時間長(時間的長さ)より短い時間であり、例えば10ms程度に設定される。
また、音声処理部31は、手本音声波形データから所定時間毎に切り出したデータを窓掛けで区切って(例えば、25ms毎にフレーム化)、フーリエ解析(FFT)することで振幅スペクトルを求める。そして、音声処理部31は、求めた振幅スペクトルにメルフィルタバンクをかけ、メルフィルタバンクの出力を対数化した値を離散コサイン変換(DCT)することでMFCC(メル周波数ケプストラム係数)を算出することで、手本の声道特性を示す特徴量として手本文要素区間毎に特定する。そして、音声処理部31は、手本文要素区間毎に特定した、手本の声道特性を示す特徴量を示す手本特徴量データをRAMに記憶する。同様に、音声処理部31は、話者音声波形データから所定時間毎に切り出したデータを窓掛けで区切って、フーリエ解析することで振幅スペクトルを求める。そして、音声処理部31は、求めた振幅スペクトルにメルフィルタバンクをかけ、メルフィルタバンクの出力を対数化した値を離散コサイン変換することでMFCCを算出することで、話者の声道特性を示す特徴量として話者文要素区間毎に特定する。そして、音声処理部31は、話者文要素区間毎に特定した、話者の声道特性を示す特徴量を示す話者特徴量データをRAMに記憶する。
次に、対応付け部32は、上記特定された手本文要素区間の先頭から順番を示すシリアル番号付与し、且つ、上記特定された話者文要素区間の先頭から順番を示すシリアル番号を付与することで、手本文要素区間と話者文要素区間とを先頭から時系列で対応付ける(プログラムによる自動対応付け)。つまり、シリアル番号が同一である手本文要素区間と話者文要素区間とが対応付けられる。なお、手本文要素区間毎に付与されたシリアル番号は、それぞれの手本文要素区間を示す手本文要素区間データに対応付けられてRAMに記憶される。また、話者文要素区間毎に付与されたシリアル番号は、それぞれの話者文要素区間を示す話者文要素区間データに対応付けられてRAMに記憶される。
ところで、「車内では(間合い)携帯電話はマナーモードに設定の上(間合い)通話はご遠慮下さい」と音読する手本音声波形データがあるとすると、上記の方法で開始タイミングと終了タイミングとを認識することにより、「車内では」、「携帯電話はマナーモードに設定の上」、「通話はご遠慮下さい」というように、3つのフレーズ毎に対応する手本文要素区間に区切られて特定される。また、話者が、同じ文を、手本と同じ間合いで音読した場合に、上記の方法で開始タイミングと終了タイミングとを認識することで、「車内では」、「携帯電話はマナーモードに設定の上」、「通話はご遠慮下さい」というように、3つのフレーズ毎に対応する話者文要素区間に区切られて特定される。このような場合、対応付け部32により「車内では」→「携帯電話はマナーモードに設定の上」→「通話はご遠慮下さい」の順に対応付けが行われるので、文要素区間の対応付けは成功することになる。これに対し、話者が、例えば、「えーーー(間合い)車内では(間合い)携帯電話はマナーモードに設定の上(間合い)通話はご遠慮下さい」というように、手本の音読には含まれていなかったフレーズ「えーーー」を発話した場合、「車内では」に対応する手本文要素区間に対して、「えーーー」に対応する話者文要素区間が対応付けられてしまい、文要素区間の対応付けは失敗することになる。このような場合、対応付け編集部33は、ユーザ操作に応じて、例えば、「えーーー」に対応する話者文要素区間に代えて「車内では」に対応する話者文要素区間が、「車内では」に対応する手本文要素区間に対応付けられるように、少なくとも1つの話者文要素区間と手本文要素区間との対応関係を変更(つまり、手動変更)する(詳細は後述)。
次に、音読評価部34は、手本文要素区間と話者文要素区間とが対応付けられた文要素区間毎に、話者の音読に対する評価を行う。このとき、音読評価部34は、上記区間毎、且つ複数の評価項目毎に、話者の音読に対する評価を行うとよい。ここで、評価項目の例として、抑揚、音量、滑舌、及び速度が挙げられる。例えば、音読評価部34は、手本音高と話者音高との差を、対応付け部32により対応付けられた文要素区間毎に算出し、算出した差に基づいて、話者の抑揚に対する評価点を文要素区間毎に算出する。この評価点は、例えば30点を満点とし、差が0に近いほど高くなる(満点に近づく)ように算出される。また、音読評価部34は、手本音圧と話者音圧との差を、対応付け部32により対応付けられた文要素区間毎に算出し、算出した差に基づいて、話者の音量に対する評価点を文要素区間毎に算出する。この評価点は、例えば30点を満点とし、差が0に近いほど高くなるように算出される。また、音読評価部34は、手本の声道特性を示す特徴量と話者の声道特性を示す特徴量との類似度を、対応付け部32により対応付けられた文要素区間毎に算出し、算出した類似度に基づいて、話者の滑舌に対する評価点を文要素区間毎に算出する。この評価点は、例えば30点を満点とし、類似度が高いほど高くなるように算出される。また、音読評価部34は、手本文要素区間の時間長と話者文要素区間の時間長との時間差を、対応付け部32により対応付けられた文要素区間毎に算出し、算出した時間差の絶対値に基づいて、話者の速度(音読スピード)に対する評価点を文要素区間毎に算出する。この評価点は、例えば30点を満点とし、時間差の絶対値が0に近いほど高くなるように算出される。なお、文要素区間毎に算出された評価項目別の評価点は、評価結果として、それぞれの話者文要素区間を示す話者文要素区間データに対応付けられてRAMに記憶される。
さらに、音読評価部34は、対応付け部32により手本インターバル区間と話者インターバル区間とが対応付けられたインターバル区間毎に、話者の間(間合い)に対する評価を行ってもよい。例えば、音読評価部34は、手本インターバル区間の時間長と、話者インターバル区間の時間長との時間差を、対応付け部32により対応付けられたインターバル区間毎に算出し、算出した時間差の絶対値に基づいて、話者の間合いに対する評価点をインターバル区間毎に算出する。この評価点は、例えば30点を満点とし、時間差の絶対値が0に近いほど高くなるように算出される。なお、インターバル区間毎に算出された評価点は、評価結果として、それぞれの話者インターバル区間データに対応付けられてRAMに記憶される。
また、音読評価部34は、文要素区間毎の評価項目別の評価点の平均値(合計値でもよい)を全文要素区間における評価項目別の総合評価点として算出し、インターバル区間毎の評価点の平均値(合計値でもよい)を全インターバル区間における間合いに対する総合評価点として算出する。さらに、音読評価部34は、全文要素区間における評価項目別の総合評価点と、全インターバル区間における間合いに対する総合評価点との合計値(平均値でもよい)を、全区間(全文要素区間と全インターバル区間)における総合評価点として算出する。また、音読評価部34により話者の音読に対する評価が行われた後に、対応付け編集部33により話者文要素区間と手本文要素区間との対応関係が変更された場合、音読評価部34は、少なくとも対応関係が変更された区間の音読に対する評価(再評価)を行う。この場合、音読評価部34は、対応関係が変更された区間のみの音読に対する評価を行うとよい。これにより、対応関係が変更されなかった区間の音読に対する評価は流用されるので、対応関係が変更された区間の音読に対する評価を迅速に得ることができる。つまり、対応関係が変更された区間の再評価結果が得られるまでの時間を短縮することができる。なお、音読評価部34は、少なくとも対応関係が変更された区間の音読に対する評価(再評価)を行った場合、この再評価に基づいて評価項目別の総合評価点、及び全区間における総合評価点を算出することになる。
次に、表示処理部35は、話者が音読練習を行うための表示画面をディスプレイDに表示させる。図2(A)は、ディスプレイDに表示された表示画面の一例を示す図であり、手本文要素区間と話者文要素区間との対応付けが成功した場合の表示例である。図2(A)に示す表示画面には、手本表示領域51、話者表示領域52、総合評価点表示領域53、及び全文表示領域54等が設けられている。表示処理部35は、手本表示領域51において、手本文要素区間それぞれの手本文要素情報(第1文要素情報の一例)を時系列で表示させる。手本文要素情報の例として、手本文要素区間の時間長、時系列的に変化する手本音高、及び時系列的に変化する手本音圧が挙げられる。図2(A)の例では、手本文要素区間の時間長に応じた長さの表示バー(オブジェクトの一例)51a1〜51a3、手本音高の時系列的な変化を表す折線グラフ51b1〜51b3、及び手本音圧の時系列的な変化を表す棒グラフ51c1〜51c3が表示されている。すなわち、表示バー51a1〜51a3は、手本文要素区間の時間長という情報を表している。折線グラフ51b1〜51b3は、時系列的に変化する手本音高という情報を表している。棒グラフ51c1〜51c3は、時系列的に変化する手本音圧いう情報を表している。表示バー51a1〜51a3に対応する限られた領域には、表示バー51a1〜51a3それぞれに対応する手本文要素区間に対応付けられたテキストの全部または一部が表示される。なお、表示バー51a1〜51a3に対応する限られた領域は、図2(A)の例では、表示バー51a1〜51a3(表示バー52a1〜52a3についても同様)を画する領域であるが、これに限定されるものではない。例えば、表示バーと、その背景色との区別がつかなくなっており、テキストの一部が表示バーから、はみ出しているように見える領域も、表示バーに対応する限られた領域に該当する。また、表示バーに隣接した領域にテキストが表示される場合もあり、このように表示バーに隣接した領域もまた、表示バーに対応する限られた領域に該当する。なお、本実施形態では、表示バーの形状は矩形状としたが、これに限定されるものではなく、表示バーを一例とするオブジェクトは、例えば、多角形上、円形、または雲形になっていたり、波線になっていたり、単に縦棒で境界を示されただけであったりしてもよい。
また、表示処理部35は、話者表示領域52において、話者文要素区間それぞれの話者文要素情報(第2文要素情報の一例)を、それぞれの話者文要素区間に対応付けられた話者文要素区間の話者文要素情報に対応付けて表示させる。話者文要素情報の例として、話者文要素区間の時間長、時系列的に変化する話者音高、及び時系列的に変化する話者音圧が挙げられる。図2(A)の例では、話者文要素区間の時間長に応じた長さの表示バー52a1〜52a3、話者音高の時系列的な変化を表す折線グラフ52b1〜52b3、及び話者音圧の時系列的な変化を表す棒グラフ52c1〜52c3が表示されている。すなわち、表示バー52a1〜52a3は、話者文要素区間の時間長という情報を表している。折線グラフ52b1〜52b3は、時系列的に変化する話者音高という情報を表している。棒グラフ52c1〜52c3は、時系列的に変化する話者音圧いう情報を表している。表示バー52a1〜52a3に対応する限られた領域には、表示バー52a1〜52a3それぞれに対応する話者文要素区間に対応付けられたテキストの全部または一部が表示される。なお、総合評価点表示領域53には、全文要素区間における評価項目(抑揚、音量、滑舌、及び速度)別の総合評価点と、全インターバル区間における間合いに対する総合評価点と、全区間における総合評価点とが表示されている。全文表示領域54には、音読対象となる文全体(テキスト全文)が表示されている。なお、手本表示領域51及び話者表示領域52における表示内容は、スクロールバー55のユーザ操作に応じて、時間軸tと並行する方向にスクロール表示される。
一方、図2(B)は、ディスプレイDに表示された表示画面の一例を示す図であり、手本文要素区間と話者文要素区間との対応付けが失敗した場合の表示例である。図2(B)に示す話者表示領域52には、図2(A)に示す話者表示領域52と比べると、手本音高の時系列的な変化を表す折線グラフ52b1’、及び手本音圧の時系列的な変化を表す棒グラフ52c1’が余分に表示されていることが分かる。これは、話者により余分に発話された「えーーー」に対応する話者文要素区間の音声の波形から得られたものである。なお、図2(B)に示す話者表示領域52には、「車内では、」というテキストが示された表示バー52a2が表示されているが、この表示バー52a2に対応する話者文要素区間は「えーーー」に対応する話者文要素区間である。つまり、この話者文要素区間に誤って「車内では」というフレーズが対応付けられている。
そして、手本表示領域51に表示された手本文要素情報、または話者表示領域52に表示された話者文要素情報に対するユーザ操作に応じて、上述したように、対応付け編集部33により、話者文要素区間と手本文要素区間との対応関係が変更される。図3は、ユーザ操作により話者文要素区間と手本文要素区間との対応関係が変更される様子の一例を示す図である。図3(A)に示すように、ユーザが例えばマウス操作または接触操作により表示バー52a2を右側に移動(修正)させることで、折線グラフ52b1’及び棒グラフ52c1’に対応する話者文要素区間がとばされ、次の折線グラフ52b2及び棒グラフ52c2に対応する話者文要素区間が、折線グラフ51b2及び棒グラフ51c2に対応する手本文要素区間に対応付けられることになる。こうして話者文要素区間と手本文要素区間との対応関係が変更されると、図3(B)に示すように、表示画面には再評価(再採点)ボタン56が表示されることになる。ユーザ操作により再評価ボタン56が指定されると、音読評価部34により、少なくとも対応関係が変更された区間の音読に対する再評価が行われる。
[2.音読練習装置Sの対応付け編集処理]
次に、図4及び図5を参照して、音読練習装置Sの対応付け編集処理について説明する。図4は、制御部3により実行される対応付け編集処理の一例を示すフローチャートである。図5は、対応付け編集処理において、手本文要素区間と話者文要素区間との対応関係の変更が行われるときの様子を示す概念図である。なお、図5の例では、説明の便宜上、各文要素区間を、音圧の時系列的な変化を表す棒グラフで表している。また、図5(A)は、手本文要素区間K11〜K16に対して先頭から順番にシリアル番号“N”(N=1〜6)が付与(自動付与)された例を示しており、図5(B)は、話者文要素区間K21〜K26に対して先頭から順番にシリアル番号“N”(N=1〜6)が付与(自動付与)された例を示している。なお、シリアル番号が同一である手本文要素区間と話者文要素区間とが対応付けられる。このような対応付けを前提として、図4に示す対応付け編集処理が行われる。
図4に示す対応付け編集処理は、例えばユーザから対応関係変更開始指示があった場合に開始される。図4に示すステップS1では、制御部3(対応付け編集部33)は、ユーザ操作に応じて、少なくとも1つの話者文要素区間に対してシリアル番号を付与(これを「手動付与」という)する。例えば、図5(C)に示すように、話者文要素区間K23に対して既に付与されているシリアル番号“3”が“2”に修正(つまり、手動付与により修正)され、話者文要素区間K27に対してシリアル番号“5”が新たに手動付与されている。これにより、話者文要素区間K23を示す話者文要素区間データに対してシリアル番号“2”が対応付けられて記憶され、話者文要素区間K27を示す話者文要素区間データに対してシリアル番号“5”が対応付けられて記憶される。こうして、話者文要素区間K23が手本文要素区間K12に対応付けられるように対応関係が変更され、話者文要素区間K27が手本文要素区間K15に対応付けられるように対応関係が変更される。なお、図5(C)に示すようにシリアル番号が付け直されることで、以降の処理でシリアル番号“3”,“4”,“6”が自動的に話者文要素区間に付け直されることになる。
ステップS2では、制御部3(対応付け編集部33)は、シリアル番号を示す変数Nに“1”を代入する。次いで、制御部3(対応付け編集部33)は、シリアル番号“N”は手動付与されたシリアル番号であるか否かを判定する(ステップS3)。制御部3(対応付け編集部33)は、シリアル番号“N”は手動付与されたシリアル番号でないと判定した場合(ステップS3:NO)、ステップS4へ進む。図5(C)の例の場合、シリアル番号“1”は手動付与されていないので、手動付与されたシリアル番号でないと判定され、ステップS4へ進む。一方、制御部3(対応付け編集部33)は、シリアル番号“N”は手動付与されたシリアル番号であると判定した場合(ステップS3:YES)、ステップS6へ進む。図5(C)の例の場合、シリアル番号“2”は手動付与されているので、シリアル番号Nは手動付与されたシリアル番号であると判定され、ステップS6へ進む。
ステップS4では、制御部3(対応付け編集部33)は、自動付与されたシリアル番号“N”と、このシリアル番号“N”が付与されている話者文要素区間を示す話者文要素区間データと、この話者文要素区間データに対応付けられている評価結果(先の評価結果)とを対応付けてRAMの再評価結果記憶領域に記憶する。図5(C)の例の場合、シリアル番号“1”と、話者文要素区間K21を示す話者文要素区間データと、既になされた評価結果とが再評価結果記憶領域に記憶される。次いで、制御部3(対応付け編集部33)は、シリアル番号“N”を1加算し(ステップS5)、ステップS3に戻る。
ステップS6では、制御部3(対応付け編集部33)は、手動付与されたシリアル番号“N”と、このシリアル番号“N”が付与されている話者文要素区間を示す話者文要素区間データとを対応付けて再評価結果記憶領域に記憶する。図5(C)の例の場合、シリアル番号“2”と、話者文要素区間K23を示す話者文要素区間データとが再評価結果記憶領域に記憶される。この場合、話者文要素区間K23が対応付けられる手本文要素区間は変更されるので、この話者文要素区間K23については再評価を行う必要がある。このため、この話者文要素区間K23について既に行われた評価結果は破棄される。
次いで、制御部3(対応付け編集部33)は、シリアル番号“N”は最後のシリアル番号であるか否かを判定する(ステップS7)。すなわち、シリアル番号“N”は、手本文要素区間K11〜K16に対して付与されたシリアル番号のうち末尾のシリアル番号(図5(A)の例の場合、“6”となる)であるか否かが判定される。制御部3(対応付け編集部33)は、シリアル番号“N”は最後のシリアル番号でないと判定した場合(ステップS7:NO)、ステップS8へ進む。一方、制御部3(対応付け編集部33)は、シリアル番号“N”は最後のシリアル番号であると判定した場合(ステップS7:YES)、ステップS12へ進む。
ステップS8では、制御部3(対応付け編集部33)は、シリアル番号“N”を1加算し、ステップS9へ進む。ステップS9では、制御部3(対応付け編集部33)は、シリアル番号“N”は手動付与されたシリアル番号であるか否かを判定する。制御部3(対応付け編集部33)は、シリアル番号“N”は手動付与されたシリアル番号でないと判定した場合(ステップS9:NO)、ステップS10へ進む。図5(C)の例の場合、シリアル番号“3”は手動付与されていないので、ステップS10へ進む。一方、制御部3(対応付け編集部33)は、シリアル番号“N”は手動付与されたシリアル番号であると判定した場合(ステップS9:YES)、ステップS6に戻る。図5(C)の例の場合、シリアル番号“5”は手動付与されているので、ステップS6に戻り、シリアル番号“5”と、話者文要素区間K27を示す話者文要素区間データとが再評価結果記憶領域に記憶される。
ステップS10では、制御部3(対応付け編集部33)は、シリアル番号“N−1”より後の(つまり、番号が大きい)シリアル番号が付与されていない話者文要素区間に対して、シリアル番号“N”を付与(自動付与)する。例えば、図5(D)に示すように、シリアル番号“3”が、話者文要素区間K24に対して付与される。次いで、制御部3(対応付け編集部33)は、ステップS10で付与されたシリアル番号“N”と、このシリアル番号“N”が付与された話者文要素区間を示す話者文要素区間データとを対応付けて再評価結果記憶領域に記憶し(ステップS11)、ステップS7に戻る。その後、ステップS7からステップS11の処理により、図5(E),(F)に示すように、まだ付与されていない残りのシリアル番号が話者文要素区間に対して付与されることになる。
ステップS12では、制御部3(音読評価部34)は、ステップS6で記憶された話者文要素区間データが示す話者文要素区間と、ステップS11で記憶された話者文要素区間データが示す話者文要素区間とのそれぞれの区間の(つまり、手本文要素区間との対応関係が変更された文要素区間の)話者の音読に対する評価項目別の再評価を行う。この再評価により算出された評価項目別の評価点は、評価結果として、それぞれの話者文要素区間を示す話者文要素区間データに対応付けられてRAMの再評価結果記憶領域に記憶される。こうして対応関係が変更されなかった話者文要素区間の評価結果に、対応関係が変更された話者文要素区間の再評価結果が補完されることになる。
以上説明したように、上記実施形態によれば、音読練習装置Sは、手本文要素区間の手本文要素情報と、手本文要素区間に対応付けられた話者文要素区間の話者文要素情報とを対応付けて表示させ、表示された第1文要素情報または第2文要素情報に対するユーザ操作に応じて、少なくとも1つの話者文要素区間と手本文要素区間との対応関係を変更するように構成したので、話者が途中で間違ったことを話したり、言い直したりする場合であっても、手本文要素区間と話者文要素区間との対応付けを適切に修正することができる。
[3.音読練習装置Sの処理の変形例]
次に、音読練習装置Sの処理の変形例について説明する。
(変形例1)
変形例1は、手本文要素区間と話者文要素区間との対応付け前(例えば、話者による音読前)に、対応付けから除外する手本文要素区間の指定を受け付ける例である。図6は、手本文要素区間と話者文要素区間との対応付け前に、対応付けから除外する手本文要素区間の指定を受け付けるときの画面遷移例を示す図である。変形例1の場合、制御部3(対応付け部32)は、対応付けから除外する手本文要素区間の指定を受け付ける。例えば、図6(B)に示すように、ユーザがマウス操作または接触操作により、対応付けから除外する手本文要素区間に対応する表示バー51a2を指定すると、指定された表示バー51a2の色が変化し、且つ、対応付けから除外する手本文要素区間に対応付けられた文要素を表すテキスト(この例では、「車内では」)が全文表示領域54において非表示になる。このように、対応付けから除外するとして指定された手本文要素区間は、制御部3(対応付け部32)により対応付け対象外として認識される。その後、話者が音読練習で上記文(この例では、「車内では」を除く)を音読したときに発した音声であってマイクMにより集音された音声の波形を示す話者音声波形データが入力されると、上述したように、話者音声波形データから話者文要素区間が特定される。そして、制御部3(対応付け部32)は、対応付けから除外するとして指定された手本文要素区間を除外して、上記話者文要素区間を文の先頭から時系列で手本文要素区間に対応付ける。これにより、手本文要素区間と話者文要素区間との対応付けにおける利便性を向上させることができる。
(変形例2)
変形例2は、手本文要素区間と話者文要素区間との対応付け前(例えば、話者による音読前)に、隣合う2つの手本文要素区間を結合する例である。図7は、手本文要素区間と話者文要素区間との対応付け前に、隣合う2つの手本文要素区間を結合するときの画面遷移例を示す図である。変形例2の場合、制御部3は、隣合う2つの手本文要素区間それぞれに対応する表示バー間の部分に対する指定を受け付ける。例えば、図7(A)に示すように、ユーザがマウス操作または接触操作により、手本表示領域51及び話者表示領域52上に描かれた縦線Lを、結合対象となる2つの手本文要素区間それぞれに対応する表示バー51a2と52a3との間の部分に位置させることで、表示バー間の部分に対する指定が受け付けられる。これにより、結合対象となる2つの手本文要素区間の指定をユーザに簡易に行わせることができる。この状態で、例えば結合ボタン57が指定されることで結合指示を示すユーザ操作があった場合、制御部3は、図7(B)に示すように、結合対象となる2つの手本文要素区間を結合する。その後、話者が音読練習で上記文を音読したときに発した音声であってマイクMにより集音された音声の波形を示す話者音声波形データが入力されると、上述したように、話者音声波形データから話者文要素区間が特定される。そして、制御部3(対応付け部32)は、特定された話者文要素区間を文の先頭から時系列で、上記結合された手本文要素区間を含む複数の手本文要素区間に対応付ける。これにより、隣合う2つの手本文要素区間が結合された場合に、手本文要素区間と話者文要素区間との対応付けを適切に修正することができる。
また、上記例では、隣合う2つの手本文要素区間を結合する例について説明したが、1つの手本文要素区間を複数に分離するように構成してもよい。この場合、制御部3は、1つの手本文要素区間に対応する表示バーにおいて分離する部分に対する指定を受け付ける。例えばユーザがマウス操作または接触操作により、スクロールバー55を移動させることで手本表示領域51及び話者表示領域52上に描かれた縦線Lを、分離対象となる1つの手本文要素区間に対応する表示バーを分断するように位置させることで、この表示バーにおいて分離する部分に対する指定が受け付けられる。これにより、分離対象となる1つの手本文要素区間の指定をユーザに簡易に行わせることができる。この状態で、例えば分離ボタン58が指定されることで分離指示を示すユーザ操作があった場合、制御部3は、分離対象となる1つの手本文要素区間を複数に分離する。その後、話者が音読練習で上記文を音読したときに発した音声であってマイクMにより集音された音声の波形を示す話者音声波形データが入力されると、上述したように、話者音声波形データから話者文要素区間が特定される。そして、制御部3(対応付け部32)は、特定された話者文要素区間を文の先頭から時系列で、上記分離された手本文要素区間を含む複数の手本文要素区間に対応付ける。これにより、1つの手本文要素区間が分離された場合に、手本文要素区間と話者文要素区間との対応付けを適切に修正することができる。
(変形例3)
変形例3は、手本文要素区間と話者文要素区間との対応付け後(例えば、文要素区間毎の評価後)に、評価対象から除外する手本文要素区間及び話者文要素区間の指定を受け付ける例である。図8は、手本文要素区間と話者文要素区間との対応付け後、評価対象から除外する手本文要素区間及び話者文要素区間の指定を受け付けるときの画面遷移例を示す図である。変形例3の場合、制御部3(対応付け編集部33)は、評価対象から除外する手本文要素区間及び話者文要素区間の指定を受け付ける。例えば、図8(B)に示すように、ユーザがマウス操作または接触操作により、評価対象から除外する手本文要素区間に対応する表示バー51a2を指定すると、指定された表示バー51a2の色が変化するとともに、この手本文要素区間に対応付けられた話者文要素区間に対応する表示バー52a2の色が変化する。或いは、ユーザがマウス操作または接触操作により、評価対象から除外する話者文要素区間に対応する表示バー52a2を指定すると、指定された表示バー52a2の色が変化するとともに、この話者文要素区間に対応付けられた手本文要素区間に対応する表示バー51a2の色が変化する。このように、評価対象から除外するとして指定された手本文要素区間及び話者文要素区間は、制御部3(音読評価部34)により評価対象外として認識される。そして、制御部3(音読評価部34)は、例えば再評価ボタン56が指定されることで再評価指示を示すユーザ操作があった場合、評価対象から除外するとして指定された手本文要素区間及び話者文要素区間を図8(C)に示すように除外して音読に対する再評価を行う。すなわち、制御部3(音読評価部34)は、上記指定された文要素区間の評価結果を除く文要素区間毎の評価項目別の評価点の平均値(合計値でもよい)を全文要素区間における評価項目別の総合評価点として再算出し、全区間における総合評価点を再算出する。こうして、図8(B),(C)に示すように、総合評価点表示領域53に表示される総合評価点が再評価の前と後とで変わることになる。これにより、文要素区間毎の音読に対する評価における利便性を向上させることができる。
(変形例4)
変形例4は、手本文要素区間と話者文要素区間との対応付け後(例えば、文要素区間毎の評価後)に、隣合う2つの手本文要素区間を結合する例である。図9は、手本文要素区間と話者文要素区間との対応付け後に、隣合う2つの手本文要素区間を結合するときの画面遷移例を示す図である。変形例4の場合、制御部3は、隣合う2つの手本文要素区間それぞれに対応する表示バー間の部分に対する指定を受け付ける。例えば、図9(B)に示すように、ユーザがマウス操作または接触操作により、手本表示領域51及び話者表示領域52上に描かれた縦線Lを、結合対象となる2つの手本文要素区間それぞれに対応する表示バー51a2と51a3との間の部分に位置させることで、表示バー間の部分に対する指定が受け付けられる。この状態で、例えば結合ボタン57が指定されることで結合指示を示すユーザ操作があった場合、制御部3(対応付け編集部33)は、図9(C)に示すように、結合対象となる2つの手本文要素区間を結合し、且つ、結合対象となる2つの手本文要素区間それぞれに対応する隣合う2つの話者文要素区間を結合して、結合された手本文要素区間と、結合された話者文要素区間とを時系列で対応付ける。これにより、隣合う2つの手本文要素区間が結合された場合に、手本文要素区間と話者文要素区間との対応付けを適切に修正して再評価を行うことができる。制御部3(音読評価部34)は、例えば再評価ボタン56が指定されることで再評価指示を示すユーザ操作があった場合、少なくとも、結合された文要素区間における評価項目別の再評価を行う。そして、制御部3(音読評価部34)は、結合された文要素区間の評価結果を含む文要素区間毎の評価項目別の評価点の平均値(合計値でもよい)を全文要素区間における評価項目別の総合評価点として再算出し、全区間における総合評価点を再算出する。これにより、図9(B),(C)に示すように、総合評価点表示領域53に表示される総合評価点が再評価の前と後とで変わることになる。
なお、手本表示領域51及び話者表示領域52上に描かれた縦線Lを、結合対象となる2つの話者文要素区間それぞれに対応する表示バー52a2と52a3との間の部分に位置させることで、表示バー間の部分に対する指定が受け付けられてもよい。この場合、例えば結合ボタン57が指定されることで結合指示を示すユーザ操作があった場合、制御部3(対応付け編集部33)は、結合対象となる2つの話者文要素区間を結合し、且つ、結合対象となる2つの話者文要素区間それぞれに対応する隣合う2つの手本文要素区間を結合して、結合された話者文要素区間と、結合された手本文要素区間とを対応付けることになる。
また、上記の例では、隣合う2つの手本文要素区間を結合する例について説明したが、1つの手本文要素区間を複数に分離するように構成してもよい。この場合、制御部3は、1つの手本文要素区間に対応する表示バーにおいて分離する部分に対する指定を受け付ける。例えばユーザがマウス操作または接触操作により、手本表示領域51及び話者表示領域52上に描かれた縦線Lを、分離対象となる1つの手本文要素区間に対応する表示バーを分断するように位置させることで、この表示バーにおいて分離する部分に対する指定が受け付けられる。この状態で、例えば分離ボタン58が指定されることで分離指示を示すユーザ操作があった場合、制御部3は、分離対象となる1つの手本文要素区間を複数に分離し、且つ、分離前の手本文要素区間に対応付けられていた話者文要素区間を、手本文要素区間の分離数だけ分離し、分離された話者文要素区間それぞれを、分離された手本文要素区間それぞれに時系列で対応付ける。これにより、1つの手本文要素区間が分離された場合に、手本文要素区間と話者文要素区間との対応付けを適切に修正して再評価を行うことができる。制御部3(音読評価部34)は、例えば再評価ボタン56が指定されることで再評価指示を示すユーザ操作があった場合、少なくとも、分離された文要素区間のそれぞれにおける評価項目別の再評価を行う。そして、制御部3(音読評価部34)は、分離された文要素区間のそれぞれの評価結果を含む文要素区間毎の評価項目別の評価点の平均値(合計値でもよい)を全文要素区間における評価項目別の総合評価点として再算出し、全区間における総合評価点を再算出する。
なお、手本表示領域51及び話者表示領域52上に描かれた縦線Lを、分離対象となる1つの話者文要素区間に対応する表示バーを分断するように位置させることで、この表示バーにおいて分離する部分に対する指定が受け付けられてもよい。この場合、例えば分離ボタン58が指定されることで分離指示を示すユーザ操作があった場合、制御部3(対応付け編集部33)は、分離対象となる1つの話者文要素区間を複数に分離し、且つ、分離前の話者文要素区間に対応付けられていた手本文要素区間を、話者文要素区間の分離数だけ分離し、分離された手本文要素区間それぞれを、分離された話者文要素区間それぞれに時系列で対応付けることになる。
1 通信部
2 記憶部
3 制御部
4 操作部
5 インターフェース部
6 バス
31 音声処理部
32 対応付け部
33 対応付け編集部
34 音読評価部
35 表示処理部
S 音読練習装置

Claims (11)

  1. 文を音読するときの手本となる音声の波形を示す第1音声波形データに基づいて複数に区分された第1文要素区間であって前記文を構成する複数の文要素それぞれの開始タイミングから終了タイミングまでの第1文要素区間それぞれの第1文要素情報を時系列で表示させる第1表示制御手段と、
    話者が前記文を音読したときに発した音声の波形を示す第2音声波形データに基づいて複数に区分された第2文要素区間であって前記文を構成する複数の文要素それぞれの開始タイミングから終了タイミングまでの第2文要素区間を前記文の先頭から時系列で前記第1文要素区間に対応付ける対応付け手段と、
    前記第2文要素区間それぞれの第2文要素情報を、前記対応付け手段により対応付けられた前記第1文要素区間の前記第1文要素情報に対応付けて表示させる第2表示制御手段と、
    前記表示された第1文要素情報または第2文要素情報に対するユーザ操作に応じて、少なくとも1つの前記第2文要素区間と前記第1文要素区間との対応関係を変更する対応関係変更手段と、
    を備えることを特徴とする対応付け編集装置。
  2. 前記対応付け手段により前記第1文要素区間と前記第2文要素区間とが対応付けられた区間毎に前記音読に対する評価を行う評価手段を備え、
    前記対応関係変更手段により前記第2文要素区間と前記第1文要素区間との対応関係が変更された場合、前記評価手段は、少なくとも前記対応関係が変更された区間の前記音読に対する評価を行うことを特徴とする請求項1に記載の対応付け編集装置。
  3. 前記対応関係変更手段により前記第2文要素区間と前記第1文要素区間との対応関係が変更された場合、前記評価手段は、前記対応関係が変更された区間のみの前記音読に対する評価を行うことを特徴とする請求項2に記載の対応付け編集装置。
  4. 隣合う2つの前記第1文要素区間を結合する結合手段を更に備え、
    前記対応関係変更手段は、前記結合手段により前記隣合う2つの前記第1文要素区間が結合された場合、前記隣合う2つの前記第1文要素区間それぞれに対応する隣合う2つの前記第2文要素区間を結合して、前記結合された前記第1文要素区間と、前記結合された前記第2文要素区間とを時系列で対応付けることを特徴とする請求項1乃至3の何れか一項に記載の対応付け編集装置。
  5. 前記第1文要素情報は、前記第1文要素区間の時間長であり、前記第1表示制御手段は、前記第1文要素区間の時間長に応じた長さのオブジェクトを表示させ、
    前記隣合う2つの前記第1文要素区間それぞれに対応する前記オブジェクト間の部分に対する指定を受け付ける第1受付手段を更に備え、
    前記第1受付手段により前記部分の指定が受け付けられた後、結合指示を示すユーザ操作があった場合、前記結合手段は、前記隣合う2つの前記第1文要素区間を結合することを特徴とする請求項4に記載の対応付け編集装置。
  6. 前記第1文要素区間を複数に分離する分離手段を更に備え、
    前記対応関係変更手段は、前記分離手段により前記第1文要素区間が分離された場合、分離前の前記第1文要素区間に対応付けられていた前記第2文要素区間を、前記第1文要素区間の分離数だけ分離し、前記分離された前記第2文要素区間それぞれを、前記分離された前記第1文要素区間それぞれに時系列で対応付けることを特徴とする請求項1乃至3の何れか一項に記載の対応付け編集装置。
  7. 前記第1文要素情報は、前記第1文要素区間の時間長であり、前記第1表示制御手段は、前記第1文要素区間の時間長に応じた長さのオブジェクトを表示させ、
    前記オブジェクトにおいて分離する部分に対する指定を受け付ける第2受付手段を更に備え、
    前記第2受付手段により前記部分の指定が受け付けられた後、分離指示を示すユーザ操作があった場合、前記分離手段は、前記オブジェクトに対応する前記第1文要素区間を複数に分離することを特徴とする請求項6に記載の対応付け編集装置。
  8. 対応付けから除外する前記第1文要素区間の指定を受け付ける第3受付手段と、
    前記対応付け手段は、前記第3受付手段により指定が受け付けられた前記第1文要素区間を除外して前記第2文要素区間を前記文の先頭から時系列で前記第1文要素区間に対応付けることを特徴とする請求項1乃至7の何れか一項に記載の対応付け編集装置。
  9. 評価対象から除外する前記第1文要素区間及び前記第2文要素区間の指定を受け付ける第3受付手段と、
    前記評価手段は、前記第3受付手段により指定が受け付けられた前記第1文要素区間及び前記第2文要素区間を除外して前記区間毎に前記音読に対する評価を行うことを特徴とする請求項2に記載の対応付け編集装置。
  10. 1つ以上のコンピュータにより実行される対応付け編集方法であって
    文を音読するときの手本となる音声の波形を示す第1音声波形データに基づいて複数に区分された第1文要素区間であって前記文を構成する複数の文要素それぞれの開始タイミングから終了タイミングまでの第1文要素区間それぞれの第1文要素情報を時系列で表示させる第1表示制御ステップと、
    話者が前記文を音読したときに発した音声の波形を示す第2音声波形データに基づいて複数に区分された第2文要素区間であって前記文を構成する複数の文要素それぞれの開始タイミングから終了タイミングまでの第2文要素区間を前記文の先頭から時系列で前記第1文要素区間に対応付ける対応付けステップと、
    前記第2文要素区間それぞれの第2文要素情報を、前記対応付けステップにより対応付けられた前記第1文要素区間の前記第1文要素情報に対応付けて表示させる第2表示制御ステップと、
    前記表示された第1文要素情報または第2文要素情報に対するユーザ操作に応じて、少なくとも1つの前記第2文要素区間と前記第1文要素区間との対応関係を変更する対応関係変更ステップと、
    を含むことを特徴とする対応付け編集方法。
  11. 文を音読するときの手本となる音声の波形を示す第1音声波形データに基づいて複数に区分された第1文要素区間であって前記文を構成する複数の文要素それぞれの開始タイミングから終了タイミングまでの第1文要素区間それぞれの第1文要素情報を時系列で表示させる第1表示制御ステップと、
    話者が前記文を音読したときに発した音声の波形を示す第2音声波形データに基づいて複数に区分された第2文要素区間であって前記文を構成する複数の文要素それぞれの開始タイミングから終了タイミングまでの第2文要素区間を前記文の先頭から時系列で前記第1文要素区間に対応付ける対応付けステップと、
    前記第2文要素区間それぞれの第2文要素情報を、前記対応付けステップにより対応付けられた前記第1文要素区間の前記第1文要素情報に対応付けて表示させる第2表示制御ステップと、
    前記表示された第1文要素情報または第2文要素情報に対するユーザ操作に応じて、少なくとも1つの前記第2文要素区間と前記第1文要素区間との対応関係を変更する対応関係変更ステップと、
    をコンピュータに実行させることを特徴とするプログラム。
JP2016041016A 2016-03-03 2016-03-03 対応付け編集装置、対応付け編集方法、及びプログラム Pending JP2017156614A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016041016A JP2017156614A (ja) 2016-03-03 2016-03-03 対応付け編集装置、対応付け編集方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016041016A JP2017156614A (ja) 2016-03-03 2016-03-03 対応付け編集装置、対応付け編集方法、及びプログラム

Publications (1)

Publication Number Publication Date
JP2017156614A true JP2017156614A (ja) 2017-09-07

Family

ID=59809677

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016041016A Pending JP2017156614A (ja) 2016-03-03 2016-03-03 対応付け編集装置、対応付け編集方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP2017156614A (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1078749A (ja) * 1996-09-03 1998-03-24 Yamaha Corp カラオケ装置
JPH11143346A (ja) * 1997-11-05 1999-05-28 Seiko Epson Corp 語学練習用発話評価方法およびその装置並びに発話評価処理プログラムを記憶した記憶媒体
US6336089B1 (en) * 1998-09-22 2002-01-01 Michael Everding Interactive digital phonetic captioning program
JP2005070645A (ja) * 2003-08-27 2005-03-17 Casio Comput Co Ltd テキスト音声同期装置およびテキスト音声同期処理プログラム
JP2008039833A (ja) * 2006-08-01 2008-02-21 Yamaha Corp 音声評価装置
JP2013167828A (ja) * 2012-02-16 2013-08-29 Sony Corp 音響処理装置、音響処理方法、プログラム、電子機器、サーバ装置、クライアント装置および音響処理システム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1078749A (ja) * 1996-09-03 1998-03-24 Yamaha Corp カラオケ装置
JPH11143346A (ja) * 1997-11-05 1999-05-28 Seiko Epson Corp 語学練習用発話評価方法およびその装置並びに発話評価処理プログラムを記憶した記憶媒体
US6336089B1 (en) * 1998-09-22 2002-01-01 Michael Everding Interactive digital phonetic captioning program
JP2005070645A (ja) * 2003-08-27 2005-03-17 Casio Comput Co Ltd テキスト音声同期装置およびテキスト音声同期処理プログラム
JP2008039833A (ja) * 2006-08-01 2008-02-21 Yamaha Corp 音声評価装置
JP2013167828A (ja) * 2012-02-16 2013-08-29 Sony Corp 音響処理装置、音響処理方法、プログラム、電子機器、サーバ装置、クライアント装置および音響処理システム

Similar Documents

Publication Publication Date Title
US10789290B2 (en) Audio data processing method and apparatus, and computer storage medium
Jing et al. Prominence features: Effective emotional features for speech emotion recognition
US11810471B2 (en) Computer implemented method and apparatus for recognition of speech patterns and feedback
US20140039896A1 (en) Methods and System for Grammar Fitness Evaluation as Speech Recognition Error Predictor
JPH11143346A (ja) 語学練習用発話評価方法およびその装置並びに発話評価処理プログラムを記憶した記憶媒体
EP2645364A1 (en) Spoken dialog system using prominence
KR20160122542A (ko) 발음 유사도 측정 방법 및 장치
Mertens Polytonia: a system for the automatic transcription of tonal aspects in speech corpora
JP6013104B2 (ja) 音声合成方法、装置、及びプログラム
US11176943B2 (en) Voice recognition device, voice recognition method, and computer program product
JP2010197644A (ja) 音声認識システム
JP6314884B2 (ja) 音読評価装置、音読評価方法、及びプログラム
JP2016157097A (ja) 音読評価装置、音読評価方法、及びプログラム
JP4839970B2 (ja) 韻律識別装置及び方法、並びに音声認識装置及び方法
JP2003186489A (ja) 音声情報データベース作成システム,録音原稿作成装置および方法,録音管理装置および方法,ならびにラベリング装置および方法
KR20040061070A (ko) 음성인식시스템에서의 음성인식장치 및 그 방법
JP2017156614A (ja) 対応付け編集装置、対応付け編集方法、及びプログラム
JP6256379B2 (ja) 表示制御装置、表示制御方法、及びプログラム
JP2017015823A (ja) 発話練習装置、表示制御方法、及びプログラム
JP2006139162A (ja) 語学学習装置
JP6531654B2 (ja) 音読評価装置、表示制御方法、及びプログラム
CN111696530B (zh) 一种目标声学模型获取方法及装置
JP2020008730A (ja) 感情推定システムおよびプログラム
JP2001005483A (ja) 単語音声認識方法及び単語音声認識装置
JP2017126004A (ja) 音声評価装置、方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170901

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180718

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180801

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20190226