JP2017122880A - 音読評価装置、表示制御方法、及びプログラム - Google Patents

音読評価装置、表示制御方法、及びプログラム Download PDF

Info

Publication number
JP2017122880A
JP2017122880A JP2016002550A JP2016002550A JP2017122880A JP 2017122880 A JP2017122880 A JP 2017122880A JP 2016002550 A JP2016002550 A JP 2016002550A JP 2016002550 A JP2016002550 A JP 2016002550A JP 2017122880 A JP2017122880 A JP 2017122880A
Authority
JP
Japan
Prior art keywords
display
evaluation
speaker
sentence
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016002550A
Other languages
English (en)
Other versions
JP6531654B2 (ja
Inventor
林 宏一
Koichi Hayashi
宏一 林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Brother Industries Ltd
Original Assignee
Brother Industries Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Brother Industries Ltd filed Critical Brother Industries Ltd
Priority to JP2016002550A priority Critical patent/JP6531654B2/ja
Publication of JP2017122880A publication Critical patent/JP2017122880A/ja
Application granted granted Critical
Publication of JP6531654B2 publication Critical patent/JP6531654B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Electrically Operated Instructional Devices (AREA)

Abstract

【課題】話者が特に確認したい何れかの区間において算出された評価点の詳細を、より見易い表示態様で表示させることが可能な音読評価装置、表示制御方法、及びプログラムを提供する。【解決手段】音読評価装置は、話者による音読に対する総合評価点が表示される状態で、話者テキスト表示領域52a1〜52a3、及び話者スペース領域52s1,52s2のうち、何れか一の領域がユーザ操作により指定された場合、指定された何れか一の領域に対応する区間において算出された評価点を表示するウインドウW11をポップアップ表示させる。【選択図】図2

Description

本発明は、話者が文を音読したときに発した音声に基づいて、文の音読に対する評価を行うシステム等の技術分野に関する。
近年、語学学習、アナウンス、または歌唱等の練習支援を目的として、複数の文要素(例えば、フレーズや単語)毎に抑揚や音量等の評価点を算出し、その結果を基に音読に対する総合評価点を算出して表示するシステムが知られている。例えば、特許文献1に開示された技術では、歌唱者の歌唱音声信号から抽出された抑揚や音量等に基づいて、曲の区間別に歌唱を採点し、これら各区間の得点に基づいて求めた総合得点を表示(特許文献1の図3参照)するようになっている。
特開平10−078749号公報
しかしながら、従来の技術では、話者による音読に対する総合評価点が表示されている状態で、音読された文を構成する文要素に対応する文要素区間うち、例えば話者が特に確認したい何れかの文要素区間において算出された抑揚や音量等の評価点の詳細を、その文要素区間における文要素を表すテキスト等に対応付けて、より見易い表示態様で表示させることは困難であった。
本発明は、以上の点に鑑みてなされたものであり、例えば話者が特に確認したい何れかの区間において算出された評価点の詳細を、より見易い表示態様で表示させることが可能な音読評価装置、表示制御方法、及びプログラムを提供する。
上記課題を解決するために、請求項1に記載の発明は、話者が文を音読したときに発した音声の波形を示す音声波形データに基づいて、前記音読された文を構成する各文要素の開始タイミングから終了タイミングまでの文要素区間と、複数の前記文要素のうち何れかの前記文要素の終了タイミングから次の前記文要素の開始タイミングまでのインターバル区間との少なくとも何れか一方の区間毎に前記音読に対する評価点を算出する評価点算出手段と、前記評価点算出手段により算出された前記区間毎の評価点に基づいて、前記音読に対する総合評価点を算出する総合評価点算出手段と、前記音読された文を構成する各文要素を表すテキストの少なくとも一部を、それぞれの前記文要素区間の時間長に応じた長さの第1の表示領域に時間軸に沿って前記文要素区間毎に表示させる第1表示制御手段と、前記文要素区間の時間長より短い所定時間間隔毎に前記音声波形データに基づいて特定された音高と音圧との少なくとも何れか一方の音要素の時系列的な変化を表すグラフを第2の表示領域に前記時間軸に沿って表示させる第2表示制御手段と、前記総合評価点算出手段により算出された総合評価点を第3の表示領域に表示させる第3表示制御手段と、前記第1の表示領域、前記第2の表示領域、及び複数の前記第1の表示領域間に前記時間軸に沿って位置するスペース領域のうち、何れか一の領域がユーザ操作により指定された場合、指定された前記何れか一の領域に対応する前記区間において算出された前記評価点を表示する第1のウインドウをポップアップ表示させる第4表示制御手段と、を備えることを特徴とする。
請求項2に記載の発明は、請求項1に記載の音読評価装置において、前記第4表示制御手段は、前記第1のウインドウの表示を継続させ、前記第1のウインドウの表示が継続している間に前記何れか一の領域とは異なる他の領域がユーザ操作により新たに指定された場合、新たに指定された他の領域に対応する前記区間において算出された前記評価点を表示する第2のウインドウをポップアップ表示させ、前記第1のウインドウの表示と前記第2のウインドウの表示を継続させることを特徴とする。
請求項3に記載の発明は、請求項1または2に記載の音読評価装置において、前記第4表示制御手段は、前記第1の表示領域または前記第2の表示領域がユーザ操作により指定された場合、前記指定された前記第1の表示領域または前記第2の表示領域に対応する前記区間において算出された評価点であって、前記音読に対する評価項目として予め設定された抑揚、音量、滑舌、及び速度のうち少なくとも何れか一つに対する前記評価点を表示する第1のウインドウをポップアップ表示させることを特徴とする。
請求項4に記載の発明は、請求項1乃至3の何れか一項に記載の音読評価装置において、前記第4表示制御手段は、前記スペース領域がユーザ操作により指定された場合、前記指定された前記スペース領域に対応する前記区間において算出された評価点であって、前記音読に対する評価項目として予め設定された間合いに対する前記評価点を表示する第1のウインドウをポップアップ表示させることを特徴とする。
請求項5に記載の発明は、請求項1乃至4の何れか一項に記載の音読評価装置において、前記第4表示制御手段は、前記第1の表示領域がユーザ操作により指定された場合、指定された前記第1の表示領域に少なくとも一部が表示された前記テキストの全部を表示する第3のウインドウをポップアップ表示させることを特徴とする。
請求項6に記載の発明は、請求項1乃至5の何れか一項に記載の音読評価装置において、前記音読に対する評価項目として予め設定された抑揚、音量、滑舌、及び速度のうち少なくとも何れか一つのそれぞれに対応する前記評価点であって、前記文要素区間毎に算出された前記評価点に基づいて、前記音読に対する区間評価点を前記文要素区間毎に算出する区間評価点算出手段と、前記区間評価点算出手段により算出された各区間評価点を表すアイコンを、前記第1の表示領域毎に対応して配置された第4の表示領域に前記時間軸に沿って前記文要素区間毎に表示させる第5表示制御手段と、を更に備え、前記第4表示制御手段は、前記アイコンがユーザ操作により指定された場合、前記指定された前記アイコンに対応する前記文要素区間において算出された評価点であって、前記音読に対する評価項目として予め設定された抑揚、音量、滑舌、及び速度のうち少なくとも何れか一つのそれぞれに対する前記評価点を表示する第4のウインドウをポップアップ表示させることを特徴とする。
請求項7に記載の発明は、1つ以上のコンピュータにより実行される表示制御方法であって、話者が文を音読したときに発した音声の波形を示す音声波形データに基づいて、前記音読された文を構成する各文要素の開始タイミングから終了タイミングまでの文要素区間と、複数の前記文要素のうち何れかの前記文要素の終了タイミングから次の前記文要素の開始タイミングまでのインターバル区間との少なくとも何れか一方の区間毎に前記音読に対する評価点を算出する評価点算出ステップと、前記評価点算出ステップにより算出された前記区間毎の評価点に基づいて、前記音読に対する総合評価点を算出する総合評価点算出ステップと、前記音読された文を構成する各文要素を表すテキストの少なくとも一部を、それぞれの前記文要素区間の時間長に応じた長さの第1の表示領域に時間軸に沿って前記文要素区間毎に表示させる第1表示制御ステップと、前記文要素区間の時間長より短い所定時間間隔毎に前記音声波形データに基づいて特定された音高と音圧との少なくとも何れか一方の音要素の時系列的な変化を表すグラフを第2の表示領域に前記時間軸に沿って表示させる第2表示制御ステップと、前記総合評価点算出ステップにより算出された総合評価点を第3の表示領域に表示させる第3表示制御ステップと、前記第1の表示領域、前記第2の表示領域、及び複数の前記第1の表示領域間に前記時間軸に沿って位置するスペース領域のうち、何れか一の領域がユーザ操作により指定された場合、指定された前記何れか一の領域に対応する前記区間において算出された前記評価点を表示する第1のウインドウをポップアップ表示させる第4表示制御ステップと、を含むことを特徴とする。
請求項8に記載の発明は、話者が文を音読したときに発した音声の波形を示す音声波形データに基づいて、前記音読された文を構成する各文要素の開始タイミングから終了タイミングまでの文要素区間と、複数の前記文要素のうち何れかの前記文要素の終了タイミングから次の前記文要素の開始タイミングまでのインターバル区間との少なくとも何れか一方の区間毎に前記音読に対する評価点を算出する評価点算出ステップと、前記評価点算出ステップにより算出された前記区間毎の評価点に基づいて、前記音読に対する総合評価点を算出する総合評価点算出ステップと、前記音読された文を構成する各文要素を表すテキストの少なくとも一部を、それぞれの前記文要素区間の時間長に応じた長さの第1の表示領域に時間軸に沿って前記文要素区間毎に表示させる第1表示制御ステップと、前記文要素区間の時間長より短い所定時間間隔毎に前記音声波形データに基づいて特定された音高と音圧との少なくとも何れか一方の音要素の時系列的な変化を表すグラフを第2の表示領域に前記時間軸に沿って表示させる第2表示制御ステップと、前記総合評価点算出ステップにより算出された総合評価点を第3の表示領域に表示させる第3表示制御ステップと、前記第1の表示領域、前記第2の表示領域、及び複数の前記第1の表示領域間に前記時間軸に沿って位置するスペース領域のうち、何れか一の領域がユーザ操作により指定された場合、指定された前記何れか一の領域に対応する前記区間において算出された前記評価点を表示する第1のウインドウをポップアップ表示させる第4表示制御ステップと、をコンピュータに実行させることを特徴とする。
請求項1,7及び8に記載の発明によれば、話者による音読に対する総合評価点が表示される状態で、話者等が特に確認したい何れかの区間において算出された評価点の詳細を、より見易い表示態様で表示させることができる。
請求項2に記載の発明によれば、話者等が区間毎の評価点を見比べることが可能となり、どの区間における評価が良いか悪いかを話者等に一見して把握させることができる。
請求項3に記載の発明によれば、話者等が特に確認したい何れかの文要素区間において算出された評価点の詳細を、その文要素区間における文要素を表すテキスト等に対応付けて、より見易い表示態様で表示させることができる。
請求項4に記載の発明によれば、話者等が特に確認したい何れかのインターバル区間において算出された評価点の詳細を、より見易い表示態様で表示させることができる。
請求項5に記載の発明によれば、表示領域内にテキストが収まらない場合であっても、そのテキストで表される文要素の内容を話者等に把握させることができる。
請求項6に記載の発明によれば、アイコンの絵柄が示す区間評価点の内訳を話者等に、効果的に把握させることができる。
本実施形態に係る音読評価装置Sの概要構成例を示す図である。 手本表示領域51、話者表示領域52、及び総合評価点表示領域53等が配置される表示画面の表示例を示す図である。 手本表示領域51、話者表示領域52、及び総合評価点表示領域53等が配置される表示画面の表示例を示す図である。 手本表示領域51、話者表示領域52、及び総合評価点表示領域53等が配置される表示画面の表示例を示す図である。 実施例1における制御部3の音読評価表示処理を示すフローチャートである。 実施例2における制御部3の音読評価表示処理を示すフローチャートである。
以下、本発明の実施形態を図面に基づいて説明する。
[1.音読評価装置Sの構成及び機能]
初めに、図1を参照して、本発明の一実施形態に係る音読評価装置Sの構成及び機能について説明する。図1は、本実施形態に係る音読評価装置Sの概要構成例を示す図である。なお、音読評価装置の一例として、パーソナルコンピュータや、携帯型情報端末(スマートフォン等)などが挙げられる。図1に示すように、音読評価装置Sは、通信部1、記憶部2、制御部3、操作部4、及びインターフェース(IF)部5等を備えて構成され、これらの構成要素はバス6に接続されている。操作部4は、ユーザからの操作(ユーザ操作)を受け付け、そのユーザ操作に応じた信号を制御部3へ出力する。ユーザ操作の例として、マウス操作が挙げられる。なお、ディスプレイDがタッチパネルディスプレイである場合、ユーザ操作は、ユーザの指やペン等による接触操作であってもよい。インターフェース部5には、マイクM、及びディスプレイD等が接続される。マイクMは、語学学習や、アナウンス、朗読などの発話練習等を行う練習者である話者が、複数の文要素を含む文(文章)を音読したときに発した音声を集音する。文要素は、文を構成する単位である。文要素の例として、フレーズ、文節、単語の他、後述するように複数のフレーズが結合した結合フレーズ等が挙げられる。ここで、フレーズは、一般に文章を読むときに一息で読む単位である。フレーズは、1以上の文節から構成される。つまり、1つのフレーズが1つの文節から構成される場合もあるし、1つのフレーズが複数の文節から構成される場合もある。文節は、例えば、1つ以上の単語のまとまりである。単語には、名詞、動詞、形容詞、副詞、及び接続詞等の自立語(単独で文節を構成できる品詞)や、助動詞及び助詞等の付属語(単独で文節を構成できない品詞)などがある。音読対象となる文の例として、語学学習や、アナウンス、朗読などで用いられる文章などが挙げられる。ディスプレイDは、制御部3からの表示指令にしたがって、後述する表示領域等が配置される表示画面を表示する。なお、マイクM、及びディスプレイDは、音読評価装置Sと一体型であってもよいし、別体であってもよい。
通信部1は、有線または無線によりネットワーク(図示せず)に接続してサーバ等と通信を行う。記憶部2は、例えばハードディスクドライブ等からなり、OS(オペレーティングシステム)、及び音読評価表示処理プログラム(本発明のプログラムの一例)等を記憶する。音読評価表示処理プログラムは、コンピュータとしての制御部3に、後述する音読評価表示処理を実行させるプログラムである。音読評価表示処理プログラムは、アプリケーションとして、所定のサーバからダウンロードされてもよいし、CD、DVD等の記録媒体に記憶されて提供されてもよい。また、記憶部2は、複数の文要素を含む文のテキストデータと、この文を音読するときの手本となる音声の波形を示す手本音声波形データを記憶する。ここで、テキストデータには、例えば、音読対象となる文を構成する各文要素を表すテキスト(文字)が文要素毎に区切られて規定されている。例えば、文要素間に挿入される句読点により区切られる。或いは、文要素を表すテキストには、先頭から順番にシリアル番号が付与されていてもよい。なお、手本音声波形データは、所定の音声ファイル形式で記憶される。
制御部3は、コンピュータとしてのCPU(Central Processing Unit)、ROM(Read Only Memory)、及びRAM(Random Access Memory)等により構成される。制御部3は、音読評価表示処理プログラムにより、音声処理部31、音読評価部32、及び表示処理部33として機能する。音読評価部32は、本発明における評価点算出手段、区間評価点算出手段、及び総合評価点算出手段の一例である。表示処理部33は、本発明における第1表示制御手段、第2表示制御手段、第3表示制御手段、第4表示制御手段、及び第5表示制御手段の一例である。
音声処理部31は、所定の音声ファイル形式で記憶された手本音声波形データを処理対象として記憶部2から入力する。入力された手本音声波形データはRAMに記憶される。また、音声処理部31は、話者が上記文を音読したときに発した音声であってマイクMにより集音された音声の波形を示す話者音声波形データを入力する。入力された話者音声波形データはRAMに記憶される。なお、音声波形データは、離散化された時系列の音圧波形データであり、例えば、サンプリングレート44.1kHz、量子化16bit、及びモノラルの波形データである。音圧とは、音波による空気の圧力の変化分(Pa)をいう。本実施形態では、音圧として、瞬時音圧(Pa)の二乗平均平方根(RMS)である実効音圧(Pa)の大きさを計算上扱い易い数値で表した音圧レベル(dB)を適用する。音圧レベル(dB)は、広義には音量ともいう。
音声処理部31は、手本音声波形データに基づいて、各文要素の開始タイミングから終了タイミングまでの手本文要素区間を文要素毎に特定する。そして、音声処理部31は、文要素毎に特定した手本文要素区間を示す手本文要素区間データに、それぞれの文要素を表すテキストを対応付けてRAMに記憶する。これらの文要素を表すテキストは、例えば、上記処理対象の手本音声波形データに対応付けられているテキストデータから抽出される。なお、手本文要素区間データは、例えば、特定された手本文要素区間の先頭から順番を示すシリアル番号と、この手本文要素区間の時間範囲(例えば、01:00-03:00)とから構成される。同様に、音声処理部31は、話者音声波形データに基づいて、各文要素の開始タイミングから終了タイミングまでの話者文要素区間を文要素毎に特定する。そして、音声処理部31は、文要素毎に特定した話者文要素区間を示す話者文要素区間データに、それぞれの文要素を表すテキストを対応付けてRAMに記憶する。これらの文要素を表すテキストは、例えば、話者音声波形データが示す音声の波形から特定される音素から抽出される。音素の例として、母音のみ、子音のみ、子音と母音との組合せの3つが挙げられる。なお、音素の特定方法は、ラベリング手法等で公知であるので詳しい説明を省略する。また、話者文要素区間データは、例えば、特定された話者文要素区間の先頭から順番を示すシリアル番号と、この話者文要素区間の時間範囲とから構成される。
ここで、開始タイミングと終了タイミングは、それぞれ、音声の波形から認識されてもよいし、上述したように算出された音圧レベル(dB)から認識されてもよい。例えば、音声処理部31は、音声の波形の振幅が所定値以上になった時点を開始タイミングとして認識する。或いは、音声処理部31は、音圧レベル(dB)が所定値以上になった時点を開始タイミングとして認識する。また、例えば、音声処理部31は、音声の波形の振幅幅が所定値未満になった時点を終了タイミングとして認識する。或いは、音声処理部31は、音圧レベル(dB)が所定値未満になった時点を終了タイミングとして認識する。なお、例えば、音圧レベル(dB)が所定値未満になった時点から、音圧レベル(dB)が所定値以上になった時点までの時間(無音時間)が閾値以上である場合に限り、音圧レベル(dB)が所定値未満になった時点が終了タイミングとして認識され、且つ音圧レベル(dB)が所定値以上になった時点が開始タイミングとして認識されるとよい(音声の波形の振幅についても同様)。これは、無音時間が閾値より短い場合、その区間で文要素を区切らない趣旨である。
ところで、「車内では(間合い)携帯電話は(間合い)マナーモードに設定の上(間合い)通話はご遠慮下さい」と区切り区切りゆっくり音読するお手本の音声波形データがあるとすると、上記の方法で開始タイミングと終了タイミングとを認識することにより、「車内では」、「携帯電話は」、「マナーモードに設定の上」、「通話はご遠慮下さい」というように、4つのフレーズ毎に対応する手本文要素区間に区切られて特定される。また、話者が、同じ文を、手本と同じ間合いで区切り区切り音読した場合に、上記の方法で開始タイミングと終了タイミングとを認識することで、「車内では」、「携帯電話は」、「マナーモードに設定の上」、「通話はご遠慮下さい」というように、4つのフレーズ毎に対応する話者文要素区間に区切られて特定される。これに対し、話者が、例えば、上記文のうち、「マナーモードに設定の上」と「通話はご遠慮下さい」の部分を、一息で「マナーモードに設定の上通話はご遠慮下さい」と素早く音読した場合、この部分が一息で読むフレーズとなり、上記の方法で開始タイミングと終了タイミングとを認識すると、上記部分は特に区切られずに話者文要素区間が特定されることになる。このように、手本により音読される複数のフレーズが、話者により音読される1つのフレーズに対応している場合、手本により音読されるフレーズに対応する手本文要素区間と、話者により音読されるフレーズの話者文要素区間とを比較し難くなる。このため、このような場合、音声処理部31は、話者により音読されるフレーズ(「マナーモードに設定の上通話はご遠慮下さい」)を、手本により音読されるフレーズに合わせるように複数の文節または単語に区分して話者文要素区間を特定するとよい。
上記とは逆に、例えば、「車内では(間合い)携帯電話はマナーモードに設定の上通話はご遠慮下さい」というように、一部素早く音読するお手本の音声波形データがあるとすると、上記の方法で開始タイミングと終了タイミングとを認識することにより、「車内では」、「携帯電話はマナーモードに設定の上通話はご遠慮下さい」というように、2つのフレーズ毎に対応する手本文要素区間に区切られて特定される。これに対し、話者が、「車内では(間合い)携帯電話は(間合い)マナーモードに設定の上(間合い)通話はご遠慮下さい」と区切り区切りゆっくり音読した場合、上記の方法で開始タイミングと終了タイミングとを認識することで、「車内では」、「携帯電話は」、「マナーモードに設定の上」、「通話はご遠慮下さい」というように、4つのフレーズ毎に対応する話者文要素区間に区切られて特定されることになる。このように、手本により音読される1つのフレーズが、話者により音読される複数のフレーズに対応している場合も、手本により音読されるフレーズに対応する手本文要素区間と、話者により音読されるフレーズの話者文要素区間とを比較し難くなる。このため、このような場合、音声処理部31は、例えば、手本により音読されるフレーズに合わせるように、例えば「携帯電話は」と「マナーモードに設定の上」と「通話はご遠慮下さい」という3つのフレーズを含む結合フレーズに対応する話者文要素区間を特定するとよい。
また、音声処理部31は、手本音声波形データに基づいて、複数の文要素のうち何れかの文要素の終了タイミングから次の文要素の開始タイミングまでの手本インターバル区間を特定する。そして、音声処理部31は、特定した手本インターバル区間を示す手本インターバル区間データをRAMに記憶する。なお、特定された手本インターバル区間には、例えば先頭から順番にシリアル番号が付与される。同様に、音声処理部31は、話者音声波形データに基づいて、複数の文要素のうち何れかの文要素の終了タイミングから次の文要素の開始タイミングまでの話者インターバル区間を特定する。そして、音声処理部31は、特定した話者インターバル区間を示す話者インターバル区間データをRAMに記憶する。なお、特定された話者インターバル区間には、例えば先頭から順番にシリアル番号が付与される。
また、音声処理部31は、手本音声波形データから所定時間毎に切り出したデータから音圧レベル(dB)を手本音圧として所定時間間隔毎に特定する。そして、音声処理部31は、所定時間間隔毎に特定した手本音圧を示す手本音圧データをRAMに記憶する。同様に、音声処理部31は、話者音声波形データから所定時間毎に切り出したデータから音圧レベル(dB)を話者音圧として所定時間間隔毎に特定する。そして、音声処理部31は、所定時間間隔毎に特定した話者音圧を示す話者音圧データをRAMに記憶する。また、音声処理部31は、手本音声波形データから所定時間毎に切り出したデータから基本周波数(Hz)を算出し、算出した基本周波数(Hz)を手本音高として所定時間間隔毎に特定する。なお、音高(抑揚、ピッチともいう)の特定方法には、例えば、ゼロクロス法やベクトル自己相関等の公知の手法を適用できる。そして、音声処理部31は、所定時間間隔毎に特定した手本音高を示す手本音高データをRAMに記憶する。同様に、音声処理部31は、話者音声波形データから所定時間毎に切り出したデータから基本周波数(Hz)を算出し、算出した基本周波数(Hz)を話者音高として所定時間間隔毎に特定する。そして、音声処理部31は、所定時間間隔毎に特定した話者音高を示す話者音高データをRAMに記憶する。なお、音圧特定及び音高特定するための上記所定時間は、文要素区間の時間長(時間的長さ)より短い時間であり、例えば10ms程度に設定される。
また、音声処理部31は、手本音声波形データから所定時間毎に切り出したデータを窓掛けで区切って(例えば、25ms毎にフレーム化)、フーリエ解析(FFT)することで振幅スペクトルを求める。そして、音声処理部31は、求めた振幅スペクトルにメルフィルタバンクをかけ、メルフィルタバンクの出力を対数化した値を離散コサイン変換(DCT)することでMFCC(メル周波数ケプストラム係数)を算出することで、手本の声道特性を示す特徴量として手本文要素区間毎に特定する。そして、音声処理部31は、手本文要素区間毎に特定した、手本の声道特性を示す特徴量を示す手本特徴量データをRAMに記憶する。同様に、音声処理部31は、話者音声波形データから所定時間毎に切り出したデータを窓掛けで区切って、フーリエ解析することで振幅スペクトルを求める。そして、音声処理部31は、求めた振幅スペクトルにメルフィルタバンクをかけ、メルフィルタバンクの出力を対数化した値を離散コサイン変換することでMFCCを算出することで、話者の声道特性を示す特徴量として話者文要素区間毎に特定する。そして、音声処理部31は、話者文要素区間毎に特定した、話者の声道特性を示す特徴量を示す話者特徴量データをRAMに記憶する。
次に、音読評価部32(評価点算出手段の一例)は、話者文要素区間と話者インターバル区間との少なくとも何れか一方の区間毎、且つ、予め設定された評価項目毎に、話者の音読に対する評価点を算出する。ここで、話者文要素区間における評価項目の例として、抑揚、音量、滑舌、及び速度が挙げられる。また、話者インターバル区間における評価項目の例として、間(間合い)が挙げられる。例えば、音読評価部32は、音声処理部31により特定された手本音高と話者音高との差を文要素区間毎(つまり、シリアル番号が互いに同一の手本文要素区間及び話者文要素区間毎)に算出し、算出した差に基づいて、話者の抑揚に対する評価点を文要素区間毎に算出する。この評価点は、例えば30点を満点とし、差が0に近いほど高くなる(満点に近づく)ように算出される。また、音読評価部32は、手本音圧と話者音圧との差を文要素区間毎に算出し、算出した差に基づいて、話者の音量に対する評価点を文要素区間毎に算出する。この評価点は、例えば30点を満点とし、差が0に近いほど高くなるように算出される。また、音読評価部32は、手本の声道特性を示す特徴量と話者の声道特性を示す特徴量との類似度を文要素区間毎に算出し、算出した類似度に基づいて、話者の滑舌に対する評価点を文要素区間毎に算出する。この評価点は、例えば30点を満点とし、類似度が高いほど高くなるように算出される。また、音読評価部32は、手本文要素区間の時間長と話者文要素区間の時間長との時間差を文要素区間毎に算出し、算出した時間差の絶対値に基づいて、話者の速度(音読スピード)に対する評価点を文要素区間毎に算出する。この評価点は、例えば30点を満点とし、時間差の絶対値が0に近いほど高くなるように算出される。また、音読評価部32は、手本インターバル区間の時間長と、話者インターバル区間の時間長との時間差をインターバル区間毎に算出し、算出した時間差の絶対値に基づいて、話者の間合いに対する評価点をインターバル区間毎に算出する。この評価点は、例えば30点を満点とし、時間差の絶対値が0に近いほど高くなるように算出される。
また、音読評価部32(区間評価点算出手段の一例)は、文要素区間毎に算出された、評価項目別の評価点に基づいて、話者の音読に対する区間評価点を文要素区間毎に算出する。例えば、評価項目が抑揚と音量とである場合、音読評価部32は、抑揚に対する評価点と音量に対する評価点との平均値(合計値でもよい)を、区間評価点として文要素区間毎に算出する。また、評価項目が抑揚のみである場合、音読評価部32は、抑揚に対する評価点を、区間評価点としてもよい。また、音読評価部32(総合評価点算出手段の一例)は、上述したように算出された文要素区間毎の評価項目別の評価点に基づいて、全文要素区間における評価項目別の総合評価点を算出する。例えば、音読評価部32は、文要素区間毎に算出された、評価項目別の評価点の平均値(合計値でもよい)を、全文要素区間における評価項目別の総合評価点として算出する。また、音読評価部32は、上述したように算出されたインターバル区間毎の評価点に基づいて、全インターバル区間における間合いに対する総合評価点を算出する。例えば、音読評価部32は、インターバル区間毎に算出された、間合いに対する評価点の平均値または合計値を、全インターバル区間における間合いに対する総合評価点として算出する。そして、音読評価部32(総合評価点算出手段の一例)は、全文要素区間における評価項目別の総合評価点と、全インターバル区間における間合いに対する総合評価点との合計値(平均値でもよい)を、全区間(つまり、文要素区間及びインターバル区間)における総合評価点として算出する。
次に、表示処理部33は、文を音読するときの手本となる音声に関する情報が表示される手本表示領域、話者が文を音読したときに発した音声に関する情報が表示される話者表示領域、及び話者の音読に対する総合評価点が表示される総合評価点表示領域等が配置される表示画面をディスプレイDに表示させる。図2乃至図4は、手本表示領域51、話者表示領域52、及び総合評価点表示領域53等が配置される表示画面の表示例を示す図である。図2(A)に示す表示画面には、時間軸tを例えば横軸(X軸)とすることで、手本表示領域51と話者表示領域52とが時間軸tと直交する上下方向(縦方向)に並んで配置されている。このとき、表示処理部33は、手本表示領域51において、音読対象となる文を構成する各文要素を表すテキストの少なくとも一部を、それぞれの手本文要素区間の時間長に応じた長さの手本テキスト表示領域51a1〜51a3に時間軸tに沿って手本文要素区間毎に表示させる。ここで、手本テキスト表示領域51a1〜51a3の領域内に表示されるテキストは、それぞれの手本文要素区間の手本文要素区間データに対応付けられたテキストである。
また、表示処理部33(第1表示制御手段の一例)は、話者表示領域52において、話者により音読された文を構成する各文要素を表すテキストの少なくとも一部を、それぞれの話者文要素区間の時間長に応じた長さの話者テキスト表示領域(第1の表示領域の一例)52a1〜52a3に時間軸tに沿って話者文要素区間毎に表示させる。ここで、話者テキスト表示領域52a1〜52a3の輪郭内に表示されるテキストは、それぞれの話者文要素区間の話者文要素区間データに対応付けられたテキストである。また、例えば、話者テキスト表示領域52a1の時間軸tと並行する方向の長さD1(言い換えれば、ピクセル数)は、話者テキスト表示領域52a1に対応する話者文要素区間の時間長に応じた長さに設定されている。すなわち、文要素区間の時間長が長いほど、これに対応するテキスト表示領域の長さは距離的に長く設定される。テキスト表示領域内にテキストが収まらない場合、本実施形態では、図2(A)に示す話者テキスト表示領域52a3のように、話者テキスト表示領域52a3の領域からはみ出す部分のテキストは表示されないように構成される。また、図2(A)に示すように、話者テキスト表示領域52a1と話者テキスト表示領域52a2との間には、時間軸tに沿って話者スペース領域52s1が位置する。また、話者テキスト表示領域52a2と話者テキスト表示領域52a3との間には、時間軸tに沿って話者スペース領域52s2が位置する。例えば、話者スペース領域52s1の時間軸tと並行する方向の長さD2は、話者スペース領域52s1に対応する話者インターバル区間の時間長に応じた長さに設定されている。すなわち、話者インターバル区間の時間長が長いほど、これに対応する話者スペース領域の長さは距離的に長く設定される。
また、表示処理部33(第5表示制御手段の一例)は、音読評価部32により算出された各区間評価点を表すアイコン52a11〜52a31を、それぞれのアイコンに対応する話者文要素区間に対応する話者テキスト表示領域52a1〜52a3毎に対応して配置された領域(第4の表示領域の一例)に時間軸tに沿って話者文要素区間毎に表示させる。図2(A)の例では、アイコン52a11〜52a31は、話者テキスト表示領域52a1〜52a3内の右端部に配置されている。区間評価点を表すアイコンの絵柄の例として、晴れを示す絵柄、曇りを示す絵柄、及び雨を示す絵柄が挙げられる。ここで、区間評価点の満点を30点としたとき、晴れを示す絵柄は、区間評価点が例えば21〜30点であることを示す。曇りを示す絵柄は、区間評価点が例えば11〜20点であることを示す。雨を示す絵柄は、区間評価点が例えば0〜10点であることを示す。なお、区間評価点を表すアイコンの絵柄及び絵柄の数は、任意に設定可能である。
また、表示処理部33は、音声処理部31により特定された手本音高と手本音圧との少なくとも何れか一方の音要素の時系列的な変化を表す手本グラフを手本グラフ表示領域51bに時間軸に沿って表示させる。また、表示処理部33(第2表示制御手段の一例)は、音声処理部31により特定された話者音高と話者音圧との少なくとも何れか一方の音要素の時系列的な変化を表す話者グラフを話者グラフ表示領域52b(第2の表示領域の一例)に時間軸tに沿って表示させる。このとき、表示処理部33は、手本グラフにより表される音要素(つまり、手本音高または手本音圧)と同じ種類の音要素(例えば、手本音高と同じ種類の音要素は話者音高)の時系列的な変化を表す話者グラフを、時間軸tに沿って表示させることになる。図2(A)の例では、手本グラフ表示領域51bには、手本音高の時系列的な変化を表す手本グラフ(折線グラフ)51b11〜51b31と、手本音圧の時系列的な変化を表す手本グラフ(棒グラフ)51b12〜51b32とが、時間軸tに沿って手本文要素区間毎に区別して表示されている。また、話者グラフ表示領域52bには、話者音高の時系列的な変化を表す話者グラフ(折線グラフ)52b11〜52b31と、話者音圧の時系列的な変化を表す話者グラフ(棒グラフ)52b12〜52b32とが、時間軸tに沿って話者文要素区間毎に区別して表示されている。
また、図2(A)に示す表示画面には、総合評価点表示領域53(第3の表示領域の一例)、スクロールバー54、及び表示画面を閉じるための「閉じる」キー55が配置されている。表示処理部33(第3表示制御手段の一例)は、音読評価部32により算出された総合評価点を総合評価点表示領域53に表示させる。図2(A)の例では、全話者文要素区間における評価項目(抑揚、音量、滑舌、及び速度)別の総合評価点と、全話者インターバル区間における間合い(間)に対する総合評価点と、全区間における総合評価点とが表示されている。なお、手本表示領域51及び話者表示領域52における表示内容は、スクロールバー54のユーザ操作に応じて、時間軸tと並行する方向にスクロール表示される。
そして、表示処理部33は、話者テキスト表示領域52a1〜52a3、及び話者スペース領域52s1,52s2のうち、何れか一の領域がユーザ操作により指定された場合、指定された何れか一の領域に対応する区間(文要素区間、またはインターバル区間)において算出された評価点を表示するウインドウW11(第1のウインドウの一例)をポップアップ表示させる。これにより、話者等が特に確認したい何れかの区間において算出された評価点の詳細を、より見易い表示態様で表示させることができる。
図2(B)の例は、話者テキスト表示領域52a1上に、マウスのポインタP(カーソル)を重畳させることにより、話者テキスト表示領域52a1が指定された場合を示している。この場合、表示処理部33は、指定された話者テキスト表示領域52a1に対応する話者文要素区間において算出された、話者の抑揚、音量、滑舌、及び速度それぞれに対する評価点を表示するウインドウW11をポップアップ表示させる。これにより、話者等が特に確認したい何れかの話者文要素区間において算出された評価点の詳細を、その話者文要素区間における文要素を表すテキスト等に対応付けて、より見易い表示態様で表示させることができる。こうして表示されたウインドウW11は、話者テキスト表示領域52a1からポインタPが離れることにより、話者テキスト表示領域52a1の指定が解除された場合に消去される(つまり、ウインドウW11が閉じる)。一方、ウインドウW11の表示は、話者テキスト表示領域52a1上にマウスのポインタPが重畳されている状態で、マウスの操作ボタンがクリックされることにより継続(継続表示)される。こうして継続表示されたウインドウW11は、話者テキスト表示領域52a1上にマウスのポインタPが重畳されている状態で、マウスの操作ボタンが再度、クリックされることにより消去される。なお、ウインドウW11に表示される評価点は、抑揚、音量、滑舌、及び速度のうちの一部(例えば、音量と速度)に対する評価点であってもよい。
図3(A)の例は、話者スペース領域52s1上に、マウスのポインタPを重畳させることにより、話者スペース領域52s1が指定された場合を示している。この場合、表示処理部33は、指定された話者スペース領域52s1に対応する話者インターバル区間において算出された、話者の間合いに対する評価点を表示するウインドウW21をポップアップ表示させる。これにより、話者等が特に確認したい何れかの話者インターバル区間において算出された評価点の詳細を、より見易い表示態様で表示させることができる。こうして表示されたウインドウW21は、話者スペース領域52s1からポインタPが離れることにより、話者スペース領域52s1の指定が解除された場合に消去される。一方、ウインドウW21の表示は、話者スペース領域52s1上にマウスのポインタPが重畳されている状態で、マウスの操作ボタンがクリックされることにより継続される。こうして継続表示されたウインドウW21は、話者スペース領域52s1上にマウスのポインタPが重畳されている状態で、マウスの操作ボタンが再度、クリックされることにより消去される。
なお、上記ウインドウW11,W21は、話者グラフ表示領域52bがユーザ操作により指定された場合にポップアップ表示されるように構成してもよい。この場合、話者グラフ表示領域52bは、上記各区間(話者文要素区間、及び話者インターバル区間)に対応するように複数の領域に区分(例えば、時間軸tと直交する線で区分)される。そして、表示処理部33は、話者グラフ表示領域52bにおいて指定された領域に対応する話者文要素区間において算出された、話者の抑揚、音量、滑舌、及び速度それぞれに対する評価点を表示するウインドウW11をポップアップ表示させる。或いは、表示処理部33は、話者グラフ表示領域52bにおいて指定された領域に対応する話者インターバル区間において算出された、話者の間合いに対する評価点を表示するウインドウW21をポップアップ表示させる。
また、表示処理部33は、上述したように、ウインドウW11の表示を継続させ、ウインドウW11の表示が継続している間に何れか一の領域とは異なる他の領域(つまり、話者テキスト表示領域、話者グラフ表示領域、または話者スペース領域)がユーザ操作により新たに指定された場合、新たに指定された他の領域に対応する区間において算出された評価点を表示するウインドウW12(第2のウインドウの一例)をポップアップ表示させ、ウインドウW11の表示とウインドウW12の表示を継続させる。これにより、話者等が区間毎の評価点を見比べることが可能となり、どの区間における評価が良いか悪いかを話者等に一見して把握させることができる。図3(B)の例は、ウインドウW11とウインドウW12のポップアップ表示が継続している例を示している。ウインドウW12は、話者テキスト表示領域52a1の後に指定された話者テキスト表示領域52a2に対応する話者文要素区間において算出された、話者の抑揚、音量、滑舌、及び速度それぞれに対する評価点を表示している。
また、表示処理部33は、アイコン(52a11〜52a31の何れか)がユーザ操作により指定された場合、指定されたアイコンに対応する話者文要素区間において算出された、話者の抑揚、音量、滑舌、及び速度のうち少なくとも何れか一つのそれぞれに対する評価点を表示するウインドウW31(第4のウインドウの一例)をポップアップ表示させる。図4(A)の例は、アイコン52a31上に、マウスのポインタPを重畳させることにより、アイコン52a31が指定された場合を示している。この場合、表示処理部33は、指定されたアイコン52a31に対応する話者文要素区間において算出された、話者の抑揚、音量、滑舌、及び速度それぞれに対する評価点を表示するウインドウW31をポップアップ表示させる。ここで、ウインドウW31に表示された各評価点は、アイコン52a31に対応する話者文要素区間における区間評価点(つまり、アイコン52a31の絵柄が示す区間評価点)の算出に用いられた評価点である。従って、ウインドウW31のポップアップ表示により、アイコン52a31の絵柄が示す区間評価点の内訳を話者等に、効果的に把握させることができる。こうして表示されたウインドウW31は、アイコン52a31からポインタPが離れることにより、アイコン52a31の指定が解除された場合に消去される。一方、ウインドウW31の表示は、アイコン52a31上にマウスのポインタPが重畳されている状態で、マウスの操作ボタンがクリックされることにより継続される。こうして継続表示されたウインドウW31は、アイコン52a31上にマウスのポインタPが重畳されている状態で、マウスの操作ボタンが再度、クリックされることにより消去される。なお、この場合も、ウインドウW31の表示が継続している間に、アイコン52a31とは異なる他のアイコンがユーザ操作により新たに指定された場合、新たに指定された他のアイコンに対応する話者文要素区間において算出された評価点を表示する新たなウインドウをポップアップ表示させ、ウインドウW31の表示と新たなウインドウの表示を継続させてもよい。
また、表示処理部33は、話者テキスト表示領域(52a1〜52a3の何れか)がユーザ操作により指定された場合、指定された話者テキスト表示領域に少なくとも一部が表示されたテキストの全部を表示するウインドウWT(第3のウインドウの一例)をポップアップ表示させてもよい。図4(B)の例は、話者テキスト表示領域52a3上に、マウスのポインタPを重畳させることにより、話者テキスト表示領域52a3が指定された場合を示している。この場合、表示処理部33は、指定された話者テキスト表示領域52a3に対応する話者文要素区間の話者文要素区間データに対応付けられたテキストの全部を表示するウインドウWTをポップアップ表示する。これにより、話者テキスト表示領域52a3内にテキストが収まらない場合であっても、そのテキストで表される文要素の内容を話者等に把握させることができる。こうして表示されたウインドウWTは、話者テキスト表示領域52a3からポインタPが離れることにより、話者テキスト表示領域52a3の指定が解除された場合に消去される。一方、ウインドウWTの表示は、話者テキスト表示領域52a3上にマウスのポインタPが重畳されている状態で、マウスの操作ボタンがクリックされることにより継続される。こうして継続表示されたウインドウWTは、話者テキスト表示領域52a3上にマウスのポインタPが重畳されている状態で、マウスの操作ボタンが再度、クリックされることにより消去される。
[2.音読評価装置Sの動作例]
次に、音読評価装置Sの動作例について、実施例1と実施例2に分けて説明する。なお、以下に説明する動作の前提として、手本文要素区間データ及び話者音声波形データが制御部3に取り込まれ、音声処理部31により、手本文要素区間、手本インターバル区間、手本音圧、手本音高、手本特徴量、話者文要素区間、話者インターバル区間、話者音圧、話者音高、及び話者特徴量が特定され、これらのデータ、及び手本文要素区間毎のテキスト、並びに話者文要素区間毎のテキストが、例えば、音読対象のお手本となる所望の音声ファイルの識別情報に対応付けられて記憶部2に記憶されているものとする。さらに、音読評価部32により、評価項目別の評価点、区間評価点、総合評価点が算出され、これらの評価点が、音読対象のお手本となる所望の音声ファイルの識別情報に対応付けられて記憶部2に記憶されているものとする。
(実施例1)
先ず、図5を参照して、実施例1について説明する。図5は、実施例1における制御部3の音読評価表示処理を示すフローチャートである。図5に示す処理は、例えば、話者が操作部4を介して音読対象のお手本となる所望の音声ファイルを指定して表示開始指示を行うことにより開始される。図5に示す処理が開始されると、制御部3(表示処理部33)は、指定された音声ファイルの識別情報に対応付けられたデータ(文要素区間データ、インターバル区間データ、テキストデータ等)、及び評価点のデータを記憶部2から読み込み、図2(A)に示すように、手本表示領域51、話者表示領域52、及び総合評価点表示領域53等が配置された表示画面をディスプレイDに表示させる(ステップS1)。図2(A)の例では、手本表示領域51と話者表示領域52と総合評価点表示領域53とは同一画面上に配置されている。これにより、全区間における総合評価点と、話者等が確認したい一部区間における評価点とを、話者等に同時に参照させることができる。ただし、総合評価点表示領域53は、手本表示領域51と話者表示領域52とが配置される画面とは別の画面に配置されてもよい。つまり、例えば、別の画面では総合評価点は表示されるが、手本表示領域51と話者表示領域52が表示されている画面には総合評価点が表示されなくてもよい。
次いで、制御部3は、話者テキスト表示領域52a1〜52a3、及び話者スペース領域52s1,52s2のうち、何れか一の領域がユーザ操作により指定されたか否かを判定する(ステップS2)。例えば、ユーザがマウスを操作することで、マウスのポインタPが話者テキスト表示領域または話者スペース領域上に重畳すると、その領域がユーザ操作により指定されたと判定される。或いは、ディスプレイDがタッチパネルディスプレイである場合、ユーザが、話者テキスト表示領域または話者スペース領域を指やペン等で触れると、その領域がユーザ操作により指定されたと判定される。なお、ステップS2において、上述したように話者グラフ表示領域がユーザ操作により指定されたか否かが判定されてもよい。そして、制御部3は、何れか一の領域がユーザ操作により指定されたと判定した場合(ステップS2:YES)、ステップS3へ進む。一方、制御部3は、何れか一の領域がユーザ操作により指定されていないと判定した場合(ステップS2:NO)、ステップS10へ進む。
ステップS3では、制御部3は、指定された領域に対応するウインドウが継続表示中であるか否かを判定する。制御部3は、上記ウインドウが継続表示中であると判定した場合(ステップS3:YES)、ステップS10へ進む。一方、制御部3は、上記ウインドウが継続表示中でないと判定した場合(ステップS3:NO)、ステップS4へ進む。ステップS4では、制御部3は、指定された領域(つまり、指定されたと判定した領域)に対応する区間において算出された評価点を特定する。次いで、制御部3は、ステップS4で特定した評価点を表示するウインドウを表示画面上にポップアップ表示させる(ステップS5)。例えば、話者テキスト表示領域52a1が指定された場合、この領域に対応する話者文要素区間において算出された、話者の抑揚、音量、滑舌、及び速度それぞれに対する評価点を表示するウインドウW11が、図2(B)に示すようにポップアップ表示される。一方、話者スペース領域52s1が指定された場合、この領域に対応する話者インターバル区間において算出された、話者の間合いに対する評価点を表示するウインドウW21が、図3(A)に示すようにポップアップ表示される。
次いで、制御部3は、上記領域への指定が解除されたか否かを判定する(ステップS6)。例えば、ユーザがマウスを操作することで、マウスのポインタPが話者テキスト表示領域または話者スペース領域上から離れると、その領域への指定が解除されたと判定される。或いは、ディスプレイDがタッチパネルディスプレイである場合、ユーザが、話者テキスト表示領域または話者スペース領域から指やペン等を離すと、その領域への指定が解除されたと判定される。そして、制御部3は、上記領域への指定が解除されたと判定した場合(ステップS6:YES)、判定した領域に対応するウインドウの表示消去を行い(ステップS7)、ステップS10へ進む。
一方、制御部3は、上記領域への指定が解除されていないと判定した場合(ステップS6:NO)、判定した領域に対応するウインドウの継続表示指示があったか否かを判定する(ステップS8)。例えば、ステップS6で判定された領域上にマウスのポインタPが重畳されている状態で、ユーザがマウスの操作ボタンをクリックすると、その領域に対応するウインドウの継続表示指示があったと判定される。或いは、ディスプレイDがタッチパネルディスプレイである場合、ユーザが、ステップS6で判定された領域上を指やペン等で触れている状態から、一旦、指やペン等を離して素早くタップすると、その領域に対応するウインドウの継続表示指示があったと判定される。そして、制御部3は、上記領域に対応するウインドウの継続表示指示があったと判定した場合(ステップS8:YES)、そのウインドウを継続表示させ(ステップS9)、ステップS10へ進む。一方、制御部3は、上記領域に対応するウインドウの継続表示指示がないと判定した場合(ステップS8:NO)、ステップS6に戻る。
ステップS10では、制御部3は、継続表示中のウインドウの継続表示解除指示があったか否かを判定する。なお、ステップS10において、ウインドウが継続表示されていない場合、そもそも、継続表示解除指示は受け付けられないので、ステップS12へ進む。制御部3は、継続表示中のウインドウの継続表示解除指示があったと判定した場合(ステップS10:YES)、ステップS11へ進む。例えば、ユーザがマウスを操作して、継続表示中のウインドウ上にマウスのポインタPを重畳させた状態で、ユーザがマウスの操作ボタンをクリックすると、そのウインドウの継続表示解除指示があったと判定される。或いは、ディスプレイDがタッチパネルディスプレイである場合、ユーザが、継続表示中のウインドウ上を指やペン等でタップすると、そのウインドウの継続表示解除指示があったと判定される。ステップS11では、制御部3は、継続表示解除指示されたウインドウの表示消去を行い、ステップS12へ進む。一方、制御部3は、継続表示中のウインドウの継続表示解除指示がないと判定した場合(ステップS10:NO)、ステップS12へ進む。
ステップS12では、制御部3は、表示終了指示があったか否かを判定する。制御部3は、閉じるボタン55のユーザ操作に応じて、表示終了指示があったと判定した場合(ステップS12:YES)、図5に示す処理を終了する。一方、制御部3は、表示終了指示がないと判定した場合(ステップS12:NO)、ステップS2に戻る。なお、図示しないが、図5に示す処理において、制御部3は、スクロールバー54のユーザ操作に応じて、手本表示領域51及び話者表示領域52を左方向又は右方向へスクロールさせる。
(実施例2)
次に、図6を参照して、実施例2について説明する。図6は、実施例2における制御部3の音読評価表示処理を示すフローチャートである。なお、実施例2は、話者テキスト表示領域においてテキストの領域が指定された場合と、話者テキスト表示領域においてアイコンの領域が指定された場合とで、ウインドウに表示される内容を切り替える構成である。なお、図6に示す処理では、話者スペース領域がユーザ操作により指定された場合の処理を省略している。図6に示す処理は、図5に示す処理と同様に開始される。図6に示すステップS21は、図5に示すステップS1と同様である。
ステップS22では、制御部3は、話者テキスト表示領域52a1〜52a3のうち、何れか一の話者テキスト表示領域におけるテキストの領域がユーザ操作により指定されたか否かを判定する。制御部3は、テキストの領域がユーザ操作により指定されたと判定した場合(ステップS22:YES)、ステップS23へ進む。一方、制御部3は、テキストの領域がユーザ操作により指定されていないと判定した場合(ステップS22:NO)、ステップS30へ進む。
ステップS23では、制御部3は、指定されたテキストの領域に対応するウインドウが継続表示中であるか否かを判定する。制御部3は、上記ウインドウが継続表示中であると判定した場合(ステップS23:YES)、ステップS30へ進む。一方、制御部3は、上記ウインドウが継続表示中でないと判定した場合(ステップS23:NO)、ステップS24へ進む。ステップS24では、制御部3は、指定されたテキストの領域に対応する話者文要素区間の話者文要素区間データに対応付けられたテキストを特定する。次いで、制御部3は、ステップS24で特定したテキストの全部を表示するウインドウを表示画面上にポップアップ表示させる(ステップS25)。これにより、指定された話者テキスト表示領域に少なくとも一部が表示されたテキストの全部を表示するウインドウWTが、図4(B)に示すようにポップアップ表示される。なお、ステップS26〜S29の処理は、図5に示すステップS6〜S9と同様である。
ステップS30では、制御部3は、アイコン52a11〜52a31のうち、何れか一のアイコンがユーザ操作により指定されたか否かを判定する。制御部3は、何れか一のアイコンがユーザ操作により指定されたと判定した場合(ステップS30:YES)、ステップS31へ進む。一方、制御部3は、何れか一のアイコンがユーザ操作により指定されていないと判定した場合(ステップS30:NO)、ステップS38へ進む。
ステップS31では、制御部3は、指定されたアイコンに対応するウインドウが継続表示中であるか否かを判定する。制御部3は、上記ウインドウが継続表示中であると判定した場合(ステップS31:YES)、ステップS38へ進む。一方、制御部3は、上記ウインドウが継続表示中でないと判定した場合(ステップS31:NO)、ステップS32へ進む。ステップS32では、制御部3は、指定されたアイコンに対応する話者文要素区間において算出された評価点を特定する。次いで、制御部3は、ステップS32で特定した評価点を表示するウインドウを表示画面上にポップアップ表示させる(ステップS33)。これにより、指定されたアイコンに対応する話者文要素区間において算出された評価点を表示するウインドウW31が、図4(A)に示すようにポップアップ表示される。なお、ステップS34〜S37の処理は、図5に示すステップS6〜S9と同様である。また、ステップS38〜S40の処理は、図5に示すステップS10〜S12と同様である。
以上説明したように、上記実施形態によれば、音読評価装置Sは、話者による音読に対する総合評価点が表示される状態で、話者テキスト表示領域52a1〜52a3、及び話者スペース領域52s1,52s2のうち、何れか一の領域がユーザ操作により指定された場合、指定された何れか一の領域に対応する区間において算出された評価点を表示するウインドウをポップアップ表示させるので、話者等が特に確認したい何れかの区間において算出された評価点の詳細を、より見易い表示態様で表示させることができる。
1 通信部
2 記憶部
3 制御部
4 操作部
5 インターフェース部
6 バス
31 音声処理部
32 音読評価部
33 表示処理部
S 音読評価装置

Claims (8)

  1. 話者が文を音読したときに発した音声の波形を示す音声波形データに基づいて、前記音読された文を構成する各文要素の開始タイミングから終了タイミングまでの文要素区間と、複数の前記文要素のうち何れかの前記文要素の終了タイミングから次の前記文要素の開始タイミングまでのインターバル区間との少なくとも何れか一方の区間毎に前記音読に対する評価点を算出する評価点算出手段と、
    前記評価点算出手段により算出された前記区間毎の評価点に基づいて、前記音読に対する総合評価点を算出する総合評価点算出手段と、
    前記音読された文を構成する各文要素を表すテキストの少なくとも一部を、それぞれの前記文要素区間の時間長に応じた長さの第1の表示領域に時間軸に沿って前記文要素区間毎に表示させる第1表示制御手段と、
    前記文要素区間の時間長より短い所定時間間隔毎に前記音声波形データに基づいて特定された音高と音圧との少なくとも何れか一方の音要素の時系列的な変化を表すグラフを第2の表示領域に前記時間軸に沿って表示させる第2表示制御手段と、
    前記総合評価点算出手段により算出された総合評価点を第3の表示領域に表示させる第3表示制御手段と、
    前記第1の表示領域、前記第2の表示領域、及び複数の前記第1の表示領域間に前記時間軸に沿って位置するスペース領域のうち、何れか一の領域がユーザ操作により指定された場合、指定された前記何れか一の領域に対応する前記区間において算出された前記評価点を表示する第1のウインドウをポップアップ表示させる第4表示制御手段と、
    を備えることを特徴とする音読評価装置。
  2. 前記第4表示制御手段は、前記第1のウインドウの表示を継続させ、前記第1のウインドウの表示が継続している間に前記何れか一の領域とは異なる他の領域がユーザ操作により新たに指定された場合、新たに指定された他の領域に対応する前記区間において算出された前記評価点を表示する第2のウインドウをポップアップ表示させ、前記第1のウインドウの表示と前記第2のウインドウの表示を継続させることを特徴とする請求項1に記載の音読評価装置。
  3. 前記第4表示制御手段は、前記第1の表示領域または前記第2の表示領域がユーザ操作により指定された場合、前記指定された前記第1の表示領域または前記第2の表示領域に対応する前記区間において算出された評価点であって、前記音読に対する評価項目として予め設定された抑揚、音量、滑舌、及び速度のうち少なくとも何れか一つに対する前記評価点を表示する第1のウインドウをポップアップ表示させることを特徴とする請求項1または2に記載の音読評価装置。
  4. 前記第4表示制御手段は、前記スペース領域がユーザ操作により指定された場合、前記指定された前記スペース領域に対応する前記区間において算出された評価点であって、前記音読に対する評価項目として予め設定された間合いに対する前記評価点を表示する第1のウインドウをポップアップ表示させることを特徴とする請求項1乃至3の何れか一項に記載の音読評価装置。
  5. 前記第4表示制御手段は、前記第1の表示領域がユーザ操作により指定された場合、指定された前記第1の表示領域に少なくとも一部が表示された前記テキストの全部を表示する第3のウインドウをポップアップ表示させることを特徴とする請求項1乃至4の何れか一項に記載の音読評価装置。
  6. 前記音読に対する評価項目として予め設定された抑揚、音量、滑舌、及び速度のうち少なくとも何れか一つのそれぞれに対応する前記評価点であって、前記文要素区間毎に算出された前記評価点に基づいて、前記音読に対する区間評価点を前記文要素区間毎に算出する区間評価点算出手段と、
    前記区間評価点算出手段により算出された各区間評価点を表すアイコンを、前記第1の表示領域毎に対応して配置された第4の表示領域に前記時間軸に沿って前記文要素区間毎に表示させる第5表示制御手段と、
    を更に備え、
    前記第4表示制御手段は、前記アイコンがユーザ操作により指定された場合、前記指定された前記アイコンに対応する前記文要素区間において算出された評価点であって、前記音読に対する評価項目として予め設定された抑揚、音量、滑舌、及び速度のうち少なくとも何れか一つのそれぞれに対する前記評価点を表示する第4のウインドウをポップアップ表示させることを特徴とする請求項1乃至5の何れか一項に記載の音読評価装置。
  7. 1つ以上のコンピュータにより実行される表示制御方法であって、
    話者が文を音読したときに発した音声の波形を示す音声波形データに基づいて、前記音読された文を構成する各文要素の開始タイミングから終了タイミングまでの文要素区間と、複数の前記文要素のうち何れかの前記文要素の終了タイミングから次の前記文要素の開始タイミングまでのインターバル区間との少なくとも何れか一方の区間毎に前記音読に対する評価点を算出する評価点算出ステップと、
    前記評価点算出ステップにより算出された前記区間毎の評価点に基づいて、前記音読に対する総合評価点を算出する総合評価点算出ステップと、
    前記音読された文を構成する各文要素を表すテキストの少なくとも一部を、それぞれの前記文要素区間の時間長に応じた長さの第1の表示領域に時間軸に沿って前記文要素区間毎に表示させる第1表示制御ステップと、
    前記文要素区間の時間長より短い所定時間間隔毎に前記音声波形データに基づいて特定された音高と音圧との少なくとも何れか一方の音要素の時系列的な変化を表すグラフを第2の表示領域に前記時間軸に沿って表示させる第2表示制御ステップと、
    前記総合評価点算出ステップにより算出された総合評価点を第3の表示領域に表示させる第3表示制御ステップと、
    前記第1の表示領域、前記第2の表示領域、及び複数の前記第1の表示領域間に前記時間軸に沿って位置するスペース領域のうち、何れか一の領域がユーザ操作により指定された場合、指定された前記何れか一の領域に対応する前記区間において算出された前記評価点を表示する第1のウインドウをポップアップ表示させる第4表示制御ステップと、
    を含むことを特徴とする表示制御方法。
  8. 話者が文を音読したときに発した音声の波形を示す音声波形データに基づいて、前記音読された文を構成する各文要素の開始タイミングから終了タイミングまでの文要素区間と、複数の前記文要素のうち何れかの前記文要素の終了タイミングから次の前記文要素の開始タイミングまでのインターバル区間との少なくとも何れか一方の区間毎に前記音読に対する評価点を算出する評価点算出ステップと、
    前記評価点算出ステップにより算出された前記区間毎の評価点に基づいて、前記音読に対する総合評価点を算出する総合評価点算出ステップと、
    前記音読された文を構成する各文要素を表すテキストの少なくとも一部を、それぞれの前記文要素区間の時間長に応じた長さの第1の表示領域に時間軸に沿って前記文要素区間毎に表示させる第1表示制御ステップと、
    前記文要素区間の時間長より短い所定時間間隔毎に前記音声波形データに基づいて特定された音高と音圧との少なくとも何れか一方の音要素の時系列的な変化を表すグラフを第2の表示領域に前記時間軸に沿って表示させる第2表示制御ステップと、
    前記総合評価点算出ステップにより算出された総合評価点を第3の表示領域に表示させる第3表示制御ステップと、
    前記第1の表示領域、前記第2の表示領域、及び複数の前記第1の表示領域間に前記時間軸に沿って位置するスペース領域のうち、何れか一の領域がユーザ操作により指定された場合、指定された前記何れか一の領域に対応する前記区間において算出された前記評価点を表示する第1のウインドウをポップアップ表示させる第4表示制御ステップと、
    をコンピュータに実行させることを特徴とするプログラム。
JP2016002550A 2016-01-08 2016-01-08 音読評価装置、表示制御方法、及びプログラム Active JP6531654B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016002550A JP6531654B2 (ja) 2016-01-08 2016-01-08 音読評価装置、表示制御方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016002550A JP6531654B2 (ja) 2016-01-08 2016-01-08 音読評価装置、表示制御方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2017122880A true JP2017122880A (ja) 2017-07-13
JP6531654B2 JP6531654B2 (ja) 2019-06-19

Family

ID=59306548

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016002550A Active JP6531654B2 (ja) 2016-01-08 2016-01-08 音読評価装置、表示制御方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6531654B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111369980A (zh) * 2020-02-27 2020-07-03 网易有道信息技术(北京)有限公司江苏分公司 语音检测方法、装置、电子设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11143346A (ja) * 1997-11-05 1999-05-28 Seiko Epson Corp 語学練習用発話評価方法およびその装置並びに発話評価処理プログラムを記憶した記憶媒体
JP2001242978A (ja) * 2000-03-02 2001-09-07 Yokogawa Electric Corp グラフ上のデータの属性を表示する方法および装置
JP2003058236A (ja) * 2001-08-09 2003-02-28 Mitsubishi Electric Corp プラント監視制御装置
JP2003067099A (ja) * 2001-08-28 2003-03-07 Sony Corp 情報処理装置および情報処理方法、記録媒体、並びにプログラム
JP2007147783A (ja) * 2005-11-24 2007-06-14 Yamaha Corp 語学学習装置
US20080010068A1 (en) * 2006-07-10 2008-01-10 Yukifusa Seita Method and apparatus for language training
JP2011192173A (ja) * 2010-03-16 2011-09-29 Ntt Docomo Inc 情報処理装置およびタッチパネル操作方法
US20150071517A1 (en) * 2013-09-09 2015-03-12 Samsung Electronics Co., Ltd. Method and apparatus for providing information about pulse sequence for magnetic resonance imaging
JP5756555B1 (ja) * 2014-11-07 2015-07-29 パナソニック株式会社 発話評価装置、発話評価方法及びプログラム

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11143346A (ja) * 1997-11-05 1999-05-28 Seiko Epson Corp 語学練習用発話評価方法およびその装置並びに発話評価処理プログラムを記憶した記憶媒体
JP2001242978A (ja) * 2000-03-02 2001-09-07 Yokogawa Electric Corp グラフ上のデータの属性を表示する方法および装置
JP2003058236A (ja) * 2001-08-09 2003-02-28 Mitsubishi Electric Corp プラント監視制御装置
JP2003067099A (ja) * 2001-08-28 2003-03-07 Sony Corp 情報処理装置および情報処理方法、記録媒体、並びにプログラム
JP2007147783A (ja) * 2005-11-24 2007-06-14 Yamaha Corp 語学学習装置
US20080010068A1 (en) * 2006-07-10 2008-01-10 Yukifusa Seita Method and apparatus for language training
JP2011192173A (ja) * 2010-03-16 2011-09-29 Ntt Docomo Inc 情報処理装置およびタッチパネル操作方法
US20150071517A1 (en) * 2013-09-09 2015-03-12 Samsung Electronics Co., Ltd. Method and apparatus for providing information about pulse sequence for magnetic resonance imaging
JP5756555B1 (ja) * 2014-11-07 2015-07-29 パナソニック株式会社 発話評価装置、発話評価方法及びプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111369980A (zh) * 2020-02-27 2020-07-03 网易有道信息技术(北京)有限公司江苏分公司 语音检测方法、装置、电子设备及存储介质
CN111369980B (zh) * 2020-02-27 2023-06-02 网易有道信息技术(江苏)有限公司 语音检测方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
JP6531654B2 (ja) 2019-06-19

Similar Documents

Publication Publication Date Title
US6397185B1 (en) Language independent suprasegmental pronunciation tutoring system and methods
US7890330B2 (en) Voice recording tool for creating database used in text to speech synthesis system
US8027837B2 (en) Using non-speech sounds during text-to-speech synthesis
JP6024180B2 (ja) 音声認識装置、音声認識方法、及びプログラム
JP2007206317A (ja) オーサリング方法、オーサリング装置およびプログラム
JPH0651930A (ja) 計算機
EP2779159A1 (en) Voice synthesis device, voice synthesis method, and recording medium having a voice synthesis program stored thereon
CN111653265B (zh) 语音合成方法、装置、存储介质和电子设备
JP2002116796A (ja) 音声処理装置、音声処理方法及び記憶媒体
KR20150144031A (ko) 음성 인식을 이용하는 사용자 인터페이스 제공 방법 및 사용자 인터페이스 제공 장치
Cheng et al. Articulatory limit and extreme segmental reduction in Taiwan Mandarin
JP5105943B2 (ja) 発話評価装置及び発話評価プログラム
JP4587854B2 (ja) 感情解析装置、感情解析プログラム、プログラム格納媒体
JP2015014665A (ja) 音声認識装置及び方法、並びに、半導体集積回路装置
JP4354299B2 (ja) 事例検索プログラム、事例検索方法及び事例検索装置
CN111199724A (zh) 一种信息处理方法、设备及计算机可读存储介质
Szekrényes Annotation and interpretation of prosodic data in the hucomtech corpus for multimodal user interfaces
JP2016157097A (ja) 音読評価装置、音読評価方法、及びプログラム
JP5152588B2 (ja) 声質変化判定装置、声質変化判定方法、声質変化判定プログラム
JP6314884B2 (ja) 音読評価装置、音読評価方法、及びプログラム
US20190088258A1 (en) Voice recognition device, voice recognition method, and computer program product
JP6531654B2 (ja) 音読評価装置、表示制御方法、及びプログラム
US20140074468A1 (en) System and Method for Automatic Prediction of Speech Suitability for Statistical Modeling
JP4744338B2 (ja) 合成音声生成装置
JP6418179B2 (ja) 音読練習装置、表示制御方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170901

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180711

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180801

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180926

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181204

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190115

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190423

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190506

R150 Certificate of patent or registration of utility model

Ref document number: 6531654

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150