JP2017015823A - 発話練習装置、表示制御方法、及びプログラム - Google Patents
発話練習装置、表示制御方法、及びプログラム Download PDFInfo
- Publication number
- JP2017015823A JP2017015823A JP2015130009A JP2015130009A JP2017015823A JP 2017015823 A JP2017015823 A JP 2017015823A JP 2015130009 A JP2015130009 A JP 2015130009A JP 2015130009 A JP2015130009 A JP 2015130009A JP 2017015823 A JP2017015823 A JP 2017015823A
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- sentence element
- display
- element section
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Electrically Operated Instructional Devices (AREA)
Abstract
【課題】表示画面上のどの部分を基準として音声の各音要素を比較して良いかを練習者等に分り易く把握させることが可能な発話練習装置、表示制御方法、及びプログラムを提供する。
【解決手段】発話練習装置は、手本グラフが表示される上側表示領域と話者グラフが表示される下側表示領域の境界部分において、手本文要素区間の時間長に応じた長さの手本表示バーと、話者文要素区間の時間長に応じた長さの話者表示バーとを上下方向に並べて表示させる。
【選択図】図2
【解決手段】発話練習装置は、手本グラフが表示される上側表示領域と話者グラフが表示される下側表示領域の境界部分において、手本文要素区間の時間長に応じた長さの手本表示バーと、話者文要素区間の時間長に応じた長さの話者表示バーとを上下方向に並べて表示させる。
【選択図】図2
Description
本発明は、話者が文字列を音読したときに発した音声を視覚的に表現することが可能なシステム等の技術分野に関する。
近年、語学学習、発声発話訓練等の支援を目的として、話者が文字列を音読したときに発した音声を視覚的に表現する技術が知られている。例えば、特許文献1には、基準音声に対応し且つ発声のタイミング、発声長、音程及び促音を表す図形を表示し、発声部分を図形の色を変更することにより表示するシステムが開示されている。
一方、特許文献2には、練習者が歌唱の練習を行う際の操作性を向上させることを目的とする歌唱指導装置が開示されている。この歌唱指導装置では、お手本音声のピッチの時間的な変化を示すグラフA1や練習者音声のピッチの時間的な変化を示すグラフA2を表示し、さらに、お手本音声と練習者音声との音量やリズムの違いを比較するために、お手本音声に対応する歌詞W1にあわせて、練習者音声に対応する歌詞W2を表示することもできる(特許文献2の図5参照)。
ところで、例えば発声のスピードやタイミングの比較評価に関して、歌唱練習では楽曲のタイミングに歌が合っているかどうかを判定するのに対して、語学やアナウンス練習等では必ずしも模範となるお手本の音声と同じタイミングで発声する必要はなく、そのままのタイミングで比較しなくてもよい。その場合、音高(ピッチ)や音圧、各フレーズのタイミングの比較のためには、お手本の音声と練習者の音声の各音要素を、例えば上下に且つフレーズ順に並べて表示することが考えられる。しかしながら、このように表示しただけでは、例えば練習者が表示画面上のどの部分を基準として(換言すると、注視して)、音声の各音要素を比較して良いか分り難く、このため、お手本と練習者の音高や音圧と合せて、各フレーズのタイミングや間の取り方を一見して比較することは容易ではなかった。
本発明は、以上の点に鑑みてなされたものであり、表示画面上のどの部分を基準として音声の各音要素を比較して良いかを練習者等に分り易く把握させることが可能な発話練習装置、表示制御方法、及びプログラムを提供する。
上記課題を解決するために、請求項1に記載の発明は、第1表示領域と第2表示領域とが時間軸と直交する一方向に並んで配置される表示画面を表示させる発話練習装置であって、文を音読するときの手本となる音声の波形を示す第1音声波形データに基づいて特定された第1文要素区間であって、前記文を構成する文要素の開始タイミングから終了タイミングまでの第1文要素区間を示す第1文要素区間データを文要素毎に記憶する第1記憶手段と、話者が前記文を音読したときに発した音声の波形を示す第2音声波形データに基づいて特定された第2文要素区間であって、前記文要素の開始タイミングから終了タイミングまでの第2文要素区間を示す第2文要素区間データを文要素毎に記憶する第2記憶手段と、前記第1音声波形データに基づいて、前記第1文要素区間データが示す第1文要素区間の時間長より短い所定時間間隔毎に特定された第1音高と第1音圧との少なくとも何れか一方の音要素を示す第1音要素データを記憶する第3記憶手段と、前記第2音声波形データに基づいて、前記第2文要素区間データが示す第2文要素区間の時間長より短い所定時間間隔毎に特定された第2音高と第2音圧との少なくとも何れか一方の音要素を示す第2音要素データを記憶する第4記憶手段と、前記第1音要素データが示す第1音高と第1音圧との少なくとも何れか一方の音要素の時系列的な変化を表す第1グラフを前記時間軸に沿って前記第1表示領域に表示させる第1表示制御手段と、前記第1グラフにより表される音要素と同じ種類の音要素であって、前記第2音要素データが示す第2音高と第2音圧との少なくとも何れか一方の音要素の時系列的な変化を表す第2グラフを前記時間軸に沿って前記第2表示領域に表示させる第2表示制御手段と、前記第1文要素区間データが示す第1文要素区間の時間長に応じた長さの第1表示バーと前記文要素を表すテキストとを前記第1文要素区間毎に前記時間軸に沿って表示させ、且つ、前記第2文要素区間データが示す第2文要素区間の時間長に応じた長さの第2表示バーと前記文要素を表すテキストとを前記第2文要素区間毎に前記時間軸に沿って表示させる第3表示制御手段であって、前記第1表示バーと前記第2表示バーとを前記第1表示領域と前記第2表示領域の境界部分において前記一方向に並べて表示させる第3表示制御手段と、を備えることを特徴とする。
請求項2に記載の発明は、請求項1に記載の発話練習装置において、前記第3表示制御手段は、前記第1文要素区間毎に表示される前記第1表示バー上に前記文要素を表すテキストを表示させ、且つ、前記第2文要素区間毎に表示される前記第2表示バー上に前記文要素を表すテキストを表示させることを特徴とする。
請求項3に記載の発明は、請求項2に記載の発話練習装置において、前記第3表示制御手段は、前記表示バー上に前記文要素を表すテキストが前記時間軸に沿って1行で収まるように表示可能か否かを判定し、1行で収まらない場合には、前記文要素を表すテキストを複数行で前記表示バー上に表示させることを特徴とする。
請求項4に記載の発明は、請求項1乃至3の何れか一項に記載の発話練習装置において、ユーザからの文要素切換指示に応じて、複数の文要素の中の何れか1つの文要素に対応する前記第1文要素区間の開始位置と前記第2文要素区間の開始位置とが前記時間軸と並行する方向で一致するように前記第1表示領域における表示内容全体または前記第2表示領域における表示内容全体を前記時間軸と並行する方向にシフトさせる第4表示制御手段を更に備えることを特徴とする。
請求項5に記載の発明は、請求項1乃至4の何れか一項に記載の発話練習装置において、前記話者による前記文の音読中に前記第2音声波形データを入力する入力手段と、前記話者による音読タイミングを表す線であって前記第1表示領域と前記第2表示領域とを通り前記一方向に延びる線を表示させ、前記入力手段からの前記第2音声波形データの入力に応じて、前記第1表示領域における表示内容全体と前記第2表示領域における表示内容全体とを前記時間軸と並行する方向に別々にスクロールさせる第5表示制御手段と、を更に備えることを特徴とする。
請求項6に記載の発明は、請求項1乃至5の何れか一項に記載の発話練習装置において、前記第1音圧及び前記第2音圧それぞれの時系列的な変化を表すグラフは棒グラフであることを特徴とする。
請求項7に記載の発明は、請求項6に記載の発話練習装置において、前記第1表示制御手段及び第2表示制御手段は、前記棒グラフにおいて音圧レベルが高い部分の色より音圧レベルが低い部分の色を薄く表示させることを特徴とする。
請求項8に記載の発明は、請求項1乃至7の何れか一項に記載の発話練習装置において、前記文要素は、フレーズであることを特徴とする。
請求項9に記載の発明は、第1表示領域と第2表示領域とが時間軸と直交する一方向に並んで配置される表示画面を表示させる発話練習装置に含まれるコンピュータにより実行される表示制御方法であって、文を音読するときの手本となる音声の波形を示す第1音声波形データに基づいて特定された第1文要素区間であって、前記文を構成する文要素の開始タイミングから終了タイミングまでの第1文要素区間を示す第1文要素区間データを文要素毎に記憶する第1記憶ステップと、話者が前記文を音読したときに発した音声の波形を示す第2音声波形データに基づいて特定された第2文要素区間であって、前記文要素の開始タイミングから終了タイミングまでの第2文要素区間を示す第2文要素区間データを文要素毎に記憶する第2記憶ステップと、前記第1音声波形データに基づいて、前記第1文要素区間データが示す第1文要素区間の時間長より短い所定時間間隔毎に第1音高と第1音圧との少なくとも何れか一方の音要素を示す第1音要素データを記憶する第3記憶ステップと、前記第2音声波形データに基づいて、前記第2文要素区間データが示す第2文要素区間の時間長より短い所定時間間隔毎に第2音高と第2音圧との少なくとも何れか一方の音要素を示す第2音要素データを記憶する第4記憶ステップと、前記第1音要素データが示す第1音高と第1音圧との少なくとも何れか一方の音要素の時系列的な変化を表す第1グラフを前記時間軸に沿って前記第1表示領域に表示させる第1表示制御ステップと、前記第1グラフにより表される音要素と同じ種類の音要素であって、前記第2音要素データが示す第2音高と第2音圧との少なくとも何れか一方の音要素の時系列的な変化を表す第2グラフを前記時間軸に沿って前記第2表示領域に表示させる第2表示制御ステップと、前記第1文要素区間データが示す第1文要素区間の時間長に応じた長さの第1表示バーと前記文要素を表すテキストとを前記第1文要素区間毎に前記時間軸に沿って表示させ、且つ、前記第2文要素区間データが示す第2文要素区間の時間長に応じた長さの第2表示バーと前記文要素を表すテキストとを前記第2文要素区間毎に前記時間軸に沿って表示させる第3表示制御ステップであって、前記第1表示バーと前記第2表示バーとを前記第1表示領域と前記第2表示領域の境界部分において前記一方向に並べて表示させる第3表示制御ステップと、を含むことを特徴とする。
請求項10に記載の発明は、第1表示領域と第2表示領域とが時間軸と直交する一方向に並んで配置される表示画面を表示させる発話練習装置に含まれるコンピュータに、文を音読するときの手本となる音声の波形を示す第1音声波形データに基づいて特定された第1文要素区間であって、前記文を構成する文要素の開始タイミングから終了タイミングまでの第1文要素区間を示す第1文要素区間データを文要素毎に記憶する第1記憶ステップと、話者が前記文を音読したときに発した音声の波形を示す第2音声波形データに基づいて特定された第2文要素区間であって、前記文要素の開始タイミングから終了タイミングまでの第2文要素区間を示す第2文要素区間データを文要素毎に記憶する第2記憶ステップと、前記第1音声波形データに基づいて、前記第1文要素区間データが示す第1文要素区間の時間長より短い所定時間間隔毎に第1音高と第1音圧との少なくとも何れか一方の音要素を示す第1音要素データを記憶する第3記憶ステップと、前記第2音声波形データに基づいて、前記第2文要素区間データが示す第2文要素区間の時間長より短い所定時間間隔毎に第2音高と第2音圧との少なくとも何れか一方の音要素を示す第2音要素データを記憶する第4記憶ステップと、前記第1音要素データが示す第1音高と第1音圧との少なくとも何れか一方の音要素の時系列的な変化を表す第1グラフを前記時間軸に沿って前記第1表示領域に表示させる第1表示制御ステップと、前記第1グラフにより表される音要素と同じ種類の音要素であって、前記第2音要素データが示す第2音高と第2音圧との少なくとも何れか一方の音要素の時系列的な変化を表すグラフを前記時間軸に沿って前記第2表示領域に表示させる第2表示制御ステップと、前記第1文要素区間データが示す第1文要素区間の時間長に応じた長さの第1表示バーと前記文要素を表すテキストとを前記第1文要素区間毎に前記時間軸に沿って表示させ、且つ、前記第2文要素区間データが示す第2文要素区間の時間長に応じた長さの第2表示バーと前記文要素を表すテキストとを前記第2文要素区間毎に前記時間軸に沿って表示させる第3表示制御ステップであって、前記第1表示バーと前記第2表示バーとを前記第1表示領域と前記第2表示領域の境界部分において前記一方向に並べて表示させる第3表示制御ステップと、を実行させることを特徴とする。
請求項1,6〜10に記載の発明によれば、表示画面上のどの部分を基準として音声の各音要素を比較して良いかを練習者等に分り易く把握させることができる。
請求項2に記載の発明によれば、第1表示バーと第2表示バーが、どの文要素に対応するかを、話者等に、一見して把握させることができる。
請求項3に記載の発明によれば、表示バー上にテキストが収まらない場合であっても、各文要素の内容を話者等に把握させることができる。
請求項4に記載の発明によれば、話者の音読タイミングと手本の音読タイミングとが全体的にずれている場合であっても、複数の文要素のうちで話者等が注目している文要素における手本の音要素と話者の音要素との違いを、話者等に、より分り易く把握させることができる。
請求項5に記載の発明によれば、手本の音読スピードと話者の音読スピードとの違いを、話者等に、より分かり易く把握させることができる。
以下、本発明の実施形態を図面に基づいて説明する。
[1. 発話練習装置Sの構成及び機能]
初めに、図1を参照して、本発明の一実施形態に係る発話練習装置Sの構成及び機能について説明する。図1は、本実施形態に係る発話練習装置Sの概要構成例を示す図である。なお、発話練習装置の一例として、パーソナルコンピュータや、携帯型情報端末(スマートフォン等)などが挙げられる。図1に示すように、発話練習装置Sは、通信部1、記憶部2、制御部3、操作部4、及びインターフェース(IF)部5等を備えて構成され、これらの構成要素はバス6に接続されている。操作部4は、ユーザからの操作指示を受け付け、受け付けた操作に応じた信号を制御部3へ出力する。インターフェース部5には、マイクM、及びディスプレイD等が接続される。マイクMは、語学学習や、アナウンス、朗読などの発話練習等を行う練習者である話者が、複数の文要素を含む文(文章)を音読したときに発した音声を集音する。文要素は、文を構成する単位である。文要素の例として、フレーズ、文節、単語の他、後述するように複数のフレーズが結合した結合フレーズ等が挙げられる。ここで、フレーズは、一般に文章を読むときに一息で読む単位である。フレーズは、1以上の文節から構成される。つまり、1つのフレーズが1つの文節から構成される場合もあるし、1つのフレーズが複数の文節から構成される場合もある。文節は、例えば、1つ以上の単語のまとまりである。単語には、名詞、動詞、形容詞、副詞、及び接続詞等の自立語(単独で文節を構成できる品詞)や、助動詞及び助詞等の付属語(単独で文節を構成できない品詞)などがある。音読対象となる文の例として、語学学習や、アナウンス、朗読などで用いられる文章などが挙げられる。
初めに、図1を参照して、本発明の一実施形態に係る発話練習装置Sの構成及び機能について説明する。図1は、本実施形態に係る発話練習装置Sの概要構成例を示す図である。なお、発話練習装置の一例として、パーソナルコンピュータや、携帯型情報端末(スマートフォン等)などが挙げられる。図1に示すように、発話練習装置Sは、通信部1、記憶部2、制御部3、操作部4、及びインターフェース(IF)部5等を備えて構成され、これらの構成要素はバス6に接続されている。操作部4は、ユーザからの操作指示を受け付け、受け付けた操作に応じた信号を制御部3へ出力する。インターフェース部5には、マイクM、及びディスプレイD等が接続される。マイクMは、語学学習や、アナウンス、朗読などの発話練習等を行う練習者である話者が、複数の文要素を含む文(文章)を音読したときに発した音声を集音する。文要素は、文を構成する単位である。文要素の例として、フレーズ、文節、単語の他、後述するように複数のフレーズが結合した結合フレーズ等が挙げられる。ここで、フレーズは、一般に文章を読むときに一息で読む単位である。フレーズは、1以上の文節から構成される。つまり、1つのフレーズが1つの文節から構成される場合もあるし、1つのフレーズが複数の文節から構成される場合もある。文節は、例えば、1つ以上の単語のまとまりである。単語には、名詞、動詞、形容詞、副詞、及び接続詞等の自立語(単独で文節を構成できる品詞)や、助動詞及び助詞等の付属語(単独で文節を構成できない品詞)などがある。音読対象となる文の例として、語学学習や、アナウンス、朗読などで用いられる文章などが挙げられる。
ディスプレイDは、制御部3からの表示指令にしたがって、第1表示領域と第2表示領域とが時間軸と直交する一方向に並んで配置される表示画面を表示する。ここで、第1表示領域は、文を音読するときの手本(模範)となる音声の各音要素の情報が表示される領域である。一方、第2表示領域は、話者が文を音読したときに発した音声の各音要素の情報が表示される領域である。音要素の例として、音高(ピッチまたは抑揚ともいう)、音圧、音読スピード、間合いなどが挙げられる。時間軸を例えば横軸(X軸)とすることで、第1表示領域と第2表示領域とが時間軸と直交する上下方向(縦方向)に並んで配置されるように構成するとよい。以下の説明では、第1表示領域を上側に、第2表示領域を下側にそれぞれ配置した場合を例にとり、第1表示領域を上側表示領域といい、第2表示領域を下側表示領域というものとする。なお、第1表示領域を下側に、第2表示領域を上側にそれぞれ配置しても構わない。また、マイクM、及びディスプレイDは、発話練習装置Sと一体型であってもよいし、別体であってもよい。
通信部1は、有線または無線によりネットワーク(図示せず)に接続してサーバ等と通信を行う。記憶部2は、例えばハードディスクドライブ等からなり、OS(オペレーティングシステム)、及び音要素表示処理プログラム(本発明のプログラムの一例)等を記憶する。音要素表示処理プログラムは、コンピュータとしての制御部3に、後述する音要素表示処理を実行させるプログラムである。音要素表示処理プログラムは、アプリケーションとして、所定のサーバからダウンロードされてもよいし、CD、DVD等の記録媒体に記憶されて提供されてもよい。また、記憶部2は、複数の文要素を含む文のテキストデータと、この文を音読するときの手本となる音声の波形を示す手本音声波形データ(第1音声波形データの一例)を記憶する。ここで、テキストデータには、例えば、音読対象となる文を構成する各文要素を表すテキスト(文字)が文要素毎に区切られて規定されている。例えば、文要素間に挿入される句読点により区切られる。或いは、文要素を表すテキストには、先頭から順番にシリアル番号が付与されていてもよい。なお、手本音声波形データは、所定の音声ファイル形式で記憶される。
制御部3は、コンピュータとしてのCPU(Central Processing Unit)、ROM(Read Only Memory)、及びRAM(Random Access Memory)等により構成される。制御部3は、音要素表示処理プログラムにより、音声処理部31、音読評価部32、及び表示処理部33として機能する。音声処理部31は、本発明における入力手段の一例である。表示処理部33は、本発明における第1表示制御手段、第2表示制御手段、第3表示制御手段、第4表示制御手段、及び第5表示制御手段の一例である。記憶部2または制御部3におけるRAMは、本発明における第1記憶手段〜第4記憶手段の一例である。
音声処理部31は、所定の音声ファイル形式で記憶された手本音声波形データを処理対象として記憶部2から入力する。入力された手本音声波形データはRAMに記憶される。また、音声処理部31は、話者が上記文を音読したときに発した音声であってマイクMにより集音された音声の波形を示す話者音声波形データ(第2音声波形データの一例)を入力する。入力された話者音声波形データはRAMに記憶される。なお、音声波形データは、離散化された時系列の音圧波形データであり、例えば、サンプリングレート44.1kHz、量子化16bit、及びモノラルの波形データである。音圧とは、音波による空気の圧力の変化分(Pa)をいう。本実施形態では、音圧として、瞬時音圧(Pa)の二乗平均平方根(RMS)である実効音圧(Pa)の大きさを計算上扱い易い数値で表した音圧レベル(dB)を適用する。音圧レベル(dB)は、広義には音量ともいう。
音声処理部31は、手本音声波形データに基づいて、各文要素の開始タイミングから終了タイミングまでの手本文要素区間(第1文要素区間の一例)を文要素毎に特定する。そして、音声処理部31は、文要素毎に特定した手本文要素を示す手本文要素区間データ(第1文要素区間データの一例)をRAMに記憶する。なお、特定された手本文要素区間には、例えば先頭から順番にシリアル番号が付与される。また、文要素は、例えば波形の開始時点からの時間の範囲(例えば、01:00-03:00)で表される。同様に、音声処理部31は、話者音声波形データに基づいて、各文要素の開始タイミングから終了タイミングまでの話者文要素区間(第2文要素区間の一例)を文要素毎に特定する。そして、音声処理部31は、文要素毎に特定した話者文要素区間を示す話者文要素区間データ(第2文要素区間データの一例)をRAMに記憶する。なお、特定された話者文要素区間には、例えば先頭から順番にシリアル番号が付与される。
ここで、開始タイミングと終了タイミングは、それぞれ、音声の波形から認識されてもよいし、上述したように算出された音圧レベル(dB)から認識されてもよい。例えば、音声処理部31は、音声の波形の振幅が所定値以上になった時点を開始タイミングとして認識する。或いは、音声処理部31は、音圧レベル(dB)が所定値以上になった時点を開始タイミングとして認識する。また、例えば、音声処理部31は、音声の波形の振幅幅が所定値未満になった時点を終了タイミングとして認識する。或いは、音声処理部31は、音圧レベル(dB)が所定値未満になった時点を終了タイミングとして認識する。なお、例えば、音圧レベル(dB)が所定値未満になった時点から、音圧レベル(dB)が所定値以上になった時点までの時間(無音時間)が閾値以上である場合に限り、音圧レベル(dB)が所定値未満になった時点が終了タイミングとして認識され、且つ音圧レベル(dB)が所定値以上になった時点が開始タイミングとして認識されるとよい(音声の波形の振幅についても同様)。これは、無音時間が閾値より短い場合、その区間で文要素を区切らない趣旨である。ところで、「車内では(間合い)携帯電話は(間合い)マナーモードに設定の上(間合い)通話はご遠慮下さい」と区切り区切りゆっくり音読するお手本の音声波形データがあるとすると、上記の方法で開始タイミングと終了タイミングとを認識することにより、「車内では」、「携帯電話は」、「マナーモードに設定の上」、「通話はご遠慮下さい」というように、4つのフレーズ毎に対応する手本文要素区間に区切られて特定される。また、話者が、同じ文を、手本と同じ間合いで区切り区切り音読した場合に、上記の方法で開始タイミングと終了タイミングとを認識することで、「車内では」、「携帯電話は」、「マナーモードに設定の上」、「通話はご遠慮下さい」というように、4つのフレーズ毎に対応する話者文要素区間に区切られて特定される。これに対し、話者が、例えば、上記文のうち、「マナーモードに設定の上」と「通話はご遠慮下さい」の部分を、一息で「マナーモードに設定の上通話はご遠慮下さい」と素早く音読した場合、この部分が一息で読むフレーズとなり、上記の方法で開始タイミングと終了タイミングとを認識すると、上記部分は特に区切られずに話者文要素区間が特定されることになる。このように、手本により音読される複数のフレーズが、話者により音読される1つのフレーズに対応している場合、手本により音読されるフレーズに対応する手本文要素区間と、話者により音読されるフレーズの話者文要素区間とを比較し難くなる。このため、このような場合、音声処理部31は、話者により音読されるフレーズ(「マナーモードに設定の上通話はご遠慮下さい」)を、手本により音読されるフレーズに合わせるように複数の文節または単語に区分して話者文要素区間を特定するとよい。
より具体的には、音声処理部31は、例えば、記憶されている手本音声波形データが示す音声の波形から音圧の累積値(以下、「手本音圧累積値」という)を手本文要素区間毎にあらかじめ算出し、手本文要素区間毎に対応付けてRAM等に記憶しておく。手本音圧累積値は、例えば「車内では」→「携帯電話は」→「マナーモードに設定の上」→「通話はご遠慮下さい」というように音読されるフレーズ順に算出される。つまり、第1の手本音圧累積値、第2の手本音圧累積値・・・というように算出される。また、音声処理部31は、例えば、記憶されている手本音声波形データが示す音声の波形から音素(以下、「手本音素」という)の数を手本文要素区間毎にあらかじめ算出し、手本文要素区間毎に対応付けてRAM等に記憶しておく。音素の例として、母音のみ、子音のみ、子音と母音との組合せの3つが挙げられる。母音には、a(あ)、i(い)、u(う)、e(え)、o(お)の5母音がある。子音には、母音以外の音成分(例えば、k、s、t、n、h、m、y、r、w・・・など)がある。手本音素の数は、例えば「車内では」→「携帯電話は」→「マナーモードに設定の上」→「通話はご遠慮下さい」というように音読されるフレーズ順に算出される。つまり、第1の手本音素の数、第2の手本音素の数・・・・というように特定される。なお、音素の特定方法は、ラベリング手法等で公知であるので詳しい説明を省略する。
そして、音声処理部31は、話者が上記文を音読したときの音声の波形を示す話者音声波形データを入力し、入力された話者音声波形データが示す音声の波形から時系列で音圧を積算し、且つ時系列で音素の数を特定していく。この期間中、音声処理部31は、音圧の積算値がどれぐらいになったか、何個の音素が特定されたかなど複合的に判断して、区切タイミング(開始タイミングまたは終了タイミングに相当)を特定する。例えば、音声処理部31は、音圧の積算値と手本音圧累積値とを比較(第1の手本音圧累積値、第2の手本音圧累積値・・・という順に比較)し、その差が閾値以内になった第1のタイミングと、特定した音素の数と手本音素の数とを比較(第1の手本音素の数、第2の手本音素の数・・・という順に比較)しその差が閾値以内になった第2のタイミングから区切タイミングを順次特定する。例えば、第1のタイミング(例えば音声の波形の開始位置からの経過時間)と、第2のタイミングとの間の時間が区切タイミングとして特定される。そして、音声処理部31は、上述したように音圧レベル等により特定した話者文要素区間を区切タイミングでさらに区切ることで最終的な話者文要素区間を順次特定する。この場合、例えば、「マナーモードに設定の上通話はご遠慮下さい」の部分は、「マナーモードに設定の上」と「通話はご遠慮下さい」とに区切られることで、話者文要素区間が特定されることになる。つまり、上記区分タイミングは、例えば、「マナーモードに設定の上」に対応する話者文要素区間の終了タイミングとなり、且つ「通話はご遠慮下さい」に対応する話者文要素区間の開始タイミングとなる。これに伴い、「マナーモードに設定の上通話はご遠慮下さい」を表すテキストは、「マナーモードに設定の上」を表すテキストと、「通話はご遠慮下さい」を表すテキストとに分割されることになる。これにより、手本により音読されるフレーズに対応する手本文要素区間と、話者により音読される例えば文節(フレーズが複数に区切られた文節)に対応する話者文要素区間とが比較されることになる。
上記とは逆に、例えば、「車内では(間合い)携帯電話はマナーモードに設定の上通話はご遠慮下さい」というように、一部素早く音読するお手本の音声波形データがあるとすると、上記の方法で開始タイミングと終了タイミングとを認識することにより、「車内では」、「携帯電話はマナーモードに設定の上通話はご遠慮下さい」というように、2つのフレーズ毎に対応する手本文要素区間に区切られて特定される。これに対し、話者が、「車内では(間合い)携帯電話は(間合い)マナーモードに設定の上(間合い)通話はご遠慮下さい」と区切り区切りゆっくり音読した場合、上記の方法で開始タイミングと終了タイミングとを認識することで、「車内では」、「携帯電話は」、「マナーモードに設定の上」、「通話はご遠慮下さい」というように、4つのフレーズ毎に対応する話者文要素区間に区切られて特定されることになる。このように、手本により音読される1つのフレーズが、話者により音読される複数のフレーズに対応している場合も、手本により音読されるフレーズに対応する手本文要素区間と、話者により音読されるフレーズの話者文要素区間とを比較し難くなる。このため、このような場合、音声処理部31は、例えば、手本により音読されるフレーズに合わせるように、例えば「携帯電話は」と「マナーモードに設定の上」と「通話はご遠慮下さい」という3つのフレーズを含む結合フレーズに対応する話者文要素区間を特定するとよい。
この場合も、上記と同様、音声処理部31は、例えば、手本音圧累積値と手本音素の数とを手本文要素区間毎に記憶しておく。そして、音声処理部31は、話者が上記文を音読したときの音声の波形を示す話者音声波形データを入力し、入力された話者音声波形データが示す音声の波形から時系列で音圧を積算し、且つ時系列で音素の数を特定していく。音声処理部31は、例えば、音圧の積算値と手本音圧累積値とを比較し、その差が閾値以内になったタイミング(例えば、音圧の積算値が手本音圧累積値に到達したタイミング)と、特定した音素の数と手本音素の数とを比較しその差が閾値以内になったタイミング(例えば、特定した音素の数が手本音素の数に到達したタイミング)とから結合フレーズの終了タイミングを特定する。なお、結合フレーズの開始タイミングは、結合フレーズが含む先頭のフレーズの開始タイミングに相当する。そして、音声処理部31は、結合フレーズの開始タイミングから終了タイミングまでの区間を、最終的な手本文要素区間として特定する。この場合、例えば、「携帯電話は」と「マナーモードに設定の上」と「通話はご遠慮下さい」を含む3つのフレーズは、「携帯電話はマナーモードに設定の上通話はご遠慮下さい」という結合フレーズとして、その話者文要素区間が特定されることになる。これに伴い、「携帯電話は」を表すテキストと、「マナーモードに設定の上」を表すテキストと、「通話はご遠慮下さい」を表すテキストとは、「携帯電話はマナーモードに設定の上通話はご遠慮下さい」を表すテキストに結合されることになる。これにより、手本により音読されるフレーズに対応する手本文要素区間と、話者により音読される結合フレーズに対応する話者文要素区間とが比較されることになる。
なお、音声処理部31は、手本音声波形データに基づいて、複数の文要素のうち何れかの文要素の終了タイミングから次の文要素の開始タイミングまでの手本インターバル区間を特定してもよい。同様に、音声処理部31は、話者音声波形データに基づいて、複数の文要素のうち何れかの文要素の終了タイミングから次の文要素の開始タイミングまでの話者インターバル区間を特定してもよい。
また、音声処理部31は、手本音声波形データから所定時間毎に切り出したデータから音圧レベル(dB)を手本音圧(第1音圧の一例)として所定時間間隔毎に特定する。そして、音声処理部31は、所定時間間隔毎に特定した手本音圧を示す手本音圧データ(第1音要素データの一例)をRAMに記憶する。同様に、音声処理部31は、話者音声波形データから所定時間毎に切り出したデータから音圧レベル(dB)を話者音圧(第2音圧の一例)として所定時間間隔毎に特定する。そして、音声処理部31は、所定時間間隔毎に特定した話者音圧を示す話者音圧データ(第2音要素データの一例)をRAMに記憶する。また、音声処理部31は、手本音声波形データから所定時間毎に切り出したデータから基本周波数(Hz)を算出し、算出した基本周波数(Hz)を手本音高(第1音高の一例)として所定時間間隔毎に特定する。なお、音高の特定方法には、例えば、ゼロクロス法やベクトル自己相関等の公知の手法を適用できる。そして、音声処理部31は、所定時間間隔毎に特定した手本音高を示す手本音高データ(第1音要素データの一例)をRAMに記憶する。同様に、音声処理部31は、話者音声波形データから所定時間毎に切り出したデータから基本周波数(Hz)を算出し、算出した基本周波数(Hz)を話者音高(第2音高の一例)として所定時間間隔毎に特定する。そして、音声処理部31は、所定時間間隔毎に特定した話者音高を示す話者音高データ(第2音要素データの一例)をRAMに記憶する。なお、音圧特定及び音高特定するための上記所定時間は、文要素区間の時間長(時間的長さ)より短い時間であり、例えば10ms程度に設定される。
音読評価部32は、手本文要素区間データが示す手本文要素区間の時間長と、話者文要素区間データが示す話者文要素区間の時間長とを比較して文を音読するスピード(音読スピード)の評価を文要素(つまり、文要素区間)毎に行う。例えば、音読評価部32は、時間長の比較結果として、文要素毎に、手本文要素区間の時間長と話者文要素区間の時間長との時間差を算出し、この時間差の絶対値に基づいて評価点を算出することで音読スピードの評価を行う。例えば、時間差の絶対値が0に近いほど、評価が高く(つまり、評価点が高く)なるように算出される。このようにして文要素毎に音読スピードの評価がなされる。なお、音読評価部32は、手本インターバル区間の時間長と、話者インターバル区間の時間長とを比較して文を音読したときの間合いの評価を行ってもよい。この場合、音読評価部32は、例えば、時間長の比較結果として、手本インターバル区間の時間長と話者インターバル区間の時間長との時間差を算出し、この時間差の絶対値に基づいて評価点を算出することで間合いの評価を行う。
また、音読評価部32は、手本音圧データが示す手本音圧と、話者音圧データが示す話者音圧とを比較して、音圧の評価を文要素毎に行う。例えば、音読評価部32は、音圧の比較結果として、手本文要素区間の手本音圧と話者文要素区間の話者音圧との差を算出し、この差に基づいて評価点を算出することで音量の評価を行う。この評価点は、例えば、差が0に近いほど、評価が高く(つまり、評価点が高く)なるように算出される。また、音読評価部32は、手本音高データが示す手本音高と、話者音高データが示す話者音高とを比較して、音高の評価を文要素毎に行う。例えば、音読評価部32は、音高の比較結果として、手本文要素区間の手本音高と話者文要素区間の話者音高との差を算出し、この差に基づいて評価点を算出することで音高の評価を行う。この評価点は、例えば、差が0に近いほど、評価が高く(つまり、評価点が高く)なるように算出される。そして、音読評価部32は、例えば、1つの文要素区間における音読スピードの評価と、この文要素区間における音圧の評価と、この文要素区間における音高の評価とに基づいて、文要素区間毎に総合評価を行う。例えば、音読スピードの評価点と、音圧の評価点と、音高の評価点との合計値または平均値が総合評価点として文要素区間毎に算出される。
表示処理部33は、手本音高データが示す手本音高の時系列的な変化を表す手本グラフ(第1グラフの一例)と、手本音圧データが示す手本音圧の時系列的な変化を表す手本グラフ(第1グラフの一例)とを、時間軸に沿って上側表示領域に表示させる。また、表示処理部33は、話者音高データが示す話者音高の時系列的な変化を表す話者グラフ(第2グラフの一例)と、話者音圧データが示す話者音圧の時系列的な変化を表す話者グラフ(第2グラフの一例)とを、時間軸に沿って下側表示領域に表示させる。なお、手本音高の時系列的な変化を表す手本グラフと、手本音圧の時系列的な変化を表す手本グラフとの何れか一方の手本グラフが上側表示領域に表示されるように構成してもよい。この場合、表示処理部33は、手本グラフにより表される音要素(つまり、手本音高または手本音圧)と同じ種類の音要素(例えば、手本音高と同じ種類の音要素は話者音高)の時系列的な変化を表す話者グラフを、時間軸に沿って下側表示領域に表示させることになる。そして、表示処理部33は、手本文要素区間データが示す手本文要素区間の時間長に応じた長さの手本表示バー(第1表示バーの一例)と、この手本文要素区間の文要素を表すテキストとを手本文要素区間毎に時間軸に沿って表示させ、且つ、話者文要素区間データが示す話者文要素区間の時間長に応じた長さの話者表示バー(第2表示バーの一例)と話者文要素区間の文要素を表すテキストとを、話者文要素区間毎に時間軸に沿って表示させる。このとき、表示処理部33は、手本表示バーと話者表示バーとを上側表示領域と下側表示領域の境界部分において上下方向に並べて表示させる。これにより、表示画面上のどの部分を基準として音声の各音要素を比較して良いかを話者等に分り易く把握させることができる。すなわち、話者は、表示画面上の手本表示バーと話者表示バーとを基準として手本の音要素と話者の音要素とを比較することで、手本の音要素と話者の音要素との違いを、一見して把握することができる。
図2乃至図4は、話者による文の音読中にリアルタイムに表示された、音要素の時系列的な変化を表すグラフ及び表示バーの表示例1〜3を示す図である。なお、図2の例は、上述したように算出された音圧レベルに基づいて文要素区間が特定された場合において、手本により音読される1つのフレーズが、話者により音読される1つのフレーズに対応している場合の例である。図2に示す上側表示領域51には、手本音高の時系列的な変化を表す手本グラフ51a1〜51a4と、手本音圧の時系列的な変化を表す手本グラフ51b1〜51b4とが、時間軸tに沿って手本文要素区間毎に区別して表示されている。また、図2に示す下側表示領域52には、話者音高の時系列的な変化を表す話者グラフ52a1〜52a4と、話者音圧の時系列的な変化を表す話者グラフ52b1〜52b4とが、時間軸tに沿って話者文要素区間毎に区別して表示されている。手本グラフ51a1〜51a4と話者グラフ52a1〜52a4とは折線グラフであり、手本グラフ51b1〜51b4と話者グラフ52b1〜52b4とは棒グラフである。ここで、表示処理部33は、棒グラフにおいて音圧レベルが高い部分の色より音圧レベルが低い部分の色を薄く表示させるようにするとよい。図2の例では、音圧レベルの高い部分Hから、音圧レベルの低い部分Lになるにつれて色が徐々に薄くなるように表示されている。これにより、音圧レベルの大きさを、話者等に、より分かり易く把握させることができる。
さらに、図2の例では、手本表示バー51c1〜51c4と話者表示バー52c1〜52c4とが、それぞれに対応する文要素区間毎に、上側表示領域51と下側表示領域52の境界部分Bにおいて上下方向に並べられて表示されている。手本表示バー51c1の時間軸tと並行する方向の長さD1(言い換えれば、ピクセル数)は、手本表示バー51c1に対応する手本文要素区間の時間長に応じた長さに設定されている(他の手本表示バー51c2〜51c4についても同様)。つまり、手本文要素区間の時間長が長いほど、手本表示バー51c1の長さD1は距離的に長く設定される。同様に、話者表示バー52c1の時間軸tと並行する方向の長さD2は、話者表示バー52c1に対応する話者文要素区間の時間長に応じた長さに設定されている。なお、表示バーの開始タイミングと手本グラフの開始タイミングは必ずしも一致せず、図2に示すように、タイムラグδが発生する場合がある。この理由は、例えば音圧レベルは一定値以上でないと開始タイミングとして認識されないことや、計算上数値を丸めるときに出る誤差等によるものである。
また、表示処理部33は、図2に示すように、手本文要素区間毎に表示される手本表示バー51c1〜51c4上に上記文要素を表すテキストを表示させ、且つ、話者文要素区間毎に表示される話者表示バー52c1〜52c4上に上記文要素を表すテキストを表示させるようにするとよい。これにより、手本表示バーと話者表示バーが、どの文要素に対応するかを、話者等に、一見して把握させることができる。例えば、表示処理部33は、手本表示バー51c1〜51c4に対応する手本文要素区間に対応するテキストを、上記処理対象の手本音声波形データに対応付けられているテキストデータから抽出する。ここで、手本文要素区間に対応するテキストとは、手本文要素区間に付与されたシリアル番号と一致する順番(例えば文要素の先頭からの順番)のテキストを意味する。そして、表示処理部33は、抽出したテキストを手本表示バー51c1〜51c4の輪郭内に表示(例えば、白抜き表示)させる。同様に、表示処理部33は、話者表示バー52c1〜52c4に対応する話者文要素区間に対応するテキストを、上記処理対象の話者音声波形データに対応付けられているテキストデータから抽出する。そして、表示処理部33は、抽出したテキストを話者表示バー52c1〜52c4の輪郭内に表示(例えば、白抜き表示)させる。なお、表示されるテキストには、図2に示すように、句読点が含まれる。ここで、例えば話者表示バー52c1〜52c4上にテキストが収まらない場合、テキストが話者表示バー52c1〜52c4の領域からはみ出す部分の文字は表示されないか、或いは、テキストが話者表示バー52c1〜52c4の領域からはみ出して表示されることになる。このため、表示処理部33は、手本表示バー51c1〜51c4と話者表示バー52c1〜52c4との少なくとも何れか一方の表示バー上に上記文要素を表すテキストが時間軸tに沿って1行で収まるように表示可能か否かを判定し、1行で収まらない場合には、上記文要素を表すテキストを複数行で表示バー上に表示させるようにするとよい。これにより、表示バー上にテキストが収まらない場合であっても、各文要素の内容を話者等に把握させることができる。なお、制御部3は、話者による音読中に入力された話者音声波形データから、公知の音声認識技術によりワードを抽出することで、表示バー上に表示させるべきテキストを取得してもよい。
また、図2の例では、音読評価部32により算出された総合評価点に応じた絵柄(評価結果)が、各文要素区間の話者表示バー52c1〜52c4上の右端部に表示されている。ここで、晴れを示す絵柄は、その文要素区間の総合評価点が例えば70〜100点であることを示す。曇りを示す絵柄は、その文要素区間の総合評価点が例えば50〜69点であることを示す。雨を示す絵柄は、その文要素区間の総合評価点が例えば49〜0点であることを示す。なお、上側表示領域51に表示される手本グラフ及び手本表示バーの色を例えば青系統とし、下側表示領域52に表示される話者グラフ及び話者表示バーの色を例えばオレンジ系統とするように、上側表示領域51と下側表示領域52とで色分け表示させるように構成するとよい。これにより、手本の音要素と話者の音要素との違いを、話者等に、より分かり易く把握させることができる。
また、図2の例では、表示処理部33は、話者による文の音読中に、上側表示領域51と下側表示領域52とを通り上下方向に延びる線Tを固定表示させている。この線Tは、話者による音読タイミングを表す線である。下側表示領域52において線Tの左側には、話者による文の音読中に入力された話者音声波形データに基づいて特定された話者音圧と話者音高それぞれの変化を表す話者グラフが表示される。つまり、表示処理部33は、話者音声波形データの入力に応じて、下側表示領域52における表示内容全体を左方向(時間軸tと並行する方向)にスクロールさせる。このときのスクロールの速度は、話者の音読スピードに応じた速度となる。また、表示処理部33は、手本音声波形データの入力に応じて、上側表示領域51における表示内容全体を左方向にスクロールさせる。このときのスクロールの速度は、手本の音読スピードに応じた速度となる。このため、話者の音読スピードと、手本の音読スピードとが異なる場合、表示処理部33は、上側表示領域51における表示内容全体と下側表示領域52における表示内容全体とを左方向に別々にスクロールさせることになる。これにより、手本の音読スピードと話者の音読スピードとの違いを、話者等に、より分かり易く把握させることができる。
一方、図3の例は、上述したように算出された音圧レベルに基づいて文要素区間が特定された場合において、手本により音読される複数のフレーズ(「マナーモードに設定の上」と「通話はご遠慮下さい」)が、話者により音読される1つのフレーズ(「マナーモードに設定の上通話はご遠慮下さい」)に対応している場合の例である。この場合、上述したように、音声処理部31は、話者により音読される1つのフレーズ(「マナーモードに設定の上通話はご遠慮下さい」)を、手本により音読される複数のフレーズ(「マナーモードに設定の上」と「通話はご遠慮下さい」)に合わせるように、図3に示す区切タイミングDTで区切ることで話者文要素区間を特定する。これにより、図3に示すように、話者表示バー52c3と話者表示バー52c4とが分かれて表示されることになる。これに伴い、話者表示バー52c3,52c4上には、それぞれ、「携帯電話は」を表すテキストと、「マナーモードに設定の上」を表すテキストが表示されることになる(なお、図3の例では、総合評価点に応じた絵柄により一部テキストが隠れている)。一方、図4の例は、上述したように算出された音圧レベルに基づいて文要素区間が特定された場合において、手本により音読される1つのフレーズ(「携帯電話はマナーモードに設定の上通話はご遠慮下さい」)が、話者により音読される複数のフレーズ(「携帯電話は」と「マナーモードに設定の上」と「通話はご遠慮下さい」)に対応している場合の例である。この場合、上述したように、音声処理部31は、手本により音読される1つのフレーズ(「携帯電話はマナーモードに設定の上通話はご遠慮下さい」)に合わせるように、話者により音読される複数のフレーズ(「携帯電話は」と「マナーモードに設定の上」と「通話はご遠慮下さい」)を含む結合フレーズに対応する話者文要素区間を特定する。これにより、図4に示すように、結合フレーズに対応する話者表示バー52c3’が表示されることになる。これに伴い、話者表示バー52c3’上には、それぞれ、「携帯電話はマナーモードに設定の上通話はご遠慮下さい」を表すテキストが表示されることになる。
なお、上述したように音声処理部31によりRAMに記憶された手本文要素区間データ、話者文要素区間データ、手本音圧データ、話者音圧データ、手本音高データ、及び話者音高データは、それぞれ、上記処理対象の手本音声波形データに対応付けられて記憶部2に記憶されることになる。これにより、話者による音読終了後、表示処理部33は、ユーザからの表示指示に応じて、記憶部2から手本文要素区間データ、話者文要素区間データ、手本音圧データ、話者音圧データ、手本音高データ、及び話者音高データを読み込み、音要素の時系列的な変化を表すグラフ、及びテキストが表示される表示バーを上側表示領域と下側表示領域のそれぞれに表示させる。このように表示された状態において、表示処理部33は、ユーザからの文要素切換指示に応じて、複数の文要素の中の何れか1つの文要素に対応する手本文要素区間の開始位置と話者文要素区間の開始位置とが時間軸tと並行する方向で一致するように上側表示領域における表示内容全体または下側表示領域における表示内容全体を時間軸tと並行する方向にシフトさせる。これにより、話者の音読タイミングと手本の音読タイミングとが全体的にずれている場合であっても、複数の文要素のうちで話者等が注目している文要素における手本の音要素と話者の音要素との違いを、話者等に、より分り易く把握させることができる。なお、上記「一致するように」とは、完全一致には限定されるものではなく、数%程度の誤差があってもよい趣旨である。また、開始位置を一致させる対象となる手本文要素区間と話者文要素区間とのそれぞれの先頭からの順番を合わせるために、例えばそれぞれに付与されたシリアル番号を互いに一致させるように構成するとよい。
図5は、手本文要素区間の開始位置と話者文要素区間の開始位置とが時間軸と並行する方向で一致させる例を示す図である。図5(A)は、文要素切換指示前の表示例を示す。図5(A)の例では、複数の文要素の中で全ての文要素に対応する手本文要素区間の開始位置(時間軸tの座標値)と話者文要素区間の開始位置とが時間軸tと並行する方向で一致していない。つまり、手本表示バー51c1〜51c4のそれぞれの開始位置と話者表示バー52c1〜52c4のそれぞれの開始位置とは一致していない。一方、図5(B)は、図5(A)の表示状態から、文要素切換指示が1回あったときの表示例を示す。図5(B)の例では、複数の文要素の中で先頭の文要素に対応する手本文要素区間(例えば、シリアル番号:1)の開始位置と話者文要素区間(例えば、シリアル番号:1)の開始位置とが時間軸tと並行する方向で一致(図中、P1で一致)している。また、図5(C)は、図5(A)の表示状態から、文要素切換指示が3回あったときの表示例を示す。図5(C)の例では、複数の文要素の中で先頭から3番目の文要素に対応する手本文要素区間(例えば、シリアル番号:3)の開始位置と話者文要素区間(例えば、シリアル番号:3)の開始位置とが時間軸tと並行する方向で一致(図中、P2で一致)している。
[2.発話練習装置Sの動作例]
次に、図6等を参照して、発話練習装置Sの動作の一例について説明する。図6は、発話練習装置Sにおける制御部3の音要素表示処理を示すフローチャートである。なお、図6に示す音要素表示処理の前提として、手本文要素区間データ、手本音圧データ、手本音高データが、例えば、手本音声波形データの音声ファイルに対応付けられて記憶部2に記憶されているものとする。
次に、図6等を参照して、発話練習装置Sの動作の一例について説明する。図6は、発話練習装置Sにおける制御部3の音要素表示処理を示すフローチャートである。なお、図6に示す音要素表示処理の前提として、手本文要素区間データ、手本音圧データ、手本音高データが、例えば、手本音声波形データの音声ファイルに対応付けられて記憶部2に記憶されているものとする。
図6に示す処理は、例えば、話者が操作部4を介して音読対象のお手本となる所望の音声ファイルを指定して音読開始指示を行うことにより開始される。図6に示す処理が開始されると、制御部3は、マイク入力をオンにし、上記指定された音声ファイルに格納された手本音声波形データと、上記指定された音声ファイルに対応付けられた手本文要素区間データ、手本音圧データ、及び手本音高データ等を記憶部2から読み込む(ステップS1)。なお、読み込まれたデータは、RAMに記憶される。次いで、制御部3は、話者音声波形データの入力を開始する(ステップS2)。話者が文の音読を開始すると、この文の音読中の発せられた音声がマイクMにより集音され、集音された音声の波形を示す話者音声波形データが、インターフェース部5を介して発話練習装置Sに入力される。こうして、話者による文の音読中に入力された話者音声波形データは、RAMに記憶される。
次いで、発話練習装置Sの制御部3は、話者による音読タイミングを表す線Tを上側表示領域51及び下側表示領域52を有する表示画面上に固定表示し、上側表示領域表示処理(ステップS3)、及び下側表示領域表示処理(ステップS4)をそれぞれ開始する。上側表示領域表示処理と下側表示領域表示処理は、例えばマルチタスクにより並列的に実行される。
上側表示領域表示処理では、制御部3は、読み込まれた手本音声波形データにより特定される音読スピードに応じた速度で上側表示領域51を例えば左方向にスクロールさせながら、手本音高データが示す手本音高の時系列的な変化を表す手本グラフ51a1〜51a4と、手本音圧データが示す手本音圧の時系列的な変化を表す手本グラフ51b1〜51b4とを手本文要素区間毎に区別して上側表示領域51に表示させる。更に、制御部3は、手本文要素区間データが示す手本文要素区間の時間長に応じた長さの手本表示バー51c1〜51c4を手本文要素区間毎に区別して上側表示領域51に表示させ、それぞれの手本表示バー51c1〜51c4上に文要素を表すテキストを表示させる。このような上側表示領域表示処理は、手本音声波形データが全て処理されるまで継続して行われ、その後、ステップS5に進む。
一方、下側表示領域表示処理では、制御部3は、入力された話者音声波形データにより特定される音読スピードに応じた速度で下側表示領域52を例えば左方向にスクロールさせながら、上述したように話者音声波形データに基づいて話者音高及び話者音圧を所定時間間隔毎に特定するとともに、特定した話者音高の時系列的な変化を表す話者グラフ52a1〜52a4と、特定した話者音圧の時系列的な変化を表す話者グラフ52b1〜52b4とを話者文要素区間毎に区別して下側表示領域52に表示させる。更に、制御部3は、上述したように話者音声波形データに基づいて話者文要素区間を特定し、特定した話者文要素区間の時間長に応じた長さの話者表示バー52c1〜52c4を話者文要素区間毎に区別して下側表示領域52に表示させ、それぞれの話者表示バー52c1〜52c4上に文要素を表すテキストを表示させる。また、下側表示領域表示処理では、上述したように文要素区間毎に総合評価が行われ、その評価結果が、それぞれの話者表示バー52c1〜52c4上に表示される。なお、上記特定された話者文要素区間を示す話者文要素区間データ、上記特定された話者音圧を示す話者音圧データ、及び上記特定された話者音高を示す話者音高データ等は、RAMに記憶される。このような下側表示領域表示処理は、話者音声波形データの入力が終了するまで継続して行われ、その後、ステップS5に進む。
ステップS5では、制御部3は、話者等の操作により操作部4から音要素再表示指示があったか否かを判定する。制御部3は、音要素再表示指示があったと判定した場合(ステップS5:YES)、ステップS6へ進む。一方、制御部3は、例えば所定時間内に音要素再表示指示がないと判定した場合(ステップS5:NO)、図6に示す処理を終了する。
ステップS6では、制御部3は、RAMに記憶された手本文要素区間データ、手本音圧データ、手本音高データ、話者文要素区間データ、話者音圧データ、及び話者音高データ等に基づいて、例えば図5(A)に示すように、音要素の時系列的な変化を表すグラフ、及びテキストが表示される表示バー等を上側表示領域51と下側表示領域52のそれぞれに表示させ、ステップS7へ進む。
ステップS7では、制御部3は、話者等の操作により操作部4からスクロール指示があったか否かを判定する。制御部3は、スクロール指示があったと判定した場合(ステップS7:YES)、ステップS8へ進む。一方、制御部3は、スクロール指示がないと判定した場合(ステップS7:NO)、ステップS9へ進む。
ステップS8では、制御部3は、スクロール指示にしたがって、上側表示領域51と下側表示領域52とを同時に左方向又は右方向へスクロールさせる。ステップS9では、制御部3は、話者等の操作により操作部4から文要素切換指示があったか否かを判定する。制御部3は、文要素切換指示があったと判定した場合(ステップS9:YES)、ステップS10へ進む。一方、制御部3は、文要素切換指示がないと判定した場合(ステップS9:NO)、ステップS11へ進む。
ステップS10では、制御部3は、例えば図5(A)に示すように、何れか1つの文要素に対応する手本文要素区間の開始位置と話者文要素区間の開始位置とが時間軸と並行する方向で一致するように上側表示領域51における表示内容全体または下側表示領域52における表示内容全体を時間軸と並行する方向にシフトさせる。ステップS11では、制御部3は、話者等の操作により操作部4から表示終了指示があったか否かを判定する。制御部3は、表示終了指示があったと判定した場合(ステップS11:YES)、図6に示す処理を終了する。一方、制御部3は、表示終了指示がないと判定した場合(ステップS11:NO)、ステップS7に戻る。
以上説明したように、上記実施形態によれば、発話練習装置Sは、手本グラフが表示される上側表示領域と話者グラフが表示される下側表示領域の境界部分において、手本文要素区間の時間長に応じた長さの手本表示バーと、話者文要素区間の時間長に応じた長さの話者表示バーとを上下方向に並べて表示させるように構成したので、表示画面上のどの部分を基準として音声の各音要素を比較して良いかを話者等に分り易く把握させることができる。
なお、上記実施形態において、表示処理部33は、ユーザからの文要素切換指示に応じて、複数の文要素の中の何れか1つの文要素に対応する手本文要素区間の終了位置(言い換えれば、手本インターバル区間の開始位置)と話者文要素区間の終了位置(言い換えれば、話者インターバル区間の開始位置)とが時間軸tと並行する方向で一致するように上側表示領域における表示内容全体または下側表示領域における表示内容全体を時間軸tと並行する方向にシフトさせるように構成してもよい。この構成によっても、話者の音読タイミングと手本の音読タイミングとが全体的にずれている場合であっても、複数の文要素のうちで話者等が注目している文要素における手本の音要素と話者の音要素との違いを、話者等に、より分り易く把握させることができる。なお、終了位置を一致させる対象となる手本文要素区間と話者文要素区間とのそれぞれの先頭からの順番を合わせるために、例えばそれぞれに付与されたシリアル番号を互いに一致させるように構成するとよい。
1 通信部
2 記憶部
3 制御部
4 操作部
5 インターフェース部
6 バス
31 音声処理部
32 音読評価部
33 表示処理部
S 発話練習装置
2 記憶部
3 制御部
4 操作部
5 インターフェース部
6 バス
31 音声処理部
32 音読評価部
33 表示処理部
S 発話練習装置
Claims (10)
- 第1表示領域と第2表示領域とが時間軸と直交する一方向に並んで配置される表示画面を表示させる発話練習装置であって、
文を音読するときの手本となる音声の波形を示す第1音声波形データに基づいて特定された第1文要素区間であって、前記文を構成する文要素の開始タイミングから終了タイミングまでの第1文要素区間を示す第1文要素区間データを文要素毎に記憶する第1記憶手段と、
話者が前記文を音読したときに発した音声の波形を示す第2音声波形データに基づいて特定された第2文要素区間であって、前記文要素の開始タイミングから終了タイミングまでの第2文要素区間を示す第2文要素区間データを文要素毎に記憶する第2記憶手段と、
前記第1音声波形データに基づいて、前記第1文要素区間データが示す第1文要素区間の時間長より短い所定時間間隔毎に特定された第1音高と第1音圧との少なくとも何れか一方の音要素を示す第1音要素データを記憶する第3記憶手段と、
前記第2音声波形データに基づいて、前記第2文要素区間データが示す第2文要素区間の時間長より短い所定時間間隔毎に特定された第2音高と第2音圧との少なくとも何れか一方の音要素を示す第2音要素データを記憶する第4記憶手段と、
前記第1音要素データが示す第1音高と第1音圧との少なくとも何れか一方の音要素の時系列的な変化を表す第1グラフを前記時間軸に沿って前記第1表示領域に表示させる第1表示制御手段と、
前記第1グラフにより表される音要素と同じ種類の音要素であって、前記第2音要素データが示す第2音高と第2音圧との少なくとも何れか一方の音要素の時系列的な変化を表す第2グラフを前記時間軸に沿って前記第2表示領域に表示させる第2表示制御手段と、
前記第1文要素区間データが示す第1文要素区間の時間長に応じた長さの第1表示バーと前記文要素を表すテキストとを前記第1文要素区間毎に前記時間軸に沿って表示させ、且つ、前記第2文要素区間データが示す第2文要素区間の時間長に応じた長さの第2表示バーと前記文要素を表すテキストとを前記第2文要素区間毎に前記時間軸に沿って表示させる第3表示制御手段であって、前記第1表示バーと前記第2表示バーとを前記第1表示領域と前記第2表示領域の境界部分において前記一方向に並べて表示させる第3表示制御手段と、
を備えることを特徴とする発話練習装置。 - 前記第3表示制御手段は、前記第1文要素区間毎に表示される前記第1表示バー上に前記文要素を表すテキストを表示させ、且つ、前記第2文要素区間毎に表示される前記第2表示バー上に前記文要素を表すテキストを表示させることを特徴とする請求項1に記載の発話練習装置。
- 前記第3表示制御手段は、前記表示バー上に前記文要素を表すテキストが前記時間軸に沿って1行で収まるように表示可能か否かを判定し、1行で収まらない場合には、前記文要素を表すテキストを複数行で前記表示バー上に表示させることを特徴とする請求項2に記載の発話練習装置。
- ユーザからの文要素切換指示に応じて、複数の文要素の中の何れか1つの文要素に対応する前記第1文要素区間の開始位置と前記第2文要素区間の開始位置とが前記時間軸と並行する方向で一致するように前記第1表示領域における表示内容全体または前記第2表示領域における表示内容全体を前記時間軸と並行する方向にシフトさせる第4表示制御手段を更に備えることを特徴とする請求項1乃至3の何れか一項に記載の発話練習装置。
- 前記話者による前記文の音読中に前記第2音声波形データを入力する入力手段と、
前記話者による音読タイミングを表す線であって前記第1表示領域と前記第2表示領域とを通り前記一方向に延びる線を表示させ、前記入力手段からの前記第2音声波形データの入力に応じて、前記第1表示領域における表示内容全体と前記第2表示領域における表示内容全体とを前記時間軸と並行する方向に別々にスクロールさせる第5表示制御手段と、
を更に備えることを特徴とする請求項1乃至4の何れか一項に記載の発話練習装置。 - 前記第1音圧及び前記第2音圧それぞれの時系列的な変化を表すグラフは棒グラフであることを特徴とする請求項1乃至5の何れか一項に記載の発話練習装置。
- 前記第1表示制御手段及び第2表示制御手段は、前記棒グラフにおいて音圧レベルが高い部分の色より音圧レベルが低い部分の色を薄く表示させることを特徴とする請求項6に記載の発話練習装置。
- 前記文要素は、フレーズであることを特徴とする請求項1乃至7の何れか一項に記載の発話練習装置。
- 第1表示領域と第2表示領域とが時間軸と直交する一方向に並んで配置される表示画面を表示させる発話練習装置に含まれるコンピュータにより実行される表示制御方法であって、
文を音読するときの手本となる音声の波形を示す第1音声波形データに基づいて特定された第1文要素区間であって、前記文を構成する文要素の開始タイミングから終了タイミングまでの第1文要素区間を示す第1文要素区間データを文要素毎に記憶する第1記憶ステップと、
話者が前記文を音読したときに発した音声の波形を示す第2音声波形データに基づいて特定された第2文要素区間であって、前記文要素の開始タイミングから終了タイミングまでの第2文要素区間を示す第2文要素区間データを文要素毎に記憶する第2記憶ステップと、
前記第1音声波形データに基づいて、前記第1文要素区間データが示す第1文要素区間の時間長より短い所定時間間隔毎に第1音高と第1音圧との少なくとも何れか一方の音要素を示す第1音要素データを記憶する第3記憶ステップと、
前記第2音声波形データに基づいて、前記第2文要素区間データが示す第2文要素区間の時間長より短い所定時間間隔毎に第2音高と第2音圧との少なくとも何れか一方の音要素を示す第2音要素データを記憶する第4記憶ステップと、
前記第1音要素データが示す第1音高と第1音圧との少なくとも何れか一方の音要素の時系列的な変化を表す第1グラフを前記時間軸に沿って前記第1表示領域に表示させる第1表示制御ステップと、
前記第1グラフにより表される音要素と同じ種類の音要素であって、前記第2音要素データが示す第2音高と第2音圧との少なくとも何れか一方の音要素の時系列的な変化を表す第2グラフを前記時間軸に沿って前記第2表示領域に表示させる第2表示制御ステップと、
前記第1文要素区間データが示す第1文要素区間の時間長に応じた長さの第1表示バーと前記文要素を表すテキストとを前記第1文要素区間毎に前記時間軸に沿って表示させ、且つ、前記第2文要素区間データが示す第2文要素区間の時間長に応じた長さの第2表示バーと前記文要素を表すテキストとを前記第2文要素区間毎に前記時間軸に沿って表示させる第3表示制御ステップであって、前記第1表示バーと前記第2表示バーとを前記第1表示領域と前記第2表示領域の境界部分において前記一方向に並べて表示させる第3表示制御ステップと、
を含むことを特徴とする表示制御方法。 - 第1表示領域と第2表示領域とが時間軸と直交する一方向に並んで配置される表示画面を表示させる発話練習装置に含まれるコンピュータに、
文を音読するときの手本となる音声の波形を示す第1音声波形データに基づいて特定された第1文要素区間であって、前記文を構成する文要素の開始タイミングから終了タイミングまでの第1文要素区間を示す第1文要素区間データを文要素毎に記憶する第1記憶ステップと、
話者が前記文を音読したときに発した音声の波形を示す第2音声波形データに基づいて特定された第2文要素区間であって、前記文要素の開始タイミングから終了タイミングまでの第2文要素区間を示す第2文要素区間データを文要素毎に記憶する第2記憶ステップと、
前記第1音声波形データに基づいて、前記第1文要素区間データが示す第1文要素区間の時間長より短い所定時間間隔毎に第1音高と第1音圧との少なくとも何れか一方の音要素を示す第1音要素データを記憶する第3記憶ステップと、
前記第2音声波形データに基づいて、前記第2文要素区間データが示す第2文要素区間の時間長より短い所定時間間隔毎に第2音高と第2音圧との少なくとも何れか一方の音要素を示す第2音要素データを記憶する第4記憶ステップと、
前記第1音要素データが示す第1音高と第1音圧との少なくとも何れか一方の音要素の時系列的な変化を表す第1グラフを前記時間軸に沿って前記第1表示領域に表示させる第1表示制御ステップと、
前記第1グラフにより表される音要素と同じ種類の音要素であって、前記第2音要素データが示す第2音高と第2音圧との少なくとも何れか一方の音要素の時系列的な変化を表すグラフを前記時間軸に沿って前記第2表示領域に表示させる第2表示制御ステップと、
前記第1文要素区間データが示す第1文要素区間の時間長に応じた長さの第1表示バーと前記文要素を表すテキストとを前記第1文要素区間毎に前記時間軸に沿って表示させ、且つ、前記第2文要素区間データが示す第2文要素区間の時間長に応じた長さの第2表示バーと前記文要素を表すテキストとを前記第2文要素区間毎に前記時間軸に沿って表示させる第3表示制御ステップであって、前記第1表示バーと前記第2表示バーとを前記第1表示領域と前記第2表示領域の境界部分において前記一方向に並べて表示させる第3表示制御ステップと、
を実行させることを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015130009A JP2017015823A (ja) | 2015-06-29 | 2015-06-29 | 発話練習装置、表示制御方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015130009A JP2017015823A (ja) | 2015-06-29 | 2015-06-29 | 発話練習装置、表示制御方法、及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2017015823A true JP2017015823A (ja) | 2017-01-19 |
Family
ID=57830682
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015130009A Pending JP2017015823A (ja) | 2015-06-29 | 2015-06-29 | 発話練習装置、表示制御方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2017015823A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019164232A (ja) * | 2018-03-19 | 2019-09-26 | 株式会社リコー | 共有端末、方法、プログラム、共有システム及び方法 |
CN112786020A (zh) * | 2021-01-21 | 2021-05-11 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种歌词时间戳生成方法及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6148885A (ja) * | 1984-08-17 | 1986-03-10 | 富士通株式会社 | 発声訓練装置 |
JPS6175373A (ja) * | 1984-09-21 | 1986-04-17 | 富士通株式会社 | 発声訓練装置 |
JP2002091472A (ja) * | 2000-09-19 | 2002-03-27 | Nippon Hoso Kyokai <Nhk> | 音声言語の韻律表示装置、再生装置、類似度判定装置、音声言語処理装置、および記録媒体 |
JP2003186379A (ja) * | 2001-12-13 | 2003-07-04 | Animo:Kk | 音声可視化処理のためのプログラム、音声可視化図形表示と音声及び動画像の再生処理のためのプログラム、及び訓練結果表示のためのプログラム、並びに発声発話訓練装置及びコンピュータ・システム |
JP2007139868A (ja) * | 2005-11-15 | 2007-06-07 | Yamaha Corp | 語学学習装置 |
JP2007147783A (ja) * | 2005-11-24 | 2007-06-14 | Yamaha Corp | 語学学習装置 |
JP2014240902A (ja) * | 2013-06-11 | 2014-12-25 | 株式会社ジャストシステム | 学習支援装置 |
-
2015
- 2015-06-29 JP JP2015130009A patent/JP2017015823A/ja active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6148885A (ja) * | 1984-08-17 | 1986-03-10 | 富士通株式会社 | 発声訓練装置 |
JPS6175373A (ja) * | 1984-09-21 | 1986-04-17 | 富士通株式会社 | 発声訓練装置 |
JP2002091472A (ja) * | 2000-09-19 | 2002-03-27 | Nippon Hoso Kyokai <Nhk> | 音声言語の韻律表示装置、再生装置、類似度判定装置、音声言語処理装置、および記録媒体 |
JP2003186379A (ja) * | 2001-12-13 | 2003-07-04 | Animo:Kk | 音声可視化処理のためのプログラム、音声可視化図形表示と音声及び動画像の再生処理のためのプログラム、及び訓練結果表示のためのプログラム、並びに発声発話訓練装置及びコンピュータ・システム |
JP2007139868A (ja) * | 2005-11-15 | 2007-06-07 | Yamaha Corp | 語学学習装置 |
JP2007147783A (ja) * | 2005-11-24 | 2007-06-14 | Yamaha Corp | 語学学習装置 |
JP2014240902A (ja) * | 2013-06-11 | 2014-12-25 | 株式会社ジャストシステム | 学習支援装置 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019164232A (ja) * | 2018-03-19 | 2019-09-26 | 株式会社リコー | 共有端末、方法、プログラム、共有システム及び方法 |
JP7091745B2 (ja) | 2018-03-19 | 2022-06-28 | 株式会社リコー | 表示端末、プログラム、情報処理システム及び方法 |
CN112786020A (zh) * | 2021-01-21 | 2021-05-11 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种歌词时间戳生成方法及存储介质 |
CN112786020B (zh) * | 2021-01-21 | 2024-02-23 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种歌词时间戳生成方法及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jing et al. | Prominence features: Effective emotional features for speech emotion recognition | |
US7962341B2 (en) | Method and apparatus for labelling speech | |
US7010489B1 (en) | Method for guiding text-to-speech output timing using speech recognition markers | |
WO2001052237A1 (fr) | Appareil, methode et support d'apprentissage de langues etrangeres | |
JP4797597B2 (ja) | 語学学習装置 | |
EP2645363B1 (en) | Sound synthesizing apparatus and method | |
CN107610693B (zh) | 文本语料库的构建方法和装置 | |
JP2007047412A (ja) | 認識文法モデル作成装置、認識文法モデル作成方法、および、音声認識装置 | |
JP2008262120A (ja) | 発話評価装置及び発話評価プログラム | |
JP2015036788A (ja) | 外国語の発音学習装置 | |
KR101566013B1 (ko) | 전자책 낭독을 통한 발화 정확도 및 표현력 향상을 제공하는 방법 및 시스템 | |
JP2017015823A (ja) | 発話練習装置、表示制御方法、及びプログラム | |
JP5079718B2 (ja) | 外国語学習支援システム、及びプログラム | |
JP2016157097A (ja) | 音読評価装置、音読評価方法、及びプログラム | |
JP6314884B2 (ja) | 音読評価装置、音読評価方法、及びプログラム | |
JP6641680B2 (ja) | 音声出力装置、音声出力プログラムおよび音声出力方法 | |
CN116434780A (zh) | 具备多读音纠错功能的语言学习系统 | |
JP4964695B2 (ja) | 音声合成装置及び音声合成方法並びにプログラム | |
JP2844817B2 (ja) | 発声練習用音声合成方式 | |
JP6256379B2 (ja) | 表示制御装置、表示制御方法、及びプログラム | |
JP3621624B2 (ja) | 外国語学習装置、外国語学習方法および媒体 | |
JP6418179B2 (ja) | 音読練習装置、表示制御方法、及びプログラム | |
JP5975033B2 (ja) | 音声合成装置、音声合成方法および音声合成プログラム | |
JP2006284645A (ja) | 音声再生装置およびその再生プログラムならびにその再生方法 | |
JP6531654B2 (ja) | 音読評価装置、表示制御方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170901 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180727 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180828 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20190402 |