JP6256379B2

JP6256379B2 - 表示制御装置、表示制御方法、及びプログラム

Info

Publication number: JP6256379B2
Application number: JP2015034384A
Authority: JP
Inventors: 誠司黒川
Original assignee: Brother Industries Ltd
Current assignee: Brother Industries Ltd
Priority date: 2015-02-24
Filing date: 2015-02-24
Publication date: 2018-01-10
Anticipated expiration: 2035-02-24
Also published as: JP2016156943A

Description

本発明は、話者が文字列を音読したときに発した音声を視覚的に表現することが可能なシステム等の技術分野に関する。

近年、語学学習、発声発話訓練等の支援を目的として、話者が文字列を音読したときに発した音声を視覚的に表現する技術が知られている。例えば、特許文献１には、基準音声に対応し且つ発声のタイミング、発声長、音程及び促音を表す図形を表示し、発声部分を図形の色を変更することにより表示するシステムが開示されている。一方、特許文献２には、お手本となる歌い方のデータを任意に設定し、その歌い方に対する練習者の歌い方の違いを視覚的に捉えることができるシステムが開示されている。このシステムでは、模範歌唱の音程の推移をピッチデータに従って折れ線で表示し、折れ線と横軸との間の領域の色を模範歌唱の音量データの値に応じて変化するように表示するようになっている。

特開２００３−１８６３７９号公報特開２００６−２７６６９３号公報

しかしながら、従来、音程と音量などをパラメータとして線やグラフを表示する技術があったものの、手本となる音声と話者の音声との発し方の違いを、話者が一見して、より分り易く把握できるシステムが知られていなかった。

本発明は、以上の点に鑑みてなされたものであり、音高、音圧、及び発音特徴量に基づいて手本となる音声と、話者の音声との発し方の違いを、話者に一見して、より分り易く把握させることが可能な表示制御装置、表示制御方法、及びプログラムを提供する。

上記課題を解決するために、請求項１に記載の発明は、複数の文字により構成される文字列のテキストデータと、前記文字列を音読するときの手本となる音声の波形を示す第１音声波形データに基づいて文字単位毎に特定された音高、音圧、母音、及び前記母音以外の音成分を記憶する記憶手段と、話者が前記文字列を音読したときに発した音声の波形を示す第２音声波形データを入力する入力手段と、前記第２音声波形データに基づいて、前記文字単位毎に音高、音圧、母音、及び前記母音以外の音成分を特定する特定手段と、前記記憶手段に記憶された音高、音圧、母音、及び前記母音以外の音成分に基づいて、時間軸方向に伸び、且つ、前記時間軸方向と直交する軸方向に時系列的に変化する第１のラインを画面に表示させる第１制御手段と、前記テキストデータに基づいて、前記文字列を構成する各文字を前記時間軸方向に沿って前記画面に表示させる第２制御手段と、前記特定手段により特定された音高、音圧、母音、及び前記母音以外の音成分に基づいて、時間軸方向に伸び、且つ、前記時間軸方向と直交する軸方向に時系列的に変化する第２のラインを、前記第１のラインと比較可能に前記画面に表示させる第３制御手段と、を備え、前記第１制御手段及び前記第３制御手段は、それぞれ、前記音高に基づいて、前記時間軸方向と直交する軸方向における前記ラインの位置を前記文字単位毎に決定する第１決定部と、前記音圧に基づいて、前記ラインの幅を前記文字単位毎に決定する第２決定部と、前記特定された母音の別に応じた色と、前記母音以外の音成分に応じた色との混合色を前記ラインの色として前記文字単位毎に決定する第３決定部と、を備えることを特徴とする。

請求項２に記載の発明は、１つ以上のコンピュータにより実行される表示制御方法であって、複数の文字により構成される文字列のテキストデータと、前記文字列を音読するときの手本となる音声の波形を示す第１音声波形データに基づいて文字単位毎に特定された音高、音圧、母音、及び前記母音以外の音成分を記憶手段に記憶する記憶ステップと、話者が前記文字列を音読したときに発した音声の波形を示す第２音声波形データを入力する入力ステップと、前記第２音声波形データに基づいて、前記文字単位毎に音高、音圧、母音、及び前記母音以外の音成分を特定する特定ステップと、前記記憶ステップにより記憶された音高、音圧、母音、及び前記母音以外の音成分に基づいて、時間軸方向に伸び、且つ、前記時間軸方向と直交する軸方向に時系列的に変化する第１のラインを画面に表示させる第１制御ステップと、前記テキストデータに基づいて、前記文字列を構成する各文字を前記時間軸方向に沿って前記画面に表示させる第２制御ステップと、前記特定ステップにより特定された音高、音圧、母音、及び前記母音以外の音成分に基づいて、時間軸方向に伸び、且つ、前記時間軸方向と直交する軸方向に時系列的に変化する第２のラインを、前記第１のラインと比較可能に前記画面に表示させる第３制御ステップと、を備え、前記第１制御ステップ及び前記第３制御ステップは、それぞれ、前記音高に基づいて、前記時間軸方向と直交する軸方向における前記ラインの位置を前記文字単位毎に決定するステップと、前記音圧に基づいて、前記ラインの幅を前記文字単位毎に決定するステップと、前記特定された母音の別に応じた色と、前記母音以外の音成分に応じた色との混合色を前記ラインの色として前記文字単位毎に決定するステップと、を含むことを特徴とする。

請求項３に記載の発明は、複数の文字により構成される文字列のテキストデータと、前記文字列を音読するときの手本となる音声の波形を示す第１音声波形データに基づいて文字単位毎に特定された音高、音圧、母音、及び前記母音以外の音成分を記憶手段に記憶する記憶ステップと、話者が前記文字列を音読したときに発した音声の波形を示す第２音声波形データを入力する入力ステップと、前記第２音声波形データに基づいて、前記文字単位毎に音高、音圧、母音、及び前記母音以外の音成分を特定する特定ステップと、前記記憶ステップにより記憶された音高、音圧、母音、及び前記母音以外の音成分に基づいて、時間軸方向に伸び、且つ、前記時間軸方向と直交する軸方向に時系列的に変化する第１のラインを画面に表示させる第１制御ステップと、前記テキストデータに基づいて、前記文字列を構成する各文字を前記時間軸方向に沿って前記画面に表示させる第２制御ステップと、前記特定ステップにより特定された音高、音圧、母音、及び前記母音以外の音成分に基づいて、時間軸方向に伸び、且つ、前記時間軸方向と直交する軸方向に時系列的に変化する第２のラインを、前記第１のラインと比較可能に前記画面に表示させる第３制御ステップと、をコンピュータに実行させ、前記第１制御ステップ及び前記第３制御ステップは、それぞれ、前記音高に基づいて、前記時間軸方向と直交する軸方向における前記ラインの位置を前記文字単位毎に決定するステップと、前記音圧に基づいて、前記ラインの幅を前記文字単位毎に決定するステップと、前記特定された母音の別に応じた色と、前記母音以外の音成分に応じた色との混合色を前記ラインの色として前記文字単位毎に決定するステップと、を含むことを特徴とする。

請求項４に記載の発明は、複数の文字により構成される文字列のテキストデータと、前記文字列を音読するときの手本となる音声の波形を示す第１音声波形データに基づいて所定時間単位毎に特定された音高、音圧、第１フォルマント周波数、及び第２フォルマント周波数を記憶する記憶手段と、話者が前記文字列を音読したときに発した音声の波形を示す第２音声波形データを入力する入力手段と、前記第２音声波形データに基づいて、前記所定時間単位毎に音高、音圧、第１フォルマント周波数、及び第２フォルマント周波数を特定する特定手段と、前記記憶手段に記憶された音高、音圧、第１フォルマント周波数、及び第２フォルマント周波数に基づいて、時間軸方向に伸び、且つ、前記時間軸方向と直交する軸方向に時系列的に変化する第１のラインを画面に表示させる第１制御手段と、前記テキストデータに基づいて、前記文字列を構成する各文字を前記時間軸方向に沿って前記画面に表示させる第２制御手段と、前記特定手段により特定された音高、音圧、第１フォルマント周波数、及び第２フォルマント周波数に基づいて、時間軸方向に伸び、且つ、前記時間軸方向と直交する軸方向に時系列的に変化する第２のラインを、前記第１のラインと比較可能に前記画面に表示させる第３制御手段と、を備え、前記第１制御手段及び前記第３制御手段は、それぞれ、前記音高に基づいて、前記時間軸方向と直交する軸方向における前記ラインの位置を前記所定時間単位毎に決定する第１決定部と、前記音圧に基づいて、前記ラインの幅を前記所定時間単位毎に決定する第２決定部と、前記特定された第１フォルマント周波数の値と前記特定された第２フォルマント周波数の値との組合せに応じた色を前記ラインの色として前記所定時間単位毎に決定する第３決定部と、を備えることを特徴とする。

請求項５に記載の発明は、請求項４に記載の表示制御装置において、所定の第１フォルマント周波数の値と所定の第２フォルマント周波数の値との組合せに対して所定の基準色が設定されており、前記特定された第１フォルマント周波数の値と前記特定された第２フォルマント周波数の値との組合せに応じた色は、所定の第１フォルマント周波数の値と前記特定された第１フォルマント周波数の値の差と、所定の第２フォルマント周波数の値と前記特定された第２フォルマント周波数の値の差との自乗和が大きいほど、前記基準色からの変化度合いが大きいことを特徴とする。

請求項６に記載の発明は、請求項４に記載の表示制御装置において、前記記憶手段は、前記第１音声波形データに基づいて、前記所定時間単位毎に特定されたノイズ成分をさらに記憶し、前記特定手段は、前記第２音声波形データに基づいて、前記所定時間単位毎にノイズ成分をさらに特定し、前記第３決定部は、前記特定された第１フォルマント周波数の値と前記特定された第２フォルマント周波数の値との組合せに応じた色と、前記特定されたノイズ成分の値に応じた色との混合色を前記ラインの色として決定することを特徴とする。

請求項７に記載の発明は、１つ以上のコンピュータにより実行される表示制御方法であって、複数の文字により構成される文字列のテキストデータと、前記文字列を音読するときの手本となる音声の波形を示す第１音声波形データに基づいて所定時間単位毎に特定された音高、音圧、第１フォルマント周波数、及び第２フォルマント周波数を記憶手段に記憶する記憶ステップと、話者が前記文字列を音読したときに発した音声の波形を示す第２音声波形データを入力する入力ステップと、前記第２音声波形データに基づいて、所定時間単位毎に音高、音圧、第１フォルマント周波数、及び第２フォルマント周波数を特定する特定ステップと、前記記憶ステップにより記憶された音高、音圧、第１フォルマント周波数、及び第２フォルマント周波数に基づいて、時間軸方向に伸び、且つ、前記時間軸方向と直交する軸方向に時系列的に変化する第１のラインを画面に表示させる第１制御ステップと、前記テキストデータに基づいて、前記文字列を構成する各文字を前記時間軸方向に沿って前記画面に表示させる第２制御ステップと、前記特定ステップにより特定された音高、音圧、第１フォルマント周波数、及び第２フォルマント周波数に基づいて、時間軸方向に伸び、且つ、前記時間軸方向と直交する軸方向に時系列的に変化する第２のラインを、前記第１のラインと比較可能に前記画面に表示させる第３制御ステップと、を備え、前記第１制御ステップ及び前記第３制御ステップは、それぞれ、前記音高に基づいて、前記時間軸方向と直交する軸方向における前記ラインの位置を前記所定時間単位毎に決定するステップと、前記音圧に基づいて、前記ラインの幅を前記所定時間単位毎に決定するステップと、前記特定された第１フォルマント周波数の値と前記特定された第２フォルマント周波数の値との組合せに応じた色を前記ラインの色として前記所定時間単位毎に決定するステップと、を含むことを特徴とする。

請求項８に記載の発明は、複数の文字により構成される文字列のテキストデータと、前記文字列を音読するときの手本となる音声の波形を示す第１音声波形データに基づいて所定時間単位毎に特定された音高、音圧、第１フォルマント周波数、及び第２フォルマント周波数を記憶手段に記憶する記憶ステップと、話者が前記文字列を音読したときに発した音声の波形を示す第２音声波形データを入力する入力ステップと、前記第２音声波形データに基づいて、所定時間単位毎に音高、音圧、第１フォルマント周波数、及び第２フォルマント周波数を特定する特定ステップと、前記記憶ステップにより記憶された音高、音圧、第１フォルマント周波数、及び第２フォルマント周波数に基づいて、時間軸方向に伸び、且つ、前記時間軸方向と直交する軸方向に時系列的に変化する第１のラインを画面に表示させる第１制御ステップと、前記テキストデータに基づいて、前記文字列を構成する各文字を前記時間軸方向に沿って前記画面に表示させる第２制御ステップと、前記特定ステップにより特定された音高、音圧、第１フォルマント周波数、及び第２フォルマント周波数に基づいて、時間軸方向に伸び、且つ、前記時間軸方向と直交する軸方向に時系列的に変化する第２のラインを、前記第１のラインと比較可能に前記画面に表示させる第３制御ステップと、をコンピュータに実行させ、前記第１制御ステップ及び前記第３制御ステップは、それぞれ、前記音高に基づいて、前記時間軸方向と直交する軸方向における前記ラインの位置を前記所定時間単位毎に決定するステップと、前記音圧に基づいて、前記ラインの幅を前記所定時間単位毎に決定するステップと、前記特定された第１フォルマント周波数の値と前記特定された第２フォルマント周波数の値との組合せに応じた色を前記ラインの色として前記所定時間単位毎に決定するステップと、を含むことを特徴とする。

請求項９に記載の発明は、複数の文字により構成される文字列のテキストデータと、前記文字列を音読するときの手本となる音声の波形を示す第１音声波形データに基づいて所定時間単位毎に特定された音高、音圧、第１フォルマント周波数、及び第２フォルマント周波数を記憶する記憶手段と、話者が前記文字列を音読したときに発した音声の波形を示す第２音声波形データを入力する入力手段と、前記第２音声波形データに基づいて、前記所定時間単位毎に音高、音圧、第１フォルマント周波数、及び第２フォルマント周波数を特定する特定手段と、前記記憶手段に記憶された音高、音圧、第１フォルマント周波数、及び第２フォルマント周波数に基づいて、時間軸方向に伸び、且つ、前記時間軸方向と直交する軸方向に時系列的に変化する第１のラインを画面に表示させる第１制御手段と、前記テキストデータに基づいて、前記文字列を構成する各文字を前記時間軸方向に沿って前記画面に表示させる第２制御手段と、前記特定手段により特定された音高、音圧、第１フォルマント周波数、及び第２フォルマント周波数に基づいて、時間軸方向に伸び、且つ、前記時間軸方向と直交する軸方向に時系列的に変化する第２のラインを、前記第１のラインと比較可能に前記画面に表示させる第３制御手段と、を備え、前記第１制御手段及び前記第３制御手段は、それぞれ、前記音高に基づいて、前記時間軸方向と直交する軸方向における前記ラインの位置を前記所定時間単位毎に決定する第１決定部と、前記音圧に基づいて、前記ラインの幅を前記所定時間単位毎に決定する第２決定部と、前記特定された第１フォルマント周波数の値に応じた色と前記特定された第２フォルマント周波数の値に応じた色との混合色を前記ラインの色として前記所定時間単位毎に決定する第３決定部と、を備えることを特徴とする。

請求項１０に記載の発明は、請求項９に記載の表示制御装置において、前記記憶手段は、前記第１音声波形データに基づいて、前記所定時間単位毎に特定されたノイズ成分をさらに記憶し、前記特定手段は、前記第２音声波形データに基づいて、前記所定時間単位毎にノイズ成分をさらに特定し、前記第３決定部は、前記特定された第１フォルマント周波数の値に応じた色と前記特定された第２フォルマント周波数の値に応じた色との混合色と、前記ノイズ成分の値に応じた色との混合色を前記ラインの色として決定することを特徴とする。

請求項１１に記載の発明は、１つ以上のコンピュータにより実行される表示制御方法であって、複数の文字により構成される文字列のテキストデータと、前記文字列を音読するときの手本となる音声の波形を示す第１音声波形データに基づいて所定時間単位毎に特定された音高、音圧、第１フォルマント周波数、及び第２フォルマント周波数を記憶手段に記憶する記憶ステップと、話者が前記文字列を音読したときに発した音声の波形を示す第２音声波形データを入力する入力ステップと、前記第２音声波形データに基づいて、所定時間単位毎に音高、音圧、第１フォルマント周波数、及び第２フォルマント周波数を特定する特定ステップと、前記記憶ステップにより記憶された音高、音圧、第１フォルマント周波数、及び第２フォルマント周波数に基づいて、時間軸方向に伸び、且つ、前記時間軸方向と直交する軸方向に時系列的に変化する第１のラインを画面に表示させる第１制御ステップと、前記テキストデータに基づいて、前記文字列を構成する各文字を前記時間軸方向に沿って前記画面に表示させる第２制御ステップと、前記特定ステップにより特定された音高、音圧、第１フォルマント周波数、及び第２フォルマント周波数に基づいて、時間軸方向に伸び、且つ、前記時間軸方向と直交する軸方向に時系列的に変化する第２のラインを、前記第１のラインと比較可能に前記画面に表示させる第３制御ステップと、を備え、前記第１制御ステップ及び前記第３制御ステップは、それぞれ、前記音高に基づいて、前記時間軸方向と直交する軸方向における前記ラインの位置を前記所定時間単位毎に決定するステップと、前記音圧に基づいて、前記ラインの幅を前記所定時間単位毎に決定するステップと、前記特定された第１フォルマント周波数の値に応じた色と前記特定された第２フォルマント周波数の値に応じた色との混合色を前記ラインの色として前記所定時間単位毎に決定するステップと、を含むことを特徴とする。

請求項１２に記載の発明は、複数の文字により構成される文字列のテキストデータと、前記文字列を音読するときの手本となる音声の波形を示す第１音声波形データに基づいて、所定時間単位毎に特定された音高、音圧、第１フォルマント周波数、及び第２フォルマント周波数を記憶手段に記憶する記憶ステップと、話者が前記文字列を音読したときに発した音声の波形を示す第２音声波形データを入力する入力ステップと、前記第２音声波形データに基づいて、所定時間単位毎に音高、音圧、第１フォルマント周波数、及び第２フォルマント周波数を特定する特定ステップと、前記記憶ステップにより記憶された音高、音圧、第１フォルマント周波数、及び第２フォルマント周波数に基づいて、時間軸方向に伸び、且つ、前記時間軸方向と直交する軸方向に時系列的に変化する第１のラインを画面に表示させる第１制御ステップと、前記テキストデータに基づいて、前記文字列を構成する各文字を前記時間軸方向に沿って前記画面に表示させる第２制御ステップと、前記特定ステップにより特定された音高、音圧、第１フォルマント周波数、及び第２フォルマント周波数に基づいて、時間軸方向に伸び、且つ、前記時間軸方向と直交する軸方向に時系列的に変化する第２のラインを、前記第１のラインと比較可能に前記画面に表示させる第３制御ステップと、をコンピュータに実行させ、前記第１制御ステップ及び前記第３制御ステップは、それぞれ、前記音高に基づいて、前記時間軸方向と直交する軸方向における前記ラインの位置を前記所定時間単位毎に決定するステップと、前記音圧に基づいて、前記ラインの幅を前記所定時間単位毎に決定するステップと、前記特定された第１フォルマント周波数の値に応じた色と前記特定された第２フォルマント周波数の値に応じた色との混合色を前記ラインの色として前記所定時間単位毎に決定するステップと、を含むことを特徴とする。

請求項１〜３に記載の発明によれば、手本となる音声と、話者の音声との発し方の違いを、話者に一見して、より分り易く把握させることができ、ラインの色のバリエーションを増やすことができるので、話者に対して与える視覚的効果を向上させることができる。

請求項４，７〜９，１１，及び１２に記載の発明によれば、時間経過に応じて滑らかにラインの色を変化させることができ、手本となる音声と、話者の音声との発し方の違いを、話者に対して、より一層、分り易く把握させることができる。

請求項５，６，１０に記載の発明によれば、ラインの色のバリエーションを増やすことができるので、話者に対して与える視覚的効果を向上させることができる。

本実施形態に係る音声情報表示装置Ｓの概要構成例を示す図である。フォルマント分布図の一例を示す図である。話者の音読中において、画面に表示される手本音声ライン及び話者音声ラインの一例を示す図である。音声情報表示装置Ｓにおける処理の流れ及び処理で用いられるデータを示す図である。図４に示す音声描画データ生成処理内容の一例を示す図である。図４に示す画面描画処理内容の一例を示す図である。

以下、本発明の実施形態を図面に基づいて説明する。なお、以下に説明する実施形態は、本発明を音声情報表示装置に適用した場合の実施形態である。

［１.音声情報表示装置Ｓの構成及び機能］
始めに、図１を参照して、本発明の実施形態に係る音声情報表示装置Ｓの構成及び機能について説明する。図１は、本実施形態に係る音声情報表示装置Ｓの概要構成例を示す図である。なお、音声情報表示装置の一例として、パーソナルコンピュータや、携帯型情報端末（スマートフォン等）などが挙げられる。図１に示すように、音声情報表示装置Ｓは、通信部１、記憶部２、制御部３、操作部４、及びインターフェース（ＩＦ）部５等を備えて構成され、これらの構成要素はバス６に接続されている。操作部４は、ユーザからの操作指示を受け付け、受け付けた操作に応じた信号を制御部３へ出力する。インターフェース部５には、マイクＭ、及びディスプレイＤ等が接続される。マイクＭは、語学学習や発声発話訓練等を行う話者が、複数の文字により構成される文字列（例えば、アナウンスされる文字列）を音読したときに発した音声を集音する。ディスプレイＤは、制御部３からの描画指令にしたがって、話者に提供する音声情報を画面に表示する。音声情報とは、音声の変化を表す音声ライン及び上記文字列を含む情報である。なお、マイクＭ、及びディスプレイＤは、音声情報表示装置Ｓと一体型であってもよいし、別体であってもよい。

通信部１は、有線または無線によりネットワーク（図示せず）に接続してサーバ等と通信を行う。記憶部２は、例えばハードディスクドライブ等からなり、ＯＳ（オペレーティングシステム）、及び表示制御処理プログラム（本発明のプログラムの一例）等を記憶する。表示制御処理プログラムは、コンピュータとしての制御部３に、後述する表示制御処理を実行させるプログラムである。表示制御処理プログラムは、アプリケーションとして、所定のサーバからダウンロードされてもよいし、ＣＤ、ＤＶＤ等の記録媒体に記憶されて提供されてもよい。また、記憶部２は、複数の文字により構成される文字列のテキストデータと、この文字列を音読するときの手本となる音声の波形を示す第１音声波形データ（以下、「手本音声波形データ」という）を記憶する。ここで、テキストデータには、例えば、各文字の発音タイミング（例えば、発音開始からの経過時間）が文字毎に対応付けられて含まれる。また、音読対象となる文字列の例として、例えば、語学学習またはアナウンス訓練などで用いられる文字列、または歌唱に用いられる文字列などが挙げられる。なお、手本音声波形データは、所定の音声ファイル形式で記憶される。

制御部３は、コンピュータとしてのＣＰＵ（Center Processing Unit）、ＲＯＭ（Read Only Memory）、及びＲＡＭ（Random Access Memory）等により構成される。制御部３は、表示制御処理プログラムにより、音声処理部３１及び描画制御部３２として機能する。音声処理部３１は、本発明における入力手段、及び特定手段の一例である。描画制御部３２は、本発明における第１制御手段、第２制御手段、及び第３制御手段の一例である。記憶部２または制御部３におけるＲＡＭは、本発明における記憶手段の一例である。

音声処理部３１は、所定の音声ファイル形式で記憶された手本音声波形データを記憶部２から入力する。また、音声処理部３１は、話者が上記文字列を音読したときに発した音声であってマイクＭにより集音された音声の波形を示す第２音声波形データ（以下、「話者音声波形データ」という）を入力する。手本音声波形データ及び話者音声波形データを総称して音声波形データという。音声波形データは、それぞれ、離散化された時系列の音圧波形データであり、例えば、サンプリングレート44.1kHz、量子化16bit、及びモノラルの波形データである。そして、音声処理部３１は、手本音声波形データに基づいて、所定単位毎に音高、音圧、及び発音特徴量を特定する。また、音声処理部３１は、話者音声波形データに基づいて、所定単位毎に音高、音圧、及び発音特徴量を特定する。なお、所定単位とは、時間単位（例えば、10ms〜100ms等）であってもよいし、文字単位であってもよい。

ここで、音高（ピッチ）とは、音の高さをいう。音声処理部３１は、例えば、音声波形データから例えば所定時間毎に切り出したデータから基本周波数（Hz）を算出し、算出した基本周波数（Hz）を音高として所定時間毎に特定（判定）する。これにより特定された音高を示す音高データは、所定時間毎に記憶される。なお、音高の算出方法には、例えば、ゼロクロス法やベクトル自己相関等の公知の手法を適用できる。

次に、音圧とは、音波による空気の圧力の変化分（Pa）をいう。本実施形態では、音圧として、瞬時音圧（Pa）の二乗平均平方根（RMS）である実効音圧（Pa）の大きさを計算上扱い易い数値で表した音圧レベル(dB)を適用する。音圧レベル(dB)は、広義には音量ともいう。音声処理部３１は、例えば、音声波形データから例えば所定時間毎に切り出したデータから音圧レベル(dB)を算出し、算出した音圧レベル(dB)を音圧として所定時間毎に特定する。これにより特定された音圧を示す音圧データは、所定時間毎に記憶される。

次に、発音特徴量とは、音声波形データの周波数スペクトルによって区別可能な特徴量である。周波数スペクトルは、例えば、周波数を横軸（Ｘ軸）にとり、当該周波数における音のパワー（例えば、音圧レベルの二乗）を縦軸（Ｙ軸）にとったときの周波数のスペクトルを示す。発音特徴量の例として、音素が挙げられる。１音素は、基本的には、１文字に対応する。音素の例として、母音のみ、子音のみ、子音と母音との組合せの３つが挙げられる。母音には、ａ（あ）、ｉ（い）、ｕ（う）、ｅ（え）、ｏ（お）の５母音がある。子音には、母音以外の音成分（例えば、ｋ、ｓ、ｔ、ｎ、ｈ、ｍ、ｙ、ｒ、ｗ・・・など）がある。また、例えば、日本語の「か」という音素は、ローマ字表記では“ｋａ”であるから、子音と母音の組合せということになる。また、日本語の「しゃ」という音素（これを１文字として認識）は、ローマ字表記では“ｓｙａ”であるから、これも、子音と母音との組合せということになる。また、日本語の「で」という音素は、ローマ字表記では“ｄｅ”であるから、これも、子音と母音との組合せということになる。なお、日本語の「ん」という音素は、ローマ字表記では“ｎ”または“ｍ”であるから、これは、子音である。

音声波形データが示す音声の波形から、文字間（言い換えれば、音素間）を明確に区切ることが可能な場合、発音特徴量の例として、母音の別、または音素の別を特定（判定）可能である。この場合、音声処理部３１は、例えば、音声波形データから例えば文字毎（言い換えれば、音素毎）に切り出したデータをフーリエ解析（ＦＦＴ）することで周波数スペクトルを算出する。そして、音声処理部３１は、算出した周波数スペクトルと、予め用意された音素毎の周波数スペクトルを示すテンプレートとを比較（テンプレートマッチング）することで発音特徴量としての母音または音素を文字毎に特定する。これにより特定された母音または音素を示す発音特徴量は、文字毎に記憶される。つまり、文字毎に、母音の別、または音素の別が記憶されることになる。なお、日本語の場合、子音のみで構成される「ん」という文字があるため、母音の別とは、「あ」、「い」、「う」、「え」、「お」、及び「ん」の別になる。また、音素を特定する場合、文字毎に切り出された音声の波形を、振幅が比較的小さい子音部と、振幅が比較的大きい母音部に分離してフーリエ解析することが望ましい。

発音特徴量の他の例として、フォルマント周波数及びノイズ周波数が挙げられる。フォルマント周波数とは、周波数スペクトルにより特定されるスペクトル包絡において山となる周波数をいい、周波数の低い方から第１フォルマント周波数、第２フォルマント周波数、第３フォルマント周波数・・・という。一般に、第１フォルマント周波数を横軸にとり、第２フォルマント周波数を縦軸にとったときのフォルマント分布（２次元座標平面）に基づき、母音の別を、ある程度判定することができる。図２に、フォルマント分布図の一例を示す。なお、フォルマント分布は、性別や言語等によって変わる。図２に示すフォルマント分布の２次元平面において、領域Ｒ１内は、母音“ａ”に相当する領域を示し、領域Ｒ２内は、母音“ｉ”に相当する領域を示し、領域Ｒ３内は、母音“ｕ”に相当する領域を示し、領域Ｒ４内は、母音“ｅ”に相当する領域を示し、領域Ｒ５内は、母音“ｏ”に相当する領域を示す。例えば、第１フォルマント周波数の値が１０００（Hz）、第２フォルマント周波数の値が１２００（Hz）である組合せは、母音“ａ”に相当する領域内にある。なお、第１フォルマント周波数の値と第２フォルマント周波数の値との組合せが、複数の領域内にある場合もある。また、ノイズ周波数とは、基本周波数及びその倍音以外の周波数以外のノイズ成分の周波数をいう。なお、明確な基本周波数が無い状態の時刻において、ノイズ成分のスペクトルを周波数軸方向に平滑化し、そのスペクトル包絡の中で一番大きな山の頂点をノイズ中心周波数という。子音は、ノイズ周波数を多く含んでいる。

発音特徴量がフォルマント周波数及びノイズ周波数である場合、例えば、音声処理部３１は、音声波形データをフーリエ解析し、周波数ビン単位でノイズ成分と調波成分とに分離し、分離したそれぞれの成分を再度逆フーリエ解析により、ノイズ成分の音声波形データと、調波成分の音声波形データとを生成する。そして、音声処理部３１は、ノイズ成分の音声波形データから例えば所定時間毎に切り出したデータをフーリエ解析することでノイズ成分の周波数スペクトルを算出する。さらに、音声処理部３１は、算出したノイズ成分の周波数スペクトルにおける周波数軸に対する平滑化を行うことでノイズ周波数を算出し、算出したノイズ周波数を発音特徴量として所定時間毎に特定する。これにより特定されたノイズ周波数を示す発音特徴量は、所定時間毎に記憶される。なお、ノイズ成分のスペクトル包絡は大きな山形になることが多いため、音声処理部３１は、その山の頂点をノイズ中心周波数として特定し、記憶する。一方、音声処理部３１は、調波成分の音声波形データから例えば所定時間毎に切り出したデータをフーリエ解析することで調波成分の周波数スペクトルを算出する。そして、音声処理部３１は、算出した調波成分の周波数スペクトルからケプストラム法によりフォルマント周波数を算出し、算出したフォルマント周波数を発音特徴量として所定時間毎に特定する。或いは、音声処理部３１は、調波成分の音声波形データから所定時間毎に切り出したデータに対して線形予測符号（LPC：linear predictive coding）法を用いてフォルマント周波数を算出し、算出したフォルマント周波数を発音特徴量として所定時間毎に特定する。以上のように特定されたフォルマント周波数を示す発音特徴量は、所定時間毎に記憶される。なお、音声処理部３１は、ケプストラム法、または線形予測符号法により求められたスペクトル包絡線の山の第１ピーク及び第２ピークを、第１フォルマント周波数及び第２フォルマント周波数を特定し、記憶する。また、上記において、再度逆フーリエ解析により生成されたノイズ成分の音声波形データと、調波成分の音声波形データとを合成して音声波形データに戻すように構成してもよい。この場合、戻された音声波形データに基づいて音圧等を特定するとよい。

また、音声処理部３１は、上述したように生成したノイズ成分の音声波形データから例えば所定時間毎に切り出したデータから音圧レベル(dB)を算出し、算出した音圧レベル(dB)をノイズ音圧として所定時間毎に特定してもよい。これにより特定されたノイズ音圧を示すノイズ音圧データは、所定時間毎に記憶される。また、音声処理部３１は、上述したように生成した調波成分の音声波形データから例えば所定時間毎に切り出したデータから音圧レベル(dB)を算出し、算出した音圧レベル(dB)を調波音圧として所定時間毎に特定してもよい。これにより特定された調波音圧を示す調波音圧データは、所定時間毎に記憶される。

次に、描画制御部３２は、手本音声波形データから特定された音高、音圧、及び発音特徴量に基づいて、時間軸（例えば、横軸）方向に伸び、且つ、時間軸方向と直交する軸（例えば、縦軸）方向に時系列的に変化する第１の音声ライン（以下、「手本音声ライン」という）をディスプレイＤの画面に表示させる。ここで、描画制御部３２は、手本音声ラインを表示させる際に、手本音声波形データから特定された音高に基づいて、時間軸方向と直交する軸方向における手本音声ラインの位置（座標）を例えば所定時間毎に決定し、手本音声波形データから特定された音圧に基づいて、手本音声ラインの幅（線幅）を例えば所定時間毎に決定する。さらに、描画制御部３２は、手本音声波形データから特定された発音特徴量に基づいて、手本音声ラインの色（線色）を所定単位毎（例えば、文字毎、または所定時間毎）に決定する。

ここで、音声ラインの色の決定方法の具体例について説明する。

（１）音声ラインの色の決定方法の具体例１
例えば、描画制御部３２は、特定された母音の別に応じて線色が異なるように文字毎に決定（つまり、母音別に予め設定された色を線色として決定）する。これにより、手本となる音声と、話者の音声との発し方の違いを、話者に対して、文字毎に明確に把握させることができる。或いは、描画制御部３２は、特定された母音の別に応じた色と、特定された子音に応じた色との混合色を線色として文字毎に決定してもよい。これにより、音声ラインの色のバリエーションを増やすことができるので、話者に対して与える視覚的効果を向上させることができる。この場合、子音には、母音に設定された色以外の色が予め設定される。

（２）音声ラインの色の決定方法の具体例２
例えば、描画制御部３２は、特定された第１フォルマント周波数の値と、特定された第２フォルマント周波数の値との組合せに応じた色を線色として所定時間毎に決定する。これにより、時間経過に応じて滑らかに音声ラインの色を変化させることができ、手本となる音声と、話者の音声との発し方の違いを、話者に対して、より一層、分り易く把握させることができる。また、音声波形データが示す音声の波形から、文字間を明確に区切ることが困難な場合であっても、手本となる音声と、話者の音声との発し方の違いを、話者に対して、より一層、分り易く把握させることができる。この場合、例えば、所定の第１フォルマント周波数の値と、所定の第２フォルマント周波数の値との複数の基準組合せ毎に所定の基準色が予め設定される。この基準組合せは、母音の数分あり、母音毎に異なる基準色があることが望ましい。例えば、図２に示すフォルマント分布の２次元平面において、母音“ａ”の領域Ｒ１のほぼ中心部に相当する基準組合せに対して所定の基準色として「青」が予め設定される。この基準組合せは、（x1,y1）＝（第１フォルマント周波数の値,第２フォルマント周波数の値）を示すか、或いは、（x1,y1）を含む領域Ｒ１内の座標群を示す。また、母音“i”の領域Ｒ２のほぼ中心部に相当する基準組合せに対しては、所定の基準色として「赤」が予め設定される。この基準組合せは、（x2,y2）＝（第１フォルマント周波数の値,第２フォルマント周波数の値）を示すか、或いは、（x2,y2）を含む領域Ｒ２内の座標群を示す。また、母音“ｕ”の領域Ｒ３のほぼ中心部に相当する基準組合せに対しては、所定の基準色として「緑」が設定される。この基準組合せは、（x3,y3）＝（第１フォルマント周波数の値,第２フォルマント周波数の値）を示すか、或いは、（x3,y3）を含む領域Ｒ３内の座標群を示す。また、母音“ｅ”の領域Ｒ４のほぼ中心部に相当する基準組合せに対しては、所定の基準色として「紫」が設定される。この基準組合せは、（x4,y4）＝（第１フォルマント周波数の値,第２フォルマント周波数の値）を示すか、或いは、（x4,y4）を含む領域Ｒ４内の座標群を示す。また、母音“ｏ”の領域Ｒ５のほぼ中心部に相当する基準組合せに対しては、所定の基準色として「黄」が設定される。この基準組合せは、（x5,y5）＝（第１フォルマント周波数の値,第２フォルマント周波数の値）を示すか、或いは、（x5,y5）を含む領域Ｒ５内の座標群を示す。

そして、描画制御部３２は、特定された第１フォルマント周波数の値と、特定された第２フォルマント周波数の値との組合せ（x0,y0）から、例えば上記２次元平面上における距離が最も近い基準組合せ（或いは、組合せ（x0,y0）を含む基準組合せ）に対して予め設定された色（調波色という）を線色として所定時間毎に決定する。或いは、描画制御部３２は、特定された第１フォルマント周波数の値と特定された第２フォルマント周波数の値との組合せに応じた色（調波色）と、特定されたノイズ周波数（例えば、ノイズ中心周波数）の値に応じた色（ノイズ成分の値に応じた色の一例であり、ノイズ色という）との混合色を線色として所定時間毎に決定してもよい。これにより、音声ラインの色のバリエーションを増やすことができるので、話者に対して与える視覚的効果を向上させることができる。この場合、ノイズ周波数（例えば、ノイズ中心周波数）の値には、上記基準色以外の色が予め設定される。

或いは、描画制御部３２は、基準組合せである（xα,yβ）から座標平面上での距離が離れるほど、この基準組合せに対して予め設定された基準色からの変化度合いが大きくなるように、特定された第１フォルマント周波数の値と特定された第２フォルマント周波数の値との組合せに応じた色（調波色）を所定時間毎に決定してもよい。これにより、音声ラインの色のバリエーションを増やすことができるので、話者に対して与える視覚的効果を向上させることができる。ここで、（xα,yβ）は、（x1,y1）、（x2,y2）、（x3,y3）、（x4,y4）、または（x5,y5）を示す。例えば、（xα,yβ）が（x1,y1）である場合、図２に示す領域Ｒ１の外縁に近づくほど、基準組合せ（x1,y1）に対して予め設定された基準色（例えば、（R輝度値,G輝度値,B輝度値）＝（0,0,255））からの変化度合いが大きくなる。基準色からの変化度合いが大きいとは、例えば、基準色からの色差が大きいことを意味する。色差とは、例えば、色をＲＧＢで表す場合、ＲＧＢの３次元色空間における基準色の座標（0,0,255）（一例として、色を８ビットで表現）からのユークリッド距離により求まる。この場合、描画制御部３２は、所定の第１フォルマント周波数の値xαと特定された第１フォルマント周波数の値x0の差と、所定の第２フォルマント周波数の値yβと特定された第２フォルマント周波数の値y0の差との自乗和（（xα-x0)^2 + (yβ-y0)^2）を算出（または自乗和の平方根を算出）する。そして、描画制御部３２は、算出した自乗和（または自乗和の平方根）が大きいほど、上記基準色からの変化度合いが大きくなるように、特定された第１フォルマント周波数の値と特定された第２フォルマント周波数の値との組合せに応じた色を計算により決定する。例えば、組合せに応じた色は、基準色（0,0,255）におけるR輝度値（0）またはG輝度値(0)に上記自乗和に比例した値（ただし、255以下）が加算されることで決定されるか、或いは、B輝度値(255)から上記自乗和に比例した値（ただし、255以下）が減算されることで決定される。

（３）音声ラインの色の決定方法の具体例３
例えば、描画制御部３２は、特定された第１フォルマント周波数の値に応じた色（調波色）と特定された第２フォルマント周波数の値に応じた色（調波色）との混合色を線色として所定時間毎に決定する。これにより、時間経過に応じて滑らかにラインの色を変化させることができ、手本となる音声と、話者の音声との発し方の違いを、話者に対して、より一層、分り易く把握させることができる。また、音声波形データが示す音声の波形から、文字間を明確に区切ることが困難な場合であっても、手本となる音声と、話者の音声との発し方の違いを、話者に対して、より一層、分り易く把握させることができる。例えば、描画制御部３２は、特定された第１フォルマント周波数の値を例えば255以下のG輝度値に変換（例えば、輝度値＝周波数／ｋ（係数）の変換式による）することで、このG輝度値を第１フォルマント周波数の値に応じた色として決定する。さらに、描画制御部３２は、特定された第２フォルマント周波数の値を例えば255以下のB輝度値に変換することで、このB輝度値を第２フォルマント周波数の値に応じた色として決定する。そして、描画制御部３２は、決定したG輝度値とB輝度値により求まる上記混合色（例えば、（R輝度値,G輝度値,B輝度値））を線色として決定する。ここで、残りの輝度値であるR輝度値は例えば0〜255の中の任意の値であってもよいが、描画制御部３２は、上述した調波音圧データが示す調波音圧の値（音圧レベル(dB)）を例えば255以下のR輝度値に変換することで、G輝度値とB輝度値により求まる上記混合色の濃さを調整すればより効果的である。なお、第１フォルマント周波数の値と第２フォルマント周波数の値との輝度値の組合せは、G輝度値とB輝度値との組合せではなく、B輝度値とG輝度値との組合せ、R輝度値とG輝度値との組合せ、R輝度値とB輝度値との組合せ、B輝度値とR輝度値との組合せ、またはG輝度値とR輝度値との組合せであってもよく、これらの場合も残りの輝度値を調波音圧の値に応じて調整するとよい。

或いは、描画制御部３２は、特定された第１フォルマント周波数の値に応じた色（調波色）と特定された第２フォルマント周波数の値に応じた色（調波色）との混合色（例えば、上述したように決定される（R輝度値,G輝度値,B輝度値））と、特定されたノイズ周波数（例えば、ノイズ中心周波数）の値に応じた色（ノイズ色）との混合色を線色として所定時間毎に決定してもよい。これにより、音声ラインの色のバリエーションを増やすことができるので、話者に対して与える視覚的効果を向上させることができる。この場合、ノイズ周波数（例えば、ノイズ中心周波数）の値には、上記基準色以外の色が予め設定される。なお、描画制御部３２は、上述したノイズ成分音圧データが示すノイズ成分音圧の値（音圧レベル(dB)）に応じて、ノイズ周波数（例えば、ノイズ中心周波数）の値に応じた色の濃さを調整すればより効果的である。

以上説明した決定方法以外の方法で、発音特徴量に基づいて音声ラインの色が決定されてもよい。

また、描画制御部３２は、上記文字列のテキストデータを記憶部２から取得し、取得したテキストデータに基づいて、この文字列を構成する各文字を時間軸（例えば、横軸）方向に沿って手本音声ラインに対応させるようにディスプレイＤの画面に表示させる。ここで、描画制御部３２は、文字を表示させる際に、手本音声波形データから特定された音高に基づいて、時間軸方向と直交する軸方向における文字の位置を文字毎に決定し、手本音声波形データから特定された音圧に基づいて、文字のサイズを文字毎に決定する。

更に、描画制御部３２は、話者音声波形データから特定された音高、音圧、及び発音特徴量に基づいて、時間軸（例えば、横軸）方向に伸び、且つ、時間軸方向と直交する軸（例えば、縦軸）方向に時系列的に変化する第２の音声ライン（以下、「話者音声ライン」という）を、手本音声ラインと比較可能にディスプレイＤの画面に表示させる。ここで、描画制御部３２は、話者音声ラインを表示させる際に、話者音声波形データから特定された音高に基づいて、時間軸方向と直交する軸方向における話者音声ラインの位置を例えば所定時間毎に決定し、話者音声波形データから特定された音圧に基づいて、話者音声ラインの幅を例えば所定時間毎に決定する。さらに、描画制御部３２は、話者音声波形データから特定された発音特徴量に基づいて、話者音声ラインの色を所定単位毎（例えば、文字毎、または所定時間毎）に決定する。なお、話者音声ラインの色の決定方法の具体例については、上述した手本音声ラインの色の決定方法の具体例１〜３と同様である。

また、描画制御部３２は、上記取得したテキストデータに基づいて、この文字列を構成する各文字を時間軸（例えば、横軸）方向に沿って話者音声ラインに対応させるようにディスプレイＤの画面に表示させる。例えば、描画制御部３２は、話者音声波形データから特定された音高に基づいて、時間軸方向と直交する軸方向における文字の位置を文字毎に決定し、話者音声波形データから特定された音圧に基づいて、文字のサイズを文字毎に決定する。

図３は、話者の音読中において、画面に表示される手本音声ライン及び話者音声ラインの一例を示す図である。なお、図３は、発音特徴量として音素が特定された場合の画面例である。図３に示す画面には、手本音声ライン表示部５１と、話者音声ライン表示部５２、及び音素／線色対応付け表示部５３が設けられている。手本音声ライン表示部５１及び話者音声ライン表示部５２内は、それぞれ、音高を縦軸（Ｙ軸）にとり、時間を横軸（Ｘ軸）とった座標平面で構成されている。手本音声ライン表示部５１内には、手本音声ライン５１ａ及び文字列を構成する各文字５１ｂが表示されている。また、話者音声ライン表示部５２には、話者音声ライン５２ａ及び文字列を構成する各文字５２ｂが表示されている。また、手本音声ライン表示部５１の時間軸（横軸）方向の時間の刻み幅と、及び話者音声ライン表示部５２の時間軸（横軸）方向の時間の刻み幅は、一致するように構成されているので、話者音声ライン５２ａと手本音声ライン５１ａとを比較可能に表示させることができる。

音素／線色対応付け表示部５３には、音素（この例では、母音と“ん”）と線色（音声ラインの色）との対応関係が表示されている。音素と線色との対応付けは、予め設定される。この例では、「あ」、「い」、「う」、「え」、「お」の母音に対して、それぞれ、「青」、「赤」、「緑」、「紫」、「黄」が予め設定されている。また、「ん」に対して、「灰」（グレー）が予め設定されている。なお、「ん」以外の子音に対しても、「灰」が予め設定されてもよいし、子音毎に異なる線色が予め設定されてもよい。例えば音素が「か」のように、子音と母音の組合せである場合、例えば、子音に対して予め設定された線色と、母音に対して予め設定された線色とを合成した混合色となる。なお、子音に対して線色が予め設定されてなくてもよい。この場合、例えば音素が「か」のように、子音と母音の組合せである場合、例えば、母音に対して設定された線色となる。また、図３に示す現在発話位置は、文字列を音読している話者の現在の音読位置を示している。

また、手本音声ライン表示部５１に表示される手本音声ライン５１ａを構成する各点の縦軸（Ｙ軸）方向における位置（ｙ座標）は、手本音声波形データから特定された音高に基づいて、横軸（Ｘ軸）方向に所定時間（例えば、10ms）毎に決定されている。この場合、音高が高いほど、手本音声ライン５１ａを構成する点の位置が座標平面上で、ｙ座標の値が大きい位置に決定されるようになっている。また、手本音声ライン表示部５１に表示される手本音声ライン５１ａの幅は、手本音声波形データから特定された音圧に基づいて、横軸（Ｘ軸）方向に所定時間（例えば、10ms）毎に決定されている。この場合、音圧が高いほど、手本音声ライン５１ａの幅が太く決定されるようになっている。なお、手本音声ライン５１ａの幅は、手本音声ライン５１ａが伸びる（進む）方向と直交する方向の幅（つまり、太さ）である。また、特定された音圧が閾値以下である区間は、手本音声ライン５１ａを表示しないように構成してもよい。図３に示す区間ｘ３は、発話されない区間であり、音圧が閾値以下となるため、手本音声ライン５１ａが表示されていない。このように、手本音声ライン５１ａは、途中で切れていてもよく、特に、話者が発した声が小さい場合、途切れ途切れの話者音声ライン５２ａになる場合もある。なお、話者音声ライン表示部５２に表示される話者音声ライン５２ａの位置、及び幅についても、話者音声波形データから特定された音高、及び音圧に基づいて、手本音声ライン５１ａと同様の方法で決定される。

また、手本音声ライン表示部５１に表示される手本音声ライン５１ａの色（線色）は、手本音声波形データから特定された音素に基づいて、横軸（Ｘ軸）方向に文字（つまり、音素）毎に決定されている。これは、上述した、音声ラインの色の決定方法の具体例１により決定される。例えば、子音と母音の組合せである「ご」に対応する区間ｘ１の線色は、子音“ｇ”に対して予め設定された色（母音以外の音成分に応じた色の一例）と、母音“ｏ” に対して予め設定された色（母音の別に応じた色）との混合色になっている。また、例えば、母音「あ」に対応する区間ｘ２の線色は、母音“ａ” に対して予め設定された色（母音の別に応じた色）になっている。文字毎の区間の時間長さは、上記所定時間（例えば、10ms）より長くなる。また、文字毎の区間の時間長さは、互いに同一であるとは限らず、図３に示すように、ｘ１（例えば、100ms）とｘ２（例えば、300ms）との時間長さは異なっている。なお、話者音声ライン表示部５２に表示される話者音声ライン５２ａの色についても、話者音声波形データから特定された音素に基づいて、手本音声ライン５１ａと同様の方法で決定される。

さらに、手本音声ライン表示部５１に表示される各文字５１ｂの縦軸（Ｙ軸）方向における位置（ｙ座標）は、手本音声波形データから特定された音高に基づいて、横軸（Ｘ軸）方向に文字毎に決定されている。この場合、音高が高いほど、各文字５１ｂの位置が座標平面上で、ｙ座標の値が大きい位置に決定されるようになっている。ここで用いられる音高は、例えば、文字毎の区間（例えば、ｘ１）内に含まれる複数の音高の平均値とされる。また、手本音声ライン表示部５１に表示される各文字５１ｂのサイズが、横軸（Ｘ軸）方向に文字毎に決定されている。この場合、音圧が高いほど、各文字５１ｂのサイズが大きくなるようになっている。ここで用いられる音圧は、例えば、文字毎の区間（例えば、ｘ１）内に含まれる複数の音圧の平均値とされる。なお、話者音声ライン表示部５２に表示される各文字５２ｂの位置、及びサイズについても、話者音声波形データから特定された音高、及び音圧に基づいて、各文字５１ｂと同様の方法で決定される。

以上のように、手本音声ライン５１ａ及び文字列を構成する各文字５１ｂと、話者音声ライン５２ａ及び文字列を構成する各文字５２ｂとが比較可能に表示されるので、手本となる音声と、話者が音声との発し方の違いを、話者に一見して、より分り易く把握させることができる。

なお、図３の例では、発音特徴量として特定された音素に基づいて線色が決定された場合を示したため、各文字の区間の境で色が明確に変化している。しかし、発音特徴量としてフォルマント周波数等が特定された場合、手本音声ライン５１ａと話者音声ライン５２ａの色は、それぞれ、特定されたフォルマント周波数（または、フォルマント周波数及びノイズ周波数）に基づいて、横軸（Ｘ軸）方向に所定時間（例えば、10ms）毎に決定される。このため、手本音声ライン５１ａと話者音声ライン５２ａの色は、図３に示すよりも滑らかに変化する（言い換えれば、グラデーションのように変化する）ことになる。

［２.音声情報表示装置Ｓの動作例］
次に、図４〜図６を参照して、音声情報表示装置Ｓの動作の一例について説明する。以下に説明する動作例は、発音特徴量としてフォルマント周波数等が特定された場合の例である。図４は、音声情報表示装置Ｓにおける処理の流れ及び処理で用いられるデータを示す図である。図５は、図４に示す音声描画データ生成処理内容の一例を示す図である。図６は、図４に示す画面描画処理内容の一例を示す図である。

図４において、先ず、例えば話者が操作部４を介して音読対象のお手本となる所望の音声ファイルを指定すると、制御部３は、音声ファイル入力処理を実行し、指定された音声ファイルに格納された手本音声波形データを入力する（ステップＳ１）。次いで、制御部３の音声処理部３１は、入力した手本音声波形データに基づいて、音声描画データ生成処理を実行する（ステップＳ２）。音声描画データ生成処理では、図５に示すように、音高データ算出処理（ステップＳ２１）、音圧データ算出処理（ステップＳ２２）、及び発音特徴量特定処理（ステップＳ２３）が実行される。音高データ算出処理、音圧データ算出処理、及び発音特徴量特定処理は、直列的に実行されてもよいし、並列的に実行されてもよい。直列的に実行される場合、音高データ算出処理、音圧データ算出処理、及び発音特徴量特定処理のうち、どの順番で処理が実行されてもよい。

音高データ算出処理（ステップＳ２１）では、音声処理部３１は、入力した手本音声波形データに基づいて、所定時間毎に音高を特定する音高特定処理（ステップＳ２１１）を実行する。音高特定処理では、音声処理部３１は、例えば、手本音声波形データから所定時間毎に切り出したデータから基本周波数（Hz）を算出し、算出した基本周波数（Hz）を音高として所定時間毎に特定する。そして、音声処理部３１は、所定時間毎に特定した音高を示す音高データを時系列で算出する。

音圧データ算出処理（ステップＳ２２）では、音声処理部３１は、入力した手本音声波形データに基づいて、所定時間毎に音圧を特定する音圧特定処理（ステップＳ２２１）を実行する。音圧特定処理では、音声処理部３１は、例えば、手本音声波形データから所定時間毎に切り出したデータから音圧レベル(dB)を算出し、算出した音圧レベル(dB)を音圧として所定時間毎に特定する。そして、音声処理部３１は、所定時間毎に特定した音圧を示す音圧データを時系列で算出する。

発音特徴量特定処理（ステップＳ２３）では、音声処理部３１は、例えば、入力した手本音声波形データにおけるノイズ成分と調波成分を分離するノイズ・調波成分分離処理（ステップＳ２３１）を実行する。ノイズ・調波成分分離処理では、音声処理部３１は、例えば、手本音声波形データをフーリエ解析し、周波数ビン単位でノイズ成分と調波成分とに分離し、分離したそれぞれの成分を再度逆フーリエ解析により、ノイズ成分の音声波形データと、調波成分の音声波形データとを生成する。

次いで、音声処理部３１は、生成したノイズ成分の音声波形データに基づいて、所定時間毎にノイズ音圧を特定するノイズ音圧特定処理（ステップＳ２３２）と、所定時間毎にノイズ中心周波数を算出するノイズ中心周波数算出処理（ステップＳ２３３）とを実行する。ノイズ音圧特定処理では、音声処理部３１は、例えば、ノイズ成分の音声波形データから所定時間毎に切り出したデータから音圧レベル(dB)を算出し、算出した音圧レベル(dB)をノイズ音圧として所定時間毎に特定する。そして、音声処理部３１は、所定時間毎に特定したノイズ音圧を示すノイズ音圧データを時系列で算出する。一方、ノイズ中心周波数算出処理では、音声処理部３１は、例えば、ノイズ成分の音声波形データから所定時間毎に切り出したデータをフーリエ解析することでノイズ成分の周波数スペクトルを算出する。そして、音声処理部３１は、算出したノイズ成分の周波数スペクトルにおける周波数軸に対する平滑化を行うことでノイズ周波数を所定時間毎に特定し、そのスペクトル包絡の中で頂点をノイズ中心周波数として時系列で算出する。

また、音声処理部３１は、生成した調波成分の音声波形データに基づいて、所定時間毎に調波音圧を特定する調波音圧特定処理（ステップＳ２３４）と、所定時間毎にフォルマント周波数を算出するフォルマント算出処理（ステップＳ２３５）とを実行する。調波音圧特定処理では、音声処理部３１は、例えば、調波成分の音声波形データから所定時間毎に切り出したデータから音圧レベル(dB)を算出し、算出した音圧レベル(dB)を調波音圧として所定時間毎に特定する。そして、音声処理部３１は、所定時間毎に特定した調波音圧を示す調波音圧データを時系列で算出する。一方、フォルマント算出処理では、音声処理部３１は、例えば、調波成分の音声波形データから所定時間毎に切り出したデータに対して線形予測符号法を用いて第１フォルマント周波数及び第２フォルマント周波数を所定時間毎に時系列で算出する。

そして、音声処理部３１は、ステップＳ２の音声描画データ生成処理により算出された音高データ、音圧データ、ノイズ音圧データ、ノイズ中心周波数、調波音圧データ、第１フォルマント周波数、及び第２フォルマント周波数を、図４に示すように、音声描画データとして、例えば記憶部２に設けられた描画ＤＢ（データベース）に記憶する。次いで、制御部３は、音声ファイル入力処理を実行し、例えば話者により指定された音声ファイルに対応付けられたテキストデータであって、音読対象となる文字列のテキストデータを入力し（ステップＳ３）、図４に示すように、テキスト描画データとして、描画ＤＢに記憶する。

一方、話者が文字列の音読を開始すると、この文字列の音読中に発せられた音声がマイクＭにより集音され、集音された音声の波形を示す話者音声波形データが、インターフェース部５を介して音声情報表示装置Ｓへ出力される。そして、制御部３は、音声入力処理を実行することで、マイクＭから話者音声波形データを入力する（ステップＳ４）。次いで、制御部３の音声処理部３１は、入力した話者音声波形データに基づいて、図５に示す音声描画データ生成処理を実行する（ステップＳ５）。この音声描画データ生成処理では、手本音声波形データの場合と同様の方法で、音高データ算出処理（ステップＳ２１）、音圧データ算出処理（ステップＳ２２）、及び発音特徴量特定処理（ステップＳ２３）が実行される。そして、音声処理部３１は、ステップＳ５の音声描画データ生成処理により算出された音高データ、音圧データ、ノイズ音圧データ、ノイズ中心周波数、調波音圧データ、第１フォルマント周波数、及び第２フォルマント周波数を、音声描画データとして順次、描画制御部３２へ出力する。

次いで、制御部３の描画制御部３２は、描画データベースから取得される音声描画データ（手本）及びテキスト描画データに基づいて画面描画処理（手本用の画面描画処理）を実行し、且つ音声処理部３１から取得される音声描画データ（話者）及び描画データベースから取得されるテキスト描画データに基づいて画面描画処理（話者用の画面描画処理）を実行する（ステップＳ６）。なお、手本用の画面描画処理と話者用の画面描画処理とは、直列的に実行されてもよいし、並列的に実行されてもよい。また、話者の音読中にリアルタイムで話者用の画面描画処理が実行されてもよい。なお、図６の例では、１つの画面描画処理内容を示しているが、この画面描画処理は、手本用と話者用とのそれぞれで実行される。

画面描画処理では、図６に示すように、描画制御部３２は、テキスト表示処理（ステップＳ６１）と、線表示処理（ステップＳ６２）と、線幅変更処理（ステップＳ６３）と、ノイズ色生成処理（ステップＳ６４）と、調波色生成処理（ステップＳ６５）と、色合成表示処理（ステップＳ６６）とを実行する。なお、テキスト表示処理と線表示処理は、直列的に実行されてもよいし、並列的に実行されてもよい。直列的に実行される場合、テキスト表示処理と線表示処理のうち、どの順番で処理が実行されてもよい。

テキスト表示処理（ステップＳ６１）では、描画制御部３２は、取得したテキスト描画データに基づいて表示文字（つまり、画面に表示させる文字）、及び横軸（Ｘ軸）方向における表示文字の表示位置を文字毎に決定する。表示文字の表示位置は、例えば、テキスト描画データに含まれる発音タイミングにより決定される。ただし、話者により音読された文字の表示位置は、例えばラベリング処理により決定される。ラベリング処理は、テキスト描画データと、話者音声波形データと、話者音声波形データの周波数スペクトログラムとに基づいて、音読（発話）内容に則した音素ラベルの付与と、音素間の境界位置の特定を行う処理である。ラベリング処理には、公知の様々な手法を適用できるので、詳しい説明を省略する。次いで、描画制御部３２は、取得した音声描画データに含まれる音高データが示す音高に基づいて、縦軸（Ｙ軸）方向における表示文字の表示位置を決定し、取得した音声描画データに含まれる音圧データが示す音圧に基づいて、表示文字のサイズを決定する。そして、描画制御部３２は、決定した表示文字、表示位置、及びサイズにしたがってディスプレイＤへ描画指令を与えることで画面に表示文字を描画する。

線表示処理（ステップＳ６２）では、描画制御部３２は、取得した音声描画データに含まれる音高データが示す音高に基づいて、上述したように、縦軸（Ｙ軸）方向における音声ライン（手本音声ラインまたは話者音声ライン）の表示位置を所定時間毎に決定する。また、描画制御部３２は、取得した音声描画データに含まれる音圧データが示す音圧が閾値以下である区間を特定する。そして、描画制御部３２は、決定した表示位置にしたがってディスプレイＤへ描画指令を与えることで画面に時系列的に変化する音声ラインを描画する。なお、音圧が閾値以下である区間が特定されていれば、描画制御部３２は、この区間には音声ラインを描画しない。

線幅変更処理（ステップＳ６３）では、描画制御部３２は、取得した音声描画データに含まれる音圧データが示す音圧に基づいて、上述したように、音声ラインの幅を所定時間毎に決定する。そして、描画制御部３２は、決定した幅にしたがってディスプレイＤへ描画指令を与えることで音声ラインの幅を変更させる。

ノイズ色生成処理（ステップＳ６４）では、描画制御部３２は、例えば、取得した音声描画データに含まれるノイズ中心周波数の値に応じた色を決定し、決定した色の濃さを、音声描画データに含まれるノイズ音圧データが示すノイズ音圧の値に応じて決定することでノイズ色を所定時間毎に生成する。

調波色生成処理（ステップＳ６５）では、描画制御部３２は、例えば、取得した音声描画データに含まれる第１フォルマント周波数の値に応じた色と、音声描画データに含まれる第２フォルマント周波数の値に応じた色との混合色を決定し、決定した混合色の濃さを音声描画データに含まれる調波音圧データが示す調波音圧の値に応じて決定することで調波色を所定時間毎に生成する。

色合成表示処理（ステップＳ６６）では、描画制御部３２は、ノイズ色生成処理により生成されたノイズ色と、調波色生成処理により生成された調波色とを合成（ミックス）して線色を所定時間毎に決定する。そして、描画制御部３２は、決定した線色にしたがってディスプレイＤへ描画指令を与えることで音声ラインに色を付ける。

以上説明したように、上記実施形態によれば、文字列を音読するときの手本となる音声の変化を表す手本音声ラインの位置、幅、及び色を手本音声波形データから特定された音高、音圧、及び発音特徴量に基づいて決定し、話者が上記文字列を音読するときに発した音声の変化を表す話者音声ラインの位置、幅、及び色を話者音声波形データから特定された音高、音圧、及び発音特徴量に基づいて決定して、手本音声ラインと話者音声ラインとを比較可能に画面に表示させるとともに、上記文字列を時間軸方向に沿って画面に表示させるように構成したので、手本となる音声と、話者の音声との発し方の違いを、話者に一見して、より分り易く把握させることができる。

１通信部
２記憶部
３制御部
４操作部
５インターフェース部
６バス
３１音声処理部
３２描画制御部
Ｓ音声情報表示装置

Claims

複数の文字により構成される文字列のテキストデータと、前記文字列を音読するときの手本となる音声の波形を示す第１音声波形データに基づいて文字単位毎に特定された音高、音圧、母音、及び前記母音以外の音成分を記憶する記憶手段と、
話者が前記文字列を音読したときに発した音声の波形を示す第２音声波形データを入力する入力手段と、
前記第２音声波形データに基づいて、前記文字単位毎に音高、音圧、母音、及び前記母音以外の音成分を特定する特定手段と、
前記記憶手段に記憶された音高、音圧、母音、及び前記母音以外の音成分に基づいて、時間軸方向に伸び、且つ、前記時間軸方向と直交する軸方向に時系列的に変化する第１のラインを画面に表示させる第１制御手段と、
前記テキストデータに基づいて、前記文字列を構成する各文字を前記時間軸方向に沿って前記画面に表示させる第２制御手段と、
前記特定手段により特定された音高、音圧、母音、及び前記母音以外の音成分に基づいて、時間軸方向に伸び、且つ、前記時間軸方向と直交する軸方向に時系列的に変化する第２のラインを、前記第１のラインと比較可能に前記画面に表示させる第３制御手段と、
を備え、
前記第１制御手段及び前記第３制御手段は、それぞれ、
前記音高に基づいて、前記時間軸方向と直交する軸方向における前記ラインの位置を前記文字単位毎に決定する第１決定部と、
前記音圧に基づいて、前記ラインの幅を前記文字単位毎に決定する第２決定部と、
前記特定された母音の別に応じた色と、前記母音以外の音成分に応じた色との混合色を前記ラインの色として前記文字単位毎に決定する第３決定部と、
を備えることを特徴とする表示制御装置。
１つ以上のコンピュータにより実行される表示制御方法であって、
複数の文字により構成される文字列のテキストデータと、前記文字列を音読するときの手本となる音声の波形を示す第１音声波形データに基づいて文字単位毎に特定された音高、音圧、母音、及び前記母音以外の音成分を記憶手段に記憶する記憶ステップと、
話者が前記文字列を音読したときに発した音声の波形を示す第２音声波形データを入力する入力ステップと、
前記第２音声波形データに基づいて、前記文字単位毎に音高、音圧、母音、及び前記母音以外の音成分を特定する特定ステップと、
前記記憶ステップにより記憶された音高、音圧、母音、及び前記母音以外の音成分に基づいて、時間軸方向に伸び、且つ、前記時間軸方向と直交する軸方向に時系列的に変化する第１のラインを画面に表示させる第１制御ステップと、
前記テキストデータに基づいて、前記文字列を構成する各文字を前記時間軸方向に沿って前記画面に表示させる第２制御ステップと、
前記特定ステップにより特定された音高、音圧、母音、及び前記母音以外の音成分に基づいて、時間軸方向に伸び、且つ、前記時間軸方向と直交する軸方向に時系列的に変化する第２のラインを、前記第１のラインと比較可能に前記画面に表示させる第３制御ステップと、
を備え、
前記第１制御ステップ及び前記第３制御ステップは、それぞれ、
前記音高に基づいて、前記時間軸方向と直交する軸方向における前記ラインの位置を前記文字単位毎に決定するステップと、
前記音圧に基づいて、前記ラインの幅を前記文字単位毎に決定するステップと、
前記特定された母音の別に応じた色と、前記母音以外の音成分に応じた色との混合色を前記ラインの色として前記文字単位毎に決定するステップと、
を含むことを特徴とする表示制御方法。
複数の文字により構成される文字列のテキストデータと、前記文字列を音読するときの手本となる音声の波形を示す第１音声波形データに基づいて文字単位毎に特定された音高、音圧、母音、及び前記母音以外の音成分を記憶手段に記憶する記憶ステップと、
話者が前記文字列を音読したときに発した音声の波形を示す第２音声波形データを入力する入力ステップと、
前記第２音声波形データに基づいて、前記文字単位毎に音高、音圧、母音、及び前記母音以外の音成分を特定する特定ステップと、
前記記憶ステップにより記憶された音高、音圧、母音、及び前記母音以外の音成分に基づいて、時間軸方向に伸び、且つ、前記時間軸方向と直交する軸方向に時系列的に変化する第１のラインを画面に表示させる第１制御ステップと、
前記テキストデータに基づいて、前記文字列を構成する各文字を前記時間軸方向に沿って前記画面に表示させる第２制御ステップと、
前記特定ステップにより特定された音高、音圧、母音、及び前記母音以外の音成分に基づいて、時間軸方向に伸び、且つ、前記時間軸方向と直交する軸方向に時系列的に変化する第２のラインを、前記第１のラインと比較可能に前記画面に表示させる第３制御ステップと、
をコンピュータに実行させ、
前記第１制御ステップ及び前記第３制御ステップは、それぞれ、
前記音高に基づいて、前記時間軸方向と直交する軸方向における前記ラインの位置を前記文字単位毎に決定するステップと、
前記音圧に基づいて、前記ラインの幅を前記文字単位毎に決定するステップと、
前記特定された母音の別に応じた色と、前記母音以外の音成分に応じた色との混合色を前記ラインの色として前記文字単位毎に決定するステップと、
を含むことを特徴とするプログラム。
複数の文字により構成される文字列のテキストデータと、前記文字列を音読するときの手本となる音声の波形を示す第１音声波形データに基づいて所定時間単位毎に特定された音高、音圧、第１フォルマント周波数、及び第２フォルマント周波数を記憶する記憶手段と、
話者が前記文字列を音読したときに発した音声の波形を示す第２音声波形データを入力する入力手段と、
前記第２音声波形データに基づいて、前記所定時間単位毎に音高、音圧、第１フォルマント周波数、及び第２フォルマント周波数を特定する特定手段と、
前記記憶手段に記憶された音高、音圧、第１フォルマント周波数、及び第２フォルマント周波数に基づいて、時間軸方向に伸び、且つ、前記時間軸方向と直交する軸方向に時系列的に変化する第１のラインを画面に表示させる第１制御手段と、
前記テキストデータに基づいて、前記文字列を構成する各文字を前記時間軸方向に沿って前記画面に表示させる第２制御手段と、
前記特定手段により特定された音高、音圧、第１フォルマント周波数、及び第２フォルマント周波数に基づいて、時間軸方向に伸び、且つ、前記時間軸方向と直交する軸方向に時系列的に変化する第２のラインを、前記第１のラインと比較可能に前記画面に表示させる第３制御手段と、
を備え、
前記第１制御手段及び前記第３制御手段は、それぞれ、
前記音高に基づいて、前記時間軸方向と直交する軸方向における前記ラインの位置を前記所定時間単位毎に決定する第１決定部と、
前記音圧に基づいて、前記ラインの幅を前記所定時間単位毎に決定する第２決定部と、
前記特定された第１フォルマント周波数の値と前記特定された第２フォルマント周波数の値との組合せに応じた色を前記ラインの色として前記所定時間単位毎に決定する第３決定部と、
を備えることを特徴とする表示制御装置。
所定の第１フォルマント周波数の値と所定の第２フォルマント周波数の値との組合せに対して所定の基準色が設定されており、
前記特定された第１フォルマント周波数の値と前記特定された第２フォルマント周波数の値との組合せに応じた色は、所定の第１フォルマント周波数の値と前記特定された第１フォルマント周波数の値の差と、所定の第２フォルマント周波数の値と前記特定された第２フォルマント周波数の値の差との自乗和が大きいほど、前記基準色からの変化度合いが大きいことを特徴とする請求項４に記載の表示制御装置。
前記記憶手段は、前記第１音声波形データに基づいて、前記所定時間単位毎に特定されたノイズ成分をさらに記憶し、
前記特定手段は、前記第２音声波形データに基づいて、前記所定時間単位毎にノイズ成分をさらに特定し、
前記第３決定部は、前記特定された第１フォルマント周波数の値と前記特定された第２フォルマント周波数の値との組合せに応じた色と、前記特定されたノイズ成分の値に応じた色との混合色を前記ラインの色として決定することを特徴とする請求項４に記載の表示制御装置。
１つ以上のコンピュータにより実行される表示制御方法であって、
複数の文字により構成される文字列のテキストデータと、前記文字列を音読するときの手本となる音声の波形を示す第１音声波形データに基づいて所定時間単位毎に特定された音高、音圧、第１フォルマント周波数、及び第２フォルマント周波数を記憶手段に記憶する記憶ステップと、
話者が前記文字列を音読したときに発した音声の波形を示す第２音声波形データを入力する入力ステップと、
前記第２音声波形データに基づいて、所定時間単位毎に音高、音圧、第１フォルマント周波数、及び第２フォルマント周波数を特定する特定ステップと、
前記記憶ステップにより記憶された音高、音圧、第１フォルマント周波数、及び第２フォルマント周波数に基づいて、時間軸方向に伸び、且つ、前記時間軸方向と直交する軸方向に時系列的に変化する第１のラインを画面に表示させる第１制御ステップと、
前記テキストデータに基づいて、前記文字列を構成する各文字を前記時間軸方向に沿って前記画面に表示させる第２制御ステップと、
前記特定ステップにより特定された音高、音圧、第１フォルマント周波数、及び第２フォルマント周波数に基づいて、時間軸方向に伸び、且つ、前記時間軸方向と直交する軸方向に時系列的に変化する第２のラインを、前記第１のラインと比較可能に前記画面に表示させる第３制御ステップと、
を備え、
前記第１制御ステップ及び前記第３制御ステップは、それぞれ、
前記音高に基づいて、前記時間軸方向と直交する軸方向における前記ラインの位置を前記所定時間単位毎に決定するステップと、
前記音圧に基づいて、前記ラインの幅を前記所定時間単位毎に決定するステップと、
前記特定された第１フォルマント周波数の値と前記特定された第２フォルマント周波数の値との組合せに応じた色を前記ラインの色として前記所定時間単位毎に決定するステップと、
を含むことを特徴とする表示制御方法。
複数の文字により構成される文字列のテキストデータと、前記文字列を音読するときの手本となる音声の波形を示す第１音声波形データに基づいて所定時間単位毎に特定された音高、音圧、第１フォルマント周波数、及び第２フォルマント周波数を記憶手段に記憶する記憶ステップと、
話者が前記文字列を音読したときに発した音声の波形を示す第２音声波形データを入力する入力ステップと、
前記第２音声波形データに基づいて、所定時間単位毎に音高、音圧、第１フォルマント周波数、及び第２フォルマント周波数を特定する特定ステップと、
前記記憶ステップにより記憶された音高、音圧、第１フォルマント周波数、及び第２フォルマント周波数に基づいて、時間軸方向に伸び、且つ、前記時間軸方向と直交する軸方向に時系列的に変化する第１のラインを画面に表示させる第１制御ステップと、
前記テキストデータに基づいて、前記文字列を構成する各文字を前記時間軸方向に沿って前記画面に表示させる第２制御ステップと、
前記特定ステップにより特定された音高、音圧、第１フォルマント周波数、及び第２フォルマント周波数に基づいて、時間軸方向に伸び、且つ、前記時間軸方向と直交する軸方向に時系列的に変化する第２のラインを、前記第１のラインと比較可能に前記画面に表示させる第３制御ステップと、
をコンピュータに実行させ、
前記第１制御ステップ及び前記第３制御ステップは、それぞれ、
前記音高に基づいて、前記時間軸方向と直交する軸方向における前記ラインの位置を前記所定時間単位毎に決定するステップと、
前記音圧に基づいて、前記ラインの幅を前記所定時間単位毎に決定するステップと、
前記特定された第１フォルマント周波数の値と前記特定された第２フォルマント周波数の値との組合せに応じた色を前記ラインの色として前記所定時間単位毎に決定するステップと、
を含むことを特徴とするプログラム。
複数の文字により構成される文字列のテキストデータと、前記文字列を音読するときの手本となる音声の波形を示す第１音声波形データに基づいて所定時間単位毎に特定された音高、音圧、第１フォルマント周波数、及び第２フォルマント周波数を記憶する記憶手段と、
話者が前記文字列を音読したときに発した音声の波形を示す第２音声波形データを入力する入力手段と、
前記第２音声波形データに基づいて、前記所定時間単位毎に音高、音圧、第１フォルマント周波数、及び第２フォルマント周波数を特定する特定手段と、
前記記憶手段に記憶された音高、音圧、第１フォルマント周波数、及び第２フォルマント周波数に基づいて、時間軸方向に伸び、且つ、前記時間軸方向と直交する軸方向に時系列的に変化する第１のラインを画面に表示させる第１制御手段と、
前記テキストデータに基づいて、前記文字列を構成する各文字を前記時間軸方向に沿って前記画面に表示させる第２制御手段と、
前記特定手段により特定された音高、音圧、第１フォルマント周波数、及び第２フォルマント周波数に基づいて、時間軸方向に伸び、且つ、前記時間軸方向と直交する軸方向に時系列的に変化する第２のラインを、前記第１のラインと比較可能に前記画面に表示させる第３制御手段と、
を備え、
前記第１制御手段及び前記第３制御手段は、それぞれ、
前記音高に基づいて、前記時間軸方向と直交する軸方向における前記ラインの位置を前記所定時間単位毎に決定する第１決定部と、
前記音圧に基づいて、前記ラインの幅を前記所定時間単位毎に決定する第２決定部と、
前記特定された第１フォルマント周波数の値に応じた色と前記特定された第２フォルマント周波数の値に応じた色との混合色を前記ラインの色として前記所定時間単位毎に決定する第３決定部と、
を備えることを特徴とする表示制御装置。
前記記憶手段は、前記第１音声波形データに基づいて、前記所定時間単位毎に特定されたノイズ成分をさらに記憶し、
前記特定手段は、前記第２音声波形データに基づいて、前記所定時間単位毎にノイズ成分をさらに特定し、
前記第３決定部は、前記特定された第１フォルマント周波数の値に応じた色と前記特定された第２フォルマント周波数の値に応じた色との混合色と、前記ノイズ成分の値に応じた色との混合色を前記ラインの色として決定することを特徴とする請求項９に記載の表示制御装置。
１つ以上のコンピュータにより実行される表示制御方法であって、
複数の文字により構成される文字列のテキストデータと、前記文字列を音読するときの手本となる音声の波形を示す第１音声波形データに基づいて所定時間単位毎に特定された音高、音圧、第１フォルマント周波数、及び第２フォルマント周波数を記憶手段に記憶する記憶ステップと、
話者が前記文字列を音読したときに発した音声の波形を示す第２音声波形データを入力する入力ステップと、
前記第２音声波形データに基づいて、所定時間単位毎に音高、音圧、第１フォルマント周波数、及び第２フォルマント周波数を特定する特定ステップと、
前記記憶ステップにより記憶された音高、音圧、第１フォルマント周波数、及び第２フォルマント周波数に基づいて、時間軸方向に伸び、且つ、前記時間軸方向と直交する軸方向に時系列的に変化する第１のラインを画面に表示させる第１制御ステップと、
前記テキストデータに基づいて、前記文字列を構成する各文字を前記時間軸方向に沿って前記画面に表示させる第２制御ステップと、
前記特定ステップにより特定された音高、音圧、第１フォルマント周波数、及び第２フォルマント周波数に基づいて、時間軸方向に伸び、且つ、前記時間軸方向と直交する軸方向に時系列的に変化する第２のラインを、前記第１のラインと比較可能に前記画面に表示させる第３制御ステップと、
を備え、
前記第１制御ステップ及び前記第３制御ステップは、それぞれ、
前記音高に基づいて、前記時間軸方向と直交する軸方向における前記ラインの位置を前記所定時間単位毎に決定するステップと、
前記音圧に基づいて、前記ラインの幅を前記所定時間単位毎に決定するステップと、
前記特定された第１フォルマント周波数の値に応じた色と前記特定された第２フォルマント周波数の値に応じた色との混合色を前記ラインの色として前記所定時間単位毎に決定するステップと、
を含むことを特徴とする表示制御方法。
複数の文字により構成される文字列のテキストデータと、前記文字列を音読するときの手本となる音声の波形を示す第１音声波形データに基づいて、所定時間単位毎に特定された音高、音圧、第１フォルマント周波数、及び第２フォルマント周波数を記憶手段に記憶する記憶ステップと、
話者が前記文字列を音読したときに発した音声の波形を示す第２音声波形データを入力する入力ステップと、
前記第２音声波形データに基づいて、所定時間単位毎に音高、音圧、第１フォルマント周波数、及び第２フォルマント周波数を特定する特定ステップと、
前記記憶ステップにより記憶された音高、音圧、第１フォルマント周波数、及び第２フォルマント周波数に基づいて、時間軸方向に伸び、且つ、前記時間軸方向と直交する軸方向に時系列的に変化する第１のラインを画面に表示させる第１制御ステップと、
前記テキストデータに基づいて、前記文字列を構成する各文字を前記時間軸方向に沿って前記画面に表示させる第２制御ステップと、
前記特定ステップにより特定された音高、音圧、第１フォルマント周波数、及び第２フォルマント周波数に基づいて、時間軸方向に伸び、且つ、前記時間軸方向と直交する軸方向に時系列的に変化する第２のラインを、前記第１のラインと比較可能に前記画面に表示させる第３制御ステップと、
をコンピュータに実行させ、
前記第１制御ステップ及び前記第３制御ステップは、それぞれ、
前記音高に基づいて、前記時間軸方向と直交する軸方向における前記ラインの位置を前記所定時間単位毎に決定するステップと、
前記音圧に基づいて、前記ラインの幅を前記所定時間単位毎に決定するステップと、
前記特定された第１フォルマント周波数の値に応じた色と前記特定された第２フォルマント周波数の値に応じた色との混合色を前記ラインの色として前記所定時間単位毎に決定するステップと、
を含むことを特徴とするプログラム。