JP6256379B2 - 表示制御装置、表示制御方法、及びプログラム - Google Patents

表示制御装置、表示制御方法、及びプログラム Download PDF

Info

Publication number
JP6256379B2
JP6256379B2 JP2015034384A JP2015034384A JP6256379B2 JP 6256379 B2 JP6256379 B2 JP 6256379B2 JP 2015034384 A JP2015034384 A JP 2015034384A JP 2015034384 A JP2015034384 A JP 2015034384A JP 6256379 B2 JP6256379 B2 JP 6256379B2
Authority
JP
Japan
Prior art keywords
axis direction
formant frequency
line
pitch
specified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015034384A
Other languages
English (en)
Other versions
JP2016156943A (ja
Inventor
誠司 黒川
誠司 黒川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Brother Industries Ltd
Original Assignee
Brother Industries Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Brother Industries Ltd filed Critical Brother Industries Ltd
Priority to JP2015034384A priority Critical patent/JP6256379B2/ja
Publication of JP2016156943A publication Critical patent/JP2016156943A/ja
Application granted granted Critical
Publication of JP6256379B2 publication Critical patent/JP6256379B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Electrically Operated Instructional Devices (AREA)

Description

本発明は、話者が文字列を音読したときに発した音声を視覚的に表現することが可能なシステム等の技術分野に関する。
近年、語学学習、発声発話訓練等の支援を目的として、話者が文字列を音読したときに発した音声を視覚的に表現する技術が知られている。例えば、特許文献1には、基準音声に対応し且つ発声のタイミング、発声長、音程及び促音を表す図形を表示し、発声部分を図形の色を変更することにより表示するシステムが開示されている。一方、特許文献2には、お手本となる歌い方のデータを任意に設定し、その歌い方に対する練習者の歌い方の違いを視覚的に捉えることができるシステムが開示されている。このシステムでは、模範歌唱の音程の推移をピッチデータに従って折れ線で表示し、折れ線と横軸との間の領域の色を模範歌唱の音量データの値に応じて変化するように表示するようになっている。
特開2003−186379号公報 特開2006−276693号公報
しかしながら、従来、音程と音量などをパラメータとして線やグラフを表示する技術があったものの、手本となる音声と話者の音声との発し方の違いを、話者が一見して、より分り易く把握できるシステムが知られていなかった。
本発明は、以上の点に鑑みてなされたものであり、音高、音圧、及び発音特徴量に基づいて手本となる音声と、話者の音声との発し方の違いを、話者に一見して、より分り易く把握させることが可能な表示制御装置、表示制御方法、及びプログラムを提供する。
上記課題を解決するために、請求項1に記載の発明は、複数の文字により構成される文字列のテキストデータと、前記文字列を音読するときの手本となる音声の波形を示す第1音声波形データに基づいて文字単位毎に特定された音高、音圧、母音、及び前記母音以外の音成分を記憶する記憶手段と、話者が前記文字列を音読したときに発した音声の波形を示す第2音声波形データを入力する入力手段と、前記第音声波形データに基づいて、前記文字単位毎に音高、音圧、母音、及び前記母音以外の音成分を特定する特定手段と、前記記憶手段に記憶された音高、音圧、母音、及び前記母音以外の音成分に基づいて、時間軸方向に伸び、且つ、前記時間軸方向と直交する軸方向に時系列的に変化する第1のラインを画面に表示させる第1制御手段と、前記テキストデータに基づいて、前記文字列を構成する各文字を前記時間軸方向に沿って前記画面に表示させる第2制御手段と、前記特定手段により特定された音高、音圧、母音、及び前記母音以外の音成分に基づいて、時間軸方向に伸び、且つ、前記時間軸方向と直交する軸方向に時系列的に変化する第2のラインを、前記第1のラインと比較可能に前記画面に表示させる第3制御手段と、を備え、前記第1制御手段及び前記第3制御手段は、それぞれ、前記音高に基づいて、前記時間軸方向と直交する軸方向における前記ラインの位置を前記文字単位毎に決定する第1決定部と、前記音圧に基づいて、前記ラインの幅を前記文字単位毎に決定する第2決定部と、前記特定された母音の別に応じた色と、前記母音以外の音成分に応じた色との混合色を前記ラインの色として前記文字単位毎に決定する第3決定部と、を備えることを特徴とする。
請求項2に記載の発明は、1つ以上のコンピュータにより実行される表示制御方法であって、複数の文字により構成される文字列のテキストデータと、前記文字列を音読するときの手本となる音声の波形を示す第1音声波形データに基づいて文字単位毎に特定された音高、音圧、母音、及び前記母音以外の音成分を記憶手段に記憶する記憶ステップと、話者が前記文字列を音読したときに発した音声の波形を示す第2音声波形データを入力する入力ステップと、前記第2音声波形データに基づいて、前記文字単位毎に音高、音圧、母音、及び前記母音以外の音成分を特定する特定ステップと、前記記憶ステップにより記憶された音高、音圧、母音、及び前記母音以外の音成分に基づいて、時間軸方向に伸び、且つ、前記時間軸方向と直交する軸方向に時系列的に変化する第1のラインを画面に表示させる第1制御ステップと、前記テキストデータに基づいて、前記文字列を構成する各文字を前記時間軸方向に沿って前記画面に表示させる第2制御ステップと、前記特定ステップにより特定された音高、音圧、母音、及び前記母音以外の音成分に基づいて、時間軸方向に伸び、且つ、前記時間軸方向と直交する軸方向に時系列的に変化する第2のラインを、前記第1のラインと比較可能に前記画面に表示させる第3制御ステップと、を備え、前記第1制御ステップ及び前記第3制御ステップは、それぞれ、前記音高に基づいて、前記時間軸方向と直交する軸方向における前記ラインの位置を前記文字単位毎に決定するステップと、前記音圧に基づいて、前記ラインの幅を前記文字単位毎に決定するステップと、前記特定された母音の別に応じた色と、前記母音以外の音成分に応じた色との混合色を前記ラインの色として前記文字単位毎に決定するステップと、を含むことを特徴とする。
請求項3に記載の発明は、複数の文字により構成される文字列のテキストデータと、前記文字列を音読するときの手本となる音声の波形を示す第1音声波形データに基づいて文字単位毎に特定された音高、音圧、母音、及び前記母音以外の音成分を記憶手段に記憶する記憶ステップと、話者が前記文字列を音読したときに発した音声の波形を示す第2音声波形データを入力する入力ステップと、前記第2音声波形データに基づいて、前記文字単位毎に音高、音圧、母音、及び前記母音以外の音成分を特定する特定ステップと、前記記憶ステップにより記憶された音高、音圧、母音、及び前記母音以外の音成分に基づいて、時間軸方向に伸び、且つ、前記時間軸方向と直交する軸方向に時系列的に変化する第1のラインを画面に表示させる第1制御ステップと、前記テキストデータに基づいて、前記文字列を構成する各文字を前記時間軸方向に沿って前記画面に表示させる第2制御ステップと、前記特定ステップにより特定された音高、音圧、母音、及び前記母音以外の音成分に基づいて、時間軸方向に伸び、且つ、前記時間軸方向と直交する軸方向に時系列的に変化する第2のラインを、前記第1のラインと比較可能に前記画面に表示させる第3制御ステップと、をコンピュータに実行させ、前記第1制御ステップ及び前記第3制御ステップは、それぞれ、前記音高に基づいて、前記時間軸方向と直交する軸方向における前記ラインの位置を前記文字単位毎に決定するステップと、前記音圧に基づいて、前記ラインの幅を前記文字単位毎に決定するステップと、前記特定された母音の別に応じた色と、前記母音以外の音成分に応じた色との混合色を前記ラインの色として前記文字単位毎に決定するステップと、を含むことを特徴とする。
請求項4に記載の発明は、複数の文字により構成される文字列のテキストデータと、前記文字列を音読するときの手本となる音声の波形を示す第1音声波形データに基づいて所定時間単位毎に特定された音高、音圧、第1フォルマント周波数、及び第2フォルマント周波数を記憶する記憶手段と、話者が前記文字列を音読したときに発した音声の波形を示す第2音声波形データを入力する入力手段と、前記第2音声波形データに基づいて、前記所定時間単位毎に音高、音圧、第1フォルマント周波数、及び第2フォルマント周波数を特定する特定手段と、前記記憶手段に記憶された音高、音圧、第1フォルマント周波数、及び第2フォルマント周波数に基づいて、時間軸方向に伸び、且つ、前記時間軸方向と直交する軸方向に時系列的に変化する第1のラインを画面に表示させる第1制御手段と、前記テキストデータに基づいて、前記文字列を構成する各文字を前記時間軸方向に沿って前記画面に表示させる第2制御手段と、前記特定手段により特定された音高、音圧、第1フォルマント周波数、及び第2フォルマント周波数に基づいて、時間軸方向に伸び、且つ、前記時間軸方向と直交する軸方向に時系列的に変化する第2のラインを、前記第1のラインと比較可能に前記画面に表示させる第3制御手段と、を備え、前記第1制御手段及び前記第3制御手段は、それぞれ、前記音高に基づいて、前記時間軸方向と直交する軸方向における前記ラインの位置を前記所定時間単位毎に決定する第1決定部と、前記音圧に基づいて、前記ラインの幅を前記所定時間単位毎に決定する第2決定部と、前記特定された第1フォルマント周波数の値と前記特定された第2フォルマント周波数の値との組合せに応じた色を前記ラインの色として前記所定時間単位毎に決定する第3決定部と、を備えることを特徴とする。
請求項5に記載の発明は、請求項4に記載の表示制御装置において、所定の第1フォルマント周波数の値と所定の第2フォルマント周波数の値との組合せに対して所定の基準色が設定されており、 前記特定された第1フォルマント周波数の値と前記特定された第2フォルマント周波数の値との組合せに応じた色は、所定の第1フォルマント周波数の値と前記特定された第1フォルマント周波数の値の差と、所定の第2フォルマント周波数の値と前記特定された第2フォルマント周波数の値の差との自乗和が大きいほど、前記基準色からの変化度合いが大きいことを特徴とする。
請求項6に記載の発明は、請求項に記載の表示制御装置において、前記記憶手段は、前記第1音声波形データに基づいて、前記所定時間単位毎に特定されたノイズ成分をさらに記憶し、前記特定手段は、前記第2音声波形データに基づいて、前記所定時間単位毎にノイズ成分をさらに特定し、前記第3決定部は、前記特定された第1フォルマント周波数の値と前記特定された第2フォルマント周波数の値との組合せに応じた色と、前記特定されたノイズ成分の値に応じた色との混合色を前記ラインの色として決定することを特徴とする。
請求項7に記載の発明は、1つ以上のコンピュータにより実行される表示制御方法であって、複数の文字により構成される文字列のテキストデータと、前記文字列を音読するときの手本となる音声の波形を示す第1音声波形データに基づいて所定時間単位毎に特定された音高、音圧、第1フォルマント周波数、及び第2フォルマント周波数を記憶手段に記憶する記憶ステップと、話者が前記文字列を音読したときに発した音声の波形を示す第2音声波形データを入力する入力ステップと、前記第2音声波形データに基づいて、所定時間単位毎に音高、音圧、第1フォルマント周波数、及び第2フォルマント周波数を特定する特定ステップと、前記記憶ステップにより記憶された音高、音圧、第1フォルマント周波数、及び第2フォルマント周波数に基づいて、時間軸方向に伸び、且つ、前記時間軸方向と直交する軸方向に時系列的に変化する第1のラインを画面に表示させる第1制御ステップと、前記テキストデータに基づいて、前記文字列を構成する各文字を前記時間軸方向に沿って前記画面に表示させる第2制御ステップと、前記特定ステップにより特定された音高、音圧、第1フォルマント周波数、及び第2フォルマント周波数に基づいて、時間軸方向に伸び、且つ、前記時間軸方向と直交する軸方向に時系列的に変化する第2のラインを、前記第1のラインと比較可能に前記画面に表示させる第3制御ステップと、を備え、前記第1制御ステップ及び前記第3制御ステップは、それぞれ、前記音高に基づいて、前記時間軸方向と直交する軸方向における前記ラインの位置を前記所定時間単位毎に決定するステップと、前記音圧に基づいて、前記ラインの幅を前記所定時間単位毎に決定するステップと、前記特定された第1フォルマント周波数の値と前記特定された第2フォルマント周波数の値との組合せに応じた色を前記ラインの色として前記所定時間単位毎に決定するステップと、を含むことを特徴とする。
請求項8に記載の発明は、複数の文字により構成される文字列のテキストデータと、前記文字列を音読するときの手本となる音声の波形を示す第1音声波形データに基づいて所定時間単位毎に特定された音高、音圧、第1フォルマント周波数、及び第2フォルマント周波数を記憶手段に記憶する記憶ステップと、話者が前記文字列を音読したときに発した音声の波形を示す第2音声波形データを入力する入力ステップと、前記第2音声波形データに基づいて、所定時間単位毎に音高、音圧、第1フォルマント周波数、及び第2フォルマント周波数を特定する特定ステップと、前記記憶ステップにより記憶された音高、音圧、第1フォルマント周波数、及び第2フォルマント周波数に基づいて、時間軸方向に伸び、且つ、前記時間軸方向と直交する軸方向に時系列的に変化する第1のラインを画面に表示させる第1制御ステップと、前記テキストデータに基づいて、前記文字列を構成する各文字を前記時間軸方向に沿って前記画面に表示させる第2制御ステップと、前記特定ステップにより特定された音高、音圧、第1フォルマント周波数、及び第2フォルマント周波数に基づいて、時間軸方向に伸び、且つ、前記時間軸方向と直交する軸方向に時系列的に変化する第2のラインを、前記第1のラインと比較可能に前記画面に表示させる第3制御ステップと、をコンピュータに実行させ、前記第1制御ステップ及び前記第3制御ステップは、それぞれ、前記音高に基づいて、前記時間軸方向と直交する軸方向における前記ラインの位置を前記所定時間単位毎に決定するステップと、前記音圧に基づいて、前記ラインの幅を前記所定時間単位毎に決定するステップと、前記特定された第1フォルマント周波数の値と前記特定された第2フォルマント周波数の値との組合せに応じた色を前記ラインの色として前記所定時間単位毎に決定するステップと、を含むことを特徴とする。
請求項9に記載の発明は、複数の文字により構成される文字列のテキストデータと、前記文字列を音読するときの手本となる音声の波形を示す第1音声波形データに基づいて所定時間単位毎に特定された音高、音圧、第1フォルマント周波数、及び第2フォルマント周波数を記憶する記憶手段と、話者が前記文字列を音読したときに発した音声の波形を示す第2音声波形データを入力する入力手段と、前記第2音声波形データに基づいて、前記所定時間単位毎に音高、音圧、第1フォルマント周波数、及び第2フォルマント周波数を特定する特定手段と、前記記憶手段に記憶された音高、音圧、第1フォルマント周波数、及び第2フォルマント周波数に基づいて、時間軸方向に伸び、且つ、前記時間軸方向と直交する軸方向に時系列的に変化する第1のラインを画面に表示させる第1制御手段と、前記テキストデータに基づいて、前記文字列を構成する各文字を前記時間軸方向に沿って前記画面に表示させる第2制御手段と、前記特定手段により特定された音高、音圧、第1フォルマント周波数、及び第2フォルマント周波数に基づいて、時間軸方向に伸び、且つ、前記時間軸方向と直交する軸方向に時系列的に変化する第2のラインを、前記第1のラインと比較可能に前記画面に表示させる第3制御手段と、を備え、前記第1制御手段及び前記第3制御手段は、それぞれ、前記音高に基づいて、前記時間軸方向と直交する軸方向における前記ラインの位置を前記所定時間単位毎に決定する第1決定部と、前記音圧に基づいて、前記ラインの幅を前記所定時間単位毎に決定する第2決定部と、前記特定された第1フォルマント周波数の値に応じた色と前記特定された第2フォルマント周波数の値に応じた色との混合色を前記ラインの色として前記所定時間単位毎に決定する第3決定部と、を備えることを特徴とする。
請求項10に記載の発明は、請求項9に記載の表示制御装置において、前記記憶手段は、前記第1音声波形データに基づいて、前記所定時間単位毎に特定されたノイズ成分をさらに記憶し、前記特定手段は、前記第2音声波形データに基づいて、前記所定時間単位毎にノイズ成分をさらに特定し、前記第3決定部は、前記特定された第1フォルマント周波数の値に応じた色と前記特定された第2フォルマント周波数の値に応じた色との混合色と、前記ノイズ成分の値に応じた色との混合色を前記ラインの色として決定することを特徴とする。
請求項11に記載の発明は、1つ以上のコンピュータにより実行される表示制御方法であって、複数の文字により構成される文字列のテキストデータと、前記文字列を音読するときの手本となる音声の波形を示す第1音声波形データに基づいて所定時間単位毎に特定された音高、音圧、第1フォルマント周波数、及び第2フォルマント周波数を記憶手段に記憶する記憶ステップと、話者が前記文字列を音読したときに発した音声の波形を示す第2音声波形データを入力する入力ステップと、前記第2音声波形データに基づいて、所定時間単位毎に音高、音圧、第1フォルマント周波数、及び第2フォルマント周波数を特定する特定ステップと、前記記憶ステップにより記憶された音高、音圧、第1フォルマント周波数、及び第2フォルマント周波数に基づいて、時間軸方向に伸び、且つ、前記時間軸方向と直交する軸方向に時系列的に変化する第1のラインを画面に表示させる第1制御ステップと、前記テキストデータに基づいて、前記文字列を構成する各文字を前記時間軸方向に沿って前記画面に表示させる第2制御ステップと、前記特定ステップにより特定された音高、音圧、第1フォルマント周波数、及び第2フォルマント周波数に基づいて、時間軸方向に伸び、且つ、前記時間軸方向と直交する軸方向に時系列的に変化する第2のラインを、前記第1のラインと比較可能に前記画面に表示させる第3制御ステップと、を備え、前記第1制御ステップ及び前記第3制御ステップは、それぞれ、前記音高に基づいて、前記時間軸方向と直交する軸方向における前記ラインの位置を前記所定時間単位毎に決定するステップと、前記音圧に基づいて、前記ラインの幅を前記所定時間単位毎に決定するステップと、前記特定された第1フォルマント周波数の値に応じた色と前記特定された第2フォルマント周波数の値に応じた色との混合色を前記ラインの色として前記所定時間単位毎に決定するステップと、を含むことを特徴とする。
請求項12に記載の発明は、複数の文字により構成される文字列のテキストデータと、前記文字列を音読するときの手本となる音声の波形を示す第1音声波形データに基づいて、所定時間単位毎に特定された音高、音圧、第1フォルマント周波数、及び第2フォルマント周波数を記憶手段に記憶する記憶ステップと、話者が前記文字列を音読したときに発した音声の波形を示す第2音声波形データを入力する入力ステップと、前記第2音声波形データに基づいて、所定時間単位毎に音高、音圧、第1フォルマント周波数、及び第2フォルマント周波数を特定する特定ステップと、前記記憶ステップにより記憶された音高、音圧、第1フォルマント周波数、及び第2フォルマント周波数に基づいて、時間軸方向に伸び、且つ、前記時間軸方向と直交する軸方向に時系列的に変化する第1のラインを画面に表示させる第1制御ステップと、前記テキストデータに基づいて、前記文字列を構成する各文字を前記時間軸方向に沿って前記画面に表示させる第2制御ステップと、前記特定ステップにより特定された音高、音圧、第1フォルマント周波数、及び第2フォルマント周波数に基づいて、時間軸方向に伸び、且つ、前記時間軸方向と直交する軸方向に時系列的に変化する第2のラインを、前記第1のラインと比較可能に前記画面に表示させる第3制御ステップと、をコンピュータに実行させ、前記第1制御ステップ及び前記第3制御ステップは、それぞれ、前記音高に基づいて、前記時間軸方向と直交する軸方向における前記ラインの位置を前記所定時間単位毎に決定するステップと、前記音圧に基づいて、前記ラインの幅を前記所定時間単位毎に決定するステップと、前記特定された第1フォルマント周波数の値に応じた色と前記特定された第2フォルマント周波数の値に応じた色との混合色を前記ラインの色として前記所定時間単位毎に決定するステップと、を含むことを特徴とする。
請求項1〜3に記載の発明によれば、手本となる音声と、話者の音声との発し方の違いを、話者に一見して、より分り易く把握させることができ、ラインの色のバリエーションを増やすことができるので、話者に対して与える視覚的効果を向上させることができる。
請求項4,7〜9,11,及び12に記載の発明によれば、時間経過に応じて滑らかにラインの色を変化させることができ、手本となる音声と、話者の音声との発し方の違いを、話者に対して、より一層、分り易く把握させることができる。
請求項5,6,10に記載の発明によれば、ラインの色のバリエーションを増やすことができるので、話者に対して与える視覚的効果を向上させることができる。
本実施形態に係る音声情報表示装置Sの概要構成例を示す図である。 フォルマント分布図の一例を示す図である。 話者の音読中において、画面に表示される手本音声ライン及び話者音声ラインの一例を示す図である。 音声情報表示装置Sにおける処理の流れ及び処理で用いられるデータを示す図である。 図4に示す音声描画データ生成処理内容の一例を示す図である。 図4に示す画面描画処理内容の一例を示す図である。
以下、本発明の実施形態を図面に基づいて説明する。なお、以下に説明する実施形態は、本発明を音声情報表示装置に適用した場合の実施形態である。
[1.音声情報表示装置Sの構成及び機能]
始めに、図1を参照して、本発明の実施形態に係る音声情報表示装置Sの構成及び機能について説明する。図1は、本実施形態に係る音声情報表示装置Sの概要構成例を示す図である。なお、音声情報表示装置の一例として、パーソナルコンピュータや、携帯型情報端末(スマートフォン等)などが挙げられる。図1に示すように、音声情報表示装置Sは、通信部1、記憶部2、制御部3、操作部4、及びインターフェース(IF)部5等を備えて構成され、これらの構成要素はバス6に接続されている。操作部4は、ユーザからの操作指示を受け付け、受け付けた操作に応じた信号を制御部3へ出力する。インターフェース部5には、マイクM、及びディスプレイD等が接続される。マイクMは、語学学習や発声発話訓練等を行う話者が、複数の文字により構成される文字列(例えば、アナウンスされる文字列)を音読したときに発した音声を集音する。ディスプレイDは、制御部3からの描画指令にしたがって、話者に提供する音声情報を画面に表示する。音声情報とは、音声の変化を表す音声ライン及び上記文字列を含む情報である。なお、マイクM、及びディスプレイDは、音声情報表示装置Sと一体型であってもよいし、別体であってもよい。
通信部1は、有線または無線によりネットワーク(図示せず)に接続してサーバ等と通信を行う。記憶部2は、例えばハードディスクドライブ等からなり、OS(オペレーティングシステム)、及び表示制御処理プログラム(本発明のプログラムの一例)等を記憶する。表示制御処理プログラムは、コンピュータとしての制御部3に、後述する表示制御処理を実行させるプログラムである。表示制御処理プログラムは、アプリケーションとして、所定のサーバからダウンロードされてもよいし、CD、DVD等の記録媒体に記憶されて提供されてもよい。また、記憶部2は、複数の文字により構成される文字列のテキストデータと、この文字列を音読するときの手本となる音声の波形を示す第1音声波形データ(以下、「手本音声波形データ」という)を記憶する。ここで、テキストデータには、例えば、各文字の発音タイミング(例えば、発音開始からの経過時間)が文字毎に対応付けられて含まれる。また、音読対象となる文字列の例として、例えば、語学学習またはアナウンス訓練などで用いられる文字列、または歌唱に用いられる文字列などが挙げられる。なお、手本音声波形データは、所定の音声ファイル形式で記憶される。
制御部3は、コンピュータとしてのCPU(Center Processing Unit)、ROM(Read Only Memory)、及びRAM(Random Access Memory)等により構成される。制御部3は、表示制御処理プログラムにより、音声処理部31及び描画制御部32として機能する。音声処理部31は、本発明における入力手段、及び特定手段の一例である。描画制御部32は、本発明における第1制御手段、第2制御手段、及び第3制御手段の一例である。記憶部2または制御部3におけるRAMは、本発明における記憶手段の一例である。
音声処理部31は、所定の音声ファイル形式で記憶された手本音声波形データを記憶部2から入力する。また、音声処理部31は、話者が上記文字列を音読したときに発した音声であってマイクMにより集音された音声の波形を示す第2音声波形データ(以下、「話者音声波形データ」という)を入力する。手本音声波形データ及び話者音声波形データを総称して音声波形データという。音声波形データは、それぞれ、離散化された時系列の音圧波形データであり、例えば、サンプリングレート44.1kHz、量子化16bit、及びモノラルの波形データである。そして、音声処理部31は、手本音声波形データに基づいて、所定単位毎に音高、音圧、及び発音特徴量を特定する。また、音声処理部31は、話者音声波形データに基づいて、所定単位毎に音高、音圧、及び発音特徴量を特定する。なお、所定単位とは、時間単位(例えば、10ms〜100ms等)であってもよいし、文字単位であってもよい。
ここで、音高(ピッチ)とは、音の高さをいう。音声処理部31は、例えば、音声波形データから例えば所定時間毎に切り出したデータから基本周波数(Hz)を算出し、算出した基本周波数(Hz)を音高として所定時間毎に特定(判定)する。これにより特定された音高を示す音高データは、所定時間毎に記憶される。なお、音高の算出方法には、例えば、ゼロクロス法やベクトル自己相関等の公知の手法を適用できる。
次に、音圧とは、音波による空気の圧力の変化分(Pa)をいう。本実施形態では、音圧として、瞬時音圧(Pa)の二乗平均平方根(RMS)である実効音圧(Pa)の大きさを計算上扱い易い数値で表した音圧レベル(dB)を適用する。音圧レベル(dB)は、広義には音量ともいう。音声処理部31は、例えば、音声波形データから例えば所定時間毎に切り出したデータから音圧レベル(dB)を算出し、算出した音圧レベル(dB)を音圧として所定時間毎に特定する。これにより特定された音圧を示す音圧データは、所定時間毎に記憶される。
次に、発音特徴量とは、音声波形データの周波数スペクトルによって区別可能な特徴量である。周波数スペクトルは、例えば、周波数を横軸(X軸)にとり、当該周波数における音のパワー(例えば、音圧レベルの二乗)を縦軸(Y軸)にとったときの周波数のスペクトルを示す。発音特徴量の例として、音素が挙げられる。1音素は、基本的には、1文字に対応する。音素の例として、母音のみ、子音のみ、子音と母音との組合せの3つが挙げられる。母音には、a(あ)、i(い)、u(う)、e(え)、o(お)の5母音がある。子音には、母音以外の音成分(例えば、k、s、t、n、h、m、y、r、w・・・など)がある。また、例えば、日本語の「か」という音素は、ローマ字表記では“ka”であるから、子音と母音の組合せということになる。また、日本語の「しゃ」という音素(これを1文字として認識)は、ローマ字表記では“sya”であるから、これも、子音と母音との組合せということになる。また、日本語の「で」という音素は、ローマ字表記では“de”であるから、これも、子音と母音との組合せということになる。なお、日本語の「ん」という音素は、ローマ字表記では“n”または“m”であるから、これは、子音である。
音声波形データが示す音声の波形から、文字間(言い換えれば、音素間)を明確に区切ることが可能な場合、発音特徴量の例として、母音の別、または音素の別を特定(判定)可能である。この場合、音声処理部31は、例えば、音声波形データから例えば文字毎(言い換えれば、音素毎)に切り出したデータをフーリエ解析(FFT)することで周波数スペクトルを算出する。そして、音声処理部31は、算出した周波数スペクトルと、予め用意された音素毎の周波数スペクトルを示すテンプレートとを比較(テンプレートマッチング)することで発音特徴量としての母音または音素を文字毎に特定する。これにより特定された母音または音素を示す発音特徴量は、文字毎に記憶される。つまり、文字毎に、母音の別、または音素の別が記憶されることになる。なお、日本語の場合、子音のみで構成される「ん」という文字があるため、母音の別とは、「あ」、「い」、「う」、「え」、「お」、及び「ん」の別になる。また、音素を特定する場合、文字毎に切り出された音声の波形を、振幅が比較的小さい子音部と、振幅が比較的大きい母音部に分離してフーリエ解析することが望ましい。
発音特徴量の他の例として、フォルマント周波数及びノイズ周波数が挙げられる。フォルマント周波数とは、周波数スペクトルにより特定されるスペクトル包絡において山となる周波数をいい、周波数の低い方から第1フォルマント周波数、第2フォルマント周波数、第3フォルマント周波数・・・という。一般に、第1フォルマント周波数を横軸にとり、第2フォルマント周波数を縦軸にとったときのフォルマント分布(2次元座標平面)に基づき、母音の別を、ある程度判定することができる。図2に、フォルマント分布図の一例を示す。なお、フォルマント分布は、性別や言語等によって変わる。図2に示すフォルマント分布の2次元平面において、領域R1内は、母音“a”に相当する領域を示し、領域R2内は、母音“i”に相当する領域を示し、領域R3内は、母音“u”に相当する領域を示し、領域R4内は、母音“e”に相当する領域を示し、領域R5内は、母音“o”に相当する領域を示す。例えば、第1フォルマント周波数の値が1000(Hz)、第2フォルマント周波数の値が1200(Hz)である組合せは、母音“a”に相当する領域内にある。なお、第1フォルマント周波数の値と第2フォルマント周波数の値との組合せが、複数の領域内にある場合もある。また、ノイズ周波数とは、基本周波数及びその倍音以外の周波数以外のノイズ成分の周波数をいう。なお、明確な基本周波数が無い状態の時刻において、ノイズ成分のスペクトルを周波数軸方向に平滑化し、そのスペクトル包絡の中で一番大きな山の頂点をノイズ中心周波数という。子音は、ノイズ周波数を多く含んでいる。
発音特徴量がフォルマント周波数及びノイズ周波数である場合、例えば、音声処理部31は、音声波形データをフーリエ解析し、周波数ビン単位でノイズ成分と調波成分とに分離し、分離したそれぞれの成分を再度逆フーリエ解析により、ノイズ成分の音声波形データと、調波成分の音声波形データとを生成する。そして、音声処理部31は、ノイズ成分の音声波形データから例えば所定時間毎に切り出したデータをフーリエ解析することでノイズ成分の周波数スペクトルを算出する。さらに、音声処理部31は、算出したノイズ成分の周波数スペクトルにおける周波数軸に対する平滑化を行うことでノイズ周波数を算出し、算出したノイズ周波数を発音特徴量として所定時間毎に特定する。これにより特定されたノイズ周波数を示す発音特徴量は、所定時間毎に記憶される。なお、ノイズ成分のスペクトル包絡は大きな山形になることが多いため、音声処理部31は、その山の頂点をノイズ中心周波数として特定し、記憶する。一方、音声処理部31は、調波成分の音声波形データから例えば所定時間毎に切り出したデータをフーリエ解析することで調波成分の周波数スペクトルを算出する。そして、音声処理部31は、算出した調波成分の周波数スペクトルからケプストラム法によりフォルマント周波数を算出し、算出したフォルマント周波数を発音特徴量として所定時間毎に特定する。或いは、音声処理部31は、調波成分の音声波形データから所定時間毎に切り出したデータに対して線形予測符号(LPC:linear predictive coding)法を用いてフォルマント周波数を算出し、算出したフォルマント周波数を発音特徴量として所定時間毎に特定する。以上のように特定されたフォルマント周波数を示す発音特徴量は、所定時間毎に記憶される。なお、音声処理部31は、ケプストラム法、または線形予測符号法により求められたスペクトル包絡線の山の第1ピーク及び第2ピークを、第1フォルマント周波数及び第2フォルマント周波数を特定し、記憶する。また、上記において、再度逆フーリエ解析により生成されたノイズ成分の音声波形データと、調波成分の音声波形データとを合成して音声波形データに戻すように構成してもよい。この場合、戻された音声波形データに基づいて音圧等を特定するとよい。
また、音声処理部31は、上述したように生成したノイズ成分の音声波形データから例えば所定時間毎に切り出したデータから音圧レベル(dB)を算出し、算出した音圧レベル(dB)をノイズ音圧として所定時間毎に特定してもよい。これにより特定されたノイズ音圧を示すノイズ音圧データは、所定時間毎に記憶される。また、音声処理部31は、上述したように生成した調波成分の音声波形データから例えば所定時間毎に切り出したデータから音圧レベル(dB)を算出し、算出した音圧レベル(dB)を調波音圧として所定時間毎に特定してもよい。これにより特定された調波音圧を示す調波音圧データは、所定時間毎に記憶される。
次に、描画制御部32は、手本音声波形データから特定された音高、音圧、及び発音特徴量に基づいて、時間軸(例えば、横軸)方向に伸び、且つ、時間軸方向と直交する軸(例えば、縦軸)方向に時系列的に変化する第1の音声ライン(以下、「手本音声ライン」という)をディスプレイDの画面に表示させる。ここで、描画制御部32は、手本音声ラインを表示させる際に、手本音声波形データから特定された音高に基づいて、時間軸方向と直交する軸方向における手本音声ラインの位置(座標)を例えば所定時間毎に決定し、手本音声波形データから特定された音圧に基づいて、手本音声ラインの幅(線幅)を例えば所定時間毎に決定する。さらに、描画制御部32は、手本音声波形データから特定された発音特徴量に基づいて、手本音声ラインの色(線色)を所定単位毎(例えば、文字毎、または所定時間毎)に決定する。
ここで、音声ラインの色の決定方法の具体例について説明する。
(1)音声ラインの色の決定方法の具体例1
例えば、描画制御部32は、特定された母音の別に応じて線色が異なるように文字毎に決定(つまり、母音別に予め設定された色を線色として決定)する。これにより、手本となる音声と、話者の音声との発し方の違いを、話者に対して、文字毎に明確に把握させることができる。或いは、描画制御部32は、特定された母音の別に応じた色と、特定された子音に応じた色との混合色を線色として文字毎に決定してもよい。これにより、音声ラインの色のバリエーションを増やすことができるので、話者に対して与える視覚的効果を向上させることができる。この場合、子音には、母音に設定された色以外の色が予め設定される。
(2)音声ラインの色の決定方法の具体例2
例えば、描画制御部32は、特定された第1フォルマント周波数の値と、特定された第2フォルマント周波数の値との組合せに応じた色を線色として所定時間毎に決定する。これにより、時間経過に応じて滑らかに音声ラインの色を変化させることができ、手本となる音声と、話者の音声との発し方の違いを、話者に対して、より一層、分り易く把握させることができる。また、音声波形データが示す音声の波形から、文字間を明確に区切ることが困難な場合であっても、手本となる音声と、話者の音声との発し方の違いを、話者に対して、より一層、分り易く把握させることができる。この場合、例えば、所定の第1フォルマント周波数の値と、所定の第2フォルマント周波数の値との複数の基準組合せ毎に所定の基準色が予め設定される。この基準組合せは、母音の数分あり、母音毎に異なる基準色があることが望ましい。例えば、図2に示すフォルマント分布の2次元平面において、母音“a”の領域R1のほぼ中心部に相当する基準組合せに対して所定の基準色として「青」が予め設定される。この基準組合せは、(x1,y1)=(第1フォルマント周波数の値,第2フォルマント周波数の値)を示すか、或いは、(x1,y1)を含む領域R1内の座標群を示す。また、母音“i”の領域R2のほぼ中心部に相当する基準組合せに対しては、所定の基準色として「赤」が予め設定される。この基準組合せは、(x2,y2)=(第1フォルマント周波数の値,第2フォルマント周波数の値)を示すか、或いは、(x2,y2)を含む領域R2内の座標群を示す。また、母音“u”の領域R3のほぼ中心部に相当する基準組合せに対しては、所定の基準色として「緑」が設定される。この基準組合せは、(x3,y3)=(第1フォルマント周波数の値,第2フォルマント周波数の値)を示すか、或いは、(x3,y3)を含む領域R3内の座標群を示す。また、母音“e”の領域R4のほぼ中心部に相当する基準組合せに対しては、所定の基準色として「紫」が設定される。この基準組合せは、(x4,y4)=(第1フォルマント周波数の値,第2フォルマント周波数の値)を示すか、或いは、(x4,y4)を含む領域R4内の座標群を示す。また、母音“o”の領域R5のほぼ中心部に相当する基準組合せに対しては、所定の基準色として「黄」が設定される。この基準組合せは、(x5,y5)=(第1フォルマント周波数の値,第2フォルマント周波数の値)を示すか、或いは、(x5,y5)を含む領域R5内の座標群を示す。
そして、描画制御部32は、特定された第1フォルマント周波数の値と、特定された第2フォルマント周波数の値との組合せ(x0,y0)から、例えば上記2次元平面上における距離が最も近い基準組合せ(或いは、組合せ(x0,y0)を含む基準組合せ)に対して予め設定された色(調波色という)を線色として所定時間毎に決定する。或いは、描画制御部32は、特定された第1フォルマント周波数の値と特定された第2フォルマント周波数の値との組合せに応じた色(調波色)と、特定されたノイズ周波数(例えば、ノイズ中心周波数)の値に応じた色(ノイズ成分の値に応じた色の一例であり、ノイズ色という)との混合色を線色として所定時間毎に決定してもよい。これにより、音声ラインの色のバリエーションを増やすことができるので、話者に対して与える視覚的効果を向上させることができる。この場合、ノイズ周波数(例えば、ノイズ中心周波数)の値には、上記基準色以外の色が予め設定される。
或いは、描画制御部32は、基準組合せである(xα,yβ)から座標平面上での距離が離れるほど、この基準組合せに対して予め設定された基準色からの変化度合いが大きくなるように、特定された第1フォルマント周波数の値と特定された第2フォルマント周波数の値との組合せに応じた色(調波色)を所定時間毎に決定してもよい。これにより、音声ラインの色のバリエーションを増やすことができるので、話者に対して与える視覚的効果を向上させることができる。ここで、(xα,yβ)は、(x1,y1)、(x2,y2)、(x3,y3)、(x4,y4)、または(x5,y5)を示す。例えば、(xα,yβ)が(x1,y1)である場合、図2に示す領域R1の外縁に近づくほど、基準組合せ(x1,y1)に対して予め設定された基準色(例えば、(R輝度値,G輝度値,B輝度値)=(0,0,255))からの変化度合いが大きくなる。基準色からの変化度合いが大きいとは、例えば、基準色からの色差が大きいことを意味する。色差とは、例えば、色をRGBで表す場合、RGBの3次元色空間における基準色の座標(0,0,255)(一例として、色を8ビットで表現)からのユークリッド距離により求まる。この場合、描画制御部32は、所定の第1フォルマント周波数の値xαと特定された第1フォルマント周波数の値x0の差と、所定の第2フォルマント周波数の値yβと特定された第2フォルマント周波数の値y0の差との自乗和((xα-x0)^2 + (yβ-y0)^2)を算出(または自乗和の平方根を算出)する。そして、描画制御部32は、算出した自乗和(または自乗和の平方根)が大きいほど、上記基準色からの変化度合いが大きくなるように、特定された第1フォルマント周波数の値と特定された第2フォルマント周波数の値との組合せに応じた色を計算により決定する。例えば、組合せに応じた色は、基準色(0,0,255)におけるR輝度値(0)またはG輝度値(0)に上記自乗和に比例した値(ただし、255以下)が加算されることで決定されるか、或いは、B輝度値(255)から上記自乗和に比例した値(ただし、255以下)が減算されることで決定される。
(3)音声ラインの色の決定方法の具体例3
例えば、描画制御部32は、特定された第1フォルマント周波数の値に応じた色(調波色)と特定された第2フォルマント周波数の値に応じた色(調波色)との混合色を線色として所定時間毎に決定する。これにより、時間経過に応じて滑らかにラインの色を変化させることができ、手本となる音声と、話者の音声との発し方の違いを、話者に対して、より一層、分り易く把握させることができる。また、音声波形データが示す音声の波形から、文字間を明確に区切ることが困難な場合であっても、手本となる音声と、話者の音声との発し方の違いを、話者に対して、より一層、分り易く把握させることができる。例えば、描画制御部32は、特定された第1フォルマント周波数の値を例えば255以下のG輝度値に変換(例えば、輝度値=周波数/k(係数)の変換式による)することで、このG輝度値を第1フォルマント周波数の値に応じた色として決定する。さらに、描画制御部32は、特定された第2フォルマント周波数の値を例えば255以下のB輝度値に変換することで、このB輝度値を第2フォルマント周波数の値に応じた色として決定する。そして、描画制御部32は、決定したG輝度値とB輝度値により求まる上記混合色(例えば、(R輝度値,G輝度値,B輝度値))を線色として決定する。ここで、残りの輝度値であるR輝度値は例えば0〜255の中の任意の値であってもよいが、描画制御部32は、上述した調波音圧データが示す調波音圧の値(音圧レベル(dB))を例えば255以下のR輝度値に変換することで、G輝度値とB輝度値により求まる上記混合色の濃さを調整すればより効果的である。なお、第1フォルマント周波数の値と第2フォルマント周波数の値との輝度値の組合せは、G輝度値とB輝度値との組合せではなく、B輝度値とG輝度値との組合せ、R輝度値とG輝度値との組合せ、R輝度値とB輝度値との組合せ、B輝度値とR輝度値との組合せ、またはG輝度値とR輝度値との組合せであってもよく、これらの場合も残りの輝度値を調波音圧の値に応じて調整するとよい。
或いは、描画制御部32は、特定された第1フォルマント周波数の値に応じた色(調波色)と特定された第2フォルマント周波数の値に応じた色(調波色)との混合色(例えば、上述したように決定される(R輝度値,G輝度値,B輝度値))と、特定されたノイズ周波数(例えば、ノイズ中心周波数)の値に応じた色(ノイズ色)との混合色を線色として所定時間毎に決定してもよい。これにより、音声ラインの色のバリエーションを増やすことができるので、話者に対して与える視覚的効果を向上させることができる。この場合、ノイズ周波数(例えば、ノイズ中心周波数)の値には、上記基準色以外の色が予め設定される。なお、描画制御部32は、上述したノイズ成分音圧データが示すノイズ成分音圧の値(音圧レベル(dB))に応じて、ノイズ周波数(例えば、ノイズ中心周波数)の値に応じた色の濃さを調整すればより効果的である。
以上説明した決定方法以外の方法で、発音特徴量に基づいて音声ラインの色が決定されてもよい。
また、描画制御部32は、上記文字列のテキストデータを記憶部2から取得し、取得したテキストデータに基づいて、この文字列を構成する各文字を時間軸(例えば、横軸)方向に沿って手本音声ラインに対応させるようにディスプレイDの画面に表示させる。ここで、描画制御部32は、文字を表示させる際に、手本音声波形データから特定された音高に基づいて、時間軸方向と直交する軸方向における文字の位置を文字毎に決定し、手本音声波形データから特定された音圧に基づいて、文字のサイズを文字毎に決定する。
更に、描画制御部32は、話者音声波形データから特定された音高、音圧、及び発音特徴量に基づいて、時間軸(例えば、横軸)方向に伸び、且つ、時間軸方向と直交する軸(例えば、縦軸)方向に時系列的に変化する第2の音声ライン(以下、「話者音声ライン」という)を、手本音声ラインと比較可能にディスプレイDの画面に表示させる。ここで、描画制御部32は、話者音声ラインを表示させる際に、話者音声波形データから特定された音高に基づいて、時間軸方向と直交する軸方向における話者音声ラインの位置を例えば所定時間毎に決定し、話者音声波形データから特定された音圧に基づいて、話者音声ラインの幅を例えば所定時間毎に決定する。さらに、描画制御部32は、話者音声波形データから特定された発音特徴量に基づいて、話者音声ラインの色を所定単位毎(例えば、文字毎、または所定時間毎)に決定する。なお、話者音声ラインの色の決定方法の具体例については、上述した手本音声ラインの色の決定方法の具体例1〜3と同様である。
また、描画制御部32は、上記取得したテキストデータに基づいて、この文字列を構成する各文字を時間軸(例えば、横軸)方向に沿って話者音声ラインに対応させるようにディスプレイDの画面に表示させる。例えば、描画制御部32は、話者音声波形データから特定された音高に基づいて、時間軸方向と直交する軸方向における文字の位置を文字毎に決定し、話者音声波形データから特定された音圧に基づいて、文字のサイズを文字毎に決定する。
図3は、話者の音読中において、画面に表示される手本音声ライン及び話者音声ラインの一例を示す図である。なお、図3は、発音特徴量として音素が特定された場合の画面例である。図3に示す画面には、手本音声ライン表示部51と、話者音声ライン表示部52、及び音素/線色対応付け表示部53が設けられている。手本音声ライン表示部51及び話者音声ライン表示部52内は、それぞれ、音高を縦軸(Y軸)にとり、時間を横軸(X軸)とった座標平面で構成されている。手本音声ライン表示部51内には、手本音声ライン51a及び文字列を構成する各文字51bが表示されている。また、話者音声ライン表示部52には、話者音声ライン52a及び文字列を構成する各文字52bが表示されている。また、手本音声ライン表示部51の時間軸(横軸)方向の時間の刻み幅と、及び話者音声ライン表示部52の時間軸(横軸)方向の時間の刻み幅は、一致するように構成されているので、話者音声ライン52aと手本音声ライン51aとを比較可能に表示させることができる。
音素/線色対応付け表示部53には、音素(この例では、母音と“ん”)と線色(音声ラインの色)との対応関係が表示されている。音素と線色との対応付けは、予め設定される。この例では、「あ」、「い」、「う」、「え」、「お」の母音に対して、それぞれ、「青」、「赤」、「緑」、「紫」、「黄」が予め設定されている。また、「ん」に対して、「灰」(グレー)が予め設定されている。なお、「ん」以外の子音に対しても、「灰」が予め設定されてもよいし、子音毎に異なる線色が予め設定されてもよい。例えば音素が「か」のように、子音と母音の組合せである場合、例えば、子音に対して予め設定された線色と、母音に対して予め設定された線色とを合成した混合色となる。なお、子音に対して線色が予め設定されてなくてもよい。この場合、例えば音素が「か」のように、子音と母音の組合せである場合、例えば、母音に対して設定された線色となる。また、図3に示す現在発話位置は、文字列を音読している話者の現在の音読位置を示している。
また、手本音声ライン表示部51に表示される手本音声ライン51aを構成する各点の縦軸(Y軸)方向における位置(y座標)は、手本音声波形データから特定された音高に基づいて、横軸(X軸)方向に所定時間(例えば、10ms)毎に決定されている。この場合、音高が高いほど、手本音声ライン51aを構成する点の位置が座標平面上で、y座標の値が大きい位置に決定されるようになっている。また、手本音声ライン表示部51に表示される手本音声ライン51aの幅は、手本音声波形データから特定された音圧に基づいて、横軸(X軸)方向に所定時間(例えば、10ms)毎に決定されている。この場合、音圧が高いほど、手本音声ライン51aの幅が太く決定されるようになっている。なお、手本音声ライン51aの幅は、手本音声ライン51aが伸びる(進む)方向と直交する方向の幅(つまり、太さ)である。また、特定された音圧が閾値以下である区間は、手本音声ライン51aを表示しないように構成してもよい。図3に示す区間x3は、発話されない区間であり、音圧が閾値以下となるため、手本音声ライン51aが表示されていない。このように、手本音声ライン51aは、途中で切れていてもよく、特に、話者が発した声が小さい場合、途切れ途切れの話者音声ライン52aになる場合もある。なお、話者音声ライン表示部52に表示される話者音声ライン52aの位置、及び幅についても、話者音声波形データから特定された音高、及び音圧に基づいて、手本音声ライン51aと同様の方法で決定される。
また、手本音声ライン表示部51に表示される手本音声ライン51aの色(線色)は、手本音声波形データから特定された音素に基づいて、横軸(X軸)方向に文字(つまり、音素)毎に決定されている。これは、上述した、音声ラインの色の決定方法の具体例1により決定される。例えば、子音と母音の組合せである「ご」に対応する区間x1の線色は、子音“g”に対して予め設定された色(母音以外の音成分に応じた色の一例)と、母音“o” に対して予め設定された色(母音の別に応じた色)との混合色になっている。また、例えば、母音「あ」に対応する区間x2の線色は、母音“a” に対して予め設定された色(母音の別に応じた色)になっている。文字毎の区間の時間長さは、上記所定時間(例えば、10ms)より長くなる。また、文字毎の区間の時間長さは、互いに同一であるとは限らず、図3に示すように、x1(例えば、100ms)とx2(例えば、300ms)との時間長さは異なっている。なお、話者音声ライン表示部52に表示される話者音声ライン52aの色についても、話者音声波形データから特定された音素に基づいて、手本音声ライン51aと同様の方法で決定される。
さらに、手本音声ライン表示部51に表示される各文字51bの縦軸(Y軸)方向における位置(y座標)は、手本音声波形データから特定された音高に基づいて、横軸(X軸)方向に文字毎に決定されている。この場合、音高が高いほど、各文字51bの位置が座標平面上で、y座標の値が大きい位置に決定されるようになっている。ここで用いられる音高は、例えば、文字毎の区間(例えば、x1)内に含まれる複数の音高の平均値とされる。また、手本音声ライン表示部51に表示される各文字51bのサイズが、横軸(X軸)方向に文字毎に決定されている。この場合、音圧が高いほど、各文字51bのサイズが大きくなるようになっている。ここで用いられる音圧は、例えば、文字毎の区間(例えば、x1)内に含まれる複数の音圧の平均値とされる。なお、話者音声ライン表示部52に表示される各文字52bの位置、及びサイズについても、話者音声波形データから特定された音高、及び音圧に基づいて、各文字51bと同様の方法で決定される。
以上のように、手本音声ライン51a及び文字列を構成する各文字51bと、話者音声ライン52a及び文字列を構成する各文字52bとが比較可能に表示されるので、手本となる音声と、話者が音声との発し方の違いを、話者に一見して、より分り易く把握させることができる。
なお、図3の例では、発音特徴量として特定された音素に基づいて線色が決定された場合を示したため、各文字の区間の境で色が明確に変化している。しかし、発音特徴量としてフォルマント周波数等が特定された場合、手本音声ライン51aと話者音声ライン52aの色は、それぞれ、特定されたフォルマント周波数(または、フォルマント周波数及びノイズ周波数)に基づいて、横軸(X軸)方向に所定時間(例えば、10ms)毎に決定される。このため、手本音声ライン51aと話者音声ライン52aの色は、図3に示すよりも滑らかに変化する(言い換えれば、グラデーションのように変化する)ことになる。
[2.音声情報表示装置Sの動作例]
次に、図4〜図6を参照して、音声情報表示装置Sの動作の一例について説明する。以下に説明する動作例は、発音特徴量としてフォルマント周波数等が特定された場合の例である。図4は、音声情報表示装置Sにおける処理の流れ及び処理で用いられるデータを示す図である。図5は、図4に示す音声描画データ生成処理内容の一例を示す図である。図6は、図4に示す画面描画処理内容の一例を示す図である。
図4において、先ず、例えば話者が操作部4を介して音読対象のお手本となる所望の音声ファイルを指定すると、制御部3は、音声ファイル入力処理を実行し、指定された音声ファイルに格納された手本音声波形データを入力する(ステップS1)。次いで、制御部3の音声処理部31は、入力した手本音声波形データに基づいて、音声描画データ生成処理を実行する(ステップS2)。音声描画データ生成処理では、図5に示すように、音高データ算出処理(ステップS21)、音圧データ算出処理(ステップS22)、及び発音特徴量特定処理(ステップS23)が実行される。音高データ算出処理、音圧データ算出処理、及び発音特徴量特定処理は、直列的に実行されてもよいし、並列的に実行されてもよい。直列的に実行される場合、音高データ算出処理、音圧データ算出処理、及び発音特徴量特定処理のうち、どの順番で処理が実行されてもよい。
音高データ算出処理(ステップS21)では、音声処理部31は、入力した手本音声波形データに基づいて、所定時間毎に音高を特定する音高特定処理(ステップS211)を実行する。音高特定処理では、音声処理部31は、例えば、手本音声波形データから所定時間毎に切り出したデータから基本周波数(Hz)を算出し、算出した基本周波数(Hz)を音高として所定時間毎に特定する。そして、音声処理部31は、所定時間毎に特定した音高を示す音高データを時系列で算出する。
音圧データ算出処理(ステップS22)では、音声処理部31は、入力した手本音声波形データに基づいて、所定時間毎に音圧を特定する音圧特定処理(ステップS221)を実行する。音圧特定処理では、音声処理部31は、例えば、手本音声波形データから所定時間毎に切り出したデータから音圧レベル(dB)を算出し、算出した音圧レベル(dB)を音圧として所定時間毎に特定する。そして、音声処理部31は、所定時間毎に特定した音圧を示す音圧データを時系列で算出する。
発音特徴量特定処理(ステップS23)では、音声処理部31は、例えば、入力した手本音声波形データにおけるノイズ成分と調波成分を分離するノイズ・調波成分分離処理(ステップS231)を実行する。ノイズ・調波成分分離処理では、音声処理部31は、例えば、手本音声波形データをフーリエ解析し、周波数ビン単位でノイズ成分と調波成分とに分離し、分離したそれぞれの成分を再度逆フーリエ解析により、ノイズ成分の音声波形データと、調波成分の音声波形データとを生成する。
次いで、音声処理部31は、生成したノイズ成分の音声波形データに基づいて、所定時間毎にノイズ音圧を特定するノイズ音圧特定処理(ステップS232)と、所定時間毎にノイズ中心周波数を算出するノイズ中心周波数算出処理(ステップS233)とを実行する。ノイズ音圧特定処理では、音声処理部31は、例えば、ノイズ成分の音声波形データから所定時間毎に切り出したデータから音圧レベル(dB)を算出し、算出した音圧レベル(dB)をノイズ音圧として所定時間毎に特定する。そして、音声処理部31は、所定時間毎に特定したノイズ音圧を示すノイズ音圧データを時系列で算出する。一方、ノイズ中心周波数算出処理では、音声処理部31は、例えば、ノイズ成分の音声波形データから所定時間毎に切り出したデータをフーリエ解析することでノイズ成分の周波数スペクトルを算出する。そして、音声処理部31は、算出したノイズ成分の周波数スペクトルにおける周波数軸に対する平滑化を行うことでノイズ周波数を所定時間毎に特定し、そのスペクトル包絡の中で頂点をノイズ中心周波数として時系列で算出する。
また、音声処理部31は、生成した調波成分の音声波形データに基づいて、所定時間毎に調波音圧を特定する調波音圧特定処理(ステップS234)と、所定時間毎にフォルマント周波数を算出するフォルマント算出処理(ステップS235)とを実行する。調波音圧特定処理では、音声処理部31は、例えば、調波成分の音声波形データから所定時間毎に切り出したデータから音圧レベル(dB)を算出し、算出した音圧レベル(dB)を調波音圧として所定時間毎に特定する。そして、音声処理部31は、所定時間毎に特定した調波音圧を示す調波音圧データを時系列で算出する。一方、フォルマント算出処理では、音声処理部31は、例えば、調波成分の音声波形データから所定時間毎に切り出したデータに対して線形予測符号法を用いて第1フォルマント周波数及び第2フォルマント周波数を所定時間毎に時系列で算出する。
そして、音声処理部31は、ステップS2の音声描画データ生成処理により算出された音高データ、音圧データ、ノイズ音圧データ、ノイズ中心周波数、調波音圧データ、第1フォルマント周波数、及び第2フォルマント周波数を、図4に示すように、音声描画データとして、例えば記憶部2に設けられた描画DB(データベース)に記憶する。次いで、制御部3は、音声ファイル入力処理を実行し、例えば話者により指定された音声ファイルに対応付けられたテキストデータであって、音読対象となる文字列のテキストデータを入力し(ステップS3)、図4に示すように、テキスト描画データとして、描画DBに記憶する。
一方、話者が文字列の音読を開始すると、この文字列の音読中に発せられた音声がマイクMにより集音され、集音された音声の波形を示す話者音声波形データが、インターフェース部5を介して音声情報表示装置Sへ出力される。そして、制御部3は、音声入力処理を実行することで、マイクMから話者音声波形データを入力する(ステップS4)。次いで、制御部3の音声処理部31は、入力した話者音声波形データに基づいて、図5に示す音声描画データ生成処理を実行する(ステップS5)。この音声描画データ生成処理では、手本音声波形データの場合と同様の方法で、音高データ算出処理(ステップS21)、音圧データ算出処理(ステップS22)、及び発音特徴量特定処理(ステップS23)が実行される。そして、音声処理部31は、ステップS5の音声描画データ生成処理により算出された音高データ、音圧データ、ノイズ音圧データ、ノイズ中心周波数、調波音圧データ、第1フォルマント周波数、及び第2フォルマント周波数を、音声描画データとして順次、描画制御部32へ出力する。
次いで、制御部3の描画制御部32は、描画データベースから取得される音声描画データ(手本)及びテキスト描画データに基づいて画面描画処理(手本用の画面描画処理)を実行し、且つ音声処理部31から取得される音声描画データ(話者)及び描画データベースから取得されるテキスト描画データに基づいて画面描画処理(話者用の画面描画処理)を実行する(ステップS6)。なお、手本用の画面描画処理と話者用の画面描画処理とは、直列的に実行されてもよいし、並列的に実行されてもよい。また、話者の音読中にリアルタイムで話者用の画面描画処理が実行されてもよい。なお、図6の例では、1つの画面描画処理内容を示しているが、この画面描画処理は、手本用と話者用とのそれぞれで実行される。
画面描画処理では、図6に示すように、描画制御部32は、テキスト表示処理(ステップS61)と、線表示処理(ステップS62)と、線幅変更処理(ステップS63)と、ノイズ色生成処理(ステップS64)と、調波色生成処理(ステップS65)と、色合成表示処理(ステップS66)とを実行する。なお、テキスト表示処理と線表示処理は、直列的に実行されてもよいし、並列的に実行されてもよい。直列的に実行される場合、テキスト表示処理と線表示処理のうち、どの順番で処理が実行されてもよい。
テキスト表示処理(ステップS61)では、描画制御部32は、取得したテキスト描画データに基づいて表示文字(つまり、画面に表示させる文字)、及び横軸(X軸)方向における表示文字の表示位置を文字毎に決定する。表示文字の表示位置は、例えば、テキスト描画データに含まれる発音タイミングにより決定される。ただし、話者により音読された文字の表示位置は、例えばラベリング処理により決定される。ラベリング処理は、テキスト描画データと、話者音声波形データと、話者音声波形データの周波数スペクトログラムとに基づいて、音読(発話)内容に則した音素ラベルの付与と、音素間の境界位置の特定を行う処理である。ラベリング処理には、公知の様々な手法を適用できるので、詳しい説明を省略する。次いで、描画制御部32は、取得した音声描画データに含まれる音高データが示す音高に基づいて、縦軸(Y軸)方向における表示文字の表示位置を決定し、取得した音声描画データに含まれる音圧データが示す音圧に基づいて、表示文字のサイズを決定する。そして、描画制御部32は、決定した表示文字、表示位置、及びサイズにしたがってディスプレイDへ描画指令を与えることで画面に表示文字を描画する。
線表示処理(ステップS62)では、描画制御部32は、取得した音声描画データに含まれる音高データが示す音高に基づいて、上述したように、縦軸(Y軸)方向における音声ライン(手本音声ラインまたは話者音声ライン)の表示位置を所定時間毎に決定する。また、描画制御部32は、取得した音声描画データに含まれる音圧データが示す音圧が閾値以下である区間を特定する。そして、描画制御部32は、決定した表示位置にしたがってディスプレイDへ描画指令を与えることで画面に時系列的に変化する音声ラインを描画する。なお、音圧が閾値以下である区間が特定されていれば、描画制御部32は、この区間には音声ラインを描画しない。
線幅変更処理(ステップS63)では、描画制御部32は、取得した音声描画データに含まれる音圧データが示す音圧に基づいて、上述したように、音声ラインの幅を所定時間毎に決定する。そして、描画制御部32は、決定した幅にしたがってディスプレイDへ描画指令を与えることで音声ラインの幅を変更させる。
ノイズ色生成処理(ステップS64)では、描画制御部32は、例えば、取得した音声描画データに含まれるノイズ中心周波数の値に応じた色を決定し、決定した色の濃さを、音声描画データに含まれるノイズ音圧データが示すノイズ音圧の値に応じて決定することでノイズ色を所定時間毎に生成する。
調波色生成処理(ステップS65)では、描画制御部32は、例えば、取得した音声描画データに含まれる第1フォルマント周波数の値に応じた色と、音声描画データに含まれる第2フォルマント周波数の値に応じた色との混合色を決定し、決定した混合色の濃さを音声描画データに含まれる調波音圧データが示す調波音圧の値に応じて決定することで調波色を所定時間毎に生成する。
色合成表示処理(ステップS66)では、描画制御部32は、ノイズ色生成処理により生成されたノイズ色と、調波色生成処理により生成された調波色とを合成(ミックス)して線色を所定時間毎に決定する。そして、描画制御部32は、決定した線色にしたがってディスプレイDへ描画指令を与えることで音声ラインに色を付ける。
以上説明したように、上記実施形態によれば、文字列を音読するときの手本となる音声の変化を表す手本音声ラインの位置、幅、及び色を手本音声波形データから特定された音高、音圧、及び発音特徴量に基づいて決定し、話者が上記文字列を音読するときに発した音声の変化を表す話者音声ラインの位置、幅、及び色を話者音声波形データから特定された音高、音圧、及び発音特徴量に基づいて決定して、手本音声ラインと話者音声ラインとを比較可能に画面に表示させるとともに、上記文字列を時間軸方向に沿って画面に表示させるように構成したので、手本となる音声と、話者の音声との発し方の違いを、話者に一見して、より分り易く把握させることができる。
1 通信部
2 記憶部
3 制御部
4 操作部
5 インターフェース部
6 バス
31 音声処理部
32 描画制御部
S 音声情報表示装置

Claims (12)

  1. 複数の文字により構成される文字列のテキストデータと、前記文字列を音読するときの手本となる音声の波形を示す第1音声波形データに基づいて文字単位毎に特定された音高、音圧、母音、及び前記母音以外の音成分を記憶する記憶手段と、
    話者が前記文字列を音読したときに発した音声の波形を示す第2音声波形データを入力する入力手段と、
    前記第音声波形データに基づいて、前記文字単位毎に音高、音圧、母音、及び前記母音以外の音成分を特定する特定手段と、
    前記記憶手段に記憶された音高、音圧、母音、及び前記母音以外の音成分に基づいて、時間軸方向に伸び、且つ、前記時間軸方向と直交する軸方向に時系列的に変化する第1のラインを画面に表示させる第1制御手段と、
    前記テキストデータに基づいて、前記文字列を構成する各文字を前記時間軸方向に沿って前記画面に表示させる第2制御手段と、
    前記特定手段により特定された音高、音圧、母音、及び前記母音以外の音成分に基づいて、時間軸方向に伸び、且つ、前記時間軸方向と直交する軸方向に時系列的に変化する第2のラインを、前記第1のラインと比較可能に前記画面に表示させる第3制御手段と、
    を備え、
    前記第1制御手段及び前記第3制御手段は、それぞれ、
    前記音高に基づいて、前記時間軸方向と直交する軸方向における前記ラインの位置を前記文字単位毎に決定する第1決定部と、
    前記音圧に基づいて、前記ラインの幅を前記文字単位毎に決定する第2決定部と、
    前記特定された母音の別に応じた色と、前記母音以外の音成分に応じた色との混合色を前記ラインの色として前記文字単位毎に決定する第3決定部と、
    を備えることを特徴とする表示制御装置。
  2. 1つ以上のコンピュータにより実行される表示制御方法であって、
    複数の文字により構成される文字列のテキストデータと、前記文字列を音読するときの手本となる音声の波形を示す第1音声波形データに基づいて文字単位毎に特定された音高、音圧、母音、及び前記母音以外の音成分を記憶手段に記憶する記憶ステップと、
    話者が前記文字列を音読したときに発した音声の波形を示す第2音声波形データを入力する入力ステップと、
    前記第2音声波形データに基づいて、前記文字単位毎に音高、音圧、母音、及び前記母音以外の音成分を特定する特定ステップと、
    前記記憶ステップにより記憶された音高、音圧、母音、及び前記母音以外の音成分に基づいて、時間軸方向に伸び、且つ、前記時間軸方向と直交する軸方向に時系列的に変化する第1のラインを画面に表示させる第1制御ステップと、
    前記テキストデータに基づいて、前記文字列を構成する各文字を前記時間軸方向に沿って前記画面に表示させる第2制御ステップと、
    前記特定ステップにより特定された音高、音圧、母音、及び前記母音以外の音成分に基づいて、時間軸方向に伸び、且つ、前記時間軸方向と直交する軸方向に時系列的に変化する第2のラインを、前記第1のラインと比較可能に前記画面に表示させる第3制御ステップと、
    を備え、
    前記第1制御ステップ及び前記第3制御ステップは、それぞれ、
    前記音高に基づいて、前記時間軸方向と直交する軸方向における前記ラインの位置を前記文字単位毎に決定するステップと、
    前記音圧に基づいて、前記ラインの幅を前記文字単位毎に決定するステップと、
    前記特定された母音の別に応じた色と、前記母音以外の音成分に応じた色との混合色を前記ラインの色として前記文字単位毎に決定するステップと、
    を含むことを特徴とする表示制御方法。
  3. 複数の文字により構成される文字列のテキストデータと、前記文字列を音読するときの手本となる音声の波形を示す第1音声波形データに基づいて文字単位毎に特定された音高、音圧、母音、及び前記母音以外の音成分を記憶手段に記憶する記憶ステップと、
    話者が前記文字列を音読したときに発した音声の波形を示す第2音声波形データを入力する入力ステップと、
    前記第2音声波形データに基づいて、前記文字単位毎に音高、音圧、母音、及び前記母音以外の音成分を特定する特定ステップと、
    前記記憶ステップにより記憶された音高、音圧、母音、及び前記母音以外の音成分に基づいて、時間軸方向に伸び、且つ、前記時間軸方向と直交する軸方向に時系列的に変化する第1のラインを画面に表示させる第1制御ステップと、
    前記テキストデータに基づいて、前記文字列を構成する各文字を前記時間軸方向に沿って前記画面に表示させる第2制御ステップと、
    前記特定ステップにより特定された音高、音圧、母音、及び前記母音以外の音成分に基づいて、時間軸方向に伸び、且つ、前記時間軸方向と直交する軸方向に時系列的に変化する第2のラインを、前記第1のラインと比較可能に前記画面に表示させる第3制御ステップと、
    をコンピュータに実行させ、
    前記第1制御ステップ及び前記第3制御ステップは、それぞれ、
    前記音高に基づいて、前記時間軸方向と直交する軸方向における前記ラインの位置を前記文字単位毎に決定するステップと、
    前記音圧に基づいて、前記ラインの幅を前記文字単位毎に決定するステップと、
    前記特定された母音の別に応じた色と、前記母音以外の音成分に応じた色との混合色を前記ラインの色として前記文字単位毎に決定するステップと、
    を含むことを特徴とするプログラム。
  4. 複数の文字により構成される文字列のテキストデータと、前記文字列を音読するときの手本となる音声の波形を示す第1音声波形データに基づいて所定時間単位毎に特定された音高、音圧、第1フォルマント周波数、及び第2フォルマント周波数を記憶する記憶手段と、
    話者が前記文字列を音読したときに発した音声の波形を示す第2音声波形データを入力する入力手段と、
    前記第2音声波形データに基づいて、前記所定時間単位毎に音高、音圧、第1フォルマント周波数、及び第2フォルマント周波数を特定する特定手段と、
    前記記憶手段に記憶された音高、音圧、第1フォルマント周波数、及び第2フォルマント周波数に基づいて、時間軸方向に伸び、且つ、前記時間軸方向と直交する軸方向に時系列的に変化する第1のラインを画面に表示させる第1制御手段と、
    前記テキストデータに基づいて、前記文字列を構成する各文字を前記時間軸方向に沿って前記画面に表示させる第2制御手段と、
    前記特定手段により特定された音高、音圧、第1フォルマント周波数、及び第2フォルマント周波数に基づいて、時間軸方向に伸び、且つ、前記時間軸方向と直交する軸方向に時系列的に変化する第2のラインを、前記第1のラインと比較可能に前記画面に表示させる第3制御手段と、
    を備え、
    前記第1制御手段及び前記第3制御手段は、それぞれ、
    前記音高に基づいて、前記時間軸方向と直交する軸方向における前記ラインの位置を前記所定時間単位毎に決定する第1決定部と、
    前記音圧に基づいて、前記ラインの幅を前記所定時間単位毎に決定する第2決定部と、
    前記特定された第1フォルマント周波数の値と前記特定された第2フォルマント周波数の値との組合せに応じた色を前記ラインの色として前記所定時間単位毎に決定する第3決定部と、
    を備えることを特徴とする表示制御装置。
  5. 所定の第1フォルマント周波数の値と所定の第2フォルマント周波数の値との組合せに対して所定の基準色が設定されており、
    前記特定された第1フォルマント周波数の値と前記特定された第2フォルマント周波数の値との組合せに応じた色は、所定の第1フォルマント周波数の値と前記特定された第1フォルマント周波数の値の差と、所定の第2フォルマント周波数の値と前記特定された第2フォルマント周波数の値の差との自乗和が大きいほど、前記基準色からの変化度合いが大きいことを特徴とする請求項に記載の表示制御装置。
  6. 前記記憶手段は、前記第1音声波形データに基づいて、前記所定時間単位毎に特定されたノイズ成分をさらに記憶し、
    前記特定手段は、前記第2音声波形データに基づいて、前記所定時間単位毎にノイズ成分をさらに特定し、
    前記第3決定部は、前記特定された第1フォルマント周波数の値と前記特定された第2フォルマント周波数の値との組合せに応じた色と、前記特定されたノイズ成分の値に応じた色との混合色を前記ラインの色として決定することを特徴とする請求項に記載の表示制御装置。
  7. 1つ以上のコンピュータにより実行される表示制御方法であって、
    複数の文字により構成される文字列のテキストデータと、前記文字列を音読するときの手本となる音声の波形を示す第1音声波形データに基づいて所定時間単位毎に特定された音高、音圧、第1フォルマント周波数、及び第2フォルマント周波数を記憶手段に記憶する記憶ステップと、
    話者が前記文字列を音読したときに発した音声の波形を示す第2音声波形データを入力する入力ステップと、
    前記第2音声波形データに基づいて、所定時間単位毎に音高、音圧、第1フォルマント周波数、及び第2フォルマント周波数を特定する特定ステップと、
    前記記憶ステップにより記憶された音高、音圧、第1フォルマント周波数、及び第2フォルマント周波数に基づいて、時間軸方向に伸び、且つ、前記時間軸方向と直交する軸方向に時系列的に変化する第1のラインを画面に表示させる第1制御ステップと、
    前記テキストデータに基づいて、前記文字列を構成する各文字を前記時間軸方向に沿って前記画面に表示させる第2制御ステップと、
    前記特定ステップにより特定された音高、音圧、第1フォルマント周波数、及び第2フォルマント周波数に基づいて、時間軸方向に伸び、且つ、前記時間軸方向と直交する軸方向に時系列的に変化する第2のラインを、前記第1のラインと比較可能に前記画面に表示させる第3制御ステップと、
    を備え、
    前記第1制御ステップ及び前記第3制御ステップは、それぞれ、
    前記音高に基づいて、前記時間軸方向と直交する軸方向における前記ラインの位置を前記所定時間単位毎に決定するステップと、
    前記音圧に基づいて、前記ラインの幅を前記所定時間単位毎に決定するステップと、
    前記特定された第1フォルマント周波数の値と前記特定された第2フォルマント周波数の値との組合せに応じた色を前記ラインの色として前記所定時間単位毎に決定するステップと、
    を含むことを特徴とする表示制御方法
  8. 複数の文字により構成される文字列のテキストデータと、前記文字列を音読するときの手本となる音声の波形を示す第1音声波形データに基づいて所定時間単位毎に特定された音高、音圧、第1フォルマント周波数、及び第2フォルマント周波数を記憶手段に記憶する記憶ステップと、
    話者が前記文字列を音読したときに発した音声の波形を示す第2音声波形データを入力する入力ステップと、
    前記第2音声波形データに基づいて、所定時間単位毎に音高、音圧、第1フォルマント周波数、及び第2フォルマント周波数を特定する特定ステップと、
    前記記憶ステップにより記憶された音高、音圧、第1フォルマント周波数、及び第2フォルマント周波数に基づいて、時間軸方向に伸び、且つ、前記時間軸方向と直交する軸方向に時系列的に変化する第1のラインを画面に表示させる第1制御ステップと、
    前記テキストデータに基づいて、前記文字列を構成する各文字を前記時間軸方向に沿って前記画面に表示させる第2制御ステップと、
    前記特定ステップにより特定された音高、音圧、第1フォルマント周波数、及び第2フォルマント周波数に基づいて、時間軸方向に伸び、且つ、前記時間軸方向と直交する軸方向に時系列的に変化する第2のラインを、前記第1のラインと比較可能に前記画面に表示させる第3制御ステップと、
    をコンピュータに実行させ、
    前記第1制御ステップ及び前記第3制御ステップは、それぞれ、
    前記音高に基づいて、前記時間軸方向と直交する軸方向における前記ラインの位置を前記所定時間単位毎に決定するステップと、
    前記音圧に基づいて、前記ラインの幅を前記所定時間単位毎に決定するステップと、
    前記特定された第1フォルマント周波数の値と前記特定された第2フォルマント周波数の値との組合せに応じた色を前記ラインの色として前記所定時間単位毎に決定するステップと、
    を含むことを特徴とするプログラム
  9. 複数の文字により構成される文字列のテキストデータと、前記文字列を音読するときの手本となる音声の波形を示す第1音声波形データに基づいて所定時間単位毎に特定された音高、音圧、第1フォルマント周波数、及び第2フォルマント周波数を記憶する記憶手段と、
    話者が前記文字列を音読したときに発した音声の波形を示す第2音声波形データを入力する入力手段と、
    前記第2音声波形データに基づいて、前記所定時間単位毎に音高、音圧、第1フォルマント周波数、及び第2フォルマント周波数を特定する特定手段と、
    前記記憶手段に記憶された音高、音圧、第1フォルマント周波数、及び第2フォルマント周波数に基づいて、時間軸方向に伸び、且つ、前記時間軸方向と直交する軸方向に時系列的に変化する第1のラインを画面に表示させる第1制御手段と、
    前記テキストデータに基づいて、前記文字列を構成する各文字を前記時間軸方向に沿って前記画面に表示させる第2制御手段と、
    前記特定手段により特定された音高、音圧、第1フォルマント周波数、及び第2フォルマント周波数に基づいて、時間軸方向に伸び、且つ、前記時間軸方向と直交する軸方向に時系列的に変化する第2のラインを、前記第1のラインと比較可能に前記画面に表示させる第3制御手段と、
    を備え、
    前記第1制御手段及び前記第3制御手段は、それぞれ、
    前記音高に基づいて、前記時間軸方向と直交する軸方向における前記ラインの位置を前記所定時間単位毎に決定する第1決定部と、
    前記音圧に基づいて、前記ラインの幅を前記所定時間単位毎に決定する第2決定部と、
    前記特定された第1フォルマント周波数の値に応じた色と前記特定された第2フォルマント周波数の値に応じた色との混合色を前記ラインの色として前記所定時間単位毎に決定する第3決定部と、
    を備えることを特徴とする表示制御装置。
  10. 前記記憶手段は、前記第1音声波形データに基づいて、前記所定時間単位毎に特定されたノイズ成分をさらに記憶し、
    前記特定手段は、前記第2音声波形データに基づいて、前記所定時間単位毎にノイズ成分をさらに特定し、
    前記第3決定部は、前記特定された第1フォルマント周波数の値に応じた色と前記特定された第2フォルマント周波数の値に応じた色との混合色と、前記ノイズ成分の値に応じた色との混合色を前記ラインの色として決定することを特徴とする請求項9に記載の表示制御装置。
  11. 1つ以上のコンピュータにより実行される表示制御方法であって、
    複数の文字により構成される文字列のテキストデータと、前記文字列を音読するときの手本となる音声の波形を示す第1音声波形データに基づいて所定時間単位毎に特定された音高、音圧、第1フォルマント周波数、及び第2フォルマント周波数を記憶手段に記憶する記憶ステップと、
    話者が前記文字列を音読したときに発した音声の波形を示す第2音声波形データを入力する入力ステップと、
    前記第2音声波形データに基づいて、所定時間単位毎に音高、音圧、第1フォルマント周波数、及び第2フォルマント周波数を特定する特定ステップと、
    前記記憶ステップにより記憶された音高、音圧、第1フォルマント周波数、及び第2フォルマント周波数に基づいて、時間軸方向に伸び、且つ、前記時間軸方向と直交する軸方向に時系列的に変化する第1のラインを画面に表示させる第1制御ステップと、
    前記テキストデータに基づいて、前記文字列を構成する各文字を前記時間軸方向に沿って前記画面に表示させる第2制御ステップと、
    前記特定ステップにより特定された音高、音圧、第1フォルマント周波数、及び第2フォルマント周波数に基づいて、時間軸方向に伸び、且つ、前記時間軸方向と直交する軸方向に時系列的に変化する第2のラインを、前記第1のラインと比較可能に前記画面に表示させる第3制御ステップと、
    を備え、
    前記第1制御ステップ及び前記第3制御ステップは、それぞれ、
    前記音高に基づいて、前記時間軸方向と直交する軸方向における前記ラインの位置を前記所定時間単位毎に決定するステップと、
    前記音圧に基づいて、前記ラインの幅を前記所定時間単位毎に決定するステップと、
    前記特定された第1フォルマント周波数の値に応じた色と前記特定された第2フォルマント周波数の値に応じた色との混合色を前記ラインの色として前記所定時間単位毎に決定するステップと、
    を含むことを特徴とする表示制御方法。
  12. 複数の文字により構成される文字列のテキストデータと、前記文字列を音読するときの手本となる音声の波形を示す第1音声波形データに基づいて、所定時間単位毎に特定された音高、音圧、第1フォルマント周波数、及び第2フォルマント周波数を記憶手段に記憶する記憶ステップと、
    話者が前記文字列を音読したときに発した音声の波形を示す第2音声波形データを入力する入力ステップと、
    前記第2音声波形データに基づいて、所定時間単位毎に音高、音圧、第1フォルマント周波数、及び第2フォルマント周波数を特定する特定ステップと、
    前記記憶ステップにより記憶された音高、音圧、第1フォルマント周波数、及び第2フォルマント周波数に基づいて、時間軸方向に伸び、且つ、前記時間軸方向と直交する軸方向に時系列的に変化する第1のラインを画面に表示させる第1制御ステップと、
    前記テキストデータに基づいて、前記文字列を構成する各文字を前記時間軸方向に沿って前記画面に表示させる第2制御ステップと、
    前記特定ステップにより特定された音高、音圧、第1フォルマント周波数、及び第2フォルマント周波数に基づいて、時間軸方向に伸び、且つ、前記時間軸方向と直交する軸方向に時系列的に変化する第2のラインを、前記第1のラインと比較可能に前記画面に表示させる第3制御ステップと、
    をコンピュータに実行させ、
    前記第1制御ステップ及び前記第3制御ステップは、それぞれ、
    前記音高に基づいて、前記時間軸方向と直交する軸方向における前記ラインの位置を前記所定時間単位毎に決定するステップと、
    前記音圧に基づいて、前記ラインの幅を前記所定時間単位毎に決定するステップと、
    前記特定された第1フォルマント周波数の値に応じた色と前記特定された第2フォルマント周波数の値に応じた色との混合色を前記ラインの色として前記所定時間単位毎に決定するステップと、
    を含むことを特徴とするプログラム。
JP2015034384A 2015-02-24 2015-02-24 表示制御装置、表示制御方法、及びプログラム Active JP6256379B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015034384A JP6256379B2 (ja) 2015-02-24 2015-02-24 表示制御装置、表示制御方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015034384A JP6256379B2 (ja) 2015-02-24 2015-02-24 表示制御装置、表示制御方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2016156943A JP2016156943A (ja) 2016-09-01
JP6256379B2 true JP6256379B2 (ja) 2018-01-10

Family

ID=56825950

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015034384A Active JP6256379B2 (ja) 2015-02-24 2015-02-24 表示制御装置、表示制御方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6256379B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107484069B (zh) * 2017-06-30 2019-09-17 歌尔智能科技有限公司 扬声器所处位置的确定方法及装置、扬声器
JP6624607B1 (ja) * 2019-06-20 2019-12-25 モリカトロン株式会社 出力音誤り検出支援プログラム、出力音誤り検出支援方法、および、出力音誤り検出支援装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS627081A (ja) * 1985-07-03 1987-01-14 新技術事業団 音声信号の画像化表示方法及び装置
JPH065451B2 (ja) * 1986-12-22 1994-01-19 株式会社河合楽器製作所 発音訓練装置
US6077080A (en) * 1998-10-06 2000-06-20 Rai; Shogen Alphabet image reading method
JP2003186379A (ja) * 2001-12-13 2003-07-04 Animo:Kk 音声可視化処理のためのプログラム、音声可視化図形表示と音声及び動画像の再生処理のためのプログラム、及び訓練結果表示のためのプログラム、並びに発声発話訓練装置及びコンピュータ・システム
JP4543919B2 (ja) * 2004-12-22 2010-09-15 ヤマハ株式会社 語学学習装置
JP2006276693A (ja) * 2005-03-30 2006-10-12 Yamaha Corp 歌唱評価表示装置およびプログラム
JP2010256391A (ja) * 2009-04-21 2010-11-11 Takeshi Hanamura 音声情報処理装置

Also Published As

Publication number Publication date
JP2016156943A (ja) 2016-09-01

Similar Documents

Publication Publication Date Title
US8898062B2 (en) Strained-rough-voice conversion device, voice conversion device, voice synthesis device, voice conversion method, voice synthesis method, and program
JPH07261778A (ja) 音声情報処理方法及び装置
JP2008233542A (ja) 韻律修正装置、韻律修正方法、および、韻律修正プログラム
CN105957515A (zh) 声音合成方法、声音合成装置和存储声音合成程序的介质
EP3719796A1 (en) Voice synthesis method, voice synthesis device, and program
JP2014038282A (ja) 韻律編集装置、方法およびプログラム
JP6256379B2 (ja) 表示制御装置、表示制御方法、及びプログラム
JP4856560B2 (ja) 音声合成装置
CN112712783B (zh) 生成音乐的方法和装置、计算机设备和介质
JP2015041081A (ja) 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
JP5726822B2 (ja) 音声合成装置、方法及びプログラム
JP6314884B2 (ja) 音読評価装置、音読評価方法、及びプログラム
JP2016157097A (ja) 音読評価装置、音読評価方法、及びプログラム
JP6436806B2 (ja) 音声合成用データ作成方法、及び音声合成用データ作成装置
JP6433063B2 (ja) 音声加工装置、及びプログラム
JP6756607B2 (ja) アクセント型判定装置及びプログラム
WO2012032748A1 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
JP6314879B2 (ja) 音読評価装置、音読評価方法、及びプログラム
JP2017015823A (ja) 発話練習装置、表示制御方法、及びプログラム
JP2006139162A (ja) 語学学習装置
JP6418179B2 (ja) 音読練習装置、表示制御方法、及びプログラム
JP6531654B2 (ja) 音読評価装置、表示制御方法、及びプログラム
Ngo et al. A study on prosody of vietnamese emotional speech
JP2011180368A (ja) 合成音声修正装置および合成音声修正方法
JP2013195928A (ja) 音声素片切出装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161206

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170913

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170919

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171020

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171107

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171120

R150 Certificate of patent or registration of utility model

Ref document number: 6256379

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150