JP6314879B2 - 音読評価装置、音読評価方法、及びプログラム - Google Patents

音読評価装置、音読評価方法、及びプログラム Download PDF

Info

Publication number
JP6314879B2
JP6314879B2 JP2015044963A JP2015044963A JP6314879B2 JP 6314879 B2 JP6314879 B2 JP 6314879B2 JP 2015044963 A JP2015044963 A JP 2015044963A JP 2015044963 A JP2015044963 A JP 2015044963A JP 6314879 B2 JP6314879 B2 JP 6314879B2
Authority
JP
Japan
Prior art keywords
frequency spectrum
frequency
calculated
calculating
predetermined time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015044963A
Other languages
English (en)
Other versions
JP2016164628A (ja
Inventor
典昭 阿瀬見
典昭 阿瀬見
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Brother Industries Ltd
Original Assignee
Brother Industries Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Brother Industries Ltd filed Critical Brother Industries Ltd
Priority to JP2015044963A priority Critical patent/JP6314879B2/ja
Publication of JP2016164628A publication Critical patent/JP2016164628A/ja
Application granted granted Critical
Publication of JP6314879B2 publication Critical patent/JP6314879B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Electrically Operated Instructional Devices (AREA)

Description

本発明は、話者が文字列を音読したときに発した音声に基づいて、文の音読に対する評価を行うシステム等の技術分野に関する。
近年、語学学習、発声発話訓練等の支援を目的として、話者の音読に対する評価を行う技術が知られている。例えば、特許文献1には、予め決められた模範音データに対して、自動車のクラクションや走行音或いは人々の話し声といった効果音を付与して再生させ、この模範音データが再生された後に収音手段から供給される信号が表す音と、模範音データが表す音とを比較し、双方の音の一致度に応じた評価内容を出力する評価装置が開示されている。
特開2007−192882号公報
しかしながら、従来の技術では、背景雑音によるマスキングの影響が考慮されておらず、実際に人が聞いたときの感覚とは異なる評価結果になっていた。
本発明は、以上の点に鑑みてなされたものであり、背景雑音によるマスキングの影響が考慮され、人が聞いたときの感覚により近い評価結果を求めることが可能な音読評価装置、音読評価方法、及びプログラムを提供する。
上記課題を解決するために、請求項1に記載の発明は、複数の文字により構成される文字列を話者が音読したときに発した音声の波形を示す話者音声波形データを入力する入力手段と、背景雑音の波形を示す背景雑音波形データを記憶する記憶手段と、前記話者音声波形データに基づいて所定時間毎に周波数分析を行うことで第1周波数スペクトルを所定時間毎に算出する第1算出手段と、前記背景雑音波形データに基づいて所定時間毎に周波数分析を行うことで第2周波数スペクトルを所定時間毎に算出する第2算出手段と、前記第2算出手段により算出された第2周波数スペクトルにおいてマスキング効果を有する周波数を基準として各周波数におけるマスクトレベルを所定時間毎に算出する第3算出手段と、前記第1算出手段により算出された第1周波数スペクトルにおける各周波数のレベルと、前記第3算出手段により算出された、各周波数におけるマスクトレベルとの差分を表すマスクト音声周波数スペクトルを所定時間毎に算出する第4算出手段と、前記話者音声波形データが示す音声の波形において時間区間と音素情報とを対応付けたラベリング情報から、音素のモデルとなるモデル周波数スペクトルを前記時間区間毎に算出する第5算出手段と、前記第4算出手段により算出された前記所定時間毎のマスクト音声周波数スペクトルと、前記第5算出手段により算出された前記時間区間毎のモデル周波数スペクトルとの類似度に基づいて前記背景雑音の存在下での前記音読における話者音声の明瞭度の評価を行う評価手段と、を備えることを特徴とする。
請求項2に記載の発明は、請求項1に記載の音読評価装置において、前記評価手段は、前記第4算出手段により算出された前記所定時間毎のマスクト音声周波数スペクトルに含まれるフォルマント周波数を基準とする周波数範囲内のレベル分布と、前記第5算出手段により算出された前記時間区間毎のモデル周波数スペクトルに含まれるフォルマント周波数を基準とする周波数範囲内のレベル分布との類似度に基づいて前記話者音声の明瞭度の評価を行うことを特徴とする。
請求項3に記載の発明は、請求項1または2に記載の音読評価装置において、前記評価手段は、前記マスクト音声周波数スペクトルに基づく前記所定時間毎の音圧レベルの時間的な変化と、前記モデル周波数スペクトルに基づく前記時間区間毎の音圧レベルの時間的な変化との類似度に基づいて前記話者音声の明瞭度の評価を行うことを特徴とする。
請求項4に記載の発明は、請求項1乃至3の何れか一項に記載の音読評価装置において、前記記憶手段は、前記文字列のテキストデータを記憶し、前記テキストデータが示す前記文字例に基づいて前記音声の波形を時間軸方向において前記時間区間毎に区切ることで、前記時間区間と音素情報とを対応付けたラベリング情報を生成する生成手段を更に備え、前記第5算出手段は、前記生成手段により生成されたラベリング情報から、前記音素情報のモデルとなるモデル周波数スペクトルを前記時間区間毎に算出することを特徴とする。請求項5に記載の発明は、請求項1乃至4の何れか一項に記載の音読評価装置において、母音に対応する音素情報が対応付けられた時間区間である母音区間毎の前記第1周波数スペクトルにおける母音S/N比の平均値を平均母音S/N比として算出し、且つ、子音に対応する音素情報が対応付けられた時間区間である子音区間毎の前記第1周波数スペクトルにおける子音S/N比の平均値を平均子音S/N比として算出する第6算出手段を更に備え、前記評価手段は、S/N比が0から所定値Xまでは重み係数が徐々に増加しS/N比が当該所定値X以降は重み係数が徐々に減少するレベル適正度関数を用いて前記平均母音S/N比に前記重み係数を乗算した値と、前記レベル適正度関数を用いて前記平均子音S/N比に前記重み係数を乗算した値と、前記類似度とに基づいて前記話者音声の明瞭度の評価を行うことを特徴とする。
請求項に記載の発明は、1つ以上のコンピュータにより実行される音読評価方法であって、複数の文字により構成される文字列を話者が音読したときに発した音声の波形を示す話者音声波形データを入力する入力ステップと、背景雑音の波形を示す背景雑音波形データを記憶手段に記憶する記憶ステップと、前記話者音声波形データに基づいて所定時間毎に周波数分析を行うことで第1周波数スペクトルを所定時間毎に算出する第1算出ステップと、前記背景雑音波形データに基づいて所定時間毎に周波数分析を行うことで第2周波数スペクトルを所定時間毎に算出する第2算出ステップと、前記第2算出ステップにより算出された第2周波数スペクトルにおいてマスキング効果を有する周波数を基準として各周波数におけるマスクトレベルを所定時間毎に算出する第3算出ステップと、前記第1算出ステップにより算出された第1周波数スペクトルにおける各周波数のレベルと、前記第3算出ステップにより算出された、各周波数におけるマスクトレベルとの差分を表すマスクト音声周波数スペクトルを所定時間毎に算出する第4算出ステップと、前記話者音声波形データが示す音声の波形において時間区間と音素情報とを対応付けたラベリング情報から、前記音素情報のモデルとなるモデル周波数スペクトルを前記時間区間毎に算出する第5算出ステップと、前記第4算出ステップにより算出された前記所定時間毎のマスクト音声周波数スペクトルと、前記第5算出ステップにより算出された前記時間区間毎のモデル周波数スペクトルとの類似度に基づいて前記背景雑音の存在下での前記音読における話者音声の明瞭度の評価を行う評価ステップと、を含むことを特徴とする。
請求項に記載の発明は、複数の文字により構成される文字列を話者が音読したときに発した音声の波形を示す話者音声波形データを入力する入力ステップと、背景雑音の波形を示す背景雑音波形データを記憶手段に記憶する記憶ステップと、前記話者音声波形データに基づいて所定時間毎に周波数分析を行うことで第1周波数スペクトルを所定時間毎に算出する第1算出ステップと、前記背景雑音波形データに基づいて所定時間毎に周波数分析を行うことで第2周波数スペクトルを所定時間毎に算出する第2算出ステップと、前記第2算出ステップにより算出された第2周波数スペクトルにおいてマスキング効果を有する周波数を基準として各周波数におけるマスクトレベルを所定時間毎に算出する第3算出ステップと、前記第1算出ステップにより算出された第1周波数スペクトルにおける各周波数のレベルと、前記第3算出ステップにより算出された、各周波数におけるマスクトレベルとの差分を表すマスクト音声周波数スペクトルを所定時間毎に算出する第4算出ステップと、前記話者音声波形データが示す音声の波形において時間区間と音素情報とを対応付けたラベリング情報から、前記音素情報のモデルとなるモデル周波数スペクトルを前記時間区間毎に算出する第5算出ステップと、前記第4算出ステップにより算出された前記所定時間毎のマスクト音声周波数スペクトルと、前記第5算出ステップにより算出された前記時間区間毎のモデル周波数スペクトルとの類似度に基づいて前記背景雑音の存在下での前記音読における話者音声の明瞭度の評価を行う評価ステップと、をコンピュータに実行させることを特徴とする。
請求項1,4〜に記載の発明によれば、背景雑音によるマスキングの影響が考慮され、人が聞いたときの感覚により近い評価結果を求めることができる。
請求項2に記載の発明によれば、話者音声の明瞭度を表す一要素である「母音らしさ」を評価することができる。
請求項3に記載の発明によれば、話者音声の明瞭度を表す一要素である「抑揚」を評価することができる。
本実施形態に係る音読評価装置Sの概要構成例を示す図である。 (A),(B)は、特定の周波数faを基準としたマスクトレベルの一例を示す図であり、(C)は、各周波数スペクトルの一例を示す図である。 マスクト音声周波数スペクトルとモデル周波数スペクトルのそれぞれにおける第1フォルマント曲線及び第2フォルマント曲線の一例を示す図である。 制御部3により実行される音読録音処理の一例を示すフローチャートである。 (A)は、制御部3により実行される音読評価処理の一例を示すフローチャートであり、(B)は、レベル適正関数を表す曲線の一例を示す図である。 制御部3により実行される音読評価フィードバック処理の一例を示すフローチャートである。 アナウンス評価結果画面の一例を示す図である。
以下、本発明の実施形態を図面に基づいて説明する。
[1.音読評価装置Sの構成及び機能]
初めに、図1を参照して、本発明の実施形態に係る音読評価装置Sの構成及び機能について説明する。図1は、本実施形態に係る音読評価装置Sの概要構成例を示す図である。なお、音読評価装置の一例として、パーソナルコンピュータや、携帯型情報端末(スマートフォン等)などが挙げられる。図1に示すように、音読評価装置Sは、通信部1、記憶部2、制御部3、操作部4、及びインターフェース(IF)部5等を備えて構成され、これらの構成要素はバス6に接続されている。操作部4は、ユーザからの操作指示を受け付け、受け付けた操作に応じた信号を制御部3へ出力する。インターフェース部5には、マイクM、ヘッドホンH、及びディスプレイD等が接続される。マイクMは、語学学習や発声発話訓練等を行う話者が、複数の文字により構成される文字列(例えば、アナウンス文字列)を音読したときに発した音声を集音する。ヘッドホンHは、話者の両耳にスピーカ部分が当たるように話者の頭部に装着される。ヘッドホンHのスピーカからは、後述する背景雑音が出力される。なお、ヘッドホンに代えてイヤホンが用いられてもよい。ディスプレイDは、制御部3からの表示指令にしたがって、評価結果、及び評価結果に基づくアドバイスを画面に表示する。なお、マイクM、及びディスプレイDは、音読評価装置Sと一体型であってもよいし、別体であってもよい。
通信部1は、有線または無線によりネットワーク(図示せず)に接続してサーバ等と通信を行う。記憶部2は、例えばハードディスクドライブ等からなり、OS(オペレーティングシステム)、及び音読評価処理プログラム(本発明のプログラムの一例)等を記憶する。音読評価処理プログラムは、コンピュータとしての制御部3に、後述する音読評価処理を実行させるプログラムである。音読評価処理プログラムは、アプリケーションとして、所定のサーバからダウンロードされてもよいし、CD、DVD等の記録媒体に記憶されて提供されてもよい。
また、記憶部2は、背景雑音の波形を示す背景雑音波形データを所定のファイル形式で記憶する。背景雑音は、例えばアナウンス訓練のための音読前に、実際のアナウンスが行われる環境下(例えば電車内)において予め集音されて背景雑音波形データとして記憶される。また、記憶部2は、複数の文字により構成される文字列のテキストデータと、各文字に対応する音素毎のモデルとなる音素モデル波形データとを所定のファイル形式で記憶する。テキストデータは複数種類あってもよく、それぞれのテキストデータは、背景雑音波形データとペアリングされていてもよい。例えば、あるテキストデータが示すアナウンス文字列が音読される環境下で存在する背景雑音が特定されていれば、この背景雑音の波形を示す背景雑音波形データと、このアナウンス文字列のテキストデータとがペアリングされる。なお、テキストデータには、例えば、各文字の発音タイミング(例えば、発音開始からの経過時間)が文字毎に対応付けられて含まれる。また、音読対象となる文字列の例として、例えば、語学学習またはアナウンス訓練などで用いられる文字列(アナウンス文字列)、または歌唱に用いられる文字列などが挙げられる。また、音素の例として、母音のみ、子音のみ、子音と母音との組合せの3つが挙げられる。母音には、a(あ)、i(い)、u(う)、e(え)、o(お)の5母音がある。子音には、母音以外の音成分(例えば、k、s、t、n、h、m、y、r、w・・・など)がある。また、例えば、日本語の「か」という音素は、ローマ字表記では“ka”であるから、子音と母音の組合せということになる。また、日本語の「しゃ」という音素は、ローマ字表記では“sha”であるから、子音と母音の組合せということになる。
制御部3は、コンピュータとしてのCPU(Central Processing Unit)、ROM(Read Only Memory)、及びRAM(Random Access Memory)等により構成される。制御部3は、音読評価処理プログラムにより、音声処理部31、音読評価部32、及び表示処理部33として機能する。音声処理部31は、本発明における入力手段、第1〜第5算出手段、及び生成手段の一例である。音読評価部32は、本発明の評価手段の一例である。記憶部2または制御部3におけるRAMは、本発明における記憶手段の一例である。
音声処理部31は、話者が上記文字列を音読したときに発した音声であってマイクMにより集音された音声の波形を示す話者音声波形データを入力する。話者音声波形データは、離散化された時系列の音圧波形データであり、例えば、サンプリングレート44.1kHz、量子化16bit、及びモノラルの波形データである。
次に、音声処理部31は、入力された話者音声波形データに基づいてフレーム区間(所定時間の一例)毎に周波数分析を行うことで第1音声周波数スペクトル(以下、「話者音声周波数スペクトル」という)を所定時間毎に算出する。例えば、音声処理部31は、話者音声波形データを、スライディングの時間窓で、一定時間(例えば10ms)毎にオーバーラップさせながらフレーム毎に切り出して離散フーリエ変換を行うことで話者音声周波数スペクトルをフレーム区間(所定時間の一例)毎に算出する。これと同様の方法で、音声処理部31は、記憶部2に記憶されている背景雑音波形データに基づいて所定時間毎に周波数分析を行うことで第2周波数スペクトル(以下、「背景雑音周波数スペクトル」という)をフレーム区間(所定時間の一例)毎に算出する。
次に、音声処理部31は、算出した背景雑音周波数スペクトルにおいてマスキング効果を有する周波数を基準にして各周波数におけるマスクトレベルをフレーム区間(所定時間の一例)毎に算出する。ここで、マスキング効果とは、人の耳に入ってきた音(音波)の中に、特定の周波数(例えば、音圧レベルが高い周波数)の音がある場合、その特定の周波数の近傍にある周波数の音がマスクされ(かき消され)てしまい、人の聴覚で聞こえなくなってしまう現象である。特定の周波数が、マスキング効果を有する周波数である。なお、本実施形態では、音圧として、瞬時音圧(Pa)の二乗平均平方根(RMS)である実効音圧(Pa)の大きさを計算上扱い易い数値で表した音圧レベル(dB)を適用する。音圧レベル(dB)は、広義には音量ともいう。
図2(A),(B)は、特定の周波数faを基準としたマスクトレベルの一例を示す図である。図2(A)に示すマスクトレベルは、特定の周波数faにより決まる包絡(マスキングカーブ)である。マスクトレベル以下の音圧レベルの他の周波数の音は、人の聴覚で聞こえない。このようなマスクトレベルは、図2(A)に示すように、特定の周波数faより高い周波数に向かうカーブの方が、低い周波数に向かうカーブよりも傾きが緩やかになっている。もっとも、このようなカーブの形状、及び臨界帯域幅(例えば、1/4オクターブバンド)は、特定の周波数faやその音圧レベルによって変化する。このため、例えば所定の周波数帯毎、且つ所定の音圧レベル範囲毎に、マスクトレベルを示すデータを予め記憶しておくとよい。そして、音声処理部31は、背景雑音周波数スペクトルにおいてマスキング効果を有する周波数として、例えば背景雑音周波数スペクトルの包絡において山となる周波数を特定の周波数として選定する。音声処理部31は、選定した特定の周波数に応じたマスクトレベルを示すデータに基づいて、当該特定の周波数を基準として含む所定周波数帯におけるマスクトレベルを算出する。なお、背景雑音周波数スペクトルの包絡において山となる周波数が複数ある場合、音声処理部31は、複数の特定の周波数毎に、当該特定の周波数に応じたマスクトレベルを示すデータに基づいて(例えば、マスクトレベルの包絡が交差した場合、音圧レベルの高い方のマスクトレベルをとる)、背景雑音周波数スペクトルに基づくマスクトレベルを算出することになる。
なお、マスクトレベルは、ISO532B規格であるZwickerのラウドネス(音の主観的な大きさ)計算手法を用いることでも算出することができる。ラウドネス計算手法では、図2(B)に示すマスクトレベルを示すデータが用いられる。特定の周波数より高い周波数に向かうカーブの方が、低い周波数に向かうカーブよりも近傍の周波数の音に及ぼす影響が大きいため、図2(B)に示すマスクトレベルでは、高い周波数側のカーブのみを考慮している。この場合、音声処理部31は、背景雑音波形データに基づいて、1/3オクターブバンド分析を行うことで1/3オクターブバンド毎に音圧レベルを算出する。そして、音声処理部31は、1/3オクターブバンド毎に規定される目盛を持ったグラフに、1/3オクターブバンド毎に算出した音圧レベルを最大値とする図2(B)に示すマスクトレベルを書き込んで得た音圧レベルの階段状スペクトルを、背景雑音周波数スペクトルに基づくマスクトレベルとして算出する。
次に、音声処理部31は、算出した話者音声周波数スペクトルにおける各周波数の音圧レベルと、背景雑音周波数スペクトルに基づくマスクトレベルとの差分を表すマスクト音声周波数スペクトルをフレーム区間(所定時間の一例)毎に算出する。図2(C)は、各周波数スペクトルの一例を示す図である。なお、図2(C)の縦軸には音圧レベルが割り当てられているが、音圧レベルの代わりに音のパワー(例えば、音圧レベルの自乗に相当)であってもよい。図2(C)の例では、話者音声周波数スペクトル51と、背景雑音周波数スペクトル52に基づくマスクトレベル53との間の部分54が、マスクト音声周波数スペクトルを示す。つまり、マスクト音声周波数スペクトル54は、話者音声周波数スペクトル51のうち、マスクトレベル53(基準レベル)以上のレベルを持つ周波数スペクトルということになる。
次に、音声処理部31は、例えばテキストデータが示す文字例に基づいて当該文字列を解析し、話者音声波形データが示す音声の波形を、時間軸方向において時間区間毎に区切ることで、時間区間と音素ラベル(音素情報の一例)とを対応付けたラベリング情報を生成する。一例として、「アイタイトオモウ」という文字列であるとすると、音声処理部31は、例えば、“a”、“i”、“ta”、“i”、“to”、“o”、“mo”、“u”の順で配列された各音素を表す音素ラベルの列を生成し、生成された音素ラベルの列の先頭から順に、話者音声波形データが示す音声の波形を8個の音素の波形へと区切る。なお、区切りの位置は、生成された音素ラベルと、記憶部2に記憶されている音素モデル波形データが示す音素モデル波形とに基づいて例えば公知のViterbiアルゴリズムにより決定される。こうして、区切られた時間区間ごとに音素ラベルが対応付けられ(ラベリングされ)、ラベリング情報が生成される。なお、母音に対応する音素ラベルが対応付けられた時間区間を、「母音区間」という。子音(又は子音+母音)に対応する音素ラベルが対応付けられた時間区間を、「子音区間」という。
次に、音声処理部31は、話者音声波形データが示す音声の波形において時間区間と音素ラベルとを対応付けたラベリング情報から、音素のモデルとなるモデル周波数スペクトルを時間区間毎に算出する。例えば、音声処理部31は、音素ラベルの列から選択した音素ラベル(例えば“a”)に対応する上記音素モデル波形データが示す音素モデル波形を、上記選択した音素ラベルが対応付けられた時間区間に合った音素モデル波形に調整し、調整した音素モデル波形のデータに対して離散フーリエ変換を行うことでモデル周波数スペクトルを時間区間毎に算出する。このモデル周波数スペクトルは、例えば理想的な母音のフォルマント周波数などを再現したスペクトルとなる。なお、このとき、例えば同一音節内での発声開始から発声終了までの音圧レベルを付与しておいてもよい。この場合、音圧レベルの変化を示す曲線には、アタック(開始時点から最大音量に到達するまでの時間を設定するパラメータ)+減衰(アタックで到達した最大音量から持続音量レベルに移行するまでの時間を設定するパラメータ)のモデルを設定しても良いし、手本となる発話音声からモデル化した曲線(カーブ)を適用しても良い。
そして、音読評価部32は、フレーム区間毎のマスクト音声周波数スペクトルと、時間区間毎のモデル周波数スペクトルとの類似度に基づいて背景雑音の存在下における音読に対する評価を行う。この評価は、背景雑音の存在下での話者音声の明瞭度(聞き易さ)の評価である。例えば、音読評価部32は、先頭の時間区間から最後の時間区間まで、所定の1つ以上の時間区間に対応する(例えば、時間帯が重複する)フレーム区間を1つ以上選定し、選定したフレーム区間のマスクト音声周波数スペクトルと、これに対応する時間区間のモデル周波数スペクトルとの類似度を算出(つまり、全ての時間区間毎に類似度を算出)する。ここで、類似度の一例として、相関係数を用いるとよい。この場合、例えば、算出された相関係数が大きいほど類似度が高くなる。そして、音読評価部32は、例えば、評価点(評価スコア)を算出(類似度が高いほど、評価点が高くなる)することで評価を行う。複数の時間区間において類似度が算出された場合、例えば、それぞれの時間区間における類似度の平均値に応じた評価点が算出される。
ところで、話者音声の明瞭度の評価精度を向上させるために、音読評価部32は、マスクト音声周波数スペクトルとモデル周波数スペクトルとの類似度として、例えば、上記時間区間のうち母音区間毎に、マスクト音声周波数スペクトルに含まれるフォルマント周波数を基準とする周波数範囲内のレベル分布と、モデル周波数スペクトルに含まれるフォルマント周波数を基準とする周波数範囲内のレベル分布との間の類似度を算出するように構成するとよい。ここで、フォルマント周波数とは、周波数スペクトルの包絡において山となる周波数をいい、周波数の低い方から第1フォルマント周波数、第2フォルマント周波数、第3フォルマント周波数・・・という。なお、フォルマント周波数を基準(例えば、フォルマント周波数の音圧レベルを頂点)とする周波数範囲内のレベル分布とは、フォルマントの山を形成する包絡(つまり、山の頂上から裾野にかけた包絡)を示す曲線(以下、「フォルマント曲線」という)を意味する。また、フォルマント周波数を基準とする周波数範囲内のレベル分布が類似するとは、フォルマントの山の形状が類似することを意味する。一般に、第1フォルマント周波数を横軸にとり、第2フォルマント周波数を縦軸にとったときのフォルマント分布(2次元座標平面)に基づき、母音の別を判定することができる。このため、音読評価部32は、母音区間毎に、第1フォルマント周波数を基準とする周波数範囲内のレベル分布(第1フォルマント曲線)と、第2フォルマント周波数を基準とする周波数範囲内のレベル分布(第2フォルマント曲線)とのそれぞれについて、上記類似度(例えば、相関係数)を算出して平均するとよい。これにより、話者音声の明瞭度を表す一要素である「母音らしさ」を評価することができる。図3は、マスクト音声周波数スペクトルとモデル周波数スペクトルのそれぞれにおける第1フォルマント曲線及び第2フォルマント曲線の一例を示す図である。
また、音読評価部32は、マスクト音声周波数スペクトルとモデル周波数スペクトルとの類似度として、マスクト音声周波数スペクトルに基づく時間区間毎の音圧レベルの時間的な変化と、モデル周波数スペクトルに基づく時間区間毎の音圧レベルの時間的な変化との間の類似度を算出するように構成してもよい。これにより、話者音声の明瞭度を表す一要素である「抑揚」を評価することができる。なお、区間毎の音圧レベルとしては、例えば、当該区間毎の周波数スペクトルにおける各周波数が持つ音圧レベルの平均値、またはS/N比(パワー比)の平均値が用いられる。ここで、Sとは、例えば、話者音声周波数スペクトルにおける各周波数が持つ音圧レベル(またはパワー)であり、Nとは、背景雑音周波数スペクトルに基づくマスクトレベルにおける各周波数が持つ音圧レベル(またはパワー)を意味する。母音区間毎のS/N比(パワー比)の平均値により、話者音声の明瞭度を表す一要素として「母音大きさ」を評価することができ、子音区間毎のS/N比(パワー比)の平均値により、話者音声の明瞭度を表す一要素として「子音大きさ」を評価することができる。
表示処理部33は、音読評価部32による評価結果、及び評価結果に基づくアドバイスをディスプレイDの画面に表示させる。
[2.音読評価装置Sの動作例]
次に、図4〜図6等を参照して、音読評価装置Sの動作の一例について説明する。図4は、制御部3により実行される音読録音処理の一例を示すフローチャートである。図5(A)は、制御部3により実行される音読評価処理の一例を示すフローチャートである。図6は、制御部3により実行される音読評価フィードバック処理の一例を示すフローチャートである。
先ず、図4に示す処理は、例えば、話者が操作部4を介して音読録音開始指示を行うことにより開始される。図4に示す処理が開始されると、制御部3は、例えばアナウンス訓練用の複数種類のテキストデータのファイル名等(文字列の一部であってもよい)を選択可能に画面に表示させる(ステップS1)。
そして、制御部3は、ヘッドホンHを頭部に装着した話者により操作部4を介して選択されたファイル名に対応するテキストデータと、これとペアリングされた背景雑音波形データとを記憶部2から取得する(ステップS2)。なお、テキストデータとペアリングされた背景雑音波形データがない場合、制御部3は、複数種類の背景雑音波形データのファイル名等(背景雑音の説明文であってもよい)を選択可能に画面に表示させてもよい。この場合、制御部3は、話者により操作部4を介して選択されたファイル名に対応する背景雑音波形データを記憶部2から取得する。
次いで、制御部3は、ステップS2で取得したテキストデータが示す文字列を画面に表示させる(ステップS3)。次いで、制御部3は、ステップS2で取得した背景雑音波形データに基づいて背景雑音を再生してヘッドホンHのスピーカから出力させる(ステップS4)。なお、背景雑音を、話者が音読を行う部屋の空間に出力させた場合、話者の音読中に、背景雑音が回り込みマイクMに集音されてしまうため、本実施形態ではヘッドホンHから背景雑音を出力させている。ただし、背景雑音の回り込みを低減できる環境下である場合、話者が音読を行う部屋の空間に背景雑音をスピーカから出力する。
次いで、制御部3がマイク入力をオンにし、話者が背景雑音を聞きながら例えばアナウンス文字列の音読を開始すると、この文字列の音読中の発せられた音声がマイクMにより集音される。そして、制御部3は、マイクMにより集音された音声の波形を示す話者音声波形データを、インターフェース部5を介して入力し記憶部2に記憶(つまり、録音)する(ステップS5)。なお、こうして記憶される話者音声波形データは、ステップS2で取得したテキストデータとステップS2で取得した背景雑音波形データとに対応付けられる(例えば記憶部2内の同一のフォルダに格納される)。また、上述したように、部屋の空間に背景雑音をスピーカから出力する場合、ステップS5で記憶される波形データは、話者音声波形データと背景雑音波形データとから構成される。このため、記憶された波形データは、話者音声波形データと背景雑音波形データとに分離されて記憶され、図5(A)に示す処理で使用される。
次いで、制御部3は、音読録音処理を終了するか否かを判定する(ステップS6)。例えば話者から操作部4を介して音読録音終了指示があった場合、或いは予め定められた音読時間が経過した場合、音読録音処理を終了すると判定され(ステップS6:YES)、音読録音処理が終了する。一方、制御部3は、音読録音処理を終了しないと判定した場合(ステップS6:NO)、ステップS3に戻り、処理を継続する。
次に、図5(A)に示す処理は、例えば、話者が操作部4を介して評価対象の話者音声波形データのファイル名を選択して音読評価開始指示を行うことにより開始される。なお、図5(A)に示すステップS11〜S24の処理の順序は、あくまで一例であり、この順序以外の順序で処理が行われてもよい。図5(A)に示す処理が開始されると、制御部3は、選択されたファイル名に対応する話者音声波形データを記憶部2から取得する(ステップS11)。次いで、制御部3は、ステップS11で取得された話者音声波形データに基づいて、上述したように周波数分析を行うことで話者音声周波数スペクトルをフレーム区間毎に算出する(ステップS12)。こうして算出された話者音声周波数スペクトルのデータは、例えば、上記話者音声波形データに対応付けられて記憶部2に記憶される。
次いで、制御部3は、ステップS11で取得された話者音声波形データに対応付けられた背景雑音波形データを記憶部2から取得する(ステップS13)。次いで、制御部3は、ステップS13で取得された背景雑音波形データに基づいて、上述したように周波数分析を行うことで背景雑音周波数スペクトルをフレーム区間毎に算出する(ステップS14)。次いで、制御部3は、ステップS14で算出された背景雑音周波数スペクトルからマスキング効果を有するマスクトレベルをフレーム区間毎に算出する(ステップS15)。こうして算出されたマスクトレベルのデータは、例えば、上記話者音声波形データに対応付けられて記憶部2に記憶される。次いで、制御部3は、ステップS12で算出された話者音声周波数スペクトルにおける各周波数の音圧レベルと、ステップS15で算出されたマスクトレベルとの差分を表すマスクト音声周波数スペクトルをフレーム区間毎に算出する(ステップS16)。
次いで、制御部3は、ステップS11で取得された話者音声波形データに対応付けられたテキストデータを記憶部2から取得する(ステップS17)。次いで、制御部3は、ステップS17で取得されたテキストデータが示す文字例に基づいて当該文字列を解析し、ステップS11で取得された話者音声波形データが示す音声の波形を、上述したように、時間軸方向において時間区間毎に区切ることで、時間区間と音素ラベルとを対応付けたラベリング情報を生成する(ステップS18)。次いで、制御部3は、ステップS18で生成されたラベリング情報から、上述したように、音素のモデルとなるモデル周波数スペクトルを時間区間毎に算出する(ステップS19)。
次いで、制御部3は、ステップS16で算出された母音区間毎のマスクト音声周波数スペクトルに含まれるフォルマント周波数を基準とする周波数範囲内のレベル分布と、ステップS19で算出された母音区間毎のモデル周波数スペクトルに含まれるフォルマント周波数を基準とする周波数範囲内のレベル分布との類似度(以下、「フォルマント類似度」という)を母音区間毎に算出する(ステップS20)。
次いで、制御部3は、母音区間毎の話者周波数スペクトルにおける母音S/N比(パワー比)を母音区間毎に算出する(ステップS21)。次いで、制御部3は、子音区間毎の話者周波数スペクトルにおける子音S/N比(パワー比)を子音区間毎に算出する(ステップS22)。次いで、制御部3は、マスクト音声周波数スペクトルに基づく時間区間毎の音圧レベルの時間的な変化を表す曲線を算出(例えば、連続関数を定義)する(ステップS23)。例えば、上述したように、制御部3は、ステップS21で算出された母音S/N比の平均値を母音区間毎に平均母音S/N比として算出し、ステップS22で算出された子音S/N比の平均値を子音区間毎に平均子音S/N比として算出する。そして、制御部3は、算出した各母音区間毎の平均母音S/N比と各子音区間毎の平均子音S/N比を時系列で並べることで、マスクト音声周波数スペクトルに基づく時間区間毎の音圧レベルの時間的な変化を表す曲線を算出する。
次いで、制御部3は、ステップS23で算出したマスクト音声周波数スペクトルに基づく時間区間毎の音圧レベルの時間的な変化を表す曲線と、モデル周波数スペクトルに基づく時間区間毎の音圧レベルの時間的な変化を表す曲線との間の類似度(以下、「音圧変化類似度」という)を算出する(ステップS24)。ここで、モデル周波数スペクトルに基づく時間区間毎の音圧レベルの時間的な変化を表す曲線には、例えば、上述したように、アタック+減衰のモデルが設定されても良いし、手本となる発話音声からモデル化した曲線が適用されても良い。
次いで、制御部3は、背景雑音の存在下での話者音声の明瞭度の評価を行う(ステップS25)。ここで、ステップS20で算出された母音区間毎のフォルマント類似度と、ステップS24で算出された音圧変化類似度と、の少なくとも何れか一方の類似度に基づいて当該評価を行うように構成すれば、背景雑音によるマスキングの影響が考慮され、人が聞いたときの感覚により近い評価結果を求めることができるという効果を奏する。しかし、図5に示す音読評価処理の例では、制御部3は、上記フォルマント類似度と、上記音圧変化類似度と、上記母音区間毎の平均母音S/N比と、上記子音区間毎の平均子音S/N比との4つの評価要素に基づいて話者音声の明瞭度の評価を行う。この構成によれば、より一層、人が聞いたときの感覚により近い評価結果を求めることができる。
例えば、制御部3は、類似度(例えば相関係数)が高いほど評価点が高くなる所定の関数を用いて、上記フォルマント類似度を全母音区間において平均した値に応じた点数を「母音らしさ」の評価点として算出し、且つ、上記音圧変化類似度に応じた点数(例えば、100点満点中、70点)を「抑揚」の評価点として算出する。さらに、制御部3は、S/N比が高いほど評価点が高くなる所定の関数を用いて、上記母音区間毎の平均母音S/N比を全区間において平均した値に応じた点数を「母音大きさ」の評価点として算出し、且つ、上記子音区間毎に平均子音S/N比を全区間において平均した値に応じた点数を「子音大きさ」の評価点として算出する。こうして算出された各評価点は、雑音の存在下での話者音声の明瞭度の個別評価結果として、上記話者音声波形データに対応付けられて記憶部2に記憶される。さらに、制御部3は、上記算出した各評価点(つまり、「母音らしさ」の評価点、「抑揚」の評価点、「母音大きさ」の評価点、「子音大きさ」の評価点)を平均した点数を総合評価点として算出する。こうして算出された総合評価点は、雑音の存在下での話者音声の明瞭度の総合評価結果として、上記話者音声波形データに対応付けられて記憶部2に記憶される。
なお、制御部3は、レベル適正度関数を用いて、上記平均母音S/N比の全区間における平均値に重み係数を乗算した値に応じた点数を「母音大きさ」の評価点として算出し、且つ、上記平均子音S/N比の全区間における平均値に重み係数を乗算した値に応じた点数を「子音大きさ」の評価点として算出するように構成すれば、より効果的である。図5(B)は、レベル適正関数を表す曲線の一例を示す図である。このレベル適正関数として、例えば、ガウス分布(正規分布)の確率密度関数を用いるとよい。図5(B)に示す2次元座標系では、縦軸には重み係数が割り当てられ、横軸にはS/N比が割り当てられている。図5(B)に示すように、レベル適正関数によれば、S/N比が0から“X”までは重み係数が徐々に増加していくが、S/N比が“X”以降は重み係数が徐々に減少していくようになっている。S/N比が高いほど評価点が高くなる所定の関数を用いる場合、背景雑音の音圧レベルに関係なく、発話音声がとにかく大きければ大きいほど、「母音大きさ」や「子音大きさ」の評価点が高く(つまり、明瞭度の評価が高く)なる。しかし、実際、例えば大きい声で怒鳴るように話されても明瞭度が上がるわけではなく、逆に、声がうるさいから聞く相手からすれば不快に感じる可能性がある。このため、レベル適正度関数を用いることで、S/N比が“X”より高くなれば、それ以降、重み係数が減少することで評価点が低下していくように構成される。
次に、図6に示す音読評価フィードバック処理は、話者が操作部4を介して図5(A)に示す処理の対象となった話者音声波形データのファイル名を選択して表示指示を行うことにより開始される。或いは、図6に示す音読評価フィードバック処理は、図5(A)に示す処理が終了することにより開始する。図6に示す処理が開始されると、制御部3は、図5(A)に示す処理の対象となった話者音声波形データと、この話者音声波形データに対応付けられた背景雑音波形データ及びテキストデータを記憶部2から取得する(ステップS31)。
次いで、制御部3は、ステップS31で取得された話者音声波形データと背景雑音波形データとに基づいて、話者音声波形と背景雑音波形とを重畳させて画面に表示させ、且つ、ステップS31で取得されたテキストデータに基づいて、話者音声波形の対応する位置に文字列を表示させる(ステップS32)。
次いで、制御部3は、ステップS31で取得された話者音声波形データに対応付けられた話者音声周波数スペクトルのデータ及びマスクトレベルのデータを記憶部2から取得する(ステップS33)。
次いで、制御部3は、ステップS33で取得された話者音声周波数スペクトルのデータとマスクトレベルのデータとに基づいて、話者音声周波数スペクトルとマスクトレベルとを重畳させて画面に表示させる(ステップS34)。
次いで、制御部3は、ステップS31で取得された話者音声波形データに個別評価結果として対応付けられた、例えば「母音らしさ」の評価点、「抑揚」の評価点、「母音大きさ」の評価点、及び「子音大きさ」の評価点を記憶部2から取得する(ステップS35)。
次いで、制御部3は、ステップS33で取得された各評価点のチャートを生成して画面に表示させる(ステップS36)。なお、制御部3は、ステップS31で取得された話者音声波形データに対応付けられた総合評価結果を記憶部2から取得して画面に表示させてもよい。次いで、制御部3は、予め設定された、複数の話者の音読に対するアドバイス情報の中から、ステップS33で取得された各評価点に基づいてアドバイス情報を選択して画面に表示させる(ステップS37)。アドバイス情報は、例えば評価点が相対的に低い評価項目(例えば、「母音らしさ」や「子音大きさ」など)に関して話者に改善させるためのアドバイスを示す。
図7は、アナウンス評価結果画面の一例を示す図である。図7に示すアナウンス評価結果画面には、波形表示部71、スペクトル表示部72、評価結果表示部73、及びアドバイス表示部74が設けられている。波形表示部71には、話者音声波形、背景雑音波形、及び音読された文字列が表示されている。スペクトル表示部72には、話者音声周波数スペクトル及びマスクトレベルが表示されている。評価結果表示部73には、「母音らしさ」の評価点、「抑揚」の評価点、「母音大きさ」の評価点、及び「子音大きさ」の評価点のチャートが表示されている。なお、評価結果表示部73には、総合評価結果が表示されてもよい。アドバイス表示部74には、アドバイス情報が表示されている。
以上説明したように、上記実施形態によれば、話者音声周波数スペクトルにおける各周波数のレベルと、背景雑音周波数スペクトルにおいてマスキング効果を有する周波数を基準として各周波数におけるマスクトレベルとの差分を表すマスクト音声周波数スペクトルを算出し、マスクト音声周波数スペクトルと、モデル周波数スペクトルとの類似度に基づいて背景雑音の存在下における音読に対する評価を行うように構成したので、背景雑音によるマスキングの影響が考慮され、人が聞いたときの感覚により近い評価結果を求めることができる。
1 通信部
2 記憶部
3 制御部
4 操作部
5 インターフェース部
6 バス
31 音声処理部
32 音読評価部
33 表示処理部
S 音読評価装置

Claims (7)

  1. 複数の文字により構成される文字列を話者が音読したときに発した音声の波形を示す話者音声波形データを入力する入力手段と、
    背景雑音の波形を示す背景雑音波形データを記憶する記憶手段と、
    前記話者音声波形データに基づいて所定時間毎に周波数分析を行うことで第1周波数スペクトルを所定時間毎に算出する第1算出手段と、
    前記背景雑音波形データに基づいて所定時間毎に周波数分析を行うことで第2周波数スペクトルを所定時間毎に算出する第2算出手段と、
    前記第2算出手段により算出された第2周波数スペクトルにおいてマスキング効果を有する周波数を基準として各周波数におけるマスクトレベルを所定時間毎に算出する第3算出手段と、
    前記第1算出手段により算出された第1周波数スペクトルにおける各周波数のレベルと、前記第3算出手段により算出された、各周波数におけるマスクトレベルとの差分を表すマスクト音声周波数スペクトルを所定時間毎に算出する第4算出手段と、
    前記話者音声波形データが示す音声の波形において時間区間と音素情報とを対応付けたラベリング情報から、音素のモデルとなるモデル周波数スペクトルを前記時間区間毎に算出する第5算出手段と、
    前記第4算出手段により算出された前記所定時間毎のマスクト音声周波数スペクトルと、前記第5算出手段により算出された前記時間区間毎のモデル周波数スペクトルとの類似度に基づいて前記背景雑音の存在下での前記音読における話者音声の明瞭度の評価を行う評価手段と、
    を備えることを特徴とする音読評価装置。
  2. 前記評価手段は、前記第4算出手段により算出された前記所定時間毎のマスクト音声周波数スペクトルに含まれるフォルマント周波数を基準とする周波数範囲内のレベル分布と、前記第5算出手段により算出された前記時間区間毎のモデル周波数スペクトルに含まれるフォルマント周波数を基準とする周波数範囲内のレベル分布との類似度に基づいて前記話者音声の明瞭度の評価を行うことを特徴とする請求項1に記載の音読評価装置。
  3. 前記評価手段は、前記マスクト音声周波数スペクトルに基づく前記所定時間毎の音圧レベルの時間的な変化と、前記モデル周波数スペクトルに基づく前記時間区間毎の音圧レベルの時間的な変化との類似度に基づいて前記話者音声の明瞭度の評価を行うことを特徴とする請求項1または2に記載の音読評価装置。
  4. 前記記憶手段は、前記文字列のテキストデータを記憶し、
    前記テキストデータが示す前記文字例に基づいて前記音声の波形を時間軸方向において前記時間区間毎に区切ることで、前記時間区間と音素情報とを対応付けたラベリング情報を生成する生成手段を更に備え、
    前記第5算出手段は、前記生成手段により生成されたラベリング情報から、前記音素情報のモデルとなるモデル周波数スペクトルを前記時間区間毎に算出することを特徴とする請求項1乃至3の何れか一項に記載の音読評価装置。
  5. 母音に対応する音素情報が対応付けられた時間区間である母音区間毎の前記第1周波数スペクトルにおける母音S/N比の平均値を平均母音S/N比として算出し、且つ、子音に対応する音素情報が対応付けられた時間区間である子音区間毎の前記第1周波数スペクトルにおける子音S/N比の平均値を平均子音S/N比として算出する第6算出手段を更に備え、
    前記評価手段は、S/N比が0から所定値Xまでは重み係数が徐々に増加しS/N比が当該所定値X以降は重み係数が徐々に減少するレベル適正度関数を用いて前記平均母音S/N比に前記重み係数を乗算した値と、前記レベル適正度関数を用いて前記平均子音S/N比に前記重み係数を乗算した値と、前記類似度とに基づいて前記話者音声の明瞭度の評価を行うことを特徴とする請求項1乃至4の何れか一項に記載の音読評価装置。
  6. 1つ以上のコンピュータにより実行される音読評価方法であって、
    複数の文字により構成される文字列を話者が音読したときに発した音声の波形を示す話者音声波形データを入力する入力ステップと、
    背景雑音の波形を示す背景雑音波形データを記憶手段に記憶する記憶ステップと、
    前記話者音声波形データに基づいて所定時間毎に周波数分析を行うことで第1周波数スペクトルを所定時間毎に算出する第1算出ステップと、
    前記背景雑音波形データに基づいて所定時間毎に周波数分析を行うことで第2周波数スペクトルを所定時間毎に算出する第2算出ステップと、
    前記第2算出ステップにより算出された第2周波数スペクトルにおいてマスキング効果を有する周波数を基準として各周波数におけるマスクトレベルを所定時間毎に算出する第3算出ステップと、
    前記第1算出ステップにより算出された第1周波数スペクトルにおける各周波数のレベルと、前記第3算出ステップにより算出された、各周波数におけるマスクトレベルとの差分を表すマスクト音声周波数スペクトルを所定時間毎に算出する第4算出ステップと、
    前記話者音声波形データが示す音声の波形において時間区間と音素情報とを対応付けたラベリング情報から、前記音素情報のモデルとなるモデル周波数スペクトルを前記時間区間毎に算出する第5算出ステップと、
    前記第4算出ステップにより算出された前記所定時間毎のマスクト音声周波数スペクトルと、前記第5算出ステップにより算出された前記時間区間毎のモデル周波数スペクトルとの類似度に基づいて前記背景雑音の存在下での前記音読における話者音声の明瞭度の評価を行う評価ステップと、
    を含むことを特徴とする音読評価方法。
  7. 複数の文字により構成される文字列を話者が音読したときに発した音声の波形を示す話者音声波形データを入力する入力ステップと、
    背景雑音の波形を示す背景雑音波形データを記憶手段に記憶する記憶ステップと、
    前記話者音声波形データに基づいて所定時間毎に周波数分析を行うことで第1周波数スペクトルを所定時間毎に算出する第1算出ステップと、
    前記背景雑音波形データに基づいて所定時間毎に周波数分析を行うことで第2周波数スペクトルを所定時間毎に算出する第2算出ステップと、
    前記第2算出ステップにより算出された第2周波数スペクトルにおいてマスキング効果を有する周波数を基準として各周波数におけるマスクトレベルを所定時間毎に算出する第3算出ステップと、
    前記第1算出ステップにより算出された第1周波数スペクトルにおける各周波数のレベルと、前記第3算出ステップにより算出された、各周波数におけるマスクトレベルとの差分を表すマスクト音声周波数スペクトルを所定時間毎に算出する第4算出ステップと、
    前記話者音声波形データが示す音声の波形において時間区間と音素情報とを対応付けたラベリング情報から、前記音素情報のモデルとなるモデル周波数スペクトルを前記時間区間毎に算出する第5算出ステップと、
    前記第4算出ステップにより算出された前記所定時間毎のマスクト音声周波数スペクトルと、前記第5算出ステップにより算出された前記時間区間毎のモデル周波数スペクトルとの類似度に基づいて前記背景雑音の存在下での前記音読における話者音声の明瞭度の評価を行う評価ステップと、
    をコンピュータに実行させることを特徴とするプログラム。
JP2015044963A 2015-03-06 2015-03-06 音読評価装置、音読評価方法、及びプログラム Active JP6314879B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015044963A JP6314879B2 (ja) 2015-03-06 2015-03-06 音読評価装置、音読評価方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015044963A JP6314879B2 (ja) 2015-03-06 2015-03-06 音読評価装置、音読評価方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2016164628A JP2016164628A (ja) 2016-09-08
JP6314879B2 true JP6314879B2 (ja) 2018-04-25

Family

ID=56876564

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015044963A Active JP6314879B2 (ja) 2015-03-06 2015-03-06 音読評価装置、音読評価方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6314879B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7135372B2 (ja) * 2018-03-27 2022-09-13 カシオ計算機株式会社 学習支援装置、学習支援方法およびプログラム
WO2020235089A1 (ja) * 2019-05-23 2020-11-26 日本電信電話株式会社 評価装置、訓練装置、それらの方法、およびプログラム
CN110956979B8 (zh) * 2019-10-22 2024-06-07 合众新能源汽车股份有限公司 一种基于matlab的车内语言清晰度自动计算方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07111527A (ja) * 1993-10-14 1995-04-25 Hitachi Ltd 音声の加工方法およびそれを用いた装置
GB9822930D0 (en) * 1998-10-20 1998-12-16 Canon Kk Speech processing apparatus and method
JP2009080309A (ja) * 2007-09-26 2009-04-16 Toshiba Corp 音声認識装置、音声認識方法、音声認識プログラム、及び音声認識プログラムを記録した記録媒体

Also Published As

Publication number Publication date
JP2016164628A (ja) 2016-09-08

Similar Documents

Publication Publication Date Title
Khouw et al. Perceptual correlates of Cantonese tones
JP5593244B2 (ja) 話速変換倍率決定装置、話速変換装置、プログラム、及び記録媒体
Murray et al. Applying an analysis of acted vocal emotions to improve the simulation of synthetic speech
JP5029168B2 (ja) 音声読み上げのための装置、プログラム及び方法
JP2020507819A (ja) スペクトル包絡線のフォルマントの周波数シフトによって声の音質を動的に修正するための方法および装置
JP2007140200A (ja) 語学学習装置およびプログラム
JP6314879B2 (ja) 音読評価装置、音読評価方法、及びプログラム
JP2011186143A (ja) ユーザ挙動を学習する音声合成装置、音声合成方法およびそのためのプログラム
JP2002091472A (ja) 音声言語の韻律表示装置、再生装置、類似度判定装置、音声言語処理装置、および記録媒体
JP4953767B2 (ja) 音声生成装置
JP6314884B2 (ja) 音読評価装置、音読評価方法、及びプログラム
JP7276438B2 (ja) 評価装置、訓練装置、それらの方法、およびプログラム
JP4744338B2 (ja) 合成音声生成装置
JP6291808B2 (ja) 音声合成装置及び方法
JP2016157097A (ja) 音読評価装置、音読評価方法、及びプログラム
JP5412204B2 (ja) 適応的な話速変換装置及びプログラム
JP7294460B2 (ja) 訓練装置、その方法、およびプログラム
JP5518621B2 (ja) 音声合成装置およびコンピュータプログラム
Singh et al. The structure of Hindi stop consonants
JP2006139162A (ja) 語学学習装置
JP6251219B2 (ja) 合成辞書作成装置、合成辞書作成方法および合成辞書作成プログラム
JP4313724B2 (ja) 音声再生速度調節方法、音声再生速度調節プログラム、およびこれを格納した記録媒体
JP4543919B2 (ja) 語学学習装置
JP6011758B2 (ja) 音声合成システム、音声合成方法、およびプログラム
JP2011232775A (ja) 発音学習装置及び発音学習プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161206

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170830

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171003

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171113

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180227

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180312

R150 Certificate of patent or registration of utility model

Ref document number: 6314879

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150