JP2010060846A - 合成音声評価システム及び合成音声評価方法 - Google Patents
合成音声評価システム及び合成音声評価方法 Download PDFInfo
- Publication number
- JP2010060846A JP2010060846A JP2008226449A JP2008226449A JP2010060846A JP 2010060846 A JP2010060846 A JP 2010060846A JP 2008226449 A JP2008226449 A JP 2008226449A JP 2008226449 A JP2008226449 A JP 2008226449A JP 2010060846 A JP2010060846 A JP 2010060846A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- information
- synthesized
- voice
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】評価時間を短縮するとともに、評価結果のばらつきが発生しない。
【解決手段】合成音声評価システム1の記憶部3には、音声合成対象の言語を含むテキストファイルである目標音声ファイルが予め記憶されている。記憶部3に記憶されている目標音声ファイルが入力部4によって音声合成部2に入力されると、音声情報認識部5は、音声合成部2で生成された合成音声波形からテキスト情報を評価対象テキスト情報として抽出する。判断部6は、音声情報認識部5で抽出された評価対象テキスト情報と記憶部3に記憶されている目標テキスト情報とを照合し類似度を求め、合成音声の品質を評価する。
【選択図】図1
【解決手段】合成音声評価システム1の記憶部3には、音声合成対象の言語を含むテキストファイルである目標音声ファイルが予め記憶されている。記憶部3に記憶されている目標音声ファイルが入力部4によって音声合成部2に入力されると、音声情報認識部5は、音声合成部2で生成された合成音声波形からテキスト情報を評価対象テキスト情報として抽出する。判断部6は、音声情報認識部5で抽出された評価対象テキスト情報と記憶部3に記憶されている目標テキスト情報とを照合し類似度を求め、合成音声の品質を評価する。
【選択図】図1
Description
本発明は、テキスト音声合成を行う音声合成部で生成される合成音声を評価する合成音声評価システム及び合成音声評価方法に関するものである。
近年、テキスト音声合成を行う音声合成部がさまざまな分野で利用されている。音声合成部では、文字列からなるテキスト情報を含むテキストファイルが入力されると、テキスト解析を行い、テキスト解析結果を用いて合成音声波形を生成し、スピーカなどの音声出力部に出力する。音声出力部では、合成音声波形に基づいた合成音声が音声出力される。
合成音声の品質に対する評価項目としては、聞き取り性やイントネーションの自然性、こもり感などがある。聞き取り性とは、テキスト情報の通りに言葉が音声出力されているかを示すものである。
従来、合成音声の評価は、合成音声部で多数の合成音声波形を生成し、各合成音声波形に基づいた合成音声を音声出力し、評価者が聞いて判断することによって行われている。
なお、特許文献1には、音声伝送系に対して送信された音声信号と、音声伝送系から受信した音声信号とを用いて、音声伝送系において伝送誤りが発生している場合でも音声信号の明瞭度を評価する音声品質評価装置が開示されている。特許文献1の音声品質評価装置は、音声を伝送する際の劣化によって明瞭度が損なわれる点を評価するものであり、実際には、伝送前の音声と伝送後の音声とを比較することで評価する。上記より、特許文献1の音声品質評価装置は、評価する音声波形に対して、必ず目標となる音声波形が必要となるため、大量にある合成音声波形の評価に対しては、適用できない。
特開2007−049462号公報
しかしながら、従来の主観評価を用いた合成音声の品質評価方法は、多数の合成音声を、評価者が実際に聞いて判断していることから、膨大な時間と費用がかかり、非効率であるという問題があった。
また、音声出力がテキスト情報の通りに正しく再現されているか、すなわち、評価者が聞き取れるか、アクセントが指定した通りに再現できているか、などを評価者が評価するため、評価者による評価の個人差が大きく、評価者間で評価結果のばらつきが発生するという問題があった。
本発明は上記の点に鑑みて為されたものであり、その目的は、評価時間を短縮することができるとともに、評価結果のばらつきが発生しない合成音声評価システム及び合成音声評価方法を提供することにある。
請求項1に係る合成音声評価システムの発明は、テキスト音声合成を行う音声合成部による合成音声の品質を評価する合成音声評価システムであって、音声合成対象の言語を含むテキストファイルの前記音声合成部への入力によって当該音声合成部で生成された合成音声が当該音声合成部から入力され当該合成音声から評価対象音声情報を抽出する音声情報認識部と、前記評価対象音声情報と前記合成音声が有するべき目標音声情報とを照合して類似度を求め、当該合成音声の品質を評価する判断部とを備えることを特徴とする。
請求項2に係る合成音声評価システムの発明は、請求項1の発明において、前記目標音声情報及び前記評価対象音声情報は、テキスト情報であることを特徴とする。
請求項3に係る合成音声評価システムの発明は、請求項1の発明において、前記目標音声情報及び前記評価対象音声情報は、アクセント情報であることを特徴とする。
請求項4に係る合成音声評価システムの発明は、請求項3の発明において、各モーラ数ごとに、それぞれ異なるアクセント情報に対応する複数の基準音声を記憶する記憶部を備え、前記音声情報認識部は、前記合成音声から音声特徴量を抽出し評価対象音声特徴量とするとともに、前記記憶部に記憶され前記合成音声と同じモーラ数の各基準音声から音声特徴量を抽出し基準音声特徴量とする音声特徴量抽出部と、各基準音声特徴量ごとに、前記評価対象音声特徴量と前記基準音声特徴量との距離を算出し、当該距離が最小となる基準音声特徴量が抽出された基準音声に対応するアクセント情報を前記評価対象音声情報とする音声情報決定部とを有することを特徴とする。
請求項5に係る合成音声評価システムの発明は、請求項4の発明において、前記音声情報認識部は、前記合成音声のモーラ数を前記合成音声から求めることを特徴とする。
請求項6に係る合成音声評価システムの発明は、請求項4の発明において、前記記憶部は、前記目標音声情報のモーラ数を記憶し、前記音声情報認識部は、前記目標音声情報のモーラ数を前記合成音声のモーラ数として取得することを特徴とする。
請求項7に係る合成音声評価システムの発明は、請求項4乃至6の何れか1項の発明において、前記音声情報決定部は、前記評価対象音声特徴量及び各基準音声特徴量に対して母音部分を抽出する母音部分抽出部と、各基準音声特徴量ごとに、前記評価対象音声特徴量と前記基準音声特徴量との間で、対応する母音部分同士を時間正規化し、対応する母音部分同士において当該評価対象音声特徴量と当該基準音声特徴量との距離をそれぞれ算出し、算出した距離の平均値を求める演算部と、前記平均値が最小となる基準音声特徴量が抽出された基準音声に対応するアクセント情報を前記評価対象音声情報とする選択部とを有することを特徴とする。
請求項8に係る合成音声評価システムの発明は、請求項7の発明において、前記母音部分抽出部は、前記合成音声のモーラ数を用いて前記母音部分を抽出することを特徴とする。
請求項9に係る合成音声評価方法の発明は、テキスト音声合成を行う音声合成部による合成音声の品質を評価する合成音声評価方法であって、音声合成対象の言語を含むテキストファイルの前記音声合成部への入力によって当該音声合成部で生成された合成音声から評価対象音声情報を抽出する第1のステップと、前記評価対象音声情報と前記合成音声が有するべき目標音声情報とを照合して類似度を求める第2のステップと、前記類似度を用いて前記合成音声の品質を評価する第3のステップとを有することを特徴とする。
請求項10に係る合成音声評価方法の発明は、請求項9の発明において、前記目標音声情報及び前記評価対象音声情報は、テキスト情報であり、前記第1のステップは、前記合成音声から音声認識によってテキスト情報を前記評価対象音声情報として抽出し、前記第2のステップは、前記評価対象音声情報であるテキスト情報と前記目標音声情報であるテキスト情報とを照合して類似度を求めることを特徴とする。
請求項11に係る合成音声評価方法の発明は、請求項9の発明において、前記目標音声情報及び前記評価対象音声情報は、アクセント情報であり、前記第1のステップは、前記合成音声から音声特徴量を抽出し評価対象音声特徴量とするステップと、前記合成音声と同じモーラ数であってそれぞれ異なるアクセント情報に対応する複数の基準音声から音声特徴量を抽出し基準音声特徴量とするステップと、各基準音声特徴量ごとに、前記評価対象音声特徴量と前記基準音声特徴量との距離を算出するステップと、前記距離が最小となる基準音声特徴量が抽出された基準音声に対応するアクセント情報を前記評価対象音声情報とするステップとを含むことを特徴とする。
請求項4,7に係る合成音声評価システム及び請求項11に係る合成音声評価方法において、評価対象音声特徴量と基準音声特徴量との距離とは、評価対象音声特徴量と基準音声特徴量との類似度を示す値である。
請求項1の発明によれば、評価者による合成音声の評価に比べて、評価時間を短縮することができるとともに、評価結果のばらつきが発生しない。
請求項2の発明によれば、間違った言葉の合成音声を生成する音声合成部をチェックすることができる。
請求項3の発明によれば、言葉が正しくてもアクセントが異常であると、聞き手に違和感を与え、言葉の意味を取り違える可能性があるので、異常なアクセントとなる合成音声を生成する音声合成部をチェックすることができる。
請求項4の発明によれば、基準音声波形を定め、音声特徴量同士を比較することによって、同一のテキスト情報を持つ基準音声波形を逐次用意しなくても、合成音声のアクセント情報を決定することができる。これにより、請求項4の発明によれば、アクセント型ごとに用意された数個の基準音声波形を用いて、多数の合成音声波形を評価することができる。
請求項5の発明によれば、合成音声のモーラ数を合成音声から求めることで、音声情報認識部に、合成音声のモーラ数を他から取得する機能を必要としない。
請求項6の発明によれば、目標音声情報のモーラ数を記憶部から取得して合成音声のモーラ数とすることで、音声情報認識部は、合成音声のモーラ数を精度よく取得することができる。
請求項7の発明によれば、子音部分を除いて距離を求めることで、語彙の母音の一部に現れる特徴的な変化を距離に反映させることができるので、アクセント情報を決定する精度を高めることができる。
請求項8の発明によれば、合成音声のモーラ数を用いて母音部分を容易に抽出することができる。
請求項9の発明によれば、評価者による合成音声の評価に比べて、評価時間を短縮することができるとともに、評価結果のばらつきが発生しない。
請求項10の発明によれば、間違った言葉の合成音声を生成する音声合成部をチェックすることができる。
請求項11の発明によれば、基準音声波形を定め、音声特徴量同士を比較することによって、同一のテキスト情報を持つ基準音声波形を逐次用意しなくても、合成音声のアクセント情報を決定することができる。これにより、請求項11の発明によれば、アクセント型ごとに用意された数個の基準音声波形を用いて、多数の合成音声波形を評価することができる。
(実施形態1)
まず、実施形態1の構成について図1を参照して説明する。図1は、本実施形態に係る合成音声評価システムの構成を示す。図1に示す合成音声評価システム1は、テキスト音声合成を行う音声合成部2による合成音声の品質を評価するものである。
まず、実施形態1の構成について図1を参照して説明する。図1は、本実施形態に係る合成音声評価システムの構成を示す。図1に示す合成音声評価システム1は、テキスト音声合成を行う音声合成部2による合成音声の品質を評価するものである。
音声合成部2は、音声合成対象の言語を含むテキストファイルに対して言語データベース(図示せず)の情報を用いてテキスト解析を行って中間ファイルを生成するテキスト解析部20と、テキスト解析部20で生成された中間ファイルを用いて合成音声波形を生成する音声波形生成部21とを備えている。中間ファイルは、テキストファイルへのテキスト解析によって得られた情報をファイル化したものである。この中間ファイルには、読み情報やアクセント情報、品詞情報、モーラ数などが含まれている。
合成音声評価システム1は、目標対象のテキスト情報である目標テキスト情報(目標音声情報)と、上記目標テキスト情報を含むテキストファイルである目標音声ファイルとを予め記憶する記憶部3と、記憶部3に記憶されている目標音声ファイルを音声合成部2に入力するための入力部4と、音声合成部2で生成された合成音声波形から評価対象テキスト情報(評価対象音声情報)を抽出する音声情報認識部5と、合成音声の品質を評価する判断部6と、判断部6の評価結果を外部に出力する出力部7とを備えている。合成音声評価システム1には、評価結果を表示するための表示装置8が接続されている。合成音声評価システム1は、コンピュータを用いて処理されるシステムであり、合成音声波形を入力とし、合成音声波形が目標テキスト情報を有しているか否かを評価し、評価結果を出力するものである。
音声情報認識部5は、大量の発話を記録した学習用データから複数の音響モデルを予め学習して用意しておく。音響モデルとしては、所定単位(例えばサブワード単位や単語)の音響的特徴を表わすものが用いられる。各音響モデルは、所定単位のテキスト情報に対応している。サブワードとしては、例えば、音素や音節(子音−母音(CV)、母音−子音−母音(VCV)など)、半音節などがある。
上記音声情報認識部5は、予め学習して用意した音響モデルを参照して、音声合成部2から入力された合成音声波形に最も良く合致する音響モデルの列を生成し、上記音響モデルの列に対応する言語系列(テキスト情報)を評価対象音声情報として抽出し、判断部6に出力する。この場合、一語一語、文字を照合する手法と、候補として複数のテキスト情報に対応する音響モデルを用意し、音声合成部2から入力された合成音声波形とそれらの特徴とを照合し、最ももっともらしい言語系列(テキスト情報)を評価対象音声情報として出力する手法とがある。
判断部6は、音声情報認識部5で抽出された評価対象テキスト情報と記憶部3に記憶されている目標テキスト情報とを照合し類似度を求め、合成音声の品質を評価する。目標テキスト情報は、合成音声が有するべきテキスト情報である。
次に、本実施形態の合成音声評価システム1の動作について説明する。まず、入力部4が音声合成部2に目標音声ファイルを与えると、音声合成部2は、目標音声ファイルを用いて合成音声波形を生成する。その後、音声情報認識部5は、複数の音響モデルを参照して、音声合成部2で生成された合成音声波形に対応する音響モデルの列を生成する。その後、音声情報認識部5は、音響モデルの列に対応するテキスト情報を評価対象テキスト情報として抽出し、抽出した評価対象テキスト情報を判断部6に出力する。その後、判断部6は、音声情報認識部5で抽出された評価対象テキスト情報と目標テキスト情報とを比較し、出力部7が評価結果を表示装置8に出力する。
以上、本実施形態によれば、評価者が合成音声波形による合成音声を聞いて目標テキスト情報を音声出力しているか否かを判定する場合に比べて、評価時間を短縮することができるとともに、評価結果のばらつきが発生しない。つまり、本実施形態の合成音声評価システム1は、コンピュータを用いて処理されるシステムであるので、従来のような評価者が合成音声を目標テキスト情報として聞き取れるかを判定するよりも、時間が短縮され、評価者個人の経験などが聞き取りに影響することによって発生する評価のばらつきが発生せず、安定した評価を行うことができる。
また、本実施形態によれば、間違った言葉の合成音声波形を生成する音声合成部2をチェックすることができる。
なお、実施形態1では、目標音声ファイルを記憶部3に記憶させ、上記目標音声ファイルを入力部4から音声合成部2に入力させているが、実施形態1の変形例として、上記目標音声ファイルを記憶部3に記憶させずに、上記目標音声ファイルを他の外部機器から音声合成部2に入力させてもよい。この場合、入力部4は、他の外部機器から目標テキスト情報を取得する。
(実施形態2)
実施形態2に係る合成音声評価システム1は、目標音声情報及び評価対象音声情報が、テキスト情報ではなく、イントネーションの自然性に関係するアクセント情報(0型、1型・・・)である点で、実施形態1に係る合成音声評価システム1と相違する。アクセント情報とは、アクセント位置を示すアクセントパターンである。なお、実施形態1と同様の構成要素については、同一の符号を付して説明を省略する。
実施形態2に係る合成音声評価システム1は、目標音声情報及び評価対象音声情報が、テキスト情報ではなく、イントネーションの自然性に関係するアクセント情報(0型、1型・・・)である点で、実施形態1に係る合成音声評価システム1と相違する。アクセント情報とは、アクセント位置を示すアクセントパターンである。なお、実施形態1と同様の構成要素については、同一の符号を付して説明を省略する。
本実施形態の記憶部3には、各モーラ数ごとに、それぞれ異なるアクセント情報に対応する複数の基準音声波形が予め記憶されている。つまり、記憶部3には、異なるアクセント位置を示すアクセントパターンが各モーラ数に対して記憶されている。例えばモーラ数が2の場合に対しては、記憶部3には、3つの基準音声波形(0型の基準音声波形、1型の基準音声波形、2型の基準音声波形)が記憶されている。例えばモーラ数が3の場合に対しては、記憶部3には、4つの基準音声波形(0型の基準音声波形、1型の基準音声波形、2型の基準音声波形、3型の基準音声波形)が記憶されている。
本実施形態の入力部4は、実施形態1と同様に、目標テキスト情報からなる目標音声ファイルを音声合成部2に与える。
本実施形態の合成音声評価システム1は、実施形態1の音声情報認識部5(図1参照)に代えて、図2に示す音声情報認識部5aを備えている。音声情報認識部5aは、音声波形から、アクセントを特徴付ける基本周波数F0(音声特徴量)を抽出する音声特徴量抽出部50と、2つの基本周波数F0の距離を算出する演算部51と、複数のアクセント情報から合成音声波形のアクセント情報を選択する選択部52とを備えている。
音声特徴量抽出部50は、音声合成部2で生成された合成音声波形から評価対象音声特徴量として基本周波数F0orgを抽出するとともに、目標音声情報のモーラ数を合成音声のモーラ数として記憶部3から取得し、さらに、記憶部3に記憶され合成音声のモーラ数と同じモーラ数の各基準音声波形からそれぞれ基準音声特徴量として基本周波数F0tarを抽出する。各基準音声波形は、合成音声と同じモーラ数の基準音声となるものである。音声特徴量抽出部50では、音声波形(合成音声波形、基準音声波形)から基本周波数F0(基本周波数F0org、基本周波数F0tar)を抽出する方法として、ケプストラム法や自己相関法などが用いられる。ケプストラム法を用いた場合、音声特徴量抽出部50は、音声波形に対してFFTを行った後に対数をとり、逆FFTを行うことによって、基本周波数F0を抽出する。一方、自己相関法を用いた場合、音声特徴量抽出部50は、音声波形の自己相関値を計算し、1周期の長さを求め、その逆数をとることで、基本周波数F0を抽出する。なお、本実施形態において、音声波形から基本周波数F0を抽出する方法は、上記に限定されるものではなく、他の方法であってもよい。
演算部51は、各基準音声波形の基準音声特徴量である基本周波数F0tarの特性ごとに、評価対象音声特徴量である基本周波数F0orgと基本周波数F0tarとの距離を以下の方法によって算出する。演算部51で行われる距離計算には、動的計算法(Dynamic Programming)を用いて類似度を計算する方法であるDPマッチングが用いられる。演算部51は、比較する基本周波数F0同士を対応させるために時間正規化を行い、単位時間ごとに、対数基本周波数logF0orgと対数基本周波数logF0tarとの差分値を計算する。単位時間ごとの差分値を計算した演算部51は、基本周波数F0orgと基本周波数F0tarとの距離として、上記差分値を用いて、数1に示す対数基本周波数logF0のRMS誤差を算出する。数1において、Nは、単位時間ごとに計算が行われた対数基本周波数logF0の差分値の総数である。上記より、本実施形態において、基本周波数F0orgと基本周波数F0tarとの距離とは、単位時間ごとの対数基本周波数logF0の差分値を2乗した値の平均値の平方根であるRMS誤差をいう。上記RMS誤差とは、数1に示す数式で表わされる値である。
ここで、本発明の評価対象音声特徴量と基準音声特徴量との距離とは、評価対象音声特徴量と基準音声特徴量との類似度を示す値である。本実施形態では、評価対象音声特徴量である基本周波数F0orgと基準音声特徴量である基本周波数F0tarとの距離の一例として、数1に示すRMS誤差を示している。
なお、評価対象音声特徴量と基準音声特徴量との距離は、数1に示すRMS誤差に限定されるものではなく、他の方法によって評価対象音声特徴量と基準音声特徴量との類似度を示すものであってもよい。例えば、GMM(Gaussian Mixture Model:混合ガウス分布モデル)法やHMM(HiddenMarcov Model:隠れマルコフモデル)法などを用いて、評価対象の合成音声波形と基準音声波形をモデル化し、両者の尤度値を算出して、距離を求めたり、両者の相互相関関数を求めて、距離を求めたりすることもできる。
選択部52は、基本周波数F0tarごとに演算部51で算出された距離(RMS誤差)のうち、距離が最小となる基本周波数F0tarが抽出された基準音声波形に対応するアクセント情報を合成音声波形のアクセント情報とする。
本実施形態において、演算部51及び選択部52は、音声情報決定部55を構成する。音声情報決定部55は、各基本周波数F0tarごとに、基本周波数F0orgと基本周波数F0tarとの距離を算出し、上記距離が最小となる基本周波数F0tarが抽出された基準音声波形に対応するアクセント情報を基本周波数F0orgとするものである。
次に、本実施形態に係る合成音声評価システム1の動作について説明する。まず、音声情報認識部5aの音声特徴量抽出部50が、合成音声波形から基本周波数F0orgを抽出し、各基準音声波形から基本周波数F0tarを抽出する。その後、演算部51が、基本周波数F0tarごとに、基本周波数F0orgと基本周波数F0tarとの距離を計算する。その後、演算部51は、計算した距離が最小となる基本周波数F0tarが抽出された基準音声波形を選択し、選択した基準音声波形に対応するアクセント情報を評価対象アクセント情報(合成音声波形のアクセント情報)とする。その後、判断部6は、音声情報認識部5aからの評価対象アクセント情報と目標アクセント情報とを比較し、出力部7が評価結果を表示装置8に出力する。
以下に具体例を示す。図3に示すように、収録音声「あいり」という基準音声波形(基準モデル)から、図3(a)に示すような基本周波数F0tarが抽出される。一方、評価音声「あすか」という合成音声波形から、図3(b)に示すような基本周波数F0orgが抽出される。その後、図3(a)の基本周波数F0tarの特性と図3(b)の基本周波数F0orgの特性とで時間正規化を行う。続いて、単位時間ごとに、対数基本周波数logF0orgと対数基本周波数logF0tarとの差分を求めていく。最後に、求めた複数個の対数基本周波数の差分値(logF0org−logF0tar)を数1に代入して、距離を求める。
以上、本実施形態によれば、言葉が正しくてもアクセントが異常であると、聞き手に違和感を与え、言葉の意味を取り違える可能性があるので、異常なアクセントとなる合成音声波形を生成する音声合成部2をチェックすることができる。つまり、本実施形態の合成音声評価システム1は、コンピュータを用いて処理されるシステムであるので、従来のような評価者が合成音声を聞いて目標アクセント情報であるアクセントが正しく再現できているかを判定するよりも、時間が短縮され、評価者個人の経験や聞き取りの技量、正しいアクセントの知識などがアクセントの判定に影響することで発生するばらつきが混入せず、安定した評価結果が得られる利点がある。
また、本実施形態によれば、基準音声波形を定め、基本周波数F0同士を比較し、最も近い基本周波数F0tarの基準音声波形に対応するアクセント情報を用いることで、同一のテキスト情報を持つ基準音声波形を逐次用意しなくても、合成音声のアクセント情報を決定することができる。これにより、本実施形態によれば、アクセント型ごとに用意された数個の基準音声波形を用いて、多数の合成音声波形を評価することができる。
さらに、本実施形態によれば、合成音声のモーラ数を記憶部3から取得することで、音声情報認識部5bは、合成音声のモーラ数を精度よく取得することができる。
(実施形態3)
実施形態3に係る合成音声評価システム1は、対応する母音部分ごとに、基本周波数F0orgと基本周波数F0tarとの距離を求める点で、実施形態2に係る合成音声評価システム1と相違する。なお、実施形態2と同様の構成要素については、同一の符号を付して説明を省略する。
実施形態3に係る合成音声評価システム1は、対応する母音部分ごとに、基本周波数F0orgと基本周波数F0tarとの距離を求める点で、実施形態2に係る合成音声評価システム1と相違する。なお、実施形態2と同様の構成要素については、同一の符号を付して説明を省略する。
本実施形態の合成音声評価システム1は、実施形態2の音声情報認識部5a(図2参照)に代えて、図4に示す音声情報認識部5bを備えている。音声情報認識部5bは、音声特徴量抽出部50と、演算部51と、選択部52とを音声情報認識部5aと同様に備え、さらに、音声合成部2から音素境界情報を取得する音素境界取得部53と、基本周波数F0org及び基本周波数F0tarに対して、音素境界情報とモーラ数とを用いてモーラ分割し、母音部分を抽出する母音部分抽出部54とを備えている。演算部51、選択部52、母音部分抽出部54は、音声情報決定部55を構成する。
母音部分抽出部54は、目標音声情報のモーラ数を合成音声のモーラ数として記憶部3から取得し、取得したモーラ数を用いて母音部分を抽出する。
本実施形態の演算部51は、基本周波数F0tarごとに、基本周波数F0orgと基本周波数F0tarとの間で、対応する母音部分同士を時間正規化する。図3において、対応する母音部分とは、図3(a)の「a」(A[1]の部分)と図3(b)の「a」(B[1]の部分)、図3(a)の「i」(A[2]の部分)と図3(b)の「u」(B[2]の部分)、図3(a)の「i」(A[3]の部分)と図3(b)の「a」(B[3]の部分)である。
時間正規化した演算部51は、対応する母音部分同士において基本周波数F0orgと基本周波数F0tarとの距離をそれぞれ以下の方法によって算出する。演算部51で行われる距離計算には、DPマッチングが用いられる。演算部51は、対応付けられた母音部分について、単位時間ごとに、対数基本周波数logF0orgと対数基本周波数logF0tarとの差分値を計算する。各母音部分において単位時間ごとに上記差分値を計算した演算部51は、各母音部分ごとに、上記差分値を用いて距離(数1のRMS誤差)を算出する。各母音部分ごとに距離を算出した演算部51は、母音部分ごとの距離の平均値(RMS誤差の平均値)を求める。
本実施形態の選択部52は、基本周波数F0tarごとに演算部51で算出された平均値のうち、平均値が最小となる基本周波数F0tarが抽出された基準音声波形に対応するアクセント情報を評価対象アクセント情報(合成音声波形のアクセント情報)とする。
次に、本実施形態に係る合成音声評価システム1の動作について説明する。まず、音声情報認識部5bの音声特徴量抽出部50が、合成音声波形から基本周波数F0orgを抽出し、各基準音声波形から基本周波数F0tarを抽出する。その後、母音部分抽出部54が、母音部分を抽出する。その後、演算部51が、対応する母音部分ごとに、基本周波数F0orgと基本周波数F0tarとの距離を計算し、計算した距離の平均値を求め、合成音声波形に最も近い基準音声波形を選択し、選択した基準音声波形に対応するアクセント情報を評価対象アクセント情報とする。その後、判断部6は、音声情報認識部5bからの評価対象アクセント情報と目標アクセント情報とを比較し、出力部7が評価結果を表示装置8に出力する。
以下に具体例を示す。図3に示すように、収録音声「あいり」という基準音声波形から、図3(a)に示す基本周波数F0tarが抽出される。一方、評価音声「あすか」という合成音声波形から、図3(b)に示す基本周波数F0orgが抽出される。その後、母音部分ごとに、図3(a)の基本周波数F0tarの特性と図3(b)の基本周波数F0orgの特性とで時間正規化を行う。その後、それぞれの母音部分で、単位時間ごとに、対数基本周波数logF0orgと対数基本周波数logF0tarとの差分を求めていく。その後、母音部分ごとに、求めた複数個の対数基本周波数の差分値(logF0org−logF0tar)を数1に代入して、距離を求める。最後に、各母音部分における距離の平均値を求める。
以上、本実施形態によれば、基本周波数F0が検出されない子音部分を除いて距離を求めることで、語彙の母音の一部に現れる特徴的な変化を距離に反映させることができるので、アクセント情報を決定する精度を高めることができる。
また、本実施形態によれば、合成音声のモーラ数を用いて母音部分を容易に抽出することができる。
(実施形態4)
実施形態4に係る合成音声評価システム1は、図4に示す音声情報認識部5bが合成音声のモーラ数を合成音声から求める点で、実施形態3に係る合成音声評価システム1と相違する。なお、実施形態3と同様の構成要素については、同一の符号を付して説明を省略する。
実施形態4に係る合成音声評価システム1は、図4に示す音声情報認識部5bが合成音声のモーラ数を合成音声から求める点で、実施形態3に係る合成音声評価システム1と相違する。なお、実施形態3と同様の構成要素については、同一の符号を付して説明を省略する。
本実施形態の音素境界取得部53は、音声認識処理において、合成音声波形と、参照用の音響モデル(実施形態1参照)とを照合することによって、音素境界情報を求める。
本実施形態の母音部分抽出部54は、音声認識処理によって得られたテキスト情報より合成音声のモーラ数を求め、音素境界取得部53で求められた音素境界情報と上記合成音声のモーラ数とを用いて母音部分を求める。
本実施形態によれば、合成音声のモーラ数を合成音声から求めることで、音声情報認識部5bに、合成音声のモーラ数を他から取得する機能を必要としない。
なお、実施形態2〜4では、テキスト情報からなる目標音声ファイルを音声入力部2に入力しているが、実施形態2〜4の変形例として、テキスト情報とともに目標アクセント情報を含む目標音声ファイルを音声入力部2に入力してもよい。音声合成2による言語解析によって目標アクセント情報が得られますが、上記言語解析が必ずしも正しいとは限らない場合がある。このような場合に、目標アクセント情報をテキスト情報とともに音声合成部2に入力する。
また、実施形態2〜4では、目標音声ファイルを記憶部3に記憶させ、上記目標音声ファイルを入力部4から音声合成部2に入力させているが、実施形態2〜4の変形例として、上記目標音声ファイルを記憶部3に記憶させずに、上記目標音声ファイルを他の外部機器から音声合成部2に入力させてもよい。
なお、実施形態2〜4では、音声特徴量として基本周波数F0を用いているが、実施形態2〜4の変形例として、基本周波数F0の時間変化率を表わすΔF0を音声特徴量としてもよい。本変形例のように、音声特徴量としてΔF0を用いる場合も、実施形態2〜4と同様に、DPマッチングを用いて数1のような距離計算を行うことができる(数1において、logF0をlog(ΔF0)として距離計算を行う)。
また、実施形態3,4の変形例として、各音素が継続する時間を表わす音韻継続長を音声特徴量として用いてもよい。本変形例の場合、対応する母音部分の音韻継続長を比較する。
さらに、基本周波数F0、ΔF0、音韻継続長の中から複数組み合わせたものを音声特徴量として用いてもよい。
1 合成音声評価システム
2 音声合成部
3 記憶部
4 入力部
5,5a,5b 音声情報認識部
50 音声特徴量抽出部
51 演算部
52 選択部
53 音素境界取得部
54 母音部分抽出部
6 判断部
2 音声合成部
3 記憶部
4 入力部
5,5a,5b 音声情報認識部
50 音声特徴量抽出部
51 演算部
52 選択部
53 音素境界取得部
54 母音部分抽出部
6 判断部
Claims (11)
- テキスト音声合成を行う音声合成部による合成音声の品質を評価する合成音声評価システムであって、
音声合成対象の言語を含むテキストファイルの前記音声合成部への入力によって当該音声合成部で生成された合成音声が当該音声合成部から入力され当該合成音声から評価対象音声情報を抽出する音声情報認識部と、
前記評価対象音声情報と前記合成音声が有するべき目標音声情報とを照合して類似度を求め、当該合成音声の品質を評価する判断部とを備える
ことを特徴とする合成音声評価システム。 - 前記目標音声情報及び前記評価対象音声情報は、テキスト情報であることを特徴とする請求項1記載の合成音声評価システム。
- 前記目標音声情報及び前記評価対象音声情報は、アクセント情報であることを特徴とする請求項1記載の合成音声評価システム。
- 各モーラ数ごとに、それぞれ異なるアクセント情報に対応する複数の基準音声を記憶する記憶部を備え、
前記音声情報認識部は、
前記合成音声から音声特徴量を抽出し評価対象音声特徴量とするとともに、前記記憶部に記憶され前記合成音声と同じモーラ数の各基準音声から音声特徴量を抽出し基準音声特徴量とする音声特徴量抽出部と、
各基準音声特徴量ごとに、前記評価対象音声特徴量と前記基準音声特徴量との距離を算出し、当該距離が最小となる基準音声特徴量が抽出された基準音声に対応するアクセント情報を前記評価対象音声情報とする音声情報決定部とを有する
ことを特徴とする請求項3記載の合成音声評価システム。 - 前記音声情報認識部は、前記合成音声のモーラ数を前記合成音声から求めることを特徴とする請求項4記載の合成音声評価システム。
- 前記記憶部は、前記目標音声情報のモーラ数を記憶し、
前記音声情報認識部は、前記目標音声情報のモーラ数を前記合成音声のモーラ数として取得する
ことを特徴とする請求項4記載の合成音声評価システム。 - 前記音声情報決定部は、
前記評価対象音声特徴量及び各基準音声特徴量に対して母音部分を抽出する母音部分抽出部と、
各基準音声特徴量ごとに、前記評価対象音声特徴量と前記基準音声特徴量との間で、対応する母音部分同士を時間正規化し、対応する母音部分同士において当該評価対象音声特徴量と当該基準音声特徴量との距離をそれぞれ算出し、算出した距離の平均値を求める演算部と、
前記平均値が最小となる基準音声特徴量が抽出された基準音声に対応するアクセント情報を前記評価対象音声情報とする選択部とを有する
ことを特徴とする請求項4乃至6の何れか1項に記載の合成音声評価システム。 - 前記母音部分抽出部は、前記合成音声のモーラ数を用いて前記母音部分を抽出することを特徴とする請求項7記載の合成音声評価システム。
- テキスト音声合成を行う音声合成部による合成音声の品質を評価する合成音声評価方法であって、
音声合成対象の言語を含むテキストファイルの前記音声合成部への入力によって当該音声合成部で生成された合成音声から評価対象音声情報を抽出する第1のステップと、
前記評価対象音声情報と前記合成音声が有するべき目標音声情報とを照合して類似度を求める第2のステップと、
前記類似度を用いて前記合成音声の品質を評価する第3のステップと
を有することを特徴とする合成音声評価方法。 - 前記目標音声情報及び前記評価対象音声情報は、テキスト情報であり、
前記第1のステップは、前記合成音声から音声認識によってテキスト情報を前記評価対象音声情報として抽出し、
前記第2のステップは、前記評価対象音声情報であるテキスト情報と前記目標音声情報であるテキスト情報とを照合して類似度を求める
ことを特徴とする請求項9記載の合成音声評価方法。 - 前記目標音声情報及び前記評価対象音声情報は、アクセント情報であり、
前記第1のステップは、
前記合成音声から音声特徴量を抽出し評価対象音声特徴量とするステップと、
前記合成音声と同じモーラ数であってそれぞれ異なるアクセント情報に対応する複数の基準音声から音声特徴量を抽出し基準音声特徴量とするステップと、
各基準音声特徴量ごとに、前記評価対象音声特徴量と前記基準音声特徴量との距離を算出するステップと、
前記距離が最小となる基準音声特徴量が抽出された基準音声に対応するアクセント情報を前記評価対象音声情報とするステップとを含む
ことを特徴とする請求項9記載の合成音声評価方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008226449A JP2010060846A (ja) | 2008-09-03 | 2008-09-03 | 合成音声評価システム及び合成音声評価方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008226449A JP2010060846A (ja) | 2008-09-03 | 2008-09-03 | 合成音声評価システム及び合成音声評価方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010060846A true JP2010060846A (ja) | 2010-03-18 |
Family
ID=42187719
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008226449A Withdrawn JP2010060846A (ja) | 2008-09-03 | 2008-09-03 | 合成音声評価システム及び合成音声評価方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2010060846A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017083621A (ja) * | 2015-10-27 | 2017-05-18 | 日本電信電話株式会社 | 合成音声品質評価装置、スペクトルパラメータ推定器学習装置、合成音声品質評価方法、スペクトルパラメータ推定器学習方法、プログラム |
CN111315302A (zh) * | 2017-11-02 | 2020-06-19 | 松下知识产权经营株式会社 | 认知功能评估装置、认知功能评估系统、认知功能评估方法及程序 |
WO2020230926A1 (ko) * | 2019-05-15 | 2020-11-19 | 엘지전자 주식회사 | 인공 지능을 이용하여, 합성 음성의 품질을 평가하는 음성 합성 장치 및 그의 동작 방법 |
CN113450768A (zh) * | 2021-06-25 | 2021-09-28 | 平安科技(深圳)有限公司 | 语音合成系统评测方法、装置、可读存储介质及终端设备 |
-
2008
- 2008-09-03 JP JP2008226449A patent/JP2010060846A/ja not_active Withdrawn
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017083621A (ja) * | 2015-10-27 | 2017-05-18 | 日本電信電話株式会社 | 合成音声品質評価装置、スペクトルパラメータ推定器学習装置、合成音声品質評価方法、スペクトルパラメータ推定器学習方法、プログラム |
CN111315302A (zh) * | 2017-11-02 | 2020-06-19 | 松下知识产权经营株式会社 | 认知功能评估装置、认知功能评估系统、认知功能评估方法及程序 |
CN111315302B (zh) * | 2017-11-02 | 2023-04-25 | 松下知识产权经营株式会社 | 认知功能评估装置、认知功能评估系统、认知功能评估方法及程序记录介质 |
WO2020230926A1 (ko) * | 2019-05-15 | 2020-11-19 | 엘지전자 주식회사 | 인공 지능을 이용하여, 합성 음성의 품질을 평가하는 음성 합성 장치 및 그의 동작 방법 |
US11705105B2 (en) | 2019-05-15 | 2023-07-18 | Lg Electronics Inc. | Speech synthesizer for evaluating quality of synthesized speech using artificial intelligence and method of operating the same |
CN113450768A (zh) * | 2021-06-25 | 2021-09-28 | 平安科技(深圳)有限公司 | 语音合成系统评测方法、装置、可读存储介质及终端设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4882899B2 (ja) | 音声解析装置、および音声解析方法、並びにコンピュータ・プログラム | |
US10553240B2 (en) | Conversation evaluation device and method | |
KR20190008137A (ko) | 다중 화자 데이터를 이용한 딥러닝 기반 음성 합성 장치 및 방법 | |
Airas et al. | Emotions in vowel segments of continuous speech: analysis of the glottal flow using the normalised amplitude quotient | |
KR20080050311A (ko) | 음성 처리 장치 및 음성 처리 방법 및 프로그램 | |
US20230230576A1 (en) | Text-to-speech synthesis method and system, and a method of training a text-to-speech synthesis system | |
KR20160122542A (ko) | 발음 유사도 측정 방법 및 장치 | |
JP2002040926A (ja) | インターネット上での自動発音比較方法を用いた外国語発音学習及び口頭テスト方法 | |
CN106157974A (zh) | 文本背诵质量评估装置和方法 | |
Middag et al. | Robust automatic intelligibility assessment techniques evaluated on speakers treated for head and neck cancer | |
US9390709B2 (en) | Voice recognition device and method, and semiconductor integrated circuit device | |
Narendra et al. | Robust voicing detection and F 0 estimation for HMM-based speech synthesis | |
JP2018180334A (ja) | 感情認識装置、方法およびプログラム | |
JP4353202B2 (ja) | 韻律識別装置及び方法、並びに音声認識装置及び方法 | |
CN105895079B (zh) | 语音数据的处理方法和装置 | |
CN112908308B (zh) | 一种音频处理方法、装置、设备及介质 | |
JP2010060846A (ja) | 合成音声評価システム及び合成音声評価方法 | |
JP2015055653A (ja) | 音声認識装置及び方法、並びに、電子機器 | |
KR20080018658A (ko) | 사용자 선택구간에 대한 음성비교 시스템 | |
US20230252971A1 (en) | System and method for speech processing | |
JP4839970B2 (ja) | 韻律識別装置及び方法、並びに音声認識装置及び方法 | |
Hasija et al. | Recognition of children Punjabi speech using tonal non-tonal classifier | |
US9928832B2 (en) | Method and apparatus for classifying lexical stress | |
Airas | Methods and studies of laryngeal voice quality analysis in speech production | |
CN113409762B (zh) | 情感语音合成方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20100716 |
|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20111206 |