JP2010060846A

JP2010060846A - 合成音声評価システム及び合成音声評価方法

Info

Publication number: JP2010060846A
Application number: JP2008226449A
Authority: JP
Inventors: Hideki Watanabe; 英樹渡辺; Takashi Nishiyama; 高史西山; Masaya Hanazono; 正也花園; Keiichi Tokuda; 恵一徳田
Original assignee: Panasonic Electric Works Co Ltd
Current assignee: Panasonic Electric Works Co Ltd
Priority date: 2008-09-03
Filing date: 2008-09-03
Publication date: 2010-03-18

Abstract

【課題】評価時間を短縮するとともに、評価結果のばらつきが発生しない。
【解決手段】合成音声評価システム１の記憶部３には、音声合成対象の言語を含むテキストファイルである目標音声ファイルが予め記憶されている。記憶部３に記憶されている目標音声ファイルが入力部４によって音声合成部２に入力されると、音声情報認識部５は、音声合成部２で生成された合成音声波形からテキスト情報を評価対象テキスト情報として抽出する。判断部６は、音声情報認識部５で抽出された評価対象テキスト情報と記憶部３に記憶されている目標テキスト情報とを照合し類似度を求め、合成音声の品質を評価する。
【選択図】図１

Description

本発明は、テキスト音声合成を行う音声合成部で生成される合成音声を評価する合成音声評価システム及び合成音声評価方法に関するものである。

近年、テキスト音声合成を行う音声合成部がさまざまな分野で利用されている。音声合成部では、文字列からなるテキスト情報を含むテキストファイルが入力されると、テキスト解析を行い、テキスト解析結果を用いて合成音声波形を生成し、スピーカなどの音声出力部に出力する。音声出力部では、合成音声波形に基づいた合成音声が音声出力される。

合成音声の品質に対する評価項目としては、聞き取り性やイントネーションの自然性、こもり感などがある。聞き取り性とは、テキスト情報の通りに言葉が音声出力されているかを示すものである。

従来、合成音声の評価は、合成音声部で多数の合成音声波形を生成し、各合成音声波形に基づいた合成音声を音声出力し、評価者が聞いて判断することによって行われている。

なお、特許文献１には、音声伝送系に対して送信された音声信号と、音声伝送系から受信した音声信号とを用いて、音声伝送系において伝送誤りが発生している場合でも音声信号の明瞭度を評価する音声品質評価装置が開示されている。特許文献１の音声品質評価装置は、音声を伝送する際の劣化によって明瞭度が損なわれる点を評価するものであり、実際には、伝送前の音声と伝送後の音声とを比較することで評価する。上記より、特許文献１の音声品質評価装置は、評価する音声波形に対して、必ず目標となる音声波形が必要となるため、大量にある合成音声波形の評価に対しては、適用できない。
特開２００７−０４９４６２号公報

しかしながら、従来の主観評価を用いた合成音声の品質評価方法は、多数の合成音声を、評価者が実際に聞いて判断していることから、膨大な時間と費用がかかり、非効率であるという問題があった。

また、音声出力がテキスト情報の通りに正しく再現されているか、すなわち、評価者が聞き取れるか、アクセントが指定した通りに再現できているか、などを評価者が評価するため、評価者による評価の個人差が大きく、評価者間で評価結果のばらつきが発生するという問題があった。

本発明は上記の点に鑑みて為されたものであり、その目的は、評価時間を短縮することができるとともに、評価結果のばらつきが発生しない合成音声評価システム及び合成音声評価方法を提供することにある。

請求項１に係る合成音声評価システムの発明は、テキスト音声合成を行う音声合成部による合成音声の品質を評価する合成音声評価システムであって、音声合成対象の言語を含むテキストファイルの前記音声合成部への入力によって当該音声合成部で生成された合成音声が当該音声合成部から入力され当該合成音声から評価対象音声情報を抽出する音声情報認識部と、前記評価対象音声情報と前記合成音声が有するべき目標音声情報とを照合して類似度を求め、当該合成音声の品質を評価する判断部とを備えることを特徴とする。

請求項２に係る合成音声評価システムの発明は、請求項１の発明において、前記目標音声情報及び前記評価対象音声情報は、テキスト情報であることを特徴とする。

請求項３に係る合成音声評価システムの発明は、請求項１の発明において、前記目標音声情報及び前記評価対象音声情報は、アクセント情報であることを特徴とする。

請求項４に係る合成音声評価システムの発明は、請求項３の発明において、各モーラ数ごとに、それぞれ異なるアクセント情報に対応する複数の基準音声を記憶する記憶部を備え、前記音声情報認識部は、前記合成音声から音声特徴量を抽出し評価対象音声特徴量とするとともに、前記記憶部に記憶され前記合成音声と同じモーラ数の各基準音声から音声特徴量を抽出し基準音声特徴量とする音声特徴量抽出部と、各基準音声特徴量ごとに、前記評価対象音声特徴量と前記基準音声特徴量との距離を算出し、当該距離が最小となる基準音声特徴量が抽出された基準音声に対応するアクセント情報を前記評価対象音声情報とする音声情報決定部とを有することを特徴とする。

請求項５に係る合成音声評価システムの発明は、請求項４の発明において、前記音声情報認識部は、前記合成音声のモーラ数を前記合成音声から求めることを特徴とする。

請求項６に係る合成音声評価システムの発明は、請求項４の発明において、前記記憶部は、前記目標音声情報のモーラ数を記憶し、前記音声情報認識部は、前記目標音声情報のモーラ数を前記合成音声のモーラ数として取得することを特徴とする。

請求項７に係る合成音声評価システムの発明は、請求項４乃至６の何れか１項の発明において、前記音声情報決定部は、前記評価対象音声特徴量及び各基準音声特徴量に対して母音部分を抽出する母音部分抽出部と、各基準音声特徴量ごとに、前記評価対象音声特徴量と前記基準音声特徴量との間で、対応する母音部分同士を時間正規化し、対応する母音部分同士において当該評価対象音声特徴量と当該基準音声特徴量との距離をそれぞれ算出し、算出した距離の平均値を求める演算部と、前記平均値が最小となる基準音声特徴量が抽出された基準音声に対応するアクセント情報を前記評価対象音声情報とする選択部とを有することを特徴とする。

請求項８に係る合成音声評価システムの発明は、請求項７の発明において、前記母音部分抽出部は、前記合成音声のモーラ数を用いて前記母音部分を抽出することを特徴とする。

請求項９に係る合成音声評価方法の発明は、テキスト音声合成を行う音声合成部による合成音声の品質を評価する合成音声評価方法であって、音声合成対象の言語を含むテキストファイルの前記音声合成部への入力によって当該音声合成部で生成された合成音声から評価対象音声情報を抽出する第１のステップと、前記評価対象音声情報と前記合成音声が有するべき目標音声情報とを照合して類似度を求める第２のステップと、前記類似度を用いて前記合成音声の品質を評価する第３のステップとを有することを特徴とする。

請求項１０に係る合成音声評価方法の発明は、請求項９の発明において、前記目標音声情報及び前記評価対象音声情報は、テキスト情報であり、前記第１のステップは、前記合成音声から音声認識によってテキスト情報を前記評価対象音声情報として抽出し、前記第２のステップは、前記評価対象音声情報であるテキスト情報と前記目標音声情報であるテキスト情報とを照合して類似度を求めることを特徴とする。

請求項１１に係る合成音声評価方法の発明は、請求項９の発明において、前記目標音声情報及び前記評価対象音声情報は、アクセント情報であり、前記第１のステップは、前記合成音声から音声特徴量を抽出し評価対象音声特徴量とするステップと、前記合成音声と同じモーラ数であってそれぞれ異なるアクセント情報に対応する複数の基準音声から音声特徴量を抽出し基準音声特徴量とするステップと、各基準音声特徴量ごとに、前記評価対象音声特徴量と前記基準音声特徴量との距離を算出するステップと、前記距離が最小となる基準音声特徴量が抽出された基準音声に対応するアクセント情報を前記評価対象音声情報とするステップとを含むことを特徴とする。

請求項４，７に係る合成音声評価システム及び請求項１１に係る合成音声評価方法において、評価対象音声特徴量と基準音声特徴量との距離とは、評価対象音声特徴量と基準音声特徴量との類似度を示す値である。

請求項１の発明によれば、評価者による合成音声の評価に比べて、評価時間を短縮することができるとともに、評価結果のばらつきが発生しない。

請求項２の発明によれば、間違った言葉の合成音声を生成する音声合成部をチェックすることができる。

請求項３の発明によれば、言葉が正しくてもアクセントが異常であると、聞き手に違和感を与え、言葉の意味を取り違える可能性があるので、異常なアクセントとなる合成音声を生成する音声合成部をチェックすることができる。

請求項４の発明によれば、基準音声波形を定め、音声特徴量同士を比較することによって、同一のテキスト情報を持つ基準音声波形を逐次用意しなくても、合成音声のアクセント情報を決定することができる。これにより、請求項４の発明によれば、アクセント型ごとに用意された数個の基準音声波形を用いて、多数の合成音声波形を評価することができる。

請求項５の発明によれば、合成音声のモーラ数を合成音声から求めることで、音声情報認識部に、合成音声のモーラ数を他から取得する機能を必要としない。

請求項６の発明によれば、目標音声情報のモーラ数を記憶部から取得して合成音声のモーラ数とすることで、音声情報認識部は、合成音声のモーラ数を精度よく取得することができる。

請求項７の発明によれば、子音部分を除いて距離を求めることで、語彙の母音の一部に現れる特徴的な変化を距離に反映させることができるので、アクセント情報を決定する精度を高めることができる。

請求項８の発明によれば、合成音声のモーラ数を用いて母音部分を容易に抽出することができる。

請求項９の発明によれば、評価者による合成音声の評価に比べて、評価時間を短縮することができるとともに、評価結果のばらつきが発生しない。

請求項１０の発明によれば、間違った言葉の合成音声を生成する音声合成部をチェックすることができる。

請求項１１の発明によれば、基準音声波形を定め、音声特徴量同士を比較することによって、同一のテキスト情報を持つ基準音声波形を逐次用意しなくても、合成音声のアクセント情報を決定することができる。これにより、請求項１１の発明によれば、アクセント型ごとに用意された数個の基準音声波形を用いて、多数の合成音声波形を評価することができる。

（実施形態１）
まず、実施形態１の構成について図１を参照して説明する。図１は、本実施形態に係る合成音声評価システムの構成を示す。図１に示す合成音声評価システム１は、テキスト音声合成を行う音声合成部２による合成音声の品質を評価するものである。

音声合成部２は、音声合成対象の言語を含むテキストファイルに対して言語データベース（図示せず）の情報を用いてテキスト解析を行って中間ファイルを生成するテキスト解析部２０と、テキスト解析部２０で生成された中間ファイルを用いて合成音声波形を生成する音声波形生成部２１とを備えている。中間ファイルは、テキストファイルへのテキスト解析によって得られた情報をファイル化したものである。この中間ファイルには、読み情報やアクセント情報、品詞情報、モーラ数などが含まれている。

合成音声評価システム１は、目標対象のテキスト情報である目標テキスト情報（目標音声情報）と、上記目標テキスト情報を含むテキストファイルである目標音声ファイルとを予め記憶する記憶部３と、記憶部３に記憶されている目標音声ファイルを音声合成部２に入力するための入力部４と、音声合成部２で生成された合成音声波形から評価対象テキスト情報（評価対象音声情報）を抽出する音声情報認識部５と、合成音声の品質を評価する判断部６と、判断部６の評価結果を外部に出力する出力部７とを備えている。合成音声評価システム１には、評価結果を表示するための表示装置８が接続されている。合成音声評価システム１は、コンピュータを用いて処理されるシステムであり、合成音声波形を入力とし、合成音声波形が目標テキスト情報を有しているか否かを評価し、評価結果を出力するものである。

音声情報認識部５は、大量の発話を記録した学習用データから複数の音響モデルを予め学習して用意しておく。音響モデルとしては、所定単位（例えばサブワード単位や単語）の音響的特徴を表わすものが用いられる。各音響モデルは、所定単位のテキスト情報に対応している。サブワードとしては、例えば、音素や音節（子音−母音（ＣＶ）、母音−子音−母音（ＶＣＶ）など）、半音節などがある。

上記音声情報認識部５は、予め学習して用意した音響モデルを参照して、音声合成部２から入力された合成音声波形に最も良く合致する音響モデルの列を生成し、上記音響モデルの列に対応する言語系列（テキスト情報）を評価対象音声情報として抽出し、判断部６に出力する。この場合、一語一語、文字を照合する手法と、候補として複数のテキスト情報に対応する音響モデルを用意し、音声合成部２から入力された合成音声波形とそれらの特徴とを照合し、最ももっともらしい言語系列（テキスト情報）を評価対象音声情報として出力する手法とがある。

判断部６は、音声情報認識部５で抽出された評価対象テキスト情報と記憶部３に記憶されている目標テキスト情報とを照合し類似度を求め、合成音声の品質を評価する。目標テキスト情報は、合成音声が有するべきテキスト情報である。

次に、本実施形態の合成音声評価システム１の動作について説明する。まず、入力部４が音声合成部２に目標音声ファイルを与えると、音声合成部２は、目標音声ファイルを用いて合成音声波形を生成する。その後、音声情報認識部５は、複数の音響モデルを参照して、音声合成部２で生成された合成音声波形に対応する音響モデルの列を生成する。その後、音声情報認識部５は、音響モデルの列に対応するテキスト情報を評価対象テキスト情報として抽出し、抽出した評価対象テキスト情報を判断部６に出力する。その後、判断部６は、音声情報認識部５で抽出された評価対象テキスト情報と目標テキスト情報とを比較し、出力部７が評価結果を表示装置８に出力する。

以上、本実施形態によれば、評価者が合成音声波形による合成音声を聞いて目標テキスト情報を音声出力しているか否かを判定する場合に比べて、評価時間を短縮することができるとともに、評価結果のばらつきが発生しない。つまり、本実施形態の合成音声評価システム１は、コンピュータを用いて処理されるシステムであるので、従来のような評価者が合成音声を目標テキスト情報として聞き取れるかを判定するよりも、時間が短縮され、評価者個人の経験などが聞き取りに影響することによって発生する評価のばらつきが発生せず、安定した評価を行うことができる。

また、本実施形態によれば、間違った言葉の合成音声波形を生成する音声合成部２をチェックすることができる。

なお、実施形態１では、目標音声ファイルを記憶部３に記憶させ、上記目標音声ファイルを入力部４から音声合成部２に入力させているが、実施形態１の変形例として、上記目標音声ファイルを記憶部３に記憶させずに、上記目標音声ファイルを他の外部機器から音声合成部２に入力させてもよい。この場合、入力部４は、他の外部機器から目標テキスト情報を取得する。

（実施形態２）
実施形態２に係る合成音声評価システム１は、目標音声情報及び評価対象音声情報が、テキスト情報ではなく、イントネーションの自然性に関係するアクセント情報（０型、１型・・・）である点で、実施形態１に係る合成音声評価システム１と相違する。アクセント情報とは、アクセント位置を示すアクセントパターンである。なお、実施形態１と同様の構成要素については、同一の符号を付して説明を省略する。

本実施形態の記憶部３には、各モーラ数ごとに、それぞれ異なるアクセント情報に対応する複数の基準音声波形が予め記憶されている。つまり、記憶部３には、異なるアクセント位置を示すアクセントパターンが各モーラ数に対して記憶されている。例えばモーラ数が２の場合に対しては、記憶部３には、３つの基準音声波形（０型の基準音声波形、１型の基準音声波形、２型の基準音声波形）が記憶されている。例えばモーラ数が３の場合に対しては、記憶部３には、４つの基準音声波形（０型の基準音声波形、１型の基準音声波形、２型の基準音声波形、３型の基準音声波形）が記憶されている。

本実施形態の入力部４は、実施形態１と同様に、目標テキスト情報からなる目標音声ファイルを音声合成部２に与える。

本実施形態の合成音声評価システム１は、実施形態１の音声情報認識部５（図１参照）に代えて、図２に示す音声情報認識部５ａを備えている。音声情報認識部５ａは、音声波形から、アクセントを特徴付ける基本周波数Ｆ０（音声特徴量）を抽出する音声特徴量抽出部５０と、２つの基本周波数Ｆ０の距離を算出する演算部５１と、複数のアクセント情報から合成音声波形のアクセント情報を選択する選択部５２とを備えている。

音声特徴量抽出部５０は、音声合成部２で生成された合成音声波形から評価対象音声特徴量として基本周波数Ｆ０_orgを抽出するとともに、目標音声情報のモーラ数を合成音声のモーラ数として記憶部３から取得し、さらに、記憶部３に記憶され合成音声のモーラ数と同じモーラ数の各基準音声波形からそれぞれ基準音声特徴量として基本周波数Ｆ０_tarを抽出する。各基準音声波形は、合成音声と同じモーラ数の基準音声となるものである。音声特徴量抽出部５０では、音声波形（合成音声波形、基準音声波形）から基本周波数Ｆ０（基本周波数Ｆ０_org、基本周波数Ｆ０_tar）を抽出する方法として、ケプストラム法や自己相関法などが用いられる。ケプストラム法を用いた場合、音声特徴量抽出部５０は、音声波形に対してＦＦＴを行った後に対数をとり、逆ＦＦＴを行うことによって、基本周波数Ｆ０を抽出する。一方、自己相関法を用いた場合、音声特徴量抽出部５０は、音声波形の自己相関値を計算し、１周期の長さを求め、その逆数をとることで、基本周波数Ｆ０を抽出する。なお、本実施形態において、音声波形から基本周波数Ｆ０を抽出する方法は、上記に限定されるものではなく、他の方法であってもよい。

演算部５１は、各基準音声波形の基準音声特徴量である基本周波数Ｆ０_tarの特性ごとに、評価対象音声特徴量である基本周波数Ｆ０_orgと基本周波数Ｆ０_tarとの距離を以下の方法によって算出する。演算部５１で行われる距離計算には、動的計算法（Dynamic Programming）を用いて類似度を計算する方法であるＤＰマッチングが用いられる。演算部５１は、比較する基本周波数Ｆ０同士を対応させるために時間正規化を行い、単位時間ごとに、対数基本周波数ｌｏｇＦ０_orgと対数基本周波数ｌｏｇＦ０_tarとの差分値を計算する。単位時間ごとの差分値を計算した演算部５１は、基本周波数Ｆ０_orgと基本周波数Ｆ０_tarとの距離として、上記差分値を用いて、数１に示す対数基本周波数ｌｏｇＦ０のＲＭＳ誤差を算出する。数１において、Ｎは、単位時間ごとに計算が行われた対数基本周波数ｌｏｇＦ０の差分値の総数である。上記より、本実施形態において、基本周波数Ｆ０_orgと基本周波数Ｆ０_tarとの距離とは、単位時間ごとの対数基本周波数ｌｏｇＦ０の差分値を２乗した値の平均値の平方根であるＲＭＳ誤差をいう。上記ＲＭＳ誤差とは、数１に示す数式で表わされる値である。

ここで、本発明の評価対象音声特徴量と基準音声特徴量との距離とは、評価対象音声特徴量と基準音声特徴量との類似度を示す値である。本実施形態では、評価対象音声特徴量である基本周波数Ｆ０_orgと基準音声特徴量である基本周波数Ｆ０_tarとの距離の一例として、数１に示すＲＭＳ誤差を示している。

なお、評価対象音声特徴量と基準音声特徴量との距離は、数１に示すＲＭＳ誤差に限定されるものではなく、他の方法によって評価対象音声特徴量と基準音声特徴量との類似度を示すものであってもよい。例えば、ＧＭＭ（Gaussian Mixture Model：混合ガウス分布モデル）法やＨＭＭ（HiddenMarcov Model：隠れマルコフモデル）法などを用いて、評価対象の合成音声波形と基準音声波形をモデル化し、両者の尤度値を算出して、距離を求めたり、両者の相互相関関数を求めて、距離を求めたりすることもできる。

選択部５２は、基本周波数Ｆ０_tarごとに演算部５１で算出された距離（ＲＭＳ誤差）のうち、距離が最小となる基本周波数Ｆ０_tarが抽出された基準音声波形に対応するアクセント情報を合成音声波形のアクセント情報とする。

本実施形態において、演算部５１及び選択部５２は、音声情報決定部５５を構成する。音声情報決定部５５は、各基本周波数Ｆ０_tarごとに、基本周波数Ｆ０_orgと基本周波数Ｆ０_tarとの距離を算出し、上記距離が最小となる基本周波数Ｆ０_tarが抽出された基準音声波形に対応するアクセント情報を基本周波数Ｆ０_orgとするものである。

次に、本実施形態に係る合成音声評価システム１の動作について説明する。まず、音声情報認識部５ａの音声特徴量抽出部５０が、合成音声波形から基本周波数Ｆ０_orgを抽出し、各基準音声波形から基本周波数Ｆ０_tarを抽出する。その後、演算部５１が、基本周波数Ｆ０_tarごとに、基本周波数Ｆ０_orgと基本周波数Ｆ０_tarとの距離を計算する。その後、演算部５１は、計算した距離が最小となる基本周波数Ｆ０tarが抽出された基準音声波形を選択し、選択した基準音声波形に対応するアクセント情報を評価対象アクセント情報（合成音声波形のアクセント情報）とする。その後、判断部６は、音声情報認識部５ａからの評価対象アクセント情報と目標アクセント情報とを比較し、出力部７が評価結果を表示装置８に出力する。

以下に具体例を示す。図３に示すように、収録音声「あいり」という基準音声波形（基準モデル）から、図３（ａ）に示すような基本周波数Ｆ０_tarが抽出される。一方、評価音声「あすか」という合成音声波形から、図３（ｂ）に示すような基本周波数Ｆ０_orgが抽出される。その後、図３（ａ）の基本周波数Ｆ０_tarの特性と図３（ｂ）の基本周波数Ｆ０_orgの特性とで時間正規化を行う。続いて、単位時間ごとに、対数基本周波数ｌｏｇＦ０_orgと対数基本周波数ｌｏｇＦ０_tarとの差分を求めていく。最後に、求めた複数個の対数基本周波数の差分値（ｌｏｇＦ０_org−ｌｏｇＦ０_tar）を数１に代入して、距離を求める。

以上、本実施形態によれば、言葉が正しくてもアクセントが異常であると、聞き手に違和感を与え、言葉の意味を取り違える可能性があるので、異常なアクセントとなる合成音声波形を生成する音声合成部２をチェックすることができる。つまり、本実施形態の合成音声評価システム１は、コンピュータを用いて処理されるシステムであるので、従来のような評価者が合成音声を聞いて目標アクセント情報であるアクセントが正しく再現できているかを判定するよりも、時間が短縮され、評価者個人の経験や聞き取りの技量、正しいアクセントの知識などがアクセントの判定に影響することで発生するばらつきが混入せず、安定した評価結果が得られる利点がある。

また、本実施形態によれば、基準音声波形を定め、基本周波数Ｆ０同士を比較し、最も近い基本周波数Ｆ０_tarの基準音声波形に対応するアクセント情報を用いることで、同一のテキスト情報を持つ基準音声波形を逐次用意しなくても、合成音声のアクセント情報を決定することができる。これにより、本実施形態によれば、アクセント型ごとに用意された数個の基準音声波形を用いて、多数の合成音声波形を評価することができる。

さらに、本実施形態によれば、合成音声のモーラ数を記憶部３から取得することで、音声情報認識部５ｂは、合成音声のモーラ数を精度よく取得することができる。

（実施形態３）
実施形態３に係る合成音声評価システム１は、対応する母音部分ごとに、基本周波数Ｆ０_orgと基本周波数Ｆ０_tarとの距離を求める点で、実施形態２に係る合成音声評価システム１と相違する。なお、実施形態２と同様の構成要素については、同一の符号を付して説明を省略する。

本実施形態の合成音声評価システム１は、実施形態２の音声情報認識部５ａ（図２参照）に代えて、図４に示す音声情報認識部５ｂを備えている。音声情報認識部５ｂは、音声特徴量抽出部５０と、演算部５１と、選択部５２とを音声情報認識部５ａと同様に備え、さらに、音声合成部２から音素境界情報を取得する音素境界取得部５３と、基本周波数Ｆ０_org及び基本周波数Ｆ０_tarに対して、音素境界情報とモーラ数とを用いてモーラ分割し、母音部分を抽出する母音部分抽出部５４とを備えている。演算部５１、選択部５２、母音部分抽出部５４は、音声情報決定部５５を構成する。

母音部分抽出部５４は、目標音声情報のモーラ数を合成音声のモーラ数として記憶部３から取得し、取得したモーラ数を用いて母音部分を抽出する。

本実施形態の演算部５１は、基本周波数Ｆ０_tarごとに、基本周波数Ｆ０_orgと基本周波数Ｆ０_tarとの間で、対応する母音部分同士を時間正規化する。図３において、対応する母音部分とは、図３（ａ）の「ａ」（Ａ［１］の部分）と図３（ｂ）の「ａ」（Ｂ［１］の部分）、図３（ａ）の「ｉ」（Ａ［２］の部分）と図３（ｂ）の「ｕ」（Ｂ［２］の部分）、図３（ａ）の「ｉ」（Ａ［３］の部分）と図３（ｂ）の「ａ」（Ｂ［３］の部分）である。

時間正規化した演算部５１は、対応する母音部分同士において基本周波数Ｆ０_orgと基本周波数Ｆ０_tarとの距離をそれぞれ以下の方法によって算出する。演算部５１で行われる距離計算には、ＤＰマッチングが用いられる。演算部５１は、対応付けられた母音部分について、単位時間ごとに、対数基本周波数ｌｏｇＦ０_orgと対数基本周波数ｌｏｇＦ０_tarとの差分値を計算する。各母音部分において単位時間ごとに上記差分値を計算した演算部５１は、各母音部分ごとに、上記差分値を用いて距離（数１のＲＭＳ誤差）を算出する。各母音部分ごとに距離を算出した演算部５１は、母音部分ごとの距離の平均値（ＲＭＳ誤差の平均値）を求める。

本実施形態の選択部５２は、基本周波数Ｆ０_tarごとに演算部５１で算出された平均値のうち、平均値が最小となる基本周波数Ｆ０_tarが抽出された基準音声波形に対応するアクセント情報を評価対象アクセント情報（合成音声波形のアクセント情報）とする。

次に、本実施形態に係る合成音声評価システム１の動作について説明する。まず、音声情報認識部５ｂの音声特徴量抽出部５０が、合成音声波形から基本周波数Ｆ０_orgを抽出し、各基準音声波形から基本周波数Ｆ０_tarを抽出する。その後、母音部分抽出部５４が、母音部分を抽出する。その後、演算部５１が、対応する母音部分ごとに、基本周波数Ｆ０_orgと基本周波数Ｆ０_tarとの距離を計算し、計算した距離の平均値を求め、合成音声波形に最も近い基準音声波形を選択し、選択した基準音声波形に対応するアクセント情報を評価対象アクセント情報とする。その後、判断部６は、音声情報認識部５ｂからの評価対象アクセント情報と目標アクセント情報とを比較し、出力部７が評価結果を表示装置８に出力する。

以下に具体例を示す。図３に示すように、収録音声「あいり」という基準音声波形から、図３（ａ）に示す基本周波数Ｆ０_tarが抽出される。一方、評価音声「あすか」という合成音声波形から、図３（ｂ）に示す基本周波数Ｆ０_orgが抽出される。その後、母音部分ごとに、図３（ａ）の基本周波数Ｆ０_tarの特性と図３（ｂ）の基本周波数Ｆ０_orgの特性とで時間正規化を行う。その後、それぞれの母音部分で、単位時間ごとに、対数基本周波数ｌｏｇＦ０_orgと対数基本周波数ｌｏｇＦ０_tarとの差分を求めていく。その後、母音部分ごとに、求めた複数個の対数基本周波数の差分値（ｌｏｇＦ０_org−ｌｏｇＦ０_tar）を数１に代入して、距離を求める。最後に、各母音部分における距離の平均値を求める。

以上、本実施形態によれば、基本周波数Ｆ０が検出されない子音部分を除いて距離を求めることで、語彙の母音の一部に現れる特徴的な変化を距離に反映させることができるので、アクセント情報を決定する精度を高めることができる。

また、本実施形態によれば、合成音声のモーラ数を用いて母音部分を容易に抽出することができる。

（実施形態４）
実施形態４に係る合成音声評価システム１は、図４に示す音声情報認識部５ｂが合成音声のモーラ数を合成音声から求める点で、実施形態３に係る合成音声評価システム１と相違する。なお、実施形態３と同様の構成要素については、同一の符号を付して説明を省略する。

本実施形態の音素境界取得部５３は、音声認識処理において、合成音声波形と、参照用の音響モデル（実施形態１参照）とを照合することによって、音素境界情報を求める。

本実施形態の母音部分抽出部５４は、音声認識処理によって得られたテキスト情報より合成音声のモーラ数を求め、音素境界取得部５３で求められた音素境界情報と上記合成音声のモーラ数とを用いて母音部分を求める。

本実施形態によれば、合成音声のモーラ数を合成音声から求めることで、音声情報認識部５ｂに、合成音声のモーラ数を他から取得する機能を必要としない。

なお、実施形態２〜４では、テキスト情報からなる目標音声ファイルを音声入力部２に入力しているが、実施形態２〜４の変形例として、テキスト情報とともに目標アクセント情報を含む目標音声ファイルを音声入力部２に入力してもよい。音声合成２による言語解析によって目標アクセント情報が得られますが、上記言語解析が必ずしも正しいとは限らない場合がある。このような場合に、目標アクセント情報をテキスト情報とともに音声合成部２に入力する。

また、実施形態２〜４では、目標音声ファイルを記憶部３に記憶させ、上記目標音声ファイルを入力部４から音声合成部２に入力させているが、実施形態２〜４の変形例として、上記目標音声ファイルを記憶部３に記憶させずに、上記目標音声ファイルを他の外部機器から音声合成部２に入力させてもよい。

なお、実施形態２〜４では、音声特徴量として基本周波数Ｆ０を用いているが、実施形態２〜４の変形例として、基本周波数Ｆ０の時間変化率を表わすΔＦ０を音声特徴量としてもよい。本変形例のように、音声特徴量としてΔＦ０を用いる場合も、実施形態２〜４と同様に、ＤＰマッチングを用いて数１のような距離計算を行うことができる（数１において、ｌｏｇＦ０をｌｏｇ（ΔＦ０）として距離計算を行う）。

また、実施形態３，４の変形例として、各音素が継続する時間を表わす音韻継続長を音声特徴量として用いてもよい。本変形例の場合、対応する母音部分の音韻継続長を比較する。

さらに、基本周波数Ｆ０、ΔＦ０、音韻継続長の中から複数組み合わせたものを音声特徴量として用いてもよい。

実施形態１に係る合成音声評価システムの構成を示すブロック図である。実施形態２に係る音声情報認識部の構成を示すブロック図である。同上に係る音声情報認識部による演算方法を説明するための図である。実施形態３に係る音声情報認識部の構成を示すブロック図である。

符号の説明

１合成音声評価システム
２音声合成部
３記憶部
４入力部
５，５ａ，５ｂ音声情報認識部
５０音声特徴量抽出部
５１演算部
５２選択部
５３音素境界取得部
５４母音部分抽出部
６判断部

Claims

テキスト音声合成を行う音声合成部による合成音声の品質を評価する合成音声評価システムであって、
音声合成対象の言語を含むテキストファイルの前記音声合成部への入力によって当該音声合成部で生成された合成音声が当該音声合成部から入力され当該合成音声から評価対象音声情報を抽出する音声情報認識部と、
前記評価対象音声情報と前記合成音声が有するべき目標音声情報とを照合して類似度を求め、当該合成音声の品質を評価する判断部とを備える
ことを特徴とする合成音声評価システム。
前記目標音声情報及び前記評価対象音声情報は、テキスト情報であることを特徴とする請求項１記載の合成音声評価システム。
前記目標音声情報及び前記評価対象音声情報は、アクセント情報であることを特徴とする請求項１記載の合成音声評価システム。
各モーラ数ごとに、それぞれ異なるアクセント情報に対応する複数の基準音声を記憶する記憶部を備え、
前記音声情報認識部は、
前記合成音声から音声特徴量を抽出し評価対象音声特徴量とするとともに、前記記憶部に記憶され前記合成音声と同じモーラ数の各基準音声から音声特徴量を抽出し基準音声特徴量とする音声特徴量抽出部と、
各基準音声特徴量ごとに、前記評価対象音声特徴量と前記基準音声特徴量との距離を算出し、当該距離が最小となる基準音声特徴量が抽出された基準音声に対応するアクセント情報を前記評価対象音声情報とする音声情報決定部とを有する
ことを特徴とする請求項３記載の合成音声評価システム。
前記音声情報認識部は、前記合成音声のモーラ数を前記合成音声から求めることを特徴とする請求項４記載の合成音声評価システム。
前記記憶部は、前記目標音声情報のモーラ数を記憶し、
前記音声情報認識部は、前記目標音声情報のモーラ数を前記合成音声のモーラ数として取得する
ことを特徴とする請求項４記載の合成音声評価システム。
前記音声情報決定部は、
前記評価対象音声特徴量及び各基準音声特徴量に対して母音部分を抽出する母音部分抽出部と、
各基準音声特徴量ごとに、前記評価対象音声特徴量と前記基準音声特徴量との間で、対応する母音部分同士を時間正規化し、対応する母音部分同士において当該評価対象音声特徴量と当該基準音声特徴量との距離をそれぞれ算出し、算出した距離の平均値を求める演算部と、
前記平均値が最小となる基準音声特徴量が抽出された基準音声に対応するアクセント情報を前記評価対象音声情報とする選択部とを有する
ことを特徴とする請求項４乃至６の何れか１項に記載の合成音声評価システム。
前記母音部分抽出部は、前記合成音声のモーラ数を用いて前記母音部分を抽出することを特徴とする請求項７記載の合成音声評価システム。
テキスト音声合成を行う音声合成部による合成音声の品質を評価する合成音声評価方法であって、
音声合成対象の言語を含むテキストファイルの前記音声合成部への入力によって当該音声合成部で生成された合成音声から評価対象音声情報を抽出する第１のステップと、
前記評価対象音声情報と前記合成音声が有するべき目標音声情報とを照合して類似度を求める第２のステップと、
前記類似度を用いて前記合成音声の品質を評価する第３のステップと
を有することを特徴とする合成音声評価方法。
前記目標音声情報及び前記評価対象音声情報は、テキスト情報であり、
前記第１のステップは、前記合成音声から音声認識によってテキスト情報を前記評価対象音声情報として抽出し、
前記第２のステップは、前記評価対象音声情報であるテキスト情報と前記目標音声情報であるテキスト情報とを照合して類似度を求める
ことを特徴とする請求項９記載の合成音声評価方法。
前記目標音声情報及び前記評価対象音声情報は、アクセント情報であり、
前記第１のステップは、
前記合成音声から音声特徴量を抽出し評価対象音声特徴量とするステップと、
前記合成音声と同じモーラ数であってそれぞれ異なるアクセント情報に対応する複数の基準音声から音声特徴量を抽出し基準音声特徴量とするステップと、
各基準音声特徴量ごとに、前記評価対象音声特徴量と前記基準音声特徴量との距離を算出するステップと、
前記距離が最小となる基準音声特徴量が抽出された基準音声に対応するアクセント情報を前記評価対象音声情報とするステップとを含む
ことを特徴とする請求項９記載の合成音声評価方法。