JP2008256942A

JP2008256942A - 音声合成データベースのデータ比較装置及び音声合成データベースのデータ比較方法

Info

Publication number: JP2008256942A
Application number: JP2007098842A
Authority: JP
Inventors: Midori Tsuchiya; みどり土谷
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2007-04-04
Filing date: 2007-04-04
Publication date: 2008-10-23

Abstract

【課題】話者の声の特徴も生かしながら、合成音声の不自然な部分を検出するための音声合成データベースのデータ比較装置を提供する。
【解決手段】音声合成データベースのデータ比較装置１は、評価対象の音声合成データベースDB２から、所定のテキストに関する第１の合成パラメータを生成する第１の合成パラメータ生成部１１と、比較対象の音声合成データベースDB３から、所定のテキストに関する第２の合成パラメータを生成する第２の合成パラメータ生成部１２と、生成された第１の合成パラメータと第２の合成パラメータの距離を検出する距離算出部１３とを有する。
【選択図】図２

Description

本発明は、音声合成データベースのデータ比較装置及び音声合成データベースのデータ比較方法に関し、特に、合成音声の不自然な部分を検出することができる音声合成データベースのデータ比較装置及び音声合成データベースのデータ比較方法に関する。

従来より、音声合成技術が、カーナビゲーション装置、パソコン等において広く利用されている。音声合成には、音声合成のための音声合成データベースが用いられる。音声合成データベースは、音声合成システムあるいは音声合成装置において、合成音声を生成して出力するときに使用する、いわゆる音の辞書に相当するものであり、合成する音声を音韻情報と韻律情報で表現した形で記憶したデータベースである。音声合成システムは、入力されたテキストについて、音声合成データベースから必要なデータを取り出し、データを結合等して音声波形を生成する。

音声合成データベースの構成、内容等は、音声合成システムによって異なるが、音声合成データベースは、例えば、各音素の時間長を決める際の決定モデルのパラメータ、ピッチパターン、ピッチパターンを変形する際の変形モデルのパラメータ、音素や音節などの音の波形、もしくは、音の波形をパラメータや音源波形に分離したもの等から構成される。

各音声合成データベースは、それぞれが特定の話者の肉声データから学習して生成される。ある音声合成データベースは、アナウンサXの肉声データに基づいて生成され、他の音声合成データベースは、アナウンサYの肉声データに基づいて生成される、というような場合がある。生成された音声合成データベースを用いて音声合成を行うと、読み上げられるテキスト、すなわち入力されるテキストによっては、その生成されて出力された合成音声が不自然になる場合がある。

これは、肉声データを収録する時の問題、音声合成データベースを生成する時の問題等があるからである。肉声データを収録する時の問題は、例えば、リップノイズ等のノイズの混入、テキストの読み誤り、アクセント誤り等の問題である。音声合成データベース生成時の問題は、例えば、ラベリング誤り、ピッチ形状の算出誤り等の問題である。これらの問題があることにより、生成される合成音声が不自然になってしまう要因が音声合成データベースに潜在してしまう。特に、音声合成データベース生成段階で、そのような合成音声が不自然になってしまうという問題を解消することは難しい。

従って、生成された音声合成データベースの合成音声を、人が試聴して合成音声の不自然な部分を洗い出し、音声合成データベースの修正が行うことが必要となる。このような修正は、一般に、人が、マニュアルによって行う。具体的には、音声合成に用いられる演算式の係数データの修正、ピッチパターンの波形形状の修正等が行われる。

しかしながら、人が試聴してその不自然な部分を洗い出す方法では、多くの時間と労力を要する。また、試聴評価は、人、すなわち評価者、の主観に依存するため、人により、不自然な部分の指摘に偏りが生じるため、不自然な部分を適格に検出できない、といった問題がある。

上述したように、音声合成データベースは、個々に別々の話者の肉声データから生成される場合があるため、話者が異なれば、音声合成データベースも異なる。よって、新しい話者Zの肉声を用いる場合は、その話者Zに対応した新たな音声合成データベースの作成をしなければならないが、新たな音声合成データベースの作成の度に、上述したように、人が合成音声を聞いて不自然な部分を洗い出すという、多くの労力と時間の掛かる作業が要求される。

一方、合成音声と目標音声の、それぞれの韻律の特徴を表すパラメータを抽出し、その変化率をもとに、合成音声の韻律を正規化する方法が提案されている（例えば、特許文献１参照）。
しかし、その提案に係る方法は、定型の読み上げテキストについて、合成音声の韻律を目標音声の韻律に揃える目的で行われるものであり、任意の読み上げテキストについて、目標音声の韻律を用意することは不可能である。そのため、その方法は、任意の読み上げテキストについては、適用することはできない。
また、合成音声と目標音声の話者が異なる場合、韻律の正規化によって話者の声の特徴が失われてしまう。従って、新しい話者の声の特徴を有する合成音声が要求される場合、その提案にかかる方法を適用することができない。
特開2005-221785号公報

そこで、本発明は、話者の声の特徴も生かしながら、合成音声の不自然な部分を検出するための音声合成データベースのデータ比較装置を提供することを目的とする。

本発明の一態様によれば、評価対象の音声合成データベースから、所定のテキストに関する第１の合成パラメータを生成する第１の合成パラメータ生成部と、比較対象の音声合成データベースから、前記所定のテキストに関する第２の合成パラメータを生成する第２の合成パラメータ生成部と、生成された前記第１の合成パラメータと前記第２の合成パラメータの差を検出する差検出部と、を有することを特徴とする音声合成データベースのデータ比較装置を提供することができる。

本発明の一態様によれば、評価対象の音声合成データベースから、所定のテキストに関する第１の合成パラメータを生成し、比較対象の音声合成データベースから、前記所定のテキストに関する第２の合成パラメータを生成し、生成された前記第１の合成パラメータと前記第２の合成パラメータの差を検出することを特徴とする音声合成データベースのデータ比較方法を提供することができる。

比較対象の音声合成データと比較して、評価対象の音声合成データベースの合成音声の不自然な部分を検出することができる音声合成データベースのデータ比較装置及び音声合成データベースのデータ比較方法を実現することができる。

以下、図面を参照して本発明の実施の形態を説明する。
（第１の実施の形態）
（構成）
まず図１に基づき、本発明の第１の実施の形態に係わる音声合成データベースのデータ比較装置の構成を説明する。図１は、本発明の第１の実施の形態に係わる音声合成データベースのデータ比較装置のハードウエアの構成を示す構成図である。

本実施の形態の音声合成データベースのデータ比較装置（以下、単に比較装置という）１は、コンピュータ装置であり、中央処理装置（CPU）１０１ａ等を含む本体装置１０１と、表示画面を有する液晶表示装置（LCD）等の表示部１０２と、キーボード１０３と、マウス１０４と、記憶装置１０５とを含んで構成されている。音声合成データベースの比較を行うユーザが、各種指示をCPU１０１ａに与えるためのキーボード１０３，マウス１０４等の入力部を操作することによって、後述する任意のテキストデータを入力データとして指定することができる。同様に、ユーザは、そのようなキーボード等を用いて、比較する２つのデータベースを指定することができる。比較される２つの音声合成データベースは、記憶装置１０５に記憶されている。従って、ユーザは、図１に示すようなコンピュータ装置を用いて、以下に説明する音声合成データベースの比較を行わせ、その比較結果を得ることができる。

図２は、本実施の形態に係わる音声合成データベースの比較装置の機能構成を示すブロック図である。本実施の形態の音声合成データベースの比較装置１は、音声合成データベース（以下、音声合成DBと略す）の合成パラメータを利用して、評価対象の音声合成DB（以下、評価対象DBという）２と、模範とする、あるいは参照対象とする、音声合成DB（以下、模範DBという）３とを比較する。比較装置１は、所定のテキストデータに関して、評価対象DB２と模範DB３のそれぞれの各合成パラメータの差、すなわち距離を算出して出力する。評価対象DB２の修正を行うユーザは、算出されて出力された距離に基づいて、評価対象DB２によって生成される合成音声の不自然な部分を認識して、評価対象DB２の修正、言い換えればチューニング、をすることができる。ここで算出される距離は、生成される合成音声の不自然さの程度、言い換えると、模範DB３と比較した場合の評価対象DB２の歪み度、を示す。

模範DB３は、過去に作成されたDBであり、特定の話者Ｘの肉声データを用いて生成されたDBであり、各種チューニングが既にされている、模範となるデータベースである。言い換えれば、模範DB３は、既に評価され、改良が十分にされているデータベースであり、生成される合成音声は、自然なものと感じられるものとなる。従って、任意のテキストが入力されても、模範DB３は、話者Ｘの声で自然な合成音声を出力することができる。そのような模範となるデータベースが複数有る場合は、ユーザは、その複数のデータベースの全てあるいは複数のデータベースの中から１つ以上の所望のデータベースを選択することができる。ここでは、模範となる複数のデータベースの中から、ユーザによって模範DB３が比較対象として選択されている場合で説明する。評価対象DB2は、新たな話者Zの肉声データを用いて生成されたデータベースであり、模範DB３とデータ比較がされるデータベースである。

データ比較装置１は、２つの合成パラメータ生成部１１、１２と、差検出部としての距離算出部１３を含んで構成されている。合成パラメータ生成部１１，１２には、テキスト情報４のデータが、入力される。合成パラメータ生成部１１は、評価対象DB２を参照して、入力されたテキスト情報４に関する評価対象DB２の合成パラメータの情報を生成して、距離算出部１３に出力する。同様に、合成パラメータ生成部１２は、模範DB３を参照して、入力されたテキスト情報４に関する模範DB3の合成パラメータの情報を生成して、距離算出部１３に出力する。合成パラメータ生成部１１と１２は、同じ項目の合成パラメータを出力する。

合成パラメータ生成部１１と１２は、それぞれ音声合成装置の韻律生成器である。図３は、音声合成装置の構成を示すブロック図である。音声合成装置２０１は、韻律生成器２０２と、合成器２０３とを含む。音声合成装置２０１の韻律生成器２０２には、音声合成するテキスト情報２１１が入力され、韻律生成器２０２は、図示しない音声合成DBを参照して、入力されたテキスト情報に関する、ピッチパターン、時間長等の各音声合成パラメータを読み出すことによって、合成パラメータを生成する。生成された合成パラメータは、合成器２０３に入力して、音声合成を行うに必要なパラメータである。合成器２０３が、音声合成された信号をスピーカ等の出力装置２１２に出力することにより、音声合成された音声が出力される。従って、図２の合成パラメータ生成部１１と１２は、それぞれ、このような韻律生成器によって構成されている。

図２の合成パラメータ生成部１１と１２がそれぞれ出力する合成パラメータには、種々のパラメータがある。合成パラメータは、例えば、ピッチの最高値及び最低値、ピッチパターンの形状、ピッチパターンのピーク位置、音素毎の平均ピッチ、音素及びポーズの時間長、破裂音の無音区間の時間長、音韻を構成する無声音素と有声音素との時間長比率、音韻を構成する音素の時間長比率、音素毎の平均振幅及び最大振幅、フレーム毎の周波数スペクトル特徴、等である。

ピッチの最高値と最低値は、アクセント句におけるピッチパターンの情報から、声の高さの最高値と最低値の情報である。
ピッチパターンの形状は、そのアクセント句のパターン形状である。
ピーク位置は、そのピッチパターンにおける最高値の時間軸上の位置の情報である。

音素毎の平均ピッチは、各音素の平均周波数である。
音素の時間長は、各音素の時間の長さであり、ポーズの時間長は、無音区間の時間の長さである。
破裂音の無音区間の時間長は、例えば破裂音「パ」の音韻であれば、その音韻を構成する音素に対応する無音区間の時間の長さである。

音韻を構成する無声音素と有声音素の時間長比率は、例えば破裂音「パ」の音韻であれば、その音韻を構成する各音素における無音区間と有声区間の時間比率である。
音韻を構成する音素の時間長比率は、例えば破裂音「パ」の音韻であれば、その音韻を構成する各音素「ｐ」と「ａ」のそれぞれの時間の長さの比率である。
音素毎の平均振幅と最大振幅は、それぞれ音の大きさを表す振幅の平均値と最大値である。
フレーム毎の周波数スペクトル特徴は、各音素を構成する複数のフレームのそれぞれの周波数スペクトルの情報である。
以上は、合成パラメータの例であり、他にも種々の合成パラメータがあるので、他のパラメータも利用される。

合成パラメータ生成部１１と１２は、入力されたテキスト４に関して、ユーザが指定した１以上の合成パラメータを生成して出力する。なお、合成パラメータ生成部１１と１２は、ユーザの指定がなくても、入力されたテキスト４に関して、予め設定された１以上の合成パラメータ、あるいは合成パラメータの全てを一度に生成して出力するようにしてもよい。

距離算出部１３は、合成パラメータ生成部１１と１２から出力された１以上の合成パラメータについて、各合成パラメータの差、すなわち距離を算出し、距離情報として出力する。なお、本実施の形態では、距離算出部１３は、算出された差が所定の閾値以上である場合に、その閾値以上となった合成パラメータに関する距離情報５を出力する。従って、距離算出部１３は、距離を算出して２つの合成パラメータの差を検出する差検出部と、算出された距離（差）が所定の閾値以上あるか否かを判定し、距離がその閾値以上のときに、その距離情報を出力するという判定部とを、含む。

ここで、比較装置１のデータ処理の流れについて説明する。図４は、比較装置１における２つの音声合成DBの比較処理の流れの例を示すフローチャートである。
まず、ユーザは、マウス１０４等を用いて、所定のテキストと、比較する２つの音声合成DB（すなわち、評価対象DB２と模範DB３）とを指定し、所定の操作をすると、図４の処理が実行される。例えば、ある合成パラメータについて比較する場合は、ユーザはその合成パラメータを指定する。その合成パラメータについて、CPU１０１ａが図４の処理を実行する。

CPU１０１ａは、まず、所定のテキスト４に関して、評価対象DB２から、その合成パラメータのデータを読み出して生成する（ステップS1）。このステップS1の処理は、合成パラメータ生成部１１によって実行される。

そして、CPU１０１ａは、所定のテキスト４に関して、模範DB３から、その合成パラメータのデータを読み出して生成する（ステップS2）。このステップS2の処理は、合成パラメータ生成部１２によって実行される。

次に、CPU１０１ａは、それぞれ生成された２つの合成パラメータを比較する（ステップS3）。ここでは２つの合成パラメータの差、すなわち距離が算出される。このステップS3の処理は、距離算出部１３によって実行される。

最後に、CPU１０１ａは、所定の閾値TH１以上の差のあった場合には、その合成パラメータの距離情報５を出力する（ステップS4）。このステップS4の処理も、距離算出部１３によって実行される。距離情報５の出力は、例えば、表示部１０２等の表示画面上に表示することによって行われる。

以上の処理の結果、新たな話者Zについての音声合成DBを作成するときに、ある合成パラメータについて、模範となる模範DB３のその対応する合成パラメータとの差が検出され、その差の情報が出力される。
特に、本実施の形態では、その差が所定の閾値TH1以上ある場合、その差の情報が出力されるので、ユーザは、その合成パラメータについて必要な修正処理を行うことができる。逆に、閾値TH1未満の合成パラメータについては、距離情報５は出力されない。よって、ユーザは、そのような合成パラメータについては修正処理を行わないので、新たな話者Zの声の特徴は、そのまま音声合成DB（ここでは評価対象DB２）に残る。

以上のような比較処理を、種々の合成パラメータについても行うことによって、評価対象DB２によって生成される種々の合成音声の不自然な部分の検出をすることができる。

より具体的に説明する。距離情報５の出力には、種々の形式があるが、例えば、コンピュータの画面上に、次に示すような情報を表示することによって、ユーザに提示する方法がある。
例えば、破裂音における無音区間の時間長を、比較対象の合成パラメータとしてユーザが指定した場合に、
１）特徴量：無音区間の時間長
２）対象：/p/（ノートパソコンに）
３）差分：４０ｍｓ
４）距離：２．５σ
５）閾値：３０ｍｓ以上
等の情報が画面上に表示される。

これは、破裂音の無音区間の時間長について、評価対象DB２と模範DB３とを比較すると、音素/p/について、所定の閾値以上の差を有している場合があったことを示している。このような表示から、ユーザは、無音区間の時間長という合成パラメータについて、音素/p/は、アクセント句「ノートパソコンに」において、模範ＤＢ３の対応する合成パラメータの平均値からの差分（４０ｍｓ）が時間長の閾値（３０ｍｓ）以上の差があって、模範DB３の対応する合成パラメータの平均値からの２．５σ（σは標準偏差）の距離を有していることを知ることができる。
破裂音の無音区間の時間長については、他の音韻においても、閾値以上の場合が存在する場合もあるし、閾値未満の場合も存在する。

従って、ユーザは、所定の閾値以上の場合には、その合成パラメータに関して、評価対象DB２のデータを修正することによって、合成音声に不自然な部分が生じることを排除することができる。修正の方法は、従来と同様に、パラメータの数値を変更したり、ピッチパターンの形状を修正したり、ピッチパターンの伸張係数を変更したり、等の方法によって、行われる。

一方で、所定の閾値未満の場合には、距離情報は出力されないので、模範DB３と比較して、合成音声の不自然でない部分は、修正されることはないので、話者Zの声の特徴は残される。
以上のような処理を、種々の合成パラメータについて行うことによって、評価対象DB２について、模範DB３と比較して合成音声の不自然な部分の距離情報だけが抽出される。ユーザは、その距離情報に基づいて、評価対象DB２のデータを修正することによって、話者Zの声の特徴は残しながら、合成音声の不自然な部分を修正することができる。

次に、閾値の他の例について説明する。
上述した合成パラメータの比較は、合成パラメータ値の差分をとることによって行われているが、模範DB３の１以上の合成パラメータの各分布あるいは各対象範囲の中心値と評価対象DB２の合成パラメータの分布あるいは対象範囲との差分等を用いて、行うようにしてもよい。また、そのような差分だけでなく、算出された距離の範囲情報でもよい。例えば、分布の平均値からのユークリッド距離、空間上での分布を考慮したマハラノビス距離等を、差分値として用いることができる。

図５は、閾値の他の例を説明するための図である。より具体的には、図５は、合成パラメータの一つである、ある時間長に関して、評価対象DB２が、模範DB３と比較して所定の閾値以上異なっている他の例を説明するための図である。

図５は、合成パラメータの１つである、ある時間長についての発生回数を示す頻度グラフである。横軸は、時間長であり、縦軸は、頻度である。時間長は、アクセント句、音素の並び等の種々の条件によって変化する。所定のテキストに、その時間長が検出できるような言葉を含ませ、そのテキストを２つのDB（評価対象DB２と模範DB３）を用いて音声パラメータを生成すると、その時間長について複数のデータを得ることができる。時間長が、種々のアクセント句、種々の音素の並び等に対応して種々変化するように、所定のテキストは言葉を含んでいるので、時間長について、種々の時間長を有する複数のデータを得ることができる。得られた複数のデータについて、時間長毎に度数をカウントすることによって、図５のグラフ、すなわち頻度分布のグラフを生成することができる。

図５では、時間長の変化は、横軸上の位置の変化として表れ、変化した時間長毎に発生した度数が、縦軸に対応する。図５は、時間長について、模範DB３における頻度分布3G（実線で示す）と、評価対象DB２における頻度分布2G（点線で示す）とは、互いに異なる分布形状であることを示している。

例えば、時間長として、無音区間の時間長tpを例に挙げれば、無音区間の時間長tpは、前後の音素によって、変化する。元々、肉声データの元となるテキストには、時間長tpに関わる音素が複数回出現して、その音素の無音区間の時間長tpについて、度数データが得られるような音韻の組合せが含まれている。よって、入力されたテキストから、無音区間の時間長tpの頻度データを得ることができる。

ここでは、無音区間の時間長tpを例として説明しているが、読み上げられるテキストを工夫することによって、種々の音素等についての種々の合成パラメータについて、種々の分布データを得ることができる。

模範DB３に基づいて生成された時間長tpの頻度分布3Gは、模範DB３を生成するときのある話者Xの肉声データそのもの、あるいは補正されたものによって決定される。

評価対象DB２に基づいて生成された時間長tpの頻度分布2Gは、評価対象DB２を生成するときのある話者Zの肉声データそのもの、あるいは補正されたものによって決定される。

従って、同じテキストが入力されても、２名の話者XとYの間で、無音区間の時間長tpは異なるので、頻度分布3Gと2Gが全く同一になることはほとんどない。

今、例えば、模範DB３の時間長tpの分布3Gの標準偏差σの２倍以上の時間長を有する場合が、評価対象DB２の時間長tpの分布2Gの全度数の３０％以上存在する場合には、評価対象DB２に基づいて生成された時間長tpの中で許容できないような、合成音声の不自然さが存在するものとする、という閾値を設定することができる。図５において、位置L1は、模範DB３の中心Oから標準偏差σだけ離れた時間長の位置を示し、位置L2は、模範DB３の中心Oから標準偏差σの２倍だけ離れた時間長の位置を示す。

この場合の閾値は、評価対象DB２が模範DB３と比較して、時間長tpに関して合成音声が不自然となる、頻度の割合である。すなわち、その閾値は、模範DB３に対する予め決められた時間長tpの値（２σ）を超える時間長が発生した度数の割合（３０％）である。この３０％という閾値は、所定のテキストに関して生成された、評価対象DB２による複数の合成パラメータの頻度分布と、同じテキストに関して生成された、模範DB３による複数の合成パラメータの頻度分布との差に基づいて設定された値である。

図５において、位置P1の時間長は、模範DB３の２σ以上（例えば、２．５σ）だけ離れた長さの時間長である。同様に、図５において、位置P2の時間長は、模範DB３の１以下の距離（例えば、０．６σ）だけ離れた長さの時間長である。評価対象DB２の位置L２以上の領域（RR）の度数（斜線部分）の割合が、全体の度数に対して、３０％以上あるか否かが、閾値となる。
なお、閾値は、模範DB３の時間長tpの分布3Gにおける時間長tpの値、例えば、模範DB３の２σに対応する時間長のデータ値、でもよい。

以上のように、距離算出部１３は、合成パラメータ生成部１１と１２から出力された合成パラメータの距離等を算出し、算出された距離等が、合成パラメータ毎に予め設定された所定の閾値以上であるときには、その合成パラメータに関する距離情報を出力するようにした。その結果、データ比較装置１によれば、評価対象DB２を、模範となる模範DB３と比較した場合に、指定された合成パラメータが所定の閾値以上であるときには、その距離情報を出力する。その結果、話者による音声の特徴の違いを、いわゆる歪みと誤判定することがなく、ユーザは、評価対象DB２を修正することができ、かつ、その評価対象DB２の話者Zの声の特徴を残しながらその修正をすることができる。

よって、第１の実施の形態の比較装置によれば、話者の声の特徴も生かしながら、合成音声の不自然な部分を検出することができる。

なお、上述した２つの合成パラメータ生成部１１，１２は、一つの合成パラメータ生成器を用いて実現してもよい。例えば、音声合成データベースを切り替えることによって、一つの合成パラメータ生成器によって、２つの合成パラメータ生成部１１，１２のそれぞれの機能を実現させることができる。

（第２の実施の形態）
次に、第２の実施の形態について説明する。第１の実施の形態の比較装置は、所定のテキストデータを入力して、その入力されたテキストに関して２つの音声合成DBのデータ比較を行っていたが、第２の実施の形態の比較装置は、そのようなテキストデータを用いないで、２つの音声合成DBのデータ比較を行うものである。

図６は、第２の実施の形態に係る比較装置の機能構成を示すブロック図である。比較装置１Aは、図１と同様のコンピュータ装置である。

図６に示す本実施の形態に係わる音声合成データベースの比較装置１Aは、テキストデータの入力なしに、２つの音声合成DBのデータ比較を行う。その比較するデータは、素片情報、時間長情報、ピッチ情報等に関わる音韻情報と韻律情報である。

音声合成DBは、音声合成のための種々のデータを有しているが、全ての音素について全ての合成パラメータを有してもよいが、データ量が多いとメモリ装置１０５の記憶容量に全て記憶できない場合がある。従って、合成パラメータは、基本となるデータに対して、所定の演算を行って補正して生成する場合がある。このような場合には、音素等毎に、その生成演算に用いられる演算式の係数だけが、音声合成DBに記憶される。

従って、本実施の形態では、そのような係数等を比較することによって、２つの音声合成DBの比較が行われる。比較されるデータは、音韻情報あるいは韻律情報である、ピッチ形状、各種係数等のデータである。

音韻情報において比較されるデータは、音声波形または音声波形のスペクトルの性質をモデル化して表現し、そのモデルのパラメータのみが音声合成DBに蓄積されている場合、合成パラメータを生成するためのパラメータのことを指す。比較されるデータは、例えば、線形予測係数である。

韻律情報において比較されるデータは、時間長、ピッチパターン等の変形係数であり、合成パラメータを生成するためのパラメータである。変形係数は、例えば伸張係数等である。時間長算出係数は、様々な音韻環境下での各音素の時間長を算出するためのパラメータである。ピッチパターン算出係数は、ピッチパターン（すなわちピッチ曲線）をモデル化して表現し、そのモデルパラメータのみを音声合成DBに蓄積している場合、そのパラメータのことを指す。ピッチパターン加工係数は、ピッチパターンを音韻環境にあわせて加工するときの加工係数を音声合成DBに蓄積している場合、その係数のことを示す。なお、ピッチパターン加工係数が、音声合成DBに蓄積されず、音韻及び韻律情報抽出部に記憶される場合は、その音韻及び韻律情報抽出部のデータとなる。振幅パターン算出係数は、振幅の強弱パターンをモデル化して表現し、そのモデルのパラメータのみを音声合成DBに蓄積している場合、そのパラメータのことを指す。

データ比較装置１Aは、音韻及び韻律情報抽出部２１、２２と、差検出部としての距離算出部２３を含んで構成されている。音韻及び韻律情報抽出部２１は、評価対象DB２を参照して、評価対象DB２の音韻及び韻律情報を抽出して、距離算出部２３に出力する係数抽出部である。同様に、音韻及び韻律情報抽出部２２は、模範DB３を参照して、模範DB3の音韻及び韻律情報を抽出して、距離算出部２３に出力する係数抽出部である。音韻及び韻律情報抽出部２１、２２は、同じ項目の音韻及び韻律情報を出力する。

音韻及び韻律情報抽出部２１、２２は、ユーザが指定した１以上の音韻及び韻律情報を生成して出力する。なお、音韻及び韻律情報抽出部２１、２２は、ユーザの指定がなくても、予め設定された１以上の音韻及び韻律情報、あるいは音韻及び韻律情報の全てを一度に生成して出力するようにしてもよい。

距離算出部２３は、音韻及び韻律情報抽出部２１、２２から出力された１以上の音韻及び韻律情報について、各音韻情報の差及び各韻律情報の差、すなわち距離を算出し、距離情報として出力する。なお、本実施の形態では、距離算出部２３は、算出された差が所定の閾値以上である場合に、その閾値以上となった音韻及び韻律情報に関する距離情報５Aを出力する。従って、距離算出部１３は、距離を算出して２つの音韻及び韻律情報の差を検出する差検出部と、算出された距離（差）が所定の閾値以上あるか否かを判定し、距離がその閾値以上のときに、その距離情報を出力するという判定部とを、有する。

比較装置１Aは、評価対象DB２と模範DB３のそれぞれの各音韻情報の差及び各韻律情報の差、すなわち距離を算出して出力する。評価対象DB２の修正を行うユーザは、算出されて出力された距離に基づいて、評価対象DB２によって生成される合成音声の不自然な部分を認識して、評価対象DB２の修正、言い換えればチューニング、をすることができる。ここで算出される距離は、生成される合成音声の不自然さの程度、言い換えると、模範DB３と比較した場合の評価対象DB２の歪み度、を示す。

ここで、比較装置１Aのデータ処理の流れについて説明する。図７は、比較装置１Aにおける２つの音声合成DBの比較処理の流れの例を示すフローチャートである。
まず、ユーザは、マウス１０４等を用いて、比較する２つの音声合成DB（すなわち、評価対象DB２と模範DB３）とを指定し、所定の操作をすると、図７の処理が実行される。例えば、ある音韻情報あるいは韻律情報について比較する場合は、ユーザはその音韻情報あるいは韻律情報を指定する。その音韻情報あるいは韻律情報について、CPU１０１ａが図７の処理を実行する。

CPU１０１ａは、まず、評価対象DB２から、その音韻情報あるいは韻律情報のデータを読み出して生成する（ステップS11）。このステップS11の処理は、音韻・韻律情報抽出部２１によって実行される。

そして、CPU１０１ａは、模範DB３から、その音韻情報あるいは韻律情報のデータを読み出して生成する（ステップS12）。このステップS12の処理は、音韻・韻律情報抽出部２２によって実行される。

次に、CPU１０１ａは、それぞれ生成された２つの音韻情報あるいは韻律情報を比較する（ステップS13）。ここでは２つの音韻情報あるいは韻律情報の差、すなわち距離が算出される。このステップS13の処理は、距離算出部２３によって実行される。

最後に、CPU１０１ａは、所定の閾値TH２以上の差のあった場合には、その音韻情報あるいは韻律情報の距離情報５Aを出力する（ステップS14）。このステップS14の処理も、距離算出部２３によって実行される。距離情報５Aの出力は、例えば、表示部１０２等の表示画面上に表示することによって行われる。

以上のような比較処理を、種々の音韻情報及び韻律情報についても行うことによって、評価対象DB２によって生成される種々の合成音声の不自然な部分の検出をすることができる。

以上の処理の結果、第１の実施の形態と同様に、新たな話者Zについての音声合成DBを作成するときに、ある音韻情報あるいは韻律情報について、模範となる模範DB３のその対応する音韻情報あるいは韻律情報との差が、所定の閾値TH２以上ある場合、距離情報が出力される。その結果、話者による音声の特徴の違いを、いわゆる歪みと誤判定することがなく、ユーザは、その音韻情報あるいは韻律情報について修正処理を行うことができる。そして、閾値TH２未満の音韻情報あるいは韻律情報については、距離情報５Aは出力されない。よって、ユーザは、そのような音韻情報あるいは韻律情報については修正処理を行わないので、新たな話者Zの声の特徴は、そのまま音声合成DB（ここでは評価対象DB２）に残る。

本実施の形態においても、個々の音韻情報あるいは韻律情報を１以上指定することによって、その指定された１以上の音韻情報あるいは韻律情報について、比較を行うようにしてもよいし、すべての音韻情報あるいは韻律情報について一度に比較するようにしてもよい。

なお、上述した２つの音韻及び韻律情報抽出部２１、２２は、一つの音韻及び韻律情報抽出器を用いて実現してもよい。例えば、音声合成データベースを切り替えることによって、一つの音韻及び韻律情報抽出器によって、２つの音韻及び韻律情報抽出部２１、２２のそれぞれの機能を実現させることができる。
さらになお、閾値は、第１の実施の形態の図５を用いて説明したような閾値を用いてもよい。

（第３の実施の形態）
次に、第３の実施の形態について説明する。第１の実施の形態の比較装置は、テキストデータを入力して、その入力されたテキストに関して２つの音声合成DBのデータ比較を行っていたが、データ比較は合成パラメータについて行っていた。これに対して、第３の実施の形態の比較装置は、テキストに基づいて音声合成を行い、音声合成された合成音声から特徴量を抽出する。そして、その比較装置は、その特徴量を用いて、２つの音声合成DBのデータ比較を行うものである。

図８は、第３の実施の形態に係る比較装置の機能構成を示すブロック図である。比較装置１Bは、図１と同様のコンピュータ装置である。

図８に示す本実施の形態に係わる音声合成データベースの比較装置１Bは、テキストデータが入力され、２つの音声合成DB（すなわち、評価対象DB２と模範DB３）を用いてそれぞれ音声合成を行う。そして、評価対象DB２と模範DB３のそれぞれに基づいて合成された２つの合成音声から、それぞれの特徴量を抽出し、その抽出された特徴量のデータ比較を行う。その比較するデータは、音声合成された２つの合成音声のそれぞれの特徴量のデータである。

データ比較装置１Bは、合成音声生成部３１，３２と、特徴量抽出部４１，４２と、差検出部としての距離算出部３３を含んで構成されている。合成音声生成部３１は、所定のテキストデータに基づいて、評価対象DB２を用いて、音声合成を行う。合成音声生成部３２は、同じテキストデータに基づいて、模範DB３を用いて、音声合成を行う。特徴量抽出部４１は、合成音声生成部３１により生成された合成音声から特徴量を抽出する。特徴量抽出部４２は、合成音声生成部３２により生成された合成音声から特徴量を抽出する。抽出された２つの特徴量は、距離算出部３３に出力される。特徴量抽出部４１，４２は、同じ項目の特徴量の情報を出力する。

特徴量抽出部４１，４２は、ユーザが指定した１以上の特徴量情報を生成して出力する。

図８の特徴量抽出部４１，４２がそれぞれ出力する特徴量には、種々の特徴量がある。特徴量は、例えば、ピッチの最高値及び最低値、ピッチパターンの形状、ピッチパターンのピーク位置、音素毎の平均ピッチ、音素及びポーズの時間長、破裂音の無音区間の時間長、音韻を構成する無声音素と有声音素の時間長比率、音韻を構成する音素の時間長比率、音素毎の平均振幅及び最大振幅、フレーム毎の周波数スペクトル特徴、等である。

なお、特徴量抽出部４１，４２は、ユーザの指定がなくても、予め設定された１以上の特徴量情報、あるいは特徴量情報の全てを一度に生成して出力するようにしてもよい。

距離算出部３３は、特徴量抽出部４１，４２から出力された１以上の特徴量情報について、各特徴量の差、すなわち距離を算出し、距離情報５Bとして出力する。なお、本実施の形態では、距離算出部３３は、算出された差が所定の閾値以上である場合に、その閾値以上となった特徴量情報に関する距離情報５Bを出力する。従って、距離算出部３３は、距離を算出して２つの特徴量情報の差を検出する差検出部と、算出された距離（差）が所定の閾値以上あるか否かを判定し、距離がその閾値以上のときに、その距離情報を出力するという判定部とを、有する。

比較装置１Bは、評価対象DB２と模範DB３のそれぞれに基づいて合成されたそれぞれの合成音声の特徴量の差、すなわち距離を算出して出力する。評価対象DB２の修正を行うユーザは、算出されて出力された距離に基づいて、評価対象DB２によって生成される合成音声の不自然な部分を認識して、評価対象DB２の修正、言い換えればチューニング、をすることができる。ここで算出される距離は、生成された合成音声の不自然さの程度、言い換えると、模範DB３と比較した場合の評価対象DB２の歪み度、を示す。

次に、比較装置１Bのデータ処理の流れについて説明する。図９は、比較装置１Bにおける２つの音声合成DBの比較処理の流れの例を示すフローチャートである。
まず、ユーザは、マウス１０４等を用いて、所定のテキストと、比較する２つの音声合成DB（すなわち、評価対象DB２と模範DB３）とを指定し、所定の操作をすると、図９の処理が実行される。例えば、ある特徴量について比較する場合は、ユーザはその特徴量を指定する。その特徴量について、CPU１０１ａが図９の処理を実行する。

CPU１０１ａは、まず、所定のテキスト４に関して、評価対象DB２を用いて音声合成処理を実行する（ステップS21）。このステップS21は、合成音声生成部３１によって実行される。

そして、CPU１０１ａは、同じテキスト４に関して、模範DB３を用いて音声合成処理を実行する（ステップS22）。このステップS22は、合成音声生成部３２によって実行される。

次に、CPU１０１ａは、音声合成生成部３１によって音声合成して得られた合成音声を解析して、その特徴量を抽出する（ステップS23）。このステップS23の処理は、特徴量抽出部４１によって実行される。

そして、CPU１０１ａは、音声合成生成部３２によって音声合成して得られた合成音声を解析して、その特徴量を抽出する（ステップS24）。このステップS24の処理は、特徴量抽出部４２によって実行される。

次に、CPU１０１ａは、それぞれ生成された２つの特徴量を比較する（ステップS25）。ここでは２つの特徴量の差、すなわち距離が算出される。このステップS25の処理は、距離算出部３３によって実行される。

最後に、CPU１０１ａは、所定の閾値TH３以上の差のあった場合には、その特徴量の距離情報５Bを出力する（ステップS26）。このステップS26の処理も、距離算出部３３によって実行される。距離情報５Bの出力は、例えば、表示部１０２等の表示画面上に表示することによって行われる。

以上のような比較処理を、種々の特徴量についても行うことによって、評価対象DB２によって生成される種々の合成音声の不自然な部分の検出をすることができる。

以上の処理の結果、新たな話者Zについての音声合成DBを作成するときに、合成音声から抽出されたある特徴量について、合成音声から抽出された、模範となる模範DB３のその対応する特徴量との差が、実際に所定の閾値以上ある場合、距離情報が出力される。その結果、話者による音声の特徴の違いを、いわゆる歪みと誤判定することがなく、ユーザは、その特徴量について修正処理を行うことができる。

逆に、閾値TH３未満の特徴量については、距離情報５Bは出力されない。よって、ユーザは、そのような特徴量については修正処理を行わないので、新たな話者Zの声の特徴は、そのまま音声合成DB（ここでは評価対象DB２）に残る。

本実施の形態においても、個々の特徴量を１以上指定することによって、その指定された１以上の特徴量について、比較を行うようにしてもよいし、すべての特徴量について一度に比較するようにしてもよい。

なお、上述した２つの音声合成生成部３１，３２は、一つの音声合成生成器を用いて実現してもよい。例えば、音声合成データベースを切り替えることによって、一つの音声合成生成器によって、２つの音声合成生成部３１、３２のそれぞれの機能を実現させることができる。特徴量抽出部４１，４２についても、同様に、一つの特徴量抽出器を用いて実現してもよい。

さらになお、閾値は、第１の実施の形態の図５を用いて説明したような閾値を用いてもよい。

（第４の実施の形態）
上述した実施の形態では、２つの音声合成DBを比較して、合成パラメータ等に、所定の閾値以上の距離がある場合に、ユーザにその距離情報を出力するものであるが、本実施の形態は、出力された距離情報に基づいて、評価対象DBの修正を自動的に行う音声合成DBの修正装置に関するものである。

図１０は、第４の実施の形態に係わる音声合成DBの修正装置の機能構成を示すブロック図である。図１０は、第１の実施の形態における構成要素と同じ構成要素については同じ符号を付けて説明は省略する。図１０の修正装置１０は、第１の実施の形態の比較装置１を用いて、評価対象DB２の修正を行う。

修正装置１０は、合成パラメータ生成部１１，１２と、差検出部である距離算出部１３Aと、歪み判定部６１と、修正情報算出部６２と、音声合成DB修正部６３とを含んで構成されている。
図１０の修正装置１０の距離算出部１３Aは、合成パラメータ生成部１１と１２からのそれぞれの合成パラメータの差を算出し、その差すなわち距離情報を、歪み判定部６１に出力する。歪み判定部６１は、その差が所定の閾値TH1以上あるか否かを判定し、その差が所定の閾値TH1以上ある場合には、その差の情報を修正情報算出部６２に出力する。

修正情報算出部６２は、入力された距離情報に基づいて、その距離がその閾値TH1未満になるように、評価対象DB２のデータを修正する量の情報、すなわち修正情報を算出する。算出された修正情報は、音声合成DB修正部６３に出力される。音声合成DB修正部６３は、入力された修正情報に基づいて、評価対象DB２のデータを読み出して、修正された音声合成DB２Aを生成する。なお、ここでは、音声合成DB修正部６３は、修正された音声合成DB２Aを生成しているが、評価対象DB２を修正するようにしてもよい。

修正情報は、例えば、評価対象DB２と模範DB３のそれぞれの合成パラメータとの差の値を用いて、評価対象DB２と模範DB３の差をキャンセルするような、合成パラメータに関する情報である。

例えば、ある時間長について、評価対象DB２のデータ（例えば６０ｍｓ）と模範DB３のデータ（２０ｍｓ）が異なっている場合、差（４０ｍｓ）が０（ゼロ）になるように、評価対象DB２が修正される。そのときの差の情報が、修正情報となる。
なお、修正情報の生成の方法は、差の情報をそのまま使用するのではなく、所定の係数を乗算する等の方法による場合は、その係数値を修正情報として生成するようにしてもよい。

ここで、修正装置１０のデータ処理の流れについて説明する。図１１は、修正装置１０における評価対象DBの修正処理の流れの例を示すフローチャートである。
ステップS1からS3は、上述した第１の実施の形態と同様である。
ステップS3の後、CPU１０１ａは、比較された２つの合成パラメータの差が、所定の閾値TH１以上あるか否かの判定を行い（ステップS41）。その差が所定の閾値TH1以上あった場合には、その差の情報すなわち距離情報５を出力する。このステップS41の処理は、歪み判定部６１によって実行される。

次に、CPU１０１ａは、修正情報を算出する（ステップS42）。このステップS42の処理は、修正情報算出部６２によって実行される。

そして、CPU１０１ａは、算出された修正情報を用いて、評価対象である音声合成DB２の修正を実行する（ステップS43）。このステップS43の処理は、音声合成DB修正部６３によって実行される。

以上のような修正処理を、種々の合成パラメータについても行うことによって、評価対象DB２によって生成される種々の合成音声の不自然な部分の修正をすることができる。

以上の処理の結果、新たな話者Zについての音声合成DBを作成するときに、ある合成パラメータについて、模範となる模範DB３のその対応する合成パラメータとの差が検出され、その差が所定の閾値TH1以上ある場合、その差の情報に基づいて、評価対象DB２を自動的に修正することができる。そして、その修正された音声合成DBは、閾値TH1未満の合成パラメータについては、修正処理を行われず、差のあった合成パラメータだけが修正されるので、新たな話者Zの声の特徴を、そのまま音声合成DB（ここでは評価対象DB２）に残すことができる。

なお、第４の実施の形態においても、閾値は、第１の実施の形態の図５を用いて説明したような閾値を用いてもよい。

（第５の実施の形態）
本実施の形態も、第４の実施の形態と同様に、２つの音声合成DBを比較して、合成パラメータ等に、所定の閾値以上の距離がある場合に、評価対象DBの修正を自動的に行う音声合成DBの修正装置に関するものである。

図１２は、第５の実施の形態に係わる音声合成DBの修正装置の機能構成を示すブロック図である。図１２は、第２の実施の形態における構成要素と同じ構成要素については同じ符号を付けて説明は省略する。図１２の修正装置１０Aは、第２の実施の形態の比較装置１Aを用いて、評価対象DB２の修正を行う。

修正装置１０Aは、音韻及び韻律情報抽出部２１，２２と、距離算出部２３Aと、歪み判定部６１Aと、修正情報算出部６２Aと、音声合成DB修正部６３Aとを含んで構成されている。
図１２の修正装置１０Aの距離算出部２３Aは、音韻及び韻律情報抽出部２１，２２からのそれぞれの音韻及び韻律情報の差を算出し、その差すなわち距離情報を、歪み判定部６１Aに出力する。歪み判定部６１Aは、その差が所定の閾値TH２以上あるか否かを判定し、その差が所定の閾値TH２以上ある場合には、その差の情報を修正情報算出部６２Aに出力する。

修正情報算出部６２Aは、入力された距離情報に基づいて、その距離がその閾値TH２未満になるように、評価対象DB２のデータを修正する量の情報、すなわち修正情報を算出する。算出された修正情報は、音声合成DB修正部６３Aに出力される。音声合成DB修正部６３Aは、入力された修正情報に基づいて、評価対象DB２のデータを読み出して、修正された音声合成DB２Aを生成する。なお、ここでは、音声合成DB修正部６３Aは、修正された音声合成DB２Aを生成しているが、評価対象DB２を修正するようにしてもよい。

修正情報は、例えば、評価対象DB２と模範DB３のそれぞれの音韻及び韻律情報との差の値を用いて、評価対象DB２と模範DB３の差をキャンセルするような、音韻及び韻律情報に関する情報である。
なお、修正情報の生成の方法は、差の情報をそのまま使用するのではなく、所定の係数を乗算する等の方法による場合は、その係数値を修正情報として生成するようにしてもよい。

ここで、修正装置１０Aのデータ処理の流れについて説明する。図１３は、修正装置１０Aにおける評価対象DBの修正処理の流れの例を示すフローチャートである。
ステップS11からS13は、上述した第２の実施の形態と同様である。
ステップS13の後、CPU１０１ａは、比較された２つの音韻情報あるいは韻律情報の差が、所定の閾値TH２以上あるか否かの判定を行い（ステップS51）。その差が所定の閾値TH２以上あった場合には、その差の情報すなわち距離情報５Aを出力する。このステップS51の処理は、歪み判定部６１Aによって実行される。

次に、CPU１０１ａは、修正情報を算出する（ステップS52）。このステップS52の処理は、修正情報算出部６２Aによって実行される。

そして、CPU１０１ａは、算出された修正情報を用いて、評価対象である音声合成DB２の修正を実行する（ステップS53）。このステップS53の処理は、音声合成DB修正部６３Aによって実行される。

以上のような修正処理を、種々の音韻情報及び韻律情報についても行うことによって、評価対象DB２によって生成される種々の合成音声の不自然な部分の修正をすることができる。

以上の処理の結果、新たな話者Zについての音声合成DBを作成するときに、ある音韻情報あるいは韻律情報について、模範となる模範DB３のその対応する音韻情報あるいは韻律情報との差が検出され、その差が所定の閾値TH２以上ある場合、その差の情報に基づいて、評価対象DB２を自動的に修正することができる。そして、その修正された音声合成DBは、閾値TH２未満の音韻情報あるいは韻律情報については、修正処理を行われず、差のあった音韻情報あるいは韻律情報だけが修正されるので、新たな話者Zの声の特徴を、そのまま音声合成DB（ここでは評価対象DB２）に残すことができる。

なお、第５の実施の形態においても、閾値は、第１の実施の形態の図５を用いて説明したような閾値を用いてもよい。

以上の第１から第３の実施の形態によれば、任意の話者の声の特徴も生かしながら、音声合成DBによって生成される合成音声の不自然な部分を検出することができる比較装置を実現することができる。
また、第４から第５の実施の形態によれば、任意の話者に関わる音声合成DBによって生成される合成音声の不自然な部分を検出して、自動的に修正することができる修正装置を実現することができる。

特に、第１から第５の実施の形態によれば、人による試聴評価がなく、客観的な評価による、合成音声の不自然な部分の検出が可能となるので、音声合成DBの修正にかかる時間と労力を大幅に低減することができる。

なお、上述した５つの実施の形態では、模範となるデータベースは、１つだけ選択されているが、ユーザは、模範となる複数のデータベースの全てあるいは複数のデータベースの中の１以上のデータベースを比較対象DBとして選択するようにしてもよい。その場合は、例えば、距離情報は複数得られるので、複数の距離情報の個々について、閾値等と比較したり、複数の距離の平均値等と閾値等とが比較される。

さらになお、上述した各実施の形態では、閾値は、固定であるが、閾値を変化させて、いわゆる評価対象の音声合成DBの歪み検出の精度を変更可能にしてもよい。

本明細書における各「部」は、実施の形態の各機能に対応する概念的なもので、必ずしも特定のハードウエアやソフトウエア・ルーチンに１対１には対応しない。従って、本明細書では、以下、実施の形態の各機能を有する仮想的回路ブロック（部）を想定して実施の形態を説明する。また、本実施の形態における各手順の各ステップは、その性質に反しない限り、実行順序を変更し、複数同時に実行し、あるいは実行毎に異なった順序で実行してもよい。

また、以上説明した動作を実行するプログラムは、フロッピー（登録商標）ディスク、ＣＤ−ＲＯＭ等の可搬媒体や、ハードディスク等の記憶装置等に、その全体あるいは一部が記録され、あるいは記憶されている。そのプログラムがコンピュータにより読み取られて、動作の全部あるいは一部が実行される。あるいは、そのプログラムの全体あるいは一部を通信ネットワークを介して流通または提供することができる。利用者は、通信ネットワークを介してそのプログラムをダウンロードしてコンピュータにインストールしたり、あるいは記録媒体からコンピュータにインストールすることで、容易に本発明のデータ比較装置を実現することができる。

本発明は、上述した実施の形態に限定されるものではなく、本発明の要旨を変えない範囲において、種々の変更、改変等が可能である。

本発明の第１の実施の形態に係わる音声合成データベースのデータ比較装置のハードウエアの構成を示す構成図である。本発明の第１の実施の形態に係わる音声合成データベースの比較装置の機能構成を示すブロック図である。音声合成装置の構成を示すブロック図である。本発明の第１の実施の形態に係わる、比較装置における２つの音声合成DBの比較処理の流れの例を示すフローチャートである。本発明の第１の実施の形態に係わる、ある時間長に関して、評価対象DBが、模範DBと比較して所定の閾値以上異なっている他の例を説明するための図である。本発明の第２の実施の形態に係る比較装置の機能構成を示すブロック図である。本発明の第２の実施の形態に係る比較装置における２つの音声合成DBの比較処理の流れの例を示すフローチャートである。本発明の第３の実施の形態に係る比較装置の機能構成を示すブロック図である。本発明の第３の実施の形態に係る比較装置における２つの音声合成DBの比較処理の流れの例を示すフローチャートである。本発明の第４の実施の形態に係わる音声合成DBの修正装置の機能構成を示すブロック図である。本発明の第４の実施の形態に係わる修正装置における評価対象DBの修正処理の流れの例を示すフローチャートである。本発明の第５の実施の形態に係わる音声合成DBの修正装置の機能構成を示すブロック図である。本発明の第５の実施の形態に係わる修正装置における評価対象DBの修正処理の流れの例を示すフローチャートである。

符号の説明

１、１A、１B データ比較装置、１０、１０A 修正装置、１０１本体装置、１０１ａＣＰＵ、１０２表示部、１０３キーボード、１０４マウス、１０５記憶装置、２０１音声合成装置、２１２スピーカ

Claims

評価対象の音声合成データベースから、所定のテキストに関する第１の合成パラメータを生成する第１の合成パラメータ生成部と、
比較対象の音声合成データベースから、前記所定のテキストに関する第２の合成パラメータを生成する第２の合成パラメータ生成部と、
生成された前記第１の合成パラメータと前記第２の合成パラメータの差を検出する差検出部と、
を有することを特徴とする音声合成データベースのデータ比較装置。
評価対象の音声合成データベースから、音声合成のための第１の合成パラメータを生成するための第１の係数を抽出する第１の係数抽出部と、
比較対象の音声合成データベースから、音声合成のための第２の合成パラメータを生成するための第２の係数を抽出する第２の係数抽出部と、
抽出された前記第１の係数と前記第２の係数との差を検出する差検出部と、
を有することを特徴とする音声合成データベースのデータ比較装置。
評価対象の音声合成データベースに基づいて、所定のテキストを音声合成し、合成音声を生成する第１の合成音声生成部と、
比較対象の音声合成データベースに基づいて、前記所定のテキストを音声合成し、合成音声を生成する第２の合成音声生成部と、
前記第１の合成音声生成部により生成された合成音声から第１の特徴量を抽出する第１の特徴量抽出部と、
前記第２の合成音声生成部により生成された合成音声から第２の特徴量を抽出する第２の特徴量抽出部と、
抽出された前記第１の特徴量と前記第２の特徴量の差を検出する差検出部と、
を有することを特徴とする音声合成データベースのデータ比較装置。
評価対象の音声合成データベースによって、所定のテキストに関する第１の合成パラメータを生成し、
比較対象の音声合成データベースによって、前記所定のテキストに関する第２の合成パラメータを生成し、
生成された前記第１の合成パラメータと前記第２の合成パラメータの差を検出することを特徴とする音声合成データベースのデータ比較方法。
評価対象の音声合成データベースから、音声合成のための第１の合成パラメータを生成するための第１の係数を抽出し、
比較対象の音声合成データベースから、音声合成のための第２の合成パラメータを生成するための第２の係数を抽出し、
抽出された前記第１の係数と前記第２の係数との差を検出することを特徴とする音声合成データベースのデータ比較方法。