JP2008256942A - 音声合成データベースのデータ比較装置及び音声合成データベースのデータ比較方法 - Google Patents
音声合成データベースのデータ比較装置及び音声合成データベースのデータ比較方法 Download PDFInfo
- Publication number
- JP2008256942A JP2008256942A JP2007098842A JP2007098842A JP2008256942A JP 2008256942 A JP2008256942 A JP 2008256942A JP 2007098842 A JP2007098842 A JP 2007098842A JP 2007098842 A JP2007098842 A JP 2007098842A JP 2008256942 A JP2008256942 A JP 2008256942A
- Authority
- JP
- Japan
- Prior art keywords
- synthesis
- speech
- speech synthesis
- information
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】話者の声の特徴も生かしながら、合成音声の不自然な部分を検出するための音声合成データベースのデータ比較装置を提供する。
【解決手段】音声合成データベースのデータ比較装置1は、評価対象の音声合成データベースDB2から、所定のテキストに関する第1の合成パラメータを生成する第1の合成パラメータ生成部11と、比較対象の音声合成データベースDB3から、所定のテキストに関する第2の合成パラメータを生成する第2の合成パラメータ生成部12と、生成された第1の合成パラメータと第2の合成パラメータの距離を検出する距離算出部13とを有する。
【選択図】図2
【解決手段】音声合成データベースのデータ比較装置1は、評価対象の音声合成データベースDB2から、所定のテキストに関する第1の合成パラメータを生成する第1の合成パラメータ生成部11と、比較対象の音声合成データベースDB3から、所定のテキストに関する第2の合成パラメータを生成する第2の合成パラメータ生成部12と、生成された第1の合成パラメータと第2の合成パラメータの距離を検出する距離算出部13とを有する。
【選択図】図2
Description
本発明は、音声合成データベースのデータ比較装置及び音声合成データベースのデータ比較方法に関し、特に、合成音声の不自然な部分を検出することができる音声合成データベースのデータ比較装置及び音声合成データベースのデータ比較方法に関する。
従来より、音声合成技術が、カーナビゲーション装置、パソコン等において広く利用されている。音声合成には、音声合成のための音声合成データベースが用いられる。音声合成データベースは、音声合成システムあるいは音声合成装置において、合成音声を生成して出力するときに使用する、いわゆる音の辞書に相当するものであり、合成する音声を音韻情報と韻律情報で表現した形で記憶したデータベースである。音声合成システムは、入力されたテキストについて、音声合成データベースから必要なデータを取り出し、データを結合等して音声波形を生成する。
音声合成データベースの構成、内容等は、音声合成システムによって異なるが、音声合成データベースは、例えば、各音素の時間長を決める際の決定モデルのパラメータ、ピッチパターン、ピッチパターンを変形する際の変形モデルのパラメータ、音素や音節などの音の波形、もしくは、音の波形をパラメータや音源波形に分離したもの等から構成される。
各音声合成データベースは、それぞれが特定の話者の肉声データから学習して生成される。ある音声合成データベースは、アナウンサXの肉声データに基づいて生成され、他の音声合成データベースは、アナウンサYの肉声データに基づいて生成される、というような場合がある。生成された音声合成データベースを用いて音声合成を行うと、読み上げられるテキスト、すなわち入力されるテキストによっては、その生成されて出力された合成音声が不自然になる場合がある。
これは、肉声データを収録する時の問題、音声合成データベースを生成する時の問題等があるからである。肉声データを収録する時の問題は、例えば、リップノイズ等のノイズの混入、テキストの読み誤り、アクセント誤り等の問題である。音声合成データベース生成時の問題は、例えば、ラベリング誤り、ピッチ形状の算出誤り等の問題である。これらの問題があることにより、生成される合成音声が不自然になってしまう要因が音声合成データベースに潜在してしまう。特に、音声合成データベース生成段階で、そのような合成音声が不自然になってしまうという問題を解消することは難しい。
従って、生成された音声合成データベースの合成音声を、人が試聴して合成音声の不自然な部分を洗い出し、音声合成データベースの修正が行うことが必要となる。このような修正は、一般に、人が、マニュアルによって行う。具体的には、音声合成に用いられる演算式の係数データの修正、ピッチパターンの波形形状の修正等が行われる。
しかしながら、人が試聴してその不自然な部分を洗い出す方法では、多くの時間と労力を要する。また、試聴評価は、人、すなわち評価者、の主観に依存するため、人により、不自然な部分の指摘に偏りが生じるため、不自然な部分を適格に検出できない、といった問題がある。
上述したように、音声合成データベースは、個々に別々の話者の肉声データから生成される場合があるため、話者が異なれば、音声合成データベースも異なる。よって、新しい話者Zの肉声を用いる場合は、その話者Zに対応した新たな音声合成データベースの作成をしなければならないが、新たな音声合成データベースの作成の度に、上述したように、人が合成音声を聞いて不自然な部分を洗い出すという、多くの労力と時間の掛かる作業が要求される。
一方、合成音声と目標音声の、それぞれの韻律の特徴を表すパラメータを抽出し、その変化率をもとに、合成音声の韻律を正規化する方法が提案されている(例えば、特許文献1参照)。
しかし、その提案に係る方法は、定型の読み上げテキストについて、合成音声の韻律を目標音声の韻律に揃える目的で行われるものであり、任意の読み上げテキストについて、目標音声の韻律を用意することは不可能である。そのため、その方法は、任意の読み上げテキストについては、適用することはできない。
また、合成音声と目標音声の話者が異なる場合、韻律の正規化によって話者の声の特徴が失われてしまう。従って、新しい話者の声の特徴を有する合成音声が要求される場合、その提案にかかる方法を適用することができない。
特開2005-221785号公報
しかし、その提案に係る方法は、定型の読み上げテキストについて、合成音声の韻律を目標音声の韻律に揃える目的で行われるものであり、任意の読み上げテキストについて、目標音声の韻律を用意することは不可能である。そのため、その方法は、任意の読み上げテキストについては、適用することはできない。
また、合成音声と目標音声の話者が異なる場合、韻律の正規化によって話者の声の特徴が失われてしまう。従って、新しい話者の声の特徴を有する合成音声が要求される場合、その提案にかかる方法を適用することができない。
そこで、本発明は、話者の声の特徴も生かしながら、合成音声の不自然な部分を検出するための音声合成データベースのデータ比較装置を提供することを目的とする。
本発明の一態様によれば、評価対象の音声合成データベースから、所定のテキストに関する第1の合成パラメータを生成する第1の合成パラメータ生成部と、比較対象の音声合成データベースから、前記所定のテキストに関する第2の合成パラメータを生成する第2の合成パラメータ生成部と、生成された前記第1の合成パラメータと前記第2の合成パラメータの差を検出する差検出部と、を有することを特徴とする音声合成データベースのデータ比較装置を提供することができる。
本発明の一態様によれば、評価対象の音声合成データベースから、所定のテキストに関する第1の合成パラメータを生成し、比較対象の音声合成データベースから、前記所定のテキストに関する第2の合成パラメータを生成し、生成された前記第1の合成パラメータと前記第2の合成パラメータの差を検出することを特徴とする音声合成データベースのデータ比較方法を提供することができる。
比較対象の音声合成データと比較して、評価対象の音声合成データベースの合成音声の不自然な部分を検出することができる音声合成データベースのデータ比較装置及び音声合成データベースのデータ比較方法を実現することができる。
以下、図面を参照して本発明の実施の形態を説明する。
(第1の実施の形態)
(構成)
まず図1に基づき、本発明の第1の実施の形態に係わる音声合成データベースのデータ比較装置の構成を説明する。図1は、本発明の第1の実施の形態に係わる音声合成データベースのデータ比較装置のハードウエアの構成を示す構成図である。
(第1の実施の形態)
(構成)
まず図1に基づき、本発明の第1の実施の形態に係わる音声合成データベースのデータ比較装置の構成を説明する。図1は、本発明の第1の実施の形態に係わる音声合成データベースのデータ比較装置のハードウエアの構成を示す構成図である。
本実施の形態の音声合成データベースのデータ比較装置(以下、単に比較装置という)1は、コンピュータ装置であり、中央処理装置(CPU)101a等を含む本体装置101と、表示画面を有する液晶表示装置(LCD)等の表示部102と、キーボード103と、マウス104と、記憶装置105とを含んで構成されている。音声合成データベースの比較を行うユーザが、各種指示をCPU101aに与えるためのキーボード103,マウス104等の入力部を操作することによって、後述する任意のテキストデータを入力データとして指定することができる。同様に、ユーザは、そのようなキーボード等を用いて、比較する2つのデータベースを指定することができる。比較される2つの音声合成データベースは、記憶装置105に記憶されている。従って、ユーザは、図1に示すようなコンピュータ装置を用いて、以下に説明する音声合成データベースの比較を行わせ、その比較結果を得ることができる。
図2は、本実施の形態に係わる音声合成データベースの比較装置の機能構成を示すブロック図である。本実施の形態の音声合成データベースの比較装置1は、音声合成データベース(以下、音声合成DBと略す)の合成パラメータを利用して、評価対象の音声合成DB(以下、評価対象DBという)2と、模範とする、あるいは参照対象とする、音声合成DB(以下、模範DBという)3とを比較する。比較装置1は、所定のテキストデータに関して、評価対象DB2と模範DB3のそれぞれの各合成パラメータの差、すなわち距離を算出して出力する。評価対象DB2の修正を行うユーザは、算出されて出力された距離に基づいて、評価対象DB2によって生成される合成音声の不自然な部分を認識して、評価対象DB2の修正、言い換えればチューニング、をすることができる。ここで算出される距離は、生成される合成音声の不自然さの程度、言い換えると、模範DB3と比較した場合の評価対象DB2の歪み度、を示す。
模範DB3は、過去に作成されたDBであり、特定の話者Xの肉声データを用いて生成されたDBであり、各種チューニングが既にされている、模範となるデータベースである。言い換えれば、模範DB3は、既に評価され、改良が十分にされているデータベースであり、生成される合成音声は、自然なものと感じられるものとなる。従って、任意のテキストが入力されても、模範DB3は、話者Xの声で自然な合成音声を出力することができる。そのような模範となるデータベースが複数有る場合は、ユーザは、その複数のデータベースの全てあるいは複数のデータベースの中から1つ以上の所望のデータベースを選択することができる。ここでは、模範となる複数のデータベースの中から、ユーザによって模範DB3が比較対象として選択されている場合で説明する。評価対象DB2は、新たな話者Zの肉声データを用いて生成されたデータベースであり、模範DB3とデータ比較がされるデータベースである。
データ比較装置1は、2つの合成パラメータ生成部11、12と、差検出部としての距離算出部13を含んで構成されている。合成パラメータ生成部11,12には、テキスト情報4のデータが、入力される。合成パラメータ生成部11は、評価対象DB2を参照して、入力されたテキスト情報4に関する評価対象DB2の合成パラメータの情報を生成して、距離算出部13に出力する。同様に、合成パラメータ生成部12は、模範DB3を参照して、入力されたテキスト情報4に関する模範DB3の合成パラメータの情報を生成して、距離算出部13に出力する。合成パラメータ生成部11と12は、同じ項目の合成パラメータを出力する。
合成パラメータ生成部11と12は、それぞれ音声合成装置の韻律生成器である。図3は、音声合成装置の構成を示すブロック図である。音声合成装置201は、韻律生成器202と、合成器203とを含む。音声合成装置201の韻律生成器202には、音声合成するテキスト情報211が入力され、韻律生成器202は、図示しない音声合成DBを参照して、入力されたテキスト情報に関する、ピッチパターン、時間長等の各音声合成パラメータを読み出すことによって、合成パラメータを生成する。生成された合成パラメータは、合成器203に入力して、音声合成を行うに必要なパラメータである。合成器203が、音声合成された信号をスピーカ等の出力装置212に出力することにより、音声合成された音声が出力される。従って、図2の合成パラメータ生成部11と12は、それぞれ、このような韻律生成器によって構成されている。
図2の合成パラメータ生成部11と12がそれぞれ出力する合成パラメータには、種々のパラメータがある。合成パラメータは、例えば、ピッチの最高値及び最低値、ピッチパターンの形状、ピッチパターンのピーク位置、音素毎の平均ピッチ、音素及びポーズの時間長、破裂音の無音区間の時間長、音韻を構成する無声音素と有声音素との時間長比率、音韻を構成する音素の時間長比率、音素毎の平均振幅及び最大振幅、フレーム毎の周波数スペクトル特徴、等である。
ピッチの最高値と最低値は、アクセント句におけるピッチパターンの情報から、声の高さの最高値と最低値の情報である。
ピッチパターンの形状は、そのアクセント句のパターン形状である。
ピーク位置は、そのピッチパターンにおける最高値の時間軸上の位置の情報である。
ピッチパターンの形状は、そのアクセント句のパターン形状である。
ピーク位置は、そのピッチパターンにおける最高値の時間軸上の位置の情報である。
音素毎の平均ピッチは、各音素の平均周波数である。
音素の時間長は、各音素の時間の長さであり、ポーズの時間長は、無音区間の時間の長さである。
破裂音の無音区間の時間長は、例えば破裂音「パ」の音韻であれば、その音韻を構成する音素に対応する無音区間の時間の長さである。
音素の時間長は、各音素の時間の長さであり、ポーズの時間長は、無音区間の時間の長さである。
破裂音の無音区間の時間長は、例えば破裂音「パ」の音韻であれば、その音韻を構成する音素に対応する無音区間の時間の長さである。
音韻を構成する無声音素と有声音素の時間長比率は、例えば破裂音「パ」の音韻であれば、その音韻を構成する各音素における無音区間と有声区間の時間比率である。
音韻を構成する音素の時間長比率は、例えば破裂音「パ」の音韻であれば、その音韻を構成する各音素「p」と「a」のそれぞれの時間の長さの比率である。
音素毎の平均振幅と最大振幅は、それぞれ音の大きさを表す振幅の平均値と最大値である。
フレーム毎の周波数スペクトル特徴は、各音素を構成する複数のフレームのそれぞれの周波数スペクトルの情報である。
以上は、合成パラメータの例であり、他にも種々の合成パラメータがあるので、他のパラメータも利用される。
音韻を構成する音素の時間長比率は、例えば破裂音「パ」の音韻であれば、その音韻を構成する各音素「p」と「a」のそれぞれの時間の長さの比率である。
音素毎の平均振幅と最大振幅は、それぞれ音の大きさを表す振幅の平均値と最大値である。
フレーム毎の周波数スペクトル特徴は、各音素を構成する複数のフレームのそれぞれの周波数スペクトルの情報である。
以上は、合成パラメータの例であり、他にも種々の合成パラメータがあるので、他のパラメータも利用される。
合成パラメータ生成部11と12は、入力されたテキスト4に関して、ユーザが指定した1以上の合成パラメータを生成して出力する。なお、合成パラメータ生成部11と12は、ユーザの指定がなくても、入力されたテキスト4に関して、予め設定された1以上の合成パラメータ、あるいは合成パラメータの全てを一度に生成して出力するようにしてもよい。
距離算出部13は、合成パラメータ生成部11と12から出力された1以上の合成パラメータについて、各合成パラメータの差、すなわち距離を算出し、距離情報として出力する。なお、本実施の形態では、距離算出部13は、算出された差が所定の閾値以上である場合に、その閾値以上となった合成パラメータに関する距離情報5を出力する。従って、距離算出部13は、距離を算出して2つの合成パラメータの差を検出する差検出部と、算出された距離(差)が所定の閾値以上あるか否かを判定し、距離がその閾値以上のときに、その距離情報を出力するという判定部とを、含む。
ここで、比較装置1のデータ処理の流れについて説明する。図4は、比較装置1における2つの音声合成DBの比較処理の流れの例を示すフローチャートである。
まず、ユーザは、マウス104等を用いて、所定のテキストと、比較する2つの音声合成DB(すなわち、評価対象DB2と模範DB3)とを指定し、所定の操作をすると、図4の処理が実行される。例えば、ある合成パラメータについて比較する場合は、ユーザはその合成パラメータを指定する。その合成パラメータについて、CPU101aが図4の処理を実行する。
まず、ユーザは、マウス104等を用いて、所定のテキストと、比較する2つの音声合成DB(すなわち、評価対象DB2と模範DB3)とを指定し、所定の操作をすると、図4の処理が実行される。例えば、ある合成パラメータについて比較する場合は、ユーザはその合成パラメータを指定する。その合成パラメータについて、CPU101aが図4の処理を実行する。
CPU101aは、まず、所定のテキスト4に関して、評価対象DB2から、その合成パラメータのデータを読み出して生成する(ステップS1)。このステップS1の処理は、合成パラメータ生成部11によって実行される。
そして、CPU101aは、所定のテキスト4に関して、模範DB3から、その合成パラメータのデータを読み出して生成する(ステップS2)。このステップS2の処理は、合成パラメータ生成部12によって実行される。
次に、CPU101aは、それぞれ生成された2つの合成パラメータを比較する(ステップS3)。ここでは2つの合成パラメータの差、すなわち距離が算出される。このステップS3の処理は、距離算出部13によって実行される。
最後に、CPU101aは、所定の閾値TH1以上の差のあった場合には、その合成パラメータの距離情報5を出力する(ステップS4)。このステップS4の処理も、距離算出部13によって実行される。距離情報5の出力は、例えば、表示部102等の表示画面上に表示することによって行われる。
以上の処理の結果、新たな話者Zについての音声合成DBを作成するときに、ある合成パラメータについて、模範となる模範DB3のその対応する合成パラメータとの差が検出され、その差の情報が出力される。
特に、本実施の形態では、その差が所定の閾値TH1以上ある場合、その差の情報が出力されるので、ユーザは、その合成パラメータについて必要な修正処理を行うことができる。逆に、閾値TH1未満の合成パラメータについては、距離情報5は出力されない。よって、ユーザは、そのような合成パラメータについては修正処理を行わないので、新たな話者Zの声の特徴は、そのまま音声合成DB(ここでは評価対象DB2)に残る。
特に、本実施の形態では、その差が所定の閾値TH1以上ある場合、その差の情報が出力されるので、ユーザは、その合成パラメータについて必要な修正処理を行うことができる。逆に、閾値TH1未満の合成パラメータについては、距離情報5は出力されない。よって、ユーザは、そのような合成パラメータについては修正処理を行わないので、新たな話者Zの声の特徴は、そのまま音声合成DB(ここでは評価対象DB2)に残る。
以上のような比較処理を、種々の合成パラメータについても行うことによって、評価対象DB2によって生成される種々の合成音声の不自然な部分の検出をすることができる。
より具体的に説明する。距離情報5の出力には、種々の形式があるが、例えば、コンピュータの画面上に、次に示すような情報を表示することによって、ユーザに提示する方法がある。
例えば、破裂音における無音区間の時間長を、比較対象の合成パラメータとしてユーザが指定した場合に、
1)特徴量:無音区間の時間長
2)対象:/p/(ノートパソコンに)
3)差分:40ms
4)距離:2.5σ
5)閾値:30ms以上
等の情報が画面上に表示される。
例えば、破裂音における無音区間の時間長を、比較対象の合成パラメータとしてユーザが指定した場合に、
1)特徴量:無音区間の時間長
2)対象:/p/(ノートパソコンに)
3)差分:40ms
4)距離:2.5σ
5)閾値:30ms以上
等の情報が画面上に表示される。
これは、破裂音の無音区間の時間長について、評価対象DB2と模範DB3とを比較すると、音素/p/について、所定の閾値以上の差を有している場合があったことを示している。このような表示から、ユーザは、無音区間の時間長という合成パラメータについて、音素/p/は、アクセント句「ノートパソコンに」において、模範DB3の対応する合成パラメータの平均値からの差分(40ms)が時間長の閾値(30ms)以上の差があって、模範DB3の対応する合成パラメータの平均値からの2.5σ(σは標準偏差)の距離を有していることを知ることができる。
破裂音の無音区間の時間長については、他の音韻においても、閾値以上の場合が存在する場合もあるし、閾値未満の場合も存在する。
破裂音の無音区間の時間長については、他の音韻においても、閾値以上の場合が存在する場合もあるし、閾値未満の場合も存在する。
従って、ユーザは、所定の閾値以上の場合には、その合成パラメータに関して、評価対象DB2のデータを修正することによって、合成音声に不自然な部分が生じることを排除することができる。修正の方法は、従来と同様に、パラメータの数値を変更したり、ピッチパターンの形状を修正したり、ピッチパターンの伸張係数を変更したり、等の方法によって、行われる。
一方で、所定の閾値未満の場合には、距離情報は出力されないので、模範DB3と比較して、合成音声の不自然でない部分は、修正されることはないので、話者Zの声の特徴は残される。
以上のような処理を、種々の合成パラメータについて行うことによって、評価対象DB2について、模範DB3と比較して合成音声の不自然な部分の距離情報だけが抽出される。ユーザは、その距離情報に基づいて、評価対象DB2のデータを修正することによって、話者Zの声の特徴は残しながら、合成音声の不自然な部分を修正することができる。
以上のような処理を、種々の合成パラメータについて行うことによって、評価対象DB2について、模範DB3と比較して合成音声の不自然な部分の距離情報だけが抽出される。ユーザは、その距離情報に基づいて、評価対象DB2のデータを修正することによって、話者Zの声の特徴は残しながら、合成音声の不自然な部分を修正することができる。
次に、閾値の他の例について説明する。
上述した合成パラメータの比較は、合成パラメータ値の差分をとることによって行われているが、模範DB3の1以上の合成パラメータの各分布あるいは各対象範囲の中心値と評価対象DB2の合成パラメータの分布あるいは対象範囲との差分等を用いて、行うようにしてもよい。また、そのような差分だけでなく、算出された距離の範囲情報でもよい。例えば、分布の平均値からのユークリッド距離、空間上での分布を考慮したマハラノビス距離等を、差分値として用いることができる。
上述した合成パラメータの比較は、合成パラメータ値の差分をとることによって行われているが、模範DB3の1以上の合成パラメータの各分布あるいは各対象範囲の中心値と評価対象DB2の合成パラメータの分布あるいは対象範囲との差分等を用いて、行うようにしてもよい。また、そのような差分だけでなく、算出された距離の範囲情報でもよい。例えば、分布の平均値からのユークリッド距離、空間上での分布を考慮したマハラノビス距離等を、差分値として用いることができる。
図5は、閾値の他の例を説明するための図である。より具体的には、図5は、合成パラメータの一つである、ある時間長に関して、評価対象DB2が、模範DB3と比較して所定の閾値以上異なっている他の例を説明するための図である。
図5は、合成パラメータの1つである、ある時間長についての発生回数を示す頻度グラフである。横軸は、時間長であり、縦軸は、頻度である。時間長は、アクセント句、音素の並び等の種々の条件によって変化する。所定のテキストに、その時間長が検出できるような言葉を含ませ、そのテキストを2つのDB(評価対象DB2と模範DB3)を用いて音声パラメータを生成すると、その時間長について複数のデータを得ることができる。時間長が、種々のアクセント句、種々の音素の並び等に対応して種々変化するように、所定のテキストは言葉を含んでいるので、時間長について、種々の時間長を有する複数のデータを得ることができる。得られた複数のデータについて、時間長毎に度数をカウントすることによって、図5のグラフ、すなわち頻度分布のグラフを生成することができる。
図5では、時間長の変化は、横軸上の位置の変化として表れ、変化した時間長毎に発生した度数が、縦軸に対応する。図5は、時間長について、模範DB3における頻度分布3G(実線で示す)と、評価対象DB2における頻度分布2G(点線で示す)とは、互いに異なる分布形状であることを示している。
例えば、時間長として、無音区間の時間長tpを例に挙げれば、無音区間の時間長tpは、前後の音素によって、変化する。元々、肉声データの元となるテキストには、時間長tpに関わる音素が複数回出現して、その音素の無音区間の時間長tpについて、度数データが得られるような音韻の組合せが含まれている。よって、入力されたテキストから、無音区間の時間長tpの頻度データを得ることができる。
ここでは、無音区間の時間長tpを例として説明しているが、読み上げられるテキストを工夫することによって、種々の音素等についての種々の合成パラメータについて、種々の分布データを得ることができる。
模範DB3に基づいて生成された時間長tpの頻度分布3Gは、模範DB3を生成するときのある話者Xの肉声データそのもの、あるいは補正されたものによって決定される。
評価対象DB2に基づいて生成された時間長tpの頻度分布2Gは、評価対象DB2を生成するときのある話者Zの肉声データそのもの、あるいは補正されたものによって決定される。
従って、同じテキストが入力されても、2名の話者XとYの間で、無音区間の時間長tpは異なるので、頻度分布3Gと2Gが全く同一になることはほとんどない。
今、例えば、模範DB3の時間長tpの分布3Gの標準偏差σの2倍以上の時間長を有する場合が、評価対象DB2の時間長tpの分布2Gの全度数の30%以上存在する場合には、評価対象DB2に基づいて生成された時間長tpの中で許容できないような、合成音声の不自然さが存在するものとする、という閾値を設定することができる。図5において、位置L1は、模範DB3の中心Oから標準偏差σだけ離れた時間長の位置を示し、位置L2は、模範DB3の中心Oから標準偏差σの2倍だけ離れた時間長の位置を示す。
この場合の閾値は、評価対象DB2が模範DB3と比較して、時間長tpに関して合成音声が不自然となる、頻度の割合である。すなわち、その閾値は、模範DB3に対する予め決められた時間長tpの値(2σ)を超える時間長が発生した度数の割合(30%)である。この30%という閾値は、所定のテキストに関して生成された、評価対象DB2による複数の合成パラメータの頻度分布と、同じテキストに関して生成された、模範DB3による複数の合成パラメータの頻度分布との差に基づいて設定された値である。
図5において、位置P1の時間長は、模範DB3の2σ以上(例えば、2.5σ)だけ離れた長さの時間長である。同様に、図5において、位置P2の時間長は、模範DB3の1以下の距離(例えば、0.6σ)だけ離れた長さの時間長である。評価対象DB2の位置L2以上の領域(RR)の度数(斜線部分)の割合が、全体の度数に対して、30%以上あるか否かが、閾値となる。
なお、閾値は、模範DB3の時間長tpの分布3Gにおける時間長tpの値、例えば、模範DB3の2σに対応する時間長のデータ値、でもよい。
なお、閾値は、模範DB3の時間長tpの分布3Gにおける時間長tpの値、例えば、模範DB3の2σに対応する時間長のデータ値、でもよい。
以上のように、距離算出部13は、合成パラメータ生成部11と12から出力された合成パラメータの距離等を算出し、算出された距離等が、合成パラメータ毎に予め設定された所定の閾値以上であるときには、その合成パラメータに関する距離情報を出力するようにした。その結果、データ比較装置1によれば、評価対象DB2を、模範となる模範DB3と比較した場合に、指定された合成パラメータが所定の閾値以上であるときには、その距離情報を出力する。その結果、話者による音声の特徴の違いを、いわゆる歪みと誤判定することがなく、ユーザは、評価対象DB2を修正することができ、かつ、その評価対象DB2の話者Zの声の特徴を残しながらその修正をすることができる。
よって、第1の実施の形態の比較装置によれば、話者の声の特徴も生かしながら、合成音声の不自然な部分を検出することができる。
なお、上述した2つの合成パラメータ生成部11,12は、一つの合成パラメータ生成器を用いて実現してもよい。例えば、音声合成データベースを切り替えることによって、一つの合成パラメータ生成器によって、2つの合成パラメータ生成部11,12のそれぞれの機能を実現させることができる。
(第2の実施の形態)
次に、第2の実施の形態について説明する。第1の実施の形態の比較装置は、所定のテキストデータを入力して、その入力されたテキストに関して2つの音声合成DBのデータ比較を行っていたが、第2の実施の形態の比較装置は、そのようなテキストデータを用いないで、2つの音声合成DBのデータ比較を行うものである。
次に、第2の実施の形態について説明する。第1の実施の形態の比較装置は、所定のテキストデータを入力して、その入力されたテキストに関して2つの音声合成DBのデータ比較を行っていたが、第2の実施の形態の比較装置は、そのようなテキストデータを用いないで、2つの音声合成DBのデータ比較を行うものである。
図6は、第2の実施の形態に係る比較装置の機能構成を示すブロック図である。比較装置1Aは、図1と同様のコンピュータ装置である。
図6に示す本実施の形態に係わる音声合成データベースの比較装置1Aは、テキストデータの入力なしに、2つの音声合成DBのデータ比較を行う。その比較するデータは、素片情報、時間長情報、ピッチ情報等に関わる音韻情報と韻律情報である。
音声合成DBは、音声合成のための種々のデータを有しているが、全ての音素について全ての合成パラメータを有してもよいが、データ量が多いとメモリ装置105の記憶容量に全て記憶できない場合がある。従って、合成パラメータは、基本となるデータに対して、所定の演算を行って補正して生成する場合がある。このような場合には、音素等毎に、その生成演算に用いられる演算式の係数だけが、音声合成DBに記憶される。
従って、本実施の形態では、そのような係数等を比較することによって、2つの音声合成DBの比較が行われる。比較されるデータは、音韻情報あるいは韻律情報である、ピッチ形状、各種係数等のデータである。
音韻情報において比較されるデータは、音声波形または音声波形のスペクトルの性質をモデル化して表現し、そのモデルのパラメータのみが音声合成DBに蓄積されている場合、合成パラメータを生成するためのパラメータのことを指す。比較されるデータは、例えば、線形予測係数である。
韻律情報において比較されるデータは、時間長、ピッチパターン等の変形係数であり、合成パラメータを生成するためのパラメータである。変形係数は、例えば伸張係数等である。時間長算出係数は、様々な音韻環境下での各音素の時間長を算出するためのパラメータである。ピッチパターン算出係数は、ピッチパターン(すなわちピッチ曲線)をモデル化して表現し、そのモデルパラメータのみを音声合成DBに蓄積している場合、そのパラメータのことを指す。ピッチパターン加工係数は、ピッチパターンを音韻環境にあわせて加工するときの加工係数を音声合成DBに蓄積している場合、その係数のことを示す。なお、ピッチパターン加工係数が、音声合成DBに蓄積されず、音韻及び韻律情報抽出部に記憶される場合は、その音韻及び韻律情報抽出部のデータとなる。振幅パターン算出係数は、振幅の強弱パターンをモデル化して表現し、そのモデルのパラメータのみを音声合成DBに蓄積している場合、そのパラメータのことを指す。
データ比較装置1Aは、音韻及び韻律情報抽出部21、22と、差検出部としての距離算出部23を含んで構成されている。音韻及び韻律情報抽出部21は、評価対象DB2を参照して、評価対象DB2の音韻及び韻律情報を抽出して、距離算出部23に出力する係数抽出部である。同様に、音韻及び韻律情報抽出部22は、模範DB3を参照して、模範DB3の音韻及び韻律情報を抽出して、距離算出部23に出力する係数抽出部である。音韻及び韻律情報抽出部21、22は、同じ項目の音韻及び韻律情報を出力する。
音韻及び韻律情報抽出部21、22は、ユーザが指定した1以上の音韻及び韻律情報を生成して出力する。なお、音韻及び韻律情報抽出部21、22は、ユーザの指定がなくても、予め設定された1以上の音韻及び韻律情報、あるいは音韻及び韻律情報の全てを一度に生成して出力するようにしてもよい。
距離算出部23は、音韻及び韻律情報抽出部21、22から出力された1以上の音韻及び韻律情報について、各音韻情報の差及び各韻律情報の差、すなわち距離を算出し、距離情報として出力する。なお、本実施の形態では、距離算出部23は、算出された差が所定の閾値以上である場合に、その閾値以上となった音韻及び韻律情報に関する距離情報5Aを出力する。従って、距離算出部13は、距離を算出して2つの音韻及び韻律情報の差を検出する差検出部と、算出された距離(差)が所定の閾値以上あるか否かを判定し、距離がその閾値以上のときに、その距離情報を出力するという判定部とを、有する。
比較装置1Aは、評価対象DB2と模範DB3のそれぞれの各音韻情報の差及び各韻律情報の差、すなわち距離を算出して出力する。評価対象DB2の修正を行うユーザは、算出されて出力された距離に基づいて、評価対象DB2によって生成される合成音声の不自然な部分を認識して、評価対象DB2の修正、言い換えればチューニング、をすることができる。ここで算出される距離は、生成される合成音声の不自然さの程度、言い換えると、模範DB3と比較した場合の評価対象DB2の歪み度、を示す。
ここで、比較装置1Aのデータ処理の流れについて説明する。図7は、比較装置1Aにおける2つの音声合成DBの比較処理の流れの例を示すフローチャートである。
まず、ユーザは、マウス104等を用いて、比較する2つの音声合成DB(すなわち、評価対象DB2と模範DB3)とを指定し、所定の操作をすると、図7の処理が実行される。例えば、ある音韻情報あるいは韻律情報について比較する場合は、ユーザはその音韻情報あるいは韻律情報を指定する。その音韻情報あるいは韻律情報について、CPU101aが図7の処理を実行する。
まず、ユーザは、マウス104等を用いて、比較する2つの音声合成DB(すなわち、評価対象DB2と模範DB3)とを指定し、所定の操作をすると、図7の処理が実行される。例えば、ある音韻情報あるいは韻律情報について比較する場合は、ユーザはその音韻情報あるいは韻律情報を指定する。その音韻情報あるいは韻律情報について、CPU101aが図7の処理を実行する。
CPU101aは、まず、評価対象DB2から、その音韻情報あるいは韻律情報のデータを読み出して生成する(ステップS11)。このステップS11の処理は、音韻・韻律情報抽出部21によって実行される。
そして、CPU101aは、模範DB3から、その音韻情報あるいは韻律情報のデータを読み出して生成する(ステップS12)。このステップS12の処理は、音韻・韻律情報抽出部22によって実行される。
次に、CPU101aは、それぞれ生成された2つの音韻情報あるいは韻律情報を比較する(ステップS13)。ここでは2つの音韻情報あるいは韻律情報の差、すなわち距離が算出される。このステップS13の処理は、距離算出部23によって実行される。
最後に、CPU101aは、所定の閾値TH2以上の差のあった場合には、その音韻情報あるいは韻律情報の距離情報5Aを出力する(ステップS14)。このステップS14の処理も、距離算出部23によって実行される。距離情報5Aの出力は、例えば、表示部102等の表示画面上に表示することによって行われる。
以上のような比較処理を、種々の音韻情報及び韻律情報についても行うことによって、評価対象DB2によって生成される種々の合成音声の不自然な部分の検出をすることができる。
以上の処理の結果、第1の実施の形態と同様に、新たな話者Zについての音声合成DBを作成するときに、ある音韻情報あるいは韻律情報について、模範となる模範DB3のその対応する音韻情報あるいは韻律情報との差が、所定の閾値TH2以上ある場合、距離情報が出力される。その結果、話者による音声の特徴の違いを、いわゆる歪みと誤判定することがなく、ユーザは、その音韻情報あるいは韻律情報について修正処理を行うことができる。そして、閾値TH2未満の音韻情報あるいは韻律情報については、距離情報5Aは出力されない。よって、ユーザは、そのような音韻情報あるいは韻律情報については修正処理を行わないので、新たな話者Zの声の特徴は、そのまま音声合成DB(ここでは評価対象DB2)に残る。
本実施の形態においても、個々の音韻情報あるいは韻律情報を1以上指定することによって、その指定された1以上の音韻情報あるいは韻律情報について、比較を行うようにしてもよいし、すべての音韻情報あるいは韻律情報について一度に比較するようにしてもよい。
なお、上述した2つの音韻及び韻律情報抽出部21、22は、一つの音韻及び韻律情報抽出器を用いて実現してもよい。例えば、音声合成データベースを切り替えることによって、一つの音韻及び韻律情報抽出器によって、2つの音韻及び韻律情報抽出部21、22のそれぞれの機能を実現させることができる。
さらになお、閾値は、第1の実施の形態の図5を用いて説明したような閾値を用いてもよい。
さらになお、閾値は、第1の実施の形態の図5を用いて説明したような閾値を用いてもよい。
(第3の実施の形態)
次に、第3の実施の形態について説明する。第1の実施の形態の比較装置は、テキストデータを入力して、その入力されたテキストに関して2つの音声合成DBのデータ比較を行っていたが、データ比較は合成パラメータについて行っていた。これに対して、第3の実施の形態の比較装置は、テキストに基づいて音声合成を行い、音声合成された合成音声から特徴量を抽出する。そして、その比較装置は、その特徴量を用いて、2つの音声合成DBのデータ比較を行うものである。
次に、第3の実施の形態について説明する。第1の実施の形態の比較装置は、テキストデータを入力して、その入力されたテキストに関して2つの音声合成DBのデータ比較を行っていたが、データ比較は合成パラメータについて行っていた。これに対して、第3の実施の形態の比較装置は、テキストに基づいて音声合成を行い、音声合成された合成音声から特徴量を抽出する。そして、その比較装置は、その特徴量を用いて、2つの音声合成DBのデータ比較を行うものである。
図8は、第3の実施の形態に係る比較装置の機能構成を示すブロック図である。比較装置1Bは、図1と同様のコンピュータ装置である。
図8に示す本実施の形態に係わる音声合成データベースの比較装置1Bは、テキストデータが入力され、2つの音声合成DB(すなわち、評価対象DB2と模範DB3)を用いてそれぞれ音声合成を行う。そして、評価対象DB2と模範DB3のそれぞれに基づいて合成された2つの合成音声から、それぞれの特徴量を抽出し、その抽出された特徴量のデータ比較を行う。その比較するデータは、音声合成された2つの合成音声のそれぞれの特徴量のデータである。
データ比較装置1Bは、合成音声生成部31,32と、特徴量抽出部41,42と、差検出部としての距離算出部33を含んで構成されている。合成音声生成部31は、所定のテキストデータに基づいて、評価対象DB2を用いて、音声合成を行う。合成音声生成部32は、同じテキストデータに基づいて、模範DB3を用いて、音声合成を行う。特徴量抽出部41は、合成音声生成部31により生成された合成音声から特徴量を抽出する。特徴量抽出部42は、合成音声生成部32により生成された合成音声から特徴量を抽出する。抽出された2つの特徴量は、距離算出部33に出力される。特徴量抽出部41,42は、同じ項目の特徴量の情報を出力する。
特徴量抽出部41,42は、ユーザが指定した1以上の特徴量情報を生成して出力する。
図8の特徴量抽出部41,42がそれぞれ出力する特徴量には、種々の特徴量がある。特徴量は、例えば、ピッチの最高値及び最低値、ピッチパターンの形状、ピッチパターンのピーク位置、音素毎の平均ピッチ、音素及びポーズの時間長、破裂音の無音区間の時間長、音韻を構成する無声音素と有声音素の時間長比率、音韻を構成する音素の時間長比率、音素毎の平均振幅及び最大振幅、フレーム毎の周波数スペクトル特徴、等である。
なお、特徴量抽出部41,42は、ユーザの指定がなくても、予め設定された1以上の特徴量情報、あるいは特徴量情報の全てを一度に生成して出力するようにしてもよい。
距離算出部33は、特徴量抽出部41,42から出力された1以上の特徴量情報について、各特徴量の差、すなわち距離を算出し、距離情報5Bとして出力する。なお、本実施の形態では、距離算出部33は、算出された差が所定の閾値以上である場合に、その閾値以上となった特徴量情報に関する距離情報5Bを出力する。従って、距離算出部33は、距離を算出して2つの特徴量情報の差を検出する差検出部と、算出された距離(差)が所定の閾値以上あるか否かを判定し、距離がその閾値以上のときに、その距離情報を出力するという判定部とを、有する。
比較装置1Bは、評価対象DB2と模範DB3のそれぞれに基づいて合成されたそれぞれの合成音声の特徴量の差、すなわち距離を算出して出力する。評価対象DB2の修正を行うユーザは、算出されて出力された距離に基づいて、評価対象DB2によって生成される合成音声の不自然な部分を認識して、評価対象DB2の修正、言い換えればチューニング、をすることができる。ここで算出される距離は、生成された合成音声の不自然さの程度、言い換えると、模範DB3と比較した場合の評価対象DB2の歪み度、を示す。
次に、比較装置1Bのデータ処理の流れについて説明する。図9は、比較装置1Bにおける2つの音声合成DBの比較処理の流れの例を示すフローチャートである。
まず、ユーザは、マウス104等を用いて、所定のテキストと、比較する2つの音声合成DB(すなわち、評価対象DB2と模範DB3)とを指定し、所定の操作をすると、図9の処理が実行される。例えば、ある特徴量について比較する場合は、ユーザはその特徴量を指定する。その特徴量について、CPU101aが図9の処理を実行する。
まず、ユーザは、マウス104等を用いて、所定のテキストと、比較する2つの音声合成DB(すなわち、評価対象DB2と模範DB3)とを指定し、所定の操作をすると、図9の処理が実行される。例えば、ある特徴量について比較する場合は、ユーザはその特徴量を指定する。その特徴量について、CPU101aが図9の処理を実行する。
CPU101aは、まず、所定のテキスト4に関して、評価対象DB2を用いて音声合成処理を実行する(ステップS21)。このステップS21は、合成音声生成部31によって実行される。
そして、CPU101aは、同じテキスト4に関して、模範DB3を用いて音声合成処理を実行する(ステップS22)。このステップS22は、合成音声生成部32によって実行される。
次に、CPU101aは、音声合成生成部31によって音声合成して得られた合成音声を解析して、その特徴量を抽出する(ステップS23)。このステップS23の処理は、特徴量抽出部41によって実行される。
そして、CPU101aは、音声合成生成部32によって音声合成して得られた合成音声を解析して、その特徴量を抽出する(ステップS24)。このステップS24の処理は、特徴量抽出部42によって実行される。
次に、CPU101aは、それぞれ生成された2つの特徴量を比較する(ステップS25)。ここでは2つの特徴量の差、すなわち距離が算出される。このステップS25の処理は、距離算出部33によって実行される。
最後に、CPU101aは、所定の閾値TH3以上の差のあった場合には、その特徴量の距離情報5Bを出力する(ステップS26)。このステップS26の処理も、距離算出部33によって実行される。距離情報5Bの出力は、例えば、表示部102等の表示画面上に表示することによって行われる。
以上のような比較処理を、種々の特徴量についても行うことによって、評価対象DB2によって生成される種々の合成音声の不自然な部分の検出をすることができる。
以上の処理の結果、新たな話者Zについての音声合成DBを作成するときに、合成音声から抽出されたある特徴量について、合成音声から抽出された、模範となる模範DB3のその対応する特徴量との差が、実際に所定の閾値以上ある場合、距離情報が出力される。その結果、話者による音声の特徴の違いを、いわゆる歪みと誤判定することがなく、ユーザは、その特徴量について修正処理を行うことができる。
逆に、閾値TH3未満の特徴量については、距離情報5Bは出力されない。よって、ユーザは、そのような特徴量については修正処理を行わないので、新たな話者Zの声の特徴は、そのまま音声合成DB(ここでは評価対象DB2)に残る。
本実施の形態においても、個々の特徴量を1以上指定することによって、その指定された1以上の特徴量について、比較を行うようにしてもよいし、すべての特徴量について一度に比較するようにしてもよい。
なお、上述した2つの音声合成生成部31,32は、一つの音声合成生成器を用いて実現してもよい。例えば、音声合成データベースを切り替えることによって、一つの音声合成生成器によって、2つの音声合成生成部31、32のそれぞれの機能を実現させることができる。特徴量抽出部41,42についても、同様に、一つの特徴量抽出器を用いて実現してもよい。
さらになお、閾値は、第1の実施の形態の図5を用いて説明したような閾値を用いてもよい。
(第4の実施の形態)
上述した実施の形態では、2つの音声合成DBを比較して、合成パラメータ等に、所定の閾値以上の距離がある場合に、ユーザにその距離情報を出力するものであるが、本実施の形態は、出力された距離情報に基づいて、評価対象DBの修正を自動的に行う音声合成DBの修正装置に関するものである。
上述した実施の形態では、2つの音声合成DBを比較して、合成パラメータ等に、所定の閾値以上の距離がある場合に、ユーザにその距離情報を出力するものであるが、本実施の形態は、出力された距離情報に基づいて、評価対象DBの修正を自動的に行う音声合成DBの修正装置に関するものである。
図10は、第4の実施の形態に係わる音声合成DBの修正装置の機能構成を示すブロック図である。図10は、第1の実施の形態における構成要素と同じ構成要素については同じ符号を付けて説明は省略する。図10の修正装置10は、第1の実施の形態の比較装置1を用いて、評価対象DB2の修正を行う。
修正装置10は、合成パラメータ生成部11,12と、差検出部である距離算出部13Aと、歪み判定部61と、修正情報算出部62と、音声合成DB修正部63とを含んで構成されている。
図10の修正装置10の距離算出部13Aは、合成パラメータ生成部11と12からのそれぞれの合成パラメータの差を算出し、その差すなわち距離情報を、歪み判定部61に出力する。歪み判定部61は、その差が所定の閾値TH1以上あるか否かを判定し、その差が所定の閾値TH1以上ある場合には、その差の情報を修正情報算出部62に出力する。
図10の修正装置10の距離算出部13Aは、合成パラメータ生成部11と12からのそれぞれの合成パラメータの差を算出し、その差すなわち距離情報を、歪み判定部61に出力する。歪み判定部61は、その差が所定の閾値TH1以上あるか否かを判定し、その差が所定の閾値TH1以上ある場合には、その差の情報を修正情報算出部62に出力する。
修正情報算出部62は、入力された距離情報に基づいて、その距離がその閾値TH1未満になるように、評価対象DB2のデータを修正する量の情報、すなわち修正情報を算出する。算出された修正情報は、音声合成DB修正部63に出力される。音声合成DB修正部63は、入力された修正情報に基づいて、評価対象DB2のデータを読み出して、修正された音声合成DB2Aを生成する。なお、ここでは、音声合成DB修正部63は、修正された音声合成DB2Aを生成しているが、評価対象DB2を修正するようにしてもよい。
修正情報は、例えば、評価対象DB2と模範DB3のそれぞれの合成パラメータとの差の値を用いて、評価対象DB2と模範DB3の差をキャンセルするような、合成パラメータに関する情報である。
例えば、ある時間長について、評価対象DB2のデータ(例えば60ms)と模範DB3のデータ(20ms)が異なっている場合、差(40ms)が0(ゼロ)になるように、評価対象DB2が修正される。そのときの差の情報が、修正情報となる。
なお、修正情報の生成の方法は、差の情報をそのまま使用するのではなく、所定の係数を乗算する等の方法による場合は、その係数値を修正情報として生成するようにしてもよい。
なお、修正情報の生成の方法は、差の情報をそのまま使用するのではなく、所定の係数を乗算する等の方法による場合は、その係数値を修正情報として生成するようにしてもよい。
ここで、修正装置10のデータ処理の流れについて説明する。図11は、修正装置10における評価対象DBの修正処理の流れの例を示すフローチャートである。
ステップS1からS3は、上述した第1の実施の形態と同様である。
ステップS3の後、CPU101aは、比較された2つの合成パラメータの差が、所定の閾値TH1以上あるか否かの判定を行い(ステップS41)。その差が所定の閾値TH1以上あった場合には、その差の情報すなわち距離情報5を出力する。このステップS41の処理は、歪み判定部61によって実行される。
ステップS1からS3は、上述した第1の実施の形態と同様である。
ステップS3の後、CPU101aは、比較された2つの合成パラメータの差が、所定の閾値TH1以上あるか否かの判定を行い(ステップS41)。その差が所定の閾値TH1以上あった場合には、その差の情報すなわち距離情報5を出力する。このステップS41の処理は、歪み判定部61によって実行される。
次に、CPU101aは、修正情報を算出する(ステップS42)。このステップS42の処理は、修正情報算出部62によって実行される。
そして、CPU101aは、算出された修正情報を用いて、評価対象である音声合成DB2の修正を実行する(ステップS43)。このステップS43の処理は、音声合成DB修正部63によって実行される。
以上のような修正処理を、種々の合成パラメータについても行うことによって、評価対象DB2によって生成される種々の合成音声の不自然な部分の修正をすることができる。
以上の処理の結果、新たな話者Zについての音声合成DBを作成するときに、ある合成パラメータについて、模範となる模範DB3のその対応する合成パラメータとの差が検出され、その差が所定の閾値TH1以上ある場合、その差の情報に基づいて、評価対象DB2を自動的に修正することができる。そして、その修正された音声合成DBは、閾値TH1未満の合成パラメータについては、修正処理を行われず、差のあった合成パラメータだけが修正されるので、新たな話者Zの声の特徴を、そのまま音声合成DB(ここでは評価対象DB2)に残すことができる。
なお、第4の実施の形態においても、閾値は、第1の実施の形態の図5を用いて説明したような閾値を用いてもよい。
(第5の実施の形態)
本実施の形態も、第4の実施の形態と同様に、2つの音声合成DBを比較して、合成パラメータ等に、所定の閾値以上の距離がある場合に、評価対象DBの修正を自動的に行う音声合成DBの修正装置に関するものである。
本実施の形態も、第4の実施の形態と同様に、2つの音声合成DBを比較して、合成パラメータ等に、所定の閾値以上の距離がある場合に、評価対象DBの修正を自動的に行う音声合成DBの修正装置に関するものである。
図12は、第5の実施の形態に係わる音声合成DBの修正装置の機能構成を示すブロック図である。図12は、第2の実施の形態における構成要素と同じ構成要素については同じ符号を付けて説明は省略する。図12の修正装置10Aは、第2の実施の形態の比較装置1Aを用いて、評価対象DB2の修正を行う。
修正装置10Aは、音韻及び韻律情報抽出部21,22と、距離算出部23Aと、歪み判定部61Aと、修正情報算出部62Aと、音声合成DB修正部63Aとを含んで構成されている。
図12の修正装置10Aの距離算出部23Aは、音韻及び韻律情報抽出部21,22からのそれぞれの音韻及び韻律情報の差を算出し、その差すなわち距離情報を、歪み判定部61Aに出力する。歪み判定部61Aは、その差が所定の閾値TH2以上あるか否かを判定し、その差が所定の閾値TH2以上ある場合には、その差の情報を修正情報算出部62Aに出力する。
図12の修正装置10Aの距離算出部23Aは、音韻及び韻律情報抽出部21,22からのそれぞれの音韻及び韻律情報の差を算出し、その差すなわち距離情報を、歪み判定部61Aに出力する。歪み判定部61Aは、その差が所定の閾値TH2以上あるか否かを判定し、その差が所定の閾値TH2以上ある場合には、その差の情報を修正情報算出部62Aに出力する。
修正情報算出部62Aは、入力された距離情報に基づいて、その距離がその閾値TH2未満になるように、評価対象DB2のデータを修正する量の情報、すなわち修正情報を算出する。算出された修正情報は、音声合成DB修正部63Aに出力される。音声合成DB修正部63Aは、入力された修正情報に基づいて、評価対象DB2のデータを読み出して、修正された音声合成DB2Aを生成する。なお、ここでは、音声合成DB修正部63Aは、修正された音声合成DB2Aを生成しているが、評価対象DB2を修正するようにしてもよい。
修正情報は、例えば、評価対象DB2と模範DB3のそれぞれの音韻及び韻律情報との差の値を用いて、評価対象DB2と模範DB3の差をキャンセルするような、音韻及び韻律情報に関する情報である。
なお、修正情報の生成の方法は、差の情報をそのまま使用するのではなく、所定の係数を乗算する等の方法による場合は、その係数値を修正情報として生成するようにしてもよい。
なお、修正情報の生成の方法は、差の情報をそのまま使用するのではなく、所定の係数を乗算する等の方法による場合は、その係数値を修正情報として生成するようにしてもよい。
ここで、修正装置10Aのデータ処理の流れについて説明する。図13は、修正装置10Aにおける評価対象DBの修正処理の流れの例を示すフローチャートである。
ステップS11からS13は、上述した第2の実施の形態と同様である。
ステップS13の後、CPU101aは、比較された2つの音韻情報あるいは韻律情報の差が、所定の閾値TH2以上あるか否かの判定を行い(ステップS51)。その差が所定の閾値TH2以上あった場合には、その差の情報すなわち距離情報5Aを出力する。このステップS51の処理は、歪み判定部61Aによって実行される。
ステップS11からS13は、上述した第2の実施の形態と同様である。
ステップS13の後、CPU101aは、比較された2つの音韻情報あるいは韻律情報の差が、所定の閾値TH2以上あるか否かの判定を行い(ステップS51)。その差が所定の閾値TH2以上あった場合には、その差の情報すなわち距離情報5Aを出力する。このステップS51の処理は、歪み判定部61Aによって実行される。
次に、CPU101aは、修正情報を算出する(ステップS52)。このステップS52の処理は、修正情報算出部62Aによって実行される。
そして、CPU101aは、算出された修正情報を用いて、評価対象である音声合成DB2の修正を実行する(ステップS53)。このステップS53の処理は、音声合成DB修正部63Aによって実行される。
以上のような修正処理を、種々の音韻情報及び韻律情報についても行うことによって、評価対象DB2によって生成される種々の合成音声の不自然な部分の修正をすることができる。
以上の処理の結果、新たな話者Zについての音声合成DBを作成するときに、ある音韻情報あるいは韻律情報について、模範となる模範DB3のその対応する音韻情報あるいは韻律情報との差が検出され、その差が所定の閾値TH2以上ある場合、その差の情報に基づいて、評価対象DB2を自動的に修正することができる。そして、その修正された音声合成DBは、閾値TH2未満の音韻情報あるいは韻律情報については、修正処理を行われず、差のあった音韻情報あるいは韻律情報だけが修正されるので、新たな話者Zの声の特徴を、そのまま音声合成DB(ここでは評価対象DB2)に残すことができる。
なお、第5の実施の形態においても、閾値は、第1の実施の形態の図5を用いて説明したような閾値を用いてもよい。
以上の第1から第3の実施の形態によれば、任意の話者の声の特徴も生かしながら、音声合成DBによって生成される合成音声の不自然な部分を検出することができる比較装置を実現することができる。
また、第4から第5の実施の形態によれば、任意の話者に関わる音声合成DBによって生成される合成音声の不自然な部分を検出して、自動的に修正することができる修正装置を実現することができる。
また、第4から第5の実施の形態によれば、任意の話者に関わる音声合成DBによって生成される合成音声の不自然な部分を検出して、自動的に修正することができる修正装置を実現することができる。
特に、第1から第5の実施の形態によれば、人による試聴評価がなく、客観的な評価による、合成音声の不自然な部分の検出が可能となるので、音声合成DBの修正にかかる時間と労力を大幅に低減することができる。
なお、上述した5つの実施の形態では、模範となるデータベースは、1つだけ選択されているが、ユーザは、模範となる複数のデータベースの全てあるいは複数のデータベースの中の1以上のデータベースを比較対象DBとして選択するようにしてもよい。その場合は、例えば、距離情報は複数得られるので、複数の距離情報の個々について、閾値等と比較したり、複数の距離の平均値等と閾値等とが比較される。
さらになお、上述した各実施の形態では、閾値は、固定であるが、閾値を変化させて、いわゆる評価対象の音声合成DBの歪み検出の精度を変更可能にしてもよい。
本明細書における各「部」は、実施の形態の各機能に対応する概念的なもので、必ずしも特定のハードウエアやソフトウエア・ルーチンに1対1には対応しない。従って、本明細書では、以下、実施の形態の各機能を有する仮想的回路ブロック(部)を想定して実施の形態を説明する。また、本実施の形態における各手順の各ステップは、その性質に反しない限り、実行順序を変更し、複数同時に実行し、あるいは実行毎に異なった順序で実行してもよい。
また、以上説明した動作を実行するプログラムは、フロッピー(登録商標)ディスク、CD−ROM等の可搬媒体や、ハードディスク等の記憶装置等に、その全体あるいは一部が記録され、あるいは記憶されている。そのプログラムがコンピュータにより読み取られて、動作の全部あるいは一部が実行される。あるいは、そのプログラムの全体あるいは一部を通信ネットワークを介して流通または提供することができる。利用者は、通信ネットワークを介してそのプログラムをダウンロードしてコンピュータにインストールしたり、あるいは記録媒体からコンピュータにインストールすることで、容易に本発明のデータ比較装置を実現することができる。
本発明は、上述した実施の形態に限定されるものではなく、本発明の要旨を変えない範囲において、種々の変更、改変等が可能である。
1、1A、1B データ比較装置、10、10A 修正装置、101 本体装置、101a CPU、102 表示部、103 キーボード、104 マウス、105 記憶装置、201 音声合成装置、212 スピーカ
Claims (5)
- 評価対象の音声合成データベースから、所定のテキストに関する第1の合成パラメータを生成する第1の合成パラメータ生成部と、
比較対象の音声合成データベースから、前記所定のテキストに関する第2の合成パラメータを生成する第2の合成パラメータ生成部と、
生成された前記第1の合成パラメータと前記第2の合成パラメータの差を検出する差検出部と、
を有することを特徴とする音声合成データベースのデータ比較装置。 - 評価対象の音声合成データベースから、音声合成のための第1の合成パラメータを生成するための第1の係数を抽出する第1の係数抽出部と、
比較対象の音声合成データベースから、音声合成のための第2の合成パラメータを生成するための第2の係数を抽出する第2の係数抽出部と、
抽出された前記第1の係数と前記第2の係数との差を検出する差検出部と、
を有することを特徴とする音声合成データベースのデータ比較装置。 - 評価対象の音声合成データベースに基づいて、所定のテキストを音声合成し、合成音声を生成する第1の合成音声生成部と、
比較対象の音声合成データベースに基づいて、前記所定のテキストを音声合成し、合成音声を生成する第2の合成音声生成部と、
前記第1の合成音声生成部により生成された合成音声から第1の特徴量を抽出する第1の特徴量抽出部と、
前記第2の合成音声生成部により生成された合成音声から第2の特徴量を抽出する第2の特徴量抽出部と、
抽出された前記第1の特徴量と前記第2の特徴量の差を検出する差検出部と、
を有することを特徴とする音声合成データベースのデータ比較装置。 - 評価対象の音声合成データベースによって、所定のテキストに関する第1の合成パラメータを生成し、
比較対象の音声合成データベースによって、前記所定のテキストに関する第2の合成パラメータを生成し、
生成された前記第1の合成パラメータと前記第2の合成パラメータの差を検出することを特徴とする音声合成データベースのデータ比較方法。 - 評価対象の音声合成データベースから、音声合成のための第1の合成パラメータを生成するための第1の係数を抽出し、
比較対象の音声合成データベースから、音声合成のための第2の合成パラメータを生成するための第2の係数を抽出し、
抽出された前記第1の係数と前記第2の係数との差を検出することを特徴とする音声合成データベースのデータ比較方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007098842A JP2008256942A (ja) | 2007-04-04 | 2007-04-04 | 音声合成データベースのデータ比較装置及び音声合成データベースのデータ比較方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007098842A JP2008256942A (ja) | 2007-04-04 | 2007-04-04 | 音声合成データベースのデータ比較装置及び音声合成データベースのデータ比較方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008256942A true JP2008256942A (ja) | 2008-10-23 |
Family
ID=39980576
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007098842A Pending JP2008256942A (ja) | 2007-04-04 | 2007-04-04 | 音声合成データベースのデータ比較装置及び音声合成データベースのデータ比較方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008256942A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013073275A (ja) * | 2011-09-26 | 2013-04-22 | Toshiba Corp | 文書マークアップ支援装置、方法、及びプログラム |
WO2016043322A1 (ja) * | 2014-09-19 | 2016-03-24 | 株式会社コティレドン・テクノロジー | 音声合成方法、プログラム及び装置 |
JP2016080944A (ja) * | 2014-10-20 | 2016-05-16 | ヤマハ株式会社 | 音声合成装置およびプログラム |
CN111199724A (zh) * | 2019-12-31 | 2020-05-26 | 出门问问信息科技有限公司 | 一种信息处理方法、设备及计算机可读存储介质 |
WO2022102105A1 (ja) * | 2020-11-13 | 2022-05-19 | 日本電信電話株式会社 | 変換装置、変換方法及び変換プログラム |
-
2007
- 2007-04-04 JP JP2007098842A patent/JP2008256942A/ja active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013073275A (ja) * | 2011-09-26 | 2013-04-22 | Toshiba Corp | 文書マークアップ支援装置、方法、及びプログラム |
WO2016043322A1 (ja) * | 2014-09-19 | 2016-03-24 | 株式会社コティレドン・テクノロジー | 音声合成方法、プログラム及び装置 |
JP2016080944A (ja) * | 2014-10-20 | 2016-05-16 | ヤマハ株式会社 | 音声合成装置およびプログラム |
CN111199724A (zh) * | 2019-12-31 | 2020-05-26 | 出门问问信息科技有限公司 | 一种信息处理方法、设备及计算机可读存储介质 |
WO2022102105A1 (ja) * | 2020-11-13 | 2022-05-19 | 日本電信電話株式会社 | 変換装置、変換方法及び変換プログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4455610B2 (ja) | 韻律パタン生成装置、音声合成装置、プログラムおよび韻律パタン生成方法 | |
JP4054507B2 (ja) | 音声情報処理方法および装置および記憶媒体 | |
US9275631B2 (en) | Speech synthesis system, speech synthesis program product, and speech synthesis method | |
JP4080989B2 (ja) | 音声合成方法、音声合成装置および音声合成プログラム | |
US8423367B2 (en) | Apparatus and method for creating singing synthesizing database, and pitch curve generation apparatus and method | |
US9905219B2 (en) | Speech synthesis apparatus, method, and computer-readable medium that generates synthesized speech having prosodic feature | |
JP4878538B2 (ja) | 音声合成装置 | |
JP5269668B2 (ja) | 音声合成装置、プログラム、及び方法 | |
JP2006309162A (ja) | ピッチパターン生成方法、ピッチパターン生成装置及びプログラム | |
JP2008256942A (ja) | 音声合成データベースのデータ比較装置及び音声合成データベースのデータ比較方法 | |
JP2001282278A (ja) | 音声情報処理装置及びその方法と記憶媒体 | |
US10157608B2 (en) | Device for predicting voice conversion model, method of predicting voice conversion model, and computer program product | |
JP6631883B2 (ja) | クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成用モデル学習方法、プログラム | |
JP5807921B2 (ja) | 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
Deka et al. | Development of assamese text-to-speech system using deep neural network | |
JP4829605B2 (ja) | 音声合成装置および音声合成プログラム | |
JP2007004011A (ja) | 音声合成装置、音声合成方法、音声合成プログラムおよびその記録媒体 | |
JP2012042974A (ja) | 音声合成装置 | |
JP2009122381A (ja) | 音声合成装置、音声合成方法およびそのプログラム | |
WO2012032748A1 (ja) | 音声合成装置、音声合成方法及び音声合成プログラム | |
JP2007328288A (ja) | 韻律識別装置及び方法、並びに音声認識装置及び方法 | |
JP2004117662A (ja) | 音声合成システム | |
JP2005265895A (ja) | 素片接続型音声合成装置及び方法 | |
JP6137708B2 (ja) | 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
JPWO2013008385A1 (ja) | 音声合成装置、音声合成方法および音声合成プログラム |