JP2010224418A - 音声合成装置、方法およびプログラム - Google Patents

音声合成装置、方法およびプログラム Download PDF

Info

Publication number
JP2010224418A
JP2010224418A JP2009073988A JP2009073988A JP2010224418A JP 2010224418 A JP2010224418 A JP 2010224418A JP 2009073988 A JP2009073988 A JP 2009073988A JP 2009073988 A JP2009073988 A JP 2009073988A JP 2010224418 A JP2010224418 A JP 2010224418A
Authority
JP
Japan
Prior art keywords
speech
generation model
voice
synthesis
speech synthesis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009073988A
Other languages
English (en)
Other versions
JP5268731B2 (ja
Inventor
Nobuyuki Nishizawa
信行 西澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2009073988A priority Critical patent/JP5268731B2/ja
Publication of JP2010224418A publication Critical patent/JP2010224418A/ja
Application granted granted Critical
Publication of JP5268731B2 publication Critical patent/JP5268731B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

【課題】特定音声に特化されていない音声生成モデル予測器を含む音声合成装置において、音声合成記号と比較的小さい修正情報を用いて、原音声の特徴を再現した音声を合成する。
【解決手段】一連の音声合成記号入力に基づき音声生成モデルを生成し、生成された音声生成モデルに基づき音声波形を生成する音声合成装置であって、音声生成モデルの修正情報を入力する手段と、音声生成モデルの修正情報に基づき、音声合成記号入力に基づき生成された音声生成モデルを修正する手段とを備えており、前記修正情報は、合成対象の原音声から推定された所定の音声合成パラメータを生成する音声生成モデルと、一連の音声合成記号入力から生成された音声生成モデルとの間で定義される、所定の誤差尺度が小さくなるように音声生成モデルを修正する情報で構成される。
【選択図】図1

Description

本発明は、音声生成モデルを予測し、予測された音声生成モデルに基づき音声波形を生成する音声合成装置、方法およびプログラムに関する。
音声に特化した高効率な音声符号化方式として、CELP(Code Excited Linear Prediction)方式が知られている。CELP方式は音声波形の物理的な特徴に関する知見に基づいた方法だが、音声の言語的制約を直接的には用いていないため、どのような言語のどのようなスタイルの音声でも高効率に符号化可能な特徴を有する。しかし、符号化された音声のビットレートは最低でも数kbps(bits per second)となる。これに対し、言語的な情報から音声を合成する技術は、一般に音声合成技術に属する。音声合成技術の代表的な利用方法は、テキスト音声変換(Text-To-Speech)だが、ここでは例えば、テキストを解析して得られる、音素の種類や韻律的特徴を表記した記号をその入力とし、音声波形を生成する装置を特に音声合成装置と呼び、その入力を構成する記号を、音声合成用記号と呼ぶ。音声合成用記号には様々な形式がありうるが、ここでは、一連の音声を構成する音韻的情報と、主としてポーズや声の高さとして表現される韻律的情報を同時に表記したものを考える。そのような音声合成記号の例として、JEITA(電子情報技術産業協会)規格IT−4002「日本語テキスト音声合成用記号」(非特許文献1)がある。
音声合成装置における音声波形の生成方法には様々な方式があるが、ここでは、CELP方式と同様に、音源とフィルタを組み合わせた音源・フィルタモデル等に基づき、信号処理で音声波形を合成する方法を対象とする。音源・フィルタモデルでは、音声の響きをつくるフィルタを適当な音源で駆動することで、音声波形を信号処理的に合成するが、ここではCELP方式とは異なり、インパルス列や白色雑音源といった比較的に単純な構成の音源で駆動する場合を主に考える。また以下では、音源のパラメータとフィルタのパラメータをまとめて音声合成パラメータと呼ぶ。音声合成パラメータは、スペクトルの特徴を表現するためのMFCC(Mel-Frequency Cepstral Coefficient)や、声の高さに対応する、波形の基本周波数(F0)などの複数のパラメータで構成される。また、フィルタにはAR(自己回帰)型のフィルタや、MFCCを直接そのパラメータとする、MLSA(メル対数スペクトル近似)フィルタ(非特許文献2)等が用いられる。
例えば子音のような音声を合成するためには、音声合成パラメータを時間的に変化させることが必要なため、この方法では、例えば5ms程度の一定周期で音声合成パラメータを更新し、その特徴を変化させながら音声を合成することが一般的である。この一定周期の1周期分は一般に1フレームと呼ばれる。したがって、この構成で音声を合成するためには、音声合成用記号からフレーム毎の音声合成パラメータの値を決める必要がある。もっとも簡単な方法としては、ある音素を合成するための音声合成パラメータの値のフレーム周期の時系列を、必要な音素のそれぞれについて事前に準備しておき、生成したい音声の音素系列に合わせて、それらの音声合成パラメータ時系列を繋ぎ1発声の音声合成パラメータ時系列とする方法が考えられる。しかし実際には、同じ音素であっても、前後の音素の種類や、話速や声の高さ、直前や直後のポーズからの時間的距離によって、その特徴は異なる。これらを全て区別する音素分類を用いた場合、音素の種類の個数は非常に莫大なものとなり、必要な全ての音声合成パラメータ時系列のセットを作成、蓄積することは困難である。
そこで実際には、音声合成パラメータ時系列の時間変化を適当なモデルに基づきモデル化し、そのモデルパラメータを音声合成用記号からまず予測することで生成し、得られたモデルから音声合成パラメータ時系列を生成することで、任意の音声を合成可能とする方法が用いられる。以下では、このモデルのことを音声生成モデルと呼ぶ。例えば、ある音素の音声合成パラメータの特徴が時間的に3つの状態に分かれ、各状態のフレーム数について、その統計的特徴を現すベクトルを最初の状態から順にd1、d2、d3とし、この3つのベクトルの要素を連結して1つのベクトルdを作り、また、各状態の統計的特徴を現すベクトルを最初の状態から順にv1、v2、v3とすれば、その音素を合成するための音声合成パラメータの特徴は、音声生成モデルのパラメータを構成するd、v1、v2、v3の4つのベクトルで表すことができる。
このように全ての音素がこのように4つのベクトルで表すことができると仮定し、予めそれぞれのベクトルについて、最適なコードブックを作成しておく。あるいは、v1、v2、v3は同じコードブックを用いて表しても良い。音声合成の際は、まず、音声合成用記号から各音素の音声生成モデルのパラメータを構成する最適なコードブックのベクトルをそれぞれ予測し、各音素を合成するため音声生成モデルを構築する。そして、それらの音声生成モデルを時間順に連結して1発声分の音声生成モデルとし、そのモデルに基づき最適な音声合成パラメータ時系列を求める。この音声合成パラメータ時系列に基づき、音源・フィルタを制御することで、音声波形は生成される。
この方法に基づく音声合成装置の構成方法の代表的なものとして、HMM音声合成方式がある。HMM音声合成方式は、音声生成モデルとしてHMM(隠れマルコフモデル)に基づくモデルを仮定した方法であり、音声生成モデルのパラメータを構成する複数のベクトルは、音声認識技術における状態共有HMMで用いられる方法と同様に、それぞれ音声合成記号から決定木に基づき決定される(非特許文献3)。
音声を合成する際には、単位音声毎の音声生成モデルを連結して1発話分の音声生成モデルをまず構成し、その構成された音声生成モデルに対し、そのゆう度が最大となる音声合成パラメータ時系列を求め、これを音声波形生成に用いる。音声合成パラメータ時系列に対する、音声生成モデルのゆう度は、例えば、音声生成モデルにおいて、フレームtにおける音声合成パラメータの種類iの値x(t)の統計的分布が他の種類の音声合成パラメータに対し独立でかつ正規分布に従うという形で音声合成パラメータ時系列がモデル化されていて、その分布の平均値がμ(t)、分散がσ(t)であるとき、音声の長さが全体でTフレーム(0≦t≦T−1)とすると、音声合成パラメータiの時系列x(t)(0≦t≦T−1)に対する音声生成モデルのゆう度は、
と定義できる。
ただし実際には、音声合成パラメータの連続的な変化も合わせてモデル化するために、音声合成パラメータだけでなく、そのデルタパラメータおよびデルタデルタパラメータについても、あわせて音声生成モデルによるモデリング対象とすることが多い。ある音声合成パラメータiのt番目のフレームにおける値x(t)のデルタパラメータΔx(t)およびデルタデルタパラメータΔ(t)は、例えばそれぞれ式2、式3により与えられる。
Δxi(t)={xi(t+1)−xi(t−1)}/2 (2)
Δ2xi(t)=xi(t+1)−2xi(t)+xi(t−1) (3)
音声合成パラメータ時系列の生成では、このデルタおよびデルタデルタパラメータも含めて計算されるゆう度が最大となる音声合成パラメータ時系列を求める。これにより、滑らかな時間遷移を有する音声合成パラメータが生成される。このデルタおよびデルタデルタパラメータを考慮した、音声合成パラメータ時系列の生成方法の詳細は非特許文献4に示されている。
以上、上記のような方法を用いることにより、音声合成記号列の形で表現された数百bps程度のデータから音声波形を生成することができる。
「日本語テキスト音声合成用記号」JEITA規格 IT−4002、2005年3月 今井聖、住田一男、古市千枝子、「音声合成のためのメル対数スペクトル近似(MLSA)フィルタ」、電子情報通信学会論文誌(A), J66-A, 2, pp.122-129, Feb. 1983. 吉村貴克、徳田恵一、益子貴史、小林隆夫、北村正、「HMMに基づく音声合成におけるスペクトル・ピッチ・継続長の同時モデル化」、電子情報通信学会論文誌(D-II), J83-D-II, 11, pp.2099-2107, Nov.2000. 益子貴史、徳田恵一、小林隆夫、今井 聖、「動的特徴を用いたHMMに基づく音声合成」、電子情報通信学会論文誌(D-II), J79-D-II, 12, pp.2184-2190, Dec. 1996.
携帯端末等の、データサイズや通信ビットレートの限られた装置で音声を再生するために、あらかじめある話者による読み上げ音声データを、音声合成記号の形に一度符号化しておき、これを用いて上記構成の音声合成装置により音声合成し、元の音声を再現する場合を考える。原稿がある文章の読み上げ音声を合成する場合、音声合成に必要な音声合成記号は元の原稿から比較的容易に作成できるので、このような構成が可能であり、これにより高効率な符号化が達成される。
音声合成装置が出力する音声の声質や読み上げスタイルは、音声合成装置における、音声生成モデルの予測性能で主に決まるので、その話者の音声を再現するためには、そのための高精度な予測器を事前に構築しておき、これを用いて音声の合成を行えばよい。特に、合成する音声内容が予め決まっている場合、その音声内容に特化した、音声合成用記号からの音声生成モデル予測器を構築すればよい。
しかしながら、実際には特定内容に特化した予測器を構築すると、その予測結果に予測器構築に用いたデータの特徴が強く現れ、予測器構築に用いた音声とは別の内容の音声を高品質に合成できない、という問題が生じる。この状態は一般に過学習と呼ばれる。実用上は、合成する音声を後で修正、あるいは追加したい場合が多く、このため予測器構築に用いる音声に極端に特化した予測器を用いることができない場合が一般的である。また、そのような極端に特化した予測器は、予測器構築に使ったデータの細かい特徴までもが予測器に含まれることになり、予測器自体のサイズが大きくなってしまうという問題がある。
このため実際には、ある程度の誤差を許容した予測器の構築が行われる。これにより、予測器構築に使ったデータとは別の入力に対しても、ある程度の予測性能が得られる。この能力のことは一般に汎化と呼ばれる。しかし、一般に汎化性能を獲得しようとするほど、符号化の元になったその話者の実際の音声との間では、大きな誤差が生じる。特に、話速や声の高さの微妙な変化といった特徴を音声合成用記号だけから正確に再現することは困難で、元の話者の音声の特徴が、充分に再現されない場合があった。
したがって、本発明は、特定音声に特化されていない音声生成モデル予測器を含む音声合成装置において、音声合成記号と比較的小さい修正情報を用いて、原音声の特徴を再現した音声を合成する音声合成装置を提供することを目的とする。
上記目的を実現するため本発明による音声合成装置は、一連の音声合成記号入力に基づき音声生成モデルを生成し、生成された音声生成モデルに基づき音声波形を生成する音声合成装置であって、前記音声生成モデルの修正情報を入力する手段と、前記音声生成モデルの修正情報に基づき、前記音声合成記号入力に基づき生成された音声生成モデルを修正する手段とを備えている。
また、音声生成モデル生成のためのコードブックをさらに備え、前記音声生成モデルの生成は、前記音声合成記号入力に対応するコードブックのベクトルを出力することであり、前記音声生成モデルの修正情報は、前記コードブックのベクトルを表す符号をその構成要素として含むことも好ましい。
また、前記修正情報は、合成対象の原音声から推定された所定の音声合成パラメータを生成する音声生成モデルと、一連の音声合成記号入力から生成された音声生成モデルとの間で定義される、所定の誤差尺度が小さくなるように音声生成モデルを修正する情報で構成されることも好ましい。
また、前記修正情報は、合成対象の原音声から推定された所定の音声合成パラメータと、一連の音声合成記号入力から生成された音声生成モデルに基づき生成された所定の音声合成パラメータとの間で定義される、所定の誤差尺度が小さくなるように音声生成モデルを修正する情報で構成されることも好ましい。
また、前記修正情報は、合成対象の原音声から推定された所定の音声合成パラメータと、一連の音声合成記号入力から生成された音声生成モデルとの間で定義される、音声合成パラメータに対する音声生成モデルのゆう度を表す所定の尺度が大きくなるように音声生成モデルを修正する情報で構成されることことも好ましい。
上記目的を実現するため本発明による音声合成方法は、一連の音声合成記号入力に基づき音声生成モデルを生成し、生成された音声生成モデルに基づき音声波形を生成する音声合成方法であって、前記音声生成モデルの修正情報を入力するステップと、前記音声生成モデルの修正情報に基づき、前記音声合成記号入力に基づき生成された音声生成モデルを修正するステップとを備えている。
上記目的を実現するため本発明によるプログラムは、上記に記載の音声合成装置としてコンピュータを機能させる。
本発明により、音声合成記号だけから音声を合成した場合に生じる原音声との間との誤差を、音声波形生成の基となる音声生成モデルを修正することで、小さくすることができる。特に、誤差の大きい箇所に対応する音声生成モデルを選択的に修正することで、原音声の特性に近い音声を、音声合成記号と小さい修正情報で合成することができる。
また本発明により、音声生成モデルのパラメータ修正情報は、音声生成モデル予測器に組み込まれたコードブックを用いて構成できるので、修正情報はさらに小さくすることができる。
また本発明により、修正情報は、原音声から推定された音声合成パラメータと、音声生成モデルから生成された音声合成パラメータとの間の誤差が小さくなるような音声生成モデルの修正情報を探すことで、決定することができる。
また本発明により、修正情報は、原音声から推定された音声合成パラメータに対する、音声生成モデルのゆう度が大きくなるような音声生成モデルを探すことで、決定することができる。
以上の特徴から、特定音声に特化されていない音声生成モデル予測器を含む音声合成装置でも、音声合成記号と比較的小さい修正情報のみを用いて、原音声の特徴を再現した音声を合成することができる。
本発明の第1の実施形態による音声合成装置のブロック図である。 本発明の第1の実施形態による音声合成装置のための、修正情報を作成するための第1の手順を説明する図である。 本発明の第1の実施形態による音声合成装置のための、修正情報を作成するための第2の手順を説明する図である。 本発明の第2の実施形態による音声合成装置のブロック図である。 本発明の第3の実施形態による音声合成装置のブロック図である。
本発明を実施するための最良の実施形態について、以下では図面を用いて詳細に説明する。なお、以下において、“単位音声”とは、本発明による音声合成装置における、音声の最小処理単位である。単位音声の具体例としては、音素、音節、単語がある。ただしここでは、単位音声は、例えば前後の音素の種類といった音韻環境に関する違い、またアクセントやイントネーション、話速といった韻律的特徴の違いを考慮した分類が行われているものとする。また“音声合成用記号”とは、1発声の音声に含まれる単位音声のそれぞれの種類を記述するための一連の記号である。
図1は、本発明の第1の実施形態による音声合成装置のブロック図である。図1によると、音声合成装置1は、音声生成モデル生成部11と、音声生成モデル修正部12と、音声合成パラメータ生成部13と、音声波形生成部14を備えている。音声生成モデル生成部11には、音声合成記号列から音声生成モデルのパラメータを予測するための、音声生成モデル予測器が組み込まれている。また、音声合成装置1は、音声合成記号と音声生成モデル修正情報(以下、修正情報と記す)をその入力とし、音声波形を出力する。
ここでは、1発声に対応する音声生成モデルのパラメータ全てが、適当な次元数Nのベクトルで表現されるものとする。また修正情報には、0個以上の修正情報要素が含まれる。ここで1つの修正情報要素は、例えば、指令符号とその引数、といった形で表現できる。指令符号により示される指令の例としては、音声生成モデルのあるパラメータjを値aに書き換える、といったものがある。この値の修正を行う指令符号をS1とすると、この修正処理を表す修正情報要素は、S1,j,aの3つの記号で表現できる。なお、jにより指定される音声生成モデルのパラメータの例としては、音声生成モデルの特定の状態におけるMFCCの特定の次数の値の平均値、音声生成モデルの特定の状態におけるフレーム数分布の分散の値などがある。
この構成では、ある1発声がK個の単位音声で構成されるとき、その1発声の音声合成記号入力に対して、まず音声生成モデル生成部11が、K個の単位音声のそれぞれについて、事前に構築された音声生成モデル予測器を用いて、その単位音声のための音声生成モデルのパラメータを予測する。そして、それらを連結してその1発声のための音声生成モデルのパラメータを構成するN次元のベクトルを構成し、音声生成モデル修正部12にそのデータを送信する。以下、このベクトルを音声生成モデルパラメータベクトルと呼ぶ。次に音声生成モデル修正部12で、音声生成モデルパラメータベクトルの、修正情報において指示されている次元の要素は、修正情報で指定された値に書き換えられる。そして、音声合成パラメータ生成部13は、書き換えられた音声生成モデルパラメータベクトルに対して、音声合成パラメータ時系列を生成する。最後に音声波形生成部14において、音声合成パラメータ時系列に基づき、音源およびフィルタが制御され、音声波形が合成される。
第1の実施形態における修正情報を作成する第1の作成手段を以下で説明する。図2は本発明の第1の実施形態による音声合成装置のための、修正情報を作成するための第1の手順を説明する図である。
S11.音響分析により原音声から目標となる音声合成パラメータ時系列をまず作成する。
S12.そして、原音声に対応する音声合成記号列から音声生成モデルを生成した場合と同じ構造のモデルのうちで、音声合成パラメータ時系列に対しゆう度が最大となる音声生成モデルを求める。音声生成モデルがHMMに基づくものである場合は、音声生成モデルはフォワード・バックワードアルゴリズムにより効率的に求めることができる。または、ビタビアルゴリズムにより近似的に求めることができる。
S13.一方、これとは別に、音声合成記号のみを用いて音声生成モデルを作成する。
S14.作成されたパラメータベクトルをS15で作成された指令情報で修正する。なお、最初は指令情報がないため修正は行わない。
S15.作成された2つの音声生成モデルのパラメータベクトルについて、その要素をそれぞれ比較し、所定の誤差尺度が最も大きい要素について、その値を原音声から作成したモデルパラメータベクトルの要素の値で修正する指令情報を作成し、修正情報要素として出力する。
S16.そして所定の条件を満たすまで、修正情報要素を蓄積しながらこのパラメータベクトル修正手順を繰り返す。ただし繰り返し以降の処理では、パラメータベクトルに対して、それまでに蓄積された音声生成モデル修正情報要素を適用し、パラメータベクトルを修正する。最終的に、蓄積された修正情報要素の集合が、当該の1発声を修正するための音声生成モデル修正情報となる。前記の条件の例としては、修正後の全パラメータにおける所定の誤差尺度の最大値が事前に設定したしきい値以下になった、修正情報のサイズがある設定値に達した、等がある。
また誤差尺度としては、パラメータの種類jに対する原音声から作成された音声生成モデルにおけるそのパラメータの値と、音声合成記号から作成される音声生成モデルにおけるそのパラメータの値との差をeとするとき、パラメータ毎の重要度を考慮した重み付け誤差e’=wがある。ただし、wは音声生成モデルのパラメータjの重み係数である。例えば、この係数を比較的品質上影響の大きい音声の基本周波数といったパラメータに対し、特に音声上で大きな誤差を生じさせたくない箇所でのみ大きな値に設定することで、そのパラメータの影響のある部分を優先的に修正することができる。
次に、第1の実施形態における修正情報を作成する第2の作成手段を以下で説明する。図3は本発明の第1の実施形態による音声合成装置のための、修正情報を作成するための第2の手順を説明する図である。
S21.この方法でも第1の手順と同様、音響分析により原音声から目標となる音声合成パラメータ時系列をまず作成する。
S22.またそれとは独立に、原音声に対応する音声合成記号から音声生成モデルを構築する。
S23.作成された音声生成モデルをS25で作成された修正情報で修正する。なお、最初は修正情報がないため修正は行わない。
S24.構築された音声生成モデルに基づき音声合成パラメータ時系列を作成する。
S25.これら2つの音声合成パラメータの誤差を評価し、修正後の音声生成モデルを用いて音声合成パラメータ時系列を作成した時に目標音声合成パラメータ時系列との誤差指標が最小となる、音声生成モデルに対する音声生成モデル修正情報を作成する。このような修正情報要素は山登り法により求めることができる。
S26.そして所定の条件を満たすまで、修正情報要素を蓄積しながらこの音声モデル修正手順を繰り返す。ただし繰り返し以降の処理では、音声合成記号から生成された音声生成モデルに対して、それまでに蓄積された音声生成モデル修正情報要素を適用し、音声生成モデルを修正する。前記の条件の例としては、誤差指標が事前に設定したしきい値以下になるか、修正情報のサイズがある設定値に達した、等がある。最終的に、蓄積された修正情報要素の集合が、当該の1発声を修正するための音声生成モデル修正情報となる。
ここでの誤差指標eは次のように与えられる。
e=f(X,A) (4)
ここで、Aは目標となる音声合成パラメータ時系列を表す行列、Xは音声生成モデルに基づき生成される音声合成パラメータ時系列を表す行列で、それぞれ合成パラメータの種類iのフレームtにおける値a(t)、x(t)を、i行t列の要素とする。
ただし以下では、Xはその合計フレーム数がAの合計フレーム数と等しくなる、という制約条件の下で1発話の音声生成モデルのゆう度が最大となる音声合成パラメータ時系列とする。つまり、XとAの行列の大きさは等しい。この場合の誤差指標関数fは例えば次のように定義される。
ここでw(t)はフレームtにおける音声合成パラメータの種類iに対する重み係数である。この係数を例えば音声の基本周波数といった比較的品質上影響の大きいパラメータの、特に音声上で大きな誤差を生じさせたくない箇所について大きく設定することで、その部分だけを優先的に修正することができる。
次に、第1の実施形態における修正情報を作成する第3の作成手段を以下で説明する。本手段では、図3のS24の音声合成パラメータ作成を行わず、図3のS25で、音声合成パラメータ同士の誤差を評価ではなく、音声合成パラメータ時系列と音声生成モデルと間で定義されるゆう度の評価を行い、ゆう度が最大となるような修正情報を求める。
図4は、本発明の第2の実施形態による音声合成装置のブロック図である。本構成では、音声生成モデル生成のためのコードブック15が備えられており、音声生成モデルパラメータベクトルを構築するために、このコードブック15が用いられるようになっている。音声生成モデル修正部12でも、そのコードブック15を参照できるようになっている。修正情報には、このコードブック15のベクトルを指す符号がその情報の一部として含まれており、符号に対応するコードブック15のベクトルを用いて、音声生成モデルパラメータベクトルの修正が行われる。音声生成モデル修正部12における修正処理では、音声生成モデルパラメータベクトルの要素のうち、修正に用いるコードブック15のベクトルに関係する要素全てが、一度に変更される。
図5は、本発明の第3の実施形態による音声合成装置のブロック図である。本構成では、コードブック15を参照する音声生成モデルパラメータベクトル構成部16が備えられており、音声生成モデル生成部11ではコードブック15を直接参照せず、音声生成モデル生成部11はコードブック15を指すベクトル符号列のみを出力する。そしてその符号の列に対して、先に音声生成モデル修正部12で符号を部分的に置換し、この修正された符号列に対して、音声生成モデルパラメータベクトル構成部16でコードブック15を参照し、音声生成モデルパラメータベクトルを構成する。図5の構成では、修正情報要素は、変更を表す指令符号と、変更するベクトルを表す値、修正後のコードブックのベクトルを指す符号で構成される。
図5の構成は、図4の構成と比較し、音声生成モデルの修正は限られたものとなるが、コードブックを参照しなければならない処理が減ることで、装置全体の規模を抑えることができる。
第2および第3の実施形態における修正情報を作成する手段を以下で説明する。これらの構成における修正情報の作成は、音声生成モデルパラメータの修正値を得た後、最適なコードワードを探索する処理が加わることを除くと、第1の実施形態における修正情報の作成手段1〜3と同様に作成することができる。
あるいは、修正値を一度求めてから最適なコードブックのベクトルを探索するのではなく、あるベクトルを用いた修正を幾つかのベクトルに対して試行し、その結果から最適なベクトルを選ぶという手順を繰り返して、修正に用いるベクトルを決定しても良い。
また第2の実施形態の場合は、コードブックの複数のベクトルを組み合わせて音声生成モデルパラメータの修正を表現しても良い。例えば、音声生成モデルに対する修正をK個のベクトルを用いて表現する時、それらの符号語をc(0≦k≦K−1)、また、符号語cに対応するベクトルをVとするとき、パラメータ修正値を構成するベクトルdは式6で表現することができる。
ただし、uは修正情報のk番目のベクトルに対する重み係数である。またこの場合、1つの修正情報要素は、コードブックのベクトルを使って修正をすることを示す指令符号、修正するベクトルを示す符号、コードブックのベクトルをK個使うことを示す符号、コードブックのベクトルを表すK個の符号、およびK個の重み係数で構成される。
なお、上記修正情報の作成でそれぞれ示した、修正情報の作成方法は例示であって、その作成方法はこれに限定されない。また音声生成モデルパラメータおよび音声合成パラメータの値の修正に関する表現は、修正後の値を直接的に修正情報上で表現する形式に限定されない。例えば、音声生成モデル生成部、あるいは音声合成パラメータ生成部の出力結果に対する差分値の形で表現してもよい。
また、以上述べた実施形態は全て本発明を例示的に示すものであって限定的に示すものではなく、本発明は他の種々の変形態様および変更態様で実施することができる。従って本発明の範囲は特許請求の範囲およびその均等範囲によってのみ規定されるものである。
1 音声合成装置
11 音声生成モデル生成部
12 音声生成モデル修正部
13 音声合成パラメータ生成部
14 音声波形生成部
15 音声生成モデル用コードブック
16 音声生成モデルパラメータベクトル構成部

Claims (7)

  1. 一連の音声合成記号入力に基づき音声生成モデルを生成し、生成された音声生成モデルに基づき音声波形を生成する音声合成装置であって、
    前記音声生成モデルの修正情報を入力する手段と、
    前記音声生成モデルの修正情報に基づき、前記音声合成記号入力に基づき生成された音声生成モデルを修正する手段と、
    を備えていることを特徴とする音声合成装置。
  2. 音声生成モデル生成のためのコードブックをさらに備え、
    前記音声生成モデルの生成は、前記音声合成記号入力に対応するコードブックのベクトルを出力することであり、
    前記音声生成モデルの修正情報は、前記コードブックのベクトルを表す符号をその構成要素として含むことを特徴とする請求項1に記載の音声合成装置。
  3. 前記修正情報は、合成対象の原音声から推定された所定の音声合成パラメータを生成する音声生成モデルと、一連の音声合成記号入力から生成された音声生成モデルとの間で定義される、所定の誤差尺度が小さくなるように音声生成モデルを修正する情報で構成されることを特徴とする請求項1または請求項2に記載の音声合成装置。
  4. 前記修正情報は、合成対象の原音声から推定された所定の音声合成パラメータと、一連の音声合成記号入力から生成された音声生成モデルに基づき生成された所定の音声合成パラメータとの間で定義される、所定の誤差尺度が小さくなるように音声生成モデルを修正する情報で構成されることを特徴とする請求項1または請求項2に記載の音声合成装置。
  5. 前記修正情報は、合成対象の原音声から推定された所定の音声合成パラメータと、一連の音声合成記号入力から生成された音声生成モデルとの間で定義される、音声合成パラメータに対する音声生成モデルのゆう度を表す所定の尺度が大きくなるように音声生成モデルを修正する情報で構成されることを特徴とする請求項1または請求項2に記載の音声合成装置。
  6. 一連の音声合成記号入力に基づき音声生成モデルを生成し、生成された音声生成モデルに基づき音声波形を生成する音声合成方法であって、
    前記音声生成モデルの修正情報を入力するステップと、
    前記音声生成モデルの修正情報に基づき、前記音声合成記号入力に基づき生成された音声生成モデルを修正するステップと、
    を備えていることを特徴とする音声合成方法。
  7. 請求項1から5のいずれか1項に記載の音声合成装置としてコンピュータを機能させることを特徴とするプログラム。
JP2009073988A 2009-03-25 2009-03-25 音声合成装置、方法およびプログラム Active JP5268731B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009073988A JP5268731B2 (ja) 2009-03-25 2009-03-25 音声合成装置、方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009073988A JP5268731B2 (ja) 2009-03-25 2009-03-25 音声合成装置、方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2010224418A true JP2010224418A (ja) 2010-10-07
JP5268731B2 JP5268731B2 (ja) 2013-08-21

Family

ID=43041638

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009073988A Active JP5268731B2 (ja) 2009-03-25 2009-03-25 音声合成装置、方法およびプログラム

Country Status (1)

Country Link
JP (1) JP5268731B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010237323A (ja) * 2009-03-30 2010-10-21 Toshiba Corp 音声モデル生成装置、音声合成装置、音声モデル生成プログラム、音声合成プログラム、音声モデル生成方法および音声合成方法
JP2012242693A (ja) * 2011-05-20 2012-12-10 Kddi Corp 特徴パラメータ生成装置、特徴パラメータ生成方法および特徴パラメータ生成プログラム
CN112530405A (zh) * 2019-09-18 2021-03-19 北京声智科技有限公司 一种端到端语音合成纠错方法、系统及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62254196A (ja) * 1986-04-28 1987-11-05 株式会社日立製作所 音声合成方式
JPS63147200A (ja) * 1986-12-11 1988-06-20 富士通株式会社 音声パラメ−タ修正方式
JPH11202884A (ja) * 1997-05-21 1999-07-30 Nippon Telegr & Teleph Corp <Ntt> 合成音声メッセージ編集作成方法、その装置及びその方法を記録した記録媒体
JP2000356995A (ja) * 1999-04-16 2000-12-26 Matsushita Electric Ind Co Ltd 音声通信システム
JP2002244689A (ja) * 2001-02-22 2002-08-30 Rikogaku Shinkokai 平均声の合成方法及び平均声からの任意話者音声の合成方法
JP2002268660A (ja) * 2001-03-13 2002-09-20 Japan Science & Technology Corp テキスト音声合成方法および装置
JP2003241776A (ja) * 2002-02-18 2003-08-29 Nippon Telegr & Teleph Corp <Ntt> 音声分析方法及びその装置、音声分析プログラム並びにその記録媒体
JP2008146094A (ja) * 2002-08-07 2008-06-26 Speedlingua Sa 音声イントネーション較正方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62254196A (ja) * 1986-04-28 1987-11-05 株式会社日立製作所 音声合成方式
JPS63147200A (ja) * 1986-12-11 1988-06-20 富士通株式会社 音声パラメ−タ修正方式
JPH11202884A (ja) * 1997-05-21 1999-07-30 Nippon Telegr & Teleph Corp <Ntt> 合成音声メッセージ編集作成方法、その装置及びその方法を記録した記録媒体
JP2000356995A (ja) * 1999-04-16 2000-12-26 Matsushita Electric Ind Co Ltd 音声通信システム
JP2002244689A (ja) * 2001-02-22 2002-08-30 Rikogaku Shinkokai 平均声の合成方法及び平均声からの任意話者音声の合成方法
JP2002268660A (ja) * 2001-03-13 2002-09-20 Japan Science & Technology Corp テキスト音声合成方法および装置
JP2003241776A (ja) * 2002-02-18 2003-08-29 Nippon Telegr & Teleph Corp <Ntt> 音声分析方法及びその装置、音声分析プログラム並びにその記録媒体
JP2008146094A (ja) * 2002-08-07 2008-06-26 Speedlingua Sa 音声イントネーション較正方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010237323A (ja) * 2009-03-30 2010-10-21 Toshiba Corp 音声モデル生成装置、音声合成装置、音声モデル生成プログラム、音声合成プログラム、音声モデル生成方法および音声合成方法
JP2012242693A (ja) * 2011-05-20 2012-12-10 Kddi Corp 特徴パラメータ生成装置、特徴パラメータ生成方法および特徴パラメータ生成プログラム
CN112530405A (zh) * 2019-09-18 2021-03-19 北京声智科技有限公司 一种端到端语音合成纠错方法、系统及装置

Also Published As

Publication number Publication date
JP5268731B2 (ja) 2013-08-21

Similar Documents

Publication Publication Date Title
US11295721B2 (en) Generating expressive speech audio from text data
CN108573693B (zh) 文本到语音系统和方法以及其存储介质
US10186252B1 (en) Text to speech synthesis using deep neural network with constant unit length spectrogram
US7567896B2 (en) Corpus-based speech synthesis based on segment recombination
US8571871B1 (en) Methods and systems for adaptation of synthetic speech in an environment
EP2179414B1 (en) Synthesis by generation and concatenation of multi-form segments
JP4738057B2 (ja) ピッチパターン生成方法及びその装置
US11763797B2 (en) Text-to-speech (TTS) processing
US20200410981A1 (en) Text-to-speech (tts) processing
KR100932538B1 (ko) 음성 합성 방법 및 장치
EP1559095A2 (en) Apparatus, methods and programming for speech synthesis via bit manipulations of compressed data base
US20240087558A1 (en) Methods and systems for modifying speech generated by a text-to-speech synthesiser
JP5268731B2 (ja) 音声合成装置、方法およびプログラム
JP5474713B2 (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP5376643B2 (ja) 音声合成装置、方法およびプログラム
JP2017167526A (ja) 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現
JP5874639B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
JP2007163667A (ja) 音声合成装置および音声合成プログラム
JP6618453B2 (ja) 音声合成のためのデータベースの生成装置、生成方法、音声合成装置及びプログラム
JP2020129099A (ja) 推定装置、推定方法、及びプログラム
WO2023182291A1 (ja) 音声合成装置、音声合成方法及びプログラム
JP5345967B2 (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP4630038B2 (ja) 音声波形データベース構築方法、この方法を実施する装置およびプログラム
CN117678013A (zh) 使用合成的训练数据的两级文本到语音系统
JP2005121869A (ja) 音声変換関数抽出装置およびそれを用いた声質変換装置

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20100823

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20100730

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110817

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120726

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120821

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121001

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130416

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130507

R150 Certificate of patent or registration of utility model

Ref document number: 5268731

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150