JP5726822B2

JP5726822B2 - 音声合成装置、方法及びプログラム

Info

Publication number: JP5726822B2
Application number: JP2012180446A
Authority: JP
Inventors: 橘　健太郎; 健太郎橘; 籠嶋　岳彦; 岳彦籠嶋; 眞弘森田
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2012-08-16
Filing date: 2012-08-16
Publication date: 2015-06-03
Anticipated expiration: 2032-08-16
Also published as: JP2014038208A; CN103594082A

Description

本発明の実施形態は、音声合成装置、方法及びプログラムに関する。

任意の文章から人工的に音声信号を作り出すことをテキスト音声合成という。通常、テキスト音声合成は、テキスト解析、合成パラメータ生成及び音声合成の３つの段階によって行われる。

典型的なテキスト音声合成システムでは、まず、テキスト解析部が、入力されたテキストに形態素解析及び構文解析などを行って、言語情報を出力する。言語情報は、テキストの読みに対応する音声記号列、韻律制御の単位となるアクセント句の情報、アクセントの位置、品詞などを含む。次に、合成パラメータ生成部が、上記言語情報に基づき韻律制御辞書を参照して韻律制御を行って、合成パラメータを生成する。合成パラメータは、基本周波数パターン（Ｆ０パターン）・音韻継続時間・パワーなどの韻律パラメータと、音素記号列などの音韻パラメータとから構成される。そして、音声合成部が、上記合成パラメータに従って合成音声を生成する。

このようなテキスト音声合成では、人間が文章を読み上げるときのような調子（いわゆる朗読調）の音声を合成することが普通であったが、近年、多様な韻律的特徴を実現するための手法が多く提案されている。例えば、複数の韻律パラメータ間で内挿処理を行って新たな韻律パラメータを生成し、これを用いて合成音を生成することによって、多様な韻律的特徴をもった合成音を提供する手法が提案されている。

しかし、この手法では、韻律パラメータ間の関係によっては（例えば、韻律パラメータの特徴量の間に大きな相違があった場合に）、内挿の結果に不具合が生じることがある。例えば、韻律パラメータとしてＦ０パターンを例にとると、男性である対象話者の韻律パラメータと女性話者の韻律パラメータの間で内挿を行った場合に、Ｆ０パターンは一般的に女性の方が高いので、内挿により生成された韻律パターンのＦ０平均値は、該対象話者（男性話者）のＦ０パターン平均値よりも高くなってしまう。その結果、生成された韻律パラメータからは対象話者らしさが失われる。

特開２００１−２４２８８２号公報

多様な韻律的特徴をもつ合成音を生成することができる音声合成技術であって且つ対象話者らしさを保つこともできるものは知られていなかった。

本実施形態は、多様な韻律的特徴をもつ合成音を生成することができ且つ対象話者らしさを保つこともできる音声合成装置、方法及びプログラムを提供することを目的とする。

実施形態によれば、テキスト解析部、辞書記憶部、韻律パラメータ生成部、正規化部、韻律パラメータ内挿部、音声合成部を備える。テキスト解析部は、入力されたテキストを解析して、言語情報を出力する。辞書記憶部は、対象話者の韻律制御辞書及び１又は複数の基準話者の韻律制御辞書を記憶する。韻律パラメータ生成部は、前記言語情報に基づいて、前記対象話者の韻律制御辞書を参照して第１の韻律パラメータを生成するとともに、前記１又は複数の基準話者の韻律制御辞書をそれぞれ用いて１又は複数の第２の韻律パラメータを生成する。正規化部は、正規化パラメータに基づいて、前記１又は複数の第２の韻律パラメータをそれぞれ正規化処理する。韻律パラメータ内挿部は、重み情報に基づいて、前記第１の韻律パラメータ及び正規化処理された前記１又は複数の第２の韻律パラメータを内挿処理して、第３の韻律パラメータを生成する。音声合成部は、前記第３の韻律パラメータに従って、合成音声を生成する。

また、実施形態によれば、テキスト解析部、辞書記憶部、韻律パラメータ生成部、韻律パラメータ内挿部、正規化部、音声合成部を備える。テキスト解析部は、入力されたテキストを解析して、言語情報を出力する。辞書記憶部は、対象話者の韻律制御辞書及び１又は複数の基準話者の韻律制御辞書を記憶する。韻律パラメータ生成部は、前記言語情報に基づいて、前記対象話者の韻律制御辞書を参照して第１の韻律パラメータを生成するとともに、前記１又は複数の基準話者の韻律制御辞書をそれぞれ用いて１又は複数の第２の韻律パラメータを生成する。韻律パラメータ内挿部は、重み情報に基づいて、前記第１の韻律パラメータ及び前記１又は複数の第２の韻律パラメータを内挿処理して、第３の韻律パラメータを生成する。正規化部は、正規化パラメータに基づいて、前記第３の韻律パラメータを正規化処理する。音声合成部は、正規化処理された前記第３の韻律パラメータに従って、合成音声を生成する。

第１の実施形態の音声合成装置の基本的なブロック図。第１の実施形態の第１の構成例のブロック図。第１の実施形態の音声合成装置の動作例を示すフローチャート。平均値に基づく正規化手法を説明するための図。ダイナミックレンジに基づく正規化手法を説明するための図。重み調整の一例を示す図。内挿について説明するための図。外挿について説明するための図。内挿処理について説明するための図。外挿処理について説明するための図。第１の実施形態の第２の構成例のブロック図。第２の実施形態の音声合成装置の基本的なブロック図。第２の実施形態の第１の構成例のブロック図。第２の実施形態の音声合成装置の動作例を示すフローチャート。第２の実施形態の第２の構成例のブロック図。

以下、図面を参照しながら本発明の実施形態に係る音声合成装置について詳細に説明する。なお、以下の実施形態では、同一の番号を付した部分については同様の動作を行うものとして、重ねての説明を省略する。

（第１の実施形態）
第１の実施形態について説明する。

以下で詳しく述べるように、第１の実施形態は、韻律パラメータの内挿処理の前に正規化処理を行うものであり、第２の実施形態は、韻律パラメータの内挿処理の後で正規化処理を行うものである。

図１に、第１の実施形態の音声合成装置のブロック図の一例を示す。

図１に示されるように、本実施形態の音声合成装置は、テキスト解析部１、韻律制御辞書記憶部２、合成パラメータ生成部３、内挿処理の前に正規処理を行う正規化部（以下、第１の正規化部と記述する）４、合成パラメータ内挿部５、音声合成部６を備える。

なお、図１は、合成パラメータのうちの韻律パラメータに関する構成を中心に示してあり、他のパラメータ又は情報に関する部分は適宜省略している。この点は他の各図についても同様である。以下の説明も、韻律パラメータを中心に行う。

また、以下では、韻律パラメータに関する処理について具体例を用いて説明する場合には、Ｆ０パターンを例にとる。

本実施形態では正規化パラメータの生成等について様々な構成例が有り得る。以下、幾つかの構成例について順に説明する。本実施形態の音声合成装置の各部の詳細については、以下の説明の中で述べる。

（第１の実施形態の第１の構成例）
まず、本実施形態の第１の構成例について説明する。

図２に、本構成例の音声合成装置のブロック図を示す。

図２に示されるように、本構成例の音声合成装置は、テキスト解析部１、韻律制御辞書記憶部２、合成パラメータ生成部３、正規化パラメータ生成部７、第１の正規化部４、合成パラメータ内挿部５、音声合成部６を備えている。

以下、各部について説明する。

テキスト解析部１は、入力されたテキスト（文字列）に対して、言語的な処理（例えば形態素解析及び構文解析）を行って、言語情報１０１を生成する。

言語情報は、例えばテキストの読みに対応する音声記号列、韻律制御の単位となるアクセント句の情報、アクセントの位置、品詞などのような、合成パラメータの生成に必要な種々の情報を含む。

韻律制御辞書記憶部２は、１個の対象話者の韻律制御辞書及びｎ個の基準話者の韻律制御辞書を記憶する。ここで、ｎは、１以上の任意の数である。対象話者の韻律制御辞書は、対象話者の韻律を制御するためのパラメータを含む。また、一つの基準話者の韻律制御辞書は、一つの基準話者の韻律を制御するためのパラメータを含む。なお、対象話者の韻律制御辞書と基準話者の韻律制御辞書とで、構成上の相違はない。

韻律制御辞書は、より具体的には、例えば、合成音声のＦ０パターン・音韻継続時間長・パワー・ポーズなどのような韻律を制御するために参照するものであり、例えば、Ｆ０パターンの典型的な変化パターン、アクセント成分・音韻継続時間長・パワー・ポーズ長などの制御量の統計的なモデルのパラメータ、或いは、決定木で表現されるルールなどが考えられる（ただし、これらに制限されるものではない）。

なお、韻律制御辞書記憶部２に複数の対象話者の韻律制御辞書を記憶しておき、いずれの対象話者の韻律制御辞書を使用するかを（例えばユーザの指示により）選択できるようにしても良い。また、使用する対象話者以外の対象話者の韻律制御辞書を、基準話者の韻律制御辞書として使用することも可能である。

合成パラメータ生成部３は、言語情報１０１に基づいて、対象話者の韻律制御辞書を参照して、対象話者の合成パラメータ（音韻パラメータ及び第１の韻律パラメータ）を生成するとともに、同様に、言語情報１０１に基づいて、各基準話者の韻律制御辞書を参照して、各基準話者の合成パラメータ（音韻パラメータ及び第２の韻律パラメータ）をそれぞれ生成する。韻律パラメータ生成部は、合成パラメータ生成部３の一部である。

合成パラメータは、韻律パラメータと、音韻パラメータとから構成される。韻律パラメータは、例えば基本周波数パターン（Ｆ０パターン）、音韻継続時間及びパワー・ポーズなどの合成音声の韻律を特徴付けるパラメータの集合である。音韻パラメータは、例えば、音素記号列などである。

なお、韻律パラメータは、話者ごとに変化し得るものであり、話者ごとに生成される。これに対して、音韻パラメータは、通常、話者にかかわらず同一になる。ただし、音韻パラメータの生成が話者ごとに行われても構わない。また、一旦、音韻パラメータが生成された後は、音韻パラメータの生成が省略されても良い。

正規化パラメータ生成部７は、対象話者の韻律パラメータ（第１の韻律パラメータ）３０１及び１又は複数の基準話者の韻律パラメータ（第２の韻律パラメータ）３０２に基づいて、所定の正規化パラメータ７０１を生成する。正規化パラメータ７０１は、基準話者の韻律パラメータごとに、生成される。

第１の正規化部４は、生成された各々の基準話者の韻律パラメータ３０２に対して、それぞれ、正規化パラメータ７０１に基づく正規化処理を行う。

ここで、正規化処理とは、例えば、個々の基準話者の韻律パラメータ３０２の一つ以上の特徴量と、対象話者の韻律パラメータ３０１のそれとを、所定の閾値まで近付ける（或いは、一致させる）処理である。特徴量は、例えば、平均値、分散、ダイナミックレンジなどが考えられる。

複数種類の韻律パラメータについて正規化処理を行う場合には、各種類の韻律パラメータごとに、正規化パラメータ７０１を生成する。

合成パラメータ内挿部５は、任意の重み情報９０１に基づいて、対象話者の韻律パラメータ（第１の韻律パラメータ）３０１及び各々の基準話者の正規化処理された韻律パラメータ（正規化処理された第２の韻律パラメータ）４０１に内挿処理を行って、第３の韻律パラメータを生成し、第３の韻律パラメータと上記音韻パラメータとからなる合成パラメータ５０１を出力する。韻律パラメータ内挿部は、合成パラメータ内挿部５の一部である。

ここで、韻律パラメータの内挿処理とは、例えば、複数の韻律パラメータ間で加重平均などの処理を行うことによって、それら韻律パラメータの中間的な韻律パラメータを生成する処理である。ただし、ここで使用する語句「内挿処理」は、重みが正のみの場合だけでなく、負の重みがある場合（いわゆる、外挿処理）をも含む。負の重みがある場合、生成された韻律パラメータは、いずれかの話者の韻律パラメータの特徴をより強調したようなものとなることも有り得る。なお、以下の説明において、負の重みがある場合の内挿処理を、重みが正のみの場合の内挿処理と区別して説明するために、外挿処理という語句を使用することがある。

また、内挿処理は、全種類の韻律パラメータに対して行っても良いし、一部のパラメータ（例えば、Ｆ０パターンのみ）に対して行っても良い。内挿処理しない韻律パラメータについては、例えば、対象話者の韻律パラメータをそのまま採用しても良い。

また、内挿処理する全種類の韻律パラメータについて、正規化処理をも行うようにしても良いし、内挿処理する韻律パラメータの一部についてのみ正規化処理をも行うようにしても良い。

また、韻律パラメータの種類にかかわらずに共通に、内挿の際の重みを指定するようにしても良い。例えば、Ｆ０パターンと音韻継続時間長とで、内挿の際の重みを同一としても良い。あるいは、各種類の韻律パラメータごとに内挿の際の重みを指定するようにしても良い。例えば、Ｆ０パターンと音韻継続時間長とでは、内挿の際の重みが異なるようにしても良い。

なお、例えば、重み情報は、一文にわたって一定であっても良い。或いは、重み情報が文中で変化するようにしても良い。

音声合成部６は、合成パラメータ５０１により指定された音韻情報及び韻律情報に従って、合成音声を生成する。

次に、図３を参照しながら、本構成例の動作例について説明する。

ここでは、韻律パラメータの具体例としてＦ０パターンを用いるが、前述のようにこれに制限されるものではない。

まず、テキスト解析部１が、言語情報１０１を生成する（ステップＳ１）。

次に、合成パラメータ生成部３が、言語情報１０１に基づいて、対象話者の韻律制御辞書及び一つ以上の基準話者の韻律制御辞書を参照して、各話者の合成パラメータをそれぞれ生成する（ステップＳ２）。

なお、Ｆ０パターンを制御する辞書（Ｆ０パターン制御辞書）は、韻律制御辞書内に記憶されている。韻律制御辞書の構成としては、例えば、アクセント句単位でＦ０の代表パターンが記憶されていて、生成された言語情報１０１に基づいて、Ｆ０の代表パターンを選択する構成が考えられる。

次に、正規化パラメータ生成部７が、各基準話者の韻律パラメータごとに、正規化パラメータ７０１を動的に生成する（ステップＳ３）。

次に、第１の正規化部４が、正規化パラメータ７０１を用いて、各基準話者の韻律パラメータ３０２をそれぞれ正規化処理する（ステップＳ４）。

ここで、正規化パラメータ生成及び正規化処理の具体例について説明する。

正規化処理としては、例えば、Ｆ０パターンの平均値を用いる方法がある。例えば、基準話者のＦ０パターンの平均値を基準として、対象話者のＦ０パターンの平均値との差分（或いは、例えば、該差分に所定の閾値を加算した値、或いは、該差分に所定の閾値を乗算した値、など）を、正規化パラメータとすることが考えられる。例えば、図４において、４１は対象話者のＦ０パターンの軌跡、４２は基準話者のＦ０パターンの軌跡、４３は対象話者のＦ０パターンの平均、４４は基準話者のＦ０パターンの平均をそれぞれ表すものとすると、正規化パラメータは、例えば、差分ｄ（＝対象話者のＦ０パターンの平均４３−基準話者のＦ０パターンの平均４４）である。この場合、基準話者のＦ０パターンに、差分ｄを加算することによって、正規化処理された基準話者のＦ０パターンを生成する。これによって、対象話者のＦ０パターンの平均４３と基準話者のＦ０パターンの平均４４とを、一致させることができる。

また、例えば、正規化パラメータを、差分ｄ＋閾値Threとする場合には、基準話者のＦ０パターンに、差分ｄ＋閾値Threを加算することによって、正規化処理された基準話者のＦ０パターンを生成する。これによって、対象話者のＦ０パターンの平均と基準話者のＦ０パターンの平均とを、閾値Threの差まで近付けることができる。図４中の４５は、対象話者のＦ０パターンの平均４３に閾値Threを加算したレベルを示し、４６は正規化処理された基準話者のＦ０パターンを示す。

例えば、対象話者が男性であり、基準話者が女性の場合に、女性話者のＦ０パターンの平均が、男性話者のＦ０パターンの平均に一致するように（又は、近付くように）、正規化される。これによって、対象話者らしさを保つことができる。

他の正規化処理としては、例えば、Ｆ０パターンのダイナミックレンジを用いる方法がある。例えば、上記の平均値をダイナミックレンジに変え、上記の差分を比率に変えて処理する方法がある。例えば、図５において、５１は対象話者のＦ０パターンの軌跡、５２は基準話者のＦ０パターンの軌跡、５３は対象話者のＦ０パターンのダイナミックレンジ、５４は基準話者のＦ０パターンのダイナミックレンジをそれぞれ表すものとする。この場合、まず、対象話者のＦ０パターンの最大値と最小値からダイナミックレンジ５３を算出するとともに、基準話者のＦ０パターンの最大値と最小値からダイナミックレンジ５４を算出する。次に、算出された基準話者のダイナミックレンジ５４を基準として、対象話者のダイナミックレンジ５３との比率αを計算して、正規化パラメータを求める。そして、基準話者のＦ０パターン５１に比率αを乗算することによって、正規化処理された基準話者のＦ０パターンを生成する。これによって、正規化処理された基準話者のＦ０パターンのダイナミックレンジと対象話者のＦ０パターンのダイナミックレンジとを一致させることができる。図５中の５５は、正規化処理された対象話者のＦ０パターンのダイナミックレンジを示し、５６は正規化処理された基準話者のＦ０パターンを示す。

なお、平均値を用いる場合と同様に、上記の比率を更に調整しても良い。例えば、上記の比率に対して更に所定の閾値を加算又は乗算することによって、正規化パラメータを求めても良い。

また、Ｆ０パターンの平均値とダイナミックレンジの両方を用いて正規化処理を行っても良い。

これらの他にも種々の正規化処理方法が可能である。

次に、合成パラメータ内挿部５が、対象話者の韻律パラメータ３０１と各々の基準話者の正規化処理された韻律パラメータ４０１とを、任意の重み情報９０１に基づいて、内挿処理する（ステップＳ５）。

なお、重みは、各々の合成パラメータ（各々の話者）に対応して一つずつ設定される。重みの指定方法には、様々な方法を使用することができ、特に制限はない。個々の重みの値をそれぞれ入力するようにしても良いし、調整バーなどのグラフィカルユーザインタフェース（ＧＵＩ）を利用しても良い。

図６に、基準話者が１人の場合の重み選択用ＧＵＩの一例を示す。図６の例において、６１が調整バーである。この調整バー６１を任意の位置に移動させることにより、対象話者と基準話者との内挿比を任意に変更することが可能である（左端が対象話者に対応し、右端が基準話者に対応する）。なお、図６の例において、例えば、対象話者を６２に位置付け、基準話者を６３に位置付けることによって、外挿比を指定することも可能である。

基準話者が２人の場合にも、ＧＵＩが利用可能である。この場合、例えば、ＧＵＩ画面上で、三角形の各頂点に対応付けて対象話者と第１の基準話者と第２の基準話者の画像を表示し、ユーザがポインタで三角形の内部又は外部の任意の位置を指し示し、各三角形の頂点の位置とポインタの位置との関係によって、重みを特定することができる。

ここで、基準話者が１人の場合を例にとって、韻律パラメータの内挿について説明する。前述のように、ここでの内挿は、重みが正のみである場合と、負の重みがある場合の両方を含む。

図７は、正の重みによる内挿を示している。ここで、ｔｇｔは対象話者を示し、ｓｔｄは基準話者を示し、ｉｎｔは、対象話者の重みがｍ、基準話者の重みｎの場合の内挿点を示す。ここで、ｍ≧０、ｎ≧０である。

図８は、いわゆる外挿の様子を示している。ここで、ｅｘｔは、対象話者の重みがｍ、基準話者の重みｎの場合の外挿を示す。ここで、ｍ≧０、ｎ≦０である。

なお、図８は、基準話者が強調される外挿であるが、対象話者が強調される外挿点も可能である。その場合には、ｍ≦０、ｎ≧０になる。

図９に、基準話者が１人の場合の韻律パラメータの内挿の例を示す。図９において、９１が対象話者のＦ０パターンであり、９２が基準話者のＦ０パターンであり、９３がそれらにより内挿処理されたＦ０パターンである。図９のように対象話者と基準話者をｍ：ｎで内挿する場合は、次の式（１）で表現することができる。

図１０に、基準話者が１人の場合の韻律パラメータの外挿の例を示す。図１０において、１０１が対象話者のＦ０パターンであり、１０２が基準話者のＦ０パターンであり、１０３がそれらにより外挿されたＦ０パターンである。図１０のように対象話者と基準話者をｍ：ｎで外挿する場合は、次の式（２）で表現することができる。

もう一つの外挿は、次の式（３）で表現することができる。

なお、基準話者がｎ人の場合の内挿（外挿も含む）は、例えば、次の式（４）で表現することができる。ここで、ｓｔｄｉは、第ｉの基準話者を示し、ｗ０は対象話者の重みを示し、ｗｉは、第ｉの基準話者の重みを示す。

以上の他にも、様々な内挿（外挿を含む）方法が可能である。

なお、重み情報９０１は、ユーザが入力する形態、他のプログラム（プロセス）から与える形態、テキストの所定の単位（例えば、文単位、文の構成要素単位）ごとに付与する形態、テキスト解析部１がテキストを解析することによって生成する形態など、種々の形態が可能である。

最後に、音声合成部６が、合成パラメータ５０１により指定された音韻情報及び韻律情報に従って、合成音声を生成する（ステップＳ６）。

以上説明したように、本実施形態によれば、韻律パラメータの内挿処理の前に、韻律パラメータの正規化処理を行うので、多様な或いは対象話者の好みに合った韻律的特徴をもつ合成音を生成することができ且つ対象話者らしさを保つこともできる。

（第１の実施形態の第２の構成例）
次に、本実施形態の第２の構成例について説明する。

ここでは、第１の実施形態の第１の構成例と相違する点を中心に説明する。

図１１に、本構成例の音声合成装置のブロック図を示す。

第１の構成例（図２）との相違は、正規化パラメータ生成部７にある。

本構成例の動作例は、基本的には図３と同様である。ただし、本構成例では、ステップＳ３の正規化パラメータ生成は、ステップＳ２の前又はステップＳ１の前に行っても良い。また、図３のフローチャートの最初の実行時に（或いは、他の処理において）、一旦、正規化パラメータが生成されたならば、これを正規化パラメータ記憶部（図示せず）に記憶しておいて、その後の図３のフローチャートの実行時には、ステップＳ３の正規化パラメータ生成を省略するようにしても良い。

本構成例の正規化パラメータ生成部７は、対象話者の韻律制御辞書と１又は複数の基準話者の韻律制御辞書から、それぞれに対応する正規化パラメータを静的に生成する。

具体的には、例えば、対象話者の韻律制御辞書に格納されている全ての代表のＦ０パターンの平均値を算出するとともに、基準話者の韻律制御辞書に格納されている全ての代表のＦ０パターンの平均値を算出する。そして、それら平均値に基づいて、第１の構成例と同様に、正規化パラメータを求める。

例えば、第１の構成例で述べたように、それら平均値の差分を算出し、更に必要に応じて所定の閾値を加算又は乗算することによって、正規化パラメータを算出する。或いは、例えば、基準話者の平均値を基準として、対象話者の平均値との比率を算出して、所定の閾値を加算又は乗算することによって、正規化パラメータとすることも考えられる。また、第１の構成例と同様に、平均値及び差分の代わりにダイナミックレンジ及び比率を用いることも考えられる。

（第１の実施形態の第３の構成例）
次に、本実施形態の第３の構成例について説明する。

ここでは、本実施形態の第１及び第２の構成例と相違する点を中心に説明する。

第１及び第２の構成例では、対象話者ごとに、対象話者の韻律パラメータを基準として、正規化パラメータを求め、該正規化パラメータに基づいて、韻律パラメータを正規化処理した。その代わりに、対象話者の韻律パラメータ以外の基準を用いても良い。例えば、対象話者のＦ０パターンの平均値の代わりに、指定されたＦ０パターンの平均値を基準にしても良い。

この場合には、対象話者についても、基準話者と同様に、指定されたＦ０パターンの平均値に基づいて、正規化パラメータを求め、該正規化パラメータに基づいて、韻律パラメータを正規化処理する。

（第１の実施形態の第４の構成例）
次に、本実施形態の第３の構成例について説明する。

ここでは、本実施形態の第１〜第３の構成例と相違する点を中心に説明する。

図１及び図１１の構成では、正規化パラメータ生成部７を備えているが、外部から正規化パラメータを取得するようにすることも可能である。この場合には、正規化パラメータ生成部７は不要になり、図１と同様の構成で良い。

（第２の実施形態）
以下、第２の実施形態について説明する。

第１の実施形態は、正規化処理に続いて内挿処理を行うものであったが、第２の実施形態は、内挿処理に続いて正規化処理を行うものである。

本実施形態では、第１の実施形態と相違する点を中心に説明する。

図１２に、第２の実施形態の音声合成装置のブロック図の一例を示す。

図１２に示されるように、本実施形態の音声合成装置は、テキスト解析部１、韻律制御辞書記憶部２、合成パラメータ生成部３、合成パラメータ内挿部５、内挿処理の後に正規処理を行う正規化部（以下、第２の正規化部と記述する）８、音声合成部６を備える。

本実施形態も、韻律パラメータの具体例としてＦ０パターンを用いて説明する。

第１の実施形態との相違点は、本実施形態の合成パラメータ内挿部５及び第２の正規化部８である。合成パラメータ内挿部５は、正規化処理の前に、対象話者の韻律制御辞書から生成された韻律パラメータ３０１と各基準話者の韻律制御辞書から生成された韻律パラメータ３０２とを任意の重み情報９０１に基づいて、内挿処理する。第２の正規化部８は、内挿処理された韻律パラメータを所定の正規化パラメータによって正規化処理する。

本実施形態では正規化パラメータの生成等について様々な構成例が有り得る。以下、幾つかの構成例について順に説明する。

（第２の実施形態の第１の構成例）
まず、本実施形態の第１の構成例について説明する。

図１３に、本構成例の音声合成装置のブロック図を示す。

図１３に示されるように、本構成例の音声合成装置は、テキスト解析部１、韻律制御辞書記憶部２、合成パラメータ生成部３、合成パラメータ内挿部５、正規化パラメータ生成部７、第２の正規化部８、音声合成部６を備えている。

以下、各部について説明する。

テキスト解析部１及び言語情報１０１については、第１の実施形態と同様である。

韻律制御辞書記憶部２、対象話者の韻律制御辞書及び基準話者の韻律制御辞書については、第１の実施形態と同様である。

合成パラメータ生成部３は、言語情報１０１に基づいて、それぞれの韻律制御辞書を参照して、対象話者の合成パラメータ（音韻パラメータ及び第１の韻律パラメータ）と、各基準話者の合成パラメータ（音韻パラメータ及び第２の韻律パラメータ）とをそれぞれ生成する。韻律パラメータ生成部は、合成パラメータ生成部３の一部である。

合成パラメータ内挿部５は、任意の重み情報９０１に基づいて、対象話者の韻律パラメータ３０１及び各々の基準話者の韻律パラメータ３０２に内挿処理を行って、第３の韻律パラメータを生成し、第３の韻律パラメータと上記音韻パラメータとからなる合成パラメータ５０２を出力する。韻律パラメータ内挿部は、合成パラメータ内挿部５の一部である。

正規化パラメータ生成部７は、第１の実施形態で説明したような方法により、内挿処理された韻律パラメータ５０２を基準として、対象話者の韻律パラメータ３０１から、正規化パラメータ７０２を生成する。

第２の正規化部８は、第１の実施形態で説明したような方法により、内挿処理された韻律パラメータ５０２に対して、正規化パラメータ７０２に基づく正規化処理を行い、正規化処理された第３の韻律パラメータと上記音韻パラメータとからなる合成パラメータ８０１を出力する。

音声合成部６は、合成パラメータ８０１により指定された音韻情報及び韻律情報に従って、合成音声を生成する。

次に、図１４を参照しながら、本構成例の動作例について説明する。

まず、テキスト解析部１が、言語情報１０１を生成する（ステップＳ１１）。

次に、合成パラメータ生成部３が、言語情報１０１に基づいて、対象話者の韻律制御辞書及び一つ以上の基準話者の韻律制御辞書を参照して、各話者の合成パラメータをそれぞれ生成する（ステップＳ１２）。

次に、合成パラメータ内挿部５が、対象話者の韻律パラメータ３０１と各々の基準話者の韻律パラメータ３０２とを、任意の重み情報９０１に基づいて、内挿処理する（ステップＳ１３）。

次に、正規化パラメータ生成部７が、内挿処理された韻律パラメータ５０２について、正規化パラメータ７０２を動的に生成する（ステップＳ１４）。例えば、第１の実施形態で説明した基準話者が１人の場合の方法において、基準話者の韻律パラメータ３０２を内挿処理された韻律パラメータ５０２に置き換えればよい。

次に、第２の正規化部８が、正規化パラメータ７０２を用いて、内挿処理された韻律パラメータ５０２を正規化処理する（ステップＳ１５）。例えば、第１の実施形態で説明した基準話者が１人の場合の方法において、基準話者の韻律パラメータ３０２を内挿処理された韻律パラメータ５０２に置き換えればよい。

最後に、音声合成部６が、合成パラメータ８０１で指定された音韻情報及び韻律情報に従って、合成音声を生成する（ステップＳ１６）。

以上説明したように、本実施形態によれば、韻律パラメータの内挿処理の後で、韻律パラメータの正規化処理を行うので、多様な或いは対象話者の好みに合った韻律的特徴をもつ合成音を生成することができ且つ対象話者らしさを保つこともできる。

（第２の実施形態の第２の構成例）
次に、本実施形態の第２の構成例について説明する。

ここでは、第２の実施形態の第１の構成例と相違する点を中心に説明する。

図１５に、本構成例の音声合成装置のブロック図を示す。

第１の構成例（図１３）との相違は、正規化パラメータ生成部７にある。

本構成例の動作例は、基本的には図１４と同様である。ただし、本構成例では、ステップＳ１４の正規化パラメータ生成は、ステップＳ１３の前又はステップＳ１２の前又はステップＳ１１の前に行っても良い。また、図１４のフローチャートの最初の実行時に（或いは、他の処理において）、一旦、正規化パラメータが生成されたならば、これを正規化パラメータ記憶部（図示せず）に記憶しておいて、その後の図１４のフローチャートの実行時には、ステップＳ３の正規化パラメータ生成を省略するようにしても良い。

本構成例の正規化パラメータ生成部７は、第１の実施形態の第２の構成例と同様に、対象話者の韻律制御辞書と１又は複数の基準話者の韻律制御辞書から、正規化パラメータを静的に生成する。具体的には、例えば、対象話者の韻律制御辞書に格納されている全ての代表のＦ０パターンの平均値を算出するとともに、全話者の韻律制御辞書に格納されている全ての代表のＦ０パターンの平均値（或いは、予め仮定された重み付けによる加重平均値）を算出する。そして、それら平均値に基づいて、第１の構成例と同様に、正規化パラメータを求める。また、例えば、ダイナミックレンジを用いても良い。

（第２の実施形態の第３の構成例）
次に、本実施形態の第３の構成例について説明する。

第１及び第２の構成例では、対象話者の韻律パラメータを基準として、正規化パラメータを求め、該正規化パラメータに基づいて、韻律パラメータを正規化処理した。その代わりに、対象話者の韻律パラメータ以外の基準を用いても良い。例えば、対象話者のＦ０パターンの平均値の代わりに、指定されたＦ０パターンの平均値を基準にしても良い。

（第２の実施形態の第４の構成例）
次に、本実施形態の第３の構成例について説明する。

図１３及び図１５の構成では、正規化パラメータ生成部７を備えているが、外部から正規化パラメータを取得するようにすることも可能である。この場合には、正規化パラメータ生成部７は不要になり、図１２と同様の構成で良い。

なお、本実施形態では、代表パターンに基づくモデルを想定して説明したが、例えば、隠れマルコフモデルに基づく音声合成に代表されるソースフィルタ型音声合成において、声道モデルなど、他のモデルを使用することも可能である。この場合には、韻律制御辞書、合成パラメータ生成、正規化パラメータ生成などを適宜修正すれば良い。

例えば、第１の実施形態において、正規化パラメータ生成部は、対象話者の韻律制御辞書に対応する所定の韻律パラメータ統計量と、基準話者の韻律制御辞書に対応する所定の韻律パラメータ統計量とに基づいて、正規化パラメータを生成するようにしても良い。

また、例えば、第２の実施形態において、正規化パラメータ生成部は、対象話者の韻律制御辞書に対応する所定の韻律パラメータ統計量と、基準話者の韻律制御辞書に対応する所定の韻律パラメータ統計量とに基づいて（或いは、更に、重み情報に基づいて）、第２の正規化パラメータを生成するようにしても良い。

以上説明したように、実施形態によれば、韻律パラメータの内挿処理の前又は後に、韻律パラメータの正規化処理を行うので、多様な韻律的特徴をもつ合成音を生成することができ且つ対象話者らしさを保つこともできる。

また、上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した実施形態の音声合成装置による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク（フレキシブルディスク、ハードディスクなど）、光ディスク（ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、ＤＶＤ−ＲＯＭ、ＤＶＤ±Ｒ、ＤＶＤ±ＲＷなど）、半導体メモリ、またはこれに類する記録媒体に記録される。コンピュータまたは組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をＣＰＵで実行させれば、上述した実施形態の音声合成装置と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合または読み込む場合はネットワークを通じて取得または読み込んでもよい。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているＯＳ（オペレーティングシステム）や、データベース管理ソフト、ネットワーク等のＭＷ（ミドルウェア）等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、ＬＡＮやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は１つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。

なお、本実施形態におけるコンピュータまたは組み込みシステムは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の１つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１…テキスト解析部、２…韻律制御辞書記憶部、３…合成パラメータ生成部、４…第１の正規化部、５…合成パラメータ内挿部、６…音声合成部、７…正規化パラメータ生成部、８…第２の正規化部。

Claims

入力されたテキストを解析して、言語情報を出力するテキスト解析部と、
対象話者の韻律制御辞書及び１又は複数の基準話者の韻律制御辞書を記憶する辞書記憶部と、
前記言語情報に基づいて、前記対象話者の韻律制御辞書を用いて第１の韻律パラメータを生成するとともに、前記１又は複数の基準話者の韻律制御辞書をそれぞれ用いて１又は複数の第２の韻律パラメータを生成する韻律パラメータ生成部と、
正規化パラメータに基づいて、前記１又は複数の第２の韻律パラメータをそれぞれ正規化処理する正規化部と、
重み情報に基づいて、前記第１の韻律パラメータ及び正規化処理された前記１又は複数の第２の韻律パラメータを内挿処理して、第３の韻律パラメータを生成する韻律パラメータ内挿部と、
前記第３の韻律パラメータに従って、合成音声を生成する音声合成部とを備えたことを特徴とする音声合成装置。
前記第１の韻律パラメータ及び前記１又は複数の第２の韻律パラメータに基づいて、前記正規化パラメータを生成する正規化パラメータ生成部を更に備えたことを特徴とする請求項１に記載の音声合成装置。
前記対象話者の韻律制御辞書に対応する所定の韻律パラメータ統計量及び前記１又は複数の基準話者の韻律制御辞書に対応する所定の韻律パラメータ統計量に基づいて、前記正規化パラメータを生成する正規化パラメータ生成部を更に備えたことを特徴とする請求項１に記載の音声合成装置。
前記正規化パラメータは、予め設定されたパラメータであることを特徴とする請求項１に記載の音声合成装置。
前記正規化部は、前記第１の韻律パラメータをも正規化処理するものであり、
前記韻律パラメータ内挿部は、正規化処理された前記第１の韻律パラメータ及び正規化処理された前記１又は複数の第２の韻律パラメータを内挿処理するものである請求項１に記載の音声合成装置。
入力されたテキストを解析して、言語情報を出力するテキスト解析部と、
対象話者の韻律制御辞書及び１又は複数の基準話者の韻律制御辞書を記憶する辞書記憶部と、
前記言語情報に基づいて、前記対象話者の韻律制御辞書を用いて第１の韻律パラメータを生成するとともに、前記１又は複数の基準話者の韻律制御辞書をそれぞれ用いて１又は複数の第２の韻律パラメータを生成する韻律パラメータ生成部と、
重み情報に基づいて、前記第１の韻律パラメータ及び前記１又は複数の第２の韻律パラメータを内挿処理して、第３の韻律パラメータを生成する韻律パラメータ内挿部と、
正規化パラメータに基づいて、前記第３の韻律パラメータを正規化処理する正規化部と、
正規化処理された前記第３の韻律パラメータに従って、合成音声を生成する音声合成部とを備えたことを特徴とする音声合成装置。
前記第１の韻律パラメータ及び生成された前記第３の韻律パラメータに基づいて、前記正規化パラメータを生成する正規化パラメータ生成部を更に備えたことを特徴とする請求項６に記載の音声合成装置。
前記対象話者の韻律制御辞書に対応する所定の韻律パラメータ統計量及び前記１又は複数の基準話者の韻律制御辞書に対応する所定の韻律パラメータ統計量並びに前記重み情報に基づいて、前記正規化パラメータを生成する正規化パラメータ生成部を更に備えたことを特徴とする請求項６に記載の音声合成装置。
前記正規化パラメータは、予め設定されたパラメータであることを特徴とする請求項６に記載の音声合成装置。
音声合成装置の音声合成方法において、
テキスト解析部が、入力されたテキストを解析して、言語情報を出力するステップと、
辞書記憶部が、対象話者の韻律制御辞書及び１又は複数の基準話者の韻律制御辞書を記憶するステップと、
韻律パラメータ生成部が、前記言語情報に基づいて、前記対象話者の韻律制御辞書を用いて第１の韻律パラメータを生成するとともに、前記１又は複数の基準話者の韻律制御辞書をそれぞれ用いて１又は複数の第２の韻律パラメータを生成するステップと、
正規化部が、正規化パラメータに基づいて、前記１又は複数の第２の韻律パラメータをそれぞれ正規化処理するステップと、
韻律パラメータ内挿部が、重み情報に基づいて、前記第１の韻律パラメータ及び正規化処理された前記１又は複数の第２の韻律パラメータを内挿処理して、第３の韻律パラメータを生成するステップと、
音声合成部が、前記第３の韻律パラメータに従って、合成音声を生成するステップとを有することを特徴とする音声合成方法。
音声合成装置の音声合成方法において、
テキスト解析部が、入力されたテキストを解析して、言語情報を出力するステップと、
辞書記憶部が、対象話者の韻律制御辞書及び１又は複数の基準話者の韻律制御辞書を記憶するステップと、
韻律パラメータ生成部が、前記言語情報に基づいて、前記対象話者の韻律制御辞書を用いて第１の韻律パラメータを生成するとともに、前記１又は複数の基準話者の韻律制御辞書をそれぞれ用いて１又は複数の第２の韻律パラメータを生成するステップと、
韻律パラメータ内挿部が、重み情報に基づいて、前記第１の韻律パラメータ及び前記１又は複数の第２の韻律パラメータを内挿処理して、第３の韻律パラメータを生成するステップと、
正規化部が、正規化パラメータに基づいて、前記第３の韻律パラメータを正規化処理するステップと、
音声合成部が、正規化処理された前記第３の韻律パラメータに従って、合成音声を生成するステップとを有することを特徴とする音声合成方法。
コンピュータを音声合成装置として機能させるためのプログラムにおいて、
入力されたテキストを解析して、言語情報を出力するテキスト解析部と、
対象話者の韻律制御辞書及び１又は複数の基準話者の韻律制御辞書を記憶する辞書記憶部と、
前記言語情報に基づいて、前記対象話者の韻律制御辞書を用いて第１の韻律パラメータを生成するとともに、前記１又は複数の基準話者の韻律制御辞書をそれぞれ用いて１又は複数の第２の韻律パラメータを生成する韻律パラメータ生成部と、
正規化パラメータに基づいて、前記１又は複数の第２の韻律パラメータをそれぞれ正規化処理する正規化部と、
重み情報に基づいて、前記第１の韻律パラメータ及び正規化処理された前記１又は複数の第２の韻律パラメータを内挿処理して、第３の韻律パラメータを生成する韻律パラメータ内挿部と、
前記第３の韻律パラメータに従って、合成音声を生成する音声合成部とをコンピュータに機能させるためのプログラム。
コンピュータを音声合成装置として機能させるためのプログラムにおいて、
入力されたテキストを解析して、言語情報を出力するテキスト解析部と、
対象話者の韻律制御辞書及び１又は複数の基準話者の韻律制御辞書を記憶する辞書記憶部と、
前記言語情報に基づいて、前記対象話者の韻律制御辞書を用いて第１の韻律パラメータを生成するとともに、前記１又は複数の基準話者の韻律制御辞書をそれぞれ用いて１又は複数の第２の韻律パラメータを生成する韻律パラメータ生成部と、
重み情報に基づいて、前記第１の韻律パラメータ及び前記１又は複数の第２の韻律パラメータを内挿処理して、第３の韻律パラメータを生成する韻律パラメータ内挿部と、
正規化パラメータに基づいて、前記第３の韻律パラメータを正規化処理する正規化部と、
正規化処理された前記第３の韻律パラメータに従って、合成音声を生成する音声合成部とをコンピュータに機能させるためのプログラム。