JP3576792B2

JP3576792B2 - 音声情報処理方法

Info

Publication number: JP3576792B2
Application number: JP06742398A
Authority: JP
Inventors: 岳彦籠嶋; 重宣瀬戸; 眞弘森田
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1998-03-17
Filing date: 1998-03-17
Publication date: 2004-10-13
Anticipated expiration: 2018-03-17
Also published as: JPH11265194A

Description

【０００１】
【発明の属する技術分野】
本発明は、テキスト音声合成に関し、特に入力情報からテキスト音声合成に関する種々の特徴パラメータを推定することを含む音声情報処理方法に関する。
【０００２】
【従来の技術】
任意の文章から人工的に音声信号を作り出すことをテキスト合成という。通常このテキスト合成システムは、言語処理部、韻律生成部、音声信号生成部の３つの段階から構成される。入力されたテキストは、まず言語処理部において形態素解析や構文解析などが行われる。次に韻律生成部においてアクセントやイントネーションの処理が行われ、音韻記号列、ピッチパターン、音韻継続時間長などの情報が出力される。最後に、音声信号生成部で音声信号が合成される。
【０００３】
このようなテキスト音声合成においては、処理の各段階において、種々の特徴パラメータを推定する必要がある。例えば、言語処理部においては、形態素の切れ目、漢字の読み、係り受けの構造などを、韻律生成部においては、ピッチの上げ下げのタイミング、ピッチの上げ下げの大きさ、音韻継続時間長などの推定が必要となる。
【０００４】
このような特徴パラメータの推定を行うための統計的手法として、数量化Ｉ類や回帰木などが良く知られている。また、これらの方法を拡張したものとして、空間分割型数量化法（以下ＭＳＲ法と呼ぶ）が提案されている。例えば、特開平６−２８２２９４あるいは特開平９−９０９７０にＭＳＲ法を音声合成における韻律パラメータの推定に適用した例が開示されている。説明変数空間における位置べクトルｄで説明変数を表し、Ｓ_ｎを説明変数空間で定義される要因集合とすると、数量化Ｉ類、回帰木、ＭＳＲ法に共通するモデルは次式で表すことができる。
【０００５】
【数４】

ここで、ｙが推定値、ｗ _ｎは各要因集合Ｓ _ｎに対する重み係数を表している。数量化Ｉ類や回帰木は、上記のモデルにおいて、要因集合Ｓ _ｎに拘束条件を付加して得られる特殊解と考えられる。これらに対してＭＳＲ法は、要因集合Ｓｎに拘束を設けない一般解とみなすことができる。これらの従来例において、各要因集合とその重み係数は、多数のトレーニング事例を用いて決定される。ここで、トレーニング事例とは、全ての説明変数の値とそれに対応する目的変数の正しい値の組を表している。すなわち、推定値と正しい値との誤差が最小となるような要因集合と重み係数が、何らかの最適化手法や解析的な方法によって求められる。
【０００６】
【発明が解決しようとする課題】
統計的な手法による特徴パラメータの推定において重要なことは、トレーニング事例だけでなく、それ以外の事例についても高い推定精度が得られることである。このことは、（ａ）トレーニング事例に対する推定精度が高く、かつ（ｂ）トレーニング事例以外の事例に対する推定精度がトレーニング事例に対するそれと比べてそれほど悪くならないと言い替えることができる。仮に前者の性質（ａ）を「精密性」、後者の性質（ｂ）を「信頼性」と呼ぶことにする。
【０００７】
従来例において、精密性を向上させるためには、要因集合の数を増やすことによって説明変数空間を細分化する必要がある。これに対して、信頼性を向上させるためには各要因集合に属するトレーニング事例数がある程度大きくする必要があるため、要因集合の数を減らさなければならない。要因集合に付加する拘束条件より、数量化Ｉ類は、信頼性は高いものの精密性が低いという問題があり、逆に回帰木は、精密性は高いものの信頼性が低いという問題がある。これらに対してＭＳＲ法は、適切に要因集合を選ぶことが可能であれば、比較的精密性と信頼性をともに高めることができる。
【０００８】
しかしながら従来例の統計的モデル（（１）式）は、各要因集合が加法的な形で目的変数に寄与していることを想定しているため、説明変数間の相乗効果が目的変数に寄与するような場合には、精密性を高めるためには要因集合数を大きくせざるを得ず、精密性と信頼性を両立させることが難しいという問題があった。
【０００９】
本発明は、上記問題を考慮して達成され、各要因集合が加法的な形で目的変数に寄与している場合だけでなく、説明変数間の相乗効果が目的変数に寄与する場合にも精密性と信頼性が共に高いような特徴パラメータを推定することを含む音声情報処理方法を提供することを目的とする。
【００１０】
【課題を解決するための手段】
本発明に係る音声情報処理方法は、テキストを音声に変換するテキスト音声合成方法において、テキスト情報に対して言語処理を行い、言語処理情報から生成される複数の属性の状態に従って前記属性の属性値を求め、ｊ番目の属性の属性値ｄ_ｊの関数ｗ _ｎｊ（ｄ_ｊ）と定数ｗ _０とを用いて、
【００１１】
【数５】

で表されるｙをテキスト音声合成に関する特徴パラメータとすることを特徴とする。
【００１２】
原書処理情報とは、出力音声に関する付加情報とテキストから構成される。付加情報とは、音声に関する情報であって、テキストだけからは判断することが難しい情報を意味しており、例えば、話者、発声速度、発話スタイル（読み上げ調、会話調、案内調など）、感情（怒り、悲しみ、驚きなど）などで、この他にも種々の情報がある。また、テキストの代わりに、音韻記号列や音節記号列などの、テキストと同様の情報を含むものを用いてもよい。
【００１３】
属性とは、特徴パラメータの推定を行う際に言語処理情報より知ることができる情報の種類であり、統計的推定における説明変数に対応するものである。例えば、あるアクセント句の係り先を特徴パラメータとした場合、属性として、品詞、モーラ数、近傍アクセント句の品詞などが考えられる。また、なんらかの推定を行って得られた特徴パラメータを、さらに別の特徴パラメータを推定するための属性として用いてもよい。例えば、推定によって得られたアクセント句の係り先を属性の一つとしてアクセントの大きさを推定することも可能である。
【００１４】
属性値とは、前記属性の状態を表す数値である。属性がアクセント句の係り先（係り先なし、次に係る、２つ先に係る、３つ先に係る）のように順序関係を持つもの（いわゆる順序尺度）である場合は、順序関係に従った適当な値を属性値とすることができる。例えば、係り先であれば、なし：０、次：１、２つ先：２、３つ先：３、などとしてもよい。属性が、音韻継続時間長や基本周波数などのように数値として表されるもの（いわゆる間隔尺度または比尺度）である場合は、測定値を属性値とすることができる。あるいは、測定値を量子化して得られる代表値を順序尺度と同様に扱っても良い。属性が、品詞などのように順序関係を持たないもの（いわゆる分類尺度）である場合は、これらの分類のカテゴリーに対して任意の値を対応させて属性値とすることができる。例えば、品詞であれば、名詞：１、動詞：２、形容詞：３、などとしてもよい。
【００１５】
特徴パラメータとは、合成音声の性質を制御するにあたって使用されるパラメータであり、例えば、形態素の切れ目、漢字の読み、アクセント型、係り受けの構造、ポーズ長、ピッチパターン制御モデルのパラメータ、使用する音声素片などを表すパラメータであり、この他にも種々のパラメータがある。
【００１６】
本発明に係る音声情報処理方法は、テキストを音声に変換するテキスト音声合成方法であって、入力情報から生成される複数の属性の状態に従って前記属性の属性値を求め、ｊ番目の属性の属性値ｄ_ｊの関数ｗ _ｎｊ（ｄ_ｊ）と定数ｗ _０とを用いて、
【００１７】
【数６】

で表されるｙを量子化して得られる代表値に基づいて、テキスト音声合成に関する特徴パラメータの選択枝より選択する。
【００１８】
少なくとも１つの属性に対する属性値ｄ _ｊが有限個の値（ｄ_ｊ１，ｄ_ｊ２， …，ｄ_ｊＮ）をとる場合、好ましくは、各属性値に対応する係数（ａ_ｎｊ１，ａ_ｎｊ２， …，ａ_ｎｊＮ）を用いて該属性値の関数ｗ _ｎｊ（ｄ_ｊ）が
ｗ _ｎｊ（ｄ_ｊｍ）＝ａ _ｎｊｍ
で表されるようにしてもよい。
【００１９】
入力情報から属性値を求めることができなかったり、属性が想定していない状態となるなどして属性値が不明である場合、好ましくは、不明な属性値ｄ _ｊの関数ｗ _ｎｊ（ｄ_ｊ）が、定数Ｃ _ｎｊを用いて
ｗ _ｎｊ（ｄ_ｊｍ）＝Ｃ _ｎｊ
で表されるようにしてもよい。
【００２０】
本発明に係る情報処理方法は、ある事例に関する複数の属性の状態に従って、複数の選択枝より選択する方法であり、ｋ番目の選択枝に対応する特徴量の推定値ｙ _ｋを、ｊ番目の属性の状態によって決定される属性値ｄ _ｊの関数ｗ _ｋｎｊ（ｄ_ｊ）と定数ｗ _ｋ０とを用いて、
【００２１】
【数７】

によって求め、該推定された特徴量に基づいて前記複数の選択枝より選択する。
【００２２】
少なくとも１つの属性に対する属性値ｄ _ｊが有限個の値（ｄ_ｊ１，ｄ _ｊ２， …，ｄ _ｊＮ）をとるものである場合、好ましくは、各属性値に対応する係数（ａ_ｋｎｊ１，ａ _ｋｎｊ２， …，ａ_ｋｎｊＮ）を用いてｋ番目の選択枝に対応する属性値の関数ｗ _ｋｎｊ（ｄ_ｊ）が
ｗ _ｋｎｊ（ｄ_ｊｍ）＝ａ _ｋｎｊｍ
で表されるようにしてもよい。
【００２３】
言語処理情報から属性値を求めることができなかったり、属性が想定していない状態となるなどして、属性値が不明である場合、好ましくは、ｋ番目の選択枝に対応する、不明な属性値の関数ｗ _ｋｎｊ（ｄ_ｊ）が、定数Ｃ _ｋｎｊを用いて
ｗ _ｋｎｊ（ｄ_ｊｍ）＝Ｃ _ｋｎｊ
で表されるようにしてもよい。
【００２４】
好ましくは、前記特徴パラメータが、ピッチパターン制御モデルのパラメータであるようにしてもよい。また、好ましくは、前記ピッチパターン制御モデルが、複数の代表パターンより１つのパターンを選択し、該選択されたパターンに対して変形を施して得られるパターンをピッチパターンとするものであるようにしてもよい。
【００２５】
代表パターンとは、音声の基本周波数（またはピッチ周期）を表現するパラメータの代表的な変化パターンを表している。好ましくは、この変形は、少なくとも対数周波数軸上の並行移動を含むようにした方がよい。また、属性が、アクセント句のモーラ数、アクセント句の係り先、先行アクセント句の係り先を含むようにした方がよい。
【００２６】
【発明の実施の形態】
以下、図面を参照して本発明の一実施形態を説明する。図１は、本発明の音声情報処理方法を実現する音声情報処理装置の構成を示している。この図によると、テキスト情報が言語処理部１０に入力される。この言語処理部１０は、テキスト情報１０１に対して形態素解析および構文解析等の言語処理を行って、アクセント型１０２、モーラ数１０３、アクセント句の係り先１０４、先行アクセント句の係り先１０５、音韻記号列１０６をアクセント句毎に韻律生成部１１に出力する。例えば「あらゆる現実をすべて自分の方へねじ曲げたのだ」というテキストは、アクセント句は「あらゆる」、「現実を」、「すべて」、「自分の」、「方へ」、「ねじ曲げたのだ」と区分され、これらの各アクセント句について上記の情報１０２〜１０６が言語処理部１０から韻律生成部１１に出力される。
【００２７】
韻律生成部１１は、アクセント型１０２、モーラ数１０３、当該アクセント句の係り先１０４、先行アクセント句の係り先１０５、音韻記号列１０６の情報に対してアクセントやイントネーションの処理を行い、基本周波数の時間変化パターンであるピッチパターン１０７と音韻継続時間長１０８を音声信号生成部１２に出力する。
【００２８】
音声信号生成部１２は、音韻記号列１０６、ピッチパターン１０７、音韻継続時間長１０８より合成音声１１０を生成する。
次に、韻律生成部１１の詳細な動作について、図２を参照して説明する。代表パターン選択部２１は、アクセント型１０２、モーラ数１０３、アクセント句の係り先１０４、先行アクセント句の係り先１０５より、当該アクセント句に適した代表パターンを選択し、代表パターン番号２０１を出力する。
【００２９】
代表パターン記憶部２２は、記憶している複数の代表パターンの中から、代表パターン番号２０１に対応する代表パターン２０３を読み出して出力する。代表パターンとは、例えば図３に示されるような、音声の基本周波数の代表的な時間変化パターンの時間軸をモーラ単位に正規化したものである。
【００３０】
移動量生成部２０は、モーラ数１０３、当該アクセント句の係り先１０４、先行アクセント句の係り先１０５より、代表パターン２０３を対数周波数軸方向に並行移動する際の移動量２０２を求めて出力する。
【００３１】
音韻継続時間長生成部２３は、音韻記号列１０６に従って、各音韻の音韻継続時間長１０８を求めて音声信号生成部１２に出力する。ピッチパターン生成部２４は、音韻継続時間長１０８に従って各モーラの長さが音韻継続時間長と等しくなるように代表パターン２０３を時間方向に伸縮し、移動量２０２に従って対数周波数軸上で並行移動させて、ピッチパターン１０７を音声信号生成部１２に出力する。例えば、「あらゆる」というアクセント句に対して、ピッチパターンの生成を行った場合、図４に示すように代表パターン（ａ）が、時間方向に伸縮されパターン（ｂ）を生成し、このパターン（ｂ）が対数周波数軸上で並行移動されてピッチパターン（ｃ）が生成される。ただし、図４の縦軸は対数周波数を表すものとし、移動量２０２は１から５．５までの４．５とした。
【００３２】
次に、代表パターン選択部２１の詳細な動作について説明する。
まず、アクセント型１０２、モーラ数１０３、当該アクセント句の係り先１０４、先行アクセント句の係り先１０５を当該アクセント句に関する属性として、各代表パターンの評価値を推定する。
【００３３】
次に、代表パターン選択部２１は、推定された評価値が最小となる代表パターンの番号を代表パターン番号２０１として代表パターン記憶部２２に出力する。ここで、代表パターンの評価値とは、各代表パターンを使用して生成されるピッチパターンと、属性の状態の組合せに対して理想的なピッチパターンとの距離を表している。この距離の推定値の求め方について説明する。各属性の状態に対する属性値は図５のように定義される。
【００３４】
ｋ番目の代表パターンに対する距離の推定値ｙ_ｋを、属性値の関数ｗ _ｋｎｊ（ｄ_ｊ）（ｋ＝１，２， …，Ｋ）（ｎ＝１，２，…，Ｎ）（ｊ＝１，２，３，４）と定数ｗ _ｋ０を用いて次式（３）によって求める。
【００３５】
【数８】

関数ｗ _ｋｎｊ（ｄ_ｊ）（ｋ＝１，２， …Ｋ）（ｎ＝１，２， …，Ｎ）（ｊ＝１，２，３，４）は、係数ａ _ｋｎｊｍ（ｋ＝１，２， …，Ｋ）（ｎ＝１，２，…，Ｎ）（ｊ＝１，２，３，４）（ｍ＝０，１，２， …）とＣ _ｋｎｊを用いて次式（４）のように定
義される。
【００３６】
【数９】

ここで、ｄ_ｊが不明とは、言語処理の失敗などの理由で、属性の状態を知ることができないような場合を意味している。
【００３７】
（４）式の代わりに、次式（５）のような多項式を用いてもよい。
ｗ _ｋｎｊ（ｄ_ｊ）＝ｂ _ｋｎｊ２ｄ _ｊ ^２＋ｂ_ｋｎｊ１ｄ _ｊ＋ｂ _ｋｎｊ０（５）
（３）式のｗ _ｋ０および（４）式の係数ａ _ｋｎｊｍあるいは（５）式の係数ｂ _ｋｎｊｍはトレーニング事例に対する距離の推定値の誤差が最小となるように決定される。
【００３８】
トレーニング事例とは、実音声から抽出されたピッチパターンと各代表パターンとの距離のデータと、対応するテキストの属性（アクセント型、モーラ数、当該アクセント句の係り先、先行アクセント句の係り先）のデータの組合せである。トレーニング事例は、大量のテキストとそれを読み上げた実音声のデータを解析することにより得られる。
【００３９】
係数の最適化は、例えば距離の推定値の２乗平均誤差を評価関数として、公知の最適化手法を用いて行うことができる。
また、（４）式の係数Ｃ _ｋｎｊは、ａ _ｋｎｊ０，ａ_ｋｎｊ１，…の平均値とするか、あるいは属性値の出現頻度を考慮して重み付けを行った加重平均値としてもよい。
【００４０】
次に、移動量生成部２０の詳細な動作について説明する。
モーラ数１０３、当該アクセント句の係り先１０４、先行アクセント句の係り先１０５を当該アクセント句に関する属性として、これらの属性の状態の組合せに対して理想的な移動量を推定し、その推定値を移動量２０２としてピッチパターン生成部２４に出力する。移動量の推定値の求め方について説明する。各属性の状態に対する属性値を、代表パターン選択部２１と同様に、図５のように定義する。属性値の関数ｖ _ｎｊ（ｄ_ｊ）（ｎ＝１，２，…，Ｎ）（ｊ＝１，２，３）（ｍ＝０，１，２，３，…）と定数ｖ_０を用いて移動量の推定値ｙを次式（６）によって求める。
【００４１】
【数１０】

関数ｖ _ｎｊ（ｄ_ｊ）（ｎ＝１，２，…，Ｎ）（ｊ＝１，２，…，Ｎ）（ｊ＝１，２，３）は、係数ａ _ｎｊｍ（ｎ：１，２， …，Ｎ）（ｊ＝１，２，３）（ｍ＝０，１，２， …）を用いて次式（７）のように定義される。
【００４２】
【数１１】

【００４３】
式（７）の代わりに次式（８）のような多項式を用いてもよい。
ｖ _ｎｊ（ｄ_ｊ）＝ｂ _ｋｎｊ２ｄ _ｊ ^２＋ｂ _ｎｊ１ｄ _ｊ＋ｂ _ｎｊ０（８）
（６）式のｗ _０および（７）式の係数ａ _ｎｊｍあるいは（８）式の係数ｂ _ｎｊｍはトレーニング事例に対する距離の推定値の誤差が最小となるように決定される。
【００４４】
この場合のトレーニング事例は、実音声から抽出されたピッチパターンを代表パターンによって最適に近似するための代表パターンの移動量のデータと、テキストから求められた属性（モーラ数、当該アクセント句の係り先、先行アクセント句の係り先）のデータの組合せによって構成される。
【００４５】
係数の最適化は、例えば移動量の推定値の２乗平均誤差を評価関数として、公知の最適化手法を用いて行うことができる。また、（７）式の係数ｃ _ｎｊは、ａ _ｎｊ０，ａ_ｎｊ１，…の平均値とするか、あるいは属性値の出現頻度を考慮して重み付けを行った加重平均値としてもよい。
式（６）のｙを移動量２０２とする代わりに、ｙを量子化して得られるｙ’を移動量２０２として次式（９）のように表してもよい。
【００４６】
【数１２】

【００４７】
以上の実施形態において、定数項ｗ _０およびｗ _ｋ０は常に０として最適化を行わないようにしてもよい。また、２つ以上の属性の組合せを新たに１つの属性と定義してもよい。例えば、「アクセント型」と「モーラ数」の２つの属性を組み合わせて１つの属性とし、図６のように属性値を付与することも可能である。
【００４８】
【発明の効果】
以上説明したように、本発明の音声情報処理方法では、属性の状態によって決定される属性値の関数の積和によって特徴パラメータをモデル化している。そのため、属性を用いて定義される要因集合が、推定する特徴量に加法的な形で寄与している場合だけでなく、属性間の相乗効果の寄与が含まれる場合においても、推定精度が高い推定モデルを少ないパラメータで構成することが可能であり、トレーニング事例以外の事例に対しても精度の高い特徴パラメータを生成することが可能である。
【図面の簡単な説明】
【図１】本発明の一実施形態に係る音声情報処理装置の構成を示すブロック図
【図２】本発明の実施形態における韻律生成部の構成を示すフロック図
【図３】本発明の実施形態における代表パターンの例を示す模式図
【図４】本発明の実施形態におけるピッチパターンの生成の一例を説明するための図
【図５】本発明の実施形態における属性値の例を示す図
【図６】本発明の実施形態における属性値の例を示す図
【符号の説明】
１０…言語処理部
１１…韻律生成部
１２…音声信号生成部
２０…移動量生成部
２１…代表パターン選択部
２２…代表パターン記憶部
２３…音韻継続時間長生成部
２４…ピッチパターン生成部

Claims

テキストを音声に変換するテキスト音声合成方法において、テキスト情報に対して言語処理を行い、言語処理情報から生成される複数の属性の状態に従って前記属性の属性値を求め、ｊ番目の属性の属性値ｄ_ｊの関数w_knj(d_j)と定数w_k0とを用いて、

によって、テキスト音声合成に関する特徴パラメータのｋ番目の選択枝の評価値ｙｋを求め、該評価値に基づいて前記選択枝より選択することを特徴とする音声情報処理方法。
少なくとも１つの属性に対する属性値ｄ_ｊが有限個の値(d_j1,d_j2、…、d_jN)をとるものであって、各属性値に対応する係数(a_knj1,a_knj2、…、a_knjN)を用いてｋ番目の選択枝に対応する属性値の関数w_knj(d_j)が
w_knj(d_jm)=a_knjm
で表されることを特徴とする請求項１に記載の音声情報処理方法。
属性置ｄ_ｊが不明である場合、ｋ番目の選択枝に対応する属性値の関数w_knj(d_j)が、定数C_knjを用いて
w_knj(d_j)=C_knj
で表されることを特徴とする請求項１に記載の音声情報処理方法。
前記特徴パラメータが、ピッチパターン制御モデルのパラメータであることを特徴とする、請求項１乃至３のいずれか１つに記載の音声情報処理方法。
前記ピッチパターン制御モデルが、複数の代表パターンより１つのパターンを選択し、選択された該パターンに対して変形を施して得られるパターンをピッチパターンとするものであることを特徴とする請求項４に記載の音声情報処理方法。
前記変形が、少なくとも対数周波数軸上の並行移動を含むことを特徴とする請求項５に記載の音声情報処理方法。
前記属性が、アクセント句のモーラ数、アクセント句の係り先、先行アクセント句の係り先を合むことを特徴とする請求項１乃至３のいすれか１つに記載の音声情報処理方法。
テキストを音声に変換するテキスト音声合成方法において、テキスト情報に対して言語処理を行い、言語処理情報から生成される複数の属性の状態に従って前記属性の属性値を求め、属性値ｄ_ｊが不明である場合、該属性値の関数w_ｎｊ（ｄ_ｊ）が、定数Ｃ_ｎｊを用いて
w_nj(d_j)=c_nj
で表され、ｊ番目の属性の属性値ｄｊの関数w_nj(d_j)と定数w_０とを用いて、

で表されるｙをテキスト音声合成に関する特徴パラメータとすることを特徴とする音声情報処理方法。
テキストを音声に変換するテキスト音声合成方法において、テキスト情報に対して言語処理を行い、言語処理情報から生成される複数の属性の状態に従って前記属性の属性値を求め、属性値ｄ_ｊが不明である場合、該属性値の関数w_ｎｊ（ｄ_ｊ）が、定数Ｃ_ｎｊを用いて
w_nj(d_j)=c_nj
で表され、ｊ番目の属性の属性値ｄ_ｊの関数w_nj(d_j)と定数w₀とを用いて、

で表されるｙをテキスト音声合成に関する特徴パラメータとすることを特徴とする音声情報処理方法。