JPH11265194A

JPH11265194A - 音声情報処理方法

Info

Publication number: JPH11265194A
Application number: JP10067423A
Authority: JP
Inventors: Takehiko Kagoshima; 岳彦籠嶋; Shigenobu Seto; 重宣瀬戸; Shinko Morita; 眞弘森田
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1998-03-17
Filing date: 1998-03-17
Publication date: 1999-09-28
Anticipated expiration: 2018-03-17
Also published as: JP3576792B2

Abstract

(57)【要約】【課題】説明変数間の相乗効果が目的変数に寄与する場
合にも精密性と信頼性が共に高いような特徴パラメータ
を推定することを含む音声情報処理方法を提供する。【解決手段】テキストを音声に変換するテキスト音声合
成方法において、入力情報から生成される複数の属性の
状態に従って前記属性の属性値を求め、ｊ番目の属性の
属性値d _j の関数w _nj(d_j ) と定数w ₀ とを用いて、【数１】で表されるｙをテキスト音声合成に関する特徴パラメー
タとする。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、テキスト音声合成
に関し、特に入力情報からテキスト音声合成に関する種
々の特徴パラメータを推定することを含む音声情報処理
方法に関する。

【０００２】

【従来の技術】任意の文章から人工的に音声信号を作り
出すことをテキスト合成という。通常このテキスト合成
システムは、言語処理部、韻律生成部、音声信号生成部
の３つの段階から構成される。入力されたテキストは、
まず言語処理部において形態素解析や構文解析などが行
われる。次に韻律生成部においてアクセントやイントネ
ーションの処理が行われ、音韻記号列、ピッチパター
ン、音韻継続時間長などの情報が出力される。最後に、
音声信号生成部で音声信号が合成される。

【０００３】このようなテキスト音声合成においては、
処理の各段階において、種々の特徴パラメータを推定す
る必要がある。例えば、言語処理部においては、形態素
の切れ目、漢字の読み、係り受けの構造などを、韻律生
成部においては、ピッチの上げ下げのタイミング、ピッ
チの上げ下げの大きさ、音韻継続時間長などの推定が必
要となる。

【０００４】このような特徴パラメータの推定を行うた
めの統計的手法として、数量化Ｉ類や回帰木などが良く
知られている。また、これらの方法を拡張したものとし
て、空間分割型数量化法（以下ＭＳＲ法と呼ぶ）が提案
されている。例えば、特開平６−２８２２９４あるいは
特開平９−９０９７０にＭＳＲ法を音声合成における韻
律パラメータの推定に適用した例が開示されている。説
明変数空間における位置べクトルｄで説明変数を表し、
Ｓ_n を説明変数空間で定義される要因集合とすると、
数量化Ｉ類、回帰木、ＭＳＲ法に共通するモデルは次式
で表すことができる。

【０００５】

【数４】ここで、ｙが推定値、w _n は各要因集合S _n に対する重
み係数を表している。数量化Ｉ類や回帰木は、上記のモ
デルにおいて、要因集合S _n に拘束条件を付加して得ら
れる特殊解と考えられる。これらに対してＭＳＲ法は、
要因集合Ｓｎに拘束を設けない一般解とみなすことがで
きる。これらの従来例において、各要因集合とその重み
係数は、多数のトレーニング事例を用いて決定される。
ここで、トレーニング事例とは、全ての説明変数の値と
それに対応する目的変数の正しい値の組を表している。
すなわち、推定値と正しい値との誤差が最小となるよう
な要因集合と重み係数が、何らかの最適化手法や解析的
な方法によって求められる。

【０００６】

【発明が解決しようとする課題】統計的な手法による特
徴パラメータの推定において重要なことは、トレーニン
グ事例だけでなく、それ以外の事例についても高い推定
精度が得られることである。このことは、（ａ）トレー
ニング事例に対する推定精度が高く、かつ（ｂ）トレー
ニング事例以外の事例に対する推定精度がトレーニング
事例に対するそれと比べてそれほど悪くならないと言い
替えることができる。仮に前者の性質（ａ）を「精密
性」、後者の性質（ｂ）を「信頼性」と呼ぶことにす
る。

【０００７】従来例において、精密性を向上させるため
には、要因集合の数を増やすことによって説明変数空間
を細分化する必要がある。これに対して、信頼性を向上
させるためには各要因集合に属するトレーニング事例数
がある程度大きくする必要があるため、要因集合の数を
減らさなければならない。要因集合に付加する拘束条件
より、数量化Ｉ類は、信頼性は高いものの精密性が低い
という問題があり、逆に回帰木は、精密性は高いものの
信頼性が低いという問題がある。これらに対してＭＳＲ
法は、適切に要因集合を選ぶことが可能であれば、比較
的精密性と信頼性をともに高めることができる。

【０００８】しかしながら従来例の統計的モデル
（（１）式）は、各要因集合が加法的な形で目的変数に
寄与していることを想定しているため、説明変数間の相
乗効果が目的変数に寄与するような場合には、精密性を
高めるためには要因集合数を大きくせざるを得ず、精密
性と信頼性を両立させることが難しいという問題があっ
た。

【０００９】本発明は、上記問題を考慮して達成され、
各要因集合が加法的な形で目的変数に寄与している場合
だけでなく、説明変数間の相乗効果が目的変数に寄与す
る場合にも精密性と信頼性が共に高いような特徴パラメ
ータを推定することを含む音声情報処理方法を提供する
ことを目的とする。

【００１０】

【課題を解決するための手段】本発明に係る音声情報処
理方法は、テキストを音声に変換するテキスト音声合成
方法において、テキスト情報に対して言語処理を行い、
言語処理情報から生成される複数の属性の状態に従って
前記属性の属性値を求め、ｊ番目の属性の属性値ｄ_j
の関数w _nj （ｄ_j ）と定数w ₀ とを用いて、

【００１１】

【数５】で表されるｙをテキスト音声合成に関する特徴パラメー
タとすることを特徴とする。

【００１２】原書処理情報とは、出力音声に関する付加
情報とテキストから構成される。付加情報とは、音声に
関する情報であって、テキストだけからは判断すること
が難しい情報を意味しており、例えば、話者、発声速
度、発話スタイル（読み上げ調、会話調、案内調な
ど）、感情（怒り、悲しみ、驚きなど）などで、この他
にも種々の情報がある。また、テキストの代わりに、音
韻記号列や音節記号列などの、テキストと同様の情報を
含むものを用いてもよい。

【００１３】属性とは、特徴パラメータの推定を行う際
に言語処理情報より知ることができる情報の種類であ
り、統計的推定における説明変数に対応するものであ
る。例えば、あるアクセント句の係り先を特徴パラメー
タとした場合、属性として、品詞、モーラ数、近傍アク
セント句の品詞などが考えられる。また、なんらかの推
定を行って得られた特徴パラメータを、さらに別の特徴
パラメータを推定するための属性として用いてもよい。
例えば、推定によって得られたアクセント句の係り先を
属性の一つとしてアクセントの大きさを推定することも
可能である。

【００１４】属性値とは、前記属性の状態を表す数値で
ある。属性がアクセント句の係り先（係り先なし、次に
係る、２つ先に係る、３つ先に係る）のように順序関係
を持つもの（いわゆる順序尺度）である場合は、順序関
係に従った適当な値を属性値とすることができる。例え
ば、係り先であれば、なし：０、次：１、２つ先：２、
３つ先：３、などとしてもよい。属性が、音韻継続時間
長や基本周波数などのように数値として表されるもの
（いわゆる間隔尺度または比尺度）である場合は、測定
値を属性値とすることができる。あるいは、測定値を量
子化して得られる代表値を順序尺度と同様に扱っても良
い。属性が、品詞などのように順序関係を持たないもの
（いわゆる分類尺度）である場合は、これらの分類のカ
テゴリーに対して任意の値を対応させて属性値とするこ
とができる。例えば、品詞であれば、名詞：１、動詞：
２、形容詞：３、などとしてもよい。

【００１５】特徴パラメータとは、合成音声の性質を制
御するにあたって使用されるパラメータであり、例え
ば、形態素の切れ目、漢字の読み、アクセント型、係り
受けの構造、ポーズ長、ピッチパターン制御モデルのパ
ラメータ、使用する音声素片などを表すパラメータであ
り、この他にも種々のパラメータがある。

【００１６】本発明に係る音声情報処理方法は、テキス
トを音声に変換するテキスト音声合成方法であって、入
力情報から生成される複数の属性の状態に従って前記属
性の属性値を求め、ｊ番目の属性の属性値ｄ_j の関数
w _nj(d_j ) と定数w ₀ とを用いて、

【００１７】

【数６】で表されるｙを量子化して得られる代表値に基づいて、
テキスト音声合成に関する特徴パラメータの選択枝より
選択する。

【００１８】少なくとも１つの属性に対する属性値d _j
が有限個の値(d_j1,d_j2, …,d_jN) をとる場合、好ましく
は、各属性値に対応する係数(a_nj1 ,a_nj2 , …,a_njN )
を用いて該属性値の関数w _nj(d_j ) が w _nj(d_jm) = a _njm で表されるようにしてもよい。

【００１９】入力情報から属性値を求めることができな
かったり、属性が想定していない状態となるなどして属
性値が不明である場合、好ましくは、不明な属性値d _j
の関数w _nj(d_j ) が、定数C _nj を用いて w _nj(d_jm) = C _nj で表されるようにしてもよい。

【００２０】本発明に係る情報処理方法は、ある事例に
関する複数の属性の状態に従って、複数の選択枝より選
択する方法であり、ｋ番目の選択枝に対応する特徴量の
推定値y _k を、ｊ番目の属性の状態によって決定される
属性値d _j の関数w _knj (d_j) と定数w _k0 とを用い
て、

【００２１】

【数７】によって求め、該推定された特徴量に基づいて前記複数
の選択枝より選択する。

【００２２】少なくとも１つの属性に対する属性値d _j
が有限個の値(d_j1, d _j2, …, d _jN) をとるものである
場合、好ましくは、各属性値に対応する係数(a_knj1, a
_knj2, …,a_knjN) を用いてｋ番目の選択枝に対応する属
性値の関数w _knj (d_j ) が w _knj (d_jm) = a _knjm で表されるようにしてもよい。

【００２３】言語処理情報から属性値を求めることがで
きなかったり、属性が想定していない状態となるなどし
て、属性値が不明である場合、好ましくは、ｋ番目の選
択枝に対応する、不明な属性値の関数w _knj (d_j ) が、
定数C _knj を用いて w _knj (d_jm) = C _knj で表されるようにしてもよい。

【００２４】好ましくは、前記特徴パラメータが、ピッ
チパターン制御モデルのパラメータであるようにしても
よい。また、好ましくは、前記ピッチパターン制御モデ
ルが、複数の代表パターンより１つのパターンを選択
し、該選択されたパターンに対して変形を施して得られ
るパターンをピッチパターンとするものであるようにし
てもよい。

【００２５】代表パターンとは、音声の基本周波数（ま
たはピッチ周期）を表現するパラメータの代表的な変化
パターンを表している。好ましくは、この変形は、少な
くとも対数周波数軸上の並行移動を含むようにした方が
よい。また、属性が、アクセント句のモーラ数、アクセ
ント句の係り先、先行アクセント句の係り先を含むよう
にした方がよい。

【００２６】

【発明の実施の形態】以下、図面を参照して本発明の一
実施形態を説明する。図１は、本発明の音声情報処理方
法を実現する音声情報処理装置の構成を示している。こ
の図によると、テキスト情報が言語処理部１０に入力さ
れる。この言語処理部１０は、テキスト情報１０１に対
して形態素解析および構文解析等の言語処理を行って、
アクセント型１０２、モーラ数１０３、アクセント句の
係り先１０４、先行アクセント句の係り先１０５、音韻
記号列１０６をアクセント句毎に韻律生成部１１に出力
する。例えば「あらゆる現実をすべて自分の方へねじ曲
げたのだ」というテキストは、アクセント句は「あらゆ
る」、「現実を」、「すべて」、「自分の」、「方
へ」、「ねじ曲げたのだ」と区分され、これらの各アク
セント句について上記の情報１０２〜１０６が言語処理
部１０から韻律生成部１１に出力される。

【００２７】韻律生成部１１は、アクセント型１０２、
モーラ数１０３、当該アクセント句の係り先１０４、先
行アクセント句の係り先１０５、音韻記号列１０６の情
報に対してアクセントやイントネーションの処理を行
い、基本周波数の時間変化パターンであるピッチパター
ン１０７と音韻継続時間長１０８を音声信号生成部１２
に出力する。

【００２８】音声信号生成部１２は、音韻記号列１０
６、ピッチパターン１０７、音韻継続時間長１０８より
合成音声１１０を生成する。次に、韻律生成部１１の詳
細な動作について、図２を参照して説明する。代表パタ
ーン選択部２１は、アクセント型１０２、モーラ数１０
３、アクセント句の係り先１０４、先行アクセント句の
係り先１０５より、当該アクセント句に適した代表パタ
ーンを選択し、代表パターン番号２０１を出力する。

【００２９】代表パターン記憶部２２は、記憶している
複数の代表パターンの中から、代表パターン番号２０１
に対応する代表パターン２０３を読み出して出力する。
代表パターンとは、例えば図３に示されるような、音声
の基本周波数の代表的な時間変化パターンの時間軸をモ
ーラ単位に正規化したものである。

【００３０】移動量生成部２０は、モーラ数１０３、当
該アクセント句の係り先１０４、先行アクセント句の係
り先１０５より、代表パターン２０３を対数周波数軸方
向に並行移動する際の移動量２０２を求めて出力する。

【００３１】音韻継続時間長生成部２３は、音韻記号列
１０６に従って、各音韻の音韻継続時間長１０８を求め
て音声信号生成部１２に出力する。ピッチパターン生成
部２４は、音韻継続時間長１０８に従って各モーラの長
さが音韻継続時間長と等しくなるように代表パターン２
０３を時間方向に伸縮し、移動量２０２に従って対数周
波数軸上で並行移動させて、ピッチパターン１０７を音
声信号生成部１２に出力する。例えば、「あらゆる」と
いうアクセント句に対して、ピッチパターンの生成を行
った場合、図４に示すように代表パターン（ａ）が、時
間方向に伸縮されパターン（ｂ）を生成し、このパター
ン（ｂ）が対数周波数軸上で並行移動されてピッチパタ
ーン（ｃ）が生成される。ただし、図４の縦軸は対数周
波数を表すものとし、移動量２０２は１から５．５まで
の４．５とした。

【００３２】次に、代表パターン選択部２１の詳細な動
作について説明する。まず、アクセント型１０２、モー
ラ数１０３、当該アクセント句の係り先１０４、先行ア
クセント句の係り先１０５を当該アクセント句に関する
属性として、各代表パターンの評価値を推定する。

【００３３】次に、代表パターン選択部２１は、推定さ
れた評価値が最小となる代表パターンの番号を代表パタ
ーン番号２０１として代表パターン記憶部２２に出力す
る。ここで、代表パターンの評価値とは、各代表パター
ンを使用して生成されるピッチパターンと、属性の状態
の組合せに対して理想的なピッチパターンとの距離を表
している。この距離の推定値の求め方について説明す
る。各属性の状態に対する属性値は図５のように定義さ
れる。

【００３４】ｋ番目の代表パターンに対する距離の推定
値ｙ_k を、属性値の関数w _knj (d_j )(k=1,2, …,K)
(n=1,2,…,N)(j=1,2,3,4)と定数w _k0 を用いて次式
（３）によって求める。

【００３５】

【数８】関数w _knj (d_j )(k=1,2, …K)(n=1,2, …,N)(j=1,2,3,
4)は、係数a _knjm(k=1,2, …,K)(n=1,2,…,N)(j=1,2,3,
4)(m=0,1,2, …) とC _knj を用いて次式（４）のように
定義される。

【００３６】

【数９】ここで、ｄ_j が不明とは、言語処理の失敗などの理由
で、属性の状態を知ることができないような場合を意味
している。

【００３７】（４）式の代わりに、次式（５）のような
多項式を用いてもよい。 w _knj (d_j ) = b _knj2d _j ² + b_knj1d _j + b _knj0 （５）（３）式のw _k0 および（４）式の係数a _knjm あるい
は（５）式の係数b _knjm はトレーニング事例に対する
距離の推定値の誤差が最小となるように決定される。

【００３８】トレーニング事例とは、実音声から抽出さ
れたピッチパターンと各代表パターンとの距離のデータ
と、対応するテキストの属性（アクセント型、モーラ
数、当該アクセント句の係り先、先行アクセント句の係
り先）のデータの組合せである。トレーニング事例は、
大量のテキストとそれを読み上げた実音声のデータを解
析することにより得られる。

【００３９】係数の最適化は、例えば距離の推定値の２
乗平均誤差を評価関数として、公知の最適化手法を用い
て行うことができる。また、（４）式の係数C _knj は、
a _knj0,a_knj1 ，…の平均値とするか、あるいは属性値
の出現頻度を考慮して重み付けを行った加重平均値とし
てもよい。

【００４０】次に、移動量生成部２０の詳細な動作につ
いて説明する。モーラ数１０３、当該アクセント句の係
り先１０４、先行アクセント句の係り先１０５を当該ア
クセント句に関する属性として、これらの属性の状態の
組合せに対して理想的な移動量を推定し、その推定値を
移動量２０２としてピッチパターン生成部２４に出力す
る。移動量の推定値の求め方について説明する。各属性
の状態に対する属性値を、代表パターン選択部２１と同
様に、図５のように定義する。属性値の関数v _nj(d_j )
(n=1,2,…,N) (j=1,2,3)(m=0,1,2,3,…) と定数ｖ₀
を用いて移動量の推定値ｙを次式（６）によって求め
る。

【００４１】

【数１０】関数v _nj(d_j )(n=1,2,…,N)(j=1,2,…,N)(j=1,2,3)は、
係数a _njm (n:1,2, …,N)(j=1,2,3)(m=0,1,2, …) を用
いて次式（７）のように定義される。

【００４２】

【数１１】

【００４３】式（７）の代わりに次式（８）のような多
項式を用いてもよい。 v _nj(d_j ) = b _knj2d _j ² + b _nj1 d _j + b _nj0 （８）（６）式のw ₀ および（７）式の係数a _njm あるいは
（８）式の係数b _njm はトレーニング事例に対する距離
の推定値の誤差が最小となるように決定される。

【００４４】この場合のトレーニング事例は、実音声か
ら抽出されたピッチパターンを代表パターンによって最
適に近似するための代表パターンの移動量のデータと、
テキストから求められた属性（モーラ数、当該アクセン
ト句の係り先、先行アクセント句の係り先）のデータの
組合せによって構成される。

【００４５】係数の最適化は、例えば移動量の推定値の
２乗平均誤差を評価関数として、公知の最適化手法を用
いて行うことができる。また、（７）式の係数c _nj
は、a_nj0 ,a_nj1 ，…の平均値とするか、あるいは属
性値の出現頻度を考慮して重み付けを行った加重平均値
としてもよい。式（６）のｙを移動量２０２とする代わ
りに、ｙを量子化して得られるｙ’を移動量２０２とし
て次式（９）のように表してもよい。

【００４６】

【数１２】

【００４７】以上の実施形態において、定数項w ₀ およ
びw _k0 は常に０として最適化を行わないようにしても
よい。また、２つ以上の属性の組合せを新たに１つの属
性と定義してもよい。例えば、「アクセント型」と「モ
ーラ数」の２つの属性を組み合わせて１つの属性とし、
図６のように属性値を付与することも可能である。

【００４８】

【発明の効果】以上説明したように、本発明の音声情報
処理方法では、属性の状態によって決定される属性値の
関数の積和によって特徴パラメータをモデル化してい
る。そのため、属性を用いて定義される要因集合が、推
定する特徴量に加法的な形で寄与している場合だけでな
く、属性間の相乗効果の寄与が含まれる場合において
も、推定精度が高い推定モデルを少ないパラメータで構
成することが可能であり、トレーニング事例以外の事例
に対しても精度の高い特徴パラメータを生成することが
可能である。

【図面の簡単な説明】

【図１】本発明の一実施形態に係る音声情報処理装置の
構成を示すブロック図

【図２】本発明の実施形態における韻律生成部の構成を
示すフロック図

【図３】本発明の実施形態における代表パターンの例を
示す模式図

【図４】本発明の実施形態におけるピッチパターンの生
成の一例を説明するための図

【図５】本発明の実施形態における属性値の例を示す図

【図６】本発明の実施形態における属性値の例を示す図

【符号の説明】

１０…言語処理部１１…韻律生成部１２…音声信号生成部２０…移動量生成部２１…代表パターン選択部２２…代表パターン記憶部２３…音韻継続時間長生成部２４…ピッチパターン生成部

Claims

【特許請求の範囲】

【請求項１】テキストを音声に変換するテキスト音声
合成方法において、テキスト情報に対して言語処理を行
い、言語処理情報から生成される複数の属性の状態に従
って前記属性の属性値を求め、ｊ番目の属性の属性値ｄ
ｊの関数w _nj(d_j ) と定数w ₀ とを用いて、【数１】で表されるｙをテキスト音声合成に関する特徴パラメー
タとすることを特徴とする音声情報処理方法。
【請求項２】テキストを音声に変換するテキスト音声
合成方法において、テキスト情報に対して言語処理を行
い、言語処理情報から生成される複数の属性の状態に従
って前記属性の属性値を求め、ｊ番目の属性の属性値ｄ
_j の関数w_nj(d_j ) と定数w ₀ とを用いて、【数２】で表されるｙを量子化して得られる代表値に基づいて、
テキスト音声合成に関する特徴パラメータの選択枝より
選択することを特徴とする音声情報処理方法。
【請求項３】テキストを音声に変換するテキスト音声
合成方法において、テキスト情報に対して言語処理を行
い、言語処理情報から生成される複数の属性の状態に従
って前記属性の属性値を求め、ｊ番目の属性の属性値ｄ
_j の関数w_knj (d_j ) と定数w _k0 とを用いて、【数３】によって、テキスト音声合成に関する特徴パラメータの
ｋ番目の選択枝の評価値ｙｋを求め、該評価値に基づい
て前記選択枝より選択することを特徴とする音声情報処
理方法。
【請求項４】少なくとも１つの属性に対する属性値ｄ
_j が有限個の値(d_j1,d_j2、 …、d_jN) をとるものであっ
て、各属性値に対応する係数(a_nj1 、a_nj2 、…、a_njN )
を用いて該属性値の関数w _nj(d_j ) が w _nj(d_jm)=a _njm で表されることを特徴とする請求項１または請求項２に
記載の情報処理方法。
【請求項５】属性値ｄ_j が不明である場合、該属性
値の関数w _nj （ｄ_j ）が、定数Ｃ_njを用いて w_nj(d_j )=c _nj で表されることを特徴とする請求項１または請求項２に
記載の情報処理方法。
【請求項６】少なくとも１つの属性に対する属性値ｄ
_j が有限個の値(d_j1,d_j2、 …、d_jN) をとるものであっ
て、各属性値に対応する係数(a_knj1,a_knj2、…、a_knjN)
を用いてｋ番目の選択枝に対応する属性値の関数w _knj
(d_j ) が w _knj (d_jm)=a _knjm で表されることを特徴とする請求項３に記載の音声情報
処理方法
【請求項７】属性置ｄ_j が不明である場合、ｋ番目
の選択枝に対応する属性値の関数w _knj (d_j ) が、定数
C _knj を用いて w _knj (d_j )=C _knj で表されることを特徴とする請求項３に記載の音声情報
処理方法。
【請求項８】前記特徴パラメータが、ピッチパターン
制御モデルのパラメータであることを特徴とする、請求
項１乃至７のいずれか１つに記載の音声情報処理方法。
【請求項９】前記ピッチパターン制御モデルが、複数
の代表パターンより１つのパターンを選択し、選択され
た該パターンに対して変形を施して得られるパターンを
ピッチパターンとするものであることを特徴とする請求
項８に記載の音声情報処理方法。
【請求項１０】前記変形が、少なくとも対数周波数軸
上の並行移動を含むことを特徴とする請求項９に記載の
音声情報処理方法。
【請求項１１】前記属性が、アクセント句のモーラ
数、アクセント句の係り先、先行アクセント句の係り先
を合むことを特徴とする請求項１乃至７のいすれか１つ
に記載の音声情報処理方法。