JP2002244689A

JP2002244689A - 平均声の合成方法及び平均声からの任意話者音声の合成方法

Info

Publication number: JP2002244689A
Application number: JP2001045910A
Authority: JP
Inventors: Takao Kobayashi; 隆夫小林; Takashi Masuko; 貴史益子; Masanori Tamura; 正統田村; Keiichi Tokuda; 恵一徳田
Original assignee: Rikogaku Shinkokai
Current assignee: Rikogaku Shinkokai
Priority date: 2001-02-22
Filing date: 2001-02-22
Publication date: 2002-08-30

Abstract

(57)【要約】【課題】複数の話者の平均的な特徴を有する合成音声
（平均声）の合成方法を提供することを課題とする。さ
らに、この平均声を任意話者に適応させて任意話者の声
質及び韻律特徴を有する合成音声の合成方法を提供する
ことを課題とする。【解決手段】複数話者の発話を隠れマルコフモデル
（ＨＭＭ）によりモデル化して複数話者の平均的な音声
（平均声）を合成するによる音声合成方法を提供する。
さらに、平均声を任意話者に適応させて任意話者の音声
を合成する話者適応音声の合成方法を提供する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声合成に関する
ものである。特に、多数話者の平均的な特徴を有する音
声（平均声）を合成する方法及び、この平均声を任意話
者に適応させて任意話者の声質及び韻律特徴を有する音
声の合成方法に関する。

【０００２】

【従来の技術】従来、音声認識の分野では隠れマルコフ
モデル（以下ＨＭＭと言う）は、大きな成功を収めてお
り、ＨＭＭは、音声認識には欠くことのできない手法と
なっている。近年、音声合成の分野においても、ＨＭＭ
はさまざまな形で利用されるようになってきている。

【０００３】音声合成の分野におけるＨＭＭの利用形態
としては、第１には、音声素片を結合する手法におい
て、音声素片の選択にＨＭＭを用いる方法が挙げられ
る。しかしこの、音声素片を結合して音声を合成する方
法は、どんなに大量の音声データを用いて音声データベ
ースを構築したとしても、すべての音声現象を網羅する
ことは不可能であり、多様な声質や発話スタイルで音声
を合成することが難しいという問題点を持っている。

【０００４】また、ＨＭＭの第２の利用形態としては、
ＨＭＭを用いて直接音声パラメータを生成する方法が挙
げられる。ここで音声パラメータとは、音声を合成する
際に必要となる特徴量のことであり、声の抑揚に対応す
るピッチパラメータ、音韻や声質に対応するスペクトル
パラメータなどがある。この方法は、音声合成の基本単
位である各ＨＭＭのモデルパラメータを適宜修正するこ
とにより、多様な声質や発話スタイルで音声を合成でき
る可能性があるという利点を持っている。

【０００５】前述したＨＭＭから音声パラメータを直接
生成する第２の従来法は、与えられた状態系列に対し
て、出力確率が最大となる音声パラメータ系列を出力す
ることを基本としている。このときに、音声パラメータ
は、ＨＭＭの一つの状態が継続している間は一定の値を
取り、状態が変化するたびに、不連続に変化してしま
う。

【０００６】不連続な変化を有する音声パラメータ系列
を基にして音声を合成すると、不連続な変化が異音とし
て知覚されてしまうという問題があり、この不連続な変
化を抑制するために、便宜的、人為的な仮定を設けて、
音声パラメータ系列の不連続な変化を補間又は平滑化す
る試みがなされていた。

【０００７】本発明者らは、この課題に対して、何らの
便宜的な仮定を設けることなく、連続分布ＨＭＭにおい
て、音声パラメータ（静的特徴量）のみならず、その時
間微分である動的特徴量も考慮し、尤度最大の意味で最
適な音声パラメータを生成する方法を考案した。これに
より、従来問題とされていた状態遷移や音素の接続部位
において、音声パラメータをより自然の発声に近いよう
に変化させることが可能となった。

【０００８】ここで、本発明者らが提案したＨＭＭから
の音声パラメータの生成手法について詳述する。連続出
力分布型のＨＭＭλが与えられたときに、λから長さT
の出力ベクトル系列(o₁,o₂,・・・,o_T)を生成することを考
える。時刻ｔにおける出力ベクトルo_tは、静的特徴量c_t
（例えばメルケプストラム係数）と、動的特徴量Δc_t及
びΔ²c_tで構成され、o_t＝[c_t',Δc_t',Δ²c_t']'で表され
るとする。ここで、記号「'」はベクトルの転置を表
す。

【０００９】ただし、Δc_t及びΔ²c_tの値は、静的特徴
量c_tを用いて

【００１０】

【数１】

【００１１】により計算されるものとする。ここで、ｗ
₁（τ）、ｗ₂(τ)は、動的特徴量を計算するための重み
係数である。

【００１２】このとき、ある与えられた状態系列Ｑ＝(q
₁,q₂・・・,q_T)に沿って、パラメータ系列から作られるベ
クトルＯ＝[o₁',o₂',・・・,o_T'] 'がλから観測される確
率（Ｏに関するＱ、λの尤度）Ｐ（Ｏ｜Ｑ,λ）を最大
にする音声パラメータベクトルC＝[c₁',c₂',・・・,c_T'] '
を求めることを考える。

【００１３】ここで、λの各状態が単一ガウス分布を持
つとすると、Ｐ（Ｏ｜Ｑ,λ）の対数は、

【００１４】

【数２】

【００１５】と書くことができる。ここで、Ｃｏｎｓ
ｔ．は定数項であり、また、

【００１６】

【数３】

【００１７】であり、μ_qtとＵ_qtはそれぞれ状態q_tの平
均ベクトルと共分散行列である。

【００１８】式（１）、（２）の制約を考えないとき、
Ｐ（Ｏ｜Ｑ,λ）はＯ＝Ｍの時に最大化されることは明
らかである。これは、出力ベクトル系列が平均ベクトル
の系列によって与えられることを意味する。

【００１９】一方、式（１）、（２）の制約下では、Ｐ
（Ｏ｜Ｑ,λ）を最大にするCは、

【００２０】

【数４】

【００２１】によって定められる。

【００２２】この方程式は、高速アルゴリズム（徳田恵
一、益子貴史ら“動的特徴を用いたＨＭＭからの音声パ
ラメータ生成アルゴリズム”（日本音響学会誌，vol.５
３，Ｎｏ.３，pp192-200，Mar．１９９７））により容
易に解くことができ、特に時間方向に再帰的な形式のア
ルゴリズムとして記述することができる。

【００２３】このようにして、静的特徴量c_tと動的特徴
量Δc_t及びΔ²c_tに関する式（１）、（２）の制約のも
と音声パラメータに関してＨＭＭの尤度を最大化するこ
とにより、音声パラメータの不連続な変化を抑制し、よ
り、実際の発話に近い音声パラメータ系列を得ることが
できる。

【００２４】図１３に、音韻バランス文（５０３文章）
を用いて学習を行った音素モデルsil，ａ，ｉ，sil（た
だしsilは無音を表す）を結合したＨＭＭから生成され
た音声パラメータ系列c_tの一部（メルケプストラムの第
２次係数c_t(2)のみ）とともに、対応するΔc_t及びΔ²c_t
を示す。図中の破線は各状態の平均を、網掛け部は，標
準偏差（対角共分散行列を用いており、分散の平方根）
を表す。

【００２５】式（１）、（２）の制約を用いない場合に
はＰ（Ｏ｜Ｑ,λ）を最大とする音声パラメータ系列は
平均ベクトル系列（図中の破線）となる。それに対し
て、式（１）、（２）の制約を課した場合にはΔc
_t（2）、Δ²c_t（2）はそれぞれc_t（2）、Δc_t（2）の軌
跡の傾きを表すものとなり、c_t（2）の取りうる値の中
でc_t（2）、Δc_t（2）及びΔ²c_t（2）の全てに関して尤
度を最大化する形でc_t（2）の軌跡が定まっている。

【００２６】例えば、それぞれの音素モデルの始めと終
わりの状態では、動的及び静的特徴量の分散が比較的大
きいために音声パラメータ系列c_t（2）はひとつの状態
が継続する間でも一定値ではなく適切な軌跡を描いて変
化している。

【００２７】また、それぞれの音素モデルの中心におい
ては、動的および静的特徴量の分散が小さく、動的特徴
量の平均はほとんど０であるために、生成された音声パ
ラメータ系列c_t（2）は静的特徴量の平均値に近い一定
値を取る傾向となる。

【００２８】このように、ＨＭＭより音声パラメータを
生成する際に動的特徴量を導入し、動的特徴量に関して
も尤度最大となるように音声パラメータを生成すること
で、音声パラメータの不連続な変化を抑制し、より現実
の発話に近い音声を合成することが可能となった。

【００２９】一方、スペクトル形状とともに音声の話者
性を特徴付ける重要な要因であるピッチパターン（基本
周波数パターン）のモデル化にもＨＭＭを用いる試みが
なされているが、従来法ではスペクトルのモデル化を含
む統一的な枠組みで音声のピッチパターンをモデル化す
ることはできなかった。これは、音声のピッチパラメー
タは、有声区間では一次元の連続値、無声区間では無声
であることを表す離散シンボルとして観測されるため
に、通常の音声認識で用いられる離散分布ＨＭＭや、連
続分布ＨＭＭの枠組みを直接適用することが難しかった
ためである。

【００３０】この問題に対して本発明者らは、可変次元
の多空間上における確率分布に基づいたＨＭＭ（ＭＳＤ
−ＨＭＭ（ｍｕｌｔｉ−ｓｐａｃｅｄｉｓｔｒｉｂｕ
ｔｉｏｎＨＭＭ））（“多空間上の確率分布に基づい
たＨＭＭのピッチパタンモデリングへの応用”（信学技
報、SP98-11，pp19-26，Apr，1998）参照）を用いるこ
とにより、無声区間を含むピッチパターンを直接モデル
化することを可能とした。

【００３１】

【発明が解決しようとする課題】本発明者らの研究の結
果、ＭＳＤ−ＨＭＭを導入することにより、音声のスペ
クトル系列、ピッチパターン及び継続長をＨＭＭを用い
て統一的にモデル化する理論的枠組みが提案され、これ
に基づいて単独話者の音声合成システムが実現され、そ
の単独話者の音声を自然の発声に近い形で合成すること
に成功している。

【００３２】また、本発明者らは、音声スペクトルにつ
いて、複数の話者の音声からモデル化されたＨＭＭ（不
特定話者モデル）を用いて、平均的な音声スペクトルを
有する音声を合成することにも成功している。

【００３３】これらの研究成果を踏まえ、本発明は、Ｈ
ＭＭによる音声合成を一歩進めて、ＨＭＭを用いた統一
的な枠組みで複数の話者の音声のスペクトル系列、ピッ
チパターン及び継続長を同時にモデル化し、これらの複
数話者の平均的な特徴（声質及び韻律特徴）を有する平
均声モデルを構築し、この平均声モデルより「平均声」
を合成する方法を提供することを第１の課題とする。

【００３４】また、従来の音声合成方法でも、あらかじ
め音声合成システムに備えられた声質及び韻律特徴（ピ
ッチパターン、音韻継続長等）を有する合成音声を出力
することは可能であった。しかし、任意話者の少量（数
文章程度）の音声データを音声合成システムに入力する
と、音声合成システムが声質と韻律特徴（ピッチパター
ン、音韻継続長等）とを同時にこの任意話者の発話に近
づけるように話者適応するような音声合成方法は提案さ
れていなかった。

【００３５】これは、従来の音声合成方法においては、
音声合成単位の声質や韻律特徴を統一的な枠組みで同時
にモデル化することができなかったため、これを任意話
者のものに変更することが難しかったか、できたとして
も任意話者の発声した大量の音声が必要となるためであ
った。

【００３６】例えば、特開平１１−５２９８７号公報で
は、音声合成システム固有の基準音声パラメータと任意
話者の音声パラメータとの間で時系列に沿って差分を求
めて、この差分を音声合成システム固有の基準音声パラ
メータに加算することで任意話者の特徴を有する音声を
合成していた。

【００３７】しかし、この方法では、任意話者の発話を
合成するためにはその話者による同一の発話内容の音声
が必要であり、任意話者の少量の発話音声のみを用いて
任意のテキスト文章の話者適応した音声を合成すること
は不可能であった。

【００３８】本発明は、このような事情に鑑み、前述し
た複数の話者の発話をモデル化した平均声モデルを利用
して、任意話者が発話した少量の音声データを与える
と、平均声モデルの話者適応を行いその任意話者の声質
及び韻律特徴に近い音声を合成する方法を提供すること
を第２の課題とする。

【００３９】

【課題を解決するための手段】本発明は、複数の話者の
発話より、これら複数の話者の平均的な特徴を有する平
均声を合成する平均声の合成方法であって、（１）複数
の話者の発話より、静的特徴量であるスペクトルパラメ
ータとピッチパラメータとを分析フレーム毎に抽出する
工程と、（２）この静的特徴量より分析フレーム毎に動
的特徴量を求める工程と、（３）静的特徴量と動的特徴
量を特徴パラメータとする工程と、（４）この特徴パラ
メータを学習データとして、音声単位毎にスペクトル系
列、ピッチパターン及び継続長を隠れマルコフモデル
（ＨＭＭ）により同時にモデル化し、平均声音声単位Ｈ
ＭＭ（平均声モデル）を作成する工程と、（５）任意の
文章テキストの解析を行い、この文章テキストを音声単
位ラベル列に変換する工程と、（６）この音声単位ラベ
ル列に従い、前記平均声音声単位ＨＭＭ（平均声モデ
ル）を連結し、平均声文章ＨＭＭを構成する工程と
（７）この平均声文章ＨＭＭから音声パラメータ生成ア
ルゴリズムに基づきスペクトルパラメータ系列とピッチ
パターンを生成する工程と、（８）このピッチパターン
から音源信号を生成し、これを入力として、前記スペク
トルパラメータに対応する伝達特性を持つ音声合成フィ
ルタにより、前記文章テキストの平均声による音声を出
力する工程と、を少なくとも有することを特徴とする平
均声の合成方法という構成を有する。

【００４０】本発明はこのような構成を有するので、Ｍ
ＳＤ−ＨＭＭを利用することにより、音声単位毎にスペ
クトル系列、ピッチパターン及び継続長をＨＭＭの枠組
みで統一的に同時にモデル化することを可能としてい
る。

【００４１】そして、この枠組みを複数の話者の発話に
より学習させることで、これらの複数話者の平均的な特
徴を有する平均声音声単位ＨＭＭ（平均声モデル）を作
成し、これを与えられた文章に対応する音声単位ラベル
列に従って連結することによって得られる平均声文章Ｈ
ＭＭから、音声パラメータ生成アルゴリズムを用いてス
ペクトルパラメータ系列とピッチパターンを生成し、こ
の音声パラメータ系列に基づき音声合成フィルタを用い
て音声波形生成を行うことで、前記の複数話者の平均的
な声質及び韻律特徴を有する合成音声（平均声）を合成
することが可能となる。

【００４２】ここで、「音声単位」とは、例えば音素、
音節、形態素単位等、音声合成に用いる素片またはモデ
ル化の最小構成要素である。また、「スペクトルパラメ
ータ」は、音声のスペクトル形状すなわち声道特性を模
擬する音声合成フィルタの特性を表すパラメータであ
り、「スペクトルパラメータ系列」とは、発声内容によ
り時時刻刻変化するスペクトルパラメータをある一定の
時間間隔で並べたものである。

【００４３】また、「ピッチパターン」とは、声の高さ
の時間変化パターンを表し、スペクトルパラメータ系列
と同様、音声の基本周波数をある一定の時間間隔で並べ
たものである。また、「音声単位ラベル列」とは、発話
内容を通常のテキストから前記音声単位のラベルの並び
として転記したものである。また、「継続長」とは、音
声合成時に各音声単位がどれだけの時間持続するかを表
す値である。また、「分析フレーム」とは、音声分析時
において、音響的特性がほぼ一定とみなせる短時間区間
を、適当な窓関数を用いて音声波形からある一定時間間
隔で切り出した各波形である。

【００４４】また、本発明は、複数の話者の発話を基に
して得られた平均声音声単位ＨＭＭ（平均声モデル）よ
り任意話者の声質及び韻律特徴を有する音声を合成する
平均声からの任意話者音声の合成方法であって、（１）
複数の話者の発話より、静的特徴量であるスペクトルパ
ラメータとピッチパラメータとを分析フレーム毎に抽出
する工程と、（２）この静的特徴量より分析フレーム毎
に動的特徴量を求める工程と、（３）静的特徴量と動的
特徴量を特徴パラメータとする工程と、（４）この特徴
パラメータを学習データとして、音声単位毎にスペクト
ル系列、ピッチパターン及び継続長を隠れマルコフモデ
ル（ＨＭＭ）により同時にモデル化し、平均声音声単位
ＨＭＭ（平均声モデル）を作成する工程と、（５）任意
話者の少量の発話データよりこの任意話者の前記特徴パ
ラメータを求める工程と、（６）前記任意話者の前記特
徴パラメータを用いて、前記平均声音声単位ＨＭＭ（平
均声モデル）を前記任意話者に話者適応し、話者適応音
声単位ＨＭＭを作成する工程と、（７）任意の文章テキ
ストの解析を行い、この文章テキストを音声単位ラベル
列とする工程と、（８）この音声単位ラベル列に従い、
前記話者適応音声単位ＨＭＭを連結し、話者適応文章Ｈ
ＭＭを構成する工程と、（９）この話者適応文章ＨＭＭ
から音声パラメータ生成アルゴリズムに基づきスペクト
ルパラメータ系列とピッチパターンを生成する工程と、
（１０）このピッチパターンから音源信号を生成し、こ
れを入力として、前記スペクトルパラメータに対応する
伝達特性を持つ音声合成フィルタにより、前記文章テキ
ストの前記任意話者による音声を出力する工程と、を少
なくとも有することを特徴とする平均声からの任意話者
音声の合成方法という構成を有する。

【００４５】本発明はこのような構成を有しており、任
意話者の発話より求められた特徴パラメータに基づい
て、その話者の声質や韻律の特徴を反映するように前記
平均声モデルのモデルパラメータを変換することで話者
適応を行う。これにより、特定話者の少量の発話を基に
してその特定話者の声質及び発話スタイルに近い合成音
声を生成することが可能となった。ここで、「少量の発
話データ」とは、数文章程度の発話を意味する。

【００４６】

【発明の実施の形態】本発明の実施の形態について詳述
する。＝ＭＳＤ−ＨＭＭ＝本発明では、多空間確率分布隠れマルコフモデル（ＭＳ
Ｄ−ＨＭＭ）をピッチパターンのモデル化に用い、スペ
クトルパラメータとともにピッチパターン及び継続長を
隠れマルコフモデルの統一的な枠組みで同時にモデル化
することで、複数の話者の平均的特徴を持つ平均声モデ
ルを作成し、これら複数の話者の平均的な声質及び韻律
特徴を有する音声を合成することが可能となった。

【００４７】ＨＭＭをピッチパターンの生成に用いる試
みはいくつか行われているが、ピッチパターンは有声区
間では1次元の連続値、無声区間では無声であることを
示す離散シンボルとして観測されるために、通常の離散
分布ＨＭＭや、連続分布ＨＭＭを用いてモデル化するこ
とはできなかった。

【００４８】本発明においては、多空間上で定義される
確率分布を用いたＨＭＭ（ＭＳＤ−ＨＭＭ）を適用して
ピッチパラメータとスペクトルパラメータを結合したベ
クトルを特徴パラメータとすることによりピッチパラメ
ータとスペクトルパラメータとを統一的にモデル化して
いる。

【００４９】すなわち、ピッチパターンを有声区間に対
応する１次元空間Ω₁と無声区間に対応する０次元空間
Ω₂の二つの空間から出力される観測事象と考え、有声
に対応する空間Ω₁は１次元の確率密度関数Ｎ₁（ｘ）を
持ち、また、無声に対応する区間Ω₂は一つの標本点だ
けからなるとする。ここで、空間Ω₁，Ω₂はそれぞれ確
率ｗ₁，ｗ₂を持ち、ｗ₁＋ｗ₂＝１とする。さらに、有声
／無声を表す空間のインデックスの集合をＸ、ピッチパ
ラメータの値をｐ、ピッチパラメータに関する観測事象
をｏ＝（Ｘ，ｐ）と表す。ここで、Ｘ＝｛１｝の時には
有声区間を表し、ｐは１次元のピッチパラメータの値
（具体的には基本周波数の対数をとった値）である。ま
た、Ｘ＝｛２｝の時には無声区間を表し、ｐは０次元
（ｐは値を持たない）となる。このような多空間上で定
義される確率分布に基づくＨＭＭを多空間確率分布ＨＭ
Ｍ（ＭＳＤ−ＨＭＭ）と呼ぶ。

【００５０】このとき、ＭＳＤ−ＨＭＭの状態ｉの出力
確率分布ｂ_i（ｏ）は、

【００５１】

【数５】

【００５２】で定義される。ここで、ｗ_i1及びｗ_i2はそ
れぞれ状態ｉで有声及び無声となる確率を表し、Ｎ
_i1（ｐ）は１次元ガウス分布とする。各状態の出力確率
分布を式（７）で定義することにより、ＨＭＭの枠組み
でピッチパターンを直接モデル化することができる。

【００５３】ところで、スペクトルモデル及びピッチモ
デルの構築には、モデル学習時に音声データのラベル境
界情報を必要としない連結学習を用いるが、スペクトル
系列とピッチパターンを別々にモデル化した場合、同じ
データを用いたとしても両者のモデル間で境界のずれが
生じる。さらに、ピッチパラメータのみを特徴パラメー
タとすると、有声区間、無声区間とも音素に関する情報
が不足するため、音素境界を適切に学習することができ
ないという問題が生じる。

【００５４】そこで、図１に示すように、スペクトル、
ピッチパラメータの静的特徴量ｃ、ｐ及びそれぞれの動
的特徴量を結合して一つの特徴ベクトルとし、スペクト
ル部は連続分布ＨＭＭの一つのストリーム（ストリーム
１）で、また、ピッチ部は静的特徴量及びそのデルタ、
デルタデルタパラメータを三つのストリーム（ストリー
ム２〜４）に分けてそれぞれをＭＳＤ−ＨＭＭで同時に
モデル化する。

【００５５】一方、状態継続長については、各音声単位
ＨＭＭの状態数に等しい次元を持つ多次元ガウス分布を
用いてモデル化する。ここで、ガウス分布のｎ次元目が
ＨＭＭの第ｎ状態の状態継続長分布に対応し、その平均
値と分散は、スペクトル及びピッチモデルの連結学習の
際に求まる各状態の状態滞在確率を使って推定する。

【００５６】ＭＳＤ−ＨＭＭによりピッチパターンを生
成した実験例を示す。ＭＳＤ−ＨＭＭの学習データとし
てＡＴＲ（株式会社国際電気通信基礎研究所）日本語音
声データベースの話者ＭＨＴによる音韻バランス文５０
３文を用いた。サンプリング周波数は１０ｋＨｚ、分析
周期は５ｍｓとした。長さ２５．６ｍｓのブラックマン
窓を用いてメルケプストラム分析を行い、０〜１５次の
メルケプストラム係数（スペクトルパラメータ）を求め
た。ピッチパラメータはデータベースに付属するピッチ
データを使用した。

【００５７】続いて、メルケプストラム係数及び対数基
本周波数（ピッチパラメータ）について動的特徴量を計
算し、５１次（スペクトルパラメータ４８次、ピッチパ
ラメータ３次）のベクトルを特徴パラメータとした。モ
デル化に用いたＭＳＤ−ＨＭＭは、３状態ｌｅｆｔ−ｔ
ｏ−ｒｉｇｈｔモデルであり、メルケプストラム部は対
角共分散単一ガウス分布でモデル化し、ピッチパラメー
タは多空間分布でモデル化した。

【００５８】図２にその結果を示す。学習データに含ま
れていない文章（「だんだん自分が恐ろしくなって家に
逃げ帰った」）を用いて、実音声とＭＳＤ−ＨＭＭより
生成された合成音声のピッチパターンを比較した。点線
が実音声のピッチパターンであり、実線がＭＳＤ−ＨＭ
Ｍより合成されたピッチパターンである。この文章はＨ
ＭＭの学習データに含まれていないにもかかわらず、合
成音声のピッチパターンは実音声のピッチパターンをよ
く近似していることがわかる。

【００５９】＝平均声の音声合成＝本発明では、前記のＭＳＤ−ＨＭＭを利用したスペクト
ルパラメータ、ピッチパラメータ、継続長の同時モデル
化手法を用いて多数話者の平均的な声質、韻律特徴を有
する平均声を合成することが可能となった。以下に図３
を用いて平均声合成の流れを説明する。

【００６０】（１）大量の音声データを含む複数話者デ
ータベース（ＤＲ）の音声より、適当な音響分析により
スペクトルパラメータとピッチパラメータを分析フレー
ム毎に分析し、静的特徴量とする（Ｓ１）。

【００６１】ここで、大量の音声データを含むデータベ
ースに関しては多数話者の発話とそれに対応する音韻ラ
ベル、形態素情報、アクセント情報等が付されていれば
特に制限はない。また、音響分析を行う音声データは、
データベースに限らず、多数話者の実際の発話であって
もかまわない。また、適当な音響分析とは、スペクトル
パラメータについては、例えばメルケプストラム分析法
等が挙げられる。また、ピッチパラメータについてはケ
プストラム法等が挙げられるが、基本周波数が正確に求
められるならばどのような方法であっても構わない。

【００６２】（２）式（１）、（２）により静的特徴量
から動的特徴量を計算して（Ｓ２）、静的特徴量とあわ
せて特徴パラメータとする（Ｓ３）。ここで、動的特徴
量とは、「従来の技術」の項目で述べたものであり、静
的特徴量の時間微分に相当するものである。なお、動的
特徴量としては、２次の動的特徴量Δ²（式（２）から
計算される値）を使用しないで、１次の動的特徴量Δ
（式（１）から計算される値）のみを用いても構わな
い。

【００６３】（３）得られた特徴パラメータを基に、音
声単位毎に、スペクトルパラメータ、ピッチパターン及
び継続長をＨＭＭにより同時にモデル化して（Ｓ４）平
均声音声単位ＨＭＭ（平均声モデル）（Ｍ１）とする。
ここで、音声単位としては、前後の音韻環境や韻律特徴
を考慮したコンテキスト依存トライフォンを用いるが、
例えば、音素、音節、形態素単位等であってもよい。ま
た、スペクトル系列、ピッチパターン及び継続長の同時
モデル化には前述のＭＳＤ−ＨＭＭを利用した手法を用
いる。

【００６４】（４）合成音声で読み上げを行う任意の文
章テキストを入力し（Ｓ５）、テキスト解析を行い（Ｓ
６）、この文章テキストを音声単位ラベル列に変換する
（Ｓ７）。

【００６５】（５）（４）の音声単位ラベル列に従い、
音声単位毎に準備された（３）の前記平均声モデルを連
結して（Ｓ８）平均声文章ＨＭＭ（Ｍ２）を作成する。

【００６６】（６）この平均声文章ＨＭＭよりパラメー
タ生成アルゴリズム（Ｓ９）に基づいて音声パラメータ
系列を生成する（Ｓ１０）。ここで、音声パラメータ系
列とは、スペクトルパラメータ系列とピッチパターンで
ある。また、パラメータ生成アルゴリズムとは、本発明
者らが考案したものであり、混合連続分布ＨＭＭ（平均
声文章ＨＭＭに相当）より、音声パラメータ（メルケプ
ストラム係数およびピッチパターン）を生成する高速ア
ルゴリズムのことである。このパラメータ生成アルゴリ
ズムについては例えば、徳田恵一、益子貴史らの“動的
特徴を用いたＨＭＭからの音声パラメータ生成アルゴリ
ズム”（日本音響学会誌，vol.５３，Ｎｏ.３，pp192-2
00，Mar，１９９７）等に詳述されている。

【００６７】（７）この音声パラメータ系列に沿って平
均声を合成する。つまり、（６）のピッチパターンから
音源信号を生成し（Ｓ１１）、これを（６）のスペクト
ルパラメータに対応する伝達特性を有する適当な音声合
成フィルタ（Ｓ１２）に通すことで平均声を合成する。
ここで適当な音声合成フィルタとしては、音声パラメー
タ系列が与えられるとこの音声パラメータ系列より直接
音声を合成することが可能であるメル対数スペクトル近
似フィルタ（ＭＬＳＡフィルタ）が好適である。このＭ
ＬＳＡフィルタについては、例えば、今井聖ら“音声合
成のためのメル対数スペクトル近似（ＭＬＳＡ）フィル
タ”（信学論（Ａ），J66-A,2,pp122-129，Feb，１９８
３）に詳述されている。

【００６８】本発明では音声単位ＨＭＭを複数の話者の
発話により学習することで、その複数の話者の平均的な
特徴を有する合成音声（平均声）を合成することが可能
となった。

【００６９】次に上記の手順に従って平均声を合成した
実験例を示す。ＡＴＲ日本語音声データベースより５名
の男性話者（ＭＨＯ，ＭＭＹ，ＭＳＨ，ＭＴＫ，ＭＹ
Ｉ）を選び、各話者４５０文章を学習データとして、話
者毎に音声単位ＨＭＭを求め、これから学習データには
含まれない「不公平の存在は否認しなかった」という文
章を合成した場合のスペクトル系列とピッチパターンを
図４〜８にそれぞれ示す。

【００７０】音声信号のサンプリング周波数は１６ｋＨ
ｚ、分析周期は５ｍｓで０〜２４次のメルケプストラム
係数（スペクトルパラメータ）と対数基本周波数（ピッ
チパラメータ）を求め静的特徴量とした。これに、デル
タ及びデルタデルタパラメータを加えた７８次元のベク
トルを特徴パラメータとし、５状態ｌｅｆｔ−ｔｏ−ｒ
ｉｇｈｔＨＭＭにより各音声単位をモデル化した。音声
単位は４２種類の音素及び無音を基本として、前後音韻
環境及び韻律環境を考慮したコンテキスト依存トライフ
ォンである。

【００７１】続いて、前記５名の話者の各４００文章の
発話、合計２０００文章を学習データとして平均声音声
単位ＨＭＭ（平均声モデル）を求め、この平均声モデル
から学習データに含まれない文章「不公平の存在は否認
しなかった」を合成した場合に生成されたスペクトル系
列とピッチパターンを図９に示す。平均声モデルはＭＤ
Ｌ基準に基づく決定木によるコンテキストクラスタリン
グにより状態共有を行っている。総分布数はスペクトル
部が３７６５、ピッチ部が１２７６１、継続長が６３１
８である。

【００７２】図９によれば、平均声モデルに基づいて合
成された音声（平均声）はスペクトル系列、ピッチパタ
ーンともに、元の５名の話者（図４〜８）と異なってお
り、結果的にこれら５名の話者の平均的な音声が生成さ
れている。

【００７３】＝平均声からの話者適応音声の合成方法＝
本発明では、上述した平均声音声単位ＨＭＭ（平均声モ
デル）を任意話者の少量の発話データを基にして任意話
者の声質及び韻律特徴に近づけるように話者適応を行
う。

【００７４】平均声モデルを任意話者に話者適応する方
法としては、公知のＭＡＰ／ＶＦＳ法、ＭＬＬＲ法等の
任意の手法を用いることが可能である。本実施の形態で
は、スペクトル及び継続長に関してはＭＬＬＲ法を適用
し、ピッチについてはＭＬＬＲ法をＭＳＤ−ＨＭＭに拡
張した手法により話者適応を行っている。

【００７５】以下に話者適応の理論的な概略を示す。Ｍ
ＳＤ−ＨＭＭの状態ｉ、空間ｇの出力分布Ｎ_ig（ｘ）の
平均ベクトルをμ_ig、共分散行列をＵ_igとする。

【００７６】ここで、時刻ｔにおける観測事象をｏ_t＝
（X_t，ｘ_t）、但し空間インデックス集合をX_t、観測ベ
クトルをｘ_tとし、適応データ列Ｏ＝(ｏ₁，ｏ₂，・・
・，ｏ_T)が与えられたとき、平均μ_igを

【００７７】

【数６】

【００７８】と変換することにより話者適応を行う。こ
こで行列Ｗ_igは平均ベクトルの変換行列であり、ＭＬＬ
Ｒ法と同様に、適応データＯに対して尤度を最大化する
ように求める。

【００７９】ここで、時刻ｔの観測ベクトルｘ_tが、状
態ｉ、空間ｇにおいて出力される確率γ_t（ｉ，ｇ）を
定義する。また、観測事象ｏ_tの空間インデックスｇを
含むような時刻ｔの集合をＴ（Ｏ，ｇ）と定義する。こ
のとき変換行列Ｗ_igの最尤推定値は、次式の方程式（１
０）を解くことにより求まる。

【００８０】

【数７】

【００８１】変換はそれぞれの状態、空間に対して定義
できるが、一般に、適応データは少量なため、全ての状
態、空間に対して変換行列を求めることはできない。そ
こで、幾つかの状態で変換行列Ｗ_igを共有することで適
応データの存在しないモデルの適応を行う。変換行列を
共有するためのクラスタリングとしては、例えば、リー
フノードが分布となる２分木を作成し、適応データ量が
適当な閾値より大きくなる最下位ノードにおいて分布の
適応を行えばよい。

【００８２】この方法によれば、スペクトルモデルのＭ
ＬＬＲに基づいた話者適応の場合と同様、平均声モデル
を任意話者に話者適応する際に、数文章程度の少量の発
話データしか得られない場合においても、適応データ量
に応じて適切な個数の変換行列を求めることができると
ともに、木構造の特徴から適応データが存在しないモデ
ルに対しても適切な変換行列を選択することが可能とな
る。

【００８３】次に、図１０を用いて平均声モデルを特定
話者に適応する具体的な手順について述べる。

【００８４】（１）前述した手順に従い平均声モデル
（Ｍ１）を用意する。（２）任意話者が発声した少量の音声データを入力し
（Ｓ２１）、適当な音響分析法により分析し、スペクト
ルパラメータとピッチパラメータに関する特徴パラメー
タ（静的特徴量と動的特徴量）を求める（Ｓ２２）。

【００８５】（３）この特徴パラメータを用いて、前述
の話者適応法を平均声モデルに適用することにより（Ｓ
２３）話者適応音声単位ＨＭＭ（Ｍ３）を得る。

【００８６】（４）合成音声で読み上げを行う任意の文
章テキストを入力し（Ｓ２４）、テキスト解析を行い
（Ｓ２５）、音声単位ラベル列に変換する（Ｓ２６）。（５）（４）の音声単位ラベル列に従い、音声単位毎に
準備された（３）の話者適応音声単位ＨＭＭを連結して
（Ｓ２７）話者適応文章ＨＭＭ（Ｍ４）を作成する。

【００８７】（６）この話者適応文章ＨＭＭ（Ｍ４）か
らパラメータ生成アルゴリズム（Ｓ２８）に基づいて音
声パラメータであるスペクトルパラメータ系列とピッチ
パターンを生成する（Ｓ２９）。（７）（６）のピッチパターンから音源信号を生成し
（Ｓ３０）、これを（６）のスペクトルパラメータに対
応する伝達特性を持つ適当な音声合成フィルタ（Ｓ３
１）に通すことで任意話者の音声を合成する。

【００８８】このように本発明では、任意話者の少量の
発声データに基づいて平均声ＨＭＭのモデルパラメータ
を変換することにより任意話者の音声を合成することが
可能となった。

【００８９】この手順に従って、話者適応音声の合成実
験を行った。ＡＴＲ日本語音声データベースから５名の
男性話者（ＭＨＯ，ＭＭＹ，ＭＳＨ，ＭＴＫ，ＭＹＩ）
の平均声モデルを求め、上記５名の話者とは異なる話者
（ＭＨＴ）が発話した４文章を用いて平均声モデルを話
者ＭＨＴに話者適応し、話者適応音声単位ＨＭＭを作成
した。この話者適応音声単位ＨＭＭを結合して「不公平
の存在は否認しなかった」という文章テキストを音声合
成した場合のスペクトル系列とピッチパターンを図１１
に示す。

【００９０】なお、平均声モデルを求める際の条件及び
話者ＭＨＴの発話（適応データ）の分析条件は前記平均
声の音声合成の項の実験例と同じである。また、話者適
応に用いた変換行列の個数はスペクトル部が２、ピッチ
部の静的特徴量、そのデルタ、そのデルタデルタ特徴量
がそれぞれ２５、２１、２１であった。また、ここでは
継続長は平均声モデルのものをそのまま用いている。

【００９１】これに対して、話者ＭＨＴの発話した４５
０文章から音声単位ＨＭＭを求め、これから「不公平の
存在は否認しなかった」という同一文章を合成した場合
のスペクトル系列とピッチパターンを図１２に示す。図
１１と図１２を比較すると、図１１は平均声モデルから
４文章という少量の発話に基づいて話者ＭＨＴに話者適
応されているにも関わらず、図１２に示したＭＨＴのス
ペクトル系列及びピッチパターンに似た音声が合成され
た。

【００９２】

【発明の効果】本発明は、上述のように構成したので、
以下のような顕著な効果を奏する。

【００９３】（１）本発明では、多数話者の平均的な特
徴を有する音声（平均声）を合成することができる。つ
まり、本発明では人間の声ではあるが、実在しない話者
の音声を作成することが可能となった。これにより、合
成音声を各種の機器（カーナビゲーションシステム、ゲ
ーム機等）に組み込む場合に音声の使用権利を考慮する
必要がなくなった。また、報道番組等で話者の匿名性が
要求されるような場面において、本発明の平均声を用い
ることで、話者の匿名性をより一層確実なものとするこ
とができる（請求項１）。

【００９４】（２）少量の特定話者の発話に基づいて、
その特定話者に近い音声を合成することが可能となっ
た。これにより、合成音声出力機能を有する各種機器に
おいて、合成音声を任意話者の声質及び韻律特徴にカス
タマイズすることが可能となり、特定話者の発話データ
が存在しない文章テキストについても、その特定話者に
近い音声で合成音声を出力することが可能となった。
（請求項２）。

【図面の簡単な説明】

【図１】特徴ベクトルの構造を示す。

【図２】ＭＳＤ−ＨＭＭによるピッチパターンの生成
例を示す。

【図３】平均声合成の流れ図を示す。

【図４】話者ＭＨＯのスペクトル系列とピッチパター
ンを示す。

【図５】話者ＭＭＹのスペクトル系列とピッチパター
ンを示す。

【図６】話者ＭＳＨのスペクトル系列とピッチパター
ンを示す。

【図７】話者ＭＴＫのスペクトル系列とピッチパター
ンを示す。

【図８】話者ＭＹＩのスペクトル系列とピッチパター
ンを示す。

【図９】平均声のスペクトル系列とピッチパターンを
示す。

【図１０】話者適応音声合成の流れ図を示す。

【図１１】話者ＭＨＴに話者適応した話者適応音声の
スペクトル系列とピッチパターンを示す。

【図１２】話者ＭＨＴのスペクトル系列とピッチパタ
ーンを示す。

【図１３】音声パラメータの生成例を示す。

───────────────────────────────────────────────────── フロントページの続き (72)発明者田村正統神奈川県横浜市緑区長津田町4529 東京工業大学内 (72)発明者徳田恵一愛知県名古屋市昭和区御器所町名古屋工業大学内Ｆターム(参考） 5D045 AA07 AA20

Claims

【特許請求の範囲】

【請求項１】複数の話者の発話より、これら複数の話
者の平均的な特徴を有する平均声を合成する平均声の合
成方法であって、（１）複数の話者の発話より、静的特徴量であるスペク
トルパラメータとピッチパラメータとを分析フレーム毎
に抽出する工程と、（２）この静的特徴量より分析フレーム毎に動的特徴量
を求める工程と、（３）静的特徴量と動的特徴量を特徴パラメータとする
工程と、（４）この特徴パラメータを学習データとして、音声単
位毎にスペクトル系列、ピッチパターン及び継続長を隠
れマルコフモデル（ＨＭＭ）により同時にモデル化し、
平均声音声単位ＨＭＭ（平均声モデル）を作成する工程
と、（５）任意の文章テキストの解析を行い、この文章テキ
ストを音声単位ラベル列に変換する工程と、（６）この音声単位ラベル列に従い、前記平均声音声単
位ＨＭＭ（平均声モデル）を連結し、平均声文章ＨＭＭ
を構成する工程と（７）この平均声文章ＨＭＭから音声パラメータ生成ア
ルゴリズムに基づきスペクトルパラメータ系列とピッチ
パターンを生成する工程と、（８）このピッチパターンから音源信号を生成し、これ
を入力として、前記スペクトルパラメータに対応する伝
達特性を持つ音声合成フィルタにより、前記文章テキス
トの平均声による音声を出力する工程と、を少なくとも
有することを特徴とする平均声の合成方法。
【請求項２】複数の話者の発話を基にして得られた平
均声音声単位ＨＭＭ（平均声モデル）より任意話者の声
質及び韻律特徴を有する音声の合成方法であって、（１）複数の話者の発話より、静的特徴量であるスペク
トルパラメータとピッチパラメータとを分析フレーム毎
に抽出する工程と、（２）この静的特徴量より分析フレーム毎に動的特徴量
を求める工程と、（３）静的特徴量と動的特徴量を特徴パラメータとする
工程と、（４）この特徴パラメータを学習データとして、音声単
位毎にスペクトル系列、ピッチパターン及び継続長を隠
れマルコフモデル（ＨＭＭ）により同時にモデル化し、
平均声音声単位ＨＭＭ（平均声モデル）を作成する工程
と、（５）任意話者の少量の発話データよりこの任意話者の
前記特徴パラメータを求める工程と、（６）前記任意話者の前記特徴パラメータを用いて、前
記平均声音声単位ＨＭＭ（平均声モデル）を前記任意話
者に話者適応し、話者適応音声単位ＨＭＭを作成する工
程と、（７）任意の文章テキストの解析を行い、この文章テキ
ストを音声単位ラベル列に変換する工程と、（８）この音声単位ラベル列に従い、前記話者適応音声
単位ＨＭＭを連結し、話者適応文章ＨＭＭを構成する工
程と、（９）この話者適応文章ＨＭＭから音声パラメータ生成
アルゴリズムに基づきスペクトルパラメータ系列とピッ
チパターンを生成する工程と、（１０）このピッチパターンから音源信号を生成し、こ
れを入力として、前記スペクトルパラメータに対応する
伝達特性を持つ音声合成フィルタにより、前記文章テキ
ストの前記任意話者による音声を出力する工程と、を少
なくとも有する平均声からの任意話者音声の合成方法。