JPH0772900A

JPH0772900A - 音声合成の感情付与方法

Info

Publication number: JPH0772900A
Application number: JP5218710A
Authority: JP
Inventors: Toru Tsugi; 徹都木
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 1993-09-02
Filing date: 1993-09-02
Publication date: 1995-03-17

Abstract

(57)【要約】【目的】様々な感情表現に寄与する静的・動的音響パ
ラメータを大量の音声資料の中から効率よく的確に抽出
し、かつその抽出結果が音声合成時のパラメータ制御に
直接利用し得るようにし、人手による変換規則の構築と
いう労力をかけずに、任意に発声された無感情な自然音
声や規則合成音声を感情を伴ったものに変換する。【構成】音響的分析部２によって無感情な音声の音響
的特徴パラメータと感情を伴った音声の音響的特徴パラ
メータとを抽出するとともに、ニューラルネットワーク
部８によって前記無感情な音声の音響的特徴パラメータ
を感情を伴った音声の音響的特徴パラメータに変換する
ための学習を行なわせた後、学習済みの当該ニューラル
ネットワーク部８を用いて無感情な音声に感情を付与す
る。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は放送番組や映画等の制作
時において無感情に発声された音声を感情を有する音声
に変換する信号処理装置、あるいは任意の文字列を基に
規則によって音声を合成する装置などで使用される音声
合成の感情付与方法に関する。

【０００２】［発明の概要］本発明は放送番組制作等に
おいて、標準的な抑揚および速度で無感情に発声された
音声を感情を有する音声に変換する音声信号処理装置、
あるいは任意の文字列を基に規則によって音声を合成す
る装置において、出力音声に付加される感情を制御する
方法に関するもので、ニューラルネットワークに、無感
情な音声と感情を伴った音声との音響的特徴パラメータ
の時間的な平均値や変化パターンの違いを学習させてお
き、任意に発声された無感情な音声から抽出した音響的
特徴パラメータ、あるいは規則によって音声を合成する
際の合成用パラメータを当該ニューラルネットワークの
入力層に与えることによって、その出力層に所望の感情
に類似した値を得ることにより、無感情な自然音声や規
則合成音声を、自動的に所望の感情を伴ったものに変換
することを可能にしたものである。

【０００３】

【従来の技術】従来、自然音声において、無感情なもの
と、感情を有するものの音声とを音響的に分析し、その
物理的な違いを明らかにする調査研究はさまざまにに行
われてきたが、それらの知見を基にした、無感情音声を
感情を有するものに変換する技術については、ほとんど
研究開発が行われていない。その数少ない例としては、
韻律すなわち、声の高さ、大きさ、速さの３つの音響的
特徴量を無感情と歓喜・怒り・悲哀の３感情の各分析結
果の観察から対比させ、無感情音声を上記各３感情に変
換するための声の高さ、大きさ、速さのそれぞれについ
て簡単な変換規則を作成し、分析に用いた音声とは別の
意味内容の無感情音声に対してこの変換規則を適用し、
感情付与を試みたものがある（電子情報通信学会、技術
報告、ＳＰ８８−１５８、ｐｐ．２７−３２、１９８９
年３月）。

【０００４】しかし、このような簡単な規則による制御
では、特に声の高さの時間変化パターン（いわゆるイン
トネーション）のような感情の違いに応じて複雑に変化
する要素に対して十分な制御を行なうことができない。

【０００５】このため、このような制御を行なっても、
その効果に限界があり、必ずしも所望の感情に変換する
ことができない。

【０００６】また、スペクトルの制御については、例え
ば合成音声で強い声と弱い声との違いを表現するという
立場から調査研究はなされているが、合成音声の感情表
現という立場からのものはない。

【０００７】また、任意の文字列から規則によって音声
を合成する、いわゆる規則合成においては、通常の無感
情な音声を如何に自然なイントネーションやアクセン
ト、明瞭な響きで合成するかと言う点にほとんどの努力
が払われており、未だその規則の中に感情を制御する要
素を加える技術は皆無と言ってよい。

【０００８】

【発明が解決しようとする課題】上述した従来の技術か
ら明らかなように、従来から行われてきた感情を伴った
音声に対する音響的分析の結果によれば、感情表現に寄
与する物理パラメータとして、声の高さ、大きさ、発声
速度、スペクトルなどが挙げられるが、これらは全てあ
る発声時間を通じて一定な静的要素と時々刻々ダイナミ
ックに変化する動的要素に分けて考えることができる。

【０００９】例えば、声の高さについて言えば、全体の
平均的な高さが静的要素にあたり、イントネーションが
動的要素にあたるため、感情を表現しようとするとき、
静的要素のみならず動的要素が重要な働きをすると考え
られるが、無感情な音声と感情を伴った音声の動的な要
素の分析結果を観察し、その微妙な違いを定式化するこ
とは非常に手間がかかり、したがって多くの人が発声し
た様々な感情音声について検討し、特定の感情への変換
規則を構築することは多大な労力を要することが予想さ
れる。

【００１０】本発明は上記の事情に鑑み、感情表現に寄
与する物理量を大量の音声資料を対象に効率よく分析
し、各感情における静的・動的特徴量を的確に抽出し、
かつその抽出結果が音声合成時のパラメータ制御に直接
利用できる形で与えられる音声合成の感情付与方法を提
供することを目的としている。

【００１１】

【課題を解決するための手段】上記の目的を達成するた
めに本発明による音声合成の感情付与方法は、学習時に
おいて、予め設定された言語で発声された無感情音声
と、有感情音声とについて少なくとも声の高さ、大き
さ、発声速度、スペクトルのいずれか１つ以上の音響的
特徴パラメータを抽出するとともに、これら無感情音声
と有感情音声との間の母音、子音の位置の対応をとりつ
つ、ニューラルネットワークの入力層に無感情音声の音
響的特徴パラメータを与えながら、前記ニューラルネッ
トワークの出力層に有感情音声の音響的特徴パラメータ
を与えることによって、これら無感情音声と有感情音声
との間の音響的特徴パラメータの時間的な平均値または
時間変化パターンの違いを学習させ、感情付与時におい
て、合成対象となる音声の音響的特徴パラメータを前記
ニューラルネットワークの入力層に入力して出力層から
所望感情の音響的特徴パラメータを出力させ、この音響
的特徴パラメータを用いて音声合成を行なうことを特徴
としている。

【００１２】

【作用】上記の構成において、学習時において、予め設
定された言語で発声された無感情音声と、有感情音声と
について少なくとも声の高さ、大きさ、発声速度、スペ
クトルのいずれか１つ以上の音響的特徴パラメータを抽
出するとともに、これら無感情音声と有感情音声との間
の母音、子音の位置の対応をとりつつ、ニューラルネッ
トワークの入力層に無感情音声の音響的特徴パラメータ
を与えながら、前記ニューラルネットワークの出力層に
有感情音声の音響的特徴パラメータを与えることによっ
て、これら無感情音声と有感情音声との間の音響的特徴
パラメータの時間的な平均値または時間変化パターンの
違いを学習させ、感情付与時において、合成対象となる
音声の音響的特徴パラメータを前記ニューラルネットワ
ークの入力層に入力して出力層から所望感情の音響的特
徴パラメータを出力させ、この音響的特徴パラメータを
用いて音声合成を行なうことにより、感情表現に寄与す
る静的・動的特徴量を的確に抽出し、かつその抽出結果
を音声合成時のパラメータ制御に直接利用を可能にし、
これによって人手による変換規則の構築という労力をか
けなくとも、感情の違いに応じて複雑に変化する音響的
特徴量を十分に制御し、無感情な自然音声や規則合成音
声を感情を伴ったものに変換する。

【００１３】

【実施例】以下、図面を参照しながら、本発明による音
声合成の感情付与方法の実施例を詳細に説明する。

【００１４】図１は本発明による音声合成の感情付与方
法の一実施例を用いた音声処理システムの一例を示すブ
ロック図である。

【００１５】この図に示す音声処理システムは、音響的
分析部２と、スペクトルのＤＰマッチング部４と、各音
素の時間長伸縮部６と、ニューラルネットワーク部８
と、規則による合成パラメータ生成部１０と、時間長伸
縮部１２と、音声合成システム部１４とを備えており、
同図（ａ）の構成において、ニューラルネットワーク部
８に無感情な音声の音響的特徴パラメータを感情を伴っ
た音声の音響的特徴パラメータに変換するための学習を
行なわせた後、同図（ｂ）の構成において、学習済みの
当該ニューラルネットワーク部８を用いて無感情な音声
に感情を付与する。

【００１６】音響的分析部２は、電子計算機内に構築さ
れ、ＲＯＭ、ＲＡＭあるいはディスクメモリを併用しな
がら、Ａ／Ｄ変換されて標本化された自然音声の波形に
対して様々な分析を行ない、時々刻々と音響的な特徴パ
ラメータを抽出する。

【００１７】スペクトルのＤＰマッチング部４は、電子
計算機内に構築され、ＲＯＭ、ＲＡＭあるいはディスク
メモリを併用しながら、音響的分析部２で抽出された特
徴パラメータのうち、スペクトルの特徴パラメータにつ
いて無感情と感情を伴った音声との間の類似度を時々刻
々調べ、同一の音素毎の時間的な対応をとることによっ
て無感情音声に対する感情音声の各音素毎の時間的な伸
縮率を求める。

【００１８】各音素の時間長伸縮部６は、電子計算機内
に構築され、ＲＯＭ、ＲＡＭあるいはディスクメモリを
併用しながら、スペクトルのＤＰマッチング部４で得ら
れた各音素毎の時間的な伸縮率に応じて、感情音声の特
徴パラメータの時系列を時間的に正規化して無感情音声
に合うようにする。

【００１９】ニューラルネットワーク部８は、電子計算
機内に構築され、ＲＯＭ、ＲＡＭあるいはディスクメモ
リを併用しながら、学習時においては、時々刻々と入力
層に与えられる無感情音声の音響的特徴パラメータと出
力層に与えられる感情音声の音響的特徴パラメータとの
違いを学習する。

【００２０】また、感情の付与時においては、学習時に
決定されたネットワーク内部の重み係数を用いて、時々
刻々と入力層に与えられる無感情音声の音響的特徴パラ
メータから感情音声の音響的特徴パラメータを推定する
計算を行なう。

【００２１】規則による合成パラメータ生成部１０は、
電子計算機内に構築され、ＲＯＭ、ＲＡＭあるいはディ
スクメモリを併用しながら、文字コードとして与えられ
た任意の文章を解析し、予め構築された規則によって音
声合成に必要な音響的特徴パラメータの時系列を生成す
る。

【００２２】時間伸縮部１２は、電子計算機内に構築さ
れ、ＲＯＭ、ＲＡＭあるいはディスクメモリを併用しな
がら、ニューラルネットワーク部８の出力層に出力され
た感情音声の音響的特徴パラメータのうち、各音素毎の
時間的な伸縮率に応じて感情音声の特徴パラメータの時
系列を時間的に操作して、各部分の発声速度に変化を与
える。

【００２３】音声合成システム部１４は、電子計算機内
に構築され、ＲＯＭ、ＲＡＭあるいはディスクメモリを
併用しながら、時間長伸縮部１２で時間伸縮された感情
音声の音響的特徴パラメータに応じて音声の合成を行な
い、感情が付与された音声波形を得て、Ｄ／Ａ変換した
後、出力する。

【００２４】次に、図１（ａ）、（ｂ）に示す各ブロッ
ク図および図２に示す模式図〜図６に示す模式図を参照
しながら、この実施例の各部の動作を説明する。

【００２５】＜音響的分析部２の動作＞量子化ビット数
１６ｂｉｔ、標本化周波数１５ｋＨｚでＡ／Ｄ変換され
た音声波形が入力される毎に、音響的分析部２はこれを
取り込んで、フレーム幅２０ｍｓ、フレームシフト幅１
０ｍｓで様々な分析を行ない、以下に列挙する音声の音
響的特徴パラメータをフレーム毎に抽出する。

【００２６】（１）全帯域のパワー（標本値の自乗和）
Ｐを理論的な最大パワーで除して正規化した値：Ｐ_a （２）ピッチ周波数を、５０Ｈｚ以下の領域（Ｑ＝
１）、５０Ｈｚから８００Ｈｚの間を対数スケールで等
間隔に１７等分した領域（Ｑ＝２、…、１８）、８００
Ｈｚ以上の領域（Ｑ＝１９）のどこに存在するかによっ
て１９段階に量子化したもの：Ｆ_q＝０．０５Ｑ（Ｑ＝
１〜２０）、但し、非有声音と判断された場合はＦ_q＝
０．０１とする。

【００２７】（３）自己相関分析による線形予測係数：
ａ₁〜ａ₂₀ （４）線形予測係数より求めたＬＰＣケプストラム係
数：Ｃ₀〜Ｃ₂₀ （５）中心周波数８０Ｈｚから６．４５ｋＨｚまで１／
３オクターブ幅の２０チャネル帯域フィルタバンクの各
帯域出力のパワーを前記（１）の全帯域のパワーＰ_aで
除して正規化した値：Ｓ₁〜Ｓ₂₀ なお、パワー、ピッチ周波数、線形予測係数、ＬＰＣケ
プストラム係数、帯域フィルタリング等はデジタル音声
処理において、現在一般的によく使用されるものである
ので、その算出方法の詳細は省略する。また、Ｐ_a、Ｆ
_q、Ｓ₁〜Ｓ₂₀は、後述するニューラルネットワーク部
８において扱い易いように、その値が０と１との間で変
化するように正規化している。

【００２８】＜スペクトルのＤＰマッチング部４の動作
＞同じ話者が同じ語を発声しても、その時間的な長さは
その都度変化し、しかも非線形に伸縮する。感情が付加
された場合ならばなおさらである。そこで、無感情の音
声と、感情を伴った音声との各音素の時間長の比較をす
るには、両者の同じ音素が対応するように、時間軸を非
線形に伸縮する時間正規化を行なう必要がある。この具
体的方法として動的計画法（ｄｙｎａｍｉｃｐｒｏｇ
ｒａｍｍｉｎｇ）を用いたＤＰマッチングを用いる。音
素の特徴を表わすパラメータとしては、ＬＰＣケプスト
ラム係数を用いる。ここで、無感情な音声のｉ番目のフ
レームと、感情を伴った音声のｊ番目のフレームとを対
応付けるとした場合、各々のＬＰＣケプストラム係数を
Ｃ_k ^(N)、Ｃ_K ^(E)としてそのスペクトル的な差（距
離）Ｄ_ijを、

【数１】で定義し、距離Ｄ_ijの音声全体としての総和ができるだ
け小さくなるように無感情な音声と、感情を伴った音声
の各フレーム間の対応付けを行なう。２つの音声の総フ
レーム数をそれぞれＩ、Ｊとすると、一般にはＩとＪと
が異なり、伸縮が生じている部分において一方の１つの
フレームに他方の複数のフレームが対応付けられる。ま
た、同一文章であるので、開始のフレーム同士（ｉ＝１
とｊ＝１）および終了のフレーム同士（ｉ＝Ｉとｊ＝
Ｊ）は必ず対応付け可能であるとする。このＤＰマッチ
ングはデジタル音声処理において現在一般的によく使用
されるものであるので、その詳細については省略する。

【００２９】求められたフレーム毎の対応関係を用い
て、無感情な音声に対する感情を伴った音声の音素毎の
時間的伸縮の程度ｒ（同じ長さならｒ＝１．０倍、１／
２に短縮したならｒ＝０．５）が求められるので、Ｒ＝
１／（１＋ｒ）を感情を伴った音声の各フレームの話速
変化量を表わす特徴パラメータとして付加する。Ｒは、
後述するニューラルネットワーク部８において扱い易い
ように、その値が０と１との間で変化するような形にｒ
を変形したものである。また、２つの音声の対応する音
素の位置でのピッチ周波数等のパラメータの違いを知る
ことができる。

【００３０】＜各音素の時間長伸縮部６の動作＞無感情
音声と感情を伴った音声の各分析フレームの総数をそれ
ぞれＩ、Ｊとした場合、スペクトルのＤＰマッチング部
４の結果に基づき、無感情音声のｉ番目（１≦ｉ≦Ｉ）
のフレームに対応する感情音声のフレームを１つずつ決
定していき、感情音声のフレームを総数でＩ個のフレー
ムに配置しなおす。すなわち、感情音声のＪ個の分析フ
レームのうち、無感情音声に対して時間的に伸びている
部分ではフレームが間引かれ、縮まっている部分では同
じフレームが繰り返されて配置される。

【００３１】＜ニューラルネットワーク部８の動作＞（１）まず、本発明で用いられているニューラルネット
ワーク部８の基本的な動作について説明する。

【００３２】本発明では、ネットワーク部８に時間的依
存性を持たせることが有効であると考えられるので、前
のパターンの出力を次のパターンの入力にフィードバッ
クさせて、ネットワークにパターンの時間変化も吸収さ
せるような、図２に示すシーケンシャルネットワークと
呼ばれるものを用いている。

【００３３】１つのネットワークで複数の感情（喜び、
怒り、悲哀など）を合わせて学習することとし、入力層
には無感情音声のピッチ、パワー、帯域フィルタ出力の
パワーおよび所望の感情の種別を与え、出力層に感情音
声のパラメータが出力されるような学習を行なう。

【００３４】このネットワークは入力層、中間層（隠れ
層）、出力層の３層からなっている。入力層から中間
層、ならびに中間層から出力層の間では、前の層の全て
の素子から後の層の全ての素子への結線が存在するもの
とする。入力層、中間層、出力層の任意の素子の出力を
各々Ｘｉ、Ｙｊ、Ｚｋとする。ここで、１≦ｉ≦Ｉ、１
≦ｊ≦Ｊ、１≦ｋ≦Ｋであり、Ｉ、Ｊ、Ｋは各々の層の
素子数とする。このとき、アナログニューロンの入出力
関係を次のように定義する。

【００３５】

【数２】ここで、ｕ_j：中間層の内部変数ｖ_k：出力層の内部変数ｗ_ij：入力層から中間層への重み関数ｗ_jk：中間層から出力層への重み関数 θ_j、θ_k：しきい値ｆ：出力関数（シグモイド関数）ｆ（ｕ）＝１／｛１＋ｅｘｐ（−ｕ／ｕ₀）｝但し、ｕ₀は傾きである。ただし、本発明では簡単化のため、しきい値を
０とする。

【００３６】次に、本ニューラルネットワーク部８にお
けるＢＰ（ＢａｃｋＰｒｏｐａｇａｔｉｏｎ）法の学
習アルゴリズムを示す。

【００３７】ＢＰ法は、目標出力をｔ_kとすると、目標
値と実際の出力層の出力ｚ_kとの誤差の２乗和が最小に
なるように、重み係数ｗ_ij、ｗ_jkを修正する学習法であ
り、最初、与えられた入力ｘ_iに対して、各ユニットの
出力ｙ_jを、またｙ_jに対して各ユニットの出力ｚ_kを
というように、入力側から出力側に向かって順に計算す
る。

【００３８】この後、次式に示す如く各出力ユニットの
出力ｚ_kを与えられた目標出力ｔ_kと比較する。

【００３９】Ｅ_k＝（ｔ_k−ｚ_k）²／２ …（６）そして、次式に示す如く誤差逆伝搬量δ_kを計算する。

【００４０】 δ_k＝（ｔ_k−ｚ_k）ｚｋ（１−ｚ_k） …（７）この場合、中間層と出力層との間の重み関数ｗ_jkのｎ回
目の学習時の修正量Δｗ_jk(n) は、 Δｗ_jk(n) ＝αδ_kｙ_j＋βΔｗ_jk(n-1) …（８）となり、各ユニットｋに入る全ての重み関数ｗ_jkを、ｗ_jk→ｗ_jk＋Δｗ_jk(n) …（９）と変更する。ここで、α、βは学習定数で、誤差逆伝搬
量δ_kと、ｎ−１回目の修正量Δｗ_jk(n-1) をどのくら
いｎ回目の修正量Δｗ_jk(n) に反映させるかを決定する
定数である。

【００４１】次に、次式に基づいて中間層における誤差
逆伝搬量δ_jを、

【数３】を求める。また、入力層と中間層との間の重み係数ｗ_ij
のｎ回目の学習時の修正量Δｗ_ij(n) は、中間層と出力
層とのときと同様ににして、次式で求められ、 Δｗ_ij(n) ＝αδ_jｘ_i＋βΔｗ_ij(n-1) …（１１）各ユニットｊに入る全ての重み関数ｗ_jkを、ｗ_ij→ｗ_ij＋Δｗ_ij(n) …（１２）と変更する。

【００４２】以上を各入出力データに対して繰り返し行
ない、全ての重み関数の値を繰り返し変化させる。そし
て、前記（６）式で与えられる出力誤差Ｅ_kの値が与え
られたしきい値以下になったら、学習が完了したと見な
して停止する。

【００４３】この学習法で問題となるのは、誤差を伝搬
させる係数α、βの値は学習させるパターン毎に最適な
ものが異なり、一意に決められないということである。

【００４４】一般に、α、βの値を大きくすれば、修正
量Δｗ_jk(n) は大きくなるが、誤差が収束せず、振動し
てしまう場合がある。そこで、学習の繰り返し毎に、誤
差が最小となるようにパラメータをダイナミックに変更
する方法（ＤｙｎａｍｉｃａｌｌｙＣｏｎｔｒｏｌ
ｔｒａｉｎｉｎｇＰａｒａｍｅｔｅｒ、ＤＣＰ法）を
用いる。実際には、パラメータの値を有限個用意し、そ
の全てのα、βについて同様に学習を行ない、誤差が最
も小さくなるパラメータを選択する。しかし、最適な
α、βの選択を行なうのは毎回ではなく、学習回数が１
回から１０回までは毎回、１１回目から１００回目まで
は１０回おき、１０１回目から１０００回目までは１０
０回おきというように学習回数が増えるにつれてパラメ
ータを更新する回数を少なくする。これは学習が進むに
つれて、同じパラメータを選択することが多くなるた
め、頻繁に最適なパラメータを選び直す必要がないから
である。したがって、学習の都度に用意した全てのα、
βについて学習を繰り返すことはない。

【００４５】（２）次に、ニューラルネットワーク部８
に対する学習データの与え方と、感情パラメータの推定
法とを説明する。

【００４６】本発明では、ピッチ周波数やパワーのパタ
ーンを制御する方法として様々なものが考えられる。ピ
ッチ周波数、パワー、スペクトル、話速をそれぞれ独立
したネットワークで扱うことも、全てを１つのネットワ
ークで扱うことも可能である。あるいは、音響的分析部
２で１０［ｍｓ］毎に得られた全てのフレームに対して
ではなく、モーラ（拍：日本語では仮名文字単位に相
当）毎にいくつかの代表点（フレーム）を選定してそれ
らについてのみ扱うことも考えられる。ここでは、その
いくつかの例について説明する。

【００４７】《例１》ピッチ周波数のパターンのみを扱
うネットワークの例図３に示すように、当該フレームから連続して１０フレ
ーム（１００［ｍｓ］）分ずつの代表値を与え、当該フ
レームを５フレーム（５０［ｍｓ］）分ずつシフトしな
がら学習していく。そして、当該フレームの学習が終了
したならば、各重み係数ｗ_ij、ｗ_jkの値を保持して次の
学習データを与え、引き続き各重み係数ｗ_ij、ｗ_jkの値
について修正を継続する。またこのとき、スペクトルの
ＤＰマッチング部４によって、出力層に与える感情音声
と、入力層に与える無感情音声とのフレーム数は同じに
なっている。

【００４８】出力層の目標値として、有感情の量子化ピ
ッチ周波数Ｆ_qの時系列を入力層側の当該フレームに対
応するフレームから１０フレーム（１００［ｍｓ］）分
与える。したがって、出力層の素子は１０である。

【００４９】入力層には、出力層に与えた感情の種別、
無感情の量子化ピッチ周波数Ｆ_qの時系列、出力層から
フィードバックされた、１つ前の学習時点での出力層の
出力値を与える。扱う感情の種類を４つとすると、その
表現方法を２進的に与えることとして、感情の種別を与
える素子数は２個となる。したがって、入力層の素子数
は２２となる。

【００５０】また、中間層の素子数は１０とする。

【００５１】学習終了後のネットワークを感情付与に用
いる場合には、任意の無感情音声から抽出した量子化ピ
ッチ周波数Ｆ_qの時系列と、変換したい感情の種別、出
力層からのフィードバックを与える。

【００５２】出力層に現われる推定されたパターンは５
フレーム分の重なりがあるので、重なる部分は平均値を
とって全体のパターンを構成する。

【００５３】《例２》全てのパラメータを１つのネット
ワークで扱う場合の例図４に示すように、当該フレームのピッチ周波数・パワ
ー・スペクトル・話速変化率を１フレーム（１０［ｍ
ｓ］）分ずつシフトしながら学習していく。当該フレー
ムの学習が終了したならば、各重み係数ｗ_ij、ｗ_jkの値
を保持して次の学習データを与え、引き続き各重み係数
ｗ_ij、ｗ_jkの値について修正を継続する。またこのと
き、スペクトルのＤＰマッチング部４によって、出力層
に与える感情音声と、入力層に与える無感情音声とのフ
レーム数は同じになっている。

【００５４】出力層の目標値として、入力層側の当該フ
レームに対応する有感情の量子化ピッチ周波数Ｆ_q・全
帯域の正規化パワーＰ_a・帯域フィルタバンク出力Ｓ₁
〜Ｓ₂₀・話速変化特徴量Ｒを与える。したがって、出力
層の素子数は２３である。

【００５５】入力層には、出力層に与えた感情の種別、
無感情の量子化ピッチ周波数Ｆ_q・全帯域の正規化パワ
ーＰ_a・帯域フィルタバンク出力Ｓ₁〜Ｓ₂₀、出力層か
らフィードバックされた、１つ前の学習時点での出力層
の出力値を与える。扱う感情の種類を４つとすると、そ
の表現方法を２進的に与えることとして、感情の種別を
与える素子数は２個となる。したがって、入力層の素子
数は４７となる。

【００５６】中間層の素子数は出力層と同じ２３とす
る。

【００５７】学習終了後のネットワークを感情付与に用
いる場合には、任意の無感情音声から抽出した量子化ピ
ッチ周波数Ｆ_q・全帯域の正規化パワーＰ_a・帯域フィ
ルタバンク出力Ｓ₁〜Ｓ₂₀と、変換したい感情の種別、
出力層からのフィードバックを与える。

【００５８】《例３》モーラの代表値のみを扱う場合
（ピッチ周波数のみ扱う）図５に示すように、各モーラの中心および境界を代表点
として、それらに相当するフレームで得られたピッチ周
波数をネットワークに与える。

【００５９】ここで、母音中心点の定義は、（１）パワーが極大値となるところ（２）スペクトル変化率Δの安定したところ（３）モーラの中心近くの３条件を基準に選択される。

【００６０】スペクトル変化率Δとは、ＬＰＣ回帰係数
δを用いて定義される。δはＬＰＣケプストラム係数ｃ
₁〜ｃ₂₀の次数毎の時系列ｃ_i(t) の局所的な動きを回
帰直線

【数４】で近似したときの傾斜を表わす係数である。但し、回帰
直線を求める範囲は５フレーム（５０［ｍｓ］の幅）分
とする。このδに対して、次式で与えられるΔを時刻ｔ
におけるスペクトルの変化率とする。

【００６１】

【数５】図６に示すように、代表フレームの量子化ピッチ周波数
Ｆ_qを各モーラ中心を中央として前後３点ずつ入出力層
に与え、１モーラずつシフトしながら学習していく。当
該モーラの学習が終了したならば、各重み係数ｗ_ij、ｗ
_jkの値を保持して次の学習データを与え、引き続き各重
み係数ｗ_ij、ｗ_jkの値について修正を継続する。同一文
章を発声しているので、出力層に与える感情音声と、入
力層に与える無感情音声とのモーラ数は同じである。し
かし、無感情音声と有感情音声の両者について、モーラ
中心とモーラ境界に相当するフレームの位置を何等かの
方法により（手作業による方法が最も正確）決定する必
要がある。

【００６２】出力層の目標値として、有感情の各モーラ
代表点３点の量子化ピッチ周波数Ｆ_qの時系列を与える
ので、出力層の素子数は３つである。

【００６３】入力層には、出力層に与えられた感情の種
別、無感情の各モーラ代表点３点の量子化ピッチ周波数
Ｆ_qの時系列、出力層からフィードバックされた、１つ
前の学習時点での出力層の出力値を与える。扱う感情の
種類を４つとすると、その表現方法を２進法的に与える
こととして、感情の種別を与える素子数は２個となる。
したがって、入力層の素子数は８となる。

【００６４】中間層の素子数は３とする。

【００６５】学習終了後のネットワークを感情付与に用
いる場合には、任意の無感情音声から抽出・決定した各
モーラ代表点３点の量子化ピッチ周波数Ｆ_qの時系列
と、変換したい感情の種別、出力層からのフィードバッ
クを与える。

【００６６】出力層に現われる推定されたパターンは各
モーラの代表値３点のみであるので、時間長情報を別の
ネットワークにより推定して与え、各モーラの代表値を
直線でつないだパターンを構成する。そして、１０［ｍ
ｓ］毎の全てのフレーム値をこの直線より内挿して求め
る。

【００６７】この方法では、推定させるデータが少ない
のが特徴である。しかし、入力音声に対してモーラ位置
を決定する必要があるので、無感情に発声された自然の
音声波形に自動的に感情を付与する音声信号処理には応
用が難しくなるが、逆に規則による音声合成の感情付与
では、規則によりモーラ位置が記述されているので応用
しやすい。

【００６８】＜規則による合成パラメータ生成部１０の
動作＞文字コードからこれを構文解析し、予め内部に構
築されている辞書を参照しながら各単語や文節のアクセ
ントを決定し、かつ同様に内部に構築されている様々な
音素を表現できるスペクトルの特徴パラメータの中から
該当する単語等を構成するのに最適なものを選択する。
さらに、規則により文章全体のイントネーションやパワ
ーの変化を決定する。

【００６９】この方法については、既に様々なものが開
発されており、その中から適当なものを用いれば良い
が、多くの場合、標準語アクセントで平静に発声した場
合のイントネーションや声の響きが生成されるように設
計されており、無感情に発声された自然音声を分析した
場合に類似した音響的特徴パラメータの時系列が得られ
るので、これを学習済みのニューラルネットワーク部８
の入力層に与えれば、感情を伴ったものに変換すること
ができる。

【００７０】＜時間伸縮部１２の動作＞ニューラルネッ
トワーク部８で推定された音響的特徴パラメータのう
ち、各フ

【外１】＜０．５があるフレーム数以上連続する部分）では、同
じフレームを繰り返し、

【外２】する部分）では、適宜フレームを間引いて配置しなお
す。この操作によって、各部分の発声速度が所望の感情
に適合したものに変更される。

【００７１】＜音声合成システム部１４の動作＞音声合
成システム部１４の動作は音声信号波形の合成と、帯域
フィルタバンクとの２つに分かれる。

【００７２】まず、ニューラルネットワーク部８で推定
され、時間長伸縮部１２で時間伸縮

【外３】を基に音声信号波形を合成する。自然音声から抽出され
た音響的特徴パラメータを全てそのまま用いれば、元の
音声波形が再現されるが、何等かの方法で特徴パラメー
タを変更して用いれば、概ね元の音声とは違った質の音
声が得られる。この方法については、既に様々なものが
開発されており、それぞれの音質や自然さの点で異なる
特長があり、適当なものを選択して用いればよい。但
し、自然音声からパラメータを抽出する方式や、規則に
よる合成パラメータ生成部１０の形式に依存するので、
それぞれ適合したものを組み合わせて用いなければなら
ない。

【００７３】次に、中心周波数８０Ｈｚから６．４５ｋ
Ｈｚまで１／３オクターブ幅の２０チャネル帯域フィル
タバンクの各帯域のパワーゲインをニューラルネットワ
ーク

【外４】な出力波形を得た後、Ｄ／Ａ変換する。

【００７４】

【発明の効果】以上説明したように本発明によれば、様
々な感情表現に寄与する静的・動的音響パラメータを大
量の音声資料の中から効率よく的確に抽出でき、かつそ
の抽出結果が音声合成時のパラメータ制御に直接利用で
きるため、人手による変換規則の構築という労力をかけ
ずに、任意に発声された無感情な自然音声や規則合成音
声を感情を伴ったものに変換することが可能になる。

【図面の簡単な説明】

【図１】本発明による音声合成の感情付与方法の一実施
例を用いた音声処理システムの一例を示すブロック図で
ある。

【図２】図１に示す音声処理システムで使用されるシー
ケンシャルネットワークの構成例を示す図である。

【図３】図１に示す音声処理システムにおいてピッチ周
波数パターンのみを扱う実施例の一例を説明するための
図である。

【図４】図１に示す音声処理システムにおいてピッチ周
波数、パワー、スペクトル、話速を１つのネットワーク
で扱う実施例の一例を説明するための図である。

【図５】図１に示す音声処理システムにおいて各モーラ
の代表値のみを用いて感情を付与する実施例のため、モ
ーラ代表値を決定する方法を説明する図である。

【図６】図１に示す音声処理システムにおいてピッチ周
波数パターンの各モーラの代表値のみを用いて感情を付
与する実施例の一例を説明するための図である。

【符号の説明】

２音響的分析部４スペクトルのＤＰマッチング部６各音素の時間長伸縮部８ニューラルネットワーク部１０規則による合成パラメータ生成部１２時間長伸縮部１４音声合成システム部

Claims

【特許請求の範囲】

【請求項１】学習時において、予め設定された言語で
発声された無感情音声と、有感情音声とについて少なく
とも声の高さ、大きさ、発声速度、スペクトルのいずれ
か１つ以上の音響的特徴パラメータを抽出するととも
に、これら無感情音声と有感情音声との間の母音、子音
の位置の対応をとりつつ、ニューラルネットワークの入
力層に無感情音声の音響的特徴パラメータを与えなが
ら、前記ニューラルネットワークの出力層に有感情音声
の音響的特徴パラメータを与えることによって、これら
無感情音声と有感情音声との間の音響的特徴パラメータ
の時間的な平均値または時間変化パターンの違いを学習
させ、感情付与時において、合成対象となる音声の音響的特徴
パラメータを前記ニューラルネットワークの入力層に入
力して出力層から所望感情の音響的特徴パラメータを出
力させ、この音響的特徴パラメータを用いて音声合成を
行なう、ことを特徴とする音声合成の感情付与方法。
【請求項２】前記ニューラルネットワークは少なくと
もピッチ周波数、大きさ、発声速度、スペクトルのいず
れか１つ以上をパラメータとして扱うネットワークであ
って、音声からこれらのパラメータを抽出する時間間隔は、一
定間隔またはモーラの代表値のみを抽出して扱うネット
ワークである請求項１記載の音声合成の感情付与方法。
【請求項３】合成対象となる音声の音響的特徴パラメ
ータは任意の文章を無感情に発声した音声を分析して得
られた各種の音響的特徴パラメータ、またはある任意の
文字列を標準的な抑揚を持った合成音声を生成するため
の合成用パラメータのいずれかである請求項１または２
記載の音声合成の感情付与方法。