JPH0772900A - 音声合成の感情付与方法 - Google Patents

音声合成の感情付与方法

Info

Publication number
JPH0772900A
JPH0772900A JP5218710A JP21871093A JPH0772900A JP H0772900 A JPH0772900 A JP H0772900A JP 5218710 A JP5218710 A JP 5218710A JP 21871093 A JP21871093 A JP 21871093A JP H0772900 A JPH0772900 A JP H0772900A
Authority
JP
Japan
Prior art keywords
voice
emotional
speech
emotion
acoustic feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5218710A
Other languages
English (en)
Inventor
Toru Tsugi
徹 都木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP5218710A priority Critical patent/JPH0772900A/ja
Publication of JPH0772900A publication Critical patent/JPH0772900A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 様々な感情表現に寄与する静的・動的音響パ
ラメータを大量の音声資料の中から効率よく的確に抽出
し、かつその抽出結果が音声合成時のパラメータ制御に
直接利用し得るようにし、人手による変換規則の構築と
いう労力をかけずに、任意に発声された無感情な自然音
声や規則合成音声を感情を伴ったものに変換する。 【構成】 音響的分析部2によって無感情な音声の音響
的特徴パラメータと感情を伴った音声の音響的特徴パラ
メータとを抽出するとともに、ニューラルネットワーク
部8によって前記無感情な音声の音響的特徴パラメータ
を感情を伴った音声の音響的特徴パラメータに変換する
ための学習を行なわせた後、学習済みの当該ニューラル
ネットワーク部8を用いて無感情な音声に感情を付与す
る。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は放送番組や映画等の制作
時において無感情に発声された音声を感情を有する音声
に変換する信号処理装置、あるいは任意の文字列を基に
規則によって音声を合成する装置などで使用される音声
合成の感情付与方法に関する。
【0002】[発明の概要]本発明は放送番組制作等に
おいて、標準的な抑揚および速度で無感情に発声された
音声を感情を有する音声に変換する音声信号処理装置、
あるいは任意の文字列を基に規則によって音声を合成す
る装置において、出力音声に付加される感情を制御する
方法に関するもので、ニューラルネットワークに、無感
情な音声と感情を伴った音声との音響的特徴パラメータ
の時間的な平均値や変化パターンの違いを学習させてお
き、任意に発声された無感情な音声から抽出した音響的
特徴パラメータ、あるいは規則によって音声を合成する
際の合成用パラメータを当該ニューラルネットワークの
入力層に与えることによって、その出力層に所望の感情
に類似した値を得ることにより、無感情な自然音声や規
則合成音声を、自動的に所望の感情を伴ったものに変換
することを可能にしたものである。
【0003】
【従来の技術】従来、自然音声において、無感情なもの
と、感情を有するものの音声とを音響的に分析し、その
物理的な違いを明らかにする調査研究はさまざまにに行
われてきたが、それらの知見を基にした、無感情音声を
感情を有するものに変換する技術については、ほとんど
研究開発が行われていない。その数少ない例としては、
韻律すなわち、声の高さ、大きさ、速さの3つの音響的
特徴量を無感情と歓喜・怒り・悲哀の3感情の各分析結
果の観察から対比させ、無感情音声を上記各3感情に変
換するための声の高さ、大きさ、速さのそれぞれについ
て簡単な変換規則を作成し、分析に用いた音声とは別の
意味内容の無感情音声に対してこの変換規則を適用し、
感情付与を試みたものがある(電子情報通信学会、技術
報告、SP88−158、pp.27−32、1989
年3月)。
【0004】しかし、このような簡単な規則による制御
では、特に声の高さの時間変化パターン(いわゆるイン
トネーション)のような感情の違いに応じて複雑に変化
する要素に対して十分な制御を行なうことができない。
【0005】このため、このような制御を行なっても、
その効果に限界があり、必ずしも所望の感情に変換する
ことができない。
【0006】また、スペクトルの制御については、例え
ば合成音声で強い声と弱い声との違いを表現するという
立場から調査研究はなされているが、合成音声の感情表
現という立場からのものはない。
【0007】また、任意の文字列から規則によって音声
を合成する、いわゆる規則合成においては、通常の無感
情な音声を如何に自然なイントネーションやアクセン
ト、明瞭な響きで合成するかと言う点にほとんどの努力
が払われており、未だその規則の中に感情を制御する要
素を加える技術は皆無と言ってよい。
【0008】
【発明が解決しようとする課題】上述した従来の技術か
ら明らかなように、従来から行われてきた感情を伴った
音声に対する音響的分析の結果によれば、感情表現に寄
与する物理パラメータとして、声の高さ、大きさ、発声
速度、スペクトルなどが挙げられるが、これらは全てあ
る発声時間を通じて一定な静的要素と時々刻々ダイナミ
ックに変化する動的要素に分けて考えることができる。
【0009】例えば、声の高さについて言えば、全体の
平均的な高さが静的要素にあたり、イントネーションが
動的要素にあたるため、感情を表現しようとするとき、
静的要素のみならず動的要素が重要な働きをすると考え
られるが、無感情な音声と感情を伴った音声の動的な要
素の分析結果を観察し、その微妙な違いを定式化するこ
とは非常に手間がかかり、したがって多くの人が発声し
た様々な感情音声について検討し、特定の感情への変換
規則を構築することは多大な労力を要することが予想さ
れる。
【0010】本発明は上記の事情に鑑み、感情表現に寄
与する物理量を大量の音声資料を対象に効率よく分析
し、各感情における静的・動的特徴量を的確に抽出し、
かつその抽出結果が音声合成時のパラメータ制御に直接
利用できる形で与えられる音声合成の感情付与方法を提
供することを目的としている。
【0011】
【課題を解決するための手段】上記の目的を達成するた
めに本発明による音声合成の感情付与方法は、学習時に
おいて、予め設定された言語で発声された無感情音声
と、有感情音声とについて少なくとも声の高さ、大き
さ、発声速度、スペクトルのいずれか1つ以上の音響的
特徴パラメータを抽出するとともに、これら無感情音声
と有感情音声との間の母音、子音の位置の対応をとりつ
つ、ニューラルネットワークの入力層に無感情音声の音
響的特徴パラメータを与えながら、前記ニューラルネッ
トワークの出力層に有感情音声の音響的特徴パラメータ
を与えることによって、これら無感情音声と有感情音声
との間の音響的特徴パラメータの時間的な平均値または
時間変化パターンの違いを学習させ、感情付与時におい
て、合成対象となる音声の音響的特徴パラメータを前記
ニューラルネットワークの入力層に入力して出力層から
所望感情の音響的特徴パラメータを出力させ、この音響
的特徴パラメータを用いて音声合成を行なうことを特徴
としている。
【0012】
【作用】上記の構成において、学習時において、予め設
定された言語で発声された無感情音声と、有感情音声と
について少なくとも声の高さ、大きさ、発声速度、スペ
クトルのいずれか1つ以上の音響的特徴パラメータを抽
出するとともに、これら無感情音声と有感情音声との間
の母音、子音の位置の対応をとりつつ、ニューラルネッ
トワークの入力層に無感情音声の音響的特徴パラメータ
を与えながら、前記ニューラルネットワークの出力層に
有感情音声の音響的特徴パラメータを与えることによっ
て、これら無感情音声と有感情音声との間の音響的特徴
パラメータの時間的な平均値または時間変化パターンの
違いを学習させ、感情付与時において、合成対象となる
音声の音響的特徴パラメータを前記ニューラルネットワ
ークの入力層に入力して出力層から所望感情の音響的特
徴パラメータを出力させ、この音響的特徴パラメータを
用いて音声合成を行なうことにより、感情表現に寄与す
る静的・動的特徴量を的確に抽出し、かつその抽出結果
を音声合成時のパラメータ制御に直接利用を可能にし、
これによって人手による変換規則の構築という労力をか
けなくとも、感情の違いに応じて複雑に変化する音響的
特徴量を十分に制御し、無感情な自然音声や規則合成音
声を感情を伴ったものに変換する。
【0013】
【実施例】以下、図面を参照しながら、本発明による音
声合成の感情付与方法の実施例を詳細に説明する。
【0014】図1は本発明による音声合成の感情付与方
法の一実施例を用いた音声処理システムの一例を示すブ
ロック図である。
【0015】この図に示す音声処理システムは、音響的
分析部2と、スペクトルのDPマッチング部4と、各音
素の時間長伸縮部6と、ニューラルネットワーク部8
と、規則による合成パラメータ生成部10と、時間長伸
縮部12と、音声合成システム部14とを備えており、
同図(a)の構成において、ニューラルネットワーク部
8に無感情な音声の音響的特徴パラメータを感情を伴っ
た音声の音響的特徴パラメータに変換するための学習を
行なわせた後、同図(b)の構成において、学習済みの
当該ニューラルネットワーク部8を用いて無感情な音声
に感情を付与する。
【0016】音響的分析部2は、電子計算機内に構築さ
れ、ROM、RAMあるいはディスクメモリを併用しな
がら、A/D変換されて標本化された自然音声の波形に
対して様々な分析を行ない、時々刻々と音響的な特徴パ
ラメータを抽出する。
【0017】スペクトルのDPマッチング部4は、電子
計算機内に構築され、ROM、RAMあるいはディスク
メモリを併用しながら、音響的分析部2で抽出された特
徴パラメータのうち、スペクトルの特徴パラメータにつ
いて無感情と感情を伴った音声との間の類似度を時々刻
々調べ、同一の音素毎の時間的な対応をとることによっ
て無感情音声に対する感情音声の各音素毎の時間的な伸
縮率を求める。
【0018】各音素の時間長伸縮部6は、電子計算機内
に構築され、ROM、RAMあるいはディスクメモリを
併用しながら、スペクトルのDPマッチング部4で得ら
れた各音素毎の時間的な伸縮率に応じて、感情音声の特
徴パラメータの時系列を時間的に正規化して無感情音声
に合うようにする。
【0019】ニューラルネットワーク部8は、電子計算
機内に構築され、ROM、RAMあるいはディスクメモ
リを併用しながら、学習時においては、時々刻々と入力
層に与えられる無感情音声の音響的特徴パラメータと出
力層に与えられる感情音声の音響的特徴パラメータとの
違いを学習する。
【0020】また、感情の付与時においては、学習時に
決定されたネットワーク内部の重み係数を用いて、時々
刻々と入力層に与えられる無感情音声の音響的特徴パラ
メータから感情音声の音響的特徴パラメータを推定する
計算を行なう。
【0021】規則による合成パラメータ生成部10は、
電子計算機内に構築され、ROM、RAMあるいはディ
スクメモリを併用しながら、文字コードとして与えられ
た任意の文章を解析し、予め構築された規則によって音
声合成に必要な音響的特徴パラメータの時系列を生成す
る。
【0022】時間伸縮部12は、電子計算機内に構築さ
れ、ROM、RAMあるいはディスクメモリを併用しな
がら、ニューラルネットワーク部8の出力層に出力され
た感情音声の音響的特徴パラメータのうち、各音素毎の
時間的な伸縮率に応じて感情音声の特徴パラメータの時
系列を時間的に操作して、各部分の発声速度に変化を与
える。
【0023】音声合成システム部14は、電子計算機内
に構築され、ROM、RAMあるいはディスクメモリを
併用しながら、時間長伸縮部12で時間伸縮された感情
音声の音響的特徴パラメータに応じて音声の合成を行な
い、感情が付与された音声波形を得て、D/A変換した
後、出力する。
【0024】次に、図1(a)、(b)に示す各ブロッ
ク図および図2に示す模式図〜図6に示す模式図を参照
しながら、この実施例の各部の動作を説明する。
【0025】<音響的分析部2の動作>量子化ビット数
16bit、標本化周波数15kHzでA/D変換され
た音声波形が入力される毎に、音響的分析部2はこれを
取り込んで、フレーム幅20ms、フレームシフト幅1
0msで様々な分析を行ない、以下に列挙する音声の音
響的特徴パラメータをフレーム毎に抽出する。
【0026】(1)全帯域のパワー(標本値の自乗和)
Pを理論的な最大パワーで除して正規化した値:Pa (2)ピッチ周波数を、50Hz以下の領域(Q=
1)、50Hzから800Hzの間を対数スケールで等
間隔に17等分した領域(Q=2、…、18)、800
Hz以上の領域(Q=19)のどこに存在するかによっ
て19段階に量子化したもの:Fq =0.05Q(Q=
1〜20)、但し、非有声音と判断された場合はFq
0.01とする。
【0027】(3)自己相関分析による線形予測係数:
1 〜a20 (4)線形予測係数より求めたLPCケプストラム係
数:C0 〜C20 (5)中心周波数80Hzから6.45kHzまで1/
3オクターブ幅の20チャネル帯域フィルタバンクの各
帯域出力のパワーを前記(1)の全帯域のパワーPa
除して正規化した値:S1 〜S20 なお、パワー、ピッチ周波数、線形予測係数、LPCケ
プストラム係数、帯域フィルタリング等はデジタル音声
処理において、現在一般的によく使用されるものである
ので、その算出方法の詳細は省略する。また、Pa 、F
q 、S1 〜S20は、後述するニューラルネットワーク部
8において扱い易いように、その値が0と1との間で変
化するように正規化している。
【0028】<スペクトルのDPマッチング部4の動作
>同じ話者が同じ語を発声しても、その時間的な長さは
その都度変化し、しかも非線形に伸縮する。感情が付加
された場合ならばなおさらである。そこで、無感情の音
声と、感情を伴った音声との各音素の時間長の比較をす
るには、両者の同じ音素が対応するように、時間軸を非
線形に伸縮する時間正規化を行なう必要がある。この具
体的方法として動的計画法(dynamic prog
ramming)を用いたDPマッチングを用いる。音
素の特徴を表わすパラメータとしては、LPCケプスト
ラム係数を用いる。ここで、無感情な音声のi番目のフ
レームと、感情を伴った音声のj番目のフレームとを対
応付けるとした場合、各々のLPCケプストラム係数を
k (N) 、CK (E) としてそのスペクトル的な差(距
離)Dijを、
【数1】 で定義し、距離Dijの音声全体としての総和ができるだ
け小さくなるように無感情な音声と、感情を伴った音声
の各フレーム間の対応付けを行なう。2つの音声の総フ
レーム数をそれぞれI、Jとすると、一般にはIとJと
が異なり、伸縮が生じている部分において一方の1つの
フレームに他方の複数のフレームが対応付けられる。ま
た、同一文章であるので、開始のフレーム同士(i=1
とj=1)および終了のフレーム同士(i=Iとj=
J)は必ず対応付け可能であるとする。このDPマッチ
ングはデジタル音声処理において現在一般的によく使用
されるものであるので、その詳細については省略する。
【0029】求められたフレーム毎の対応関係を用い
て、無感情な音声に対する感情を伴った音声の音素毎の
時間的伸縮の程度r(同じ長さならr=1.0倍、1/
2に短縮したならr=0.5)が求められるので、R=
1/(1+r)を感情を伴った音声の各フレームの話速
変化量を表わす特徴パラメータとして付加する。Rは、
後述するニューラルネットワーク部8において扱い易い
ように、その値が0と1との間で変化するような形にr
を変形したものである。また、2つの音声の対応する音
素の位置でのピッチ周波数等のパラメータの違いを知る
ことができる。
【0030】<各音素の時間長伸縮部6の動作>無感情
音声と感情を伴った音声の各分析フレームの総数をそれ
ぞれI、Jとした場合、スペクトルのDPマッチング部
4の結果に基づき、無感情音声のi番目(1≦i≦I)
のフレームに対応する感情音声のフレームを1つずつ決
定していき、感情音声のフレームを総数でI個のフレー
ムに配置しなおす。すなわち、感情音声のJ個の分析フ
レームのうち、無感情音声に対して時間的に伸びている
部分ではフレームが間引かれ、縮まっている部分では同
じフレームが繰り返されて配置される。
【0031】<ニューラルネットワーク部8の動作> (1)まず、本発明で用いられているニューラルネット
ワーク部8の基本的な動作について説明する。
【0032】本発明では、ネットワーク部8に時間的依
存性を持たせることが有効であると考えられるので、前
のパターンの出力を次のパターンの入力にフィードバッ
クさせて、ネットワークにパターンの時間変化も吸収さ
せるような、図2に示すシーケンシャルネットワークと
呼ばれるものを用いている。
【0033】1つのネットワークで複数の感情(喜び、
怒り、悲哀など)を合わせて学習することとし、入力層
には無感情音声のピッチ、パワー、帯域フィルタ出力の
パワーおよび所望の感情の種別を与え、出力層に感情音
声のパラメータが出力されるような学習を行なう。
【0034】このネットワークは入力層、中間層(隠れ
層)、出力層の3層からなっている。入力層から中間
層、ならびに中間層から出力層の間では、前の層の全て
の素子から後の層の全ての素子への結線が存在するもの
とする。入力層、中間層、出力層の任意の素子の出力を
各々Xi、Yj、Zkとする。ここで、1≦i≦I、1
≦j≦J、1≦k≦Kであり、I、J、Kは各々の層の
素子数とする。このとき、アナログニューロンの入出力
関係を次のように定義する。
【0035】
【数2】 ここで、 uj :中間層の内部変数 vk :出力層の内部変数 wij:入力層から中間層への重み関数 wjk:中間層から出力層への重み関数 θj 、θk :しきい値 f:出力関数(シグモイド関数) f(u)=1/{1+exp(−u/u0 )} 但し、u0 は傾き である。ただし、本発明では簡単化のため、しきい値を
0とする。
【0036】次に、本ニューラルネットワーク部8にお
けるBP(Back Propagation)法の学
習アルゴリズムを示す。
【0037】BP法は、目標出力をtk とすると、目標
値と実際の出力層の出力zk との誤差の2乗和が最小に
なるように、重み係数wij、wjkを修正する学習法であ
り、最初、与えられた入力xi に対して、各ユニットの
出力yj を、またyj に対して各ユニットの出力zk
というように、入力側から出力側に向かって順に計算す
る。
【0038】この後、次式に示す如く各出力ユニットの
出力zk を与えられた目標出力tkと比較する。
【0039】 Ek =(tk −zk 2 /2 …(6) そして、次式に示す如く誤差逆伝搬量δk を計算する。
【0040】 δk =(tk −zk )zk(1−zk ) …(7) この場合、中間層と出力層との間の重み関数wjkのn回
目の学習時の修正量Δwjk(n) は、 Δwjk(n) =αδk j +βΔwjk(n-1) …(8) となり、各ユニットkに入る全ての重み関数wjkを、 wjk→wjk+Δwjk(n) …(9) と変更する。ここで、α、βは学習定数で、誤差逆伝搬
量δk と、n−1回目の修正量Δwjk(n-1) をどのくら
いn回目の修正量Δwjk(n) に反映させるかを決定する
定数である。
【0041】次に、次式に基づいて中間層における誤差
逆伝搬量δj を、
【数3】 を求める。また、入力層と中間層との間の重み係数wij
のn回目の学習時の修正量Δwij(n) は、中間層と出力
層とのときと同様ににして、次式で求められ、 Δwij(n) =αδj i +βΔwij(n-1) …(11) 各ユニットjに入る全ての重み関数wjkを、 wij→wij+Δwij(n) …(12) と変更する。
【0042】以上を各入出力データに対して繰り返し行
ない、全ての重み関数の値を繰り返し変化させる。そし
て、前記(6)式で与えられる出力誤差Ek の値が与え
られたしきい値以下になったら、学習が完了したと見な
して停止する。
【0043】この学習法で問題となるのは、誤差を伝搬
させる係数α、βの値は学習させるパターン毎に最適な
ものが異なり、一意に決められないということである。
【0044】一般に、α、βの値を大きくすれば、修正
量Δwjk(n) は大きくなるが、誤差が収束せず、振動し
てしまう場合がある。そこで、学習の繰り返し毎に、誤
差が最小となるようにパラメータをダイナミックに変更
する方法(Dynamically Control
training Parameter、DCP法)を
用いる。実際には、パラメータの値を有限個用意し、そ
の全てのα、βについて同様に学習を行ない、誤差が最
も小さくなるパラメータを選択する。しかし、最適な
α、βの選択を行なうのは毎回ではなく、学習回数が1
回から10回までは毎回、11回目から100回目まで
は10回おき、101回目から1000回目までは10
0回おきというように学習回数が増えるにつれてパラメ
ータを更新する回数を少なくする。これは学習が進むに
つれて、同じパラメータを選択することが多くなるた
め、頻繁に最適なパラメータを選び直す必要がないから
である。したがって、学習の都度に用意した全てのα、
βについて学習を繰り返すことはない。
【0045】(2)次に、ニューラルネットワーク部8
に対する学習データの与え方と、感情パラメータの推定
法とを説明する。
【0046】本発明では、ピッチ周波数やパワーのパタ
ーンを制御する方法として様々なものが考えられる。ピ
ッチ周波数、パワー、スペクトル、話速をそれぞれ独立
したネットワークで扱うことも、全てを1つのネットワ
ークで扱うことも可能である。あるいは、音響的分析部
2で10[ms]毎に得られた全てのフレームに対して
ではなく、モーラ(拍:日本語では仮名文字単位に相
当)毎にいくつかの代表点(フレーム)を選定してそれ
らについてのみ扱うことも考えられる。ここでは、その
いくつかの例について説明する。
【0047】《例1》ピッチ周波数のパターンのみを扱
うネットワークの例 図3に示すように、当該フレームから連続して10フレ
ーム(100[ms])分ずつの代表値を与え、当該フ
レームを5フレーム(50[ms])分ずつシフトしな
がら学習していく。そして、当該フレームの学習が終了
したならば、各重み係数wij、wjkの値を保持して次の
学習データを与え、引き続き各重み係数wij、wjkの値
について修正を継続する。またこのとき、スペクトルの
DPマッチング部4によって、出力層に与える感情音声
と、入力層に与える無感情音声とのフレーム数は同じに
なっている。
【0048】出力層の目標値として、有感情の量子化ピ
ッチ周波数Fq の時系列を入力層側の当該フレームに対
応するフレームから10フレーム(100[ms])分
与える。したがって、出力層の素子は10である。
【0049】入力層には、出力層に与えた感情の種別、
無感情の量子化ピッチ周波数Fq の時系列、出力層から
フィードバックされた、1つ前の学習時点での出力層の
出力値を与える。扱う感情の種類を4つとすると、その
表現方法を2進的に与えることとして、感情の種別を与
える素子数は2個となる。したがって、入力層の素子数
は22となる。
【0050】また、中間層の素子数は10とする。
【0051】学習終了後のネットワークを感情付与に用
いる場合には、任意の無感情音声から抽出した量子化ピ
ッチ周波数Fq の時系列と、変換したい感情の種別、出
力層からのフィードバックを与える。
【0052】出力層に現われる推定されたパターンは5
フレーム分の重なりがあるので、重なる部分は平均値を
とって全体のパターンを構成する。
【0053】《例2》全てのパラメータを1つのネット
ワークで扱う場合の例 図4に示すように、当該フレームのピッチ周波数・パワ
ー・スペクトル・話速変化率を1フレーム(10[m
s])分ずつシフトしながら学習していく。当該フレー
ムの学習が終了したならば、各重み係数wij、wjkの値
を保持して次の学習データを与え、引き続き各重み係数
ij、wjkの値について修正を継続する。またこのと
き、スペクトルのDPマッチング部4によって、出力層
に与える感情音声と、入力層に与える無感情音声とのフ
レーム数は同じになっている。
【0054】出力層の目標値として、入力層側の当該フ
レームに対応する有感情の量子化ピッチ周波数Fq ・全
帯域の正規化パワーPa ・帯域フィルタバンク出力S1
〜S20・話速変化特徴量Rを与える。したがって、出力
層の素子数は23である。
【0055】入力層には、出力層に与えた感情の種別、
無感情の量子化ピッチ周波数Fq ・全帯域の正規化パワ
ーPa ・帯域フィルタバンク出力S1 〜S20、出力層か
らフィードバックされた、1つ前の学習時点での出力層
の出力値を与える。扱う感情の種類を4つとすると、そ
の表現方法を2進的に与えることとして、感情の種別を
与える素子数は2個となる。したがって、入力層の素子
数は47となる。
【0056】中間層の素子数は出力層と同じ23とす
る。
【0057】学習終了後のネットワークを感情付与に用
いる場合には、任意の無感情音声から抽出した量子化ピ
ッチ周波数Fq ・全帯域の正規化パワーPa ・帯域フィ
ルタバンク出力S1 〜S20と、変換したい感情の種別、
出力層からのフィードバックを与える。
【0058】《例3》モーラの代表値のみを扱う場合
(ピッチ周波数のみ扱う) 図5に示すように、各モーラの中心および境界を代表点
として、それらに相当するフレームで得られたピッチ周
波数をネットワークに与える。
【0059】ここで、母音中心点の定義は、 (1)パワーが極大値となるところ (2)スペクトル変化率Δの安定したところ (3)モーラの中心近く の3条件を基準に選択される。
【0060】スペクトル変化率Δとは、LPC回帰係数
δを用いて定義される。δはLPCケプストラム係数c
1 〜c20の次数毎の時系列ci (t) の局所的な動きを回
帰直線
【数4】 で近似したときの傾斜を表わす係数である。但し、回帰
直線を求める範囲は5フレーム(50[ms]の幅)分
とする。このδに対して、次式で与えられるΔを時刻t
におけるスペクトルの変化率とする。
【0061】
【数5】 図6に示すように、代表フレームの量子化ピッチ周波数
q を各モーラ中心を中央として前後3点ずつ入出力層
に与え、1モーラずつシフトしながら学習していく。当
該モーラの学習が終了したならば、各重み係数wij、w
jkの値を保持して次の学習データを与え、引き続き各重
み係数wij、wjkの値について修正を継続する。同一文
章を発声しているので、出力層に与える感情音声と、入
力層に与える無感情音声とのモーラ数は同じである。し
かし、無感情音声と有感情音声の両者について、モーラ
中心とモーラ境界に相当するフレームの位置を何等かの
方法により(手作業による方法が最も正確)決定する必
要がある。
【0062】出力層の目標値として、有感情の各モーラ
代表点3点の量子化ピッチ周波数Fq の時系列を与える
ので、出力層の素子数は3つである。
【0063】入力層には、出力層に与えられた感情の種
別、無感情の各モーラ代表点3点の量子化ピッチ周波数
q の時系列、出力層からフィードバックされた、1つ
前の学習時点での出力層の出力値を与える。扱う感情の
種類を4つとすると、その表現方法を2進法的に与える
こととして、感情の種別を与える素子数は2個となる。
したがって、入力層の素子数は8となる。
【0064】中間層の素子数は3とする。
【0065】学習終了後のネットワークを感情付与に用
いる場合には、任意の無感情音声から抽出・決定した各
モーラ代表点3点の量子化ピッチ周波数Fq の時系列
と、変換したい感情の種別、出力層からのフィードバッ
クを与える。
【0066】出力層に現われる推定されたパターンは各
モーラの代表値3点のみであるので、時間長情報を別の
ネットワークにより推定して与え、各モーラの代表値を
直線でつないだパターンを構成する。そして、10[m
s]毎の全てのフレーム値をこの直線より内挿して求め
る。
【0067】この方法では、推定させるデータが少ない
のが特徴である。しかし、入力音声に対してモーラ位置
を決定する必要があるので、無感情に発声された自然の
音声波形に自動的に感情を付与する音声信号処理には応
用が難しくなるが、逆に規則による音声合成の感情付与
では、規則によりモーラ位置が記述されているので応用
しやすい。
【0068】<規則による合成パラメータ生成部10の
動作>文字コードからこれを構文解析し、予め内部に構
築されている辞書を参照しながら各単語や文節のアクセ
ントを決定し、かつ同様に内部に構築されている様々な
音素を表現できるスペクトルの特徴パラメータの中から
該当する単語等を構成するのに最適なものを選択する。
さらに、規則により文章全体のイントネーションやパワ
ーの変化を決定する。
【0069】この方法については、既に様々なものが開
発されており、その中から適当なものを用いれば良い
が、多くの場合、標準語アクセントで平静に発声した場
合のイントネーションや声の響きが生成されるように設
計されており、無感情に発声された自然音声を分析した
場合に類似した音響的特徴パラメータの時系列が得られ
るので、これを学習済みのニューラルネットワーク部8
の入力層に与えれば、感情を伴ったものに変換すること
ができる。
【0070】<時間伸縮部12の動作>ニューラルネッ
トワーク部8で推定された音響的特徴パラメータのう
ち、各フ
【外1】 <0.5があるフレーム数以上連続する部分)では、同
じフレームを繰り返し、
【外2】 する部分)では、適宜フレームを間引いて配置しなお
す。この操作によって、各部分の発声速度が所望の感情
に適合したものに変更される。
【0071】<音声合成システム部14の動作>音声合
成システム部14の動作は音声信号波形の合成と、帯域
フィルタバンクとの2つに分かれる。
【0072】まず、ニューラルネットワーク部8で推定
され、時間長伸縮部12で時間伸縮
【外3】 を基に音声信号波形を合成する。自然音声から抽出され
た音響的特徴パラメータを全てそのまま用いれば、元の
音声波形が再現されるが、何等かの方法で特徴パラメー
タを変更して用いれば、概ね元の音声とは違った質の音
声が得られる。この方法については、既に様々なものが
開発されており、それぞれの音質や自然さの点で異なる
特長があり、適当なものを選択して用いればよい。但
し、自然音声からパラメータを抽出する方式や、規則に
よる合成パラメータ生成部10の形式に依存するので、
それぞれ適合したものを組み合わせて用いなければなら
ない。
【0073】次に、中心周波数80Hzから6.45k
Hzまで1/3オクターブ幅の20チャネル帯域フィル
タバンクの各帯域のパワーゲインをニューラルネットワ
ーク
【外4】 な出力波形を得た後、D/A変換する。
【0074】
【発明の効果】以上説明したように本発明によれば、様
々な感情表現に寄与する静的・動的音響パラメータを大
量の音声資料の中から効率よく的確に抽出でき、かつそ
の抽出結果が音声合成時のパラメータ制御に直接利用で
きるため、人手による変換規則の構築という労力をかけ
ずに、任意に発声された無感情な自然音声や規則合成音
声を感情を伴ったものに変換することが可能になる。
【図面の簡単な説明】
【図1】本発明による音声合成の感情付与方法の一実施
例を用いた音声処理システムの一例を示すブロック図で
ある。
【図2】図1に示す音声処理システムで使用されるシー
ケンシャルネットワークの構成例を示す図である。
【図3】図1に示す音声処理システムにおいてピッチ周
波数パターンのみを扱う実施例の一例を説明するための
図である。
【図4】図1に示す音声処理システムにおいてピッチ周
波数、パワー、スペクトル、話速を1つのネットワーク
で扱う実施例の一例を説明するための図である。
【図5】図1に示す音声処理システムにおいて各モーラ
の代表値のみを用いて感情を付与する実施例のため、モ
ーラ代表値を決定する方法を説明する図である。
【図6】図1に示す音声処理システムにおいてピッチ周
波数パターンの各モーラの代表値のみを用いて感情を付
与する実施例の一例を説明するための図である。
【符号の説明】
2 音響的分析部 4 スペクトルのDPマッチング部 6 各音素の時間長伸縮部 8 ニューラルネットワーク部 10 規則による合成パラメータ生成部 12 時間長伸縮部 14 音声合成システム部

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 学習時において、予め設定された言語で
    発声された無感情音声と、有感情音声とについて少なく
    とも声の高さ、大きさ、発声速度、スペクトルのいずれ
    か1つ以上の音響的特徴パラメータを抽出するととも
    に、これら無感情音声と有感情音声との間の母音、子音
    の位置の対応をとりつつ、ニューラルネットワークの入
    力層に無感情音声の音響的特徴パラメータを与えなが
    ら、前記ニューラルネットワークの出力層に有感情音声
    の音響的特徴パラメータを与えることによって、これら
    無感情音声と有感情音声との間の音響的特徴パラメータ
    の時間的な平均値または時間変化パターンの違いを学習
    させ、 感情付与時において、合成対象となる音声の音響的特徴
    パラメータを前記ニューラルネットワークの入力層に入
    力して出力層から所望感情の音響的特徴パラメータを出
    力させ、この音響的特徴パラメータを用いて音声合成を
    行なう、 ことを特徴とする音声合成の感情付与方法。
  2. 【請求項2】 前記ニューラルネットワークは少なくと
    もピッチ周波数、大きさ、発声速度、スペクトルのいず
    れか1つ以上をパラメータとして扱うネットワークであ
    って、 音声からこれらのパラメータを抽出する時間間隔は、一
    定間隔またはモーラの代表値のみを抽出して扱うネット
    ワークである請求項1記載の音声合成の感情付与方法。
  3. 【請求項3】 合成対象となる音声の音響的特徴パラメ
    ータは任意の文章を無感情に発声した音声を分析して得
    られた各種の音響的特徴パラメータ、またはある任意の
    文字列を標準的な抑揚を持った合成音声を生成するため
    の合成用パラメータのいずれかである請求項1または2
    記載の音声合成の感情付与方法。
JP5218710A 1993-09-02 1993-09-02 音声合成の感情付与方法 Pending JPH0772900A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5218710A JPH0772900A (ja) 1993-09-02 1993-09-02 音声合成の感情付与方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5218710A JPH0772900A (ja) 1993-09-02 1993-09-02 音声合成の感情付与方法

Publications (1)

Publication Number Publication Date
JPH0772900A true JPH0772900A (ja) 1995-03-17

Family

ID=16724222

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5218710A Pending JPH0772900A (ja) 1993-09-02 1993-09-02 音声合成の感情付与方法

Country Status (1)

Country Link
JP (1) JPH0772900A (ja)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10254592A (ja) * 1997-03-13 1998-09-25 Nec Corp 感情生成装置およびその方法
KR19980065482A (ko) * 1997-01-10 1998-10-15 김광호 스피킹 스타일을 변경하는 음성 합성 방법
WO2002073594A1 (fr) * 2001-03-09 2002-09-19 Sony Corporation Dispositif de synthese vocale
JP2002304186A (ja) * 2001-04-05 2002-10-18 Sharp Corp 音声合成装置、音声合成方法および音声合成プログラム
JP2003233388A (ja) * 2002-02-07 2003-08-22 Sharp Corp 音声合成装置および音声合成方法、並びに、プログラム記録媒体
US7809572B2 (en) 2005-07-20 2010-10-05 Panasonic Corporation Voice quality change portion locating apparatus
US8073696B2 (en) 2005-05-18 2011-12-06 Panasonic Corporation Voice synthesis device
US8898062B2 (en) 2007-02-19 2014-11-25 Panasonic Intellectual Property Corporation Of America Strained-rough-voice conversion device, voice conversion device, voice synthesis device, voice conversion method, voice synthesis method, and program
US8898055B2 (en) 2007-05-14 2014-11-25 Panasonic Intellectual Property Corporation Of America Voice quality conversion device and voice quality conversion method for converting voice quality of an input speech using target vocal tract information and received vocal tract information corresponding to the input speech
CN104934028A (zh) * 2015-06-17 2015-09-23 百度在线网络技术(北京)有限公司 用于语音合成的深度神经网络模型的训练方法及装置
JP2015180966A (ja) * 2012-07-18 2015-10-15 株式会社東芝 音声処理システム
US9240194B2 (en) 2011-07-14 2016-01-19 Panasonic Intellectual Property Management Co., Ltd. Voice quality conversion system, voice quality conversion device, voice quality conversion method, vocal tract information generation device, and vocal tract information generation method
WO2016039465A1 (ja) * 2014-09-12 2016-03-17 ヤマハ株式会社 音響解析装置
JP6582157B1 (ja) * 2018-10-29 2019-09-25 健一 海沼 音声処理装置、およびプログラム

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR19980065482A (ko) * 1997-01-10 1998-10-15 김광호 스피킹 스타일을 변경하는 음성 합성 방법
JPH10254592A (ja) * 1997-03-13 1998-09-25 Nec Corp 感情生成装置およびその方法
US6219657B1 (en) 1997-03-13 2001-04-17 Nec Corporation Device and method for creation of emotions
WO2002073594A1 (fr) * 2001-03-09 2002-09-19 Sony Corporation Dispositif de synthese vocale
JP2002304186A (ja) * 2001-04-05 2002-10-18 Sharp Corp 音声合成装置、音声合成方法および音声合成プログラム
JP2003233388A (ja) * 2002-02-07 2003-08-22 Sharp Corp 音声合成装置および音声合成方法、並びに、プログラム記録媒体
US8073696B2 (en) 2005-05-18 2011-12-06 Panasonic Corporation Voice synthesis device
US7809572B2 (en) 2005-07-20 2010-10-05 Panasonic Corporation Voice quality change portion locating apparatus
US8898062B2 (en) 2007-02-19 2014-11-25 Panasonic Intellectual Property Corporation Of America Strained-rough-voice conversion device, voice conversion device, voice synthesis device, voice conversion method, voice synthesis method, and program
US8898055B2 (en) 2007-05-14 2014-11-25 Panasonic Intellectual Property Corporation Of America Voice quality conversion device and voice quality conversion method for converting voice quality of an input speech using target vocal tract information and received vocal tract information corresponding to the input speech
US9240194B2 (en) 2011-07-14 2016-01-19 Panasonic Intellectual Property Management Co., Ltd. Voice quality conversion system, voice quality conversion device, voice quality conversion method, vocal tract information generation device, and vocal tract information generation method
JP2015180966A (ja) * 2012-07-18 2015-10-15 株式会社東芝 音声処理システム
WO2016039465A1 (ja) * 2014-09-12 2016-03-17 ヤマハ株式会社 音響解析装置
CN104934028A (zh) * 2015-06-17 2015-09-23 百度在线网络技术(北京)有限公司 用于语音合成的深度神经网络模型的训练方法及装置
JP6582157B1 (ja) * 2018-10-29 2019-09-25 健一 海沼 音声処理装置、およびプログラム
WO2020089961A1 (ja) * 2018-10-29 2020-05-07 健一 海沼 音声処理装置、およびプログラム
US10964308B2 (en) 2018-10-29 2021-03-30 Ken-ichi KAINUMA Speech processing apparatus, and program

Similar Documents

Publication Publication Date Title
US10186252B1 (en) Text to speech synthesis using deep neural network with constant unit length spectrogram
JP2826215B2 (ja) 合成音声生成方法及びテキスト音声合成装置
JP4302788B2 (ja) 音声合成用の基本周波数テンプレートを収容する韻律データベース
EP0504927B1 (en) Speech recognition system and method
JPH0772900A (ja) 音声合成の感情付与方法
Niwa et al. Statistical voice conversion based on WaveNet
JPH0632020B2 (ja) 音声合成方法および装置
US5659664A (en) Speech synthesis with weighted parameters at phoneme boundaries
Yadav et al. Prosodic mapping using neural networks for emotion conversion in Hindi language
JPH08248994A (ja) 声質変換音声合成装置
JP5574344B2 (ja) 1モデル音声認識合成に基づく音声合成装置、音声合成方法および音声合成プログラム
Raghavendra et al. Speech synthesis using artificial neural networks
JP3281266B2 (ja) 音声合成方法及び装置
JP2904279B2 (ja) 音声合成方法および装置
Win et al. Myanmar Text-to-Speech System based on Tacotron (End-to-End Generative Model)
CN113436607B (zh) 一种快速语音克隆方法
Akanbi et al. Automatic recognition of oral vowels in tone language: Experiments with fuzzy logic and neural network models
JPH0580791A (ja) 音声規則合成装置および方法
JP7079455B1 (ja) 音響モデル学習装置、方法およびプログラム、並びに、音声合成装置、方法およびプログラム
Eshghi et al. Phoneme Embeddings on Predicting Fundamental Frequency Pattern for Electrolaryngeal Speech
JP2755478B2 (ja) テキスト音声合成装置
Chakrasali et al. Performance analysis of different intonation models in Kannada speech synthesis
JP2655902B2 (ja) 音声の特徴抽出装置
Kumar et al. Building a Light Weight Intelligible Text-to-Speech Voice Model for Indian Accent Telugu
JPH0272399A (ja) 音声規則合成方式