JPH01276200A

JPH01276200A - 音声合成装置

Info

Publication number: JPH01276200A
Application number: JP10391288A
Authority: JP
Inventors: Akio Amano; 天野　明雄; Hiroshi Ichikawa; 市川　熹; Yoshiaki Asakawa; 浅川　吉章; Nobuo Hataoka; 畑岡　信夫
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1988-04-28
Filing date: 1988-04-28
Publication date: 1989-11-06

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は音声分析合成装置に係り、特に合成音声の品質
の向上に関する。

〔従来の技術〕

従来の音声分析合成装置、例えばＰＡＲＣＯＲ分析合成
装置では、音声生成過程のモデルに対し、声道のシステ
ム関数が全棒形であること、有声音源はパルス列である
こと、無声音源は白色雑音であること等の仮定をおいて
おり、この簡単化さｔＬだモデルに基づいて音声合成を
行なっていた。なおＰＡＲＣＯＲ分析合成装置について
は、斉藤・中田著、音声情報処理の基礎、第８章、（１
，９８１年）。

オーム社に詳しく記述されている。

〔発明が解決しようとする課題〕

上記従来技術では、人間の音声生成；ｓＪ程を簡単な数
学モデルとしてとらえ、このモデルに基づいて音声合成
を行なっており、モデル化によって合成音声の品質が原
音声と比べ劣下する問題、さらにその劣下の具体的な原
因を突きとめられず、品質向上の対策を打てないという
問題があった。

本発明の目的は、品質劣下の具体的な原因をつかまない
ままでも適用可能な品質向上策を提供することにある。

ｒｌｌＭを解決するための手段〕上記目的は、多層ニューラルネットワークにおいて任意
の写像（入出力関係）が実現できるということを利用し
、合成音声を入力、原音声を出力とみたてて、この入出
力関係を多層ニューラルネットワークの中に学習させる
ことにより、達成される。

〔作用〕

合成音声を入力９合成音声の元である原音声を出力と考
え、この入力−出力の例を繰返し多層ニューラルネット
ワークに提示し、これに基づいて多層ニューラルネット
ワークの結合係数を修正していくと多層ニューラルネッ
トワークはしだいにこの人力−出力関係を実現できるよ
うになる。

十分に結合係数の修正が行なよれた後には、この多層ニ
ューラルネットワークは、合成音声を入力すると原音声
により近い自然な音声を出力するようになる。

〔実施例〕

以下２本発明の一実施例を第１図により説明する。

まず、本実施例の全体構成を説明する。本実施例は、話
者の発声した音声９をとりこみディジタル信号に変換す
る入力部１．入力部１によりとりこまれた音声信号を一
時的に保持するバッファ２、音声信号を分析して分析パ
ラメタに変換する分析部３、分析パラメタに基づいて音
声を合成する合成部６、合成音声を入力とし処理を加え
て音声出力する多層ニューラルネットワーク７、多層ニ
ューラルネットワーク７の学習を制御する学習制御部８
１分析パラメタを格納する分析パラメタ格納部５、デー
タの流れを制御する切替スイッチ４よりなる。

以下、本実施例の動作を説明する８本実施例の動作は大
きく２つのモードに分けられる。第１のモードは学習デ
ータを与えて多層ニューラルネットワーク７の学習を行
なうモードである。十分に学習が進み適当な結合係数が
多層ニューラルネットワーク７に設定されれば学習は完
了したことになり第１のモードは終了する。第２のモー
ドは学習の完了した多層ニューラルネットワーク７を音
声合成の後処理として用い、合成部６からの合成音声に
処理を加え、品質を向上した上で出力する。

まず、第１のモードについて説明する。学習モードでは
まず準備として、学習データとなる原音声を入力部１よ
りとりこみバッファ２に保持しておく、一方、多層ニュ
ーラルネットワーク７には結合係数の初期値を適当な値
に設定しておく。また、切替スイッチ４は分析部３の出
力を直接合成部６に入力するように接続しておく０以上
の準備の後に学習を進めるが、それは以下のように行な
う。まず、バッファ２より原音声を読み出し、これを分
析部３で分析して分析パラメタに変換する。

分析パラメタは切替スイッチ４を介して合成部６に送ら
れる。合成部６では入力された分析パラメタに基づいて
音声合成を行ない合成音声を出力する。合成部６から出
力された合成音声は多層ニューラルネットワーク７に入
力され処理を加えられた後に出力される。多層ニューラ
ルネットワーク７からの出力は学習制御部８に入力され
、多層ニューラルネットワーク７の学習を制御するため
に用いられる。一方学習制御部８にはバッファ２より原
音声データが供給され、これも多層ニューラルネットワ
ーク７の学習の制御に用いられる。学習制御部８では、
多層ニューラルネットワーク７の出力と原音声データと
を受け、両者の間の差異を算出し、さらにこの差異を小
さくするために、多層ニューラルネットワーク７の結合
係数をどのように変更すべきかを算出する。この結果に
基づいて多層ニューラルネットワーク７の結合係数の変
更を行なう。以上により、多層ニューラルネットワーク
７の結合係数変更が１回行なわれたが。

以上の学習でデータの提示と結合係数変更のプロセスを
何回か繰返した学習を進める。多層ニューラルネットワ
ーク７の出力と原音声との間の差異は学習を繰返す毎に
しだいに小さくなっていくが、これが予め定めた閾値よ
りも小さくなった時点で学習を終了する。

次に第２のモード、実行モードについて説明する。実行
モードでは予め多層ニューラルネットワーク７に学習済
みの結合係数を設定しておく。今、音声出力したい発声
内容についての分析パラメタは既に分析パラメタ格納部
５に格納されている場合について考える。音声出力をす
るにあたりまず、切替えスイッチ４は、分析パラメタ格
納部５と合成部６とを接続するように設定する。つぎに
音声出力したい内容の分析パラメタを分析パラメタ格納
部５より読み出し切替えスイッチ４を介して合成部６へ
送る。合成部６では送られた分析パラメタに基づいて音
声合成を行ない１合成音声を出力し多層ニューラルネッ
トワーク７へ送る。多層ニュラルネットワーク７では予
め設定された学習済みの結合係数を用いて合成音声に対
して処理を施し、処理結合の音声を出力する。ここで多
層ニューラルネットワーク７の結合係数は合成音声と原
音声との対応関係を表現したものとなっているので多層
ニューラルネットワーク７からの出力は、合成音声に比
較して、より原音声に近い自然なものとなっており、合
成音声の品質向上の効果が得られる。

次に、本実施例の構成要素について説明を加える。

まず分析部３と合成部６であるが１本発明は原理的にど
のような分析合成方式に対しても適用可能である。した
がって、分析部３２合成部６は任意の分析合成方式に基
づくものでよく、例えば特開昭６１−２９６３９８に記
載の分析部９合成部を用いればよい。

次に多層ニューラルネットワーク７について詳しく説明
する。まず、第２図を用いて、多層ニューラルネットワ
ークの一般的な動作を説明する。

多層ニューラルネットワークは単純な演算処理を行なう
エレメントを多数、層状に結合したものであり、第Ｎ層
に属するエレメントは第Ｎ−１層に属する全てのエレメ
ントから入力を受け、その全入力の加重和に対して単純
な演算処理を施し、その結果を出力する。この出力は第
Ｎ＋１層に属する全てのエレメントに送られる。第２図
中、小さな円で示したのがエレメントであり、階層間の
結合を矢印で示した。第２図は第Ｎ−１層２０．第Ｎ層
３０．第Ｎ＋１層４０の３階層の部分のみを示した。ま
た、第Ｎ層３０に関しては、１つの工＼レメント３０１
にのみ焦点をあて、その他の部分は省略しである。なお
結合を示す矢印にそえである記号Ｗｌ、　Ｗｚ、・・・
＋　ＷＨ−はエレメント２０１への第Ｎ−１ｆｆ２０か
らの各入力に対する結合係数を表わしている。第Ｎ−１
層２０の各エレメントの出力をＯｌ　、０２．・・・、
○阿とすると、第Ｎ層　Ｊｅ１３０のエレメント３０１
の出力は、ｆ　（ΣＷＩＯＩ）ｉ＝１で表わすことができる。ここで、関数ｆは各エレメント
毎に個別の関数形を設定することができる。

以上のような単純な演算処理を階層の数だけ繰返し、最
終的な階層での演算結果が多層ニューラルネットワーク
の最終的な出力となる１次に第３図を用いて本実施例で
用いている多層ニューラルネットワーク７について詳し
く説明する。多層ニューラルネットワークは何階層の構
成も可能であるが、４層以上あれば原理的に任意の入出
力対応関係が実現可能であるということを考慮し、本実
施例では４層構成としている。第３図中、エレメンドア
１１，７１２，７１３・・・が第１層を、エレメント７
２１，７２２，７２３・・・が第２層を、エレメント７
３１，７３２，７３３・・・が第３層を、エレメント７
４１，７４２，７４３・・・が第４層を構成している。

各層のエレメントの個数は順に、Ｎ　１゜Ｎ２．ＮＩＬ
、Ｎ４であり、任意の値に設定可能である。第１層（入
力層）、第４層（出力層）のエレメントの個数Ｎ１．Ｎ
４はどのような入出力対応関係を設定するかに依存して
定める。また、第２層。

第３層の中間層のエメントの個数Ｎｚ、Ｎｓは学習のし
やすい観点等から実験的に定める６例えば１’Ｊ１：Ｎ
ｚ＝Ｎｓ＝Ｎ４＝４０　といったｆｆ定をすればよい、
第３図中、各エレメント間の結合の荷重係数を各矢印に
そえて記したがＷｉｈ、＊は第１層の第Ｑエレメントか
ら第ｉ＋１層のにエレメントへの結合の係数を示してい
る。また、各エレメントにおける関数形であるが本実施
例では第１層、第４Ｎ４を線形関数ｆ（ｘ）＝：ａｘ第２層、第３層をｓｉｇｍｏｉｄ関数ｆ　（ｘ）　＝　１　／　（１＋ｅｘｐ（−ｘ））とし
ている。本多層ニューラルネットワーク７への入力は合
成音声の時系列Ｘｉ、　Ｎ２．・・・、ＩＮであるがこ
れをＮｔ（＝４０）点毎に切出し、これを第１層（入力
層）の各エレメントＩｌ〜ＩＮＩへ入力する。

第１層の各エレメントに入力が与えられると、前記第２
図を用いて説明した手順に従って演算を繰返し、第４層
（出力層）の各エレメントでの出力が得られる。これが
切出して入力されたＮｕ（＝４０）魚介の入力波形に対
する出力波形となる。以降、切出しと、多層ニューラル
ネットワーク引算を繰返し、Ｎ１（＝Ｎ４＝４０）点ず
つ得られる出力波形を接続することにより出力音声の時
系列の全体ｙｌ＋Ｙｚ＋・・・、ｙＮが得られる。

なお、第３図の構成では多層ニューラルネツ１〜ワーク
７への入力、出力がＮ　１（＝　４０　）点毎に切出さ
れた波形データとなっているが、第４図に示すように遅
れ回路７５１，７５２・・を設ければ多層ニューラルネ
ットワーク７への波形データ入力は単位時間毎に１サン
プルずつ与えることができる。なお、このときの出力は
、第４層７４の中の適当な１つのエレメントを選び、そ
の出力を用いればよい。この場合第４層は、出力になる
素子のみを用意すれば良い。

次に学習制御部８について説明する。学習制御部８は多
層ニューラルネットワーク７の出力と、目標出力である
原音声とを入力として、その差異の情報を用いて、多層
ニューラルネットワーク７の結合係数をどのように修正
すれば前記差異が減少するかを算出し、この算出結合異
差に基づいて多層ニューラルネットワーク７の各結合係
数の修正を行なう。各結合係数の修正量の算出法として
は、パックプロパゲーションという手法が知られており
、その詳細は文献エム、アイ、ティープレス出版パラレ
ル　デイステウリビューデッド　プロセシング第１巻、
（１９８６年）第８章、第３１８頁から第３６２頁（Ｍ
ＩＴ　Ｐｒｅｓｓ、　ＰａｒａｌｌｅｌＤｉｓｔｒｉｂ
ｕｔｅｄ　Ｐｒｏｃｅｓｓｉｎｇ　ＶｏＱ、１　（１９
８６）、　Ｃｈａｐ、８Ｐρ３１８−３６２）に記載さ
れているのでこの手法を用いればよい。多層ニューラル
ネットワーク７からの出力波形としては１回にＮ１（＝
Ｎ４＝４０）点の時系列データが得られるが、目標出力
としては原音声からＮ　１　（＝　Ｎ　４　＝　４０　
）点を切り出した時系列データを用い、この両者の間の
差異を求め、この結果に基づいて結合係数の修正を行な
う。以上、Ｎｚ（＝Ｎａ＝４０）点のデータを用いての
結合係数の修正が学習の１単位であり、これを繰返して
、多層ニューラルネットワーク７の出力と目標出力の間
の差異がある予め設定した値よりも小さくなった時点で
学習を終了すればよい。

以上、本実施例によれば、合成音声と原音声の間の対応
関係を多層ニューラルネットワークの中に学習すること
ができ、学習後の多層ニューラルネットワークを用いる
ことで合成音声をより原音声に近づけることが可能とな
り１合成音声の品質向上の効果が得られる。

なお第５図に示すように分析パラメタ格納部５゜復号化
部１１と制御部１２を組合わせれば音声応答システムが
実現できる。また第６図に示すように符号化部１０の出
力を通信回線１３を介して送信し、送信先で復号化部１
１を用いて復号再生すような構成により、高品質の音声
高能率符号化システムが実現できる。

〔発明の効果〕

本発明によれば、合成音声と原音声の間の対応関係を多
層ニューラルネットワークの中に学習することができ、
学習後のニューラルネットワークを用いて、合成音声を
よりノＪＫ音声に近い音声に変換することができ、合成
音声の品質向上の効果がある。

【図面の簡単な説明】

第１図は本発明の一実施例を示す構成図、第２図は一般
的な多層ニューラルネットワークを説明する説明図、第
３図は本発明の一実施例で用いている多層ニューラルネ
ットワークの構成を示す構成図である。第４図は第３図
で示した多層ニューラルネットワークの変形の構成図、
第５図は本発明を利用した音声応答システムの構成図、
第６図は本発明を利用したＣ０ＤＥＣの構成図を示す。１・・・入力部、２・・・バッファ、３・・・分析部、
４・・・切替スイッチ、５・・・分析パラメータ格納部
、６・・・合成部、７・・・多層ニューラルネットワー
ク、８・・学習制御部、１０・・・符号化部、１１・・
・復号化部、７１・・・第り層、７２・・・第２層、７
３・・・第３層、７４・・・第４層、７１１，７１２，
７１３，７２１゜７２２．７２３，７３１，７３２，７
３３，７４１゜搾　２　図笹　Ｓ　区？（乙　　　　冴り

Claims

【特許請求の範囲】１、入力音声を分析し該分析結果に基づいて音声を合成
する音声合成装置において、上記音声を合成する合成手
段から出力される合成音声に対してフィルタリングを行
なう後処理フィルタを有していることを特徴とする音声
合成装置。２、特許請求の範囲第１項に記載の音声合成装置におい
て、上記後処理フィルタは多層のニューラルネットワー
クにより構成されていることを特徴とする音声合成装置
。３、特許請求の範囲第２項記載の音声合成装置において
、上記多層のニューラルネットワークの学習を行なうた
めの学習制御手段を有する。４、特許請求の範囲第２項記載の音声合成装置において
上記後処理フィルタであるニューラルネットワークは、
その入力端子間に遅れ回路が設けられ、合成器からの出
力がその一端に接続されていることを特徴とする音声合
成装置。５、特許請求の範囲第２項記載の音声合成装置において
、上記後処理フィルタであるニューラルネットワークの
出力は、その出力端子が１ケ所であることを特徴とする
音声合成装置。６、特許請求の範囲第５項記載の音声合成装置において
、上記後処理フシルタであるニューラルネットワークは
、その最経層が出力端子につながる一素子のみからなる
ことを特徴とする音声合成装置。７、特許請求の範囲第１項記載の音声合成装置を有する
音声応答装置。８、特許請求の範囲第１項記載の音声合成装置を復号化
部とする高能率音声符号化方式。