JPH01276200A - 音声合成装置 - Google Patents

音声合成装置

Info

Publication number
JPH01276200A
JPH01276200A JP10391288A JP10391288A JPH01276200A JP H01276200 A JPH01276200 A JP H01276200A JP 10391288 A JP10391288 A JP 10391288A JP 10391288 A JP10391288 A JP 10391288A JP H01276200 A JPH01276200 A JP H01276200A
Authority
JP
Japan
Prior art keywords
speech
neural network
output
multilayer neural
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10391288A
Other languages
English (en)
Inventor
Akio Amano
天野 明雄
Hiroshi Ichikawa
市川 熹
Yoshiaki Asakawa
浅川 吉章
Nobuo Hataoka
畑岡 信夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP10391288A priority Critical patent/JPH01276200A/ja
Publication of JPH01276200A publication Critical patent/JPH01276200A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は音声分析合成装置に係り、特に合成音声の品質
の向上に関する。
〔従来の技術〕
従来の音声分析合成装置、例えばPARCOR分析合成
装置では、音声生成過程のモデルに対し、声道のシステ
ム関数が全棒形であること、有声音源はパルス列である
こと、無声音源は白色雑音であること等の仮定をおいて
おり、この簡単化さtLだモデルに基づいて音声合成を
行なっていた。なおPARCOR分析合成装置について
は、斉藤・中田著、音声情報処理の基礎、第8章、(1
,981年)。
オーム社に詳しく記述されている。
〔発明が解決しようとする課題〕
上記従来技術では、人間の音声生成;sJ程を簡単な数
学モデルとしてとらえ、このモデルに基づいて音声合成
を行なっており、モデル化によって合成音声の品質が原
音声と比べ劣下する問題、さらにその劣下の具体的な原
因を突きとめられず、品質向上の対策を打てないという
問題があった。
本発明の目的は、品質劣下の具体的な原因をつかまない
ままでも適用可能な品質向上策を提供することにある。
rllMを解決するための手段〕 上記目的は、多層ニューラルネットワークにおいて任意
の写像(入出力関係)が実現できるということを利用し
、合成音声を入力、原音声を出力とみたてて、この入出
力関係を多層ニューラルネットワークの中に学習させる
ことにより、達成される。
〔作用〕
合成音声を入力9合成音声の元である原音声を出力と考
え、この入力−出力の例を繰返し多層ニューラルネット
ワークに提示し、これに基づいて多層ニューラルネット
ワークの結合係数を修正していくと多層ニューラルネッ
トワークはしだいにこの人力−出力関係を実現できるよ
うになる。
十分に結合係数の修正が行なよれた後には、この多層ニ
ューラルネットワークは、合成音声を入力すると原音声
により近い自然な音声を出力するようになる。
〔実施例〕
以下2本発明の一実施例を第1図により説明する。
まず、本実施例の全体構成を説明する。本実施例は、話
者の発声した音声9をとりこみディジタル信号に変換す
る入力部1.入力部1によりとりこまれた音声信号を一
時的に保持するバッファ2、音声信号を分析して分析パ
ラメタに変換する分析部3、分析パラメタに基づいて音
声を合成する合成部6、合成音声を入力とし処理を加え
て音声出力する多層ニューラルネットワーク7、多層ニ
ューラルネットワーク7の学習を制御する学習制御部8
1分析パラメタを格納する分析パラメタ格納部5、デー
タの流れを制御する切替スイッチ4よりなる。
以下、本実施例の動作を説明する8本実施例の動作は大
きく2つのモードに分けられる。第1のモードは学習デ
ータを与えて多層ニューラルネットワーク7の学習を行
なうモードである。十分に学習が進み適当な結合係数が
多層ニューラルネットワーク7に設定されれば学習は完
了したことになり第1のモードは終了する。第2のモー
ドは学習の完了した多層ニューラルネットワーク7を音
声合成の後処理として用い、合成部6からの合成音声に
処理を加え、品質を向上した上で出力する。
まず、第1のモードについて説明する。学習モードでは
まず準備として、学習データとなる原音声を入力部1よ
りとりこみバッファ2に保持しておく、一方、多層ニュ
ーラルネットワーク7には結合係数の初期値を適当な値
に設定しておく。また、切替スイッチ4は分析部3の出
力を直接合成部6に入力するように接続しておく0以上
の準備の後に学習を進めるが、それは以下のように行な
う。まず、バッファ2より原音声を読み出し、これを分
析部3で分析して分析パラメタに変換する。
分析パラメタは切替スイッチ4を介して合成部6に送ら
れる。合成部6では入力された分析パラメタに基づいて
音声合成を行ない合成音声を出力する。合成部6から出
力された合成音声は多層ニューラルネットワーク7に入
力され処理を加えられた後に出力される。多層ニューラ
ルネットワーク7からの出力は学習制御部8に入力され
、多層ニューラルネットワーク7の学習を制御するため
に用いられる。一方学習制御部8にはバッファ2より原
音声データが供給され、これも多層ニューラルネットワ
ーク7の学習の制御に用いられる。学習制御部8では、
多層ニューラルネットワーク7の出力と原音声データと
を受け、両者の間の差異を算出し、さらにこの差異を小
さくするために、多層ニューラルネットワーク7の結合
係数をどのように変更すべきかを算出する。この結果に
基づいて多層ニューラルネットワーク7の結合係数の変
更を行なう。以上により、多層ニューラルネットワーク
7の結合係数変更が1回行なわれたが。
以上の学習でデータの提示と結合係数変更のプロセスを
何回か繰返した学習を進める。多層ニューラルネットワ
ーク7の出力と原音声との間の差異は学習を繰返す毎に
しだいに小さくなっていくが、これが予め定めた閾値よ
りも小さくなった時点で学習を終了する。
次に第2のモード、実行モードについて説明する。実行
モードでは予め多層ニューラルネットワーク7に学習済
みの結合係数を設定しておく。今、音声出力したい発声
内容についての分析パラメタは既に分析パラメタ格納部
5に格納されている場合について考える。音声出力をす
るにあたりまず、切替えスイッチ4は、分析パラメタ格
納部5と合成部6とを接続するように設定する。つぎに
音声出力したい内容の分析パラメタを分析パラメタ格納
部5より読み出し切替えスイッチ4を介して合成部6へ
送る。合成部6では送られた分析パラメタに基づいて音
声合成を行ない1合成音声を出力し多層ニューラルネッ
トワーク7へ送る。多層ニュラルネットワーク7では予
め設定された学習済みの結合係数を用いて合成音声に対
して処理を施し、処理結合の音声を出力する。ここで多
層ニューラルネットワーク7の結合係数は合成音声と原
音声との対応関係を表現したものとなっているので多層
ニューラルネットワーク7からの出力は、合成音声に比
較して、より原音声に近い自然なものとなっており、合
成音声の品質向上の効果が得られる。
次に、本実施例の構成要素について説明を加える。
まず分析部3と合成部6であるが1本発明は原理的にど
のような分析合成方式に対しても適用可能である。した
がって、分析部32合成部6は任意の分析合成方式に基
づくものでよく、例えば特開昭61−296398に記
載の分析部9合成部を用いればよい。
次に多層ニューラルネットワーク7について詳しく説明
する。まず、第2図を用いて、多層ニューラルネットワ
ークの一般的な動作を説明する。
多層ニューラルネットワークは単純な演算処理を行なう
エレメントを多数、層状に結合したものであり、第N層
に属するエレメントは第N−1層に属する全てのエレメ
ントから入力を受け、その全入力の加重和に対して単純
な演算処理を施し、その結果を出力する。この出力は第
N+1層に属する全てのエレメントに送られる。第2図
中、小さな円で示したのがエレメントであり、階層間の
結合を矢印で示した。第2図は第N−1層20.第N層
30.第N+1層40の3階層の部分のみを示した。ま
た、第N層30に関しては、1つの工\レメント301
にのみ焦点をあて、その他の部分は省略しである。なお
結合を示す矢印にそえである記号Wl、 Wz、・・・
+ WH−はエレメント201への第N−1ff20か
らの各入力に対する結合係数を表わしている。第N−1
層20の各エレメントの出力をOl 、02.・・・、
○阿とすると、第N層 Je130のエレメント301
の出力は、f (ΣWIOI) i=1 で表わすことができる。ここで、関数fは各エレメント
毎に個別の関数形を設定することができる。
以上のような単純な演算処理を階層の数だけ繰返し、最
終的な階層での演算結果が多層ニューラルネットワーク
の最終的な出力となる1次に第3図を用いて本実施例で
用いている多層ニューラルネットワーク7について詳し
く説明する。多層ニューラルネットワークは何階層の構
成も可能であるが、4層以上あれば原理的に任意の入出
力対応関係が実現可能であるということを考慮し、本実
施例では4層構成としている。第3図中、エレメンドア
11,712,713・・・が第1層を、エレメント7
21,722,723・・・が第2層を、エレメント7
31,732,733・・・が第3層を、エレメント7
41,742,743・・・が第4層を構成している。
各層のエレメントの個数は順に、N 1゜N2.NIL
、N4であり、任意の値に設定可能である。第1層(入
力層)、第4層(出力層)のエレメントの個数N1.N
4はどのような入出力対応関係を設定するかに依存して
定める。また、第2層。
第3層の中間層のエメントの個数Nz、Nsは学習のし
やすい観点等から実験的に定める6例えば1’J1:N
z=Ns=N4=40 といったff定をすればよい、
第3図中、各エレメント間の結合の荷重係数を各矢印に
そえて記したがWih、*は第1層の第Qエレメントか
ら第i+1層のにエレメントへの結合の係数を示してい
る。また、各エレメントにおける関数形であるが本実施
例では第1層、第4N4を線形関数 f(x)=:ax 第2層、第3層をsigmoid関数 f (x) = 1 / (1+exp(−x))とし
ている。本多層ニューラルネットワーク7への入力は合
成音声の時系列Xi、 N2.・・・、INであるがこ
れをNt(=40)点毎に切出し、これを第1層(入力
層)の各エレメントIl〜INIへ入力する。
第1層の各エレメントに入力が与えられると、前記第2
図を用いて説明した手順に従って演算を繰返し、第4層
(出力層)の各エレメントでの出力が得られる。これが
切出して入力されたNu(=40)魚介の入力波形に対
する出力波形となる。以降、切出しと、多層ニューラル
ネットワーク引算を繰返し、N1(=N4=40)点ず
つ得られる出力波形を接続することにより出力音声の時
系列の全体yl+Yz+・・・、yNが得られる。
なお、第3図の構成では多層ニューラルネツ1〜ワーク
7への入力、出力がN 1(= 40 )点毎に切出さ
れた波形データとなっているが、第4図に示すように遅
れ回路751,752・・を設ければ多層ニューラルネ
ットワーク7への波形データ入力は単位時間毎に1サン
プルずつ与えることができる。なお、このときの出力は
、第4層74の中の適当な1つのエレメントを選び、そ
の出力を用いればよい。この場合第4層は、出力になる
素子のみを用意すれば良い。
次に学習制御部8について説明する。学習制御部8は多
層ニューラルネットワーク7の出力と、目標出力である
原音声とを入力として、その差異の情報を用いて、多層
ニューラルネットワーク7の結合係数をどのように修正
すれば前記差異が減少するかを算出し、この算出結合異
差に基づいて多層ニューラルネットワーク7の各結合係
数の修正を行なう。各結合係数の修正量の算出法として
は、パックプロパゲーションという手法が知られており
、その詳細は文献エム、アイ、ティープレス出版パラレ
ル デイステウリビューデッド プロセシング第1巻、
(1986年)第8章、第318頁から第362頁(M
IT Press、 ParallelDistrib
uted Processing VoQ、1 (19
86)、 Chap、8Pρ318−362)に記載さ
れているのでこの手法を用いればよい。多層ニューラル
ネットワーク7からの出力波形としては1回にN1(=
N4=40)点の時系列データが得られるが、目標出力
としては原音声からN 1 (= N 4 = 40 
)点を切り出した時系列データを用い、この両者の間の
差異を求め、この結果に基づいて結合係数の修正を行な
う。以上、Nz(=Na=40)点のデータを用いての
結合係数の修正が学習の1単位であり、これを繰返して
、多層ニューラルネットワーク7の出力と目標出力の間
の差異がある予め設定した値よりも小さくなった時点で
学習を終了すればよい。
以上、本実施例によれば、合成音声と原音声の間の対応
関係を多層ニューラルネットワークの中に学習すること
ができ、学習後の多層ニューラルネットワークを用いる
ことで合成音声をより原音声に近づけることが可能とな
り1合成音声の品質向上の効果が得られる。
なお第5図に示すように分析パラメタ格納部5゜復号化
部11と制御部12を組合わせれば音声応答システムが
実現できる。また第6図に示すように符号化部10の出
力を通信回線13を介して送信し、送信先で復号化部1
1を用いて復号再生すような構成により、高品質の音声
高能率符号化システムが実現できる。
〔発明の効果〕
本発明によれば、合成音声と原音声の間の対応関係を多
層ニューラルネットワークの中に学習することができ、
学習後のニューラルネットワークを用いて、合成音声を
よりノJK音声に近い音声に変換することができ、合成
音声の品質向上の効果がある。
【図面の簡単な説明】
第1図は本発明の一実施例を示す構成図、第2図は一般
的な多層ニューラルネットワークを説明する説明図、第
3図は本発明の一実施例で用いている多層ニューラルネ
ットワークの構成を示す構成図である。第4図は第3図
で示した多層ニューラルネットワークの変形の構成図、
第5図は本発明を利用した音声応答システムの構成図、
第6図は本発明を利用したC0DECの構成図を示す。 1・・・入力部、2・・・バッファ、3・・・分析部、
4・・・切替スイッチ、5・・・分析パラメータ格納部
、6・・・合成部、7・・・多層ニューラルネットワー
ク、8・・学習制御部、10・・・符号化部、11・・
・復号化部、71・・・第り層、72・・・第2層、7
3・・・第3層、74・・・第4層、711,712,
713,721゜722.723,731,732,7
33,741゜搾 2 図 笹 S 区 ?(乙    冴り

Claims (1)

  1. 【特許請求の範囲】 1、入力音声を分析し該分析結果に基づいて音声を合成
    する音声合成装置において、上記音声を合成する合成手
    段から出力される合成音声に対してフィルタリングを行
    なう後処理フィルタを有していることを特徴とする音声
    合成装置。 2、特許請求の範囲第1項に記載の音声合成装置におい
    て、上記後処理フィルタは多層のニューラルネットワー
    クにより構成されていることを特徴とする音声合成装置
    。 3、特許請求の範囲第2項記載の音声合成装置において
    、上記多層のニューラルネットワークの学習を行なうた
    めの学習制御手段を有する。 4、特許請求の範囲第2項記載の音声合成装置において
    上記後処理フィルタであるニューラルネットワークは、
    その入力端子間に遅れ回路が設けられ、合成器からの出
    力がその一端に接続されていることを特徴とする音声合
    成装置。 5、特許請求の範囲第2項記載の音声合成装置において
    、上記後処理フィルタであるニューラルネットワークの
    出力は、その出力端子が1ケ所であることを特徴とする
    音声合成装置。 6、特許請求の範囲第5項記載の音声合成装置において
    、上記後処理フシルタであるニューラルネットワークは
    、その最経層が出力端子につながる一素子のみからなる
    ことを特徴とする音声合成装置。 7、特許請求の範囲第1項記載の音声合成装置を有する
    音声応答装置。 8、特許請求の範囲第1項記載の音声合成装置を復号化
    部とする高能率音声符号化方式。
JP10391288A 1988-04-28 1988-04-28 音声合成装置 Pending JPH01276200A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10391288A JPH01276200A (ja) 1988-04-28 1988-04-28 音声合成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10391288A JPH01276200A (ja) 1988-04-28 1988-04-28 音声合成装置

Publications (1)

Publication Number Publication Date
JPH01276200A true JPH01276200A (ja) 1989-11-06

Family

ID=14366639

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10391288A Pending JPH01276200A (ja) 1988-04-28 1988-04-28 音声合成装置

Country Status (1)

Country Link
JP (1) JPH01276200A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0487263A (ja) * 1990-07-27 1992-03-19 Hitachi Ltd 燃料電池発電プラント
CN107077841A (zh) * 2014-06-13 2017-08-18 微软技术许可有限责任公司 用于文本到语音的超结构循环神经网络
JP2018036413A (ja) * 2016-08-30 2018-03-08 日本電信電話株式会社 音声合成学習装置、方法、及びプログラム
JP2019211782A (ja) * 2019-08-19 2019-12-12 日本電信電話株式会社 音声合成学習装置
US10867597B2 (en) 2013-09-02 2020-12-15 Microsoft Technology Licensing, Llc Assignment of semantic labels to a sequence of words using neural network architectures
JP2022505888A (ja) * 2018-10-29 2022-01-14 ドルビー・インターナショナル・アーベー 生成モデルを用いたレート品質スケーラブル符号化のための方法及び装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0487263A (ja) * 1990-07-27 1992-03-19 Hitachi Ltd 燃料電池発電プラント
US10867597B2 (en) 2013-09-02 2020-12-15 Microsoft Technology Licensing, Llc Assignment of semantic labels to a sequence of words using neural network architectures
CN107077841A (zh) * 2014-06-13 2017-08-18 微软技术许可有限责任公司 用于文本到语音的超结构循环神经网络
JP2018036413A (ja) * 2016-08-30 2018-03-08 日本電信電話株式会社 音声合成学習装置、方法、及びプログラム
JP2022505888A (ja) * 2018-10-29 2022-01-14 ドルビー・インターナショナル・アーベー 生成モデルを用いたレート品質スケーラブル符号化のための方法及び装置
US11621011B2 (en) 2018-10-29 2023-04-04 Dolby International Ab Methods and apparatus for rate quality scalable coding with generative models
JP2019211782A (ja) * 2019-08-19 2019-12-12 日本電信電話株式会社 音声合成学習装置

Similar Documents

Publication Publication Date Title
CN101578659B (zh) 音质转换装置及音质转换方法
Song et al. ExcitNet vocoder: A neural excitation model for parametric speech synthesis systems
JPH0668680B2 (ja) 改善された多パルス線形予測符号化音声処理装置
JPH031200A (ja) 規則型音声合成装置
CN114267372A (zh) 语音降噪方法、系统、电子设备和存储介质
Wang et al. Speech augmentation using wavenet in speech recognition
CN111724809A (zh) 一种基于变分自编码器的声码器实现方法及装置
JPH01276200A (ja) 音声合成装置
Rao et al. SFNet: A computationally efficient source filter model based neural speech synthesis
Mohammadi et al. Semi-supervised training of a voice conversion mapping function using a joint-autoencoder.
JP3263347B2 (ja) 音声符号化装置及び音声符号化におけるピッチ予測方法
JPH0219960A (ja) ニユーラル・ネツトワークと、それを用いた音響信号分析装置及び方法
Yoshimoto et al. Deep neural network modeling of distortion stomp box using spectral features
JPH02304493A (ja) 音声合成システム
JP3192051B2 (ja) 音声符号化装置
JP3071800B2 (ja) 適応ポストフィルタ
JP2844672B2 (ja) 声帯声道型音声分析装置
JP2001117576A (ja) 音声合成方法
Yoshimoto et al. WaveNet modeling of distortion pedal using spectral features
JP4228630B2 (ja) 音声符号化装置および音声符号化プログラム
JP3274451B2 (ja) 適応ポストフィルタ及び適応ポストフィルタリング方法
JPH05507796A (ja) 音声の低スループット符号化の方法と装置
JPH04219798A (ja) 話者適応音声認識方法および装置
Brito et al. Multipopulation genetic learning of midsagittal articulatory models for speech synthesis.
JPH06250685A (ja) 音声合成方式および規則合成装置