JP2637760B2 - パターン学習・生成方式 - Google Patents
パターン学習・生成方式Info
- Publication number
- JP2637760B2 JP2637760B2 JP63070759A JP7075988A JP2637760B2 JP 2637760 B2 JP2637760 B2 JP 2637760B2 JP 63070759 A JP63070759 A JP 63070759A JP 7075988 A JP7075988 A JP 7075988A JP 2637760 B2 JP2637760 B2 JP 2637760B2
- Authority
- JP
- Japan
- Prior art keywords
- layer
- output
- input
- learning
- stage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Landscapes
- Image Analysis (AREA)
Description
【発明の詳細な説明】 〔発明の概要〕 パターンの学習・生成方式に関し、 実世界のデータの効率的な学習を可能にし、かつ早く
収束することができるようにすることを目的とし、 入力層、多段の中間層、多段の出力層、および最終出
力層からなるニューラルネットワークを用い、入力層に
入力系列を加え、最終出力層は多段の出力層の各出力の
重み付け平均をとってこれを最終出力とし、入力層と中
間層との間の重み係数あるいは中間層と出力層との間の
重み係数のいずれか一方の重み係数をランダム化し、各
段独立に学習させるようにしたパターン学習・生成方式
において、上記入力層の各点から全ての段の中間層の各
点に対して結線し、中間層から出力層へは各段内でその
段の中間層の各点からその段の出力層の各点に対して結
線し、上記入力層に加えられた入力系列を、ずらして各
段の中間層に与えるように構成した。
収束することができるようにすることを目的とし、 入力層、多段の中間層、多段の出力層、および最終出
力層からなるニューラルネットワークを用い、入力層に
入力系列を加え、最終出力層は多段の出力層の各出力の
重み付け平均をとってこれを最終出力とし、入力層と中
間層との間の重み係数あるいは中間層と出力層との間の
重み係数のいずれか一方の重み係数をランダム化し、各
段独立に学習させるようにしたパターン学習・生成方式
において、上記入力層の各点から全ての段の中間層の各
点に対して結線し、中間層から出力層へは各段内でその
段の中間層の各点からその段の出力層の各点に対して結
線し、上記入力層に加えられた入力系列を、ずらして各
段の中間層に与えるように構成した。
本発明はパターンの学習・生成方式に関し、合成音声
の生成、音声認識などに有効であるが、広く時系列デー
タを含む一般的なパターンに適用可能である。
の生成、音声認識などに有効であるが、広く時系列デー
タを含む一般的なパターンに適用可能である。
合成音声の生成には、登録されたメッセージであれば
パーコール方式があり、これは音声の特徴を抽出し、抽
出されたパラメータから情報圧縮して、音声出力する。
登録されたものではない任意の文章(文字列)の合成音
声の生成にはいわゆる規則合成法が用いられている。規
則合成法は人間の話し方をルール化し、このルールで文
字列を合成音声化するものである。規則合成法は比較的
小規模なシステムでも合成音声が生成できる反面、少し
品質の高い合成音声を作ろうとする場合ルールが複雑化
するとともに、一般的な規則を見つけることが、音声の
基本的問題点と密接に関連していて容易でなく、自然な
合成音声を作ることが困難で、機械的、非人間的音声に
なってしまう。
パーコール方式があり、これは音声の特徴を抽出し、抽
出されたパラメータから情報圧縮して、音声出力する。
登録されたものではない任意の文章(文字列)の合成音
声の生成にはいわゆる規則合成法が用いられている。規
則合成法は人間の話し方をルール化し、このルールで文
字列を合成音声化するものである。規則合成法は比較的
小規模なシステムでも合成音声が生成できる反面、少し
品質の高い合成音声を作ろうとする場合ルールが複雑化
するとともに、一般的な規則を見つけることが、音声の
基本的問題点と密接に関連していて容易でなく、自然な
合成音声を作ることが困難で、機械的、非人間的音声に
なってしまう。
ニューラルネットワーク(人間の脳をまねたネットワ
ーク)を用いた学習システムを導入することにより、規
則合成法に比べてより自然な合成音声を作ることが可能
である。ニューラルネットワークは、空間にパラメータ
を分布させ、それに覚え込ませるもので、低精度なもの
を並列に多数並べることにより精度を上げ、規則を指示
するではなく学習で覚え込ませるという手法をとる。1
と0の記号列と記号列の学習であり、各々、決められた
場所に符号が立っているか否かで学習ができ、可成り粗
い手法でも成功を収めることが多い。
ーク)を用いた学習システムを導入することにより、規
則合成法に比べてより自然な合成音声を作ることが可能
である。ニューラルネットワークは、空間にパラメータ
を分布させ、それに覚え込ませるもので、低精度なもの
を並列に多数並べることにより精度を上げ、規則を指示
するではなく学習で覚え込ませるという手法をとる。1
と0の記号列と記号列の学習であり、各々、決められた
場所に符号が立っているか否かで学習ができ、可成り粗
い手法でも成功を収めることが多い。
ニューラルネットワークを用いてテキスト(文字列)
から自然な合成音声を自動生成するシステムは、テキス
トから音韻系列に変換する部分と、音韻系列から合成音
声を生成させる部分からなる。前者の文字列を音韻系列
に変換する部分については、文字列(1/0の状態)の学
習で済むが、音韻系列から合成音声を生成させる部分に
ついては、高精度なアナログデータの学習をしなければ
ならず、今まで困難であった。本発明は音韻系列から音
源/声道パラメータを出力する部分に用いても有効なパ
ターン学習・生成方式に係るものである。
から自然な合成音声を自動生成するシステムは、テキス
トから音韻系列に変換する部分と、音韻系列から合成音
声を生成させる部分からなる。前者の文字列を音韻系列
に変換する部分については、文字列(1/0の状態)の学
習で済むが、音韻系列から合成音声を生成させる部分に
ついては、高精度なアナログデータの学習をしなければ
ならず、今まで困難であった。本発明は音韻系列から音
源/声道パラメータを出力する部分に用いても有効なパ
ターン学習・生成方式に係るものである。
ニューラルネットワークで用いるアナログニューロン
素子は第5図に示すように重み係数wij用の抵抗と加算
器Σと出力関数fjからなり、入力xi・しきい値θjを受
けて次式で表わされる出力zi,内部変数yjを生じる。
素子は第5図に示すように重み係数wij用の抵抗と加算
器Σと出力関数fjからなり、入力xi・しきい値θjを受
けて次式で表わされる出力zi,内部変数yjを生じる。
zj=fj(yj)(j=1,2,……J) ……(2) ここでIは入力素子の数、Jは出力素子の数である。
ニューラルネットワークモデルとしては第6図に示す入
力層、中間層(hidden layer;隠れ層)、および出力層
からなる3層構造のモテルが用いられている。重み付け
は入力層と中間層の間、および中間層と出力層の間で行
なわれる。
ニューラルネットワークモデルとしては第6図に示す入
力層、中間層(hidden layer;隠れ層)、および出力層
からなる3層構造のモテルが用いられている。重み付け
は入力層と中間層の間、および中間層と出力層の間で行
なわれる。
入力層の任意の一点をxh is,ip(1≦is≦IS,1≦ip≦I
P,ISは入力層における系列の数、IPは系列の一つが持つ
素子数)とし、中間層の任意の一点をzh j(1≦j≦J,J
は中間層の素子の数)とする。このとき、入出力関係
は、 となる。同様にして、中間層から出力層への入出力関係
は、 但し、xo j≡zh jであり、また1≦k≦K(Kは出力層
の素子の数)である。
P,ISは入力層における系列の数、IPは系列の一つが持つ
素子数)とし、中間層の任意の一点をzh j(1≦j≦J,J
は中間層の素子の数)とする。このとき、入出力関係
は、 となる。同様にして、中間層から出力層への入出力関係
は、 但し、xo j≡zh jであり、また1≦k≦K(Kは出力層
の素子の数)である。
以下に従来技術において用いられるバックプロパゲー
ション学習アルゴリズムを示す。但し、zh j,zo kをまと
めてzjと、またxh is,ip,xh jをまとめてxJと、またfh j,f
o kをまとめてfと書くことにする。
ション学習アルゴリズムを示す。但し、zh j,zo kをまと
めてzjと、またxh is,ip,xh jをまとめてxJと、またfh j,f
o kをまとめてfと書くことにする。
目標入力(望ましい出力;ターゲット)をtjとし、目
標値tjと実際の出力zjとの誤差の二乗和が最小になるよ
うに、重みwijを修正する(修正量をΔwijとする)。簡
単化のため、しきい値θjの値は0とする。即ち出力誤
差Eを とおき、(1/2は、後で微分をとったときに係数2が消
えるようにするもの)、次式に基づく学習法(最急降下
法;誤差の傾斜が最も急になるように重み修正量Δを決
める)をとる。
標値tjと実際の出力zjとの誤差の二乗和が最小になるよ
うに、重みwijを修正する(修正量をΔwijとする)。簡
単化のため、しきい値θjの値は0とする。即ち出力誤
差Eを とおき、(1/2は、後で微分をとったときに係数2が消
えるようにするもの)、次式に基づく学習法(最急降下
法;誤差の傾斜が最も急になるように重み修正量Δを決
める)をとる。
Δwij∝−∂E/∂wij ……(6) ここで、式(5)より、次式が成立する。
∂E/∂zj=−(tj−zj) ……(7) いま、 ∂E/∂wij=∂E/∂yj・∂yj/∂wij …(8) であるので、式(1)より となる。つぎに、 δj=−∂E/∂yj ……(10) と置くと、式(8)と式(9)より −∂E/∂wij=δjxi ……(11) であり、これと式(6)の仮定より Δwij=αδjxi ……(12) となる。つぎに、δjを計算する。式(10)より δj=−∂E/∂zj・∂zj/∂yj であるので、式(7),式(2)を考慮すると、出力層
における誤差の後向き伝播量δo kは δo k=(tk−zo k)f′k(yo k) ……(13) となる。また、出力層以外(中間層)における誤差の後
向き伝播量δh jは次のようになる。
における誤差の後向き伝播量δo kは δo k=(tk−zo k)f′k(yo k) ……(13) となる。また、出力層以外(中間層)における誤差の後
向き伝播量δh jは次のようになる。
特に、出力関数f(・)をロジスティック曲線 zj=1/(1+exp(−yj)) ……(15) とする(zjはyjが0のとき1/2で、それよりyjが正に増
大すると1に、負にも増大すると0に、飽和曲線を画い
て近ずく)と、 f′j(yj)=zj(1−zj) ……(16) であるので、式(13)と式(14)は、各々 δo k=(tk−zo k)zo k(1−zo k) ……(17) となる。これらにおいて,式(12)より、中間層と出力
層の間の重みwo jkの修正量Δwo jkは Δwo jk(n+1)=αδo kxo j ……(19) または、 Δwo jk(n+1)=αδo kxo j+βΔwo jk(n) ……(20) となる。これに対し、入力層と中間層の間の重みwh ijの
修正量Δwh ijは Δwh ij(n+1)=αδh jxh i ……(21) または、 Δwh ij(n+1)=αδh jxh i+βΔwh ij(n) ……(22) となる。以上の展開より、従来法の学習では、入力層か
ら中間層を経て出力層へ、図のモデルを用いて各々の出
力値を計算し、ついで,式(17),(18)と式(20),
(22)を用いて重み修正をすることにより、パターンの
学習を行っている。つまり、バックプロパゲーションに
よる学習では、学習用のデータを入力し結果を出力する
(前向き;フィードフォワード)、結果のエラーを減ら
すように結合の強さを変える(後向き;フィードバッ
ク)、再び学習用データを入力する、これを収束するま
で繰り返す、という方法をとる。
大すると1に、負にも増大すると0に、飽和曲線を画い
て近ずく)と、 f′j(yj)=zj(1−zj) ……(16) であるので、式(13)と式(14)は、各々 δo k=(tk−zo k)zo k(1−zo k) ……(17) となる。これらにおいて,式(12)より、中間層と出力
層の間の重みwo jkの修正量Δwo jkは Δwo jk(n+1)=αδo kxo j ……(19) または、 Δwo jk(n+1)=αδo kxo j+βΔwo jk(n) ……(20) となる。これに対し、入力層と中間層の間の重みwh ijの
修正量Δwh ijは Δwh ij(n+1)=αδh jxh i ……(21) または、 Δwh ij(n+1)=αδh jxh i+βΔwh ij(n) ……(22) となる。以上の展開より、従来法の学習では、入力層か
ら中間層を経て出力層へ、図のモデルを用いて各々の出
力値を計算し、ついで,式(17),(18)と式(20),
(22)を用いて重み修正をすることにより、パターンの
学習を行っている。つまり、バックプロパゲーションに
よる学習では、学習用のデータを入力し結果を出力する
(前向き;フィードフォワード)、結果のエラーを減ら
すように結合の強さを変える(後向き;フィードバッ
ク)、再び学習用データを入力する、これを収束するま
で繰り返す、という方法をとる。
ニューラルネットワークを用いた合成音声自動生成シ
ステムは、規則合成法に比べて一層自然な合成音声を生
成することができる。理由は規則合成法が音韻変化の特
徴を全て規則として既述しなければならず、かつこれが
困難であるのに対し、ニューラルネットワークを用いた
学習法を導入すると、音韻環境を伴う入力と実音声より
得られた目標出力をセットで学習することが可能にな
り、自然な音韻環境をネットワークの中に取り込むこと
が可能になるからである。しかし、現在までに提案され
ているニューラルネットワークを用いた学習方式では、
特定の音韻環境以外を学習することは困難である。これ
は、従来技術を用いるとデータ同士が直交しているもの
以外の学習が困難であり、学習の途中で今迄の学習結果
が破壊されることが多く、かつ学習の収束性が極めて悪
いことによる。
ステムは、規則合成法に比べて一層自然な合成音声を生
成することができる。理由は規則合成法が音韻変化の特
徴を全て規則として既述しなければならず、かつこれが
困難であるのに対し、ニューラルネットワークを用いた
学習法を導入すると、音韻環境を伴う入力と実音声より
得られた目標出力をセットで学習することが可能にな
り、自然な音韻環境をネットワークの中に取り込むこと
が可能になるからである。しかし、現在までに提案され
ているニューラルネットワークを用いた学習方式では、
特定の音韻環境以外を学習することは困難である。これ
は、従来技術を用いるとデータ同士が直交しているもの
以外の学習が困難であり、学習の途中で今迄の学習結果
が破壊されることが多く、かつ学習の収束性が極めて悪
いことによる。
本発明はかかる点を改善し、実世界のデータ(必ずし
も直交していないデータ)の効率的学習を可能にし、か
つ早く収束することができるようにすることを目的とす
るものである。
も直交していないデータ)の効率的学習を可能にし、か
つ早く収束することができるようにすることを目的とす
るものである。
第1図に示すように本発明ではニューラルネットワー
クを入力層10、中間層12、出力層14、最終出力層16で構
成し、中間層と出力層は多段にする(多重化する)。
クを入力層10、中間層12、出力層14、最終出力層16で構
成し、中間層と出力層は多段にする(多重化する)。
入力層10は1段であり、内部にI=IS×IPの点(素
子)を持つ。ここでISは、入力を系列としたときの該系
列の持つ個数であり、IPは系列の1点が持つ列(ベクト
ル)の中の素子の個数である。
子)を持つ。ここでISは、入力を系列としたときの該系
列の持つ個数であり、IPは系列の1点が持つ列(ベクト
ル)の中の素子の個数である。
中間層12の段数はM段であり、ここでは中央のものを
H0、最上段をH_(M−1)/2、最下段をH(M−1)/2
としている。出力層14もM段とし、ここでは同様な符号
付けをしている。最終出力層16は1段である。
H0、最上段をH_(M−1)/2、最下段をH(M−1)/2
としている。出力層14もM段とし、ここでは同様な符号
付けをしている。最終出力層16は1段である。
入力層の全ての点から、全ての段の中間層の全ての点
に対し結線し、中間層から出力層へは各段内において、
当該段の中間層の全ての点から出力層の全ての点に結線
し、他の段に対しては結線しない。出力層から最終出力
層へは、ある規則に基づき重み付け平均をとるための結
線をする。
に対し結線し、中間層から出力層へは各段内において、
当該段の中間層の全ての点から出力層の全ての点に結線
し、他の段に対しては結線しない。出力層から最終出力
層へは、ある規則に基づき重み付け平均をとるための結
線をする。
このニューラルネットワークでは入力層10と中間層12
との間、あるいは中間層12と出力層14との間の重み係数
を必要に応じてランダム化させる。また、多重化した中
間層12と出力層14では各段独立に学習させ、最終出力層
16で出力層14の各段の出力の重み付け平均をとってこれ
を最終出力OTとする。次に学習規則を列挙する。
との間、あるいは中間層12と出力層14との間の重み係数
を必要に応じてランダム化させる。また、多重化した中
間層12と出力層14では各段独立に学習させ、最終出力層
16で出力層14の各段の出力の重み付け平均をとってこれ
を最終出力OTとする。次に学習規則を列挙する。
I)従来法では、入力層はある長さ(IS)の系列からな
り、出力層は入力層の系列(特徴ベクトル列)の一点
(時系列では時刻)に対応するデータの列(特徴ベクト
ル)を出力とし、入力系列と出力系列とをセットで学習
させている。これに対し、本発明では、ネットワークを
多段化させ、出力列を段数分だけ増やして、各段の出力
列に対応する入力系列の点はある点を中心としてなり
あった点をとる、入力系列の任意を点をとる、などの
選択により定める。
り、出力層は入力層の系列(特徴ベクトル列)の一点
(時系列では時刻)に対応するデータの列(特徴ベクト
ル)を出力とし、入力系列と出力系列とをセットで学習
させている。これに対し、本発明では、ネットワークを
多段化させ、出力列を段数分だけ増やして、各段の出力
列に対応する入力系列の点はある点を中心としてなり
あった点をとる、入力系列の任意を点をとる、などの
選択により定める。
II)次いで、学習を行う場合は、入力層と中間層の間の
重み係数、あるいは中間層と出力層との間の重み係数の
うち、必要に応じていずれか一方の重み係数をランダム
化し(例えば正規乱数値を重み係数に与える)、かつ各
段の間では独立に学習させる。この場合、各段の間でも
ランダム化した重み係数は同じセットではなく、やはり
ランダムである。また、最終出力層では、各段の出力層
の重みづけ平均をとる。
重み係数、あるいは中間層と出力層との間の重み係数の
うち、必要に応じていずれか一方の重み係数をランダム
化し(例えば正規乱数値を重み係数に与える)、かつ各
段の間では独立に学習させる。この場合、各段の間でも
ランダム化した重み係数は同じセットではなく、やはり
ランダムである。また、最終出力層では、各段の出力層
の重みづけ平均をとる。
III)また、学習プロセスにおいて出力層における誤差
の後向き伝播量δo kを δo k=(Tk−zo k)K(・) ……(23) とし、中間層における誤差の後向き伝播量δh jを とする。ここで、K(・)はあらかじめ定められた関数
である。(17)(18)式から明らかなようにδはzが0
と1で特異点を持ち、値が0になる。δが0に落ちると
浮び上れなくなり、修正がなされなくなる。関数K
(・)はこれを救うものである。さらに、重み係数の修
正についても、中間層と出力層の間の重みwo jkの修正量
Δwo jkは、 Δwo jk(n+1)=αδo kL(・)+βΔwo jk(n) +M(・) ……(25) とし、入力層と中間層の間の重みwh ijの修正量Δw
h ijは、 Δwh ij(n+1)=αδh iL(・) +βΔwh ij(n)+M(・) ……(26) とする。ここで、L(・),M(・)はあらかじめ定めら
れた関数とする(ここで、II)の係数ランダム化を行う
とΔwo jk又はΔwh ijのどちらか一方は0となる)。ただ
し、前項I)または、前項II)を適用する場合,誤差伝
播則、重み修正則はこの限りではない。
の後向き伝播量δo kを δo k=(Tk−zo k)K(・) ……(23) とし、中間層における誤差の後向き伝播量δh jを とする。ここで、K(・)はあらかじめ定められた関数
である。(17)(18)式から明らかなようにδはzが0
と1で特異点を持ち、値が0になる。δが0に落ちると
浮び上れなくなり、修正がなされなくなる。関数K
(・)はこれを救うものである。さらに、重み係数の修
正についても、中間層と出力層の間の重みwo jkの修正量
Δwo jkは、 Δwo jk(n+1)=αδo kL(・)+βΔwo jk(n) +M(・) ……(25) とし、入力層と中間層の間の重みwh ijの修正量Δw
h ijは、 Δwh ij(n+1)=αδh iL(・) +βΔwh ij(n)+M(・) ……(26) とする。ここで、L(・),M(・)はあらかじめ定めら
れた関数とする(ここで、II)の係数ランダム化を行う
とΔwo jk又はΔwh ijのどちらか一方は0となる)。ただ
し、前項I)または、前項II)を適用する場合,誤差伝
播則、重み修正則はこの限りではない。
ネットワークの多重化及び最後の重み付け平均で、時
間分解能を損なわずに空間分解能を向上させることがで
き、ランダム化で、学習で生じる重み係数の統計的偏り
(これが生じると、今までの学習結果が破壊される恐れ
がある)を均一化、従って学習精度の均一化をすること
ができる。更に、重み係数の一方のランダム化で、他方
の重み係数の収束値を重み係数が取り得る値の空間全体
に拡散させることができ、必らずしも直交していないデ
ータの効率的学習が可能になる。
間分解能を損なわずに空間分解能を向上させることがで
き、ランダム化で、学習で生じる重み係数の統計的偏り
(これが生じると、今までの学習結果が破壊される恐れ
がある)を均一化、従って学習精度の均一化をすること
ができる。更に、重み係数の一方のランダム化で、他方
の重み係数の収束値を重み係数が取り得る値の空間全体
に拡散させることができ、必らずしも直交していないデ
ータの効率的学習が可能になる。
本発明のニューラルネットワークの実施例を音声合成
と音声認識について示す。
と音声認識について示す。
第2図は音声合成システムで、音韻生成部22と音声パ
ラメータ生成部24を備え、ニューラルネットワークNNW
は各々に設けられる。入力音声26を音声パラメータ自動
抽出システム20(特開昭59−152496、同152497に開示)
に加えて分析し、音声パラメータ即ち音源パワー、有声
/無声パラメータ、ピッチ等の音源パラメータと、声道
断面積、PARCOR係数などの声道パラメータ、またはAR
(全極型)パラメータ、AR/MA(極零型)パラメータ、
スペクトル、その他音声を分析して得られるパラメータ
を得て、これを音声パラメータ生成部の学習入力(目標
出力)とする。また自動抽出システム20より得られた音
声パラメータ、あるいは原波形より、入力音声の音韻を
決定し、音韻生成部22の学習入力(目標出力)とする。
ラメータ生成部24を備え、ニューラルネットワークNNW
は各々に設けられる。入力音声26を音声パラメータ自動
抽出システム20(特開昭59−152496、同152497に開示)
に加えて分析し、音声パラメータ即ち音源パワー、有声
/無声パラメータ、ピッチ等の音源パラメータと、声道
断面積、PARCOR係数などの声道パラメータ、またはAR
(全極型)パラメータ、AR/MA(極零型)パラメータ、
スペクトル、その他音声を分析して得られるパラメータ
を得て、これを音声パラメータ生成部の学習入力(目標
出力)とする。また自動抽出システム20より得られた音
声パラメータ、あるいは原波形より、入力音声の音韻を
決定し、音韻生成部22の学習入力(目標出力)とする。
音韻生成部22の出力は、発声される音声(入力音声2
6)のもとになるテキスト(文字列)TXである。文字列T
X例えば「朝早く……」は音韻系列「A,S,A,H,A,Y,A,K,
U,……」に変換されて、音韻生成部22のニューラルネッ
トワークNNWの入力層10に入る。(1音韻ずつ逐次入力
しかつ排出されて、入力層には所定の音韻があるように
される)。上記変換は、平均音節長あるいは規則合成法
あるいは音韻論の知識を用いて行なう。文字列では、音
声に有る時間的な要素はないが、Tx−Ip間の変換でこの
時間要素が加えられる。また音韻は文字1つでは決らな
いので、複数の文字が参照されて、各音韻が逐次フレー
ム間隔で決定されて行く。こうして時間要素が加えられ
るが、速さは平均的なものであり、実際の速さにはNNW
での学習により修正される。
6)のもとになるテキスト(文字列)TXである。文字列T
X例えば「朝早く……」は音韻系列「A,S,A,H,A,Y,A,K,
U,……」に変換されて、音韻生成部22のニューラルネッ
トワークNNWの入力層10に入る。(1音韻ずつ逐次入力
しかつ排出されて、入力層には所定の音韻があるように
される)。上記変換は、平均音節長あるいは規則合成法
あるいは音韻論の知識を用いて行なう。文字列では、音
声に有る時間的な要素はないが、Tx−Ip間の変換でこの
時間要素が加えられる。また音韻は文字1つでは決らな
いので、複数の文字が参照されて、各音韻が逐次フレー
ム間隔で決定されて行く。こうして時間要素が加えられ
るが、速さは平均的なものであり、実際の速さにはNNW
での学習により修正される。
学習入力は前述の如くで、実音声より定められた音韻
系列データであり、音韻生成部22のニューラルネットワ
ークNNWは上記に入力音韻系列Ipを学習入力音韻系列に
修正して出力し、この出力Op Tがパラメータ生成部24
の入力になる。学習入力は1,0であるが、音韻出力は0
と1の間の値をとる。このとき、必要に応じてしきい値
をもうけ音韻出力を0と1のみの値としてもよい。
系列データであり、音韻生成部22のニューラルネットワ
ークNNWは上記に入力音韻系列Ipを学習入力音韻系列に
修正して出力し、この出力Op Tがパラメータ生成部24
の入力になる。学習入力は1,0であるが、音韻出力は0
と1の間の値をとる。このとき、必要に応じてしきい値
をもうけ音韻出力を0と1のみの値としてもよい。
音声パラメータ生成部24は上記出力を受けてこれを
前記学習入力(音声パラメータに変換して出力し、この
出力Os Tは音声合成回路28に加えられて合成音声本例で
は「朝早く……」を出力させる。
前記学習入力(音声パラメータに変換して出力し、この
出力Os Tは音声合成回路28に加えられて合成音声本例で
は「朝早く……」を出力させる。
第3図に音声パラメータ生成部の詳細を示す。入力層
10と最終出力層16は1段、中間層12と出力層14はM段で
ある。入力層10への入力は前記音韻系列であり、その
IP個の点(データ)を含む列(音韻)のIS個を入力し
(1回の処理対象)とする。各列は逐次入力され、中央
のものにはt0、それより下方のものにはt0+1〜t0+aをま
た上方のものにはt0-1〜t0-aを付してある。時間tの進
行方向を矢印で示す。
10と最終出力層16は1段、中間層12と出力層14はM段で
ある。入力層10への入力は前記音韻系列であり、その
IP個の点(データ)を含む列(音韻)のIS個を入力し
(1回の処理対象)とする。各列は逐次入力され、中央
のものにはt0、それより下方のものにはt0+1〜t0+aをま
た上方のものにはt0-1〜t0-aを付してある。時間tの進
行方向を矢印で示す。
中間層12及び出力層14の段数Mは、少ないとランダム
化、重み付け平均化の意味が薄れるのである程度多いの
がよい。例えばIS=29に対しM=9などとする。
化、重み付け平均化の意味が薄れるのである程度多いの
がよい。例えばIS=29に対しM=9などとする。
中間層の各段の素子数J1〜JMは各々異なってもよい
が、ここでは一般性を失うことなくJ1=……=Jk=……
=JM=Jとする。出力層14の各段素子数も同様で、ここ
ではK1=……=KK=……=KM=Kとする。また出力層14
において各段が持つ入力系列の点(本例の時系列では時
刻)は入力系列の任意の点(時刻)でよいが、これも一
般性を失なうことなくK1〜KMはある系列の点(時刻)を
中心として隣り合った点の値をとるものとする。このと
き、 I)学習は、入力系列の中から互いに連結するIS列のデ
ータをランダムに選択し、その中心の値から両側に(M
−1)/2個だけの系列の点に対応する出力データ列(ベ
クトル)を各段に順に付与し、その値(目標値)と入力
系列とをセットにして各段で行う。このランダムな選択
学習を逐次、必要なだけ繰り返す。また、最終出力層16
では系列の一点(一時刻)に対しM個のデータが与えら
れるので、適当な重み(例えば、Rectangular,あるいは
Hamming,Hanningその他のWindow関数を与える)を付け
て平均値をとる。
が、ここでは一般性を失うことなくJ1=……=Jk=……
=JM=Jとする。出力層14の各段素子数も同様で、ここ
ではK1=……=KK=……=KM=Kとする。また出力層14
において各段が持つ入力系列の点(本例の時系列では時
刻)は入力系列の任意の点(時刻)でよいが、これも一
般性を失なうことなくK1〜KMはある系列の点(時刻)を
中心として隣り合った点の値をとるものとする。このと
き、 I)学習は、入力系列の中から互いに連結するIS列のデ
ータをランダムに選択し、その中心の値から両側に(M
−1)/2個だけの系列の点に対応する出力データ列(ベ
クトル)を各段に順に付与し、その値(目標値)と入力
系列とをセットにして各段で行う。このランダムな選択
学習を逐次、必要なだけ繰り返す。また、最終出力層16
では系列の一点(一時刻)に対しM個のデータが与えら
れるので、適当な重み(例えば、Rectangular,あるいは
Hamming,Hanningその他のWindow関数を与える)を付け
て平均値をとる。
II)学習を行う場合、入力層と中間層,あるいは中間層
と出力層の間の重み係数のうち、必要に応じてどちらか
一方(ここでは、一般性を失うことなく中間層から出力
層の間の重み係数値)をランダム化し、学習させる。
と出力層の間の重み係数のうち、必要に応じてどちらか
一方(ここでは、一般性を失うことなく中間層から出力
層の間の重み係数値)をランダム化し、学習させる。
III)また、学習プロセスにおいては,中間層と出力層
の重み係数をランダム化し、入力層と中間その間の学習
を式(23),(24),(26)にしたがって行う。このと
き、式(25)と式(26)における関数L(・),M(・)
は,式(20),(22)と同様にする、あるいは学習
初期においては定数とし、学習結果を判断しパターンの
性質、学習の収束性を考慮した重み付け関数を実験的に
決める。
の重み係数をランダム化し、入力層と中間その間の学習
を式(23),(24),(26)にしたがって行う。このと
き、式(25)と式(26)における関数L(・),M(・)
は,式(20),(22)と同様にする、あるいは学習
初期においては定数とし、学習結果を判断しパターンの
性質、学習の収束性を考慮した重み付け関数を実験的に
決める。
第4図に音声認識の実施例の概要を示す。音声認識は
音声合成の逆プロセスになり、ニューラルネットワーク
NNWに音声パラメータを逐次入力して、出力に音韻系列
を得、この音韻系列から文字列を得る。
音声合成の逆プロセスになり、ニューラルネットワーク
NNWに音声パラメータを逐次入力して、出力に音韻系列
を得、この音韻系列から文字列を得る。
即ち、入力音声に対し自動抽出システムを適用し、音
声パラメータ即ち音源パラメータ及び声道パラメータを
得る(他のパラメータ、例えばARパラメータ、スペクト
ル・パラメータ,Walsh−Hadamard,Harrパラメータを用
いてもよい。これらのパラメータを入力とし、多段のニ
ューラルネットワークNNWを適用することにより最終出
力を得る。最終出力は音声合成の場合とは逆で、0と1
の間をとる音韻パラメータ系列である。この場合音韻パ
ラメータは既に重み付け平均化がなされているので、そ
の出力値はその音韻であることの確からしさを示してい
る。
声パラメータ即ち音源パラメータ及び声道パラメータを
得る(他のパラメータ、例えばARパラメータ、スペクト
ル・パラメータ,Walsh−Hadamard,Harrパラメータを用
いてもよい。これらのパラメータを入力とし、多段のニ
ューラルネットワークNNWを適用することにより最終出
力を得る。最終出力は音声合成の場合とは逆で、0と1
の間をとる音韻パラメータ系列である。この場合音韻パ
ラメータは既に重み付け平均化がなされているので、そ
の出力値はその音韻であることの確からしさを示してい
る。
従って最終的に入力音声がどの音韻であるかを決定す
る具体的方法は、系列のある点(時系列の場合は時
刻)において同時に発火している素子の中から出力値の
一番大きいものをとる。あるいは、出力値の大きいも
のから順に候補として選択し、島駆動方式などにより、
音韻論的に最も確からしいものに決定する。このシス
テムを多量の音声データに適用することにより得る知見
をルール化し、エキスパートシステムを構成することに
より、音韻を決定する、などの方法をとる。音韻系列が
求まれば、これより文字列に変換する。この場合、第2
図の音韻生成部の逆プロセスをとる(すなわち、音韻系
列を入力とし、文字列を出力とする)ニューラルネット
ワークを構成し、前記の音韻を決定するのと同様の手順
をとることにより(つまり、出力値をその文字であるこ
との確からしさであると考え、前記,,の手順を
とることにより)文字列を決定することもできる。
る具体的方法は、系列のある点(時系列の場合は時
刻)において同時に発火している素子の中から出力値の
一番大きいものをとる。あるいは、出力値の大きいも
のから順に候補として選択し、島駆動方式などにより、
音韻論的に最も確からしいものに決定する。このシス
テムを多量の音声データに適用することにより得る知見
をルール化し、エキスパートシステムを構成することに
より、音韻を決定する、などの方法をとる。音韻系列が
求まれば、これより文字列に変換する。この場合、第2
図の音韻生成部の逆プロセスをとる(すなわち、音韻系
列を入力とし、文字列を出力とする)ニューラルネット
ワークを構成し、前記の音韻を決定するのと同様の手順
をとることにより(つまり、出力値をその文字であるこ
との確からしさであると考え、前記,,の手順を
とることにより)文字列を決定することもできる。
以上説明したように本発明はニューラルネットワーク
を多重化し、重み付け平均をとって最終出力とし、入力
層と中間層あるいは中間層と出力層間の重み係数をラン
ダム化するとともに、入力層から各段の中間層に入力系
列をずらして与えるようにしたので時間分解能を損なわ
ずに空間分解能を上げることができるため、アナログ情
報の学習を極めて高い精度で、且つす早く収束可能にす
ることができ、自動音声合成に用いて一層自然的で良好
な合成音声が得られる等の効果を得ることができる。
を多重化し、重み付け平均をとって最終出力とし、入力
層と中間層あるいは中間層と出力層間の重み係数をラン
ダム化するとともに、入力層から各段の中間層に入力系
列をずらして与えるようにしたので時間分解能を損なわ
ずに空間分解能を上げることができるため、アナログ情
報の学習を極めて高い精度で、且つす早く収束可能にす
ることができ、自動音声合成に用いて一層自然的で良好
な合成音声が得られる等の効果を得ることができる。
第1図は本発明の原理説明図、 第2図〜第4図は本発明の実施例を示し、第2図は音声
合成システムの説明図、第3図は音声パラメータ生成部
の説明図、第4図は音声認識システムの説明図、 第5図〜第6図は従来例を示し、第5図はアナログニュ
ーロン素子の説明図、第6図はニューラルネットワーク
モデルの説明図である。 第1図で10は入力層、12は中間層、14は出力層、16は最
終出力層、Iは入力系列、OTは最終出力である。
合成システムの説明図、第3図は音声パラメータ生成部
の説明図、第4図は音声認識システムの説明図、 第5図〜第6図は従来例を示し、第5図はアナログニュ
ーロン素子の説明図、第6図はニューラルネットワーク
モデルの説明図である。 第1図で10は入力層、12は中間層、14は出力層、16は最
終出力層、Iは入力系列、OTは最終出力である。
Claims (1)
- 【請求項1】入力層(10)、各段が入力層(10)に対し
て並列に配置されている多段の中間層(12)、多段の出
力層(14)、および最終出力層(16)からなるニューラ
ルネットワークを用い、 入力層に入力系列(I)を加え、最終出力層は多段の出
力層の各出力層の各出力の重み付け平均をとってこれを
最終出力(OT)とし、 入力層と中間層との間の重み係数あるいは中間層と出力
層との間の重み係数のいずれか一方の重み係数をランダ
ム化し、各段独立に学習させるようにしたパターン学習
・生成方式において、 上記入力層の各点から全ての段の中間層の各点に対して
結線し、中間層においては段間での結線を行わず、中間
層から出力層へは、各段内でその段の中間層の各点から
その段の出力層の各点に対して結線し、 上記入力層に加えられた入力系列(I)を、ずらして各
段の中間層に与えることを特徴とするパターン学習・生
成方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP63070759A JP2637760B2 (ja) | 1988-03-24 | 1988-03-24 | パターン学習・生成方式 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP63070759A JP2637760B2 (ja) | 1988-03-24 | 1988-03-24 | パターン学習・生成方式 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH01243169A JPH01243169A (ja) | 1989-09-27 |
JP2637760B2 true JP2637760B2 (ja) | 1997-08-06 |
Family
ID=13440757
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP63070759A Expired - Lifetime JP2637760B2 (ja) | 1988-03-24 | 1988-03-24 | パターン学習・生成方式 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2637760B2 (ja) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03114439A (ja) * | 1989-09-29 | 1991-05-15 | Nec Corp | 適応型心電図波形認識装置 |
JP2612358B2 (ja) * | 1990-02-27 | 1997-05-21 | 株式会社日立製作所 | 画像処理装置 |
JP2573715B2 (ja) * | 1990-03-28 | 1997-01-22 | 三菱電機株式会社 | エレベータ制御装置 |
JPH0786433B2 (ja) * | 1990-05-22 | 1995-09-20 | 支朗 臼井 | 色覚情報変換方法及び装置 |
JP2573722B2 (ja) * | 1990-05-29 | 1997-01-22 | 三菱電機株式会社 | エレベータ制御装置 |
JP2573723B2 (ja) * | 1990-05-31 | 1997-01-22 | 三菱電機株式会社 | エレベータ制御装置 |
JP2573726B2 (ja) * | 1990-06-19 | 1997-01-22 | 三菱電機株式会社 | エレベータ制御装置 |
JP2650480B2 (ja) * | 1990-09-13 | 1997-09-03 | 三菱電機株式会社 | 音声合成装置 |
JP2924276B2 (ja) * | 1991-05-13 | 1999-07-26 | 松下電器産業株式会社 | 電気カーペット |
US5236312A (en) * | 1991-12-23 | 1993-08-17 | Ford Motor Company | Swash-plate-type air conditioning pump |
JPH05281199A (ja) * | 1992-03-31 | 1993-10-29 | Nuclear Fuel Ind Ltd | 探傷データ評価装置及び方法 |
JPH10306744A (ja) * | 1998-04-06 | 1998-11-17 | Hitachi Ltd | 制御装置 |
CN111613204B (zh) * | 2020-04-29 | 2023-04-18 | 云知声智能科技股份有限公司 | 一种快速响应的神经语音合成系统及其方法 |
-
1988
- 1988-03-24 JP JP63070759A patent/JP2637760B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JPH01243169A (ja) | 1989-09-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2637760B2 (ja) | パターン学習・生成方式 | |
EP3752964B1 (en) | Speech style transfer | |
US11538455B2 (en) | Speech style transfer | |
US5095443A (en) | Plural neural network system having a successive approximation learning method | |
EP1221693B1 (en) | Prosody template matching for text-to-speech systems | |
CN111837178A (zh) | 语音处理系统和处理语音信号的方法 | |
EP0223014B1 (en) | Reference speech pattern generating method | |
KR101854706B1 (ko) | 인공 신경망을 이용한 자동 작곡 방법 및 그 기록 매체 | |
JP2002328695A (ja) | テキストからパーソナライズ化音声を生成する方法 | |
CN113066475B (zh) | 一种基于生成式对抗网络的语音合成方法 | |
AU2018100318A4 (en) | A method of generating raw music audio based on dilated causal convolution network | |
JPH0772900A (ja) | 音声合成の感情付与方法 | |
JPH1097267A (ja) | 声質変換方法および装置 | |
JPH0540497A (ja) | 話者適応音声認識装置 | |
KR20170128070A (ko) | 순환형 신경망에 기반한 작곡 방법 | |
KR101934057B1 (ko) | 계층적 인공 신경망을 이용한 자동 작곡 방법 및 그 기록 매체 | |
KR102532253B1 (ko) | 스펙트로그램에 대응하는 어텐션 얼라인먼트의 디코더 스코어를 연산하는 방법 및 음성 합성 시스템 | |
JP3281281B2 (ja) | 音声合成方法及び装置 | |
JP2910035B2 (ja) | 音声合成装置 | |
Fels et al. | Glove-TalkII: Mapping hand gestures to speech using neural networks | |
JP2755478B2 (ja) | テキスト音声合成装置 | |
KR102637341B1 (ko) | 음성 생성 방법 및 장치 | |
JP7079455B1 (ja) | 音響モデル学習装置、方法およびプログラム、並びに、音声合成装置、方法およびプログラム | |
JPH06231106A (ja) | リカレント型ニューラルネットワーク学習方法及び装置 | |
KR102503066B1 (ko) | 어텐션 얼라인먼트의 스코어를 이용하여 스펙트로그램의 품질을 평가하는 방법 및 음성 합성 시스템 |