JPH0219960A

JPH0219960A - ニユーラル・ネツトワークと、それを用いた音響信号分析装置及び方法

Info

Publication number: JPH0219960A
Application number: JP63168707A
Authority: JP
Inventors: Hiroshi Ichikawa; 市川　熹; Akio Amano; 天野　明雄; Toshiyuki Aritsuka; 俊之在塚
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1988-07-08
Filing date: 1988-07-08
Publication date: 1990-01-23

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は音響分析装置に係り、特に音声認識装置の音声
特徴抽出部や、符号化音声の自動音質評価装置、音声特
徴解析装置、音質要因解析装置。

雑音解析装置、故障診断装置などに最適な音響信号分析
装置及び方法に関する。

〔従来の技術〕

従来の音響分析装置は、たとえば、フィルタ・バンク方
式や線形予測分析装置のように、音声の特徴としての物
理量を予め定めて、その特徴のみを抽出する方式が主で
あり、未知の特徴を抽出することは困難であった。また
、ある程度自動的に特徴を抽出する試みとして、４層の
ニューロン・ネットワークを用いた分析を行ない、この
結果を用いる方式（電子情報通信学会技術研究報告、５
Ｐ８７−１００．（１９８７年、１２月１８日）第１９
頁から第２４頁）が提案され１勝れた性能が報告されて
いる。

〔発明が解決しようとする課題〕

しかしながら、得られた特徴が物理的にいかなる意味を
持つものか、などの解析が困難であり。

より良い分析方法へと発展させたり、新たな知見を得る
など、次の進歩につながる手掛りを直接的に得ることが
困難であるという問題があった。

〔課題を解決するための手段〕

上記の目的は１本発明では以下のような構成を実現する
ことにより達成される。

即ち、任意の写像関係を実現することの出来る４層以上
のニューラル・ネットワークを基本構造とし、各層の構
成を要因毎に解析可能な構造と、中間層への外部からの
教師付学習用入力可能な構造とすることにより、達成さ
れる。

〔作用〕

以下、例を主に音声を取り、階層を４層のニューラル・
ネットワークによる例で、各部をどのように構成し、各
部をどのように動作し、問題点を解決するかを説明する
。

前記４層ニューラル・ネットワークの第１層を音響信号
の基本的物理特徴量と対応する二次元マトリクスとする
。音響信号の基本物理量としては信号の周波数スペクト
ルの振幅及び位相成分とし、それが時間的にどのように
変化して行くかの特徴をもとられるように、時間方向に
並べた構造となっている。

第２層の各素子は、第１層のすべての素子と結合されて
おり、得られた結果は、音声としての音響信号の物理的
特徴量が得られるよう構成されている。ニューロン・ネ
ットの学習が終了した時に、この第２層の各素子へ高い
結合度で結びついている第１層の素子の基本物理量を見
ることにより、第２層の各素子の物理的意味付けが容易
に解釈することが可能となる。

なお、第２層、第３層なども、第１層と同様遅延レジス
タを設は時間構造を持つ２次元構造とすることも可能で
あり、特に音韻の連続体としての単語などを認識するよ
うな装置においては有効であるが、以下、説明を簡単に
するために、−次元として説明する。

第３層の一部ないし全部の素子が、抽象的な意味での音
声（音量）の要素的特徴を反映するよう構成されている
。この第３層の素子には、学習時に、第４層からのバッ
ク・プロパゲーションによる学習量の他に、直接外部か
らの学習入力を並行して入力するよう考慮されており１
両者の関数として学習がなされる。この第３層への外部
からの学習人力としては、たとえば、音韻認識用の分析
を意図する場合には、「鼻音性」とか「母音性」「子音
性」　「摩擦性」なと、いわゆる分節的特徴ｔ　（ｄｉ
ａｔｉｎｃｔｉｖａ　ｆｅａｔｕｒｅ）などを入力音声
に合せて入力する。又、第３層の出力は直接外部から参
照出力可能とする。これはたとえば音韻認識結果として
の第４層出力が不明確な場合、音響分析結果以外の根拠
、たとえば言語処理結果から、ある音韻であるという可
能性が高いと思われる場合に。

その音韻の持つ第３層の特徴の有無を確認するような時
に用いられる。たとえば音響分析の結果「カイプ」と出
力されたが、言葉としては「タイプ」か「パイプ」しか
ない場合に、ｔかｐかどちらが本当らしいかを見るとき
に用いる。この場合後述する実施の第３図の場合は第３
層の７番目の素子の出力を見て判定することができる。

音質評価用の分析を意図する場合は、「ざらざら感」「
鼻づまり感」などを主観評価実験で得られる要素感覚評
価値を入力音声に合せて入力し、学習させれば良い。第
３層のある素子が学習結果、十分に集束すれば、その要
素的特徴は十分意味のあるものと見なせるし、集束が良
くない場合は、音声の要素的特徴として、ふされしくな
いものと解釈することが出来、以降音声特徴として不採
用にすることか出来る。従って結果的に第３層の外部学
習がＯとなる場合もある。音声の要素的特徴として意味
のあるものと解釈される素子は、その素子と高い重みで
結びついている第２層及び、第２層を経て結びついてい
る第１層の物理量と対応付けることが出来るので、目的
に合ったより簡便な分析装置を設計したり、より良い音
質の符号化方式を開発する上で重視すべき物理量の決定
に寄与することも可能となる。また、中間層（第３層）
の出力を見ることにより、ザラザラした音かどうかとい
う要素感覚を知ることも可能である。

第４層は出力層であり、音韻認識を目的とする場合は、
各素子を各音韻に対応付けて学習させる点は、公知の３
層ニューロン方式の出力層と同じである。音質評価用分
析では、第４層は素子を１つとし、平均主観評価値ＭＯ
８の値と対応付けて学習を行なう、学習後には、未知の
符号化音声を入力すると、その音の主観音質評価値が時
間関数として出力されることになる。又、話者認識の分
析に用いる場合には、第４層に各話者を割り当て、第３
層の学習入力に、男女や年令などの情報を加える。音帯
ガンの判定などに用いる場合は、第４層出力をガン患者
と健常者の二つ、又はうたがいのあるものを加えた３個
とし、第３層の学習入力に、嗅声などの特徴を加える。

心理状態（喜怒哀楽など）の話者の状態を判断を声から
行なう場合も、同じようにすることが可能となろう。

発電機など音響的信号を発する装置の故障による異常音
からの判断装置や、ソナー音による対象物の判定、街頭
雑音の種類の解析装置など、音響的信号解析等に対して
も同様に適用が可能となる。

なお、層数を４層以上とし、最終層と中間の１層以上の
層に外部から学習入力機能を持たせる構造も当然可能で
ある。たとえば、第３層を音韻の分節的特徴に、第４層
を音韻に、第５層を単語や文節に対応して学習させるこ
とが可能である。

〔実施例〕

以下、本発明の実施例を図をもって説明する。

第１図は本実施例を説明する分析装置のブロック図であ
る。第１図において、入力音声１はアナログ−デジタル
変換器３を経て、二面構成で連続的の入力音声を交互に
ストアする二面入力バッファメモリ４に格納される。格
納された音声は分析部２を経て、分析結果はバッファレ
ジスタに格納され、さらに制御部を兼ねるプロセッサ６
により分析目的に応じた処理がなされた後、出力部８を
経て外部に出力される。分析部２は、周波数分析部２１
と、周波数分析結果バッファ２２及びニューラル・ネッ
ト型分析処理部２３よりなる。

ニューラル・ネット型分析の各素子間の結合部の重みを
学習する場合は、周波数分析結果バッファ２２の出力を
インターフェース５を経てプロセッサ６に取り込み、ニ
ューラル・ネット構造を学習するプログラム処理により
各重みを学習し、学習結果を重み設定レジスタ９を経て
、ニューラルネット型処理部２３の各素子間の結合部に
セットする。

第２図は、分析部２を中心に、より詳しく説明するため
の図であり、プロセッサ６の内部で処理するニューラル
・ネットの学習処理手順も、本図を用いて説明する。

先ず第２図を用いて１分析の手順を示す６周波数分析部
２１の出力は分析音声のパワースペクトル成分情報と位
相情報の両者を各々周波数分析結果レジスタ２２のパワ
ースペクトルレジスタ２２−ａと位相レジスタ２２−ｂ
に格納する０周波数分析部は良く知ら才しているＦＦＴ
分析手法を用いれば、パワー情報と位相情報を得ること
は当業者にとっては極く容易なことは明らかである。

パワー情報と位相情報は、ニューラル・ネット構造の分
析処理部２３の第１層２４の第一列目の各素子２４．ａ
−ｐ−１〜２４−ａ−ｐ　　ｎに加えられる。

第１層は、各々ｎ個の素子からなるに列の素子と、各列
間の素子を行方向に順次つなぐ遅延レジスタ２４−　ａ
　−ｚ　−１・・・２４−ａ−ｚ−ｎ・・・２４−に−
１−ｐ−ｎからなる二次元構造となっている。第Ｑ列第
ｑ番目の素子は第Ｑ−１列第ｑ番目の素子及び第Ω＋１
列第ｑ番目の素子の各々第悲−１列第ｑ番目及び第Ｑ列
第ｑ番目の遅延素子でつながれている（担し、第１列目
と第に列目は端なので片側のみであることは言うまでも
ない）。

二面人力バッファ４のレジスタへの入力が−ばいになり
、面が切り換り、入力音声が周波数分析部２１で分析さ
れ１周波数分析結果レジスタ２２に出力される毎に、各
情報は遅延レジスタ群を一つ経て次の行の素子に入力さ
れる。従って第Ω列の素子には今から２回だけ前に周波
数分析された情報が入っており、この第−層は、周波数
軸にそったパワー及び位相と、時間軸の実質的に３次元
の情報を持った二次元構造となっていることがわかる。

第２層２６はｍ個の素子からなる。各素子は第１層のす
べての素子と各々独立の重み付けられたパスでつながれ
ている０図では各パスは図の複雑さをさけるため、−本
の線で記してあり、重み処理は陽には記述していない、
各素子の特性及び重み付けは、たとえば、先に引用した
文献のようなものを用いれば良い。

第３ＷＩは１個の素子からなり、第２層のすべての素子
と同じく１重み付けられたパスでつながっている。この
層は、学習時には、第４層からのバック・プロパゲーシ
ョンによる情報だけでなく、直接外部から各素子に与え
られる学習データと合せて処理を行なう（端子２６−　
ａ　−Ｑ−１，・・・）点に特徴がある。この点につい
ては後に別図説明を行なう、また第３層の各素子又は一
部の素子はその出力を最終層を経ずに直接外部から参照
出力出来る構造とする（　２６−　ａ　−ｏ　−１、・
・・）。

第４層は、ｊ個（具体的には、目的により個数が定まる
。たとえば、主観音質評価ＭＯＳ値のみを出す場合は１
個、音韻認識を行なう場合は音韻の種類側、など）の素
子からなり、第３層の各素子のすべてと、同じく重みつ
きのパスで接続されている。各素子共学習入力（２７−
ａ−１−１゜・・・）が可能である。

各パスの重みは、この分析ネットを学習して得られた値
が、第１図のプロセッサ部６より重み設定レジスタ９を
経て２６−ａ−ｎ−１，・・・及び２７−ａ−Ｑ−１，
・・・などから設定される。予め学習値を求め、学習機
能をはずした固定目的の分析装置の場合は、重みが小さ
く、無視出来るパスは、はずして作成しておいて良いこ
とは言゛うまでもない。

次に、本ニューラル・ネット・タイプの分析処理部の各
パスの重みの学習について説明する。

学習には、第２図のような構成の専用装置を用いても良
いが、構造が複雑な上、学習時にのみ使う処理も多く、
不経済なため、このような構造と同等の処理を行なうソ
フトウェアをプロセッサ部６内に作っておき、そこで実
行する方が実用的であろう、特に大量データによる学習
を行なう場合は、処理時間もかかるのでプロセッサ部６
に学習データ用のメモリを用意しておけば、バッチ的に
学習処理を行なうことも可能となり、実用上のメリット
も大きい。

学習は、基本的には、良く知られているバックプロパゲ
ーション法を用いる。バックプロパゲーション法につい
ては例えば文献エム、アイ、ティープレス出版［パラレ
ル　デイステウリビューテラド　プロセシング」第１巻
（１９８６年）、第８章、第３１８頁から第３６２頁（
ＨＩＴ　Ｐｒ９８Ｊ“Ｐａｒａｌｌｅｌ　Ｄｉｓｔｒｉ
ｂｕｔｅｄ　Ｐｒｏｃｓｓｓｉｎｇ”　ＶｏＱ　、　１
（１９８６）　、Ｃｈａｐ、８．ｐｐ３１８−３６２）
に詳しく記述されている０通常のバックプロパゲーショ
ン学習では学習入力（目標出力値）を最終層に対して与
えられないが、本発明では中間層に対しても学習入力が
与えられる点に特徴がある。

本実施例の場合、最終層である第４層と中間層第３層か
ら学習入力を与えられるようにしである。

まず説明の簡単のためにいくつか記号を導入する第４層
２７の第ｉ番目の素子の出力値を０４１、第３層２６の
第ｉ番目の素子の出力値を０３７、第２層２５の第に番
目の素子の出力値ｏｚｍ、また学習入力として第４層２
７の第ｉ＃目の素子に与える目標出力値をＴ　４１、第
３層２６の第ｉ番目の素子に与える目標出力値をＴδ１
とする。また、パックプロパゲーションの過程で各素子
毎に求まる誤差信号値についても、第４層２７の第ｉ番
目の素子に対してδ４１、第３層２６の第ｉ番目の素子
に対して６８１．第２層２５の第に番目の素子に対して
δＺｋと記すことにする。さらにいま説明の簡単を考慮
して、第２層、第３層、第４層の各素子の特性は皆同−
とし、次のような入力関係として記述されるものとする
。

ｙ＝ｆ　（Ｘ）ここで、ｙは素子の出力、Ｘは素子への全入力の重み付
き総和である。また、関数ｆを微分したものをｆ′と記
すことにする。また第４層２７の第ｉ番目の素子と第３
層２６の第ｉ番目の素子の結合係数をω３１−１第３Ｍ
２６の第ｉ番目の素子と第２層２５の第に番目の素子の
結合係数をω２７にと記す。

パックプロパゲーション学習ではまず分析処理部２３の
第１層２４の各素子に特定の入力を与え、これに基づい
て第２層２５．第３層２６．第４層２７の各素子の出力
値を求める。

各素子の出力値が求まると、第４層から下の層に向って
順に誤差信号を求めていく、第ＮＪＩと第Ｎ＋１層との
間の結合係数の修正は、第Ｎ＋１Ｍにおける誤差信号と
第Ｎ層における出力値を用いて行なう、ここでは簡単の
ため前記結合係数ω８４にとωＺｌｋの修正過程につい
てのみ説明する。

結合係数ω３−に、ω２−の修正において、第２層２５
の第に番目の素子の出力値０２に、第３層の第ｉ番目の
素子の出力値０３−および第３層の第ｊＪ！目の素子の
誤差信号値δ８１．第４層の第ｉ番目の素子の誤差信号
値δ４１が必要となる。　０ｔｂｔ　ｏａ□の値は前記
のように第１層２４へ特定の入力が与えられるとフォー
ワードな計算で求めることができる。一方、δ４１．δ
８．は次式に従って算出する。

δ番＋　＝　（Ｔａｉ　　　０ａｉ）ｆ　’　　（Σω
δ１４・・・０ａｊ）・・・（１）＋　／ＩＩ　（ＴＩＩＪ−０８Ｊ）　ｆ　’　　ＣΣ（
ｉ１２Ｊｋ○２ｋ）・・・（２）次に、ω１１１Ｊ＋ω２．ｉｋの修正であるがこの修正
量をそれぞれΔωｓ１□、Δω２７にと記すと、この修
正量は次式によって算出することができる。

Δ　ω８Ｉａ＝　　γ　δ４１０　ａａ　　　　　　　
　　　　　　　　−（３）Δω２Ｊｋ＝γδ５ａｏ２ｈ
　　　　　　　　　・・・（４）（１）〜（４）式にお
いて、α、β、γは実験的に学習の収束速度を調べなが
ら設定してやればよい。

（２）式でα＝１．β＝０とすれば通常のバックプロパ
ゲーション学習となるが、β≠０なる値を設定すれば、
中間層第３層２６からの学習入力をも考慮した形での学
習が進む、　（３）　、　（４）式を用いれば第４層と
第３層、第３層と第２層の間の全ての結合係数の修正が
できる。第２層と第１層の間の結合係数に関しても（２
）式でα＝１．β＝０とおいたような形の通常のパック
プロパゲーションの処理を行なうことで修正ができる６
以上により分析処理部２３の全ての結合係数が１回修正
されたことになる。他の入力データ、学習入力を与えて
以上の結合係数の修正の過程を行なうということを繰り
返す、この繰返し毎に次式で示す評価値Ｅａ＝−Σ（Ｔ
ｉｔ−Ｏａｔ）”　　　　　　　　　　　−（５）２　
五Ｅａ＝＝　　−Σ　（ＴＩＩＪ　　　　Ｏδ−）２・・
・（６）を求め、これを全ての学習サンプルについて平均する。

その値が予め与えられた閾値より小さくなった段階で、
学習が完了したものとして結合係数の修正を終了すれば
よい。

次に学習入力の実施例について説明する。

第３図は音韻認識用分析部として学習する場合の最終層
（第４層）に対する中間層（第３層）′１４子への学習
入力値の一例である。第３層の素子の２０個程度を用意
し、そのうち１３個に外部からの学習機能を設ける。第
４層は日本語にあられれる代表的音韻２７種に対応する
素子を設ける。学習入力波形を加えると共に、第４層に
は、人力音声に対応する素子に学習人力１を他の素子に
はＯを、第３層の外部学習入力付素子１３個には表に従
った学習入力（１，０、又は−１の値）を加か学習を行
なわせる。

第４図は主観的音質評価としてＭＯＳ値を求める装置の
分析部に用いる場合の一例である０人間を用いて主観評
価実験にて得たデータの一部を示しである。第３層の素
子数は５程度とし、そのうち３個の素子に外部からの学
習機能を設ける。第４層は主観評価値ＭＯ８を表わす素
子１個である。

人間を用いて主観評価実験にて得た第４図のＭＯＳ値と
、第３層の３つの素子に各々の要素感覚値として主観評
価実験より得た［（表の交点の値）を学習教師入力とし
、この評価値を与えた音声波形を第１層への入力波形と
して学習させれば良い。

〔発明の効果〕

以上説明したごとく、本発明によれば、入力音声と目的
に応じた出力との関係を、見返しの良い物理量と対応付
けて解決出来る構造となっているので、音声情報処理技
術開発のツールとして非常に有効であるばかりでなく、
得られた分析装置及び方法は、音声認識２話者認識、音
質評価、音帯ガンのスクリーング等幅広い応用に適用で
きる。

【図面の簡単な説明】

第１図は本発明の一実施例を説明するブロック図、第２
図は、その中心となるニューロン・ネット型の分析部を
説明するための図である。第３図と第４図はニューロン
・ネットワークを学習させる場合の外部教師入力値の例
であり、第３図は音舅図１　人力音声２　　ブロセ、ゾヅ

Claims

【特許請求の範囲】１、４層以上からなり、その最終層と、中間層の一部（
０を含む）ないし全部の素子に外部からの学習用教師情
報を加えて学習した重み情報を有することを特徴とする
ニューラル・ネットワーク。２、４層からなり、その第３層の一部（０を含む）ない
し全部の素子と第４層に外部からの学習教師情報を加え
て学習した重み情報を有することを特徴とするニューラ
ル・ネットワーク。３、第１層が、周波数パワースペクトルと周波数位相ス
ペクトル及びその時間軸情報に対応する素子群からなる
ことを特徴とする特許請求の範囲第１項のニューラル・
ネットワーク。４、４層以上からなるニューラル・ネットワークの最終
層と、中間層の一部ないし全部の素子に外部からの学習
教師情報を加えることを特徴とするニューラル・ネット
ワークの学習方法。５、４層からなるニューラル・ネットワークの第３層の
一部ないし全部の素子と第４層に外部からの学習教師情
報を加えることを特徴とするユーラルネツトワークの学
習方法。６、特許請求の範囲第１項記載のニューラル・ネットワ
ークを分析部として有することを特徴とする音響信号分
析装置及び方法。７、特許請求の範囲第１項記載のニューラル・ネットワ
ークを分析部として有することを特徴とする音声認識装
置及び方法。８、特許請求の範囲第１項記載のニューラル・ネットワ
ークを分析部として有することを特徴とする話者認識装
置及び方法。９、特許請求の範囲第１項記載のニューラル・ネットワ
ークを分析部として有することを特徴とする音質評価装
置及び方法。１０、特許請求の範囲第１項記載のニユーラル・ネット
ワークを分析部として有することを特徴とする声帯ガン
スクリーニング装置及び方法。１１、特許請求の範囲第１項記載のニューラルネットワ
ークを分析部として有することを特徴とする故障診断装
置及び方法。１２、特許請求の範囲第１項記載のニューラルネットワ
ークを分析部として有することを特徴とするソナー装置
及び方法。１３、中間層の素子の一部ないし全部の出力を直接外部
に出力可能とした、特許請求の範囲第１項記載のニュー
ラル・ネットワーク。