JPH04295894A

JPH04295894A - 神経回路網モデルによる音声認識方法

Info

Publication number: JPH04295894A
Application number: JP3061869A
Authority: JP
Inventors: Masanori Miyatake; 正典宮武
Original assignee: Sanyo Electric Co Ltd
Current assignee: Sanyo Electric Co Ltd
Priority date: 1991-03-26
Filing date: 1991-03-26
Publication date: 1992-10-20

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、神経回路網モデルを用
いた音声認識方法に関する。

【０００２】

【従来の技術】神経回路網（ニューラルネット）による
音声認識の有効性については、既に多くの報告がなされ
ており、例えば、本願発明者等による日本音響学会講演
論文集１５７頁ないし１５８頁の論文、２−Ｐ−１４「
ニューラルネットを用いた不特定話者数字単語認識の検
討」（平成２年９月発行）がある。

【０００３】このようなニューラルネットによる音声認
識方法によれば、逆誤差伝播法などの学習法によって音
声を学習することで、認識率の高い音声認識を可能なも
のとできる。

【０００４】図２には、上述のような神経回路網モデル
による音声認識方法を実現するための装置構成を示して
いる。

【０００５】同図に於て、１は特徴抽出部であり、入力
された音声信号から音声の特徴パラメータ群を抽出し、
音声特徴パターンを作成する。２は学習用パターンメモ
リであり、第１のスイッチ３によって学習時に選択され
、前記特徴抽出部１で抽出された特徴パラメータ群を学
習用音声特徴パターンとして一時的にカテゴリ別に蓄積
する。４は前向き演算部であり、神経回路網のネットワ
ーク構造を定義したネットワーク構造定義メモリ５とユ
ニット間のウェイトの値を記憶したウェイト値メモリ６
とに記憶された情報を用いて、上記特徴抽出部１から第
１のスイッチ３を介して得られる音声特徴パターンに対
するネットワークの出力値を計算する。７は第２のスイ
ッチであり、認識モード時か学習モード時かによって前
向き演算部４からの出力先を選択的に切り替える。８は
判定部であり、前向き演算部４から上記第２のスイッチ
７を介して得られる音声特徴パターンを用いて入力音声
に対する認識処理を行い、その結果を外部装置等に出力
する。

【０００６】９はターゲット信号発生部であり、学習用
パターンメモリ２から出力された学習用音声特徴パター
ンに応じたターゲット信号を発生する。この時のターゲ
ット信号とは、上記学習用パターンメモリ２から出力さ
れた学習用音声特徴パターンに対する出力の理想値であ
る。

【０００７】１０は後向き誤差演算部であり、ターゲッ
ト信号発生部９で発生したターゲット信号（理想の出力
値）と上記前向き演算部４からの出力値との誤差を計算
し、逆誤差伝播法によりウェイト値メモリ６内のウェイ
ト値を更新する。また、１１は以上の各処理部の動作を
制御する制御部である。

【０００８】このような装置構成の動作を以下に述べる
。

【０００９】まず、制御部１１の指示で、第１のスイッ
チ３を動作させ特徴抽出部１を学習用パターンメモリ２
に接続すると共に、第２のスイッチ７を動作させ前向き
演算部４を後向き誤差演算部１０に接続して、該装置を
学習モードに設定する。

【００１０】学習モードにおいては、音声学習のために
発声された音声の信号、或いは予じめ収録された音声学
習用の音声信号が順次入力され、この音声信号から特徴
抽出部１が特徴パラメータの時系列を抽出する。こうし
て抽出された特徴パラメータの時系列からなる学習用の
音声特徴パターンが学習用パターンメモリ２に各カテゴ
リ毎に格納される。

【００１１】このような学習用の音声特徴パターンが学
習用パターンメモリ２に所定の個数格納されると、所謂
逆誤差伝播法により学習が行われる。

【００１２】即ち、制御部１１の指示により、学習用パ
ターンメモリ２内に格納された学習用音声特徴パターン
が、所定の順序で順次前向き演算部４に送られる。前向
き演算部４では、この学習用音声特徴パターンを入力と
して、ネットワーク構造定義メモリ５およびウェイト値
メモリ６内の情報を用いて出力値を計算する。なお、学
習を始めるにあたっては、あらかじめウェイト値メモリ
６内のウェイト値を乱数を用いるなどの方法で適度にば
らつかせるのが好ましい。

【００１３】一方、制御部１１は、ターゲット信号発生
部９に対し、学習用パターンメモリ２から出力された学
習用音声特徴パターンが属するカテゴリに対応してター
ゲット信号すなわち前向き演算部４の出力の理想値を発
生させる。具体的にはこの値は例えば、いま学習用パタ
ーンメモリ２から前向き演算部４に送られている学習用
音声特徴パターンがｎ個のカテゴリ中のｋ番目のカテゴ
リに属しているとすれば、ｋ番目の要素が「１」、その
他の要素はすべて「０」のｎ次元のベクトル値として与
えられる。又、後向き誤差演算部１０では、前記の前向
き演算部４にて計算された出力値とターゲット信号発生
部９にて発生されたターゲット信号との誤差を求め、こ
の誤差が小さくなるように逆誤差伝播法に従ってウェイ
ト値メモリ７内のウェイト値を更新する。以上の手順は
所定の回数もしくは所定の状態になるまで繰り返される
。なおウェイト値の更新は、学習用音声特徴パターン毎
に行う方法の他に、所定の個数毎に行う場合もある。

【００１４】上述の如きウェイト値の更新が終了すれば
、次に制御部１１は、第１のスイッチ３を切り替えて特
徴抽出部１を前向き演算部４側に、第２のスイッチ７を
切り替えて前向き演算部４を判定部８側に接続して、装
置を認識モードにする。

【００１５】認識モードにおいては、入力された音声は
特徴抽出部１にて特徴パラメータが抽出され、認識用音
声特徴パターンが作成され、学習時と同様に前向き演算
部４に入力され、出力値が計算される。判定部８ではこ
の出力値を基に認識結果を図示しない外部装置に出力す
る。

【００１６】以上で示したような神経回路網モデルによ
る音声認識方法によれば、与えられた学習用音声特徴パ
ターンを用いて繰り返し学習することにより、音声の特
徴を的確にとらえることができ、高い認識性能が得られ
る。

【００１７】しかしながら、上述の如き学習モード時の
周囲の雑音環境と、実際に音声認識を行う認識モード時
のそれとが常に定常であるとは限らず、むしろ両モード
での周囲雑音環境は異なるものと考えてよい。例えば、
コンピュータ室あるいは無響室などで発声された音声を
用いて学習し、実際の認識操作は自動車内あるいは雑踏
中などで行われることがかなり一般的である。

【００１８】このような場合、認識モードで入力された
音声の中に重畳された雑音が学習モード時とは異なるた
めに、認識不能になる危惧があった。特に、神経回路網
モデルによる音声認識方法では、学習した音声に対して
はかなり詳細な音声の特徴抽出が可能であるが、その為
音声に重畳した雑音の影響も受けやすく、このため認識
性能が著しく低下する不都合があった。

【００１９】このような雑音が認識性能に及ぼす影響を
緩和するために、従来から、認識時と同様の雑音環境下
で発声された音声を用いて学習したり、学習用音声に認
識時に想定される雑音を電気回路的にまたはコンピュー
タ上で重畳したりして、認識性能の低下がかなり抑制し
ていたが、周辺の雑音環境は時間と共に変化していくの
が普通であり、このような時間的に変動のある雑音環境
下でも動作する耐雑音性に優れた実用的な音声認識方法
が提供されるには至っていない。

【００２０】

【発明が解決しようとする課題】本発明の神経回路網モ
デルによる音声認識方法は、上述の点に鑑みてなされた
ものであり、周辺の雑音環境は時間と共に変化していく
ような雑音環境下でも動作する耐雑音性に優れた実用的
な音声認識方法を提供するものである。

【００２１】

【課題を解決するための手段】本発明の神経回路網モデ
ルによる音声認識方法は、音声認識時に認識対象となる
音声に重畳することが想定される雑音をあらかじめ学習
用音声に重畳して学習を行うものであって、雑音を学習
用音声に重畳する際の混合比を複数種類用意し、それぞ
れの混合比で雑音を重畳した学習用音声を同時に学習さ
せることを特徴とする神経回路網モデルによる音声認識
方法。

【００２２】

【作用】本発明の神経回路網モデルによる音声認識方法
によれば、認識時に重畳することが想定される雑音を複
数の混合比で学習用音声に重畳する処理を設け、あるい
は複数種類の雑音を学習用音声に重畳させる処理を設け
ているので、このように各種の雑音が重畳された学習用
の音声パターンを用いた神経回路網モデルによる音声の
学習が可能となる。

【００２３】

【実施例】図１は本発明の神経回路網モデルによる音声
認識方法を実現するための機能構成の一例を示すブロッ
ク図であり、図２の従来構成に対応するものには同じ番
号を付している。また、音声学習モード、音声認識モー
ドそれぞれにおける各スイッチ３、７の切り替え動作も
従来方法に準じている。

【００２４】同図において、１２は音圧測定部であり、
入力された音声の音圧の測定を行うものである。ここで
、音圧の定義の方法にはいくつかあるが、たとえば入力
音声の音声区間を判定し、その区間の平均音圧を求めれ
ばよい。１３は入力された音声をデジタル化して蓄積す
るための音声蓄積部である。１４は認識時に重畳が想定
される雑音をあらかじめ記憶させておく雑音蓄積部であ
る。１５はゲイン調整部であり、制御部１１からの指示
による所定の雑音重畳比（Ｓ／Ｎ比）と音圧測定部１２
で測定された入力音声の音圧との情報を用い、雑音蓄積
部１４内の雑音の音圧を調整する。１６は音圧を調整さ
れた雑音を入力音声に重畳するための雑音重畳部である
。

【００２５】このような構成に基づいて、本発明方法の
一例を以下に解説する。尚、音声学習モード、音声認識
モードそれぞれにおける各スイッチ３、７の切り替え動
作も従来方法に準じている。

【００２６】音声学習モードに於て、話者の一度の音声
の入力に対し、複数のＳ／Ｎ比を持つ雑音重畳音声を生
成するために、あるいは複数の種類の雑音重畳音声を生
成するために、制御部１１は必要な数だけ繰り返しなが
ら以下の指示を行う。即ち、まず、ゲイン調整部１５に
ゲインを調節させ、音声蓄積部１３内の入力音声と雑音
蓄積部１４内の雑音とを共に雑音重畳部１６へ送出させ
る。その結果、一つの入力音声に対して複数のＳ／Ｎ比
を持つ雑音重畳音声を得ることができる。尚、このよう
な雑音の音声への重畳処理としては、電気回路上で例え
ば、アナログ的に行われても良いし、演算器によって例
えば、デジタル的に行われても良い。

【００２７】このように雑音重畳部１６によって、雑音
が重畳された音声は、従来と同様の手続きで学習用パタ
ーンメモリ２に格納され、神経回路網モデルによる音声
の学習が行われる。種々のＳ／Ｎ比の雑音や種々の性質
の異なる雑音が重畳された音声パターンを同時に学習す
ることで、これらのパターンに含まれる共通な性質すな
わち音声の本質的な特徴がうまく学習されることが期待
できる。

【００２８】音声認識モードに於て、話者の入力音声は
音声蓄積部１３をそのまま通過し、雑音重畳部１６での
雑音重畳は行われず、そのまま特徴抽出部１に入力され
て従来同様に認識処理が行われる。

【００２９】なお、以上の例では一つの入力音声を蓄積
して、必要な回数だけ同じ音声を取り出して使用してい
るが、外部で音声を蓄積して必要な回数だけ同一音声を
入力してもよく、また、同一音声を繰り返し用いるかわ
りに発声内容が同じ音声を複数個用意して用いても何ら
問題はない。また、複数の性質の異なる雑音それぞれに
ついて複数のＳ／Ｎ比により音声への重畳を行い、これ
らを同時に学習させることも可能である。

【００３０】更に、神経回路網モデルのネットワークの
形状としては、３層の階層構造を採用することができる
が、神経回路網モデルには種々の形状があり、本発明に
おいても様々な変形が考えられる。また、学習の手法と
して逆誤差伝播法を挙げたが、それぞれの形状に適した
学習法があり、本発明はこれに限定されない。

【００３１】

【発明の効果】以上の説明により明らかなように、本発
明の神経回路網モデルによる音声認識方法によれば、神
経回路網モデルに種々の雑音が重畳された音声パターン
を学習させることにより、音声の本質的な特徴が効果的
に学習され、周辺雑音に影響されにくい精度の高い音声
認識が実現できる。

【図面の簡単な説明】

【図１】本発明の神経回路網モデルによる音声認識方法
を実現するための機能構成図

【図２】従来の神経回路網モデルによる音声認識方法を
実現するための機能構成図

【符号の説明】

１　　特徴抽出部２　　学習用パターンメモリ４　　前向き演算部５　　ネットワーク構造定義メモリ６　　ウェイト値メモリ８　　判定部９　　ターゲット信号発生部１０　　後ろ向き演算部１１　　制御部１２　　音圧測定部１３　　音声蓄積部１４　　雑音蓄積部１５　　ゲイン調整部１６　　雑音重畳部

Claims

【特許請求の範囲】

【請求項１】　　音声を分析して得られる音声特徴パラ
メータを神経回路網モデルを用いて学習することにより
音声認識機能を獲得する音声認識方法に於て、音声認識
時に認識対象となる音声に重畳することが想定される雑
音をあらかじめ学習用音声に重畳して学習を行うもので
あって、雑音を学習用音声に重畳する際の混合比を複数
種類用意し、それぞれの混合比で雑音を重畳した学習用
音声を同時に学習させることを特徴とする神経回路網モ
デルによる音声認識方法。
【請求項２】　　音声を分析して得られる音声特徴パラ
メータを神経回路網モデルを用いて学習することにより
音声認識機能を獲得する音声認識方法に於て、音声認識
時に認識対象となる音声に重畳することが想定される雑
音をあらかじめ学習用音声に重畳して学習を行うもので
あって、特性の異な雑音を複数種類用意し、それぞれの
雑音を重畳した学習用音声を同時に学習させることを特
徴とする神経回路網モデルによる音声認識方法。