JP3091504B2 - 神経回路網モデルによる音声認識方法 - Google Patents

神経回路網モデルによる音声認識方法

Info

Publication number
JP3091504B2
JP3091504B2 JP03061868A JP6186891A JP3091504B2 JP 3091504 B2 JP3091504 B2 JP 3091504B2 JP 03061868 A JP03061868 A JP 03061868A JP 6186891 A JP6186891 A JP 6186891A JP 3091504 B2 JP3091504 B2 JP 3091504B2
Authority
JP
Japan
Prior art keywords
speech
noise
voice
learning
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP03061868A
Other languages
English (en)
Other versions
JPH04295897A (ja
Inventor
宮武正典
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanyo Electric Co Ltd
Original Assignee
Sanyo Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Electric Co Ltd filed Critical Sanyo Electric Co Ltd
Priority to JP03061868A priority Critical patent/JP3091504B2/ja
Publication of JPH04295897A publication Critical patent/JPH04295897A/ja
Application granted granted Critical
Publication of JP3091504B2 publication Critical patent/JP3091504B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、神経回路網モデルを用
いた音声認識方法に関する。
【0002】
【従来の技術】神経回路網(ニューラルネット)による
音声認識の有効性については、既に多くの報告がなされ
ており、例えば、本願発明者等による日本音響学会講演
論文集157頁ないし158頁の論文、2−P−14
「ニューラルネットを用いた不特定話者数字単語認識の
検討」(平成2年9月発行)がある。
【0003】このようなニューラルネットによる音声認
識方法によれば、誤差逆伝播法などの学習法によって音
声を学習することで、認識率の高い音声認識を可能なも
のとできる。
【0004】図2には、上述のような神経回路網モデル
による音声認識方法を実現するための装置構成を示して
いる。
【0005】同図に於て、1は特徴抽出部であり、入力
された音声信号から音声の特徴パラメータ群を抽出し、
音声特徴パターンを作成する。2は学習用パターンメモ
リであり、第1のスイッチ3によって学習時に選択さ
れ、前記特徴抽出部1で抽出された特徴パラメータ群を
学習用音声特徴パターンとして一時的にカテゴリ別に蓄
積する。4は前向き演算部であり、神経回路網のネット
ワーク構造を定義したネットワーク構造定義メモリ5と
ユニット間のウェイトの値を記憶したウェイト値メモリ
6とに記憶された情報を用いて、上記特徴抽出部1から
第1のスイッチ3を介して得られる音声特徴パターンに
対するネットワークの出力値を計算する。7は第2のス
イッチであり、認識モード時か学習モード時かによって
前向き演算部4からの出力先を選択的に切り替える。8
は判定部であり、前向き演算部4から上記第2のスイッ
チ7を介して得られる音声特徴パターンを用いて入力音
声に対する認識処理を行い、その結果を外部装置等に出
力する。
【0006】9はターゲット信号発生部であり、学習用
パターンメモリ2から出力された学習用音声特徴パター
ンに応じたターゲット信号を発生する。この時のターゲ
ット信号とは、上記学習用パターンメモリ2から出力さ
れた学習用音声特徴パターンに対する出力の理想値であ
る。
【0007】10は後向き誤差演算部であり、ターゲッ
ト信号発生部9で発生したターゲット信号(理想の出力
値)と上記前向き演算部4からの出力値との誤差を計算
し、誤差逆伝播法によりウェイト値メモリ6内のウェイ
ト値を更新する。また、11は以上の各処理部の動作を
制御する制御部である。
【0008】このような装置構成の動作を以下に述べ
る。
【0009】まず、制御部11の指示で、第1のスイッ
チ3を動作させ特徴抽出部1を学習用パターンメモリ2
に接続すると共に、第2のスイッチ7を動作させ前向き
演算部4を後向き誤差演算部10に接続して、該装置を
学習モードに設定する。
【0010】学習モードにおいては、音声学習のために
発声された音声の信号、或いは予じめ収録された音声学
習用の音声信号が順次入力され、この音声信号から特徴
抽出部1が特徴パラメータの時系列を抽出する。こうし
て抽出された特徴パラメータの時系列からなる学習用の
音声特徴パターンが学習用パターンメモリ2に各カテゴ
リ毎に格納される。
【0011】このような学習用の音声特徴パターンが学
習用パターンメモリ2に所定の個数格納されると、所謂
誤差逆伝播法により学習が行われる。
【0012】即ち、制御部11の指示により、学習用パ
ターンメモリ2内に格納された学習用音声特徴パターン
が、所定の順序で順次前向き演算部4に送られる。前向
き演算部4では、この学習用音声特徴パターンを入力と
して、ネットワーク構造定義メモリ5およびウェイト値
メモリ6内の情報を用いて出力値を計算する。なお、学
習を始めるにあたっては、あらかじめウェイト値メモリ
6内のウェイト値を乱数を用いるなどの方法で適度にば
らつかせるのが好ましい。
【0013】一方、制御部11は、ターゲット信号発生
部9に対し、学習用パターンメモリ2から出力された学
習用音声特徴パターンが属するカテゴリに対応してター
ゲット信号すなわち前向き演算部4の出力の理想値を発
生させる。具体的にはこの値は例えば、いま学習用パタ
ーンメモリ2から前向き演算部4に送られている学習用
音声特徴パターンがn個のカテゴリ中のk番目のカテゴ
リに属しているとすれば、k番目の要素が「1」、その
他の要素はすべて「0」のn次元のベクトル値として与
えられる。又、後向き誤差演算部10では、前記の前向
き演算部4にて計算された出力値とターゲット信号発生
部9にて発生されたターゲット信号との誤差を求め、こ
の誤差が小さくなるように誤差逆伝播法に従ってウェイ
ト値メモリ7内のウェイト値を更新する。以上の手順は
所定の回数もしくは所定の状態になるまで繰り返され
る。なおウェイト値の更新は、学習用音声特徴パターン
毎に行う方法の他に、所定の個数毎に行う場合もある。
【0014】上述の如きウェイト値の更新が終了すれ
ば、次に制御部11は、第1のスイッチ3を切り替えて
特徴抽出部1を前向き演算部4側に、第2のスイッチ7
を切り替えて前向き演算部4を判定部8側に接続して、
装置を認識モードにする。
【0015】認識モードにおいては、入力された音声は
特徴抽出部1にて特徴パラメータが抽出され、認識用音
声特徴パターンが作成され、学習時と同様に前向き演算
部4に入力され、出力値が計算される。判定部8ではこ
の出力値を基に認識結果を図示しない外部装置に出力す
る。
【0016】以上で示したような神経回路網モデルによ
る音声認識方法によれば、与えられた学習用音声特徴パ
ターンを用いて繰り返し学習することにより、音声の特
徴を的確にとらえることができ、高い認識性能が得られ
る。
【0017】しかしながら、上述の如き学習モード時の
周囲の雑音環境と、実際に音声認識を行う認識モード時
のそれとが常に定常であるとは限らず、むしろ両モード
での周囲雑音環境は異なるものと考えてよい。例えば、
コンピュータ室あるいは無響室などで発声された音声を
用いて学習し、実際の認識操作は自動車内あるいは雑踏
中などで行われることがかなり一般的である。
【0018】このような場合、認識モードで入力された
音声の中に重畳された雑音が学習モード時とは異なるた
めに、認識不能になる危惧があった。特に、神経回路網
モデルによる音声認識方法では、学習した音声に対して
はかなり詳細な音声の特徴抽出が可能であるが、その為
音声に重畳した雑音の影響も受けやすく、このため認識
性能が著しく低下する不都合があった。
【0019】このような雑音が認識性能に及ぼす影響を
緩和するために、従来から、認識時と同様の雑音環境下
で発声された音声を用いて学習したり、学習用音声に認
識時に想定される雑音を電気回路的にまたはコンピュー
タ上で重畳したりして、認識性能の低下がかなり抑制し
ていたが、周辺の雑音環境は時間と共に変化していくの
が普通であり、このような時間的に変動のある雑音環境
下では、やはり認識性能の低下を防止することはできな
かった。
【0020】また、雑音を含んだ音声から予じめ雑音を
除去することで雑音による変形をある程度低減する方法
もある。例えば雑音の平均的なスペクトルパターンを記
憶しておき、この雑音パターンを、雑音の重畳した音声
のスペクトルパターンから引き去る処理(スペクトルサ
ブトラクション法)や、相関係数を用いる方法、あるい
は神経回路網モデルを用いる方法などがある。しかしこ
れらの方法によっても十分に雑音が除去されるとはいえ
ず、耐雑音性に優れた実用的な音声認識方法が提供され
るには至っていない。
【0021】
【発明が解決しようとする課題】本発明の神経回路網モ
デルによる音声認識方法は、上述の点に鑑みてなされた
ものであり、周辺の雑音環境は時間と共に変化していく
ような雑音環境下でも動作する耐雑音性に優れた実用的
な音声認識方法を提供するものである。
【0022】
【課題を解決するための手段】本発明の神経回路網モデ
ルによる音声認識方法は、神経回路網モデルによる音声
認識装置に、入力音声に重畳された雑音の除去処理を
う。さらに、認識時に重畳することが想定される雑音を
複数の混合比で学習用音声に重畳する処理を行う。ま
た、複数種類の雑音を学習用音声に重畳させる処理を行
う。
【0023】
【作用】本発明の神経回路網モデルによる音声認識方法
によれば、雑音が重畳された音声に対し、まず雑音除去
処理を施した後、除去できなかった雑音を含む音声を神
経回路網モデルの学習・認識能力を用いて認識させる。
【0024】
【実施例】図1は本発明の神経回路網モデルによる音声
認識方法を実現するための機能構成の一例を示すブロッ
ク図であり、図2の従来構成に対応するものには同じ番
号を付している。
【0025】同図において、12は音圧測定部であり、
入力された音声の音圧の測定を行うものである。ここ
で、音圧の定義の方法にはいくつかあるが、たとえば入
力音声の音声区間を判定し、その区間の平均音圧を求め
ればよい。13は入力された音声をデジタル化して蓄積
するための音声蓄積部である。14は認識時に重畳が想
定される雑音をあらかじめ記憶させておく雑音蓄積部で
ある。15はゲイン調整部であり、制御部11からの指
示による所定の雑音重畳比(S/N比)と音圧測定部1
2で測定された入力音声の音圧との情報を用い、雑音蓄
積部14内の雑音の音圧を調整する。16は音圧を調整
された雑音を入力音声に重畳するための雑音重畳部であ
る。さらに17は雑音除去処理部であり、例えばスペク
トルサブストラクト法などの既存の方法を用いて音声中
の雑音の除去を試みる。
【0026】このような構成に基づいて、本発明方法の
一例を以下に解説する。尚、音声学習モード、音声認識
モードそれぞれにおける各スイッチ3、7の切り替え動
作も従来方法に準じている。
【0027】音声学習モードに於て、話者の一度の音声
の入力に対し、複数のS/N比を持つ雑音重畳音声を生
成するために、あるいは複数の種類の雑音重畳音声を生
成するために、制御部11は必要な数だけ繰り返しなが
ら以下の指示を行う。即ち、まず、ゲイン調整部15に
ゲインを調節させ、音声蓄積部13内の入力音声と雑音
蓄積部14内の雑音とを共に雑音重畳部16へ送出させ
る。その結果、一つの入力音声に対して複数のS/N比
を持つ雑音重畳音声を得ることができる。尚、このよう
な雑音の音声への重畳処理としては、電気回路上で例え
ば、アナログ的に行われて良いし、演算器によって例え
ば、デジタル的に行われても良い。
【0028】雑音除去処理部17で雑音除去処理が施さ
れた音声は、除去できなかった雑音を含んだまま、従来
と同じ手続きで学習用パターンメモリに格納され、神経
回路網モデルによる音声の学習が行われる。種々のS/
N比の雑音や種々の性質の異なる雑音が重畳された音声
パターンから得られる雑音除去処理後の音声を同時に学
習することで、これらのパターンに含まれる共通な性質
すなわち音声の本質的な特徴がうまく学習されることが
期待できる。特に、雑音が重畳した音声に対して雑音除
去処理を施さない場合と比べて、安定した学習用音声パ
ターンが得られるため、神経回路網モデルによる学習が
効率良く行われ、高い認識性能が得られることが期待で
きる。
【0029】音声認識モードに於ては、雑音が重畳した
入力音声は音声蓄積部13をそのまま通過し、雑音重畳
部16での雑音重畳は行われず、雑音除去処理部17で
雑音除去処理が施された後、特徴抽出部1に入力されて
認識処理が行われる。
【0030】なお、以上の例では、一つの入力音声を蓄
積して、必要な回数だけ同じ音声を取り出して使用して
いるが、外部で音声を蓄積して必要な回数だけ同一音声
を入力してもよく、また、同一音声を繰り返し用いるか
わりに発声内容が同じ音声を複数個用意して用いても何
ら問題はない。また、複数の性質の異なる雑音それぞれ
について複数のS/N比により音声への重畳を行い、こ
れらを同時に学習させることも可能である。あるいは認
識において想定される雑音環境が学習時とほぼ同じで、
かつ学習に必要な数の音声が得られるならば、学習時の
入力音声に雑音を重畳することなく雑音除去処理を施す
ことも可能である。
【0031】更に、神経回路網モデルのネットワークの
形状としては、3層の改装構造を採用できるが、神経回
路網モデルには種々の形状があり、本発明においても様
々な変形が考えられる。また、学習の手法として誤差逆
伝播法を挙げたが、それぞれの形状に適した学習法があ
り、本発明はこれに限定されるものではない。
【0032】
【発明の効果】以上の説明により明らかなように、本発
明の神経回路網モデルによる音声認識方法によれば、種
々の雑音が重畳された音声に雑音除去処理を施し、除去
できなかった雑音を含む音声パターンを神経回路網モデ
ルに学習させることにより、音声の本質的な特徴がうま
く学習され、周辺雑音に影響されにくい精度の高い音声
認識を実現することができる。
【図面の簡単な説明】
【図1】本発明の神経回路網モデルによる音声認識方法
を実現するための機能構成図
【図2】従来の神経回路網モデルによる音声認識方法を
実現するための機能構成図
【符号の説明】
1 特徴抽出部 2 学習用パターンメモリ 4 前向き演算部 5 ネットワーク構造定義メモリ 6 ウェイト値メモリ 8 判定部 9 ターゲット信号発生部 10 後ろ向き演算部 11 制御部 12 音圧測定部 13 音声蓄積部 14 雑音蓄積部 15 ゲイン調整部 16 雑音重畳部 17 雑音除去処理部
フロントページの続き (56)参考文献 特開 平4−156600(JP,A) 特開 平2−244096(JP,A) 特開 昭62−65088(JP,A) 特開 昭59−34595(JP,A) 特開 平4−295894(JP,A) 特開 平2−72398(JP,A) 特開 平1−260495(JP,A) 特許3002204(JP,B2) 特公 平7−92673(JP,B2) 特公 昭63−67197(JP,B2) 特公 平4−49715(JP,B2) 特公 平4−30040(JP,B2) Proceedings of 1989 IEEE Internationa l Conference on Ac oustics, Speech an d Signal Processin g,Vol.1,J.−C.Junqu a et al,”A compara tive study of ceps tral lifters and d istance measures f or all pole models of speech in nois e”,p.476−479 Proceedings of 1989 IEEE Internationa l Conference on Ac oustics, Speech an d Signal Processin g,Vol.1,B.J.Stanto n et al,”Robust re cognition of lous and Lombard speech in the fighter co ckpit environmen t”,p.675−678 Proceedings of 1988 IEEE Internationa l Conference on Ac oustics, Speech an d Signal Processin g,Vol.1,B.J.Stanto n et al,”Acoustic− phonetic analysis of loud and Lombar d speech in simula ted cockpit condit ions”p.331−334 Proceedings of 1990 IEEE Internationa l Conference on Ac oustics, Speech an d Signal Processin g,Vol.2,J.Junqua e t al,”Acousitc and perceptual studie s of Lombard speec h:application to i solated−words auto matic speech recog nition”,p.841−844 (58)調査した分野(Int.Cl.7,DB名) G10L 15/20 G06F 15/18 560 G10L 15/06 G10L 15/16 G10L 21/02 JICSTファイル(JOIS) IEEE/IEE Electroni c Library Online 実用ファイル(PATOLIS) 特許ファイル(PATOLIS)

Claims (3)

    (57)【特許請求の範囲】
  1. 【請求項1】 音声を分析して得られる音声特徴パラメ
    ータを神経回路網モデルを用いて学習することにより音
    声認識機能を獲得する音声認識方法に於て、雑音を含む
    入力音声に対して雑音除去処理を施した後の音声特徴パ
    ラメータを用いて、音声の学習および認識を行うことを
    特徴とする神経回路網モデルによる音声認識方法。
  2. 【請求項2】 前記雑音を含む入力音声とは、音声認識
    時に認識対象となる音声に重畳することが想定される雑
    音を複数の混合比で音声に重畳することにより雑音によ
    る種々の変形を音声に施したものであることを特徴とす
    る請求項1記載の神経回路網モデルによる音声認識方
    法。
  3. 【請求項3】 前記雑音を含む入力音声とは、音声認識
    時に認識対象となる音声に重畳することが想定される複
    数種類の雑音を用意してこれらの雑音から一つ以上を選
    んで順次音声に重畳することにより雑音による種々の変
    形を音声に施したものであることを特徴とする請求項1
    ないし2記載の神経回路網モデルによる音声認識方法。
JP03061868A 1991-03-26 1991-03-26 神経回路網モデルによる音声認識方法 Expired - Fee Related JP3091504B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP03061868A JP3091504B2 (ja) 1991-03-26 1991-03-26 神経回路網モデルによる音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP03061868A JP3091504B2 (ja) 1991-03-26 1991-03-26 神経回路網モデルによる音声認識方法

Publications (2)

Publication Number Publication Date
JPH04295897A JPH04295897A (ja) 1992-10-20
JP3091504B2 true JP3091504B2 (ja) 2000-09-25

Family

ID=13183533

Family Applications (1)

Application Number Title Priority Date Filing Date
JP03061868A Expired - Fee Related JP3091504B2 (ja) 1991-03-26 1991-03-26 神経回路網モデルによる音声認識方法

Country Status (1)

Country Link
JP (1) JP3091504B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5787393A (en) * 1992-03-30 1998-07-28 Seiko Epson Corporation Speech recognition apparatus using neural network, and learning method therefor
DE69327997T2 (de) * 1992-03-30 2000-07-27 Seiko Epson Corp Gerät zur spracherkennung mit neuronalem netzwerk und lernverfahren dafür
US6151592A (en) * 1995-06-07 2000-11-21 Seiko Epson Corporation Recognition apparatus using neural network, and learning method therefor
JP3697748B2 (ja) * 1995-08-21 2005-09-21 セイコーエプソン株式会社 端末、音声認識装置
JP5724361B2 (ja) * 2010-12-17 2015-05-27 富士通株式会社 音声認識装置、音声認識方法および音声認識プログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3002204B2 (ja) 1989-03-13 2000-01-24 株式会社東芝 時系列信号認識装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3002204B2 (ja) 1989-03-13 2000-01-24 株式会社東芝 時系列信号認識装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Proceedings of 1988 IEEE International Conference on Acoustics, Speech and Signal Processing,Vol.1,B.J.Stanton et al,"Acoustic−phonetic analysis of loud and Lombard speech in simulated cockpit conditions"p.331−334
Proceedings of 1989 IEEE International Conference on Acoustics, Speech and Signal Processing,Vol.1,B.J.Stanton et al,"Robust recognition of lous and Lombard speech in the fighter cockpit environment",p.675−678
Proceedings of 1989 IEEE International Conference on Acoustics, Speech and Signal Processing,Vol.1,J.−C.Junqua et al,"A comparative study of cepstral lifters and distance measures for all pole models of speech in noise",p.476−479
Proceedings of 1990 IEEE International Conference on Acoustics, Speech and Signal Processing,Vol.2,J.Junqua et al,"Acousitc and perceptual studies of Lombard speech:application to isolated−words automatic speech recognition",p.841−844

Also Published As

Publication number Publication date
JPH04295897A (ja) 1992-10-20

Similar Documents

Publication Publication Date Title
CN111161752B (zh) 回声消除方法和装置
US6671666B1 (en) Recognition system
US7065487B2 (en) Speech recognition method, program and apparatus using multiple acoustic models
JP3848845B2 (ja) 変換行列を用いた自動音声認識の雑音適応化方法
KR101807961B1 (ko) Lstm 및 심화신경망 기반의 음성 신호 처리 방법 및 장치
CN109979476A (zh) 一种语音去混响的方法及装置
JPH0566795A (ja) 雑音抑圧装置とその調整装置
JP2007219479A (ja) 音源分離装置、音源分離プログラム及び音源分離方法
WO2013132926A1 (ja) 雑音推定装置、雑音推定方法、雑音推定プログラム及び記録媒体
CN111883154B (zh) 回声消除方法及装置、计算机可读的存储介质、电子装置
JP2006154314A (ja) 音源分離装置,音源分離プログラム及び音源分離方法
JP3091504B2 (ja) 神経回路網モデルによる音声認識方法
Peer et al. Reverberation matching for speaker recognition
JPH10149191A (ja) モデル適応方法、装置およびその記憶媒体
JP2001520764A (ja) スピーチ分析システム
JP3510458B2 (ja) 音声認識システムおよび音声認識制御プログラムを記録した記録媒体
JP2002123286A (ja) 音声認識方法
US7225124B2 (en) Methods and apparatus for multiple source signal separation
JP4464797B2 (ja) 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体
Erten et al. Voice extraction by on-line signal separation and recovery
JPH04295894A (ja) 神経回路網モデルによる音声認識方法
JP7024691B2 (ja) 非言語発話検出装置、非言語発話検出方法、およびプログラム
Kim et al. Spectral distortion model for training phase-sensitive deep-neural networks for far-field speech recognition
JP4242320B2 (ja) 音声認識方法、その装置およびプログラム、その記録媒体
Wang et al. An ideal Wiener filter correction-based cIRM speech enhancement method using deep neural networks with skip connections

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees