JPH0782355B2 - 雑音除去と話者適応の機能を有する音声認識装置 - Google Patents

雑音除去と話者適応の機能を有する音声認識装置

Info

Publication number
JPH0782355B2
JPH0782355B2 JP3028783A JP2878391A JPH0782355B2 JP H0782355 B2 JPH0782355 B2 JP H0782355B2 JP 3028783 A JP3028783 A JP 3028783A JP 2878391 A JP2878391 A JP 2878391A JP H0782355 B2 JPH0782355 B2 JP H0782355B2
Authority
JP
Japan
Prior art keywords
speaker
voice
input
representative pattern
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP3028783A
Other languages
English (en)
Other versions
JPH04267300A (ja
Inventor
計美 大倉
雅英 杉山
Original Assignee
株式会社エイ・ティ・アール自動翻訳電話研究所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社エイ・ティ・アール自動翻訳電話研究所 filed Critical 株式会社エイ・ティ・アール自動翻訳電話研究所
Priority to JP3028783A priority Critical patent/JPH0782355B2/ja
Publication of JPH04267300A publication Critical patent/JPH04267300A/ja
Publication of JPH0782355B2 publication Critical patent/JPH0782355B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は雑音除去と話者適応の
機能を有する音声認識装置に関し、特に、認識対象とな
る音声成分以外の信号を含んだ入力信号を入力した場合
においても、高精度に音声認識を行なうことのできるよ
うな雑音除去と話者適応の機能を有する音声認識装置に
関する。
【0002】
【従来の技術】図4は従来の音声認識装置の一例を示す
概略ブロック図である。この図4に示した音声認識装置
は認識処理に音声認識の分野でよく知られているHMM
(Hidden Markov Model )を使用したものであり、以下
には標準パターンを作成する学習のステップと認識のス
テップとに分けて説明する。HMM学習時において、雑
音の重畳された音声は音声分析部41に与えられて分析
される。その分析結果は雑音学習部42と雑音除去部4
3に与えられる。
【0003】雑音学習部42は音声成分の含まれていな
い雑音のみの分析結果の平均値を求め、雑音の代表パタ
ーンを作成する。雑音除去部43は雑音を含んだ音声の
分析結果より、先に求めた雑音の代表パターンを減算
し、雑音成分を除去したパターンを作成する。作成され
たパターンはVQコードブック作成部44に与えられ
る。VQコードブック作成部44は雑音成分を除去した
パターンから標準話者ベクトル符号帳(コードブック)
を作成する。ベクトル量子化部45はVQコードブック
作成部44で作成されたコードブックを用いて、HMM
の学習用音声をベクトル量子化し、HMMのトレーニン
グを行なって、HMM記憶部46に記憶させる。
【0004】次に、認識時の動作について説明する。H
MM学習時と同様の手順により、音声分析部41で分析
された音声が雑音除去部43に与えられて雑音成分を除
去したパターンが作成される。ベクトル量子化部45は
HMMの学習時に作成したコードブックを用いて、雑音
除去部43から得られた雑音成分を除去した音声をベク
トル量子化する。HMM認識部47は雑音成分の除去さ
れたパターンとHMM標準パターンとを用いて音声認識
を行なう。
【0005】
【発明が解決しようとする課題】上述のごとく構成され
た従来の音声認識装置において、雑音除去部43の出力
を用いて認識する方法では、雑音除去の段階において音
声成分の一部が雑音成分とともに除去されていたり、除
去しきれない雑音成分が音声の中に残留することによ
り、音声の特徴が歪んでしまい高精度の音声認識ができ
ないという問題点があった。
【0006】それゆえに、この発明の主たる目的は、雑
音除去部で雑音を除去した音声の歪みをコードブックマ
ッピングを用いた環境適応方法により修正し得る雑音除
去と話者適応の機能を有する音声認識装置を提供するこ
とである。
【0007】
【課題を解決するための手段】この発明は雑音除去と話
者適応の機能を有する音声認識装置であって、入力話者
の音声を含む入力信号から認識しようとする入力話者の
音声以外の信号を取除く雑音信号除去手段と、入力信号
に含まれる音声を分析して分析パラメータを出力する音
声分析手段と、求められた雑音の重畳していない音声の
分析パラメータ間の距離を求めて所定の個数に類別し、
代表パターンを求める代表パターン作成手段と、作成さ
れた代表パターンを標準話者ベクトル符号帳として記憶
する第1の記憶手段と、作成された代表パターンと分析
された分析パラメータ間の距離を計算し、距離の近い任
意に指定された個数の代表パターンで入力音声を表現す
る入力音声表現手段と、表現された入力音声代表パター
ン列を標準話者パターンとして記憶する第2の記憶手段
と、雑音信号除去手段によって入力話者の音声以外の信
号が取除かれた音声から代表パターンとその代表パター
ンで表現された入力音声代表パターン列を求め、それぞ
れを入力話者ベクトル符号帳と入力話者パターンとして
記憶する第3の記憶手段と、標準話者パターンと入力話
者パターンとを用いて標準話者ベクトル符号帳の代表パ
ターンと入力話者ベクトル符号帳の代表パターンとの間
の対応付けを求める対応付手段と、入力話者が発声した
任意の音声を入力話者ベクトル符号帳の代表パターンを
用いて入力話者代表パターン列で表現したものを他の対
応付けを用いて標準話者代表パターンで再表現する再表
現手段と、標準話者代表パターンで再表現された入力話
者の音声を認識する認識手段とを備えて構成される。
【0008】
【作用】この発明に係る音声認識装置は、雑音信号除去
手段によりまず音声以外の雑音成分を除去する。この除
去の段階では音声信号の一部が雑音成分とともに除去さ
れていたり、除去しきれない雑音成分が音声の中に残っ
ている。このようなことが原因で起こる音声の歪みを環
境適応方法を用いて改善することにより、高精度の音声
認識が可能となるとともに、入力話者と標準話者を別の
話者にした場合は話者適応も同時に行なうことができ
る。
【0009】
【実施例】図1はこの発明の一実施例を示す概略ブロッ
ク図であり、図2は図1に示した雑音除去部の具体的な
ブロック図であり、図3は図1に示した環境適応部の具
体的なブロック図である。
【0010】図1において音声信号1は雑音除去部2に
与えられて雑音が除去され、雑音が除去された歪みを含
む音声データは環境適応部3に入力され、その歪みが修
正されるとともに認識される。
【0011】雑音除去部2は人間の神経回路網を模擬し
たニューラルネットワークが用いられる。なお、雑音除
去部2は、このようなニューラルネットワークに限定さ
れるものではなく、従来例で示した方法を用いてもよ
く、従来から研究されている他の雑音除去方法を用いて
もよい。この発明の一実施例に用いられる雑音除去部2
のニューラルネットワークは、図2に示すように4層の
構造になっている。すなわち、入力層21,隠れ層2
2,23,出力層24はそれぞれ60個のユニット25
を有している。それぞれのユニットは、その上に位置す
る層の各ユニットと結合されている。係るニューラルネ
ットワークは、各ユニット間の結合強度(W:26)を
最適に決定することにより、雑音除去を行なう機能を実
現する。結合強度の学習には、back-propagation学習ア
ルゴリズムを用いる。
【0012】以下、学習のステップと雑音除去のステッ
プに分けて説明を行なう。学習のステップ1において
は、入力層21に入力信号として雑音の重畳された音声
波形を与え、出力層24に教師信号として雑音が重畳さ
れていない入力信号に対応する音声波形をそれぞれ60
ポイントずつ与える。次のステップ2において、入力信
号と教師信号とを60ポイントずらせる。ステップ3に
おいて、任意に指定された単語数が終了するまで上述の
ステップ1〜3を繰返す。ステップ4において、back-p
ropagation学習アルゴリズムを用いて、結合強度を変更
する。ニューラルネットワークの出力と教師信号との差
がある値より大きければ、最初のステップ1に戻り、小
さければ学習を終了する。
【0013】次に、認識のステップにおいては、雑音が
重畳された音声波形を入力層21に与えると、雑音が除
去された音声波形が出力として得られる。
【0014】次に、図3に示した環境適応部について説
明する。この実施例における適応方法は、ベクトル量子
化が特徴空間の離散表現になることを利用し、雑音が重
畳した音声と、雑音の重畳していない音声間の有限個の
離散点の関係を見出だすことにより環境適応を行なうも
のである。この方法は、雑音が重畳した話者の学習音声
を用いて生成したコードブックを用い、ベクトル量子化
した雑音を重畳話者の学習音声と、標準話者のコードブ
ックを用いてベクトル量子化した標準話者の学習音声間
で非線形マッチング(DTW)を行なうことにより、両
ベクトルコード列間での最適パスを求め、コードブック
の各ベクトルの対応付けを行ない、対応付けヒストグラ
ムを求めるものである。
【0015】このように、異空間の対応付けをコードブ
ックの各ベクトルの対応付けヒストグラムで表現するた
め、標準話者のHMM(Hidden Markov Model )を用い
て雑音重畳話者の音声を認識できる。このように、ある
空間を別の空間へマッチィングするコードブックマッチ
ィングの手法を雑音環境から雑音のない環境へのマッチ
ィングに応用した。
【0016】以下に、図3を参照して、環境適応部3に
ついてより具体的に説明する。説明は対応付けを求める
ための学習のステップと認識のステップとに分けて行な
う。ただし、この実施例では、認識処理に音声認識の分
野でよく知られている、HMMを使用した場合について
説明する。また、環境適応部3への入力は、学習時は雑
音の重畳していないデータ、正確には雑音の影響が無視
できるデータを用いると言う立場で説明を行なうが、雑
音除去部2で雑音が除去されたデータを用いてもよい。
【0017】HMMの学習の最初のステップ1におい
て、音声分析部31によって音声を分析する。ステップ
2において、その分析結果をもとにVQコードブック作
成部33は雑音の重畳していない環境で発声した単語よ
り標準話者のコードブックを作成する。ベクトル量子化
部32は、ステップ3において、標準話者の学習単語を
標準話者のコードブックを用いてベクトル量子化する。
次のステップ4において、標準パターン作成部35はベ
クトル量子化した標準パターンを作成する。ステップ5
において、前述の作成したコードブックを用いて、HM
Mの学習用音声をベクトル量子化し、HMMのトレーニ
ングを行ない、HMM記憶部38に記憶する。
【0018】次に、対応付けの学習を行なう。最初のス
テップ1では、音声分析部31が音声を分析する。この
分析結果をもとにVQコードブック作成部33はステッ
プ2において、雑音重畳話者の学習単語より雑音重畳話
者のベクトル量子化コードブックを作成する。次のステ
ップ3において、ベクトル量子化部32は雑音重畳話者
の学習音声を雑音重畳話者のコードブックを用いてベク
トル量子化する。ステップ4において、DTW計算部3
4によって標準話者のコードブックでベクトル量子化し
た標準話者の学習単語とステップ3で作成した雑音重畳
話者の学習単語間でDTWを行ない、最適パスを求め
る。ステップ5において、対応付けヒストグラム作成部
40はDTWの最適パスに従い、コードブック間のベク
トルの対応回数を求め、対応付けヒストグラムを求め
る。ステップ6において、変換コードブック作成部39
で対応付けヒストグラムの値を重みとし、雑音重畳話者
の空間を標準話者の空間に写像するための変換コードブ
ックを求める。ステップ7において、雑音重畳話者のコ
ードブックを変換コードブックに入換える。ステップ8
において、ステップ2からステップ6を所定の回数繰返
す。ステップ10において、対応付けヒストグラム記憶
部36に上述のステップで求めた対応付けヒストグラム
を記憶する。
【0019】認識時は、HMM環境適応部37で学習時
に求めたヒストグラムを両コードベクトルにおける対応
付けの確からしさと見なし、標準話者のHMMの出力確
率とヒストグラムの積を取ることにより標準話者のコー
ドベクトルの出力確率を変換し、HMMを用いた認識を
行なう。
【0020】
【発明の効果】以上のように、この発明によれば、雑音
信号除去手段により入力信号から雑音成分を除去し、こ
の除去の段階では音声成分の一部が雑音成分とともに除
去されていたり、除去しきれない雑音成分が音声の中に
残っている。このようなことが原因で起こる音声の歪み
を従来のコードブックマッチィング手法により改善する
ようにしたので、それぞれの長所を生かした高精度の音
声認識を行なうことができる。また、実施例における環
境適応部は、話者適応にも用いることができるので、こ
の発明を用いることによって雑音除去と話者適応を同時
に行なえる。さらに、この発明による認識実験結果を述
べると、雑音環境がS/N比で5dBの場合、雑音に対
する処理を行なわない場合の認識率が43.8%であっ
たのに対して、雑音除去部のみを用いた場合の認識率は
59.9%となり、環境適応部のみを用いた場合の認識
率は58.3%になった。さらに雑音除去と環境適応部
を組合わせた場合62.3%の認識率を得ることができ
た。
【図面の簡単な説明】
【図1】この発明の一実施例の全体の構成を示す概略ブ
ロック図である。
【図2】図1に示した雑音除去部の具体的なブロック図
である。
【図3】図1に示した環境適応部の具体的なブロック図
である。
【図4】従来の音声認識装置の概略ブロック図である。
【符号の説明】
2 雑音除去部 3 環境適応部 21 入力層 22,23 隠れ層 24 出力層 31 音声分析部 32 ベクトル量子化部 33 VQコードブック作成部 34 DTW計算部 35 標準パターン作成部 36 対応付けヒストグラム記憶部 37 HMM環境適応部 38 HMM記憶部 39 変換コードブック作成部 40 対応付けヒストグラム作成部
フロントページの続き (56)参考文献 特開 昭63−5396(JP,A) 特開 平2−72397(JP,A) 特開 昭64−102599(JP,A)

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 入力話者の音声を含む入力信号から認識
    しようとする入力話者の音声以外の信号を取除く雑音信
    号除去手段、 前記入力信号に含まれる音声を分析して分析パラメータ
    を出力する音声分析手段、 前記音声分析手段によって求められた雑音の重畳してい
    ない音声の分析パラメータ間の距離を求めて所定の個数
    に類別し、代表パターンを求める代表パターン作成手
    段、 前記代表パターン作成手段によって作成された代表パタ
    ーンを標準話者ベクトル符号帳として記憶する第1の記
    憶手段、 前記代表パターン作成手段によって作成された代表パタ
    ーンと前記音声分析手段によって分析された分析パラメ
    ータ間の距離を計算し、距離の近い任意に指定された個
    数の代表パターンで入力音声を表現する入力音声表現手
    段、 前記入力音声表現手段によって代表パターンで表現され
    た入力音声代表パターン列を標準話者パターンとして記
    憶する第2の記憶手段、 前記雑音信号除去手段によって入力話者の音声以外の信
    号が取り除かれた音声から代表パターンと該代表パター
    ンで表現された入力音声代表パターン列を求め、それぞ
    れを入力話者ベクトル符号帳と入力話者パターンとして
    記憶する第3の記憶手段、 前記標準話者パターンと前記入力話者パターンとを用い
    て標準話者ベクトル符号帳の代表パターンと入力話者ベ
    クトル符号帳の代表パターン間の対応付けを求める対応
    付手段、 前記入力話者が発声した任意の音声を前記入力話者ベク
    トル符号帳の代表パターンを用いて入力話者代表パター
    ン列で表現したものを係る対応付けを用いて標準話者代
    表パターンで再表現する再表現手段、および 前記再表現手段によって前記標準話者代表パターンで再
    表現された入力話者の音声を認識する認識手段を備え
    た、雑音除去と話者適応の機能を有する音声認識装置。
  2. 【請求項2】 前記入力話者と標準話者を同一の話者と
    したことを特徴とする、請求項1の雑音除去と話者適応
    の機能を有する音声認識装置。
  3. 【請求項3】 前記雑音除去手段は、波形を入出力とす
    るニューラルネットワークを含む、請求項1の雑音除去
    と話者適応の機能を有する音声認識装置。
JP3028783A 1991-02-22 1991-02-22 雑音除去と話者適応の機能を有する音声認識装置 Expired - Fee Related JPH0782355B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3028783A JPH0782355B2 (ja) 1991-02-22 1991-02-22 雑音除去と話者適応の機能を有する音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3028783A JPH0782355B2 (ja) 1991-02-22 1991-02-22 雑音除去と話者適応の機能を有する音声認識装置

Publications (2)

Publication Number Publication Date
JPH04267300A JPH04267300A (ja) 1992-09-22
JPH0782355B2 true JPH0782355B2 (ja) 1995-09-06

Family

ID=12258018

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3028783A Expired - Fee Related JPH0782355B2 (ja) 1991-02-22 1991-02-22 雑音除去と話者適応の機能を有する音声認識装置

Country Status (1)

Country Link
JP (1) JPH0782355B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3680380B2 (ja) * 1995-10-26 2005-08-10 ソニー株式会社 音声符号化方法及び装置
JP2002123285A (ja) * 2000-10-13 2002-04-26 Sony Corp 話者適応装置および話者適応方法、記録媒体、並びに音声認識装置
JP6506074B2 (ja) * 2015-03-30 2019-04-24 日本電信電話株式会社 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法及びプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS635396A (ja) * 1986-06-25 1988-01-11 日本電気株式会社 時系列パタ−ン認識装置
JP2764277B2 (ja) * 1988-09-07 1998-06-11 株式会社日立製作所 音声認識装置

Also Published As

Publication number Publication date
JPH04267300A (ja) 1992-09-22

Similar Documents

Publication Publication Date Title
US7266494B2 (en) Method and apparatus for identifying noise environments from noisy signals
JP3037864B2 (ja) 音声コード化装置及び方法
US5596679A (en) Method and system for identifying spoken sounds in continuous speech by comparing classifier outputs
JPH07271394A (ja) 確実な電話音声認識のための信号バイアスの除去
JP4202124B2 (ja) 話者独立音声認識システムのための音声テンプレートを構成するための方法及び装置
US5812973A (en) Method and system for recognizing a boundary between contiguous sounds for use with a speech recognition system
JP2768274B2 (ja) 音声認識装置
US5734793A (en) System for recognizing spoken sounds from continuous speech and method of using same
JPH05216490A (ja) 音声コード化装置及び方法並びに音声認識装置及び方法
JPH07146699A (ja) 音声認識方法
JPH0743598B2 (ja) 音声認識方法
CN109979436B (zh) 一种基于频谱自适应法的bp神经网络语音识别系统及方法
JP2004523788A (ja) 音声認識モデルの効率的な記憶のためのシステムおよび方法
US5943647A (en) Speech recognition based on HMMs
US8990092B2 (en) Voice recognition device
JPH0782355B2 (ja) 雑音除去と話者適応の機能を有する音声認識装置
JP3354252B2 (ja) 音声認識装置
JP2000194392A (ja) 騒音適応型音声認識装置及び騒音適応型音声認識プログラムを記録した記録媒体
JP2003005785A (ja) 音源の分離方法および分離装置
JP2700143B2 (ja) 音声コーディング装置および方法
JP2545914B2 (ja) 音声認識方法
JP3098593B2 (ja) 音声認識装置
JPH01204099A (ja) 音声認識装置
JPH07121197A (ja) 学習式音声認識方法
JP3091504B2 (ja) 神経回路網モデルによる音声認識方法

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19960227

LAPS Cancellation because of no payment of annual fees