JP5339426B2 - ケプストラムノイズ減算を用いた音声認識システム及び方法 - Google Patents

ケプストラムノイズ減算を用いた音声認識システム及び方法 Download PDF

Info

Publication number
JP5339426B2
JP5339426B2 JP2008317530A JP2008317530A JP5339426B2 JP 5339426 B2 JP5339426 B2 JP 5339426B2 JP 2008317530 A JP2008317530 A JP 2008317530A JP 2008317530 A JP2008317530 A JP 2008317530A JP 5339426 B2 JP5339426 B2 JP 5339426B2
Authority
JP
Japan
Prior art keywords
feature
vector
feature vector
speech
cepstrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008317530A
Other languages
English (en)
Other versions
JP2009145895A (ja
Inventor
世明 黄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial Technology Research Institute ITRI
Original Assignee
Industrial Technology Research Institute ITRI
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial Technology Research Institute ITRI filed Critical Industrial Technology Research Institute ITRI
Publication of JP2009145895A publication Critical patent/JP2009145895A/ja
Application granted granted Critical
Publication of JP5339426B2 publication Critical patent/JP5339426B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Machine Translation (AREA)

Description

本発明は、音声認識システム及び方法に関し、特に、ケプストラムノイズ減算を用いたシステム及び方法に関する。
音声は、人間にとって最も直接的なコミュニケーション手段であり、かつ、日常生活に使用されるコンピュータも、音声認識機能を有している。例えば、Microsoft(登録商標)社のWindows(登録商標)XPオペレーティングシステム、及び、最新のWindows(登録商標)VISTAオペレーティングシステムは、この機能を提供している。他の企業(Apple(登録商標)社)の最新のオペレーティングシステムのMac OS X(登録商標)もまた、音声認識機能を提供している。
マイクが使用されて、Microsoft(登録商標)社のWindows(登録商標)XP/VISTAないしはApple(登録商標)社Mac OS X(登録商標)を用いたコンピュータ上で音声認識機能を実行するか、又は、Google(登録商標)社及びMicrosoft(登録商標)社によって提供されるサービスを介して電話を掛けても、音声は、音声信号とインターフェイスを行うマイク又は電話などの電子デバイスによって処理されている。また、他のバックグラウンドノイズ(例えば、空調機又は歩行者によって生じる音)も、音声認識率は大きく低下している。したがって、良好な耐ノイズ音声認識技術には大きな需要がある。
音声認識に使用される従来のケプストラム平均減算(CMS)(Furui, Cepstral analysis technique for automatic speaker verification, IEEE Transaction on Acoustics, Speech and Signal Processing, 29, pp.254-272, 1981を参照)は、音声認識における耐ノイズ能力を強化するための特徴処理方法として、幅広く使用されている。
特許文献1もまた、図1に示すケプストラム特徴処理方法を開示している。ステップS11では、現在音声フレーム以前の全ての音声フレームの第1ケプストラム平均ベクトルが、はじめに計算される。次いで、ステップS12では、サンプリング値が受信される(即ち、現在音声フレームのケプストラム特徴ベクトルが使用される)。ステップS13では、現在音声フレームのケプストラム特徴ベクトルは、推定された平均ベクトルが加算される。推定された平均ベクトルは、以前の音声フレームのケプストラム平均ベクトルによって乗算された調整係数である。ステップS14では、新規の推定されたケプストラム特徴ベクトルが計算される。
米国特許第6804643号明細書
したがって、耐ノイズ音声認識の機能を改善するケプストラムノイズ減算を用いた音声認識システムを提供する必要がある。
本発明は、フィルタバンクエネルギ抽出器と、ケプストラムノイズ減算デバイスと、ケプストラム変換器と、モデルトレーナと、音声認識装置とを具備しているケプストラムノイズ減算を用いた音声認識システムを提供する。前記フィルタバンクエネルギ抽出器は、音声信号に基づき複数の第1特徴ベクトルを取得する。前記ケプストラムノイズ減算デバイスは、プリセット音声フレームの第1特徴ベクトル、特徴平均ベクトル、第1スカラ係数、及び、第2スカラ係数に基づき、特徴平均ベクトルを計算し、かつ、プリセット音声フレームの第2特徴ベクトルを計算するために、プリセット音声フレームの第1特徴ベクトル、及び、プリセットの音声フレーム以前の複数の音声フレームの第1特徴ベクトルを取得する。前記ケプストラム変換器は、プリセット音声フレームの第2特徴ベクトルを、ケプストラム特徴ベクトルに変換する。前記モデルトレーナは、ケプストラム特徴ベクトルに基づきモデルパラメータを計算する。前記音声認識装置は、ケプストラム特徴ベクトル及びモデルパラメータに基づき、認識された音声信号を計算する。
本発明は、次のステップを含むケプストラムノイズ減算を用いた音声認識方法を提供する。
1)複数の第1特徴ベクトルが、音声信号に基づき取得されるステップ
2)プリセット音声フレームの第1特徴ベクトル、及び、プリセット音声フレーム以前の複数の音声フレームの第1特徴ベクトルが、取得されて、特徴平均ベクトルを計算するステップ
3)プリセット音声フレームの第2特徴ベクトルが、プリセット音声フレームの第1特徴ベクトル、特徴平均ベクトル、第1スカラ係数、及び、第2スカラ係数に基づき、計算されるステップ
4)プリセット音声フレームの第2特徴ベクトルが、ケプストラム特徴ベクトルに変換されるステップ
5)モデルパラメータが、ケプストラム特徴ベクトルに基づき計算されるステップ
6)認識された音声信号が、ケプストラム特徴ベクトル及びモデルパラメータに基づき計算されるステップ
本発明の音声認識システム及び方法によれば、その処理を適切に完了し、かつ、音声認識のための耐ノイズ能力を改善することができるように、ケプストラム特徴ベクトルにおける過度の強調及び減算を回避するため、ケプストラム特徴ベクトルのための処理は限定されている。さらに、音声認識システム及び方法は、より信頼性が高く、かつ、安定した音声認識結果をユーザに提供するために、任意の環境に適用することができ、かつ、複雑ではなく、かつ、他のシステム内に容易に組み込むことができる。
従来のケプストラム特徴処理方法の概略フローチャートである。 本発明によるケプストラムノイズ減算を用いた音声認識システムの概略ブロック図である。 本発明によるケプストラムノイズ減算方法の概略フローチャートである。 本発明によるケプストラムノイズ減算デバイスの概略ブロック図である。 本発明による特徴平均ベクトルの計算の概略フローチャートである。 本発明による特徴平均ベクトル計算デバイスの概略ブロック図である。
図2は、本発明によるケプストラムノイズ減算を用いた音声認識システムの概略ブロック図である。本発明によれば、ケプストラムノイズ減算を用いた音声認識システム20は、フィルタバンクエネルギ抽出器21と、ケプストラムノイズ減算デバイス22と、ケプストラム変換器23と、モデルトレーナ25と、音声認識装置27とを具備している。フィルタバンクエネルギ抽出器21は、音声信号に基づき複数の第1特徴ベクトルを取得する。本実施例では、フィルタバンクエネルギ抽出器21は、対数メル(log Mel)フィルタバンクエネルギ抽出器である。対数メルフィルタバンクエネルギ抽出器を使用するので、第1特徴ベクトルは、対数メルフィルタバンクエネルギ特徴ベクトルである。
前記ケプストラムノイズ減算デバイス22は、第1特徴ベクトル、特徴平均ベクトル、第1スカラ係数、及び、プリセット音声フレームの第2スカラ係数に基づき、特徴平均ベクトルを計算し、かつ、プリセット音声フレームの第2特徴ベクトルを計算するために、プリセット音声フレームの第1特徴ベクトル、及び、プリセット音声フレーム以前の複数の音声フレームの第1特徴ベクトルを取得する。
図4は、本発明によるケプストラムノイズ減算デバイスの概略ブロック図である。本発明の前記ケプストラムノイズ減算デバイス22は、特徴平均ベクトル計算デバイス41と、第1乗算器42と、第1加算器43と、第2乗算器44と、比較器45と、マルチプレクサ46とを具備している。特徴平均ベクトル計算デバイス41は、特徴平均ベクトルを計算するために、プリセット音声フレームの第1特徴ベクトル、及び、プリセット音声フレーム以前の複数の音声フレームの第1特徴ベクトルを取得する。
本実施例では、プリセット音声フレーム以前の複数の音声フレーム数は、2からセンテンスの音声フレームの合計数である。センテンスの音声フレームの合計数がNである場合、特徴平均ベクトル計算デバイス41は、プリセット音声フレーム以前のN個の音声フレームの第1特徴ベクトルを取得し、かつ、以下の式(1)によって表される特徴平均ベクトルを計算する。
Figure 0005339426
ここで、Xtは、プリセット音声フレームの第1特徴ベクトルであり、Xt-1からXt-(N-1)は、プリセット音声フレーム以前の複数の音声フレームの第1特徴ベクトルであり、Nは、音声フレーム数であり、
Figure 0005339426
は、特徴平均ベクトルである。
図6は、本発明による特徴平均ベクトル計算デバイスの概略ブロック図である。本発明の特徴平均ベクトル計算デバイス41は、複数の遅延装置411,412,415と、第2加算器416と、第3乗算器417とを具備している。各遅延装置は、プリセット音声フレーム以前の複数の音声フレームの第1特徴ベクトルを取得するために、時間単位を遅延する。第2加算器416は、第1特徴ベクトル(Xt-(N-1)+...+Xt-2+Xt-1+Xt)の合計を計算するために、第1特徴ベクトルを合計する。第3乗算器417は、特徴平均ベクトル
Figure 0005339426
を計算するために、第1特徴ベクトル(Xt-(N-1)+...+Xt-2+Xt-1+Xt)の合計と、音声フレーム数の逆数(1/N)とを乗算する。
図5は、本発明による特徴平均ベクトルの計算の概略フローチャートである。はじめに、ステップS52では、パラメータTempが、ゼロベクトルに設定される。ステップS53では、パラメータp(ここで、pはp個目の音声フレームを表す)が、ゼロに設定される。ステップS54では、プリセット音声フレームの第1特徴ベクトルが合計されて、第1特徴ベクトルの合計値を計算する。ステップS55及びS56では、p個目の音声フレームがN-1に到達しているか否かが判断される。否定の場合、pは増加される。pを加算するステップは、プリセット音声フレーム以前の複数の音声フレームの第1特徴ベクトルを取得するために、時間単位を遅延する遅延装置を使用する上記のステップである。ステップS57では、pがN-1番目に到達している場合、第1特徴ベクトル(Temp)の合計が、音声フレーム数の逆数(1/N)によって乗算される。ステップS58では、特徴平均ベクトル
Figure 0005339426
が計算される。
上記の実施例では、特徴平均ベクトルは、算術的な手段によって計算される。しかし、本発明の特徴平均ベクトル計算デバイス及び方法では、幾何学的な平均値、中央値、最頻値又はノルムを含む平均値計算方法も、特徴平均ベクトルを計算するために使用してもよい。
図4では、前記特徴平均ベクトル計算デバイス41が特徴平均ベクトルを計算した以降に、第1乗算器42は、特徴平均ベクトル
Figure 0005339426
を、第1スカラ係数の負値(-α)によって乗算して、第1乗算結果
Figure 0005339426
を計算する。第1加算器43は、プリセット音声フレームの第1特徴ベクトル(Xt)に、第1乗算結果
Figure 0005339426
を加算して、加算結果
Figure 0005339426
を計算する。第2乗算器44は、プリセット音声フレームの第1特徴ベクトル(Xt)を、第2スカラ係数(β)によって乗算して、第2乗算結果(β・Xt)を計算する。比較器45は、加算結果
Figure 0005339426
が第2乗算結果(β・Xt)以上であるか否かを比較し、かつ、マルチプレクサ46に制御信号を出力する。マルチプレクサ46は、プリセット音声フレームの第2特徴ベクトル
Figure 0005339426
を、制御信号に基づき、加算結果
Figure 0005339426
又は第2乗算結果(β・Xt)にスイッチする。
したがって、本発明のシステム及び方法では、前記ケプストラムノイズ減算デバイス22が特徴平均ベクトルを計算する以降に、特徴ベクトル及びプリセット音声フレームの特徴平均ベクトルは、式(2)によって表されるある条件の下で処理される。
Figure 0005339426
ここで、加算結果
Figure 0005339426
が第2乗算結果(β・Xt)以上であるとき、プリセット音声フレームの第2特徴ベクトル
Figure 0005339426
は、加算結果
Figure 0005339426
であり、かつ、加算結果
Figure 0005339426
が第2乗算結果(β・Xt)以下であるとき、プリセット音声フレームの第2特徴ベクトル
Figure 0005339426
は、第2加算結果(β・Xt)である。さらに、第1スカラ係数(α)は0.01〜0.99であり、かつ、第2スカラ係数(β)は0.01〜0.99である。
図3は、本発明によるケプストラムノイズ減算方法の概略フローチャートである。はじめに、ステップS31では、パラメータn(ここで、nはn個目の音声フレームを表す)は1に設定され、かつ、入力音声は、本実施例では、L個の音声フレームを有すると仮定される。ステップS32では、特徴平均ベクトルが計算される(図5及び図6の説明を参照、ここでは繰り返されない)。したがって、プリセット音声フレーム(n)の第1特徴ベクトル、及び、プリセット音声フレーム以前の複数の音声フレームの第1特徴ベクトルが、取得されて、特徴平均ベクトルを計算する。次いで、特徴平均ベクトル
Figure 0005339426
は、第1スカラ係数の負値(-α)によって乗算されて、第1乗算結果
Figure 0005339426
を計算する。次いで、プリセット音声フレームの第1特徴ベクトル(Xt)が、第1乗算結果
Figure 0005339426
に加算されて、加算結果
Figure 0005339426
を計算する。次いで、プリセット音声フレームの第1特徴ベクトル(Xt)が、第2スカラ係数(β)によって乗算されて、第2乗算結果(β・Xt)を計算する。
ステップS33では、条件Aが真であるか否かが判断される。条件Aは、上記の式(2)における条件(即ち、加算結果
Figure 0005339426
が第2乗算結果(β・Xt)以上であるか否か)である。ステップS34では、加算結果
Figure 0005339426
が第2乗算結果(β・Xt)以上であるとき、第1処理が実行されて、プリセット音声フレームの第2特徴ベクトル
Figure 0005339426
を加算結果
Figure 0005339426
にする。ステップS35では、加算結果
Figure 0005339426
が第2乗算結果(β・Xt)以下であるとき、第2処理が実行されて、プリセット音声フレームの第2特徴ベクトル
Figure 0005339426
を第2乗算結果(β・Xt)にする。ステップS36では、プリセット音声フレームの第2特徴ベクトル
Figure 0005339426
が、上記の処理によって計算される。
ステップS37及びS38では、本実施例における入力音声が、L個の音声フレームを有すると仮定される場合、計算は、L回実行されて、プリセット音声フレーム(n)がLに到達しているか否かを判断しなければならない。否定的である場合、nは増加される。ステップS39では、全ての音声フレームの第2特徴ベクトル
Figure 0005339426
が、計算される。
図2では、前記ケプストラム変換器23は、プリセット音声フレームの第2特徴ベクトルを、ケプストラム特徴ベクトルに変換する。本実施例では、ケプストラム変換器23は、離散的なコサイン変圧器であり、かつ、ケプストラム特徴ベクトルは、メルケプストラム特徴ベクトルである。前記モデルトレーナ25は、ケプストラム特徴ベクトルに基づきモデルパラメータを計算する。前記音声認識装置27は、ケプストラム特徴ベクトル及びモデルパラメータに基づき、認識された音声信号を計算する。
本発明のケプストラムノイズ減算を用いた音声認識システム20は、ケプストラム特徴ベクトルの1次微分、又は、1次微分及び2次微分、又は、1次微分から高次微分を計算するための微分演算子24をさらに具備している。図2では、音声は、フィルタバンクエネルギ抽出器21と、ケプストラムノイズ減算デバイス22と、ケプストラム変換器23と、微分演算子24と、音声認識装置27とを通過し、その結果、認識された音声信号が計算される。点線の右側は、認識フェーズと呼ばれている。点線の左側では、モデルトレーナ25から音声モデルパラメータデータベース26のプロセスは、トレーニングフェーズと呼ばれている。微分演算子24は、認識フェーズ又はトレーニングフェーズにおいて処理されて、微分処理を実行してもよい。
本発明のシステム及び方法は、国際標準Aurora-2音声データベース環境下で、実験を実行して、耐ノイズ能力を評価している。本実験に使用された音声データAurora-2は、欧州電気通信標準化機構(ESTI)によって発行されたノイズを含む連続英単語数音声である。ノイズは、8つの異なる種類の加算的なノイズと、異なる特徴を有する2つのチャネル効果とを含んでいる。音声データベース内の加算的なノイズは、空港、バブル、自動車、展示会、レストラン、地下鉄、道路及び鉄道駅を含み、異なる信号対ノイズ比(SNR)に基づき、クリーンな音声に加算されている。SNRは、20dB,15dB,10dB,5dB,0dB及び−5dBを含んでいる。チャネル効果は、2つの標準(国際電気通信連合(ITU)によって設定されたG.712及びMIRS)を含んでいる。異なるタイプのチャネルノイズ、及び、テスト音声に加算された加算的なノイズによれば、Aurora-2は、3つのテストグループ(Aセット、Bセット及びCセット)に分割されている。Aセットは定常ノイズを表し、かつ、Bセットは非定常ノイズを表している。定常及び非定常ノイズの他に、Cセットは、トレーニング音声とは異なるチャネル効果G.712及びMIRSをさらに使用している。全てのノイズの種類の平均的な認識率は、20dBから0dBの平均値を計算することによって取得されている。
音声認識実験は、HTK(隠れマルコフモデルツールキット)開発ツールと共に使用されている。HTKは、ケンブリッジ大学の電気メカニズム部門によって開発された隠れマルコフモデル(HMM)である。したがって、HMMアーキテクチャを用いた音声認識システムを、便利かつ迅速に開発してもよい。
音響モデルの設定は、以下に説明するとおりである。各数(each number)モデル(1〜9、ゼロ及びoh)が、連続密度隠れマルコフモデル(CDHMM)によって、左から右の形態で、モデル化され、かつ、16個の状態を具備している。各状態は、3つのガウス混合分布によってモデル化されている。さらに、沈黙モデルは2つのモデルを具備している。主に、センテンスの開始及び終了に沈黙を示す3つの状態を含む沈黙モデルと、センテンス内の単語間に短い間欠性を示す6つの状態を含む休止モデルとである。全ての上記の音響モデルのトレーニング及び全ての実験は、HTKツール一式と共に動作するAurora-2音声データベース環境において、実行されている。
特徴抽出器に関しては、本発明のシステム及び方法上の評価実験は、音声特徴ベクトルとして、メル周波数ケプストラム係数(MFCC)を用いている。本発明のシステム及び方法は、対数エネルギを除く、対数メルフィルタバンクエネルギ上の処理を実行している。対数メルフィルタバンクエネルギと、メル周波数ケプストラム係数とは、線形変換関係にあり、故に、この2つは相互に等価である。音声フレーム長は、25ミリ秒でサンプリングされ、かつ、音声フレームシフトは10ミリ秒である。各音声フレームの情報は、12次元のメル周波数ケプストラム係数、及び、1次元の対数エネルギを含む39次元によって示されている。他方、13次元特徴に対応する1次微分係数(Δ係数)、及び、2次微分係数(加速度係数)が選択されている。
認識結果は、表1に示されている。ケプストラム平均減算(CMS)と、特許文献1の従来技術とを比較すれば、本発明のシステム及び方法は、単語精度を明らかに改善している(最大単語精度は太字で表示されている)。Aセット、Bセット及びCセットの全成績に関しては、本発明のシステム及び方法は、耐ノイズ音声認識率を効果的に改善する可能性があり、かつ、安定して効果的であることも証明されている。
音声認識システム及び方法は、その処理を適切に実行して、音声認識における耐ノイズ能力を改善することができるように、ケプストラム特徴ベクトルにおける過度の強調及び減算を回避するため、ケプストラム特徴ベクトルのための処理を限定している。さらに、音声認識システム及び方法は、より信頼性が高く、かつ、安定した音声認識結果をユーザに提供するために、任意の環境に適用することができ、かつ、複雑ではなく、かつ、他のシステム内に容易に組み込むことができる。
本発明の実施例が図示及び説明される一方で、多様な変形例及び改善例が当業者によって成されうる。したがって、本発明の実施例は、限定する意味ではなく、説明のために記載されている。本発明は、説明された特定の形態に限定されず、かつ、本発明の真の趣旨及び範囲を維持する全ての変形例は、添付の特許請求の範囲に定義された範囲に含まれることを意図している。
表1は、MFCCとAurora-2における3つの比較方法との単語認識率の比較である。
Figure 0005339426
20 音声認識システム
21 フィルタバンクエネルギ抽出器
22 ケプストラムノイズ減算デバイス
23 ケプストラム変換器
24 微分演算子
25 モデルトレーナ
26 音声モデルパラメータデータベース
27 音声認識装置
41 特徴平均ベクトル計算デバイス
42 第1乗算器
43 第1加算器
44 第2乗算器
45 比較器
46 マルチプレクサ
411 第1遅延装置
412 第2遅延装置
415 N個目の遅延装置
416 第2加算器
417 第3乗算器

Claims (12)

  1. ケプストラムノイズ減算を用いた音声認識システムであって、
    音声信号に基づき、複数の第1特徴ベクトルを取得するためのフィルタバンクエネルギ抽出器と、
    特徴平均ベクトルを計算し、かつ、所定の音声フレームの第1特徴ベクトル、特徴平均ベクトル、第1スカラ係数、及び、第2スカラ係数に基づき、前記所定の音声フレームの第2特徴ベクトルを計算するために、
    前記所定の音声フレームの前記第1特徴ベクトルと、前記所定の音声フレーム以前の複数の音声フレームの前記第1特徴ベクトルとを取得するためのケプストラムノイズ減算デバイスと、
    前記所定の音声フレームの前記第2特徴ベクトルを、ケプストラム特徴ベクトルに変換するためのケプストラム変換器と、
    前記ケプストラム特徴ベクトルに基づき、モデルパラメータを計算するためのモデルトレーナと、
    前記ケプストラム特徴ベクトル、及び、前記モデルパラメータに基づき、認識された音声信号を計算するための音声認識装置と
    を具備し、
    前記ケプストラムノイズ減算デバイスは、
    前記特徴平均ベクトルを計算するために、前記所定の音声フレームの前記第1特徴ベクトルと、前記所定の音声フレーム以前の前記複数の音声フレームの前記第1特徴ベクトルとを取得するための特徴平均ベクトル計算デバイスと、
    第1乗算結果を計算するために、前記特徴平均ベクトルを、前記第1スカラ係数の負値によって乗算するための第1乗算器と、
    加算結果を計算するために、前記所定の音声フレームの前記第1特徴ベクトルと、前記第1乗算結果とを加算するための第1加算器と、
    第2乗算結果を計算するために、前記所定の音声フレームの前記第1特徴ベクトルを、前記第2スカラ係数によって乗算するための第2乗算器と、
    前記加算結果が前記第2乗算結果以上であるか否かを比較し、かつ、制御信号を出力するための比較器と、
    前記制御信号に基づき、前記所定の音声フレームの前記第2特徴ベクトルを、前記加算結果又は前記第2乗算結果にスイッチするためのマルチプレクサと
    を具備し、
    前記制御信号は、前記加算結果が前記第2乗算結果以上であるとき、前記所定の音声フレームの前記特徴ベクトルが加算結果であることを示し、かつ、
    前記制御信号は、前記加算結果が前記第2乗算結果以下であるとき、前記所定の音声フレームの前記第2特徴ベクトルが前記第2乗算結果であることを示し、
    前記第1スカラ係数は、0.01〜0.99であり、かつ、
    前記第2スカラ係数は、0.01〜0.99であり、
    前記第1特徴ベクトルは、対数メルフィルタバンクエネルギ特徴ベクトルであることを特徴とするシステム。
  2. 前記特徴平均ベクトル計算デバイスは、
    各時間単位を遅延して、前記所定の音声フレーム以前の前記複数の音声フレームの前記第1特徴ベクトルを取得する複数の遅延器と、
    前記第1特徴ベクトルの合計を計算するように、前記第1特徴ベクトルを合計するための第2加算器と、
    前記特徴平均ベクトルを計算するように、前記音声フレーム数の逆数によって、前記第1特徴ベクトルの前記合計を乗算するための第3乗算器と
    を具備することを特徴とする請求項に記載の音声認識システム。
  3. 前記特徴平均ベクトル計算デバイスは、幾何学的な平均値、中央値、最頻値、又は、ノルムを含む平均値計算方法を介して、前記特徴平均ベクトルを計算することを特徴とする請求項に記載の音声認識システム。
  4. 前記所定の音声フレーム以前の前記複数の音声フレーム数は、2からセンテンスの音声フレームの合計数であることを特徴とする請求項1に記載の音声認識システム。
  5. 前記ケプストラム特徴ベクトルの1次微分、又は、1次微分及び2次微分、又は、1次微分から高次微分を計算するための微分演算子をさらに具備することを特徴とする請求項1に記載の音声認識システム。
  6. 前記フィルタバンクエネルギ抽出器は、対数メルフィルタバンクエネルギ抽出器であることを特徴とする請求項1に記載の音声認識システム。
  7. 前記ケプストラム変換器は、離散的なコサイン変圧器であることを特徴とする請求項に記載の音声認識システム。
  8. ケプストラムノイズ減算を用いた音声認識方法であって、
    音声信号に基づき、複数の第1特徴ベクトルを取得するステップと、
    特徴平均ベクトルを計算するために、所定の音声フレームの第1特徴ベクトルと、前記所定の音声フレーム以前の複数の音声フレームの第1特徴ベクトルとを取得するステップと、
    前記所定の音声フレームの前記第1特徴ベクトル、前記特徴平均ベクトル、第1スカラ係数、及び、第2スカラ係数に基づき、前記所定の音声フレームの第2特徴ベクトルを計算するステップと、
    前記所定の音声フレームの前記第2特徴ベクトルを、ケプストラム特徴ベクトルに変換するステップと、
    前記ケプストラム特徴ベクトルに基づき、モデルパラメータを計算するステップと、
    前記ケプストラム特徴ベクトル、及び、前記モデルパラメータに基づき、認識された音声信号を計算するステップと
    を具備し、
    前記所定の音声フレームの第2特徴ベクトルを計算する前記ステップは、
    前記特徴平均ベクトルを計算するために、前記所定の音声フレームの前記第1特徴ベクトルと、前記所定の音声フレーム以前の前記複数の音声フレームの第1特徴ベクトルとを取得するステップと、
    第1乗算結果を計算するために、前記特徴平均ベクトルを、前記第1スカラ係数の負値によって乗算するステップと、
    加算結果を計算するために、前記所定の音声フレームの前記第1特徴ベクトルと、前記第1乗算結果とを加算するステップと、
    第2乗算結果を計算するために、前記所定の音声フレームの前記第1特徴ベクトルと、前記第2スカラ係数とを乗算するステップと、
    前記加算結果が前記第2乗算結果以上であるか否かを比較し、かつ、制御信号を出力するステップと、
    前記制御信号に基づき、前記音声フレームの前記第2特徴ベクトルを、前記加算結果、又は、前記第2乗算結果にスイッチするステップと
    をさらに具備し、
    前記制御信号は、前記加算結果が前記第2乗算結果以上であるとき、前記所定の音声フレームの前記特徴ベクトルが加算結果であることを示し、かつ、
    前記制御信号は、前記加算結果が前記第2乗算結果以下であるとき、前記所定の音声フレームの前記第2特徴ベクトルが前記第2乗算結果であることを示し、
    前記第1スカラ係数は、0.01〜0.99であり、かつ、
    前記第2スカラ係数は、0.01〜0.99であり、
    前記第1特徴ベクトルは、対数メルフィルタバンクエネルギ特徴ベクトルであることを特徴とする方法。
  9. 特徴平均ベクトルを計算する前記ステップは、
    各時間単位を遅延して、前記所定の音声フレーム以前の前記複数の音声フレームの前記第1特徴ベクトルを取得する複数の遅延器を使用するステップと、
    前記第1特徴ベクトルの合計を計算するために、前記第1特徴ベクトルを合計するステップと、
    前記特徴平均ベクトルを計算するために、前記音声フレーム数の逆数によって、前記第1特徴ベクトルの前記合計を乗算するステップと
    をさらに具備することを特徴とする請求項に記載の音声認識方法。
  10. 前記特徴平均ベクトルは、幾何学的な平均値、中央値、最頻値、又は、ノルムを含む平均値計算方法を介して計算されることを特徴とする請求項に記載の音声認識方法。
  11. 前記ケプストラム特徴ベクトルの1次微分、又は、1次微分及び2次微分、又は、1次微分から高次微分を計算するための微分演算ステップをさらに具備することを特徴とする請求項に記載の音声認識方法。
  12. 前記ケプストラム特徴ベクトルは、メルケプストラム特徴ベクトルであることを特徴とする請求項に記載の音声認識方法。
JP2008317530A 2007-12-14 2008-12-12 ケプストラムノイズ減算を用いた音声認識システム及び方法 Active JP5339426B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
TW096148135 2007-12-14
TW096148135A TWI356399B (en) 2007-12-14 2007-12-14 Speech recognition system and method with cepstral

Publications (2)

Publication Number Publication Date
JP2009145895A JP2009145895A (ja) 2009-07-02
JP5339426B2 true JP5339426B2 (ja) 2013-11-13

Family

ID=40754410

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008317530A Active JP5339426B2 (ja) 2007-12-14 2008-12-12 ケプストラムノイズ減算を用いた音声認識システム及び方法

Country Status (3)

Country Link
US (1) US8150690B2 (ja)
JP (1) JP5339426B2 (ja)
TW (1) TWI356399B (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100094622A1 (en) * 2008-10-10 2010-04-15 Nexidia Inc. Feature normalization for speech and audio processing
WO2012175094A1 (en) * 2011-06-20 2012-12-27 Agnitio, S.L. Identification of a local speaker
KR101892733B1 (ko) * 2011-11-24 2018-08-29 한국전자통신연구원 켑스트럼 특징벡터에 기반한 음성인식 장치 및 방법
JP5881454B2 (ja) * 2012-02-14 2016-03-09 日本電信電話株式会社 音源ごとに信号のスペクトル形状特徴量を推定する装置、方法、目的信号のスペクトル特徴量を推定する装置、方法、プログラム
CN112908299B (zh) * 2020-12-29 2023-08-29 平安银行股份有限公司 客户需求信息识别方法、装置、电子设备及存储介质

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5583961A (en) * 1993-03-25 1996-12-10 British Telecommunications Public Limited Company Speaker recognition using spectral coefficients normalized with respect to unequal frequency bands
US5778342A (en) * 1996-02-01 1998-07-07 Dspc Israel Ltd. Pattern recognition system and method
US5895447A (en) * 1996-02-02 1999-04-20 International Business Machines Corporation Speech recognition using thresholded speaker class model selection or model adaptation
US6006175A (en) * 1996-02-06 1999-12-21 The Regents Of The University Of California Methods and apparatus for non-acoustic speech characterization and recognition
US6278970B1 (en) * 1996-03-29 2001-08-21 British Telecommunications Plc Speech transformation using log energy and orthogonal matrix
US6044343A (en) * 1997-06-27 2000-03-28 Advanced Micro Devices, Inc. Adaptive speech recognition with selective input data to a speech classifier
US6032116A (en) * 1997-06-27 2000-02-29 Advanced Micro Devices, Inc. Distance measure in a speech recognition system for speech recognition using frequency shifting factors to compensate for input signal frequency shifts
US6633842B1 (en) * 1999-10-22 2003-10-14 Texas Instruments Incorporated Speech recognition front-end feature extraction for noisy speech
US6253173B1 (en) * 1997-10-20 2001-06-26 Nortel Networks Corporation Split-vector quantization for speech signal involving out-of-sequence regrouping of sub-vectors
US6202047B1 (en) * 1998-03-30 2001-03-13 At&T Corp. Method and apparatus for speech recognition using second order statistics and linear estimation of cepstral coefficients
US6347297B1 (en) * 1998-10-05 2002-02-12 Legerity, Inc. Matrix quantization with vector quantization error compensation and neural network postprocessing for robust speech recognition
US6219642B1 (en) * 1998-10-05 2001-04-17 Legerity, Inc. Quantization using frequency and mean compensated frequency input data for robust speech recognition
GB2357231B (en) * 1999-10-01 2004-06-09 Ibm Method and system for encoding and decoding speech signals
FI19992351A (fi) 1999-10-29 2001-04-30 Nokia Mobile Phones Ltd Puheentunnistus
GB2355834A (en) * 1999-10-29 2001-05-02 Nokia Mobile Phones Ltd Speech recognition
TW466471B (en) 2000-04-07 2001-12-01 Ind Tech Res Inst Method for performing noise adaptation in voice recognition unit
FR2808917B1 (fr) * 2000-05-09 2003-12-12 Thomson Csf Procede et dispositif de reconnaissance vocale dans des environnements a niveau de bruit fluctuant
JP4244514B2 (ja) 2000-10-23 2009-03-25 セイコーエプソン株式会社 音声認識方法および音声認識装置
US7277853B1 (en) * 2001-03-02 2007-10-02 Mindspeed Technologies, Inc. System and method for a endpoint detection of speech for improved speech recognition in noisy environments
US20030078777A1 (en) * 2001-08-22 2003-04-24 Shyue-Chin Shiau Speech recognition system for mobile Internet/Intranet communication
US7035797B2 (en) * 2001-12-14 2006-04-25 Nokia Corporation Data-driven filtering of cepstral time trajectories for robust speech recognition
JP2003271190A (ja) 2002-03-15 2003-09-25 Matsushita Electric Ind Co Ltd 雑音除去方法、雑音除去装置及び、それを用いた音声認識装置
TW582024B (en) 2002-12-23 2004-04-01 Ind Tech Res Inst Method and system for determining reliable speech recognition coefficients in noisy environment
US7389230B1 (en) * 2003-04-22 2008-06-17 International Business Machines Corporation System and method for classification of voice signals
US7418383B2 (en) * 2004-09-03 2008-08-26 Microsoft Corporation Noise robust speech recognition with a switching linear dynamic model
JP4464797B2 (ja) 2004-11-17 2010-05-19 日本電信電話株式会社 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体
JP5129117B2 (ja) 2005-04-01 2013-01-23 クゥアルコム・インコーポレイテッド 音声信号の高帯域部分を符号化及び復号する方法及び装置
US20070083365A1 (en) 2005-10-06 2007-04-12 Dts, Inc. Neural network classifier for separating audio sources from a monophonic audio signal
JP2007156354A (ja) 2005-12-08 2007-06-21 Vision Megane:Kk 眼鏡セット
JP4728791B2 (ja) * 2005-12-08 2011-07-20 日本電信電話株式会社 音声認識装置、音声認識方法、そのプログラムおよびその記録媒体
US7877255B2 (en) * 2006-03-31 2011-01-25 Voice Signal Technologies, Inc. Speech recognition using channel verification
US20080300875A1 (en) * 2007-06-04 2008-12-04 Texas Instruments Incorporated Efficient Speech Recognition with Cluster Methods

Also Published As

Publication number Publication date
TWI356399B (en) 2012-01-11
TW200926141A (en) 2009-06-16
US8150690B2 (en) 2012-04-03
US20090157400A1 (en) 2009-06-18
JP2009145895A (ja) 2009-07-02

Similar Documents

Publication Publication Date Title
US7590526B2 (en) Method for processing speech signal data and finding a filter coefficient
JP5411936B2 (ja) 音声信号区間推定装置と音声信号区間推定方法及びそのプログラムと記録媒体
Nakamura et al. AURORA-2J: An evaluation framework for Japanese noisy speech recognition
JP4532576B2 (ja) 処理装置、音声認識装置、音声認識システム、音声認識方法、及び音声認識プログラム
US7856353B2 (en) Method for processing speech signal data with reverberation filtering
US20060253285A1 (en) Method and apparatus using spectral addition for speaker recognition
JP2004347761A (ja) 音声認識装置、音声認識方法、該音声認識方法をコンピュータに対して実行させるためのコンピュータ実行可能なプログラムおよび記憶媒体
JP2006215564A (ja) 自動音声認識システムにおける単語精度予測方法、及び装置
US20060195317A1 (en) Method and apparatus for recognizing speech in a noisy environment
JP5339426B2 (ja) ケプストラムノイズ減算を用いた音声認識システム及び方法
JP4856662B2 (ja) 雑音除去装置、その方法、そのプログラム及び記録媒体
US7120580B2 (en) Method and apparatus for recognizing speech in a noisy environment
JP2007279517A (ja) 音源分離装置、音源分離装置用のプログラム及び音源分離方法
Gamper et al. Predicting word error rate for reverberant speech
JP2012168296A (ja) 音声による抑圧状態検出装置およびプログラム
KR100784456B1 (ko) Gmm을 이용한 음질향상 시스템
JP2013114151A (ja) 雑音抑圧装置、方法及びプログラム
JP2009276365A (ja) 処理装置、音声認識装置、音声認識システム、音声認識方法
Kaur et al. Optimizing feature extraction techniques constituting phone based modelling on connected words for Punjabi automatic speech recognition
JP2008145923A (ja) 音声信号区間推定装置、その方法、そのプログラム及び記録媒体
JP2007093630A (ja) 音声強調装置
JP4571871B2 (ja) 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体
JPH10133688A (ja) 音声認識装置
JP2003177781A (ja) 音響モデル生成装置及び音声認識装置
Hirsch et al. A new HMM adaptation approach for the case of a hands-free speech input in reverberant rooms

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110830

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20111125

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20111130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120125

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120221

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130801

R150 Certificate of patent or registration of utility model

Ref document number: 5339426

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250