JP5230103B2 - 自動音声認識器のためのトレーニングデータを生成する方法およびシステム - Google Patents

自動音声認識器のためのトレーニングデータを生成する方法およびシステム Download PDF

Info

Publication number
JP5230103B2
JP5230103B2 JP2006553731A JP2006553731A JP5230103B2 JP 5230103 B2 JP5230103 B2 JP 5230103B2 JP 2006553731 A JP2006553731 A JP 2006553731A JP 2006553731 A JP2006553731 A JP 2006553731A JP 5230103 B2 JP5230103 B2 JP 5230103B2
Authority
JP
Japan
Prior art keywords
spectral characteristics
audio data
sampling frequency
spectral
codebook
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006553731A
Other languages
English (en)
Other versions
JP2007523374A (ja
Inventor
フィッシャー,アレクサンダー
ディーター ビップス,ロルフ
Original Assignee
ニュアンス コミュニケーションズ,インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ニュアンス コミュニケーションズ,インコーポレイテッド filed Critical ニュアンス コミュニケーションズ,インコーポレイテッド
Publication of JP2007523374A publication Critical patent/JP2007523374A/ja
Application granted granted Critical
Publication of JP5230103B2 publication Critical patent/JP5230103B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Synchronisation In Digital Transmission Systems (AREA)
  • Telephonic Communication Services (AREA)

Description

本発明は、一般には特定のサンプリング周波数で動作する自動音声認識器のためのトレーニングデータを生成する方法およびシステムに関する。さらに、本発明は自動音声認識システムをトレーニングする方法ならびにトレーニングデータを生成する方法において使用するコードブックを生成する方法およびシステムに関する
自動音声認識器は制御インターフェース、自動車ナビゲーションシステム、対話システムなど、音声入力が識別されて解釈されるさまざまな用途に使われている。一般に、そのような自動音声認識器(ASR: automatic speech recogniser)のユーザーはマイクに向かってしゃべり、そのアナログ音声入力は、該入力アナログ信号をウィンドウ化およびサンプリングする、すなわち該アナログ信号の振幅を連続的なレートで測定して一組の離散的なサンプル値を与える通常の技術によってデジタル形式に変換される。信号がサンプリングされるレートのことをサンプリングレートまたはサンプリング周波数という。結果として得られる離散的な標本値のシーケンスは、アナログ信号の時間領域の記述を与える。入力信号のこの時間領域の記述は、たとえばサンプリングされた入力信号に対して高速フーリエ変換を実行することによって周波数領域の記述に変換され、入力信号についての特徴を抽出するためにさまざまな処理ステップが実行される。特徴はしばしば特徴ベクトルの形である。これらの特徴を、以下では「モデル」と呼ぶテンプレートまたはその他のモデルと比較し、最も適切な一致を見出すことによって、ASRは音声入力を解析して、ユーザーが何を言ったか、その結果としてどの行動が実行されるべきかを判別することができる。
自動音声認識器によって使われるモデルは通例、トレーニングデータを使って計算される。トレーニングデータは一般に単語、文または会話全体といった発話の集合である。トレーニングデータは自動音声認識器のフロントエンド、すなわち最初の処理段に入力され、自動音声認識器のためのモデルを計算するために処理される。自動音声認識器が動作の間、入力音声を正しく識別して理解する成功率を上げるため、自動音声認識器のトレーニングのためには訛り(アクセント)やイントネーションの異なる複数の話者を採用して、できるだけ幅広い発話の選択肢を与えるのが通例である。自動音声認識器のトレーニングのためにより多くの発話が利用できるほど、パフォーマンスもよくなる。自動音声認識器の動作が意図されている条件と似た音響条件のもとでトレーニングデータが録音されれば、さらにいいパフォーマンスも得られる。どんなアナログ信号も異なる周波数の多くの成分正弦波の合成と見なすことができる。サンプリング周波数は、標本値についての所望の品質に従って選ばれる。サンプリングレートが高ほど、サンプリングされた信号には高い周波数成分が含まれる。ナイキストによれば、サンプリング周波数は少なくとも所望の最高周波数成分の周波数の二倍でなければならない。サンプリングレートの半分より低いいかなる成分周波数もサンプリングにおいて失われるからである。したがって、入力音声のサンプリングレートを高くすることは、高周波数帯域における追加的情報のため音声認識が改善されるので、自動音声認識器にとって有益である。たとえば、自動車内で動作する自動音声認識器は、サンプリングレートを上げれば著しくパフォーマンスが向上しうる。より高いサンプリングレートで動作するそのような自動音声認識器をトレーニングするためには、まずこのサンプリングレートで取得されたトレーニング用オーディオデータを集めることが必要になる。
自動音声認識器のためのトレーニングデータはできるだけ幅広い多様性の発話、たとえば単独の単語、文全体あるいは会話全体さえをもカバーすべきである。理想的には、話される言葉は訛りや明瞭度品質の異なる複数の話者を起源とする。したがって、音声認識器の堅牢なパフォーマンスのための必要な数のモデルを計算するために十分な生データを集めるためには、多くの人物が多数の試験単語を、典型的な自動車の騒々しい環境を反映する現実的な条件のもとで録音することが必要になる。適切な多様性のある発話の集合があれば、トレーニングデータは、実際の作業条件のもとでの発話の信頼できる認識ができる、自動音声認識器の堅牢な動作を保証できる。しかし、より高いサンプリング周波数で動作する自動音声認識器、たとえば自動車用途の自動音声認識器のためのトレーニングオーディオデータはすぐ手にはいるものではない。騒々しい自動車の車内のような不利な環境においてデータを収集することは非常に時間がかかり、したがって実用にならないほど高価である。さらに、自動音声認識器の各機種は独自の特定フォーマットの特徴モデルの形のトレーニングデータを要求する。特定機種のASR用のフォーマットのトレーニングデータは、別の機種のASRについては全く不適切であることもありうるのである。
したがって、本発明は、任意の自動音声認識器のためのトレーニングデータを生成する簡単かつ安価な方法およびシステムを提供することを目的としている。
この目的のため、本発明は、自動音声認識器――ある特定の第一のサンプリング周波数のために構築されている――のためのトレーニングデータを、前記第一のサンプリング周波数よりも低いある第二の周波数でサンプリングされたオーディオデータからスペクトル特性を導出し、該スペクトル特性の帯域幅を帯域幅拡張情報を取得することで拡張し、帯域幅拡張されたスペクトル特性を処理して必要とされるトレーニングデータを与える、ことによって生成する方法を提供する。
信号のスペクトルとは、信号中のエネルギーがさまざまな周波数成分にわたって分布している様子をいう。スペクトルのさまざまな特性が周波数領域で信号を記述するために使用できる。これらの特徴は、以下では「スペクトル特性」または「スペクトル表現」と呼ばれ、いくつかの方法で計算できる。
この方法の内在的な利点は、トレーニングデータを生成するために使われるトレーニングオーディオデータは、ほかの異なる用途のためにすでに利用可能になっているデータであってもよく、そのトレーニングデータのために必要とされるよりも低い周波数でサンプリングされていてもよいということである。したがって、たとえば、利用可能になっている電話オーディオデータのデータベースを実装することもできる。そのようなデータベースはすでに利用可能であり、一般には非常に大きく、典型的には多様な話者の集合からの幅広い多様性の話された単語および/または文全体をカバーしているからである。電話用途のためには4kHzの帯域幅で一般に十分なので、オーディオ電話データは通例8kHzでサンプリングされる。本発明による方法では、この8kHzのデータを、パフォーマンス品質上の理由で11kHzまたはそれ以上という比較的高い周波数で動作することのある自動車用自動音声認識のトレーニングのために使用することができる。
ある特定の第一のサンプリング周波数で動作する自動音声認識器のためのトレーニングデータを生成する適切なシステムは、前記第一のサンプリング周波数よりも低いある第二の周波数でサンプリングされたオーディオデータからスペクトル特性を導出するコンバータと、該スペクトル特性のための帯域幅拡張情報を取得する取得ユニットと、帯域幅拡張されたスペクトル特性を処理して必要とされるトレーニングデータを与える処理モジュールとを有する。
本発明によれば、より低いサンプリング周波数で利用可能になっているデータのスペクトル特性の帯域幅は、入力がより高いサンプリング周波数でサンプリングされたかのように見えるように拡張される。帯域幅拡張情報は適切な形で、それが保存されている適切なソースから取得されることができる。ここで、そのようなソースは一般に「コードブック」と呼ばれる。したがって、コードブックはある形でのテンプレートまたは統計的混合モデルの集まりであり、同じ形の他のデータがこれと比較される。データの形は一般に非常に複雑で、たとえば典型的なASRのための特徴ベクトルはしばしば非常に大きな数nのn次元ベクトルなどであり、そのデータのテンプレートとの比較はしばしば「最良一致」を見出すことに関わる。自動音声認識器のためのトレーニングデータを生成するのに使われるこのコードブックは、自動音声認識器のその後の諸段において使われうる別の種類のコードブックと混同しないようにする必要がある。その別の種類のコードブックはここでは関係ない。
帯域幅拡張されたスペクトル特性は次いで次のステップで処理されて、自動音声認識器のその後の諸段で必要とされる形でトレーニングデータが与られる。
これを実現するため、帯域幅拡張を許容するための好適なコードブックが必要とされる。したがって、そのようなコードブックを生成する方法およびシステムを提供することが本発明のさらなる目的である。
本発明によれば、上述したシステムで使うコードブック――より低いサンプリング周波数でサンプリングされたオーディオデータのスペクトル特性の帯域幅をより高いサンプリング周波数のスペクトル特性に拡張するための項目を含む――の生成は、コードブックの各項目のためのいくつかのステップを有している。第一のステップでは、第一のサンプリング周波数でサンプリングされたオーディオデータからスペクトル特性の第一の組が導出される。次いで前記オーディオデータに対して第二のサンプリング周波数へのサンプリングレート変換が実行され、対応するスペクトル特性の第二の組が導出される。よって、第一および第二のスペクトル特性の組は、いずれも同じオーディオ標本値を異なるサンプリング周波数で記述したものである。前記スペクトル特性の第二の組についてコードブック項目が計算され、スペクトル特性の第一の組からの追加的な高周波情報を用いて増強される。次いでその項目はコードブック内に保存される。
第二のサンプリング周波数でサンプリングされたオーディオデータのスペクトル特性の組の帯域幅を該第二のサンプリング周波数より高い第一のサンプリング周波数のスペクトル特性の組に拡張するためのコードブックを生成するための適切な装置は、第一のサンプリング周波数でサンプリングされたオーディオデータからスペクトル特性の第一の組を導出するコンバータと、そのオーディオデータに第二のサンプリング周波数へのサンプリングレート変換を実行して第二のサンプリング周波数での対応するスペクトル特性の第二の組を導出するためのモジュールと、第二のスペクトル特性の組に基づいてコードブックのための項目を生成して対応するスペクトル特性の第一の組からの追加的な高周波情報を用いて該コードブック項目を増強するコードブック項目生成器とを有する。
付属の請求項および下記の記述は本発明の特に有利な実施形態および特徴を開示する。
ASRのためのトレーニングデータ生成とコードブック生成のいずれの場合でも、まずオーディオデータに対して時間/周波数領域変換を実行して周波数領域係数の組を与えることによってオーディオデータがスペクトル特性の組に変換される。より高いサンプリング周波数からより低いサンプリング周波数へのダウンサンプリングのステップが必要とされる場合には、ダウンサンプリングはすでにウィンドウ化され、サンプリングされた入力オーディオデータに対して直接実行されてもよいし、あるいはオーディオデータの時間‐周波数領域変換のあとに実行されてもよい。あるいはまた、ダウンサンプリング効果は、オーディオデータに適切な低域通過フィルタを用いて上の周波数を切るフィルタ処理をすることによって達成することもできる。
時間/周波数領域変換は好ましくは高速フーリエ変換(FFT: Fast Fourier Transform)である。この変換は、サンプリングされた信号の離散フーリエ変換(Discrete Fourier Transform)を高速かつ効率的に得ることができる。DFTまたはFFTによって決定される係数は、オーディオ信号の各周波数成分の振幅を表し、オーディオ信号のスペクトルを記述する。別の種類の時間/周波数領域変換、たとえば離散コサイン変換(DCT: Discrete Cosine Transform)も必要に応じて同じように実装することができる。
時間/周波数領域変換から得られる係数はスペクトル特性として使用できる。しかし、その使用はコードブック生成でより多くの努力が必要になることを含意するので、通例は後段での労を省くためにさらなる処理ステップを実行しておく。たとえば、時間/周波数領域変換の出力をフィルタバンクを用いてフィルタ処理してフィルタバンクパワー値の組を得る。
そのようなフィルタバンクの一つの利点は、結果として得られるスペクトル記述が必要とするデータが著しく少なくなり、望むなら周波数軸をゆがめたり曲げたりすることもできることである。
人間の蝸牛のパフォーマンスを模倣するため、周波数スペクトル計算後に周波数軸のゆがみを実行することが一般的である。蝸牛中での音の解析はバーク(Bark)スケールまたはメル(mel)スケールとして知られる非線形な周波数スケールで行われる。このスケールは約1000Hzまでは近似的に線形で、その後は近似的に対数的になる。本発明のある具体的な好ましい実施形態では、フィルタバンク中のフィルタは周波数軸の所望のゆがみを達成するよう構成される。
こうしてフィルタバンクの出力パワー値はスペクトル特性として使用されうる。
スペクトル特性は、対数スペクトル係数の組を与えるさらなる処理ステップにおいてフィルタバンクパワー値の対数を計算することによって得ることもできる。周波数軸のゆがみがメルスケールに従うフィルタバンクにおいて実施される場合には、結果として得られる係数はメル周波数係数と呼ぶことができる。そのような対数周波数係数はしばしば自動音声認識器のようなシステムで使用する特徴ベクトル生成の基礎である。対数スペクトル係数は別の、同じように好適な技法を使って計算することもできる。
本発明の特に好ましい実施形態では、対数スペクトル係数が、自動音声認識器のためのトレーニングデータを生成するシステムで使う帯域幅拡張コードブックの項目を生成するためのスペクトル特性として使われる。対数スペクトル係数に対してDCTを実行することにより、該係数は対数ケプストラム係数に変換できる。これは音声の識別および理解といった自動音声認識器のさらなる処理ステップにおける適用にとりわけ好適である。
自動音声認識器をトレーニングするためのある適切な方法においては、より低い周波数でサンプリングされ、コードブックから取得された帯域幅拡張情報を用いて増強されたオーディオデータを使って、より高いサンプリング周波数で得られたように見えるトレーニングデータを与えることで必要とされるトレーニングデータを生成することで十分である。しかしながら、より低い周波数でサンプリングされたトレーニングデータは、要求される周波数でサンプリングされたトレーニングデータと一緒に使用されることもできる。
前記のより低い周波数でサンプリングされたオーディオデータからトレーニングデータを生成するのに使われるコードブックは、前記のより高い周波数でサンプリングされた高品質オーディオデータの比較的小さなセットを使うことにより構築される。スペクトル特性の第一および第二の組がそれぞれ前記のより高い周波数におけるオーディオデータ、前記のより低い周波数にダウンサンプリングされたオーディオデータのために計算される。こうして、スペクトル特性の第一および第二の組はいずれも実効的に同じ入力オーディオデータ標本値を記述する。しかし、第一の組は第二の組には存在しない追加的な高周波情報を含んでいる。したがって、スペクトル特性の第二の組について計算されたコードブック項目はスペクトル特性の対応する第一の組を使って増強されることができる。
本発明のある実施形態では、各コードブック項目はスペクトル特性の第一および第二の組両方からの情報を、好ましくは両方の組が互いに関連付けられつつも別個のままであるような仕方で保存されている形で有してもよい。
ある代替的な実施形態では、各コードブック項目はスペクトル特性の第二の組からの情報を、スペクトル特性の第一の組から抽出される追加的な帯域幅拡張情報とともに有しうる。
コードブック構築に使われる前記のより高い周波数でのオーディオデータの品質によっては、背景ノイズのようなある種の望まれないスペクトル成分を除去することによってオーディオデータのスペクトルを修正することが必要となることがある。この目的のため、平均スペクトルがスペクトル特性の第二の組のために連続的に計算されうる。この平均スペクトルは次いで、コードブック項目を計算する前にオーディオデータのスペクトル特性から引かれることができる。このようにして、比較的「きれいな」データがコードブック構築に使われる。
同様に、前記のより低い周波数でサンプリングされて自動音声認識器のためのトレーニングデータを生成するのに使われるオーディオデータも望ましくないノイズまたはチャネル効果を除去するためにスペクトル修正を必要とするかもしれない。オーディオデータ中に存在するそのようなスペクトル特徴は、トレーニングデータに組み込まれたときにマイナスの効果をもつことがあり、好ましくはオーディオデータから連続的に平均スペクトルを計算してその平均スペクトルをオーディオデータのスペクトル特性から引くことによって、コードブックから帯域幅拡張情報を取得する前に除去される。これにより、自動音声認識器のために生成されるトレーニングデータには実質的に望ましくないノイズやチャネル効果がないことが保証される。
自動音声認識器のためのトレーニングデータは自動音声認識器が動作することを意図されている環境の典型的なオーディオ品質を現実的に反映すべきであるので、好適な背景ノイズ情報またはその他の同様のスペクトル特徴を追加または挿入することが望ましいことがある。この目的のため、帯域幅拡張されたスペクトル特性のスペクトルは、そのスペクトル属性を変更するよう任意的な処理ステップで調整されうる。計算上の簡単さという理由のため、そのような処理ステップは好ましくは線形領域で実行される。これは、スペクトル特性が対数の形であった場合には逆対数を計算するステップを必要とすることがありうる。次いで、オーディオデータのスペクトルは必要とされる特徴を追加することによって修正されうる。次いで必要に応じてスペクトルの対数が再び計算されてスペクトルを対数領域に戻す。
本発明のその他の目的および特徴は、付属の図面とともに考慮される以下の詳細な記述から明らかとなるであろう。しかし、図面は単に解説の目的のためにデザインされたものであり、本発明の範囲の定義とするものでないことは理解しておくものとする。
図1は、自動音声認識器の典型的なフロントエンドにおける諸段を示す簡略化した表現で、入力アナログオーディオ信号Aを処理して、音声認識におけるのちの段で使うためのオーディオ信号の特徴ベクトルVを生成することに関わるものである。音声とノイズ両方の成分を含みうるアナログオーディオ信号Aはまずサンプリング周波数fでウィンドウ化およびサンプリングされて、デジタルオーディオ標本値の組を与える。高速フーリエ変換(FFT)がデジタル信号の各組について実行され、対応するフーリエ係数の組を与える。それらが今度はフィルタバンクに転送される。フィルタバンク中では、複数のフィルタが非線形な仕方でバークスケールまたはメルスケールに従って構成される。ここで信号のさまざまな周波数成分のエネルギーが計算され、フィルタバンクエネルギー値の組が与えられる。対数ユニットにおいて該フィルタバンクエネルギー値について対数が計算され、対数フィルタバンク係数の組が与えられる。チャネル効果を正規化する(normalise)ためにその対数フィルタバンク係数に対して長項正規化(LTN: Long Term Normalisation)が実行される。LTN出力は次いで、対数スペクトル係数に離散コサイン変換(DCT)を実行することによってさらに処理され、特徴ベクトルV、この場合はケプストラム係数が与えられる。この図には示されていない自動音声認識器のさらなる諸段では、特徴ベクトルVが音声認識および音声理解のために使われる。
図2は、サンプリング周波数fHのために構築され、より低い周波数fLでサンプリングされるデータを使ってトレーニングされるべき自動音声認識器のためのトレーニングデータを生成するための図3に基づくシステムにおいて使用するためのコードブック(codebook)6を生成するためのシステムを示している。すでに前記のより高い周波数fHでサンプリングされているオーディオデータDCHは、図1で述べた自動音声認識器のフロントエンドにところどころ似ているモジュール9によって処理される。同時に、前記オーディオデータは同様のモジュール10によって処理される。モジュール9および10はそれぞれ図4および図5において詳細に見ることができる。
図4は、アナログ信号を要求されるサンプリング周波数fでウィンドウ化およびサンプリングすることによって得られた入力オーディオデータ30からスペクトル特性34を抽出のために構築されたモジュール9を示している。標本値30はブロック41で処理されてFFT係数31が計算され、次いでフィルタバンクユニット42でフィルタ処理されてフィルタバンクパワー値32が与えられ、対数ブロック43でその対数スペクトル値33が計算される。ブロック44で長項正規化が対数スペクトル値33に対して実行され、スペクトル特性34の組が与えられる。
図5における処理ステップのシーケンスは本質的には図4のものと同じであるが、入力オーディオデータ30をダウンサンプリングブロック46でダウンサンプリングしてより低いサンプリング周波数fLでの標本値を与える追加的なステップがある。オーディオデータDCHについて計算され、ブロック9および10から出力されたスペクトル特性(spectral characteristics)、すなわちそれぞれSCHおよびSCLは、同じ入力標本値を使って計算されているが、SCHはSCLには存在しない、より高い周波数情報を含んでいる。
任意的なユニット20では、チャネルまたは加法的ノイズ特性は、帯域幅拡張されたデータを生成するのに使われるオーディオデータDL(図3)の特性から無視できる程度にしか違わない場合には、正規化されることができる。このユニット20は、チャネル正規化または加法的ノイズ補償のためのいかなる好適な手段を有していてもよい。たとえば図2では、平均スペクトル計算ブロック17において対数スペクトル特性SCLについて対数平均スペクトル18が計算されて、平均減算ブロック19において対数スペクトル特性SCLから差し引かれる。ブロック10および20はいずれも、処理ステップの重複を避けるために適宜マージすることができる。たとえば、追加的なノイズ/チャネル補償が線形スペクトル領域(対数を計算する前)での処理を要求する場合である。この任意的なユニット20は、スペクトル表現SCLにおいて示されるオーディオデータDCHのチャネルおよびノイズ特性の低周波部分がオーディオデータDLの特性に十分近い場合には省略されることができる。そうでない場合には、オーディオデータDHに存在するチャネルおよびノイズ効果を除去または正規化するためにユニット20が使われる。
コードブック項目生成ユニット11において、コードブック6のコードブック項目12がスペクトル特性SCLの組について計算される。これらの項目12は、スペクトル特性SCHの対応する組に存在する、より高い周波数成分を使うことによって増強または拡張され、コードブック6に保存される。よって、集成されるコードブック6は、実際にはより高い周波数fHでサンプリングされたオーディオデータを使ったfLでサンプリングされたオーディオデータのための項目を有しており、こうしなければダウンサンプリングにおいて失われるはずのより高い周波数の情報の一部または全部を含む。
このコードブックが、サンプリング周波数fHで動作するよう構築されている自動音声認識器2(fH)のためのトレーニングデータの生成にどのように使えるのかは図3から見て取れる。自動音声認識器2(fH)をトレーニングするための入力オーディオデータDLはより低い周波数fLで利用可能である。入力オーディオデータDLはまず、図1ですでに述べた自動音声認識器のフロントエンドにところどころ似たモジュール3において処理されて、スペクトル特性SLの組を与える。モジュール3は、図2で述べたコードブック生成プロセスにおいてオーディオデータを処理するのに使われるモジュール9と同一の仕方で構築されている。このことは、より高いサンプリング周波数でのオーディオデータが両方の場合で同じ仕方で処理されることを示す。
任意的なユニット16は図2におけるユニット20に対応するものを表している。このユニット16もユニット20に対応するチャネル正規化または加法的ノイズ補償のためのいかなる好適な手段を有していてもよい。したがって、この例では平均スペクトル計算ブロック13において対数スペクトル特性SLについての対数平均スペクトル14が計算され、平均減算ブロック15において対数スペクトル特性SLから減算される。この任意的なユニット16は、オーディオデータDLのチャネルおよびノイズ特性がコードブック6をトレーニングするのに使われたオーディオデータDCHの特性に十分似ている場合には省略できる。そうでない場合には、ASRトレーニングデータ生成システム1のユニット16および図2のコードブック生成システム5のユニット20はそれぞれ、オーディオデータDLおよびDCHのチャネルおよびノイズ特性を正規化するために使われる。そのようなステップの理由は、コードブック探索のプロセスがチャネルにおけるミスマッチおよび/またはコードブックのトレーニングと使用との間の背景ノイズによって悪影響を受けないことを保証することである。
スペクトル特性SLの各組の帯域幅は今、コードブック6から帯域幅拡張情報(bandwidth extending information)IBEを取得することによってより高い周波数成分を含むよう拡張される。この帯域幅拡張情報IBEは、スペクトル特性SLの組に最もよく一致するコードブック6の項目またはテンプレートから取ることができる。あるいは重み付けされた補間(後述)を介して全項目から計算される。
スペクトル特性をコードブック中のテンプレートと突き合わせるプロセスは、コードブックが構築されている仕方に大きく依存する。
最も一般的なバージョンでは、コードブックにおいて、ある特定のサンプリング周波数でサンプリングされた入力データから得られたスペクトル特性の確率分布をモデル化するために「統計的混合モデル」が使用される。混合モデルとは、単峰確率密度関数の重み付き和である。最も有名で最も扱いが簡単な単峰関数はガウス分布である。和をとるときの重みは、混合分布の各個別単峰分布(モード)についての先験的確率を表す。帯域幅拡張の目的で、混合モデルの各モードは関連付けられた出力ベクトルを有している。各入力ベクトルに対して、混合の各モードの確率密度値が計算され、それから各モードの確率が導出できる。出力ベクトル(入力またはより高い周波数帯からの追加的部分の帯域幅拡張されたバージョン)は、各モードに付属する出力ベクトルの重み付き和によって計算される。ここで、前記の計算された確率が重みの役割をする(重み付き補間)。
コードブックとテンプレートの他の種類の突き合わせ方法(「コードブック探索」)は上述した混合モデルの特別な場合または近似であると見なすことができる。たとえば:
1.ガウス混合モデル。これは各モードについてガウス分布を使用する。
2.単位行列を共分散行列としてガウス型を使用。これらは手段によってのみ表現される。確率密度計算は入力ベクトルと平均との間の「距離」を計算することになる。
3.各入力ベクトルについて計算された確率を、最高確率のモード(「最も近いモード」)について1.0、その他すべてについて0.0と設定することによって近似する。
ここで、出力ベクトルは、スペクトル特性SLを置換または拡張(extend)してより高い周波数fHでのサンプリングによって得られたかのように見えるスペクトル特性SL,Eの組を与えるために使われる帯域幅拡張情報IBEに対応する。
最終処理モジュール7では、ブロック23で対数スペクトルに対して離散コサイン変換が実行され、自動音声処理器2によって要求される特徴ベクトルまたはトレーニングデータDTが与えられる。トレーニングデータDTは自動音声処理器2の次の諸段に直接転送されることができるし、のちの使用のためにデータベース21に保存されることもできる。
自動音声認識器2が動作する環境を反映するため、スペクトル特性SL,Eは任意的なブロック8でしかるべく集成されることができる。この任意的なブロック8はここではDCTの前に置かれた最終処理モジュール7の一部として示されている。たとえば、自動車の車内の騒々しい環境を反映するためにスペクトルにノイズを加えることができる。この種の動作は線形スペクトル領域で実行されるべきなので、逆対数がまずスペクトル特性SL,Eについて計算されてからノイズスペクトルが加えられ、再びスペクトル特性SL,Eの対数が計算される。
本発明は、好ましい実施形態およびその変形の形で開示されてきたが、本発明の範囲から外れることなく追加的な修正および変形をなしうることは理解されるであろう。入力オーディオの属性を記述するのに使われるスペクトル特性はFFT係数、フィルタバンクパワー値、対数スペクトル係数またはその他いかなる適切なスペクトル記述(ウェーブレットなどのような)であるとしてもよい。帯域幅拡張が実行されるべき点はその実施に最も適合するように選ぶことができる。同様に、LTN、DCTまたはその他の処理段が他の段に対して置かれる順列は、その実施の要求に適合するように選ぶことができる。
明確のため、本出願を通じて単数形の使用は複数の存在を排除しないこと、「有する」が他のステップまたは要素を排除しないことも理解されるものとする。「ユニット」または「モジュール」は、明示的に単一の実体として記載されているのでない限り、いくつかのブロックまたはデバイスからなることもある。記述されているユニット、モジュール、ブロックおよびデバイスは当業者によって、ハードウェアの形で、および/またはソフトウェアモジュールを実装することによって実現されうる。「スペクトル」の語は「ケプストラム」をも意味することがある。これはバークスケールまたはメルスケールに従ってゆがめたあとの対数スペクトルのFFTまたはDCT変換のことをいう。
自動音声認識器のフロントエンドにおける通例の処理ステップを示すブロック図である。 本発明のある実施形態に基づく、コードブックを生成するシステムのブロック図である。 本発明のある実施形態に基づく、自動音声認識器のためのトレーニングデータを生成するシステムのブロック図である。 図2および図3によって記述されたシステムのためのスペクトル特性を導出するためのモジュールにおける処理ステップを示すブロック図である。 図2によって記述されたシステムのためのスペクトル特性を導出するためのモジュールにおける処理ステップを示すブロック図である。

Claims (14)

  1. ある特定の第一のサンプリング周波数で動作するための自動音声認識器のためのトレーニングデータを生成する方法であって:
    ・前記第一のサンプリング周波数よりも低いある第二の周波数でサンプリングされたオーディオデータからスペクトル特性を導出し、
    ・前記スペクトル特性の帯域幅を、前記第二の周波数のデータに対応する帯域幅拡張情報を与える単一のコードブックから帯域幅拡張情報を取得することで拡張し、
    ・帯域幅拡張されたスペクトル特性を処理して必要とされるトレーニングデータを与える、
    ステップを有し、
    前記コードブックの各項目は:
    ・前記第一のサンプリング周波数でサンプリングされたオーディオデータからスペクトル特性の第一の組を導出し、
    ・前記オーディオデータに対して第二のサンプリング周波数へのサンプリングレート変換を実行し、対応するスペクトル特性の第二の組を導出し、
    ・前記スペクトル特性の第二の組からの情報を、前記スペクトル特性の第一の組から抽出された追加的な帯域幅拡張情報とともに含むコードブック項目を生成することによって生成される、
    ことを特徴とする方法。
  2. オーディオデータのスペクトル特性の組への変換が、オーディオデータのFFTを計算してフーリエ係数の組を与え、FFTの出力をフィルタバンクでフィルタ処理してフィルタバンクパワー値の組を与えることを含むことを特徴とする、請求項1記載の方法。
  3. 請求項2記載の方法であって、オーディオデータのスペクトル特性の組への変換が、FFT係数またはフィルタバンクパワー値を処理して対数スペクトル係数を与えることを含むことを特徴とする方法。
  4. 請求項1ないし3のうちいずれか一項記載の方法であって、帯域幅拡張されたスペクトル特性の処理が、オーディオデータの信号属性を調整するために該スペクトルを変更するステップを有することを特徴とする方法。
  5. 請求項4記載の方法であって、オーディオデータの信号属性を調整するために前記スペクトルを変更するステップが線形領域において実行されることを特徴とする方法。
  6. 請求項1ないし5のうちいずれか一項記載の方法であって、オーディオデータからのスペクトル特性の導出に続いて、該スペクトル特性から平均スペクトルを差し引くステップがあることを特徴とする方法。
  7. 自動音声認識システムをトレーニングする方法であって、トレーニングに使用されるデータが少なくとも部分的に請求項1ないし6のうちいずれか一項記載の方法を使って生成されることを特徴とする方法。
  8. ある第二のサンプリング周波数でサンプリングされたオーディオデータのスペクトル特性の帯域幅を該第二のサンプリング周波数よりも高いある第一のサンプリング周波数のスペクトル特性に拡張するための単一のコードブックを生成する方法であって、コードブックの各項目について:
    ・前記第一のサンプリング周波数でサンプリングされたオーディオデータからスペクトル特性の第一の組を導出し、
    ・前記オーディオデータに対して第二のサンプリング周波数へのサンプリングレート変換を実行し、対応するスペクトル特性の第二の組を導出し、
    ・前記スペクトル特性の第二の組からの情報を前記スペクトル特性の第一の組から抽出された追加的な帯域幅拡張情報とともに含むコードブック項目を生成する
    ステップを含むことを特徴とする方法。
  9. 請求項8記載の方法であって、コードブック項目を増強することが、前記第二のサンプリング周波数より高い周波数に関係する、対応するスペクトル特性の第一の組から情報を抽出し、この情報をコードブック中の前記コードブック項目に付属させることを含むことを特徴とする方法。
  10. 請求項8または9記載の方法であって、スペクトル特性の第二の組の導出に続いて、背景ノイズ削減および/またはチャネル正規化ステップがあることを特徴とする方法。
  11. 請求項10記載の方法であって、前記スペクトル特性が対数スペクトル表現を有しており、前記チャネル正規化が前記対数スペクトル特性から平均対数スペクトルを差し引くことによって実行されることを特徴とする方法。
  12. 請求項10記載の方法であって、前記スペクトル特性が線形スペクトル表現を有しており、前記背景ノイズ削減が前記線形スペクトル特性から背景ノイズスペクトルを差し引くことによって実行されることを特徴とする方法。
  13. ある特定の第一のサンプリング周波数で動作する自動音声認識器のためのトレーニングデータを生成するシステムであって:
    ・前記第一のサンプリング周波数よりも低いある第二の周波数でサンプリングされたオーディオデータからスペクトル特性を導出するコンバータと、
    ・前記スペクトル特性のための帯域幅拡張情報を、前記第二の周波数のデータに対応する帯域幅拡張情報を与える単一のコードブックから取得する取得ユニットと、
    ・帯域幅拡張されたスペクトル特性を処理して必要とされるトレーニングデータを与える処理モジュール、
    とを有し、
    前記コードブックの各項目は:
    ・前記第一のサンプリング周波数でサンプリングされたオーディオデータからスペクトル特性の第一の組を導出し、
    ・前記オーディオデータに対して第二のサンプリング周波数へのサンプリングレート変換を実行し、対応するスペクトル特性の第二の組を導出し、
    ・前記スペクトル特性の第二の組からの情報を、前記スペクトル特性の第一の組から抽出された追加的な帯域幅拡張情報とともに含むコードブック項目を生成することによって生成される、
    ことを特徴とするシステム。
  14. ある第二のサンプリング周波数でサンプリングされたオーディオデータのスペクトル特性の組の帯域幅を該第二のサンプリング周波数よりも高いある第一のサンプリング周波数のスペクトル特性の組に拡張するための単一のコードブックを生成するシステムであって:
    ・第一のサンプリング周波数でサンプリングされたオーディオデータからスペクトル特性の第一の組を導出するコンバータと、
    ・前記オーディオデータに対して第二のサンプリング周波数へのサンプリングレート変換を実行し、前記第二のサンプリング周波数について対応するスペクトル特性の第二の組を導出するモジュールと、
    ・スペクトル特性の第二の組からの情報を前記スペクトル特性の第一の組から抽出された追加的な帯域幅拡張情報とともに含むコードブック項目を生成するコードブック項目生成器、
    とを有することを特徴とするシステム。
JP2006553731A 2004-02-18 2005-02-10 自動音声認識器のためのトレーニングデータを生成する方法およびシステム Expired - Fee Related JP5230103B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP04100646.1 2004-02-18
EP04100646 2004-02-18
PCT/IB2005/050518 WO2005083677A2 (en) 2004-02-18 2005-02-10 Method and system for generating training data for an automatic speech recogniser

Publications (2)

Publication Number Publication Date
JP2007523374A JP2007523374A (ja) 2007-08-16
JP5230103B2 true JP5230103B2 (ja) 2013-07-10

Family

ID=34896083

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006553731A Expired - Fee Related JP5230103B2 (ja) 2004-02-18 2005-02-10 自動音声認識器のためのトレーニングデータを生成する方法およびシステム

Country Status (5)

Country Link
US (1) US8438026B2 (ja)
EP (1) EP1719114A2 (ja)
JP (1) JP5230103B2 (ja)
CN (1) CN101014997B (ja)
WO (1) WO2005083677A2 (ja)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE60214027T2 (de) * 2001-11-14 2007-02-15 Matsushita Electric Industrial Co., Ltd., Kadoma Kodiervorrichtung und dekodiervorrichtung
US7983916B2 (en) * 2007-07-03 2011-07-19 General Motors Llc Sampling rate independent speech recognition
JP5326892B2 (ja) * 2008-12-26 2013-10-30 富士通株式会社 情報処理装置、プログラム、および音響モデルを生成する方法
JP5326714B2 (ja) * 2009-03-23 2013-10-30 沖電気工業株式会社 帯域拡張装置、方法及びプログラム、並びに、量子化雑音学習装置、方法及びプログラム
US8930185B2 (en) 2009-08-28 2015-01-06 International Business Machines Corporation Speech feature extraction apparatus, speech feature extraction method, and speech feature extraction program
US8538035B2 (en) 2010-04-29 2013-09-17 Audience, Inc. Multi-microphone robust noise suppression
US8473287B2 (en) 2010-04-19 2013-06-25 Audience, Inc. Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system
US8798290B1 (en) 2010-04-21 2014-08-05 Audience, Inc. Systems and methods for adaptive signal equalization
US8781137B1 (en) 2010-04-27 2014-07-15 Audience, Inc. Wind noise detection and suppression
US9245538B1 (en) * 2010-05-20 2016-01-26 Audience, Inc. Bandwidth enhancement of speech signals assisted by noise reduction
US8447596B2 (en) 2010-07-12 2013-05-21 Audience, Inc. Monaural noise suppression based on computational auditory scene analysis
ES2540995T3 (es) * 2010-08-24 2015-07-15 Veovox Sa Sistema y método para reconocer un comando de voz de usuario en un entorno con ruido
US9076446B2 (en) * 2012-03-22 2015-07-07 Qiguang Lin Method and apparatus for robust speaker and speech recognition
US9319510B2 (en) * 2013-02-15 2016-04-19 Qualcomm Incorporated Personalized bandwidth extension
CA2995530C (en) 2013-09-12 2018-07-24 Saudi Arabian Oil Company Dynamic threshold methods, systems, computer readable media, and program code for filtering noise and restoring attenuated high-frequency components of acoustic signals
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
US9842608B2 (en) * 2014-10-03 2017-12-12 Google Inc. Automatic selective gain control of audio data for speech recognition
CN104468001B (zh) * 2014-11-26 2017-04-19 北京邮电大学 基于无线电信号频谱特征模板的信号识别方法及系统
EP3265919B1 (en) * 2015-03-06 2021-09-29 Georgia Tech Research Corporation Device fingerprinting for cyber-physical systems
CN105989849B (zh) * 2015-06-03 2019-12-03 乐融致新电子科技(天津)有限公司 一种语音增强方法、语音识别方法、聚类方法及装置
CN105513590A (zh) * 2015-11-23 2016-04-20 百度在线网络技术(北京)有限公司 语音识别的方法和装置
CN108510979B (zh) 2017-02-27 2020-12-15 芋头科技(杭州)有限公司 一种混合频率声学识别模型的训练方法及语音识别方法
US10984795B2 (en) 2018-04-12 2021-04-20 Samsung Electronics Co., Ltd. Electronic apparatus and operation method thereof
CN109147806B (zh) * 2018-06-05 2021-11-12 安克创新科技股份有限公司 基于深度学习的语音音质增强方法、装置和系统
US11392794B2 (en) 2018-09-10 2022-07-19 Ca, Inc. Amplification of initial training data
US11295726B2 (en) 2019-04-08 2022-04-05 International Business Machines Corporation Synthetic narrowband data generation for narrowband automatic speech recognition systems
US11335329B2 (en) * 2019-08-28 2022-05-17 Tata Consultancy Services Limited Method and system for generating synthetic multi-conditioned data sets for robust automatic speech recognition
CN110459205B (zh) * 2019-09-24 2022-04-12 京东科技控股股份有限公司 语音识别方法及装置、计算机可存储介质
US11749281B2 (en) 2019-12-04 2023-09-05 Soundhound Ai Ip, Llc Neural speech-to-meaning
US11308938B2 (en) 2019-12-05 2022-04-19 Soundhound, Inc. Synthesizing speech recognition training data
CN111916103B (zh) * 2020-08-11 2024-02-20 南京拓灵智能科技有限公司 一种音频降噪方法和装置
CN112116903B (zh) * 2020-08-17 2024-09-13 北京大米科技有限公司 语音合成模型的生成方法、装置、存储介质及电子设备
CN112131865B (zh) * 2020-09-11 2023-12-08 成都运达科技股份有限公司 一种轨道交通报文数字压缩处理方法、装置及存储介质
CN113708863B (zh) * 2021-09-10 2023-08-01 中国人民解放军63891部队 频谱感知训练数据集的构建方法及装置
US20230186925A1 (en) * 2021-12-10 2023-06-15 Nuance Communications, Inc. Feature domain bandwidth extension and spectral rebalance for asr data augmentation

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2524472B2 (ja) * 1992-09-21 1996-08-14 インターナショナル・ビジネス・マシーンズ・コーポレイション 電話回線利用の音声認識システムを訓練する方法
JP2779886B2 (ja) * 1992-10-05 1998-07-23 日本電信電話株式会社 広帯域音声信号復元方法
US5455888A (en) * 1992-12-04 1995-10-03 Northern Telecom Limited Speech bandwidth extension method and apparatus
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
CN1061205C (zh) * 1997-07-24 2001-01-24 北京信威通信技术有限公司 扩频通信系统中载波恢复和补偿的方法及其装置
US6381571B1 (en) * 1998-05-01 2002-04-30 Texas Instruments Incorporated Sequential determination of utterance log-spectral mean by maximum a posteriori probability estimation
US6199041B1 (en) * 1998-11-20 2001-03-06 International Business Machines Corporation System and method for sampling rate transformation in speech recognition
CZ299508B6 (cs) 1999-02-19 2008-08-20 Custom Speech Usa, Inc. Systém automatické transkripce a zpusob užití dvou stupnu konverze reci a pocítacem podporovaná korekce
JP4244514B2 (ja) * 2000-10-23 2009-03-25 セイコーエプソン株式会社 音声認識方法および音声認識装置
JP4577543B2 (ja) * 2000-11-21 2010-11-10 ソニー株式会社 モデル適応装置およびモデル適応方法、記録媒体、並びに音声認識装置
JP2002189487A (ja) * 2000-12-20 2002-07-05 Mitsubishi Electric Corp 音声認識装置および音声認識方法
JP2002268698A (ja) * 2001-03-08 2002-09-20 Nec Corp 音声認識装置と標準パターン作成装置及び方法並びにプログラム
US6990447B2 (en) * 2001-11-15 2006-01-24 Microsoft Corportion Method and apparatus for denoising and deverberation using variational inference and strong speech models
CA2454296A1 (en) * 2003-12-29 2005-06-29 Nokia Corporation Method and device for speech enhancement in the presence of background noise
US7454338B2 (en) * 2005-02-08 2008-11-18 Microsoft Corporation Training wideband acoustic models in the cepstral domain using mixed-bandwidth training data and extended vectors for speech recognition

Also Published As

Publication number Publication date
CN101014997B (zh) 2012-04-04
WO2005083677A3 (en) 2006-12-21
CN101014997A (zh) 2007-08-08
WO2005083677A2 (en) 2005-09-09
JP2007523374A (ja) 2007-08-16
EP1719114A2 (en) 2006-11-08
US8438026B2 (en) 2013-05-07
US20080215322A1 (en) 2008-09-04

Similar Documents

Publication Publication Date Title
JP5230103B2 (ja) 自動音声認識器のためのトレーニングデータを生成する方法およびシステム
Shrawankar et al. Techniques for feature extraction in speech recognition system: A comparative study
CN106971741B (zh) 实时将语音进行分离的语音降噪的方法及系统
US6173258B1 (en) Method for reducing noise distortions in a speech recognition system
Hirsch et al. A new approach for the adaptation of HMMs to reverberation and background noise
Xiao et al. Normalization of the speech modulation spectra for robust speech recognition
WO2011024572A1 (ja) 音声特徴量抽出装置、音声特徴量抽出方法、及び音声特徴量抽出プログラム
JP2011530091A (ja) 特徴抽出を使用してスピーチ強調のためにオーディオ信号を処理する装置及び方法
CN108198545A (zh) 一种基于小波变换的语音识别方法
Siam et al. A novel speech enhancement method using Fourier series decomposition and spectral subtraction for robust speaker identification
Alam et al. Robust feature extraction based on an asymmetric level-dependent auditory filterbank and a subband spectrum enhancement technique
Alam et al. Robust feature extraction for speech recognition by enhancing auditory spectrum
Marković et al. Application of teager energy operator on linear and mel scales for whispered speech recognition
JPH10149191A (ja) モデル適応方法、装置およびその記憶媒体
CN107919115B (zh) 一种基于非线性谱变换的特征补偿方法
Makhijani et al. Speech enhancement using pitch detection approach for noisy environment
Hsieh et al. Employing median filtering to enhance the complex-valued acoustic spectrograms in modulation domain for noise-robust speech recognition
Upadhyay et al. Robust recognition of English speech in noisy environments using frequency warped signal processing
Hurmalainen et al. Modelling spectro-temporal dynamics in factorisation-based noise-robust automatic speech recognition
Kumar et al. Effective preprocessing of speech and acoustic features extraction for spoken language identification
Tzudir et al. Low-resource dialect identification in Ao using noise robust mean Hilbert envelope coefficients
Maged et al. Improving speaker identification system using discrete wavelet transform and AWGN
JPH07121197A (ja) 学習式音声認識方法
Singh et al. A comparative study of recognition of speech using improved MFCC algorithms and Rasta filters
Upadhyay et al. Bark scaled oversampled WPT based speech recognition enhancement in noisy environments

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101005

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20101227

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110107

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110404

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110531

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110929

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20111007

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20111222

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120406

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120411

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20120706

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20121120

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130128

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130319

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160329

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5230103

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees