JP2004341493A - 音声前処理方法 - Google Patents
音声前処理方法 Download PDFInfo
- Publication number
- JP2004341493A JP2004341493A JP2004078939A JP2004078939A JP2004341493A JP 2004341493 A JP2004341493 A JP 2004341493A JP 2004078939 A JP2004078939 A JP 2004078939A JP 2004078939 A JP2004078939 A JP 2004078939A JP 2004341493 A JP2004341493 A JP 2004341493A
- Authority
- JP
- Japan
- Prior art keywords
- band
- frequency
- full
- likelihood
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 88
- 238000007781 pre-processing Methods 0.000 title claims abstract description 28
- 230000001419 dependent effect Effects 0.000 claims abstract description 47
- 238000001228 spectrum Methods 0.000 claims abstract description 46
- 238000001914 filtration Methods 0.000 claims description 37
- 230000005236 sound signal Effects 0.000 claims description 26
- 238000004590 computer program Methods 0.000 claims description 5
- NGVDGCNFYWLIFO-UHFFFAOYSA-N pyridoxal 5'-phosphate Chemical compound CC1=NC=C(COP(O)(O)=O)C(C=O)=C1O NGVDGCNFYWLIFO-UHFFFAOYSA-N 0.000 claims description 4
- 238000011410 subtraction method Methods 0.000 claims description 4
- 239000013598 vector Substances 0.000 description 15
- 238000000605 extraction Methods 0.000 description 12
- 230000003595 spectral effect Effects 0.000 description 11
- 230000015556 catabolic process Effects 0.000 description 10
- 238000006731 degradation reaction Methods 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 239000000047 product Substances 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000036039 immunity Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 239000006227 byproduct Substances 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
【課題】ノイズによって妨害される可能性のある音声信号に対し、音声認識のための前処理方法を提供する。
【解決手段】音声信号を受け取り、音声信号のスペクトルを所与数のサブバンドに分け、各サブバンド内の音声信号を解析し、各サブバンドに関して音声信号を少なくとも部分的に代表的する各帯域依存の音響特徴データを生成する。帯域依存の音響特徴データ及び/又はその派生物に基づいた音声信号内の音声要素の、又はその列の発生について、帯域依存の尤度を導き出す。スペクトル全体内の音声信号を解析し、スペクトル全体に関して音声信号を少なくとも部分的に代表する、フル帯域の音響特徴データを生成し、音声要素の、又はフル帯域の音響特徴データ及び/又はその派生物に基づいた音声信号の内の音声要素列の発生について、フル帯域の尤度を導き出す。帯域依存の尤度及びフル帯域の尤度に基づいた、音声信号内の音声要素列の発生について、総合的尤度を導き出す。
【選択図】図1
【解決手段】音声信号を受け取り、音声信号のスペクトルを所与数のサブバンドに分け、各サブバンド内の音声信号を解析し、各サブバンドに関して音声信号を少なくとも部分的に代表的する各帯域依存の音響特徴データを生成する。帯域依存の音響特徴データ及び/又はその派生物に基づいた音声信号内の音声要素の、又はその列の発生について、帯域依存の尤度を導き出す。スペクトル全体内の音声信号を解析し、スペクトル全体に関して音声信号を少なくとも部分的に代表する、フル帯域の音響特徴データを生成し、音声要素の、又はフル帯域の音響特徴データ及び/又はその派生物に基づいた音声信号の内の音声要素列の発生について、フル帯域の尤度を導き出す。帯域依存の尤度及びフル帯域の尤度に基づいた、音声信号内の音声要素列の発生について、総合的尤度を導き出す。
【選択図】図1
Description
本発明は、音声前処理方法に関し、特に音声認識方法に関する。
自動音声認識システムは、スペクトル特徴の観点から、広範囲の付加的なノイズにさらされる。実際の環境では、例えば電話、時計などの部分的な周波数帯劣化は、例えば自動車騒音、会議バックグラウンドノイズなどの未知の広帯域ノイズと、例えば音楽などの非定常(non-stationary)ノイズと共存する。一般に、次の種類のノイズ、すなわち広帯域の非定常ノイズ、広帯域の定常(stationary)ノイズ、狭帯域の非定常ノイズ及び狭帯域の定常ノイズが存在する。
ロバストな音声認識を鑑みれば、なるべく多くの種類のノイズに対処することができるシステムを準備することが望ましい。しかしながら、ノイズに対処するために、音声認識システム内に適用された、これまで知られている方法は、単に言及された種類のノイズのうちの1つに良く対処することができるだけであり、例えば、特定の方法では、非定常的な、部分的な周波数帯劣化(すなわち狭帯域ノイズ)だけが良く処理される。一方、広帯域のノイズは、この特定の方法では効果的に処理されないので、広帯域のノイズが生じる場合は、適切な認識結果が得られない。
"Union: A new approach for combining sub-band observations for noisy speech recognition" by J. Ming and F. J. Smith, Speech Communication, Vol. 34, Issue 1-2, April 2001, pp 41-45
"Time and frequency filtering of filter-bank energies for robust HMM speech recognition" by C. Nadeu, D. Macho, and J. Hernando, Speech Communication, Vol. 34, Issue 1-2, April 2001, pp 93-114
本発明の目的は、音声認識方法に関し、特に部分的な周波数帯劣化、非定常ノイズ及び/又は広帯域のノイズのうちのいずれかによって妨害される可能性のある音声信号に関する認識率を改善させる、音声前処理方法を提供することである。
本発明の目的を達成するためには、本発明は、特に音声認識方法において、音声前処理方法を提供する。さらに、本発明は、音声処理システム、コンピュータプログラム製品及びコンピュータで読出し可能な記憶媒体に適用された音声前処理システムを提供する。
ノイズがある状態での音声認識は、重要問題である。あるノイズ状態に対する音声認識ロバストさを改善させることを目指して、有用なアルゴリズムは存在するが、サブバンド組合せのための確率的ユニオンモデルが、部分的な未知の周波数帯劣化に関する音声認識のための答えとして注目されている。他方では、ここ数年、周波数フィルタリングから導き出されたフロントエンドが、純粋及び騒音双方のHMM音声認識で使用されてきた。本発明は、特定のノイズ状況(すなわち狭帯域ノイズ、広帯域のノイズ)のために調整されたストリームで、上記の技術を組み合わせるためのユニオンモデルの新しい使用を提案する。
本発明に係る音声前処理方法は、特に音声認識方法において、音声信号を受け取るステップと、音声信号のスペクトルを所与数の所定周波数サブバンドに分割するステップと、各々の周波数サブバンド(部分帯域)内の音声信号を解析するステップと、これによって、その帯域依存音響特徴データが、それぞれの周波数サブバンドに関して音声信号を少なくとも部分的に代表する各々のそれぞれの周波数サブバンドについてそれぞれの帯域依存音響特徴データを生成するステップと、帯域依存音響特徴データ及び/又はその派生物に基づいた音声信号内の音声要素の、又はその配列の発生についての帯域依存尤度を導き出すステップと、スペクトル全体内の音声信号を解析し、これによって、スペクトル全体に関して音声信号を少なくとも部分的に代表する、フル帯域の音響特徴データを生成するステップと、フル帯域の音響特徴データ及び/又はその派生物に基づいた音声信号内の音声要素の、又はその配列の発生についてのフル帯域の尤度を導き出すステップと、帯域依存尤度及びフル帯域の尤度に基づいた音声信号内の音声要素の又はその配列の発生についての総合的尤度を導き出すステップとを含む。音声要素とは、例えば単語、音素、副音素を含む。
本発明によれば、音声信号のスペクトルは、所与数の所定周波数サブバンドに分割された音響特徴データは、各周波数サブバンドで抽出される。そして、これらは各周波数帯域の帯域依存尤度を決定するために使用される。これと平行して、音声信号のスペクトルは全周波数帯域で解析される。これによって、追加の音響特徴データが生成され、そして、これは、全スペクトルに依存する尤度項を導き出すために使用される。そして、帯域依存尤度及び尤度項は、帯域依存尤度及び尤度項の異なる尤度寄与を加えることにより、総合的尤度を算出するために組み合わせられる。総合的尤度は、帯域依存尤度又はその結合のいずれかによって、又は音声信号のノイズの種類に依存する尤度項によって支配される。すなわち、モデルは、ノイズの種類に自動的に適応する。広帯域のノイズが音声信号に存在していれば、尤度項は総合的尤度を支配する。その理由として、広帯域のノイズに強いフロントエンドが使用され得るからである。広帯域のノイズに強いフロントエンドとしては、広帯域のノイズに対してロバストな、任意のフロントエンドを使用することができる。例えば、特徴抽出には周波数フィルタリングフロントエンドを使用することができるので、広帯域のノイズを効果的に扱うことができる。しかしながら、狭帯域ノイズが音声信号内に存在する場合、帯域依存尤度の総合的尤度に対する尤度寄与が支配する。この理由は、例えば、周波数サブバンドのうちの1つだけがゆがんでいるので、ゆがんでいない周波数サブバンドからの帯域依存尤度が支配的となるからである。
好ましくは、総合的尤度を導き出す場合、周波数サブバンドの劣化させていない周波数サブバンド数を決定し、それぞれの周波数サブバンドに対応し異なる帯域依存尤度の生成物のあり得る組合せを加えることにより、帯域依存尤度は、ユニオンモデル尤度(union model likelihood)にまとめられる。すなわち、幾つかの劣化した周波数サブバンドが想定されて、生成物は、想定した劣化周波数サブバンドのその数に依存する。各加数の因子数は、劣化する、すなわちゆがまされると想定されたサブバンド周波数の数を引いた所定周波数サブバンドの所与数に等しい。加数の数は、周波数サブバンドの数(次の方程式中、Nで示されている)を、周波数サブバンドの数マイナス歪まされると想定される周波数サブバンドの数(次の方程式中Mで表示されている)で割ったものに等しく、すなわち、加数の数量(number of addends)は、次の二項方程式で与えられる。
好ましくは、そして、異なる生成物が、ユニオンモデル尤度を生成するために付加される。ユニオンモデル尤度は、歪んでいないか又は少しだけゆがんでいる、帯域依存尤度を含んでいる生成物によって支配される。
さらに、好ましくは、帯域依存音響特徴データ(O1,・・・,ON)は、それぞれの帯域依存メル周波数ケプストラム係数特徴を含んでいるが、メル周波数のケプストラム係数及び/又はそのそれぞれの周波数サブバンド(F1,・・・,FN)から導き出された派生物に基づく。これは、メル周波数のケプストラム係数特徴抽出が、各々の周波数サブバンドで実行されるということをいう。
好ましくは、所定の耐広帯域ノイズ技術を、尤度項を導き出す前にしようしてもよい。これは、フル帯域の音響特徴データは、他の耐広帯域ノイズ技術も含めてもよいことを意味する。
耐広帯域ノイズ技術は、周波数フィルタリング技術に基づくことができる。
また、耐広帯域ノイズ技術は、スペクトル減算方法に基づくことができる。
フル帯域の音響特徴データは、スペクトル全体から導き出されたフィルタバンクエネルギに基づくフィルタバンクエネルギ特徴を含むことができる。項スペクトルは、フィルタバンクエネルギの導出、すなわち、メルスケールされたフィルタバンクの使用の前に、音声認識システムで典型的に使用されるようなパワー密度スペクトルを参照する。また、音声認識方法としては、フィルタバンクエネルギの対数は典型的に使用されるものとして考えられている。
さらに、フル帯域の音響特徴データが、スペクトル全体から導き出された濾波フィルタバンクエネルギに基づく濾波フィルタバンクエネルギ特徴を含むことは有利である。このようにして、広帯域のノイズの影響を効果的に減らすことができる。すなわち、周波数をフィルタリングするフロントエンドは、フル帯域の対数のフィルタバンクエネルギに適用される。なお、全てのフィルタバンクエネルギが、対数のフィルタバンクエネルギであることから、以下では、対数が得られるということが明記されない場合がある。
さらに、好ましくは、フル帯域の音響特徴データは、メル周波数ケプストラム係数及び/又はその派生物(スペクトル全体から導き出されたもの)に基づく、フル帯域のメル周波数ケプストラム係数特徴を含む。これらの特徴はさらに全体のスペクトルに関する情報を含んでいるので、音声信号にノイズが存在しない場合は、効果的に使用することができる。
フル帯域の音響特徴データ及び/又は帯域依存音響特徴データは、PLP線形予測フィルタ係数に基づくPLP線形予測フィルタ特徴をさらに含むことができる。一般に、他の種類の特徴、例えば対数のフィルタバンクエネルギ特徴を直接に、又はその派生物、すなわちフィルタリングなしで適用することもできる。典型的な派生物は、ケプストラム特徴を含むことができる。
フル帯域の音響特徴データは、フル帯域のメル周波数のケプストラム係数特徴にスペクトル減算方法を適用することにより生成される、スペクトルで変更されたフル帯域のメル周波数ケプストラム係数特徴も含むことができる。したがって、ノイズ推定方法は、音声信号に存在するノイズを検知して実行される。この技術は、効果的に広帯域のノイズにも適用される。
全ての場合に、帯域依存尤度及び尤度項は、確率推定器を使用して求めることができる。確率推定器は、様々な種類のノイズによって劣化した音声を含んでいるデータでトレーニングすることが可能である。
好ましくは、濾波フィルタバンクエネルギは、第2のフィルタバンクエネルギから第1のフィルタバンクエネルギを減算させることにより、フィルタバンクエネルギから導き出される。ここで、第1のフィルタバンクエネルギは、第1の個別周波数に対応し、第2のフィルタバンクエネルギは、第2の個別周波数に対応し、前記第1のフィルタバンクエネルギの後に、2つの個別周波数ステップを展開させる。
特に音声処理システムに含まれた、本発明に係る音声前処理システムは、上に定義されるような音声前処理方法及び/又はそのステップを実行又は実現することができる。本発明に係るコンピュータプログラム製品は、コンピュータ上で実行される場合、音声前処理方法及び/又はそのステップを実行及び/又は実現するように適用されたコンピュータプログラム手段、ディジタル信号処理手段及び/又は同様なものを格納する。
本発明に係るコンピュータで読出し可能な記憶媒体に、上述されたようなコンピュータプログラム製品を格納することができる。
本発明は、音声認識方法に関し、特に部分的な周波数帯劣化、非定常ノイズ及び/又は広帯域のノイズのうちのいずれかによって妨害される可能性のある音声信号に関する認識率を改善させる音声前処理方法を提供することができる。
本発明及び利点の詳細は、以下の添付図面を参照して、その例示的な実施例により、説明する。
先ず、図1のステップST1において、対数のパワー密度スペクトルPDSは、次の方程式によって導き出される。
PDS=log|E|2 (1)
次に、ステップST2において、フィルタバンクエネルギlogFBEは、全帯域から、すなわち全スペクトルについて導き出される。そして、ステップST3において、全帯域からのフィルタバンクエネルギlogFBEは、所定数の周波数サブバンドに分離される。なお、図1に示す実施例では、周波数サブバンドは、第1の周波数サブバンドF1、第2の周波数サブバンドF2及び第3の周波数サブバンドF3である。また、これらは、一般に使用されるような対数のフィルタバンクエネルギlogFBEであることに留意すべきである。
次に、ステップST2において、フィルタバンクエネルギlogFBEは、全帯域から、すなわち全スペクトルについて導き出される。そして、ステップST3において、全帯域からのフィルタバンクエネルギlogFBEは、所定数の周波数サブバンドに分離される。なお、図1に示す実施例では、周波数サブバンドは、第1の周波数サブバンドF1、第2の周波数サブバンドF2及び第3の周波数サブバンドF3である。また、これらは、一般に使用されるような対数のフィルタバンクエネルギlogFBEであることに留意すべきである。
その結果、第1のサブバンドフィルタバンクエネルギFBE−F1、第2のサブバンドフィルタバンクエネルギFBE−F2及び第3のサブバンドフィルタバンクエネルギFBE−F3が得られる。ステップST4において、これらのサブバンドフィルタバンクエネルギFBE−F1〜FBE−F3から、メル周波数のケプストラム係数が導き出される。すなわち、MFCC特徴抽出は、周波数サブバンド(すなわち第1のサブバンドフィルタバンクエネルギFBE−F1、第2のサブバンドフィルタバンクエネルギFBE−F2及び第3のサブバンドフィルタバンクエネルギFBE−F3)の各々について実行される。
各周波数サブバンドのMFCC特徴抽出の結果は、帯域依存音響特徴データである。すなわち、第1のサブバンド音響特徴データO1は、第1のサブバンドフィルタバンクエネルギFBE−F1から導き出され、第2のサブバンド音響特徴データO2は、第2のサブバンドフィルタバンクエネルギFBE−F2から導き出され、かつ、第3のサブバンド音響特徴データO3は、第3のサブバンドフィルタバンクエネルギFBE−F3から導き出される。
そして、ステップST5において、導き出されたサブバンド音響特徴データは、入力として、音声信号に対応する音声要素用の各サブバンド音響特徴データで帯域依存尤度を推定する確率推定器PEに使用される。音声要素は、例えば、言葉、声音又は副音声単位である。これは、確率推定器PEが、第1のサブバンド音響特徴データO1からの第1の帯域依存尤度b1、第2のサブバンド音響特徴データO2からの第2の帯域依存尤度b2及び第3のサブバンド音響特徴データO3からの第3の帯域依存尤度b3を推定することをいう。そして、ステップST6において、これらの帯域依存尤度b1〜b3は、ユニオンモデル尤度BU,MFCCに組み合わせられる。ユニオンモデル尤度BU,MFCCを計算する定式は、歪まされると仮定された周波数サブバンドの数Mに依って異なる。
ユニオンモデル尤度BU,MFCCの推定は、方程式(2)によって、以下に、ユニオンモデルとするが、これは、非特許文献1に、詳細に説明されている。ユニオンモデルに関する限り、この先行技術記録が参照され、その内容は、参照により本願に援用される。
ユニオンモデル尤度BU,MFCCは、次のように書くことができる。
図1の実施例では、ユニオンモデル尤度BU,MFCCは、上に説明されるような方程式(2)で与えられる。すなわち、方程式(3)は、方程式(2)に単純化される。
ユニオンモデル尤度BU,MFCCの決定に関して、上記の説明は、全て、後で、部分Aと称されるが、これは、図1中でそのように表示される。
図1の右側に、周波数フィルタ尤度項BFFを決定する第1の実施例が示されている。この第1の実施例では、ステップST7において、対数のフィルタバンクエネルギ特徴抽出logFBEは、音声信号Sのスペクトル全体Fに関して実行される。その結果、スペクトル全体Fの、フル帯域のフィルタバンクエネルギ特徴FBE−Fが得られる。
ところで、フル帯域のフィルタバンクエネルギ特徴FBE−Fは、耐広帯域ノイズのフロントエンドに供される。なお、任意の耐広帯域ノイズのフロントエンド、すなわち広帯域のノイズに対してロバスト任意のフロントエンドを使用することができる。耐広帯域ノイズのフロントエンドを使用しないことも可能である。しかしながら、図1の実施例において、周波数フィルタリングフロントエンドが、使用されており、これは、非特許文献2で詳細に説明されている。周波数フィルタリングに関する限り、この非特許文献2を参照すればよく、その内容は、参照により本願に援用される。
また、図1に示すように、ステップST8において、広帯域のノイズに対処するために、フル帯域のフィルタバンクエネルギ特徴FBE−Fは、次の方程式により、周波数フィルタリングされる。
f’(i)=f(i+1)・f(i−1) (4)
その結果、スペクトル全体Fの濾波フィルタバンクエネルギ特徴FFBEが得られる。方程式(4)の意味は、次の通りである。ある個別周波数iにおける、前記濾波フィルタバンクエネルギ特徴FFBEの濾波フィルタバンクエネルギ値を得るために、方程式(4)のf(i−1)に対応する前のフィルタバンクエネルギFBEi−1の値は、方程式(4)中でf(i+1)に対応する次のフィルタバンクエネルギFBEi+1から引かれる。方程式(4)の変数iの値は、図3の中で示されるような個別周波数に対応する。f(i+1)及びf(i−1)の値は、対応するフーリエ変換の係数に対応する。すなわち、これは、周波数フィルタリングが、周囲の特徴ベクトルとは無関係に各特徴ベクトルについて、なされたことをいう。特徴ベクトルは、これによって、音声信号Sから10ミリ秒ごとに抽出される。
その結果、スペクトル全体Fの濾波フィルタバンクエネルギ特徴FFBEが得られる。方程式(4)の意味は、次の通りである。ある個別周波数iにおける、前記濾波フィルタバンクエネルギ特徴FFBEの濾波フィルタバンクエネルギ値を得るために、方程式(4)のf(i−1)に対応する前のフィルタバンクエネルギFBEi−1の値は、方程式(4)中でf(i+1)に対応する次のフィルタバンクエネルギFBEi+1から引かれる。方程式(4)の変数iの値は、図3の中で示されるような個別周波数に対応する。f(i+1)及びf(i−1)の値は、対応するフーリエ変換の係数に対応する。すなわち、これは、周波数フィルタリングが、周囲の特徴ベクトルとは無関係に各特徴ベクトルについて、なされたことをいう。特徴ベクトルは、これによって、音声信号Sから10ミリ秒ごとに抽出される。
方程式(4)は、以下のように書くこともできる。
FFBEi=FBEi+1・FBEi−1 (5)
上述のように、これは、次のことをいう。ある周波数iの濾波フィルタバンクエネルギ値FFBEiは、次の周波数i+1に対応するフィルタバンクエネルギ値FBEi+1から、前の周波数i−1に対応するフィルタバンクエネルギ値FBEi−1を引くことにより計算することができる。
上述のように、これは、次のことをいう。ある周波数iの濾波フィルタバンクエネルギ値FFBEiは、次の周波数i+1に対応するフィルタバンクエネルギ値FBEi+1から、前の周波数i−1に対応するフィルタバンクエネルギ値FBEi−1を引くことにより計算することができる。
そして、ステップST9において、濾波フィルタバンクエネルギ特徴FFBEは、そして、周波数フィルタリングされた尤度項BFFを推定する確率推定器PEへの入力として使用される。
そして、ステップST10において、ユニオンモデル尤度BU,MFCCと周波数フィルタリングされた尤度項BFFは、次のように与えられる総合的尤度Bに組み合わせられる。
B∝BU,MFCC+BFF (6)
図2の右側に、総合的尤度Bを決定する第2の実施例B2を示す。この第2の実施例では、スペクトルの差引尤度項BSSUBが、ユニオンモデル尤度BU,MFCCと結合される。
図2の右側に、総合的尤度Bを決定する第2の実施例B2を示す。この第2の実施例では、スペクトルの差引尤度項BSSUBが、ユニオンモデル尤度BU,MFCCと結合される。
このスペクトルの差引尤度項BSSUBの決定のために、最初に、ステップST11において、パワー密度スペクトルPDS内のノイズが決定される。パワー密度スペクトルPDSは、音声信号Sから導き出される。ノイズ推定の結果は、推定されたノイズENである。
そして、ステップST12において、入力として推定されたノイズEN及びパワー密度スペクトルPDSを使用する、スペクトル減算SSUBの方法が適用される。スペクトル減算SSUBの方法の出力は、パワー密度スペクトル−スペクトル減算特徴PDS−SSUBである。
ステップST13において、これらのパワー密度スペクトル−スペクトル減算特徴PDS−SSUBは、対数のフィルタバンクエネルギ特徴抽出logFBEに供せられる。これにより、フル帯域のスペクトルで引かれたフィルタバンクエネルギFBE−F−SSUBが導き出される。これらのフル帯域のスペクトルで引かれたフィルタバンクエネルギFBE−F−SSUBは、ステップST14において、メル周波数のケプストラム係数MFCC特徴抽出に供されるが、ここではスペクトルで変更されたフル帯域のメル周波数ケプストラム係数特徴OF,SSUBが生成される。そして、ステップST15において、これら、スペクトルで変更されたフル帯域のメル周波数ケプストラム係数特徴OF,SSUBは、スペクトルの差引尤度項BSSUBを推定するために確率推定器PEによって使用される。
最後に、ステップST16において、図1の部分Aによって決定されるユニオンモデル尤度BU,MFCCとスペクトルの差引尤度項BSSUBは、総合的尤度Bに以下のように組み合わせられる。
B∝BU,MFCC+BSSUB (7)
図3は、フィルタバンクエネルギ特徴抽出logFBEを示す。この底は、パワー密度スペクトルPDSを形成する。パワー密度スペクトルPDSの周波数範囲は、オーバラップ間隔(重み関数が各間隔に割り当てられる)に分離される。間隔は、人間の耳の分解能によって選択される。すなわち、高密度の間隔が、人間の耳の敏感な部位内に生じ、低密度の間隔が人間の耳のそれ程敏感でない部位内に生じる。
図3は、フィルタバンクエネルギ特徴抽出logFBEを示す。この底は、パワー密度スペクトルPDSを形成する。パワー密度スペクトルPDSの周波数範囲は、オーバラップ間隔(重み関数が各間隔に割り当てられる)に分離される。間隔は、人間の耳の分解能によって選択される。すなわち、高密度の間隔が、人間の耳の敏感な部位内に生じ、低密度の間隔が人間の耳のそれ程敏感でない部位内に生じる。
本発明は、ユニオンモデル方法へ広帯域ノイズ取消技術の統合を行う。ユニオンモデル方法は、非定常ノイズを含む狭帯域ノイズに対処するための強力な技術である。しかしながら、ユニオンモデル方法は、従来の技術がより良く行うように見えるところでも、定常広帯域ノイズに対しては、余り適していない。ユニオンモデル概念へのそのような技術の統合により、任意の環境で、どんな種類のノイズも対処が可能となる。
周波数フィルタリングフロントエンドとユニオンモデルの組合せの背景理論は、広帯域についてばかりでなくまた帯域依存のあるノイズについても、ユニオンモデル概念の強化として、周波数に集中したノイズが、近くの対数のメルフィルタバンクエネルギ(H(z)=z−z−1)だけを劣化させると仮定する。しかしながら、5つのサブバンド(より多数のサブバンドが、スペクトル依存の多くを無視することができ、それにより、音声の識別が貧弱になることが、実験的にテストされた)を有するシステムを仮定した場合、ノイズのあるサブバンドが極めて少数であるので、これらが適切に位置している場合には、全体の帯域幅を劣化させることができる。したがって、技術のそのような組合せは広帯域ノイズに対するロバストさを改善させることができたが、それらは帯域制限されたノイズには極めて不安定で、予測不能になった。この時点では、広帯域で、帯域制限されたノイズに対処することができる技術を見つけるという課題は、まだ解決されていない。
フロントエンドとしてのMFCC特徴抽出を備えたユニオンモデル方法は、帯域依存追加ノイズの推定によって、及び尤度計算において歪まされた信号帯域の寄与を効果的に無視することによって、信号の品質劣化を克服する。
N==3とM==1についての具体例
フル帯域に基づいた音声認識に適用された周波数フィルタリングフロントエンドは、様々な種類の広帯域の現実のノイズによって劣化した音声用のケプストラム係数よりもよい結果を得る。
両方の種類のノイズ(広帯域ノイズ及び帯域制限されたノイズ)に対処し得るようにする適切な方法で、両方の技術を組み合わせるために、周波数フィルタリングフロントエンドは、ユニオンモデルからの出力確率推定の定式で追加因子として統合される。この方法の主な目的は、出力確率推定から最も適切なものを自動的に選択して、広帯域のノイズについての周波数フィルタリング、及び狭帯域ノイズの場合にはMFCC特徴抽出を使用するモデルを備えることである。
情報(同じ周波数帯からの特徴の異なる群)の二重抽出は、1つの相違技術と見なすことができ、結果的に、よりロバストシステムになる。
N+1個のストリームを備えたユニオンモデルは、MFCCフロントエンド(各サブバンドについて特徴ベクトルの計算)についてのN、及び周波数フィルタリング方法についての1であるが、フル帯域(全体の帯域について単一特徴ベクトルの計算)に適用される。
スペクトル減算と称する音声で音響追加ノイズを抑えるための追加技術があるが、これは、定常広帯域ノイズに対して極めて有効であることが分かった。この方法での主な限定としては、非定常ノイズに対処するには無力なことである。また、これがユニオンモデルの利点の1つであることから、これらの組合せは有用であると考えられる。上記のような同じ概念に続いて、N+1個のストリームを備えたユニオンモデルが得られるが、ここで、Nは、MFCCフロントエンド(各サブバンドについての特徴ベクトルの計算)のためであり、1は、フル帯域(全体の帯域について単一特徴ベクトルの計算)に適用されるMFCC+スペクトル減算のためである。
同様な概念は、次のような一般的な出力確率推定と共に、任意の耐広帯域ノイズ技術のために適用することができる。
さらに、以下では、周波数フィルタリングのフル帯域のフロントエンドのための付加的なストリームと共に、広帯域ノイズについてのユニオンモデル方法の拡張として説明する。
本発明は、広帯域ノイズに対するロバストさが可能になるユニオンモデル方法の拡張を提案するものである。最近の多くの研究は、フロントエンドとして、メル周波数ケプストラム係数(MFCC)を備えたユニオンモデル方法が、ノイズに関する情報を必要とせずに、帯域制限劣化に対するロバストさを提供することを明らかにしている。他方では、フル帯域に基づいた音声認識に適用される周波数フィルタリングフロントエンドは、様々な種類の広帯域の現実のノイズによって劣化した音声についてのケプストラム係数よりも、良い結果を達成することが明示されている。両方の種類のノイズ(広帯域ノイズ及び帯域依存ノイズ)に対処できる適切な方法で、これらの技術を組み合わせるために、フル帯域用の周波数フィルタリングフロントエンドは、ユニオンモデルでの追加ストリームとして統合される。情報の二重抽出、すなわち、同じ周波数帯からの異なる特徴群は、一種の多様化方策と見なすことができるので、結果的に、よりロバストなシステムが得られる。
自動音声認識システムは、スペクトル特徴の観点からは広範囲のノイズにさらされる。実際の環境では、部分的な周波数帯劣化(例えば電話、時計など)は、未知の広帯域ノイズ(例えば自動車騒音、会議バックグラウンドノイズなど)と、非定常ノイズ(例えば音楽)と共存する。サブバンドに基づいた音声認識方法に関する限り、ユニオンモデルは、狭帯域ノイズ、特に非定常ノイズに対処するための強力な技術であることを示した。しかしながら、下記の実験で分かるように、ユニオンモデルは、従来の技術がより良く実行するように見えるところでも、定常広帯域ノイズに対しては、適していない。このような技術の主な欠点は、通常は、ノイズに関するある予備知識を必要とするということである。最近、フル帯域の方法のための周波数フィルタリングフロントエンドは、未知の広帯域ノイズがある状態で、音声認識用のケプストラム係数の明らかな代わりであることが分かった。
ロバストな音声認識の視点から見て、なるべく多くの種類のノイズに対処することができるシステムを備えていることが望ましい。確率的なユニオンモデルと周波数フィルタリング技術の組合せは、公知であり、周波数に集中したノイズ及び広帯域ノイズの両方に対処できるという利点があるが、これは、以下に説明されるように、特定の状況下のみに適用できる。
本発明は、ユニオンモデルの付加的なストリームとして、フル帯域に適用された周波数フィルタリングフロントエンドを統合することに基づいており、独立した項として出力確率計算の和として表れる。基本的には、狭帯域ノイズの場合にはサブバンド方法と結合したケプストラム係数を、広帯域ノイズについてフル帯域の方法でフィルタリングする周波数を使用するモデルを備え、出力確率計算から最も適切なものを自動的に選択することを狙う。両方の技術の新たなる組合せにより、システムは、異なる種類のノイズに対してロバストになる。また、下記結果から分かるように、特定の場合には、個々の対応する技術を使用するよりも組合せの方が良い結果を生み出す。
以下において、確率的ユニオンモデルを簡潔に説明する。
ユニオンモデルは、帯域制限された追加ノイズがある状態での尤度組合せで知られている。本質的に、信号は、N個の周波数帯に分割される。M(M<N)個の帯域が歪まされるという推定の下では、N−M個全ての帯域組合せの尤度寄与の合計として、尤度(すなわち総出力確率)は計算することができる。主要な概念としては、組合せが劣化帯域を含んでいる場合、その尤度が極めて低いということである。したがって、個々の尤度寄与の合計は、ノイズの多い帯域が除外されている帯域の1つの組合せによって支配される。ユニオンモデルの特徴は、どの帯域が劣化するかを知る必要がないということである。
例えば、N=5個の帯域と、そのうちM=1個で騒々しい(ノイズを多く含めた)と仮定すれば、出力確率推定は次の通りとなる。
この概念を考慮に入れて、対角線の共分散及び20の特徴ベクトル(すなわち、6つのMFCC、7つのΔMFCC及び7つのΔΔMFCC)を備えた三声音(triphone)HMMに基づいた前のフル帯域のベースラインシステムが、各フレームについて、トレーニングされた。複数帯域システムは、各々8つの特徴ベクトル(すなわち4つのMFCC、4つのΔMFCC)を備えた5つのストリームに対応する5つのサブバンドを持っている。両方のシステムは純粋な音声でトレーニングされる。
評価に使用されたデータベースは、15人の話者によって記録された100のドイツの住所及び都市名を含んでいる。表1で示された実験結果は、他のデータベース、特に350の語彙サイズを備えた命令制御タスクについて、同様の実行結果を示している。
表1の最初の2列は、様々なノイズ状態下で、両方のシステムの評価からの結果を再生する。4つの帯域依存ノイズ(すなわち2つの人工、2つの実際のノイズ、3つの音楽及び2つの広帯域ノイズ)は、実験中に純粋な状態でテストされる。これらのノイズのスペクトルは、図4に図示されている。その結果から、認識率に関するバリエーションは極めて小さいが、帯域劣化がないので、より純粋な音声が、フル帯域の方法によって一層特徴づけられることを確認することができる。帯域制限されたノイズ全体については、フル帯域に関するユニオンモデル方法において、改善が確認できる。音楽は、あるサブバンドのノイズの集中度に依存する、異なる性質を示す。同時に、広帯域ノイズでの能力は、極端に減少する。
表1の実験は、最良の認識率から得られて、M(すなわち想定するノイズのある帯域の数)の異なる値に対応する。劣化するノイズに関する認識を与えられずに、観察中に劣化したサブバンドを受け入れる(accommodate)適切なオーダを選択するために、先行技術中で提案された自動的なオーダ選択アルゴリズムに頼ることができる。
以下において、周波数フィルタリングに関して、より詳細な説明をする。
周波数フィルタリングフロントエンドは、ケプストラム係数の代わりとして、ノイズのある音声認識について使用された。これは、非相関性の影響及び周波数領域にあるという利点を与え、対数フィルタバンクエネルギ(FBE)のフィルタリングにより、1群の特徴パラメータを生成することを狙う。
本発明の実施例によれば、伝達関数z−z−1を備えたFIRフィルタは、15の対数のFBEに適用され、また、デルタパラメータが、計算されて、結果的に45の特徴ベクトルとなる。
表1の3列目は、純粋な音声を含め、前述のノイズ状態について行われた実験を示す。純粋な状態では、その結果は、MFCCを備えたフル帯域の方法に類似する。期待されていた通りに、音楽及び広帯域のノイズについて、著しい向上があったが、一方では、狭帯域ノイズについての結果は、従来システムのうち、どれと比較しても、低い。周波数フィルタリングの成功は、ある程度、フィルタバンク間のノイズ取消能力によるものであり、ノイズが周波数領域において定常という推定に基づいているが、狭帯域ノイズの場合は適用しない。
以下に、周波数フィルタリングフロントエンドを備えたユニオンモデルについて説明する。
周波数フィルタリングは、MFCCの代わりに、確率的ユニオンモデルの5つのサブバンドの各々について、9つの特徴ベクトルを生成するために使用される。その目的は、狭帯域ノイズの場合には、対応するサブバンドのノイズが分離でき、他のサブバンドは影響されないという、この方法による良好なノイズ検出機能を活用する。同時に、広帯域ノイズに対するロバストさを与える。
周波数フィルタリングフロントエンドを備えたユニオンモデルの組合せは、ユニオンモデル概念に対する改善点として、広帯域のみならず、帯域依存ノイズについて、周波数に限定されたノイズが、近くの対数のメルフィルタバンクエネルギ(H(z)=z−z−1)のみを劣化させると仮定する。しかしながら、5つのサブバンドを有するシステムを仮定した場合、ノイズのあるサブバンドが極めて少数であるので、これらが適切に位置している場合には、全体の帯域幅を劣化させることができる。実験による結果であるが、サブバンドが多ければ、スペクトルによる依存性が無視されることができ、これにより、音素の識別が貧弱になることが、実験的にテストされた。したがって、このような組合せは広帯域ノイズに対するロバストさを改善させることができたが、帯域制限されたノイズには極めて不安定で、予測不能となる。
表1の4列目は、上述のものと比較して、このスキームと同様の傾向を示し、狭帯域ノイズに対処できないことが明らかになっている。主な理由は、周波数フィルタリング技術が、対象のサブバンド以外に、近接するサブバンドに影響し、ノイズを広げるからである。1つのサブバンドの影響を減少させるためにシステムのサブバンドの数を増加させることができれば、それ程問題はないが、モデルによる音素識別能力に悪影響をおよぼす。
上述のように、本発明は、周波数フィルタリング全帯域フロントエンドのために、追加ストリームを使用し、これは、以下において、より詳細に説明する。
上記実験から、次の見解を推察することができる。
フロントエンドとしてのMFCCを備えたユニオンモデル方法は、帯域依存の追加ノイズの推定、及び尤度計算への歪まされた信号帯域の寄与を効果的に無視させることによって、信号の品質劣化を克服させる。
フル帯域に基づいた音声認識に適用された周波数フィルタリングフロントエンドによれば、様々な種類の広帯域ノイズによって劣化された音声についてのケプストラム係数よりも良い結果が得られる。
ノイズ状態の両方の可能性(広帯域ノイズ及び帯域依存ノイズ)に対処するのに適切な方法にこれらの2つのスキームを併合させる試みとして、周波数フィルタリングフロントエンドは、ユニオンモデルからの出力確率推定の定式の追加因子として統合される、すなわちユニオンモデルの独立ストリームとして統合される。
式(I)を参照に、新しい出力確率は、次のようである。
広帯域のノイズについては、最後の項の大きさと比較して帯域分割項の寄与を微少化させることが期待される。狭帯域ノイズについても同じ考え方が適用され、周波数フィルタリングフロントエンドを有するフル帯域に対応する項は、出力確率計算にほとんど影響がない。
上記のモデルは、MFCCフロントエンドの観点からフル帯域の観察で、周波数フィルタリングフロントエンドの観点からフレームレベルで6つのストリーム構造で、5つのサブバンド観察を組み合わせて、三声音に基づいたHMM音声認識システムに組み込まれる。これは、時間tの各観察ベクトルを、6つの独立したデータストリームに分割することができることを意味し、パラメータ推定課題用のボーム=ウェルチ再推定アルゴリズム(Baum-Welch Re-estimation algorithm)の出力分布を計算する定式を、以下の通り書くことができる。
表1の5列目の結果から、検討の目的である全てのノイズに対する、この方法による評価を示している。図及び表の2列目及び3列目の比較から観察できるように、全てのノイズ状態において、予測通りの結果が得られた。実際に、これらの一部については、個々のシステムのどれよりも、認識率がさらに良かった。例えば、帯域依存ノイズのうちの1つ(例えば時計)をとれば、周波数フィルタリングフロントエンド及びフル帯域の精度は、極めて低く、20.7%であり、一方、ユニオンモデル及びMFCCフロントエンドでは、極めて高く、92.2%である。同じノイズについては、本発明によるモデルは、94.9%の認識率という最良の結果をもたらした。同じ挙動は、さらに音楽及び広帯域ノイズに適用できる。
以下に示される実験結果は、スペクトル特徴の観点から、実際の環境で見つけることができる種々のノイズに対処する効率的な方法として提案される本発明による実施形態の一例である。
研究中に、特定の狭帯域ノイズにおいては、好ましい結果を示すユニオンモデルのオーダ、すなわちノイズの含む帯域の数Mは、周波数フィルタリング全帯域ストリームに融合させた場合にそのMが増加することが観察された。例えば、人工の狭帯域ノイズ「チャイム」については、古典的ユニオンモデルの最良の認識率が、M=1で与えられる。しかしながら、新システム(すなわち、5つのMFCCサブバンドストリーム+1つの周波数フィルタリングストリーム)は、M=2で最良に実行される。その理由は、後者の場合には、システムが6番目のストリームのある広帯域情報、特に複合確率分布と関係する情報を既に持っていると考えられるので、なるべく多くの騒々しいサブバンドを回避することが好ましい。これらの観察結果によれば、観察範囲内の劣化したサブバンドを受け入れる(accommodate)ための適切なオーダを選択する利点を示している。最適規準に基づいたオーダ、すなわち純粋な発声から得られたパターンにより近い状態パターンを生成するオーダを自動的に選択するためのアルゴリズムによって、好ましい結果が得られた。
S 音声信号、F スペクトル、BU,MFCC ユニオンモデル尤度、FBE―F F帯域のフル帯域のフィルタバンクエネルギ、BSSUB スペクトルの差引尤度項、O1〜ON 帯域依存の音響特徴データ、MFCC メル周波数ケプストラム係数
Claims (16)
- 音声信号を受け取るステップと、
前記音声信号のスペクトルを所与数の所定周波数サブバンドに分割するステップと、
各々の前記周波数サブバンド内の前記音声信号を解析するステップと、
それぞれの周波数サブバンドにおいては、前記音声信号の少なくとも一部を代表する、それぞれの帯域依存の音響特徴データを生成するステップと、
前記帯域依存の音響特徴データ及び/又はその派生物に基づいて、前記音声信号内の音声の要素又は前記音声信号内の音声の要素の配列が発生する頻度に関する、帯域依存の尤度を導き出すステップと、
前記スペクトル全体内の前記音声信号を解析するステップと、
前記スペクトル全体に関して、前記音声信号の少なくとも一部を代表する、フル帯域の音響特徴データを生成するステップと、
前記フル帯域の音響特徴データ及び/又はその派生物に基づいて、前記音声信号内の音声の要素又は前記音声信号内の音声の要素の配列が発生する頻度に関する、フル帯域の尤度を導き出すステップと、
前記帯域依存の尤度及び前記フル帯域の尤度に基づいた前記音声信号内の音声要素又は前記音声信号内の音声の要素の配列が発生する頻度に関する、総合的尤度を導き出すステップとを有することを特徴とする音声前処理方法。 - 前記総合的尤度を導き出すときに、前記帯域依存尤度は、前記周波数サブバンドの劣化していない周波数サブバンド数の決定、及びそれぞれの周波数サブバンドに対応する異なった帯域依存尤度の生成物の全ての組合せを加えることによって、ユニオンモデル尤度に組み合わせられることを特徴とする請求項1に記載の音声前処理方法。
- 前記帯域依存の音響特徴データは、メル周波数のケプストラム係数及び/又はそれぞれの周波数サブバンドより導き出された派生物に基づいた、それぞれの帯域依存メル周波数ケプストラム係数特徴を有することを特徴とする請求項1乃至2のいずれか1項に記載の音声前処理方法。
- 前記フル帯域の尤度を導き出す前に、所定の耐広帯域ノイズ手法が使用されることを特徴とする請求項1乃至3のいずれか1項に記載の音声前処理方法。
- 前記耐広帯域ノイズ手法は、周波数フィルタリング手法に基づくことを特徴とする請求項4に記載の音声前処理方法。
- 前記耐広帯域ノイズ手法は、スペクトル減算方法に基づくことを特徴とする請求項4に記載の音声前処理方法。
- 前記フル帯域の音響特徴データは、前記スペクトル全体から導き出されたフィルタバンクエネルギに基づくフィルタバンクエネルギ特徴を有することを特徴とする請求項1乃至6のいずれか1項に記載の音声前処理方法。
- 前記フル帯域の音響特徴データは、前記スペクトル全体から導き出された濾波フィルタバンクエネルギに基づく濾波フィルタバンクエネルギ特徴を有することを特徴とする請求項1乃至7のいずれか1項に記載の音声前処理方法。
- 前記フル帯域の音響特徴データは、メル周波数のケプストラム係数及び/又は前記スペクトル全体から導き出された派生物に基づく、フル帯域のメル周波数ケプストラム係数特徴を有することを特徴とする請求項1乃至8のいずれか1項に記載の音声前処理方法。
- 前記フル帯域の音響特徴データ及び/又は前記帯域依存音響特徴データは、PLP線形予測フィルタ係数に基づくPLP線形予測フィルタ特徴を有することを特徴とする請求項1乃至9のいずれか1項に記載の音声前処理方法。
- 前記フル帯域の音響特徴データは、前記フル帯域のメル周波数ケプストラム係数特徴にスペクトル減算方法を使用することにより生成される、スペクトルで変更されたフル帯域のメル周波数ケプストラム係数特徴を有することを特徴とする請求項1乃至10のいずれか1項に記載の音声前処理方法。
- 前記帯域依存の尤度及び前記尤度項は、確率推定器を使用して決定されることを特徴とする請求項1乃至11のいずれか1項に記載の音声前処理方法。
- 前記濾波フィルタバンクエネルギは、第2のフィルタバンクエネルギから第1のフィルタバンクエネルギを差し引くことによって、前記第1のフィルタバンクエネルギに次ぐ2つの個別周波数ステップが展開され、
前記第1のフィルタバンクエネルギは、第1の個別周波数に対応し、前記第2のフィルタバンクエネルギは、第2の個別周波数に対応することを特徴とする請求項1乃至12のいずれか1項に記載の音声前処理方法。 - 請求項1乃至13のいずれか1項に記載の音声前処理方法又はそのステップを実行又は実現するための音声前処理システム。
- コンピュータ上で実行されるとき、請求項1乃至13のいずれか1項に記載の音声前処理方法又はそのステップを実行又は実現するためのコンピュータプログラム製品。
- 請求項15に記載のコンピュータプログラム製品を格納したコンピュータで読出し可能な記憶媒体。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP03007158A EP1469457A1 (en) | 2003-03-28 | 2003-03-28 | Method and system for pre-processing speech |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004341493A true JP2004341493A (ja) | 2004-12-02 |
Family
ID=32892862
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004078939A Withdrawn JP2004341493A (ja) | 2003-03-28 | 2004-03-18 | 音声前処理方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US7376559B2 (ja) |
EP (1) | EP1469457A1 (ja) |
JP (1) | JP2004341493A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190135916A (ko) * | 2018-05-29 | 2019-12-09 | 연세대학교 산학협력단 | 음성 신호를 이용한 사용자 스트레스 판별 장치 및 방법 |
JP2022501651A (ja) * | 2018-09-28 | 2022-01-06 | 株式会社ソニー・インタラクティブエンタテインメント | サウンド分類システム |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8175877B2 (en) * | 2005-02-02 | 2012-05-08 | At&T Intellectual Property Ii, L.P. | Method and apparatus for predicting word accuracy in automatic speech recognition systems |
US20070250311A1 (en) * | 2006-04-25 | 2007-10-25 | Glen Shires | Method and apparatus for automatic adjustment of play speed of audio data |
DE102009035524B4 (de) * | 2009-07-31 | 2012-11-29 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Verfahren zur Erkennung eines oder mehrerer Nutzsignale innerhalb eines Quellsignals |
CN101996628A (zh) * | 2009-08-21 | 2011-03-30 | 索尼株式会社 | 提取语音信号的韵律特征的方法和装置 |
US9953640B2 (en) | 2014-06-05 | 2018-04-24 | Interdev Technologies Inc. | Systems and methods of interpreting speech data |
US9812128B2 (en) * | 2014-10-09 | 2017-11-07 | Google Inc. | Device leadership negotiation among voice interface devices |
US10026395B1 (en) * | 2017-01-06 | 2018-07-17 | Applied Brain Research Inc. | Methods and systems for extracting auditory features with neural networks |
EP3561806B1 (en) * | 2018-04-23 | 2020-04-22 | Spotify AB | Activation trigger processing |
CN110197670B (zh) * | 2019-06-04 | 2022-06-07 | 大众问问(北京)信息科技有限公司 | 音频降噪方法、装置及电子设备 |
CN112750454B (zh) * | 2020-07-16 | 2022-08-09 | 鸣飞伟业技术有限公司 | 一种基于应急通信后端箱的应用系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE4316297C1 (de) * | 1993-05-14 | 1994-04-07 | Fraunhofer Ges Forschung | Frequenzanalyseverfahren |
JP2655046B2 (ja) * | 1993-09-13 | 1997-09-17 | 日本電気株式会社 | ベクトル量子化装置 |
US5625743A (en) * | 1994-10-07 | 1997-04-29 | Motorola, Inc. | Determining a masking level for a subband in a subband audio encoder |
GB0112319D0 (en) * | 2001-05-21 | 2001-07-11 | Univ Belfast | Interpretation of features for signal processing and pattern recognition |
-
2003
- 2003-03-28 EP EP03007158A patent/EP1469457A1/en not_active Withdrawn
-
2004
- 2004-03-18 JP JP2004078939A patent/JP2004341493A/ja not_active Withdrawn
- 2004-03-25 US US10/809,162 patent/US7376559B2/en not_active Expired - Fee Related
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190135916A (ko) * | 2018-05-29 | 2019-12-09 | 연세대학교 산학협력단 | 음성 신호를 이용한 사용자 스트레스 판별 장치 및 방법 |
KR102241364B1 (ko) * | 2018-05-29 | 2021-04-16 | 연세대학교 산학협력단 | 음성 신호를 이용한 사용자 스트레스 판별 장치 및 방법 |
JP2022501651A (ja) * | 2018-09-28 | 2022-01-06 | 株式会社ソニー・インタラクティブエンタテインメント | サウンド分類システム |
US11947593B2 (en) | 2018-09-28 | 2024-04-02 | Sony Interactive Entertainment Inc. | Sound categorization system |
Also Published As
Publication number | Publication date |
---|---|
US20040236570A1 (en) | 2004-11-25 |
EP1469457A1 (en) | 2004-10-20 |
US7376559B2 (en) | 2008-05-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20080140396A1 (en) | Model-based signal enhancement system | |
Veisi et al. | Speech enhancement using hidden Markov models in Mel-frequency domain | |
Hirsch et al. | A new approach for the adaptation of HMMs to reverberation and background noise | |
US20060165202A1 (en) | Signal processor for robust pattern recognition | |
JP2003303000A (ja) | 特殊領域におけるチャンネル雑音および加法性雑音の合同補償に関する方法および装置 | |
WO2012063963A1 (ja) | 音声認識装置、音声認識方法、および音声認識プログラム | |
Chougule et al. | Robust spectral features for automatic speaker recognition in mismatch condition | |
JP2004341493A (ja) | 音声前処理方法 | |
Wolfel | Enhanced speech features by single-channel joint compensation of noise and reverberation | |
Wolfel et al. | Minimum variance distortionless response spectral estimation | |
JP2006349723A (ja) | 音響モデル作成装置、音声認識装置、音響モデル作成方法、音声認識方法、音響モデル作成プログラム、音声認識プログラムおよび記録媒体 | |
Zhang et al. | A hierarchical framework approach for voice activity detection and speech enhancement | |
Ming et al. | Combining missing-feature theory, speech enhancement, and speaker-dependent/-independent modeling for speech separation | |
Pattanayak et al. | Pitch-robust acoustic feature using single frequency filtering for children’s KWS | |
Alam et al. | Robust feature extractors for continuous speech recognition | |
Kim et al. | Spectral subtraction based on phonetic dependency and masking effects | |
Cui et al. | Stereo hidden Markov modeling for noise robust speech recognition | |
Mak | A mathematical relationship between full-band and multiband mel-frequency cepstral coefficients | |
Stouten et al. | Joint removal of additive and convolutional noise with model-based feature enhancement | |
Ming et al. | Speech recognition with unknown partial feature corruption–a review of the union model | |
Cerisara et al. | α-Jacobian environmental adaptation | |
Xiong et al. | Robust ASR in reverberant environments using temporal cepstrum smoothing for speech enhancement and an amplitude modulation filterbank for feature extraction | |
Loweimi et al. | Use of generalised nonlinearity in vector taylor series noise compensation for robust speech recognition | |
Vaz et al. | Energy-constrained minimum variance response filter for robust vowel spectral estimation | |
Zhao et al. | Recursive estimation of time-varying environments for robust speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20070605 |