JP2002140089A - 挿入ノイズを用いた後にノイズ低減を行うパターン認識訓練方法および装置 - Google Patents
挿入ノイズを用いた後にノイズ低減を行うパターン認識訓練方法および装置Info
- Publication number
- JP2002140089A JP2002140089A JP2001317824A JP2001317824A JP2002140089A JP 2002140089 A JP2002140089 A JP 2002140089A JP 2001317824 A JP2001317824 A JP 2001317824A JP 2001317824 A JP2001317824 A JP 2001317824A JP 2002140089 A JP2002140089 A JP 2002140089A
- Authority
- JP
- Japan
- Prior art keywords
- noise
- pattern recognition
- training
- signal
- recognition model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 148
- 238000000034 method Methods 0.000 title claims abstract description 119
- 238000003909 pattern recognition Methods 0.000 title claims abstract description 72
- 230000009467 reduction Effects 0.000 title claims description 109
- 238000012360 testing method Methods 0.000 claims abstract description 68
- 238000007689 inspection Methods 0.000 claims description 34
- 239000000654 additive Substances 0.000 claims description 12
- 230000000996 additive effect Effects 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 5
- 238000000059 patterning Methods 0.000 claims 1
- 230000003466 anti-cipated effect Effects 0.000 abstract 1
- 239000013598 vector Substances 0.000 description 27
- 238000009826 distribution Methods 0.000 description 20
- 238000000605 extraction Methods 0.000 description 14
- 238000012937 correction Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 10
- 230000003595 spectral effect Effects 0.000 description 9
- 238000001228 spectrum Methods 0.000 description 9
- 230000003287 optical effect Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 238000007476 Maximum Likelihood Methods 0.000 description 5
- 238000005259 measurement Methods 0.000 description 4
- 230000002093 peripheral effect Effects 0.000 description 4
- 230000007704 transition Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000006855 networking Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000005055 memory storage Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- CDFKCKUONRRKJD-UHFFFAOYSA-N 1-(3-chlorophenoxy)-3-[2-[[3-(3-chlorophenoxy)-2-hydroxypropyl]amino]ethylamino]propan-2-ol;methanesulfonic acid Chemical compound CS(O)(=O)=O.CS(O)(=O)=O.C=1C=CC(Cl)=CC=1OCC(O)CNCCNCC(O)COC1=CC=CC(Cl)=C1 CDFKCKUONRRKJD-UHFFFAOYSA-N 0.000 description 1
- 241001674048 Phthiraptera Species 0.000 description 1
- 238000004378 air conditioning Methods 0.000 description 1
- 238000010420 art technique Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000013100 final test Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012567 pattern recognition method Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Filters That Use Time-Delay Elements (AREA)
- Noise Elimination (AREA)
- Holo Graphy (AREA)
- Inspection Of Paper Currency And Valuable Securities (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
供する。 【解決手段】 検査信号内において予想されるノイズに
一致する添加ノイズを訓練信号に含ませる(300)。
ノイズ含有訓練信号に、1つ以上のノイズ低減技法を受
けさせ、疑似クリーン訓練データを生成する(30
2)。疑似クリーン訓練データを用いて、パターン認識
モデルを訓練する(304)。検査信号を受け取ると
(306)、ノイズ含有訓練信号で用いたのと同じノイ
ズ低減技法を、この検査信号に受けさせる(308)。
これによって、疑似クリーン検査データを生成し、パタ
ーン認識モデルに適用する。一実施形態の下では、複数
の訓練データ集合を生成し、各集合が異なるタイプのノ
イズを含む。
Description
する。特に、本発明は、パターン認識用訓練モデルに関
する。
認識システムは、入力信号を取り込み、この信号をデコ
ードして、信号が表すパターンを見出そうとする。例え
ば、スピーチ認識システムでは、認識システムがスピー
チ信号(多くの場合、検査信号とも呼ぶ)を受け取り、
デコードすることによって、スピーチ信号が表す単語列
を識別する。
の認識システムは、当該検査信号の一部が特定のパター
ンを表す尤度を表す1つ以上のモデルを利用する。この
ようなモデルの例には、ニューラル・ネット、ダイナミ
ック・タイム・ワーピング(dynamic time warping)、セ
グメント・モデル、隠れマルコフ・モデルが含まれる。
ようになる前に、これを訓練しなければならない。これ
を行うには、通例では、既知の訓練パターンから発生し
た入力訓練信号を測定する。例えば、スピーチ認識で
は、既知のテキストから話者が読み上げることによっ
て、スピーチ信号の集合を発生する。次いで、これらの
スピーチ信号を用いてモデルを訓練する。
最適に機能するためには、モデルを訓練するために用い
る信号は、デコードする最終的な検査信号に類似してい
なければならない。即ち、訓練信号は、デコードする検
査信号と同じ量および同じタイプのノイズを有していな
ければならない。
めに、従来のシステムの中には、検査信号を発生したと
きに存在したと予想される同じ条件の下で訓練信号を収
集するものがある。例えば、スピーチ訓練信号は、スピ
ーチ認識システムを用いるのと同じノイズ環境で収集す
る。他のシステムは、比較的ノイズのない(即ち、「ク
リーンな」)条件の下で訓練データを収集し、次いで予
想ノイズをクリーンな訓練データに追加する。
追加したり、あるいはノイズ環境において訓練データを
収集すると、多くの場合、訓練データの検査データに対
する整合性が高まるが、なおも検査環境において存在す
るノイズを完全に予期することは不可能である。このた
め、単にノイズ訓練データを用いても、パターン認識シ
ステムの性能を最適化することにはならない。
技法を訓練データに適用することによって、訓練データ
および検査データを一致させようとしたものがある。こ
のようなシステムでは、訓練データは、実質的に「クリ
ーン」な条件の下で発生し、そのノイズ含有量を極力抑
えている。次いで、ノイズ低減技法を検査データに適用
して、検査データを訓練データのクリーンな条件に更に
近づける。しかしながら、現在のノイズ低減技法は不完
全であり、検査データ内のノイズ全てを除去することは
できない。このために、訓練データおよび検査データ
は、ノイズ低減の後でも、一致しないままとなってい
る。
ータ・ノイズに一致させる従来技術の技法は、理想には
ほど遠いのである。
練し用いる方法および装置を提供する。本発明の下で
は、検査信号内に予想されるノイズに一致する添加ノイ
ズを訓練信号に含ませる。ノイズ含有訓練信号に、1つ
以上のノイズ低減技法を受けさせ、疑似クリーン訓練デ
ータを生成する。次いで、疑似クリーン訓練データを用
いて、パターン認識モデルを訓練する。
用いた同じノイズ低減技法を検査信号に受けされる。こ
れによって、疑似クリーン訓練信号に対する一致度が高
い疑似クリーン検査データを生成する。次に、疑似クリ
ーン検査データをパターン認識モデルに適用して、検査
信号が表す最尤パターンを決定する。
合を生成する。各集合は、異なるタイプのノイズを含
む。例えば、1つの集合はコンピュータからのファン・
ノイズを含み、別の集合はキーボードのノイズを含むと
いうようにすることもできる。このような実施形態で
は、各訓練データ集合に同じノイズ低減技法を受けさせ
るとよく、あるいは異なる訓練データ集合に、異なるノ
イズ低減技法を受けさせてもよい。
合に異なるノイズ低減技法を用いる場合、検査データ内
のノイズをサンプルし、同様のタイプのノイズを含む、
特定の訓練データ集合を識別する。次いで、最も良く一
致した訓練データに適用したノイズ低減技法を検査デー
タに適用し、疑似クリーン検査データを形成する。
タ集合に異なるノイズ低減技法を用いる別の実施形態で
は、異なるノイズ低減技術を検査データに受けさせ、疑
似クリーン検査データの多数の異なるバージョンを生成
する。次いで、疑似クリーン検査データのこれら別個の
形態をそれぞれモデルに適用し、パターンの確率を判定
する。次に、最も確率が高いパターンを生成する疑似ク
リーン検査データの形態、または形態の組み合わせを選
択することによって、検査データに適用する適正なノイ
ズ低減技法を暗示的に選択する。
のに適した計算システム環境100の一例を示す。計算
システム環境100は、適した計算環境の一例に過ぎ
ず、本発明の使用または機能性の範囲に関していずれの
限定をも示唆する訳ではない。また、一例の動作環境1
00に示すいずれの一コンポーネントまたはコンポーネ
ントの組み合わせに関しても、計算環境100はいずれ
の依存性も要件も有するものとして解釈してはならな
い。
目的計算システム環境またはコンフィギュレーションと
共に動作する。公知の計算システム、環境および/また
はコンフィギュレーションで、本発明との使用に相応し
い例は、限定ではなく、パーソナル・コンピュータ、サ
ーバ・コンピュータ、ハンドヘルドまたはラップトップ
・デバイス、マイクロプロセッサ・システム、マイクロ
プロセッサ系システム、セット・トップ・ボックス、プ
ログラマブル消費者電子機器、ネットワークPC、ミニ
コンピュータ、メインフレーム・コンピュータ、電話シ
ステム、上述のシステムまたはデバイスのいずれをも含
む分散計算環境等を含む。
プログラム・モジュールのようなコンピュータ実行可能
命令の一般的なコンテキストで行うこととする。一般
に、プログラム・モジュールは、特定のタスクを実行し
たり、あるいは特定の抽象的データ・タイプを使用す
る、ルーチン、プログラム、オブジェクト、コンポーネ
ント、データ構造等を含む。また、本発明は、分散型計
算機環境において、通信ネットワークを通じてリンクし
たリモート処理デバイスによってタスクを実行するとい
う実施も可能である。ある分散型計算機環境において
は、プログラム・モジュールは、メモリ記憶素子を含む
ローカルおよびリモート双方のコンピュータ記憶媒体に
配置することができる。
の例示のシステムは、コンピュータ110の形態とした
汎用計算デバイスを含む。コンピュータ110のコンポ
ーネントは、処理ユニット120、システム・メモリ1
30、およびシステム・メモリから処理ユニット120
までを含む種々のシステム・コンポーネントを結合する
システム・バス121を含むことができるが、これらに
限定される訳ではない。システム・バス121は、種々
のバス・アーキテクチャのいずれかを用いたメモリ・バ
スまたはメモリ・コントローラ、周辺バス、およびロー
カル・バスを含む、数種類のバス構造のいずれでもよ
い。限定ではなく一例として、このようなアーキテクチ
ャは、業界標準アーキテクチャ(ISA)バス、マイク
ロ・チャネル・アーキテクチャ(MCA)バス、改良I
SA(EISA)バス、ビデオ電子規格協会(VES
A)ローカル・バス、およびMezzanineバスと
しても知られている周辺素子相互接続(PCI)バスを
含む。
コンピュータ読み取り可能媒体を含む。コンピュータ読
み取り可能媒体は、コンピュータ110がアクセス可能
であれば、入手可能な媒体のいずれでも可能であり、揮
発性および不揮発性双方の媒体、リムーバブルおよび非
リムーバブル媒体を含む。一例として、そして限定では
なく、コンピュータ読み取り可能媒体は、コンピュータ
記憶媒体および通信媒体を含むことができる。コンピュ
ータ記憶媒体は、コンピュータ読み取り可能命令、デー
タ構造、プログラム・モジュールまたはその他のデータ
のような情報の格納のためのあらゆる方法または技術に
おいて使用されている揮発性および不揮発性、リムーバ
ブルおよび非リムーバブル双方の媒体を含む。コンピュ
ータ記憶媒体は、限定する訳ではないが、RAM、RO
M、EEPROM、フラッシュ・メモリまたはその他の
メモリ技術、CD−ROM、ディジタル・バーサタイル
・ディスク(DVD)、またはその他の光ディスク・ス
トレージ、磁気カセット、磁気テープ、磁気ディスク・
ストレージ、またはその他の磁気記憶装置、あるいは所
望の情報を格納するために使用可能であり、コンピュー
タ100によってアクセス可能なその他のいずれの媒体
でも含まれる。通信媒体は、通例では、コンピュータ読
み取り可能命令、データ構造、プログラム・モジュー
ル、またはその他データを、キャリア波またはその他の
トランスポート機構のような変調データ信号におけるそ
の他のデータを具体化し、あらゆる情報配信媒体を含
む。「変調データ信号」という用語は、信号内に情報を
エンコードするように、その1つ以上の特性を設定また
は変更した信号を意味する。一例として、そして限定で
はなく、通信媒体は、有線ネットワークまたは直接有線
接続のような有線媒体、ならびに音響、RF、赤外線お
よびその他のワイヤレス媒体のようなワイヤレス媒体を
含む。前述のいずれの組み合わせでも、コンピュータ読
み取り可能媒体の範囲内に当然含まれるものとする。
リ・メモリ(ROM)131およびランダム・アクセス
・メモリ(RAM)132のような揮発性および/また
は不揮発性メモリの形態のコンピュータ記憶媒体を含
む。基本入出力システム133(BIOS)は、起動中
のように、コンピュータ110内のエレメント間におけ
るデータ転送を補助する基本的なルーチンを含み、通例
ではROM131内に格納されている。RAM132
は、通例では、処理ユニット120が直ちにアクセス可
能であるデータおよび/またはプログラム・モジュー
ル、または現在処理ユニット120によって処理されて
いるデータおよび/またはプログラム・モジュールを収
容する。一例として、そして限定ではなく、図1は、オ
ペレーティング・システム134、アプリケーション・
プログラム135、その他のプログラム・モジュール1
36、およびプログラム・データ137を示す。
ムーバブル/非リムーバブル揮発性/不揮発性コンピュ
ータ記憶媒体も含むことができる。一例としてのみ、図
1は、非リムーバブル不揮発性磁気媒体からの読み取り
およびこれへの書き込みを行うハード・ディスク・ドラ
イブ141、リムーバブル不揮発性磁気ディスク152
からの読み取りおよびこれへの書き込みを行う磁気ディ
スク・ドライブ151、ならびにCD ROMまたはそ
の他の光媒体のようなリムーバブル不揮発性光ディスク
156からの読み取りおよびこれへの書き込みを行う光
ディスク・ドライブ155を示す。動作環境の一例にお
いて使用可能なその他のリムーバブル/非リムーバブ
ル、揮発性/不揮発性コンピュータ記憶媒体には、限定
する訳ではないが、磁気テープ・カセット、フラッシュ
・メモリ・カード、ディジタル・バーサタイル・ディス
ク、ディジタル・ビデオ・テープ、ソリッド・ステート
RAM、ソリッド・ステートROM等が含まれる。ハー
ド・ディスク・ドライブ141は、通例では、インター
フェース140のような非リムーバブル・メモリ・イン
ターフェースを介してシステム・バス121に接続さ
れ、磁気ディスク・ドライブ151および光ディスク・
ドライブ155は、通例では、インターフェース150
のようなリムーバブル・メモリ・インターフェースによ
ってシステム・バス121に接続する。
と連動するコンピュータ記憶媒体は、コンピュータ読み
取り可能命令、データ構造、プログラム・モジュール、
およびコンピュータ110のその他のデータを格納す
る。図1では、例えば、ハード・ディスク・ドライブ1
41は、オペレーティング・システム144、アプリケ
ーション・プログラム145、その他のプログラム・モ
ジュール146、およびプログラム・データ147を格
納するように示されている。尚、これらのコンポーネン
トは、オペレーティング・システム134、アプリケー
ション・プログラム135、その他のプログラム・モジ
ュール136、およびプログラム・データ137と同じ
でも異なっていても可能であることを注記しておく。オ
ペレーティング・システム144、アプリケーション・
プログラム145、その他のプログラム・モジュール1
46、およびプログラム・データ147は、少なくとも
これらが異なるコピーであることを示すために、ここで
は異なる番号を与えている。
ォン163、およびマウス、トラックボールまたはタッ
チ・パッドのようなポインティング・デバイス161に
よって、コマンドおよび情報をコンピュータ110に入
力することができる。他の入力デバイス(図示せず)
は、ジョイスティック、ゲーム・パッド、衛星ディッシ
ュ、スキャナ等を含むことができる。これらおよびその
他の入力デバイスは、多くの場合、ユーザ入力インター
フェース160を介して、処理ユニット120に接続さ
れている。ユーザ入力インターフェース160は、シス
テム・バスに結合されているが、パラレル・ポート、ゲ
ーム・ポートまたはユニバーサル・シリアル・バス(U
SB)のようなその他のインターフェースおよびバス構
造によって接続することも可能である。モニタ191ま
たはその他の形式の表示装置も、ビデオ・インターフェ
ース190のようなインターフェースを介して、システ
ム・バス121に接続されている。モニタに加えて、コ
ンピュータは、スピーカ197およびプリンタ196の
ようなその他の周辺出力デバイスを含むこともでき、こ
れらは出力周辺インターフェース190を介して接続す
ることができる。
ュータ180のような1つ以上のリモート・コンピュー
タへの論理接続を用いて、ネットワーク環境において動
作することも可能である。リモート・コンピュータ18
0は、パーソナル・コンピュータ、ハンド・ヘルド・デ
バイス、サーバ、ルータ、ネットワークPC、ピア・デ
バイス、またはその他の共通ネットワーク・ノードとす
ることができ、通例では、コンピュータ110に関して
先に説明したエレメントの多くまたは全てを含む。図1
に示す論理接続は、ローカル・エリア・ネットワーク
(LAN)171およびワイド・エリア・ネットワーク
(WAN)173を含むが、他のネットワークも含むこ
とができる。このようなネットワーキング環境は、事務
所、企業規模のコンピュータ・ネットワーク、イントラ
ネットおよびインターネットにおいては、一般的であ
る。
合、コンピュータ110は、ネットワーク・インターフ
ェースまたはアダプタ170を介してLAN171に接
続する。WANネットワーキング環境で用いる場合、コ
ンピュータ110は、通例では、モデム172、または
インターネットのようなWAN173を通じて通信を確
立するその他の手段を含む。モデム172は、内蔵でも
外付けでもよく、ユーザ入力インターフェース160ま
たはその他の適切な機構を介してシステム・バス121
に接続することができる。ネットワーク環境では、コン
ピュータ110に関して図示したプログラム・モジュー
ル、またはその一部は、リモート・メモリ記憶装置に格
納することもできる。一例として、そして限定ではな
く、図1は、リモート・アプリケーション・プログラム
185がメモリ素子181上に常駐するものとして示し
ている。尚、図示のネットワーク接続は一例であり、コ
ンピュータ間で通信リンクを確立する他の手段も使用可
能であることは認められよう。
デバイス200のブロック図である。モバイル・デバイ
ス200は、マイクロプロセッサ202、メモリ20
4、入出力(I/O)コンポーネント206、およびリ
モート・コンピュータまたは別のモバイル・デバイスと
通信するための通信インターフェース208を含む。一
実施形態では、前述のコンポーネントを結合し、適切な
バス210を通じて互いに通信し合うようにしている。
・モジュール(図示せず)を備えたランダム・アクセス
・メモリ(RAM)のような、不揮発性電子メモリとし
て実装し、メモリ204に格納してある情報は、モバイ
ル・デバイス200全体への電力を遮断した後でも失わ
れないようにしている。メモリ204の一部は、プログ
ラムの実行用にアクセス可能なメモリとして割り当てる
ことが好ましく、一方メモリ204の別の一部は、ディ
スク・ドライブ上のストレージをシミュレートするため
というように、ストレージのために用いることが好まし
い。
テム212、アプリケーション・プログラム214、お
よびオブジェクト・ストア216を含む。動作中、オペ
レーティング・システム212は、メモリ204からプ
ロセッサ202によって実行することが好ましい。好適
な一実施形態では、オペレーティング・システムは、Mi
crosoft Corporation(マイクロソフト社)から市販さ
れているWINDOWS(登録商標)CEブランドのオペレーテ
ィング・システムである。オペレーティング・システム
212は、モバイル・デバイス用に設計されていること
が好ましく、1組の露出した(exposed)アプリケーショ
ン・プログラミング・インターフェースおよびメソッド
を介してアプリケーション214が利用可能なデータベ
ース機能を実装する。オブジェクト・ストア216内の
オブジェクトは、少なくとも部分的に、露出したアプリ
ケーション・プログラミング・インターフェースおよび
メソッドに対するコールに応答して、アプリケーション
214およびオペレーティング・システム212によっ
て維持する。
・デバイス200が情報の送信および受信を可能にする
多数のデバイスおよび技術を代表する。これらのデバイ
スは、有線およびワイヤレス・モデム、衛星受信機およ
び放送チューナを含み、それ以外にも多数ある。モバイ
ル・デバイス200は、コンピュータに直接接続し、こ
れとデータを交換することも可能である。このような場
合、通信インターフェース208は、赤外線送受信機、
あるいはシリアルまたはパラレル接続とすることがで
き、これらは全てストリーミング情報を送信することが
できる。
スクリーン、ボタン、ローラ、およびマイクロフォンの
ような種々の入力デバイス、ならびに音声発生器、振動
デバイス、ディスプレイを含む種々の出力デバイスを含
む。ここに列挙したデバイスは一例としてであり、モバ
イル・デバイス200上に全てが存在する必要はない。
加えて、本発明の範囲内において、別の入出力デバイス
をモバイル・デバイス200に取り付けたり、あるいは
そこに見出す場合もある。
ータ間におけるノイズの一致度を高める装置および方法
を提供する。図3は、このような照合を行う方法の一実
施形態を示す。
加ノイズを含む生訓練データを作成する。この見込み添
加ノイズは、検査データに存在すると予想されるノイズ
に類似している。この予想添加ノイズは、訓練プラット
フォーム、車、または工業環境のようなノイズの多い環
境においてトレーナに発話させることによって、訓練デ
ータ内に入れることができる。他の実施形態では、トレ
ーナは、比較的ノイズの少ない環境において発話し、次
いで「クリーン」な訓練スピーチ信号に添加ノイズを付
加する。クリーン訓練信号に添加するノイズは、先に掲
示した環境のような、選択したノイズ環境から記録した
ノイズ、または予想ノイズと同じ統計的特性を有するノ
イズとすることができる。
有訓練データをノイズ低減モジュールに印加する。ノイ
ズ低減モジュールは、1つ以上のノイズ低減技法をノイ
ズ含有訓練データに適用する。ノイズ低減技法は、スペ
クトル減算または環境用ステレオ区分的線形補償(SP
LICE)を含むことができるが、これらに限定すると
いうのではない。加えて、1つよりも多いノイズ低減技
法をノイズ含有データに適用することも可能である。
低減技法はないので、ノイズ低減モデルの出力は、「疑
似クリーン」訓練データに過ぎない。本発明のこの実施
形態の下では、この疑似クリーン訓練データを用いて、
パターン・モデルを訓練する。後に、このパターン・モ
デルを用いて、所与の検査信号が表すことができる最尤
パターンを検出する。この訓練を図3のステップ304
として示す。
ーラル・ネット、ダイナミック・タイム・ワーピング、
セグメント・モジュール、および隠れマルコフ・モデル
を含むことができるが、これらに限定するというのでは
ない。
6においてスピーチ認識システムが検査データを受け取
る。次に、ノイズ含有訓練データに適用したのと同じノ
イズ低減技法を検査データに適用し、疑似クリーン検査
データを生成する。図3のステップ308において、こ
れらのノイズ低減技法を適用する。
技法を検査データに適用することによって、本発明は、
検査データを、訓練データの疑似クリーン状態に一層良
く一致する疑似クリーン状態にする。
に対して疑似クリーン検査データを適用し、検査データ
をデコードし、検査データが表す最尤パターンを決定す
る。図4は、スピーチ認識に用いる本発明の一実施形態
に特に関連がある、図1および図2の汎用計算環境にお
いて見られるハードウエア・コンポーネントおよびプロ
グラム・モジュールのブロック図を提示する。図4にお
いて、話者400からの入力スピーチ信号および添加ノ
イズ402を、マイクロフォン404によって電気信号
に変換する。マイクロフォン404は、アナログ/ディ
ジタル(A/D)変換器406に接続されている。添加
ノイズ402は、図4の実施形態ではマイクロフォン4
04を介して入力するように示されているが、他の実施
形態では、A/D変換後のディジタル信号としての入力
スピーチ信号に添加ノイズ402を付加してもよい。
04からのアナログ信号を一連のディジタル値に変換す
る。いくつかの実施形態では、A/D変換器406は、
サンプル当たり16kHzおよび16ビットでアナログ
信号をサンプルすることにより、毎秒32キロバイトの
スピーチ・データを作成する。
・データをノイズ低減モジュール408に供給する。ノ
イズ低減モジュール408は、1つ以上のノイズ低減技
法を用いて、ディジタル信号内にあるノイズの一部を除
去する。このようなノイズ低減技法は、限定する訳では
ないが、スペクトル減算、または環境用ステレオ区分的
線形補償(SPLICE)を含む。
抽出部400に供給し、ディジタルスピーチ信号から特
徴を抽出する。特徴抽出モジュールの例には、線形予測
符号化(LPC)、LPC派生ケプストラム(LPC deriv
ed cepstrum)、透視線形予測(PLP)、可聴モデル特
徴抽出、およびメル周波数ケプストラム係数(MFC
C:Mel-Frequency Cepstrum Coefficient)特徴抽出用
モジュールを含む。尚、本発明はこれらの特徴抽出モジ
ュールに限定されるという訳ではなく、他のモジュール
も本発明のコンテキストにおいて使用可能であることを
注記しておく。
ール408からディジタル値ストリームを受け取り、特
徴ベクトル・ストリームを生成する。特徴ベクトルの各
々には、スピーチ信号のフレームが関連付けられてい
る。多くの実施形態では、フレームの中央が10ミリ秒
だけ分離されている。
の実施形態では特徴抽出部400の前段に示されている
が、他の実施形態では、ノイズ低減モジュール408は
特徴抽出モジュール400の後段にあることを注記して
おく。
ストリームを、デコーダ412に供給する。デコーダ4
12は、特徴ベクトル・ストリーム、語彙414、言語
モデル416、および音響モデル418に基づいて、最
尤ワード・シーケンスを識別する。
組の隠れ状態から成る隠れマルコフ・モデルであるもの
もある。このモデルによって表される各言語単位は、こ
れらの状態の部分集合から成る。例えば、一実施形態で
は、各音素は3つの相互接続状態で構成されている。各
状態は、関連する1組の確率分布を有し、これらの組み
合わせによって、各言語単位シーケンス(単語等)につ
いて、あらゆる任意の入力特徴ベクトル・シーケンスに
対する尤度の効率的な計算が可能となる。また、このモ
デルは、2つの隣接するモデル状態間の推移、および特
定の言語単位に対する状態間において許される推移に対
する確率も含む。最も高い一致確率および推移確率の組
み合わせを入力特徴ベクトルに対して選択することによ
って、モデルは言語単位をスピーチに割り当てることが
できる。例えば、音素が状態0、1および2で構成され
ており、スピーチの最初の3つのフレームが状態0と一
致し、次の2つの状態1と一致し、次の3つが状態2と
一致する場合、モデルは音素をスピーチのこれら8つの
フレームに割り当てる。
実施形態では異なっていても可能であることを注記して
おく。例えば、言語単位は、セノンズ(senones)、音
素、ノイズ音、複音、三重音、またはその他の可能性と
することもできる。
ある特徴ベクトル・シーケンスが、特定の存続時間のセ
グメントによって生成される尤度がどの位かを示すセグ
メント・モデルである。このセグメント・モデルは、同
時に多数の特徴ベクトルを用いて個々のセグメントの尤
度に関する判定を行うので、フレーム・ベース・モデル
とは異なる。このために、これはスピーチ信号において
大きな規模の推移のより良いモデルを与える。加えて、
セグメント・モデルは、セグメント毎に多数の存続時間
を注視し、各存続時間毎に別個の確率を判定する。した
がって、存続時間が長いセグメントほど、精度が高いモ
デルを与える。確率的軌道セグメント隠れマルコフ・モ
デルを含む、数種類のセグメント・モデルを本発明と共
に用いることができる。
ケンスが対象の言語において現れる1組の尤度を与え
る。多くの実施形態では、言語モデルは、North Americ
an BUSINESS NEWS (NAB)のようなテキスト・データベー
スを基本とする。これは、CSR-III Text Language Mode
l(University of Penn., 1994)と題する刊行物に、更
に詳細に記載されている。言語モデルは、自由コンテキ
スト文法、またはトライグラム(trigram)のような統計
N−グラム・モデルとすることができる。一実施形態で
は、言語モデルは、シーケンスの3単語セグメントの総
合確率に基づいて、単語シーケンスの確率を決定するコ
ンパクトなトライグラム・モデルである。
び語彙、デコーダ412は、可能な全ての単語シーケン
スから最尤単語シーケンスを特定する。デコーディング
に用いられる特定の方法は、本発明にとっては重要でな
く、いくつかの公知のデコーディング方法のいずれを用
いてもよい。
性測定モジュール420に供給する。信頼性測定モジュ
ール420は、どの単語が、スピーチ認識部によって不
適当に認識された可能性が最も高いかを、部分的に二次
フレーム・ベース音響モデルに基づいて識別する。信頼
性尺度モジュール420は、次に、仮説単語シーケンス
を、どの単語が不適当に識別された可能性があるかを示
す識別子と共に、出力モジュール422に供給する。当
業者であれば、信頼性測定モジュール420は本発明の
実施には必要でないことを認めよう。
426および当該訓練テキスト426と関連する1つ以
上の訓練スピーチ信号から特徴抽出部410によって抽
出された特徴に基づいて、トレーナ424による訓練を
受ける。特定のモデルに適した訓練方法であれば、その
いずれでも、本発明の範囲内で使用可能である。
加ノイズを含む。添加ノイズは、ノイズ低減モデル40
8によって部分的に除去され、疑似クリーン・データを
生成する。本発明の下で使用可能なノイズ低減技法の1
つは、スペクトル減算である。スペクトル減算では、ス
ピーチ信号におけるノイズをサンプルし、サンプルを周
波数ドメインに変換する。次に、ノイズの周波数内容を
スピーチ信号の周波数表現から減算し、疑似クリーン・
スピーチ信号を生成する。
るポーズの間にスピーチ信号をサンプルすることによっ
て、スピーチ・データからノイズをサンプルすることが
できる。図5では、ノイズ含有スピーチ信号の一例が、
横軸500に沿った時間、および縦軸502に沿って示
すスピーチ信号の振幅によって示されている。図5で
は、スピーチ信号は、実際のスピーチ領域504、およ
び2つのポーズ506、508を含む。スピーチ信号の
実際のスピーチ部分504は、ポーズ506、508よ
りもエネルギ含有量が多い。ポーズ506、508の間
にスピーチ信号をサンプルすることによって、信号のス
ピーチ内容から、背景ノイズを分離することができる。
ピーチ内のポーズ中において取り込んだノイズ・サンプ
ルのスペクトル内容の一例を提示する。図6では、周波
数を横軸600に沿って示し、各周波数成分の振幅を縦
軸602に沿って示す。図6のノイズ・スペクトル60
4では、スペクトル内容は、中間周波数域においてより
高いマグニチュードを有し、低周波数域および高周波数
域においてより低いマグニチュードを有する。スペクト
ル減算の間、この周波数標識(frequency signature)を
用いて、スピーチ信号の周波数毎にノイズ補正値を発生
する。次に、スピーチ信号の対応する周波数値から、そ
れぞれの補正値を減算し、スピーチ信号におけるノイズ
を低減する。
8および特徴抽出部410の一実施形態のブロック図を
示す。図7の実施形態では、ノイズ低減モジュール40
8は、スペクトル減算を実行し、特徴抽出部410はそ
の抽出特徴として、ケプストラム係数(cepstral coeffi
cient)を生成する。図7の実施形態では、ノイズ低減モ
ジュール408および特徴抽出部410を共に統合し、
単一の動作モジュールを形成する。これら2つのモジュ
ールの機能は、図7では統合しているが、図7の実施形
態を製作するために用いる個々のコンポーネントは、本
発明のハードウエア実施態様における同じチップ上、ま
たは本発明のソフトウエア実施態様における同一ソフト
ウエア・モジュール上にある必要はないことを当業者は
認めよう。
06からのディジタル値を、高速フーリエ変換(FF
T)モジュール700に供給する。FFT700は、時
間ドメインのディジタル値を、スピーチ信号のフレーム
の周波数内容を記述する一連の周波数ドメイン値に変換
する。
は、ノイズ識別モジュール702に供給される。ノイズ
識別モジュール702は、各フレームの周波数ドメイン
値のエネルギ内容を注視し、スピーチ信号の現部分が、
スピーチにおける実際のスピーチまたはポーズのどちら
を表すか識別する。スピーチにおけるポーズを識別する
技法は、当技術分野では周知である。
ン値は、重み付けモジュール704にも供給される。重
み付けモジュール704は、ノイズ識別モジュール70
2から制御値を受け取り、過去のノイズ・サンプル70
6を収容するメモリにアクセスすることができる。ノイ
ズ識別モジュール702が、スピーチの現区分がスピー
チ内のポーズに対応すると判断した場合、重み付けモジ
ュール704を活性化し、新たなノイズ低減値集合を発
生する。
704は、ノイズ低減値を生成する際、スピーチ信号か
らの最後の「N」個のノイズ・フレームを組み合わせ
る。これら過去の「N」個のフレームは、メモリ706
から再現する。一実施形態の下では、重み付けモジュー
ル704は、過去の「N」個のノイズ・フレームを組み
合わせる際に、メモリ706内にある古い方のノイズ・
フレームに対して、新しいノイズ・フレームほど大きな
重み付けを行う。
値を、メモリ708に格納する。メモリ708には、ス
ペクトル減算部710がアクセスする。また、スペクト
ル減算部710は、FFT700からの周波数ドメイン
値も受け取る。メモリ708に格納してある補正値に関
連する周波数毎に、スペクトル減算部710は、FFT
700が供給する周波数ドメイン値から、メモリ708
内の対応する値を減算する。この結果、スペクトル減算
部710の出力には、疑似クリーン周波数ドメイン値が
得られる。
リーン周波数値を、対数モジュール712に供給する。
対数モジュール712は、各値の対数を取る。次に、対
数値を逆高速フーリエ変換714に供給し、ログ値の逆
高速フーリエ変換を行い、スピーチ信号のフレーム毎
に、ケプストラル係数集合を生成する。これらのケプス
トラル係数集合は、特徴抽出部の出力を表す。
技法として、環境用ステレオ区分的線形補償(SPLI
CE)を用いる。SPLICEノイズ低減技法について
は、METHOD OF NOISE REDUCTION USING CORRECTION VEC
TORS(補正ベクトルを用いたノイズ低減方法)と題し、
本願と同一日に出願され、弁理士整理番号M61.12
−0325号を有する米国特許出願において詳細に論じ
られている。その内容は、この言及により本願にも含ま
れるものとする。
ターン信号からのノイズ含有特徴ベクトルが表し得る、
最尤クリーン特徴ベクトルを推定することによって、ノ
イズを低減する。これを行うには、補正ベクトルを選択
し、ノイズ含有特徴ベクトルに付加することによって、
クリーン特徴ベクトルを形成する。補正ベクトルを選択
するには、本方法は、混合成分集合の内どれに、ノイズ
含有特徴ベクトルが最も良く一致するかを判定する。次
に、混合成分に関連する補正ベクトルをノイズ含有特徴
ベクトルに付加する。
に、クリーン・チャネル特徴ベクトル・シーケンスから
ノイズ含有チャネル特徴ベクトル・シーケンスを減算す
る。ここで、ノイズ含有チャネルおよびクリーン・チャ
ネルは同じスピーチ信号を含むが、ノイズ含有チャネル
は添加ノイズを有するとする。通例では、補正ベクトル
を形成するのは、訓練データまたは検査データのいずれ
かをノイズ低減モジュールに供給する前である。
タ集合を用いて、訓練モデル内に多数のタイプのノイズ
環境を組み込む。したがって、一実施形態の下では、訓
練データの一部を訓練プラットフォームにおいて収集
し、一方別のデータを車内で収集し、更に別のデータを
航空機内で収集する。図8は、本発明の下において多数
の訓練データ集合を用いてモデルを訓練する一方法のフ
ロー図を示す。
選択したノイズ環境においてトレーナに発話させること
によって、添加ノイズを有する訓練データの一集合を作
成する。ステップ802において、訓練データ集合に、
1つ以上のノイズ低減技法を適用する。ステップ802
において適用するノイズ低減技法は、ノイズ環境の各タ
イプ毎に同一とすることができ、あるいはノイズ低減技
法を適用している特定のノイズ環境に合わせて特別に作
成することも可能である。
すべき別の訓練データ集合があるか否か判定を行う。別
の集合がある場合、プロセスはステップ800に戻る。
本発明の一実施形態の下では、各訓練データ集合には、
異なるタイプのノイズが関連付けられている。したがっ
て、一方の集合は空調ノイズを含み、別の集合は背景ス
ピーチ・ノイズを含むこともあり得る。
テップ806に進み、ステップ802のノイズ低減技法
から得られた疑似クリーン訓練データ集合全てを用い
て、音響モデルを訓練する。
た多数の訓練データ集合に対してノイズ低減技法を用い
たために、本発明の実施形態が生成するモデルは一層際
立って定義されている。これは、図9ないし図12に見
ることができる。
分布を示す。図9では、スピーチ信号からの特徴ベクト
ルを横軸900に沿って示し、スピーチ単位の確率を縦
軸902に沿って示す。図9の確率分布904、90
6、908は、各々、異なる訓練データ集合と関連付け
られている。したがって、確率分布の各々は、異なるタ
イプの添加ノイズに関連付けられている。図9におい
て、訓練データ集合は、ノイズ低減モジュールを通した
後である。
位に対する単一モデルを形成すると、図10の分布のよ
うな確率分布が得られる。図9におけると同様、特徴ベ
クトルの値を横軸1002に沿って示し、スピーチ単位
の確率を縦軸1004に沿って示す。
沿って広がっているので、組み合わせて得られる確率分
布は平坦となる。このような分布では、モデルが広範に
定義されるので、適正なスピーチ単位を選択する際の確
信度は低下する。何故なら、所与のスピーチ信号は、多
数のスピーチ単位に対して同様の確率を生成するからで
ある。
低減を適用する効果を示す。図11では、ノイズ低減後
の特徴ベクトル値を横軸1100に沿って示し、スピー
チ単位の確率を縦軸1102に沿って示す。図11で
は、ノイズ低減技法によって、図9の3つの確率分布を
互いに近づけてある。その結果、分布1104、110
6、1108がそれぞれ得られる。
で、図12に示す、組み合わせ後の分布1200は一層
際立って定義されることになる。確率分布においてこの
ように際立った定義を有すると、入力スピーチ信号が与
えられた場合にスピーチ単位を選択する判断プロセスに
おける確信度が高くなる。分布は水平軸1202の特徴
ベクトルに沿った特定の特徴ベクトル付近で急激に立ち
上がり、縦軸1206に沿ってより高い確率を与えると
いう事実によって、分布1200に定義の際立ちが示さ
れている。
ズ低減技法を用いる実施形態では、検査データ内のノイ
ズをサンプルし、どのノイズ低減技法を検査データに適
用するか決定する。図13は、本発明のこのような一実
施形態のノイズ低減モジュール1300のブロック図を
示す。
ば、図5に関して先に説明した技法を用いることによっ
て、入力検査スピーチ信号内のノイズをノイズ・サンプ
ラ1301でサンプルする。ノイズ・サンプルをノイズ
比較器1302に供給し、検査信号内のノイズのスペク
トル内容を、メモリ1304に格納してある訓練ノイズ
のサンプルと比較する。尚、訓練データ集合毎に、多数
のノイズ・サンプルを格納できることを注記しておく。
格納するサンプル数を選択する際には、メモリの使用
と、ノイズ低減選択プロセスに望ましい精度との間で比
較検討する。
最良の一致が見出されたなら、ノイズ比較器1302
は、メモリ1304から、一致した信号に対する集合識
別子を検索する。
に供給し、識別した訓練データ集合に適用したノイズ低
減技法の名称を検索する。これを行うために、ノイズ低
減セレクタ1303は、訓練集合/ノイズ低減データベ
ース1305にアクセスする。データベース1305
は、各訓練データ集合に適用したノイズ低減技法のリス
トを収容している。
を特定した後、ノイズ低減セレクタ1303は、特定し
た集合即ちクラスタに関連するノイズ低減モジュール
に、検査データを導出する。図13において、これは、
検査データをノイズ低減モジュール1306、130
8、または1310の1つに導出することから成る。
尚、図13ではノイズ低減モジュール1306、130
8、1310を並列に示すが、他の実施形態では、検査
データを一連のノイズ低減モジュールに通す。選択した
ノイズ低減モジュールの出力は、「疑似クリーン」検査
データとなる。
合、異なるノイズ低減技法、または双方の組み合わせを
用いて、多数の音響モジュールを訓練する。したがっ
て、異なる疑似クリーン訓練データ集合を発生し、次い
で、先に論じたように、異なる訓練データ集合を単一の
モデルに結合する代わりに、そのまま用いて異なるそれ
ぞれのモデルを形成する。このような実施形態の下で
は、それぞれの疑似クリーン訓練データを形成するため
に用いた各ノイズ低減技法を、検査データにも適用す
る。これによって、それぞれのモデル毎に1つの集合
で、複数の疑似クリーン検査データ集合を作成する。次
いで、疑似クリーン検査データの各集合を、それ自体の
各モデルに適用し、モデル/検査データ対に対する確率
を求める。
高い確率を与えるモデル/検査データ対を選択する。こ
の選択は、スピーチ信号全体に対する確率に基づいて行
い、スピーチ信号全域に1つのモデルおよび各1組のノ
イズ低減技法を適用することができる。あるいは、スピ
ーチのセグメントに対する確率に基づいて選択を行い、
異なるセグメントが異なるモデルおよびノイズ低減技法
を用いるようにすることも可能である。例えば、第1モ
デル/検査データ対を用いて第1音素をデコードし、一
方第2モデル/検査データ対を用いて隣接する音素をデ
コードする。このような技法を用いることによって、デ
コーダは最良のノイズ低減技法およびモデルを本来的に
選択し、各検査データ・セグメントに適用することが可
能となる。
技法を用いて、異なる疑似クリーン訓練データ集合を形
成するが、構築するモデルは1つのみとする。次いで、
異なるノイズ低減技法を検査データに適用し、多数の疑
似クリーン検査データ集合を形成する。異なる疑似クリ
ーン検査データ集合の各々をモデルに対して適用し、デ
コーダは、最も高い確率を発生した疑似クリーン検査デ
ータを選択する。この選択は、スピーチ信号全体に対す
る確率に基づいて行うことができ、あるいはスピーチ信
号のセグメントに対する確率に基づいて行うこともでき
る。
発明の説明を行ったが、本発明の精神および範囲から逸
脱することなく、形態および詳細において変更が可能で
あることを当業者は認めよう。
ック図である。
のブロック図である。
の一実施形態のフロー図である。
ーン認識システムのブロック図である。
グラフである。
スペクトルである。
イズ低減技法のブロック図である。
なるタイプのノイズを含む訓練データ集合を訓練するた
めのフロー図である。
布のグラフである。
率のグラフである。
技法適用後における、図9のモデル確率分布のグラフで
ある。
確率のグラフである。
発明の一実施形態の下におけるノイズ低減モデルのブロ
ック図である。
ル
Claims (29)
- 【請求項1】 パターン認識モデルの発生方法であっ
て、 添加ノイズを訓練信号に導入するステップであって、前
記添加ノイズが、パターン認識中に検査信号に存在する
と見込まれるノイズと同様である、ステップと、 少なくとも1つのノイズ低減技法を前記訓練信号に適用
し、疑似クリーン訓練データを生成するステップと、 前記疑似クリーン訓練データに基づいて、前記パターン
認識モデルを構築するステップと、から成る方法。 - 【請求項2】 請求項1記載の方法において、少なくと
も1つのノイズ低減技法を適用するステップは、複数の
ノイズ低減技法を適用するステップから成る、方法。 - 【請求項3】 請求項1記載の方法において、添加ノイ
ズを前記訓練信号に導入するステップは、異なるタイプ
のノイズを導入し、異なるノイズ含有訓練データを発生
するステップを含み、各ノイズ含有訓練データ集合を異
なるタイプのノイズと関連付ける、方法。 - 【請求項4】 請求項3記載の方法において、少なくと
も1つのノイズ低減技法を適用するステップは、同じノ
イズ低減技法を前記ノイズ訓練データ集合の全てに適用
するステップを含む、方法。 - 【請求項5】 請求項3記載の方法において、少なくと
も1つのノイズ低減技法を適用するステップは、他のノ
イズ訓練データのいずれにも適用されていない少なくと
も1つのノイズ低減技法を、ノイズ訓練データ集合の1
つに適用するステップを含む、方法。 - 【請求項6】 請求項5記載の方法であって、更に、前
記発生したパターン認識モデルを用いてパターンを認識
する方法を備え、該用いる方法が、 検査信号を受け取るステップと、 前記検査信号内のノイズをサンプルするステップと、 前記検査信からのサンプルしたノイズを、前記ノイズ含
有訓練データ集合からサンプルしたノイズと比較するス
テップと、 前記検査信号からサンプルしたノイズに最も密接に一致
するノイズを有するノイズ含有データ集合を識別するス
テップと、 前記識別したノイズ含有訓練データに適用した前記ノイ
ズ低減技法を、前記検査信号に適用し、疑似クリーン検
査データを生成するステップと、 前記疑似クリーン検査データをパターン認識モデルに適
用し、前記検査信号内におけるパターンを識別するステ
ップと、から成る、方法。 - 【請求項7】 請求項5記載の方法であって、更に、前
記発生したパターン認識モデルを用いてパターンを認識
する方法を備え、該用いる方法が、 検査信号を受け取るステップと、 少なくとも2つの異なるノイズ低減技法を前記検査信号
に適用することによって、少なくとも2つの疑似クリー
ン検査データ集合を作成するステップと、 各疑似クリーン検査データ集合をパターン認識モデルに
適用し、前記検査信号内におけるパターンを識別するス
テップと、から成る、方法。 - 【請求項8】 請求項7記載の方法において、少なくと
も1つのノイズ低減技法を前記訓練信号に適用するステ
ップは、少なくとも2つの疑似クリーン訓練データ集合
を生成し、前記パターン認識モデルを構築するステップ
は、疑似クリーン訓練データ集合毎に、別個のパターン
認識モデルを構築するステップを含む、方法。 - 【請求項9】 請求項8記載の方法において、前記発生
したパターン認識モデルを用いる前記方法は、更に、 各疑似クリーン検査データ集合を別個のパターン認識モ
デルに適用し、別個の確率を識別するステップと、 少なくとも2つの別個の確率から1つの確率を選択し、
前記検査信号内におけるパターンを識別するステップ
と、を含む、方法。 - 【請求項10】 請求項1記載の方法であって、更に、
前記発生したパターン認識モデルを用いてパターンを認
識する方法を備え、該用いる方法が、 検査信号を受け取るステップと、 前記少なくとも1つのノイズ低減技法を前記検査信号に
適用し、疑似クリーン検査データを生成するステップ
と、 前記疑似クリーン検査データを前記パターン認識モデル
に適用し、前記検査信号内におけるパターンを識別する
ステップと、を含む方法。 - 【請求項11】 パターン認識モデルであって、 パターンを認識しようとする検査信号に存在すると予想
されるノイズのタイプを識別するステップと、 訓練データを発生し、該訓練データが前記識別したタイ
プのノイズを含むようにするステップと、 前記訓練信号内のノイズを低減し、訓練データを生成す
るステップと、 前記訓練データに基づいて、前記モデル・パラメータを
生成するステップと、から成るプロセスによって訓練し
たモデルと調和するモデル・パラメータを有する、パタ
ーン認識モデル。 - 【請求項12】 請求項11記載のパターン認識モデル
において、訓練信号を発生するステップは、前記検査信
号を発生すると想定されるノイズ環境と同様のノイズ環
境において前記訓練信号を記録するステップを含む、パ
ターン認識モデル。 - 【請求項13】 請求項11記載のパターン認識モデル
において、訓練信号を発生するステップは、クリーンな
環境においてクリーン訓練信号を記録し、前記識別した
タイプのノイズを、前記クリーン訓練信号に付加するス
テップを含む、パターン認識モデル。 - 【請求項14】 請求項11記載のパターン認識モデル
において、ノイズのタイプを識別するステップは、多数
のタイプのノイズを識別するステップを含み、訓練信号
を発生するステップは、多数の訓練信号集合を発生する
ステップを含み、各集合が異なるタイプの識別ノイズを
含む、パターン認識モデル。 - 【請求項15】 請求項14記載のパターン認識モデル
において、前記ノイズを低減するステップは、同じノイ
ズ低減技法を各訓練信号集合に適用するステップを含
む、パターン認識モデル。 - 【請求項16】 請求項14記載のパターン認識モデル
において、前記ノイズを低減するステップは、異なるそ
れぞれのノイズ低減技法を異なる訓練信号集合に適用す
るステップを含む、パターン認識モデル。 - 【請求項17】 検査信号内においてパターンを認識す
るパターン認識システムであって、 パターン認識モデルであって、 訓練信号を発生し、該訓練信号が、前記検査信号内にお
いて存在することが見込まれるタイプのノイズを含むよ
うにするステップと、 ノイズ低減技法を用いて前記訓練信号内のノイズを低減
し、クリーン訓練値を生成するステップと、 前記クリーン訓練値を用いて前記モデル・パラメータを
形成するステップと、から成るプロセスによって形成し
たモデル・パラメータを有する、パターン認識モデル
と、 前記検査信号を受け取り、前記ノイズ低減技法を前記検
査信号に適用し、クリーン検査値を生成することが可能
なノイズ低減モジュールと、 前記クリーン・データ値の特徴を受け取り、前記特徴認
識モデルにアクセスし、前記クリーン検査値に基づい
て、前記検査信号内にあるパターンを識別することが可
能なデコーダと、を備えるパターン認識システム。 - 【請求項18】 請求項17記載のパターン認識システ
ムにおいて、訓練信号を発生するステップは、訓練信号
集合を発生するステップを含み、各訓練信号集合が異な
るタイプのノイズを含む、パターン認識システム。 - 【請求項19】 請求項18記載のパターン認識システ
ムにおいて、前記訓練信号においてノイズを低減するス
テップは、同じノイズ低減技法を各訓練信号集合に適用
することによって、前記訓練信号集合の各々におけるノ
イズを低減するステップを含む、パターン認識システ
ム。 - 【請求項20】 請求項18記載のパターン認識システ
ムにおいて、前記訓練信号においてノイズを低減するス
テップは、異なるそれぞれのノイズ低減技法を各訓練信
号集合に適用することによって、前記訓練信号集合の各
々におけるノイズを低減するステップを含む、パターン
認識システム。 - 【請求項21】 請求項20記載のパターン認識システ
ムにおいて、前記ノイズ低減モジュールは、更に、 前記検査信号内におけるノイズをサンプルするノイズ・
サンプラと、 前記検査信号からサンプルしたノイズを、前記訓練信号
集合内におけるノイズと比較し、前記検査信号内におい
てサンプルしたノイズと最も良く一致するノイズを含む
訓練信号集合を識別するノイズ比較器と、 前記識別した訓練信号集合に適用したノイズ低減技法を
選択し、前記検査信号に適用するノイズ低減セレクタ
と、を備える、パターン認識システム。 - 【請求項22】 請求項17記載のパターン認識システ
ムであって、更に、 第2パターン認識モデルであって、 第2訓練信号を生成し、該第2訓練信号が、前記検査信
号内に存在すると見込まれる第2タイプのノイズを含む
ようにするステップと、 ノイズ低減技法を用いて、前記第2訓練信号内のノイズ
を低減し、クリーン訓練値を生成するステップと、 前記クリーン訓練値を用いて前記第2モデル・パラメー
タを形成するステップと、 から成るプロセスによって形成した第2モデル・パラメ
ータを有する、第2パターン認識モデルを備える、パタ
ーン認識システム。 - 【請求項23】 請求項22記載のパターン認識システ
ムにおいて、前記デコーダは、前記クリーン検査値の特
徴を前記パターン認識モデルおよび前記第2パターン認
識モデルに適用することによって、前記検査信号内のパ
ターンを識別する、パターン認識システム。 - 【請求項24】 請求項23記載のパターン認識システ
ムにおいて、前記第2訓練信号内のノイズを低減するス
テップは、前記訓練信号内のノイズを低減するために用
いた同じノイズ低減技法を用いるステップを含む、パタ
ーン認識システム。 - 【請求項25】 請求項23記載のパターン認識システ
ムにおいて、前記第2訓練信号内のノイズを低減するス
テップは、前記訓練信号内のノイズを低減するために用
いたノイズ低減技法とは異なる技法を用いるステップを
含む、パターン認識システム。 - 【請求項26】 請求項23記載のパターン認識システ
ムにおいて、前記デコーダは、前記パターン認識モデル
を用いて識別したパターンと、前記第2パターン認識モ
デルを用いて識別したパターンとの間で選択を行うこと
によって、パターンを識別する、パターン認識システ
ム。 - 【請求項27】 請求項26記載のパターン認識システ
ムにおいて、前記パターン認識システムはスピーチ認識
システムであって、前記デコーダは、前記パターン認識
モデルを用いて識別した単語列と、前記第2パターン認
識モデルを用いて識別した単語列との間で選択を行う、
パターン認識システム。 - 【請求項28】 請求項26記載のパターン認識システ
ムにおいて、前記パターン認識システムはスピーチ認識
システムであって、前記デコーダは、前記パターン認識
モデルを用いて識別した単語と、前記第2パターン認識
モデルを用いて識別した単語との間で選択を行う、パタ
ーン認識システム。 - 【請求項29】 請求項26記載のパターン認識システ
ムにおいて、前記パターン認識システムはスピーチ認識
システムであって、前記デコーダは、前記パターン認識
モデルを用いて識別した副単語音響単位と、前記第2パ
ターン認識モデルを用いて識別した副単語音響単位との
間で選択を行う、パターン認識システム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/688,950 US6876966B1 (en) | 2000-10-16 | 2000-10-16 | Pattern recognition training method and apparatus using inserted noise followed by noise reduction |
US09/688950 | 2000-10-16 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002140089A true JP2002140089A (ja) | 2002-05-17 |
JP4195211B2 JP4195211B2 (ja) | 2008-12-10 |
Family
ID=24766456
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001317824A Expired - Fee Related JP4195211B2 (ja) | 2000-10-16 | 2001-10-16 | 挿入ノイズを用いた後にノイズ低減を行うパターン認識訓練方法および装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US6876966B1 (ja) |
EP (1) | EP1199708B1 (ja) |
JP (1) | JP4195211B2 (ja) |
AT (1) | ATE347161T1 (ja) |
DE (1) | DE60124842T2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8370139B2 (en) | 2006-04-07 | 2013-02-05 | Kabushiki Kaisha Toshiba | Feature-vector compensating apparatus, feature-vector compensating method, and computer program product |
US9666184B2 (en) | 2014-12-08 | 2017-05-30 | Samsung Electronics Co., Ltd. | Method and apparatus for training language model and recognizing speech |
JP2022020062A (ja) * | 2020-11-23 | 2022-01-31 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 特徴情報のマイニング方法、装置及び電子機器 |
Families Citing this family (65)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7925612B2 (en) * | 2001-05-02 | 2011-04-12 | Victor Gogolak | Method for graphically depicting drug adverse effect risks |
US6778994B2 (en) | 2001-05-02 | 2004-08-17 | Victor Gogolak | Pharmacovigilance database |
US7542961B2 (en) * | 2001-05-02 | 2009-06-02 | Victor Gogolak | Method and system for analyzing drug adverse effects |
US7461006B2 (en) * | 2001-08-29 | 2008-12-02 | Victor Gogolak | Method and system for the analysis and association of patient-specific and population-based genomic data with drug safety adverse event data |
US7165028B2 (en) * | 2001-12-12 | 2007-01-16 | Texas Instruments Incorporated | Method of speech recognition resistant to convolutive distortion and additive distortion |
US7209881B2 (en) * | 2001-12-20 | 2007-04-24 | Matsushita Electric Industrial Co., Ltd. | Preparing acoustic models by sufficient statistics and noise-superimposed speech data |
US7130776B2 (en) * | 2002-03-25 | 2006-10-31 | Lockheed Martin Corporation | Method and computer program product for producing a pattern recognition training set |
US7117148B2 (en) | 2002-04-05 | 2006-10-03 | Microsoft Corporation | Method of noise reduction using correction vectors based on dynamic aspects of speech and noise normalization |
US7103540B2 (en) * | 2002-05-20 | 2006-09-05 | Microsoft Corporation | Method of pattern recognition using noise reduction uncertainty |
US7107210B2 (en) * | 2002-05-20 | 2006-09-12 | Microsoft Corporation | Method of noise reduction based on dynamic aspects of speech |
US7174292B2 (en) | 2002-05-20 | 2007-02-06 | Microsoft Corporation | Method of determining uncertainty associated with acoustic distortion-based noise reduction |
JP4352790B2 (ja) * | 2002-10-31 | 2009-10-28 | セイコーエプソン株式会社 | 音響モデル作成方法および音声認識装置ならびに音声認識装置を有する乗り物 |
US7370057B2 (en) * | 2002-12-03 | 2008-05-06 | Lockheed Martin Corporation | Framework for evaluating data cleansing applications |
CN100356391C (zh) * | 2003-05-21 | 2007-12-19 | 皇家飞利浦电子股份有限公司 | 验证身份的方法、识别设备和读/写设备 |
US8041026B1 (en) | 2006-02-07 | 2011-10-18 | Avaya Inc. | Event driven noise cancellation |
US20070239444A1 (en) * | 2006-03-29 | 2007-10-11 | Motorola, Inc. | Voice signal perturbation for speech recognition |
JP4245617B2 (ja) * | 2006-04-06 | 2009-03-25 | 株式会社東芝 | 特徴量補正装置、特徴量補正方法および特徴量補正プログラム |
US7840287B2 (en) * | 2006-04-13 | 2010-11-23 | Fisher-Rosemount Systems, Inc. | Robust process model identification in model based control techniques |
US8407160B2 (en) * | 2006-11-15 | 2013-03-26 | The Trustees Of Columbia University In The City Of New York | Systems, methods, and media for generating sanitized data, sanitizing anomaly detection models, and/or generating sanitized anomaly detection models |
US8195453B2 (en) * | 2007-09-13 | 2012-06-05 | Qnx Software Systems Limited | Distributed intelligibility testing system |
WO2009039897A1 (en) | 2007-09-26 | 2009-04-02 | Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E.V. | Apparatus and method for extracting an ambient signal in an apparatus and method for obtaining weighting coefficients for extracting an ambient signal and computer program |
US8615397B2 (en) * | 2008-04-04 | 2013-12-24 | Intuit Inc. | Identifying audio content using distorted target patterns |
NO328622B1 (no) | 2008-06-30 | 2010-04-06 | Tandberg Telecom As | Anordning og fremgangsmate for reduksjon av tastaturstoy i konferanseutstyr |
JP5150542B2 (ja) * | 2009-03-26 | 2013-02-20 | 株式会社東芝 | パターン認識装置、パターン認識方法、及び、プログラム |
US11416214B2 (en) | 2009-12-23 | 2022-08-16 | Google Llc | Multi-modal input on an electronic device |
EP3091535B1 (en) | 2009-12-23 | 2023-10-11 | Google LLC | Multi-modal input on an electronic device |
US8660842B2 (en) * | 2010-03-09 | 2014-02-25 | Honda Motor Co., Ltd. | Enhancing speech recognition using visual information |
US8265928B2 (en) | 2010-04-14 | 2012-09-11 | Google Inc. | Geotagged environmental audio for enhanced speech recognition accuracy |
US8468012B2 (en) | 2010-05-26 | 2013-06-18 | Google Inc. | Acoustic model adaptation using geographic information |
US8484023B2 (en) * | 2010-09-24 | 2013-07-09 | Nuance Communications, Inc. | Sparse representation features for speech recognition |
US8352245B1 (en) | 2010-12-30 | 2013-01-08 | Google Inc. | Adjusting language models |
US8296142B2 (en) | 2011-01-21 | 2012-10-23 | Google Inc. | Speech recognition using dock context |
HUP1200018A2 (en) | 2012-01-11 | 2013-07-29 | 77 Elektronika Mueszeripari Kft | Method of training a neural network, as well as a neural network |
US8484017B1 (en) | 2012-09-10 | 2013-07-09 | Google Inc. | Identifying media content |
US20140074466A1 (en) | 2012-09-10 | 2014-03-13 | Google Inc. | Answering questions using environmental context |
US9734819B2 (en) | 2013-02-21 | 2017-08-15 | Google Technology Holdings LLC | Recognizing accented speech |
US9275638B2 (en) | 2013-03-12 | 2016-03-01 | Google Technology Holdings LLC | Method and apparatus for training a voice recognition model database |
US9237225B2 (en) | 2013-03-12 | 2016-01-12 | Google Technology Holdings LLC | Apparatus with dynamic audio signal pre-conditioning and methods therefor |
US20140278393A1 (en) | 2013-03-12 | 2014-09-18 | Motorola Mobility Llc | Apparatus and Method for Power Efficient Signal Conditioning for a Voice Recognition System |
US20140270249A1 (en) | 2013-03-12 | 2014-09-18 | Motorola Mobility Llc | Method and Apparatus for Estimating Variability of Background Noise for Noise Suppression |
CN105580071B (zh) * | 2013-05-06 | 2020-08-21 | 谷歌技术控股有限责任公司 | 用于训练声音识别模型数据库的方法和装置 |
CN103310789B (zh) * | 2013-05-08 | 2016-04-06 | 北京大学深圳研究生院 | 一种基于改进的并行模型组合的声音事件识别方法 |
US9842592B2 (en) | 2014-02-12 | 2017-12-12 | Google Inc. | Language models using non-linguistic context |
US9412365B2 (en) | 2014-03-24 | 2016-08-09 | Google Inc. | Enhanced maximum entropy models |
US9858922B2 (en) | 2014-06-23 | 2018-01-02 | Google Inc. | Caching speech recognition scores |
US9953646B2 (en) | 2014-09-02 | 2018-04-24 | Belleau Technologies | Method and system for dynamic speech recognition and tracking of prewritten script |
US9299347B1 (en) * | 2014-10-22 | 2016-03-29 | Google Inc. | Speech recognition using associative mapping |
US9535905B2 (en) * | 2014-12-12 | 2017-01-03 | International Business Machines Corporation | Statistical process control and analytics for translation supply chain operational management |
KR101988222B1 (ko) * | 2015-02-12 | 2019-06-13 | 한국전자통신연구원 | 대어휘 연속 음성 인식 장치 및 방법 |
US10134394B2 (en) | 2015-03-20 | 2018-11-20 | Google Llc | Speech recognition using log-linear model |
US9786270B2 (en) | 2015-07-09 | 2017-10-10 | Google Inc. | Generating acoustic models |
KR102494139B1 (ko) * | 2015-11-06 | 2023-01-31 | 삼성전자주식회사 | 뉴럴 네트워크 학습 장치 및 방법과, 음성 인식 장치 및 방법 |
US20170148466A1 (en) * | 2015-11-25 | 2017-05-25 | Tim Jackson | Method and system for reducing background sounds in a noisy environment |
CN105448303B (zh) * | 2015-11-27 | 2020-02-04 | 百度在线网络技术(北京)有限公司 | 语音信号的处理方法和装置 |
US10229672B1 (en) | 2015-12-31 | 2019-03-12 | Google Llc | Training acoustic models using connectionist temporal classification |
US9978367B2 (en) | 2016-03-16 | 2018-05-22 | Google Llc | Determining dialog states for language models |
US20180018973A1 (en) | 2016-07-15 | 2018-01-18 | Google Inc. | Speaker verification |
US10832664B2 (en) | 2016-08-19 | 2020-11-10 | Google Llc | Automated speech recognition using language models that selectively use domain-specific model components |
US10311860B2 (en) | 2017-02-14 | 2019-06-04 | Google Llc | Language model biasing system |
US10706840B2 (en) | 2017-08-18 | 2020-07-07 | Google Llc | Encoder-decoder models for sequence to sequence mapping |
JP7019096B2 (ja) | 2018-08-30 | 2022-02-14 | ドルビー・インターナショナル・アーベー | 低ビットレート符号化オーディオの増強を制御する方法及び機器 |
CN111210810A (zh) * | 2019-12-17 | 2020-05-29 | 秒针信息技术有限公司 | 模型训练方法和装置 |
EP3862782A1 (en) * | 2020-02-04 | 2021-08-11 | Infineon Technologies AG | Apparatus and method for correcting an input signal |
CN111429930B (zh) * | 2020-03-16 | 2023-02-28 | 云知声智能科技股份有限公司 | 一种基于自适应采样率的降噪模型处理方法及系统 |
CN114190953B (zh) * | 2021-12-09 | 2024-07-23 | 四川新源生物电子科技有限公司 | 针对脑电采集设备的脑电信号降噪模型的训练方法和系统 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE4309985A1 (de) * | 1993-03-29 | 1994-10-06 | Sel Alcatel Ag | Geräuschreduktion zur Spracherkennung |
DE4322372A1 (de) * | 1993-07-06 | 1995-01-12 | Sel Alcatel Ag | Verfahren und Vorrichtung zur Spracherkennung |
US6067517A (en) * | 1996-02-02 | 2000-05-23 | International Business Machines Corporation | Transcription of speech data with segments from acoustically dissimilar environments |
US6026359A (en) * | 1996-09-20 | 2000-02-15 | Nippon Telegraph And Telephone Corporation | Scheme for model adaptation in pattern recognition based on Taylor expansion |
US5950157A (en) * | 1997-02-28 | 1999-09-07 | Sri International | Method for establishing handset-dependent normalizing models for speaker recognition |
US6529872B1 (en) * | 2000-04-18 | 2003-03-04 | Matsushita Electric Industrial Co., Ltd. | Method for noise adaptation in automatic speech recognition using transformed matrices |
-
2000
- 2000-10-16 US US09/688,950 patent/US6876966B1/en not_active Expired - Lifetime
-
2001
- 2001-10-10 AT AT01124141T patent/ATE347161T1/de not_active IP Right Cessation
- 2001-10-10 EP EP01124141A patent/EP1199708B1/en not_active Expired - Lifetime
- 2001-10-10 DE DE60124842T patent/DE60124842T2/de not_active Expired - Lifetime
- 2001-10-16 JP JP2001317824A patent/JP4195211B2/ja not_active Expired - Fee Related
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8370139B2 (en) | 2006-04-07 | 2013-02-05 | Kabushiki Kaisha Toshiba | Feature-vector compensating apparatus, feature-vector compensating method, and computer program product |
US9666184B2 (en) | 2014-12-08 | 2017-05-30 | Samsung Electronics Co., Ltd. | Method and apparatus for training language model and recognizing speech |
US10332510B2 (en) | 2014-12-08 | 2019-06-25 | Samsung Electronics Co., Ltd. | Method and apparatus for training language model and recognizing speech |
JP2022020062A (ja) * | 2020-11-23 | 2022-01-31 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 特徴情報のマイニング方法、装置及び電子機器 |
JP7300492B2 (ja) | 2020-11-23 | 2023-06-29 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 特徴情報のマイニング方法、装置及び電子機器 |
US12067970B2 (en) | 2020-11-23 | 2024-08-20 | Beijing Baidu Netcom Science Technology Co., Ltd. | Method and apparatus for mining feature information, and electronic device |
Also Published As
Publication number | Publication date |
---|---|
EP1199708A2 (en) | 2002-04-24 |
US6876966B1 (en) | 2005-04-05 |
ATE347161T1 (de) | 2006-12-15 |
DE60124842T2 (de) | 2007-04-12 |
JP4195211B2 (ja) | 2008-12-10 |
EP1199708B1 (en) | 2006-11-29 |
EP1199708A3 (en) | 2003-10-15 |
DE60124842D1 (de) | 2007-01-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4195211B2 (ja) | 挿入ノイズを用いた後にノイズ低減を行うパターン認識訓練方法および装置 | |
US6959276B2 (en) | Including the category of environmental noise when processing speech signals | |
US7181390B2 (en) | Noise reduction using correction vectors based on dynamic aspects of speech and noise normalization | |
US6985858B2 (en) | Method and apparatus for removing noise from feature vectors | |
JP4195428B2 (ja) | 多数の音声特徴を利用する音声認識 | |
KR101201146B1 (ko) | 최적의 추정을 위한 중요한 양으로서 순간적인 신호 대 잡음비를 사용하는 잡음 감소 방법 | |
KR101099339B1 (ko) | 복수-감지기형 음성 향상 방법 및 컴퓨터-판독가능 매체 | |
US7133826B2 (en) | Method and apparatus using spectral addition for speaker recognition | |
JP5072206B2 (ja) | 音声分類および音声認識のための隠れ条件付確率場モデル | |
US6990447B2 (en) | Method and apparatus for denoising and deverberation using variational inference and strong speech models | |
US7254536B2 (en) | Method of noise reduction using correction and scaling vectors with partitioning of the acoustic space in the domain of noisy speech | |
US6931374B2 (en) | Method of speech recognition using variational inference with switching state space models | |
EP3989217B1 (en) | Method for detecting an audio adversarial attack with respect to a voice input processed by an automatic speech recognition system, corresponding device, computer program product and computer-readable carrier medium | |
US20060195317A1 (en) | Method and apparatus for recognizing speech in a noisy environment | |
US6917918B2 (en) | Method and system for frame alignment and unsupervised adaptation of acoustic models | |
US11763801B2 (en) | Method and system for outputting target audio, readable storage medium, and electronic device | |
Shahnawazuddin et al. | Enhancing noise and pitch robustness of children's ASR | |
JP2003241787A (ja) | 音声認識装置および方法、並びにプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20041015 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20041015 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20041015 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20041015 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060908 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061208 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070209 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070508 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080829 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080925 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4195211 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111003 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121003 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131003 Year of fee payment: 5 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |