JP2002140089A - 挿入ノイズを用いた後にノイズ低減を行うパターン認識訓練方法および装置 - Google Patents

挿入ノイズを用いた後にノイズ低減を行うパターン認識訓練方法および装置

Info

Publication number
JP2002140089A
JP2002140089A JP2001317824A JP2001317824A JP2002140089A JP 2002140089 A JP2002140089 A JP 2002140089A JP 2001317824 A JP2001317824 A JP 2001317824A JP 2001317824 A JP2001317824 A JP 2001317824A JP 2002140089 A JP2002140089 A JP 2002140089A
Authority
JP
Japan
Prior art keywords
noise
pattern recognition
training
signal
recognition model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001317824A
Other languages
English (en)
Other versions
JP4195211B2 (ja
Inventor
Den Ri
リ・デン
Xuedong Huang
スードン・ファン
Michael D Plumpe
マイケル・ディー・プランペ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2002140089A publication Critical patent/JP2002140089A/ja
Application granted granted Critical
Publication of JP4195211B2 publication Critical patent/JP4195211B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Filters That Use Time-Delay Elements (AREA)
  • Noise Elimination (AREA)
  • Holo Graphy (AREA)
  • Inspection Of Paper Currency And Valuable Securities (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

(57)【要約】 【課題】 パターン認識モデルを訓練し用いる方法を提
供する。 【解決手段】 検査信号内において予想されるノイズに
一致する添加ノイズを訓練信号に含ませる(300)。
ノイズ含有訓練信号に、1つ以上のノイズ低減技法を受
けさせ、疑似クリーン訓練データを生成する(30
2)。疑似クリーン訓練データを用いて、パターン認識
モデルを訓練する(304)。検査信号を受け取ると
(306)、ノイズ含有訓練信号で用いたのと同じノイ
ズ低減技法を、この検査信号に受けさせる(308)。
これによって、疑似クリーン検査データを生成し、パタ
ーン認識モデルに適用する。一実施形態の下では、複数
の訓練データ集合を生成し、各集合が異なるタイプのノ
イズを含む。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、パターン認識に関
する。特に、本発明は、パターン認識用訓練モデルに関
する。
【0002】
【従来の技術】スピーチ認識システムのようなパターン
認識システムは、入力信号を取り込み、この信号をデコ
ードして、信号が表すパターンを見出そうとする。例え
ば、スピーチ認識システムでは、認識システムがスピー
チ信号(多くの場合、検査信号とも呼ぶ)を受け取り、
デコードすることによって、スピーチ信号が表す単語列
を識別する。
【0003】入来する検査信号をデコードする際、殆ど
の認識システムは、当該検査信号の一部が特定のパター
ンを表す尤度を表す1つ以上のモデルを利用する。この
ようなモデルの例には、ニューラル・ネット、ダイナミ
ック・タイム・ワーピング(dynamic time warping)、セ
グメント・モデル、隠れマルコフ・モデルが含まれる。
【0004】モデルを用いて入来信号をデコードできる
ようになる前に、これを訓練しなければならない。これ
を行うには、通例では、既知の訓練パターンから発生し
た入力訓練信号を測定する。例えば、スピーチ認識で
は、既知のテキストから話者が読み上げることによっ
て、スピーチ信号の集合を発生する。次いで、これらの
スピーチ信号を用いてモデルを訓練する。
【0005】入力検査信号をデコードする際にモデルが
最適に機能するためには、モデルを訓練するために用い
る信号は、デコードする最終的な検査信号に類似してい
なければならない。即ち、訓練信号は、デコードする検
査信号と同じ量および同じタイプのノイズを有していな
ければならない。
【0006】訓練信号において同じノイズ特性を得るた
めに、従来のシステムの中には、検査信号を発生したと
きに存在したと予想される同じ条件の下で訓練信号を収
集するものがある。例えば、スピーチ訓練信号は、スピ
ーチ認識システムを用いるのと同じノイズ環境で収集す
る。他のシステムは、比較的ノイズのない(即ち、「ク
リーンな」)条件の下で訓練データを収集し、次いで予
想ノイズをクリーンな訓練データに追加する。
【0007】
【発明が解決しようとする課題】ノイズを訓練データに
追加したり、あるいはノイズ環境において訓練データを
収集すると、多くの場合、訓練データの検査データに対
する整合性が高まるが、なおも検査環境において存在す
るノイズを完全に予期することは不可能である。このた
め、単にノイズ訓練データを用いても、パターン認識シ
ステムの性能を最適化することにはならない。
【0008】他の従来技術のシステムには、ノイズ低減
技法を訓練データに適用することによって、訓練データ
および検査データを一致させようとしたものがある。こ
のようなシステムでは、訓練データは、実質的に「クリ
ーン」な条件の下で発生し、そのノイズ含有量を極力抑
えている。次いで、ノイズ低減技法を検査データに適用
して、検査データを訓練データのクリーンな条件に更に
近づける。しかしながら、現在のノイズ低減技法は不完
全であり、検査データ内のノイズ全てを除去することは
できない。このために、訓練データおよび検査データ
は、ノイズ低減の後でも、一致しないままとなってい
る。
【0009】このように、訓練データ・ノイズを検査デ
ータ・ノイズに一致させる従来技術の技法は、理想には
ほど遠いのである。
【0010】
【課題を解決するための手段】パターン認識モデルを訓
練し用いる方法および装置を提供する。本発明の下で
は、検査信号内に予想されるノイズに一致する添加ノイ
ズを訓練信号に含ませる。ノイズ含有訓練信号に、1つ
以上のノイズ低減技法を受けさせ、疑似クリーン訓練デ
ータを生成する。次いで、疑似クリーン訓練データを用
いて、パターン認識モデルを訓練する。
【0011】検査信号を受け取ると、ノイズ訓練信号に
用いた同じノイズ低減技法を検査信号に受けされる。こ
れによって、疑似クリーン訓練信号に対する一致度が高
い疑似クリーン検査データを生成する。次に、疑似クリ
ーン検査データをパターン認識モデルに適用して、検査
信号が表す最尤パターンを決定する。
【0012】一実施形態の下では、複数の訓練データ集
合を生成する。各集合は、異なるタイプのノイズを含
む。例えば、1つの集合はコンピュータからのファン・
ノイズを含み、別の集合はキーボードのノイズを含むと
いうようにすることもできる。このような実施形態で
は、各訓練データ集合に同じノイズ低減技法を受けさせ
るとよく、あるいは異なる訓練データ集合に、異なるノ
イズ低減技法を受けさせてもよい。
【0013】一実施形態の下では、異なる訓練データ集
合に異なるノイズ低減技法を用いる場合、検査データ内
のノイズをサンプルし、同様のタイプのノイズを含む、
特定の訓練データ集合を識別する。次いで、最も良く一
致した訓練データに適用したノイズ低減技法を検査デー
タに適用し、疑似クリーン検査データを形成する。
【0014】異なる訓練データ集合または同じ訓練デー
タ集合に異なるノイズ低減技法を用いる別の実施形態で
は、異なるノイズ低減技術を検査データに受けさせ、疑
似クリーン検査データの多数の異なるバージョンを生成
する。次いで、疑似クリーン検査データのこれら別個の
形態をそれぞれモデルに適用し、パターンの確率を判定
する。次に、最も確率が高いパターンを生成する疑似ク
リーン検査データの形態、または形態の組み合わせを選
択することによって、検査データに適用する適正なノイ
ズ低減技法を暗示的に選択する。
【0015】
【発明の実施の形態】図1は、本発明を実施可能とする
のに適した計算システム環境100の一例を示す。計算
システム環境100は、適した計算環境の一例に過ぎ
ず、本発明の使用または機能性の範囲に関していずれの
限定をも示唆する訳ではない。また、一例の動作環境1
00に示すいずれの一コンポーネントまたはコンポーネ
ントの組み合わせに関しても、計算環境100はいずれ
の依存性も要件も有するものとして解釈してはならな
い。
【0016】本発明は、多数のその他の汎用または特殊
目的計算システム環境またはコンフィギュレーションと
共に動作する。公知の計算システム、環境および/また
はコンフィギュレーションで、本発明との使用に相応し
い例は、限定ではなく、パーソナル・コンピュータ、サ
ーバ・コンピュータ、ハンドヘルドまたはラップトップ
・デバイス、マイクロプロセッサ・システム、マイクロ
プロセッサ系システム、セット・トップ・ボックス、プ
ログラマブル消費者電子機器、ネットワークPC、ミニ
コンピュータ、メインフレーム・コンピュータ、電話シ
ステム、上述のシステムまたはデバイスのいずれをも含
む分散計算環境等を含む。
【0017】本発明の説明は、コンピュータが実行する
プログラム・モジュールのようなコンピュータ実行可能
命令の一般的なコンテキストで行うこととする。一般
に、プログラム・モジュールは、特定のタスクを実行し
たり、あるいは特定の抽象的データ・タイプを使用す
る、ルーチン、プログラム、オブジェクト、コンポーネ
ント、データ構造等を含む。また、本発明は、分散型計
算機環境において、通信ネットワークを通じてリンクし
たリモート処理デバイスによってタスクを実行するとい
う実施も可能である。ある分散型計算機環境において
は、プログラム・モジュールは、メモリ記憶素子を含む
ローカルおよびリモート双方のコンピュータ記憶媒体に
配置することができる。
【0018】図1を参照すると、本発明を実施するため
の例示のシステムは、コンピュータ110の形態とした
汎用計算デバイスを含む。コンピュータ110のコンポ
ーネントは、処理ユニット120、システム・メモリ1
30、およびシステム・メモリから処理ユニット120
までを含む種々のシステム・コンポーネントを結合する
システム・バス121を含むことができるが、これらに
限定される訳ではない。システム・バス121は、種々
のバス・アーキテクチャのいずれかを用いたメモリ・バ
スまたはメモリ・コントローラ、周辺バス、およびロー
カル・バスを含む、数種類のバス構造のいずれでもよ
い。限定ではなく一例として、このようなアーキテクチ
ャは、業界標準アーキテクチャ(ISA)バス、マイク
ロ・チャネル・アーキテクチャ(MCA)バス、改良I
SA(EISA)バス、ビデオ電子規格協会(VES
A)ローカル・バス、およびMezzanineバスと
しても知られている周辺素子相互接続(PCI)バスを
含む。
【0019】コンピュータ110は、通例では、種々の
コンピュータ読み取り可能媒体を含む。コンピュータ読
み取り可能媒体は、コンピュータ110がアクセス可能
であれば、入手可能な媒体のいずれでも可能であり、揮
発性および不揮発性双方の媒体、リムーバブルおよび非
リムーバブル媒体を含む。一例として、そして限定では
なく、コンピュータ読み取り可能媒体は、コンピュータ
記憶媒体および通信媒体を含むことができる。コンピュ
ータ記憶媒体は、コンピュータ読み取り可能命令、デー
タ構造、プログラム・モジュールまたはその他のデータ
のような情報の格納のためのあらゆる方法または技術に
おいて使用されている揮発性および不揮発性、リムーバ
ブルおよび非リムーバブル双方の媒体を含む。コンピュ
ータ記憶媒体は、限定する訳ではないが、RAM、RO
M、EEPROM、フラッシュ・メモリまたはその他の
メモリ技術、CD−ROM、ディジタル・バーサタイル
・ディスク(DVD)、またはその他の光ディスク・ス
トレージ、磁気カセット、磁気テープ、磁気ディスク・
ストレージ、またはその他の磁気記憶装置、あるいは所
望の情報を格納するために使用可能であり、コンピュー
タ100によってアクセス可能なその他のいずれの媒体
でも含まれる。通信媒体は、通例では、コンピュータ読
み取り可能命令、データ構造、プログラム・モジュー
ル、またはその他データを、キャリア波またはその他の
トランスポート機構のような変調データ信号におけるそ
の他のデータを具体化し、あらゆる情報配信媒体を含
む。「変調データ信号」という用語は、信号内に情報を
エンコードするように、その1つ以上の特性を設定また
は変更した信号を意味する。一例として、そして限定で
はなく、通信媒体は、有線ネットワークまたは直接有線
接続のような有線媒体、ならびに音響、RF、赤外線お
よびその他のワイヤレス媒体のようなワイヤレス媒体を
含む。前述のいずれの組み合わせでも、コンピュータ読
み取り可能媒体の範囲内に当然含まれるものとする。
【0020】システム・メモリ130は、リード・オン
リ・メモリ(ROM)131およびランダム・アクセス
・メモリ(RAM)132のような揮発性および/また
は不揮発性メモリの形態のコンピュータ記憶媒体を含
む。基本入出力システム133(BIOS)は、起動中
のように、コンピュータ110内のエレメント間におけ
るデータ転送を補助する基本的なルーチンを含み、通例
ではROM131内に格納されている。RAM132
は、通例では、処理ユニット120が直ちにアクセス可
能であるデータおよび/またはプログラム・モジュー
ル、または現在処理ユニット120によって処理されて
いるデータおよび/またはプログラム・モジュールを収
容する。一例として、そして限定ではなく、図1は、オ
ペレーティング・システム134、アプリケーション・
プログラム135、その他のプログラム・モジュール1
36、およびプログラム・データ137を示す。
【0021】また、コンピュータ110は、その他のリ
ムーバブル/非リムーバブル揮発性/不揮発性コンピュ
ータ記憶媒体も含むことができる。一例としてのみ、図
1は、非リムーバブル不揮発性磁気媒体からの読み取り
およびこれへの書き込みを行うハード・ディスク・ドラ
イブ141、リムーバブル不揮発性磁気ディスク152
からの読み取りおよびこれへの書き込みを行う磁気ディ
スク・ドライブ151、ならびにCD ROMまたはそ
の他の光媒体のようなリムーバブル不揮発性光ディスク
156からの読み取りおよびこれへの書き込みを行う光
ディスク・ドライブ155を示す。動作環境の一例にお
いて使用可能なその他のリムーバブル/非リムーバブ
ル、揮発性/不揮発性コンピュータ記憶媒体には、限定
する訳ではないが、磁気テープ・カセット、フラッシュ
・メモリ・カード、ディジタル・バーサタイル・ディス
ク、ディジタル・ビデオ・テープ、ソリッド・ステート
RAM、ソリッド・ステートROM等が含まれる。ハー
ド・ディスク・ドライブ141は、通例では、インター
フェース140のような非リムーバブル・メモリ・イン
ターフェースを介してシステム・バス121に接続さ
れ、磁気ディスク・ドライブ151および光ディスク・
ドライブ155は、通例では、インターフェース150
のようなリムーバブル・メモリ・インターフェースによ
ってシステム・バス121に接続する。
【0022】先に論じ図1に示すドライブおよびそれら
と連動するコンピュータ記憶媒体は、コンピュータ読み
取り可能命令、データ構造、プログラム・モジュール、
およびコンピュータ110のその他のデータを格納す
る。図1では、例えば、ハード・ディスク・ドライブ1
41は、オペレーティング・システム144、アプリケ
ーション・プログラム145、その他のプログラム・モ
ジュール146、およびプログラム・データ147を格
納するように示されている。尚、これらのコンポーネン
トは、オペレーティング・システム134、アプリケー
ション・プログラム135、その他のプログラム・モジ
ュール136、およびプログラム・データ137と同じ
でも異なっていても可能であることを注記しておく。オ
ペレーティング・システム144、アプリケーション・
プログラム145、その他のプログラム・モジュール1
46、およびプログラム・データ147は、少なくとも
これらが異なるコピーであることを示すために、ここで
は異なる番号を与えている。
【0023】ユーザは、キーボード162、マイクロフ
ォン163、およびマウス、トラックボールまたはタッ
チ・パッドのようなポインティング・デバイス161に
よって、コマンドおよび情報をコンピュータ110に入
力することができる。他の入力デバイス(図示せず)
は、ジョイスティック、ゲーム・パッド、衛星ディッシ
ュ、スキャナ等を含むことができる。これらおよびその
他の入力デバイスは、多くの場合、ユーザ入力インター
フェース160を介して、処理ユニット120に接続さ
れている。ユーザ入力インターフェース160は、シス
テム・バスに結合されているが、パラレル・ポート、ゲ
ーム・ポートまたはユニバーサル・シリアル・バス(U
SB)のようなその他のインターフェースおよびバス構
造によって接続することも可能である。モニタ191ま
たはその他の形式の表示装置も、ビデオ・インターフェ
ース190のようなインターフェースを介して、システ
ム・バス121に接続されている。モニタに加えて、コ
ンピュータは、スピーカ197およびプリンタ196の
ようなその他の周辺出力デバイスを含むこともでき、こ
れらは出力周辺インターフェース190を介して接続す
ることができる。
【0024】コンピュータ110は、リモート・コンピ
ュータ180のような1つ以上のリモート・コンピュー
タへの論理接続を用いて、ネットワーク環境において動
作することも可能である。リモート・コンピュータ18
0は、パーソナル・コンピュータ、ハンド・ヘルド・デ
バイス、サーバ、ルータ、ネットワークPC、ピア・デ
バイス、またはその他の共通ネットワーク・ノードとす
ることができ、通例では、コンピュータ110に関して
先に説明したエレメントの多くまたは全てを含む。図1
に示す論理接続は、ローカル・エリア・ネットワーク
(LAN)171およびワイド・エリア・ネットワーク
(WAN)173を含むが、他のネットワークも含むこ
とができる。このようなネットワーキング環境は、事務
所、企業規模のコンピュータ・ネットワーク、イントラ
ネットおよびインターネットにおいては、一般的であ
る。
【0025】LANネットワーキング環境で用いる場
合、コンピュータ110は、ネットワーク・インターフ
ェースまたはアダプタ170を介してLAN171に接
続する。WANネットワーキング環境で用いる場合、コ
ンピュータ110は、通例では、モデム172、または
インターネットのようなWAN173を通じて通信を確
立するその他の手段を含む。モデム172は、内蔵でも
外付けでもよく、ユーザ入力インターフェース160ま
たはその他の適切な機構を介してシステム・バス121
に接続することができる。ネットワーク環境では、コン
ピュータ110に関して図示したプログラム・モジュー
ル、またはその一部は、リモート・メモリ記憶装置に格
納することもできる。一例として、そして限定ではな
く、図1は、リモート・アプリケーション・プログラム
185がメモリ素子181上に常駐するものとして示し
ている。尚、図示のネットワーク接続は一例であり、コ
ンピュータ間で通信リンクを確立する他の手段も使用可
能であることは認められよう。
【0026】図2は、計算環境の一例であるモバイル・
デバイス200のブロック図である。モバイル・デバイ
ス200は、マイクロプロセッサ202、メモリ20
4、入出力(I/O)コンポーネント206、およびリ
モート・コンピュータまたは別のモバイル・デバイスと
通信するための通信インターフェース208を含む。一
実施形態では、前述のコンポーネントを結合し、適切な
バス210を通じて互いに通信し合うようにしている。
【0027】メモリ204は、バッテリ・バックアップ
・モジュール(図示せず)を備えたランダム・アクセス
・メモリ(RAM)のような、不揮発性電子メモリとし
て実装し、メモリ204に格納してある情報は、モバイ
ル・デバイス200全体への電力を遮断した後でも失わ
れないようにしている。メモリ204の一部は、プログ
ラムの実行用にアクセス可能なメモリとして割り当てる
ことが好ましく、一方メモリ204の別の一部は、ディ
スク・ドライブ上のストレージをシミュレートするため
というように、ストレージのために用いることが好まし
い。
【0028】メモリ204は、オペレーティング・シス
テム212、アプリケーション・プログラム214、お
よびオブジェクト・ストア216を含む。動作中、オペ
レーティング・システム212は、メモリ204からプ
ロセッサ202によって実行することが好ましい。好適
な一実施形態では、オペレーティング・システムは、Mi
crosoft Corporation(マイクロソフト社)から市販さ
れているWINDOWS(登録商標)CEブランドのオペレーテ
ィング・システムである。オペレーティング・システム
212は、モバイル・デバイス用に設計されていること
が好ましく、1組の露出した(exposed)アプリケーショ
ン・プログラミング・インターフェースおよびメソッド
を介してアプリケーション214が利用可能なデータベ
ース機能を実装する。オブジェクト・ストア216内の
オブジェクトは、少なくとも部分的に、露出したアプリ
ケーション・プログラミング・インターフェースおよび
メソッドに対するコールに応答して、アプリケーション
214およびオペレーティング・システム212によっ
て維持する。
【0029】通信インターフェース208は、モバイル
・デバイス200が情報の送信および受信を可能にする
多数のデバイスおよび技術を代表する。これらのデバイ
スは、有線およびワイヤレス・モデム、衛星受信機およ
び放送チューナを含み、それ以外にも多数ある。モバイ
ル・デバイス200は、コンピュータに直接接続し、こ
れとデータを交換することも可能である。このような場
合、通信インターフェース208は、赤外線送受信機、
あるいはシリアルまたはパラレル接続とすることがで
き、これらは全てストリーミング情報を送信することが
できる。
【0030】入出力コンポーネント206は、接触感応
スクリーン、ボタン、ローラ、およびマイクロフォンの
ような種々の入力デバイス、ならびに音声発生器、振動
デバイス、ディスプレイを含む種々の出力デバイスを含
む。ここに列挙したデバイスは一例としてであり、モバ
イル・デバイス200上に全てが存在する必要はない。
加えて、本発明の範囲内において、別の入出力デバイス
をモバイル・デバイス200に取り付けたり、あるいは
そこに見出す場合もある。
【0031】本発明の下では、訓練データおよび検査デ
ータ間におけるノイズの一致度を高める装置および方法
を提供する。図3は、このような照合を行う方法の一実
施形態を示す。
【0032】図3のステップ300において、見込み添
加ノイズを含む生訓練データを作成する。この見込み添
加ノイズは、検査データに存在すると予想されるノイズ
に類似している。この予想添加ノイズは、訓練プラット
フォーム、車、または工業環境のようなノイズの多い環
境においてトレーナに発話させることによって、訓練デ
ータ内に入れることができる。他の実施形態では、トレ
ーナは、比較的ノイズの少ない環境において発話し、次
いで「クリーン」な訓練スピーチ信号に添加ノイズを付
加する。クリーン訓練信号に添加するノイズは、先に掲
示した環境のような、選択したノイズ環境から記録した
ノイズ、または予想ノイズと同じ統計的特性を有するノ
イズとすることができる。
【0033】図3のステップ302において、ノイズ含
有訓練データをノイズ低減モジュールに印加する。ノイ
ズ低減モジュールは、1つ以上のノイズ低減技法をノイ
ズ含有訓練データに適用する。ノイズ低減技法は、スペ
クトル減算または環境用ステレオ区分的線形補償(SP
LICE)を含むことができるが、これらに限定すると
いうのではない。加えて、1つよりも多いノイズ低減技
法をノイズ含有データに適用することも可能である。
【0034】信号から全てのノイズを除去できるノイズ
低減技法はないので、ノイズ低減モデルの出力は、「疑
似クリーン」訓練データに過ぎない。本発明のこの実施
形態の下では、この疑似クリーン訓練データを用いて、
パターン・モデルを訓練する。後に、このパターン・モ
デルを用いて、所与の検査信号が表すことができる最尤
パターンを検出する。この訓練を図3のステップ304
として示す。
【0035】本発明の下で訓練するモジュールは、ニュ
ーラル・ネット、ダイナミック・タイム・ワーピング、
セグメント・モジュール、および隠れマルコフ・モデル
を含むことができるが、これらに限定するというのでは
ない。
【0036】一旦モデルを訓練したなら、ステップ30
6においてスピーチ認識システムが検査データを受け取
る。次に、ノイズ含有訓練データに適用したのと同じノ
イズ低減技法を検査データに適用し、疑似クリーン検査
データを生成する。図3のステップ308において、こ
れらのノイズ低減技法を適用する。
【0037】訓練データに適用したのと同じノイズ低減
技法を検査データに適用することによって、本発明は、
検査データを、訓練データの疑似クリーン状態に一層良
く一致する疑似クリーン状態にする。
【0038】ステップ310において、訓練したモデル
に対して疑似クリーン検査データを適用し、検査データ
をデコードし、検査データが表す最尤パターンを決定す
る。図4は、スピーチ認識に用いる本発明の一実施形態
に特に関連がある、図1および図2の汎用計算環境にお
いて見られるハードウエア・コンポーネントおよびプロ
グラム・モジュールのブロック図を提示する。図4にお
いて、話者400からの入力スピーチ信号および添加ノ
イズ402を、マイクロフォン404によって電気信号
に変換する。マイクロフォン404は、アナログ/ディ
ジタル(A/D)変換器406に接続されている。添加
ノイズ402は、図4の実施形態ではマイクロフォン4
04を介して入力するように示されているが、他の実施
形態では、A/D変換後のディジタル信号としての入力
スピーチ信号に添加ノイズ402を付加してもよい。
【0039】A/D変換器406は、マイクロフォン4
04からのアナログ信号を一連のディジタル値に変換す
る。いくつかの実施形態では、A/D変換器406は、
サンプル当たり16kHzおよび16ビットでアナログ
信号をサンプルすることにより、毎秒32キロバイトの
スピーチ・データを作成する。
【0040】A/D変換器406が作成したディジタル
・データをノイズ低減モジュール408に供給する。ノ
イズ低減モジュール408は、1つ以上のノイズ低減技
法を用いて、ディジタル信号内にあるノイズの一部を除
去する。このようなノイズ低減技法は、限定する訳では
ないが、スペクトル減算、または環境用ステレオ区分的
線形補償(SPLICE)を含む。
【0041】ノイズ低減モジュール408の出力を特徴
抽出部400に供給し、ディジタルスピーチ信号から特
徴を抽出する。特徴抽出モジュールの例には、線形予測
符号化(LPC)、LPC派生ケプストラム(LPC deriv
ed cepstrum)、透視線形予測(PLP)、可聴モデル特
徴抽出、およびメル周波数ケプストラム係数(MFC
C:Mel-Frequency Cepstrum Coefficient)特徴抽出用
モジュールを含む。尚、本発明はこれらの特徴抽出モジ
ュールに限定されるという訳ではなく、他のモジュール
も本発明のコンテキストにおいて使用可能であることを
注記しておく。
【0042】特徴抽出モジュールは、ノイズ低減モジュ
ール408からディジタル値ストリームを受け取り、特
徴ベクトル・ストリームを生成する。特徴ベクトルの各
々には、スピーチ信号のフレームが関連付けられてい
る。多くの実施形態では、フレームの中央が10ミリ秒
だけ分離されている。
【0043】尚、ノイズ低減モジュール408は、図4
の実施形態では特徴抽出部400の前段に示されている
が、他の実施形態では、ノイズ低減モジュール408は
特徴抽出モジュール400の後段にあることを注記して
おく。
【0044】抽出モジュールが生成した特徴ベクトル・
ストリームを、デコーダ412に供給する。デコーダ4
12は、特徴ベクトル・ストリーム、語彙414、言語
モデル416、および音響モデル418に基づいて、最
尤ワード・シーケンスを識別する。
【0045】実施形態の中には、音響モデル418が1
組の隠れ状態から成る隠れマルコフ・モデルであるもの
もある。このモデルによって表される各言語単位は、こ
れらの状態の部分集合から成る。例えば、一実施形態で
は、各音素は3つの相互接続状態で構成されている。各
状態は、関連する1組の確率分布を有し、これらの組み
合わせによって、各言語単位シーケンス(単語等)につ
いて、あらゆる任意の入力特徴ベクトル・シーケンスに
対する尤度の効率的な計算が可能となる。また、このモ
デルは、2つの隣接するモデル状態間の推移、および特
定の言語単位に対する状態間において許される推移に対
する確率も含む。最も高い一致確率および推移確率の組
み合わせを入力特徴ベクトルに対して選択することによ
って、モデルは言語単位をスピーチに割り当てることが
できる。例えば、音素が状態0、1および2で構成され
ており、スピーチの最初の3つのフレームが状態0と一
致し、次の2つの状態1と一致し、次の3つが状態2と
一致する場合、モデルは音素をスピーチのこれら8つの
フレームに割り当てる。
【0046】尚、言語単位のサイズは、本発明の異なる
実施形態では異なっていても可能であることを注記して
おく。例えば、言語単位は、セノンズ(senones)、音
素、ノイズ音、複音、三重音、またはその他の可能性と
することもできる。
【0047】他の実施形態では、音響モデル418は、
ある特徴ベクトル・シーケンスが、特定の存続時間のセ
グメントによって生成される尤度がどの位かを示すセグ
メント・モデルである。このセグメント・モデルは、同
時に多数の特徴ベクトルを用いて個々のセグメントの尤
度に関する判定を行うので、フレーム・ベース・モデル
とは異なる。このために、これはスピーチ信号において
大きな規模の推移のより良いモデルを与える。加えて、
セグメント・モデルは、セグメント毎に多数の存続時間
を注視し、各存続時間毎に別個の確率を判定する。した
がって、存続時間が長いセグメントほど、精度が高いモ
デルを与える。確率的軌道セグメント隠れマルコフ・モ
デルを含む、数種類のセグメント・モデルを本発明と共
に用いることができる。
【0048】言語モデル416は、特定のワード・シー
ケンスが対象の言語において現れる1組の尤度を与え
る。多くの実施形態では、言語モデルは、North Americ
an BUSINESS NEWS (NAB)のようなテキスト・データベー
スを基本とする。これは、CSR-III Text Language Mode
l(University of Penn., 1994)と題する刊行物に、更
に詳細に記載されている。言語モデルは、自由コンテキ
スト文法、またはトライグラム(trigram)のような統計
N−グラム・モデルとすることができる。一実施形態で
は、言語モデルは、シーケンスの3単語セグメントの総
合確率に基づいて、単語シーケンスの確率を決定するコ
ンパクトなトライグラム・モデルである。
【0049】音響モデルに基づいて、言語モデル、およ
び語彙、デコーダ412は、可能な全ての単語シーケン
スから最尤単語シーケンスを特定する。デコーディング
に用いられる特定の方法は、本発明にとっては重要でな
く、いくつかの公知のデコーディング方法のいずれを用
いてもよい。
【0050】最も確率が高い仮説単語シーケンスを信頼
性測定モジュール420に供給する。信頼性測定モジュ
ール420は、どの単語が、スピーチ認識部によって不
適当に認識された可能性が最も高いかを、部分的に二次
フレーム・ベース音響モデルに基づいて識別する。信頼
性尺度モジュール420は、次に、仮説単語シーケンス
を、どの単語が不適当に識別された可能性があるかを示
す識別子と共に、出力モジュール422に供給する。当
業者であれば、信頼性測定モジュール420は本発明の
実施には必要でないことを認めよう。
【0051】前述の音響モデル418は、訓練テキスト
426および当該訓練テキスト426と関連する1つ以
上の訓練スピーチ信号から特徴抽出部410によって抽
出された特徴に基づいて、トレーナ424による訓練を
受ける。特定のモデルに適した訓練方法であれば、その
いずれでも、本発明の範囲内で使用可能である。
【0052】先に論じたように、訓練スピーチ信号は添
加ノイズを含む。添加ノイズは、ノイズ低減モデル40
8によって部分的に除去され、疑似クリーン・データを
生成する。本発明の下で使用可能なノイズ低減技法の1
つは、スペクトル減算である。スペクトル減算では、ス
ピーチ信号におけるノイズをサンプルし、サンプルを周
波数ドメインに変換する。次に、ノイズの周波数内容を
スピーチ信号の周波数表現から減算し、疑似クリーン・
スピーチ信号を生成する。
【0053】図5に示すように、実際のスピーチにおけ
るポーズの間にスピーチ信号をサンプルすることによっ
て、スピーチ・データからノイズをサンプルすることが
できる。図5では、ノイズ含有スピーチ信号の一例が、
横軸500に沿った時間、および縦軸502に沿って示
すスピーチ信号の振幅によって示されている。図5で
は、スピーチ信号は、実際のスピーチ領域504、およ
び2つのポーズ506、508を含む。スピーチ信号の
実際のスピーチ部分504は、ポーズ506、508よ
りもエネルギ含有量が多い。ポーズ506、508の間
にスピーチ信号をサンプルすることによって、信号のス
ピーチ内容から、背景ノイズを分離することができる。
【0054】図6は、図5のポーズ506のような、ス
ピーチ内のポーズ中において取り込んだノイズ・サンプ
ルのスペクトル内容の一例を提示する。図6では、周波
数を横軸600に沿って示し、各周波数成分の振幅を縦
軸602に沿って示す。図6のノイズ・スペクトル60
4では、スペクトル内容は、中間周波数域においてより
高いマグニチュードを有し、低周波数域および高周波数
域においてより低いマグニチュードを有する。スペクト
ル減算の間、この周波数標識(frequency signature)を
用いて、スピーチ信号の周波数毎にノイズ補正値を発生
する。次に、スピーチ信号の対応する周波数値から、そ
れぞれの補正値を減算し、スピーチ信号におけるノイズ
を低減する。
【0055】図7は、図4のノイズ低減モジュール40
8および特徴抽出部410の一実施形態のブロック図を
示す。図7の実施形態では、ノイズ低減モジュール40
8は、スペクトル減算を実行し、特徴抽出部410はそ
の抽出特徴として、ケプストラム係数(cepstral coeffi
cient)を生成する。図7の実施形態では、ノイズ低減モ
ジュール408および特徴抽出部410を共に統合し、
単一の動作モジュールを形成する。これら2つのモジュ
ールの機能は、図7では統合しているが、図7の実施形
態を製作するために用いる個々のコンポーネントは、本
発明のハードウエア実施態様における同じチップ上、ま
たは本発明のソフトウエア実施態様における同一ソフト
ウエア・モジュール上にある必要はないことを当業者は
認めよう。
【0056】図7では、アナログ/ディジタル変換器4
06からのディジタル値を、高速フーリエ変換(FF
T)モジュール700に供給する。FFT700は、時
間ドメインのディジタル値を、スピーチ信号のフレーム
の周波数内容を記述する一連の周波数ドメイン値に変換
する。
【0057】FFT700が生成した周波数ドメイン値
は、ノイズ識別モジュール702に供給される。ノイズ
識別モジュール702は、各フレームの周波数ドメイン
値のエネルギ内容を注視し、スピーチ信号の現部分が、
スピーチにおける実際のスピーチまたはポーズのどちら
を表すか識別する。スピーチにおけるポーズを識別する
技法は、当技術分野では周知である。
【0058】また、FFT70が生成した周波数ドメイ
ン値は、重み付けモジュール704にも供給される。重
み付けモジュール704は、ノイズ識別モジュール70
2から制御値を受け取り、過去のノイズ・サンプル70
6を収容するメモリにアクセスすることができる。ノイ
ズ識別モジュール702が、スピーチの現区分がスピー
チ内のポーズに対応すると判断した場合、重み付けモジ
ュール704を活性化し、新たなノイズ低減値集合を発
生する。
【0059】一実施形態の下では、重み付けモジュール
704は、ノイズ低減値を生成する際、スピーチ信号か
らの最後の「N」個のノイズ・フレームを組み合わせ
る。これら過去の「N」個のフレームは、メモリ706
から再現する。一実施形態の下では、重み付けモジュー
ル704は、過去の「N」個のノイズ・フレームを組み
合わせる際に、メモリ706内にある古い方のノイズ・
フレームに対して、新しいノイズ・フレームほど大きな
重み付けを行う。
【0060】重み付けモジュール704が生成した補正
値を、メモリ708に格納する。メモリ708には、ス
ペクトル減算部710がアクセスする。また、スペクト
ル減算部710は、FFT700からの周波数ドメイン
値も受け取る。メモリ708に格納してある補正値に関
連する周波数毎に、スペクトル減算部710は、FFT
700が供給する周波数ドメイン値から、メモリ708
内の対応する値を減算する。この結果、スペクトル減算
部710の出力には、疑似クリーン周波数ドメイン値が
得られる。
【0061】スペクトル減算部710が出力した疑似ク
リーン周波数値を、対数モジュール712に供給する。
対数モジュール712は、各値の対数を取る。次に、対
数値を逆高速フーリエ変換714に供給し、ログ値の逆
高速フーリエ変換を行い、スピーチ信号のフレーム毎
に、ケプストラル係数集合を生成する。これらのケプス
トラル係数集合は、特徴抽出部の出力を表す。
【0062】他の実施形態では、本発明は、ノイズ低減
技法として、環境用ステレオ区分的線形補償(SPLI
CE)を用いる。SPLICEノイズ低減技法について
は、METHOD OF NOISE REDUCTION USING CORRECTION VEC
TORS(補正ベクトルを用いたノイズ低減方法)と題し、
本願と同一日に出願され、弁理士整理番号M61.12
−0325号を有する米国特許出願において詳細に論じ
られている。その内容は、この言及により本願にも含ま
れるものとする。
【0063】SPLICE技法の下では、ノイズ含有パ
ターン信号からのノイズ含有特徴ベクトルが表し得る、
最尤クリーン特徴ベクトルを推定することによって、ノ
イズを低減する。これを行うには、補正ベクトルを選択
し、ノイズ含有特徴ベクトルに付加することによって、
クリーン特徴ベクトルを形成する。補正ベクトルを選択
するには、本方法は、混合成分集合の内どれに、ノイズ
含有特徴ベクトルが最も良く一致するかを判定する。次
に、混合成分に関連する補正ベクトルをノイズ含有特徴
ベクトルに付加する。
【0064】各補正ベクトルを形成するには、部分的
に、クリーン・チャネル特徴ベクトル・シーケンスから
ノイズ含有チャネル特徴ベクトル・シーケンスを減算す
る。ここで、ノイズ含有チャネルおよびクリーン・チャ
ネルは同じスピーチ信号を含むが、ノイズ含有チャネル
は添加ノイズを有するとする。通例では、補正ベクトル
を形成するのは、訓練データまたは検査データのいずれ
かをノイズ低減モジュールに供給する前である。
【0065】本発明の一実施形態では、多数の訓練デー
タ集合を用いて、訓練モデル内に多数のタイプのノイズ
環境を組み込む。したがって、一実施形態の下では、訓
練データの一部を訓練プラットフォームにおいて収集
し、一方別のデータを車内で収集し、更に別のデータを
航空機内で収集する。図8は、本発明の下において多数
の訓練データ集合を用いてモデルを訓練する一方法のフ
ロー図を示す。
【0066】図8のステップ800において、例えば、
選択したノイズ環境においてトレーナに発話させること
によって、添加ノイズを有する訓練データの一集合を作
成する。ステップ802において、訓練データ集合に、
1つ以上のノイズ低減技法を適用する。ステップ802
において適用するノイズ低減技法は、ノイズ環境の各タ
イプ毎に同一とすることができ、あるいはノイズ低減技
法を適用している特定のノイズ環境に合わせて特別に作
成することも可能である。
【0067】ステップ804において、本方法は、収集
すべき別の訓練データ集合があるか否か判定を行う。別
の集合がある場合、プロセスはステップ800に戻る。
本発明の一実施形態の下では、各訓練データ集合には、
異なるタイプのノイズが関連付けられている。したがっ
て、一方の集合は空調ノイズを含み、別の集合は背景ス
ピーチ・ノイズを含むこともあり得る。
【0068】他にデータ集合がない場合、プロセスはス
テップ806に進み、ステップ802のノイズ低減技法
から得られた疑似クリーン訓練データ集合全てを用い
て、音響モデルを訓練する。
【0069】異なるタイプのノイズに各々関連付けられ
た多数の訓練データ集合に対してノイズ低減技法を用い
たために、本発明の実施形態が生成するモデルは一層際
立って定義されている。これは、図9ないし図12に見
ることができる。
【0070】図9は、スピーチ単位に対する3つの確率
分布を示す。図9では、スピーチ信号からの特徴ベクト
ルを横軸900に沿って示し、スピーチ単位の確率を縦
軸902に沿って示す。図9の確率分布904、90
6、908は、各々、異なる訓練データ集合と関連付け
られている。したがって、確率分布の各々は、異なるタ
イプの添加ノイズに関連付けられている。図9におい
て、訓練データ集合は、ノイズ低減モジュールを通した
後である。
【0071】図9の確率分布を組み合わせてスピーチ単
位に対する単一モデルを形成すると、図10の分布のよ
うな確率分布が得られる。図9におけると同様、特徴ベ
クトルの値を横軸1002に沿って示し、スピーチ単位
の確率を縦軸1004に沿って示す。
【0072】確率分布904、906、908は横軸に
沿って広がっているので、組み合わせて得られる確率分
布は平坦となる。このような分布では、モデルが広範に
定義されるので、適正なスピーチ単位を選択する際の確
信度は低下する。何故なら、所与のスピーチ信号は、多
数のスピーチ単位に対して同様の確率を生成するからで
ある。
【0073】図11は、多数の訓練データ集合にノイズ
低減を適用する効果を示す。図11では、ノイズ低減後
の特徴ベクトル値を横軸1100に沿って示し、スピー
チ単位の確率を縦軸1102に沿って示す。図11で
は、ノイズ低減技法によって、図9の3つの確率分布を
互いに近づけてある。その結果、分布1104、110
6、1108がそれぞれ得られる。
【0074】図11の個々の確率を互いに近づけたの
で、図12に示す、組み合わせ後の分布1200は一層
際立って定義されることになる。確率分布においてこの
ように際立った定義を有すると、入力スピーチ信号が与
えられた場合にスピーチ単位を選択する判断プロセスに
おける確信度が高くなる。分布は水平軸1202の特徴
ベクトルに沿った特定の特徴ベクトル付近で急激に立ち
上がり、縦軸1206に沿ってより高い確率を与えると
いう事実によって、分布1200に定義の際立ちが示さ
れている。
【0075】異なる訓練データ集合に対して異なるノイ
ズ低減技法を用いる実施形態では、検査データ内のノイ
ズをサンプルし、どのノイズ低減技法を検査データに適
用するか決定する。図13は、本発明のこのような一実
施形態のノイズ低減モジュール1300のブロック図を
示す。
【0076】ノイズ低減モジュール1300では、例え
ば、図5に関して先に説明した技法を用いることによっ
て、入力検査スピーチ信号内のノイズをノイズ・サンプ
ラ1301でサンプルする。ノイズ・サンプルをノイズ
比較器1302に供給し、検査信号内のノイズのスペク
トル内容を、メモリ1304に格納してある訓練ノイズ
のサンプルと比較する。尚、訓練データ集合毎に、多数
のノイズ・サンプルを格納できることを注記しておく。
格納するサンプル数を選択する際には、メモリの使用
と、ノイズ低減選択プロセスに望ましい精度との間で比
較検討する。
【0077】検査スピーチ信号におけるノイズに対して
最良の一致が見出されたなら、ノイズ比較器1302
は、メモリ1304から、一致した信号に対する集合識
別子を検索する。
【0078】集合識別子をノイズ低減セレクタ1303
に供給し、識別した訓練データ集合に適用したノイズ低
減技法の名称を検索する。これを行うために、ノイズ低
減セレクタ1303は、訓練集合/ノイズ低減データベ
ース1305にアクセスする。データベース1305
は、各訓練データ集合に適用したノイズ低減技法のリス
トを収容している。
【0079】現サンプルに対する適切なノイズ低減技法
を特定した後、ノイズ低減セレクタ1303は、特定し
た集合即ちクラスタに関連するノイズ低減モジュール
に、検査データを導出する。図13において、これは、
検査データをノイズ低減モジュール1306、130
8、または1310の1つに導出することから成る。
尚、図13ではノイズ低減モジュール1306、130
8、1310を並列に示すが、他の実施形態では、検査
データを一連のノイズ低減モジュールに通す。選択した
ノイズ低減モジュールの出力は、「疑似クリーン」検査
データとなる。
【0080】他の実施形態では、異なる訓練データ集
合、異なるノイズ低減技法、または双方の組み合わせを
用いて、多数の音響モジュールを訓練する。したがっ
て、異なる疑似クリーン訓練データ集合を発生し、次い
で、先に論じたように、異なる訓練データ集合を単一の
モデルに結合する代わりに、そのまま用いて異なるそれ
ぞれのモデルを形成する。このような実施形態の下で
は、それぞれの疑似クリーン訓練データを形成するため
に用いた各ノイズ低減技法を、検査データにも適用す
る。これによって、それぞれのモデル毎に1つの集合
で、複数の疑似クリーン検査データ集合を作成する。次
いで、疑似クリーン検査データの各集合を、それ自体の
各モデルに適用し、モデル/検査データ対に対する確率
を求める。
【0081】次に、デコーダは全ての確率を調べ、最も
高い確率を与えるモデル/検査データ対を選択する。こ
の選択は、スピーチ信号全体に対する確率に基づいて行
い、スピーチ信号全域に1つのモデルおよび各1組のノ
イズ低減技法を適用することができる。あるいは、スピ
ーチのセグメントに対する確率に基づいて選択を行い、
異なるセグメントが異なるモデルおよびノイズ低減技法
を用いるようにすることも可能である。例えば、第1モ
デル/検査データ対を用いて第1音素をデコードし、一
方第2モデル/検査データ対を用いて隣接する音素をデ
コードする。このような技法を用いることによって、デ
コーダは最良のノイズ低減技法およびモデルを本来的に
選択し、各検査データ・セグメントに適用することが可
能となる。
【0082】更に別の実施形態では、異なるノイズ低減
技法を用いて、異なる疑似クリーン訓練データ集合を形
成するが、構築するモデルは1つのみとする。次いで、
異なるノイズ低減技法を検査データに適用し、多数の疑
似クリーン検査データ集合を形成する。異なる疑似クリ
ーン検査データ集合の各々をモデルに対して適用し、デ
コーダは、最も高い確率を発生した疑似クリーン検査デ
ータを選択する。この選択は、スピーチ信号全体に対す
る確率に基づいて行うことができ、あるいはスピーチ信
号のセグメントに対する確率に基づいて行うこともでき
る。
【0083】以上、特定的な実施形態を参照しながら本
発明の説明を行ったが、本発明の精神および範囲から逸
脱することなく、形態および詳細において変更が可能で
あることを当業者は認めよう。
【図面の簡単な説明】
【図1】図1は、本発明を実施可能な一計算環境のブロ
ック図である。
【図2】図2は、本発明を実施可能な代わりの計算環境
のブロック図である。
【図3】図3は、本発明の下におけるパターン認識方法
の一実施形態のフロー図である。
【図4】図4は、本発明の一実施形態の下におけるパタ
ーン認識システムのブロック図である。
【図5】図5は、時間ドメインにおけるスピーチ信号の
グラフである。
【図6】図6は、スピーチ信号におけるノイズの周波数
スペクトルである。
【図7】図7は、本発明の一実施形態において用いるノ
イズ低減技法のブロック図である。
【図8】図8は、本発明の一実施形態の下において、異
なるタイプのノイズを含む訓練データ集合を訓練するた
めのフロー図である。
【図9】図9は、異なる訓練集合に対するモデル確率分
布のグラフである。
【図10】図10は、図9の確率に対する結合モデル確
率のグラフである。
【図11】図11は、本発明の一実施形態のノイズ低減
技法適用後における、図9のモデル確率分布のグラフで
ある。
【図12】図12は、図11の確率に対する総合モデル
確率のグラフである。
【図13】図13は、複数の訓練データ集合を用いる本
発明の一実施形態の下におけるノイズ低減モデルのブロ
ック図である。
【符号の説明】
100 計算環境 110 コンピュータ 120 処理ユニット(CPU) 121 システム・バス 130 システム・メモリ 131 リード・オンリ・メモリ(ROM) 132 ランダム・アクセス・メモリ(RAM) 133 基本入出力システム 134 オペレーティング・システム 135 アプリケーション・プログラム 136 プログラム・モジュール 137 プログラム・データ 140 インターフェース 141 ハード・ディスク・ドライブ 144 オペレーティング・システム 145 アプリケーション・プログラム 146 プログラム・モジュール 147 プログラム・データ 151 磁気ディスク・ドライブ 152 リムーバブル不揮発性磁気ディスク 155 光ディスク・ドライブ 156 リムーバブル不揮発性光ディスク 160 ユーザ入力インターフェース 161 ポインティング・デバイス 162 キーボード 163 マイクロフォン 171 ローカル・エリア・ネットワーク(LAN) 172 モデム 173 ワイド・エリア・ネットワーク(WAN) 180 リモート・コンピュータ 181 メモリ素子 185 リモート・アプリケーション・プログラム 190 ビデオ・インターフェース 191 モニタ 196 プリンタ 197 スピーカ 200 モバイル・デバイス 202 マイクロプロセッサ 204 メモリ 206 入出力(I/O)コンポーネント 208 通信インターフェース 210 バス 212 オペレーティング・システム 214 アプリケーション・プログラム 216 オブジェクト・ストア 400 話者 402 添加ノイズ 404 マイクロフォン 406 アナログ/ディジタル(A/D)変換器 408 ノイズ低減モジュール 410 特徴抽出部 412 デコーダ 414 語彙 416 言語モデル 418 音響モデル 420 信頼性測定モジュール 422 出力モジュール 424 トレーナ 426 訓練テキスト 504 スピーチ領域 506、508 ポーズ 604 ノイズ・スペクトル 700 高速フーリエ変換(FFT)モジュール 702 ノイズ識別モジュール 704 重み付けモジュール 706、708 メモリ 710 スペクトル減算部 712 対数モジュール 714 逆高速フーリエ変換 904、906、908 確率分布 1104、1106、1108 確率分布 1200 分布 1300 ノイズ低減モジュール 1301 ノイズ・サンプラ 1302 ノイズ比較器 1303 ノイズ低減セレクタ 1304 メモリ 1305 データベース 1306、1308、1310 ノイズ低減モジュー
───────────────────────────────────────────────────── フロントページの続き (72)発明者 スードン・ファン アメリカ合衆国ワシントン州98072,ウッ ディンヴィル,ノースイースト・ワンハン ドレッドアンドトゥエンティファースト・ ストリート 20020 (72)発明者 マイケル・ディー・プランペ アメリカ合衆国ワシントン州98115,シア トル,フィフティス・アベニュー・ノース イースト 7725 Fターム(参考) 5D015 EE05 GG00

Claims (29)

    【特許請求の範囲】
  1. 【請求項1】 パターン認識モデルの発生方法であっ
    て、 添加ノイズを訓練信号に導入するステップであって、前
    記添加ノイズが、パターン認識中に検査信号に存在する
    と見込まれるノイズと同様である、ステップと、 少なくとも1つのノイズ低減技法を前記訓練信号に適用
    し、疑似クリーン訓練データを生成するステップと、 前記疑似クリーン訓練データに基づいて、前記パターン
    認識モデルを構築するステップと、から成る方法。
  2. 【請求項2】 請求項1記載の方法において、少なくと
    も1つのノイズ低減技法を適用するステップは、複数の
    ノイズ低減技法を適用するステップから成る、方法。
  3. 【請求項3】 請求項1記載の方法において、添加ノイ
    ズを前記訓練信号に導入するステップは、異なるタイプ
    のノイズを導入し、異なるノイズ含有訓練データを発生
    するステップを含み、各ノイズ含有訓練データ集合を異
    なるタイプのノイズと関連付ける、方法。
  4. 【請求項4】 請求項3記載の方法において、少なくと
    も1つのノイズ低減技法を適用するステップは、同じノ
    イズ低減技法を前記ノイズ訓練データ集合の全てに適用
    するステップを含む、方法。
  5. 【請求項5】 請求項3記載の方法において、少なくと
    も1つのノイズ低減技法を適用するステップは、他のノ
    イズ訓練データのいずれにも適用されていない少なくと
    も1つのノイズ低減技法を、ノイズ訓練データ集合の1
    つに適用するステップを含む、方法。
  6. 【請求項6】 請求項5記載の方法であって、更に、前
    記発生したパターン認識モデルを用いてパターンを認識
    する方法を備え、該用いる方法が、 検査信号を受け取るステップと、 前記検査信号内のノイズをサンプルするステップと、 前記検査信からのサンプルしたノイズを、前記ノイズ含
    有訓練データ集合からサンプルしたノイズと比較するス
    テップと、 前記検査信号からサンプルしたノイズに最も密接に一致
    するノイズを有するノイズ含有データ集合を識別するス
    テップと、 前記識別したノイズ含有訓練データに適用した前記ノイ
    ズ低減技法を、前記検査信号に適用し、疑似クリーン検
    査データを生成するステップと、 前記疑似クリーン検査データをパターン認識モデルに適
    用し、前記検査信号内におけるパターンを識別するステ
    ップと、から成る、方法。
  7. 【請求項7】 請求項5記載の方法であって、更に、前
    記発生したパターン認識モデルを用いてパターンを認識
    する方法を備え、該用いる方法が、 検査信号を受け取るステップと、 少なくとも2つの異なるノイズ低減技法を前記検査信号
    に適用することによって、少なくとも2つの疑似クリー
    ン検査データ集合を作成するステップと、 各疑似クリーン検査データ集合をパターン認識モデルに
    適用し、前記検査信号内におけるパターンを識別するス
    テップと、から成る、方法。
  8. 【請求項8】 請求項7記載の方法において、少なくと
    も1つのノイズ低減技法を前記訓練信号に適用するステ
    ップは、少なくとも2つの疑似クリーン訓練データ集合
    を生成し、前記パターン認識モデルを構築するステップ
    は、疑似クリーン訓練データ集合毎に、別個のパターン
    認識モデルを構築するステップを含む、方法。
  9. 【請求項9】 請求項8記載の方法において、前記発生
    したパターン認識モデルを用いる前記方法は、更に、 各疑似クリーン検査データ集合を別個のパターン認識モ
    デルに適用し、別個の確率を識別するステップと、 少なくとも2つの別個の確率から1つの確率を選択し、
    前記検査信号内におけるパターンを識別するステップ
    と、を含む、方法。
  10. 【請求項10】 請求項1記載の方法であって、更に、
    前記発生したパターン認識モデルを用いてパターンを認
    識する方法を備え、該用いる方法が、 検査信号を受け取るステップと、 前記少なくとも1つのノイズ低減技法を前記検査信号に
    適用し、疑似クリーン検査データを生成するステップ
    と、 前記疑似クリーン検査データを前記パターン認識モデル
    に適用し、前記検査信号内におけるパターンを識別する
    ステップと、を含む方法。
  11. 【請求項11】 パターン認識モデルであって、 パターンを認識しようとする検査信号に存在すると予想
    されるノイズのタイプを識別するステップと、 訓練データを発生し、該訓練データが前記識別したタイ
    プのノイズを含むようにするステップと、 前記訓練信号内のノイズを低減し、訓練データを生成す
    るステップと、 前記訓練データに基づいて、前記モデル・パラメータを
    生成するステップと、から成るプロセスによって訓練し
    たモデルと調和するモデル・パラメータを有する、パタ
    ーン認識モデル。
  12. 【請求項12】 請求項11記載のパターン認識モデル
    において、訓練信号を発生するステップは、前記検査信
    号を発生すると想定されるノイズ環境と同様のノイズ環
    境において前記訓練信号を記録するステップを含む、パ
    ターン認識モデル。
  13. 【請求項13】 請求項11記載のパターン認識モデル
    において、訓練信号を発生するステップは、クリーンな
    環境においてクリーン訓練信号を記録し、前記識別した
    タイプのノイズを、前記クリーン訓練信号に付加するス
    テップを含む、パターン認識モデル。
  14. 【請求項14】 請求項11記載のパターン認識モデル
    において、ノイズのタイプを識別するステップは、多数
    のタイプのノイズを識別するステップを含み、訓練信号
    を発生するステップは、多数の訓練信号集合を発生する
    ステップを含み、各集合が異なるタイプの識別ノイズを
    含む、パターン認識モデル。
  15. 【請求項15】 請求項14記載のパターン認識モデル
    において、前記ノイズを低減するステップは、同じノイ
    ズ低減技法を各訓練信号集合に適用するステップを含
    む、パターン認識モデル。
  16. 【請求項16】 請求項14記載のパターン認識モデル
    において、前記ノイズを低減するステップは、異なるそ
    れぞれのノイズ低減技法を異なる訓練信号集合に適用す
    るステップを含む、パターン認識モデル。
  17. 【請求項17】 検査信号内においてパターンを認識す
    るパターン認識システムであって、 パターン認識モデルであって、 訓練信号を発生し、該訓練信号が、前記検査信号内にお
    いて存在することが見込まれるタイプのノイズを含むよ
    うにするステップと、 ノイズ低減技法を用いて前記訓練信号内のノイズを低減
    し、クリーン訓練値を生成するステップと、 前記クリーン訓練値を用いて前記モデル・パラメータを
    形成するステップと、から成るプロセスによって形成し
    たモデル・パラメータを有する、パターン認識モデル
    と、 前記検査信号を受け取り、前記ノイズ低減技法を前記検
    査信号に適用し、クリーン検査値を生成することが可能
    なノイズ低減モジュールと、 前記クリーン・データ値の特徴を受け取り、前記特徴認
    識モデルにアクセスし、前記クリーン検査値に基づい
    て、前記検査信号内にあるパターンを識別することが可
    能なデコーダと、を備えるパターン認識システム。
  18. 【請求項18】 請求項17記載のパターン認識システ
    ムにおいて、訓練信号を発生するステップは、訓練信号
    集合を発生するステップを含み、各訓練信号集合が異な
    るタイプのノイズを含む、パターン認識システム。
  19. 【請求項19】 請求項18記載のパターン認識システ
    ムにおいて、前記訓練信号においてノイズを低減するス
    テップは、同じノイズ低減技法を各訓練信号集合に適用
    することによって、前記訓練信号集合の各々におけるノ
    イズを低減するステップを含む、パターン認識システ
    ム。
  20. 【請求項20】 請求項18記載のパターン認識システ
    ムにおいて、前記訓練信号においてノイズを低減するス
    テップは、異なるそれぞれのノイズ低減技法を各訓練信
    号集合に適用することによって、前記訓練信号集合の各
    々におけるノイズを低減するステップを含む、パターン
    認識システム。
  21. 【請求項21】 請求項20記載のパターン認識システ
    ムにおいて、前記ノイズ低減モジュールは、更に、 前記検査信号内におけるノイズをサンプルするノイズ・
    サンプラと、 前記検査信号からサンプルしたノイズを、前記訓練信号
    集合内におけるノイズと比較し、前記検査信号内におい
    てサンプルしたノイズと最も良く一致するノイズを含む
    訓練信号集合を識別するノイズ比較器と、 前記識別した訓練信号集合に適用したノイズ低減技法を
    選択し、前記検査信号に適用するノイズ低減セレクタ
    と、を備える、パターン認識システム。
  22. 【請求項22】 請求項17記載のパターン認識システ
    ムであって、更に、 第2パターン認識モデルであって、 第2訓練信号を生成し、該第2訓練信号が、前記検査信
    号内に存在すると見込まれる第2タイプのノイズを含む
    ようにするステップと、 ノイズ低減技法を用いて、前記第2訓練信号内のノイズ
    を低減し、クリーン訓練値を生成するステップと、 前記クリーン訓練値を用いて前記第2モデル・パラメー
    タを形成するステップと、 から成るプロセスによって形成した第2モデル・パラメ
    ータを有する、第2パターン認識モデルを備える、パタ
    ーン認識システム。
  23. 【請求項23】 請求項22記載のパターン認識システ
    ムにおいて、前記デコーダは、前記クリーン検査値の特
    徴を前記パターン認識モデルおよび前記第2パターン認
    識モデルに適用することによって、前記検査信号内のパ
    ターンを識別する、パターン認識システム。
  24. 【請求項24】 請求項23記載のパターン認識システ
    ムにおいて、前記第2訓練信号内のノイズを低減するス
    テップは、前記訓練信号内のノイズを低減するために用
    いた同じノイズ低減技法を用いるステップを含む、パタ
    ーン認識システム。
  25. 【請求項25】 請求項23記載のパターン認識システ
    ムにおいて、前記第2訓練信号内のノイズを低減するス
    テップは、前記訓練信号内のノイズを低減するために用
    いたノイズ低減技法とは異なる技法を用いるステップを
    含む、パターン認識システム。
  26. 【請求項26】 請求項23記載のパターン認識システ
    ムにおいて、前記デコーダは、前記パターン認識モデル
    を用いて識別したパターンと、前記第2パターン認識モ
    デルを用いて識別したパターンとの間で選択を行うこと
    によって、パターンを識別する、パターン認識システ
    ム。
  27. 【請求項27】 請求項26記載のパターン認識システ
    ムにおいて、前記パターン認識システムはスピーチ認識
    システムであって、前記デコーダは、前記パターン認識
    モデルを用いて識別した単語列と、前記第2パターン認
    識モデルを用いて識別した単語列との間で選択を行う、
    パターン認識システム。
  28. 【請求項28】 請求項26記載のパターン認識システ
    ムにおいて、前記パターン認識システムはスピーチ認識
    システムであって、前記デコーダは、前記パターン認識
    モデルを用いて識別した単語と、前記第2パターン認識
    モデルを用いて識別した単語との間で選択を行う、パタ
    ーン認識システム。
  29. 【請求項29】 請求項26記載のパターン認識システ
    ムにおいて、前記パターン認識システムはスピーチ認識
    システムであって、前記デコーダは、前記パターン認識
    モデルを用いて識別した副単語音響単位と、前記第2パ
    ターン認識モデルを用いて識別した副単語音響単位との
    間で選択を行う、パターン認識システム。
JP2001317824A 2000-10-16 2001-10-16 挿入ノイズを用いた後にノイズ低減を行うパターン認識訓練方法および装置 Expired - Fee Related JP4195211B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/688,950 US6876966B1 (en) 2000-10-16 2000-10-16 Pattern recognition training method and apparatus using inserted noise followed by noise reduction
US09/688950 2000-10-16

Publications (2)

Publication Number Publication Date
JP2002140089A true JP2002140089A (ja) 2002-05-17
JP4195211B2 JP4195211B2 (ja) 2008-12-10

Family

ID=24766456

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001317824A Expired - Fee Related JP4195211B2 (ja) 2000-10-16 2001-10-16 挿入ノイズを用いた後にノイズ低減を行うパターン認識訓練方法および装置

Country Status (5)

Country Link
US (1) US6876966B1 (ja)
EP (1) EP1199708B1 (ja)
JP (1) JP4195211B2 (ja)
AT (1) ATE347161T1 (ja)
DE (1) DE60124842T2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8370139B2 (en) 2006-04-07 2013-02-05 Kabushiki Kaisha Toshiba Feature-vector compensating apparatus, feature-vector compensating method, and computer program product
US9666184B2 (en) 2014-12-08 2017-05-30 Samsung Electronics Co., Ltd. Method and apparatus for training language model and recognizing speech
JP2022020062A (ja) * 2020-11-23 2022-01-31 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 特徴情報のマイニング方法、装置及び電子機器

Families Citing this family (65)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7925612B2 (en) * 2001-05-02 2011-04-12 Victor Gogolak Method for graphically depicting drug adverse effect risks
US6778994B2 (en) 2001-05-02 2004-08-17 Victor Gogolak Pharmacovigilance database
US7542961B2 (en) * 2001-05-02 2009-06-02 Victor Gogolak Method and system for analyzing drug adverse effects
US7461006B2 (en) * 2001-08-29 2008-12-02 Victor Gogolak Method and system for the analysis and association of patient-specific and population-based genomic data with drug safety adverse event data
US7165028B2 (en) * 2001-12-12 2007-01-16 Texas Instruments Incorporated Method of speech recognition resistant to convolutive distortion and additive distortion
US7209881B2 (en) * 2001-12-20 2007-04-24 Matsushita Electric Industrial Co., Ltd. Preparing acoustic models by sufficient statistics and noise-superimposed speech data
US7130776B2 (en) * 2002-03-25 2006-10-31 Lockheed Martin Corporation Method and computer program product for producing a pattern recognition training set
US7117148B2 (en) 2002-04-05 2006-10-03 Microsoft Corporation Method of noise reduction using correction vectors based on dynamic aspects of speech and noise normalization
US7103540B2 (en) * 2002-05-20 2006-09-05 Microsoft Corporation Method of pattern recognition using noise reduction uncertainty
US7107210B2 (en) * 2002-05-20 2006-09-12 Microsoft Corporation Method of noise reduction based on dynamic aspects of speech
US7174292B2 (en) 2002-05-20 2007-02-06 Microsoft Corporation Method of determining uncertainty associated with acoustic distortion-based noise reduction
JP4352790B2 (ja) * 2002-10-31 2009-10-28 セイコーエプソン株式会社 音響モデル作成方法および音声認識装置ならびに音声認識装置を有する乗り物
US7370057B2 (en) * 2002-12-03 2008-05-06 Lockheed Martin Corporation Framework for evaluating data cleansing applications
CN100356391C (zh) * 2003-05-21 2007-12-19 皇家飞利浦电子股份有限公司 验证身份的方法、识别设备和读/写设备
US8041026B1 (en) 2006-02-07 2011-10-18 Avaya Inc. Event driven noise cancellation
US20070239444A1 (en) * 2006-03-29 2007-10-11 Motorola, Inc. Voice signal perturbation for speech recognition
JP4245617B2 (ja) * 2006-04-06 2009-03-25 株式会社東芝 特徴量補正装置、特徴量補正方法および特徴量補正プログラム
US7840287B2 (en) * 2006-04-13 2010-11-23 Fisher-Rosemount Systems, Inc. Robust process model identification in model based control techniques
US8407160B2 (en) * 2006-11-15 2013-03-26 The Trustees Of Columbia University In The City Of New York Systems, methods, and media for generating sanitized data, sanitizing anomaly detection models, and/or generating sanitized anomaly detection models
US8195453B2 (en) * 2007-09-13 2012-06-05 Qnx Software Systems Limited Distributed intelligibility testing system
WO2009039897A1 (en) 2007-09-26 2009-04-02 Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E.V. Apparatus and method for extracting an ambient signal in an apparatus and method for obtaining weighting coefficients for extracting an ambient signal and computer program
US8615397B2 (en) * 2008-04-04 2013-12-24 Intuit Inc. Identifying audio content using distorted target patterns
NO328622B1 (no) 2008-06-30 2010-04-06 Tandberg Telecom As Anordning og fremgangsmate for reduksjon av tastaturstoy i konferanseutstyr
JP5150542B2 (ja) * 2009-03-26 2013-02-20 株式会社東芝 パターン認識装置、パターン認識方法、及び、プログラム
US11416214B2 (en) 2009-12-23 2022-08-16 Google Llc Multi-modal input on an electronic device
EP3091535B1 (en) 2009-12-23 2023-10-11 Google LLC Multi-modal input on an electronic device
US8660842B2 (en) * 2010-03-09 2014-02-25 Honda Motor Co., Ltd. Enhancing speech recognition using visual information
US8265928B2 (en) 2010-04-14 2012-09-11 Google Inc. Geotagged environmental audio for enhanced speech recognition accuracy
US8468012B2 (en) 2010-05-26 2013-06-18 Google Inc. Acoustic model adaptation using geographic information
US8484023B2 (en) * 2010-09-24 2013-07-09 Nuance Communications, Inc. Sparse representation features for speech recognition
US8352245B1 (en) 2010-12-30 2013-01-08 Google Inc. Adjusting language models
US8296142B2 (en) 2011-01-21 2012-10-23 Google Inc. Speech recognition using dock context
HUP1200018A2 (en) 2012-01-11 2013-07-29 77 Elektronika Mueszeripari Kft Method of training a neural network, as well as a neural network
US8484017B1 (en) 2012-09-10 2013-07-09 Google Inc. Identifying media content
US20140074466A1 (en) 2012-09-10 2014-03-13 Google Inc. Answering questions using environmental context
US9734819B2 (en) 2013-02-21 2017-08-15 Google Technology Holdings LLC Recognizing accented speech
US9275638B2 (en) 2013-03-12 2016-03-01 Google Technology Holdings LLC Method and apparatus for training a voice recognition model database
US9237225B2 (en) 2013-03-12 2016-01-12 Google Technology Holdings LLC Apparatus with dynamic audio signal pre-conditioning and methods therefor
US20140278393A1 (en) 2013-03-12 2014-09-18 Motorola Mobility Llc Apparatus and Method for Power Efficient Signal Conditioning for a Voice Recognition System
US20140270249A1 (en) 2013-03-12 2014-09-18 Motorola Mobility Llc Method and Apparatus for Estimating Variability of Background Noise for Noise Suppression
CN105580071B (zh) * 2013-05-06 2020-08-21 谷歌技术控股有限责任公司 用于训练声音识别模型数据库的方法和装置
CN103310789B (zh) * 2013-05-08 2016-04-06 北京大学深圳研究生院 一种基于改进的并行模型组合的声音事件识别方法
US9842592B2 (en) 2014-02-12 2017-12-12 Google Inc. Language models using non-linguistic context
US9412365B2 (en) 2014-03-24 2016-08-09 Google Inc. Enhanced maximum entropy models
US9858922B2 (en) 2014-06-23 2018-01-02 Google Inc. Caching speech recognition scores
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
US9299347B1 (en) * 2014-10-22 2016-03-29 Google Inc. Speech recognition using associative mapping
US9535905B2 (en) * 2014-12-12 2017-01-03 International Business Machines Corporation Statistical process control and analytics for translation supply chain operational management
KR101988222B1 (ko) * 2015-02-12 2019-06-13 한국전자통신연구원 대어휘 연속 음성 인식 장치 및 방법
US10134394B2 (en) 2015-03-20 2018-11-20 Google Llc Speech recognition using log-linear model
US9786270B2 (en) 2015-07-09 2017-10-10 Google Inc. Generating acoustic models
KR102494139B1 (ko) * 2015-11-06 2023-01-31 삼성전자주식회사 뉴럴 네트워크 학습 장치 및 방법과, 음성 인식 장치 및 방법
US20170148466A1 (en) * 2015-11-25 2017-05-25 Tim Jackson Method and system for reducing background sounds in a noisy environment
CN105448303B (zh) * 2015-11-27 2020-02-04 百度在线网络技术(北京)有限公司 语音信号的处理方法和装置
US10229672B1 (en) 2015-12-31 2019-03-12 Google Llc Training acoustic models using connectionist temporal classification
US9978367B2 (en) 2016-03-16 2018-05-22 Google Llc Determining dialog states for language models
US20180018973A1 (en) 2016-07-15 2018-01-18 Google Inc. Speaker verification
US10832664B2 (en) 2016-08-19 2020-11-10 Google Llc Automated speech recognition using language models that selectively use domain-specific model components
US10311860B2 (en) 2017-02-14 2019-06-04 Google Llc Language model biasing system
US10706840B2 (en) 2017-08-18 2020-07-07 Google Llc Encoder-decoder models for sequence to sequence mapping
JP7019096B2 (ja) 2018-08-30 2022-02-14 ドルビー・インターナショナル・アーベー 低ビットレート符号化オーディオの増強を制御する方法及び機器
CN111210810A (zh) * 2019-12-17 2020-05-29 秒针信息技术有限公司 模型训练方法和装置
EP3862782A1 (en) * 2020-02-04 2021-08-11 Infineon Technologies AG Apparatus and method for correcting an input signal
CN111429930B (zh) * 2020-03-16 2023-02-28 云知声智能科技股份有限公司 一种基于自适应采样率的降噪模型处理方法及系统
CN114190953B (zh) * 2021-12-09 2024-07-23 四川新源生物电子科技有限公司 针对脑电采集设备的脑电信号降噪模型的训练方法和系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4309985A1 (de) * 1993-03-29 1994-10-06 Sel Alcatel Ag Geräuschreduktion zur Spracherkennung
DE4322372A1 (de) * 1993-07-06 1995-01-12 Sel Alcatel Ag Verfahren und Vorrichtung zur Spracherkennung
US6067517A (en) * 1996-02-02 2000-05-23 International Business Machines Corporation Transcription of speech data with segments from acoustically dissimilar environments
US6026359A (en) * 1996-09-20 2000-02-15 Nippon Telegraph And Telephone Corporation Scheme for model adaptation in pattern recognition based on Taylor expansion
US5950157A (en) * 1997-02-28 1999-09-07 Sri International Method for establishing handset-dependent normalizing models for speaker recognition
US6529872B1 (en) * 2000-04-18 2003-03-04 Matsushita Electric Industrial Co., Ltd. Method for noise adaptation in automatic speech recognition using transformed matrices

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8370139B2 (en) 2006-04-07 2013-02-05 Kabushiki Kaisha Toshiba Feature-vector compensating apparatus, feature-vector compensating method, and computer program product
US9666184B2 (en) 2014-12-08 2017-05-30 Samsung Electronics Co., Ltd. Method and apparatus for training language model and recognizing speech
US10332510B2 (en) 2014-12-08 2019-06-25 Samsung Electronics Co., Ltd. Method and apparatus for training language model and recognizing speech
JP2022020062A (ja) * 2020-11-23 2022-01-31 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 特徴情報のマイニング方法、装置及び電子機器
JP7300492B2 (ja) 2020-11-23 2023-06-29 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 特徴情報のマイニング方法、装置及び電子機器
US12067970B2 (en) 2020-11-23 2024-08-20 Beijing Baidu Netcom Science Technology Co., Ltd. Method and apparatus for mining feature information, and electronic device

Also Published As

Publication number Publication date
EP1199708A2 (en) 2002-04-24
US6876966B1 (en) 2005-04-05
ATE347161T1 (de) 2006-12-15
DE60124842T2 (de) 2007-04-12
JP4195211B2 (ja) 2008-12-10
EP1199708B1 (en) 2006-11-29
EP1199708A3 (en) 2003-10-15
DE60124842D1 (de) 2007-01-11

Similar Documents

Publication Publication Date Title
JP4195211B2 (ja) 挿入ノイズを用いた後にノイズ低減を行うパターン認識訓練方法および装置
US6959276B2 (en) Including the category of environmental noise when processing speech signals
US7181390B2 (en) Noise reduction using correction vectors based on dynamic aspects of speech and noise normalization
US6985858B2 (en) Method and apparatus for removing noise from feature vectors
JP4195428B2 (ja) 多数の音声特徴を利用する音声認識
KR101201146B1 (ko) 최적의 추정을 위한 중요한 양으로서 순간적인 신호 대 잡음비를 사용하는 잡음 감소 방법
KR101099339B1 (ko) 복수-감지기형 음성 향상 방법 및 컴퓨터-판독가능 매체
US7133826B2 (en) Method and apparatus using spectral addition for speaker recognition
JP5072206B2 (ja) 音声分類および音声認識のための隠れ条件付確率場モデル
US6990447B2 (en) Method and apparatus for denoising and deverberation using variational inference and strong speech models
US7254536B2 (en) Method of noise reduction using correction and scaling vectors with partitioning of the acoustic space in the domain of noisy speech
US6931374B2 (en) Method of speech recognition using variational inference with switching state space models
EP3989217B1 (en) Method for detecting an audio adversarial attack with respect to a voice input processed by an automatic speech recognition system, corresponding device, computer program product and computer-readable carrier medium
US20060195317A1 (en) Method and apparatus for recognizing speech in a noisy environment
US6917918B2 (en) Method and system for frame alignment and unsupervised adaptation of acoustic models
US11763801B2 (en) Method and system for outputting target audio, readable storage medium, and electronic device
Shahnawazuddin et al. Enhancing noise and pitch robustness of children's ASR
JP2003241787A (ja) 音声認識装置および方法、並びにプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20041015

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041015

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20041015

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20041015

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060908

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070209

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070508

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080829

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080925

R150 Certificate of patent or registration of utility model

Ref document number: 4195211

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111003

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121003

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131003

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees