JP2008544328A - クリーン音声の事前分布を使用した多感覚応用の音声強調 - Google Patents

クリーン音声の事前分布を使用した多感覚応用の音声強調 Download PDF

Info

Publication number
JP2008544328A
JP2008544328A JP2008518201A JP2008518201A JP2008544328A JP 2008544328 A JP2008544328 A JP 2008544328A JP 2008518201 A JP2008518201 A JP 2008518201A JP 2008518201 A JP2008518201 A JP 2008518201A JP 2008544328 A JP2008544328 A JP 2008544328A
Authority
JP
Japan
Prior art keywords
variance
determining
signal
prior probability
air conduction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008518201A
Other languages
English (en)
Other versions
JP4975025B2 (ja
JP2008544328A5 (ja
Inventor
リュウ ジチェン
アセロ アレハンドロ
ジャン ジェンヨウ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2008544328A publication Critical patent/JP2008544328A/ja
Publication of JP2008544328A5 publication Critical patent/JP2008544328A5/ja
Application granted granted Critical
Publication of JP4975025B2 publication Critical patent/JP4975025B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2460/00Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
    • H04R2460/13Hearing devices using bone conduction transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Details Of Audible-Bandwidth Transducers (AREA)
  • User Interface Of Digital Computer (AREA)
  • Meter Arrangements (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Machine Translation (AREA)
  • Time-Division Multiplex Systems (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

方法および装置は、代替センサ信号、気導マイクロフォン信号を使用して代替センサについてのチャネル応答を決定する。次いで、このチャネル応答、およびクリーン音声値の事前確率分布を使用して、クリーン音声値を推定する。

Description

音声認識および音声伝達における共通の問題は、付加雑音による音声信号の乱れである。特に、別の話者の音声による乱れは、検出し、かつ/または補正するのが難しいことが実証されている。
最近、骨伝導マイクロフォン(bone conduction microphone)などの代替センサと気導マイクロフォン(air conduction microphone)との組合せを使用することによって雑音を除去しようと試みるシステムが開発されている。このシステムは、3つのトレーニングチャンネル、すなわち、雑音のある代替センサトレーニング信号、雑音のある気導マイクロフォントレーニング信号、およびクリーンな気導マイクロフォントレーニング信号を使用してトレーニングされる。各信号は、特徴領域に変換される。雑音のある代替センサ信号および雑音のある気導マイクロフォン信号の特徴は、雑音のある信号を表す単一のベクトルに結合される。クリーンな気導マイクロフォン信号の特徴は、単一のクリーンなベクトルを形成する。次いで、これらのベクトルは、雑音のあるベクトルとクリーンなベクトルとの間のマッピングをトレーニングするために使用される。マッピングは、トレーニングされると、雑音のある代替センサテスト信号と雑音のある気導マイクロフォンテスト信号との組合せから形成された雑音のあるベクトルに適用される。このマッピングは、クリーンな信号ベクトルを生成する。
このシステムは、テスト信号の雑音条件がトレーニング信号の雑音条件と一致しないとき、最適とは言えない。というのは、マッピングは、トレーニング信号の雑音条件に合わせて設計されるからである。
方法および装置は、代替センサ信号、気導マイクロフォン信号を使用して代替センサについてのチャネル応答を決定する。次いで、このチャネル応答、およびクリーン音声値の事前確率分布(prior probability distribution)を使用して、クリーン音声値を推定する。
図1は、本発明の実施形態を実施することができる好適なコンピューティングシステム環境100の一例を示す。コンピューティングシステム環境100は、好適なコンピューティング環境の一例にすぎず、本発明の使用または機能の範囲に関する限定を示唆するものではない。また、コンピューティング環境100を、動作環境100の例に示した構成要素のいずれか1つ、またはその組合せに関する任意の依存性または必要条件を有しているものと解釈すべきではない。
本発明は、他の多くの汎用または専用コンピューティングシステム環境または構成で動作可能である。本発明との使用に適したよく知られているコンピューティングシステム、環境、および/または構成の例には、それだけには限定されないが、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドまたはラップトップ装置、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラム可能家庭用電化製品、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、電話システム、上記の任意のシステムまたは装置を含む分散コンピューティング環境などがある。
本発明は、コンピュータによって実行されるプログラムモジュールなどのコンピュータ実行可能命令の一般的な文脈で説明することができる。一般にプログラムモジュールは、特定のタスクを実行する、または特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、構成要素、データ構造などを含む。本発明は、通信ネットワークを介してリンクされているリモート処理装置によってタスクが実行される分散コンピューティング環境で実施されるように設計されている。分散コンピューティング環境では、プログラムモジュールは、メモリ記憶装置を含むローカルおよびリモートのコンピュータ記憶媒体に配置される。
図1を参照すると、本発明の実施形態を実施するシステムの例は、汎用コンピューティング装置をコンピュータ110の形で含んでいる。コンピュータ110の構成要素は、それだけには限定されないが、処理ユニット120、システムメモリ130、およびシステムメモリを含む様々なシステム構成要素を処理ユニット120に結合するシステムバス121を含み得る。システムバス121は、メモリバスまたはメモリコントローラ、周辺バス、および様々なバスアーキテクチャのうちの任意のものを使用するローカルバスを含むいくつかのタイプのバス構造のうちどんなものでもよい。こうしたアーキテクチャには、それだけには限定されないが一例として、業界標準アーキテクチャ(ISA)バス、マイクロチャネルアーキテクチャ(MCA)バス、拡張ISA(EISA)バス、ビデオ電子装置規格化協会(VESA)ローカルバス、およびメザニンバスとしても知られている周辺部品相互接続(PCI)バスなどがある。
コンピュータ110は、一般に、様々なコンピュータ可読媒体を含む。コンピュータ可読媒体は、コンピュータ110からアクセスできる使用可能な任意の媒体とすることができ、揮発性および不揮発性媒体、取外式および固定式媒体を含む。コンピュータ可読媒体は、それだけには限定されないが一例として、コンピュータ記憶媒体および通信媒体を含み得る。コンピュータ記憶媒体には、コンピュータ可読命令、データ構造、プログラムモジュール、他のデータなど、情報を記憶するための任意の方法または技術で実施される揮発性および不揮発性の取外式および固定式媒体がある。コンピュータ記憶媒体には、それだけには限定されないが、RAM、ROM、EEPROM、フラッシュメモリまたは他のメモリ技術、CD−ROM、デジタル多用途ディスク(DVD)または他の光ディスク記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置または他の磁気記憶装置、または所望の情報の格納に使用でき、コンピュータ110からアクセスできる他の任意の媒体などがある。通信媒体は一般に、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータを搬送波または他の移送機構などの変調されたデータ信号に組み込む。これには任意の情報配送媒体がある。「変調されたデータ信号」という用語は、情報を信号に符号化するように1つまたは複数のその特性が設定または変更された信号を意味する。通信媒体には、それだけには限定されないが一例として、有線ネットワーク、直接配線された接続などの有線媒体、および音響、RF、赤外線、その他の無線媒体などの無線媒体がある。また、上記のどんな組合せでもコンピュータ可読媒体の範囲内に含まれるものとする。
システムメモリ130は、読み取り専用メモリ(ROM)131やランダムアクセスメモリ(RAM)132など、揮発性および/または不揮発性メモリの形のコンピュータ記憶媒体を含む。基本入出力システム133(BIOS)は、例えば起動中など、コンピュータ110内の要素間での情報の転送を助ける基本ルーチンを含み、一般にROM131に格納されている。RAM132は一般に、処理ユニット120から直接アクセス可能な、かつ/または処理ユニット120が現在処理しているデータおよび/またはプログラムモジュールを含む。図1は、それだけには限定されないが一例として、オペレーティングシステム134、アプリケーションプログラム135、他のプログラムモジュール136、およびプログラムデータ137を示している。
コンピュータ110は、他の取外式/固定式、揮発性/不揮発性コンピュータ記憶媒体を含むこともできる。一例にすぎないが、図1は、固定式不揮発性磁気媒体から読み取り、あるいはそこに書き込むハードディスクドライブ141、取外式不揮発性磁気ディスク152から読み取り、あるいはそこに書き込む磁気ディスクドライブ151、およびCD−ROMや他の光媒体など、取外式不揮発性光ディスク156から読み取り、あるいはそこに書き込む光ディスクドライブ155を示している。動作環境の例で使用できる他の取外式/固定式、揮発性/不揮発性コンピュータ記憶媒体には、それだけには限定されないが、磁気テープカセット、フラッシュメモリカード、デジタル多用途ディスク、デジタルビデオテープ、半導体RAM、半導体ROMなどがある。ハードディスクドライブ141は一般に、インターフェイス140などの固定式メモリインターフェイスを介してシステムバス121に接続され、磁気ディスクドライブ151および光ディスクドライブ155は一般に、インターフェイス150などの取外式メモリインターフェイスによってシステムバス121に接続される。
上述し、図1に示したドライブおよびその関連のコンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、およびコンピュータ110の他のデータの記憶域を提供する。例えば、図1では、ハードディスクドライブ141は、オペレーティングシステム144、アプリケーションプログラム145、他のプログラムモジュール146、およびプログラムデータ147を格納するものとして示されている。これらの構成要素は、オペレーティングシステム134、アプリケーションプログラム135、他のプログラムモジュール136、およびプログラムデータ137と同じであっても、異なっていてもよいことに留意されたい。オペレーティングシステム144、アプリケーションプログラム145、他のプログラムモジュール146、およびプログラムデータ147は少なくとも異なるコピーであることを示すために、ここではそれらに異なる番号を付している。
ユーザは、キーボード162、マイクロフォン163、およびマウス、トラックボール、タッチパッドなどのポインティング装置161などの入力装置を介してコマンドおよび情報をコンピュータ110に入力することができる。他の入力装置(図示せず)には、ジョイスティック、ゲームパッド、衛星パラボラアンテナ、スキャナなどを含むことができる。これらおよび他の入力装置は、しばしばシステムバスに結合されているユーザ入力インターフェイス160を介して処理ユニット120に接続されるが、パラレルポート、ゲームポート、ユニバーサルシリアルバス(USB)など他のインターフェイスおよびバス構造で接続してもよい。モニタ191または他のタイプの表示装置もまた、ビデオインターフェイス190などのインターフェイスを介してシステムバス121に接続される。コンピュータは、モニタに加えて、出力周辺インターフェイス195を介して接続できるスピーカ197、プリンタ196などの他の周辺出力装置を含むこともできる。
コンピュータ110は、リモートコンピュータ180など1つまたは複数のリモートコンピュータへの論理接続を使用してネットワーク式環境で動作する。リモートコンピュータ180は、パーソナルコンピュータ、ハンドヘルド装置、サーバ、ルータ、ネットワークPC、ピア装置、または他の一般のネットワークノードでよく、一般にコンピュータ110に関連して上述した多くまたはすべての要素を含む。図1に示した論理接続は、ローカルエリアネットワーク(LAN)171および広域ネットワーク(WAN)173を含むが、他のネットワークを含んでいてもよい。こうしたネットワーキング環境は、オフィス、全社規模のコンピュータネットワーク、イントラネット、およびインターネットではごく一般的である。
LANネットワーキング環境で使用する場合、コンピュータ110は、ネットワークインターフェイスまたはアダプタ170を介してLAN171に接続される。WANネットワーキング環境で使用する場合、コンピュータ110は一般に、モデム172、またはインターネットなどWAN173を介して通信を確立する他の手段を含む。モデム172は、内蔵のものでも外付けのものでもよく、ユーザ入力インターフェイス160または他の適切な機構を介してシステムバス121に接続することができる。ネットワーク式環境では、コンピュータ110に関連して示したプログラムモジュール、またはその一部分をリモートメモリ記憶装置に格納することができる。図1は、それだけには限定されないが一例として、リモートアプリケーションプログラム185をリモートコンピュータ180上に存在するものとして示している。図示したネットワーク接続は例であり、コンピュータ間の通信リンクを確立する他の手段を使用してもよいことは理解されよう。
図2は、コンピューティング環境例である、モバイル装置200のブロック図である。モバイル装置200は、マイクロプロセッサ202、メモリ204、入力/出力(I/O)構成要素206、およびリモートコンピュータや他のモバイル装置と通信する通信インターフェイス208を含む。一実施形態では、上述した構成要素は、好適なバス210を介して互いに通信するために結合される。
メモリ204は、モバイル装置200への一般電源がシャットダウンされたときにメモリ204に格納された情報が失われないように、バッテリバックアップモジュール(図示せず)を備えるランダムアクセスメモリ(RAM)などの不揮発性電子メモリとして実装される。メモリ204の一部分は、プログラム実行のためのアドレス指定可能なメモリとして割り振られることが好ましく、メモリ204の別の部分は、ディスクドライブ上のストレージをシミュレートするためなど、格納用に使用されることが好ましい。
メモリ204は、オペレーティングシステム212、アプリケーションプログラム214、およびオブジェクトストア216を含む。動作中、オペレーティングシステム212は、プロセッサ202によってメモリ204から実行されることが好ましい。好ましい一実施形態では、オペレーティングシステム212は、Microsoft社から市販されているWINDOWS(登録商標)CEブランドオペレーティングシステムである。オペレーティングシステム212は、モバイル装置用に設計されていることが好ましく、1組の公表されているアプリケーションプログラミングインターフェイスおよびメソッド(a set of exposed application programming interfaces and methods)を介して、アプリケーション214が使用することができるデータベース機能を実装する。オブジェクトストア216内のオブジェクトは、少なくとも一部には、公表されているアプリケーションプログラミングインターフェイスおよびメソッドに対する呼出しに応答して、アプリケーション214およびオペレーティングシステム212によって維持される。
通信インターフェイス208は、モバイル装置200が情報を送受信できるようになる多数の装置および技術を表す。2〜3例を挙げると、装置には、有線および無線のモデム、衛星受信機、および放送チューナなどがある。モバイル装置200は、コンピュータに直接接続されて、コンピュータとデータを交換することもできる。こうした場合、通信インターフェイス208は、赤外線送受信装置や、シリアルまたはパラレルの通信接続とすることができ、これらはすべて、ストリーミング情報を送信することができる。
入力/出力構成要素206は、タッチセンシティブスクリーン、ボタン、ローラ、およびマイクロフォンなどの様々な入力装置、およびオーディオジェネレータ、振動装置、およびディスプレイを含む様々な出力装置を含む。上記に列挙した装置は、一例であって、すべてがモバイル装置200に存在している必要はない。さらに、本発明の範囲内で、他の入力/出力装置がモバイル装置200に取り付けられていてもよく、またはモバイル装置200に備え付けられていてもよい。
図3は、本発明の諸実施形態の基本的なブロック図を示している。図3において、話者300は、気導マイクロフォン304および代替センサ306によって検出される音声信号302(X)を生成する。代替センサの例には、ユーザの喉の振動を測定する喉当てマイクロフォン、ユーザの(顎の骨など)顔の骨や頭蓋骨に、またはそれに隣接して、あるいはユーザの耳の中に配置し、ユーザによって生成される音声に対応する頭蓋骨および顎の振動を感知する骨伝導センサなどがある。気導マイクロフォン304は、一般に可聴周波の空気波(audio air−wave)を電気信号に変換するために使用されるタイプのマイクロフォンである。
また、気導マイクロフォン304は、1つまたは複数の雑音源310によって生成される周囲雑音308(Z)も受信する。周囲雑音のタイプ、および周囲雑音のレベルに応じて、周囲雑音308を代替センサ306によって検出することもできる。しかし、本発明の諸実施形態によれば、代替センサ306は、一般に、気導マイクロフォン304より周囲雑音に影響されにくい。したがって、代替センサ306によって生成された代替センサ信号316(B)は、一般に、気導マイクロフォン304によって生成された気導マイクロフォン信号318(Y)より雑音が少ない。代替センサ306は、周囲雑音に影響されにくいが、何らかのセンサ雑音320(W)を生成する。
話者300から代替センサ信号316への経路は、チャネル応答Hを有するチャネルとしてモデル化することができる。周囲雑音308から代替センサ信号316への経路は、チャネル応答Gを有するチャネルとしてモデル化することができる。
代替センサ信号316(B)および気導マイクロフォン信号318(Y)は、クリーン信号324を推定するクリーン信号推定器322に提供される。クリーン信号推定値324は、音声処理328に提供される。クリーン信号推定値324は、フィルタ処理された時間領域信号またはフーリエ変換ベクトルのいずれかとすることができる。クリーン信号推定値324が時間領域信号である場合、音声処理328は、聞き手、音声符号化システム、または音声認識システムの形を取り得る。クリーン信号推定値324がフーリエ変換ベクトルである場合、音声処理328は、一般に音声認識システムであるか、フーリエ変換ベクトルを波形に変換するための逆フーリエ変換を含む。
直接フィルタリング強調(direct filtering enhancement)322内で、代替センサ信号316およびマイクロフォン信号318は、クリーン音声を推定するために使用される周波数領域に変換される。図4に示されるように、代替センサ信号316および気導マイクロフォン信号318は、それぞれアナログ−デジタル変換器404および414に提供されて、それぞれフレームコンストラクタ406および416によって値のフレームにグループ分けされる、一連のデジタル値を生成する。一実施形態では、A−D変換器404および414は、アナログ信号をサンプル当たり16kHz、16ビットでサンプリングし、それによって1秒当たり32キロバイトの音声データを作成し、フレームコンストラクタ406および416は、20ミリ秒相当のデータを含む新しいそれぞれのフレームを10ミリ秒ごとに作成する。
フレームコンストラクタ406および416によって提供されたデータのそれぞれのフレームは、それぞれ高速フーリエ変換(FFT)408および418を使用して周波数領域に変換される。
代替センサ信号および気導マイクロフォン信号の周波数領域値は、クリーン信号推定器420に提供され、クリーン信号推定器420は、周波数領域値を使用して、クリーン音声信号324を推定する。
いくつかの実施形態によれば、クリーン音声信号324は、逆高速フーリエ変換422を使用して、時間領域に逆変換される。これは、時間領域バージョンのクリーン音声信号324を作成する。
本発明の諸実施形態は、クリーン音声信号324を推定するための直接フィルタリング技術を提供する。直接フィルタリングによれば、代替センサ306のチャネル応答の最尤推定値は、チャネル応答に対して関数を最小化することによって決定される。次いでこれらの推定値は、クリーン音声信号に対して関数を最小化することによって、クリーン音声信号の最尤推定値を決定するために使用される。
本発明の一実施形態によれば、代替センサによって検出される背景音声に対応するチャネル応答Gは、ゼロであると考えられる。これによって、クリーン音声信号と、気導マイクロフォン信号および代替センサ信号との間のモデルが次のようになる。
y(t)=x(t)+z(t) 式1
b(t)=h(t)*x(t)+w(t) 式2
式中、y(t)は気導マイクロフォン信号、b(t)は代替センサ信号、x(t)はクリーン音声信号、z(t)は周囲雑音、w(t)は代替センサ雑音、およびh(t)は代替センサに関連付けられているクリーン音声信号に対するチャネル応答である。したがって、式2では、代替センサ信号は、フィルタ処理されたバージョンのクリーン音声としてモデル化され、フィルタは、h(t)のインパルス応答を有する。
周波数領域において、式1および式2は、次のように表すことができる。
(k)=X(k)+Z(k) 式3
(k)=H(k)X(k)+W(k) 式4
式中、表記Y(k)は、時刻tを中心とした信号のフレームのk番目の周波数成分を表す。この表記は、X(k)、Z(k)、H(k)、W(k)、およびB(k)に適用される。以下の説明では、わかりやすくするために、周波数成分kに対する参照が省略される。しかし、以下で行われる計算は、周波数成分ごとに行われることを当業者であれば理解されよう。
この実施形態によれば、雑音ZおよびWの実数部分および虚数部分は、以下のように、独立ゼロ平均ガウス(independent zero−mean Gaussians)としてモデル化される。
Figure 2008544328
式中、
Figure 2008544328
は、雑音Zの分散、
Figure 2008544328
は、Wの分散である。
も、以下のようにガウスとしてモデル化される。
Figure 2008544328
式中、Hは、チャネル応答の平均、
Figure 2008544328
は、チャネル応答の分散である。
これらのモデルパラメータが与えられると、クリーン音声値Xおよびチャネル応答値Hの確率は、条件付き確率、
Figure 2008544328
によって記述され、これは、以下に比例し、
Figure 2008544328
これは、以下に等しい。
Figure 2008544328
一実施形態では、チャネル応答の事前確率、
Figure 2008544328
は、無視され、残りの確率のそれぞれは、クリーン音声の事前確率であるp(X)で、ガウス分布として処理され、これは、
Figure 2008544328
の分散で、ゼロ平均ガウスとして処理され、したがって
Figure 2008544328
となる。
この簡略化および式10を使用して、tのフレームのXの最尤推定値は、以下を最小化することによって決定される。
Figure 2008544328
式12は、Xに関して最小化されつつあるため、Xに関する偏導関数を取り、その関数を最小化するXの値を決定することができる。具体的には、
Figure 2008544328
によって、
Figure 2008544328
が得られ、式中、
Figure 2008544328
は、Hの複素共役を表し、|H|は、複素値Hの大きさを表す。
チャネル応答Hは、以下を最小化することによって、発話全体から推定される。
Figure 2008544328
式13で計算されたXの式を式14に代入し、偏導関数
Figure 2008544328
を設定し、Hがすべての時間フレームTにわたって一定であると仮定すると、以下のようなHの解が得られる。
Figure 2008544328
式15で、Hの推定は、以下の形で、最後のTフレームにわたっていくつかの総和を計算する必要がある。
Figure 2008544328
式中、sは、
Figure 2008544328
である。
この式では、最初のフレーム(t=1)は、最後のフレーム(t=T)と同じぐらい重要である。しかし、他の実施形態では、最新のフレームが古いフレームよりHの推定に貢献していることが好ましい。これを達成する1つの技術は、「指数エージング(exponential aging)」であり、式16の総和は、
Figure 2008544328
で置き換えられる。式中、c≦1である。c=1の場合、式17は、式16に等しい。c<1の場合、最後のフレームは、1だけ加重され、最後の直前のフレームは、cだけ加重され(すなわち、最後のフレームより貢献が少ない)、最初のフレームは、cT−1だけ加重される(すなわち、最後のフレームより著しく貢献が少ない)。一例を挙げる。c=0.99、T=100とすると、最初のフレームに対する重みは、0.9999=0.37のみとなる。
一実施形態によれば、式17は、
S(T)=cS(T−1)+s 式18
として帰納的に推定される。
式18は、古いデータの加重を自動的に少なくするため、固定されたウィンドウ長を使用する必要がなく、最後のT個のフレームのデータをメモリに格納する必要がない。代わりに、前のフレームでのS(T−1)についての値を格納するだけでよい。
式18を使用すると、式15は、
Figure 2008544328
となる。式中、
Figure 2008544328
である。
式20および式21におけるcの値は、J(T)およびK(T)の現在の値を計算するために使用される過去のフレームの数の有効長を提供する。具体的には、有効長は、
Figure 2008544328
によって得られる。
漸近有効長(asymptotic effective length)は、
Figure 2008544328
すなわち、同等に
Figure 2008544328
によって得られる。
したがって、式24を使用して、式19における様々な有効長を達成するために、cを設定することができる。例えば、200フレームの有効長を達成するために、cは、
Figure 2008544328
として設定される。
式15を使用してHが推定されると、式13のすべてのHの代わりにそれを使用して、各時間フレームtでXの別々の値を決定することができる。あるいは、式19を使用して、各時間フレームtでHを推定することができる。次いで、各フレームのHの値を式13で使用して、Xを決定する。
図5は、式13および式15を使用して、発話についてのクリーン音声値を推定する本発明の方法のフロー図を提供する。
ステップ500で、気導マイクロフォン信号および代替センサ信号のフレームの周波数成分が、発話全体にわたって捕捉される。
ステップ502で、周囲雑音の分散
Figure 2008544328
および代替センサ雑音の分散
Figure 2008544328
が、話者が話をしていない間に、発話の初期にそれぞれ捕捉される、気導マイクロフォン信号および代替センサ信号のフレームから決定される。
この方法は、代替センサ信号の低エネルギー部分を識別することによって、話者が話をしていないときを判定する。というのは、代替センサ雑音のエネルギーは、代替センサ信号によって捕捉される音声信号よりはるかに小さいからである。他の諸実施形態では、既知の音声検出技術を気導音声信号に適用して、話者が話をしているときを識別することができる。話者が話をしていないと考えられる間、Xはゼロであると仮定され、気導マイクロフォンまたは代替センサからの任意の信号は、雑音であると考えられる。これらの雑音値のサンプルは、非音声のフレームから収集され、気導信号および代替センサ信号における雑音の分散を推定するために使用される。
ステップ504で、クリーン音声の事前確率分布の分散、
Figure 2008544328
が決定される。一実施形態によれば、この分散は、以下のように計算される。
Figure 2008544328
式中、|Yμは、気導マイクロフォン信号のエネルギーであり、現在の音声フレームの前にk個の音声フレーム、および現在の音声フレームの後にm個の音声フレームを含む1組の音声フレームにわたる合計が行われる。負の値またはゼロの値の分散、
Figure 2008544328
を回避するために、本発明のいくつかの実施形態では、
Figure 2008544328
Figure 2008544328
の最低可能値として使用する。
代替実施形態では、以下のような音声の前のフレームにおけるクリーン音声信号の分散のみに依存する平滑化技術を使用して、リアルタイムの実施が実現される。
Figure 2008544328
式中、
Figure 2008544328
は、音声を含んだ最後のフレームからのクリーン音声の事前確率分布の分散、pは、0から1までの範囲の平滑化係数、αは、小さい定数、
Figure 2008544328
は、
Figure 2008544328
とα|Yとの大きい方が
Figure 2008544328
の正の値を保証するために選択されることを示す。特定の一実施形態によれば、平滑化係数は、0.08の値を有し、α=0.01である。
ステップ506で、発話の全フレームにわたる代替センサ信号および気導マイクロフォン信号の値を使用して、上記の式15を使用してHの値を決定する。ステップ508で、Hのこの値を、各時間フレームでの気導マイクロフォン信号および代替センサ信号の個々の値と共に使用して、上記の式13を使用して、時間フレームごとに、強調された、または雑音が低減された音声値を決定する。
他の諸実施形態では、式15を使用してHの単一の値を決定するために発話の全フレームを使用する代わりに、式19を使用して、フレームごとに、Hが決定される。次いで、Hの値を使用し、上記の式13を使用して、そのフレームについてXを計算する。
本発明の第2の実施形態では、周囲雑音に対する代替センサのチャネル応答が非ゼロであると考えられる。この実施形態では、気導マイクロフォン信号および代替センサ信号は、以下のようにモデル化される。
(k)=X(k)+Z(k) 式28
(k)=H(k)X(k)+G(k)Z(k)+W(k) 式29
式中、周囲雑音に対する代替センサチャネル応答は、G(k)の非ゼロ値である。
クリーン音声Xについての最尤度は、結果的に以下のクリーン音声の式をもたらす目的関数を最小化することによって得られる。
Figure 2008544328
式30を解くために、分散
Figure 2008544328
Figure 2008544328
および
Figure 2008544328
ならびにチャネル応答値HおよびGは既知でなければならない。図6は、これらの値を識別するための、また、フレームごとに強調された音声値を決定するためのフロー図を提供する。
ステップ600で、ユーザが話をしていない発話のフレームが識別される。次いで、これらのフレームを使用して、代替センサおよび周囲雑音の分散
Figure 2008544328
および
Figure 2008544328
をそれぞれ決定する。
ユーザが話をしていないフレームを識別するために、代替センサ信号を調べることができる。代替センサ信号は、背景音声について、雑音よりはるかに小さい信号値を生成するため、代替センサ信号のエネルギーが低い場合、話者が話をしていないと仮定することができる。
周囲雑音および代替センサの雑音についての分散が決定された後、図6の方法はステップ602で続行し、上記の式26または式27を使用して、クリーン音声の事前確率の分散、
Figure 2008544328
を決定する。上述したように、音声を含むフレームのみを使用して、クリーン音声の事前の分散を決定する。
ステップ604で、識別された、ユーザが話をしていないフレームを使用して、周囲雑音についての代替センサのチャネル応答Gを推定する。具体的には、Gは、以下のように決定される。
Figure 2008544328
式中、Dは、ユーザが話をしていないフレームの数である。式31で、Gは、発話の全フレームにわたって一定のままであり、したがって、もはや時間フレームtに依存しないと仮定される。式31で、tにわたる総和を、式16〜25に関連して上述した指数減衰計算(exponential decay calculation)と置き換えることができる。
ステップ606で、背景音声に対する代替センサのチャネル応答Gの値を使用して、クリーン音声信号に対する代替センサのチャネル応答を決定する。具体的には、Hは、以下のように計算される。
Figure 2008544328
式32で、Tにわたる総和を、式16〜25に関連して上述した帰納的指数減衰計算と置き換えることができる。
ステップ606でHが決定された後、式30を使用して、全フレームについてクリーン音声値を決定することができる。式30を使用する際に、いくつかの実施形態によれば、項B−GYは、
Figure 2008544328
と置き換えられる。というのは、背景音声と、代替センサ内へのその漏れとの間の位相差を正確に決定することは難しいことがわかっているからである。
式32における総和の代わりに帰納的指数減衰計算が使用される場合、時間フレームごとにHの別々の値を決定することができ、式30においてHとして使用することができる。
本発明は、特定の実施形態を参照して説明してきたが、本発明の意図および範囲から逸脱することなく形態および詳細に変更を加えることができることを当分野の技術者であれば理解されよう。
本発明の実施形態を実施することができる1つのコンピューティング環境を示すブロック図である。 本発明の実施形態を実施することができる代替のコンピューティング環境を示すブロック図である。 本発明の一実施形態の全体的な音声処理システムを示すブロック図である。 本発明の一実施形態による音声を強調するシステムを示すブロック図である。 本発明の一実施形態による音声を強調するためのフロー図である。 本発明の別の実施形態による音声を強調するためのフロー図である。

Claims (20)

  1. 雑音が低減された音声信号の一部分を表す雑音低減値(noise−reduced value)についての推定値を決定する方法であって、
    気導マイクロフォン以外の代替センサを使用して、代替センサ信号を生成するステップと、
    気導マイクロフォン信号を生成するステップと、
    前記代替センサ信号のチャネル応答についての値を推定するために、前記代替センサ信号、および前記気導マイクロフォン信号を使用するステップと、
    前記雑音低減値を推定するために、前記チャネル応答、および前記雑音低減値の事前確率を使用するステップとを備えることを特徴とする方法。
  2. 前記雑音低減値の前記事前確率は、分散によって定義される分布を有することを特徴とする請求項1に記載の方法。
  3. 前記気導マイクロフォン信号に基づいて、前記分布の前記分散を決定するステップをさらに備えることを特徴とする請求項2に記載の方法。
  4. 前記気導マイクロフォン信号に基づいて前記分散を決定するステップは、前記気導マイクロフォン信号のフレームについてのエネルギー値の総和を形成するステップを含むことを特徴とする請求項3に記載の方法。
  5. 前記気導マイクロフォン信号の前記フレームはすべて、音声を含むことを特徴とする請求項4に記載の方法。
  6. 前記分布の前記分散を決定するステップは、周囲雑音の分散に基づいて前記分散を決定するステップをさらに含むことを特徴とする請求項3に記載の方法。
  7. 前記分布の前記分散を決定するステップは、前記気導マイクロフォン信号の現在のフレームに基づく前記雑音低減音声信号の現在のフレームに関連付けられている分散、および前記雑音低減音声信号の前のフレームに関連付けられている前記分布の分散を決定するステップをさらに含むことを特徴とする請求項6に記載の方法。
  8. 前記分布の前記分散を決定するステップは、前記分散がある最低値を常に超えるように前記分散の前記値を制限するステップをさらに含むことを特徴とする請求項7に記載の方法。
  9. 前記最低値は、前記周囲雑音の前記分散に対する百分率(パーセンテージ)で示されることを特徴とする請求項8に記載の方法。
  10. 代替センサ信号および気導マイクロフォン信号を使用して、代替センサについてのチャネル応答を決定するステップと、
    クリーン音声値を推定するために、前記チャネル応答、およびクリーン音声値の事前確率分布を使用するステップと
    を含むステップを実施するためのコンピュータ実行可能命令を備えることを特徴とするコンピュータ可読媒体。
  11. 事前確率分布を使用するステップは、前記事前確率分布の分散を使用するステップを含むことを特徴とする請求項10に記載のコンピュータ可読媒体。
  12. 前記ステップは、前記気導マイクロフォン信号に基づいて、前記事前確率分布の前記分散を決定するステップをさらに含むことを特徴とする請求項11に記載のコンピュータ可読媒体。
  13. 前記事前確率の前記分散を決定するステップは、周囲雑音の分布に基づいて前記事前確率の前記分散を決定するステップをさらに含むことを特徴とする請求項12に記載のコンピュータ可読媒体。
  14. 前記気導マイクロフォン信号に基づいて前記事前確率の前記分散を決定するステップは、前記気導マイクロフォン信号のフレームについてのエネルギー値の総和を形成するステップを含むことを特徴とする請求項13に記載のコンピュータ可読媒体。
  15. 前記事前確率分布の前記分散を決定するステップは、前のクリーン音声値に関連付けられている事前確率分布の分散に基づいて、現在のクリーン音声値に関連付けられている前記事前確率分布の分散を決定するステップをさらに含むことを特徴とする請求項13に記載のコンピュータ可読媒体。
  16. 前記事前確率分布の前記分散を決定するステップは、前のクリーン音声値に関連付けられている事前確率分布の前記分散、および前記気導マイクロフォン信号のフレームの前記エネルギーと周囲雑音の前記分布の前記分散との差の加重総和を取るステップをさらに含むことを特徴とする請求項15に記載のコンピュータ可読媒体。
  17. 前記事前確率分布の前記分散を決定するステップは、前記事前確率分布の前記分散の最低値を設定するステップをさらに含むことを特徴とする請求項12に記載のコンピュータ可読媒体。
  18. 前記分散の前記最低値は、周囲雑音の分布の分散に応じて決まることを特徴とする請求項17に記載のコンピュータ可読媒体。
  19. クリーン音声信号のクリーン音声値を識別する方法であって、
    周囲雑音に対する代替センサのチャネル応答を決定するステップと、
    クリーン音声値を決定するために、前記チャネル応答、およびクリーン音声値の事前確率分布を使用するステップとを備えることを特徴とする方法。
  20. 前記事前確率分布のパラメータは、気導マイクロフォン信号の値から決定されることを特徴とする請求項19に記載の方法。
JP2008518201A 2005-06-20 2006-06-06 クリーン音声の事前分布を使用した多感覚応用の音声強調 Active JP4975025B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/156,434 US7346504B2 (en) 2005-06-20 2005-06-20 Multi-sensory speech enhancement using a clean speech prior
US11/156,434 2005-06-20
PCT/US2006/022058 WO2007001768A2 (en) 2005-06-20 2006-06-06 Multi-sensory speech enhancement using a clean speech prior

Publications (3)

Publication Number Publication Date
JP2008544328A true JP2008544328A (ja) 2008-12-04
JP2008544328A5 JP2008544328A5 (ja) 2009-07-30
JP4975025B2 JP4975025B2 (ja) 2012-07-11

Family

ID=37574502

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008518201A Active JP4975025B2 (ja) 2005-06-20 2006-06-06 クリーン音声の事前分布を使用した多感覚応用の音声強調

Country Status (14)

Country Link
US (1) US7346504B2 (ja)
EP (1) EP1891627B1 (ja)
JP (1) JP4975025B2 (ja)
KR (1) KR101422844B1 (ja)
CN (1) CN101199006B (ja)
AT (1) ATE476734T1 (ja)
AU (1) AU2006262706B2 (ja)
BR (1) BRPI0611649B1 (ja)
CA (1) CA2607981C (ja)
DE (1) DE602006015954D1 (ja)
MX (1) MX2007014562A (ja)
NO (1) NO339834B1 (ja)
RU (1) RU2407074C2 (ja)
WO (1) WO2007001768A2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014502468A (ja) * 2010-11-24 2014-01-30 コーニンクレッカ フィリップス エヌ ヴェ オーディオ信号生成システム及び方法

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7115093B2 (en) 2001-11-21 2006-10-03 Ge Medical Systems Global Technology Company, Llc Method and system for PDA-based ultrasound system
WO2006033104A1 (en) * 2004-09-22 2006-03-30 Shalon Ventures Research, Llc Systems and methods for monitoring and modifying behavior
US9767817B2 (en) * 2008-05-14 2017-09-19 Sony Corporation Adaptively filtering a microphone signal responsive to vibration sensed in a user's face while speaking
KR101581883B1 (ko) * 2009-04-30 2016-01-11 삼성전자주식회사 모션 정보를 이용하는 음성 검출 장치 및 방법
CN102405463B (zh) * 2009-04-30 2015-07-29 三星电子株式会社 利用多模态信息的用户意图推理装置及方法
CN102340719B (zh) * 2010-07-19 2014-07-23 深圳市宇恒互动科技开发有限公司 一种基于传感器获取声音信号的方法及装置
CN102436810A (zh) * 2011-10-26 2012-05-02 华南理工大学 一种基于信道模式噪声的录音回放攻击检测方法和系统
US9094749B2 (en) 2012-07-25 2015-07-28 Nokia Technologies Oy Head-mounted sound capture device
CN103871419B (zh) * 2012-12-11 2017-05-24 联想(北京)有限公司 一种信息处理方法及电子设备
CN103208291A (zh) * 2013-03-08 2013-07-17 华南理工大学 一种可用于强噪声环境的语音增强方法及装置
CN105611061A (zh) * 2015-12-31 2016-05-25 宇龙计算机通信科技(深圳)有限公司 一种语音传输的方法、装置及移动终端
CN110931031A (zh) * 2019-10-09 2020-03-27 大象声科(深圳)科技有限公司 一种融合骨振动传感器和麦克风信号的深度学习语音提取和降噪方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000066691A (ja) * 1998-08-21 2000-03-03 Kdd Corp オーディオ情報分類装置
JP2004102287A (ja) * 2002-09-06 2004-04-02 Microsoft Corp 劣化信号から雑音を除去する非線形観測モデル
JP2005157354A (ja) * 2003-11-26 2005-06-16 Microsoft Corp 複数感知の音声強調のための方法および機器

Family Cites Families (95)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US629278A (en) * 1898-07-23 1899-07-18 Stickerei Feldmuehle Shuttle for embroidering-machines.
US636176A (en) * 1899-01-10 1899-10-31 Theodore Mundorff Eyeglass-case.
US785768A (en) * 1904-06-27 1905-03-28 Charles B Sippel Collar-button.
US3383466A (en) 1964-05-28 1968-05-14 Navy Usa Nonacoustic measures in automatic speech recognition
US3746789A (en) 1971-10-20 1973-07-17 E Alcivar Tissue conduction microphone utilized to activate a voice operated switch
US3787641A (en) 1972-06-05 1974-01-22 Setcom Corp Bone conduction microphone assembly
US4382164A (en) 1980-01-25 1983-05-03 Bell Telephone Laboratories, Incorporated Signal stretcher for envelope generator
JPS62239231A (ja) 1986-04-10 1987-10-20 Kiyarii Rabo:Kk 口唇画像入力による音声認識方法
JPH0755167B2 (ja) 1988-09-21 1995-06-14 松下電器産業株式会社 移動体
JPH03160851A (ja) 1989-11-20 1991-07-10 Fujitsu Ltd 携帯電話機
US5054079A (en) 1990-01-25 1991-10-01 Stanton Magnetics, Inc. Bone conduction microphone with mounting means
US5404577A (en) 1990-07-13 1995-04-04 Cairns & Brother Inc. Combination head-protective helmet & communications system
US5295193A (en) 1992-01-22 1994-03-15 Hiroshi Ono Device for picking up bone-conducted sound in external auditory meatus and communication device using the same
US5590241A (en) 1993-04-30 1996-12-31 Motorola Inc. Speech processing system and method for enhancing a speech signal in a noisy environment
US5446789A (en) 1993-11-10 1995-08-29 International Business Machines Corporation Electronic device having antenna for receiving soundwaves
AU684872B2 (en) 1994-03-10 1998-01-08 Cable And Wireless Plc Communication system
US5828768A (en) 1994-05-11 1998-10-27 Noise Cancellation Technologies, Inc. Multimedia personal computer with active noise reduction and piezo speakers
DE69531413T2 (de) 1994-05-18 2004-04-15 Nippon Telegraph And Telephone Corp. Sender-Empfänger mit einem akustischen Wandler vom Ohrpassstück-Typ
JPH08186654A (ja) 1994-12-22 1996-07-16 Internatl Business Mach Corp <Ibm> 携帯端末装置
US5701390A (en) 1995-02-22 1997-12-23 Digital Voice Systems, Inc. Synthesis of MBE-based coded speech using regenerated phase information
US5692059A (en) 1995-02-24 1997-11-25 Kruger; Frederick M. Two active element in-the-ear microphone system
US5555449A (en) 1995-03-07 1996-09-10 Ericsson Inc. Extendible antenna and microphone for portable communication unit
US5651074A (en) 1995-05-11 1997-07-22 Lucent Technologies Inc. Noise canceling gradient microphone assembly
KR960042590A (ko) 1995-05-23 1996-12-21 김광호 테이프 재생용 음량기기에서의 발음비교방법
US5647834A (en) 1995-06-30 1997-07-15 Ron; Samuel Speech-based biofeedback method and system
JP3591068B2 (ja) 1995-06-30 2004-11-17 ソニー株式会社 音声信号の雑音低減方法
JP3674990B2 (ja) 1995-08-21 2005-07-27 セイコーエプソン株式会社 音声認識対話装置および音声認識対話処理方法
JPH09172479A (ja) 1995-12-20 1997-06-30 Yokoi Kikaku:Kk 送受話器およびそれを用いた通話装置
US6377919B1 (en) 1996-02-06 2002-04-23 The Regents Of The University Of California System and method for characterizing voiced excitations of speech and acoustic signals, removing acoustic noise from speech, and synthesizing speech
US6006175A (en) 1996-02-06 1999-12-21 The Regents Of The University Of California Methods and apparatus for non-acoustic speech characterization and recognition
US6243596B1 (en) 1996-04-10 2001-06-05 Lextron Systems, Inc. Method and apparatus for modifying and integrating a cellular phone with the capability to access and browse the internet
US5943627A (en) 1996-09-12 1999-08-24 Kim; Seong-Soo Mobile cellular phone
JPH10261910A (ja) 1997-01-16 1998-09-29 Sony Corp 携帯無線装置およびアンテナ装置
JP2874679B2 (ja) 1997-01-29 1999-03-24 日本電気株式会社 雑音消去方法及びその装置
JPH10224253A (ja) 1997-02-10 1998-08-21 Sony Corp 携帯通信機
US6308062B1 (en) 1997-03-06 2001-10-23 Ericsson Business Networks Ab Wireless telephony system enabling access to PC based functionalities
FR2761800A1 (fr) 1997-04-02 1998-10-09 Scanera Sc Dispositif de transmission de voix et telephone le mettant en oeuvre
US5983073A (en) 1997-04-04 1999-11-09 Ditzik; Richard J. Modular notebook and PDA computer systems for personal computing and wireless communications
US6175633B1 (en) 1997-04-09 2001-01-16 Cavcom, Inc. Radio communications apparatus with attenuating ear pieces for high noise environments
US6151397A (en) 1997-05-16 2000-11-21 Motorola, Inc. Method and system for reducing undesired signals in a communication environment
US6434239B1 (en) 1997-10-03 2002-08-13 Deluca Michael Joseph Anti-sound beam method and apparatus
JPH11249692A (ja) 1998-02-27 1999-09-17 Nec Saitama Ltd 音声認識装置
DE69936476T2 (de) 1998-03-18 2007-11-08 Nippon Telegraph And Telephone Corp. Tragbares Kommunikationsgerät zur Eingabe von Befehlen durch Detektion der Fingeraufschläge oder Vibrationen der Fingerspitzen
AU763861B2 (en) 1998-05-19 2003-07-31 Spectrx, Inc. Apparatus and method for determining tissue characteristics
US6717991B1 (en) 1998-05-27 2004-04-06 Telefonaktiebolaget Lm Ericsson (Publ) System and method for dual microphone signal noise reduction using spectral subtraction
US6052464A (en) 1998-05-29 2000-04-18 Motorola, Inc. Telephone set having a microphone for receiving or an earpiece for generating an acoustic signal via a keypad
US6137883A (en) 1998-05-30 2000-10-24 Motorola, Inc. Telephone set having a microphone for receiving an acoustic signal via keypad
JP3160714B2 (ja) 1998-07-08 2001-04-25 株式会社シコー技研 携帯無線通信機
US6292674B1 (en) 1998-08-05 2001-09-18 Ericsson, Inc. One-handed control for wireless telephone
JP3893763B2 (ja) 1998-08-17 2007-03-14 富士ゼロックス株式会社 音声検出装置
US6760600B2 (en) 1999-01-27 2004-07-06 Gateway, Inc. Portable communication apparatus
DE19917169A1 (de) 1999-04-16 2000-11-02 Kamecke Keller Orla Verfahren zur Speicherung und Wiedergabe von Audio-, Video- und Anwendungsprogrammdaten in Mobilfunkendgeräten
US20020057810A1 (en) 1999-05-10 2002-05-16 Boesen Peter V. Computer and voice communication unit with handsfree device
US6542721B2 (en) 1999-10-11 2003-04-01 Peter V. Boesen Cellular telephone, personal digital assistant and pager unit
US6738485B1 (en) 1999-05-10 2004-05-18 Peter V. Boesen Apparatus, method and system for ultra short range communication
US6952483B2 (en) 1999-05-10 2005-10-04 Genisus Systems, Inc. Voice transmission apparatus with UWB
US6560468B1 (en) 1999-05-10 2003-05-06 Peter V. Boesen Cellular telephone, personal digital assistant, and pager unit with capability of short range radio frequency transmissions
US6094492A (en) 1999-05-10 2000-07-25 Boesen; Peter V. Bone conduction voice transmission apparatus and system
US6258734B1 (en) * 1999-07-16 2001-07-10 Vanguard International Semiconductor Corporation Method for patterning semiconductor devices on a silicon substrate using oxynitride film
US6594629B1 (en) 1999-08-06 2003-07-15 International Business Machines Corporation Methods and apparatus for audio-visual speech detection and recognition
US6339706B1 (en) 1999-11-12 2002-01-15 Telefonaktiebolaget L M Ericsson (Publ) Wireless voice-activated remote control device
US6603823B1 (en) * 1999-11-12 2003-08-05 Intel Corporation Channel estimator
US6675027B1 (en) 1999-11-22 2004-01-06 Microsoft Corp Personal mobile computing device having antenna microphone for improved speech recognition
US6411933B1 (en) 1999-11-22 2002-06-25 International Business Machines Corporation Methods and apparatus for correlating biometric attributes and biometric attribute production features
GB2357400A (en) 1999-12-17 2001-06-20 Nokia Mobile Phones Ltd Controlling a terminal of a communication system
US20030179888A1 (en) 2002-03-05 2003-09-25 Burnett Gregory C. Voice activity detection (VAD) devices and methods for use with noise suppression systems
JP3339579B2 (ja) 2000-10-04 2002-10-28 株式会社鷹山 電話装置
KR100394840B1 (ko) 2000-11-30 2003-08-19 한국과학기술원 독립 성분 분석을 이용한 능동 잡음 제거방법
US6853850B2 (en) 2000-12-04 2005-02-08 Mobigence, Inc. Automatic speaker volume and microphone gain control in a portable handheld radiotelephone with proximity sensors
US20020075306A1 (en) 2000-12-18 2002-06-20 Christopher Thompson Method and system for initiating communications with dispersed team members from within a virtual team environment using personal identifiers
US6985858B2 (en) 2001-03-20 2006-01-10 Microsoft Corporation Method and apparatus for removing noise from feature vectors
GB2375276B (en) 2001-05-03 2003-05-28 Motorola Inc Method and system of sound processing
US7433484B2 (en) 2003-01-30 2008-10-07 Aliphcom, Inc. Acoustic vibration sensor
WO2002098169A1 (en) * 2001-05-30 2002-12-05 Aliphcom Detecting voiced and unvoiced speech using both acoustic and nonacoustic sensors
US6701390B2 (en) * 2001-06-06 2004-03-02 Koninklijke Philips Electronics N.V. FIFO buffer that can read and/or write multiple and/or selectable number of data words per bus cycle
US6987986B2 (en) 2001-06-21 2006-01-17 Boesen Peter V Cellular telephone, personal digital assistant with dual lines for simultaneous uses
US7054423B2 (en) 2001-09-24 2006-05-30 Nebiker Robert M Multi-media communication downloading
US6959276B2 (en) 2001-09-27 2005-10-25 Microsoft Corporation Including the category of environmental noise when processing speech signals
US6952482B2 (en) 2001-10-02 2005-10-04 Siemens Corporation Research, Inc. Method and apparatus for noise filtering
JP3532544B2 (ja) 2001-10-30 2004-05-31 株式会社テムコジャパン 面体又は帽体のストラップ装着用送受話装置
US7162415B2 (en) 2001-11-06 2007-01-09 The Regents Of The University Of California Ultra-narrow bandwidth voice coding
US6707921B2 (en) 2001-11-26 2004-03-16 Hewlett-Packard Development Company, Lp. Use of mouth position and mouth movement to filter noise from speech in a hearing aid
DE10158583A1 (de) 2001-11-29 2003-06-12 Philips Intellectual Property Verfahren zum Betrieb eines Barge-In-Dialogsystems
US6664713B2 (en) 2001-12-04 2003-12-16 Peter V. Boesen Single chip device for voice communications
US7219062B2 (en) 2002-01-30 2007-05-15 Koninklijke Philips Electronics N.V. Speech activity detection using acoustic and facial characteristics in an automatic speech recognition system
US9374451B2 (en) 2002-02-04 2016-06-21 Nokia Technologies Oy System and method for multimodal short-cuts to digital services
US7117148B2 (en) 2002-04-05 2006-10-03 Microsoft Corporation Method of noise reduction using correction vectors based on dynamic aspects of speech and noise normalization
US7190797B1 (en) 2002-06-18 2007-03-13 Plantronics, Inc. Headset with foldable noise canceling and omnidirectional dual-mode boom
US7092529B2 (en) 2002-11-01 2006-08-15 Nanyang Technological University Adaptive control system for noise cancellation
US7593851B2 (en) 2003-03-21 2009-09-22 Intel Corporation Precision piecewise polynomial approximation for Ephraim-Malah filter
US20060008256A1 (en) 2003-10-01 2006-01-12 Khedouri Robert K Audio visual player apparatus and system and method of content distribution using the same
US7499686B2 (en) 2004-02-24 2009-03-03 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement on a mobile device
US8095073B2 (en) 2004-06-22 2012-01-10 Sony Ericsson Mobile Communications Ab Method and apparatus for improved mobile station and hearing aid compatibility
US7574008B2 (en) 2004-09-17 2009-08-11 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement
US7283850B2 (en) 2004-10-12 2007-10-16 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement on a mobile device

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000066691A (ja) * 1998-08-21 2000-03-03 Kdd Corp オーディオ情報分類装置
JP2004102287A (ja) * 2002-09-06 2004-04-02 Microsoft Corp 劣化信号から雑音を除去する非線形観測モデル
JP2005157354A (ja) * 2003-11-26 2005-06-16 Microsoft Corp 複数感知の音声強調のための方法および機器

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014502468A (ja) * 2010-11-24 2014-01-30 コーニンクレッカ フィリップス エヌ ヴェ オーディオ信号生成システム及び方法

Also Published As

Publication number Publication date
NO339834B1 (no) 2017-02-06
AU2006262706B2 (en) 2010-11-25
BRPI0611649A2 (pt) 2010-09-28
US20060287852A1 (en) 2006-12-21
JP4975025B2 (ja) 2012-07-11
WO2007001768A3 (en) 2007-12-13
EP1891627B1 (en) 2010-08-04
US7346504B2 (en) 2008-03-18
CN101199006B (zh) 2011-08-24
KR101422844B1 (ko) 2014-07-30
CA2607981A1 (en) 2007-01-04
NO20075732L (no) 2008-03-17
MX2007014562A (es) 2008-01-16
RU2007147463A (ru) 2009-06-27
KR20080018163A (ko) 2008-02-27
DE602006015954D1 (de) 2010-09-16
WO2007001768A2 (en) 2007-01-04
ATE476734T1 (de) 2010-08-15
EP1891627A4 (en) 2009-07-22
AU2006262706A1 (en) 2007-01-04
CN101199006A (zh) 2008-06-11
CA2607981C (en) 2014-08-19
EP1891627A2 (en) 2008-02-27
RU2407074C2 (ru) 2010-12-20
BRPI0611649B1 (pt) 2019-09-24

Similar Documents

Publication Publication Date Title
JP4975025B2 (ja) クリーン音声の事前分布を使用した多感覚応用の音声強調
JP4842583B2 (ja) 多感覚音声強調のための方法および装置
JP5452655B2 (ja) 音声状態モデルを使用したマルチセンサ音声高品質化
RU2373584C2 (ru) Способ и устройство для повышения разборчивости речи с использованием нескольких датчиков
JP5021212B2 (ja) 複数感知の音声強調の際に代替センサ信号によるノイズ破損を低減するための方法および装置
US7406303B2 (en) Multi-sensory speech enhancement using synthesized sensor signal
JP2011158918A (ja) クリーン信号確率変数の推定値を識別する方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090604

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090604

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120206

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120403

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120410

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4975025

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150420

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250