JP2006087082A - 多感覚音声強調のための方法および装置 - Google Patents

多感覚音声強調のための方法および装置 Download PDF

Info

Publication number
JP2006087082A
JP2006087082A JP2005231246A JP2005231246A JP2006087082A JP 2006087082 A JP2006087082 A JP 2006087082A JP 2005231246 A JP2005231246 A JP 2005231246A JP 2005231246 A JP2005231246 A JP 2005231246A JP 2006087082 A JP2006087082 A JP 2006087082A
Authority
JP
Japan
Prior art keywords
channel response
speech
signal
value
alternative sensor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005231246A
Other languages
English (en)
Other versions
JP4842583B2 (ja
JP2006087082A5 (ja
Inventor
Alejandro Acero
アセロ アレハンドロ
James G Droppo
ジー.ドロッポ ジェイムズ
Xuedong David Huang
デイビッド ホゥアン シュエドン
Zhengyou Zhang
チェンヨウ チャン
Zicheng Liu
ヅーチェン リュウ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2006087082A publication Critical patent/JP2006087082A/ja
Publication of JP2006087082A5 publication Critical patent/JP2006087082A5/ja
Application granted granted Critical
Publication of JP4842583B2 publication Critical patent/JP4842583B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2460/00Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
    • H04R2460/13Hearing devices using bone conduction transducers

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Machine Translation (AREA)

Abstract

【課題】 別の話者の話声など、付加雑音による話声信号の汚れ(corruption)を検出し、かつ/または補正する方法および装置を提供する。
【解決手段】 本発明にかかる方法および装置は、代替センサ信号と気導マイクロフォン信号を使用して、代替センサについてチャネル応答を決定する。次いで、このチャネル応答を使用し、代替センサ信号の少なくとも一部分を使用して雑音のない話声値を推定する。
【選択図】 図3

Description

本発明は、雑音低減に関する。詳細には、本発明は、話声信号から雑音を除去することに関する。
音声認識(speech recognition)と音声伝達(speech transmission)における共通問題は、付加雑音による話声信号の汚れ(corruption)である。具体的には、別の話者の話声による汚れは、検出し、かつ/または補正するのが困難であることが実証されている。
最近、骨伝導マイクロフォン(bone conduction microphone)など代替センサと気導マイクロフォン(air conduction microphone)の組合せを使用することによって雑音を除去しようと試みるシステムが開発されている。このシステムは、3つのトレーニングチャネル、すなわち、雑音の多い代替センサトレーニング信号、雑音の多い気導マイクロフォントレーニング信号、雑音のない(clean)気導マイクロフォントレーニング信号を使用してトレーニングされる。それぞれの信号は、特徴領域(feature domain)に変換される。雑音の多い代替センサ信号と、雑音の多い気導マイクロフォン信号についての特徴は、雑音の多い信号を表す単一のベクトルに組み合わされる。雑音のない気導マイクロフォン信号についての特徴は、単一の雑音のないベクトルを形成する。次いで、これらのベクトルは、雑音の多いベクトルと雑音のないベクトルの間のマッピングをトレーニングするために使用される。マッピングは、トレーニングされた後で、雑音の多い代替センサテスト信号と雑音の多い気導マイクロフォンテスト信号の組合せから形成された雑音の多いベクトルに適用される。このマッピングは、雑音のないベクトルを生成する。
このシステムは、テスト信号の雑音条件がトレーニング信号の雑音条件と合致しないとき最適に及ばない。というのは、マッピングが、トレーニング信号の雑音条件に合わせて設計されるからである。
本方法および装置は、代替センサ信号と気導マイクロフォン信号を使用して、代替センサについてチャネル応答を決定する。次いで、このチャネル応答を使用し、代替センサ信号の少なくとも一部分を使用して雑音のない話声値を推定する。
図1は、本発明を実施することができる好適なコンピューティングシステム環境100の一例を示す。コンピューティングシステム環境100は、好適なコンピューティング環境の一例にすぎず、本発明の使用または機能の範囲についてどんな制限も暗示しないものとする。また、コンピューティング環境100は、例示的な動作環境100に示されている構成要素のいずれか1つ、またはその組合せに関してどんな依存性も要件も有すると解釈すべきでない。
本発明は、多数の他の汎用または専用コンピューティングシステム環境または構成と共に動作可能である。本発明と共に使用するのに適している可能性のある周知のコンピューティングシステム、環境、および/または構成の例には、それだけには限らないが、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドデバイスまたはラップトップデバイス、マルチプロセッサシステム、マイクロプロセッサをベースとするシステム、セットトップボックス、プログラム可能な家電、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、テレフォニシステム、上記のシステムまたはデバイスのいずれかを含む分散コンピューティング環境などが含まれる。
本発明について、コンピュータによって実行される、プログラムモジュールなどコンピュータ実行可能命令の一般的な状況で述べる。一般に、プログラムモジュールは、特定のタスクを実行する、または特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含む。本発明はまた、通信ネットワークを介してリンクされた遠隔処理デバイスによってタスクが実行される分散コンピューティング環境内で実施されるように設計される。分散コンピューティング環境では、プログラムモジュールは、メモリ記憶装置を含むローカルと遠隔双方のコンピュータ記憶媒体内に位置する。
図1を参照すると、本発明を実施するための例示的なシステムが、コンピュータ110の形態で汎用コンピューティングデバイスを含んでいる。コンピュータ110の構成要素には、それだけには限らないが、処理装置120、システムメモリ130、およびシステムメモリを含む様々なシステム構成要素を処理装置120に結合するシステムバス121が含まれる。システムバス121は、メモリバスまたはメモリコントローラ、周辺機器バス、および様々なバスアーキテクチャのいずれかを使用するローカルバスを含むいくつかのタイプのバス構造のいずれかとすることができる。限定ではなく例を挙げると、そのようなアーキテクチャには、ISA(Industry Standard Architecture)バス、MCA(Micro Channel Architecture)バス、EISA(Enhanced ISA)バス、VESA(Video Electronics Standards Association)ローカルバス、および、メザニンバスとしても知られるPCI(Peripheral Component Interconnect)バスが含まれる。
コンピュータ110は、一般に、様々なコンピュータ可読媒体を含む。コンピュータ可読媒体は、コンピュータ110によってアクセスすることができる任意の入手可能な媒体とすることができ、揮発性媒体と不揮発性媒体、取外し式媒体と非取外し式媒体を共に含む。限定ではなく例を挙げると、コンピュータ可読媒体は、コンピュータ記憶媒体と通信媒体を含む。コンピュータ記憶媒体には、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータなど、情報を記憶するための任意の方法または技術で実施される揮発性と不揮発性、取外し式と非取外し式の媒体が共に含まれる。コンピュータ記憶媒体には、それだけには限らないが、RAM、ROM、EEPROM、フラッシュメモリもしくは他のメモリ技術、CD−ROM、デジタル多用途ディスク(DVD)もしくは他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージもしくは他の磁気記憶装置、または、所望の情報を記憶するために使用することができ、コンピュータ110によってアクセスすることができる他の任意の媒体が含まれる。通信媒体は、一般に、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータを、搬送波または他の移送機構など変調データ信号に統合し、任意の情報送達媒体を含む。「変調データ信号」という用語は、情報を信号に符号化するようにその特性の1つまたは複数が設定された、または変化した信号を意味する。限定ではなく例を挙げると、通信媒体は、有線ネットワークまたは直接配線接続など有線媒体と、音響、RF、赤外線および他の無線媒体など無線媒体とを含む。上記のいずれかの組合せもまた、コンピュータ可読媒体の範囲内に含むべきである。
システムメモリ130は、読出し専用メモリ(ROM)131およびランダムアクセスメモリ(RAM)132など揮発性および/または不揮発性メモリの形態でコンピュータ記憶媒体を含む。起動中などにコンピュータ110内の要素間で情報を転送するのを助ける基本ルーチンを含む基本入出力システム(BIOS)133は、一般にROM131内に記憶される。一般にRAM132は、処理装置120によって直ちにアクセス可能な、かつ/または現在働きかけられているデータおよび/またはプログラムモジュールを含む。限定ではなく例を挙げると、図1は、オペレーティングシステム134、アプリケーションプログラム135、他のプログラムモジュール136、プログラムデータ137を示す。
コンピュータ110はまた、他の取外し式/非取外し式、揮発性/不揮発性コンピュータ記憶媒体を含むことができる。例示にすぎないが、図1は、非取外し式の不揮発性磁気媒体との間で読出しまたは書込みをするハードディスクドライブ141、取外し式の不揮発性磁気ディスク152との間で読出しまたは書込みをする磁気ディスクドライブ151、CD ROMまたは他の光媒体など取外し式の不揮発性光ディスク156との間で読出しまたは書込みをする光ディスクドライブ155を示す。例示的な動作環境内で使用することができる他の取外し式/非取外し式、揮発性/不揮発性コンピュータ記憶媒体には、それだけには限らないが、磁気テープカセット、フラッシュメモリカード、デジタル多用途ディスク、デジタルビデオテープ、固体RAM、固体ROMなどが含まれる。一般にハードディスクドライブ141は、インターフェース140など非取外し式メモリインターフェースを介してシステムバス121に接続され、磁気ディスクドライブ151および光ディスクドライブ155は、一般に、インターフェース150など取外し式メモリインターフェースによってシステムバス121に接続される。
上記で論じ、図1に示されているドライブとその関連コンピュータ記憶媒体は、コンピュータ110のために、コンピュータ可読命令、データ構造、プログラムモジュール、および他のデータを記憶する。たとえば、図1では、ハードディスクドライブ141が、オペレーティングシステム144、アプリケーションプログラム145、他のプログラムモジュール146、プログラムデータ147を記憶して示されている。これらの構成要素は、オペレーティングシステム134、アプリケーションプログラム135、他のプログラムモジュール136、プログラムデータ137と同じとすることも異なるものとすることもできることに留意されたい。ここでは、オペレーティングシステム144、アプリケーションプログラム145、他のプログラムモジュール146、プログラムデータ147は、これらが最低でも異なるコピーであることを示すために異なる番号が与えられている。
ユーザは、キーボード162、マイクロフォン163、および、マウス、トラックボール、またはタッチパッドなどポインティングデバイス161など、入力デバイスを介してコンピュータ110にコマンドおよび情報を入力することができる。他の入力デバイス(図示せず)には、ジョイスティック、ゲームパッド、衛星パラボラアンテナ、スキャナなどが含まれる。これらの、また他の入力デバイスは、しばしば、システムバスに結合されるユーザ入力インターフェース160を介して処理装置120に接続されるが、パラレルポート、ゲームポート、またはユニバーサルシリアルバス(USB)など、他のインターフェースおよびバス構造によって接続することができる。モニタ191または他のタイプのディスプレイデバイスもまた、ビデオインターフェース190など、インターフェースを介してシステムバス121に接続される。コンピュータはまた、モニタに加えて、スピーカ197やプリンタ196など他の周辺出力デバイスをも含むことができ、これらは、出力周辺機器インターフェース195を介して接続することができる。
コンピュータ110は、遠隔コンピュータ180など、1つまたは複数の遠隔コンピュータに対する論理接続を使用してネットワーク環境内で動作する。遠隔コンピュータ180は、パーソナルコンピュータ、ハンドヘルドデバイス、サーバ、ルータ、ネットワークPC、ピアデバイスまたは他の共通ネットワークノードとすることができ、一般に、コンピュータ110に関して上述した要素の多数または全部を含む。図1に示されている論理接続は、ローカルエリアネットワーク(LAN)171と広域ネットワーク(WAN)173を含むが、他のネットワークを含むこともできる。そのようなネットワーク環境は、事務所、全社コンピュータネットワーク、イントラネット、インターネットで普通である。
コンピュータ110は、LANネットワーク環境内で使用されるとき、ネットワークインターフェースまたはアダプタ170を介してLAN171に接続される。コンピュータ110は一般に、WANネットワーク環境内で使用されるとき、インターネットなどWAN173を介して通信を確立するためのモデム172または他の手段を含む。モデム172は、内部にあっても外部にあってもよく、ユーザ入力インターフェース160または他の適切な機構を介してシステムバス121に接続することができる。ネットワーク環境では、コンピュータ110に関して示されているプログラムモジュール、またはその一部分を、遠隔メモリ記憶装置内に記憶することができる。限定ではなく例を挙げると、図1は、遠隔コンピュータ180に常駐する遠隔アプリケーションプログラム185を示す。図のネットワーク接続は例示的なものであり、コンピュータ間で通信リンクを確立する他の手段を使用することができることを理解されたい。
図2は、例示的なコンピューティング環境であるモバイルデバイス200のブロック図である。モバイルデバイス200は、マイクロプロセッサ202と、メモリ204と、入出力(I/O)構成要素206と、遠隔コンピュータまたは他のモバイルデバイスと通信するための通信インターフェース208とを含む。一実施形態では、前述の構成要素は、好適なバス210を介して互いに通信するために結合される。
メモリ204は、モバイルデバイス200に対する一般電源がシャットダウンされたときメモリ204内に記憶された情報が失われないように、バッテリバックアップモジュール(図示せず)を有するランダムアクセスメモリ(RAM)など不揮発性電子メモリとして実施される。メモリ204の一部分は、プログラム実行のためにアドレス可能なメモリとして割り振られることが好ましく、一方、メモリ204の別の部分は、ディスクドライブ上のストレージをシミュレーションするためなど、記憶のために使用されることが好ましい。
メモリ204は、オペレーティングシステム212、アプリケーションプログラム214、ならびにオブジェクトストア216を含む。動作中には、オペレーティングシステム212は、プロセッサ202によってメモリ204から実行されることが好ましい。好ましい一実施形態では、オペレーティングシステム212は、Microsoft Corporationより市販されているWINDOWS(登録商標) CEブランドのオペレーティングシステムである。オペレーティングシステム212は、モバイルデバイス用に設計されていることが好ましく、エクスポーズされた1組のアプリケーションプログラミングインターフェースおよびメソッドを介してアプリケーション214に使用させることができるデータベース機能を実装する。オブジェクトストア216内のオブジェクトは、少なくとも一部には、エクスポーズされたアプリケーションプログラミングインターフェースおよびメソッドに対する呼出しに応答して、アプリケーション214およびオペレーティングシステム212によって維持される。
通信インターフェース208は、モバイルデバイス200で情報を送受信することが可能になる多数のデバイスおよび技術を表す。このデバイスは、少し例を挙げると、有線モデムおよび無線モデム、衛星受信機、ならびに放送チューナを含む。モバイルデバイス200はまた、コンピュータに直接接続し、コンピュータとデータを交換することができる。そのような場合には、通信インターフェース208は、赤外線トランシーバ、またはシリアルもしくはパラレル通信接続とすることができ、それらはすべて、ストリーミング情報を送信することが可能である。
入出力構成要素206は、タッチスクリーン、ボタン、ローラ、マイクロフォンなど様々な入力デバイスと、オーディオジェネレータ、振動デバイス、ディスプレイなど様々な出力デバイスとを含む。上記のデバイスは例としてのものであり、全部がモバイルデバイス200上にあるには及ばない。さらに、本発明の範囲内で、他の入出力デバイスをモバイルデバイス200に取り付ける、あるいはモバイルデバイス200と共に見出すことができる。
図3は、本発明の諸実施形態の基本的なブロック図を提供する。図3では、話者300は、気導マイクロフォン304および代替センサ306によって検出される話声信号302(X)を生成する。代替センサの例には、ユーザの咽喉振動を測定する咽喉マイクロフォン、ユーザの(下顎骨など)顔面骨もしくは頭蓋骨上に、またはそれらに隣接して、あるいはユーザの耳内に位置し、ユーザによって生成される話声に対応する頭骨および顎の振動を検知する骨伝導センサが含まれる。気導マイクロフォン304は、可聴周波の空気波(audio air−wave)を電気信号に変換するために一般に使用されるタイプのマイクロフォンである。
気導マイクロフォン304はまた、1つまたは複数の雑音源310によって生成される周囲雑音(ambient noise)308(U)と、背景話者314によって生成される背景話声(background speech)312(V)とを受け取る。代替センサのタイプと背景話声のレベルに応じて、背景話声312をも代替センサ306によって検出することができる。しかし、本発明の諸実施形態によれば、代替センサ306は一般に、気導マイクロフォン304より周囲雑音および背景話声に対して感度が低い。したがって、代替センサ306によって生成された代替センサ信号316(B)は、気導マイクロフォン304によって生成された気導マイクロフォン信号318(Y)より少ない雑音を含む。代替センサ306は、周囲雑音に対して感度が低いが、何らかのセンサ雑音320(W)を生成する。
話者300から代替センサ信号316への経路は、チャネル応答Hを有するチャネルとしてモデル化することができる。背景話者314から代替センサ信号316への経路は、チャネル応答Gを有するチャネルとしてモデル化することができる。
代替センサ信号316(B)と気導マイクロフォン信号318(Y)は、雑音のない信号推定器322に送られ、雑音のない信号推定器322は、雑音のない信号324を推定し、いくつかの実施形態では、背景話声信号326を推定する。雑音のない信号推定値324は、音声処理328に送られる。雑音のない信号推定値324は、フィルタされた時間領域信号またはフーリエ変換ベクトルとすることができる。雑音のない信号推定値324が時間領域信号である場合、音声処理328は、聞き手、音声符号化システム、または音声認識システムの形態をとることができる。雑音のない信号推定値324がフーリエ変換ベクトルである場合、音声処理328は、典型的には音声認識システムとなり、フーリエ変換ベクトルを波形に変換するために逆フーリエ変換を含む。
直接フィルタリング強調322内で、代替センサ信号316とマイクロフォン信号318は、雑音のない話声を推定するために使用される周波数領域に変換される。図4に示されているように、代替センサ信号316と気導マイクロフォン信号318は、一連のデジタル値を生成するために、それぞれアナログ−デジタル変換器404および414に送られ、一連のデジタル値は、それぞれフレームコンストラクタ406および416によって、値のフレームの形にグループ化される。一実施形態では、アナログ−デジタル変換器404および414は、アナログ信号を1サンプル当たり16kHz、16ビットでサンプリングし、それによって、1秒当たり話声データ32キロバイトを生み出し、フレームコンストラクタ406および416は、20ミリ秒相当のデータを含む新しいそれぞれのフレームを10ミリ秒ごとに生み出す。
フレームコンストラクタ406および416によって提供されたデータの各それぞれのフレームは、それぞれ高速フーリエ変換(FFT)408および418を使用して、周波数領域に変換される。
代替センサ信号および気導マイクロフォン信号についての周波数領域値は、雑音のない信号推定器420に送られ、雑音のない信号推定器420は、この周波数領域値を使用し、雑音のない話声信号324を、またいくつかの実施形態では背景話声信号326を推定する。
いくつかの実施形態によれば、雑音のない話声信号324と背景話声信号326は、逆高速フーリエ変換422および424を使用して、時間領域に変換される。これにより、雑音のない話声信号324と背景話声信号326の時間領域バージョンが生み出される。
本発明は、雑音のない話声信号324を推定するための直接フィルタリング技法を提供する。直接フィルタリングによれば、代替センサ306についてのチャネル応答の最尤推定値が、関数をチャネル応答に対して最小化することによって決定される。次いで、これらの推定値は、関数を雑音のない話声信号に対して最小化することによって、雑音のない話声信号の最尤推定値を決定するために使用される。
本発明の一実施形態によれば、代替センサによって検出される背景話声に対応するチャネル応答Gは、ゼロであると考えられ、背景話声と周囲雑音が組み合わされ、単一の雑音項を形成する。これは、
y(t)=x(t)+z(t) 式1
b(t)=h(t)・x(t)+w(t) 式2
という雑音のない話声信号と、気導マイクロフォン信号および代替センサ信号との間のモデルとなり、上式で、y(t)は気導マイクロフォン信号であり、b(t)は代替センサ信号であり、x(t)は雑音のない話声信号であり、z(t)は背景話声と周囲雑音を含む組合せ雑音信号であり、w(t)は代替センサ雑音であり、h(t)は、代替センサに関連する雑音のない話声信号に対するチャネル応答である。したがって、式2では、代替センサ信号は、雑音のない話声信号のフィルタされたバージョンとしてモデル化され、フィルタは、h(t)のインパルス応答を有する。
周波数領域では、式1および式2は、
(k)=X(k)+Z(k) 式3
(k)=H(k)X(k)+W(k) 式4
として表すことができ、上式で、Y(k)は、時間tを中心とする信号のフレームのk番目の周波数成分を表す。この表記法は、X(k)、Z(k)、H(k)、W(k)、B(k)にも適用される。以下の考察では、見やすくするために、周波数成分kに対する参照が省略される。しかし、以下で実施される計算は周波数成分ごとに実施されることを、当業者なら理解するであろう。
この実施形態によれば、雑音ZおよびWの実数部および虚数部は、
Figure 2006087082
Figure 2006087082
のような独立ゼロ平均ガウス分布としてモデル化され、上式で、
Figure 2006087082
は、雑音Zについての分散であり、
Figure 2006087082
は、雑音Wについての分散である。
もまた、
Figure 2006087082
のようなガウス分布としてモデル化され、上式で、Hはチャネル応答の平均であり、
Figure 2006087082
は、チャネル応答の分散である。
これらのモデルパラメータが与えられると、雑音のない話声値X、およびチャネル応答値Hの確率は、条件付き確率、すなわち
Figure 2006087082
によって説明され、上式は、
Figure 2006087082
に比例し、上式は、
Figure 2006087082
に等しい。
一実施形態では、チャネル応答についての従来の(prior)確率
Figure 2006087082
および、雑音のない話声信号についての従来の確率、p(X)は無視され、残りの確率がガウス分布として処理される。これらの簡約を使用して、式10は、
Figure 2006087082
になる。
したがって、発話についてのH、Xの最尤推定値は、その発話内の時間フレームTすべてにわたって式11の指数項を最小化することによって決定される。したがって、最尤推定値は、
Figure 2006087082
を最小化することによって与えられる。
式12は、2つの変数X、Hに関して最小化されつつあるため、各変数に関する偏微分を取り、その関数を最小化するその変数の値を決定することができる。具体的には、
Figure 2006087082
により、
Figure 2006087082
が得られ、上式で、
Figure 2006087082
は、Hの複素共役を表し、|H|は、複素値Hの大きさを表す。Xのこの値を式12に代入し、偏微分
Figure 2006087082
を設定し、次いで、Hは時間フレームTすべてにわたって一定であると仮定すると、
Figure 2006087082
というHの解が得られる。
式14では、Hの推定は、
Figure 2006087082
の形態で、最後のTフレーム全体にわたっていくつかの総和を計算することを必要とする。ただし、上式でs
Figure 2006087082
または
Figure 2006087082
である。
この式の場合、最初のフレーム(t=1)は、最後のフレーム(t=T)と同じくらい重要である。しかし、他の実施形態では、古いフレームより最新のフレームの方がHの推定に、より多く貢献することが好ましい。これを達成するための1つの技法は、「指数エージング(exponential aging)」であり、式15の総和は、
Figure 2006087082
で置き換えられる。ただし、上式ではc≦1である。c=1の場合には、式16は式15と等しい。c<1の場合には、最後のフレームが1だけ加重され、最後の直前のフレームがcだけ加重され(すなわち、最後のフレームより貢献が少なくなる)、最初のフレームは、cT−1だけ加重される(すなわち、最後のフレームより著しく貢献が少なくなる)。一例を挙げてみる。c=0.99、T=100とすると、最初のフレームに対する重みは、0.9999=0.37だけになる。
一実施形態によれば、式16は、
S(T)=cS’(T−1)+s 式17
として帰納的に推定される。
式17は、自動的に古いデータの加重を少なくするため、固定されたウィンドウ長を使用することが必要とされず、最後のTフレームのデータをメモリに記憶することが必要とされない。その代わりに、先のフレーム部でのS(T−1)についての値だけ記憶することが必要とされる。
式17を使用して、式14は、
Figure 2006087082
となる。ただし、
Figure 2006087082
式19および式20におけるcの値は、J(T)およびK(T)の現在の値を計算するために使用される過去のフレームの数について有効長を提供する。具体的には、この有効長は、
Figure 2006087082
によって得られる。
漸近有効長は、
Figure 2006087082
または、等価的には、
Figure 2006087082
によって得られる。
したがって、式23を使用して、式18における様々な有効長を達成するためにcを設定することができる。たとえば、200フレームの有効長を達成するために、
Figure 2006087082
としてcが設定される。
式14を使用してHが推定された後で、式13のすべてのHの代わりにそれを使用し、各時間フレームtでXの別個の値を決定することができる。別法として、式18を使用し、各時間フレームtでHを推定することができる。次いで、各フレームのHの値は、Xを決定するために式13で使用される。
図5は、式13および式14を使用し、発話について雑音のない話声値を推定する本発明の方法の流れ図を提供する。
ステップ500で、気導マイクロフォン信号および代替センサ信号のフレームの周波数成分が、発話全体にわたって取り込まれる。
ステップ502で、気導マイクロフォン雑音についての分散
Figure 2006087082
および、代替センサ雑音についての分散
Figure 2006087082
が、それぞれ、話者が話をしていない間に、発話の所期に取り込まれる気導マイクロフォン信号と代替センサ信号のフレームから決定される。
この方法は、代替センサ信号の低エネルギー部分を識別することによって、いつ話者が話をしていないか判定する。というのは、代替センサ雑音のエネルギーは、代替センサ信号によって取り込まれる話声信号よりはるかに小さいからである。他の諸実施形態では、既知の話声検出技法を気導話声信号に適用し、話者がいつ話をしているか識別することができる。話者が話をしていると考えられない間、Xはゼロであると仮定され、気導マイクロフォンまたは代替センサからのどの信号も雑音であると考えられる。これらの雑音値のサンプルが非話声のフレームから収集され、気導信号および代替センサ信号内の雑音の分散を推定するために使用される。
ステップ504で、発話のフレームすべてにわたる代替センサ信号および気導マイクロフォン信号についての値を使用し、上記の式14を使用してHの値を決定する。ステップ506で、Hのこの値を、各時間フレームでの気導マイクロフォン信号および代替センサ信号の個々の値と共に使用し、上記の式13を使用して、各時間フレームについて強調された、または雑音低減された話声値を決定する。
他の諸実施形態では、式14を使用してHの単一の値を決定するために発話のフレームすべてを使用するのではなく、式18を使用して、各フレームについてHが決定される。次いで、Hの値を使用し、上記の式13を使用して、そのフレームについてXを計算する。
本発明の第2の実施形態では、背景話声に対する代替センサのチャネル応答が非ゼロであると考えられる。この実施形態では、気導マイクロフォン信号と代替センサ信号は、
(k)=X(k)+V(k)+U(k) 式25
(k)=H(k)X(k)+G(k)V(k)+W(k) 式26
としてモデル化され、上式で、雑音Z(k)は、背景話声V(k)と周囲雑音U(k)に分離されており、背景話声に対する代替センサチャネル応答は、G(k)の非ゼロ値である。
この実施形態によれば、雑音のない話声Xの従来の知識は、引き続き無視される。このように仮定して、雑音のない話声Xについての最尤度は、目的関数、すなわち
Figure 2006087082
を最小化することによって見出すことができる。
これは、
Figure 2006087082
という雑音のない話声についての式となる。
式28を解くために、分散
Figure 2006087082
および
Figure 2006087082
ならびにチャネル応答値HおよびGが既知でなければならない。図6は、これらの値を識別するための、また、各フレームについて、強調された話声値を決定するための流れ図を提供する。
ステップ600で、ユーザが話をしておらず、背景話声のない発話のフレームが識別される。次いで、これらのフレームを使用し、代替センサと気導マイクロフォンについて、それぞれ分散
Figure 2006087082
および
Figure 2006087082
を決定する。
ユーザが話をしていないフレームを識別するために、代替センサ信号を調べることができる。代替センサ信号は、背景話声について、雑音についてよりはるかに小さい信号値を生成することになるため、代替センサ信号のエネルギーが低い場合、話者が話をしていないと仮定することができる。代替信号に基づいて識別されたフレーム内で、話声検出アルゴリズムを気導マイクロフォン信号に適用することができる。この話声検出システムは、ユーザが話をしていないとき気導マイクロフォン信号内に背景話声があるかどうか検出することになる。そのような話声検出アルゴリズムは当技術分野で周知であり、ピッチ追跡システムなど諸システムを含む。
気導マイクロフォンおよび代替センサに関連する雑音についての分散が決定された後で、図6の方法はステップ602で続行し、ユーザは話をしていないが背景話声が存在するフレームを識別する。これらのフレームは、上述した同じ技法を使用して、しかしユーザが話をしていないとき背景話声を含むフレームを選択して識別される。ユーザが話をしていないとき背景話声を含むフレームの場合、背景話声が周囲雑音よりはるかに大きいと仮定される。したがって、それらのフレーム中の気導マイクロフォン信号におけるどの分散も、背景話声からのものであると考えられる。その結果、分散
Figure 2006087082
は、ユーザは話をしていないが背景話声が存在するフレーム中の気導マイクロフォン信号の値から、直接設定することができる。
ステップ604で、識別された、ユーザは話をしていないが背景話声が存在するフレームを使用し、背景話声について代替センサのチャネル応答Gを推定する。具体的には、Gは、
Figure 2006087082
として決定される。
上式で、Dは、ユーザは話をしていないが背景話声が存在するフレームの数である。式29では、Gは、発話のフレームすべてにわたって一定のままであり、したがって、もはや時間フレームtに依存しないと仮定される。
ステップ606で、背景話声に対する代替センサのチャネル応答Gの値を使用し、雑音のない話声信号に対する代替センサのチャネル応答を決定する。具体的には、Hは、
Figure 2006087082
として計算される。
式30では、T全体にわたる総和を、式15〜24に関連して上記で論じた帰納的指数減衰計算(recursive exponential decay calculation)と置き換えることができる。
ステップ606でHが決定された後で、式28を使用し、フレームすべてについて雑音のない話声値を決定することができる。式28を使用する際に、HおよびGが、それぞれ時間非依存性の値HおよびGと置き換えられる。さらに、いくつかの実施形態によれば、式28における項B−GYは、
Figure 2006087082
と置き換えられる。というのは、背景話声と、代替センサ内へのその漏れとの位相差を正確に決定することは困難であることが判明しているからである。
式30における総和の代わりに帰納的指数減衰計算が使用される場合、各時間フレームについてHの別々の値を決定することができ、式28においてHとして使用することができる。
上記の実施形態のさらなる延長では、各時間フレームで背景話声信号の推定値を提供することが可能である。具体的には、雑音のない話声値が決定された後で、各フレームでの背景話声値を、
Figure 2006087082
として決定することができる。
この任意選択のステップは、図6ではステップ610として示されている。
上記の諸実施形態では、雑音のない話声信号に対する代替センサのチャネル応答の従来の知識は無視されている。他の実施形態では、この従来の知識が提供されている場合には、それを使用し、各時間フレームでのチャネル応答の推定値Hを生成する、また、雑音のない話声値Xを決定することができる。
この実施形態では、この場合も、背景話声雑音に対するチャネル応答がゼロと仮定される。したがって、気導信号および代替センサ信号のモデルは、上記の式3および式4に示されているモデルと同じである。各時間フレームで雑音のない話声値およびチャネル応答Hを推定するための式は、目的関数、すなわち
Figure 2006087082
を最小化することによって決定される。この目的関数は、XおよびHに関して、これら2つの変数に対して別々に偏微分を取り、その結果をゼロに設定することによって最小化される。これにより、XおよびHについて以下の式、すなわち
Figure 2006087082
が得られる。ただし、上式でHおよび
Figure 2006087082
は、それぞれ、雑音のない話声信号に対する代替センサのチャネル応答のための従来のモデルの平均および分散である。Xについての式はHを含み、Hについての式はXを含むため、式33および式34は、反復する形で解かなければならない。式7は、そのような反復を行うための流れ図を提供する。
図7のステップ700では、チャネル応答用の従来のモデルのためのパラメータが決定される。ステップ702で、Xの推定値が決定される。この推定値は、チャネル応答の従来のモデルが無視された、上述の以前の実施形態のいずれかを使用して決定することができる。ステップ704で、従来のモデルのパラメータと、Xの初期推定値とを使用し、式34を使用してHを決定する。次いで、ステップ706で、Hを使用し、式33を使用して雑音のない話声値を更新する。ステップ708で、プロセスは、より多くの反復が望ましいかどうか決定する。より多くの反復が望ましい場合、プロセスはステップ704に戻り、ステップ706で決定された、更新済みのXの値を使用して、Hの値を更新する。ステップ704とステップ706は、ステップ708で、それ以上反復が望まれなくなるまで繰り返され、この時点で、プロセスは、ステップ710で終了する。
本発明について、特定の実施形態を参照しながら述べたが、本発明の要旨および範囲から逸脱することなしに形態および詳細に変更を加えることができることを、当業者なら理解するであろう。
本発明を実施することができるコンピューティング環境の1つのブロック図である。 本発明を実施することができる代替のコンピューティング環境のブロック図である。 本発明の全体的な音声処理システムのブロック図である。 本発明の一実施形態による、話声を強調するためのシステムのブロック図である。 本発明の一実施形態による、話声を強調するための流れ図である。 本発明の他の実施形態による、話声を強調するための流れ図である。 本発明の他の実施形態による、話声を強調するための流れ図である。
符号の説明
300 話者
304 気導マイクロフォン
306 代替センサ
310 周囲雑音U
314 背景話者
320 センサ雑音W
322 直接フィルタリング強調
328 音声処理

Claims (26)

  1. 雑音が低減された話声信号の一部分を表す雑音低減値についての推定値を決定する方法であって、
    気導マイクロフォン以外の代替センサを使用して、代替センサ信号を生成するステップと、
    気導マイクロフォン信号を生成するステップと、
    前記代替センサ信号と前記気導マイクロフォン信号を使用し、前記代替センサ信号のチャネル応答についての値を推定するステップと、
    前記チャネル応答を使用し、前記雑音低減値を推定するステップとを含むことを特徴とする方法。
  2. チャネル応答についての値を推定するステップは、目的関数の末端を見つけるステップを含むことを特徴とする請求項1に記載の方法。
  3. チャネル応答を推定するステップは、前記チャネル応答と重畳され、その結果が雑音項と合計された、雑音のない話声信号として前記代替センサ信号をモデル化するステップを含むことを特徴とする請求項1に記載の方法。
  4. 前記チャネル応答は、雑音のない話声信号に対するチャネル応答を含むことを特徴とする請求項1に記載の方法。
  5. 背景話声信号に対する代替センサのチャネル応答を決定するステップをさらに含むことを特徴とする請求項4に記載の方法。
  6. 前記チャネル応答を使用し、前記雑音低減値を推定するステップは、前記雑音のない話声信号に対する前記チャネル応答と、前記背景話声信号に対する前記チャネル応答とを使用し、前記雑音低減値を推定するステップを含むことを特徴とする請求項5に記載の方法。
  7. 前記雑音低減値の前記推定値を使用し、背景話声信号についての値を推定するステップをさらに含むことを特徴とする請求項1に記載の方法。
  8. チャネル応答についての値を推定するステップは、前記代替センサ信号および前記気導マイクロフォン信号の一連のフレームを使用し、前記一連のフレーム内の前記フレームについて単一のチャネル応答値を推定するステップを含むことを特徴とする請求項1に記載の方法。
  9. 前記チャネル応答を使用し、雑音低減値を推定するステップは、前記一連のフレーム内の各フレームについて別々の雑音低減値を推定するステップを含むことを特徴とする請求項8に記載の方法。
  10. チャネル応答についての値を推定するステップは、現在のフレーム内の前記代替センサ信号および前記気導マイクロフォン信号についての値を、先のフレーム内の前記代替センサ信号および前記気導マイクロフォン信号についての値より重く加重することによって、前記現在のフレームについての前記値を推定するステップを含むことを特徴とする請求項1に記載の方法。
  11. 代替センサ信号と気導マイクロフォン信号を使用して、代替センサについてのチャネル応答を決定するステップと、
    前記チャネル応答を使用し、前記代替センサ信号の少なくとも一部分を使用して雑音のない話声値を推定するステップと
    を含むステップを実施するためのコンピュータ実行可能命令を有することを特徴とするコンピュータ可読媒体。
  12. チャネル応答を決定するステップは、前記代替センサ信号および前記気導マイクロフォン信号の一連のフレームについて単一のチャネル応答を決定するステップを含むことを特徴とする請求項11に記載のコンピュータ可読媒体。
  13. 前記チャネル応答は、雑音のない話声信号に対するチャネル応答を含むことを特徴とする請求項11に記載のコンピュータ可読媒体。
  14. 背景話声信号に対するチャネル応答を決定するステップをさらに含むことを特徴とする請求項13に記載のコンピュータ可読媒体。
  15. 前記雑音のない話声信号に対する前記チャネル応答と共に前記背景話声信号に対する前記チャネル応答を使用し、前記雑音のない話声値を推定するステップをさらに含むことを特徴とする請求項14に記載のコンピュータ可読媒体。
  16. 前記雑音のない話声値を使用し、背景話声値を推定するステップをさらに含むことを特徴とする請求項11に記載のコンピュータ可読媒体。
  17. 雑音のない話声信号を識別する方法であって、
    代替センサ信号内の雑音を説明する雑音パラメータを推定するステップと、
    前記雑音パラメータを使用し、代替センサについてチャネル応答を推定するステップと、
    前記チャネル応答を使用し、前記雑音のない話声信号についての値を推定するステップとを含むことを特徴とする方法。
  18. 雑音パラメータを推定するステップは、前記代替センサ信号を使用し、ユーザが話をしていない期間を識別するステップを含むことを特徴とする請求項17に記載の方法。
  19. 前記ユーザが話をしていない前記期間に関連する気導マイクロフォン信号の一部分に対して話声検出を実施し、非話声期間および背景話声期間を識別するステップをさらに含むことを特徴とする請求項18に記載の方法。
  20. 前記非話声期間に関連する前記代替センサ信号の一部分を使用し、前記雑音パラメータを推定するステップをさらに含むことを特徴とする請求項19に記載の方法。
  21. 前記非話声期間を使用し、前記気導マイクロフォン信号内の雑音を説明する雑音パラメータを推定するステップをさらに含むことを特徴とする請求項20に記載の方法。
  22. 前記背景話声期間に関連する前記代替センサ信号の前記一部分を使用し、背景話声に対するチャネル応答を推定するステップをさらに含むことを特徴とする請求項20に記載の方法。
  23. 背景話声に対する前記チャネル応答を使用し、雑音のない話声を推定するステップをさらに含むことを特徴とする請求項22に記載の方法。
  24. 背景話声値の推定値を決定するステップをさらに含むことを特徴とする請求項17に記載の方法。
  25. 背景話声値の推定値を決定するステップは、前記雑音のない話声値の前記推定値を使用し、前記背景話声値を推定するステップを含むことを特徴とする請求項24に記載の方法。
  26. 前記チャネル応答の従来のモデルを使用し、前記雑音のない話声値を推定するステップをさらに含むことを特徴とする請求項17に記載の方法。
JP2005231246A 2004-09-17 2005-08-09 多感覚音声強調のための方法および装置 Expired - Fee Related JP4842583B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/944,235 2004-09-17
US10/944,235 US7574008B2 (en) 2004-09-17 2004-09-17 Method and apparatus for multi-sensory speech enhancement

Publications (3)

Publication Number Publication Date
JP2006087082A true JP2006087082A (ja) 2006-03-30
JP2006087082A5 JP2006087082A5 (ja) 2008-09-25
JP4842583B2 JP4842583B2 (ja) 2011-12-21

Family

ID=35430655

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005231246A Expired - Fee Related JP4842583B2 (ja) 2004-09-17 2005-08-09 多感覚音声強調のための方法および装置

Country Status (11)

Country Link
US (1) US7574008B2 (ja)
EP (1) EP1638084B1 (ja)
JP (1) JP4842583B2 (ja)
KR (1) KR101153093B1 (ja)
CN (1) CN100583243C (ja)
AT (1) ATE448541T1 (ja)
AU (1) AU2005202858A1 (ja)
CA (1) CA2513195C (ja)
DE (1) DE602005017549D1 (ja)
MX (1) MXPA05008740A (ja)
RU (1) RU2389086C2 (ja)

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6675027B1 (en) * 1999-11-22 2004-01-06 Microsoft Corp Personal mobile computing device having antenna microphone for improved speech recognition
US7383181B2 (en) * 2003-07-29 2008-06-03 Microsoft Corporation Multi-sensory speech detection system
US20050033571A1 (en) * 2003-08-07 2005-02-10 Microsoft Corporation Head mounted multi-sensory audio input system
US7447630B2 (en) * 2003-11-26 2008-11-04 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement
US7499686B2 (en) * 2004-02-24 2009-03-03 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement on a mobile device
US7574008B2 (en) 2004-09-17 2009-08-11 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement
US7283850B2 (en) * 2004-10-12 2007-10-16 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement on a mobile device
US7346504B2 (en) * 2005-06-20 2008-03-18 Microsoft Corporation Multi-sensory speech enhancement using a clean speech prior
US7680656B2 (en) * 2005-06-28 2010-03-16 Microsoft Corporation Multi-sensory speech enhancement using a speech-state model
US7406303B2 (en) 2005-07-05 2008-07-29 Microsoft Corporation Multi-sensory speech enhancement using synthesized sensor signal
KR100738332B1 (ko) * 2005-10-28 2007-07-12 한국전자통신연구원 성대신호 인식 장치 및 그 방법
US7930178B2 (en) * 2005-12-23 2011-04-19 Microsoft Corporation Speech modeling and enhancement based on magnitude-normalized spectra
KR100857877B1 (ko) * 2006-09-14 2008-09-17 유메디칼 주식회사 자동차폐가 가능한 순음청력검사장치
US7925502B2 (en) * 2007-03-01 2011-04-12 Microsoft Corporation Pitch model for noise estimation
KR101414412B1 (ko) * 2008-05-09 2014-07-01 노키아 코포레이션 오디오 신호의 인코딩 장치, 오디오 신호의 디코딩 장치, 오디오 신호의 인코딩 방법, 스케일러블 인코딩 오디오 신호의 디코딩 방법, 인코더, 디코더, 전자기기 및 컴퓨터 판독가능한 기록 매체
US9767817B2 (en) * 2008-05-14 2017-09-19 Sony Corporation Adaptively filtering a microphone signal responsive to vibration sensed in a user's face while speaking
US8639499B2 (en) * 2010-07-28 2014-01-28 Motorola Solutions, Inc. Formant aided noise cancellation using multiple microphones
EP2482566B1 (en) * 2011-01-28 2014-07-16 Sony Ericsson Mobile Communications AB Method for generating an audio signal
WO2012145709A2 (en) * 2011-04-20 2012-10-26 Aurenta Inc. A method for encoding multiple microphone signals into a source-separable audio signal for network transmission and an apparatus for directed source separation
US10067093B2 (en) 2013-07-01 2018-09-04 Richard S. Goldhor Decomposing data signals into independent additive terms using reference signals
US10540992B2 (en) 2012-06-29 2020-01-21 Richard S. Goldhor Deflation and decomposition of data signals using reference signals
US10473628B2 (en) * 2012-06-29 2019-11-12 Speech Technology & Applied Research Corporation Signal source separation partially based on non-sensor information
CN103871419B (zh) * 2012-12-11 2017-05-24 联想(北京)有限公司 一种信息处理方法及电子设备
JP6446913B2 (ja) 2014-08-27 2019-01-09 富士通株式会社 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム
DK3374990T3 (da) 2015-11-09 2019-11-04 Nextlink Ipr Ab Fremgangsmåde og system til støjundertrykkelse
CN110070880B (zh) * 2016-01-14 2023-07-28 深圳市韶音科技有限公司 用于分类的联合统计模型的建立方法及应用方法
WO2018083511A1 (zh) * 2016-11-03 2018-05-11 北京金锐德路科技有限公司 一种音频播放装置及方法
US10062373B2 (en) * 2016-11-03 2018-08-28 Bragi GmbH Selective audio isolation from body generated sound system and method
CN106686494A (zh) * 2016-12-27 2017-05-17 广东小天才科技有限公司 一种可穿戴设备的语音输入控制方法及可穿戴设备
GB201713946D0 (en) * 2017-06-16 2017-10-18 Cirrus Logic Int Semiconductor Ltd Earbud speech estimation
CN107910011B (zh) * 2017-12-28 2021-05-04 科大讯飞股份有限公司 一种语音降噪方法、装置、服务器及存储介质
US11854566B2 (en) * 2018-06-21 2023-12-26 Magic Leap, Inc. Wearable system speech processing
WO2020180719A1 (en) 2019-03-01 2020-09-10 Magic Leap, Inc. Determining input for speech processing engine
US11049509B2 (en) 2019-03-06 2021-06-29 Plantronics, Inc. Voice signal enhancement for head-worn audio devices
US11328740B2 (en) 2019-08-07 2022-05-10 Magic Leap, Inc. Voice onset detection
US11917384B2 (en) 2020-03-27 2024-02-27 Magic Leap, Inc. Method of waking a device using spoken voice commands
CN111696564B (zh) * 2020-06-05 2023-08-18 北京搜狗科技发展有限公司 语音处理方法、装置和介质
CN116098608B (zh) * 2021-11-10 2024-09-10 复旦大学 喉部运动信息捕获系统

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08123484A (ja) * 1994-10-28 1996-05-17 Matsushita Electric Ind Co Ltd 信号合成方法および信号合成装置
JPH08223677A (ja) * 1995-02-15 1996-08-30 Nippon Telegr & Teleph Corp <Ntt> 送話器
JPH11242499A (ja) * 1997-08-29 1999-09-07 Toshiba Corp 音声符号化/復号化方法および音声信号の成分分離方法
JPH11265199A (ja) * 1998-03-18 1999-09-28 Nippon Telegr & Teleph Corp <Ntt> 送話器
JP2000261534A (ja) * 1999-03-10 2000-09-22 Nippon Telegr & Teleph Corp <Ntt> 送受話器
JP2001177635A (ja) * 1999-12-15 2001-06-29 Nippon Telegr & Teleph Corp <Ntt> 通話装置
JP2002358089A (ja) * 2001-06-01 2002-12-13 Denso Corp 音声処理装置及び音声処理方法
JP2003514481A (ja) * 1999-10-25 2003-04-15 アンドレア エレクトロニクス コーポレイション 超指向性ビーム形成の設計及び実施
JP2003264883A (ja) * 2002-03-08 2003-09-19 Denso Corp 音声処理装置および音声処理方法
WO2003096031A2 (en) * 2002-03-05 2003-11-20 Aliphcom Voice activity detection (vad) devices and methods for use with noise suppression systems
JP2004004286A (ja) * 2002-05-31 2004-01-08 Meiji Univ 雑音除去システムおよびプログラム

Family Cites Families (98)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3383466A (en) 1964-05-28 1968-05-14 Navy Usa Nonacoustic measures in automatic speech recognition
US3389391A (en) * 1967-05-05 1968-06-18 Miner S Keeler Vehicle identification responder
US3746789A (en) 1971-10-20 1973-07-17 E Alcivar Tissue conduction microphone utilized to activate a voice operated switch
US3787641A (en) 1972-06-05 1974-01-22 Setcom Corp Bone conduction microphone assembly
US4382164A (en) 1980-01-25 1983-05-03 Bell Telephone Laboratories, Incorporated Signal stretcher for envelope generator
JPS62239231A (ja) 1986-04-10 1987-10-20 Kiyarii Rabo:Kk 口唇画像入力による音声認識方法
JPH0755167B2 (ja) 1988-09-21 1995-06-14 松下電器産業株式会社 移動体
JPH03160851A (ja) 1989-11-20 1991-07-10 Fujitsu Ltd 携帯電話機
US5054079A (en) 1990-01-25 1991-10-01 Stanton Magnetics, Inc. Bone conduction microphone with mounting means
US5404577A (en) 1990-07-13 1995-04-04 Cairns & Brother Inc. Combination head-protective helmet & communications system
US5241692A (en) * 1991-02-19 1993-08-31 Motorola, Inc. Interference reduction system for a speech recognition device
US5295193A (en) 1992-01-22 1994-03-15 Hiroshi Ono Device for picking up bone-conducted sound in external auditory meatus and communication device using the same
US5590241A (en) * 1993-04-30 1996-12-31 Motorola Inc. Speech processing system and method for enhancing a speech signal in a noisy environment
US5446789A (en) 1993-11-10 1995-08-29 International Business Machines Corporation Electronic device having antenna for receiving soundwaves
AU684872B2 (en) 1994-03-10 1998-01-08 Cable And Wireless Plc Communication system
US5828768A (en) 1994-05-11 1998-10-27 Noise Cancellation Technologies, Inc. Multimedia personal computer with active noise reduction and piezo speakers
DE69527731T2 (de) 1994-05-18 2003-04-03 Nippon Telegraph & Telephone Co., Tokio/Tokyo Sender-Empfänger mit einem akustischen Wandler vom Ohrpassstück-Typ
JPH08186654A (ja) 1994-12-22 1996-07-16 Internatl Business Mach Corp <Ibm> 携帯端末装置
US5701390A (en) 1995-02-22 1997-12-23 Digital Voice Systems, Inc. Synthesis of MBE-based coded speech using regenerated phase information
US5692059A (en) 1995-02-24 1997-11-25 Kruger; Frederick M. Two active element in-the-ear microphone system
US5555449A (en) 1995-03-07 1996-09-10 Ericsson Inc. Extendible antenna and microphone for portable communication unit
JP3264822B2 (ja) 1995-04-05 2002-03-11 三菱電機株式会社 移動体通信機器
US5651074A (en) 1995-05-11 1997-07-22 Lucent Technologies Inc. Noise canceling gradient microphone assembly
KR960042590A (ko) 1995-05-23 1996-12-21 김광호 테이프 재생용 음량기기에서의 발음비교방법
US5647834A (en) 1995-06-30 1997-07-15 Ron; Samuel Speech-based biofeedback method and system
JP3591068B2 (ja) 1995-06-30 2004-11-17 ソニー株式会社 音声信号の雑音低減方法
JP3674990B2 (ja) 1995-08-21 2005-07-27 セイコーエプソン株式会社 音声認識対話装置および音声認識対話処理方法
JPH09172479A (ja) 1995-12-20 1997-06-30 Yokoi Kikaku:Kk 送受話器およびそれを用いた通話装置
US6006175A (en) 1996-02-06 1999-12-21 The Regents Of The University Of California Methods and apparatus for non-acoustic speech characterization and recognition
US6377919B1 (en) * 1996-02-06 2002-04-23 The Regents Of The University Of California System and method for characterizing voiced excitations of speech and acoustic signals, removing acoustic noise from speech, and synthesizing speech
US6243596B1 (en) 1996-04-10 2001-06-05 Lextron Systems, Inc. Method and apparatus for modifying and integrating a cellular phone with the capability to access and browse the internet
US5943627A (en) 1996-09-12 1999-08-24 Kim; Seong-Soo Mobile cellular phone
JPH10261910A (ja) 1997-01-16 1998-09-29 Sony Corp 携帯無線装置およびアンテナ装置
JP2874679B2 (ja) 1997-01-29 1999-03-24 日本電気株式会社 雑音消去方法及びその装置
JPH10224253A (ja) 1997-02-10 1998-08-21 Sony Corp 携帯通信機
US6308062B1 (en) 1997-03-06 2001-10-23 Ericsson Business Networks Ab Wireless telephony system enabling access to PC based functionalities
US5983073A (en) 1997-04-04 1999-11-09 Ditzik; Richard J. Modular notebook and PDA computer systems for personal computing and wireless communications
US6175633B1 (en) 1997-04-09 2001-01-16 Cavcom, Inc. Radio communications apparatus with attenuating ear pieces for high noise environments
US6151397A (en) 1997-05-16 2000-11-21 Motorola, Inc. Method and system for reducing undesired signals in a communication environment
US6434239B1 (en) 1997-10-03 2002-08-13 Deluca Michael Joseph Anti-sound beam method and apparatus
JPH11249692A (ja) 1998-02-27 1999-09-17 Nec Saitama Ltd 音声認識装置
DE69936476T2 (de) 1998-03-18 2007-11-08 Nippon Telegraph And Telephone Corp. Tragbares Kommunikationsgerät zur Eingabe von Befehlen durch Detektion der Fingeraufschläge oder Vibrationen der Fingerspitzen
CA2332833A1 (en) 1998-05-19 1999-11-25 Spectrx, Inc. Apparatus and method for determining tissue characteristics
US6717991B1 (en) 1998-05-27 2004-04-06 Telefonaktiebolaget Lm Ericsson (Publ) System and method for dual microphone signal noise reduction using spectral subtraction
US6052464A (en) 1998-05-29 2000-04-18 Motorola, Inc. Telephone set having a microphone for receiving or an earpiece for generating an acoustic signal via a keypad
US6137883A (en) 1998-05-30 2000-10-24 Motorola, Inc. Telephone set having a microphone for receiving an acoustic signal via keypad
JP3160714B2 (ja) 1998-07-08 2001-04-25 株式会社シコー技研 携帯無線通信機
US6292674B1 (en) 1998-08-05 2001-09-18 Ericsson, Inc. One-handed control for wireless telephone
JP3893763B2 (ja) 1998-08-17 2007-03-14 富士ゼロックス株式会社 音声検出装置
US6289309B1 (en) * 1998-12-16 2001-09-11 Sarnoff Corporation Noise spectrum tracking for speech enhancement
US6760600B2 (en) 1999-01-27 2004-07-06 Gateway, Inc. Portable communication apparatus
DE19917169A1 (de) 1999-04-16 2000-11-02 Kamecke Keller Orla Verfahren zur Speicherung und Wiedergabe von Audio-, Video- und Anwendungsprogrammdaten in Mobilfunkendgeräten
US6952483B2 (en) 1999-05-10 2005-10-04 Genisus Systems, Inc. Voice transmission apparatus with UWB
US6094492A (en) 1999-05-10 2000-07-25 Boesen; Peter V. Bone conduction voice transmission apparatus and system
US6738485B1 (en) 1999-05-10 2004-05-18 Peter V. Boesen Apparatus, method and system for ultra short range communication
US6560468B1 (en) 1999-05-10 2003-05-06 Peter V. Boesen Cellular telephone, personal digital assistant, and pager unit with capability of short range radio frequency transmissions
US6542721B2 (en) 1999-10-11 2003-04-01 Peter V. Boesen Cellular telephone, personal digital assistant and pager unit
US20020057810A1 (en) 1999-05-10 2002-05-16 Boesen Peter V. Computer and voice communication unit with handsfree device
US6594629B1 (en) 1999-08-06 2003-07-15 International Business Machines Corporation Methods and apparatus for audio-visual speech detection and recognition
US6339706B1 (en) 1999-11-12 2002-01-15 Telefonaktiebolaget L M Ericsson (Publ) Wireless voice-activated remote control device
US6603823B1 (en) 1999-11-12 2003-08-05 Intel Corporation Channel estimator
US6675027B1 (en) 1999-11-22 2004-01-06 Microsoft Corp Personal mobile computing device having antenna microphone for improved speech recognition
US6411933B1 (en) 1999-11-22 2002-06-25 International Business Machines Corporation Methods and apparatus for correlating biometric attributes and biometric attribute production features
GB2357400A (en) 1999-12-17 2001-06-20 Nokia Mobile Phones Ltd Controlling a terminal of a communication system
US6879952B2 (en) 2000-04-26 2005-04-12 Microsoft Corporation Sound source separation using convolutional mixing and a priori sound source knowledge
US20020039425A1 (en) * 2000-07-19 2002-04-04 Burnett Gregory C. Method and apparatus for removing noise from electronic signals
US20030179888A1 (en) 2002-03-05 2003-09-25 Burnett Gregory C. Voice activity detection (VAD) devices and methods for use with noise suppression systems
US7246058B2 (en) * 2001-05-30 2007-07-17 Aliph, Inc. Detecting voiced and unvoiced speech using both acoustic and nonacoustic sensors
JP3339579B2 (ja) 2000-10-04 2002-10-28 株式会社鷹山 電話装置
KR100394840B1 (ko) 2000-11-30 2003-08-19 한국과학기술원 독립 성분 분석을 이용한 능동 잡음 제거방법
US6853850B2 (en) 2000-12-04 2005-02-08 Mobigence, Inc. Automatic speaker volume and microphone gain control in a portable handheld radiotelephone with proximity sensors
US20020075306A1 (en) 2000-12-18 2002-06-20 Christopher Thompson Method and system for initiating communications with dispersed team members from within a virtual team environment using personal identifiers
US6754623B2 (en) * 2001-01-31 2004-06-22 International Business Machines Corporation Methods and apparatus for ambient noise removal in speech recognition
US6985858B2 (en) 2001-03-20 2006-01-10 Microsoft Corporation Method and apparatus for removing noise from feature vectors
WO2002098169A1 (en) * 2001-05-30 2002-12-05 Aliphcom Detecting voiced and unvoiced speech using both acoustic and nonacoustic sensors
US6987986B2 (en) 2001-06-21 2006-01-17 Boesen Peter V Cellular telephone, personal digital assistant with dual lines for simultaneous uses
US20030128848A1 (en) * 2001-07-12 2003-07-10 Burnett Gregory C. Method and apparatus for removing noise from electronic signals
US7054423B2 (en) 2001-09-24 2006-05-30 Nebiker Robert M Multi-media communication downloading
US6959276B2 (en) 2001-09-27 2005-10-25 Microsoft Corporation Including the category of environmental noise when processing speech signals
US6952482B2 (en) 2001-10-02 2005-10-04 Siemens Corporation Research, Inc. Method and apparatus for noise filtering
JP3532544B2 (ja) 2001-10-30 2004-05-31 株式会社テムコジャパン 面体又は帽体のストラップ装着用送受話装置
US7162415B2 (en) 2001-11-06 2007-01-09 The Regents Of The University Of California Ultra-narrow bandwidth voice coding
US6707921B2 (en) 2001-11-26 2004-03-16 Hewlett-Packard Development Company, Lp. Use of mouth position and mouth movement to filter noise from speech in a hearing aid
DE10158583A1 (de) 2001-11-29 2003-06-12 Philips Intellectual Property Verfahren zum Betrieb eines Barge-In-Dialogsystems
US6664713B2 (en) 2001-12-04 2003-12-16 Peter V. Boesen Single chip device for voice communications
US7219062B2 (en) 2002-01-30 2007-05-15 Koninklijke Philips Electronics N.V. Speech activity detection using acoustic and facial characteristics in an automatic speech recognition system
US9374451B2 (en) 2002-02-04 2016-06-21 Nokia Technologies Oy System and method for multimodal short-cuts to digital services
US7117148B2 (en) 2002-04-05 2006-10-03 Microsoft Corporation Method of noise reduction using correction vectors based on dynamic aspects of speech and noise normalization
US7190797B1 (en) 2002-06-18 2007-03-13 Plantronics, Inc. Headset with foldable noise canceling and omnidirectional dual-mode boom
US7092529B2 (en) 2002-11-01 2006-08-15 Nanyang Technological University Adaptive control system for noise cancellation
WO2004068464A2 (en) 2003-01-30 2004-08-12 Aliphcom, Inc. Acoustic vibration sensor
US7593851B2 (en) 2003-03-21 2009-09-22 Intel Corporation Precision piecewise polynomial approximation for Ephraim-Malah filter
US20060008256A1 (en) 2003-10-01 2006-01-12 Khedouri Robert K Audio visual player apparatus and system and method of content distribution using the same
US7447630B2 (en) 2003-11-26 2008-11-04 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement
US7499686B2 (en) 2004-02-24 2009-03-03 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement on a mobile device
US8095073B2 (en) 2004-06-22 2012-01-10 Sony Ericsson Mobile Communications Ab Method and apparatus for improved mobile station and hearing aid compatibility
US7574008B2 (en) 2004-09-17 2009-08-11 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement
US7283850B2 (en) 2004-10-12 2007-10-16 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement on a mobile device

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08123484A (ja) * 1994-10-28 1996-05-17 Matsushita Electric Ind Co Ltd 信号合成方法および信号合成装置
JPH08223677A (ja) * 1995-02-15 1996-08-30 Nippon Telegr & Teleph Corp <Ntt> 送話器
JPH11242499A (ja) * 1997-08-29 1999-09-07 Toshiba Corp 音声符号化/復号化方法および音声信号の成分分離方法
JPH11265199A (ja) * 1998-03-18 1999-09-28 Nippon Telegr & Teleph Corp <Ntt> 送話器
JP2000261534A (ja) * 1999-03-10 2000-09-22 Nippon Telegr & Teleph Corp <Ntt> 送受話器
JP2003514481A (ja) * 1999-10-25 2003-04-15 アンドレア エレクトロニクス コーポレイション 超指向性ビーム形成の設計及び実施
JP2001177635A (ja) * 1999-12-15 2001-06-29 Nippon Telegr & Teleph Corp <Ntt> 通話装置
JP2002358089A (ja) * 2001-06-01 2002-12-13 Denso Corp 音声処理装置及び音声処理方法
WO2003096031A2 (en) * 2002-03-05 2003-11-20 Aliphcom Voice activity detection (vad) devices and methods for use with noise suppression systems
JP2005520211A (ja) * 2002-03-05 2005-07-07 アリフコム ノイズ抑制システムと共に用いるための発声活動検出(vad)デバイスおよび方法
JP2003264883A (ja) * 2002-03-08 2003-09-19 Denso Corp 音声処理装置および音声処理方法
JP2004004286A (ja) * 2002-05-31 2004-01-08 Meiji Univ 雑音除去システムおよびプログラム

Also Published As

Publication number Publication date
CN1750123A (zh) 2006-03-22
JP4842583B2 (ja) 2011-12-21
KR101153093B1 (ko) 2012-06-11
CA2513195A1 (en) 2006-03-17
EP1638084B1 (en) 2009-11-11
RU2005127419A (ru) 2007-03-10
RU2389086C2 (ru) 2010-05-10
CA2513195C (en) 2013-12-03
MXPA05008740A (es) 2007-12-11
AU2005202858A1 (en) 2006-04-06
US7574008B2 (en) 2009-08-11
DE602005017549D1 (de) 2009-12-24
CN100583243C (zh) 2010-01-20
ATE448541T1 (de) 2009-11-15
EP1638084A1 (en) 2006-03-22
KR20060048954A (ko) 2006-05-18
US20060072767A1 (en) 2006-04-06

Similar Documents

Publication Publication Date Title
JP4842583B2 (ja) 多感覚音声強調のための方法および装置
JP4975025B2 (ja) クリーン音声の事前分布を使用した多感覚応用の音声強調
JP5452655B2 (ja) 音声状態モデルを使用したマルチセンサ音声高品質化
KR101099339B1 (ko) 복수-감지기형 음성 향상 방법 및 컴퓨터-판독가능 매체
JP5021212B2 (ja) 複数感知の音声強調の際に代替センサ信号によるノイズ破損を低減するための方法および装置
RU2370831C2 (ru) Способ оценки шума с использованием пошагового байесовского изучения
JP2011158918A (ja) クリーン信号確率変数の推定値を識別する方法
US7406303B2 (en) Multi-sensory speech enhancement using synthesized sensor signal

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080807

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080807

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101117

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110322

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110622

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110627

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110715

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110930

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111006

R150 Certificate of patent or registration of utility model

Ref document number: 4842583

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141014

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees