JP2012155339A - 音声状態モデルを使用したマルチセンサ音声高品質化 - Google Patents

音声状態モデルを使用したマルチセンサ音声高品質化 Download PDF

Info

Publication number
JP2012155339A
JP2012155339A JP2012092031A JP2012092031A JP2012155339A JP 2012155339 A JP2012155339 A JP 2012155339A JP 2012092031 A JP2012092031 A JP 2012092031A JP 2012092031 A JP2012092031 A JP 2012092031A JP 2012155339 A JP2012155339 A JP 2012155339A
Authority
JP
Japan
Prior art keywords
signal
value
likelihood
speech
air conduction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012092031A
Other languages
English (en)
Other versions
JP5452655B2 (ja
Inventor
Zhang Zhengyou
ジャン ジェンヨウ
Zicheng Liu
リュー ツチェン
Acero Alejandro
アセロ アレジャンドロ
Subramanya Amarnag
サブラマンヤ アマーナグ
G Droppo James
ジー.ドロッポ ジェイムズ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2012155339A publication Critical patent/JP2012155339A/ja
Application granted granted Critical
Publication of JP5452655B2 publication Critical patent/JP5452655B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Telephone Function (AREA)
  • Machine Translation (AREA)
  • Magnetic Resonance Imaging Apparatus (AREA)

Abstract

【課題】完全に高品質化された音声は達成されておらず、高品質化された音声信号の形成のさらなる向上を図る。
【解決手段】コンピュータによって実行されると前記コンピュータに以下のステップを実行させるプログラムを記録したコンピュータ読み取り可能な記憶媒体であって、コンピュータに、代替センサを使用して生成された代替センサ信号を受信するステップと、気導マイクロホンを使用して生成された気導マイクロホン信号を受信するステップと、周波数成分のセットのそれぞれに関する音声状態の別個の尤度を推定し、かつ前記別個の尤度の積を形成して前記音声状態の前記尤度を形成することによって、代替センサ信号および気導マイクロホン信号に基づいて音声状態の尤度を決定するステップと、前記音声状態の前記尤度を使用してクリーン音声値を推定するステップとを実行させるプログラムを記録したコンピュータ読み取り可能な記憶媒体。
【選択図】図6

Description

本発明は、音声状態モデルを使用したマルチセンサ音声高品質化に関する。
音声認識と音声伝送の共通の問題は、付加雑音による音声信号の破損である。具体的には、別の話者の音声による破損は、検出および/または訂正することが困難であることが分かっている。
最近、骨伝導マイクロホンなどの代替センサと気導マイクロホンとの組合せを使用することによって雑音を取り除こうとするシステムが開発されてきた。気導マイクロホン信号より少ない雑音を有する、高品質化された音声信号を形成するために、代替のセンサ信号および気導マイクロホン信号を使用する様々な技術が開発されてきた。
しかし、完全に高品質化された音声は達成されておらず、高品質化された音声信号の形成のさらなる向上が求められている。
方法および装置が、代替センサ信号および気導マイクロホン信号に基づいて音声状態の尤度を決定する。この音声状態の尤度を使用して、クリーン音声信号のクリーン音声値を推定する。
本発明の実施形態が実施されることができる、コンピューティング環境のブロック図である。 本発明の実施形態が実施されることができる、代替コンピューティング環境のブロック図である。 本発明の一般的な音声処理システムのブロック図である。 本発明の一実施形態による音声高品質化のためのシステムのブロック図である。 本発明の一実施形態による音声高品質化が基づくモデルを示す図である。 本発明の一実施形態による音声高品質化のためのフローチャートである。
図1は、本発明の実施形態が実施されることができる適切なコンピューティングシステム環境100の一例を示している。コンピューティングシステム環境100は、適切なコンピューティング環境の一例にすぎず、本発明の使用または機能の範囲に関するいかなる限定も示唆するものではない。コンピューティング環境100は、例示的な動作環境100に示された構成要素のいずれか1つまたはその組合せに関する依存性または要件を有するものと解釈すべきでない。
本発明の実施形態は、他の複数の汎用または特別目的コンピューティングシステム環境または構成で動作することができる。本発明の実施形態で使用するのに適し得るよく知られているコンピューティングシステム、環境および/または構成の例には、それだけに限らないが、パーソナルコンピュータ、サーバコンピュータ、携帯型またはラップトップ装置、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラマブル家電、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、電話システム、上記システムまたは装置のいずれかを含む分散コンピューティング環境などが含まれる。
本発明の実施形態は、コンピュータによって実行されるプログラムモジュールなどのコンピュータ実行可能命令の一般的な文脈で述べることができる。一般に、プログラムモジュールは、特定のタスクを実施し、または特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造体などを含む。本発明は、通信ネットワークを介してリンクされたリモート処理装置によってタスクが実施される分散コンピューティング環境内で実施されることが意図されている。分散コンピューティング環境では、プログラムモジュールは、メモリ記憶装置を含めて、ローカルとリモートの両方のコンピュータ記憶媒体に置かれる。
図1を参照すると、本発明を実施するための例示的なシステムが、コンピュータ110の形の汎用コンピューティング装置を含んでいる。コンピュータ110の構成要素は、それだけに限らないが、処理装置120と、システムメモリ130と、システムメモリを含めて様々なシステム構成要素を処理装置120に結合するシステムバス121とを含んでもよい。システムバス121は、メモリバスまたはメモリコントローラ、周辺バスおよび様々なバスアーキテクチュアのいずれかを使用したローカルバスを含めて、複数のタイプのバス構造のいずれかであってもよい。限定するためではなく、例を挙げると、こうしたアーキテクチュアには、業界標準アーキテクチャ(ISA:Industry Standard Architecture)バス、マイクロチャネルアーキテクチャー(MCA:Micro Channel Architecture)バス、拡張ISA(EISA:Enhanced ISA)バス、ビデオ電子規格協会(VESA:Video Electronics Standards Association)ローカルバス、およびメザニンバスとしても知られている周辺コンポーネント相互接続(PCI:Peripheral Component Interconnect)バスが含まれる。
コンピュータ110は一般に、様々なコンピュータ可読媒体を含む。コンピュータ可読媒体は、コンピュータ110によってアクセス可能な任意の使用可能な媒体を含むことができ、揮発性と不揮発性媒体、取外し可能と取外し不可能媒体の両方を含む。限定するためではなく、例を挙げると、コンピュータ可読媒体は、コンピュータ記憶媒体および通信媒体を含んでもよい。コンピュータ記憶媒体は、コンピュータ読取り可能命令、データ構造体、プログラムモジュールまたは他のデータなどの情報を格納するための任意の方法または技術で実装された揮発性と不揮発性、取外し可能と取外し不可能の両方の媒体を含む。コンピュータ記憶媒体には、それだけに限らないが、RAM、ROM、EEPROM、フラッシュメモリまたは他のメモリ技術、CD−ROM、デジタル多用途ディスク(DVD:digital versatile disk)または他の光ディスク記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置または他の磁気記憶装置、あるいは所望の情報を格納するために使用することができ、またコンピュータ110によってアクセスすることができる他の任意の媒体が含まれる。通信媒体は一般に、コンピュータ読取り可能命令、データ構造体、プログラムモジュールまたは他のデータを搬送波や他の移送機構などの変調されたデータ信号として実施し、また任意の情報送達媒体を含む。用語「変調されたデータ信号」は、信号内の情報を符号化するようなやり方でその特性の1つまたは複数が設定されまたは変更された信号を意味する。限定のためではなく、例を挙げると、通信媒体には、有線ネットワークや直接有線接続などの有線媒体、ならびに音響、RF、赤外線などの無線媒体、および他の無線媒体が含まれる。上記内容のいずれかの組合せもまた、コンピュータ可読媒体の範囲内に含まれるべきである。
システムメモリ130は、読出し専用メモリ(ROM:read only memory)131およびランダムアクセスメモリ(RAM:random access memory)132などの揮発性および/または不揮発性メモリの形のコンピュータ記憶媒体を含む。起動時などにコンピュータ110内の要素間で情報を転送するのに役立つ基本ルーチンを含む基本入出力システム(BIOS:basic input/output system)133は一般に、ROM131に格納される。RAM132は一般に、処理装置120に即時にアクセス可能であり、かつ/またはそれによって現在動作しているデータおよび/またはプログラムモジュールを含む。限定するためではなく、例示するために、図1に、オペレーティングシステム134、アプリケーションプログラム135、他のプログラムモジュール136およびプログラムデータ137を示す。
コンピュータ110は、他の取外し可能/取外し不可能、揮発性/不揮発性のコンピュータ記憶媒体をも含み得る。例示するためだけに、図1に、取外し不可能な不揮発性の磁気媒体から読み出しまたはそこに書き込むハードディスクドライブ141、取外し可能な不揮発性の磁気ディスク152から読み出しまたはそこに書き込む磁気ディスクドライブ151、およびCD−ROMや他の光媒体などの取外し可能な不揮発性の光ディスク156から読み出しまたはそこに書き込む光ディスクドライブ155を示す。例示的な動作環境内で使用することができる他の取外し可能/取外し不可能、揮発性/不揮発性のコンピュータ記憶媒体には、それだけに限らないが、磁気テープカセット、フラッシュメモリカード、デジタル多用途ディスク、デジタルビデオテープ、ソリッドステートRAM、ソリッドステートROMなどが含まれる。ハードディスクドライブ141は一般に、インターフェース140などの取外し不可能メモリインターフェースを介してシステムバス121に接続され、磁気ディスクドライブ151および光ディスクドライブ155は一般に、インターフェース150などの取外し可能メモリインターフェースによってシステムバス121に接続される。
上記で論じ、また図1に示したドライブおよびその関連のコンピュータ記憶媒体によって、コンピュータ読取り可能命令、データ構造体、プログラムモジュール、およびコンピュータ110のための他のデータの記憶域が提供される。図1では、たとえば、ハードディスクドライブ141は、オペレーティングシステム144、アプリケーションプログラム145、他のプログラムモジュール146およびプログラムデータ147を格納するものとして示されている。これらの構成要素は、オペレーティングシステム134、アプリケーションプログラム135、他のプログラムモジュール136およびプログラムデータ137と同じであっても、それとは異なっていてもよいことに留意されたい。少なくともそれらがそれぞれ異なるコピーであることを示すために、オペレーティングシステム144、アプリケーションプログラム145、他のプログラムモジュール146、およびプログラムデータ147には異なる番号がここでは付与されている。
ユーザは、キーボード162、マイクロホン163、およびマウス、トラックボールまたはタッチパッドなどのポインティング装置161などの入力装置を用いて、コンピュータ110にコマンドおよび情報を入力することができる。他の入力装置(図示せず)は、ジョイスティック、ゲームパッド、パラボラアンテナ、スキャナなどを含んでもよい。これらのおよび他の入力装置はしばしば、システムバスに結合されたユーザ入力インターフェース160を介して処理装置120に接続されるが、パラレルポート、ゲームポートまたはユニバーサルシリアルバス(USB:universal serial bus)などの他のインターフェースおよびバス構造によって接続されてもよい。モニタ191または他のタイプの表示装置も、ビデオインターフェース190などのインターフェースを介してシステムバス121に接続される。モニタに加えて、コンピュータは、出力周辺インターフェース195によって接続されてもよいスピーカ197およびプリンタ196などの他の周辺出力装置を含むこともできる。
コンピュータ110は、リモートコンピュータ180などの1つまたは複数のリモートコンピュータへの論理接続を使用して、ネットワーク化された環境内で動作する。リモートコンピュータ180は、パーソナルコンピュータ、携帯型装置、サーバ、ルータ、ネットワークPC、ピアデバイス、または他の一般的なネットワークノードとすることができ、コンピュータ110に関して上記で述べた要素の多くまたはすべてを一般に含む。図1に示された論理接続は、ローカルエリアネットワーク(LAN:local area network)171と、広域ネットワーク(WAN:wide area network)173とを含むが、他のネットワークを含むこともできる。こうしたネットワーキング環境は、オフィス、企業規模のコンピュータネットワーク、イントラネットおよびインターネットでは一般的である。
LANネットワーキング環境内で使用される場合は、コンピュータ110は、ネットワークインターフェースまたはアダプタ170を介してLAN171に接続される。WANネットワーキング環境内で使用される場合は、コンピュータ110は一般に、モデム172、またはインターネットなどのWAN173を介して通信を確立する他の手段を含む。内部にあることも、外部にあることもあるモデム172は、ユーザ入力インターフェース160または他の適切な機構を介してシステムバス121に接続されてもよい。ネットワーク化された環境内では、コンピュータ110に関して示されたプログラムモジュール、またはその一部は、リモートメモリ記憶装置内に格納してもよい。限定のためではなく、例示するために、図1に、リモートコンピュータ180内に常駐するリモートアプリケーションプログラム185を示す。示されたネットワーク接続は例示的なものであり、コンピュータ間の通信リンクを確立する他の手段を使用してもよいことが理解されよう。
図2は、例示的なコンピューティング環境であるモバイル装置200のブロック図である。モバイル装置200は、マイクロプロセッサ202と、メモリ204と、入出力(I/O:input/output)コンポーネント206と、リモートコンピュータまたは他のモバイル装置と通信するための通信インターフェース208とを含む。一実施形態では、上記で言及されたコンポーネントは、適切なバス210を介して互いに通信するために結合される。
メモリ204は、モバイル装置200への全体的な電力が遮断されるときにメモリ204内に格納された情報が失われないように、バッテリバックアップモジュール(図示せず)を備えたランダムアクセスメモリ(RAM:random access memory)などの不揮発性電子メモリとして実装される。メモリ204の一部は好ましくは、プログラム実行のためのアドレス指定可能メモリとして割り当てられ、メモリ204の別の部分は好ましくは、ディスクドライブ上の記憶域をシミュレートするなどの記憶のために使用される。
メモリ204は、オペレーティングシステム212、アプリケーションプログラム214ならびにオブジェクトストア216を含む。動作中、オペレーティングシステム212は好ましくは、プロセッサ202によってメモリ204から実行される。好ましい一実施形態では、オペレーティングシステム212は、Microsoft Corporation社から市販されているWINDOWS(登録商標)CEブランドオペレーティングシステムである。オペレーティングシステム212は好ましくは、モバイル装置用に設計され、アプリケーション214によって、公開された1組のアプリケーションプログラミングインターフェースおよび方法を介して使用することができるデータベース機能を実施する。オブジェクトストア216内のオブジェクトは、アプリケーション214およびオペレーティングシステム212によって、少なくとも部分的には公開されたアプリケーションプログラミングインターフェースおよびメソッドへの呼出しに応答して維持される。
通信インターフェース208は、モバイル装置200が情報を送受信することを可能にする複数の装置および技術を表す。いくつか例を挙げると、装置には、有線および無線モデム、衛星受信機、ならびに放送チューナが含まれる。モバイル装置200は、コンピュータとのデータ交換のために、コンピュータに直接接続されることもできる。こうした場合、通信インターフェース208は、赤外線トランシーバ、あるいはシリアルまたはパラレル通信接続とすることができ、それらすべてが、ストリーミング情報を送信することができる。
入出力コンポーネント206は、タッチセンサ画面、ボタン、ローラおよびマイクロホンなどの様々な入力装置、ならびにオーディオジェネレータ、振動装置およびディスプレイを含めて様々な出力装置を含む。上記にリストされた装置は、例示するためのものであり、すべてがモバイル装置200上に存在する必要があるとは限らない。さらに、他の入出力装置が、本発明の範囲内で、モバイル装置200に接続されることも、それと共に見られることもある。
図3は、本発明の実施形態の基本ブロック図を示している。図3では、スピーカ300は、気導マイクロホン304および代替センサ306によって検出される音声信号302(X)を生成する。代替センサの例には、ユーザの喉の振動を測定する喉マイクロホン、(顎骨など)ユーザの顔の骨または頭蓋骨にまたはその近くに、あるいはユーザの耳に置かれており、ユーザによって生成された音声に対応する頭蓋骨および顎の振動を感知する骨伝導センサである。気導マイクロホン304は、音声空気波(audio air−wave)を電気信号に変換するために一般的に使用されるタイプのマイクロホンである。
気導マイクロホン304は、1つまたは複数の雑音源310によって生成された周囲雑音308(V)を受信し、それ自体のセンサ雑音305(U)を生成する。周囲雑音のタイプおよび周囲雑音のレベルによって、周囲雑音308を代替センサ306によって検出することもできる。しかし、本発明の実施形態では、代替センサ306は一般に、気導マイクロホン304より周囲雑音への感度が低い。したがって一般的に、代替センサ306によって生成された代替センサ信号316(B)は、気導マイクロホン304によって生成された気導マイクロホン信号318(Y)より少ない雑音を含む。代替センサ306は、周囲雑音にそれほど敏感ではないが、いくらかのセンサ雑音320(W)を生成する。
スピーカ300から代替センサ信号316までの経路は、チャネル応答Hを有するチャネルとしてモデル化することができる。周囲雑音308から代替センサ信号316への経路は、チャネル応答Gを有するチャネルとしてモデル化することができる。
代替センサ信号316(B)および気導マイクロホン信号318(Y)は、クリーン信号324を推定するクリーン信号推定器322に供給される。クリーン信号推定値324は、音声プロセス328に供給される。クリーン信号推定値324は、時間領域信号であっても、フーリエ変換ベクトルであってもよい。クリーン信号推定値324が時間領域信号である場合は、音声プロセス328は、リスナ、音声符号化システムまたは音声認識システムの形を取ってもよい。クリーン信号推定値324がフーリエ変換ベクトルである場合は、音声プロセス328は一般に、音声認識システムであり、またはフーリエ変換ベクトルを波形に変換するための逆フーリエ変換を含む。
クリーン信号推定器322内では、代替センサ信号316およびマイクロホン信号318は、クリーン音声の推定のために使用される周波数領域に変換される。図4に示されるように、代替センサ信号316および気導マイクロホン信号318は、それぞれアナログデジタル変換器404および414に供給され、デジタル値のシーケンスを生成し、このデジタル値のシーケンスは、それぞれフレーム構成器406および416によって値のフレームにグループ化される。一実施形態では、AD変換器404および414は、サンプル当たり16kHz、16ビットのアナログ信号をサンプリングし、それによって毎秒32キロバイトの音声データを作成し、フレーム構成器406および416は、10ミリ秒毎に、20ミリ秒相当のデータを含むそれぞれの新しいフレームを作成する。
フレーム構成器406および416によって提供されるデータのそれぞれの各フレームは、それぞれ高速フーリエ変換(FFT:Fast Fourier Transform)408および418を使用して周波数領域に変換される。
代替センサ信号および気導マイクロホン信号の周波数領域値は、クリーン信号推定器420に供給され、このクリーン信号推定器420は、クリーン音声信号324を推定するために周波数領域値を使用する。
一部の実施形態では、クリーン音声信号324は、逆高速フーリエ変換422を使用して時間領域に変換し戻される。これによって、クリーン音声信号324の時間領域バージョンが作成される。
本発明は、高品質化された音声信号を生成するために、クリーン音声の音声状態を含む図3のシステムのモデルを使用する。図5は、そのモデルを図で表したものである。
図5のモデルでは、クリーン音声500は、音声状態502に依存する。気導マイクロホン信号504は、センサ雑音506、周囲雑音508およびクリーン音声信号500に依存する。代替センサ信号510は、センサ雑音512、チャネル応答514を通過するときはクリーン音声信号500、チャネル応答516を通過するときは周囲雑音508に依存する。
図5のモデルは、本発明では、雑音の入った観察値YおよびBからクリーン音声信号Xを推定するために使用され、複数の音声状態Sの尤度を識別する。
本発明の一実施形態では、クリーン音声信号推定値、およびクリーン音声信号推定値についての状態の尤度が、このシステムモデルで、雑音成分のガウス分布をまず仮定することによって形成される。したがって、
Figure 2012155339
であり、ここで、各雑音成分は、それぞれの分散値
Figure 2012155339
を有するゼロ平均ガウシアンとしてモデル化され、Vは周囲雑音であり、Uは気導マイクロホン内のセンサ雑音であり、Wは代替センサ内のセンサ雑音である。式1で、gは、周囲雑音の分散値の調整を可能にする調整パラメータである。
さらに、本発明のこの実施形態は、
Figure 2012155339
であるように分散値
Figure 2012155339
を有するゼロ平均ガウシアンとして状態が与えられるとして、クリーン音声信号の確率をモデル化する。
本発明の一実施形態では、所与の状態の事前確率は、すべての状態が等しい可能性を有するように一様確率であると仮定される。具体的には、事前確率は、
Figure 2012155339
ように定義され、ここでNは、モデルで使用可能な音声状態の数である。
クリーン音声信号の推定値および音声状態の尤度を決定するための以下の式についての説明では、すべての変数は、複素スペクトル領域でモデル化される。それぞれの周波数成分(Bin)は、他の周波数成分と独立に処理される。表記を容易にするために、この方法は、単一の周波数成分について以下に述べられる。計算は、入力信号のスペクトルバージョンの各周波数成分について実施されることが当業者には認識されよう。時間と共に変化する変数については、添字tが変数に添えられている。
雑音の入った観察値YおよびBからクリーン音声信号Xを推定するために、本発明は、条件付き確率p(X|Y,B)を最大にし、この条件付き確率は、雑音の入った気導マイクロホン信号、および雑音の入った代替センサ信号が与えられたときのクリーン音声信号の確率である。クリーン音声信号の推定値がこのモデルでの音声状態Sに依存するので、この条件付き確率は、
Figure 2012155339
のように決定され、ここで{S}は、すべての音声状態のセットを表し、p(X|Yt,t,=s)は、雑音の入った現在の観察値および音声状態sが与えられたときのXの尤度であり、p(S=s|Yt,)は、雑音の入った観察値が与えられたときの音声状態sの尤度である。本発明では、有声音、摩擦音、鼻音および後舌母音音の音声状態を含めて、任意の数の可能な音声状態が使用されてもよい。一部の実施形態では、音素など、1組の音声単位のそれぞれについて別個の音声状態が提供される。しかし、一実施形態では、音声用に1つ、非音声用に1つの2つの音声状態だけが提供される。
一部の実施形態の下では、周波数成分のすべてについて単一の状態が使用される。したがって、それぞれのフレームは、単一の音声状態変数を有する。
式6の右側の項は、
Figure 2012155339
のように計算することができ、それは、観察値が与えられたときのクリーン音声信号の条件付き確率が、クリーン音声信号の結合確率、観察値および状態によって推定することができ、観察値が与えられたときの状態の条件付き確率は、すべての可能なクリーン音声値にわたってクリーン音声信号の結合確率、観察値および状態を積分することによって近似できることを示している。
式1〜3で上記で論じた雑音の分布についてのガウシアン仮定を使用して、クリーン音声信号の結合確率、観察値および状態は、
Figure 2012155339
のように計算することができ、ここで、
Figure 2012155339
は、式5の一様確率分布によって与えられる状態の事前確率であり、Gは、周囲雑音への代替センサのチャネル応答であり、Hは、クリーン音声信号への代替センサ信号のチャネル応答であり、|G|などの縦棒間の複素項は、複素数値の大きさを示す。
背景音声についての代替センサのチャネル応答Gは、ユーザが話していない最後のDフレームにわたって空気マイクロホンYおよび代替センサBの信号から推定される。具体的には、Gは、
Figure 2012155339
のように決定され、ここでDは、ユーザが話していないが、背景音声は存在するフレームの数である。ここでは、Gがすべての時間フレームDにわたって一定であると仮定する。他の実施形態では、すべてのDフレームを等しく使用するのではなく、最新のフレームが古いフレームよりもGの推定により寄与するように、「指数エージング(exponential aging)」として知られている技術を使用する。
クリーン音声信号への代替センサのチャネル応答Hは、ユーザが話している最後のTフレームにわたって空気マイクロホンYおよび代替センサBの信号から推定される。具体的には、Hは、
Figure 2012155339
のように決定され、ここでTは、ユーザが話しているフレームの数である。ここでは、Hがすべての時間フレームTにわたって一定であると仮定する。他の実施形態では、すべてのTフレームを等しく使用するのではなく、最新のフレームが古いフレームよりもHの推定により寄与するように、「指数エージング」として知られている技術を使用する。
状態p(S=s|Yt,)の条件付き尤度は、式8の近似、および式9の結合確率計算を使用して、
Figure 2012155339
ように計算され、それは、
Figure 2012155339
のように簡略化することができる。
式13を詳しく見ると、第1の項は、代替センサチャネルと気導マイクロホンチャネルの間の相関性をある意味でモデル化しており、また第2の項は、空気マイクロホンチャネルにおける観察について説明するために状態モデルおよび雑音モデルを利用していることが明らかである。第3の項は単に、一実施形態では一様分布である、状態についての事前値(the prior)である。
式13で計算された観察値が与えられたときの状態の尤度には、2つの可能な応用例がある。第1に、それは、音声状態の分類子を構築するために使用することができ、この分類子は、音声を含まないフレームから雑音源の分散値を決定することができるように、観察値を、音声を含むもの、または音声を含まないものに分類するために使用することができる。それは、以下にさらに示されるように、クリーン音声信号を推定する場合に「ソフト」重みを提供するために使用することもできる。
上述したように、上記の諸式内の変数はそれぞれ、複素スペクトル領域の特定の周波数成分について定義される。したがって、式13の尤度は、特定の周波数成分に関連する状態についてのものである。しかし、それぞれのフレームについて単一の状態変数しかないので、フレームの状態の尤度は、以下のように、周波数成分にわたって尤度を総計することによって形成される。
Figure 2012155339
ここで、L(S(f))=p(S(f)|Y(f),B(f))は、式13に定義された周波数成分fの尤度である。この積は、DCおよびナイキスト周波数以外のすべての周波数成分にわたって決定される。尤度計算が対数尤度領域で実施される場合、上記の式内の積は、和で置き換えられることに留意されたい。
上記尤度は、
Figure 2012155339
となるように、尤度比テストに基づいて音声/非音声分類子を構築するために使用することができ、式15では、フレームは、比rが0より大きい場合は音声を含むものと見なされ、そうでない場合は音声を含まないものと見なされる。
音声状態の尤度を使用して、クリーン音声信号の推定を形成することができる。一実施形態では、この推定は、
Figure 2012155339
となるように、上記の式6に基づく最小平均二乗推定(MMSE:minimum mean square estimate)を使用して形成され、ここで、E(X|Yt,)は、観察値が与えられたときのクリーン音声信号の期待値であり、E(X|Yt,t,=s)は、観察値および音声状態が与えられたときのクリーン音声信号の期待値である。
式7および9を使用して、期待値E(X|Yt,t,=s)をそこから計算することができる条件付き確率p(X|Yt,t,=s)は、以下のように決定することができる。
Figure 2012155339
これによって、
Figure 2012155339
ここで、
Figure 2012155339
Figure 2012155339
の期待値がもたらされ、Mは、Mの複素共役である。
したがって、クリーン音声信号XのMMSE推定値は、
Figure 2012155339
によって与えられ、ここで、πは、状態についての事後値(the posterior)であり、
Figure 2012155339
によって与えられ、ここで、L(S=s)は、式14によって与えられる。したがって、クリーン音声信号の推定は、特定の音声状態の相対尤度に部分的に基づいており、この相対尤度によって、クリーン音声信号の推定のためのソフト重みが提供される。
上記計算では、Hは、高い精度で知られていると仮定されていた。しかし、実際には、Hは、単に制限された精度で知られている。本発明の追加の一実施形態では、Hは、ガウスランダム変数
Figure 2012155339
としてモデル化される。こうした一実施形態では、上記計算はすべて、Hのすべての可能な値にわたって周辺化される(marginalize)。しかし、これによって、数学が扱い難いものになる。一実施形態では、この扱い難さを克服するために、反復プロセスが使用される。各反復の間、Hは、式13および20において、Hで置き換えられ、
Figure 2012155339
は、
Figure 2012155339
で置き換えられ、ここで、
Figure 2012155339
は、前の反復から決定されたクリーン音声信号の推定値である。次いで、クリーン音声信号は、式21を使用して推定される。次いで、クリーン音声信号のこの新しい推定値は、
Figure 2012155339
の新しい値として設定され、次の反復が実施される。反復は、クリーン音声信号の推定が安定したときに終了する。
図6は、上記の諸式を使用してクリーン音声信号を推定する方法を提供する。ステップ600で、ユーザが話していないところの入力発語のフレームが識別される。次いで、これらのフレームは、周囲雑音の分散値
Figure 2012155339
、代替センサ雑音の分散値
Figure 2012155339
および気導マイクロホン雑音の分散値
Figure 2012155339
を決定するために使用される。
ユーザが話していないところのフレームを識別するために、代替センサ信号を検査することができる。代替センサ信号のエネルギーが低い場合、代替センサ信号は雑音の信号値よりも遥かに小さい背景音声の信号値を生成するので、それは、話者が話し中でないと最初に仮定することができる。音声を含まないフレームの気導マイクロホン信号および代替センサ信号の値は、バッファに格納され、
Figure 2012155339
Figure 2012155339
のように、雑音の分散値を計算するために使用される。ここで、Nは、分散値を形成するために使用されている発語中の雑音フレームの数であり、Vは、ユーザが話していない場合の1組の雑音フレームであり、
Figure 2012155339
は、漏洩が明らかにされた後の代替センサ信号を指し、それは、
Figure 2012155339
のように計算され、それは、一部の実施形態では別法として、
Figure 2012155339
のように計算される。
一部の実施形態では、代替センサ信号の低いエネルギーレベルに基づいて非音声フレームを識別する技術は単に、トレーニングの初期フレーム中に実施される。雑音分散値について初期値が形成された後、それは、式15の尤度比を使用して、どのフレームが音声を含み、どのフレームが音声を含んでいないか決定するために使用されてもよい。
特定の一実施形態では、推定された分散値
Figure 2012155339
を増加または減少させるために使用することができる調整パラメータであるgの値は、1に設定される。これは、雑音推定手順における完全な信頼性を示唆するものである。本発明の異なる実施形態では、異なるgの値が使用されてもよい。
気導マイクロホンの雑音の分散値
Figure 2012155339
は、気導マイクロホンの方が代替センサよりもセンサ雑音が生じる傾向が小さいという観察に基づいて推定される。したがって、気導マイクロホンの分散値は、
Figure 2012155339
のように計算することができる。
ステップ602で、音声分散値
Figure 2012155339
は、時間平滑化を伴う雑音抑圧フィルタを使用して推定される。抑圧フィルタは、スペクトル減算法を一般化したものである。具体的には、音声分散値は、
Figure 2012155339
ただし、
Figure 2012155339
ここで、
Figure 2012155339
のように計算され、ここで、
Figure 2012155339
は前のフレームからのクリーン音声推定値であり、一部の実施形態では、τは、.2に設定される平滑化係数であり、αは、α>1である場合には、音声のひずみの増加を犠牲にしてより多く雑音が低減されるように雑音低減の範囲を制御し、βは、最小騒音フロアを与え、知覚された残余音楽雑音をマスクする背景雑音を加える手段を提供する。一部の実施形態では、γ1=2、かつγ2=1/2である。一部の実施形態では、βは、純粋な雑音フレームの20dBの雑音低減のために0.01に等しく設定される。
したがって、式28では、分散値は、前のフレームの推定されたクリーン音声信号の重み付けされた和、および雑音抑圧フィルタKによってフィルタリングされた気導マイクロホン信号のエネルギーとして求められる。
一部の実施形態では、αは、信号対雑音比およびマスキング原理に従って選択され、このマスキング原理は、同じ量の雑音が高音声エネルギー帯にあると、低音声エネルギー帯にあるよりも、認識への影響が小さくなり、またある周波数に高音声エネルギーが存在すると、隣接周波数帯内の雑音の認識が小さくなることを明らかにしている。この実施形態では、αは、
Figure 2012155339
のように選択され、ここで、SNRはデシベル(dB)単位の信号対雑音比であり、Bは、それを超えた雑音低減を実施すべきでない所望の信号対雑音比レベルであり、αは、0の信号対雑音比値で取り除くべき雑音量である。一部の実施形態では、Bは、20dBに等しく設定される。
以下の信号対雑音比の定義
Figure 2012155339
を使用すると、式29の雑音抑圧フィルタは、
Figure 2012155339
になる。
この雑音抑圧フィルタは、正の信号対雑音比については弱い雑音抑圧を提供し、負の信号対雑音比についてはより強い雑音抑圧を提供する。実際、十分に負の信号対雑音比の場合、観察された信号および雑音はすべて取り除かれ、存在する唯一の信号は雑音フロアであり、この雑音フロアは、式33の雑音抑圧フィルタの「そうでない場合」の分岐によって追加し戻されている。
一部の実施形態では、αは、異なる周波数について異なる量の雑音が取り除かれるように、周波数依存のものにされる。一実施形態では、この周波数依存性は、
α(k)=α0min+(α0max−α0min)k/225 式34
となるように、30Hzのαと8KHzのαとの間の線形補間を使用して形成され、ここで、kは、周波数成分の数であり、α0minは30Hzで望まれるαの値であり、α0maxは8KHzで望まれるαの値であり、また256個の周波数成分があると仮定されている。
ステップ602で音声分散値が決定された後、この分散値は、上記の式13および14を使用して、ステップ604で各音声状態の尤度を決定するため使用される。次いで、音声状態の尤度は、現在のフレームのクリーン音声推定を決定するためにステップ606で使用される。上述されたように、Hを表すためにガウス分布が使用される実施形態では、ステップ604および606は、各反復においてクリーン音声信号の最新の推定値を使用して、またHのガウスモデルに対処するために上記で論じられた式への変更を使用して反復される。
本発明について、特定の実施形態を参照して述べたが、本発明の精神および範囲から逸脱せずに、形および詳細の変更を加えてもよいことが当業者には認識されよう。

Claims (6)

  1. コンピュータによって実行されると前記コンピュータに以下のステップを実行させるプログラムを記録したコンピュータ読み取り可能な記憶媒体であって、
    コンピュータに、
    代替センサを使用して生成された代替センサ信号を受信するステップと、
    気導マイクロホンを使用して生成された気導マイクロホン信号を受信するステップと、
    周波数成分のセットのそれぞれに関する音声状態の別個の尤度を推定し、かつ前記別個の尤度の積を形成して前記音声状態の前記尤度を形成することによって、代替センサ信号および気導マイクロホン信号に基づいて音声状態の尤度を決定するステップと、
    前記音声状態の前記尤度を使用してクリーン音声値を推定するステップと
    を実行させるプログラムを記録したことを特徴とするコンピュータ読み取り可能な記憶媒体。
  2. 前記音声状態の前記尤度を使用してクリーン音声値を推定するステップは、期待値に重み付けをするステップを含むことを特徴とする請求項1に記載のコンピュータ読み取り可能な記憶媒体。
  3. 前記音声状態の前記尤度を使用してクリーン音声値を推定するステップは、
    前記音声状態の前記尤度を使用して、信号のフレームを非音声フレームとして識別するステップと、
    前記非音声フレームを使用して雑音の分散値を推定するステップと、
    前記雑音の前記分散値を使用して前記クリーン音声値を推定するステップと
    を含むことを特徴とする請求項1に記載コンピュータ読み取り可能な記憶媒体。
  4. クリーン音声信号のクリーン音声値を識別する方法であって、
    代替センサを使用して生成される代替センサ信号を受信するステップと、
    気導マイクロホンを使用して生成された気導マイクロホン信号を受信するステップと、
    前記クリーン音声信号が音声状態に依存し、代替センサ信号が前記クリーン音声信号に依存し、気導マイクロホン信号が前記クリーン音声信号に依存するモデルを形成するステップであって、分散値を有する分布として音声状態を与えられた前記クリーン音声信号の値の確率をモデル化することを含む、モデルを形成するステップと、
    前記気導マイクロホン信号の現在のフレームに対する値を周囲雑音の分散値の関数である周波数依存の雑音抑制フィルタに適用することによって、前記気導マイクロホン信号のフィルタリング済みの値を決定するステップと、
    前のフレームのクリーン音声信号の推定値と前記気導マイクロホン信号のフィルタリング済みの値との線形結合として前記分布の前記分散値を決定するステップと、
    前記モデルに基づく前記現在のフレームの前記クリーン音声値の推定値、前記分布の分散値、前記現在のフレームの前記代替センサ信号の値、および前記現在のフレームの前記気導マイクロホン信号の値を決定するステップと
    を備えることを特徴とする方法。
  5. ある状態の尤度を決定するステップをさらに備え、前記クリーン音声値の推定値を決定するステップは、前記状態の前記尤度を使用するステップをさらに含むことを特徴とする請求項4に記載の方法。
  6. 前記モデルを形成するステップは、前記代替センサ信号および前記気導マイクロホン信号が雑音源に依存するモデルを形成するステップを含むことを特徴とする請求項4に記載の方法。
JP2012092031A 2005-06-28 2012-04-13 音声状態モデルを使用したマルチセンサ音声高品質化 Expired - Fee Related JP5452655B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/168,770 2005-06-28
US11/168,770 US7680656B2 (en) 2005-06-28 2005-06-28 Multi-sensory speech enhancement using a speech-state model

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2008519337A Division JP5000647B2 (ja) 2005-06-28 2006-06-13 音声状態モデルを使用したマルチセンサ音声高品質化

Publications (2)

Publication Number Publication Date
JP2012155339A true JP2012155339A (ja) 2012-08-16
JP5452655B2 JP5452655B2 (ja) 2014-03-26

Family

ID=37568662

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2008519337A Expired - Fee Related JP5000647B2 (ja) 2005-06-28 2006-06-13 音声状態モデルを使用したマルチセンサ音声高品質化
JP2012092031A Expired - Fee Related JP5452655B2 (ja) 2005-06-28 2012-04-13 音声状態モデルを使用したマルチセンサ音声高品質化

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2008519337A Expired - Fee Related JP5000647B2 (ja) 2005-06-28 2006-06-13 音声状態モデルを使用したマルチセンサ音声高品質化

Country Status (11)

Country Link
US (1) US7680656B2 (ja)
EP (1) EP1891624B1 (ja)
JP (2) JP5000647B2 (ja)
KR (1) KR101224755B1 (ja)
CN (1) CN101606191B (ja)
AT (1) ATE508454T1 (ja)
BR (1) BRPI0612668A2 (ja)
DE (1) DE602006021741D1 (ja)
MX (1) MX2007015446A (ja)
RU (1) RU2420813C2 (ja)
WO (1) WO2007001821A2 (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8139787B2 (en) * 2005-09-09 2012-03-20 Simon Haykin Method and device for binaural signal enhancement
KR100738332B1 (ko) * 2005-10-28 2007-07-12 한국전자통신연구원 성대신호 인식 장치 및 그 방법
WO2008007616A1 (fr) * 2006-07-13 2008-01-17 Nec Corporation Dispositif, procédé et programme d'alarme relatif à une entrée de murmure non audible
JP4940956B2 (ja) * 2007-01-10 2012-05-30 ヤマハ株式会社 音声伝送システム
JP4950930B2 (ja) * 2008-04-03 2012-06-13 株式会社東芝 音声/非音声を判定する装置、方法およびプログラム
US9159335B2 (en) * 2008-10-10 2015-10-13 Samsung Electronics Co., Ltd. Apparatus and method for noise estimation, and noise reduction apparatus employing the same
DK2555189T3 (en) * 2010-11-25 2017-01-23 Goertek Inc Speech enhancement method and device for noise reduction communication headphones
US10418047B2 (en) * 2011-03-14 2019-09-17 Cochlear Limited Sound processing with increased noise suppression
US9589580B2 (en) * 2011-03-14 2017-03-07 Cochlear Limited Sound processing based on a confidence measure
US9094749B2 (en) 2012-07-25 2015-07-28 Nokia Technologies Oy Head-mounted sound capture device
TWI502583B (zh) * 2013-04-11 2015-10-01 Wistron Corp 語音處理裝置和語音處理方法
US9928851B2 (en) * 2013-09-12 2018-03-27 Mediatek Inc. Voice verifying system and voice verifying method which can determine if voice signal is valid or not
US20150161999A1 (en) * 2013-12-09 2015-06-11 Ravi Kalluri Media content consumption with individualized acoustic speech recognition
TWM492015U (zh) * 2014-07-30 2014-12-11 Wen-Tsung Sun 電子式助發聲裝置
CN105448303B (zh) * 2015-11-27 2020-02-04 百度在线网络技术(北京)有限公司 语音信号的处理方法和装置
CN107045874B (zh) * 2016-02-05 2021-03-02 深圳市潮流网络技术有限公司 一种基于相关性的非线性语音增强方法
US10535364B1 (en) * 2016-09-08 2020-01-14 Amazon Technologies, Inc. Voice activity detection using air conduction and bone conduction microphones
CN110265056B (zh) * 2019-06-11 2021-09-17 安克创新科技股份有限公司 音源的控制方法以及扬声设备、装置
EP4005226A4 (en) 2019-09-12 2022-08-17 Shenzhen Shokz Co., Ltd. SYSTEMS AND METHODS FOR AUDIO SIGNAL GENERATION

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000330597A (ja) * 1999-05-20 2000-11-30 Matsushita Electric Ind Co Ltd 雑音抑圧装置
JP2004102287A (ja) * 2002-09-06 2004-04-02 Microsoft Corp 劣化信号から雑音を除去する非線形観測モデル
JP2004191968A (ja) * 2002-12-10 2004-07-08 Internatl Business Mach Corp <Ibm> 信号ソースを分離するための方法及び装置
JP2005157354A (ja) * 2003-11-26 2005-06-16 Microsoft Corp 複数感知の音声強調のための方法および機器

Family Cites Families (103)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3383466A (en) 1964-05-28 1968-05-14 Navy Usa Nonacoustic measures in automatic speech recognition
US3746789A (en) * 1971-10-20 1973-07-17 E Alcivar Tissue conduction microphone utilized to activate a voice operated switch
US3787641A (en) * 1972-06-05 1974-01-22 Setcom Corp Bone conduction microphone assembly
US3838466A (en) * 1973-01-26 1974-10-01 White S Non-fogging face shield
US4025721A (en) * 1976-05-04 1977-05-24 Biocommunications Research Corporation Method of and means for adaptively filtering near-stationary noise from speech
JPH0755167B2 (ja) * 1988-09-21 1995-06-14 松下電器産業株式会社 移動体
JPH03108997A (ja) 1989-09-22 1991-05-09 Temuko Japan:Kk 骨伝導マイク
US5148488A (en) * 1989-11-17 1992-09-15 Nynex Corporation Method and filter for enhancing a noisy speech signal
JPH03160851A (ja) * 1989-11-20 1991-07-10 Fujitsu Ltd 携帯電話機
US5054079A (en) * 1990-01-25 1991-10-01 Stanton Magnetics, Inc. Bone conduction microphone with mounting means
US5404577A (en) * 1990-07-13 1995-04-04 Cairns & Brother Inc. Combination head-protective helmet & communications system
WO1993001664A1 (en) 1991-07-08 1993-01-21 Motorola, Inc. Remote voice control system
US5295193A (en) * 1992-01-22 1994-03-15 Hiroshi Ono Device for picking up bone-conducted sound in external auditory meatus and communication device using the same
JPH05276587A (ja) 1992-03-30 1993-10-22 Retsutsu Corp:Kk イヤーマイクロフォン
US5590241A (en) * 1993-04-30 1996-12-31 Motorola Inc. Speech processing system and method for enhancing a speech signal in a noisy environment
US5446789A (en) * 1993-11-10 1995-08-29 International Business Machines Corporation Electronic device having antenna for receiving soundwaves
ZA948426B (en) 1993-12-22 1995-06-30 Qualcomm Inc Distributed voice recognition system
AU684872B2 (en) * 1994-03-10 1998-01-08 Cable And Wireless Plc Communication system
US5828768A (en) * 1994-05-11 1998-10-27 Noise Cancellation Technologies, Inc. Multimedia personal computer with active noise reduction and piezo speakers
US6471420B1 (en) * 1994-05-13 2002-10-29 Matsushita Electric Industrial Co., Ltd. Voice selection apparatus voice response apparatus, and game apparatus using word tables from which selected words are output as voice selections
JP3082825B2 (ja) 1994-08-29 2000-08-28 日本電信電話株式会社 通信装置
DE69527731T2 (de) * 1994-05-18 2003-04-03 Nippon Telegraph & Telephone Sender-Empfänger mit einem akustischen Wandler vom Ohrpassstück-Typ
US5727124A (en) * 1994-06-21 1998-03-10 Lucent Technologies, Inc. Method of and apparatus for signal recognition that compensates for mismatching
JP3488749B2 (ja) 1994-08-23 2004-01-19 株式会社ダッド・ジャパン 骨伝導型マイクロホン
JP3306784B2 (ja) 1994-09-05 2002-07-24 日本電信電話株式会社 骨導マイクロホン出力信号再生装置
JPH08186654A (ja) 1994-12-22 1996-07-16 Internatl Business Mach Corp <Ibm> 携帯端末装置
US5692059A (en) * 1995-02-24 1997-11-25 Kruger; Frederick M. Two active element in-the-ear microphone system
US5555449A (en) * 1995-03-07 1996-09-10 Ericsson Inc. Extendible antenna and microphone for portable communication unit
KR960042590A (ko) * 1995-05-23 1996-12-21 김광호 테이프 재생용 음량기기에서의 발음비교방법
US5647834A (en) * 1995-06-30 1997-07-15 Ron; Samuel Speech-based biofeedback method and system
JPH09172479A (ja) * 1995-12-20 1997-06-30 Yokoi Kikaku:Kk 送受話器およびそれを用いた通話装置
US6243596B1 (en) * 1996-04-10 2001-06-05 Lextron Systems, Inc. Method and apparatus for modifying and integrating a cellular phone with the capability to access and browse the internet
JP3097901B2 (ja) 1996-06-28 2000-10-10 日本電信電話株式会社 通話装置
JP3095214B2 (ja) 1996-06-28 2000-10-03 日本電信電話株式会社 通話装置
US5943627A (en) * 1996-09-12 1999-08-24 Kim; Seong-Soo Mobile cellular phone
JPH10261910A (ja) 1997-01-16 1998-09-29 Sony Corp 携帯無線装置およびアンテナ装置
JPH10224253A (ja) * 1997-02-10 1998-08-21 Sony Corp 携帯通信機
US6308062B1 (en) * 1997-03-06 2001-10-23 Ericsson Business Networks Ab Wireless telephony system enabling access to PC based functionalities
JP3108997B2 (ja) 1997-03-31 2000-11-13 武田薬品工業株式会社 アゾール化合物、その製造法および用途
FR2761800A1 (fr) 1997-04-02 1998-10-09 Scanera Sc Dispositif de transmission de voix et telephone le mettant en oeuvre
US5983073A (en) * 1997-04-04 1999-11-09 Ditzik; Richard J. Modular notebook and PDA computer systems for personal computing and wireless communications
US6175633B1 (en) * 1997-04-09 2001-01-16 Cavcom, Inc. Radio communications apparatus with attenuating ear pieces for high noise environments
US5924065A (en) * 1997-06-16 1999-07-13 Digital Equipment Corporation Environmently compensated speech processing
JPH1115191A (ja) * 1997-06-20 1999-01-22 Fuji Xerox Co Ltd 静電荷像現像用トナー及びその製造方法
WO1999004500A1 (de) 1997-07-16 1999-01-28 Siemens Aktiengesellschaft Funktelefonhandgerät
JPH11249692A (ja) 1998-02-27 1999-09-17 Nec Saitama Ltd 音声認識装置
JPH11265199A (ja) 1998-03-18 1999-09-28 Nippon Telegr & Teleph Corp <Ntt> 送話器
EP1586980B1 (en) 1998-03-18 2007-07-04 Nippon Telegraph and Telephone Corporation Wearable communication device for inputting commands via detection of tapping shocks or vibration of fingertips
JP2000009688A (ja) 1998-04-22 2000-01-14 Tokyo Gas Co Ltd 一酸化炭素センサ
US6052464A (en) * 1998-05-29 2000-04-18 Motorola, Inc. Telephone set having a microphone for receiving or an earpiece for generating an acoustic signal via a keypad
US6137883A (en) * 1998-05-30 2000-10-24 Motorola, Inc. Telephone set having a microphone for receiving an acoustic signal via keypad
JP3160714B2 (ja) * 1998-07-08 2001-04-25 株式会社シコー技研 携帯無線通信機
JP3893763B2 (ja) * 1998-08-17 2007-03-14 富士ゼロックス株式会社 音声検出装置
WO2000021194A1 (en) 1998-10-08 2000-04-13 Resound Corporation Dual-sensor voice transmission system
JP2000196723A (ja) 1998-12-25 2000-07-14 Koichi Tamura 筒状アンテナ、マイク
JP2000209688A (ja) 1999-01-19 2000-07-28 Temuko Japan:Kk 骨導マイク
US6760600B2 (en) * 1999-01-27 2004-07-06 Gateway, Inc. Portable communication apparatus
US6408269B1 (en) * 1999-03-03 2002-06-18 Industrial Technology Research Institute Frame-based subband Kalman filtering method and apparatus for speech enhancement
JP2000261530A (ja) 1999-03-10 2000-09-22 Nippon Telegr & Teleph Corp <Ntt> 通話装置
JP2000261534A (ja) 1999-03-10 2000-09-22 Nippon Telegr & Teleph Corp <Ntt> 送受話器
JP2000261529A (ja) 1999-03-10 2000-09-22 Nippon Telegr & Teleph Corp <Ntt> 通話装置
DE19917169A1 (de) 1999-04-16 2000-11-02 Kamecke Keller Orla Verfahren zur Speicherung und Wiedergabe von Audio-, Video- und Anwendungsprogrammdaten in Mobilfunkendgeräten
US6094492A (en) * 1999-05-10 2000-07-25 Boesen; Peter V. Bone conduction voice transmission apparatus and system
US20020057810A1 (en) * 1999-05-10 2002-05-16 Boesen Peter V. Computer and voice communication unit with handsfree device
US6542721B2 (en) * 1999-10-11 2003-04-01 Peter V. Boesen Cellular telephone, personal digital assistant and pager unit
US6952483B2 (en) * 1999-05-10 2005-10-04 Genisus Systems, Inc. Voice transmission apparatus with UWB
US6560468B1 (en) * 1999-05-10 2003-05-06 Peter V. Boesen Cellular telephone, personal digital assistant, and pager unit with capability of short range radio frequency transmissions
JP2000354284A (ja) 1999-06-10 2000-12-19 Iwatsu Electric Co Ltd 送受一体形電気音響変換器を用いる送受話装置
US6594629B1 (en) * 1999-08-06 2003-07-15 International Business Machines Corporation Methods and apparatus for audio-visual speech detection and recognition
KR100304666B1 (ko) * 1999-08-28 2001-11-01 윤종용 음성 향상 방법
JP2001119797A (ja) 1999-10-15 2001-04-27 Phone Or Ltd 携帯電話装置
US6339706B1 (en) * 1999-11-12 2002-01-15 Telefonaktiebolaget L M Ericsson (Publ) Wireless voice-activated remote control device
US6411933B1 (en) * 1999-11-22 2002-06-25 International Business Machines Corporation Methods and apparatus for correlating biometric attributes and biometric attribute production features
US6675027B1 (en) * 1999-11-22 2004-01-06 Microsoft Corp Personal mobile computing device having antenna microphone for improved speech recognition
JP3576915B2 (ja) 2000-02-28 2004-10-13 株式会社ケンウッド 携帯電話装置
JP2001292489A (ja) 2000-04-10 2001-10-19 Kubota Corp 骨伝導マイク付きヘッドホン
GB2363557A (en) * 2000-06-16 2001-12-19 At & T Lab Cambridge Ltd Method of extracting a signal from a contaminated signal
JP3339579B2 (ja) * 2000-10-04 2002-10-28 株式会社鷹山 電話装置
JP2002125298A (ja) 2000-10-13 2002-04-26 Yamaha Corp マイク装置およびイヤホンマイク装置
US20020075306A1 (en) * 2000-12-18 2002-06-20 Christopher Thompson Method and system for initiating communications with dispersed team members from within a virtual team environment using personal identifiers
US7617099B2 (en) * 2001-02-12 2009-11-10 FortMedia Inc. Noise suppression by two-channel tandem spectrum modification for speech signal in an automobile
US7082393B2 (en) 2001-03-27 2006-07-25 Rast Associates, Llc Head-worn, trimodal device to increase transcription accuracy in a voice recognition system and to process unvocalized speech
GB2375276B (en) 2001-05-03 2003-05-28 Motorola Inc Method and system of sound processing
WO2002098169A1 (en) 2001-05-30 2002-12-05 Aliphcom Detecting voiced and unvoiced speech using both acoustic and nonacoustic sensors
JP2002358089A (ja) 2001-06-01 2002-12-13 Denso Corp 音声処理装置及び音声処理方法
US6987986B2 (en) * 2001-06-21 2006-01-17 Boesen Peter V Cellular telephone, personal digital assistant with dual lines for simultaneous uses
US7054423B2 (en) * 2001-09-24 2006-05-30 Nebiker Robert M Multi-media communication downloading
JP3532544B2 (ja) * 2001-10-30 2004-05-31 株式会社テムコジャパン 面体又は帽体のストラップ装着用送受話装置
US6664713B2 (en) * 2001-12-04 2003-12-16 Peter V. Boesen Single chip device for voice communications
AU2002222893A1 (en) 2001-12-21 2003-07-09 Rti Tech Pte Ltd. Vibration-based talk-through method and apparatus
US7219062B2 (en) * 2002-01-30 2007-05-15 Koninklijke Philips Electronics N.V. Speech activity detection using acoustic and facial characteristics in an automatic speech recognition system
US9374451B2 (en) 2002-02-04 2016-06-21 Nokia Technologies Oy System and method for multimodal short-cuts to digital services
GB2390264B (en) 2002-06-24 2006-07-12 Samsung Electronics Co Ltd Usage position detection
US7103541B2 (en) * 2002-06-27 2006-09-05 Microsoft Corporation Microphone array signal enhancement using mixture models
US7146315B2 (en) * 2002-08-30 2006-12-05 Siemens Corporate Research, Inc. Multichannel voice detection in adverse environments
US7269560B2 (en) * 2003-06-27 2007-09-11 Microsoft Corporation Speech detection and enhancement using audio/video fusion
US20060008256A1 (en) * 2003-10-01 2006-01-12 Khedouri Robert K Audio visual player apparatus and system and method of content distribution using the same
US7499686B2 (en) * 2004-02-24 2009-03-03 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement on a mobile device
EP1600947A3 (en) * 2004-05-26 2005-12-21 Honda Research Institute Europe GmbH Subtractive cancellation of harmonic noise
US8095073B2 (en) * 2004-06-22 2012-01-10 Sony Ericsson Mobile Communications Ab Method and apparatus for improved mobile station and hearing aid compatibility
US7574008B2 (en) * 2004-09-17 2009-08-11 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement
US7283850B2 (en) * 2004-10-12 2007-10-16 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement on a mobile device
US7590529B2 (en) * 2005-02-04 2009-09-15 Microsoft Corporation Method and apparatus for reducing noise corruption from an alternative sensor signal during multi-sensory speech enhancement

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000330597A (ja) * 1999-05-20 2000-11-30 Matsushita Electric Ind Co Ltd 雑音抑圧装置
JP2004102287A (ja) * 2002-09-06 2004-04-02 Microsoft Corp 劣化信号から雑音を除去する非線形観測モデル
JP2004191968A (ja) * 2002-12-10 2004-07-08 Internatl Business Mach Corp <Ibm> 信号ソースを分離するための方法及び装置
JP2005157354A (ja) * 2003-11-26 2005-06-16 Microsoft Corp 複数感知の音声強調のための方法および機器

Also Published As

Publication number Publication date
KR20080019222A (ko) 2008-03-03
US7680656B2 (en) 2010-03-16
WO2007001821A2 (en) 2007-01-04
KR101224755B1 (ko) 2013-01-21
JP5452655B2 (ja) 2014-03-26
EP1891624B1 (en) 2011-05-04
RU2007149546A (ru) 2009-07-10
WO2007001821A3 (en) 2009-04-30
US20060293887A1 (en) 2006-12-28
MX2007015446A (es) 2008-02-25
EP1891624A2 (en) 2008-02-27
EP1891624A4 (en) 2009-11-04
CN101606191B (zh) 2012-03-21
BRPI0612668A2 (pt) 2010-11-30
ATE508454T1 (de) 2011-05-15
JP2009501940A (ja) 2009-01-22
CN101606191A (zh) 2009-12-16
DE602006021741D1 (de) 2011-06-16
RU2420813C2 (ru) 2011-06-10
JP5000647B2 (ja) 2012-08-15

Similar Documents

Publication Publication Date Title
JP5452655B2 (ja) 音声状態モデルを使用したマルチセンサ音声高品質化
JP4842583B2 (ja) 多感覚音声強調のための方法および装置
RU2373584C2 (ru) Способ и устройство для повышения разборчивости речи с использованием нескольких датчиков
JP4975025B2 (ja) クリーン音声の事前分布を使用した多感覚応用の音声強調
JP5021212B2 (ja) 複数感知の音声強調の際に代替センサ信号によるノイズ破損を低減するための方法および装置
US7406303B2 (en) Multi-sensory speech enhancement using synthesized sensor signal
US7930178B2 (en) Speech modeling and enhancement based on magnitude-normalized spectra

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130402

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130702

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20130712

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20130719

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131203

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131227

R150 Certificate of patent or registration of utility model

Ref document number: 5452655

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees