JP2014523003A - オーディオ信号処理 - Google Patents

オーディオ信号処理 Download PDF

Info

Publication number
JP2014523003A
JP2014523003A JP2014519291A JP2014519291A JP2014523003A JP 2014523003 A JP2014523003 A JP 2014523003A JP 2014519291 A JP2014519291 A JP 2014519291A JP 2014519291 A JP2014519291 A JP 2014519291A JP 2014523003 A JP2014523003 A JP 2014523003A
Authority
JP
Japan
Prior art keywords
signal
audio
main
information
current frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014519291A
Other languages
English (en)
Other versions
JP2014523003A5 (ja
Inventor
ストローマー,ステファン
ヴァンドボルグ セレンセン,カルステン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2014523003A publication Critical patent/JP2014523003A/ja
Publication of JP2014523003A5 publication Critical patent/JP2014523003A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

モバイルユーザー間のリアルタイム・ビデオ・セッションのQoEを改善するためのコンピュータ実装されるシステムおよび方法が記載される。たとえば、本発明のある実施形態に基づく方法は:サービス・プロバイダー・ネットワークの周縁上に一つまたは複数のサーバーを構成する段階と;第一のモバイル装置から、第二のモバイル装置とのリアルタイム通信セッションを確立するための要求を受信する段階と;前記第一のモバイル装置および前記第二のモバイル装置に、前記サーバーに接続するためのネットワーキング情報を与える段階と;前記サーバーを通じてリアルタイム通信セッションを確立する段階とを含む。

Description

本発明は、通信セッション中のオーディオ信号の処理に関する。
通信システムは、ユーザーがネットワークを通じて互いと通信することを許容する。ネットワークは、たとえばインターネットまたは公衆電話交換網(PSTN: Public Switched Telephone Network)であってもよい。オーディオ信号はネットワークのノード間で伝送され、それによりユーザーが通信システム上での通信セッションにおいて互いにオーディオ・データ(発話データなど)を送受信することを許容することができる。
ユーザー装置は、ユーザーからの発話のようなオーディオ信号を受領するために使用できるマイクロホンのようなオーディオ入力手段を有していてもよい。ユーザーは、個人通話(二人だけのユーザーが通話に参加)または会議通話(三人以上のユーザーが通話に参加)のような、別のユーザーとの通信セッションにはいることができる。ユーザーの発話はマイクロホンにおいて受領され、処理され、次いでネットワークを通じて通話に含まれる他のユーザー(単数または複数)に送信される。
ユーザーからのオーディオ信号とともに、マイクロホンは、背景雑音のような他のオーディオ信号をも受領することがある。これはユーザーから受領されたオーディオ信号を乱すことがありうる。
ユーザー装置はまた、通話の間に前記ユーザー(単数または複数)からネットワークを通じて受領されるオーディオ信号をユーザーに対して出力するためのスピーカーのようなオーディオ出力手段をも有していてもよい。しかしながら、スピーカーは、ユーザー装置において実行されている他のアプリケーションからのオーディオ信号を出力するためにも使用されうる。たとえば、ユーザー装置は、ネットワークを通じて通信するための通信クライアントのようなアプリケーションを実行するテレビであってもよい。ユーザー装置が通話に携わるとき、ユーザー装置に接続されたマイクロホンは、通話における他のユーザー(単数または複数)への送信のために意図された、ユーザーによって提供される発話または他のオーディオ信号を受領するよう意図されている。しかしながら、マイクロホンは、ユーザー装置のスピーカーから出力される望まれないオーディオ信号を拾うことがありうる。ユーザー装置から出力されるそうした望まれない信号は、通話における送信のためにユーザーからマイクロホンにおいて受領されるオーディオ信号に対して擾乱を寄与することがある。
通話における使用などのために信号の品質を改善するために、ユーザー装置のオーディオ入力手段において受領される望まれないオーディオ信号(背景雑音およびユーザー装置から出力される望まれないオーディオ信号)を抑制することが望ましい。
複数のマイクロホンが単一のデバイスとして動作するステレオ・マイクロホンおよびマイクロホン・アレイの使用がますます一般的になりつつある。これらは、単一のマイクロホンによって達成できるものに加えて、抽出された空間的情報の使用を可能にする。そのようなデバイスを使うとき、望まれないオーディオ信号を抑制する一つのアプローチは、ビーム形成器〔ビームフォーマー〕を適用することである。ビーム形成は、一つまたは複数の所望される方向から来る音を向上させるために信号処理を適用することによってマイクロホン・アレイによって受領された信号をフォーカスしようとするプロセスである。簡単のため、以下では単一の所望される方向だけがある場合を記述するが、同じ方法は、関心のある方向がより多くあるときにも適用される。ビーム形成は、望まれる信号がマイクロホンにおいて受領される角度、いわゆる到来方向(DOA: Direction of Arrival)情報を推定することによって達成される。適応ビーム形成器は、DOA情報を使ってアレイ内のマイクロホンからの信号をフィルタ処理して、望まれる信号がマイクロホン・アレイにおいて受領された方向において高い利得を、他の任意の方向では低い利得をもつビームを形成する。
ビーム形成器は、望まれない方向から来る望まれないオーディオ信号を抑制しようとするが、マイクロホンの数ならびにマイクロホン・アレイの形およびサイズがビーム形成器の効果を制限する。結果として、望まれないオーディオ信号は抑制されるが、可聴のままとなる。
その後の単一チャンネル処理のために、ビーム形成器の出力は一般には、単一チャンネル・ノイズ削減段に入力信号として供給される。単一チャンネル・ノイズ削減を実装するさまざまな方法がこれまで提案されている。使用されている単一チャンネル・ノイズ削減方法の大多数はスペクトル減算法の変形である。
スペクトル減算法は、発話にノイズを加えた信号からノイズを分離しようと試みる。スペクトル減算は、スペクトルにノイズを加えた信号のパワースペクトルを計算し、ノイズ・スペクトルの推定を得ることに関わる。発話にノイズを加えた信号のパワースペクトルは、推定されたノイズ・スペクトルと比較される。ノイズ削減は、たとえば、ノイズ・スペクトルの絶対値を発話にノイズを加えたスペクトルの絶対値から引くことによって実装されることができる。発話にノイズを加えた信号が高い信号・雑音対雑音比(SNNR: Signal-plus-Noise to Noise Ratio)をもつ場合には、適用されるノイズ削減はきわめてわずかである。しかしながら、発話にノイズを加えた信号が低いSNNRをもつ場合には、ノイズ削減はノイズ・エネルギーを有意に低減する。
Boll, S、"Suppression of acoustic noise in speech using spectral subtraction、"IEEE Transactions on Acoustics, Speech and Signal Processing、April 1979、Volume 27, Issue 2, pp.113-120
スペクトル減算の問題は、しばしば発話を歪め、その結果、時間的かつスペクトル的にゆらぎのある利得変化が生じ、それはしばしばミュージカル・トーンと称される型の残差ノイズの出現につながり、これが通話における伝送される発話品質に影響することがありうる。単一チャンネル・ノイズ削減を実装する他の既知の方法においても、この問題はさまざまな程度で生じる。
本発明の第一の側面によれば、ユーザー装置とリモート・ノードとの間の通信セッションの間にオーディオ信号を処理する方法であって:少なくとも一つの主要オーディオ信号および望まれない信号を含む複数のオーディオ信号を、前記ユーザー装置におけるオーディオ入力手段において受領する段階と;ノイズ抑制手段において前記信号の到来方向情報を受領する段階と;前記望まれない信号の少なくとも一部を表わす既知の到来方向情報を前記ノイズ抑制手段に提供する段階と;前記ノイズ抑制手段において、前記オーディオ信号の到来方向情報と前記既知の到来方向情報との間の比較に依存して望まれないと同定された前記信号の諸部分をノイズとして扱うよう、前記オーディオ信号を処理する段階とを含む、方法が提供される。
好ましくは、前記オーディオ入力手段は:前記少なくとも一つの主要オーディオ信号が前記オーディオ入力手段において受領される少なくとも一つの主方向を推定し;前記少なくとも一つの主方向においてビームを形成し、前記主方向以外の任意の方向からのオーディオ信号を実質的に抑制することによって、単一チャンネル・オーディオ出力信号を生成するよう、前記複数のオーディオ信号を処理するよう構成されているビーム形成器を有する。
好ましくは、前記単一チャンネル・オーディオ出力信号はフレームのシーケンスを含み、前記ノイズ抑制手段は前記フレームのそれぞれを順に処理する。
好ましくは、処理されている現在フレームの主信号成分についての到来方向情報が前記ノイズ抑制手段において受領され、当該方法はさらに:前記現在フレームの主信号成分についての到来方向情報と、既知の到来方向情報とを比較することを含む。
前記既知の到来方向情報は、前記オーディオ入力手段において遠端信号が受領される少なくとも一つの方向を含む。代替的または追加的に、前記既知の到来方向情報は、少なくとも一つの分類された方向を含む。前記少なくとも一つの分類された方向は、少なくとも一つの望まれないオーディオ信号が前記オーディオ入力手段に到着する方向であり、前記少なくとも一つの望まれないオーディオ信号の信号特性に基づいて同定される。代替的または追加的に、前記既知の到来方向情報は、前記少なくとも一つの主要オーディオ信号が前記オーディオ入力手段において受領される少なくとも一つの主方向を含む。代替的または追加的に、前記既知の到来方向情報はさらに、前記ビーム形成器のビーム・パターンを含む。
ある実施形態では、当該方法はさらに:前記現在フレームの主信号成分が望まれない信号であるかどうかを、前記比較に基づいて判定し;前記現在フレームの主信号成分が望まれない信号であると判定される場合には処理されている現在フレームに最大減衰を適用することを含む。現在フレームの主信号成分が望まれない信号であると判定されるのは:主信号成分が前記オーディオ入力手段において、前記オーディオ入力手段において遠端信号が受領される前記少なくとも一つの方向から受領される;あるいは主信号成分が前記オーディオ入力手段において前記少なくとも一つの分類された方向から受領される;あるいは主信号成分が前記オーディオ入力手段において前記少なくとも一つの主方向から受領されない場合であってもよい。
本方法はさらに:信号処理手段において、前記複数のオーディオ信号および前記少なくとも一つの主方向についての情報を受領する段階と;前記信号処理手段において、前記少なくとも一つの主方向についての前記情報を使って前記複数のオーディオ信号を処理して前記ノイズ抑制手段に追加的情報を提供する段階と;前記追加的情報および前記比較に依存して前記ノイズ抑制手段において処理されている現在フレームにあるレベルの減衰を適用する段階とを含んでいてもよい。
あるいはまた、本方法はさらに:信号処理手段において、前記単一チャンネル・オーディオ出力信号および前記少なくとも一つの主方向についての情報を受領する段階と;前記信号処理手段において、前記少なくとも一つの主方向についての前記情報を使って前記単一チャンネル・オーディオ出力信号を処理して前記ノイズ抑制手段に追加的情報を提供する段階と;前記追加的情報および前記比較に依存して前記ノイズ抑制手段において処理されている現在フレームにあるレベルの減衰を適用する段階とを含んでいてもよい。
前記追加的情報は:現在フレームの主信号成分の望ましさについての指標、または前記少なくとも一つの主要オーディオ信号の平均パワー・レベルに対する現在フレームの主信号成分のパワー・レベル、または現在フレームの主信号成分の信号分類、または現在フレームの主信号成分が前記オーディオ入力手段において受領される少なくとも一つの方向を含んでいてもよい。
好ましくは、前記少なくとも一つの主方向は:前記オーディオ入力手段において受領されているオーディオ信号間の相互相関を最大化する時間遅延を決定し;前記オーディオ入力手段において受領されるオーディオ信号における発話特性であって最大相互相関の前記時間遅延をもつものを検出することによって決定される。
好ましくは、前記通信セッションにおいて前記リモート・ノードから前記ユーザー装置において受領されるオーディオ・データは、前記ユーザー装置のオーディオ出力手段から出力される。
望まれない信号は、前記ユーザー装置における源によって生成されるものであってもよく、前記源は:前記ユーザー装置のオーディオ出力手段;前記ユーザー装置における活動の源のうちの少なくとも一つを含む。前記活動は、ボタン・クリック活動、キーボード・クリック活動およびマウス・クリック活動を含むクリック活動を含む。あるいはまた、望まれない信号は、前記ユーザー装置の外部の源によって生成される。
好ましくは、前記少なくとも一つの主要オーディオ信号は、前記オーディオ入力手段において受領される発話信号である。
本発明の第二の側面によれば、ユーザー装置とリモート・ノードとの間の通信セッションの間にオーディオ信号を処理するユーザー装置であって:少なくとも一つの主要オーディオ信号および望まれない信号を含む複数のオーディオ信号を受領するオーディオ入力手段と;前記オーディオ信号の到来方向情報および前記望まれない信号の少なくとも一部を表わす既知の到来方向情報を受領するノイズ抑制手段であって、前記オーディオ信号の到来方向情報と前記既知の到来方向情報との間の比較に依存して望まれないと同定された前記信号の諸部分をノイズとして扱うことによって前記オーディオ信号を処理するよう構成されている、ノイズ抑制手段と有する、ユーザー装置が提供される。
本発明の第三の側面によれば、ユーザー装置とリモート・ノードとの間の通信セッションの間にオーディオ信号を処理するユーザー装置におけるコンピュータ処理手段によって実行されるためのコンピュータ可読命令を含むコンピュータ・プログラム・プロダクトであって、前記命令は、本発明の第一の側面に基づく方法を実行するための命令を含む、ものが提供される。
以下の記述される実施形態では、到来方向情報は、その後の単一チャンネル・ノイズ削減方法においてどのくらいの抑制を適用すべきかの決定を洗練するために使用される。たいていの単一チャンネル・ノイズ削減方法は、自然に聞こえるが減衰した背景雑音を保証するために入力信号に適用される最大抑制因子をもつので、到来方向情報は、ビーム形成器がフォーカスしている以外の他の任意の角度から音が到着するときに最大抑制因子が適用されることを保証するために使われる。たとえば、遠端発話を再生するのに使われるのと同じスピーカーを通じての、おそらくは低められたボリュームでの、テレビ再生の場合、問題は、出力がマイクロホンによって拾われるということである。本発明の記述される実施形態では、オーディオがスピーカーの角度から到着していることが検出され、ビーム形成器による試みられた抑制に加えて、最大ノイズ削減が適用される。結果として、望まれない信号はより聞こえにくくなり、よって遠端の話者にとってそれほど煩わしくなくなる。そして、低減したエネルギーのため、信号を遠端に伝送するために使われる平均ビットレートを下げることになる。
本発明のよりよい理解のため、また本発明がどのように実施されうるかを示すため、ここで例として以下の図面を参照する。
ある好ましい実施形態に基づく通信システムを示す図である。 ある好ましい実施形態に基づくユーザー端末の概略図である。 ユーザー端末の例示的な環境を示す図である。 ある実施形態に基づくユーザー端末におけるオーディオ入力手段の概略図である。 ある実施形態における、DOA情報がどのように推定されるかを表わす図である。
本発明の以下の実施形態では、フォーカスの方向からやってくるのでない音を減衰させるために完全にビーム形成器に頼るのではなく、その後の単一チャンネル・ノイズ削減方法においてDOA情報を使うことにより、ビーム形成器がフォーカスしている以外の他の任意の方向からの音の最大単一チャンネル・ノイズ抑制が保証される技法が記述される。これは、望まれない信号が空間的情報を使って望まれる近端発話信号から区別できるときに、著しい利点となる。そのような源の例は音楽を再生しているラウドスピーカー、送風しているファンおよび閉じるドアである。
信号分類を使うことによって、他の源の方向を見出すこともできる。そのような源の例は、たとえば冷却ファン/空調システム、バックグラウンドにおける音楽プレイおよびキーボード・タップでありうる。
二つのアプローチを取ることができる。第一に、ある種の方向から到着する望まれない源が同定されることができ、それらの角度が、最大抑制のために使われるノイズ抑制利得より高いノイズ抑制利得が許容される角度から除外される。たとえば、ある種の望まれない方向からのオーディオの諸セグメントが、当該信号がノイズしか含まないかのようにスケールダウンされることを保証することが可能である。実際上、ノイズ推定値は、そのようなセグメントについての入力信号に等しいと設定されることができ、その結果、ノイズ削減方法は、最大減衰を適用することになる。
第二に、ノイズ削減は、近端発話が到着することを期待する方向以外の他の任意の方向における発話に対してはそれほど敏感でなくすことができる。すなわち、信号・雑音対雑音比の関数としてノイズのある信号に適用する利得を計算するとき、信号・雑音対雑音比の関数としての利得は、我々が、はいってくる発話の角度がどれくらい望ましいと考えるかにも依存する。望まれる方向については、所与の信号・雑音対雑音比の関数としての利得は、それほど望まれない方向についてよりも高いであろう。第二の方法は、主要話者(単数または複数)と同じ方向から到着するのでなく、ノイズの源であると検出されてもいない、動いているノイズ源に基づいて調整しないことを保証する。
本発明の諸実施形態は、単一チャンネルをもつモノフォニック音再生(しばしばモノと称される)アプリケーションにおいて特に重要である。(二つ以上の独立なオーディオ・チャンネルがある)ステレオ・アプリケーションにおけるノイズ削減は典型的には独立な単一チャンネル・ノイズ削減方法によって実行されるのではなく、むしろステレオ像がノイズ削減方法によって歪められないことを保証する方法によって実行される。
まず、ある好ましい実施形態の通信システム100を示している図1を参照する。通信システムの第一のユーザー(ユーザーA 102)はユーザー装置104を操作する。ユーザー装置104はたとえば、携帯電話、テレビジョン、携帯情報端末(「PDA」)、パーソナル・コンピュータ(「PC」)(たとえばウィンドウズ(商標)、マックOS(商標)およびリナックス(商標)パソコンを含む)、ゲーム機または通信システム100を通じて通信できる他の組み込みデバイスでありうる。
ユーザー装置104は、通信システム100を通じて通信するための通信クライアントのようなアプリケーションを実行するよう構成されていてもよい中央処理ユニット(CPU)108を有する。このアプリケーションは、ユーザー装置104が通信システム100を通じた通話および他の通信セッション(たとえばインスタント・メッセージ通信セッション)に従事することを許容する。ユーザー装置104は、インターネットまたは公衆電話交換網(PSTN)であってもよいネットワーク106を介して通信システム100を通じて通信できる。ユーザー装置104は、リンク110を通じてネットワークにデータを送信でき、ネットワーク106からデータを受信できる。
図1はまた、通信システム100を通じてユーザー装置104が通信できるリモート・ノードをも示している。図1に示した例では、リモート・ノードは、第二のユーザー112によって使用可能であり、通信システム100において通信ネットワーク106を通じてユーザー装置104が通信するのと同じ仕方で通信ネットワーク106を通じて通信するためのアプリケーション(たとえば通信クライアント)を実行できるCPU 116を有する第二のユーザー装置114である。ユーザー装置114はたとえば、携帯電話、テレビジョン、携帯情報端末(「PDA」)、パーソナル・コンピュータ(「PC」)(たとえばウィンドウズ(商標)、マックOS(商標)およびリナックス(商標)パソコンを含む)、ゲーム機または通信システム100を通じて通信できる他の組み込みデバイスでありうる。ユーザー装置114は、リンク118を通じてネットワークにデータを送信でき、ネットワーク106からデータを受信できる。したがって、ユーザーA 102およびユーザーB 112は通信ネットワーク106を通じて互いと通信できる。
図2は、前記クライアントが実行されるユーザー端末104の概略図を示している。ユーザー端末104は、CPU 108を有している。このCPUにスクリーンのようなディスプレイ204、キーボード214のような入力装置およびマウス212のようなポインティングデバイスが接続されている。ディスプレイ204は、CPU 108にデータを入力するためのタッチスクリーンを有していてもよい。出力オーディオ装置206(たとえばスピーカー)がCPU 108に接続されている。マイクロホン208のような入力オーディオ装置がノイズ抑制手段227を介してCPU 108に接続されている。ノイズ抑制手段227は図2ではスタンドアローンのハードウェア装置として表わされているが、ノイズ抑制手段227はソフトウェアで実装されてもよい。たとえば、ノイズ抑制手段227は前記クライアントに含まれていてもよい。
CPU 108は、ネットワーク106との通信のために、モデムのようなネットワーク・インターフェース226に接続されている。
ここで、ユーザー端末104の例示的な環境300を示す図3を参照する。
マイクロホン208で受領されたオーディオ信号が処理されるとき、所望されるオーディオ信号が同定される。処理の間、所望されるオーディオ信号は、発話様の性質の検出に基づいて同定され、メイン話者の主方向が決定される。これは図3に示されており、図3では、メイン話者(ユーザー102)が、主方向d1からマイクロホン208に到着する所望されるオーディオ信号の源302として示されている。図3には簡単のため単一のメイン話者が示されているが、環境300において望まれるオーディオ信号のいくつの源が存在していてもよいことは理解されるであろう。
望まれないノイズ信号の源は環境300中に存在していてもよい。図3は、方向d3からマイクロホン208に到着しうる、環境300内の望まれないノイズ信号のノイズ源304を示している。望まれないノイズ信号の源は、たとえば、冷却ファン、空調システムおよび音楽を再生している装置を含む。
望まれないノイズ信号は、ユーザー端末104におけるノイズ源、たとえばマウス212のクリック、キーボード214のタップおよびスピーカー206からのオーディオ信号出力からマイクロホン208に到着してもよい。図3は、マイクロホン208およびスピーカー206に接続されたユーザー端末104を示している。図3では、スピーカー206は、方向d3からマイクロホン208に到着しうる望まれないオーディオ信号の源である。
マイクロホン208およびスピーカー206はユーザー端末に接続された外部装置として示されたが、マイクロホン208およびスピーカー206はユーザー端末104に統合されていてもよいことは理解されるであろう。
ここで、ある実施形態に基づくマイクロホン208およびノイズ抑制手段227のより詳細なビューを示す図4を参照する。
マイクロホン208は、複数のマイクロホンを含むマイクロホン・アレイ402およびビーム形成器404を含む。マイクロホン・アレイ402における各マイクロホンの出力はビーム形成器404に結合される。当業者は、ビーム形成を実装するには複数の入力が必要とされることを理解するであろう。マイクロホン・アレイ402は図4では三つのマイクロホンを有するものとして示されている。マイクロホンのこの数は単に例であり、いかなる仕方であれ限定するものではないことは理解されるであろう。
ビーム形成器404は、マイクロホン・アレイ402からオーディオ信号を受領する処理ブロック409を含む。処理ブロック409は、音声活動検出器(VAD: voice activity detector)411およびDOA推定ブロック413(その動作については後述する)を含む。処理ブロック409は、マイクロホン・アレイ402によって受領されたオーディオ信号の性質を確かめ、VAD 11によって検出された発話様の品質の検出およびブロック413において推定されたDOA情報に基づいて、メイン話者(単数または複数)の一つまたは複数の主方向が決定される。ビーム形成器404は、DOA情報を使って、マイクロホン・アレイにおいて望まれる信号が受領される一つまたは複数の主方向からの方向において高い利得をもち、他の任意の方向において低い利得をもつビームを形成することによってオーディオ信号を処理する。処理ブロック409が主方向をいくつ決定してもよいことは上述したが、決定される主方向の数はビーム形成器の属性に影響する。たとえば、単一の主方向しか決定されない場合に比べ、マイクロホン・アレイにおいて他の(望まれない)諸方向から受領される信号の減衰が少なくなる。ビーム形成器404の出力は、処理されるべき単一チャンネルの形でライン406上で、ノイズ削減段227に、次いで自動利得制御手段(図4には示さず)に提供される。
好ましくは、ノイズ抑制は、自動利得制御手段によって利得のレベルが適用される前にビーム形成器の出力に適用される。これは、ノイズ抑制は、理論上、発話レベルを(意図せずして)わずかに低下させることがあり、自動利得制御手段はノイズ抑制後に発話レベルを高めてノイズ抑制によって引き起こされる発話レベルにおけるわずかな低下を補償することになるからである。
ビーム形成器404において推定されたDOA情報はノイズ削減段227および信号処理回路420に供給される。
ビーム形成器404において推定されたDOA情報は、自動利得制御手段にも供給されてもよい。自動利得制御手段は、ノイズ削減段227の出力に利得のレベルを適用する。ノイズ削減段227から出力されるチャンネルに適用される利得のレベルは、自動利得制御手段において受領されるDOA情報に依存する。自動利得制御手段の動作は、英国特許出願第1108885.3において記述されており、ここではこれ以上詳細に論じることはしない。
ノイズ削減段227はノイズ削減を単一チャンネル信号に適用する。ノイズ削減は、あくまでも例としてスペクトル減法(たとえば非特許文献1に記述されるようなもの)を含むいくつかの異なる仕方で実行できる。
この技法は(他の既知の技法も)ノイズとして同定された信号成分を抑制し、それにより信号対雑音比を高める。ここで、上記信号は、意図されている有用な信号、この場合には発話である。
下記でより詳細に述べるように、到来方向情報は、ノイズ削減段において、ノイズ削減を改善し、よって信号の品質を高めるために使用される。
DOA推定ブロック413の動作についてここで図5を参照してより詳細に述べる。
DOA推定ブロック413において、DOA情報は、たとえば相関法を使って、複数のマイクロホンにおける受領されたオーディオ信号間の時間遅延を推定し、前記複数のマイクロホンの位置についての先験的な知識を使って前記オーディオ信号の源を推定することによって、推定される。
図5は、オーディオ源516からオーディオ信号を受領するマイクロホン403および405を示している。距離dだけ離間されたマイクロホン403および405におけるオーディオ信号の到来方向は、式(1)を使って推定できる。
θ=arcsin(τDv/d) (1)
ここで、vは音速、τDは源516からのオーディオ信号がマイクロホン403および405に到着する時間の間の差、すなわち時間遅延である。時間遅延は、マイクロホン403および405の出力における信号の間の相互相関を最大にする時間ラグとして得られる。すると、この時間遅延に対応する角度θが見出されうる。
信号の相互相関を計算することは信号処理の技術分野における一般的な技法であり、本稿でこれ以上詳細に記述されないことは理解されるであろう。
ここで、ノイズ削減段227の動作について、下記でより詳細に述べる。本発明のあらゆる実施形態において、ノイズ削減段227は、ユーザー端末において知られておりDOAブロック227によって表わされるDOA情報を使い、処理されるべきオーディオ信号を受領する。ノイズ削減段227はフレーム毎にオーディオ信号を処理する。フレームはたとえば、5ミリ秒から20ミリ秒の間の長さであってもよく、あるノイズ抑制技法によれば、たとえばフレーム当たり64から256ビンまでの間のスペクトル・ビンに分割される。
ノイズ削減段227において実行される処理は、ノイズ削減段227に入力されたオーディオ信号の各フレームにあるレベルのノイズ抑制を適用することを含む。ノイズ削減段227によってオーディオ信号の各フレームに適用されるノイズ抑制のレベルは、処理されている現在フレームの抽出されたDOA情報とユーザー端末において知られているさまざまなオーディオ源についてのDOA情報の積み上げられた知識との間の比較に依存する。抽出されたDOA情報はフレームとともに渡され、フレーム自身に加えてノイズ削減段227への入力パラメータとして使われる。
ノイズ削減段227によって入力オーディオ信号に適用されるノイズ抑制のレベルは、いくつかの仕方でDOA情報によって影響されうる。
望まれる源からとして同定された方向からマイクロホン208に到着するオーディオ信号は、発話様の特性の検出に基づいて同定され、メイン話者の主方向からとして同定されてもよい。
ユーザー端末において知られているDOA情報427は、ビーム形成器のビーム・パターン408を含んでいてもよい。ノイズ削減段227はフレーム毎にオーディオ入力信号を処理する。フレームの処理の間、ノイズ削減段227は、フレーム内のオーディオ信号のメイン成分がマイクロホン208において受領された角度を見出すために、フレームのDOA情報を読む。フレームのDOA情報は、ユーザー端末において知られているDOA情報427と比較される。この比較が、処理されているフレームにおけるオーディオ信号のメイン成分が望まれる源の方向からマイクロホン208において受領されたかどうかを決定する。
代替的または追加的に、ユーザー端末において知られているDOA情報427は、遠端信号がユーザー端末において(206のような)スピーカーからマイクロホン208において受領される角度φを含んでいてもよい(ノイズ削減段227ライン407に供給される)。
代替的または追加的に、ユーザー端末において知られているDOA情報427は、可能性としては固定ノイズ源の結果として非常にノイズの多いある方向を特定するために、種々の方向からのオーディオを分類する関数425から導出されてもよい。
DOA情報427が主たる望まれる方向を表わし、比較により処理されているフレームのメイン成分がマイクロホン208においてその主方向から受領されていると判定される場合。ノイズ削減段227は上記の通常の方法を使ってノイズ抑制のレベルを決定する。
第一のアプローチでは、処理されているフレームのメイン成分がマイクロホン208において主方向以外の方向から受領されていると判定される場合、そのフレームに関連付けられたビンはみなノイズであるかのように扱われる(たとえ通常のノイズ削減技法が良好な信号・雑音対雑音比を同定し、よって著しくノイズを抑制しないとしても)。これは、ノイズ推定値をそのようなフレームについての入力信号に等しく設定することによってなされてもよく、結果として、ノイズ削減段は最大減衰をそのフレームに適用する。このようにして、望まれる方向以外の方向から到着するフレームは、ノイズとして抑制されることができ、信号品質が改善されることができる。
上述したように、ノイズ削減段227は、種々の方向におけるノイズ源(単数または複数)からマイクロホン208に到着する望まれないオーディオ信号を同定する関数425からDOA情報を受領してもよい。これらの望まれないオーディオ信号はその特性から同定される。たとえば、キーボード上のキー・タップまたはファンからのオーディオ信号は人間の発話とは異なる特性をもつ。望まれないオーディオ信号がマイクロホン208に到着する角度は、最大抑制のために使われるノイズ抑制利得より高いノイズ抑制利得が許容されるところにおいて除外される。したがって、処理されているフレーム中のオーディオ信号のメイン成分がマイクロホン208において、除外されている方向から受領されるとき、ノイズ削減段227は最大減衰をそのフレームに適用する。
検証手段423がさらに含められてもよい。たとえば、(たとえばビーム形成器の場合、ビーム・パターン408に基づいて)ひとたび一つまたは複数の主方向が検出されたら、クライアントはユーザー102に検出された主方向を、クライアント・ユーザー・インターフェースを介して通知し、ユーザー102に、検出された主方向が正しいかどうかを尋ねる。この検証は、図4において破線で示されるように、任意的である。
ユーザー102が検出された主方向が正しいと確証する場合、検出された主方向はノイズ削減段227に送られ、ノイズ削減段227は上記のように動作する。ひとたびユーザー102がクライアントにログインし、検出された主方向が正しいと確証したら、通信クライアントは、検出された主方向をメモリ210に記憶してもよい。クライアントへのその後のログイン後は、検出された主方向がメモリ内の確証された正しい主方向に一致する場合、検出された主方向は正しいと解釈される。これは、ユーザーがクライアントにログインするたびに主方向を確証しなければならないことを防ぐ。
ユーザーが検出された主方向が正しくないことを示す場合、検出された主方向はDOA情報としてノイズ削減段227に送られない。この場合、(図5を参照して上述した)相関ベースの方法が主方向の検出を続け、ユーザー102が検出された主方向が正しいと確証したときにのみ検出された一つまたは複数の主方向を送る。
第一のアプローチでは、動作モードは、フレームのDOA情報に基づいて最大減衰が処理されているフレームに適用されることができるというものである。
第二のアプローチでは、ノイズ削減段227はそのような厳格な動作モードでは動作しない。
第二のアプローチでは、フレーム中のオーディオ信号に適用する利得を信号・雑音対雑音比の関数として計算するとき、信号・雑音対雑音比の関数としての利得は追加的な情報に依存する。この追加的な情報は、信号処理ブロック(図4には示さず)において計算されることができる。
第一の実装では、信号処理ブロックは、マイクロホン208において実装されてもよい。信号処理ブロックは、入力として、マイクロホン・アレイ402からの遠端オーディオ信号を(該オーディオ信号がビーム形成器404に適用される前に)受領し、また、相関法から得られる主方向(単数または複数)についての情報をも受領する。この実装では、信号処理ブロックはノイズ削減段227に追加的な情報を出力する。
第二の実装では、信号処理ブロックはノイズ削減段227自身の中で実装されてもよい。信号処理ブロックは、ビーム形成器404からの単一チャンネル出力信号を入力として受領し、また、相関法から得られる主方向(単数または複数)についての情報をも受領する。この実装では、ノイズ削減段227は、スピーカー206がアクティブであることを示す情報を受領してもよく、処理されているフレーム内の主信号成分が、所望される発話の角度と異なる限り、ノイズのみとして扱われることを保証することができる。
いずれの実装でも、信号処理ブロックにおいて計算された追加的情報は、処理されているフレーム内のオーディオ信号に適用する利得を信号・雑音対雑音比の関数として計算するために、ノイズ削減段227によって使用される。
追加的情報はたとえば、所望される発話が特定の方向/角度から到着する確からしさを含んでいてもよい。
このシナリオにおいて、信号処理ブロックは、出力として、ノイズ削減段277によって現在処理されているフレームが、ノイズ削減段が保存すべき所望される成分を含んでいる可能性がどれくらいかを示す値を提供する。信号処理ブロックは、はいってくる発話がマイクロホン208において受領される角度の望ましさを定量化する。たとえば、オーディオ信号がエコーの間にマイクロホン208において受領される場合、これらのオーディオ信号がマイクロホン208において受領される角度は望まれない角度である可能性が高い。ユーザー端末における(206のような)スピーカーから受領される何らかの遠端信号を保存することは望ましくないからである。
このシナリオにおいて、ノイズ削減段227によってそのフレームに適用される、信号・雑音対雑音比の関数としてのノイズ抑制利得は、望ましさのこの定量化された指標に依存する。望まれる方向については、所与の信号・雑音対雑音比の関数としての利得は、それほど望まれない方向についてよりも高くなる。すなわち、より望まれる方向についてはノイズ削減段227によって適用される減衰はより少なくなる。
追加的情報は、代替的に、所望される方向(単数または複数)から受領されるオーディオ信号の平均パワーに対する現在フレームの主信号成分のパワーを含んでいてもよい。このシナリオでは、ノイズ削減段227によってフレームに適用される、信号・雑音対雑音比の関数としてのノイズ抑制利得は、このパワー比に依存する。主方向からの平均パワーに対して主信号成分のパワーが近いほど、ノイズ削減段227によって適用される、所与の信号・雑音対雑音比の関数としての前記利得は高くなる。すなわち、適用される減衰は少なくなる。
追加的情報は、代替的には、現在フレームの主信号成分の信号分類を提供する信号分類器出力であってもよい。このシナリオでは、ノイズ削減段227は、さまざまなレベルの減衰をフレームに適用してもよい。ここで、該フレームのメイン成分は、信号分類器出力に依存する特定の方向から、マイクロホン・アレイ402において受領される。したがって、角度が望まれない方向であると判定される場合、ノイズ削減段は、その望まれない方向からのノイズを、同じ望まれない方向からの発話よりも低減させてもよい。望まれる発話がその望まれない方向から到着することが予期されている場合には、これは可能であり、本当に実際的である。しかしながら、これは、ノイズが変調されるという大きな欠点がある。すなわち、所望される話者がアクティブであるときにはノイズが大きくなり、所望されない話者がアクティブであるときにはノイズが低くなる。そうではなく、この方向からの信号における発話のレベルをやや低減させるほうが好ましい。同じ量の減衰を確実に適用することによって厳密にノイズとして扱わないとしても、所望される発話とノイズとの間のどこか中間として扱う。これは、望まれない方向についてわずかに異なる減衰関数を使うことによって達成できる。
追加的情報は代替的には、現在フレームの主信号成分がオーディオ入力手段において受領される角度自身、すなわちライン407上でノイズ削減段227に供給されるφであってもよい。これは、オーディオ源が主方向(単数または複数)から遠ざかって動くにつれてより多くの減衰を適用することを可能にする。
この第二のアプローチでは、ノイズ削減段227が、フレームをノイズのみとして扱うのと、伝統的になされたように単一チャンネル・ノイズ削減方法においての両極端の中間で動作できるので、さらなるきめこまかさが提供される。したがって、ノイズ削減段227は、望まれない方向から到着するオーディオ信号について、完全にあたかもノイズでしかないかのうように扱うことなく、やや積極的にされることができる。すなわち、たとえば発話信号に対して何らかの減衰を適用するという意味で積極的ということである。
上記の実施形態は単一のユーザー102からオーディオ信号を受領するマイクロホン208に言及してきたが、たとえば電話会議ではマイクロホンが複数のユーザーからオーディオ信号を受領してもよいことは理解されるであろう。このシナリオでは、望まれるオーディオ信号の複数の源がマイクロホン208に到着する。
本発明について、好ましい実施形態を参照して具体的に図示し、記述してきたが、付属の請求項によって定義される本発明の範囲から外れることなく、形および詳細におけるさまざまな変更がなされてもよいことは当業者には理解されるであろう。

Claims (10)

  1. ユーザー装置とリモート・ノードとの間の通信セッションの間にオーディオ信号を処理する方法であって:
    少なくとも一つの主要オーディオ信号および望まれない信号を含む複数のオーディオ信号を、前記ユーザー装置におけるオーディオ入力手段において受領する段階と;
    ノイズ抑制手段において前記オーディオ信号の到来方向情報を受領する段階と;
    前記望まれない信号の少なくとも一部を表わす既知の到来方向情報を前記ノイズ抑制手段に提供する段階と;
    前記ノイズ抑制手段において、前記オーディオ信号の到来方向情報と前記既知の到来方向情報との間の比較に依存して望まれないと同定された前記信号の諸部分をノイズとして扱うよう、前記オーディオ信号を処理する段階とを含む、
    方法。
  2. 前記オーディオ入力手段は:
    前記少なくとも一つの主要オーディオ信号が前記オーディオ入力手段において受領される少なくとも一つの主方向を推定し;
    前記少なくとも一つの主方向においてビームを形成し、前記主方向以外の任意の方向からのオーディオ信号を実質的に抑制することによって、単一チャンネル・オーディオ出力信号を生成するよう、前記複数のオーディオ信号を処理するよう構成されているビーム形成器を有しており、
    前記単一チャンネル・オーディオ出力信号はフレームのシーケンスを含み、前記ノイズ抑制手段は前記フレームのそれぞれを順に処理する、
    請求項1記載の方法。
  3. 処理されている現在フレームの主信号成分についての到来方向情報が前記ノイズ抑制手段において受領され、当該方法はさらに:
    前記現在フレームの主信号成分についての到来方向情報と、前記既知の到来方向情報とを比較する段階を含んでおり、
    前記既知の到来方向情報は、(i)前記オーディオ入力手段において遠端信号が受領される少なくとも一つの方向;(ii)少なくとも一つの望まれないオーディオ信号が前記オーディオ入力手段に到着する方向であり、前記少なくとも一つの望まれないオーディオ信号の信号特性に基づいて同定される、少なくとも一つの分類された方向;(iii)前記少なくとも一つの主要オーディオ信号が前記オーディオ入力手段において受領される少なくとも一つの主方向;および(iv)前記ビーム形成器のビーム・パターンのうちの少なくとも一つを含む、
    請求項1または2記載の方法。
  4. 前記現在フレームの主信号成分が望まれない信号であるかどうかを、前記比較に基づいて判定する段階と;
    前記現在フレームの主信号成分が望まれない信号であると判定される場合には処理されている現在フレームに最大減衰を適用し;現在フレームの主信号成分を望まれない信号であると判定するのは:
    主信号成分が前記オーディオ入力手段において、前記オーディオ入力手段において遠端信号が受領される前記少なくとも一つの方向から受領される;あるいは
    主信号成分が前記オーディオ入力手段において前記少なくとも一つの分類された方向から受領される;あるいは
    主信号成分が前記オーディオ入力手段において前記少なくとも一つの主方向から受領されない場合である、段階とを含む、
    請求項3記載の方法。
  5. 信号処理手段において、前記複数のオーディオ信号および前記少なくとも一つの主方向についての情報を受領する段階と;
    前記信号処理手段において、前記少なくとも一つの主方向についての前記情報を使って前記複数のオーディオ信号を処理して前記ノイズ抑制手段に追加的情報を提供する段階と;
    前記追加的情報および前記比較に依存して前記ノイズ抑制手段において処理されている現在フレームにあるレベルの減衰を適用する段階とを含んでおり、
    前記追加的情報は:(i)現在フレームの主信号成分の望ましさについての指標、(ii)前記少なくとも一つの主要オーディオ信号の平均パワー・レベルに対する現在フレームの主信号成分のパワー・レベル、(iii)現在フレームの主信号成分の信号分類、および(iv)現在フレームの主信号成分が前記オーディオ入力手段において受領される少なくとも一つの方向のうちの一つを含む、
    請求項3記載の方法。
  6. 請求項4ないし8のうちいずれか一項記載の方法であって、さらに:
    信号処理手段において、前記単一チャンネル・オーディオ出力信号および前記少なくとも一つの主方向についての情報を受領する段階と;
    前記信号処理手段において、前記少なくとも一つの主方向についての前記情報を使って前記単一チャンネル・オーディオ出力信号を処理して前記ノイズ抑制手段に追加的情報を提供する段階と;
    前記追加的情報および前記比較に依存して前記ノイズ抑制手段において処理されている現在フレームにあるレベルの減衰を適用する段階とを含んでおり、
    前記追加的情報は:(i)現在フレームの主信号成分の望ましさについての指標、(ii)前記少なくとも一つの主要オーディオ信号の平均パワー・レベルに対する現在フレームの主信号成分のパワー・レベル、(iii)現在フレームの主信号成分の信号分類、および(iv)現在フレームの主信号成分が前記オーディオ入力手段において受領される少なくとも一つの方向のうちの一つを含む、
    方法。
  7. 請求項2ないし6のうちいずれか一項記載の方法であって、前記少なくとも一つの主方向は:
    前記オーディオ入力手段において受領されているオーディオ信号間の相互相関を最大化する時間遅延を決定し;
    前記オーディオ入力手段において受領されるオーディオ信号における発話特性であって最大相互相関の前記時間遅延をもつものを検出することによって決定される、
    方法。
  8. 前記望まれない信号は、前記ユーザー装置の外部の源または前記ユーザー装置における源によって生成され、前記源は:前記ユーザー装置のオーディオ出力手段;前記ユーザー装置における活動の源のうちの少なくとも一つを含み、前記活動は、ボタン・クリック活動、キーボード・クリック活動およびマウス・クリック活動を含むクリック活動を含む、請求項1ないし7のうちいずれか一項記載の方法。
  9. ユーザー装置とリモート・ノードとの間の通信セッションの間にオーディオ信号を処理するユーザー装置であって:
    少なくとも一つの主要オーディオ信号および望まれない信号を含む複数のオーディオ信号を受領するオーディオ入力手段と;
    前記オーディオ信号の到来方向情報および前記望まれない信号の少なくとも一部を表わす既知の到来方向情報を受領するノイズ抑制手段であって、前記オーディオ信号の到来方向情報と前記既知の到来方向情報との間の比較に依存して望まれないと同定された前記信号の諸部分をノイズとして扱うことによって前記オーディオ信号を処理するよう構成されている、ノイズ抑制手段と有する、
    ユーザー装置。
  10. ユーザー装置とリモート・ノードとの間の通信セッションの間にオーディオ信号を処理するユーザー装置におけるコンピュータ処理手段によって実行されるためのコンピュータ可読命令を含むコンピュータ・プログラム・プロダクトであって、前記命令は、請求項1ないし8のうちいずれか一項記載の方法を実行するための命令を含む、コンピュータ・プログラム・プロダクト。
JP2014519291A 2011-07-05 2012-07-05 オーディオ信号処理 Pending JP2014523003A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
GB1111474.1A GB2493327B (en) 2011-07-05 2011-07-05 Processing audio signals
GB1111474.1 2011-07-05
US13/212,688 US9269367B2 (en) 2011-07-05 2011-08-18 Processing audio signals during a communication event
US13/212,688 2011-08-18
PCT/US2012/045556 WO2013006700A2 (en) 2011-07-05 2012-07-05 Processing audio signals

Publications (2)

Publication Number Publication Date
JP2014523003A true JP2014523003A (ja) 2014-09-08
JP2014523003A5 JP2014523003A5 (ja) 2015-08-27

Family

ID=44512127

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014519291A Pending JP2014523003A (ja) 2011-07-05 2012-07-05 オーディオ信号処理

Country Status (7)

Country Link
US (1) US9269367B2 (ja)
EP (1) EP2715725B1 (ja)
JP (1) JP2014523003A (ja)
KR (1) KR101970370B1 (ja)
CN (1) CN103827966B (ja)
GB (1) GB2493327B (ja)
WO (1) WO2013006700A2 (ja)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012252240A (ja) * 2011-06-06 2012-12-20 Sony Corp 再生装置、信号処理装置、信号処理方法
GB2495278A (en) 2011-09-30 2013-04-10 Skype Processing received signals from a range of receiving angles to reduce interference
GB2495128B (en) 2011-09-30 2018-04-04 Skype Processing signals
GB2495130B (en) 2011-09-30 2018-10-24 Skype Processing audio signals
GB2495129B (en) 2011-09-30 2017-07-19 Skype Processing signals
GB2495472B (en) 2011-09-30 2019-07-03 Skype Processing audio signals
GB2495131A (en) 2011-09-30 2013-04-03 Skype A mobile device includes a received-signal beamformer that adapts to motion of the mobile device
GB2496660B (en) 2011-11-18 2014-06-04 Skype Processing audio signals
GB201120392D0 (en) 2011-11-25 2012-01-11 Skype Ltd Processing signals
JP6267860B2 (ja) * 2011-11-28 2018-01-24 三星電子株式会社Samsung Electronics Co.,Ltd. 音声信号送信装置、音声信号受信装置及びその方法
GB2497343B (en) 2011-12-08 2014-11-26 Skype Processing audio signals
US9881616B2 (en) * 2012-06-06 2018-01-30 Qualcomm Incorporated Method and systems having improved speech recognition
US9813262B2 (en) 2012-12-03 2017-11-07 Google Technology Holdings LLC Method and apparatus for selectively transmitting data using spatial diversity
US9979531B2 (en) 2013-01-03 2018-05-22 Google Technology Holdings LLC Method and apparatus for tuning a communication device for multi band operation
US10229697B2 (en) * 2013-03-12 2019-03-12 Google Technology Holdings LLC Apparatus and method for beamforming to obtain voice and noise signals
JP6446913B2 (ja) * 2014-08-27 2019-01-09 富士通株式会社 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム
CN105763956B (zh) * 2014-12-15 2018-12-14 华为终端(东莞)有限公司 视频聊天中录音的方法和终端
US10582288B2 (en) * 2015-06-26 2020-03-03 Harman International Industries, Incorporated Sports headphone with situational awareness
US9646628B1 (en) * 2015-06-26 2017-05-09 Amazon Technologies, Inc. Noise cancellation for open microphone mode
US9407989B1 (en) 2015-06-30 2016-08-02 Arthur Woodrow Closed audio circuit
CN105280195B (zh) * 2015-11-04 2018-12-28 腾讯科技(深圳)有限公司 语音信号的处理方法及装置
US20170270406A1 (en) * 2016-03-18 2017-09-21 Qualcomm Incorporated Cloud-based processing using local device provided sensor data and labels
CN106251878A (zh) * 2016-08-26 2016-12-21 彭胜 会务语音录入设备
US10127920B2 (en) 2017-01-09 2018-11-13 Google Llc Acoustic parameter adjustment
US20180218747A1 (en) * 2017-01-28 2018-08-02 Bose Corporation Audio Device Filter Modification
US10602270B1 (en) 2018-11-30 2020-03-24 Microsoft Technology Licensing, Llc Similarity measure assisted adaptation control
US10811032B2 (en) * 2018-12-19 2020-10-20 Cirrus Logic, Inc. Data aided method for robust direction of arrival (DOA) estimation in the presence of spatially-coherent noise interferers

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003195882A (ja) * 2001-12-21 2003-07-09 Fujitsu Ltd 信号処理システムおよび方法
JP2008054071A (ja) * 2006-08-25 2008-03-06 Hitachi Communication Technologies Ltd 紙擦れ音除去装置
JP2010026361A (ja) * 2008-07-23 2010-02-04 Internatl Business Mach Corp <Ibm> 音声収集方法、システム及びプログラム

Family Cites Families (108)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3313918A (en) 1964-08-04 1967-04-11 Gen Electric Safety means for oven door latching mechanism
DE2753278A1 (de) 1977-11-30 1979-05-31 Basf Ag Aralkylpiperidinone
US4849764A (en) 1987-08-04 1989-07-18 Raytheon Company Interference source noise cancelling beamformer
US5208864A (en) 1989-03-10 1993-05-04 Nippon Telegraph & Telephone Corporation Method of detecting acoustic signal
FR2682251B1 (fr) 1991-10-02 1997-04-25 Prescom Sarl Procede et systeme de prise de son, et appareil de prise et de restitution de son.
US5542101A (en) 1993-11-19 1996-07-30 At&T Corp. Method and apparatus for receiving signals in a multi-path environment
US6157403A (en) 1996-08-05 2000-12-05 Kabushiki Kaisha Toshiba Apparatus for detecting position of object capable of simultaneously detecting plural objects and detection method therefor
US6232918B1 (en) 1997-01-08 2001-05-15 Us Wireless Corporation Antenna array calibration in wireless communication systems
US6549627B1 (en) 1998-01-30 2003-04-15 Telefonaktiebolaget Lm Ericsson Generating calibration signals for an adaptive beamformer
JP4163294B2 (ja) * 1998-07-31 2008-10-08 株式会社東芝 雑音抑圧処理装置および雑音抑圧処理方法
US6049607A (en) 1998-09-18 2000-04-11 Lamar Signal Processing Interference canceling method and apparatus
DE19943872A1 (de) 1999-09-14 2001-03-15 Thomson Brandt Gmbh Vorrichtung zur Anpassung der Richtcharakteristik von Mikrofonen für die Sprachsteuerung
US20020172376A1 (en) 1999-11-29 2002-11-21 Bizjak Karl M. Output processing system and method
EP1287672B1 (en) 2000-05-26 2007-08-15 Koninklijke Philips Electronics N.V. Method and device for acoustic echo cancellation combined with adaptive beamforming
US6885338B2 (en) 2000-12-29 2005-04-26 Lockheed Martin Corporation Adaptive digital beamformer coefficient processor for satellite signal interference reduction
JP2004537233A (ja) 2001-07-20 2004-12-09 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ エコー抑圧回路及びラウドスピーカ・ビームフォーマを有する音響補強システム
US20030059061A1 (en) 2001-09-14 2003-03-27 Sony Corporation Audio input unit, audio input method and audio input and output unit
US8098844B2 (en) 2002-02-05 2012-01-17 Mh Acoustics, Llc Dual-microphone spatial noise suppression
JP4195267B2 (ja) 2002-03-14 2008-12-10 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置、その音声認識方法及びプログラム
JP4161628B2 (ja) 2002-07-19 2008-10-08 日本電気株式会社 エコー抑圧方法及び装置
US8233642B2 (en) 2003-08-27 2012-07-31 Sony Computer Entertainment Inc. Methods and apparatuses for capturing an audio signal based on a location of the signal
EP1543307B1 (en) 2002-09-19 2006-02-22 Matsushita Electric Industrial Co., Ltd. Audio decoding apparatus and method
US6914854B1 (en) 2002-10-29 2005-07-05 The United States Of America As Represented By The Secretary Of The Army Method for detecting extended range motion and counting moving objects using an acoustics microphone array
CA2413217C (en) 2002-11-29 2007-01-16 Mitel Knowledge Corporation Method of acoustic echo cancellation in full-duplex hands free audio conferencing with spatial directivity
US6990193B2 (en) 2002-11-29 2006-01-24 Mitel Knowledge Corporation Method of acoustic echo cancellation in full-duplex hands free audio conferencing with spatial directivity
CN100534001C (zh) 2003-02-07 2009-08-26 日本电信电话株式会社 声音获取方法和声音获取装置
JP4104626B2 (ja) 2003-02-07 2008-06-18 日本電信電話株式会社 収音方法及び収音装置
US7519186B2 (en) * 2003-04-25 2009-04-14 Microsoft Corporation Noise reduction systems and methods for voice applications
GB0321722D0 (en) 2003-09-16 2003-10-15 Mitel Networks Corp A method for optimal microphone array design under uniform acoustic coupling constraints
CN100488091C (zh) 2003-10-29 2009-05-13 中兴通讯股份有限公司 应用于cdma系统中的固定波束成形装置及其方法
US7426464B2 (en) 2004-07-15 2008-09-16 Bitwave Pte Ltd. Signal processing apparatus and method for reducing noise and interference in speech communication and speech recognition
US20060031067A1 (en) 2004-08-05 2006-02-09 Nissan Motor Co., Ltd. Sound input device
ATE413769T1 (de) 2004-09-03 2008-11-15 Harman Becker Automotive Sys Sprachsignalverarbeitung für die gemeinsame adaptive reduktion von störgeräuschen und von akustischen echos
WO2006027707A1 (en) 2004-09-07 2006-03-16 Koninklijke Philips Electronics N.V. Telephony device with improved noise suppression
DE602004015987D1 (de) * 2004-09-23 2008-10-02 Harman Becker Automotive Sys Mehrkanalige adaptive Sprachsignalverarbeitung mit Rauschunterdrückung
JP2006109340A (ja) 2004-10-08 2006-04-20 Yamaha Corp 音響システム
US7983720B2 (en) 2004-12-22 2011-07-19 Broadcom Corporation Wireless telephone with adaptive microphone array
KR20060089804A (ko) 2005-02-04 2006-08-09 삼성전자주식회사 다중입출력 시스템을 위한 전송방법
JP4805591B2 (ja) 2005-03-17 2011-11-02 富士通株式会社 電波到来方向の追尾方法及び電波到来方向追尾装置
DE602005008914D1 (de) 2005-05-09 2008-09-25 Mitel Networks Corp Verfahren und System zum Reduzieren der Trainingszeit eines akustischen Echokompensators in einem Vollduplexaudiokonferenzsystem durch akustische Strahlbildung
JP2006319448A (ja) 2005-05-10 2006-11-24 Yamaha Corp 拡声システム
US8116485B2 (en) 2005-05-16 2012-02-14 Qnx Software Systems Co Adaptive gain control system
JP2006333069A (ja) 2005-05-26 2006-12-07 Hitachi Ltd 移動体用アンテナ制御装置およびアンテナ制御方法
JP2007006264A (ja) 2005-06-24 2007-01-11 Toshiba Corp ダイバーシチ受信機
JP5092748B2 (ja) 2005-09-02 2012-12-05 日本電気株式会社 雑音抑圧の方法及び装置並びにコンピュータプログラム
NO323434B1 (no) 2005-09-30 2007-04-30 Squarehead System As System og metode for a produsere et selektivt lydutgangssignal
KR100749451B1 (ko) 2005-12-02 2007-08-14 한국전자통신연구원 Ofdm 기지국 시스템에서의 스마트 안테나 빔 형성 방법및 장치
CN1809105B (zh) 2006-01-13 2010-05-12 北京中星微电子有限公司 适用于小型移动通信设备的双麦克语音增强方法及系统
JP4771311B2 (ja) 2006-02-09 2011-09-14 オンセミコンダクター・トレーディング・リミテッド フィルタ係数設定装置、フィルタ係数設定方法、及びプログラム
WO2007127182A2 (en) * 2006-04-25 2007-11-08 Incel Vision Inc. Noise reduction system and method
JP4747949B2 (ja) 2006-05-25 2011-08-17 ヤマハ株式会社 音声会議装置
JP2007318438A (ja) 2006-05-25 2007-12-06 Yamaha Corp 音声状況データ生成装置、音声状況可視化装置、音声状況データ編集装置、音声データ再生装置、および音声通信システム
US8000418B2 (en) 2006-08-10 2011-08-16 Cisco Technology, Inc. Method and system for improving robustness of interference nulling for antenna arrays
RS49875B (sr) 2006-10-04 2008-08-07 Micronasnit, Sistem i postupak za slobodnu govornu komunikaciju pomoću mikrofonskog niza
DE602006016617D1 (de) 2006-10-30 2010-10-14 Mitel Networks Corp Anpassung der Gewichtsfaktoren für Strahlformung zur effizienten Implementierung von Breitband-Strahlformern
CN101193460B (zh) 2006-11-20 2011-09-28 松下电器产业株式会社 检测声音的装置及方法
CN100524465C (zh) * 2006-11-24 2009-08-05 北京中星微电子有限公司 一种噪声消除装置和方法
US7945442B2 (en) 2006-12-15 2011-05-17 Fortemedia, Inc. Internet communication device and method for controlling noise thereof
KR101365988B1 (ko) 2007-01-05 2014-02-21 삼성전자주식회사 지향성 스피커 시스템의 자동 셋-업 방법 및 장치
JP4799443B2 (ja) 2007-02-21 2011-10-26 株式会社東芝 受音装置及びその方法
US8005238B2 (en) * 2007-03-22 2011-08-23 Microsoft Corporation Robust adaptive beamforming with enhanced noise suppression
US20090010453A1 (en) 2007-07-02 2009-01-08 Motorola, Inc. Intelligent gradient noise reduction system
JP4854630B2 (ja) 2007-09-13 2012-01-18 富士通株式会社 音処理装置、利得制御装置、利得制御方法及びコンピュータプログラム
WO2009049646A1 (en) 2007-10-16 2009-04-23 Phonak Ag Method and system for wireless hearing assistance
KR101437830B1 (ko) * 2007-11-13 2014-11-03 삼성전자주식회사 음성 구간 검출 방법 및 장치
US8379891B2 (en) 2008-06-04 2013-02-19 Microsoft Corporation Loudspeaker array design
NO328622B1 (no) 2008-06-30 2010-04-06 Tandberg Telecom As Anordning og fremgangsmate for reduksjon av tastaturstoy i konferanseutstyr
JP5555987B2 (ja) 2008-07-11 2014-07-23 富士通株式会社 雑音抑圧装置、携帯電話機、雑音抑圧方法及びコンピュータプログラム
EP2146519B1 (en) 2008-07-16 2012-06-06 Nuance Communications, Inc. Beamforming pre-processing for speaker localization
JP5206234B2 (ja) 2008-08-27 2013-06-12 富士通株式会社 雑音抑圧装置、携帯電話機、雑音抑圧方法及びコンピュータプログラム
KR101178801B1 (ko) * 2008-12-09 2012-08-31 한국전자통신연구원 음원분리 및 음원식별을 이용한 음성인식 장치 및 방법
CN101685638B (zh) 2008-09-25 2011-12-21 华为技术有限公司 一种语音信号增强方法及装置
US8401178B2 (en) 2008-09-30 2013-03-19 Apple Inc. Multiple microphone switching and configuration
US9159335B2 (en) * 2008-10-10 2015-10-13 Samsung Electronics Co., Ltd. Apparatus and method for noise estimation, and noise reduction apparatus employing the same
US8724829B2 (en) 2008-10-24 2014-05-13 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for coherence detection
US8218397B2 (en) * 2008-10-24 2012-07-10 Qualcomm Incorporated Audio source proximity estimation using sensor array for noise reduction
US8150063B2 (en) 2008-11-25 2012-04-03 Apple Inc. Stabilizing directional audio input from a moving microphone array
EP2197219B1 (en) 2008-12-12 2012-10-24 Nuance Communications, Inc. Method for determining a time delay for time delay compensation
US8401206B2 (en) 2009-01-15 2013-03-19 Microsoft Corporation Adaptive beamformer using a log domain optimization criterion
EP2222091B1 (en) 2009-02-23 2013-04-24 Nuance Communications, Inc. Method for determining a set of filter coefficients for an acoustic echo compensation means
US20100217590A1 (en) 2009-02-24 2010-08-26 Broadcom Corporation Speaker localization system and method
KR101041039B1 (ko) 2009-02-27 2011-06-14 고려대학교 산학협력단 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 방법 및 장치
JP5197458B2 (ja) 2009-03-25 2013-05-15 株式会社東芝 受音信号処理装置、方法およびプログラム
EP2237271B1 (en) 2009-03-31 2021-01-20 Cerence Operating Company Method for determining a signal component for reducing noise in an input signal
US8249862B1 (en) 2009-04-15 2012-08-21 Mediatek Inc. Audio processing apparatuses
JP5207479B2 (ja) * 2009-05-19 2013-06-12 国立大学法人 奈良先端科学技術大学院大学 雑音抑圧装置およびプログラム
US8620672B2 (en) 2009-06-09 2013-12-31 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for phase-based processing of multichannel signal
US8174932B2 (en) 2009-06-11 2012-05-08 Hewlett-Packard Development Company, L.P. Multimodal object localization
FR2948484B1 (fr) 2009-07-23 2011-07-29 Parrot Procede de filtrage des bruits lateraux non-stationnaires pour un dispositif audio multi-microphone, notamment un dispositif telephonique "mains libres" pour vehicule automobile
US8644517B2 (en) 2009-08-17 2014-02-04 Broadcom Corporation System and method for automatic disabling and enabling of an acoustic beamformer
FR2950461B1 (fr) * 2009-09-22 2011-10-21 Parrot Procede de filtrage optimise des bruits non stationnaires captes par un dispositif audio multi-microphone, notamment un dispositif telephonique "mains libres" pour vehicule automobile
CN101667426A (zh) 2009-09-23 2010-03-10 中兴通讯股份有限公司 一种消除环境噪声的装置及方法
EP2339574B1 (en) 2009-11-20 2013-03-13 Nxp B.V. Speech detector
TWI415117B (zh) 2009-12-25 2013-11-11 Univ Nat Chiao Tung 使用在麥克風陣列之消除殘響與減低噪音方法及其裝置
CN102111697B (zh) 2009-12-28 2015-03-25 歌尔声学股份有限公司 一种麦克风阵列降噪控制方法及装置
US8219394B2 (en) 2010-01-20 2012-07-10 Microsoft Corporation Adaptive ambient sound suppression and speech tracking
US8525868B2 (en) 2011-01-13 2013-09-03 Qualcomm Incorporated Variable beamforming with a mobile platform
GB2491173A (en) 2011-05-26 2012-11-28 Skype Setting gain applied to an audio signal based on direction of arrival (DOA) information
US9226088B2 (en) 2011-06-11 2015-12-29 Clearone Communications, Inc. Methods and apparatuses for multiple configurations of beamforming microphone arrays
GB2495472B (en) 2011-09-30 2019-07-03 Skype Processing audio signals
GB2495131A (en) 2011-09-30 2013-04-03 Skype A mobile device includes a received-signal beamformer that adapts to motion of the mobile device
GB2495278A (en) 2011-09-30 2013-04-10 Skype Processing received signals from a range of receiving angles to reduce interference
GB2495130B (en) 2011-09-30 2018-10-24 Skype Processing audio signals
GB2495128B (en) 2011-09-30 2018-04-04 Skype Processing signals
GB2495129B (en) 2011-09-30 2017-07-19 Skype Processing signals
GB2496660B (en) 2011-11-18 2014-06-04 Skype Processing audio signals
GB201120392D0 (en) 2011-11-25 2012-01-11 Skype Ltd Processing signals
GB2497343B (en) 2011-12-08 2014-11-26 Skype Processing audio signals

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003195882A (ja) * 2001-12-21 2003-07-09 Fujitsu Ltd 信号処理システムおよび方法
JP2008054071A (ja) * 2006-08-25 2008-03-06 Hitachi Communication Technologies Ltd 紙擦れ音除去装置
JP2010026361A (ja) * 2008-07-23 2010-02-04 Internatl Business Mach Corp <Ibm> 音声収集方法、システム及びプログラム

Also Published As

Publication number Publication date
CN103827966A (zh) 2014-05-28
WO2013006700A3 (en) 2013-06-06
CN103827966B (zh) 2018-05-08
WO2013006700A2 (en) 2013-01-10
US20130013303A1 (en) 2013-01-10
EP2715725A2 (en) 2014-04-09
KR20140033488A (ko) 2014-03-18
US9269367B2 (en) 2016-02-23
GB2493327B (en) 2018-06-06
GB201111474D0 (en) 2011-08-17
KR101970370B1 (ko) 2019-04-18
EP2715725B1 (en) 2019-04-24
GB2493327A (en) 2013-02-06

Similar Documents

Publication Publication Date Title
JP2014523003A (ja) オーディオ信号処理
US10546593B2 (en) Deep learning driven multi-channel filtering for speech enhancement
US10149049B2 (en) Processing speech from distributed microphones
US20120303363A1 (en) Processing Audio Signals
JP5085556B2 (ja) エコー除去の構成
US9591123B2 (en) Echo cancellation
JP2014523003A5 (ja)
JP2020115206A (ja) システム及び方法
US20110112668A1 (en) Gain control for an audio signal
JP2012215606A (ja) 音源分離装置、プログラム及び方法
CN117079661A (zh) 一种声源处理方法及相关装置
US10182207B2 (en) Handling nuisance in teleconference system
JP6638248B2 (ja) 音声判定装置、方法及びプログラム、並びに、音声信号処理装置
JP6361360B2 (ja) 残響判定装置及びプログラム
JP6631127B2 (ja) 音声判定装置、方法及びプログラム、並びに、音声処理装置
JP6230969B2 (ja) 音声収音システム、ホスト装置及びプログラム
WO2019059939A1 (en) SPEECH TREATMENT FROM DISTRIBUTED MICROPHONES
US10789935B2 (en) Mechanical touch noise control
TW202019194A (zh) 減少干擾音影響之方法及聲音播放裝置
JP2011182292A (ja) 収音装置、収音方法及び収音プログラム
Alisher et al. Control Approaches for Audio Signal Quality Improvement in the Developed Conference System Based on the Personal User Devices

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150701

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150701

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160826

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160906

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161130

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20170214