JP2012527003A - 雑音の多い環境で動作するハンドフリー電話デバイスなどの音声処理システムに関して2つ以上のマイクロフォンの1つを選択するための方法 - Google Patents

雑音の多い環境で動作するハンドフリー電話デバイスなどの音声処理システムに関して2つ以上のマイクロフォンの1つを選択するための方法 Download PDF

Info

Publication number
JP2012527003A
JP2012527003A JP2012510335A JP2012510335A JP2012527003A JP 2012527003 A JP2012527003 A JP 2012527003A JP 2012510335 A JP2012510335 A JP 2012510335A JP 2012510335 A JP2012510335 A JP 2012510335A JP 2012527003 A JP2012527003 A JP 2012527003A
Authority
JP
Japan
Prior art keywords
microphone
microphones
picked
signal
channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012510335A
Other languages
English (en)
Other versions
JP5718903B2 (ja
Inventor
ヴィッテ,グイロム
ブリオ,アレクサンドレ
ピント,グイロム
Original Assignee
パロット
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パロット filed Critical パロット
Publication of JP2012527003A publication Critical patent/JP2012527003A/ja
Application granted granted Critical
Publication of JP5718903B2 publication Critical patent/JP5718903B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • H04M9/08Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
    • H04M9/082Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本発明は、2つのマイクロフォン(N、M)によって同時にピックアップされた音響信号をデジタル化するステップと、2つのチャネルでピックアップされた信号(x(t)、x(t))の短時間フーリエ変換を実行して、一連の周波数帯域内で一連のフレームを生成するステップと、各チャネルでの音声の存在の信頼性指数、特に音声存在確率を計算するためのアルゴリズムを適用するステップと、チャネルそれぞれの一連のフレームに対して、チャネル選択基準と音声存在信頼性指数の両方に基づく決定規則を適用することによって2つのマイクロフォンの一方を選択するステップと、1つの選択されたマイクロフォンによってピックアップされた音響信号から音声処理を実施するステップとを含む方法に関する。

Description

本発明は、雑音の多い環境での音声の処理に関する。
本発明は、限定はしないが特に、自動車用の「ハンドフリー」タイプのデバイスによってピックアップされる音声信号の処理に関する。
そのような機器は、ユーザの声だけでなく周囲の雑音もピックアップする高感度のマイクロフォンを備え、その雑音が外乱要素となり、特定の環境下では、話者の音声を理解できなくするような音響外乱を生み出すことがある。同じことが、音声認識技法の実施が望まれる場合にも当てはまる。なぜなら、高レベルの雑音でかき消された言葉に対する知覚的構造の認識を行うことは非常に難しいからである。
周囲雑音に関連するこの難点は、特に自動車用の「ハンドフリー」デバイスに関して制約を課すものとなる。特に、マイクロフォンと話者の間の距離が遠いと、高い相対レベルの雑音が生じ、これは、雑音にかき消された有用な信号を抽出するのを難しくする。さらに、車で典型的な非常に雑音の多い環境は、不安定なスペクトル特性、すなわち走行状況に応じて予測不能に変化するスペクトル特性を示す。これは例えば、凹凸のある道路や丸石の上を走行するときや、カーラジオの動作時などである。
いくつかのそのようなデバイスは、複数のマイクロフォン、一般には2つマイクロフォンを使用して、それらがピックアップした信号の平均を取って、またはより複雑な他の操作を行って、より低レベルの外乱を伴う信号を得られるようにすることを企図している。特に、いわゆる「ビームフォーミング」技法は、マイクロフォンのアレイを実装して、比較的単純なソフトウェア手段を使用して指向性を生み出し、これは、信号対雑音比を改良できるようにする。それにも関わらず、その技法は、マイクロフォンに対する話者の位置がほぼ一定であると仮定する。これは一般に、運転者による車内での通話に当てはまる(が、同乗者による通話には当てはまらない)。
一般に、すべてのいわゆる「ビームフォーミング」技法において、ほぼ満足な効果を得るためには、多数のマイクロフォン(少なくとも5個)を有する必要があり、それらはほとんどの産業用途では利用可能でない。
なぜなら、マイクロフォンを1つだけ含む技法を使用することがより一般的だからである。
そのような状況の下では、より良い信号/雑音比を提供する単一指向性マイクロフォンを使用することが好ましいが、これは、変化しない一方向でより良い信号/雑音比を提供し、したがって1箇所の話者位置に関してのみ適用可能である。
例として、自動車用のそのような「ハンドフリー」デバイスが国際公開第2008/049982A1号(Parrot SA)に記載されている。この特許文献は、近くの話者からの音響信号を雑音と共にピックアップする単一のマイクロフォンによってピックアップされた信号に適用するための様々なエコーキャンセリングおよび抑制技法や雑音減少技法などを記載している。
国際公開第2008/049982A1号 欧州特許出願公開第1564980A1号 国際公開第2007/099222A1号
I.CohenおよびB.Berdugo著「Speech enhancement for non−stationary noise environments」Signal Processing,Elsevier,Vol.81,pp.2403−2418,2001
本発明は、マイクロフォンを1つだけ利用する(したがって「ビームフォーミング」タイプのシステムなどとは異なる)が、その(1つの)マイクロフォンが、2つの異なるマイクロフォンから、またはマイクロフォンアレイ内のより多くのマイクロフォンから自動的に選択される音声処理装置システムに関する。
本発明の目的は、それら2つ以上のマイクロフォンの中から、最小の雑音を伴う音声信号をピックアップするマイクロフォンを決定することができるようにし、その後、このようにして決定されたマイクロフォン(以後「基準マイクロフォン」と呼ぶ)によってピックアップされた信号に対して様々な種類の処理(雑音除去やエコーキャンセリングなど)を施す方法を提案することである。
例えば、デバイスの周りにいる様々な参加者に向けられた複数のマイクロフォンを備えることによって、欧州特許出願公開第1564980A1号に記載されているような遠隔会議デバイスにおいて複数のマイクロフォンから1つのマイクロフォンを選択するための様々な技法が知られている。その特許文献は、音声と雑音を区別するのに適しており、かつ任意の所与の時点で、アクティブな話者に向けて位置されたマイクロフォンの1つのみを活動化させるのに適している動的選択手段を記載している。
上述した自動車のための「ハンドフリー」タイプのデバイスにおいて、最も多い(しかし非限定的な)状況は、システムが2つのマイクロフォンを有する状況である。ここで、いくつかの構成を想定することができる。
第1の構成は、互いにかなり近くに位置された、例えば車内の中央位置に位置されたカーラジオの前面の2つの端部に位置された2つの指向性マイクロフォンを提供することにあり、マイクロフォンの一方は、運転者に向かう指向性パターンのメインローブを有し、他方のマイクロフォンは同乗者に向いている。
別の構成は、車両天井の隅の高い位置やダッシュボードの両端などに位置された2つの離隔したマイクロフォンを提供することにある。
どちらの構成でも、選択すべきより効果的なマイクロフォンは通常、アクティブな話者(運転者または同乗者)に向いているマイクロフォンである。しかし、特別な状況を考慮する必要があることも時としてある。すなわち、例えばオートバイが左側で車両を追い越す場合、話者が左側にいる運転者である場合でさえ、右側マイクロフォンを選択することが好ましいことがある。
本発明の目的は、2つのマイクロフォンを備えるシステムでマイクロフォンを自動的に選択するための確実なシステムを提案することである(本発明は、その性質上、マイクロフォンの可能な各対に同じアルゴリズムを適用することによって3つ以上のマイクロフォン間で1つのマイクロフォンへの切換えを行うために適用するのにも適している)。
根底にある着想は、マイクロフォンの構成(近接または離隔)とは無関係に、2つのマイクロフォンの一方によってピックアップされる信号が他方よりも良いと仮定することによって、マイクロフォンそれぞれによってピックアップされる信号を区別することができることである。すなわち、2つのマイクロフォンの一方が、他方のマイクロフォンよりも外乱または損失の少ない望ましい信号をピックアップするように、より良く配置されている。
このために、本発明の基礎となる原理の1つは、2つのマイクロフォンに対応する2つのチャネルそれぞれに関する音声存在信頼性指数を導出すること、およびとりわけ、前記音声存在信頼性指数に応じた決定規則を適用して2つのマイクロフォンの一方を選択することにある。
この原理は、連続して計算された結果に応じて、時間の流れにわたって基準マイクロフォンが選択される確実性を大幅に高めることができるようにし、選択は、様々な偏りの推移および音響環境の変化に適合される。
上述した目的は、上述した欧州特許出願公開第1564980A1号に開示された一般的なタイプの方法、すなわち雑音の多い環境で動作するマルチマイクロフォン音声処理システムに関して2つ以上のマイクロフォンから1つのマイクロフォンを選択する方法であって、各マイクロフォンが、それぞれのチャネルに関連付けられ、拡散雑音成分と混合された、主音響信号源からの有用な音声成分を含む雑音の多い音響信号をピックアップするのに適している方法によって実現される。この方法は、
・2つのマイクロフォンによって同時にピックアップされた音響信号をデジタル化するステップと、
・一連の周波数帯域内で連続するフレームを生成するように、2つのチャネルでピックアップされた信号の変換を実行するステップと、
・各チャネルの音声存在指数を計算するためのアルゴリズムを適用するステップと、
・チャネルそれぞれの連続するフレームに決定規則を適用することによって2つのマイクロフォンの一方を選択するステップであって、規則が、チャネル選択基準と前記音声存在指数の両方に応じているステップと、
・一方の選択されたマイクロフォンによってピックアップされた音響信号に基づいて音声処理を実施するステップと
を含む。
本発明の特徴的な様式では、
・2つのチャネルでピックアップされた信号の変換が短時間フーリエ変換であり、
・音声存在指数が、各フレームの各周波数帯域に関して計算される信頼性指数であり、
・選択基準が、信頼性指数が第1の所与のしきい値よりも大きい周波数帯域においてのみで計算される。
様々な副次的な実施の特徴によれば、
・方法が、さらに、第2の所与のしきい値未満にある周波数帯域を前記連続フレームから取り除くステップを含み、
・音声存在信頼性指数が、音声が存在する確率であり、
・音声存在信頼性指数が各周波数帯域に関して計算され、前記選択が、第4の所与のしきい値よりも大きいいくつかの周波数帯域で、指数が第3の所与のしきい値よりも大きいという条件で行われ、
・マルチマイクロフォン音声処理装置システムが、近接した指向性マイクロフォンを有するシステムであり、チャネル選択基準が、2つのチャネルで同時にピックアップされた信号のそれぞれの位相の比較に基づく角度基準であり、選択されるマイクロフォンが、他方のマイクロフォンよりも早く信号をピックアップするマイクロフォンであり、
・マルチマイクロフォン音声処理装置システムが、離隔した指向性または無指向性マイクロフォンを有するシステムであり、チャネル選択基準が、2つのチャネルで同時にピックアップされた信号のそれぞれの信号対雑音比の比較に基づくエネルギー基準であり、選択されるマイクロフォンが、他方のマイクロフォンよりも信号対雑音比が大きいマイクロフォンであり、
・2つのマイクロフォンの一方の選択が、第5の所与のしきい値よりも大きいいくつかの連続するフレームで決定規則が満足されるときにのみ、条件付きで行われ、
・マイクロフォンの一方を選択することが決定された場合に、選択すべきマイクロフォンのチャネルには増加した利得を加え、選択されないマイクロフォンのチャネルには減少した利得を加えることによって、選択が所与の移行期間にわたって漸進的に行われる。
以下、添付図面を参照しながら本発明のデバイスの一実施形態を説明する。添付図面において、機能的に同様の要素を示すために同じ参照番号が使用されている。
2つの近接したマイクロフォンを備える構成を示す図である。 2つの離隔したマイクロフォンを備える構成を示す図である。
以下、本発明の基礎となる原理を、2つの上述した構成(近接したマイクロフォンと離隔したマイクロフォン)への適用に関して説明する。
基本的な仮定として、2つのマイクロフォンによってピックアップされる信号の一方が、前提として他方よりも良い、すなわち他方よりも、有用な音声信号に対して外乱または損失が少ないものとする。
本発明の目的は、ピックアップされた2つの信号のうちのどちらが良いかを決定し、その後、その選択された信号(以下では「基準信号」または「基準マイクロフォンからの信号」と呼ぶ)のみに対して音声処理(雑音除去やエコーキャンセリングなど)を行うことである。
どちらのマイクロフォンも、主信号源sによって発信された信号をピックアップし、マイクロフォンどうしの位置の差により、信号源sによって発信された信号に対して様々な位相シフトおよび振幅変動が生じる。より正確には、時間tの関数として以下のことが当てはまる。
(t)=a×s(t−τ)+v(t)
ここで、aは、音源sと指数nのマイクロフォンの位置間の音響経路にわたるエネルギー損失による振幅減衰であり、τは、発信された信号とマイクロフォンnによって受信された信号の間の位相シフトであり、追加の項vは、マイクロフォンnがある位置での拡散雑音場の値を表す。
上記の信号の短時間フーリエ変換を大文字を用いて書くと、式は、
(k,l)=d(k)×S(k,l)+V(k,l)
となり、ここで、kおよびlは、それぞれ考察中の周波数帯域およびフレームを表し、
Figure 2012527003
であり、ここで、fは、指数kの周波数帯域の中心周波数である。
係数d(k)が、系の幾何学的データのみに依存し、発信された信号sの性質には依存しないことに留意すべきである。実際、これらの係数は、考慮中の幾何学的構成の特性である。
以下、2つの状況を考察する。具体的には、
・近接したマイクロフォンを備える構成。この構成では、2つのマイクロフォン間の距離が発信源とマイクロフォンの間の距離に比べて小さいと考えられる(この状況のより正確な数学的定義は以下に与える)。
・マイクロフォンが離隔された構成。この構成では、発信源と2つのマイクロフォンの一方との間の距離が発信源と他方のマイクロフォンとの間の距離よりも比較的大きいと考えられる。
(近接マイクロフォン構成)
図1に図式的に示されるこの構成は、例えば両方のマイクロフォンがカーラジオの前面に位置され、カーラジオ自体は車両ダッシュボードの中央位置に配置されているときに取られる構成である。マイクロフォン間の距離は、典型的には5センチメートル(cm)程度であり、最大10cmである。
この構成では、異なる向きを有する指向性マイクロフォンを使用することが最も有利である。2つのマイクロフォンをNおよびMで表す場合、理想的には、マイクロフォンMは、半平面Pをカバーするメインローブを有する指向性パターンを有するべきであり、一方、マイクロフォンNは、残りの半平面Pを占有する指向性パターンを有するべきである。
近接したマイクロフォンを備えるここで考察中の構成では、音源が平面波を発信する(これには音源がマイクロフォンから数センチメートル離れていれば十分である)と仮定することができ、(3次元での、または特定の平面上への投影での)対象の波の伝播方向のみを評価すればよい。このとき、2つのマイクロフォン間の位相差情報のみが使用され、以下の公式が使用される。
Figure 2012527003
ここで、Eは、複数のフレームにわたって考察中の積の平均値を計算することによって求めることができる数学的な期待値である。
マイクロフォンが「近接」しているという仮定は、より正確には、2つのマイクロフォン間の距離ln,mに対する条件として表現することができ、位相遅れと位相進みの混同を避けるために、x(t)とx(t)の間の位相シフトΔφが間隔[−π;π]内にある必要がある。すなわち、
Figure 2012527003
しかしながら、距離Dがより大きい場合には、依然として同じアルゴリズムを使用することができるが、分析される周波数からより高い周波数を除く。ここで、最大周波数は以下のように表現される。
Figure 2012527003
2つの半平面PとPのどちらが発信源を含むかを決定すれば十分である。このとき、問題は、表現
Figure 2012527003
の符号、すなわち
Figure 2012527003
を調べることになる。
理論上、所与のフレームに関して、角度θn,m(k,l)は、すべての周波数に関して同じはずである。実際には、雑音成分が小さな変動をもたらす。したがって、
Figure 2012527003
の符号が様々な周波数に関して計算され、全体の決定は、重み付けしていない個々の決定の和を計算することによって、周波数ごとの結果の分散の関数として得られる。
実際には、様々な種類の位相雑音が含まれ、小さな値のθn,m(k,l)に関してはθn,m(k,l)の符号の決定が偏ることがある。それにも関わらず、以下の公式
Figure 2012527003
は、より高い周波数では雑音項があまり影響を持たないことを表す。その結果、低いk値で行われる計算は、特に信号の入射角が小さい場合には信頼性がより低い。したがって、より高い周波数でより高い信頼性指数を有する重み付けを使用することが望ましい。
ここでは平均は使用されず、1組の周波数にわたる符号のカウントのみが使用されるので、計算から最低周波数(k≦kminである周波数)を除外することができる。加算に関して、選択規則は以下のようなものであり、NumPlusThresholdが所定のしきい値である。すなわち、
フレームlに関して:
・card(E)−card(E)>NumPlusThresholdの場合、
Mがより良いマイクロフォンである。
・card(E)−card(E)>NumPlusThresholdの場合、
Nがより良いマイクロフォンである。
・または、決定が下されない。
ここで、
Figure 2012527003
すなわち、マイクロフォンによってピックアップされる信号間の相対位相シフトに基づいて発信源からの信号の入射角を測定するのではなく、周波数帯域の部分集合内の各帯域に関して上記の式の符号が決定され、それらの符号がカウントされる。(しきい値NumPlusThresholdによって決定される)カウントの大多数がマイクロフォンNまたはMの一方を表す場合、そのマイクロフォンが基準マイクロフォンであるとみなされる。
(2つの離隔したマイクロフォンを備える構成)
この構成は、図2に図式的に示される。
この例でのマイクロフォン間の距離は、約1メートル(m)〜1.5mであり、例えば2つのマイクロフォンが車内天井の両側に配置された設備に対応する。
この構成では、2つのマイクロフォン間の距離が非常に大きい(位相遅れと位相進みの相関が不十分であり、混同される)ので、位相シフト情報は有用でなくなっている。
対照的に、信号減衰に関する項aおよびaがはるかに適当なものである。マイクロフォンの一方によってピックアップされる全信号において、発信源からの寄与、すなわち有用な信号は、マイクロフォンが前記発信源からどれだけ離れているかに対応して減少される。
この構成では、2つの音響ピックアップを区別するために、指向性マイクロフォンを使用する必要はなくなっている。この区別は、発信源に対するマイクロフォンの位置に固有のものである。例えば車内で、マイクロフォンの一方は運転者にはるかに近く、他方は同乗者に近い。したがって、雑音は、マイクロフォンの一方によってピックアップされる信号において、他方によってピックアップされる信号よりもはるかに大きく減衰される。
そのような条件下では、基本的な原理は、選択基準として信号/雑音比の値を使用することにある。したがって、選択基準は、2つの近接したマイクロフォンの場合のように角度基準ではなく、エネルギー基準である。
近接マイクロフォン構成での角度基準と同じ原理で、しきい値ΔSNRThresholdと比較して決定が下される。決定規則は以下のようなものである。
フレームlに関して:
・SNR(l)−SNR(l)>ΔSNRThresholdの場合、
Mがより良いマイクロフォンである。
・SNR(l)−SNR(l)>ΔSNRThresholdの場合、
Nがより良いマイクロフォンである。
・または、決定が下されない。
ここで、
Figure 2012527003
ここで、
Figure 2012527003
および
Figure 2012527003
は、マイクロフォンMおよびNによってそれぞれピックアップされた推定雑音成分を表す。
(基準マイクロフォン選択をより確実にする)
基準マイクロフォンを自動的に選択するための技法は、雑音および計算近似に関連する様々な偏りを受ける。
誤検出が非常に多くなるのを避けるために、本発明は、拡散雑音に対して非常に大きな確実性を提供するとともに、選択された基準信号に後で適用される処理技法(相互相関や加算など)に関係なく有効である包括的なメカニズムによって自動選択技法を補うことを提案する。
本質的には、本発明は、マイクロフォンによってピックアップされた各信号中の音声の存在に関する信頼性指数、および音声存在信頼性指数のある最小レベルで基準マイクロフォンの選択を条件付けるための信頼性指数を導出することを提案する。
発信源からの有用な信号がない(話者からの音声がない)場合、一方の代わりに他方のマイクロフォンを選択することを試みても意味がない。したがって、発信源信号が存在する可能性が高いフレームにのみ上述した選択基準を適用することが妥当である。
信頼性指数は、特に音声が存在する確率でよく、これは例えば国際公開第2007/099222A1号(Parrot SA)に記載されているように計算される。この特許文献は、そのような確率の計算を含む雑音除去法を記載し、この方法は、I.CohenおよびB.Berdugoが「Speech enhancement for non−stationary noise environments」Signal Processing,Elsevier,Vol.81,pp.2403−2418,2001で説明している技法から導き出される。
発信源信号が音声信号に対応するような雑音減少処理の文脈で説明される音声の存在の確率の計算(または任意の他の同等の既知の技法)を本発明に適用して、(したがってあらゆる雑音除去処理の前に)基準マイクロフォンを選択するためのアルゴリズムの確実性を高めることができる。
雑音成分と混合された音声信号の雑音除去の分野でよく行われるように、着想は、各フレームの各成分での音声の有無を正確に識別することではなく、範囲0〜1にある信頼性指数を提供することであり、ここで値1は、(アルゴリズムに従って)音声が確実に存在しないことを意味し、値0は逆を示す。まさにその性質により、この指数は、音声が存在しない論理的確率、すなわち考慮中のフレーム内の所与の周波数成分に音声が存在しない確率と考えることができる。
したがって、音声が存在する確率PPresProbは、それを所定のしきい値PresProbThresholdと比較することによって、一方のマイクロフォンの選択を条件付けるための追加の基準として使用することができる。すなわち、選択規則を適用するために、信号の各フレームlに関して、以下のことが当てはまるような「適当な周波数」の組F(l)のみを使用する。
F(l)={kt.q.PPresProb(k,l)>PresProbThreshold}
有用な信号に含まれる周波数からなるこの集合が非常に小さい場合(すなわちcard(F(l))<MinSizeである場合)、現在のフレームlに関して決定は下されない。しきい値NumPlusThresholdまたはΔSNRThresholdと同様に、この基準は、誤った決定の数に対する限度を設け、誤った決定の数を制御するのに役立つ。
そうでない場合(すなわちcard(F(l))<MinSizeの場合)、より良いマイクロフォンを選択するための計算が適当な周波数のみに基づいて行われ、すなわち発信源成分がゼロ(音声なし)の周波数は、決定を下す際に考慮されない。
したがって、フレームに関してより良いマイクロフォンを選択するための上で説明した2つの規則は、以下のように書き換えることができる。
第1の構成(近接したマイクロフォン)では、
フレームlに関して:
・card(Ecard(E)>NumPlusThreshold、かつ
card(F(l))<MinSizeの場合、
Mがより良いマイクロフォンである。
・card(Ecard(E)>NumPlusThreshold、かつ
card(F(l))<MinSizeの場合、
Nがより良いマイクロフォンである。
・または、決定が下されない。
ここで、
Figure 2012527003
第2の構成(離隔したマイクロフォン)の場合、
フレームlに関して:
・SNR(l)−SNR(l)>ΔSNRThreshold、かつ
card(F(l))<MinSizeの場合、
Mがより良いマイクロフォンである。
・SNR(l)−SNR(l)>ΔSNRThreshold、かつ
card(F(l))<MinSizeの場合、
Nがより良いマイクロフォンである。
・または、決定が下されない。
ここで、
Figure 2012527003
(基準マイクロフォンの変更)
本発明のシステムの利点の1つは、発信源の移動を追跡することができることであり、したがって、発信源が移動するとき、または2つの発信源(例えば車両の運転者および同乗者)が交互に発信しているときに、時間にわたって基準マイクロフォンを変更することができることである。
それにも関わらず、安定なシステムを提供することができるように、マイクロフォンをあまりに突発的に、またはあまりに頻繁に変更することは避けることが重要である。
このために、本発明はまた、基準マイクロフォンが変更される段階をより確実にすることも提案する。
適時でない切換えを回避するために、一方の基準マイクロフォンから他方(Nの代わりにM、またはその逆)への切換えのための条件を、特定の数の安定性規則に依存させることができる。例えば、
・フレームごとにより良いマイクロフォンを選択するための複数の連続して繰り返したアルゴリズムが、基準マイクロフォンを変更するという決定をもたらした場合にのみ、基準マイクロフォンが変更され、および/または
・マイクロフォン変更が突発的でなく、複数の連続するフレームにわたって漸進的に行われる。これは、漸進的な「フェード」効果を得られるように、マイクロフォンの一方では増加して他方では減少する変化する利得を加えることによって行われる。

Claims (8)

  1. 雑音の多い環境で動作するマルチマイクロフォン音声処理システムに関して2つ以上のマイクロフォンから1つのマイクロフォンを選択する方法であって、前記マイクロフォンの各々が、それぞれのチャネルと関連付けられ、拡散雑音成分と混合された、主音響信号源(s(t))からの有用な音声成分を含む雑音の多い音響信号をピックアップするのに適している方法であって、
    2つのマイクロフォン(N、M)によって同時にピックアップされた音響信号をデジタル化するステップと、
    2つのチャネルでピックアップされた信号(x(t)、x(t))を、一連の周波数帯域内で連続するフレームを生成するように変換するステップと、
    各チャネルの音声存在指数を計算するためのアルゴリズムを適用するステップと、
    前記チャネルそれぞれの連続するフレームに決定規則を適用することによって前記2つのマイクロフォンの一方を選択するステップであって、前記規則が、チャネル選択基準と前記音声存在指数との両方の関数であるステップと、
    前記一方の選択されたマイクロフォンによってピックアップされた音響信号に基づいて音声処理を実施するステップと
    を含む方法において、
    前記2つのチャネルでピックアップされた前記信号(x(t)、x(t))の前記変換が短時間フーリエ変換であり、
    前記音声存在指数が、各フレームの各周波数帯域に関して計算される信頼性指数であり、
    前記選択基準が、信頼性指数が第1の所与のしきい値よりも大きい周波数帯域においてのみで計算される、
    ことを特徴とする方法。
  2. さらに、第2の所与のしきい値未満にある周波数帯域を前記連続フレームから取り除くステップを含む請求項1に記載の方法。
  3. 前記音声存在信頼性指数が、音声が存在する確率である請求項1に記載の方法。
  4. 前記音声存在信頼性指数が各周波数帯域に関して計算され、前記選択が、第4の所与のしきい値よりも大きいいくつかの周波数帯域で、前記指数が第3の所与のしきい値よりも大きいという条件で行われる請求項1に記載の方法。
  5. 前記マルチマイクロフォン音声処理装置システムが、近接した指向性マイクロフォンを備えるシステムであり、
    前記チャネル選択基準が、前記2つのチャネルで同時にピックアップされた信号のそれぞれの位相の比較に基づく角度基準であり、選択されるマイクロフォンが、他方のマイクロフォンよりも早く信号をピックアップするマイクロフォンである
    請求項1に記載の方法。
  6. 前記マルチマイクロフォン音声処理装置システムが、離隔した指向性または無指向性マイクロフォンを備えるシステムであり、
    前記チャネル選択基準が、前記2つのチャネルで同時にピックアップされた前記信号のそれぞれの信号対雑音比の値の比較に基づくエネルギー基準であり、選択されるマイクロフォンが、他方のマイクロフォンよりも前記信号対雑音比が大きいマイクロフォンである
    請求項1に記載の方法。
  7. 前記2つのマイクロフォンの一方の選択が、第5の所与のしきい値よりも大きいいくつかの連続するフレームで前記決定規則が満足されるときにのみ、条件付きで行われる請求項1に記載の方法。
  8. 前記マイクロフォンの一方を選択することが決定された場合に、選択すべきマイクロフォンのチャネルには増加した利得を加え、選択されないマイクロフォンのチャネルには減少した利得を加えることによって、前記選択が所与の移行期間にわたって漸進的に行われる請求項1に記載の方法。
JP2012510335A 2009-05-14 2010-05-07 雑音の多い環境で動作するハンドフリー電話デバイスなどの音声処理システムに関して2つ以上のマイクロフォンの1つを選択するための方法 Active JP5718903B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR0953176 2009-05-14
FR0953176A FR2945696B1 (fr) 2009-05-14 2009-05-14 Procede de selection d'un microphone parmi deux microphones ou plus, pour un systeme de traitement de la parole tel qu'un dispositif telephonique "mains libres" operant dans un environnement bruite.
PCT/FR2010/050888 WO2010130928A1 (fr) 2009-05-14 2010-05-07 Procede de selection d'un microphone parmi deux microphones ou plus, pour un systeme de traitement de la parole tel qu'un dispositif telephonique "mains libres" operant dans un environnement bruite

Publications (2)

Publication Number Publication Date
JP2012527003A true JP2012527003A (ja) 2012-11-01
JP5718903B2 JP5718903B2 (ja) 2015-05-13

Family

ID=41560875

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012510335A Active JP5718903B2 (ja) 2009-05-14 2010-05-07 雑音の多い環境で動作するハンドフリー電話デバイスなどの音声処理システムに関して2つ以上のマイクロフォンの1つを選択するための方法

Country Status (7)

Country Link
US (1) US8892433B2 (ja)
EP (1) EP2430825B1 (ja)
JP (1) JP5718903B2 (ja)
CN (1) CN102498709B (ja)
ES (1) ES2433100T3 (ja)
FR (1) FR2945696B1 (ja)
WO (1) WO2010130928A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210001434A (ko) * 2019-06-28 2021-01-06 주식회사 카카오엔터프라이즈 음성 인식 서비스를 제공하는 단말, 방법 및 서버

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6267860B2 (ja) * 2011-11-28 2018-01-24 三星電子株式会社Samsung Electronics Co.,Ltd. 音声信号送信装置、音声信号受信装置及びその方法
CN103165137B (zh) * 2011-12-19 2015-05-06 中国科学院声学研究所 一种非平稳噪声环境下传声器阵列的语音增强方法
FR2992459B1 (fr) * 2012-06-26 2014-08-15 Parrot Procede de debruitage d'un signal acoustique pour un dispositif audio multi-microphone operant dans un milieu bruite.
US9779731B1 (en) * 2012-08-20 2017-10-03 Amazon Technologies, Inc. Echo cancellation based on shared reference signals
US9076450B1 (en) * 2012-09-21 2015-07-07 Amazon Technologies, Inc. Directed audio for speech recognition
EP2765787B1 (en) 2013-02-07 2019-12-11 Sennheiser Communications A/S A method of reducing un-correlated noise in an audio processing device
WO2014125860A1 (ja) * 2013-02-12 2014-08-21 日本電気株式会社 音声処理装置、音声処理方法、音声処理プログラムおよび音声処理装置の取り付け方法、天井部材、ならびに車両
JP6439687B2 (ja) * 2013-05-23 2018-12-19 日本電気株式会社 音声処理システム、音声処理方法、音声処理プログラム、音声処理システムを搭載した車両、および、マイク設置方法
US10147441B1 (en) 2013-12-19 2018-12-04 Amazon Technologies, Inc. Voice controlled system
US9313621B2 (en) 2014-04-15 2016-04-12 Motorola Solutions, Inc. Method for automatically switching to a channel for transmission on a multi-watch portable radio
BR112017001558A2 (pt) * 2014-07-28 2017-11-21 Huawei Tech Co Ltd método e dispositivo para processamento de sinais de som para dispositivo de comunicações
CN104270489A (zh) * 2014-09-10 2015-01-07 中兴通讯股份有限公司 一种从多个麦克风中确定主副麦克风的方法和系统
CN104503566B (zh) * 2014-11-26 2019-12-24 联想(北京)有限公司 信息处理方法及电子设备
US9485599B2 (en) * 2015-01-06 2016-11-01 Robert Bosch Gmbh Low-cost method for testing the signal-to-noise ratio of MEMS microphones
CN105848061B (zh) * 2016-03-30 2021-04-13 联想(北京)有限公司 一种控制方法及电子设备
EP3434024B1 (en) 2016-04-21 2023-08-02 Hewlett-Packard Development Company, L.P. Electronic device microphone listening modes
US20170330564A1 (en) * 2016-05-13 2017-11-16 Bose Corporation Processing Simultaneous Speech from Distributed Microphones
CN106911996A (zh) * 2017-03-03 2017-06-30 广东欧珀移动通信有限公司 麦克风状态的检测方法、装置及终端设备
US10665234B2 (en) * 2017-10-18 2020-05-26 Motorola Mobility Llc Detecting audio trigger phrases for a voice recognition session
CN108399916A (zh) * 2018-01-08 2018-08-14 蔚来汽车有限公司 车载智能语音交互系统和方法、处理装置和存储装置
CN108674344B (zh) * 2018-03-30 2024-04-02 斑马网络技术有限公司 基于方向盘的语音处理系统及其应用
CN108621981A (zh) * 2018-03-30 2018-10-09 斑马网络技术有限公司 基于座椅的语音识别系统及其识别方法
CN110491376B (zh) * 2018-05-11 2022-05-10 北京国双科技有限公司 一种语音处理方法及装置
GB2580057A (en) * 2018-12-20 2020-07-15 Nokia Technologies Oy Apparatus, methods and computer programs for controlling noise reduction
CN113763957B (zh) * 2019-03-12 2024-08-30 百度在线网络技术(北京)有限公司 应用于车辆的交互方法和装置
FR3098076B1 (fr) 2019-06-26 2022-06-17 Parrot Faurecia Automotive Sas Système audio pour appui-tête avec microphone(s) intégré(s), appui-tête et véhicule associés
CN110166879B (zh) * 2019-06-28 2020-11-13 歌尔科技有限公司 语音采集控制方法、装置及tws耳机
WO2021060680A1 (en) 2019-09-24 2021-04-01 Samsung Electronics Co., Ltd. Methods and systems for recording mixed audio signal and reproducing directional audio

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11249693A (ja) * 1998-03-02 1999-09-17 Nippon Telegr & Teleph Corp <Ntt> 収音装置
JP2005229433A (ja) * 2004-02-13 2005-08-25 Sony Corp 音声集音装置と方法
JP2006163417A (ja) * 2004-12-08 2006-06-22 Herman Becker Automotive Systems-Wavemakers Inc 雨ノイズを抑制するためのシステム
US20070276660A1 (en) * 2006-03-01 2007-11-29 Parrot Societe Anonyme Method of denoising an audio signal

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2330048B (en) * 1997-10-02 2002-02-27 Sony Uk Ltd Audio signal processors
US6505057B1 (en) * 1998-01-23 2003-01-07 Digisonix Llc Integrated vehicle voice enhancement system and hands-free cellular telephone system
SG97885A1 (en) * 2000-05-05 2003-08-20 Univ Nanyang Noise canceler system with adaptive cross-talk filters
WO2003017718A1 (en) * 2001-08-13 2003-02-27 Nanyang Technological University, Centre For Signal Processing Post-processing scheme for adaptive directional microphone system with noise/interference suppression
WO2007106399A2 (en) * 2006-03-10 2007-09-20 Mh Acoustics, Llc Noise-reducing directional microphone array
CN1643571A (zh) * 2002-03-27 2005-07-20 艾黎弗公司 用于与通信系统一起使用的麦克风和声音活动检测(vad)配置
US7895036B2 (en) * 2003-02-21 2011-02-22 Qnx Software Systems Co. System for suppressing wind noise
EP1581026B1 (en) 2004-03-17 2015-11-11 Nuance Communications, Inc. Method for detecting and reducing noise from a microphone array
US7464029B2 (en) * 2005-07-22 2008-12-09 Qualcomm Incorporated Robust separation of speech signals in a noisy environment
KR100774519B1 (ko) * 2006-03-20 2007-11-08 엘지전자 주식회사 통신장치 및 그 통화방법
US8135148B2 (en) * 2006-04-26 2012-03-13 Microsemi Semiconductor Corp. Automatic gain control for mobile microphone
JP4984683B2 (ja) * 2006-06-29 2012-07-25 ヤマハ株式会社 放収音装置
US8077892B2 (en) * 2006-10-30 2011-12-13 Phonak Ag Hearing assistance system including data logging capability and method of operating the same
US9373339B2 (en) * 2008-05-12 2016-06-21 Broadcom Corporation Speech intelligibility enhancement system and method
US8560309B2 (en) * 2009-12-29 2013-10-15 Apple Inc. Remote conferencing center

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11249693A (ja) * 1998-03-02 1999-09-17 Nippon Telegr & Teleph Corp <Ntt> 収音装置
JP2005229433A (ja) * 2004-02-13 2005-08-25 Sony Corp 音声集音装置と方法
JP2006163417A (ja) * 2004-12-08 2006-06-22 Herman Becker Automotive Systems-Wavemakers Inc 雨ノイズを抑制するためのシステム
US20070276660A1 (en) * 2006-03-01 2007-11-29 Parrot Societe Anonyme Method of denoising an audio signal

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210001434A (ko) * 2019-06-28 2021-01-06 주식회사 카카오엔터프라이즈 음성 인식 서비스를 제공하는 단말, 방법 및 서버
KR102268245B1 (ko) 2019-06-28 2021-06-23 주식회사 카카오엔터프라이즈 음성 인식 서비스를 제공하는 단말, 방법 및 서버

Also Published As

Publication number Publication date
ES2433100T3 (es) 2013-12-09
EP2430825A1 (fr) 2012-03-21
US8892433B2 (en) 2014-11-18
US20120284023A1 (en) 2012-11-08
JP5718903B2 (ja) 2015-05-13
CN102498709A (zh) 2012-06-13
FR2945696B1 (fr) 2012-02-24
WO2010130928A1 (fr) 2010-11-18
FR2945696A1 (fr) 2010-11-19
CN102498709B (zh) 2014-01-22
EP2430825B1 (fr) 2013-07-31

Similar Documents

Publication Publication Date Title
JP5718903B2 (ja) 雑音の多い環境で動作するハンドフリー電話デバイスなどの音声処理システムに関して2つ以上のマイクロフォンの1つを選択するための方法
US7295972B2 (en) Method and apparatus for blind source separation using two sensors
US20220013134A1 (en) Multi-stream target-speech detection and channel fusion
US8861745B2 (en) Wind noise mitigation
US10123113B2 (en) Selective audio source enhancement
US8112272B2 (en) Sound source separation device, speech recognition device, mobile telephone, sound source separation method, and program
US8370140B2 (en) Method of filtering non-steady lateral noise for a multi-microphone audio device, in particular a “hands-free” telephone device for a motor vehicle
US8583428B2 (en) Sound source separation using spatial filtering and regularization phases
US8005238B2 (en) Robust adaptive beamforming with enhanced noise suppression
CN110770827B (zh) 基于相关性的近场检测器
CN101510426B (zh) 一种噪声消除方法及系统
US10957338B2 (en) 360-degree multi-source location detection, tracking and enhancement
US9767826B2 (en) Methods and apparatus for robust speaker activity detection
EP1489596A1 (en) Device and method for voice activity detection
CN103180900A (zh) 用于话音活动检测的系统、方法和设备
JP2003195882A (ja) 信号処理システムおよび方法
US10015592B2 (en) Acoustic signal processing apparatus, method of processing acoustic signal, and storage medium
CN110310651B (zh) 波束形成的自适应语音处理方法、移动终端及存储介质
JPH11249693A (ja) 収音装置
US10917717B2 (en) Multi-channel microphone signal gain equalization based on evaluation of cross talk components
Pertilä Online blind speech separation using multiple acoustic speaker tracking and time–frequency masking
JP2010091912A (ja) 音声強調システム
US20070038448A1 (en) Objection detection by robot using sound localization and sound based object classification bayesian network
Ihle Differential microphone arrays for spectral subtraction
Choi et al. Real-time audio-visual localization of user using microphone array and vision camera

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130507

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140527

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140826

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150219

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150319

R150 Certificate of patent or registration of utility model

Ref document number: 5718903

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250