JP2012527003A

JP2012527003A - 雑音の多い環境で動作するハンドフリー電話デバイスなどの音声処理システムに関して２つ以上のマイクロフォンの１つを選択するための方法

Info

Publication number: JP2012527003A
Application number: JP2012510335A
Authority: JP
Inventors: ヴィッテ，グイロム; ブリオ，アレクサンドレ; ピント，グイロム
Original assignee: パロット
Priority date: 2009-05-14
Filing date: 2010-05-07
Publication date: 2012-11-01
Anticipated expiration: 2030-05-07
Also published as: ES2433100T3; EP2430825A1; US8892433B2; US20120284023A1; JP5718903B2; CN102498709A; FR2945696B1; WO2010130928A1; FR2945696A1; CN102498709B; EP2430825B1

Abstract

本発明は、２つのマイクロフォン（Ｎ、Ｍ）によって同時にピックアップされた音響信号をデジタル化するステップと、２つのチャネルでピックアップされた信号（ｘ_ｎ（ｔ）、ｘ_ｍ（ｔ））の短時間フーリエ変換を実行して、一連の周波数帯域内で一連のフレームを生成するステップと、各チャネルでの音声の存在の信頼性指数、特に音声存在確率を計算するためのアルゴリズムを適用するステップと、チャネルそれぞれの一連のフレームに対して、チャネル選択基準と音声存在信頼性指数の両方に基づく決定規則を適用することによって２つのマイクロフォンの一方を選択するステップと、１つの選択されたマイクロフォンによってピックアップされた音響信号から音声処理を実施するステップとを含む方法に関する。

Description

本発明は、雑音の多い環境での音声の処理に関する。

本発明は、限定はしないが特に、自動車用の「ハンドフリー」タイプのデバイスによってピックアップされる音声信号の処理に関する。

そのような機器は、ユーザの声だけでなく周囲の雑音もピックアップする高感度のマイクロフォンを備え、その雑音が外乱要素となり、特定の環境下では、話者の音声を理解できなくするような音響外乱を生み出すことがある。同じことが、音声認識技法の実施が望まれる場合にも当てはまる。なぜなら、高レベルの雑音でかき消された言葉に対する知覚的構造の認識を行うことは非常に難しいからである。

周囲雑音に関連するこの難点は、特に自動車用の「ハンドフリー」デバイスに関して制約を課すものとなる。特に、マイクロフォンと話者の間の距離が遠いと、高い相対レベルの雑音が生じ、これは、雑音にかき消された有用な信号を抽出するのを難しくする。さらに、車で典型的な非常に雑音の多い環境は、不安定なスペクトル特性、すなわち走行状況に応じて予測不能に変化するスペクトル特性を示す。これは例えば、凹凸のある道路や丸石の上を走行するときや、カーラジオの動作時などである。

いくつかのそのようなデバイスは、複数のマイクロフォン、一般には２つマイクロフォンを使用して、それらがピックアップした信号の平均を取って、またはより複雑な他の操作を行って、より低レベルの外乱を伴う信号を得られるようにすることを企図している。特に、いわゆる「ビームフォーミング」技法は、マイクロフォンのアレイを実装して、比較的単純なソフトウェア手段を使用して指向性を生み出し、これは、信号対雑音比を改良できるようにする。それにも関わらず、その技法は、マイクロフォンに対する話者の位置がほぼ一定であると仮定する。これは一般に、運転者による車内での通話に当てはまる（が、同乗者による通話には当てはまらない）。

一般に、すべてのいわゆる「ビームフォーミング」技法において、ほぼ満足な効果を得るためには、多数のマイクロフォン（少なくとも５個）を有する必要があり、それらはほとんどの産業用途では利用可能でない。

なぜなら、マイクロフォンを１つだけ含む技法を使用することがより一般的だからである。

そのような状況の下では、より良い信号／雑音比を提供する単一指向性マイクロフォンを使用することが好ましいが、これは、変化しない一方向でより良い信号／雑音比を提供し、したがって１箇所の話者位置に関してのみ適用可能である。

例として、自動車用のそのような「ハンドフリー」デバイスが国際公開第２００８／０４９９８２Ａ１号（ＰａｒｒｏｔＳＡ）に記載されている。この特許文献は、近くの話者からの音響信号を雑音と共にピックアップする単一のマイクロフォンによってピックアップされた信号に適用するための様々なエコーキャンセリングおよび抑制技法や雑音減少技法などを記載している。

国際公開第２００８／０４９９８２Ａ１号欧州特許出願公開第１５６４９８０Ａ１号国際公開第２００７／０９９２２２Ａ１号

Ｉ．ＣｏｈｅｎおよびＢ．Ｂｅｒｄｕｇｏ著「Ｓｐｅｅｃｈｅｎｈａｎｃｅｍｅｎｔｆｏｒｎｏｎ−ｓｔａｔｉｏｎａｒｙｎｏｉｓｅｅｎｖｉｒｏｎｍｅｎｔｓ」ＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，Ｅｌｓｅｖｉｅｒ，Ｖｏｌ．８１，ｐｐ．２４０３−２４１８，２００１

本発明は、マイクロフォンを１つだけ利用する（したがって「ビームフォーミング」タイプのシステムなどとは異なる）が、その（１つの）マイクロフォンが、２つの異なるマイクロフォンから、またはマイクロフォンアレイ内のより多くのマイクロフォンから自動的に選択される音声処理装置システムに関する。

本発明の目的は、それら２つ以上のマイクロフォンの中から、最小の雑音を伴う音声信号をピックアップするマイクロフォンを決定することができるようにし、その後、このようにして決定されたマイクロフォン（以後「基準マイクロフォン」と呼ぶ）によってピックアップされた信号に対して様々な種類の処理（雑音除去やエコーキャンセリングなど）を施す方法を提案することである。

例えば、デバイスの周りにいる様々な参加者に向けられた複数のマイクロフォンを備えることによって、欧州特許出願公開第１５６４９８０Ａ１号に記載されているような遠隔会議デバイスにおいて複数のマイクロフォンから１つのマイクロフォンを選択するための様々な技法が知られている。その特許文献は、音声と雑音を区別するのに適しており、かつ任意の所与の時点で、アクティブな話者に向けて位置されたマイクロフォンの１つのみを活動化させるのに適している動的選択手段を記載している。

上述した自動車のための「ハンドフリー」タイプのデバイスにおいて、最も多い（しかし非限定的な）状況は、システムが２つのマイクロフォンを有する状況である。ここで、いくつかの構成を想定することができる。

第１の構成は、互いにかなり近くに位置された、例えば車内の中央位置に位置されたカーラジオの前面の２つの端部に位置された２つの指向性マイクロフォンを提供することにあり、マイクロフォンの一方は、運転者に向かう指向性パターンのメインローブを有し、他方のマイクロフォンは同乗者に向いている。

別の構成は、車両天井の隅の高い位置やダッシュボードの両端などに位置された２つの離隔したマイクロフォンを提供することにある。

どちらの構成でも、選択すべきより効果的なマイクロフォンは通常、アクティブな話者（運転者または同乗者）に向いているマイクロフォンである。しかし、特別な状況を考慮する必要があることも時としてある。すなわち、例えばオートバイが左側で車両を追い越す場合、話者が左側にいる運転者である場合でさえ、右側マイクロフォンを選択することが好ましいことがある。

本発明の目的は、２つのマイクロフォンを備えるシステムでマイクロフォンを自動的に選択するための確実なシステムを提案することである（本発明は、その性質上、マイクロフォンの可能な各対に同じアルゴリズムを適用することによって３つ以上のマイクロフォン間で１つのマイクロフォンへの切換えを行うために適用するのにも適している）。

根底にある着想は、マイクロフォンの構成（近接または離隔）とは無関係に、２つのマイクロフォンの一方によってピックアップされる信号が他方よりも良いと仮定することによって、マイクロフォンそれぞれによってピックアップされる信号を区別することができることである。すなわち、２つのマイクロフォンの一方が、他方のマイクロフォンよりも外乱または損失の少ない望ましい信号をピックアップするように、より良く配置されている。

このために、本発明の基礎となる原理の１つは、２つのマイクロフォンに対応する２つのチャネルそれぞれに関する音声存在信頼性指数を導出すること、およびとりわけ、前記音声存在信頼性指数に応じた決定規則を適用して２つのマイクロフォンの一方を選択することにある。

この原理は、連続して計算された結果に応じて、時間の流れにわたって基準マイクロフォンが選択される確実性を大幅に高めることができるようにし、選択は、様々な偏りの推移および音響環境の変化に適合される。

上述した目的は、上述した欧州特許出願公開第１５６４９８０Ａ１号に開示された一般的なタイプの方法、すなわち雑音の多い環境で動作するマルチマイクロフォン音声処理システムに関して２つ以上のマイクロフォンから１つのマイクロフォンを選択する方法であって、各マイクロフォンが、それぞれのチャネルに関連付けられ、拡散雑音成分と混合された、主音響信号源からの有用な音声成分を含む雑音の多い音響信号をピックアップするのに適している方法によって実現される。この方法は、
・２つのマイクロフォンによって同時にピックアップされた音響信号をデジタル化するステップと、
・一連の周波数帯域内で連続するフレームを生成するように、２つのチャネルでピックアップされた信号の変換を実行するステップと、
・各チャネルの音声存在指数を計算するためのアルゴリズムを適用するステップと、
・チャネルそれぞれの連続するフレームに決定規則を適用することによって２つのマイクロフォンの一方を選択するステップであって、規則が、チャネル選択基準と前記音声存在指数の両方に応じているステップと、
・一方の選択されたマイクロフォンによってピックアップされた音響信号に基づいて音声処理を実施するステップと
を含む。

本発明の特徴的な様式では、
・２つのチャネルでピックアップされた信号の変換が短時間フーリエ変換であり、
・音声存在指数が、各フレームの各周波数帯域に関して計算される信頼性指数であり、
・選択基準が、信頼性指数が第１の所与のしきい値よりも大きい周波数帯域においてのみで計算される。

様々な副次的な実施の特徴によれば、
・方法が、さらに、第２の所与のしきい値未満にある周波数帯域を前記連続フレームから取り除くステップを含み、
・音声存在信頼性指数が、音声が存在する確率であり、
・音声存在信頼性指数が各周波数帯域に関して計算され、前記選択が、第４の所与のしきい値よりも大きいいくつかの周波数帯域で、指数が第３の所与のしきい値よりも大きいという条件で行われ、
・マルチマイクロフォン音声処理装置システムが、近接した指向性マイクロフォンを有するシステムであり、チャネル選択基準が、２つのチャネルで同時にピックアップされた信号のそれぞれの位相の比較に基づく角度基準であり、選択されるマイクロフォンが、他方のマイクロフォンよりも早く信号をピックアップするマイクロフォンであり、
・マルチマイクロフォン音声処理装置システムが、離隔した指向性または無指向性マイクロフォンを有するシステムであり、チャネル選択基準が、２つのチャネルで同時にピックアップされた信号のそれぞれの信号対雑音比の比較に基づくエネルギー基準であり、選択されるマイクロフォンが、他方のマイクロフォンよりも信号対雑音比が大きいマイクロフォンであり、
・２つのマイクロフォンの一方の選択が、第５の所与のしきい値よりも大きいいくつかの連続するフレームで決定規則が満足されるときにのみ、条件付きで行われ、
・マイクロフォンの一方を選択することが決定された場合に、選択すべきマイクロフォンのチャネルには増加した利得を加え、選択されないマイクロフォンのチャネルには減少した利得を加えることによって、選択が所与の移行期間にわたって漸進的に行われる。

以下、添付図面を参照しながら本発明のデバイスの一実施形態を説明する。添付図面において、機能的に同様の要素を示すために同じ参照番号が使用されている。

２つの近接したマイクロフォンを備える構成を示す図である。２つの離隔したマイクロフォンを備える構成を示す図である。

以下、本発明の基礎となる原理を、２つの上述した構成（近接したマイクロフォンと離隔したマイクロフォン）への適用に関して説明する。

基本的な仮定として、２つのマイクロフォンによってピックアップされる信号の一方が、前提として他方よりも良い、すなわち他方よりも、有用な音声信号に対して外乱または損失が少ないものとする。

本発明の目的は、ピックアップされた２つの信号のうちのどちらが良いかを決定し、その後、その選択された信号（以下では「基準信号」または「基準マイクロフォンからの信号」と呼ぶ）のみに対して音声処理（雑音除去やエコーキャンセリングなど）を行うことである。

どちらのマイクロフォンも、主信号源ｓによって発信された信号をピックアップし、マイクロフォンどうしの位置の差により、信号源ｓによって発信された信号に対して様々な位相シフトおよび振幅変動が生じる。より正確には、時間ｔの関数として以下のことが当てはまる。
ｘ_ｎ（ｔ）＝ａ_ｎ×ｓ（ｔ−τ_ｎ）＋ｖ_ｎ（ｔ）
ここで、ａ_ｎは、音源ｓと指数ｎのマイクロフォンの位置間の音響経路にわたるエネルギー損失による振幅減衰であり、τ_ｎは、発信された信号とマイクロフォンｎによって受信された信号の間の位相シフトであり、追加の項ｖ_ｎは、マイクロフォンｎがある位置での拡散雑音場の値を表す。

上記の信号の短時間フーリエ変換を大文字を用いて書くと、式は、
Ｘ_ｎ（ｋ，ｌ）＝ｄ_ｎ（ｋ）×Ｓ（ｋ，ｌ）＋Ｖ_ｎ（ｋ，ｌ）
となり、ここで、ｋおよびｌは、それぞれ考察中の周波数帯域およびフレームを表し、

であり、ここで、ｆ_ｋは、指数ｋの周波数帯域の中心周波数である。

係数ｄ_ｎ（ｋ）が、系の幾何学的データのみに依存し、発信された信号ｓの性質には依存しないことに留意すべきである。実際、これらの係数は、考慮中の幾何学的構成の特性である。

以下、２つの状況を考察する。具体的には、
・近接したマイクロフォンを備える構成。この構成では、２つのマイクロフォン間の距離が発信源とマイクロフォンの間の距離に比べて小さいと考えられる（この状況のより正確な数学的定義は以下に与える）。
・マイクロフォンが離隔された構成。この構成では、発信源と２つのマイクロフォンの一方との間の距離が発信源と他方のマイクロフォンとの間の距離よりも比較的大きいと考えられる。

（近接マイクロフォン構成）
図１に図式的に示されるこの構成は、例えば両方のマイクロフォンがカーラジオの前面に位置され、カーラジオ自体は車両ダッシュボードの中央位置に配置されているときに取られる構成である。マイクロフォン間の距離は、典型的には５センチメートル（ｃｍ）程度であり、最大１０ｃｍである。

この構成では、異なる向きを有する指向性マイクロフォンを使用することが最も有利である。２つのマイクロフォンをＮおよびＭで表す場合、理想的には、マイクロフォンＭは、半平面Ｐ_ｍをカバーするメインローブを有する指向性パターンを有するべきであり、一方、マイクロフォンＮは、残りの半平面Ｐ_ｎを占有する指向性パターンを有するべきである。

近接したマイクロフォンを備えるここで考察中の構成では、音源が平面波を発信する（これには音源がマイクロフォンから数センチメートル離れていれば十分である）と仮定することができ、（３次元での、または特定の平面上への投影での）対象の波の伝播方向のみを評価すればよい。このとき、２つのマイクロフォン間の位相差情報のみが使用され、以下の公式が使用される。

ここで、Ｅは、複数のフレームにわたって考察中の積の平均値を計算することによって求めることができる数学的な期待値である。

マイクロフォンが「近接」しているという仮定は、より正確には、２つのマイクロフォン間の距離ｌ_ｎ，ｍに対する条件として表現することができ、位相遅れと位相進みの混同を避けるために、ｘ_ｎ（ｔ）とｘ_ｍ（ｔ）の間の位相シフトΔφが間隔［−π；π］内にある必要がある。すなわち、

しかしながら、距離Ｄがより大きい場合には、依然として同じアルゴリズムを使用することができるが、分析される周波数からより高い周波数を除く。ここで、最大周波数は以下のように表現される。

２つの半平面Ｐ_ｎとＰ_ｍのどちらが発信源を含むかを決定すれば十分である。このとき、問題は、表現

の符号、すなわち

を調べることになる。

理論上、所与のフレームに関して、角度θ_ｎ，ｍ（ｋ，ｌ）は、すべての周波数に関して同じはずである。実際には、雑音成分が小さな変動をもたらす。したがって、

の符号が様々な周波数に関して計算され、全体の決定は、重み付けしていない個々の決定の和を計算することによって、周波数ごとの結果の分散の関数として得られる。

実際には、様々な種類の位相雑音が含まれ、小さな値のθ_ｎ，ｍ（ｋ，ｌ）に関してはθ_ｎ，ｍ（ｋ，ｌ）の符号の決定が偏ることがある。それにも関わらず、以下の公式

は、より高い周波数では雑音項があまり影響を持たないことを表す。その結果、低いｋ値で行われる計算は、特に信号の入射角が小さい場合には信頼性がより低い。したがって、より高い周波数でより高い信頼性指数を有する重み付けを使用することが望ましい。

ここでは平均は使用されず、１組の周波数にわたる符号のカウントのみが使用されるので、計算から最低周波数（ｋ≦ｋ_ｍｉｎである周波数）を除外することができる。加算に関して、選択規則は以下のようなものであり、ＮｕｍＰｌｕｓＴｈｒｅｓｈｏｌｄが所定のしきい値である。すなわち、
フレームｌに関して：
・ｃａｒｄ（Ｅ_＋）−ｃａｒｄ（Ｅ₋）＞ＮｕｍＰｌｕｓＴｈｒｅｓｈｏｌｄの場合、
Ｍがより良いマイクロフォンである。
・ｃａｒｄ（Ｅ₋）−ｃａｒｄ（Ｅ_＋）＞ＮｕｍＰｌｕｓＴｈｒｅｓｈｏｌｄの場合、
Ｎがより良いマイクロフォンである。
・または、決定が下されない。
ここで、

すなわち、マイクロフォンによってピックアップされる信号間の相対位相シフトに基づいて発信源からの信号の入射角を測定するのではなく、周波数帯域の部分集合内の各帯域に関して上記の式の符号が決定され、それらの符号がカウントされる。（しきい値ＮｕｍＰｌｕｓＴｈｒｅｓｈｏｌｄによって決定される）カウントの大多数がマイクロフォンＮまたはＭの一方を表す場合、そのマイクロフォンが基準マイクロフォンであるとみなされる。

（２つの離隔したマイクロフォンを備える構成）
この構成は、図２に図式的に示される。

この例でのマイクロフォン間の距離は、約１メートル（ｍ）〜１．５ｍであり、例えば２つのマイクロフォンが車内天井の両側に配置された設備に対応する。

この構成では、２つのマイクロフォン間の距離が非常に大きい（位相遅れと位相進みの相関が不十分であり、混同される）ので、位相シフト情報は有用でなくなっている。

対照的に、信号減衰に関する項ａ_ｎおよびａ_ｍがはるかに適当なものである。マイクロフォンの一方によってピックアップされる全信号において、発信源からの寄与、すなわち有用な信号は、マイクロフォンが前記発信源からどれだけ離れているかに対応して減少される。

この構成では、２つの音響ピックアップを区別するために、指向性マイクロフォンを使用する必要はなくなっている。この区別は、発信源に対するマイクロフォンの位置に固有のものである。例えば車内で、マイクロフォンの一方は運転者にはるかに近く、他方は同乗者に近い。したがって、雑音は、マイクロフォンの一方によってピックアップされる信号において、他方によってピックアップされる信号よりもはるかに大きく減衰される。

そのような条件下では、基本的な原理は、選択基準として信号／雑音比の値を使用することにある。したがって、選択基準は、２つの近接したマイクロフォンの場合のように角度基準ではなく、エネルギー基準である。

近接マイクロフォン構成での角度基準と同じ原理で、しきい値ΔＳＮＲＴｈｒｅｓｈｏｌｄと比較して決定が下される。決定規則は以下のようなものである。
フレームｌに関して：
・ＳＮＲ_ｍ（ｌ）−ＳＮＲ_ｎ（ｌ）＞ΔＳＮＲＴｈｒｅｓｈｏｌｄの場合、
Ｍがより良いマイクロフォンである。
・ＳＮＲ_ｎ（ｌ）−ＳＮＲ_ｍ（ｌ）＞ΔＳＮＲＴｈｒｅｓｈｏｌｄの場合、
Ｎがより良いマイクロフォンである。
・または、決定が下されない。
ここで、

ここで、

および

は、マイクロフォンＭおよびＮによってそれぞれピックアップされた推定雑音成分を表す。

（基準マイクロフォン選択をより確実にする）
基準マイクロフォンを自動的に選択するための技法は、雑音および計算近似に関連する様々な偏りを受ける。

誤検出が非常に多くなるのを避けるために、本発明は、拡散雑音に対して非常に大きな確実性を提供するとともに、選択された基準信号に後で適用される処理技法（相互相関や加算など）に関係なく有効である包括的なメカニズムによって自動選択技法を補うことを提案する。

本質的には、本発明は、マイクロフォンによってピックアップされた各信号中の音声の存在に関する信頼性指数、および音声存在信頼性指数のある最小レベルで基準マイクロフォンの選択を条件付けるための信頼性指数を導出することを提案する。

発信源からの有用な信号がない（話者からの音声がない）場合、一方の代わりに他方のマイクロフォンを選択することを試みても意味がない。したがって、発信源信号が存在する可能性が高いフレームにのみ上述した選択基準を適用することが妥当である。

信頼性指数は、特に音声が存在する確率でよく、これは例えば国際公開第２００７／０９９２２２Ａ１号（ＰａｒｒｏｔＳＡ）に記載されているように計算される。この特許文献は、そのような確率の計算を含む雑音除去法を記載し、この方法は、Ｉ．ＣｏｈｅｎおよびＢ．Ｂｅｒｄｕｇｏが「Ｓｐｅｅｃｈｅｎｈａｎｃｅｍｅｎｔｆｏｒｎｏｎ−ｓｔａｔｉｏｎａｒｙｎｏｉｓｅｅｎｖｉｒｏｎｍｅｎｔｓ」ＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，Ｅｌｓｅｖｉｅｒ，Ｖｏｌ．８１，ｐｐ．２４０３−２４１８，２００１で説明している技法から導き出される。

発信源信号が音声信号に対応するような雑音減少処理の文脈で説明される音声の存在の確率の計算（または任意の他の同等の既知の技法）を本発明に適用して、（したがってあらゆる雑音除去処理の前に）基準マイクロフォンを選択するためのアルゴリズムの確実性を高めることができる。

雑音成分と混合された音声信号の雑音除去の分野でよく行われるように、着想は、各フレームの各成分での音声の有無を正確に識別することではなく、範囲０〜１にある信頼性指数を提供することであり、ここで値１は、（アルゴリズムに従って）音声が確実に存在しないことを意味し、値０は逆を示す。まさにその性質により、この指数は、音声が存在しない論理的確率、すなわち考慮中のフレーム内の所与の周波数成分に音声が存在しない確率と考えることができる。

したがって、音声が存在する確率Ｐ_{ＰｒｅｓＰｒｏｂ}は、それを所定のしきい値ＰｒｅｓＰｒｏｂＴｈｒｅｓｈｏｌｄと比較することによって、一方のマイクロフォンの選択を条件付けるための追加の基準として使用することができる。すなわち、選択規則を適用するために、信号の各フレームｌに関して、以下のことが当てはまるような「適当な周波数」の組Ｆ（ｌ）のみを使用する。
Ｆ（ｌ）＝｛ｋｔ．ｑ．Ｐ_{ＰｒｅｓＰｒｏｂ}（ｋ，ｌ）＞ＰｒｅｓＰｒｏｂＴｈｒｅｓｈｏｌｄ｝

有用な信号に含まれる周波数からなるこの集合が非常に小さい場合（すなわちｃａｒｄ（Ｆ（ｌ））＜ＭｉｎＳｉｚｅである場合）、現在のフレームｌに関して決定は下されない。しきい値ＮｕｍＰｌｕｓＴｈｒｅｓｈｏｌｄまたはΔＳＮＲＴｈｒｅｓｈｏｌｄと同様に、この基準は、誤った決定の数に対する限度を設け、誤った決定の数を制御するのに役立つ。

そうでない場合（すなわちｃａｒｄ（Ｆ（ｌ））＜ＭｉｎＳｉｚｅの場合）、より良いマイクロフォンを選択するための計算が適当な周波数のみに基づいて行われ、すなわち発信源成分がゼロ（音声なし）の周波数は、決定を下す際に考慮されない。

したがって、フレームに関してより良いマイクロフォンを選択するための上で説明した２つの規則は、以下のように書き換えることができる。

第１の構成（近接したマイクロフォン）では、
フレームｌに関して：
・ｃａｒｄ（Ｅ_＋）₋ｃａｒｄ（Ｅ₋）＞ＮｕｍＰｌｕｓＴｈｒｅｓｈｏｌｄ、かつ
ｃａｒｄ（Ｆ（ｌ））＜ＭｉｎＳｉｚｅの場合、
Ｍがより良いマイクロフォンである。
・ｃａｒｄ（Ｅ₋）₋ｃａｒｄ（Ｅ_＋）＞ＮｕｍＰｌｕｓＴｈｒｅｓｈｏｌｄ、かつ
ｃａｒｄ（Ｆ（ｌ））＜ＭｉｎＳｉｚｅの場合、
Ｎがより良いマイクロフォンである。
・または、決定が下されない。
ここで、

第２の構成（離隔したマイクロフォン）の場合、
フレームｌに関して：
・ＳＮＲ_ｍ（ｌ）−ＳＮＲ_ｎ（ｌ）＞ΔＳＮＲＴｈｒｅｓｈｏｌｄ、かつ
ｃａｒｄ（Ｆ（ｌ））＜ＭｉｎＳｉｚｅの場合、
Ｍがより良いマイクロフォンである。
・ＳＮＲ_ｎ（ｌ）−ＳＮＲ_ｍ（ｌ）＞ΔＳＮＲＴｈｒｅｓｈｏｌｄ、かつ
ｃａｒｄ（Ｆ（ｌ））＜ＭｉｎＳｉｚｅの場合、
Ｎがより良いマイクロフォンである。
・または、決定が下されない。
ここで、

（基準マイクロフォンの変更）
本発明のシステムの利点の１つは、発信源の移動を追跡することができることであり、したがって、発信源が移動するとき、または２つの発信源（例えば車両の運転者および同乗者）が交互に発信しているときに、時間にわたって基準マイクロフォンを変更することができることである。

それにも関わらず、安定なシステムを提供することができるように、マイクロフォンをあまりに突発的に、またはあまりに頻繁に変更することは避けることが重要である。

このために、本発明はまた、基準マイクロフォンが変更される段階をより確実にすることも提案する。

適時でない切換えを回避するために、一方の基準マイクロフォンから他方（Ｎの代わりにＭ、またはその逆）への切換えのための条件を、特定の数の安定性規則に依存させることができる。例えば、
・フレームごとにより良いマイクロフォンを選択するための複数の連続して繰り返したアルゴリズムが、基準マイクロフォンを変更するという決定をもたらした場合にのみ、基準マイクロフォンが変更され、および／または
・マイクロフォン変更が突発的でなく、複数の連続するフレームにわたって漸進的に行われる。これは、漸進的な「フェード」効果を得られるように、マイクロフォンの一方では増加して他方では減少する変化する利得を加えることによって行われる。

Claims

雑音の多い環境で動作するマルチマイクロフォン音声処理システムに関して２つ以上のマイクロフォンから１つのマイクロフォンを選択する方法であって、前記マイクロフォンの各々が、それぞれのチャネルと関連付けられ、拡散雑音成分と混合された、主音響信号源（ｓ（ｔ））からの有用な音声成分を含む雑音の多い音響信号をピックアップするのに適している方法であって、
２つのマイクロフォン（Ｎ、Ｍ）によって同時にピックアップされた音響信号をデジタル化するステップと、
２つのチャネルでピックアップされた信号（ｘ_ｎ（ｔ）、ｘ_ｍ（ｔ））を、一連の周波数帯域内で連続するフレームを生成するように変換するステップと、
各チャネルの音声存在指数を計算するためのアルゴリズムを適用するステップと、
前記チャネルそれぞれの連続するフレームに決定規則を適用することによって前記２つのマイクロフォンの一方を選択するステップであって、前記規則が、チャネル選択基準と前記音声存在指数との両方の関数であるステップと、
前記一方の選択されたマイクロフォンによってピックアップされた音響信号に基づいて音声処理を実施するステップと
を含む方法において、
前記２つのチャネルでピックアップされた前記信号（ｘ_ｎ（ｔ）、ｘ_ｍ（ｔ））の前記変換が短時間フーリエ変換であり、
前記音声存在指数が、各フレームの各周波数帯域に関して計算される信頼性指数であり、
前記選択基準が、信頼性指数が第１の所与のしきい値よりも大きい周波数帯域においてのみで計算される、
ことを特徴とする方法。
さらに、第２の所与のしきい値未満にある周波数帯域を前記連続フレームから取り除くステップを含む請求項１に記載の方法。
前記音声存在信頼性指数が、音声が存在する確率である請求項１に記載の方法。
前記音声存在信頼性指数が各周波数帯域に関して計算され、前記選択が、第４の所与のしきい値よりも大きいいくつかの周波数帯域で、前記指数が第３の所与のしきい値よりも大きいという条件で行われる請求項１に記載の方法。
前記マルチマイクロフォン音声処理装置システムが、近接した指向性マイクロフォンを備えるシステムであり、
前記チャネル選択基準が、前記２つのチャネルで同時にピックアップされた信号のそれぞれの位相の比較に基づく角度基準であり、選択されるマイクロフォンが、他方のマイクロフォンよりも早く信号をピックアップするマイクロフォンである
請求項１に記載の方法。
前記マルチマイクロフォン音声処理装置システムが、離隔した指向性または無指向性マイクロフォンを備えるシステムであり、
前記チャネル選択基準が、前記２つのチャネルで同時にピックアップされた前記信号のそれぞれの信号対雑音比の値の比較に基づくエネルギー基準であり、選択されるマイクロフォンが、他方のマイクロフォンよりも前記信号対雑音比が大きいマイクロフォンである
請求項１に記載の方法。
前記２つのマイクロフォンの一方の選択が、第５の所与のしきい値よりも大きいいくつかの連続するフレームで前記決定規則が満足されるときにのみ、条件付きで行われる請求項１に記載の方法。
前記マイクロフォンの一方を選択することが決定された場合に、選択すべきマイクロフォンのチャネルには増加した利得を加え、選択されないマイクロフォンのチャネルには減少した利得を加えることによって、前記選択が所与の移行期間にわたって漸進的に行われる請求項１に記載の方法。