JP2016511594A

JP2016511594A - 音声信号を発生するための方法及び装置

Info

Publication number: JP2016511594A
Application number: JP2015558579A
Authority: JP
Inventors: スリラムスリニバサン
Original assignee: Koninklijke Philips NV
Current assignee: Koninklijke Philips NV
Priority date: 2013-02-26
Filing date: 2014-02-18
Publication date: 2016-04-14
Anticipated expiration: 2034-02-18
Also published as: BR112015020150B1; CN105308681B; WO2014132167A1; RU2648604C2; EP2962300A1; US10032461B2; EP2962300B1; US20150380010A1; JP6519877B2; BR112015020150A2; CN105308681A

Abstract

装置がマイクロフォン受信機１０１を備え、マイクロフォン受信機１０１は、複数のマイクロフォン１０３からマイクロフォン信号を受信する。類似性処理装置１０５は、各マイクロフォン信号に関して、マイクロフォン信号と非反響音声との類似性を示す音声類似性指標を決定する。この決定は、マイクロフォン信号から導出される特性と非反響音声に関する参照特性との比較に応答する。幾つかの実施形態では、比較器１０５は、１組の非反響音声サンプルにおける音声サンプルに関する参照特性との比較によって類似性指標を決定する。発生器１０７は、類似性指標に応答してマイクロフォン信号を複合することによって音声信号を発生する。多くの実施形態において、この装置は、それぞれマイクロフォンを含む複数のデバイスにわたって分散させることができ、この手法は、音声信号を発生するための最も適したマイクロフォンを決定することができる。

Description

本発明は、音声信号を発生するための方法及び装置に関し、特に、例えば異なるデバイスにあるマイクロフォン等の複数のマイクロフォン信号から音声信号を発生することに関する。

従来、遠隔ユーザ間の音声通信は、各側にある専用のデバイスを使用して直接の双方向通信によって提供されている。具体的には、２人のユーザ間の従来の通信は、有線電話接続、又は２つの無線送受信機間の無線接続を介するものであった。しかし、ここ数十年、音声を捕捉して通信するための多様性及び可能性がかなり高まっており、よりフレキシブルな音声通信アプリケーションを含め、多くの新たなサービス及び音声アプリケーションが開発されている。

例えば、ブロードバンドインターネット接続の普及が、新たな通信方法を生み出している。インターネット電話は、通信のコストをかなり下げている。これは、家族や友人の輪が世界中に広がっていく傾向と相まって、電話での長時間の会話をもたらしている。１時間を超えて続くＶｏＩＰ（Voice over Internet Protocol）通話も珍しくなく、現在、そのような長時間の通話中のユーザの快適性が今まで以上に重要である。

更に、ユーザにより所有され使用されるデバイスの範囲がかなり広がっている。具体的には、例えば移動電話、タブレットコンピュータ、ノートブック等、オーディオ捕捉機能、典型的にはワイヤレス通信機能が装備されたデバイスがますます一般的になっている。

ほとんどの音声アプリケーションの品質は、捕捉される音声の品質に大きく依存する。従って、最も実用的なアプリケーションは、発話者の口の近くにマイクロフォンを位置決めすることに基づく。例えば、移動電話は、使用時にユーザによってユーザの口の近くに位置決めされるマイクロフォンを含む。しかし、そのような手法は、多くのシナリオで非実用的であることがあり、最適なユーザエクスペリエンスを提供しないことがある。例えば、ユーザが頭の近くにタブレットコンピュータを保持しなければならないことは、非実用的であり得る。

より自由で、よりフレキシブルなユーザエクスペリエンスを提供するために、様々なハンズフリーソリューションが提案されている。これらは、着用され得る、例えばユーザの衣服に取り付けられ得る非常に小さな筐体内に含まれるワイヤレスマイクロフォンを含む。しかし、これは、多くのシナリオで依然として不便に感じられる。実際、デバイスに近付いたりヘッドセットを着用したりする必要なく、通話中に自由に移動できマルチタスクを行えるハンズフリー通信を可能にすることが、ユーザエクスペリエンスの改善に向けた重要なステップである。

別の手法は、ユーザから離して位置決めされたマイクロフォンに基づくハンズフリー通信を使用することである。例えば、テーブル等に位置決めされたときに部屋内にいる発話者の声を拾う会議システムが開発されている。しかし、そのようなシステムは、最適な音声品質を常には提供しない傾向があり、特に、より離れたユーザからの音声は弱く、雑音を多く含む傾向がある。また、そのようなシナリオでは、捕捉された音声は、高い度合いの反響を含む傾向があり、これは音声の了解度を大幅に減少させることがある。

例えば、そのような遠隔会議システムのために複数のマイクロフォンを使用することが提案されている。しかし、そのような場合における問題は、複数のマイクロフォン信号を複合する方法にある。従来の手法は、単に信号を足し合わせるものである。しかし、これは、最適な音声品質を提供しない傾向がある。マイクロフォン信号の相対信号レベルに基づいて加重和を行うこと等、様々なより複雑な手法が提案されている。しかし、それらの手法は、多くのシナリオで最適な性能を提供しない傾向があり、例えば、依然として高い度合いの反響を含んでいたり、絶対レベルの影響を受けやすかったり、複雑であったり、全てのマイクロフォン信号への集中型アクセスを必要としたり、比較的非実用的であったり、専用デバイスを必要としたりする。

従って、音声信号を捕捉するための改良された手法が有利であり、特に、フレキシビリティの向上、音声品質の改良、反響の減少、複雑性の減少、通信要件の減少、様々なデバイス（多機能デバイスを含む）に対するアダプタビリティの向上、資源要件の減少、及び／又は性能の改良を可能にする手法が有利である。

従って、本発明は、上述した欠点の１つ又は複数を単独で、又は任意の組合せで好ましくは緩和、軽減、又は除去することを試みる。

本発明の一態様によれば、音声信号を発生するための装置であって、複数のマイクロフォンからマイクロフォン信号を受信するためのマイクロフォン受信機と、各マイクロフォン信号に関して、マイクロフォン信号と非反響音声との間の類似性を示す音声類似性指標を決定するように構成された比較器であって、マイクロフォン信号から導出される少なくとも１つの特性と非反響音声に関する少なくとも１つの参照特性との比較に応答して、類似性指標を決定するように構成された比較器と、類似性指標に応答してマイクロフォン信号を複合することによって音声信号を発生するための発生器とを備える装置が提供される。

本発明は、多くの実施形態において、改良された音声信号が発生されるようにすることができる。特に、多くの実施形態において、反響がほとんどなく、及び／又はしばしば雑音がほとんどない音声信号が発生されるようにすることができる。この手法は、音声アプリケーションの性能の改良を可能にすることがあり、特に、多くのシナリオ及び実施形態において、改良された音声通信を提供することがある。

マイクロフォン信号から導出される少なくとも１つの特性と非反響音声に関する参照特性との比較は、音声信号に対する個々のマイクロフォン信号の相対的な有意性を識別する特に効率的で正確なやり方を提供し、特に、例えば信号レベル又は信号対雑音比の尺度に基づく手法よりも良い評価を提供し得る。実際、非反響音声信号に対する捕捉されたオーディオの対応関係は、音声のどれほどが直接経路を介してマイクロフォンに達しており、どれほどが反響経路を介してマイクロフォンに達しているかの強い指標を提供し得る。

少なくとも１つの参照特性は、非反響音声に関連付けられる１つ又は複数の特性／値で良い。幾つかの実施形態では、少なくとも１つの参照特性は、非反響音声の様々なサンプルに対応する１組の特性で良い。類似性指標は、マイクロフォン信号から導出される少なくとも１つの特性の値と、非反響音声に関する少なくとも１つの参照特性、特に１つの非反響音声サンプルの少なくとも１つの参照特性との差を反映するように決定され得る。幾つかの実施形態では、マイクロフォン信号から導出される少なくとも１つの特性は、マイクロフォン信号自体で良い。幾つかの実施形態では、非反響音声に関する少なくとも１つの参照特性は、非反響音声信号で良い。代替として、特性は、利得正規化されたスペクトル包絡線等、適切な特徴で良い。

マイクロフォン信号を提供するマイクロフォンは、多くの実施形態において、ある領域内に分散されたマイクロフォンで良く、互いから離れていて良い。特に、この手法は、これらの位置がユーザ又は装置／システムによって知られている、又は仮定されている必要がなく、様々な位置で捕捉されたオーディオの使用の改善を可能にすることができる。例えば、マイクロフォンは、部屋内にアドホックでランダムに分布されて良く、システムは、特定の構成に関する音声信号の改良を提供するように自動的に適合し得る。

非反響音声サンプルは、特に、実質的にドライ又は無響の音声サンプルで良い。

音声類似性指標は、個々のマイクロフォン信号（又はその一部）と非反響音声、例えば非反響音声サンプル等との相違又は類似性の度合いの任意の指標で良い。類似性指標は、知覚的な類似性指標で良い。

本発明の任意選択的な特徴によれば、装置は、複数の個別のデバイスを備え、各デバイスが、複数のマイクロフォン信号のうちの少なくとも１つのマイクロフォン信号を受信するためのマイクロフォン受信機を備える。

これは、音声信号を発生するための特に効率的な手法を提供することができる。多くの実施形態において、各デバイスは、マイクロフォン信号を提供するマイクロフォンを備えていて良い。本発明は、性能の改良により、改良された及び／又は新規のユーザエクスペリエンスを可能にすることができる。

例えば、幾つかの可能な様々なデバイスが、部屋内に位置決めされ得る。音声通信等の音声アプリケーションを実行するとき、個々のデバイスがそれぞれマイクロフォン信号を提供することがあり、これらのマイクロフォン信号は、音声信号を発生するために使用するのに最も適したデバイス／マイクロフォンを見つけるために評価され得る。

本発明の任意選択的な特徴によれば、複数の個別のデバイスのうちの少なくとも第１のデバイスが、第１のデバイスの少なくとも１つのマイクロフォン信号に関する第１の音声類似性指標を決定するためのローカル比較器を備える。

これは、多くのシナリオで動作の改良を提供することができ、特に分散処理を可能にし、分散処理は、例えば通信リソースを減少させる及び／又は計算リソース要求を広げることができる。

具体的には、多くの実施形態において、個々のデバイスは、ローカルで類似性指標を決定することができ、類似性基準が基準を満たす場合にのみマイクロフォン信号を送信することができる。

本発明の任意選択的な特徴によれば、発生器が、少なくとも第１のデバイスとは別個の発生器デバイス内に実装され、第１のデバイスは、第１の音声類似性指標を発生器デバイスに送信するための送信機を備える。

これは、多くの実施形態において、有利な実装及び動作を可能にし得る。特に、これは、多くの実施形態において、任意のオーディオ又は音声信号の通信を必要とせずに、１つのデバイスが全ての他のデバイスでの音声品質を評価できるようにし得る。送信機は、Bluetooth（登録商標）やＷｉ−Ｆｉ通信リンク等のワイヤレス通信リンクを介して第１の音声類似性指標を送信するように構成され得る。

本発明の任意選択的な特徴によれば、発生器デバイスが、複数の個別のデバイスそれぞれから音声類似性指標を受信するように構成され、発生器が、複数の個別のデバイスからのマイクロフォン信号の部分集合を使用して音声信号を発生するように構成され、部分集合は、複数の個別のデバイスから受信された音声類似性指標に応答して決定される。

これは、多くのシナリオで非常に効率的なシステムを可能にすることができ、ここで、様々なデバイスによって拾われたマイクロフォン信号から音声信号が発生され得て、音声信号を発生するためにデバイスの最良の部分集合のみが使用される。従って、典型的には、得られる音声信号品質に大きな影響を及ぼさずに、通信資源がかなり減少される。

多くの実施形態において、部分集合は、ただ１つのマイクロフォンのみを含めば良い。幾つかの実施形態では、発生器は、類似性指標に基づいて複数のマイクロフォン信号から選択されたただ１つのマイクロフォン信号から音声信号を発生するように構成され得る。

本発明の任意選択的な特徴によれば、複数の個別のデバイスのうちの少なくとも１つのデバイスが、少なくとも１つのデバイスの少なくとも１つのマイクロフォン信号がマイクロフォン信号の部分集合に含まれる場合にのみ、少なくとも１つのデバイスの少なくとも１つのマイクロフォン信号を発生器デバイスに送信するように構成される。

これは、通信資源使用量を減少させることができ、マイクロフォン信号が部分集合に含まれていないデバイスに関する計算資源使用量を減少させることができる。送信機は、Bluetooth（登録商標）やＷｉ−Ｆｉ通信リンク等のワイヤレス通信リンクを介して少なくとも１つのマイクロフォン信号を送信するように構成され得る。

本発明の任意選択的な特徴によれば、発生器デバイスは、マイクロフォン信号の部分集合を決定するように構成された選択器と、複数の個別のデバイスの少なくとも１つに部分集合の指標を送信するための送信機とを備える。

これは、多くのシナリオで有利な動作を提供し得る。

幾つかの実施形態では、発生器は、部分集合を決定することができ、複数のデバイスのうちの少なくとも１つのデバイスに部分集合の指標を送信するように構成され得る。例えば、部分集合内に含まれるマイクロフォン信号のデバイスに関して、発生器は、デバイスがマイクロフォン信号を発生器に送信すべきであるという指示を送信することがある。

送信機は、Bluetooth（登録商標）やＷｉ−Ｆｉ通信リンク等のワイヤレス通信リンクを介して指標を送信するように構成され得る。

本発明の任意選択的な特徴によれば、比較器は、マイクロフォン信号から導出される少なくとも１つの特性と１組の非反響音声サンプルにおける音声サンプルに関する参照特性との比較に応答して、第１のマイクロフォン信号に関して類似性指標を決定するように構成される。

（例えば適切な特徴領域での）マイクロフォン信号と大きな１組の非反響音声サンプルとの比較は、音声信号に対する個々のマイクロフォン信号の相対的な有意性を識別する特に効率的で正確なやり方を提供し、特に、例えば信号レベル又は信号対雑音比の尺度に基づく手法よりも良い評価を提供し得る。実際、非反響音声信号に対する捕捉されたオーディオの対応関係は、音声のどれほどが直接経路を介してマイクロフォンに達しており、どれほどが反響／反射経路を介してマイクロフォンに達しているかの強い指標を提供し得る。実際、非反響音声サンプルとの比較は、単にエネルギー又はレベルを考慮するのではなく、音響経路のパルス応答の形状の考慮を含むと考えられ得る。

この手法は、発話者に依存しないことがあり、幾つかの実施形態では、１組の非反響音声サンプルが、（高い又は低い声等）異なる発話者特性に対応するサンプルを含むことがある。多くの実施形態において、処理はセグメント化され得て、１組の非反響音声サンプルは、例えば、人間音声の音素に対応するサンプルを含むことがある。

比較器は、各マイクロフォン信号に関して、１組の非反響音声サンプルにおける各音声サンプルに関する個々の類似性指標を決定することができる。ここで、マイクロフォン信号に関する類似性指標は、例えば最高の度合いの類似性を示す個別の類似性指標を選択することによって、個別の類似性指標から決定され得る。多くのシナリオにおいて、最も良く合致する音声サンプルが識別され得て、この音声サンプルについて、マイクロフォン信号に関する類似性指標が決定され得る。類似性指標は、マイクロフォン信号（又はその一部）と、１組の非反響音声サンプルのうち、最高の類似性が見出された非反響音声サンプルとの類似性の指標を提供し得る。

所与の音声信号サンプルに関する類似性指標は、マイクロフォン信号が、音声サンプルに対応する音声発声から生じたものである尤度を反映し得る。

本発明の任意選択的な特徴によれば、１組の非反響音声サンプルにおける音声サンプルは、非反響音声モデルに関するパラメータによって表現される。

これは、効率が良く、信頼性が高く、及び／又は正確な動作を提供し得る。この手法は、多くの実施形態において、計算及び／又はメモリ資源要件を減少させることができる。

比較器は、幾つかの実施形態では、様々なパラメータセットに関するモデルを評価し、得られた信号をマイクロフォン信号と比較することができる。例えば、マイクロフォン信号と音声サンプルの周波数表現とが比較され得る。

幾つかの実施形態では、音声モデルに関するモデルパラメータは、マイクロフォン信号から生成され得て、即ち、マイクロフォン信号に合致する音声サンプルを生じるモデルパラメータが決定され得る。次いで、これらのモデルパラメータは、１組の非反響音声サンプルのパラメータと比較され得る。

特に、非反響音声モデルは、線形予測モデル、例えば特にＣＥＬＰ（符号励振線形予測（Code-Excited Linear Prediction））モデルで良い。

本発明の任意選択的な特徴によれば、比較器は、第１の音声サンプルに関するパラメータを使用して非反響音声モデルを評価することによって発生される音声サンプル信号から、１組の非反響音声サンプルのうちの第１の音声サンプルに関する第１の参照特性を決定するように構成され、また、第１のマイクロフォン信号から導出される特性と第１の参照特性との比較に応答して、複数のマイクロフォン信号のうちの第１のマイクロフォン信号に関する類似性指標を決定するように構成される。

これは、多くのシナリオで有利な動作を提供し得る。第１のマイクロフォン信号に関する類似性指標は、第１のマイクロフォン信号に関して決定された特性を各非反響音声サンプルに関して決定された参照特性と比較することによって決定され得て、参照特性は、モデルを評価することによって発生される信号表現から決定される。従って、比較器は、マイクロフォン信号の特性を、非反響音声サンプルに関する記憶されているパラメータを使用して非反響音声モデルを評価することにより得られる信号サンプルの特性と比較することができる。

本発明の任意選択的な特徴によれば、比較器は、複数のマイクロフォン信号のうちの第１のマイクロフォン信号を１組の基底信号ベクトルに分解し、１組の基底信号ベクトルの特性に応答して類似性指標を決定するように構成される。

これは、多くのシナリオで有利な動作を提供し得る。この手法は、多くのシナリオで、複雑性及び／又は資源使用量を減少させることができる。参照特性は、適切な特徴領域での１組の基底ベクトルに関係付けられることがあり、そこから、基底ベクトルの加重和として非反響特徴ベクトルが生成され得る。この組は、非反響特徴ベクトルを正確に記述するために、少数の基底ベクトルのみを用いた加重和で十分となるように設計され得て、即ち、１組の基底ベクトルが、非反響音声に関するスパース表現を提供する。参照特性は、加重和に現れる基底ベクトルの数で良い。反響音声特徴ベクトルを記述するために非反響音声に関して設計されている１組の基底ベクトルを使用することは、あまりスパースでない（less-sparse）分解をもたらす。特性は、マイクロフォン信号から抽出される特徴ベクトルを記述するために使用されるときに非ゼロの重み（又は所与の閾値よりも大きい重み）を有する基底ベクトルの数で良い。類似性指標は、より少数の基本信号ベクトルに関して、非反響音声信号へのより高い類似性を示すことができる。

本発明の任意選択的な特徴によれば、比較器は、音声信号の複数のセグメントの各セグメントに関して音声類似性指標を決定するように構成され、発生器は、各セグメントに関して複合のための複合パラメータを決定するように構成される。

装置は、セグメント化された処理を利用することができる。複合は、各セグメントに関して一定で良いが、セグメント毎に変えられても良い。例えば、音声信号は、各セグメントで１つのマイクロフォン信号を選択することによって発生され得る。複合パラメータは、例えばマイクロフォン信号に関する複合重みで良く、又は例えば複合に含めるマイクロフォン信号の部分集合の選択で良い。この装置は、性能の改良及び／又は動作の容易化を提供し得る。

本発明の任意選択的な特徴によれば、発生器は、少なくとも１つの前のセグメントの類似性指標に応答して１つのセグメントに関する複合パラメータを決定するように構成される。

これは、多くのシナリオで、性能の改良を提供し得る。例えば、ゆっくりとした変化へのより良い適合を提供することができ、また、発生された音声信号の途絶を減少させることができる。

幾つかの実施形態では、複合パラメータは、静かな期間又は休止中のセグメントには基づかずに、音声を含むセグメントのみに基づいて決定され得る。

幾つかの実施形態では、発生器は、ユーザ運動モデルに応答して第１のセグメントに関する複合パラメータを決定するように構成される。

本発明の任意選択的な特徴によれば、発生器は、類似性指標に応答して複合するためにマイクロフォン信号の部分集合を選択するように構成される。

これは、多くの実施形態において、性能の改良及び／又は動作の容易化を可能にし得る。複合は、特に選択複合で良い。発生器は、特に、類似性指標が絶対又は相対基準を満たすマイクロフォン信号のみを選択し得る。

幾つかの実施形態では、マイクロフォン信号の部分集合は、ただ１つのマイクロフォン信号を備える。

本発明の任意選択的な特徴によれば、発生器は、マイクロフォン信号の加重複合として音声信号を発生するように構成され、それらのマイクロフォン信号のうちの第１のマイクロフォン信号に関する重みは、そのマイクロフォン信号に関する類似性指標に依存する。

これは、多くの実施形態において、性能の改良及び／又は動作の容易化を可能にし得る。

本発明の一態様によれば、音声信号を発生する方法であって、複数のマイクロフォンからマイクロフォン信号を受信するステップと、各マイクロフォン信号に関して、マイクロフォン信号と非反響音声との間の類似性を示す音声類似性指標を決定するステップであって、マイクロフォン信号から導出される少なくとも１つの特性と非反響音声に関する少なくとも１つの参照特性との比較に応答して、類似性指標が決定されるステップと、類似性指標に応答してマイクロフォン信号を複合することによって、音声信号を発生するステップとを含む方法が提供される。

本発明のこれら及び他の態様、特徴、及び利点は、本明細書で以下に述べる実施形態を参照すれば明らかになり解明されよう。

本発明の実施形態を、単に例として、図面を参照して説明する。

本発明の幾つかの実施形態による音声捕捉装置を示す図である。本発明の幾つかの実施形態による音声捕捉システムを示す図である。反響室内で３つの異なる距離で記録された音声のセグメントに対応するスペクトル包絡線の一例を示す図である。本発明の幾つかの実施形態に従って決定される、マイクロフォンが発話者に最も近いマイクロフォンである尤度の一例を示す図である。

以下の説明は、電気通信用の音声信号を発生するために音声の捕捉に適用可能な本発明の幾つかの実施形態に焦点を当てる。しかし、本発明がこの用途に限定されず、多くの他のサービス及び用途に適用され得ることを理解されたい。

図１は、本発明の幾つかの実施形態による音声捕捉装置の要素の一例を示す。

この例では、音声捕捉装置は、複数のマイクロフォン受信機１０１を備え、マイクロフォン受信機１０１は、複数のマイクロフォン１０３（装置の一部でも、装置の外部にあっても良い）に結合される。

従って、１組のマイクロフォン受信機１０１が、マイクロフォン１０３から１組のマイクロフォン信号を受信する。この例では、マイクロフォン１０３は、様々な未知の位置で部屋内に分布される。従って、異なるマイクロフォンが、異なる領域からサウンドを拾うことができ、異なる特性を有する同じサウンドを拾うことができ、又はマイクロフォンが互いに近い場合には同様の特性を有する同じサウンドを実際に拾うことができる。マイクロフォン１０３間の関係、及びマイクロフォン１０３と異なる音源との関係は、典型的にはシステムによって知られていない。

音声捕捉装置は、マイクロフォン信号から音声信号を発生するように配置される。具体的には、システムは、マイクロフォン１０３によって捕捉されたオーディオから音声信号を抽出するためにマイクロフォン信号を処理するように構成される。システムは、各マイクロフォン信号が非反響音声信号にどれほど良く対応するかに応じてマイクロフォン信号を複合するように構成され、それにより、そのような信号に対応する可能性が最も高い複合信号を提供する。複合は、特に選択複合で良く、装置は、非反響音声信号に最も良く似ているマイクロフォン信号を選択する。音声信号の発生は、個々のマイクロフォンの特定の位置とは無関係であることがあり、マイクロフォン１０３又は発話者の位置の知識には何ら依拠しない。むしろ、マイクロフォン１０３は、例えば部屋内にランダムに分布されることがあり、システムは、例えば、任意の所与の発話者に最も近いマイクロフォンからの信号を主に使用するように自動的に適合し得る。この適合は自動的に行われることがあり、（以下に述べる）そのような最も近いマイクロフォン１０３を識別するための特定の手法は、ほとんどのシナリオで特に適切な音声信号をもたらす。

図１の音声捕捉装置では、マイクロフォン受信機１０３は、比較器又は類似性処理装置１０５に結合され、比較器又は類似性処理装置１０５は、マイクロフォン信号を供給される。

各マイクロフォン信号に関して、類似性処理装置１０５は、音声類似性指標（本明細書では以後、単に類似性指標と呼ぶ）を決定し、類似性指標は、マイクロフォン信号と非反響音声との類似性を示す。類似性処理装置１０５は、特に、マイクロフォン信号から導出される少なくとも１つの特性と非反響音声に関する少なくとも１つの参照特性との比較に応答して、類似性指標を決定する。参照特性は、幾つかの実施形態では、単一のスカラー値で良く、他の実施形態では、値又は関数の複合的な集合で良い。参照特性は、幾つかの実施形態では、特定の非反響音声信号から導出されて良く、他の実施形態では、非反響音声に関連付けられる一般的な特性で良い。参照特性、及び／又はマイクロフォン信号から導出される特性は、例えば、スペクトル、パワースペクトル密度特性、幾つかの非ゼロ基底ベクトル等で良い。幾つかの実施形態では、これらの特性は信号で良く、特に、マイクロフォン信号から導出される特性は、マイクロフォン信号自体で良い。同様に、参照特性は、非反響音声信号で良い。

具体的には、類似性処理装置１０５は、各マイクロフォン信号に関して類似性指標を発生するように構成されて良く、ここで、類似性指標は、１組の非反響音声サンプルからの音声サンプルに対するマイクロフォン信号の類似性を示す。従って、この例では、類似性処理装置１０５は、幾つかの（典型的には多数の）音声サンプルを記憶するメモリを備え、各音声サンプルは、非反響及び特に実質的に無響の部屋内での音声に対応する。一例として、類似性処理装置１０５は、各マイクロフォン信号を各音声サンプルと比較して、各音声サンプルに関して、記憶されている音声サンプルとマイクロフォン信号との相違の尺度を決定することができる。次いで、音声サンプルに関する相違の尺度が比較され得て、最小の相違を示す尺度が選択され得る。次いで、この尺度は、特定のマイクロフォン信号に関する類似性指標を生成するために（又は類似性指標として）使用され得る。このプロセスが全てのマイクロフォン信号に関して繰り返され、１組の類似性指標を生じる。従って、１組の類似性指標は、各マイクロフォン信号が非反響音声とどれほど似ているかを示すことができる。

多くの実施形態及びシナリオにおいて、そのような信号サンプル領域比較は、マイクロフォンレベルの変化や雑音等に関係する不確かさにより、信頼性が十分に高くないことがある。従って、多くの実施形態において、比較器は、特徴領域で行われる比較に応答して類似性指標を決定するように構成され得る。従って、多くの実施形態において、比較器は、マイクロフォン信号から幾つかの特徴／パラメータを決定し、これらを、非反響音声に関する記憶されている特徴／パラメータと比較するように構成され得る。例えば、以下により詳細に述べるように、比較は、線形予測モデルのための係数等、音声モデルに関するパラメータに基づいていて良い。次いで、マイクロフォン信号に関して、対応するパラメータが決定され、無響環境内での様々な発声に対応する記憶されているパラメータと比較され得る。

非反響音声は、典型的には、発話者からの音響伝達関数が主として直接経路に基づくものであり、反射及び反響部分は実質的に減衰されているときに実現される。これはまた、典型的には、発話者がマイクロフォンの比較的近くにいる状況に対応し、発話者の口の近くにマイクロフォンが位置決めされる従来の構成に最も良く対応し得る。また、非反響音声は、しばしば最も了解度の高いものとみなされることもあり、事実、実際の音声源に最も良く対応する。

図１の装置は、個々のマイクロフォンのための音声反響特性が査定されることを可能にする手法を利用し、それにより、これを考慮に入れることができる。実際、本発明者は、音声信号を発生するときに個々のマイクロフォン信号に関する音声反響特性を考慮することが品質をかなり改良し得ることを認識しているだけでなく、専用のテスト信号及び測定を必要とせずにこれが好適に実現され得るやり方を認識している。実際、本発明者は、個々のマイクロフォン信号の特性を非反響音声に関連付けられる参照特性と比較することによって、及び特に複数組の非反響音声サンプルを用いて、改良された音声信号を発生するためにマイクロフォン信号を複合するのに適したパラメータを決定することが可能であることを認識している。特に、この手法は、任意の専用のテスト信号、テスト測定値、又は実際に音声の演繹的な（a priori）知識を必要とせずに音声信号が発生されることを可能にする。実際、システムは、任意の音声によって動作するように設計され得て、例えば特定のテストワード又はセンテンスが発話者によって発話されることを必要としない。

図１のシステムにおいて、類似性処理装置１０５は、発生器１０７に結合され、発生器１０７は、類似性指標を供給される。更に、発生器１０７は、マイクロフォン受信機１０１に結合され、マイクロフォン受信機１０１からマイクロフォン信号を受信する。発生器１０７は、類似性指標に応答してマイクロフォン信号を複合することによって、出力音声信号を発生するように構成される。

複雑でない例として、発生器１０７は、選択複合器を実装することができ、例えば、複数のマイクロフォン信号から単一のマイクロフォン信号が選択される。具体的には、発生器１０７は、非反響音声サンプルに最も良く合致するマイクロフォン信号を選択することができる。次いで、典型的には音声の最もクリーンで最もクリアな捕捉である可能性が高いこのマイクロフォン信号から、音声信号が発生される。具体的には、発話者によって発せられた音声に非常に良く対応するものである可能性が高い。典型的には、これはまた、発話者に最も近いマイクロフォンに対応する。

幾つかの実施形態では、音声信号は、例えば電話回線、ワイヤレス接続、インターネット、又は任意の他の通信ネットワーク若しくはリンクを介して遠隔ユーザに通信され得る。音声信号の通信は、典型的には、音声符号化及び場合によっては他の処理を含んでいて良い。

従って、図１の装置は、発話者及びマイクロフォンの位置、並びに音響環境特性に自動的に適合することができ、元の音声信号に最も良く対応する音声信号を発生する。具体的には、発生される音声信号は、より小さい反響及び雑音を有する傾向があり、従って、あまり歪められずに、よりクリーンに、より高い了解度で聞こえる。

処理は、典型的には、増幅、フィルタリング、時間領域と周波数領域の間の変換等を含めた、オーディオ及び音声処理で典型的に行われる様々な他の処理を含んでいて良いことを理解されたい。例えば、マイクロフォン信号は、しばしば、類似性指標を発生するために複合される及び／又は使用される前に、増幅及びフィルタリングされ得る。同様に、発生器１０７は、音声信号の複合及び／又は発生の一部として、フィルタリングや増幅等を含むこともある。

多くの実施形態において、音声捕捉装置は、セグメント化された処理を使用することができる。従って、処理は、短い時間間隔で、例えば１００ミリ秒未満の持続時間のセグメント、しばしば約２０ミリ秒のセグメントで実施され得る。

従って、幾つかの実施形態では、類似性指標は、所与のセグメントで各マイクロフォン信号に関して発生され得る。例えば、各マイクロフォン信号に関して、例えば５０ミリ秒の持続時間のマイクロフォン信号セグメントが発生され得る。次いで、セグメントは、１組の非反響音声サンプルと比較されて良く、１組の非反響音声サンプル自体が、音声セグメントサンプルから構成され得る。この５０ミリ秒セグメントに関して類似性指標が決定され得て、発生器１０７は、続いて、マイクロフォン信号セグメントと、そのセグメント／間隔に関する類似性指標とに基づいて、５０ミリ秒の間隔にわたる音声信号セグメントを発生することができる。従って、各セグメントに関して、例えば、各セグメント内で非反響音声サンプルの音声セグメントサンプルに対する最高の類似性を有するマイクロフォン信号を選択することによって、複合が更新され得る。これは、特に効率的な処理及び動作を提供することができ、特定の環境への継続的及び動的な適合を可能にし得る。実際、発話者音源及び／又はマイクロフォン位置の動的な移動への適合が、低い複雑性で実現され得る。例えば、２つの音源（発話者）間で音声が切り替わる場合、システムは、それに対応して、２つのマイクロフォン間で切り替わるように適合し得る。

幾つかの実施形態では、非反響音声サンプルは、マイクロフォン信号セグメントの持続時間に合致する持続時間を有していて良い。しかし、幾つかの実施形態では、持続時間はより長くても良い。例えば、各非反響音声セグメントサンプルは、より長い持続時間を有する音素又は特定の音声サウンドに対応していて良い。そのような実施形態では、各非反響音声セグメントサンプルに関する類似性尺度の決定は、音声セグメントサンプルに対するマイクロフォン信号セグメントの整合を含むことがある。例えば、様々な時間オフセットに関して相関値が決定され得て、最高値が類似性指標として選択され得る。これは、より少数の音声セグメントサンプルが記憶されるようにし得る。

幾つかの例では、使用するマイクロフォン信号の部分集合の選択や、線形和に関する重み等の複合パラメータが、音声信号の時間間隔に関して決定され得る。従って、セグメントにおいて、セグメントにわたって一定であるが、セグメント間では異なることもあるパラメータに基づく複合から、音声信号が決定され得る。

幾つかの実施形態では、複合パラメータの決定は各時間セグメントに関して独立しており、即ち、時間セグメントに関する複合パラメータは、その時間セグメントに関して決定される類似性指標のみに基づいて計算され得る。

しかし、他の実施形態では、複合パラメータは、代替又は追加として、少なくとも１つの前のセグメントの類似性指標に応答して決定されても良い。例えば、類似性指標は、幾つかのセグメントにわたって延びるローパスフィルタを使用してフィルタされ得る。これは、よりゆっくりとした適合を保証することがあり、例えば、発生される音声信号の変動及び変化を低減させることができる。別の例として、ヒステリシス効果が適用されても良く、これは、例えば、発話者からほぼ同じ距離に位置決めされた２つのマイクロフォン間での速いピンポンスイッチングを防止する。

幾つかの実施形態では、発生器１０７は、ユーザ運動モデルに応答して第１のセグメントに関する複合パラメータを決定するように構成され得る。そのような手法は、マイクロフォンデバイス２０１、２０３、２０５に対するユーザの相対位置を追跡するために使用され得る。ユーザモデルは、ユーザ又はマイクロフォンデバイス２０１、２０３、２０５の位置を明示的に追跡する必要はなく、類似性指標の変動を直接追跡することがある。例えば、人間運動モデルを記述するために状態空間表現が採用され得て、移動による類似性指標の変化を追跡するために、１つのマイクロフォン信号の個々のセグメントの類似性指標にカルマンフィルタが適用され得る。次いで、得られるカルマンフィルタの出力が、現在のセグメントに関する類似性指標として使用され得る。

多くの実施形態において、図１の機能は、分散されて実施されて良く、特に、システムは複数のデバイスにわたって拡散され得る。具体的には、各マイクロフォン１０３は異なるデバイスの一部で良く、又は異なるデバイスに接続されていて良く、従って、マイクロフォン受信機１０１は異なるデバイスに含まれていて良い。

幾つかの実施形態では、類似性処理装置１０５と発生器１０７は、単一のデバイス内に実装される。例えば、幾つかの異なる遠隔デバイスがマイクロフォン信号を発生器デバイスに送信しても良く、発生器デバイスは、受信されたマイクロフォン信号から音声信号を発生するように構成される。この発生器デバイスは、既述のような類似性処理装置１０５及び発生器１０７の機能を実装し得る。

しかし、多くの実施形態において、類似性処理装置１０５の機能は、複数の個別のデバイスにわたって分散される。具体的には、各デバイスは、（副）類似性処理装置１０５を備えることがあり、（副）類似性処理装置１０５は、そのデバイスのマイクロフォン信号に関する類似性指標を決定するように構成される。次いで、類似性指標は、発生器デバイスに送信され得て、発生器デバイスは、受信された類似性指標に基づいて複合に関するパラメータを決定し得る。例えば、発生器デバイスは、単に、最も高い類似性指標を有するマイクロフォン信号／デバイスを選択することがある。幾つかの実施形態では、デバイスは、発生器デバイスがマイクロフォン信号を要求しない限り、発生器デバイスにマイクロフォン信号を送信しないことがある。従って、発生器デバイスは、選択されたデバイスに、マイクロフォン信号を求める要求を送信することができ、この選択されたデバイスが、それに応答してマイクロフォン信号を発生器デバイスに提供する。その後、発生器デバイスは、続いて、受信されたマイクロフォン信号に基づいて出力信号を発生する。実際、この例では、発生器１０７はデバイスにわたって分散されているものと考慮され得て、複合は、マイクロフォン信号を選択して選択的に送信するプロセスによって実現される。そのような手法の利点は、マイクロフォン信号の１つのみ（又は少なくとも部分集合）が発生器デバイスに送信されれば良く、従って、かなり減少された通信資源使用量が実現され得ることである。

一例として、この手法は、ユーザの音声を捕捉するために対象の領域内に分布されたデバイスのマイクロフォンを使用することがある。典型的な現代のリビングルームは、典型的には、１つ又は複数のマイクロフォン及びワイヤレス伝送機能を装備された幾つかのデバイスを有する。例は、コードレス固定電話、移動電話、ビデオチャット対応テレビジョン、タブレットＰＣ、ラップトップ等を含む。これらのデバイスは、幾つかの実施形態では、例えば発話者に最も近いマイクロフォンによって捕捉される音声を自動的に且つ適応可能に選択することによって、音声信号を発生するために使用され得る。これは、典型的には高品質であり反響のない捕捉された音声を提供することができる。

実際、一般に、マイクロフォンによって捕捉される信号は、反響、周囲雑音、及びマイクロフォン雑音によって影響を及ぼされる傾向があり、影響は、音源（例えばユーザの口）に対するマイクロフォンの位置に依存する。システムは、ユーザの口に近いマイクロフォンによって記録されたものに最も近いマイクロフォンを選択することを試みることがある。発生された音声信号は、例えばホーム／オフィス電話、遠隔会議システム、音声制御システム用のフロントエンド等、ハンズフリー音声捕捉が望ましい場合に適用され得る。

より詳細には、図２は、分散型の音声発生／捕捉装置／システムの一例を示す。この例は、複数のマイクロフォン２０１、２０３、２０５、及び発生器デバイス２０７を含む。

各マイクロフォン２０１、２０３、２０５はマイクロフォン受信機１０１を備え、マイクロフォン受信機１０１はマイクロフォン１０３からマイクロフォン信号を受信し、マイクロフォン１０３は、この例ではマイクロフォンデバイス２０１、２０３、２０５の一部であるが、他の場合にはマイクロフォンデバイス２０１、２０３、２０５とは別でも良い（例えば、マイクロフォンデバイス２０１、２０３、２０５の１つ又は複数が、外部マイクロフォンを取り付けるためのマイクロフォン入力端子を備えることがある）。各マイクロフォンデバイス２０１、２０３、２０５でのマイクロフォン受信機１０１は、類似性処理装置１０５に結合され、類似性処理装置１０５は、マイクロフォン信号に関する類似性指標を決定する。

特に、各マイクロフォンデバイス２０１、２０３、２０５の類似性処理装置１０５は、個々のマイクロフォンデバイス２０１、２０３、２０５の特定のマイクロフォン信号に関して、図１の類似性処理装置１０５の動作を実施する。従って、各マイクロフォンデバイス２０１、２０３、２０５の類似性処理装置１０５は、特に、続いて、マイクロフォン信号を、各デバイスにローカルで記憶されている１組の非反響音声サンプルと比較する。類似性処理装置１０５は、特に、マイクロフォン信号を各非反響音声サンプルと比較し、各音声サンプルに関して、信号がどれほど類似しているかの指標を決定することができる。例えば、類似性処理装置１０５が、人間音声の各音素の表現を含むローカルデータベースを記憶するためのメモリを含む場合、類似性処理装置１０５は、続いて、マイクロフォン信号を各音素と比較することができる。従って、マイクロフォン信号が、任意の反響又は雑音を含まない各音素にどれほど良く似ているかを示す１組の指標が決定される。従って、最良の合致に対応する指標は、捕捉されたオーディオがその音素を発話する発話者によって発生されるサウンドにどれほど良く対応するかに関する指標に対応する可能性が高い。従って、最も良い類似性の指標が、マイクロフォン信号に関する類似性指標として選択される。従って、この類似性指標は、捕捉されたオーディオが、雑音を含まない及び反響を含まない音声にどれほど対応するかを反映する。発話者から遠くに位置決めされたマイクロフォン（従って典型的にはデバイス）に関して、捕捉されたオーディオは、元の発せられた音声を、様々な反射、反響、及び雑音からの寄与に比べて低い相対レベルでしか含まない可能性が高い。しかし、発話者の近くに位置決めされたマイクロフォン（従ってデバイス）に関して、捕捉されたサウンドは、直接音響経路からのかなり高い寄与と、反射及び雑音からの比較的低い寄与とを含む可能性が高い。従って、類似性指標は、個々のデバイスの捕捉されたオーディオの音声がどれほどクリーンであり了解度が高いかに関する良好な指標を提供する。

各マイクロフォンデバイス２０１、２０３、２０５は、更にワイヤレス送受信機２０９を備え、ワイヤレス送受信機２０９は、各デバイスの類似性処理装置１０５及びマイクロフォン受信機１０１に結合される。ワイヤレス送受信機２０９は、特に、ワイヤレス接続を介して発生器デバイス２０７と通信するように構成される。

発生器デバイス２０７は、ワイヤレス送受信機２１１も備え、ワイヤレス送受信機２１１は、ワイヤレス接続を介してマイクロフォンデバイス２０１、２０３、２０５と通信することができる。

多くの実施形態において、マイクロフォンデバイス２０１、２０３、２０５と発生器デバイス２０７は、双方向でデータを通信するように構成され得る。しかし、幾つかの実施形態では、マイクロフォンデバイス２０１、２０３、２０５から発生器デバイス２０７への一方向のみの通信が適用され得ることを理解されたい。

多くの実施形態において、デバイスは、ローカルＷｉ−Ｆｉ通信ネットワーク等のワイヤレス通信ネットワークを介して通信することができる。従って、マイクロフォンデバイス２０１、２０３、２０５のワイヤレス送受信機２０９は、特に、Ｗｉ−Ｆｉ通信を介して他のデバイス（特に発生器デバイス２０７）と通信するように構成され得る。しかし、他の実施形態では、例えば、有線又は無線ローカルエリアネットワーク、ワイドエリアネットワーク、インターネット、Bluetooth（登録商標）通信リンク等の他の通信方法が使用され得ることを理解されたい。

幾つかの実施形態では、各マイクロフォンデバイス２０１、２０３、２０５は、常に、類似性指標及びマイクロフォン信号を発生器デバイス２０７に送信することができる。パラメータデータやオーディオデータ等のデータがデバイス間で通信され得るやり方を当業者が良く認識していることを理解されたい。具体的には、当業者は、オーディオ信号伝送が符号化、圧縮、誤り訂正等を含むことができる方法を良く認識している。

そのような実施形態では、発生器デバイス２０７は、マイクロフォン信号及び類似性指標を全てのマイクロフォンデバイス２０１、２０３、２０５から受信することができる。その後、発生器デバイス２０７は、続いて、音声信号を発生するために、類似性指標に基づいてマイクロフォン信号を複合することができる。

特に、発生器デバイス２０７のワイヤレス送受信機２１１は、制御装置２１３及び音声信号発生器２１５に結合される。制御装置２１３は、ワイヤレス送受信機２１１から類似性指標を供給され、これらに応答して１組の複合パラメータを決定し、これらのパラメータは、音声信号がマイクロフォン信号からどのように発生されるかを制御する。制御装置２１３は、音声信号発生器２１５に結合され、音声信号発生器２１５は、複合パラメータを供給される。更に、音声信号発生器２１５は、ワイヤレス送受信機２１１からマイクロフォン信号を供給され、従って、続いて、複合パラメータに基づいて音声信号を発生することができる。

具体例として、制御装置２１３は、受信された類似性指標を比較し、最高の類似度を示すものを識別することができる。次いで、対応するデバイス／マイクロフォン信号の指標は、音声信号発生器２１５に渡されることがあり、音声信号発生器２１５は、続いて、このデバイスからのマイクロフォン信号を選択することができる。次いで、このマイクロフォン信号から音声信号が発生される。

別の例として、幾つかの実施形態では、音声信号発生器２１５は、続いて、受信されたマイクロフォン信号の加重複合として、出力音声信号を発生することができる。例えば、受信されたマイクロフォン信号の加重和が適用され得て、各個の信号に関する重みは類似性指標から生成される。例えば、類似性指標は、所与の範囲内のスカラー値として直接提供されて良く、個々の重みは、（例えば信号レベル又は累積重み値が一定であることを保証する比例係数で）そのスカラー値に正比例していて良い。

そのような手法は、利用可能な通信帯域幅が制約とならないシナリオでは特に魅力的であり得る。従って、発話者に最も近いデバイスを選択するのではなく、各デバイス／マイクロフォン信号に重みが割り当てられることがあり、様々なマイクロフォンからのマイクロフォン信号が、加重和として複合され得る。そのような手法は、ロバスト性を提供し、反響又は雑音の大きい環境で、誤った選択の影響を緩和することができる。

また、複合手法が組み合わされ得ることも理解されたい。例えば、純粋な選択複合を使用するのではなく、制御装置２１３は、マイクロフォン信号の部分集合（例えば、類似性指標が閾値を超えるマイクロフォン信号等）を選択し、次いで、類似性指標に依存する重みを使用して、部分集合のマイクロフォン信号を複合することができる。

幾つかの実施形態では、複合は、異なる信号の整合を含み得ることも理解されたい。例えば、所与の発話者に関して、受信された音声信号がコヒーレントに加わることを保証するために、時間遅延が導入され得る。

多くの実施形態において、マイクロフォン信号は、全てのマイクロフォンデバイス２０１、２０３、２０５からは発生器デバイス２０７に送信されず、音声信号が発生されるマイクロフォンデバイス２０１、２０３、２０５のみから送信される。

例えば、最初に、マイクロフォンデバイス２０１、２０３、２０５が発生器デバイス２０７に類似性指標を送信することがあり、制御装置２１３が、マイクロフォン信号の部分集合を選択するために類似性指標を評価する。例えば、制御装置２１３は、最高の類似性を示す類似性指標を送信したマイクロフォンデバイス２０１、２０３、２０５からのマイクロフォン信号を選択することができる。次いで、制御装置２１３は、ワイヤレス送受信機２１１を使用して、選択されたマイクロフォンデバイス２０１、２０３、２０５に要求メッセージを送信することができる。マイクロフォンデバイス２０１、２０３、２０５は、要求メッセージが受信されたときにのみ発生器デバイス２０７にデータを送信するように構成され得て、即ち、マイクロフォン信号は、選択された部分集合に含まれるときにのみ発生器デバイス２０７に送信される。従って、ただ１つのマイクロフォン信号が選択される例では、マイクロフォンデバイス２０１、２０３、２０５のただ１つがマイクロフォン信号を送信する。そのような手法は、通信資源使用量をかなり減少させ、例えば個々のデバイスの電力消費を減少させることができる。また、これは、例えば一度に１つのマイクロフォン信号のみを取り扱えば良いので、発生器デバイス２０７の複雑性をかなり減少させることもできる。この例では、音声信号を発生するために使用される選択複合機能は、幾つかのデバイスにわたって分散される。

類似性指標を決定するための様々な手法が、様々な実施形態で使用され得て、特に、非反響音声サンプルの記憶されている表現は、様々な実施形態において異なることがあり、様々な実施形態において異なる形で使用され得る。

幾つかの実施形態では、記憶されている非反響音声サンプルは、非反響音声モデルに関するパラメータによって表現される。従って、例えば、信号のサンプルされた時間領域表現又は周波数領域表現を記憶するのではなく、１組の非反響音声サンプルは、各サンプルに関する１組のパラメータを含むことがあり、これにより、サンプルが生成され得るようにできる。

例えば、非反響音声モデルは、線形予測モデル、例えば特にＣＥＬＰ（符号励振線形予測）モデルで良い。そのようなシナリオでは、非反響音声サンプルの各音声サンプルは、（記憶されているパラメータによっても表現され得る）合成フィルタを励起するために使用され得る励起信号を特定するコードブックエントリによって表現され得る。

そのような手法は、１組の非反響音声サンプルに関する記憶要件をかなり減少させることがあり、これは、類似性指標の決定が個々のデバイスでローカルで行われる分散型の実装形態に関して特に重要となり得る。更に、（音響環境を考慮せずに）音声源からの音声を直接合成する音声モデルを使用することによって、非反響の無響の音声の良好な表現が実現される。

幾つかの実施形態では、マイクロフォン信号と特定の音声サンプルとの比較は、その信号に関する記憶されている特定の音声モデルパラメータセットについて音声モデルを評価することによって実施され得る。従って、そのパラメータセットに関して音声モデルによって合成される音声信号の表現が導出され得る。次いで、得られた表現が、マイクロフォン信号と比較され得て、これらの相違の尺度が計算され得る。比較は、例えば時間領域又は周波数領域で実施され得て、確率的な比較で良い。例えば、１つのマイクロフォン信号と１つの音声サンプルに関する類似性指標は、捕捉されたマイクロフォン信号が、音声モデルによる合成の結果として得られた音声信号を放射する音源から生じたものである尤度を反映するように決定され得る。次いで、最高尤度をもたらす音声サンプルが選択され得て、マイクロフォン信号に関する類似性指標は、最高尤度として決定され得る。

以下、ＬＰ音声モデルに基づいて類似性指標を決定するための可能な手法の詳細な例を提供する。

この例では、Ｋ個のマイクロフォンが領域内に分布され得る。観察されるマイクロフォン信号は、以下のようにモデル化され得る。
ｙ_ｋ（ｎ）＝ｈ_ｋ（ｎ）＊ｓ（ｎ）＋ｗ_ｋ（ｎ）
ここで、ｓ（ｎ）は、ユーザの口での音声信号であり、ｈ_ｋ（ｎ）は、ユーザの口に対応する位置と第ｋのマイクロフォンの位置との間の音響伝達関数であり、ｗ_ｋ（ｎ）は、雑音信号であり、周囲雑音とマイクロフォン自体の雑音との両方を含む。音声信号と雑音信号が独立していると仮定して、対応する信号のパワースペクトル密度（ＰＳＤ:power spectral densities）に関する周波数領域での等価な表現は、以下によって与えられる。

無響環境では、パルス応答ｈ_ｋ（ｎ）は、純粋な遅延に対応し、信号が音速で発生点からマイクロフォンに伝播するのにかかる時間に対応する。従って、信号ｘ_ｋ（ｎ）のＰＳＤは、ｓ（ｎ）のＰＳＤと同一である。反響環境では、ｈ_ｋ（ｎ）は、音源からマイクロフォンへの信号の直接経路をモデル化するだけでなく、壁、天井、家具等によって反射された結果としてマイクロフォンに達する信号もモデル化する。各反射は、信号を遅延させ、減衰させる。

ｘ_ｋ（ｎ）のＰＳＤは、この場合、反響のレベルに応じてｓ（ｎ）のものとは大きく異なることがある。図３は、０．８秒のＴ６０で、反響室内で３つの異なる距離で記録された音声の３２ｍｓのセグメントに対応するスペクトル包絡線の一例を示す。明らかに、発話者から５ｃｍと５０ｃｍの距離で記録された音声のスペクトル包絡線は比較的近く、３５０ｃｍでの包絡線は、大きく異なる。

ハンズフリー通信用途におけるように対象の信号が音声であるとき、ＰＳＤは、大きなデータセットを使用してオフラインで訓練されたコードブックを使用してモデル化され得る。例えば、コードブックは、スペクトル包絡線をモデル化する線形予測（ＬＰ:linear prediction）係数を含んでいて良い。

訓練セットは、典型的には、音声学的にバランスの取れた大きな１組の音声データの短いセグメント（２０〜３０ｍｓ）から抽出されたＬＰベクトルからなる。そのようなコードブックは、音声符号化及び音声強調で好適に採用されている。ここで、特定のマイクロフォンで受信された信号がどれほど反響しているかの参照尺度として、ユーザの口の近くに位置されたマイクロフォンを使用して記録された音声に関して訓練されたコードブックが使用され得る。

発話者の近くのマイクロフォンで捕捉されたマイクロフォン信号の短時間セグメントに対応するスペクトル包絡線は、コードブックにおいて、典型的には、より離れた（従って反響及び雑音によって比較的大きく影響を及ぼされる）マイクロフォンで捕捉されたものよりも良い合致を見出す。次いで、この観察が、例えば、所与のシナリオで適切なマイクロフォン信号を選択するために使用され得る。

雑音がガウス雑音であると仮定し、ＬＰ係数のベクトルをａとすると、第ｋのマイクロフォンについて、以下の式が得られる（例えば、S. Srinivasan, J. Samuelsson, and W. B. Kleijn,“Codebook driven short-term predictor parameter estimation for speech enhancement,”IEEE Trans. Speech, Audio and Language Processing, vol. 14, no. 1, pp. 163-176, 2006年1月参照）：

ここで、ｙ_ｋ＝［ｙ_ｋ（０），ｙ_ｋ（１），．．．，ｙ_ｋ（Ｎ−１）］^Ｔであり、ａ＝［１，ａ_１，．．．，ａ_Ｍ］^Ｔは、ＬＰ係数の所与のベクトルであり、Ｍは、ＬＰモデル次数であり、Ｎは、短時間セグメント中のサンプルの数であり、

は、第ｋのマイクロフォンでの雑音信号の自動相関行列であり、Ｒ_ｘ＝ｇ（Ａ^ＴＡ）^−１であり、ここで、Ａは、第１の列として［１，ａ_１，ａ_２，．．．，ａ_Ｍ，：０，．．．，０］^Ｔを有するＮ×Ｎの下三角テプリッツ行列であり、ｇは、利得項であり、正規化されたコードブックスペクトルと観察されたスペクトルとのレベル差を補償する。

フレーム長が無限に近付くとすると、共分散行列は循環行列として表され得て、フーリエ変換によって対角化される。このとき、第ｉの音声コードブックベクトルａ^ｉに対応する上記の式での尤度の対数は、周波数領域量を使用して以下のように書かれ得る（例えば、U. Grenander and G. Szego,“Toeplitz forms and their applications,”第2版. New York: Chelsea, 1984参照）。

ここで、Ｃは、信号独立定数項を取り込み(capture)、Ａ^ｉ（ω）は、コードブックからの第ｉのベクトルのスペクトルであり、以下によって与えられる。

所与のコードブックベクトルａ^ｉに関して、利得補償項は、以下のように取られ得る。

ここで、雑音ＰＳＤ

の誤った推定値により生じ得る分子における負の値は、ゼロに設定される。この式での全ての量が利用可能であることに留意すべきである。雑音を多く含むＰＳＤ

及び雑音ＰＳＤ

が、マイクロフォン信号から推定され得て、Ａ^ｉ（ω）は、第ｉのコードブックベクトルによって指定される。

各センサに関して、全てのコードブックベクトルにわたって最大尤度値が計算され、即ち、

であり、ここで、Ｉは、音声コードブック内のベクトルの数である。ここで、この最大尤度値は、特定のマイクロフォン信号に関する類似性指標として使用される。

最後に、最大尤度値ｔの最大値に関するマイクロフォンが、発話者に最も近いマイクロフォンとして決定され、即ち、最大の最大尤度値をもたらすマイクロフォン信号は、以下のように決定される。

この具体例に関して実験が行われた。音声ＬＰ係数のコードブックは、Wall Street Journal (WSJ) speech database (CSR-II (WSJ1) Complete,“Linguistic Data Consortium”, Philadelphia, 1994）からの訓練データを使用して生成された。それぞれ５０名（男性２５名及び女性２５名）の異なる発話者からの約５秒の持続時間の１８０個の異なる訓練発声が、訓練データとして使用された。訓練発声を使用して、２５６サンプルのサイズのハン窓（Hann-windowed）セグメントから、８ｋＨｚのサンプリング周波数で５０パーセントの重畳を伴って、約５５０００のＬＰ係数が抽出された。コードブックは、誤り基準としてItakura-Saito歪（S. R. Quackenbush, T. P. Barnwell, and M. A. Clements, Objective “Measures of Speech Quality.”New Jersey: Prentice-Hall, 1988）を用いて、ＬＢＧアルゴリズム（Y. Linde, A. Buzo, and R. M. Gray,“An algorithm for vector quantizer design,”IEEE Trans. Communications, vol. COM-28, no. 1, pp. 84-95, 1980年1月）を使用して訓練された。コードブックのサイズは、２５６個のエントリに固定された。３マイクロフォン構成が考慮され、マイクロフォンは、反響室内で発話者から５０ｃｍ、１５０ｃｍ、及び３５０ｃｍに位置された（Ｔ６０＝８００ｍｓ）。発話者の位置と３つのマイクロフォンそれぞれとの間のパルス応答が記録され、次いで、マイクロフォンデータを得るためにドライな音声信号と畳み込み処理された。各マイクロフォンでのマイクロフォン雑音は、音声レベルよりも４０ｄＢ低かった。

図４は、発話者から５０ｃｍ離して位置されたマイクロフォンに関する尤度ｐ（ｙ_１）を示す。音声が主に占める領域では、このマイクロフォン（発話者の最も近くに位置される）は、１に近い値を受け取り、他の２つのマイクロフォンでの尤度値は０に近い。従って、最も近いマイクロフォンが適切に識別される。

この手法の特定の利点は、異なるマイクロフォン間の信号レベルの差を本来的に補償することである。

この手法が、音声活動中に適切なマイクロフォンを選択することに留意すべきである。しかし、非音声セグメント中（例えば音声中の休止や、発話者が変わったとき等）には、そのような選択が決定されることは可能でない。しかし、これは、非音声期間を識別するためにシステムが音声活動検出器（単純なレベル検出器等）を含むことによって簡単に対処され得る。これらの期間中、システムは、単純に、音声成分を含んでいた最後のセグメントに関して決定された複合パラメータを使用して先に進むことがある。

上記の実施形態では、類似性指標は、マイクロフォン信号の特性を非反響音声サンプルの特性と比較することによって生成され、特に、マイクロフォン信号の特性を、記憶されているパラメータを使用して音声モデルを評価することにより得られる音声信号の特性と比較することによって生成される。

しかし、他の実施形態では、マイクロフォン信号を分析することによって１組の特性が導出され得て、次いで、これらの特性は、非反響音声に関する予想値と比較され得る。従って、比較は、特定の非反響音声サンプルを考慮せずに、パラメータ又は特性領域で実施され得る。

具体的には、類似性処理装置１０５が、１組の基本信号ベクトルを使用してマイクロフォン信号を分解するように構成され得る。そのような分解は、特に、信号プロトタイプ（アトム（ａｔｏｍ）とも呼ばれる）を含むスパースオーバーコンプリート辞書を使用することがある。ここで、信号は、辞書の部分集合の線形結合として記述される。従って、各アトムは、この場合には基本信号ベクトルに対応し得る。

そのような実施形態では、マイクロフォン信号から導出され、比較で使用される特性は、適切な特徴領域内で信号を表現するために必要とされる基本信号ベクトルの数、特に辞書アトムの数で良い。

次いで、この特性が、非反響音声に関する１つ又は複数の予想される特性と比較され得る。例えば、多くの実施形態において、１組の基底ベクトルに関する値が、特定の非反響音声サンプルに対応する数組の基底ベクトルに関する値のサンプルと比較され得る。

しかし、多くの実施形態において、より単純な手法が使用され得る。具体的には、辞書が非反響音声で訓練される場合、ほとんど反響のない音声を含むマイクロフォン信号は、比較的少数の辞書アトムを使用して記述され得る。信号がますます反響及び雑音を受けるにつれて、より多数のアトムが必要とされ、即ち、エネルギーは、より多くの基底ベクトルにわたってより均等に拡散される傾向がある。

従って、多くの実施形態において、基底ベクトルにわたるエネルギーの分散が評価され、類似性指標を決定するために使用され得る。分散が広げられるほど、類似性指標は低くなる。

具体的な例として、２つのマイクロフォンからの信号を比較するとき、より少数の辞書アトムを使用して記述され得る信号の方が、非反響音声に類似する（ここで、辞書は非反響音声で訓練されている）。

具体的な例として、値（特に、信号を近似する基底ベクトルの複合における各基底ベクトルの重み）が所与の閾値を超える基底ベクトルの数が、類似性指標を決定するために使用され得る。実際、閾値を超える基底ベクトルの数は簡単に計算され、所与のマイクロフォン信号に関する類似性指標として直接使用され得て、より多数の基底ベクトルがより低い類似性を示す。従って、マイクロフォン信号から導出される特性は、閾値を超える基底ベクトル値の数で良く、これは、閾値を超える値を有する０又は１の基底ベクトルの非反響音声に関する参照特性と比較され得る。従って、基底ベクトルの数が多ければ多いほど、類似性指標が低くなる。

上の説明は、分かりやすくするために、様々な機能回路、ユニット、及び処理装置を参照して本発明の実施形態を述べていることを理解されたい。しかし、本発明から逸脱することなく、様々な機能回路、ユニット、又は処理装置間での機能の任意の適切な分散が使用され得ることが明らかであろう。例えば、別個の処理装置又は制御装置によって実施されるものとして例示されている機能が、同じ処理装置又は制御装置によって実施されても良い。従って、特定の機能ユニット又は回路への言及は、厳密な論理的又は物理的構造又は組織を示さず、述べられている機能を提供するための適切な手段への言及としてのみ理解されるべきである。

本発明は、ハードウェア、ソフトウェア、ファームウェア、又はこれらの任意の組合せを含む任意の適切な形態で実装され得る。本発明は、任意選択的に、１つ又は複数のデータ処理装置及び／又はデジタル信号処理装置で動作するコンピュータソフトウェアとして少なくとも一部実装され得る。本発明の一実施形態の要素及び構成要素は、任意の適切な様式で、物理的、機能的、及び論理的に実装され得る。実際、単一のユニットで、複数のユニットで、又は他の機能ユニットの一部として機能が実装され得る。従って、本発明は、単一のユニットで実装されても、様々なユニット、回路、及び処理装置間で物理的及び機能的に分散されても良い。

本発明を幾つかの実施形態に関連して述べてきたが、本発明は、本明細書に記載される具体的な形態に限定されることは意図されない。本発明の範囲は、添付の特許請求の範囲によってのみ限定される。更に、特定の実施形態に関連して特徴が述べられていると考えられることもあるが、当業者は、上記の実施形態の様々な特徴が本発明に従って組み合わされ得ることを理解されよう。特許請求の範囲において、用語「備える」は、他の要素又はステップの存在を除外しない。

更に、個別に列挙されているが、複数の手段、要素、回路、又は方法ステップが、例えば、単一の回路、ユニット、又は処理装置によって実施され得る。更に、個々の特徴が異なる請求項に含まれることがあるが、これらは、場合によっては有利に組み合わされることもあり、異なる請求項への包含は、特徴の組合せが実現可能でない及び／又は有利でないことを示唆するものではない。また、特許請求の範囲の１つのカテゴリーへの特徴の包含は、そのカテゴリーへの限定を示唆するものではなく、適切であればその特徴が他の請求項カテゴリーにも同等に適用可能であることを示す。更に、特許請求の範囲内の特徴の順序は、特徴が行われなければならない任意の特定の順序を示唆せず、特に、方法クレームでの個々のステップの順序は、ステップがその順序で実施されなければならないことを示唆しない。そうではなく、ステップは、任意の適切な順序で実施され得る。更に、単数形は、複数を除外しない。従って、「１つの」、「第１の」、「第２の」等への言及は、複数を除外しない。特許請求の範囲内の参照符号は、分類のための例として提供されているに過ぎず、特許請求の範囲の範囲を限定するものと解釈されるべきではない。

Claims

音声信号を発生するための装置であって、
複数のマイクロフォンからマイクロフォン信号を受信するためのマイクロフォン受信機と、
各マイクロフォン信号に関して、前記マイクロフォン信号と非反響音声との間の類似性を示す音声類似性指標を決定する比較器であって、前記マイクロフォン信号から導出される少なくとも１つの特性と非反響音声に関する少なくとも１つの参照特性との比較に応答して、前記音声類似性指標を決定する比較器と、
前記音声類似性指標に応答して前記マイクロフォン信号を複合することによって前記音声信号を発生するための発生器とを備える、装置。
前記装置は、複数の個別のデバイスを備え、各デバイスが、複数のマイクロフォン信号のうちの少なくとも１つのマイクロフォン信号を受信するためのマイクロフォン受信機を備える、請求項１に記載の装置。
前記複数の個別のデバイスのうちの少なくとも第１のデバイスが、前記第１のデバイスの少なくとも１つのマイクロフォン信号に関する第１の音声類似性指標を決定するためのローカル比較器を備える、請求項２に記載の装置。
前記発生器が、少なくとも前記第１のデバイスとは別個の発生器デバイス内に実装され、前記第１のデバイスは、前記第１の音声類似性指標を前記発生器デバイスに送信するための送信機を備える、請求項３に記載の装置。
前記発生器デバイスが、前記複数の個別のデバイスそれぞれから前記音声類似性指標を受信し、前記発生器が、前記複数の個別のデバイスからのマイクロフォン信号の部分集合を使用して前記音声信号を発生し、前記部分集合は、前記複数の個別のデバイスから受信された前記音声類似性指標に応答して決定される、請求項４に記載の装置。
前記複数の個別のデバイスのうちの少なくとも１つのデバイスは、前記少なくとも１つのデバイスの少なくとも１つのマイクロフォン信号がマイクロフォン信号の前記部分集合に含まれる場合にのみ、前記少なくとも１つのデバイスの少なくとも１つのマイクロフォン信号を前記発生器デバイスに送信する、請求項５に記載の装置。
前記発生器デバイスは、マイクロフォン信号の前記部分集合を決定する選択器と、前記複数の個別のデバイスの少なくとも１つに前記部分集合の指標を送信するための送信機とを備える、請求項５に記載の装置。
前記比較器は、マイクロフォン信号から導出される少なくとも１つの特性と１組の非反響音声サンプルにおける音声サンプルに関する参照特性との比較に応答して、第１のマイクロフォン信号に関して前記音声類似性指標を決定する、請求項１に記載の装置。
前記１組の非反響音声サンプルにおける音声サンプルは、非反響音声モデルに関するパラメータによって表現される、請求項８に記載の装置。
前記比較器は、第１の音声サンプルに関するパラメータを使用して前記非反響音声モデルを評価することによって発生される音声サンプル信号から、前記１組の非反響音声サンプルのうちの第１の音声サンプルに関する第１の参照特性を決定し、また、第１のマイクロフォン信号から導出される特性と第１の参照特性との比較に応答して、前記複数のマイクロフォン信号のうちの第１のマイクロフォン信号に関する前記音声類似性指標を決定する、請求項９に記載の装置。
前記比較器は、前記複数のマイクロフォン信号のうちの第１のマイクロフォン信号を１組の基底信号ベクトルに分解し、前記１組の基底信号ベクトルの特性に応答して前記音声類似性指標を決定する、請求項１に記載の装置。
前記比較器は、音声信号の複数のセグメントの各セグメントに関して前記音声類似性指標を決定し、前記発生器は、各セグメントに関して複合のための複合パラメータを決定する、請求項１に記載の装置。
前記発生器は、少なくとも１つの前のセグメントの前記音声類似性指標に応答して１つのセグメントに関する複合パラメータを決定する、請求項１１に記載の装置。
前記発生器は、前記音声類似性指標に応答して複合するためにマイクロフォン信号の部分集合を選択する、請求項１に記載の装置。
音声信号を発生する方法であって、
複数のマイクロフォンからマイクロフォン信号を受信するステップと、
各マイクロフォン信号に関して、前記マイクロフォン信号と非反響音声との間の類似性を示す音声類似性指標を決定するステップであって、前記マイクロフォン信号から導出される少なくとも１つの特性と非反響音声に関する少なくとも１つの参照特性との比較に応答して、前記音声類似性指標が決定されるステップと、
前記音声類似性指標に応答して前記マイクロフォン信号を複合することによって、前記音声信号を発生するステップとを含む、方法。