JP2012177949A

JP2012177949A - オーディオ信号の分解および修正のためのシステムおよび方法

Info

Publication number: JP2012177949A
Application number: JP2012137938A
Authority: JP
Inventors: Klein David; クライン，デイヴィッド; Steven Malinowski; マリノウスキ，スティーヴン; Lloyd Watts; ワッツ，ロイド; Bernard Mont-Rrinaldo; モント−レイナウド，バーナード
Original assignee: Audience LLC
Current assignee: Audience LLC
Priority date: 2005-05-27
Filing date: 2012-06-19
Publication date: 2012-09-13
Anticipated expiration: 2026-05-30
Also published as: JP5383867B2; US8315857B2; WO2006128107A3; FI20071018L; KR101244232B1; WO2006128107A2; US20070010999A1; JP2008546012A; KR20080020624A

Abstract

【課題】オーディオ入力信号の修正のためのシステムおよび方法が提供される。
【解決手段】例示的な実施形態では、適応的複数モデル最適化器が、分解された信号の修正を容易にするために少なくとも一つの源モデル・パラメータを生成するよう構成される。前記適応的複数モデル最適化器は、セグメント・グループ化エンジンおよび源グループ化エンジンを有する。前記セグメント・グループ化エンジンは、同時の諸特徴セグメントをグループ化して、少なくとも一つのセグメント・モデルを生成するよう構成される。前記少なくとも一つのセグメント・モデルは、少なくとも一つの源モデルを生成するために源グループ化エンジンによって使用される。前記少なくとも一つの源モデルは、前記少なくとも一つの源モデル・パラメータを有する。次いで、前記少なくとも一つの源モデル・パラメータに基づいて、前記分解された信号の修正のための制御信号が生成されうる。
【選択図】図３

Description

関連出願への相互参照
本出願は、2005年5月27日に出願された“Sound Analysis and Modification Using Hierarchical Adaptive Multiple-Module Optimizer”という名称の米国仮出願第60/685,750号の優先権の恩恵を主張するものである。該文献はここに参照によって組み込まれる。

発明の分野
本発明の実施形態は、オーディオ処理に、より詳細にはオーディオ信号の分解および修正に関する。

典型的には、一つまたは一組のマイクロホンは音の混合を検出する。適正な再生、伝送、編集、分解または音声認識のためには、構成音を互いから単離することが望ましい。オーディオ信号をそれらのオーディオ源に基づいて分離することによって、たとえばノイズを軽減でき、複数話者環境における声を単離でき、音声認識において単語精度を向上させられる。

不都合なことに、音を単離するための既存の技法は、オーディオ信号を発生する複数のオーディオ源の存在またはノイズや干渉の存在といった複雑な状況に対処するのは不十分である。これは、高い単語誤り率に、あるいは現行技術によって得られる発話向上の度合いに対する制限につながりうる。

したがって、オーディオの分解および修正のためのシステムおよび方法が必要とされている。さらに、複数のオーディオ源を含むオーディオ信号を扱うためのシステムおよび方法が必要とされている。

本発明の諸実施形態は、オーディオ入力信号の修正のためのシステムおよび方法を提供する。例示的な実施形態では、適応的複数モデル最適化器が、分解された信号の修正を容易にするために少なくとも一つの源モデル・パラメータを生成するよう構成される。前記適応的複数モデル最適化器は、セグメント・グループ化エンジンおよび源グループ化エンジンを有する。

前記セグメント・グループ化エンジンは、同時の諸特徴セグメントをグループ化して、少なくとも一つのセグメント・モデルを生成するよう構成される。ある実施形態では、前記セグメント・グループ化エンジンは、特徴抽出器から特徴セグメントを受け取る。これらの特徴セグメントは、トーン、過渡音およびノイズ特徴セグメントを表しうる。特徴セグメントは、その特徴についての前記少なくとも一つのセグメント・モデルを生成するために、それらのそれぞれの特徴に基づいてグループ化される。
前記少なくとも一つのセグメント・モデルは、次いで、少なくとも一つの源モデルを生成するために源グループ化エンジンによって使用される。前記少なくとも一つの源モデルは、前記少なくとも一つの源モデル・パラメータを有する。次いで、前記少なくとも一つの源モデル・パラメータに基づいて、前記分解された信号の修正のための制御信号が生成されうる。

本発明の実施形態を用いるオーディオ処理エンジンの例示的なブロック図である。セグメント分離器の例示的なブロック図である。適応的複数モデル最適化器の例示的なブロック図である。オーディオの分解および修正のための例示的な方法のフローチャートである。モデルあてはめのための例示的な方法のフローチャートである。最良あてはめを決定するための例示的な方法のフローチャートである。

本発明の諸実施形態は、オーディオ信号の分解（analysis）および修正のためのシステムおよび方法を提供する。例示的な諸実施形態では、所望の音を向上させるためおよび／またはノイズを抑制もしくは解消するために、オーディオ信号が分解され、相異なるオーディオ源からの別個の音が一緒にグループ化される。いくつかの例では、このオーディオ的分解は、単語精度を改善するための音声認識のためのフロントエンドとして、主観的な品質を改善するための発話向上のために、あるいは音楽転写に使用されることができる。

図１を参照すると、本発明の実施形態が実施されうる例示的なシステム１００が示されている。システム１００はいかなるデバイスでもよく、これに限られないが、携帯電話、補聴器、スピーカーホン、電話、コンピュータまたはオーディオ信号を処理できる他のいかなるデバイスでもよい。システム１００は、これらのデバイスのいずれかのオーディオ経路を表していてもよい。

システム１００はオーディオ処理エンジン１０２を有する。該オーディオ処理エンジン１０２は、オーディオ入力１０４を通じてオーディオ入力信号を受け取って処理する。オーディオ入力信号は、一つまたは複数のオーディオ入力デバイス（図示せず）から受け取られてよい。ある実施形態では、オーディオ入力デバイスは、アナログ‐デジタル（A/D）コンバーターに結合された一つまたは複数のマイクロホンであってもよい。マイクロホンはアナログのオーディオ入力信号を受け取るよう構成され、一方、A/Dコンバーターはアナログのオーディオ入力信号をサンプリングして、該アナログ・オーディオ入力信号をさらなる処理に好適なデジタル・オーディオ入力信号に変換する。代替的な諸実施形態では、オーディオ入力デバイスは、デジタル・オーディオ入力信号を受け取るよう構成される。たとえば、オーディオ入力デバイスは、ハードディスクまたは他の形のメディアに記憶されたオーディオ入力信号データを読むことができるディスク・デバイスであってもよい。さらなる諸実施形態は、他の形のオーディオ入力信号検知／取り込みデバイスを利用してもよい。

例示的なオーディオ処理エンジン１０２は、分解モジュール１０６、特徴抽出器１０８、適応的複数モデル最適化器（AMMO: adaptive multiple-model optimizer）１１０、関心選択器１１２、調節器１１４および時間領域変換モジュール１１６を有する。本発明の諸実施形態に基づくオーディオ入力信号の分解および修正に関係しないさらなる構成要素が、オーディオ処理エンジン１０２内に設けられていてもよい。さらに、オーディオ処理エンジン１０２は、オーディオ処理エンジン１０２の各構成要素から次の構成要素へのデータの論理的な進行を記述しているものの、代替的な諸実施形態は、オーディオ処理エンジン１０２の、一つまたは複数のバスまたはその他の構成要素を介して結合されたさまざまな構成要素を有していてもよい。ある実施形態では、オーディオ処理エンジン１０２は、一般的なプロセッサによる作用を受けるデバイス上に記憶されているソフトウェアを有する。

分解モジュール１０６は、受け取ったオーディオ入力信号を、複数の周波数領域サブバンド信号（すなわち、時間周波数データまたはスペクトル‐時間分解されたデータ）に分ける。例示的な諸実施形態では、各サブバンドまたは分解された信号は、周波数成分を表す。いくつかの実施形態では、分解モジュール１０６は、フィルタ・バンクまたは蝸牛モデルである。フィルタ・バンクは、いくつのフィルタを有していてもよく、それらのフィルタはいかなる次数でもよい（たとえば、一次、二次など）。さらに、それらのフィルタは、カスケード編成に位置されていてもよい。あるいはまた、前記分解は、他の分解方法を使って実行されてもよい。他の分解方法には、これに限られないが、短時間フーリエ変換、高速フーリエ変換、ウェーブレット、ガンマトーン・フィルタ・バンク、ガボール・フィルタおよび変調複素重複変換（modulated complex lapped transform）が含まれる。

例示的な特徴抽出器１０８は、分解された信号を特徴に従って抽出または分離して特徴セグメントを生成する。これらの特徴は、トーン、過渡音およびノイズ（パッチ）特性を含みうる。分解された信号のある部分のトーンとは、特定の、通例は安定したピッチをいう。過渡音とは、分解された信号の非周期的または非反復的な部分である。ノイズまたは流転（flux）は、トーン様でも過渡音様でもない、とりとめのない信号エネルギーである。いくつかの実施例では、ノイズまたは流転は、分解された信号の所望の部分に付随する望まれない部分であるゆがみをいう。たとえば、発話における「s」の音はノイズ様である（すなわち、トーン的でも過渡音的でもない）が、望まれる声の一部である。さらなる例として、いくつかのトーン（たとえば、背景における携帯電話の着信音）はノイズ様ではないが、それでもこの流転は除去することが望ましい。

分離された特徴セグメントはAMMO１１０に渡される。これらの特徴セグメントは、モデルが、その時間周波数データを最もよく記述するために適することを許容するパラメータを含む。特徴抽出器１０８は、のちに図２との関連でより詳細に論じる。

AMMO１１０は、源モデル〔ソース・モデル〕のインスタンスを生成するよう構成される。源モデルとは、オーディオ入力信号の少なくとも一部分を生成するオーディオ源に関連するモデルである。例示的な諸実施形態では、AMMO１１０は、階層的な適応的複数モデル最適化器である。AMMO１１０は、図３との関連でより詳細に論じることになる。

ひとたびAMMO１１０によって最良のあてはめを有する源モデルが決定されると、源モデルは関心選択器１１２に与えられる。関心選択器１１２は主要なオーディオ・ストリーム（単数または複数）を選択する。これらの主要なオーディオ・ストリームは、所望のオーディオ源に対応する時間変動するスペクトルの一部である。

関心選択器１１２は、主要オーディオ・ストリームを向上させるよう、分解された信号を修正する調節器１１４を制御する。例示的な諸実施形態では、関心選択器１１２は、分解モジュール１０６からの分解された信号を修正するために、調節器１１４に制御信号を送る。該修正とは、分解された信号の打ち消し、抑制および充填（filling-in）を含む。

時間領域変換モジュール１１６は、修正されたオーディオ信号を、オーディオ出力信号１１８として出力するために周波数領域から時間領域に変換するいかなる構成要素を有していてもよい。ある実施形態では、時間領域変換モジュール１１６は、処理された信号を再構成して再構成オーディオ信号にする再構成モジュールを有する。再構成オーディオ信号は次いで、伝送され、記憶され、編集され、転写され、あるいは個人によって聴取される。別の実施形態では、時間領域変換モジュール１１６は、自動的に発話を認識して音声を分析して単語を決定できる音声認識モジュールを有していてもよい。オーディオ処理エンジン１０２内には、いかなる型の時間領域変換モジュール１１６がいくつ具現されていてもよい。

ここで図２を参照すると、特徴抽出器１０８がより詳細に示されている。特徴抽出器１０８は、分解された信号内のエネルギーを、ある種のスペクトル形（たとえば、トーン、過渡音およびノイズ）のサブユニットに分離する。これらのサブユニットは、特徴セグメントとも称される。

例示的な諸実施形態では、特徴抽出器１０８は、時間周波数領域の分解された信号を取り、該分解された信号の種々の部分をスペクトル形モデルにあてはめることまたはトラッカー（trackers）によって、該分解された信号の種々の部分を種々のセグメントに割り当てる。ある実施形態では、スペクトル・ピーク・トラッカー２０２は、時間周波数データ（すなわち、分解された信号）のスペクトル・ピーク（エネルギー・ピーク）を位置特定する。ある代替的な実施形態では、スペクトル・トラッカー２０２は、時間周波数データの山および山ピークを決定する。ピーク・データは次いでスペクトル形トラッカーに入力される。

もう一つの実施形態では、2006年5月25日に出願された、“System and Method for Processing an Audio Signal”という名称の、参照によってここに組み込まれる米国特許出願第＿＿＿＿＿＿号に記載されているような分解フィルタ・バンク・モジュールが、時間周波数データのエネルギー・ピークまたはスペクトル・ピークを決定するために使用されてもよい。この例示的な分解フィルタ・バンク・モジュールは、複素数値のフィルタのフィルタ・カスケードを有する。あるさらなる実施形態では、分解フィルタ・バンク・モジュールは、分解モジュール１０６に組み込まれてもよいし、あるいは分解モジュール１０６を含んでいてもよい。さらなる代替的な諸実施形態では、エネルギーまたはスペクトル・ピーク・データを決定するために、他のモジュールおよびシステムが利用されてもよい。

ある実施形態によれば、スペクトル形トラッカーは、トーン・トラッカー２０４、過渡音トラッカー２０６およびノイズ・トラッカー２０８を有する。代替的な諸実施形態は、他のスペクトル形トラッカーをさまざまな組み合わせで含んでいてもよい。スペクトル形トラッカーの出力は、モデルが、時間周波数データを最もよく記述するのに適することを許容する特徴セグメントである。

トーン・トラッカー２０４は、時間周波数領域またはスペクトル時間領域において、振幅および周波数の面でトーンにあてはまる、いくらかの連続性を有する諸スペクトル・ピークを追跡する。トーンは、たとえば、一定であるかなめらかに変化する周波数信号を伴う一定振幅によって識別されうる。例示的な諸実施形態では、トーン・トラッカー２０４は、振幅、振幅傾き、振幅ピーク、周波数、周波数傾き、トーンの開始時間および終了時間ならびにトーンの顕著性といった複数の信号出力を発生させる。

過渡音トラッカー２０６は、振幅および周波数の面で過渡的である何らかの連続性を有するスペクトル・ピークを追跡する。過渡的信号は、たとえば、短時間すべての周波数が励起された一定振幅によって識別されうる。例示的な諸実施形態では、過渡音トラッカー２０６は、これに限られないが、振幅、振幅ピーク、周波数、過渡音の開始時間および終了時間ならびに全過渡音エネルギーを含む複数の出力信号を発生させる。

ノイズ・トラッカー２０８は、ある時間にわたって現れるモデル広帯域信号を追跡する。ノイズは、長い時間にわたってすべての周波数が励起された一定振幅によって識別されうる。例示的な諸実施形態では、ノイズ・トラッカー２０８は、スペクトル‐時間位置の関数としての振幅、時間的広がり、周波数広がりおよび全ノイズ・エネルギーといった複数の出力信号を発生させる。

ひとたび音エネルギーがさまざまな特徴セグメント（たとえば、トーン、過渡音およびノイズ）に分離されたら、AMMO１１０は、音エネルギーをその成分ストリームにグループ分けし、源モデルを生成する。ここで図３を参照すると、例示的なAMMO１１０が、二層階層構造を有してより詳細に示されている。AMMO１１０は、セグメント・グループ化エンジン３０２および逐次グループ化エンジン３０４を有している。第一層はセグメント・グループ化エンジン３０２によって実行され、一方、第二層は逐次グループ化エンジン３０４によって実行される。

セグメント・グループ化エンジン３０２は、新規性検出モジュール３１０、モデル生成モジュール３１２、取り込み決定モジュール３１４、モデル適応モジュール３１６、失敗検出モジュール３１８ならびにモデル破棄モジュール３２０を有している。モデル適応モジュール３１６、モデル生成モジュール３１２およびモデル破棄モジュール３２０はそれぞれ一つまたは複数のセグメント・モデル３０６に結合されている。逐次グループ化エンジン３０４は、新規性検出モジュール３２２、モデル生成モジュール３２４、取り込み決定モジュール３２６、モデル適応モジュール３２８、失敗検出モジュール３３０およびモデル破棄モジュール３３２を有する。モデル適応モジュール３２８、モデル生成モジュール３２４およびモデル破棄モジュール３３２はそれぞれ一つまたは複数のセグメント・モデル３０６に結合されている。

セグメント・グループ化エンジン３０２は、同時の諸特徴を時間的にローカルなセグメントにグループ化する。グループ化プロセスは、はいってくる特徴の組において証拠があるさまざまな特徴セグメントについての仮設（すなわち、推定モデル）を生成し、追跡し、破棄することを含む。これらの特徴セグメントは変化し、時間とともに現れたり消えたりしうる。ある実施形態では、モデル追跡は、所与のデータ・セットを説明するために複数のモデルが競合するコンテキストにおけるカルマン様のコスト最小化戦略を使って実行される。

例示的な諸実施形態では、セグメント・グループ化エンジン３０２は、特徴セグメントの同時グループ化を実行して、セグメント・モデル３０６のインスタンスとしてオーディオ的セグメントを生成する。これらのオーディオ的セグメントは、似通った特徴セグメントのグループ化をなす。一例では、オーディオ的セグメントは、特定のトーンによって関連付けられる諸特徴セグメントの同時グループ化を含む。別の例では、オーディオ的セグメントは、過渡音によって関連付けられる諸特徴セグメントの同時グループ化を含む。

例示的な諸実施形態では、セグメント・グループ化エンジン３０２が特徴セグメントを受け取る。新規性検出モジュール３１０が、該特徴セグメントが以前に受け取られていない、あるいはセグメント・モデル３０６にあてはまらないと判定する場合、新規性検出モジュール３１０は、モデル生成モジュール３１２に、新しいセグメント・モデル３０６を生成するよう指令できる。いくつかの実施形態では、該新しいセグメント・モデル３０６が新しいセグメント・モデル３０６は、前記特徴セグメントと比較されてもよいし、あるいは新しい特徴セグメントと比較されてもよい。これは、（たとえば、取り込み決定モジュール３１４内で）適応されて該モデルを微調整する必要があるか、（たとえば、失敗検出モジュール３１８内で）破棄される必要があるかを判定するためである。

取り込み決定モジュール３１４が、その特徴セグメントが不完全にある既存のセグメント・モデル３１６にあてはまると判定する場合、取り込み決定モジュール３１４は、モデル適応モジュール３１６に、既存のセグメント・モデル３０６を適応させるよう指令する。いくつかの実施形態では、適応されたセグメント・モデル３０６は、その適応されたセグメント・モデル３０６がさらなる適応を必要とするかどうかを判定するために、前記特徴セグメントまたは新しい特徴セグメントと比較される。ひとたび、適応されたセグメント・モデル３０６の最良あてはめが見出されたら、適応されたセグメント・モデル３０６の諸パラメータは、逐次グループ化エンジン３０４に伝送されうる。

失敗検出モジュール３１８が、セグメント・モデル３０６が不十分に前記特徴セグメントにあてはまると判定する場合、失敗検出モジュール３１８は、モデル破棄モジュール３２０に、そのセグメント・モデル３０６を破棄するよう指令する。一例では、その特徴セグメントはあるセグメント・モデル３０６に比較される。残差が大きければ、失敗検出モジュール３１８は、そのセグメント・モデル３０６を破棄することを決定しうる。残差とは、セグメント・モデル３０６によって説明されない観測された信号エネルギーである。その後、新規性検出モジュール３１０は、モデル生成モジュール３１２に、前記特徴セグメントにもっとよくあてはまる新しいセグメント・モデル３０６を生成するよう指令しうる。

その後、諸セグメント・モデル３０６の諸インスタンスが、逐次グループ化エンジン３０４に与えられる。いくつかの実施形態では、諸セグメント・モデル３０６の諸インスタンスは、諸セグメント・モデル３０６または諸オーディオ的セグメントの諸パラメータを含む。諸オーディオ的オブジェクトは、前記諸特徴セグメントから逐次的に集められる。逐次グループ化エンジン３０４は、源モデル３０８を生成するために、最も確からしい特徴セグメントの逐次グループあるいは源グループについての仮設を生成、トラックおよび破棄する。ある実施形態では、逐次グループ化エンジン３０４の出力（すなわち、源モデル３０８のインスタンス）は、セグメント・グループ化エンジン３０２にフィードバックしてもよい。

オーディオ源は、音を発生させる実際のエンティティまたはプロセスを表す。たとえば、オーディオ源は、電話会議における参加者またはオーケストラにおける楽器でありうる。これらのオーディオ源は、源モデル３０８の複数のインスタンスによって表される。本発明の諸実施形態では、源モデル３０８のインスタンスは、セグメント・グループ化エンジン３０２から特徴セグメント（セグメント・モデル３０６）を逐次的に集めることによって生成される。たとえば、一人の話者からの逐次的な音素（特徴セグメント）がグループ化されて、他のオーディオ源とは別個のある声（オーディオ源）を生成してもよい。

一例では、逐次グループ化エンジン３０４は諸セグメント・モデル３０６のパラメータを受け取る。新規性検出モジュール３２２が、セグメント・モデル３０６の該パラメータが以前に受け取られていない、あるいは源モデル３０８にあてはまらないと判定する場合、新規性検出モジュール３２２は、モデル生成モジュール３２４に、新しい源モデル３０８を生成するよう指令できる。いくつかの実施形態では、該新しい源モデル３０８が、（たとえば、取り込み決定モジュール３２６内で）適応されて該モデルを微調整する必要があるか、（たとえば、失敗検出モジュール３３０内で）破棄される必要があるかを判定するために、新しい源モデル３０８は、セグメント・モデル３０６の前記パラメータと比較されてもよいし、あるいはセグメント・モデル３０６の新しいパラメータと比較されてもよい。

取り込み決定モジュール３２６が、諸セグメント・モデル３０６の前記パラメータが不完全にある既存の源モデル３０８にあてはまると判定する場合、取り込み決定モジュール３２６は、モデル適応モジュール３２８に、既存の源モデル３０８を適応させるよう指令する。いくつかの実施形態では、適応された源モデル３０８は、その適応された源モデル３０８がさらなる適応を必要とするかどうかを判定するために、諸セグメント・モデル３０６の前記パラメータまたは諸セグメント・モデル３０６の新しいパラメータと比較される。ひとたび、適応された源モデル３０８の最良あてはめが見出されたら、適応された源モデル３０８のパラメータは、関心選択器１１２（図１）に伝送されうる。

一例では、源モデル３０８は、あるセグメント・モデル３０６の予測されるパラメータを生成するために使われる。そのセグメント・モデル３０６の予測されたパラメータとそのセグメント・モデル３０６の受け取られたパラメータとの間の分散／変化（variance）が測定される。次いで、その分散に基づいて源モデル３０８が設定（適応）されることができ、それにより、その後、より低い比較的分散をもってより精確な予測パラメータを生成することができる、よりよい源モデル３０８が形成される。

失敗検出モジュール３３０が、源モデル３０８が不十分にセグメント・モデル３０６の前記パラメータにあてはまると判定する場合、失敗検出モジュール３３０は、前記モデル破棄モジュール３３２に、その源モデル３０８を破棄するよう指令する。一例では、諸セグメント・モデル３０６の前記パラメータはある源モデル３０８に比較される。残差とは、源モデル３０８によって説明されない観測された信号エネルギーである。残差が大きければ、失敗検出モジュール３３０は、その源モデル３０８を破棄することを決定しうる。その後、新規性検出モジュール３２２は、モデル生成モジュール３２４に、諸セグメント・モデル３０６の前記パラメータによりよくあてはまる新しい源モデル３０８を生成するよう指令しうる。

一例では、源モデル３０８は、セグメント・モデル３０６の予測されるパラメータを生成するために使われる。セグメント・モデル３０６の予測されたパラメータとセグメント・モデル３０６の受け取られたパラメータとの間の分散が測定される。いくつかの実施形態では、前記分散は前記残差である。源モデル３０８は次いで、前記分散に基づいて破棄されうる。

例示的な諸実施形態では、諸セグメント・モデル３０６のためのパラメータあてはめが確率論的な諸方法を使って達成できる。ある実施形態では、確率論的な方法は、ベイズ法である。ある実施形態では、AMMO１１０は、事後確率を計算し、最大化することによって、トーン観察（効果）を周期的なセグメント・パラメータ（原因）に変換する。これは著しい遅延なしにリアルタイムで起こることができる。AMMO１１０は、諸セグメント・モデルの組の同時事後確率に適用される最大事後（MAP: Maximum A Posteriori）基準を使った平均および分散によってモデル・パラメータを推定することに依拠しうる。

観察O_iが与えられたときのモデルM_iの確率は、ベイズの定理によって：
P(M_i|O_i)＝P(O_i|M_i)×P(M_i)／P(O_i)
として与えられ、ここで、全モデルをN個として、i＝1からNまでiについて和を取る。

目的は、諸モデルの確率を最大化することである。確率のこの最大化は、コストを最小することによっても得られる。ここで、コストとは、−log(P)として定義され、Pは任意の確率である。こうして、P(M_i|O_i)の最大化は、コストc(M_i|O_i)を最小化することによって達成されうる。ここで、
c(M_i|O_i)＝c(O_i|M_i)＋c(M_i)−c(O_i)
である。

事後コストは、観察コストおよび事前コストの和となる。c(O_i)は最小化プロセスには参加しないので、c(O_i)は無視してもよい。c(O_i|M_i)が観察コストと称され（たとえば、モデル・スペクトル・ピークと観察されたスペクトル・ピークとの間の差）、c(M_i)がそのモデル自身に関連付けられた事前コストと称される。観察コストc(O_i|M_i)は、スペクトル時間領域におけるピークの、所与のモデルと観察された信号との間の差を使って計算される。一例では、分類器（classifier）が、単一モデルの諸パラメータを推定する。分類器は、一組のモデル・インスタンスの諸パラメータをあてはめるために使われうる（たとえば、あるモデル・インスタンスが観察のある部分集合にあてはまる）。これをするために、諸観察を諸モデルに割り当てる割り当てが、制約条件を考慮する（たとえばコストを最小化する）ことを通じて形成できる。

たとえば、所与の組のパラメータについてのあるモデルが、スペクトル時間領域におけるあるピークを予測する。そのピークは、観察されたピークと比較されることができる。観察されたピークと予測されたピークとの差が一つまたは複数の変数において測定できる。その一つまたは複数の変数に基づいて、前記モデルにおいて補正がなされうる。トーン・モデルについてのコスト計算において使われうる変数は、振幅、振幅傾き、振幅ピーク、周波数、周波数傾き、開始時間および終了時間ならびに積分されたトーン・エネルギーからの顕著性を含む。過渡音モデルについては、コスト計算のために使うことのできる変数は、振幅、振幅ピーク、周波数、過渡音の開始時間および終了時間ならびに全過渡音エネルギーを含む。ノイズ・モデルは、スペクトル時間位置の関数としての振幅、時間的広がり、周波数広がりおよび全ノイズ・エネルギーといった変数をコスト計算のために利用しうる。

複数の入力デバイス（たとえば複数のマイクロホン）を含む実施形態では、マイクロホン間の類似性および相違が計算されうる。次いでこれらの類似性および相違は上記のコスト計算において使用されうる。ある実施形態では、両耳間時間差（ITD: inter-aural time difference）および両耳間レベル差（ILD: inter-aural level difference）は、“Computation of Multi-Sensor Time Delays”という名称の米国特許第6,792,118号に記載される技法を使って計算されてもよい。該文献はここに参照によって組み込まれる。あるいはまた、スペクトル領域における相互相関関数が利用されてもよい。

ここで図４を参照すると、オーディオ分解および修正のための例示的な方法のフローチャート４００が示されている。ステップ４０２では、オーディオ入力１０４（図１０４）が分解のために周波数領域に変換される。この変換は、分解モジュール１０６（図１）によって実行される。ある実施形態では、分解モジュール１０６はフィルタ・バンクまたは蝸牛モデルを含む。あるいはまた、前記変換は、他の分解方法を使って実行されてもよい。他の分解方法とは、短時間フーリエ変換、高速フーリエ変換、ウェーブレット、ガンマトーン・フィルタ・バンク、ガボール・フィルタおよび変調複素重複変換（modulated complex lapped transform）といったものである。

次いで、ステップ４０４で、特徴抽出器によって特徴が抽出される。該特徴は、トーン、過渡音およびノイズを含みうる。これらの特徴の代わりに、あるいはそれに加えて代替的な特徴が判別されてもよい。例示的な諸実施形態では、分解された信号のスペクトル・ピークを分解することによって特徴が判別される。次いで、さまざまな特徴は、トラッカー（たとえばトーン、過渡音またはノイズ・トラッカー）によってトラックされ、抽出されることができる。

ひとたび抽出されたら、ステップ４０６で、特徴は成分ストリームにグループ化されうる。ある実施形態によれば、特徴は、時間周波数データを最もよく記述するモデルにあてはめるために適応的複数モデル最適化器１１０（図１）に与えられる。AMMO１１０は二層階層構造であってもよい。たとえば、第一層は同時の諸特徴を時間的にローカルなセグメント・モデルにグループ化してもよい。次いで第二層が、逐次的な時間的にローカルなセグメント・モデルを一緒にグループ化して一つまたは複数の源モデルを形成する。この源モデルは、グループ化された音エネルギーの成分ストリームを含む。

ステップ４０８では、ある所望のオーディオ源に対応する（主要な）諸成分ストリームが選択される。ある実施形態では、関心選択器１１２は、分解モジュール１０６からの（時間変動するスペクトルにおける）分解された信号を選択および修正する（ステップ４１０）よう、調節器１１４に制御信号を送る。ひとたび修正されたら、信号（すなわち、修正されたスペクトル）は、ステップ４１２で、時間領域に変換される。ある実施形態では、前記変換は、修正された信号を再構成して再構成オーディオ信号にする再構成モジュールによって実行される。代替的な実施形態では、前記変換は、音声を分解して単語を判別する音声認識モジュールによって実行される。代替的な諸実施形態では、時間領域変換の他の形を利用してもよい。

ここで図５を参照すると、（ステップ６０６における）モデルあてはめ〔モデル・フィッティング〕のための例示的な方法のフローチャート５００が与えられている。ステップ５０２では、入力された諸観察へのモデルの最良あてはめ〔ベスト・フィット〕を見出すために、諸観察および諸源モデルが使用される。あてはめは、観察とモデル予測との間のコストを減らすための標準的な勾配法によって達成される。ステップ５０４では、残差が見出される。残差とは、最良あてはめモデルの予測によって説明されない、観察された信号エネルギーである。ステップ５０６では、AMMO１１０（図１）が、追加的なモデルがアクティブにされるべきかどうか、あるいは現行のモデルのいずれかが消去されるべきかどうかを判定するために、残差および観察を使う。たとえば、トーン・モデルの追加によって説明できる著しい残差エネルギーがあれば、トーン・モデルがモデル・リストに追加される。また、トーン・モデルの追加に関して追加的な情報が観察から導かれる。たとえば、ハーモニクスは異なるトーン・モデルによって説明されることもありうるが、異なる基本周波数をもつ新しいトーン・モデルによるほうがよりよく説明されることもありうる。ステップ５０８では、元の入力オーディオ信号からの諸セグメントを識別するために最良あてはめモデルが使用される。

ここで図６を参照すると、最良あてはめを見出すための方法が示されている。ステップ６０２では、モデルおよび事前モデル情報を使って事前コストが計算される。ステップ６０４では、モデルおよび観察情報を使って観察コストが計算される。ステップ６０６では、事前コストと観察コストが組み合わされる。ステップ６０８では、コストを最小化するようモデル・パラメータが調節される。ステップ６１０では、コストが最小化されているかどうかを判定するために、コストが分解される。コストが最小化されていなかった場合、ステップ６０２で、新たなコスト情報を用いて再び事前コストが計算される。コストが最小化されている場合には、最良あてはめパラメータをもつモデルがステップ６１２で利用可能にされる。

本発明の実施形態について例示的な実施形態を参照しつつ述べてきた。当業者には、本発明の広義の範囲から外れることなく、さまざまな修正がなされてもよく、他の実施形態を使うこともできることが明らかであろう。したがって、例示的な実施形態についてのこれらの変形およびその他の変形は、本発明によってカバーされることが意図されている。

いくつかの態様を記載しておく。
〔態様１〕
オーディオ入力信号の修正のための方法であって：
少なくとも一つの観察されたセグメント・モデル・パラメータを少なくとも一つの予測されたセグメント・モデル・パラメータと比較する段階と；
前記比較に基づいて源モデルを構成する段階と；
前記構成された源モデルに基づいて、分解された信号の修正を容易にする少なくとも一つの源モデル・パラメータを生成する段階とを有する方法。
〔態様２〕
前記源モデルが最良あてはめ源モデルであるかどうかを判定する段階をさらに有する、態様１記載の方法。
〔態様３〕
前記判定がコスト解析に基づいている、態様２記載の方法。
〔態様４〕
源モデルを構成する段階が、該源モデルを生成することを含む、態様１記載の方法。
〔態様５〕
源モデルを構成する段階が、該源モデルが最良あてはめ源モデルでない場合、該源モデルを調整することを含む、態様１記載の方法。
〔態様６〕
前記少なくとも一つの観察されたセグメント・モデル・パラメータを、構成されたセグメント・モデルに基づいて生成する段階をさらに有する、態様１記載の方法。
〔態様７〕
観察された特徴セグメントを予測された特徴セグメントと比較する段階をさらに有しており、前記構成されたセグメント・モデルが前記比較に基づく、態様６記載の方法。
〔態様８〕
前記観察された特徴セグメントを、スペクトル形トラッカーを利用して生成する段階をさらに有する、態様７記載の方法。
〔態様９〕
前記分解された信号を、前記オーディオ入力信号を周波数領域に変換することによって生成する段階をさらに有する、態様１記載の方法。
〔態様１０〕
前記少なくとも一つの源モデル・パラメータに基づいて、前記分解された信号の前記修正を制御する少なくとも一つの制御信号を生成する段階をさらに有する、態様１記載の方法。
〔態様１１〕
オーディオ入力信号の修正のためのシステムであって：
分解された信号の修正を容易にするために少なくとも一つの源モデル・パラメータを生成するよう構成された適応的複数モデル最適化器を有しており、該適応的複数モデル最適化器はさらに、
同時の諸特徴セグメントをグループ化して、少なくとも一つのセグメント・モデルを生成するよう構成されたセグメント・グループ化エンジンと；
前記少なくとも一つのセグメント・モデルに基づいて少なくとも一つの源モデルを生成するよう構成された源グループ化エンジンとを有しており、前記少なくとも一つの源モデルが、前記少なくとも一つの源モデル・パラメータを与える、システム。
〔態様１２〕
前記セグメント・グループ化エンジンによって利用される前記諸特徴セグメントを抽出するよう構成された特徴抽出器をさらに有する、態様１１記載のシステム。
〔態様１３〕
前記特徴抽出器が、前記分解された信号のスペクトル・ピークを追跡するスペクトル・ピーク・トラッカーを有する、態様１２記載のシステム。
〔態様１４〕
前記特徴抽出器が、トーンに関連する諸特徴セグメントを決定するよう構成されたトーン・トラッカーを有する、態様１２記載のシステム。
〔態様１５〕
前記特徴抽出器が、過渡音に関連する諸特徴セグメントを決定するよう構成された過渡音トラッカーを有する、態様１２記載のシステム。
〔態様１６〕
前記特徴抽出器が、ノイズに関連する諸特徴セグメントを決定するよう構成されたノイズ・トラッカーを有する、態様１２記載のシステム。
〔態様１７〕
前記オーディオ入力信号を、周波数領域の前記分解された信号に変換するよう構成された分解モジュールをさらに有する、態様１１記載のシステム。
〔態様１８〕
前記少なくとも一つのセグメント・モデルから得られる少なくとも一つの源モデル・パラメータに基づいて、前記分解された信号の前記修正のための制御信号を生成するよう構成された関心選択器をさらに有する、態様１１記載のシステム。
〔態様１９〕
前記少なくとも一つのセグメント・モデルから得られる少なくとも一つの源モデル・パラメータに基づいて、前記分解された信号を修正するよう構成された調節器をさらに有する、態様１１記載のシステム。
〔態様２０〕
オーディオ入力信号の修正のための方法を実行するために機械によって実行可能なプログラムが具現されている機械可読媒体であって、該方法が：
少なくとも一つの観察されたセグメント・モデル・パラメータを少なくとも一つの予測されたセグメント・モデル・パラメータと比較する段階と；
前記比較に基づいて源モデルを構成する段階と；
前記構成された源モデルに基づいて、分解された信号の修正を容易にする少なくとも一つの源モデル・パラメータを生成する段階とを有する、機械可読媒体。

Claims

デジタル通信装置によるオーディオ入力信号の修正のための方法であって：
前記オーディオ入力信号および設定されたセグメント・モデルに基づいて少なくとも一つの観察されたセグメント・モデル・パラメータを生成し、前記少なくとも一つの観察されたセグメント・モデル・パラメータを前記デジタル通信装置内に記憶する段階であって、前記オーディオ入力信号はノイズ・セグメントを含む、段階と；
前記デジタル通信装置内に記憶された前記少なくとも一つの観察されたセグメント・モデル・パラメータを、前記デジタル通信装置内に記憶された少なくとも一つの予測されたセグメント・モデル・パラメータと比較する段階と；
前記比較に基づいて前記デジタル通信装置内に記憶されている源モデルを設定する段階と；
前記設定された源モデルに基づいて、前記デジタル通信装置による分解された信号の修正を容易にする少なくとも一つの源モデル・パラメータを生成する段階とを有する方法。
前記源モデルがベスト・フィット源モデルであるかどうかを判定する段階をさらに有する、請求項１記載の方法。
前記判定がコスト解析に基づいている、請求項２記載の方法。
源モデルを設定する段階が、該源モデルを生成することを含む、請求項１記載の方法。
源モデルを設定する段階が、該源モデルがベスト・フィット源モデルでない場合、該源モデルを調整することを含む、請求項１記載の方法。
観察された特徴セグメントを予測された特徴セグメントと比較する段階をさらに有しており、前記設定されたセグメント・モデルが前記比較に基づく、請求項１記載の方法。
前記観察された特徴セグメントを、スペクトル形トラッカーを利用して生成する段階をさらに有する、請求項６記載の方法。
前記分解された信号を、前記オーディオ入力信号を周波数領域に変換することによって生成する段階をさらに有する、請求項１記載の方法。
前記少なくとも一つの源モデル・パラメータに基づいて、前記分解された信号の前記修正を制御する少なくとも一つの制御信号を生成する段階をさらに有する、請求項１記載の方法。
オーディオ入力信号の修正のためのシステムであって：
分解された信号の修正を容易にするために少なくとも一つの源モデル・パラメータを生成するよう構成された適応的複数モデル最適化器を有しており、該適応的複数モデル最適化器はさらに、
同時の諸特徴セグメントをグループ化して、少なくとも一つのセグメント・モデルを生成し、ノイズ・セグメントを含む前記オーディオ入力信号およびセグメント・モデルに基づいて少なくとも一つの観察されたセグメント・モデル・パラメータを生成するよう構成されたセグメント・グループ化エンジンと；
前記少なくとも一つのセグメント・モデルに基づいて少なくとも一つの源モデルを生成するよう構成された源グループ化エンジンとを有しており、前記少なくとも一つの源モデルが、前記少なくとも一つの源モデル・パラメータを与える、システム。
前記セグメント・グループ化エンジンによって利用される前記諸特徴セグメントを抽出するよう構成された特徴抽出器をさらに有する、請求項１０記載のシステム。
前記特徴抽出器が、前記分解された信号のスペクトル・ピークを追跡するスペクトル・ピーク・トラッカーを有する、請求項１１記載のシステム。
前記特徴抽出器が、トーンに関連する諸特徴セグメントを決定するよう構成されたトーン・トラッカーを有する、請求項１１記載のシステム。
前記特徴抽出器が、過渡音に関連する諸特徴セグメントを決定するよう構成された過渡音トラッカーを有する、請求項１１記載のシステム。
前記特徴抽出器が、ノイズに関連する諸特徴セグメントを決定するよう構成されたノイズ・トラッカーを有する、請求項１１記載のシステム。
前記オーディオ入力信号を、周波数領域の前記分解された信号に変換するよう構成された分解モジュールをさらに有する、請求項１０記載のシステム。
前記少なくとも一つのセグメント・モデルから得られる少なくとも一つの源モデル・パラメータに基づいて、前記分解された信号の前記修正のための制御信号を生成するよう構成された関心選択器をさらに有する、請求項１０記載のシステム。
前記少なくとも一つのセグメント・モデルから得られる少なくとも一つの源モデル・パラメータに基づいて、前記分解された信号を修正するよう構成された調節器をさらに有する、請求項１０記載のシステム。
オーディオ入力信号の修正のための方法を実行するために機械によって実行可能なプログラムを記録したコンピュータ読み取り可能な記録媒体であって、該方法が：
前記オーディオ入力信号および設定されたセグメント・モデルに基づいて少なくとも一つの観察されたセグメント・モデル・パラメータを生成し、前記少なくとも一つの観察されたセグメント・モデル・パラメータを前記デジタル通信装置内に記憶する段階であって、前記オーディオ入力信号はノイズ・セグメントを含む、段階と；
前記少なくとも一つの観察されたセグメント・モデル・パラメータを少なくとも一つの予測されたセグメント・モデル・パラメータと比較する段階と；
前記比較に基づいて源モデルを設定する段階と；
前記設定された源モデルに基づいて、分解された信号の修正を容易にする少なくとも一つの源モデル・パラメータを生成する段階とを有する、記録媒体。