JP2010541350A

JP2010541350A - 周囲信号を抽出するための重み付け係数を取得する装置および方法における周囲信号を抽出する装置および方法、並びに、コンピュータプログラム

Info

Publication number: JP2010541350A
Application number: JP2010526171A
Authority: JP
Inventors: クリスティアンウーレ; ユールゲンヘレ; シュテファンガヤーズベアガー; ファルコリッダーブッシュ; アンドレーアスワルサー; オリバーモーザー
Original assignee: フラウンホッファー−ゲゼルシャフトツァフェルダールングデァアンゲヴァンテンフォアシュンクエー．ファオ
Priority date: 2007-09-26
Filing date: 2008-03-26
Publication date: 2010-12-24
Anticipated expiration: 2028-03-26
Also published as: CN101816191A; US8588427B2; EP2210427B1; EP2210427A1; HK1146678A1; CN101816191B; US20090080666A1; JP5284360B2; RU2472306C2; RU2010112892A; WO2009039897A1; TW200915300A; TWI426502B

Abstract

入力音声信号から周囲信号を抽出する装置は、入力オーディオ信号の時間-周波数分布の所定の周波数バンドの一連の時間変化する周囲信号のゲイン値を前記入力オーディオ信号に従って決定するように構成されたゲイン値決定部と、時間‐周波数ドメイン表現の所定の周波数バンドを表したサブバンド信号のうちの１つを、時間変化するゲイン値によって重み付けし、重み付けられたサブバンド信号を取得するように構成された重み付け部とを備える。
ゲイン値決定部は、入力オーディオ信号の１つ以上の特徴を記述する１つ以上の定量的特徴値を取得し、ゲイン値が定量的値に定量的に依存するように、ゲイン値を１つ以上の定量的特徴値の関数として提供するように構成され、重み付けられたサブバンド信号のなかの周囲成分が非周囲成分を超えて強調されるようにゲイン値を決定するように構成される。
【選択図】図１

Description

本発明に係る実施形態は、周囲信号を抽出する装置および周囲信号を抽出するための重み付け係数を取得する装置に関する。

本発明に係るいくつかの実施形態は、周囲信号を抽出する方法および重み付け係数を取得する方法に関する。

本発明に係るいくつかの実施形態は、アップミックスのためにオーディオ信号から正面信号と周囲信号とを抽出する低い複雑さの抽出法に向けられている。

以下に、イントロダクションを述べる。
１．イントロダクション
マルチチャンネル録音資料は、消費者の家庭環境においても、ますます普及してきている。これは主に、ＤＶＤの映画が、５．１マルチチャンネルサウンドを提供し、それ故に、家庭のユーザでさえ、しばしばマルチチャンネルオーディオを再生するオーディオ再生システムを設置するという事実に起因している。

この種のセットアップは、例えば、正面の３台のスピーカ（Ｌ，Ｃ，Ｒ）と、後方の２台のスピーカ（Ｌｓ，Ｒｓ）と、１つの低周波エフェクトチャンネル（ＬＦＥ）とから構成することができる。便宜上、与えられた説明は、５．１システムに関連する。それらは、マイナーな修正を持ついかなる他のマルチチャンネルシステムにも適用される。

例えば、マルチチャンネルシステムは、２チャンネルステレオ再生を超えるいくつかの周知の利点を提供する。
・利点１：最適な（中心の）リスニングポジションを離れた場所でさえも正面像の安定性が改善される。中心チャンネルによって「スイートスポット」は拡大される。用語「スイートスポット」は、最適なサウンドインプレッションが知覚されるリスニングポジションの領域を意味する。
・利点２：「包み込まれた状態」および開放感の増強された体験は、後方チャンネルスピーカによって構築される。

それにもかかわらず、例えば古い映画やテレビジョンシリーズでは、２つのオーディオチャンネル（「ステレオ」）あるいは１つのみ（「モノラル」）を有する大量の伝承オーディオコンテンツが存在する。

近年では、少ないチャンネルのオーディオ信号からマルチチャンネル信号を生成するさまざまな方法が開発されている（関係する従来のコンセプトの概要については第２章を参照）。少ないチャンネルのオーディオ信号からマルチチャンネル信号を生成する処理は、「アップミックス」呼ばれる。

アップミックスの次の２つのコンセプトが広く知られている。
（１）アップミックス処理をガイドする付加情報を持つアップミックス
付加情報は、入力信号のなかに特定の方法で「符号化」するか、または、付加的に記憶させることもできる。このコンセプトは、「ガイドアップミックス」としばしば呼ばれる。
（２）それに対して、マルチチャンネル信号がオーディオ信号からいかなる付加情報もなしに排他的に取得される「ブラインドアップミックス」

本発明に係る実施形態は、後者、すなわちブラインドアップミックス処理に関する。

文献においては、アップミックス処理の代替分類が報告されている。アップミックス処理は、直接／周囲‐コンセプトまたは「イン・ザ・バンド」‐コンセプトまたは両方の混合のいずれかに従うことができる。これらの２つのコンセプトは、以下において解説される。

Ａ．直接／周囲‐コンセプト
「直接音源」は、オリジナルの２チャンネルバージョンと同じ位置で知覚される方法で、３つの正面チャンネルによって再生される。用語「直接音源」は、１つの分離した音源（例えば、楽器）から単独かつ直接にやってくる音を、いかなる付加的な音、例えば壁からの反射によるものをほとんど有さずまたは全く有さずに記述するために用いられる。

後方スピーカには、周囲音（周囲らしい音）が供給される。周囲音は、（仮想の）リスニング環境のインプレッションを形成するものであり、部屋の残響、観衆音（例えば拍手）、環境音（例えば雨）、人工的に意図された効果音（例えばビニールクラックリング）および暗騒音を含んでいる。

図２３は、オリジナルの２チャンネルバージョンの音像を例示したものであり、図２４は、直接／周囲‐コンセプトに従うアップミックスの音像を例示したものである。

Ｂ．「イン・ザ・バンド」‐コンセプト
「イン・ザ・バンド」‐コンセプトに従うと、あらゆる音、または少なくともいくつかの音（周囲音ばかりでなく直接音も）は、リスナーのすべてのまわりに配置することができる。音の位置は、その特性（すなわち、それが直接音か周囲音であるかどうか）からは独立し、アルゴリズムとそのパラメータ設定の特定のデザインにのみ依存する。図２５は、「イン・ザ・バンド」‐コンセプトの音像を例示している。

本発明に係る装置および方法は、直接／周囲‐コンセプトに関する。次章は、ｍチャンネルのオーディオ信号をｎチャンネルのオーディオ信号にアップミックスする局面（ｍ＜ｎ）における従来のコンセプトの概要を示す。

２．ブラインドアップミックスにおける従来のコンセプト
２．１モノラル録音のアップミックス
２．１．１疑似ステレオ処理
いわゆる「疑似ステレオ」信号を生成する大部分の技術は、信号適応ではない。これは、いかなるモノラル信号も、コンテンツが何であろうとも同様に処理することを意味する。それらのシステムは、出力信号を非相関化するための単純なフィルタ構造および／または時間遅延によって、例えば１つのチャンネルの入力信号の２つのコピーを一対の相補的櫛形フィルタによって処理することによってしばしば機能する［Ｓｃｈ５７］。この種のシステムの包括的な概要は、［Ｆａｌ０５］に見いだすことができる。

２．１．２音源形成を用いたモノラルからステレオへの半自動アップミックス
著者は、同じ音源に帰属し、それ故に一緒にパンされるべき信号成分（例えばスペクトルの時間‐周波数ビン）を識別するアルゴリズムを提案する［ＬＭＴ０７］。音源形成アルゴリズムは、ストリーム分離の原理（ゲシュタルト原理から導き出される）：時間の連続性と、周波数の高調波関係と、振幅類似性を考慮する。音源は、クラスタリング法（教師なし学習）を用いて識別される。導き出された「時間‐周波数‐クラスタ」は、（ａ）対象の周波数範囲に関する情報、（ｂ）音色類似性、を用いて、より大きなサウンドストリームに更に分類される。著者は、フロントエンドとして、正弦波モデリングアルゴリズム（すなわち、信号の正弦波成分の識別）の使用を報告している。

音源形成の後、ユーザは、音源を選択し、それらにパニング重み付けを適用する。（いくつかの従来のコンセプトによれば）多くの提唱された手法（正弦波モデリング、ストリーム分離）は、平均的な複雑さの現実の信号を処理するときに、信頼できるものを実行しないことに留意すべきである。

２．１．３非負マトリクス因数分解を用いた周囲抽出
入力信号の時間‐周波数分布（ＴＦＤ）は、例えば、短期間フーリエ変換によって演算される。直接信号成分のＴＦＤの推定は、非負マトリクス因数分解の数値最適化法によって導き出される。周囲信号のＴＦＤの推定は、入力信号のＴＦＤと、直接信号のＴＦＤの推定との差分（すなわち、近似の残差）を演算することによって取得される。周囲信号の時間信号の再合成は、入力信号の位相スペクトログラムを用いて実行される。付加的な後処理は、導き出されたマルチチャンネル信号のリスニング体験を改善するために、オプションとして適用される［ＵＷＨＨ０７］。

２．１．４適応スペクトルパノラマ化（ＡＳＰ）
ステレオサウンドシステムを用いた再生のためのモノラル信号のパノラマ化の方法は、［ＶＺＡ０６］に解説されている。処理は、ＳＴＦＴと、左右のチャンネル信号の再合成に用いられる周波数ビンの重み付けと、逆ＳＴＦＴとを組み込む。時間変化する重み付け係数は、入力信号のスペクトログラムからサブバンドにおいて演算される低レベルの特徴から導き出される。

２．２ステレオ録音のアップミックス
２．２．１マトリクスデコーダ
パッシブマトリクスデコーダは、入力チャンネル信号の時間不変線形結合を用いてマルチチャンネル信号を演算する。

アクティブマトリクスデコーダ（例えば、Dolby Pro Logic II［Ｄｒｅ００］、DTS NEO:6［ＤＴＳ］またはHrmanKardon/Lexicon Logic 7［Ｋａｒ］）は、入力信号の解析を行い、マトリクス要素の信号依存適応（すなわち、線形結合のための重み付け）を実行する。これらのデコーダは、マルチチャンネル出力信号を生成するために、チャンネル間差分と信号適応ステアリングメカニズムとを用いる。マトリクスステアリング法は、顕著なソース（例えば、会話）を検出することを目指す。その処理は、時間領域において実行される。

２．２．２ステレオをマルチチャンネルサウンドに変換する方法
IrwanとAartsは、信号をステレオからマルチチャンネルに変換する方法を提供する［ＩＡ０１］。サラウンドチャンネルの信号は、相互相関法（演算負荷を減らすために、相関係数の反復推定が提案されている）を用いて算出される。

中心チャンネルのミキシング係数は、主成分分析（ＰＣＡ）を用いて取得される。ＰＣＡは、優位な信号の方向を示すベクトルを計算するために適用される。一度に１つの優位な信号のみを検出することができる。ＰＣＡは、反復勾配降下法（これは、観測の共分散マトリクスの固有値分解を用いた標準ＰＣＡと比較して、演算負荷に関して要求が多くない）を用いて実行される。演算された方向ベクトルは、すべての非相関化された信号成分が無視される場合に、ゴニオメータの出力と類似している。方向は、次に、３つの正面チャンネルを構築するために、２から３チャンネル表現にマップされる。

２．２．３２から５チャンネルへのアップミックスの教師なし適応フィルタリングアプローチ
著者は、IrwanとAartsによる方法と比較される改良型アルゴリズムを提案する。元々提案された方法は、各サブバンドに適用される［ＬＤ０５］。著者は、優位な信号のＷ排反直交性を仮定する。周波数分解は、疑似直角位相ミラーフィルタバンクまたはウェーブレットベースのオクターブフィルタバンクを用いて行われる。IrwanとAartsによる方法に対する更なる拡張は、（最初の）主成分の反復演算のための適応ステップサイズを用いることである。

２．２．４マルチチャンネルオーディオアップミックスのためのステレオ信号からの周囲の抽出および合成
AvendanoとJotは、ステレオオーディオ信号において周囲情報を識別し、抽出する周波数ドメイン法を提案している［ＡＪ０２］。

その方法は、チャンネル間整合性指標と、大部分が周囲成分を構成する時間‐周波数領域の判定を可能とする非線形マッピング関数との演算に基づいている。周囲信号は、引き続いて合成され、マルチチャンネル再生システムのサラウンドチャンネルに用いられる。

２．２．５記述子ベースの空間化
著者は、信号の自動類別によって制御することができる１からｎへのアップミックスの方法を記述する［ＭＰＡ＋０５］。この論文は、いくつかの誤りを含んでおり、それ故に著者は、論文に解説されていることと異なる目標を目指したのかもしれない。

アップミックス処理は、３つの処理ブロック：「アップミックスツール」、人工リバーブ、イコライズ、を使用する。「アップミックスツール」は、周囲信号の抽出を含むさまざまな処理ブロックから構成される。周囲信号の抽出方法（「空間弁別器」）は、スペクトルドメインにおけるステレオ録音の左右の信号の比較に基づいている。モノラル信号をアップミックスするためには、人工リバーブが用いられる。

著者は、３つのアプリケーション：１から２へのアップミックス、２から５へのアップミックス、１から５へのアップミックス、を解説する。

オーディオ信号の類別
類別処理は、教師付き学習アプローチ：オーディオ信号から低レベル特徴が抽出され、識別子がオーディオ信号を音楽、音声、またはその他の音の３つのクラスの１つに類別するために適用される、を用いる。

類別処理の特殊性は、以下を見いだすために遺伝的プログラミング法を用いることである。
・最適特徴（差分オペレーションの組成物としての）
・取得された低レベル特徴の最適組合せ
・一組の利用可能な識別子からの最良識別子
・選択された識別子のための最良パラメータ設定

１から２へのアップミックス
アップミックスは、リバーブとイコライズとを用いてなされる。信号が音声を含む場合は、イコライズは使用可能であり、リバーブは使用不可である。それ以外の場合は、イコライズは使用不可であり、リバーブは使用可能である。後方チャンネルにおける話し言葉の抑制を目指したいかなる専用処理も組み込まれない。

２から５へのアップミックス
著者は、マルチチャンネルサウンドトラックを組み立てることを目指しているが、中心チャンネルをミュートすることによって、検出された音声は減衰される。

１から５へのアップミックス
マルチチャンネル信号は、リバーブ、イコライズ、「アップミックスツール」（これは、ステレオ信号から５．１信号を生成するものであって、ステレオ信号はリバーブの出力であって「アップミックスツール」への入力である）、を用いて生成される。音楽、音声、他の全ての音には、異なるプリセットが用いられる。リバーブとイコライズを制御することによって、音声を中心チャンネルに保持し、すべてのチャンネルに音楽と他の音を有するマルチチャンネルのサウンドトラックが組み立てられる。

信号が音声を含む場合には、リバーブは使用不可である。それ以外の場合は、リバーブは使用可能である。後方チャンネル信号の抽出はステレオ信号に依存するので、リバーブが使用不可のとき（音声のケース）にはいかなる後方チャンネル信号も生成されない。

２．２．６周囲ベースのアップミックス
Soulodreは、ステレオ信号からマルチチャンネル信号を構築するシステムを提供する［Ｓｏｕ０４］。信号は、いわゆる「個別ソースストリーム」と「周囲ストリーム」に分解される。これらのストリームに基づき、いわゆる「審美エンジン」がマルチチャンネル出力を合成する。分解と合成のステップの更なる技術詳細は与えられていない。

２．３任意数のチャンネルを有するオーディ信号のアップミックス
２．３．１マルチチャンネルサラウンドフォーマット変換および一般化アップミックス
著者は、中間モノラルダウンミックスを用いた空間オーディオ符号化に基づく方法を記述し、中間ダウンミックスを有さない改良方法を紹介する。改良方法は、パッシブマトリクスアップミックスと、空間オーディオ符号化により知られた法則を含む。改良は、中間オーディオの増大したデータレートの代償として得られる［ＧＪ０７ａ］。

２．３．２空間オーディオ符号化と強化のための主要周囲信号の分解およびベクトルベースの位置決め
著者は、主成分分析（ＰＣＡ）を用いた入力信号の主要（直接）信号と周囲信号への分離を提案する［ＧＪ０７ｂ］。

入力信号は、主要（直接）信号と周囲信号の和としてモデル化される。直接信号は周囲信号より実質的に多くのエネルギーを有し、両方の信号は無相関であると仮定される。

処理は、周波数ドメインにおいて行われる。直接信号のＳＴＦＴ係数は、入力信号のＳＴＦＴ係数の最初の主成分上への射影から取得される。周囲信号のＳＴＦＴ係数は、入力信号と直接信号のＳＴＦＴ係数の差分から演算される。

（最初の）主成分（すなわち、最大固有値に対応する共分散マトリクスの固有ベクトル）のみが必要であるので、標準ＰＣＡにおいて用いられる固有値分解の演算的に効率的な代替手段（反復近似）が適用される。ＰＣＡ分解のために必要とされる相互相関も、反復的に推定される。直接信号と周囲信号は、オリジナルに加算される。すなわち分解においていかなる情報も失われない。

上記にかんがみて、入力オーディオ信号から周囲信号の低い複雑さの抽出法のニーズがある。

本発明に係るいくつかの実施形態は、入力オーディオ信号を複数の周波数バンドを記述する複数のサブバンド信号に関して表した入力オーディオ信号の時間‐周波数ドメイン表現に基づいて周囲信号を抽出する装置を構築する。装置は、入力オーディオ信号に従って、入力オーディオ信号の時間‐周波数ドメイン表現の所定の周波数バンドに対する一連の時間変化する周囲信号のゲイン値を決定するように構成されたゲイン値決定部を備える。装置は、時間‐周波数ドメイン表現の所定の周波数バンドを表したサブバンド信号の１つを、時間変化するゲイン値によって重み付けし、重み付けられたサブバンド信号を取得するように構成された重み付け部を備える。ゲイン値決定部は、入力オーディオ信号の１つ以上の特徴または特性を記述する１つ以上の定量的特徴値を取得し、ゲイン値が定量的特徴値に定量的に依存するように、ゲイン値を１つ以上の定量的特徴値の関数として提供するように構成される。ゲイン値決定部は、重み付けられたサブバンド信号のなかの周囲成分が非周囲成分を超えて強調されるようにゲイン値を提供するように構成される。

本発明に係るいくつかの実施形態は、入力オーディオ信号から周囲信号を抽出するための重み付け係数を取得する装置を提供する。装置は、係数決定入力オーディオ信号の複数の特徴を記述する複数の定量的特徴値の、重み付け係数を用いた（または重み付け係数によって定義された）重み付け結合に基づいて取得されたゲイン値が、係数決定入力オーディオ信号に関連づけられた予測ゲイン値を近似するように、重み付け係数を決定するように構成された重み付け係数決定部を備える。

本発明に係るいくつかの実施形態は、周囲信号を抽出し、重み付け係数を取得する方法を提供する。

本発明に係るいくつかの実施形態は、定量的特徴値、例えば入力オーディオ信号の１つ以上の特徴を記述する一連の定量的特徴値を決定することによって、この種の定量的特徴値が限られた演算労力によって提供でき、効率的かつ柔軟にゲイン値に変換できるような、特に効率的かつ柔軟な方法で、入力オーディオ信号から周囲信号を抽出することができるという発見に基づいている。１つ以上の特徴を１つ以上の一連の定量的特徴値に関して記述することによって、定量的特徴値に定量的に依存するゲイン値を容易に取得することができる。例えば、特徴値からゲイン値を引き出すために、単純な数学的マッピングを用いることができる。加えて、ゲイン値が特徴値に定量的に依存するようにゲイン値を提供することによって、入力オーディオ信号からの微調整された周囲信号の抽出を得ることができる。入力オーディオ信号のどの成分が周囲成分であって、入力オーディオ信号のどの成分が非周囲成分であるかという難しい判定をするよりもむしろ、周囲成分の段階的な抽出を実行することができる。

加えて、定量的特徴値の使用は、異なる特徴を記述する特徴値の特に効率的かつ正確な結合を可能にする。定量的特徴値は、例えば、スケーリングする、または、数学的処理ルールによる線形または非線形方法で処理することができる。

ゲイン値を取得するために複数の特徴値が結合されるいくつかの実施形態において、結合に関する詳細（例えば異なる特徴値のスケーリングに関する詳細）は、例えばそれぞれの係数を調整することによって、容易に調整することができる。

上記を要約すると、定量的特徴値の決定を含み、定量的特徴値に基づくゲイン値の決定をも含む、周囲信号を抽出するコンセプトは、入力オーディオ信号から周囲信号を抽出する効率的かつ低い複雑さのコンセプトを構成することができる。

本発明に係るいくつかの実施形態において、入力オーディオ信号の時間‐周波数ドメイン表現のサブバンド信号の１つ以上を重み付けすることが特に効率的であることが示されている。時間‐周波数ドメイン表現のサブバンド信号の１つ以上を重み付けすることによって、入力オーディオ信号から周囲信号成分の周波数選別的なまたは特別な抽出を成し遂げることができる。

本発明に係るいくつかの実施形態は、入力オーディオ信号から周囲信号を抽出するための重み付け係数を取得する装置を構築する。

これらの実施形態のいくつかは、周囲信号の抽出のための係数は、いくつかの実施形態において「校正信号」または「基準信号」とみなすことができる係数決定入力オーディオ信号に基づいて取得することができるという発見に基づいている。この種の係数決定入力オーディオ信号、例えば既知のまたは適度な労力によって取得できる予測ゲイン値を用いることによって、定量的特徴値の結合が結果として予測ゲイン値を近似するゲイン値になるような定量的特徴値の結合を定義する係数を取得することができる。

前記コンセプトによれば、これらの係数によって構成される周囲信号抽出部が、入力オーディオ信号から係数決定入力オーディオ信号に類似する周囲信号（または周囲成分）の十分に良好な抽出を実行できるように、適当な重み付け係数のセットを取得することができる。

本発明に係るいくつかの実施形態において、重み付け係数を取得する装置は、異なるタイプの入力オーディオ信号に対して周囲信号を抽出する装置の効率的な適応を可能とする。例えば、「トレーニング信号」、すなわち係数決定入力オーディオ信号として役立ち、周囲信号抽出部のユーザのリスニング嗜好に適応する所定のオーディオ信号に基づいて、適当な重み付け係数のセットを取得することができる。加えて、重み付け係数を提供することによって、異なる特徴を記述する利用可能な定量的特徴値の最適使用をなすことができる。

本発明に係る実施形態の更なる詳細、作用および効果は、引き続いて記載される。

本発明に係る実施形態は、以下の添付図面を参照して引き続いて記載される。
本発明に係る実施形態による周囲信号を抽出する装置のブロック構成図を示す。本発明に係る実施形態による入力音声信号から周囲信号を抽出する装置の詳細ブロック構成図を示す。本発明に係る実施形態による入力音声信号から周囲信号を抽出する装置の詳細ブロック構成図を示す。本発明に係る実施形態による入力音声信号から周囲信号を抽出する装置のブロック構成図を示す。本発明に係る実施形態によるゲイン値決定部のブロック構成図を示す。本発明に係る実施形態による重み付け部のブロック構成図を示す。本発明に係る実施形態による後処理部のブロック構成図を示す。本発明に係る実施形態による周囲信号を抽出する装置のブロック構成図からの抜粋を示す。本発明に係る実施形態による周囲信号を抽出する装置のブロック構成図からの抜粋を示す。時間-周波数ドメイン表現から特徴値を抽出するコンセプトを図示したものである。本発明に係る実施形態による１から５へのアップミックスを実行する装置または方法のブロック図を示す。本発明に係る実施形態による周囲信号を抽出する装置または方法のブロック図を示す。本発明に係る実施形態によるゲイン演算を実行する装置または方法のブロック図を示す。本発明に係る実施形態による重み付け係数を取得する装置のブロック構成図を示す。本発明に係る実施形態による重み付け係数を取得する他の装置のブロック構成図を示す。本発明に係る実施形態による重み付け係数を取得する装置のブロック構成図を示す。本発明に係る実施形態による重み付け係数を取得する装置のブロック構成図を示す。本発明に係る実施形態による重み付け係数を取得する装置のブロック構成図を示す。本発明に係る実施形態による重み付け係数を取得する装置のブロック構成図の抜粋を示す。本発明に係る実施形態による係数決定信号生成部のブロック構成図を示す。本発明に係る実施形態による係数決定信号生成部のブロック構成図を示す。本発明に係る実施形態による係数決定信号生成部のブロック構成図を示す。本発明に係る実施形態による係数決定信号生成部のブロック構成図を示す。本発明に係る実施形態による入力音声信号から周囲信号を抽出する方法のフローチャートを示す。本発明に係る実施形態による重み付け係数を決定する方法のフローチャートを示す。ステレオ再生を例示する図である。直接／周囲‐コンセプトを例示する図である。イン・ザ・バンド‐コンセプトを例示する図である。

周囲信号を抽出する装置 − 第１実施形態
図１は、入力オーディオ信号から周囲信号を抽出する装置のブロック構成図を示す。図１に示される装置は、全体として１００で表される。装置１００は、入力オーディオ信号１１０を受信し、入力オーディオ信号に基づいて少なくとも１つの重み付けられたサブバンド信号を提供し、重み付けられたサブバンド信号のなかの周囲成分が非周囲成分を超えて強調されるように構成される。装置１００は、ゲイン値決定部１２０を備える。ゲイン値決定部１２０は、入力オーディオ信号１１０を受信し、入力オーディオ信号１１０に従って一連の時間変化する周囲信号ゲイン値１２２（簡単にゲイン値とも表される）を提供するように構成される。ゲイン値決定部１２０は、重み付け部１３０を備える。重み付け部１３０は、入力オーディオ信号の時間‐周波数ドメイン表現またはその少なくとも１つのサブバンド信号を受信するように構成される。サブバンド信号は、入力オーディオ信号の１つの周波数バンドまたは１つの周波数サブバンドを記述することができる。重み付け部１３０は、サブバンド信号１３２に従って、かつ、一連の時間変化する周囲信号のゲイン値１２２にも従って、重み付けられたサブバンド信号１１２を提供するように更に構成される。

上記構成上の記述に基づき、装置１００の機能は以下に記載される。ゲイン値決定部１２０は、入力オーディオ信号１１０を受信し、入力オーディオ信号の１つ以上の特徴または特性を記述する１つ以上の定量的特徴値を取得するように構成される。言い換えれば、ゲイン値決定部１２０は、例えば、入力オーディオ信号の１つの特徴または特性を特徴づけている定量的情報を取得するように構成することができる。あるいは、ゲイン値決定部１２０は、入力オーディオ信号の複数の特徴を記述する複数の定量的特徴値（またはその一連）を取得するように構成することができる。このように、入力オーディオ信号の特徴（または、いくつかの実施形態においては「低レベル特徴」）とも表される、一定の特性を、一連のゲイン値を提供するために評価することができる。ゲイン値決定部１２０は、一連の時間変化する周囲信号のゲイン値１２２を、１つ以上の定量的特徴（またはその一連）の関数として提供するように更に構成される。

以下において、用語「特徴」は、記述を短縮するために、時には、特徴または特性を表すために用いられる。

いくつかの実施形態では、ゲイン値決定部１２０は、時間変化する周囲信号のゲイン値を、ゲイン値が定量的特徴値に定量的に依存するように、提供するように構成される。言い換えれば、いくつかの実施形態では、特徴値は、複数の値（ある場合は２つ以上の値、ある場合は１０以上の値およびある場合は準連続数の値でさえある）をとることができ、対応する周囲信号のゲイン値は、（少なくとも特徴値の一定範囲にわたって）線形または非線形方法で特徴値を追従することができる。このように、いくつかの実施形態では、ゲイン値は、１つ以上の対応する定量的特徴値の１つの増加によって単調に増加することができる。他の実施形態では、ゲイン値は、１つ以上の対応する値の１つの増加によって単調に減少することができる。

いくつかの実施形態では、ゲイン値決定部は、第１の特徴の時間進化を記述する一連の定量的特徴値を生成するように構成することができる。したがって、ゲイン値決定部は、例えば、一連のゲイン値の第１の特徴を記述する一連の特徴値をマップするように構成することができる。

いくつかの他の実施形態では、ゲイン値決定部は、入力オーディオ信号１１０の複数の異なる特徴の時間進化を記述する複数の一連の特徴値を提供するかまたは算出するように構成することができる。したがって、複数の一連の定量的特徴値は、一連のゲイン値にマップすることができる。

上記を要約すると、ゲイン値決定部は、入力オーディオ信号の１つ以上の特徴を定量的方法で評価することができ、それに基づくゲイン値を提供することができる。

重み付け部１３０は、入力オーディオ信号１１０の周波数スペクトルの一部を（または完全な周波数スペクトルでさえも）一連の時間変化する周囲信号のゲイン値１２２に従って重み付けするように構成される。この目的のために、重み付け部は、入力オーディオ信号の時間‐周波数ドメイン表現の少なくとも１つのサブバンド信号１３２（または複数のサブバンド信号）を受信する。

ゲイン値決定部１２０は、入力オーディオ信号を、時間ドメイン表現または時間‐周波数ドメイン表現のいずれかで受信するように構成することができる。しかしながら、周囲信号を抽出する処理は、入力信号の重み付けが入力オーディオ信号１１０の時間‐周波数ドメインを用いて重み付け部によって実行される場合に、特に効率的な方法で実行できることが分かっている。重み付け部１３０は、入力オーディオ信号の少なくとも１つのサブバンド信号１３２をゲイン値１２２に従って重み付けするように構成される。重み付け部１３０は、サブバンド信号をスケーリングするために、一連のゲイン値のうちのゲイン値を１つ以上のサブバンド信号１３２に適用し、１つ以上の重み付けられたサブバンド信号１１２を取得するように構成される。

いくつかの実施形態では、ゲイン値決定部１２０は、入力オーディオ信号の特徴が評価され、入力オーディオ信号１１０またはそのサブバンド（サブバンド信号１３２によって表される）がオーディオ信号のなかの周囲成分または非周囲成分を表す見込みがあるかどうかを特徴づける（または少なくとも表示を提供する）ように構成される。しかしながら、ゲイン値決定部によって処理される特徴値は、入力オーディオ信号１１０のなかの周囲成分と非周囲成分の関連性に関する定量的情報を提供するために選択することができる。例えば、特徴値は、入力オーディオ信号１１０のなかの周囲成分と非周囲成分の関連性に関する情報（または少なくとも表示）、または少なくともその予測を記述する情報をもたらすことができる。

したがって、ゲイン値決定部１３０は、ゲイン値１２２に従って重み付けされたサブバンド信号１１２のなかの周囲成分が非周囲成分に対して強調されるように、一連のゲイン値を生成するように構成することができる。

上記を要約すると、装置１００の機能は、入力オーディオ信号１１０の特徴を記述する１つ以上の一連の定量的特徴値に基づく一連のゲイン値の決定をベースとしている。一連のゲイン値は、特徴値がそれぞれの時間‐周波数ビンの比較的大きい「周囲らしさ」を示す場合には、入力オーディオ信号１１０の周波数バンドを表したサブバンド信号１３２は大きなゲイン値でスケーリングされ、ゲイン値決定部によって考慮された１つ以上の特徴がそれぞれの時間‐周波数ビンの比較的小さい「周囲らしさ」を示す場合には、入力オーディオ信号１１０の周波数バンドは比較的小さいゲイン値でスケーリングされるように、生成される。

周囲信号を抽出する装置 − 第２実施形態
ここで、図２を参照して、図１に示された装置１００のオプションの拡張について述べる。図２は、入力オーディオ信号から周囲信号を抽出する装置の詳細なブロック構成図を示す。図２に示される装置は、全体として２００で表される。

装置２００は、入力オーディオ信号２１０を受信し、複数の出力サブバンド信号２１２ａ〜２１２ｄを提供し、そのうちの幾つかは重み付けできるように構成される。

装置２００は、例えば、オプションと考えることができる解析フィルタバンク２１６を備えることができる。解析フィルタバンク２１６は、例えば、時間ドメイン表現の入力オーディオ信号コンテンツ２１０を受信し、入力オーディオ信号の時間‐周波数ドメイン表現を提供するように構成することができる。入力オーディオ信号の時間‐周波数ドメイン表現は、例えば、入力オーディオ信号を複数のサブバンド信号２１８ａ〜２１８ｄに関して記述することができる。サブバンド信号２１８ａ〜２１８ｄは、例えば、入力オーディオ信号２１０の異なるサブバンドまたは周波数バンドに存在するエネルギーの時間進化を表すことができる。例えば、サブバンド信号２１８ａ〜２１８ｄは、入力オーディオ信号２１０の引き続く部分（時間的に）の一連の高速フーリエ変換係数を表すことができる。例えば、第１のサブバンド信号２１８ａは、引き続く時間部分における入力オーディオ信号の所定の周波数サブバンドに存在するエネルギーの時間進化を記述することができ、それはオーバーラップしていてもオーバーラップしていなくてもよい。同様に、他のサブバンド信号２１８ｂ〜２１８ｄは、他のサブバンドに存在するエネルギーの時間進化を記述することができる。

ゲイン値決定部は、複数の定量的特徴値決定部２５０、２５２、２５４を（オプションとして）備えることができる。定量的特徴値決定部２５０、２５２、２５４は、いくつかの実施形態において、ゲイン値決定部２２０の一部とすることができる。しかしながら、他の実施形態では、定量的特徴値決定部２５０、２５２、２５４は、ゲイン値決定部２２０に対して外部にあってもよい。この場合、ゲイン値決定部２２０は、定量的特徴値を外部の定量的特徴値決定部から受信するように構成することができる。外部で生成された定量的特徴値と内部で生成された定量的特徴値を受信することはいずれも、定量的特徴を「取得する」こととみなされる。

定量的特徴値決定部２５０、２５２、２５４は、例えば、入力オーディオ信号についての情報を受信し、入力オーディオ信号の異なる特徴を定量的方法で記述する定量的特徴値２５０ａ、２５２ａ、２５４ａを提供するように構成することができる。

いくつかの実施形態では、定量的特徴値決定部２５０、２５２、２５４は、入力オーディオ信号２１０の周囲成分コンテンツに関する、または、入力オーディオ信号２１０の周囲成分コンテンツと非周囲成分コンテンツの関連性に関する指標を提供する入力オーディオ信号２１０の特徴を、対応する定量的特徴値２５０ａ、２５２ａ、２５４ａに関して記述するために選択される。

ゲイン値決定部２２０は、重み付け結合部２６０を更に備える。重み付け結合部２６０は、定量的特徴値２５０ａ、２５２ａ、２５４ａを受信し、それに基づいてゲイン値２２２（または一連のゲイン値）を提供するように構成することができる。ゲイン値２２２（または一連のゲイン値）は、サブバンド信号２１８ａ、２１８ｂ、２１８ｃ、２１８ｄの１つ以上を重み付けするために重み付けユニットによって用いられる。例えば、重み付けユニット（簡単に「重み付け部」とも表される）は、例えば、複数の個別スケーリング部または個別重み付け部２７０ａ、２７０ｂ、２７０ｃを備えることができる。例えば、第１の個別重み付け部２７０ａは、第１のサブバンド信号２１８ａをゲイン値（または一連のゲイン値）２２２に従って重み付けするように構成することができる。このように、第１の重み付けられたサブバンド信号２１２ａが取得される。いくつかの実施形態では、ゲイン値（または一連のゲイン値）２２２は、付加的なサブバンド信号を重み付けするために用いられる。実施形態では、オプションの第２の個別重み付け部２７０ｂは、第２のサブバンド信号２１８ｂを重み付けし、重み付けられた第２のサブバンド信号２１２ｂを取得するように構成することができる。更に、第３の個別重み付け部２７０ｃは、第３のサブバンド信号２１８ｃを重み付けし、第３の重み付けられたサブバンド信号２１２ｃを取得するために用いることができる。上記説明から、ゲイン値（または一連のゲイン値）２２２は、入力オーディオ信号を時間‐周波数ドメイン表現の形式で表したサブバンド信号２１８ａ、２１８ｂ、２１８ｃ、２１８ｄの１つ以上を重み付けするために使用できることがわかる。

定量的特徴値決定部
以下に、定量的特徴値決定部２５０、２５２、２５４に関するさまざまな詳細が記載される。

定量的特徴値決定部２５０、２５２、２５４は、異なるタイプの入力情報を使用するように構成することができる。例えば、図２に示されるように、第１の定量的特徴値決定部２５０は、入力情報として、入力オーディオ信号の時間ドメイン表現を受信するように構成することができる。あるいは、第１の定量的特徴値決定部２５０は、入力オーディオ信号の全スペクトルを記述する入力情報を受信するように構成することができる。このように、いくつかの実施形態では、少なくとも１つの定量的特徴値２５０ａは、（オプションとして）入力オーディオ信号の時間ドメイン表現に基づいて、または、入力オーディオ信号を全体として（少なくとも所定の期間について）記述する他の表現に基づいて算出することができる。

第２の定量的特徴値決定部２５２は、入力情報として、単一のサブバンド信号、例えば第１のサブバンド信号２１８ａを受信するように構成される。このように、第２の定量的特徴値決定部は、例えば、単一のサブバンド信号に基づいて、対応する定量的特徴値２５２ａを提供するように構成することができる。ゲイン値２２２（またはその一連）が単一のサブバンドにだけ適用される実施形態においては、ゲイン値２２２が適用されるサブバンド信号は、第２の定量的特徴値決定部２２２によって用いられるサブバンド信号と同一とすることができる。

第３の定量的特徴値決定部２５４は、例えば、入力情報として、複数のサブバンド信号を受信するように構成することができる。例えば、第３の定量的特徴値決定部２５４は、入力情報として、第１のサブバンド信号２１８ａと、第２のサブバンド信号２１８ｂと、第３のサブバンド信号２１８ｃを受信するように構成される。このように、定量的特徴値決定部２５４は、複数のサブバンド信号に基づいて定量的特徴値２５４ａを提供するように構成される。ゲイン値２２２（またはその一連）が複数のサブバンド信号（例えばサブバンド信号２１８ａ、２１８ｂ、２１８ｃ）を重み付けするために適用される実施形態においては、ゲイン値２２２が適用されるサブバンド信号は、第３の定量的特徴値決定部２５４によって評価されるサブバンド信号と同一とすることができる。

上記を要約すると、ゲイン値決定部２２２は、いくつかの実施形態において、複数の異なる特徴値２５０ａ、２５２ａ、２５４ａを取得するために、異なる入力情報を評価するように構成された複数の異なる定量的特徴値決定部を備えることができる。いくつかの実施形態では、１つ以上の特徴値決定部は、入力オーディオ信号の広帯域表現に基づいて（例えば、入力オーディオ信号の時間ドメイン表現に基づいて）特徴を評価するように構成することができ、その一方で他の特徴値決定部は、入力オーディオ信号２１０の周波数スペクトルの一部だけ、または、単一の周波数バンドまたは周波数サブバンドのみを評価するようにさえ構成することができる。

重み付け
以下に、例えば、重み付け結合部２６０によって実行される定量的特徴値の重み付けに関するいくつかの詳細が記載される。

重み付け結合部２６０は、ゲイン値２２２を、定量的特徴値決定部２５０、２５２、２５４によって提供される定量的特徴値２５０ａ、２５２ａ、２５４ａに基づいて取得するように構成される。重み付け結合部は、例えば、定量的特徴値決定部によって提供される定量的特徴値を線形にスケーリングするように構成することができる。いくつかの実施形態では、重み付け結合部は、定量的特徴値の線形結合を形成するものとみなすことができ、異なる重み（例えば、それぞれの重み付け係数によって記述することができる）は、定量的特徴値に関連づけることができる。いくつかの実施形態では、重み付け結合部は、定量的特徴値決定部によって提供される特徴値を非線形な方法で処理するように構成することもできる。非線形処理は、例えば、結合に先立って、または、結合の整数部分として、実行することができる。

いくつかの実施形態では、重み付け結合部２６０は、調整可能であるように構成することができる。言い換えれば、いくつかの実施形態では、重み付け結合部は、異なる定量的特徴値決定部の定量的特徴値に関連づけられた重みが調整可能であるように構成することができる。例えば、重み付け結合部２６０は、例えば、定量的特徴値２５０ａ、２５２ａ、２５４ａの非線形処理、および／または、定量的特徴値２５０ａ、２５２ａ、２５４ａの線形スケーリングに影響を及ぼす、重み付け係数のセットを受信するように構成することができる。重み付け処理に関する詳細は、引き続いて記載される。

いくつかの実施形態では、ゲイン値決定部２２０は、オプションの重み調整部２７０を備えることができる。オプションの重み調整部２７０は、重み付け結合部２６０によって実行される定量的特徴値２５０ａ、２５２ａ、２５４ａの重み付けを調整するように構成することができる。定量的特徴の重み付けのための重み付け係数の決定に関する詳細は、例えば、図１４〜２０を参照して、引き続いて記載される。前記重み付け係数の決定は、例えば、別個の装置、または、重み調整部２７０によって実行することができる。

周囲信号を抽出する装置 − 第３実施形態
以下に、本発明に係る他の実施形態が記載される。図３は、入力オーディオ信号から周囲信号を抽出する装置の詳細なブロック構成図を示す。図３に示される装置は、全体として３００で表される。

しかしながら、本発明の記述の全体にわたって、同じ参照番号は同一の手段、信号または機能を示すために選択されていることに留意すべきである。

装置３００は、装置２００に非常に類似している。しかしながら、装置３００は、特に効率的な特徴値決定部のセットを備える。

図３から分かるように、図２に示されたゲイン値決定部２２０に代わるゲイン値決定部３２０は、第１の定量的特徴値決定部として、音調特徴値決定部３５０を備える。音調特徴値決定部３５０は、例えば、第１の定量的特徴値として定量的音調特徴値３５０ａを提供するように構成することができる。

さらに、ゲイン値決定部３２０は、第２の定量的特徴値決定部として、第２の定量的特徴値としてエネルギー特徴値３５２ａを提供するように構成されるエネルギー特徴値決定部３５２を備える。

さらにまた、ゲイン値決定部３２０は、第３の定量的特徴値決定部として、スペクトル重心特徴値決定部３５４を備えることができる。スペクトル重心特徴値決定部は、第３の定量的特徴値として、入力オーディオ信号の周波数スペクトルの、または、入力オーディオ信号２１０の周波数スペクトルの一部の重心を記述するスペクトル重心特徴値を提供するように構成することができる。

したがって、重み付け結合部２６０は、音調特徴値３５０ａ（またはその一連）と、エネルギー特徴値３５２ａ（またはその一連）と、スペクトル重心特徴値３５４ａ（またはその一連）を、線形および／または非線形に重み付けする方法で結合し、サブバンド信号２１８ａ、２１８ｂ、２１８ｃ、２１８ｄ（または、少なくともサブバンドの１つ）を重み付けするためのゲイン値２２２を取得するように構成することができる。

周囲信号を抽出する装置 − 第４実施態様
以下に、図４を参照して、装置３００の可能な拡張を述べる。しかしながら、図４を参照して記載されるコンセプトは、図３に示される構成と独立して用いることもできる。

図４は、周囲信号を抽出する装置のブロック構成図を示す。図４に示される装置は、全体として４００で表される。装置４００は、入力信号として、マルチチャンネル入力オーディオ信号４１０を受信するように構成される。加えて、装置４００は、マルチチャンネル入力オーディオ信号４１０に基づいて、少なくとも１つの重み付けられたサブバンド信号４１２を提供するように構成される。

装置４００は、ゲイン値決定部４２０を備える。ゲイン値決定部４２０は、マルチチャンネル入力オーディオ信号の第１チャンネル４１０ａと第２チャンネル４１０ｂを記述する情報を受信するように構成される。さらに、ゲイン値決定部４２０は、マルチチャンネル入力オーディオ信号の第１チャンネル４１０ａと第２チャンネル４１０ｂを記述する情報に基づいて、一連の時間変化する周囲信号のゲイン値４２２を提供するように構成される。時間変化する周囲信号のゲイン値４２２は、例えば、時間変化するゲイン値２２２と等価とすることができる。

さらに、装置４００は、マルチチャンネル入力オーディオ信号４１０を記述する少なくとも１つのサブバンド信号を、時間変化する周囲信号のゲイン値４２２に従って重み付けするように構成された重み付け部４３０を備える。

重み付け部４３０は、例えば、重み付け部１３０、または、個別重み付け部２７０ａ、２７０ｂ、２７０ｃの機能を備えることができる。

ここでゲイン値決定部４２０を参照すると、ゲイン値決定部４２０は、例えば、ゲイン値決定部１２０、ゲイン値決定部２２０またはゲイン値決定部３２０について、１つ以上の定量的チャンネル関連性特徴値を取得するように構成されるという点で拡張することができる。言い換えれば、ゲイン値決定部４２０は、マルチチャンネル入力信号４１０の２つ以上のチャンネル間の関連性を記述する１つ以上の定量的特徴値を取得するように構成することができる。

例えば、ゲイン値決定部４２０は、マルチチャンネル入力オーディオ信号４１０の２つのチャンネル間の相関を記述する情報を取得するように構成することができる。代わりに、または加えて、ゲイン値決定部４２０は、マルチチャンネル入力オーディオ信号４１０の第１チャンネルと入力オーディオ信号４１０の第２チャンネルの信号強度の関連性を記述する定量的特徴値を取得するように構成することができる。

いくつかの実施形態では、ゲイン値決定部４２０は、１つ以上のチャンネル関連性特徴を記述する１つ以上の特徴値（または一連の特徴値）を提供するように構成された１つ以上のチャンネル関連性ゲイン値決定部を備えることができる。いくつかの他の実施形態では、チャンネル関連性特徴値決定部は、ゲイン値決定部４２０の外部にあってもよい。

いくつかの実施形態では、ゲイン値決定部は、例えば、異なるチャンネル関連性特徴を記述する１つ以上の定量的チャンネル関連性特徴値を、重み付け方法において結合することでゲイン値を決定するように構成することができる。いくつかの実施形態では、ゲイン値決定部４２０は、一連の時間変化する周囲信号のゲイン値４２２を、１つ以上の定量的チャンネル関連性特徴値のみに基づいて、例えば、定量的な単一チャンネル特徴値を考慮せずに、決定するように構成することができる。しかしながら、いくつかの他の実施形態では、ゲイン値決定部４２０は、例えば、１つ以上の定量的チャンネル関連性特徴値（１つ以上の異なるチャンネル関連性特徴を記述する）と１つ以上の定量的単一チャンネル特徴値（１つ以上の単一チャンネル特徴を記載する）を、重み付け方法において結合するように構成される。このように、いくつかの実施形態では、マルチチャンネル入力オーディオ信号４１０の単一チャンネルに基づく単一チャンネル特徴と、マルチチャンネル入力オーディオ信号４１０の２つ以上のチャンネル間の関連性を記述するチャンネル関連性特徴の両方を、時間変化する周囲信号のゲイン値を決定するために考慮することができる。

このように、本発明に係るいくつかの実施形態では、特に意味がある一連の時間変化する周囲信号のゲイン値は、単一チャンネル特徴とチャンネル関連性特徴の両方を考慮に入れることによって取得することができる。したがって、時間変化する周囲信号のゲイン値は、オーディオ信号チャンネルに対して前記ゲイン値によって重み付けするために適応することができ、その一方で、貴重な情報をさらに考慮に入れて、複数のチャンネル間の関連性の評価から取得することができる。

ゲイン値決定部の詳細
以下に、図５を参照してゲイン値決定部に関する詳細が記載される。図５は、ゲイン値決定部の詳細なブロック構成図を示す。図５に示されるゲイン値決定部は、全体として５００で表される。ゲイン値決定部５００は、例えば、本願明細書に記載されたゲイン値決定部１２０、２２０、３２０、４２０の機能を引き継ぐことができる。

非線形前処理部
ゲイン値決定部５００は、（オプションの）非線形前処理部５１０を備える。非線形前処理部５１０は、１つ以上の入力オーディオ信号の表現を受信するように構成することができる。例えば、非線形前処理部５１０は、入力オーディオ信号の時間‐周波数ドメイン表現を受信するように構成することができる。しかしながら、いくつかの実施形態では、非線形前処理部５１０は、代わりにまたは加えて、入力オーディオ信号の時間ドメイン表現を受信するように構成することができる。いくつかの更なる実施形態では、非線形前処理部は、入力オーディオ信号の第１チャンネルの表現（例えば時間ドメイン表現または時間‐周波数ドメイン表現）と、入力オーディオ信号の第２チャンネルの表現とを受信するように構成することができる。非線形前処理部は、入力オーディオ信号の１つ以上のチャンネルの前処理された表現または前処理された表現の一部（例えば、スペクトル部分）を、少なくとも第１の定量的特徴値決定部５２０に対して提供するように更に構成することができる。さらに、非線形前処理部は、入力オーディオ信号（またはその部分）の他の前処理された表現を、第２の定量的特徴値決定部５２２に対して提供するように構成することができる。第１の定量的特徴値決定部５２０に対して提供される入力オーディオ信号の表現は、第２の定量的特徴値決定部５２２に対して提供される入力オーディオ信号の表現と同一でもよく、異なっていてもよい。

しかしながら、第１の定量的特徴値決定部５２０と第２の定量的特徴値決定部は、２つ以上の特徴値決定部、例えばＫ個の特徴値決定部を表すものと見なすことができることに留意すべきである（ここで、Ｋ＞＝１またはＫ＞＝２）。言い換えれば、図５に示されるゲイン値決定部５００は、望ましくは本願明細書に記載されているように、更なる定量的特徴値決定部によって拡張することができる。

非線形前処理部の機能に関する詳細は、以下に記載される。しかしながら、前処理は、入力オーディオ信号の振幅値、エネルギー値、対数振幅値、対数エネルギー値、またはそれらのスペクトル表現、または入力オーディオ信号の他の非線形前処理、またはそのスペクトル表現の決定を備えることができることに留意すべきである。

特徴値後処理部
ゲイン値決定部５００は、第１の定量的特徴値決定部５２０から第１の特徴値（または一連の第１の特徴値）を受信するように構成された第１の特徴値後処理部５３０を備える。さらに、第２の特徴値後処理部５３２は、第２の定量的特徴値決定部５２２から第２の定量的特徴値（または一連の第２の定量的特徴値）を受信するために、第２の定量的特徴値決定部５２２に連結することができる。第１の特徴値後処理部５３０と第２の特徴値後処理部５３２は、例えば、後処理されたそれぞれの定量的特徴値を提供するように構成することができる。

例えば、特徴値後処理部は、後処理された特徴値の値の範囲が制限されるように、後処理されたそれぞれの特徴値を処理するように構成することができる。

重み付け結合部
ゲイン値決定部５００は、重み付け結合部５４０を更に備える。重み付け結合部５４０は、特徴値後処理部５３０、５３２から後処理された特徴値を受信し、それに基づいてゲイン値５６０（または一連のゲイン値）を提供するように構成される。ゲイン値５６０は、ゲイン値１２２、ゲイン値２２２、ゲイン値３２２、またはゲイン値４２２と等価でもよい。

以下に、重み付け結合部５４０に関するいくつかの詳細について述べる。いくつかの実施形態では、重み付け結合部５４０は、例えば、第１の非線形処理部５４２を備えることができる。第１の非線形処理部５４２は、例えば、第１の後処理された定量的特徴値を受信し、後処理された第１の特徴値に非線形マッピングを適用し、非線形処理された特徴値５４２ａを提供するように構成することができる。さらに、重み付け結合部５４０は、第１の非線形処理部５４２に類似するように構成することができる第２の非線形処理部５４４を備えることができる。第２の非線形処理部５４４は、後処理された第２の特徴値を非線形処理された特徴値５４４ａに対して非線形にマップするように構成することができる。いくつかの実施形態では、非線形処理部５４２、５４４によって実行される非線形マッピングのパラメータは、それぞれの係数によって調整することができる。例えば、第１の非線形重み付け係数は、第１の非線形処理部５４２のマッピングを決定するために用いることができ、第２の非線形重み付け係数は、第２の非線形処理部５４４によって実行されるマッピングを決定するために用いることができる。

いくつかの実施形態では、特徴値後処理部５３０、５３２の１つ以上を省略することができる。他の実施態様において、非線形処理部５４２、５４４の１つまたは全てを省略することができる。加えて、いくつかの実施形態では、対応する特徴値後処理部５３０、５３２および非線形処理部５４２、５４４の機能は、１つのユニットに融合することができる。

重み付け結合部５４０は、第１の重み付け部またはスケーリング部５５０を更に備える。第１の重み付け部５５０は、第１の非線形処理された定量的特徴値（または、非線形処理が省略されるケースでは、第１の定量的特徴値）５４２ａを受信し、第１の非線形に処理された定量的値を第１の線形重み付け係数によってスケーリングして第１の線形にスケーリングされた定量的特徴値５５０ａを取得するように構成される。重み付け結合部５４０は、第２の重み付け部またはスケーリング部５５２を更に備える。第２の重み付け部５５２は、第２の非線形に処理された定量的特徴値５４４ａ（または、非線形処理が省略されるケースでは、第２の定量特徴値）を受信し、前記値を第２の線形重み付け係数によってスケーリングして第２の線形にスケーリングされた定量的特徴値５５２ａを取得するように構成される。

重み付け結合部５４０は、結合部５５６を更に備える。結合部５５６は、第１の線形にスケーリングされた定量的特徴値５５０ａと第２の線形にスケーリングされた定量的特徴値５５２ａを受信するように構成される。結合部５５６は、前記値に基づいて、ゲイン値５６０を提供するように構成される。例えば、結合部５５６は、第１の線形にスケーリングされた定量的特徴値５５０ａと第２の線形にスケーリングされた定量的特徴値５５２ａの線形結合（例えば、総和または平均化操作）を実行するように構成することができる。

上記を要約すると、ゲイン値決定部５００は、複数の定量的特徴値決定部５２０、５２２によって決定された定量的特徴値の線形結合を提供するように構成することができる。重み付けられた線形結合の前に、例えば値の範囲を制限するため、および／または、小さい値と大きい値の相対的な重み付けを修正するために、定量的特徴値に関して１つ以上の非線形後処理ステップを実行することができる。

図５に示されたゲイン値決定部５００の構造は、理解を容易にするためにのみ例示されたものとみなすべきであることに留意すべきである。しかしながら、ゲイン値決定部５００のブロックの機能のいずれも、異なる回路構成において実現することができる。例えば、機能のいくつかは、単一ユニットに結合することができる。加えて、図５に関して記載された機能は、共用ユニットによって実行することができる。例えば、単一の特徴値後処理部は、例えば時分割方法において、複数の定量的特徴値決定部によって提供される特徴値の後処理を実行するために用いることができる。同様に、非線形処理部５４２、５４４の機能は、時分割方法において、単一の非線形処理部によって実行することができる。加えて、単一の重み付け部は、重み付け部５５０、５５２の機能を果たすために用いることができる。

いくつかの実施形態では、図５に関して記載された機能は、シングルタスクまたはマルチタスクのコンピュータプログラムによって実行することができる。言い換えれば、いくつかの実施形態では、所望の機能が得られる限り、ゲイン値決定部を実現するために完全に異なる回路トポロジーを選ぶことができる。

直接信号抽出
以下において、入力オーディオ信号からの周囲信号と正面信号（「直接信号」とも称される）の両方の効率的な抽出に関して、いくつかの詳細が記載される。この目的のため、図６は、本発明に係る実施形態による重み付け部または重み付けユニットのブロック構成図を示す。図６に示される重み付け部または重み付けユニットは、全体として６００で表される。

重み付け部または重み付けユニット６００は、例えば、個別重み付け部２７０ａ、２７０ｂ、２７０ｃまたは重み付け部４３０の位置をとることができる。

重み付け部６００は、入力オーディオ信号６１０の表現を受信し、周囲信号６２０と正面信号または非周囲信号または「直接信号」６３０の両方の表現を提供するように構成される。いくつかの実施形態では、重み付け部６００が入力オーディオ信号６１０の時間‐周波数ドメイン表現を受信し、周囲信号６２０と正面信号または非周囲信号６３０の時間‐周波数ドメイン表現を提供するように構成することができることに留意すべきである。

しかしながら、もちろん、重み付け部６００は、必要に応じて、時間ドメイン入力オーディオ信号を時間‐周波数ドメイン表現に変換する時間ドメインから時間‐周波数ドメインへの変換部、および／または、時間ドメイン出力信号を提供する１つ以上の時間‐周波数ドメインから時間ドメインへの変換部を備えることもできる。

重み付け部６００は、例えば、入力オーディオ信号６１０の表現に基づいて周囲信号６２０の表現を提供するように構成された周囲信号重み付け部６４０を備えることができる。加えて、重み付け部６００は、入力オーディオ信号６１０の表現に基づいて正面信号６３０の表現を提供するように構成された正面信号重み付け部６５０を備えることができる。

重み付け部６００は、一連の周囲信号ゲイン値６６０を受信するように構成される。オプションとして、重み付け部６００は、一連の正面信号ゲイン値を受信するように構成することもできる。しかしながら、いくつかの実施形態では、重み付け部６００は、以下に述べるように、一連の周囲信号ゲイン値から一連の正面信号ゲイン値を導き出すように構成することができる。

周囲信号重み付け部６４０は、例えば１つ以上の重み付けられたサブバンド信号の形で周囲信号６２０の表現を取得するために、周囲信号ゲイン値に従って、入力オーディオ信号の１つ以上の周波数バンド（例えば１つ以上のサブバンド信号によって表すことができる）を重み付けするように構成される。同様に、正面信号重み付け部６５０は、例えば１つ以上の重み付けられたサブバンド信号の形で正面信号６３０の表現を取得するために、例えば１つ以上のサブバンド信号に関して表すことができる入力オーディオ信号６１０の１つ以上の周波数バンドまたは周波数サブバンドを重み付けするように構成される。

しかしながら、いくつかの実施形態では、周囲信号重み付け部６４０と正面信号重み付け部６５０は、周囲信号６２０の表現および正面信号６３０の表現を生成するための補完的方法として、所定の周波数バンドまたは周波数サブバンド（例えば、サブバンド信号によって表された）を重み付けするように構成することができる。例えば、特定の周波数バンドの周囲信号ゲイン値が、その特定の周波数バンドが周囲信号に比較的高い重みを与えられるべきことを示している場合に、入力オーディオ信号６１０の表現から周囲信号６２０の表現を導き出すときにその特定の周波数バンドは比較的高く重み付けされ、入力オーディオ信号６１０の表現から正面信号６３０の表現を導き出すときにその特定の周波数バンドは比較的低く重み付けされる。同様に、周囲信号ゲイン値が、その特定の周波数バンドが周囲信号に比較的低い重みを与えられるべきことを示している場合に、入力オーディオ信号６１０の表現から周囲信号６２０の表現を導き出すときにその特定の周波数バンドは低い重みが与えられ、入力オーディオ信号６１０の表現から正面信号６３０の表現を導き出すときにその特定の周波数バンドは比較的高い重みが与えられる。

いくつかの実施形態では、重み付け部６００は、このように、周囲信号ゲイン値６６０に基づいて、正面信号ゲイン値６５２が周囲信号ゲイン値６６０の減少によって増加するように、正面信号重み付け部６５０のための正面信号ゲイン値６５２を取得し、かつその逆も同じであるように構成することができる。

したがって、いくつかの実施形態では、周囲信号６２０と正面信号６３０は、周囲信号６２０と正面信号６３０のエネルギーの合計が入力オーディオ信号６１０のエネルギーに等しい（または比例する）ように、生成することができる。

後処理
ここで、図７を参照して、例えば１つ以上の重み付けられたサブバンド信号１１２、２１２ａ〜２１２ｂ、４１４に適用することができる後処理が記載される。

この目的のため、図７は、本発明に係る実施形態による後処理部のブロック構成図を示す。図７に示される後処理部は、全体として７００で表される。

後処理部７００は、入力信号として、１つ以上の重み付けられたサブバンド信号７１０またはそれに基づく信号（例えば、１つ以上の重み付けられたサブバンド信号に基づく時間ドメイン信号）を受信するように構成される。後処理部７００は、出力信号として後処理された信号７２０を提供するように更に構成される。ここで、後処理部７００はオプションであるとみなすべきことに留意すべきである。

いくつかの実施形態では、後処理部は、例えば、カスケード接続することができる、１つ以上の以下のような機能ユニットを備えることができる。
・選択減衰部７３０
・非線形圧縮部７３２
・遅延部７３４
・音色呈色補償部７３６
・過渡状態低減部７３８
・信号非相関化部７４０

後処理部７００の可能な構成要素の機能に関する詳細は後述される。

しかしながら、後処理部の機能の１つ以上は、ソフトウェアによって実現されることがあり得ることに留意すべきである。加えて、後処理部７００の機能のいくつかは、結合された方法で実行することができる。

ここで、図８ａおよび８ｂの参照をして、異なる後処理コンセプトが記載される。

図８は、時間ドメイン後処理を実行する回路部のブロック構成図を示す。図８ａに示される回路部は、全体として８００で表される。回路部８００は、例えば、合成フィルタバンク８１０の形で、時間‐周波数ドメインから時間ドメインへの変換部を備える。合成フィルタバンク８１０は、例えば、重み付けられたサブバンド信号１１２、２１２ａ〜２１２ｄ、４１２に基づいているまたは同一の、複数の重み付けられたサブバンド信号８１２を受信するように構成される。合成フィルタバンク８１０は、周囲信号の表現として、時間ドメイン周囲信号８１４を提供するように構成される。さらに、回路部８００は、合成フィルタバンク８１０から時間ドメイン周囲信号８１４を受信するように構成された時間ドメイン後処理部８２０を備えることができる。加えて、時間ドメイン後処理部８２０は、例えば図７に示された後処理部７００の機能の１つ以上を実行するように構成することができる。従って、後処理部８２０は、出力信号として、後処理された周囲信号の表現とみなすことができる後処理された時間ドメイン周囲信号８２２を提供するように構成することができる。

上記を要約すると、いくつかの実施形態では、後処理は、適当な場合には、時間ドメインにおいて実行することができる。

図８ｂは、本発明に係る他の実施形態による回路部のブロック構成図を示す。図８ｂに示される回路部は、全体として８５０で表される。回路部８５０は、１つ以上の重み付けられたサブバンド信号８６２を受信するように構成された周波数ドメイン後処理部８６０を備える。例えば、周波数ドメイン後処理部８６０は、重み付けられたサブバンド信号１１２、２１２ａ〜２１２ｄ、４１２の１つ以上を受信するように構成することができる。
さらに、周波数ドメイン後処理部８１６は、後処理部７００の機能の１つ以上を実行するように構成することができる。周波数ドメイン後処理部８６０は、１つ以上の後処理された重み付けられたサブバンド信号８６４を提供するように構成することができる。周波数ドメイン後処理部８６０は、重み付けられたサブバンド信号８６２の１つ以上を個別に処理するように構成することができる。あるいは、周波数ドメイン後処理部８６０は、複数の重み付けられたサブバンド信号８６２を一緒に後処理するように構成することができる。回路部８５０は、複数の後処理された重み付けられたサブバンド信号８６４を受信し、それに基づいて後処理された時間ドメイン周囲信号８７２を提供するように構成された合成フィルタバンク８７０を更に備える。

上記を要約すると、後処理は、要求に応じて、図８ａに示されたような時間ドメインにおいて、または、図８ｂに示されたような時間‐周波数ドメインにおいて、実行することができる。

特徴値決定
図９は、特徴値を取得するための異なるコンセプトの図解表現を示す。図９の図解表現は、全体として９００で表される。

図解表現９００は、入力オーディオ信号の時間‐周波数ドメイン表現を示す。時間‐周波数ドメイン表現９１０は、時間指標τと周波数指標ωの上の２次元表現の形で複数の時間‐周波数ビンを示しており、そのうちの２つは、９１２ａ、９１２ｂで表される。

時間‐周波数ドメイン表現９１０は、いかなる適切な形でも、例えば複数のサブバンド信号（例えば各周波数バンドの１つ）の形で、または、コンピュータシステムの処理のためのデータ構造の形で表すことができる。ここで、この種の時間‐周波数分布を表したいかなるデータ構造も、１つ以上のサブバンド信号の表現であるとみなされることに留意すべきである。言い換えれば、入力オーディオ信号の周波数サブバンドの強度（例えば、振幅またはエネルギー）の時間進化を表したいかなるデータ構造も、サブバンド信号とみなされる。

このように、オーディオ信号の周波数サブバンドの強度の時間進化を表したデータ構造を受信することは、サブバンド信号を受信することとみなされる。

図９を参照して、異なる時間‐周波数ビンに関連づけられた特徴値を演算できることが分かる。例えば、いくつかの実施形態では、異なる時間‐周波数ビンに関連づけられた異なる特徴値を演算し、結合することができる。例えば、異なる周波数の同時刻の時間‐周波数ビン９１４ａ、９１４ｂ、９１４ｃに関連づけられた周波数特徴値を演算することができる。いくつかの実施形態では、異なる周波数バンドの同一の特徴を記述するこれらの（異なる）特徴値は、例えば、結合部９３０において結合することができる。したがって、重み付け結合部において更に処理する（例えば、他の個別のまたは結合された特徴値と結合する）ことができる結合特徴値９３２を取得することができる。いくつかの実施形態では、同じ周波数バンド（または周波数サブバンド）の次の時間‐周波数ビン９１６ａ、９１６ｂ、９１６ｃに関連づけられた複数の特徴値を演算することができる。次の時間‐周波数ビンの同一の特徴を記述するこれらの特徴値は、例えば、結合部９４０において結合することができる。したがって、結合された特徴値９４２を取得することができる。

上記を要約すると、いくつかの実施形態では、異なる時間‐周波数ビンに関連づけられた同じ特徴を記述する複数の個別の特徴値を結合することは望ましい。例えば、同時刻の時間‐周波数ビンに関連づけられた個別の特徴値、および／または、次の時間‐周波数ビンに関連づけられた個別の特徴値を結合することができる。

周囲信号を抽出する装置 − 第５実施形態
以下に、他の実施形態による周囲抽出部が、図１０、１１、１２を参照して記載される。

アップミックスの概要
図１０は、アップミックス処理のブロック図を示す。例えば、図１０は、周囲信号抽出部のブロック構成図と解釈することができる。あるいは、図１０は、入力オーディオ信号から周囲信号を抽出する方法のフローチャートと解釈することができる。

図１０から分かるように、周囲信号「ａ」（または複数の周囲信号）と正面信号「ｄ」（または複数の正面信号）は、入力信号「ｘ」から演算され、サラウンドサウンド信号の適当な出力チャンネルに送られる。出力チャンネルは、５．０サラウンドサウンドフォーマットにアップミックスする実施例を例示するために表されている。ＳＬは左側のサラウンドチャンネルを示し、ＳＲは右側のサラウンドチャンネルを示し、ＦＬは左側正面のチャンネルを示し、Ｃは中心チャンネルを示し、ＦＲは右側正面チャンネルを示す。

言い換えれば、図１０は、例えば１つまたは２つのチャンネルのみを含む入力信号に基づく、例えば５つのチャンネルを含むサラウンド信号の生成を記載する。周囲抽出１０１０は、入力信号ｘに適用される。周囲抽出１０１０によって提供される信号は、後処理１０２０（ここで、例えば、入力信号ｘの周囲らしい成分は、非周囲らしい成分に対して強調することができる）に供給される。後処理１０２０の結果として、１つ以上の周囲信号が取得される。従って、１つ以上の周囲信号は、左側のサラウンドチャンネル信号ＳＬと右側のサラウンドチャンネル信号ＳＲとして提供することができる。

入力信号ｘは、１つ以上の正面信号ｄを取得するために、正面信号抽出１０３０にも供給することができる。１つ以上の正面信号ｄは、例えば、左側正面チャンネル信号ＦＬと、中心チャンネル信号Ｃと、右側正面チャンネル信号ＦＲとして提供することができる。

しかしながら、周囲抽出と正面信号抽出は、例えば、図６を参照して記載されたコンセプトを用いて、連結することができることに留意すべきである。

さらに、異なるアップミックス構成を選択することができることに留意すべきである。例えば、入力信号ｘは、単一のチャンネル信号でも、または、マルチチャンネル信号でもよい。加えて、可変数の出力信号を提供することができる。例えば、非常に単純な実施形態では、正面信号抽出１０３０は、１つ以上の周囲信号のみを生成するように、省略することができる。例えば、いくつかの実施形態では、単一の周囲信号を提供すれば十分である。しかしながら、いくつかの実施形態では、例えば、少なくとも部分的に非相関化された、２つまたはさらにそれ以上の周囲信号を提供することができる。

加えて、入力信号ｘから抽出される正面信号の数は、アプリケーションに依存することができる。いくつかの実施形態では正面信号の抽出は省略することさえできるが、いくつかの他の実施形態において複数の正面信号を抽出することができる。例えば、３つの正面信号の抽出を実行することができる。いくつかの他の実施形態では、５つ以上の正面信号さえ抽出することができる。

周囲抽出
以下に、周囲抽出に関する詳細が、図１１を参照して記載される。図１１は、周囲信号の抽出と正面信号の抽出のための処理のブロック図を示す。図１１に示されるブロック図は、周囲信号を抽出する装置のブロック構成図、または、周囲信号を抽出する方法のフローチャート表現とみなすことができる。

図１１のブロック図は、入力信号ｘの時間‐周波数ドメイン表現の生成１１１０を示す。例えば、入出力信号ｘの１番目の周波数バンドまたは周波数サブバンドは、サブバンドデータ構造またはサブバンド信号Ｘ₁によって表すことができる。入出力信号ｘのＮ番目の周波数バンドまたは周波数サブバンドは、サブバンドデータ構造またはサブバンド信号Ｘ_Nによって表すことができる。

時間ドメインから時間‐周波数ドメインへの変換１１１０は、入力オーディオ信号の異なる周波数バンドの強度を記述する複数の信号を提供する。例えば、信号Ｘ₁は、入力オーディオ信号の１番目の周波数バンドまたは周波数サブバンドの強度（および、オプションとして、付加的位相情報）の時間進化を表すことができる。信号Ｘ₁は、例えば、アナログ信号として、または、一連の値（それは、例えば、データキャリアに記憶することができる）として表すことができる。同様に、Ｎ番目の信号Ｘ_Nは、入力オーディオ信号のＮ番目の周波数バンドまたは周波数サブバンドの強度を記載する。信号Ｘ₁は１番目のサブバンド信号としても示すことができ、信号Ｘ_NはＮ番目のサブバンドとして示すことができる。

図１１に示される処理は、第１のゲイン演算１１２０と第２のゲイン演算１１２２を更に備える。ゲイン演算１１２０、１１２２は、例えば、本願明細書に記載されたような、それぞれのゲイン値決定部を用いて実現することができる。ゲイン演算は、図１１に示すように、例えば、周波数サブバンドのために個別に実行することができる。しかしながら、いくつかの他の実施形態では、ゲイン演算は、サブバンド信号のグループのために実行することができる。加えて、ゲイン演算１１２０、１１２２は、１つのサブバンドに基づいて、または、サブバンドのグループに基づいて実行することができる。図１１から分かるように、１番目のゲイン演算１１２０は、１番目のサブバンド信号Ｘ₁を受信し、１番目のゲイン値ｇ₁を提供するために構成され、実行される。第２のゲイン演算１１２２は、Ｎ番目のゲイン値ｇ_Nを提供するために、Ｎ番目のサブバンド信号Ｘ_Nに基づいて構成されるかまたは実行される。図１１に示される処理は、第１の乗算またはスケーリング１１３０と、第２の乗算またはスケーリング１１３２をも備える。第１の乗算１１３０において、１番目のサブバンド信号Ｘ₁は第１のゲイン演算１１２０によって提供される１番目のゲイン値ｇ₁によって乗算され、重み付けられた１番目のサブバンド信号をもたらす。さらに、Ｎ番目のサブバンド信号Ｘ_Nは、Ｎ番目の重み付けられたのサブバンド信号を取得するために、第２の乗算１０３２においてＮ番目のゲイン値ｇ_Nによって乗算される。

処理１１００は、オプションとして、後処理されたサブバンド信号Ｙ₁−Ｙ_Nを取得するために、重み付けられたサブバンド信号の後処理１１４０を更に備える。さらに、図１１に示された処理は、オプションとして、例えば、合成フィルタバンクを用いて遂行することができる、時間‐周波数ドメインから時間ドメインへの変換１１５０を備える。このように、入力オーディオ信号ｘの周囲成分の時間ドメイン表現ｙは、入力オーディオ信号の周囲成分の時間‐周波数ドメイン表現Ｙ₁−Ｙ_Nに基づいて取得される。

しかしながら、乗算１１３０、１１３２によって提供された重み付けられたサブバンド信号は、図１１に示される処理の出力信号として役立つことにも留意すべきである。

ゲイン値決定
以下に、ゲイン演算処理が、図１２の参照をして記載される。図１２は、低レベル特徴抽出を用いた周囲信号抽出処理と正面信号抽出処理の、１つのサブバンドのためのゲイン演算処理のブロック図を示す。異なる低レベル特徴（例えば、ＬＬＦ１からＬＬＦｎで表される）は、入力信号ｘから演算される。ゲイン係数（例えばｇで表される）は、低レベル特徴の関数として、（例えば結合部を用いて）演算される。

図１２を参照して、複数の低レベル特徴演算が示される。例えば、１番目の低レベル特徴演算１２１０とｎ番目の低レベル特徴演算１２１２が、図１２に示した実施形態において用いられる。低レベル特徴演算１２１０、１２１２は、入力信号ｘに基づいて実行される。例えば、低レベル特徴の算出または決定は、時間ドメイン入力オーディオ信号に基づいて実行することができる。しかしながら、代わりに、低レベル特徴の演算または決定は、１つ以上のサブバンド信号Ｘ₁−Ｘ_Nに基づいて実行することができる。さらに、低レベル特徴の演算または決定１２１０、１２１０から取得される特徴値（例えば定量的特徴値）は、結合部１２２０（例えば重み付け結合部でもよい）を用いて結合することができる。このように、ゲイン値ｇは、低レベル特徴決定または低レベル特徴算出１２１０、１２１２の結果の結合に基づいて取得することができる。

重み付け係数を決定するコンセプト
以下に、複数の特徴を重み付けする重み付け係数を取得し、特徴値の重み付けられた結合としてゲイン値を取得するコンセプトが、記載されている。

重み付け係数を決定する装置 − 第１実施形態
図１３は、重み付け係数を取得する装置のブロック構成図を示す。図１３に示される装置は、全体として１３００で表される。

装置１３００は、ベース信号１３１２を受信し、それに基づいて係数決定信号１３１４を提供するように構成された係数決定信号生成部１３１０を備える。係数決定信号生成部１３１０は、周囲成分および／または非周囲成分および／または周囲成分と非周囲成分の関連性に関する係数決定信号１３１４の特性が知られるように、係数決定信号１３１４を提供するように構成される。いくつかの実施形態では、周囲成分または非周囲成分に関するこの種の情報の推定が知られている場合は、それで充分である。

例えば、係数決定信号生成部１３１０は、係数決定信号１３１４に加えて、予測ゲイン値情報１３１６を提供するように構成することができる。予測ゲイン値情報１３１６は、例えば、係数決定信号１３１４の周囲成分と非周囲成分の関連性を直接または間接に記述する。言い換えれば、予測ゲイン値情報１３１６は、係数決定信号の特性に関係した周囲信号を記述するサイド情報とみなすことができる。例えば、予測ゲイン値情報は、係数決定オーディオ信号のなかの（例えば、係数決定オーディオ信号の複数の時間‐周波数ビンに対する）周囲成分の強度を記述することができる。あるいは、予測ゲイン値情報は、係数決定オーディオ信号のなかの非周囲成分の強度を記述することができる。いくつかの実施形態では、予測ゲイン値情報は、周囲成分と非周囲成分の強度の比率を記述することができる。いくつかの他の実施形態では、予測ゲイン値情報は、周囲成分の強度と総合信号強度（周囲成分および非周囲成分）の関連性、または、非周囲成分の強度と総合信号強度の関連性を記述することができる。しかしながら、上述した情報から導き出される他の情報を予測ゲイン値情報として提供することができる。例えば、以下に定義されるＲ_AD（ｍ，ｋ）の推定、または、Ｇ（ｍ，ｋ）の推定は、予測ゲイン値情報として取得することができる。

装置１３００は、係数決定信号１３１４の特徴を定量的方法で記述する複数の定量的特徴値１３２２、１３２４を提供するように構成された定量的特徴値決定部１３２０を更に備える。

装置１３００は、例えば、定量的特徴値決定部１３２０によって提供された予測ゲイン値情報１３１６と複数の定量的特徴値１３２２、１３２４とを受信するように構成することができる重み付け係数決定部１３３０を更に備える。

重み付け係数決定部１３３０は、以下において詳細に記載されるように、予測ゲイン値情報１３１６と定量的特徴値１３２２、１３２４に基づいて重み付け係数１３３２のセットを提供するように構成される。

重み付け係数決定部 − 第１実施形態
図１４は、本発明に係る実施形態による重み付け係数決定部のブロック構成図を示す。

重み付け係数決定部１３３０は、予測ゲイン値情報１３１６と複数の定量的特徴１３２２、１３２４を受信するように構成される。しかしながら、いくつかの実施形態では、定量的特徴値決定部１３２０は、重み付け係数決定部１３３０の一部とすることができる。さらに、重み付け係数決定部１３３０は、重み付け係数１３３２を提供するように構成される。

重み付け係数決定部１３３０の機能に関して、重み付け係数決定部１３３０は、（入力オーディオ信号とみなすことができる係数決定信号１３１４の複数の特徴を記述する）複数の定量的特徴値１３２２、１３２４の、重み付け係数１３３２を用いて重み付けられた結合に基づいて取得されたゲイン値が、係数決定オーディオ信号に関連づけられたゲイン値を近似するように、重み付け係数１３３２を決定するように構成されると一般的に言うことができる。予測ゲイン値は、例えば、予測ゲイン値情報１３１６から導き出すことができる。

言い換えれば、重み付け係数決定部は、例えば、どの重み付け係数が定量的特徴値１３２２、１３２４を重み付けするために必要であるかを、重み付けの結果が予測ゲイン値情報１３１６によって記述された予測ゲイン値を近似するように、決定するように構成することができる。

言い換えれば、重み付け係数決定部は、例えば、重み付け係数１３３２によって構成されたゲイン値決定部が予測ゲイン値情報１３１６によって記述された予測ゲイン値から予め定められた最大許容偏差を超えて逸脱しないゲイン値を提供するように、重み付け係数１３３２を決定するように構成することができる。

重み付け係数決定部 − 第２実施形態
以下に、重み付け係数決定部１３３０を実現するいくつかの特定の可能性が記載される。

図１５ａは、本発明に係る実施形態による重み付け係数決定部のブロック構成図を示す。図１５ａに示される重み付け係数決定部は、全体として１５００で表される。

重み付け係数決定部１５００は、例えば、重み付け結合部１５１０を備える。重み付け結合部１５１０は、例えば、複数の定量的特徴値１３２２、１３２４と重み付け係数１３３２のセットを受信するように構成することができる。さらに、重み付け結合部１５１０は、例えば、定量的特徴価値１３２２、１３２４を重み付け係数１３３２に従って結合することによって、ゲイン値１５１２（またはその一連）を提供するように構成することができる。例えば、重み付け結合部１５１０は、重み付け結合部２６０のような、類似のまたは同一の重み付けを実行するように構成することができる。いくつかの実施形態では、重み付け結合部２６０は、重み付け結合部１５１０を実現するためにさえ用いることができる。このように、重み付け結合部１５１０は、ゲイン値１５１２（またはその一連）を提供するように構成される。

重み付け係数決定部１５００は、類似性決定部または差異決定部１５２０を更に備える。類似性決定部または差異決定部１５２０は、例えば、予測ゲイン値を記述する予測ゲイン値情報１３１６と、重み付け結合部１５１０によって提供されたゲイン値１５１２を受信するように構成することができる。類似性決定部／差異決定部１５２０は、例えば、情報１３１６によって記述された予測ゲイン値と重み付け結合部１５１０によって提供されたゲイン値１５１２との類似性を、例えば定性的または定量的に記述する類似性尺度１５２２を決定するように構成することができる。あるいは、類似性決定部／差異決定部１５２０は、その間の偏差を記述する偏差尺度を提供するように構成することができる。

重み付け係数決定部１５００は、類似性情報１５２２を受信し、それに基づいて重み付け係数１３３２を変更する必要があるかどうか、または、重み付け係数１３３２が一定に保たれるべきかどうかを決定するように構成された重み付け係数調整部１５３０を備える。例えば、類似性決定部／差異決定部１５２０によって提供された類似性情報１５２２が、ゲイン値１５１２と予測ゲイン値１３１６との差分または偏差が予め定められた偏差閾値以下であることを示す場合に、重み付け係数調整部１５３０は、重み付け係数１３３２が適切に選択され、維持すべきであることを認識することができる。しかしながら、類似性情報１５２２が、ゲイン値１５１２と予測ゲイン値１３１６との差分または偏差が予め定められた閾値より大きいことを示す場合に、重み付け係数調整部１５３０は、ゲイン値１５１２と予測ゲイン値１３１６との差分の縮小を目的として、重み付け係数１３３２を変更することができる。

ここで、重み付け係数１３３２の調整のための異なるコンセプトが可能であることに留意すべきである。例えば、この目的のために、勾配降下コンセプトを用いることができる。あるいは、重み付け係数のランダム変更を実行することもできる。いくつかの実施形態では、重み付け係数調整部１５３０は、最適化機能を実行するように構成することができる。最適化は、例えば、反復アルゴリズムに基づくことができる。

上記を要約すると、いくつかの実施形態では、フィードバックループまたはフィードバックコンセプトを、重み付け結合部１５１０によって取得されたゲイン値１５１２と予測ゲイン値１３１６との十分小さな差分という結果となる重み付け係数１３３２を決定するために用いることができる。

重み付け係数決定部 − 第３実施形態
図１５ｂは、重み付け係数決定部の他の実現方法のブロック構成図を示す。図１５ｂに示される重み付け決定部は、全体として１５５０で表される。

重み付け係数決定部１５５０は、連立方程式解法部１５６０または最適化問題解法部１５６０を備える。連立方程式解法部または最適化問題解法部１５６０は、g_expectedと示すことができる予測ゲイン値を記述する情報１３１６を受信するように構成される。連立方程式解法部／最適化問題解法部１５６０は、複数の定量的特徴値１３２２、１３２４を受信するように更に構成することができる。連立方程式解法部／最適化問題解法部１５６０は、重み付け係数１３３２のセットを提供するように構成することができる。

連立方程式解法部１５６０によって受信された定量的特徴値をｍ_iで表し、更に、重み付け係数を例えばα_iとβ_iで表したとき、連立方程式解法部は、例えば、次の形の非線形連立方程式を解くように構成することができる。

ここで、ｌ＝１，…，Ｌ

g_expected,lは、指標ｌを有する時間‐周波数ビンの予測ゲイン値を示す。ｍ_l,iは、指標ｌを有する時間‐周波数ビンのｉ番目の特徴値を示す。複数のＬ時間‐周波数ビンは、連立方程式を解くために考慮することができる。

したがって、線形重み付け係数α_iと非線形重み付け係数（または指数重み付け係数）β_iは、連立方程式を解くことによって決定することができる。

代替実施形態では、最適化を実行することができる。例えば、以下の式で決定される値は、適当な重み付け係数のセットα_i、β_iを決定することによって最小化することができる。

ここで、( )は、予測ゲイン値と重み付け特徴値ｍ_l,iによって取得されたゲイン値との差分ベクトルを示す。差分ベクトルのエントリーは、指標ｌ＝１…Ｌで表される異なる時間‐周波数ビンに関係づけることができる。|| ||は、数学的距離尺度、例えば数学的なベクトルノルムを示す。

言い換えれば、重み付け係数は、予測ゲイン値と定量的特徴値１３２２、１３２４の重み付け結合から取得されたゲイン値との差分が最小化されるように、決定することができる。しかしながら、用語「最小化される」は、ここで、あまり厳しい方法で考慮されるべきでないことに留意されたい。むしろ、用語「最小化する」は、差分が特定の閾値以下となることを表す。

重み付け係数決定部 − 第４実施態様
図１６は、本発明に係る実施形態による他の重み付け係数決定部のブロック構成図を示す。図１６に示される重み付け係数決定部は、全体として１６００で表される。

重み付け係数決定部１６００は、ニューラルネット１６１０を備える。ニューラルネット１６１０は、例えば、複数の定量的特徴値１３２２、１３２４だけでなく、予測ゲイン値を記述する情報１３１６を受信するように構成することができる。さらに、ニューラルネット１６１０は、例えば、重み付け係数１３３２を提供するように構成することができる。例えば、ニューラルネット１６１０は、定量的特徴値１３２２、１３２４の重み付けに適用されるときに、予測ゲイン値情報１３１６によって記述された予測ゲイン値に十分に類似するゲイン値に結果としてなる重み付け係数を学習するように構成することができる。

更なる詳細は、引き続いて記載される。

重み付け係数を決定する装置 − 第２実施形態
図１７は、本発明に係る実施形態による重み付け係数を決定する装置のブロック構成図を示す。図１７に示される装置は、図１３に示された装置と類似する。したがって、同一の手段および信号は、同一の参照番号で表される。

図１７に示される装置１７００は、ベース信号１３１２を受信するように構成することができる係数決定信号生成部１３１０を備える。実施形態では、係数決定信号生成部１３１０は、係数決定信号１３１４を取得するために、ベース信号１３１２に周囲信号を加算するように構成することができる。係数決定信号１３１４は、例えば、時間ドメイン表現で、または、時間‐周波数ドメイン表現で提供することができる。

係数決定信号生成部は、予測ゲイン値を記述する予測ゲイン値情報１３１６を提供するように更に構成することができる。例えば、係数決定信号生成部１３１０は、ベース信号への周囲信号の加算に関する内部知識に基づいて予測ゲイン値情報を提供するように構成することができる。

オプションとして、装置１７００は、時間‐周波数ドメイン表現の係数決定信号１３１８を提供するように構成することができる、時間ドメインから時間‐周波数ドメインへの変換部１３１６を更に備えることができる。さらに、装置１７００は、例えば、第１の定量的特徴値決定部１３２０ａと第２の定量的特徴値決定部１３２０ｂを備えることができる定量的特徴値決定部１３２０を備える。このように、定量的特徴値決定部１３２０は、複数の定量的特徴値１３２２、１３２４を提供するように構成される。

係数決定信号発生器 − 第１実施形態
以下に、係数決定信号１３１４を提供する異なるコンセプトが記載される。図１８ａ、１８ｂ、１９、２０を参照して記載されるコンセプトは、信号の時間ドメイン表現と時間‐周波数ドメイン表現の両方に適用可能である。

図１８ａは、係数決定信号生成部のブロック構成図を示す。図１８ａに示される係数決定信号生成部は、全体として１８００で表される。係数決定信号生成部１８００は、入力信号１８１０として、無視できる周囲信号成分を有するオーディオ信号を受信するように構成される。

さらに、係数決定信号生成部１８００は、オーディオ信号１８１０に基づいて人工の周囲信号を提供するように構成された人工周囲信号生成部１８２０を備えることができる。係数決定信号生成部１８００は、オーディオ信号１８１０と人工の周囲信号１８２２を受信し、係数決定信号１８３２を取得するために人工の周囲信号１８２２をオーディオ信号１８１０に加算するように構成された周囲信号加算部１８３０も備える。

さらに、係数決定信号生成部１８００は、例えば、人工の周囲信号１８２２を生成するために用いられた、または、オーディオ信号１８１０を人工の周囲信号１８２２と結合するために用いられたパラメータに基づいて、予測ゲイン値に関する情報を提供するように構成することができる。言い換えれば、人工の周囲信号の生成の様式に関する知識、および／または、人工の周囲信号とオーディオ信号１８１０との結合についての知識は、予測ゲイン値情報１８３４を取得するために用いられる。

人工周囲信号発生部１８２０は、例えば、人工の周囲信号１８２２として、オーディオ信号１８１０に基づくリバーブ信号を提供するように構成することができる。

係数決定信号生成部 − 第２実施形態
図１８ｂは、本発明に係る他の実施形態による係数決定信号生成部のブロック構成図を示す。図１８ｂに示される係数決定信号生成部は、全体として１８５０で表される。

係数決定信号生成部１８５０は、無視できる周囲信号成分を有するオーディオ信号１８６０と、加えて、周囲信号１８６２を受信するように構成される。係数決定信号生成器１８５０は、オーディオ信号１８６０（無視できる周囲信号成分を有する）を周囲信号１８６２と結合するように構成された周囲信号加算器１８７０も備える。周囲信号加算部１８７０は、係数決定信号１８７２を提供するように構成される。

さらに、無視できる周囲信号成分を有するオーディオ信号と周囲信号とは、係数決定信号生成部１８５０において絶縁された形式で利用可能であるので、予測ゲイン値情報１８７４をそこから導き出すことができる。

例えば、予測ゲイン値情報１８７４は、予測ゲイン値情報がオーディオ信号と周囲信号の振幅の比率を記述しているように導き出すことができる。例えば、予測ゲイン値情報は、係数決定信号１８７２（またはオーディオ信号１８６０）の時間‐周波数ドメイン表現の複数の時間‐周波数ビンの強度のこの種の比率を記述することができる。あるいは、予測ゲイン値情報１８７４は、複数の時間‐周波数ビンの周囲信号１８６２の強度についての情報を備えることができる。

係数決定信号生成部 − 第３実施形態
ここで、図１９、２０を参照して、予測ゲイン値情報を決定する他のアプローチについて述べる。図１９は、本発明に係る実施形態による係数決定信号生成部のブロック構成図を示す。図１９に示される係数決定信号生成部は、全体として１９００で表される。

係数決定信号生成部１９００は、マルチチャンネルオーディオ信号を受信するように構成される。例えば、係数決定信号生成部１９００は、マルチチャンネルオーディオ信号の第１チャンネル１９１０と第２チャンネル１９１２を受信するように構成することができる。さらに、係数決定信号生成部１９００は、チャンネル関連性ベースの特徴値決定部、例えば相関ベースの特徴値決定部１９２０を備えることができる。チャンネル関連性ベースの特徴値決定部１９２０は、マルチチャンネルオーディオ信号の２つ以上のチャンネルの関連性に基づく特徴値を提供するように構成することができる。

いくつかの実施形態では、この種のチャンネル関連性ベースの特徴値は、マルチチャンネルオーディオ信号の周囲成分コンテンツに関する十分に信頼性の高い情報を付加的な前知識を必要とすることなく提供することができる。このように、チャンネル関連性ベースの特徴値決定部１９２０によって取得されるマルチチャンネルオーディオ信号の２つ以上のチャンネルの関連性を記述する情報は、予測ゲイン値情報１９２２として役立つことができる。さらに、いくつか実施形態では、マルチチャンネルオーディオ信号の単一のオーディオチャンネルは、係数決定信号１９２４として用いることができる。

係数決定信号生成部 − 第４実施態様
類似のコンセプトは、図２０を参照して引き続いて記載される。図２０は、本発明に係る実施形態による係数決定信号生成部のブロック構成図を示す。図２０に示される係数決定信号生成部は、全体として２０００で表される。

係数決定信号生成部２０００は、同一の信号が同一の参照番号に表されるように、係数決定信号生成部１９００と類似する。

しかしながら、係数決定信号生成部２０００は、係数決定信号１９２４を取得するために、第１チャンネル１９１０と第２チャンネル１９１２（チャンネル関連性ベースの特徴値決定部１９２０によってチャンネル関連性ベースの特徴値を決定するために用いられる）を結合するように構成された、マルチチャンネルから単一チャンネルへの結合部２０１０を備える。言い換えれば、係数決定信号１９２４を取得するために、マルチチャンネルオーディオ信号のうちの単一チャンネル信号を用いるよりもむしろ、チャンネル信号の結合が用いられる。

図１９、２０に関して記載されたコンセプトを参照して、係数決定信号を取得するために、マルチチャンネルオーディオ信号を用いることができることに留意すべきである。典型的なマルチチャンネルオーディオ信号において、個別のチャンネル間の関連性は、マルチチャンネルオーディオ信号の周囲成分コンテンツに関する情報を提供する。したがって、マルチチャンネルオーディオ信号は、係数決定信号を取得するためと、係数決定信号を特徴づけている予測ゲイン値情報を提供するためとに用いることができる。それ故に、オーディオ信号の単一チャンネルに基づいて作動するゲイン値決定部は、ステレオ信号またはマルチチャンネルオーディオ信号の異なるタイプを用いて（例えばそれぞれの係数を決定することによって）較正することができる。このように、ステレオ信号またはマルチチャンネルオーディオ信号の異なるタイプを用いることによって、単一チャンネルオーディオ信号の処理に適用する（例えば係数を取得した後に）ことができる周囲抽出部のための係数を取得することができる。

周囲信号を抽出する方法
図２１は、入力オーディオ信号を複数の周波数バンドを記述する複数のサブバンド信号に関して表した入力オーディオ信号の時間‐周波数ドメイン表現に基づいて、周囲信号を抽出する方法のフローチャートを示す。図２１に示される方法は、全体として２１００で表される。

方法２１００は、入力オーディオ信号の１つ以上の特徴を記述する１つ以上の定量的特徴値を取得するステップ２１１０を備える。

方法２１００は、入力オーディオ信号の時間‐周波数ドメイン表現の所定の周波数バンドに対する一連の時間変化する周囲信号のゲイン値を、ゲイン値が定量的特徴値に定量的に依存するように、１つ以上の定量的特徴値の関数として決定するステップ２１２０を更に備える。

方法２１００は、時間‐周波数ドメイン表現の所定の周波数バンドを表したサブバンド信号を、時間変化するゲイン値によって重み付けするステップ２１３０を更に備える。

いくつかの実施形態では、方法２１００は、本願明細書に記載されている装置の機能を実行するために作動可能とすることができる。

重み付け係数を取得する方法
図２２は、入力オーディオ信号から周囲信号を抽出するゲイン値決定部をパラメータ化するための重み付け係数を取得する方法のフローチャートを示す。図２２に示される方法は、全体として２２００で表される。

方法２２００は、入力オーディオ信号に存在する周囲成分についての情報または周囲成分と非周囲成分の関連性を記述する情報が知れるように、係数決定入力オーディオ信号を取得するステップ２２１０を備える。

方法２２００は、係数決定入力オーディオ信号の複数の特徴を記述する複数の定量的特徴値の、重み付け係数によって重み付けられた結合に基づいて取得されたゲイン値が、係数決定入力信号に関連づけられた予測ゲイン値を近似するように、重み付け係数を決定するステップ２２２０を更に備える。

本願明細書に記載された方法は、発明の装置に関しても記載された特徴および機能のいずれかによって補充することができる。

コンピュータプログラム
発明の方法は、発明の方法の特定の実現方法の要求に応じて、ハードウェアまたはソフトウェアで実現することができる。実現方法は、電気的に読み取り可能な制御信号を有し、発明の方法が実行されるようにプログラム可能なコンピュータシステムと協働するデジタル記憶媒体、例えばフレキシブルディスク、ＤＶＤ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭまたはフラッシュメモリーを用いて実行することができる。一般に、本発明は、それ故に、機械読み取り可能なキャリアに記憶されたプログラムコードであって、コンピュータプログラム製品がコンピュータ上で動作するときに発明の方法を実行するために作動可能であるプログラムコードを有するコンピュータプログラム製品である。言い換えれば、発明の方法は、それ故に、コンピュータプログラムがコンピュータ上で動作するときに発明の方法を実行するためのプログラムコードを有するコンピュータプログラムである。

３．他の実施形態による方法の記載
３．１問題の記載
実施形態による方法は、オーディオ信号のブラインドアップミックスに適した正面信号と周囲信号の抽出を目的とする。マルチチャンネルサラウンドサウンド信号は、正面チャンネルに正面信号を供給し、後方チャンネルに周囲信号を供給することによって、得ることができる。

周囲信号抽出のさまざまな方法が既に存在する。
（１）ＮＭＦを用いる方法（２．１．３を参照）
（２）左右の入力信号の相関に依存する時間‐周波数マスクを用いる方法（２．２．４を参照）
（３）ＰＣＡとマルチチャンネル入力信号を用いる方法（２．３．２を参照）

方法（１）は、反復数値最適化法に依存するが、数秒の長さ（例えば２〜４秒）のセグメントは一度に処理される。従って、この方法は、高い演算の複雑さであり、少なくとも上述したセグメント長のアルゴリズム遅延がある。対照的に、発明の方法は、低い演算の複雑さであり、方法（１）と比較して低いアルゴリズム遅延である。

方法（２）と（３）は、入力チャンネル信号間の明瞭な差分に依存する。すなわち、これらは、すべての入力チャンネル信号が同一またはほとんど同一である場合に、適当な周囲信号を作り出さない。対照的に、発明の方法は、モノラル信号、または、同一またはほとんど同一であるマルチチャンネル信号を処理することが可能である。

要約すると、提案された方法の効果は、以下の通りである。
・低い複雑さ
・低い遅延
・ステレオ入力信号と同様に、モノラルおよびほとんどモノラルの入力信号に対して動作する

３．２方法の記載
マルチチャンネルサラウンド信号（例えば、５．１または７．１フォーマット）は、入力信号から周囲信号と正面信号を抽出することによって取得される。周囲信号は、後方チャンネルに供給される。中心チャンネルは、スイートスポットを拡大するために用いられ、正面信号またはオリジナルの入力信号を再生する。他の正面チャンネルは、正面信号またはオリジナルの入力信号を再生する（すなわち、左側正面チャンネルは、オリジナルの左側正面信号またはオリジナルの左側正面信号の処理されたバージョンを再生する）。図１０は、アップミックス処理のブロック図を示す。

周囲信号抽出は、時間‐周波数ドメインにおいて行われる。発明の方法は、各サブバンド信号の「周囲らしさ」を測定する低レベル特徴（定量的特徴値とも称される）を用いて、各サブバンド信号の時間変化する重み（ゲイン値とも称される）を演算する。これらの重みは、周囲信号を演算するために、再合成に先立って適用される。補完的な重みは、正面信号のために演算される。

周囲の典型的な特性の例は、以下の通りである。
・周囲音は直接音と比較してむしろ静かな音である
・周囲音は直接音より音色が少ない

この種の特性の検出のための適当な低レベル特徴は、３．３章に記載されている。
・エネルギー特徴は信号成分の静かさを測定する
・音調特徴は信号成分のやかましさを測定する

サブバンド指標ωと時間指標τの時間変化するゲイン係数ｇ（ω，τ）は、演算された特徴ｍ_i（ω，τ）から、例えば式（１）を用いて導き出される。

ここで、Ｋは、特徴と、異なる特徴の重み付けに用いられたパラメータα_i，β_iの数である。

図１１は、低レベル特徴抽出を用いた周囲抽出処理のブロック図を示す。入力信号ｘは、１チャンネルのオーディオ信号である。より多くのチャンネルを有する信号の処理のために、処理は各チャンネルに対して別々に適用することができる。解析フィルタバンクは、例えばＳＴＦＴ（短期間フーリエ変換）またはディジタルフィルタを用いて、入力信号をＮ周波数バンド（Ｎ＞１）に分離する。解析フィルタバンクの出力は、Ｎ個のサブバンド信号Ｘ_i（１≦ｉ≦Ｎ）である。ゲイン係数ｇ_i（１≦ｉ≦Ｎ）は、図１１に示したように、サブバンド信号Ｘ_iから１つ以上の低レベル特徴を演算し、特徴値を結合することによって取得することができる。各サブバンド信号Ｘ_iは、次にゲイン係数ｇ_iを用いて重み付けられる。

記載された処理に対する好ましい拡張は、単一のサブバンド信号の代わりに、サブバンド信号のグループを使用することである。サブバンド信号は、サブバンド信号のグループを形成するために分類することができる。ここで記載されている処理は、サブバンド信号のグループを用いて行うことができる、すなわち、低レベル特徴は、（各グループが１つ以上のサブバンド信号を含むのに対して）サブバンド信号の１つ以上のグループから演算され、導き出された重み付け係数は、対応するサブバンド信号に（すなわち、特定のグループに属するすべてのサブバンドに対して）適用される。

周囲信号のスペクトル表現の推定は、サブバンドの１つ以上を対応する重みｇｉによって重み付けすることによって取得される。マルチチャンネルサラウンド信号の正面チャンネルに供給される信号は、周囲信号に用いられたような補完的な重みと同様の方法で処理される。

周囲信号の付加的な再生は、（オリジナルの入力信号と比較して）より多い周囲信号成分に結果としてなる。正面信号の演算のための重みは、周囲信号の演算のための重みに対して反比例するとして演算される。従って、結果として生じる各正面信号は、対応するオリジナルの入力信号と比較して、より少ない周囲信号成分と、より多い直接信号成分とを含む。

周囲信号は、図１１に示すように、（オプションとして）スペクトルドメインでの付加的な後処理を用いて更に強化され（結果として生じるサラウンドサウンド信号の認知された品質に関して）、解析フィルタバンクの逆処理（すなわち合成フィルタバンク）を用いて再合成される。

後処理は、７章において詳述される。いくつかの後処理アルゴリズムは、スペクトルドメインまたは時間ドメインのいずれかにおいて行うことができることに留意すべきである。

図１２は、低レベル特徴の抽出に基づく、１つのサブバンド（またはサブバンド信号の１つのグループ）のゲイン演算処理のブロック図を示す。さまざまな低レベル特徴が演算され、結合され、ゲイン係数をもたらす。

結果として生じるゲインは、動的圧縮と低域フィルタリング（時間と周波数の両方の）を用いて、更に後処理することができる。

３．３特徴
以下の章は、周囲らしい信号の品質を特徴づけることに適した特徴について記載する。一般に、特徴は、オーディオ信号（広帯域）または特定の周波数部分（すなわち、サブバンド）またはオーディオ信号のサブバンドのグループを特徴づける。サブバンドの特徴の演算は、フィルタバンクまたは時間‐周波数変換の使用を必要とする。

演算は、ここでオーディオ信号ｘ［ｋ］のスペクトル表現Ｘ（ω，τ）（ωはサブバンド指標、τは時間指標）を用いて説明される。スペクトル（またはスペクトルの１つの範囲）は、Ｓ_k（ｋは周波数指標）によって表される。

信号スペクトルを用いた特徴演算は、スペクトルの異なる表現、すなわち、振幅、エネルギー、対数の振幅またはエネルギーまたは他の非線形処理されたスペクトル（例えばＸ^0.23）を処理することができる。別に注釈されない場合は、スペクトル表示は実数値であると仮定される。

隣接するサブバンドにおいて演算された特徴は、例えば、サブバンドの特徴値を平均することによって、サブバンドのグループを特徴づけるために包含することができる。従って、スペクトルに対する音調は、スペクトルの各スペクトル係数に対する音調値から、例えばそれらの平均値を演算することによって演算することができる。

演算された特徴の値の範囲は、［０、１］または異なる所定の間隔であることが望ましい。後述するいくつの特徴演算は、その範囲内の値に結果としてならない。これらのケースでは、例えば特徴を記述する値を所定の間隔にマップするために、適当なマッピング関数が適用される。マッピング関数の簡単な例が、式（２）に与えられる。

マッピングは、例えば後処理部５３０、５３２を用いて実行することができる。

３．３．１音調特徴
ここで使用された用語の「音調」は、「ノイズ対サウンドの音質を識別する特徴」を記述する。

音の信号は平坦でない信号スペクトルによって特徴づけられるが、ノイズが多い信号は平坦なスペクトルを有する。従って、音の信号はノイズが多い信号より周期的であるが、ノイズが多い信号は音の信号よりもランダムである。従って、音の信号は以前の信号値から小さい予測誤差で予測可能であるが、ノイズが多い信号はうまく予測できない。

以下に、音調を定量的に記述するために用いることができる複数の特徴が記載される。言い換えれば、ここで記述された特徴は、定量的特徴値を決定するために用いることができるかまたは定量的特徴値として役立つことができる。

スペクトル平坦性尺度：
スペクトル平坦性尺度（ＳＦＭ）は、スペクトルＳの幾何平均値と算術平均値の比率として演算される。

特徴値は、ＳＦＭ（Ｓ）から導き出すことができる。

スペクトル波高係数：
スペクトル波高係数は、スペクトルＸ（またはＳ）の最大値と平均値の比率として演算される。

定量的特徴値は、ＳＣＦ（Ｓ）から導き出すことができる。

ピーク検出を用いた音調演算：

最大が音か否かを記述する特徴値を導き出すことができる。また、例えばどれくらいの音の時間‐周波数ビンが所定の近傍内に存在するかについて記述する特徴値を導き出すことができる。

非線形処理されたコピーの比率を用いた音調演算：
ベクトルの非平面性は、式（６）（α＞β）に示されるように、スペクトルＳの２つの非線形処理されたコピーの比率として測定される。

２つの特定の実現方法が式（７）と式（８）に示される。

定量的特徴値は、Ｆ（Ｓ）から導き出すことができる。

異なってフィルタ処理されたスペクトルの比率を用いた音調演算：
以下の音調測定は、米国特許５，９１８，２０３［ＨＥＧ＋９９］に記載されている。

周波数ラインｋのスペクトル係数Ｓ_kの音調は、スペクトルＳの２つのフィルタ処理されたコピーの比率Θから演算されるが、第１のフィルタ関数Ｈは微分特性を有し、第２のフィルタ関数Ｇは積分特性または第１のフィルタより強く微分されない特性を有し、ｃとｄは、フィルタパラメータに依存して、フィルタの遅延がいずれのケースにおいても補償されるように選択される整定数である。

特定の実現方法が式（１０）で示される。ここでＨは微分フィルタの伝達関数である。

周期関数を用いた音調演算：
上述した音調尺度は、入力信号のスペクトルを使用し、スペクトルの非平面性から音調の尺度を導き出す。音調尺度（それから、特徴値を導き出すことができる）は、そのスペクトルの代わりに入力時間信号の周期関数を用いて演算することもできる。周期関数は、信号とその遅延されたコピーの比較から導き出される。

両者の類似性または差異は、遅延の関数（すなわち、両信号間の時間遅延）として与えられる。信号とその（遅延τによる）遅延コピーの間の高度な類似性（または低い差異）は、期間τを有する信号の強い周期性を示す。

周期関数の例としては、自己相関関数と平均振幅差分関数がある［ｄＣＫ０３］。信号ｘの自己相関関数ｒ_xx（τ）は、統合窓サイズＷを有する式（１１）で示される。

スペクトル係数の予測を用いた音調演算：
以前の係数ビンＸ_i-1とＸ_i-2からの複素スペクトル係数Ｘ_iの予測を用いた音調推定は、ＩＳＯ／ＩＥＣ１１１７２‐３ＭＰＥＧ‐１音響心理学モデル２（レイヤー３が推奨される）に記載されている。

複素スペクトル係数Ｘ（ω，τ）＝Ｘ₀（ω，τ）ｅ^-jφ⁽ω^,τ⁾の振幅Ｘ₀（ω，τ）と位相φ（ω、τ）の現在値は、式（１２）と式（１３）によって、以前の値から推定することができる。

推定され、現実に測定された値の間の正規化されたユークリッド距離（式（１４）に示される）は、音調の尺度であって、定量的特徴値を導き出すために用いることができる。

１つのスペクトル係数の音調は、大きい予測誤差が結果として小さい音調値になるような予測誤差Ｐ（ω）（式（１５）を参照、ここで、Ｘ（ω，τ）は複素数値）から演算することもできる。

Ｐ（ω，τ）＝Ｘ（ω，τ）−２Ｘ（ω，τ−１）＋Ｘ（ω、τ―２）（１５）

時間ドメインでの予測を用いた音調演算：
信号ｘ［ｋ］（時間指標ｋ）は、以前のサンプルから線形予測を用いて予測することができるが、予測誤差は、周期信号に対して小さく、ランダム信号に対して大きい。その結果として、予測誤差は信号の音調に反比例する。

したがって、定量的特徴値は、予測誤差から導き出すことができる。

３．３．２エネルギー特徴
エネルギー特徴は、サブバンド内の瞬時エネルギーを測る。特定の周波数バンドの周囲抽出のための重み付け係数は、周波数バンドのエネルギーコンテンツが高い、すなわち、特定の時間‐周波数タイルが直接信号成分に非常に近くなりそうなときに、低くなる。

加えて、エネルギー特徴は、同じサブバンドの隣接する（時間に関して）サブバンドサンプルから演算することもできる。サブバンド信号が近い過去または将来において高いエネルギーを特徴として持っている場合に、類似の重み付けが適用される。実施例は、式（１６）に示される。特徴Ｍ（ω，τ）は、τ−ｋ＜τ＜τ＋ｋ（τは観測窓サイズを決定する）の範囲内で隣接するサブバンドサンプルの最大値から演算される。

Ｍ（ω，τ）＝max（［Ｘ（ω，τ−ｋ）Ｘ（ω，τ＋ｋ）］）（１６）

近い過去または将来において測定される瞬時サブバンドエネルギーと最大サブバンドエネルギーは、いずれも別々の特徴として取り扱われる（すなわち、式（１）に記載された結合のための異なるパラメータが用いられる）。

以下に、アップミックスのためのオーディオ信号からの正面信号と周囲信号の低い複雑さの抽出に対するいくつかの拡張が記載される。

拡張は、特徴抽出と、特徴の後処理と、特徴からのスペクトル重みの導出方法とに関する。

３．３．３特徴セットに対する拡張
以下に、上述した特徴セットのオプションの拡張が記載される。

上記記述は、音調特徴の使用法とエネルギー特徴を記載する。特徴は、（例えば）短期間フーリエ変換（ＳＴＦＴ）ドメインにおいて演算され、時間指標ｍと周波数指標ｋの関数である。信号ｘ［ｎ］の時間‐周波数ドメインの表現（例えばＳＴＦＴによって取得されたような）は、Ｘ（ｍ，ｋ）と記述される。ステレオ信号を処理するケースでは、左チャンネル信号はｘ₁［ｋ］、右チャンネル信号はｘ₂［ｋ］と称される。上付きの「＊」は、複素共役を表す。

以下の特徴の１つ以上は、オプションとして用いることができる。

３．３．３．１チャンネル間の整合性または相関性を評価する特徴

整合性の定義：
２つの信号は、それらができる限り異なるスケーリングと遅延によって等しい、すなわち位相差が一定である場合に、整合している。

相関性の定義：
２つの信号は、それらができる限り異なるスケーリングによって等しい場合に、相関している。

それぞれ長さＮの２つの信号間の相関性は、正規化された相互相関係数ｒによってしばしば測定される。

ここで、λは「忘却係数」である。この演算は、以下において「移動平均推定（ＭＡＥ）」、ｆ_mae（ｚ）と称される。

ステレオ録音の左右のチャンネルの周囲信号成分は、一般に弱く相関している。音源を残響室においてステレオマイクロホン技術で録音するとき、両方のマイクロホン信号は、音源からマイクロホンへのパスが異なるので（主に反射パターンの相違のため）異なる。人工録音において、非相関化は人工ステレオリバーブによって導入される。その結果として、周囲抽出のための適当な特徴は、左右のチャンネル信号間の相関性または整合性を測定する。

［ＡＪ０２］に記載されているチャンネル間の短時間コヒーレンス（ＩＣＳＴＣ）関数は、適切な特徴である。ＩＣＳＴＣ Φは、左右のチャンネル信号間の相互相関Φ１２のＭＡＥと、左側信号のエネルギーΦ１１と右側信号のエネルギーΦ２２のＭＡＥから演算される。

事実、［ＡＪ０２］に記載されているＩＣＳＴＣの公式は、正規化された相互相関係数とほとんど同一であり、唯一の相違は、データのセンタリングが適用されないことである

［ＡＪ０２］では、周囲指標（これは「周囲らしさ」の度数の特徴表示である）は、ＩＣＳＴＣから非線形マッピングによって、例えば双曲線正接を用いて演算される。

３．３．３．２チャンネル間のレベル差
チャンネル間のレベル差（ＩＣＬＤ）に基づく特徴は、ステレオ画像（パノラマ）内の顕著な音源の位置を決定するために用いられる。ソースｓ［ｋ］は、ｓ［ｋ］の振幅を以下のｘ₁［ｋ］とｘ₂［ｋ］において重み付けするために、パニング係数αを適用することによって特定の方向に振幅パンされる。

Ｘ₁［ｋ］＝（１−α）ｓ［ｋ］（２４）
Ｘ₂［ｋ］＝αｓ［ｋ］（２５）

時間‐周波数ビンに対して演算されるとき、ＩＣＬＤベースの特徴は、特定の時間‐周波数ビンを支配する音源の位置（およびパニング係数α）を決定するためにキューを交付する。

上述したパニング指標に対する演算的により効率的な変形例は、次式を用いて演算される。

３．３．３．３スペクトル重心

スペクトル重心は、（スペクトルの全周波数範囲にわたって演算されたときに）知覚された音の明るさに相関する低レベル特徴である。スペクトル重心は、Ｈｚでまたは周波数範囲の最大に正規化されたときは無次元で測定される。

４．特徴グループ化
特徴グループ化は、特徴の更なる処理の演算負荷を低減し、および／または、特徴の時間経過を評価するという要求によって動機づけされる。

記述された特徴は、各データブロック（それから離散フーリエ変換が演算される）について、および、各周波数ビンまたは隣接する周波数ビンのセットについて演算される。隣接するブロックから演算される特徴値（それは通常重複する）は、一緒にグループ化され、以下の関数ｆ（ｘ）の１つ以上によって表される可能性があるが、隣接するフレームのグループ（「スーパーフレーム」）にわたって演算される特徴値は引数ｘとして取り出される：
・分散または標準偏差
・フィルタリング（例えば、一次または高次の差分、重み付けられた平均値、または他の低域フィルタリング）
・フーリエ変換係数

特徴グループ化は、例えば、結合部９３０、９４０のうちの１つによって実行することができる。

５．教師付き回帰または類別を用いたスペクトル重み演算
以下において、オーディオ信号ｘ［ｎ］は、直接信号成分ｄ［ｎ］と周囲信号成分ａ［ｎ］が加算的に含まれたたものと仮定する。

ｘ［ｎ］＝ｄ［ｎ］＋ａ［ｎ］（２９）

本願では、スペクトル重み演算を、特徴値のパラメータによる結合として記述するものであって、パラメータは、例えば発見的に決定されたパラメータ（例えば、３．２章を与える）とすることができる。

あるいは、スペクトル重みは、周囲信号成分の振幅の直接信号成分の振幅に対する比率の推定から決定することができる。我々は、周囲信号の直接信号に対する振幅比をＲ_AD（ｍ，ｋ）と定義する。

このアプローチは、音声信号のノイズ低減のためのスペクトル重み付け（または短期間スペクトル減衰）に類似しているが、スペクトル重みは、サブバンドにおける時間変化するＳＮＲの推定から演算される（例えば、［Ｓｃｈ０４］参照）。

（１）教師付き回帰と、（２）教師付き類別

これらのアプローチは、周波数ビンおよびサブバンド（すなわち、周波数ビンのグループ）から演算された特徴を一緒に処理することが可能であることに留意すべきである。

例えば：周囲指標とパニング指標は、周波数ビン毎に演算される。スペクトル重心と、スペクトル平坦性と、エネルギーは、バークバンドについて演算される。これらの特徴は異なる周波数分解能を用いて演算されるにもかかわらず、同じ分類／回帰方法を用いて一緒に処理される。

５．１回帰

５．２類別

６．トレーニング
トレーニングの主要な論点は、レファレンス値Ｒ_AD（ｍ，ｋ）の適切な選択である。我々は、次の２つのオプション（最初のオプションが好ましいが）を提案する。
（１）直射信号と周囲信号が別々に利用可能である信号から測定されたレファレンス値を用いる方法
（２）モノラル信号の処理からの基準値として、ステレオ信号から演算された相関ベースの特徴を用いる方法

６．１オプション１
このオプションは、支配的な直接信号成分と無視できる周囲信号成分（ｘ［ｎ］≒ｄ［ｎ］）、例えば乾燥した環境で録音された信号、を有するオーディオ信号を必要とする。

例えば、オーディオ信号１８１０、１８６０は、支配的な直接成分を有するこの種の信号とみなすことができる。

人工リバーブ信号ａ［ｎ］は、リバーブ処理部によって、または、実際の部屋で採取することができる室内音響インパルス応答（ＲＩＲ）による畳み込みよって、生成される。あるいは、他の周囲信号、例えば拍手、風、雨または他の環境ノイズの録音を用いることができる。

トレーニングに用いられる基準値は、次に、式（３０）を用いてｄ［ｎ］とａ［ｎ］のＳＴＦＴ表現から取得される。

いくつかの実施形態では、直接信号と周囲信号成分の知識に基づいて、振幅比は、式（３０）によって決定することができる。続いて、予測ゲイン値は、例えば式（３１）を用いて、振幅比に基づいて取得することができる。この予測ゲイン値は、予測ゲイン値情報１３１６、１８３４として用いることができる。

６．２オプション２
ステレオ録音の左右のチャンネル間の相関に基づく特徴は、周囲抽出処理のための強力なキューを交付する。しかしながら、モノラル信号を処理するとき、これらのキューは利用可能でない。提案されたアプローチは、モノラル信号を処理することができる。

トレーニングのための基準値を選択する有効なオプションは、相関ベースの特徴が演算され、基準値（例えば、予測ゲイン値を取得するための）として用いられるステレオ信号を使用することである。

基準値は、例えば予測ゲイン値情報１９２０によって記述することができ、または、予測ゲイン値情報１９２０は、基準値から導き出すことができる。

ステレオ録音は、次に、他の低レベル特徴の抽出のためにモノラルにダウンミックスすることができ、または、低レベル特徴は、左右のチャンネル信号から別々に演算することができる。

この章に記載されたコンセプトを適用するいくつかの実施形態は、図１９と２０に示される。

７．周囲信号の後処理
以下の章は、周囲信号の知覚品質の強化のための適当な後処理方法を記載する。

いくつかの実施形態では、後処理は、後処理部７００によって実行することができる。

７．１サブバンド信号の非線形処理
導き出された周囲信号（例えば、重み付けされたサブバンド信号によって表された）は、周囲成分のみならず、信号成分をも含む（すなわち、周囲信号と直接信号の分離は完全でない）。周囲信号は、その周囲と直接の比率、すなわち、周囲成分の量の直接成分に対する比率を強化するために後処理される。適用される後処理は、周囲音は直接音と比較してむしろ静かであるという知見によって動機づけされる。静かな音を保存しながら大きい音を減衰する簡単な方法は、非線形圧縮曲線をスペクトログラムの係数（例えば、重み付けられたサブバンド信号）に適用することである。

適当な圧縮曲線の実施例は、式（１７）で与えられる。ここで、ｃは閾値であり、パラメータｐ（０＜ｐ＜１）は圧縮率を決定する。

非線形修正の他の実施例は、ｙ＝ｘ^p（０＜ｐ＜１）であるが、小さい値は大きな値よりもより増加する。この関数の一実施例は、ｙ＝√ｘであり、ここで、ｘは例えば重み付けられたサブバンド信号の表現値とすることができ、ｙは例えば後処理された重み付けられたサブバンド信号の表現値とすることができる。

いくつかの実施形態では、この章で記載されたサブバンド信号の非線形処理は、非線形圧縮部７３２によって実行することができる。

７．２時間遅延の導入
正面画像の安定性を改善するために、周囲信号に対して（例えば、正面信号または直接信号と比較して）、数ミリ秒（例えば１４ｍｓ）の遅延が導入される。これは、２つの同一の音が、１つの音Ａの開始が他の音Ｂの開始に関連して遅延され、両方が（リスナーに対して）異なる方向において提供されるように、提供された場合に発生する先行効果の結果である。遅延が適当な範囲内にある限り、音は、音Ｂが提供される方向からやってくると知覚される［ＬＣＹＧ９９］。

周囲信号に対して遅延を導入することによって、直接音源は、周囲信号のなかにいくつかの直接信号成分が含まれる場合であっても、リスナーの正面に対してよりよく位置づけられる。

いくつかの実施形態では、この章で記載される時間遅延の導入は、遅延部７３４によって実行することができる。

７．３信号適応イコライズ
サラウンドサウンド信号の音色呈色を最小化するために、周囲信号（例えば、重み付けられたサブバンド信号に関して表された）は、その長期間パワースペクトル密度（ＰＳＤ）を入力信号に適応させるために、イコライズされる。これは、２段階の処理で実行される。

信号適応イコライズは、抽出された周囲信号が入力信号より小さいスペクトルチルトを特徴づける傾向がある、すなわち周囲信号が入力信号より明るく鳴り響くという知見によって動機づけられる。多くの録音において、周囲音は、主に部屋の残響によって生じる。録音に用いられる多くの部屋は、低い周波数に対してよりも高い周波数に対して小さい残響時間を有するので、したがって、周囲信号をイコライズすることは合理的である。しかしながら、非公式のリスニングテストは、入力信号の長期間ＰＳＤに対するイコライズが有効なアプローチになると判明することを示している。

いくつかの実施形態では、この章で記載された信号適応イコライズは、音色呈色補償器７３６によって実行することができる。

７．４過渡状態抑制
後方チャンネル信号への遅延の導入（７．２章を参照）は、過渡信号成分が存在する場合［ＷＮＲ７３］と、時間遅延が信号依存値（エコー閾値［ＬＣＹＧ９９］）を超える場合に、２つの分離した信号の知覚を呼び起こす。このエコーは、サラウンドサウンド信号または周囲信号の過渡信号成分を抑制することによって減衰することができる。付加的な正面画像の安定化は、後方チャンネルに位置決め可能な点源の出現が著しく低減されるので、過渡状態の抑制によって達成される。

理想的な包囲する周囲音が時間とともにスムーズに変化することを考慮すれば、適切な過渡状態抑制方法は、周囲信号の連続的な性質に影響を及ぼすことなく過渡成分を低減する。この要求を満たす１つの方法は、［ＷＵＤ０７］に提案されたものであり、ここに記載されている。

最初に、（例えば、重み付けられたサブバンド信号に関して表された周囲信号において）過渡状態が発生する時間インスタンスが検出される。引き続いて、検出された過渡領域に属する振幅スペクトルが、過渡状態の開始前の信号部分の外挿によって置き換えられる。

従って、移動平均μ（ω）を定義された最大偏差を超えるすべての値｜Ｘ（ω，τ_t）｜は、定義された偏差インターバル内のμ（ω）のランダム偏差によって置き換えられる。ここで、添字ｔは、過渡領域に属するフレームを示す。

修正部分と非修正部分の間のスムーズな遷移を保証するために、外挿値はオリジナル値によってクロスフェードされる。

他の過渡状態抑制方法は、［ＷＵＤ０７］に記載されている。

いくつかの実施形態では、この章に記載された過渡状態抑制は、過渡状態低減部７３８によって実行することができる。

７．５非相関化
左右の耳に到達する２つの信号間の相関は、音源と周囲の印象の知覚幅に影響を及ぼす。印象の開放感を改善するために、正面チャンネル信号間および／または後方チャンネル信号間（例えば、抽出された周囲信号に基づく２つの後方チャンネル信号間）のチャンネル間相関は減少される。

２つの信号の非相関化のためのさまざまな方法が適切であり、以下に記載されている。

櫛フィルタリング：
２つの非相関信号は、１つのチャンネルの入力信号の２つのコピーを一対の相補的櫛フィルタにより処理することによって取得される［Ｓｃｈ５７］。

オールパスフィルタリング：
２つの非相関信号は、１つのチャンネルの入力信号の２つのコピーを一対の異なるオールパスフィルタにより処理することによって取得される。

平坦な伝達関数によるフィルタリング：
２つの非相関信号は、１つのチャンネルの入力信号の２つのコピーを平坦な伝達関数を有する（すなわち、インパルス応答が白色スペクトルを有する）２つの異なるフィルタによってフィルタリングすることによって取得される。

平坦な伝達関数は、出力信号の音色呈色が小さいことを保証する。適切なＦＩＲフィルタは、白色乱数発生器を用いて構成することができ、衰退するゲイン係数を各フィルタ係数に適用することができる。

実施例は、式（１９）に示される。ここで、ｈ_k（ｋ＜Ｎ）はフィルタ係数であり、ｒ_kは白色ランダム処理の出力であり、ａとｂは、ｂ≧ａＮであるｈ_kのエンベロープを決定する定数パラメータである。

ｈ_k＝ｒ_k（ｂ−ａｋ）（１９）

適応スペクトルパノラマ化：
２つの非相関信号は、１つの入力チャンネル信号の２つのコピーをＡＳＰにより処理することによって取得される［ＶＺＡ０６］（２．１．４章を参照）。後方チャンネル信号と正面チャンネル信号の非相関化のためのＡＳＰのアプリケーションは、［ＵＷＩ０７］に記載されている。

サブバンド信号の遅延：
２つの非相関信号は、１つの入力チャンネル信号の２つのコピーをサブバンドに分解し（例えば、ＳＴＦＴのフィルタバンクを用いて）、サブバンド信号に対する異なる時間遅延を導入し、そして処理されたサブバンド信号から時間信号を再合成することによって取得される。

いくつかの実施形態では、この章に記載された非相関化は、信号非相関化部７４０によって実行することができる。

以下に、本発明に係る実施形態のいくつかの側面が簡潔に要約される。

本発明に係る実施形態は、オーディオ信号をブラインドアップミックスするのに適した正面信号と周囲信号の抽出の新しい方法を構築する。本発明に係る方法のいくつかの実施形態の利点は、多面的である。
１からｎへのアップミックスのための前の方法と比較して、本発明に係るいくつかの方法は、低い演算の複雑さである。
２からｎへのアップミックスのための前の方法と比較して、本発明に係るいくつかの方法は、両方の入力チャンネル信号が同一（モノラル）であるかまたはほとんど同一であっても、うまく実行する。
発明に係るいくつかの方法は、入力チャンネルの数に依存せず、それ故に、入力チャンネルのいかなる構成にもよく適合する。本発明に係るいくつかの方法は、リスニングテストにおいて結果として生じるサラウンドサウンド信号を聞くときに、多くのリスナーにとって好ましい。

要約すると、いくつかの実施形態は、アップミックスのためのオーディオ信号からの正面信号と周囲信号の低い複雑さの抽出に関する。

８．用語解説
ＡＳＰ：適応スペクトルパノラマ化
ＮＭＦ：非負マトリクス因数分解
ＰＣＡ：主成分分析
ＰＳＤ：パワースペクトル密度
ＳＴＦＴ：短期間フーリエ変換
ＴＦＤ：時間‐周波数分布

参考文献
［ＡＪ０２］Carlos Avendano，Jean-Marc Jot、マルチチャンネルオーディオアップミックスのためのステレオ信号からの周囲信号の抽出と合成、ＩＣＡＳＳＰ議事録、２００２
［ＡＪ０４］Carlos Avendano，Jean-Marc Jot、マルチチャンネルアップミックスの周波数ドメインアプローチ、英国オーディオ学会誌、５２、２００４
［ｄＣＫ０３］Alain de Cheveigne，Hideki Kawahara、陰、話し言葉および音楽の基本周波数推定器、アメリカ音響学会誌、１１１（４）、１９１７‐１９３０、２００３
［Ｄｒｅ００］R. Dressler、ドルビーサラウンドプロ・ロジック２デコーダ：解説書、ドルビー研究所報告、２０００
［ＤＴ］ＤＴＳ、ＤＴＳＮＥｏ：６マルチチャンネル、http://www.dts.com/media/uploads/pdfs/DTS%20Neo6%20Overview.pdf
［Ｆａｌ０５］C. Faller、再訪された疑似立体音響、第１１８回ＡＥＳ大会議事録、２００５
［ＧＪ０７ａ］M. Goodwin，Jean-Marc Jot、マルチチャンネルサラウンドフォーマット変換および一般化されたアップミックス、第３０回ＡＥＳ会議議事録、２００７
［ＧＪ０７ｂ］M. Goodwin，Jean-Marc Jot、空間オーディオf符号化と強調のための主要周囲信号の分解とベクトルベースの位置決め、ＩＣＡＳＳＰ会報、２００７
［ＨＥＧ＋９９］J. Herre，E. Eberlein，B. Grill，K. Brandenburg，H. Gerhauser、米国特許５９１８２０３、１９９９
［ＩＡ０１］R. Irwan，R. M. Aarts、ステレオからマルチチャンネルサウンドに変換する方法、第１９回ＡＥＳ会議議事録、２００１
［ＩＳＯ９３］ＩＳＯ／ＭＰＥＧ，ＩＳＯ／ＩＥＣ１１１７２‐３ＭＰＥＧ‐１、国際規格、１９９３
［Ｋａｒ］Harman Kardon、ロジック７の解説、技術報告
［ＬＣＹＧ９９］R. Y. Litovsky，H. S. Colburn，W. A. Yost，S. J. Guzman、先行音効果、ＪＡＥＳ、１９９９
［ＬＤ０５］Y. Li，P.F. Driessen、２から５チャンネルへのアップミックスの教師なし適応フィルタリングアプローチ、第１１９回ＡＥＳ大会議事録、２００５
［ＬＭＴ０７］M. Lagrange，L.G. Martins，G. Tzanetakis、音源フォーメーションを用いたモノラルからステレオへの半自動アップミックス、第１２２回ＡＥＳ大会議事録、２００７
［ＭＰＡ＋０５］J. Monceaux，F. Pachet，F. Armadu，P. Roy，A. Zils、記述子ベースの空間化、第１１８回ＡＥＳ大会議事録、２００５
［Ｓｃｈ０４］G. Schmidt、液圧機関スペクトル重み付けに基づくｒｏｃｅｓｓｉｎｇスペクトル重み付けによる単一チャンネルノイズの抑圧、Eurasip会報、２００４
［Ｓｃｈ５７］M. Schroeder、単一信号を用いて得られた人工立体音響の効果、ＪＡＥＳ、１９５７
［Ｓｏｕ０４］G. Soulodre、周囲ベースのアップミックス、第１１７回ＡＥＳ大会のワークショップ、２００４
［ＵＷＨＨ０７］C. Uhle，A. Walther，O. Hellmuth，J. Herre、非負マトリクス因数分解を用いたモノラル録音からの周囲分離、第３０回ＡＥＳ会議議事録、２００７
［ＵＷＩ０７］C. Uhle，A. Walther，M. Ivertowski、１からｎへのブラインドアップミックス、Audio Mostly、２００７
［ＶＺＡ０６］V. Verfaille，U. Zolzer，D. Arfib、適応ディジタルオーディオ効果（Ａ‐ＤＡＦｘ）：サウンド変換の新分類、ＩＥＥＥオーディオ・スピーチ・言語処理の会報、２００６
［ＷＮＲ７３］H. Wallach，E.B. Newman，M.R. Rosenzweig、音響位置決めにおける優先効果、英国オーディオ学会誌、２１、８１７‐８２６、１９７３
［ＷＵＤ０７］A. Walther，C. Uhle，S. Disch、マルチチャンネルアップミックスアルゴリズムにおける一時的抑制の使用、第１２２回ＡＥＳ大会議事録、２００７

以下に、本発明に係るいくつかの実施形態が記載される。

本発明に係る実施形態は、入力音声信号（１１０）を、複数の周波数バンドを記述する複数のサブバンド信号（１３２）に関して表した入力音声信号の時間-周波数ドメイン表現に基づいて周囲信号（１１２）を抽出する装置（１００）を備える。装置は、入力オーディオ信号（１１０）に従って、入力オーディオ信号の時間-周波数ドメイン表現の所定の周波数バンドに対する一連の時間変化する周囲信号のゲイン値（１２２）を決定するように構成されたゲイン値決定部（１１２）を備える。装置は、また、時間‐周波数ドメイン表現の所定の周波数バンドを表したサブバンド信号（１３２）の１つを時間変化する周囲信号のゲイン値（１２２）によって重み付けし、重み付けられたサブバンド信号（１１２）を取得するように構成された重み付け部（１３０）を備える。ゲイン値決定部（１２０）は、入力オーディオ信号（１１０）の１つ以上の特徴または特性を記述する１つ以上の定量的特徴値を取得し、ゲイン値が定量的特徴値に定量的に依存するように、ゲイン値（１２２）を１つ以上の定量的特徴値の関数として提供し、入力オーディオ信号から周囲成分の微調整された抽出を可能とするように構成される。ゲイン値決定部（１２０）は、また、重み付けられたサブバンド信号（１１２）のなかの周囲成分が非周囲成分を超えて強調されるようにゲイン値を提供するように構成される。さらに、ゲイン値決定部（１２０）は、入力オーディオ信号の複数の異なる特徴または特性を記述する複数の異なる定量的特徴値を取得し、ゲイン値が定量的特徴値に定量的に依存するように、異なる定量的特徴値を結合し、一連の時間変化するゲイン値（１２２）を取得するように構成される。ゲイン値決定部は、また、異なる特徴値を、重み付け係数によって異なって重み付けするように構成される。さらにまた、ゲイン値決定部は、少なくとも、入力オーディオ信号の音調を記述する音調特徴値と、入力オーディオ信号のサブバンド内のエネルギーを記述するエネルギー特徴値とを結合し、ゲイン値を取得するように構成される。

装置１００の一実施形態において、ゲイン値決定部は、所定の周波数バンドを表したサブバンド信号の周囲らしさを記述する少なくとも１つの定量的特徴値を取得するように構成される。

装置１００の一実施形態において、ゲイン値決定部は、異なる定量的特徴値を非線形方法でスケーリングするように構成される。

装置１００の一実施形態において、ゲイン値決定部は、単一のオーディオ信号チャンネルの特徴を記述する少なくとも１つの定量的単一チャンネル特徴値を取得し、単一チャンネル特徴値を用いてゲイン値を提供するように構成される。

装置１００の一実施形態において、ゲイン値決定部は、単一のオーディオチャンネルに基づいてゲイン値を提供するように構成される。

装置１００の一実施形態において、ゲイン値決定部は、入力オーディオ信号を複数の周波数バンドを含む周波数範囲にわたって記述するマルチバンド特徴値を取得するように構成される。

装置１００の一実施形態において、ゲイン値決定部は、入力オーディオ信号を単一の周波数バンドを含む周波数範囲で記述する狭帯域特徴値を取得するように構成される。

装置１００の一実施形態において、ゲイン値決定部は、入力オーディオ信号を時間‐周波数ドメイン表現の周波数バンドの全部を含む周波数範囲にわたって記述する広帯域特徴値を取得するように構成される。

装置１００の一実施形態において、ゲイン値決定部は、異なるバンド幅を有する入力オーディオ信号の部分を記述する異なる特徴値を結合し、ゲイン値を取得するように構成される。

装置１００の一実施形態において、ゲイン値決定部は、入力オーディオ信号の時間‐周波数ドメイン表現を非線形方法で前処理し、前処理された時間‐周波数ドメイン表現に基づいて定量的特徴値を取得するように構成される。

装置１００の一実施形態において、ゲイン値決定部は、取得された特徴値を非線形方法で後処理し、特徴値の値の範囲を制限し、後処理された特徴値を取得するように構成される。

装置１００の一実施形態において、ゲイン値決定部は、入力オーディオ信号の音調を記述する定量的特徴値を取得し、ゲイン値を決定するように構成される。

装置１００の一実施形態において、ゲイン値決定部は、入力オーディオ信号の２つ以上のチャンネル間の関連性を記述する１つ以上の定量的チャンネル関連値を取得するように構成される。

装置１００の一実施形態において、１つ以上の定量的チャンネル関連値のうちの１つは、入力オーディオ信号の２つのチャンネル間の相関性または整合性を記述する。

装置１００の一実施形態において、１つ以上の定量的チャンネル関連値のうちの１つは、チャンネル間の短時間整合性を記述する。

装置１００の一実施形態において、１つ以上の定量的チャンネル関連値のうちの１つは、入力オーディオ信号の２つ以上のチャンネルに基づいて音源の位置を記述する。

装置１００の一実施形態において、１つ以上の定量的チャンネル関連値のうちの１つは、入力オーディオ信号の２つ以上のチャンネルの間のチャンネル間レベル差を記述する。

装置１００の一実施形態において、ゲイン値決定部は、１つ以上の定量的チャンネル関連値のうちの１つとして、パニング指標を取得するように構成される。

装置１００の一実施形態において、ゲイン値決定部は、所定の時間‐周波数ビンのスペクトル値差分とスペクトル値総計の間の比率を決定し、所定の時間‐周波数ビンのパニング指標を取得するように構成される。

装置１００の一実施形態において、ゲイン値決定部は、入力オーディオ信号のスペクトルまたは入力オーディオ信号のスペクトルの一部のスペクトル重心を記述するスペクトル重心特徴値を取得するように構成される。

装置１００の一実施形態において、ゲイン値決定部は、時間‐周波数ドメイン表現によって表された複数のサブバンド信号に従って、サブバンド信号の所定の１つを重み付けするためのゲイン値を提供するように構成される。

装置１００の一実施形態において、重み付け部は、サブバンドのグループを共通の一連の時間変化するゲイン値によって重み付けするように構成される。

装置１００の一実施形態において、装置は、重み付けられたサブバンド信号またはそれに基づく信号を後処理し、周囲‐直接比率を強化し、周囲‐直接比率が強化された後処理された信号を取得するように構成された信号後処理部を更に備える。信号後処理部は、重み付けられたサブバンド信号またはそれに基づく信号のなかの大きな音を静かな音を保存しながら減衰させ、後処理された信号を取得するように構成されるか、または、信号後処理部は、重み付けられたサブバンド信号またはそれに基づく信号に対して非線形圧縮を適用するように構成される。

装置１００の一実施形態において、装置は、重み付けられたサブバンド信号またはそれに基づく信号を後処理し、後処理された信号を取得するように構成された信号後処理部を更に備え、信号後処理部は、重み付けられたサブバンド信号またはそれに基づく信号を２ミリ秒から７０ミリ秒の範囲で遅延させ、重み付けられたサブバンド信号に基づいて正面信号と周囲信号の間の遅延を取得するように構成される。

装置１００の一実施形態において、装置は、重み付けられたサブバンド信号またはそれに基づく信号を後処理し、後処理された信号を取得するように構成された信号後処理部を更に備え、後処理部は、重み付けられたサブバンド信号に基づく周囲信号表現に関して周波数依存イコライズを実行し、周囲信号表現の音色呈色に反対に作用するように構成される。

装置１００の一実施形態において、後処理部は、重み付けられたサブバンド信号に基づく周囲信号表現に関して周波数依存イコライズを実行し、後処理された周囲信号表現としてイコライズされた周囲信号を取得するように構成され、後処理部は、イコライズされた周囲信号表現の長期間パワースペクトル密度を入力オーディオ信号に適応させるために周波数依存イコライズを実行するように構成される。

装置１００の一実施形態において、装置は、重み付けられたサブバンド信号またはそれに基づく信号を後処理し、後処理された信号を取得するように構成された信号後処理部を更に備え、信号後処理部は、重み付けられたサブバンド信号またはそれに基づく信号の過渡状態を低減するように構成される。

装置１００の一実施形態において、装置は、重み付けられたサブバンド信号またはそれに基づく信号を後処理し、後処理された信号を取得するように構成された信号後処理部を更に備え、後処理部は、重み付けられたサブバンド信号またはそれに基づく信号に基づいて、左側周囲信号と右側周囲信号を、左側周囲信号と右側周囲信号が少なくとも部分的に非相関化されるように取得するように構成される。

装置１００の一実施形態において、装置は、入力オーディオ信号に基づいて正面信号をも提供するように構成され、重み付け部は、時間‐周波数ドメイン表現の所定の周波数バンドを表したサブバンド信号のうちの１つを時間変化する正面信号のゲイン値によって重み付けし、重み付けられた正面信号のサブバンド信号を取得するように構成され、重み付け部は、時間変化する正面信号のゲイン値が周囲信号のゲイン値の増加と共に減少するように構成される。

装置１００の一実施形態において、重み付け部は、正面信号のゲイン値が周囲信号のゲイン値に対して相補的であるように時間変化する正面信号のゲイン値を提供するように構成される。

装置１００の一実施形態において、装置は、周囲信号の時間ドメイン表現を、１つ以上の重み付けられたサブバンド信号に従って提供するように構成された時間‐周波数ドメインから時間ドメインへの変換部を備える。

装置１００の一実施形態において、装置は、周囲信号をモノラル入力オーディオ信号に基づいて抽出するように構成される。

本発明に係る実施形態は、１つ以上の入力オーディオ信号に基づいて、少なくとも１つの周囲信号を含むマルチチャネルオーディオ信号を提供するマルチチャンネルオーディオ信号生成装置を備える。マルチチャンネルオーディオ信号生成装置は、入力オーディオ信号を複数の周波数バンドを記述する複数のサブバンド信号に関して表した入力オーディオ信号の時間‐周波数ドメイン表現に基づいて周囲信号を抽出するように構成された周囲信号抽出部１０１０を備える。周囲信号抽出部は、入力オーディオ信号に従って、入力オーディオ信号の時間‐周波数ドメイン表現の所定の周波数バンドに対する一連の時間変化する周囲信号のゲイン値を決定するように構成されたゲイン値決定部と、時間‐周波数ドメイン表現の所定の周波数バンドを表したサブバンド信号の１つを時間変化するゲイン値によって重み付けし、重み付けられたサブバンド信号を取得するように構成された重み付け部とを備える。ゲイン値決定部は、入力オーディオ信号の１つ以上の特徴または特性を記述する１つ以上の定量的特徴値を取得し、ゲイン値が定量的特徴値に定量的に依存するように、ゲイン値を１つ以上の定量的特徴値の関数として提供し、入力オーディオ信号から周囲成分の微調整された抽出を可能とするように構成される。ゲイン値決定部は、また、重み付けられたサブバンド信号のなかの周囲成分が非周囲成分を超えて強調されるようにゲイン値を提供するように構成される。さらに、ゲイン値決定部１２０は、入力オーディオ信号の複数の異なる特徴または特性を記述する複数の異なる定量的特徴値を取得し、ゲイン値が定量的特徴値に定量的に依存するように、異なる定量的特徴値を結合し、一連の時間変化するゲイン値１２２を取得するように構成される。ゲイン値決定部は、また、異なる特徴値を、重み付け係数によって異なって重み付けするように構成される。さらにまた、ゲイン値決定部は、少なくとも、入力オーディオ信号の音調を記述する音調特徴値と、入力オーディオ信号のサブバンド内のエネルギーを記述するエネルギー特徴値とを結合し、ゲイン値を取得するように構成される。マルチチャンネルオーディオ信号生成装置は、重み付けられたサブバンド信号に基づいて１つ以上の周囲信号を提供するように構成された周囲信号提供部１０２０を更に備える。

マルチチャンネルオーディオ信号生成装置の一実施形態において、マルチチャンネルオーディオ信号生成装置は、１つ以上の周囲信号を１つ以上の後方チャンネルオーディオ信号として提供するように構成される。

マルチチャンネルオーディオ信号生成装置の一実施形態において、マルチチャンネルオーディオ信号生成装置は、１つ以上の入力オーディオ信号に基づいて１つ以上の正面チャンネルオーディオ信号を提供するように構成される。

本発明に係る実施形態は、入力オーディオ信号から周囲信号を抽出するゲイン値決定部をパラメータ化するための重み付け係数を、係数決定入力オーディオ信号に基づいて取得する装置１３００を備える。装置１３００は、係数決定入力オーディオ信号の複数の異なる特徴または特性を記述する複数の異なる定量的特徴値１３２２，１３２４であって、少なくとも、入力オーディオ信号の音調を記述する音調特徴値と、入力オーディオ信号のサブバンド内のエネルギーを記述するエネルギー特徴値とを含む特徴値の、重み付け係数を用いた重み付け結合に基づいて取得されたゲイン値が、係数決定オーディオ信号に関連づけられた予測ゲイン値１３１６を近似するように、重み付け係数を決定し、予測ゲイン値が、係数決定入力オーディオ信号の複数の時間‐周波数ビンに対する、係数決定入力オーディオ信号のなかの周囲成分または非周囲成分の強度またはそれから導き出される情報を記述するように構成された重み付け係数決定部１３３０を備える。

装置１３００の一実施形態において、装置は、無視できる周囲信号成分のみを含む基準オーディオ信号に基づいて係数決定信号を提供するように構成された係数決定信号生成部を備える。係数決定信号生成部は、基準オーディオ信号を周囲信号成分と結合し、係数決定信号を取得し、かつ、周囲信号成分、または、周囲信号成分と基準オーディオ信号の直接信号成分との関連性を記述する情報を重み付け係数決定部に提供し、予測ゲイン値を記述するように構成される。

装置１３００の一実施形態において、係数決定信号生成部は、周囲信号成分を基準オーディオ信号に基づいて提供するように構成される人工周囲信号生成部を備える。

装置１３００の一実施形態において、装置は、マルチチャンネル基準オーディオ信号に基づいて係数決定信号と予測ゲイン値を記述する情報を提供するように構成された係数決定信号生成部を備える。係数決定信号生成部は、マルチチャンネル基準オーディオ信号の２つ以上のチャンネル間の関連性を記述する情報を決定し、予測ゲイン値を記述する情報を提供するように構成される。

装置１３００の一実施形態において、係数決定信号生成部は、マルチチャンネル基準オーディオ信号の２つ以上のチャンネル間の相関を記述する相関ベースの定量的特徴値を決定し、予測ゲイン値を記述する情報を提供するように構成される。

装置１３００の一実施形態において、係数決定信号生成部は、マルチチャンネル基準オーディオ信号の１つのチャンネルを係数決定信号として提供するように構成される。

装置１３００の一実施形態において、係数決定信号生成部は、マルチチャネル参照オーディオ信号の２つ以上のチャンネルを結合し、係数決定信号を取得するように構成される。

装置１３００の一実施形態において、重み付け係数決定部は、重み付け係数を回帰法、類別法、またはニューラルネットを用いて決定するように構成され、係数決定信号はトレーニング信号として用いられ、予測ゲイン値は基準値として役立ち、係数が決定される。

本発明に係る実施形態の更なる詳細、作用および効果は、引き続いて記載される。

Claims

入力音声信号を、複数の周波数バンドを記述する複数のサブバンド信号に関して表した入力音声信号の時間-周波数ドメイン表現に基づいて周囲信号を抽出する装置であって、
前記入力オーディオ信号に従って、前記入力オーディオ信号の時間-周波数ドメイン表現の所定の周波数バンドに対する一連の時間変化する周囲信号のゲイン値を決定するように構成されたゲイン値決定部と、
前記時間‐周波数ドメイン表現の前記所定の周波数バンドを表した前記サブバンド信号の１つを前記時間変化するゲイン値によって重み付けし、重み付けられたサブバンド信号を取得するように構成された重み付け部と、
を備え、
前記ゲイン値決定部は、前記入力オーディオ信号の１つ以上の特徴または特性を記述する１つ以上の定量的特徴値を取得し、前記ゲイン値が定量的特徴値に定量的に依存するように、前記ゲイン値を１つ以上の定量的特徴値の関数として提供するように構成され、
前記ゲイン値決定部は、前記重み付けられたサブバンド信号のなかの周囲成分が非周囲成分を超えて強調されるように前記ゲイン値を提供するように構成された、
周囲信号を抽出する装置。
前記ゲイン値決定部は、前記入力オーディオ信号の時間‐周波数ドメイン表現に基づいて、前記時間変化するゲイン値を決定するように構成された、請求項１に記載の周囲信号を抽出する装置。
前記ゲイン値決定部は、前記所定の周波数バンドを表したサブバンド信号の周囲らしさを記述する少なくとも１つの定量的特徴値を取得するように構成された、請求項１または２に記載の周囲信号を抽出する装置。
前記ゲイン値決定部は、前記入力オーディオ信号の複数の異なる特徴または特性を記述する複数の異なる定量的特徴値を取得し、前記異なる定量的特徴値を結合し、前記一連の時間変化するゲイン値を取得するように構成された、請求項１〜３のいずれかに記載の周囲信号を抽出する装置。
前記ゲイン値決定部は、前記異なる定量的特徴値を、重み付け係数によって異なって重み付けするように構成された、請求項４に記載の周囲信号を抽出する装置。
前記ゲイン値決定部は、前記異なる定量的特徴値を非線形方法でスケーリングするように構成された、請求項４または５に記載の周囲信号を抽出する装置。
前記ゲイン値決定部は、前記異なる特徴値を次の関係を用いて結合し、前記ゲイン値を取得するように構成された、請求項４〜６のいずれかに記載の周囲信号を抽出する装置。

ここで、ωは、サブバンド指標を示し、τは、時間指標を示し、ｉは、実行変数を示し、Ｋは、結合される特徴値の数を表し、ｍ_i（ω，τ）は、周波数指標ωと時間指標τを有するサブバンドのｉ番目の特徴値を示し、α_iは、ｉ番目の特徴値の線形重み付け係数を示し、β_iは、ｉ番目の特徴値の指数重み付け係数を示し、ｇ（ω，τ）は、周波数指標ωと時間指標τを有するサブバンドのゲイン値を示す。
前記ゲイン値決定部は、結合される異なる特徴の重みを調整するように構成された重み調整部を備える、請求項４〜７のいずれかに記載の周囲信号を抽出する装置。
前記ゲイン値決定部は、少なくとも、前記入力オーディオ信号の音調を記述する音調特徴値と、前記入力オーディオ信号のサブバンド内のエネルギーを記述するエネルギー特徴値とを結合し、前記ゲイン値を取得するように構成された、請求項４〜８のいずれかに記載の周囲信号を抽出する装置。
前記ゲイン値決定部は、少なくとも、前記音調特徴値と、前記エネルギー特徴値と、前記入力オーディオ信号のスペクトルまたは前記入力オーディオ信号のスペクトルの一部のスペクトル重心を記述するスペクトル重心特徴値とを結合し、前記ゲイン値を取得するように構成された、請求項９に記載の周囲信号を抽出する装置。
前記ゲイン値決定部は、単一のオーディオ信号チャンネルの特徴を記述する少なくとも１つの定量的単一チャンネル特徴値を取得し、前記単一チャンネル特徴値を用いて前記ゲイン値を提供するように構成された、請求項１〜１０のいずれかに記載の周囲信号を抽出する装置。
前記ゲイン値決定部は、単一のオーディオチャンネルに基づいて前記ゲイン値を提供するように構成された、請求項１〜１１のいずれかに記載の周囲信号を抽出する装置。
前記ゲイン値決定部は、前記入力オーディオ信号を複数の周波数バンドを含む周波数範囲にわたって記述するマルチバンド特徴値を取得するように構成された、請求項１〜１２のいずれかに記載の周囲信号を抽出する装置。
前記ゲイン値決定部は、前記入力オーディオ信号を単一の周波数バンドを含む周波数範囲にわたって記述する狭帯域特徴値を取得するように構成された、請求項１〜１３のいずれかに記載の周囲信号を抽出する装置。
前記ゲイン値決定部は、前記入力オーディオ信号を前記時間‐周波数ドメイン表現の周波数バンドの全部を含む周波数範囲にわたって記述する広帯域特徴値を取得するように構成された、請求項１〜１４のいずれかに記載の周囲信号を抽出する装置。
前記ゲイン値決定部は、異なるバンド幅を有する前記入力オーディオ信号の部分を記述する異なる特徴値を結合し、前記ゲイン値を取得するように構成された、請求項１〜１５のいずれかに記載の周囲信号を抽出する装置。
前記ゲイン値決定部は、前記入力オーディオ信号の時間‐周波数ドメイン表現を非線形方法で前処理し、前記前処理された時間‐周波数ドメイン表現に基づいて定量的特徴値を取得するように構成された、請求項１〜１６のいずれかに記載の周囲信号を抽出する装置。
前記ゲイン値決定部は、前記取得された特徴値を非線形方法で後処理し、前記特徴値の値の範囲を制限し、後処理された特徴値を取得するように構成された、請求項１〜１７のいずれかに記載の周囲信号を抽出する装置。
前記ゲイン値決定部は、前記時間‐周波数ドメイン表現の異なる時間‐周波数ビンに関連づけられた同一の特徴または特性を記述する複数の特徴値を結合し、結合された特徴値を取得するように構成された、請求項１〜１８のいずれかに記載の周囲信号を抽出する装置。
前記ゲイン値決定部は、前記入力オーディオ信号の音調を記述する定量的特徴値を取得し、前記ゲイン値を決定するように構成された、請求項１〜１９のいずれかに記載の周囲信号を抽出する装置。
前記ゲイン値決定部は、音調を記述する定量的特徴値として、
スペクトル平坦性尺度、
スペクトル波高係数、
前記入力オーディオ信号のスペクトルのコピーの異なる非線形処理を用いて取得された少なくとも２つのスペクトル値の比率、
前記入力信号のスペクトルのコピーの異なる非線形フィルタを用いて取得された少なくとも２つのスペクトル値の比率、
スペクトルピークの存在を示す値、
前記入力オーディオ信号と前記入力オーディオ信号の時間シフトされたバージョンの間の類似性を記述する類似性値、
前記時間‐周波数ドメイン表現の予測スペクトル係数と前記時間‐周波数ドメイン表現の実際のスペクトル係数の差分を記述する予測誤差値、
のいずれかを取得するように構成された、請求項２０に記載の周囲信号を抽出する装置。
前記ゲイン値決定部は、前記入力オーディオ信号のサブバンド内のエネルギーを記述する少なくとも１つの定量的特徴値を取得し、前記ゲイン値を決定するように構成された、請求項１〜２１のいずれかに記載の周囲信号を抽出する装置。
前記ゲイン値決定部は、前記時間‐周波数ドメイン表現の所定の時間‐周波数ビンの前記ゲイン値が前記所定の時間‐周波数ビンのエネルギーの増加、または、前記所定の時間‐周波数ビンの近傍内の時間‐周波数ビンのエネルギーの増加と共に減少するように、前記ゲイン値を決定するように構成された、請求項２２に記載の周囲信号を抽出する装置。
前記ゲイン値決定部は、所定の時間‐周波数ビンのエネルギーと、前記所定の時間‐周波数ビンの予め定められた近傍の最大エネルギーまたは平均エネルギーを、分離した特徴として取り扱うように構成された、請求項２２または２３に記載の周囲信号を抽出する装置。
前記ゲイン値決定部は、前記所定の時間‐周波数ビンのエネルギーを記述する第１の定量的特徴値と、前記所定の時間‐周波数ビンの予め定められた近傍の最大エネルギーまたは平均エネルギーを記述する第２の定量的特徴値とを取得し、前記第１の定量的特徴値と前記第２の定量的特徴値を結合し、前記ゲイン値を取得するように構成された、請求項２４に記載の周囲信号を抽出する装置。
前記ゲイン値決定部は、前記入力オーディオ信号の２つ以上のチャンネル間の関連性を記述する１つ以上の定量的チャンネル関連値を取得するように構成された、請求項１〜２５のいずれかに記載の周囲信号を抽出する装置。
前記１つ以上の定量的チャンネル関連値のうちの１つは、前記入力オーディオ信号の２つのチャンネル間の相関性または整合性を記述する、請求項２６に記載の周囲信号を抽出する装置。
前記１つ以上の定量的チャンネル関連値のうちの１つは、チャンネル間の短時間整合性を記述する、請求項２６または２７に記載の周囲信号を抽出する装置。
前記１つ以上の定量的チャンネル関連値のうちの１つは、前記入力オーディオ信号の２つ以上のチャンネルに基づいて音源の位置を記述する、請求項２６〜２８のいずれかに記載の周囲信号を抽出する装置。
前記１つ以上の定量的チャンネル関連値のうちの１つは、前記入力オーディオ信号の２つ以上のチャンネルの間のチャンネル間レベル差を記述する、請求項２９に記載の周囲信号を抽出する装置。
前記ゲイン値決定部は、前記１つ以上の定量的チャンネル関連値のうちの１つとして、パニング指標を取得するように構成された、請求項２６〜３０のいずれかに記載の周囲信号を抽出する装置。
前記ゲイン値決定部は、所定の時間‐周波数ビンのスペクトル値差分とスペクトル値総計の間の比率を決定し、前記所定の時間‐周波数ビンのパニング指標を取得するように構成された、請求項３１に記載の周囲信号を抽出する装置。
前記ゲイン値決定部は、前記入力オーディオ信号のスペクトルまたは前記入力オーディオ信号のスペクトルの一部のスペクトル重心を記述するスペクトル重心特徴値を取得するように構成された、請求項１〜３２のいずれかに記載の周囲信号を抽出する装置。
前記ゲイン値決定部は、前記時間‐周波数ドメイン表現によって表された複数のサブバンド信号に従って、前記サブバンド信号の所定の１つを重み付けするためのゲイン値を提供するように構成された、請求項１〜３３のいずれかに記載の周囲信号を抽出する装置。
前記重み付け部は、サブバンドのグループを共通の一連の時間変化するゲイン値によって重み付けするように構成された、請求項１〜３４のいずれかに記載の周囲信号を抽出する装置。
前記重み付けられたサブバンド信号またはそれに基づく信号を後処理し、周囲‐直接比率を強化し、周囲‐直接比率が強化された後処理された信号を取得するように構成された信号後処理部を更に備える、請求項１〜３５のいずれかに記載の周囲信号を抽出する装置。
前記信号後処理部は、前記重み付けられたサブバンド信号またはそれに基づく信号のなかの大きな音を静かな音を保存しながら減衰させ、前記後処理された信号を取得するように構成された、請求項３６に記載の周囲信号を抽出する装置。
前記信号後処理部は、前記重み付けられたサブバンド信号またはそれに基づく信号に対して非線形圧縮を適用するように構成された、請求項３６または３７に記載の周囲信号を抽出する装置。
前記重み付けられたサブバンド信号またはそれに基づく信号を後処理し、後処理された信号を取得するように構成された信号後処理部を更に備え、
前記信号後処理部は、前記重み付けられたサブバンド信号またはそれに基づく信号を２ミリ秒から７０ミリ秒の範囲で遅延させ、前記重み付けられたサブバンド信号に基づいて正面信号と周囲信号の間の遅延を取得するように構成された、
請求項１〜３８のいずれかに記載の周囲信号を抽出する装置。
前記重み付けられたサブバンド信号またはそれに基づく信号を後処理し、後処理された信号を取得するように構成された信号後処理部を更に備え、
前記後処理部は、前記重み付けられたサブバンド信号に基づく周囲信号表現に関して周波数依存イコライズを実行し、前記周囲信号表現の音色呈色に反対に作用するように構成された、
請求項１〜３９のいずれかに記載の周囲信号を抽出する装置。
前記後処理部は、前記重み付けられたサブバンド信号に基づく周囲信号表現に関して周波数依存イコライズを実行し、前記後処理された周囲信号表現としてイコライズされた周囲信号を取得するように構成され、
前記後処理部は、前記イコライズされた周囲信号表現の長期間パワースペクトル密度を前記入力オーディオ信号に適応させるために周波数依存イコライズを実行するように構成された、
請求項４０に記載の周囲信号を抽出する装置。
前記重み付けられたサブバンド信号またはそれに基づく信号を後処理し、後処理された信号を取得するように構成された信号後処理部を更に備え、
前記信号後処理部は、前記重み付けられたサブバンド信号またはそれに基づく信号の過渡状態を低減するように構成された、
請求項１〜４１のいずれかに記載の周囲信号を抽出する装置。
前記重み付けられたサブバンド信号またはそれに基づく信号を後処理し、後処理された信号を取得するように構成された信号後処理部を更に備え、
前記後処理部は、前記重み付けられたサブバンド信号またはそれに基づく信号に基づいて、左側周囲信号と右側周囲信号を、前記左側周囲信号と前記右側周囲信号が少なくとも部分的に非相関化されるように取得するように構成された、
請求項１〜４２のいずれかに記載の周囲信号を抽出する装置。
前記入力オーディオ信号に基づいて正面信号をも提供するように構成され、
前記重み付け部は、前記時間‐周波数ドメイン表現の前記所定の周波数バンドを表したサブバンド信号のうちの１つを時間変化する正面信号のゲイン値によって重み付けし、重み付けられた正面信号のサブバンド信号を取得するように構成され、
前記重み付け部は、前記時間変化する正面信号のゲイン値が周囲信号のゲイン値の増加と共に減少するように構成された、
請求項１〜４３のいずれかに記載の周囲信号を抽出する装置。
前記重み付け部は、前記正面信号のゲイン値が前記周囲信号のゲイン値に対して相補的であるように前記時間変化する正面信号のゲイン値を提供するように構成された、請求項４４に記載の周囲信号を抽出する装置。
周囲信号の時間ドメイン表現を、前記１つ以上の重み付けられたサブバンド信号に従って提供するように構成された時間‐周波数ドメインから時間ドメインへの変換部を備える、請求項１〜４５のいずれかに記載の周囲信号を抽出する装置。
前記周囲信号を、モノラル入力オーディオ信号に基づいて抽出するように構成された、請求項１〜４６のいずれかに記載の周囲信号を抽出する装置。
１つ以上の入力オーディオ信号に基づいて、少なくとも１つの周囲信号を含むマルチチャンネルオーディオ信号を提供するマルチチャンネルオーディオ信号発生装置であって、
前記入力オーディオ信号を複数の周波数バンドを記述する複数のサブバンド信号に関して表した入力オーディオ信号の時間‐周波数ドメイン表現に基づいて周囲信号を抽出するように構成された周囲信号抽出部と、
重み付けられたサブバンド信号に基づいて１つ以上の周囲信号を提供するように構成された周囲信号提供部と、
を備え、
前記周囲信号抽出部は、
前記入力オーディオ信号に従って、前記入力オーディオ信号の時間‐周波数ドメイン表現の所定の周波数バンドに対する一連の時間変化する周囲信号のゲイン値を決定するように構成されたゲイン値決定部と、
前記時間‐周波数ドメイン表現の所定の周波数バンドを表したサブバンド信号の１つを前記時間変化するゲイン値によって重み付けし、重み付けられたサブバンド信号を取得するように構成された重み付け部と、を備え、
前記ゲイン値決定部は、前記入力オーディオ信号の１つ以上の特徴または特性を記述する１つ以上の定量的特徴値を取得し、前記ゲイン値が前記定量的特徴値に定量的に依存するように、前記ゲイン値を１つ以上の定量的特徴値の関数として提供するように構成され、
前記ゲイン値決定部は、前記重み付けられたサブバンド信号のなかの周囲成分が非周囲成分を超えて強調されるように前記ゲイン値を提供するように構成された、
マルチチャンネルオーディオ信号発生装置。
１つ以上の周囲信号を１つ以上の後方チャンネルオーディオ信号として提供するように構成された、請求項４８に記載のマルチチャンネルオーディオ信号発生装置。
１つ以上の入力オーディオ信号に基づいて１つ以上の正面チャンネルオーディオ信号を提供するように構成された、請求項４８または４９に記載のマルチチャンネルオーディオ信号発生装置。
入力オーディオ信号から周囲信号を抽出するゲイン値決定部をパラメータ化するための重み付け係数を取得する装置であって、
係数決定入力オーディオ信号の複数の特徴または特性を記述する複数の定量的特徴値の、前記重み付け係数を用いた重み付け結合に基づいて取得されたゲイン値が、前記係数決定オーディオ信号に関連づけられた予測ゲイン値を近似するように、前記重み付け係数を決定するように構成された重み付け係数決定部を備える、
重み付け係数を取得する装置。
無視できる周囲信号成分のみを含む基準オーディオ信号に基づいて前記係数決定信号を提供するように構成された係数決定信号生成部を備え、
前記係数決定信号生成部は、前記基準オーディオ信号を周囲信号成分と結合し、前記係数決定信号を取得し、かつ、
前記周囲信号成分、または、前記周囲信号成分と前記基準オーディオ信号の直接信号成分との関連性を記述する情報を前記重み付け係数決定部に提供し、前記予測ゲイン値を記述するように構成された、請求項５１に記載の重み付け係数を取得する装置。
前記係数決定信号生成生部は、前記周囲信号成分を前記基準オーディオ信号に基づいて提供するように構成された周囲信号生成部を備える、請求項５２に記載の重み付け係数を取得する装置。
マルチチャンネル基準オーディオ信号に基づいて前記係数決定信号と前記予測ゲイン値を記述する情報を提供するように構成された係数決定信号生成部を備え、
前記係数決定信号生成部は、前記マルチチャンネル基準オーディオ信号の２つ以上のチャンネル間の関連性を記述する情報を決定し、前記予測ゲイン値を記述する情報を提供するように構成された、請求項５１〜５３のいずれかに記載の重み付け係数を取得する装置。
前記係数決定信号生成部は、前記マルチチャンネル基準オーディオ信号の２つ以上のチャンネル間の相関を記述する相関ベースの定量的特徴値を決定し、前記予測ゲイン値を記述する情報を提供するように構成された、請求項５４に記載の重み付け係数を取得する装置。
前記係数決定信号生成部は、前記マルチチャンネル基準オーディオ信号の１つのチャンネルを、前記係数決定信号として提供するように構成された、請求項５４または５５に記載の重み付け係数を取得する装置。
前記係数決定信号生成部は、前記マルチチャンネル基準オーディオ信号の２つ以上のチャンネルを結合し、前記係数決定信号を取得するように構成された、請求項５４〜５６のいずれかに記載の重み付け係数を取得する装置。
前記重み付け係数決定部は、前記重み付け係数を、回帰法、類別法、またはニューラルネットを用いて決定するように構成され、前記係数決定信号はトレーニング信号として用いられ、前記予測ゲイン値は基準値として役立ち、前記係数が決定される、請求項５１〜５７のいずれかに記載の重み付け係数を取得する装置。
入力オーディオ信号を複数の周波数バンドを記述する複数のサブバンド信号に関して表した入力オーディオ信号の時間‐周波数ドメイン表現に基づいて周囲信号を抽出する方法であって、
前記入力オーディオ信号の１つ以上の特徴または特性を記述する１つ以上の定量的特徴値を取得するステップと、
前記入力オーディオ信号の時間‐周波数ドメイン表現の所定の周波数バンドに対する一連の時間変化する周囲信号のゲイン値を、前記ゲイン値が定量的特徴値に定量的に依存するように、１つ以上の定量的特徴値の関数として決定するステップと、
前記時間‐周波数ドメイン表現の前記所定の周波数バンドを表したサブバンド信号を、前記時間変化するゲイン値によって重み付けするステップと、
を備える、周囲信号を抽出する方法。
入力オーディオ信号から周囲信号を抽出するためのゲイン値の決定をパラメータ化するための重み付け係数を取得する方法であって、
前記係数決定信号のなかに存在する周囲成分についての情報、または、周囲成分と非周囲成分の関連性を記述する情報がわかるように、係数決定信号を取得するステップと、
前記係数決定信号の複数の特徴または特性を記述する複数の定量的特徴値の、前記重み付け係数による重み付け結合に基づいて取得されたゲイン値が、前記係数決定信号に関連づけられた予測ゲイン値を近似するように、前記重み付け係数を決定するステップと、
を備える、重み付け係数を取得する方法。
コンピュータプログラムがコンピュータ上で動作するときに、請求項５９または６０に記載された方法を実行する、コンピュータプログラム。