JP2010507943A

JP2010507943A - 音声信号からアンビエント信号を生成するための装置および方法、音声信号からマルチチャンネル音声信号を導出するための装置および方法並びにコンピュータプログラム

Info

Publication number: JP2010507943A
Application number: JP2009533720A
Authority: JP
Inventors: クリスティアンウーレ; ユールゲンヘレ; アンドレーアスワルサー; オリヴァーヘルムート; クリスティアンヤンセン
Original assignee: フラウンホッファー−ゲゼルシャフトツァフェルダールングデァアンゲヴァンテンフォアシュンクエー．ファオ
Priority date: 2006-10-24
Filing date: 2007-10-23
Publication date: 2010-03-11
Anticipated expiration: 2027-10-23
Also published as: PL2500900T3; ES2461191T3; HK1122391A1; US8346565B2; PL1997102T3; WO2008049587A1; AU2007308413B2; AU2007308413A1; ES2391308T3; EP2500900B1; TWI352971B; CN101536085A; WO2008049587A8; DE102006050068A1; CA2664163A1; JP5048777B2; HK1176156A1; KR101090565B1; TW200837718A; US20100030563A1

Abstract

音声信号からアンビエント信号を生成するための装置は、圧縮された音声信号を表す音声信号の圧縮表現を得るために、音声信号の表現の非可逆圧縮のための手段を含む。アンビエント信号を生成するための装置は、識別表現を得るために、音声信号の圧縮表現および音声信号の表現間の差を算出するための手段をさらに含む。装置は、識別表現を用いてアンビエント信号を提供するための手段をさらに含む。
音声信号からマルチチャンネル音声信号を導出するための装置は、音声信号からアンビエント信号を生成するための装置、フロントラウドスピーカ信号として音声信号を提供するための装置およびバックラウドスピーカ信号としてアンビエント信号を提供するための装置を含む。
【選択図】図１

Description

本発明は、一般に、音声信号からアンビエント信号を生成するための装置および方法、音声信号からマルチチャンネル音声信号を導出するための装置および方法、並びにコンピュータプログラムに関する。特に、本発明は、マルチチャンネルシステム上での再生のためのモノラル音声信号をアップミックスするための音声信号からアンビエント信号を算出するための方法および概念に関する。

以下に、本発明の基礎をなす動機が述べられる。現在、マルチチャンネル録音資料は、消費者の家庭環境においても人気が高まってきている。この主な理由は、ＤＶＤメディア上での映画がしばしば５．１マルチチャンネルサウンドを提供するということである。このために、ホームユーザでさえ、マルチチャンネル音声信号を再現することができる音声再生システムをたびたびインストールする。

対応するセットアップは、例えば、前方に配置される３つのラウドスピーカ（Ｌ，ＣおよびＲで例示される）、後方にまたはリスナーの後ろに配置される２つのラウドスピーカ（Ｌ_SおよびＲ_Sで示される）および１つの低周波効果チャンネル（ＬＦＥとも呼ばれる）からなる。前方に配置される３つのラウドスピーカ（Ｌ，Ｃ，Ｒ）は、以下においてフロントラウドスピーカとも呼ばれる。後方におよびリスナーの後ろに配置されるラウドスピーカ（Ｌ_S，Ｒ_S）は、以下においてバックラウドスピーカとも呼ばれる。

さらに、便宜上の理由で、以下の詳細および説明が５．１システムに言及する点に留意すべきである。もちろん、以下の詳細は、なされる小さい変更で、他のマルチチャンネルシステムにも適用することもできる。

マルチチャンネルシステム（例えば５．１マルチチャンネルオーディオシステム）は、２チャンネルステレオ再現に優るいくつかの周知の利点を提供する。これは、以下の利点によって例示される：
利点１：最適な（中央の）リスニングポジションと同等のポジションまたはその外で、改善されたフロントイメージの安定性。「スイートスポット」は、センターチャンネルによって広げられる。ターム「スイートスポット」は、最適なサウンド印象が（リスナーによって）知覚されるリスニングポジションのエリアを意味する。
利点２：コンサートホールの印象または体験のより良好な近似を確立すること。「包囲」および広大さのさらなる体験は、リアチャンネルラウドスピーカまたはバックチャンネルラウドスピーカによって得られる。

それにもかかわらず、２つの（「ステレオの」）音声チャンネルからなる大量のレガシー音声内容が、例えばコンパクトディスクにまだある。非常に古いレコード、古い映画およびテレビの連続番組でさえ、モノラル品質においておよび／または１チャンネル「モノラル」音声信号によって利用できるＣＤおよび／またはＤＶＤで販売される。

したがって、５．１マルチチャンネルセットアップを介してモノラルのレガシー録音資料の再生のためのオプションがある：
オプション１：真のモノラルソースを得るために、センターを通してまたはセンターラウドスピーカを通してモノラルチャンネルの再現または再生。
オプション２：ＬおよびＲラウドスピーカに優る（すなわちフロントレフトラウドスピーカおよびフロントライトラウドスピーカに優る）モノラル信号の再現または再生。
この方法は、リスナーがスイートスポットにおいてまたはそこに座る場合に、真のモノラルソースに比べてより広い知覚されたソース幅を有するがリスナーに最も近いラウドスピーカへの傾向を有するファントムモノラルソースを発生する。
この方法は、２チャンネル再生システムが利用できる場合に用いることができ、それは、拡張されたラウドスピーカセットアップ（例えば５つまたは６つのラウドスピーカを有するラウドスピーカセットアップ）を用いない。Ｃラウドスピーカまたはセンターラウドスピーカ、Ｌ_Sラウドスピーカまたはリアレフトラウドスピーカ、Ｒ_SラウドスピーカまたはリアライトラウドスピーカおよびＬＦＥラウドスピーカまたは低周波効果チャンネルラウドスピーカは、用いられないままである。
オプション３：ある方法は、モノラル信号のチャンネルを、５．１ラウドスピーカの全て（すなわち、５．１マルチチャンネルシステムに用いられる全部で６つのラウドスピーカ）を用いるマルチチャンネル信号に変換するために用いることができる。このように、マルチチャンネル信号は、マルチチャンネルセットアップの先に述べられた利点から利益を得る。この方法は、リアルタイムに若しくは「オンザフライ」でまたは前処理によって用いることができ、アップミックスプロセスまたは「アップミキシング」と呼ばれる。

オーディオ品質またはサウンド品質に関して、オプション３は、オプション１およびオプション２に優る利点を提供する。しかしながら、特にリアラウドスピーカに供給するために生成される信号に関して、必要な信号処理は明らかでない。

文献には、アップミックス方法またはアップミックスプロセスのための２つの異なる概念が記載される。これらの概念は、「直接／アンビエントの概念」および「バンドにおける概念」である。述べられた２つの概念は、以下に記載される。

直接／アンビエントの概念

「直接のサウンドソース」は、それらが元の２チャンネルバージョンのような同じ位置で知覚されるように、３つのフロントチャンネルを通して再現されまたは再生される。ここでターム「直接のサウンドソース」は、１つの個別のサウンドソース（例えば楽器）から唯一かつ直接に生じかつ例えば壁から反射することによるさらなるサウンドをほとんどあるいは全く示さない、サウンドを表すために用いられる。

このシナリオにおいて、リアラウドスピーカに供給されるサウンドまたはノイズは、アンビエンスのようなサウンドまたはアンビエンスのようなノイズ（元のレコードに存在してもよくまたは存在しなくてもよい）からなるべきである。アンビエンスのようなサウンドまたはアンビエンスのようなノイズは、１つの単一のサウンドソースまたはノイズソースと関連しないが、レコードの音響環境（室内音響学）の再現若しくは再生にまたはリスナーのいわゆる「包囲感覚」に貢献する。アンビエンスのようなサウンドまたはアンビエンスのようなノイズは、実演での観客からのさらなるサウンド若しくはノイズ（例えば拍手）、または、芸術的な意図によって追加される環境サウンドまたは環境ノイズ（例えばレコーディングノイズ、鳥の鳴き声、コオロギの鳴き声サウンド）である。

例として、図７は、（音声レコードの）元の２チャンネルバージョンを表す。図８は、直接／アンビエントの概念を用いるアップミックスされた演奏を示す。

バンドにおける概念

「バンドにおける概念」としばしば呼ばれるサラウンディング概念に従って、それぞれのサウンドまたはノイズは（直接のサウンドもアンビエントのノイズも）、リスナーの周囲に完全におよび／または任意に位置付けることができる。ノイズまたはサウンドの位置は、その特性（直接のサウンドまたは直接のノイズまたはアンビエントのサウンドまたはアンビエントのノイズ）から独立し、アルゴリズムの詳細設計およびそのパラメータの設定に依存する。

図９は、サラウンディング概念を表す。

要約すると、図７、図８および図９は、いくつかの再生概念を示す。ここで、図７、図８および図９は、リスナーがサウンドの源を知覚する場所を暗いプロットされたエリアとして表す。図７は、ステレオ再生中の音響知覚を表す。図８は、直接／アンビエントの概念を用いる音響知覚および／またはサウンド定位を表す。図９は、サラウンディング概念を用いるサウンド知覚および／またはサウンド定位を表す。

以下のセクションは、マルチチャンネルバージョンを形成するために１チャンネルまたは２チャンネル信号のアップミキシングに関して先行技術に優る概要を示す。文献は、１チャンネル信号およびマルチチャンネル信号をアップミックスするためのいくつかの方法を教える。

非信号適応法

いわゆる「擬似ステレオ」信号を生成するための大部分の方法は、非信号適応である。これは、信号の内容に関係なく、それらが同様にいかなるモノラル信号も処理することを意味する。これらのシステムは、生成された信号を非相関するために、単純なフィルタ構造および／または時間遅延でしばしば作動する。そのようなシステムの全般的概観は、例えば、非特許文献１に見つけることができる。

信号適応法

マトリクスデコーダ（例えば、非特許文献２に記載されるドルビープロロジックＩＩデコーダ、非特許文献３に記載されるＤＴＳＮＥＯ：６デコーダ、または、非特許文献４に記載されるハーマン・カードン（ＨａｒｍａｎＫａｒｄｏｎ）／レキシコンロジック７デコーダ）は、現在販売されるあらゆるオーディオ／ビデオレシーバに包含される。それらの実際であるか意図された機能の副産物として、これらのマトリクスデコーダはブラインドアップミキシングを実行することができる。

言及されるデコーダは、マルチチャンネル出力信号を作り出すために、チャンネル間差および信号適応ステアリングメカニズムを用いる。

マルチチャンネルオーディオアップミキシングのためのステレオ信号からアンビエンスの抽出および合成

アベンダノ（Ａｖｅｎｄａｎｏ）およびヨット（Ｊｏｔ）は、ステレオ音声信号においてアンビエンス情報を確認して抽出するために周波数ドメイン技術を提唱する（非特許文献５参照）。

その方法は、主に２チャンネル信号においてアンビエンス成分またはアンビエンス部分からなる時間周波数領域の決定を可能にするチャンネル間コヒーレンスインデックスおよび非線形マッピング関数を算出することに基づく。そして、アンビエンス信号は、マルチチャンネル再生システムのサラウンドチャンネルに供給するために、合成され用いられる。

ステレオサウンドをマルチチャンネルサウンドに変換する方法

イルワン（Ｉｒｗａｎ）およびアーツ（Ａａｒｔｓ）は、信号をステレオ表現からマルチチャンネル表現に変換するための方法を示す（非特許文献６参照）。サラウンドチャンネルのための信号は、相互相関技術を用いて算出される。主成分分析（ＰＣＡ）は、主要な信号の方向を示すベクトルを算出するために用いられる。そして、このベクトルは、３つのフロントチャンネルを生成するために、２チャンネル表現から３チャンネル表現にマップされる。

アンビエンスに基づくアップミキシング

ソーロドル（Ｓｏｕｌｏｄｒｅ）は、ステレオ信号からマルチチャンネル信号を生成するシステムを示す（非特許文献７参照）。信号は、いわゆる「個々のソースストリーム」および「アンビエンスストリーム」に分解される。これらのストリームに基づいて、いわゆる「エステティックエンジン（ａｅｓｔｈｅｔｉｃｅｎｇｉｎｅ）」は、マルチチャンネル出力を合成する。しかしながら、分解ステップおよび合成ステップに関するさらなる技術的な詳細は、示されていない。

空間キューに基づく擬似ステレオ音響

準信号適応の擬似ステレオプロセスは、非特許文献１にファラー（Ｆａｌｌｅｒ）によって記載される。この方法は、同じ信号のモノラル信号および所定のステレオレコードを用いる。さらなる空間情報または空間キューは、ステレオ信号から抽出され、モノラル信号をステレオ信号に変換するために用いられる。

Ｃ．Ｆａｌｌｅｒ、「擬似ステレオ音響再訪（ＰｓｅｕｄｏｓｔｅｒｅｏｐｈｏｎｙＲｅｖｉｓｉｔｅｄ）」、ＡＥＳの第１１８回コンベンションで発表（Ｐｒｅｓｅｎｔｅｄａｔｔｈｅ１１８ｔｈＣｏｎｖｅｎｔｉｏｎｏｆｔｈｅＡＥＳ）、スペイン、バルセロナ、２００５年Ｒ．Ｄｒｅｓｓｌｅｒ、「ドルビーサラウンドプロロジック２デコーダ−動作原理（ＤｏｌｂｙＳｕｒｒｏｕｎｄＰｒｏｌｏｇｉｃ２Ｄｅｃｏｄｅｒ−Ｐｒｉｎｃｉｐｌｅｓｏｆｏｐｅｒａｔｉｏｎ）」、２０００年、技術レポート（Ｔｅｃｈ．Ｒｅｐ．）、ドルビーラボラトリーズ（ＤｏｌｂｙＬａｂｏｒａｔｏｒｉｅｓ）、インターネット＜ＵＲＬ：ｈｔｔｐ：／／ｗｗｗ．ｄｏｌｂｙ．ｃｏｍ／ａｓｓｅｔｓ／ｐｄｆ／ｔｅｃｈｌｉｂｒａｒｙ／２０８ＤｏｌｂｙＳｕｒｒｏｕｎｄＰｒｏＬｏｇｉｃＤｅｃｏｄｅｒ．ｐｄｆ＞ＤＴＳ技術スタッフ、「ＤＴＳＮＥｏの概要：６マルチチャンネル（ＡｎｏｖｅｒｖｉｅｗｏｆＤＴＳＮＥｏ：６ｍｕｌｔｉ−ｃｈａｎｎｅｌ）」、ＤＴＳ、インターネット＜ＵＲＬ：ｈｔｔｐ：／／ｗｗｗ．ｄｔｓ．ｃｏｍ／ｍｅｄｉａ／ｕｐｌｏａｄｓ／ｐｄｆｓ／ＤＴＳ％２０Ｎｅｏ６％２０Ｏｖｅｒｖｉｅｗ．ｐｄｆ＞ＨａｒｍａｎＫａｒｄｏｎ技術スタッフ、「ロジック７説明（Ｌｏｇｉｃ７ｅｘｐｌａｉｎｅｄ）」、ＨａｒｍａｎＫａｒｄｏｎ、インターネット＜ＵＲＬ：ｈｔｔｐ：／／ｍａｎｕａｌｓ．ｈａｒｍａｎ．ｃｏｍ／ＨＫ／Ｔｅｃｈｎｏｌｏｇｙ％２０Ａｒｔｉｃｌｅｓ／ｌｏｇｉｃ７−ＴｅｃｈＳｈｅｅｔ．ｐｄｆ＞Ｃ．ＡｖｅｎｄａｎｏおよびＪ．Ｍ．Ｊｏｔ、「マルチチャンネルオーディオアップミックスのためのステレオ信号からアンビエンスの抽出および合成（ＡｍｂｉｅｎｃｅＥｘｔｒａｃｔｉｏｎａｎｄＳｙｎｔｈｅｓｉｓｆｒｏｍＳｔｅｒｅｏＳｉｇｎａｌｓｆｏｒＭｕｌｔｉ−ｃｈａｎｎｅｌＡｕｄｉｏＵｐｍｉｘ）」、ＩＥＥＥの音響音声信号処理に関する国際会議（ＩＣＡＳＳＰ）のプロシーディング、フロリダ州、オーランド、２００２年５月Ｒ．ＩｒｗａｎおよびＲ．Ｍ．Ａａｒｔｓ、「ステレオをマルチチャンネルサウンドに変換する方法（Ａｍｅｔｈｏｄｔｏｃｏｎｖｅｒｔｓｔｅｒｅｏｔｏｍｕｌｔｉ−ｃｈａｎｎｅｌｓｏｕｎｄ）」、ＡＥＳ第１９回国際会議で発表（ＰｒｅｓｅｎｔｅｄａｔｔｈｅＡＥＳ１９ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅ）、ドイツ、シュロスエルマウ、２００１年６月２１日−２４日、１３９−１４３頁Ｇ．Ｓｏｕｌｏｄｒｅ、「アンビエンスに基づくアップミキシング（Ａｍｂｉｅｎｃｅ−ＢａｓｅｄＵｐｍｉｘｉｎｇ）」、ワークショップサラウンドサウンドの空間符号化：プログレスレポート（ＷｏｒｋｓｈｏｐＳｐａｔｉａｌＣｏｄｉｎｇｏｆＳｕｒｒｏｕｎｄＳｏｕｎｄ：ＡＰｒｏｇｒｅｓｓＲｅｐｏｒｔ）、第１１７回ＡＥＳコンベンションで発表（Ｐｒｅｓｅｎｔｅｄａｔｔｈｅ１１７ｔｈＡＥＳｃｏｎｖｅｎｔｉｏｎ）、米国、カリファルニア州、サンフランシスコ、２００４年Ｄ．ＬｅｅおよびＨ．Ｓｅｕｎｇ、「負でないマトリクス因数分解によるオブジェクトの部分の学習（ＬｅａｒｎｉｎｇｔｈｅｐａｒｔｓｏｆｏｂｊｅｃｔｓｂｙＮｏｎ−ｎｅｇａｔｉｖｅＭａｔｒｉｘＦａｃｔｏｒｉｚａｔｉｏｎ）」、ＬｅｔｔｅｒｓＴｏＮａｔｕｒｅ、１９９９年Ａ．Ｃｉｃｈｏｃｋｉ，Ｒ．ＺｄｕｎｅｋおよびＳ．Ａｍａｒｉ、「ブラインドソース分離へのアプリケーションにおける負でないマトリクス因数分解のための新しいアルゴリズム（ＮｅｗａｌｇｏｒｉｔｈｍｓｆｏｒＮｏｎ−ｎｅｇａｔｉｖｅＭａｔｒｉｘＦａｃｔｏｒｉｚａｔｉｏｎｉｎａｐｐｌｉｃａｔｉｏｎｓｔｏＢｌｉｎｄＳｏｕｒｃｅＳｅｐａｒａｔｉｏｎ）」、ＩＥＥＥの音響音声信号処理に関する国際会議（ＩＣＡＳＳＰ）のプロシーディング、２００６年Ｄ．ＬｅｅおよびＨ．Ｓｅｕｎｇ、「負でないマトリクス因数分解のためのアルゴリズム（ＡｌｇｏｒｉｔｈｍｓｆｏｒＮｏｎ−ｎｅｇａｔｉｖｅＭａｔｒｉｘＦａｃｔｏｒｉｚａｔｉｏｎ）」、ＮＩＰＳのプロシーディング、２００１年Ｃ．Ｄｕｘｂｕｒｙ，Ｍ．Ｄａｖｉｅｓ，Ｍ．Ｓａｎｄｌｅｒ、「マルチ解像度分析技術を用いた音楽的な音声における過渡情報の分離（Ｓｅｐａｒａｔｉｏｎｏｆｔｒａｎｓｉｅｎｔｉｎｆｏｒｍａｔｉｏｎｉｎｍｕｓｉｃａｌａｕｄｉｏｕｓｉｎｇｍｕｌｔｉｒｅｓｏｌｕｔｉｏｎａｎａｌｙｓｉｓｔｅｃｈｎｉｑｕｅｓ）」、ＤＡＦＸ−０１のプロシーディング、２００１年Ｍ．ＧｏｏｄｗｉｎおよびＣ．Ａｖｅｎｄａｎｏ、「過渡検出および変更を用いた音声信号のエンハンスメント（ＥｎｈａｎｃｅｍｅｎｔｏｆＡｕｄｉｏＳｉｇｎａｌｓＵｓｉｎｇＴｒａｎｓｉｅｎｔＤｅｔｅｃｔｉｏｎａｎｄＭｏｄｉｆｉｃａｔｉｏｎ）」、第１１７回ＡＥＳコンベンションで発表（Ｐｒｅｓｅｎｔｅｄａｔｔｈｅ１１７ｔｈＡＥＳｃｏｎｖｅｎｔｉｏｎ）、米国、カリファルニア州、サンフランシスコ、２００４年Ａ．Ｗａｌｔｈｅｒ，Ｃ．Ｊａｎｓｓｅｎ，Ｊ．ＨｅｒｒｅおよびＯ．Ｈｅｌｌｍｕｔｈ、「アンビエンスのような信号における過渡抑制（（Ｔｒａｎｓｉｅｎｔｓｕｐｐｒｅｓｓｉｏｎｉｎａｍｂｉｅｎｃｅ−ｌｉｋｅｓｉｇｎａｌｓ）」、ＰａｔｅｎｔＦＰＬ−Ｆａｌｌｎｕｍｍｅｒ：０６Ｆ４７２４２−ＩＩＳＧ．Ｋｅｎｄａｌｌ、「空間イメージにおける音声信号およびその影響の非相関（Ｔｈｅｄｅｃｏｒｒｅｌａｔｉｏｎｏｆａｕｄｉｏｓｉｇｎａｌｓａｎｄｉｔｓｉｍｐａｃｔｏｎｓｐａｔｉａｌｉｍａｇｅｒｙ）」、ＣｏｍｐｕｔｅｒＭｕｓｉｃＪｏｕｒｎａｌ、１９：４、１９９５年Ｃ．ＦａｌｌｅｒおよびＦ．Ｂａｕｍｇａｒｔｅ、「バイノーラルキュー符号化−パート２（ＢｉｎａｕｒａｌＣｕｅＣｏｄｉｎｇ−Ｐａｒｔ２）：ＳｃｈｅｍｅｓａｎｄＡｐｐｌｉｃａｔｉｏｎｓ、ＩＥＥＥＴＳＡＰ、２００３年Ｃ．Ｆａｌｌｅｒ、「空間オーディオのパラメータ符号化（Ｐａｒａｍｅｔｒｉｃｃｏｄｉｎｇｏｆｓｐａｔｉａｌａｕｄｉｏ」、Ｐｈｄｔｈｅｓｉｓ、２００４年Ｍ．Ｓｃｈｒｏｅｄｅｒ、「単一信号の使用から得られる人工的な立体音響効果（Ａｎａｒｔｉｆｉｃｉａｌｓｔｅｒｅｏｐｈｏｎｉｃｅｆｆｅｃｔｏｂｔａｉｎｅｄｆｒｏｍｕｓｉｎｇａｓｉｎｇｌｅｓｉｇｎａｌ）」、ＪＡＥＳ６：７４、１９５７年Ｇ．ＰｏｔａｒｄおよびＩ．Ｂｕｒｎｅｔｔ、「３Ｄ音声ディスプレイにおいて見掛け上のサウンドソース幅のレンダリングのための非相関技術（Ｄｅｃｏｒｒｅｌａｔｉｏｎｔｅｃｈｎｉｑｕｅｓｆｏｒｔｈｅｒｅｎｄｅｒｉｎｇｏｆａｐｐａｒｅｎｔｓｏｕｎｄｓｏｕｒｃｅｗｉｄｔｈｉｎ３Ｄａｕｄｉｏｄｉｓｐｌａｙｓ）」、ＤＡＦＸ−０４のプロシーディング、２００４年

本発明の目的は、音声信号からアンビエント信号を生成するため概念および音声信号からマルチチャンネル音声信号を導出するための概念を提供することであり、それらの概念は、アンビエント信号が特に良好な聴覚印象を伝えるするように、１チャンネル信号においていかなる前の情報なしに１チャンネル信号からアンビエント信号の生成を可能にする。

この目的は、請求項１に記載の音声信号からアンビエント信号を生成するための装置、請求項２０、２７または２８に記載の音声信号からマルチチャンネル音声信号を導出するための装置、請求項２５に記載の音声信号からアンビエント信号を生成するための方法、請求項２６、２９または３０に記載の音声信号からマルチチャンネル音声信号を導出するための方法、および請求項３１に記載のコンピュータプログラムによって達成される。

本発明は、圧縮された音声信号を表す音声信号の圧縮表現を得るために、音声信号の表現の非可逆圧縮のための手段によって音声信号からアンビエント信号を生成するための装置を提供する。アンビエント信号を生成するための装置は、識別表現を得るために、音声信号の圧縮表現および音声信号の表現間の差を算出するための手段をさらに含む。アンビエント信号を生成するための装置は、識別表現を用いてアンビエント信号を提供するための手段をさらに含む。

アンビエント信号が、音声信号の元の表現の非可逆圧縮によって生成された音声信号の圧縮表現および音声信号の元の表現間の差を決定することによって特に効率的な方法で音声信号から生成され得ることは、本発明の主要な考えである。すなわち、非可逆圧縮の使用において、元の音声信号と非可逆圧縮によって元の音声信号から得られる非可逆圧縮における音声信号との間の差が、アンビエント信号、すなわち、例えば、ノイズのようなまたはアンビエンスのようなまたは非局在化可能な信号を実質的に表すことが示される。

換言すれば、非可逆圧縮を実行するときに、音声信号の圧縮表現は、局在化可能なサウンドイベントまたは直接のサウンドイベントを実質的に含む。これは、特に局在化可能なサウンドイベントが特に高エネルギーおよび特に特性波形を特徴とするという事実に基づく。したがって、局在化可能な信号は、圧縮表現が高エネルギーまたは特性波形の局在化可能な信号を実質的に含むように、非可逆圧縮によって処理されることが好ましい。

しかしながら、非可逆圧縮において、特にいかなる特性波形も典型的に示さない非局在化可能なアンビエント信号は、局在化可能な信号に比べて圧縮表現によってより少ない程度に示される。このように、非可逆圧縮の方法における音声信号の表現および音声信号の元の表現間の差が音声信号の非局在化可能な部分を実質的に表すことが認識される。さらに、音声信号の非可逆圧縮の方法における表現および音声信号の元の表現間の差をアンビエント信号として用いることが結果として特に良好な聴覚印象をもたらすことが認識される。

換言すれば、音声信号の非可逆圧縮が典型的に音声信号のアンビエント信号部分を組み込まないか非常に小さい程度にだけ組み込むことが認識され、したがって、特に音声信号の元の表現および音声信号の非可逆圧縮の方法における表現間の差は、音声信号のアンビエント信号部分によく近似する。したがって、請求項１によって定義される本発明の概念は、音声信号からアンビエント信号部分のブラインド抽出に適している。

本発明の概念は、アンビエント信号がいかなる追加の補助情報の存在なしで１チャンネル信号からも抽出することができるという点で特に有利である。さらに、本発明の概念は、アルゴリズム的に単純なステップ、すなわち非可逆圧縮を実行するステップおよび非可逆圧縮の方法における音声信号の表現および音声信号の元の表現間の差を算出するステップからなる。さらに、本発明の方法は、合成の音声効果がアンビエント信号に導入されないという点で有利である。したがって、アンビエント信号は、アンビエント信号を生成するための従来の方法との関連で生じるような残響が存在しない。さらに、本発明の方法において生成されるアンビエント信号は非可逆圧縮との関連におけるように聴覚印象を妨げるいかなる高エネルギー部分ももはや典型的に有しない点に留意すべきであり、そのような高エネルギー部分は、非可逆圧縮の方法における音声信号の表現に含まれ、したがって、非可逆圧縮の方法における表現および音声信号の元の表現間の差において生じないか非常にわずかに生じるだけである。

換言すれば、本発明によれば、アンビエント信号は、非可逆圧縮との関連で情報内容の表現のために重要でないと考えられるそれらの部分を正確に含む。しかしながら、この情報は背景ノイズを正確に表す。

したがって、本発明の概念は、非可逆圧縮を用いて局在化可能な情報および背景ノイズの一貫した分離を可能にし、非可逆圧縮によって抑制され除去されるべき背景ノイズは、アンビエント信号として働く。

本発明は、音声信号からフロントラウドスピーカ信号およびバックラウドスピーカ信号を含むマルチチャンネル音声信号を導出するための装置をさらに提供する。ここで、マルチチャンネル音声信号を導出するための装置は、上述にように音声信号からアンビエント信号を生成するための装置を含む。アンビエント信号を生成するための装置は、音声信号の表現を受信するように構成される。マルチチャンネル音声信号を導出するための装置は、フロントラウドスピーカ信号として音声信号またはそれから導出される信号を提供するための装置と、バックラウドスピーカ信号としてアンビエント信号を生成するための装置によって提供されるアンビエント信号またはそれから導出される信号を提供するためのバックラウドスピーカ信号提供装置とをさらに含む。換言すれば、マルチチャンネル音声信号を導出するための装置は、バックラウドスピーカ信号としてアンビエント信号を生成するための装置によって生成されるアンビエント信号を用いるが、マルチチャンネル音声信号を導出するための装置は、フロントラウドスピーカ信号としてまたはフロントラウドスピーカ信号の基礎として元の音声信号をさらに用いる。したがって、全体としてマルチチャンネル音声信号を導出するための装置は、１つの単一の元の音声信号に基づいて、マルチチャンネル音声信号のフロントラウドスピーカ信号およびバックラウドスピーカ信号の両方を生成することができる。したがって、元の音声信号は、フロントラウドスピーカ信号を提供するために用いられる（またはフロントラウドスピーカ信号を直接にさえ表す）が、元の音声信号の非可逆圧縮の方法における表現および元の音声信号の表現間の差は、バックラウドスピーカ信号を生成するために働く（またはバックラウドスピーカ信号として直接にさえ用いられる）。

さらに、本発明は、それらの機能性に関する限り、本発明の装置に対応する方法を提供する。

本発明は、本発明の方法を実現するコンピュータプログラムをさらに提供する。

本発明の好適な特に有利な実施形態は、添付の請求の範囲によって別に定義される。

以下に、本発明の好適な実施形態例が添付図面に関して述べられる。

図１は、本発明の実施形態による音声信号からアンビエント信号を生成するための本発明の装置のブロック図である。図２は、本発明の実施形態による音声信号からアンビエント信号を生成するための本発明の装置のブロック図である。図３は、本発明の実施形態による音声信号からアンビエント信号を生成するための本発明の装置の詳細なブロック図である。図４ａは、２つのマトリクスの積によるマトリクスの近似表現の例となる表現である。図４ｂは、マトリクスＸの略図である。図５は、本発明の実施形態による音声信号からマルチチャンネル音声信号を導出するための本発明の装置のブロック図である。図６は、本発明の実施形態による音声信号からアンビエント信号を作り出すための本発明の方法のフローチャートである。図７は、ステレオ再生概念における聴覚印象の略図である。図８は、直接／アンビエントの概念における聴覚印象の略図である。図９は、サラウンディング概念における聴覚印象の略図である。

図１は、本発明の実施形態による音声信号からアンビエント信号を生成するための本発明の装置のブロック図を示す。

図１による装置は、その全体が１００で示される。装置１００は、基本的に任意に選択することができる表現における音声信号を受信するように構成される。換言すれば、装置１００は、音声信号の表現を受信する。装置１００は、音声信号または音声信号の表現の非可逆圧縮のための手段１１０を含む。手段１１０は、音声信号の表現１０８を受信するように構成される。手段１１０は、音声信号の（元の）表現１０８から音声信号の非可逆圧縮の方法における表現１１２を生成する。

装置１００は、音声信号の非可逆圧縮の方法における音声信号の表現１１２および（元の）表現１０８間の差を算出するための手段１２０をさらに含む。したがって、手段１２０は、音声信号の非可逆圧縮の方法における表現１１２および音声信号の（元の）表現１０８を受信するように構成される。音声信号の（元の）表現１０８および音声信号の非可逆圧縮の方法における表現１１２に基づいて、手段１２０は、音声信号の（元の）表現１０８および音声信号の非可逆圧縮の方法における表現１１２間の差を表す識別表現１２２を算出する。

装置１００は、識別表現１２２を用いておよび／またはそれに基づいておよび／またはそれの関数としてアンビエント信号１３２を提供するための手段１３０をさらに含む。

装置１００の上述の構造記述に基づいて、装置１００の動作が以下に簡単に記載される。装置１００は、音声信号の表現１０８を受信する。手段１１０は、音声信号の非可逆圧縮の方法における表現１１２を生成する。手段１２０は、音声信号の表現１０８および音声信号の非可逆圧縮の方法における表現１１２間の差を表すおよび／または言及される差の関数である識別表現１２２を算出する。換言すれば、識別表現１２２は、表現１０８によって表される（元の）音声信号のそれらの信号部分を表し、それらの信号部分は、非可逆圧縮のための手段１１０による音声信号の非可逆圧縮の方法における表現１１２において、除去されるおよび／または再生されない。典型的に、手段１１０によって、正確に不規則な曲線を示すそれらの信号部分が、音声信号の非可逆圧縮の方法における表現１１２において、除去されるおよび／または再生されないので、識別表現１２２は、正確に不規則な曲線または不規則なエネルギー分布を有するそれらの信号部分、すなわち、例えば、ノイズのような信号部分を表す。典型的に、リスナーに特に重要である直接の部分および／または「局在化可能な信号部分」が、フロントラウドスピーカによって（「バック」ラウドスピーカによってではなく）再生されるので、識別表現１２２は、この事項に関して、音声再生の要件に適応する。このように、元の音声信号の直接の部分および／または局在化可能な部分は、実質的に破損されないように音声信号の非可逆圧縮の方法における表現１１２に含まれ、したがって、要求されるように識別表現１２２において実質的に抑制される。一方、音声信号の非可逆圧縮の方法における表現１１２において、不規則に分布されたエネルギーおよび／または少ない局在化可能性を有する情報部分は低減される。その理由は、非可逆圧縮において、非可逆圧縮のための手段１１０によって実行されるように、規則的に分布されたエネルギーのおよび／または高エネルギーを有する情報が音声信号の非可逆圧縮の方法における表現１１２に持ち越されるということであるが、不規則に分布されたエネルギーおよび／または低エネルギーを有する（元の）音声信号の部分は、減衰された形で音声信号の非可逆圧縮の方法における表現１１２にまたはわずかな程度だけに持ち越される。その結果、不規則なエネルギー分布を有する信号部分のおよび／または非可逆圧縮との関連で生じる音声信号の低エネルギー信号部分の減衰によって、識別表現１２２は、低エネルギー信号部分および／または不規則に分布されたエネルギーを有する信号部分の比較的大きい部分をまだ含む。それらが識別表現１２２によって表されるように、正確にエネルギーがあまり豊富でないこれらの信号部分および／または不規則に分布されたエネルギーを有する信号部分は、（バックラウドスピーカによる）再生において特に良好で快適な聴覚印象をもたらす情報を表す。

要約すれば、識別表現１２２において、規則的に分布されたエネルギー（すなわち、例えば、局在化可能な信号）を有する信号部分が抑制されまたは減衰されると述べることができる。それとは対照的に、識別表現１２２において、不規則に分布されたエネルギー（例えば非局在化可能な信号）を有する信号部分は、抑制されず減衰されない。したがって、識別表現において、不規則に分布されたエネルギーを有する信号部分は、規則的に分布されたエネルギーを有する信号部分と比較して、強調されまたは強められる。したがって、識別表現は、アンビエント信号として特に適している。

換言すれば、好適な実施形態において、時間周波数表現において繰り返して現れる全てのものは、非可逆圧縮によってよく近似される。

ここで、規則的なエネルギー分布は、例えば、時間周波数表現において繰り返し起こるパターンを生じるまたは時間周波数表現においてエネルギーの局所的な集中を生じるエネルギー分布であることを意味する。不規則なエネルギー分布は、例えば、時間周波数表現においていかなる繰り返して起こるパターンもエネルギーの局所的な集中も生じないエネルギー分布である。

換言すれば、好適な実施形態において、アンビエント信号は、（例えば時間周波数分布において構造化されていない）構造化されていないエネルギー分布を有する信号部分を実質的に含むが、音声信号の非可逆圧縮の方法における表現は、（例えば上述のように時間周波数表現において構造化された）構造化されたエネルギー分布を有する信号部分を実質的に含む。

したがって、識別表現１２２に基づいてアンビエント信号を提供するための手段１３０は、人間のリスナーの予想に特によく適応するアンビエント信号を提供する。

非可逆圧縮のための手段１１０は、例えば、ＭＰ３音声圧縮器、ＭＰ４音声圧縮器、ＥＬＰ音声圧縮器またはＳＰＲ音声圧縮器であってもよい。

以下に図２および図３に関して、本発明の実施形態がより詳細に記載される。このために、図２は、本発明の実施形態による音声信号からアンビエント信号を生成するための本発明の装置のブロック図を示す。さらに、図３は、本発明の実施形態による音声信号からアンビエント信号を生成するための本発明の装置の詳細なブロック図を示す。その全体において、図２による装置が２００で示され、さらに、その全体において、図３による装置が３００で示される。

装置２００は、例えば、時間表現ｘ［ｎ］の形で存在する入力信号２０８を受信するように構成される。入力信号２０８は、音声信号を典型的に表す。

手段２００は、時間周波数分布プロバイダ２１０を含む。時間周波数分布プロバイダ２１０は、時間表現ｘ［ｎ］において存在する入力信号２０８から時間周波数分布（ＴＦＤ）を生成するように構成される。時間周波数分布プロバイダ２１０は任意である点に留意すべきである。すなわち、時間周波数表現の表現２１２が、装置２００の入力信号として働くこともでき、この場合、時間周波数分布の表現２１２に対して、時間信号として存在する入力信号２０８（ｘ［ｎ］）の変換が、省略されてもよい。

時間周波数分布の表現２１２は、例えば、時間周波数分布マトリクスの形で存在してもよい点にさらに留意すべきである。例えば、以下にさらに詳細に説明されるマトリクスＸ（ω，ｋ）、または他にマトリクス｜Ｘ（ω，ｋ）｜が、時間周波数分布の表現２１２として働いてもよい点にさらに留意すべきである。

手段２００は、近似手段２２０をさらに含み、それは、時間周波数分布の表現２１２を受信し、さらに、表現２１２と比較して典型的に非可逆圧縮される時間周波数表現２１２の近似表現２２２を生成するように構成される。換言すれば、時間周波数分布２１２の近似または近似表現２２２は、例えば以下にさらに詳細に記載されるように数値最適化法を用いて、近似のための手段２２０によって形成される。しかしながら、近似は、（音声信号の元の表現である）時間周波数分布の（元の）表現２１２と時間周波数分布の近似表現２２２との間の偏差を引き起こすと仮定される。本発明の１つの実施形態において、元の表現２１２と時間周波数分布の近似表現２２２との間の差は、近似のための手段２２０が非可逆近似を実行するように好ましくは構成されるという事実に基づき、エネルギーの規則的な分布を示すおよび／または大きい信号エネルギーを伝える信号部分は、近似表現に持ち越されることが好ましいが、比較的不規則に分布されたエネルギーおよび／または比較的より少ない信号エネルギーを示す信号部分は、規則的に分布されたエネルギーおよび／または大きい信号エネルギーを有する信号部分と比較して近似表現２２２において減衰されまたは弱められる。

装置２００は、元の表現２１２および近似表現２２２間の差に基づいて、基本的に元の表現２１２および近似表現２２２間の差を表すおよび／または元の表現２１２および近似表現２２２間の差の関数である識別表現２３２を生成するために、時間周波数分布の元の表現２１２および時間周波数表現の近似表現２２２を受信するように構成される差決定器２３０をさらに含む。識別表現２３２の算出に関する詳細は、以下に説明される。

装置２００は、再合成手段２４０をさらに含む。再合成手段２４０は、それに基づいて再合成信号２４２を生成するために、識別表現２３２を受信するように構成される。再合成手段２４０は、例えば、時間周波数分布の形で存在する識別表現２３２を時間信号２４２に変換するように構成されてもよい。

再合成手段２４０は、任意であり、例えば必要に応じて時間周波数分布の形で存在してもよい識別表現２３２の直接の再処理の場合に省略されてもよい点にさらに留意すべきである。

手段２００は、マルチチャンネル音声信号をアセンブルするためのおよび／または後処理するための任意の手段２５０をさらに含む。手段２５０は、例えば、再合成のための手段２４０から再合成信号２４２を受信し、さらに、再合成信号２４２から（ａ₁［ｎ］，・・・，ａ_k［ｎ］で示される）複数のアンビエント信号２５２，２５４を生成するように構成される。

複数のアンビエント信号２５２，２５４の生成は、以下にさらに詳細に説明される。

要約すれば、本発明がアンビエント信号の計算に実質的に関することが示される。図２のブロック図は、本発明の実施形態による本発明の概念および本発明の装置および本発明の方法の簡単な概要を提供するように働く。本発明の概念は、以下の通りに短く要約することができる。

入力信号２０８（ｘ［ｎ］）の時間周波数分布２１２（ＴＦＤ）は、時間周波数分布を決定するための（任意の）手段２１０において（任意に）計算される。計算は、以下にさらに詳細に説明される。入力信号２０８（ｘ［ｎ］）の時間周波数分布２１２（ＴＦＤ）の近似２２０は、例えば、以下にさらに詳細に記載される数値近似のための方法を用いて計算される。この計算は、例えば、近似のための手段２２０において実行することができる。入力信号２０８（ｘ［ｎ］）の時間周波数分布２１２（ＴＦＤ）およびその近似２２２（例えば差を算出するための手段２３０における）間の差異または差を計算することによって、アンビエント信号の時間周波数分布（ＴＦＤ）の推定２３２が得られる。その結果、アンビエント信号の時間信号２４２の再合成が（例えば任意の再合成手段２４０において）実行される。再合成は、以下にさらに詳細に説明される。さらに、任意の使用は、（例えばアンビエント信号２５２，２５４からなる）導出されたマルチチャンネル信号の聴覚印象を改善するために、（例えばマルチチャンネル音声信号をアセンブルするためのおよび／または後処理するための任意の手段２５０において実現される）後処理からなる。任意の後処理も、以下にさらに詳細に説明される。

図２との関連で示される個々の処理ステップに関する詳細は、以下に説明される。その際に、音声信号からアンビエント信号を生成するための本発明の装置のより詳細なブロック図を示す図３も参照される。

図３による装置３００は、例えば、時間連続入力信号ｘ（ｔ）の形でまたは時間離散入力信号ｘ［ｎ］の形で存在する入力信号３０８を受信するように構成される。それ以外では、入力信号３０８は、装置２００の入力信号２０８に対応する。

装置３００は、時間信号時間周波数分布コンバータ３１０をさらに含む。時間信号時間周波数分布コンバータ３１０は、入力信号３０８を受信し、さらに、時間周波数分布（ＴＦＤ）の表現３１２を提供するように構成される。時間周波数分布の表現３１２は、それ以外では、装置２００における時間周波数分布の表現２１２に実質的に対応する。以下において、時間周波数分布は、Ｘ（ω，ｋ）でも示される点にさらに留意すべきである。

時間周波数分布Ｘ（ω，ｋ）は装置３００の入力信号であってもよい、すなわち、装置３１０は省略されてもよい点にさらに留意すべきである。装置３００は、強度位相スプリッタ３１４をさらに（任意に）含む。強度位相スプリッタ３１４は、時間周波数分布３１２が（完全に実数でない）複素数値を採用できるときに、好ましくは用いられる。この場合、強度位相スプリッタ３１４は、時間周波数分布３１２に基づいて、時間周波数分布３１２の強度表現３１６および時間周波数分布３１２の位相表現３１８を提供するように好ましくは構成される。時間周波数分布３１２の強度表現は、別に、｜Ｘ（ω，ｋ）｜でも示される。時間周波数分布３１２の強度表現３１６は、装置２００における表現２１２に置換されてもよい点に留意すべきである。

時間周波数分布３１２の位相表現３１８の使用は、任意である点にさらに留意すべきである。時間周波数分布３１２の位相表現３１８も場合によってはφ（ω，ｋ）で示される点にも留意すべきである。

時間周波数分布３１２の強度表現３１６がマトリクスの形で存在するとさらに仮定される。

装置３００は、強度表現３１６および近似３２２の両方を受信する差形成器３３０をさらに含む。さらに、差形成器３３０は、以下に記載される表現｜Ａ（ω，ｋ）｜に実質的に対応する識別表現３３２を提供する。それ以外では、識別表現３３２も、装置２００における識別表現２３２に実質的に対応する点に留意すべきである。

装置３００は、位相加算器３３４をさらに含む。位相加算器３３４は、識別表現３３２および位相表現３１８を受信し、さらに、位相表現３１８によって表されるように、識別表現３３２のエレメントに位相を加算する。したがって、位相加算器３３４は、Ａ（ω，ｋ）でも示される位相を備えている識別表現３３６を提供する。位相加算器３３４が省略される場合に、識別表現３３２が、例えば、位相を備えている識別表現３３６に置換されてもよいように、位相加算器３３４は任意と考えられる点に留意すべきである。それぞれの特定の場合に応じて、識別表現３３２と位相を備えている識別表現３３６との両方が識別表現２３２に対応されてもよい点にさらに留意すべきである。

装置３００は、（任意の）時間周波数分布時間信号コンバータ３４０をさらに含む。（任意の）時間周波数分布時間信号コンバータ３４０は、位相を備えている識別表現３３６（あるいは：識別表現３３２）を受信し、さらに、アンビエント信号の時間ドメイン表現（または時間信号表現）を形成する（ａ（ｔ）またはａ［ｎ］でも示される）時間信号３４２を提供するように構成される。

時間周波数分布時間信号コンバータ３４０は、図２による再合成手段２４０に実質的に対応する点にさらに留意すべきである。さらに、時間周波数分布時間信号コンバータ３４０によって提供される信号３４２は、装置２００において示されるように、信号２４２に実質的に対応する。

入力信号の時間周波数分布

以下に、入力信号の時間周波数分布（ＴＦＤ）、すなわち、例えば、表現２１２，３１２が算出される方法を記載する。時間周波数分布（ＴＦＤ）は、時間および周波数の両方に対して時間信号（すなわち、例えば、入力信号２０８または入力信号３０８）の表現および／または説明である。時間周波数分布の多種多様な定式化（例えば、フィルターバンクまたは離散コサイン変換（ＤＣＴ）を用いて）の中で、短時間フーリエ変換（ＳＴＦＴ）は、時間周波数分布の計算のための柔軟で計算的に効率的な方法である。周波数ビンまたは周波数インデックスωと時間インデックスｋとを有する短時間フーリエ変換（ＳＴＦＴ）Ｘ（ω，ｋ）は、離散時間信号ｘ［ｎ］の（すなわち、例えば、入力信号２０８，３０８の）窓が掛けられたデータセグメントの一連のフーリエ変換として計算される。したがって、以下が真である。

ここで、ｗ［ｎ］は、窓関数を意味する。フレームインデックス（または時間インデックス）ｋに対するインデックスｍの関係は、窓長と隣接する窓の重なりの量との関数である。

時間周波数分布（ＴＦＤ）が、（例えば、短時間フーリエ変換（ＳＴＦＴ）を用いる場合において）複素数値である場合、好適な実施形態において、さらなる計算が時間周波数分布（ＴＦＤ）の係数の絶対値を用いて達成されてもよい。時間周波数分布（ＴＦＤ）の係数の絶対値および／または強度は、｜Ｘ（ω，ｋ）｜でも示される。この場合、位相情報φ（ω，ｋ）＝∠Ｘ（ω，ｋ）は、後の使用のための再合成ステージに記憶される。装置３００において、強度表現｜Ｘ（ω，ｋ）｜は、３１６で示される点に留意すべきである。位相情報φ（ω，ｋ）は、３１８で示される。

Ｘ（ω，ｋ）は、それらが例えばＳＴＦＴによって得られるように、個々のフーリエ係数（一般に、時間周波数分布の個々の係数）を意味する点に留意すべきである。対照的に、Ｘ（ω，ｋ）は、複数の係数（ω，ｋ）を含むマトリクスを意味する。例えば、マトリクスＸ（ω，ｋ₁）は、ω´＝１，２，・・・，ｎおよびｋ´＝ｋ１，ｋ１＋１，・・・，ｋ１＋ｍ−１のための係数Ｘ（ω´，ｋ´）を含む。ここで、ｎはマトリクスＸ（ω，ｋ₁）の第１の次元、例えば行の数であり、ｍはマトリクスＸ（ω，ｋ₁）の第２の次元である。このように、マトリクスＸ（ω，ｋ₁）のエレメントＸ_i,jに対して、以下が真である。
Ｘ_i,j＝Ｘ（ω＝ω_i，ｋ＝ｋ_1+j-1）

ここで、以下が真である。
１≦ｊ≦ｎ
および
１≦ｉ≦ｍ

記載されているコンテクストは、別に、図４ｂに示される。

換言すれば、マトリクスＸ（ω，ｋ）は、複数の時間周波数分布値Ｘ（ω，ｋ）を含む。

以下において、｜Ｘ｜で示されるマトリクスの強度の計算は、別に示されない限り、エレメント的な強度形成を意味する点にさらに留意すべきである。

時間周波数分布（ＴＦＤ）の近似

本発明との関連で、実施形態によれば、入力信号の時間周波数分布の近似は、数値最適化法を用いて計算される。時間周波数分布の近似および数値最適化法は、以下に記載される。

別に、近似エラーは、距離関数または発散関数を用いて測定される。距離および発散間の差は、数学的な性質を持ち、２つのマトリックスＡ，Ｂ間の距離に対して以下が真であるという意味では距離が対照的であるという事実に基づく。
ｄ（Ａ，Ｂ）＝ｄ（Ｂ，Ａ）

それとは対照的に、発散は、非対称であってもよい。

時間周波数分布の近似または以下に記載される時間周波数分布マトリクスＸ（ｋ，ω）は、例えば、近似手段２２０またはマトリクス近似器３２０によって達成される点に留意すべきである。

負でないマトリクス因数分解（ＮＭＦ）は、近似の計算のための適切な方法である点にさらに留意されるべきである。

負でないマトリクス因数分解（ＮＭＦ）

以下に、負でないマトリクス因数分解が記載される。負でないマトリクス因数分解（ＮＭＦ）は、２つのマトリックスＷ∈Ｒ^nxrおよびＨ∈Ｒ^rxmの積として、負でないエレメントを有するマトリクスＶ∈Ｒ^nxmの近似である。ここで、マトリクスＷのエレメントＷ_i,kおよびマトリクスＨのエレメントＨ_i,kに対して、以下が真である。
Ｗ_i,k≧０、および
Ｈ_i,k≧０

換言すれば、マトリックスＷおよびＨは、以下が真であるように決定される。

これをエレメント的に表して、以下が真である。

因子ＷおよびＨは、近似のエラーを測定する費用関数ｃ＝ｆ（Ｖ，ＷＨ）を最小化する最適化問題を解決することによって計算される。換言すれば、費用関数ｃは、近似、すなわちマトリックスＶおよびＷＨ間の距離（および／または発散）のエラーを測定する。２つのマトリックスＡおよびＢ間の近似距離測度は、そのエレメント的な差におけるフロベニウスノルムＤ_F（Ａ，Ｂ）である（方程式３）。

フロベニウスノルムは、相関のないガウス分布データに理想的である（非特許文献９参照）。換言すれば、費用関数ｃは、好適な実施形態において計算され、以下が真である。

さらに周知の誤差関数は、一般化カルバックライブラー（Ｋｕｌｌｂａｃｋ−Ｌｅｉｂｌｅｒ）ダイバージェンス（ＧＫＬＤ）である（方程式４）。一般化カルバックライブラーダイバージェンス（ＧＫＬＤ）は、ポアソン分布（非特許文献９参照）または指数分布により関連し、したがって、音楽的な音声信号の量または強度スペクトルの近似にさらに適している。２つのマトリックスＡおよびＢ間の一般化カルバックライブラーダイバージェンスの定義は、以下の通りである。

それ以外では、Ａ_ijおよびＢ_ijは、それぞれマトリックスＡおよびＢのエントリーまたはマトリクスエレメントである。

換言すれば、費用関数ｃは、以下の通りに選択することができる。

以下には、近似マトリックスＷおよびＨのエントリーがどのようにして決定されるかの説明がある。傾斜降下として公知の単純な数値最適化法は、ステップサイズαおよび費用関数の傾斜∇ｆ（ｘ）を有する更新ルールおよび／または反復ルール

を適用することによって費用関数ｆ（ｘ）の極小（または大域的最小点）に反復して接近する。

方程式（３）による費用関数を有する方程式（２）による最適化問題に対して、加算の更新ルールまたは反復ルールは、以下の方程式によって与えられる。

本発明のアルゴリズムとの関連で、１つの実施形態において、以下が真である。
Ｖ＝Ｘ（ω，ｋ）

リー（Ｌｅｅ）およびスン（Ｓｅｕｎｇ）が方程式（８）および（９）による乗算の更新ルールまたは反復ルールを見つけまたは確認している点にさらに留意すべきである（非特許文献１０参照）。さらに、リー（Ｌｅｅ）およびスン（Ｓｅｕｎｇ）は、乗算の更新ルールと傾斜降下およびその収束との関係を示している。乗算の更新ルールは、以下の通りである。

また、１つの好適な実施形態において、以下が真である。
Ｖ＝Ｘ（ω，ｋ）

傾斜降下方法の速度およびロバスト性は、ステップサイズまたはステップ幅αの正しい選択に強く依存する。傾斜降下方法に優る乗算の更新ルールの１つの主たる利点は、ステップサイズまたはステップ幅の選択の独立性である。手順および方法は、実施しやすく、計算的に効率的であり、さらに、費用関数の極小を見つけることを保証する。

アンビエンス分離との関連で負でないマトリクス因数分解（ＮＭＦ）

提示された方法との関連で、負でないマトリクス因数分解（ＮＭＦ）は、入力音声信号ｘ［ｎ］の量または強度スペクトログラム｜Ｘ（ω，ｋ）｜の近似を計算するために用いられる。それに関して、強度スペクトログラム｜Ｘ（ω，ｋ）｜は、エレメント的な強度形成を実行することによってマトリクスＸ（ω，ｋ）から導出される点に留意すべきである。換言すれば、｜Ｘ（ω，ｋ）｜_ijで示される｜Ｘ（ω，ｋ）｜からインデックスｉ，ｊを有するエレメントに対して、以下が真である。
｜Ｘ（ω，ｋ）｜_ij＝｜Ｘ（ω，ｋ）_ij｜

ここで、Ｘ（ω，ｋ）_ijは、インデックスｉおよびｊを有するマトリクスＸ（ω，ｋ）のエレメントを示す。｜．｜は、強度形成の演算を別に示す。

｜Ｘ｜の負でないマトリクス因数分解（ＮＭＦ）は、因子ＷおよびＨをもたらす。好適な実施形態において、４０および１００間の大きな因数分解ランクｒは、信号長および信号内容に応じて、近似によって直接のサウンドまたは直接のノイズの十分な量を示すために必要である。

しかしながら、好適な実施形態において、方程式１０による結果は、以下において説明されるように直接に考慮されない。すなわち、上述の費用関数を最小化する近似に対して、方程式（１０）の適用は、負の値および正の値の両方のエレメントを有する量または強度スペクトログラム｜Ａ｜をもたらす。しかしながら、量または強度スペクトログラム｜Ａ｜が正の値のエレメントだけを含む１つの実施形態において好ましいように、差｜Ｘ｜−ＷＨの負の値のエレメントを扱う方法を用いることが好ましい。

いくつかの方法が、負のエレメントを扱うために用いられてもよい。負のエレメントを扱うための１つの単純な方法は、０および−１間に因子β（β＝０，・・・−１）を有する負の値の乗算にある。換言すれば、−１≦β≦０である。ここで、β＝０は半波整流に対応し、さらに、β＝−１は全波整流に対応する。

アンビエント信号の強度スペクトログラムまたは振幅スペクトログラム｜Ａ｜の計算のための一般的定式化は、以下の方程式によって与えられ、

ここで、γ∈［−１，０］は一定である。

最後に記載されている手順は、方程式（１１）および（１２）に関して記載されている手順と対照的に、マトリクス｜Ａ｜の計算において、大量の直接のサウンドまたは直接のノイズがアンビエント信号において現れるという効果を含む点に留意すべきである。したがって、典型的に、方程式（１１）および（１２）との関連で記載されている手順が好ましい。

以下において記載されるように、マトリクス｜Ａ｜を決定するためのさらなる第３の別の手順がさらにある。第３の別の方法は、ターム
｜Ａ｜＝｜Ｘ｜−ＷＨ
において負の値のエレメントの量または値に影響するために、境界拘束または境界条件を費用関数に加算することにある。

換言すれば、費用関数に関する境界拘束または境界条件の適切な選択は、できるだけ少ない負の値（あるいは、できるだけ少ない正の値）が、例えば、差｜Ａ｜＝｜Ｘ｜−ＷＨにおいて生じることを達成するように働く。

換言すれば、マトリックスＷおよびＨのエントリーを決定するための最適化法は、言及される差が好ましくは正の値および／または比較的より少ない負の値（または逆も同様）を含むように適応される。

新しい費用関数
ｃ＝ｆ（｜Ｘ｜，ＷＨ）
は、以下の通りに公式化される。

ここで、εは、総費用における（または費用関数ｃの総価値における）境界拘束または境界条件の影響を決定する定数である。傾斜降下のための更新ルールおよび／または反復ルールは、（方程式１４による）微分演算子∂ｃ／∂Ｈおよび微分演算子∂ｃ／∂Ｗを方程式（５）に代入することによって導出される。微分演算子∂ｃ／∂Ｈおよび∂ｃ／∂Ｗに対して、以下が真である。

それ以外では、方程式（１１）および（１２）に関して記載されるような手順は、実施しやすいので好ましく、良好な結果を提供する点に留意すべきである。

要約すれば、異なる３つの方法が記載された上述のマトリクス｜Ａ｜の決定は、例えば本発明の好適な実施形態において差決定手段２３０または差形成器３３０によって実行できることが示される。

時間信号の再構成

位相情報を備えている（また、３３６で示される）表現Ａ（ω，ｋ）がアンビエント信号の（また、３３２で示される）強度表現｜Ａ（ω，ｋ）｜からどのようにして得ることができるかの記載が続く。

アンビエント信号の複素スペクトログラムＡ（ω，ｋ）は、方程式（１６）によって算出され、入力信号３０８（また、ｘ（ｔ），（ｘ［ｎ］）で示される）の時間周波数分布（ＴＦＤ）Ｘの位相φ＝∠Ｘを用いて算出される。

ここで、φは、例えば、角度値のマトリクスである。換言すれば、時間周波数分布（ＴＦＤ）Ｘの位相情報または角度情報は、エレメント的に量または強度表現｜Ａ｜に加算される。換言すれば、行インデックスｉおよび列インデックスｊを有するエントリーまたはマトリクスエレメントＡ_i,jに、行インデックスｉおよび列インデックスｊを有するエントリーまたはマトリクスエレメントＸ_i,jの位相情報が、例えば強度１のそれぞれの複素数を有する乗算によって加算される。全体の結果は、位相情報（３３６で示される）を備えているアンビエント信号の表現Ａ（ω，ｋ）である。

そして、アンビエント信号ａ［ｎ］（またはアンビエント信号の時間離散表現あるいはアンビエント信号の時間連続表現）は、Ａ（ω、ｋ）を時間周波数分布（ＴＦＤ）の計算の逆処理にかけることによって、位相情報を備えている表現Ａ（ω，ｋ）から（任意に）導出される。すなわち、位相情報を備えている表現Ａ（ω，ｋ）は、例えば、Ｘ（ω，ｋ）に適用されるときに、時間信号ｘｎをもたらす重なりおよび加算スキームを有する逆短時間フーリエ変換によって処理される。

記載されている手順は、それぞれ数秒間の長さの重なりセグメントに別に適用される。セグメントは、隣接するセグメント間の円滑な移行を確実にするためにハン窓を用いて窓が掛けられる。

最後に記載されているアンビエント信号の時間表現ａ［ｎ］を導出するための手順は、例えば再合成のための手段２４０においてまたは時間周波数分布時間信号コンバータ３４０において達成できる点に留意すべきである。

マルチチャンネル音声信号のアセンブリ

５．０信号または５．０音声信号（すなわち、例えばフロントレフトチャンネル、フロントセンターチャンネル、フロントライトチャンネル、リアレフトチャンネルおよびリアライトチャンネルを含む音声信号）は、アンビエント信号をリアチャンネル（すなわち、例えば、少なくとも、リアレフトチャンネル、リアライトチャンネル、または、リアレフトチャンネルおよびリアライトチャンネルの両方）に供給することによって得られる。フロントチャンネル（すなわち、例えば、フロントレフトチャンネル、センターチャンネルおよび／またはフロントライトチャンネル）は、好適な実施形態において元の信号を再生する。ここで、例えば、ゲインパラメータおよび／またはラウドネスパラメータは、追加のセンターチャンネルが用いられるときに、全エネルギーが得られる（または実質的に変化しないままである）ことを確実にする。

さらに、アンビエント信号を生成するための記載されている概念がいかなるマルチチャンネルシステムおよびマルチチャンネル音声再生システムにおいて用いられてもよい点に留意すべきである。例えば、本発明の概念は、７．０システムにおいて（例えば３つのフロントラウドスピーカ、２つのサイドラウドスピーカおよび２つのバックラウドスピーカを有するシステムにおいて）用いられてもよい。このように、アンビエント信号は、例えば、一方または両方のサイドラウドスピーカおよび／または一方または両方のバックスピーカに供給されてもよい。

アンビエンスの分離後に（またはアンビエント信号を生成した後に）、さらなる処理が、高い知覚品質のマルチチャンネル音声信号を得るために任意に実行されてもよい。１つの単一のチャンネルからマルチチャンネル音声信号をアセンブルするときに、フロントイメージは、広大さの印象が加算される間に保存されることが好ましい。これは、例えば、アンビエント信号に数ミリ秒間の遅延を導入しまたは加算することによっておよび／またはアンビエント信号において過渡部分を抑制することによって達成される。さらに、リアラウドスピーカまたはバックラウドスピーカに供給する信号相互間でのおよび／またはフロントラウドスピーカに供給する信号に関しての非相関は、有利である。

過渡抑制および／またはピークまたは整定動作の抑制

過渡（および／またはピークまたは整定動作）の検出のためおよび過渡を操作するためのアルゴリズムが、例えばデジタル音声効果（非特許文献１１および１２参照）のためのおよびアップミキシング（非特許文献１３参照）のためなどのさまざまな音声信号処理アプリケーションにおいて用いられる。

アップミキシングとの関連で過渡の抑制は、フロントイメージを維持することを目的としている。過渡ノイズまたは過度サウンドがアンビエント信号において現れるときに、（例えばリスナーによって）これらの過渡を生成するソースは、フロントにおいてローカライズされない。これは、望ましくない効果であり、「直接のサウンドソース」が、元の場合に比べてより広く（またはより拡げられて）現れ、または、さらに悪いことに、リスナーの後ろに独立した「直接のサウンドソース」として知覚される。

リアチャンネルまたはバックチャンネルの信号の非相関

文献には、ターム「非相関」は、（２以上の）出力信号が異なる波形を示すが入力信号と同様に聞こえるように、入力信号を操作するプロセスを表す（非特許文献１４参照）。例えば、２つの類似のコヒーレント広帯域ノイズ信号が一対のラウドスピーカによって同時に再生されまたは示される場合、コンパクトな聴覚イベントが知覚される（非特許文献１５参照）。２つのチャンネル信号の相関を減少することは、２つの別々のソースが知覚されるまで、サウンドソースまたはノイズソースの知覚された幅または拡張を増大する。２つの中央にされた信号ｘおよびｙ（すなわち、ゼロの平均値を有する信号）の相関は、方程式（１７）

によって表されるように、相関係数Ｒ_xyによってしばしば表される。

ここで、ｙ^*（ｋ）は、ｙ（ｋ）の共役複素数を意味する。相関係数が信号ｘおよびｙ間の小さい遅延から独立していないので、２つの中央にされた信号ｘおよびｙ間の類似性の程度のための別の測度は、チャンネル間相関Γ（非特許文献１５参照）によってまたはそれを用いて、または、チャンネル間コヒーレント（非特許文献１６参照）によって定義される（方程式（１８））。方程式（１８）において、チャンネル間相関またはチャンネル間コヒーレントΓは、以下の通りに定義される。

ここで、正規化相互相関ｒ_xyは、方程式（１９）によって定義される。

非相関プロセスの例としては、自然の残響およびいくつかの信号プロセッサ（フランジャー、コーラス、フェイザー、合成の残響）がある。

音声信号処理の分野における非相関の前の方法は、非特許文献１７に記載される。ここで、２つの出力チャンネル信号は、入力信号と入力信号の遅延バージョンとの合計によって生成され、１つのチャンネルにおいて、遅延チャンネルの位相が反転される。

他の方法は、畳み込みによって非相関する信号を生成する。所定のまたは特定の相関測度を有する一対の出力信号は、所定の値に従って互いに相関する一対のパルスレスポンスを有する入力信号を畳み込むことによって生成される（非特許文献１４参照）。

動的な（すなわち時間変化の）非相関は、時間変化の全域通過フィルタ、すなわち新しいランダムな位相応答が隣接する時間フレームに対して算出される全域通過フィルタを用いることによって得られる（非特許文献１８および１１参照）。

非特許文献１８には、サブバンド方法が記載され、個々の周波数バンドにおける相関が、可変的に変えられる。

ここに記載されている本発明の方法との関連で、非相関は、アンビエント信号に印加される。５．１セットアップにおいて（すなわち、例えば６つのラウドスピーカを有するセットアップにおいて）（しかしながら、少なくとも２つのラウドスピーカを有する別のセットアップにおいても）、２つのリアまたはバックチャンネルに最終的に供給されるアンビエント信号は、少なくともある程度互いに関連して非相関することが好ましい。

本発明の方法の望ましい特性は、サウンドフィールド拡散（またはノイズフィールド拡散またはサウンドフィールド広がりまたはノイズフィールド広がり）および包囲である。

以下においてさらに図５に関して、音声信号からフロントラウドスピーカ信号およびリアラウドスピーカ信号を含むマルチチャンネル音声信号を導出するための装置が記載される。図５によるマルチチャンネル音声信号を導出するための装置は、その全体において５００で示される。装置５００は、音声信号５０８または音声信号の表現５０８を受信する。装置５００は、アンビエント信号を生成するための装置５１０を含み、装置５１０は、音声信号５０８または音声信号の表現５０８を受信する。装置５１０は、アンビエント信号５１２を提供する。好適な実施形態において、装置５１０は、図１による装置１００である点に留意すべきである。さらなる好適な実施形態において、装置５１０は、図２による装置２００である。さらなる好適な実施形態において、装置５１０は、図３による装置３００である。

時間ドメイン表現（または時間信号表現）の形でおよび／または時間周波数表現において存在するアンビエント信号５１２は、後処理手段５２０にさらに供給される。後処理手段５２０は、任意なものであり、例えば、アンビエント信号５１２に存在する過渡を低減しまたは除去するように構成されるパルスレデューサを含む。ここで、過渡は、所定の最大許容エッジ峻度よりも大きいエッジ峻度を示す高エネルギー信号部分である。さらに、過渡イベントは、別にアンビエント信号５１２の信号ピークであってもよく、それの振幅は一定の所定の最大振幅を超える。

さらに、後処理手段５２０は、アンビエント信号５１２を遅延する遅延器または遅延手段を（任意に）含んでもよい。したがって、後処理手段５２０は、後処理されたアンビエント信号５２２を提供し、例えば、過渡は、（元の）アンビエント信号５１２と比較して低減されまたは除去され、および／または、それは（元の）アンビエント信号５１２と比較して例えば遅延される。

後処理手段５２０が省略される場合、信号５２２は、信号５１２と同一であってもよい。

装置５００は、コンバイナ５３０をさらに（任意に）含む。コンバイナを含む場合、コンバイナ５３０は、例えばバックラウドスピーカ信号５３２を提供し、それは、後処理されたアンビエント信号５２２と元の音声信号５０８の（任意に後処理された）バージョンとの組み合わせによって形成される。

任意のコンバイナ５３０が省略される場合、信号５３２は、信号５２２と同一であってもよい。装置５００は、デコレレータ５４０をさらに（任意に）含み、それは、バックラウドスピーカ信号５３２を受信し、それに基づいて、少なくとも２つの非相関するバックラウドスピーカ信号５４２，５４４を供給する。第１のバックラウドスピーカ信号５４２は、例えば、リアレフトバックラウドスピーカのためのバックラウドスピーカ信号を表すことができる。第２のバックラウドスピーカ信号５４４は、例えば、リアライトバックラウドスピーカのためのバックラウドスピーカ信号を表すことができる。

最も単純な場合（例えば、後処理手段５２０、コンバイナ５３０およびデコレレータ５４０が省略される場合）において、例えば、装置５１０によって生成されるアンビエント信号５１２は、第１のバックラウドスピーカ信号５４２としておよび／または第２のバックラウドスピーカ信号５４４として用いられる。一般に、後処理手段５２０、コンバイナ５３０および／またはデコレレータ５４０を考慮して、装置５１０によって生成されるアンビエント信号５１２は、第１のバックラウドスピーカ信号５４２を生成するためにおよび／または第２バックラウドスピーカ信号５４４を生成するために考慮されると言うことができる。

したがって、本発明は、明示的に、第１のバックラウドスピーカ信号５４２としておよび／または第２のバックラウドスピーカ信号５４４として装置５１０によって生成されるアンビエント信号５１２を用いることを含む。

同様に、本発明は、明示的に、装置５１０によって生成されるアンビエント信号５１２を用いて第１のバックラウドスピーカ信号５４２および／または第２のバックラウドスピーカ信号５４４を生成することも含む。

装置は、さらに、任意に、追加として、第１のフロントラウドスピーカ信号、第２のフロントラウドスピーカ信号および／または第３のフロントラウドスピーカ信号を生成するように構成されてもよい。この目的のために、例えば、（元の）音声信号５０８は、後処理手段５５０に供給される。後処理手段５５０は、音声信号５０８を受信して処理し、さらに後処理された音声信号５５２を生成するように構成され、それは、例えば、コンバイナ５３０に（任意に）供給される。後処理手段が省略される場合、信号５５２は、信号５０８と同一であってもよい。信号５５２は、フロントラウドスピーカ信号を別に形成する。

好適な実施形態において、装置５００は、フロントラウドスピーカ信号５５２を受信し、それに基づいて、第１のフロントラウドスピーカ信号５６２、第２のフロントラウドスピーカ信号５６４および／または第３のフロントラウドスピーカ信号５６６を生成するように構成される信号スプリッタ５６０を含む。第１のフロントラウドスピーカ信号５６２は、例えば、フロントレフトに位置するラウドスピーカのためのラウドスピーカ信号であってもよい。第２のフロントラウドスピーカ信号５６４は、例えば、フロントライトに位置するラウドスピーカのためのラウドスピーカ信号であってもよい。第３のフロントラウドスピーカ信号５６６は、例えば、フロントセンターに位置するラウドスピーカのためのラウドスピーカ信号であってもよい。

図６は、本発明の実施形態による本発明の方法のフローチャートを別に示す。図６による方法は、その全体において６００で示される。方法６００は、第１のステップ６１０を含む。第１のステップ６１０は、非可逆圧縮の方法における音声信号の表現を得るために、音声信号の（または音声信号の表現の）非可逆圧縮ステップを含む。方法６００の第２のステップ６２０は、識別表現を得るために、音声信号の圧縮表現および音声信号の表現間の差を算出するステップを含む。

第３のステップ６３０は、識別表現を用いてアンビエント信号を提供するステップを含む。したがって、全体として、方法６００は、音声信号からアンビエント信号の生成を可能にする。

ここで図６による本発明の方法６００は、上述の本発明の装置によって実行されるそれらのステップによって補完することができる点に留意すべきである。このように、方法は、例えば、図１による装置１００の機能、図２による装置２００の機能、図３による装置３００の機能および／または図５による装置５００の機能を果たすために、修正および／または補完することができる。

換言すれば、本発明の装置および本発明の方法は、ハードウェアにおいてまたはソフトウェアにおいて実施することができる。実施は、それぞれの方法が実行されるプログラム可能なコンピュータシステムと協働する、電子的に読み取ることができる制御信号を有する、例えばフロッピー（登録商標）ディスク、ＣＤ、ＤＶＤまたはＦＬＡＳＨメモリなどのデジタル記憶媒体において達成することができる。そのため、本発明は、一般に、コンピュータプログラム製品がコンピュータ上で実行されるときに、機械で読み取り可能なキャリアに記憶された本発明の方法を実行するためのプログラムコードを有するコンピュータプログラム製品にある。したがって、換言すれば、本発明は、コンピュータプログラムがコンピュータ上で実行されるときにその方法を実行するためのプログラムコードを有するコンピュータプログラムとして実現することができる。

方法の概要

要約すれば、アンビエント信号は、入力信号から生成され、さらにリアチャンネルに供給されるといえる。ここで、概念は、表題「直接／アンビエントの概念」の下で記載されるように用いることができる。本発明の本質は、アンビエント信号の算出に関し、図２は、それがアンビエント信号を得るために用いることができるように、処理のブロック図を示す。

要約すれば、以下が示される。

入力信号の時間周波数分布（ＴＦＤ）は、表題「入力信号の時間周波数分布」の下で述べられるように算出される。入力信号の時間周波数分布（ＴＦＤ）の近似は、セクション「時間周波数分布の近似」に記載されるように、数値最適化の方法を用いて算出される。入力信号の時間周波数分布（ＴＦＤ）およびその近似間の差異または差を算出することによって、アンビエント信号の時間周波数分布（ＴＦＤ）の評価が得られる。評価は、｜Ａ｜および／またはＡでも示される。アンビエント信号の時間信号の再合成は、表題「時間信号の再構成」の下でのセクションにおいて別に説明される。さらに、後処理は、表題「マルチチャンネル音声信号のアセンブリ」の下で記載されるように、導出されたマルチチャンネル信号の聴覚印象を強めるために（任意に）用いられてもよい。

結論

要約すれば、本発明は、複数の１チャンネル音声信号から（または１つの１チャンネル音声信号から）アンビエント信号を分離するための方法および概念を表すといえる。導出されたアンビエント信号は、高いオーディオ品質を示す。それは、アンビエンス、すなわち反響、観客のノイズ、アンビエンスノイズまたは環境ノイズから生じるサウンドエレメントまたはノイズエレメントを含む。アンビエント信号において直接のサウンドまたは直接のノイズの量または音量は、非常に低いまたは感知しにくくさえある。

記載されている方法の成功の理由は、分かりやすく以下の通りに記載することができる。

直接のサウンドまたは直接のノイズの時間周波数分布（ＴＦＤ）は、アンビエントノイズまたはアンビエントサウンドの時間周波数分布（ＴＦＤ）に比べて一般によりまばらであるかまたはより低密度である。すなわち、直接のノイズまたは直接のサウンドのエネルギーは、アンビエントノイズまたはアンビエントサウンドのエネルギーに比べて、より少ないビンまたはマトリクスエントリーにおいてより集中する。したがって、近似は、直接のノイズまたは直接のサウンドを検出するが、アンビエントノイズまたはアンビエントサウンドを検出しない（または非常に小さい程度にだけ検出する）。あるいは、近似は、アンビエントノイズまたはアンビエントサウンドに比べてより大きい程度に直接のノイズまたは直接のサウンドを検出する。したがって、入力信号の時間周波数分布（ＴＦＤ）およびその近似間の差異または差は、入力信号に存在する全てのアンビエントノイズおよび／またはアンビエントサウンドの時間周波数分布（ＴＦＤ）の良好な表現である。

それにもかかわらず、本発明は、１つの１チャンネル信号または１つの２チャンネル信号から（または複数の１チャンネル信号または複数の２チャンネル信号から）複数のマルチチャンネル信号（または１つのマルチチャンネル信号）を算出する方法を含む。したがって、記載されている方法および概念の使用は、マルチ信号レンダリングの利点が維持されるように１つのマルチチャンネルシステム（または複数のマルチチャンネルシステム）における従来のレコードの演奏を可能にする。

さらに、本発明の方法では、好適な実施形態において、人工的な音声効果が用いられなく、さらに、サウンドおよび／または音声信号の操作が包囲および広大さだけに関する点に留意すべきである。元のサウンドまたは元のノイズのトーン着色がない。音声信号の作者によって意図される聴覚印象が維持される。

したがって、記載されている本発明の方法および概念は、周知の方法または概念のかなりの欠点を克服するといえる。導入部に記載されている信号適応法は、２チャンネル入力信号のチャンネル間差を算出することによってバックチャンネル信号（すなわちリアラウドスピーカのための信号）を算出する点に留意すべきである。したがって、これらの方法は、入力信号の両方のチャンネルが同一であるとき（すなわち、入力信号がデユアルのモノラル信号であるとき）または２つのチャンネルの信号がほぼ同一であるとき、オプション３によって入力信号からマルチチャンネル信号を生成することができない。

表題「空間キューに基づく擬似ステレオ音響」の下で記載されている方法は、同じ内容のマルチチャンネルバージョンまたは手入力で空間キューを生成する演算子を常に必要とする。したがって、記載される周知の方法は、リアルタイム対応の方法の１つにまたは同じ入力信号のマルチチャンネルバージョンが利用できないときに自動的に、用いることができない。

対照的に、ここに記載されている本発明の方法および概念は、信号においていかなる前の情報なしに１チャンネル信号からアンビエント信号を生成することができる。さらに、合成の音声オブジェクトまたは音声効果（例えば残響）が用いられない。

以下に、本発明の実施形態による本発明の概念のアプリケーションのためのパラメータの特に有利な選択が記載される。

換言すれば、以下に、モノラルアップミックスアプリケーションのためのアンビエンス分離方法のための最適パラメータ設定が記載される。さらに、パラメータのための最小値または最大値が与えら、それは、それらが機能するにもかかわらず、オーディオ品質および／または必要な処理負荷に関して最適な結果をもたらさない。

ここで、パラメータＦＦＴサイズ（ｎｆｆｔ）は、いくつの周波数バンドが処理されるかを表す。換言すれば、パラメータＦＦＴサイズは、いくつの識別可能な周波数ω₁からω_nが存在するかを示す。したがって、パラメータＦＦＴサイズは、マトリクスＸ（ω，ｋ）の第１の次元（例えばマトリクス行の数）の大きさの測度でもある。換言すれば、好適な実施形態において、パラメータＦＦＴサイズは、マトリクスＸ（ω，ｋ）の行（または列）の数を表す。したがって、パラメータＦＦＴサイズは、例えば値ｎに対応する。さらに、値ＦＦＴサイズも、いくつのサンプルがマトリクスＸの１つの単一のエントリーＸ_i,jの算出のために用いられるかを表す。換言すれば、入力信号の時間表現のｎｆｆｔ個のサンプルは、それに基づいてｎｆｆｔ個の異なる周波数ω₁からω_nfftのためのｎｆｆｔ個のスペクトル係数を算出するために用いられる。したがって、ｎｆｆｔ個のサンプルに基づいて、マトリクスＸ（ω，ｋ）の列が算出される。

そして、入力信号の考慮されたサンプルを定義する窓は、パラメータｈｏｐによって定義されるサンプルの数によって移動される。それから、移動された窓によって定義される入力信号のｎｆｆｔ個のサンプルは、フーリエ変換によってｎｆｆｔ個のスペクトル係数にマップされ、スペクトル係数は、マトリクスＸの次の列を定義する。

マトリクスＸの第１の列は、インデックス１からｎｆｆｔを有する入力信号のサンプルのフーリエ変換によって形成することができると例示的にいえる。マトリクスＸの第２の列は、インデックス１＋ｈｏｐからｎｆｆｔ＋ｈｏｐを有する入力信号のサンプルのフーリエ変換によって形成することができる。

パラメータセグメント長は、信号フレームの１つのセグメントの長さを示し、それのスペクトログラムは、因数分解される。換言すれば、パラメータセグメント長は、マトリクスＸのエントリーを算出するために考慮される入力音声信号の持続時間の長さを表す。したがって、マトリクスＸは、パラメータセグメント長（ｓｅｇＬｅｎ）に等しい時間の入力時間信号を表す。

パラメータ因数分解ランクは、負でないマトリクス因数分解、すなわちパラメータｒの因数分解ランクを表す。換言すれば、パラメータ因数分解ランクは、第１の近似マトリクスＷの次元および第２の近似マトリクスＨの次元の大きさを示す。

パラメータのための好ましい値は、以下の表において与えられる。

さらなるパラメータとして、どのエラー測度ｃがＮＭＦの算出のために用いられるかがさらに決定される。カルバックライブラーダイバージェンスの使用は、量または強度スペクトログラムが処理されるときに好ましい。他の距離測度は、対数で表されるスペクトログラム値（ＳＰＬ）またはエネルギースペクトログラム値が処理されるときに、用いることができる。

さらに、好ましい値の範囲は、上述されている点に留意すべきである。本発明の方法を用いて、ＦＦＴサイズは、１２８から６５，５３６までの範囲にあってもよい点に留意すべきである。ｈｏｐサイズは、ＦＦＴサイズの１／６４とＦＦＴサイズとの間にあってもよい。セグメント長は、典型的に少なくとも０．１秒間に等しい。

簡単に要約すると、本発明は、音声信号からアンビエント信号を算出するための新しい概念または方法を含むといえる。導出されたアンビエント信号は、マルチチャンネルシステム上での再生のための音楽音声信号をアップミキシングするための特定の利点を持つ。他の方法と比較して記載されている本発明の概念または方法の１つの利点は、合成の音声効果を用いないで１チャンネル信号を処理する能力である。

さらに、本発明は、単純なシステムにおいて用いることもできる点に留意すべきである。システムは、１つのフロントラウドスピーカおよび１つのバックラウドスピーカだけが存在しおよび／またはアクティブであるように、考慮されてもよい。この場合、例えば、元の音声信号は、フロントラウドスピーカ上で再生することができる。元の音声信号から導出されるアンビエント信号は、バックラウドスピーカ上で再生することができる。換言すれば、元のモノラル音声信号は、１つのフロントラウドスピーカ上でのモノラル信号として再生することができるが、元の音声信号から導出されるアンビエント信号は、１つの単一のバックチャンネルとして再生される。

しかしながら、いくつかのチャンネルがある場合、それらは本発明の実施形態において個々に処理することができる。換言すれば、元の音声信号の第１のチャンネルは、第１のアンビエント信号を生成するために考慮され、さらに元の音声信号の第２のチャンネルは、第２のアンビエント信号を生成するために用いられる。そして、元の音声信号の第１のチャンネルは、例えば、第１のフロントラウドスピーカ（例えばフロントレフト）上で再生され、さらに元の音声信号の第２のチャンネルは、例えば、第２のフロントラウドスピーカ（例えばフロントライト）上で再生される。さらに、例えば、第１のアンビエント信号は、第１のバックラウドスピーカ（例えばリアレフト）上で再生されるが、第２のアンビエント信号は、例えば、第２のバックラウドスピーカ（例えばリアライト）上で再生される。

したがって、本発明は、記載されている方法において２つのフロントラウドスピーカ信号から２つのバックラウドスピーカ信号を生成するステップも含む。

さらなる実施態様において、元の音声信号は、３つのチャンネル、例えばフロントレフトチャンネル、フロントセンタータチャンネルおよびフロントライトチャンネルを含む。したがって、第１のアンビエント信号は、元の音声信号の第１のチャンネル（例えばフロントレフトチャンネル）から得られる。元の音声信号の第２のチャンネル（例えばフロントセンターチャンネル）から、第２のアンビエント信号が得られる。元の音声信号の第３のチャンネル（例えばフロントライトチャンネル）から、第３のアンビエント信号が（任意に）得られる。

そして、アンビエント信号の２つ（例えば第１のアンビエント信号および第２のアンビエント信号）は、第１のアンビエンスラウドスピーカ（例えばリアレフトラウドスピーカ）に供給される第１のアンビエンスラウドスピーカ信号を得るために、組み合される（例えば、重み付けられたまたは重み付けられていない合計によってミックスされまたは組み合される）。

任意に、さらに、２つのさらなるアンビエント信号（例えば第２のアンビエント信号および第３のアンビエント信号）は、第２のアンビエンスラウドスピーカ（例えばリアライトラウドスピーカ）に供給される第２のアンビエンスラウドスピーカ信号を得るために組み合される。

したがって、第１のアンビエンスラウドスピーカ信号は、それぞれが元のマルチチャンネル音声信号のチャンネルから形成されるアンビエント信号の第１の組み合わせによって形成され、第２のアンビエンスラウドスピーカ信号は、アンビエント信号の第２の組み合わせによって形成される。第１の組み合わせは、好ましくは少なくとも２つのアンビエント信号を含み、第２の組み合わせは、好ましくは少なくとも２つのアンビエント信号を含む。さらに、第１の組み合わせは、第２の組み合わせと異なることが好ましいが、第１の組み合わせおよび第２の組み合わせは、共通のアンビエント信号を用いることが好ましい。

さらに、本発明の方法において生成されるアンビエント信号は、例えばサイドラウドスピーカを含むラウドスピーカ装置が用いられる場合に、例えばサイドラウドスピーカに供給されてもよい点に留意すべきである。したがって、アンビエント信号は、７．１ラウドスピーカ装置の使用においてレフトサイドラウドスピーカに供給されてもよい。さらに、アンビエント信号は、ライトサイドラウドスピーカに供給されてもよく、好ましくはレフトサイドラウドスピーカに供給されるアンビエント信号は、ライドサイドラウドスピーカに供給されるアンビエント信号と異なる。

したがって、本発明は、全体として、１チャンネル信号からアンビエント信号の特に良好な抽出をもたらす。

Claims

非可逆圧縮のための前記手段（１１０；２２０；３２０）は、前記音声信号（１０８；２０８；３０８；ｘ（ｔ）；ｘ［ｎ］）の前記スペクトル表現（１０８；２１２；３１６；｜Ｘ｜）として、前記音声信号のスペクトログラムを表す時間周波数分布マトリクス（｜Ｘ｜）を用いるように、さらに
第１の近似マトリクス（Ｗ）および第２の近似マトリクス（Ｈ）の積（ＷＨ）によって前記時間周波数分布マトリクス（｜Ｘ｜）を近似するように構成される、請求項２に記載の装置（１００；２００；３００；５１０）。
非可逆圧縮のための前記手段（１１０；２２０；３２０）は、前記音声信号（１０８；２０８；３０８；ｘ（ｔ）；ｘ［ｎ］）の前記スペクトル表現（１０８；２１２；３１６；｜Ｘ｜）として、前記音声信号のスペクトログラムを表す実数値の時間周波数分布マトリクス（｜Ｘ｜）を用いるように構成される、請求項３に記載の装置（１００；２００；３００；５１０）。
非可逆圧縮のための前記手段（１１０；２２０；３２０）は、前記音声信号（１０８；２０８；３０８；ｘ（ｔ）；ｘ［ｎ］）の前記スペクトル表現（１０８；２１２；３１６；｜Ｘ｜）として、時間周波数分布マトリクス（｜Ｘ｜）を用いるように構成され、それのエントリー（Ｘ）は、複数の時間間隔に対して前記音声信号の複数の周波数ドメイン（ω）において振幅またはエネルギーを表す、請求項４に記載の装置（１００；２００；３００；５１０）。
非可逆圧縮のための前記手段（１１０；２２０；３２０）は、前記音声信号（１０８；２０８；３０８；ｘ（ｔ）；ｘ［ｎ］）の前記スペクトル表現（１０８；２１２；３１６）として、排他的に負でないまたは排他的に正でないエントリーを含む時間周波数分布マトリクス（｜Ｘ｜）を用いるように構成される、請求項３ないし請求項５のいずれかに記載の装置（１００；２００；３００；５１０）。
非可逆圧縮のための前記手段（１１０；２２０；３２０）は、
前記第１の近似マトリクス（Ｗ）および前記第２の近似マトリクス（Ｈ）が排他的に負でないエントリーまたは排他的に正でないエントリーを有するように、または
前記第１の近似マトリクス（Ｗ）が排他的に負でないエントリーを有し、さらに前記第２の近似マトリクス（Ｈ）が排他的に正でないエントリーを有するように、または
前記第１の近似マトリクス（Ｗ）が排他的に正でないエントリーを有し、さらに前記第２の近似マトリクス（Ｈ）が排他的に負でないエントリーを有するように、
前記第１の近似マトリクス（Ｗ）および前記第２の近似マトリクス（Ｈ）の積（ＷＨ）によって前記時間周波数分布マトリクスを近似するように構成される、請求項３ないし請求項６のいずれかに記載の装置（１００；２００；３００；５１０）。
非可逆圧縮のための前記手段（１１０；２２０；３２０）は、一方では前記時間周波数分布マトリクス（｜Ｘ｜）と他方では前記第１の近似マトリクス（Ｗ）および前記第２の近似マトリクス（Ｈ）の前記積（ＷＨ）との間の差の定量的記述を含む費用関数（ｃ）を評価することによって前記第１の近似マトリクス（Ｗ）のエントリーおよび前記第２の近似マトリクス（Ｈ）のエントリーを決定するように構成される、請求項３ないし請求項７のいずれかに記載の装置（１００；２００；３００；５１０）。
非可逆圧縮のための前記手段（１１０；２２０；３２０）は、前記費用関数（ｃ）の極値を決定するための方法を用いてまたは前記費用関数（ｃ）の前記極値に近似のための方法を用いて前記第１の近似マトリクス（Ｗ）および前記第２の近似マトリクス（Ｈ）の前記エントリーを決定するように構成される、請求項８に記載の装置（１００；２００；３００；５１０）。
前記費用関数（ｃ）は、前記費用関数（ｃ）が一方では前記時間周波数分布マトリクスのエントリー（｜Ｘ｜_ij）と他方では前記第１の近似マトリクス（Ｗ）および前記第２の近似マトリクス（Ｈ）の前記積（ＷＨ）のエントリー（（ＷＨ）_ij）との間の差の符号に依存する部分を含むように選択される、請求項８または請求項９に記載の装置（１００；２００；３００；５１０）。
前記費用関数（ｃ）または非可逆圧縮のための前記手段の境界条件は、一方では前記時間周波数分布マトリクスのエントリー（｜Ｘ｜_ij）と他方では前記第１の近似マトリクス（Ｗ）および前記第２の近似マトリクス（Ｈ）の前記積（ＷＨ）のエントリー（（ＷＨ）_ij）との間の差において、第１の符号の値がそれに対して逆の符号の値と比較して発生することが好ましいように選択される、請求項８、請求項９または請求項１０に記載の装置（１００；２００；３００；５１０）。
前記費用関数（ｃ）は、一方では前記時間周波数分布マトリクス（｜Ｘ｜）と他方では前記第１の近似マトリクス（Ｗ）および前記第２の近似マトリクス（Ｈ）の前記積（ＷＨ）との間のエレメント的な差のフロベニウスノルムを決定するように構成される、請求項８ないし請求項１１のいずれかに記載の装置（１００；２００；３００，５１０）。
前記費用関数（ｃ）は、一方では前記時間周波数分布マトリクス（｜Ｘ｜）と他方では前記第１の近似マトリクス（Ｗ）および前記第２の近似マトリクス（Ｈ）の前記積（ＷＨ）との間のエレメント的な差の一般化カルバックライブラーダイバージェンスを決定するように構成される、請求項８ないし請求項１１のいずれかに記載の装置（１００；２００；３００，５１０）。
前記時間周波数分布マトリクス（｜Ｘ｜）は、関連した第１のマトリクス次元ｎおよび関連した第２のマトリクス次元ｍを含み、
前記第１の近似マトリクス（Ｗ）は、関連した第１のマトリクス次元ｎおよび関連した第２のマトリクス次元ｒを含み、
前記第２の近似マトリクス（Ｈ）は、関連した第１のマトリクス次元ｒおよび関連した第２のマトリクス次元ｍを含み、さらに
以下
（ｎ＋ｍ）ｒ＜ｎｍ
が真である、請求項３ないし請求項１３のいずれかに記載の装置（１００；２００；３００，５１０）。
差を算出するための前記手段（１２０；２３０；３３０）は、近似エラーマトリクス（｜Ａ｜）のエレメント（Ａ）が一方では前記時間周波数分布マトリクス（｜Ｘ｜）のエレメントと他方では前記第１の近似マトリクス（Ｗ）および前記第２の近似マトリクス（Ｈ）の前記積（ＷＨ）のエレメント（（ＷＨ）_ij）との間の差の関数であるように近似エラーマトリクス（｜Ａ｜）を導出するように構成され、
前記近似エラーマトリクス（｜Ａ｜）は、前記識別表現（１２２；２３２；３３２）を形成する、請求項３ないし請求項１４のいずれかに記載の装置（１００；２００；３００，５１０）。
差を算出するための前記手段（１２０；２３０；３３０）は、前記近似エラーマトリクス（｜Ａ｜）の所定のエントリー（｜Ａ｜_ij）の算出において、一方では前記所定のエントリー（｜Ａ｜_ij）に関連する前記時間周波数マトリクス（｜Ｘ｜）のエントリー（｜Ｘ｜_ij）と他方では前記所定のエントリー（｜Ｘ｜_ij）に関連する前記第１の近似マトリクス（Ｗ）および前記第２の近似マトリクス（Ｈ）の前記積（ＷＨ）のエントリー（（ＷＨ）_ij）との間の差を決定するように、さらに前記差の前記符号に依存して前記差を重み付けることによって前記差の関数として前記近似エラーマトリクス（｜Ａ｜）の前記所定のエントリー（｜Ａ｜_ij）を算出するように構成される、請求項１５に記載の装置（１００；２００；３００；５１０）。
算出するための前記手段（１２０；２３０；３３０）は、前記近似エラーマトリクス（｜Ａ｜）の所定のエントリー（｜Ａ｜_ij）の算出において、一方では前記所定のエントリー（｜Ａ｜_ij）に関連する前記時間周波数マトリクス（｜Ｘ｜）のエントリー（｜Ｘ｜_ij）と他方では前記所定のエントリー（｜Ａ｜_ij）に関連するものに等しくない重み係数（ξ）によって重み付けられる前記第１の近似マトリクス（Ｗ）および前記第２の近似マトリクス（Ｈ）の前記積（ＷＨ）のエントリー（（ＷＨ）_ij）との間の差を決定するように、さらに
前記差の強度となる前記近似エラーマトリクス（｜Ａ｜）の前記所定のエントリー（｜Ａ｜_ij）を決定するように構成される、請求項１５に記載の装置（１００；２００；３００；５１０）。
提供するための前記手段（１３０；２４０；３３４）は、前記時間周波数分布マトリクス（Ｘ）において得られる位相値（φ）を、前記実数値の品質測度（｜Ａ｜）によって表される前記差に割り当てるように構成される、請求項１８に記載の装置（１００；２００；３００；５１０）。
音声信号（５０８）からフロントラウドスピーカ信号（５６２，５６４，５６６）およびバックラウドスピーカ信号（５４２，５４４）を含むマルチチャンネル音声信号を導出するための装置（５００）であって、
請求項１ないし請求項１９のいずれかに記載の音声信号（５０８）からアンビエント信号（５１２）を生成するための装置（１００；２００；３００；５１０）であって、前記アンビエント信号（５１２）を生成するための前記装置（５１０）は、前記音声信号（５０８）を受信するように構成される、装置、
前記フロントラウドスピーカ信号（５６３，５６４，５６６）として前記音声信号（５０８）またはそれから導出される信号を提供するための装置（５５０，５６０）、および
前記バックラウドスピーカ信号（５４２，５４４）として前記アンビエント信号（５１２）を生成するための前記装置（５１０）によって提供される前記アンビエント信号（５１２）またはそれから導出される信号を提供するためのバックラウドスピーカ信号提供装置（５２０，５３０，５４０）を含む、装置。
前記バックラウドスピーカ信号提供装置（５２０，５３０，５４０）は、前記バックラウドスピーカ信号が前記フロントラウドスピーカ信号（５６２，５６４，５６６）と比較して１ミリ秒および５０ミリ秒間の範囲において遅延するように、前記バックラウドスピーカ信号（５４２，５４４）を生成するように構成される、請求項２０に記載の装置（５００）。
前記バックラウドスピーカ信号提供装置（５２０，５３０，５４０）は、前記バックラウドスピーカ信号（５４２，５４４）においてパルスのような信号部分を減衰するようにまたは前記バックラウドスピーカ信号（５４２，５４４）から前記パルスのような信号部分を除去するように構成される、請求項２０または請求項２１に記載の装置（５００）。
前記バックラウドスピーカ信号提供装置（５２０，５３０，５４０）は、前記アンビエント信号（５１２）を生成するための前記装置（５１０）によって提供される前記アンビエント信号に基づいて、第１のバックラウドスピーカのための第１のバックラウドスピーカ信号（５４２）および第２のバックラウドスピーカのための第２のバックラウドスピーカ信号（５４４）を提供するように構成される、請求項２０ないし請求項２２のいずれかに記載の装置（５００）。
前記バックラウドスピーカ信号提供装置（５２０，５３０，５４０）は、前記第１のバックラウドスピーカ信号および前記第２のバックラウドスピーカ信号が少なくとも部分的に互いに非相関するように、前記アンビエント信号（５１２）に基づいて前記第１のバックラウドスピーカ信号（５４２）および前記第２のバックラウドスピーカ信号（５４４）を提供するように構成される、請求項２３に記載の装置（５００）。
音声信号（１０８；２０８；３０８）からアンビエント信号（１３２；２４２；２５２；２５４；３３６；３４２）を生成するための方法（６００）であって、
前記音声信号の圧縮表現（１１２；２２２；３２２）を得るために、前記音声信号の表現（１０８；２１２；３１６）の非可逆圧縮ステップ（６１０）、
識別表現（１２２；２３２；３３２）を得るために、前記音声信号の前記圧縮表現および前記音声信号の前記表現間の差（１２２；２３２；３３２）を算出するステップ（６２０）、および
前記識別表現を用いて前記アンビエント信号を提供するステップ（６３０）を含む、方法。
音声信号からフロントラウドスピーカ信号およびバックラウドスピーカ信号を含むマルチチャンネル音声信号を導出するための方法であって、
請求項２５に記載の前記音声信号から前記アンビエント信号を生成するステップ、
前記フロントラウドスピーカ信号として前記音声信号またはそれから導出される信号を提供するステップ、および
前記バックラウドスピーカ信号として前記アンビエント信号またはそれから導出される信号を提供するステップを含む、方法。
音声信号からフロントラウドスピーカ信号およびバックラウドスピーカ信号を含むマルチチャンネル音声信号を導出するための方法であって、
前記音声信号から前記アンビエント信号を生成するステップを含み、前記音声信号から前記アンビエント信号を前記生成するステップは、
前記音声信号の圧縮表現（１１２；２２２；３２２）を得るために、前記音声信号の圧縮表現（１０８；２１２；３１６）の非可逆圧縮ステップ（６１０）、および
前記アンビエント信号を形成する識別表現（１２２；２３２；３３２）を得るために、前記音声信号の前記圧縮表現および前記音声信号の前記表現間の差（１２２；２３２；３３２）を算出するステップ（６２０）を含み、
前記識別表現は、前記音声信号の前記表現および前記音声信号の前記圧縮表現間の前記差を表し、さらに
前記識別表現は、非可逆圧縮の方法における前記表現において再生されない前記音声信号のそれらの部分を表し、さらに
前記非可逆圧縮ステップは、エネルギーの規則的な分布を示すまたは大きい信号エネルギーを伝える信号部分が前記圧縮表現に含まれることが好ましいように実行され、前記マルチチャンネル音声信号を導出するための方法は、
前記フロントラウドスピーカ信号として前記音声信号またはそれから導出される信号を提供するステップ、および
前記バックラウドスピーカ信号として前記アンビエント信号またはそれから導出される信号を提供するステップを含む、方法。
音声信号からフロントラウドスピーカ信号およびバックラウドスピーカ信号を含むマルチチャンネル音声信号を導出するための方法であって、
前記音声信号から前記アンビエント信号を生成するステップを含み、前記音声信号から前記アンビエント信号を前記生成するステップは、
前記音声信号の圧縮表現（１１２；２２２；３２２）を得るために、前記音声信号の表現（１０８；２１２；３１６）の非可逆圧縮ステップ（６１０）、
識別表現（１２２；２３２；３３２）を得るために、前記音声信号の前記圧縮表現および前記音声信号の前記表現間の差（１２２；２３２；３３２）算出するステップ（６２０）、および
前記識別表現を用いて前記アンビエント信号を提供するステップ（６３０）を含み、
前記識別表現は、前記音声信号の前記表現および前記音声信号の前記圧縮表現間の前記差を表し、さらに
前記識別表現は、非可逆圧縮の方法における前記表現において再生されない前記音声信号のそれらの部分を表し、さらに
前記非可逆圧縮ステップは、エネルギーの規則的な分布を示すまたは大きい信号エネルギーを伝える信号部分が前記圧縮表現に含まれることが好ましいように実行され、前記マルチチャンネル音声信号を導出するための方法は、
前記フロントラウドスピーカ信号として前記音声信号またはそれから導出される信号を提供するステップ、および
前記バックラウドスピーカ信号として前記アンビエント信号またはそれから導出される信号を提供するステップを含む、方法。
コンピュータ上で実行されるときに、請求項２５または請求項２６または請求項２９または請求項３０に記載の方法を実行するためのコンピュータプログラム。