JP6280983B2

JP6280983B2 - 信号対ダウンミックス比に基づいたセンター信号スケーリング及び立体音響強調のための装置及び方法

Info

Publication number: JP6280983B2
Application number: JP2016506865A
Authority: JP
Inventors: クリスティアンウーレ、; ペータープローカイン、; オーリヴァーヘルムート、; ゼバスティアンシャラー、; エマーヌエルハーベッツ、
Original assignee: フラウンホーファーゲゼルシャフトツールフォルデルングデルアンゲヴァンテンフォルシユングエー．フアー．
Priority date: 2013-04-12
Filing date: 2014-04-07
Publication date: 2018-02-14
Anticipated expiration: 2034-04-07
Also published as: PL2984857T3; CN105284133A; RU2663345C2; RU2015148317A; BR112015025919B1; CN105284133B; JP2016518621A; CA2908794C; ES2755675T3; US9743215B2; KR20150143669A; CA2908794A1; EP2984857A1; WO2014166863A1; MX2015014189A; BR112015025919A2; MX347466B; KR101767330B1; EP2790419A1; EP2984857B1

Description

本発明は、音声信号処理に関するものであり、具体的には、信号対ダウンミックス比に基づいたセンター信号スケーリング及び立体音響強調に関するものである。

一般的に、音声信号は、直接音及び環境（又は拡散）音を混合したものである。直接信号が音源、例えば楽器、歌唱者又はスピーカーによって発出され、可能な限り最短の経路で受信機、例えば聴取者の耳又はマイクロフォンに到達する。直接音を聴いている時には、これは音源の方向から来るものとして知覚される。位置決め及びその他の音の空間的特性についての重要な聴覚的手がかりとして、両耳間レベル差（ＩＬＤ）、両耳間時間差（ＩＴＤ）及び両耳間コヒーレンスがある。同一のＩＬＤ及びＩＴＤをもたらす直接音波は、同じ方向から来るものとして知覚される。環境音が存在しない場合、左耳及び右耳、又はその他任意の１組のセンサであって互いに間隔を置いて配置されたものに到達する信号はコヒーレントである。

これとは対照的に、環境音は、同じ音に寄与する多数の音源又は音反射境界によって発出される。音波が室内の壁に到達すると、その一部が反射され、室内の全ての反射を重ね合わせたもの、即ち反響は、環境音の主要な例である。他の例として拍手、がやがやとしたノイズ及び風のノイズが挙げられる。環境音は、拡散したもの、位置決めできないものとして知覚され、聴取者には包み込まれる（「音の中に没入した」）ような印象を与える。互いに間隔を置いて配置された一組のセンサを用いて環境音場を捕捉した場合、記録された信号は少なくとも部分的に非コヒーレントである。

分離、分解又はスケーリングに関する関連の先行文献は、パンニング情報、即ちチャネル間レベル差（ＩＣＬＤ）及びチャネル間時間差（ＩＣＴＤ）に基づくか、或いは直接音及び環境音の信号特性に基づくかのいずれかである。２チャネル立体音響録音におけるＩＣＬＤを利用した方法が、［７］に記載されたアップミックス方法、方位分解・再合成（ＡＤＲｅｓｓ）アルゴリズム［８］、ヴィッカーズ（Ｖｉｃｋｅｒｓ）によって提案された２チャネル入力信号から３チャネルへのアップミックス［９］、及び［１０］に記載のセンター信号抽出である。

縮退アンミックス推定技術（ＤＵＥＴ）［１１，１２］は、時間周波数ビンを、同様のＩＣＬＤ及びＩＣＴＤを有する組へとクラスタ化することに基づく。元の方法の制限として、処理され得る最高周波数が、［１３］で対象となっている最大マイクロフォン間隔に亘る音の速度の２分の１に等しい（ＩＣＴＤ推定における曖昧さによる）ことが挙げられる。この方法の性能は、音源同士が時間周波数領域で重なる場合、及び反響が増加した場合に減少する。ＩＣＬＤ及びＩＣＴＤに基づく他の方法としては、互いに間隔を置いて配置されたマイクロフォンの録音を処理するようにＡＤＲｅｓｓアルゴリズム［８］を拡張する変更ＡＤＲｅｓｓアルゴリズム［１４］、時間遅延して混合したもののための時間周波数相関に基づく方法（ＡＤ−ＴＩＦＣＯＲＲ）［１５］、特定の時間周波数ビンにおいてただ１つの音源がアクティブであるという確度の値を含む無エコー性混合品のための混合行列の直接推定（ＤＥＭＩＸ）［１６］、モデルベースの期待値最大化音源分離及び位置決め（ＭＥＳＳＬ）［１７］、及び、例えば［１８，１９］におけるような人間のバイノーラル聴覚機構を真似た方法が挙げられる。

上述の直接信号成分の空間的キューを用いたブラインド音源分離（ＢＳＳ）のための方法にもかかわらず、提案された方法には環境信号の抽出及び減衰も関係する。［２２，７，２３］においては、２チャネル信号におけるチャネル間コヒーレンス（ＩＣＣ）に基づく方法が記載されている。［２４］においては、適合フィルタリングの適用が提案されており、ここでの理論は、直接信号は複数のチャネルに亘って予測可能であるのに対して、拡散音は予測エラーから得られるというものである。

多チャネルのウィーナ・フィルタリングに基づく２チャネル立体音響信号のアップミックスのための方法においては、直接信号のＩＣＬＤと、直接及び環境信号成分のパワースペクトル密度（ＰＳＤ）との両方を推定する［２５］。

単一チャネル録音からの環境信号の抽出の方策としては、入力信号の時間周波数表現の非負値行列分解の使用が挙げられ、ここで環境信号は、その近似の残余から得られる場合［２６］、低レベル特徴抽出及び管理学習から得られる場合［２７］、及び周波数領域における反響システム及び逆フィルタリングのインパルス応答の推定から得られる場合［２８］がある。

[20] US patent 7,630,500 B1, P.E. Beckmann, 2009 [21] US patent 7,894,611 B2, P.E. Beckmann, 2011 [28] G. Soulodre, “System for extracting and changing the reverberant content of an audio input signal,” US Patent 8,036,767, Oct. 2011.

[1] International Telecommunication Union, Radiocomunication Assembly, "Multichannel stereophonic sound system with and without accompanying picture.," Recommendation ITU-R BS.775-2, 2006, Geneva, Switzerland. [2] J. Berg and F. Rumsey, "Identification of quality attributes of spatial sound by repertory grid technique," J. Audio Eng. Soc., vol. 54, pp. 365-379, 2006. [3] J. Blauert, Spatial Hearing, MIT Press, 1996. [4] F. Rumsey, "Controlled subjective assessment of two-to-five channel surround sound processing algorithms," J. Audio Eng. Soc., vol. 47, pp. 563-582, 1999. [5] H. Fuchs, S. Tuff, and C. Bustad, "Dialogue enhancement - technology and experiments," EBU Technical Review, vol. Q2, pp. 1-11, 2012. [6] J.-H. Bach, J. Anemueller, and B. Kollmeier, "Robust speech detection in real acoustic backgrounds with perceptually motivated features," Speech Communication, vol. 53, pp. 690-706, 2011. [7] C. Avendano and J.-M. Jot, "A frequency-domain approach to multi-channel upmix," J. Audio Eng. Soc., vol. 52, 2004. [8] D. Barry, B. Lawlor, and E. Coyle, "Sound source separation: Azimuth discrimination and resynthesis," in Proc. Int. Conf. Digital Audio Effects (DAFx), 2004. [9] E. Vickers, "Two-to-three channel upmix for center channel derivation and speech enhancement," in Proc. Audio Eng. Soc. 127th Conv., 2009. [10] D. Jang, J. Hong, H. Jung, and K. Kang, "Center channel separation based on spatial analysis," in Proc. Int. Conf. Digital Audio Effects (DAFx), 2008. [11] A. Jourjine, S. Rickard, and O. Yilmaz, "Blind separation of disjoint orthogonal signals: Demixing N sources from 2 mixtures," in Proc. Int. Conf. Acoust., Speech, Signal Process. (ICASSP), 2000. [12] O. Yilmaz and S. Rickard, "Blind separation of speech mixtures via time-frequency masking," IEEE Trans. on Signal Proc., vol. 52, pp. 1830-1847, 2004. [13] S. Rickard, "The DUET blind source separation algorithm," in Blind Speech Separation, S: Makino, T.-W. Lee, and H. Sawada, Eds. Springer, 2007. [14] N. Cahill, R. Cooney, K. Humphreys, and R. Lawlor, "Speech source enhancement using a modified ADRess algorithm for applications in mobile communications," in Proc. Audio Eng. Soc. 121st Conv., 2006. [15] M. Puigt and Y. Deville, "A time-frequency correlation-based blind source separation method for time-delay mixtures," in Proc. Int. Conf. Acoust., Speech, Signal Process. (ICASSP), 2006. [16] Simon Arberet, Remi Gribonval, and Frederic Bimbot, "A robust method to count and locate audio sources in a stereophonic linear anechoic micxture," in Proc. Int. Conf. Acoust., Speech, Signal Process. (ICASSP), 2007. [17] M.I. Mandel, R.J. Weiss, and D.P.W. Ellis, "Model-based expectation-maximization source separation and localization," IEEE Trans. on Audio, Speech and Language Proc., vol. 18, pp. 382-394, 2010. [18] H. Viste and G. Evangelista, "On the use of spatial cues to improve binaural source separation," in Proc. Int. Conf. Digital Audio Effects (DAFx), 2003. [19] A. Favrot, M. Erne, and C. Faller, "Improved cocktail-party processing," in Proc. Int. Conf. Digital Audio Effects (DAFx), 2006. [22] J.B. Allen, D.A. Berkeley, and J. Blauert, "Multimicrophone signal-processing technique to remove room reverberation from speech signals," J. Acoust. Soc. Am., vol. 62, 1977. [23] J. Merimaa, M. Goodwin, and J.-M. Jot, "Correlation-based ambience extraction from stereo recordings," in Proc. Audio Eng. Soc. 123rd Conv., 2007. [24] J. Usher and J. Benesty, "Enhancement of spatial sound quality: A new reverberation-extraction audio upmixer," IEEE Trans. on Audio, Speech, and Language Processing, vol. 15, pp. 2141-2150, 2007. [25] C. Faller, "Multiple-loudspeaker playback of stereo signals," J. Audio Eng. Soc., vol. 54, 2006. [26] C. Uhle, A. Walther, O. Hellmuth, and J. Herre, "Ambience separation from mono recordings using Non-negative Matrix Factorization," in Proc. Audio Eng. Soc. 30th Int. Conf., 2007. [27] C. Uhle and C. Paul, "A supervised learning approach to ambience extraction from mono recordings for blind upmixing," in Proc. Int. Conf. Digital Audio Effects (DAFx), 2008. [29] International Telecommunication Union, Radiocomunication Assembly, "Algorithms to measure audio programme loudness and true-peak audio level," Recommendation ITUR BS.1770-2, March 2011, Geneva, Switzerland.

本発明の目的は、音声信号処理のための向上した概念を提供することである。本発明の目的は、請求項１に記載の装置、請求項１４に記載のシステム、請求項１５に記載の方法、及び請求項１６に記載のコンピュータプログラムによって達成される。

２つ以上の音声入力チャネルを含む音声入力信号から２つ以上の変更後音声チャネルを含む変更後音声信号を生成するための装置が提供される。当該装置は、信号対ダウンミックス情報を生成するための情報生成部を備える。前記情報生成部は、第１の態様で前記２つ以上の音声入力チャネルの各々についてのスペクトル値を組み合わせることにより信号情報を生成するように適合される。更に、前記情報生成部は、前記第１の態様と異なる第２の態様で、前記２つ以上の音声入力チャネルの各々についてのスペクトル値を組み合わせることによりダウンミックス情報を生成するように適合される。更に、前記情報生成部は、前記信号情報及び前記ダウンミックス情報を組み合わせることにより信号対ダウンミックス情報を得るように適合される。更に、当該装置は、前記信号対ダウンミックス情報に応じて前記２つ以上の音声入力チャネルを減衰させることにより前記２つ以上の変更後音声チャネルを得るための信号減衰部を備える。

特定の実施例においては、当該装置は、例えば、３つ以上の音声入力チャネルを含む音声入力信号から３つ以上の変更後音声チャネルを含む変更後音声信号を生成するように適合しても良い。

実施例においては、前記変更後音声チャネルの数は、前記音声入力チャネルの数以下であるか、或いは、前記変更後音声チャネルの数は、前記音声入力チャネルの数未満である。例えば、特定の実施例によると、当該装置は、２つ以上の音声入力チャネルを含む音声入力信号から２つ以上の変更後音声チャネルを含む変更後音声信号を生成するように適合され、前記変更後音声チャネルの数は、前記音声入力チャネルの数と等しいこととしても良い。

実施例は、音声信号における仮想のセンターのレベルをスケーリングするための新規の概念を提供する。入力信号を時間周波数領域で処理することによって、チャネル全てにおいて凡そ等しいエネルギーを有する直接音成分を増幅し又は減衰させる。入力チャネル信号全てのパワースペクトル密度の合計と、合計信号のパワースペクトル密度との比から実数値のスペクトル重みを得る。本願において呈示される概念の用途としては、２チャネル立体音響録音をアップミックスして、サラウンド・サウンド・セットアップを用い再生することや、立体音響強調、会話強調、及び意味論的音声解析のための前処理が挙げられる。

実施例は、音声信号におけるセンター信号を増幅し又は減衰させるための新規の概念を提供する。以前の概念とは対照的に、信号成分の横方向のずれ及び拡散度の両方が考慮される。更に、意味論的に意味のあるパラメータを使用して、当該概念の実現例が採用された際にユーザを支援することについて説明する。

いくつかの実施例は、センター信号スケーリング、即ち、音声録音におけるセンター信号の増幅又は減衰に焦点を当てる。センター信号は、本願においては、例えば、チャネル全てにおいて凡そ等しい強度及び各チャネル間の無視できる時間差を有する直接信号成分全ての合計として定義される。

センター信号スケーリングからは、音声信号の処理及び再生の様々な用途、例えばアップミックス、会話強調、及び意味論的音声解析が利益を得る。

アップミックスとは、所与の入力信号につき、より少ないチャネルで出力信号を生成するプロセスを指す。その主な用途は、例えば［１］において述べられるように、サラウンド・サウンド・セットアップを用いた２チャネル信号の再生である。空間的音声の主観的品質についての研究［２］によると、位置感（ｌｏｃａｔｅｄｎｅｓｓ）［３］、位置決め及び幅が音の主要な記述的属性である。２から５へのアップミックスアルゴリズムの主観的評価の結果［４］によると、追加的なセンタースピーカーを使用すると、立体音響像が狭まる場合がある。ここで呈示される業績は、追加のセンタースピーカーが、センターへパンニングされる直接信号成分を主に再生する時、及びこれらの信号成分がセンターから外れたスピーカー信号において減衰した時、位置感、位置決め及び幅が保存され得る、或いは向上され得るという仮定によって動機づけられている。

会話強調とは、言語音声の明瞭度、例えば放送及び映画の音におけるそれの向上を指し、会話に対して背景音が大きすぎるときにしばしば望まれる［５］。これが特に当てはまるのは、難聴の人や非母語聴取者、ノイズの多い環境、又は狭いスピーカーの配置のためにバイノーラル・マスキング・レベル差が低下している場合である。本願の概念の方法は、入力信号の処理に適用することができ、会話をセンターへパンニングして背景音を減衰させることでより良好な言語音声明瞭度を可能にする。

意味論的音声解析（又は音声コンテンツ解析）は、音声信号から意味のある記述子を導き出す、例えばビート追跡又は主旋律の転写のためのプロセスを含む。関心の対象である音が背景音の中に埋め込まれると、計算による方法の性能はしばしば劣化する（［６］を参照）。音声生成においては、関心の対象である音源（例えば主導的な楽器及び歌唱者）をセンターへパンニングすることは一般的に行われることであるため、センター抽出を背景音及び反響の減衰のための前処理ステップとして適用することができる。

実施例によると、前記情報生成部は、前記信号対ダウンミックス情報が前記ダウンミックス情報に対する前記信号情報の比を示すように前記信号情報及び前記ダウンミックス情報を組み合わせるように構成しても良い。

実施例によると、前記情報生成部は、前記２つ以上の音声入力チャネルの各々についてのスペクトル値を処理することにより２つ以上の処理後値を得るように構成することができ、前記情報生成部は、前記２つ以上の処理後値を組み合わせることにより前記信号情報を得るように構成することができる。更に、前記情報生成部は、前記２つ以上の音声入力チャネルの各々についてのスペクトル値を組み合わせることにより組み合わせ値を得るように構成することができ、前記情報生成部は、前記組み合わせ値を処理することにより前記ダウンミックス情報を得るように構成することができる。

実施例によると、前記情報生成部は、前記スペクトル値を前記スペクトル値の複素共役によって乗算することにより前記２つ以上の音声入力チャネルの各々についてのスペクトル値を処理することにより、前記２つ以上の音声入力チャネルの各々について前記スペクトル値のオートパワースペクトル密度を得るように構成しても良い。

実施例においては、前記情報生成部は、前記組み合わせ値のパワースペクトル密度を決定することにより前記組み合わせ値を処理するように構成しても良い。

実施例によると、前記情報生成部は、

の式によって信号情報ｓ（ｍ，ｋ，β）を生成するように構成することができ、ここで、Ｎは、前記音声入力信号の音声入力チャネルの数を示し、Φ_ｉ，ｉ（ｍ，ｋ）は、ｉ番目の音声信号チャネルのスペクトル値のオートパワースペクトル密度を示し、βは、β＞０の関係を有する実数であり、ｍは、時間インデックスを示し、ｋは、周波数インデックスを示す。例えば、特定の実施例によると、β≧１である。

実施例においては、前記情報生成部は、Ｒ（ｍ，ｋ，β）についての

の式によって前記信号対ダウンミックス比を前記信号対ダウンミックス情報として決定するように構成することができ、ここで、Φ_ｄ（ｍ，ｋ）は、前記組み合わせ値のパワースペクトル密度を示し、Φ_ｄ（ｍ，ｋ）^βは、前記ダウンミックス情報である。

実施例によると、前記情報生成部は、

の式によって前記信号情報Φ_１（ｍ，ｋ）を生成するように構成され、前記情報生成部は、

の式によって前記ダウンミックス情報Φ_２（ｍ，ｋ）を生成するように構成され、前記情報生成部は、

実施例においては、前記信号減衰部は、

実施例によると、前記ゲイン関数Ｇ（ｍ，ｋ）は、第１の関数Ｇ_ｃ１（ｍ，ｋ，β，γ）、第２の関数Ｇ_ｃ２（ｍ，ｋ，β，γ）、第３の関数Ｇ_ｓ１（ｍ，ｋ，β，γ）又は第４の関数Ｇ_ｓ２（ｍ，ｋ，β，γ）とすることができ、ここで、

であり、

であり、βは、β＞０の関係を有する実数であり、γは、γ＞０の関係を有する実数であり、Ｒ_ｍｉｎは、Ｒの最小値を示す。

更に、システムが提供される。当該システムは、２つ以上の未処理音声チャネルを含む未処理音声信号から２つ以上の位相補償後音声チャネルを含む位相補償後音声信号を生成するための位相補償部を備える。更に、当該システムは、上述の実施例の１つによる装置であって、前記位相補償後音声信号を音声入力信号として受け取り、前記２つ以上の位相補償後音声チャネルを含む音声入力信号から２つ以上の変更後音声チャネルを含む変更後音声信号を２つ以上の音声入力チャネルとして生成するためのものを備える。前記２つ以上の未処理音声チャネルのうちの１つは、参照チャネルである。前記位相補償部は、前記２つ以上の未処理音声チャネルのうち前記参照チャネルでない各々の未処理音声チャネルにつき、前記未処理音声チャネルと前記参照チャネルとの間の位相伝達関数を推定するように適合される。更に、前記位相補償部は、前記未処理音声チャネルの位相伝達関数に応じて、前記未処理音声チャネルのうち前記参照チャネルでない各々の未処理音声チャネルを変更することにより位相補償後音声信号を生成するように適合される。

更に、２つ以上の音声入力チャネルを含む音声入力信号から２つ以上の変更後音声チャネルを含む変更後音声信号を生成するための方法が提供される。当該方法は、
‐第１の態様で前記２つ以上の音声入力チャネルの各々についてのスペクトル値を組み合わせることにより信号情報を生成するステップ、
‐前記第１の態様と異なる第２の態様で、前記２つ以上の音声入力チャネルの各々についてのスペクトル値を組み合わせることによりダウンミックス情報を生成するステップ、
‐前記信号情報及び前記ダウンミックス情報を組み合わせることにより信号対ダウンミックス情報を得るステップ、及び
‐前記信号対ダウンミックス情報に応じて前記２つ以上の音声入力チャネルを減衰させることにより前記２つ以上の変更後音声チャネルを得るステップ、を備える。

更に、上述の方法を実現するためのコンピュータプログラムであって、コンピュータ又は信号減衰器において実行されるものが提供される。

以下、本発明の実施例について、図面を参照してより詳細に説明する。

図１は、実施例による装置を示す図である。図２は、実施例による、チャネル間レベル差の関数及びチャネル間コヒーレンスの関数としての信号対ダウンミックス比を示す図である。図３は、実施例による、チャネル間コヒーレンス及びチャネル間レベル差の関数としてのスペクトル重みを示す図である。図４は、別の実施例による、チャネル間コヒーレンス及びチャネル間レベル差の関数としてのスペクトル重みを示す図である。図５は、更なる実施例による、チャネル間コヒーレンス及びチャネル間レベル差の関数としてのスペクトル重みを示す図である。図６ａ〜ｅは、直接音源信号並びに混合信号の左チャネル信号及び右チャネル信号のスペクトログラムである。図７は、実施例によるセンター信号抽出のための入力信号及び出力信号を示す図である。図８は、実施例による出力信号のスペクトログラムを示す図である。図９は、別の実施例によるセンター信号減衰のための入力信号及び出力信号を示す図である。図１０は、実施例による出力信号のスペクトログラムを示す図である。図１１ａ〜ｄは、チャネル間時間差を伴う、及びこれを伴わない、入力信号を得るために混合された２つの言語音声信号を示す図である。図１２ａ〜ｃは、実施例によるゲイン関数から計算されたスペクトル重みを示す図である。図１３は、実施例によるシステムを示す図である。

図１は、実施例による２つ以上の音声入力チャネルを含む音声入力信号から２つ以上の変更後音声チャネルを含む変更後音声信号を生成するための装置を示す。

当該装置は、信号対ダウンミックス情報を生成するための情報生成部１１０を備える。

情報生成部１１０は、第１の態様で２つ以上の音声入力チャネルの各々についてのスペクトル値を組み合わせることにより信号情報を生成するように適合される。更に、情報生成部１１０は、第１の態様と異なる第２の態様で、２つ以上の音声入力チャネルの各々についてのスペクトル値を組み合わせることによりダウンミックス情報を生成するように適合される。

更に、情報生成部１１０は、信号情報及びダウンミックス情報を組み合わせることにより信号対ダウンミックス情報を得るように適合される。例えば、信号対ダウンミックス情報は、信号対ダウンミックス比、例えば信号対ダウンミックス値とすることができる。

更に、当該装置は、信号対ダウンミックス情報に応じて２つ以上の音声入力チャネルを減衰させることにより２つ以上の変更後音声チャネルを得るための信号減衰部１２０を備える。

実施例によると、情報生成部は、信号対ダウンミックス情報がダウンミックス情報に対する信号情報の比を示すように信号情報及びダウンミックス情報を組み合わせるように構成しても良い。例えば、信号情報は、第１の値とすることができ、ダウンミックス情報は、第２の値とすることができ、信号対ダウンミックス情報は、ダウンミックス値に対する信号値の比を示す。例えば、信号対ダウンミックス情報は、第１の値を第２の値で割ったものとすることができる。或いは、例えば、第１の値及び第２の値が対数値である場合、信号対ダウンミックス情報は、第１の値と第２の値との間の差とすることができる。

以下、基礎をなす信号モデル及び概念を、振幅差立体音響を特徴とする入力信号の場合について説明及び分析する。

ここでの理論は、実数値のスペクトル重みを、直接音源の拡散度及び横方向の位置の関数として計算及び適用することである。ここに呈示される処理はＳＴＦＴ領域において適用されるが、特定のフィルタバンクには限定されない。Ｎ個のチャネルの入力信号は、

によって示され、ここで、ｎは、離散時間インデックスを示す。入力信号は、直接信号ｓ_ｉ［ｎ］及び環境音ａ_ｉ［ｎ］を加法により混合したもの、即ち

と仮定され、ここで、Ｐは、音源の数であり、ｄ_ｉ，ｌ［ｎ］は、ｉ番目の音源の、長さＬ_ｉ，ｌサンプルのｌ番目のチャネルへの直接経路のインパルス応答を示し、環境信号成分は、相互に非相関又は弱い相関関係にある。以下の説明においては、信号モデルが振幅差立体音響に対応する、即ちＬ_ｉ，ｌ＝１，∀ｉ，ｌであると仮定する。

によって与えられる。出力信号は、

によって示され、実数の重みＧ（ｍ，ｋ）を用いた場合、

のスペクトル重み付けによって得られる。時間領域出力信号は、フィルタバンクの逆処理を適用することによって計算される。スペクトル重みの計算の場合、合計信号（以下ダウンミックス信号と称す）は、

として計算される。

対角線から外れた要素はクロスＰＳＤの推定値である一方で、主対角線上の（オート）ＰＳＤの推定値を含む入力信号のＰＳＤの行列は、

によって与えられ、ここで、Ｘ^＊は、Ｘの複素共役を示し、ε｛・｝は、時間領域に対する期待値演算である。ここに呈示するシミュレーションでは、期待値は、単一極再帰的平均、即ち

を用いて推定され、ここで、フィルタ係数αは、積分時間を決定する。更に、量Ｒ（ｍ，ｋ；β）は、

と規定され、ここで、Φ_ｄ（ｍ，ｋ）は、ダウンミックス信号のＰＳＤであり、βは、以下に述べるパラメータである。量Ｒ（ｍ，ｋ；１）は、信号対ダウンミックス比（ＳＤＲ）、即ち、合計ＰＳＤとダウンミックス信号のＰＳＤとの比である。１／（２β−１）の累乗によって、Ｒ（ｍ，ｋ；β）の範囲がβから確実に独立したものとなる。

情報生成部１１０は、式（９）によって信号対ダウンミックス比を決定するように構成することができる。

式（９）によって、情報生成部１１０によって決定することができる信号情報ｓ（ｍ，ｋ，β）は、

と規定される。

上記から分かるように、Φ_ｉ，ｉ（ｍ，ｋ）は、Φ_ｉ，ｉ（ｍ，ｋ）＝ε｛Ｘ_ｉ（ｍ，ｋ）Ｘ_ｉ ^＊（ｍ，ｋ）｝と規定される。従って、信号情報ｓ（ｍ，ｋ，β）を決定するために、２つ以上の音声入力チャネルの各々についてのスペクトル値Ｘ_ｉ（ｍ，ｋ）を処理して、２つ以上の音声入力チャネルの各々についての処理後値Φ_ｉ，ｉ（ｍ，ｋ）^βを得てから、例えば式（９）のように得られた処理後値Φ_ｉ，ｉ（ｍ，ｋ）^βを合計することにより、得られた処理後値Φ_ｉ，ｉ（ｍ，ｋ）^βを組み合わせる。

従って、情報生成部１１０は、２つ以上の音声入力チャネルの各々についてのスペクトル値Ｘ_ｉ（ｍ，ｋ）を処理することにより２つ以上の処理後値Φ_ｉ，ｉ（ｍ，ｋ）^βを得るように構成することができ、情報生成部１１０は、２つ以上の処理後値を組み合わせることにより信号情報ｓ（ｍ，ｋ，β）を得るように構成することができる。より一般的には、情報生成部１１０は、第１の態様で２つ以上の音声入力チャネルの各々についてのスペクトル値Ｘ_ｉ（ｍ，ｋ）を組み合わせることにより信号情報ｓ（ｍ，ｋ，β）を生成するように適合される。

更に、式（９）によって、情報生成部１１０によって決定することができるダウンミックス情報ｄ（ｍ，ｋ，β）は、

と規定される。Φ_ｄ（ｍ，ｋ）を形成するために、まず上述の式（６）、即ち

によってＸ_ｄ（ｍ，ｋ）を形成する。ここから分かるように、まず、２つ以上の音声入力チャネルの各々についてのスペクトル値Ｘ_ｉ（ｍ，ｋ）を組み合わせることにより、例えば式（６）のように、２つ以上の音声入力チャネルの各々についてのスペクトル値Ｘ_ｉ（ｍ，ｋ）を合計することにより組み合わせ値Ｘ_ｄ（ｍ，ｋ）を得る。

次に、Φ_ｄ（ｍ，ｋ）を得るために、例えば

によってＸ_ｄ（ｍ，ｋ）のパワースペクトル密度を形成し、次に、Φ_ｄ（ｍ，ｋ）^βを決定することとすることができる。より一般的には、得られた組み合わせ値Ｘ_ｄ（ｍ，ｋ）を処理してダウンミックス情報ｄ（ｍ，ｋ，β）＝Φ_ｄ（ｍ，ｋ）^βを得ている。

従って、情報生成部１１０は、２つ以上の音声入力チャネルの各々についてのスペクトル値Ｘ_ｉ（ｍ，ｋ）を組み合わせることにより組み合わせ値を得るように構成することができ、情報生成部１１０は、この組み合わせ値を処理することによりダウンミックス情報ｄ（ｍ，ｋ，β）を得るように構成することができる。より一般的には、情報生成部１１０は、第２の態様で２つ以上の音声入力チャネルの各々についてのスペクトル値Ｘ_ｉ（ｍ，ｋ）を組み合わせることによりダウンミックス情報ｄ（ｍ，ｋ，β）を生成するように適合される。ダウンミックス情報が生成される態様（「第２の態様」）は、信号情報が生成される態様（「第１の態様」）とは異なるため、第２の態様は第１の態様と異なる。

図２の上側のプロットは、Ｎ＝２の場合のＩＣＬＤΘ（ｍ，ｋ）の関数としての信号対ダウンミックス比Ｒ（ｍ，ｋ；１）を示し、Ψ（ｍ，ｋ）∈｛０，０．２，０．４，０．６，０．８，１｝について示すものである。図２の下側のプロットは、Ｎ＝２の場合のＩＣＣΨ（ｍ，ｋ）及びＩＣＬＤΘ（ｍ，ｋ）の関数としての信号対ダウンミックス比Ｒ（ｍ，ｋ；１）を、色分けした２次元プロットで示す。

具体的には、図２は、Ｎ＝２の場合のＩＣＣΨ（ｍ，ｋ）及びＩＣＬＤΘ（ｍ，ｋ）の関数としてのＳＤＲを示し、ここで、

及び

である。

図２は、ＳＤＲが以下の特性を有することを示す。
１．Ψ（ｍ，ｋ）及び｜ｌｏｇΘ（ｍ，ｋ）｜の両方に単調に関連付けられている。
２．拡散入力信号、即ちΨ（ｍ，ｋ）＝０の場合、ＳＤＲはその最大値、即ちＲ（ｍ，ｋ；１）＝１を取る。
３．センターへパンニングされた直接音、即ちΘ（ｍ，ｋ）＝１の場合、ＳＤＲはその最小値Ｒ_ｍｉｎを取り、ここで、Ｎ＝２の場合Ｒ_ｍｉｎ＝０．５である。

これらの特性により、ＳＤＲからセンター信号スケーリングのための適切なスペクトル重みを計算することができ、その際、センター信号の抽出の場合は単調減少する関数を用い、センター信号の減衰の場合は単調増加する関数を用いる。

センター信号の抽出の場合、Ｒ（ｍ，ｋ；β）の適切な関数は、例えば、

及び

であり、ここで、最大減衰を制御するためのパラメータを導入する。

センター信号の減衰の場合、Ｒ（ｍ，ｋ；β）の適切な関数は、例えば、

及び

である。

図３及び図４は、β＝１、γ＝３の場合のゲイン関数（１３）及びゲイン関数（１５）をそれぞれ示す。スペクトル重みは、Ψ（ｍ，ｋ）＝０の場合一定である。最大減衰はγ・６ｄＢであり、これはゲイン関数（１２）及びゲイン関数（１４）にも当てはまる。

具体的には、図３は、ＩＣＣΨ（ｍ，ｋ）及びＩＣＬＤΘ（ｍ，ｋ）の関数としてｄＢでスペクトル重みＧ_ｃ２（ｍ，ｋ；１，３）を示す。

更に、図４は、ＩＣＣΨ（ｍ，ｋ）及びＩＣＬＤΘ（ｍ，ｋ）の関数としてｄＢでスペクトル重みＧ_ｓ２（ｍ，ｋ；１，３）を示す。

更に、図５は、ＩＣＣΨ（ｍ，ｋ）及びＩＣＬＤΘ（ｍ，ｋ）の関数としてｄＢでスペクトル重みＧ_ｃ２（ｍ，ｋ；２，３）を示す。

図５では、β＝２、γ＝３の場合の式（１３）におけるゲイン関数についてのパラメータβの効果を示す。βがより大きな値の場合、スペクトル重みに対するΨの影響は減少する一方、Θの影響は増大する。このため、図３におけるゲイン関数と比較すると、出力信号への拡散信号成分の漏れが多くなり、センターを外れるようにパンニングされた直接信号成分の減衰が多くなる。

スペクトル重みの後処理に関し、スペクトル重み付けに先立ち、重みＧ（ｍ，ｋ；β，γ）を平滑化演算によって更に処理することができる。周波数軸に沿ってゼロ位相ローパスフィルタリングによって、環状の畳み込みアーティファクトが低減される。この畳み込みアーティファクトは、例えば、ＳＴＦＴ計算におけるゼロパディングが短すぎる場合や、或いは矩形合成窓を適用した場合に生じ得るものである。時間軸に沿ったローパスフィルタリングによって、特にＰＳＤ推定のための時間定数が比較的小さい場合に処理アーティファクトを減少させることができる。

以下においては、一般化されたスペクトル重みを記載する。

より一般的なスペクトル重みを得るには、式（９）を

へと書き替え、ここで、

ここでは、Φ_１（ｍ，ｋ）は、信号情報と見做すことができ、Φ_２（ｍ，ｋ）は、ダウンミックス情報と見做すことができる。

となり、ここで、Φ_ｓ（ｍ，ｋ）は、補足的信号のＰＳＤである。

実施例によると、情報生成部１１０は、第１の態様で２つ以上の音声入力チャネルの各々についてのスペクトル値Ｘ_ｉ（ｍ，ｋ）を組み合わせることにより信号情報Φ_１（ｍ，ｋ）を生成するように適合される。更に、情報生成部１１０は、第１の態様と異なる第２の態様で、２つ以上の音声入力チャネルの各々についてのスペクトル値Ｘ_ｉ（ｍ，ｋ）を組み合わせることによりダウンミックス情報Φ_２（ｍ，ｋ）を生成するように適合される。

以下、到達時間立体音響を特徴とする混合モデルについてのより一般的なケースについて説明する。

上述のスペクトル重みの導出は、Ｌ_ｉ，ｌ＝１、∀ｉ，ｌ、即ち直接音源が入力チャネル間で時間的に整合されているという仮定に依存している。直接音源信号の混合が振幅差立体音響（Ｌ_ｉ，ｌ＞１）に限定されない、例えば互いに間隔を置いて配置されたマイクロフォンで録音する場合、入力信号Ｘ_ｄ（ｍ，ｋ）のダウンミックスは位相相殺の対象である。Ｘ_ｄ（ｍ，ｋ）における位相相殺によってＳＤＲ値が増加するため、上述のようにスペクトル重み付けを適用した時に典型的な櫛形フィルタリング・アーティファクトが生じる。

櫛形フィルタのノッチは、ゲイン関数（１２），（１３）の場合

の周波数に対応し、ゲイン関数（１４），（１５）の場合

の周波数に対応し、ここで、ｆ_ｓは、サンプリング周波数であり、ｏは、奇数の整数であり、ｅは、偶数の整数であり、ｄは、サンプルにおける遅延である。

のように推定し、ここで、演算子Ａ＼Ｂは、組Ｂ及び組Ａ間の組理論上の差を示し、それから、時間変数・全通過補償フィルタＨ_Ｃ，ｉ（ｍ，ｋ）をｉ番目のチャネル信号に対して

のように適用し、ここで、Ｈ_Ｃ，ｉ（ｍ，ｋ）の位相伝達関数は、

である。

期待値は、単一極再帰的平均を用いて推定される。なお、再帰的平均に先立って、ノッチ周波数に近い周波数で生じる２πの位相ジャンプを補償する必要がある。

ダウンミックス信号は、

によって計算されるため、ＰＤＣは、Ｘ_ｄの計算にのみ適用され、出力信号の位相には影響を与えない。

図１３は、実施例によるシステムを示す。

当該システムは、２つ以上の未処理音声チャネルを含む未処理音声信号から２つ以上の位相補償後音声チャネルを含む位相補償後音声信号を生成するための位相補償部２１０を備える。

更に、当該システムは、上述の実施例の１つによる装置２２０であって、位相補償後音声信号を音声入力信号として受け取り、２つ以上の位相補償後音声チャネルを含む音声入力信号から２つ以上の変更後音声チャネルを含む変更後音声信号を２つ以上の音声入力チャネルとして生成するためのものを備える。

２つ以上の未処理音声チャネルのうちの１つは、参照チャネルである。位相補償部２１０は、２つ以上の未処理音声チャネルのうち参照チャネルでない各々の未処理音声チャネルにつき、前記未処理音声チャネルと参照チャネルとの間の位相伝達関数を推定するように適合される。更に、位相補償部２１０は、前記未処理音声チャネルの位相伝達関数に応じて、未処理音声チャネルのうち参照チャネルでない各々の未処理音声チャネルを変更することにより位相補償後音声信号を生成するように適合される。

以下、制御パラメータの直観的な説明、例えば制御パラメータの意味論的な意味を記載する。

デジタル音声効果の動作については、意味論的に意味のあるパラメータを有する制御を行うことが有利である。ゲイン関数（１２）〜（１５）は、パラメータα，β，γによって制御される。サウンドエンジニア及びオーディオエンジニアは時間定数に慣れているため、αを時間定数として特定することは直観的なものであり、一般的な慣行に沿ったものである。積分時間の効果は、実験によって最も良好に経験することができる。本願の提供する概念の動作を支援するために、残りのパラメータのための記述子、即ちγについての「インパクト」及びβについての「拡散度」が提案される。

パラメータ「インパクト」は、フィルタの次数と最も良好に比較することができる。フィルタリングにおけるロールオフとの類推により、Ｎ＝２の場合の最大減衰はγ・６ｄＢに等しい。

以下、計算上の複雑度及びメモリ要件について簡単に説明する。

以下、本願において呈示される概念の性能について例を用いて説明する。

まず、４４１００Ｈｚでサンプリングされた５つの楽器（ドラム、バス、キー、ギター２台）を録音したものであって、３秒間の長さの抜粋を視覚化したものを振幅でパンニングした混合物に処理を適用する。ドラム、バス及びキーをセンターへパンニングし、１台のギターを左チャネルへパンニングし、２番目のギターを右チャネルへパンニングし、両方とも｜ＩＣＬＤ｜＝２０ｄＢである。１入力チャネル当り約１．４秒のＲＴ６０でのステレオインパルス応答を有する畳み込みリバーブ（ｒｅｖｅｒｂ）を用いて環境信号成分を生成する。反響信号に対して、Ｋ重み付け後の約８ｄＢの直接対環境比を追加する［２９］。

図６ａ〜ｅは、直接音源信号並びに混合信号の左チャネル信号及び右チャネル信号を示すスペクトログラムである。これらのスペクトログラムは、長さが２０４８サンプル、重なりが５０％、フレームサイズが１０２４サンプルで、正弦窓を有するＳＴＦＴを用いて計算される。なお、明瞭さのために、最大４ｋＨｚの周波数に対応するスペクトル係数の大きさのみを示す。具体的には、図６ａ〜ｅは、音楽の例についての入力信号を示す。

具体的には、図６ａ〜ｅは、図６ａでドラム、バス、及びキーをセンターへパンニングした音源信号、図６ｂでは、混合したものにおけるギター１を左へパンニングした音源信号、図６ｃでは、混合したものにおけるギター２を右へパンニングした音源信号、図６ｄでは、混合信号の左チャネル、図６ｅでは、混合信号の右チャネル、をそれぞれ示す。

図７は、Ｇ_ｃ２（ｍ，ｋ；１，３）を適用することにより得られるセンター信号抽出のための入力信号及び出力信号を示す。具体的には、図７は、センター抽出についての例であって、入力時間信号（黒）及び出力時間信号（灰色を重ねている）を示すものであり、図７の上側のプロットは左チャネルを示し、図７の下側のプロットは右チャネルを示す。

ここでのＰＳＤ推定及びそれ以降に記載のものにおける再帰的平均についての時間定数は、２００ミリ秒に設定される。

図８は、出力信号のスペクトログラムを示す。視覚的に検討すると、センターから外れてパンニングされた音源信号（図６ｂ，６ｃに示す）が出力スペクトルグラムで大幅に減衰していることが分かる。具体的には、図８は、センター抽出についての例、より具体的には出力信号のスペクトログラムを示す。出力スペクトログラムはまた、環境信号成分が減衰していることを示す。

図９は、Ｇ_ｓ２（ｍ，ｋ；１，３）を適用することにより得られるセンター信号減衰についての入力信号及び出力信号を示す。時間信号は、ドラムからの過渡音が当該処理によって減衰することを示す。具体的には、図９は、センター減衰についての例を示し、入力時間信号（黒）及び出力時間信号（灰色を重ねている）が示されている。

図１０は、出力信号のスペクトログラムを示す。例えば、６００Ｈｚ未満の低周波数範囲における過渡音成分及び継続的なトーンに着目して図６ａと比較すると、センターへパンニングされた信号が減衰していることが分かる。出力信号における顕著な音は、センターを外れてパンニングされた楽器及び反響に対応する。具体的には、図１０は、センター減衰についての例、より具体的には出力信号のスペクトログラムを示す。

ヘッドフォンで非公式に聴取してみると、信号成分の減衰が効果的であることが分かる。抽出されたセンター信号を聴取すると、ダイナミックレンジ圧縮におけるポンピングと同様、ギター２の一定音が続く間、処理アーティファクトが僅かな変調として可聴のものになる。反響は低減し、高周波数よりも低周波数において減衰はより効果的であることが注目される。この原因が低周波数における高い直接対環境比なのか、音源の周波数コンテンツなのか、又はアンマスキング現象による主観的知覚なのかは、より詳細な分析なしには答えることができない。

センターが減衰した出力信号を聴取する場合、センター抽出の結果と比較して全体的な音質が僅かに良好となる。センターを抽出する際のポンピングと同様に、優勢なセンター化された音源がアクティブである時、処理アーティファクトは、パンニングされた音源のセンターへの僅かな動きとして可聴のものとなっている。出力信号は、その中の環境の量が増加した結果として、直接性が下がったものとして聞こえる。

ＰＤＣフィルタリングを示すために、図１１ａ〜ｄは、ＩＣＴＤを伴う、及びこれを伴わない、入力信号を得るために混合された２つの言語音声信号を示す。具体的には、図１１ａ〜ｄは、ＰＤＣを説明するための入力音源信号を示し、ここで、図１１ａは、音源信号１を示し、図１１ｂは、音源信号２を示し、図１１ｃは、混合信号の左チャネルを示し、図１１ｄは、混合信号の右チャネルを示す。

２チャネル混合信号は、各チャネルにつき等しいゲインを有する言語音声源信号を混合し、この信号に対して、１０ｄＢのＳＮＲ（Ｋ重み付き）を有するホワイトノイズを追加することによって生成される。

図１２ａ〜ｃは、ゲイン関数（１３）から計算されたスペクトル重みを示す。具体的には、図１２ａ〜ｃは、ＰＤＣフィルタリングを説明するためのスペクトル重みＧ_ｃ２（ｍ，ｋ；１，３）を示し、図１２ａは、ＰＤＣを停止したＩＣＴＤを有さない入力信号についてのスペクトル重みを示し、図１２ｂは、ＰＤＣを停止したＩＣＴＤを伴う入力信号についてのスペクトル重みを示し、図１２ｃは、ＰＤＣが働いているＩＣＴＤを有する入力信号についてのスペクトル重みを示す。

上側のプロットにおけるスペクトル重みは、言語音声がアクティブの時に０ｄＢに近く、低ＳＮＲの時間周波数領域において最小値を取る。２番目のプロットは、１番目の言語音声信号（図１１ａ）を２６個のサンプルのＩＣＴＤと混合した入力信号についてのスペクトル重みを示す。櫛形フィルタの特性を図１２ｂに示す。図１２ｃは、ＰＤＣが働いている時のスペクトル重みを示す。８４８Ｈｚ及び２５４４Ｈｚのノッチ周波数の近くでは補償は完全ではないが、櫛形フィルタリング・アーティファクトは大幅に低減している。

非公式に聴取してみると、追加のノイズは大幅に減衰していることが分かる。ＩＣＴＤのない信号を処理する場合、出力信号は環境音の特徴をかすかに有しているが、これは、追加のノイズによって導入された位相非コヒーレンスの結果として生じたものと考えられる。

ＩＣＴＤを有する信号を処理する場合、１番目の言語音声信号（図１１ａ）が大幅に減衰しており、ＰＤＣフィルタリングを適用していない時に強い櫛形フィルタリング・アーティファクトが可聴のものとなっている。追加のＰＤＣフィルタリングがある場合、櫛形フィルタリング・アーティファクトは尚僅かに可聴のものであるが、もたらす不快感は著しく小さい。他の対象を非公式に聴取してみると、僅かなアーティファクトがあるが、これはγを減少させる、βを増加させる、又は未処理の入力信号のスケーリングされたものを出力に追加することによって低減させることができる。一般的に、アーティファクトは、センター信号を減衰させたときに可聴性がより低く、センター信号を抽出した時に可聴性がより高くなる。知覚された空間像の歪みは極めて小さい。これは、チャネル信号全てについてスペクトル重みが同一であり、ＩＣＬＤに影響を与えないという事実に帰することができる。櫛形フィルタリング・アーティファクトは、到達時間立体音響を特徴とする自然録音を処理した時には殆ど聞こえないが、それは、そのような録音の場合は、モノ・ダウンミックスが強い可聴櫛形フィルタリング・アーティファクトを受けにくいからである。なお、ＰＤＣフィルタリングの場合、再帰的平均（特に、Ｘ_ｄを計算した時の位相差の瞬間的な補償）の時間定数の小さな値は、ダウンミックスに用いられる信号にコヒーレンスを導入する。従って、当該処理は、入力信号の拡散度に関して寛容である。時間定数を増加させた場合、（１）振幅差立体音響を有する入力信号についてのＰＤＣの効果が減少し、（２）入力チャネル間で直接音源が時間的に整合されない一定音の始まりにおいて櫛形フィルタリング効果の可聴性が高くなることが観察できる。

ＳＤＲの単調関数から計算された実数値のスペクトル重みを適用することによって音声録音におけるセンター信号をスケーリングするための概念について説明した。その理論は、センター信号スケーリングにおいては、直接音源の横方向のずれ及び拡散度の量の両方を考慮する必要があり、且つ、これらの特性をＳＤＲによって黙示的に捕捉するというものである。当該処理は、意味論的に意味のあるユーザパラメータによって制御することができ、他の周波数領域の技術と比較して計算上の複雑度及びメモリ負荷が低い。本願において提案される概念は、振幅差立体音響を特徴とする入力信号を処理する場合に良好な結果をもたらすものであるが、直接音源が入力チャネル間で時間的に整合されない場合には櫛形フィルタリング・アーティファクトを受けやすくなる場合がある。これを解決する第１の方策は、チャネル間伝達関数における非ゼロ位相を補償することである。

以上、非公式に聴取してみることによって実施例の概念のテストを行った。典型的な商用録音の場合、その結果は良好な音質のものであるが、所望の分離強度にも依存する。

装置の説明でいくつかの局面を記載したが、これらの局面は対応の方法の記載をも表すものであり、ブロック又は装置は、方法ステップ又は方法ステップの特徴に対応することは明らかである。同様に、方法ステップの説明で記載した局面は、対応の装置の対応のブロック若しくは項目又は特徴の記載をも表す。

本発明による分解された信号は、デジタル記憶媒体で記憶することができ、或るいは、伝送媒体、例えば無線伝送媒体又は有線伝送媒体、例えばインターネット、で送信することができる。

特定の実現要件に応じて、本発明の実施例はハードウェア又はソフトウェアによって実現され得る。その実現は、デジタル記憶媒体、例えばフロッピーディスク、ＤＶＤ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ又はフラッシュメモリであって、電子的に読み出し可能な制御信号を格納しており、プログラム可能なコンピュータシステムと協働する（又は協働可能である）ことによりそれぞれの方法が実行されるようにするものを用いて実行され得る。

本発明のいくつかの実施例は、プログラム可能なコンピュータシステムと協働可能であることによって本願明細書に記載の方法の１つが実行されるようにする、電子的に読み出し可能な制御信号を有する非一時的データキャリアを含む。

一般的には、本発明の実施例は、プログラムコードを有するコンピュータプログラム製品であって、このコンピュータプログラム製品がコンピュータにおいて実行されるときに上記プログラムコードが上記方法の１つを実行するように動作するものとして実現され得る。プログラムコードは、例えば、機械読み取り可能キャリアに格納され得る。

他の実施例は、機械読み取り可能キャリアに格納された、本願明細書に記載の方法の１つを実行するためのコンピュータプログラムを含む。

従って、換言すると、本発明の方法の一実施例は、コンピュータプログラムであって、このコンピュータプログラムがコンピュータにおいて実行されるときに、本願明細書に記載の方法の１つを実行するためのプログラムコードを有するものである。

従って、本発明の方法の更なる実施例は、データキャリア（又はデジタル記憶媒体若しくはコンピュータ読み取り可能媒体）であって、そこに記録された、本願明細書に記載の方法の１つを実行するためのコンピュータプログラムを含むものである。

従って、本発明の方法の更なる実施例は、本願明細書に記載の方法の１つを実行するためのコンピュータプログラムを表すデータストリーム又は信号シーケンスである。データストリーム又は信号シーケンスは、例えば、インターネットを介したデータ通信接続を介して転送されるように構成され得る。

更なる実施例は、本願明細書に記載の方法の１つを実行するように構成又は適合された処理手段、例えばコンピュータ又はプログラム可能論理装置を含む。

更なる実施例は、本願明細書に記載の方法の１つを実行するためのコンピュータプログラムをインストールしたコンピュータを含む。

いくつかの実施例においては、プログラム可能論理装置（例えば、フィールドプログラマブルゲートアレイ）を用いて、本願明細書に記載の方法におけるいくつか又は全ての機能を実行しても良い。いくつかの実施例においては、フィールドプログラマブルゲートアレイは、マイクロプロセッサと協働して、本願明細書に記載の方法の１つを実行しても良い。一般的に、当該方法は、どのようなハードウェア装置によって実行されても良い。

上述の各実施例は、単に本発明の原理を例示するものである。本願明細書に記載の構成及び詳細を変更及び変形したものが当業者には明らかであることが理解される。従って、本願明細書における各実施例の記載及び説明として呈示された特定の詳細によってではなく、添付の特許請求の範囲によってのみ限定されることが意図される。

Claims

２つ以上の音声入力チャネルを含む音声入力信号から２つ以上の変更後音声チャネルを含む変更後音声信号を生成するための装置であって、
信号対ダウンミックス情報を生成するための情報生成部（１１０）を備え、前記情報生成部（１１０）は、第１の態様で前記２つ以上の音声入力チャネルの各々についてのスペクトル値を組み合わせることにより信号情報を生成するように適合され、前記情報生成部（１１０）は、前記第１の態様と異なる第２の態様で、前記２つ以上の音声入力チャネルの各々についてのスペクトル値を組み合わせることによりダウンミックス情報を生成するように適合され、前記情報生成部（１１０）は、前記信号情報及び前記ダウンミックス情報を組み合わせることにより信号対ダウンミックス情報を得るように適合され、
前記装置は、更に、前記信号対ダウンミックス情報に応じて前記２つ以上の音声入力チャネルを減衰させることにより前記２つ以上の変更後音声チャネルを得るための信号減衰部（１２０）を備え、
前記情報生成部（１１０）は、
の式によって信号情報Φ_１（ｍ，ｋ）を生成するように構成され、
前記情報生成部（１１０）は、
の式によってダウンミックス情報Φ_２（ｍ，ｋ）を生成するように構成され、
前記情報生成部（１１０）は、
の式によって信号対ダウンミックス比を信号対ダウンミックス情報Ｒ_ｇ（ｍ，ｋ，β）として生成するように構成され、
^Ｈは、行列又はベクトルの共役転置を示し、
ε｛・｝は、期待値演算であり、
βは、β＞０の関係を有する実数であり、
ｔ_ｒ｛｝は、行列のトレースである、装置。
請求項１から請求項３のいずれか１つに記載の装置であって、前記変更後音声チャネルの数は、前記音声入力チャネルの数に等しいか、或いは、前記変更後音声チャネルの数は、前記音声入力チャネルの数未満である、装置。
請求項１から請求項４のいずれか１つに記載の装置であって、
前記情報生成部（１１０）は、前記２つ以上の音声入力チャネルの各々についてのスペクトル値を処理することにより２つ以上の処理後値を得るように構成され、前記情報生成部（１１０）は、前記２つ以上の処理後値を組み合わせることにより前記信号情報を得るように構成され、
前記情報生成部（１１０）は、前記２つ以上の音声入力チャネルの各々についてのスペクトル値を組み合わせることにより組み合わせ値を得るように構成され、前記情報生成部（１１０）は、前記組み合わせ値を処理することにより前記ダウンミックス情報を得るように構成される、装置。
請求項１から請求項５のいずれか１つに記載の装置であって、前記情報生成部（１１０）は、前記スペクトル値に前記スペクトル値の複素共役を乗算することにより前記２つ以上の音声入力チャネルの各々についてのスペクトル値を処理することにより、前記２つ以上の音声入力チャネルの各々についてのスペクトル値のオートパワースペクトル密度を得るように構成される、装置。
請求項６に記載の装置であって、前記情報生成部（１１０）は、前記組み合わせ値のパワースペクトル密度を決定することにより前記組み合わせ値を処理するように構成される、装置。
請求項７に記載の装置であって、前記情報生成部（１１０）は、
を決定することによって前記信号情報を得るように構成され、
ここで、Φ_ｉ，ｉ（ｍ，ｋ）は、ｉ番目の音声信号チャネルのスペクトル値のオートパワースペクトル密度を示す、装置。
請求項８に記載の装置であって、
前記情報生成部（１１０）は、
を決定して前記信号対ダウンミックス比を得るように構成され、
ここで、Φ_ｄ（ｍ，ｋ）は、前記組み合わせ値のパワースペクトル密度を示す、装置。
請求項１から請求項９のいずれか１つに記載の装置であって、前記信号減衰部（１２０）は、
ｍは、時間インデックスを示し、
ｋは、周波数インデックスを示す、装置。
請求項１０に記載の装置であって、
前記ゲイン関数Ｇ（ｍ，ｋ）は、第１の関数Ｇ_ｃ１（ｍ，ｋ，β，γ）、第２の関数Ｇ_ｃ２（ｍ，ｋ，β，γ）、第３の関数Ｇ_ｓ１（ｍ，ｋ，β，γ）又は第４の関数Ｇ_ｓ２（ｍ，ｋ，β，γ）であり、ここで、
であり、
であり、
であり、
であり、
βは、β＞０の関係を有する実数であり、
γは、γ＞０の関係を有する実数であり、
Ｒ_ｍｉｎは、Ｒの最小値を示す、装置。
システムであって、
２つ以上の未処理音声チャネルを含む未処理音声信号から２つ以上の位相補償後音声チャネルを含む位相補償後音声信号を生成するための位相補償部（２１０）と、
請求項１から請求項１１のいずれか１つに記載の装置（２２０）であって、前記位相補償後音声信号を音声入力信号として受け取り、前記２つ以上の位相補償後音声チャネルを含む音声入力信号から２つ以上の変更後音声チャネルを含む変更後音声信号を２つ以上の音声入力チャネルとして生成するための装置（２２０）と、を備え、
前記２つ以上の未処理音声チャネルのうちの１つは、参照チャネルであり、
前記位相補償部（２１０）は、前記２つ以上の未処理音声チャネルのうち前記参照チャネルでない各々の未処理音声チャネルにつき、前記未処理音声チャネルと前記参照チャネルとの間の位相伝達関数を推定するように適合され、
前記位相補償部（２１０）は、前記未処理音声チャネルの位相伝達関数に応じて、前記未処理音声チャネルのうち前記参照チャネルでない各々の未処理音声チャネルを変更することにより位相補償後音声信号を生成するように適合される、システム。
２つ以上の音声入力チャネルを含む音声入力信号から２つ以上の変更後音声チャネルを含む変更後音声信号を生成するための方法であって、
第１の態様で前記２つ以上の音声入力チャネルの各々についてのスペクトル値を組み合わせることにより信号情報を生成するステップと、
前記第１の態様と異なる第２の態様で、前記２つ以上の音声入力チャネルの各々についてのスペクトル値を組み合わせることによりダウンミックス情報を生成するステップと、
前記信号情報及び前記ダウンミックス情報を組み合わせることにより信号対ダウンミックス情報を生成するステップと、
前記信号対ダウンミックス情報に応じて前記２つ以上の音声入力チャネルを減衰させることにより前記２つ以上の変更後音声チャネルを得るステップと、を備え、
信号情報Φ_１（ｍ，ｋ）の生成は、
の式によって行われ、
ダウンミックス情報Φ_２（ｍ，ｋ）の生成は、
の式によって行われ、
信号対ダウンミックス比は、
の式によって信号対ダウンミックス情報Ｒ_ｇ（ｍ，ｋ，β）として生成され、
^Ｈは、行列又はベクトルの共役転置を示し、
ε｛・｝は、期待値演算であり、
βは、β＞０の関係を有する実数であり、
ｔｒ｛｝は、行列のトレースである、方法。
請求項１３に記載の方法を実行するためのコンピュータプログラムであって、コンピュータ又は信号プロセッサにおいて実行される、コンピュータプログラム。