JP6280983B2 - 信号対ダウンミックス比に基づいたセンター信号スケーリング及び立体音響強調のための装置及び方法 - Google Patents

信号対ダウンミックス比に基づいたセンター信号スケーリング及び立体音響強調のための装置及び方法 Download PDF

Info

Publication number
JP6280983B2
JP6280983B2 JP2016506865A JP2016506865A JP6280983B2 JP 6280983 B2 JP6280983 B2 JP 6280983B2 JP 2016506865 A JP2016506865 A JP 2016506865A JP 2016506865 A JP2016506865 A JP 2016506865A JP 6280983 B2 JP6280983 B2 JP 6280983B2
Authority
JP
Japan
Prior art keywords
signal
information
audio
channels
downmix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016506865A
Other languages
English (en)
Other versions
JP2016518621A (ja
Inventor
クリスティアン ウーレ、
クリスティアン ウーレ、
ペーター プローカイン、
ペーター プローカイン、
オーリヴァー ヘルムート、
オーリヴァー ヘルムート、
ゼバスティアン シャラー、
ゼバスティアン シャラー、
エマーヌエル ハーベッツ、
エマーヌエル ハーベッツ、
Original Assignee
フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー.
フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー., フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. filed Critical フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー.
Publication of JP2016518621A publication Critical patent/JP2016518621A/ja
Application granted granted Critical
Publication of JP6280983B2 publication Critical patent/JP6280983B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/307Frequency adjustment, e.g. tone control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/05Generation or adaptation of centre channel in multi-channel audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Stereophonic System (AREA)

Description

本発明は、音声信号処理に関するものであり、具体的には、信号対ダウンミックス比に基づいたセンター信号スケーリング及び立体音響強調に関するものである。
一般的に、音声信号は、直接音及び環境(又は拡散)音を混合したものである。直接信号が音源、例えば楽器、歌唱者又はスピーカーによって発出され、可能な限り最短の経路で受信機、例えば聴取者の耳又はマイクロフォンに到達する。直接音を聴いている時には、これは音源の方向から来るものとして知覚される。位置決め及びその他の音の空間的特性についての重要な聴覚的手がかりとして、両耳間レベル差(ILD)、両耳間時間差(ITD)及び両耳間コヒーレンスがある。同一のILD及びITDをもたらす直接音波は、同じ方向から来るものとして知覚される。環境音が存在しない場合、左耳及び右耳、又はその他任意の1組のセンサであって互いに間隔を置いて配置されたものに到達する信号はコヒーレントである。
これとは対照的に、環境音は、同じ音に寄与する多数の音源又は音反射境界によって発出される。音波が室内の壁に到達すると、その一部が反射され、室内の全ての反射を重ね合わせたもの、即ち反響は、環境音の主要な例である。他の例として拍手、がやがやとしたノイズ及び風のノイズが挙げられる。環境音は、拡散したもの、位置決めできないものとして知覚され、聴取者には包み込まれる(「音の中に没入した」)ような印象を与える。互いに間隔を置いて配置された一組のセンサを用いて環境音場を捕捉した場合、記録された信号は少なくとも部分的に非コヒーレントである。
分離、分解又はスケーリングに関する関連の先行文献は、パンニング情報、即ちチャネル間レベル差(ICLD)及びチャネル間時間差(ICTD)に基づくか、或いは直接音及び環境音の信号特性に基づくかのいずれかである。2チャネル立体音響録音におけるICLDを利用した方法が、[7]に記載されたアップミックス方法、方位分解・再合成(ADRess)アルゴリズム[8]、ヴィッカーズ(Vickers)によって提案された2チャネル入力信号から3チャネルへのアップミックス[9]、及び[10]に記載のセンター信号抽出である。
縮退アンミックス推定技術(DUET)[11,12]は、時間周波数ビンを、同様のICLD及びICTDを有する組へとクラスタ化することに基づく。元の方法の制限として、処理され得る最高周波数が、[13]で対象となっている最大マイクロフォン間隔に亘る音の速度の2分の1に等しい(ICTD推定における曖昧さによる)ことが挙げられる。この方法の性能は、音源同士が時間周波数領域で重なる場合、及び反響が増加した場合に減少する。ICLD及びICTDに基づく他の方法としては、互いに間隔を置いて配置されたマイクロフォンの録音を処理するようにADRessアルゴリズム[8]を拡張する変更ADRessアルゴリズム[14]、時間遅延して混合したもののための時間周波数相関に基づく方法(AD−TIFCORR)[15]、特定の時間周波数ビンにおいてただ1つの音源がアクティブであるという確度の値を含む無エコー性混合品のための混合行列の直接推定(DEMIX)[16]、モデルベースの期待値最大化音源分離及び位置決め(MESSL)[17]、及び、例えば[18,19]におけるような人間のバイノーラル聴覚機構を真似た方法が挙げられる。
上述の直接信号成分の空間的キューを用いたブラインド音源分離(BSS)のための方法にもかかわらず、提案された方法には環境信号の抽出及び減衰も関係する。[22,7,23]においては、2チャネル信号におけるチャネル間コヒーレンス(ICC)に基づく方法が記載されている。[24]においては、適合フィルタリングの適用が提案されており、ここでの理論は、直接信号は複数のチャネルに亘って予測可能であるのに対して、拡散音は予測エラーから得られるというものである。
多チャネルのウィーナ・フィルタリングに基づく2チャネル立体音響信号のアップミックスのための方法においては、直接信号のICLDと、直接及び環境信号成分のパワースペクトル密度(PSD)との両方を推定する[25]。
単一チャネル録音からの環境信号の抽出の方策としては、入力信号の時間周波数表現の非負値行列分解の使用が挙げられ、ここで環境信号は、その近似の残余から得られる場合[26]、低レベル特徴抽出及び管理学習から得られる場合[27]、及び周波数領域における反響システム及び逆フィルタリングのインパルス応答の推定から得られる場合[28]がある。
[20] US patent 7,630,500 B1, P.E. Beckmann, 2009 [21] US patent 7,894,611 B2, P.E. Beckmann, 2011 [28] G. Soulodre, “System for extracting and changing the reverberant content of an audio input signal,” US Patent 8,036,767, Oct. 2011.
[1] International Telecommunication Union, Radiocomunication Assembly, "Multichannel stereophonic sound system with and without accompanying picture.," Recommendation ITU-R BS.775-2, 2006, Geneva, Switzerland. [2] J. Berg and F. Rumsey, "Identification of quality attributes of spatial sound by repertory grid technique," J. Audio Eng. Soc., vol. 54, pp. 365-379, 2006. [3] J. Blauert, Spatial Hearing, MIT Press, 1996. [4] F. Rumsey, "Controlled subjective assessment of two-to-five channel surround sound processing algorithms," J. Audio Eng. Soc., vol. 47, pp. 563-582, 1999. [5] H. Fuchs, S. Tuff, and C. Bustad, "Dialogue enhancement - technology and experiments," EBU Technical Review, vol. Q2, pp. 1-11, 2012. [6] J.-H. Bach, J. Anemueller, and B. Kollmeier, "Robust speech detection in real acoustic backgrounds with perceptually motivated features," Speech Communication, vol. 53, pp. 690-706, 2011. [7] C. Avendano and J.-M. Jot, "A frequency-domain approach to multi-channel upmix," J. Audio Eng. Soc., vol. 52, 2004. [8] D. Barry, B. Lawlor, and E. Coyle, "Sound source separation: Azimuth discrimination and resynthesis," in Proc. Int. Conf. Digital Audio Effects (DAFx), 2004. [9] E. Vickers, "Two-to-three channel upmix for center channel derivation and speech enhancement," in Proc. Audio Eng. Soc. 127th Conv., 2009. [10] D. Jang, J. Hong, H. Jung, and K. Kang, "Center channel separation based on spatial analysis," in Proc. Int. Conf. Digital Audio Effects (DAFx), 2008. [11] A. Jourjine, S. Rickard, and O. Yilmaz, "Blind separation of disjoint orthogonal signals: Demixing N sources from 2 mixtures," in Proc. Int. Conf. Acoust., Speech, Signal Process. (ICASSP), 2000. [12] O. Yilmaz and S. Rickard, "Blind separation of speech mixtures via time-frequency masking," IEEE Trans. on Signal Proc., vol. 52, pp. 1830-1847, 2004. [13] S. Rickard, "The DUET blind source separation algorithm," in Blind Speech Separation, S: Makino, T.-W. Lee, and H. Sawada, Eds. Springer, 2007. [14] N. Cahill, R. Cooney, K. Humphreys, and R. Lawlor, "Speech source enhancement using a modified ADRess algorithm for applications in mobile communications," in Proc. Audio Eng. Soc. 121st Conv., 2006. [15] M. Puigt and Y. Deville, "A time-frequency correlation-based blind source separation method for time-delay mixtures," in Proc. Int. Conf. Acoust., Speech, Signal Process. (ICASSP), 2006. [16] Simon Arberet, Remi Gribonval, and Frederic Bimbot, "A robust method to count and locate audio sources in a stereophonic linear anechoic micxture," in Proc. Int. Conf. Acoust., Speech, Signal Process. (ICASSP), 2007. [17] M.I. Mandel, R.J. Weiss, and D.P.W. Ellis, "Model-based expectation-maximization source separation and localization," IEEE Trans. on Audio, Speech and Language Proc., vol. 18, pp. 382-394, 2010. [18] H. Viste and G. Evangelista, "On the use of spatial cues to improve binaural source separation," in Proc. Int. Conf. Digital Audio Effects (DAFx), 2003. [19] A. Favrot, M. Erne, and C. Faller, "Improved cocktail-party processing," in Proc. Int. Conf. Digital Audio Effects (DAFx), 2006. [22] J.B. Allen, D.A. Berkeley, and J. Blauert, "Multimicrophone signal-processing technique to remove room reverberation from speech signals," J. Acoust. Soc. Am., vol. 62, 1977. [23] J. Merimaa, M. Goodwin, and J.-M. Jot, "Correlation-based ambience extraction from stereo recordings," in Proc. Audio Eng. Soc. 123rd Conv., 2007. [24] J. Usher and J. Benesty, "Enhancement of spatial sound quality: A new reverberation-extraction audio upmixer," IEEE Trans. on Audio, Speech, and Language Processing, vol. 15, pp. 2141-2150, 2007. [25] C. Faller, "Multiple-loudspeaker playback of stereo signals," J. Audio Eng. Soc., vol. 54, 2006. [26] C. Uhle, A. Walther, O. Hellmuth, and J. Herre, "Ambience separation from mono recordings using Non-negative Matrix Factorization," in Proc. Audio Eng. Soc. 30th Int. Conf., 2007. [27] C. Uhle and C. Paul, "A supervised learning approach to ambience extraction from mono recordings for blind upmixing," in Proc. Int. Conf. Digital Audio Effects (DAFx), 2008. [29] International Telecommunication Union, Radiocomunication Assembly, "Algorithms to measure audio programme loudness and true-peak audio level," Recommendation ITUR BS.1770-2, March 2011, Geneva, Switzerland.
本発明の目的は、音声信号処理のための向上した概念を提供することである。本発明の目的は、請求項1に記載の装置、請求項14に記載のシステム、請求項15に記載の方法、及び請求項16に記載のコンピュータプログラムによって達成される。
2つ以上の音声入力チャネルを含む音声入力信号から2つ以上の変更後音声チャネルを含む変更後音声信号を生成するための装置が提供される。当該装置は、信号対ダウンミックス情報を生成するための情報生成部を備える。前記情報生成部は、第1の態様で前記2つ以上の音声入力チャネルの各々についてのスペクトル値を組み合わせることにより信号情報を生成するように適合される。更に、前記情報生成部は、前記第1の態様と異なる第2の態様で、前記2つ以上の音声入力チャネルの各々についてのスペクトル値を組み合わせることによりダウンミックス情報を生成するように適合される。更に、前記情報生成部は、前記信号情報及び前記ダウンミックス情報を組み合わせることにより信号対ダウンミックス情報を得るように適合される。更に、当該装置は、前記信号対ダウンミックス情報に応じて前記2つ以上の音声入力チャネルを減衰させることにより前記2つ以上の変更後音声チャネルを得るための信号減衰部を備える。
特定の実施例においては、当該装置は、例えば、3つ以上の音声入力チャネルを含む音声入力信号から3つ以上の変更後音声チャネルを含む変更後音声信号を生成するように適合しても良い。
実施例においては、前記変更後音声チャネルの数は、前記音声入力チャネルの数以下であるか、或いは、前記変更後音声チャネルの数は、前記音声入力チャネルの数未満である。例えば、特定の実施例によると、当該装置は、2つ以上の音声入力チャネルを含む音声入力信号から2つ以上の変更後音声チャネルを含む変更後音声信号を生成するように適合され、前記変更後音声チャネルの数は、前記音声入力チャネルの数と等しいこととしても良い。
実施例は、音声信号における仮想のセンターのレベルをスケーリングするための新規の概念を提供する。入力信号を時間周波数領域で処理することによって、チャネル全てにおいて凡そ等しいエネルギーを有する直接音成分を増幅し又は減衰させる。入力チャネル信号全てのパワースペクトル密度の合計と、合計信号のパワースペクトル密度との比から実数値のスペクトル重みを得る。本願において呈示される概念の用途としては、2チャネル立体音響録音をアップミックスして、サラウンド・サウンド・セットアップを用い再生することや、立体音響強調、会話強調、及び意味論的音声解析のための前処理が挙げられる。
実施例は、音声信号におけるセンター信号を増幅し又は減衰させるための新規の概念を提供する。以前の概念とは対照的に、信号成分の横方向のずれ及び拡散度の両方が考慮される。更に、意味論的に意味のあるパラメータを使用して、当該概念の実現例が採用された際にユーザを支援することについて説明する。
いくつかの実施例は、センター信号スケーリング、即ち、音声録音におけるセンター信号の増幅又は減衰に焦点を当てる。センター信号は、本願においては、例えば、チャネル全てにおいて凡そ等しい強度及び各チャネル間の無視できる時間差を有する直接信号成分全ての合計として定義される。
センター信号スケーリングからは、音声信号の処理及び再生の様々な用途、例えばアップミックス、会話強調、及び意味論的音声解析が利益を得る。
アップミックスとは、所与の入力信号につき、より少ないチャネルで出力信号を生成するプロセスを指す。その主な用途は、例えば[1]において述べられるように、サラウンド・サウンド・セットアップを用いた2チャネル信号の再生である。空間的音声の主観的品質についての研究[2]によると、位置感(locatedness)[3]、位置決め及び幅が音の主要な記述的属性である。2から5へのアップミックスアルゴリズムの主観的評価の結果[4]によると、追加的なセンタースピーカーを使用すると、立体音響像が狭まる場合がある。ここで呈示される業績は、追加のセンタースピーカーが、センターへパンニングされる直接信号成分を主に再生する時、及びこれらの信号成分がセンターから外れたスピーカー信号において減衰した時、位置感、位置決め及び幅が保存され得る、或いは向上され得るという仮定によって動機づけられている。
会話強調とは、言語音声の明瞭度、例えば放送及び映画の音におけるそれの向上を指し、会話に対して背景音が大きすぎるときにしばしば望まれる[5]。これが特に当てはまるのは、難聴の人や非母語聴取者、ノイズの多い環境、又は狭いスピーカーの配置のためにバイノーラル・マスキング・レベル差が低下している場合である。本願の概念の方法は、入力信号の処理に適用することができ、会話をセンターへパンニングして背景音を減衰させることでより良好な言語音声明瞭度を可能にする。
意味論的音声解析(又は音声コンテンツ解析)は、音声信号から意味のある記述子を導き出す、例えばビート追跡又は主旋律の転写のためのプロセスを含む。関心の対象である音が背景音の中に埋め込まれると、計算による方法の性能はしばしば劣化する([6]を参照)。音声生成においては、関心の対象である音源(例えば主導的な楽器及び歌唱者)をセンターへパンニングすることは一般的に行われることであるため、センター抽出を背景音及び反響の減衰のための前処理ステップとして適用することができる。
実施例によると、前記情報生成部は、前記信号対ダウンミックス情報が前記ダウンミックス情報に対する前記信号情報の比を示すように前記信号情報及び前記ダウンミックス情報を組み合わせるように構成しても良い。
実施例によると、前記情報生成部は、前記2つ以上の音声入力チャネルの各々についてのスペクトル値を処理することにより2つ以上の処理後値を得るように構成することができ、前記情報生成部は、前記2つ以上の処理後値を組み合わせることにより前記信号情報を得るように構成することができる。更に、前記情報生成部は、前記2つ以上の音声入力チャネルの各々についてのスペクトル値を組み合わせることにより組み合わせ値を得るように構成することができ、前記情報生成部は、前記組み合わせ値を処理することにより前記ダウンミックス情報を得るように構成することができる。
実施例によると、前記情報生成部は、前記スペクトル値を前記スペクトル値の複素共役によって乗算することにより前記2つ以上の音声入力チャネルの各々についてのスペクトル値を処理することにより、前記2つ以上の音声入力チャネルの各々について前記スペクトル値のオートパワースペクトル密度を得るように構成しても良い。
実施例においては、前記情報生成部は、前記組み合わせ値のパワースペクトル密度を決定することにより前記組み合わせ値を処理するように構成しても良い。
実施例によると、前記情報生成部は、
の式によって信号情報s(m,k,β)を生成するように構成することができ、ここで、Nは、前記音声入力信号の音声入力チャネルの数を示し、Φi,i(m,k)は、i番目の音声信号チャネルのスペクトル値のオートパワースペクトル密度を示し、βは、β>0の関係を有する実数であり、mは、時間インデックスを示し、kは、周波数インデックスを示す。例えば、特定の実施例によると、β≧1である。
実施例においては、前記情報生成部は、R(m,k,β)についての
の式によって前記信号対ダウンミックス比を前記信号対ダウンミックス情報として決定するように構成することができ、ここで、Φ(m,k)は、前記組み合わせ値のパワースペクトル密度を示し、Φ(m,k)βは、前記ダウンミックス情報である。
実施例によると、前記情報生成部は、
の式によって前記信号情報Φ(m,k)を生成するように構成され、前記情報生成部は、
の式によって前記ダウンミックス情報Φ(m,k)を生成するように構成され、前記情報生成部は、
実施例においては、前記信号減衰部は、
実施例によると、前記ゲイン関数G(m,k)は、第1の関数Gc1(m,k,β,γ)、第2の関数Gc2(m,k,β,γ)、第3の関数Gs1(m,k,β,γ)又は第4の関数Gs2(m,k,β,γ)とすることができ、ここで、
であり、
であり、
であり、
であり、βは、β>0の関係を有する実数であり、γは、γ>0の関係を有する実数であり、Rminは、Rの最小値を示す。
更に、システムが提供される。当該システムは、2つ以上の未処理音声チャネルを含む未処理音声信号から2つ以上の位相補償後音声チャネルを含む位相補償後音声信号を生成するための位相補償部を備える。更に、当該システムは、上述の実施例の1つによる装置であって、前記位相補償後音声信号を音声入力信号として受け取り、前記2つ以上の位相補償後音声チャネルを含む音声入力信号から2つ以上の変更後音声チャネルを含む変更後音声信号を2つ以上の音声入力チャネルとして生成するためのものを備える。前記2つ以上の未処理音声チャネルのうちの1つは、参照チャネルである。前記位相補償部は、前記2つ以上の未処理音声チャネルのうち前記参照チャネルでない各々の未処理音声チャネルにつき、前記未処理音声チャネルと前記参照チャネルとの間の位相伝達関数を推定するように適合される。更に、前記位相補償部は、前記未処理音声チャネルの位相伝達関数に応じて、前記未処理音声チャネルのうち前記参照チャネルでない各々の未処理音声チャネルを変更することにより位相補償後音声信号を生成するように適合される。
更に、2つ以上の音声入力チャネルを含む音声入力信号から2つ以上の変更後音声チャネルを含む変更後音声信号を生成するための方法が提供される。当該方法は、
‐第1の態様で前記2つ以上の音声入力チャネルの各々についてのスペクトル値を組み合わせることにより信号情報を生成するステップ、
‐前記第1の態様と異なる第2の態様で、前記2つ以上の音声入力チャネルの各々についてのスペクトル値を組み合わせることによりダウンミックス情報を生成するステップ、
‐前記信号情報及び前記ダウンミックス情報を組み合わせることにより信号対ダウンミックス情報を得るステップ、及び
‐前記信号対ダウンミックス情報に応じて前記2つ以上の音声入力チャネルを減衰させることにより前記2つ以上の変更後音声チャネルを得るステップ、を備える。
更に、上述の方法を実現するためのコンピュータプログラムであって、コンピュータ又は信号減衰器において実行されるものが提供される。
以下、本発明の実施例について、図面を参照してより詳細に説明する。
図1は、実施例による装置を示す図である。 図2は、実施例による、チャネル間レベル差の関数及びチャネル間コヒーレンスの関数としての信号対ダウンミックス比を示す図である。 図3は、実施例による、チャネル間コヒーレンス及びチャネル間レベル差の関数としてのスペクトル重みを示す図である。 図4は、別の実施例による、チャネル間コヒーレンス及びチャネル間レベル差の関数としてのスペクトル重みを示す図である。 図5は、更なる実施例による、チャネル間コヒーレンス及びチャネル間レベル差の関数としてのスペクトル重みを示す図である。 図6a〜eは、直接音源信号並びに混合信号の左チャネル信号及び右チャネル信号のスペクトログラムである。 図7は、実施例によるセンター信号抽出のための入力信号及び出力信号を示す図である。 図8は、実施例による出力信号のスペクトログラムを示す図である。 図9は、別の実施例によるセンター信号減衰のための入力信号及び出力信号を示す図である。 図10は、実施例による出力信号のスペクトログラムを示す図である。 図11a〜dは、チャネル間時間差を伴う、及びこれを伴わない、入力信号を得るために混合された2つの言語音声信号を示す図である。 図12a〜cは、実施例によるゲイン関数から計算されたスペクトル重みを示す図である。 図13は、実施例によるシステムを示す図である。
図1は、実施例による2つ以上の音声入力チャネルを含む音声入力信号から2つ以上の変更後音声チャネルを含む変更後音声信号を生成するための装置を示す。
当該装置は、信号対ダウンミックス情報を生成するための情報生成部110を備える。
情報生成部110は、第1の態様で2つ以上の音声入力チャネルの各々についてのスペクトル値を組み合わせることにより信号情報を生成するように適合される。更に、情報生成部110は、第1の態様と異なる第2の態様で、2つ以上の音声入力チャネルの各々についてのスペクトル値を組み合わせることによりダウンミックス情報を生成するように適合される。
更に、情報生成部110は、信号情報及びダウンミックス情報を組み合わせることにより信号対ダウンミックス情報を得るように適合される。例えば、信号対ダウンミックス情報は、信号対ダウンミックス比、例えば信号対ダウンミックス値とすることができる。
更に、当該装置は、信号対ダウンミックス情報に応じて2つ以上の音声入力チャネルを減衰させることにより2つ以上の変更後音声チャネルを得るための信号減衰部120を備える。
実施例によると、情報生成部は、信号対ダウンミックス情報がダウンミックス情報に対する信号情報の比を示すように信号情報及びダウンミックス情報を組み合わせるように構成しても良い。例えば、信号情報は、第1の値とすることができ、ダウンミックス情報は、第2の値とすることができ、信号対ダウンミックス情報は、ダウンミックス値に対する信号値の比を示す。例えば、信号対ダウンミックス情報は、第1の値を第2の値で割ったものとすることができる。或いは、例えば、第1の値及び第2の値が対数値である場合、信号対ダウンミックス情報は、第1の値と第2の値との間の差とすることができる。
以下、基礎をなす信号モデル及び概念を、振幅差立体音響を特徴とする入力信号の場合について説明及び分析する。
ここでの理論は、実数値のスペクトル重みを、直接音源の拡散度及び横方向の位置の関数として計算及び適用することである。ここに呈示される処理はSTFT領域において適用されるが、特定のフィルタバンクには限定されない。N個のチャネルの入力信号は、
によって示され、ここで、nは、離散時間インデックスを示す。入力信号は、直接信号s[n]及び環境音a[n]を加法により混合したもの、即ち
と仮定され、ここで、Pは、音源の数であり、di,l[n]は、i番目の音源の、長さLi,lサンプルのl番目のチャネルへの直接経路のインパルス応答を示し、環境信号成分は、相互に非相関又は弱い相関関係にある。以下の説明においては、信号モデルが振幅差立体音響に対応する、即ちLi,l=1,∀i,lであると仮定する。
によって与えられる。出力信号は、
によって示され、実数の重みG(m,k)を用いた場合、
のスペクトル重み付けによって得られる。時間領域出力信号は、フィルタバンクの逆処理を適用することによって計算される。スペクトル重みの計算の場合、合計信号(以下ダウンミックス信号と称す)は、
として計算される。
対角線から外れた要素はクロスPSDの推定値である一方で、主対角線上の(オート)PSDの推定値を含む入力信号のPSDの行列は、
によって与えられ、ここで、Xは、Xの複素共役を示し、ε{・}は、時間領域に対する期待値演算である。ここに呈示するシミュレーションでは、期待値は、単一極再帰的平均、即ち
を用いて推定され、ここで、フィルタ係数αは、積分時間を決定する。更に、量R(m,k;β)は、
と規定され、ここで、Φ(m,k)は、ダウンミックス信号のPSDであり、βは、以下に述べるパラメータである。量R(m,k;1)は、信号対ダウンミックス比(SDR)、即ち、合計PSDとダウンミックス信号のPSDとの比である。1/(2β−1)の累乗によって、R(m,k;β)の範囲がβから確実に独立したものとなる。
情報生成部110は、式(9)によって信号対ダウンミックス比を決定するように構成することができる。
式(9)によって、情報生成部110によって決定することができる信号情報s(m,k,β)は、
と規定される。
上記から分かるように、Φi,i(m,k)は、Φi,i(m,k)=ε{X(m,k)X (m,k)}と規定される。従って、信号情報s(m,k,β)を決定するために、2つ以上の音声入力チャネルの各々についてのスペクトル値X(m,k)を処理して、2つ以上の音声入力チャネルの各々についての処理後値Φi,i(m,k)βを得てから、例えば式(9)のように得られた処理後値Φi,i(m,k)βを合計することにより、得られた処理後値Φi,i(m,k)βを組み合わせる。
従って、情報生成部110は、2つ以上の音声入力チャネルの各々についてのスペクトル値X(m,k)を処理することにより2つ以上の処理後値Φi,i(m,k)βを得るように構成することができ、情報生成部110は、2つ以上の処理後値を組み合わせることにより信号情報s(m,k,β)を得るように構成することができる。より一般的には、情報生成部110は、第1の態様で2つ以上の音声入力チャネルの各々についてのスペクトル値X(m,k)を組み合わせることにより信号情報s(m,k,β)を生成するように適合される。
更に、式(9)によって、情報生成部110によって決定することができるダウンミックス情報d(m,k,β)は、
と規定される。Φ(m,k)を形成するために、まず上述の式(6)、即ち
によってX(m,k)を形成する。ここから分かるように、まず、2つ以上の音声入力チャネルの各々についてのスペクトル値X(m,k)を組み合わせることにより、例えば式(6)のように、2つ以上の音声入力チャネルの各々についてのスペクトル値X(m,k)を合計することにより組み合わせ値X(m,k)を得る。
次に、Φ(m,k)を得るために、例えば
によってX(m,k)のパワースペクトル密度を形成し、次に、Φ(m,k)βを決定することとすることができる。より一般的には、得られた組み合わせ値X(m,k)を処理してダウンミックス情報d(m,k,β)=Φ(m,k)βを得ている。
従って、情報生成部110は、2つ以上の音声入力チャネルの各々についてのスペクトル値X(m,k)を組み合わせることにより組み合わせ値を得るように構成することができ、情報生成部110は、この組み合わせ値を処理することによりダウンミックス情報d(m,k,β)を得るように構成することができる。より一般的には、情報生成部110は、第2の態様で2つ以上の音声入力チャネルの各々についてのスペクトル値X(m,k)を組み合わせることによりダウンミックス情報d(m,k,β)を生成するように適合される。ダウンミックス情報が生成される態様(「第2の態様」)は、信号情報が生成される態様(「第1の態様」)とは異なるため、第2の態様は第1の態様と異なる。
情報生成部110は、第1の態様で2つ以上の音声入力チャネルの各々についてのスペクトル値を組み合わせることにより信号情報を生成するように適合される。更に、情報生成部110は、第1の態様と異なる第2の態様で、2つ以上の音声入力チャネルの各々についてのスペクトル値を組み合わせることによりダウンミックス情報を生成するように適合される。
図2の上側のプロットは、N=2の場合のICLDΘ(m,k)の関数としての信号対ダウンミックス比R(m,k;1)を示し、Ψ(m,k)∈{0,0.2,0.4,0.6,0.8,1}について示すものである。図2の下側のプロットは、N=2の場合のICCΨ(m,k)及びICLDΘ(m,k)の関数としての信号対ダウンミックス比R(m,k;1)を、色分けした2次元プロットで示す。
具体的には、図2は、N=2の場合のICCΨ(m,k)及びICLDΘ(m,k)の関数としてのSDRを示し、ここで、
及び
である。
図2は、SDRが以下の特性を有することを示す。
1.Ψ(m,k)及び|logΘ(m,k)|の両方に単調に関連付けられている。
2.拡散入力信号、即ちΨ(m,k)=0の場合、SDRはその最大値、即ちR(m,k;1)=1を取る。
3.センターへパンニングされた直接音、即ちΘ(m,k)=1の場合、SDRはその最小値Rminを取り、ここで、N=2の場合Rmin=0.5である。
これらの特性により、SDRからセンター信号スケーリングのための適切なスペクトル重みを計算することができ、その際、センター信号の抽出の場合は単調減少する関数を用い、センター信号の減衰の場合は単調増加する関数を用いる。
センター信号の抽出の場合、R(m,k;β)の適切な関数は、例えば、
及び
であり、ここで、最大減衰を制御するためのパラメータを導入する。
センター信号の減衰の場合、R(m,k;β)の適切な関数は、例えば、
及び
である。
図3及び図4は、β=1、γ=3の場合のゲイン関数(13)及びゲイン関数(15)をそれぞれ示す。スペクトル重みは、Ψ(m,k)=0の場合一定である。最大減衰はγ・6dBであり、これはゲイン関数(12)及びゲイン関数(14)にも当てはまる。
具体的には、図3は、ICCΨ(m,k)及びICLDΘ(m,k)の関数としてdBでスペクトル重みGc2(m,k;1,3)を示す。
更に、図4は、ICCΨ(m,k)及びICLDΘ(m,k)の関数としてdBでスペクトル重みGs2(m,k;1,3)を示す。
更に、図5は、ICCΨ(m,k)及びICLDΘ(m,k)の関数としてdBでスペクトル重みGc2(m,k;2,3)を示す。
図5では、β=2、γ=3の場合の式(13)におけるゲイン関数についてのパラメータβの効果を示す。βがより大きな値の場合、スペクトル重みに対するΨの影響は減少する一方、Θの影響は増大する。このため、図3におけるゲイン関数と比較すると、出力信号への拡散信号成分の漏れが多くなり、センターを外れるようにパンニングされた直接信号成分の減衰が多くなる。
スペクトル重みの後処理に関し、スペクトル重み付けに先立ち、重みG(m,k;β,γ)を平滑化演算によって更に処理することができる。周波数軸に沿ってゼロ位相ローパスフィルタリングによって、環状の畳み込みアーティファクトが低減される。この畳み込みアーティファクトは、例えば、STFT計算におけるゼロパディングが短すぎる場合や、或いは矩形合成窓を適用した場合に生じ得るものである。時間軸に沿ったローパスフィルタリングによって、特にPSD推定のための時間定数が比較的小さい場合に処理アーティファクトを減少させることができる。
以下においては、一般化されたスペクトル重みを記載する。
より一般的なスペクトル重みを得るには、式(9)を
へと書き替え、ここで、
ここでは、Φ(m,k)は、信号情報と見做すことができ、Φ(m,k)は、ダウンミックス情報と見做すことができる。
となり、ここで、Φ(m,k)は、補足的信号のPSDである。
実施例によると、情報生成部110は、第1の態様で2つ以上の音声入力チャネルの各々についてのスペクトル値X(m,k)を組み合わせることにより信号情報Φ(m,k)を生成するように適合される。更に、情報生成部110は、第1の態様と異なる第2の態様で、2つ以上の音声入力チャネルの各々についてのスペクトル値X(m,k)を組み合わせることによりダウンミックス情報Φ(m,k)を生成するように適合される。
以下、到達時間立体音響を特徴とする混合モデルについてのより一般的なケースについて説明する。
上述のスペクトル重みの導出は、Li,l=1、∀i,l、即ち直接音源が入力チャネル間で時間的に整合されているという仮定に依存している。直接音源信号の混合が振幅差立体音響(Li,l>1)に限定されない、例えば互いに間隔を置いて配置されたマイクロフォンで録音する場合、入力信号X(m,k)のダウンミックスは位相相殺の対象である。X(m,k)における位相相殺によってSDR値が増加するため、上述のようにスペクトル重み付けを適用した時に典型的な櫛形フィルタリング・アーティファクトが生じる。
櫛形フィルタのノッチは、ゲイン関数(12),(13)の場合
の周波数に対応し、ゲイン関数(14),(15)の場合
の周波数に対応し、ここで、fは、サンプリング周波数であり、oは、奇数の整数であり、eは、偶数の整数であり、dは、サンプルにおける遅延である。
のように推定し、ここで、演算子A\Bは、組B及び組A間の組理論上の差を示し、それから、時間変数・全通過補償フィルタHC,i(m,k)をi番目のチャネル信号に対して
のように適用し、ここで、HC,i(m,k)の位相伝達関数は、
である。
期待値は、単一極再帰的平均を用いて推定される。なお、再帰的平均に先立って、ノッチ周波数に近い周波数で生じる2πの位相ジャンプを補償する必要がある。
ダウンミックス信号は、
によって計算されるため、PDCは、Xの計算にのみ適用され、出力信号の位相には影響を与えない。
図13は、実施例によるシステムを示す。
当該システムは、2つ以上の未処理音声チャネルを含む未処理音声信号から2つ以上の位相補償後音声チャネルを含む位相補償後音声信号を生成するための位相補償部210を備える。
更に、当該システムは、上述の実施例の1つによる装置220であって、位相補償後音声信号を音声入力信号として受け取り、2つ以上の位相補償後音声チャネルを含む音声入力信号から2つ以上の変更後音声チャネルを含む変更後音声信号を2つ以上の音声入力チャネルとして生成するためのものを備える。
2つ以上の未処理音声チャネルのうちの1つは、参照チャネルである。位相補償部210は、2つ以上の未処理音声チャネルのうち参照チャネルでない各々の未処理音声チャネルにつき、前記未処理音声チャネルと参照チャネルとの間の位相伝達関数を推定するように適合される。更に、位相補償部210は、前記未処理音声チャネルの位相伝達関数に応じて、未処理音声チャネルのうち参照チャネルでない各々の未処理音声チャネルを変更することにより位相補償後音声信号を生成するように適合される。
以下、制御パラメータの直観的な説明、例えば制御パラメータの意味論的な意味を記載する。
デジタル音声効果の動作については、意味論的に意味のあるパラメータを有する制御を行うことが有利である。ゲイン関数(12)〜(15)は、パラメータα,β,γによって制御される。サウンドエンジニア及びオーディオエンジニアは時間定数に慣れているため、αを時間定数として特定することは直観的なものであり、一般的な慣行に沿ったものである。積分時間の効果は、実験によって最も良好に経験することができる。本願の提供する概念の動作を支援するために、残りのパラメータのための記述子、即ちγについての「インパクト」及びβについての「拡散度」が提案される。
パラメータ「インパクト」は、フィルタの次数と最も良好に比較することができる。フィルタリングにおけるロールオフとの類推により、N=2の場合の最大減衰はγ・6dBに等しい。
以下、計算上の複雑度及びメモリ要件について簡単に説明する。
以下、本願において呈示される概念の性能について例を用いて説明する。
まず、44100Hzでサンプリングされた5つの楽器(ドラム、バス、キー、ギター2台)を録音したものであって、3秒間の長さの抜粋を視覚化したものを振幅でパンニングした混合物に処理を適用する。ドラム、バス及びキーをセンターへパンニングし、1台のギターを左チャネルへパンニングし、2番目のギターを右チャネルへパンニングし、両方とも|ICLD|=20dBである。1入力チャネル当り約1.4秒のRT60でのステレオインパルス応答を有する畳み込みリバーブ(reverb)を用いて環境信号成分を生成する。反響信号に対して、K重み付け後の約8dBの直接対環境比を追加する[29]。
図6a〜eは、直接音源信号並びに混合信号の左チャネル信号及び右チャネル信号を示すスペクトログラムである。これらのスペクトログラムは、長さが2048サンプル、重なりが50%、フレームサイズが1024サンプルで、正弦窓を有するSTFTを用いて計算される。なお、明瞭さのために、最大4kHzの周波数に対応するスペクトル係数の大きさのみを示す。具体的には、図6a〜eは、音楽の例についての入力信号を示す。
具体的には、図6a〜eは、図6aでドラム、バス、及びキーをセンターへパンニングした音源信号、図6bでは、混合したものにおけるギター1を左へパンニングした音源信号、図6cでは、混合したものにおけるギター2を右へパンニングした音源信号、図6dでは、混合信号の左チャネル、図6eでは、混合信号の右チャネル、をそれぞれ示す。
図7は、Gc2(m,k;1,3)を適用することにより得られるセンター信号抽出のための入力信号及び出力信号を示す。具体的には、図7は、センター抽出についての例であって、入力時間信号(黒)及び出力時間信号(灰色を重ねている)を示すものであり、図7の上側のプロットは左チャネルを示し、図7の下側のプロットは右チャネルを示す。
ここでのPSD推定及びそれ以降に記載のものにおける再帰的平均についての時間定数は、200ミリ秒に設定される。
図8は、出力信号のスペクトログラムを示す。視覚的に検討すると、センターから外れてパンニングされた音源信号(図6b,6cに示す)が出力スペクトルグラムで大幅に減衰していることが分かる。具体的には、図8は、センター抽出についての例、より具体的には出力信号のスペクトログラムを示す。出力スペクトログラムはまた、環境信号成分が減衰していることを示す。
図9は、Gs2(m,k;1,3)を適用することにより得られるセンター信号減衰についての入力信号及び出力信号を示す。時間信号は、ドラムからの過渡音が当該処理によって減衰することを示す。具体的には、図9は、センター減衰についての例を示し、入力時間信号(黒)及び出力時間信号(灰色を重ねている)が示されている。
図10は、出力信号のスペクトログラムを示す。例えば、600Hz未満の低周波数範囲における過渡音成分及び継続的なトーンに着目して図6aと比較すると、センターへパンニングされた信号が減衰していることが分かる。出力信号における顕著な音は、センターを外れてパンニングされた楽器及び反響に対応する。具体的には、図10は、センター減衰についての例、より具体的には出力信号のスペクトログラムを示す。
ヘッドフォンで非公式に聴取してみると、信号成分の減衰が効果的であることが分かる。抽出されたセンター信号を聴取すると、ダイナミックレンジ圧縮におけるポンピングと同様、ギター2の一定音が続く間、処理アーティファクトが僅かな変調として可聴のものになる。反響は低減し、高周波数よりも低周波数において減衰はより効果的であることが注目される。この原因が低周波数における高い直接対環境比なのか、音源の周波数コンテンツなのか、又はアンマスキング現象による主観的知覚なのかは、より詳細な分析なしには答えることができない。
センターが減衰した出力信号を聴取する場合、センター抽出の結果と比較して全体的な音質が僅かに良好となる。センターを抽出する際のポンピングと同様に、優勢なセンター化された音源がアクティブである時、処理アーティファクトは、パンニングされた音源のセンターへの僅かな動きとして可聴のものとなっている。出力信号は、その中の環境の量が増加した結果として、直接性が下がったものとして聞こえる。
PDCフィルタリングを示すために、図11a〜dは、ICTDを伴う、及びこれを伴わない、入力信号を得るために混合された2つの言語音声信号を示す。具体的には、図11a〜dは、PDCを説明するための入力音源信号を示し、ここで、図11aは、音源信号1を示し、図11bは、音源信号2を示し、図11cは、混合信号の左チャネルを示し、図11dは、混合信号の右チャネルを示す。
2チャネル混合信号は、各チャネルにつき等しいゲインを有する言語音声源信号を混合し、この信号に対して、10dBのSNR(K重み付き)を有するホワイトノイズを追加することによって生成される。
図12a〜cは、ゲイン関数(13)から計算されたスペクトル重みを示す。具体的には、図12a〜cは、PDCフィルタリングを説明するためのスペクトル重みGc2(m,k;1,3)を示し、図12aは、PDCを停止したICTDを有さない入力信号についてのスペクトル重みを示し、図12bは、PDCを停止したICTDを伴う入力信号についてのスペクトル重みを示し、図12cは、PDCが働いているICTDを有する入力信号についてのスペクトル重みを示す。
上側のプロットにおけるスペクトル重みは、言語音声がアクティブの時に0dBに近く、低SNRの時間周波数領域において最小値を取る。2番目のプロットは、1番目の言語音声信号(図11a)を26個のサンプルのICTDと混合した入力信号についてのスペクトル重みを示す。櫛形フィルタの特性を図12bに示す。図12cは、PDCが働いている時のスペクトル重みを示す。848Hz及び2544Hzのノッチ周波数の近くでは補償は完全ではないが、櫛形フィルタリング・アーティファクトは大幅に低減している。
非公式に聴取してみると、追加のノイズは大幅に減衰していることが分かる。ICTDのない信号を処理する場合、出力信号は環境音の特徴をかすかに有しているが、これは、追加のノイズによって導入された位相非コヒーレンスの結果として生じたものと考えられる。
ICTDを有する信号を処理する場合、1番目の言語音声信号(図11a)が大幅に減衰しており、PDCフィルタリングを適用していない時に強い櫛形フィルタリング・アーティファクトが可聴のものとなっている。追加のPDCフィルタリングがある場合、櫛形フィルタリング・アーティファクトは尚僅かに可聴のものであるが、もたらす不快感は著しく小さい。他の対象を非公式に聴取してみると、僅かなアーティファクトがあるが、これはγを減少させる、βを増加させる、又は未処理の入力信号のスケーリングされたものを出力に追加することによって低減させることができる。一般的に、アーティファクトは、センター信号を減衰させたときに可聴性がより低く、センター信号を抽出した時に可聴性がより高くなる。知覚された空間像の歪みは極めて小さい。これは、チャネル信号全てについてスペクトル重みが同一であり、ICLDに影響を与えないという事実に帰することができる。櫛形フィルタリング・アーティファクトは、到達時間立体音響を特徴とする自然録音を処理した時には殆ど聞こえないが、それは、そのような録音の場合は、モノ・ダウンミックスが強い可聴櫛形フィルタリング・アーティファクトを受けにくいからである。なお、PDCフィルタリングの場合、再帰的平均(特に、Xを計算した時の位相差の瞬間的な補償)の時間定数の小さな値は、ダウンミックスに用いられる信号にコヒーレンスを導入する。従って、当該処理は、入力信号の拡散度に関して寛容である。時間定数を増加させた場合、(1)振幅差立体音響を有する入力信号についてのPDCの効果が減少し、(2)入力チャネル間で直接音源が時間的に整合されない一定音の始まりにおいて櫛形フィルタリング効果の可聴性が高くなることが観察できる。
SDRの単調関数から計算された実数値のスペクトル重みを適用することによって音声録音におけるセンター信号をスケーリングするための概念について説明した。その理論は、センター信号スケーリングにおいては、直接音源の横方向のずれ及び拡散度の量の両方を考慮する必要があり、且つ、これらの特性をSDRによって黙示的に捕捉するというものである。当該処理は、意味論的に意味のあるユーザパラメータによって制御することができ、他の周波数領域の技術と比較して計算上の複雑度及びメモリ負荷が低い。本願において提案される概念は、振幅差立体音響を特徴とする入力信号を処理する場合に良好な結果をもたらすものであるが、直接音源が入力チャネル間で時間的に整合されない場合には櫛形フィルタリング・アーティファクトを受けやすくなる場合がある。これを解決する第1の方策は、チャネル間伝達関数における非ゼロ位相を補償することである。
以上、非公式に聴取してみることによって実施例の概念のテストを行った。典型的な商用録音の場合、その結果は良好な音質のものであるが、所望の分離強度にも依存する。
装置の説明でいくつかの局面を記載したが、これらの局面は対応の方法の記載をも表すものであり、ブロック又は装置は、方法ステップ又は方法ステップの特徴に対応することは明らかである。同様に、方法ステップの説明で記載した局面は、対応の装置の対応のブロック若しくは項目又は特徴の記載をも表す。
本発明による分解された信号は、デジタル記憶媒体で記憶することができ、或るいは、伝送媒体、例えば無線伝送媒体又は有線伝送媒体、例えばインターネット、で送信することができる。
特定の実現要件に応じて、本発明の実施例はハードウェア又はソフトウェアによって実現され得る。その実現は、デジタル記憶媒体、例えばフロッピーディスク、DVD、CD、ROM、PROM、EPROM、EEPROM又はフラッシュメモリであって、電子的に読み出し可能な制御信号を格納しており、プログラム可能なコンピュータシステムと協働する(又は協働可能である)ことによりそれぞれの方法が実行されるようにするものを用いて実行され得る。
本発明のいくつかの実施例は、プログラム可能なコンピュータシステムと協働可能であることによって本願明細書に記載の方法の1つが実行されるようにする、電子的に読み出し可能な制御信号を有する非一時的データキャリアを含む。
一般的には、本発明の実施例は、プログラムコードを有するコンピュータプログラム製品であって、このコンピュータプログラム製品がコンピュータにおいて実行されるときに上記プログラムコードが上記方法の1つを実行するように動作するものとして実現され得る。プログラムコードは、例えば、機械読み取り可能キャリアに格納され得る。
他の実施例は、機械読み取り可能キャリアに格納された、本願明細書に記載の方法の1つを実行するためのコンピュータプログラムを含む。
従って、換言すると、本発明の方法の一実施例は、コンピュータプログラムであって、このコンピュータプログラムがコンピュータにおいて実行されるときに、本願明細書に記載の方法の1つを実行するためのプログラムコードを有するものである。
従って、本発明の方法の更なる実施例は、データキャリア(又はデジタル記憶媒体若しくはコンピュータ読み取り可能媒体)であって、そこに記録された、本願明細書に記載の方法の1つを実行するためのコンピュータプログラムを含むものである。
従って、本発明の方法の更なる実施例は、本願明細書に記載の方法の1つを実行するためのコンピュータプログラムを表すデータストリーム又は信号シーケンスである。データストリーム又は信号シーケンスは、例えば、インターネットを介したデータ通信接続を介して転送されるように構成され得る。
更なる実施例は、本願明細書に記載の方法の1つを実行するように構成又は適合された処理手段、例えばコンピュータ又はプログラム可能論理装置を含む。
更なる実施例は、本願明細書に記載の方法の1つを実行するためのコンピュータプログラムをインストールしたコンピュータを含む。
いくつかの実施例においては、プログラム可能論理装置(例えば、フィールドプログラマブルゲートアレイ)を用いて、本願明細書に記載の方法におけるいくつか又は全ての機能を実行しても良い。いくつかの実施例においては、フィールドプログラマブルゲートアレイは、マイクロプロセッサと協働して、本願明細書に記載の方法の1つを実行しても良い。一般的に、当該方法は、どのようなハードウェア装置によって実行されても良い。
上述の各実施例は、単に本発明の原理を例示するものである。本願明細書に記載の構成及び詳細を変更及び変形したものが当業者には明らかであることが理解される。従って、本願明細書における各実施例の記載及び説明として呈示された特定の詳細によってではなく、添付の特許請求の範囲によってのみ限定されることが意図される。

Claims (14)

  1. 2つ以上の音声入力チャネルを含む音声入力信号から2つ以上の変更後音声チャネルを含む変更後音声信号を生成するための装置であって、
    信号対ダウンミックス情報を生成するための情報生成部(110)を備え、前記情報生成部(110)は、第1の態様で前記2つ以上の音声入力チャネルの各々についてのスペクトル値を組み合わせることにより信号情報を生成するように適合され、前記情報生成部(110)は、前記第1の態様と異なる第2の態様で、前記2つ以上の音声入力チャネルの各々についてのスペクトル値を組み合わせることによりダウンミックス情報を生成するように適合され、前記情報生成部(110)は、前記信号情報及び前記ダウンミックス情報を組み合わせることにより信号対ダウンミックス情報を得るように適合され、
    前記装置は、更に、前記信号対ダウンミックス情報に応じて前記2つ以上の音声入力チャネルを減衰させることにより前記2つ以上の変更後音声チャネルを得るための信号減衰部(120)を備え、
    前記情報生成部(110)は、
    の式によって信号情報Φ(m,k)を生成するように構成され、
    前記情報生成部(110)は、
    の式によってダウンミックス情報Φ(m,k)を生成するように構成され、
    前記情報生成部(110)は、
    の式によって信号対ダウンミックス比を信号対ダウンミックス情報R(m,k,β)として生成するように構成され、
    は、行列又はベクトルの共役転置を示し、
    ε{・}は、期待値演算であり、
    βは、β>0の関係を有する実数であり、
    {}は、行列のトレースである、装置。
  2. 請求項1から請求項3のいずれか1つに記載の装置であって、前記変更後音声チャネルの数は、前記音声入力チャネルの数に等しいか、或いは、前記変更後音声チャネルの数は、前記音声入力チャネルの数未満である、装置。
  3. 請求項1から請求項4のいずれか1つに記載の装置であって、
    前記情報生成部(110)は、前記2つ以上の音声入力チャネルの各々についてのスペクトル値を処理することにより2つ以上の処理後値を得るように構成され、前記情報生成部(110)は、前記2つ以上の処理後値を組み合わせることにより前記信号情報を得るように構成され、
    前記情報生成部(110)は、前記2つ以上の音声入力チャネルの各々についてのスペクトル値を組み合わせることにより組み合わせ値を得るように構成され、前記情報生成部(110)は、前記組み合わせ値を処理することにより前記ダウンミックス情報を得るように構成される、装置。
  4. 請求項1から請求項5のいずれか1つに記載の装置であって、前記情報生成部(110)は、前記スペクトル値に前記スペクトル値の複素共役を乗算することにより前記2つ以上の音声入力チャネルの各々についてのスペクトル値を処理することにより、前記2つ以上の音声入力チャネルの各々についてのスペクトル値のオートパワースペクトル密度を得るように構成される、装置。
  5. 請求項6に記載の装置であって、前記情報生成部(110)は、前記組み合わせ値のパワースペクトル密度を決定することにより前記組み合わせ値を処理するように構成される、装置。
  6. 請求項7に記載の装置であって、前記情報生成部(110)は、
    を決定することによって前記信号情報を得るように構成され、
    ここで、Φi,i(m,k)は、i番目の音声信号チャネルのスペクトル値のオートパワースペクトル密度を示す、装置。
  7. 請求項8に記載の装置であって、
    前記情報生成部(110)は、
    を決定して前記信号対ダウンミックス比を得るように構成され、
    ここで、Φ(m,k)は、前記組み合わせ値のパワースペクトル密度を示す、装置。
  8. 請求項1から請求項9のいずれか1つに記載の装置であって、前記信号減衰部(120)は、
    mは、時間インデックスを示し、
    kは、周波数インデックスを示す、装置。
  9. 請求項10に記載の装置であって、
    前記ゲイン関数G(m,k)は、第1の関数Gc1(m,k,β,γ)、第2の関数Gc2(m,k,β,γ)、第3の関数Gs1(m,k,β,γ)又は第4の関数Gs2(m,k,β,γ)であり、ここで、
    であり、
    であり、
    であり、
    であり、
    βは、β>0の関係を有する実数であり、
    γは、γ>0の関係を有する実数であり、
    minは、Rの最小値を示す、装置。
  10. システムであって、
    2つ以上の未処理音声チャネルを含む未処理音声信号から2つ以上の位相補償後音声チャネルを含む位相補償後音声信号を生成するための位相補償部(210)と、
    請求項1から請求項11のいずれか1つに記載の装置(220)であって、前記位相補償後音声信号を音声入力信号として受け取り、前記2つ以上の位相補償後音声チャネルを含む音声入力信号から2つ以上の変更後音声チャネルを含む変更後音声信号を2つ以上の音声入力チャネルとして生成するための装置(220)と、を備え、
    前記2つ以上の未処理音声チャネルのうちの1つは、参照チャネルであり、
    前記位相補償部(210)は、前記2つ以上の未処理音声チャネルのうち前記参照チャネルでない各々の未処理音声チャネルにつき、前記未処理音声チャネルと前記参照チャネルとの間の位相伝達関数を推定するように適合され、
    前記位相補償部(210)は、前記未処理音声チャネルの位相伝達関数に応じて、前記未処理音声チャネルのうち前記参照チャネルでない各々の未処理音声チャネルを変更することにより位相補償後音声信号を生成するように適合される、システム。
  11. 2つ以上の音声入力チャネルを含む音声入力信号から2つ以上の変更後音声チャネルを含む変更後音声信号を生成するための方法であって、
    第1の態様で前記2つ以上の音声入力チャネルの各々についてのスペクトル値を組み合わせることにより信号情報を生成するステップと、
    前記第1の態様と異なる第2の態様で、前記2つ以上の音声入力チャネルの各々についてのスペクトル値を組み合わせることによりダウンミックス情報を生成するステップと、
    前記信号情報及び前記ダウンミックス情報を組み合わせることにより信号対ダウンミックス情報を生成するステップと、
    前記信号対ダウンミックス情報に応じて前記2つ以上の音声入力チャネルを減衰させることにより前記2つ以上の変更後音声チャネルを得るステップと、を備え、
    信号情報Φ(m,k)の生成は、
    の式によって行われ、
    ダウンミックス情報Φ(m,k)の生成は、
    の式によって行われ、
    信号対ダウンミックス比は、
    の式によって信号対ダウンミックス情報R(m,k,β)として生成され、
    は、行列又はベクトルの共役転置を示し、
    ε{・}は、期待値演算であり、
    βは、β>0の関係を有する実数であり、
    tr{}は、行列のトレースである、方法。
  12. 請求項13に記載の方法を実行するためのコンピュータプログラムであって、コンピュータ又は信号プロセッサにおいて実行される、コンピュータプログラム。
JP2016506865A 2013-04-12 2014-04-07 信号対ダウンミックス比に基づいたセンター信号スケーリング及び立体音響強調のための装置及び方法 Active JP6280983B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP13163621.9 2013-04-09
EP13163621 2013-04-12
EP13182103.5 2013-08-28
EP13182103.5A EP2790419A1 (en) 2013-04-12 2013-08-28 Apparatus and method for center signal scaling and stereophonic enhancement based on a signal-to-downmix ratio
PCT/EP2014/056917 WO2014166863A1 (en) 2013-04-12 2014-04-07 Apparatus and method for center signal scaling and stereophonic enhancement based on a signal-to-downmix ratio

Publications (2)

Publication Number Publication Date
JP2016518621A JP2016518621A (ja) 2016-06-23
JP6280983B2 true JP6280983B2 (ja) 2018-02-14

Family

ID=48087459

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016506865A Active JP6280983B2 (ja) 2013-04-12 2014-04-07 信号対ダウンミックス比に基づいたセンター信号スケーリング及び立体音響強調のための装置及び方法

Country Status (12)

Country Link
US (1) US9743215B2 (ja)
EP (2) EP2790419A1 (ja)
JP (1) JP6280983B2 (ja)
KR (1) KR101767330B1 (ja)
CN (1) CN105284133B (ja)
BR (1) BR112015025919B1 (ja)
CA (1) CA2908794C (ja)
ES (1) ES2755675T3 (ja)
MX (1) MX347466B (ja)
PL (1) PL2984857T3 (ja)
RU (1) RU2663345C2 (ja)
WO (1) WO2014166863A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2790419A1 (en) 2013-04-12 2014-10-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for center signal scaling and stereophonic enhancement based on a signal-to-downmix ratio
CN106024005B (zh) * 2016-07-01 2018-09-25 腾讯科技(深圳)有限公司 一种音频数据的处理方法及装置
BR112019009318A2 (pt) * 2016-11-08 2019-07-30 Fraunhofer Ges Forschung aparelho e método para codificar ou decodificar um sinal multicanal com o uso de um ganho lateral e um ganho residual
US9820073B1 (en) 2017-05-10 2017-11-14 Tls Corp. Extracting a common signal from multiple audio signals
EP3550561A1 (en) * 2018-04-06 2019-10-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Downmixer, audio encoder, method and computer program applying a phase value to a magnitude value
FI3891736T3 (fi) 2018-12-07 2023-04-14 Fraunhofer Ges Forschung Laite, menetelmä ja tietokoneohjelma koodausta, dekoodausta, kohtauksen prosessointia ja muita proseduureja varten liittyen dirac-pohjaiseen spatiaaliseen audiokoodaukseen käyttäen matalan asteen, keskiasteen ja korkean asteen komponenttigeneraattoreita
EP3671739A1 (en) * 2018-12-21 2020-06-24 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Apparatus and method for source separation using an estimation and control of sound quality
CN113259283B (zh) * 2021-05-13 2022-08-26 侯小琪 一种基于循环神经网络的单通道时频混叠信号盲分离方法
CN113889125B (zh) * 2021-12-02 2022-03-04 腾讯科技(深圳)有限公司 音频生成方法、装置、计算机设备和存储介质

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7630500B1 (en) 1994-04-15 2009-12-08 Bose Corporation Spatial disassembly processor
MX2008000122A (es) * 2005-06-30 2008-03-18 Lg Electronics Inc Metodo y aparato para codificar y descodificar una senal de audio.
US8139775B2 (en) * 2006-07-07 2012-03-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Concept for combining multiple parametrically coded audio sources
US8036767B2 (en) 2006-09-20 2011-10-11 Harman International Industries, Incorporated System for extracting and changing the reverberant content of an audio input signal
JP4327886B1 (ja) * 2008-05-30 2009-09-09 株式会社東芝 音質補正装置、音質補正方法及び音質補正用プログラム
KR101108061B1 (ko) * 2008-09-25 2012-01-25 엘지전자 주식회사 신호 처리 방법 및 이의 장치
US8346379B2 (en) * 2008-09-25 2013-01-01 Lg Electronics Inc. Method and an apparatus for processing a signal
US8705769B2 (en) * 2009-05-20 2014-04-22 Stmicroelectronics, Inc. Two-to-three channel upmix for center channel derivation
TWI433137B (zh) * 2009-09-10 2014-04-01 Dolby Int Ab 藉由使用參數立體聲改良調頻立體聲收音機之聲頻信號之設備與方法
EP2464146A1 (en) * 2010-12-10 2012-06-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decomposing an input signal using a pre-calculated reference curve
EP2790419A1 (en) 2013-04-12 2014-10-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for center signal scaling and stereophonic enhancement based on a signal-to-downmix ratio

Also Published As

Publication number Publication date
PL2984857T3 (pl) 2020-03-31
CN105284133A (zh) 2016-01-27
RU2663345C2 (ru) 2018-08-03
RU2015148317A (ru) 2017-05-18
BR112015025919B1 (pt) 2022-03-15
CN105284133B (zh) 2017-08-25
JP2016518621A (ja) 2016-06-23
CA2908794C (en) 2019-08-20
ES2755675T3 (es) 2020-04-23
US9743215B2 (en) 2017-08-22
KR20150143669A (ko) 2015-12-23
CA2908794A1 (en) 2014-10-16
EP2984857A1 (en) 2016-02-17
WO2014166863A1 (en) 2014-10-16
MX2015014189A (es) 2015-12-11
BR112015025919A2 (pt) 2017-07-25
MX347466B (es) 2017-04-26
KR101767330B1 (ko) 2017-08-23
EP2790419A1 (en) 2014-10-15
EP2984857B1 (en) 2019-09-11
US20160037283A1 (en) 2016-02-04

Similar Documents

Publication Publication Date Title
US10531198B2 (en) Apparatus and method for decomposing an input signal using a downmixer
JP6280983B2 (ja) 信号対ダウンミックス比に基づいたセンター信号スケーリング及び立体音響強調のための装置及び方法
RU2666316C2 (ru) Аппарат и способ улучшения аудиосигнала, система улучшения звука
CA2835463C (en) Apparatus and method for generating an output signal employing a decomposer
Uhle Center signal scaling using signal-to-downmix ratios

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170119

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170131

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20170424

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170727

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171226

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180122

R150 Certificate of patent or registration of utility model

Ref document number: 6280983

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250