JP2016510433A - オーディオ処理システムにおける信号脱相関 - Google Patents

オーディオ処理システムにおける信号脱相関 Download PDF

Info

Publication number
JP2016510433A
JP2016510433A JP2015556956A JP2015556956A JP2016510433A JP 2016510433 A JP2016510433 A JP 2016510433A JP 2015556956 A JP2015556956 A JP 2015556956A JP 2015556956 A JP2015556956 A JP 2015556956A JP 2016510433 A JP2016510433 A JP 2016510433A
Authority
JP
Japan
Prior art keywords
audio data
decorrelation
channel
audio
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015556956A
Other languages
English (en)
Other versions
JP6038355B2 (ja
Inventor
メルコーテ,ヴィナイ
イェン,クー−チェ
エイ ダヴィッドソン,グラント
エイ ダヴィッドソン,グラント
フェラーズ,マシュー
エス ヴィントン,マーク
エス ヴィントン,マーク
クマール,ヴィヴェック
Original Assignee
ドルビー ラボラトリーズ ライセンシング コーポレイション
ドルビー ラボラトリーズ ライセンシング コーポレイション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー ラボラトリーズ ライセンシング コーポレイション, ドルビー ラボラトリーズ ライセンシング コーポレイション filed Critical ドルビー ラボラトリーズ ライセンシング コーポレイション
Publication of JP2016510433A publication Critical patent/JP2016510433A/ja
Application granted granted Critical
Publication of JP6038355B2 publication Critical patent/JP6038355B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Telephonic Communication Services (AREA)

Abstract

オーディオ処理方法が、複数のオーディオ・チャネルに対応するオーディオ・データを受領することに関わってもよい。オーディオ・データはオーディオ・エンコードまたは処理システムのフィルタバンク係数に対応する周波数領域表現を含んでいてもよい。脱相関プロセスが、オーディオ・エンコードまたは処理システムによって使用されるのと同じフィルタバンク係数をもって実行されてもよい。脱相関プロセスは、周波数領域表現の係数を別の周波数領域または時間領域の表現に変換することなく、実行されてもよい。脱相関プロセスは、特定のチャネルおよび/または特定の周波数帯域の選択的または信号適応的な脱相関に関わっていてもよい。脱相関プロセスは、受領されたオーディオ・データの一部に脱相関フィルタを適用して、フィルタリングされたオーディオ・データを生成することに関わっていてもよい。脱相関フィルタは、非階層的な混合器を使って、空間的パラメータに従って、受領されたオーディオ・データの直接部分を、フィルタリングされたオーディオ・データと組み合わせることに関わっていてもよい。

Description

本開示は信号処理に関する。
オーディオおよびビデオ・データのためのデジタル・エンコードおよびデコード・プロセスの発展は、娯楽コンテンツの送達に著しい効果を持ち続ける。メモリ・デバイスの増大した容量およびますます高帯域幅での広く利用可能なデータ送達にもかかわらず、記憶および/または伝送されるべきデータの量を最小化することに向けた継続された圧力がある。オーディオおよびビデオ・データはしばしば一緒に送達され、オーディオ・データのための帯域幅はしばしばビデオ部分の要求によって制約される。
よって、オーディオ・データはしばしば高い圧縮率で、ときには30:1またはそれ以上の圧縮率でエンコードされる。適用される圧縮の量とともに信号歪みが増すので、デコードされたオーディオ・データの忠実度とエンコードされたデータの記憶および/または伝送の効率性との間でトレードオフがなされてもよい。
さらに、エンコードおよびデコード・アルゴリズムの複雑さを低減することが望ましい。エンコード・プロセスに関する追加的なデータをエンコードすることは、デコード・プロセスを簡単にすることができるが、追加的なエンコードされるデータを記憶および/または伝送するコストを伴う。既存のオーディオ・エンコードおよびデコード方法は一般に満足いくものであるが、改善された方法が望ましいであろう。
本開示に記載される主題のいくつかの側面は、オーディオ処理方法において実装されることができる。いくつかのそのような方法は、複数のオーディオ・チャネルに対応するオーディオ・データを受領することに関わってもよい。オーディオ・データはオーディオ・エンコードまたは処理システムのフィルタバンク係数に対応する周波数領域表現を含んでいてもよい。本方法は、オーディオ・データの少なくとも一部に脱相関プロセスを適用することに関わっていてもよい。いくつかの実装では、脱相関プロセスは、オーディオ・エンコードまたは処理システムによって使用されるのと同じフィルタバンク係数をもって実行されてもよい。
いくつかの実装では、脱相関プロセスは、周波数領域表現の係数を別の周波数領域または時間領域の表現に変換することなく、実行されてもよい。周波数領域表現は、完璧な再構成、臨界サンプリングされたフィルタバンクを適用することの結果であってもよい。脱相関プロセスは、周波数領域表現の少なくとも一部に線形フィルタを適用することによって残響信号または脱相関信号を生成することに関わっていてもよい。周波数領域表現は、修正離散サイン変換、修正離散コサイン変換または重複直交変換(lapped orthogonal transform)を時間領域のオーディオ・データに適用することの結果であってもよい。脱相関プロセスは、完全に実数値の係数に作用する脱相関アルゴリズムを適用することに関わっていてもよい。
いくつかの実装によれば、脱相関プロセスは、特定の諸チャネルの選択的なまたは信号適応的な脱相関に関わっていてもよい。代替的または追加的に、脱相関プロセスは、特定の諸周波数帯域の選択的なまたは信号適応的な脱相関に関わっていてもよい。脱相関プロセスは、受領されたオーディオ・データの一部に脱相関フィルタを適用してフィルタリングされたオーディオ・データを生成することに関わっていてもよい。脱相関プロセスは、非階層的混合器(non-hierarchical mixer)を使って、空間的パラメータに従って、受領されたオーディオ・データの直接部分を、フィルタリングされたオーディオ・データと組み合わせることに関わっていてもよい。
いくつかの実装では、脱相関情報が、オーディオ・データと一緒にまたは他の仕方で受領されてもよい。脱相関プロセスは、オーディオ・データの少なくとも一部を、受領された脱相関情報に従って脱相関することに関わっていてもよい。受領された脱相関情報は、個々の離散的なチャネルと結合チャネルとの間の相関係数、個々の離散的なチャネルの間の相関係数、明示的なトーン性(tonality)情報および/または過渡(transient)情報を含んでいてもよい。
本方法は、受領されたオーディオ・データに基づいて脱相関情報を決定することに関わっていてもよい。脱相関プロセスは、決定された脱相関情報に従ってオーディオ・データの少なくとも一部を脱相関することに関わっていてもよい。本方法は、オーディオ・データと一緒にエンコードされた脱相関情報を受領することに関わっていてもよい。脱相関プロセスは、受領された脱相関情報または決定された脱相関情報の少なくとも一方に従ってオーディオ・データの少なくとも一部を脱相関することに関わっていてもよい。
いくつかの実装によれば、オーディオ・エンコードまたは処理システムは、レガシーのオーディオ・エンコードまたは処理システムであってもよい。本方法は、レガシーのオーディオ・エンコードまたは処理システムによって生成されたビットストリームにおいて制御機構要素を受領することに関わっていてもよい。脱相関プロセスは、少なくとも部分的には、制御機構要素に基づいていてもよい。
いくつかの実装では、装置が、インターフェースと、該インターフェースを介して複数のオーディオ・チャネルに対応するオーディオ・データを受領するよう構成された論理システムとを含んでいてもよい。オーディオ・データはオーディオ・エンコードまたは処理システムのフィルタバンク係数に対応する周波数領域表現を含んでいてもよい。論理システムは、オーディオ・データの少なくとも一部に脱相関プロセスを適用するよう構成されていてもよい。いくつかの実装では、脱相関プロセスは、オーディオ・エンコードまたは処理システムによって使用されるのと同じフィルタバンク係数をもって実行されてもよい。論理システムは、汎用の単一チップまたは複数チップ・プロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールド・プログラマブル・ゲート・アレイ(FPGA)または他のプログラム可能な論理デバイス、離散的ゲートまたはトランジスタ論理または離散的なハードウェア・コンポーネントのうちの少なくとも一つを含んでいてもよい。
いくつかの実装では、脱相関プロセスは、周波数領域表現の係数を別の周波数領域または時間領域の表現に変換することなく、実行されてもよい。周波数領域表現は、臨界サンプリングされたフィルタバンクを適用することの結果であってもよい。脱相関プロセスは、周波数領域表現の少なくとも一部に線形フィルタを適用することによって残響信号または脱相関信号を生成することに関わっていてもよい。周波数領域表現は、修正離散サイン変換、修正離散コサイン変換または重複直交変換(lapped orthogonal transform)を時間領域のオーディオ・データに適用することの結果であってもよい。脱相関プロセスは、完全に実数値の係数に作用する脱相関アルゴリズムを適用することに関わっていてもよい。
脱相関プロセスは、特定の諸チャネルの選択的なまたは信号適応的な脱相関に関わっていてもよい。脱相関プロセスは、特定の諸周波数帯域の選択的なまたは信号適応的な脱相関に関わっていてもよい。脱相関プロセスは、受領されたオーディオ・データの一部に脱相関フィルタを適用してフィルタリングされたオーディオ・データを生成することに関わっていてもよい。いくつかの実装では、脱相関プロセスは、非階層的混合器を使って、空間的パラメータに従って、受領されたオーディオ・データの前記一部を、フィルタリングされたオーディオ・データと組み合わせることに関わっていてもよい。
本装置はメモリ・デバイスを含んでいてもよい。いくつかの実装では、前記インターフェースは、前記論理システムと前記メモリ・デバイスとの間のインターフェースであってもよい。代替的に、前記インターフェースはネットワーク・インターフェースであってもよい。
オーディオ・エンコードまたは処理システムは、レガシーのオーディオ・エンコードまたは処理システムであってもよい。いくつかの実装では、論理システムは、前記インターフェースを介して、レガシーのオーディオ・エンコードまたは処理システムによって生成されたビットストリームにおいて制御機構要素を受領するよう構成されていてもよい。脱相関プロセスは、少なくとも部分的には、制御機構要素に基づいていてもよい。
本開示のいくつかの側面は、ソフトウェアが記憶されている非一時的な媒体において実装されてもよい。ソフトウェアは、複数のオーディオ・チャネルに対応するオーディオ・データを受領するよう装置を制御するための命令を含んでいてもよい。オーディオ・データはオーディオ・エンコードまたは処理システムのフィルタバンク係数に対応する周波数領域表現を含んでいてもよい。本ソフトウェアは、オーディオ・データの少なくとも一部に脱相関プロセスを適用するよう装置を制御するための命令を含んでいてもよい。いくつかの実装では、脱相関プロセスは、オーディオ・エンコードまたは処理システムによって使用されるのと同じフィルタバンク係数をもって実行されてもよい。
いくつかの実装では、脱相関プロセスは、周波数領域表現の係数を別の周波数領域または時間領域の表現に変換することなく、実行されてもよい。周波数領域表現は、臨界サンプリングされたフィルタバンクを適用することの結果であってもよい。脱相関プロセスは、周波数領域表現の少なくとも一部に線形フィルタを適用することによって残響信号または脱相関信号を生成することに関わっていてもよい。周波数領域表現は、修正離散サイン変換、修正離散コサイン変換または重複直交変換(lapped orthogonal transform)を時間領域のオーディオ・データに適用することの結果であってもよい。脱相関プロセスは、完全に実数値の係数に作用する脱相関アルゴリズムを適用することに関わっていてもよい。
いくつかの方法は、複数のオーディオ・チャネルに対応するオーディオ・データを受領し、該オーディオ・データのオーディオ特性を決定することに関わっていてもよい。オーディオ特性は過渡情報を含んでいてもよい。これらの方法は、少なくとも部分的にはオーディオ特性に基づいてオーディオ・データについての脱相関の量を決定し、決定された脱相関の量に従ってオーディオ・データを処理することに関わっていてもよい。
いくつかの事例では、明示的な過渡情報はオーディオ・データと一緒に受領されなくてもよい。いくつかの実装では、過渡情報を決定するプロセスは、ソフト過渡イベントを検出することに関わっていてもよい。
過渡情報を決定するプロセスは、過渡イベントの確からしさ(likelihood)および/または深刻さを評価することに関わっていてもよい。過渡情報を決定するプロセスは、オーディオ・データにおける時間的なパワー変動を評価することに関わっていてもよい。
オーディオ特性を決定するプロセスは、オーディオ・データとともに明示的な過渡情報を受領することに関わっていてもよい。明示的な過渡情報は、確かな(definite)過渡イベントに対応する過渡制御値、確かな非過渡イベントに対応する過渡制御値または中間的な過渡制御値のうちの少なくとも一つを含んでいてもよい。明示的な過渡情報は、中間的な過渡制御値または確かな過渡イベントに対応する過渡制御値を含んでいてもよい。過渡制御値は、指数関数的な減衰関数に従ってもよい。
明示的な過渡情報は確かな過渡イベントを示していてもよい。オーディオ・データの処理は、脱相関プロセスを一時的に止めるまたは遅くすることに関わっていてもよい。明示的な過渡情報は、確かな非過渡イベントに対応する過渡制御値または中間的な過渡制御値を含んでいてもよい。過渡情報を決定するプロセスは、ソフト過渡イベントを検出することに関わっていてもよい。ソフト過渡イベントを検出するプロセスは、過渡イベントの確からしさ(likelihood)または深刻さの少なくとも一方を評価することに関わっていてもよい。
決定された過渡情報は、ソフト過渡イベントに対応する決定された過渡制御値であってもよい。本方法は、決定された過渡制御値を受領された過渡制御値と組み合わせて新たな過渡制御値を得ることに関わっていてもよい。決定された過渡制御値および受領された過渡制御値を組み合わせるプロセスは、決定された過渡制御値および受領された過渡制御値のうちの最大を決定することに関わっていてもよい。
ソフト過渡イベントを検出するプロセスは、オーディオ・データの時間的なパワー変動を検出することに関わっていてもよい。時間的なパワー変動を検出することは、対数パワー平均における変動を決定することに関わっていてもよい。対数パワー平均は、周波数帯域重み付けされた対数パワー平均であってもよい。対数パワー平均における変動を決定することは、時間的な非対称パワー差分(asymmetric power differential)を決定することに関わっていてもよい。非対称パワー差分は、増大するパワーを強調してもよく、減少するパワーを脱強調してもよい。本方法は、非対称パワー差分に基づいて生の過渡指標を決定することに関わっていてもよい。生の過渡指標を決定することは、時間的な非対称パワー差分がガウス分布に従って分布しているとの想定に基づいて過渡イベントの尤度関数を計算することに関わっていてもよい。本方法は、生の過渡指標に基づいて過渡制御値を決定することに関わっていてもよい。本方法は、過渡制御値に指数関数的な減衰関数を適用することに関わっていてもよい。
いくつかの方法は、オーディオ・データの一部に脱相関フィルタを適用し、フィルタリングされたオーディオ・データを生成し、フィルタリングされたオーディオ・データを混合比に従って受領されたオーディオ・データの一部と組み合わせることに関わっていてもよい。脱相関の量を決定するプロセスは、少なくとも部分的には前記過渡制御値に基づいて前記混合比を修正することに関わっていてもよい。
いくつかの方法は、オーディオ・データの一部に脱相関フィルタを適用して、フィルタリングされたオーディオ・データを生成することに関わっていてもよい。オーディオ・データについての脱相関の量を決定することは、過渡情報に基づいて脱相関フィルタへの入力を減衰させることに関わっていてもよい。オーディオ・データについての脱相関の量を決定するプロセスは、ソフト過渡イベントを検出するのに応答して脱相関の量を減らすことに関わっていてもよい。
オーディオ・データを処理することは、オーディオ・データの一部に脱相関フィルタを適用し、フィルタリングされたオーディオ・データを生成し、フィルタリングされたオーディオ・データを混合比に従って受領されたオーディオ・データの一部と混合することに関わっていてもよい。脱相関の量を減らすプロセスは、前記混合比を修正することに関わっていてもよい。
オーディオ・データを処理することは、オーディオ・データの一部に脱相関フィルタを適用し、フィルタリングされたオーディオ・データを生成し、フィルタリングされたオーディオ・データに適用される利得を推定し、該利得をフィルタリングされたオーディオ・データに適用し、フィルタリングされたオーディオ・データを受領されたオーディオ・データの一部と混合することに関わっていてもよい。
上記の推定するプロセスは、フィルタリングされたオーディオ・データのパワーを、受領されたオーディオ・データのパワーとマッチさせることに関わっていてもよい。いくつかの実装では、上記の推定するプロセスおよび利得を適用するプロセスは、ダッカー(ducker)のバンクによって実行されてもよい。ダッカーのバンクは、バッファを含んでいてもよい。固定した遅延が、フィルタリングされたオーディオ・データに適用されてもよく、それらのバッファに同じ遅延が適用されてもよい。
フィルタリングされたオーディオ・データに適用されるべき前記ダッカーまたは前記利得についてのパワー推定平滑化窓の少なくとも一つは、少なくとも部分的には、決定された過渡情報に基づいていてもよい。いくつかの実装では、過渡イベントが相対的により確からしいまたは相対的により強い過渡イベントが検出されるときに、より短い平滑化窓が適用されてもよく、過渡イベントが相対的により確からしくない、相対的により弱い過渡イベントが検出されるまたは過渡イベントが検出されないときに、より長い平滑化窓が適用されてもよい。
いくつかの方法は、オーディオ・データの一部に脱相関フィルタを適用してフィルタリングされたオーディオ・データを生成し、フィルタリングされたオーディオ・データに適用されるべきダッカー利得を推定し、該ダッカー利得をフィルタリングされたオーディオ・データに適用し、フィルタリングされたオーディオ・データを混合比に従って受領されたオーディオ・データの一部と混合することに関わってもよい。脱相関の量を決定するプロセスは、
前記過渡情報または前記ダッカー利得の少なくとも一方に基づいて前記混合比を修正することに関わっていてもよい。
オーディオ特性を決定するプロセスは、ブロック切り換えされるチャネル、結合外のチャネルまたはチャネル結合の不使用のうちの少なくとも一つを判別することに関わっていてもよい。オーディオ・データについての脱相関の量を決定することは、脱相関プロセスが遅くされるまたは一時的に停止されるべきであることを決定することに関わっていてもよい。
オーディオ・データを処理することは、脱相関フィルタ・ディザリング・プロセスに関わっていてもよい。本方法は、少なくとも部分的には前記過渡情報に基づいて、脱相関フィルタ・ディザリング・プロセスが修正されるまたは一時的に停止されるべきであることを決定することに関わっていてもよい。いくつかの方法によれば、脱相関フィルタのディザリング極についての最大ストライド値を変えることによって脱相関フィルタ・ディザリング・プロセスが修正されることが決定されてもよい。
いくつかの実装によれば、装置が、インターフェースと論理システムとを含んでいてもよい。論理システムは、該インターフェースから、複数のオーディオ・チャネルに対応するオーディオ・データを受領し、オーディオ・データのオーディオ特性を決定するよう構成されていてもよい。オーディオ特性は過渡情報を含んでいてもよい。論理システムは、少なくとも部分的にはオーディオ特性に基づいてオーディオ・データについての脱相関の量を決定し、決定された脱相関の量に従ってオーディオ・データを処理するよう構成されていてもよい。
いくつかの実装では、明示的な過渡情報はオーディオ・データと一緒に受領されなくてもよい。過渡情報を決定するプロセスは、ソフト過渡イベントを検出することに関わっていてもよい。過渡情報を決定するプロセスは、過渡イベントの確からしさ(likelihood)または深刻さの少なくとも一方を評価することに関わっていてもよい。過渡情報を決定するプロセスは、オーディオ・データにおける時間的なパワー変動を評価することに関わっていてもよい。
いくつかの実装では、オーディオ特性を決定することは、オーディオ・データとともに明示的な過渡情報を受領することに関わっていてもよい。明示的な過渡情報は、確かな(definite)過渡イベントに対応する過渡制御値、確かな非過渡イベントに対応する過渡制御値または中間的な過渡制御値のうちの少なくとも一つを示していてもよい。明示的な過渡情報は、中間的な過渡制御値または確かな過渡イベントに対応する過渡制御値を含んでいてもよい。過渡制御値は、指数関数的な減衰関数に従ってもよい。
明示的な過渡情報が確かな過渡イベントを示す場合、オーディオ・データの処理は、脱相関プロセスを一時的に遅くするまたは止めることに関わっていてもよい。明示的な過渡情報が確かな非過渡イベントに対応する過渡制御値または中間的な過渡値を含む場合、過渡情報を決定するプロセスは、ソフト過渡イベントを検出することに関わっていてもよい。決定された過渡情報は、ソフト過渡イベントに対応する決定された過渡制御値であってもよい。
論理システムは、決定された過渡制御値を受領された過渡制御値と組み合わせて新たな過渡制御値を得るようさらに構成されていてもよい。いくつかの実装では、決定された過渡制御値および受領された過渡制御値を組み合わせるプロセスは、決定された過渡制御値および受領された過渡制御値のうちの最大を決定することに関わっていてもよい。
ソフト過渡イベントを検出するプロセスは、過渡イベントの確からしさまたは深刻さの少なくとも一方を評価することに関わっていてもよい。ソフト過渡イベントを検出するプロセスは、オーディオ・データの時間的なパワー変動を検出することに関わっていてもよい。
いくつかの実装では、論理システムは、オーディオ・データの一部に脱相関フィルタを適用してフィルタリングされたオーディオ・データを生成し、フィルタリングされたオーディオ・データを混合比に従って受領されたオーディオ・データの一部と混合するようさらに構成されていてもよい。脱相関の量を決定するプロセスは、少なくとも部分的には前記過渡情報に基づいて前記混合比を修正することに関わっていてもよい。
脱相関の量を決定するプロセスは、前記ソフト過渡イベントを検出することに応答して脱相関の量を減らすことに関わっていてもよい。オーディオ・データを処理することは、オーディオ・データの一部に脱相関フィルタを適用し、フィルタリングされたオーディオ・データを生成し、フィルタリングされたオーディオ・データを混合比に従って受領されたオーディオ・データの一部と混合することに関わっていてもよい。脱相関の量を減らすプロセスは、前記混合比を修正することに関わっていてもよい。
オーディオ・データを処理することは、オーディオ・データの一部に脱相関フィルタを適用してフィルタリングされたオーディオ・データを生成し、フィルタリングされたオーディオ・データに適用される利得を推定し、該利得をフィルタリングされたオーディオ・データに適用し、フィルタリングされたオーディオ・データを受領されたオーディオ・データの一部と混合することに関わっていてもよい。上記の推定するプロセスは、フィルタリングされたオーディオ・データのパワーを、受領されたオーディオ・データのパワーとマッチさせることに関わっていてもよい。論理システムは、上記の推定するプロセスおよび利得を適用するプロセスを実行するよう構成されたダッカー(ducker)のバンクを含んでいてもよい。
本開示のいくつかの側面は、ソフトウェアが記憶されている非一時的な媒体において実装されてもよい。ソフトウェアは、複数のオーディオ・チャネルに対応するオーディオ・データを受領するよう、およびオーディオ・データのオーディオ特性を決定するよう装置を制御するための命令を含んでいてもよい。いくつかの実装では、オーディオ特性は過渡情報を含んでいてもよい。ソフトウェアは、少なくとも部分的にはオーディオ特性に基づいてオーディオ・データについての脱相関の量を決定し、決定された脱相関の量に従ってオーディオ・データを処理するよう装置を制御するための命令を含んでいてもよい。
いくつかの事例では、明示的な過渡情報はオーディオ・データと一緒に受領されなくてもよい。過渡情報を決定するプロセスは、ソフト過渡イベントを検出することに関わっていてもよい。過渡情報を決定するプロセスは、過渡イベントの確からしさ(likelihood)または深刻さの少なくとも一方を評価することに関わっていてもよい。過渡情報を決定するプロセスは、オーディオ・データにおける時間的なパワー変動を評価することに関わっていてもよい。
しかしながら、いくつかの実装では、オーディオ特性を決定することは、オーディオ・データとともに明示的な過渡情報を受領することに関わっていてもよい。明示的な過渡情報は、確かな(definite)過渡イベントに対応する過渡制御値、確かな非過渡イベントに対応する過渡制御値および/または中間的な過渡制御値を含んでいてもよい。明示的な過渡情報が過渡イベントを示す場合、オーディオ・データの処理は、脱相関プロセスを一時的に止めるまたは遅くすることに関わっていてもよい。
明示的な過渡情報が確かな非過渡イベントに対応する過渡制御値または中間的な過渡値を含む場合、過渡情報を決定するプロセスは、ソフト過渡イベントを検出することに関わっていてもよい。決定された過渡情報は、ソフト過渡イベントに対応する決定された過渡制御値であってもよい。過渡情報を決定するプロセスは、決定された過渡制御値を受領された過渡制御値と組み合わせて新たな過渡制御値を得ることに関わっていてもよい。決定された過渡制御値および受領された過渡制御値を組み合わせるプロセスは、決定された過渡制御値および受領された過渡制御値のうちの最大を決定することに関わっていてもよい。
ソフト過渡イベントを検出するプロセスは、過渡イベントの確からしさ(likelihood)または深刻さの少なくとも一方を評価することに関わっていてもよい。ソフト過渡イベントを検出するプロセスは、オーディオ・データにおける時間的なパワー変動を評価することに関わっていてもよい。
本ソフトウェアは、オーディオ・データの一部に脱相関フィルタを適用してフィルタリングされたオーディオ・データを生成し、フィルタリングされたオーディオ・データを混合比に従って受領されたオーディオ・データの一部と混合するよう上記装置を制御するための命令を含んでいてもよい。脱相関の量を決定するプロセスは、少なくとも部分的には前記過渡情報に基づいて前記混合比を修正することに関わっていてもよい。オーディオ・データについての脱相関の量を決定するプロセスは、ソフト過渡イベントを検出するのに応答して脱相関の量を減らすことに関わっていてもよい。
オーディオ・データを処理することは、オーディオ・データの一部に脱相関フィルタを適用し、フィルタリングされたオーディオ・データを生成し、フィルタリングされたオーディオ・データを混合比に従って受領されたオーディオ・データの一部と混合することに関わっていてもよい。脱相関の量を減らすプロセスは、前記混合比を修正することに関わっていてもよい。
オーディオ・データを処理することは、オーディオ・データの一部に脱相関フィルタを適用してフィルタリングされたオーディオ・データを生成し、フィルタリングされたオーディオ・データに適用される利得を推定し、該利得をフィルタリングされたオーディオ・データに適用し、フィルタリングされたオーディオ・データを受領されたオーディオ・データの一部と混合することに関わっていてもよい。上記の推定するプロセスは、フィルタリングされたオーディオ・データのパワーを、受領されたオーディオ・データのパワーとマッチさせることに関わっていてもよい。
いくつかの方法は、複数のオーディオ・チャネルに対応するオーディオ・データを受領し、オーディオ・データのオーディオ特性を決定することに関わっていてもよい。オーディオ特性は過渡情報を含んでいてもよい。過渡情報は、確かな過渡イベントと確かな非過渡イベントとの間の過渡値を示す中間的な過渡制御値を含んでいてもよい。そのような方法は、エンコードされた過渡情報を含むエンコードされたオーディオ・データ・フレームを形成することに関わっていてもよい。
エンコードされた過渡情報は、一つまたは複数の制御フラグを含んでいてもよい。本方法は、オーディオ・データの二つ以上のチャネルの少なくとも一部を少なくとも一つの結合チャネルに結合することに関わっていてもよい。制御フラグは、チャネル・ブロック切り換えフラグ、チャネル結合外フラグまたは結合使用中フラグのうちの少なくとも一つを含んでいてもよい。本方法は、確かな過渡イベント、確かな非過渡イベント、過渡イベントの確からしさまたは過渡イベントの深刻さのうちの少なくとも一つを示すエンコードされた過渡情報を形成するために、前記制御フラグの一つまたは複数の組み合わせを決定することに関わっていてもよい。
過渡情報を決定するプロセスは、過渡イベントの確からしさまたは深刻さの少なくとも一方を評価することに関わっていてもよい。エンコードされた過渡情報は、確かな過渡イベント、確かな非過渡イベント、過渡イベントの確からしさまたは過渡イベントの深刻さのうちの少なくとも一つを示してもよい。過渡情報を決定するプロセスは、オーディオ・データにおける時間的なパワー変動を評価することに関わっていてもよい。
エンコードされた過渡情報は、過渡イベントに対応する過渡制御値を含んでいてもよい。過渡制御値は、指数関数的な減衰関数に従ってもよい。過渡情報は、脱相関プロセスが一時的に遅くされるまたは停止されるべきであることを示してもよい。
過渡情報は、脱相関プロセスの混合比が修正されるべきであることを示してもよい。たとえば、過渡情報は、脱相関プロセスにおける脱相関の量が一時的に低下させられるべきであることを示してもよい。
いくつかの方法は、複数のオーディオ・チャネルに対応するオーディオ・データを受領し、オーディオ・データのオーディオ特性を決定することに関わっていてもよい。オーディオ特性は空間的パラメータ・データを含んでいてもよい。これらの方法は、少なくとも部分的には上記オーディオ特性に基づいて、オーディオ・データについての少なくとも二つの脱相関フィルタリング・プロセスを決定することに関わっていてもよい。それらの脱相関フィルタリング・プロセスは、少なくとも一対のチャネルについてのチャネル固有脱相関信号の間の特定の脱相関信号間コヒーレンス(IDC: inter-decorrelation signal coherence)を引き起こしてもよい。それらの脱相関フィルタリング・プロセスはオーディオ・データの少なくとも一部に脱相関フィルタを適用してフィルタリングされたオーディオ・データを生成することに関わっていてもよい。チャネル固有の脱相関信号は、フィルタリングされたオーディオ・データに対して演算を実行することによって生成されてもよい。
これらの方法は、オーディオ・データの少なくとも一部にこれらの脱相関フィルタリング・プロセスを適用してチャネル固有の脱相関信号を生成し、少なくとも部分的にはオーディオ特性に基づいて混合パラメータを決定し、混合パラメータに従ってチャネル固有の脱相関信号をオーディオ・データの直接部分と混合することに関わっていてもよい。前記直接部分は、それに対して脱相関フィルタが適用される部分に対応していてもよい。
本方法はまた、出力チャネルの数に関する情報を受領することに関わっていてもよい。オーディオ・データについての少なくとも二つの脱相関フィルタリング・プロセスを決定するプロセスは、少なくとも部分的には出力チャネルの数に基づいていてもよい。受領するプロセスは、N個の入力オーディオ・チャネルに対応するオーディオ・データを受領することに関わっていてもよい。本方法は、N個の入力オーディオ・チャネルについてのオーディオ・データがK個の出力オーディオ・チャネルについてのオーディオ・データに下方混合〔ダウンミキシング〕または上方混合〔アップミキシング〕されることを決定し、K個の出力オーディオ・チャネルに対応する脱相関されたオーディオ・データを生成することに関わっていてもよい。
本方法はまた、N個の入力オーディオ・チャネルについてのオーディオ・データをM個の中間オーディオ・チャネルについてのオーディオ・データに下方混合または上方混合し、M個の中間オーディオ・チャネルについての脱相関されたオーディオ・データを生成し、M個の中間オーディオ・チャネルについての脱相関されたオーディオ・データをK個の出力オーディオ・チャネルについての脱相関されたオーディオ・データに下方混合または上方混合することに関わっていてもよい。オーディオ・データについて前記二つの脱相関フィルタリング・プロセスを決定することは、少なくとも部分的には、中間オーディオ・チャネルの数Mに基づいていてもよい。脱相関フィルタリング・プロセスは、少なくとも部分的には、NからK、MからKまたはNからMの混合の式に基づいて決定されてもよい。
本方法は、複数のオーディオ・チャネル対の間のチャネル間コヒーレンス(ICC: inter-channel coherence)を制御することに関わっていてもよい。ICCを制御するプロセスは、ICC値を受領することまたは少なくとも部分的には空間的パラメータ・データに基づいてICC値を決定することのうちの少なくとも一方に関わっていてもよい。
ICCを制御するプロセスは、ICC値の組を受領することまたは少なくとも部分的には空間的パラメータ・データに基づいてICC値の前記組を決定することのうちの少なくとも一方に関わっていてもよい。本方法はまた、少なくとも部分的にはICC値の前記組に基づいてIDC値の組を決定し、フィルタリングされたオーディオ・データに対して演算を実行することによってIDC値の前記組と対応するチャネル固有の脱相関信号の組を合成することに関わっていてもよい。
本方法は、前記空間的パラメータ・データの第一の表現と前記空間的パラメータ・データの第二の表現との間の変換のプロセスに関わっていてもよい。空間的パラメータ・データの第一の表現は、個々の離散的なチャネルと結合チャネルとの間のコヒーレンスの表現を含んでいてもよい。空間的パラメータ・データの第二の表現は、個々の離散的なチャネルの間のコヒーレンスの表現を含んでいてもよい。
オーディオ・データの少なくとも一部に上記の脱相関フィルタリング・プロセスを適用するプロセスは、複数のチャネルについてのオーディオ・データに同じ脱相関フィルタを適用してフィルタリングされたオーディオ・データを生成し、左チャネルもしくは右チャネルに対応するフィルタリングされたオーディオ・データに−1を乗算することに関わっていてもよい。本方法はまた、左サラウンド・チャネルに対応するフィルタリングされたオーディオ・データの極性を、左チャネルに対応するフィルタリングされたオーディオ・データを基準として反転させ、右サラウンド・チャネルに対応するフィルタリングされたオーディオ・データの極性を、右チャネルに対応するフィルタリングされたオーディオ・データを基準として反転させることに関わっていてもよい。
オーディオ・データの少なくとも一部に脱相関フィルタリング・プロセスを適用するプロセスは、第一および第二のチャネルについてのオーディオ・データに第一の脱相関フィルタを適用して第一のチャネルのフィルタリングされたデータおよび第二のチャネルのフィルタリングされたデータを生成し、第三および第四のチャネルについてのオーディオ・データに第二の脱相関フィルタを適用して第三のチャネルのフィルタリングされたデータおよび第四のチャネルのフィルタリングされたデータを生成することに関わっていてもよい。第一のチャネルは左チャネルであってもよく、第二のチャネルは右チャネルであってもよく、第三のチャネルは左サラウンド・チャネルであってもよく、第四のチャネルは右サラウンド・チャネルであってもよい。本方法はまた、第一のチャネルのフィルタリングされたデータの極性を第二のチャネルのフィルタリングされたデータに対して反転させ、第三のチャネルのフィルタリングされたデータの極性を第四のチャネルのフィルタリングされたデータに対して反転させることに関わっていてもよい。オーディオ・データについての少なくとも二つの脱相関フィルタリング・プロセスを決定するプロセスは、中央チャネルについてのオーディオ・データに異なる脱相関フィルタが適用されることを決定することまたは中央チャネルについてのオーディオ・データには脱相関フィルタが適用されないことを決定することに関わっていてもよい。
本方法はまた、チャネル固有のスケーリング因子および複数の結合されたチャネルに対応する結合チャネル信号を受領することに関わっていてもよい。上記の適用するプロセスは、上記の脱相関フィルタリング・プロセスのうちの少なくとも一つを前記結合チャネルに適用して、チャネル固有のフィルタリングされたオーディオ・データを生成し、該チャネル固有のフィルタリングされたオーディオ・データに上記チャネル固有のスケーリング因子を適用して、チャネル固有の脱相関信号を生成することに関わっていてもよい。
本方法はまた、少なくとも部分的には空間的パラメータ・データに基づいて脱相関信号合成パラメータを決定することに関わっていてもよい。脱相関信号合成パラメータは、出力チャネル固有の脱相関信号合成パラメータであってもよい。本方法は、複数の結合されたチャネルに対応する結合チャネル信号およびチャネル固有のスケーリング因子を受領することに関わっていてもよい。オーディオ・データについての少なくとも二つの脱相関フィルタリング・プロセスを決定するプロセスおよびそれらの脱相関フィルタリング・プロセスをオーディオ・データの一部に適用するプロセスのうちの少なくとも一方は、一組の脱相関フィルタを前記結合チャネル信号に適用することによって一組のシード脱相関信号を生成し、該シード脱相関信号を合成器に送り、出力チャネル固有の脱相関信号合成パラメータを、合成器によって受領されたシード脱相関信号に適用してチャネル固有の合成された脱相関信号を生成し、チャネル固有の合成された脱相関信号に、各チャネルにとって適切なチャネル固有のスケーリング因子を乗算してスケーリングされたチャネル固有の合成された脱相関信号を生成し、スケーリングされたチャネル固有の合成された脱相関信号を直接信号および脱相関信号混合器に出力することに関わっていてもよい。
本方法はまた、チャネル固有のスケーリング因子を受領することに関わっていてもよい。オーディオ・データについての少なくとも二つの脱相関フィルタリング・プロセスを決定するプロセスおよびそれらの脱相関フィルタリング・プロセスをオーディオ・データの一部に適用するプロセスのうちの少なくとも一方は:一組の脱相関フィルタをオーディオ・データに適用することによって一組のチャネル固有シード脱相関信号を生成し;該チャネル固有シード脱相関信号を合成器に送り;一組のチャネル対固有のレベル調整パラメータを、少なくとも部分的には、前記チャネル固有のスケーリング因子に基づいて決定し;出力チャネル固有の脱相関信号合成パラメータおよびチャネル対固有のレベル調整パラメータを、合成器によって受領されたチャネル固有のシード脱相関信号に適用して、チャネル固有の合成された脱相関信号を生成し;チャネル固有の合成された脱相関信号を直接信号および脱相関信号混合器に出力することに関わっていてもよい。
出力チャネル固有の脱相関信号合成パラメータを決定することは、少なくとも部分的には、空間的パラメータ・データに基づいて一組のIDC値を決定し、該一組のIDC値に対応する出力チャネル固有の脱相関信号合成パラメータを決定することに関わっていてもよい。前記一組のIDC値は、少なくとも部分的には、個々の離散的なチャネルと結合チャネルとの間のコヒーレンスおよび個々の離散的なチャネルの対の間のコヒーレンスに従って決定されてもよい。
混合プロセスは、チャネル固有の脱相関信号をオーディオ・データの直接部分と組み合わせるために、非階層的混合器を使うことに関わっていてもよい。オーディオ特性を決定することは、オーディオ・データと一緒に明示的なオーディオ特性情報を受領することに関わっていてもよい。オーディオ特性を決定することは、オーディオ・データの一つまたは複数の属性に基づいてオーディオ特性情報を決定することに関わっていてもよい。空間的パラメータは、個々の離散的なチャネルと結合チャネルとの間のコヒーレンスの表現および/または個々の離散的なチャネルの対の間のコヒーレンスの表現を含んでいてもよい。オーディオ特性は、トーン性情報または過渡情報の少なくとも一方を含んでいてもよい。
混合パラメータを決定することは、少なくとも部分的には、空間的パラメータ・データに基づいていてもよい。本方法はまた、混合パラメータを、直接信号および脱相関信号混合器に提供することに関わっていてもよい。混合パラメータは、出力チャネル固有の混合パラメータであってもよい。本方法はまた、少なくとも部分的には出力チャネル固有の混合パラメータおよび過渡制御情報に基づいて、修正された出力チャネル固有の混合パラメータを決定することに関わっていてもよい。
いくつかの実装によれば、装置が、インターフェースと、複数のオーディオ・チャネルに対応するオーディオ・データを受領してオーディオ・データのオーディオ特性を決定するよう構成された論理システムとを含んでいてもよい。オーディオ特性は空間的パラメータ・データを含んでいてもよい。論理システムは、少なくとも部分的には上記オーディオ特性に基づいて、オーディオ・データについての少なくとも二つの脱相関フィルタリング・プロセスを決定するよう構成されていてもよい。それらの脱相関フィルタリング・プロセスは、少なくとも一対のチャネルについてのチャネル固有脱相関信号の間の特定のIDCを引き起こしてもよい。それらの脱相関フィルタリング・プロセスはオーディオ・データの少なくとも一部に脱相関フィルタを適用してフィルタリングされたオーディオ・データを生成することに関わっていてもよい。チャネル固有の脱相関信号は、フィルタリングされたオーディオ・データに対して演算を実行することによって生成されてもよい。
論理システムは、オーディオ・データの少なくとも一部にこれらの脱相関フィルタリング・プロセスを適用してチャネル固有の脱相関信号を生成し;少なくとも部分的にはオーディオ特性に基づいて混合パラメータを決定し;混合パラメータに従ってチャネル固有の脱相関信号をオーディオ・データの直接部分と混合するよう構成されていてもよい。前記直接部分は、それに対して脱相関フィルタが適用される部分に対応していてもよい。
受領するプロセスは、出力チャネルの数に関する情報を受領することに関わっていてもよい。オーディオ・データについての少なくとも二つの脱相関フィルタリング・プロセスを決定するプロセスは、少なくとも部分的には出力チャネルの数に基づいていてもよい。たとえば、受領するプロセスは、N個の入力オーディオ・チャネルに対応するオーディオ・データを受領することに関わっていてもよく、論理システムは:N個の入力オーディオ・チャネルについてのオーディオ・データがK個の出力オーディオ・チャネルについてのオーディオ・データに下方混合または上方混合されることを決定し、K個の出力オーディオ・チャネルに対応する脱相関されたオーディオ・データを生成するよう構成されていてもよい。
論理システムは、N個の入力オーディオ・チャネルについてのオーディオ・データをM個の中間オーディオ・チャネルについてのオーディオ・データに下方混合または上方混合し;M個の中間オーディオ・チャネルについての脱相関されたオーディオ・データを生成し;M個の中間オーディオ・チャネルについての脱相関されたオーディオ・データをK個の出力オーディオ・チャネルについての脱相関されたオーディオ・データに下方混合または上方混合するよう構成されていてもよい。
前記脱相関フィルタリング・プロセスは、少なくとも部分的には、NからKへの混合の式に基づいて決定されてもよい。オーディオ・データについて前記二つの脱相関フィルタリング・プロセスを決定することは、少なくとも部分的には、中間オーディオ・チャネルの数Mに基づいていてもよい。脱相関フィルタリング・プロセスは、少なくとも部分的には、MからKまたはNからMの混合の式に基づいて決定されてもよい。
論理システムはさらに、複数のオーディオ・チャネル対の間のICCを制御するよう構成されていてもよい。ICCを制御するプロセスは、ICC値を受領することまたは少なくとも部分的には空間的パラメータ・データに基づいてICC値を決定することのうちの少なくとも一方に関わっていてもよい。論理システムはさらに、少なくとも部分的にはICC値の前記組に基づいてIDC値の組を決定し、フィルタリングされたオーディオ・データに対して演算を実行することによってIDC値の前記組と対応するチャネル固有の脱相関信号の組を合成するよう構成されていてもよい。
論理システムは、前記空間的パラメータ・データの第一の表現と前記空間的パラメータ・データの第二の表現との間の変換のプロセスのために構成されていてもよい。空間的パラメータ・データの第一の表現は、個々の離散的なチャネルと結合チャネルとの間のコヒーレンスの表現を含んでいてもよい。空間的パラメータ・データの第二の表現は、個々の離散的なチャネルの間のコヒーレンスの表現を含んでいてもよい。
オーディオ・データの少なくとも一部に上記の脱相関フィルタリング・プロセスを適用するプロセスは、複数のチャネルについてのオーディオ・データに同じ脱相関フィルタを適用してフィルタリングされたオーディオ・データを生成し、左チャネルもしくは右チャネルに対応するフィルタリングされたオーディオ・データに−1を乗算することに関わっていてもよい。論理システムはさらに、左サラウンド・チャネルに対応するフィルタリングされたオーディオ・データの極性を、左サイド・チャネルに対応するフィルタリングされたオーディオ・データを基準として反転させ、右サラウンド・チャネルに対応するフィルタリングされたオーディオ・データの極性を、右サイド・チャネルに対応するフィルタリングされたオーディオ・データを基準として反転させるよう構成されていてもよい。
オーディオ・データの少なくとも一部に脱相関フィルタリング・プロセスを適用するプロセスは、第一および第二のチャネルについてのオーディオ・データに第一の脱相関フィルタを適用して第一のチャネルのフィルタリングされたデータおよび第二のチャネルのフィルタリングされたデータを生成し、第三および第四のチャネルについてのオーディオ・データに第二の脱相関フィルタを適用して第三のチャネルのフィルタリングされたデータおよび第四のチャネルのフィルタリングされたデータを生成することに関わっていてもよい。第一のチャネルは左サイド・チャネルであってもよく、第二のチャネルは右サイド・チャネルであってもよく、第三のチャネルは左サラウンド・チャネルであってもよく、第四のチャネルは右サラウンド・チャネルであってもよい。
論理システムはさらに、第一のチャネルのフィルタリングされたデータの極性を第二のチャネルのフィルタリングされたデータに対して反転させ、第三のチャネルのフィルタリングされたデータの極性を第四のチャネルのフィルタリングされたデータに対して反転させるよう構成されていてもよい。オーディオ・データについての少なくとも二つの脱相関フィルタリング・プロセスを決定するプロセスは、中央チャネルについてのオーディオ・データに異なる脱相関フィルタが適用されることを決定することまたは中央チャネルについてのオーディオ・データには脱相関フィルタが適用されないことを決定することに関わっていてもよい。
論理システムはさらに、チャネル固有のスケーリング因子および複数の結合されたチャネルに対応する結合チャネル信号を前記インターフェースから受領するよう構成されていてもよい。上記の適用するプロセスは、上記の脱相関フィルタリング・プロセスのうちの少なくとも一つを前記結合チャネルに適用して、チャネル固有のフィルタリングされたオーディオ・データを生成し、該チャネル固有のフィルタリングされたオーディオ・データに上記チャネル固有のスケーリング因子を適用して、チャネル固有の脱相関信号を生成することに関わっていてもよい。
論理システムはさらに、少なくとも部分的には空間的パラメータ・データに基づいて脱相関信号合成パラメータを決定するよう構成されていてもよい。脱相関信号合成パラメータは、出力チャネル固有の脱相関信号合成パラメータであってもよい。論理システムはさらに、複数の結合されたチャネルに対応する結合チャネル信号およびチャネル固有のスケーリング因子を前記インターフェースから受領するよう構成されていてもよい。
オーディオ・データについての少なくとも二つの脱相関フィルタリング・プロセスを決定するプロセスおよびそれらの脱相関フィルタリング・プロセスをオーディオ・データの一部に適用するプロセスのうちの少なくとも一方は:一組の脱相関フィルタを前記結合チャネル信号に適用することによって一組のシード脱相関信号を生成し;該シード脱相関信号を合成器に送り;出力チャネル固有の脱相関信号合成パラメータを、合成器によって受領されたシード脱相関信号に適用してチャネル固有の合成された脱相関信号を生成し;チャネル固有の合成された脱相関信号に、各チャネルにとって適切なチャネル固有のスケーリング因子を乗算してスケーリングされたチャネル固有の合成された脱相関信号を生成し;スケーリングされたチャネル固有の合成された脱相関信号を直接信号および脱相関信号混合器に出力することに関わっていてもよい。
オーディオ・データについての少なくとも二つの脱相関フィルタリング・プロセスを決定するプロセスおよびそれらの脱相関フィルタリング・プロセスをオーディオ・データの一部に適用するプロセスのうちの少なくとも一方は:一組のチャネル固有の脱相関フィルタをオーディオ・データに適用することによって一組のチャネル固有シード脱相関信号を生成し;該チャネル固有シード脱相関信号を合成器に送り;チャネル対固有のレベル調整パラメータを、少なくとも部分的には、前記チャネル固有のスケーリング因子に基づいて決定し;出力チャネル固有の脱相関信号合成パラメータおよびチャネル対固有のレベル調整パラメータを、合成器によって受領されたチャネル固有のシード脱相関信号に適用して、チャネル固有の合成された脱相関信号を生成し;チャネル固有の合成された脱相関信号を、直接信号および脱相関信号混合器に出力することに関わっていてもよい。
出力チャネル固有の脱相関信号合成パラメータを決定することは、少なくとも部分的には、空間的パラメータ・データに基づいて一組のIDC値を決定し、該一組のIDC値に対応する出力チャネル固有の脱相関信号合成パラメータを決定することに関わっていてもよい。前記一組のIDC値は、少なくとも部分的には、個々の離散的なチャネルと結合チャネルとの間のコヒーレンスおよび個々の離散的なチャネルの対の間のコヒーレンスに従って決定されてもよい。
混合プロセスは、チャネル固有の脱相関信号をオーディオ・データの直接部分と組み合わせるために、非階層的混合器を使うことに関わっていてもよい。オーディオ特性を決定することは、オーディオ・データと一緒に明示的なオーディオ特性情報を受領することに関わっていてもよい。オーディオ特性を決定することは、オーディオ・データの一つまたは複数の属性に基づいてオーディオ特性情報を決定することに関わっていてもよい。オーディオ特性はトーン性情報および/または過渡情報を含んでいてもよい。
空間的パラメータ・データは、個々の離散的なチャネルと結合チャネルとの間のコヒーレンスの表現および/または個々の離散的なチャネルの対の間のコヒーレンスの表現を含んでいてもよい。混合パラメータを決定することは、少なくとも部分的には、空間的パラメータ・データに基づいていてもよい。
論理システムはさらに、混合パラメータを、直接信号および脱相関信号混合器に提供するよう構成されていてもよい。混合パラメータは、出力チャネル固有の混合パラメータであってもよい。論理システムはさらに、少なくとも部分的には出力チャネル固有の混合パラメータおよび過渡制御情報に基づいて、修正された出力チャネル固有の混合パラメータを決定するよう構成されていてもよい。
本装置はメモリ・デバイスを含んでいてもよい。前記インターフェースは、前記論理システムと前記メモリ・デバイスとの間のインターフェースであってもよいが、前記インターフェースはネットワーク・インターフェースであってもよい。
本開示のいくつかの側面は、ソフトウェアが記憶されている非一時的な媒体において実装されてもよい。ソフトウェアは、複数のオーディオ・チャネルに対応するオーディオ・データを受領し、オーディオ・データのオーディオ特性を決定するための命令を含んでいてもよい。オーディオ特性は空間的パラメータ・データを含んでいてもよい。本ソフトウェアは、少なくとも部分的には上記オーディオ特性に基づいて、オーディオ・データについての少なくとも二つの脱相関フィルタリング・プロセスを決定する上記装置を制御するための命令を含んでいてもよい。それらの脱相関フィルタリング・プロセスは、少なくとも一対のチャネルについてのチャネル固有脱相関信号の間の特定のIDCを引き起こしてもよい。それらの脱相関フィルタリング・プロセスはオーディオ・データの少なくとも一部に脱相関フィルタを適用してフィルタリングされたオーディオ・データを生成することに関わっていてもよい。チャネル固有の脱相関信号は、フィルタリングされたオーディオ・データに対して演算を実行することによって生成されてもよい。
本ソフトウェアは、オーディオ・データの少なくとも一部にこれらの脱相関フィルタリング・プロセスを適用してチャネル固有の脱相関信号を生成し;少なくとも部分的にはオーディオ特性に基づいて混合パラメータを決定し;混合パラメータに従ってチャネル固有の脱相関信号をオーディオ・データの直接部分と混合するよう上記装置を制御するための命令を含んでいてもよい。前記直接部分は、それに対して脱相関フィルタが適用される部分に対応していてもよい。
本ソフトウェアは、出力チャネルの数に関する情報を受領するよう上記装置を制御するための命令を含んでいてもよい。オーディオ・データについての少なくとも二つの脱相関フィルタリング・プロセスを決定するプロセスは、少なくとも部分的には出力チャネルの数に基づいていてもよい。たとえば、受領するプロセスは、N個の入力オーディオ・チャネルに対応するオーディオ・データを受領することに関わっていてもよい。本ソフトウェア、N個の入力オーディオ・チャネルについてのオーディオ・データがK個の出力オーディオ・チャネルについてのオーディオ・データに下方混合または上方混合されることを決定し、K個の出力オーディオ・チャネルに対応する脱相関されたオーディオ・データを生成するよう上記装置を制御するための命令を含んでいてもよい。
本ソフトウェアは、N個の入力オーディオ・チャネルについてのオーディオ・データをM個の中間オーディオ・チャネルについてのオーディオ・データに下方混合または上方混合し;M個の中間オーディオ・チャネルについての脱相関されたオーディオ・データを生成し;M個の中間オーディオ・チャネルについての脱相関されたオーディオ・データをK個の出力オーディオ・チャネルについての脱相関されたオーディオ・データに下方混合または上方混合するよう上記装置を制御するための命令を含んでいてもよい。
オーディオ・データについて前記二つの脱相関フィルタリング・プロセスを決定することは、少なくとも部分的には、中間オーディオ・チャネルの数Mに基づいていてもよい。それらの脱相関フィルタリング・プロセスは、少なくとも部分的には、NからK、MからKまたはNからMの混合の式に基づいて決定されてもよい。
本ソフトウェアはさらに、複数のオーディオ・チャネル対の間のICCを制御するプロセスを実行するよう上記装置を制御するための命令を含んでいてもよい。ICCを制御するプロセスは、ICC値を受領するおよび/または少なくとも部分的には空間的パラメータ・データに基づいてICC値を決定することに関わっていてもよい。ICCを制御するプロセスは、一組のICC値を受領することまたは少なくとも部分的には空間的パラメータ・データに基づいて前記一組のICC値を決定することのうちの少なくとも一方に関わっていてもよい。本ソフトウェアは、少なくとも部分的にはICC値の前記組に基づいてIDC値の組を決定し、フィルタリングされたオーディオ・データに対して演算を実行することによってIDC値の前記組と対応するチャネル固有の脱相関信号の組を合成するプロセスを実行するよう上記装置を制御するための命令を含んでいてもよい。
オーディオ・データの少なくとも一部に上記の脱相関フィルタリング・プロセスを適用するプロセスは、複数のチャネルについてのオーディオ・データに同じ脱相関フィルタを適用してフィルタリングされたオーディオ・データを生成し、左チャネルもしくは右チャネルに対応するフィルタリングされたオーディオ・データに−1を乗算することに関わっていてもよい。本ソフトウェアはさらに、左サラウンド・チャネルに対応するフィルタリングされたオーディオ・データの極性を、左サイド・チャネルに対応するフィルタリングされたオーディオ・データを基準として反転させ、右サラウンド・チャネルに対応するフィルタリングされたオーディオ・データの極性を、右サイド・チャネルに対応するフィルタリングされたオーディオ・データを基準として反転させるプロセスを実行するよう上記装置を制御するための命令を含んでいてもよい。
オーディオ・データの一部に脱相関フィルタを適用するプロセスは、第一および第二のチャネルについてのオーディオ・データに第一の脱相関フィルタを適用して第一のチャネルのフィルタリングされたデータおよび第二のチャネルのフィルタリングされたデータを生成し、第三および第四のチャネルについてのオーディオ・データに第二の脱相関フィルタを適用して第三のチャネルのフィルタリングされたデータおよび第四のチャネルのフィルタリングされたデータを生成することに関わっていてもよい。第一のチャネルは左サイド・チャネルであってもよく、第二のチャネルは右サイド・チャネルであってもよく、第三のチャネルは左サラウンド・チャネルであってもよく、第四のチャネルは右サラウンド・チャネルであってもよい。
本ソフトウェアはさらに、第一のチャネルのフィルタリングされたデータの極性を第二のチャネルのフィルタリングされたデータに対して反転させ、第三のチャネルのフィルタリングされたデータの極性を第四のチャネルのフィルタリングされたデータに対して反転させるプロセスを実行するよう上記装置を制御するための命令を含んでいてもよい。オーディオ・データについての少なくとも二つの脱相関フィルタリング・プロセスを決定するプロセスは、中央チャネルについてのオーディオ・データに異なる脱相関フィルタが適用されることを決定することまたは中央チャネルについてのオーディオ・データには脱相関フィルタが適用されないことを決定することに関わっていてもよい。
本ソフトウェアは、チャネル固有のスケーリング因子および複数の結合されたチャネルに対応する結合チャネル信号を受領するよう上記装置を制御するための命令を含んでいてもよい。上記の適用するプロセスは、上記の脱相関フィルタリング・プロセスのうちの少なくとも一つを前記結合チャネルに適用して、チャネル固有のフィルタリングされたオーディオ・データを生成し、該チャネル固有のフィルタリングされたオーディオ・データに上記チャネル固有のスケーリング因子を適用して、チャネル固有の脱相関信号を生成することに関わっていてもよい。
本ソフトウェアは、少なくとも部分的には空間的パラメータ・データに基づいて脱相関信号合成パラメータを決定するよう上記装置を制御するための命令を含んでいてもよい。脱相関信号合成パラメータは、出力チャネル固有の脱相関信号合成パラメータであってもよい。本ソフトウェアは、複数の結合されたチャネルに対応する結合チャネル信号およびチャネル固有のスケーリング因子を受領するよう上記装置を制御するための命令を含んでいてもよい。オーディオ・データについての少なくとも二つの脱相関フィルタリング・プロセスを決定するプロセスおよびそれらの脱相関フィルタリング・プロセスをオーディオ・データの一部に適用するプロセスのうちの少なくとも一方は:一組の脱相関フィルタを前記結合チャネル信号に適用することによって一組のシード脱相関信号を生成し;該シード脱相関信号を合成器に送り;出力チャネル固有の脱相関信号合成パラメータを、合成器によって受領されたシード脱相関信号に適用してチャネル固有の合成された脱相関信号を生成し;チャネル固有の合成された脱相関信号に、各チャネルにとって適切なチャネル固有のスケーリング因子を乗算してスケーリングされたチャネル固有の合成された脱相関信号を生成し;スケーリングされたチャネル固有の合成された脱相関信号を直接信号および脱相関信号混合器に出力することに関わっていてもよい。
本ソフトウェアは、複数の結合されたチャネルに対応する結合チャネル信号およびチャネル固有のスケーリング因子を受領するよう上記装置を制御するための命令を含んでいてもよい。オーディオ・データについての少なくとも二つの脱相関フィルタリング・プロセスを決定するプロセスおよびそれらの脱相関フィルタリング・プロセスをオーディオ・データの一部に適用するプロセスのうちの少なくとも一方は:一組のチャネル固有脱相関フィルタをオーディオ・データに適用することによって一組のチャネル固有シード脱相関信号を生成し;該チャネル固有シード脱相関信号を合成器に送り;チャネル対固有のレベル調整パラメータを、少なくとも部分的には、前記チャネル固有のスケーリング因子に基づいて決定し;出力チャネル固有の脱相関信号合成パラメータおよびチャネル対固有のレベル調整パラメータを、合成器によって受領されたチャネル固有のシード脱相関信号に適用して、チャネル固有の合成された脱相関信号を生成し;チャネル固有の合成された脱相関信号を、直接信号および脱相関信号混合器に出力することに関わっていてもよい。
出力チャネル固有の脱相関信号合成パラメータを決定することは、少なくとも部分的には、空間的パラメータ・データに基づいて一組のIDC値を決定し、該一組のIDC値に対応する出力チャネル固有の脱相関信号合成パラメータを決定することに関わっていてもよい。前記一組のIDC値は、少なくとも部分的には、個々の離散的なチャネルと結合チャネルとの間のコヒーレンスおよび個々の離散的なチャネルの対の間のコヒーレンスに従って決定されてもよい。
いくつかの実装では、方法が:第一の組の周波数係数および第二の組の周波数係数を含むオーディオ・データを受領する段階と;前記第一の組の周波数係数の少なくとも一部に基づいて、前記第二の組の周波数係数の少なくとも一部についての空間的パラメータを推定する段階と;推定された空間的パラメータを前記第二の組の周波数係数に適用して修正された第二の組の周波数係数を生成する段階とを含む。前記第一の組の周波数係数は第一の周波数範囲に対応していてもよく、前記第二の組の周波数係数は第二の周波数範囲に対応していてもよい。前記第一の周波数範囲は前記第二の周波数範囲より下であってもよい。
前記オーディオ・データは、個々のチャネルおよび結合されたチャネルに対応するデータを含んでいてもよい。前記第一の周波数範囲は個別チャネル周波数範囲に対応していてもよく、前記第二の周波数範囲は結合されたチャネルの周波数範囲に対応していてもよい。上記の適用するプロセスは、推定された空間的パラメータをチャネル毎に適用することに関わっていてもよい。
前記オーディオ・データは、二つ以上のチャネルについての前記第一の周波数範囲における周波数係数を含んでいてもよい。上記の推定するプロセスは、前記二つ以上のチャネルの周波数係数に基づいて複合結合チャネル(composite coupling channel)の組み合わされた周波数係数を計算し、少なくともある第一のチャネルについて、該第一のチャネルの周波数係数と前記組み合わされた周波数係数との間の相互相関係数を計算することに関わっていてもよい。組み合わされた周波数係数は前記第一の周波数範囲に対応してもよい。
前記相互相関係数は、規格化された相互相関係数であってもよい。前記第一の組の周波数係数は複数のチャネルについてのオーディオ・データを含んでいてもよい。上記の推定するプロセスは、前記複数のチャネルのうちの複数のチャネルについて規格化された相互相関係数を推定することに関わっていてもよい。上記の推定するプロセスは、前記第一の周波数範囲の少なくとも一部を第一周波数範囲帯域に分割し、各第一周波数範囲帯域について規格化された相互相関係数を計算することに関わっていてもよい。
いくつかの実装では、上記の推定するプロセスは、あるチャネルの前記第一周波数範囲帯域の全部を横断して前記規格化された相互相関係数を平均し、規格化された相互相関係数の平均にスケーリング因子を適用して当該チャネルについての推定された空間的パラメータを得ることに関わっていてもよい。規格化された相互相関係数を平均する上記のプロセスは、あるチャネルのある時間セグメントを横断して平均することに関わっていてもよい。スケーリング因子は、周波数が増すとともに減少してもよい。
本方法は、推定される空間的パラメータの分散をモデル化するためにノイズの追加に関わっていてもよい。追加されるノイズの分散は少なくとも部分的には、規格化された相互相関係数における分散に基づいていてもよい。追加されたノイズの分散は、少なくとも部分的には、諸帯域を横断した空間的パラメータの予測に依存し、前記分散の前記予測への依存は経験的データに基づくのであってもよい。
本方法は、前記第二の組の周波数係数に関するトーン性情報を受領するまたは決定することに関わっていてもよい。適用されるノイズはトーン性情報に従って変わってもよい。
本方法は、前記第一の組の周波数係数の帯域と前記第二の組の周波数係数の帯域との間の、帯域毎のエネルギー比を測定することに関わっていてもよい。推定される空間的パラメータは、該帯域毎のエネルギー比に従って変わってもよい。いくつかの実装では、推定される空間的パラメータは、入力オーディオ信号の時間的変化に従って変わってもよい。上記の推定するプロセスは、実数値の周波数係数のみに対する演算に関わっていてもよい。
前記第二の組の周波数係数に推定された空間的パラメータを適用するプロセスは、脱相関プロセスの一部であってもよい。いくつかの実装では、脱相関プロセスは、残響信号または脱相関信号を生成し、それを前記第二の組の周波数係数に適用することに関わっていてもよい。脱相関プロセスは、完全に実数値の係数に作用する脱相関アルゴリズムを適用することに関わっていてもよい。脱相関プロセスは、特定の諸チャネルの選択的または信号適応的な脱相関に関わっていてもよい。脱相関プロセスは、特定の諸周波数帯域の選択的または信号適応的な脱相関に関わっていてもよい。いくつかの実装では、前記第一および第二の組の周波数係数は、修正離散サイン変換、修正離散コサイン変換または重複直交変換(lapped orthogonal transform)を時間領域のオーディオ・データに適用することの結果であってもよい。
上記の推定するプロセスは、少なくとも部分的には推定理論に基づいていてもよい。たとえば、上記の推定するプロセスは、少なくとも部分的には、最大尤度法、ベイズ推定量、モーメント法推定量、最小平均平方誤差推定量または最小分散不偏推定量のうちの少なくとも一つに基づいていてもよい。
いくつかの実装では、前記オーディオ・データは、レガシーのエンコード・プロセスに従ってエンコードされたビットストリームにおいて受領されてもよい。レガシーのエンコード・プロセスはたとえば、AC-3オーディオ・コーデックまたは向上AC-3オーディオ・コーデックのプロセスであってもよい。空間的パラメータの適用は、レガシーのエンコード・プロセスに対応するレガシーのデコード・プロセスに従って前記ビットストリームをデコードすることによって得られるよりも空間的に正確なオーディオ再生を与えてもよい。
いくつかの実装は、インターフェースおよび論理システムを含む装置に関わる。論理システムは:第一の組の周波数係数および第二の組の周波数係数を含むオーディオ・データを受領する段階と;前記第一の組の周波数係数の少なくとも一部に基づいて、前記第二の組の周波数係数の少なくとも一部についての空間的パラメータを推定する段階と;推定された空間的パラメータを前記第二の組の周波数係数に適用して修正された第二の組の周波数係数を生成する段階とを実行するよう構成されていてもよい。
本装置はメモリ・デバイスを含んでいてもよい。前記インターフェースは、前記論理システムと前記メモリ・デバイスとの間のインターフェースであってもよいが、前記インターフェースはネットワーク・インターフェースであってもよい。
前記第一の組の周波数係数は第一の周波数範囲に対応していてもよく、前記第二の組の周波数係数は第二の周波数範囲に対応していてもよい。前記第一の周波数範囲は前記第二の周波数範囲より下であってもよい。前記オーディオ・データは、個々のチャネルおよび結合されたチャネルに対応するデータを含んでいてもよい。前記第一の周波数範囲は個別チャネル周波数範囲に対応していてもよく、前記第二の周波数範囲は結合されたチャネルの周波数範囲に対応していてもよい。
上記の適用するプロセスは、推定された空間的パラメータをチャネル毎に適用することに関わっていてもよい。前記オーディオ・データは、二つ以上のチャネルについての前記第一の周波数範囲における周波数係数を含んでいてもよい。上記の推定するプロセスは、前記二つ以上のチャネルの周波数係数に基づいて複合結合チャネルの組み合わされた周波数係数を計算し、少なくともある第一のチャネルについて、該第一のチャネルの周波数係数と前記組み合わされた周波数係数との間の相互相関係数を計算することに関わっていてもよい。
組み合わされた周波数係数は前記第一の周波数範囲に対応してもよい。前記相互相関係数は、規格化された相互相関係数であってもよい。前記第一の組の周波数係数は複数のチャネルについてのオーディオ・データを含んでいてもよい。上記の推定するプロセスは、前記複数のチャネルのうちの複数のチャネルについて規格化された相互相関係数を推定することに関わっていてもよい。
上記の推定するプロセスは、前記第二の周波数範囲を第二周波数範囲帯域に分割し、各第二周波数範囲帯域について、規格化された相互相関係数を計算することに関わっていてもよい。上記の推定するプロセスは、前記第一の周波数範囲を第一周波数範囲帯域に分割し、前記第一周波数範囲帯域の全部を横断して前記規格化された相互相関係数を平均し、規格化された相互相関係数の平均にスケーリング因子を適用して推定された空間的パラメータを得ることに関わっていてもよい。
規格化された相互相関係数を平均する上記のプロセスは、あるチャネルのある時間セグメントを横断して平均することに関わっていてもよい。論理システムはさらに、修正された第二の組の周波数係数へのノイズの追加のために構成されていてもよい。ノイズの追加は、推定される空間的パラメータの分散をモデル化するために追加されてもよい。追加されるノイズの分散は少なくとも部分的には、規格化された相互相関係数における分散に基づいていてもよい。論理システムはさらに、前記第二の組の周波数係数に関するトーン性情報を受領または決定し、上記の適用されるノイズをトーン性情報に従って変えるよう構成されていてもよい。
いくつかの実装では、前記オーディオ・データは、レガシーのエンコード・プロセスに従ってエンコードされたビットストリームにおいて受領されてもよい。たとえば、レガシーのエンコード・プロセスは、AC-3オーディオ・コーデックまたは向上AC-3オーディオ・コーデックのプロセスであってもよい。
本開示のいくつかの側面は、ソフトウェアが記憶されている非一時的な媒体において実装されてもよい。ソフトウェアは:第一の組の周波数係数および第二の組の周波数係数を含むオーディオ・データを受領する段階と;前記第一の組の周波数係数の少なくとも一部に基づいて、前記第二の組の周波数係数の少なくとも一部についての空間的パラメータを推定する段階と;推定された空間的パラメータを前記第二の組の周波数係数に適用して修正された第二の組の周波数係数を生成する段階とを実行するよう装置を制御するための命令を含んでいてもよい。
前記第一の組の周波数係数は第一の周波数範囲に対応していてもよく、前記第二の組の周波数係数は第二の周波数範囲に対応していてもよい。前記オーディオ・データは、個々のチャネルおよび結合されたチャネルに対応するデータを含んでいてもよい。前記第一の周波数範囲は個別チャネル周波数範囲に対応していてもよく、前記第二の周波数範囲は結合されたチャネルの周波数範囲に対応していてもよい。前記第一の周波数範囲は前記第二の周波数範囲より下であってもよい。
上記の適用するプロセスは、推定された空間的パラメータをチャネル毎に適用することに関わっていてもよい。前記オーディオ・データは、二つ以上のチャネルについての前記第一の周波数範囲における周波数係数を含んでいてもよい。上記の推定するプロセスは、前記二つ以上のチャネルの周波数係数に基づいて複合結合チャネルの組み合わされた周波数係数を計算し、少なくともある第一のチャネルについて、該第一のチャネルの周波数係数と前記組み合わされた周波数係数との間の相互相関係数を計算することに関わっていてもよい。
前記組み合わされた周波数係数は前記第一の周波数範囲に対応してもよい。前記相互相関係数は、規格化された相互相関係数であってもよい。前記第一の組の周波数係数は複数のチャネルについてのオーディオ・データを含んでいてもよい。上記の推定するプロセスは、前記複数のチャネルのうちの複数のチャネルについて規格化された相互相関係数を推定することに関わっていてもよい。上記の推定するプロセスは、前記第二の周波数範囲を第二周波数範囲帯域に分割し、各第二周波数範囲帯域について、規格化された相互相関係数を計算することに関わっていてもよい。
上記の推定するプロセスは、前記第一の周波数範囲を第一周波数範囲帯域に分割し;前記第一周波数範囲帯域の全部を横断して前記規格化された相互相関係数を平均し、規格化された相互相関係数の平均にスケーリング因子を適用して推定された空間的パラメータを得ることに関わっていてもよい。規格化された相互相関係数を平均する上記のプロセスは、あるチャネルのある時間セグメントを横断して平均することに関わっていてもよい。
本ソフトウェアは、推定される空間的パラメータの分散をモデル化するために修正された第二の組の周波数係数にノイズを加えるようデコード装置を制御するための命令を含んでいてもよい。追加されるノイズの分散は少なくとも部分的には、規格化された相互相関係数における分散に基づいていてもよい。本ソフトウェアは、前記第二の組の周波数係数に関するトーン性情報を受領するまたは決定するようデコード装置を制御するための命令を含んでいてもよい。適用されるノイズはトーン性情報に従って変わってもよい。
いくつかの実装では、前記オーディオ・データは、レガシーのエンコード・プロセスに従ってエンコードされたビットストリームにおいて受領されてもよい。たとえば、レガシーのエンコード・プロセスは、AC-3オーディオ・コーデックまたは向上AC-3オーディオ・コーデックのプロセスであってもよい。
いくつかの実装によれば、方法が:複数のオーディオ・チャネルに対応するオーディオ・データを受領し;オーディオ・データのオーディオ特性を決定し;少なくとも部分的には前記オーディオ特性に基づいてオーディオ・データについての脱相関フィルタ・パラメータを決定し;前記脱相関フィルタ・パラメータに従って脱相関フィルタを形成し;前記脱相関フィルタを前記オーディオ・データの少なくとも一部に適用することに関わっていてもよい。たとえば、前記オーディオ特性は、トーン性情報および/または過渡情報を含んでいてもよい。
オーディオ特性を決定することは、明示的なトーン性情報または過渡情報をオーディオ・データと一緒に受領することに関わっていてもよい。オーディオ特性を決定することは、オーディオ・データの一つまたは複数の属性に基づいてトーン性情報または過渡情報を決定することに関わっていてもよい。
いくつかの実装では、脱相関フィルタは少なくとも一つの遅延要素をもつ線形フィルタを含んでいてもよい。脱相関フィルタは全通過フィルタを含んでいてもよい。
脱相関フィルタ・パラメータは、ディザリング・パラメータまたは前記全通過フィルタの少なくとも一つの極についてのランダムに選択された極位置を含んでいてもよい。たとえば、前記ディザリング・パラメータまたは極位置は、極動きについての最大ストライド値に関わっていてもよい。最大ストライド値は、オーディオ・データのきわめてトーン性の信号については実質的に0であってもよい。ディザリング・パラメータまたは極位置は、極移動がその中に制約される制約エリアによって境を定められていてもよい。いくつかの実装では、制約エリアは円または円環であってもよい。いくつかの実装では、制約エリアは固定されていてもよい。いくつかの実装では、オーディオ・データの種々のチャネルが同じ制約エリアを共有していてもよい。
いくつかの実装によれば、極は、各チャネルについて独立してディザリングされてもよい。いくつかの実施形態では、極の動きは、制約エリアによって境を定められなくてもよい。いくつかの実装では、極は互いに対して実質的に一貫した空間的または角度的な関係を維持してもよい。いくつかの実装によれば、極からz平面円の中心までの距離は、オーディオ・データ周波数の関数であってもよい。
いくつかの実装では、装置がインターフェースおよび論理システムを含んでいてもよい。いくつかの実装では、前記論理システムは、汎用の単一チップまたは複数チップ・プロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールド・プログラマブル・ゲート・アレイ(FPGA)または他のプログラム可能な論理デバイス、離散的ゲートまたはトランジスタ論理および/または離散的なハードウェア・コンポーネントを含んでいてもよい。
論理システムは、前記インターフェースから複数のオーディオ・チャネルに対応するオーディオ・データを受領し、オーディオ・データのオーディオ特性を決定するよう構成されていてもよい。いくつかの実装では、前記オーディオ特性は、トーン性情報および/または過渡情報を含んでいてもよい。論理システムは、少なくとも部分的には前記オーディオ特性に基づいてオーディオ・データについての脱相関フィルタ・パラメータを決定し、前記脱相関フィルタ・パラメータに従って脱相関フィルタを形成し、前記脱相関フィルタを前記オーディオ・データの少なくとも一部に適用するよう構成されていてもよい。
脱相関フィルタは少なくとも一つの遅延要素をもつ線形フィルタを含んでいてもよい。脱相関フィルタ・パラメータは、ディザリング・パラメータまたは脱相関フィルタの少なくとも一つの極についてのランダムに選択された極位置を含んでいてもよい。前記ディザリング・パラメータまたは極位置は、極移動がその中に制約される制約エリアによって限界を定められていてもよい。前記ディザリング・パラメータまたは極位置は、極動きについての最大ストライド値を参照して決定されてもよい。最大ストライド値は、オーディオ・データのきわめてトーン性の信号については実質的に0であってもよい。
本装置はメモリ・デバイスを含んでいてもよい。前記インターフェースは、前記論理システムと前記メモリ・デバイスとの間のインターフェースであってもよいが、前記インターフェースはネットワーク・インターフェースであってもよい。
本開示のいくつかの側面は、ソフトウェアが記憶されている非一時的な媒体において実装されてもよい。ソフトウェアは、複数のオーディオ・チャネルに対応するオーディオ・データを受領し;オーディオ・データのオーディオ特性を決定し、ここで、オーディオ特性はトーン性情報または過渡情報の少なくとも一方を含み;少なくとも部分的には前記オーディオ特性に基づいてオーディオ・データについての脱相関フィルタ・パラメータを決定し;前記脱相関フィルタ・パラメータに従って脱相関フィルタを形成し;前記脱相関フィルタを前記オーディオ・データの少なくとも一部に適用するよう装置を制御するための命令を含んでいてもよい。脱相関フィルタは少なくとも一つの遅延要素をもつ線形フィルタを含んでいてもよい。
脱相関フィルタ・パラメータは、ディザリング・パラメータまたは脱相関フィルタの少なくとも一つの極についてのランダムに選択された極位置を含んでいてもよい。ディザリング・パラメータまたは極位置は、極移動がその中に制約される制約エリアによって境を定められていてもよい。ディザリング・パラメータまたは極位置は、極動きについての最大ストライド値を参照して決定されてもよい。最大ストライド値は、オーディオ・データのきわめてトーン性の信号については実質的に0であってもよい。
いくつかの実装によれば、方法が:複数のオーディオ・チャネルに対応するオーディオ・データを受領し;脱相関フィルタの最大極変位に対応する脱相関フィルタ制御情報を決定し;少なくとも部分的には前記脱相関フィルタ制御情報に基づいてオーディオ・データについての脱相関フィルタ・パラメータを決定し;前記脱相関フィルタ・パラメータに従って脱相関フィルタを形成し;前記脱相関フィルタを前記オーディオ・データの少なくとも一部に適用することに関わっていてもよい。
前記オーディオ・データは時間領域であっても周波数領域であってもよい。脱相関フィルタ制御情報の決定は、最大極変位の明示的な指示を受領することに関わっていてもよい。
脱相関フィルタ制御情報の決定は、オーディオ特性情報を決定し、少なくとも部分的には前記オーディオ特性情報に基づいて最大極変位を決定することに関わっていてもよい。いくつかの実装では、前記オーディオ特性情報はトーン性情報または過渡情報の少なくとも一方を含んでいてもよい。
本明細書において記述される主題の一つまたは複数の実装の詳細が付属の図面および以下の記述において記載される。他の特徴、側面および利点は、該記述、図面および請求項から明白となるであろう。以下の図面の相対的な寸法は縮尺通りに描かれていないことがあることを注意しておく。
AおよびBは、オーディオ・エンコード・プロセスの際のチャネル結合の例を示すグラフである。 オーディオ処理システムの要素を示すブロック図である。 図2Aのオーディオ処理システムによって実行されうる動作の概観を与える図である。 代替的なオーディオ処理システムの要素を示すブロック図である。 オーディオ処理システムにおいて脱相関器がどのように使用されうるかの例を示すブロック図である。 代替的なオーディオ処理システムの要素を示すブロック図である。 脱相関器要素の例を示すブロック図である。 脱相関プロセスの例を示す流れ図である。 図3の脱相関プロセスを実行するよう構成されうる脱相関器コンポーネントの例を示すブロック図である。 全通過フィルタの極を動かす例を示すグラフである。 全通過フィルタの極を動かす代替的な例を示すグラフである。 全通過フィルタの極を動かす代替的な例を示すグラフである。 全通過フィルタの極を動かすときに適用されうる制約エリアの代替的な例の一つを示すグラフである。 全通過フィルタの極を動かすときに適用されうる制約エリアの代替的な例の一つを示すグラフである。 脱相関器の代替的な実装を示すブロック図である。 脱相関器の別の実装を示すブロック図である。 オーディオ処理システムの代替的な実装を示す図である。 AおよびBは、空間的パラメータの簡略化された図解を与えるベクトル図である。 本稿で提供されるいくつかの脱相関方法のブロックを示す流れ図である。 横符号反転法(lateral sign-flip method)の諸ブロックを示す流れ図である。 いくつかの符号反転法を実装するために使用されうるコンポーネントを示すブロック図である。 いくつかの符号反転法を実装するために使用されうるコンポーネントを示すブロック図である。 空間的パラメータから合成係数および混合係数を決定する方法の諸ブロックを示す流れ図である。 混合器コンポーネントの例を示すブロック図である。 複数チャネルの場合における脱相関信号を合成するプロセスの概要を示す流れ図である。 空間的パラメータを推定する方法の概観を与える流れ図である。 空間的パラメータを推定する代替的な方法の概観を与える流れ図である。 スケーリング項VBと帯域インデックスlとの間の関係を示すグラフである。 変数VMとqの間の関係を示すグラフである。 過渡決定および過渡に関係した制御のいくつかの方法の概要を示す流れ図である。 過渡決定および過渡に関係した制御のさまざまなコンポーネントの例を含むブロック図である。 少なくとも部分的にはオーディオ・データの時間的なパワー変動に基づいて過渡制御値を決定するいくつかの方法の概要を示す流れ図である。 生の過渡値を過渡制御値にマッピングする例を示すグラフである。 過渡情報をエンコードする方法の概要を示す流れ図である。 本稿に記載されるプロセスの諸側面を実装するよう構成されうる装置のコンポーネントの例を与えるブロック図である。 さまざまな図面における同様の参照符号および記号は同様の要素を示す。
以下の記述は、本開示のいくつかの革新的な側面を記述する目的のある種の実装およびこれらの革新的な側面が実装されうるコンテキストの例に向けられている。しかしながら、本願の教示はさまざまな異なる仕方で適用できる。この出願において提供される例は主としてAC-3オーディオ・コーデックおよび向上AC-3オーディオ・コーデック(E-AC-3としても知られる)を使って記述されるが、本稿で与えられる概念は、MPEG-2 AACおよびMPEG-4 AACを含むがそれに限られない他のオーディオ・コーデックにも当てはまる。さらに、記載される実装は、携帯電話、スマートフォン、デスクトップ・コンピュータ、ハンドヘルドまたはポータブル・コンピュータ、ネットブック、ノートブック、スマートブック、タブレット、ステレオ・システム、テレビジョン、DVDプレーヤー、デジタル記録装置および多様な他の装置に含まれていてもよいエンコーダおよび/またはデコーダを含むがそれに限られないさまざまなオーディオ処理装置において具現されうる。よって、本開示の教示は図面に示されるおよび/または本稿に記述される実装に限定されることは意図されておらず、広い適用可能性をもつ。
AC-3およびE-AC-3オーディオ・コーデック(その独自の実装が「ドルビー・デジタル」および「ドルビー・デジタル・プラス」としてライセンスされている)を含むいくつかのオーディオ・コーデックは、チャネル間の冗長性を活用し、より効率的にデータをエンコードし、符号化ビットレートを低減するために、何らかの形のチャネル結合を用いる。たとえば、AC-3およびE-AC-3コーデックでは、特定の「結合開始周波数」より先の結合チャネル周波数範囲では、諸離散チャネル(本稿では「個別チャネル」とも称される)の修正離散コサイン変換(MDCT)係数はモノ・チャネルに下方混合される。かかるモノ・チャネルは本稿では「複合チャネル(composite channel)」または「結合チャネル(coupling channel)」と称されることがある。いくつかのコーデックは、二つ以上の結合チャネルを形成してもよい。
AC-3およびE-AC-3デコーダは、ビットストリームにおいて送られた結合座標(coupling coordinates)に基づいてスケール因子を使って、結合チャネルのモノ信号を離散チャネルに上方混合する。このようにして、デコーダは、各チャネルの結合チャネル周波数範囲内のオーディオ・データの高周波数エンベロープを復元するが、位相は復元しない。
図1のAおよびBは、オーディオ・エンコード・プロセスの間のチャネル結合の例を示すグラフである。図1のAのグラフ102は、チャネル結合の前の左チャネルに対応するオーディオ信号を示す。グラフ104は、チャネル結合の前の右チャネルに対応するオーディオ信号を示す。図1のBは、チャネル結合を含むエンコードおよびデコード後の左および右チャネルを示す。この簡略化された例では、グラフ106は、左チャネルについてのオーディオ・データが実質的に不変であることを示す。一方、グラフ108は、右チャネルについてのオーディオ・データが今では左チャネルについてのオーディオ・データと同相であることを示す。
図1のAおよびBに示されるように、結合開始周波数より先のデコードされた信号は、チャネル間でコヒーレントであってもよい。よって、結合開始周波数より先のデコードされた信号は、もとの信号に比較して、空間的につぶれたように聞こえることがある。デコードされたチャネルが、たとえばヘッドフォンを介したバイノーラル表現またはステレオ・スピーカーを通じた再生に際して下方混合されるとき、結合された諸チャネルはコヒーレントに足し合わされることがある。これは、もとの参照信号に比較して音色の不一致につながりうる。チャネル結合の負の効果は、デコードされた信号がヘッドフォンを通じてバイノーラルにレンダリングされるときに特に明白となりうる。
本稿に記載されるさまざまな実装は、少なくとも部分的にはこれらの効果を緩和しうる。いくつかのそのような実装は新規のオーディオ・エンコードおよび/またはデコード・ツールに関わる。そのような実装は、チャネル結合によってエンコードされる周波数領域における出力チャネルの位相多様性を復元するよう構成されてもよい。さまざまな実装によれば、脱相関された信号が、各出力チャネルの結合チャネル周波数範囲内のデコードされたスペクトル係数から合成されてもよい。
しかしながら、オーディオ処理装置および方法の他の多くの型が本稿に記述される。図2Aは、オーディオ処理システムの要素を示すブロック図である。この実装では、オーディオ処理システム200は、バッファ201、スイッチ203、脱相関器205および逆変換モジュール255を含む。スイッチ203はたとえば、クロスポイント・スイッチであってもよい。バッファ201はオーディオ・データ要素220aないし220nを受領し、オーディオ・データ要素220aないし220nをスイッチ203に転送し、オーディオ・データ要素220aないし220nのコピーを脱相関器205に送る。
この例では、オーディオ・データ要素220aないし220nは複数のオーディオ・チャネル1ないしNに対応する。ここで、オーディオ・データ要素220aないし220nは、レガシーのオーディオ・エンコードまたは処理システムであってもよいオーディオ・エンコードまたは処理システムのフィルタバンク係数に対応する周波数領域表現を含む。しかしながら、代替的な実装では、オーディオ・データ要素220aないし220nは複数の周波数帯域1ないしNに対応してもよい。
この実装では、オーディオ・データ要素220aないし220nの全部がスイッチ203および脱相関器205の両方によって受領される。ここで、オーディオ・データ要素220aないし220nの全部は脱相関器205によって処理されて、脱相関されたオーディオ・データ要素230aないし230nを生成する。さらに、脱相関されたオーディオ・データ要素230aないし230nの全部はスイッチ203によって受領される。
しかしながら、脱相関されたオーディオ・データ要素230aないし230nの全部が逆変換モジュール255によって受領され、時間領域オーディオ・データ260に変換されるのではない。その代わり、スイッチ203が、脱相関されたオーディオ・データ要素230aないし230nのどれが逆変換モジュール255によって受領されるかを選択する。この例において、スイッチ203は、チャネルに応じて、オーディオ・データ要素230aないし230nのどれが逆変換モジュール255によって受領されるかを選択する。ここで、たとえば、オーディオ・データ要素230aは逆変換モジュール255によって受領される一方、オーディオ・データ要素230nは受領されない。その代わり、スイッチ203は脱相関器205によって処理されていないオーディオ・データ要素230nを逆変換モジュール255に送る。
いくつかの実装では、スイッチ203は、チャネル1ないしNに対応するあらかじめ決定された諸設定に従って、直接のオーディオ・データ要素220または脱相関されたオーディオ・データ要素230のどちらを逆変換モジュール255に送るかを決定してもよい。代替的または追加的に、スイッチ203は、ローカルに生成または記憶されていても、あるいはオーディオ・データ220と一緒に受領されてもよい選択情報207のチャネル固有の成分に従って、オーディオ・データ要素220または脱相関されたオーディオ・データ要素230のどちらを逆変換モジュール255に送るかを決定してもよい。よって、オーディオ処理システム200は特定のオーディオ・チャネルの選択的な脱相関を提供してもよい。
代替的または追加的に、スイッチ203は、オーディオ・データ220における変化に従って、直接のオーディオ・データ要素220または脱相関されたオーディオ・データ要素230のどちらを逆変換モジュール255に送るかを決定してもよい。たとえば、スイッチ203は、もし送られるとすれば脱相関されたオーディオ・データ要素230のどれが逆変換モジュール255に送られるかを、選択情報207の信号適応的な成分に従って決定してもよい。選択情報207は、オーディオ・データ220における過渡成分またはトーン性の変化を示していてもよい。代替的な実装では、スイッチ203は脱相関器205からそのような信号適応的な情報を受領してもよい。さらに別の実装では、スイッチ203は、過渡成分またはトーン性変化のようなオーディオ・データの変化を判別するよう構成されていてもよい。よって、オーディオ処理システム200は、特定のオーディオ・チャネルの信号適応的な脱相関を提供してもよい。
上記のように、いくつかの実装では、オーディオ・データ要素220aないし220nは複数の周波数帯域1ないしNに対応してもよい。いくつかのそのような実装では、スイッチ203は、それらの周波数帯域に対応するあらかじめ決定された諸設定に従っておよび/または受領された選択情報207に従って、オーディオ・データ要素220または脱相関されたオーディオ・データ要素230のどちらを逆変換モジュール255に送るかを決定してもよい。よって、オーディオ処理システム200は特定の諸周波数帯域の選択的な脱相関を提供しうる。
代替的または追加的に、スイッチ203は、オーディオ・データ220における変化に従って、直接のオーディオ・データ要素220または脱相関されたオーディオ・データ要素230のどちらを逆変換モジュール255に送るかを決定してもよい。該変化は、選択情報207によって、あるいは脱相関器205から受領される情報によって示されてもよい。いくつかの実装では、スイッチ203は、オーディオ・データにおける変化を決定するよう構成されていてもよい。したがって、オーディオ処理システム200は特定の諸周波数帯域の信号適応的な脱相関を提供しうる。
図2Bは、図2Aのオーディオ処理システムによって実行されうる動作の概観を与えている。この例では、方法270は、複数のオーディオ・チャネルに対応するオーディオ・データを受領するプロセスをもって始まる(ブロック272)。オーディオ・データは、オーディオ・エンコードまたは処理システムのフィルタバンク係数に対応する周波数領域表現を含んでいてもよい。オーディオ・エンコードまたは処理システムはたとえば、AC-3またはE-AC-3のようなレガシーのオーディオ・エンコードまたは処理システムであってもよい。いくつかの実装は、レガシーのオーディオ・エンコードまたは処理システムによって生成されたビットストリーム中の制御機構要素、たとえばブロック切り換えの指示などを受領することに関わっていてもよい。脱相関プロセスは、少なくとも部分的には、該制御機構要素に基づいていてもよい。詳細な例は後述する。この例では、方法270は、オーディオ・データの少なくとも一部に脱相関プロセスを適用することにも関わる(ブロック274)。脱相関プロセスは、オーディオ・エンコードまたは処理システムによって使用される同じフィルタバンク係数を用いて実行されてもよい。
再び図2Aを参照するに、脱相関器205は、特定の実装に依存してさまざまな型の脱相関動作実行してもよい。多くの例が本稿で与えられる。いくつかの実装では、脱相関プロセスは、オーディオ・データ要素220の周波数領域表現の係数を別の周波数領域または時間領域表現に変換することなく実行される。脱相関プロセスは、周波数領域表現の少なくとも一部に線形フィルタを適用することによって残響信号または脱相関信号を生成することに関わっていてもよい。いくつかの実装では、脱相関プロセスは、完全に実数値の係数に作用する脱相関アルゴリズムを適用することに関わっていてもよい。本稿での用法では、「実数値の」は、コサインまたはサイン変調されたフィルタバンクの一方のみを使うことを意味する。
脱相関プロセスは、受領されたオーディオ・データ要素220aないし220nの一部に脱相関フィルタを適用してフィルタリングされたオーディオ・データ要素を生成することに関わっていてもよい。脱相関プロセスは、非階層的混合器を使って、空間的パラメータに従って、受領されたオーディオ・データの直接部分(これに対しては脱相関フィルタは適用されていない)を、フィルタリングされたオーディオ・データと組み合わせることに関わっていてもよい。たとえば、オーディオ・データ要素220aの直接部分が、出力チャネル固有の仕方で、オーディオ・データ要素220aのフィルタリングされた部分と混合されてもよい。いくつかの実装は、脱相関または残響信号の出力チャネル固有の組み合わせ器(たとえば線形組み合わせ器)を含んでいてもよい。さまざまな例は後述する。
いくつかの実装では、空間的パラメータは、受領されたオーディオ・データ220の解析に従ってオーディオ処理システム200によって決定されてもよい。代替的または追加的に、空間的パラメータはビットストリームにおいて、オーディオ・データ220と一緒に、脱相関情報240の一部または全部として、受領されてもよい。いくつかの実装では、脱相関情報240は、個々の離散的なチャネルと結合チャネルとの間の相関係数、個々の離散的なチャネルの間の相関係数、明示的なトーン性情報および/または過渡情報を含んでいてもよい。脱相関プロセスは、少なくとも部分的には脱相関情報240に基づいてオーディオ・データ220の少なくとも一部を脱相関することに関わっていてもよい。いくつかの実装は、ローカルに決定されたおよび受領された空間的パラメータ両方および/または他の脱相関情報を使うよう構成されていてもよい。さまざまな例は後述する。
図2Cは、代替的なオーディオ処理システムの要素を示すブロック図である。この例では、オーディオ・データ要素220aないし220nはN個のオーディオ・チャネルについてのオーディオ・データを含む。オーディオ・データ要素220aないし220nは、オーディオ・エンコードまたは処理システムのフィルタバンク係数に対応する周波数領域表現を含む。この実装では、周波数領域表現は、完璧な再構成、臨界サンプリングされたフィルタバンクを適用することの結果である。たとえば、周波数領域表現は、修正離散サイン変換、修正離散コサイン変換または重複直交変換(lapped orthogonal transform)を時間領域のオーディオ・データに適用することの結果であってもよい。
脱相関器205は、オーディオ・データ要素220aないし220nの少なくとも一部に脱相関プロセスを適用する。たとえば、脱相関プロセスは、オーディオ・データ要素220aないし220nの少なくとも一部に線形フィルタを適用することによって残響信号または脱相関信号を生成することに関わっていてもよい。脱相関プロセスは、少なくとも部分的には脱相関器205によって受領される脱相関情報240に従って実行されてもよい。たとえば、脱相関情報240は、オーディオ・データ要素220aないし220nの周波数領域表現と一緒に、ビットストリーム中で受領されてもよい。代替的または追加的に、少なくともいくつかの脱相関情報は、たとえば脱相関器205によって、ローカルに決定されてもよい。
逆変換モジュール255は、逆変換を適用して時間領域オーディオ・データ260を生成する。この例では、逆変換モジュール255は、完璧な再構成(perfect reconstruction)、臨界サンプリングされたフィルタバンクと等価な逆変換を適用する。完璧な再構成、臨界サンプリングされたフィルタバンクは、(たとえばエンコード装置によって)時間領域におけるオーディオ・データに適用されてオーディオ・データ要素220aないし220nの周波数領域表現を生成したものに対応していてもよい。
図2Dは、オーディオ処理システムにおいて脱相関器がどのように使用されうるかの例を示すブロック図である。この例では、オーディオ処理システム200は、脱相関器205を含むデコーダである。いくつかの実装では、デコーダは、AC-3またはE-AC-3オーディオ・コーデックに従って機能するよう構成されていてもよい。しかしながら、いくつかの実装では、オーディオ処理システムは、他のオーディオ・コーデックについてオーディオ・データを処理するよう構成されていてもよい。脱相関器205は、本稿の他所で記述されるもののようなさまざまなサブコンポーネントを含んでいてもよい。この例では、上方混合器225が、結合チャネルのオーディオ・データの周波数領域表現を含むオーディオ・データ210を受領する。周波数領域表現はこの例ではMDCT係数である。
上方混合器225は、各チャネルおよび結合チャネル周波数範囲について結合座標212をも受領する。この実装では、結合座標(coupling coordinates)212の形のスケーリング情報がドルビー・デジタルまたはドルビー・デジタル・プラス・エンコーダにおいて、指数‐仮数の形で計算されている。上方混合器225は、各出力チャネルについての周波数係数を、そのチャネルについて、結合チャネル周波数座標に結合座標を乗算することによって、計算してもよい。
この実装では、上方混合器225は、結合チャネル周波数範囲内の個々のチャネルの結合分離された(decoupled)MDCT係数を、脱相関器205に対して出力する。よって、この例では、脱相関器205に入力されるオーディオ・データ220はMDCT係数を含む。
図2Dに示される例では、脱相関器205によって出力される脱相関されたオーディオ・データ220は、脱相関されたMDCT係数を含む。この例では、オーディオ処理システム200によって受領されたオーディオ・データの全部が脱相関器205によっても脱相関されるのではない。たとえば、結合チャネル周波数範囲より下の周波数についてのオーディオ・データの周波数領域表現245aおよび結合チャネル周波数範囲より上の周波数についてのオーディオ・データの周波数領域表現245bは、脱相関器205によって脱相関されない。これらのデータは、脱相関器205から出力される脱相関されたMDCT係数230と一緒に、逆MDCTプロセス255に入力される。この例では、オーディオ・データ245bは、スペクトル拡張(Spectral Extension)ツールという、E-AC-3オーディオ・コーデックのオーディオ帯域幅拡張ツールによって決定されるMDCT係数を含む。
この例では、脱相関情報240が脱相関器205によって受領される。受領される脱相関情報240の型は実装によって変わりうる。いくつかの実装では、脱相関情報240は、明示的な、脱相関器固有の制御情報および/またはそのような制御情報の基礎をなしうる明示的な情報を含んでいてもよい。脱相関情報240はたとえば、個々の離散的なチャネルと結合チャネルとの間の相関係数および/または個々の離散的なチャネルの間の相関係数といった空間的パラメータを含んでいてもよい。そのような明示的な脱相関情報240は、トーン性情報および/または過渡情報をも含んでいてもよい。この情報は、少なくとも部分的には、脱相関器205についての脱相関フィルタ・パラメータを決定するために使われてもよい。
しかしながら、代替的な実装では、そのような明示的な脱相関情報240は脱相関器205によって受領されない。いくつかのそのような実装によれば、脱相関情報240はレガシー・オーディオ・コーデックのビットストリームからの情報を含んでいてもよい。たとえば、脱相関情報240は、AC-3オーディオ・コーデックまたはE-AC-3オーディオ・コーデックに従ってエンコードされたビットストリームにおいて利用可能である時間セグメンテーション情報を含んでいてもよい。脱相関情報240は、結合使用中(coupling-in-use)情報、ブロック切り換え(block-switching)情報、指数(exponent)情報、指数方針(exponent strategy)情報などを含んでいてもよい。そのような情報は、オーディオ処理システムによって、オーディオ・データ210と一緒に、ビットストリームにおいて受領されたものであってもよい。
いくつかの実装では、脱相関器205(またはオーディオ処理システム200の他の要素)は、空間的パラメータ、トーン性情報および/または過渡情報を、オーディオ・データの一つまたは複数の属性に基づいて決定してもよい。たとえば、オーディオ処理システム200は、結合チャネル周波数範囲内の周波数についての空間的パラメータを、結合チャネル周波数範囲の外側のオーディオ・データ245aまたは245bに基づいて、決定してもよい。代替的または追加的に、オーディオ処理システム200は、レガシーのオーディオ・コーデックのビットストリームからの情報に基づいてトーン性情報を決定してもよい。いくつかのそのような実装は後述する。
図2Eは、代替的なオーディオ処理システムの要素を示すブロック図である。この実装では、オーディオ処理システム200は、NからMの上方混合器/下方混合器262およびMからKの上方混合器/下方混合器264を含む。ここで、N個のオーディオ・チャネルについての変換係数を含むオーディオ・データ要素220aないし220nは、NからMの上方混合器/下方混合器262および脱相関器205によって受領される。
この例では、NからMの上方混合器/下方混合器262は、混合情報266に従ってNチャネルのオーディオ・データをMチャネルのオーディオ・データに上方混合または下方混合するよう構成されていてもよい。しかしながら、いくつかの実装では、NからMの上方混合器/下方混合器262は素通し要素であってもよい。そのような実装では、N=Mである。混合情報266はNからMの混合の式を含んでいてもよい。混合情報266はたとえば、オーディオ処理システム200によって、脱相関情報240、結合チャネルに対応する周波数領域表現などと一緒にビットストリームにおいて受領されてもよい。この例では、脱相関器205によって受領される脱相関情報240は、脱相関器205がMチャネルの脱相関されたオーディオ・データ230をスイッチ203に出力すべきであることを示す。
スイッチ203は、選択情報に従って、NからMの上方混合器/下方混合器262からの直接オーディオ・データまたは脱相関されたオーディオ・データ230のどちらがMからKの上方混合器/下方混合器264に転送されるかを決定してもよい。MからKの上方混合器/下方混合器264は、混合情報268に従って、Mチャネルのオーディオ・データをKチャネルのオーディオ・データに上方混合または下方混合するよう構成されていてもよい。そのような実装では、混合情報268はMからKへの混合の式を含んでいてもよい。N=Mである実装については、MからKの上方混合器/下方混合器264は、混合情報268に従って、Nチャネルのオーディオ・データをKチャネルのオーディオ・データに上方混合または下方混合してもよい。そのような実装では、混合情報268はNからKの混合の式を含んでいてもよい。混合情報268はたとえば、オーディオ処理システム200によって、脱相関情報240および他のデータと一緒にビットストリームにおいて受領されてもよい。
NからM、MからKまたはNからKの混合の式は、上方混合または下方混合の式でありうる。NからM、MからKまたはNからKの混合の式は、入力オーディオ信号を出力オーディオ信号にマッピングする線形結合係数の集合であってもよい。いくつかのそのような実装によれば、MからKへの混合の式は、ステレオ下方混合の式であってもよい。たとえば、MからKの上方混合器/下方混合器264は、混合情報268におけるMからKの混合の式に従って、4、5、6以上のチャネルのオーディオ・データを2チャネルのオーディオ・データに下方混合するよう構成されていてもよい。いくつかの実装では、左チャネル(「L」)、中央チャネル(「C」)および左サラウンド・チャネル(「Ls」)についてのオーディオ・データはMからKの混合の式に従って左ステレオ出力チャネルLoに組み合わされてもよい。右チャネル(「R」)、前記中央チャネル(「C」)および右サラウンド・チャネル(「Rs」)についてのオーディオ・データはMからKの混合の式に従って右ステレオ出力チャネルRoに組み合わされてもよい。たとえば、MからKの混合の式は、次のようなものであってもよい:
Lo=L+0.707C+0.707Ls
Ro=R+0.707C+0.707Rs
あるいはまた、MからKの混合の式は、次のようなものであってもよい:
Lo=L+−3dB*C+att*Ls
Ro=R+−3dB*C+att*Rs
ここで、attはたとえば−3dB、−6dB、−9dBまたは0のような値を表わす。N=Mである実装については、上記の式はNからKの混合の式と考えられてもよい。
この例において、脱相関器205によって受領される脱相関情報240は、Mチャネルについてのオーディオ・データがその後Kチャネルに上方混合または下方混合されることを示す。脱相関器205は、Mチャネルのデータがその後Kチャネルのオーディオ・データに上方混合または下方混合されるかどうかに依存して、異なる脱相関プロセスを使うよう構成されていてもよい。よって、脱相関器205は、少なくとも部分的にはMからKの混合の式に基づいて脱相関フィルタリング・プロセスを決定するよう構成されていてもよい。たとえば、Mチャネルがその後Kチャネルに下方混合される場合には、その後の下方混合において組み合わされるチャネルについて異なる脱相関フィルタが使用されてもよい。一つのそのような例によれば、脱相関情報240がL、R、LsおよびRsチャネルについてのオーディオ・データが2チャネルに下方混合されることを示す場合には、LおよびRチャネルの両方についてある脱相関フィルタが使用されてもよく、LsおよびRsチャネルの両方について別の脱相関フィルタが使用されてもよい。
いくつかの実装では、M=Kである。そのような実装では、MからKの上方混合器/下方混合器264は素通し要素であってもよい。
しかしながら、他の実装では、M>Kである。そのような実装において、MからKの上方混合器/下方混合器264は下方混合器として機能してもよい。いくつかのそのような実装によれば、脱相関された下方混合を生成する、より計算集約的でない方法が使用されてもよい。たとえば、脱相関器205は、スイッチ203が逆変換モジュール255に送るチャネルについてのみ脱相関されたオーディオ・データ230を生成するよう構成されていてもよい。たとえば、N=6およびM=2である場合、脱相関器205は、二つの下方混合されたチャネルのみについて脱相関されたオーディオ・データ230を生成するよう構成されていてもよい。このプロセスにおいて、脱相関器205は、6個ではなくたった2個のチャネルについて脱相関フィルタを使ってもよく、複雑さが軽減される。対応する混合情報は、脱相関情報240、混合情報266および混合情報268に含められてもよい。よって、脱相関器205は、少なくとも部分的には、NからM、NからKまたはMからKの混合の式に基づいて脱相関フィルタリング・プロセスを決定するよう構成されていてもよい。
図2Fは、脱相関器の要素の例を示すブロック図である。図2Fに示される要素は、図12を参照して後述する装置のようなデコード装置の論理システムにおいて実装されてもよい。図2Fは、脱相関信号生成器218および混合器215を含む脱相関器205を描いている。脱相関器205の他の要素の例およびそれらがどのように機能しうるかは、本稿の他所で記載される。
この例では、オーディオ・データ220が脱相関信号生成器218および混合器215に入力される。オーディオ・データ220は、複数のオーディオ・チャネルに対応していてもよい。たとえば、オーディオ・データ220は、オーディオ・エンコード・プロセスの間のチャネル結合から帰結する、脱相関器205によって受領される前に上方混合されたデータを含んでいてもよい。いくつかの実装では、オーディオ・データ220は時間領域であってもよく、他の実施形態では、オーディオ・データ220は周波数領域であってもよい。たとえば、オーディオ・データ220は変換係数の時間シーケンスを含んでいてもよい。
脱相関信号生成器218は、一つまたは複数の脱相関フィルタを形成し、該脱相関フィルタをオーディオ・データ220に適用し、結果として得られる脱相関信号227を混合器215に提供してもよい。この例では、混合器はオーディオ・データ220を脱相関信号227と組み合わせて脱相関されたオーディオ・データ230を生成する。
いくつかの実施形態では、脱相関信号生成器218は、脱相関フィルタについての脱相関フィルタ制御情報を決定してもよい。いくつかのそのような実施形態によれば、脱相関フィルタ制御情報は、脱相関フィルタの最大極変位に対応していてもよい。脱相関信号生成器218は、少なくとも部分的には脱相関フィルタ制御情報に基づいてオーディオ・データ220についての脱相関フィルタ・パラメータを決定してもよい。
いくつかの実装では、脱相関フィルタ制御情報の決定は、脱相関フィルタ制御情報の明示的な指標(たとえば、最大極変位の明示的な指標)をオーディオ・データ220と一緒に受領することに関わっていてもよい。代替的な実装では、脱相関フィルタ制御情報の決定は、オーディオ特性情報を決定し、少なくとも部分的には該オーディオ特性情報に基づいて脱相関フィルタ・パラメータ(たとえば最大極変位)を決定することに関わっていてもよい。いくつかの実装では、オーディオ特性情報は、空間的情報、トーン性情報および/または過渡情報を含んでいてもよい。
脱相関器205のいくつかの実装について、ここで図3〜図5Eを参照してより詳細に述べる。図3は、脱相関プロセスの例を示す流れ図である。図4は、図3の脱相関プロセスを実行するよう構成されうる脱相関器コンポーネントの例を示すブロック図である。図3の脱相関プロセス300は、少なくとも部分的には、図12を参照して後述するようなデコード装置において実行されうる。
この例では、プロセス300は、脱相関器がオーディオ・データを受領するときに始まる(ブロック305)。図2Fを参照して上記したように、オーディオ・データは、脱相関器205の脱相関信号生成器218および混合器215によって受領されてもよい。ここで、オーディオ・データの少なくとも一部は図2Dの上方混合器225のような上方混合器から受領される。よって、オーディオ・データは複数のオーディオ・チャネルに対応する。いくつかの実装では、脱相関器によって受領されるオーディオ・データは、各チャネルの結合チャネル周波数範囲内のオーディオ・データの周波数領域表現(たとえばMDCT係数)の時間シーケンスを含んでいてもよい。代替的な実装では、オーディオ・データは時間領域であってもよい。
ブロック310では、脱相関フィルタ制御情報が決定される。脱相関フィルタ制御情報はたとえば、オーディオ・データのオーディオ特性に従って決定されてもよい。図4に示される例のようないくつかの実装では、そのようなオーディオ特性は、オーディオ・データと一緒にエンコードされた、明示的な空間的情報、トーン性情報および/または過渡情報を含んでいてもよい。
図4に示した実施形態では、脱相関フィルタ410は、固定した遅延415および時間変化する部分420を含む。この例では、脱相関信号生成器218は、脱相関フィルタ410の時間変化する部分420を制御するための脱相関フィルタ制御モジュール405を含む。この例では、脱相関フィルタ制御モジュール405は、トーン性フラグの形の明示的なトーン性情報425を受領する。この実装では、脱相関フィルタ制御モジュール405は明示的な過渡情報430をも受領する。いくつかの実装では、明示的なトーン性情報425および/または明示的な過渡情報430は、オーディオ・データと一緒に、たとえば脱相関情報240の一部として、受領されてもよい。いくつかの実装では、明示的なトーン性情報425および/または明示的な過渡情報430はローカルに生成されてもよい。
いくつかの実装では、明示的な空間的情報、トーン性情報または過渡情報は脱相関器205によって受領されない。いくつかのそのような実装では、脱相関器205の過渡制御モジュール(またはオーディオ処理システムの別の要素)は、オーディオ・データの一つまたは複数の属性に基づいて過渡情報を決定するよう構成されていてもよい。脱相関器205の空間的パラメータ・モジュールは、オーディオ・データの一つまたは複数の属性に基づいて空間的パラメータを決定するよう構成されていてもよい。いくつかの例は本稿の他書で述べられる。
図3のブロック315では、当該オーディオ・データについての脱相関フィルタ・パラメータが、少なくとも部分的には、ブロック310において決定された脱相関フィルタ制御情報に基づいて決定される。次いで、ブロック320に示されるように、脱相関フィルタ・パラメータに従って脱相関フィルタが形成されてもよい。該フィルタはたとえば、少なくとも一つの遅延要素をもつ線形フィルタであってもよい。いくつかの実装では、該フィルタは少なくとも部分的には有理型関数(meromorphic function)に基づいていてもよい。たとえば、該フィルタは全通過フィルタを含んでいてもよい。
図4に示される実装では、脱相関フィルタ制御モジュール405は、少なくとも部分的には、ビットストリーム中で脱相関器205によって受領されたトーン性フラグ425および/または明示的な過渡情報430に基づいて、脱相関フィルタ410の時間変化する部分420を制御しうる。いくつかの例は後述する。この例では、脱相関フィルタ410は、結合チャネル周波数範囲内のオーディオ・データに適用されるのみである。
この実施形態では、脱相関フィルタ410は、固定した遅延415を含んでおり、それに時間変化する部分420が続く。これはこの例では全通過フィルタである。いくつかの実施形態では、脱相関信号生成器218は全通過フィルタのバンクを含んでいてもよい。たとえば、オーディオ・データ220が周波数領域であるいくつかの実施形態では、脱相関信号生成器218は、複数の周波数ビンのそれぞれについて全通過フィルタを含んでいてもよい。しかしながら、代替的な実装では、各周波数ビンに同じフィルタが適用されてもよい。あるいはまた、周波数ビンはグループ化されてもよく、各グループに同じフィルタが適用されてもよい。たとえば、周波数ビンは周波数帯域にグループ化されてもよく、チャネルによってグループ化されてもよく、および/または周波数帯域およびチャネルによってグループ化されてもよい。
固定された遅延の量は、たとえば論理デバイスによっておよび/またはユーザー入力に従って選択可能であってもよい。制御されたカオスを脱相関信号227中に導入するために、脱相関フィルタ制御405は、全通過フィルタ(単数または複数)の極を制御して極の一つまたは複数がランダムにまたは擬似ランダムに制約された領域内で動くよう、脱相関フィルタ・パラメータを適用してもよい。
よって、脱相関フィルタ・パラメータは、全通過フィルタの少なくとも一つの極を動かすためのパラメータを含んでいてもよい。そのようなパラメータは、全通過フィルタの一つまたは複数の極をディザリングするためのパラメータを含んでいてもよい。あるいはまた、脱相関フィルタ・パラメータは、全通過フィルタの各極についての複数のあらかじめ決定された極位置のうちからある極位置を選択するためのパラメータを含んでいてもよい。あらかじめ決定された時間間隔で(たとえば、ドルビー・デジタル・プラスのブロック毎に一回)、全通過フィルタの各極についての新たな位置がランダムにまたは擬似ランダムに選ばれてもよい。
いくつかのそのような実装についてここで図5A〜図5Eを参照して述べる。図5Aは、全通過フィルタの極を動かす例を示すグラフである。グラフ500は、三次の全通過フィルタの極プロットである。この例において、フィルタは二つの複素極(極505aおよび505c)および一つの実極(極505b)をもつ。大きな円は単位円515である。時間とともに、極位置は、それぞれ極505a、505bおよび505cの可能な経路を制約する制約エリア510a、510bおよび510c内で動くよう、ディザリングされる(または他の仕方で変更される)。
この例では、制約エリア510a、510bおよび510cは円形である。極505a、505bおよび505cの初期(または「シード」)位置は、制約エリア510a、510bおよび510cの中心において円によって示されている。図5Aの例では、制約エリア510a、510bおよび510cは、初期の極位置を中心とする半径0.2の円である。極505aおよび505cは共役複素対に対応し、一方、極505bは実極である。
しかしながら、他の実装は、より多数またはより少数の極を含んでいてもよい。代替的な実装は、異なるサイズまたは形状の制約エリアを含んでいてもよい。いくつかの例は図5Dおよび5Eに示されており、後述する。
いくつかの実装では、オーディオ・データの異なるチャネルが同じ制約エリアを共有する。しかしながら、代替的な実装では、オーディオ・データのチャネルは同じ制約エリアを共有しない。オーディオ・データのチャネルが同じ制約エリアを共有するか否かによらず、極は各オーディオ・チャネルについて独立してディザリングされうる(または他の仕方で動かされうる)。
極505aの見本の軌跡が制約エリア510a内で矢印によって示されている。各矢印は極505aの移動または「ストライド」520を表わす。図5Aには示されていないが、複素共役対の二つの極である極505aおよび505cは一緒に動き、よってこれらの極はその共役関係を保持する。
いくつかの実装では、極の動きは、最大ストライド値を変えることによって制御されてもよい。最大ストライド値は、最も最近の極位置からの最大の極変位に対応してもよい。最大ストライド値は、該最大ストライド値に等しい半径をもつ円を定義しうる。
一つのそのような例が図5Aに示されている。極505aはその初期位置からストライド520aだけ変位させられて位置505a’にくる。ストライド520aは、前の最大ストライド値、たとえば初期の最大ストライド値に従って制約されていたことがある。極505aがその初期位置から位置505a’に動いたのち、新たな最大ストライド値が決定される。最大ストライド値は、該最大ストライド値に等しい半径をもつ最大ストライド円525を定義する。図5Aに示した例では、次のストライド(ストライド520b)はたまたま最大ストライド値に等しくなる。したがって、ストライド520bは極を、最大ストライド円525の周上にある位置505a’’に動かす。しかしながら、ストライド520は一般には最大ストライド値より小さくてもよい。
いくつかの実装では、最大ストライド値は各ストライド後に再設定されてもよい。他の実装では、最大ストライド値は、複数のストライド後におよび/またはオーディオ・データにおける変化に従って再設定されてもよい。
最大ストライド値は、さまざまな仕方で決定および/または制御されてもよい。いくつかの実装では、最大ストライド値は、少なくとも部分的には、脱相関フィルタが適用されることになるオーディオ・データの一つまたは複数の属性に基づいていてもよい。
たとえば、最大ストライド値は少なくとも部分的には、トーン性情報および/または過渡情報に基づいていてもよい。いくつかのそのような実装によれば、最大ストライド値は、(調子笛、ハープシコードなどについてのオーディオ・データのような)当該オーディオ・データのきわめてトーン性の信号については0またはほぼ0であってもよい。これは極の変動がほとんど起こらないことになる。いくつかの実装では、最大ストライド値は、(爆発、ドアがピシャリと閉まることなどについてのオーディオ・データのような)過渡信号におけるアタックの瞬間には0またはほぼ0であってもよい。その後(たとえば数ブロックの時間期間にわたって)最大ストライド値はより大きな値にランプ状に増加させられてもよい。
いくつかの実装では、トーン性および/または過渡情報がデコーダにおいて、オーディオ・データの一つまたは複数の属性に基づいて検出されてもよい。たとえば、トーン性および/または過渡情報は、制御情報受領器/生成器640のようなモジュール(図6Bおよび6Cを参照して後述)によってオーディオの一つまたは複数の属性に従って決定されてもよい。あるいはまた、明示的なトーン性および/または過渡情報は、エンコーダから送信され、デコーダによってビットストリーム中で、たとえばトーン性および/または過渡フラグを介して、受領されてもよい。
この実装では、極の動きは、ディザリング・パラメータに従って制御されてもよい。よって、極の動きは最大ストライド値に従って制約されうる一方、極動きの方向および/または程度はランダムまたは擬似ランダムな成分を含みうる。たとえば、極の動きは、少なくとも部分的には、ソフトウェアで実装される乱数発生器または擬似乱数発生器アルゴリズムの出力に基づいていてもよい。そのようなソフトウェアは、非一時的な媒体上に記憶され、論理システムによって実行されてもよい。
しかしながら、代替的な実装では、脱相関フィルタ・パラメータはディザリング・パラメータに関わらなくてもよい。代わりに、極の動きは、あらかじめ決定された極位置に制約されてもよい。たとえば、いくつかのあらかじめ決定された極位置が、最大ストライド値によって定義された半径内にあってもよい。論理システムは、これらのあらかじめ決定された極位置の一つを、次の極位置としてランダムまたは擬似ランダムに選択してもよい。
さまざまな他の方法が極動きを制御するために用いられてもよい。いくつかの実装では、極が制約エリアの境界に近づきつつある場合、極動きの選択は、制約エリアの中心により近い新たな極位置のほうにバイアスをかけられてもよい。たとえば、極505aが制約エリア510aの境界のほうに動く場合、最大ストライド円525の中心は制約エリア510aの中心のほうに向けて内側にシフトされてもよい。それにより、最大ストライド円525は常に制約エリア510aの境界内になる。
いくつかのそのような実装では、制約エリア境界から離れるように極位置を動かす傾向があるバイアスを生成するために、重み関数が適用されてもよい。たとえば、最大ストライド円525内のあらかじめ決定された極位置は、次の極位置として選択される等しい確率を与えられなくてもよい。その代わり、制約エリアの中心により近いあらかじめ決定された極位置は、制約エリアの中心から相対的により遠いあらかじめ決定された極位置より、高い確率を割り当てられてもよい。いくつかのそのような実装によれば、極505aが制約エリア510aの境界に近いとき、次の極動きは制約エリア510aの中心に向かうものとなる可能性がより高くなる。
この例では、極505bの位置も変わるが、極505bが実のままであり続けるよう制御される。よって、極505bの位置は、制約エリア510bの直径530上に載るよう制約される。しかしながら、代替的な実装では、極505bは、虚成分をもつ位置に動かされてもよい。
さらに他の実装では、すべての極の位置が動径に沿ってのみ動くよう制約されてもよい。いくつかのそのような実装では、極位置における変化は、(絶対値の点で)極を増大させるまたは減少させるだけで、その位相には影響しない。そのような実装はたとえば、選択された残響時定数を付与するために有用であることがある。
より高い周波数に対応する周波数係数についての極は、より低い周波数に対応する周波数係数についての極より、単位円515の中心に相対的により近くてもよい。例示的な実装を例解するために、図5Aの変形である図5Bを使う。ここでは、所与の時点において、三角形505a’’’、505b’’’および505c’’’は、ディザリングまたはそれらの時間変動を記述する他の何らかのプロセス後に得られる周波数f0での極位置を示す。505a’’’にある極をz1で示し、505b’’’にある極をz2で示すことにする。505c’’’にある極は505a’’’にある極の複素共役であり、よってz1 *によって表わされる。ここで、アステリスクは複素共役を表わす。
他の任意の周波数fで使われるフィルタについての極は、この例では、極z1、z2およびz1 *を因子a(f)/a(f0)によってスケーリングすることによって得られる。ここで、a(f)はオーディオ・データ周波数fとともに減少する関数である。f=f0のとき、スケーリング因子は1に等しく、これらの極は期待された位置にある。いくつかのそのような実装によれば、より低い周波数に対応する周波数係数よりも高い周波数に対応する周波数係数に対して、より小さな群遅延が適用されてもよい。ここで記載される実施形態では、これらの極は、ある周波数ではディザリングされ、他の諸周波数についての極位置を得るためにスケーリングされる。周波数f0はたとえば結合開始周波数であることができる。代替的な実装では、これらの極は各周波数において別個にディザリングされることができ、制約エリア(510a、510bおよび510c)は、より低い周波数に比べより高い周波数においては、実質的に原点により近くてもよい。
本稿に記載されるさまざまな実装によれば、極505は可動であってもよいが、互いと実質的に一貫した空間的または角度的な関係を維持してもよい。いくつかのそのような実装では、極505の動きは制約エリアに従って制限されなくてもよい。
図5Cは一つのそのような例を示している。この例では、複素共役極505aおよび505cは、単位円515内で時計回りまたは反時計回りの方向に可動であってもよい。極505aおよび505cが(たとえばあらかじめ決定された時間間隔で)動かされるとき、両方の極は、ランダムまたは擬似ランダムに選択される角度θだけ回転されてもよい。いくつかの実施形態では、この角度動きは最大角度ストライド値に従って制約されてもよい。図5Cに示される例では、極505aは角度θだけ時計回りの方向に動かされている。よって、極505cは、極505aと極505cの間の複素共役関係を維持するために、反時計回りの方向に角度θだけ動かされている。
この例では、極505bは実軸に沿って動くよう制約されている。いくつかのそのような実装では、極505aおよび505cは、たとえば図5Bを参照して上記したように、単位円515の中心に向かってまたは該中心から離れる方向に可動であってもよい。さらに他の実装では、極505bは実軸から動かされてもよい。
図5Aおよび5Bに示した例では、制約エリア510a、510bおよび510cは円形である。しかしながら、さまざまな他の制約エリア形状が発明者によって考えられている。たとえば、図5Dの制約エリア510dは実質的に楕円の形である。極505dは楕円の制約エリア510d内のさまざまな位置に位置されてもよい。図5Eの例では、制約エリア510eは円環である。極505eは、制約エリア510dの円環内のさまざまな位置に位置されてもよい。
ここで図3に戻ると、ブロック325では、脱相関フィルタがオーディオ・データの少なくとも一部に適用される。たとえば、図4の脱相関信号生成器218は入力オーディオ・データ220の少なくとも一部に脱相関フィルタを適用してもよい。脱相関フィルタの出力227は、入力オーディオ・データ220と無相関であってもよい。さらに、脱相関フィルタの出力は、入力信号と実質的に同じパワースペクトル密度を有していてもよい。したがって、脱相関フィルタの出力227は自然に聞こえうる。ブロック330では、脱相関フィルタの出力が入力オーディオ・データと混合される。ブロック335では、脱相関されたオーディオ・データが出力される。図4の例では、ブロック330において、混合器215は脱相関フィルタの出力227(これは本稿では「フィルタリングされたオーディオ・データ」と称されることがある)を入力オーディオ・データ220(これは本稿では「直接オーディオ・データ」と称されることがある)と組み合わせる。ブロック335では、混合器215は脱相関されたオーディオ・データ230を出力する。ブロック340においてさらなるオーディオ・データが処理されることが判別される場合には、脱相関プロセス300はブロック305に戻る。そうでない場合には、脱相関プロセス300は終了する(ブロック345)。
図6Aは、脱相関器の代替的な実装を示すブロック図である。この例では、混合器215および脱相関信号生成器218は、複数のチャネルに対応するオーディオ・データ要素220を受領する。オーディオ・データ要素220の少なくとも一部はたとえば、図2Dの上方混合器225のような上方混合器から出力されてもよい。
ここで、混合器215および脱相関信号生成器218は、さまざまな型の脱相関情報をも受領する。いくつかの実装では、脱相関情報の少なくとも一部は、オーディオ・データ要素220と一緒にビットストリームにおいて受領されてもよい。代替的または追加的に、脱相関情報の少なくとも一部は、たとえば脱相関器205の他のコンポーネントによってまたはオーディオ処理システム200の一つまたは複数の他のコンポーネントによってローカルに決定されてもよい。
この例では、受領される脱相関情報は、脱相関信号生成器制御情報625を含む。脱相関信号生成器制御情報625は、脱相関フィルタ情報、利得情報、入力制御情報などを含んでいてもよい。脱相関信号生成器は、少なくとも部分的には、脱相関信号生成器制御情報625に基づいて脱相関信号227を生成する。
ここで、受領される脱相関情報は、過渡制御情報430をも含む。脱相関器205が過渡制御情報430をどのように使用および/または生成しうるかのさまざまな例が本開示の他所で与えられている。
この実装では、混合器215は、合成器605および直接信号および脱相関信号混合器610を含む。この例では、合成器605は、脱相関信号生成器218から受領される脱相関信号227のような脱相関または残響信号の、出力チャネル固有の組み合わせ器である。いくつかのそのような実装によれば、合成器605は、脱相関または残響信号の線形組み合わせ器であってもよい。この例では、脱相関信号227は、脱相関信号生成器によって一つまたは複数の脱相関フィルタが適用された、複数のチャネルについてのオーディオ・データ要素220に対応する。よって、脱相関信号227は本稿では「フィルタリングされたオーディオ・データ」または「フィルタリングされたオーディオ・データ要素」と称されることもある。
ここで、直接信号および脱相関信号混合器610は、フィルタリングされたオーディオ・データ要素の、複数のチャネルに対応する「直接」オーディオ・データ要素220との出力チャネル固有の組み合わせ器であり、脱相関されたオーディオ・データ230を生成するものである。よって、脱相関器205は、オーディオ・データの、チャネル固有の、非階層的脱相関を提供しうる。
この例では、合成器605は、脱相関信号合成パラメータ615(これは本稿では「脱相関信号合成係数」と称されることもある)に従って脱相関信号227を組み合わせる。同様に、直接信号および脱相関信号混合器610は、直接およびフィルタリングされたオーディオ・データ要素を、混合係数620に従って組み合わせる。脱相関信号合成パラメータ615および混合係数620は、少なくとも部分的には受領された情報に基づいていてもよい。
ここで、受領される脱相関情報は空間的パラメータ情報630を含み、これはこの例ではチャネル固有である。いくつかの実装では、混合器215は、脱相関信号合成パラメータ615および/または混合係数620を、少なくとも部分的には空間的パラメータ情報630に基づいて決定するよう構成されていてもよい。この例では、受領される脱相関情報は、下方混合/上方混合情報635をも含んでいる。たとえば、下方混合/上方混合情報635は、結合チャネル周波数範囲内の一つまたは複数の結合チャネルに対応していてもよい下方混合されたオーディオ・データを生成するためにいくつのチャネルのオーディオ・データが組み合わされたかを示してもよい。下方混合/上方混合情報635は、所望される出力チャネルの数および/またはそれらの出力チャネルの特性をも示してもよい。図2Eを参照して上記したように、いくつかの実装では、下方混合/情報混合情報635は、NからMの上方混合器/下方混合器262によって受領された混合情報266および/またはMからKの上方混合器/下方混合器264によって受領された混合情報268に対応する情報を含んでいてもよい。
図6Bは、脱相関器のもう一つの実装を示すブロック図である。この例では、脱相関器205は制御情報受領器/生成器640を含む。ここで、制御情報受領器/生成器640は、オーディオ・データ要素220および245を受領する。この例では、対応するオーディオ・データ要素220は混合器215および脱相関信号生成器218によっても受領される。いくつかの実装では、オーディオ・データ要素220は結合チャネル周波数範囲内のオーディオ・データに対応してもよい。ここで、オーディオ・データ要素245は、結合チャネル周波数範囲の外の一つまたは複数の周波数範囲にあるオーディオ・データに対応してもよい。
この実装では、制御情報受領器/生成器640は、脱相関信号生成器制御情報625および混合器制御情報645を脱相関情報240および/またはオーディオ・データ要素220および/または245に従って決定する。制御情報受領器/生成器640およびその機能のいくつかの例は後述する。
図6Cは、オーディオ処理システムのある代替的な実装を示している。この例では、オーディオ処理システム200は脱相関器205、スイッチ203および逆変換モジュール255を含む。いくつかの実装では、スイッチ203および逆変換モジュール255は、実質的に、図2Aを参照して上記したようなものであってもよい。同様に、混合器215および脱相関信号生成器は実質的に本稿の他所で記載したようなものであってもよい。
制御情報受領器/生成器640は、個別的な実装により異なる機能をもちうる。この実装では、制御情報受領器/生成器640は、フィルタ制御モジュール650、過渡制御モジュール655、混合器制御モジュール660および空間的パラメータ・モジュール665を含む。オーディオ処理システム200の他のコンポーネントと同様に、制御情報受領器/生成器640の要素は、ハードウェア、ファームウェア、非一時的媒体上に記憶されているソフトウェアおよび/またはそれらの組み合わせを介して実装されてもよい。いくつかの実装では、これらのコンポーネントは、本開示の他所で記述されるような論理システムによって実装されてもよい。
フィルタ制御モジュール650はたとえば、図2E〜図5Eを参照して上記したおよび/または図11Bを参照して後述される脱相関信号生成器を制御するよう構成されていてもよい。過渡制御モジュール655および混合器制御モジュール660の機能のさまざまな例は後述する。
この例では、制御情報受領器/生成器640は、オーディオ・データ要素220および245を受領する。これはスイッチ203および/または脱相関器205によって受領されるオーディオ・データの少なくとも一部を含んでいてもよい。オーディオ・データ要素220は混合器215および脱相関信号生成器218によって受領される。いくつかの実装では、オーディオ・データ要素220は、結合チャネル周波数範囲内のオーディオ・データに対応してもよい。一方、オーディオ・データ要素245は結合チャネル周波数範囲の外の周波数範囲にあるオーディオ・データに対応してもよい。たとえば、オーディオ・データ要素245は、結合チャネル周波数範囲より上および/または下の周波数範囲にあるオーディオ・データに対応してもよい。
この実装では、制御情報受領器/生成器640は、脱相関信号生成器制御情報625および混合器制御情報645を、脱相関情報240、オーディオ・データ要素220および/またはオーディオ・データ要素245に従って決定する。制御情報受領器/生成器640は、脱相関信号生成器制御情報625および混合器制御情報645をそれぞれ脱相関信号生成器218および混合器215に提供する。
いくつかの実装では、制御情報受領器/生成器640は、トーン性情報を決定し、脱相関信号生成器制御情報625および/または混合器制御情報645を、少なくとも部分的には該トーン性情報に基づいて決定するよう構成されていてもよい。たとえば、制御情報受領器/生成器640は、トーン性フラグのような明示的なトーン性情報を介して明示的なトーン性情報を脱相関情報240の一部として受領するよう構成されていてもよい。制御情報受領器/生成器640は、受領された明示的なトーン性情報を処理して、トーン性制御情報を決定するよう構成されていてもよい。
たとえば、制御情報受領器/生成器640が、結合チャネル周波数範囲内のオーディオ・データがきわめてトーン性であると判別する場合には、制御情報受領器/生成器640は、最大ストライド値が0またはほぼ0に設定されるべきであることを示す脱相関信号生成器制御情報625を提供するよう構成されていてもよい。そのような値では極における変動がほとんどまたは全く起こらない。その後(たとえば数ブロックの時間期間にわたって)最大ストライド値はより大きな値にランプ状に増大させられてもよい。いくつかの実装では、制御情報受領器/生成器640が結合チャネル周波数範囲内のオーディオ・データがきわめてトーン性であることを判別する場合、制御情報受領器/生成器640は、空間的パラメータ・モジュール665に対して、空間的パラメータの推定において使われるエネルギーのようなさまざまな量の計算において、相対的により高い度合いの平滑化が適用されてもよいことを示すよう構成されていてもよい。きわめてトーン性のオーディオ・データを判別することへの応答の他の例は、本稿の他所で与えられる。
いくつかの実装では、制御情報受領器/生成器640は、オーディオ・データ220の一つまたは複数の属性に従って、および/または、指数情報および/または指数方針情報のような脱相関情報240を介して受領されるレガシー・オーディオ・コードのビットストリームからの情報に従って、トーン性情報を決定するよう構成されていてもよい。
たとえば、E-AC-3オーディオ・コーデックに従ってエンコードされるオーディオ・データのビットストリームにおいては、変換係数についての指数は差分符号化される(differentially coded)。ある周波数範囲内の絶対的な指数差の和は、対数絶対値領域における当該信号のスペクトル・エンベロープに沿って進む距離の指標である。調子笛およびハープシコードのような信号は、くい柵(picket fence)スペクトルをもち、よってこの距離を測る際に進む経路は多くのピークおよび谷によって特徴付けられる。よって、そのような信号については、同じ周波数範囲内のスペクトル・エンベロープに沿って進む距離は、比較的平坦なスペクトルをもつたとえば拍手や雨に対応するオーディオ・データについての信号についてよりも、大きくなる。
したがって、いくつかの実装では、制御情報受領器/生成器640は、トーン性メトリックを、少なくとも部分的には、結合チャネル周波数範囲内の指数差に従って決定するよう構成されていてもよい。たとえば、制御情報受領器/生成器640は、トーン性メトリックを、結合チャネル周波数範囲内の平均絶対指数差に基づいて決定するよう構成されていてもよい。いくつかのそのような実装によれば、トーン性メトリックは、結合指数方針(coupling exponent strategy)がフレーム内のすべてのブロックについて共有され、指数周波数共有(exponent frequency sharing)を示さないときに計算されるだけである。この場合には、ある周波数ビンから次の周波数ビンにかけての指数差を定義することに意味がある。いくつかの実装によれば、トーン性メトリックは、E-AC-3の適応ハイブリッド変換(AHT: adaptive hybrid transform)フラグが結合チャネルについてセットされている場合に計算されるだけである。
トーン性メトリックがE-AC-3オーディオ・データの絶対指数差として決定される場合、いくつかの実装では、トーン性メトリックは0から2までの間の値を取ってもよい。E-AC-3に従って許容される指数差は−2、−1、0、1、2だけだからである。一つまたは複数のトーン性閾値が、トーン性および非トーン性信号を区別するために設定されてもよい。たとえば、いくつかの実装は、トーン性状態にはいるための一つの閾値およびトーン性状態を出るためのもう一つの閾値を設定することに関わる。トーン性状態を出るための閾値は、トーン性状態にはいるための閾値より低くてもよい。そのような実装は、ある程度のヒステリシスを提供し、それにより上の閾値よりわずかに低いトーン性値が意図せずしてトーン性状態の変化を引き起こすことがなくなる。一例では、トーン性状態を出るための閾値は0.40であり、一方、トーン性状態にはいるための閾値は0.45である。しかしながら、他の実装はより多くのまたはより少数の閾値を含んでいてもよく、それらの閾値は異なる値を有していてもよい。
いくつかの実装では、トーン性メトリック計算は、信号中に存在するエネルギーに従って重み付けされてもよい。このエネルギーは、指数から直接導出されてもよい。対数エネルギー・メトリックは、指数に反比例してもよい。指数はE-AC-3では2の負冪として表現されるからである。そのような実装によれば、スペクトルのうちエネルギーが低い部分は、スペクトルのうちエネルギーが高い部分より、全体的なトーン性メトリックへの寄与が少なくなる。いくつかの実装では、トーン性メトリック計算は、フレームのブロック0に対して実行されるだけであってもよい。
図6Cに示される例では、混合器215からの脱相関されたオーディオ・データ230はスイッチ203に与えられる。いくつかの実装では、スイッチ203は、直接オーディオ・データ220および脱相関されたオーディオ・データ230のどちらが逆変換モジュール255に送られるかを決定してもよい。よって、いくつかの実装では、オーディオ処理システム200は、オーディオ処理システム200はオーディオ・データ成分の選択的または信号適応的な脱相関を提供しうる。たとえば、いくつかの実装では、オーディオ処理システム200は、オーディオ・データの特定の諸チャネルの選択的または信号適応的な脱相関を提供しうる。代替的または追加的に、いくつかの実装では、オーディオ処理システム200は、オーディオ・データの特定の諸周波数帯域の選択的または信号適応的な脱相関を提供しうる。
オーディオ処理システム200のさまざまな実装において、制御情報受領器/生成器640は、オーディオ・データ220の一つまたは複数の型の空間的パラメータを決定するよう構成されていてもよい。いくつかの実装では、少なくとも一部のそのような機能は、図6Cに示される空間的パラメータ・モジュール665によって提供されてもよい。いくつかのそのような空間的パラメータは、個々の離散的チャネルと結合チャネルとの間の相関係数であってもよく、これは本稿では「アルファ」と称されることもある。たとえば、結合チャネルが四つのチャネルについてのオーディオ・データを含む場合、四つのアルファがあることがある。各チャネルについて一つのアルファである。いくつかのそのような実装では、四つのチャネルは左チャネル(「L」)、右チャネル(「R」)、左サラウンド・チャネル(「Ls」)および右サラウンド・チャネル(「Rs」)であってもよい。いくつかの実装では、結合チャネルは上記のチャネルおよび中央チャネルについてのオーディオ・データを含んでいてもよい。アルファは、中央チャネルが脱相関されるかどうかに依存して、中央チャネルについて計算されてもされなくてもよい。他の実装はより多数またはより少数のチャネルに関わっていてもよい。
他の空間的パラメータは、個々の離散的なチャネルの対の間の相関を示すチャネル間相関係数であってもよい。そのようなパラメータは本稿では時に「チャネル間コヒーレンス(inter-channel coherence)」または「ICC」を反映していると称されることがある。上記の四チャネルの例では、L-R対、L-Ls対、L-Rs対、R-Ls対、R-Rs対およびLs-Rs対について六つのICC値が関わっていてもよい。
いくつかの実装では、制御情報受領器/生成器640による空間的パラメータの決定は、たとえば脱相関情報240を介してビットストリーム中で明示的な空間的パラメータを受領することに関わっていてもよい。代替的または追加的に、制御情報受領器/生成器640は、少なくともいくつかの空間的パラメータを推定するよう構成されていてもよい。制御情報受領器/生成器640は、少なくとも部分的には空間的パラメータに基づいて混合パラメータを決定するよう構成されていてもよい。よって、いくつかの実装では、空間的パラメータの決定および処理に関係する機能は、少なくとも部分的には混合器制御モジュール660によって実行されてもよい。
図7Aおよび7Bは、空間的パラメータの簡略化された図解を提供するベクトル図である。図7Aおよび7Bは、N次元ベクトル空間における信号の3D概念表現と考えられてもよい。各N次元ベクトルは、そのN個の座標が任意のN個の独立な試行に対応する実数値または複素数値のランダム変数を表わしていてもよい。たとえば、N個の座標は、ある周波数範囲内および/またはある時間期間内(たとえば数オーディオ・ブロックの間)の信号のN個の周波数領域係数の集合に対応してもよい。
まず図7Aの左パネルを参照するに、このベクトル図は、左入力チャネルlin、右入力チャネルrinおよびlinとrinを合計することによって形成されるモノ・ダウンミックスである結合チャネルxmonoの間の空間的関係を表わす。図7Aは、エンコード装置によって実行されうる結合チャネルを形成する簡略化された例である。左入力チャネルlinと結合チャネルxmonoの間の相関係数はαLであり、右入力チャネルrinと結合チャネルの間の相関係数はαRである。よって、左入力チャネルlinと結合チャネルxmonoを表わすベクトルの間の角度θLはarccos(αL)に等しく、右入力チャネルrinと結合チャネルxmonoを表わすベクトルの間の角度θRはarccos(αR)に等しい。
図7Aの右パネルは、結合チャネルから個々の出力チャネルを脱相関することの簡略化された例を示している。この型の脱相関プロセスは、たとえばデコード装置によって実行されてもよい。結合チャネルxmonoと相関していない(垂直な)脱相関信号yLを生成して、それを適正な重みを使って結合チャネルxmonoと混合することによって、個々の出力チャネル(この例ではlout)の振幅および結合チャネルxmonoからのその角分離が正確に個々の入力チャネルの振幅およびその結合チャネルとの空間的関係を正確に反映することができる。脱相関信号yLは、結合チャネルxmonoと同じパワー分布(ここではベクトル長さによって表わされる)をもつべきである。この例では、lout=αLxmono+√(1−αL 2)yLである。√(1−αL 2)=βLと記すことにより、lout=αLxmono+βLyLとなる。
しかしながら、個々の離散的チャネルと結合チャネルとの間の空間的関係を復元することは、離散的なチャネル間の空間的関係(ICCによって表わされる)の復元を保証するものではない。この事実は、図7Bに示されている。図7Bの二つのパネルは二つの極端な場合を示している。loutとroutの間の分離は、図7Bの左パネルに示されるように、脱相関信号yLとyRが180°離れているときに最大になる。この場合、左チャネルと右チャネルの間のICCは最小化され、loutとroutの間の位相多様性が最大化される。逆に、図7Bの右パネルに示されるように、脱相関信号yLとyRが0°離れているときにはloutとroutの間の分離は最小になる。この場合、左チャネルと右チャネルの間のICCは最大化され、loutとroutの間の位相多様性が最小化される。
図7Bに示した例では、図示したベクトルのすべては同じ面内にある。他の例では、yLおよびyRは互いに他の角度で位置されてもよい。しかしながら、yLとyRが結合チャネルxmonoに対して垂直であるまたは少なくとも実質的に垂直であることが好ましい。いくつかの例では、yLとyRは少なくとも部分的に、図7Bの面に直交する面に延びてもよい。
離散的なチャネルは最終的には再生され、聴取者に対して呈示されるので、離散的なチャネルの間の空間的関係(諸ICC)の適正な復元が、オーディオ・データの空間的特性の復元を著しく改善しうる。図7Bの例に見られうるように、ICCの正確な復元は、互いと適正な空間的関係をもつ脱相関信号(ここではyLとyR)を生成することに依存する。脱相関信号の間の相関は、本稿では脱相関信号間コヒーレンス、あるいは「IDC」と称されることがある。
図7Bの左パネルでは、yLとyRの間のIDCは−1である。上記のように、このIDCは左チャネルと右チャネルの間の最小のICCと対応する。図7Bの左パネルを図7Aの左パネルと比較することにより、二つの結合されたチャネルをもつこの例では、loutとroutの間の空間的関係はlinとrinの間の空間的関係を正確に反映することが観察されうる。図7Bの右パネルでは、yLとyRの間のIDCは1である(完全な相関)。図7Bの右パネルを図7Aの左パネルと比較することにより、この例では、loutとroutの間の空間的関係がlinとrinの間の空間的関係を正確に反映しないことが見て取れる。
よって、空間的に隣接する個々のチャネルの間のIDCを−1に設定することにより、これらのチャネルの間のICCが最小化されることができ、これらのチャネルが優勢であるとき、これらのチャネルの間の空間的関係が密接に復元されうる。その結果、もとのオーディオ信号の音像に知覚的に近い全体的な音像が得られる。そのような方法は、本稿では「符号反転(sign-flip)」法と称されることがある。そのような方法では、実際のICCの知識は必要とされない。
図8Aは、本稿で与えられるいくつかの脱相関方法のブロックを示す流れ図である。本稿に記載される他の方法と同様に、方法800の諸ブロックは必ずしも示されている順序で実行されるのではない。さらに、方法800および他の方法のいくつかの実装は、示されているまたは記述されているより多数のまたは少数のブロックを含んでいてもよい。方法800は、複数のオーディオ・チャネルに対応するオーディオ・データが受領されるブロック802で始まる。オーディオ・データはたとえば、オーディオ・デコード・システムのコンポーネントによって受領されてもよい。いくつかの実装では、オーディオ・データは、本稿で開示される脱相関器205の実装の一つのような、オーディオ・デコード・システムの脱相関器によって受領されてもよい。オーディオ・データは、結合チャネルに対応するオーディオ・データを上方混合することによって生成される複数のオーディオ・チャネルについてのオーディオ・データ要素を含んでいてもよい。いくつかの実装によれば、オーディオ・データは、結合チャネルに対応するオーディオ・データに、チャネル固有の時間変化するスケーリング因子を適用することによって上方混合されたものであってもよい。いくつかの例は後述する。
この例では、ブロック804は、オーディオ・データのオーディオ特性を決定することに関わる。ここで、オーディオ特性は空間的パラメータ・データを含む。空間的パラメータ・データは、アルファ、つまり個々のオーディオ・チャネルと結合チャネルとの間の相関係数を含んでいてもよい。ブロック804は、たとえば図2A以下を参照して上記した脱相関情報240を介して、空間的パラメータ・データを受領することに関わっていてもよい。代替的または追加的に、ブロック804は、たとえば制御情報受領器/生成器640(たとえば図6Bまたは図6C参照)によってローカルに空間的パラメータを推定することに関わっていてもよい。いくつかの実装では、ブロック804は、過渡特性またはトーン性特性のような他のオーディオ特性を決定することに関わっていてもよい。
ここで、ブロック806は、少なくとも部分的にはオーディオ特性に基づいてオーディオ・データについての少なくとも二つの脱相関フィルタリング・プロセスを決定することに関わっていてもよい。脱相関フィルタリング・プロセスは、チャネル固有の脱相関フィルタリング・プロセスであってもよい。いくつかの実装によれば、ブロック806において決定された脱相関フィルタリング・プロセスのそれぞれは、脱相関に関係する動作のシーケンスを含む。
ブロック806において決定される少なくとも二つの脱相関フィルタリング・プロセスを適用することは、チャネル固有の脱相関信号を生成してもよい。たとえば、ブロック806において決定される脱相関フィルタリング・プロセスを適用することは、少なくとも一対のチャネルについてのチャネル固有の脱相関信号の間の特定の脱相関信号間コヒーレンス(「IDC」)を引き起こしうる。いくつかのそのような脱相関フィルタリング・プロセスは、(たとえば図8Bまたは図8Eのブロック820を参照して後述するように)少なくとも一つの脱相関フィルタをオーディオ・データの少なくとも一部に適用して、本稿で脱相関信号とも称されるフィルタリングされたオーディオ・データを生成することに関わっていてもよい。さらに、該フィルタリングされたオーディオ・データに対して動作が実行されてチャネル固有の脱相関信号を生成してもよい。いくつかのそのような脱相関フィルタリング・プロセスは、図8B〜8Dを参照して後述する横符号反転プロセスの一つのような横符号反転プロセスに関わっていてもよい。
いくつかの実装では、ブロック806において、脱相関されるチャネル全部に対応するフィルタリングされたオーディオ・データを生成するために、同じ脱相関フィルタが使用されることが決定されてもよい。一方、他の実装では、ブロック806において、脱相関される少なくともいくつかのチャネルについてフィルタリングされたオーディオ・データを生成するために異なる脱相関フィルタが使われることが決定されてもよい。いくつかの実装では、ブロック806において、中央チャネルに対応するオーディオは脱相関されないことが決定されてもよい。一方、他の実装では、ブロック806は、中央チャネルのオーディオ・データについて異なる脱相関フィルタを決定することに関わっていてもよい。さらに、いくつかの実装においてブロック806において決定される脱相関フィルタリング・プロセスのそれぞれは、脱相関に関係する動作のシーケンスを含む。一方、代替的な実装では、ブロック806において決定される脱相関フィルタリング・プロセスのそれぞれは、全体的な脱相関プロセスの特定の段と対応してもよい。たとえば、代替的な実装では、ブロック806において決定される脱相関フィルタリング・プロセスのそれぞれは、少なくとも二つのチャネルについて脱相関信号を生成することに関係する動作のシーケンス内の特定の動作(または関係した諸動作の群)と対応してもよい。
ブロック808では、ブロック806において決定された脱相関フィルタリング・プロセスが実装されてもよい。たとえば、ブロック808は、受領されたオーディオ・データの少なくとも一部に脱相関フィルタ(単数または複数)を適用してフィルタリングされたオーディオ・データを生成することに関わっていてもよい。フィルタリングされたオーディオ・データはたとえば、図2F、図4および/または図6A〜6Cを参照して上記した脱相関信号生成器218によって生成された脱相関信号227と対応していてもよい。ブロック808は、さまざまな他の動作に関わっていてもよく、その例は後述する。
ここで、ブロック810は、少なくとも部分的にはオーディオ特性に基づいて混合パラメータを決定することに関わる。ブロック810は、少なくとも部分的には、制御情報受領器/生成器640の混合器制御モジュール660(図6C参照)によって実行されてもよい。いくつかの実装では、混合パラメータは、出力チャネル固有の混合パラメータであってもよい。たとえば、ブロック810は、脱相関されるオーディオ・チャネルのそれぞれについてのアルファ値を受領または推定し、少なくとも部分的にはそれらのアルファに基づいて混合パラメータを決定することに関わっていてもよい。いくつかの実装では、それらのアルファは、過渡制御モジュール655(図6C参照)によって決定されてもよい過渡制御情報に従って修正されてもよい。ブロック812では、フィルタリングされたオーディオ・データは、混合パラメータに従ってオーディオ・データの直接部分と混合されてもよい。
図8Bは、横符号反転法の諸ブロックを示す流れ図である。いくつかの実装では、図8Bに示される諸ブロックは、図8Aの「決定する」ブロック806および「適用する」ブロック808の例である。よって、これらのブロックは図8Bにおいて「806a」および「808a」とラベル付けされている。この例では、ブロック806aは少なくとも二つの隣接するチャネルについての脱相関信号について脱相関フィルタおよび極性を決定して、そのチャネル対についての脱相関信号の間の特定のIDCを引き起こすことに関わる。この実装では、ブロック820は、ブロック806aにおいて決定される脱相関フィルタの一つまたは複数を受領されたオーディオ・データの少なくとも一部に適用してフィルタリングされたオーディオ・データを生成することに関わる。フィルタリングされたオーディオ・データはたとえば、図2Eおよび図4を参照して上記した脱相関信号生成器218によって生成された脱相関信号227と対応してもよい。
いくつかの四チャネルの例では、ブロック820は、第一の脱相関フィルタを第一および第二のチャネルについてのオーディオ・データに適用して第一のチャネルのフィルタリングされたデータおよび第二のチャネルのフィルタリングされたデータを生成し、第三および第四のチャネルについてのオーディオ・データに第二の脱相関フィルタを適用して第三のチャネルのフィルタリングされたデータおよび第四のチャネルのフィルタリングされたデータを生成することに関わっていてもよい。たとえば、第一のチャネルは左チャネルであってもよく、第二のチャネルは右チャネルであってもよく、第三のチャネルは左サラウンド・チャネルであってもよく、第四のチャネルは右サラウンド・チャネルであってもよい。
脱相関フィルタは、特定の実装に依存して、オーディオ・データが上方混合される前または後に適用されうる。いくつかの実装では、たとえば、脱相関フィルタはオーディオ・データの結合チャネルに適用されてもよい。その後、各チャネルに適切なスケーリング因子が適用されてもよい。いくつかの例は図8Cを参照して後述する。
図8Cおよび8Dは、いくつかの符号反転法を実装するために使用されうるコンポーネントを示すブロック図である。まず図8Bを参照するに、この実装において、脱相関フィルタはブロック820において入力オーディオ・データの結合チャネルに適用される。図8Cに示される例では、脱相関信号生成器制御情報625および結合チャネルに対応する周波数領域表現を表わすオーディオ・データ210が、脱相関信号生成器218によって受領される。この例では、脱相関信号生成器218は、脱相関されたすべてのチャネルについて同じである脱相関信号227を出力する。
図8Bのプロセス808aは、少なくとも一対のチャネルについての脱相関信号の間の特定の脱相関信号間コヒーレンスIDCをもつ脱相関信号を生成するよう、フィルタリングされたオーディオ・データに対して動作を実行することに関わっていてもよい。この実装において、ブロック825は、ブロック820において生成されるフィルタリングされたオーディオ・データに極性を適用することに関わる。この例では、ブロック820において適用される極性はブロック806aにおいて決定された。いくつかの実装では、ブロック825は、隣接するチャネルについてのフィルタリングされたオーディオ・データの間の極性を反転させることに関わる。たとえば、ブロック825は、左サイド・チャネルまたは右サイド・チャネルに対応するフィルタリングされたオーディオ・データを−1倍することに関わっていてもよい。ブロック825は、左サラウンド・チャネルに対応するフィルタリングされたオーディオ・データの極性を、左サイド・チャネルに対応するフィルタリングされたオーディオ・データを基準として反転させることに関わっていてもよい。ブロック825はまた、右サラウンド・チャネルに対応するフィルタリングされたオーディオ・データの極性を、右サイド・チャネルに対応するフィルタリングされたオーディオ・データを基準として反転させることに関わっていてもよい。上記の四チャネルの例では、ブロック825は、第二のチャネルのフィルタリングされたデータに対して第一のチャネルのフィルタリングされたデータの極性を反転させ、第四のチャネルのフィルタリングされたデータに対して第三のチャネルのフィルタリングされたデータの極性を反転させることに関わっていてもよい。
図8Cに示される例では、yとも記される脱相関信号227は、極性反転モジュール840によって受領される。極性反転モジュール840は、隣接するチャネルについての脱相関信号の極性を逆にするよう構成される。この例では、極性反転モジュール840は、右チャネルおよび左サラウンド・チャネルについての脱相関信号の極性を反転させるよう構成されている。しかしながら、他の実装では、極性反転モジュール840は、他のチャネルについての脱相関信号の極性を反転するよう構成されていてもよい。たとえば、極性反転モジュール840は、左チャネルおよび右サラウンド・チャネルについての脱相関信号の極性を反転させるよう構成されていてもよい。他の実装は、関わっているチャネルの数およびそれらの空間的関係に依存して、さらに他のチャネルについての脱相関信号の極性を反転させることに関わっていてもよい。
極性反転モジュール840は、符号反転された脱相関信号227を含む脱相関信号227をチャネル固有混合器215a〜215dに提供する。チャネル固有混合器215a〜215dは、結合チャネルの直接の、フィルタリングされていないオーディオ・データ210および出力チャネル固有の空間的パラメータ情報630a〜630dをも受領する。代替的または追加的に、いくつかの実装では、チャネル固有混合器215a〜215dは、図8Fを参照して後述される修正された混合係数890を受領してもよい。この例では、出力チャネル固有の空間的パラメータ情報630a〜630dは、過渡データに従って、たとえば図6Cに描かれたような過渡制御モジュールからの入力に従って修正されている。過渡データに従って空間的パラメータを修正することの例は後述する。
この実装では、チャネル固有混合器215a〜215dは、出力チャネル固有の空間的パラメータ情報630a〜630dに従って脱相関信号227を結合チャネルの直接オーディオ・データ210と混合し、結果として得られる出力チャネル固有の混合されたオーディオ・データ845a〜845dを利得制御モジュール850a〜850dに出力する。この例では、利得制御モジュール850a〜854dは、本稿ではスケーリング因子とも称される出力チャネル固有利得を、出力チャネル固有の混合されたオーディオ・データ845a〜845dに対して適用するよう構成される。
代替的な符号反転法についてここで図8Dを参照して述べる。この例では、少なくとも部分的にはチャネル固有の脱相関制御情報847a〜847dに基づくチャネル固有の脱相関フィルタが、脱相関信号生成器218a〜218dによってオーディオ・データ210a〜210dに適用される。いくつかの実装では、脱相関信号生成器制御情報847a〜847dは、オーディオ・データと一緒にビットストリームにおいて受領されてもよい。一方、他の実装では、脱相関信号生成器制御情報847a〜847dは、たとえば脱相関フィルタ制御モジュール405によって、(少なくとも部分的には)ローカルに生成されてもよい。ここで、脱相関信号生成器218a〜218dは、脱相関フィルタ制御モジュール405から受領される脱相関フィルタ係数情報に従ってチャネル固有の脱相関フィルタを生成してもよい。いくつかの実装では、すべてのチャネルによって共有される単一のフィルタ記述が、脱相関フィルタ制御モジュール405によって生成されてもよい。
この例では、チャネル固有利得/スケーリング因子は、オーディオ・データ210a〜210dが脱相関信号生成器218a〜218dによって受領される前にオーディオ・データ210a〜210dに適用されている。たとえば、オーディオ・データがAC-3またはE-AC-3オーディオ・コーデックに従ってエンコードされている場合、スケーリング因子は、オーディオ・データの残りと一緒にエンコードされ、デコード装置のようなオーディオ処理システムによってビットストリームにおいて受領される結合座標(coupling coordinates)または「cplcoords」であってもよい。いくつかの実装では、cplcoordsは、利得制御モジュール850a〜850dによって出力チャネル固有の混合されたオーディオ・データ845a〜845dに適用される出力チャネル固有のスケーリング因子(図8C参照)のための基礎であってもよい。
よって、脱相関信号生成器218a〜218dは、脱相関されるすべてのチャネルについてのチャネル固有脱相関信号227a〜227dを出力する。脱相関信号227a〜227dは、図8DではそれぞれyL、yR、yLsおよびyRsとしても参照される。
脱相関信号227a〜227dは、極性反転モジュール840によって受領される。極性反転モジュール840は、隣接するチャネルについての脱相関信号の極性を反転するよう構成されている。この例では、極性反転モジュール840は、右チャネルおよび左サラウンド・チャネルについての脱相関信号の極性を反転させるよう構成されている。しかしながら、他の実装では、極性反転モジュール840は、他のチャネルについての脱相関信号の極性を反転させるよう構成されていてもよい。たとえば、極性反転モジュール840は、左および右サラウンド・チャネルについての脱相関信号の極性を反転させるよう構成されていてもよい。他の実装は、関わっているチャネルの数およびそれらの空間的関係に依存してさらに他のチャネルについての脱相関信号の極性を反転させることに関わっていてもよい。
極性反転モジュール840は、符号反転された脱相関信号227bおよび227cを含む脱相関信号227a〜227dをチャネル固有混合器215a〜215dに提供する。ここで、チャネル固有混合器215a〜215dは、直接のオーディオ・データ210a〜210dおよび出力チャネル固有の空間的パラメータ情報630a〜630dをも受領する。この例では、出力チャネル固有の空間的パラメータ情報630a〜630dは、過渡データに従って修正されている。
この実装では、チャネル固有混合器215a〜215dは、出力チャネル固有の空間的パラメータ情報630a〜630dに従って脱相関信号227を直接オーディオ・データ210a〜210dと混合し、出力チャネル固有の混合されたオーディオ・データ845a〜845dを出力する。
離散的な入力チャネルの間の空間的関係を復元するための代替的な方法がここで与えられる。これらの方法は、脱相関または残響信号がどのように合成されるかを決定する合成係数を系統的に決定することに関わっていてもよい。いくつかのそのような方法によれば、最適な諸IDCは諸アルファおよび諸目標ICCから決定される。そのような方法は、最適であると判定される諸IDCに従って一組のチャネル固有の脱相関信号を系統的に合成することに関わっていてもよい。
いくつかのそのような系統的な方法の概観がここで図8Eおよび8Fを参照して記述される。いくつかの例の基礎になる数学的公式を含むさらなる詳細についてはその後に述べる。
図8Eは、空間的パラメータ・データから合成係数および混合係数を決定する方法の諸ブロックを示す流れ図である。図8Fは、混合器コンポーネントの例を示すブロック図である。この例では、方法851は図8Aのブロック802および804の後に始まる。よって、図8Eに示されるブロックは、図8Aの「決定する」ブロック806および「適用する」ブロック808のさらなる例と考えられてもよい。よって、図8Eのブロック855〜865は「806b」とラベル付けされ、ブロック820および870は「808b」とラベル付けされている。
しかしながら、この例では、ブロック806おいて決定される脱相関プロセスは、合成係数に従ってフィルタリングされたオーディオ・データに対して動作を実行することに関わっていてもよい。いくつかの例は後述する。
任意的なブロック855は、ある形の空間的パラメータを等価な表現に変換することに関わっていてもよい。図8Fを参照するに、たとえば、合成および混合係数生成モジュール880は、N個の入力チャネルの間の空間的関係またはこれらの空間的関係の部分集合を記述する情報を含む空間的パラメータ情報630bを受領してもよい。モジュール880は、空間的パラメータ情報630bの少なくとも一部を、ある形の空間的パラメータから等価な表現に変換するよう構成されていてもよい。たとえば、アルファがICCに変換されてもよく、その逆でもよい。
代替的なオーディオ処理システム実装では、合成および混合係数生成モジュール880の機能の少なくとも一部は、混合器215以外の要素によって実行されてもよい。たとえば、いくつかの代替的な実装では、合成および混合係数生成モジュール880の機能の少なくとも一部は、図6Cに示され上記で記述されたような制御情報受領器/生成器640によって実行されてもよい。
この実装では、ブロック860は、空間的パラメータ表現を用いた出力チャネルの間の所望される空間的関係を決定することに関わっていてもよい。図8Fに示されるように、いくつかの実装では、合成および混合係数生成モジュール880は、下方混合/上方混合情報635を受領してもよい。この情報は、図2Eの、NからMの上方混合器/下方混合器262によって受領される混合情報266および/またはMからKの上方混合器/下方混合器264によって受領される混合情報268に対応する情報を含んでいてもよい。合成および混合係数生成モジュール880は空間的パラメータ情報630aをも受領してもよい。これは、K個の出力チャネルの間の空間的関係またはこれらの空間的関係の部分集合を記述する情報を含む。図2Eを参照して上記されたように、入力チャネルの数は出力チャネルの数に等しくても等しくなくてもよい。モジュール880は、K個の出力チャネルの少なくともいくつかの対の間の所望される空間的関係(たとえばICC)を計算するよう構成されていてもよい。
この例では、ブロック865は、所望される空間的関係に基づいて合成係数を決定することに関わっていてもよい。混合係数は、少なくとも部分的には所望される空間的関係に基づいて決定されてもよい。再び図8Fを参照するに、ブロック865において、合成および混合係数生成モジュール880は、出力チャネルの間の所望される空間的関係に従って脱相関信号合成パラメータ615を決定してもよい。合成および混合係数生成モジュール880は、出力チャネルの間の所望される空間的関係に従って混合係数620を決定してもよい。
合成および混合係数生成モジュール880は、脱相関信号合成パラメータ615を合成器605に提供してもよい。いくつかの実装では、脱相関信号合成パラメータ615は出力チャネル固有であってもよい。この例では、合成器605は、図6Aに示されるような脱相関信号生成器218によって生成されてもよい脱相関信号227をも受領する。
この例では、ブロック820は、一つまたは複数の脱相関フィルタを受領されたオーディオ・データの少なくとも一部に適用してフィルタリングされたオーディオ・データを生成することに関わる。フィルタリングされたオーディオ・データは、たとえば、図2Eおよび図4を参照して上記した脱相関信号生成器218によって生成される脱相関信号227と対応していてもよい。
ブロック870は、合成係数に従って脱相関信号を合成することに関わっていてもよい。いくつかの実装では、ブロック870は、ブロック820において生成されるフィルタリングされたオーディオ・データに対して動作を実行することによって脱相関信号を合成することに関わっていてもよい。よって、合成された脱相関信号は、フィルタリングされたオーディオ・データの修正されたバージョンと考えられてもよい。図8Fに示した例では、合成器605は、脱相関信号合成パラメータ615に従って脱相関信号227に対して動作を実行し、合成された脱相関信号886を直接信号および脱相関信号混合器610に出力するよう構成されていてもよい。ここで、合成された脱相関信号886は、チャネル固有の合成された脱相関信号である。いくつかのそのような実装では、ブロック870は、チャネル固有の合成された脱相関信号に、各チャネルについて適切なスケーリング因子を乗算して、スケーリングされたチャネル固有の合成された脱相関信号886を生成することに関わっていてもよい。この例では、合成器605は、脱相関信号合成パラメータ615に従って脱相関信号227の線形結合を作る。
合成および混合係数生成モジュール880は、混合係数620を混合器過渡制御モジュール888に提供してもよい。この実装では、混合係数620は出力チャネル固有の混合係数である。混合器過渡制御モジュール888は過渡制御情報430を受領してもよい。過渡制御情報430はオーディオ・データと一緒に受領されてもよく、あるいは、たとえば図6Cに示される過渡制御モジュール655のような過渡制御モジュールによってローカルに決定されてもよい。混合器過渡制御モジュール888は、少なくとも部分的には過渡制御情報430に基づいて修正された混合係数890を生成してもよく、修正された混合係数890を直接信号および脱相関信号混合器610に提供してもよい。
直接信号および脱相関信号混合器610は、合成された脱相関信号886を直接のフィルタリングされていないオーディオ・データ220と混合してもよい。この例では、オーディオ・データ220は、N個の入力チャネルに対応するオーディオ・データ要素を含む。直接信号および脱相関信号混合器610はオーディオ・データ要素およびチャネル固有の合成された脱相関信号886を、出力チャネル固有のベースで混合し、特定の実装に依存して、NまたはM個の出力チャネルについての脱相関されたオーディオ・データを出力する(たとえば図2Eおよび対応する記述を参照)。
以下は、方法851のプロセスのいくつかについての詳細な例である。これらの方法は少なくとも部分的にはAC-3およびE-AC-3オーディオ・コーデックの特徴を参照して記述されるが、これらの方法は、他の多くのオーディオ・コーデックに対して広い適用可能性をもつ。
いくつかのそのような方法の目標は、チャネル結合のために失われた可能性がある源オーディオ・データの空間的特徴を復元するために、すべてのICC(またはICCの選択されたセット)を精密に再現することである。混合器の機能は、次のように定式化されてもよい。
Figure 2016510433
式(1)において、xは結合チャネル信号を表わし、αiはチャネルIについての空間的パラメータ、アルファを表わし、giはチャネルIについての「cplcoord」(スケーリング因子に対応)を表わし、yiは脱相関された信号を表わし、Di(x)は脱相関フィルタDiから生成された脱相関信号を表わす。脱相関フィルタの出力は、入力オーディオ・データと同じスペクトル・パワー分布をもつが、入力オーディオ・データとは相関していないことが望ましい。AC-3およびE-AC-3オーディオ・コーデックによれば、cplcoordおよびアルファは結合チャネル周波数帯域毎であり、一方、信号およびフィルタは周波数ビン毎である。また、信号のサンプルはフィルタバンク係数のブロックに対応する。これらの時間および周波数インデックスは、簡単のためにここでは省略されている。
アルファ値は、源オーディオ・データの離散的な諸チャネルと結合チャネルとの間の相関を表わし、次のように表わせる。
Figure 2016510433
式(2)において、Eは中括弧内の項(単数または複数)の期待値を表わし、x*はxの複素共役を表わし、siはチャネルIについての離散的な信号を表わす。
一対の脱相関された信号の間のチャネル間コヒーレンスまたはICCは次のように導出できる。
Figure 2016510433
式(3)において、IDCi1,i2は、Di1(x)とDi2(x)の間の脱相関信号間コヒーレンス(「IDC」)を表わす。固定されたアルファでは、ICCは、IDCが+1のときに最大になり、IDCが−1のときに最小になる。源オーディオ・データのICCが既知であるとき、それを再現するために要求される最適なIDCは次のように解くことができる。
Figure 2016510433
脱相関された信号の間のICCは、式(4)の最適なIDC条件を満たす脱相関信号を選択することによって制御されてもよい。そのような脱相関信号を生成するいくつかの方法について以下で論じる。その議論の前に、これらの空間的パラメータのいくつかの間の、特にICCとアルファの間の関係を記述することが有用であることがありうる。
方法851の任意的なブロック855を参照して上記したように、本稿で提供されるいくつかの実装は、ある形の空間的パラメータを等価な表現に変換することに関わっていてもよい。いくつかのそのような実装では、任意的なブロック855は、アルファからICCに、またはその逆に変換することに関わっていてもよい。たとえば、アルファは、cplcoord(または匹敵するスケーリング因子)およびICCの両方が既知である場合には、一意的に決定されうる。
結合チャネルは次のように生成されてもよい。
Figure 2016510433
式(5)において、siは結合に関わるチャネルiについての離散的な信号を表わし、gxはxに対して適用される任意の利得調整を表わす。式(2)のx項を式(5)の等価な表現で置き換えることにより、チャネルiについてのアルファは次のように表わせる。
Figure 2016510433
各離散的なチャネルのパワーは、結合チャネルのパワーおよび対応するcplcoordのパワーによって次のように表現できる。
Figure 2016510433
相互相関項は次のように代替できる。
Figure 2016510433
したがって、アルファは次のような仕方で表わされてもよい。
Figure 2016510433
式(5)に基づき、xのパワーは次のように表わされてもよい。
Figure 2016510433
したがって、利得調整gxは次のように表わされてもよい。
Figure 2016510433
よって、すべてのcplcoordおよびICCが既知であれば、アルファは次式に従って計算できる。
Figure 2016510433
上記のように、脱相関された信号の間のICCは、式(4)を満たす脱相関信号を選択することによって制御されてもよい。ステレオの場合、結合チャネル信号に相関しない脱相関信号を生成する単一の脱相関フィルタが形成されてもよい。−1の最適なIDCは、たとえば上記の符号反転法の一つに従って単に符号反転することによって達成できる。
しかしながら、複数チャネルの場合についてICCを制御するタスクはより複雑である。すべての脱相関信号が実質的に結合チャネルに相関していないことを保証することに加えて、脱相関信号間のIDCが式(4)を満たすべきでもある。
所望されるIDCをもつ脱相関信号を生成するために、相互に相関していない「シード」脱相関信号の組がまず生成されてもよい。たとえば、脱相関信号227は、本稿の他所で記述された方法に従って生成されてもよい。その後、所望される脱相関信号は、これらのシードを適正な重みを用いて線形結合することによって合成されてもよい。いくつかの例の概観が図8Eおよび図8Fを参照して上述してある。
一つのダウンミックスから多数の高品質かつ相互に無相関の(たとえば直交の)脱相関信号を生成することは困難でありうる。さらに、適正な組み合わせ重みを計算することは、逆行列計算に関わることがあるが、これは複雑さおよび安定性の点で困難を呈することがある。
よって、本稿で提供されるいくつかの例では、「アンカーおよび拡張(anchor-and-expand)」プロセスが実装されてもよい。いくつかの実装では、いくつかのIDC(およびICC)が他よりもより有意であることがある。たとえば、横ICC(lateral ICC)が対角ICC(diagonal ICC)より知覚的に重要であることがある。ドルビー5.1チャネルの例では、L-R、L-Ls、R-RsおよびLs-Rsチャネル対についてのICCは、L-RsおよびR-Lsチャネル対についてのICCより知覚的に重要であることがある。前方チャネルは、後方またはサラウンド・チャネルより知覚的に重要であることがある。
いくつかのそのような実装では、まず、最も重要なIDCについての式(4)の項が、二つの直交する(シード)脱相関信号を組み合わせて関わっている二つのチャネルについての脱相関信号を合成することによって、満たされることができる。次いで、これらの合成された脱相関信号をアンカーとして使って新たなシードを追加して、二次的なIDCについての式(4)の項が満たされることができ、対応する脱相関信号が合成されることができる。このプロセスは、すべてのIDCについて式(4)の項が満たされるまで繰り返されてもよい。そのような実装は、相対的により枢要なICCを制御するためにより高い品質の脱相関信号を使うことを許容する。
図9は、複数チャネルの場合に脱相関信号を合成するプロセスの概要を示す流れ図である。方法900のブロックは、図8Aのブロック806の「決定する」プロセスおよび図8Aのブロック808の「適用する」プロセスのさらなる例と考えられてもよい。よって、図9では、ブロック905〜915は「806c」とラベル付けされており、方法900のブロック920および925は「808c」とラベル付けされている。方法900は、5.1チャネルのコンテキストでの例を提供する。しかしながら、方法900は他のコンテキストへの幅広い適用可能性をもつ。
この例では、ブロック905〜915は、ブロック920において生成される相互に相関していないシード脱相関信号Dni(x)の組に対して適用されるべき合成パラメータを計算することに関わる。いくつかの5.1チャネル実装では、i={1,2,3,4}である。中央チャネルが脱相関されるならば、第五のシード脱相関信号が含められてもよい。いくつかの実装では、相関していない(直交する)脱相関信号Dni(x)は、モノ下方混合信号をいくつかの異なる脱相関フィルタに入力することによって生成されてもよい。あるいはまた、初期の上方混合された信号は、それぞれ一意的な脱相関フィルタに入力されることができる。さまざまな例は後述する。
上記のように、前方チャネルは後方またはサラウンド・チャネルより知覚的に重要であることがある。したがって、方法900では、LおよびRチャネルについての脱相関信号は最初の二つのシードに対して合同してアンカーされ、次いで、LsおよびRsチャネルについての脱相関信号がこれらのアンカーおよび残りのシードを使って合成される。
この例では、ブロック905は前方LおよびRチャネルについて合成パラメータρおよびρrを計算することに関わる。ここで、ρおよびρrはL-R IDCから次のように導出される。
Figure 2016510433
したがって、ブロック905は、式(4)からL-R IDCを計算することにも関わる。よって、この例では、ICC情報は、L-R IDCを計算するために使われる。この方法の他のプロセスは、ICC値を入力として使ってもよい。ICC値は、符号化されたビットストリームから、あるいはデコーダ側での推定によって、たとえば結合されていないより低周波数またはより高周波数の帯域、cplcoord、アルファなどに基づいて、得られてもよい。
合成パラメータρおよびρrは、ブロック925においてLおよびRチャネルについての脱相関信号を合成するために使われてもよい。LsおよびRsチャネルについての脱相関信号は、LおよびRチャネルについての脱相関信号をアンカーとして使って合成されてもよい。
いくつかの実装では、Ls-Rs ICCを制御することが望ましいことがある。方法900によれば、シード脱相関信号のうちの二つを用いて中間的な脱相関信号D'Ls(x)およびD'Rs(x)を合成することは、合成パラメータσおよびσrを計算することに関わる。したがって、任意的なブロック910は、サラウンド・チャネルについて合成パラメータσおよびσrを計算することに関わる。中間的な脱相関信号D'Ls(x)およびD'Rs(x)の間の要求される相関係数は次のように表わされてもよいことが導ける:
Figure 2016510433
変数σおよびσrはその相関係数から導出されてもよい:
Figure 2016510433
したがって、D'Ls(x)およびD'Rs(x)は次のように定義できる。
Figure 2016510433
しかしながら、Ls-Rs ICCが関心事ではない場合には、D'Ls(x)とD'Rs(x)の間の相関係数は−1に設定されることができる。よって、上記二つの信号は単に、残りのシード脱相関信号から構築される、互いの符号反転されたバージョンであることができる。
中央チャネルは、特定の実装に依存して、脱相関されてもされなくてもよい。よって、中央チャネルについて合成パラメータt1およびt2を計算するブロック915のプロセスは任意的である。中央チャネルについての合成パラメータは、たとえば、L-CおよびR-C ICCを制御することが望ましい場合に、計算されうる。もしそうであれば、第五のシードDn5(x)が追加されることができ、Cチャネルについての脱相関信号は次のように表わされてもよい。
Figure 2016510433
所望されるL-CおよびR-C ICCを達成するために、式(4)はL-CおよびR-C IDCについて満たされるべきである:
Figure 2016510433
アステリスクは複素共役を表わす。よって、中央チャネルについての合成パラメータt1およびt2は次のように表わされてもよい。
Figure 2016510433
ブロック920では、一組の互いに相関していないシード脱相関信号Dni(x)、i={1,2,3,4}が生成されてもよい。中央チャネルが脱相関される場合には、ブロック920において第五のシード脱相関信号が生成されてもよい。これらの相関していない(直交する)脱相関信号Dni(x)は、モノ下方混合信号をいくつかの異なる脱相関フィルタに入力することによって生成されてもよい。
この例では、ブロック925は、上記で導出された項を適用して次のように脱相関信号を合成することに関わる。
Figure 2016510433
この例では、LsおよびRsチャネルについての脱相関信号(DLs(x)およびDRs(x))を合成するための式は、LおよびRチャネルについての脱相関信号(DL(x)およびDR(x))を合成するための式に依存する。方法900では、LおよびRチャネルについての脱相関信号は、不完全な脱相関信号に起因する潜在的な左右バイアスを緩和するよう、合同してアンカーされる。
上記の例では、シード脱相関信号はブロック920においてモノ下方混合信号xから生成される。あるいはまた、シード脱相関信号は、それぞれの初期の上方混合された信号を一意的な脱相関フィルタ中に入力することによって生成されることができる。この場合、生成されたシード脱相関信号はチャネル固有となる:Dni(gix)、i={L,R,Ls,Rs,C}。これらのチャネル固有のシード脱相関信号は一般には、上方混合プロセスに起因する異なるパワー・レベルをもつ。よって、これらを組み合わせるとき、これらのシードの間のパワー・レベルを揃えることが望ましい。これを達成するために、ブロック925についての合成の式は次のように修正されることができる。
Figure 2016510433
修正された合成の式において、すべての合成パラメータは同じままである。しかしながら、チャネルiについての脱相関信号を合成するためにチャネルjから生成されたシード脱相関信号を使うときにパワー・レベルを揃えるたえめに、レベル調整パラメータλi,jが必要とされる。これらのチャネル対固有のレベル調整パラメータは、次のような推定されるチャネル・レベル差に基づいて計算されることができる。
Figure 2016510433
さらに、この場合、チャネル固有のスケーリング因子がすでに合成された脱相関信号中に組み込まれているので、ブロック812(図8A)についての混合器の式は式(1)から次のように修正されるべきである。
Figure 2016510433
本稿の他所で述べているように、いくつかの実装では、空間的パラメータがオーディオ・データと一緒に受領されてもよい。空間的パラメータはたとえば、オーディオ・データと一緒にエンコードされていてもよい。エンコードされた空間的パラメータおよびオーディオ・データは、たとえば図2Dを参照して上述したデコーダのようなオーディオ処理システムによって、ビットストリームにおいて受領される。その例では、空間的パラメータは、明示的な脱相関情報240を介して脱相関器205によって受領される。
しかしながら、代替的な実装では、エンコードされた空間的パラメータ(または空間的パラメータの不完全なセット)は、脱相関器205によって受領されない。いくつかのそのような実装によれば、図6Bおよび6Cを参照して上述した制御情報受領器/生成器640(またはオーディオ処理システム200の他の要素)は、オーディオ・データの一つまたは複数の属性に基づいて空間的パラメータを推定するよう構成されていてもよい。いくつかの実装では、制御情報受領器/生成器640は、空間的パラメータ推定および本稿に記載される関係した機能のために構成されている空間的パラメータ・モジュール665を含んでいてもよい。たとえば、空間的パラメータ・モジュール665は、結合チャネル周波数範囲外のオーディオ・データの特性に基づいて結合チャネル周波数範囲内の周波数についての空間的パラメータを推定してもよい。いくつかのそのような実装についてここで図10A以下を参照して述べる。
図10Aは、空間的パラメータを推定するための方法の概観を提供する流れ図である。ブロック1005では、第一の組の周波数係数および第二の組の周波数係数を含むオーディオ・データがオーディオ処理システムによって受領される。たとえば、第一および第二の組の周波数係数は、修正離散サイン変換、修正離散コサイン変換または重複直交変換を時間領域のオーディオ・データに適用することの結果であってもよい。いくつかの実装では、オーディオ・データは、レガシーのエンコード・プロセスに従ってエンコードされていてもよい。たとえば、レガシーのエンコード・プロセスは、AC-3オーディオ・コーデックまたは向上AC-3オーディオ・コーデックのプロセスであってもよい。よって、いくつかの実装では、第一および第二の組の周波数係数は実数値の周波数係数であってもよい。しかしながら、方法1000は、その応用においてこれらのコーデックに限定されず、多くのオーディオ・コーデックに広く適用可能である。
第一の組の周波数係数は第一の周波数範囲に対応していてもよく、第二の組の周波数係数は第二の周波数範囲に対応していてもよい。たとえば、第一の周波数範囲は個別チャネル周波数範囲に対応していてもよく、第二の周波数範囲は受領された結合チャネルの周波数範囲に対応していてもよい。いくつかの実装では、第一の周波数範囲は第二の周波数範囲より下であってもよい。しかしながら、代替的な実装では、第一の周波数範囲は第二の周波数範囲より上であってもよい。
図2Dを参照するに、いくつかの実装では、第一の組の周波数係数は、結合周波数範囲外のオーディオ・データの周波数領域成分を含むオーディオ・データ245aまたは245bに対応してもよい。オーディオ・データ245aおよび245bはこの例では脱相関されないが、それでも脱相関器205によって実行される空間的パラメータ推定のための入力として使われてもよい。第二の組の周波数係数は、結合チャネルに対応する周波数領域表現を含むオーディオ・データ210または220に対応してもよい。しかしながら、図2Dの例とは異なり、方法1000は、結合チャネルについての周波数係数と一緒に空間的パラメータ・データを受領することを含まなくてもよい。
ブロック1010では、第二の組の周波数係数の少なくとも一部についての空間的パラメータが推定される。いくつかの実装では、推定は推定理論の一つまたは複数の側面に基づく。たとえば、推定するプロセスは、少なくとも部分的には最尤法、ベイズ推定量、モーメント法推定量、最小平均平方誤差推定量および/または最小分散不偏推定量に基づいていてもよい。
いくつかのそのような実装は、より低周波数およびより高周波数の空間的パラメータの合同の確率密度関数(PDF: probability density functions)を推定することに関わっていてもよい。たとえば、二つのチャネルLおよびRがあり、各チャネルにおいて個別チャネル周波数範囲内の低帯域および結合チャネル周波数範囲内の高帯域があるとする。こうして、個別チャネル周波数範囲内のLおよびRチャネルの間のチャネル間コヒーレンスを表わすICC_lcと、結合チャネル周波数範囲内に存在するICC_hiとをもちうる。
オーディオ信号の大きなトレーニング集合があれば、それらをセグメント化でき、各セグメントについてICC_loおよびICC_hiを計算することができる。よって、ICC対(ICC_lo、ICC_hi)の大きなトレーニング集合を有してもよい。パラメータのこの対の合同PDFは、ヒストグラムとして計算されてもよく、および/またはパラメトリック・モデル(たとえばガウシアン混合モデル(Gaussian Mixture Models))によりモデル化されてもよい。このモデルは、デコーダにおいて知られている時間不変なモデルであることができる。あるいはまた、モデル・パラメータはビットストリームを介してデコーダに定期的に送られてもよい。
デコーダにおいては、受領されたオーディオ・データの特定のセグメントについてのICC_loが、たとえば本稿に記載されるところにより個々のチャネルと複合結合チャネルとの間の相互相関係数がどのように計算されるかに従って、計算されてもよい。ICC_loのこの値およびパラメータの合同PDFのモデルが与えられて、デコーダはICC_hiが何であるかを推定しようとしてもよい。一つのそのような推定は最尤(ML: Maximum-likelihood)推定である。ここでは、デコーダはICC_loの値を与えられてICC_hiの条件付きPDFを計算してもよい。条件付きPDFは、ここでは本質的には、x軸がICC_hi値の連続体を表わし、y軸がそれぞれのそのような値の条件付き確率を表わすx-y軸上で表現できる正の実数値の関数である。ML推定は、ICC_hiの推定値として、この関数がピークになるところの値を選ぶことに関わっていてもよい。他方、最小平均平方誤差(MMSE: minimum-mean-squared-error)推定値は、この条件付きPDFの平均であり、これはICC_hiのもう一つの有効な推定である。推定理論は、ICC_hiの推定値を得るために多くのそのようなツールを提供する。
上記の二パラメータの例は非常に単純な場合である。いくつかの実装では、より多数のチャネルおよび帯域があることがある。空間的パラメータはアルファまたはICCであってもよい。さらに、PDFモデルは信号型を条件として決められてもよい。たとえば、過渡性のものについてはある異なるモデル、トーン性信号についてはある異なるモデル、などがあってもよい。
この例では、ブロック1010の推定は、少なくとも部分的には第一の組の周波数係数に基づいている。たとえば、第一の組の周波数係数は、受領される結合チャネル周波数範囲の外である第一の周波数範囲内の二つ以上の個々のチャネルについてのオーディオ・データを含んでいてもよい。上記の推定するプロセスは、前記二つ以上のチャネルの周波数係数に基づいて複合結合チャネルの組み合わされた周波数係数を計算することに関わっていてもよい。上記の推定するプロセスはまた、前記組み合わされた周波数係数と第一の周波数範囲内の個々のチャネルの周波数係数との間の相互相関係数を計算することに関わっていてもよい。上記推定するプロセスの結果は、入力オーディオ信号の時間的変化に従って変わりうる。
ブロック1015では、推定された空間的パラメータが第二の組の周波数係数に適用されて、修正された第二の組の周波数係数を生成してもよい。いくつかの実装では、推定された空間的パラメータを第二の組の周波数係数に適用するプロセスは、脱相関プロセスの一部であってもよい。脱相関プロセスは、残響信号または脱相関信号を生成し、それを前記第二の組の周波数係数に適用することに関わっていてもよい。いくつかの実装では、脱相関プロセスは、完全に実数値の係数に作用する脱相関アルゴリズムを適用することに関わっていてもよい。脱相関プロセスは、特定の諸チャネルおよび/または特定の諸周波数帯域の選択的または信号適応的な脱相関に関わっていてもよい。
ここで図10Bを参照してより詳細な例を述べる。図10Bは、空間的パラメータを推定する代替的な方法の概観を与える。方法1020は、デコーダのようなオーディオ処理システムによって実行されてもよい。たとえば、方法1020は、少なくとも部分的には、図6Cに示されるもののような制御情報受領器/生成器640によって実行されてもよい。
この例では、第一の組の周波数係数は個別チャネル周波数範囲内にある。第二の組の周波数係数は、オーディオ処理システムによって受領される結合チャネルに対応する。第二の組の周波数係数は、この例では個別チャネル周波数範囲より上にある受領された結合チャネル周波数範囲にある。
よって、ブロック1022は、個々のチャネルについておよび受領された結合チャネルについてオーディオ・データを受領することに関わる。いくつかの実装では、オーディオ・データは、レガシーのエンコード・プロセスに従ってエンコードされていてもよい。方法1000または方法1020に従って推定される空間的パラメータを受領された結合チャネルのオーディオ・データに適用することは、受領されたオーディオ・データをレガシー・エンコード・プロセスと対応するレガシー・デコード・プロセスに従ってデコードすることによって得られるよりも、より空間的に正確なオーディオ再生を与えうる。いくつかの実装では、レガシー・エンコード・プロセスは、AC-3オーディオ・コーデックまたは向上AC-3オーディオ・コーデックのプロセスであってもよい。よって、いくつかの実装では、ブロック1022は、実数値の周波数係数を受領するが、虚数値をもつ周波数係数は受領しないことに関わっていてもよい。しかしながら、方法1020は、これらのコーデックに限定されず、多くのオーディオ・コーデックに広く適用可能である。
方法1020のブロック1025では、個別チャネル周波数範囲の少なくとも一部は、複数の周波数帯域に分割される。たとえば、個別チャネル周波数範囲は、2、3、4個またはそれ以上の周波数帯域に分割されうる。いくつかの実装では、周波数帯域のそれぞれは所定数の連続する周波数係数、たとえば6、8、10、12個またはそれ以上の連続する周波数係数を含んでいてもよい。いくつかの実装では、個別チャネル周波数範囲の一部のみが周波数帯域に分割されてもよい。たとえば、いくつかの実装は、個別チャネル周波数範囲のうち(受領された結合チャネルの周波数範囲に相対的により近い)より高い周波数部分のみを周波数帯域に分割することに関わっていてもよい。いくつかのE-AC-3ベースの例によれば、個別チャネル周波数範囲のより高い周波数部分は、それぞれが12個のMDCT係数を含む2または3個の帯域に分割されてもよい。いくつかのそのような実装によれば、個別チャネル周波数範囲のうち1kHzより上、1.5kHzより上などの部分のみが、周波数帯域に分割されてもよい。
この例では、ブロック1030は、個別チャネルの諸周波数帯域におけるエネルギーを計算することに関わる。この例では、ある個別チャネルが結合から除外された場合、除外されたチャネルの帯域分割された(banded)エネルギーはブロック1030において計算されない。いくつかの実装では、ブロック1030において計算されるエネルギー値は平滑化されてもよい。
この実装では、個別チャネル周波数範囲内の個々のチャネルのオーディオ・データに基づく複合結合チャネルがブロック1035において生成される。ブロック1035は、本稿で「組み合わされた周波数係数」と称されることもある、複合結合チャネルについての周波数係数を計算することに関わっていてもよい。組み合わされた周波数係数は、個別チャネル周波数範囲内の二つ以上のチャネルの周波数係数を使って生成されてもよい。たとえば、オーディオ・データがE-AC-3コーデックに従ってエンコードされていた場合、ブロック1035は、受領された結合チャネル周波数範囲の最低周波数である「結合開始周波数」より下のMDCT係数のローカルな下方混合を計算することに関わっていてもよい。
個別チャネル周波数範囲の各周波数帯域内の複合結合チャネルのエネルギーがブロック1040において決定されてもよい。いくつかの実装では、ブロック1040において計算されるエネルギー値は平滑化されてもよい。
この例では、ブロック1045は、個々のチャネルの周波数帯域と複合結合チャネルの対応する周波数帯域との間の相関に対応する相互相関係数を決定することに関わる。ここで、ブロック1045における相互相関係数の計算は、個々の各チャネルの周波数帯域内のエネルギーおよび複合結合チャネルの対応する周波数帯域内のエネルギーを計算することにも関わる。相互相関係数は規格化されてもよい。いくつかの実装によれば、ある個別チャネルが結合から排除されている場合、排除されたチャネルの周波数係数は、相互相関係数の計算において使用されない。
ブロック1050は、受領された結合チャネル中に結合された各チャネルについての空間的パラメータを推定することに関わる。この実装では、ブロック1050は、相互相関係数に基づいて空間的パラメータを推定することに関わる。推定するプロセスは、個々のチャネル周波数帯域のすべてを横断して規格化された相互相関係数を平均することに関わっていてもよい。推定するプロセスは、規格化された相互相関係数の平均にスケーリング因子を適用して、受領された結合チャネル中に結合された個々のチャネルについての推定された空間的パラメータを得ることにも関わっていてもよい。いくつかの実装では、スケーリング因子は、周波数が増すとともに減少してもよい。
この例では、ブロック1055は、推定された空間的パラメータにノイズを加えることに関わる。ノイズは、推定された空間的パラメータの分散をモデル化するために加えられてもよい。ノイズは、諸周波数帯域を横断する空間的パラメータの期待される予測に対応する一組の規則に従って加えられてもよい。規則は、経験的データに基づいていてもよい。経験的データは、オーディオ・データ・サンプルの大きな集合から導出される観察および/または測定に対応していてもよい。いくつかの実装では、加えられるノイズの分散は、周波数帯域についての推定された空間的パラメータ、周波数帯域インデックスおよび/または規格化された相互相関係数の分散に基づいていてもよい。
いくつかの実装は、第一または第二の組の周波数係数に関するトーン性情報を受領または決定することに関わっていてもよい。いくつかのそのような実装によれば、ブロック1050および/または1055のプロセスは、トーン性情報に従って変えられてもよい。たとえば、図6Bまたは図6Cの制御情報受領器/生成器640が結合チャネル周波数範囲内のオーディオ・データがきわめてトーン性であると判別する場合には、制御情報受領器/生成器640は、ブロック1055内に加えられるノイズの量を一時的に低下させるよう構成されていてもよい。
いくつかの実装では、推定される空間的パラメータは、受領された結合チャネル周波数帯域についての推定されたアルファであってもよい。いくつかのそのような実装は、それらのアルファを、結合チャネルに対応するオーディオ・データに、たとえば脱相関プロセスの一部として、適用することに関わっていてもよい。
方法1020のより詳細な例についてここで述べる。これらの例はE-AC-3オーディオ・コーデックのコンテキストにおいて与えられるが、これらの例によって示される概念はE-AC-3オーディオ・コーデックのコンテキストに限定されるものではなく、多くのオーディオ・コーデックに広く適用可能である。
この例では、複合結合チャネルは離散的な源の混合として計算される:
Figure 2016510433
式(8)では、SDiはチャネルiの特定の周波数範囲(kstart..kend)のデコードされたMDCT変換の行ベクトルを表わし、kend=KCPLは、E-AC-3結合開始周波数、受領される結合チャネル周波数範囲の最低周波数に対応するビン・インデックスである。ここで、gxは推定プロセスに影響しない規格化項を表わす。いくつかの実装では、gxは1に設定される。
kstartとkendの間の解析されるビンの数に関する決定は、複雑さの制約条件とアルファ推定の所望される精度との間のトレードオフに基づいていてもよい。いくつかの実装では、アルファ値の推定を改善するために受領された結合チャネル周波数範囲に相対的により近い周波数範囲内のオーディオ・データが使用されるよう、kstartはある特定の閾値(たとえば1kHz)またはそれより上の周波数に対応していてもよい。周波数領域(kstart..kend)は周波数帯域に分割されてもよい。いくつかの実装では、これらの周波数帯域についての相互相関係数は次のように計算されてもよい。
Figure 2016510433
式(9)において、sDi(l)は、前記より低い周波数範囲の帯域lに対応するセグメントsDiを表わし、xD(l)は、xDの対応するセグメントを表わす。いくつかの実装では、期待値E{ }は、たとえば次のような単純な極‐零無限インパルス応答(「IIR」)フィルタを使って近似されてもよい。
Figure 2016510433
式(10)において、
Figure 2016510433
はブロックnまでのサンプルを使ったE{y}の推定値を表わす。この例では、cci(l)は現在ブロックについての結合中にあるチャネルについてのみ計算される。実ベースのMDCT係数のみを与えられてパワー推定を平滑化するために、a=0.2の値が十分であることが見出された。MDCT以外の変換については、特に複素変換については、aのより大きな値が使用されてもよい。そのような場合、0.2<a<0.5の範囲内のaの値はリーズナブルであろう。いくつかのより低計算量の実装は、パワーおよび相互相関係数の代わりに上記の計算された相関係数cci(l)の時間平滑化に関わっていてもよい。分子および分母を別個に推定することと数学的に等価ではないものの、そのようなより低計算量の平滑化は、相互相関係数の十分正確な推定値を与えることが見出された。一次(first order)IIRフィルタとしての推定関数のこの特定の実装は、先入れ後出し(「FILO」)バッファに基づくもののような他の方式による実装を排除するものではない。そのような実装では、最も新しいサンプルが現在の推定値E{}に加算されてもよい一方、バッファ中の最も古いサンプルが現在の推定値E{}から減算されてもよい。
いくつかの実装では、平滑化プロセスは、直前のブロックについて係数sDiが結合にはいっていたかどうかを考慮に入れる。たとえば、直前のブロックにおいてチャネルiが結合にはいっていなかった場合、直前のブロックについてのMDCT係数は結合チャネルに含まれていたはずはないので、現在ブロックについて、aは1.0に設定されてもよい。また、直前のMDCT変換は、E-AC-3短ブロック・モードを使って符号化されていたことがありえ、このことはこの場合にaを1.0に設定することをさらに正当化する。
この段階では、個々のチャネルと複合結合チャネルとの間の相互相関係数が決定されている。図10Bの例では、ブロック1022ないし1045に対応する諸プロセスが実行されている。以下のプロセスは、相互相関係数に基づく空間的パラメータの推定の例である。これらのプロセスは、方法1020のブロック1050の例である。
一例では、KCPL(受領された結合チャネル周波数範囲の最低周波数)より下の諸周波数帯域についての相互相関係数を使って、KCPLより上のMDCT係数の脱相関のために使用されるアルファの推定値が生成されてもよい。あるそのような実装に基づいてcci(l)値から、推定されるアルファを計算するための擬似コードは次のようなものである。
Figure 2016510433
アルファを生成する上記の外挿プロセスへの主たる入力は、CCmである。これは、現在領域に対する相関係数(cci(l))の平均を表わす。「領域(region)」は、連続するE-AC-3ブロックの任意のグループ化であってもよい。E-AC-3フレームは、二つ以上の領域から構成されることができる。しかしながら、いくつかの実装では、領域はフレーム境界をまたがない。CCmは、次のように計算されてもよい(上記の擬似コードでは関数MeanRegion()〔平均領域〕として示されている)。
Figure 2016510433
式(11)において、iはチャネル・インデックスを表わし、Lは推定に使われる低周波数帯域(KCPLより下)の数を表わし、Nは現在領域内のブロック数を表わす。ここで、ブロック・インデックスnを含むよう表記cci(l)を拡張している。平均相互相関係数は次に、次のスケーリング演算の反復適用により受領された結合チャネル周波数範囲に外挿され、各結合チャネル周波数帯域について予測されたアルファ値を生成してもよい。
Figure 2016510433
式(12)を適用するとき、最初の結合チャネル周波数帯域についてのfAlphaRhoはCCm(i)*MAPPED_VAR_RHOであってもよい。上記の擬似コードの例では、変数MAPPED_VAR_RHOは、帯域インデックスが増すとともに平均アルファ値が減少する傾向があることを観察することによって、ヒューリスティックに導出された。よって、MAPPED_VAR_RHOは1.0未満に設定される。いくつかの実装では、MAPPED_VAR_RHOは0.98に設定される。
この段階で、空間的パラメータ(この例ではアルファ)が推定された。図10Bの例では、ブロック1022ないし1050に対応するプロセスが実行された。以下のプロセスは、推定された空間的パラメータにノイズを加えるまたはこれを「ディザリングする」ことの例である。これらのプロセスは、方法1020のブロック1055の例である。
種々の型のマルチチャネル入力信号の大きなコーパスについての周波数とともに予測誤差がどのように変化するかの解析に基づいて、発明者は、推定されるアルファ値に課されるランダム化の度合いを制御するヒューリスティックな規則を定式化した。(より低い周波数からの相関計算およびそれに続く外挿によって得られる)結合チャネル周波数範囲内の推定される空間的パラメータは、最終的には、あたかもすべての個々のチャネルが結合されることなく利用可能であった場合にこれらのパラメータがもとの信号からの結合チャネル周波数範囲内で直接計算された場合と同じ統計をもちうる。ノイズを加えることの目標は、経験的に観察されたのと同様の統計的変動を付与することである。上記の擬似コードでは、VBは、帯域(band)インデックスの関数として分散(variance)がどのように変化するかを指定する経験的に導出されたスケーリング項を表わす。VMは、合成された分散が適用される前の、アルファについての予測に基づく経験的に合成された特徴を表わす。これは、予測誤差の分散が実際には予測の関数であるという事実を取り入れる。たとえば、ある帯域についてのアルファの線形予測が1.0に近いときは、分散は非常に低い。項CCvは、現在の共有されるブロック領域についての計算されたcci値の局所的な分散に基づく制御を表わす。CCvは次のように計算されてもよい(上記の擬似コードではVarRegion()によって示されている)。
Figure 2016510433
この例では、VBは帯域インデックスに基づくディザ分散(dither variance)を制御する。VBは、源から計算されたアルファ予測誤差の諸帯域を横断した分散を調べることによって経験的に導出された。発明者は、規格化された分散と帯域インデックスlとの間の関係が次式に従ってモデル化されうることを発見した。
Figure 2016510433
図10Cは、スケーリング項VBと帯域インデックスlとの間の関係を示すグラフである。図10Cは、VB特徴を組み込むことで、帯域インデックスの関数として漸進的により大きな分散をもつ推定されたアルファにつながることを示している。式(13)において、帯域インデックスl≦3は、E-AC-3オーディオ・コーデックの最低結合開始周波数3.42kHzより下の領域に対応する。したがって、それらの帯域インデックスについてのVBの値は重要ではない。
VMパラメータは、予測自身の関数としてアルファ予測誤差の挙動を調べることによって導出された。特に、発明者は、マルチチャネル・コンテンツの大きなコーパスの解析を通じて、予測されるアルファ値が負であるとき、予測誤差の分散が増大し、アルファ=−0.59375でピークをもつことを発見した。これは、解析対象の現在のチャネルが下方混合xDと負の相関をもつとき、推定されるアルファは一般にはよりカオス的となりうることを含意している。下記の式(14)は所望される挙動をモデル化する。
Figure 2016510433
式(14)において、qは予測の量子化されたバージョン(擬似コードではfAlphaRhoで表わされる)を表わし、
q=floor(fAlphaRho*128)
に従って計算されてもよい。
図10Dは、変数VMとqの間の関係を示すグラフである。VMはq=0における値によって規格化され、VMは予測誤差分散に寄与する他の因子を修正することを注意しておく。よって、項VMは、q=0以外の値についての全体的な予測誤差分散に影響するだけである。擬似コードでは、記号iAlphaRhoはq+128に設定されている。このマッピングは、iAlphaRhoについての負の値の必要性を回避し、テーブルのようなデータ構造から直接VM(q)の値を読むことを許容する。
この実装において、次のステップは、三つの因子VM、VbおよびCCvによってランダム変数wをスケーリングすることである。VMとCCvの間の幾何平均が計算され、ランダム変数に対するスケーリング因子として適用される。いくつかの実装では、wは零平均単位分散ガウス分布をもつ乱数の非常に大きなテーブルとして実装されてもよい。
スケーリング・プロセス後、平滑化プロセスが適用されてもよい。たとえば、ディザリングされた推定された空間的パラメータは、たとえば単純な極‐零またはFILO平滑化器を使って、時間を通じて平滑化されてもよい。直前のブロックが結合にはいっていなかった場合、あるいは現在ブロックが諸ブロックの領域における最初のブロックである場合は、平滑化係数は1.0に設定されてもよい。よって、ノイズ記録wからのスケーリングされた乱数は、低域通過フィルタリングされてもよく、これは、推定されたアルファ値の分散を源におけるアルファの分散によりよく一致させることが見出された。いくつかの実装では、この平滑化プロセスは、cci(l)について使われた平滑化ほど積極的でなくてもよい(すなわち、より短いインパルス応答をもつIIR)。
上記のように、アルファおよび/または他の空間的パラメータの推定に関わる諸プロセスは、少なくとも部分的には、図6Cに示されるもののような制御情報受領器/生成器640によって実行されてもよい。いくつかの実装では、制御情報受領器/生成器640の過渡制御モジュール655(またはオーディオ処理システムの一つまたは複数の他のコンポーネント)は、過渡関係の機能を提供するよう構成されていてもよい。過渡検出およびそれに応じた脱相関プロセスの制御のいくつかの例についてここで、図11A以下を参照して述べる。
図11Aは、過渡決定および過渡関係制御のいくつかの方法の概要を示す流れ図である。ブロック1105では、複数のオーディオ・チャネルに対応するオーディオ・データが、たとえばデコード装置または別のそのようなオーディオ処理システムによって、受領される。後述するように、いくつかの実装では、同様のプロセスがエンコード装置によって実行されてもよい。
図11Bは、過渡決定および過渡関係制御のためのさまざまなコンポーネントの例を含むブロック図である。いくつかの実装では、ブロック1105は、オーディオ・データ220およびオーディオ・データ245を、過渡制御モジュール655を含むオーディオ処理システムによって受領することに関わっていてもよい。オーディオ・データ220および245は、オーディオ信号の周波数領域表現を含んでいてもよい。オーディオ・データ220は、結合チャネル周波数範囲内のオーディオ・データ要素を含んでいてもよい。一方、オーディオ・データ要素245は結合チャネル周波数範囲外のオーディオ・データを含んでいてもよい。オーディオ・データ要素220および/または245は、過渡制御モジュール655を含む脱相関器にルーティングされてもよい。
オーディオ・データ要素245および220に加えて、ブロック1105において、過渡制御モジュール655は、脱相関情報240aおよび240bのような他の関連したオーディオ情報を受領してもよい。この例では、脱相関情報240aは明示的な脱相関器固有の制御情報を含んでいてもよい。たとえば、脱相関情報240aは、後述するような明示的な過渡情報を含んでいてもよい。脱相関情報240bは、レガシー・オーディオ・コーデックのビットストリームからの情報を含んでいてもよい。たとえば、脱相関情報240bは、AC-3オーディオ・コーデックまたはE-AC-3オーディオ・コーデックに従ってエンコードされたビットストリームにおいて利用可能な時間セグメンテーション情報を含んでいてもよい。たとえば、脱相関情報240bは、結合使用中(coupling-in-use)情報、ブロック切り換え(block-switching)情報、指数(exponent)情報、指数方針(exponent strategy)情報などを含んでいてもよい。そのような情報は、オーディオ・データ220とともにビットストリームにおいてオーディオ処理システムによって受領されたものであってもよい。
ブロック1110は、オーディオ・データのオーディオ特性を決定することに関わっていてもよい。さまざまな実装において、ブロック1110は、たとえば過渡制御モジュール655によって過渡情報を決定することに関わる。ブロック1115は、少なくとも部分的にはオーディオ特性に基づいてオーディオ・データについての脱相関の量を決定することに関わる。たとえば、ブロック1115は、少なくとも部分的には過渡情報に基づいて脱相関制御情報を決定することに関わっていてもよい。
ブロック1115では、図11Bの過渡制御モジュール655が脱相関信号生成器制御情報625を、本稿の他書で述べた脱相関信号生成器218のような脱相関信号生成器に提供してもよい。ブロック1115では、過渡制御モジュール655はまた、混合器制御情報645を混合器215のような混合器に提供してもよい。ブロック1120では、オーディオ・データはブロック1115においてなされた決定に従って処理されてもよい。たとえば、脱相関信号生成器218および混合器215の動作は、少なくとも部分的には、過渡制御モジュール655によって提供される脱相関制御情報に従って実行されてもよい。
いくつかの実装では、図11Aのブロック1110は、オーディオ・データとともに明示的な過渡情報を受領し、少なくとも部分的には該明示的な過渡情報に従って前記過渡情報を決定することに関わってもよい。
いくつかの実装では、明示的な過渡情報は、確かな過渡イベントに対応する過渡値を示していてもよい。そのような過渡値は比較的高い(または最大の)過渡値であってもよい。高い過渡値は、過渡イベントの高い確からしさおよび/または高い深刻さに対応していてもよい。たとえば、可能な過渡値が0から1までの範囲である場合、0.9から1までの間の過渡値の範囲は確かなおよび/または深刻な過渡イベントに対応しうる。しかしながら、たとえば0から9、1から100など、過渡値のいかなる適切な範囲が使われてもよい。
明示的な過渡情報は、確かな非過渡イベントに対応する過渡値を示してもよい。たとえば、可能な過渡値が1から100までの範囲である場合、1〜5の範囲内の値は、確かな非過渡イベントまたは非常に穏やかな過渡イベントに対応しうる。
いくつかの実装では、明示的な過渡情報は、たとえば0または1の二値表現を有していてもよい。たとえば、1の値は確かな過渡イベントと対応しうる。しかしながら、0の値は確かな非過渡イベントを示さないこともある。その代わりに、いくつかのそのような実装では、0の値は単に、確かなおよび/または深刻な過渡イベントがないことを示すのであってもよい。
しかしながら、いくつかの実装では、明示的な過渡情報は、最小過渡値(たとえば0)と最大過渡値(たとえば1)との間の中間的な過渡値を含んでいてもよい。中間的な過渡値は、過渡イベントの中間的な確からしさおよび/または中間的な深刻さに対応しうる。
図11Bの脱相関フィルタ入力制御モジュール1125は、脱相関情報240aを介して受領される明示的な過渡情報に従ってブロック1110において過渡情報を決定してもよい。代替的または追加的に、脱相関フィルタ入力制御モジュール1125は、レガシー・オーディオ・コーデックのビットストリームからの情報に従ってブロック1110において過渡情報を決定してもよい。たとえば、脱相関情報240bに基づいて、脱相関フィルタ入力制御モジュール1125は、現在ブロックについてチャネル結合が使われていないこと、当該チャネルが現在ブロックにおいて結合の外であることおよび/または当該チャネルが現在ブロックにおいてブロック切り換えされることを判別してもよい。
脱相関情報240aおよび/または240bに基づいて、脱相関フィルタ入力制御モジュール1125は時々、ブロック1110において、確かな過渡イベントに対応する過渡値を決定してもよい。もしそうであれば、いくつかの実装では、脱相関フィルタ入力制御モジュール1125はブロック1115において、脱相関プロセス(および/または脱相関フィルタ・ディザリング・プロセス)が一時的に停止されるべきであると判定してもよい。よって、ブロック1120において、脱相関フィルタ入力制御モジュール1125は、脱相関プロセス(および/または脱相関フィルタ・ディザリング・プロセス)が一次的に停止されるべきであることを示す脱相関信号生成器制御情報625eを生成してもよい。代替的または追加的に、ブロック1120において、ソフト過渡計算器1130が、脱相関フィルタ・ディザリング・プロセスが一時的に停止されるまたは遅くされるべきであることを示す脱相関信号生成器制御情報625fを生成してもよい。
代替的な実装では、ブロック1110は、オーディオ・データとともに明示的な過渡情報を受領しないことに関わっていてもよい。しかしながら、明示的な過渡情報が受領されるか否かによらず、方法1100のいくつかの実装は、オーディオ・データ220の解析に従って過渡イベントを検出することに関わっていてもよい。たとえば、いくつかの実装では、たとえ明示的な過渡情報が過渡イベントを示さないときでも、ブロック1110において過渡イベントが検出されることがある。オーディオ・データ220の解析に従ってデコーダまたは同様のオーディオ処理システムによって判別または検出される過渡イベントは、本稿では「ソフト過渡イベント(soft transient event)」と称されることがある。
いくつかの実装では、過渡値が明示的な過渡値として与えられるかソフト過渡値として決定されるかによらず、過渡値は指数関数的な減衰関数に従ってもよい。たとえば、指数関数的な減衰関数は、過渡値を、ある時間期間にわたって初期値から0になめらかに減衰させてもよい。過渡値を指数関数的な減衰関数に従わせることは、急峻な切り換えに関連するアーチファクトを防止しうる。
いくつかの実装では、ソフト過渡イベントの検出は、過渡イベントの確からしさおよび/または深刻さを評価することに関わっていてもよい。そのような評価は、オーディオ・データ220中の時間的なパワー変動を計算することに関わっていてもよい。
図11Cは、少なくとも部分的にオーディオ・データの時間的なパワー変動に基づいて過渡制御値を決定するいくつかの方法の概要を示す流れ図である。いくつかの実装では、方法1150は、少なくとも部分的には、過渡制御モジュール655のソフト過渡計算器1130によって実行されてもよい。しかしながら、いくつかの実装では、方法1150は、エンコード装置によって実行されてもよい。いくつかのそのような実装では、明示的な過渡情報が、方法1150に従ってエンコード装置によって決定され、他のオーディオ・データと一緒にビットストリームに含められてもよい。
方法1150は、結合チャネル周波数範囲内の上方混合されたオーディオ・データが受領されるブロック1152で始まる。図11Bでは、たとえば、上方混合されたオーディオ・データ要素220は、ブロック1152においてソフト過渡計算器1130によって受領されてもよい。ブロック1154では、受領された結合チャネル周波数範囲は、一つまたは複数の周波数帯域に分割されてもよい。これらの周波数帯域は本稿では「パワー帯域」と称されることもある。
ブロック1156は、上方混合されたオーディオ・データの各チャネルおよびブロックについて周波数帯域重み付けされた(frequency-band-weighted)対数パワー(WLP)を計算することに関わる。WLPを計算するために、各パワー帯域のパワーが決定されてもよい。これらのパワーは、対数値に変換され、次いで諸パワー帯域を通じて平均されてもよい。いくつかの実装では、ブロック1156は、次の式に従って実行されてもよい。
Figure 2016510433
式(15)において、WLP[ch][blk]は、あるチャネルおよびブロックについての重み付けされた対数パワーを表わし、[pwr_bnd]は受領された結合チャネル周波数範囲が分割された先の周波数帯域または「パワー帯域」を表わし、meanpwr_bnd{log(P[ch][blk][pwr_bnd])}は、そのチャネルおよびブロックについての諸パワー帯域を通じたパワーの対数の平均を表わす。
帯域分割(banding)は、次の理由により、より高い周波数におけるパワー変動をあらかじめ強調することがある。結合チャネル周波数範囲全体が一つの帯域であったとしたら、P[ch][blk][pwr_bnd]は結合チャネル周波数範囲内の各周波数におけるパワーの算術平均となり、典型的により高いパワーをもつより低い周波数がP[ch][blk][pwr_bnd]の値を、よってlog(P[ch][blk][pwr_bnd])の値を圧倒する傾向がある。(この場合、一つの帯域しかないので、log(P[ch][blk][pwr_bnd])は平均log(P[ch][blk][pwr_bnd])と同じ値をもつことになる。)よって、過渡検出は、より低い周波数における時間的変動に大幅に基づくことになる。結合チャネル周波数範囲をたとえばより低い周波数帯域とより高い周波数帯域に分割し、次いで両帯域のパワーを平均することは、より低い周波数のパワーとより高い周波数のパワーの幾何平均を計算することと等価である。そのような幾何平均は、算術平均よりも、より高い周波数のパワーに近くなる。したがって、帯域分割し、対数(パワー)を決定し、次いで平均を決定することは、より高い周波数における時間的変動により敏感な量を与える傾向がある。
この実装では、ブロック1158は、WLPに基づいて非対称パワー差分(APD: asymmetric power differential)を決定することに関わっていてもよい。たとえば、APDは次のように決定されてもよい。
Figure 2016510433
式(16)において、dWLP[ch][blk]は、あるチャネルおよびブロックについての差分の重み付けされた対数パワーを表わし、WLP[ch][blk][blk−2]は、そのチャネルについての2ブロック前の重み付けされた対数パワーを表わす。式(16)の例は、E-AC-3およびAC-3のようなオーディオ・コーデックを介してエンコードされた、連続するブロックの間の50%の重なりがあるオーディオ・データを処理するために有用である。よって、現在ブロックのWLPは2ブロック前のWLPと比較される。連続するブロックの間に重なりがなければ、現在ブロックのWLPは直前のブロックのWLPと比較されてもよい。
この例は、以前の諸ブロックの可能な時間的マスキング効果を利用する。よって、現在ブロックのWLPが前のブロックのもの(この例では2ブロック前のWLP)以上であれば、APDは実際のWLP差分に等しく設定される。しかしながら、現在ブロックのWLPが前のブロックのもの未満であれば、APDは実際のWLP差分の半分に等しく設定される。よって、APDは、増大するパワーを強調し、減少するパワーを脱強調する。他の実装では、実際のWLP差分のたとえば1/4など、実際のWLP差分の異なる割合が使用されてもよい。
ブロック1160は、APDに基づいて生の過渡指標(RTM: raw transient measure)を決定することに関わっていてもよい。この実装では、生の過渡指標を決定することは、時間的な非対称パワー差分がガウス分布に従って分布しているとの想定に基づいて過渡イベントの尤度関数を計算することに関わる:
Figure 2016510433
式(17)において、RTM[ch][blk]は、あるチャネルおよびブロックについての生の過渡指標を表わし、SAPDはチューニング・パラメータを表わす。この例では、SAPDが増加させられると、同じ値のRTMを生成するために、相対的により大きなパワー差分が必要とされるようになる。
本稿で「過渡指標(transient measure)」と称されることもある過渡制御値(transient control value)は、ブロック1162においてRTMから決定されてもよい。この例では、過渡制御値は式(18)に従って決定される:
Figure 2016510433
式(18)において、TM[ch][blk]はあるチャネルおよびブロックについての過渡指標を表わし、THは上の閾値を表わし、TLは下の閾値を表わす。図11Dは、式(18)の適用およびいかにして閾値THおよびTLが使用されうるかの例を与えている。他の実装は、RTMからTMへの他の型の線形または非線型のマッピングに関わっていてもよい。いくつかのそのような実装によれば、TMはRTMの非減少関数である。
図11Dは、生の過渡値を過渡制御値にマッピングする例を示すグラフである。ここでは、生の過渡値と過渡制御値はいずれも0.0から1.0の範囲であるが、他の実装は値の他の範囲に関わっていてもよい。式(18)および図11Dに示されるように、生の過渡値が上の閾値TH以上であれば、過渡制御値はその最大値に設定される。最大値はこの例では1.0である。いくつかの実装では、最大過渡制御値は、確かな過渡イベントと対応してもよい。
生の過渡値が下の閾値TL以下である場合には、過渡制御値はその最小値に設定される。最小値はこの例では0.0である。いくつかの実装では、最小過渡制御値は、確かな非過渡イベントと対応してもよい。
しかしながら、生の過渡値が下の閾値TLと上の閾値THの間の範囲1166内である場合には、過渡制御値は、この例では0.0から1.0の間である中間過渡制御値にスケーリングされてもよい。中間過渡制御値は、過渡イベントの相対的な確からしさおよび/または相対的な深刻さと対応してもよい。
再び図11Cを参照するに、ブロック1164において、ブロック1162で決定された過渡制御値に指数関数的な減衰関数が適用されてもよい。たとえば、指数関数的な減衰関数は、過渡制御値を、ある時間期間にわたって初期値から0になめらかに減衰させてもよい。過渡制御値を指数関数的な減衰関数に従わせることは、急峻な切り換えに関連するアーチファクトを防止しうる。いくつかの実装では、各現在ブロックの過渡制御値が計算され、前のブロックの過渡制御値の指数関数的な減衰したバージョンと比較されてもよい。現在ブロックについての最終的な過渡制御値は、二つの過渡制御値のうちの最大として設定されてもよい。
過渡情報は、他のオーディオ・データと一緒に受領されてもあるいはデコーダによって決定されても、脱相関プロセスを制御するために使用されてもよい。過渡情報は、上記のような過渡制御値を含んでいてもよい。いくつかの実装では、オーディオ・データについての脱相関の量が、少なくとも部分的にはそのような過渡情報に基づいて修正(たとえば低減)されてもよい。
上記のように、そのような脱相関プロセスは、オーディオ・データの一部に脱相関フィルタを適用し、フィルタリングされたオーディオ・データを生成し、フィルタリングされたオーディオ・データを混合比に従って受領されたオーディオ・データの一部と組み合わせることに関わっていてもよい。いくつかの実装は、過渡情報に従って混合器215を制御することに関わっていてもよい。たとえば、そのような実装は、少なくとも部分的には過渡情報に基づいて前記混合比を修正することに関わっていてもよい。そのような過渡情報はたとえば、混合器過渡制御モジュール1145によって混合器制御情報645に含められてもよい。(図11B参照。)
いくつかのそのような実装によれば、過渡制御値は、過渡イベントの間、脱相関をサスペンドまたは低減するためにアルファを修正するよう混合器215によって使用されてもよい。たとえば、アルファは次の擬似コードに従って修正されてもよい。
Figure 2016510433
上記の擬似コードにおいて、alpha[ch][bnd]はあるチャネルについてのある周波数帯域のアルファ値を表わす。項decorrelationDecayArray[ch]は、0から1までの範囲の値を取る指数関数的な減衰変数を表わす。いくつかの例では、これらのアルファは過渡イベントの間、±1のほうに向かって修正されてもよい。修正の程度はdecorrelationDecayArray[ch]に比例していてもよい。これは、脱相関信号についての混合重みを0のほうに向かって低減し、よって脱相関をサスペンドまたは低減する。decorrelationDecayArray[ch]の指数関数的な減衰は、通常の脱相関プロセスをゆっくりと回復する。
いくつかの実装では、ソフト過渡計算器1130は、空間的パラメータ・モジュール665にソフト過渡情報を提供してもよい。少なくとも部分的にはソフト過渡情報に基づいて、空間的パラメータ・モジュール665は、ビットストリームにおいて受領された空間的パラメータを平滑化するためまたはエネルギーおよび空間的パラメータ推定に関わる他の量を平滑化するための平滑化器を選択してもよい。
いくつかの実装は、過渡情報に従って脱相関信号生成器218を制御することに関わっていてもよい。たとえば、そのような実装は、少なくとも部分的には過渡情報に基づいて脱相関フィルタ・ディザリング・プロセスを修正または一時的に停止させることに関わっていてもよい。過渡イベントの間全通過フィルタの極をディザリングすることは望まれないリンギング・アーチファクトを引き起こしうるので、これは有利でありうる。いくつかのそのような実装では、脱相関フィルタの極をディザリングするための最大ストライド値が、少なくとも部分的には過渡情報に基づいて修正されてもよい。
たとえば、ソフト過渡計算器1130は、脱相関信号生成器制御情報625fを脱相関信号生成器218の脱相関フィルタ制御モジュール405に提供してもよい(図4も参照)。脱相関フィルタ制御モジュール405は、脱相関信号生成器制御情報625fに応答して時間変化するフィルタ1127を生成してもよい。いくつかの実装によれば、脱相関信号生成器制御情報625fは、
Figure 2016510433
のように、指数関数的な減衰変数の最大値に従って最大ストライド値を制御するための情報を含んでいてもよい。
たとえば、最大ストライド値は、いずれかのチャネルにおいて過渡イベントが検出されるときに上式を乗算されてもよい。ディザリング・プロセスはしかるべく停止または減速されうる。
いくつかの実装では、少なくとも部分的には過渡情報に基づいて、フィルタリングされたオーディオ・データに利得が適用されてもよい。たとえば、フィルタリングされたオーディオ・データのパワーが直接オーディオ・データのパワーと一致させられてもよい。いくつかの実装では、そのような機能は図11Bのダッカー・モジュール1135によって提供されてもよい。
ダッカー・モジュール1135は、過渡制御値のような過渡情報を、ソフト過渡計算器1130から受領してもよい。ダッカー・モジュール1135は、過渡制御値に従って脱相関信号生成器制御情報625hを決定してもよい。ダッカー・モジュール1135は、脱相関信号生成器制御情報625hを脱相関信号生成器218に提供してもよい。たとえば、脱相関信号生成器制御情報625hは、フィルタリングされたオーディオ・データを直接オーディオ・データのパワー以下のレベルに維持するために脱相関信号生成器218が脱相関信号227に適用することができる利得値を含む。ダッカー・モジュール1135は、結合中の各受領されたチャネルについて、結合チャネル周波数範囲内の周波数帯域毎のエネルギーを計算することによって、脱相関信号生成器制御情報625hを決定してもよい。
ダッカー・モジュール1135はたとえば、ダッカーのバンクを含んでいてもよい。そのような実装では、ダッカーは、ダッカー・モジュール1135によって決定された結合チャネル周波数範囲内の周波数帯域毎のエネルギーを一時的に記憶するためのバッファを含んでいてもよい。固定した遅延が、フィルタリングされたオーディオ・データに適用されてもよく、それらのバッファに同じ遅延が適用されてもよい。
ダッカー・モジュール1135は、混合器に関係した情報を決定してもよく、該混合器に関係した情報を混合器過渡制御モジュール1145に提供してもよい。いくつかの実装では、ダッカー・モジュール1135は、フィルタリングされたオーディオ・データに適用されるべき利得に基づいて前記混合比を修正するよう混合器215を制御するための情報を提供してもよい。いくつかのそのような実装によれば、ダッカー・モジュール1135は、過渡イベントの間、脱相関をサスペンドまたは低減するよう混合器215を制御するための情報を提供してもよい。たとえば、ダッカー・モジュール1135は次の混合器に関係した情報を提供してもよい。
Figure 2016510433
上記の擬似コードにおいて、TransCtrlFlagは過渡制御値を表わし、DecorrGain[ch][bnd]はフィルタリングされたオーディオ・データのあるチャネルのある帯域に適用する利得を表わす。
いくつかの実装では、前記ダッカーについてのパワー推定平滑化窓は、少なくとも部分的には過渡情報に基づいていてもよい。たとえば、過渡イベントが相対的により確からしいときまたは相対的により強い過渡イベントが検出されるときには、より短い平滑化窓が適用されてもよい。過渡イベントが相対的により確からしくないとき、相対的により弱い過渡イベントが検出されるときまたは過渡イベントが検出されないときには、より長い平滑化窓が適用されてもよい。たとえば、窓長が、フラグ値が最大値(たとえば1.0)に近いときはより短く、フラグ値が最小値(たとえば0.0)に近いときはより長いよう、平滑化窓が過渡制御値に基づいて動的に調整されてもよい。そのような実装は、非過渡状況の間なめらかな利得因子を与えつつ、過渡イベントの間の時間ぼかし(time smearing)を回避する助けとなりうる。
上記のように、いくつかの実装では、過渡情報はエンコード装置によって決定されてもよい。図11Eは、過渡情報をエンコードする方法の概要を示す流れ図である。ブロック1172では、複数のオーディオ・チャネルに対応するオーディオ・データが受領される。この例では、オーディオ・データはエンコード装置によって受領される。いくつかの実装では、オーディオ・データは時間領域から周波数領域に変換されてもよい(任意的なブロック1174)。
ブロック1176では、過渡情報を含むオーディオ特性が決定される。たとえば、過渡情報が図11A〜11Dを参照して上記したように決定されてもよい。たとえば、ブロック1176は、オーディオ・データにおける時間的なパワー変動を評価することに関わっていてもよい。ブロック1176は、オーディオ・データにおける時間的なパワー変動に従って過渡制御値を決定することに関わっていてもよい。そのような過渡制御値は、確かな過渡イベント、確かな非過渡イベント、過渡イベントの確からしさおよび/または過渡イベントの深刻さを示してもよい。ブロック1176は、指数関数的な減衰関数を過渡制御値に適用することに関わってもよい。
いくつかの実装では、ブロック1176において決定されたオーディオ特性は、実質的に本稿の他所に記述されるようにして決定されてもよい空間的パラメータを含んでいてもよい。しかしながら、結合チャネル周波数範囲外の相関を計算する代わりに、空間的パラメータは、結合チャネル周波数範囲内の相関を計算することによって決定されてもよい。たとえば、結合をもってエンコードされるある個別チャネルについての諸アルファが、周波数帯域毎にそのチャネルと結合チャネルとの変換係数の間の相関を計算することによって決定されてもよい。いくつかの実装では、エンコーダは、オーディオ・データの複素周波数表現を使って空間的パラメータを決定してもよい。
ブロック1178は、オーディオ・データの二つ以上のチャネルの少なくとも一部を結合チャネルに結合することに関わる。たとえば、結合チャネル周波数範囲内である、結合チャネルのためのオーディオ・データの周波数領域表現が、ブロック1178において組み合わされてもよい。いくつかの実装では、二つ以上の結合チャネルがブロック1178において形成されてもよい。
ブロック1180において、エンコードされたオーディオ・データ・フレームが形成される。この例では、エンコードされたオーディオ・データ・フレームは、結合チャネル(単数または複数)に対応するデータと、ブロック1176で決定されたエンコードされた過渡情報とを含む。たとえば、エンコードされた過渡情報は、一つまたは複数の制御フラグを含んでいてもよい。制御フラグは、チャネル・ブロック切り換えフラグ、チャネル結合外フラグおよび/または結合使用中フラグを含んでいてもよい。ブロック1180は、それらの制御フラグの一つまたは複数の組み合わせを決定して、確かな過渡イベント、確かな非過渡イベント、過渡イベントの確からしさまたは過渡イベントの深刻さを示すエンコードされた過渡情報を形成することに関わっていてもよい。
制御フラグを組み合わせることによって形成されるか否かによらず、エンコードされた過渡情報は、脱相関プロセスを制御するための情報を含んでいてもよい。たとえば、過渡情報は、脱相関プロセスが一時的に停止されるべきであることを示していてもよい。過渡情報は、脱相関プロセスにおける脱相関の量が一時的に低減されるべきであることを示していてもよい。過渡情報は、脱相関プロセスの混合比が修正されるべきであることを示していてもよい。
エンコードされたオーディオ・データ・フレームは、結合チャネル周波数範囲外の個々のチャネルについてのオーディオ・データ、結合内でないチャネルについてのオーディオ・データなどを含む、さまざまな他の型のオーディオ・データをも含んでいてもよい。いくつかの実装では、エンコードされたオーディオ・データ・フレームは、空間的パラメータ、結合座標および/または本稿の他所で記述されたような他の型の副次情報を含んでいてもよい。
図12は、本稿に記載されるプロセスの諸側面を実装するよう構成されうる装置のコンポーネントの例を与えるブロック図である。装置1200は、携帯電話、スマートフォン、デスクトップ・コンピュータ、ハンドヘルドまたはポータブル・コンピュータ、ネットブック、ノートブック、スマートブック、タブレット、ステレオ・システム、テレビジョン、DVDプレーヤー、デジタル記録装置または多様な他の装置の任意のものでありうる。装置1200は、エンコード・ツールおよび/またはデコード・ツールを含んでいてもよい。しかしながら、図12に示されるコンポーネントは単に例である。特定の装置は、本稿に記載されるさまざまな実施形態を実装するよう構成されうるが、すべてのコンポーネントを含んでいてもいなくてもよい。たとえば、いくつかの実装は、スピーカーまたはマイクロフォンを含んでいなくてもよい。
この例では、本装置は、インターフェース・システム1205を含む。インターフェース・システム1205は、無線ネットワーク・インターフェースのようなネットワーク・インターフェースを含んでいてもよい。代替的または追加的に、インターフェース・システム1205はユニバーサル・シリアル・バス(USB)インターフェースまたは他のそのようなインターフェースを含んでいてもよい。
装置1200は論理システム1210を含んでいる。論理システム1210は、汎用の単一チップまたは複数チップのプロセッサのようなプロセッサを含んでいてもよい。論理システム1210は、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールド・プログラマブル・ゲート・アレイ(FPGA)または他のプログラム可能な論理デバイス、離散的ゲートまたはトランジスタ論理または離散的なハードウェア・コンポーネントまたはそれらの組み合わせを含んでいてもよい。論理システム1210は、装置1200の他のコンポーネントを制御するよう構成されていてもよい。装置1200のコンポーネント間のインターフェースは図12には示されていないが、論理システム1210は、他のコンポーネントとの通信のために構成されていてもよい。他のコンポーネントは、適宜、互いとの通信のために構成されていてもいなくてもよい。
論理システム1210は、エンコーダおよび/またはデコーダ機能のようなさまざまな型のオーディオ処理機能を実行するよう構成されていてもよい。そのようなエンコーダおよび/またはデコーダ機能は、本稿に記載された型のエンコーダおよび/またはデコーダ機能を含んでいてもよいがそれに限られない。たとえば、論理システム1210は、本稿に記載される脱相関器に関係した機能を提供するよう構成されていてもよい。いくつかのそのような実装では、論理システム1210は、(少なくとも部分的には)一つまたは複数の非一時的媒体上に記憶されるソフトウェアに従って、動作するよう構成されていてもよい。非一時的な媒体は、ランダム・アクセス・メモリ(RAM)および/または読み出し専用メモリ(ROM)のような論理システム1210に関連したメモリを含んでいてもよい。非一時的な媒体はメモリ・システム1215のメモリを含んでいてもよい。メモリ・システム1215は、フラッシュ・メモリ、ハードドライブなどのような一つまたは複数の好適な型の非一時的な記憶媒体を含んでいてもよい。
たとえば、論理システム1210は、インターフェース・システム1205を介してエンコードされたオーディオ・データのフレームを受領し、エンコードされたオーディオ・データを本稿に記載される方法に従ってデコードするよう構成されていてもよい。代替的または追加的に、論理システム1210は、メモリ・システム1215と論理システム1210との間のインターフェースを介して、エンコードされたオーディオ・データのフレームを受領するよう構成されていてもよい。論理システム1210は、デコードされたオーディオ・データに基づいてスピーカー(単数または複数)1220を制御するよう構成されていてもよい。いくつかの実装では、論理システム1210は、通常のエンコード方法に従っておよび/または本稿に記載されたエンコード方法に従ってオーディオ・データをエンコードするよう構成されていてもよい。論理システム1210は、マイクロフォン1225を介して、インターフェース・システム1205を介してなどにより、そのようなオーディオ・データを受領するよう構成されていてもよい。
ディスプレイ・システム1230は、装置1200の具現に依存して一つまたは複数の好適な型のディスプレイを含んでいてもよい。たとえば、ディスプレイ・システム1230は、液晶ディスプレイ、プラズマ・ディスプレイ、双安定ディスプレイなどを含んでいてもよい。
ユーザー入力システム1235は、ユーザーからの入力を受け入れるよう構成された一つまたは複数の装置を含んでいてもよい。いくつかの実装では、ユーザー入力システム1235は、ディスプレイ・システム1230のディスプレイにかぶさるタッチスクリーンを含んでいてもよい。ユーザー入力システム1235は、ボタン、キーボード、スイッチなどを含んでいてもよい。いくつかの実装では、ユーザー入力システム1235はマイクロフォン1225を含んでいてもよい:ユーザーはマイクロフォン1225を介して装置1200のための音声コマンドを提供しうる。論理システムは、音声認識のためおよびそのような音声コマンドに従った装置1200の少なくともいくつかの動作の制御のために構成されていてもよい。
電源システム1240は、ニッケル・カドミウム電池またはリチウム・イオン電池のような一つまたは複数の好適なエネルギー蓄積デバイスを含んでいてもよい。電源システム1240は、電気コンセントから電力を受領するよう構成されていてもよい。
本開示に記載される実装に対するさまざまな修正が当業者にはすぐに明白となりうる。本稿に定義される一般原理は、本開示の精神や範囲から外れることなく、他の実装に適用されてもよい。たとえば、ドルビー・デジタルおよびドルビー・デジタル・プラスを使ってさまざまな実装について記述したが、本稿に記載される方法は他のオーディオ・コーデックとの関連で実装されてもよい。このように、請求項は、本稿に示される実装に限定されることは意図されておらず、本開示、本稿に開示される原理および新規な特徴と整合する最も広い範囲を与えられるべきものである。

Claims (45)

  1. 複数のオーディオ・チャネルに対応するオーディオ・データを受領する段階であって、前記オーディオ・データはオーディオ・エンコードまたは処理システムのフィルタバンク係数に対応する周波数領域表現を含む、段階と;
    前記オーディオ・データの少なくとも一部に脱相関プロセスを適用する段階であって、前記脱相関プロセスは、前記オーディオ・エンコードまたは処理システムによって使用されるのと同じフィルタバンク係数をもって実行される、段階とを含む、
    方法。
  2. 前記脱相関プロセスは、前記周波数領域表現の係数を別の周波数領域表現や時間領域表現に変換することなく、実行される、請求項1記載の方法。
  3. 前記周波数領域表現は、完璧な再構成、臨界サンプリングされたフィルタバンクを適用することの結果である、請求項1または2記載の方法。
  4. 前記脱相関プロセスは、前記周波数領域表現の少なくとも一部に線形フィルタを適用することによって残響信号または脱相関信号を生成することを含む、請求項3記載の方法。
  5. 前記周波数領域表現は、修正離散サイン変換、修正離散コサイン変換または重複直交変換を時間領域のオーディオ・データに適用することの結果である、請求項1ないし4のうちいずれか一項記載の方法。
  6. 前記脱相関プロセスは、完全に、実数値の係数に作用する、脱相関アルゴリズムを適用することを含む、請求項1ないし5のうちいずれか一項記載の方法。
  7. 前記脱相関プロセスは、特定のチャネルの選択的なまたは信号適応的な脱相関を含む、請求項1ないし6のうちいずれか一項記載の方法。
  8. 前記脱相関プロセスは、特定の周波数帯域の選択的なまたは信号適応的な脱相関を含む、請求項1ないし7のうちいずれか一項記載の方法。
  9. 前記脱相関プロセスは、受領されたオーディオ・データの一部に脱相関フィルタを適用して、フィルタリングされたオーディオ・データを生成することを含む、請求項1ないし8のうちいずれか一項記載の方法。
  10. 前記脱相関プロセスは、非階層的混合器を使って、空間的パラメータに従って、受領された前記オーディオ・データの直接部分を、前記フィルタリングされたオーディオ・データと組み合わせることを含む、請求項9記載の方法。
  11. 脱相関情報を、前記オーディオ・データと一緒に受領する段階をさらに含み、前記脱相関プロセスは、前記オーディオ・データの少なくとも一部を、受領された脱相関情報に従って脱相関することを含む、請求項1ないし10のうちいずれか一項記載の方法。
  12. 受領された脱相関情報が、個々の離散的なチャネルと結合チャネルとの間の相関係数、個々の離散的なチャネルの間の相関係数、明示的なトーン性情報または過渡情報のうちの少なくとも一つを含む、請求項11記載の方法。
  13. 受領されたオーディオ・データに基づいて脱相関情報を決定する段階をさらに含み、前記脱相関プロセスは、決定された脱相関情報に従って前記オーディオ・データの少なくとも一部を脱相関することを含む、請求項1ないし12のうちいずれか一項記載の方法。
  14. 前記オーディオ・データと一緒にエンコードされた脱相関情報を受領する段階をさらに含み、前記脱相関プロセスは、受領された脱相関情報または決定された脱相関情報の少なくとも一方に従って前記オーディオ・データの少なくとも一部を脱相関することを含む、請求項13記載の方法。
  15. 前記オーディオ・エンコードまたは処理システムが、レガシーのオーディオ・エンコードまたは処理システムである、請求項1ないし14のうちいずれか一項記載の方法。
  16. 前記レガシーのオーディオ・エンコードまたは処理システムによって生成されたビットストリームにおいて制御機構要素を受領する段階をさらに含み、前記脱相関プロセスは、少なくとも部分的には、前記制御機構要素に基づく、請求項15記載の方法。
  17. インターフェースと論理システムとを有する装置であって、前記論理システムは:
    前記インターフェースを介して複数のオーディオ・チャネルに対応するオーディオ・データを受領する段階であって、前記オーディオ・データはオーディオ・エンコードまたは処理システムのフィルタバンク係数に対応する周波数領域表現を含む、段階と;
    前記オーディオ・データの少なくとも一部に脱相関プロセスを適用する段階であって、前記脱相関プロセスは、前記オーディオ・エンコードまたは処理システムによって使用されるのと同じフィルタバンク係数をもって実行される、段階とを実行するよう構成されている、
    装置。
  18. 前記脱相関プロセスは、前記周波数領域表現の係数を別の周波数領域または時間領域の表現に変換することなく、実行される、請求項17記載の装置。
  19. 前記周波数領域表現は、臨界サンプリングされたフィルタバンクを適用することの結果である、請求項17または18記載の装置。
  20. 前記脱相関プロセスは、前記周波数領域表現の少なくとも一部に線形フィルタを適用することによって残響信号または脱相関信号を生成することを含む、請求項19記載の装置。
  21. 前記周波数領域表現は、修正離散サイン変換、修正離散コサイン変換または重複直交変換を時間領域のオーディオ・データに適用することの結果である、請求項17ないし20のうちいずれか一項記載の装置。
  22. 前記脱相関プロセスは、完全に実数値の係数に作用する脱相関アルゴリズムを適用することを含む、請求項17ないし21のうちいずれか一項記載の装置。
  23. 前記脱相関プロセスは、特定のチャネルの選択的なまたは信号適応的な脱相関を含む、請求項17ないし22のうちいずれか一項記載の装置。
  24. 前記脱相関プロセスは、特定の周波数帯域の選択的なまたは信号適応的な脱相関を含む、請求項17ないし23のうちいずれか一項記載の装置。
  25. 前記脱相関プロセスは、受領された前記オーディオ・データの一部に脱相関フィルタを適用して、フィルタリングされたオーディオ・データを生成することを含む、請求項17ないし24のうちいずれか一項記載の装置。
  26. 前記脱相関プロセスは、非階層的混合器を使って、空間的パラメータに従って、受領された前記オーディオ・データの前記一部を、前記フィルタリングされたオーディオ・データと組み合わせることを含む、請求項25記載の装置。
  27. 前記論理システムは、汎用の単一チップもしくは複数チップ・プロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールド・プログラマブル・ゲート・アレイ(FPGA)または他のプログラム可能な論理デバイス、離散的ゲートまたはトランジスタ論理または離散的なハードウェア・コンポーネントのうちの少なくとも一つを含む、請求項17ないし26のうちいずれか一項記載の装置。
  28. メモリ・デバイスをさらに有しており、前記インターフェースは、前記論理システムと前記メモリ・デバイスとの間のインターフェースを含む、請求項17ないし27のうちいずれか一項記載の装置。
  29. 前記インターフェースがネットワーク・インターフェースを含む、請求項17ないし28のうちいずれか一項記載の装置。
  30. 前記オーディオ・エンコードまたは処理システムは、レガシーのオーディオ・エンコードまたは処理システムである、請求項17ないし29のうちいずれか一項記載の装置。
  31. 前記論理システムは、前記インターフェースを介して、前記レガシーのオーディオ・エンコードまたは処理システムによって生成されたビットストリームにおいて制御機構要素を受領するようさらに構成されており、前記脱相関プロセスは、少なくとも部分的には、前記制御機構要素に基づく、請求項30記載の装置。
  32. ソフトウェアが記憶されている非一時的な媒体であって、前記ソフトウェアは:
    複数のオーディオ・チャネルに対応するオーディオ・データを受領する段階であって、前記オーディオ・データはオーディオ・エンコードまたは処理システムのフィルタバンク係数に対応する周波数領域表現を含む、段階と;
    前記オーディオ・データの少なくとも一部に脱相関プロセスを適用する段階であって、前記脱相関プロセスは、前記オーディオ・エンコードまたは処理システムによって使用されるのと同じフィルタバンク係数をもって実行される、段階とを実行するよう
    装置を制御するための命令を含む、
    非一時的な媒体。
  33. 前記脱相関プロセスは、前記周波数領域表現の係数を別の周波数領域または時間領域の表現に変換することなく、実行される、請求項32記載の非一時的な媒体。
  34. 前記周波数領域表現は、臨界サンプリングされたフィルタバンクを適用することの結果である、請求項32または33記載の非一時的な媒体。
  35. 前記脱相関プロセスは、前記周波数領域表現の少なくとも一部に線形フィルタを適用することによって残響信号または脱相関信号を生成するを含む、請求項34記載の非一時的な媒体。
  36. 前記周波数領域表現は、修正離散サイン変換、修正離散コサイン変換または重複直交変換を時間領域のオーディオ・データに適用することの結果である、請求項32ないし35のうちいずれか一項記載の非一時的な媒体。
  37. 前記脱相関プロセスは、完全に実数値の係数に作用する脱相関アルゴリズムを適用することを含む、請求項32ないし36のうちいずれか一項記載の非一時的な媒体。
  38. 複数のオーディオ・チャネルに対応するオーディオ・データを受領する手段であって、前記オーディオ・データはオーディオ・エンコードまたは処理システムのフィルタバンク係数に対応する周波数領域表現を含む、手段と;
    前記オーディオ・データの少なくとも一部に脱相関プロセスを適用する手段であって、前記脱相関プロセスは、前記オーディオ・エンコードまたは処理システムによって使用されるのと同じフィルタバンク係数をもって実行される、手段とを有する、
    装置。
  39. 前記脱相関プロセスは、前記周波数領域表現の係数を別の周波数領域または時間領域の表現に変換することなく、実行される、請求項38記載の装置。
  40. 前記周波数領域表現は、臨界サンプリングされたフィルタバンクを適用することの結果である、請求項38または39記載の装置。
  41. 前記脱相関プロセスは、前記周波数領域表現の少なくとも一部に線形フィルタを適用することによって残響信号または脱相関信号を生成することを含む、請求項40記載の装置。
  42. 前記周波数領域表現は、修正離散サイン変換、修正離散コサイン変換または重複直交変換を時間領域のオーディオ・データに適用することの結果である、請求項38ないし41のうちいずれか一項記載の装置。
  43. 前記脱相関プロセスは、完全に実数値の係数に作用する脱相関アルゴリズムを適用することを含む、請求項38ないし42のうちいずれか一項記載の装置。
  44. 前記脱相関プロセスは、特定のチャネルの選択的なまたは信号適応的な脱相関を含む、請求項38ないし43のうちいずれか一項記載の装置。
  45. 前記脱相関プロセスは、特定の周波数帯域の選択的なまたは信号適応的な脱相関を含む、請求項38ないし44のうちいずれか一項記載の装置。
JP2015556956A 2013-02-14 2014-01-22 オーディオ処理システムにおける信号脱相関 Active JP6038355B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201361764837P 2013-02-14 2013-02-14
US61/764,837 2013-02-14
PCT/US2014/012453 WO2014126682A1 (en) 2013-02-14 2014-01-22 Signal decorrelation in an audio processing system

Publications (2)

Publication Number Publication Date
JP2016510433A true JP2016510433A (ja) 2016-04-07
JP6038355B2 JP6038355B2 (ja) 2016-12-07

Family

ID=50064800

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015556956A Active JP6038355B2 (ja) 2013-02-14 2014-01-22 オーディオ処理システムにおける信号脱相関

Country Status (12)

Country Link
US (1) US9830916B2 (ja)
EP (1) EP2956933B1 (ja)
JP (1) JP6038355B2 (ja)
KR (1) KR102114648B1 (ja)
CN (1) CN104995676B (ja)
BR (1) BR112015018981B1 (ja)
ES (1) ES2613478T3 (ja)
HK (1) HK1213686A1 (ja)
IN (1) IN2015MN01954A (ja)
RU (1) RU2614381C2 (ja)
TW (1) TWI618050B (ja)
WO (1) WO2014126682A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016510434A (ja) * 2013-02-14 2016-04-07 ドルビー ラボラトリーズ ライセンシング コーポレイション 上方混合されたオーディオ信号のチャネル間コヒーレンスの制御方法
US9830916B2 (en) 2013-02-14 2017-11-28 Dolby Laboratories Licensing Corporation Signal decorrelation in an audio processing system
US9830917B2 (en) 2013-02-14 2017-11-28 Dolby Laboratories Licensing Corporation Methods for audio signal transient detection and decorrelation control

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102330732B1 (ko) * 2014-04-02 2021-11-23 케이엘에이 코포레이션 마스크들을 위한 고밀도 레지스트레이션 맵들을 생성하기 위한 방법, 시스템 및 컴퓨터 프로그램 제품
EP3067887A1 (en) * 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
EP3179744B1 (en) * 2015-12-08 2018-01-31 Axis AB Method, device and system for controlling a sound image in an audio zone
CN105702263B (zh) * 2016-01-06 2019-08-30 清华大学 语音重放检测方法和装置
CN105931648B (zh) * 2016-06-24 2019-05-03 百度在线网络技术(北京)有限公司 音频信号解混响方法和装置
CN107895580B (zh) * 2016-09-30 2021-06-01 华为技术有限公司 一种音频信号的重建方法和装置
EP3734998B1 (en) * 2016-11-23 2022-11-02 Telefonaktiebolaget LM Ericsson (publ) Method and apparatus for adaptive control of decorrelation filters
US10019981B1 (en) 2017-06-02 2018-07-10 Apple Inc. Active reverberation augmentation
EP3573058B1 (en) * 2018-05-23 2021-02-24 Harman Becker Automotive Systems GmbH Dry sound and ambient sound separation
CN111107024B (zh) * 2018-10-25 2022-01-28 航天科工惯性技术有限公司 时间与频率混合编码的防错解码方法
CN109557509B (zh) * 2018-11-23 2020-08-11 安徽四创电子股份有限公司 一种用于改善脉间干扰的双脉冲信号合成器
CN109672946B (zh) * 2019-02-15 2023-12-15 深圳市昊一源科技有限公司 一种无线通话系统、转发设备、终端设备及转发方法
CN110267064B (zh) * 2019-06-12 2021-11-12 百度在线网络技术(北京)有限公司 音频播放状态处理方法、装置、设备及存储介质
CN110740416B (zh) * 2019-09-27 2021-04-06 广州励丰文化科技股份有限公司 一种音频信号处理方法及装置
CN110740404B (zh) * 2019-09-27 2020-12-25 广州励丰文化科技股份有限公司 一种音频相关性的处理方法及音频处理装置
WO2023097686A1 (zh) * 2021-12-03 2023-06-08 北京小米移动软件有限公司 一种立体声音频信号处理方法及设备/存储介质/装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080126104A1 (en) * 2004-08-25 2008-05-29 Dolby Laboratories Licensing Corporation Multichannel Decorrelation In Spatial Audio Coding
JP2009520237A (ja) * 2005-12-19 2009-05-21 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション 多重記述コーディングシステムのための改良されたコリレーティング変換及びデコリレーティング変換
JP2010525403A (ja) * 2007-04-26 2010-07-22 ドルビー インターナショナル アクチボラゲット 出力信号の合成装置及び合成方法
EP2375409A1 (en) * 2010-04-09 2011-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder and related methods for processing multi-channel audio signals using complex prediction
WO2013017435A1 (en) * 2011-08-04 2013-02-07 Dolby International Ab Improved fm stereo radio receiver by using parametric stereo

Family Cites Families (63)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB8308843D0 (en) 1983-03-30 1983-05-11 Clark A P Apparatus for adjusting receivers of data transmission channels
US5077798A (en) 1988-09-28 1991-12-31 Hitachi, Ltd. Method and system for voice coding based on vector quantization
CN1256851A (zh) 1998-02-13 2000-06-14 皇家菲利浦电子有限公司 环绕声重放系统、声音/图象重放系统、环绕声处理装置和输入环绕声信号的处理方法
US6175631B1 (en) 1999-07-09 2001-01-16 Stephen A. Davis Method and apparatus for decorrelating audio signals
US7218665B2 (en) 2003-04-25 2007-05-15 Bae Systems Information And Electronic Systems Integration Inc. Deferred decorrelating decision-feedback detector for supersaturated communications
SE0301273D0 (sv) 2003-04-30 2003-04-30 Coding Technologies Sweden Ab Advanced processing based on a complex-exponential-modulated filterbank and adaptive time signalling methods
KR101079066B1 (ko) 2004-03-01 2011-11-02 돌비 레버러토리즈 라이쎈싱 코오포레이션 멀티채널 오디오 코딩
US20090299756A1 (en) 2004-03-01 2009-12-03 Dolby Laboratories Licensing Corporation Ratio of speech to non-speech audio such as for elderly or hearing-impaired listeners
EP3561810B1 (en) * 2004-04-05 2023-03-29 Koninklijke Philips N.V. Method of encoding left and right audio input signals, corresponding encoder, decoder and computer program product
SE0400998D0 (sv) 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Method for representing multi-channel audio signals
ES2333137T3 (es) * 2004-07-14 2010-02-17 Koninklijke Philips Electronics N.V. Conversion de canal de audio.
WO2006040727A2 (en) 2004-10-15 2006-04-20 Koninklijke Philips Electronics N.V. A system and a method of processing audio data to generate reverberation
SE0402649D0 (sv) 2004-11-02 2004-11-02 Coding Tech Ab Advanced methods of creating orthogonal signals
US7787631B2 (en) 2004-11-30 2010-08-31 Agere Systems Inc. Parametric coding of spatial audio with cues based on transmitted channels
EP1691348A1 (en) * 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametric joint-coding of audio sources
US7961890B2 (en) 2005-04-15 2011-06-14 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung, E.V. Multi-channel hierarchical audio coding with compact side information
AU2006255662B2 (en) 2005-06-03 2012-08-23 Dolby Laboratories Licensing Corporation Apparatus and method for encoding audio signals with decoding instructions
KR101492826B1 (ko) 2005-07-14 2015-02-13 코닌클리케 필립스 엔.브이. 다수의 출력 오디오 채널들을 생성하기 위한 장치 및 방법과, 그 장치를 포함하는 수신기 및 오디오 재생 디바이스, 데이터 스트림 수신 방법, 및 컴퓨터 판독가능 기록매체
WO2007010785A1 (ja) 2005-07-15 2007-01-25 Matsushita Electric Industrial Co., Ltd. オーディオデコーダ
RU2383942C2 (ru) 2005-08-30 2010-03-10 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способ и устройство для декодирования аудиосигнала
WO2007055463A1 (en) 2005-08-30 2007-05-18 Lg Electronics Inc. Apparatus for encoding and decoding audio signal and method thereof
US7974713B2 (en) 2005-10-12 2011-07-05 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Temporal and spatial shaping of multi-channel audio signals
JP2007178684A (ja) * 2005-12-27 2007-07-12 Matsushita Electric Ind Co Ltd マルチチャンネルオーディオ復号装置
EP1974347B1 (en) 2006-01-19 2014-08-06 LG Electronics Inc. Method and apparatus for processing a media signal
TW200742275A (en) 2006-03-21 2007-11-01 Dolby Lab Licensing Corp Low bit rate audio encoding and decoding in which multiple channels are represented by fewer channels and auxiliary information
BRPI0621499B1 (pt) 2006-03-28 2022-04-12 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Método melhorado para formatação de sinal em reconstrução de áudio de canais múltiplos
DE602006010323D1 (de) 2006-04-13 2009-12-24 Fraunhofer Ges Forschung Audiosignaldekorrelator
US8379868B2 (en) 2006-05-17 2013-02-19 Creative Technology Ltd Spatial audio coding based on universal spatial cues
EP1883067A1 (en) 2006-07-24 2008-01-30 Deutsche Thomson-Brandt Gmbh Method and apparatus for lossless encoding of a source signal, using a lossy encoded data stream and a lossless extension data stream
CN101518103B (zh) 2006-09-14 2016-03-23 皇家飞利浦电子股份有限公司 多通道信号的甜点操纵
RU2406166C2 (ru) 2007-02-14 2010-12-10 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способы и устройства кодирования и декодирования основывающихся на объектах ориентированных аудиосигналов
DE102007018032B4 (de) 2007-04-17 2010-11-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Erzeugung dekorrelierter Signale
US8015368B2 (en) 2007-04-20 2011-09-06 Siport, Inc. Processor extensions for accelerating spectral band replication
CN101681625B (zh) 2007-06-08 2012-11-07 杜比实验室特许公司 用于从两个输入的音频信号获得两个环绕声音频通道的方法和设备
US8046214B2 (en) 2007-06-22 2011-10-25 Microsoft Corporation Low complexity decoder for complex transform coding of multi-channel sound
US8064624B2 (en) 2007-07-19 2011-11-22 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method and apparatus for generating a stereo signal with enhanced perceptual quality
US20100040243A1 (en) 2008-08-14 2010-02-18 Johnston James D Sound Field Widening and Phase Decorrelation System and Method
US8374883B2 (en) 2007-10-31 2013-02-12 Panasonic Corporation Encoder and decoder using inter channel prediction based on optimally determined signals
US20090281803A1 (en) 2008-05-12 2009-11-12 Broadcom Corporation Dispersion filtering for speech intelligibility enhancement
EP2144229A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Efficient use of phase information in audio encoding and decoding
JP5326465B2 (ja) 2008-09-26 2013-10-30 富士通株式会社 オーディオ復号方法、装置、及びプログラム
TWI413109B (zh) 2008-10-01 2013-10-21 Dolby Lab Licensing Corp 用於上混系統之解相關器
EP2214162A1 (en) 2009-01-28 2010-08-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Upmixer, method and computer program for upmixing a downmix audio signal
EP2214165A3 (en) 2009-01-30 2010-09-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for manipulating an audio signal comprising a transient event
ES2374486T3 (es) 2009-03-26 2012-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Dispositivo y método para manipular una señal de audio.
US8497467B2 (en) 2009-04-13 2013-07-30 Telcordia Technologies, Inc. Optical filter control
KR101388901B1 (ko) 2009-06-24 2014-04-24 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 오디오 신호 디코더, 오디오 신호를 디코딩하는 방법 및 캐스케이드된 오디오 객체 처리 단계들을 이용한 컴퓨터 프로그램
GB2465047B (en) 2009-09-03 2010-09-22 Peter Graham Craven Prediction of signals
EP2510515B1 (en) 2009-12-07 2014-03-19 Dolby Laboratories Licensing Corporation Decoding of multichannel audio encoded bit streams using adaptive hybrid transformation
EP2360681A1 (en) 2010-01-15 2011-08-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for extracting a direct/ambience signal from a downmix signal and spatial parametric information
TWI444989B (zh) 2010-01-22 2014-07-11 Dolby Lab Licensing Corp 針對改良多通道上混使用多通道解相關之技術
JP5299327B2 (ja) 2010-03-17 2013-09-25 ソニー株式会社 音声処理装置、音声処理方法、およびプログラム
AU2011237882B2 (en) * 2010-04-09 2014-07-24 Dolby International Ab MDCT-based complex prediction stereo coding
EP2610866B1 (en) 2010-08-24 2015-04-22 LG Electronics Inc. Method and device for processing audio signals
TWI516138B (zh) 2010-08-24 2016-01-01 杜比國際公司 從二聲道音頻訊號決定參數式立體聲參數之系統與方法及其電腦程式產品
EP2609590B1 (en) 2010-08-25 2015-05-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for decoding a signal comprising transients using a combining unit and a mixer
US8908874B2 (en) * 2010-09-08 2014-12-09 Dts, Inc. Spatial audio encoding and reproduction
EP2477188A1 (en) 2011-01-18 2012-07-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoding and decoding of slot positions of events in an audio signal frame
AR088777A1 (es) 2011-03-18 2014-07-10 Fraunhofer Ges Forschung Transmision de longitud de elemento de cuadro en la codificacion de audio
CN102903368B (zh) * 2011-07-29 2017-04-12 杜比实验室特许公司 用于卷积盲源分离的方法和设备
US8527264B2 (en) 2012-01-09 2013-09-03 Dolby Laboratories Licensing Corporation Method and system for encoding audio data with adaptive low frequency compensation
ES2549953T3 (es) 2012-08-27 2015-11-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y método para la reproducción de una señal de audio, aparato y método para la generación de una señal de audio codificada, programa de ordenador y señal de audio codificada
TWI618050B (zh) 2013-02-14 2018-03-11 杜比實驗室特許公司 用於音訊處理系統中之訊號去相關的方法及設備

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080126104A1 (en) * 2004-08-25 2008-05-29 Dolby Laboratories Licensing Corporation Multichannel Decorrelation In Spatial Audio Coding
JP2009520237A (ja) * 2005-12-19 2009-05-21 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション 多重記述コーディングシステムのための改良されたコリレーティング変換及びデコリレーティング変換
JP2010525403A (ja) * 2007-04-26 2010-07-22 ドルビー インターナショナル アクチボラゲット 出力信号の合成装置及び合成方法
EP2375409A1 (en) * 2010-04-09 2011-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder and related methods for processing multi-channel audio signals using complex prediction
WO2013017435A1 (en) * 2011-08-04 2013-02-07 Dolby International Ab Improved fm stereo radio receiver by using parametric stereo

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CHI-MIN LIU, ET AL.: "DESIGN OF THE COUPLING SCHEMES FOR THE AC-3 CORDER IN STREO CODING", IEEE TRANSACTIONS ON CONSUMER ELECTRONICS, vol. 44, no. 3, JPN6016038925, August 1998 (1998-08-01), pages 878 - 882, ISSN: 0003416192 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016510434A (ja) * 2013-02-14 2016-04-07 ドルビー ラボラトリーズ ライセンシング コーポレイション 上方混合されたオーディオ信号のチャネル間コヒーレンスの制御方法
US9754596B2 (en) 2013-02-14 2017-09-05 Dolby Laboratories Licensing Corporation Methods for controlling the inter-channel coherence of upmixed audio signals
US9830916B2 (en) 2013-02-14 2017-11-28 Dolby Laboratories Licensing Corporation Signal decorrelation in an audio processing system
US9830917B2 (en) 2013-02-14 2017-11-28 Dolby Laboratories Licensing Corporation Methods for audio signal transient detection and decorrelation control

Also Published As

Publication number Publication date
ES2613478T3 (es) 2017-05-24
EP2956933A1 (en) 2015-12-23
CN104995676A (zh) 2015-10-21
RU2614381C2 (ru) 2017-03-24
RU2015133287A (ru) 2017-02-21
EP2956933B1 (en) 2016-11-16
US20150380000A1 (en) 2015-12-31
KR102114648B1 (ko) 2020-05-26
TWI618050B (zh) 2018-03-11
BR112015018981B1 (pt) 2022-02-01
BR112015018981A2 (pt) 2017-07-18
IN2015MN01954A (ja) 2015-08-28
WO2014126682A1 (en) 2014-08-21
JP6038355B2 (ja) 2016-12-07
HK1213686A1 (zh) 2016-07-08
CN104995676B (zh) 2018-03-30
US9830916B2 (en) 2017-11-28
TW201443877A (zh) 2014-11-16
KR20150106949A (ko) 2015-09-22

Similar Documents

Publication Publication Date Title
JP6038355B2 (ja) オーディオ処理システムにおける信号脱相関
JP6046274B2 (ja) 上方混合されたオーディオ信号のチャネル間コヒーレンスの制御方法
JP6138279B2 (ja) 推定された空間的パラメータを使ったオーディオ信号の向上
US9830917B2 (en) Methods for audio signal transient detection and decorrelation control
US20150371646A1 (en) Time-Varying Filters for Generating Decorrelation Signals

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161011

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161101

R150 Certificate of patent or registration of utility model

Ref document number: 6038355

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250