JP2017536756A - マルチチャネル・オーディオ信号のパラメトリック・エンコードおよびデコード - Google Patents

マルチチャネル・オーディオ信号のパラメトリック・エンコードおよびデコード Download PDF

Info

Publication number
JP2017536756A
JP2017536756A JP2017522811A JP2017522811A JP2017536756A JP 2017536756 A JP2017536756 A JP 2017536756A JP 2017522811 A JP2017522811 A JP 2017522811A JP 2017522811 A JP2017522811 A JP 2017522811A JP 2017536756 A JP2017536756 A JP 2017536756A
Authority
JP
Japan
Prior art keywords
signal
channel
encoding
downmix
channels
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017522811A
Other languages
English (en)
Other versions
JP2017536756A5 (ja
JP6640849B2 (ja
Inventor
プルンハーゲン,ヘイコ
レヒトーネン,ヘイディ−マリア
クレイサ,ヤヌッシュ
Original Assignee
ドルビー・インターナショナル・アーベー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー・インターナショナル・アーベー filed Critical ドルビー・インターナショナル・アーベー
Publication of JP2017536756A publication Critical patent/JP2017536756A/ja
Publication of JP2017536756A5 publication Critical patent/JP2017536756A5/ja
Application granted granted Critical
Publication of JP6640849B2 publication Critical patent/JP6640849B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Abstract

制御部(1009)は、Mチャネル・オーディオ信号(L、LS、LB、TFL、TBL)の少なくとも二つの符号化フォーマット(F1、F2、F3)のうちの一つを示すシグナル(S)を受領する。それらの符号化フォーマットは、前記オーディオ信号のチャネルの、それぞれ第一および第二のグループ(601、602)への互いに異なる分割に対応し、示される符号化フォーマットにおいて、ダウンミックス信号の第一および第二のチャネル(L1、L2)はそれぞれ前記第一および第二のグループの線形結合に対応し;デコード部(900)は前記ダウンミックス信号および関連するアップミックス・パラメータ(αL)に基づいて前記オーディオ信号を再構成する。デコード部では、脱相関入力信号(D1、D2、D3)が前記ダウンミックス信号および示される符号化フォーマットに基づいて決定され;前記ダウンミックス信号の線形マッピングおよび前記脱相関入力信号に基づいて生成される脱相関済み信号の線形マッピングを制御するウェットおよびドライ・アップミックス係数が、前記アップミックス・パラメータおよび示された符号化フォーマットに基づいて決定される。

Description

関連出願への相互参照
本願は2014年10月31日に出願された米国仮特許出願第62/073,642号および2015年3月4日に出願された米国仮特許出願第62/128,425号の優先権を主張するものである。
技術分野
ここに開示される発明は、概括的にはオーディオ信号のパラメトリック・エンコードおよびデコードに、チャネル・ベースのオーディオ信号のパラメトリック・エンコードおよびデコードに関する。
複数のスピーカーを有するオーディオ再生システムは、マルチチャネル・オーディオ信号によって表わされるオーディオ・シーンを再生するために頻繁に使われる。ここで、マルチチャネル・オーディオ信号のそれぞれのチャネルはそれぞれのスピーカー上で再生される。マルチチャネル・オーディオ信号は、たとえば複数の音響トランスデューサを介して記録されたものであってもよく、あるいはオーディオ・オーサリング設備によって生成されたものであってもよい。多くの状況において、オーディオ信号を再生設備に伝送するための帯域幅制限および/またはオーディオ信号をコンピュータ・メモリまたはポータブル記憶デバイスに記憶するための限られたスペースがある。帯域幅または記憶サイズを減らすよう、オーディオ信号のパラメトリック符号化のためのオーディオ符号化システムがある。エンコーダ側では、これらのシステムは典型的にはマルチチャネル・オーディオ信号をダウンミックスして、典型的にはモノ(一チャネル)またはステレオ(二チャネル)ダウンミックスであるダウンミックス信号にし、レベル差および相互相関のようなパラメータによってチャネルの属性を記述するサイド情報を抽出する。次いで、ダウンミックスおよびサイド情報はエンコードされ、デコーダ側に送られる。デコーダ側では、サイド情報のパラメータの制御のもとで、マルチチャネル・オーディオ信号がダウンミックスから再構成される、すなわち近似される。
家庭におけるエンドユーザーに向けた台頭しつつあるセグメントを含めマルチチャネル・オーディオ・コンテンツの再生のために利用可能な装置およびシステムの異なる型の幅広い範囲に鑑み、帯域幅要求および/または記憶のための要求されるメモリ・サイズを減らす、デコーダ側でのマルチチャネル・オーディオ信号の再構成を容易にするおよび/またはデコーダ側で再構成されるマルチチャネル・オーディオ信号の忠実度を高めるよう、マルチチャネル・オーディオ・コンテンツを効率的にエンコードする新たな代替的な方法が必要とされている。
以下では、付属の図面を参照して、例示的な実施形態についてより詳細に述べる。
例示的実施形態に基づく、Mチャネル・オーディオ信号を二チャネル・ダウンミックス信号および関連するアップミックス・パラメータとしてエンコードするためのエンコード部の一般化されたブロック図である。 例示的実施形態に基づく、Mチャネル・オーディオ信号を二チャネル・ダウンミックス信号および関連するアップミックス・パラメータとしてエンコードするためのエンコード部の一般化されたブロック図である。 ある例示的実施形態に基づく、図1に描かれたエンコード部を有するオーディオ・エンコード・システムの一般化されたブロック図である。 例示的実施形態に基づく、Mチャネル・オーディオ信号を二チャネル・ダウンミックス信号および関連するアップミックス・パラメータとしてエンコードするためのオーディオ・エンコード方法のフローチャートである。 例示的実施形態に基づく、Mチャネル・オーディオ信号を二チャネル・ダウンミックス信号および関連するアップミックス・パラメータとしてエンコードするためのオーディオ・エンコード方法のフローチャートである。 例示的実施形態に基づく、11.1チャネル(または7.1+4チャネルまたは7.1.4チャネル)オーディオ信号をそれぞれのダウンミックス・チャネルによって表わされるチャネルの諸グループに分割する代替的な仕方を示す図である。 例示的実施形態に基づく、11.1チャネル(または7.1+4チャネルまたは7.1.4チャネル)オーディオ信号をそれぞれのダウンミックス・チャネルによって表わされるチャネルの諸グループに分割する代替的な仕方を示す図である。 例示的実施形態に基づく、11.1チャネル(または7.1+4チャネルまたは7.1.4チャネル)オーディオ信号をそれぞれのダウンミックス・チャネルによって表わされるチャネルの諸グループに分割する代替的な仕方を示す図である。 ある例示的実施形態に基づく、二チャネル・ダウンミックス信号および関連するアップミックス・パラメータに基づいてMチャネル・オーディオ信号を再構成するためのデコード部の一般化されたブロック図である。 ある例示的実施形態に基づく、図9に描かれたデコード部を有するオーディオ・デコード・システムの一般化されたブロック図である。 ある例示的実施形態に基づく、図9に描かれたデコード部に含まれる混合部の一般化されたブロック図である。 ある例示的実施形態に基づく、二チャネル・ダウンミックス信号および関連するアップミックス・パラメータに基づいてMチャネル・オーディオ信号を再構成するためのオーディオ・デコード方法のフローチャートである。 ある例示的実施形態に基づく、5.1チャネル信号および関連するアップミックス・パラメータに基づいて13.1チャネル・オーディオ信号を再構成するためのデコード部の一般化されたブロック図である。 Mチャネル・オーディオ信号(および可能性としてはさらなるチャネル)をエンコードするために使われるべき好適な符号化フォーマットを決定し、選ばれたフォーマットについて、Mチャネル・オーディオ信号を二チャネル・ダウンミックス信号および関連するアップミックス・パラメータとして表現するよう構成されたエンコード部の一般化されたブロック図である。 図14に示されるエンコード部におけるデュアルモード・ダウンミックス部の詳細を示す図である。 図14に示されるエンコード部におけるデュアルモード解析部の詳細を示す図である。 図14ないし図16に示されるコンポーネントによって実行されうるオーディオ・エンコード方法のフローチャートである。 すべての図面は概略的であり、概して本発明を明快にするために必要な部分を示すだけである。一方、他の部分は省略されたり、単に示唆されるだけであることがある。
本稿での用法では、「オーディオ信号」は、単体のオーディオ信号、オーディオビジュアル信号もしくはマルチメディア信号のオーディオ部分またはこれらのいずれかをメタデータと組み合わせたものでありうる。本稿での用法では、「チャネル」は、あらかじめ定義された/固定された空間位置/配向または「左」や「右」のような定義されていない空間位置に関連付けられたオーディオ信号である。
〈I.概観 ―― デコーダ側〉
第一の側面によれば、例示的実施形態は、オーディオ・デコード・システム、オーディオ・デコード方法および関連するコンピュータ・プログラム・プロダクトを提案する。第一の側面に基づく提案されるデコード・システム、方法およびコンピュータ・プログラム・プロダクトは一般に、同じ特徴および利点を共有してもよい。
例示的実施形態によれば、オーディオ・デコード方法が提供され、本方法は二チャネル・ダウンミックス信号と、該ダウンミックス信号に基づくMチャネル・オーディオ信号のパラメトリック再構成のためのアップミックス・パラメータとを受領することを含む。ここで、M≧4である。本オーディオ・デコード方法は、前記Mチャネル・オーディオ信号の少なくとも二つの符号化フォーマットのうちの選択されたものを示すシグナルを受領することを含む。ここで、それらの符号化フォーマットは、前記Mチャネル・オーディオ信号のチャネルの、一つまたは複数のチャネルのそれぞれ第一および第二のグループへのそれぞれ異なる分割に対応する。示される符号化フォーマットにおいて、前記ダウンミックス信号の第一のチャネルは前記Mチャネル・オーディオ信号の前記第一のグループの一つまたは複数のチャネルの線形結合に対応し、前記ダウンミックス信号の第二のチャネルは前記Mチャネル・オーディオ信号の前記第二のグループの一つまたは複数のチャネルの線形結合に対応する。本オーディオ・デコード方法はさらに:示された符号化フォーマットに基づいて一組のプレ脱相関係数を決定する段階と;前記ダウンミックス信号の線形マッピングとして脱相関入力信号を計算する段階であって、前記ダウンミックス信号に前記一組のプレ脱相関係数が適用される、段階と;前記脱相関入力信号に基づいて脱相関済み信号を生成する段階と;本稿でウェット・アップミックス係数と称される第一の型のアップミックス係数および本稿でドライ・アップミックス係数と称される第二の型のアップミックス係数の集合を、受領されたアップミックス・パラメータおよび指示された符号化フォーマットに基づいて決定する段階と;本稿でドライ・アップミックス信号と称される第一の型のアップミックス信号を前記ダウンミックス信号の線形マッピングとして計算する段階であって、前記ドライ・アップミックス係数の集合が前記ダウンミックス信号に適用される、段階と;本稿でウェット・アップミックス信号と称される第二の型のアップミックス信号を前記脱相関済み信号の線形マッピングとして計算する段階であって、前記ウェット・アップミックス係数の集合が前記脱相関済み信号に適用される、段階と;前記ドライ・アップミックス信号およびウェット・アップミックス信号を組み合わせて、再構成されるべきMチャネル・オーディオ信号に対応する多次元の再構成された信号を得る段階とを含む。
前記Mチャネル・オーディオ信号のオーディオ内容に依存して、前記Mチャネル・オーディオ信号のチャネルの第一および第二のグループへの異なる分割であって、各グループが前記ダウンミックス信号のあるチャネルに寄与する、異なる分割が、たとえば前記ダウンミックス信号からの前記Mチャネル・オーディオ信号の再構成を容易にするため、前記ダウンミックス信号から再構成される前記Mチャネル・オーディオ信号の(知覚される)忠実度を改善するためおよび/または前記ダウンミックス信号の符号化効率を改善するために、好適でありうる。本オーディオ・デコード方法が前記符号化フォーマットのうち選択されたものを示すシグナルを受領し、前記プレ脱相関係数および前記ウェットおよびドライ・アップミックス係数の決定を示される符号化フォーマットに適合させることができることにより、エンコーダ側で、たとえば前記Mチャネル・オーディオ信号を表現するためにその特定の符号化フォーマットを用いることの相対的な利点を活用するために前記Mチャネル・オーディオ信号のオーディオ内容に基づいて、符号化フォーマットを選択することを許容する。
特に、示される符号化フォーマットに基づいてプレ脱相関係数を決定することは、脱相関済み信号を生成する前に、脱相関済み信号が生成されるもとになる前記ダウンミックス信号のチャネル(単数または複数)が示される符号化フォーマットに基づいて選択されるおよび/または重み付けされることを許容しうる。したがって、本オーディオ・デコード方法がプレ脱相関係数を、異なる符号化フォーマットについては異なるように決定できることにより、再構成される前記Mチャネル・オーディオ信号の忠実度を改善することが許容されうる。
前記ダウンミックス信号の第一のチャネルは、たとえば、エンコーダ側で、示される符号化フォーマットに基づいて、前記第一のグループの一つまたは複数のチャネルの線形結合として形成されたものであってもよい。同様に、前記ダウンミックス信号の第二のチャネルは、たとえば、エンコーダ側で、示される符号化フォーマットに基づいて、前記第二のグループの一つまたは複数のチャネルの線形結合として形成されたものであってもよい。
前記Mチャネル・オーディオ信号のチャネルは、たとえば、一緒になって音場を表現する、より多数のチャネルの部分集合をなしていてもよい。
前記脱相関済み信号〔脱相関された信号〕は、聴取者によって知覚される前記ダウンミックス信号のオーディオ内容の次元性を増すはたらきをする。脱相関済み信号の生成は、たとえば、前記脱相関入力信号に線形フィルタを適用することを含んでいてもよい。
前記脱相関入力信号が前記ダウンミックス信号の線形マッピングとして計算されるとは、前記脱相関入力信号が、前記ダウンミックス信号に第一の線形変換を適用することによって得られることを意味する。この第一の線形変換は、前記ダウンミックス信号の二つのチャネルを入力として取り、前記脱相関入力信号のチャネルを出力として与え、前記プレ脱相関係数は、この第一の線形変換の定量的属性を定義する係数である。
前記ドライ・アップミックス信号が前記ダウンミックス信号の線形マッピングとして計算されるとは、前記ドライ・アップミックス信号が、前記ダウンミックス信号に第二の線形変換を適用することによって得られることを意味する。この第二の線形変換は、前記ダウンミックス信号の二つのチャネルを入力として取り、M個のチャネルを出力として与え、前記ドライ・アップミックス係数は、この第二の線形変換の定量的属性を定義する係数である
前記ウェット・アップミックス信号が前記脱相関済み信号の線形マッピングとして計算されるとは、前記ウェット・アップミックス信号が、前記脱相関済み信号に第三の線形変換を適用することによって得られることを意味する。この第三の線形変換は、前記脱相関済み信号のチャネルを入力として取り、M個のチャネルを出力として与え、前記ウェット・アップミックス係数は、この第三の線形変換の定量的属性を定義する係数である。
前記ドライ・アップミックス信号およびウェット・アップミックス信号を組み合わせることは、前記ドライ・アップミックス信号のそれぞれのチャネルからのオーディオ・コンテンツを、前記ウェット・アップミックス信号のそれぞれの対応するチャネルのオーディオ・コンテンツに、たとえばサンプルごとまたは変換係数ごとの加法的混合を用いて、加えることを含んでいてもよい。
前記シグナルは、たとえば、前記ダウンミックス信号および/または前記アップミックス・パラメータと一緒に受領されてもよい。前記ダウンミックス信号、前記アップミックス・パラメータおよび前記シグナルは、たとえば、ビットストリームから抽出されてもよい。
ある例示的実施形態では、M=5が成り立ってもよい。すなわち、Mチャネル・オーディオ信号は5チャネル・オーディオ信号であってもよい。本例示的実施形態のオーディオ・デコード方法は、たとえば、現在確立されている諸5.1オーディオ・フォーマットのうちの一つにおける五つの通常のチャネルをそれら五つのチャネルの二チャネル・ダウンミックスから再構成するために、あるいは11.1マルチチャネル・オーディオ信号における左側または右側の五つのチャネルをそれら五つのチャネルの二チャネル・ダウンミックスから再構成するために用いられてもよい。あるいはまた、M=4またはM≧6が成り立ってもよい。
ある例示的実施形態では、前記脱相関入力信号および前記脱相関済み信号はそれぞれM−2個のチャネルを含んでいてもよい。本例示的実施形態では、前記脱相関済み信号のチャネルは、前記脱相関入力信号のたった一つのチャネルに基づいて生成されてもよい。たとえば、前記脱相関済み信号の各チャネルは、前記脱相関入力信号のたった一つのチャネルに基づいて生成されうるが、前記脱相関済み信号の異なるチャネルはたとえば前記脱相関入力信号の異なるチャネルに基づいて生成されうる。
本例示的実施形態では、前記プレ脱相関係数は、各符号化フォーマットにおいて、前記脱相関入力信号のチャネルが前記ダウンミックス信号のたった一つのチャネルから寄与を受けるよう決定されてもよい。たとえば、前記プレ脱相関係数は、各符号化フォーマットにおいて、前記脱相関入力信号の各チャネルが前記ダウンミックス信号のあるチャネルと一致するよう決定されてもよい。しかしながら、前記脱相関済み入力信号のチャネルの少なくともいくつかがたとえば所与の符号化フォーマットにおけるおよび/または種々の符号化フォーマットにおける前記ダウンミックス信号の異なるチャネルと一致するのでもよいことは理解されるであろう。
それぞれの所与の符号化フォーマットにおいて、前記ダウンミックス信号の二つのチャネルは、一つまたは複数のチャネルの分離した第一および第二のグループを表わすので、第一のグループは前記ダウンミックス信号の第一のチャネルから、たとえば前記ダウンミックス信号の第一のチャネルに基づいて生成された脱相関済み信号の一つまたは複数のチャネルを用いて、再構成されてもよく、一方、第二のグループは前記ダウンミックス信号の第二のチャネルから、たとえば前記ダウンミックス信号の第二のチャネルに基づいて生成された脱相関済み信号の一つまたは複数のチャネルを用いて、再構成されてもよい。本例示的実施形態では、第二のグループの一つまたは複数のチャネルからの第一のグループの一つまたは複数のチャネルの再構成されたバージョンへの、前記脱相関済み信号を介した寄与は、各符号化フォーマットにおいて回避されうる。同様に、第一のグループの一つまたは複数のチャネルからの第二のグループの一つまたは複数のチャネルの再構成されたバージョンへの、前記脱相関済み信号を介した寄与は、各符号化フォーマットにおいて回避されうる。したがって、本例示的実施形態は、再構成される前記Mチャネル・オーディオ信号の忠実度を高めることを許容しうる。
ある例示的実施形態では、前記プレ脱相関係数は、前記Mチャネル・オーディオ信号の第一のチャネルが、前記ダウンミックス信号を介して、前記符号化フォーマットの少なくとも二つにおいて前記脱相関入力信号の第一の固定したチャネルに寄与するよう、決定されてもよい。すなわち、前記Mチャネル・オーディオ信号の第一のチャネルが、前記ダウンミックス信号を介して、これらの符号化フォーマットの両方において前記脱相関入力信号の同じチャネルに寄与しうる。本例示的実施形態では、前記Mチャネル・オーディオ信号の第一のチャネルが、前記ダウンミックス信号を介して、たとえば、所与の符号化フォーマットにおいて前記脱相関入力信号の複数のチャネルに寄与してもよいことは理解されるであろう。
本例示的実施形態では、示される符号化フォーマットが前記二つの符号化フォーマットの間で切り換わる場合、前記脱相関入力信号の前記第一の固定したチャネルの少なくとも一部は、前記切り換えの間、留まる。これは、再構成される前記Mチャネル・オーディオ信号の再生中に聴取者によって知覚される、それらの符号化フォーマットの間での、よりなめらかなおよび/またはそれほど突然でない遷移を許容しうる。特に、発明者らは、脱相関済み信号がたとえば、前記ダウンミックス信号においてそれらの符号化フォーマット間の切り換えが起こりうる前記ダウンミックス信号のいくつかの時間フレームに対応するセクションに基づいて生成されうるので、符号化フォーマット間の切り換えの結果として、脱相関済み信号において可聴なアーチファクトが潜在的に生成されうることを認識するに至った。たとえウェットおよびドライ・アップミックス係数が符号化フォーマット間の切り換えに応答して補間されたとしても、脱相関済み信号において生成されるアーチファクトが、再構成される前記Mチャネル・オーディオ信号において残存することがある。本例示的実施形態に基づく脱相関入力信号を提供することにより、符号化フォーマット間の切り換えによって引き起こされる脱相関済み信号中のかかるアーチファクトを抑制することが許容され、再構成されるMチャネル・オーディオ信号の再生品質が改善されうる。
ある例示的実施形態では、プレ脱相関係数は、さらに、前記Mチャネル・オーディオ信号の第二のチャネルが、前記ダウンミックス信号を介して、前記符号化フォーマットの少なくとも二つにおいて前記脱相関入力信号の第二の固定したチャネルに寄与するよう、決定されてもよい。すなわち、前記Mチャネル・オーディオ信号の第二のチャネルが、前記ダウンミックス信号を介して、これらの符号化フォーマットの両方において前記脱相関入力信号の同じチャネルに寄与しうる。本例示的実施形態では、示される符号化フォーマットが前記二つの符号化フォーマットの間で切り換わる場合、第二の固定脱相関入力信号の少なくとも一部は、前記切り換えの間、留まる。よって、単一の脱相関器フィードのみが、それらの符号化フォーマットの間の遷移によって影響される。これは、再構成される前記Mチャネル・オーディオ信号の再生中に聴取者によって知覚される、それらの符号化フォーマットの間での、よりなめらかなおよび/またはそれほど突然でない遷移を許容しうる。
前記Mチャネル・オーディオ信号の第一および第二のチャネルは、たとえば、互いとは異なっていてもよい。前記脱相関入力信号の第一および第二の固定したチャネルは互いとは異なっていてもよい。
ある例示的実施形態では、受領されるシグナルは、少なくとも三つの符号化フォーマットのうちの選択されたものを示してもよく、前記プレ脱相関係数は、前記Mチャネル・オーディオ信号の第一のチャネルが、前記ダウンミックス信号を介して、前記符号化フォーマットの少なくとも三つにおいて前記脱相関入力信号の前記第一の固定したチャネルに寄与するよう、決定されてもよい。すなわち、前記Mチャネル・オーディオ信号の第一のチャネルが、前記ダウンミックス信号を介して、これら三つの符号化フォーマットにおいて前記脱相関入力信号の同じチャネルに寄与しうる。本例示的実施形態では、示される符号化フォーマットが前記三つの符号化フォーマットの任意のものの間で変化する場合、前記脱相関入力信号の前記第一の固定したチャネルの少なくとも一部は、前記切り換えの間、留まる。これは、再構成される前記Mチャネル・オーディオ信号の再生中に聴取者によって知覚される、それらの符号化フォーマットの間での、よりなめらかなおよび/またはそれほど突然でない遷移を許容しうる。
ある例示的実施形態では、前記プレ脱相関係数は、前記Mチャネル・オーディオ信号の一対のチャネルが、前記ダウンミックス信号を介して、前記符号化フォーマットの少なくとも二つにおいて前記脱相関入力信号の第三の固定したチャネルに寄与するよう、決定されてもよい。すなわち、前記Mチャネル・オーディオ信号の一対のチャネルが、前記ダウンミックス信号を介して、これらの符号化フォーマットの両方において前記脱相関入力信号の同じチャネルに寄与しうる。本例示的実施形態では、示される符号化フォーマットが前記二つの符号化フォーマットの間で切り換わる場合、前記脱相関入力信号の前記第三の固定したチャネルの少なくとも一部は、前記切り換えの間、留まる。これは、再構成される前記Mチャネル・オーディオ信号の再生中に聴取者によって知覚される、それらの符号化フォーマットの間での、よりなめらかなおよび/またはそれほど突然でない遷移を許容する。
前記一対のチャネルはたとえば、前記Mチャネル・オーディオ信号の前記第一および第二のチャネルとは異なっていてもよい。前記脱相関入力信号の前記第三の固定したチャネルは、前記脱相関入力信号の前記第一および第二の固定したチャネルとは異なっていてもよい。
ある例示的実施形態では、前記オーディオ・デコード方法はさらに:第一の符号化フォーマットから第二の符号化フォーマットへの示される符号化フォーマットの切り換えを検出することに応答して、前記第一の符号化フォーマットに関連付けられたプレ脱相関係数値から前記第二の符号化フォーマットに関連付けられたプレ脱相関係数値への漸進的な遷移を実行することを含んでいてもよい。符号化フォーマット間の切り換えの間のプレ脱相関係数間の漸進的な遷移を用いることは、再構成される前記Mチャネル・オーディオ信号の再生中に聴取者によって知覚される、それらの符号化フォーマットの間での、よりなめらかなおよび/またはそれほど突然でない遷移を許容する。特に、発明者らは、脱相関済み信号がたとえば、前記ダウンミックス信号においてそれらの符号化フォーマット間の切り換えが起こりうるいくつかの時間フレームに対応する前記ダウンミックス信号のセクションに基づいて生成されうるので、符号化フォーマット間の切り換えの結果として、脱相関済み信号において可聴なアーチファクトが潜在的に生成されうることを認識するに至った。たとえウェットおよびドライ・アップミックス係数が符号化フォーマット間の切り換えに応答して補間されたとしても、脱相関済み信号において生成されるアーチファクトが、再構成される前記Mチャネル・オーディオ信号において残存することがある。本例示的実施形態に基づく脱相関入力信号を提供することにより、符号化フォーマット間の切り換えによって引き起こされる脱相関済み信号中のかかるアーチファクトを抑制することが許容され、再構成されるMチャネル・オーディオ信号の再生品質が改善されうる。
漸進的な遷移は、たとえば線形または連続的な補間を介して実行されうる。漸進的な遷移は、たとえば制限された変化率をもつ補間を介して実行されてもよい。
ある例示的実施形態では、本オーディオ・デコード方法はさらに:第一の符号化フォーマットから第二の符号化フォーマットへの示される符号化フォーマットの切り換えを検出することに応答して、前記第一の符号化フォーマットに関連付けられた、値が0の係数を含むウェットおよびドライ・アップミックス係数値から、前記第二の符号化フォーマットに関連付けられた、やはり値が0の係数を含むウェットおよびドライ・アップミックス係数値への補間を実行することを含んでいてもよい。諸ダウンミックス・チャネルは、もともとエンコードされた前記Mチャネル・オーディオ信号からのチャネルの種々の組み合わせに対応することを想起する。よって、前記第一の符号化フォーマットにおいて値が0であるアップミックス係数は前記第二の符号化フォーマットでも値が0であるとは限らない。好ましくは、この補間は、前記係数のコンパクト表現、たとえばのちに論じる表現ではなく、前記アップミックス係数に対して作用する。
前記アップミックス係数値の間の線形または連続的な補間はたとえば、再構成される前記Mチャネル・オーディオ信号の再生中に聴取者によって知覚される、符号化フォーマット間のよりなめらかな遷移を提供するために用いられてもよい。
符号化フォーマットの切り換えに関連付けられた時点において新たなアップミックス係数値が古いアップミックス係数値を置き換える急峻な補間は、再構成される前記Mチャネル・オーディオ信号の向上した忠実度を許容しうる。これはたとえば、前記Mチャネル・オーディオ信号のオーディオ・コンテンツが急速に変化し、これらの変化に応答して、再構成される前記Mチャネル・オーディオ信号の忠実度を高めるためにエンコーダ側で符号化フォーマットが切り換えられる場合などにおいてである。
ある例示的実施形態では、前記オーディオ・デコード方法はさらに、一つの符号化フォーマット内でウェットおよびドライ・アップミックス・パラメータの補間のために(すなわち、符号化フォーマットの変化が起こらない時間期間において前記アップミックス係数に新たな値が割り当てられるときに)用いられるべき複数の補間方式のうちの一つを示すシグナルを受領し、示された補間方式を用いることを含んでいてもよい。複数の補間方式のうちの一つを示すシグナルはたとえば、前記ダウンミックス信号および/または前記アップミックス・パラメータと一緒に受領されてもよい。好ましくは、前記シグナルによって示される補間方式は、さらに、符号化フォーマット間で遷移するために用いられてもよい。
もとのMチャネル・オーディオ信号が利用可能であるエンコーダ側では、たとえば前記Mチャネル・オーディオ信号の実際のオーディオ内容にとって特に好適な諸補間方式が選択されてもよい。たとえば、再構成されるMチャネル・オーディオ信号の全体的な印象にとってなめらかな切り換えが重要である場合には線形または連続的な補間が用いられてもよく、一方、再構成されるMチャネル・オーディオ信号の全体的な印象にとって高速な切り換えが重要であるときは急峻な補間、すなわち符号化フォーマット間の遷移に関連付けられたある時点において新しいアップミックス係数値が古いアップミックス係数値を置き換える補間が用いられてもよい。
ある例示的実施形態では、前記少なくとも二つの符号化フォーマットは、第一の符号化フォーマットおよび第二の符号化フォーマットを含んでいてもよい。それぞれの符号化フォーマットにおいて、前記Mチャネル・オーディオ信号のあるチャネルから前記ダウンミックス信号の諸チャネルが対応する諸線形結合の一つへの寄与を制御する利得がある。本例示的実施形態では、第一の符号化フォーマットにおける利得は、第二の符号化フォーマットにおける、前記Mチャネル・オーディオ信号の同じチャネルからの寄与を制御する利得と一致してもよい。
第一および第二の符号化フォーマットで同じ利得を用いることは、たとえば、第一の符号化フォーマットでの前記ダウンミックス信号のチャネルの組み合わされたオーディオ・コンテンツと、第二の符号化フォーマットでの前記ダウンミックス信号のチャネルの組み合わされたオーディオ・コンテンツとの間の類似性を高めうる。前記ダウンミックス信号のチャネルは前記Mチャネル・ダウンミックス信号を再構成するために使われるので、これは、聴取者によって知覚されるところのこれら二つの符号化フォーマットの間のよりなめらかな遷移に寄与しうる。
第一および第二の符号化フォーマットで同じ利得を用いることは、たとえば、第一の符号化フォーマットでの前記ダウンミックス信号の第一および第二のチャネルのオーディオ・コンテンツが、第二の符号化フォーマットでの前記ダウンミックス信号のそれぞれ第一および第二のチャネルのオーディオ・コンテンツと、より類似していることを許容しうる。これは、聴取者によって知覚されるところのこれら二つの符号化フォーマットの間のよりなめらかな遷移に寄与しうる。
本例示的実施形態では、たとえば前記Mチャネル・オーディオ信号の異なるチャネルについては異なる利得が用いられてもよい。第一の例では、第一および第二の符号化フォーマットにおけるすべての利得が値1を有していてもよい。この第一の例では、ダウンミックス信号の第一および第二のチャネルは、第一および第二の符号化フォーマット両方において、それぞれ第一および第二のグループの重み付けされない和に対応してもよい。第二の例では、利得の少なくともいくつかが1とは異なる値を有していてもよい。この第二の例では、ダウンミックス信号の第一および第二のチャネルは、それぞれ第一および第二のグループの重み付けされた和に対応してもよい。
ある例示的実施形態では、前記Mチャネル・オーディオ信号は、前記Mチャネル・オーディオ信号のための再生環境における異なる水平方向を表わす三つのチャネルと、再生環境における前記三つのチャネルの方向からは垂直に隔たった方向を表わす二つのチャネルとを含んでいてもよい。換言すれば、前記Mチャネル・オーディオ信号は、聴取者(または聴取者の耳)と実質的に同じ高さに位置するオーディオ源による再生および/または実質的に水平方向の伝搬のために意図された三つのチャネルと、他の高さに位置するオーディオ源による再生および/または(実質的に)水平でない伝搬のために意図された二つのチャネルとを含んでいてもよい。前記二つのチャネルは、たとえば、仰角を付けられた方向を表わしていてもよい。
ある例示的実施形態では、第一の符号化フォーマットでは、チャネルの第二のグループは、再生環境における前記三つのチャネルの方向からは垂直に隔たった方向を表わす前記二つのチャネルを含んでいてもよい。これら二つのチャネルの両方を第二のグループにもち、これら二つのチャネル両方を表わすために前記ダウンミックス信号の同じチャネルを用いることは、たとえば、再生環境における垂直次元が前記Mチャネル・オーディオ信号の全体的な印象にとって重要である場合に、再構成される前記Mチャネル・オーディオ信号の忠実度を改善しうる。
ある例示的実施形態では、第一の符号化フォーマットでは、一つまたは複数のチャネルの第一のグループは、前記Mチャネル・オーディオ信号の再生環境における異なる水平方向を表わす前記三つのチャネルを含んでいてもよく、一つまたは複数のチャネルの第二のグループは、再生環境における前記三つのチャネルの方向からは垂直に隔たった方向を表わす前記二つのチャネルを含んでいてもよい。本例示的実施形態では、第一の符号化フォーマットは、前記ダウンミックス信号の第一のチャネルが前記三つのチャネルを表わし、前記ダウンミックス信号の第二のチャネルが前記二つのチャネルを表わすことを許容する。これはたとえば、再生環境における垂直次元が前記Mチャネル・オーディオ信号の全体的な印象にとって重要である場合に、再構成される前記Mチャネル・オーディオ信号の忠実度を改善しうる。
ある例示的実施形態では、第二の符号化フォーマットでは、第一および第二のグループのそれぞれが、前記Mチャネル・オーディオ信号の再生環境における前記三つのチャネルの方向からは垂直に隔たった方向を表わす前記二つのチャネルのうちの一つを含んでいてもよい。前記二つのチャネルを異なるグループにもち、前記二つのチャネルを表わすために前記ダウンミックス信号の異なるチャネルを用いることは、たとえば、再生環境における垂直次元が前記Mチャネル・オーディオ信号の全体的な印象にとってそれほど重要でない場合に、再構成される前記Mチャネル・オーディオ信号の忠実度を改善しうる。
ある例示的実施形態では、ここで特定符号化フォーマットと称されるある符号化フォーマットにおいて、一つまたは複数のチャネルの第一のグループはN個のチャネルからなっていてもよく、N≧3である。本例示的実施形態では、指示される符号化フォーマットが特定符号化フォーマットであることに応答して:前記プレ脱相関係数は、脱相関済み信号のN−1個のチャネルが前記ダウンミックス信号の前記第一のチャネルに基づいて生成されるよう、決定されてもよく;前記ドライおよびウェット・アップミックス係数は、一つまたは複数のチャネルの第一のグループが、前記ダウンミックス信号の前記第一のチャネルおよび前記脱相関済み信号の前記N−1個のチャネルの線形マッピングであって、前記ドライ・アップミックス係数の部分集合が前記ダウンミックス信号の前記第一のチャネルに適用され、前記ウェット・アップミックス係数の部分集合が前記脱相関済み信号の前記N−1個のチャネルに適用される、線形マッピングとして再構成されるよう決定されてもよい。
前記プレ脱相関係数はたとえば、前記脱相関入力信号のN−1個のチャネルが前記ダウンミックス信号の前記第一のチャネルと一致するよう決定されてもよい。前記脱相関済み信号のN−1個のチャネルは、たとえば、前記脱相関入力信号のこれらN−1個のチャネルを処理することによって生成されてもよい。
一つまたは複数のチャネルの第一のグループが前記ダウンミックス信号の前記第一のチャネルおよび前記脱相関済み信号の前記N−1個のチャネルの線形マッピングとして再構成されるとは、一つまたは複数のチャネルの第一のグループの再構成されたバージョンが、前記ダウンミックス信号の前記第一のチャネルおよび前記脱相関済み信号の前記N−1個のチャネルに線形変換を適用することによって得られることを意味する。この線形変換はN個のチャネルを入力として取り、N個のチャネルを出力として与える。ここで、前記ドライ・アップミックス係数の前記部分集合および前記ウェット・アップミックス係数の前記部分集合が一緒になって、この線形変換の定量的属性を定義する係数からなる。
ある例示的実施形態では、受領されるアップミックス・パラメータは、本稿でウェット・アップミックス・パラメータと称される第一の型のアップミックス・パラメータと、本稿でドライ・アップミックス・パラメータと称される第二の型のアップミックス・パラメータとを含んでいてもよい。本例示的実施形態では、特定符号化フォーマットにおいて、ウェットおよびドライ・アップミックス係数の前記集合を決定することは:前記ドライ・アップミックス・パラメータに基づいて、前記ドライ・アップミックス係数の前記部分集合を決定する段階と;受領されたウェット・アップミックス・パラメータの数より多くの要素をもつ中間行列に値を入れる段階であって、受領されたアップミックス・パラメータと、該中間行列があらかじめ定義された行列クラスに属することを知っていることに基づく、段階と;前記中間行列にあらかじめ定義された行列を乗算することによって前記ウェット・アップミックス係数の前記部分集合を得る段階であって、前記ウェット・アップミックス係数の前記部分集合は前記乗算から帰結する行列に対応し、前記中間行列の要素の数より多い係数を含む、段階とを含んでいてもよい。
本例示的実施形態において、ウェット・アップミックス係数の前記部分集合におけるウェット・アップミックス係数の数は、受領されるウェット・アップミックス・パラメータの数より多い。前記受領されたウェット・アップミックス・パラメータからウェット・アップミックス係数の前記部分集合を取得するために前記あらかじめ定義された行列および前記あらかじめ定義された行列クラスの知識を活用することにより、一つまたは複数のチャネルの前記第一のグループのパラメトリック再構成のために必要とされる情報の量が低減されうる。これは、ダウンミックス信号と一緒にエンコーダ側から伝送されるメタデータの量の削減を許容する。パラメトリック再構成のために必要とされるデータの量を減らすことによって、前記Mチャネル・オーディオ信号のパラメトリック表現の伝送のための必要とされる帯域幅および/またはそのような表現を記憶するための必要とされるメモリ・サイズが低減されうる。
前記あらかじめ定義された行列クラスは、クラス内のすべての行列について有効である、少なくともいくつかの行列要素の既知の属性に関連していてもよい。たとえば、行列要素のいくつかの間のある種の関係またはいくつかの行列要素が0であることなどである。これらの属性の知識は、中間行列における行列要素の総数よりも少数のウェット・アップミックス・パラメータに基づいて中間行列に値を入れることを許容する。デコーダ側は、少なくとも、前記より少数のウェット・アップミックス・パラメータに基づいてすべての行列要素を計算するために必要とする要素の属性および要素間の関係についての知識を有している。
前記あらかじめ定義された行列および前記あらかじめ定義された行列クラスをどのように決定し、用いるかは、米国仮特許出願第61/974,544号;筆頭発明者Lars Villemoes;出願日2014年4月3日の第16頁第15行から第20頁第2行においてより詳細に記述されている。特に、あらかじめ定義された行列の例については、同出願の式(9)を参照されたい。
ある例示的実施形態では、受領されたアップミックス・パラメータは、N(N−1)/2個のウェット・アップミックス・パラメータを含んでいてもよい。本例示的実施形態では、中間行列に値を入れることは、受領されたN(N−1)/2個のウェット・アップミックス・パラメータおよび中間行列が前記あらかじめ定義された行列クラスに属するという知識に基づいて、(N−1)2個の行列要素についての値を得ることを含んでいてもよい。これは、前記ウェット・アップミックス・パラメータの値をそのまま行列要素として挿入することまたは前記ウェット・アップミックス・パラメータを、前記行列要素のための値を導出するために好適な仕方で処理することを含んでいてもよい。本例示的実施形態では、前記あらかじめ定義された行列はN(N−1)個の要素を含んでいてもよく、ウェット・アップミックス係数の前記部分集合はN(N−1)個の係数を含んでいてもよい。たとえば、受領されたメタデータは、高々N(N−1)/2個の独立に割り当て可能なウェット・アップミックス・パラメータを含んでいてもよく、および/またはウェット・アップミックス・パラメータの数が、ウェット・アップミックス係数の前記部分集合におけるウェット・アップミックス係数の数の高々半分であってもよい。
ある例示的実施形態では、受領されたアップミックス・パラメータは、(N−1)個のドライ・アップミックス・パラメータを含んでいてもよい。本例示的実施形態では、ドライ・アップミックス係数の前記部分集合はN個の係数を含んでいてもよく、ドライ・アップミックス係数の前記部分集合は、受領された(N−1)個のドライ・アップミックス・パラメータに基づき、かつドライ・アップミックス係数の前記部分集合内の係数の間のあらかじめ定義された関係に基づいて決定されてもよい。たとえば、受領されたアップミックス・パラメータは、高々(N−1)個の独立に割り当て可能なドライ・アップミックス・パラメータを含んでいてもよい。
ある例示的実施形態では、前記あらかじめ定義された行列クラスは:下三角行列または上三角行列(ここでは、クラス内のすべての行列の既知の属性は、あらかじめ定義された行列要素が0であることを含む);対称行列(ここでは、クラス内のすべての行列の既知の属性は、(主対角線のそれぞれの側の)あらかじめ定義された行列要素が等しいことを含む);直交行列と対角行列の積(ここでは、クラス内のすべての行列の既知の属性は、あらかじめ定義された行列要素の間の既知の関係を含む)のうちの一つであってもよい。換言すれば、前記あらかじめ定義された行列クラスは、下三角行列のクラス、上三角行列のクラス、対称行列のクラスまたは直交行列と対角行列の積のクラスであってもよい。上記の各クラスの共通の属性は、その次元性が行列要素の総数より低いということである。
ある例示的実施形態では、前記あらかじめ定義された行列および/または前記あらかじめ定義された行列クラスは、指示される符号化フォーマットに関連付けられていてもよい。これはたとえば、デコード方法が、ウェット・アップミックス係数の集合の決定をしかるべく調整することを許容する。
例示的実施形態によれば、オーディオ・デコード方法が提供され、本方法は、少なくとも二つのあらかじめ定義されたチャネル構成のうちの一つを示すシグナルを受領し;受領されたシグナルが第一のあらかじめ定義されたチャネル構成を示すことを検出することに応答して、前記第一の側面のオーディオ・デコード方法のいずれかを実行することを含む。本オーディオ・デコード方法は、受領されたシグナルが第二のあらかじめ定義されたチャネル構成を示すことを検出することに応答して:二チャネル・ダウンミックス信号および関連するアップミックス・パラメータを受領し;前記ダウンミックス信号の第一のチャネルおよび前記アップミックス・パラメータの少なくともいくつかに基づいて第一の三チャネル・オーディオ信号のパラメトリック再構成を実行し;前記ダウンミックス信号の第二のチャネルおよび前記アップミックス・パラメータの少なくともいくつかに基づいて第二の三チャネル・オーディオ信号のパラメトリック再構成を実行することを含む。
前記第一のあらかじめ定義されたチャネル構成は、受領された二チャネルのダウンミックス信号と、関連付けられたアップミックス・パラメータとによって表わされるMチャネル・オーディオ信号に対応してもよい。第二のあらかじめ定義されたチャネル構成は、受領されたダウンミックス信号のそれぞれ第一および第二のチャネルによっておよび関連付けられたアップミックス・パラメータによって表わされる第一および第二の三チャネル・オーディオ信号に対応してもよい。
少なくとも二つのあらかじめ定義されたチャネル構成のうちの一つを示すシグナルを受領し、示されたチャネル構成に基づいてパラメトリック再構成を実行できることは、上記Mチャネル・オーディオ信号または上記二つの三チャネル・オーディオ信号のいずれかのパラメトリック再構成をエンコーダ側からデコーダ側に搬送するコンピュータ可読媒体のために、共通のフォーマットが用いられることを許容しうる。
例示的実施形態によれば、オーディオ・デコード・システムが提供され、本システムは二チャネル・ダウンミックス信号および関連付けられたアップミックス・パラメータに基づいてMチャネル・オーディオ信号を再構成するよう構成されたデコード部を有する。ここで、M≧4である。本オーディオ・デコード・システムは、前記Mチャネル・オーディオ信号の少なくとも二つの符号化フォーマットのうちの選択されたものを示すシグナルを受領するよう構成された制御部を有する。それらの符号化フォーマットは、前記Mチャネル・オーディオ信号のチャネルの、一つまたは複数のチャネルのそれぞれ第一および第二のグループへのそれぞれ異なる分割に対応する。示される符号化フォーマットにおいて、前記ダウンミックス信号の第一のチャネルは前記Mチャネル・オーディオ信号の前記第一のグループの一つまたは複数のチャネルの線形結合に対応し、前記ダウンミックス信号の第二のチャネルは前記Mチャネル・オーディオ信号の前記第二のグループの一つまたは複数のチャネルの線形結合に対応する。前記デコード部は:示された符号化フォーマットに基づいて一組のプレ脱相関係数を決定する段階と;前記ダウンミックス信号の線形マッピングとして脱相関入力信号を計算する段階であって、前記ダウンミックス信号に前記一組のプレ脱相関係数が適用される、段階とを実行するよう構成されたプレ脱相関部と;前記脱相関入力信号に基づいて脱相関済み信号を生成する段階を実行するよう構成された脱相関部とを有する。前記デコード部は、ウェット・アップミックス係数の集合およびドライ・アップミックス係数の集合を、受領されたアップミックス・パラメータおよび指示された符号化フォーマットに基づいて決定する段階と;ドライ・アップミックス信号を前記ダウンミックス信号の線形マッピングとして計算する段階であって、前記ドライ・アップミックス係数の集合が前記ダウンミックス信号に適用される、段階と;ウェット・アップミックス信号を前記脱相関済み信号の線形マッピングとして計算する段階であって、前記ウェット・アップミックス係数の集合が前記脱相関済み信号に適用される、段階と;前記ドライ・アップミックス信号およびウェット・アップミックス信号を組み合わせて、再構成されるべき前記Mチャネル・オーディオ信号に対応する多次元の再構成された信号を得る段階とを実行するよう構成された混合部を有する。
ある例示的実施形態によれば、本オーディオ・デコード・システムはさらに、追加的な二チャネル・ダウンミックス信号および関連付けられた追加的なアップミックス・パラメータに基づいて追加的なMチャネル・オーディオ信号を再構成するよう構成された追加的なデコード部を有する。前記制御部は、前記追加的なMチャネル・オーディオ信号の少なくとも二つの符号化フォーマットのうちの選択されたものを示すシグナルを受領するよう構成されていてもよい。前記追加的なMチャネル・オーディオ信号のそれらの符号化フォーマットは、前記追加的なMチャネル・オーディオ信号のチャネルの、一つまたは複数のチャネルのそれぞれ第一および第二のグループへのそれぞれ異なる分割に対応する。前記追加的なMチャネル・オーディオ信号の示される符号化フォーマットにおいて、前記追加的なダウンミックス信号の第一のチャネルは前記追加的なMチャネル・オーディオ信号の前記第一のグループの一つまたは複数のチャネルの線形結合に対応し、前記追加的なダウンミックス信号の第二のチャネルは前記追加的なMチャネル・オーディオ信号の前記第二のグループの一つまたは複数のチャネルの線形結合に対応する。前記追加的なデコード部は:前記追加的なMチャネル・オーディオ信号の示された符号化フォーマットに基づく追加的な一組のプレ脱相関係数を決定する段階と;前記追加的なダウンミックス信号の線形マッピングとして追加的な脱相関入力信号を計算する段階であって、前記追加的なダウンミックス信号に前記追加的な一組のプレ脱相関係数が適用される、段階とを実行するよう構成された追加的なプレ脱相関部と;前記追加的な脱相関入力信号に基づいて追加的な脱相関済み信号を生成する段階を実行するよう構成された追加的な脱相関部とを有する。前記追加的なデコード部は、追加的なウェット・アップミックス係数の集合およびドライ・アップミックス係数の集合を、受領された追加的なアップミックス・パラメータおよび前記追加的なMチャネル・オーディオ信号の指示された符号化フォーマットに基づいて決定する段階と;追加的なドライ・アップミックス信号を前記追加的なダウンミックス信号の線形マッピングとして計算する段階であって、前記追加的なドライ・アップミックス係数の集合が前記追加的なダウンミックス信号に適用される、段階と;追加的なウェット・アップミックス信号を前記追加的な脱相関済み信号の線形マッピングとして計算する段階であって、前記追加的なウェット・アップミックス係数の集合が前記追加的な脱相関済み信号に適用される、段階と;前記追加的なドライ・アップミックス信号およびウェット・アップミックス信号を組み合わせて、再構成されるべき前記追加的なMチャネル・オーディオ信号に対応する追加的な多次元の再構成された信号を得る段階とを実行するよう構成された追加的な混合部を有していてもよい。
本例示的実施形態では、前記追加的なデコード部、前記追加的なプレ脱相関部、前記追加的な脱相関部および前記追加的な混合部はたとえば、前記デコード部、前記プレ脱相関部、前記脱相関部および前記混合部とは独立して動作可能であってもよい。
本例示的実施形態において、前記追加的なデコード部、前記追加的なプレ脱相関部、前記追加的な脱相関部および前記追加的な混合部はたとえば、それぞれ前記デコード部、前記プレ脱相関部、前記脱相関部および前記混合部と機能的に等価であってもよい(あるいは類似に構成されていてもよい)。あるいはまた、前記追加的なデコード部、前記追加的なプレ脱相関部、前記追加的な脱相関部および前記追加的な混合部のうちの少なくとも一つがたとえば、前記デコード部、前記プレ脱相関部、前記脱相関部および前記混合部のうちの対応する部によって実行されるのとは少なくとも一つの異なる型の補間を実行するよう構成されていてもよい。
たとえば、受領されるシグナルが、前記Mチャネル・オーディオ信号および前記追加的なMチャネル・オーディオ信号について異なる符号化フォーマットを示してもよい。あるいはまた、前記二つのMチャネル・オーディオ信号の符号化フォーマットがたとえば常に一致するのでもよく、受領されるシグナルは、前記二つのMチャネル・オーディオ信号についての少なくとも二つの共通の符号化フォーマットのうちの選択されたものを示していてもよい。
前記Mチャネル・オーディオ信号の符号化フォーマットの間で切り換えることに応答しての、プレ脱相関係数の間での漸進的な遷移のために用いられる補間方式は、前記追加的なMチャネル・オーディオ信号の符号化フォーマットの間で切り換えることに応答しての、追加的なプレ脱相関係数の間での漸進的な遷移のために用いられる補間方式と一致してもよいし、あるいは異なっていてもよい。
同様に、前記Mチャネル・オーディオ信号の符号化フォーマットの間で切り換えることに応答しての、ウェットおよびドライ・アップミックス係数の値の補間のために用いられる補間方式は、前記追加的なMチャネル・オーディオ信号の符号化フォーマットの間で切り換えることに応答しての、追加的なウェットおよびドライ・アップミックス係数の値の補間のために用いられる補間方式と一致してもよいし、あるいは異なっていてもよい。
ある例示的実施形態では、本オーディオ・デコード・システムはさらに、前記ダウンミックス信号、前記ダウンミックス信号に関連付けられた前記アップミックス・パラメータおよび離散的に符号化されたオーディオ・チャネルを、ビットストリームから抽出するよう構成されたデマルチプレクサを有していてもよい。本デコード・システムはさらに、前記離散的に符号化されたオーディオ・チャネルをデコードするよう動作可能な単一チャネル・デコード部を有していてもよい。前記離散的に符号化されたオーディオ・チャネルは、たとえば、ドルビー・デジタル、MPEG AACまたはそれらの発展形のような知覚的オーディオ・コーデックを使って前記ビットストリーム内にエンコードされていてもよく、前記単一チャネル・デコード部は、たとえば、前記離散的に符号化されたオーディオ・チャネルをデコードするためのコア・デコーダを有していてもよい。前記単一チャネル・デコード部はたとえば、前記デコード部とは独立して前記離散的に符号化されたオーディオ・チャネルをデコードするよう動作可能であってもよい。
例示的実施形態によれば、第一の側面のいずれかの方法を実行するための命令をもつコンピュータ可読媒体を有するコンピュータ・プログラム・プロダクトが提供される。
〈II.概観 ―― エンコーダ側〉
第二の側面によれば、例示的実施形態は、オーディオ・エンコード・システムならびにオーディオ・エンコード方法および関連するコンピュータ・プログラム・プロダクトを提案する。第二の側面に基づく提案されるエンコード・システム、方法およびコンピュータ・プログラム・プロダクトは一般に、同じ特徴および利点を共有してもよい。さらに、第一の側面に基づくデコード・システム、方法およびコンピュータ・プログラム・プロダクトの特徴について上記で呈示された利点は一般に、第二の側面に基づくエンコード・システム、方法およびコンピュータ・プログラム・プロダクトの対応する特徴についても有効でありうる。
例示的実施形態によれば、オーディオ・エンコード方法が提供され、本方法は、M≧4であるとして、Mチャネル・オーディオ信号を受領することを含む。本オーディオ・エンコード方法は、任意の好適な選択基準、たとえば信号属性、システム負荷、ユーザー選好、ネットワーク条件に基づいて少なくとも二つの符号化フォーマットのうちの一つを反復的に選択することを含む。選択は、オーディオ信号の各時間フレームについて一度、あるいはn番目の時間フレーム毎に一度、繰り返されてもよく、可能性としては、初期に選ばれたものとは異なるフォーマットの選択につながる。あるいはまた、選択はイベント駆動であってもよい。これらの符号化フォーマットは、前記Mチャネル・オーディオ信号のチャネルの、一つまたは複数のチャネルのそれぞれ第一および第二のグループへのそれぞれ異なる分割に対応する。各符号化フォーマットにおいて、二チャネル・ダウンミックス信号は、前記Mチャネル・オーディオ信号の前記第一のグループの一つまたは複数のチャネルの線形結合として形成される第一のチャネルと、前記Mチャネル・オーディオ信号の前記第二のグループの一つまたは複数のチャネルの線形結合として形成される第二のチャネルとを含む。選択された符号化フォーマットについて、前記Mチャネル・オーディオ信号に基づいて前記ダウンミックス・チャネルが計算される。ひとたび計算されると、現在選択されている符号化フォーマットの前記ダウンミックス信号が出力され、現在選択されている符号化フォーマットを示すシグナルおよび前記Mチャネル・オーディオ信号のパラメトリック再構成を可能にするサイド情報も出力される。選択の結果、第一の選択された符号化フォーマットから第二の異なる選択された符号化フォーマットへの変化が生じる場合には、遷移が開始されてもよい。それにより、第一の選択された符号化フォーマットに基づくダウンミックス信号および第二の選択された符号化フォーマットに基づくダウンミックス信号のクロスフェードが出力される。このコンテキストにおいて、クロスフェードは、二つの信号の線形または非線形時間補間であってもよい。一例として、
y(t)=tx1(t)+(1−t)x2(t) t∈[0,1]
は、関数x2から関数x1へのクロスフェードを時間的に線形に提供する。ここで、x1、x2は、それぞれの符号化フォーマットに基づくダウンミックス信号を表わす、ベクトル値の時間の関数であってもよい。記法の簡単のため、クロスフェードが実行される時間区間は[0,1]に再スケーリングされている。ここで、t=0がクロスフェードの開始を表わし、t=1がクロスフェードが完了した時点を表わす。
物理的な単位でのt=0およびt=1の位置は、再構成されたオーディオの知覚される出力品質にとって重要でありうる。クロスフェードを位置付けするための可能なガイドラインとして、開始は異なるフォーマットの必要性が判別された後できるだけ早く生起してもよく、および/または知覚的に気づかれない可能な最短の時間で完了してもよい。よって、符号化フォーマットの選択がフレームごとに繰り返される実装については、いくつかの例示的実施形態は、クロスフェードはフレームの先頭において始まり(t=0)、その終点(t=1)を、できるだけ近いが、平均的な聴取者が二つの異なる符号化フォーマットに基づく(典型的なコンテンツをもつ)共通のMチャネル・オーディオ信号の二つの再構成の間の遷移に起因するアーチファクトまたは劣化に気づくことができないほど十分に遠いようにする。ある例示的実施形態では、本オーディオ・エンコード方法によって出力されるダウンミックス信号は、時間フレームにセグメント分割され、クロスフェードは一フレームを占めてもよい。別の例示的実施形態では、本オーディオ・エンコード方法によって出力されるダウンミックス信号は重なり合う時間フレームにセグメント分割されてもよく、クロスフェードの継続時間は、ある時間フレームから次の時間フレームへのストライドに対応する。
例示的実施形態では、現在選択された符号化フォーマットを示すシグナルは、フレームごとにエンコードされてもよい。あるいはまた、該シグナルは、選択された符号化フォーマットに変化がない場合には一つまたは複数の連続するフレームにおいてそのようなシグナルが省略できるという意味で、時間差動的であってもよい。デコーダ側では、そのようなフレームのシーケンスは、最も最近にシグナルで伝達された符号化フォーマットが選択されたままとなることを意味すると解釈されうる。
前記Mチャネル・オーディオ信号のオーディオ内容に依存して、前記Mチャネル・オーディオ信号のチャネルの、前記ダウンミックス信号のそれぞれのチャネルによって表わされる第一および第二のグループへの異なる分割が、この信号がダウンミックス信号および関連付けられたアップミックス・パラメータから再構成されるときに忠実度を保存するために、好適となりうる。したがって、再構成される前記Mチャネル・オーディオ信号の忠実度は、いくつかのあらかじめ定義された符号化フォーマットから適切な符号化フォーマット、すなわち最も好適なものを選択することによって高められうる。
ある例示的実施形態では、前記サイド情報は、本開示において先に使ったのと同じ意味でのドライおよびウェット・アップミックス係数を含む。個別的な実装上の理由がない限り、一般に、前記サイド情報(特にドライおよびウェット・アップミックス係数)は、現在選択されている符号化フォーマットについて計算すれば十分である。特に、ドライ・アップミックス係数の集合(これは次元M×2の行列として表現されてもよい)は、前記Mチャネル・オーディオ信号を近似するそれぞれのダウンミックス信号の線形マッピングを定義してもよい。ウェット・アップミックス係数の集合(これは次元M×Pの行列として表現されてもよい;ここで、脱相関器の数PはP=M−2に設定されてもよい)は、脱相関済み信号の線形マッピングを、脱相関済み信号の前記線形マッピングによって得られる信号の共分散が選択された符号化フォーマットの前記ダウンミックス信号の前記線形マッピングによって近似される前記Mチャネル・オーディオ信号の共分散を補足するよう、定義する。ウェット・アップミックス係数の集合が定義する脱相関済み信号のマッピングが(近似される)前記Mチャネル・オーディオ信号の共分散を補足するというのは、前記Mチャネル・オーディオ信号と前記脱相関済み信号の前記マッピングしたものとの和の共分散が典型的には受領されたMチャネル・オーディオ信号の共分散に、より近いという意味においてである。補足的な共分散を加えることの効果は、デコーダ側での再構成された信号の改善された忠実度でありうる。
前記ダウンミックス信号の線形マッピングは、前記Mチャネル・オーディオ信号の近似を与える。デコーダ側で前記Mチャネル・オーディオ信号を再構成するとき、脱相関済み信号は、前記ダウンミックス信号のオーディオ・コンテンツの次元性を増すために用いられ、脱相関済み信号の線形マッピングによって得られる信号が、ダウンミックス信号の線形マッピングによって得られる信号と組み合わされて、前記Mチャネル・オーディオ信号の近似の忠実度を改善する。脱相関済み信号は前記ダウンミックスの少なくとも一つのチャネルに基づいて決定され、前記ダウンミックス信号においてすでに利用可能ではない前記Mチャネル・オーディオ信号からのいかなるオーディオ・コンテンツも含まないので、受領された前記Mチャネル・オーディオ信号の共分散と前記ダウンミックス信号の線形マッピングによって近似された前記Mチャネル・オーディオ信号の共分散との間の差は、前記ダウンミックス信号の線形マッピングによって近似された前記Mチャネル・オーディオ信号の忠実度のみならず、前記ダウンミックス信号および前記脱相関済み信号の両方を使って再構成された前記Mチャネル・オーディオ信号の忠実度をも示しうる。特に、受領された前記Mチャネル・オーディオ信号の共分散と前記ダウンミックス信号の線形マッピングによって近似された前記Mチャネル・オーディオ信号の共分散との間の低下した差は、再構成された前記Mチャネル・オーディオ信号の改善された忠実度を示しうる。ウェット・アップミックス係数の集合が定義する脱相関済み信号のマッピングが(ダウンミックス信号から得られる)前記Mチャネル・オーディオ信号の共分散を補足するというのは、前記Mチャネル・オーディオ信号と前記脱相関済み信号の前記マッピングとの和の共分散が、受領されたMチャネル・オーディオ信号の共分散に、より近いという意味においてである。したがって、それぞれの計算された差に基づいて符号化フォーマットの一つを選択することは、再構成される前記Mチャネル・オーディオ信号の忠実度を改善することを許容する。
符号化フォーマットは、たとえば計算された差に直接基づいて、あるいは計算された差に基づいて決定された係数および/または値に基づいて選択されてもよいことは理解されるであろう。
符号化フォーマットは、それぞれの計算された差に加えて、たとえばそれぞれの計算されたドライ・アップミックス・パラメータに基づいて選択されてもよいことも理解されるであろう。
ドライ・アップミックス係数の集合はたとえば、ダウンミックス信号のみが再構成のために利用可能であるという想定のもとに、すなわち脱相関済み信号は再構成のために用いられないという想定のもとに、最小平均二乗誤差近似を介して決定されてもよい。
前記の計算された差は、たとえば、受領された前記Mチャネル・オーディオ信号の共分散行列と、異なる複数の符号化フォーマットの前記ダウンミックス信号のそれぞれの線形マッピングによって近似された前記Mチャネル・オーディオ信号の共分散行列との間の差であってもよい。符号化フォーマットの一つを選択することは、たとえば、共分散行列の間のそれぞれの差についての行列ノルムを計算し、計算された行列ノルムに基づいて符号化フォーマットの一つを選択する、たとえば計算された行列のうちの最小のものに関連付けられた符号化フォーマットを選択することを含んでいてもよい。
脱相関済み信号は、たとえば、少なくとも一つのチャネルおよび高々M−2個のチャネルを含んでいてもよい。
ダウンミックス信号の線形マッピングを定義するドライ・アップミックス係数の集合がMチャネル・ダウンミックス信号を近似するとは、前記ダウンミックス信号に線形変換を適用することによって前記Mチャネル・ダウンミックス信号の近似が得られることを意味する。この線形変換は、前記ダウンミックス信号の二つのチャネルを入力として取り、M個のチャネルを出力として与える。前記ドライ・アップミックス係数は、この線形変換の定量的属性を定義する係数である。
同様に、前記ウェット・アップミックス・パラメータは、前記脱相関済み信号のチャネル(単数または複数)を入力として取り、M個のチャネルを出力として与える線形変換の定量的属性を定義する。
ある例示的実施形態では、前記ウェット・アップミックス・パラメータは、前記脱相関済み信号の線形マッピング(これは前記ウェット・アップミックス・パラメータが定義する)によって得られる信号の共分散が、受領された前記Mチャネル・オーディオ信号の共分散と選択された符号化フォーマットの前記ダウンミックス信号の線形マッピングによって近似された前記Mチャネル・オーディオ信号の共分散との間の差を近似するよう決定されてもよい。異なる言い方をすれば、ダウンミックス信号の(ドライ・アップミックス・パラメータによって定義される)第一の線形マッピングと脱相関済み信号の(この例示的実施形態に従って決定されるウェット・アップミックス・パラメータによって定義される)第二の線形マッピングとの和の共分散が、上記で論じているオーディオ・エンコード方法への入力をなすMチャネル・オーディオ信号の共分散に近くなる。本例示的実施形態に従ってウェット・アップミックス係数を決定することは、再構成されるMチャネル・オーディオ信号の忠実度を改善しうる。
あるいはまた、前記ウェット・アップミックス・パラメータは、前記脱相関済み信号の線形マッピングによって得られる信号の共分散が、受領された前記Mチャネル・オーディオ信号の共分散と選択された符号化フォーマットの前記ダウンミックス信号の線形マッピングによって近似された前記Mチャネル・オーディオ信号の共分散との間の差の一部を近似するよう決定されてもよい。たとえば、デコーダ側で限られた数の脱相関器が利用可能である場合、受領されたMチャネル・オーディオ信号の共分散を完全に復元することは可能でないことがある。そのような例では、前記Mチャネル・オーディオ信号の共分散の部分的な再構成のために好適なウェット・アップミックス・パラメータが、エンコーダ側で決定されてもよい。
ある例示的実施形態では、本オーディオ・エンコード方法はさらに、前記少なくとも二つの符号化フォーマットのそれぞれについて:(その符号化フォーマットについての)前記ドライ・アップミックス係数と一緒になって、(その符号化フォーマットの)前記ダウンミックス信号からかつ(そのフォーマットの)前記ダウンミックス信号に基づいて決定された脱相関済み信号からの前記Mチャネル・オーディオ信号のパラメトリック再構成を許容するウェット・アップミックス・パラメータの集合を決定する段階を含んでいてもよい。ここで、ウェット・アップミックス・パラメータの前記集合は、前記脱相関済み信号の線形マッピングを、前記脱相関済み信号の前記線形マッピングによって得られる信号の共分散が、受領された前記Mチャネル・オーディオ信号の共分散と(そのフォーマットの)前記ダウンミックス信号の前記線形マッピングによって近似された前記Mチャネル・オーディオ信号の共分散との間の差を近似するよう、定義する。本例示的実施形態では、選択された符号化フォーマットは、ウェット・アップミックス係数のそれぞれの決定された集合の値に基づいて選択されてもよい。
再構成された前記Mチャネル・オーディオ信号の指標が、たとえば、決定されたウェット・アップミックス係数に基づいて得られてもよい。符号化フォーマットの選択は、たとえば、決定されたウェット・アップミックス係数の重み付けされたまたは重み付けされない和に、決定されたウェット・アップミックス係数の絶対値の重み付けされたまたは重み付けされない和に、および/または決定されたウェット・アップミックス係数の二乗の重み付けされたまたは重み付けされない和に基づいていてもよく、たとえばそれぞれの計算されたドライ・アップミックス係数の対応する和にも基づいていてもよい。
ウェット・アップミックス・パラメータは、たとえば、前記Mチャネル信号の複数の周波数帯域について計算されてもよく、符号化フォーマットの選択は、たとえば、それぞれの周波数帯域におけるそれぞれの決定された集合のウェット・アップミックス係数の値に基づいていてもよい。
ある例示的実施形態では、第一と第二の符号化フォーマットの間の遷移は、ある時間フレームでは第一の符号化フォーマットの、その後の時間フレームでは第二の符号化フォーマットの、ドライおよびウェット・アップミックス係数の離散的な値を出力することを含む。前記Mチャネル信号を最終的に再構成するデコーダにおける機能は、出力の離散的な値の間のアップミックス係数の補間を含んでいてもよい。そのようなデコーダ側機能のおかげで、第一の符号化フォーマットから第二の符号化フォーマットへのクロスフェードが実効的に帰結する。上記したダウンミックス信号に適用されるクロスフェードと同様に、そのようなクロスフェードは、前記Mチャネル・オーディオ信号が再構成されるときに、符号化フォーマットの間での、より知覚されにくい遷移につながりうる。
前記Mチャネル・オーディオ信号に基づいて前記ダウンミックス信号を計算するために用いられる前記係数は補間されてもよい、すなわちダウンミックス信号が第一の符号化フォーマットに従って計算されるフレームに関連付けられた値から、ダウンミックス信号が第二の符号化フォーマットに従って計算されるフレームに関連付けられた値に補間されてもよい。少なくともダウンミックスが時間領域で行なわれる場合には、概説される型の係数補間から帰結するダウンミックス・クロスフェードは、それぞれのダウンミックス信号に対して直接実行される補間から帰結するクロスフェードと等価であろう。ダウンミックス信号を計算するために用いられる係数の値は典型的には信号依存ではなく、利用可能な符号化フォーマットのそれぞれについて事前に定義されてもよいことが想起される。
ダウンミックス信号およびアップミックス係数のクロスフェードに戻ると、二つのクロスフェードの間の同期を保証することが有利であるとみなされる。好ましくは、ダウンミックス信号およびアップミックス係数についてのそれぞれの遷移期間は、一致してもよい。特に、それぞれのクロスフェードを受け持つエンティティは、制御データの共通ストリームによって制御されてもよい。そのような制御データは、クロスフェードの始点および終点ならびに任意的には線形、非線形などのクロスフェード波形を含んでいてもよい。アップミックス係数の場合、クロスフェード波形は、デコード装置の挙動を支配する所定の補間規則によって与えられてもよい;だが、クロスフェードの始点および終点は、アップミックス係数の離散的な値が定義および/または出力される位置によって暗黙的に制御されてもよい。二つのクロスフェード・プロセスの時間依存性の類似性は、ダウンミックス信号およびその再構成のために与えられるパラメータの間の良好な一致を保証する。これは、デコーダ側でのアーチファクトの低減につながりうる。
ある例示的実施形態では、符号化フォーマットの選択は、受領された前記Mチャネル信号と前記ダウンミックス信号に基づいて再構成された前記Mチャネル信号との共分散に関する差を比較することに基づく。特に、再構成は、ドライ・アップミックス係数のみによって、すなわち(たとえばダウンミックス信号のオーディオ・コンテンツの次元性を増すために)脱相関を使って決定された信号からの寄与なしに、定義される、ダウンミックス信号の線形マッピングに等しくてもよい。特に、ウェット・アップミックス係数のいかなる集合によって定義される線形マッピングの寄与も、前記比較において考慮されない。異なる言い方をすれば、前記比較は、脱相関済み信号が利用可能ではないかのようになされる。選択のためのこの基礎は、現在、より忠実な再生を許容する符号化フォーマットを優先してもよい。任意的には、この比較が実行されて、符号化フォーマットの選択についての決定がなされた後、ウェット・アップミックス係数の集合が決定される。このプロセスに関連する利点は、受領されたMチャネル・オーディオ信号の所与のセクションについて、ウェット・アップミックス係数の重複した決定がないということである。
前段落で述べた例示的実施形態への変形において、ドライおよびウェット・アップミックス係数は、前記符号化フォーマットのすべてについて計算され、前記ウェット・アップミックス係数の定量的尺度が、符号化フォーマットの選択のための基礎として使われる。実際、決定されたウェット・アップミックス係数に基づいて計算される量は、再構成されるMチャネル・オーディオ信号の忠実度の(逆)指標を提供しうる。符号化フォーマットの選択は、たとえば、決定されたウェット・アップミックス係数の重み付けされたまたは重み付けされない和に、決定されたウェット・アップミックス係数の絶対値の重み付けされたまたは重み付けされない和に、および/または決定されたウェット・アップミックス係数の二乗の重み付けされたまたは重み付けされない和に基づいていてもよい。これらのオプションのそれぞれは、それぞれの計算されるドライ・アップミックス係数の対応する和と組み合わされてもよい。ウェット・アップミックス・パラメータは、たとえば、前記Mチャネル信号の複数の周波数帯域について計算されてもよく、符号化フォーマットの選択は、たとえば、それぞれの周波数帯域におけるそれぞれの決定された集合のウェット・アップミックス係数の値に基づいていてもよい。
ある例示的実施形態では、本オーディオ・エンコード方法はさらに:前記少なくとも二つの符号化フォーマットのそれぞれについて、対応するウェット・アップミックス係数の二乗の和および対応するドライ・アップミックス係数の二乗の和を計算することを含んでいてもよい。本例示的実施形態では、選択された符号化フォーマットは、これらの計算された二乗和に基づいて選択されてもよい。発明者らは、これらの計算された二乗和が、前記Mチャネル・オーディオ信号がウェットおよびドライ寄与の混合に基づいて再構成されるときに生じる、聴取者によって知覚される忠実度の損失の、特に良好な指標を提供しうることを認識するに至った。
たとえば、各符号化フォーマットについて、それぞれの符号化フォーマットについてのそれらの計算された二乗和に基づいて比が形成されてもよく、選択された符号化フォーマットは、形成された比のうち最小または最大のものに関連付けられていてもよい。比を形成することは、たとえば、ウェット・アップミックス係数の二乗の和をドライ・アップミックス係数の二乗の和とウェット・アップミックス係数の二乗の和との和で割ることを含んでいてもよい。あるいはまた、比は、ウェット・アップミックス係数の二乗の和をドライ・アップミックス係数の二乗の和で割ることによって形成されてもよい。
ある例示的実施形態では、本方法は、Mチャネル・オーディオ信号および少なくとも一つの関連する(M2チャネル)オーディオ信号のエンコードを提供する。これらのオーディオ信号は、たとえば同時に録音されたまたは共通のオーサリング・プロセスにおいて生成されたことにより、共通のオーディオ・シーンを記述するという意味で、関連していてもよい。これらのオーディオ信号は、共通のダウンミックス信号によってエンコードされる必要はなく、別個のプロセスでエンコードされてもよい。そのようなセットアップでは、符号化フォーマットのうちの一つの選択は、さらに、前記少なくとも一つのさらなるオーディオ・チャネルに関係するデータを考慮に入れ、こうして選択された符号化フォーマットは、前記Mチャネル・オーディオ信号および関連する(M2チャネル)オーディオ信号の両方をエンコードするために使われる。
ある例示的実施形態では、本オーディオ・エンコード方法によって出力されるダウンミックス信号は、時間フレームにセグメント分割されていてもよく、符号化フォーマットの選択はフレームごとに一度実行されてもよく、選択された符号化フォーマットは、異なる符号化フォーマットが選択される前に、少なくともあらかじめ定義された数の時間フレームにわたって維持されてもよい。あるフレームについての符号化フォーマットの選択は、上記で概説した方法のいずれによって実行されてもよく、たとえば共分散の間の差を考慮することによって、利用可能な符号化フォーマットについてのウェット・アップミックス係数の値を考慮することによって、などで実行されてもよい。選択された符号化フォーマットをある最小数の時間フレーム数にわたって維持することにより、符号化フォーマット間での行ったり来たりの繰り返されるジャンプがたとえば回避されうる。本例示的実施形態は、たとえば、再構成されるMチャネル・オーディオ信号の、聴取者によって知覚される再生品質を改善しうる。
前記最小数はたとえば10であってもよい。
受領されるMチャネル・オーディオ信号はたとえば、前記最小数の時間フレームにわたってバッファリングされてもよく、符号化フォーマットの選択は、たとえば、選択された符号化フォーマットが維持されるべきフレームの前記最小数に鑑みて選ばれるある数の時間フレームを含む移動窓にわたる多数決に基づいて実行されてもよい。そのような安定化機能の実装は、さまざまな平滑化フィルタ、特にデジタル信号処理において知られている有限インパルス応答平滑化フィルタの一つを含んでいてもよい。この手法への代替として、符号化フォーマットは、新たな符号化フォーマットが前記最小数のフレームにわたって続けて選択されたと見出されるときに、該新たな符号化フォーマットに切り換えられることができる。この基準を実施するために、前記最小数の連続するフレームをもつ移動時間窓が、たとえばバッファリングされているフレームについての過去の符号化フォーマット選択に適用されてもよい。第一の符号化フォーマットのフレームのシーケンス後に、第二の符号化フォーマットが移動窓内の各フレームについて選択されたままであれば、第二の符号化フォーマットへの遷移が確証され、その移動窓の先頭以降、有効になる。上記の安定化機能の実装は状態機械を含んでいてもよい。
ある例示的実施形態では、ドライおよびウェット・アップミックス・パラメータのコンパクトな表現が提供される。これは、中でも、あらかじめ定義された行列クラスに属するおかげで、行列内の要素よりも少数のパラメータによって一意的に決定される中間行列を生成することを含む。このコンパクトな表現の諸側面は、米国仮特許出願第61/974,544号;筆頭発明者Lars Villemoes;出願日2014年4月3日を特に参照して、本開示の先の部分で述べた。
ある例示的実施形態では、選択された符号化フォーマットにおいて、前記Mチャネル・オーディオ信号の一つまたは複数のチャネルの第一のグループはN個のチャネルからなっていてもよい。ここで、N≧3である。一つまたは複数のチャネルの前記第一のグループは、前記ダウンミックス信号の前記第一のチャネルおよび前記脱相関済み信号のN−1個のチャネルから、ウェットおよびドライ・アップミックス係数の少なくともいくつかを適用することによって再構成可能であってもよい。
本例示的実施形態では、選択された符号化フォーマットのドライ・アップミックス係数の集合を決定することは、選択された符号化フォーマットの一つまたは複数のチャネルの前記第一のグループを近似する選択された符号化フォーマットの前記ダウンミックス信号の前記第一のチャネルの線形マッピングを定義するために、選択された符号化フォーマットのドライ・アップミックス係数の部分集合を決定することを含んでいてもよい。
本例示的実施形態では、選択された符号化フォーマットのウェット・アップミックス係数の集合を決定することは:受領された前記選択された符号化フォーマットの一つまたは複数のチャネルの前記第一のグループの共分散と、前記選択された符号化フォーマットの前記ダウンミックス信号の前記第一のチャネルの前記線形マッピングによって近似される前記選択された符号化フォーマットの一つまたは複数のチャネルの前記第一のグループの共分散との間の差に基づいて中間行列を決定することを含んでいてもよい。あらかじめ定義された行列を乗算されると、前記中間行列は、前記選択された符号化フォーマットの一つまたは複数のチャネルの前記第一のグループのパラメトリック再構成の一部として、前記脱相関済み信号の前記N−1個のチャネルの線形マッピングを定義する前記選択された符号化フォーマットのウェット・アップミックス係数の部分集合に対応してもよい。前記選択された符号化フォーマットのウェット・アップミックス係数の前記部分集合は、前記中間行列内の要素の数より多くの係数を含んでいてもよい。
本例示的実施形態では、出力されるアップミックス・パラメータは、ドライ・アップミックス係数の前記部分集合が導出可能なもとになる、本稿でドライ・アップミックス・パラメータと称される第一の型のアップミックス・パラメータの集合と、前記中間行列があらかじめ定義された行列クラスに属するという前提で前記中間行列を一意的に定義する、本稿でウェット・アップミックス・パラメータと称される第二の型のアップミックス・パラメータの集合とを含んでいてもよい。前記中間行列は、前記選択された符号化フォーマットの前記ウェット・アップミックス・パラメータの前記部分集合内の要素の数より多くの要素を有していてもよい。
本例示的実施形態では、デコーダ側での一つまたは複数のチャネルの前記第一のグループのパラメトリック再構成コピーは、一つの寄与としての、前記ダウンミックス信号の前記第一のチャネルの線形マッピングによって形成されるドライ・アップミックス信号と、さらなる寄与としての、前記脱相関済み信号の前記N−1個のチャネルの線形マッピングによって形成されるウェット・アップミックス信号とを含む。ドライ・アップミックス係数の前記部分集合は、前記ダウンミックス信号の前記第一のチャネルの線形マッピングを定義し、ウェット・アップミックス係数の前記部分集合は、前記脱相関済み信号の線形マッピングを定義する。ウェット・アップミックス係数の前記部分集合内の係数の数より少数の、前記あらかじめ定義された行列および前記あらかじめ定義された行列クラスに基づいてウェット・アップミックス係数の前記部分集合が導出されるもとになるウェット・アップミックス・パラメータを出力することにより、前記Mチャネル・オーディオ信号の再構成を可能にするためにデコーダ側に送られる情報の量が減らされうる。パラメトリック再構成のために必要とされるデータの量を減らすことにより、前記Mチャネル・オーディオ信号のパラメトリック表現の伝送のための必要とされる帯域幅および/またはそのような表現を記憶するための必要とされるメモリ・サイズが低減されうる。
前記中間行列は、たとえば、前記脱相関済み信号の前記N−1個のチャネルの線形マッピングによって得られる信号の共分散が、前記ダウンミックス信号の前記第一のチャネルの線形マッピングによって近似される一つまたは複数のチャネルの前記第一のグループの共分散を補足するよう、決定されてもよい。
前記あらかじめ定義された行列および前記あらかじめ定義された行列クラスをどのように決定し、用いるかは、上述した米国仮特許出願第61/974,544号;筆頭発明者Lars Villemoes;出願日2014年4月3日の第16頁第15行から第20頁第2行により詳細に記述されている。特に、あらかじめ定義された行列の例については、同出願の式(9)を参照されたい。
ある例示的実施形態では、前記中間行列を決定することは、ウェット・アップミックス係数の前記部分集合によって定義される前記脱相関済み信号の前記N−1個のチャネルの前記線形マッピングによって得られる前記信号の共分散が、受領された前記第一のグループの一つまたは複数のチャネルの共分散と、前記ダウンミックス信号の前記第一のチャネルの前記線形マッピングによって近似された前記第一のグループの一つまたは複数のチャネルの共分散との間の差を近似するまたは該差と実質的に一致するよう、前記中間行列を決定することを含んでいてもよい。換言すれば、前記中間行列は、前記ダウンミックス信号の前記第一のチャネルの前記線形マッピングによって形成されるドライ・アップミックス信号と前記脱相関済み信号の前記N−1個のチャネルの前記線形マッピングによって形成されるウェット・アップミックス信号との和として得られる前記第一のグループの一つまたは複数のチャネルの再構成コピーが、受領された前記第一のグループの一つまたは複数のチャネルの共分散を完全にまたは少なくとも近似的に再現するように決定されてもよい。
ある例示的実施形態では、ウェット・アップミックス・パラメータは、高々N(N−1)/2個の独立して割り当て可能なウェット・アップミックス・パラメータを含んでいてもよい。本例示的実施形態では、中間行列は(N−1)2個の行列要素を有していてもよく、中間行列があらかじめ定義された行列クラスに属する限り、前記ウェット・アップミックス・パラメータによって一意的に定義されてもよい。本例示的実施形態では、ウェット・アップミックス係数の前記部分集合はN(N−1)個の係数を含んでいてもよい。
ある例示的実施形態では、ドライ・アップミックス係数の前記部分集合はN個の係数を含んでいてもよい。本例示的実施形態では、前記ドライ・アップミックス・パラメータは、高々N−1個のドライ・アップミックス・パラメータを含んでいてもよい。ドライ・アップミックス係数の前記部分集合は、あらかじめ定義された規則を使って、前記N−1個のドライ・アップミックス・パラメータから導出可能であってもよい。
ある例示的実施形態では、決定されたドライ・アップミックス係数の前記部分集合は、前記第一のグループの一つまたは複数のチャネルの最小平均二乗誤差近似に対応する前記ダウンミックス信号の前記第一のチャネルの線形マッピングを定義してもよい。すなわち、前記ダウンミックス信号の前記第一のチャネルの線形マッピングの集合の間で、ドライ・アップミックス係数の決定された集合は、最小平均二乗の意味で前記第一のグループの一つまたは複数のチャネルを最もよく近似する線形マッピングを定義しうる。
ある例示的実施形態では、オーディオ・エンコード・システムが提供され、本システムは、M≧4であるとして、Mチャネル・オーディオ信号を、二チャネル・オーディオ信号および関連するアップミックス・パラメータとしてエンコードするよう構成されたエンコード部を有する。前記エンコード部は:前記Mチャネル・オーディオ信号のチャネルの、一つまたは複数のチャネルのそれぞれ第一および第二のグループへのそれぞれ異なる分割に対応する少なくとも二つの符号化フォーマットのうちの少なくとも一つについて、その符号化フォーマットに従って、前記Mチャネル・オーディオ信号に基づく二チャネル・ダウンミックス信号を計算するよう構成されたダウンミックス部を有する。前記ダウンミックス信号の第一のチャネルは、前記Mチャネル・オーディオ信号の前記第一のグループの一つまたは複数のチャネルの線形結合として形成され、前記ダウンミックス信号の第二のチャネルは、前記Mチャネル・オーディオ信号の前記第二のグループの一つまたは複数のチャネルの線形結合として形成される。
本オーディオ・エンコード・システムはさらに、任意の好適な選択基準、たとえば信号属性、システム負荷、ユーザー選好、ネットワーク条件に基づいて前記符号化フォーマットのうちの一つを選択するよう構成された制御部を有する。本オーディオ・エンコード・システムはさらに、前記制御部によって遷移が命令されたときに二つの符号化フォーマットの間で前記ダウンミックス信号をクロスフェードさせるダウンミックス補間器をさらに有する。そのような遷移の間は、両方の符号化フォーマットについてのダウンミックス信号が計算されてもよい。前記ダウンミックス信号――または該当するときはそのクロスフェード――に加えて、本オーディオ・エンコード・システムは、現在選択されている符号化フォーマットを示すシグナルおよび前記ダウンミックス信号に基づく前記Mチャネル・オーディオ信号のパラメトリック再構成を可能にするサイド情報を少なくとも出力する。システムが、たとえばオーディオ・チャネルのそれぞれのグループをエンコードするために並列に動作する複数のエンコード部を有する場合には、前記制御部は、そのそれぞれから自律的であり、各エンコード部によって使われるべき共通の符号化フォーマットを選択することを受け持つよう実装されてもよい。
ある例示的実施形態によれば、本節で述べたいずれかの方法を実行するための命令をもつコンピュータ可読媒体を有するコンピュータ・プログラム・プロダクトが提供される。
〈III.例示的実施形態〉
図6〜図8は、11.1チャネル・オーディオ信号を5.1チャネル・オーディオ信号としてパラメトリック・エンコードするために、11.1チャネル・オーディオ信号をチャネルの諸グループに分割する代替的な諸仕方を示している。11.1チャネル・オーディオ信号は、L(左)、LS(左側方)、LB(左後方)、TFL(上前方左)、TBL(上後方左)、R(右)、RS(右側方)、RB(右後方)、TFR(上前方右)、TBR(上後方右)、C(中央)およびLFE(低域効果)のチャネルを含む。五つのチャネルL,LS,LB,TFL,TBLは11.1チャネル・オーディオ信号の再生環境における左半空間を表わす5チャネル・オーディオ信号をなす。三つのチャネルL,LS,LBは再生環境における異なる水平方向を表わし、二つのチャネルTFL,TBLは三つのチャネルL,LS,LBの方向から垂直に離間した方向を表わす。二つのチャネルTFL,TBLはたとえば天井スピーカーにおける再生のために意図されていてもよい。同様に、五つのチャネルR,RS,RB,TFR,TBRは再生環境の右半空間を表わす追加的な5チャネル・オーディオ信号をなし、三つのチャネルR,RS,RBは再生環境における異なる水平方向を表わし、二つのチャネルTFR,TBRは三つのチャネルR,RS,RBの方向から垂直に離間した方向を表わす。
11.1チャネル・オーディオ信号を5.1チャネル・オーディオ信号として表わすために、チャネルL,LS,LB,TFL,TBL,R,RS,RB,TFR,TBR,C,LFEのコレクションは、関連するアップミックス・パラメータおよびそれぞれのダウンミックス・チャネルによって表わされるチャネルの諸グループに分割されてもよい。5チャネル・オーディオ信号L,LS,LB,TFL,TBLは二チャネル・ダウンミックス信号L1,L2および関連するアップミックス・パラメータによって表わされてもよく、追加的な5チャネル・オーディオ信号R,RS,RB,TFR,TBRは追加的な二チャネル・ダウンミックス信号R1,R2および関連する追加的なアップミックス・パラメータによって表わされてもよい。チャネルCおよびLFEは、11.1チャネル・オーディオ信号の5.1チャネル表現においても別個のチャネルとして保持されてもよい。
図6は第一の符号化フォーマットF1を示している。ここでは、5チャネル・オーディオ信号L,LS,LB,TFL,TBLはチャネルL,LS,LBの第一のグループ601およびチャネルTFL,TBLの第二のグループ602に分割され、追加的な5チャネル・オーディオ信号R,RS,RB,TFR,TBRはチャネルR,RS,RBの追加的な第一のグループ603およびチャネルTFR,TBRの追加的な第二のグループ604に分割される。第一の符号化フォーマットF1では、チャネルの第一のグループ601は二チャネル・ダウンミックス信号の第一のチャネルL1によって表わされ、チャネルの第二のグループ602は二チャネル・ダウンミックス信号の第二のチャネルL2によって表わされる。ダウンミックス信号の第一のチャネルL1は、L1=L+LS+LBのように第一のグループ601のチャネルの和に対応していてもよく、ダウンミックス信号の第二のチャネルL2は、L2=TFL+TBLのように第二のグループ602のチャネルの和に対応していてもよい。
いくつかの例示的実施形態では、チャネルの一部または全部は、総和に先立って再スケーリングされてもよい。それにより、ダウンミックス信号の第一のチャネルL1は、L1=c1L+c2LS+c3LBに従って第一のグループ601のチャネルの線形結合に対応していてもよく、ダウンミックス信号の第二のチャネルL2は、L2=c4TFL+c5TBLに従って第二のグループ602のチャネルの線形結合に対応していてもよい。利得c2,c3,c4,c5はたとえば一致してもよい。一方、利得c1はたとえば異なる値を有していてもよい。たとえば、c1は再スケーリングなしに対応してもよい。たとえば、値c1=1およびc2=c3=c4=c5=1/√2が使われてもよい。たとえば、第一の符号化フォーマットF1におけるそれぞれのチャネルL,LS,LB,TFL,TBLに適用される利得c1,…,c5が図7および図8を参照して後述する他の符号化フォーマットF2およびF3においてこれらのチャネルに適用される利得と一致する場合、これらの利得は、異なる符号化フォーマットF1、F2、F3の間で切り換えるときにダウンミックス信号がどのように変化するかには影響しない。したがって、再スケーリングされたチャネルc1L,c2LS,c3LB,c4TFL,c5TBLは、これらがあたかももとのチャネルL,LS,LB,TFL,TBLであるかのように扱われてもよい。他方、異なる符号化フォーマットにおいて同じチャネルの再スケーリングのために異なる利得が用いられる場合には、これらの符号化フォーマットの間での切り換えは、たとえば、ダウンミックス信号におけるチャネルL,LS,LB,TFL,TBLの異なるスケーリングをされたバージョンの間のジャンプを引き起こすことがある。これはデコーダ側で可聴なアーチファクトを引き起こす可能性がある。そのようなアーチファクトはたとえば、符号化フォーマットの切り換え前にダウンミックス信号を形成するために用いられる係数から符号化フォーマットの切り換え後にダウンミックス信号を形成するために用いられる係数への補間を用いることによって、あるいは式(3)(4)との関係で後述するプレ脱相関係数の補間を用いることによって、抑制されてもよい。
同様に、チャネルの追加的な第一のグループ603は追加的なダウンミックス信号の第一のチャネルR1によって表わされ、チャネルの追加的な第二のグループ604は追加的なダウンミックス信号の第二のチャネルR2によって表わされる。
第一の符号化フォーマットF1は、天井チャネルTFL、TBL、TFR、TBRを表わすための専用のダウンミックス・チャネルL2およびR2を提供する。したがって、第一の符号化フォーマットF1の使用は、たとえば再生環境の垂直方向次元が11.1チャネル・オーディオ信号の全体的な印象にとって重要である場合に、比較的高い忠実度で11.1チャネル・オーディオ信号のパラメトリック再構成を許容しうる。
図7は第二の符号化フォーマットF2を示している。ここでは、5チャネル・オーディオ信号L,LS,LB,TFL,TBLはダウンミックス信号のそれぞれのチャネルL1、L2によって表わされるチャネルの第一701および第二702のグループに分割される。ここで、チャネルL1およびL2は、それぞれのグループ701および702のチャネルの和、あるいはそれぞれのチャネルL,LS,LB,TFL,TBLを再スケーリングするための第一の符号化フォーマットF1におけるのと同じ利得c1,…,c5を用いてのそれぞれのグループ701および702のチャネルの線形結合に対応する。同様に、追加的な5チャネル・オーディオ信号R,RS,RB,TFR,TBRはそれぞれのチャネルR1およびR2によって表わされるチャネルの追加的な第一703および第二704のグループに分割される。
第二の符号化フォーマットF2は、天井チャネルTFL、TBL、TFR、TBRを表わすための専用のダウンミックス・チャネルを提供しないが、たとえば再生環境の垂直方向次元が11.1チャネル・オーディオ信号の全体的な印象にとってそれほど重要でない場合に、比較的高い忠実度で11.1チャネル・オーディオ信号のパラメトリック再構成を許容しうる。
図8は第三の符号化フォーマットF3を示している。ここでは、5チャネル・オーディオ信号L,LS,LB,TFL,TBLはダウンミックス信号のそれぞれのチャネルL1およびL2によって表わされる一つまたは複数のチャネルの第一801および第二802のグループに分割される。ここで、チャネルL1およびL2は、それぞれのグループ801および802の一つまたは複数のチャネルの和、あるいはそれぞれのチャネルL,LS,LB,TFL,TBLを再スケーリングするための第一の符号化フォーマットF1におけるのと同じ利得c1,…,c5を用いてのそれぞれのグループ801および802の一つまたは複数のチャネルの線形結合に対応する。同様に、追加的な5チャネル・オーディオ信号R,RS,RB,TFR,TBRはそれぞれのチャネルR1およびR2によって表わされるチャネルの追加的な第一803および第二804のグループに分割される。第三の符号化フォーマットF3では、チャネルLのみがダウンミックス信号の第一のチャネルL1によって表わされ、四つのチャネルLS、FB、TFL、TBLはダウンミックス信号の第二のチャネルL2によって表わされる。
図1〜図5を参照して述べるエンコーダ側では、二チャネル・ダウンミックス信号L1、L2は5チャネル・オーディオ信号X=[L LS LB TFL TBL]Tの線形マッピングとして、
Figure 2017536756
に従って計算される。ここで、dn,m(n=1,2、m=1,…,5)はダウンミックス行列Dによって表わされるダウンミックス係数である。図9〜図13を参照して述べるデコーダ側では、5チャネル・オーディオ信号X=[L LS LB TFL TBL]Tのパラメトリック再構成が
Figure 2017536756
に従って実行される。ここで、cn,m(n=1,…,5、m=1,2)はドライ・アップミックス行列βLによって表わされるドライ・アップミックス係数であり、pn,k(n=1,…,5、k=1,2,3)はウェット・アップミックス行列γLによって表わされるウェット・アップミックス係数であり、zk(k=1,2,3)はダウンミックス信号L1、L2に基づいて生成される三チャネル脱相関済み信号Zのチャネルである。
図1は、ある例示的実施形態に基づく、Mチャネル信号を二チャネル・ダウンミックス信号および関連するアップミックス・パラメータとしてエンコードするためのエンコード部100の一般化されたブロック図である。
Mチャネル・オーディオ信号は、ここでは図6〜図8を参照して述べた5チャネル・オーディオ信号L、LS、LB、TFLおよびTBLによって例示される。エンコード部100がMチャネル・オーディオ信号に基づいて二チャネル・ダウンミックス信号を計算し、M=4またはM≧6である例示的実施形態も構想されうる。
エンコード部100は、ダウンミックス部110および解析部120を有する。図6〜図8を参照して述べた符号化フォーマットF1、F2、F3のそれぞれについて、ダウンミックス部110は5チャネル・オーディオ信号L、LS、LB、TFL、TBLに基づいて二チャネル・ダウンミックス信号L1,L2を計算する。たとえば第一の符号化フォーマットF1においては、ダウンミックス信号の第一のチャネルL1は5チャネル・オーディオ信号L、LS、LB、TFL、TBLのチャネルの第一のグループ601の線形結合(たとえば和)として形成され、ダウンミックス信号の第二のチャネルL2は5チャネル・オーディオ信号L、LS、LB、TFL、TBLのチャネルの第二のグループ602の線形結合(たとえば和)として形成される。ダウンミックス部110によって実行される動作は、たとえば式(1)のように表わせる。
符号化フォーマットF1、F2、F3のそれぞれについて、解析部120は、5チャネル・オーディオ信号L、LS、LB、TFL、TBLを近似するそれぞれのダウンミックス信号L1、L2の線形マッピングを定義するドライ・アップミックス係数の集合βLを決定し、受領された5チャネル・オーディオ信号L、LS、LB、TFL、TBLの共分散とそれぞれのダウンミックス信号L1、L2のそれぞれの線形マッピングによって近似される5チャネル・オーディオ信号の共分散との間の差を計算する。計算された差は、ここでは、受領された5チャネル・オーディオ信号L、LS、LB、TFL、TBLの共分散行列とそれぞれのダウンミックス信号L1、L2のそれぞれの線形マッピングによって近似される5チャネル・オーディオ信号の共分散行列との間の差によって例示される。符号化フォーマットF1、F2、F3のそれぞれについて、解析部120は、それぞれの計算された差に基づいてウェット・アップミックス係数の集合γLを決定する。これは、ドライ・アップミックス係数βLと一緒になって、ダウンミックス信号L1、L2と、ダウンミックス信号L1、L2に基づいてデコーダ側で決定された三チャネル脱相関済み信号とから、5チャネル・オーディオ信号L、LS、LB、TFL、TBLの式(2)に基づくパラメトリック再構成を許容する。アップミックス係数の集合γLは、脱相関済み信号の線形マッピングによって得られる信号の共分散行列が、受領された5チャネル・オーディオ信号L、LS、LB、TFL、TBLの共分散行列とダウンミックス信号L1、L2の線形マッピングによって近似される5チャネル・オーディオ信号の共分散行列との間の差を近似するように、脱相関済み信号の線形マッピングを定義する。
ダウンミックス部110はたとえば、時間領域で、すなわち5チャネル・オーディオ信号L、LS、LB、TFL、TBLの時間領域表現に基づいて、あるいは周波数領域で、すなわち5チャネル・オーディオ信号L、LS、LB、TFL、TBLの周波数領域表現に基づいて、ダウンミックス信号L1、L2を計算してもよい。
解析部120はたとえば、ドライ・アップミックス係数βLおよびウェット・アップミックス係数γLを、5チャネル・オーディオ信号L、LS、LB、TFL、TBLの周波数領域解析に基づいて決定してもよい。解析部120は、ドライ・アップミックス係数βLおよびウェット・アップミックス係数γLを決定するために、たとえば、ダウンミックス部110によって計算されたダウンミックス信号L1、L2を受領してもよく、あるいはダウンミックス信号L1、L2の自分自身のバージョンを計算してもよい。
図3は、ある例示的実施形態に基づく、図1を参照して述べたエンコード部100を有するオーディオ・エンコード・システム300の一般化されたブロック図である。本例示的実施形態では、たとえば一つまたは複数の音響トランスデューサ301によって記録されたまたはオーディオ・オーサリング設備301によって生成されたオーディオ・コンテンツは、図6ないし図8を参照して記述した11.1チャネル・オーディオ信号の形で与えられる。直交ミラー・フィルター(QMF)解析部302が5チャネル・オーディオ信号L、LS、LB、TFL、TBLを時間セグメントごとにQMF領域に変換する。エンコード部100が時間/周波数タイルの形で5チャネル・オーディオ信号L、LS、LB、TFL、TBLを処理するためである。(のちにさらに説明するように、QMF解析部302およびその対応物であるQMF合成部305は任意的である。)オーディオ・エンコード・システム300は、エンコード部100と同様の、追加的な5チャネル・オーディオ信号R、RS、RB、TFR、TBRを追加的な二チャネル・ダウンミックス信号R1、R2および付随する追加的なドライ・アップミックス・パラメータβRおよび追加的なウェット・アップミックス・パラメータγRとしてエンコードするよう適応された追加的なエンコード部303を有する。QMF解析部302は、追加的な5チャネル・オーディオ信号R、RS、RB、TFR、TBRをも、追加的なエンコード部303による処理のために、QMF領域に変換する。
制御部304は、符号化フォーマットF1、F2、F3のうちの一つを、それぞれの符号化フォーマットF1、F2、F3についてエンコード部100および追加的なエンコード部303によって決定されたウェットおよびドライ・アップミックス係数γL、γRおよびβL、βRに基づいて選択する。たとえば、符号化フォーマットF1、F2、F3のそれぞれについて、制御部304は比
Figure 2017536756
を計算してもよい。ここで、Ewetはウェット・アップミックス係数γLおよびγRの二乗の和であり、Edryはドライ・アップミックス係数βLおよびβRの二乗の和である。選択された符号化フォーマットは、符号化フォーマットF1、F2、F3の比Eのうちの最小のものに関連付けられたものであってもよい。すなわち、制御部304は、最小の比Eに対応する符号化フォーマットを選択してもよい。発明者らは、比Eについての低減された値は、関連する符号化フォーマットから再構成される11.1チャネル・オーディオ信号の向上した忠実度を示しうることを認識するに至った。
いくつかの例示的実施形態では、ドライ・アップミックス係数βLおよびβRの二乗の和Edryはたとえば、値1をもつ追加的な項を含んでいてもよい。これは、チャネルCがデコーダ側に伝送され、脱相関なしに、たとえば値1をもつドライ・アップミックス係数を用いるだけで再構成されうるという事実に対応するものである。
いくつかの例示的実施形態では、制御部304は二つの5チャネル・オーディオ信号L、LS、LB、TFL、TBLおよびR、RS、RB、TFR、TBRについての符号化フォーマットを、それぞれウェットおよびドライ・アップミックス・パラメータγL、βLおよび追加的なウェットおよびドライ・アップミックス・パラメータγR、βRに基づいて独立に選択してもよい。
次いで、オーディオ・エンコード・システム300は、選択された符号化フォーマットのダウンミックス信号L1、L2および追加的なダウンミックス信号R1、R2と、選択された符号化フォーマットに関連するドライおよびウェット・アップミックス係数βL、γLおよび追加的なドライおよびウェット・アップミックス係数βR、γRが導出できるもとになるアップミックス・パラメータαと、選択された符号化フォーマットを示すシグナルSとを出力してもよい。
本例示的実施形態では、制御部304は、選択された符号化フォーマットのダウンミックス信号L1、L2および追加的なダウンミックス信号R1、R2と、選択された符号化フォーマットに関連するドライおよびウェット・アップミックス係数βL、γLおよび追加的なドライおよびウェット・アップミックス係数βR、γRが導出できるもとになるアップミックス・パラメータαと、選択された符号化フォーマットを示すシグナルSとを出力する。ダウンミックス信号L1、L2および追加的なダウンミックス信号R1、R2はQMF合成部305(またはフィルタバンク)によってQMF領域から変換し戻され、変換部306によって修正離散コサイン変換(MDCT)領域に変換される。量子化部307はアップミックス・パラメータαを量子化する。たとえば、きざみサイズ0.1または0.2(無次元)をもつ一様量子化とそれに続く、ハフマン符号化の形のエントロピー符号化が用いられてもよい。きざみサイズ0.2でのより粗い量子化はたとえば伝送帯域幅を節約するために用いられてもよく、きざみサイズ0.1でのより細かい量子化はたとえばデコーダ側での再構成の忠実度を改善するために用いられてもよい。チャネルCおよびLFEも変換部308によってMDCT領域に変換される。MDCT変換されたダウンミックス信号およびチャネル、量子化されたアップミックス・パラメータおよび前記シグナルが次いで、マルチプレクサ309によって、デコーダ側への伝送のためにビットストリームBに組み合わされる。オーディオ・エンコード・システム300は、ダウンミックス信号およびチャネルC、LFEがマルチプレクサ309に与えられる前に、ダウンミックス信号L1、L2、追加的なダウンミックス信号R1、R2およびチャネルCおよびLFEを、ドルビー・デジタル、MPEG AACまたはその発展形のような知覚的オーディオ・コーデックを使ってエンコードするよう構成されたコア・エンコーダ(図3には示さず)をも有していてもよい。ビットストリームBを形成する前に、たとえば−8.7dBに対応するクリップ利得がたとえばダウンミックス信号L1、L2、追加的なダウンミックス信号R1、R2およびチャネルCに適用されてもよい。あるいはまた、これらのパラメータは絶対レベルとは独立なので、クリップ利得は、L1、L2に対応する線形結合を形成する前に、すべての入力チャネルに適用されてもよい。
制御部304が、符号化フォーマットを選択するために異なる符号化フォーマットF1、F2、F3についてのウェットおよびドライ・アップミックス係数γL、γR、βL、βR(またはこれらの異なる符号化フォーマットについてのウェットおよびドライ・アップミックス係数γL、γR、βL、βRの二乗の和)を受領するだけである、すなわち、制御部304はこれらの異なる符号化フォーマットについてダウンミックス信号L1、L2、R1、R2を必ずしも受領する必要がない実施形態も、構想されうる。そのような実施形態では、制御部304は、たとえば、選択された符号化フォーマットについてのダウンミックス信号L1、L2、R1、R2、ドライ・アップミックス係数βL、βRおよびウェット・アップミックス係数γL、γRをオーディオ・エンコード・システム300の出力として、あるいはマルチプレクサ309への入力として送達するよう、エンコード部100、303を制御してもよい。
選択された符号化フォーマットが符号化フォーマット間で切り換わる場合、式(1)に従ってダウンミックス信号を形成するための、符号化フォーマットの切り換えの前後に用いられるダウンミックス係数値の間で、たとえば補間が実行されてもよい。これは一般に、ダウンミックス係数値のそれぞれの集合に基づいて生成されるダウンミックス信号の補間と等価である。
図3は、ダウンミックス信号がQMF領域で生成されてその後時間領域に変換し戻される様を示しているが、同じ任務を充足する代替的なエンコーダは、QMF部302、305なしで実装されてもよい。それによれば、ダウンミックス信号は時間領域で直接計算される。これは、ダウンミックス係数が周波数依存でない状況において可能であり、このことは一般には成り立つ。該代替的なエンコーダでは、符号化フォーマットの遷移は、それぞれの符号化フォーマットについての二つのダウンミックス信号の間のクロスフェードによって、あるいはダウンミックス信号を生成するダウンミックス係数(一方のフォーマットで値0である係数を含む)の間で補間することによって、対処できる。そのような代替的なエンコーダは、より低い遅延/レイテンシーおよび/またはより低い計算量を有しうる。
図2は、ある例示的実施形態に基づく、図1を参照して述べたエンコード部100と同様のエンコード部の一般化されたブロック図である。エンコード部200は、ダウンミックス部210および解析部220を有する。図1を参照して述べたエンコード部100と同様に、ダウンミックス部210は、符号化フォーマットF1、F2、F3のそれぞれについて、5チャネル・オーディオ信号L、LS、LB、TFL、TBLに基づいて二チャネル・ダウンミックス信号L1,L2を計算し、解析部220は、ドライ・アップミックス係数のそれぞれの集合βLを決定し、受領された5チャネル・オーディオ信号L、LS、LB、TFL、TBLの共分散行列とそれぞれのダウンミックス信号のそれぞれの線形マッピングによって近似される5チャネル・オーディオ信号の共分散行列との間の差ΔLを計算する。
図1を参照して述べたエンコード部100における解析部120とは対照的に、解析部220はすべての符号化フォーマットについてのウェット・アップミックス・パラメータを計算するのではない。その代わり、符号化フォーマットの選択のために、制御部304(図3参照)には計算された差ΔLが提供される。計算された差ΔLに基づいてひとたび符号化フォーマットが選択されたら、選択された符号化フォーマットについてのウェット・アップミックス係数(アップミックス・パラメータの集合に含められるべきもの)が制御部304によって決定されうる。あるいはまた、制御部304が、上記で論じた共分散行列の間の計算された差ΔLに基づいて符号化フォーマットを選択することを受け持つが、上流方向へのシグナル伝達を介して解析部220にウェット・アップミックス係数γLを計算するよう命令する。この代替(図示せず)によれば、解析部220は、差およびウェット・アップミックス係数の両方を出力する能力をもつ。
本例示的実施形態では、ウェット・アップミックス係数の集合は、該ウェット・アップミックス係数によって定義される前記脱相関済み信号の線形マッピングによって得られる信号の共分散が、選択された符号化フォーマットの前記ダウンミックス信号の前記線形マッピングによって近似される前記5チャネル・オーディオ信号の共分散行列を補足するよう、決定される。換言すれば、デコーダ側で5チャネル・オーディオ信号L、LS、LB、TFL、TBLを再構成するときに完全な共分散再構成を達成するために、ウェット・アップミックス・パラメータは必ずしも決定される必要はない。ウェット・アップミックス・パラメータは、再構成される5チャネル・オーディオ信号の忠実度を改善するために決定されてもよいが、たとえばデコーダ側での脱相関器の数が限られている場合には、ウェット・アップミックス・パラメータは、5チャネル・オーディオ信号L、LS、LB、TFL、TBLの共分散行列のできるだけ多くの再構成を許容するよう決定されてもよい。
図3を参照して述べたオーディオ・エンコード・システム300と同様のオーディオ・エンコード・システムが図2を参照して述べた型の一つまたは複数のエンコード部200を有する実施形態が構想されうる。
図4は、ある例示的実施形態に基づく、Mチャネル・オーディオ信号を二チャネル・ダウンミックス信号および関連するアップミックス・パラメータとしてエンコードするためのオーディオ・エンコード方法400のフローチャートである。本オーディオ・エンコード方法400はここでは図2を参照して記述したエンコード部200を有するオーディオ・エンコード・システムによって実行される方法によって例示される。
オーディオ・エンコード方法400は:5チャネル・オーディオ信号L、LS、LB、TFL、TBLを受領し410;図6〜図8を参照して述べた符号化フォーマットF1、F2、F3のうちの第一のものに従って、5チャネル・オーディオ信号L、LS、LB、TFL、TBLに基づいて二チャネル・ダウンミックス信号L1、L2を計算し420;その符号化フォーマットに従ってドライ・アップミックス係数βLの集合を決定し430;その符号化フォーマットに従って差分ΔLを計算する440ことを含む。オーディオ・エンコード方法400は:符号化フォーマットF1、F2、F3のそれぞれについて差分ΔLが計算されたかどうかを判定450することを含む。少なくとも一つの符号化フォーマットについて差分ΔLが計算されるべく残っている限り、オーディオ・エンコード方法400は次の順番の符号化フォーマットに従ってダウンミックス信号L1、L2を計算すること420に戻る。これはフローチャートではNによって示されている。
符号化フォーマットF1、F2、F3のそれぞれについて差分ΔLが計算され終わっている、フローチャートにおいてYによって示される場合には、方法400は、それぞれの計算された差分ΔLに基づいて符号化フォーマットF1、F2、F3の一つを選択し460;選択された符号化フォーマットのドライ・アップミックス係数βLと一緒に、式(2)に従って5チャネル・オーディオ信号L、LS、LB、TFL、TBLのパラメトリック再構成を許容する、ウェット・アップミックス係数の集合を決定する470ことによって進む。オーディオ・エンコード方法400はさらに:選択された符号化フォーマットのダウンミックス信号L1、L2と、選択された符号化フォーマットに関連付けられたドライおよびウェット・アップミックス係数が導出できるもとになるアップミックス・パラメータとを出力し480;選択された符号化フォーマットを示すシグナルSを出力する490ことを含む。
図5は、ある例示的実施形態に基づく、Mチャネル・オーディオ信号を二チャネル・ダウンミックス信号および関連するアップミックス・パラメータとしてエンコードするためのオーディオ・エンコード方法500のフローチャートである。本オーディオ・エンコード方法500はここでは図3を参照して記述したエンコード部300によって実行される方法によって例示される。
図4を参照して述べたオーディオ・エンコード方法400と同様に、オーディオ・エンコード方法500は:5チャネル・オーディオ信号L、LS、LB、TFL、TBLを受領し410;符号化フォーマットF1、F2、F3のうちの第一のものに従って、5チャネル・オーディオ信号L、LS、LB、TFL、TBLに基づいて二チャネル・ダウンミックス信号L1、L2を計算し420;その符号化フォーマットに従ってドライ・アップミックス係数βLの集合を決定し430;その符号化フォーマットに従って差分ΔLを計算する440ことを含む。オーディオ・エンコード方法500は:その符号化フォーマットのドライ・アップミックス係数βLと一緒に、式(2)に従ってMチャネル・オーディオ信号のパラメトリック再構成を許容する、ウェット・アップミックス係数γLの集合を決定する560ことを含む。オーディオ・エンコード方法500は、符号化フォーマットF1、F2、F3のそれぞれについてウェットおよびドライ・アップミックス係数γL、βLが計算されたかどうかを判定する550ことを含む。少なくとも一つの符号化フォーマットについてウェットおよびドライ・アップミックス係数γL、βLが計算されるべく残っている限り、オーディオ・エンコード方法500は次の順番の符号化フォーマットに従ってダウンミックス信号L1、L2を計算すること420に戻る。これはフローチャートではNによって示されている。
符号化フォーマットF1、F2、F3のそれぞれについてウェットおよびドライ・アップミックス係数γL、βLが計算され終わっている、フローチャートにおいてYによって示される場合には、オーディオ・エンコード方法500は、それぞれの計算されたウェットおよびドライ・アップミックス係数γL、βLに基づいて符号化フォーマットF1、F2、F3の一つを選択し570;選択された符号化フォーマットのダウンミックス信号L1、L2と、選択された符号化フォーマットに関連付けられたウェットおよびドライ・アップミックス係数βL、γLが導出できるもとになるアップミックス・パラメータとを出力し480;選択された符号化フォーマットを示すシグナルを出力する490ことによって進む。
図9は、ある例示的実施形態に基づく、二チャネル・ダウンミックス信号および付随するアップミックス・パラメータαLに基づいてMチャネル・オーディオ信号を再構成するためのデコード部900の一般化されたブロック図である。
本例示的実施形態では、ダウンミックス信号は図1を参照して述べたエンコード部100によって出力されるダウンミックス信号L1、L2によって例示される。本例示的実施形態では、エンコード部100によって出力され、5チャネル・オーディオ信号L、LS、LB、TFL、TBLのパラメトリック再構成のために適応されているドライおよびウェット・アップミックス・パラメータβL、γLが、アップミックス・パラメータαLから導出できる。しかしながら、アップミックス・パラメータαLがMチャネル・オーディオ信号のパラメトリック再構成のために適応されていてM=4またはM≧6である実施形態も構想されうる。
デコード部900は、プレ脱相関部910、脱相関部920および混合部930を有する。プレ脱相関部は、5チャネル・オーディオ信号L、LS、LB、TFL、TBLをエンコードするためにエンコーダ側で用いられた選択された符号化フォーマットに基づいて、一組のプレ脱相関係数を決定する。図10を参照して後述するように、選択された符号化フォーマットは、エンコーダ側からのシグナルを介して示されてもよい。プレ脱相関部910は、ダウンミックス信号L1、L2の線形マッピングとして、脱相関入力信号D1、D2、D3を計算する。ここで、前記一組のプレ脱相関係数がダウンミックス信号L1、L2に適用される。
脱相関部920は、前記脱相関入力信号D1、D2、D3に基づいて脱相関済み信号を生成する。脱相関済み信号は、ここでは、それぞれ脱相関部920の脱相関器921〜923において脱相関入力信号のチャネルの一つを処理することによって生成される三つのチャネルによって例示される。この処理は、たとえば、脱相関入力信号D1、D2、D3のそれぞれのチャネルに線形フィルタを適用することを含む。
混合部930は、受領されたアップミックス・パラメータαLと、5チャネル・オーディオ信号L、LS、LB、TFL、TBLをエンコードするためにエンコーダ側で用いられた選択された符号化フォーマットとに基づいて、ウェットおよびドライ・アップミックス係数βL、γLの集合を決定する。混合部930は、式(2)に従って5チャネル・オーディオ信号L、LS、LB、TFL、TBLのパラメトリック再構成を実行する。すなわち、ダウンミックス信号L1、L2の線形マッピングとしてドライ・アップミックス信号を計算し、ここで、ダウンミックス信号L1、L2にドライ・アップミックス係数の集合βLが適用され;脱相関済み信号の線形マッピングとしてウェット・アップミックス信号を計算し、ここで、脱相関済み信号にウェット・アップミックス係数の集合γLが適用され;ドライおよびウェット・アップミックス信号を組み合わせて、再構成されるべき5チャネル・オーディオ信号L、LS、LB、TFL、TBLに対応する多次元の再構成された信号
Figure 2017536756
を得る。
いくつかの例示的実施形態では、受領されたアップミックス・パラメータαLは、ウェットおよびドライ・アップミックス係数βL、γL自身を含んでいてもよく、あるいはウェットおよびドライ・アップミックス係数βL、γLの数より少ないパラメータを含む、よりコンパクトな形に対応していてもよい。該コンパクトな形から、デコーダ側で、用いられたその特定のコンパクトな形の知識に基づいて、ウェットおよびドライ・アップミックス係数βL、γLが導出されうる。
図11は、ダウンミックス信号L1、L2が図6を参照して述べた第一の符号化フォーマットF1に従って5チャネル・オーディオ信号L、LS、LB、TFL、TBLを表現する例示的なシナリオにおいて、図9を参照して述べた混合部930の動作を例解する。ダウンミックス信号L1、L2が第二および第三の符号化フォーマットF2、F3のいずれかに従って5チャネル・オーディオ信号L、LS、LB、TFL、TBLを表現する例示的なシナリオにおいても、混合部930の動作は同様でありうることは理解されるであろう。特に、混合部930は、計算される複数のダウンミックス信号が同時が利用可能であることを要求しうる二つの符号化フォーマットの間のクロスフェードを可能にするために、すぐあとで述べるアップミックス部および組み合わせ部のさらなるインスタンスを一時的にアクティブ化してもよい。
本例示的シナリオでは、ダウンミックス信号の第一のチャネルL1は三つのチャネルL、LS、LBを表わし、ダウンミックス信号の第二のチャネルL2は二つのチャネルTFL、TBLを表わす。プレ脱相関部910は、脱相関済み信号の二つのチャネルがダウンミックス信号の第一のチャネルL1に基づいて生成され、脱相関済み信号の一つのチャネルがダウンミックス信号の第二のチャネルL2に基づいて生成されるよう、プレ脱相関係数を決定する。
第一のドライ・アップミックス部931は、三チャネル・ドライ・アップミックス信号X1をダウンミックス信号の第一のチャネルL1の線形マッピングとして与える。ここで、受領されたアップミックス・パラメータαLから導出可能な前記ドライ・アップミックス係数のある部分集合が、ダウンミックス信号の第一のチャネルL1に適用される。第一のウェット・アップミックス部932は、三チャネル・ウェット・アップミックス信号Y1を脱相関済み信号の二つのチャネルの線形マッピングとして与える。ここで、受領されたアップミックス・パラメータαLから導出可能な前記ウェット・アップミックス係数のある部分集合が、脱相関済み信号の二つのチャネルに適用される。第一の組み合わせ部933が、第一のドライ・アップミックス信号X1および第一のウェット・アップミックス信号Y1を、チャネルL、LS、LBの再構成されたバージョン
Figure 2017536756
に組み合わせる。
同様に、第二のドライ・アップミックス部934は、二チャネル・ドライ・アップミックス信号X2をダウンミックス信号の第二のチャネルL2の線形マッピングとして与え、第二のウェット・アップミックス部935は、二チャネル・ウェット・アップミックス信号Y2を脱相関済み信号の一つのチャネルの線形結合として与える。第二の組み合わせ部936が、第二のドライ・アップミックス信号X2および第二のウェット・アップミックス信号Y2を、チャネルTFL、TBLの再構成されたバージョン
Figure 2017536756
に組み合わせる。
図10は、ある例示的実施形態に基づく、図9を参照して述べたデコード部900を有するオーディオ・デコード・システム1000の一般化されたブロック図である。たとえばデマルチプレクサを含む受領部1001は、図3を参照して記述したオーディオ・エンコード・システム300から伝送されたビットストリームBを受領し、ダウンミックス信号L1、L2、追加的なダウンミックス信号R1、R2およびアップミックス・パラメータαならびにチャネルCおよびLFEを、ビットストリームBから抽出する。アップミックス・パラメータαは、再構成されるべき11.1チャネル・オーディオ信号L、LS、LB、TFL、TBL、R、RS、RB、TFR、TBR、C、LFEのそれぞれ左側および右側に関連付けられた第一および第二の部分集合αLおよびαRを含む。
ダウンミックス信号L1、L2、追加的なダウンミックス信号R1、R2および/またはチャネルCおよびLFEがビットストリームBに、ドルビー・デジタル、MPEG AACまたはその発展形のような知覚的オーディオ・コーデックを使ってエンコードされている場合、オーディオ・デコード・システム1000は、ビットストリームBから抽出されるときにそれぞれの信号およびチャネルをデコードするよう構成されたコア・デコーダ(図10には示さず)を含んでいてもよい。
変換部1002は、逆MDCTを実行することによってダウンミックス信号L1、L2を変換し、QMF解析部1003はダウンミックス信号L1、L2をQMF領域に変換する。デコード部900が時間/周波数タイルの形でダウンミックス信号L1、L2を処理するためである。量子化解除部1004は、アップミックス・パラメータαLを、デコード部900に供給する前に、たとえばエントロピー符号化されたフォーマットから量子化解除する。図3を参照して述べたように、量子化は、たとえば0.1または0.2という二つの異なるきざみサイズのうちの一方を用いて実行されていてもよい。用いられる実際のきざみサイズはあらかじめ定義されていてもよく、あるいはエンコーダ側からオーディオ・デコード・システム1000にビットストリームBなどを介して信号伝達されてもよい。
本例示的実施形態では、オーディオ・デコード・システム1000は、デコード部900と同様の追加的なデコード部1005を有する。追加的なデコード部1005は、図3を参照して記述した追加的な二チャネル・ダウンミックス信号R1、R2およびアップミックス・パラメータの第二の部分集合αRを受領して、追加的なダウンミックス信号R1、R2およびアップミックス・パラメータの第二の部分集合αRに基づいて追加的な5チャネル出力信号R、RS、RB、TFR、TBRの再構成されたバージョン
Figure 2017536756
を提供するよう構成されている。
変換部1006は、逆MDCTを実行することによって追加的なダウンミックス信号R1、R2を変換し、QMF解析部1007はダウンミックス信号R1、R2をQMF領域に変換する。追加的なデコード部1005が時間/周波数タイルの形で追加的なダウンミックス信号R1、R2を処理するためである。量子化解除部1008は、アップミックス・パラメータの第二の部分集合αRを、追加的なデコード部1005に供給する前に、たとえばエントロピー符号化されたフォーマットから量子化解除する。
エンコーダ側でダウンミックス信号L1、L2、追加的なダウンミックス信号R1、R2およびチャネルCにクリップ利得が適用されている例示的実施形態では、該クリップ利得を補償するためにオーディオ・デコード・システム1000において、たとえば8.7dBに対応する対応利得がこれらの信号に適用されてもよい。
制御部1009が、11.1チャネル・オーディオ信号をダウンミックス信号L1、L2、追加的なダウンミックス信号R1、R2および関連するアップミックス・パラメータαにエンコードするためにエンコーダ側で用いられた符号化フォーマットF1、F2、F3のうちの選択されたものを示すシグナルSを受領する。制御部1009は、示された符号化フォーマットに従ってパラメトリック再構成を実行するよう、デコード部900(たとえばその中のプレ脱相関部910および混合部920)および追加的なデコード部(1005)を制御する。
本例示的実施形態では、デコード部900によって出力される5チャネル・オーディオ信号L、LS、LB、TFL、TBLおよび追加的な5チャネル・オーディオ信号R、RS、RB、TFR、TBRの再構成されたバージョンならびに追加的なデコード部1005はそれぞれ、QMF合成部1011によってQMF領域に変換し戻されてから、チャネルCおよびLFEと一緒に、オーディオ・デコード・システム1000の出力として、マルチスピーカー・システム1012での再生のために提供される。変換部1010はチャネルCおよびLFEを、これらのチャネルがオーディオ・デコード・システム1000の出力に含められる前に、逆MDCTを実行することによって時間領域に変換する。
チャネルCおよびLFEはたとえばビットストリームBから、離散的に符号化された形で抽出されてもよい。オーディオ・デコード・システム1000はたとえば、それぞれの離散的に符号化されたチャネルをデコードするよう構成されている単一チャネル・デコード部(図10には示さず)を含んでいてもよい。単一チャネル・デコード部はたとえば、ドルビー・デジタル、MPEG AACまたはその発展形のような知覚的オーディオ・コーデックを使ってエンコードされたオーディオ・コンテンツをデコードするためのコア・デコーダを含んでいてもよい。
本例示的実施形態では、プレ脱相関係数は、符号化フォーマットF1、F2、F3のそれぞれにおいて、脱相関入力信号D1、D2、D3の各チャネルが表1に従ってダウンミックス信号L1、L2のチャネルと一致するように、プレ脱相関部910によって決定される。
Figure 2017536756
表1で見て取れるように、チャネルTBLは、符号化フォーマットF1、F2、F3の三つすべてにおいて、ダウンミックス信号L1、L2を介して脱相関入力信号の第三のチャネルD3に寄与する。一方、チャネル対LS、LBおよびTFL、TBLのそれぞれは、ダウンミックス信号L1、L2を介して、それぞれ符号化フォーマットの少なくとも二つにおいて、脱相関入力信号の第三のチャネルD3に寄与する。
表1は、チャネルLおよびTFLのそれぞれが、ダウンミックス信号L1、L2を介して、それぞれ符号化フォーマットの二つにおいて、脱相関入力信号の第一のチャネルD1に寄与し、チャネル対LS、LBが、ダウンミックス信号L1、L2を介して、符号化フォーマットの少なくとも二つにおいて、脱相関入力信号の第一のチャネルD1に寄与することを示している。
表1はまた、三つのチャネルLS、LB、TBLが、ダウンミックス信号L1、L2を介して、第二および第三の符号化フォーマットF2、F3の両方において、脱相関入力信号の第二のチャネルD2に寄与し、チャネル対LS、LBが、三つの符号化フォーマットF1、F2、F3すべてにおいて、ダウンミックス信号L1、L2を介して、脱相関入力信号の第二のチャネルD2に寄与することを示している。
示される符号化フォーマットが異なる符号化フォーマットの間の切り換わるとき、脱相関器921〜923への入力が変化する。本例示的実施形態では、脱相関入力信号D1、D2、D3の少なくともいくつかの部分が切り換えの間、そのままに留まる。すなわち、5チャネル・オーディオ信号L、LS、LB、TFL、TBLの少なくとも一つのチャネルは、符号化フォーマットF1、F2、F3のうちの二つの間でのいかなる切り換えにおいても、脱相関入力信号D1、D2、D3の各チャネルにおいて留まる。これは、符号化フォーマット間での、再構成されるMチャネル・オーディオ信号の再生の間に聴取者によって知覚される、よりなめらかな遷移を許容する。
発明者らは、脱相関済み信号はいくつかの時間フレームに対応するダウンミックス信号L1、L2のセクションに基づいて生成されることがあり、その間に符号化フォーマットの切り換えが生じることがあるので、符号化フォーマットの切り換えの結果として脱相関済み信号において、可聴なアーチファクトが生成される可能性がありうることを認識するに至った。たとえウェットおよびドライ・アップミックス係数βL、γLが符号化フォーマットの間の遷移に応答して補間されるとしても、脱相関済み信号において引き起こされたアーチファクトは、再構成される5チャネル・オーディオ信号L、LS、LB、TFL、TBLにおいていまだ持続していることがありうる。表1に従って脱相関入力信号D1、D2、D3を提供することは、符号化フォーマットの切り換えによって引き起こされる脱相関済み信号における可聴なアーチファクトを抑制でき、再構成される5チャネル・オーディオ信号L、LS、LB、TFL、TBLの再生品質を改善しうる。
表1は、ダウンミックス信号L1、L2のチャネルがそれぞれ第一および第二のグループのチャネルの和として生成される符号化フォーマットF1、F2、F3に関して表現されているが、プレ脱相関係数についての同じ値はたとえば、ダウンミックス信号のチャネルがそれぞれ第一および第二のグループのチャネルの線形結合として形成されているときに用いられてもよい。脱相関入力信号D1、D2、D3のチャネルは、表1に従って、ダウンミックス信号L1、L2のチャネルと一致する。ダウンミックス信号のチャネルがそれぞれ第一および第二のグループのチャネルの線形結合として形成されるときにも再構成される5チャネル・オーディオ信号の再生品質はこのようにして改善されうることが理解されるであろう。
再構成される5チャネル・オーディオ信号の再生品質をさらに改善するために、プレ脱相関係数の値の補間がたとえば、符号化フォーマットの切り換えに応答して実行されてもよい。第一の符号化フォーマットF1では、脱相関入力信号D1、D2、D3は
Figure 2017536756
として決定されてもよく、一方、第二の符号化フォーマットF2では、脱相関入力信号D1、D2、D3は
Figure 2017536756
として決定されてもよい。第一の符号化フォーマットF1から第二の符号化フォーマットF2への切り換えに応答して、たとえば式(3)のプレ脱相関行列と式(4)のプレ脱相関行列との間で連続的または線形な補間が実行されてもよい。
式(3)および(4)におけるダウンミックス信号L1、L2はたとえばQMF領域にあってもよく、符号化フォーマットの間で切り換えるとき、式(1)に従ってダウンミックス信号L1、L2を計算するためにエンコーダ側で用いられるダウンミックス係数は、たとえば32個のQMFスロットの間、補間されていてもよい。プレ脱相関係数(または行列)の補間は、たとえば、ダウンミックス係数の補間と同期されてもよく、たとえば、同じ32個のQMFスロットの間、実行されてもよい。プレ脱相関係数の補間はたとえば、ブロードバンド補間であってもよく、たとえばオーディオ・デコード・システム1000によってデコードされたすべての周波数帯域について用いられてもよい。
ドライおよびウェット・アップミックス係数βL、γLも補間されてもよい。ドライおよびウェット・アップミックス係数βL、γLの補間は、過渡の扱いを改善するために、たとえば、エンコーダ側からのシグナルSを介して制御されてもよい。符号化フォーマットの切り換えの場合、デコーダ側でドライおよびウェット・アップミックス係数βL、γLを補間するためにエンコーダ側で選択された補間方式は、たとえば、符号化フォーマットの切り換えのために適切な補間方式であってもよく、これは符号化フォーマットのそのような切り換えが生じないときにドライおよびウェット・アップミックス係数βL、γLのために用いられる補間方式とは異なっていてもよい。
いくつかの例示的実施形態では、デコード部900において、追加的なデコード部1005とは異なる少なくとも一つの補間方式が用いられてもよい。
図12は、ある例示的実施形態に基づく、二チャネル・ダウンミックス信号および付随するアップミックス・パラメータに基づいてMチャネル・オーディオ信号を再構成するオーディオ・デコード方法1200のフローチャートである。デコード方法1200はここでは、図10を参照して述べたオーディオ・デコード・システム1000によって実行されてもよいデコード方法によって例示される。
オーディオ・デコード方法1200は:二チャネル・ダウンミックス信号L1、L2と、ダウンミックス信号L1、L2に基づいて図6〜図8を参照して述べた5チャネル・オーディオ信号L、LS、LB、TFL、TBLのパラメトリック再構成のためのアップミックス・パラメータαLとを受領し1201;図6〜図8を参照して述べた、符号化フォーマットF1、F2、F3のうちの選択されたものを示すシグナルSを受領し1202;示された符号化フォーマットに基づいて一組のプレ脱相関係数を決定する1203ことを含む。
オーディオ・デコード方法1200は、示されるフォーマットがある符号化フォーマットから別の符号化フォーマットに切り換わるかどうかを検出する1204ことを含む。切り換えが検出されない、フローチャートでNによって示される場合には、次の段階は、脱相関入力信号D1、D2、D3をダウンミックス信号L1、L2の線形マッピングとして計算する1205ことである。ここで、前記一組のプレ脱相関係数がダウンミックス信号に適用される。他方、符号化フォーマットの切り換えが検出される、フローチャートでYによって示される場合には、次の段階は、その代わりに、ある符号化フォーマットのプレ脱相関係数値から別の符号化フォーマットのプレ脱相関係数値への漸進的な遷移の形での補間を実行し1206、次いで、補間されたプレ脱相関係数値を用いて脱相関入力信号D1、D2、D3を計算する1205ことである。
オーディオ・デコード方法1200は、脱相関入力信号D1、D2、D3に基づいて脱相関済み信号を生成し1207;受領されたアップミックス・パラメータおよび示された符号化フォーマットに基づいて、ウェットおよびドライ・アップミックス・パラメータβL、γLの集合を決定する1208ことを含む。
符号化フォーマットの切り換えが検出されない、判断ボックス1209からの分枝Nによって示される場合には、方法1200は、ドライ・アップミックス信号をダウンミックス信号の線形マッピングとして計算する段階1210であって、ドライ・アップミックス係数の集合βLがダウンミックス信号L1、L2に適用される、段階と;ウェット・アップミックス信号を脱相関済み信号の線形マッピングとして計算する段階1211であって、ウェット・アップミックス係数の集合γLが脱相関済み信号に適用される、段階とによって続けられる。他方、示される符号化フォーマットがある符号化フォーマットから別の符号化フォーマットに切り替わる、判断ボックス1209からの分枝Yによって示される場合、本方法は、その代わりに:ある符号化フォーマットに適用可能なドライおよびウェット・アップミックス係数(値が0の係数を含む)の値から別の符号化フォーマットに適用可能なドライおよびウェット・アップミックス係数(値が0の係数を含む)の値への補間を実行する段階1212と;ドライ・アップミックス信号をダウンミックス信号L1、L2の線形マッピングとして計算する段階1210であって、ドライ・アップミックス係数の補間された集合がダウンミックス信号L1、L2に適用される、段階と;ウェット・アップミックス信号を脱相関済み信号の線形マッピングとして計算する段階1211であって、ウェット・アップミックス係数の補間された集合が脱相関済み信号に適用される、段階とによって続けられる。本方法はまた、ドライおよびウェット・アップミックス信号を組み合わせて1213,再構成されるべき5チャネル・オーディオ信号に対応する多次元の再構成された信号
Figure 2017536756
を得ることをも含む。
図13は、ある実施形態に基づく、5.1チャネル・オーディオ信号および関連するアップミックス・パラメータαに基づいて13.1チャネル・オーディオ信号を再構成するためのデコード部1300の一般化されたブロック図である。
本例示的実施形態では、13.1チャネル・オーディオ信号は、チャネルLW(左ワイド)、LSCRN(左スクリーン)、TFL(上前方左)、LS(左側方)、LB(左後方)、TBL(上後方左)、RW(右ワイド)、RSCRN(右スクリーン)、TFR(上前方右)、RS(右側方)、RB(右後方)、TBR(上後方右)、C(中央)およびLFE(低域効果)によって例示される。5.1チャネル信号は:ダウンミックス信号L1、L2であって、そのうち第一のチャネルL1はチャネルLW、LSCRN、TFLの線形結合に対応し、第二のチャネルL2はチャネルLS、LB、TBLの線形結合に対応する、ダウンミックス信号と;追加的なダウンミックス信号R1、R2であって、そのうち第一のチャネルR1はチャネルRW、RSCRN、TFRの線形結合に対応し、第二のチャネルL2はチャネルRS、RB、TBRの線形結合に対応する、追加的なダウンミックス信号と;チャネルCおよびLFEとを含む。
第一のアップミックス部1310は、アップミックス・パラメータαのうち少なくともいくつかの制御のもとでダウンミックス信号の第一のチャネルL1に基づいてチャネルLW、LSCRN、TFLを再構成する;第二のアップミックス部1320は、前記アップミックス・パラメータαのうち少なくともいくつかの制御のもとでダウンミックス信号の第二のチャネルL2に基づいてチャネルLS、LB、TBLを再構成する;第三のアップミックス部1330は、前記アップミックス・パラメータαのうち少なくともいくつかの制御のもとで追加的なダウンミックス信号の第一のチャネルR1に基づいてチャネルRW、RSCRN、TFRを再構成する;第四のアップミックス部1340は、前記アップミックス・パラメータαのうち少なくともいくつかの制御のもとでダウンミックス信号の第二のチャネルR2に基づいてチャネルRS、RB、TBRを再構成する。13.1チャネル・オーディオ信号の再構成されたバージョン
Figure 2017536756
が、デコード部1310の出力として与えられてもよい。
ある例示的実施形態では、図10を参照して述べたオーディオ・デコード・システム1000が、デコード部900および1005に加えてデコード部1300を有していてもよく、あるいは少なくとも、デコード部1300によって実行されるものと同様の方法によって13.1チャネル信号を再構成するよう動作可能であってもよい。ビットストリームBから抽出されるシグナルSは、たとえば、5.1チャネル・オーディオ信号L1、L2、R1、R2、C、LFEおよび関連するアップミックス・パラメータが、図10を参照して述べた11.1チャネル信号を表わすかどうか、あるいは図13を参照して述べた13.1チャネル・オーディオ信号を表わすかどうかを示してもよい。
制御部1009は、受領されたシグナルSが11.1チャネル構成または13.1チャネル構成のどちらを示すかを検出してもよく、オーディオ・デコード・システム1000の他の部分を制御して、図10を参照して述べた11.1チャネル・オーディオ信号または図13を参照して述べた13.1チャネル・オーディオ信号のどちらかのパラメトリック再構成を実行してもよい。11.1チャネル構成についての二つまたは三つの符号化フォーマットの代わりに、13.1チャネル構成についてはたとえば単一の符号化フォーマットが用いられてもよい。したがって、シグナルが13.1チャネル構成を示す場合には、符号化フォーマットは暗黙的に示されてもよく、シグナルSが明示的に選択される符号化フォーマットを示す必要はないことがある。
図1〜図5を参照して述べた例示的実施形態は図6〜図8を参照して述べた11.1チャネル・オーディオ信号に関して定式化されたが、任意の数のエンコード部を含んでいてもよく、M≧4であるとして任意の数のMチャネル・オーディオ信号をエンコードするよう構成されていてもよいエンコード・システムが構想されうる。同様に、図9〜図12を参照して述べた例示的実施形態は図6〜図8を参照して述べた11.1チャネル・オーディオ信号に関して定式化されたが、任意の数のデコード部を含んでいてもよく、M≧4であるとして任意の数のMチャネル・オーディオ信号を再構成するよう構成されていてもよいデコード・システムが構想されうる。
いくつかの例示的実施形態では、エンコーダ側は、三つすべての符号化フォーマットF1、F2、F3の間で選択してもよい。他の例示的実施形態では、エンコーダ側は、二つだけの符号化フォーマット、たとえば第一および第二の符号化フォーマットF1、F2の間で選択してもよい。
図14は、ある例示的実施形態に基づく、Mチャネル・オーディオ信号を二チャネル・ダウンミックス信号および関連するドライおよびウェット・アップミックス係数としてエンコードするためのエンコード部1400の一般化されたブロック図である。エンコード部1400は、図3に示される型のオーディオ・エンコード・システム内に配置されていてもよい。より精密には、エンコード部100によって示される位置に配置されていてもよい。示されるコンポーネントの内部動作が記述されるときに明らかになるように、エンコード部1400は二つの相異なる符号化フォーマットにおいて動作可能である;しかしながら、本発明の範囲から外れることなく、三つ以上の符号化フォーマットにおいて動作可能である同様のエンコード部が実装されてもよい。
エンコード部1400は、ダウンミックス部1410および解析部1420を有する。図6〜図7を参照して述べたものの一つであってもよく、あるいは異なるフォーマットであってもよい符号化フォーマットF1、F2のうちの少なくとも選択されたもの(エンコード部1400の制御部1430の下記の記述を参照)について、ダウンミックス部1410は、符号化フォーマットに従って、5チャネル・オーディオ信号L、LS、LB、TFL、TBLに基づいて二チャネル・ダウンミックス信号L1、L2を計算する。たとえば第一の符号化フォーマットF1では、ダウンミックス信号の第一のチャネルL1は5チャネル・オーディオ信号L、LS、LB、TFL、TBLのうち第一のグループのチャネルの線形結合(たとえば和)として形成され、ダウンミックス信号の第二のチャネルL2は5チャネル・オーディオ信号L、LS、LB、TFL、TBLのうち第二のグループのチャネルの線形結合(たとえば和)として形成される。ダウンミックス部1410によって実行される動作は、たとえば、式(1)として表現されてもよい。
符号化フォーマットF1、F2のうち少なくとも前記選択されたものについて、解析部1420は、5チャネル・オーディオ信号L、LS、LB、TFL、TBLを近似するそれぞれのダウンミックス信号L1、L2の線形マッピングを定義するドライ・アップミックス係数の集合βLを決定する。符号化フォーマットF1、F2のそれぞれについて、解析部1420はさらに、それぞれの計算された差に基づいて、ウェット・アップミックス係数の集合γLを決定する。これは、ドライ・アップミックス係数βLと一緒になって、ダウンミックス信号L1、L2およびダウンミックス信号L1、L2に基づいてデコーダ側で決定される三チャネルの脱相関済み信号からの5チャネル・オーディオ信号L、LS、LB、TFL、TBLの式(2)に基づくパラメトリック再構成を許容する。ウェット・アップミックス係数の集合γLは、脱相関済み信号線形マッピングによって得られる信号の共分散行列が、受領された5チャネル・オーディオ信号L、LS、LB、TFL、TBLの共分散行列とダウンミックス信号L1、L2の線形マッピングによって近似される5チャネル・オーディオ信号の共分散行列との間の差を近似するよう、脱相関済み信号の線形マッピングを定義する。
ダウンミックス部1410は、たとえば、時間領域で、すなわち5チャネル・オーディオ信号L、LS、LB、TFL、TBLの時間領域表現に基づいて、あるいは周波数領域で、すなわち5チャネル・オーディオ信号L、LS、LB、TFL、TBLの周波数領域表現に基づいて、ダウンミックス信号L1、L2を計算してもよい。少なくとも、符号化フォーマットについての決定が周波数選択的でなく、よってMチャネル・オーディオ信号のすべての周波数成分について当てはまる場合には、時間領域でL1、L2を計算することが可能である。これは現在のところ好ましい場合である。
解析部1420はたとえば、ドライ・アップミックス係数βLおよびウェット・アップミックス係数γLを、5チャネル・オーディオ信号L、LS、LB、TFL、TBLの周波数領域解析に基づいて決定してもよい。周波数領域解析は、Mチャネル・オーディオ信号の窓掛けされたセクションに対して実行されてもよい。窓掛けのためには、分離した長方形または重なり合う三角形の窓がたとえば使われてもよい。解析部1420は、ドライ・アップミックス係数βLおよびウェット・アップミックス係数γLを決定するために、たとえば、ダウンミックス部1410によって計算されたダウンミックス信号L1、L2を受領してもよく(図14には示さず)、あるいはダウンミックス信号L1、L2の自分自身のバージョンを計算してもよい。
エンコード部1400はさらに、現在使用されるべき符号化フォーマットを選択することを受け持つ制御部1430を有する。選択されるべき符号化フォーマットを決定するために制御部1430が特定の基準または特定の理由付けを利用することは本質的ではない。制御部1430によって生成されるシグナルSの値が、Mチャネル・オーディオ信号の現在考慮されているセクション(たとえば時間フレーム)についての、制御部1430の決定の結果を示す。シグナルSは、エンコードされたオーディオ信号の再構成を容易にするよう、エンコード部1400が含まれるエンコード・システム300によって生成されるビットストリームBに含められてもよい。さらに、シグナルSは、ダウンミックス部1410および解析部1420のそれぞれに入力されて、これらのセクションに使用されるべき符号化フォーマットを通知する。解析部1420と同様に、制御部1430はMチャネル信号の窓掛けされたセクションを考慮してもよい。完全を期すため述べておくと、ダウンミックス部1410は、制御部1430に関して、1フレームまたは2フレームの遅延をもって、また可能性としては追加的な先読みをもって動作してもよい。任意的に、シグナルSは、フレームより小さな時間フレームでの同期を保証するよう、ダウンミックス部1410が生成するダウンミックス信号のクロスフェードに関係する情報および/または解析部1420が提供するドライおよびウェット・アップミックス係数の離散的な値のデコーダ側補間に関係する情報をも含んでいてもよい。
任意的なコンポーネントとして、エンコード部1400は、制御部1430のすぐ下流に配置され、その出力信号が他のコンポーネントによって処理される直前に該出力信号に対して作用する安定化器1440を含んでいてもよい。この出力信号に基づいて、安定化器1440はサイド情報Sを下流のコンポーネントに供給する。安定化器1440は、選択された符号化フォーマットをあまりに頻繁に変更しないという望ましいねらいを実現しうる。この目的のために、安定化器1440は、Mチャネル・オーディオ信号の過去の時間フレームについてのいくつかの符号化フォーマット選択を考慮して、選ばれた符号化フォーマットが少なくともあらかじめ定義された数の時間フレームにわたって維持されることを保証してもよい。あるいはまた、安定化器は、いくつかの過去の符号化フォーマット選択(たとえば離散的な値として表わされる)に対して、平滑化効果をもたらしうる平均化フィルタを適用してもよい。さらにもう一つの代替として、安定化器1440は状態機械を有していてもよく、該状態機械は、制御部1430によって与えられる符号化フォーマット選択が移動時間窓を通じて安定したままであったと該状態機械が判定した場合にはその移動時間窓内のすべての時間フレームについてのサイド情報Sを供給するよう構成される。移動時間窓は、いくつかの過去の時間フレームについての符号化フォーマット選択を記憶するバッファに対応していてもよい。本開示を吟味する当業者は容易に認識するように、そのような安定化機能には、安定化器1440と少なくともダウンミックス部1410および解析部1420との間での動作遅延の増大を伴う必要がありうる。その遅延は、Mチャネル・オーディオ信号の諸セクションをバッファリングすることによって実装されてもよい。
図14は、図3のエンコード・システムの部分図であることを想起しておく。図14に示されるコンポーネントは、左側のチャネルL、LS、LB、TFL、TBLの処理にのみ関するが、エンコード・システムは、少なくとも右側のチャネルR、RS、RB、TFR、TBRをも処理する。たとえば、エンコード部1400のさらなるインスタンス(たとえば機能的に等価なレプリカ)が、前記チャネルR、RS、RB、TFR、TBRを含む右側信号をエンコードするために並列に動作していてもよい。左側および右側のチャネルは二つの別個のダウンミックス信号に(または少なくとも共通のダウンミックス信号の別個のチャネル・グループに)寄与するが、すべてのチャネルについて共通の符号化フォーマットを使うことが好ましい。これはつまり、左側エンコード部1400内の制御部1430が、左側および右側のチャネル両方について使用されるべき共通の符号化フォーマットを決定することを受け持ってもよいということである。そうすると、制御部1430は、右側チャネルR、RS、RB、TFR、TBRへの、あるいはこれらの信号から導出される共分散、ダウンミックス信号などといった量へのアクセスをもち、使用されるべき符号化フォーマットを決定するときにこれらを考慮に入れられることが好ましい。その場合、シグナルSは、(左側)制御部1430のダウンミックス部1410および解析部1420だけでなく、右側エンコード部(図示せず)の等価な部分にも提供される。あるいはまた、すべてのチャネルについての共通の符号化フォーマットを使う目的は、制御部1430自身をエンコード部1400の左側インスタンスとその右側インスタンスの両方に共通にすることによって達成されてもよい。図3に描かれる型のレイアウトにおいて、エンコード部1430は、それぞれ左側および右側チャネルを受け持つエンコード部100および追加的なエンコード部303の両方の外に設けられて、左側および右側チャネルL、LS、LB、TFL、TBL、R、RS、RB、TFR、TBRの全部を受領し、符号化フォーマットの選択を示し少なくともエンコード部100および追加的なエンコード部303に供給されるシグナルSを出力してもよい。
図15は、シグナルSに従って二つのあらかじめ定義された符号化フォーマットF1、F2の間で交替し、これらのクロスフェードを提供するよう構成されたダウンミックス部1410のある可能な実装を概略的に描いている。ダウンミックス部1410は、Mチャネル・オーディオ信号を受領し、二チャネル・ダウンミックス信号を出力するよう構成された二つのダウンミックス・サブセクション1411、1412を有する。二つのダウンミックス・サブセクション1411、1412は、異なるダウンミックス設定(たとえばMチャネル・オーディオ信号に基づいてダウンミックス信号L1、L2を生成するための係数の値)で構成されているが、一つの設計の機能的に等価なコピーであってもよい。通常動作では、二つのダウンミックス・サブセクション1411、1412は一緒になって、第一の符号化フォーマットF1に従う一つのダウンミックス信号L1(F1)、L2(F1)および/または第二の符号化フォーマットF2に従う一つのダウンミックス信号L1(F2)、L2(F2)を提供する。ダウンミックス・サブセクション1411、1412の下流には、第一のダウンミックス補間部1413および第二のダウンミックス補間部1414が配置されている。第一のダウンミックス補間部1413は、ダウンミックス信号の第一のチャネルL1をクロスフェードすることを含めて補間するよう構成されており、第二のダウンミックス補間部1414は、ダウンミックス信号の第二のチャネルL2をクロスフェードすることを含めて補間するよう構成されている。第一のダウンミックス補間部1413は少なくとも以下の状態で動作可能である:
a)第一の符号化フォーマットのみ(L1=L1(F1))。これは第一の符号化フォーマットでの定常動作において使用されうる。
b)第二の符号化フォーマットのみ(L1=L1(F2))。これは第二の符号化フォーマットでの定常動作において使用されうる。
c)両方の符号化フォーマットに基づくダウンミックス・チャネルの混合(L1=α1L1(F1)+α2L1(F2)、ここで、0<α1<1かつ0<α2<1)。これは第一の符号化フォーマットから第二の符号化フォーマットへの、あるいはその逆の遷移において使用されうる。
混合状態(c)は、ダウンミックス信号が第一および第二のダウンミックス・サブセクション1411、1412の両方から利用可能であることを要求しうる。好ましくは、第一のダウンミックス補間部1413は複数の混合状態(c)において動作可能であり、細かいサブステップでの遷移、あるいはさらには準連続的なクロスフェードが可能になる。これは、クロスフェードを知覚されにくくするという利点がある。たとえば、α1+α2=1である補間器設計では、(α12)の値として(0.2,0.8),(0.4,0.6),(0.6,0.4),(0.8,0.2)が定義されれば、5ステップのクロスフェードが可能である。第二のダウンミックス補間部1414は同一のまたは同様の機能を有していてもよい。
ダウンミックス部1410の上記の実施形態のある変形においては、図15で破線によって示されるように、シグナルSは第一および第二のダウンミックス・サブセクション1411、1412にも供給されうる。上記で説明したように、その場合、選択されていない符号化フォーマットに関連するダウンミックス信号の生成は、抑制されうる。これは、平均的な計算負荷を低下させうる。
この変形への追加または代替として、二つの異なる符号化フォーマットのダウンミックス信号の間のクロスフェードは、ダウンミックス係数をクロスフェードすることによって達成されてもよい。その場合、第一のダウンミックス・サブセクション1411は、利用可能な符号化フォーマットF1、F2において使用されるべきダウンミックス係数のあらかじめ定義された値を記憶している係数補間器(図示せず)によって生成される補間されたダウンミックス係数を供給され、シグナルSを入力として受領してもよい。この構成では、第二のダウンミックス・サブセクション1412および第一および第二の補間サブセクション1413、1414のすべては、なくされたり、あるいは恒久的に非アクティブ化されたりしてもよい。
ダウンミックス部1410が受領するシグナルSは、少なくともダウンミックス補間部1413、1414に供給されるが、必ずしもダウンミックス・サブセクション1411、1412には供給されない。交互する動作が所望される場合、すなわち符号化フォーマット間の遷移の外では冗長なダウンミックスの量が減らされる場合に、シグナルSをダウンミックス・サブセクション1411、1412に供給することが必要になる。シグナルは、たとえばダウンミックス補間部1413、1414の異なる動作モードを指す低レベル・コマンドであってもよく、あるいは示された開始点においてあらかじめ定義されたクロスフェード・プログラム(たとえばそれぞれがあらかじめ定義された継続時間をもつ一連の動作モード)を実行する命令のような高レベルの命令に関係していてもよい。
図16に目を転じると、シグナルSに従って二つのあらかじめ定義された符号化フォーマットF1、F2の間で交替するよう構成された解析部1412のある可能な実装が描かれている。解析部1420は、Mチャネル・オーディオ信号を受領し、ドライおよびウェット・アップミックス係数を出力するよう構成された二つの解析サブセクション1421、1422を有する。二つの解析サブセクション1421、1422は、一つの設計の機能的に等価なコピーであってもよい。通常動作では、二つの解析サブセクション1421、1422は一緒になって、第一の符号化フォーマットF1に従うドライおよびウェット・アップミックス係数の一つの集合βL(F1)、γL(F1)および/または第二の符号化フォーマットF2に従うドライおよびウェット・アップミックス係数の一つの集合βL(F2)、γL(F2)を提供する。
全体としての解析部1420について上記で説明したように、現在のダウンミックス信号はダウンミックス部1410から受領されてもよく、あるいはこの信号の複製が解析部1420において生成されてもよい。より精密には、第一の解析サブセクション1421は、ダウンミックス部1410内の第一のダウンミックス・サブセクション1411から第一の符号化フォーマットF1に従うダウンミックス信号L1(F1)、L2(F1)を受領してもよく、あるいは自分で複製を生成してもよい。同様に、第二の解析サブセクション1422は、第二のダウンミックス・サブセクション1412から第二の符号化フォーマットF2に従うダウンミックス信号L1(F2)、L2(F2)を受領してもよく、あるいは自分でこの信号の複製を生成してもよい。
解析セクション1421、1422の下流には、ドライ・アップミックス係数選択器1423およびウェット・アップミックス係数選択器1424が配置されている。ドライ・アップミックス係数選択器1423は、第一または第二の解析サブセクション1421、1422のいずれかからのドライ・アップミックス係数の集合βLを転送するよう構成され、ウェット・アップミックス係数選択器1424は、第一または第二の解析サブセクション1421、1422のいずれかからのウェット・アップミックス係数の集合γLを転送するよう構成される。ドライ・アップミックス係数選択器1423は少なくとも、第一のダウンミックス補間部1413について上記で論じた状態(a)および(b)で動作可能である。しかしながら、その一部がここで記述されているところの図3のエンコード・システムが、図9に示されるもののように受領するアップミックス係数の補間された離散的な値に基づいてパラメトリック再構成を実行するデコード・システムと協働するよう構成される場合には、ダウンミックス補間部1413、1414について定義されている(c)のような混合状態を構成する必要はない。ウェット・アップミックス係数選択器1424は同様の機能を有していてもよい。
解析部1420が受領するシグナルSは、少なくともウェットおよびドライ・アップミックス係数選択器1423、1424に供給される。解析サブセクション1421、1422がシグナルを受領することは必要ではないが、これは、遷移の外側でアップミックス係数の冗長な計算を回避するために有利である。シグナルは、たとえばドライおよびウェット・アップミックス係数選択器1423、1424の異なる動作モードを指す低レベル・コマンドであってもよく、あるいは所与の時間フレームにおいてある符号化フォーマットから別の符号化フォーマットに遷移する命令のような高レベルの命令に関係していてもよい。上記で説明したように、これは好ましくは、クロスフェード動作を含まず、ある好適な時点についてのアップミックス係数の値を定義することまたはある好適な時点において適用すべきこれらの値を定義することに帰着してもよい。
ここで、ある実施形態に基づく、Mチャネル・オーディオ信号を二チャネル・ダウンミックス信号としてエンコードするための方法の変形である方法1700が記述される。これは図17においてフローチャートとして概略的に描いてある。ここに例示される方法は、図14〜図16を参照して上記したエンコード部1400を有するオーディオ・エンコード・システムによって実行されてもよい。
オーディオ・エンコード方法1700は:Mチャネル・オーディオ信号L、LS、LB、TFL、TBLを受領し1710;図6〜図8を参照して述べた符号化フォーマットF1、F2、F3のうち少なくとも二つのうちの一つを選択し1720;選択された符号化フォーマットについて、Mチャネル・オーディオ信号L、LS、LB、TFL、TBLに基づく二チャネル・ダウンミックス信号L1、L2を計算し1730;選択された符号化フォーマットのダウンミックス信号L1、L2および該ダウンミックス信号に基づいてMチャネル・オーディオ信号のパラメトリック再構成を可能にするサイド情報αを出力し1740;選択された符号化フォーマットを示すシグナルSを出力する1750ことを含む。本方法は、たとえばMチャネル・オーディオ信号の各時間フレームについて繰り返される。選択1720の結果が、直前に選択されたものとは異なる符号化フォーマットであれば、ダウンミックス信号は、ある好適な継続時間にわたって、前の符号化フォーマットと現在の符号化フォーマットに基づくダウンミックス信号の間のクロスフェードによって置換される。すでに論じたように、サイド情報をクロスフェードすることは必要ではなく、あるいは可能ではない。これは、内在するデコーダ側の補間によることがある。
ここに記載される方法は、図4に描かれた四つの段階430、440、450、470のうちの一つまたは複数なしで実装されてもよい。
〈V.等価物、拡張、代替その他〉
本開示は特定の例示的実施形態を記述し、図示しているが、本発明はそうした特定の例に制約されるものではない。上記の例示的実施形態に対する修正および変形が、付属の請求項によってのみ定義される本発明の範囲から外れることなく、なされることができる。
請求項において、単語「有する/含む」は、他の要素やステップを排除するものではなく、単数形の表現は複数を排除するものではない。ある種の施策が互いに異なる従属請求項において記載されているというだけの事実が、それらの施策の組み合わせが有利に使用できないことを示すものではない。請求項に現われる参照符号があったとしても、その範囲を限定するものと理解されるものではない。
上記で開示された装置および方法は、ソフトウェア、ファームウェア、ハードウェアまたはそれらの組み合わせとして実装されうる。ハードウェア実装では、上記の記述で言及された機能ユニットの間でのタスクの分割は必ずしも物理的なユニットへの分割に対応しない。むしろ、一つの物理的コンポーネントが複数の機能を有していてもよく、一つのタスクが協働するいくつかの物理的コンポーネントによって分散式に実行されてもよい。ある種のコンポーネントまたはすべてのコンポーネントは、デジタル・プロセッサ、信号プロセッサまたはマイクロプロセッサによって実行されるソフトウェアとして実装されてもよく、あるいはハードウェアとしてまたは特定用途向け集積回路として実装されてもよい。そのようなソフトウェアは、コンピュータ記憶媒体(または非一時的な媒体)および通信媒体(または一時的な媒体)を含みうるコンピュータ可読媒体上で頒布されてもよい。当業者にはよく知られているように、コンピュータ記憶媒体という用語は、コンピュータ可読命令、データ構造、プログラム・モジュールまたは他のデータのような情報の記憶のための任意の方法または技術において実装される揮発性および不揮発性、リムーバブルおよび非リムーバブル媒体を含む。コンピュータ記憶媒体は、これに限られないが、RAM、ROM、EEPROM、フラッシュメモリまたは他のメモリ技術、CD-ROM、デジタル多用途ディスク(DVD)または他の光ディスク記憶、磁気カセット、磁気テープ、磁気ディスク記憶または他の磁気記憶デバイスまたは、所望される情報を記憶するために使用されることができ、コンピュータによってアクセスされることができる他の任意の媒体を含む。さらに、通信媒体が典型的にはコンピュータ可読命令、データ構造、プログラム・モジュールまたは他のデータを、搬送波または他の転送機構のような変調されたデータ信号において具現し、任意の情報送達媒体を含むことは当業者にはよく知られている。

Claims (39)

  1. オーディオ・デコード方法であって:
    二チャネル・ダウンミックス信号と、該ダウンミックス信号に基づくMチャネル・オーディオ信号のパラメトリック再構成のためのアップミックス・パラメータとを受領する段階であって、M≧4である、段階と;
    前記Mチャネル・オーディオ信号の少なくとも二つの符号化フォーマットのうちの選択されたものを示すシグナルを受領する段階であって、それらの符号化フォーマットは、前記Mチャネル・オーディオ信号のチャネルの、一つまたは複数のチャネルのそれぞれ第一および第二のグループへのそれぞれ異なる分割に対応し、示された符号化フォーマットにおいて、前記ダウンミックス信号の第一のチャネルは前記Mチャネル・オーディオ信号の前記第一のグループの一つまたは複数のチャネルの線形結合に対応し、前記ダウンミックス信号の第二のチャネルは前記Mチャネル・オーディオ信号の前記第二のグループの一つまたは複数のチャネルの線形結合に対応する、段階と;
    示された符号化フォーマットに基づいて一組のプレ脱相関係数を決定する段階と;
    前記ダウンミックス信号の線形マッピングとして脱相関入力信号を計算する段階であって、前記ダウンミックス信号に前記一組のプレ脱相関係数が適用される、段階と;
    前記脱相関入力信号に基づいて脱相関済み信号を生成する段階と;
    ウェット・アップミックス係数の集合およびドライ・アップミックス係数の集合を、受領されたアップミックス・パラメータおよび示された符号化フォーマットに基づいて決定する段階と;
    前記ダウンミックス信号の線形マッピングとしてドライ・アップミックス信号を計算する段階であって、前記ドライ・アップミックス係数の集合が前記ダウンミックス信号に適用される、段階と;
    前記脱相関済み信号の線形マッピングとしてウェット・アップミックス信号を計算する段階であって、前記ウェット・アップミックス係数の集合が前記脱相関済み信号に適用される、段階と;
    前記ドライ・アップミックス信号およびウェット・アップミックス信号を組み合わせて、再構成されるべきMチャネル・オーディオ信号に対応する多次元の再構成された信号を得る段階とを含む、
    オーディオ・デコード方法。
  2. M=5である、請求項1記載のオーディオ・デコード方法。
  3. 前記脱相関入力信号および前記脱相関済み信号はそれぞれM−2個のチャネルを含み、前記脱相関済み信号のチャネルは、前記脱相関入力信号のたった一つのチャネルに基づいて生成され、前記プレ脱相関係数は、各符号化フォーマットにおいて、前記脱相関入力信号のチャネルが前記ダウンミックス信号のたった一つのチャネルから寄与を受けるよう決定される、請求項1記載のオーディオ・デコード方法。
  4. 前記プレ脱相関係数は、前記Mチャネル・オーディオ信号の第一のチャネル(TBL)が、前記ダウンミックス信号を介して、前記符号化フォーマットの少なくとも二つにおいて前記脱相関入力信号の第一の固定したチャネル(D3)に寄与するよう、決定される、請求項1ないし3のうちいずれか一項記載のオーディオ・デコード方法。
  5. 前記プレ脱相関係数は、さらに、前記Mチャネル・オーディオ信号の第二のチャネル(L)が、前記ダウンミックス信号を介して、前記符号化フォーマットの少なくとも二つにおいて前記脱相関入力信号の第二の固定したチャネル(D1)に寄与するよう、決定される、請求項4記載のオーディオ・デコード方法。
  6. 受領されたシグナルは、少なくとも三つの符号化フォーマットのうちの選択されたものを示し、前記プレ脱相関係数は、前記Mチャネル・オーディオ信号の前記第一のチャネルが、前記ダウンミックス信号を介して、前記符号化フォーマットの少なくとも三つにおいて前記脱相関入力信号の前記第一の固定したチャネルに寄与するよう、決定される、請求項4または5記載のオーディオ・デコード方法。
  7. 前記プレ脱相関係数は、前記Mチャネル・オーディオ信号の一対のチャネル(LS、LB)が、前記ダウンミックス信号を介して、前記符号化フォーマットの少なくとも二つにおいて前記脱相関入力信号の第三の固定したチャネル(D2)に寄与するよう、決定される、請求項1ないし6のうちいずれか一項記載のオーディオ・デコード方法。
  8. 第一の符号化フォーマットから第二の符号化フォーマットへの前記示された符号化フォーマットの切り換えを検出することに応答して、前記第一の符号化フォーマットに関連付けられたプレ脱相関係数値から前記第二の符号化フォーマットに関連付けられたプレ脱相関係数値への漸進的な遷移を実行することをさらに含む、請求項1ないし7のうちいずれか一項記載のオーディオ・デコード方法。
  9. 第一の符号化フォーマットから第二の符号化フォーマットへの前記示された符号化フォーマットの切り換えを検出することに応答して、前記第一の符号化フォーマットに関連付けられたウェットおよびドライ・アップミックス係数値から、前記第二の符号化フォーマットに関連付けられたウェットおよびドライ・アップミックス係数値への補間を実行することをさらに含む、
    請求項1ないし8のうちいずれか一項記載のオーディオ・デコード方法。
  10. ウェットおよびドライ・アップミックス・パラメータの補間のために用いられるべき複数の補間方式のうちの一つを示すシグナルを受領し、示された補間方式を用いることをさらに含む、請求項9記載のオーディオ・デコード方法。
  11. 前記少なくとも二つの符号化フォーマットは、第一の符号化フォーマットおよび第二の符号化フォーマットを含み、前記第一の符号化フォーマットにおける、前記Mチャネル・オーディオ信号のあるチャネルから前記ダウンミックス信号の諸チャネルが対応する諸線形結合の一つへの寄与を制御する各利得が、前記第二の符号化フォーマットにおける、前記Mチャネル・オーディオ信号の前記チャネルの、前記ダウンミックス信号の諸チャネルが対応する諸線形結合の一つへの寄与を制御する利得と一致する、請求項1ないし10のうちいずれか一項記載のオーディオ・デコード方法。
  12. 前記Mチャネル・オーディオ信号は、前記Mチャネル・オーディオ信号のための再生環境における異なる水平方向を表わす三つのチャネル(L、LS、LB)と、前記再生環境における前記三つのチャネルの方向からは垂直に隔たった方向を表わす二つのチャネル(TFL、TBL)とを含む、請求項1ないし11のうちいずれか一項記載のオーディオ・デコード方法。
  13. 第一の符号化フォーマットでは、前記第二のグループが前記二つのチャネルを含む、請求項12記載のオーディオ・デコード方法。
  14. 第一の符号化フォーマットでは、前記第一のグループが前記三つのチャネルを含み、前記第二のグループが前記二つのチャネルを含む、請求項12または13記載のオーディオ・デコード方法。
  15. 第二の符号化フォーマットでは、前記第一のグループおよび第二のグループのそれぞれが、前記二つのチャネルのうちの一つを含む、請求項12ないし14のうちいずれか一項記載のオーディオ・デコード方法。
  16. ある特定の符号化フォーマットにおいて、前記第一のグループはN個のチャネルからなり、N≧3であり、指示された符号化フォーマットが前記特定の符号化フォーマットであることに応答して:
    前記プレ脱相関係数は、前記脱相関済み信号のN−1個のチャネルが前記ダウンミックス信号の前記第一のチャネルに基づいて生成されるよう、決定され;
    前記ドライおよびウェット・アップミックス係数は、前記第一のグループが、前記ダウンミックス信号の前記第一のチャネルおよび前記脱相関済み信号の前記N−1個のチャネルの線形マッピングであって、前記ドライ・アップミックス係数の部分集合が前記ダウンミックス信号の前記第一のチャネルに適用され、前記ウェット・アップミックス係数の部分集合が前記脱相関済み信号の前記N−1個のチャネルに適用される、線形マッピングとして再構成されるよう決定される、
    請求項1ないし15のうちいずれか一項記載のオーディオ・デコード方法。
  17. 受領されたアップミックス・パラメータは、ウェット・アップミックス・パラメータおよびドライ・アップミックス・パラメータを含み、ウェットおよびドライ・アップミックス係数の前記集合を決定することは:
    前記ドライ・アップミックス・パラメータに基づいて、前記ドライ・アップミックス係数の前記部分集合を決定する段階と;
    受領されたウェット・アップミックス・パラメータの数より多くの要素をもつ中間行列に値を入れる段階であって、受領されたアップミックス・パラメータと、該中間行列があらかじめ定義された行列クラスに属することを知っていることに基づく、段階と;
    前記中間行列にあらかじめ定義された行列を乗算することによって前記ウェット・アップミックス係数の前記部分集合を得る段階であって、前記ウェット・アップミックス係数の前記部分集合は前記乗算から帰結する行列に対応し、前記中間行列の要素の数より多い係数を含む、段階とを含む、
    請求項16記載のオーディオ・デコード方法。
  18. 前記あらかじめ定義された行列および/または前記あらかじめ定義された行列クラスは、前記示された符号化フォーマットに関連付けられる、請求項17記載のオーディオ・デコード方法。
  19. オーディオ・デコード方法であって:
    少なくとも二つのあらかじめ定義されたチャネル構成のうちの一つを示すシグナルを受領する段階と;
    受領されたシグナルが第一のあらかじめ定義されたチャネル構成を示すことを検出することに応答して、請求項1ないし18のうちいずれか一項記載のオーディオ・デコード方法を実行する段階と;
    受領されたシグナルが第二のあらかじめ定義されたチャネル構成を示すことを検出することに応答して:
    二チャネル・ダウンミックス信号および関連するアップミックス・パラメータを受領し;
    前記ダウンミックス信号の第一のチャネルおよび前記アップミックス・パラメータの少なくともいくつかに基づいて第一の三チャネル・オーディオ信号のパラメトリック再構成を実行し;
    前記ダウンミックス信号の第二のチャネルおよび前記アップミックス・パラメータの少なくともいくつかに基づいて第二の三チャネル・オーディオ信号のパラメトリック再構成を実行する段階とを含む、
    方法。
  20. オーディオ・デコード・システムであって:
    二チャネル・ダウンミックス信号および関連付けられたアップミックス・パラメータに基づいてMチャネル・オーディオ信号を再構成するよう構成されたデコード部であって、M≧4である、デコード部と;
    前記Mチャネル・オーディオ信号の少なくとも二つの符号化フォーマットのうちの選択されたものを示すシグナルを受領するよう構成された制御部であって、それらの符号化フォーマットは、前記Mチャネル・オーディオ信号のチャネルの、一つまたは複数のチャネルのそれぞれ第一および第二のグループへのそれぞれ異なる分割に対応し、示された符号化フォーマットにおいて、前記ダウンミックス信号の第一のチャネルは前記Mチャネル・オーディオ信号の前記第一のグループの一つまたは複数のチャネルの線形結合に対応し、前記ダウンミックス信号の第二のチャネルは前記Mチャネル・オーディオ信号の前記第二のグループの一つまたは複数のチャネルの線形結合に対応する、制御部とを有しており、
    前記デコード部は:
    示された符号化フォーマットに基づいて一組のプレ脱相関係数を決定する段階と、前記ダウンミックス信号の線形マッピングとして脱相関入力信号を計算する段階であって、前記ダウンミックス信号に前記一組のプレ脱相関係数が適用される、段階とを実行するよう構成されたプレ脱相関部と;
    前記脱相関入力信号に基づいて脱相関済み信号を生成する段階を実行するよう構成された脱相関部と;
    ウェット・アップミックス係数の集合およびドライ・アップミックス係数の集合を、受領されたアップミックス・パラメータおよび示された符号化フォーマットに基づいて決定する段階と;
    前記ダウンミックス信号の線形マッピングとしてドライ・アップミックス信号を計算する段階であって、前記ドライ・アップミックス係数の集合が前記ダウンミックス信号に適用される、段階と;
    前記脱相関済み信号の線形マッピングとして計算するウェット・アップミックス信号を段階であって、前記ウェット・アップミックス係数の集合が前記脱相関済み信号に適用される、段階と;
    前記ドライ・アップミックス信号およびウェット・アップミックス信号を組み合わせて、再構成されるべきMチャネル・オーディオ信号に対応する多次元の再構成された信号を得る段階とを実行するよう構成された混合部とを有する、
    オーディオ・デコード・システム。
  21. 追加的な二チャネル・ダウンミックス信号および関連付けられた追加的なアップミックス・パラメータに基づいて追加的なMチャネル・オーディオ信号を再構成するよう構成された追加的なデコード部をさらに有しており、
    前記制御部は、前記追加的なMチャネル・オーディオ信号の少なくとも二つの符号化フォーマットのうちの選択されたものを示すシグナルを受領するよう構成されており、前記追加的なMチャネル・オーディオ信号のそれらの符号化フォーマットは、前記追加的なMチャネル・オーディオ信号のチャネルの、一つまたは複数のチャネルのそれぞれ第一および第二のグループへのそれぞれ異なる分割に対応し、前記追加的なMチャネル・オーディオ信号の示された符号化フォーマットにおいて、前記追加的なダウンミックス信号の第一のチャネルは前記追加的なMチャネル・オーディオ信号の前記第一のグループの一つまたは複数のチャネルの線形結合に対応し、前記追加的なダウンミックス信号の第二のチャネルは前記追加的なMチャネル・オーディオ信号の前記第二のグループの一つまたは複数のチャネルの線形結合に対応し、
    前記追加的なデコード部は:
    前記追加的なMチャネル・オーディオ信号の示された符号化フォーマットに基づく追加的な一組のプレ脱相関係数を決定する段階と;前記追加的なダウンミックス信号の線形マッピングとして追加的な脱相関入力信号を計算する段階であって、前記追加的なダウンミックス信号に前記追加的な一組のプレ脱相関係数が適用される、段階とを実行するよう構成された追加的なプレ脱相関部と;
    前記追加的な脱相関入力信号に基づいて追加的な脱相関済み信号を生成するよう構成された追加的な脱相関部と;
    追加的なウェット・アップミックス係数の集合およびドライ・アップミックス係数の集合を、受領された追加的なアップミックス・パラメータおよび前記追加的なMチャネル・オーディオ信号の示された符号化フォーマットに基づいて決定する段階と;
    前記追加的なダウンミックス信号の線形マッピングとして追加的なドライ・アップミックス信号を計算する段階であって、前記追加的なドライ・アップミックス係数の集合が前記追加的なダウンミックス信号に適用される、段階と;
    前記追加的な脱相関済み信号の線形マッピングとして追加的なウェット・アップミックス信号を計算する段階であって、前記追加的なウェット・アップミックス係数の集合が前記追加的な脱相関済み信号に適用される、段階と;
    前記追加的なドライ・アップミックス信号およびウェット・アップミックス信号を組み合わせて、再構成されるべき前記追加的なMチャネル・オーディオ信号に対応する追加的な多次元の再構成された信号を得る段階とを実行するよう構成された追加的な混合部とを有する、
    請求項20記載のオーディオ・デコード・システム。
  22. 前記ダウンミックス信号、前記ダウンミックス信号に関連付けられた前記アップミックス・パラメータおよび離散的に符号化されたオーディオ・チャネル(C)を、ビットストリームから抽出するよう構成されたデマルチプレクサと;
    前記離散的に符号化されたオーディオ・チャネルをデコードするよう動作可能な単一チャネル・デコード部とをさらに有する、
    請求項20または21記載のオーディオ・デコード・システム。
  23. オーディオ・エンコード方法であって:
    Mチャネル・オーディオ信号を受領する段階であって、M≧4である、段階と;
    少なくとも二つの符号化フォーマットのうちの一つを反復的に選択する段階であって、これらの符号化フォーマットは、前記Mチャネル・オーディオ信号のチャネルの、一つまたは複数のチャネルのそれぞれ第一および第二のグループへのそれぞれ異なる分割に対応し、各符号化フォーマットは二チャネル・ダウンミックス信号を定義し、該二チャネル・ダウンミックス信号において、前記ダウンミックス信号の第一のチャネルは前記Mチャネル・オーディオ信号の前記第一のグループの一つまたは複数のチャネルの線形結合として形成され、前記ダウンミックス信号の第二のチャネルは前記Mチャネル・オーディオ信号の前記第二のグループの一つまたは複数のチャネルの線形結合として形成される、段階と;
    現在選択されている符号化フォーマットに従って、前記Mチャネル・オーディオ信号に基づいて前記二チャネル・ダウンミックス信号を計算する段階と;
    現在選択されている符号化フォーマットの前記ダウンミックス信号および前記ダウンミックス信号に基づいて前記Mチャネル・オーディオ信号のパラメトリック再構成を可能にするサイド情報を出力する段階と;
    現在選択されている符号化フォーマットを示すシグナルを出力する段階とを含み、
    第一の選択された符号化フォーマットから第二の異なる選択された符号化フォーマットへの変化に応答して、前記第二の選択された符号化フォーマットに基づくダウンミックス信号が計算され、前記第一の選択された符号化フォーマットに基づくダウンミックス信号および前記第二の選択された符号化フォーマットに基づくダウンミックス信号のクロスフェードが前記ダウンミックス信号の代わりに出力される、
    オーディオ・エンコード方法。
  24. 現在選択されている符号化フォーマットについて、ドライ・アップミックス係数の集合およびウェット・アップミックス係数の集合を決定し、両方の集合は、前記選択された符号化フォーマットの前記ダウンミックス信号からおよび前記選択された符号化フォーマットの前記ダウンミックス信号の少なくとも一つのチャネルに基づいて決定された脱相関済み信号から、前記Mチャネル・オーディオ信号のパラメトリック再構成を可能にする前記サイド情報に含められる、請求項23記載のオーディオ・エンコード方法。
  25. 当該オーディオ・エンコード方法によって出力される前記ダウンミックス信号は時間フレームにセグメント分割され;
    前記サイド情報は、前記ドライ・アップミックス係数の集合およびウェット・アップミックス係数の集合の離散的な値を含み、時間フレーム当たり少なくとも一つの離散的な値が出力される、
    請求項24記載のオーディオ・エンコード方法。
  26. 前記離散的な値の間での前記Mチャネル・オーディオ信号の前記パラメトリック再構成は、あらかじめ定義された補間規則に従っての前記ドライ・アップミックス係数の集合およびウェット・アップミックス係数の集合の補間された値に基づき、前記ダウンミックス信号のクロスフェードならびに前記ドライ・アップミックス係数の集合およびウェット・アップミックス係数の集合の前記離散的な値が、前記クロスフェードおよび補間が同期的になるような仕方で出力される、請求項25記載のオーディオ・エンコード方法。
  27. 前記ドライ・アップミックス係数の集合は、前記Mチャネル・オーディオ信号を近似するそれぞれのダウンミックス信号の線形マッピングを定義し;
    前記ウェット・アップミックス係数の集合は、前記脱相関済み信号の線形マッピングを、前記脱相関済み信号の前記線形マッピングによって得られる信号の共分散が、前記選択された符号化フォーマットの前記ダウンミックス信号の前記線形マッピングによって近似される前記Mチャネル・オーディオ信号の共分散を補足するよう、定義する、
    請求項24ないし26のうちいずれか一項記載のオーディオ・エンコード方法。
  28. 少なくとも二つの符号化フォーマットのそれぞれについて、前記Mチャネル・オーディオ信号を近似するそれぞれのダウンミックス信号の線形マッピングを定義するドライ・アップミックス・パラメータの集合を決定することをさらに含み、
    前記符号化フォーマットのうちの一つを選択する前記段階が:
    各符号化フォーマットについて、受領された前記Mチャネル・オーディオ信号の共分散と前記ドライ・アップミックス・パラメータのそれぞれの集合によって決定されそれぞれのダウンミックス信号に対して作用する前記線形マッピングによって近似される前記Mチャネル・オーディオ信号の共分散との間の差を計算し;
    それぞれの計算された差に基づいて前記符号化フォーマットのうちの一つを選択することを含む、
    請求項23ないし27のうちいずれか一項記載のオーディオ・エンコード方法。
  29. 前記選択された符号化フォーマットの前記ダウンミックス信号の少なくとも一つのチャネルに基づいて決定される脱相関済み信号の線形マッピングを、前記脱相関済み信号の前記線形マッピングによって得られる信号の共分散が、受領される前記Mチャネル・オーディオ信号の共分散と前記選択された符号化フォーマットの前記ダウンミックス信号の前記線形マッピングによって近似される前記Mチャネル・オーディオ信号の共分散との間の差を近似するよう、定義するウェット・アップミックス・パラメータの集合を決定することをさらに含み、
    前記選択された符号化フォーマットの前記ドライ・アップミックス・パラメータの集合および前記ウェット・アップミックス・パラメータの集合は、前記選択された符号化フォーマットの前記ダウンミックス信号からおよび前記選択された符号化フォーマットの前記ダウンミックス信号の少なくとも一つのチャネルに基づいて決定された前記脱相関済み信号から、前記Mチャネル・オーディオ信号のパラメトリック再構成を可能にする前記サイド情報に含められる、請求項28記載のオーディオ・エンコード方法。
  30. 前記少なくとも二つの符号化フォーマットのそれぞれについて:
    前記Mチャネル・オーディオ信号を近似するそれぞれのダウンミックス信号の線形マッピングを定義するドライ・アップミックス・パラメータの集合を決定する段階と;
    前記ドライ・アップミックス係数と一緒になって、前記ダウンミックス信号からかつ前記ダウンミックス信号に基づいて決定される脱相関済み信号からの前記Mチャネル・オーディオ信号のパラメトリック再構成を許容するウェット・アップミックス係数の集合を決定する段階とを含み、
    ウェット・アップミックス係数の前記集合は、前記脱相関済み信号の線形マッピングを、前記脱相関済み信号の前記線形マッピングによって得られる信号の共分散が、受領された前記Mチャネル・オーディオ信号の共分散と前記ダウンミックス信号の前記線形マッピングによって近似された前記Mチャネル・オーディオ信号の共分散との間の差を近似するよう、定義し、
    前記符号化フォーマットのうちの一つを選択する前記段階は、ウェット・アップミックス係数のそれぞれの決定された集合の値を比較することを含む、
    請求項23ないし27のうちいずれか一項記載のオーディオ・エンコード方法。
  31. 前記少なくとも二つの符号化フォーマットのそれぞれについて、対応するウェット・アップミックス係数の二乗の和および対応するドライ・アップミックス係数の二乗の和を計算することをさらに含み、
    前記符号化フォーマットのうちの一つを選択する前記段階は、前記少なくとも二つの符号化フォーマットのそれぞれについて、それぞれの計算された二乗の和の値を比較することを含む、
    請求項30記載のオーディオ・エンコード方法。
  32. 前記符号化フォーマットのうちの一つを選択する前記段階は、前記少なくとも二つの符号化フォーマットのそれぞれについて、対応するウェット・アップミックス係数の二乗の和と、対応するドライ・アップミックス係数の二乗の和および対応するウェット・アップミックス係数の二乗の和の和との比の値を比較することを含む、請求項31記載のオーディオ・エンコード方法。
  33. 前記Mチャネル・オーディオ信号は少なくとも一つのさらなるオーディオ・チャネルと関連付けられており、
    前記符号化フォーマットのうちの一つを選択する前記段階は、前記少なくとも一つのさらなるオーディオ・チャネルに関係するデータを考慮に入れ、
    前記選択された符号化フォーマットは、前記Mチャネル・オーディオ信号および前記さらなるオーディオ・チャネルをエンコードするために使われる、
    請求項23ないし32のうちいずれか一項記載のオーディオ・エンコード方法。
  34. 当該オーディオ・エンコード方法によって出力される前記ダウンミックス信号は時間フレームにセグメント分割され、前記選択された符号化フォーマットは、異なる符号化フォーマットが選択される前に、少なくともある定義された数の時間フレームにわたって維持される、請求項23ないし33のうちいずれか一項記載のオーディオ・エンコード方法。
  35. 前記選択された符号化フォーマットにおいて、前記Mチャネル・オーディオ信号の一つまたは複数のチャネルの前記第一のグループは、N個のチャネルからなり、N≧3であり、前記第一のグループの一つまたは複数のチャネルは前記ダウンミックス信号の前記第一のチャネルおよび前記脱相関済み信号のN−1個のチャネルから、前記ウェットおよびドライ・アップミックス係数の少なくとも一部を適用することによって再構成可能であり、
    前記選択された符号化フォーマットの前記ドライ・アップミックス係数の集合を決定することは、前記選択された符号化フォーマットの前記第一のグループの一つまたは複数のチャネルを近似する前記選択された符号化フォーマットの前記ダウンミックス信号の前記第一のチャネルの線形マッピングを定義するために、前記選択された符号化フォーマットの前記ドライ・アップミックス係数の部分集合を決定することを含み;
    前記選択された符号化フォーマットの前記ウェット・アップミックス係数の集合を決定することは、受領された前記選択された符号化フォーマットの一つまたは複数のチャネルの前記第一のグループの共分散と、前記選択された符号化フォーマットの前記ダウンミックス信号の前記第一のチャネルの前記線形マッピングによって近似される前記選択された符号化フォーマットの一つまたは複数のチャネルの前記第一のグループの共分散との間の差に基づいて中間行列を決定することを含み、前記中間行列は、あらかじめ定義された行列を乗算されると、前記選択された符号化フォーマットの一つまたは複数のチャネルの前記第一のグループのパラメトリック再構成の一部として、前記脱相関済み信号の前記N−1個のチャネルの線形マッピングを定義する前記選択された符号化フォーマットのウェット・アップミックス係数の部分集合に対応するものであり、前記選択された符号化フォーマットのウェット・アップミックス係数の前記部分集合は、前記中間行列内の要素の数より多くの係数を含み、
    前記サイド情報は、ドライ・アップミックス係数の前記部分集合が導出可能なもとになる、ドライ・アップミックス・パラメータの集合と、前記中間行列があらかじめ定義された行列クラスに属するという前提で前記中間行列を一意的に定義するウェット・アップミックス・パラメータの集合とを含み、前記中間行列は、前記選択された符号化フォーマットの前記ウェット・アップミックス・パラメータの前記部分集合内の要素の数より多くの要素を有する、
    請求項24ないし32のうちいずれか一項記載のオーディオ・エンコード方法。
  36. オーディオ・エンコード・システムであって、Mチャネル・オーディオ信号を、二チャネル・オーディオ信号および関連するアップミックス・パラメータとしてエンコードするよう構成されたエンコード部を有し、M≧4であり、前記エンコード部は:
    前記Mチャネル・オーディオ信号のチャネルの、一つまたは複数のチャネルのそれぞれ第一および第二のグループへのそれぞれ異なる分割に対応する少なくとも二つの符号化フォーマットのうちの少なくとも一つについて、その符号化フォーマットに従って、前記Mチャネル・オーディオ信号に基づく二チャネル・ダウンミックス信号を計算するよう構成されたダウンミックス部であって、前記ダウンミックス信号の第一のチャネルは、前記Mチャネル・オーディオ信号の前記第一のグループの一つまたは複数のチャネルの線形結合として形成され、前記ダウンミックス信号の第二のチャネルは、前記Mチャネル・オーディオ信号の前記第二のグループの一つまたは複数のチャネルの線形結合として形成される、ダウンミックス部と;
    前記符号化フォーマットのうちの一つを選択するよう構成された制御部と;
    前記制御部によって選択された第一の符号化フォーマットと、前記第一の符号化フォーマットの直後に前記制御部によって選択された第二の符号化フォーマットとに基づくダウンミックス信号のクロスフェードを生成するよう構成されたダウンミックス補間器とを有しており、
    当該オーディオ・エンコード・システムは、現在選択されている符号化フォーマットを示すシグナルと、前記ダウンミックス信号に基づいて前記Mチャネル・オーディオ信号のパラメトリック再構成を可能にするサイド情報とを出力するよう構成されている、
    オーディオ・エンコード・システム。
  37. M2チャネル・オーディオ・信号をさらにエンコードするよう構成された、請求項36記載のオーディオ・エンコード・システムであって、
    前記制御部は、前記符号化フォーマットのうちの一つを繰り返し選択するよう構成されており、該選択は、前記Mチャネル・オーディオ信号および前記M2チャネル・オーディオ信号についての効果をもち、
    当該システムはさらに、前記制御部と通信上結合され、前記制御部によって選択された符号化フォーマットに従って前記M2チャネル・オーディオ信号をエンコードするよう構成されている追加的なエンコード部を有する、
    オーディオ・エンコード・システム。
  38. 請求項1ないし19および23ないし35のうちいずれか一項記載の方法を実行するための命令をもつコンピュータ可読媒体を有するコンピュータ・プログラム・プロダクト。
  39. Mチャネル・オーディオ信号を表わす情報を記憶しているコンピュータ可読媒体であって、前記オーディオ信号は複数のあらかじめ定義された符号化フォーマットのうちの選択されたものに従って表現されており、前記あらかじめ定義された符号化フォーマットのうちの少なくとも二つは、前記Mチャネル・オーディオ信号のチャネルの、一つまたは複数のチャネルのそれぞれ第一および第二のグループへの互いに異なる分割に対応し、
    前記情報は:
    現在選択されている符号化フォーマットを示すシグナルと;
    前記現在選択されている符号化フォーマットに基づく分割における前記第一および第二のグループに対応するチャネルをもつ二チャネル・ダウンミックス信号と;
    前記ダウンミックス信号に基づく前記Mチャネル・オーディオ信号のパラメトリック再構成を可能にするサイド情報とを含み、
    前記Mチャネル・オーディオ信号の二つの時間的に連続するセクションは異なる符号化フォーマットに従って表現されており、遷移セクションによって結ばれており、該遷移セクションにおいては、前記ダウンミックス信号は、第一の選択された符号化フォーマットに基づくダウンミックス信号と第二の選択された符号化フォーマットに基づくダウンミックス信号とのクロスフェードによって置換されている、
    コンピュータ可読媒体。
JP2017522811A 2014-10-31 2015-10-29 マルチチャネル・オーディオ信号のパラメトリック・エンコードおよびデコード Active JP6640849B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201462073642P 2014-10-31 2014-10-31
US62/073,642 2014-10-31
US201562128425P 2015-03-04 2015-03-04
US62/128,425 2015-03-04
PCT/EP2015/075115 WO2016066743A1 (en) 2014-10-31 2015-10-29 Parametric encoding and decoding of multichannel audio signals

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2019235974A Division JP7009437B2 (ja) 2014-10-31 2019-12-26 マルチチャネル・オーディオ信号のパラメトリック・エンコードおよびデコード

Publications (3)

Publication Number Publication Date
JP2017536756A true JP2017536756A (ja) 2017-12-07
JP2017536756A5 JP2017536756A5 (ja) 2018-12-06
JP6640849B2 JP6640849B2 (ja) 2020-02-05

Family

ID=54705555

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2017522811A Active JP6640849B2 (ja) 2014-10-31 2015-10-29 マルチチャネル・オーディオ信号のパラメトリック・エンコードおよびデコード
JP2019235974A Active JP7009437B2 (ja) 2014-10-31 2019-12-26 マルチチャネル・オーディオ信号のパラメトリック・エンコードおよびデコード

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2019235974A Active JP7009437B2 (ja) 2014-10-31 2019-12-26 マルチチャネル・オーディオ信号のパラメトリック・エンコードおよびデコード

Country Status (9)

Country Link
US (1) US9955276B2 (ja)
EP (2) EP3213323B1 (ja)
JP (2) JP6640849B2 (ja)
KR (1) KR102486338B1 (ja)
CN (2) CN107004421B (ja)
BR (1) BR112017008015B1 (ja)
ES (1) ES2709661T3 (ja)
RU (1) RU2704266C2 (ja)
WO (1) WO2016066743A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113035212A (zh) * 2015-05-20 2021-06-25 瑞典爱立信有限公司 多声道音频信号的编码
EP3337066B1 (en) 2016-12-14 2020-09-23 Nokia Technologies Oy Distributed audio mixing
CN107576933B (zh) * 2017-08-17 2020-10-30 电子科技大学 多维拟合的信源定位方法
US20200388292A1 (en) * 2019-06-10 2020-12-10 Google Llc Audio channel mixing

Family Cites Families (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7644003B2 (en) 2001-05-04 2010-01-05 Agere Systems Inc. Cue-based audio coding/decoding
FR2862799B1 (fr) 2003-11-26 2006-02-24 Inst Nat Rech Inf Automat Dispositif et methode perfectionnes de spatialisation du son
US7394903B2 (en) * 2004-01-20 2008-07-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
SE0402649D0 (sv) 2004-11-02 2004-11-02 Coding Tech Ab Advanced methods of creating orthogonal signals
US20060165247A1 (en) 2005-01-24 2006-07-27 Thx, Ltd. Ambient and direct surround sound system
EP1691348A1 (en) * 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametric joint-coding of audio sources
WO2006108543A1 (en) * 2005-04-15 2006-10-19 Coding Technologies Ab Temporal envelope shaping of decorrelated signal
ATE433182T1 (de) 2005-07-14 2009-06-15 Koninkl Philips Electronics Nv Audiokodierung und audiodekodierung
KR101228630B1 (ko) 2005-09-02 2013-01-31 파나소닉 주식회사 에너지 정형 장치 및 에너지 정형 방법
KR100888474B1 (ko) * 2005-11-21 2009-03-12 삼성전자주식회사 멀티채널 오디오 신호의 부호화/복호화 장치 및 방법
CN103366747B (zh) * 2006-02-03 2017-05-17 韩国电子通信研究院 用于控制音频信号的渲染的设备和方法
JP4396683B2 (ja) * 2006-10-02 2010-01-13 カシオ計算機株式会社 音声符号化装置、音声符号化方法、及び、プログラム
ATE539434T1 (de) * 2006-10-16 2012-01-15 Fraunhofer Ges Forschung Vorrichtung und verfahren für mehrkanalparameterumwandlung
JP5133401B2 (ja) * 2007-04-26 2013-01-30 ドルビー・インターナショナル・アクチボラゲット 出力信号の合成装置及び合成方法
BRPI0816557B1 (pt) 2007-10-17 2020-02-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Codificação de áudio usando upmix
BR122020009727B1 (pt) * 2008-05-23 2021-04-06 Koninklijke Philips N.V. Método
EP2345027B1 (en) 2008-10-10 2018-04-18 Telefonaktiebolaget LM Ericsson (publ) Energy-conserving multi-channel audio coding and decoding
EP2214162A1 (en) * 2009-01-28 2010-08-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Upmixer, method and computer program for upmixing a downmix audio signal
KR101622950B1 (ko) * 2009-01-28 2016-05-23 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 그 장치
ES2452569T3 (es) 2009-04-08 2014-04-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato, procedimiento y programa de computación para mezclar en forma ascendente una señal de audio con mezcla descendente utilizando una suavización de valor fase
WO2010122455A1 (en) * 2009-04-21 2010-10-28 Koninklijke Philips Electronics N.V. Audio signal synthesizing
EP2249334A1 (en) 2009-05-08 2010-11-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio format transcoder
EP2360681A1 (en) 2010-01-15 2011-08-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for extracting a direct/ambience signal from a downmix signal and spatial parametric information
TWI462087B (zh) * 2010-11-12 2014-11-21 Dolby Lab Licensing Corp 複數音頻信號之降混方法、編解碼方法及混合系統
US9219972B2 (en) 2010-11-19 2015-12-22 Nokia Technologies Oy Efficient audio coding having reduced bit rate for ambient signals and decoding using same
CN103329571B (zh) 2011-01-04 2016-08-10 Dts有限责任公司 沉浸式音频呈现系统
WO2012122397A1 (en) 2011-03-09 2012-09-13 Srs Labs, Inc. System for dynamically creating and rendering audio objects
CN105792086B (zh) 2011-07-01 2019-02-15 杜比实验室特许公司 用于自适应音频信号产生、编码和呈现的系统和方法
US9966080B2 (en) * 2011-11-01 2018-05-08 Koninklijke Philips N.V. Audio object encoding and decoding
WO2013122388A1 (en) 2012-02-15 2013-08-22 Samsung Electronics Co., Ltd. Data transmission apparatus, data receiving apparatus, data transceiving system, data transmission method and data receiving method
CN104160442B (zh) * 2012-02-24 2016-10-12 杜比国际公司 音频处理
WO2013149672A1 (en) * 2012-04-05 2013-10-10 Huawei Technologies Co., Ltd. Method for determining an encoding parameter for a multi-channel audio signal and multi-channel audio encoder
CA2843223A1 (en) 2012-07-02 2014-01-09 Sony Corporation Decoding device, decoding method, encoding device, encoding method, and program
US9473870B2 (en) 2012-07-16 2016-10-18 Qualcomm Incorporated Loudspeaker position compensation with 3D-audio hierarchical coding
US9479886B2 (en) 2012-07-20 2016-10-25 Qualcomm Incorporated Scalable downmix design with feedback for object-based surround codec
EP2891338B1 (en) 2012-08-31 2017-10-25 Dolby Laboratories Licensing Corporation System for rendering and playback of object based audio in various listening environments
EP2891335B1 (en) 2012-08-31 2019-11-27 Dolby Laboratories Licensing Corporation Reflected and direct rendering of upmixed content to individually addressable drivers
BR122021021506B1 (pt) 2012-09-12 2023-01-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V Aparelho e método para fornecer capacidades melhoradas de downmix guiado para áudio 3d
WO2014068583A1 (en) 2012-11-02 2014-05-08 Pulz Electronics Pvt. Ltd. Multi platform 4 layer and x, y, z axis audio recording, mixing and playback process
US9913064B2 (en) 2013-02-07 2018-03-06 Qualcomm Incorporated Mapping virtual speakers to physical speakers
KR101729930B1 (ko) 2013-02-14 2017-04-25 돌비 레버러토리즈 라이쎈싱 코오포레이션 업믹스된 오디오 신호들의 채널간 코히어런스를 제어하기 위한 방법
CN116741186A (zh) * 2013-04-05 2023-09-12 杜比国际公司 立体声音频编码器和解码器
ES2660778T3 (es) 2013-10-21 2018-03-26 Dolby International Ab Reconstrucción paramétrica de señales de audio
TWI587286B (zh) * 2014-10-31 2017-06-11 杜比國際公司 音頻訊號之解碼和編碼的方法及系統、電腦程式產品、與電腦可讀取媒體

Also Published As

Publication number Publication date
JP7009437B2 (ja) 2022-01-25
EP3213323B1 (en) 2018-12-12
RU2019131327A (ru) 2019-11-25
KR20170078648A (ko) 2017-07-07
EP3540732A1 (en) 2019-09-18
RU2704266C2 (ru) 2019-10-25
US20170339505A1 (en) 2017-11-23
ES2709661T3 (es) 2019-04-17
CN107004421A (zh) 2017-08-01
RU2017114642A (ru) 2018-10-31
BR112017008015A2 (pt) 2017-12-19
EP3540732B1 (en) 2023-07-26
KR102486338B1 (ko) 2023-01-10
BR112017008015B1 (pt) 2023-11-14
WO2016066743A1 (en) 2016-05-06
US9955276B2 (en) 2018-04-24
RU2017114642A3 (ja) 2019-05-24
JP6640849B2 (ja) 2020-02-05
CN111816194A (zh) 2020-10-23
EP3213323A1 (en) 2017-09-06
JP2020074007A (ja) 2020-05-14
CN107004421B (zh) 2020-07-07

Similar Documents

Publication Publication Date Title
JP7193603B2 (ja) デコーダシステム、復号方法及びコンピュータプログラム
KR102083200B1 (ko) 스펙트럼-도메인 리샘플링을 사용하여 멀티-채널 신호를 인코딩 또는 디코딩하기 위한 장치 및 방법
RU2625444C2 (ru) Система обработки аудио
KR100933548B1 (ko) 비상관 신호의 시간적 엔벨로프 정형화
JP7009437B2 (ja) マルチチャネル・オーディオ信号のパラメトリック・エンコードおよびデコード
JP5185337B2 (ja) レベル・パラメータを生成する装置と方法、及びマルチチャネル表示を生成する装置と方法
JP5191886B2 (ja) サイド情報を有するチャンネルの再構成
CA2597746C (en) Parametric joint-coding of audio sources
KR101795324B1 (ko) 렌더러 제어 공간 업믹스
CN111970629B (zh) 音频解码器和解码方法
JP2016530788A (ja) 符号化表現に基づいて少なくとも4つのオーディオチャネル信号を提供するためのオーディオデコーダ、オーディオエンコーダ、方法、帯域幅拡張を用いた少なくとも4つのオーディオチャネル信号に基づいて符号化表現を提供するための方法およびコンピュータプログラム
JP6732739B2 (ja) オーディオ・エンコーダおよびデコーダ
AU2019216363B2 (en) Audio scene encoder, audio scene decoder and related methods using hybrid encoder/decoder spatial analysis
JP2015525375A (ja) 可変数の受信チャネルに基づくマルチチャネル・オーディオ・レンダリングのためのなめらかな構成切り換え
CA2962806A1 (en) Decoding method and decoder for dialog enhancement
RU2798759C2 (ru) Параметрическое кодирование и декодирование многоканальных аудиосигналов
RU2799737C2 (ru) Устройство повышающего микширования звука, выполненное с возможностью работы в режиме с предсказанием или в режиме без предсказания

Legal Events

Date Code Title Description
A529 Written submission of copy of amendment under article 34 pct

Free format text: JAPANESE INTERMEDIATE CODE: A529

Effective date: 20170524

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181024

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181024

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191127

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191203

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191226

R150 Certificate of patent or registration of utility model

Ref document number: 6640849

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250