JP6797187B2 - オーディオ・デコーダおよびデコード方法 - Google Patents

オーディオ・デコーダおよびデコード方法 Download PDF

Info

Publication number
JP6797187B2
JP6797187B2 JP2018509898A JP2018509898A JP6797187B2 JP 6797187 B2 JP6797187 B2 JP 6797187B2 JP 2018509898 A JP2018509898 A JP 2018509898A JP 2018509898 A JP2018509898 A JP 2018509898A JP 6797187 B2 JP6797187 B2 JP 6797187B2
Authority
JP
Japan
Prior art keywords
signal
audio
low frequency
presentation
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018509898A
Other languages
English (en)
Other versions
JP2018529121A (ja
Inventor
ジェローン ブリーバート,ディルク
ジェローン ブリーバート,ディルク
マシュー クーパー,デイヴィッド
マシュー クーパー,デイヴィッド
ジョナス サミュエルソン,レイフ
ジョナス サミュエルソン,レイフ
Original Assignee
ドルビー ラボラトリーズ ライセンシング コーポレイション
ドルビー ラボラトリーズ ライセンシング コーポレイション
ドルビー・インターナショナル・アーベー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー ラボラトリーズ ライセンシング コーポレイション, ドルビー ラボラトリーズ ライセンシング コーポレイション, ドルビー・インターナショナル・アーベー filed Critical ドルビー ラボラトリーズ ライセンシング コーポレイション
Publication of JP2018529121A publication Critical patent/JP2018529121A/ja
Application granted granted Critical
Publication of JP6797187B2 publication Critical patent/JP6797187B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/308Electronic adaptation dependent on speaker or headphone connection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2460/00Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
    • H04R2460/03Aspects of the reduction of energy consumption in hearing devices
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/07Synergistic effects of band splitting and sub-band processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)

Description

関連出願への相互参照
本願は2015年8月25日に出願された米国仮出願第62/209,742号および2015年10月8日に出願された欧州特許出願第15189008.4号の優先権を主張するものである。各出願の内容はここに参照によってその全体において組み込まれる。
技術分野
本発明は信号処理の分野に関し、特に、空間化成分をもつオーディオ信号の効率的な伝送のためのシステムを開示する。
明細書を通じた背景技術のいかなる議論も、決して、そのような技術が広く知られているまたは当該分野における技術常識の一部をなすことの自認と考えられるべきではない。
オーディオのコンテンツ生成、符号化、頒布および再生は伝統的にチャネル・ベースのフォーマットで実行されている。すなわち、コンテンツ・エコシステムを通じてコンテンツについて一つの特定の目標再生システムが考えられている。そのような目標再生システム・オーディオ・フォーマットの例は、モノ、ステレオ、5.1、7.1などである。
コンテンツが意図されたものとは異なる再生システムで再生される場合、ダウンミックスまたはアップミックス・プロセスが適用されることができる。たとえば、5.1コンテンツは、特定のダウンミックスの式を用いることによって、ステレオ再生システムで再生されることができる。もう一つの例は、ステレオ・エンコードされたコンテンツを7.1スピーカー・セットアップで再生することである。これは、いわゆるアップミックス・プロセスを含んでいてもよく、アップミックスはステレオ信号に存在している情報によって案内されることができることもあるし、またはできないこともある。アップミックス機能をもつ一つのシステムは、ドルビー・ラボラトリーズ社からのドルビー・プロ・ロジックである(非特許文献1)。
ステレオまたはマルチチャネルコンテンツがヘッドフォンで再生されるときは、頭部インパルス応答(HRIR: head-related impulse response)または両耳室内インパルス応答(BRIR: binaural room impulse response)によってマルチチャネル・スピーカー・セットアップをシミュレートすることが望ましいことがしばしばある。HRIRおよびBRIRは、それぞれ(シミュレートされた)無響環境または反響環境における、各ラウドスピーカーから鼓膜までの音響経路をシミュレートする。具体的には、両耳間レベル差(ILD: inter-aural level difference)、両耳間時間差(ITD: inter-aural time difference)およびスペクトル手がかりを復元して、聴取者がそれぞれの個別チャネルの位置を判別できるようにするために、オーディオ信号はHRIRまたはBRIRと畳み込みされることができる。音響環境(残響)のシミュレーションは、ある種の知覚される距離を達成することも助ける。
〈音源定位および仮想スピーカー・シミュレーション〉
ステレオ、マルチチャネルまたはオブジェクト・ベースのコンテンツがヘッドフォンで再生されるとき、頭部インパルス応答(HRIR)または両耳室内インパルス応答(BRIR)によってマルチチャネル・スピーカー・セットアップまたは一組の離散的な仮想音響オブジェクトをシミュレートすることが望ましいことがしばしばある。HRIRおよびBRIRは、それぞれ(シミュレートされた)無響環境または反響環境における、各ラウドスピーカーから鼓膜までの音響経路をシミュレートする。
具体的には、聴取者がそれぞれの個別チャネルまたはオブジェクトの位置を判別できるようにする両耳間レベル差(ILD)、両耳間時間差(ITD)およびスペクトル手がかりを復元するために、オーディオ信号はHRIRまたはBRIRと畳み込みされることができる。音響環境(早期の反射および後期の残響)のシミュレーションは、ある種の知覚される距離を達成することも助ける。
図1に目を転じると、四つのHRIR(たとえば14)による処理のためにコンテンツ記憶部12から読み出される二つのオブジェクトまたはチャネル信号xi 13、11をレンダリングするための処理フローの概略的な概観10が示されている。HRIR出力は次いでそれぞれのチャネル信号について加算され(15、16)、ヘッドフォン18を介した聴取者のための再生のためのヘッドフォン・スピーカー出力を生成する。HRIRの基本原理はたとえば非特許文献2に説明されている。
HRIR/BRIR畳み込み手法にはいくつかの欠点がある。その一つは、ヘッドフォン再生のために必要とされるかなりの処理量である。HRIRまたはBRIR畳み込みは、すべての入力オブジェクトまたはチャネルについて別個に適用される必要があり、よって計算量は典型的にはチャネルまたはオブジェクトの数とともに線形に増大する。ヘッドフォンは典型的にはバッテリー電源のポータブル装置との関連で使われるので、高い計算量は、バッテリー寿命を実質的に縮めるので、望ましくない。さらに、同時にアクティブな100個を超えるオブジェクトを含むことがあるオブジェクト・ベースのオーディオ・コンテンツの導入により、HRIR畳み込みの計算量は、伝統的なチャネル・ベースのコンテンツに対するよりも実質的に高くなることがある。
〈パラメトリック符号化技法〉
計算量は、コンテンツ・オーサリング、配送および再生に関わるエコシステム内でのチャネルまたはオブジェクト・ベースのコンテンツの送達のための唯一の問題ではない。多くの実際的な状況では、特にモバイル用途については、コンテンツ送達のために利用可能なデータ・レートは厳しい制約を受ける。消費者、放送局およびコンテンツ提供者は、48から192kbits/sの間の典型的なビットレートをもつ不可逆な知覚的オーディオ・コーデックを使ってステレオ(二チャネル)オーディオ・コンテンツを送達してきた。これらの通常のチャネル・ベースのオーディオ・コーデック、たとえばMPEG-1レイヤー3(非特許文献6)、MPEG AAC(非特許文献7)およびドルビー・デジタル(非特許文献8)は、チャネル数とともにほぼ線形にスケールするビットレートをもつ。結果として、何十またさらには何百ものオブジェクトの送達は、非実際的な、またさらには消費者送達目的のためには利用可能でないビットレートにつながる。
通常の知覚的オーディオ・コーデックを使ったステレオ・コンテンツ送達のために必要とされるビットレートに匹敵するビットレートで複雑なオブジェクト・ベースのコンテンツの送達を許容するために、いわゆるパラメトリック法が、ここ十年間にわたって研究開発の主題となってきた。これらのパラメトリック法は、比較的少数の基本信号からの多数のチャネルまたはオブジェクトの再構成を許容する。これらの基本信号は、送信側から受信側に伝達するには、通常のオーディオ・コーデックを、もとのオブジェクトまたはチャネルの再構成を許容するための追加的な(パラメトリック)情報で補強したものを使うことができる。そのような技法の例はパラメトリック・ステレオ(非特許文献3)、MPEGサラウンド(非特許文献4)およびMPEG空間的オーディオ・オブジェクト符号化(非特許文献5)である。
パラメトリック・ステレオおよびMPEGサラウンドのような技法の重要な側面は、これらの方法は単一のあらかじめ決定された呈示(たとえばパラメトリック・ステレオではステレオ・ラウドスピーカー、MPEGサラウンドでは5.1スピーカー)のパラメトリックな再構成をねらいとしていることである。MPEGサラウンドの場合、ヘッドフォンのために仮想的な5.1ラウドスピーカー・セットアップを生成するヘッドフォン仮想化器がデコーダに統合されることができる。該仮想的な5.1ラウドスピーカー・セットアップにおいて、仮想5.1スピーカーがラウドスピーカー再生のための5.1ラウドスピーカー・セットアップに対応する。結果として、ヘッドフォン呈示はラウドスピーカー呈示と同じ(仮想)ラウドスピーカー・レイアウトを表わすという点で、これらの呈示は独立ではない。他方、MPEG空間的オーディオ・オブジェクト符号化は、その後のレンダリングを必要とするオブジェクトの再構成をねらいとしている。
ここで図2に目を転じると、チャネルおよびオブジェクトをサポートするパラメトリック・システム20が概観として記載されている。システムはエンコーダ21およびデコーダ22部分に分割される。エンコーダ21はチャネルおよびオブジェクト23を入力として受け取り、限られた数の基本信号をもつダウンミックス24を生成する。さらに、一連のオブジェクト/チャネル再構成パラメータ25が計算される。信号エンコーダ26はダウンミックス器24からの基本信号をエンコードし、計算されたパラメータ25と、オブジェクトがどのようにレンダリングされるべきかを示すオブジェクト・メタデータ27とを結果として生じるビットストリームに含める。
デコーダ22はまず基本信号をデコードし(29)、続いて、伝送された再構成パラメータ31を援用してチャネルおよび/またはオブジェクト再構成30を行なう。結果として得られる信号は、(チャネルであれば)直接再生でき、あるいは(オブジェクトであれば)レンダリング32されることができる。後者については、それぞれの再構成されたオブジェクト信号は、その関連付けられたオブジェクト・メタデータに従ってレンダリングされる。そのようなメタデータの一例は、位置ベクトルである(たとえば、三次元座標系におけるオブジェクトのx,y,z座標)。
〈デコーダにおける行列処理〉
オブジェクトおよび/またはチャネル再構成30は、時間および周波数によって変化する行列演算によって達成できる。デコードされた基本信号35をzs[n]と記し、sは基本信号インデックス、nはサンプル・インデックスとすると、第一段階は典型的には、変換またはフィルタバンクによる基本信号の変換を含む。
幅広い多様な変換およびフィルタバンクを使うことができる。たとえば、離散フーリエ変換(DFT)、修正離散コサイン変換(MDCT)または直交ミラーフィルタ(QMF)バンクである。そのような変換またはフィルタバンクの出力はZs[k,b]と記され、bはサブバンドまたはスペクトル・インデックスであり、kはフレーム、スロットまたはサブバンド時間もしくはサンプルのインデックスである。
たいていの場合、サブバンドまたはスペクトル・インデックスは、共通のオブジェクト/チャネル再構成パラメータを共有するパラメータ・バンド(parameter band)pからなる、より小さな集合にマッピングされる。これはb∈B(p)によって表わせる。換言すれば、B(p)は、パラメータ・バンド・インデックスpに属する連続する諸サブバンドbの集合を表わす。逆に、p(b)は、サブバンドbがマッピングされたパラメータ・バンド・インデックスpを指す。すると、サブバンドまたは変換領域の再構成されたチャネルまたはオブジェクト〔^付きのYJ〕は信号Ziを行列M[p(b)]で行列処理することによって得られる。

その後、逆変換または合成フィルタバンクによって、時間領域の再構成されたチャネルおよび/またはオブジェクト信号yj[n]が得られる。
上記のプロセスは典型的には、ある限られた範囲のサブバンド・サンプル、スロットまたはフレームkに適用される。換言すれば、行列M[p(b)]は典型的には時間とともに更新/修正される。記法の簡単のため、これらの更新はここでは記さないが、行列M[p(b)]に関連付けられたサンプルkの集合の処理は時間可変のプロセスでありうると考えられる。
再構成される信号の数Jが基本信号Sの数より有意に多いいくつかの場合には、一つまたは複数の基本信号に作用する任意的な脱相関器出力Dm[k,b]を使うことがしばしば助けになる。それは再構成された出力信号に含められることができる。
図3は、図2のチャネルまたはオブジェクト再構成ユニット30の一つの形のさらなる詳細を概略的に示している。入力信号35はまず分解フィルタバンク41によって処理され、それに任意的な脱相関(D1、D2)44および行列処理42および合成フィルタバンク43が続く。行列M[p(b)]操作は、再構成パラメータ31によって制御される。
〈オブジェクト/チャネル再構成のための最小平均平方誤差(MMSE)予測〉
基本信号Zs[k,b]の集合からオブジェクトまたはチャネルを再構成するためには種々の戦略および方法が存在するが、一つの具体的な方法は、しばしば最小平均平方誤差(MMSE: minimum mean square error)予測器と称される。これは、所望される信号と再構成される信号との間のL2ノルムを最小にする行列係数Mを導出するために相関および共分散行列を使う。この方法のためには、基本信号zs[n]はエンコーダのダウンミックス器24において、入力オブジェクトまたはチャネル信号xi[n]の線形結合として生成される。
チャネル・ベースの入力コンテンツについては振幅パン利得(amplitude panning gain)gi,sは典型的には一定であり、一方、オブジェクトの意図される位置が時間変化するオブジェクト・メタデータによって提供されるオブジェクト・ベースのコンテンツについては、利得gi,sは結果として時間可変であることができる。この式は、変換領域またはサブバンド領域で定式化されることもでき、その場合、利得gi,s[k]の集合は周波数ビン/バンドk毎に使われ、よって、利得gi,s[k]は周波数可変にされる。
デコーダ行列42は、当面脱相関器を無視すると、次式を生じる。
あるいは行列形式では、明確のためにサブバンド・インデックスbおよびパラメータ・バンド・インデックスpを省くと、
Y=ZM
Z=XG
となる。
エンコーダによって行列係数Mを計算するための基準は、デコーダ出力〔^付きのYj〕ともとの入力オブジェクト/チャネルXjとの間の平方誤差を表わす平均平方誤差Eを最小化することである。
Eを最小にする行列係数は次いで、行列記法において、次式で与えられる。
M=(Z*Z+εI)-1Z*X
ここで、εは正則化定数であり、*は複素共役転置演算子である。この演算は、各パラメータ・バンドbについて独立に実行されて、行列M[p(b)]を生じることができる。
〈表現変換のための最小平均平方誤差(MMSE)予測〉
オブジェクトおよび/またはチャネルの再構成のほか、パラメトリック技法は、ある表現を別の表現に変換するために使用できる。そのような表現変換の例は、ラウドスピーカー再生のために意図されたステレオ混合をヘッドフォンのためのバイノーラル表現に変換したり、その逆の変換をしたりするために使用できる。
図4は、一つのそのような表現変換のための方法50についての制御フローを示している。オブジェクトまたはチャネル・オーディオはまず、エンコーダ52において、ハイブリッド直交ミラーフィルタ分解バンク54によって処理される。ラウドスピーカー・レンダリング行列Gが、振幅パン技法を使ってオブジェクト・メタデータに基づいて計算されて、記憶媒体51に記憶されているオブジェクト信号Xiに適用55されて、ステレオ・ラウドスピーカー呈示Zsを与える。このラウドスピーカー呈示は、オーディオ符号化器57を用いてエンコードされることができる。
さらに、バイノーラル・レンダリング行列Hが、HRTFデータベース59を使って生成され、適用される(58)。この行列Hはバイノーラル信号Yjを計算するために使われる。これは、ステレオ・ラウドスピーカー混合を入力として使ってバイノーラル混合の再構成を許容する。行列係数Mはオーディオ・エンコーダ57によってエンコードされる。
伝送される情報は、エンコーダ52からデコーダ53に伝送されて、デコーダにおいて、成分MおよびZsを含むようアンパック61される。再生システムとしてラウドスピーカーが使われる場合、ラウドスピーカー呈示はチャネル情報Zsを使って再生され、よって行列係数Mは破棄される。他方、ヘッドフォン再生のためには、ハイブリッドQMF合成および再生60の前に時間および周波数によって変化する行列Mを適用することによって、ラウドスピーカー呈示がまずバイノーラル呈示に変換62される。
行列処理要素62からの所望されるバイノーラル出力を行列記法で
Y=XH
と書く場合、行列係数Mはエンコーダ52において、
M=(G*X*XG+εI)-1G*X*XH
によって得ることができる。
この応用では、58で適用されるエンコーダ行列Hの係数は典型的には複素数値であり、たとえば、遅延または位相修正要素をもち、ヘッドフォンでの音源定位のために知覚的に非常に重要になる両耳間時間差の復元を許容する。換言すれば、バイノーラル・レンダリング行列Hは複素数値であり、よって変換行列Mは複素数値である。音源定位手がかりの知覚的に透明な復元のために、人間の聴覚系の周波数分解能を模倣する周波数分解能が望ましいことが示されている(非特許文献11)。
上記の諸セクションでは、行列係数Mを決定するために最小平均平方誤差基準が用いられている。一般性を失うことなく、行列係数を計算するための他のよく知られた基準または方法が、最小平均平方誤差原理を置換または補強するために、同様に使用されることができる。たとえば、行列係数Mは高次の誤差項を使って、あるいはL1ノルムの最小化(たとえば最小絶対偏差基準)によって、計算されることができる。さらに、非負因子分解または最適化技法、非パラメトリック推定器、最大尤度推定器などを含むさまざまな方法を用いることができる。さらに、行列係数は、逐次反復的または勾配降下プロセス、補間法、発見的方法、動的計画法、機械学習、ファジー最適化、シミュレーテッドアニーリングまたは閉じた形の解を使って計算されてもよく、「合成による分析」技法が使われてもよい。最後だがこれに劣らず重要なこととして、行列係数推定は、さまざまな仕方で制約されてもよい。たとえば、値の範囲の制限、正則化項、エネルギー保存要求の重ね合わせなどによって制約されてもよい。
〈変換およびフィルタバンク要件〉
用途およびオブジェクトまたはチャネルのどちらが再構成されるかに依存して、図3のフィルタバンク・ユニット41のための変換またはフィルタバンク周波数分解能に対してある種の要件が課されることがある。たいていの実際的な用途では、所与のビットレート(パラメータの数によって決まる)および計算量について最良の知覚されるオーディオ品質を与えるために、周波数分解能は人間の聴覚系の想定される分解能に合わせられる。人間の聴覚系は非線形な周波数分解能をもつフィルタバンクと考えられることがわかっている。これらのフィルタは臨界帯域と称され(非特許文献9)、ほぼ対数的な性質である。低周波数では、臨界帯域は100Hzより小さい幅であり、一方、高周波数では、臨界帯域は1kHzより広いことがある。
フィルタバンク設計になると、この非線形な挙動が課題を呈することがある。周波数分解能が周波数を通じて一定であれば、変換およびフィルタバンクは、その処理構造における対称性を使って非常に効率的に実装できる。
このことは、変換長さまたはサブバンドの数が低周波数における臨界帯域幅によって決定され、非線形な周波数分解能を模倣するために、DFTビンの、いわゆるパラメータ・バンドへのマッピングが用いられることができることを含意する。そのようなマッピング・プロセスはたとえば非特許文献10および非特許文献11において説明されている。この手法の一つの欠点は、高周波数において変換が比較的長い(または非効率的)である一方、低周波数臨界帯域幅制約条件を満たすために非常に長い変換が要求されるということである。低周波数での周波数分解能を高める代替的な解決策は、ハイブリッド・フィルタバンク構造を使うことである。そのような構造では、二つのフィルタバンクのカスケードが用いられ、第二のフィルタバンクが第一のフィルタバンクの分解能を高める。ただし、高めるのは、最も低いいくつかのサブバンドにおいてのみである(非特許文献3)。
図5は、非特許文献3に記載されているのと同様のハイブリッド・フィルタバンク構造41の一つの形を示している。入力信号z[n]はまず複素数値の直交ミラーフィルタ分解バンク(CQMF)71によって処理される。その後、信号は因子Q、たとえば72によってダウンサンプリングされ、サブバンド信号Z[k,b]を与える。ここで、kはサブバンド・サンプル・インデックスであり、bはサブバンド周波数インデックスである。さらに、結果として得られるサブバンド信号の少なくとも一つは第二の(ナイキスト)フィルタバンク74によって処理される。一方、残りのサブバンド信号は、ナイキスト・フィルタバンクによって導入される遅延を補償するために遅延75させられる。この具体例においては、フィルタバンクのカスケードは8個のサブバンド(b=1,…,8)を与え、これらは非線形な周波数分解能をもつ6個のパラメータ・バンドp=1,…,6にマッピングされる。一緒に併合されるバンド76が単一のパラメータ・バンド(p=6)をなす。
この手法の恩恵は、ずっと多くの(より狭い)サブバンドをもつ単一のフィルタバンクを使うことに比べて低い計算量である。しかしながら、欠点は、全体的なシステムの遅延が有意に増し、結果として、メモリ使用も有意に高くなり、電力消費が増すことである。
〈従来技術の限界〉
図4に戻ると、従来技術は、チャネル、オブジェクトまたは呈示信号〔^付きのYJ〕を基本信号Zsの集合から再構成するために、可能性としては脱相関器の使用により補強された、行列処理62の概念を利用していることがわかる。これは、従来技術を一般的な仕方で記述する次の行列定式化につながる。
行列係数Mはエンコーダからデコーダに直接伝送されるか、あるいはたとえばパラメトリック・ステレオ符号化について非特許文献10に、あるいはマルチチャネル復号について非特許文献4に記載されるように、音源定位パラメータから導出される。さらに、この手法は、複素数値の行列係数を使うことによって、チャネル間位相差を復元するために使うこともできる(非特許文献11、非特許文献12参照)。
図6に示されるように、実際上、複素数値の行列係数を使うことは、所望される遅延80が区分ごとに一定の位相近似81によって表わされることを含意する。所望される位相応答が、周波数とともに線形に減少する位相(破線)をもつ純粋な遅延80であると想定すると、従来技術の複素数値の行列処理演算は、区分ごとに一定の近似81(実線)を与える。この近似は、行列Mの分解能を増すことによって改善できるが、これは二つの重要な欠点がある。フィルタバンクの分解能の増大を要求し、より高いメモリ使用、より高い計算量、より長いレイテンシー、よってより高い電力消費を引き起こす。それはまた、より多くのパラメータを送ることも要求し、より高いビットレートを引き起こす。
これらすべての欠点は、モバイルかつバッテリー電力の装置にとっては特に問題である。より最適な解決策が利用可能であれば有利であろう。
Roger Dressler, "Dolby Pro Logic Surround Decoder, Principles of Operation", www.Dolby.com Wightman, F. L., and Kistler, D. J. (1989)、"Headphone simulation of free-field listening. I. Stimulus synthesis," J. Acoust. Soc. Am. 85, 858−867 Schuijers, Erik, et al. (2004)、"Low complexity parametric stereo coding." Audio Engineering Society Convention 116. Audio Engineering Society Herre, J., Kjorling, K., Breebaart, J., Faller, C., Disch, S., Purnhagen, H., ... & Chong, K. S. (2008)、MPEG surround-the ISO/MPEG standard for efficient and compatible multichannel audio coding. Journal of the Audio Engineering Society, 56(11), 932-955 Herre, J., Purnhagen, H., Koppens, J., Hellmuth, O., Engdegard, J., Hilpert, J., & Oh, H. O. (2012)、MPEG Spatial Audio Object Coding−the ISO/MPEG standard for efficient coding of interactive audio scenes. Journal of the Audio Engineering Society, 60(9), 655-673 Brandenburg, K., & Stoll, G. (1994)、ISO/MPEG-1 audio: A generic standard for coding of high-quality digital audio. Journal of the Audio Engineering Society, 42(10), 780-792 Bosi, M., Brandenburg, K., Quackenbush, S., Fielder, L., Akagiri, K., Fuchs, H., & Dietz, M. (1997)、ISO/IEC MPEG-2 advanced audio coding. Journal of the Audio engineering society, 45(10), 789-814 Andersen, R. L., Crockett, B. G., Davidson, G. A., Davis, M. F., Fielder, L. D., Turner, S. C., ... & Williams, P. A. (2004, October)、Introduction to Dolby digital plus, an enhancement to the Dolby digital coding system. In Audio Engineering Society Convention 117. Audio Engineering Society Zwicker, E. (1961)、Subdivision of the audible frequency range into critical bands (Frequenzgruppen). The Journal of the Acoustical Society of America, (33 (2)), 248 Breebaart, J., van de Par, S., Kohlrausch, A., & Schuijers, E. (2005). Parametric coding of stereo audio. EURASIP Journal on Applied Signal Processing, 2005, 1305-1322 Breebaart, J., Nater, F., & Kohlrausch, A. (2010)、Spectral and spatial parameter resolution requirements for parametric, filter-bank-based HRTF processing. Journal of the Audio Engineering Society, 58(3), 126-140 Breebaart, J., van de Par, S., Kohlrausch, A., & Schuijers, E. (2005). Parametric coding of stereo audio. EURASIP Journal on Applied Signal Processing, 2005, 1305-1322
種々の呈示における再生のためのオーディオ信号のエンコードおよびデコードの改善された形を提供することが、好ましい形態における本発明の目的である。
本発明の第一の側面によれば、オーディオ・チャネルまたはオブジェクトの第二の呈示をデータ・ストリームとして表現するための方法であって:(a)前記オーディオ・チャネルまたはオブジェクトの第一の呈示を表わす基本信号の集合を提供する段階と;(b)前記第一の呈示を前記第二の呈示に変換することを意図されている変換パラメータの集合を提供する段階とを含み、前記変換パラメータはさらに、少なくとも二つの周波数帯域について指定され、前記周波数帯域のうち少なくとも一つのためのマルチタップ畳み込み行列パラメータの集合を含む、方法が提供される。
フィルタ係数の前記集合は、有限インパルス応答(FIR)フィルタを表わすことができる。基本信号の前記集合は好ましくは、一連の時間的セグメントに分割され、それぞれの時間的セグメントについて、変換パラメータの集合が提供される。フィルタ係数は、複素数値であることができる少なくとも一つの係数を含むことができる。前記第一の呈示または前記第二の呈示は、ヘッドフォン再生のために意図されることができる。
いくつかの実施形態では、より高い周波数に関連付けられた変換パラメータは信号位相を修正しない。一方、より低い周波数については、変換パラメータは信号位相を修正する。フィルタ係数の前記集合は、好ましくは、マルチタップ畳み込み行列を処理するために機能できる。フィルタ係数の前記集合は好ましくは、低周波数帯域を処理するために利用されることができる。
基本信号の前記集合および変換パラメータの前記集合は好ましくは、組み合わされて前記データ・ストリームを形成する。変換パラメータは、基本信号の前記集合の高周波数部分の行列操作のための高周波数オーディオ行列係数を含むことができる。いくつかの実施形態では、基本信号の前記集合の前記高周波数部分のうち中間周波数部分のために、前記行列操作は好ましくは複素数値の変換パラメータを含むことができる。
本発明のさらなる側面によれば、エンコードされたオーディオ信号をデコードするためのデコーダであって、前記エンコードされたオーディオ信号は:第一のオーディオ呈示フォーマットにおける前記オーディオの再生のために意図されたオーディオ基本信号の集合を含む第一の呈示と;前記第一の呈示フォーマットにおける前記オーディオ基本信号を第二の呈示フォーマットに変換するための変換パラメータの集合とを含み、前記変換パラメータは、少なくとも高周波数オーディオ変換パラメータおよび低周波数オーディオ変換パラメータを含み、前記低周波数変換パラメータはマルチタップ畳み込み行列パラメータを含み、当該デコーダは:オーディオ基本信号の前記集合および変換パラメータの前記集合を分離するための第一分離ユニットと、前記マルチタップ畳み込み行列パラメータを前記オーディオ基本信号の低周波数成分に適用して低周波数成分に畳み込みを適用して、畳み込みされた低周波数成分を生成するための行列乗算ユニットと、前記高周波数オーディオ変換パラメータを前記オーディオ基本信号の高周波数成分に適用してスカラー高周波数成分を生成するためのスカラー乗算ユニットと;前記畳み込みされた低周波数成分および前記スカラー高周波数成分を組み合わせるための出力フィルタバンクであって、前記第二の呈示フォーマットにおける時間領域出力信号を生成する出力フィルタバンクとを含む、デコーダが提供される。
前記行列乗算ユニットは、前記オーディオ基本信号の低周波数成分の位相を修正することができる。いくつかの実施形態では、前記マルチタップ畳み込み行列変換パラメータは、好ましくは複素数値である。前記高周波数オーディオ変換パラメータも好ましくは複素数値である。変換パラメータの前記集合はさらに、実数値の、より高周波数のオーディオ変換パラメータを含むことができる。いくつかの実施形態では、当該デコーダはさらに、前記オーディオ基本信号を前記低周波数成分および前記高周波数成分に分離するためのフィルタを含むことができる。
本発明のさらなる側面によれば、エンコードされたオーディオ信号をデコードする方法であって、前記エンコードされたオーディオ信号は:第一のオーディオ呈示フォーマットにおける前記オーディオの再生のために意図されたオーディオ基本信号の集合を含む第一の呈示と;前記第一の呈示フォーマットにおける前記オーディオ基本信号を第二の呈示フォーマットに変換するための変換パラメータの集合とを含み、前記変換パラメータは、少なくとも高周波数オーディオ変換パラメータおよび低周波数オーディオ変換パラメータを含み、前記低周波数変換パラメータはマルチタップ畳み込み行列パラメータを含み、当該方法は:前記オーディオ基本信号の低周波数成分を前記低周波数変換パラメータと畳み込みして、畳み込みされた低周波数成分を生成する段階と;前記高周波数変換パラメータを前記オーディオ基本信号の高周波数成分に乗算して、乗算された高周波数成分を生成する段階と;前記畳み込みされた低周波数成分および前記乗算された高周波数成分を組み合わせて、第二の呈示フォーマットでの再生のための出力オーディオ信号周波数成分を生成する段階とを含む、方法が提供される。
いくつかの実施形態では、前記エンコードされた信号は複数の時間的セグメントを含むことができ、当該方法はさらに、好ましくは:前記エンコードされた信号の複数の時間的セグメントの変換パラメータを補間して、補間された低周波数オーディオ変換パラメータを含む補間された変換パラメータを生成する段階と;前記オーディオ基本信号の前記低周波数成分の複数の時間的セグメントを前記補間された低周波数オーディオ変換パラメータと畳み込みして、前記畳み込みされた低周波数成分の複数の時間的セグメントを生成する段階とを含むことができる。
前記エンコードされたオーディオ信号の変換パラメータの前記集合は、好ましくは時間変化することができ、当該方法はさらに:複数の時間的セグメントについて前記低周波数成分を前記低周波数変換パラメータと畳み込みして、中間の畳み込みされた低周波数成分の複数の集合を生成する段階と;中間の畳み込みされた低周波数成分の前記複数の集合を補間して、前記畳み込みされた低周波数成分を生成する段階とを含むことができる。
前記補間は、中間の畳み込みされた低周波数成分の前記複数の集合の重複加算方法を利用することができる。
本発明の実施形態について、これから単に例として、付属の図面を参照して述べる。
二つの源オブジェクトについてHRIR畳み込みプロセスの概略的な概観を示す図である。各チャネルまたはオブジェクトは一対のHRIR/BRIRによって処理される。 チャネルおよびオブジェクトをサポートする一般的なパラメトリック符号化システムを概略的に示す図である。 図2のチャネルまたはオブジェクト再構成ユニット30のさらなる詳細の一つの形を概略的に示す図である。 ステレオ・ラウドスピーカー呈示をバイノーラル・ヘッドフォン呈示に変換する方法のデータの流れを示す図である。 従来技術に基づくハイブリッド分解フィルタバンク構造を概略的に示す図である。 所望される位相応答(破線)と従来技術で得られる実際の位相応答(実線)の比較を示す図である。 本発明のある実施形態に基づく例示的なエンコーダ・フィルタバンクおよびパラメータ・マッピング・システムを概略的に示す図である。 ある実施形態に基づくデコーダ・フィルタバンクおよびパラメータ・マッピングを概略的に示す図である。 ステレオからバイノーラル呈示への変換のためのエンコーダを示す図である。 ステレオからバイノーラル呈示への変換のためのデコーダを概略的に示す図である。
この好ましい実施形態は、オブジェクト、チャネルまたは「呈示」を、基本信号の集合から再構成する方法を提供する。これは、低い周波数分解能をもつフィルタバンクにおいて適用されることができる。一例は、ステレオ呈示の、ヘッドフォン再生のために意図されたバイノーラル呈示への変換である。これは、ナイキスト(ハイブリッド)フィルタバンクなしに適用できる。低減されたデコーダ周波数分解能は、マルチタップ畳み込み行列によって埋め合わされる。この畳み込み行列は少数のタップ(たとえば二つ)を必要とするだけであり、実際的な場合においては、低周波数において要求されるのみである。この方法は、(1)デコーダの計算量を低減するとともに、(2)デコーダのメモリ使用を低減し、(3)パラメータ・ビットレートを低減する。
好ましい実施形態では、望ましくないデコーダ側の計算量およびメモリ要求を克服するためのシステムおよび方法が提供される。これは、エンコーダにおいて高周波数分解能を提供し、デコーダでは制約された(より低い)周波数分解能を利用し(たとえば対応するエンコーダで使われたものより有意に悪い周波数分解能を使う)、低下したデコーダ周波数分解能を補償するためにマルチタップ(畳み込み)行列を利用することによって実施される。
典型的には、高周波数行列分解能が要求されるのは低周波数においてだけなので、低周波数ではマルチタップ(畳み込み)行列を使うことができ、残りの(より高い)周波数については通常の(ステートレスな(stateless))行列を使うことができる。換言すれば、低周波数では、行列は入力および出力のそれぞれの組み合わせに対して機能するFIRフィルタの集合を表わし、一方、高周波数ではステートレスな行列が使われる。
〈エンコーダ・フィルタバンクおよびパラメータ・マッピング〉
図7は、ある実施形態に基づく例示的なエンコーダ・フィルタバンクおよびパラメータ・マッピング・システムを示している(90)。この例示的実施形態90では、8個のサブバンド(b=1,…,8)、たとえば91が、初期にハイブリッド(カスケード式)フィルタバンク92およびナイキスト・フィルタバンク93によって生成される。その後、畳み込み行列M[k,p=1]を計算するために、最初の四つのサブバンドが同一のパラメータ・バンド(p=1)にマッピングされる(94)。たとえば、行列は今、追加的なインデックスkをもつ。残りのサブバンド(b=5,…,8)は、ステートレスな行列M[p(b)]95、96を使うことによって、パラメータ・バンド(p=2,3)にマッピングされる。
〈デコーダ・フィルタバンクおよびパラメータ・マッピング〉
図8は、対応する例示的デコーダ・フィルタバンクおよびパラメータ・マッピング・システム100を示している。エンコーダとは対照的に、ナイキスト・フィルタバンクは存在せず、ナイキスト・フィルタバンク遅延を補償するための遅延も全くない。デコーダ分解フィルタバンク101は5個のサブバンド(b=1,…,5)、たとえば102のみを生成する。これらは因子Qによってダウンサンプリングされる。最初のサブバンドは畳み込み行列M[k,p=1] 103によって処理され、一方、残りのバンドは従来技術に従ってステートレスな行列104、105によって処理される。
上記の例では、エンコーダ90においてナイキスト・フィルタバンクの適用およびデコーダ100における対応する畳み込み行列の適用は、最初のCQMFサブバンドについてだけだが、同じプロセスは、必ずしも最低のサブバンド(単数または複数)のみに限定されない多数のサブバンドに適用されることができる。
〈エンコーダ実施形態〉
特に有用な一つの実施形態は、ラウドスピーカー呈示のバイノーラル呈示への変換におけるものである。図9は、呈示変換のための提案される方法を使うエンコーダ110を示している。入力チャネルまたはオブジェクトxi[n]の集合がまずフィルタバンク111を使って変換される。フィルタバンク111はハイブリッド複素直交ミラーバンク(HCQMF)であるが、他のフィルタバンク構造も等しく使用できる。結果として得られるサブバンド表現Xi[k,b]は二度処理される(112、113)。
第一に(113)、エンコーダの出力のために意図された基本信号Zs[k,b] 113の集合を生成する。この出力はたとえば、結果として得られる信号がラウドスピーカー再生のために意図されるよう、振幅パン技法を使って生成されることができる。
第二に(112)、所望される変換された信号Yj[k,b] 112の集合を生成する。この出力はたとえば、結果として得られる信号がヘッドフォン再生のために意図されるよう、HRIR処理を使って生成されることができる。そのようなHRIR処理はフィルタバンク領域で用いられてもよいが、HRIR畳み込みよって時間領域で実行されることも等しく可能である。HRIRはデータベース114から得られる。
畳み込み行列M[k,p]はその後、基本信号Zs[k,b]をタップのある遅延線116を通じて供給することによって得られる。遅延線の各タップは、MMSE予測器段115への追加的な入力のはたらきをする。このMMSE予測器段は、所望される変換された信号Yj[k,b]と、畳み込み行列を適用する図8のデコーダ100の出力との間の誤差を最小化する畳み込み行列M[k,p]を計算する。すると、行列係数M[k,p]は
M=(Z*Z+εI)-1Z*Y
によって与えられる。この定式化では、行列Zはタップのある遅延線のすべての入力を含む。
タップされる遅延線からのA個の入力がある場合の、所与のサブバンドbについての前記一つの信号〔^付きのY[k]〕の再構成についての事例をまず考えると、次のようになる。
結果として得られる畳み込み行列係数M[k,p]は量子化され、エンコードされ、基本信号zs[n]と一緒に送信される。すると、デコーダは、入力信号Zs[k,b]から^付きのY[k,b]を再構成するために畳み込みプロセスを使うことができる。
あるいは、畳み込み表現を使って書き換えることができる。
畳み込み手法は、線形(ステートレス)行列プロセスと混合されることができる。
複素数値と実数値のステートレスな行列処理の間でさらなる区別をすることができる。低周波数(典型的には1kHzより下)では、畳み込みプロセス(A>1)は、知覚的な周波数スケールと揃ったチャネル間属性の正確な再構成を許容するために好ましい。約2または3kHzまでの中間周波数では、人間の聴覚系はチャネル間位相差に敏感だが、そのような位相の再構成のためのそれほど高い周波数分解能は必要としない。これは、単一タップ(ステートレス)の複素数値の行列で十分であることを含意する。より高い周波数については、人間の聴覚系は、波形の微細構造位相は事実上感じることがなく、実数値のステートレスな行列処理で十分である。人間の聴覚系の非線形な周波数分解能を反映して、周波数が増すと、一つのパラメータ・バンドにマッピングされるフィルタバンク出力の数が典型的には増す。
もう一つの実施形態では、エンコーダにおける第一および第二の呈示が交換される。たとえば、第一の呈示はヘッドフォン再生のために意図され、第二の呈示はラウドスピーカー再生のために意図される。この実施形態では、ラウドスピーカー呈示(第二の呈示)は、少なくとも二つの周波数帯域における時間依存の変換パラメータを第一の呈示に適用することによって生成される。ここで、変換パラメータは、前記周波数帯域の少なくとも一つについてのフィルタ係数の集合を含むものとして指定される。
いくつかの実施形態では、第一の呈示は時間的に一連のセグメントに分割され、各セグメントについて変換パラメータの別個の行列がある。あるさらなる洗練では、セグメント変換パラメータが利用可能でない場合、パラメータは以前の係数から補間されることができる。
〈デコーダ実施形態〉
図10は、デコーダ120の実施形態を示している。入力ビットストリーム121は基本信号ビットストリーム131と変換パラメータ・データ124に分割される。その後、基本信号デコーダ123は基本信号z[n]をデコードする。それはその後、分解フィルタバンク125によって処理される。サブバンドb=1,…,5をもつ、結果として得られる周波数領域信号Z[k,b]は、行列乗算ユニット126、129および130によって処理される。具体的には、行列乗算ユニット126は複素数値の畳み込み行列M[k,p=1]を周波数領域信号Z[k,b=1]に適用する。さらに、行列乗算ユニット129は複素数値の単一タップの行列係数M[p=2]を信号Z[k,b=2]に適用する。最後に、行列乗算ユニット130は実数値の行列係数M[p=3]を周波数領域信号Z[k,b=3,…5]に適用する。行列乗算ユニット出力信号は、合成フィルタバンク127によって時間領域出力128に変換される。z[n]、Z[k]などへの言及は、いかなる特定の基本信号でもなく、基本信号の集合を指す。よって、z[n]、Z[k]などはzs[n]、Zs[k]などとして解釈されてもよい。ここで、0≦s<Nであり、Nは基本信号の数である。
換言すれば、行列乗算ユニット126は、出力信号〔^付きのYj[k]〕のサブバンドb=1の出力サンプルを、基本信号Z[k]のサブバンドb=1の現在の諸サンプルと基本信号Z[k]のサブバンドb=1の以前の諸サンプル(たとえば、Z[k−a]、ここで0<a<Aであり、Aは1より大きい)との重み付けされた組み合わせから、決定する。出力信号〔^付きのYj[k]〕のサブバンドb=1の出力サンプルを決定するために使われる重みは、信号についての複素数値の畳み込み行列M[k,p=1]に対応する。
さらに、行列乗算器ユニット129は、出力信号〔^付きのYj[k]〕のサブバンドb=2の出力サンプルを、基本信号Z[k]のサブバンドb=2の現在の諸サンプルの重み付けされた組み合わせから決定する。出力信号〔^付きのYj[k]〕のサブバンドb=2の出力サンプルを決定するために使われる重みは、複素数値の単一タップの行列係数M[p=2]に対応する。
最後に、行列乗算器ユニット130は、出力信号〔^付きのYj[k]〕のサブバンドb=3,…5の出力サンプルを、基本信号Z[k]のサブバンドb=3,…,5の現在の諸サンプルの重み付けされた組み合わせから決定する。出力信号〔^付きのYj[k]〕のサブバンドb=3,…,5の出力サンプルを決定するために使われる重みは、実数値の行列係数M[p=3]に対応する。
いくつかの場合には、基本信号デコーダ123は、分解フィルタバンク125によって与えられるのと同じ周波数分解能で信号に対して作用する。そのような場合、基本信号デコーダ125は、時間領域信号z[n]ではなく周波数領域信号Z[k]を出力するよう構成されてもよい。その場合、分解フィルタバンク125は省略されてもよい。さらに、いくつかの事例では、実数値の行列係数の代わりに複素数値の単一タップ行列係数を周波数領域信号Zs[k,b=3,…,5]に適用することが好ましいことがある。
実際上は、行列係数Mは時間とともに更新されることができる。これはたとえば、基本信号の個々のフレームを、行列係数Mに関連付けることによる。代替的または追加的に、行列係数Mはタイムスタンプを加えられてもよい。タイムスタンプは、基本信号z[n]のどの時刻または区間において行列が適用されるべきかを示す。行列更新に伴う伝送ビットレートを減らすために、更新の数は理想的には制限され、その結果、時間的に疎な行列更新分布となる。行列のそのような低頻度の更新は、行列のあるインスタンスから次のインスタンスにかけてのなめらかな遷移を保証するために、専用の処理を必要とする。行列Mは、基本信号Zの特定の時間セグメント(フレーム)および/または周波数領域に関連して提供されてもよい。デコーダは、時間を追っての行列Mのその後のインスタンスからのなめらかな遷移を保証するために、多様な補間方法を用いてもよい。そのような補間方法の一例は、信号Zの重なり合う窓処理されたフレームを計算し、そのような各フレームについて出力信号Yの対応する集合を、その特定のフレームに関連付けられた行列係数Mを使って計算することである。すると、その後の諸フレームは、重複加算技法を使ってまとめられ、クロスフェードする遷移を提供することができる。あるいはまた、デコーダは、行列Mに関連付けられたタイムスタンプを受け取ってもよい。これは、特定の時点における所望される行列係数を記述する。タイムスタンプとタイムスタンプの中間のオーディオ・サンプルについては、行列Mの行列係数は、なめらかな遷移を保証するために、線形、三次、帯域制限されたまたは他の補間手段を使って補間されてもよい。時間を通じた補間のほかに、同様の技法は周波数を通じて行列係数を補間するために使われてもよい。
よって、本稿は、オーディオ・チャネルまたはオブジェクトXiの第二の呈示を、対応するデコーダ100に伝送または提供されるデータ・ストリームとして表現するための方法(および対応するエンコーダ90)を記載する。本方法は、前記オーディオ・チャネルまたはオブジェクトXiの第一の呈示を表わす基本信号Zsを提供する段階を含む。上記で概説したように、基本信号Zsは、オーディオ・チャネルまたはオブジェクトXiから、第一のレンダリング・パラメータGを使って決定されてもよい。第一の呈示は、ラウドスピーカー再生のためまたはヘッドフォン再生のために意図されていてもよい。他方、第二の再生はヘッドフォン再生のためまたはラウドスピーカー再生のために意図されていてもよい。よって、ラウドスピーカー再生からヘッドフォン再生への(またはその逆の)変換が実行されうる。
本方法はさらに、前記第一の呈示の基本信号Zsを前記第二の呈示の出力信号〔^付きのYj〕に変換することを意図されている変換パラメータM(特に一つまたは複数の変換行列)を提供することを含む。変換パラメータは、本稿で概説されているようにして決定されてもよい。具体的には、第二の呈示についての所望される出力信号Yjがオーディオ・チャネルまたはオブジェクトXiから、第二のレンダリング・パラメータHを使って(本稿で概説されているようにして)決定されてもよい。変換パラメータMは、(たとえば最小平均平方誤差基準を使って)前記出力信号〔^付きのYj〕の、前記所望される出力信号Yjからの偏差を最小化することによって決定されてもよい。
より具体的には、変換パラメータMはサブバンド領域で(すなわち異なる周波数帯域について)決定されてもよい。この目的のために、サブバンド領域の基本信号Z[k,b]が、B個の周波数帯域について、エンコーダ・フィルタバンク92、93を使って決定されてもよい。周波数帯域の数Bは1より多く、たとえばBは4、6、8、10以上である。本稿に記載する例では、B=8またはB=5である。上記で概説したように、エンコーダ・フィルタバンク92、93は、前記B個の周波数帯域のうちの高周波数帯域よりも高い周波数分解能をもつ、前記B個の周波数帯域のうちの低周波数帯域を提供する、ハイブリッド・フィルタバンクを有していてもよい。さらに、前記B個の周波数帯域についてのサブバンド領域の所望される出力信号Y[k,b]が決定されてもよい。一つまたは複数の周波数領域についての変換パラメータMは、(たとえば最小平均平方誤差基準を使って)前記一つまたは複数の周波数帯域内での、前記出力信号〔^付きのYj〕の、前記所望される出力信号Yjからの偏差を最小化することによって決定されてもよい。
よって、変換パラメータMはそれぞれ、少なくとも二つの周波数帯域(特にB個の周波数帯域)について指定されてもよい。さらに、変換パラメータは、前記周波数帯域のうち少なくとも一つのためのマルチタップ畳み込み行列パラメータの集合を含んでいてもよい。
よって、オーディオ・チャネル/オブジェクトの第二の呈示の出力信号を、該オーディオ・チャネル/オブジェクトの第一の呈示の基本信号から決定するための方法(および対応するデコーダ)が記載される。第一の呈示は、ラウドスピーカー再生のために使われてもよく、第二の呈示はヘッドフォン再生のために使われてもよい(あるいは逆でもよい)。前記出力信号は、種々の周波数帯域についての変換パラメータを使って決定される。ここで、前記周波数帯域のうち少なくとも一つについての変換パラメータは、前記周波数帯域のうち少なくとも一つについてのマルチタップ畳み込み行列パラメータを含む。周波数帯域のうち少なくとも一つについてマルチタップ畳み込み行列パラメータを使うことの結果として、デコーダ100の計算量が削減されうる。これは特に、デコーダによって使われるフィルタバンクの周波数分解能を下げることによる。
たとえば、第一の周波数帯域についての出力信号をマルチタップ畳み込み行列パラメータを使って決定することは、前記出力信号の前記第一の周波数帯域の現在のサンプルを、前記基本信号の前記第一の周波数帯域の現在のサンプルと一つまたは複数の以前のサンプルとの重み付けされた組み合わせとして決定することを含んでいてもよい。ここで、重み付けされた組み合わせを決定するために使われる重みは、前記第一の周波数帯域についてのマルチタップ畳み込み行列パラメータに対応する。前記第一の周波数帯域についてのマルチタップ畳み込み行列パラメータの一つまたは複数は典型的には複素数値である。
さらに、第二の周波数帯域についての出力信号を決定することは、前記出力信号の前記第二の周波数帯域の現在のサンプルを、前記基本信号の前記第二の周波数帯域の現在の諸サンプルの(前記基本信号の前記第二の周波数帯域の以前の諸サンプルには基づかない)重み付けされた組み合わせとして決定することを含んでいてもよい。ここで、重み付けされた組み合わせを決定するために使われる重みは、前記第二の周波数帯域についての変換パラメータに対応する。前記第二の周波数帯域についての変換パラメータは複素数値であってもよく、あるいは実数値であってもよい。
具体的には、マルチタップ畳み込み行列パラメータの同じ集合が、前記B個の周波数帯域の少なくとも二つの隣り合う周波数帯域について決定されてもよい。図7に示されるように、ナイキスト・フィルタバンクによって与えられる諸周波数帯域について(すなわち、比較的高い周波数分解能をもつ諸周波数帯域について)、マルチタップ畳み込み行列パラメータの単一の集合が決定されてもよい。こうすることにより、デコーダ100内でのナイキスト・フィルタバンクの使用が省略でき、それにより(第二の呈示のための出力信号の品質を維持しつつ)デコーダ100の計算量を削減する。
さらに、同じ実数値の変換パラメータが、少なくとも二つの隣り合う高周波数帯域について決定されてもよい(図7のコンテキストで示されるように)。こうすることにより、(第二の呈示のための出力信号の品質を維持しつつ)デコーダ100の計算量がさらに削減されうる。
〈解釈〉
本明細書を通じて「一つの実施形態」「いくつかの実施形態」または「ある実施形態」への言及は、その実施形態との関連で記述されている特定の特徴、構造または特性が本発明の少なくとも一つの実施形態に含まれることを意味する。よって、本明細書を通じた随所に「一つの実施形態では」「いくつかの実施形態では」または「ある実施形態では」という句が現われるのは、同じ実施形態を指すこともあれば、必ずしもそうでないこともある。さらに、具体的な特徴、構造または特性は、一つまたは複数の実施形態において本開示から当業者に明白であろう任意の好適な仕方で組み合わされてもよい。
本稿での用法では、特にそうでないことが指定されない限り、共通の対象を記述するための序数形容詞「第一の」「第二の」「第三の」などの使用は、単に同様の対象の異なるインスタンスが言及されていることを示すのみであって、そのように記述される対象が、時間的、空間的、ランキング上または他のいかなる仕方でも、所与の序列でなければならないことを含意することは意図されていない。
特許請求の範囲および本明細書において、有する、からなるという用語はいずれも、言及される要素/特徴を少なくとも含むが他を排除するものではないことを意味する、オープンな用語である。よって、請求項で使われるとき、有する/含むの用語は、挙げられている手段または要素またはステップに限定するものと解釈すべきではない。たとえば、AおよびBを有する装置という表現の範囲は、要素AおよびBのみからなる装置に限定されるべきではない。本稿で使われるところの含むという用語も、言及される要素/特徴を少なくとも含むが他を排除するものではないことを意味する、オープンな用語である。よって、含むというのは、有すると同義であり、有することを意味する。
本稿での用法では、用語「例示的」は、性質を示すのではなく、例を与える意味で使われる。すなわち、「例示的実施形態」は、例として与えられている実施形態であって、必ず例示的な性質の実施形態であるということではない。
本発明の例示的実施形態の上記の記述において、開示の流れをよくするとともにさまざまな発明的な側面の一つまたは複数の側面の理解を助ける目的のために、本発明のさまざまな特徴が特に単一の実施形態、図面またはその説明において一緒にまとめられていることを理解しておくべきである。この開示法は、特許請求される発明が各請求項において明記されているより多くの特徴を要求するという意図を反映するものと解釈すべきではない。むしろ、付属の請求項が反映するように、発明的な側面は、上記の単一の開示される実施形態のすべての特徴よりも少ないものに存する。このように、付属の請求項は、ここに詳細な説明に明示的に組み込まれ、各請求項がそれ自身としてこの発明の別個の実施形態をなす。
さらに、本稿に記載されるいくつかの実施形態は他の実施形態に含まれるいくつかの特徴を含むが他の特徴は含まないものの、異なる実施形態の特徴の組み合わせは、本発明の範囲内であり、異なる実施形態をなすことが意図されている。当業者はこのことを理解するであろう。たとえば、請求項において、特許請求される実施形態の任意のものが任意の組み合わせにおいて使用されることができる。
さらに、実施形態のいくつかは、本稿では、コンピュータ・システムのプロセッサによってまたは当該機能を実行する他の手段によって実装されることができる方法または方法の要素の組み合わせとして記述されている。よって、プロセッサは、そのような方法または方法の要素を実行するための必要な命令とともに、該方法または方法の要素を実行する手段をなす。さらに、本稿に記載される装置実施形態の要素は、本発明を実行するために該要素によって実行される機能を実行する手段の例である。
本稿で与えた記述では、数多くの個別的詳細が記載されている。しかしながら、本発明の実施形態はそうした個別的詳細なしでも実施されうることは理解される。他の事例では、よく知られた方法、構造および技法は、本記述の理解をかすませないために、詳細に示してはいない。
同様に、請求項において使用されるときの結合されたという用語は、直接接続だけに限定されるものと解釈すべきではないことも注意しておくべきである。「結合された」および「接続された」という用語およびそれらの派生形が使用されうる。これらの用語は、互いと同義であるとは意図されていないことを理解しておくべきである。よって、装置Bに結合された装置Aという表現の範囲は、装置Aの出力が装置Bの入力に直接接続されている装置またはシステムに限定されるべきではない。Aの出力とBの入力の間に経路が存在し、その経路が他の装置または手段を含んでいてもよいことを意味する。「結合された」は二つ以上の要素が直接的な物理的または電気的接触状態にあること、あるいは二つ以上の要素が互いに直接接触してはいないがそれでも互いと協働または対話することを意味しうる。
このように、本発明の好ましい実施形態であると考えられるものについて記述してきたが、当業者は、本発明の精神から外れることなく他のさらなる修正がされうることを認識するであろう。本発明の範囲内にはいるようなそのようなすべての変更および修正を特許請求することが意図されている。たとえば、上記で挙げた公式があったとすればそれは単に使用されうる手順の代表的なものである。ブロック図の機能を追加あるいは削除してもよく、機能ブロック間で動作が交換されてもよい。本発明の範囲内で記載される方法のステップが追加または削除されてもよい。
本発明のさまざまな側面は以下の付番実施例(EEE: Enumerated example embodiment)から理解されるであろう。
〔EEE1〕
オーディオ・チャネルまたはオブジェクトの第二の呈示をデータ・ストリームとして表現するための方法であって:
(a)前記オーディオ・チャネルまたはオブジェクトの第一の呈示を表わす基本信号の集合を提供する段階と;
(b)前記第一の呈示を前記第二の呈示に変換することを意図されている変換パラメータの集合を提供する段階とを含み、前記変換パラメータはさらに、少なくとも二つの周波数帯域について指定され、前記周波数帯域のうち少なくとも一つのためのマルチタップ畳み込み行列パラメータの集合を含む、
方法。
〔EEE2〕
フィルタ係数の前記集合は、有限インパルス応答(FIR)フィルタを表わす、EEE1記載の方法。
〔EEE3〕
基本信号の前記集合は、一連の時間的セグメントに分割され、それぞれの時間的セグメントについて、変換パラメータの集合が提供される、EEE1または2記載の方法。
〔EEE4〕
前記フィルタ係数は、複素数値である少なくとも一つの係数を含む、EEE1ないし3のうちいずれか一項記載の方法。
〔EEE5〕
前記第一の呈示または前記第二の呈示は、ヘッドフォン再生のために意図される、EEE1ないし4のうちいずれか一項記載の方法。
〔EEE6〕
より高い周波数に関連付けられた変換パラメータは信号位相を修正せず、一方、より低い周波数については、前記変換パラメータは信号位相を修正する、EEE1ないし5のうちいずれか一項記載の方法。
〔EEE7〕
フィルタ係数の前記集合は、マルチタップ畳み込み行列を処理するために機能できる、EEE1ないし6のうちいずれか一項記載の方法。
〔EEE8〕
フィルタ係数の前記集合は、低周波数帯域を処理するために利用される、EEE7記載の方法。
〔EEE9〕
基本信号の前記集合および変換パラメータの前記集合は、組み合わされて前記データ・ストリームを形成する、EEE1ないし8のうちいずれか一項記載の方法。
〔EEE10〕
前記変換パラメータは、基本信号の前記集合の高周波数部分の行列操作のための高周波数オーディオ行列係数を含む、EEE1ないし9のうちいずれか一項記載の方法。
〔EEE11〕
基本信号の前記集合の前記高周波数部分のうち中間周波数部分のために、前記行列操作は複素数値の変換パラメータを含む、EEE10記載の方法。
〔EEE12〕
エンコードされたオーディオ信号をデコードするためのデコーダであって、前記エンコードされたオーディオ信号は:
第一のオーディオ呈示フォーマットにおける前記オーディオの再生のために意図されたオーディオ基本信号の集合を含む第一の呈示と;
前記第一の呈示フォーマットにおける前記オーディオ基本信号を第二の呈示フォーマットに変換するための変換パラメータの集合とを含み、前記変換パラメータは、少なくとも高周波数オーディオ変換パラメータおよび低周波数オーディオ変換パラメータを含み、前記低周波数変換パラメータはマルチタップ畳み込み行列パラメータを含み、
当該デコーダは:
オーディオ基本信号の前記集合および変換パラメータの前記集合を分離するための第一分離ユニットと;
前記マルチタップ畳み込み行列パラメータを前記オーディオ基本信号の低周波数成分に適用し;前記低周波数成分に畳み込みを適用することが畳み込みされた低周波数成分を生成する行列乗算ユニットと;
前記高周波数オーディオ変換パラメータを前記オーディオ基本信号の高周波数成分に適用してスカラー高周波数成分を生成するスカラー乗算ユニットと;
前記畳み込みされた低周波数成分および前記スカラー高周波数成分を組み合わせて前記第二の呈示フォーマットにおける時間領域出力信号を生成する出力フィルタバンクとを含む、
デコーダ。
〔EEE13〕
前記行列乗算ユニットは、前記オーディオ基本信号の前記低周波数成分の位相を修正する、EEE12記載のデコーダ。
〔EEE14〕
前記マルチタップ畳み込み行列変換パラメータは複素数値である、EEE12または13記載のデコーダ。
〔EEE15〕
前記高周波数オーディオ変換パラメータが複素数値である、EEE12ないし14のうちいずれか一項記載のデコーダ。
〔EEE16〕
変換パラメータの前記集合はさらに、実数値の、より高周波数のオーディオ変換パラメータを含む、EEE15記載のデコーダ。
〔EEE17〕
前記オーディオ基本信号を前記低周波数成分および前記高周波数成分に分離するためのフィルタをさらに有する、EEE12ないし16のうちいずれか一項記載のデコーダ。
〔EEE18〕
エンコードされたオーディオ信号をデコードする方法であって、前記エンコードされたオーディオ信号は:
第一のオーディオ呈示フォーマットにおける前記オーディオの再生のために意図されたオーディオ基本信号の集合を含む第一の呈示と;
前記第一の呈示フォーマットにおける前記オーディオ基本信号を第二の呈示フォーマットに変換するための変換パラメータの集合とを含み、前記変換パラメータは、少なくとも高周波数オーディオ変換パラメータおよび低周波数オーディオ変換パラメータを含み、前記低周波数変換パラメータはマルチタップ畳み込み行列パラメータを含み、
当該方法は:
前記オーディオ基本信号の低周波数成分を前記低周波数変換パラメータと畳み込みして、畳み込みされた低周波数成分を生成する段階と;
前記オーディオ基本信号の高周波数成分に前記高周波数変換パラメータを乗算して、乗算された高周波数成分を生成する段階と;
前記畳み込みされた低周波数成分および前記乗算された高周波数成分を組み合わせて、第二の呈示フォーマットでの再生のための出力オーディオ信号周波数成分を生成する段階とを含む、方法。
〔EEE19〕
前記エンコードされた信号は複数の時間的セグメントを含み、当該方法はさらに:
前記エンコードされた信号の複数の時間的セグメントの変換パラメータを補間して、補間された低周波数オーディオ変換パラメータを含む補間された変換パラメータを生成する段階と;
前記オーディオ基本信号の前記低周波数成分の複数の時間的セグメントを前記補間された低周波数オーディオ変換パラメータと畳み込みして、前記畳み込みされた低周波数成分の複数の時間的セグメントを生成する段階とをさらに含む、
EEE18記載の方法。
〔EEE20〕
前記エンコードされたオーディオ信号の変換パラメータの前記集合は時間変化し、当該方法はさらに:
複数の時間的セグメントについて前記低周波数成分を前記低周波数変換パラメータと畳み込みして、中間の畳み込みされた低周波数成分の複数の集合を生成する段階と;
中間の畳み込みされた低周波数成分の前記複数の集合を補間して、前記畳み込みされた低周波数成分を生成する段階とをさらに含む、
EEE18記載の方法。
〔EEE21〕
前記補間は、中間の畳み込みされた低周波数成分の前記複数の集合の重複加算方法を利用する、EEE19またはEEE20記載の方法。
〔EEE22〕
前記オーディオ基本信号をフィルタリングして前記低周波数成分および前記高周波数成分にする段階をさらに含む、EEE18ないし21のうちいずれか一項記載の方法。
〔EEE23〕
EEE1ないし11および18ないし22のうちいずれか一項記載の方法に基づくコンピュータの動作のためのプログラム命令を含むコンピュータ可読の非一時的な記憶媒体。

Claims (24)

  1. オーディオ・チャネルまたはオブジェクトの第二の呈示をデータ・ストリームとして表現するための方法であって:
    (a)前記オーディオ・チャネルまたはオブジェクトの第一の呈示を表わす基本信号を提供する段階と;
    (b)前記第一の呈示の前記基本信号を前記第二の呈示の出力信号に変換することを意図されている変換パラメータを提供する段階であって、前記変換パラメータは少なくとも、より高い周波数帯域について指定される高周波数変換パラメータおよびより低い周波数帯域について指定される低周波数変換パラメータを含み、前記低周波数変換パラメータは、前記基本信号の低周波数成分を前記低周波数変換パラメータと畳み込みして畳み込みされた低周波数成分を生成するためのマルチタップ畳み込み行列パラメータの集合を含み、前記高周波数変換パラメータは、前記基本信号の高周波数成分に前記高周波数変換パラメータを乗算して乗算された高周波数成分を生成するためのステートレスな行列のパラメータの集合を含み;前記第一の呈示はラウドスピーカー再生用であり前記第二の呈示はヘッドフォン再生用であるまたは前記第一の呈示はヘッドフォン再生用であり前記第二の呈示はラウドスピーカー再生用である、段階と
    (c)前記基本信号および前記変換パラメータを組み合わせて前記データ・ストリームを形成する段階とを含む、
    方法。
  2. 前記マルチタップ畳み込み行列パラメータは、有限インパルス応答(FIR)フィルタを示す、請求項1記載の方法。
  3. 前記基本信号は、一連の時間的セグメントに分割され、変換パラメータは各時間的セグメントについて与えられる、請求項1または2記載の方法。
  4. 前記マルチタップ畳み込み行列パラメータは、複素数値である少なくとも一つの係数を含む、請求項1ないし3のうちいずれか一項記載の方法。
  5. 前記基本信号を提供する段階は、第一のレンダリング・パラメータを使って、前記オーディオ・チャネルまたはオブジェクトから前記基本信号を決定することを含み;
    当該方法は、第二のレンダリング・パラメータを使って、前記オーディオ・チャネルまたはオブジェクトから前記第二の呈示のための所望される出力信号を決定する段階を含み、
    前記変換パラメータを提供する段階は、前記出力信号の前記所望される出力信号からの偏差を最小化することによって前記変換パラメータを決定することを含む、
    請求項1ないし4のうちいずれか一項記載の方法。
  6. 前記変換パラメータを提供する段階は、
    エンコーダ・フィルタバンクを使って、B個の周波数帯域についてサブバンド領域基本信号を決定し;
    前記エンコーダ・フィルタバンクを使って、前記B個の周波数帯域についてサブバンド領域の所望される出力信号を決定し;
    前記B個の周波数帯域のうちの少なくとも二つの隣接する周波数帯域についてマルチタップ畳み込み行列パラメータの同じ集合を決定することを含む、
    請求項5記載の方法。
  7. 前記エンコーダ・フィルタバンクは、前記B個の周波数帯域の高周波数帯域よりも高い周波数分解能をもつ前記B個の周波数帯域の低周波数帯域を提供するハイブリッド・フィルタバンクを有し、
    前記少なくとも二つの隣接する周波数帯域が低周波数帯域である、
    請求項6記載の方法。
  8. 前記変換パラメータを提供する段階は、少なくとも二つの隣接する高周波数帯域について同じ実数値の変換パラメータを決定することを含む、請求項7記載の方法。
  9. 前記高周波数変換パラメータは前記基本信号の信号位相を修正せず、
    前記低周波数変換パラメータは前記基本信号の信号位相を修正する、
    請求項1ないし8のうちいずれか一項記載の方法。
  10. 前記マルチタップ畳み込み行列パラメータは、低周波数帯域を処理するために利用される、請求項1ないし9のうちいずれか一項記載の方法。
  11. 前記高周波数変換パラメータは、前記基本信号の高周波数部分の行列操作のための高周波数オーディオ行列係数を含む、
    請求項1ないし10のうちいずれか一項記載の方法。
  12. 前記基本信号の前記高周波数部分のうち中間周波数部分のために、前記行列操作は複素数値の変換パラメータを含む、請求項11記載の方法。
  13. エンコードされたオーディオ信号をデコードするためのデコーダであって、前記エンコードされたオーディオ信号は:
    第一のオーディオ呈示フォーマットにおける前記エンコードされたオーディオ信号の再生のために意図されたオーディオ基本信号を含む第一の呈示と;
    前記第一の呈示フォーマットにおける前記オーディオ基本信号を第二の呈示フォーマットの出力信号に変換するための変換パラメータとを含み、前記変換パラメータは、より高い周波数帯域について指定される高周波数変換パラメータおよびより低い周波数帯域について指定される低周波数変換パラメータを含み、前記低周波数変換パラメータはマルチタップ畳み込み行列パラメータを含み、前記高周波数変換パラメータはステートレスな行列のパラメータの集合を含み、前記第一の呈示フォーマットはラウドスピーカー再生用であり前記第二の呈示フォーマットはヘッドフォン再生用であるまたは前記第一の呈示フォーマットはヘッドフォン再生用であり、前記第二の呈示フォーマットはラウドスピーカー再生用であり、
    当該デコーダは:
    前記オーディオ基本信号および前記変換パラメータを分離するための第一分離ユニットと;
    前記マルチタップ畳み込み行列パラメータを前記オーディオ基本信号の低周波数成分に適用し;前記低周波数成分に畳み込みを適用することが畳み込みされた低周波数成分を生成する、行列乗算ユニットと;
    前記高周波数変換パラメータを前記オーディオ基本信号の高周波数成分に適用してスカラー高周波数成分を生成するスカラー乗算ユニットと;
    前記畳み込みされた低周波数成分および前記スカラー高周波数成分を組み合わせて前記第二の呈示フォーマットの時間領域出力信号を生成する出力フィルタバンクとを含む、
    デコーダ。
  14. 前記行列乗算ユニットは、前記オーディオ基本信号の前記低周波数成分の位相を修正する、請求項13記載のデコーダ。
  15. 前記マルチタップ畳み込み行列変換パラメータは複素数値である、請求項13または14記載のデコーダ。
  16. 前記高周波数変換パラメータが複素数値である、請求項13ないし15のうちいずれか一項記載のデコーダ。
  17. 前記変換パラメータはさらに、実数値の、高周波数変換パラメータを含む、請求項16記載のデコーダ。
  18. 前記オーディオ基本信号を前記低周波数成分および前記高周波数成分に分離するためのフィルタをさらに有する、請求項13ないし17のうちいずれか一項記載のデコーダ。
  19. エンコードされたオーディオ信号をデコードする方法であって、前記エンコードされたオーディオ信号は:
    第一のオーディオ呈示フォーマットにおける前記エンコードされたオーディオ信号の再生のために意図されたオーディオ基本信号を含む第一の呈示と;
    前記第一の呈示フォーマットにおける前記オーディオ基本信号を第二の呈示フォーマットの出力信号に変換するための変換パラメータとを含み、前記変換パラメータは、より高い周波数帯域について指定される高周波数変換パラメータおよびより低い周波数帯域について指定される低周波数変換パラメータを含み、前記低周波数変換パラメータはマルチタップ畳み込み行列パラメータを含み、前記高周波数変換パラメータはステートレスな行列のパラメータの集合を含み、前記第一の呈示フォーマットはラウドスピーカー再生用であり前記第二の呈示フォーマットはヘッドフォン再生用であるまたは前記第一の呈示フォーマットはヘッドフォン再生用であり前記第二の呈示フォーマットはラウドスピーカー再生用であり、
    当該方法は:
    前記オーディオ基本信号の低周波数成分を前記低周波数変換パラメータと畳み込みして、畳み込みされた低周波数成分を生成する段階と;
    前記オーディオ基本信号の高周波数成分に前記高周波数変換パラメータを乗算して、乗算された高周波数成分を生成する段階と;
    前記畳み込みされた低周波数成分および前記乗算された高周波数成分を組み合わせて、前記第二の呈示フォーマットのための出力オーディオ信号周波数成分を生成する段階とを含む、
    方法。
  20. 前記エンコードされたオーディオ信号は複数の時間的セグメントを含み、当該方法はさらに:
    前記エンコードされたオーディオ信号の複数の時間的セグメントの変換パラメータを補間して、補間された低周波数変換パラメータを含む補間された変換パラメータを生成する段階と;
    前記オーディオ基本信号の前記低周波数成分の複数の時間的セグメントを前記補間された低周波数変換パラメータと畳み込みして、前記畳み込みされた低周波数成分の複数の時間的セグメントを生成する段階とをさらに含む、
    請求項19記載の方法。
  21. 前記エンコードされたオーディオ信号の前記変換パラメータは時間変化し、前記オーディオ基本信号の低周波数成分の前記畳み込みは:
    複数の時間的セグメントについて前記オーディオ基本信号の前記低周波数成分を前記低周波数変換パラメータと畳み込みして、中間の畳み込みされた低周波数成分の複数の集合を生成する段階と;
    中間の畳み込みされた低周波数成分の前記複数の集合を補間して、前記畳み込みされた低周波数成分を生成する段階とを含む、
    請求項19記載の方法。
  22. 前記補間は、中間の畳み込みされた低周波数成分の前記複数の集合の重複加算方法を利用する、請求項20または請求項21記載の方法。
  23. 前記オーディオ基本信号をフィルタリングして前記低周波数成分および前記高周波数成分にする段階をさらに含む、請求項19ないし22のうちいずれか一項記載の方法。
  24. 請求項1ないし12および19ないし23のうちいずれか一項記載の方法に基づくコンピュータの動作のためのプログラム命令を含むコンピュータ可読の非一時的な記憶媒体。
JP2018509898A 2015-08-25 2016-08-23 オーディオ・デコーダおよびデコード方法 Active JP6797187B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201562209742P 2015-08-25 2015-08-25
US62/209,742 2015-08-25
EP15189008.4 2015-10-08
EP15189008 2015-10-08
PCT/US2016/048233 WO2017035163A1 (en) 2015-08-25 2016-08-23 Audo decoder and decoding method

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2020190599A Division JP7229218B2 (ja) 2015-08-25 2020-11-17 データ・ストリームを形成するための方法、媒体、システム

Publications (2)

Publication Number Publication Date
JP2018529121A JP2018529121A (ja) 2018-10-04
JP6797187B2 true JP6797187B2 (ja) 2020-12-09

Family

ID=54288726

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2018509898A Active JP6797187B2 (ja) 2015-08-25 2016-08-23 オーディオ・デコーダおよびデコード方法
JP2023020846A Pending JP2023053304A (ja) 2015-08-25 2023-02-14 オーディオ・デコーダおよびデコード方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2023020846A Pending JP2023053304A (ja) 2015-08-25 2023-02-14 オーディオ・デコーダおよびデコード方法

Country Status (12)

Country Link
US (3) US10672408B2 (ja)
EP (3) EP4254406A3 (ja)
JP (2) JP6797187B2 (ja)
KR (2) KR102517867B1 (ja)
CN (3) CN108353242B (ja)
AU (3) AU2016312404B2 (ja)
CA (1) CA2999271A1 (ja)
EA (2) EA201992556A1 (ja)
ES (1) ES2956344T3 (ja)
HK (1) HK1257672A1 (ja)
PH (1) PH12018500649A1 (ja)
WO (1) WO2017035163A1 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6797187B2 (ja) 2015-08-25 2020-12-09 ドルビー ラボラトリーズ ライセンシング コーポレイション オーディオ・デコーダおよびデコード方法
KR20240028560A (ko) 2016-01-27 2024-03-05 돌비 레버러토리즈 라이쎈싱 코오포레이션 음향 환경 시뮬레이션
JP7023848B2 (ja) 2016-01-29 2022-02-22 ドルビー ラボラトリーズ ライセンシング コーポレイション バイノーラル・ダイアログ向上
FR3048808A1 (fr) * 2016-03-10 2017-09-15 Orange Codage et decodage optimise d'informations de spatialisation pour le codage et le decodage parametrique d'un signal audio multicanal
CN110326310B (zh) 2017-01-13 2020-12-29 杜比实验室特许公司 串扰消除的动态均衡
DE112019004193T5 (de) * 2018-08-21 2021-07-15 Sony Corporation Audiowiedergabevorrichtung, audiowiedergabeverfahren und audiowiedergabeprogramm
JP2021184509A (ja) * 2018-08-29 2021-12-02 ソニーグループ株式会社 信号処理装置、信号処理方法、及び、プログラム
MX2021012309A (es) 2019-04-15 2021-11-12 Dolby Int Ab Mejora de dialogo en codec de audio.
JP7286876B2 (ja) * 2019-09-23 2023-06-05 ドルビー ラボラトリーズ ライセンシング コーポレイション 変換パラメータによるオーディオ符号化/復号化
CN112133319A (zh) * 2020-08-31 2020-12-25 腾讯音乐娱乐科技(深圳)有限公司 音频生成的方法、装置、设备及存储介质
CN112489668B (zh) * 2020-11-04 2024-02-02 北京百度网讯科技有限公司 去混响方法、装置、电子设备和存储介质

Family Cites Families (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1995034883A1 (fr) 1994-06-15 1995-12-21 Sony Corporation Processeur de signaux et dispositif de reproduction sonore
US5956674A (en) 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
US6115689A (en) * 1998-05-27 2000-09-05 Microsoft Corporation Scalable audio coder and decoder
JP4300380B2 (ja) * 1999-12-02 2009-07-22 ソニー株式会社 オーディオ再生装置およびオーディオ再生方法
AU2002343151A1 (en) * 2001-11-23 2003-06-10 Koninklijke Philips Electronics N.V. Perceptual noise substitution
US7548852B2 (en) 2003-06-30 2009-06-16 Koninklijke Philips Electronics N.V. Quality of decoded audio by adding noise
JP4171675B2 (ja) 2003-07-15 2008-10-22 パイオニア株式会社 音場制御システム、および音場制御方法
EP1683133B1 (en) * 2003-10-30 2007-02-14 Koninklijke Philips Electronics N.V. Audio signal encoding or decoding
US8363865B1 (en) 2004-05-24 2013-01-29 Heather Bottum Multiple channel sound system using multi-speaker arrays
US7720230B2 (en) 2004-10-20 2010-05-18 Agere Systems, Inc. Individual channel shaping for BCC schemes and the like
DE102005010057A1 (de) 2005-03-04 2006-09-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines codierten Stereo-Signals eines Audiostücks oder Audiodatenstroms
KR100891686B1 (ko) * 2005-08-30 2009-04-03 엘지전자 주식회사 오디오 신호의 인코딩 및 디코딩 장치, 및 방법
KR101562379B1 (ko) 2005-09-13 2015-10-22 코닌클리케 필립스 엔.브이. 공간 디코더 유닛 및 한 쌍의 바이노럴 출력 채널들을 생성하기 위한 방법
US8255207B2 (en) * 2005-12-28 2012-08-28 Voiceage Corporation Method and device for efficient frame erasure concealment in speech codecs
WO2007080211A1 (en) * 2006-01-09 2007-07-19 Nokia Corporation Decoding of binaural audio signals
JP5147727B2 (ja) * 2006-01-19 2013-02-20 エルジー エレクトロニクス インコーポレイティド 信号デコーディング方法及び装置
CN101379553B (zh) * 2006-02-07 2012-02-29 Lg电子株式会社 用于编码/解码信号的装置和方法
KR100983286B1 (ko) * 2006-02-07 2010-09-24 엘지전자 주식회사 부호화/복호화 장치 및 방법
US8174415B2 (en) 2006-03-31 2012-05-08 Silicon Laboratories Inc. Broadcast AM receiver, FM receiver and/or FM transmitter with integrated stereo audio codec, headphone drivers and/or speaker drivers
CN101136202B (zh) * 2006-08-29 2011-05-11 华为技术有限公司 音频信号处理系统、方法以及音频信号收发装置
EP2102858A4 (en) 2006-12-07 2010-01-20 Lg Electronics Inc METHOD AND DEVICE FOR PROCESSING AN AUDIO SIGNAL
ES2461601T3 (es) * 2007-10-09 2014-05-20 Koninklijke Philips N.V. Procedimiento y aparato para generar una señal de audio binaural
US8527282B2 (en) 2007-11-21 2013-09-03 Lg Electronics Inc. Method and an apparatus for processing a signal
EP2175670A1 (en) * 2008-10-07 2010-04-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Binaural rendering of a multi-channel audio signal
EP2224431A1 (en) * 2009-02-26 2010-09-01 Research In Motion Limited Methods and devices for performing a fast modified discrete cosine transform of an input sequence
TWI557723B (zh) * 2010-02-18 2016-11-11 杜比實驗室特許公司 解碼方法及系統
PL3570278T3 (pl) * 2010-03-09 2023-03-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Rekonstrukcja wysokiej częstotliwości wejściowego sygnału audio przy użyciu kaskadowych banków filtrów
AU2011358654B2 (en) * 2011-02-09 2017-01-05 Telefonaktiebolaget L M Ericsson (Publ) Efficient encoding/decoding of audio signals
EP2719197A2 (en) * 2011-06-13 2014-04-16 Shakeel Naksh Bandi P Pyarejan SYED System for producing 3 dimensional digital stereo surround sound natural 360 degrees (3d dssr n-360)
US8653354B1 (en) 2011-08-02 2014-02-18 Sonivoz, L.P. Audio synthesizing systems and methods
TWI479905B (zh) 2012-01-12 2015-04-01 Univ Nat Central Multi-channel down mixing device
EP2658120B1 (en) 2012-04-25 2016-04-13 GN Resound A/S A hearing aid with improved compression
US8781008B2 (en) * 2012-06-20 2014-07-15 MagnaCom Ltd. Highly-spectrally-efficient transmission using orthogonal frequency division multiplexing
US9384741B2 (en) * 2013-05-29 2016-07-05 Qualcomm Incorporated Binauralization of rotated higher order ambisonics
US9369818B2 (en) * 2013-05-29 2016-06-14 Qualcomm Incorporated Filtering with binaural room impulse responses with content analysis and weighting
US9025711B2 (en) * 2013-08-13 2015-05-05 Applied Micro Circuits Corporation Fast filtering for a transceiver
CN103763037B (zh) * 2013-12-17 2017-02-22 记忆科技(深圳)有限公司 一种动态补偿接收器及动态补偿接收方法
JP6797187B2 (ja) 2015-08-25 2020-12-09 ドルビー ラボラトリーズ ライセンシング コーポレイション オーディオ・デコーダおよびデコード方法
AU2016311335B2 (en) 2015-08-25 2021-02-18 Dolby International Ab Audio encoding and decoding using presentation transform parameters

Also Published As

Publication number Publication date
CN111970630A (zh) 2020-11-20
EP3342188A1 (en) 2018-07-04
KR20230048461A (ko) 2023-04-11
AU2023202400A1 (en) 2023-05-11
AU2016312404A1 (en) 2018-04-12
CN108353242A (zh) 2018-07-31
EP3748994B1 (en) 2023-08-16
HK1257672A1 (zh) 2019-10-25
EA201890557A1 (ru) 2018-08-31
WO2017035163A1 (en) 2017-03-02
JP2018529121A (ja) 2018-10-04
US20200357420A1 (en) 2020-11-12
CN111970629A (zh) 2020-11-20
AU2021201082A1 (en) 2021-03-11
US20230360659A1 (en) 2023-11-09
US20220399027A1 (en) 2022-12-15
AU2016312404A8 (en) 2018-04-19
US11705143B2 (en) 2023-07-18
EA034371B1 (ru) 2020-01-31
US11423917B2 (en) 2022-08-23
KR20180042392A (ko) 2018-04-25
ES2956344T3 (es) 2023-12-19
CN108353242B (zh) 2020-10-02
KR102517867B1 (ko) 2023-04-05
JP2023053304A (ja) 2023-04-12
EP4254406A3 (en) 2023-11-22
EA201992556A1 (ru) 2021-03-31
EP3342188B1 (en) 2020-08-12
WO2017035163A9 (en) 2017-05-18
AU2021201082B2 (en) 2023-01-19
CN111970629B (zh) 2022-05-17
EP4254406A2 (en) 2023-10-04
AU2016312404B2 (en) 2020-11-26
US20180233156A1 (en) 2018-08-16
PH12018500649A1 (en) 2018-10-01
EP3748994A1 (en) 2020-12-09
CA2999271A1 (en) 2017-03-02
CN111970630B (zh) 2021-11-02
US10672408B2 (en) 2020-06-02

Similar Documents

Publication Publication Date Title
JP6797187B2 (ja) オーディオ・デコーダおよびデコード方法
CA2701360C (en) Method and apparatus for generating a binaural audio signal
KR102551796B1 (ko) 프레젠테이션 변환 파라미터들을 사용하는 오디오 인코딩 및 디코딩
RU2427978C2 (ru) Кодирование и декодирование аудио
JP7229218B2 (ja) データ・ストリームを形成するための方法、媒体、システム
US12002480B2 (en) Audio decoder and decoding method
MX2008011994A (es) Generacion de mezclas descendentes espaciales a partir de representaciones parametricas de señales de multicanal.
EA041656B1 (ru) Аудиодекодер и способ декодирования
EA042232B1 (ru) Кодирование и декодирование звука с использованием параметров преобразования представления

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180227

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190816

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201013

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201020

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201117

R150 Certificate of patent or registration of utility model

Ref document number: 6797187

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250