JP6185592B2 - 空間オーディオオブジェクト符号化における信号依存ズーム変換のためのエンコーダ、デコーダおよび方法 - Google Patents

空間オーディオオブジェクト符号化における信号依存ズーム変換のためのエンコーダ、デコーダおよび方法 Download PDF

Info

Publication number
JP6185592B2
JP6185592B2 JP2015535005A JP2015535005A JP6185592B2 JP 6185592 B2 JP6185592 B2 JP 6185592B2 JP 2015535005 A JP2015535005 A JP 2015535005A JP 2015535005 A JP2015535005 A JP 2015535005A JP 6185592 B2 JP6185592 B2 JP 6185592B2
Authority
JP
Japan
Prior art keywords
signal
audio object
subband
downmix
converted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015535005A
Other languages
English (en)
Other versions
JP2015535959A (ja
Inventor
ザーシャ・ディシュ
ヨウニ・パウルス
ベルンド・エドレル
オリベル・ヘルムス
ユルゲン・ヘルレ
トルシュテン・カストネル
Original Assignee
フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン filed Critical フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Publication of JP2015535959A publication Critical patent/JP2015535959A/ja
Application granted granted Critical
Publication of JP6185592B2 publication Critical patent/JP6185592B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)

Description

本発明は、オーディオ信号符号化、オーディオ信号復号化およびオーディオ信号処理に関し、具体的には、空間オーディオオブジェクト符号化(SAOC:spatial-audio-object-coding)における後方互換性(backward compatible)のある動的な時間−周波数分解能適合化のためのエンコーダ、デコーダおよび方法に関する。
従来のデジタル・オーディオ・システムにおいては、受信機側における、送信コンテンツのオーディオ−オブジェクト関連の修正を見込むことが主たる傾向である。これらの修正には、オーディオ信号の選択部分のゲイン修正、および/または空間的に分散されたスピーカを介する多チャネル再生の場合の専用オーディオオブジェクトの空間的再ポジショニングが含まれる。これは、オーディオ・コンテンツの異なる部分を異なるスピーカへ個々に送出することによって達成される場合がある。
言い替えれば、オーディオ処理、オーディオ送信およびオーディオ蓄積の分野では、オブジェクト指向のオーディオ・コンテンツ再生に対するユーザ相互作用を見込む願望が高まり、また、聴覚印象を向上させるために、多チャネル再生の拡張された可能性を利用してオーディオ・コンテンツまたはその一部を個々に演出するという要望も高まっている。これにより、ユーザにとって、多チャネル・オーディオ・コンテンツの使用が大幅に向上する。例えば、三次元的聴覚印象の達成が可能であり、これにより、娯楽アプリケーションにおけるユーザの満足感は高まる。しかしながら、多チャネルオーディオ再生の使用により話者の了解度を高めることができるので、多チャネル・オーディオ・コンテンツは、職業環境、例えばテレビ会議のアプリケーションにおいても有益である。別の可能なアプリケーションは、楽曲の聴取者に、ボーカル部分または異なる楽器等の、異なる部分(「オーディオオブジェクト」とも称する)またはトラックの再生レベルおよび/または空間位置を個々に調整することを提案する。ユーザは、このような調整を、個人的な嗜好、楽曲の一部または複数部分のより容易な転写、教育上の目的、カラオケ、リハーサル、他の理由で実行することができる。
全てのデジタル多チャネルまたは多オブジェクト・オーディオ・コンテンツの、例えばパルス符号変調(PCM)データ形式またはさらには圧縮されたオーディオフォーマット形式での直接的な離散送信は、極めて高いビットレートを要求する。しかしながら、同時に、オーディオデータをビットレート効率的な方法で送信しかつ蓄積することも望ましい。したがって、多チャネル/多オブジェクトアプリケーションに起因する過度なリソース負荷を回避するために、オーディオ品質とビットレート要件との間の妥当なトレードオフ(tradeoff)が歓迎される。
最近では、オーディオ符号化の分野において、多チャネル/多オブジェクトオーディオ信号のビットレート効率的な送信/蓄積のためのパラメトリック手法が、例えば、動画専門家グループ(MPEG:Moving Picture Experts Group)他によって導入されている。一例は、チャネル指向的手法[MPS、BCC]としてのMPEG Surruond(MPS)、またはオブジェクト指向的手法[JSC、SAOC、SAOC1、SAOC2]としてのMPEG空間オーディオオブジェクト符号化(SAOC)である。別のオブジェクト指向的な手法は、「インフォームド・ソース分離(informed source separation)」[ISS1、ISS2、ISS3、ISS4、ISS5、ISS6]と称される。これらの技法の目的は、チャネル/オブジェクトのダウンミックスと、送信/蓄積されたオーディオシーンおよび/またはオーディオシーンにおけるオーディオ・ソース・オブジェクトについて記述する追加的なサイド情報とに基づいて、望ましい出力オーディオシーンまたは望ましいオーディオ・ソース・オブジェクトを再構成することにある。
このようなシステムにおけるチャネル/オブジェクト関連サイド情報の推定および適用は、時間−周波数選択式に行われる。したがって、このようなシステムは、離散フーリエ変換(DFT:Discrete Fourier Transform)、短時間フーリエ変換(STFT:Short Time Fourier Transform)または直交ミラーフィルタ(QMF:Quadrature Mirror Filter)バンクのようなフィルタバンク、他等の時間/周波数変換を用いる。このようなシステムの基本原理は、図3に、MPEG SAOCを例に用いて描かれている。
STFTの場合、時間次元は時間−ブロック番号で表され、スペクトル次元はスペクトル係数(「ビン」)の数字によって捕捉される。QMFの場合、時間次元は時間−スロット番号で表され、スペクトル次元はサブバンド番号によって捕捉される。QMFのスペクトル分解能が続く第2のフィルタ段の適用によって増大される場合は、フィルタバンク全体がハイブリッドQMFと称され、精密分解能サブバンドはハイブリッドサブバンドと称される。
既に述べたように、SAOCでは全体の処理は時間−周波数選択式に行われ、図3に描かれているように、各周波数帯域内では下記のように記述することができる。
− N個の入力オーディオオブジェクト信号s1…sNが、要素d1,1…dN,Pより成るダウンミックス行列を用いてエンコーダ処理の一部としてP個のチャネルx1…xPへダウンミックスされる。さらに、エンコーダは、入力されるオーディオオブジェクトの特徴を記述するサイド情報を抽出する(サイド情報推定器(SIE)モジュール)。MPEG SAOCの場合、オブジェクト電力の相対的な関係がこのようなサイド情報の最も基本的な形式である。
− ダウンミックス信号とサイド情報が送信/蓄積される。この目的のために、ダウンミックスオーディオ信号は、例えば、MPEG−1/2レイヤIIまたはIII(aka.mp3)、MPEG−2/4アドバンスト・オーディオ・コーディング(AAC:Advanced Audio Coding)等の周知の知覚オーディオコーダを用いて圧縮することができる。
− 受信側において、デコーダは、概念的には、送信されるサイド情報を用いて(復号された)ダウンミックス信号からオリジナルのオブジェクト信号を復元(「オブジェクト分離」)するようとする。これの近似されたオブジェクト信号
Figure 0006185592
は、次に、図3において係数r1,1…rN,Mにより記述されるレンダリング行列を用いて、M個のオーディオ出力チャネル
Figure 0006185592
により表されるターゲットシーンにミックスされる。望ましいターゲットシーンは、極端な事例では混合物の中の1つだけのソース信号を実現するもの(ソース分離シナリオ)であってもよいが、送信された複数のオブジェクトより成る他の任意の音響シーンであってもよい。例えば、その出力は、単チャネル、2チャネルステレオまたは5.1多チャネルターゲットシーンであることができる。
時間−周波数ベースのシステムは、静的な時間および周波数分解能を有する時間−周波数(t/f)変換を利用することができる。所定の固定t/f分解能グリッドの選択は、典型的には、時間分解能と周波数分解能の間のトレードオフを包含する。
固定t/f分解能の効果は、オーディオ信号混合物における典型的なオブジェクト信号の例で説明することができる。例えば、トーン音のスペクトルは基本周波数と幾つかのオーバートーンをもつ調和関係のある構造を示す。このような信号のエネルギーは、所定の周波数領域に集中している。このような信号の場合、利用されるt/f表現の高周波数分解能は、信号混合物から狭帯域トーンスペクトル領域を分離するために有益である。反対に、過渡信号は、ドラム音のように、明確な時間構成を有する場合が多く、即ち、実質的エネルギーは短時間でしか存在せず、かつ広範囲の周波数に渡って広がっている。これらの信号の場合、利用されるt/f表現の高い時間分解能は、信号混合物から過渡信号部分を分離する際に効果的である。
現行のオーディオオブジェクト符号化スキームは、SAOC処理の時間−周波数選択性における多様性が限られている。例えば、MPEG SAOC[SAOC][SAOC1][SAOC2]は、所謂ハイブリッド直交ミラーフィルタバンク(ハイブリッド−QMF)およびこれに続くパラメトリック帯域へのグルーピング(grouping)の使用によって取得され得る時間−周波数分解能に限定される。したがって、標準SAOC([SAOC]において標準化されるようなMPEG SAOC)におけるオブジェクト復元は、他のオーディオオブジェクトからの可聴変調クロストーク(例えば、音声におけるダブルトークアーティファクト、または音楽における聴覚粗さアーティファクト)に繋がるハイブリッド−QMFの粗な周波数分解能に煩わされる場合が多い。
オーディオソースのバイノーラルキュー符号化(BCC:Binaural Cue Coding)[BCC]およびオーディオソースのパラメトリックジョイント符号化[JSC]のようなオーディオオブジェクト符号化スキームも、1つの固定分解能フィルタバンクの使用に限定される。固定分解能のフィルタバンクまたは変換を実際に選択する際には、最適性に関して、符号化スキームの時間的特性とスペクトル特性との間の予め規定されたトレードオフを常に伴う。
インフォームド・ソース分離(ISS:informed source separation)の分野では、知覚オーディオ符号化スキーム、例えばアドバンスト・オーディオ・コーディング(AAC:Advanced Audio Coding)[AAC]、から周知であるように、時間周波数変換の長さを信号[ISS7]の特性に動的に適合化させることが勧められている。
[BCC] C. Faller and F. Baumgarte, "Binaural Cue Coding - Part II: Schemes and applications," IEEE Trans. on Speech and Audio Proc., vol. 11, no. 6, Nov. 2003. [JSC] C. Faller, "Parametric Joint-Coding of Audio Sources", 120th AES Convention, Paris, 2006. [SAOC1] J. Herre, S. Disch, J. Hilpert, O. Hellmuth: "From SAC To SAOC - Recent Developments in Parametric Coding of Spatial Audio", 22nd Regional UK AES Conference, Cambridge, UK, April, 2007. [SAOC2] J. Engdegard, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. Holzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers and W. Oomen: " Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Parametric Object Based Audio Coding", 124th AES Convention, Amsterdam, 2008. [SAOC] ISO/IEC, "MPEG audio technologies - Part 2: Spatial Audio Object Coding (SAOC)," ISO/IEC JTC1/SC29/WG11 (MPEG) International Standard 23003-2:2010. [AAC] Bosi, Marina; Brandenburg, Karlheinz; Quackenbush, Schuyler; Fielder, Louis; Akagiri, Kenzo; Fuchs, Hendrik; Dietz, Martin, "ISO/IEC MPEG-2 Advanced Audio Coding", J. Audio Eng. Soc, vol 45, no 10, pp. 789-814, 1997. [ISS1] M. Parvaix and L. Girin: "Informed Source Separation of underdetermined instantaneous Stereo Mixture using Source Index Embedding", IEEE ICASSP, 2010. [ISS2] M. Parvaix, L. Girin, J.-M. Brossier: "A watermarking-based method for informed source separation of audio signals with a single sensor", IEEE Transactions on Audio, Speech and Language Processing, 2010. [ISS3] A. Liutkus and J. Pinel and R. Badeau and L. Girin and G. Richard: "Informed source separation through spectrogram coding and data embedding", Signal Processing Journal, 2011. [ISS4] A. Ozerov, A. Liutkus, R. Badeau, G. Richard: "Informed source separation: source coding meets source separation", IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 2011. [ISS5] Shuhua Zhang and Laurent Girin: "An Informed Source Separation System for Speech Signals", INTERSPEECH, 2011. [ISS6] L. Girin and J. Pinel: "Informed Audio Source Separation from Compressed Linear Stereo Mixtures", AES 42nd International Conference: Semantic Audio, 2011. [ISS7] Andrew Nesbit, Emmanuel Vincent, and Mark D. Plumbley: "Benchmarking flexible adaptive time-frequency transforms for underdetermined audio source separation", IEEE International Conference on Acoustics, Speech and Signal Processing, pp. 37-40, 2009. [FB] B. Edler, "Aliasing reduction in subbands of cascaded filterbanks with decimation", Electronic Letters, vol. 28, No. 12, pp. 1104-1106, June 1992. [MPEG-1] ISO/IEC JTC1/SC29/WG11 MPEG, International Standard ISO/IEC 11172, Coding of moving pictures and associated audio for digital storage media at up to about 1.5 Mbit/s,1993.
本発明の目的は、オーディオオブジェクト符号化の改良された概念を提供することにある。
本発明のこの目的は、請求項1に記載のデコーダ、請求項7に記載のエンコーダ、請求項13に記載の復号方法、請求項14に記載の符号化方法および請求項15に記載のコンピュータプログラムによって解決される。
従来技術SAOCとは対照的に、時間−周波数分解能を後方互換性のある方法で信号に動的に適合化させるための実施形態が提供され、その結果、
標準SAOCエンコーダ([SAOC]で標準化されているようなMPEG SAOC)から発生するSAOCパラメータ・ビット・ストリームを、強化デコーダによっても標準デコーダで取得されるものに匹敵する知覚品質で復号することができ、
強化SAOCパラメータ・ビット・ストリームを、強化デコーダにより最適品質で復号することができ、かつ、
標準SAOCパラメータ・ビット・ストリームと強化SAOCパラメータ・ビット・ストリームを、例えば多地点制御装置(MCU:multi-point control unit)シナリオにおいて、標準デコーダまたは強化デコーダによって復号され得る1つの共通ビットストリームに混合することができる。
上述の特性に関して、新規強化SAOCデータの複合と伝統的な標準SAOCデータの後方互換性マッピングの何れも同時にサポートするために、時間−周波数分解能で動的に適合化できる共通のフィルタバンク/変換表現を用意することが有益である。そのような共通表現があれば、強化SAOCデータと標準SAOCデータの合体が可能である。
強化されたSAOC知覚品質は、オーディオ・オブジェクト・キューの推定に採用される、またはオーディオ・オブジェクト・キューの合成に使用されるフィルタバンクまたは変換の時間−周波数分解能を入力オーディオオブジェクトの固有の特性に動的に適合化することによって得ることができる。例えば、オーディオオブジェクトが所定の時間スパンの間、準定常であれば、パラメータ推定と合成は、粗い時間分解能と密な周波数分解能で効果的に実行される。オーディオオブジェクトが所定の時間スパンの間、過渡または非定常性を包含すれば、パラメータ推定と合成は、密な時間分解能と粗い周波数分解能を用いて効果的に行われる。これにより、フィルタバンクまたは変換の動的な適合は、下記を可能にする。すなわち、
オブジェクト間クロストークを回避するために、準定常信号のスペクトル分離では周波数選択性を高くすること、および、
プレエコーおよびポストエコーを最小限に抑えるために、オブジェクト開始または過渡事象に対しては時間精度を高くすること。
同時に、伝統的なSAOC品質は、標準SAOCデータを、オブジェクト信号特性を記述するサイド情報に依存する発明的な後方互換性信号適応変換により提供される時間−周波数グリッド上へマッピングすることによって得ることができる。
標準SAOCデータと強化SAOCデータの双方を、1つの共通変換を用いて復号可能であることは、標準SAOCデータと新規な強化SAOCデータのミキシングを包含するアプリケーションに対する直接的な後方互換性を可能にする。
複数の時間領域ダウンミックスサンプルを含むダウンミックス信号から1つまたは複数のオーディオ出力チャネルを含むオーディオ出力信号を生成するためのデコーダが提供される。そのダウンミックス信号は、2つ以上のオーディオオブジェクト信号を符号化する。
このデコーダは、ウインドウシーケンス発生器を備えているか、または、複数の分析ウインドウを決定するものであり、各分析ウインドウはダウンミックス信号の複数の時間領域ダウンミックスサンプルを含む。複数の分析ウインドウの各々は、その分析ウインドウの時間領域ダウンミックスサンプルの数を示すウインドウ長さを有する。そのウインドウシーケンス発生器は、各分析ウインドウのウインドウ長さが2つ以上のオーディオオブジェクト信号のうちの少なくとも1つの信号特性に依存するように、複数の分析ウインドウを決定すべく構成されている。
さらに、このデコーダは、変換されたダウンミックスを得るために、複数の分析ウインドウの各分析ウインドウの複数の時間領域ダウンミックスサンプルを、その分析ウインドウのウインドウ長さに依存して時間領域から時間−周波数領域へ変換するためのt/f分析モジュールを備えている。
さらに、このデコーダは、オーディオ出力信号を得るために、変換されたダウンミックスを、2つ以上のオーディオオブジェクト信号に関するパラメトリックサイド情報に基づいてアンミックス(un-mix)するための非混合ユニット(un-mixing unit)を備えている。
一実施形態によれば、ウインドウシーケンス発生器は、2つ以上のオーディオオブジェクト信号のうちの少なくとも1つの信号変化がダウンミックス信号によって符号化されつつあることを示す過渡が複数の分析ウインドウのうちの第1の分析ウインドウと第2の分析ウインドウによって構成されるように、複数の分析ウインドウを決定すべく構成することができる。その場合、過渡の位置tによって、第1の分析ウインドウの中心ckはck=t−lbと画定され、第1の分析ウインドウの中心ck+1はck+1=t+laと画定される。laとlbは数字である。
一実施形態では、ウインドウシーケンス発生器は、2つ以上のオーディオオブジェクト信号のうちの少なくとも1つの信号変化がダウンミックス信号によって符号化されつつあることを示す過渡が複数の分析ウインドウのうちの第1の分析ウインドウによって構成されるように、複数の分析ウインドウを決定すべく構成することができる。その場合、過渡の位置tによって、第1の分析ウインドウの中心ckはck=tと画定され、複数の分析ウインドウのうちの第2の分析ウインドウの中心ck-1はck-1=t−lbと画定され、複数の分析ウインドウのうちの第3の分析ウインドウの中心ck+1はck+1=t+laと画定される。laとlbは数字である。
一実施形態によれば、ウインドウシーケンス発生器は、複数の分析ウインドウの各々が第1の数の時間領域信号サンプルまたは第2の数の時間領域信号サンプルの何れかを含むように、複数の分析ウインドウを決定すべく構成することができる。その場合、第2の数の時間領域信号サンプルは第1の数の時間領域信号サンプルより多く、かつ複数の分析ウインドウの各分析ウインドウは、その分析ウインドウが2つ以上のオーディオオブジェクト信号のうちの少なくとも1つの信号変化がダウンミックス信号によって符号化されつつあることを示す過渡を含むときに第1の数の時間領域信号サンプルを含む。
一実施形態では、t/f分析モジュールは、各分析ウインドウの時間領域ダウンミックスサンプルを、QMFフィルタバンクとナイキスト・フィルタバンクを使用することにより時間領域から時間−周波数領域へ変換するように構成することができる。その場合、t/f分析モジュール(135)は、各分析ウインドウの複数の時間領域信号サンプルを、その分析ウインドウのウインドウ長さに依存して変換するように構成されている。
さらに、2つ以上の入力されたオーディオオブジェクト信号を符号化するためのエンコーダが提供される。それらの2つ以上の入力されたオーディオオブジェクト信号は各々、複数の時間領域信号サンプルを含んでいる。このエンコーダは、複数の分析ウインドウを決定するためのウインドウシーケンス・ユニットを備えている。各分析ウインドウは入力されたオーディオオブジェクト信号のうちの1つの信号の複数の時間領域信号サンプルを含み、各分析ウインドウはその分析ウインドウの時間領域信号サンプルの数を示すウインドウ長さを有する。ウインドウシーケンス・ユニットは、各分析ウインドウのウインドウ長さが2つ以上の入力されたオーディオオブジェクト信号のうちの少なくとも1つの信号特性に依存するように、複数の分析ウインドウを決定すべく構成されている。
さらに、このエンコーダは、変換された信号サンプルを得るために、各分析ウインドウの時間領域信号サンプルを時間領域から時間−周波数領域へ変換するためのt/f分析ユニットを備えている。t/f分析ユニットは、各分析ウインドウの複数の時間領域信号サンプルを、その分析ウインドウのウインドウ長さに依存して変換するように構成することができる。
さらに、このエンコーダは、変換された信号サンプルに依存してパラメトリックサイド情報を決定するためのPSI推定ユニットを備えている。
一実施形態において、このエンコーダは、さらに、各分析ウインドウについてその分析ウインドウが2つ以上の入力されたオーディオオブジェクト信号のうちの少なくとも1つの信号変化を示す過渡を含むかどうかを決定するために、2つ以上の入力されたオーディオオブジェクト信号の複数のオブジェクトレベル差を決定するように構成され、かつオブジェクトレベル差のうちの第1の差と第2の差との差がしきい値を超えているかどうかを決定するように構成された過渡検出ユニットを備えることができる。
一実施形態によれば、その過渡検出ユニットは、オブジェクトレベル差のうちの第1の差と第2の差との差がしきい値を超えているかどうかを決定するために、次のように定義される検出関数d(n)を使用するように構成することができる。
Figure 0006185592
但し、nは指数、iは第1のオブジェクト、jは第2のオブジェクト、bはパラメトリック帯域を示す。OLD(object level difference)は、例えば、オブジェクトレベル差を示す。
一実施形態において、ウインドウシーケンス・ユニットは、2つ以上の入力されたオーディオオブジェクト信号のうちの少なくとも1つの信号変化を示す過渡が複数の分析ウインドウのうちの第1の分析ウインドウと第2の分析ウインドウによって構成されるように、複数の分析ウインドウを決定すべく構成することができる。その場合、過渡の位置をtとすると、第1の分析ウインドウの中心ckはck=t−lbと画定され、第1の分析ウインドウの中心ck+1はck+1=t+laと画定される。laとlbは数字である。
一実施形態によれば、ウインドウシーケンス・ユニットは、2つ以上の入力されたオーディオオブジェクト信号のうちの少なくとも1つの信号の信号変化を示す過渡が複数の分析ウインドウのうちの第1の分析ウインドウによって構成されるように、複数の分析ウインドウを決定すべく構成さすることができる。その場合、過渡の位置tによって、第1の分析ウインドウの中心ckはck=tと画定され、複数の分析ウインドウのうちの第2の分析ウインドウの中心ck-1はck-1=t−lbと画定され、複数の分析ウインドウのうちの第3の分析ウインドウの中心ck+1はck+1=t+laと画定される。laとlbは数字である。
一実施形態において、ウインドウシーケンス・ユニットは、複数の分析ウインドウの各々が第1の数の時間領域信号サンプルまたは第2の数の時間領域信号サンプルの何れかを備えるように、複数の分析ウインドウを決定すべく構成することができる。その場合、第2の数の時間領域信号サンプルは第1の数の時間領域信号サンプルより多く、かつ複数の分析ウインドウの各分析ウインドウは、その分析ウインドウが2つ以上の入力されたオーディオオブジェクト信号のうちの少なくとも1つの信号の信号変化を示す過渡を含む場合に第1の数の時間領域信号サンプルを含むものとする。
一実施形態によれば、t/f分析ユニットは、各分析ウインドウの時間領域信号サンプルを、QMFフィルタバンクとナイキスト・フィルタバンクを使用することにより時間領域から時間−周波数領域へ変換するように構成することができ、その場合、t/f分析ユニットは、各分析ウインドウの複数の時間領域信号サンプルをその分析ウインドウのウインドウ長さに依存して変換するように構成することができる。
さらに、複数の時間領域ダウンミックスサンプルを含むダウンミックス信号から、1つまたは複数のオーディオ出力チャネルを含むオーディオ出力信号を生成するためのデコーダが提供される。そのダウンミックス信号は2つ以上のオーディオオブジェクト信号を符号化する。このデコーダは、複数のサブバンドサンプルを含む複数のサブバンドを得るために、複数の時間領域ダウンミックスサンプルを変換するための第1の分析サブモジュールを備えている。さらに、このデコーダは、複数の分析ウインドウを決定するためのウインドウシーケンス発生器を備え、その分析ウインドウは各々、複数のサブバンドのうちの1つのサブバンドの複数のサブバンドサンプルを含み、複数の分析ウインドウの各分析ウインドウはその分析ウインドウのサブバンドサンプルの数を示すウインドウ長さを有し、ウインドウシーケンス発生器は各分析ウインドウのウインドウ長さが2つ以上のオーディオオブジェクト信号のうちの少なくとも1つの信号の信号特性に依存するように複数の分析ウインドウを決定すべく構成されている。さらに、このデコーダは、変換されたダウンミックスを得るために、複数の分析ウインドウの各分析ウインドウの複数のサブバンドサンプルを、その分析ウインドウのウインドウ長さに依存して変換するための第2の分析モジュールを備えている。さらに、このデコーダは、オーディオ出力信号を得るために、変換されたダウンミックスを、2つ以上のオーディオオブジェクト信号に関するパラメトリックサイド情報に基づいてアンミックスするための非混合ユニットを備えている。
さらに、2つ以上の入力されたオーディオオブジェクト信号を符号化するためのエンコーダを提供される。それらの2つ以上の入力されたオーディオオブジェクト信号は各々、複数の時間領域信号サンプルを含んでいる。このエンコーダは、複数のサブバンドサンプルを含む複数のサブバンドを得るために、複数の時間領域信号サンプルを変換するための第1の分析サブモジュールを備えている。さらに、このエンコーダは、複数の分析ウインドウを決定するためのウインドウシーケンス・ユニットを備え、各分析ウインドウは複数のサブバンドのうちの1つのサブバンドの複数のサブバンドサンプルを含み、各分析ウインドウはその分析ウインドウのサブバンドサンプルの数を示すウインドウ長さを有し、ウインドウシーケンス・ユニットは、各分析ウインドウのウインドウ長さが2つ以上の入力されたオーディオオブジェクト信号のうちの少なくとも1つの信号の信号特性に依存するように、複数の分析ウインドウを決定すべく構成されている。さらに、このエンコーダは、変換された信号サンプルを得るために、複数の分析ウインドウの各分析ウインドウの複数のサブバンドサンプルを、その分析ウインドウのウインドウ長さに依存して変換するための第2の分析モジュールを備えている。さらに、このエンコーダは、パラメトリックサイド情報を、変換された信号サンプルに依存して決定するためのPSI推定ユニットを備えている。
さらに、ダウンミックス信号から、1つまたは複数のオーディオ出力チャネルを含むオーディオ出力信号を生成するためのデコーダが提供される。そのダウンミックス信号は1つまたは複数のオーディオオブジェクト信号を符号化する。このデコーダは、1つまたは複数のオーディオオブジェクト信号のうちの少なくとも1つの信号の信号特性に依存して起動指示を起動状態に設定するための制御ユニットを備えている。さらに、このデコーダは、複数の第1のサブバンドチャネルを含む第1の変換されたダウンミックスを得るために、ダウンミックス信号を変換するための第1の分析モジュールを備えている。さらに、このデコーダは、複数の第2のサブバンドチャネルを得るために、起動指示が起動状態に設定されていると、第1のサブバンドチャネルのうちの少なくとも1つを変換することによって第2の変換されたダウンミックスを生成するための第2の分析モジュールを備え、その第2の変換されたダウンミックスは、第2の分析モジュールによって変換されていない第1のサブバンドチャネルと、第2のサブバンドチャネルとを含む。さらに、このデコーダは非混合ユニットを備え、その非混合ユニットは、起動指示が起動状態に設定されていれば、1つまたは複数のオーディオオブジェクト信号に関するパラメトリックサイド情報に基づいて第2の変換されたダウンミックスをアンミックスしてオーディオ出力信号を得るように、かつ起動指示が起動状態に設定されていなければ、1つまたは複数のオーディオオブジェクト信号に関するパラメトリックサイド情報に基づいて第1の変換されたダウンミックスをアンミックスしてオーディオ出力信号を得るように構成されている。
さらに、1つの入力されたオーディオオブジェクト信号を符号化するためのエンコーダが提供される。このエンコーダは、入力されたオーディオオブジェクト信号の信号特性に依存して起動指示を起動状態に設定するための制御ユニットを備えている。さらに、このエンコーダは、第1の変換されたオーディオオブジェクト信号を得るために入力されたオーディオオブジェクト信号を変換するための第1の分析モジュールを備え、その第1の変換されたオーディオオブジェクト信号は複数の第1のサブバンドチャネルを含む。さらに、このエンコーダは、複数の第2のサブバンドチャネルを得るために、起動指示が起動状態に設定されていると、複数の第1のサブバンドチャネルのうちの少なくとも1つを変換することによって第2の変換されたオーディオオブジェクト信号を生成するための第2の分析モジュールを備え、その第2の変換されたオーディオオブジェクト信号は、第2の分析モジュールによって変換されていない第1のサブバンドチャネルと第2のサブバンドチャネルとを含む。さらに、このエンコーダは、PSI推定ユニットを備え、そのPSI推定ユニットは、起動指示が起動状態に設定されていれば第2の変換されたオーディオオブジェクト信号に基づいてパラメトリックサイド情報を決定し、かつ起動指示が起動状態に設定されていなければ第1の変換されたオーディオオブジェクト信号に基づいてパラメトリックサイド情報を決定するように構成されている。
さらに、複数の時間領域ダウンミックスサンプルを含むダウンミックス信号から1つまたは複数のオーディオ出力チャネルを含むオーディオ出力信号を生成するための復号方法が提供される。そのダウンミックス信号は2つ以上のオーディオオブジェクト信号を符号化する。本方法は、
複数の分析ウインドウを決定することであって、各分析ウインドウはダウンミックス信号の複数の時間領域ダウンミックスサンプルを含み、複数の分析ウインドウの各分析ウインドウはその分析ウインドウの時間領域ダウンミックスサンプルの数を示すウインドウ長さを有し、複数の分析ウインドウの決定は、各分析ウインドウのウインドウ長さが2つ以上のオーディオオブジェクト信号のうちの少なくとも1つの信号の信号特性に依存するように実行されることと、
変換されたダウンミックスを得るために、複数の分析ウインドウの各分析ウインドウの複数の時間領域ダウンミックスサンプルを、前記分析ウインドウのウインドウ長さに依存して時間領域から時間−周波数領域へ変換することと、
オーディオ出力信号を得るために、変換されたダウンミックスを、2つ以上のオーディオオブジェクト信号に関するパラメトリックサイド情報に基づいてアンミックスすること、を含む。
さらに、2つ以上の入力されたオーディオオブジェクト信号を符号化するための方法が提供される。それらの2つ以上の入力されたオーディオオブジェクト信号は各々、複数の時間領域信号サンプルを含んでいる。本方法は、
複数の分析ウインドウを決定することであって、各分析ウインドウは入力されたオーディオオブジェクト信号のうちの1つの信号の複数の時間領域信号サンプルを含み、各分析ウインドウはその分析ウインドウの時間領域信号サンプルの数を示すウインドウ長さを有し、複数の分析ウインドウの決定は、各分析ウインドウのウインドウ長さが2つ以上の入力されたオーディオオブジェクト信号のうちの少なくとも1つの信号の信号特性に依存するように実行されることと、
変換された信号サンプルを得るために、各分析ウインドウの時間領域信号サンプルを時間領域から時間−周波数領域へ変換することであって、各分析ウインドウの複数の時間領域信号サンプルの変換はその分析ウインドウのウインドウ長さに依存することと、
変換された信号サンプルに依存してパラメトリックサイド情報を決定すること、を含む。
さらに、複数の時間領域ダウンミックスサンプルを含むダウンミックス信号から、1つまたは複数のオーディオ出力チャネルを含むオーディオ出力信号を生成することによる復号方法であって、そのダウンミックス信号は2つ以上のオーディオオブジェクト信号を符号化する、方法が提供される。本方法は、
複数のサブバンドサンプルを含む複数のサブバンドを得るために、複数の時間領域ダウンミックスサンプルを変換することと、
複数の分析ウインドウを決定することであって、各分析ウインドウは複数のサブバンドのうちの1つのサブバンドの複数のサブバンドサンプルを含み、複数の分析ウインドウの各分析ウインドウはその分析ウインドウのサブバンドサンプルの数を示すウインドウ長さを有し、複数の分析ウインドウの決定は、各分析ウインドウのウインドウ長さが2つ以上のオーディオオブジェクト信号のうちの少なくとも1つの信号の信号特性に依存するように実行されることと、
変換されたダウンミックスを得るために、複数の分析ウインドウの各分析ウインドウの複数のサブバンドサンプルをその分析ウインドウのウインドウ長さに依存して変換することと、
オーディオ出力信号を得るために、変換されたダウンミックスを、2つ以上のオーディオオブジェクト信号に関するパラメトリックサイド情報に基づいてアンミックスすること、を含む。
さらに、2つ以上の入力されたオーディオオブジェクト信号を符号化するための方法であって、2つ以上の入力されたオーディオオブジェクト信号の各々が複数の時間領域信号サンプルを含む、方法が提供される。本方法は、
複数のサブバンドサンプルを含む複数のサブバンドを得るために、複数の時間領域信号サンプルを変換することと、
複数の分析ウインドウを決定することであって、各分析ウインドウは複数のサブバンドのうちの1つのサブバンドの複数のサブバンドサンプルを含み、各分析ウインドウはその分析ウインドウのサブバンドサンプルの数を示すウインドウ長さを有し、複数の分析ウインドウの決定は、各分析ウインドウのウインドウ長さが2つ以上の入力されたオーディオオブジェクト信号のうちの少なくとも1つの信号の信号特性に依存するように実行されることと、
変換された信号サンプルを得るために、複数の分析ウインドウの各分析ウインドウの複数のサブバンドサンプルをその分析ウインドウのウインドウ長さに依存して変換することと、
変換された信号サンプルに依存してパラメトリックサイド情報を決定すること、を含む。
さらに、ダウンミックス信号から、1つまたは複数のオーディオ出力チャネルを含むオーディオ出力信号を生成することによる復号方法であって、そのダウンミックス信号は2つ以上のオーディオオブジェクト信号を符号化する、方法が提供される。本方法は、
2つ以上のオーディオオブジェクト信号のうちの少なくとも1つの信号の信号特性に依存して起動指示を起動状態に設定することと、
複数の第1のサブバンドチャネルを含む第1の変換されたダウンミックスを得るために、ダウンミックス信号を変換することと、
複数の第2のサブバンドチャネルを得るために、起動指示が起動状態に設定されていると、第1のサブバンドチャネルのうちの少なくとも1つを変換することによって第2の変換されたダウンミックスを生成することであって、第2の変換されたダウンミックスは、第2の分析モジュールによって変換されていない第1のサブバンドチャネルと、第2のサブバンドチャネルとを含むことと、
起動指示が起動状態に設定されていれば、オーディオ出力信号を得るために2つ以上のオーディオオブジェクト信号に関するパラメトリックサイド情報に基づいて第2の変換されたダウンミックスをアンミックスし、かつ起動指示が起動状態に設定されていなければ、オーディオ出力信号を得るために2つ以上のオーディオオブジェクト信号に関するパラメトリックサイド情報に基づいて第1の変換されたダウンミックスをアンミックスすること、を含む。
さらに、2つ以上の入力されたオーディオオブジェクト信号を符号化するための方法が提供される。本方法は、
2つ以上の入力されたオーディオオブジェクト信号のうちの少なくとも1つの信号の信号特性に依存して起動指示を起動状態に設定することと、
前記入力されたオーディオオブジェクト信号の第1の変換されたオーディオオブジェクト信号を得るために、入力されたオーディオオブジェクト信号の各々を変換することであって、前記第1の変換されたオーディオオブジェクト信号は複数の第1のサブバンドチャネルを含むことと、
複数の第2のサブバンドチャネルを得るために、入力されたオーディオオブジェクト信号の各々について、起動指示が起動状態に設定されていると、前記入力されたオーディオオブジェクト信号の第1の変換されたオーディオオブジェクト信号の第1のサブバンドチャネルのうちの少なくとも1つを変換することによって第2の変換されたオーディオオブジェクト信号を生成することであって、前記第2の変換されたダウンミックスは、第2の分析モジュールによって変換されていない前記第1のサブバンドチャネルと、前記第2のサブバンドチャネルとを含むことと、
起動指示が起動状態に設定されていれば、入力されたオーディオオブジェクト信号の各々の第2の変換されたオーディオオブジェクト信号に基づいてパラメトリックサイド情報を決定し、かつ起動指示が起動状態に設定されていなければ、入力されたオーディオオブジェクト信号の各々の第1の変換されたオーディオオブジェクト信号に基づいてパラメトリックサイド情報を決定すること、を含む。
さらに、コンピュータまたは信号プロセッサ上で実行される場合に、上述の方法のうちの1つを実装するためのコンピュータプログラムが提供される。
好適な実施形態については、従属請求項において提示される。
以下、図面を参照して、本発明の実施形態をより詳細に説明する。
図1Aは一実施形態によるデコーダを示す。 図1Bは別の実施形態によるデコーダを示す。 図1Cはさらなる実施形態によるデコーダを示す。 図2Aは一実施形態による、入力されたオーディオオブジェクト信号を符号化するためのエンコーダを示す。 図2Bは、別の実施形態による、入力されたオーディオオブジェクト信号を符号化するためのエンコーダを示す。 図2Cは、さらなる実施形態による、入力されたオーディオオブジェクト信号を符号化するためのエンコーダを示す。 図3はSAOCシステムの概念的概観を示す略ブロック図である。 図4は単チャネルオーディオ信号の時間−スペクトル表現を示す例示的な略図である。 図5はSAOCエンコーダ内のサイド情報の時間−周波数選択的計算を示す略ブロック図である。 図6は、標準SAOCビットストリームの復号を示す、一実施形態による強化SAOCデコーダを描いたブロック図である。 図7は一実施形態によるデコーダを描いたブロック図である。 図8は、エンコーダのパラメトリック経路を実装する、特定の一実施形態によるエンコーダを示すブロック図である。 図9は過渡におけるウインドウ・クロスオーバ・ポイントに対応するための正規ウインドウイング(windowing)シーケンスの適合化を示す。 図10は、一実施形態による、過渡分離ブロックのスイッチングスキームを示す。 図11は、一実施形態による、過渡を有する信号と結果として生じるAAC状ウインドウイングシーケンスを示す。 図12は拡張されたQMFハイブリッドフィルタリングを示す。 図13は変換にショートウインドウが使用される一例を示す。 図14は、変換に、図13の例よりも長いウインドウが使用される一例を示す。 図15は高周波数分解能および低時間分解能が実現される一例を示す。 図16は高時間分解能および低周波数分解能が実現される一例を示す。 図17は中間時間分解能および中間周波数分解能が実現される第1の例を示す。 図18は中間時間分解能および中間周波数分解能が実現される第1の例を示す。
本発明の実施形態について述べる前に、従来技術であるSAOCシステムの背景をさらに詳述する。
図3はSAOCエンコーダ10およびSAOCデコーダ12の全体の配置を示す。SAOCエンコーダ10は、入力としてN個のオブジェクト、即ちオーディオ信号s1−sNを受信する。具体的には、エンコーダ10は、オーディオ信号s1−sNを受信しかつこれをダウンミックス信号18へダウンミックスするダウンミキサ16を備えている。あるいは、ダウンミックスは外部から提供されてもよく(「アーティスティックダウンミックス」)、その場合、システムは提供されたダウンミックスを計算されたダウンミックスに一致させるために追加的なサイド情報を推定する。図3において、ダウンミックス信号はPチャネル信号であるものとして示されている。したがって、モノラル(P=1)、ステレオ(P=2)または多チャネル(P>2)ダウンミックス信号構成の何れもが考えられる。
ステレオダウンミックスの場合、ダウンミックス信号18のチャネルはL0とR0で示され、モノラルダウンミックスの場合は単にL0で示される。SAOCデコーダ12が個々のオブジェクトs1−sNを回復できるようにするために、サイド情報推定器17はSAOCデコーダ12にSAOCパラメータを含むサイド情報を提供する。例えば、ステレオダウンミックスの場合、SAOCパラメータは、オブジェクトレベル差(OLD)、オブジェクト間相関(IOC:inter-object correlation)(オブジェクト間相互相関パラメータ)、ダウンミックス利得値(DMG:downmix gain value)およびダウンミックス・チャネル・レベル差(DCLD:downmix channel level difference)を含む。SAOCパラメータを含むサイド情報20は、ダウンミックス信号18と共に、SAOCデコーダ12により受信されるSAOC出力データストリームを形成する。
SAOCデコーダ12は、オーディオ信号
Figure 0006185592
および
Figure 0006185592
を回復してユーザが選択する任意のチャネルセット
Figure 0006185592
上へレンダリングするために、サイド情報20だけでなくダウンミックス信号18も受信するアップミキサを備えている。そのレンダリングは、SAOCデコーダ12へ入力されるレンダリング情報26によって規定される。
オーディオ信号s1−sNは、時間領域またはスペクトル領域のような任意の符号化領域でエンコーダ10へ入力することができる。オーディオ信号s1−sNがPCM符号化のような時間領域でエンコーダ10へ供給される場合は、エンコーダ10はその信号をスペクトル領域へ伝達するためにハイブリッドQMFバンクのようなフィルタバンクを用いることができ、スペクトル領域において、オーディオ信号は異なるスペクトル部分に関連づけられる幾つかのサブバンドにおいて固有のフィルタバンク分解能で表現される。オーディオ信号s1−sNが既にエンコーダ10により予期される表現になっている場合は、エンコーダ10はスペクトル分解を実行する必要がない。
図4は直前で述べたスペクトル領域におけるオーディオ信号を示す。図から分かるように、オーディオ信号は複数のサブバンド信号として表されている。各サブバンド信号301−30Kは、小さいボックス32により示されるサブバンド値の時間シーケンスより成る。図から分かるように、サブバンド信号301−30Kのサブバンド値32は、連続するフィルタバンク時間スロット34の各々について、各サブバンド301−30Kが正確に1つのサブバンド値32を含むように、互いに時間的に同期している。周波数軸36により示されるように、サブバンド信号301−30Kは異なる周波数領域に関連づけられ、かつ時間軸38によって示されるように、フィルタバンク時間スロット34は時間的に連続して配置されている。
先に概説したように、図3のサイド情報抽出器17は、入力されるオーディオ信号s1−sNからSAOCパラメータを計算する。現時点で実装されるSAOC標準によれば、エンコーダ10は、この計算を、フィルタバンク時間スロット34およびサブバンド分解により決定されるオリジナルの時間/周波数分解能より所定量だけ低減される場合のある時間/周波数分解能で実行し、この低減された所定量はサイド情報20内の情報としてデコーダ側へ知らされる。連続するフィルタバンク時間スロット34群はSAOCフレーム41を形成することができる。SAOCフレーム41内のパラメータ帯域の数も、同じくサイド情報20内の情報として伝達される。このように、時間/周波数領域は、図4において破線42により例示される時間/周波数タイルに分割される。図4において、パラメータ帯域は、時間/周波数タイルの規則的配列が得られるように、図示されている様々なSAOCフレーム41において同様に配分される。しかしながら、一般的には、パラメータ帯域は、個々のSAOCフレーム41におけるスペクトル分解能に対する異なる必要性に応じてSAOCフレーム41間で変わってもよい。さらに、SAOCフレーム41の長さも変わってもよい。結果として、時間/周波数タイルの配列は不規則であってもよい。それにもかかわらず、ある特定のSAOCフレーム41内の時間/周波数タイルは、典型的には同じ持続時間をもって時間方向に配列され、即ち、そのSAOCフレーム41内の全てのt/fタイルは、そのSAOCフレーム41の始まりにおいて始まり、かつそのSAOCフレーム41の終わりで終わる。
図3に描かれているサイド情報抽出器17は次の式に従ってSAOCパラメータを計算する。具体的には、サイド情報抽出器17は、各オブジェクトiのオブジェクトレベル差を、
Figure 0006185592
として計算する。ここで、和および指数n、kは各々、SAOCフレーム(または処理用時間スロット)の指数lとパラメータ帯域のmで表わされる所定の時間/周波数タイル42に属する全ての時間指数34および全てのスペクトル指数30に及ぶ。これにより、あるオーディオ信号またはオブジェクトiの全てのサブバンド値χiのエネルギーが合計され、かつ全てのオブジェクトまたはオーディオ信号のうちのそのタイルの最高エネルギー値に対して正規化される。xi n,k*はxi n,kの複素共役を示す。
さらに、SAOCサイド情報抽出器17は、異なる入力オブジェクトs1−sNのペアの対応する時間/周波数タイルの相似度(similarity measure)を計算することができる。SAOCサイド情報抽出器17は、入力オブジェクトs1−sNの全ペア間の相似度を計算してもよいが、計算した相似度を伝えることを抑えてもよく、または共通ステレオチャネルの右または左のチャネルを形成するオーディオオブジェクトs1−sNに対する相似度の計算を制限してもよい。いずれの場合も、相似度はオブジェクト間相互相関パラメータ(inter-object cross-correlation parameter)
Figure 0006185592
と呼ばれる。計算式は、次の通りである。
Figure 0006185592
ここで、同じく、指数nおよびkは所定の時間/周波数タイル42に属する全てのサブバンド値に及び、iおよびjはオーディオオブジェクトs1−sNの所定のペアを示し、かつRe{ }は複素引数の虚数部を放棄する演算を示す。
図3のダウンミキサ16は、オブジェクトs1−sNの各々へ適用される利得係数を用いてオブジェクトs1−sNをダウンミックスする。即ち、利得係数diがオブジェクトiへ適用され、次に、こうして重み付けされた全てのオブジェクトs1−sNが合計されてモノラルダウンミックス信号が得られる。これは、図3においてP=1の場合の例として示される。図3においてP=2として示される2チャネルダウンミックス信号の別の事例では、利得係数d1,iがオブジェクトiへ適用され、次にこうして利得増幅された全てのオブジェクトが合計されて左のダウンミックスチャネルL0が得られ、かつ利得係数d2,iがオブジェクトiへ適用され、次にこうして利得増幅された全てのオブジェクトが合計されて右のダウンミックスチャネルR0が得られる。多チャネルダウンミックス(P>2)の場合にも、上記と同様の処理が適用される。
このダウンミックス処方は、ダウンミックス利得DMGiによってデコーダ側へ伝えられ、ステレオダウンミックス信号の場合はダウンミックス・チャネル・レベル差DCLDiによってデコーダ側へ伝えられる。
ダウンミックス利得は、次式、
DMGi=20log10(di+ε) (モノラルダウンミックス)、
DMGi=10log10(d11,i 2+d12,i 2+ε) (ステレオダウンミックス)、
に従って計算される。但し、εは10-9のような小値である。
DCLDの場合、次の公式が適用される。
Figure 0006185592
正規モードにおいて、ダウンミキサ16は、ダウンミックス信号を、モノラルダウンミックスの場合、
Figure 0006185592
に従って、または、ステレオダウンミックスの場合、
Figure 0006185592
に従って各々生成する。
したがって、上述の式において、変数OLDとIOCはオーディオ信号の関数であり、変数DMGとDCLDはdの関数である。ただし、dは時間に関しても周波数に関しても変わりうる。
したがって、正規モードにおいて、ダウンミキサ16は全てのオブジェクトs1−sNを優先順位をつけることなく、即ち全てのオブジェクトs1−sNを均等に扱ってミックスする。
デコーダ側において、アップミキサは、ダウンミックス手順の逆、および行列R(本明細書ではAと称する場合もある)で表される「レンダリング情報」26の実装を1つの計算ステップにおいて、即ち、2チャネルダウンミックスの場合、
Figure 0006185592
において実行する。但し、行列Eは変数OLDおよびIOCの関数であり、行列Dは、次式のようなダウンミックス係数を含む。
Figure 0006185592
行列Eは、オーディオオブジェクトs1−sNの推定される共分散行列である。現行のSAOC実装において、推定される共分散行列Eの計算は、典型的には、SAOCパラメータのスペクトル/時間分解能で実行され、即ち、各(l,m)について実行され、よって、推定される共分散行列をEl,mと書くことができる。推定される共分散行列El,mのサイズはN×Nであり、その係数は、次式のように定義される。
Figure 0006185592
したがって、
Figure 0006185592
である行列El,mは、i=jの場合、
Figure 0006185592
および
Figure 0006185592
であるので、その対角線沿いにオブジェクトレベル差、即ちi=jの場合の
Figure 0006185592
を有する。その対角線の外側において、推定される共分散行列Eは、オブジェクト間相互相関度(inter-object cross-correlation measure)
Figure 0006185592
で重み付けされたオブジェクトiおよびj各々のオブジェクトレベル差の幾何学的平均を表す行列係数を有する。
図5は、SAOCエンコーダ10の一部としてのサイド情報推定器(SIE:Side Information Estimator)の例に関する可能な1つの実装原理を表示したものである。SAOCエンコーダ10は、ミキサ16と、サイド情報推定器(SIE)17とを備えている。サイド情報推定器は、概念的には2つのモジュールより成る。一方のモジュール45は各信号の短時間ベースのt/f表現(例えば、STFTまたはQMF)を計算する。計算された短時間t/f表現は、第2のモジュール46、即ちt/f選択性サイド情報推定モジュール(t/f−SIE:t/f-selective Side Information Estimation module)へ供給される。t/f−SIEモジュール46は各t/f−タイル毎にサイド情報を計算する。現行のSAOC実装においては、時間/周波数変換は固定されており、オーディオオブジェクトs1−sNの全てについて同一である。さらに、SAOCパラメータは、全てのオーディオオブジェクトで同一でありかつ全てのオーディオオブジェクトs1−sNで同じ時間/周波数分解能を有するSAOCフレームに渡って決定され、かくして、幾つかの事例における精密な時間分解能、または他の事例における精密なスペクトル分解能に対するオブジェクト固有のニーズは無視されている。
以下、本発明の実施形態について説明する。
図1Aは、一実施形態による、複数の時間領域ダウンミックスサンプルを含むダウンミックス信号から、1つまたは複数のオーディオ出力チャネルを含むオーディオ出力信号を生成するためのデコーダを示す。そのダウンミックス信号は、2つ以上のオーディオオブジェクト信号を符号化する。
このデコーダは、(例えば、パラメトリックサイド情報、例えばオブジェクトレベル差、に基づいて)複数の分析ウインドウを決定するためのウインドウシーケンス発生器134を備えており、各分析ウインドウはダウンミックス信号の複数の時間領域ダウンミックスサンプルを含む。複数の分析ウインドウの各分析ウインドウは、その分析ウインドウの時間領域ダウンミックスサンプルの数を示すウインドウ長さを有する。ウインドウシーケンス発生器134は、各分析ウインドウのウインドウ長さが2つ以上のオーディオオブジェクト信号のうちの少なくとも1つの信号の信号特性に依存するように、複数の分析ウインドウを決定すべく構成されている。例えば、ウインドウ長さは、その分析ウインドウが、2つ以上のオーディオオブジェクト信号のうちの少なくとも1つの信号の信号変化がダウンミックス信号によって符号化されつつあることを示す過渡を含むかどうかに依存することができる。
複数の分析ウインドウの決定に際して、ウインドウシーケンス発生器134は、各分析ウインドウのウインドウ長さが2つ以上のオーディオオブジェクト信号のうちの少なくとも1つの信号の信号特性に依存するように、例えば、パラメトリックサイド情報、例えば2つ以上のオーディオオブジェクト信号に関連する送信されたオブジェクトレベル差、を分析して分析ウインドウのウインドウ長さを決定することができる。あるいは、例えば、複数の分析ウインドウの決定に際して、ウインドウシーケンス発生器134は、ウインドウの形状または分析ウインドウ自体を分析してもよく、その場合、ウインドウ形状または分析ウインドウは、例えば、ビットストリームにおいてエンコーダからデコーダへ送信することができ、各分析ウインドウのウインドウ長さは、2つ以上のオーディオオブジェクト信号のうちの少なくとも1つの信号の信号特性に依存する。
さらに、このデコーダは、変換されたダウンミックスを得るために、複数の分析ウインドウの各分析ウインドウの複数の時間領域ダウンミックスサンプルを、その分析ウインドウのウインドウ長さに依存して時間領域から時間−周波数領域へ変換するためのt/f分析モジュール135を備えている。
さらに、このデコーダは、オーディオ出力信号を得るために、変換されたダウンミックスを、2つ以上のオーディオオブジェクト信号に関するパラメトリックサイド情報に基づいてアンミックスするための非混合ユニット136を備えている。
下記の実施形態は特別なウインドウシーケンス構成機構を用いる。ウインドウ長さNwについて、指数範囲0≦n≦Nw−1のプロトタイプウインドウ関数f(n,Nw)が定義される。単一のウインドウWk(n)を設計すると、3つの制御ポイント、即ち先行ウインドウ、現行ウインドウおよび次のウインドウの中心ck-1、ckおよびck+1が必要とされる。
これらを用いると、ウインドウイング関数は、次式のように定義される。
Figure 0006185592
よって、実際のウインドウの位置は、
Figure 0006185592
但し
Figure 0006185592
である(
Figure 0006185592
は、次の整数への引数の切り上げ演算を示し、かつ
Figure 0006185592
は、同様に次の整数への引数の切り捨て演算を示す)。本例示において使用されるプロトタイプウインドウ関数は、
Figure 0006185592
として定義される正弦波ウインドウであるが、他の形式を用いることもできる。過渡の位置tは、3つのウインドウの中心ck-1=t−lb、ck=tおよびck+1=t+laを画定し、数字lbおよびlaは過渡前後の所望されるウインドウ範囲を画定する。
後に、図9に関連して説明するように、ウインドウシーケンス発生器134は、例えば、過渡が複数の分析ウインドウのうちの第1の分析ウインドウと第2の分析ウインドウによって構成されるように、複数の分析ウインドウを決定すべく構成することができる。その場合、過渡の位置tによって、第1の分析ウインドウの中心ckはck-1=t−lbと画定され、第1の分析ウインドウの中心ck+1はck+1=t+laと画定される。laとlbは数字である。
後に、図10に関連して説明するように、ウインドウシーケンス発生器134は、例えば、過渡が複数の分析ウインドウのうちの第1の分析ウインドウによって構成されるように、複数の分析ウインドウを決定すべく構成してもよい。その場合、過渡の位置tによって、第1の分析ウインドウの中心ckはck=tと画定され、複数の分析ウインドウのうちの第2の分析ウインドウの中心ck-1はck-1=t−lbと画定され、かつ複数の分析ウインドウのうちの第3の分析ウインドウの中心ck+1はck+1=t+laと画定される。laとlbは数字である。
後に、図11に関連して説明するように、ウインドウシーケンス発生器134は、例えば、複数の分析ウインドウの各々が第1の数の時間領域信号サンプルまたは第2の数の時間領域信号サンプルの何れかを含むように複数の分析ウインドウを決定すべく構成してもよい。その場合、第2の数の時間領域信号サンプルは第1の数の時間領域信号サンプルより多く、かつ複数の分析ウインドウの各分析ウインドウは、その分析ウインドウが過渡を含む場合に第1の数の時間領域信号サンプルを含む。
一実施形態において、t/f分析モジュール135は、各分析ウインドウの時間領域ダウンミックスサンプルを、QMFフィルタバンクとナイキスト・フィルタバンクを使用することにより時間領域から時間−周波数領域へ変換するように構成されており、t/f分析ユニット135は、各分析ウインドウの複数の時間領域信号サンプルをその分析ウインドウのウインドウ長さに依存して変換するように構成されている。
図2Aは2つ以上の入力されたオーディオオブジェクト信号を符号化するためのエンコーダを示す。2つ以上の入力されたオーディオオブジェクト信号は各々、複数の時間領域信号サンプルを含む。
このエンコーダは、複数の分析ウインドウを決定するためのウインドウシーケンス・ユニット102を備えている。各分析ウインドウは入力されたオーディオオブジェクト信号のうちの1つの信号の複数の時間領域信号サンプルを含み、各分析ウインドウはその分析ウインドウの時間領域信号サンプルの数を示すウインドウ長さを有する。ウインドウシーケンス・ユニット102は、各分析ウインドウのウインドウ長さが2つ以上の入力されたオーディオオブジェクト信号のうちの少なくとも1つの信号の信号特性に依存するように、複数の分析ウインドウを決定すべく構成されている。例えば、ウインドウ長さは、その分析ウインドウが、2つ以上の入力されたオーディオオブジェクト信号のうちの少なくとも1つの信号の信号変化を示す過渡を含むかどうかに依存することができる。
さらに、このエンコーダは、変換された信号サンプルを得るために、各分析ウインドウの時間領域信号サンプルを時間領域から時間−周波数領域へ変換するためのt/f分析ユニット103を備えている。t/f分析ユニット103は、各分析ウインドウの複数の時間領域信号サンプルを、その分析ウインドウのウインドウ長さに依存して変換するように構成することができる。
さらに、このエンコーダは、パラメトリックサイド情報を変換された信号サンプルに依存して決定するためのPSI推定ユニット104を備えている。
一実施形態において、このエンコーダは、例えば、分析ウインドウの各々について、その分析ウインドウが2つ以上の入力されたオーディオオブジェクト信号のうちの少なくとも1つの信号の信号変化を示す過渡を含むかどうかを決定するために、2つ以上の入力されたオーディオオブジェクト信号の複数のオブジェクトレベル差を決定するように構成され、かつオブジェクトレベル差のうちの第1の差と第2の差との差がしきい値を超えているかどうかを決定するように構成された過渡検出ユニット101をさらに備えることができる。
一実施形態によれば、過渡検出ユニット101は、オブジェクトレベル差のうちの第1の差と第2の差との差がしきい値を超えているかどうかを決定するために、検出関数d(n)を使用するように構成され、その検出関数d(n)は、
Figure 0006185592
として定義される。但し、nは時間指数を示し、iは第1のオブジェクトを示し、jは第2のオブジェクトを示し、bはパラメトリック帯域を示す。OLDは、例えば、オブジェクトレベル差を示すことができる。
後に、図9に関連して説明するように、ウインドウシーケンス・ユニット102は、例えば、2つ以上の入力されたオーディオオブジェクト信号のうちの少なくとも1つの信号の信号変化を示す過渡が複数の分析ウインドウのうちの第1の分析ウインドウと第2の分析ウインドウによって構成されるように、複数の分析ウインドウを決定すべく構成することができる。その場合、過渡の位置tによって、第1の分析ウインドウの中心ckはck=t−lbと画定され、第1の分析ウインドウの中心ck+1はck+1=t+laと画定される。laとlbは数字である。
後に、図10に関連して説明するように、ウインドウシーケンス・ユニット102は、例えば、2つ以上の入力されたオーディオオブジェクト信号のうちの少なくとも1つの信号の信号変化を示す過渡が複数の分析ウインドウのうちの第1の分析ウインドウによって構成されるように、複数の分析ウインドウを決定すべく構成してもよい。その場合、過渡の位置tによって、第1の分析ウインドウの中心ckはck=tと画定され、複数の分析ウインドウのうちの第2の分析ウインドウの中心ck-1はck-1=t−lbと画定され、かつ複数の分析ウインドウのうちの第3の分析ウインドウの中心ck+1はck+1=t+laと画定される。laとlbは数字である。
後に、図11に関連して説明するように、ウインドウシーケンス・ユニット102は、例えば、複数の分析ウインドウの各々が第1の数の時間領域信号サンプルまたは第2の数の時間領域信号サンプルの何れかを含むように、複数の分析ウインドウを決定すべく構成してもよい。その場合、第2の数の時間領域信号サンプルは、第1の数の時間領域信号サンプルより多く、かつ複数の分析ウインドウの各分析ウインドウは、その分析ウインドウが2つ以上の入力されたオーディオオブジェクト信号のうちの少なくとも1つの信号の信号変化を示す過渡を含む場合に第1の数の時間領域信号サンプルを含む。
一実施形態によれば、t/f分析ユニット103は、各分析ウインドウの時間領域信号サンプルを、QMFフィルタバンクとナイキスト・フィルタバンクを使用することにより時間領域から時間−周波数領域へ変換するように構成されており、t/f分析ユニット103は、各分析ウインドウの複数の時間領域信号サンプルをその分析ウインドウのウインドウ長さに依存して変換するように構成されている。
以下、実施形態による、後方互換性のある適応フィルタバンクを用いる強化されたSAOCについて述べる。
まず、強化されたSAOCデコーダによる標準SAOCビットストリームの復号について説明する。
この強化SAOCデコーダは、標準SAOCエンコーダからのビットストリームを高品質で復号することができるように設計されている。その復号は、パラメトリック復元のみに限定され、残余ストリームの可能性は無視される。
図6は一実施形態による強化SAOCデコーダを描いたブロック図であり、標準SAOCビットストリームの復号を示している。太黒字の機能ブロック(132、133、134、135)は本発明による処理を示す。パラメトリックサイド情報(PSI:parametric side information)は、オブジェクトレベル差(OLD)、オブジェクト間相関(IOC)、およびデコーダにおける個々のオブジェクトからダウンミックス信号(DMXオーディオ)を生成するために使用されるダウンミックス行列Dの集合より成る。各パラメータセットは、パラメータが関連する時間領域を画定するパラメータ境界に関連づけられる。標準SAOCにおいて、基礎を成す時間/周波数表現の周波数ビンは、パラメトリック帯域にグルーピングされる。帯域の間隔はヒト聴覚系における臨界帯域のそれに似ている。さらに、複数のt/f表現フレームは、パラメータフレームにグルーピングすることができる。これらの動作は共に、モデリングの不正確さという犠牲を伴うが、必要とされるサイド情報の量を低減させる。
SAOC標準において述べたように、OLDおよびIOCは、非混合行列(un-mixing matrix)G=EDTJを計算するために使用され、ここで、Eの要素は、
Figure 0006185592
であってオブジェクト相互相関行列に近似し、iとjはオブジェクト指数であり、J≒(DEDT-1であり、かつDTはDの転置行列である。非混合行列計算器131は、適宜、非混合行列を計算するように構成することができる。
非混合行列は、次に、時間補間器132によって、標準SAOCのように、先行フレームの非混合行列からパラメータフレームを経て推定値が到達するパラメータ境界まで線形補間される。これにより、結果的に、各時間/周波数分析ウインドウおよびパラメトリック帯域毎に非混合行列が生じる。
非混合行列のパラメトリック帯域周波数分解能は、ウインドウ周波数分解能適合化ユニット133によって、その分析ウインドウにおける時間−周波数表現の分解能まで拡張される。時間フレームにおけるパラメトリック帯域bの補間された非混合行列がG(b)として定義される場合は、そのパラメトリック帯域内部の全ての周波数ビンに同じ非混合係数(un-mixing coefficient)が使用される。
ウインドウシーケンス発生器134は、PSIからのパラメータセット範囲情報を用いて、入力されたダウンミックスオーディオ信号を分析するための適切なウインドウイングシーケンスを決定するように構成されている。主たる要件は、そのPSIにパラメータセット境界が存在すれば、連続する分析ウインドウ間のクロスオーバーポイントがこれに一致しなければならないことである。ウインドウイングは、各ウインドウ内のデータの周波数分解能(先に述べたように、非混合データ(un-mixing data)拡張に使用される)も決定する。
ウインドウイングされたデータは、次に、t/f分析モジュール135により、適切な時間−周波数変換、例えば離散フーリエ変換(DFT:Discrete Fourier Transform)、複素修正離散コサイン変換(CMDCT:Complex Modified Discrete Cosine Transform)または奇積層離散フーリエ変換(ODFTOddly stacked Discrete Fourier Transform)を用いて、周波数領域表現に変換される。
最後に、非混合ユニット136は、ダウンミックス信号Xのスペクトル表現に、フレーム当たり周波数ビン当たりの非混合行列を適用して、パラメトリック復元Yを取得する。出力チャネルjは、ダウンミックスチャネルの線形結合
Figure 0006185592
である。
このプロセスによって達成できる品質は、ほとんどの目的に関して、標準SAOCデコーダによって達成される結果とは知覚的に区別不可能である。
なお、これまでの記述は、個々のオブジェクトの復元に関するものであるが、標準SAOCにおいてf、レンダリングは、非混合行列に含まれ、即ち、パラメトリック補間に含まれている。線形演算としては、演算の順序は問題ではないが、差分には注目すべきである。
以下、強化SAOCデコーダによる強化SAOCビットストリームの復号について述べる。
強化SAOCデコーダの主要な機能については、標準SAOCビットストリームの復号において既に述べた。本項では、PSIに導入される強化されたSAOCエンハンスメントを如何に用いれば、より高い知覚品質を達成できるか、について詳述する。
図7は、一実施形態によるデコーダの主要な機能ブロックを描いたものであり、周波数分解能エンハンスメントの復号を示している。太黒字の機能ブロック(132、133、134、135)は本発明による処理を示す。
まず、帯域上値拡張ユニット141は、各パラメトリック帯域のOLDおよびIOC値を、エンハンスメントにおいて使用される周波数分解能、例えば1024ビンへ適合させる。これは、パラメトリック帯域に対応する周波数ビン上の値を複製することによって行われる。これにより、新しいOLD
Figure 0006185592
およびIOC
Figure 0006185592
が生じる。K(f,b)は、次式によって、周波数ビンfのパラメトリック帯域bへの割当てを定義するカーネル行列である。
Figure 0006185592
これと並行して、デルタ関数回復ユニット142は、補正係数パラメータ化を反転して、拡張されたOLDおよびIOCと同じサイズのデルタ関数
Figure 0006185592
を得る。
次に、デルタ適用ユニット143が拡張されたOLD値にデルタを適用し、精密分解能OLD値が、
Figure 0006185592
によって得られる。
ある特定の実施形態において、非混合行列の計算は、例えば、非混合行列計算器131によって、標準SAOCビットストリームの復号と同様に、即ち、G(f)=E(f)DT(f)J(f)により行うことができる。ここで、
Figure 0006185592
およびJ(f)≒(D(f)E(f)DT(f))-1である。望むなら、レンダリング行列は、非混合行列G(f)へ乗算することができる。続いて、標準SAOCのように、時間補間器132による時間補間が行われる。
各ウインドウ内の周波数分解能は、公称高周波数分解能とは異なる(通常は低い)場合があることから、ウインドウ周波数分解能適合化ユニット133は、非混合行列をオーディオからのスペクトルデータの分解能に整合させ、これを適用可能にすべく適合化する必要がある。これは、例えば、周波数軸上の係数を適正な分解能へリサンプリングすることによって行なうことができる。あるいは、分解能が整数倍であれば、単に、高分解能データから、より低い分解能における1つの周波数ビンに対応する指数を平均することによって行なうことができる。
Figure 0006185592
ビットストリームからのウインドウイングシーケンス情報は、エンコーダにおいて使用されるものに対して完全に相補的な時間−周波数分析を達成するために使用することができ、または、ウインドウイングシーケンスは、標準SAOCビットストリームの復号において行われるように、パラメータ境界に基づいて構成することができる。そのためにウインドウシーケンス発生器134を使用することができる。
次に、ダウンミックスオーディオの時間−周波数分析が、t/f分析モジュール135により、所定のウインドウを用いて実行される。
最後に、時間補間されかつ(おそらくは)スペクトル的に適合化された非混合行列が、非混合ユニット136によって、入力オーディオの時間−周波数表現に適用され、出力チャネルjを入力チャネルの線形結合として得ることができる。
Figure 0006185592
以下、後方互換性のある強化されたSAOC符号化について述べる。
それでは、後方互換性サイド情報部分および追加的なエンハンスメントを含むビットストリームを生成する強化されたSAOCエンコーダについて述べる。既存の標準SAOCデコーダは、PSIの後方互換性部分を復号し、かつオブジェクトの復元を生成することができる。強化SAOCデータにより使用される追加情報は、ほとんどの場合で、復元の知覚品質を向上させる。さらに、強化SAOCデコーダが限定的なリソース上で実行されている場合は、エンハンスメントは無視される可能性があっても、基本的な品質の復元は達成される。留意すべきことは、標準SAOCデコーダからの復元と、標準SAOC準拠PSIのみを用いる強化SAOCデコーダからの復元とは異なるが、知覚的には極めて似ていると判断されることである(その相違は、標準SAOCビットストリームを強化SAOCデコーダで復号する場合と同類のものである)。
図8は、上述のエンコーダのパラメトリック経路を実装した特定の一実施形態によるエンコーダを示すブロック図である。太黒字の機能ブロック(102、103)が本発明による処理を示す。具体的には、図8は、より有能なデコーダのためのエンハンスメントによって後方互換性のあるビットストリームを生成する2段符号化を示すブロック図である。
まず、信号は分析フレームに細分され、分析フレームは次に周波数領域へ変換される。複数の分析フレームが固定長のパラメータフレームにグルーピングされる。固定長のパラメータフレームは、例えば、標準SAOCでは、16および32分析フレームの長さが一般的である。そのパラメータフレームの間は、信号特性は準定常に留まり、よって唯一のパラメータセットで特徴づけることができると想定される。信号特性がパラメータフレーム内で変わればモデリングエラーを被るので、より長いパラメータフレームは準定常の想定が満たされるようになる部分に細分することが有益であろう。このために、過渡検出が必要とされる。
過渡は、入力される全てのオブジェクトから過渡検出ユニット101によって別々に検出することができ、それらのオブジェクトのうちの唯一のオブジェクトにおいて過渡事象が存在すれば、その位置がグローバルな過渡位置とされる。過渡位置の情報は適切なウインドウイングシーケンスを構成するために使用される。その構成は、例えば、次の論理に基づくことができる。
- デフォルトウインドウ長さ、即ちデフォルトの信号変換ブロックの長さを、例えば2048サンプルに設定する。
- パラメータフレームの長さを、例えば、50%の重なりをもった4つのデフォルトウインドウに対応する4096サンプルに設定する。パラメータフレームは、複数のウインドウを纏めてグルーピングし、ウインドウ毎に記述子を別々に有する代わりに、ブロック全体に単一の信号記述子セットが使用される。これにより、PSIの量を減らすことができる。
- 過渡が検出されていなければ、デフォルトウインドウおよびパラメータフレーム全長を用いる。
- 過渡が検出されれば、過渡の位置においてより優れた時間分解能を与えるようにウインドウイングを適合化する。
ウインドウシーケンス・ユニット102は、ウインドウイングシーケンスを構成する一方で、1つまたは複数の分析ウインドウからパラメータサブフレームも生成する。各サブセットが構成要素として分析され、サブブロック毎に唯一のPSIパラメータセットが送信される。標準SAOCと互換性のあるPSIを生成するために、規定のパラメータブロック長さが主たるパラメータブロック長さとして使用され、そのブロック内に位置決めされる可能な過渡がパラメータサブセットを規定する。
構成されたウインドウシーケンスは、t/f分析ユニット103が実行する入力オーディオ信号の時間−周波数分析のために出力され、PSIの強化SAOCエンハンスメント部分において送信される。
各分析ウインドウのスペクトルデータは、PSI推定ユニット104によって、後方互換性のある(例えば、MPEG)SAOC部分のPSIを推定するために使用される。このPSIの推定は、複数個のスペクトルビンをMPEG SAOCのパラメトリック帯域へグルーピングし、かつこれらの帯域内のIOC、OLDおよび絶対オブジェクトエネルギー(NRG)を推定することによって行われる。MPEG SAOCの表記法におおまかに従えば、パラメータ化タイルにおける2つのオブジェクトスペクトルSi(f,n)とSj(f,n)の正規化積は、
Figure 0006185592
と定義される。但し、行列
Figure 0006185592
は、次式によって、(このパラメータフレームにおけるN個のフレームの)フレームnにおけるFnt/f表現ビンからパラメトリックB帯域へのマッピングを定義し、
Figure 0006185592
かつ、S*はSの複素共役である。スペクトル分解能は、1つのパラメータブロック内のフレーム間で変わる可能性があり、よって、マッピング行列はデータを共通の分解能ベースに変換する。このパラメータ化タイルにおける最大オブジェクトエネルギーは、最大オブジェクトエネルギー
Figure 0006185592
であるものとして定義される。この値を得れば、OLDは、次式のような正規化されたオブジェクトエネルギーであるものと定義される。
Figure 0006185592
最後に、IOCはクロスパワーから次式のように得ることができる。
Figure 0006185592
これにより、ビットストリームの標準SAOC互換部分の推定が完結する。
粗パワースペクトル復元ユニット105は、OLDおよびNRGを用いてパラメータ分析ブロックにおいてスペクトル包絡線の概算を復元するように構成されている。包絡線は、このブロックにおいて使用される最も高い周波数分解能で構成される。
各分析ウインドウのオリジナルのスペクトルは、パワースペクトル推定ユニット106によって、そのウインドウにおけるパワースペクトルを計算するために使用される。
得られたパワースペクトルは、周波数分解能適合化ユニット107によって、共通の高周波数分解能表現へ変換される。これは、例えば、パワースペクトル値の補間によって行うことができる。次に、パラメータブロック内のスペクトルを平均することにより、パワースペクトルの平均プロファイルが計算される。これは、パラメトリック帯域集計を省略するOLD推定にほぼ一致する。得られたスペクトルプロファイルは、精密分解能OLDとして考慮される。
デルタ推定ユニット108は、補正係数「デルタ」を、例えば、精密分解能OLDを粗なパワースペクトル復元で除することによって推定するように構成することができる。その結果、これは、各周波数ビンに対し、粗なスペクトルが与えられたとすると精密分解能OLDを近似するのに使用することのできる1つの(倍数的な)補正係数を与えるものである。
最後に、デルタモデリングユニット109は、推定された補正係数を送信用に効率的にモデリングするように構成されている。
効果的には、ビットストリームに対する強化SAOCの修正は、ウインドウイングシーケンス情報と、「デルタ」を送信するためのパラメータとより成る。
以下、過渡検出について述べる。
信号特性が準定常のままであれば、(サイド情報の量に関する)符号化利得は、幾つかの時間フレームをパラメータブロックに結合することによって得ることができる。例えば、標準SAOCの場合、1パラメータブロック当たり16QMFフレームと32QMFフレームという値がよく使用される。これらは、各々、1024サンプルおよび2048サンプルに相当する。パラメータブロックの長さは予め固定値に設定することができる。これによる1つの直接的効果はコーデック遅延である(エンコーダは、フルフレームを保有しなければ、これを符号化することができない)。長いパラメトリックブロックを用いる場合、基本的には準定常な想定が破られる場合の信号特性の著しい変化を検出することが有益であると思われる。著しい変化の位置を発見した後は、その位置で時間領域信号を分割することができ、準定常な想定は、これらの部分によって再びより良好に達成することができる。
ここでは、SAOCに関連して使用されるべき新しい過渡検出方法について述べる。厳密な見方をすれば、本方法の目的は、過渡の検出ではなく、例えば音オフセットによって同じくトリガされる可能性のある信号パラメータ化の変化を検出することにある。
入力信号は、短い、重なり合ったフレームに分割され、かつこれらのフレームは、例えば離散フーリエ変換(DFT:Discrete Fourier Transform)によって周波数領域へ変換される。複素スペクトルは、その複素共役を有する値を乗算する(即ち、その絶対値を二乗する)ことにより、パワースペクトルへ変換される。次に、標準SAOCにおいて使用されるものに類似するパラメトリック帯域グルーピングが使用され、各オブジェクトにおける各時間フレーム内の各パラメトリック帯域のエネルギーが計算される。演算は、簡単に言えば、
Figure 0006185592
であり、ここで、Si(f,n)はオブジェクトiの時間フレームnにおける複素スペクトルである。合計は、帯域bにおける周波数ビンfに渡って行われる。データから何らかの雑音効果を除去するために、値は、一次IIRフィルタ
Figure 0006185592
によって低域通過フィルタリングされる。但し、0≦aLP≦1はフィルタフィードバック係数であり、例えば、aLP=0.9である。
SAOCにおける主たるパラメータ化は、オブジェクトレベル差(OLD)である。提案する検出方法は、OLDがいつ変わるか、を検出しようとする。したがって、全てのオブジェクトペアが、
Figure 0006185592
を用いて調べられる。全ての一意のオブジェクトペアの変化は、次式によって検出関数へと合計される。
Figure 0006185592
取得された値は、しきい値Tと比較されて僅かなレベル偏差がフィルタリングで除かれ、連続する検出間の最小距離Lが強化される。したがって、検出関数は、次のようになる。
Figure 0006185592
以下、強化されたSAOC周波数分解能について述べる。
標準SAOC分析から得られる周波数分解能は、標準SAOCにおいて最大値28を有するパラメトリック帯域数に限定される。これらは、最も低い帯域上でこれらの帯域をさらに4つまでの複合サブバンドに分割するハイブリッドフィルタリング段へと続く64バンドQMF分析より成るハイブリッドフィルタバンクから得られる。取得される周波数帯域は、ヒト聴覚系の臨界帯域分解能を模倣するパラメトリック帯域にグルーピングされる。そのグルーピングにより、必要とされるサイド情報データレートを下げることができる。
既存のシステムは、適度に低いデータレートであれば適度な分離品質をもたらす。主たる問題点は、トーン音をきれいに分離するには不十分な周波数分解能にある。これは、オブジェクトのトーン成分を取り巻く他のオブジェクトの「ハロ(halo)」として表れる。知覚的には、これは、粗さまたはボコーダ状アーティファクトとして観測される。このハロの有害な影響は、パラメトリック周波数分解能を増大させることによって減らすことができる。(44.1kHzのサンプリング速度で)512バンド以上の分解能は、試験信号において知覚的に良好な分離をもたらすことが示されている。この分解能は、既存のシステムのハイブリッドフィルタリング段を拡張することによって達成することも可能ではあるが、十分な分離のためにはハイブリッドフィルタが極めて高次である必要があると思われ、計算コストが高くなる。
必要とされる周波数分解能を達成する単純な方法は、DFTベースの時間周波数変換を用いることである。これらは、高速フーリエ変換(FFT:Fast Fourier Transform)アルゴリズムによって効率的に実装することができる。通常のDFTの代わりとなる代替方法としては、CMDCTまたはODFTが考えられる。相違点は、後者の2つが奇数であって、達成されるスペクトルが純粋な正および負の周波数を含むことにある。DFTと比較すると、周波数ビンは、0.5ビン幅だけシフトされる。DFTでは、一方のビンの中心が0Hzであり、かつもう一方のビンのそれはナイキスト周波数である。ODFTとCMDCTとの相違点は、CMDCTが位相スペクトルに影響する追加的な変調後演算を含むことにある。これによる利点は、結果的に得られる複素スペクトルが、変形離散コサイン変換(MDCT:Modified Discrete Cosine Transform)および変形離散サイン変換(MDST:Modified Discrete Sine Transform)より成ることにある。
長さNのDFTベース変換はN個の値を有する複素スペクトルを生成する。変換されたシーケンスが実数値であれば、完全な復元に必要なものはこれらの値のN/2個であり、他のN/2個の値はこれらの所与の値から単純な操作で得ることができる。分析は、通常、信号からN個の時間領域サンプルより成るフレームを取り出し、これらの値にウインドウイング関数を適用し、次にウインドウイングされたデータに対する実際の変換を計算して行なう。連続するブロックは、時間的に50%重複し、かつウインドウイング関数は、連続するウインドウの二乗の合計が1になるように設計される。これにより、ウインドウイング関数がデータに2回適用される場合(時間領域信号を分析する際の1回目と、合成変換後、重複加算前の2回目)、信号修正のない分析プラス合成チェーンは、ロスレスであることが保証される。
連続するフレーム間の重複が50%で、サンプルのフレーム長さが2048とすれば、効果的な時間分解能は1024サンプルである(44.1kHzのサンプリング速度における23.2ミリ秒に相当する)。これは、まず、標準SAOCエンコーダにより生成されるビットストリームを復号できること、第2に、必要であれば、信号を強化SAOCエンコーダにおいてより精密な時間分解能で分析できることが望ましい、という2つの理由にとって小さい値ではない。
SAOCでは、複数のブロックをパラメータフレームにグルーピングすることが可能である。信号特性は、パラメータフレームを通じて、そのパラメータフレームが単一のパラメータセットで特徴づけられるに足る類似性を保つことが想定される。標準SAOCにおいて通常遭遇するパラメータフレームの長さは、16QMFフレームまたは32QMFフレーム(標準により許容される長さは、72QMFフレームまで)である。高周波数分解能を有するフィルタバンクを用いる場合も類似のグルーピングを行うことができる。パラメータフレームの間に信号特性が変わらない場合、グルーピングは、品質低下を生じることのない符号化効率を提供する。しかしながら、パラメータフレーム内で信号特性が変わる場合、グルーピングは、エラーを誘導する。標準SAOCでは準定常信号によって使用されるデフォルトのグルーピング長さを規定できるだけでなく、パラメータサブブロックも規定できる。サブブロックはデフォルト長さより短いグルーピングを規定し、かつパラメータ化はサブブロック毎に別々に行われる。基礎を成すQMFバンクの時間分解能に起因して、結果的に得られる時間分解能は64時間領域サンプルであり、これは、高周波数分解能を有する固定フィルタバンクを用いて達成可能な分解能より遙かに精密である。この要件は、強化SAOCデコーダに影響を与える。
変換長さが大きいフィルタバンクの使用は、良好な周波数分解能を提供するが、同時に時間分解能は低下する(所謂、不確定性原理)。単一の分析フレーム内で信号特性が変われば、低時間分解能が合成出力におけるブラーリング(blurring)を引き起こすことがある。したがって、信号が著しく変化する位置においてサブフレーム時間分解能を達成することが有益であると思われる。サブフレーム時間分解能は、当然ながら、より低い周波数分解能に繋がるが、信号変化の間は、時間分解能の方が正確に捕捉されるべき重要な側面であることが想定される。このサブフレーム時間分解能要件は、主として強化SAOCエンコーダに(および必然的に、結果的にデコーダにも)影響を与える。
この同じ解法原理は次の2つの場合にも用いることができる。すなわち、信号が準定常である(過渡が検出されない)場合とパラメータ境界が存在しない場合に長い分析フレームを用いるということである。これらの2つの条件のうちの何れかが欠ければ、ブロック長さのスイッチングスキームを使用する。この条件に関しては、(標準SAOCビットストリームを復号する間に)分割されていないフレームグループ間に存在しかつ2つの長いウインドウ間のクロスオーバーポイントに一致するパラメータ境界を例外とすることができる。このような場合、信号特性は、高分解能フィルタバンクにとって十分な定常性を保つことが想定される。パラメータ境界が(ビットストリームまたは過渡検出器から)伝えられると、フレーミングはより小さいフレーム長さを用いるように調整され、よって、時間分解能が局部的に高まる。
最初の2実施形態は、同じ基本的なウインドウシーケンス構成機構を用いる。ウインドウ長さNのプロトタイプウインドウ関数f(n,N)を、指数範囲0≦n≦N−1で定義する。単一のウインドウWk(n)を設計すると、3つの制御ポイント、即ち先行ウインドウ、現行ウインドウおよび次のウインドウの中心、ck-1、ckおよびck+1が必要とされる。
これらを用いると、ウインドウイング関数は、次式のように定義される。
Figure 0006185592
よって、実際のウインドウの位置は、
Figure 0006185592
となる。但し、
Figure 0006185592
である。本例示において使用されるプロトタイプウインドウ関数は、
Figure 0006185592
として定義される正弦波ウインドウであるが、他の形式を用いることもできる。
以下、一実施形態による、過渡におけるクロスオーバについて述べる。
図9は、「過渡におけるクロスオーバ」ブロックのスイッチングスキームの原理を示したものである。具体的には、図9は、過渡におけるウインドウ・クロスオーバ・ポイントに対応するための正規ウインドウイングシーケンスの適合化を示す。線111は時間領域信号サンプルを表し、垂線112は検出された過渡(またはビットストリームからのパラメータ境界)の位置tを表し、線113はウインドウイング関数およびその時間範囲を示す。このスキームは、ウインドウの急峻さを規定する、過渡を取り巻く2つのウインドウwkとwk+1の間の重なりの量を決定することを必要とする。重なりの長さが小値に設定される場合、これらのウインドウは、その最大点を過渡の近くに有し、かつ過渡をまたぐ部分は急速に減衰する。重なりの長さも過渡の前後で異なる可能性がある。この手法では、過渡を囲む2つのウインドウまたはフレームの長さが調整される。過渡の位置は、取り囲むウインドウの中心をck=t−lbおよびck+1=t+laであるように画定する。ここで、lbおよびlaは、各々、過渡の前および後の重なりの長さである。これらが画定されれば、上述の方程式を用いることができる。
以下、一実施形態による過渡分離について述べる。
図10は、一実施形態による、過渡分離ブロックのスイッチングスキームの原理を示す。過渡上には短いウインドウwkの中心が位置し、隣接する2つのウインドウwk-1とwk+1は、この短いウインドウを補足するように調整される。効果的には、隣接するウインドウは過渡に位置に限定され、よって、先行するウインドウは過渡より前にのみ信号を含み、かつ後続ウインドウは過渡後にのみ信号を含む。この手法において、過渡は3つのウインドウの中心ck=t−lb、ck=tおよびck+1=t+laを画定し、lbおよびlaは過渡より前と後の所望されるウインドウ範囲を画定する。これらが画定されれば、上述の方程式を用いることができる。
以下、一実施形態による、AAC状フレーミングについて述べる。
先に述べた2つのウインドウイングスキームの自由度は、必ずしも必要とされない場合がある。知覚オーディオ符号化の分野では、異なる過渡処理も使用される。その場合の目的は、所謂プレエコーを引き起こすと思われる過渡の時間的拡散を低減することにある。MPEG−2/4AAC[AAC]では、LONG(サンプル長さ、2048)およびSHORT(サンプル長さ、256)という、2つの基本的なウインドウ長さが使用される。これらの2つに加えて、LONGからSHORTへ、かつその逆の遷移を有効化する2つの遷移ウインドウも規定されている。追加的な制約として、SHORTウインドウは8個のウインドウより成るグループにおいて発生する必要がある。この方法では、ウインドウ間およびウインドウグループ間のストライドが、1024サンプルという一定の値を保つ。
SAOCシステムが、オブジェクト信号、ダウンミックスまたはオブジェクト残留のためのAACベースコーデックを使用する場合は、このコーデックと容易に同期できるフレーミングスキームを有することが有益であると思われる。こうした理由により、AACウインドウに基づくブロックのスイッチングスキームについて述べる。
図11はAAC状ブロックスイッチングの一例を描いたものである。具体的には、図11は、過渡を有する同じ信号、および結果として生じるAAC状ウインドウイングシーケンスを示す。過渡の時間的位置は、8個のSHORTウインドウでカバーされ、これらは、LONGウインドウからLONGウインドウまでの遷移ウインドウによって囲まれていることが分かる。図から、過渡自体の中心は、単一のウインドウ内にも、2ウインドウ間のクロスオーバーポイントにも存在しないことが分かる。これは、ウインドウの位置が1つのグリッドに固定されるものの、このグリッドは、同時に一定のストライドを保証することに起因する。結果的に生じる時間的な丸め誤差は、LONGウインドウのみを使用することで生じる誤差に比べれば、知覚的に無関係であるとするに足る僅かなものであることが想定される。
ウインドウは、下記のように定義される。
- LONGウインドウ:WLONG(n)=f(n,NLONG)、但しNLONG=2048である。
- SHORTウインドウ:WSHORT(n)=f(n,NSHORT)、但しNSHORT=256である。
- LONGからSHORTへの遷移ウインドウ
Figure 0006185592
- SHORTからLONGへの遷移ウインドウ:WSTOP(n)=WSTART(NLONG−n−1)
以下、実施形態による実装変形例について述べる。
ブロックのスイッチングスキームに関わらず、設計の別の選択肢として、実際のt/f変換の長さがある。主たる目的が、後続の周波数領域演算をその分析フレームに渡って単純に保つことであれば、一定の変換長さを用いることができる。その長さは、適切な大値に、例えば、許容される最大フレームの長さに一致する大きな値に設定される。時間領域フレームがこの値より短ければ、その時間領域フレームは全長までゼロ詰めされる。留意すべきことは、ゼロ詰めの後、スペクトルがより多数のビンを有するとしても、実際の情報の量は、より短い変換と比較して増大されないことである。この場合、カーネル行列K(b,f,n)は、nの全ての値に対して同じ次元を有する。
別の代替方法は、ウインドウイングされたフレームをゼロ詰めなしに変換するものである。これは、計算の複雑さが一定の変換長さの場合より小さい。しかしながら、カーネル行列K(b,f,n)の場合、連続するフレーム間の異なる周波数分解能を考慮する必要がある。
以下、一実施形態による拡張されたハイブリッドフィルタリングについて述べる。
より高い周波数分解能を達成するための別の可能性は、標準SAOCに使用されるハイブリッドフィルタバンクを、より精密な分解能用に修正することにあると思われる。標準SAOCでは、64個のQMF帯域のうちの最下の3つがナイキスト−フィルタバンクを通過され、帯域コンテンツがさらに細分される。
図12は拡張されたQMFハイブリッドフィルタリングを示す。ナイキストフィルタはQMF帯域毎に別々に反復され、出力は単一の高分解能スペクトル用に結合される。具体的には、図12は、各QMF帯域を、例えば16のサブバンドに細分する(32サブバンドへの複素フィルタリングを必要とする)、DFTベース手法が必要とするものに比較し得る周波数分解能を達成する方法を示している。この手法の欠点は、必要とされるフィルタプロトタイプが、帯域の狭さに起因して長いことにある。これにより、何らかの処理遅延が生じ、かつ計算の複雑さが増す。
ある代替方法は、ナイキストフィルタ・セットを効率的なフィルタバンク/変換(例えば、「ズーム」DFT、離散コサイン変換、他)で置換することにより、拡張されたハイブリッドフィルタリングを実装することである。さらに、結果的な高分解能スペクトル係数に包含される、第1のフィルタ段(この場合は、QMF)の漏出効果に起因して生じるエイリアシングは、周知のMPEG−1/2レイヤ3ハイブリッドフィルタバンク[FB][MPEG−1]に類似する高分解能スペクトル係数のエイリアシング相殺ポスト処理によって大幅に低減させることができる。
図1Bは、ある対応する実施形態による、複数の時間領域ダウンミックスサンプルを含むダウンミックス信号から、1つまたは複数のオーディオ出力チャネルを含むオーディオ出力信号を生成するためのデコーダを示す。ダウンミックス信号は、2つ以上のオーディオオブジェクト信号を符号化する。
このデコーダは、複数のサブバンドサンプルを含む複数のサブバンドを得るために、複数の時間領域ダウンミックスサンプルを変換するための第1の分析サブモジュール161を備えている。
さらに、このデコーダは、複数の分析ウインドウを決定するためのウインドウシーケンス発生器162を備え、各分析ウインドウは複数のサブバンドのうちの1つのサブバンドの複数のサブバンドサンプルを含み、複数の分析ウインドウの各分析ウインドウはその分析ウインドウのサブバンドサンプルの数を示すウインドウ長さを有する。ウインドウシーケンス発生器162は、各分析ウインドウのウインドウ長さが2つ以上のオーディオオブジェクト信号のうちの少なくとも1つの信号の信号特性に依存するように、複数の分析ウインドウを、例えばパラメトリックサイド情報に基づいて決定すべく構成されている。
さらに、このデコーダは、変換されたダウンミックスを得るために、複数の分析ウインドウの各分析ウインドウの複数のサブバンドサンプルを、その分析ウインドウのウインドウ長さに依存して変換するための第2の分析モジュール163を備えている。
さらに、このデコーダは、オーディオ出力信号を得るために、変換されたダウンミックスを、2つ以上のオーディオオブジェクト信号に関するパラメトリックサイド情報に基づいてアンミックスするための非混合ユニット164を備えている。
言い替えれば、その変換は2段階で実行される。第1の変換段階では、各々が複数のサブバンドサンプルを含む複数のサブバンドが生成される。次に、第2の段階において、さらなる変換が実行される。とりわけ、第2の段階に使用される分析ウインドウは、結果的に得られる変換されたダウンミックスの時間分解能および周波数分解能を決定する。
図13は、変換にショートウインドウが使用される一例を示す。ショートウインドウの使用は、低周波数分解能に繋がるが、時間分解能を高くする。ショートウインドウの使用は、例えば、符号化されたオーディオオブジェクト信号に過渡が存在する場合に適切であることがある。(ui,jはサブバンドサンプルを示し、vs,rは時間−周波数領域における変換されたダウンミックスのサンプルを示す。)
図14は、変換に、図13の例よりも長いウインドウが使用される一例を示す。ロングウインドウの使用は、高周波数分解能に繋がるが、時間分解能を低くする。ロングウインドウの使用は、例えば、符号化されたオーディオオブジェクト信号に過渡が存在しない場合に適切であることがある。(この場合も同じく、ui,jはサブバンドサンプルを示し、vs,rは時間−周波数領域における変換されたダウンミックスのサンプルを示す。)
図2Bは、一実施形態による、2つ以上の入力されたオーディオオブジェクト信号を符号化するための対応するエンコーダを示す。2つ以上の入力されたオーディオオブジェクト信号は各々、複数の時間領域信号サンプルを含む。
このエンコーダは、複数のサブバンドサンプルを含む複数のサブバンドを得るために、複数の時間領域信号サンプルを変換するための第1の分析サブモジュール171を備えている。
さらに、このエンコーダは、複数の分析ウインドウを決定するためのウインドウシーケンス・ユニット172を備え、各分析ウインドウは複数のサブバンドのうちの1つのサブバンドの複数のサブバンドサンプルを含み、各分析ウインドウはその分析ウインドウのサブバンドサンプルの数を示すウインドウ長さを有し、ウインドウシーケンス・ユニット172は、各分析ウインドウのウインドウ長さが2つ以上の入力されたオーディオオブジェクト信号のうちの少なくとも1つの信号の信号特性に依存するように、複数の分析ウインドウを決定すべく構成されている。例えば、(任意選択の)過渡検出ユニット175は、入力されたオーディオオブジェクト信号のうちの1つの信号に過渡が存在するかどうかに関する情報をウインドウシーケンス・ユニット172へ提供することができる。
さらに、このエンコーダは、変換された信号サンプルを得るために、複数の分析ウインドウの各分析ウインドウの複数のサブバンドサンプルを、その分析ウインドウのウインドウ長さに依存して変換するための第2の分析モジュール173を備えている。
さらに、このエンコーダは、変換された信号サンプルに依存してパラメトリックサイド情報を決定するためのPSI推定ユニット174を備えている。
他の実施形態によれば、分析を2段階で実行するために2つの分析モジュールが存在してもよいが、第2のモジュールは信号特性に依存してオンとオフが切り換えられる。
例えば、高い周波数分解能が要求され、かつ低い時間分解能を容認できれば、第2の分析モジュールはオンに切り換えられる。
これに対して、高い時間分解能が要求され、かつ低い周波数分解能を容認できれば、第2の分析モジュールはオフに切り換えられる。
図1Cは、このような実施形態による、ダウンミックス信号から1つまたは複数のオーディオ出力チャネルを含むオーディオ出力信号を生成するためのデコーダを示す。そのダウンミックス信号は、1つまたは複数のオーディオオブジェクト信号を符号化する。
このデコーダは、1つまたは複数のオーディオオブジェクト信号のうちの少なくとも1つの信号の信号特性に依存して起動指示を起動状態に設定するための制御ユニット181を備えている。
さらに、このデコーダは、複数の第1のサブバンドチャネルを含む第1の変換されたダウンミックスを得るために、ダウンミックス信号を変換するための第1の分析モジュール182を備えている。
さらに、このデコーダは、複数の第2のサブバンドチャネルを得るために、起動指示が起動状態に設定されていると、第1のサブバンドチャネルのうちの少なくとも1つを変換することによって第2の変換されたダウンミックスを生成するための第2の分析モジュール183を備え、第2の変換されたダウンミックスは、第2の分析モジュールによって変換されていない第1のサブバンドチャネルと、第2のサブバンドチャネルとを含む。
さらに、このデコーダは、非混合ユニット184を備え、非混合ユニット184は、起動指示が起動状態に設定されていれば、オーディオ出力信号を得るために1つまたは複数のオーディオオブジェクト信号に関するパラメトリックサイド情報に基づいて第2の変換されたダウンミックスをアンミックスするように、かつ起動指示が起動状態に設定されていなければ、オーディオ出力信号を得るために1つまたは複数のオーディオオブジェクト信号に関するパラメトリックサイド情報に基づいて第1の変換されたダウンミックスをアンミックスするように構成されている。
図15は、高い周波数分解能が要求され、かつ低い時間分解能を容認できる一例を示す。結果的に、制御ユニット181は起動指示を起動状態に設定することによって(例えば、ブール変数(boolean variable)「activation_indication」を、「activation_indication=true」に設定することによって)、第2の分析モジュールをオンに切り換える。ダウンミックス信号は、第1の分析モジュール182(図15には示されていない)によって変換され、第1の変換されたダウンミックスが得られる。図15の例では、変換されたダウンミックスが3つのサブバンドを有する。より現実的なアプリケーションシナリオでは、変換されたダウンミックスは、例えば、32個のサブバンドまたは64個のサブバンドを有することができる。次に、第1の変換されたダウンミックスは、第2の分析モジュール183(図15には示されていない)によって変換され、第2の変換されたダウンミックスが得られる。図15の例では、変換されたダウンミックスが9個のサブバンドを有する。より現実的なアプリケーションシナリオでは、変換されたダウンミックスは、例えば、512個のサブバンド、1024個のサブバンドまたは2048個のサブバンドを有することができる。次に、非混合ユニット184は、第2の変換されたダウンミックスをアンミックスしてオーディオ出力信号を得る。
例えば、非混合ユニット184は、制御ユニット181から起動指示を受信することができる。あるいは、例えば、非混合ユニット184は、第2の分析モジュール183から第2の変換されたダウンミックスを受信する場合はいつも、第2の変換されたダウンミックスがアンミックスされなければならないものと決定し、第2の分析モジュール183から第2の変換されたダウンミックスをしない場合はいつも、第1の変換されたダウンミックスがアンミックスされなければならないものと決定するようにする。
図16は、高い時間分解能が要求され、かつ低い周波数分解能を容認できる一例を示す。結果的に、制御ユニット181は、起動指示を起動状態とは異なる状態に設定することによって(例えば、ブール変数「activation_indication」を、「activation_indication=false」に設定することによって)、第2の分析モジュールをオフに切り換える。ダウンミックス信号は、第1の分析モジュール182(図16には示されていない)によって変換され、第1の変換されたダウンミックスが得られる。次は、図15とは対照的に、第1の変換されたダウンミックスは、第2の分析モジュール183によってもう一度変換されることはない。その代わりに、非混合ユニット184は、第1の変換されたダウンミックスをアンミックスしてオーディオ出力信号を得る。
一実施形態によれば、制御ユニット181は、1つまたは複数のオーディオオブジェクト信号のうちの少なくとも1つが、1つまたは複数のオーディオオブジェクト信号のうちの少なくとも1つの信号の信号変化を示す過渡を含むかどうかに依存して、起動指示を起動状態に設定するように構成されている。
別の実施形態では、サブバンド変換指示が第1のサブバンドチャネルの各々へ割り当てられる。制御ユニット181は、1つまたは複数のオーディオオブジェクト信号のうちの少なくとも1つの信号の信号特性に依存して、第1のサブバンドチャネルの各々のサブバンド変換指示をサブバンド変換状態に設定するように構成されている。さらに、第2の分析モジュール183は、そのサブバンド変換指示がサブバンド変換状態に設定されている第1のサブバンドチャネルの各々を変換して複数の第2のサブバンドチャネルを取得するように、かつそのサブバンド変換指示がサブバンド変換状態に設定されていない第2のサブバンドチャネルの各々を変換しないように構成されている。
図17は、制御ユニット181(図17には示されていない)が第2のサブバンドのサブバンド変換指示をサブバンド変換状態に(例えば、ブール変数「subband_transform_indication_2」を、「subband transform_indication_2=true」に設定することによって)設定した一例を示す。したがって、第2の分析モジュール183(図17には示されていない)は、第2のサブバンドを変換して3つの新しい「精密分解能」サブバンドを得る。図17の例では、制御ユニット181は、第1および第3のサブバンドのサブバンド変換指示をサブバンド変換状態に設定していない(例えば、これは、制御ユニット181がブール変数「subband_transform_indication_1」および「subband_transform_indication_3」を「subband transform_indication_1=false」および「subband transform_indication_3=false」に設定することによって示すことができる)。したがって、第2の分析モジュール183は第1および第3のサブバンドを変換しない。その代わりに、第1のサブバンドおよび第3のサブバンドは、これら自体が第2の変換されたダウンミックスのサブバンドとして使用される。
図18は、制御ユニット181(図18には示されていない)が第1および第2のサブバンドのサブバンド変換指示をサブバンド変換状態に(例えば、ブール変数「subband_transform_indication_1」を「subband transform_indication_1=true」に設定することによって、かつ例えば、ブール変数「subband_transform_indication_2」を「subband transform_indication_2=true」に設定することによって)設定した一例を示す。したがって、第2の分析モジュール183(図18には示されていない)は、第1および第2のサブバンドを変換して6つの新しい「精密分解能」サブバンドを得る。図18の例では、制御ユニット181は、第3のサブバンドのサブバンド変換指示をサブバンド変換状態に設定していない(例えば、これは、制御ユニット181がブール変数「subband_transform_indication_3」を「subband transform_indication_3=false」に設定することによって示すことができる)。したがって、第2の分析モジュール183は第3のサブバンドを変換しない。その代わりに、第3のサブバンドは、それ自体が第2の変換されたダウンミックスのサブバンドとして使用される。
一実施形態によれば、第1の分析モジュール182は、複数の第1のサブバンドチャネルを含む第1の変換されたダウンミックスを得るために、直交ミラーフィルタ(QMF)を使用することによりダウンミックス信号を変換するように構成されている。
一実施形態において、第1の分析モジュール182はダウンミックス信号を第1の分析ウインドウ長さに依存して変換するように構成され、第1の分析ウインドウ長さはその信号特性に依存し、かつ/または第2の分析モジュール183は、起動指示が起動状態に設定されていると、第1のサブバンドチャネルのうちの少なくとも1つを第2の分析ウインドウ長さに依存して変換することにより第2の変換されたダウンミックスを生成するように構成され、第2の分析ウインドウ長さはその信号特性に依存する。このような実施形態は、第2の分析モジュール183のオンとオフの切換え、および分析ウインドウの長さの設定を実現する。
一実施形態において、デコーダは、ダウンミックス信号から、1つまたは複数のオーディオ出力チャネルを含むオーディオ出力信号を生成するように構成され、そのウンミックス信号は2つ以上のオーディオオブジェクト信号を符号化する。制御ユニット181は、2つ以上のオーディオオブジェクト信号のうちの少なくとも1つの信号の信号特性に依存して起動指示を起動状態に設定するように構成されている。さらに、非混合ユニット184は、起動指示が起動状態に設定されていれば、オーディオ出力信号を得るために1つまたは複数のオーディオオブジェクト信号に関するパラメトリックサイド情報に基づいて第2の変換されたダウンミックスをアンミックスするように、かつ起動指示が起動状態に設定されていなければ、オーディオ出力信号を得るために2つ以上のオーディオオブジェクト信号に関するパラメトリックサイド情報に基づいて第1の変換されたダウンミックスをアンミックスするように構成されている。
図2Cは、一実施形態による、入力されたオーディオオブジェクト信号を符号化するためのエンコーダを示す。
このエンコーダは、入力されたオーディオオブジェクト信号の信号特性に依存して起動指示を起動状態に設定するための制御ユニット191を備えている。
さらに、このエンコーダは、第1の変換されたオーディオオブジェクト信号を得るために、入力されたオーディオオブジェクト信号を変換するための第1の分析モジュール192を備え、第1の変換されたオーディオオブジェクト信号は複数の第1のサブバンドチャネルを含む。
さらに、このエンコーダは、複数の第2のサブバンドチャネルを得るために、起動指示が起動状態に設定されていると、複数の第1のサブバンドチャネルのうちの少なくとも1つを変換することによって第2の変換されたオーディオオブジェクト信号を生成するための第2の分析モジュール193を備え、第2の変換されたオーディオオブジェクト信号は、第2の分析モジュールによって変換されていない第1のサブバンドチャネルと、第2のサブバンドチャネルとを含む。
さらに、このエンコーダは、PSI推定ユニット194を備え、PSI推定ユニット194は、起動指示が起動状態に設定されていれば、第2の変換されたオーディオオブジェクト信号に基づいてパラメトリックサイド情報を決定し、かつ起動指示が起動状態に設定されていなければ、第1の変換されたオーディオオブジェクト信号に基づいてパラメトリックサイド情報を決定するように構成されている。
一実施形態によれば、制御ユニット191は、入力されたオーディオオブジェクト信号が、入力されたオーディオオブジェクト信号の信号変化を示す過渡を含むかどうかに依存して、起動指示を起動状態に設定するように構成されている。
別の実施形態では、サブバンド変換指示が第1のサブバンドチャネルの各々へ割り当てられる。制御ユニット191は、入力されたオーディオオブジェクト信号の信号特性に依存して、第1のサブバンドチャネルの各々のサブバンド変換指示をサブバンド変換状態に設定するように構成されている。第2の分析モジュール193は、そのサブバンド変換指示がサブバンド変換状態に設定されている第1のサブバンドチャネルの各々を変換して複数の第2のサブバンドチャネルを取得するように、かつそのサブバンド変換指示がサブバンド変換状態に設定されていない第2のサブバンドチャネルの各々を変換しないように構成されている。
一実施形態によれば、第1の分析モジュール192は、入力されたオーディオオブジェクト信号の各々を直交ミラーフィルタを使用することによって変換するように構成されている。
別の実施形態において、第1の分析モジュール192は、入力されたオーディオオブジェクト信号を第1の分析ウインドウ長さに依存して変換するように構成され、第1の分析ウインドウ長さはその信号特性に依存し、かつ/または第2の分析モジュール193は、起動指示が起動状態に設定されていると、複数の第1のサブバンドチャネルのうちの少なくとも1つを第2の分析ウインドウ長さに依存して変換することにより第2の変換されたオーディオオブジェクト信号を生成するように構成され、第2の分析ウインドウ長さはその信号特性に依存する。
別の実施形態によれば、エンコーダは、入力されたオーディオオブジェクト信号および少なくとも1つのさらなる入力されたオーディオオブジェクト信号を符号化するように構成されている。制御ユニット191は、入力されたオーディオオブジェクト信号の信号特性に依存して、かつ少なくとも1つのさらなる入力されたオーディオオブジェクト信号の信号特性に依存して、起動指示を起動状態に設定するように構成されている。第1の分析モジュール192は、少なくとも1つのさらなる入力されたオーディオオブジェクト信号を変換して少なくとも1つのさらなる第1の変換されたオーディオオブジェクト信号を得るように構成され、少なくとも1つのさらなる第1の変換されたオーディオオブジェクト信号は、各々、複数の第1のサブバンドチャネルを含む。第2の分析モジュール193は、複数のさらなる第2のサブバンドチャネルを得るために、起動指示が起動状態に設定されていれば、少なくとも1つのさらなる第1の変換されたオーディオオブジェクト信号のうちの少なくとも1つの信号の複数の第1のサブバンドチャネルのうちの少なくとも1つを変換するように構成されている。さらに、PSI推定ユニット194は、起動指示が起動状態に設定されていれば、複数のさらなる第2のサブバンドチャネルに基づいてパラメトリックサイド情報を決定するように構成されている。
本発明による方法および装置は、固定フィルタバンクまたは時間−周波数変換を用いる従来技術SAOC処理による上述の欠点を軽減する。より優れた主観的オーディオ品質は、SAOC内のオーディオオブジェクトの分析および合成に使用される変換またはフィルタバンクの時間/周波数分解能を動的に適合化することによって達成することができる。同時に、時間精度の欠如により生じるプレエコーおよびポストエコーのようなアーティファクト、および不十分なスペクトル精度により生じる聴覚粗さおよびダブルトークのようなアーティファクトは、同一のSAOCシステム内で最小限に抑えることができる。最も重要なこととして、本発明による適応型変換を備えた強化されたSAOCシステムは、標準SAOCとの後方互換性を保持し、しかも標準SAOCのそれに比肩し得る優れた知覚品質を提供する。
実施形態は、これまでに述べたようなオーディオエンコーダ、またはオーディオ符号化方法、または関連のコンピュータプログラムを提供する。さらに、実施形態は、これまでに述べたようなオーディオエンコーダ、またはオーディオ復号方法、または関連のコンピュータプログラムを提供する。さらに、実施形態は、これまでに述べたような符号化されたオーディオ信号、または符号化されたオーディオ信号を格納している記憶媒体を提供する。
幾つかの態様は、装置について記述されているが、これらの態様が、対応する方法に関する記述でもあることは明らかであり、ブロックまたはデバイスは、方法ステップまたは方法ステップの特徴に対応する。同様に、方法ステップについて記述されている態様は、対応するブロック、アイテム、または対応する装置の特徴を記述するものでもある。
本発明による分解された信号は、デジタル記憶媒体に格納することができ、または伝送媒体上、例えば無線伝送媒体上もしくはインターネット等の有線伝送媒体上で送信することができる。
所定の実装要件に依存して、本発明の実施形態は、ハードウェアまたはソフトウェアに実装することができる。その実装は、個々の方法が実行されるようにプログラム可能コンピュータシステムと協働する(または、協働することができる)電子的に読取り可能な制御信号を格納しているデジタル記憶媒体、例えば、フロッピーディスク、DVD、CD、ROM、PROM、EPROM、EEPROMまたはフラッシュメモリ、を用いて実行することができる。
本発明による幾つかの実施形態は、本明細書に記述されている方法のうちの1つが実行されるように、プログラム可能コンピュータシステムと協働することができる電子的に読取り可能な制御信号を有する非一時的データキャリアを含む。
概して、本発明の実施形態は、プログラムコードを有するコンピュータ・プログラム・プロダクトとして実装することができる。そのプログラムコードは、そのコンピュータ・プログラム・プロダクトがコンピュータ上で実行されると本発明の方法のうちの1つを実行するように動作可能なものである。そのプログラムコードは、例えば、機械読取り可能キャリア上へ格納することができる。
他の実施形態は、機械読取り可能キャリアに格納され、本明細書に記述されている方法のうちの1つを実行するためのコンピュータプログラムを含む。
したがって、言い替えれば、本発明方法の一実施形態は、コンピュータ上でコンピュータプログラムが実行されると本明細書に記述されている方法のうちの1つを実行するためのプログラムコードを有するコンピュータプログラムである。
したがって、本発明方法のさらなる実施形態は、本明細書に記述されている方法のうちの1つを実行するためのコンピュータプログラムを記録して備えるデータキャリア(または、デジタル記憶媒体、またはコンピュータ読取り可能媒体)である。
したがって、本発明的方法のさらなる実施形態は、本明細書に記述されている方法のうちの1つを実行するためのコンピュータプログラムを表すデータストリームまたは信号シーケンスである。データストリームまたは信号シーケンスは、例えば、データ通信接続を介して、例えばインターネットを介して転送されるように構成することができる。
さらなる実施形態は、本明細書に記述されている方法のうちの1つを実行するように構成され、または適合化される処理手段、例えばコンピュータ、またはプログラマブル論理デバイスを含む。
さらなる実施形態は、本明細書に記述されている方法のうちの1つを実行するためのコンピュータプログラムをインストールしているコンピュータを含む。
実施形態によっては、本明細書に記述されている方法の機能のうちの幾つか、または全てを実行するために、プログラマブル論理デバイス(例えば、フィールド・プログラマブル・ゲート・アレイ)を使用することができる。実施形態によっては、フィールド・プログラマブル・ゲート・アレイが、本明細書に記述されている方法のうちの1つを実行するために、マイクロプロセッサと協働することができる。概して、本方法は、好ましくは、あらゆるハードウェア装置によって実行される。
これまでに述べた実施形態は、本発明の原理を単に例示したものである。いうまでもなく、当業者である他の者には、本明細書に記述されている配置および詳細の修正および変形は明らかである。したがって、本発明は、添付の特許請求の範囲によってのみ限定されるものであり、本明細書において実施形態を記述しかつ説明するために提示された特有の詳細によって限定されるものではない。

Claims (14)

  1. ダウンミックス信号から1つまたは複数のオーディオ出力チャネルを含むオーディオ出力信号を生成するためのデコーダであって、前記ダウンミックス信号は1つまたは複数のオーディオオブジェクト信号を符号化し、
    該デコーダは、
    前記1つまたは複数のオーディオオブジェクト信号のうちの少なくとも1つの信号の信号特性に依存して起動指示を起動状態に設定するための制御ユニット(181)と、
    複数の第1のサブバンドチャネルを含む第1の変換されたダウンミックスを得るために、前記ダウンミックス信号を変換するための第1の分析モジュール(182)と、
    複数の第2のサブバンドチャネルを得るために、前記起動指示が前記起動状態に設定されていれば、前記第1のサブバンドチャネルのうちの少なくとも1つを変換することによって第2の変換されたダウンミックスを生成するための第2の分析モジュール(183)であって、前記第2の変換されたダウンミックスは、前記第2の分析モジュールによって変換されていない前記第1のサブバンドチャネルと、前記第2のサブバンドチャネルとを含んでいる第2の分析モジュール(183)と、
    非混合ユニット(184)と、を備え、
    前記非混合ユニット(184)は、前記起動指示が前記起動状態に設定されていれば、前記オーディオ出力信号を得るために前記1つまたは複数のオーディオオブジェクト信号に関するパラメトリックサイド情報に基づいて前記第2の変換されたダウンミックスをアンミックスするように、かつ前記起動指示が前記起動状態に設定されていなければ、前記オーディオ出力信号を得るために前記1つまたは複数のオーディオオブジェクト信号に関する前記パラメトリックサイド情報に基づいて前記第1の変換されたダウンミックスをアンミックスするように構成されており、
    前記制御ユニット(181)は、前記1つまたは複数のオーディオオブジェクト信号のうちの少なくとも1つが、前記1つまたは複数のオーディオオブジェクト信号のうちの少なくとも1つの信号の信号変化を示す過渡を含むかどうかに依存して、前記起動指示を前記起動状態に設定するように構成されているデコーダ。
  2. サブバンド変換指示が前記第1のサブバンドチャネルの各々へ割り当てられ、
    前記制御ユニット(181)は、前記1つまたは複数のオーディオオブジェクト信号のうちの少なくとも1つの信号の前記信号特性に依存して、前記第1のサブバンドチャネルの各々のサブバンド変換指示をサブバンド変換状態に設定するように構成され、かつ、
    前記第2の分析モジュール(183)は、その前記サブバンド変換指示が前記サブバンド変換状態に設定されている前記第1のサブバンドチャネルの各々を変換して前記複数の第2のサブバンドチャネルを取得するように、かつその前記サブバンド変換指示が前記サブバンド変換状態に設定されていない前記第2のサブバンドチャネルの各々を変換しないように構成されている請求項1に記載のデコーダ。
  3. 前記第1の分析モジュール(182)は、前記複数の第1のサブバンドチャネルを含む前記第1の変換されたダウンミックスを得るために、直交ミラーフィルタを使用することにより前記ダウンミックス信号を変換するように構成されている請求項1又は2に記載のデコーダ。
  4. 前記第1の分析モジュール(182)は、前記ダウンミックス信号を第1の分析ウインドウ長さに依存して変換するように構成され、前記第1の分析ウインドウ長さは前記信号特性に依存し、または、
    前記第2の分析モジュール(183)は、前記起動指示が前記起動状態に設定されていると、前記第2の変換されたダウンミックスを、前記第1のサブバンドチャネルのうちの前記少なくとも1つを第2の分析ウインドウ長さに依存して変換することにより生成するように構成され、前記第2の分析ウインドウ長さは前記信号特性に依存する請求項1からのいずれか一項に記載のデコーダ。
  5. 該デコーダは、前記ダウンミックス信号から、1つまたは複数のオーディオ出力チャネルを含む前記オーディオ出力信号を生成するように構成され、前記ダウンミックス信号は2つ以上のオーディオオブジェクト信号を符号化し、
    前記制御ユニット(181)は、前記2つ以上のオーディオオブジェクト信号のうちの少なくとも1つの信号の前記信号特性に依存して前記起動指示を前記起動状態に設定するように構成され、かつ、
    前記非混合ユニット(184)は、前記起動指示が前記起動状態に設定されていれば、前記オーディオ出力信号を得るために前記1つまたは複数のオーディオオブジェクト信号に関するパラメトリックサイド情報に基づいて前記第2の変換されたダウンミックスをアンミックスするように、かつ前記起動指示が前記起動状態に設定されていなければ、前記オーディオ出力信号を得るために前記2つ以上のオーディオオブジェクト信号に関する前記パラメトリックサイド情報に基づいて前記第1の変換されたダウンミックスをアンミックスするように構成されている請求項1からのいずれか一項に記載のデコーダ。
  6. 入力されたオーディオオブジェクト信号を符号化するためのエンコーダであって、
    前記入力されたオーディオオブジェクト信号の信号特性に依存して起動指示を起動状態に設定するための制御ユニット(191)と、
    第1の変換されたオーディオオブジェクト信号を得るために、前記入力されたオーディオオブジェクト信号を変換するための第1の分析モジュール(192)であって、前記第1の変換されたオーディオオブジェクト信号は複数の第1のサブバンドチャネルを含む、第1の分析モジュール(192)と、
    複数の第2のサブバンドチャネルを得るために、前記起動指示が前記起動状態に設定されていれば、前記複数の第1のサブバンドチャネルのうちの少なくとも1つを変換することによって第2の変換されたオーディオオブジェクト信号を生成するための第2の分析モジュール(193)であって、前記第2の変換されたオーディオオブジェクト信号は、前記第2の分析モジュールによって変換されていない前記第1のサブバンドチャネルと、前記第2のサブバンドチャネルとを含む、第2の分析モジュール(193)と、
    PSI推定ユニット(194)と、を備え、
    前記PSI推定ユニット(194)は、前記起動指示が前記起動状態に設定されていれば、前記第2の変換されたオーディオオブジェクト信号に基づいてパラメトリックサイド情報を決定し、かつ前記起動指示が前記起動状態に設定されていなければ、前記第1の変換されたオーディオオブジェクト信号に基づいて前記パラメトリックサイド情報を決定するように構成されており、
    前記制御ユニット(191)は、前記入力されたオーディオオブジェクト信号が前記入力されたオーディオオブジェクト信号の信号変化を示す過渡を含むかどうかに依存して、前記起動指示を前記起動状態に設定するように構成されているエンコーダ。
  7. サブバンド変換指示が前記第1のサブバンドチャネルの各々へ割り当てられ、
    前記制御ユニット(191)は、前記入力されたオーディオオブジェクト信号の前記信号特性に依存して、前記第1のサブバンドチャネルの各々のサブバンド変換指示をサブバンド変換状態に設定するように構成され、かつ、
    前記第2の分析モジュール(193)は、その前記サブバンド変換指示が前記サブバンド変換状態に設定されている前記第1のサブバンドチャネルの各々を変換して前記複数の第2のサブバンドチャネルを取得するように、かつその前記サブバンド変換指示が前記サブバンド変換状態に設定されていない前記第1のサブバンドチャネルの各々を変換しないように構成されている請求項に記載のエンコーダ。
  8. 前記第1の分析モジュール(192)は、前記入力されたオーディオオブジェクト信号の各々を、直交ミラーフィルタを使用することによって変換するように構成されている請求項6又は7に記載のエンコーダ。
  9. 前記第1の分析モジュール(192)は、前記入力されたオーディオオブジェクト信号を第1の分析ウインドウ長さに依存して変換するように構成され、前記第1の分析ウインドウ長さは前記信号特性に依存し、または、
    前記第2の分析モジュール(193)は、前記起動指示が前記起動状態に設定されていると、前記第2の変換されたオーディオオブジェクト信号を、前記複数の第1のサブバンドチャネルのうちの少なくとも1つを第2の分析ウインドウ長さに依存して変換することにより生成するように構成され、前記第2の分析ウインドウ長さは前記信号特性に依存する、請求項からのいずれか一項に記載のエンコーダ。
  10. 該エンコーダは、前記入力されたオーディオオブジェクト信号および少なくとも1つのさらなる入力されたオーディオオブジェクト信号を符号化するように構成され、
    前記制御ユニット(191)は、前記入力されたオーディオオブジェクト信号の前記信号特性に依存して、かつ前記少なくとも1つのさらなる入力されたオーディオオブジェクト信号の信号特性に依存して、前記起動指示を前記起動状態に設定するように構成され、
    前記第1の分析モジュール(192)は、少なくとも1つのさらなる入力されたオーディオオブジェクト信号を変換して少なくとも1つのさらなる第1の変換されたオーディオオブジェクト信号を得るように構成され、前記少なくとも1つのさらなる第1の変換されたオーディオオブジェクト信号は、各々、複数の第1のサブバンドチャネルを含み、
    前記第2の分析モジュール(193)は、複数のさらなる第2のサブバンドチャネルを得るために、前記起動指示が前記起動状態に設定されていれば、前記少なくとも1つのさらなる第1の変換されたオーディオオブジェクト信号のうちの少なくとも1つの信号の前記複数の第1のサブバンドチャネルのうちの少なくとも1つを変換するように構成され、かつ、
    前記PSI推定ユニット(194)は、前記起動指示が前記起動状態に設定されていれば、前記複数のさらなる第2のサブバンドチャネルに基づいて前記パラメトリックサイド情報を決定するように構成されている請求項からのいずれか一項に記載のエンコーダ。
  11. ダウンミックス信号から1つまたは複数のオーディオ出力チャネルを含むオーディオ出力信号を生成することによって復号するための方法であって、前記ダウンミックス信号は2つ以上のオーディオオブジェクト信号を符号化し、
    該方法は、
    前記2つ以上のオーディオオブジェクト信号のうちの少なくとも1つの信号の信号特性に依存して起動指示を起動状態に設定することと、
    複数の第1のサブバンドチャネルを含む第1の変換されたダウンミックスを得るために、前記ダウンミックス信号を変換することと、
    複数の第2のサブバンドチャネルを得るために、前記起動指示が前記起動状態に設定されていれば、前記第1のサブバンドチャネルのうちの少なくとも1つを変換することによって第2の変換されたダウンミックスを生成することであって、前記第2の変換されたダウンミックスは、変換されていない前記第1のサブバンドチャネルと、前記第2のサブバンドチャネルとを含むことと、
    前記起動指示が前記起動状態に設定されていれば、前記オーディオ出力信号を得るために前記2つ以上のオーディオオブジェクト信号に関するパラメトリックサイド情報に基づいて前記第2の変換されたダウンミックスをアンミックスし、かつ前記起動指示が前記起動状態に設定されていなければ、前記オーディオ出力信号を得るために前記2つ以上のオーディオオブジェクト信号に関する前記パラメトリックサイド情報に基づいて前記第1の変換されたダウンミックスをアンミックスすることを含み、
    1つまたは複数のオーディオオブジェクト信号のうちの少なくとも1つが、前記1つまたは複数のオーディオオブジェクト信号のうちの少なくとも1つの信号の信号変化を示す過渡を含むかどうかに依存して、前記起動指示を前記起動状態に設定する、方法。
  12. 2つ以上の入力されたオーディオオブジェクト信号を符号化するための方法であって、
    前記2つ以上の入力されたオーディオオブジェクト信号のうちの少なくとも1つの信号の信号特性に依存して起動指示を起動状態に設定することと、
    前記入力されたオーディオオブジェクト信号の第1の変換されたオーディオオブジェクト信号を得るために、前記入力されたオーディオオブジェクト信号の各々を変換することであって、前記第1の変換されたオーディオオブジェクト信号は複数の第1のサブバンドチャネルを含むことと、
    複数の第2のサブバンドチャネルを得るために、前記入力されたオーディオオブジェクト信号の各々について、前記起動指示が前記起動状態に設定されていれば、前記入力されたオーディオオブジェクト信号の前記第1の変換されたオーディオオブジェクト信号の前記第1のサブバンドチャネルのうちの少なくとも1つを変換することによって第2の変換されたオーディオオブジェクト信号を生成することであって、前記第2の変換されたダウンミックスは、変換されていない前記第1のサブバンドチャネルと、前記第2のサブバンドチャネルとを含むことと、
    前記起動指示が前記起動状態に設定されていれば、前記入力されたオーディオオブジェクト信号の各々の前記第2の変換されたオーディオオブジェクト信号に基づいてパラメトリックサイド情報を決定し、かつ前記起動指示が前記起動状態に設定されていなければ、前記入力されたオーディオオブジェクト信号の各々の前記第1の変換されたオーディオオブジェクト信号に基づいて前記パラメトリックサイド情報を決定することを含み、
    前記入力されたオーディオオブジェクト信号が前記入力されたオーディオオブジェクト信号の信号変化を示す過渡を含むかどうかに依存して、前記起動指示を前記起動状態に設定する、方法。
  13. コンピュータまたは信号プロセッサ上で実行されると、請求項11に記載の方法を実装するためのコンピュータプログラム。
  14. コンピュータまたは信号プロセッサ上で実行されると、請求項12に記載の方法を実装するためのコンピュータプログラム。
JP2015535005A 2012-10-05 2013-10-02 空間オーディオオブジェクト符号化における信号依存ズーム変換のためのエンコーダ、デコーダおよび方法 Active JP6185592B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201261710133P 2012-10-05 2012-10-05
US61/710,133 2012-10-05
EP13167487.1 2013-05-13
EP13167487.1A EP2717262A1 (en) 2012-10-05 2013-05-13 Encoder, decoder and methods for signal-dependent zoom-transform in spatial audio object coding
PCT/EP2013/070550 WO2014053547A1 (en) 2012-10-05 2013-10-02 Encoder, decoder and methods for signal-dependent zoom-transform in spatial audio object coding

Publications (2)

Publication Number Publication Date
JP2015535959A JP2015535959A (ja) 2015-12-17
JP6185592B2 true JP6185592B2 (ja) 2017-08-23

Family

ID=48325509

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2015535006A Active JP6268180B2 (ja) 2012-10-05 2013-10-02 空間オーディオオブジェクト符号化における時間/周波数分解能の後方互換性のある動的適応のためのエンコーダ、デコーダおよび方法
JP2015535005A Active JP6185592B2 (ja) 2012-10-05 2013-10-02 空間オーディオオブジェクト符号化における信号依存ズーム変換のためのエンコーダ、デコーダおよび方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2015535006A Active JP6268180B2 (ja) 2012-10-05 2013-10-02 空間オーディオオブジェクト符号化における時間/周波数分解能の後方互換性のある動的適応のためのエンコーダ、デコーダおよび方法

Country Status (17)

Country Link
US (2) US10152978B2 (ja)
EP (4) EP2717262A1 (ja)
JP (2) JP6268180B2 (ja)
KR (2) KR101685860B1 (ja)
CN (2) CN105190747B (ja)
AR (2) AR092928A1 (ja)
AU (1) AU2013326526B2 (ja)
BR (2) BR112015007649B1 (ja)
CA (2) CA2886999C (ja)
ES (2) ES2880883T3 (ja)
HK (1) HK1213361A1 (ja)
MX (2) MX350691B (ja)
MY (1) MY178697A (ja)
RU (2) RU2625939C2 (ja)
SG (1) SG11201502611TA (ja)
TW (2) TWI539444B (ja)
WO (2) WO2014053547A1 (ja)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2717262A1 (en) 2012-10-05 2014-04-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for signal-dependent zoom-transform in spatial audio object coding
EP2804176A1 (en) * 2013-05-13 2014-11-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio object separation from mixture signal using object-specific time/frequency resolutions
EP3312835B1 (en) 2013-05-24 2020-05-13 Dolby International AB Efficient coding of audio scenes comprising audio objects
KR102243395B1 (ko) * 2013-09-05 2021-04-22 한국전자통신연구원 오디오 부호화 장치 및 방법, 오디오 복호화 장치 및 방법, 오디오 재생 장치
US20150100324A1 (en) * 2013-10-04 2015-04-09 Nvidia Corporation Audio encoder performance for miracast
CN105096957B (zh) 2014-04-29 2016-09-14 华为技术有限公司 处理信号的方法及设备
CN105336335B (zh) 2014-07-25 2020-12-08 杜比实验室特许公司 利用子带对象概率估计的音频对象提取
AU2016214553B2 (en) * 2015-02-02 2019-01-31 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for processing an encoded audio signal
EP3067885A1 (en) 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding or decoding a multi-channel signal
WO2017064264A1 (en) 2015-10-15 2017-04-20 Huawei Technologies Co., Ltd. Method and appratus for sinusoidal encoding and decoding
GB2544083B (en) * 2015-11-05 2020-05-20 Advanced Risc Mach Ltd Data stream assembly control
US9711121B1 (en) * 2015-12-28 2017-07-18 Berggram Development Oy Latency enhanced note recognition method in gaming
US9640157B1 (en) * 2015-12-28 2017-05-02 Berggram Development Oy Latency enhanced note recognition method
US10269360B2 (en) * 2016-02-03 2019-04-23 Dolby International Ab Efficient format conversion in audio coding
US10210874B2 (en) * 2017-02-03 2019-02-19 Qualcomm Incorporated Multi channel coding
US10891962B2 (en) 2017-03-06 2021-01-12 Dolby International Ab Integrated reconstruction and rendering of audio signals
CN108694955B (zh) * 2017-04-12 2020-11-17 华为技术有限公司 多声道信号的编解码方法和编解码器
CN110870006B (zh) 2017-04-28 2023-09-22 Dts公司 对音频信号进行编码的方法以及音频编码器
CN109427337B (zh) 2017-08-23 2021-03-30 华为技术有限公司 立体声信号编码时重建信号的方法和装置
US10856755B2 (en) * 2018-03-06 2020-12-08 Ricoh Company, Ltd. Intelligent parameterization of time-frequency analysis of encephalography signals
TWI658458B (zh) * 2018-05-17 2019-05-01 張智星 歌聲分離效能提升之方法、非暫態電腦可讀取媒體及電腦程式產品
GB2577885A (en) 2018-10-08 2020-04-15 Nokia Technologies Oy Spatial audio augmentation and reproduction
KR20220024593A (ko) * 2019-06-14 2022-03-03 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 매개변수 인코딩 및 디코딩
WO2022079049A2 (en) * 2020-10-13 2022-04-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding a plurality of audio objects or apparatus and method for decoding using two or more relevant audio objects
CN113453114B (zh) * 2021-06-30 2023-04-07 Oppo广东移动通信有限公司 编码控制方法、装置、无线耳机及存储介质
CN114127844A (zh) * 2021-10-21 2022-03-01 北京小米移动软件有限公司 一种信号编解码方法、装置、编码设备、解码设备及存储介质

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3175446B2 (ja) * 1993-11-29 2001-06-11 ソニー株式会社 情報圧縮方法及び装置、圧縮情報伸張方法及び装置、圧縮情報記録/伝送装置、圧縮情報再生装置、圧縮情報受信装置、並びに記録媒体
JP4714416B2 (ja) * 2002-04-22 2011-06-29 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 空間的オーディオのパラメータ表示
US7272567B2 (en) * 2004-03-25 2007-09-18 Zoran Fejzo Scalable lossless audio codec and authoring tool
KR100608062B1 (ko) * 2004-08-04 2006-08-02 삼성전자주식회사 오디오 데이터의 고주파수 복원 방법 및 그 장치
CN101046963B (zh) * 2004-09-17 2011-03-23 广州广晟数码技术有限公司 解码经编码的音频数据流的方法
US7630902B2 (en) * 2004-09-17 2009-12-08 Digital Rise Technology Co., Ltd. Apparatus and methods for digital audio coding using codebook application ranges
WO2007010785A1 (ja) * 2005-07-15 2007-01-25 Matsushita Electric Industrial Co., Ltd. オーディオデコーダ
US7917358B2 (en) 2005-09-30 2011-03-29 Apple Inc. Transient detection by power weighted average
EP1974347B1 (en) * 2006-01-19 2014-08-06 LG Electronics Inc. Method and apparatus for processing a media signal
MX2008012217A (es) * 2006-03-29 2008-11-12 Koninkl Philips Electronics Nv Decodificacion de audio.
CA2874454C (en) * 2006-10-16 2017-05-02 Dolby International Ab Enhanced coding and parameter representation of multichannel downmixed object coding
ES2631906T3 (es) 2006-10-25 2017-09-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y procedimiento para la generación de valores de subbanda de audio, aparato y procedimiento para la generación de muestras de audio en el dominio temporal
EP2137824A4 (en) * 2007-03-16 2012-04-04 Lg Electronics Inc METHOD AND DEVICE FOR PROCESSING AN AUDIO SIGNAL
CN101689368B (zh) * 2007-03-30 2012-08-22 韩国电子通信研究院 对具有多声道的多对象音频信号进行编码和解码的设备和方法
CN103299363B (zh) * 2007-06-08 2015-07-08 Lg电子株式会社 用于处理音频信号的方法和装置
EP2144229A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Efficient use of phase information in audio encoding and decoding
WO2010105695A1 (en) * 2009-03-20 2010-09-23 Nokia Corporation Multi channel audio coding
KR101387808B1 (ko) * 2009-04-15 2014-04-21 한국전자통신연구원 가변 비트율을 갖는 잔차 신호 부호화를 이용한 고품질 다객체 오디오 부호화 및 복호화 장치
EP2249334A1 (en) * 2009-05-08 2010-11-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio format transcoder
KR101388901B1 (ko) * 2009-06-24 2014-04-24 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 오디오 신호 디코더, 오디오 신호를 디코딩하는 방법 및 캐스케이드된 오디오 객체 처리 단계들을 이용한 컴퓨터 프로그램
CN102549655B (zh) * 2009-08-14 2014-09-24 Dts有限责任公司 自适应成流音频对象的系统
KR20110018107A (ko) * 2009-08-17 2011-02-23 삼성전자주식회사 레지듀얼 신호 인코딩 및 디코딩 방법 및 장치
KR101418661B1 (ko) * 2009-10-20 2014-07-14 돌비 인터네셔널 에이비 다운믹스 시그널 표현에 기초한 업믹스 시그널 표현을 제공하기 위한 장치, 멀티채널 오디오 시그널을 표현하는 비트스트림을 제공하기 위한 장치, 왜곡 제어 시그널링을 이용하는 방법들, 컴퓨터 프로그램 및 비트 스트림
MY154641A (en) * 2009-11-20 2015-07-15 Fraunhofer Ges Forschung Apparatus for providing an upmix signal representation on the basis of the downmix signal representation, apparatus for providing a bitstream representing a multi-channel audio signal, methods, computer programs and bitstream representing a multi-channel audio signal using a linear cimbination parameter
CN102763432B (zh) * 2010-02-17 2015-06-24 诺基亚公司 对多装置音频捕获的处理
CN102222505B (zh) * 2010-04-13 2012-12-19 中兴通讯股份有限公司 可分层音频编解码方法系统及瞬态信号可分层编解码方法
EP2717262A1 (en) 2012-10-05 2014-04-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for signal-dependent zoom-transform in spatial audio object coding

Also Published As

Publication number Publication date
RU2625939C2 (ru) 2017-07-19
JP2015535959A (ja) 2015-12-17
US20150279377A1 (en) 2015-10-01
HK1213361A1 (zh) 2016-06-30
EP2717262A1 (en) 2014-04-09
TWI541795B (zh) 2016-07-11
US20150221314A1 (en) 2015-08-06
CA2886999C (en) 2018-10-23
BR112015007649B1 (pt) 2023-04-25
RU2015116645A (ru) 2016-11-27
BR112015007650A2 (pt) 2019-11-12
MX350691B (es) 2017-09-13
TW201423729A (zh) 2014-06-16
EP2904611B1 (en) 2021-06-23
CA2887028A1 (en) 2014-04-10
WO2014053548A1 (en) 2014-04-10
CN105190747A (zh) 2015-12-23
RU2015116287A (ru) 2016-11-27
US9734833B2 (en) 2017-08-15
CN104798131A (zh) 2015-07-22
KR20150056875A (ko) 2015-05-27
CA2887028C (en) 2018-08-28
JP6268180B2 (ja) 2018-01-24
CN104798131B (zh) 2018-09-25
ES2880883T3 (es) 2021-11-25
EP2904610B1 (en) 2021-05-05
AU2013326526B2 (en) 2017-03-02
AR092928A1 (es) 2015-05-06
BR112015007650B1 (pt) 2022-05-17
MX351359B (es) 2017-10-11
US10152978B2 (en) 2018-12-11
MX2015004018A (es) 2015-07-06
MX2015004019A (es) 2015-07-06
CA2886999A1 (en) 2014-04-10
KR101689489B1 (ko) 2016-12-23
KR101685860B1 (ko) 2016-12-12
KR20150065852A (ko) 2015-06-15
TW201419266A (zh) 2014-05-16
ES2873977T3 (es) 2021-11-04
JP2015535960A (ja) 2015-12-17
MY178697A (en) 2020-10-20
TWI539444B (zh) 2016-06-21
BR112015007649A2 (pt) 2022-07-19
EP2904610A1 (en) 2015-08-12
EP2904611A1 (en) 2015-08-12
CN105190747B (zh) 2019-01-04
WO2014053547A1 (en) 2014-04-10
AU2013326526A1 (en) 2015-05-28
RU2639658C2 (ru) 2017-12-21
AR092929A1 (es) 2015-05-06
EP2717265A1 (en) 2014-04-09
SG11201502611TA (en) 2015-05-28

Similar Documents

Publication Publication Date Title
JP6185592B2 (ja) 空間オーディオオブジェクト符号化における信号依存ズーム変換のためのエンコーダ、デコーダおよび方法
JP6285939B2 (ja) 後方互換性のある多重分解能空間オーディオオブジェクト符号化のためのエンコーダ、デコーダおよび方法
JP6289613B2 (ja) オブジェクト特有時間/周波数分解能を使用する混合信号からのオーディオオブジェクト分離

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160719

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20161005

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20161012

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20161005

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170113

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170704

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170727

R150 Certificate of patent or registration of utility model

Ref document number: 6185592

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250