JP6663996B2 - 符号化されたオーディオ信号を処理するための装置および方法 - Google Patents

符号化されたオーディオ信号を処理するための装置および方法 Download PDF

Info

Publication number
JP6663996B2
JP6663996B2 JP2018531150A JP2018531150A JP6663996B2 JP 6663996 B2 JP6663996 B2 JP 6663996B2 JP 2018531150 A JP2018531150 A JP 2018531150A JP 2018531150 A JP2018531150 A JP 2018531150A JP 6663996 B2 JP6663996 B2 JP 6663996B2
Authority
JP
Japan
Prior art keywords
spectrum
signal
upsampled
access unit
parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018531150A
Other languages
English (en)
Other versions
JP2019502948A (ja
Inventor
アンドレアス・ニーデルマイヤー
ザッシャ・ディシュ
Original Assignee
フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン filed Critical フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Publication of JP2019502948A publication Critical patent/JP2019502948A/ja
Application granted granted Critical
Publication of JP6663996B2 publication Critical patent/JP6663996B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/69Spread spectrum techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Description

本発明は、符号化されたオーディオ信号を処理するための装置および対応する方法に関する。
知覚的オーディオ符号化は、効率的な記憶、処理、伝送および再生を可能にする、知覚的に適合した方法による音のデジタル表現の技法である。ビット消費を更に低減するための不可欠なツールは、帯域幅拡張(BWE)と呼ばれるセミパラメトリックな方法である。この技法は、欠落した高周波数帯域(HF)のパラメータ制御された推定値を加えることによって、低周波数帯域(LF)に帯域制限された知覚的に符号化された信号を拡張する。しばしば、これは、LFスペクトルの転置およびその後のエネルギー包絡線調整によって達成される。通常、いくつかの知覚に関連するパラメータが一緒に調整される(ノイズレベル、音調など)。
スペクトル帯域複製(SBR)およびインテリジェント・ギャップ・フィリング(IGF)は、帯域幅拡張機能を提供する現代の技術である。IGF(国際公開第2015/010948号パンフレット参照)は、SBR(国際公開第98/57436号パンフレット参照)に匹敵する知覚品質において、高い符号化効率と同時に、低い計算複雑度を提供している。
SBRおよびIGFにおける高周波数帯域のスペクトル包絡線の推定は、それぞれQMF(直交ミラーフィルタ)およびMCLT(変調複素重複変換)のフィルタバンクを使用して実施される。
これにより、既存のSBR符号化されたオーディオ素材をIGFベースの表現に更新することが魅力的な課題になる。直接的だが面倒なアプローチはタンデム符号化であり、これはSBRベースのコンテンツをパルス符号変調(PCM)時間領域信号に復号し、続いてこの信号をIGFベースのフォーマットに再符号化することを含む。
従って、本発明の目的は、元の符号化とは異なる符号化を使用して、符号化されたオーディオ信号である直接トランスコードされたオーディオ信号を取得するために、符号化されたオーディオ信号を処理することである。また、本発明の目的は、異なる符号化方式の利点を利用して、符号化されたオーディオ信号を復号してオーディオ信号を取得するために、符号化されたオーディオ信号を処理することである。
これらの目的は、請求項1に記載の符号化されたオーディオ信号を処理するための装置、および請求項22に記載の対応する方法によって達成される。
本発明の装置または本発明の方法によって処理される符号化されたオーディオ信号は、一連のアクセスユニットを含む。各アクセスユニットは、第1のスペクトル幅を有するコア信号と、第1のスペクトル幅よりも上のスペクトルを記述するパラメータとを含む。
このような符号化されたオーディオ信号を処理する本発明の装置は以下を含む。
・符号化されたオーディオ信号のアクセスユニットから、コア信号とパラメータセットとを生成するためのデマルチプレクサ。すなわち、デマルチプレクサは、符号化されたオーディオ信号のアクセスユニットから、コア信号と、コア信号に対応するスペクトルよりも上の欠落したスペクトルを再構成することを可能にするパラメータとを抽出する。
・アクセスユニットのコア信号をアップサンプリングし、第1のアップサンプリングされたスペクトルと時間的に連続した第2のアップサンプリングされたスペクトルを出力するアップサンプラ。第1のアップサンプリングされたスペクトルと第2のアップサンプリングされたスペクトルは両方とも、コア信号と同じコンテンツを有し、コアスペクトルの第1のスペクトル幅よりも大きい第2のスペクトル幅を有する。換言すれば、アップサンプラはコア信号をアップサンプリングし、少なくとも2つのアップサンプリングされたスペクトルを出力する。アップサンプリングされたスペクトルは時間的に連続しており、コア信号と同じ情報をカバーし、コア信号のスペクトル幅よりも大きなスペクトル幅を有する。
・アクセスユニットのパラメータセットのパラメータを変換して、変換されたパラメータを取得するためのパラメータ変換器。換言すれば、符号化されたオーディオ信号内のパラメータは、アップサンプリングされたスペクトルに適用することができるパラメータに変換される。
・変換されたパラメータを用いて、第1のアップサンプリングされたスペクトルと、第2のアップサンプリングされたスペクトルとを処理するためのスペクトル・ギャップ・フィリング・プロセッサ。換言すれば、スペクトル・ギャップ・フィリング・プロセッサは、アップサンプリングされたスペクトルと変換されたパラメータとを結合する。その結果は、実施形態に応じて、元のまたは入力された符号化されたオーディオ信号とは異なる技術により符号化されたオーディオ信号である、トランスコードされたオーディオ信号となることができ、またはその結果がオーディオ信号となることができる。
一実施形態では、アップサンプラは、コア信号のスペクトルの上側をゼロで満たし、コア信号の満たされたスペクトルから、第1のアップサンプリングされたスペクトルおよび第2のアップサンプリングされたスペクトルを導出するように構成される。
一実施形態では、アップサンプリングは、符号化されたオーディオ信号の少なくとも2つのアクセスユニットに基づいて行われる。この実施形態では、アップサンプラは、このアクセスユニットに直接先行するアクセスユニットのコア信号を追加的に用いて、アクセスユニットのコア信号をアップサンプリングするように構成される。従って、アップサンプリングされたスペクトルを取得するために、2つのアクセスユニットの情報が必要とされ使用される。
更なる実施形態では、アップサンプラは、時間的に連続した第1の数のアクセスユニットのコア信号を収集し、これらコア信号から非整数のアップサンプリング比率でアップサンプリングされた第2の数のスペクトルを処理するように構成され、ここでは第1の数が比率の分母であり第2の数が比率の分子である。
一実施形態によれば、パラメータ変換器は、時間的に連続したタイムスロットの第1の部分を参照して、パラメータセットのパラメータの第1のサブセットを変換し、タイムスロットの第1の部分に時間的に連続したタイムスロットの第2の部分を参照して、パラメータセットのパラメータの第2のサブセットを変換するように構成される。更に、スペクトル・ギャップ・フィリング・プロセッサは、第1のアップサンプリングされたスペクトルと共に第1の変換されたパラメータのサブセットを処理し、第2のアップサンプリングされたスペクトルと共にパラメータの第2の変換されたサブセットを処理するように構成される。この実施形態では、符号化されたオーディオ信号のパラメータは、好ましくはフレームに属する、タイムスロットを指す。
一実施形態では、変換器は、これらのパラメータ値を所定のスケール係数でスケーリングすることによって、パラメータセットのエネルギー値を参照するパラメータを、スペクトル・ギャップ・フィリング・プロセッサによって使用可能なエネルギー値に変換するように構成される。
一実施形態では、スケール係数は一定値を有する。
一実施形態では、スケール係数は所与の符号化されたオーディオ信号の必要条件に適合される。従って、変換器は、アクセスユニットに関連する窓関数に関する情報を抽出するように構成される。更に、変換器は窓関数に従ってスケール係数を適合させるように構成される。
一実施形態では、同期のために、変換器は、遅延補償を挿入することによって、パラメータセットのパラメータをシフトするように構成される。
MCLTおよびQMF変換の例では、遅延の不整合は以下のように考えることができる。これは、MCLTエネルギーがロングブロック(LB)ウィンドウを使用して定義されることを前提とする。変換間のエネルギーを比較するために、それぞれのプロトタイプウィンドウの重心(CG)が整列されるように、ウィンドウはデータ上に同期して配置されなければならない。重み係数はCGにおいて1である。
QMF分析で使用されるプロトタイプウィンドウは、ローパスFIRフィルタであってもよい。ウィンドウの係数は、最良の側波帯抑圧となるように最適化され、好適には結果として、ウィンドウ端で滑らかなロールオフを有する対称ウィンドウとなり、適切な側波帯減衰が期待される。ウィンドウの長さは640であり、ウィンドウストライドのホップサイズは64サンプル長であってもよい。
MCLTの実装のために、対称正弦波ウィンドウを使用してもよい。ウィンドウは、例えば、ロングブロックは2048サンプルの長さを有し、ショートブロックは256サンプルの長さを有する。ショートブロックはロングブロックの8分の1のサイズである。ウィンドウストライドのホップサイズは、ロングブロックとショートブロックに対して、それぞれ1024サンプルと128サンプルであり、これは変換の周波数分解能に等しい。
例えば、IGFで使用されるMCLTプロトタイプウィンドウは、2N=2048サンプルの長さにわたり、50%のオーバーラップを持つ。ショートブロックの中央にあるショートウィンドウは長さがN/4であり、いずれの側にも448サンプルのオフセットがある。従って、Nサンプルのホップサイズは最初の入力サンプルをキャプチャし、一方で遅延τ1は1024サンプルからなる。
QMFプロトタイプウィンドウは、10M=640サンプルの長さにわたり、サブサンプルと呼ばれるMサンプルのホップサイズを有してもよい。ホップサイズはまた、QMFサブサンプルのサブバンドの数であるMに対応する。遅延補償τ2は(ウィンドウ長−ウィンドウホップサイズ=640−64サンプル)として計算してもよく、576サンプルである。
一実施形態によれば、アップサンプラは、前記コア信号の値を補間することによって前記コア信号をアップサンプリングするように構成される。
一実施形態では、アップサンプラは以下のように構成される。
・アップサンプラは、先行するアクセスユニットのコア信号のスペクトルをゼロで満たすように構成される。
・アップサンプラは、アクセスユニットのコア信号のスペクトルをゼロで満たすように構成される。
・アップサンプラは、アクセスユニットの満たされたスペクトルおよび先行するアクセスユニットの満たされたスペクトルの逆変換を実行するように構成される。
・最後に、アップサンプラは、先行するアクセスユニットの満たされたスペクトルに対する時間領域信号と、アクセスユニットの満たされたスペクトルに対する時間領域信号とのオーバーラップ加算を実行して、中間時間信号を取得するように構成される。
前述の実施形態に基づいて、一実施形態によれば、アップサンプラは、中間時間信号の第1の部分を用いてフォワード変換を実行して、第1のアップサンプリングされたスペクトルを取得するように構成される。アップサンプラはまた、中間時間信号の第2の部分を用いてフォワード変換を実行して、第2のアップサンプリングされたスペクトルを取得するように構成される。これは、第1の部分が第2の部分と重なるという制約下で行われる。
一実施形態によれば、アップサンプラは、コア信号をアップサンプリングして、アップサンプリングされたコア信号を取得するように構成され、アップサンプラは、アップサンプリングされたコア信号に対して逆変換を実行して、時間領域信号を取得するように構成され、アップサンプラは、変換を適用することにより、時間領域信号を処理して、第1のアップサンプリングされたスペクトルおよび時間的に連続する第2のアップサンプリングされたスペクトルを取得するように構成される。逆変換とは、変換の逆変換である。
前述の実施形態に関する一実施形態では、逆変換は逆変形離散コサイン変換であり、変換は変形離散コサイン変換である。
一実施形態では、スペクトル・ギャップ・フィリング・プロセッサは、変換されたパラメータと共に、第1のアップサンプリングされたスペクトルおよび第2のアップサンプリングされたスペクトルを処理して、時間領域出力信号を取得するように構成される。
以下の実施形態では、スペクトル・ギャップ・フィリング・プロセッサは、変換されたパラメータの第1の部分を第1のアップサンプリングされたスペクトルに適用して第1の処理されたスペクトルを取得し、変換されたパラメータの第2の部分を第2のアップサンプリングされたスペクトルに適用して第2の処理されたスペクトルを取得するように構成される。
一実施形態によれば、スペクトル・ギャップ・フィリング・プロセッサは、第1の処理されたスペクトルおよび第2の処理されたスペクトルを時間領域に変換するためのスペクトル変換器を含むように構成され、スペクトル・ギャップ・フィリング・プロセッサは、オーディオ信号を取得するために、少なくとも2つの出力時間信号でオーバーラップ加算するように構成されたオーディオ加算器を含むように構成される。
一実施形態では、スペクトル・ギャップ・フィリング・プロセッサは、第1のアクセスユニットおよび第2のアクセスユニットを有するスペクトル・ギャップ・フィリングにより符号化された信号を生成するように構成され、第1のアクセスユニットは、第1のアップサンプリングされたスペクトルの変換されたバージョンおよび変換されたパラメータの第1の部分を含み、第2のアクセスユニットは、第2のアップサンプリングされたスペクトルの変換されたバージョンおよび変換されたパラメータの第2の部分を含む。
一実施形態によれば、スペクトル・ギャップ・フィリング・プロセッサは、第1のアクセスユニットおよび第2のアクセスユニットを有する出力データストリームを生成するように構成される。このデータストリームは、例えば、トランスコードされたオーディオ信号であるIGF符号化されたオーディオ信号である。
一実施形態では、スペクトル・ギャップ・フィリング・プロセッサは、第1のアップサンプリングされたスペクトルおよび第2のアップサンプリングされたスペクトルを、変換されたパラメータと共に処理して、2つのトランスコードされたアクセスユニットを取得するように構成され、スペクトル・ギャップ・フィリング・プロセッサは、2つのトランスコードされたアクセスユニットを加算して、トランスコードされたオーディオ信号を取得するように構成される。
装置がトランスコーダとして動作し、従ってトランスコードされたオーディオ信号を出力する場合、一実施形態によると、トランスコードされたオーディオ信号はIGFで符号化されたオーディオ信号である。
一実施形態によれば、符号化されたオーディオ信号はSBR符号化されたオーディオ信号である。
本発明はまた、符号化されたオーディオ信号を処理する方法にも関する。符号化されたオーディオ信号は、一連のアクセスユニットを含み、各アクセスユニットは、第1のスペクトル幅を有するコア信号と、第1のスペクトル幅よりも上のスペクトルを記述するパラメータとを含む。
本発明の方法は、少なくとも以下のステップを含む。
・符号化されたオーディオ信号の現アクセスユニットと呼ばれ得るこのアクセスユニットから、コア信号およびパラメータセットを生成するステップ。
・アクセスユニットのコア信号をアップサンプリングし、第1のアップサンプリングされたスペクトルと時間的に連続した第2のアップサンプリングされたスペクトルを出力するステップ。第1のアップサンプリングされたスペクトルと第2のアップサンプリングされたスペクトルは両方とも、コア信号と同じコンテンツを有し、コアスペクトルの第1のスペクトル幅よりも大きい第2のスペクトル幅を有する。
・アクセスユニットのパラメータセットのパラメータを変換して、変換されたパラメータを取得するためステップ。
・変換されたパラメータを用いて、第1のアップサンプリングされたスペクトルと、第2のアップサンプリングされたスペクトルとを処理するステップ。
上述の装置の実施形態はまた、方法のステップおよび方法の対応する実施形態によって実施することができる。
一実施形態では、符号化されたオーディオ信号の処理は、オーディオ信号を生成するための符号化されたオーディオ信号の復号化に関する。別の実施形態では、符号化されたオーディオ信号の処理は、符号化されたオーディオ信号を、異なる方式で符号化されたオーディオ信号へ、またはトランスコードされたオーディオ信号へ直接トランスコードすることである。従って、トランスコーダは、第1の符号化方法による第1の符号化されたオーディオ信号から、第2の異なる種類の符号化に基づく第2の符号化されたオーディオ信号を生成する。
符号化されたオーディオ信号は、コア信号と、コア信号より上の元のオーディオ信号の欠落部分を記述するパラメータとを含む。パラメータは、例えば、所与の数のタイムスロットおよび対応するエネルギー値またはエネルギーを有するフレーム内に与えられるスペクトル包絡線を含む。パラメータに関しては、異なるフィルタバンクを使用することができる。
本発明の利点は、パラメータマッピングにおける高精度、追加的なトランスコーディング・アーチファクトの最小化、および計算複雑度の低減である。
符号化されたオーディオ信号のコア信号を示す。 本発明の適用中に生じるスペクトルを示す。 QMF(直交ミラーフィルタ、上段)とMCLT(変調複素重複変換、下段)とを用いた、オーディオ信号の2つの変換の比較を示す。 時間的に連続するQMF値のMCLTによるウィンドウ化を示す。 それぞれ、MCLTおよびQMFの対数エネルギー値を、および平均オフセットを示す。 ストップ・スタート・ウィンドウ・シーケンスを示す。 従来技術による復号器を示す。 符号化されたオーディオ信号をトランスコードするための装置の一実施形態をブロック図で示す。 符号化されたオーディオ信号を復号化するための装置の一実施形態をブロック図で示す。 例えば図8および図9に示される実施形態のそれぞれで使用されるアップサンプラの実施形態を示す。 図10に示すアップサンプラのパラメータ変換器の動作を示す。 3:8の比率のコア信号のアップサンプリングを示す。 アクセスユニットに適用されたオーバーラップ加算シーケンスを示す。 本発明の装置をブロック図として示す。 本発明の方法をフローチャートを用いて示す。
本発明の好ましい実施形態は、添付の図面に関連して以下に説明される。
以下では、符号化されたオーディオ信号はSBR符号化されたオーディオ信号の一例としてであるが、本発明はこの種類の符号化されたオーディオ信号に限定されない。これは、ある種類の符号化されたオーディオ信号にも当てはまり、その内部でSBR符号化されたオーディオ信号がトランスコードされる場合、または、その対応する信号またはスペクトルがいずれかの中間ステップで処理される場合である。ここでは、これは多くの可能性の中の一例として、IGFで符号化されたオーディオ信号である。
SBRデータをIGF表現にトランスコードするためには、次のステップの少なくともいくつかが実施される。
・SBRコピーアップコンテンツのIGF準拠のコピーアップ素材による置換。
・データ同期のための、MDCTに対するQMFの遅延補償の挿入。
・(QMFベースのエネルギー測定により)SBRによって得られたスペクトル高域包絡線のMCLT表現へのマッピング。
・基礎となるSBR時間周波数グリッドのIGF時間周波数グリッドへのマッピング。マッピング関数は、様々なタイプのウィンドウ化方式に従って適合されて、QMFエネルギーからMCLTエネルギーが導出される。
・好ましくは、あらゆるバイアスを除去し残余誤差を最小化するための、エネルギー補正係数の適用。
・好ましくは、残りのSBRサイドインフォメーション(例えば、雑音レベル、逆フィルタリングレベルとも言われる音調、他)の適切なIGFパラメータへの変換。例えば、SBRの逆フィルタリングレベルは、IGFの適切なホワイトニングレベルにマッピングされて、最適な知覚品質を提供する。
図1は、ここではゼロから周波数fxoに至る制限された第1のスペクトル幅を有する、符号化されたオーディオ信号のアクセスユニットのコア信号101を示す。符号化されたオーディオ信号のパラメータは、このコア信号101よりも上の、周波数2*fxoに至るスペクトルを記述する。
これを図2に示すスペクトルと比較しなければならない。ここでは、アップサンプリングされたスペクトル1は図1のコア信号と同じ情報コンテンツを含み、このコア信号を超える周波数についてはゼロ値を持つ。第2のスペクトル幅は、この例ではゼロから2*fxoの周波数に至る。
SBRデータをIGF表現にトランスコードするためには、QMFエネルギーをMCLTエネルギー値にマッピングしなければならない。
これについて、QMF変換とMCLT変換の比較から始めて、以下に詳細に説明する。
xをサンプルレートSRでサンプリングされた離散オーディオ信号とする。QMF変換が信号xに適用されると、
Figure 0006663996

が得られる。ここで、tは変換のスタートサンプル、lはタイムスロットインデックスであり、k=0,1,...,m−1はmまでの周波数ライン、すなわちナイキスト周波数ラインである。
ウィンドウ化されたMCLT変換が信号xに適用された場合、結果は、
Figure 0006663996

となる。ここで、bは変換のスタートブロックであり、i=0,1,...,N−1は、ナイキスト周波数ラインNまでの周波数ラインである。
例示的なパラメータは、以下の説明においても使用される。
QMF変換では、64サンプルのホップサイズを有する640サンプルのプロトタイプ長が使用される。この結果、ナイキスト周波数ラインに対してm=64となる。
例えば、MCLTの場合、2048のロングウィンドウサイズが50%のオーバーラップを有して使用される場合、ホップサイズは1024であり、従ってナイキスト周波数ラインに対してN=1024となる。オーバーラップしたウィンドウ化は、一般に、ブロッキングアーチファクトを除去する。
このような例示的構成による分析の間に、MCLT変換と同じ量のサンプルをカバーするために32個のQMFタイムスロットが必要となる。図3を参照のこと。この図3はまた、QMFのサブサンプルがMCLTのより長いウィンドウと整列されるデータ同期を示す。
マッピングのためにSBR符号化されたオーディオ信号のQMFエネルギーを準備するために、ウィンドウwが、MCLTにおいて時間領域サンプルがウィンドウ化されるような、時間的に連続するQMF値に適用される。このQMFウィンドウ化を図4に示す。
QMFエネルギーをMCLTエネルギーに適切にマッピングするためには、両方の変換は遅延に関して整列される必要がある。
次に、QMFエネルギーおよびMCLTエネルギーの変換に対して以下の式が成立する。
Figure 0006663996

ここで、xはSBRクロスオーバ周波数である。
次のステップは、それぞれのエネルギー値をQMF変換からMCLT変換に変換することである。
SBRフレームは、時間/スペクトル包絡線の粒度を用いて信号の特徴を定義するのに役立つ。スペクトル包絡線のマッピングは、マッピング技術の定義の一部として調査されてきた。適応SBRグリッドの時間分解能によって与えられる情報は、IGFの時間的適応の技術に転換される。
QMFフィルタバンクで分析される時間領域信号は、サブサンプルの時間分解能を有する。SBRエネルギーの最高の時間分解能は、タイムスロット、すなわち2つのサブサンプルにわたる。時間と周波数分解能との間のトレードオフは、タイムスロットとサブバンドグルーピングの選択との組み合わせから実現することができる。様々なタイプのフレームによって、フレーム内の可変数の時間/周波数セグメントが可能になる。このように、信号特性はグリッドで量子化される包絡線によって保存される。
IGFにおける時間/周波数の適応分解能は、様々なタイプのMCLTウィンドウを使用して実現することができる。実験が示したように、QMFサブバンドのエネルギーは、MCLTブロックに応じて相対的に収集することができる。これにより、エネルギーマッピング中のブロックスイッチングの組み込みが動機付けられる。このようにしてサブバンドに集められたエネルギーは、MCLT周波数ビンにわたって補間することができる。その後、ソーススペクトル転置の間、包絡線整形のためのIGFサイド情報を導出することができる。
実験に基づいて、QMFブロックエネルギーは、ロングブロック内の32個のオーバーラップするサブサンプルにわたって計算することができる。MCLTブロックエネルギーへのマッピングの誤差を減らすために、QMFはMCLTプロトタイプウィンドウの重み係数の適用を必要とする。適切なMCLTウィンドウを選択することにより、QMFの時間包絡線によって規定される信号特徴の保存が促進されることが期待される。
これらの計算は、好ましくはオフラインで、装置または方法の使用前に実行される。
図5は、EQMFとEMDCTの対数エネルギー(E’(QMF)とE’(MCLT))を比較した測定例の結果を示す。これにより、対数領域での計算が可能になる。
Figure 0006663996
これは、従って、線形領域における線形写像に対して一定のスケール係数sを用いることによって、エネルギー値の変換の証明となり、
Figure 0006663996

である。ここでスケール係数sは、
Figure 0006663996

で与えられ、Bは測定されたブロックの総数である。一実施形態では、全ての外れ値を10%信頼区間にクリッピングすることによって、平均オフセット
Figure 0006663996

が全てのブロックに対して存在する。
Figure 0006663996
この信頼区間により、平均からの過度の偏差を有するデータサンプルをクリッピングすることが可能になる。
例示的な測定では、バイアスのない正確なエネルギーの一致が、約1dBのピーク誤差を伴って示された。このマッピングを利用して、SBR符号化されたオーディオ信号を含有するビットストリームで送信されたSBRエネルギー値を、対応するIGFエネルギー値に変換することが可能である。示した例における一定のスケール係数は、対数領域において20未満および約18である。これらは、IGF復号器に直接供給することができ、または代替として、IGF出力ビットストリーム内に組み込むことができる。
実験では、対数領域における平均オフセット
Figure 0006663996
が20未満の値をとることが示された。平均オフセット
Figure 0006663996
は、16と17の間にあり、ある場合には約7の値をとることが判明した。従って、平均オフセット
Figure 0006663996
は7〜17の値をとる。
更なる実験では、平均オフセット
Figure 0006663996
は使用されるウィンドウのタイプに依存することが示された。取得された値を以下の表に示す。
Figure 0006663996
図6は、使用されたウィンドウシーケンスに対するスケール係数の依存性を説明するためのストップ・スタート・ウィンドウ・シーケンスを示す。示した例では、SBR符号化されたオーディオ信号のフレームfは、QMFの32個のサブサンプルを含有する。シーケンスの第1のウィンドウタイプws(f,0)は、完全なフレームデータ、すなわちtサブサンプルのブロックにわたる。以下のウィンドウws(f,1)は、フレームfのt/2サブサンプルおよびフレームf+1のt/2サブサンプルにわたる一方で、ws(f,0)にオーバーラップしている。SBRグリッドのフレームは、QMFエネルギーグリッドのブロックとして利用可能であり、この実施形態では、1つのフレームがQMFサブサンプルの2つのブロックを生成するという関係を有する。
以下では、一実施形態を用いて、SBR符号化されたオーディオ信号を復号するためのIGF復号器について説明する。
典型的な2:1のSBRデコーダは例えば、M.Neuendorfらによる“The ISO/MPEG Unified Speech and Audio Coding Standard−Consistent High Quality for All Content Types and at All Bit Rates”,J.Audio Eng.Soc.,vol.61,no.12,pp.956−977,Dec.2013に記載されており、図7に示される。
本発明のトランスコーダの実施形態をブロック図の形態で図8に示す。
アクセスユニット100’を含むSBR符号化されたオーディオ信号100はデマルチプレクサ1に供給され、コア信号101およびパラメータセット102が抽出され、オーディオ信号の欠落部分の再構成が可能になる。コア信号101は、ここではMDCTスプリッタによって具体化されるアップサンプラ2に供給され、パラメータセット102はパラメータ変換器に供給され、パラメータ変換器は、この描写で別個の要素を含むものとして示される。
この例では、パラメータセット102は、特に、SBR符号化されたオーディオ信号によって提供されるスペクトル包絡線を指す。この例では、SBR符号化されたオーディオ信号のフレームのタイムスロット0〜15が上位パラメータ変換要素に送信され、タイムスロット16〜31が下位パラメータ変換要素に送信される。タイムスロットの数は、依然としてQMFからMCLTへのパラメータの変換の説明に使用される例示的なパラメータを参照する。
パラメータ変換器3の各サブセクションでは、少なくともスペクトル包絡線を参照するパラメータが、上述のQMFデータのMCLTデータへの変換を介して変換される。結果として変換されたパラメータ104、104’はインテリジェント・ギャップ・フィリングの使用に適しており、2つのマルチプレクサを含むスペクトル・ギャップ・フィリング・プロセッサ4に供給され、コア信号101からアップサンプラ2によって得られた対応するアップサンプリングされたスペクトル103、103’とマージされる。
その結果は、スペクトル・ギャップ・フィリング・プロセッサ4のマルチプレクサの出力として2つのアクセスユニット1.AU’および2.AU’を含む。両方のアクセスユニット1.AU’および2.AU’は、加算器5に供給され、ここで第2のアクセスユニット2.AU’は、遅延要素6によって遅延される。加算器5の結果は、トランスコードされたオーディオ信号200であり、これは、特に示された実施形態では、2つのアクセスユニット1.AUおよび2.AUを有するIGF符号化されたオーディオ信号である。
アップサンプラ2を図10に示される例示的実施形態を用いて説明するが、アップサンプラ2にはMDCTスプリッタとラベルを付している。
アップサンプラ2は、元のSBR符号化されたオーディオ信号のコア信号101(例えば1024ラインを有する)のスペクトルをアップサンプリングするためのスペクトルアップサンプラ20を含む。アップサンプリングされたスペクトル110(例えば、係数2によってアップサンプリングが行われた場合、結果の信号は2048ラインを有する)は、逆変換の一例としてIMDCT変換器21によって実行される逆変形離散コサイン変換を受ける。このように取得された(時間領域サンプルからなる)時間領域信号111は、(OAによって設計された)オーバーラップ加算を受け、このように2つの信号に分割される。両信号は、図示したように、例えば1024ラインを有し、下側信号は1024ラインに相当するオーバーラップ加算の遅延24の影響を受ける。次いで両信号は、2つのMDCT変換器23によって実行される変形離散コサイン変換を受け、アップサンプラ2の出力として2つのアップサンプリングされたスペクトル103がもたらされる。
2つのMDCT変換器23の効果を図11に示す。この図において、1.MDCTは、図3に示される上側のMDCT変換器23を指し、2.MDCTは、下側のMDCT変換器23を指す。IMDCTの出力は、逆変形離散コサイン変換された、アップサンプリングされたコア信号111を指す。更に、IMDCT変換器21に提供される、例えば2048サンプルを有するオーバーラップ加算OAが存在する。
MDCTの詳細については、例えば国際公開第2014/128197号パンフレット、特に14〜16頁を参照のこと。
代替として、MDCT変換およびIMDCT変換ではなく、高速フーリエ変換および逆高速フーリエ変換が実行される。
図9に示す装置は、このような符号化されたオーディオ信号100の処理の一例として、ここではSBR(スペクトル帯域複製)の符号化されたオーディオ信号100をオーディオ信号300に復号化することを可能にする。
この目的のために、装置は、SBR符号化されたオーディオ信号100のアクセスユニット100’からコア信号101とパラメータセット102とを生成するデマルチプレクサ1を含む。パラメータセット102は、コア信号よりも上のスペクトルを記述する。すなわち欠落部分を記述する。
コア信号101は、ここではMDCTスプリッタとして具体化されるアップサンプラ2に送られ、コア信号101をアップサンプリングする。これは、SBR符号化されたオーディオ信号のコア信号が、IGF符号化されたオーディオ信号のコア信号と比較して、低減されたサンプリングレートを有するという事実ゆえである。アップサンプラ2の実施形態の詳細は、図10に関連して説明された。
パラメータセット102は、ここでは2つの変換器要素またはユニットによって具体化されるパラメータ変換器3に送られる。アクセスユニット100’は、少なくとも、時間的に連続するタイムスロットをカバーするフレームを含む。ここには、32のタイムスロットがある。タイムスロット0〜15をカバーする第1のタイムスロットのパラメータは、上位パラメータ変換器ユニットに供給され、16〜31にわたる第2のタイムスロットのパラメータは、下位パラメータ変換器ユニットに供給されて、変換される。符号化されたオーディオ信号および変換されたパラメータのパラメータは異なるフィルタバンクを、例えばそれぞれ、直交ミラーフィルタ(QMF)および変調複素重複変換(MCLT)を参照する。従って、パラメータ変換器ユニットは、同期のためにSBR符号化されたオーディオ信号のパラメータに遅延補償を挿入する。更に、パラメータ変換器ユニットは、時間信号に適用されたウィンドウを使用して、パラメータに対して、好ましくは事前に、実行されたウィンドウ化を使用し、変調複素重複変換のフィルタバンクを使用してSBR符号化されたオーディオ信号のタイムスロットの基礎となる時間周波数グリッドをマッピングする。
結果として変換されたパラメータ104、104’は、スペクトル・ギャップ・フィリング・プロセッサ4の2つの構成要素(1.IGFと2.IGF)に供給され、アップサンプリングされたスペクトル103、103’が対応する変換されたパラメータ104、104’とマージされる。示された実施形態では、これに対応して、タイムスロットの第1のセットから得られた変換されたパラメータ104は、図10に示す「MDCT1」によって提供されるアップサンプリングされたスペクトルとマージされ、タイムスロットの第2のセットから得られた変換されたパラメータ104’は、「MDCT2」によって提供される遅延されたアップサンプリングされたスペクトルとマージされることを意味する。
このマージの結果は、逆変形離散コサイン変換を用いて2つのIMDCT変換器7によって時間信号に変換され、オーバーラップ加算(遅延8および加算器9)され、所望のオーディオ信号300になる。
図12は、コア信号を3:8の比率でアップサンプリングする例を示す。この場合、アップサンプラは、時間的に連続する3つのアクセスユニット100’(これは上述したものであり、従って「現在の」アクセスユニット)、ならびに2つの先行するアクセスユニット100’’および100’’’のコア信号を記憶する。これら3つのコア信号は加算され、その後8つのアップサンプリングされたスペクトルに分割される。
示していないが、コア信号のアップサンプリングが3:4の比率で行われる場合、アップサンプラは3つの時間的に連続するアクセスユニットのコア信号も記憶する。これらコア信号も加算されるが、4つのアップサンプリングされたスペクトルに分割される。
同様に、あるオーバーラップが所望される場合は、1つのアップサンプリングされたスペクトルに対して、2つのアクセスユニットからの2つのコア信号が必要とされる。
図13は、オーバーラップ加算を概略的に示す。説明は行を上から下へ続く。
3つのアクセスユニットAU0、AU1、AU2が与えられ、各々が1024個のデータポイントを有するコア信号を有する。コア信号の対応するスペクトルには、コア信号のスペクトルに続いてゼロが加えられる。アップフィルドされたスペクトルは2048データ点を有する。これらのスペクトルは、2×2048=4096データ点を有する信号を有する時間領域に変換される。
これらの時間信号については、信号のオーバーラップ部分が加算される。オーバーラップとは、ある時間信号の前半と、別の時間信号の後半を指す。
前述の時間信号の各々からちょうど半分ずつが使用されるので、加算された時間信号は結果として2048のデータを有する。
従って、3つのアクセスユニットAU0、AU1、およびAU2から、3つの時間信号が取得される。AU0に由来する時間信号の後半が、AU1から取得される時間信号の前半と加算される。AU1から得られた時間信号の後半には、AU2から取得された時間信号の前半が加算される。このため、3つのアクセスユニットは、この例の50%のオーバーラップにおいて、2048のデータポイントを有する2つのオーバーラップ加算された時間信号を提供する。
これら2つのオーバーラップ加算された時間信号はその後、(例えば高速フーリエ変換または任意の他の好適な変換を使用して)周波数領域に変換され、両方とも1024のデータ点を有する第1および第2のアップサンプリングされたスペクトルが生成される。
図14に、本発明の装置をもう一度示す。
この図示の実施形態では、符号化されたオーディオ信号100はアクセスユニットを含有しており、AU0、AU1、およびAU2の3つが示されている。これらのアクセスユニットはデマルチプレクサ1に供給され、デマルチプレクサ1はそれぞれのコア信号CS0、CS1、およびCS2、ならびにオーディオ信号P0、P1、およびP2の欠落部分を記述するためのそれぞれのパラメータを抽出する。
コア信号CS0、CS1およびCS2は、アップサンプラ2に送られ、アップサンプラ2はコア信号をアップサンプリングし、各コア信号に対してアップサンプリングされたスペクトルが、CS0に対してUS1、US2が、CS1に対してUS3、US4が、CS2に対してUS5、US6が生成される。
一方、パラメータはパラメータ変換器3に供給され、変換されたパラメータcP0、cP1、およびcP2が生成される。
スペクトル・ギャップ・フィリング・プロセッサ4は、対応する変換されたパラメータcP0、cP1、およびcP2を使用して、アップサンプリングされたスペクトルUS1、US2、US3、US4、US5、およびUS6を処理する。
例えば、第1のアクセスユニットAU0の第1のアップサンプリングされたスペクトルUS1は、変換されたパラメータcP0の第1のサブセットで処理され、第1のアクセスユニットAU0の第2のアップサンプリングされたスペクトルUS2は、変換されたパラメータcP0の第2のサブセットで処理される。スペクトル・ギャップ・フィリング・プロセッサ4の出力は、例えばオーディオ信号またはトランスコードされたオーディオ信号である。
図15は、符号化されたオーディオ信号100を処理するための本発明の方法の主なステップを示す。
ステップ1000において、符号化されたオーディオ信号100から、またはより正確には、符号化されたオーディオ信号100の1つのアクセスユニットから、コア信号およびパラメータセットが生成または抽出される。
以下のステップは、任意の所与の順序で、または並列で実行することができる。
コア信号は、ステップ1001においてアップサンプリングされ、特に2つの時間的に連続したアップサンプリングされたスペクトルが得られる。パラメータは、ステップ1002において、アップサンプリングされたスペクトルに適用可能な変換されたパラメータに変換される。
最後に、ステップ1003において、アップサンプリングされたスペクトルおよび変換されたパラメータが、加えて、符号化されたオーディオ信号のアクセスユニットから取得された他のパラメータが処理される。この処理の出力は、例えば、時間信号としてのオーディオ信号、または異なる形式で符号化された、従ってトランスコードされたオーディオ信号である。
通常、符号化されたオーディオ信号は、元のオーディオ信号を記述し、符号化されたオーディオ信号の復号中での欠落部分を再構成するための更なるパラメータも含む。
本発明の処理技術は、例えば、高周波(HF)合成中の包絡線整形のためのSBRサイド情報のIGFへの変換において役立つ。追加の制御パラメータは、包絡線整形にも関わらず、ノイズ対音調比が入力信号と一致しないHFスペクトルを示す。オーディオのこの性質は、木管楽器のような信号、または残響のある部屋で観測される。これらの場合において、より高い周波数は高調波または極めて音調ではなく、より低い周波数と比較して騒音として知覚され得る。
信号内のフォルマントは、符号器における逆予測誤差フィルタを使用して推定される。逆フィルタリングのレベルは、入力信号の特徴への整合性に従って決定される。このレベルはSBRによって通知される。HFスペクトルにおける包絡線整形は、スペクトルの音調を完全に低減するのに役立たないので、フォルマントの平坦化のための線形予測誤差フィルタに、様々なレベルの周波数依存チャープ係数を有するプリホワイニングフィルタを適用することができる。
これらの異常な信号特性は、IGFがホワイトニングツールを使用している間に、逆フィルタリングツールを使用するSBRによって処理される。プリホワイトニングの程度は、技術の別個のレベルにマッピングされる。
いくつかの態様は装置との関連において記載されているが、これらの態様はまた、ブロックまたはデバイスが、方法ステップまたは方法ステップの特徴に対応するような、対応する方法の記載を表しているのは、明白である。同様に、方法ステップとの関連において記載される態様もまた、対応するブロックまたは項目、もしくは対応する装置の特徴に関する記載を表す。いくつかのまたは全ての方法ステップは、例えばマイクロプロセッサ、プログラム可能なコンピュータ、または電子回路のようなハードウェア装置によって(またはこれを使用して)実行されてもよい。いくつかの実施形態において、最も重要な方法ステップの1つ以上がこのような装置によって実行されてもよい。
また、SBR符号化されたオーディオ信号をトランスコードするための装置の態様は、SBR符号化されたオーディオ信号を復号するための装置に有効である場合が有り、逆もまた同様である。対応する方法についても同様である。

Claims (22)

  1. 符号化されたオーディオ信号(100)を処理するための装置であって、
    前記符号化されたオーディオ信号(100)は、一連のアクセスユニット(100’)を含み、前記アクセスユニットの各々は、第1のスペクトル幅を有するコア信号(101)と、前記第1のスペクトル幅よりも上のスペクトルを記述するパラメータとを含み、
    前記装置は、
    前記符号化されたオーディオ信号(100)のアクセスユニット(100’)から、前記コア信号(101)および前記パラメータのセット(102)を生成するためのデマルチプレクサ(1)と、
    前記アクセスユニット(100’)の前記コア信号(101)をアップサンプリングし、第1のアップサンプリングされたスペクトル(103)および時間的に連続した第2のアップサンプリングされたスペクトル(103’)を出力するアップサンプラ(2)であって、前記第1のアップサンプリングされたスペクトル(103)と前記第2のアップサンプリングされたスペクトル(103’)は両方とも、前記コア信号(101)と同じコンテンツを有し、前記コア信号(101)の前記第1のスペクトル幅よりも大きい第2のスペクトル幅を有する、アップサンプラ(2)と、
    前記アクセスユニット(100’)の前記パラメータセット(102)のパラメータを変換して、前記第1のアップサンプリングされたスペクトル(103)と前記第2のアップサンプリングされたスペクトル(103’)に適用可能である変換されたパラメータ(104、104’)を取得するためのパラメータ変換器(3)と、
    前記変換されたパラメータ(104)を用いて、前記第1のアップサンプリングされたスペクトル(103)と、前記第2のアップサンプリングされたスペクトル(103’)とを処理するためのスペクトル・ギャップ・フィリング・プロセッサ(4)と、を含む装置。
  2. 前記アップサンプラ(2)は、前記コア信号(101)のスペクトルの上側をゼロで満たし、前記コア信号(101)の前記満たされたスペクトル(110)から、前記第1のアップサンプリングされたスペクトル(103’)および前記第2のアップサンプリングされたスペクトル(103’)を導出するように構成される、請求項1に記載の装置。
  3. 前記アップサンプラ(2)は、前記アクセスユニット(100’)に直接先行するアクセスユニット(100’’)のコア信号を追加的に用いて、前記アクセスユニット(100’)の前記コア信号(101)をアップサンプリングするように構成される、請求項1または2に記載の装置。
  4. 前記アップサンプラ(2)は、時間的に連続した第1の数のアクセスユニット(100’、100’’、100’’’)のコア信号(101)を収集し、前記コア信号(101)から非整数のアップサンプリング比率で第2の数のアップサンプリングされたスペクトル(103)を処理するように構成され、前記第1の数が比率の分母であり前記第2の数が比率の分子である、請求項1〜3のいずれかに記載の装置。
  5. 前記パラメータ変換器(3)は、時間的に連続したタイムスロットの第1の部分を参照して、前記パラメータセット(102)のパラメータの第1のサブセットを変換し、タイムスロットの前記第1の部分に時間的に連続した前記タイムスロットの第2の部分を参照して、前記パラメータセット(102)のパラメータの第2のサブセットを変換するように構成され、
    前記スペクトル・ギャップ・フィリング・プロセッサ(4)は、前記第1のアップサンプリングされたスペクトル(103)と共に第1の変換されたパラメータのサブセット(104)を処理し、前記第2のアップサンプリングされたスペクトル(103’)と共に第2の変換されたパラメータのサブセット(104’)を処理するように構成される、請求項1〜4のいずれかに記載の装置。
  6. 前記変換器(3)は、前記パラメータセット(102)のエネルギー値を参照するパラメータを、前記エネルギー値を所定のスケール係数でスケーリングすることにより、前記スペクトル・ギャップ・フィリング・プロセッサ(4)によって使用可能なエネルギー値に変換するように構成される、請求項1〜5のいずれかに記載の装置。
  7. 前記変換器(3)は、前記アクセスユニット(100’)に関連する窓関数に関する情報を抽出するように構成され、
    前記変換器(3)は前記窓関数に従って前記スケール係数を適合させるように構成される、請求項6に記載の装置。
  8. 前記変換器(3)は、遅延補償を挿入することによって、前記パラメータセット(102)のパラメータをシフトするように構成される、請求項1〜7のいずれかに記載の装置。
  9. 前記アップサンプラ(2)は、前記コア信号(101)の値を補間することによって前記コア信号(101)をアップサンプリング(20)するように構成される、請求項1〜8のいずれかに記載の装置。
  10. 前記アップサンプラ(2)は、先行するアクセスユニット(100’’)の前記コア信号のスペクトルの上側をゼロで満たすように構成され、
    前記アップサンプラ(2)は、前記アクセスユニット(100’)の前記コア信号(101)のスペクトルの上側をゼロで満たすように構成され、
    前記アップサンプラ(2)は、前記アクセスユニット(100’)の前記満たされたスペクトル、および先行する前記アクセスユニット(100’’)の前記満たされたスペクトルの逆変換(21)を実行するように構成され、
    前記アップサンプラ(2)は、前記先行するアクセスユニット(100’’)の前記満たされたスペクトルに対する時間領域信号と、前記アクセスユニット(100’)の前記満たされたスペクトルに対する時間領域信号とのオーバーラップ加算を実行して、中間時間信号(111)を取得するように構成される、請求項1〜9のいずれかに記載の装置。
  11. 前記アップサンプラ(2)は、前記中間時間信号(111)の第1の部分を用いてフォワード変換を実行して、前記第1のアップサンプリングされたスペクトル(103)を取得するように構成され、
    前記アップサンプラ(2)は、前記中間時間信号(111)の第2の部分を用いてフォワード変換を実行して、前記第2のアップサンプリングされたスペクトル(103’)を取得するように構成され、かつ
    前記第1の部分は前記第2の部分とオーバーラップする、請求項10に記載の装置。
  12. 前記アップサンプラ(2)は、前記コア信号(101)をアップサンプリング(20)して、アップサンプリングされたコア信号(110)を取得するように構成され、
    前記アップサンプラ(2)は、前記アップサンプリングされたコア信号(110)に対して逆変換(21)を実行して、時間領域信号(111)を取得するように構成され、
    前記アップサンプラ(2)は、変換(22、23)を適用することにより、前記時間領域信号(111)を処理して、前記第1のアップサンプリングされたスペクトル(103)と前記時間的に連続する第2のアップサンプリングされたスペクトル(103’)とを取得するように構成され、かつ
    前記逆変換(21)は前記変換の逆変換である、請求項1〜11のいずれかに記載の装置。
  13. 前記逆変換は逆変形離散コサイン変換であり、前記変換は変形離散コサイン変換である、請求項12に記載の装置。
  14. 前記スペクトル・ギャップ・フィリング・プロセッサ(4)は、前記変換されたパラメータ(104、104’)を用いて前記第1のアップサンプリングされたスペクトル(103)と前記第2のアップサンプリングされたスペクトル(103’)とを復号化して、時間領域出力信号(300)を取得するように構成される、請求項1〜13のいずれかに記載の装置。
  15. 前記スペクトル・ギャップ・フィリング・プロセッサ(4)は、前記変換されたパラメータの第1の部分(104)を前記第1のアップサンプリングされたスペクトル(103)に適用して第1の処理されたスペクトルを取得し、前記変換されたパラメータの第2の部分(104’)を前記第2のアップサンプリングされたスペクトル(103’)に適用して第2の処理されたスペクトルを取得するように構成される、請求項14に記載の装置。
  16. 前記スペクトル・ギャップ・フィリング・プロセッサ(4)は、前記第1の処理されたスペクトルと前記第2の処理されたスペクトルとを時間領域に変換するためのスペクトル変換器(7)を含むように構成され、
    前記スペクトル・ギャップ・フィリング・プロセッサ(4)は、少なくとも2つの出力時間信号をオーバーラップ加算してオーディオ信号(300)を取得するように構成されたオーディオ加算器(9)を含むように構成される、請求項15に記載の装置。
  17. 前記スペクトル・ギャップ・フィリング・プロセッサ(4)は、第1のアクセスユニットおよび第2のアクセスユニットを有する、スペクトル・ギャップ・フィリングにより符号化された信号を生成するように構成され、前記第1のアクセスユニットは、前記第1のアップサンプリングされたスペクトルの変換されたバージョンおよび前記変換されたパラメータの第1の部分を含み、前記第2のアクセスユニットは、前記第2のアップサンプリングされたスペクトルの変換されたバージョンおよび前記変換されたパラメータの第2の部分を含む、請求項1〜16のいずれかに記載の装置。
  18. 前記スペクトル・ギャップ・フィリング・プロセッサ(4)は、第1のアクセスユニットおよび第2のアクセスユニットを有する出力データストリームを生成するように構成され、請求項1〜13のいずれかに記載の装置。
  19. 前記スペクトル・ギャップ・フィリング・プロセッサ(4)は、前記変換されたパラメータ(104、104’)を用いて、前記第1のアップサンプリングされたスペクトル(103)と前記第2のアップサンプリングされたスペクトル(103’)とを処理して、2つのトランスコードされたアクセスユニットを取得するように構成され、
    前記スペクトル・ギャップ・フィリング・プロセッサ(4)は、前記2つのトランスコードされたアクセスユニットを加算(5)して、トランスコードされたオーディオ信号(200)を取得するように構成される、請求項1〜18のいずれかに記載の装置。
  20. 前記トランスコードされたオーディオ信号(200)はIGF符号化されたオーディオ信号(200)である、請求項19に記載の装置。
  21. 前記符号化されたオーディオ信号(100)はSBR符号化されたオーディオ信号(100)である、請求項1〜20のいずれかに記載の装置。
  22. 符号化されたオーディオ信号(100)を処理する方法であって、
    前記符号化されたオーディオ信号(100)は、一連のアクセスユニット(100’)を含み、前記アクセスユニットの各々は、第1のスペクトル幅を有するコア信号と、前記第1のスペクトル幅よりも上のスペクトルを記述するパラメータとを含み、
    前記方法は、
    前記符号化されたオーディオ信号(100)のアクセスユニット(100’)から、前記コア信号(101)および前記パラメータのセット(102)を生成することと、
    前記アクセスユニット(100’)の前記コア信号(101)をアップサンプリングし、第1のアップサンプリングされたスペクトル(103)および時間的に連続した第2のアップサンプリングされたスペクトル(103’)を出力することであって、前記第1のアップサンプリングされたスペクトル(103)と前記第2のアップサンプリングされたスペクトル(103’)は両方とも、前記コア信号(101)と同じコンテンツを有し、前記コア信号(101)の前記第1のスペクトル幅よりも大きい第2のスペクトル幅を有する、ことと、
    前記アクセスユニット(100’)の前記パラメータセット(102)のパラメータを変換して、前記第1のアップサンプリングされたスペクトル(103)と前記第2のアップサンプリングされたスペクトル(103’)に適用可能である変換されたパラメータ(104)を取得することと、
    前記変換されたパラメータ(104)を用いて、前記第1のアップサンプリングされたスペクトル(103)と前記第2のアップサンプリングされたスペクトル(103’)とを処理することと、を含む方法。
JP2018531150A 2015-12-14 2016-12-08 符号化されたオーディオ信号を処理するための装置および方法 Active JP6663996B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP15199851.5A EP3182411A1 (en) 2015-12-14 2015-12-14 Apparatus and method for processing an encoded audio signal
EP15199851.5 2015-12-14
PCT/EP2016/080331 WO2017102560A1 (en) 2015-12-14 2016-12-08 Apparatus and method for processing an encoded audio signal

Publications (2)

Publication Number Publication Date
JP2019502948A JP2019502948A (ja) 2019-01-31
JP6663996B2 true JP6663996B2 (ja) 2020-03-13

Family

ID=55024778

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018531150A Active JP6663996B2 (ja) 2015-12-14 2016-12-08 符号化されたオーディオ信号を処理するための装置および方法

Country Status (17)

Country Link
US (2) US11100939B2 (ja)
EP (2) EP3182411A1 (ja)
JP (1) JP6663996B2 (ja)
KR (2) KR20180095863A (ja)
CN (1) CN108701467B (ja)
AR (1) AR106970A1 (ja)
AU (1) AU2016373990B2 (ja)
BR (1) BR112018012007B1 (ja)
CA (1) CA3008388C (ja)
ES (1) ES2960963T3 (ja)
MX (1) MX2018007197A (ja)
MY (1) MY191239A (ja)
RU (1) RU2687872C1 (ja)
SG (1) SG11201805008YA (ja)
TW (1) TWI625722B (ja)
WO (1) WO2017102560A1 (ja)
ZA (1) ZA201804512B (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10418957B1 (en) * 2018-06-29 2019-09-17 Amazon Technologies, Inc. Audio event detection

Family Cites Families (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE512719C2 (sv) 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
CA2236649A1 (en) * 1998-05-05 1999-11-05 Tet Hin Yeap Method and apparatus for encoding of digital signals for transmission and/or storage, and decoding such encoded signals following such transmission and/or storage
US6778953B1 (en) 2000-06-02 2004-08-17 Agere Systems Inc. Method and apparatus for representing masked thresholds in a perceptual audio coder
JP2002202799A (ja) * 2000-10-30 2002-07-19 Fujitsu Ltd 音声符号変換装置
EP1423847B1 (en) * 2001-11-29 2005-02-02 Coding Technologies AB Reconstruction of high frequency components
US7206359B2 (en) * 2002-03-29 2007-04-17 Scientific Research Corporation System and method for orthogonally multiplexed signal transmission and reception
JP3881943B2 (ja) * 2002-09-06 2007-02-14 松下電器産業株式会社 音響符号化装置及び音響符号化方法
US7486719B2 (en) * 2002-10-31 2009-02-03 Nec Corporation Transcoder and code conversion method
US20080260048A1 (en) * 2004-02-16 2008-10-23 Koninklijke Philips Electronics, N.V. Transcoder and Method of Transcoding Therefore
FR2875351A1 (fr) * 2004-09-16 2006-03-17 France Telecom Procede de traitement de donnees par passage entre domaines differents de sous-bandes
ES2705589T3 (es) * 2005-04-22 2019-03-26 Qualcomm Inc Sistemas, procedimientos y aparatos para el suavizado del factor de ganancia
EP1926083A4 (en) * 2005-09-30 2011-01-26 Panasonic Corp AUDIOCODING DEVICE AND AUDIOCODING METHOD
CN101086845B (zh) * 2006-06-08 2011-06-01 北京天籁传音数字技术有限公司 声音编码装置及方法以及声音解码装置及方法
HUE047607T2 (hu) * 2007-08-27 2020-05-28 Ericsson Telefon Ab L M Eljárás és eszköz hangjel észlelési spektrális dekódolására, beleértve a spektrális lyukak kitöltését
DE102008015702B4 (de) * 2008-01-31 2010-03-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zur Bandbreitenerweiterung eines Audiosignals
MX2010009307A (es) * 2008-03-14 2010-09-24 Panasonic Corp Dispositivo de codificacion, dispositivo de decodificacion y metodo de los mismos.
US8532983B2 (en) * 2008-09-06 2013-09-10 Huawei Technologies Co., Ltd. Adaptive frequency prediction for encoding or decoding an audio signal
US8463603B2 (en) * 2008-09-06 2013-06-11 Huawei Technologies Co., Ltd. Spectral envelope coding of energy attack signal
MX2011003824A (es) * 2008-10-08 2011-05-02 Fraunhofer Ges Forschung Esquema de codificacion/decodificacion de audio conmutado de resolucion multiple.
PL4231295T3 (pl) 2008-12-15 2024-05-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Sposób dekodowania powiększania szerokości pasma audio oraz program komputerowy
US8391212B2 (en) * 2009-05-05 2013-03-05 Huawei Technologies Co., Ltd. System and method for frequency domain audio post-processing based on perceptual masking
US8515768B2 (en) 2009-08-31 2013-08-20 Apple Inc. Enhanced audio decoder
CA2780971A1 (en) * 2009-11-19 2011-05-26 Telefonaktiebolaget L M Ericsson (Publ) Improved excitation signal bandwidth extension
CA2792452C (en) * 2010-03-09 2018-01-16 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for processing an input audio signal using cascaded filterbanks
CN102222505B (zh) * 2010-04-13 2012-12-19 中兴通讯股份有限公司 可分层音频编解码方法系统及瞬态信号可分层编解码方法
SG189277A1 (en) * 2010-10-06 2013-05-31 Fraunhofer Ges Forschung Apparatus and method for processing an audio signal and for providing a higher temporal granularity for a combined unified speech and audio codec (usac)
EP2777042B1 (en) * 2011-11-11 2019-08-14 Dolby International AB Upsampling using oversampled sbr
CN104025166B (zh) * 2011-12-28 2016-10-12 三菱电机株式会社 中心侧系统及车辆侧系统
CN103366750B (zh) * 2012-03-28 2015-10-21 北京天籁传音数字技术有限公司 一种声音编解码装置及其方法
EP2950308B1 (en) * 2013-01-22 2020-02-19 Panasonic Corporation Bandwidth expansion parameter-generator, encoder, decoder, bandwidth expansion parameter-generating method, encoding method, and decoding method
SG11201506543WA (en) 2013-02-20 2015-09-29 Fraunhofer Ges Forschung Apparatus and method for generating an encoded signal or for decoding an encoded audio signal using a multi overlap portion
US9489959B2 (en) * 2013-06-11 2016-11-08 Panasonic Intellectual Property Corporation Of America Device and method for bandwidth extension for audio signals
FR3007563A1 (fr) * 2013-06-25 2014-12-26 France Telecom Extension amelioree de bande de frequence dans un decodeur de signaux audiofrequences
EP2830056A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding or decoding an audio signal with intelligent gap filling in the spectral domain
EP2980795A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor

Also Published As

Publication number Publication date
CA3008388A1 (en) 2017-06-22
CA3008388C (en) 2020-09-08
US20210383818A1 (en) 2021-12-09
MY191239A (en) 2022-06-10
BR112018012007B1 (pt) 2023-12-05
JP2019502948A (ja) 2019-01-31
AU2016373990A1 (en) 2018-07-05
EP3182411A1 (en) 2017-06-21
EP3391373C0 (en) 2023-09-27
AR106970A1 (es) 2018-03-07
CN108701467B (zh) 2023-12-08
EP3391373A1 (en) 2018-10-24
SG11201805008YA (en) 2018-07-30
MX2018007197A (es) 2018-11-09
US11862184B2 (en) 2024-01-02
RU2687872C1 (ru) 2019-05-16
EP3391373B1 (en) 2023-09-27
KR102625047B1 (ko) 2024-01-16
CN108701467A (zh) 2018-10-23
ZA201804512B (en) 2019-05-29
ES2960963T3 (es) 2024-03-07
BR112018012007A2 (pt) 2018-12-04
KR20210054052A (ko) 2021-05-12
TW201730876A (zh) 2017-09-01
US11100939B2 (en) 2021-08-24
TWI625722B (zh) 2018-06-01
US20180293994A1 (en) 2018-10-11
KR20180095863A (ko) 2018-08-28
WO2017102560A1 (en) 2017-06-22
AU2016373990B2 (en) 2019-08-29

Similar Documents

Publication Publication Date Title
JP7271616B2 (ja) 高調波転換
US9236061B2 (en) Harmonic transposition in an audio coding method and system
KR102649124B1 (ko) 후처리 지연을 저감시킨 고주파 재구성 기술의 통합
US11562755B2 (en) Harmonic transposition in an audio coding method and system
US11862184B2 (en) Apparatus and method for processing an encoded audio signal by upsampling a core audio signal to upsampled spectra with higher frequencies and spectral width
AU2021204779B2 (en) Improved Harmonic Transposition
AU2023282303B2 (en) Improved Harmonic Transposition

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180802

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180802

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190422

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190514

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190808

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200121

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200217

R150 Certificate of patent or registration of utility model

Ref document number: 6663996

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250