JP6100164B2 - オーディオ信号を処理し、音声音響統合符号化方式(usac)のためにより高い時間粒度を供給するための装置および方法 - Google Patents

オーディオ信号を処理し、音声音響統合符号化方式(usac)のためにより高い時間粒度を供給するための装置および方法 Download PDF

Info

Publication number
JP6100164B2
JP6100164B2 JP2013532172A JP2013532172A JP6100164B2 JP 6100164 B2 JP6100164 B2 JP 6100164B2 JP 2013532172 A JP2013532172 A JP 2013532172A JP 2013532172 A JP2013532172 A JP 2013532172A JP 6100164 B2 JP6100164 B2 JP 6100164B2
Authority
JP
Japan
Prior art keywords
audio signal
configurable
samples
ratio
filter bank
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013532172A
Other languages
English (en)
Other versions
JP2013543600A (ja
JP2013543600A5 (ja
Inventor
マルクス マルトラス
マルクス マルトラス
ベルンハルト グリル
ベルンハルト グリル
ニコラウス レッテルバッハ
ニコラウス レッテルバッハ
ギヨーム フックス
ギヨーム フックス
マクス ノイエンドルフ
マクス ノイエンドルフ
ブルーノ ビゼット
ブルーノ ビゼット
ロッシュ レフェブル
ロッシュ レフェブル
フィリッペ グールネイ
フィリッペ グールネイ
シュテファン ヴィルデ
シュテファン ヴィルデ
Original Assignee
フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
ヴォイスエイジ・コーポレーション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ, フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ, ヴォイスエイジ・コーポレーション filed Critical フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Publication of JP2013543600A publication Critical patent/JP2013543600A/ja
Publication of JP2013543600A5 publication Critical patent/JP2013543600A5/ja
Application granted granted Critical
Publication of JP6100164B2 publication Critical patent/JP6100164B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0012Smoothing of parameters of the decoder interpolation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Laminated Bodies (AREA)

Description

本発明は、オーディオ処理に関し、特に、オーディオ信号を処理し、音声音響統合符号化方式(Unified Speech and Audio Codec)(USAC)のためにより高い時間粒度を供給するための装置および方法に関する。
USACは、他のオーディオコーデックのように、固定のフレームサイズを示す(USAC:2048サンプル/フレーム)。1つのフレーム内で、より短い変換サイズの限られた組へ切り替える可能性があるが、フレームサイズは、それでもなお全体のシステムの時間分解能を制限する。全体のシステムの時間粒度を増加させるために、従来のオーディオコーデックに関して、サンプリングレートを増加させて、時間において1フレームのより短い時間(例えばミリ秒)にする。しかし、これは、USACコーデックに関しては容易にできない。
USACコーデックは、ACELP(ACELP=Algebraic Code Excited Linear Prediction)のような従来の音声コーダのツールに加えて、AAC(Advanced Audio Coding(先進的音響符号化))変換コーダ、SBR(Spectral Band Replication(スペクトル帯域複製))、およびMPEGサラウンド(MPEG=Moving Picture Experts Group)などの従来の一般のオーディオコーデックのツールの組み合わせを含む。ACELPおよび変換コーダの両方は、通常、同一環境(すなわちフレームサイズ、サンプリングレート)の中で同時に動作して、容易に切り替えられることができる。通常、クリーンな音声信号のためには、ACELPツールが使用され、音楽、混合された信号のためには、変換コーダが使用される。
ACELPツールは、比較的低いサンプリングレートでのみ動作するように、同時に制限される。24kbit/sに関して、わずか17075Hzのサンプリングレートが使用される。より高いサンプリングレートに関しては、ACELPツールは、機能の点で著しく低下し始める。しかしながら、SBRおよびMPEGサラウンドも変換コーダも、非常に高いサンプリングレート、例えば変換コーダについては22050Hz、SBRおよびMPEGサラウンドについては44100Hzから利益を得る。しかしながら、これまで、ACELPツールは、全体のシステムのサンプリングレートを制限し、特に音楽信号に関しては、最適状態に及ばないシステムとなっている。
本発明の目的は、オーディオ信号を処理するための装置および方法についての改善された構想を提供することにある。本発明の目的は、請求項1に記載の装置、請求項15に記載の方法、請求項16に記載の装置、請求項18に記載の方法、および請求項19に記載のコンピュータプログラムによって解決される。
現在のUSAC RMは、8kbit/sなどの超低ビットレートから128kbit/s以上のビットレートのトランスペアレントな品質までに及ぶ多数の動作点にわたって高い符号化機能を供給する。この種の幅広い範囲のビットレートにわたってこの高品質に達するために、MPEGサラウンド、SBR、ACELPおよび従来の変換コーダなどのツールの組み合わせは、使用される。コースのツールのこの種の組み合わせは、ツール相互動作およびこれらのツールが位置付けられる一般の環境の共通の最適化処理を必要とする。
この共通の最適化処理において、ツールのいくつかは、中程度のビットレート範囲(24kbit/s〜32kbit/s)において高時間構造を明らかにするという信号を再生する不具合があることを分かった。特に、ツールMPEGサラウンド、SBRおよびFD変換コーダ(FD、TCX)(FD=Frequency Domain;TCX=Transform Coded Excitation)、すなわち周波数領域において動作する全てのツールは、時間領域におけるより短いフレームサイズと同一であるより高い時間粒度で作動されるときに、より良く実行することができる。
現状の技術HE―AACv2符号器(High−Efficiency AAC v2 encoder)と比較して、現在のUSAC基準品質符号器が、(サンプルにおいて)同じフレームサイズを使用する間、著しく低いサンプリングレートで24kbit/sや32kbit/sなどのビットレートで作動することが判明した。これは、ミリ秒のフレームの時間が著しく長いことを意味する。これらの不具合を補償するために、時間粒度を増加することを必要とする。これは、サンプリング周波数を増加させること、または、(例えば、固定のフレームサイズを使用しているシステムの)フレームサイズを短くすることによって達することができる。
サンプリング周波数を増加させることは、SBRおよびMPEGサラウンドが時間的動的信号のための機能を増加させるための前方への合理的な方法であるが、これは、すべてのコアコーダツールについて機能するというわけではない。高サンプリング周波数は、変換コーダに有益であるが、同時にACELPツールの機能を大幅に減少させることがよく知られている。
オーディオ信号を処理するための装置が提供される。本装置は、信号処理装置とコンフィギュレータとを含む。信号処理装置は、オーディオ信号の第1の設定可能なサンプル数を有する第1のオーディオ信号フレームを受信するように構成される。さらに、信号処理装置は、処理されたオーディオ信号を得るために、設定可能なアップサンプリング係数によってオーディオ信号をアップサンプリングするように構成される。さらにまた、信号処理装置は、処理されたオーディオ信号の第2の設定可能なサンプル数を有する第2のオーディオ信号フレームを出力するように構成される。
コンフィギュレータは、第1の設定可能なサンプル数に対する第2の設定可能なサンプル数の第1の比率が、第1の比率値を有するとき、設定可能なアップサンプリング係数が、第1のアップサンプリング値に等しいように、設定情報に基づいて信号処理装置を設定するように構成される。さらに、コンフィギュレータは、第1の設定可能なサンプル数に対する第2の設定可能なサンプル数の異なる第2の比率が、異なる第2の比率値を有するとき、設定可能なアップサンプリング係数が、異なる第2のアップサンプリング値に等しいように、信号処理装置を設定するように構成される。第1の比率値または第2比率値は、整数値でない。
上記実施形態によって、信号処理装置は、処理されたアップサンプリングされたオーディオ信号を得るために、オーディオ信号をアップサンプリングする。前記実施形態において、アップサンプリング係数は、設定可能であり、非整数値でありえる。設定可能であること、およびアップサンプリング係数が非整数値でありえることは、装置の柔軟性を高める。第1の設定可能なサンプル数に対する第2の設定可能なサンプル数の異なる第2の比率が、異なる第2の比率値を有するとき、設定可能なアップサンプリング係数は、異なる第2のアップサンプリング値を有する。このように、本装置は、アップサンプリング係数と第2および第1のオーディオ信号フレームのフレーム長(すなわちサンプル数)の比率との関係を考慮に入れるように構成される。
一実施形態において、コンフィギュレータは、第1の設定可能なサンプル数に対する第2の設定可能なサンプル数の第2の比率が、第1の設定可能なサンプル数に対する第2の設定可能なサンプル数の第1の比率より大きいとき、異なる第2のアップサンプリング値が、第1のアップサンプリング値より大きいように、信号処理装置を設定するように構成される。
一実施形態によれば、USACコーデックのための新しい動作モード(以下、「追加設定(extra setteing)」と呼ぶ)が提案される。そして、それは24kbit/sや32kbit/sなどの中程度のデータ転送速度に関するシステムの機能を強化する。これらの動作点に関して、現在のUSAC基準コーデックの時間分解能があまりに低いことが分かった。従って、a)コアコーダに関するサンプリングレートを上昇させることなく、コアコーダフレームサイズを短くすることによって、この時間分解能を増加させること、および、更に、b)これらのツールに関するフレームサイズを変化させることなく、SBRおよびMPEGサラウンドに関するサンプリングレートを増加させることが、提案される。
提案された追加設定は、システムの柔軟性を大いに改善する。というのも、それによって、ACELPツールを含むシステムが、44.1kHzおよび48kHzなどのより高いサンプリングレートで作動されることができるからである。これらのサンプリングレートは、一般的に市場において求められるので、これがUSACコーデックの受信に関して役立つことが期待される。
全部のオーディオコーデックの時間粒度を増加させることによって、現在のMPEG音声音響統合符号化方式(Unified Speech and Audio Coding)(USAC)ワーク項目のための新たな動作モードは、全体のコーデックの時間的柔軟性を高める。(第2のサンプル数が同じままだったと仮定して)第2の比率が第1の比率より大きい場合、第1の設定可能なサンプル数が削減されている、すなわち、第1のオーディオ信号フレームのフレームサイズが短くされている。これは、より高い時間粒度をもたらし、周波数領域において作動し、第1のオーディオ信号フレームを処理する全てのツールは、より良く作動することができる。しかしながら、この種の高効率の動作モードにおいて、アップサンプリングされたオーディオ信号を含む第2のオーディオ信号フレームを処理するツールの機能を増加させることも、望ましい。これらのツールの機能のこの種の増加は、アップサンプリングされたオーディオ信号のより高いサンプリングレートによって、すなわち、この種の動作モードのためのアップサンプリング係数を増加させることによって、実現されることができる。さらに、それは周波数領域において作動せず、第1のオーディオ信号フレームを処理して、そして、(元の)オーディオ信号のサンプリングレートが比較的低いときに、最も良く作動する、USACのACELPデコーダなどのツールが存在する。これらのツールは、高いアップサンプリング係数から、これが、(元の)オーディオ信号のサンプリングレートがアップサンプリングされたオーディオ信号のサンプリングレートと比較して、比較的低いことを意味するように、利益を得る。上記実施形態は、この種の環境のための効率的な動作モードのための設定モードを供給するように構成された装置を提供する。
全体のオーディオコーデックの時間粒度を増加させることによって、新たな動作モードは、全体のコーデックの時間的柔軟性を高める。
一実施形態において、コンフィギュレータは、第1の設定可能なサンプル数に対する第2の設定可能なサンプル数の第1の比率が、第1の比率値を有するとき、設定可能なアップサンプリング係数が、第1の比率値に等しいように、信号処理装置を設定するように構成され、そして、コンフィギュレータは、第1の設定可能なサンプル数に対する第2の設定可能なサンプル数の第2の比率が、異なる第2の比率値を有するとき、設定可能なアップサンプリング係数が、異なる第2の比率値に等しいように、信号処理装置を設定するように構成される。
一実施形態において、コンフィギュレータは、第1の比率が、第1の比率値を有するとき、設定可能なアップサンプリング係数が、2に等しいように、信号処理装置を設定するように構成され、コンフィギュレータは、第2の比率が、異なる第2の比率値を有するとき、設定可能なアップサンプリング係数が、8/3に等しいように、信号処理装置を設定するように構成される。
別の実施形態によれば、コンフィギュレータは、第1の比率が、第1の比率値を有するとき、第1の設定可能なサンプル数が、1024に等しく、第2の設定可能なサンプル数が、2048に等しいように、信号処理装置を設定するように構成され、コンフィギュレータは、第2の比率が、異なる第2の比率値を有するとき、第1の設定可能なサンプル数が、768に等しく、第2の設定可能なサンプル数が、2048に等しいように、信号処理装置を設定するように構成される。
一実施形態において、USACコーダの追加の設定を導入することが提案される。ここで、コアコーダは、より短いフレームサイズ(1024サンプルの代わりに768サンプル)で作動される。
さらにまた、2:1から8:3までのSBRデコーダ内部でのリサンプリングを、これに関連して、修正することは提案され、SBRおよびMPEGサラウンドがより高いサンプリングレートで作動されているのを可能にする。さらに、一実施形態によれば、コアコーダの時間粒度は、1024サンプルから768サンプルにコアコーダフレームサイズを縮退することによって増加される。このステップによって、サンプリングレート定数をそのままにする一方で、コアコーダの時間粒度は、4/3だけ増加される。このことは、ACELPが適当なサンプリング周波数(Fs)で動作することを可能にする。
さらに、SBRツールで、比率8/3のリサンプリング(従来:比率2)が適用され、3/8Fsでサイズ768のコアコーダフレームを、Fsでサイズ2048の出力フレームに変換する。これは、SBRツールおよびMPEGサラウンドツールが、従来からの高サンプリングレート(例えば44100Hz)で動作させるのを可能にする。このように、すべてのツールがそれらの最適な動作点で動作されるように、音声および音楽信号についての良い品質が提供される。
一実施形態において、信号処理装置は、前処理されたオーディオ信号を得るために、オーディオ信号を復号するためのコアデコーダモジュールと、複数のサブバンド信号を含んでいる周波数領域前処理されたオーディオ信号を得るために、時間領域から周波数領域に第1の前処理されたオーディオ信号を変換するためのいくつかの分析フィルタバンクチャネルを有する分析フィルタバンクと、周波数領域前処理されたオーディオ信号のために、追加のサブバンド信号を生成して、追加するためのサブバンドジェネレータと、処理されたオーディオ信号を得るために、第1の前処理されたオーディオ信号を周波数領域から時間領域に変換するためのいくつかの合成フィルタバンクチャネルを有する合成フィルタバンクとを含む。コンフィギュレータは、設定可能なアップサンプリング係数が、分析フィルタバンクチャネルの数に対する合成フィルタバンクチャネルの数の第3の率に等しいように、合成フィルタバンクチャネルの数または分析フィルタバンクチャネルの数を設定することによって、信号処理装置を設定するように構成されうる。サブバンドジェネレータは、周波数領域前処理されたオーディオ信号のための追加のサブバンド信号を生成するための前処理されたオーディオ信号ジェネレータのサブバンド信号を複製するように構成されたスペクトル帯域レプリケータ(Spectral Band Replicator)でもよい。さらに、信号処理装置は、ステレオまたはサラウンドチャネルを含む前処理されたオーディオ信号を得るために、前処理されたオーディオ信号を復号するためのMPEGサラウンドデコーダを含むことができる。さらに、サブバンドジェネレータは、周波数領域前処理されたオーディオ信号のための追加のサブバンド信号が、生成され、周波数領域前処理されたオーディオ信号に追加された後、MPEGサラウンドデコーダに周波数領域前処理されたオーディオ信号を送るように構成されうる。
コアデコーダモジュールは、第1のコアデコーダおよび第2のコアデコーダを含むことができる。ここで、第1のコアデコーダは、時間領域において作動するように構成されうり、第2のコアデコーダは、周波数領域において作動するように構成されうる。第1のコアデコーダは、ACELPデコーダでありえ、第2のコアデコーダは、FD変換デコーダまたはTCX変換デコーダでありえる。
一実施形態において、ACELPコーデックのためのスーパーフレームサイズは、1024サンプルから768サンプルに削減される。これは、サイズ192(サイズ64の3つのサブフレーム)の4つのACELPフレームを結合させて、サイズ768の1つのコアコーダフレームにすることによって、なされうる(以前:サイズ256の4つのACELPフレームは、サイズ1024の1つのコアコーダフレームに結合された)。768サンプルのコアコーダフレームサイズにたどり着くための他の解決法は、例えば、サイズ256(サイズ64の4つのサブフレーム)の3つのACELPフレームを結合することである。
別の実施形態によれば、コンフィギュレータは、オーディオ信号の第1の設定可能なサンプル数または処理されたオーディオ信号の第2の設定可能なサンプル数のうちの少なくとも1つを示している設定情報に基づいて信号処理装置を設定するように構成される。
他の実施形態では、コンフィギュレータは、設定情報に基づいて信号処理装置を設定するように構成され、そこにおいて、設定情報は、オーディオ信号の第1の設定可能なサンプル数および処理されたオーディオ信号の第2の設定可能なサンプル数を示し、設定情報は、設定インデックスである。
さらに、オーディオ信号を処理する装置は、提供される。本装置は、信号処理装置とコンフィギュレータとを含む。信号処理装置は、オーディオ信号の第1の設定可能なサンプル数を有する第1のオーディオ信号フレームを受信するように構成される。さらに、信号処理装置は、処理されたオーディオ信号を得るために、設定可能なダウンサンプリング係数によってオーディオ信号のダウンサンプリングするように構成される。さらにまた、信号処理装置は、処理されたオーディオ信号の第2の設定可能なサンプル数を有する第2のオーディオ信号フレームを出力するように構成される。
コンフィギュレータは、第1の設定可能なサンプル数に対する第2の設定可能なサンプル数の第1の比率が、第1の比率値を有するとき、設定可能なダウンサンプリング係数が、第1のダウンサンプリング値に等しいように、設定情報に基づいて信号処理装置を設定するように構成されうる。さらに、コンフィギュレータは、第1の設定可能なサンプル数に対する第2の設定可能なサンプル数の異なる第2の比率が、異なる第2の比率値を有するとき、設定可能なダウンサンプリング係数が、異なる第2のダウンサンプリング値に等しいように、信号処理装置を設定するように構成される。第1の比率値または第2の比率値は、整数値でない。
本発明の好ましい実施態様は、添付した図を参照して以下に説明する。
図1は、一実施形態によるオーディオ信号を処理する装置を示す。 図2は、他の実施形態によるオーディオ信号を処理する装置を示す。 図3は、一実施形態による装置によって行われたアップサンプリング処理を示す。 図4は、更なる実施形態によるオーディオ信号を処理するための装置を示す。 図5aは、実施形態によるコアデコーダモジュールを示す。 図5bは、図5aによるコアデコーダモジュールを有する図4の実施形態によるオーディオ信号を処理するための装置を示す。 図6aは、4つのACELPフレームを含んでいるACELPスーパーフレームを示す。 図6bは、3つのACELPフレームを含んでいるACELPスーパーフレームを示す。 図7aは、USACのデフォルト設定を示す。 図7bは、実施形態によるUSACの追加設定を示す。 図8aは、MUSHRA法による試聴テストの結果を示す。 図8bは、MUSHRA法による試聴テストの結果を示す。 図9は、別の実施形態によるオーディオ信号を処理する装置を示す。
図1は、実施形態によるオーディオ信号を処理する装置を示す。本装置は、信号処理装置110とコンフィギュレータ120とを含む。信号処理装置110は、オーディオ信号の第1の設定可能な数のサンプル145を有する第1のオーディオ信号フレーム140を受信するように構成される。さらに、信号処理装置110は、処理されたオーディオ信号を得るために、設定可能なアップサンプリング係数によってオーディオ信号をアップサンプリングするように構成される。さらにまた、信号処理装置は、処理されたオーディオ信号の第2の設定可能な数のサンプル155を有する第2のオーディオ信号フレーム150を出力するように構成される。
コンフィギュレータ120は、第1の設定可能なサンプル数に対する第2の設定可能なサンプル数の第1の比率が、第1の比率値を有するとき、設定可能なアップサンプリング係数が、第1のアップサンプリング値に等しいように、設定情報ciに基づいて信号処理装置110を設定するように構成される。さらに、コンフィギュレータ120は、第1の設定可能なサンプル数に対する第2の設定可能なサンプル数の異なる第2の比率が、異なる第2の比率値を有するとき、設定可能なアップサンプリング係数が、異なる第2のアップサンプリング値に等しいように、信号処理装置110を設定するように構成される。第1の比率値または第2比率値は、整数値でない。
図1の装置は、例えば復号の処理において使用されることができる。
一実施形態によれば、コンフィギュレータ120は、第1の設定可能なサンプル数に対する第2の設定可能なサンプル数の第2の比率が、第1の設定可能なサンプル数に対する第2の設定可能なサンプル数の第1の比率より大きいとき、異なる第2のアップサンプリング値が、第1の異なるアップサンプリング値より大きいように、信号処理装置110を設定するように構成されうる。別の実施形態において、コンフィギュレータ120は、第1の設定可能なサンプル数に対する第2の設定可能なサンプル数の第1の比率が、第1の比率値を有するとき、設定可能なアップサンプリング係数が、第1の比率値に等しいように、信号処理装置110を設定するように構成され、コンフィギュレータ120は、第1の設定可能なサンプル数に対する第2の設定可能なサンプル数の第2の比率が、異なる第2の比率値を有するとき、設定可能なアップサンプリング係数が、異なる第2の比率値に等しいように、信号処理装置110を設定するように構成される。
他の実施形態において、コンフィギュレータ120は、第1の比率が、第1の比率値を有するとき、設定可能なアップサンプリング係数が2に等しいように、信号処理装置110を設定するように構成され、コンフィギュレータ120は、第2の比率が、異なる第2の比率値を有するとき、設定可能なアップサンプリング係数が、8/3に等しいように、信号処理装置110を設定するように構成される。別の実施形態によれば、コンフィギュレータ120は、第1の比率が、第1の比率値を有するとき、第1の設定可能なサンプル数が、1024に等しく、第2の設定可能なサンプル数が、2048に等しいように、信号処理装置110を設定するように構成され、コンフィギュレータ120は、第2の比率が、異なる第2の比率値を有するとき、第1の設定可能なサンプル数が、768に等しく、第2の設定可能なサンプル数が、2048に等しいように、信号処理装置110を設定するように構成される。
実施形態において、コンフィギュレータ120は、設定情報ciに基づいて信号処理装置110を設定するように構成され、設定情報ciは、アップサンプリング係数、オーディオ信号の第1の設定可能なサンプル数、および処理されたオーディオ信号の第2の設定可能なサンプル数を示し、設定情報は、設定インデックスである。
下記の表は、設定情報として設定インデックスのための一例を示す。
Figure 0006100164
ここで、「Index」は、設定インデックスを示し、「coreCoderFrameLength」は、オーディオ信号の第1の設定可能なサンプル数を示し、「sbrRatio」は、アップサンプリング係数を示し、「outputFrameLength」は、処理されたオーディオ信号の第2の設定可能なサンプル数を示す。
図2は、他の実施形態による装置を示す。装置は、信号処理装置205とコンフィギュレータ208とを含む。信号処理装置205は、コアデコーダモジュール210と、分析フィルタバンク220と、サブバンドジェネレータ230と、合成フィルタバンク240とを含む。
コアデコーダモジュール210は、オーディオ信号as1を受信するように構成される。オーディオ信号as1を受信した後に、コアデコーダモジュール210は、前処理されたオーディオ信号as2を得るために、オーディオ信号を復号する。次に、コアデコーダモジュール210は、時間領域において示される前処理されたオーディオ信号as2を、分析フィルタバンク220に供給する。
分析フィルタバンク220は、複数のサブバンド信号を含んでいる周波数領域前処理されたオーディオ信号(a frequency−domain preprocessed audio signal)as3を得るために、前処理されたオーディオ信号as2を時間領域から周波数領域に変換するように構成される。分析フィルタバンク220は、設定可能な数の分析フィルタバンクチャネル(分析フィルタバンクバンド)を有する。分析フィルタバンクチャネルの数は、時間領域前処理されたオーディオ信号as2から生成されるサブバンド信号の数を決定する。一実施形態において、分析フィルタバンクチャネルの数は、設定可能なパラメータc1の値をセットすることによってセットされることができる。例えば、分析フィルタバンク220は、32本または24本の分析フィルタバンクチャネルを有するように設定されることができる。図2の実施形態において、分析フィルタバンクチャネルの数は、コンフィギュレータ208の設定情報ciに従ってセットされることができる。前処理されたオーディオ信号as2を周波数領域に変換した後に、分析フィルタバンク220は、周波数領域前処理されたオーディオ信号as3をサブバンドジェネレータ230に送る。
サブバンドジェネレータ230は、周波数領域オーディオ信号as3のための追加のサブバンド信号を生成するように構成される。さらに、サブバンドジェネレータ230は、前処理された周波数領域オーディオ信号as3のサブバンド信号およびサブバンドジェネレータ230によって生成された、生成された追加のサブバンド信号を含む修正された周波数領域オーディオ信号as4得るために、前処理された周波数領域オーディオ信号as3を修正するように構成される。サブバンドジェネレータ230によって生成される追加のサブバンド信号の数は、設定可能である。一実施形態において、サブバンドジェネレータは、スペクトル帯域レプリケータ(Spectral Band Replicator)(SBR)である。サブバンドジェネレータ230は、次に、修正された周波数領域前処理されたオーディオ信号as4を合成フィルタバンクに送る。
合成フィルタバンク240は、時間領域処理されたオーディオ信号(a time−domain processed audio signal)as5を得るために、修正された周波数領域前処理されたオーディオ信号as4を周波数領域から時間領域に変換するように構成される。合成フィルタバンク240は、設定可能な数の合成フィルタバンクチャネル(合成フィルタバンクバンド)を有する。合成フィルタバンクチャネルの数は、設定可能である。一実施形態において、合成フィルタバンクチャネルの数は、設定可能なパラメータc2の値をセットすることによって、セットされることができる。例えば、合成フィルタバンク240は、64本の合成フィルタバンクチャネルを有するように設定されることができる。図2の実施形態において、コンフィギュレータ208の設定情報ciは、分析フィルタバンクチャネルの数をセットすることができる。修正された周波数領域前処理されたオーディオ信号as4を時間領域に変換することによって、処理されたオーディオ信号as5が得られる。
一実施形態において、修正された周波数領域前処理されたオーディオ信号as4のサブバンドチャネルの数は、合成フィルタバンクチャネルの数に等しい。このような実施形態では、コンフィギュレータ208は、サブバンドジェネレータ230によって生成される追加サブバンドチャネルの数を設定するように構成される。コンフィギュレータ208は、コンフィギュレータ208によって設定された合成フィルタバンクチャネルc2の数が、サブバンドジェネレータ230によって生成された追加のサブバンド信号の数に前処理された周波数領域オーディオ信号as3のサブバンドチャネルの数を加えた数に等しいように、サブバンドジェネレータ230によって生成される追加サブバンドチャネルの数を設定するように構成されうる。これによって、合成フィルタバンクチャネルの数は、修正された前処理された周波数領域オーディオ信号as4のサブバンド信号の数に等しい。
オーディオ信号as1がサンプリングレートsr1を有すると仮定し、分析フィルタバンク220がc1の分析フィルタバンクチャネルを有し、合成フィルタバンク240がc2の合成フィルタバンクチャネルを有すると仮定すると、処理されたオーディオ信号as5は、サンプリングレートsr5:sr5=(c2/c1)・sr1を有する。c2/c1は、アップサンプリング係数u:u=c2/c1を決定する。
図2の実施形態において、アップサンプリング係数uは、整数値でない数にセットされることができる。例えば、アップサンプリング係数uは、分析フィルタバンクチャネルの数c1=24をセットすることによって、そして、合成フィルタバンクの数c2=64をセットすることによって、u=8/3=64/24となるように、値8/3にセットされることができる。
サブバンドジェネレータ230が、スペクトル帯域レプリケータであると仮定すると、一実施形態によるスペクトル帯域レプリケータは、元のサブバンドから任意の数の追加のサブバンドを生成することができる。そこにおいて、すでに利用できるサブバンドの数に対する生成された追加のサブバンドの数の比率は、整数である必要はない。例えば、一実施形態によるスペクトル帯域レプリケータは、次のステップを行うことができる。
第1のステップにおいて、スペクトル帯域レプリケータは、いくつかの追加のサブバンドを生成することによっていくつかのサブバンド信号を複製する。そこにおいて、生成された追加のサブバンドの数は、すでに利用できるサブバンドの数の整数倍でありえる。例えば、24の(または、例えば、48の)追加のサブバンド信号が、オーディオ信号の24の元のサブバンド信号から生成されることができる(例えば、サブバンド信号の合計数は、2倍または3倍になりうる)。
第2のステップにおいて、サブバンド信号の所望の数がc12であり、実際の利用できるサブバンド信号の数がc11であると仮定すると、3つの異なる状況が、区別されうる。
c11がc12に等しい場合、利用できるサブバンド信号の数c11は、必要とされるサブバンド信号の数c12に等しい。サブバンド調整は、必要でない。
c12がc11より小さい場合、利用できるサブバンド信号の数c11は、必要とされるサブバンド信号の数c12より大きい。実施形態によれば、最も高い周波数のサブバンド信号は、削除されうる。例えば、64のサブバンド信号が利用できる場合、そして、61のサブバンド信号のみが必要とされる場合、最も高い周波数を有する3つのサブバンド信号は、除かれうる。
c12がc11より大きい場合、利用できるサブバンド信号の数c11は、必要とされるサブバンド信号の数c12より小さい。
実施形態によれば、追加のサブバンド信号は、追加のサブバンド信号、すなわち、各サブバンドサンプルの振幅値がゼロに等しい信号として、ゼロ信号を追加することによって生成されうる。他の実施形態によれば、追加のサブバンド信号は、追加のサブバンド信号、すなわち、各サブバンドサンプルの値が擬似ランダムデータを含むサブバンド信号として、擬似ランダムサブバンド信号を追加することによって生成されうる。他の実施形態において、追加のサブバンド信号は、追加のサブバンド信号(複製されたサブバンド信号)のサンプル値としてそれらを使用するために、最も高いサブバンド信号のサンプル値、または最も高いサブバンド信号を複製することによって、生成されうる。
実施形態によるスペクトル帯域レプリケータにおいて、利用できるベースバンドサブバンドは、すべてのサブバンドが満たされるように、最も高いサブバンドとして、複製され、使用されることができる。同じベースバンドサブバンドは、すべての欠落したサブバンドが値を満たされるように、2回または複数回、複製されうる。
図3は、一実施形態による装置によって処理されるアップサンプリング処理を示す。時間領域オーディオ信号310およびオーディオ信号310のいくつかのサンプル315が示される。オーディオ信号は、3つのサブバンド信号330を含んでいる周波数領域オーディオ信号320を得るために、周波数領域、例えば時間―周波数領域において変換される。(この単純化している例において、分析フィルタバンクが3本のチャネルを含むと仮定されている。)周波数領域オーディオ信号330のサブバンド信号は、周波数領域オーディオ信号320が、元の3つのサブバンド信号330および生成された3つの追加のサブバンド信号335を含むように、3つの追加のサブバンド信号335を得るために複製されることができる。次に、2つの更に追加のサブバンド信号338、例えばゼロ信号、擬似ランダムサブバンド信号、または複製されたサブバンド信号が、生成される。周波数領域オーディオ信号は、それから、結果として、元の時間領域オーディオ信号310のサンプリングレートの8/3倍であるサンプリングレートを有する時間領域オーディオ信号350となっている時間領域に変換される。
図4は、別の実施形態による装置を示す。本装置は、信号処理装置405とコンフィギュレータ408とを含む。信号処理装置405は、コアデコーダモジュール210、分析フィルタバンク220、サブバンドジェネレータ230および合成フィルタバンク240を含み、それらは、図2の実施形態の各ユニットに対応する。さらに、信号処理装置405は、ステレオまたはサラウンドチャネルを有する前処理されたオーディオ信号を得るために、前処理されたオーディオ信号を復号するためのMPEGサラウンドデコーダ410(MPSデコーダ)を含む。サブバンドジェネレータ230は、周波数領域前処理されたオーディオ信号のための追加のサブバンド信号が、周波数領域前処理されたオーディオ信号において、生成され、追加された後に、周波数領域前処理されたオーディオ信号をMPEGサラウンドデコーダ410に送るように構成される。
図5aは、実施形態によるコアデコーダモジュールを示す。コアデコーダモジュールは、第1のコアデコーダ510と第2のコアデコーダ520とを含む。第1のコアデコーダ510は、時間領域において作動するように構成され、第2のコアデコーダ520は、周波数領域において作動するように構成される。図5aにおいて、第1のコアデコーダ510は、ACELPデコーダであり、第2のコアデコーダ520は、FD変換デコーダ、例えばAAC変換デコーダである。代わりの実施形態において、第2のコアデコーダ520は、TCX変換デコーダである。到来するオーディオ信号部aspが音声データまたは他のオーディオデータを含むかどうかに依存して、到来するオーディオ信号部aspは、ACELPデコーダ510によって、または、FD変換デコーダ520によって処理される。コアデコーダモジュールの出力は、オーディオ信号の前処理された部分pp―aspである。
図5bは、図5aによるコアデコーダモジュールを有する図4の実施形態によるオーディオ信号を処理する装置を示す。
実施形態において、ACELPコーデックのためのスーパーフレームサイズは、1024サンプルから768のサンプルに削減される。これは、サイズ192(サイズ64の3つのサブフレーム)の4つのACELPフレームをサイズ768の1つのコアコーダフレームに結合することによってなされうる(従来:サイズ256の4つのACELPフレームが、サイズ1024のコアコーダフレームに結合された)。図6aは、4つのACELPフレーム610を含んでいるACELPスーパーフレーム605を示す。ACELPフレーム610のそれぞれは、3つのサブフレーム615を含む。
768のサンプルのコアコーダフレームサイズに達するための他の解決法は、例えば、サイズ256(サイズ64の4つのサブフレーム)の3つのACELPフレームを結合することである。図6bは、3つのACELPフレーム630を含んでいるACELPスーパーフレーム625を示す。ACELPフレーム630のそれぞれは、4つのサブフレーム635を含む。
図7bは、デコーダ観点から提案された追加の設定をまとめており、それを従来のUSAC設定と比較する。図7aおよび図7bは、一般的に、24kbit/sまたは32kbit/sとして動作点で使用されるように、デコーダ構造をまとめる。
USAC RM9(USAC基準モデル9)、デフォルト設定を示している図7aにおいて、オーディオ信号フレームは、QMF分析フィルタバンク710に入力される。QMF分析フィルタバンク710は、32本のチャネルを有する。QMF分析フィルタバンク710は、時間領域オーディオ信号を周波数領域に変換するように構成され、周波数領域オーディオ信号は、32サブバンドを含む。周波数領域オーディオ信号は、次にアップサンプラ(upsampler)720に入力される。アップサンプラ720は、アップサンプリング係数2によって周波数領域オーディオ信号をアップサンプリングするように構成される。このように、64のサブバンドを含んでいる周波数領域アップサンプラ出力信号は、アップサンプラによって生成される。アップサンプラ720は、SBR(スペクトル帯域複製)アップサンプラである。すでに述べたように、スペクトル帯域複製は、スペクトル帯域レプリケータに入力されているより低い周波数サブバンドからより高い周波数サブバンドを生成するために使用される。
アップサンプリングされた周波数領域オーディオ信号は、次にMPEGサラウンド(MPS)デコーダ730に送られる。MPSデコーダ730は、サラウンド信号の周波数領域チャネルを得るために、ダウンミックスされたサラウンド信号を復号するように構成される。例えば、MPSデコーダ730は、周波数領域サラウンド信号の2本のアップミックスされた周波数領域サラウンドチャネルを生成するように構成されうる。他の実施形態において、MPSデコーダ730は、周波数領域サラウンド信号の5本のアップミックスされた周波数領域サラウンドチャネルを生成するように構成されうる。周波数領域サラウンド信号のチャネルは、次に、QMF合成フィルタバンク740に送られる。QMF合成フィルタバンク740は、サラウンド信号の時間領域チャネルを得るために、周波数領域サラウンド信号のチャネルを時間領域に変換するように構成される。
図に示すように、USACデコーダは、2:1システムとして、そのデフォルト設定において作動する。コアコーデックは、出力サンプリングレートfoutの半分で、1024のサンプル/フレームの粒度において作動する。32バンド分析QMFフィルタバンクを、同じレートで動作している64バンド合成QMFバンクと組み合わせることによって、2倍でのアップサンプリングが、SBRツール内部で暗に実行される。SBRツールは、foutでサイズ2048のフレームを出力する。
図7bは、USACのための提案された追加設定を示す。QMF分析フィルタバンク750、アップサンプラ760、MPSデコーダ770および合成フィルタバンク780が示される。
デフォルト設定とは対照的に、USACコーデックは、8/3システムとして提案された追加設定において作動する。コアコーダは、出力サンプリングレートfoutの3/8倍で動作する。同じ状況において、コアコーダフレームサイズは3/4倍に縮小された。SBRツール内部の24バンド分析QMFフィルタバンクと64バンド合成フィルタバンクとの組み合わせによって、2048のサンプルのフレーム長でfoutの出力サンプリングレートが、達成されることができる。
この設定は、コアコーダおよび追加のツールの両方に関して、非常に増加した時間粒度を可能にする。SBRおよびMPEGサラウンドのようなツールがより高サンプリングレートで作動されることができるのに対して、コアコーダサンプリングレートは、削減される、そして、その代わりに、フレーム長は短くされる。この方法によって、すべての要素が、それらの最適環境において動作することができる。
一実施形態において、AACコーダが出力サンプリングレートfoutの3/8で作動する場合であっても、コアコーダとして使用されるAACコーダは、それでもなお、1/2のfoutサンプリングレートに基づいてスケールファクタ(scalefactor)を決定することができる。
下表は、USAC基準品質符号器において用いられているようなUSACのためのサンプリングレートおよびフレーム時間に関する詳細な数を提供する。表に示すように、提案された新たな設定のフレーム時間は、約25%分減少することができ、それはすべての非定常信号のためのプラスの効果につながる。というのも、符号化雑音の拡散もまた、同比率で削減することができるからである。この削減は、その最適化された動作範囲からACELPツールを動かしてしまうであろうコアコーダサンプリング周波数の増加をすることなく、成し遂げられることができる。
Figure 0006100164
その表は、24kbit/sで基準品質符号器において用いられているように、デフォルトおよび提案された新たな設定についてのサンプリングレートおよびフレーム時間を示す。
以下に、更に詳細に提案された新たな設定を実行するためのUSACデコーダに対する必要な修正が説明される。
変換コーダに関して、より短いフレームサイズは、3/4倍で変換およびウィンドウサイズをスケールすることによって、容易に達成されることができる。標準モードのFDコーダが、1024および128の変換サイズによって作動するのに対して、サイズ768および96の追加の変換は、新たな設定によって導入される。TCXについては、768、384および192のサイズの追加の変換が必要である。ウィンドウ係数によって新しい変換サイズを特定することは別として、変換コーダは、変化しないままでありえる。
ACELPツールに関して、全体のフレームサイズは、768のサンプルに適合されることを必要とする。この目的を達成するための1つの方法は、768のサンプルの各フレーム内にはまっている192のサンプルの4つのACELPフレームによって、フレームの全体の構造を変化させないままにすることである。削減されたフレームサイズへの適合は、フレームごとにサブフレームの数を4から3に減少させることによって成し遂げられる。ACELPサブフレーム長は、64のサンプルで変えられない。サブフレームの削減された数を可能にするために、ピッチ情報は、わずかに異なる方式を使用して符号化される。3ピッチ値は、標準モデルの9、6、9および6ビットを使用した絶対−相対−絶対−相対方式の代わりに、それぞれ9、6および6ビットを使用した絶対−相対−相対方式を使用して符号化される。しかし、ピッチ情報を符号化するその他の方法は、可能である。さまざまな量子化器(LPCフィルタ、ゲイン、その他)だけでなく、ACELPコードブックなどのACELPコーデックの他の要素も不変のままにされる。
768のサンプルの全部のフレームサイズを達成する他の方法は、サイズ768の1つのコアコーダフレームのためのサイズ256の3つのACELPフレームを結合することである。
SBRツールの機能は、不変のままである。しかし、32バンド分析バンドQMFに加えて、係数8/3のアップサンプリングを可能にするために、24バンド分析QMFが必要とされる。
以下に、計算煩雑性に対する提案された追加の動作点の影響が説明される。これは、最初にコーデックツールベースごとになされ、最後にまとめられる。その煩雑性は、これらの動作点のための対応するHE―AACv2設定と比較される高ビットレートでUSAC基準品質符号器によって使用されるように、デフォルトサンプリングレートモードに対して、そして、高サンプリングモードに対して、比較される。
変換コーダに関して、変換コーダ部の煩雑性は、サンプリングレートおよび変換長でスケールされる。提案されたコアコーダサンプリングレートは、それを粗いままにする。変換サイズは、3/4倍で削減される。これによって、計算煩雑性は、基礎をなすFFTに関する混合基数法(mixed radix approach)であるとすると、ほとんど同じ率で削減される。全体として、変換ベースのデコーダの煩雑性は、現在のUSAC動作点と比較して、わずかに削減されると予想され、高サンプリング動作モードと比較して、3/4倍に削減される。
ACELPに関して、ACELPツールの煩雑性は、主に以下の動作の中に集まる。
励振の復号化:演算の煩雑性は、1秒あたりのサブフレームの数と比例しており、それは同様にコアコーダサンプリング周波数(64サンプルで不変のサブフレームサイズ)に正比例する。従って、それは、新たな設定とほとんど同じである。
バス・ポストフィルタを含むLPCフィルタリングおよび他の合成演算:この演算の煩雑性は、コアコーダサンプリング周波数に正比例して、従って、ほとんど同じである。
全体として、ACELPデコーダの予想される煩雑性は、現在のUSAC動作点と比較して変化していないと予想され、高サンプリング動作モードと比較して3/4倍に削減される。
SBRに関して、SBR煩雑性の主な要因は、QMFフィルタバンクである。ここでの煩雑性は、サンプリングレート及び変換サイズに比例する。特に、分析フィルタバンクの煩雑性は、およそ3/4倍で削減される。
MPEGサラウンドに関して、MPEGサラウンドパートの煩雑性は、サンプリングレートによって比例する。提案された追加動作モードは、MPEGサラウンドツールの煩雑性に、直接的な影響を及ぼさない。
全体で、提案された新たな動作モードの煩雑性が、より高いサンプリングレートモードで動作するとき、USACデコーダの煩雑性よりは下であるが、低サンプリングレートモードと比較してわずかに煩雑であることが分かった(USAC RM9、高SR:13.4MOPS、提案された新たな動作点:12.8MOPS)。
テストされた動作点について、煩雑性は、以下のように評価される。
34.15kHzで作動されるUSAC RM9:約4.6WMOPS;
44.1kHzで作動されるUSAC RM9:約5.6WMOPS;
提案された新たな動作点:約5.0WMOPS。
USACデコーダが、そのデフォルト設定における48kHzまでのサンプリングレートを処理することができる必要があると予想されるので、欠点は、この提案された新たな動作点によって予想されない。
メモリ要求に関して、提案された追加の動作モードは、追加のMDCTウィンドウ・プロトタイプの記憶装置を必要とする。そして、それは追加のROM要求を全体で900ワード(32ビット)以下にまとめる。(およそ25キロワード(kWord)である)全体のデコーダROM要求を考慮すると、これはごくわずかであるように思われる。
試聴テストの結果は、音声項目についての品質を劣化させずに、音楽および混合された項目についての有意な改善を示す。この追加設定は、USACコーデックの追加の動作モードを意図する。
MUSHRA法による試聴テストは、24kbit/sモノラルで、提案された新たな設定の機能を評価するために行われた。以下の条件が、テストに含まれた。隠れ基準(Hidden reference)、3.5kHzのローパスアンカー(anchor)、USAC WD7基準品質(WD7@34.15kHz)、高サンプリングレートで作動されたUSAC WD7(WD7@44.1kHz)、USAC WD7基準品質、提案された新たな設定(WD7_CE@44.1kHz)。
テストは、USACテストセットの12項目と、以下の追加の項目をカバーした。si02:カスタネット、velvet:電子音楽、xylophone:オルゴール。
図8aおよび図8bは、テストの結果を示す。22人の被験者が、試聴テストに参加した。スチューデントのt(Student―t)確率分布が、評価のために使用された。
平均スコア(95%有意水準)の評価に関して、44.1kHzの高サンプリングレートで作動されるWD7が2つの項目(es01、HarryPotter)に関してWD7より著しく悪く作動したことを観察することができる。WD7と本技術を特徴とするWD7との間には、有意差を観察することができない。
差分のスコアの評価に関して、44.1kHzで作動されるWD7が、6つの項目(es01、louis_raquin、te1、WeddingSpeech、HarryPotter、SpeechOverMusic_4)および全項目にわたって平均されたものについて、WD7より悪く作動することが観察される。悪く作動する項目は、すべての純粋な音声項目と、混合された音声/音楽項目の2つを含む。更に、44.1kHzで作動されるWD7が、4つの項目(twinkle、salvation、si02、velvet)のためのWD7より著しく良く作動することが観察されることができる。これらの項目の全ては、音楽信号の大部分を含む、または、音楽と分類される。
テストされた本技術については、それが5つの項目(twinkle、salvation、te15、si02、velvet)に関して、加えて、全項目にわたって平均されたときに関して、WD7より良く観察されることができる。それがよりよく作動する項目の全ては、音楽信号の大部分を含む、または、音楽と分類される。劣化は、観察されることができない。
上記の実施形態によって、中程度のUSACビットレートのための新たな設定が提供される。この新たな設定は、USACコーデックが、ACELPツールの品質を断念することなく、変換コーダ、SBRおよびMPEGサラウンドなどのすべての関連したツールのためのその時間粒度を増加させることを可能にする。これによって、高い時間的構造を示している音楽および混合された信号のために、特に、中程度のビットレート範囲のための品質が改善されうる。更に、ACELPツールを含むUSACコーデックは、44.1kHzなどのサンプリングレートのより広い範囲で使用されることができるので、USACシステムは、柔軟性において利益を得る。
図9は、オーディオ信号を処理する装置を示す。本装置は、信号処理装置910とコンフィギュレータ920とを含む。信号処理装置910は、オーディオ信号の第1の設定可能な数のサンプル945を有する第1のオーディオ信号フレーム940を受信するように構成される。さらに、信号処理装置910は、処理されたオーディオ信号を得るために、設定可能なダウンサンプリング係数によってオーディオ信号をダウンサンプルするように構成される。さらにまた、信号処理装置は、処理されたオーディオ信号の第2の設定可能な数のサンプル955を有する第2のオーディオ信号フレーム950を出力するように構成される。
コンフィギュレータ920は、第1の設定可能なサンプル数に対する第2の設定可能なサンプル数の第1の比率が、第1の比率値を有するとき、設定可能なダウンサンプリング係数が、第1のダウンサンプリング値に等しいように、設定情報ci2に基づいて信号処理装置910を設定するように構成される。さらに、コンフィギュレータ920は、第1の設定可能なサンプル数に対する第2の設定可能なサンプル数の異なる第2の比率が、異なる第2の比率値を有するとき、設定可能なダウンサンプリング係数が、異なる第2のダウンサンプリング値に等しいように、信号処理装置910を設定するように構成される。第1の比率値または第2の比率値は、整数値でない。
図9による装置は、例えば、符号化の処理において使用されることができる。
いくつかの態様が装置に関連して説明されたが、これらの態様が、また、対応する方法の記載を示すことは明らかである。ここで、ブロックまたはデバイスは、方法ステップまたは方法ステップの機能に対応する。同様に、方法ステップに関連して説明された態様は、対応するブロックまたは項目の記載または対応する装置の機能を示す。
本発明の分解された信号は、デジタル記憶媒体に格納されることができる、又は、無線伝送媒体または例えばインターネットなどの有線伝送媒体などの伝送媒体で送られることができる。
特定の実施態様に応じて、本発明の実施形態は、ハードウェアにおいて、または、ソフトウェアにおいて実行されることができる。その実施態様は、各方法が実行されるように、プログラミング可能な計算機システムと協動する(または協動することができる)その上に格納される電子的に読み込み可能な制御信号を有するデジタル記憶媒体、例えばフロッピー(登録商標)ディスク、DVD、CD、ROM、PROM、EPROM、EEPROMまたはFLASHメモリを使用して実行されることができる。
本発明によるいくつかの実施形態は、本願明細書において説明された方法のうちの1つが実行されるように、プログラミング可能な計算機システムと協動することができる電子的に読み込み可能な制御信号を有する一時的でないデータキャリアを含む。
通常、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実行されることができる。そして、コンピュータプログラム製品がコンピュータ上で動作するとき、プログラムコードが、本方法のうちの1つを実行するために実施される。プログラムコードは、例えば、機械読み取り可読キャリアに格納されることができる。
他の実施形態は、機械読み取り可読キャリアに格納された、本願明細書において説明された方法のうちの1つを実行するためのコンピュータプログラムを含む。
従って、換言すれば、本発明の方法の実施形態は、コンピュータプログラムがコンピュータ上で動作するとき、本願明細書において説明された方法のうちの1つを実行するためのプログラムコードを有するコンピュータプログラムである。
従って、本発明の方法の更なる実施形態は、その上に記録されて、本願明細書において説明された方法のうちの1つを実行するためのコンピュータプログラムを含んでいるデータキャリア(またはデジタル記憶媒体またはコンピュータ可読媒体)である。
従って、本発明の方法の更なる実施形態は、本願明細書において説明された方法のうちの1つを実行するためのコンピュータプログラムを示しているデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、例えば、データ通信接続を介して、例えばインターネットを介して送信されるように構成されることができる。
更なる実施形態は、本願明細書において説明された方法のうちの1つを実行するために設定または構成される処理手段、例えばコンピュータまたはプログラム可能な論理回路を含む。
更なる実施形態は、本願明細書において説明された方法のうちの1つを実行するためのコンピュータプログラムをその上にインストールされているコンピュータを含む。
いくつかの実施形態において、プログラム可能な論理回路(例えば論理プログラミング可能デバイス)は、本願明細書において説明された方法の機能の一部または全てを実行するために使用されることができる。いくつかの実施形態において、論理プログラミング可能デバイスは、本願明細書において説明された方法のうちの1つを実行するために、マイクロプロセッサと協動することができる。通常、本方法は、好ましくは、いかなるハードウェア装置によっても実行される。
上記実施形態は、本発明の原理のために、単に示しているだけである。本願明細書において説明された装置の修正変更および詳細が、他の当業者にとって明らかであるものと理解される。従って、間近に迫った特許請求の範囲だけによって限定され、本願明細書の実施形態の記載および説明によって示された具体的な詳細によっては限定されないという意図である。

Claims (16)

  1. オーディオ信号を処理するための装置であって、
    前記オーディオ信号の第1の設定可能な数のサンプルを有する第1のオーディオ信号フレームを受信するように構成され、前記第1の設定可能なサンプル数が、第2の設定可能なサンプル数と異なるように、処理されたオーディオ信号を得るために設定可能なアップサンプリング係数により、前記オーディオ信号をアップサンプリングするように構成され、前記処理されたオーディオ信号の第2の設定可能な数のサンプルを有する第2のオーディオ信号フレームを出力するように構成される信号処理装置(110;205;405)と、
    前記信号処理装置(110;205;405)を設定するように構成されるコンフィギュレータ(120;208;408)とを含み、
    前記コンフィギュレータ(120;208;408)は、前記第1の設定可能なサンプル数に対する前記第2の設定可能なサンプル数の第1の比率が、第1の比率値を有するとき、前記設定可能なアップサンプリング係数が、第1のアップサンプリング値と等しいように、設定情報に基づいて、前記信号処理装置(110;205;405)を設定するように構成されること、および、前記コンフィギュレータ(120;208;408)は、前記第1の設定可能なサンプル数に対する前記第2の設定可能なサンプル数の異なる第2の比率が、異なる第2の比率値を有するとき、前記設定可能なアップサンプリング係数が、異なる第2のアップサンプリング値と等しく、前記異なる第2のアップサンプリング値が、前記第1のアップサンプリング値と異なるように、前記信号処理装置(110;205;405)を設定するように構成され、かつ、前記第1の比率値または前記第2の比率値は、整数値ではなく、
    前記信号処理装置(110;205;405)は、
    第1の前処理されたオーディオ信号(as2)を得るために前記オーディオ信号を復号するためのコアデコーダ・モジュール(210)と、
    複数のサブバンド信号を含む第2の周波数領域前処理されたオーディオ信号(as3)を得るために前記第1の前処理されたオーディオ信号(as2)を時間領域から周波数領域に変換するためのいくつかの分析フィルタバンクチャネルを有する分析フィルタバンク(220)と、
    第3の周波数領域前処理されたオーディオ信号(as4)を得るために、追加のサブバンド信号を生成し、前記第2の周波数領域前処理されたオーディオ信号(as3)に追加するためのサブバンドジェネレータ(230)であって、前記サブバンドジェネレータ(230)は、前記第3の周波数領域前処理されたオーディオ信号(as4)を得るために前記第2の周波数領域前処理されたオーディオ信号(as3)のための追加のサブバンド信号を作成するための前記第2の周波数領域前処理されたオーディオ信号(as3)のサブバンド信号を複製するように構成されているスペクトル帯域レプリケータであるサブバンドジェネレータ(230)と、
    前記前処理されたオーディオ信号(as5)を得るために前記第3の周波数領域前処理されたオーディオ信号(as4)を前記周波数領域から前記時間領域に変換するためのいくつかの合成フィルタバンクチャネルを有する合成フィルタバンク(240)とを含み、
    前記コンフィギュレータ(120;208;408)は、前記設定可能なアップサンプリング係数が前記分析フィルタバンクチャネルの数に対する前記合成フィルタバンクチャネルの数の第3の比率に等しいように、合成フィルタバンクチャネルの数または分析フィルタバンクのチャネルの数を設定することにより前記信号処理装置(110;205;405)を設定するように構成されている、
    ことを特徴とする、装置。
  2. 前記コンフィギュレータ(120;208;408)は、前記第1の設定可能なサンプル数に対する前記第2の設定可能なサンプル数の前記第2の比率が、前記第1の設定可能なサンプル数に対する前記第2の設定可能なサンプル数の前記第1の比率より大きいとき、前記異なる第2のアップサンプリング値が、前記第1のアップサンプリング値より大きいように、前記信号処理装置(110;205;405)を設定するように構成されることを特徴とする、請求項1に記載の装置。
  3. 前記コンフィギュレータ(120;208;408)は、前記第1の設定可能なサンプル数に対する前記第2の設定可能なサンプル数の前記第1の比率が、前記第1の比率値を有するとき、前記設定可能なアップサンプリング係数が、前記第1の比率値と等しいように、前記信号処理装置(110;205;405)を設定するように構成されること、および、前記コンフィギュレータ(120;208;408)は、前記第1の設定可能なサンプル数に対する前記第2の設定可能なサンプル数の前記第2の比率が、前記異なる第2の比率値を有するとき、前記設定可能なアップサンプリング係数が、前記異なる第2の比率値と等しいように、前記信号処理装置(110;205;405)を設定するように構成されることを特徴とする、請求項1又は請求項2に記載の装置。
  4. 前記コンフィギュレータ(120;208;408)は、前記第1の比率が前記第1の比率値を有するとき、前記設定可能なアップサンプリング係数が、2と等しいように、前記信号処理装置(110;205;405)を設定するように構成されること、および、前記コンフィギュレータ(120;208;408)は、前記第2の比率が前記異なる第2の比率値を有するとき、前記設定可能なアップサンプリング係数が、8/3と等しいように、前記信号処理装置(110;205;405)を設定するように構成されることを特徴とする、請求項1〜請求項3のいずれかに記載の装置。
  5. 前記コンフィギュレータ(120;208;408)は、前記第1の比率が前記第1の比率値を有するとき、前記第1の設定可能なサンプル数が、1024と等しく、前記第2の設定可能なサンプル数が、2048と等しいように、前記信号処理装置(110;205;405)を設定するように構成されること、および、前記コンフィギュレータ(120;208;408)は、前記第2の比率が前記異なる第2の比率値を有するとき、前記第1の設定可能なサンプル数が、768と等しく、前記第2の設定可能なサンプル数が、2048と等しいように、前記信号処理装置(110;205;405)を設定するように構成されることを特徴とする、請求項1〜請求項4のいずれかに記載の装置。
  6. 前記コアデコーダ・モジュール(210)は、第1のコアデコーダ(510)と第2のコアデコーダ(520)とを含み、前記第1のコアデコーダ(510)は、時間領域において作動するように構成され、かつ前記第2のコアデコーダ(520)は、周波数領域において作動するように構成されることを特徴とする、請求項1〜請求項5のいずれかに記載の装置。
  7. 前記第1のコアデコーダ(510)は、ACELPデコーダであり、前記第2のコアデコーダ(520)は、FD変換デコーダまたはTCX変換デコーダであることを特徴とする、請求項6に記載の装置。
  8. 前記ACELPデコーダ(510)は、前記第1のオーディオ信号フレームを処理するように構成され、前記第1のオーディオ信号フレームは、4つのACELPフレームを有し、前記第1のオーディオ信号フレームの前記第1の設定可能なサンプル数が768に等しいとき、前記ACELPフレームのそれぞれは、192のオーディオ信号サンプルを有することを特徴とする、請求項7に記載の装置。
  9. 前記ACELPデコーダ(510)は、前記第1のオーディオ信号フレームを処理するように構成され、前記第1のオーディオ信号フレームは、3つのACELPフレームを有し、前記第1のオーディオ信号フレームの前記第1の設定可能なサンプル数が768に等しいとき、前記ACELPフレームのそれぞれは、256のオーディオ信号サンプルを有することを特徴とする、請求項8に記載の装置。
  10. コンフィギュレータ(120;208;408)は、前記オーディオ信号の前記第1の設定可能なサンプル数または前記処理されたオーディオ信号の前記第2の設定可能なサンプル数の少なくとも1つを示している前記設定情報に基づいて、前記信号処理装置(110;205;405)を設定するように構成されることを特徴とする、請求項1〜請求項9のいずれかに記載の装置。
  11. コンフィギュレータ(120;208;408)は、前記設定情報に基づいて、前記信号処理装置(110;205;405)を設定するように構成され、前記設定情報は、前記オーディオ信号の前記第1の設定可能なサンプル数および前記処理されたオーディオ信号の前記第2の設定可能なサンプル数を示し、前記設定情報は、設定インデックスであることを特徴とする、請求項1〜請求項10のいずれかに記載の装置。
  12. オーディオ信号を処理するための方法は、
    設定可能なアップサンプリング係数を設定するステップと、
    前記オーディオ信号の第1の設定可能な数のサンプルを有する第1のオーディオ信号フレームを受信するステップと、
    処理されたオーディオ信号を得るために、前記設定可能なアップサンプリング係数によって前記オーディオ信号をアップサンプリングするステップであって、前記第1の設定可能なサンプル数が第2の設定可能なサンプル数と異なるように、前記処理されたオーディオ信号の第2の設定可能な数のサンプルを有する第2のオーディオフレームを出力するように構成されるステップとを含み、
    前記設定可能なアップサンプリング係数は、前記第1の設定可能なサンプル数に対する前記第2の設定可能なサンプル数の第1の比率が、第1の比率値を有するとき、前記設定可能なアップサンプリング係数が、第1のアップサンプリング値と等しいように、設定情報に基づいて設定されること、および、前記設定可能なアップサンプリング係数は、前記第1の設定可能なサンプル数に対する前記第2の設定可能なサンプル数の異なる第2の比率が、異なる第2の比率値を有するとき、前記設定可能なアップサンプリング係数が、異なる第2のアップサンプリング値と等しく、前記異なる第2のアップサンプリング値が、前記第1のアップサンプリング値と異なるように、設定され、かつ、前記第1の比率または前記第2の比率は、整数値ではなく、
    処理されたオーディオ信号を得るために設定可能なアップサンプリング係数により前記オーディオ信号をアップサンプリングすることは、
    第1の前処理されたオーディオ信号を得るためにコアデコーダモジュールにより前記オーディオ信号を復号し、
    複数のサブバンド信号を含む第2の周波数領域前処理されたオーディオ信号を得るためにいくつかの分析フィルタバンクチャネルを有する分析フィルタバンクにより前記第1の前処理されたオーディオ信号を時間領域から周波数領域に変換し、
    前記第3の周波数領域前処理されたオーディオ信号を得るために前記第2の周波数領域前処理されたオーディオ信号のための前記追加のサブバンド信号を作成するための前記第2の周波数領域前処理されたオーディオ信号のサブバンド信号を複製することにより、サブバンドジェネレータにより追加のサブバンド信号を作成し、前記第2の周波数領域前処理されたオーディオ信号に追加し、
    前記処理されたオーディオ信号を得るために、いくつかの合成フィルタバンクチャネルを有する合成フィルタバンクにより前記第3の周波数領域前処理されたオーディオ信号を前記周波数領域から前記時間領域に変換することにより実行され、
    前記設定情報を設定することは、設定可能なアップサンプリング係数が分析フィルタバンクチャネルの数に対する合成フィルタバンクのチャネルの数の第3の比率に等しくなるように、合成フィルタバンクのチャネルの数または分析フィルタバンクのチャネルの数を設定することにより、実行されることを特徴とする、方法。
  13. オーディオ信号を処理するための装置は、
    前記オーディオ信号の第1の設定可能な数のサンプルを有する第1のオーディオ信号フレームを受信するように構成され、処理されたオーディオ信号を得るために、設定可能なダウンサンプリング係数によって前記オーディオ信号をダウンサンプリングするように構成され、前記第1の設定可能なサンプル数が第2の設定可能なサンプル数と異なるように、前記処理されたオーディオ信号の第2の設定可能な数のサンプルを有する第2のオーディオフレームを出力するように構成される、信号処理装置(910)と、
    前記信号処理装置を設定するように構成されるコンフィギュレータ(920)とを含み、
    前記コンフィギュレータ(920)は、前記第1の設定可能なサンプル数に対する前記第2の設定可能なサンプル数の第1の比率が、第1の比率値を有するとき、前記設定可能なダウンサンプリング係数が第1のダウンサンプリング値に等しいように、設定情報に基づいて前記信号処理装置(910)を設定するように構成されること、および、前記コンフィギュレータ(920)は、前記第1の設定可能なサンプル数に対する前記第2の設定可能なサンプル数の異なる第2の比率が、異なる第2の比率値を有するとき、前記設定可能なダウンサンプリング係数が、異なる第2のダウンサンプリング値に等しく、前記異なる第2のダウンサンプリング値が、前記第1のダウンサンプリング値と異なるように、前記信号処理装置(910)を設定するように構成され、かつ、前記第1の比率値または前記第2の比率値は、整数値ではなく、
    前記信号処理装置(110;205;405)は、
    第1の前処理されたオーディオ信号(as2)を得るために前記オーディオ信号を復号するためのコアデコーダモジュール(210)と、
    複数のサブバンド信号を含む第2の周波数領域前処理されたオーディオ信号(as3)を得るために前記第1の前処理されたオーディオ信号(as2)を時間領域から周波数領域に変換するためのいくつかの分析フィルタバンクチャネルを有する分析フィルタバンク(220)とを含み、
    前記信号処理装置(110;205;405)は、第3の周波数領域前処理されたオーディオ信号(as4)を得るために前記第2の周波数領域前処理されたオーディオ信号(as3)の複数の最高のサブバンド信号を削除するように構成され、かつ
    処理されたオーディオ信号(as5)を得るために前記第3の周波数領域前処理されたオーディオ信号(as4)を周波数領域から時間領域に変換するためのいくつかの合成フィルタバンクチャネルを有する合成フィルタバンク(240)をさらに含み、
    前記コンフィギュレータ(120;208;408)は、前記設定可能なダウンサンプリング係数が前記分析フィルタバンクチャネルの数に対する前記合成フィルタバンクチャネルの数の第3の比率に等しいように、合成フィルタバンクチャネルの数または分析フィルタバンクチャネルの数を設定することにより前記信号処理装置(110;205;405)を設定するように構成されている、
    ことを特徴とする、装置。
  14. 前記コンフィギュレータは、前記第1の設定可能なサンプル数に対する前記第2の設定可能なサンプル数の前記第1の比率が、前記第1の設定可能なサンプル数に対する前記第2の設定可能なサンプル数の前記第2の比率より小さいとき、前記第1のダウンサンプリング値が、前記異なる第2のダウンサンプリング値より小さいように、前記信号処理装置(910)を設定するように構成されることを特徴とする、請求項13に記載の装置。
  15. オーディオ信号を処理するための方法であって、
    設定可能なダウンサンプリング係数を設定するステップと、
    前記オーディオ信号の第1の設定可能な数のサンプルを有する第1のオーディオ信号フレームを受信するステップと、
    処理されたオーディオ信号を得るために、前記設定可能なダウンサンプリング係数によって前記オーディオ信号をダウンサンプリングするステップであって、前記第1の設定可能なサンプル数が前記第2の設定可能なサンプル数と異なるように、前記処理されたオーディオ信号の前記第2の設定可能な数のサンプルを有する第2のオーディオフレームを出力するように構成されるステップとを含み、
    前記設定可能なダウンサンプリング係数は、前記第1の設定可能なサンプル数に対する前記第2の設定可能なサンプル数の第1の比率が、第1の比率値を有するとき、前記設定可能なダウンサンプリング係数が、第1のダウンサンプリング値に等しいように、設定情報に基づいて設定されること、および、前記設定可能なダウンサンプリング係数は、前記第1の設定可能なサンプル数に対する前記第2の設定可能なサンプル数の異なる第2の比率が、異なる第2の比率値を有するとき、前記設定可能なダウンサンプリング係数が、異なる第2のダウンサンプリング値に等しく、前記異なる第2のダウンサンプリング値が、前記第1のダウンサンプリング値と異なるように、設定され、かつ、前記第1の比率値または前記第2の比率値は、整数値ではなく、
    処理されたオーディオ信号を得るための設定可能なダウンサンプリング係数により前記オーディオ信号をダウンサンプリングすることは、
    第1の前処理されたオーディオ信号を得るためにコアデコーダモジュールにより前記オーディオ信号を復号し、
    複数のサブバンド信号を含む第2の周波数領域前処理されたオーディオ信号を得るためにいくつかの分析フィルタバンクチャネルを有する分析フィルタバンクにより前記第1の前処理されたオーディオ信号を時間領域から周波数領域に変換し、
    第3の周波数領域前処理されたオーディオ信号を得るために前記第2の周波数領域前処理されたオーディオ信号の複数の最高のサブバンド信号を削除し、
    前記処理されたオーディオ信号を得るために、いくつかの合成フィルタバンクチャネルを有する合成フィルタバンクにより前記第3の周波数領域前処理されたオーディオ信号を周波数領域から時間領域に変換することにより実行され、
    前記設定情報を設定することは、設定可能なダウンサンプリング係数が合成フィルタバンクチャネルの数に対する分析フィルタバンクチャネルの数の第3の比率に等しくなるように、合成フィルタバンクチャネルの数または分析フィルタバンクチャネルの数を設定することにより、実行されることを特徴とする、方法。
  16. コンピュータプログラムがコンピュータまたは処理装置によって実行されるとき、請求項12または請求項15の方法を実行するための前記コンピュータプログラム。
JP2013532172A 2010-10-06 2011-10-04 オーディオ信号を処理し、音声音響統合符号化方式(usac)のためにより高い時間粒度を供給するための装置および方法 Active JP6100164B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US39026710P 2010-10-06 2010-10-06
US61/390,267 2010-10-06
PCT/EP2011/067318 WO2012045744A1 (en) 2010-10-06 2011-10-04 Apparatus and method for processing an audio signal and for providing a higher temporal granularity for a combined unified speech and audio codec (usac)

Publications (3)

Publication Number Publication Date
JP2013543600A JP2013543600A (ja) 2013-12-05
JP2013543600A5 JP2013543600A5 (ja) 2017-02-09
JP6100164B2 true JP6100164B2 (ja) 2017-03-22

Family

ID=44759689

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013532172A Active JP6100164B2 (ja) 2010-10-06 2011-10-04 オーディオ信号を処理し、音声音響統合符号化方式(usac)のためにより高い時間粒度を供給するための装置および方法

Country Status (18)

Country Link
US (1) US9552822B2 (ja)
EP (1) EP2625688B1 (ja)
JP (1) JP6100164B2 (ja)
KR (1) KR101407120B1 (ja)
CN (1) CN103403799B (ja)
AR (2) AR083303A1 (ja)
AU (1) AU2011311659B2 (ja)
BR (1) BR112013008463B8 (ja)
CA (1) CA2813859C (ja)
ES (1) ES2530957T3 (ja)
HK (1) HK1190223A1 (ja)
MX (1) MX2013003782A (ja)
MY (1) MY155997A (ja)
PL (1) PL2625688T3 (ja)
RU (1) RU2562384C2 (ja)
SG (1) SG189277A1 (ja)
TW (1) TWI486950B (ja)
WO (1) WO2012045744A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7103052B2 (ja) 2018-08-10 2022-07-20 日本精工株式会社 テーブル装置
JP7268301B2 (ja) 2018-08-10 2023-05-08 日本精工株式会社 テーブル装置

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6100164B2 (ja) * 2010-10-06 2017-03-22 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ オーディオ信号を処理し、音声音響統合符号化方式(usac)のためにより高い時間粒度を供給するための装置および方法
US9530424B2 (en) * 2011-11-11 2016-12-27 Dolby International Ab Upsampling using oversampled SBR
TWI557727B (zh) 2013-04-05 2016-11-11 杜比國際公司 音訊處理系統、多媒體處理系統、處理音訊位元流的方法以及電腦程式產品
AU2014204540B1 (en) * 2014-07-21 2015-08-20 Matthew Brown Audio Signal Processing Methods and Systems
EP2980794A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
EP2980795A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
EP3182411A1 (en) * 2015-12-14 2017-06-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing an encoded audio signal
KR102219752B1 (ko) 2016-01-22 2021-02-24 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 채널 간 시간 차를 추정하기 위한 장치 및 방법
CN109328382B (zh) * 2016-06-22 2023-06-16 杜比国际公司 用于将数字音频信号从第一频域变换到第二频域的音频解码器及方法
US10249307B2 (en) * 2016-06-27 2019-04-02 Qualcomm Incorporated Audio decoding using intermediate sampling rate
TWI812658B (zh) 2017-12-19 2023-08-21 瑞典商都比國際公司 用於統一語音及音訊之解碼及編碼去關聯濾波器之改良之方法、裝置及系統

Family Cites Families (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03286698A (ja) 1990-04-02 1991-12-17 Onkyo Corp ソフトドーム振動板
KR970011728B1 (ko) * 1994-12-21 1997-07-14 김광호 음향신호의 에러은닉방법 및 그 장치
IT1281001B1 (it) 1995-10-27 1998-02-11 Cselt Centro Studi Lab Telecom Procedimento e apparecchiatura per codificare, manipolare e decodificare segnali audio.
US6006108A (en) * 1996-01-31 1999-12-21 Qualcomm Incorporated Digital audio processing in a dual-mode telephone
DE19742655C2 (de) * 1997-09-26 1999-08-05 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Codieren eines zeitdiskreten Stereosignals
US6208671B1 (en) * 1998-01-20 2001-03-27 Cirrus Logic, Inc. Asynchronous sample rate converter
DE69926821T2 (de) * 1998-01-22 2007-12-06 Deutsche Telekom Ag Verfahren zur signalgesteuerten Schaltung zwischen verschiedenen Audiokodierungssystemen
US6275836B1 (en) * 1998-06-12 2001-08-14 Oak Technology, Inc. Interpolation filter and method for switching between integer and fractional interpolation rates
US6208276B1 (en) * 1998-12-30 2001-03-27 At&T Corporation Method and apparatus for sample rate pre- and post-processing to achieve maximal coding gain for transform-based audio encoding and decoding
JP2000352999A (ja) * 1999-06-11 2000-12-19 Nec Corp 音声切替装置
WO2001099277A1 (en) * 2000-06-23 2001-12-27 Stmicroelectronics Asia Pacific Pte Ltd Universal sampling rate converter for digital audio frequencies
CA2392640A1 (en) 2002-07-05 2004-01-05 Voiceage Corporation A method and device for efficient in-based dim-and-burst signaling and half-rate max operation in variable bit-rate wideband speech coding for cdma wireless systems
JP2004120182A (ja) * 2002-09-25 2004-04-15 Sanyo Electric Co Ltd デシメーションフィルタおよびインターポレーションフィルタ
JP4369946B2 (ja) * 2002-11-21 2009-11-25 日本電信電話株式会社 ディジタル信号処理方法、そのプログラム、及びそのプログラムを格納した記録媒体
WO2004088841A2 (en) * 2003-03-31 2004-10-14 Koninklijke Philips Electronics N. V. Up and down sample rate converter
ATE511178T1 (de) 2004-03-25 2011-06-15 Dts Inc Skalierbarer verlustloser audio-codec und erstellungs-werkzeug
DE102004043521A1 (de) 2004-09-08 2006-03-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals oder eines Parameterdatensatzes
JP4809370B2 (ja) * 2005-02-23 2011-11-09 テレフオンアクチーボラゲット エル エム エリクソン(パブル) マルチチャネル音声符号化における適応ビット割り当て
US8032240B2 (en) * 2005-07-11 2011-10-04 Lg Electronics Inc. Apparatus and method of processing an audio signal
US7528745B2 (en) * 2006-02-15 2009-05-05 Qualcomm Incorporated Digital domain sampling rate converter
US7610195B2 (en) * 2006-06-01 2009-10-27 Nokia Corporation Decoding of predictively coded data using buffer adaptation
US9009032B2 (en) * 2006-11-09 2015-04-14 Broadcom Corporation Method and system for performing sample rate conversion
US7912728B2 (en) * 2006-11-30 2011-03-22 Broadcom Corporation Method and system for handling the processing of bluetooth data during multi-path multi-rate audio processing
EP2144230A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
PL2301011T3 (pl) * 2008-07-11 2019-03-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Sposób i dyskryminator do klasyfikacji różnych segmentów sygnału audio zawierającego segmenty mowy i muzyki
CN102089816B (zh) 2008-07-11 2013-01-30 弗朗霍夫应用科学研究促进协会 音频信号合成器及音频信号编码器
US8117039B2 (en) * 2008-12-15 2012-02-14 Ericsson Television, Inc. Multi-staging recursive audio frame-based resampling and time mapping
RU2493618C2 (ru) * 2009-01-28 2013-09-20 Долби Интернешнл Аб Усовершенствованное гармоническое преобразование
KR101622950B1 (ko) * 2009-01-28 2016-05-23 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 그 장치
US20110087494A1 (en) * 2009-10-09 2011-04-14 Samsung Electronics Co., Ltd. Apparatus and method of encoding audio signal by switching frequency domain transformation scheme and time domain transformation scheme
KR101137652B1 (ko) * 2009-10-14 2012-04-23 광운대학교 산학협력단 천이 구간에 기초하여 윈도우의 오버랩 영역을 조절하는 통합 음성/오디오 부호화/복호화 장치 및 방법
EP4358082A1 (en) * 2009-10-20 2024-04-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal encoder, audio signal decoder, method for encoding or decoding an audio signal using an aliasing-cancellation
US8886523B2 (en) * 2010-04-14 2014-11-11 Huawei Technologies Co., Ltd. Audio decoding based on audio class with control code for post-processing modes
JP6100164B2 (ja) * 2010-10-06 2017-03-22 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ オーディオ信号を処理し、音声音響統合符号化方式(usac)のためにより高い時間粒度を供給するための装置および方法
KR101748760B1 (ko) * 2011-03-18 2017-06-19 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에.베. 오디오 콘텐츠를 표현하는 비트스트림의 프레임들 내의 프레임 요소 배치
KR20160063405A (ko) * 2012-04-24 2016-06-03 브이아이디 스케일, 인크. Mpeg/3gpp-dash에서의 원활한 스트림 스위칭을 위한 방법 및 장치

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7103052B2 (ja) 2018-08-10 2022-07-20 日本精工株式会社 テーブル装置
JP7268301B2 (ja) 2018-08-10 2023-05-08 日本精工株式会社 テーブル装置

Also Published As

Publication number Publication date
SG189277A1 (en) 2013-05-31
EP2625688A1 (en) 2013-08-14
WO2012045744A1 (en) 2012-04-12
BR112013008463B1 (pt) 2021-06-01
BR112013008463A2 (pt) 2016-08-09
CA2813859C (en) 2016-07-12
RU2013120320A (ru) 2014-11-20
KR20130069821A (ko) 2013-06-26
AU2011311659B2 (en) 2015-07-30
KR101407120B1 (ko) 2014-06-13
CN103403799A (zh) 2013-11-20
TWI486950B (zh) 2015-06-01
CN103403799B (zh) 2015-09-16
AR101853A2 (es) 2017-01-18
RU2562384C2 (ru) 2015-09-10
CA2813859A1 (en) 2012-04-12
JP2013543600A (ja) 2013-12-05
US20130226570A1 (en) 2013-08-29
MY155997A (en) 2015-12-31
MX2013003782A (es) 2013-10-03
AR083303A1 (es) 2013-02-13
PL2625688T3 (pl) 2015-05-29
BR112013008463B8 (pt) 2022-04-05
TW201222532A (en) 2012-06-01
ES2530957T3 (es) 2015-03-09
US9552822B2 (en) 2017-01-24
HK1190223A1 (en) 2014-06-27
EP2625688B1 (en) 2014-12-03
AU2011311659A1 (en) 2013-05-02

Similar Documents

Publication Publication Date Title
JP6100164B2 (ja) オーディオ信号を処理し、音声音響統合符号化方式(usac)のためにより高い時間粒度を供給するための装置および方法
RU2680195C1 (ru) Аудиокодер для кодирования многоканального сигнала и аудиодекодер для декодирования кодированного аудиосигнала
JP6268180B2 (ja) 空間オーディオオブジェクト符号化における時間/周波数分解能の後方互換性のある動的適応のためのエンコーダ、デコーダおよび方法
CN111554310B (zh) 用频谱域智能间隙填充编码或解码音频信号的设备及方法
CN106796800B (zh) 音频编码器、音频解码器、音频编码方法和音频解码方法
CN113936675A (zh) 频域处理器以及时域处理器的音频编码器和解码器
WO2013168414A1 (ja) 音信号ハイブリッドエンコーダ、音信号ハイブリッドデコーダ、音信号符号化方法、及び音信号復号方法
JP2015535958A (ja) 後方互換性のある多重分解能空間オーディオオブジェクト符号化のためのエンコーダ、デコーダおよび方法
JP2006323037A (ja) オーディオ信号復号化装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140624

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20140919

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20140929

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141014

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150324

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20150619

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150924

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20160324

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160725

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20161003

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161213

A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A524

Effective date: 20161226

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170124

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170222

R150 Certificate of patent or registration of utility model

Ref document number: 6100164

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250