JP7123911B2 - オーディオコーデックにおける長期予測のためのシステム及び方法 - Google Patents

オーディオコーデックにおける長期予測のためのシステム及び方法 Download PDF

Info

Publication number
JP7123911B2
JP7123911B2 JP2019513764A JP2019513764A JP7123911B2 JP 7123911 B2 JP7123911 B2 JP 7123911B2 JP 2019513764 A JP2019513764 A JP 2019513764A JP 2019513764 A JP2019513764 A JP 2019513764A JP 7123911 B2 JP7123911 B2 JP 7123911B2
Authority
JP
Japan
Prior art keywords
long
predictor
frequency
term
optimal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019513764A
Other languages
English (en)
Other versions
JP2019531505A (ja
Inventor
エリアス ネマー
ゾラン フェイゾ
ヤセク スタチャースキー
アントニウス カルカー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DTS Inc
Original Assignee
DTS Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DTS Inc filed Critical DTS Inc
Publication of JP2019531505A publication Critical patent/JP2019531505A/ja
Application granted granted Critical
Publication of JP7123911B2 publication Critical patent/JP7123911B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

オーディオ信号の冗長性を利用することによって符号化利得を高めることは、オーディオコーデックにおける基本概念である。オーディオ信号は、長期の冗長性(又は周期性)及び短期の冗長性を含む様々な程度の冗長性を示し、これらの冗長性は、主に音声信号において見いだされる。図1は、オーディオ信号の長期予測及び短期予測の背後にある概念を示している。このような冗長性を除去又は低減することは、残留信号を符号化するのに必要なビット数の低減をもたらす(元の信号を符号化するのと比較して)。音声コーデックは、通常、両方のタイプの冗長性を除去して、符号化利得を最大にするための予測器を含む。変換ベースのコーデックは、一般的なオーディオ信号用に設計されており、通常、その発生源について推測するものでない。このコーデックは、主に長期冗長性に焦点を当てている。変換コーデックでは、残留信号は、より低いエネルギーを有し且つより疎である変換ベクトルをもたらす。これにより、量子化法機構が変換係数を効率的に表すことがより容易になる。
この概要は、詳細な説明において以下で更に説明する概念を選択したものを単純な形で紹介するために提示される。この概要は、特許請求される主題の主要な特徴又は必須の特徴を識別するためのものではなく、特許請求される主題の範囲を限定するのに使用されるものでもない。
本明細書に記載される周波数領域長期予測システム及び方法の実施形態は、オーディオコーデックとの関連で最適な長期予測器を推定してこれを適用するための新規の技法を含む。具体的には、本システム及び方法の実施形態は、スペクトル平坦度尺度に基づく最適性基準を有する周波数領域解析を使用して単一タップ予測器のパラメータ(遅延及び利得など)を決定する段階を含む。本システム及び方法の実施形態は更に、様々なサブバンドの量子化におけるベクトル量子化器の性能を考慮することによって、言い換えると、ベクトル量子化誤差をスペクトル平坦度と組み合わせることによって、長期予測器のパラメータを決定する段階を含む。幾つかの実施形態では、他のエンコーダメトリック(信号調性など)が同様に使用される。本システム及び方法の別の実施形態は、予測器及び合成フィルタの再構築誤差などのデコーダ動作の一部を考慮することによって長期予測器の最適パラメータを決定する段階を含む。幾つかの実施形態において、この段階は、合成による完全な解析(幾つかの古典的な手法において見られるような)を行う代わりに行われる。本システム及び方法の更に別の実施形態は、1タップ予測器をプリセットフィルタで畳み込み、最小エネルギー基準に基づいてこのようなプリセットフィルタのテーブルから選択することによって、1タップ予測器をk次予測器に拡張する段階を含む。
実施形態は、オーディオ信号を符号化するためのオーディオ符号化システムを含む。本システムは、オーディオ信号をフィルタリングするのに使用される適応フィルタと、該適応フィルタによって使用される適応フィルタ係数とを有する長期線形予測器を含む。適応フィルタ係数は、該オーディオ信号の窓掛けされた時間信号の解析に基づいて決定される。本システムの実施形態は更に、窓掛けされた時間信号を周波数領域で表して、オーディオ信号の周波数変換情報を得る周波数変換ユニットと、該周波数変換情報の解析及び周波数領域における最適性基準に基づいて最適な長期線形予測器を推定する最適長期予測器推定ユニットとを含む。本システムの実施形態は更に、符号化される窓掛けフレームの周波数変換係数を量子化して、量子化された周波数変換係数を生成する量子化ユニットと、量子化された周波数変換係数を含む符号化された信号とを含む。符号化された信号は、オーディオ信号を表現したものである。
実施形態は更に、オーディオ信号を符号化するための方法を含む。本方法は、適応フィルタである長期線形予測器を使用してオーディオ信号をフィルタリングする段階と、オーディオ信号に関する周波数変換情報を生成する段階とを含む。周波数変換情報は、窓掛けされた時間信号を周波数領域で表したものである。本方法は更に、周波数変換情報の解析及び周波数領域における最適性基準に基づいて最適な長期線形予測器を推定する段階と、符号化される窓掛けフレームの周波数変換係数を量子化して、量子化された周波数変換係数を生成する段階とを含む。本方法は更に、量子化された周波数変換係数を含む符号化された信号を構築する段階を含み、符号化された信号は、オーディオ信号を表現したものである。
別の実施形態は、オーディオ信号の符号化の際に1タップ予測器フィルタをk次予測器フィルタに拡張するための方法を含む。本方法は、事前に計算されたフィルタ形状を含む予測器フィルタ形状テーブルから選択されたフィルタ形状で1タップ予測器フィルタを畳み込み、結果として生じるk次予測器フィルタを得る段階を含む。方法は更に、結果として生じるk次予測器フィルタをオーディオ信号に対して実行して出力信号を得る段階と、結果として生じるk次予測器フィルタの出力信号のエネルギーを計算する段階とを含む。本方法は更に、出力信号のエネルギーを最小にする最適フィルタ形状をテーブルから選択する段階と、最適フィルタ形状を含む結果として生じるk次予測器フィルタをオーディオ信号に適用する段階とを含む。
特定の実施形態に応じて、代替の実施形態が可能であり、本明細書に記載されるステップ及び要素は、変更、追加、又は削除することができることに留意されたい。これらの代替の実施形態は、本発明の範囲から逸脱することなく、使用できる代替ステップ及び代替要素、並びに実施できる構造上の変更を含む。
ここで、全体を通して同様の参照符号が対応の要素を示す図面を参照する。
オーディオ信号の長期予測及び短期予測の背後にある概念を示す。 開ループ手法の全体的な動作を示すブロック図である。 閉ループ手法の全体的な動作を示すブロック図である。 変換ベースのオーディオコーデックにおける長期予測器の例示的な使用法を示すブロック図である。 閉ループアーキテクチャの例示的な実施例を示す図である。 高調波オーディオ信号のセグメントの時間及び周波数変換を示す図である。 周波数領域の長期予測システム及び方法の実施形態の全体的ブロック図である。 周波数領域長期予測方法の実施形態の全体的なフローチャートである。 他のエンコーダメトリックと組み合わせた周波数ベースの基準を使用する周波数領域長期予測方法の別の実施形態の全体的なフローチャートである。 周波数ベースのスペクトル平坦度がデコーダにおける再構成誤差を考慮した他の因子と組み合わせることができる場合の代替の実施形態を示す図である。 時間内の2つの連続フレームが、図10に示されている実施形態の一部分の動作を実行することを示す図である。 単一タップ予測器を3次予測器に変換することを示す図である。
周波数領域長期予測システム及び方法の実施形態についての以下の説明では、添付図面を参照する。これらの図面は、周波数領域長期予測システム及び方法の実施形態がどのように実施できるかについての具体例を例証として示す。特許請求される主題の範囲から逸脱することなく、別の実施形態が利用でき、構造上の変更が実施できることが理解される。
全体的概要
従来の手法では、予測器の係数は、時間領域解析によって決定される。これは、通常、残留信号のエネルギーを最小にすることを伴う。このことは、所与の解析時間窓にわたって正規化された自己相関関数を最大にする遅延(L)を探索することにつながる。方程式の行列システムを解くことによって、予測器の利得が得られる。行列のサイズは、フィルタの次数(k)の関数である。行列のサイズを小さくするために、サイドタップが対称であると想定されることが多い。例えば、このことは、行列のサイズをサイズ3からサイズ2に、又はサイズ5からサイズ3に小さくする。
実際のオーディオコーデックでは、時間領域自己相関法に基づいて遅延(又は信号の周期性)を推定することは、特別な配慮を必要とする。これらの技法に共通する幾つかの問題は、ピッチ倍増及び半減である。これらの問題は、知覚性能又は符号化利得に重大な影響を与える場合がある。これらの欠点を軽減するために、幾つかの代替手法及び発見的方法が採用されることが多い。これらの方法は、例えば、ケプストラム解析を使用すること、又は全ての可能性のある倍数を網羅的に探索することを含む。高次の予測器の場合、複数のタップを推定することは、実際には保証されない逆行列演算を必要とする。従って、多くの場合、中心タップ(L)のみを推定し、次いで、幾つかの最適性基準に基づいて限定されたセットからサイドタップを選択する方法を見つけることが望ましい。
開ループアーキテクチャ対閉ループアーキテクチャ
開ループ手法では、予測器の推定は、元の(符号化されていない)信号を解析することによって行われる。図2は、開ループ手法の全体的な動作を示すブロック図である。この手法は、元のオーディオ信号200を入力して、元のオーディオ信号の解析を実行する(ボックス210)。次に、最適な長期予測器(LTP)パラメータが、幾つかの基準に基づいて選択される(ボックス220)。これらの選択されたパラメータは、信号に適用され(ボックス230)、結果として生じる信号が、符号化されて送出される(ボックス240)。結果として生じる信号は、元のオーディオ信号200の符号化された表現である符号化オーディオ信号250である。
閉ループ手法では、エンコーダは、デコーダの動作の一部又は全部を複製し、可能性のあるパラメータ選択肢の各々に対して信号を再合成する。図3は、閉ループ手法の全体的な動作を示すブロック図である。開ループ手法と同様に、閉ループ手法は、元のオーディオ信号200を入力して、元のオーディオ信号の解析を実行する(ボックス300)。この解析は、エンコーダに対応するデコーダをシミュレート又は模擬すること(ボックス310)を含む。最適な長期予測器(LTP)パラメータが、幾つかの基準に基づいて選択され(ボックス320)、これらの選択されたパラメータが、信号に適用される(ボックス330)。最適な長期予測器パラメータの選択は、「復号された」信号と元のオーディオ信号200との間の知覚的に重み付けされた誤差をどれが最小にするかに基づいている。結果として生じる信号は、符号化されて送出される(ボックス340)。結果として生じる信号は、元のオーディオ信号200の符号化された表現である符号化オーディオ信号350である。
変換ベースのオーディオコーデックにおける長期予測器
変換ベースのオーディオコーデックは、通常、修正離散コサイン変換(MDCT)又は他のタイプの周波数変換を使用して、所与のオーディオフレームを符号化及び量子化する。また、本明細書で使用される「変換ベース」という語句は、サブバンドベース又は重複変換ベースのコーデックを含む。これらの各々は、幾つかの形態の周波数変換を伴うが、当業者には理解されるように、窓重ね合わせを伴う場合もあり、又は伴わない場合もある。
図4は、変換ベースのオーディオコーデックにおける長期予測器の例示的な使用法を示すブロック図である。長期予測器は、窓掛け及び周波数変換の前に時間領域信号に適用される。図4を参照すると、変換ベースのオーディオコーデック400は、エンコーダ405及びデコーダ410を含む。オーディオ信号に対応する入力サンプル412は、エンコーダ405によって受け取られる。時間相関解析ブロック415は、オーディオ信号の周期を推定する。ハイパスフィルタリングなどの他の時間領域処理417が、信号に対して実行することができる。
長期予測器の最適パラメータは、最適パラメータ推定ブロック420により、時間相関解析ブロック415の解析結果に基づいて推定される。この推定された長期予測器422が出力される。長期予測器はフィルタであり、これらのパラメータは、時間領域処理ブロック417から到来するデータに適用することができる。
窓関数425及び様々な変換(MDCT427など)が信号に適用される。量子化器430は、様々なスカラー及びベクトル量子化技法を使用して、予測器パラメータ及びMDCT係数を量子化する。この量子化されたデータは準備されて、ビットストリーム435としてエンコーダ405から出力される。
ビットストリーム435は、デコーダ410に送信され、ここでエンコーダ405と逆の動作が行われる。デコーダは、量子化されたデータを復元する逆量子化器440を含む。このデータは、時間領域に変換される逆MDCT係数450及び予測パラメータを含む。窓掛け処理455が信号に適用されて、エンコーダ405側の長期予測器に対する逆フィルタである長期合成器460が、信号に適用される。逆時間領域処理ブロック465は、エンコーダ405において時間領域処理ブロック417によって実行される何らかのフィルタリングの逆処理を実行する。デコーダ410の出力は、復号された入力オーディオ信号に対応する出力サンプル470である。この復号されたオーディオ信号は、ラウドスピーカ又はヘッドホンを通じて再生することができる。
開ループアーキテクチャでは、最適予測器の推定は、時間信号の何らかの解析に基づいて行われ、場合によっては、エンコーダからの他のメトリックを考慮して行われる。遅延(L)は、元の時間信号の正規化された自己相関の最大化に基づいて推定される。更に、予測器フィルタは、L及びL+1における自己相関値の関数に基づいて推定される2つのタップ(B1及びB2)を含む。また、時間信号のセンタクリッピングなどの他の様々な詳細を提供することができる。
開ループアーキテクチャの別の実施例は、プレフィルタ及びポストフィルタという用語が、それぞれ長期予測器フィルタと合成フィルタとを指すのに使用される場合のものである。この手法における相違点は、長期予測器(推定並びにフィルタリングの両方)が、エンコーダ及びデコーダの残りの部分から取り除かれることである。従って、パラメータの推定は、エンコーダの動作モードとは無関係であり、元の時間信号の解析にのみ基づいている。長期予測フィルタ(プリフィルタと呼ばれる)の出力は、エンコーダに送られる。エンコーダは、あらゆるタイプのものであり、任意のビットレートで動作することができる。同様に、デコーダの出力は、長期予測合成フィルタ(ポストフィルタと呼ばれる)に送られ、これは、デコーダの動作モードとは無関係に動作する。
閉ループアーキテクチャでは、デコーダ動作の一部(又は全部)が、エンコーダにおいて複製されて、コスト関数又は最適化関数のより正確な推定を提供する。予測器係数は、幾つかの最大化基準に基づいて計算される。加えて、フィードバックループは、合成による解析手法に基づいて選択肢を改良するのに使用される。図5は、閉ループアーキテクチャの一例を示している。このような手法は、時間サンプル(デコーダが生成したであろう)を再合成するために完全な逆量子化及び逆周波数変換がエンコーダにおいて再現される場合のものである。これらのサンプルは、LTP係数の最適推定に使用される。
図5を参照すると、閉ループアーキテクチャベースのコーデック500が示されている。このコーデックは、エンコーダ510及びデコーダ520を含む。模擬デコーダ525は、フィードバックループにおいて、エンコーダ510側でデコーダ520を複製するのに使用される。この模擬デコーダ525は、周波数係数を生成する逆量子化ブロック530を含む。次に、これらの係数は、周波数-時間ブロック535によって時間領域に変換し戻される。ブロック535の出力は、復号された時間サンプルである。最適パラメータ推定ブロック540は、復号された時間サンプルを入力された時間サンプル550と比較する。次に、ブロック540は、入力された時間サンプル540と復号された時間サンプルとの間の誤差を最小にする最適な長期予測器パラメータセット555を生成する。
窓関数560は、時間信号に窓を適用し、時間-周波数ブロック565は、この信号を時間領域から周波数領域に変換する。量子化ブロック570は、様々なスカラー及びベクトル量子化技法を使用して、予測器パラメータ及び周波数係数を量子化する。この量子化されたデータは準備されて、エンコーダ510から出力される。
デコーダ520は、量子化されたデータを復元する逆量子化ブロック580を含む。この量子化されたデータ(周波数係数及び予測パラメータなど)は、周波数-時間ブロック585によって時間領域に変換される。エンコーダ510側の長期予測器に対する逆フィルタである長期合成器590が、信号に適用される。
システム及び動作概要
本明細書に記載される周波数領域長期予測システム及び方法の実施形態は、オーディオコーデックとの関連で最適な長期予測器を推定してこれを適用するための技法を含む。変換コーデックでは、時間領域サンプルではなく、周波数変換係数(MDCTなど)が、ベクトル量子化されるものである。従って、変換領域において、これらの係数の量子化を改善する基準に基づいて最適予測器を探索することが適切である。
周波数領域長期予測システム及び方法の実施形態は、基準又は尺度として様々なサブバンドのスペクトル平坦度を使用することを含む。典型的なコーデックでは、スペクトルは、何らかの対称又は知覚スケールに従って帯域に分割され、各帯域の係数は、最小平均二乗誤差(又は最小mse)基準に基づいてベクトル量子化される。
音調オーディオ信号のスペクトルは、様々な音調周波数にピークを有する顕著な高調波構造を有する。図6は、高調波オーディオ信号のセグメントの時間及び周波数変換を示している。図6を参照すると、第1のグラフ600は、音調オーディオ信号の窓(又はセグメント)である。第2のグラフ610は、第1のグラフ600に示されている音調オーディオ信号の対応する周波数領域振幅スペクトルを示している。第2のグラフ610内の垂直方向の破線は、オーディオ符号化において一般的に使用される知覚スケールに基づく典型的な周波数帯域の境界を示している。
同時に1つの帯域を考慮すると、幾つかの小さな非高調波値に加えて、1又は2以上の主要ピークが存在する可能性がある。従って、当該帯域の平坦度尺度は低い。最小平均二乗誤差に基づくベクトル量子化は、高いピークの方が、より低い値よりも誤差ノルムに対する寄与が大きいので、高いピークを優先することになる。利用可能なビットに応じて、VQは、当該帯域内のより小さい係数を見落とす可能性があるので、結果的として大きな量子化ノイズが生じる。
周波数領域長期予測システム及び方法の幾つかの実施形態は、スペクトル帯域にわたって平坦度尺度を最大にすることに少なくとも基づいて、長期予測器に関する最適な遅延を選択する。同様に、幾つかの実施形態では、所与の最適遅延に対する予測器の利得は、ベクトル量子化器の量子化誤差を考慮に入れる。このことは、大きな予測利得が、より微弱な周波数係数を有意に減衰させる可能性があるという観測に基づいている。低ビットレートにおいて、特に、強い高調波信号に対しては、これは、より微弱な高調波の一部が、ベクトル量子化器によって完全に見落とされことになり、結果として、知覚される高調波歪みが生じる場合がある。従って、予測器の利得は、少なくともベクトル量子化器の量子化誤差の関数となる。
周波数領域長期予測システム及び方法の実施形態は、オーディオコーデックの関連で最適な長期予測器を推定してこれを適用するための技法を含み、以下に詳述される。幾つかの実施形態は、周波数領域解析を使用して単一タップ予測器の遅延及び利得パラメータを決定する。これらの実施形態では、最適性基準は、スペクトル平坦度尺度に基づいている。幾つかの実施形態は、様々なサブバンドの量子化においてベクトル量子化器の性能を考慮することによって長期予測器パラメータを決定する。言い換えると、これらの実施形態は、ベクトル量子化誤差をスペクトル平坦度並びに他のエンコーダメトリック(信号調性など)と組み合わせる。本システム及び方法の幾つかの実施形態は、予測器及び合成フィルタの再構成誤差を含むデコーダ動作の一部を考慮することによって、長期予測器の最適パラメータを決定する。これにより、幾つかの旧知の手法において見られるような、合成による完全な解析を実行することが回避される。幾つかの実施形態は、1タップ予測器をプリセットフィルタで畳み込み、最小エネルギー基準に基づいてこのようなプリセットフィルタのテーブルから選択することによって、1タップ予測器をk次予測器に拡張する。
III.システム及び動作の詳細
ここで、周波数領域長期予測システム及び方法の詳細を説明する。多くの変形形態が可能であり、当業者は、本明細書の開示内容に基づいて同じ結果を達成することができる他の多くの方法を理解するであろうことに留意されたい。
定義
予測誤差信号は、その基本的な形式において、次式で与えられる。
Figure 0007123911000001
ここで、「s(n)」は入力オーディオ信号、「L」は信号の周期性(又は遅延(L))であり、「b」は予測器利得である。
予測器は、その伝達関数が次式で与えられる、フィルタとして表現することができる。
Figure 0007123911000002
任意の次数(K)に関する一般化形式は、次式で表すことができる。
Figure 0007123911000003
周波数ベースの最適性基準
図7は、周波数領域長期予測システム700及び方法の実施形態の全体的ブロック図である。システム700は、エンコーダ705及びデコーダ710の両方を含む。図7に示されるシステム700は、オーディオコーデックであることに留意されたい。しかしながら、オーディオコーデックでない他のタイプのコーデックを含む、本方法の他の実装形態が可能である。
図7に示されているように、エンコーダ705は、長期予測器を生成する長期予測(LTP)ブロック715を含む。LTPブロック715は、入力オーディオ信号の入力サンプル722に対して時間周波数解析を実行する時間周波数解析ブロック720を含む。時間周波数解析は、ODFTなどの周波数変換を適用すること、次いで、当該スペクトルの何らかのサブバンド分割に基づいてODFT振幅スペクトルの平坦度尺度を計算することを伴う。
また、入力サンプル722が第1の時間領域(TD)処理ブロック724によって使用されて、入力サンプル722の時間領域処理を実行する。幾つかの実施形態では、時間領域処理は、プリエンファシスフィルタを使用することを伴う。第1のベクトル量子化器726は、長期予測器の最適利得を決定するのに使用される。この第1のベクトル量子化器は、最適利得を決定するために第2のベクトル量子化器730と並列に使用される。
システム700は更に、長期予測器の係数を決定する最適パラメータ推定ブロック735を含む。この処理について以下に説明する。この推定の結果は、所与の次数Kの実際の長期予測器フィルタである長期予測器740である。
ビット割り当てブロック745は、各サブバンドに割り当てられるビット数を決定する。第1の窓ブロック750は、周波数領域への変換の前に様々な窓形状を時間信号に適用する。修正離散コサイン変換(MDCT)ブロック755は、時間信号を周波数領域に変換する典型的なコーデックで使用されるタイプの周波数変換のうちの1つの実施例である。第2のベクトル量子化器730は、MDCT係数のベクトルをコードブック(又は他の何らかの圧縮された表現)から取り出されたベクトルで表す。
エントロピー符号化ブロック760は、これらのパラメータを利用して、これらのパラメータを符号化されたビットストリーム765に符号化する。符号化されたビットストリーム765は、デコーダ710に送信されて復号される。エントロピー復号ブロック770は、符号化されたビットストリーム765から全てのパラメータを抽出する。逆ベクトル量子化ブロック772は、エンコーダ705の第1の量子化器726及び第2のベクトル量子化器730のプロセスの逆の処理を行う。逆MDCTブロック775は、エンコーダ705で使用されるMDCTブロック755に対する逆変換である。
第2の窓ブロック780は、エンコーダ705で使用される第1の窓ブロック750と同様の窓関数を実行する。長期合成器785は、長期予測器740の逆フィルタである。第2の時間領域(TD)処理ブロック790は、エンコーダ705において適用される処理(例えば、デエンファシスなど)の逆を行う。デコーダ710の出力は、復号された入力オーディオ信号に対応する出力サンプル795である。この復号されたオーディオ信号は、ラウドスピーカ又はヘッドホンを通じて再生することができる。
図8は、周波数領域長期予測方法の実施形態の全体的なフローチャートである。図8は、長期予測器の最適パラメータを生成するために行われる様々な動作を示している。図8を参照すると、本動作は、入力オーディオ信号の入力サンプル800を受け取ることから始まる。次に、奇数DFT(ODFT)変換が、「N」個の点にわたる、信号の窓掛けセクションに適用される(ボックス810)。この変換は、次式で定義される。
Figure 0007123911000004
(式1)
ここで、「k」及び「n」は、それぞれ周波数及び時間インデックスであり、「N」は、シーケンス長である。変換を適用する前に、正弦窓(1)が、時間信号に適用される。
Figure 0007123911000005
(式2)
次に、本方法は、ピークピッキングを実行する(ボックス820)。ピークピッキングは、時間信号における正弦波成分の周波数に対応する振幅スペクトルのピークを識別することを含む。単純なピークピッキング機構は、特定の高さを上回る極大値の位置を特定し、隣接ピークとの相対的な関係に特定の条件を設けることを伴う。所与のビン「lo」は、このビンが、変曲点であり、すなわち、
Figure 0007123911000006
(式3)
であり、特定の閾値を上回り、すなわち、
Figure 0007123911000007
(式4)
であり、その次の隣接点よりも大きい、すなわち、
Figure 0007123911000008
(式5)
である場合に、ピークとみなされる。信号は、[50Hz:3kHz]の周波数間隔に対応するピークを探索される。「Thr」の値は、X(k)の最大値に対して選択することができる。
次の動作は、分数周波数推定である(ボックス830)。時間領域における遅延「L」は、周波数領域における対応するピークにより表すことができる。ピーク(ビン単位での「lo」)が識別されると、分数周波数(「dl」)を推定する必要がある。これを行うための様々な方法が存在する。一度可能な機構は、このピークを生じさせた正弦波が、時間領域において次式のようにモデル化されると仮定することである。
Figure 0007123911000009
(式6)
次に、周波数ピーク(lo)の分数周波数は、次式、すなわち、
Figure 0007123911000010
(式7)
を使用して、ビン「lo」の周りの振幅の比を考慮することによって推定され、ここで、Gは、固定値に設定するか又はデータに基づいて計算できる定数である。
[50Hz:3kHz]の周波数間隔に含まれる全ての遅延(lo+dl)が考慮され(ボックス840)、これらの正規化された自己相関が計算される。この計算は、時間領域等価遅延(L)に基づいており、
Figure 0007123911000011

であり、ここで、
Figure 0007123911000012
(式8)
であり、x(n)は入力時間信号である。正規化された相関値が所与の閾値より大きいこれらの遅延は、保持されて候補遅延のセットになる。
本方法は、周波数領域における周波数フィルタ(又は予測フィルタ)の構築(ボックス850)に進む。フィルタ(所与の時間遅延「L」及び利得「b」に関する)をODFT振幅点に適用するために、このフィルタの周波数応答関数が導出される。単一タップ予測器のz変換、
Figure 0007123911000013
及び
Figure 0007123911000014
である状態で
Figure 0007123911000015
(式9)
を考慮すると、
Figure 0007123911000016
(式10)
が得られる。所与の周波数ピーク(ビン単位での「lo」)及びその分数周波数(dl)に関して、時間の遅延「L」は、周波数を単位として次式のように記述でき、
Figure 0007123911000017
(式11)
従って、このピークに基づく予測器フィルタの振幅応答は、
Figure 0007123911000018
(式12)
である。
次に、フィルタが、ODFTスペクトルに適用される(ボックス860)。具体的には、次に、上記で計算されたフィルタが、ODFTスペクトルS(k)点に直接適用されて、新しいフィルタリングされたODFTスペクトルX(k)が得られる。
Figure 0007123911000019
(式13)
本方法は、次に、スペクトル平坦度尺度を計算する(ボックス870)。スペクトル平坦度尺度は、候補フィルタを元のスペクトルに適用した後、フィルタリングされたスペクトルのODFT振幅スペクトルに対して計算される。一般に認められている何らかのスペクトル平坦度尺度が使用できる。例えば、エントロピーベースの尺度が使用できる。スペクトルは、知覚帯域に分割され(例えば、バーク尺度に従って)、平坦度尺度は、各帯域(n)に関して次式のように計算され、
Figure 0007123911000020
(式14)
ここで、ビン「k」における正規化された振幅値は、
Figure 0007123911000021
(式15)
であり、「K」は、帯域内のビンの総数である。
本方法は、次に、最適化関数を使用し(ボックス880)、最適化(又はコスト)関数を最小にする長期予測器(又はフィルタ)を見つけるように反復する。単純な最適化関数は、スペクトル全体に関する単一の平坦度尺度からなる。次に、スペクトル平坦度尺度F(X)の線形値が、全ての帯域にわたって平均化されて、単一の尺度、すなわち、
Figure 0007123911000022
(式16)
が得られ、ここで、「B」は帯域数であり、Wn(X)は、エネルギーに基づいて、又は単純に周波数軸上でのこれらの帯域の次数に基づいて、ある帯域を他の帯域よりも強調する重み付け関数である。
周波数ベースの基準を他のエンコーダメトリックと組み合わせて使用する実施形態
図9は、周波数ベースの基準を他のエンコーダメトリックと組み合わせて使用する周波数領域長期予測方法の別の実施形態の全体的なフローチャートである。これらの代替の実施形態では、最適化関数を決定する際に、VQ量子化誤差が考慮され、更に場合によっては、フレーム調性のような他のメトリックが考慮される。このことは、長期予測器(LTP)がVQ演算に与える影響を考慮するために行われる。以下に詳述するように、VQ誤差を平坦度尺度と組み合わせるための幾つかの方法が存在する。
これらの実施形態では、ODFTスペクトルは、最初にMDCTスペクトルに変換される。次に、VQが、このMDCTスペクトル内の個々の帯域に適用される。使用されるビット割り当ては、エンコーダ内の別のブロックから得られる。
図9を参照すると、ボックス810、820、830、840、850、860、及び870の動作は、図8に関して上述されている。ブロック900は、これらの実施形態における方法への追加内容を概説している。ブロック900は、実行されるビット割り当て(ボックス910)を含み、様々な基準に基づいてサブバンドにわたってビットを割り当てるのにコーデックにおいて使用される様々な機構を含む。
本方法は、次に、ODFTから修正離散コサイン変換(MDCT)への変換を実行する(ボックス920)。具体的には、ODFTスペクトルは、以下の関係式を使用してMDCTスペクトルに変換され、
Figure 0007123911000023
(式17)
Figure 0007123911000024
(式18)
ここで、X0(k)は、ODFTスペクトル値である。
次に、本方法は、エンコーダで計算されたビット割当量を使用して、MDCTスペクトルにベクトル量子化を適用する(ボックス930)。各サブバンドは、ベクトル又は一連のベクトルとして量子化される。その結果は、量子化誤差である(ボックス940)。本方法は、次に、平坦度尺度をVQ誤差と組み合わせて最適化関数を適用する(ボックス950)。具体的には、最適化関数は、平坦度尺度をVQ誤差に基づく重み付けと組み合わせることによって導出される。本方法は、組み合わせた最適化(又はコスト)関数を最小にするフィルタパラメータを見つけるように反復する。
幾つかの実施形態では、各サブバンドに関するVQ誤差は、ある帯域を他の帯域よりも強調する重み付け関数として使用される。従って、平坦度は、重み付けされ、次に、平均化され、
Figure 0007123911000025
(式19)
であり、ここで、Wn(x)は、MDCTにおけるn番目の帯域に関するVQ誤差の関数である。
別の実施形態では、VQ誤差は、最適利得を選択するのに使用される。所与の遅延「L」に関連する利得は、正規化自己相関関数NR(L)から計算される。最適な遅延が決定されると(平坦度尺度に基づいて)、対応する利得は、VQ(重み付けされた)量子化誤差を最小にする因子によって反復的に縮小又は拡大される。
代替の実施形態では、VQ誤差は、利得の上限値を生成するのに使用される。この上限値は、非常に高い利得が、スペクトルの特定のセクションに、VQがこのセクションを量子化する下限を下回らせる可能性がある場合の実施形態のためのものである。この状況は、低ビットレート中、VQ誤差が大きい場合、特に、VQ誤差が音調性の高いコンテンツにおいて顕著である場合に、生じる。従って、フレーム「n」における利得の上限は、フレーム調性及び平均VQ誤差の関数として決定される。数学的には、この上限は、次式のように与えられる。
Figure 0007123911000026
デコーダ再構築を伴う最適化基準を有する実施形態
図10は、周波数ベースのスペクトル平坦度を、デコーダにおける再構成誤差を考慮に入れた他の因子と組み合わせることができる場合の代替の実施形態を示している。これは、例えば、2又は3以上の遅延が同じ平坦度尺度を有する可能性がある場合に生じる。追加因子、すなわち、以前のフレームにおける以前の遅延から現在のフレームにおける可能性のある遅延の各々への移行コストが考慮される。
図10に示されている実施形態では、LTPのフィルタ係数は、フレーム毎に1回推定される。従って、フィルタ(エンコーダ及びデコーダの両方における)には、10から20ミリ秒毎に異なる係数セットがロードされる。このことは、可聴不連続性を引き起こす可能性がある。例えばクロスフェード機構などの様々な機構が、フィルタ出力における移行を平滑化するのに使用できる。
図10を参照すると、最適なパラメータセットを探索する間、フィルタは、時間領域で構築されて入力に適用される(ボックス1000)。同様に、これらの実施形態では、復号時、デコーダの逆フィルタが模擬され(ボックス1010)、出力と入力との間の再構成誤差が、候補遅延の各々に関して計算される。この誤差は次に、平坦度尺度と組み合わされて、最適化関数が得られる(ボックス1020)。
より具体的には、図11は、時間内の2つの連続フレームが、図10におけるボックス1000及び1010の動作を実行することを示している。図11に示されているように、各フレーム(フレームN-1及びフレームN)に関する異なる候補フィルタ係数セットが、セクション1100に示されている。セクション1110に示されるように、移行を平滑化するために、フィルタ出力は、時間Dnの間、クロスフェードされる。選択される可能性のある2つのフィルタセットが、現在のフレーム(フレームN)に存在することができる。各セットは、現在のフィルタに適用され、クロスフェード動作は、エンコーダ側(セクション1110に図示)及びデコーダ側(セクション1120に図示)に対して行われる。結果として生じる出力は、元の出力と比較される。一組の係数セットは、この再構成誤差を最小にすることに基づいて選択される。
K次予測器への拡張
高次予測器の場合、複数のタップを推定することは、逆行列演算を必要とし、実際には保証されない。従って、多くの場合、中心(又は単一)のタップ(L)のみを推定し、次に、幾つかの最適性基準に基づいて、限定されたセットからサイドタップを選択する方法を見つけることが望ましい。実用システムにおける一般的な解決策の幾つかは、事前に計算されたフィルタ形状のテーブルを提供して、これらのうちの1つを、上記で計算された単一タップフィルタで畳み込むことである。例えば、フィルタ形状がそれぞれ3タップである場合には、このことは、図12に示されるように3次予測器をもたらすことになる。
図12は、単一タップ予測器を3次予測器に変換することを示している。図12を参照すると、一次予測器は、テーブル1210からの可能性のあるフィルタ形状のうちの1つで畳み込まれて(1200)、三次予測器が得られる。これらの実施形態では、Mの可能性のあるフィルタ形状からなるテーブルが使用され、結果として生じる残差の出力エネルギーを最小にすることに基づいて、選択が行われる。Mの形状からなるテーブルが、様々なオーディオコンテンツのスペクトルエンベロープのマッチングに基づいて、オフラインで生成される。1タップフィルタが、上述したように決定されると、Mのフィルタ形状の各々が畳み込まれて、k次フィルタが生成される。このフィルタが入力信号に適用されて、フィルタの残差(出力)のエネルギーが計算される。エネルギーを最小にする形状が、最適条件として選択される。この決定は、例えばヒステリシスを用いて更に平滑化されて、信号エネルギーの大きな変化が生じないようになる。
IV.代替の実施形態及び例示的な動作環境
周波数領域長期予測システム及び方法の代替の実施形態が可能である。本明細書で記載されるもの以外の他の多くの変形形態は、本明細書から明らかであろう。例えば、実施形態によっては、本明細書で説明した何らかの方法及びアルゴリズムの特定の動作、事象、又は機能は、異なる順序で実行することができ、追加、統合、又は完全に省略することができる(従って、ここで説明する全ての動作又は事象が、本方法及びアルゴリズムの実施に必要であるとは限らない)。更に、特定の実施形態において、動作又は事象は、連続的ではなく、例えば、マルチスレッド処理、割り込み処理、又はマルチプロセッサ若しくはプロセッサコアによって、或いは他の並列アーキテクチャ上で実行することができる。加えて、様々なタスク又は処理は、一緒に機能することができる異なるマシン及びコンピューティングシステムによって実行することができる。
本明細書で開示する実施形態に関連して説明された様々な例示的な論理ブロック、モジュール、方法、並びにアルゴリズム処理及び手順は、電子ハードウェア、コンピュータソフトウェア、又はこれら両方の組み合わせとして実装することができる。ハードウェア及びソフトウェアのこの互換性について明確に例証するために、上記では、様々な例示的構成要素、ブロック、モジュール、及び処理動作は、これらの機能性に関して一般的に説明されている。このような機能性をハードウェアとして実施するか又はソフトウェアとして実施するか否かは、特定の用途及びシステム全体に課された設計上の制約条件に依存する。記載された機能性は、特定の用途の各々に関して異なる方法で実施できるが、このような実施の決定が、本明細書の範囲からの逸脱を生じさせると解釈すべきではない。
本明細書で開示される実施形態に関連して説明した様々な例示的な論理ブロック及びモジュールは、汎用プロセッサ、処理デバイス、1又は2以上の処理デバイスを有するコンピューティングデバイス、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、又は他のプログラム可能論理デバイス、離散ゲート若しくはトランジスタ論理回路、離散ハードウェア構成要素、又は本明細書に記載される機能を実行するよう設計されたこれらの何れかの組み合わせなどのマシンによって実施又は実行することができる。汎用プロセッサ及び処理デバイスは、マイクロプロセッサとすることができるが、代替形態では、プロセッサは、コントローラ、マイクロコントローラ、又は状態マシン、これらの組み合わせ、又は同様のものとすることができる。また、プロセッサは、DSPとマイクロプロセッサとの組み合わせ、複数のマイクロプロセッサ、DSPコアと連動する1又は2以上のマイクロプロセッサ、又は他の何らかのこのような構成などの、コンピューティングデバイスの組み合わせとして実施することもできる。
本明細書に記載の周波数領域長期予測システム及び方法の実施形態は、多くのタイプの汎用又は専用コンピューティングシステム環境又は構成内で動作可能である。一般に、コンピューティング環境は、限定されるものではないが、幾つかの例を挙げると、1又は2以上のマイクロプロセッサ、メインフレームコンピュータ、デジタル信号プロセッサ、携帯用コンピューティングデバイス、パーソナルオーガナイザ、デバイスコントローラ、電気製品内部の計算エンジン、携帯電話、デスクトップコンピュータ、モバイルコンピュータ、タブレットコンピュータ、スマートフォン、及び組込型コンピュータを備えた電気製品に基づくコンピュータシステムを含むあらゆるタイプのコンピュータシステムを含むことができる。
このようなコンピューティングデバイスは、通常、限定されるものではないが、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドコンピューティングデバイス、ラップトップ又はモバイルコンピュータ、携帯電話及びPDAなどの通信デバイス、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラム可能な家庭用電化製品、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、オーディオ又はビデオメディアプレーヤ、及びその他を含む、少なくとも何らかの最低限の計算能力を有するデバイスに見つけることができる。幾つかの実施形態において、コンピューティングデバイスは、1又は2以上のプロセッサを含むことになる。各プロセッサは、デジタル信号プロセッサ(DSP)、超長命令語(VLIW)、又は他のマイクロコントローラなどの特殊なマイクロプロセッサとすること、或いは、マルチコアCPU内の特殊なグラフィックス処理ユニット(GPU)ベースのコアを含む、1又は2以上の処理コアを有する従来型中央処理ユニット(CPU)とすることができる。
本明細書で開示する実施形態に関連して説明した方法、プロセス、又はアルゴリズムの処理動作は、ハードウェアで直接、プロセッサによって実行されるソフトウェアモジュールで、又はこれら2つの何れかの組み合わせで具現化することができる。ソフトウェアモジュールは、コンピューティングデバイスがアクセスできるコンピュータ可読媒体に含めることができる。コンピュータ可読媒体は、取り外し可能、取り外し不可能の何れかである揮発性及び不揮発性媒体、又はこれらの何らかの組み合わせを含む。コンピュータ可読媒体は、コンピュータ可読命令又はコンピュータ実行可能命令、データ構造、プログラムモジュール、又は他のデータなどの情報を格納するのに使用される。限定されるものではなく例として、コンピュータ可読媒体は、コンピュータストレージ媒体及び通信媒体を含むことができる。
コンピュータストレージ媒体は、限定ではないが、Bluray(登録商標)ディスク(BD)、デジタル多用途ディスク(DVD)、コンパクトディスク(CD)、フロッピーディスク、テープドライブ、ハードドライブ、光学ドライブ、ソリッドステートメモリデバイス、RAMメモリ、ROMメモリ、EPROMメモリ、EEPROMメモリ、フラッシュメモリ、又は他のメモリ技術、磁気カセット、磁気テープ、磁気ディスクストレージ、又は他の磁気ストレージデバイス、或いは所望の情報を格納するのに使用可能で1又は2以上のコンピューティングデバイスによってアクセス可能な何らかの他のデバイスなどの、コンピュータ又はマシン可読媒体又はストレージデバイスを含む。
ソフトウェアは、RAMメモリ、フラッシュメモリ、ROMメモリ、EPROMメモリ、EEPROMメモリ、レジスタ、ハードディスク、取り外し可能ディスク、CD-ROM、又は当該技術で公知の非一時的コンピュータ可読ストレージ媒体、メディア、又は物理コンピュータストレージの何らかの他の形態で存在することができる。例示的なストレージ媒体は、プロセッサがストレージ媒体から情報を読み出して、この媒体に情報を書き込むことができるように、プロセッサに結合することができる。代替形態では、ストレージ媒体は、プロセッサと一体化することができる。プロセッサ及びストレージ媒体は、特定用途向け集積回路(ASIC)内に存在することができる。ASICは、ユーザ端末内に存在することができる。代替的に、プロセッサ及びストレージ媒体は、ユーザ端末内の個別構成要素として存在することができる。
本明細書で使用される「非一時的」という語句は、「永続的又は長寿命」を意味する。「非一時的コンピュータ可読媒体」という語句は、任意の及び全てのコンピュータ可読媒体を含み、唯一の例外は一時的な伝搬信号である。この語句は、限定ではなく例証として、レジスタメモリ、プロセッサキャッシュ、及びランダムアクセスメモリ(RAM)などの非一時的コンピュータ可読媒体を含む。
「オーディオ信号」という語句は、物理的なサウンドを表す信号である。オーディオ信号を構築する一つの方法は、物理的なサウンドを取り込むことによる。オーディオ信号は、リスナーがオーディオコンテンツを聴取できるように、再生デバイス上で再生されて、物理的なサウンドが生成される。再生デバイスは、電子信号を解釈してこの信号を物理的なサウンドに変換することができる任意のデバイスとすることができる。
また、コンピュータ可読命令又はコンピュータ実行可能命令、データ構造、プログラムモジュールなどのような情報の保持は、1又は2以上の変調データ信号、電磁波(搬送波など)、又は他の伝送機構若しくは通信プロトコルを符号化するための様々な通信媒体を使用して実現することもでき、何らかの有線又は無線情報配信機構を含む。一般に、これらの通信媒体は、信号内の情報又は命令を符号化するような方法で設定又は変更される信号特性のうちの1又は2以上を有する信号を参照する。例えば、通信媒体は、1又は2以上の変調データ信号を搬送する有線ネットワーク又は直接有線接続などの有線媒体と、音響、無線周波数(RF)、赤外線、レーザなどの無線媒体と、1又は2以上の変調データ信号又は電磁波を送信、受信、又は送受信するための他の無線媒体とを含む。上記の何れかの組み合わせは、同様に、通信媒体の範囲内に含まれるはずである。
更に、本明細書に記載のエネルギー平滑化を伴う変換ベースのコーデック及び方法の様々な実施形態の一部又は全部を具現化するソフトウェア、プログラム、コンピュータプログラム製品のうちの1つ又は何れかの組み合わせ、或いはこれの一部分は、コンピュータ実行可能命令又は他のデータ構造の形式で、コンピュータ又はマシン可読媒体又はストレージデバイス及び通信媒体の任意の所望の組み合わせに格納、受信、送信、又はそこから読み出すことができる。
本明細書に記載の、エネルギー平滑化を伴う変換ベースのコーデック及び方法の実施形態は更に、コンピューティングデバイスによって実行されるプログラムモジュールなどのコンピュータ実行可能命令という一般的状況で説明することができる。一般に、プログラムモジュールは、特定のタスクを実行するか又は特定の抽象データタイプを実装する、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含む。また、本明細書で説明した実施形態は、1又は2以上のリモート処理デバイスによって、又は1又は2以上のデバイスのクラウド内でタスクが実行される分散コンピューティング環境で実施することもでき、これらのデバイスは、1又は2以上の通信ネットワークを通じてリンクされる。分散コンピューティング環境では、プログラムモジュールは、メディアストレージデバイスを含む、ローカル及びリモートの両方のコンピュータストレージ媒体内に配置することができる。更に、上述した命令は、プロセッサを含むことがあるか又はプロセッサを含まないこともあるハードウェア論理回路として部分的に又は全体的に実装することができる。
本明細書で使用する条件語、とりわけ、「できる(can)」、「してよい(might)」、「できる(may)」、「例えば(e.g.)」、及び同様のものは、別途明確に言及されていない限り、又は使用される文脈でそれ以外に理解されない限り、一般に、特定の実施形態が、特定の特徴、要素、及び/又は状態を含むが、他の実施形態は、これらを含まないことを伝えることを意図している。従って、このような条件語は、一般に、特徴、要素、及び/又は状態が、1又は2以上の実施形態にとって必ず必要であることを示唆するものでなく、作成者の入力又は指示があってもなくても、これらの特徴、要素、及び/又は状態が含まれるか又は何れかの特定の実施形態で実行されるか否かを決定するためのロジックを、1又は2以上の実施形態が必ず含むことを示唆するものでもない。「備える(comprising)」、「含む(including)」、「有する(having)」という用語、及び同様のものは、同義であり、包含的にオープンエンド方式で使用され、追加の要素、特徴、動作、操作、及びその他を除外するものではない。また、「又は」という用語は、包括的な意味で(排他的意味ではなく)使用され、従って、例えば、要素のリストを結び付けるのに使用される際に、「又は」という用語は、リスト内の要素のうちの1つ、幾つか、又は全てを意味する。
上記の詳細な説明は、様々な実施形態に適用される新規性のある特徴を示し、説明し、指摘するが、本開示の趣旨から逸脱することなく、様々な省略、置換、及び変更が、例証されたデバイス又はアルゴリズムの形式及び詳細において実施できることが理解されるであろう。認識されるように、一部の特徴は、他の特徴から切り離して使用又は実施することができるので、本明細書に記載される本発明の特定の実施形態は、本明細書に示した特徴及び利点の全てを提供するとは限らない形態の範囲内で具現化することができる。
更に、本主題は、構造的特徴及び方法論的動作に特有の用語で説明してきたが、添付の請求項で規定される主題は、上記で説明した特定の特徴又は動作に必ずしも限定されるものではないことを理解されたい。そうではなく、上記で説明した特定の特徴及び動作は、請求項を実施する例示的な形態として開示される。

Claims (15)

  1. オーディオ信号を符号化するためのオーディオ符号化システムであって、
    窓掛けされた時間信号を周波数領域で表して、前記オーディオ信号の周波数変換を得る周波数変換ユニットと、
    前記周波数変換の解析及び前記周波数領域における最適性基準に基づいて長期予測器係数を推定する最適長期予測器推定ユニットと、
    時間領域において前記オーディオ信号をフィルタリングする長期予測器であって、前記周波数領域において前記最適長期予測器推定ユニットにより実行される解析から推定される前記長期予測器係数である係数を用いる適応フィルタである、長期予測器と、
    符号化される窓掛けフレームの周波数変換係数を量子化して、量子化された周波数変換係数を生成する量子化ユニットと、
    前記量子化された周波数変換係数を含み、前記オーディオ信号を表現したものである符号化された信号と、
    を備える、ことを特徴とするオーディオ符号化システム。
  2. 前記最適長期予測器推定ユニットは更に、前記量子化ユニットからの量子化誤差の解析に基づいて最適長期線形予測器を推定する段階を含む、請求項1に記載のオーディオ符号化システム。
  3. 1タップの最適長期線形予測器をk次長期線形予測器に拡張するのに使用される所定のフィルタ形状からなるフィルタ形状テーブルと、
    前記フィルタ形状テーブルから最適な前記フィルタ形状を選択する推定選択ユニットと、
    を更に備える、請求項1に記載のオーディオ符号化システム。
  4. 前記k次長期線形予測器の出力のエネルギーを最小にすることによって選択される最適フィルタ形状を更に備える、請求項3に記載のオーディオ符号化システム。
  5. オーディオ信号を符号化するための方法であって、
    前記オーディオ信号に関して、窓掛けされた時間信号を周波数領域で表す周波数変換を生成する段階と、
    前記周波数変換の解析及び前記周波数領域における最適性基準に基づいて長期予測器係数を推定する段階と、
    長期線形予測器を使用して時間領域において前記オーディオ信号をフィルタリングする段階であって、前記長期線形予測器は前記周波数領域における解析から推定される前記長期予測器係数である係数を用いる適応フィルタである、フィルタリングする段階と、
    符号化される窓掛けフレームの周波数変換係数を量子化して、量子化された周波数変換係数を生成する段階と、
    前記量子化された周波数変換係数を含み、前記オーディオ信号を表現したものである符号化された信号を構築する段階と、
    を含む、方法。
  6. 前記オーディオ信号の窓掛けされた時間信号の周波数解析に基づいて前記長期線形予測器に関する適応フィルタ係数を決定する段階を更に含む、請求項5に記載の方法。
  7. 前記周波数変換の解析及び前記周波数変換係数の量子化からの量子化誤差の両方に基づいて、最適長期線形予測器を推定する段階を更に含む、請求項5に記載の方法。
  8. 所定のフィルタ形状を含む予測器フィルタ形状テーブルを使用して、1タップの最適長期線形予測器をk次長期線形予測器に拡張する段階と、
    前記最適長期線形予測器で使用される最適フィルタ形状を前記予測器フィルタ形状テーブルから選択する段階と、
    を更に含む、請求項5に記載の方法。
  9. 前記最適フィルタ形状を選択する段階は更に、前記k次長期線形予測器の出力のエネルギーを最小にするフィルタ形状を前記予測器フィルタ形状テーブルから選択する段階を含む、請求項8に記載の方法。
  10. 前記長期線形予測器は、1タップ長期線形予測器であり、前記方法は更に、前記1タップ長期線形予測器に関する遅延及び利得パラメータを推定する段階を含む、請求項5に記載の方法。
  11. 前記窓掛けされた時間信号における主要高調波成分に対応する、周波数振幅スペクトル内の主要ピークを決定して、前記主要ピークの各々に関する分数周波数を計算する段階と、
    前記主要ピーク及び前記分数周波数の正規化された相関値を計算し、前記正規化された相関値が閾値より大きい遅延を候補遅延のセットとする段階と、
    をさらに含む、請求項10に記載の方法。
  12. 前記主要ピークのサブセットに基づいて前記周波数領域における候補フィルタのセットを構築して、前記候補フィルタのセットを前記周波数振幅スペクトルに適用して、結果として生じる変換スペクトルを生成する段階と、
    前記最適性基準を最大にする最適フィルタ形状を選択する段階と、
    周波数解析で決定された前記遅延及び利得パラメータを時間領域の均等物に変換する段階と、
    前記遅延及び利得パラメータを含む最適長期線形予測器を前記時間領域で前記オーディオ信号に適用する段階と、
    を含み、
    周波数ベースの最適性基準が、前記候補フィルタを適用した後の前記結果として生じるスペクトルのスペクトル平坦度尺度であり、
    前記最適フィルタ形状は、前記遅延及び利得パラメータを含む、
    請求項11に記載の方法。
  13. 前記主要ピークのサブセットに基づいて前記周波数領域における候補フィルタのセットを構築して、前記候補フィルタのセットを前記周波数振幅スペクトルに適用して、結果として生じる変換スペクトルを生成する段階と、
    スカラー又はベクトル量子化器を使用して、前記結果として生じる変換スペクトルを量子化する段階と、
    選択されたビットレートについて量子化誤差の尺度を生成する段階と、
    量子化誤差尺度とスペクトル平坦度尺度との組み合わせに基づいて最適長期線形予測器を推定する段階と、
    を更に含む、請求項11に記載の方法。
  14. 前記量子化誤差及びフレーム調性尺度を使用して、前記最適長期線形予測器の利得に上限を設ける段階を更に含む、請求項13に記載の方法。
  15. デコーダにおける再構成誤差を最小にすることに基づいて前記最適長期線形予測器を推定する段階を更に含む、請求項14に記載の方法。
JP2019513764A 2016-09-09 2017-09-08 オーディオコーデックにおける長期予測のためのシステム及び方法 Active JP7123911B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201662385879P 2016-09-09 2016-09-09
US62/385,879 2016-09-09
PCT/US2017/050845 WO2018049279A1 (en) 2016-09-09 2017-09-08 System and method for long-term prediction in audio codecs

Publications (2)

Publication Number Publication Date
JP2019531505A JP2019531505A (ja) 2019-10-31
JP7123911B2 true JP7123911B2 (ja) 2022-08-23

Family

ID=61560927

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019513764A Active JP7123911B2 (ja) 2016-09-09 2017-09-08 オーディオコーデックにおける長期予測のためのシステム及び方法

Country Status (6)

Country Link
US (1) US11380340B2 (ja)
EP (1) EP3510595A4 (ja)
JP (1) JP7123911B2 (ja)
KR (1) KR102569784B1 (ja)
CN (1) CN110291583B (ja)
WO (1) WO2018049279A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113129913B (zh) * 2019-12-31 2024-05-03 华为技术有限公司 音频信号的编解码方法和编解码装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004348120A (ja) 2003-04-30 2004-12-09 Matsushita Electric Ind Co Ltd 音声符号化装置、音声復号化装置及びこれらの方法
JP2006514343A (ja) 2003-12-19 2006-04-27 モトローラ・インコーポレイテッド 音声符号化のための方法と装置
JP2011509426A (ja) 2008-01-04 2011-03-24 ドルビー・インターナショナル・アーベー オーディオエンコーダおよびデコーダ

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2095882A1 (en) * 1992-06-04 1993-12-05 David O. Anderton Voice messaging synchronization
US6298322B1 (en) 1999-05-06 2001-10-02 Eric Lindemann Encoding and synthesis of tonal audio signals using dominant sinusoids and a vector-quantized residual tonal signal
AU2012201692B2 (en) * 2008-01-04 2013-05-16 Dolby International Ab Audio Encoder and Decoder
US8738385B2 (en) 2010-10-20 2014-05-27 Broadcom Corporation Pitch-based pre-filtering and post-filtering for compression of audio signals
US9947331B2 (en) * 2012-05-23 2018-04-17 Nippon Telegraph And Telephone Corporation Encoding method, decoding method, encoder, decoder, program and recording medium
EP2951814B1 (en) * 2013-01-29 2017-05-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low-frequency emphasis for lpc-based coding in frequency domain
SG11201510513WA (en) 2013-06-21 2016-01-28 Fraunhofer Ges Forschung Method and apparatus for obtaining spectrum coefficients for a replacement frame of an audio signal, audio decoder, audio receiver and system for transmitting audio signals

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004348120A (ja) 2003-04-30 2004-12-09 Matsushita Electric Ind Co Ltd 音声符号化装置、音声復号化装置及びこれらの方法
JP2006514343A (ja) 2003-12-19 2006-04-27 モトローラ・インコーポレイテッド 音声符号化のための方法と装置
JP2011509426A (ja) 2008-01-04 2011-03-24 ドルビー・インターナショナル・アーベー オーディオエンコーダおよびデコーダ

Also Published As

Publication number Publication date
WO2018049279A1 (en) 2018-03-15
CN110291583B (zh) 2023-06-16
EP3510595A4 (en) 2020-01-22
CN110291583A (zh) 2019-09-27
JP2019531505A (ja) 2019-10-31
US11380340B2 (en) 2022-07-05
KR102569784B1 (ko) 2023-08-22
EP3510595A1 (en) 2019-07-17
US20180075855A1 (en) 2018-03-15
KR20190045327A (ko) 2019-05-02

Similar Documents

Publication Publication Date Title
RU2641224C2 (ru) Адаптивное расширение полосы пропускания и устройство для этого
JP5978218B2 (ja) 低ビットレート低遅延の一般オーディオ信号の符号化
JP6262668B2 (ja) 帯域幅拡張パラメータ生成装置、符号化装置、復号装置、帯域幅拡張パラメータ生成方法、符号化方法、および、復号方法
KR101792712B1 (ko) 주파수 도메인 내의 선형 예측 코딩 기반 코딩을 위한 저주파수 강조
RU2636126C2 (ru) Устройство для кодирования речевого сигнала с использованием acelp в автокорреляционной области
KR20220045260A (ko) 음성 정보를 갖는 개선된 프레임 손실 보정
JP7123911B2 (ja) オーディオコーデックにおける長期予測のためのシステム及び方法
JP7337966B2 (ja) ステレオエンコーディング方法及び装置、並びにステレオデコーディング方法及び装置
CA2914771C (en) Apparatus and method for audio signal envelope encoding, processing and decoding by modelling a cumulative sum representation employing distribution quantization and coding
CA2914418C (en) Apparatus and method for audio signal envelope encoding, processing and decoding by splitting the audio signal envelope employing distribution quantization and coding
US10950251B2 (en) Coding of harmonic signals in transform-based audio codecs
US20220392458A1 (en) Methods and system for waveform coding of audio signals with a generative model
CA3163373A1 (en) Switching between stereo coding modes in a multichannel sound codec
WO2018073486A1 (en) Low-delay audio coding

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200828

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210921

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211006

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20220106

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20220307

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220401

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220713

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220810

R150 Certificate of patent or registration of utility model

Ref document number: 7123911

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150