JP7432011B2 - 線形予測符号化パラメータの符号化方法および符号化装置 - Google Patents

線形予測符号化パラメータの符号化方法および符号化装置 Download PDF

Info

Publication number
JP7432011B2
JP7432011B2 JP2022565904A JP2022565904A JP7432011B2 JP 7432011 B2 JP7432011 B2 JP 7432011B2 JP 2022565904 A JP2022565904 A JP 2022565904A JP 2022565904 A JP2022565904 A JP 2022565904A JP 7432011 B2 JP7432011 B2 JP 7432011B2
Authority
JP
Japan
Prior art keywords
lpc
parameter
parameters
channels
lpc parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022565904A
Other languages
English (en)
Other versions
JP2023523074A (ja
Inventor
▲憲▼波 孟
丙寅 夏
▲哲▼ 王
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of JP2023523074A publication Critical patent/JP2023523074A/ja
Application granted granted Critical
Publication of JP7432011B2 publication Critical patent/JP7432011B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/087Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using mixed excitation models, e.g. MELP, MBE, split band LPC or HVXC
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本出願は、参照によりその全体が本明細書に組み入れられる、2020年4月28日付で中国国家知識産権局に出願された「LINEAR PREDICTION CODING PARAMETER CODING METHOD AND CODING APPARATUS」という名称の中国特許出願第202010349207.5号の優先権を主張するものである。
本出願は、通信技術の分野に関し、特に、線形予測符号化パラメータの符号化方法および符号化装置に関する。
オーディオ信号の効率的な記憶および伝送を容易にするために、オーディオエンコーダは、オーディオ信号を符号化ビットストリームに圧縮する必要がある。線形予測解析に基づく符号化アルゴリズムは、オーディオ信号に対して最も一般的に使用される符号化アルゴリズムの1つである。符号化アルゴリズムの主な原理は、符号化ビットレートを効果的に低減するために、オーディオ信号の短距離依存性を使用して線形予測符号化(linear prediction coding、LPC)パラメータを解決し、次いで線形予測フィルタを使用してオーディオ信号をフィルタリングすることである。LPCパラメータは、線形予測フィルタの数学的モデルパラメータであり、符号化において重要なパラメータの1つである。LPCパラメータ符号化方法はオーディオ信号符号化の品質に影響を及ぼし、LPCパラメータの符号化および伝送は特定のビットレートを占有する。
マルチチャネルオーディオ信号の場合、既存のLPCパラメータ符号化方法は、独立した符号化および参照符号化を含む。独立した符号化方式では、チャネル間のLPCパラメータの類似性は考慮されない。したがって、すべてのチャネルの量子化LPCパラメータ間に多くの冗長情報が存在し、高いビットレートが占有される。参照符号化方式では、チャネルのLPCパラメータに対して直接量子化符号化が最初に実行され、チャネルおよび別のチャネルのLPCパラメータに対して残差量子化符号化が別々に実行される。最後に、符号化効果に基づいて量子化符号化方式が決定され、LPCパラメータの最終量子化符号化結果が符号化ビットストリームに書き込まれる。
チャネルのLPCパラメータが参照符号化方式でエンコード化されるとき、符号化効果を比較して符号化方式を決定するために、残差量子化符号化を別のチャネルで別々に実行する必要がある。チャネル数が多いとき、残差量子化符号化の計算量が大きい。
本出願の実施形態は、線形予測符号化パラメータ符号化方法を提供し、チャネル間のLPCパラメータの冗長性を除去し、複数のチャネルのLPCパラメータの量子化符号化のために占有されるビット数を低減し、アルゴリズム計算の量を考慮しながら、チャネル間のLPCパラメータに対する参照量子化符号化の計算複雑度を低減する。
本出願の実施形態の第1の態様は、LPCパラメータ符号化方法を提供し、本方法は、オーディオ信号の少なくとも2つのチャネルの符号化対象LPCパラメータを取得するステップと、少なくとも2つのチャネルの符号化対象LPCパラメータから参照LPCパラメータを決定するステップであって、少なくとも2つのチャネルの符号化対象LPCパラメータのうちの参照LPCパラメータ以外のLPCパラメータは非参照LPCパラメータである、ステップと、参照LPCパラメータの直接符号化結果を取得するステップと、参照LPCパラメータに基づいて非参照LPCパラメータの残差を決定するステップと、参照LPCパラメータの直接符号化結果および残差に基づいて非参照LPCパラメータの残差符号化結果を決定するステップと、参照LPCパラメータの直接符号化結果および非参照LPCパラメータの残差符号化結果を符号化ビットストリームに書き込むステップと、を含む。
符号化対象LPCパラメータは、元のLPCパラメータ、高次元LPCパラメータ、または元のLPCパラメータが分割された後に取得された高次元LPCパラメータを含む。
本出願のこの実施形態で提供されるLPCパラメータ符号化方法は、マルチチャネルオーディオ信号のLPCパラメータ符号化に適用される。複数のチャネルのLPCパラメータから参照LPCパラメータが決定され、直接符号化結果を取得するために参照LPCパラメータに対して直接符号化が実行され、残差符号化結果を取得するために、参照LPCパラメータに基づいて非参照LPCパラメータに対して参照符号化が実行される。したがって、非参照LPCパラメータについては、異なる参照LPCパラメータに基づく複数の方式の間の選択は不要である。これにより、計算量を低減し、符号化効率を向上させることができる。
加えて、チャネル間のLPCパラメータの類似性は、参照符号化によって考慮される。これにより、すべてのチャネルの量子化LPCパラメータ間の冗長情報が削減され、占有ビット数が削減される。
第1の態様の可能な実装形態では、少なくとも2つのチャネルの符号化対象LPCパラメータから参照LPCパラメータを決定するステップは、少なくとも2つのチャネルの符号化対象LPCパラメータ内にあり、参照LPCパラメータとして直接量子化符号化のために最小ビット数を必要とするLPCパラメータを決定するステップを含む。
本出願のこの実施形態で提供されるLPCパラメータ符号化方法によれば、パラメータの直接量子化符号化に必要なビット数を比較することによって、複数のLPCパラメータから参照LPCパラメータが選択される。これにより、参照LPCパラメータの直接量子化符号化に必要なビット数を削減することができる。
第1の態様の可能な実装形態では、少なくとも2つのチャネルの符号化対象LPCパラメータは、少なくとも3つのチャネルの符号化対象LPCパラメータを含む。少なくとも2つのチャネルの符号化対象LPCパラメータから参照LPCパラメータを決定するステップは、少なくとも3つのチャネルの符号化対象LPCパラメータの各LPCパラメータと別のLPCパラメータとの差の絶対値を取得するステップと、各LPCパラメータと他のLPCパラメータとの差の絶対値の平均値を取得するステップと、LPCパラメータ内の、差の絶対値の最小平均値を有するLPCパラメータを、参照LPCパラメータとして決定するステップと、を含む。
本出願のこの実施形態で提供されるLPCパラメータ符号化方法によれば、少なくとも3つのチャネルのLPCパラメータから参照LPCパラメータを決定する具体的な実装形態が提供される。具体的には、他のLPCパラメータとの差が最小であるLPCパラメータが参照LPCパラメータとして選択される。最小の差を有するLPCパラメータを選択することにより、非参照LPCパラメータに対して実行される参照量子化符号化中の歪みを低減し、LPCパラメータ量子化符号化のために占有されるビット数を低減することができる。
第1の態様の可能な実装形態では、差は、平均二乗誤差またはコサイン距離を含む。
本出願のこの実施形態で提供されるLPCパラメータ符号化方法によれば、LPCパラメータ間の差を計算するための2つの具体的な方法が提供される。これにより、解決策の実施の柔軟性が向上する。
第1の態様の可能な実装形態では、オーディオ信号は複数のチャネルを含み、方法は、オーディオ信号の複数のチャネルの符号化対象LPCパラメータをグループ化することによって複数のパラメータグループを決定するステップをさらに含む。複数のパラメータグループのうちの1つは少なくとも2つのチャネルの符号化対象LPCパラメータを含み、複数のパラメータグループ内のLPCパラメータには交差がない。複数のチャネルは少なくとも4つのチャネルを含み、複数のパラメータグループは少なくとも2つのパラメータグループを含む。
本出願のこの実施形態で提供されるLPCパラメータ符号化方法は、主に、大量のチャネルを有するオーディオ信号に適用される。複数のチャネルのLPCパラメータが最初にグループ化され、各LPCパラメータグループから1つの参照LPCパラメータが選択され、参照LPCパラメータに基づいてグループ内の非参照LPCパラメータに対して参照符号化が実行される。同じLPCパラメータに基づいてすべてのチャネルのLPCパラメータに対して実行される参照符号化と比較して、歪みを低減することができる。任意選択で、各パラメータセットは少なくとも2つのLPCパラメータを含む。
第1の態様の可能な実装形態では、オーディオ信号の複数のチャネルの符号化対象LPCパラメータをグループ化することによって複数のパラメータグループを決定するステップは、オーディオ信号の複数のチャネルのチャネル番号に基づいて複数のパラメータグループを決定するステップ、または、オーディオ信号の複数のチャネルの各々に対応するスピーカの位置に基づいて複数のパラメータグループを決定するステップを含む。
本出願のこの実施形態で提供されるLPCパラメータ符号化方法によれば、複数のチャネルのLPCパラメータがグループ化されるとき、グループ化の特定の実装形態を提供するために、チャネル番号またはチャネルに対応するスピーカ位置に基づいてグループ化が実行され得る。これにより、解決策の実施の柔軟性が向上する。
第1の態様の可能な実装形態では、オーディオ信号の複数のチャネルの符号化対象LPCパラメータをグループ化することによって複数のパラメータグループを決定するステップは、複数のパラメータグループを決定するために、オーディオ信号の複数のチャネルの符号化対象LPCパラメータをクラスタリングするステップを含む。
本出願のこの実施形態で提供されるLPCパラメータ符号化方法によれば、クラスタリング方法を使用してすべてのチャネルのLPCパラメータに基づいてグループ化が実行される。取得された複数のパラメータグループは、同様のLPCパラメータを有する。これにより、参照符号化の歪みを低減し、参照符号化に必要なビット数を低減し、参照符号化の符号化効果を向上させることができる。
第1の態様の可能な実装形態では、複数のパラメータグループを決定するために、オーディオ信号の複数のチャネルの符号化対象LPCパラメータをクラスタリングするステップは、複数のチャネルの符号化対象LPCパラメータからM個のLPCパラメータを決定するステップであって、M個のLPCパラメータ間の差の絶対値の平均値は、複数のチャネルのLPCパラメータのうちの任意のM個のLPCパラメータ間の差の絶対値の平均値以上であり、M個のLPCパラメータは、M個のパラメータグループのクラスタリングセンタであり、Mは予め設定された値である、ステップと、M個のパラメータグループを決定するために、M個のクラスタリングセンタに基づいてクラスタリングを実行するステップであって、M個のパラメータグループ内の第1のパラメータグループ内の第1のLPCパラメータと第2のLPCパラメータとの差の絶対値は、第1のLPCパラメータと第3のLPCパラメータとの差の絶対値よりも小さく、第2のLPCパラメータは、第1のパラメータグループのクラスタリングセンタであり、第3のLPCパラメータは、第2のパラメータグループのクラスタリングセンタであり、第1のパラメータグループおよび第2のパラメータグループは、M個のパラメータグループ内の任意の2つの異なるパラメータグループである、ステップと、を含む。
M個のLPCパラメータ間の差は、M個のLPCパラメータのいずれか2つの差を含み、M個のLPCパラメータ間の差の絶対値の平均値は、M×(M-1)/2個の差値の絶対値の平均値である。
本出願のこの実施形態で提供されるLPCパラメータ符号化方法によれば、複数のチャネルのLPCパラメータをM個の予め設定されたグループにグループ化するための特定のクラスタリング方法が提供される。具体的には、最大の差を有するM個のLPCパラメータが最初にクラスタリングセンタとして決定され、次いで、クラスタリングセンタからの最小の差を有する他のLPCパラメータが同じグループにグループ化される。このように、グループ内のLPCパラメータ間の差は小さい。これにより、参照符号化の歪みを低減し、参照符号化に必要なビット数を低減し、参照符号化の符号化効果を向上させることができる。
第1の態様の可能な実装形態では、オーディオ信号の少なくとも2つのチャネルの符号化対象LPCパラメータを取得するステップは、高次元LPCパラメータグループおよび低次元LPCパラメータグループを取得するために、オーディオ信号の少なくとも2つのチャネルの元のLPCパラメータを分割するステップを含む。高次元LPCパラメータグループは、少なくとも2つのチャネルの符号化対象LPCパラメータを含むか、または低次元LPCパラメータグループは、少なくとも2つのチャネルの符号化対象LPCパラメータを含む。任意選択で、高次元LPCパラメータセット内のLPCパラメータの次元は、低次元LPCパラメータセット内のLPCパラメータの次元と同じである。
本出願のこの実施形態で提供されるLPCパラメータ符号化方法によれば、すべてのオーディオ信号の元のLPCパラメータは次元に基づいて分割されてもよく、取得された高次元LPCパラメータグループおよび低次元LPCパラメータグループは別々に符号化される。これにより、符号化方式の選択の柔軟性が向上する。例えば、マルチチャネルオーディオ信号の高次元LPCパラメータが高度に類似しており、低次元LPCパラメータが大きく異なるシナリオでは、高次元LPCパラメータグループに対して参照符号化が実行されてもよく、低次元LPCパラメータグループに対して直接符号化が実行される。符号化方式の選択は、実際の適用シナリオと一致する。これにより、参照符号化の符号化効果が向上する。
第1の態様の可能な実装形態では、オーディオ信号は複数のチャネルを含み、オーディオ信号の少なくとも2つのチャネルの符号化対象LPCパラメータを取得するステップは、高次元LPCパラメータグループおよび低次元LPCパラメータグループを取得するために、オーディオ信号の複数のチャネルの元のLPCパラメータを分割するステップと、高次元LPCパラメータグループ内のLPCパラメータをグループ化することによって複数の高次元パラメータグループを取得するステップであって、複数の高次元パラメータグループのうちの1つは少なくとも2つのチャネルの符号化対象LPCパラメータを含み、複数の高次元パラメータグループ内のLPCパラメータには交差がない、ステップ、または、低次元LPCパラメータグループ内のLPCパラメータをグループ化することによって複数の低次元パラメータグループを取得するステップであって、複数の低次元パラメータグループのうちの1つは少なくとも2つのチャネルの符号化対象LPCパラメータを含み、複数の低次元パラメータグループ内のLPCパラメータには交差がない、ステップと、を含む。複数のチャネルは少なくとも4つのチャネルを含み、複数の高次元パラメータグループは少なくとも2つのパラメータグループを含み、複数の低次元パラメータグループは少なくとも2つのパラメータグループを含む。
本出願のこの実施形態で提供されるLPCパラメータ符号化方法によれば、高次元LPCパラメータグループおよび低次元LPCパラメータグループを取得するために、すべてのオーディオ信号の元のLPCパラメータが次元に基づいて分割される。オーディオ信号のチャネル数が多い場合、複数のチャネルのうちの高次元LPCパラメータグループ内のLPCパラメータはさらにグループ化されてもよいし、低次元LPCパラメータグループ内のLPCパラメータはさらにグループ化されてもよい。LPCパラメータを分割し、LPCパラメータをグループ化することにより、実際の符号化要件を満たすことができ、参照符号化の符号化効果を向上させることができる。
第1の態様の可能な実装形態では、少なくとも2つのチャネルのLPCパラメータから参照LPCパラメータを決定するステップの前に、方法は、少なくとも2つのチャネル内の2つのチャネルごとのLPCパラメータ間の差の絶対値が予め設定された閾値以下であると決定するステップをさらに含む。2つのチャネルのLPCパラメータ間の差は、平均二乗誤差の平均値または2つのチャネルのLPCパラメータ間のコサイン距離の平均値を含む。任意選択で、少なくとも2つのチャネル内の2つのチャネルのLPCパラメータ間の差の絶対値が予め設定された閾値より大きい場合、非参照LPCパラメータの直接符号化結果を取得するために、非参照LPCパラメータに対して直接符号化が実行され、直接符号化結果が符号化ビットストリームに書き込まれる。
本出願のこの実施形態で提供されるLPCパラメータ符号化方法によれば、予め設定された条件が満たされたときに参照符号化が実行される。予め設定された条件は、LPCパラメータ間の差が予め設定された閾値以下であることである。差分の小さいLPCパラメータに対して参照符号化が実行される。これにより、量子化符号化結果が占有するビット数を削減することができる。
第1の態様の可能な実装形態では、参照LPCパラメータの直接符号化結果および非参照LPCパラメータの残差符号化結果を符号化ビットストリームに書き込むステップの前に、本方法は、非参照LPCパラメータの直接符号化結果を取得するステップと、第1の歪みと第2の歪みとの差が第1の予め設定された閾値以下であると決定するステップと、をさらに含む。第1の歪みは、非参照LPCパラメータに対する非参照LPCパラメータの残差符号化結果の歪みであり、第2の歪みは、非参照LPCパラメータに対する非参照LPCパラメータの直接符号化結果の歪みである。任意選択で、第1の歪みと第2の歪みとの差が第1の予め設定された閾値より大きい場合、非参照LPCパラメータの直接符号化結果を取得するために、非参照LPCパラメータに対して直接符号化が実行され、直接符号化結果が符号化ビットストリームに書き込まれる。
本出願のこの実施形態で提供されるLPCパラメータ符号化方法によれば、非参照LPCパラメータに対して参照符号化が実行される前に、予め設定された条件が満たされる必要がある。具体的には、非参照LPCパラメータに対して実行される参照符号化の歪みと、非参照LPCパラメータに対して実行される直接符号化の歪みとの差は、第1の予め設定された閾値以下である。これにより、参照符号化の歪みが制限される。参照符号化の歪みが第1の予め設定された閾値より大きい場合、符号化結果は直接符号化方式で取得され得る。これは、この解決策におけるLPCパラメータ符号化の効果を保証することができる。
第1の態様の可能な実装形態では、参照LPCパラメータの直接符号化結果および非参照LPCパラメータの残差符号化結果を符号化ビットストリームに書き込むステップの前に、本方法は、第1のビット数と第2のビット数との差が第2の予め設定された閾値よりも大きいと決定するステップをさらに含む。第1のビット数は、非参照LPCパラメータを直接符号化するために必要なビット数であり、第2のビット数は、参照LPCパラメータの直接符号化結果および残差に基づいて非参照LPCパラメータを符号化するために必要なビット数である。任意選択で、第1のビット数と第2のビット数との差が第2の予め設定された閾値未満である場合、非参照LPCパラメータの直接符号化結果を取得するために、非参照LPCパラメータに対して直接符号化が実行され、直接符号化結果が符号化ビットストリームに書き込まれる。
本出願のこの実施形態で提供されるLPCパラメータ符号化方法によれば、非参照LPCパラメータに対して参照符号化が実行される前に、別の予め設定された条件がさらに満たされる必要がある。具体的には、直接符号化と比較して、参照符号化は特定の数のビットを節約することができる。したがって、参照符号化を選択することにより、LPC量子化符号化結果のビット数を削減することができる。予め設定された条件を満たすことができない場合、非参照LPCパラメータに対して直接符号化が実行される。
本出願の実施形態の第2の態様は、オーディオ信号の少なくとも2つのチャネルの符号化対象LPCパラメータを取得するように構成された取得ユニットと、少なくとも2つのチャネルの符号化対象LPCパラメータから参照LPCパラメータを決定するように構成された決定ユニットであって、少なくとも2つのチャネルの符号化対象LPCパラメータのうちの参照LPCパラメータ以外のLPCパラメータは非参照LPCパラメータであり、取得ユニットは、参照LPCパラメータの直接符号化結果を取得するようにさらに構成され、決定ユニットは、参照LPCパラメータに基づいて非参照LPCパラメータの残差を決定するようにさらに構成され、決定ユニットは、参照LPCパラメータの直接符号化結果および残差に基づいて、非参照LPCパラメータの残差符号化結果を決定するようにさらに構成される、決定ユニットと、参照LPCパラメータの直接符号化結果および非参照LPCパラメータの残差符号化結果を符号化ビットストリームに書き込むように構成された処理ユニットと、を含む符号化装置を提供する。
第2の態様の可能な実装形態では、決定ユニットは、少なくとも2つのチャネルの符号化対象LPCパラメータ内にあり、参照LPCパラメータとして直接量子化符号化のための最小ビット数を必要とするLPCパラメータを決定するように特に構成される。
第2の態様の可能な実装形態では、少なくとも2つのチャネルの符号化対象LPCパラメータは、少なくとも3つのチャネルの符号化対象LPCパラメータを含む。取得ユニットは、少なくとも3つのチャネルの符号化対象LPCパラメータ内の各LPCパラメータと別のLPCパラメータとの差の絶対値を取得し、各LPCパラメータと他のLPCパラメータとの差の絶対値の平均値を取得するように特に構成される。決定ユニットは、LPCパラメータ間の差の絶対値の最小平均値を有するLPCパラメータを参照LPCパラメータとして決定するように特に構成される。
第2の態様の可能な実装形態では、差は、平均二乗誤差またはコサイン距離を含む。
第2の態様の可能な実装形態では、オーディオ信号は複数のチャネルを含み、決定ユニットは、オーディオ信号の複数のチャネルの符号化対象LPCパラメータをグループ化することによって複数のパラメータグループを決定するようにさらに構成される。複数のパラメータグループのうちの1つは少なくとも2つのチャネルの符号化対象LPCパラメータを含み、複数のパラメータグループ内のLPCパラメータには交差がない。
第2の態様の可能な実装形態では、決定ユニットは、オーディオ信号の複数のチャネルのチャネル番号に基づいて複数のパラメータグループを決定するか、または、オーディオ信号の複数のチャネルの各々に対応するスピーカの位置に基づいて複数のパラメータグループを決定するように特に構成される。
第2の態様の可能な実装形態では、決定ユニットは、複数のパラメータグループを決定するために、オーディオ信号の複数のチャネルの符号化対象LPCパラメータをクラスタリングするように特に構成される。
第2の態様の可能な実装形態では、決定ユニットは、複数のチャネルの符号化対象LPCパラメータからM個のLPCパラメータを決定し、M個のLPCパラメータ間の差の絶対値の平均値は、複数のチャネルのLPCパラメータ内の任意のM個のLPCパラメータ間の差の絶対値の平均値以上であり、M個のLPCパラメータは、M個のパラメータグループのクラスタリングセンタであり、Mは予め設定された値であり;M個のパラメータグループを決定するために、M個のクラスタリングセンタに基づいてクラスタリングを実行するように特に構成される。M個のパラメータグループ内の第1のパラメータグループ内の第1のLPCパラメータと第2のLPCパラメータとの差の絶対値は、第1のLPCパラメータと第3のLPCパラメータとの差の絶対値よりも小さく、第2のLPCパラメータは、第1のパラメータグループのクラスタリングセンタであり、第3のLPCパラメータは、第2のパラメータグループのクラスタリングセンタであり、第1のパラメータグループおよび第2のパラメータグループは、M個のパラメータグループ内の任意の2つの異なるパラメータグループである。
第2の態様の可能な実装形態では、取得ユニットは、高次元LPCパラメータグループおよび低次元LPCパラメータグループを取得するために、オーディオ信号の少なくとも2つのチャネルの元のLPCパラメータを分割するように特に構成される。高次元LPCパラメータグループは、少なくとも2つのチャネルの符号化対象LPCパラメータを含むか、または低次元LPCパラメータグループは、少なくとも2つのチャネルの符号化対象LPCパラメータを含む。
第2の態様の可能な実装形態では、オーディオ信号は複数のチャネルを含み、取得ユニットは、高次元LPCパラメータグループおよび低次元LPCパラメータグループを取得するために、オーディオ信号の複数のチャネルの元のLPCパラメータを分割し;かつ、高次元LPCパラメータグループ内のLPCパラメータをグループ化することによって複数の高次元パラメータグループを取得し、複数の高次元パラメータグループのうちの1つは少なくとも2つのチャネルの符号化対象LPCパラメータを含み、複数の高次元パラメータグループ内のLPCパラメータには交差がないか;または、低次元LPCパラメータグループ内のLPCパラメータをグループ化することによって複数の低次元パラメータグループを取得し、複数の低次元パラメータグループのうちの1つは少なくとも2つのチャネルの符号化対象LPCパラメータを含み、複数の低次元パラメータグループ内のLPCパラメータには交差がない、ように特に構成される。
第2の態様の可能な実装形態では、決定ユニットは、少なくとも2つのチャネル内の2つのチャネルごとのLPCパラメータ間の差の絶対値が予め設定された閾値以下であると決定するようにさらに構成される。2つのチャネルのLPCパラメータ間の差は、平均二乗誤差の平均値または2つのチャネルのLPCパラメータ間のコサイン距離の平均値を含む。
第2の態様の可能な実装形態では、取得ユニットは、非参照LPCパラメータの直接符号化結果を取得するようにさらに構成される。決定ユニットは、第1の歪みと第2の歪みとの差が第1の予め設定された閾値以下であると決定するようにさらに構成される。第1の歪みは、非参照LPCパラメータに対する非参照LPCパラメータの残差符号化結果の歪みであり、第2の歪みは、非参照LPCパラメータに対する非参照LPCパラメータの直接符号化結果の歪みである。
第2の態様の可能な実装形態では、決定ユニットは、第1のビット数と第2のビット数との差が第2の予め設定された閾値以上であると決定するようにさらに構成される。第1のビット数は、非参照LPCパラメータを直接符号化するために必要なビット数であり、第2のビット数は、参照LPCパラメータの直接符号化結果および残差に基づいて非参照LPCパラメータを符号化するために必要なビット数である。
本出願の実施形態の第3の態様は、プロセッサおよびメモリを含む符号化装置を提供する。プロセッサおよびメモリは互いに接続され、メモリはコンピュータプログラムを格納するように構成され、コンピュータプログラムはプログラム命令を含み、プロセッサはプログラム命令を呼び出して、第1の態様および可能な実装形態のいずれか1つによる方法を実行するように構成される。
本出願の実施形態の第4の態様は、命令を含むコンピュータプログラム製品を提供する。コンピュータプログラム製品がコンピュータ上で実行されると、コンピュータは、第1の態様および可能な実装形態のいずれか1つによる方法を実行することが可能になる。
本出願の実施形態の第5の態様は、命令を含むコンピュータ可読記憶媒体を提供する。命令がコンピュータ上で実行されると、コンピュータは、第1の態様および可能な実装形態のいずれか1つによる方法を実行することが可能になる。
本出願の実施形態の第6の態様は、第1の態様および可能な実装形態のいずれか1つによる方法を使用して取得された符号化ビットストリームを含む、コンピュータ可読記憶媒体を提供する。
本出願の実施形態の第7の態様は、プロセッサを含むチップを提供する。プロセッサは、前述の態様のいずれか1つの任意の可能な実装形態による方法を実行するために、メモリに格納されたコンピュータプログラムを読み出して実行するように構成される。任意選択で、チップはメモリを含み、メモリとプロセッサとは回路または配線を使用して接続される。さらに、任意選択で、チップは通信インターフェースをさらに含み、プロセッサは通信インターフェースに接続される。通信インターフェースは、処理される必要があるデータおよび/または情報を受信するように構成される。プロセッサは、通信インターフェースからデータおよび/または情報を取得し、データおよび/または情報を処理し、通信インターフェースを介して処理結果を出力する。通信インターフェースは入力/出力インターフェースであってもよい。
本出願の実施形態の第8の態様は、プロセッサおよび通信インターフェースを含む符号化装置を提供する。プロセッサは、通信インターフェースを介してコンピュータプログラムを読み出して格納し、コンピュータプログラムはプログラム命令を含み、プロセッサは、第1の態様および可能な実装形態のいずれか1つによる方法を実行するために、プログラム命令を呼び出すように構成される。
本出願の実施形態の第9の態様は、プロセッサおよびメモリを含む符号化装置を提供する。プロセッサは、第1の態様および可能な実装形態のいずれか1つによる方法を実行するように構成され、メモリは、符号化ビットストリームを格納するように構成される。
本出願の実施形態は、線形予測符号化パラメータ符号化方法を提供し、本方法の有益な効果は以下の通りである。
複数のLPCパラメータから参照LPCパラメータが決定され、参照LPCパラメータに基づいて非参照チャネルのLPCパラメータに対して参照符号化が実行され得る。複数の参照LPCパラメータに基づいて参照符号化が実行される従来技術と比較して、計算量を低減することができる。
加えて、符号化方法は、チャネル間のLPCパラメータの冗長性を除去し、複数のチャネルのLPCパラメータに対する量子化符号化のために占有されるビット数を低減し、アルゴリズム計算の量を考慮しながら、チャネル間のLPCパラメータに対する参照量子化符号化の計算複雑度を低減することができる。
線形予測解析に基づく典型的なマルチチャネルオーディオ符号化フレームワークの概略図である。 マルチチャネルオーディオ信号のLPCパラメータのための直接量子化符号化方法の概略図である。 マルチチャネルオーディオ信号のLPCパラメータのための参照量子化符号化方法の別の概略図である。 本出願の一実施形態による端末側で適用されるシステムアーキテクチャの概略図である。 本出願の一実施形態によるワイヤレスまたはコアネットワーク側で適用されるシステムアーキテクチャの概略図である。 本出願の一実施形態によるワイヤレスまたはコアネットワーク側で適用される別のシステムアーキテクチャの概略図である。 本出願の一実施形態によるVR streamingサービスのシステムアーキテクチャの概略図である。 本出願の実施形態におけるLPCパラメータ符号化方法の一実施形態の概略図である。 本出願の実施形態におけるLPCパラメータ符号化方法の別の実施形態の概略図である。 本出願の実施形態におけるLPCパラメータ符号化方法のさらに別の実施形態の概略図である。 本出願の実施形態におけるLPCパラメータ符号化方法のさらに別の実施形態の概略図である。 本出願の実施形態におけるLPCパラメータ符号化方法のさらに別の実施形態の概略図である。 本出願の実施形態における符号化装置の一実施形態の概略図である。 本出願の実施形態における符号化装置の別の実施形態の概略図である。
本出願の実施形態は、符号化のための計算量を低減するために、線形予測符号化パラメータ符号化方法を提供する。
理解を容易にするために、以下では、本出願の実施形態におけるいくつかの技術用語を簡単に説明する。
1.LPCパラメータ:LPCパラメータは、複数の形式、例えば、線形予測解析(linear prediction analysis、LPA)係数、ラインスペクトル周波数(line spectrum frequency、LSF)パラメータ、ラインスペクトル対(line spectrum pair、LSP)パラメータ、および反射係数で表されてもよい。線形予測符号化パラメータの具体的な形式は、本出願の実施形態では限定されない。LSFパラメータである線形予測符号化パラメータは、以下の実施形態では一例として使用される。
2.ビットレート:ビットレートは、毎秒送信されるビット数である。
3.直接量子化符号化:LPCパラメータは、既存の符号化技術を使用してエンコード化される。本出願の実施形態では、LPCパラメータは、固定コードブックおよび代数ベクトル量子化(algebraic vector quantization、AVQ)方法を使用してエンコード化される。これは、本出願の実施形態では略して直接符号化とも呼ばれる。
4.参照量子化符号化:参照チャネル(reference channel)のLPCパラメータ(参照LPCパラメータとも呼ばれ得る)に基づいて、非参照チャネル(非参照LPCパラメータとも呼ばれ得る)のLPCパラメータに対して量子化符号化が実行される。本出願の実施形態では、非参照チャネルのLPCパラメータおよび参照チャネルのLPCパラメータは、同じ固定コードブックを共有する。非参照チャネルのLPCパラメータと参照チャネルのLPCパラメータとの間の残差は、AVQを使用してエンコード化される。これは、本出願の実施形態では略して参照符号化とも呼ばれる。
5.マルチチャネル(multi-channel)オーディオ信号:本出願の実施形態では、マルチチャネルは2つ以上のチャネル(channel)を指す。マルチチャネルオーディオ信号が2つのチャネルのみを含むとき、マルチチャネルオーディオ信号はステレオオーディオ信号と呼ばれることもある。マルチチャネルオーディオ信号は、ステレオオーディオ信号と、3チャネル以上のオーディオ信号とを含む。
本出願における「および/または」という用語は、関連する対象を説明するための関連関係であり得、3つの関係を示し得る。例えば、Aおよび/またはBは、Aのみが存在する場合、AとBの両方が存在する場合、およびBのみが存在する場合を示し得、AおよびBは単数形であっても複数形であってよい。加えて、本出願における文字「/」は、一般に、関連する対象間の「または」の関係を示す。本出願において、「少なくとも1つ」は、1つまたは複数を意味し、「複数の」は、2つ以上を意味する。以下の項目(部品)のうちの少なくとも1つまたはそれらの同様の表現は、単一の項目(部品)または複数の項目(部品)の任意の組み合わせを含む、これらの項目の任意の組み合わせを指す。例えば、a、b、またはcのうちの少なくとも1つは、a、b、c、aおよびb、aおよびc、bおよびc、またはa、b、およびcを示してもよく、a、b、およびcは単数形であっても複数形であってもよい。
本出願の明細書、特許請求書の範囲、および添付の図面では、「第1」、「第2」などの用語は、同様の対象を区別するものであり、必ずしも特定の順序または順番を示すものではない。このように使用される用語は、適切な状況では交換可能であり、これは、本出願の実施形態において同じ属性を有する対象が説明される際の区別方式にすぎないことを理解されたい。加えて、用語「含む(include,contain)」および他の何らかの変形は、非排他的な包含をカバーすることを意味するため、一連のユニットを含むプロセス、方法、システム、製品、またはデバイスは、必ずしもそれらのユニットに限定されず、明確に列挙されていない他のユニットを、またはそのようなプロセス、方法、システム、製品、またはデバイスに固有の他のユニットを含み得る。
マルチチャネル音声および音楽などのオーディオ信号は、多くの場合、人々により良い体験をもたらすことができる。オーディオ信号の効率的な記憶および伝送を容易にするために、オーディオエンコーダは、オーディオ信号をビットストリームに圧縮する必要がある。しかし、オーディオエンコーダがオーディオ信号を圧縮する際には、音声と音楽の信号品質とビットレートとの関係をバランスさせる必要がある。低ビットレートの条件下で、マルチチャネルオーディオ信号がエンコード化されると、通常、ビット不足のケースが発生する。これは、オーディオ信号符号化の品質に影響を及ぼす。線形予測解析に基づく符号化アルゴリズムは、オーディオ信号符号化に対して最も一般的に使用されるアルゴリズムの1つである。図1を参照されたい。図1は、線形予測解析に基づく典型的なマルチチャネルオーディオ符号化フレームワークの概略図である。
線形予測解析に基づく符号化アルゴリズムの主な原理は、符号化ビットレートを効果的に低減するために、オーディオ信号の短距離依存性を使用してLPCパラメータを解決し、次いで線形予測フィルタを使用してオーディオ信号をフィルタリングすることである。LPCパラメータは、線形予測フィルタの数学的モデルパラメータであり、符号化において重要なパラメータの1つである。LPCパラメータの符号化および伝送は、特定のビットレートを占有する。LPCパラメータ符号化方法は、オーディオ信号符号化の品質に影響を与える。複数のチャネルのLPCパラメータまたは複数のフレーム間のLPCパラメータの場合、独立した符号化または参照符号化の方法が使用され得る。LPCパラメータの符号化結果は符号化ビットストリームに書き込まれる。符号化ビットストリームは、ペイロードビットストリームおよび構成ビットストリームを含み得る。ペイロードビットストリームは、オーディオ信号の各フレームの特定の情報を搬送し得、構成ビットストリームは、オーディオ信号のすべてのフレームによって共有される構成情報を搬送し得る。ペイロードビットストリームおよび構成ビットストリームは、互いに独立していてもよく、または同じビットストリームに含まれていてもよく、すなわち、ペイロードビットストリームおよび構成ビットストリームは、同じビットストリーム内の異なる部分であってもよい。ここでの符号化ビットストリームは、実際にはペイロードビットストリームである。
図1は、オーディオエンコーダにおける線形予測モジュールの典型的なアプリケーションの基本的なフレームワークを示す。チャネル1(channel 1)~チャネルN(channel N)は、オーディオ信号のN個のチャネルである。本出願のこの実施形態は、破線ボックス内のLPC量子化符号化部に関する。
図2aを参照されたい。図2aは、マルチチャネルオーディオ信号のLPCパラメータのための直接量子化符号化方法の概略図である。この方法では、マルチチャネルオーディオ信号内の各チャネルのLPCパラメータに対して直接量子化符号化が実行される。チャネルの量子化符号化は互いに独立しており、チャネルの量子化LPCパラメータ間に冗長な情報が存在する。これにより、直接量子化符号化のために占有されるビットレートが高くなる。
図2bを参照されたい。図2bは、マルチチャネルオーディオ信号のLPCパラメータのための参照量子化符号化方法の別の概略図である。別の線形予測符号化パラメータ符号化方法では、参照量子化符号化方法が使用される。マルチチャネルオーディオ信号内の各チャネルのLPCパラメータがエンコード化されるとき、符号化のために最良の符号化効果を有する方式を選択するために、他の複数のチャネルのLPCパラメータを参照として使用して符号化が実行される複数の方式を別々に比較する必要がある。チャネル数が多い場合、複数の符号化方式が比較されるときに計算量が多くなる。
図3aを参照されたい。図3aは、本出願の一実施形態による端末側で適用されるシステムアーキテクチャの概略図である。
オーディオ通信では、送信端の端末デバイスは、オーディオ取得モジュールによって収集されたステレオオーディオ信号に対してステレオ符号化を実行し、チャネル符号化を実行し、次いで、ワイヤレスネットワークまたはコアネットワークを使用してデジタルチャネル上でビットストリームを送信する。受信端の端末デバイスは、受信信号に基づいてチャネル復号を実行し、ステレオデコーダを使用してステレオオーディオ信号を復号し、受信端の端末デバイスのオーディオ再生モジュールを使用してステレオオーディオ信号を再生する。本出願の実施形態で提供されるLPCパラメータ符号化方法は、端末エンコーダおよび端末デコーダに適用され得る。
図3bおよび図3cを参照されたい。図3bおよび図3cはそれぞれ、本出願の一実施形態によるワイヤレスまたはコアネットワーク側で適用されるシステムアーキテクチャの概略図である。
ワイヤレスまたはコアネットワークデバイスでは、トランスコーディングを実施する必要がある場合、対応するステレオ符号化および復号を実行する必要がある。
ステレオ符号化および復号は、マルチチャネルコーデックの一部であってもよい。例えば、収集されたマルチチャネルオーディオ信号に対してマルチチャネル符号化を実行することは、ステレオオーディオ信号を取得するために収集されたマルチチャネルオーディオ信号をダウンミックスし、取得されたステレオオーディオ信号を符号化することであってもよい。デコーダ側は、マルチチャネルオーディオ信号の符号化ビットストリームに基づいて復号化を実行してステレオオーディオ信号を取得し、アップミックス後のマルチチャネルオーディオ信号を復元する。したがって、本出願の実施形態で提供されるLPCパラメータ符号化方法は、端末、ワイヤレスネットワーク、またはコアネットワークの通信モジュール内のマルチチャネルコーデックにも適用され得る。
図3dを参照されたい。図3dは、本出願の一実施形態によるVR streamingサービスのシステムアーキテクチャの概略図である。
本出願の実施形態で提供されるLPCパラメータ符号化方法は、VR streamingサービスにおけるオーディオ符号化および復号モジュール(audio encoding and audio decoding)にさらに適用可能である。図3dの破線のボックス部分に示すように、エンドツーエンドオーディオ信号処理手順は以下の通りである。オーディオ信号aが取得モジュール(acquisition)を通過した後、オーディオ信号aに対して前処理動作(audio preprocessing)が実行される。前処理動作は、オーディオ信号内の低周波部分を除去することを含み、通常、20Hzまたは50Hzが境界点として使用される。オーディオ信号における方向情報が抽出される。符号化処理(audio encoding)およびカプセル化(file/segment encapsulation)の後、オーディオ信号はデコーダ側に配信(delivery)される。デコーダ側では、デカプセル化(file/segment decapsulation)が行われた後、復号(audio decoding)が行われる。復号された信号に対してバイノーラルレンダリング(audio rendering)が実行され、レンダリングされたオーディオ信号が聴取者のヘッドホン(headphones)にマッピングされる。ヘッドホンは、独立したヘッドセットであってもよいし、バーチャルリアリティヘッドマウントディスプレイ(例えば、HTC VIVE)などのガラスデバイス上のイヤホンであってもよい。
本出願の実施形態で提供される線形予測符号化パラメータ符号化方法は、ステレオオーディオ信号、すなわち、デュアルチャネルオーディオ信号、およびマルチチャネルオーディオ信号に適用可能である。特定の実施形態を参照して以下に説明する。
1.ステレオオーディオ信号のLSFパラメータ符号化方法については、図4aを参照されたい。図4aは、本出願の実施形態における線形予測符号化パラメータ符号化方法の一実施形態の概略図である。本方法は、具体的には以下のステップを含む。
401:LSFパラメータ間の差を計算する。
まず、ステレオ(Stereo)オーディオ信号のLチャネルのLSFパラメータとRチャネルのLSFパラメータとの差を計算する。差は、平均二乗誤差、コサイン距離、またはLPCパラメータ間の差を表すことができる別のメトリックであってもよい。これは、本明細書では特に限定されない。本実施形態と以下の実施形態との相違点について、平均二乗誤差を例に挙げて説明する。LSFパラメータの平均二乗誤差を計算する方法は以下の通りである。
DIFFLRは、LチャネルのLSFパラメータとRチャネルのLSFパラメータとの差を表し、LSF(L,d)は、LチャネルのLSFパラメータを表し、d=0,...,D-1であり、LSF(R,d)は、RチャネルのLSFパラメータを表し、d=0,...,D-1であり、Dは、LSFパラメータの次元である。任意選択で、この実施形態では、D=16が使用される。
次に、LチャネルのLSFパラメータとRチャネルのLSFパラメータとの差が予め設定された閾値未満であるかどうかを決定する。「はい」の場合、ステップ403を実行する。「いいえ」の場合、ステップ402を実行する。予め設定された閾値αは経験的定数である。任意選択で、αの値の範囲は、(0,2000)、例えば、1000、1500、または2000である。具体的な値は、本明細書では限定されない。任意選択で、決定条件は、代替的に、LチャネルのLSFパラメータとRチャネルのLSFパラメータとの差が予め設定された閾値以下であるかどうかを決定することであってもよい。はいの場合、ステップ403を実行し、いいえの場合、ステップ402を実行する。
402:差が予め設定された閾値以上である場合、LチャネルのLSFパラメータおよびRチャネルのLSFパラメータに対して直接量子化符号化を別々に実行する。
条件が満たされない場合、LチャネルおよびRチャネルのLSFパラメータの直接量子化符号化結果が、符号化ビットストリームに書き込まれる。直接量子化符号化は、LSFパラメータに対して量子化符号化を実行するために、予め指定されたコードブックおよび予め指定されたAVQ方法を使用する。LチャネルのLSFパラメータとRチャネルのLSFパラメータとを別々に直接量子化符号化した直接量子化符号化結果が、符号化ビットストリームに書き込まれる。従来技術では、予め指定されたコードブックおよび予め指定されたAVQを使用してLSFパラメータに対して量子化符号化を実行する。特定のステップは、本出願では詳細に説明されない。
403:差が予め設定された閾値未満である場合、参照量子化符号化を決定する。
DIFFLR<αである場合、LチャネルおよびRチャネルのLSFパラメータに対する参照符号化決定のプロセスを開始することが決定される。具体的には、ステップ404~ステップ406が含まれる。
404:参照LSFパラメータを決定し、直接量子化符号化方法を使用して参照LSFパラメータを量子化する。
まず、LチャネルのLSFパラメータとRチャネルのLSFパラメータから参照LSFパラメータを決定する。参照LSFパラメータに対応するチャネルは参照チャネルと呼ばれてもよく、非参照LSFパラメータに対応するチャネルは非参照チャネルと呼ばれてもよい。
参照LSFパラメータを決定する方法は複数ある。任意選択で、チャネルのLSFパラメータが参照LSFパラメータとしてランダムに選択される。任意選択で、予め設定されたチャネルのLSFパラメータが参照LSFパラメータとして決定される。任意選択で、左右のチャネルのLSFパラメータの直接量子化符号化に必要なビット数が計算される。ビット数がより少ないチャネルのLSFパラメータが参照LSFパラメータとして選択され、LSFreferenceと表記され、そのチャネルは参照チャネルと呼ばれる。AVQを使用して異なるLSFパラメータを符号化するためのビット数は変化するため、参照LSFパラメータとしてより少ないビット数を必要とするチャネルのLSFパラメータを選択すると、ビット数を減らすことができる。
次に、参照チャネルのLSFパラメータは、直接量子化符号化方法を使用して量子化される。参照LSFパラメータの直接符号化結果はLSFreference_Qと表記され、符号化ビットストリームに書き込まれる。
405:予め設定された条件が満たされた場合、非参照LSFパラメータに対して参照量子化符号化を実行することを決定する。
2つの量子化符号化方式のビット数および歪みを取得するために、非参照チャネルのLSFパラメータに対して直接量子化符号化および参照量子化符号化が別々に実行される。直接量子化符号化の歪みは、LPCパラメータに対する直接符号化結果の歪みであり、参照量子化符号化の歪みは、LPCパラメータに対する残差符号化結果の歪みである。次に、前述の2つの量子化符号化方式の歪みおよびビット数が比較される。符号化のための歪みおよびビット数に基づいて、使用される量子化符号化方式が決定される、すなわち参照符号化が決定される。
予め設定された条件が満たされた場合、非参照チャネルに対して参照量子化符号化を実行することを決定する。予め設定された条件が満たされない場合、ステップ406を実行する。
複数の予め設定された条件が存在してもよい。任意選択で、参照量子化符号化の歪みが第1の予め設定された閾値未満である場合、参照量子化符号化が非参照チャネルに使用されると決定される。任意選択で、参照量子化符号化に必要なビット数が第2の予め設定された閾値未満である場合、参照量子化符号化が非参照チャネルに使用されると決定される。任意選択で、参照量子化符号化の歪みが直接量子化符号化の歪みよりも小さく、参照量子化符号化の歪みと直接量子化符号化の歪みとの差が第3の予め設定された閾値以上である場合、参照量子化符号化が非参照チャネルに使用されると決定される。任意選択で、参照量子化符号化に必要なビット数が直接量子化符号化に必要なビット数よりも少なく、参照量子化符号化に必要なビット数と直接量子化符号化に必要なビット数との差が第4の予め設定された閾値以上である場合、参照量子化符号化が非参照チャネルに使用されると決定される。任意選択で、参照量子化符号化の歪みが第5の予め設定された閾値よりも小さく、必要なビット数が第6の予め設定された閾値よりも小さい場合、参照量子化符号化が非参照チャネルに使用されると決定される。任意選択で、参照量子化符号化の歪みが直接量子化符号化の歪みよりも小さく、歪みの差が第7の予め設定された閾値以上であり、参照量子化符号化に必要なビット数が直接量子化符号化に必要なビット数よりも小さく、ビット数の差が第8の予め設定された閾値以上である場合、参照量子化符号化が非参照チャネルに使用されると決定される。
予め設定された条件の具体的な内容は、本明細書では限定されない。本明細書における第1の予め設定された閾値、第2の予め設定された閾値、第3の予め設定された閾値、第4の予め設定された閾値、第5の予め設定された閾値、第6の予め設定された閾値、第7の予め設定された閾値、および第8の予め設定された閾値の数値は、同じであっても異なっていてもよく、その具体的な数値は限定されないことに留意されたい。
具体的には、非参照チャネルのLSFパラメータに対して別々に実行される直接量子化符号化および参照量子化符号化のビット数および量子化歪みが決定される。
(1)直接量子化符号化に必要なビット数:非参照チャネルのLSFパラメータに対して直接量子化符号化を実行するための方法は、参照チャネルのLSFパラメータに対して直接量子化符号化を実行するための方法と同じである。非参照チャネルのLSFパラメータに対して直接量子化符号化を実行するために必要なビット数は、参照チャネルのLSFパラメータに対して直接量子化符号化を実行するために必要なビット数に基づいて取得され得る。
(2)参照量子化符号化に必要なビット数:非参照チャネルのLSFパラメータに対して参照量子化符号化を実行するために必要なビット数を計算するために、LSFパラメータと参照LSFパラメータとの間の残差が最初に計算され、次いで、AVQ方法を使用して残差パラメータLSFresに対して量子化符号化が実行される。
残差は以下のように計算される。
LSFres=LSF-LSFreference (2)
従来技術では、残差パラメータLSFresに対して、AVQ方法を使用して量子化符号化を実行し、量子化結果をLSFres_Qと表す。特定のステップは、本出願のこの実施形態では詳細に説明されない。
非参照チャネルの参照量子化結果は、以下のように表される。
LSFref_Q=LSFres_Q+LSFreference_Q (3)
量子化符号化後、非参照チャネルのLSFパラメータに対して参照量子化符号化を実行するために必要なビット数も取得される。
(3)直接量子化符号化の歪み:
(4)参照量子化符号化の歪み:
ここでのDistortionは、直接量子化の歪み、すなわち、非参照LPCパラメータに対する非参照LPCパラメータの直接符号化結果の歪みである。Distortionrefは、参照量子化の歪み、すなわち、非参照LPCパラメータに対する非参照LPCパラメータの残差符号化結果の歪みである。d=0,...,D-1であるLSF(Q,d)は、他方のチャネルのLSFパラメータの直接量子化符号化結果であり、d=0,...,D-1であるLSF(ref_Q,d)は、他方のチャネルのLSFパラメータの参照量子化符号化結果であり、d=0,...,D-1であるLSFdは、他方のチャネルのLSFパラメータであり、Dは、LSFパラメータの次元である。
任意選択で、参照量子化符号化モードを有効にするための条件が満たされる場合、参照量子化符号化フラグの値は1に設定される。それ以外の場合は、参照量子化符号化フラグの値は0に設定される。参照量子化符号化フラグの値が1に設定されている場合、他のチャネルのLSFパラメータの量子化方式が参照量子化符号化であることを示す。参照量子化符号化フラグの値が0に設定されている場合、他のチャネルのLSFパラメータの量子化方式が直接量子化符号化であることを示す。参照量子化符号化フラグは、符号化ビットストリームに書き込まれる。参照量子化符号化フラグの値が1であるとき、参照LSFパラメータに対応するチャネル番号に関する情報も符号化ビットストリームに書き込まれ、参照量子化符号化フラグによって占有されるビット数はチャネル数によって異なる。この実施形態では、LチャネルおよびRチャネルのみが存在する。したがって、参照LSFパラメータに対応するチャネル番号は1ビットで表されてもよい。
参照量子化符号化モードが有効になっている場合、他方のチャネルのLSFパラメータに対して参照量子化符号化が実行され、すなわち、AVQ方法を使用して残差パラメータLSFresに対して量子化符号化が実行された後に取得された残差符号化結果が符号化ビットストリームに書き込まれる。そうでない場合、他方のチャネルのLSFパラメータに対して直接量子化符号化が実行された後に取得された直接符号化結果が符号化ビットストリームに書き込まれる。
406:予め設定された条件が満たされない場合、非参照LSFパラメータに対して直接量子化符号化を実行することを決定する。
直接量子化符号化のプロセスについてはここでは再度説明しない。非参照LSFパラメータの直接符号化結果は、符号化ビットストリームに書き込まれる。
本出願のこの実施形態と従来技術との違いは、チャネルのLSFパラメータ間の差に基づいて、2つのチャネルのLSFパラメータ間の差が計算されて、参照量子化符号化のプロセスに入るかどうかを決定し、参照量子化符号化モードのプロセスで参照モードを有効にするかどうかが決定されることにある。
図4bを参照されたい。図4bは、本出願の実施形態におけるLPCパラメータ符号化方法の別の実施形態の概略図である。LチャネルのLSFパラメータとRチャネルのLSFパラメータとの差が最初に計算され、差が予め設定された閾値未満であるかどうかが決定される。いいえの場合、LチャネルのLSFパラメータおよびRチャネルのLSFパラメータに対して直接量子化符号化を実行し、LチャネルのLSFパラメータおよびRチャネルのLSFパラメータの直接符号化結果を決定し、直接符号化結果を符号化ビットストリームに書き込む。はいの場合、LチャネルのLSFパラメータおよびRチャネルのLSFパラメータから参照LSFパラメータを決定し、参照LSFパラメータに対して直接量子化符号化を実行し、直接符号化結果を符号化ビットストリームに書き込む。次に、非参照LSFパラメータの符号化方式を決定する。具体的には、非参照LSFパラメータに対して直接量子化が実行されてもよく、非参照LSFパラメータに対して参照量子化が実行される。2つの量子化符号化方式の間の差が比較されて、予め設定された条件が満たされているかどうかを決定する。予め設定された条件の具体的な内容については、ステップ405を参照されたい。ここでは詳細は繰り返されない。予め設定された条件が満たされた場合、非参照LSFパラメータに対して参照量子化符号化を実行し、非参照LSFパラメータの残差符号化結果を符号化ビットストリームに書き込む。予め設定された条件が満たされない場合、非参照LSFパラメータに対して参照量子化符号化を実行し、非参照LSFパラメータの直接符号化結果を符号化ビットストリームに書き込む。
この実施形態では、2つのチャネルのLSFパラメータが参照量子化符号化のプロセスに入るかどうかは、2つのチャネルのLSFパラメータ間の差を計算することによって決定される。これにより、参照符号化のプロセスを決定するための計算量を低減することができる。参照量子化符号化モードを有効にすることにより、LSFパラメータの符号化冗長性が低減され、符号化歪みを保証しながら符号化ビットの消費が低減され、低ビットレートのオーディオ符号化モードにおける目標スコアが大幅に改善される。
2.ステレオオーディオ信号のための別のLSFパラメータ符号化方法については、図5を参照されたい。図5は、本出願の実施形態における線形予測符号化パラメータ符号化方法のさらに別の実施形態の概略図である。本方法は、具体的には以下のステップを含む。
501:2つのLSFパラメータを取得するためにLSFパラメータベクトルを分割する。
まず、Stereoオーディオ信号のLおよびRチャネルのLSFパラメータベクトルは、高次元および低次元の2つのLSFパラメータに分割され、2つのLSFパラメータは、LSFlowおよびLSFhighとして示される。本出願のこの実施形態では、分割前と分割後のLSFパラメータを区別するために、分割前のLSFパラメータが元のLSFパラメータと呼ばれてもよく、分割後のLSFlowおよびLSFhighが符号化対象LSFパラメータと呼ばれてもよい。任意選択で、LSFlowは、元のLSFパラメータの0次元をD/2-1次元に切り捨てることによって得られ、LSFhighは、元のLSFパラメータのD/2次元をD-1次元に切り捨てることによって得られ、DはLSFパラメータの次元である。
Lチャネルの低次元LSFlowパラメータおよび高次元LSFhighパラメータ、ならびにRチャネルの低次元LSFlowパラメータおよび高次元LSFhighパラメータが取得される。
502.Lチャネルの低次元LSFlowパラメータおよびRチャネルの低次元LSFlowパラメータに対して量子化符号化を実行する。
図4aに対応する実施形態の方法を参照されたい。ここでは詳細は繰り返されない。
503.Lチャネルの高次元LSF high パラメータおよびRチャネルの高次元LSF high パラメータに対して量子化符号化を実行する。
Lチャネルの高次元LSF high パラメータおよびRチャネルの高次元LSF high パラメータに対して量子化符号化を実行するための具体的な方法については、図4aに対応する実施形態を参照されたい。ここでは詳細は繰り返されない。
まず、量子化符号化を実行すべきLSFパラメータが分割される。D次元LSFパラメータの場合、分割処理が、異なる量子化ポリシーを使用して異なるセグメントを処理するために使用されてもよい。これにより、量子化効率がさらに向上する。
3.マルチチャネルオーディオ信号のためのLSFパラメータ符号化方法については、図6を参照されたい。図6は、本出願の実施形態におけるLPCパラメータ符号化方法のさらに別の実施形態の概略図である。本方法は、具体的には以下のステップを含む。
マルチチャネルオーディオの場合、複数のチャネルのLSFパラメータを予め設定された規則に従ってM個のグループに分割する解決策では、各グループ内のLSFパラメータがそれぞれ符号化される。任意選択で、オーディオ信号のチャネル数は4以上であり、Mは2以上である。
601:LSFパラメータのM個のグループを取得するために、複数のチャネルのLPCパラメータをグループ化する。
複数のチャネルのLPCパラメータのグループ化モジュールは、まず、予め設定された規則に従って複数のチャネルの入力LSFパラメータをグループ化し、グループ化後にLSFパラメータのM個のグループを取得する。LSFパラメータの各グループは、LSFパラメータグループと呼ばれてもよい。任意選択で、予め設定された規則は、チャネルシーケンスに基づく固定グループ化、チャネルに対応する近くのスピーカの位置に基づくグループ化、または別の規則であってもよい。これは、本明細書では特に限定されない。すべてのLSFパラメータグループ内のパラメータの数は同じであっても異なっていてもよいことに留意されたい。これは、本明細書では特に限定されない。
例えば、複数のチャネルのLSFパラメータの総数Nが6に等しく、グループの数Mが3に等しいと仮定する。予め設定された規則は、すべてのグループ内のチャネルの数が一貫していることである。すなわち、チャネル1とチャネル2が1つのグループにグループ化され、チャネル3とチャネル4が1つのグループにグループ化され、チャネル5とチャネル6が別のグループにグループ化される。
複数のチャネルのLSFパラメータの総数Nが6に等しく、グループの数Mが2に等しいと仮定する。予め設定された規則は、チャネル1~N/2が1つのグループにグループ化され、チャネルN/2+1~Nが別のグループにグループ化されるというものである。すなわち、チャネル1、チャネル2、およびチャネル3は1つのグループを形成し、チャネル4、チャネル5、およびチャネル6は別のグループを形成する。

M個のLSFパラメータグループが取得された後、各LSFパラメータグループは別々に符号化されてもよいことに留意されたい。2つのLSFパラメータを有するLSFパラメータグループについては、符号化のための実施形態1または実施形態2の符号化方法を参照されたい。複数のLSFパラメータグループの符号化方法は同じであっても異なっていてもよい。これは、本明細書では特に限定されない。以下では、3つ以上のLSFパラメータを有するLSFパラメータグループのためのパラメータグループ符号化方法を具体的に説明する。
602:LSFパラメータのM個のグループの各々において参照LSFパラメータを別々に決定する。
LSFパラメータの各グループから参照LSFパラメータを決定するための複数の方法がある。1つのLSFパラメータグループがc個のLSFパラメータを有すると仮定し、cは定数である。任意選択で、c=2の場合、参照LSFパラメータを選択するための方法については、図4aに対応する実施形態に記載された方法を参照されたい。
任意選択で、c>2の場合、参照LSFパラメータを選択するための方法は、以下の通りである。
まず、グループ内のj番目のLSFパラメータとグループ内の他のチャネルの他のLSFパラメータとの間の平均差を以下のように計算する。
DはLSFパラメータの次元であり、d=0,...,D-1であるLSF(j,d)は、グループ内のj番目のLSFパラメータであり、d=0,...,D-1かつ1≦k≦c、k≠jであるLSF(k,d)は、グループ内のj番目のLSFパラメータ以外のk番目のLSFパラメータである。
次に、参照LSFパラメータのチャネル番号rが、チャネルと他のチャネルとの間の最小平均差の原理に基づいて取得される。
ここで、AVG_DIFFjは、グループ内のj番目のチャネルのLSFパラメータとグループ内の他のチャネルのLSFパラメータとの平均差を表し、rは、参照LSFパラメータに対応するチャネル番号を表す。
603:LSFパラメータの各グループに対して量子化符号化を実行する。
LSFパラメータの各グループの参照LSFパラメータが決定された後、量子化符号化は、LSFパラメータの各グループに対して別々に実行されてもよい。任意選択で、参照LSFパラメータに対して直接量子化符号化が実行され、非参照LSFパラメータに対して参照符号化が実行される。任意選択で、参照LSFパラメータに対して直接量子化符号化が実行され、予め設定された条件が満たされたときに非参照LSFパラメータに対して参照符号化が実行される。予め設定された条件の詳細については、図4aに対応する実施形態のステップ405を参照されたい。ここでは詳細は繰り返されない。
複数のチャネルのLPCパラメータは、予め設定された規則に従ってグループ化される。グループが3つ以上のLPCパラメータを有する場合、最小平均差の原理に基づいて各グループ内の参照LPCパラメータが選択される。
グループが大量のLPCパラメータを有するとき、最小平均差の原理に基づいてLPCパラメータから参照LPCパラメータを選択することにより効率を向上させることができ、選択された参照LPCパラメータを使用してグループ内の他のチャネルのLPCパラメータに対して量子化を実行することを保証することができる。より少ないビットが使用される。
4.マルチチャネルオーディオ信号のためのLSFパラメータ符号化方法については、図7を参照されたい。図7は、本出願の実施形態におけるLPCパラメータ符号化方法のさらに別の実施形態の概略図である。本方法は、具体的には以下のステップを含む。
N個のチャネルのLSFパラメータをM個のグループにグループ化するための方法は複数ある。具体的には、クラスタリング方法を使用して、LSFパラメータに基づいてグループ化が実行され得る。本出願のこの実施形態では、可能なグループ化方法が説明される。具体的な説明は以下に提供される。
701:チャネルのLSFパラメータ間の差を決定する。
まず、各チャネルのLSFパラメータ間の差が計算される。チャネルのLSFパラメータ間の差は、任意の2つのLSFパラメータ間の差を含み、差は、平均二乗誤差、コサイン距離などを含む。例えば、チャネルiとチャネルjのLSFパラメータ間の差は、以下の通りである。
DIFF(i,j)は、チャネルiとチャネルjのLSFパラメータ間の差であり、Dは、LSFパラメータの次元である。
702:M個のグルーピングセンタを決定する。
M個のグルーピングセンタは、チャネルのLSFパラメータ間の差に基づいて決定される。グルーピングセンタは、LSFパラメータグループのクラスタリングセンタと呼ばれてもよい。クラスタリングセンタを取得する方法は複数ある。これは、本明細書では特に限定されない。
任意選択で、任意のM個のLPCパラメータ間の差の絶対値の平均値が計算され、最大平均値を有するM個のLPCパラメータがM個のグルーピングセンタとして使用される。M個のLPCパラメータ間の差は、M個のLPCパラメータのうちの任意の2つのLPCパラメータ間の差の集合であり、M個のLPCパラメータ間の差の絶対値の平均値は、M×(M-1)/2個の差値の絶対値の平均値である。
任意選択で、初期グルーピングセンタが取得される。例えば、得られたすべてのDIFF(i,j)の中から最大値を求める。最大値に対応する2つのLSFパラメータに基づいて2つのグルーピングセンタLSFcentre_1およびLSFcentre_2が取得され、次いで初期グルーピングセンタに基づいてM個のグルーピングセンタが取得される。
例えば、既存のグルーピングセンタと最も異なるLSFパラメータは、既存のグルーピングセンタ以外の他のチャネルのLSFパラメータから新しいグルーピングセンタLSFcentre_mとして選択され、2<m≦Mである。選択方法は以下の通りである。
nremainは、既存のグルーピングセンタのLSFパラメータ以外のLSFパラメータの数であり、mは、新しいグルーピングセンタLSFcentre_mに対応するチャネル番号である。
この動作は、m=M、すなわちM個のグルーピングセンタが見つかるまで繰り返される。
703:M個のグルーピングセンタに基づいてM個のLSFパラメータグループを決定する。
M個のグルーピングセンタに基づいてLSFパラメータに対してクラスタリングが実行され、M個のLSFパラメータグループがクラスタリングアルゴリズムを使用して決定される。
任意選択で、グルーピングセンタを除く残りのLSFパラメータは、最小差の原理に基づいてM個のグループに別々にグループ化される。方法は以下の通りである。
ここで、LSFremainは、上記のステップで選択されたグルーピングセンタのLSFパラメータ以外の任意のLSFパラメータを表す。sは、LSFremainのために選択されたグループのグループ識別子である。
上記のステップにより、N個のチャネルのLSFパラメータがM個のグループにグループ化され得る。
704.M個のLSFパラメータグループに対して量子化符号化を別々に実行する。
グループ化が完了した後、各LSFパラメータグループから参照LSFパラメータを選択するための方法および他の手順は、実施形態3と同じである。ここでは詳細は繰り返されない。
この実施形態は、複数のチャネルのLPCパラメータをグループ化するための新しい方法を提供する。複数のチャネルのLPCパラメータをグループ化するための方法を使用することによって、より良好なグループ化結果を得ることができ、量子化効率をさらに向上させることができる。
5.マルチチャネルオーディオ信号のための別のLSFパラメータ符号化方法が提供される。
マルチチャネルオーディオ信号のLSFパラメータについては、符号化方法においてLSFパラメータ分割も考慮され得る。
まず、各チャネルの元のLSFパラメータベクトルは、高次元および低次元で高次元LSFパラメータと低次元LSFパラメータとに分割される。高次元LSFパラメータをLSFlow、低次元LSFパラメータをLSFhighと表記する。LSFlowおよびLSFhighを生成するための方法は、実施形態2の方法と一致する。次に、実施形態3または実施形態4のプロセスに従って、各チャネルのLSFlowおよびLSFhighに対して量子化符号化が実行される。
多次元LSFパラメータの場合、分割処理が、異なる量子化ポリシーを使用して異なるセグメントを処理するために使用されてもよい。これにより、量子化効率がさらに向上し、符号化効果が最適化される。
LPCパラメータ符号化方法は、前述の実施形態で説明されている。以下では、本方法を実施するための装置について説明する。図8は、本出願の実施形態における符号化装置の一実施形態の概略図である。
本出願の一実施形態は符号化装置を提供する。符号化装置は、端末であってもよいし、端末の通信モジュール、ワイヤレスネットワーク、またはコアネットワークであってもよいし、端末エンコーダ、端末デコーダ、端末の通信モジュールのマルチチャネルコーデック、ワイヤレスネットワーク、またはコアネットワークなどであってもよい。これは、本明細書では特に限定されない。
符号化装置が、
オーディオ信号の少なくとも2つのチャネルの符号化対象LPCパラメータを取得するように構成された取得ユニット801と、
少なくとも2つのチャネルの符号化対象LPCパラメータから参照LPCパラメータを決定するように構成された決定ユニット802であって、少なくとも2つのチャネルの符号化対象LPCパラメータのうちの参照LPCパラメータ以外のLPCパラメータは非参照LPCパラメータであり、
取得ユニット801は、参照LPCパラメータの直接符号化結果を取得するようにさらに構成され、
決定ユニット802は、参照LPCパラメータに基づいて非参照LPCパラメータの残差を決定するようにさらに構成され、
決定ユニット802は、参照LPCパラメータの直接符号化結果および残差に基づいて、非参照LPCパラメータの残差符号化結果を決定するようにさらに構成される、決定ユニット802と、
参照LPCパラメータの直接符号化結果および非参照LPCパラメータの残差符号化結果を符号化ビットストリームに書き込むように構成された処理ユニット803と
を含む。
任意選択で、決定ユニット802は、
少なくとも2つのチャネルの符号化対象LPCパラメータ内にあり、直接量子化符号化のために最小ビット数を必要とするLPCパラメータを参照LPCパラメータとして決定する
ように特に構成される。
任意選択で、少なくとも2つのチャネルの符号化対象LPCパラメータは、少なくとも3つのチャネルの符号化対象LPCパラメータを含む。
取得ユニット801は、
少なくとも3つのチャネルの符号化対象LPCパラメータ内の各LPCパラメータと別のLPCパラメータとの差の絶対値を取得し、
各LPCパラメータと他のLPCパラメータとの差の絶対値の平均値を取得する
ように特に構成される。
決定ユニット802は、
LPCパラメータ内の、差の絶対値の最小平均値を有するLPCパラメータを、参照LPCパラメータとして決定する
ように特に構成される。
任意選択で、差は、平均二乗誤差またはコサイン距離を含む。
任意選択で、オーディオ信号は複数のチャネルを含む。
決定ユニット802は、
オーディオ信号の複数のチャネルの符号化対象LPCパラメータをグループ化することによって複数のパラメータグループを決定し、複数のパラメータグループのうちの1つは少なくとも2つのチャネルの符号化対象LPCパラメータを含み、複数のパラメータグループ内のLPCパラメータには交差がない
ようにさらに構成される。
任意選択で、決定ユニット802は、
オーディオ信号の複数のチャネルのチャネル番号に基づいて複数のパラメータグループを決定する、または、
オーディオ信号の複数のチャネルの各々に対応するスピーカの位置に基づいて複数のパラメータグループを決定する
ように特に構成される。
任意選択で、決定ユニット802は、
複数のパラメータグループを決定するために、オーディオ信号の複数のチャネルの符号化対象LPCパラメータをクラスタリングする
ように特に構成される。
任意選択で、決定ユニット802は、
複数のチャネルの符号化対象LPCパラメータからM個のLPCパラメータを決定し、M個のLPCパラメータ間の差の絶対値の平均値は、複数のチャネルのLPCパラメータのうちの任意のM個のLPCパラメータ間の差の絶対値の平均値以上であり、M個のLPCパラメータは、M個のパラメータグループのクラスタリングセンタであり、Mは予め設定された値であり、
M個のパラメータグループを決定するために、M個のクラスタリングセンタに基づいてクラスタリングを実行し、M個のパラメータグループ内の第1のパラメータグループ内の第1のLPCパラメータと第2のLPCパラメータとの差の絶対値は、第1のLPCパラメータと第3のLPCパラメータとの差の絶対値よりも小さく、第2のLPCパラメータは、第1のパラメータグループのクラスタリングセンタであり、第3のLPCパラメータは、第2のパラメータグループのクラスタリングセンタであり、第1のパラメータグループおよび第2のパラメータグループは、M個のパラメータグループ内の任意の2つの異なるパラメータグループである、
ように特に構成される。
任意選択で、取得ユニット801は、
高次元LPCパラメータグループおよび低次元LPCパラメータグループを取得するために、オーディオ信号の少なくとも2つのチャネルの元のLPCパラメータを分割し、高次元LPCパラメータグループは、少なくとも2つのチャネルの符号化対象LPCパラメータを含むか、または低次元LPCパラメータグループは、少なくとも2つのチャネルの符号化対象LPCパラメータを含む
ように特に構成される。
任意選択で、オーディオ信号は複数のチャネルを含む。
取得ユニット801は、
高次元LPCパラメータグループおよび低次元LPCパラメータグループを取得するために、オーディオ信号の複数のチャネルの元のLPCパラメータを分割し、
高次元LPCパラメータグループ内のLPCパラメータをグループ化することによって複数の高次元パラメータグループを取得し、複数の高次元パラメータグループのうちの1つは少なくとも2つのチャネルの符号化対象LPCパラメータを含み、複数の高次元パラメータグループ内のLPCパラメータには交差がないか、または、
低次元LPCパラメータグループ内のLPCパラメータをグループ化することによって複数の低次元パラメータグループを取得し、複数の低次元パラメータグループのうちの1つは少なくとも2つのチャネルの符号化対象LPCパラメータを含み、複数の低次元パラメータグループ内のLPCパラメータには交差がない、
ように特に構成される。
任意選択で、決定ユニット802は、
少なくとも2つのチャネル内の2つのチャネルごとのLPCパラメータ間の差の絶対値が予め設定された閾値以下であると決定し、2つのチャネルのLPCパラメータ間の差は、2つのチャネルのLPCパラメータ間の平均二乗誤差の平均値またはコサイン距離の平均値を含む
ようにさらに構成される。
任意選択で、取得ユニット801は、
非参照LPCパラメータの直接符号化結果を取得する
ようにさらに構成される。
決定ユニット802は、第1の歪みと第2の歪みとの差が第1の予め設定された閾値以下であると決定するようにさらに構成される。第1の歪みは、非参照LPCパラメータに対する非参照LPCパラメータの残差符号化結果の歪みであり、第2の歪みは、非参照LPCパラメータに対する非参照LPCパラメータの直接符号化結果の歪みである。
任意選択で、決定ユニット802は、
第1のビット数と第2のビット数との差が第2の予め設定された閾値以上であると決定する
ようにさらに構成される。第1のビット数は、非参照LPCパラメータを直接符号化するために必要なビット数であり、第2のビット数は、参照LPCパラメータの直接符号化結果および残差に基づいて非参照LPCパラメータを符号化するために必要なビット数である。
図9を参照されたい。図9は、本出願の実施形態における符号化装置の別の実施形態の概略図である。
本実施形態で提供される符号化装置は、プロセッサ、サーバ、専用符号化装置などであってもよい。特定のデバイス形態は、本出願のこの実施形態では限定されない。
符号化装置900は、異なる構成または性能によって大きく異なり得、1つまたは複数のプロセッサ901およびメモリ902を含み得る。メモリ902は、プログラムまたはデータを格納する。
メモリ902は、揮発性メモリであっても不揮発性メモリであってもよい。任意選択で、プロセッサ901は、1つまたは複数の中央処理装置(central processing unit、CPU)、グラフィックス処理装置(graphics processing unit、GPU)などである。CPUは、シングルコアCPUであってもよく、マルチコアCPUであってもよい。プロセッサ901は、メモリ902と通信し、符号化装置900上で、メモリ902内の一連の命令を実行し得る。
符号化装置900は、例えばイーサネットインターフェースなどの、1つまたは複数の有線またはワイヤレスネットワークインターフェース903をさらに含む。
任意選択で、図9には示されていないが、符号化装置900は、1つまたは複数の電源および1つまたは複数の入力/出力インターフェースをさらに含んでもよい。入力/出力インターフェースは、ディスプレイ、マウス、キーボード、タッチスクリーンデバイス、センサデバイスなどに接続するように構成されてもよい。入力/出力インターフェースは、任意の構成要素であり、存在しても存在しなくてもよい。これは、本明細書では限定されない。
この実施形態の符号化装置900のプロセッサ901によって実行される手順については、前述の方法実施形態に記載された方法手順を参照されたい。ここでは詳細は繰り返されない。
本出願の前述の方法実施形態は、プロセッサに適用されてもよく、またはプロセッサは、前述の方法実施形態のステップを実施する。プロセッサは集積回路チップであってもよく、信号処理能力を有する。一実装プロセスでは、上記の方法実施形態におけるステップは、プロセッサ内のハードウェア集積論理回路を使用することによって、またはソフトウェアの形態の命令を使用することによって、実施され得る。プロセッサは、中央処理装置(central processing unit、CPU)、ネットワークプロセッサ(network processor、NP)、CPUとNPとの組み合わせ、デジタル信号プロセッサ(digital signal processor、DSP)、特定用途向け集積回路(application specific integrated circuit、ASIC)、フィールドプログラマブルゲートアレイ(field programmable gate array、FPGA)もしくは別のプログラマブルロジックデバイス、ディスクリートゲートもしくはトランジスタロジックデバイス、またはディスクリートハードウェアコンポーネントであってもよい。プロセッサは、本出願で開示されている方法、ステップ、および論理ブロック図を実装または実行し得る。汎用プロセッサはマイクロプロセッサであってもよく、または、プロセッサは任意の従来のプロセッサなどであってもよい。本出願で開示されている方法のステップは、ハードウェア復号プロセッサを使用して直接実行および完了されてもよいし、または復号プロセッサのハードウェアおよびソフトウェアモジュールの組み合わせを使用して実行および完了されてもよい。ソフトウェアモジュールは、ランダムアクセスメモリ、フラッシュメモリ、読み出し専用メモリ、プログラマブル読み出し専用メモリ、電気的消去可能プログラマブルメモリ、またはレジスタなどの当技術の成熟した記憶媒体に配置され得る。記憶媒体はメモリに配置され、プロセッサがメモリ内の情報を読み出し、プロセッサのハードウェアと組み合わせて上記の方法のステップを完了する。図には1つのプロセッサのみが示されているが、装置は複数のプロセッサを含んでもよく、またはプロセッサは複数の処理ユニットを含む。具体的には、プロセッサは、シングルコア(single-CPU)プロセッサであってもよく、マルチコア(multi-CPU)プロセッサであってもよい。
メモリは、プロセッサによって実行されるコンピュータ命令を格納するように構成される。メモリは、記憶回路であってもよく、メモリであってもよい。メモリは、揮発性メモリまたは不揮発性メモリであってもよく、揮発性メモリと不揮発性メモリの両方を含んでもよい。不揮発性メモリは、読み出し専用メモリ(read-only memory、ROM)、プログラマブル読み出し専用メモリ(programmable ROM、PROM)、消去可能プログラマブル読み出し専用メモリ(erasable PROM、EPROM)、電気的消去可能プログラマブル読み出し専用メモリ(electrically EPROM、EEPROM)、またはフラッシュメモリであってもよい。揮発性メモリは、ランダムアクセスメモリ(random access memory、RAM)であってもよく、外部キャッシュとして使用される。メモリは、プロセッサから独立していてもよいし、プロセッサ内の記憶ユニットであってもよい。これは、本明細書では限定されない。図には1つのメモリのみが示されているが、装置は複数のメモリを含んでもよく、またはメモリは複数の記憶ユニットを含む。
トランシーバは、プロセッサと別のユニットまたはネットワーク要素との間のコンテンツ対話を実施するように構成される。具体的には、トランシーバは、装置の通信インターフェースであってもよく、トランシーバ回路または通信ユニットであってもよい。あるいは、トランシーバは、プロセッサの通信インターフェースまたはトランシーバ回路であってもよい。可能な実装形態では、トランシーバはトランシーバチップであってもよい。トランシーバは、送信ユニットおよび/または受信ユニットをさらに含んでもよい。可能な実装形態では、トランシーバは、少なくとも1つの通信インターフェースを含んでもよい。別の可能な実装形態では、トランシーバは、代替的に、ソフトウェアの形態で実装されたユニットであってもよい。本出願の各実施形態では、プロセッサは、トランシーバを介して別のユニットまたはネットワーク要素と対話してもよい。例えば、プロセッサは、トランシーバを介して別のネットワーク要素からコンテンツを取得または受信する。プロセッサおよびトランシーバが2つの物理的に分離された構成要素である場合、プロセッサは、トランシーバを使用せずに装置の別のユニットとコンテンツを交換してもよい。
可能な実装形態では、プロセッサ、メモリ、およびトランシーバは、バスを介して互いに接続されてもよい。バスは、周辺機器相互接続(peripheral component interconnect、PCI)バス、拡張業界標準アーキテクチャ(extended industry standard architecture、EISA)バスなどであってもよい。バスは、アドレスバス、データバス、コントロールバスなどに分類されてもよい。
本出願の実施形態では、「例」、「例えば」などの語は、例、例示、または説明を与えることを表すために使用される。本出願の実施形態において「例」または「例えば」として説明されているどの実施形態または設計案も、別の実施形態または設計案と比べてより好ましいものまたはより多くの利点を有するものとして説明されてはいない。正確には、「例」または「例えば」という用語の使用は、関連概念を特定の方法で提示することを意図している。
本出願の実施形態では、理解を容易にするために、複数の例が説明のために使用されている。しかしながら、これらの例は単なる例であるが、これは、これらの例が本出願を実施するための最適な実装形態であることを意味するものではない。
前述の実施形態のすべてまたは一部は、ソフトウェア、ハードウェア、ファームウェア、またはそれらの任意の組み合わせを使用することによって実施されてもよい。実装にソフトウェアが使用されるとき、実施形態のすべてまたは一部は、コンピュータプログラム製品の形で実装されてもよい。
コンピュータプログラム製品は1つまたは複数のコンピュータ命令を含む。コンピュータ実行可能命令がコンピュータにロードされて実行されると、本出願の実施形態による手順または機能のすべてまたは一部が生成される。コンピュータは、汎用コンピュータ、専用コンピュータ、コンピュータネットワーク、または他のプログラマブル装置であってもよい。コンピュータ命令は、コンピュータ可読記憶媒体に格納されてもよいし、あるコンピュータ可読記憶媒体から別のコンピュータ可読記憶媒体に送信されてもよい。例えば、コンピュータ命令は、有線(例えば、同軸ケーブル、光ファイバ、もしくはデジタル加入者回線(DSL))方式またはワイヤレス(例えば、赤外線、無線、もしくはマイクロ波)方式で、あるウェブサイト、コンピュータ、サーバ、またはデータセンタから別のウェブサイト、コンピュータ、サーバ、またはデータセンタに送信されてもよい。コンピュータ可読記憶媒体は、コンピュータによってアクセス可能な任意の使用可能媒体、または1つもしくは複数の使用可能媒体を統合した、サーバもしくはデータセンタなどのデータ記憶デバイスであってもよい。使用可能な媒体は、磁気媒体(例えば、フロッピーディスク、ハードディスク、または磁気テープ)、光学媒体(例えば、DVD)、半導体媒体(例えば、ソリッドステートドライブSolid State Disk(SSD))などであってもよい。
801 取得ユニット
802 決定ユニット
803 処理ユニット
900 符号化装置
901 プロセッサ
902 メモリ
903 有線またはワイヤレスネットワークインターフェース

Claims (31)

  1. 線形予測符号化LPCパラメータ符号化方法であって、
    オーディオ信号の少なくとも2つのチャネルの符号化対象LPCパラメータを取得するステップと、
    前記少なくとも2つのチャネルの前記符号化対象LPCパラメータから参照LPCパラメータを決定するステップであって、前記少なくとも2つのチャネルの前記符号化対象LPCパラメータのうちの前記参照LPCパラメータ以外のLPCパラメータは非参照LPCパラメータである、ステップと、
    前記参照LPCパラメータの直接符号化結果を取得するステップと、
    前記参照LPCパラメータに基づいて前記非参照LPCパラメータの残差を決定するステップと、
    前記参照LPCパラメータの前記直接符号化結果および前記残差に基づいて前記非参照LPCパラメータの残差符号化結果を決定するステップと、
    前記参照LPCパラメータの前記直接符号化結果および前記非参照LPCパラメータの前記残差符号化結果を符号化ビットストリームに書き込むステップと
    を含む、方法。
  2. 前記少なくとも2つのチャネルの前記符号化対象LPCパラメータから参照LPCパラメータを決定する前記ステップが、
    前記少なくとも2つのチャネルの前記符号化対象LPCパラメータ内にあり、前記参照LPCパラメータとして直接量子化符号化のために最小ビット数を必要とするLPCパラメータを決定するステップ
    を含む、請求項1に記載の方法。
  3. 前記少なくとも2つのチャネルの前記符号化対象LPCパラメータが、少なくとも3つのチャネルの符号化対象LPCパラメータを含み、
    前記少なくとも2つのチャネルの前記符号化対象LPCパラメータから参照LPCパラメータを決定する前記ステップは、
    前記少なくとも3つのチャネルの前記符号化対象LPCパラメータの各LPCパラメータと別のLPCパラメータとの差の絶対値を取得するステップと、
    各LPCパラメータと他のLPCパラメータとの差の絶対値の平均値を取得するステップと、
    前記LPCパラメータ内の、前記差の前記絶対値の最小平均値を有するLPCパラメータを、前記参照LPCパラメータとして決定するステップと
    を含む、請求項1に記載の方法。
  4. 前記差が、平均二乗誤差またはコサイン距離を含む、
    請求項3に記載の方法。
  5. 前記オーディオ信号が複数のチャネルを含み、
    前記方法は、
    前記オーディオ信号の前記複数のチャネルの符号化対象LPCパラメータをグループ化することによって複数のパラメータグループを決定するステップであって、前記複数のパラメータグループのうちの1つは前記少なくとも2つのチャネルの前記符号化対象LPCパラメータを含み、前記複数のパラメータグループ内の前記LPCパラメータには交差がない、ステップ
    をさらに含む、請求項1から4のいずれか一項に記載の方法。
  6. 前記オーディオ信号の前記複数のチャネルの符号化対象LPCパラメータをグループ化することによって複数のパラメータグループを決定する前記ステップが、
    前記オーディオ信号の前記複数のチャネルのチャネル番号に基づいて前記複数のパラメータグループを決定するステップ、または、
    前記オーディオ信号の前記複数のチャネルの各々に対応するスピーカの位置に基づいて前記複数のパラメータグループを決定するステップ
    を含む、請求項5に記載の方法。
  7. 前記オーディオ信号の前記複数のチャネルの符号化対象LPCパラメータをグループ化することによって複数のパラメータグループを決定する前記ステップが、
    前記複数のパラメータグループを決定するために、前記オーディオ信号の前記複数のチャネルの前記符号化対象LPCパラメータをクラスタリングするステップ
    を含む、請求項5に記載の方法。
  8. 前記複数のパラメータグループを決定するために、前記オーディオ信号の前記複数のチャネルの前記符号化対象LPCパラメータをクラスタリングする前記ステップが、
    前記複数のチャネルの前記符号化対象LPCパラメータからM個のLPCパラメータを決定するステップであって、前記M個のLPCパラメータ間の差の絶対値の平均値は、前記複数のチャネルの前記LPCパラメータのうちの任意のM個のLPCパラメータ間の差の絶対値の平均値以上であり、前記M個のLPCパラメータは、M個のパラメータグループのクラスタリングセンタであり、Mは予め設定された値である、ステップと、
    前記M個のパラメータグループを決定するために、前記M個のクラスタリングセンタに基づいてクラスタリングを実行するステップであって、前記M個のパラメータグループ内の第1のパラメータグループ内の第1のLPCパラメータと第2のLPCパラメータとの差の絶対値は、前記第1のLPCパラメータと第3のLPCパラメータとの差の絶対値よりも小さく、前記第2のLPCパラメータは、前記第1のパラメータグループのクラスタリングセンタであり、前記第3のLPCパラメータは、第2のパラメータグループのクラスタリングセンタであり、前記第1のパラメータグループおよび前記第2のパラメータグループは、前記M個のパラメータグループ内の任意の2つの異なるパラメータグループである、ステップと
    を含む、請求項7に記載の方法。
  9. オーディオ信号の少なくとも2つのチャネルの符号化対象LPCパラメータを取得する前記ステップが、
    高次元LPCパラメータグループおよび低次元LPCパラメータグループを取得するために、前記オーディオ信号の前記少なくとも2つのチャネルの元のLPCパラメータを分割するステップであって、前記高次元LPCパラメータグループは、前記少なくとも2つのチャネルの前記符号化対象LPCパラメータを含むか、または前記低次元LPCパラメータグループは、前記少なくとも2つのチャネルの前記符号化対象LPCパラメータを含む、ステップ
    を含む、請求項1から4のいずれか一項に記載の方法。
  10. 前記オーディオ信号が複数のチャネルを含み、
    オーディオ信号の少なくとも2つのチャネルの符号化対象LPCパラメータを取得する前記ステップは、
    高次元LPCパラメータグループおよび低次元LPCパラメータグループを取得するために、前記オーディオ信号の前記複数のチャネルの元のLPCパラメータを分割するステップと、
    前記高次元LPCパラメータグループ内のLPCパラメータをグループ化することによって複数の高次元パラメータグループを取得するステップであって、前記複数の高次元パラメータグループのうちの1つは前記少なくとも2つのチャネルの前記符号化対象LPCパラメータを含み、前記複数の高次元パラメータグループ内のLPCパラメータには交差がない、ステップ、または、
    前記低次元LPCパラメータグループ内のLPCパラメータをグループ化することによって複数の低次元パラメータグループを取得するステップであって、前記複数の低次元パラメータグループのうちの1つは前記少なくとも2つのチャネルの前記符号化対象LPCパラメータを含み、前記複数の低次元パラメータグループ内のLPCパラメータには交差がない、ステップと
    を含む、請求項1から4のいずれか一項に記載の方法。
  11. 前記少なくとも2つのチャネルの前記符号化対象LPCパラメータから参照LPCパラメータを決定する前記ステップの前に、前記方法は、
    前記少なくとも2つのチャネル内の2つのチャネルごとのLPCパラメータ間の差の絶対値が予め設定された閾値以下であると決定するステップであって、前記2つのチャネルの前記LPCパラメータ間の前記差は、前記2つのチャネルの前記LPCパラメータ間の平均二乗誤差の平均値またはコサイン距離の平均値を含む、ステップ
    をさらに含む、請求項1から10のいずれか一項に記載の方法。
  12. 前記参照LPCパラメータの前記直接符号化結果および前記非参照LPCパラメータの前記残差符号化結果を符号化ビットストリームに書き込む前記ステップの前に、前記方法は、
    前記非参照LPCパラメータの直接符号化結果を取得するステップと、
    第1の歪みと第2の歪みとの差が第1の予め設定された閾値以下であると決定するステップであって、前記第1の歪みは前記非参照LPCパラメータに対する前記非参照LPCパラメータの前記残差符号化結果の歪みであり、前記第2の歪みは前記非参照LPCパラメータに対する前記非参照LPCパラメータの前記直接符号化結果の歪みである、ステップと
    をさらに含む、請求項1から11のいずれか一項に記載の方法。
  13. 前記参照LPCパラメータの前記直接符号化結果および前記非参照LPCパラメータの前記残差符号化結果を符号化ビットストリームに書き込む前記ステップの前に、前記方法は、
    第1のビット数と第2のビット数との差が第2の予め設定された閾値以上であると決定するステップであって、前記第1のビット数は前記非参照LPCパラメータを直接符号化するのに必要なビット数であり、前記第2のビット数は前記参照LPCパラメータの前記直接符号化結果および前記残差に基づいて前記非参照LPCパラメータを符号化するのに必要なビット数である、ステップ
    をさらに含む、請求項1から12のいずれか一項に記載の方法。
  14. オーディオ信号の少なくとも2つのチャネルの符号化対象線形予測符号化(LPCパラメータを取得するように構成された取得ユニットと、
    前記少なくとも2つのチャネルの前記符号化対象LPCパラメータから参照LPCパラメータを決定するように構成された決定ユニットであって、前記少なくとも2つのチャネルの前記符号化対象LPCパラメータのうちの前記参照LPCパラメータ以外のLPCパラメータは非参照LPCパラメータであり、
    前記取得ユニットは、前記参照LPCパラメータの直接符号化結果を取得するようにさらに構成され、
    前記決定ユニットは、前記参照LPCパラメータに基づいて前記非参照LPCパラメータの残差を決定するようにさらに構成され、
    前記決定ユニットは、前記参照LPCパラメータの前記直接符号化結果および前記残差に基づいて、前記非参照LPCパラメータの残差符号化結果を決定するようにさらに構成される、決定ユニットと、
    前記参照LPCパラメータの前記直接符号化結果および前記非参照LPCパラメータの前記残差符号化結果を符号化ビットストリームに書き込むように構成された処理ユニットと
    を備える、符号化装置。
  15. 前記決定ユニットが、
    前記少なくとも2つのチャネルの前記符号化対象LPCパラメータ内にあり、直接量子化符号化のために最小ビット数を必要とするLPCパラメータを前記参照LPCパラメータとして決定する
    ように特に構成される、請求項14に記載の装置。
  16. 前記少なくとも2つのチャネルの前記符号化対象LPCパラメータが、少なくとも3つのチャネルの符号化対象LPCパラメータを含み、
    前記取得ユニットは、
    前記少なくとも3つのチャネルの前記符号化対象LPCパラメータの各LPCパラメータと別のLPCパラメータとの差の絶対値を取得し、
    各LPCパラメータと他のLPCパラメータとの差の絶対値の平均値を取得する
    ように特に構成され、
    前記決定ユニットは、
    前記LPCパラメータ間の前記差の前記絶対値の最小平均値を有するLPCパラメータを前記参照LPCパラメータとして決定する
    ように特に構成される、請求項14に記載の装置。
  17. 前記差が、平均二乗誤差またはコサイン距離を含む、
    請求項16に記載の装置。
  18. 前記オーディオ信号が複数のチャネルを含み、
    前記決定ユニットは、
    前記オーディオ信号の前記複数のチャネルの符号化対象LPCパラメータをグループ化することによって複数のパラメータグループを決定し、前記複数のパラメータグループのうちの1つは前記少なくとも2つのチャネルの前記符号化対象LPCパラメータを含み、前記複数のパラメータグループ内の前記LPCパラメータには交差がない
    ようにさらに構成される、請求項14から17のいずれか一項に記載の装置。
  19. 前記決定ユニットが、
    前記オーディオ信号の前記複数のチャネルのチャネル番号に基づいて前記複数のパラメータグループを決定するか、または、
    前記オーディオ信号の前記複数のチャネルの各々に対応するスピーカの位置に基づいて前記複数のパラメータグループを決定する
    ように特に構成される、請求項18に記載の装置。
  20. 前記決定ユニットは、
    前記複数のパラメータグループを決定するために、前記オーディオ信号の前記複数のチャネルの前記符号化対象LPCパラメータをクラスタリングする
    ように特に構成される、請求項18に記載の装置。
  21. 前記決定ユニットが、
    前記複数のチャネルの前記符号化対象LPCパラメータからM個のLPCパラメータを決定し、前記M個のLPCパラメータ間の差の絶対値の平均値は、前記複数のチャネルの前記LPCパラメータのうちの任意のM個のLPCパラメータ間の差の絶対値の平均値以上であり、前記M個のLPCパラメータは、M個のパラメータグループのクラスタリングセンタであり、Mは予め設定された値であり、
    前記M個のパラメータグループを決定するために、前記M個のクラスタリングセンタに基づいてクラスタリングを実行し、前記M個のパラメータグループ内の第1のパラメータグループ内の第1のLPCパラメータと第2のLPCパラメータとの差の絶対値は、前記第1のLPCパラメータと第3のLPCパラメータとの差の絶対値よりも小さく、前記第2のLPCパラメータは、前記第1のパラメータグループのクラスタリングセンタであり、前記第3のLPCパラメータは、第2のパラメータグループのクラスタリングセンタであり、前記第1のパラメータグループおよび前記第2のパラメータグループは、前記M個のパラメータグループ内の任意の2つの異なるパラメータグループである
    ように特に構成される、請求項20に記載の装置。
  22. 前記取得ユニットが、
    高次元LPCパラメータグループおよび低次元LPCパラメータグループを取得するために、前記オーディオ信号の前記少なくとも2つのチャネルの元のLPCパラメータを分割し、前記高次元LPCパラメータグループは、前記少なくとも2つのチャネルの前記符号化対象LPCパラメータを含むか、または前記低次元LPCパラメータグループは、前記少なくとも2つのチャネルの前記符号化対象LPCパラメータを含む
    ように特に構成される、請求項14から17のいずれか一項に記載の装置。
  23. 前記オーディオ信号が複数のチャネルを含み、
    前記取得ユニットは、
    高次元LPCパラメータグループおよび低次元LPCパラメータグループを取得するために、前記オーディオ信号の前記複数のチャネルの元のLPCパラメータを分割し、かつ
    前記高次元LPCパラメータグループ内のLPCパラメータをグループ化することによって複数の高次元パラメータグループを取得し、前記複数の高次元パラメータグループのうちの1つは前記少なくとも2つのチャネルの前記符号化対象LPCパラメータを含み、前記複数の高次元パラメータグループ内のLPCパラメータには交差がないか、または
    前記低次元LPCパラメータグループ内のLPCパラメータをグループ化することによって複数の低次元パラメータグループを取得し、前記複数の低次元パラメータグループのうちの1つは前記少なくとも2つのチャネルの前記符号化対象LPCパラメータを含み、前記複数の低次元パラメータグループ内のLPCパラメータには交差がない
    ように特に構成される、請求項14から17のいずれか一項に記載の装置。
  24. 前記決定ユニットが、
    前記少なくとも2つのチャネル内の2つのチャネルごとのLPCパラメータ間の差の絶対値が予め設定された閾値以下であると決定し、前記2つのチャネルの前記LPCパラメータ間の前記差は、前記2つのチャネルの前記LPCパラメータ間の平均二乗誤差の平均値またはコサイン距離の平均値を含む
    ようにさらに構成される、請求項14から23のいずれか一項に記載の装置。
  25. 前記取得ユニットが、
    前記非参照LPCパラメータの直接符号化結果を取得するようにさらに構成され、
    前記決定ユニットが、第1の歪みと第2の歪みとの差が第1の予め設定された閾値以下であると決定し、前記第1の歪みは前記非参照LPCパラメータに対する前記非参照LPCパラメータの前記残差符号化結果の歪みであり、前記第2の歪みは前記非参照LPCパラメータに対する前記非参照LPCパラメータの前記直接符号化結果の歪みである、
    ようにさらに構成される、請求項14から24のいずれか一項に記載の装置。
  26. 前記決定ユニットが、
    第1のビット数と第2のビット数との差が第2の予め設定された閾値以上であると決定し、前記第1のビット数は前記非参照LPCパラメータを直接符号化するのに必要なビット数であり、前記第2のビット数は前記参照LPCパラメータの前記直接符号化結果および前記残差に基づいて前記非参照LPCパラメータを符号化するのに必要なビット数である
    ようにさらに構成される、請求項14から25のいずれか一項に記載の装置。
  27. プロセッサおよびメモリを備える符号化装置であって、前記プロセッサおよび前記メモリは互いに接続され、前記メモリはコンピュータプログラムを格納するように構成され、前記コンピュータプログラムはプログラム命令を含み、前記プロセッサは、請求項1から13のいずれか一項に記載の方法を実行するために、前記プログラム命令を呼び出すように構成される、符号化装置。
  28. 命令を含むコンピュータ可読記憶媒体であって、前記命令がコンピュータ上で実行されると、前記コンピュータは、請求項1から13のいずれか一項に記載の方法を実行することが可能になる、コンピュータ可読記憶媒体。
  29. プロセッサおよび通信インターフェースを備える符号化装置であって、前記プロセッサは、前記通信インターフェースを介してコンピュータプログラムを読み出して格納し、前記コンピュータプログラムはプログラム命令を含み、前記プロセッサは、請求項1から13のいずれか一項に記載の方法を実行するために、前記プログラム命令を呼び出すように構成される、符号化装置。
  30. プロセッサおよびメモリを備える符号化装置であって、前記プロセッサは、請求項1から13のいずれか一項に記載の方法を実行するように構成され、前記メモリは、前記符号化ビットストリームを格納するように構成される、符号化装置。
  31. 請求項1から13のいずれか一項に記載の方法をコンピュータに実行させるプログラム。
JP2022565904A 2020-04-28 2021-01-04 線形予測符号化パラメータの符号化方法および符号化装置 Active JP7432011B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010349207.5 2020-04-28
CN202010349207.5A CN113571073A (zh) 2020-04-28 2020-04-28 一种线性预测编码参数的编码方法和编码装置
PCT/CN2021/070115 WO2021218229A1 (zh) 2020-04-28 2021-01-04 一种线性预测编码参数的编码方法和编码装置

Publications (2)

Publication Number Publication Date
JP2023523074A JP2023523074A (ja) 2023-06-01
JP7432011B2 true JP7432011B2 (ja) 2024-02-15

Family

ID=78157996

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022565904A Active JP7432011B2 (ja) 2020-04-28 2021-01-04 線形予測符号化パラメータの符号化方法および符号化装置

Country Status (8)

Country Link
US (1) US20230046850A1 (ja)
EP (1) EP4131262A4 (ja)
JP (1) JP7432011B2 (ja)
KR (1) KR20230002833A (ja)
CN (1) CN113571073A (ja)
BR (1) BR112022021656A2 (ja)
TW (1) TWI773267B (ja)
WO (1) WO2021218229A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005115267A (ja) 2003-10-10 2005-04-28 Nippon Telegr & Teleph Corp <Ntt> 多チャネル符号化方法、復号方法、これらの装置、プログラムおよびその記録媒体
WO2008016098A1 (fr) 2006-08-04 2008-02-07 Panasonic Corporation dispositif de codage audio stéréo, dispositif de décodage audio stéréo et procédé de ceux-ci
WO2018189414A1 (en) 2017-04-10 2018-10-18 Nokia Technologies Oy Audio coding
JP2018533056A (ja) 2015-09-25 2018-11-08 ヴォイスエイジ・コーポレーション ステレオ音声信号をプライマリチャンネルおよびセカンダリチャンネルに時間領域ダウンミックスするために左チャンネルと右チャンネルとの間の長期相関差を使用する方法およびシステム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6978236B1 (en) * 1999-10-01 2005-12-20 Coding Technologies Ab Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching
CN101609680B (zh) * 2009-06-01 2012-01-04 华为技术有限公司 压缩编码和解码的方法、编码器和解码器以及编码装置
BR112012007803B1 (pt) * 2009-10-08 2022-03-15 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Decodificador de sinal de áudio multimodal, codificador de sinal de áudio multimodal e métodos usando uma configuração de ruído com base em codificação de previsão linear
CN101944362B (zh) * 2010-09-14 2012-05-30 北京大学 一种基于整形小波变换的音频无损压缩编码、解码方法
CN102982807B (zh) * 2012-07-17 2016-02-03 深圳广晟信源技术有限公司 用于对语音信号lpc系数进行多级矢量量化的方法和系统
SG11201608787UA (en) * 2014-03-28 2016-12-29 Samsung Electronics Co Ltd Method and device for quantization of linear prediction coefficient and method and device for inverse quantization
US10109284B2 (en) * 2016-02-12 2018-10-23 Qualcomm Incorporated Inter-channel encoding and decoding of multiple high-band audio signals

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005115267A (ja) 2003-10-10 2005-04-28 Nippon Telegr & Teleph Corp <Ntt> 多チャネル符号化方法、復号方法、これらの装置、プログラムおよびその記録媒体
WO2008016098A1 (fr) 2006-08-04 2008-02-07 Panasonic Corporation dispositif de codage audio stéréo, dispositif de décodage audio stéréo et procédé de ceux-ci
JP2018533056A (ja) 2015-09-25 2018-11-08 ヴォイスエイジ・コーポレーション ステレオ音声信号をプライマリチャンネルおよびセカンダリチャンネルに時間領域ダウンミックスするために左チャンネルと右チャンネルとの間の長期相関差を使用する方法およびシステム
WO2018189414A1 (en) 2017-04-10 2018-10-18 Nokia Technologies Oy Audio coding

Also Published As

Publication number Publication date
KR20230002833A (ko) 2023-01-05
JP2023523074A (ja) 2023-06-01
EP4131262A4 (en) 2023-08-16
WO2021218229A1 (zh) 2021-11-04
BR112022021656A2 (pt) 2022-12-20
EP4131262A1 (en) 2023-02-08
TW202141470A (zh) 2021-11-01
US20230046850A1 (en) 2023-02-16
CN113571073A (zh) 2021-10-29
TWI773267B (zh) 2022-08-01

Similar Documents

Publication Publication Date Title
TWI752281B (zh) 用以使用量化及熵寫碼來編碼或解碼方向性音訊寫碼參數之設備及方法
US9479886B2 (en) Scalable downmix design with feedback for object-based surround codec
KR101168473B1 (ko) 오디오 인코딩 시스템
EP1908056A1 (en) Concept for bridging the gap between parametric multi-channel audio coding and matrixed-surround multi-channel coding
KR20220113842A (ko) 다채널 오디오 신호들의 렌더링을 향상시키기 위한 방법 및 디바이스
KR20210027236A (ko) 몰입형 오디오 신호를 포함하는 비트스트림을 생성 또는 디코딩하기 위한 방법 및 디바이스
TWI762008B (zh) 編碼及解碼浸入式語音及音訊服務位元流之方法、系統及非暫時性電腦可讀媒體
JP2016531327A (ja) 先進的結合のための非一様パラメータ量子化
US8041041B1 (en) Method and system for providing stereo-channel based multi-channel audio coding
JP2022543083A (ja) Ivasビットストリームの符号化および復号化
CN109300480B (zh) 立体声信号的编解码方法和编解码装置
JP7432011B2 (ja) 線形予測符号化パラメータの符号化方法および符号化装置
RU2811412C1 (ru) СПОСОБ КОДИРОВАНИЯ ПАРАМЕТРОВ КОДИРОВАНИЯ С ЛИНЕЙНЫМ ПРОГНОЗИРОВАНИЕМ и УСТРОЙСТВО КОДИРОВАНИЯ
US20240153512A1 (en) Audio codec with adaptive gain control of downmixed signals
CN114822564A (zh) 音频对象的比特分配方法和装置
US10916255B2 (en) Apparatuses and methods for encoding and decoding a multichannel audio signal
US20240196156A1 (en) Binarual rendering
RU2802677C2 (ru) Способы и устройства для формирования или декодирования битового потока, содержащего иммерсивные аудиосигналы
WO2022012553A1 (zh) 多声道音频信号的编解码方法和装置
WO2023221590A1 (zh) 编解码方法及电子设备
WO2024123936A2 (en) Binarual rendering
WO2024097485A1 (en) Low bitrate scene-based audio coding
TW202411984A (zh) 用於具有元資料之參數化經寫碼獨立串流之不連續傳輸的編碼器及編碼方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221207

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221207

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231128

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240109

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240202

R150 Certificate of patent or registration of utility model

Ref document number: 7432011

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150