JP7520922B2 - ステレオ信号符号化方法およびステレオ信号符号化装置 - Google Patents

ステレオ信号符号化方法およびステレオ信号符号化装置 Download PDF

Info

Publication number
JP7520922B2
JP7520922B2 JP2022115641A JP2022115641A JP7520922B2 JP 7520922 B2 JP7520922 B2 JP 7520922B2 JP 2022115641 A JP2022115641 A JP 2022115641A JP 2022115641 A JP2022115641 A JP 2022115641A JP 7520922 B2 JP7520922 B2 JP 7520922B2
Authority
JP
Japan
Prior art keywords
parameter
subbands
energy
res
residual signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022115641A
Other languages
English (en)
Other versions
JP2022163058A (ja
Inventor
▲賓▼ 王
▲澤▼新 ▲劉▼
▲海▼▲ティン▼ 李
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of JP2022163058A publication Critical patent/JP2022163058A/ja
Application granted granted Critical
Publication of JP7520922B2 publication Critical patent/JP7520922B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/70Media network packetisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling
    • H04L65/756Media network packet handling adapting media to device capabilities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/007Two-channel systems in which the audio signals are in digital form
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Description

本出願は、参照によりその全体が本明細書に組み入れられる、2018年5月31日付で中国特許庁に出願された、「STEREO SIGNAL ENCODING METHOD AND APPARATUS」という名称の中国特許出願第201810549237.3号に基づく優先権を主張するものである。
本出願はオーディオ分野に関し、より具体的には、ステレオ信号符号化方法およびステレオ信号符号化装置に関する。
時間領域または時間周波数領域のステレオ符号化技術を使用してステレオ信号を符号化する一般的なプロセスは以下のとおりである。
左チャネル時間領域信号および右チャネル時間領域信号に対して時間領域前処理を行い、
時間領域前処理によって得られる左チャネル時間領域信号および右チャネル時間領域信号に対して時間領域解析を行い、
時間領域前処理によって得られる左チャネル時間領域信号および右チャネル時間領域信号に対して時間周波数領域変換を行って、左チャネル周波数領域信号および右チャネル周波数領域信号を得、
時間領域におけるチャネル間時間差(Inter-channel Time Difference、ITD)パラメータを決定し、
ITDパラメータに基づいて左周波数領域信号および右チャネル周波数領域信号に対して時間シフト調整を行い、
時間シフト調整によって得られる左チャネル周波数領域信号および右チャネル周波数領域信号に基づいてステレオパラメータ、ダウンミックス信号、および残差信号を計算し、ステレオパラメータ、ダウンミックス信号、および残差信号を符号化する。
先行技術では、符号化レートが比較的低い場合、ステレオパラメータおよびダウンミックス信号のみが一般に符号化され、符号化レートが比較的高い場合にのみ残差信号の一部または全部が符号化されることが知られている。この場合には、復号されたステレオ信号の空間感覚が比較的低く、復号されたステレオ信号の音像安定性が比較的低い。
他の先行技術では、符号化レートが比較的低い場合、ダウンミックス信号に加えて、事前設定された帯域幅範囲を満足するサブバンドの残差信号も符号化されることが知られている。この符号化方法は復号されたステレオ信号の空間感覚および音像安定性を改善することができるが、残差信号の符号化およびダウンミックス信号の符号化のために使用される符号化ビットの総数が固定され、ダウンミックス信号符号化中に低周波数情報が優先的に符号化されるので、ダウンミックス信号が符号化されるべきときに、一部の信号をダウンミックス信号中のより豊富な高周波数情報で符号化するのに十分なビット数がない可能性がある。したがって、復号されたステレオ信号の高周波歪みが比較的大きく、それによって符号化品質に影響が及ぶ。
本出願は、復号されたステレオ信号の空間感覚および音像安定性が改善されるとともに復号されたステレオ信号の高周波歪みを可能な限り低減することができ、それによって符号化品質が改善されるような、ステレオ信号符号化方法を提供する。
第1の態様によれば、ステレオ信号符号化方法が提供される。本方法は、ステレオ信号の現在のフレームの残差信号符号化パラメータを、現在のフレームのM個のサブバンドの各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいて決定するステップであって、現在のフレームの残差信号符号化パラメータが、M個のサブバンドの残差信号を符号化するかどうかを示すために使用され、M個のサブバンドがN個のサブバンドの少なくとも一部であり、Nが1より大きい正の整数であり、M≦N、Mが正の整数である、ステップと、現在のフレームの残差信号符号化パラメータに基づいて、現在のフレームのM個のサブバンドの残差信号を符号化するかどうかを決定するステップとを含む。
残差信号符号化パラメータは、N個のサブバンド内の、事前設定された帯域幅範囲を満足するM個のサブバンドのダウンミックス信号エネルギーおよび残差信号エネルギーに基づいて決定され、M個のサブバンドの各々の残差信号を符号化するかどうかは、残差信号符号化パラメータに基づいて決定される。これにより、符号化レートが比較的低い場合にダウンミックス信号のみを符号化することが回避される。あるいは、事前設定された帯域幅範囲を満足するサブバンドのすべての残差信号を符号化するかどうかが、残差信号符号化パラメータに基づいて決定される。したがって、復号されたステレオ信号の空間感覚および音像安定性が改善されると同時に復号されたステレオ信号の高周波歪みを可能な限り低減することができ、それによって符号化品質が改善される。
第1の態様を参照すると、第1の態様の1つの可能な実施態様において、M個のサブバンドは、N個のサブバンド内の、サブバンドインデックス番号が事前設定された最大サブバンドインデックス番号以下であるM個のサブバンドである。
任意選択で、一実施態様では、M個のサブバンドは、N個のサブバンド内の、サブバンドインデックス番号が事前設定された最小サブバンドインデックス番号以上、事前設定された最大サブバンドインデックス番号以下であるM個のサブバンドである。
最小サブバンドインデックス番号および/または最大サブバンドインデックス番号は、異なる符号化レートに基づいて設定される。残差信号符号化パラメータは、異なる符号化レートと、N個のサブバンド内の複数の特定のサブバンドのダウンミックス信号エネルギーおよび残差信号エネルギーとに基づいて決定され、M個のサブバンドの各々の残差信号を符号化するかどうかは、残差信号符号化パラメータに基づいて決定される。これにより、符号化レートが比較的低い場合にダウンミックス信号のみを符号化することが回避される。あるいは、事前設定された帯域幅範囲を満足するサブバンドのすべての残差信号を符号化するかどうかが、残差信号符号化パラメータに基づいて決定される。したがって、復号されたステレオ信号の空間感覚および音像安定性が改善されると同時に復号されたステレオ信号の高周波歪みを可能な限り低減することができ、それによって符号化品質が改善される。
第1の態様を参照すると、第1の態様の1つの可能な実施態様において、現在のフレームの残差信号符号化パラメータに基づいて、M個のサブバンドの各々の残差信号を符号化するかどうかを決定するステップは、現在のフレームの残差信号符号化パラメータを事前設定された第1の閾値と比較するステップであって、第1の閾値が0より大きく1.0より小さい、ステップと、現在のフレームの残差信号符号化パラメータが第1の閾値以下である場合、M個のサブバンドの各々の残差信号を符号化しないと決定するステップ、または現在のフレームの残差信号符号化パラメータが第1の閾値より大きい場合、M個のサブバンドの各々の残差信号を符号化すると決定するステップとを含む。
第1の閾値が設定され、決定された残差信号符号化パラメータが、第1の閾値と比較される。M個のサブバンドの各々の残差信号を符号化するかどうかは、残差信号符号化パラメータと第1の閾値との比較結果に基づいて決定される。これにより、符号化レートが比較的低い場合にダウンミックス信号のみを符号化することが回避される。あるいは、事前設定された帯域幅範囲を満足するサブバンドのすべての残差信号を符号化するかどうかが、残差信号符号化パラメータと第1の閾値との比較結果に基づいて決定される。したがって、復号されたステレオ信号の空間感覚および音像安定性が改善されると同時に復号されたステレオ信号の高周波歪みを可能な限り低減することができ、それによって符号化品質が改善される。
第1の態様を参照すると、第1の態様の1つの可能な実施態様において、M個のサブバンドの各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいて現在のフレームの残差信号符号化パラメータを決定するステップは、M個のサブバンドの各々のダウンミックス信号エネルギー、残差信号エネルギー、およびサイドゲインに基づいて残差信号符号化パラメータを決定するステップ、を含む。
M個のサブバンドの各々の残差信号符号化パラメータは、ダウンミックス信号エネルギー、残差信号エネルギー、およびサイドゲインに基づいて決定され、M個のサブバンドの各々の残差信号を符号化するかどうかは、残差信号符号化パラメータに基づいて決定される。これにより、符号化レートが比較的低い場合にダウンミックス信号のみを符号化することが回避される。あるいは、事前設定された帯域幅範囲を満足するサブバンドのすべての残差信号を符号化するかどうかが、残差信号符号化パラメータに基づいて決定される。したがって、復号されたステレオ信号の空間感覚および音像安定性が改善されると同時に復号されたステレオ信号の高周波歪みを可能な限り低減することができ、それによって符号化品質が改善される。
第1の態様を参照すると、第1の態様の1つの可能な実施態様において、M個のサブバンドの各々のダウンミックス信号エネルギー、残差信号エネルギー、およびサイドゲインに基づいて残差信号符号化パラメータを決定するステップは、M個のサブバンドの各々のダウンミックス信号エネルギー、残差信号エネルギー、およびサイドゲインに基づいて第1のパラメータを決定するステップであって、第1のパラメータが、M個のサブバンドの各々のダウンミックス信号エネルギーと残差信号エネルギーとの間の値関係を示す、ステップと、M個のサブバンドの各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいて第2のパラメータを決定するステップであって、第2のパラメータが第1のエネルギー和と第2のエネルギー和との間の値関係を示し、第1のエネルギー和がM個のサブバンドの残差信号エネルギーとダウンミックス信号エネルギーの和であり、第2のエネルギー和が、現在のフレームの前のフレームの周波数領域信号におけるM個のサブバンドの残差信号エネルギーとダウンミックス信号エネルギーの和であり、現在のフレームのM個のサブバンドが前のフレームのM個のサブバンドと同じサブバンドインデックス番号を有する、ステップと、第1のパラメータ、第2のパラメータ、および現在のフレームの前のフレームの長期平滑化パラメータに基づいて現在のフレームの残差信号符号化パラメータを決定するステップとを含む。
第1の態様を参照すると、第1の態様の1つの可能な実施態様において、M個のサブバンドの各々のダウンミックス信号エネルギー、残差信号エネルギー、およびサイドゲインに基づいて第1のパラメータを決定するステップは、M個のサブバンドの各々のダウンミックス信号エネルギー、残差信号エネルギー、およびサイドゲインに基づいてM個のエネルギーパラメータを決定するステップであって、M個のエネルギーパラメータが、M個のサブバンドの各々のダウンミックス信号エネルギーと残差信号エネルギーとの間の値関係を各々示し、M個のエネルギーパラメータがM個のサブバンドと1対1で対応する、ステップと、M個のエネルギーパラメータのうちの最大値を有するエネルギーパラメータを第1のパラメータとして決定するステップとを含む。
第1の態様を参照すると、第1の態様の1つの可能な実施態様において、M個のエネルギーパラメータのうちのサブバンドインデックス番号がbであるサブバンドのエネルギーパラメータが以下の式を満たし、
res_dmx_ratio[b]=res_cod_NRG_S[b]/(res_cod_NRG_S[b]+(1-g(b))・(1-g(b))・res_cod_NRG_M[b]+1)
式中、res_dmx_ratio[b]は、サブバンドインデックス番号がbであるサブバンドのエネルギーパラメータを表し、bは、0以上であり、事前設定された最大サブバンドインデックス番号以下であり、res_cod_NRG_S[b]は、サブバンドインデックス番号がbであるサブバンドの残差信号エネルギーを表し、res_cod_NRG_M[b]は、サブバンドインデックス番号がbであるサブバンドのダウンミックス信号エネルギーを表し、g(b)は、サブバンドインデックス番号がbであるサブバンドのサイドゲインside_gain[b]の関数を表す。
第1の態様を参照すると、第1の態様の1つの可能な実施態様において、M個のサブバンドの各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいて現在のフレームの残差信号符号化パラメータを決定するステップは、M個のサブバンドの各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいて第1のパラメータを決定するステップであって、第1のパラメータが、M個のサブバンドの各々のダウンミックス信号エネルギーと残差信号エネルギーとの間の値関係を示す、ステップと、M個のサブバンドの各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいて第2のパラメータを決定するステップであって、第2のパラメータが第1のエネルギー和と第2のエネルギー和との間の値関係を示し、第1のエネルギー和がM個のサブバンドの残差信号エネルギーとダウンミックス信号エネルギーの和であり、第2のエネルギー和が、現在のフレームの前のフレームの周波数領域信号におけるM個のサブバンドの残差信号エネルギーとダウンミックス信号エネルギーの和であり、現在のフレームのM個のサブバンドが前のフレームのM個のサブバンドと同じサブバンドインデックス番号を有する、ステップと、第1のパラメータ、第2のパラメータ、および現在のフレームの前のフレームの長期平滑化パラメータに基づいて現在のフレームの残差信号符号化パラメータを決定するステップとを含む。
第1の態様を参照すると、第1の態様の1つの可能な実施態様において、M個のサブバンドの各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいて第1のパラメータを決定するステップは、M個のサブバンドの各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいてM個のエネルギーパラメータを決定するステップであって、M個のエネルギーパラメータが、M個のサブバンドの各々のダウンミックス信号エネルギーと残差信号エネルギーとの間の値関係を各々示し、M個のエネルギーパラメータがM個のサブバンドと1対1で対応する、ステップと、M個のエネルギーパラメータのうちの最大値を有するエネルギーパラメータを第1のパラメータとして決定するステップとを含む。
任意選択で、一実施態様では、M個のエネルギーパラメータの和が、(補正されるべき)第1のパラメータres_dmx_ratio1として決定され、res_dmx_ratio1は、M個のエネルギーパラメータのうちの最大値res_dmx_ratio_maxおよびM個のサブバンドの各々のダウンミックス信号エネルギーres_cod_NRG_M[b]に基づいて補正され、補正によって得られたres_dmx_ratio2が決定される。
例えば、符号器側はres_dmx_ratio1を以下の式に従って補正し、式中、M=5であり、
補正によって得られたres_dmx_ratio2は以下の式を満たす。
Figure 0007520922000001
任意選択で、一実施態様では、補正によって得られたres_dmx_ratio2がさらに補正され得る。
例えば、補正によって最終的に得られたres_dmx_ratio3は以下の式を満たし、
res_dmx_ratio3=pow(res_dmx_ratio2,1.2)
式中、pow()関数は、指数関数を表し、pow(res_dmx_ratio2,1.2)は、res_dmx_ratio2の1.2乗を表す。
任意選択で、一実施態様では、符号器側は第1のパラメータを、M個のサブバンドの残差信号エネルギーの和およびM個のサブバンドのダウンミックス信号エネルギーの和に基づいて決定する。
具体的には、符号器側は、M個のサブバンドのダウンミックス信号エネルギーの和dmx_nrg_all_currとM個のサブバンドの残差信号エネルギーの和res_nrg_all_currとを別々に決定し、dmx_nrg_all_currおよびres_nrg_all_currに基づいて第1のパラメータを決定する。
任意選択で、一実施態様では、M個のサブバンドのダウンミックス信号エネルギーの和dmx_nrg_all_currは以下の式を満たし、
Figure 0007520922000002
式中、res_cod_NRG_M_prev[b]は、現在のフレームの前のフレームにおけるサブバンドインデックス番号がbであるサブバンドのダウンミックス信号エネルギーを表し、γ1は、平滑化係数を表し、γ1は、0以上1以下の実数であり、例えば、γ1=0.1である。
任意選択で、一実施態様では、M個のサブバンドの残差信号エネルギーの和res_nrg_all_currは以下の式を満たし、
Figure 0007520922000003
式中、res_cod_NRG_S_prev[b]は、現在のフレームの前のフレームにおけるサブバンドインデックス番号がbであるサブバンドの残差信号エネルギーを表し、γ2は、平滑化係数を表し、γ2は、0以上1以下の実数であり、例えば、γ2=0.1である。
符号器側は、dmx_nrg_all_currおよびres_nrg_all_currに基づいて第1のパラメータres_dmx_ratioを決定する。
例えば、符号器側によって最終的に決定された第1のパラメータres_dmx_ratioは以下の式を満たす。
res_dmx_ratio=res_nrg_all_curr/dmx_nrg_all_curr
第1の態様を参照すると、第1の態様の1つの可能な実施態様において、M個のエネルギーパラメータのうちのサブバンドインデックス番号がbであるサブバンドのエネルギーパラメータは以下の式を満たし、
res_dmx_ratio[b]=res_cod_NRG_S[b]/res_cod_NRG_M[b]
式中、res_dmx_ratio[b]は、サブバンドインデックス番号がbであるサブバンドのエネルギーパラメータを表し、bは、0以上であり、事前設定された最大サブバンドインデックス番号以下であり、res_cod_NRG_S[b]は、サブバンドインデックス番号がbであるサブバンドの残差信号エネルギーを表し、res_cod_NRG_M[b]は、サブバンドインデックス番号がbであるサブバンドのダウンミックス信号エネルギーを表す。
第1の態様を参照すると、第1の態様の1つの可能な実施態様において、現在のフレームの残差信号符号化パラメータは、現在のフレームの長期平滑化パラメータであり、現在のフレームの長期平滑化パラメータは以下の式を満たし、
res_dmx_ratio_lt=res_dmx_ratio・α+res_dmx_ratio_lt_prev・(1-α)
式中、res_dmx_ratio_ltは、現在のフレームの長期平滑化パラメータを表し、res_dmx_ratioは、第1のパラメータを表し、res_dmx_ratio_lt_prevは、現在のフレームの前のフレームの長期平滑化パラメータを表し、0<α<1であり、
第2のパラメータが事前設定された第3の閾値より大きい場合、第1のパラメータが事前設定された第2の閾値より小さい場合のαの値は、第1のパラメータが事前設定された第2の閾値以上の場合のαの値より大きく、第2の閾値は0以上0.6以下であり、第3の閾値は2.7以上3.7以下であるか、または
第2のパラメータが事前設定された第5の閾値より小さい場合、第1のパラメータが事前設定された第4の閾値より大きい場合のαの値は、第1のパラメータが事前設定された第4の閾値以下の場合のαの値より大きく、第4の閾値は0以上0.9以下であり、第5の閾値は0以上0.71以下であるか、または
第2のパラメータが事前設定された第5の閾値以上であり、事前設定された第3の閾値以下である場合、αの値は、第1のパラメータが事前設定された第2の閾値より小さく、第2のパラメータが事前設定された第3の閾値より大きい場合のαの値より小さく、第2の閾値は0以上0.6以下であり、第3の閾値は2.7以上3.7以下であり、第5の閾値は0以上0.71以下である。
第1の態様を参照すると、第1の態様の1つの可能な実施態様において、本方法は、M個のサブバンドの残差信号を符号化すると決定されるときに、M個のサブバンドのダウンミックス信号および残差信号を符号化するステップ、またはM個のサブバンドの残差信号を符号化しないと決定されるときに、M個のサブバンドのダウンミックス信号を符号化するステップ、をさらに含む。
第2の態様によれば、符号化装置が提供される。本装置は、ステレオ信号の現在のフレームの残差信号符号化パラメータを、現在のフレームのM個のサブバンドの各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいて決定するように構成された第1の決定モジュールであって、現在のフレームの残差信号符号化パラメータが、M個のサブバンドの残差信号を符号化するかどうかを示すために使用され、M個のサブバンドがN個のサブバンドの少なくとも一部であり、Nが1より大きい正の整数であり、M≦N、Mが正の整数である、第1の決定モジュールと、現在のフレームの残差信号符号化パラメータに基づいて、M個のサブバンドの残差信号を符号化するかどうかを決定するように構成された、第2の決定モジュールと、を含む。
第3の態様によれば、符号化装置が提供される。本装置はメモリとプロセッサとを含み、メモリは、プログラムを格納するように構成され、プロセッサは、プログラムを実行するように構成され、プログラムが実行されると、プロセッサは、第1の態様または第1の態様の可能な実施態様のいずれか1つによる方法を行う。
第4の態様によれば、コンピュータ可読記憶媒体が提供される。本コンピュータ可読記憶媒体は、デバイスによって実行されるべきプログラムコードを格納し、プログラムコードは、第1の態様または第1の態様の様々な実施態様による方法を行うために使用される命令を含む。
第5の態様によれば、チップが提供される。本チップは、プロセッサと通信インターフェースとを含む。通信インターフェースは、外部デバイスと通信するように構成される。プロセッサは、第1の態様または第1の態様の可能な実施態様のいずれか1つによる方法を行うように構成される。
任意選択で、一実施態様では、本チップはメモリをさらに含み得る。メモリは、命令を格納し、プロセッサは、メモリに格納された命令を実行するように構成される。命令が実行されると、プロセッサは、第1の態様または第1の態様の可能な実施態様のいずれか1つによる方法を行うように構成される。
任意選択で、一実施態様では、本チップは、端末機器またはネットワーク機器に組み込まれる。
本出願の一実施形態による時間領域におけるステレオ符号化および復号の概略的構造図である。 本出願の一実施形態による移動端末の概略図である。 本出願の一実施形態によるネットワーク要素の概略図である。 周波数領域のステレオ信号符号化方法の概略的な流れ図である。 時間周波数領域のステレオ信号符号化方法の概略的な流れ図である。 本出願の一実施形態によるステレオ信号符号化方法の概略的な流れ図である。 本出願の一実施形態によるステレオ信号符号化方法の他の概略的な流れ図である。 本出願の一実施形態によるステレオ信号符号化装置の概略的ブロック図である。 本出願の一実施形態によるステレオ信号符号化装置の他の概略的ブロック図である。
以下で、添付の図面を参照して本出願の技術的解決策を説明する。
図1は、本出願の一例示的実施形態による時間領域におけるステレオ符号化および復号システムの概略的構造図である。ステレオ符号化および復号システムは、符号化構成要素110と復号構成要素120とを含む。
符号化構成要素110は、時間領域でステレオ信号を符号化するように構成される。任意選択で、符号化構成要素110は、ソフトウェアを使用して実施されてもよく、またはハードウェアを使用して実施されてもよく、またはソフトウェアとハードウェアの組み合わせの形態で実施されてもよい。これは本実施形態では限定されない。
符号化構成要素110は、時間領域でステレオ信号を符号化し、以下の複数のステップを含む。
(1)得られたステレオ信号に対して時間領域前処理を行って、時間領域前処理によって得られる左チャネル信号および時間領域前処理によって得られる右チャネル信号を得る。
ステレオ信号は、収集構成要素によって収集され、符号化構成要素110に送られる。任意選択で、収集構成要素と符号化構成要素110とは同じデバイスに配置され得る。あるいは、収集構成要素と符号化構成要素110とは異なるデバイスに配置され得る。
前処理によって得られる左チャネル信号および前処理によって得られる右チャネル信号は、前処理によって得られるステレオ信号の2つのチャネルの信号である。
任意選択で、前処理は、高域フィルタリング処理、プリエンファシス処理、サンプリングレート変換、およびチャネル変換のうちの少なくとも1つを含む。これは本実施形態では限定されない。
(2)前処理によって得られる左チャネル信号および前処理によって得られる右チャネル信号に基づいて遅延推定を行って、前処理によって得られる左チャネル信号と前処理によって得られる右チャネル信号との間のチャネル間時間差を得る。
(3)チャネル間時間差に基づいて、前処理によって得られる左チャネル信号および前処理によって得られる右チャネル信号に対して遅延調整処理を行って、遅延整合処理によって得られる左チャネル信号および遅延整合処理によって得られる右チャネル信号を得る。
(4)チャネル間時間差を符号化してチャネル間時間差の符号化インデックスを得る。
(5)時間領域ダウンミックス処理に使用されるステレオパラメータを計算し、時間領域ダウンミックス処理に使用されるステレオパラメータを符号化して、時間領域ダウンミックス処理に使用されるステレオパラメータの符号化インデックスを得る。
時間領域ダウンミックス処理に使用されるステレオパラメータは、遅延整合処理によって得られる左チャネル信号および遅延整合処理によって得られる右チャネル信号に対して時間領域ダウンミックス処理を行うために使用される。
(6)時間領域ダウンミックス処理に使用されるステレオパラメータに基づいて、遅延整合処理によって得られる左チャネル信号および遅延整合処理によって得られる右チャネル信号に対して時間領域ダウンミックス処理を行って、プライマリチャネル信号およびセカンダリチャネル信号を得る。
プライマリチャネル信号は、チャネル間の相関に関する情報を表すために使用される。セカンダリチャネル信号は、チャネル間の差に関する情報に使用される。遅延整合処理によって得られる左チャネル信号と遅延整合処理によって得られる右チャネル信号とが時間領域において整合されるとき、セカンダリチャネル信号は最小である。この場合、ステレオ信号は最善の効果を有する。
(7)プライマリチャネル信号とセカンダリチャネル信号とを別々に符号化して、プライマリチャネル信号に対応する第1のモノラル符号化ビットストリーム、およびセカンダリチャネル信号に対応する第2のモノラル符号化ビットストリームを得る。
(8)チャネル間時間差の符号化インデックス、ステレオパラメータの符号化インデックス、第1のモノラル符号化ビットストリーム、および第2のモノラル符号化ビットストリームをステレオ符号化ビットストリームに書き込む。
復号構成要素120は、ステレオ信号を得るために符号化構成要素110によって生成されたステレオ符号化ビットストリームを復号するように構成される。
任意選択で、符号化構成要素110は復号構成要素120に有線または無線で接続され、復号構成要素120は、この接続上で、符号化構成要素110によって生成されたステレオ符号化ビットストリームを取得する。あるいは、符号化構成要素110は、生成されたステレオ符号化ビットストリームをメモリに格納し、復号構成要素120はメモリ内のステレオ符号化ビットストリームを読み取る。
任意選択で、復号構成要素120は、ソフトウェアを使用して実施されてもよく、またはハードウェアを使用して実施されてもよく、またはソフトウェアとハードウェアの組み合わせの形態で実施されてもよい。これは本実施形態では限定されない。
復号構成要素120は、ステレオ信号を得るためにステレオ符号化ビットストリームを復号し、これは以下の複数のステップを含む。
(1)ステレオ符号化ビットストリーム内の第1のモノラル符号化ビットストリームおよび第2のモノラル符号化ビットストリームを復号して、プライマリチャネル信号およびセカンダリチャネル信号を得る。
(2)ステレオ符号化ビットストリームに基づいて、時間領域アップミックス処理に使用されるステレオパラメータの符号化インデックスを得、プライマリチャネル信号およびセカンダリチャネル信号に対して時間領域アップミックス処理を行って、時間領域アップミックス処理によって得られる左チャネル信号および時間領域アップミックス処理によって得られる右チャネル信号を得る。
(3)ステレオ符号化ビットストリームに基づいてチャネル間時間差の符号化インデックスを得、時間領域アップミックス処理によって得られる左チャネル信号および時間領域アップミックス処理によって得られる右チャネル信号に対して遅延調整を行って、ステレオ信号を得る。
任意選択で、符号化構成要素110と復号構成要素120とは、同じデバイスに配置されてもよく、または異なるデバイスに配置されてもよい。デバイスは、携帯電話、タブレットコンピュータ、ラップトップポータブルコンピュータ、デスクトップコンピュータ、ブルートゥース(登録商標)スピーカ、ペンレコーダ、もしくはウェアラブルデバイスなどの、オーディオ信号処理機能を有する移動端末であり得るか、またはコアネットワークもしくは無線ネットワーク内のオーディオ信号処理能力を有するネットワーク要素であり得る。これは本実施形態では限定されない。
例えば、図2に示されるように、本実施形態では、符号化構成要素110が移動端末130に配置され、復号構成要素120が移動端末140に配置され、移動端末130と移動端末140とが、オーディオ信号処理能力を有する相互に独立した機器であり、例えば、携帯電話、ウェアラブルデバイス、仮想現実(VR:virtual reality)デバイス、拡張現実(AR:augmented reality)デバイスなどであってもよく、移動端末130が無線または有線ネットワークを使用して移動端末140に接続される例を使用して説明が行われる。
任意選択で、移動端末130は、収集構成要素131と、符号化構成要素110と、チャネル符号化構成要素132とを含む。収集構成要素131は符号化構成要素110に接続され、符号化構成要素110はチャネル符号化構成要素132に接続される。
任意選択で、移動端末140は、オーディオ再生構成要素141と、復号構成要素120と、チャネル復号構成要素142とを含む。オーディオ再生構成要素141は復号構成要素120に接続され、復号構成要素120はチャネル復号構成要素142に接続される。
収集構成要素131を使用してステレオ信号を収集した後、移動端末130は、符号化構成要素110を使用してステレオ信号を符号化して、ステレオ符号化ビットストリームを得、次いで、チャネル符号化構成要素132を使用してステレオ符号化ビットストリームを符号化して、送信信号を得る。
移動端末130は無線または有線ネットワークを使用して移動端末140に送信信号を送信する。
送信信号を受信した後、移動端末140は、チャネル復号構成要素142を使用して送信信号を復号して、ステレオ符号化ビットストリームを得、復号構成要素120を使用してステレオ符号化ビットストリームを復号して、ステレオ信号を得、オーディオ再生構成要素141を使用してステレオ信号を再生する。
例えば、図3に示されるように、本実施形態では、符号化構成要素110および復号構成要素120が、同じコアネットワークまたは無線ネットワーク内のオーディオ信号処理能力を有するネットワーク要素150に配置される例を使用して説明が行われる。
任意選択で、ネットワーク要素150は、チャネル復号構成要素151と、復号構成要素120と、符号化構成要素110と、チャネル符号化構成要素152とを含む。チャネル復号構成要素151は復号構成要素120に接続され、復号構成要素120は符号化構成要素110に接続され、符号化構成要素110はチャネル符号化構成要素152に接続される。
他の機器によって送信された送信信号を受信した後、チャネル復号構成要素151は送信信号を復号して第1のステレオ符号化ビットストリームを得、復号構成要素120は第1のステレオ符号化ビットストリームを復号してステレオ信号を得、符号化構成要素110はステレオ信号を符号化して第2のステレオ符号化ビットストリームを得、チャネル符号化構成要素152は第2のステレオ符号化ビットストリームを符号化して送信信号を得る。
他の装置は、オーディオ信号処理能力を有する移動端末であり得るか、またはオーディオ信号処理能力を有する他のネットワーク要素であり得る。これは本実施形態では限定されない。
任意選択で、ネットワーク要素内の符号化構成要素110および復号構成要素120は、移動端末によって送信されたステレオ符号化ビットストリームをコード変換し得る。
任意選択で、本実施形態では、符号化構成要素110がインストールされた装置がオーディオ符号化装置と呼ばれる。実際の実装に際して、オーディオ符号化装置は、オーディオ復号機能も有し得る。これは本実施形態では限定されない。
任意選択で、本実施形態は、例としてステレオ信号のみを使用して説明される。本出願では、オーディオ符号化装置はマルチチャネル信号をさらに処理してもよく、マルチチャネル信号は少なくとも2つのチャネルの信号を含む。
本出願の実施形態におけるステレオ信号符号化方法の理解を容易にするために、以下ではまず、図4および図5をそれぞれ参照して、周波数領域のステレオ符号化方法および時間周波数領域のステレオ符号化方法の全符号化プロセスを一般的に説明する。
図4は、周波数領域のステレオ信号符号化方法の概略的な流れ図である。この符号化方法は、具体的には、101から107を含む。
101:時間領域のステレオ信号を周波数領域のステレオ信号に変換する。
102:周波数領域で周波数領域のステレオパラメータを抽出する。
103:ダウンミックス信号および残差信号を得るために周波数領域のステレオ信号に対してダウンミックス処理を行う。
ダウンミックス信号は、セントラルチャネル信号またはプライマリチャネル信号とも呼ばれ、残差信号は、サイドチャネル信号またはセカンダリチャネル信号と呼ばれ得る。
104:ダウンミックス信号に対応する符号化パラメータを得るためにダウンミックス信号を符号化し、符号化パラメータを符号化ビットストリームに書き込む。
106:周波数領域のステレオパラメータに対応する符号化パラメータを得るために周波数領域のステレオパラメータを符号化し、符号化パラメータを符号化ビットストリームに書き込む。
任意選択の実施態様では、この方法は、105:残差信号に対応する符号化パラメータを得るために残差信号を符号化し、符号化パラメータを符号化ビットストリームに書き込む、をさらに含み得る。
107:ビットストリームを多重化する。
図5は、時間周波数領域のステレオ信号符号化方法の概略的な流れ図である。この符号化方法は、具体的には、201から208を含む。
201:ステレオ信号に対して時間領域解析を行い、時間領域のステレオパラメータを抽出する。
202:時間領域のステレオ信号を周波数領域のステレオ信号に変換する。
203:周波数領域で周波数領域のステレオパラメータを抽出する。
204:ダウンミックス信号および残差信号を得るために周波数領域のステレオ信号に対してダウンミックス処理を行う。
205:ダウンミックス信号に対応する符号化パラメータを得るためにダウンミックス信号を符号化し、符号化パラメータを符号化ビットストリームに書き込む。
207:時間領域のステレオパラメータに対応する符号化パラメータおよび周波数領域のステレオパラメータに対応する符号化パラメータを得るために時間領域のステレオパラメータおよび周波数領域のステレオパラメータを符号化し、符号化パラメータを符号化ビットストリームに書き込む。
任意選択で、この方法は、206:残差信号に対応する符号化パラメータを得るために残差信号を符号化し、符号化パラメータを符号化ビットストリームに書き込む、をさらに含む。
208:ビットストリームを多重化する。
符号化レートが比較的低い場合、例えば、符号化帯域幅が広帯域(Wideband)であるときに、符号化レートが比較的低く、26キロバイト毎秒(Kilo-bytes per second、kbps)、16.4kbps、24.4kbps、または32kbpsなどである場合、ステレオ信号の再生中の空間感覚および安定性を改善し、ステレオ信号の高周波歪みを低減するために、ステレオ信号の各フレームのダウンミックス信号が符号化されるときに、事前設定された帯域幅範囲を満足するサブバンドのすべての残差信号が符号化される。あるいは、符号化レートが比較的低い場合、ステレオパラメータおよびダウンミックス信号のみが符号化される。残差信号の一部または全部は、符号化レートが比較的高く、48kbps、64kbps、または96kbpsなどである場合にのみ符号化される。本出願は、ステレオ信号符号化方法を提供する。この方法では、復号されたステレオ信号の空間感覚および音像安定性が改善されると同時に復号されたステレオ信号の高周波歪みを可能な限り低減することができ、それによって全体的な符号化品質が改善される。
図6は、本出願の一実施形態によるステレオ信号符号化方法300の概略的な流れ図である。方法300は、符号器側によって実行されてもよく、符号器側は、符号器またはステレオ信号符号化機能を有するデバイスであり得る。方法300は以下のステップを含む。
本出願のステレオ信号符号化方法は、独立して適用することができるステレオ符号化方法であり得るか、またはマルチチャネル信号符号化に適用されるステレオ符号化方法であり得る。符号器側は、ステレオ信号をフレームごとに処理する。以下では、各フレームの信号長が20msである広帯域ステレオ信号を例として使用し、符号器側によって処理されているフレーム(例えば、現在のフレーム)を例として使用して、方法300のステレオ信号符号化方法を詳細に説明する。
301:ステレオ信号の現在のフレームの残差信号符号化パラメータを、現在のフレームのM個のサブバンドの各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいて決定し、現在のフレームの残差信号符号化パラメータが、M個のサブバンドの残差信号を符号化するかどうかを示すために使用され、M個のサブバンドがN個のサブバンドの少なくとも一部であり、Nが1より大きい正の整数であり、M≦N、Mが正の整数である。
具体的には、符号器側は、N個のサブバンドを得るためにステレオ信号の現在のフレームのスペクトル係数を分割し、N個のサブバンドの少なくとも一部(例えば、N個のサブバンド内のM個のサブバンド、M≦N)の各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいて現在のフレームの残差信号符号化パラメータを決定し、符号器側は現在のフレームの残差信号符号化パラメータを使用して、M個のサブバンドの各々の残差信号を符号化するかどうかを決定することができる。
302:現在のフレームの残差信号符号化パラメータに基づいて、現在のフレームのM個のサブバンドの残差信号を符号化するかどうかを決定する。
具体的には、符号器側は、現在のフレームの、ステップ301で決定された残差信号符号化パラメータに基づいて、現在のフレームのM個のサブバンドの各々の残差信号を符号化するかどうかを決定する。
M個のサブバンドの各々の残差信号を符号化すると決定されると、M個のサブバンドの各々のダウンミックス信号および残差信号が符号化される。
M個のサブバンドの各々の残差信号を符号化しないと決定されると、M個のサブバンドの各々のダウンミックス信号が符号化される。
一実施態様では、限定ではなく例として、M個のサブバンドは、N個のサブバンド内の、サブバンドインデックス番号が事前設定された最大サブバンドインデックス番号より小さいM個のサブバンドである。言い換えると、M個のサブバンドは、N個のサブバンド内の比較的低い周波数を有するサブバンドであり、具体的には、M個のサブバンドの周波数は、N個のサブバンド内のM個のサブバンド以外のN-M個のサブバンドの周波数よりも低い。
具体的には、異なる最大サブバンドインデックス番号が異なる符号化レートに基づいて事前設定されるので、サブバンドインデックス番号が事前設定された最大サブバンドインデックス番号以下であるM個のサブバンドが、事前設定された最大サブバンドインデックス番号に基づいてN個のサブバンドの中から選択され、現在のフレームの残差信号符号化パラメータはM個のサブバンドに基づいて決定される。
例えば、符号化レートが26kbpsであり、N=10、M=5、事前設定された最大サブバンドインデックス番号が4に設定される場合、これは、現在のフレームの残差信号符号化パラメータが、10個のサブバンド内の、サブバンドインデックス番号が0から4である5つのサブバンドに基づいて決定されることを示す。
他の例では、符号化レートが44kbpsであり、N=12、M=6、事前設定された最大サブバンドインデックス番号が5に設定される場合、これは、現在のフレームの残差信号符号化パラメータが、12個のサブバンド内の、サブバンドインデックス番号が0から5である6つのサブバンドに基づいて決定されることを示す。
他の例では、符号化レートが56kbpsであり、N=12、M=7、事前設定された最大サブバンドインデックス番号が6に設定される場合、これは、現在のフレームの残差信号符号化パラメータが、12個のサブバンド内の、サブバンドインデックス番号が0から6である7つのサブバンドに基づいて決定されることを示す。
他の実施態様では、異なる符号化レートについて、異なる符号化レートにおけるM個のサブバンドの最大サブバンドインデックス番号および最小サブバンドインデックス番号が事前設定され得るので、サブバンドインデックス番号が事前設定された最小サブバンドインデックス番号以上、事前設定された最大サブバンドインデックス番号以下であるM個のサブバンドが、事前設定された最大サブバンドインデックス番号および事前設定された最小サブバンドインデックス番号に基づいてN個のサブバンドの中から選択され、現在のフレームの残差信号符号化パラメータはM個のサブバンドに基づいて決定される。
例えば、符号化レートが26kbpsであり、N=10、M=4、事前設定された最小サブバンドインデックス番号が4に設定され、事前設定された最大サブバンドインデックス番号が7に設定される場合、これは、現在のフレームの残差信号符号化パラメータが、10個のサブバンド内の、サブバンドインデックス番号が4から7である4つのサブバンドに基づいて決定されることを示す。
限定ではなく例として、現在のフレームの残差信号符号化パラメータに基づいて、M個のサブバンドの各々の残差信号を符号化するかどうかを決定するステップは、M個のサブバンドの各々の残差信号を符号化するかどうかを、現在のフレームの残差信号符号化パラメータと事前設定された第1の閾値との比較結果に基づいて決定するステップであって、第1の閾値が0より大きく1.0より小さい、ステップと、現在のフレームの残差信号符号化パラメータが第1の閾値以下である場合、M個のサブバンドの各々の残差信号を符号化しないと決定するステップ、または残差信号符号化パラメータが第1の閾値より大きい場合、M個のサブバンドの各々の残差信号を符号化すると決定するステップとを含む。
具体的には、符号器側は、現在のフレームの残差信号符号化パラメータを事前設定された第1の閾値と比較し、現在のフレームの残差信号符号化パラメータが第1の閾値より大きい場合、M個のサブバンドの各々の残差信号を符号化すると決定するか、または現在のフレームの残差信号符号化パラメータが第1の閾値以下である場合、M個のサブバンドの各々の残差信号を符号化しないと決定する。
例えば、一実施態様では、第1の閾値は0.075である。現在のフレームの残差信号符号化パラメータの値が0.06である場合、符号器側は、M個のサブバンドの各々の残差信号を符号化しない。
第1の閾値の値は一例にすぎず、第1の閾値は代替として、0より大きく1.0より小さい他の値であってもよいことを理解されたい。例えば、第1の閾値は、0.55、0.46、0.86、または0.9である。
他の任意選択の実施態様では、符号器側は、現在のフレームの残差信号符号化パラメータと第1の閾値との比較結果を、0または1を使用してさらに示し得る。例えば、0は、M個のサブバンドの各々の残差信号が符号化されるべきではないことを示すために使用され、1は、M個のサブバンドの各々の残差信号が符号化されるべきであることを示すために使用される。当然ながら、1は、代替として、M個のサブバンドの各々の残差信号が符号化されるべきではないことを示すために使用されてもよく、0は、代替として、M個のサブバンドの各々の残差信号が符号化されるべきであることを示すために使用されてもよい。
以下では、符号器側が現在のフレームの残差信号符号化パラメータを決定する方法を詳細に説明するために、M個のサブバンドが、サブバンドインデックス番号が事前設定された最大サブバンドインデックス番号(例えば、最大サブバンドインデックス番号はM-1である)以下のサブバンドである例を使用する。
方法1
符号器側は、M個のサブバンドの各々のダウンミックス信号エネルギー、残差信号エネルギー、およびサイドゲインに基づいて現在のフレームの残差信号符号化パラメータを決定する。
1つの可能な実施態様では、符号器側は、M個のサブバンドの各々のダウンミックス信号エネルギー、残差信号エネルギー、およびサイドゲインに基づいて第1のパラメータを決定し、第1のパラメータが、M個のサブバンドの各々のダウンミックス信号エネルギーと残差信号エネルギーとの間の値関係を示し、
M個のサブバンドの各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいて第2のパラメータを決定し、第2のパラメータが第1のエネルギー和と第2のエネルギー和との間の値関係を示し、第1のエネルギー和がM個のサブバンドの残差信号エネルギーとダウンミックス信号エネルギーの和であり、第2のエネルギー和が、現在のフレームの前のフレームの周波数領域信号におけるM個のサブバンドの残差信号エネルギーとダウンミックス信号エネルギーの和であり、現在のフレームのM個のサブバンドが前のフレームのM個のサブバンドと同じサブバンドインデックス番号を有し、
第1のパラメータ、第2のパラメータ、および現在のフレームの前のフレームの長期平滑化パラメータに基づいて現在のフレームの残差信号符号化パラメータを最終的に決定する。
具体的には、第1のパラメータを決定するとき、符号器側は、M個のサブバンドの各々のダウンミックス信号エネルギー、残差信号エネルギー、およびサイドゲインに基づいてM個のエネルギーパラメータを決定し、M個のエネルギーパラメータが、それぞれ、M個のサブバンドのうちの1つのダウンミックス信号エネルギーと残差信号エネルギーとの間の値関係を各々示し、M個のエネルギーパラメータがM個のサブバンドと1対1で対応し、符号器側は、M個のエネルギーパラメータのうちの最大値を有するエネルギーパラメータを第1のパラメータとして最終的に決定する。
任意選択で、M個のエネルギーパラメータのうちのサブバンドインデックス番号がbであるサブバンドのエネルギーパラメータは、以下の関数を使用して決定されてもよく、
res_dmx_ratio[b]=f(g(b),res_cod_NRG_M[b],res_cod_NRG_S[b])(1)
式中、res_dmx_ratio[b]は、M個のエネルギーパラメータのうちのサブバンドインデックス番号がbであるサブバンドのエネルギーパラメータを表し、bは、0以上であり、事前設定された最大サブバンドインデックス番号以下であり、res_cod_NRG_S[b]は、サブバンドインデックス番号がbであるサブバンドの残差信号エネルギーを表し、res_cod_NRG_M[b]は、サブバンドインデックス番号がbであるサブバンドのダウンミックス信号エネルギーを表し、g(b)は、サブバンドインデックス番号がbであるサブバンドのサイドゲインside_gain[b]の関数を表す。
具体的には、一実施態様では、M個のエネルギーパラメータのうちの、サブバンドインデックス番号がbであるサブバンドのエネルギーパラメータは以下の式を満たす。
res_dmx_ratio[b]=res_cod_NRG_S[b]/(res_cod_NRG_S[b]+(1-g(b))・(1-g(b))・res_cod_NRG_M[b]+1)(2)
第1のパラメータはres_dmx_ratioと表記され、res_dmx_ratioは以下の式を満たす。
res_dmx_ratio=max(res_dmx_ratio[0],res_dmx_ratio[1],…,res_dmx_ratio[M-1])(3)
第2のパラメータを決定するとき、符号器側はまず、M個のサブバンドの残差信号エネルギーの和とM個のサブバンドのダウンミックス信号エネルギーの和とを別々の決定し、M個のサブバンドのダウンミックス信号の和をdmx_nrg_all_currと、M個のサブバンドの残差信号エネルギーの和をres_nrg_all_currと表記する。
任意選択で、M個のサブバンドのダウンミックス信号エネルギーの和dmx_nrg_all_currは以下の式を満たし、
Figure 0007520922000004
式中、res_cod_NRG_M_prev[b]は、現在のフレームの前のフレームにおけるサブバンドインデックス番号がbであるサブバンドのダウンミックス信号エネルギーを表し、γ1は、平滑化係数を表し、γ1は、0以上1以下の実数であり、例えば、γ1=0.1である。
γ1の値は一例にすぎず、γ1の値は代替として、0以上1以下の他の値であってもよいことを理解されたい。例えば、γ1は、0.3、0.5、0.6、または0.8である。
任意選択で、M個のサブバンドの残差信号エネルギーの和res_nrg_all_currは以下の式を満たし、
Figure 0007520922000005
式中、res_cod_NRG_S_prev[b]は、現在のフレームの前のフレームにおけるサブバンドインデックス番号がbであるサブバンドの残差信号エネルギーを表し、γ2は、平滑化係数を表し、γ2は、0以上1以下の実数であり、例えば、γ2=0.1である。
γ2の値は一例にすぎず、γ2の値は代替として、0以上1以下の他の値であってもよいことを理解されたい。例えば、γ2は、0.2、0.5、0.7、または0.9である。
符号器側は、dmx_nrg_all_currおよびres_nrg_all_currに基づいて現在のフレームのM個のサブバンドのダウンミックス信号エネルギーと残差信号エネルギーの和(すなわち、第1のエネルギー和)を決定する。第1のエネルギー和はdmx_res_allと表記される。
任意選択で、dmx_res_allは、以下の式を満たす。
dmx_res_all=res_nrg_all_curr+dmx_nrg_all_curr(6)
符号器側は、現在のフレームの前のフレームの周波数領域信号内のM個のサブバンドの残差信号エネルギーとダウンミックス信号エネルギーの和(すなわち、第2のエネルギー和)をさらに決定してもよく、現在のフレームの前のフレームのM個のサブバンドは、現在フレームのM個のサブバンドと同じサブバンドインデックス番号を有する。第2のエネルギー和はdmx_res_all_prevと表記される。
第2のエネルギー和dmx_res_all_prevの決定については、前述の第1のエネルギー和dmx_res_allを決定するための方法を参照されたい。簡潔にするために、本明細書では詳細を繰り返さない。
第1のエネルギー和および第2のエネルギー和を決定した後、符号器側は、第1のエネルギー和および第2のエネルギー和に基づいて第2のパラメータを決定し得る。
任意選択で、第2のパラメータは、フレーム間エネルギー変動率であり、フレーム間エネルギー変動率はframe_nrg_ratioと表記される。
任意選択で、一実施態様では、フレーム間エネルギー変動率frame_nrg_ratioは以下の式を満たす。
frame_nrg_ratio=dmx_res_all/dmx_res_all_prev(7)
任意選択で、他の実施態様では、フレーム間エネルギー変動率frame_nrg_ratioは以下の式を満たす。
frame_nrg_ratio=min(5.0,max(0.2,dmx_res_all/dmx_res_all_prev))(8)
max関数は、所与のパラメータ(0.2,frame_nrg_ratio_prev)における大きい方の値を返すために使用され、min関数は、所与のパラメータ(5.0,max(0.2,frame_nrg_ratio_prev))における最小値を返すために使用される。式(7)と比較すると、式(8)は補正操作をさらに有するので、式(8)を使用して決定されたframe_nrg_ratioは、現在のフレームと前のフレームとの間のフレーム間エネルギー変動をより適切に反映することができる。
第1のパラメータおよび第2のパラメータを決定した後、符号器側は、第1のパラメータ、第2のパラメータ、および現在のフレームの前のフレームの長期平滑化パラメータに基づいて現在のフレームの残差信号符号化パラメータを決定し得る。
限定ではなく例として、現在のフレームの残差信号符号化パラメータは、現在のフレームの長期平滑化パラメータであり得る。言い換えると、符号器側は、第1のパラメータ、第2のパラメータ、および現在のフレームの前のフレームの長期平滑化パラメータに基づいて現在のフレームの長期平滑化パラメータを決定し、次いで、M個のサブバンドの各々の残差信号を符号化するかどうかを決定するために、現在のフレームの長期平滑化パラメータを事前設定された第1の閾値と比較し得る。
例えば、現在のフレームの長期平滑化パラメータは以下の式を満たし、
res_dmx_ratio_lt=res_dmx_ratio α+res_dmx_ratio_lt_prev・(1-α)(9)
式中、res_dmx_ratio_ltは、現在のフレームの長期平滑化パラメータを表し、res_dmx_ratioは、第1のパラメータを表し、res_dmx_ratio_lt_prevは、現在のフレームの前のフレームの長期平滑化パラメータを表し、0<α<1である。
式(9)に従ってres_dmx_ratio_ltが計算されるとき、第1のパラメータの値および/または第2のパラメータの値が変化すると、式(9)におけるパラメータαの値もそれに応じて変化し得る。言い換えると、第1のパラメータの値および/または第2のパラメータの値が変化する際に、式(9)における現在のフレームの前のフレームの長期平滑化パラメータの重みもそれに応じて変化し得る。
例えば、第2のパラメータが事前設定された第3の閾値より大きい場合、第1のパラメータが事前設定された第2の閾値より小さい場合のαの値は、第1のパラメータが事前設定された第2の閾値以上の場合のαの値より大きく、第2の閾値は0以上0.6以下であり、第3の閾値は2.7以上3.7以下であるか、または
第2のパラメータが事前設定された第5の閾値より小さい場合、第1のパラメータが事前設定された第4の閾値より大きい場合のαの値は、第1のパラメータが事前設定された第4の閾値以下の場合のαの値より大きく、第4の閾値は0以上0.9以下であり、第5の閾値は0以上0.71以下であるか、または
第1のパラメータが事前設定された第2の閾値より小さく、第2のパラメータが事前設定された第3の閾値より大きい場合のαの値は、第2のパラメータが事前設定された第5の閾値以上であり、事前設定された第3の閾値以下である場合のαの値より大きく、第2の閾値は0以上0.6以下であり、第3の閾値は2.7以上3.7以下であり、第5の閾値は0以上0.71以下である。
例えば、第2の閾値の値が0.1であり、第3の閾値の値が3.2であってもよく、具体的には、第2のパラメータframe_nrg_ratioが3.2より大きい場合、第1のパラメータres_dmx_ratioが0.1より小さい場合のαの値はres_dmx_ratioが0.1以上の場合のαの値より大きいか、または
第4の閾値の値が0.4であり、第5の閾値の値が0.21であってもよく、具体的には、frame_nrg_ratioが0.21より小さい場合、res_dmx_ratioが0.4より大きい場合のαの値はres_dmx_ratioが0.4以下の場合のαの値より大きいか、または
第2の閾値の値が0.1であり、第3の閾値の値が3.2であり、第5の閾値の値が0.21であってもよく、具体的には、res_dmx_ratioが0.1より小さく、frame_nrg_ratioが3.2より大きい場合のαの値は、frame_nrg_ratioが0.21以上3.2以下の場合のαの値より大きいか、または
第4の閾値の値が0.4であり、第5の閾値の値が0.21であってもよく、具体的には、res_dmx_ratioが0.4より大きく、frame_nrg_ratioが0.21より小さい場合のαの値は、frame_nrg_ratioが0.21以上3.2以下の場合のαの値より大きい。
さらに、例えば、res_dmx_ratioが0.1より小さく、frame_nrg_ratioが3.2より大きい場合、αの値は0.5であるか、またはframe_nrg_ratioが0.21以上3.2以下である場合、αの値は0.1である。
記載の第2の閾値から第5の閾値の値およびαの値は説明のための例にすぎず、本出願に対するいかなる限定も構成するものではないことに留意されたい。第2の閾値から第5の閾値の値およびαの値は、代替として、所与の間隔における他の値であってもよい。
現在のフレームが符号器側によって処理される最初のフレームである場合、現在のフレームには前のフレームがないことにさらに留意されたい。この場合には、現在のフレームの長期平滑化パラメータが決定されるとき、前述の式における現在のフレームの前のフレームの長期平滑化パラメータは事前設定された長期平滑化パラメータである。限定ではなく例として、事前設定された長期平滑化パラメータの値は1.0であってもよく、または当然ながら、0.9や1.1などの他の値であってもよい。
方法2
方法2における残差信号符号化パラメータを決定するための方法は方法1の方法と同様であり、違いは、第1のパラメータを決定するための方法が異なることにあるしたがって、方法1の残差信号符号化パラメータの決定の関連説明を参照し得る。簡潔にするために、本明細書では、方法2における第1のパラメータを決定するための方法のみを説明する。
限定ではなく例として、符号器側は、M個のサブバンドの各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいて第1のパラメータを決定し、第1のパラメータが、M個のサブバンドの各々のダウンミックス信号エネルギーと残差信号エネルギーとの間の値関係を示す。
具体的には、第1のパラメータを決定するとき、符号器側は、M個のサブバンドの各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいてM個のエネルギーパラメータを決定し、M個のエネルギーパラメータが、それぞれ、M個のサブバンドのうちの1つのダウンミックス信号エネルギーと残差信号エネルギーとの間の値関係を各々示し、M個のエネルギーパラメータがM個のサブバンドと1対1で対応し、符号器側は、M個のエネルギーパラメータのうちの最大値を有するエネルギーパラメータを第1のパラメータとして最終的に決定する。
任意選択で、符号器側によって決定されたM個のエネルギーパラメータのうちのサブバンドインデックス番号がbであるサブバンドのエネルギーパラメータは、以下の関数を使用して決定されてもよく、
res_dmx_ratio[b]=f(res_cod_NRG_M[b],res_cod_NRG_S[b])(10)
式中、res_dmx_ratio[b]は、M個のエネルギーパラメータのうちのサブバンドインデックス番号がbであるサブバンドのエネルギーパラメータを表し、bは、0以上であり、事前設定された最大サブバンドインデックス番号以下であり、res_cod_NRG_S[b]は、サブバンドインデックス番号がbであるサブバンドの残差信号エネルギーを表し、res_cod_NRG_M[b]は、サブバンドインデックス番号がbであるサブバンドのダウンミックス信号エネルギーを表す。
例えば、M個のエネルギーパラメータのうちのサブバンドインデックス番号がbであるサブバンドのエネルギーパラメータは以下の式を満たす。
res_dmx_ratio[b]=res_cod_NRG_S[b]/res_cod_NRG_M[b](11)
第1のパラメータはres_dmx_ratioと表記され、res_dmx_ratioは以下の式を満たす。
res_dmx_ratio=max(res_dmx_ratio[0],res_dmx_ratio[1],…,res_dmx_ratio[M-1])(12)
第1のパラメータを決定した後、符号器側は、方法1に記載の方法に従って第2のパラメータを決定し、方法1に記載の方法に従って残差信号符号化パラメータを最終的に決定し、残差信号符号化パラメータに基づいて、M個のサブバンドの各々の残差信号を符号化するかどうかを決定し得る。
方法3
方法3における残差信号符号化パラメータを決定するための方法は方法1の方法と同様であり、違いは、第1のパラメータを決定するための方法が異なることにあるしたがって、方法1の残差信号符号化パラメータの決定の関連説明を参照し得る。簡潔にするために、本明細書では、方法3における第1のパラメータを決定するための方法のみを説明する。
限定ではなく例として、符号器側は、M個のサブバンドの各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいて第1のパラメータを決定し、第1のパラメータを補正し、最終的な第1のパラメータとして、補正によって得られた第1のパラメータを決定し、第1のパラメータが、M個のサブバンドの各々のダウンミックス信号エネルギーと残差信号エネルギーとの間の値関係を示す。
具体的には、第1のパラメータを決定するとき、符号器側は、M個のサブバンドの各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいてM個のエネルギーパラメータを決定し、M個のエネルギーパラメータが、それぞれ、M個のサブバンドのうちの1つのダウンミックス信号エネルギーと残差信号エネルギーとの間の値関係を各々示し、M個のエネルギーパラメータがM個のサブバンドと1対1で対応し、符号器側は、M個のエネルギーパラメータの和を第1のパラメータとして決定する。
任意選択で、符号器側によって決定されたM個のエネルギーパラメータのうちのサブバンドインデックス番号がbであるサブバンドのエネルギーパラメータは、関数(1)を使用して決定され得る。
例えば、M個のエネルギーパラメータのうちのサブバンドインデックス番号がbであるサブバンドのエネルギーパラメータは式(2)を満たす。
任意選択で、符号器側によって決定されたM個のエネルギーパラメータのうちのサブバンドインデックス番号がbであるサブバンドのエネルギーパラメータは、関数(11)を使用して決定され得る。
例えば、M個のエネルギーパラメータのうちのサブバンドインデックス番号がbであるサブバンドのエネルギーパラメータは式(11)を満たす。
例えば、M個のエネルギーパラメータに基づいて符号器側によって決定された第1のパラメータres_dmx_ratio1は以下の式を満たす。
Figure 0007520922000006
加えて、符号器側は、M個のエネルギーパラメータのうちの最大値res_dmx_ratio_maxをさらに決定してもよく、res_dmx_ratio_maxは式(12)を満たす。
符号器側は、M個のサブバンドの各々のres_dmx_ratio_maxおよびダウンミックス信号エネルギーres_cod_NRG_M[b]に基づいてres_dmx_ratio1を補正し、補正によって得られたres_dmx_ratio2を決定する。
例えば、符号器側はres_dmx_ratio1を以下の式に従って補正し、式中、M=5であり、
補正によって得られたres_dmx_ratio2は以下の式を満たす。
Figure 0007520922000007
任意選択で、補正によって得られたres_dmx_ratio2はさらに補正され得る。
例えば、補正によって最終的に得られたres_dmx_ratio3は以下の式を満たし、
res_dmx_ratio3=pow(res_dmx_ratio2,1.2)(15)
式中、pow()関数は、指数関数を表し、pow(res_dmx_ratio2,1.2)は、res_dmx_ratio2の1.2乗を表す。
補正によって得られた第1のパラメータ(補正によって得られたres_dmx_ratio3)を決定した後、符号器側は、方法1に記載の方法に従って第2のパラメータを決定し、方法1に記載の方法に従って残差信号符号化パラメータを最終的に決定し、残差信号符号化パラメータに基づいて、M個のサブバンドの各々の残差信号を符号化するかどうかを決定し得る。
方法4
方法4における残差信号符号化パラメータを決定するための方法は方法1の方法と同様であり、違いは、第1のパラメータを決定するための方法が異なることにあるしたがって、方法1の残差信号符号化パラメータの決定の関連説明を参照し得る。簡潔にするために、本明細書では、方法4における第1のパラメータを決定するための方法のみを説明する。
限定ではなく例として、符号器側は第1のパラメータを、M個のサブバンドの残差信号エネルギーの和およびM個のサブバンドのダウンミックス信号エネルギーの和に基づいて決定する。
具体的には、符号器側は、M個のサブバンドのダウンミックス信号エネルギーの和dmx_nrg_all_currとM個のサブバンドの残差信号エネルギーの和res_nrg_all_currとを別々に決定し、dmx_nrg_all_currおよびres_nrg_all_currに基づいて第1のパラメータを決定する。
任意選択で、M個のサブバンドのダウンミックス信号エネルギーの和dmx_nrg_all_currは式(4)を満たす
任意選択で、M個のサブバンドの残差信号エネルギーの和res_nrg_all_currは式(5)を満たす
符号器側は、dmx_nrg_all_currおよびres_nrg_all_currに基づいて第1のパラメータres_dmx_ratioを決定する。
例えば、符号器側によって最終的に決定された第1のパラメータres_dmx_ratioは以下の式を満たす。
res_dmx_ratio=res_nrg_all_curr/dmx_nrg_all_curr(16)
第1のパラメータを決定した後、符号器側は、方法1に記載の方法に従って第2のパラメータを決定し、方法1に記載の方法に従って残差信号符号化パラメータを最終的に決定し、残差信号符号化パラメータに基づいて、M個のサブバンドの各々の残差信号を符号化するかどうかを決定し得る。
ステレオ信号の符号化全体をより良く理解するために、以下では、各フレームの信号長が20msである広帯域ステレオ信号を例として使用し、符号器側によって処理されているフレーム(例えば、現在のフレーム)を例として使用し、本出願の本実施形態のステレオ信号符号化方法300を、図7を参照して説明する。図7に示されるステレオ信号符号化方法は少なくとも以下のステップを含む。
401:時間領域前処理によって得られる左チャネル時間領域信号および右チャネル時間領域信号を得るために、左チャネル時間領域信号および右チャネル時間領域信号に対して時間領域前処理を行う。
具体的には、現在のフレームの信号長は20msである。サンプリング周波数が16kHz(kHz)である場合、サンプリングの後、現在のフレームのフレーム長H=320であり、言い換えると、現在のフレームは320個のサンプリング点を含む。
現在のフレームのステレオ信号は、現在のフレームの左チャネル時間領域信号および現在のフレームの右チャネル時間領域信号を含む。現在のフレームの左チャネル時間領域信号はとxL(n)と表記され、現在のフレームの右チャネル時間領域信号はとxR(n)と表記される。nは、サンプリング点のシーケンス番号であり、n=0,1,…,およびH-1である。左チャネル時間領域信号および右チャネル時間領域信号は、左および右チャネル時間領域信号と呼ばれ得る。
現在のフレームの左チャネル時間領域信号および右チャネル時間領域信号に対して時間領域前処理を行うステップは、時間領域前処理によって得られる現在のフレームの左チャネル時間領域信号および右チャネル時間領域信号を得るために、現在のフレームの左チャネル時間領域信号および右チャネル時間領域信号に対して高域フィルタリング処理をそれぞれ行うステップ、を含み得る。前処理によって得られる現在のフレームの左チャネル時間領域信号はxL_HP(n)と表記され、前処理によって得られる現在のフレームの右チャネル時間領域信号はxR_HP(n)と表記される。nは、サンプリング点のシーケンス番号であり、n=0,1,…,およびH-1である。時間領域前処理によって得られる現在のフレームの左チャネル時間領域信号および時間領域前処理によって得られる現在のフレームの右チャネル時間領域信号は、時間領域前処理によって得られる現在のフレームの左および右チャネル時間領域信号と呼ばれ得る。高域フィルタリング処理中には、カットオフ周波数が20Hz(Hz)である無限インパルス応答(Infinite Impulse Response、IIR)デジタルフィルタが使用され得るか、または他のタイプのフィルタが使用され得る。
例えば、ステレオ信号のサンプリングレートが16kHzであるとき、カットオフ周波数が20Hzである高域フィルタの対応する伝達関数は以下の式であり得る。
Figure 0007520922000008
b0=0.994461788958195、b1=-1.988923577916390、b2=0.994461788958195、a1=1.98892905899653、a2=-0.988954249933127であり、zは、Z変換の変換係数を表す。対応する時間領域フィルタは以下のとおりである。
xL_HP(n)=b0・xL(n)+b1・xL(n-1)+b2・xL(n-2)-a1・xL_HP(n-1)-a2・xL_HP(n-2)(18)
402:時間領域前処理によって得られる左チャネル時間領域信号および右チャネル時間領域信号に対して時間領域解析を行う。
具体的には、時間領域解析は、過渡検出などを含み得る。過渡検出は、現在のフレームでエネルギーバーストが発生するかどうかを検出するために、前処理によって得られる現在のフレームの左チャネル時間領域信号および右チャネル時間領域信号に対してエネルギー検出を別々に行うことであり得る。
例えば、前処理によって得られる現在のフレームの左チャネル時間領域信号のエネルギーEcur_Lが計算される。過渡検出は、前処理によって得られる現在のフレームの左チャネル時間領域信号の過渡検出結果を得るために、前処理によって得られる現在のフレームの前のフレームの左チャネル時間領域信号のエネルギーEpre_Lと前処理によって得られる現在のフレームの左チャネル時間領域信号のエネルギーEcur_Lとの差の絶対値に基づいて行われる。過渡検出は、同じ方法を使用して、前処理によって得られる現在のフレームの右チャネル時間領域信号に対して行われ得る。
時間領域解析は、過渡検出に加えて先行技術の他の時間領域解析も含み得る。例えば、時間領域解析は、時間領域チャネル間時間差(Inter-channel Time Difference、ITD)パラメータ決定、時間領域遅延整合処理、および帯域拡張前処理を含み得る。
403:左チャネル周波数領域信号および右チャネル周波数領域信号を得るために、時間領域前処理によって得られる左チャネル時間領域信号および右チャネル時間領域信号に対して時間周波数変換を行う。
具体的には、左チャネル周波数領域信号を得るために、時間領域前処理によって得られる左チャネル時間領域信号に対して離散フーリエ変換が行われてもよく、右チャネル周波数領域信号を得るために、時間領域前処理によって得られる右チャネル時間領域信号に対して離散フーリエ変換が行われる。
スペクトルエイリアシングの問題を克服するために、離散フーリエ変換の2つの連続した時間の間での処理に重畳加算法が使用されてもよく、場合によっては、離散フーリエ変換の入力信号にゼロが加算され得る。
離散フーリエ変換はフレームごとに1回行われてもよく、または信号の各フレームがP個(Pは2以上の正の整数)のサブフレームに分割されてもよく、離散フーリエ変換はサブフレームごとに1回行われる。
例えば、離散フーリエ変換は現在のフレームに対して1回行われ、離散フーリエ変換が行われる現在のフレームの左チャネル周波数領域信号がL(k)と表記され、離散フーリエ変換が行われる現在のフレームの右チャネル周波数領域信号がR(k)と表記される。kは、周波数ビンインデックス番号を表し、k=0,1,…,L-1であり、Lは、離散フーリエ変換が行われる現在のフレームのフレーム長を表し、言い換えると、離散フーリエ変換が行われる現在のフレームは、L個の周波数ビンを含む。
他の例では、現在のフレームがP個のサブフレームに分割され、Pは2以上の正の整数である。インデックス番号がiである、離散フーリエ変換が行われるサブフレームの左チャネル周波数領域信号がLi(k)と表記され、インデックス番号がiである、離散フーリエ変換が行われるサブフレームの右チャネル周波数領域信号がRi(k)と表記される。iは、サブフレームインデックス番号を表し、i=0,1,…,P-1であり、kは、周波数ビンインデックス番号を表し、k=0,1,…,L-1であり、Lは、離散フーリエ変換が行われる各サブフレームのフレーム長を表し、言い換えると、離散フーリエ変換が行われる各サブフレームは、L個の周波数ビンを含む。
404:ITDパラメータを決定し、決定されたITDパラメータを符号化する。
具体的には、ITDパラメータを決定するための複数の方法がある。ITDパラメータは、周波数領域でのみ決定されてもよく、または時間領域でのみ決定されてもよく、または時間周波数領域で決定されてもよい。これは本出願では限定されない。
ITDパラメータは、相互相関係数を使用して時間領域で抽出され得る。例えば、0≦i≦Tmaxの範囲で、
Figure 0007520922000009
および
Figure 0007520922000010
が計算される。
Figure 0007520922000011
の場合、ITDパラメータ値は、max(cn(i))に対応するインデックス番号の反対の数である。
Figure 0007520922000012
の場合、ITDパラメータ値は、max(cp(i))に対応するインデックス番号である。iは、相互相関係数を計算するためのインデックス番号を表し、jは、サンプリング点のインデックス番号を表し、Tmaxは、異なるサンプリングレートにおけるITDパラメータ値の最大値に対応し、Hは、現在のフレームのフレーム長を表す。
ITDパラメータは、代替として、左チャネル周波数領域信号および右チャネル周波数領域信号に基づいて周波数領域で決定されてもよい。例えば、離散フーリエ変換(Discrete Fourier Transform、DFT)、高速フーリエ変換(Fast Fourier Transformation、FFT)、および修正離散コサイン変換(Modified Discrete Cosine Transform、MDCT)などの時間周波数変換技術を使用して、時間領域信号が周波数領域信号に変換され得る。
本出願の本実施形態では、インデックス番号がiであり、離散フーリエ変換が行われるサブフレームの左チャネル周波数領域信号は、Li(k)と表記され、k=0,1,…,L/2-1であり、インデックス番号がiであり、変換が行われるサブフレームの右チャネル周波数領域信号は、Ri(k)と表記され、k=0,1,…,L/2-1およびi=0,1,…,P-1である。インデックス番号がiであるサブフレームの周波数領域相互相関係数は、XCORRi(k)=Li(k)・R i(k)に従って計算され、R i(k)は、変換が行われる第iのサブフレームの右チャネル周波数領域信号の共役を表す。
周波数領域相互相関係数は時間領域xcorri(n)に変換され、n=0,1,…,L-1であり、インデックス番号がiであるサブフレームのITDパラメータ値が
Figure 0007520922000013
であることを得るために、L/2-Tmax≦n≦L/2+Tmaxの範囲でxcorri(n)の最大値が探索される。
加えて、インデックス番号がiであり、DFT変換が行われるサブフレームの左チャネル周波数領域信号および右チャネル周波数領域信号に基づいて、探索範囲-Tmax≦j≦Tmaxにおいて
Figure 0007520922000014
に従って振幅値がさらに計算されてもよく、ITDパラメータ値は
Figure 0007520922000015
であり、具体的には、ITDパラメータ値は、最大振幅値に対応するインデックス番号である。
ITDパラメータが決定された後、ITDパラメータは符号化パラメータを得るために符号化されてもよく、符号化パラメータはステレオ符号化ビットストリームに書き込まれる。
405:ITDパラメータに基づいて左周波数領域信号および右チャネル周波数領域信号に対して時間シフト調整を行う。
具体的には、任意の技術に従って左チャネル周波数領域信号および右チャネル周波数領域信号に対して時間シフト調整が行われ得る。これは本出願の本実施形態では限定されない。
例えば、信号の現在のフレームがP個のサブフレームに分割され、Pは2以上の正の整数である。インデックス番号がiであるサブフレームの、時間シフト調整によって得られた左チャネル周波数領域信号はL’i(k)と表記されてもよく、k=0,1,…,L/2-1であり、インデックス番号がiであるサブフレームの、時間シフト調整によって得られた右チャネル周波数領域信号はR’i(k)と表記されてもよく、kは、周波数ビンインデックス番号を表し、k=0,1,…,L/2-1であり、iは、サブフレームインデックス番号を表し、i=0,1,…,P-1である。
Figure 0007520922000016
Tiは、インデックス番号がiであるサブフレームのITDパラメータ値を表し、Lは、離散フーリエ変換が行われるサブフレームの長さを表し、Li(k)は、インデックス番号がiであり、変換が行われる第iのサブフレームの左チャネル周波数領域信号を表し、Ri(k)は、インデックス番号がiであり、変換が行われるサブフレームの右チャネル周波数領域信号を表し、iは、サブフレームインデックス番号を表し、i=0,1,…,P-1である。
406:時間シフト調整によって得られる左チャネル周波数領域信号および右チャネル周波数領域信号に基づいて他の周波数領域のステレオパラメータを計算し、他の周波数領域のステレオパラメータを符号化する。
具体的には、他の周波数領域のステレオパラメータは、チャネル間位相差(Inter-channel Phase Difference、IPD)パラメータ、および/またはチャネル間レベル差(Inter-channel Level Difference、ILD)パラメータ、および/またはサブバンドのサイドゲインなどを含み得るがこれに限定されない。ILDは、チャネル間振幅差とも呼ばれ得る。
計算によって他の周波数領域のステレオパラメータが得られた後、他の周波数領域のステレオパラメータは符号化パラメータを得るために符号化されてもよく、符号化パラメータはステレオ符号化ビットストリームに書き込まれる。
407:現在のフレームの周波数領域信号に含まれるN個のサブバンドから、事前設定条件を満たすM個のサブバンドを決定する。
具体的には、現在のフレームの、時間シフト調整によって得られた周波数領域信号がサブバンドに分割される。例えば、現在のフレームの周波数領域信号はN個の(Nは2以上の正の整数である)サブバンドに分割され、サブバンドインデックス番号がbであるサブバンドに含まれる周波数ビンはk∈[band_limits(b),band_limits(b+1)-1]であり、band_limits(b)は、サブバンドインデックス番号がbであるサブバンドに含まれる周波数ビンの最小インデックス番号を表し、band_limits(b+1)は、サブバンドインデックス番号がb+1であるサブバンドに含まれる周波数ビンの最小インデックス番号を表す。事前設定条件に従って、N個のサブバンドの中から事前設定条件を満たすM個のサブバンドが決定される。
例えば、事前設定条件は、サブバンドインデックス番号が事前設定された最大サブバンドインデックス番号以下であること、すなわち、b≦res_cod_band_max、式中res_cod_band_maxが、事前設定された最大サブバンドインデックス番号を表すこと、であり得る。
事前設定条件は、代替として、サブバンドインデックス番号が事前設定された最大サブバンドインデックス番号以下であり、事前設定された最小サブバンドインデックス番号以上であること、すなわち、res_cod_band_min≦b≦res_cod_band_max、res_cod_band_maxが、事前設定された最大サブバンドインデックス番号を表し、res_cod_band_minが事前設定された最小サブバンドインデックス番号を表すこと、であってもよい。
さらに、広帯域ステレオ信号では、異なる符号化レートに基づいて異なる事前設定条件が設定され得る。例えば、符号化レートが26kbpsであるとき、事前設定条件は、サブバンドインデックス番号b≦5、言い換えると、事前設定された最大サブバンドインデックス番号は5である。符号化レートが44kbpsであるとき、事前設定条件は、サブバンドインデックス番号b≦6、言い換えると、事前設定された最大サブバンドインデックス番号は6である。符号化レートが56kbpsであるとき、事前設定条件は、サブバンドインデックス番号b≦7、言い換えると、事前設定された最大サブバンドインデックス番号は7である。
例えば、事前設定条件がサブバンドインデックス番号b≦4である場合、インデックス番号が0から4である5つのサブバンドが、現在のフレームのN個のサブバンドの中から、事前設定条件を満たすサブバンドとして決定され得る。
加えて、信号の現在のフレームがP個のサブフレームに分割される場合(Pは2以上の正の整数である)、時間シフト調整によって得られる各サブフレームはサブバンドに分割される。例えば、インデックス番号がiであるサブフレーム(i=0,1,…,P-1)がN個のサブバンドに分割され、インデックス番号がiであるサブフレーム内のインデックス番号がbであるサブバンドに含まれる周波数ビンはki∈[band_limits(b),band_limits(b+1)-1]であり、band_limits(b)は、インデックス番号がiであるサブフレーム内のインデックス番号がbであるサブバンドに含まれる周波数ビンの最小インデックス番号を表し、band_limits(b+1)は、インデックス番号がiであるサブフレーム内のインデックス番号がb+1であるサブバンドに含まれる周波数ビンの最小インデックス番号を表す。
事前設定条件に従って、各フレームに含まれるN個のサブバンドの中から事前設定条件を満たすM個のサブバンドが決定される。
事前設定条件は、サブバンドのインデックス番号が事前設定された最小サブバンドインデックス番号以上であり、事前設定された最大サブバンドインデックス番号以下であること、すなわち、res_cod_band_min≦b≦res_cod_band_max、であり得る。
例えば、事前設定条件が4≦b≦8である場合、インデックス番号が4から8である5つのサブバンドが、各サブフレーム内のN個のサブバンドの中から、事前設定条件を満たすサブバンドとして決定される。
408:時間シフト調整によって得られる左チャネル周波数領域信号および右チャネル周波数領域信号に基づいて、事前設定条件を満たすサブバンドのダウンミックス信号および残差信号を計算する。
具体的には、事前設定条件を満たすサブバンドのダウンミックス信号および残差信号を計算するための方法は、現在のフレームがP個のサブフレーム(Pは2以上の正の整数である)に分割される(例えば、現在のフレームは2つのサブフレームまたは4つのサブフレームに分割され得る)例を使用して説明される。
例えば、事前設定条件が、サブバンドインデックス番号bが5以下であることである場合、各サブフレーム内の、インデックス番号が0から5であるサブバンドのダウンミックス信号および残差信号が計算される。
インデックス番号がiであるサブフレーム内のインデックス番号がb(b≦5)であるサブバンドのダウンミックス信号はDMXi(k)と表記され、インデックス番号がiであるサブフレーム内のインデックス番号がbであるサブバンドの残差信号はRESi’(k)と表記され、DMXi(k)およびRESi’(k)は以下の式を満たす。
Figure 0007520922000017
RESi’(k)=RESi(k)-g_ILDi・DMXi(k)(21)
Figure 0007520922000018
Figure 0007520922000019
β=arctan(sin(IPDi(b)),cos(IPDi(b))+2・c)(24)、および
Figure 0007520922000020
IPDi(b)は、インデックス番号がiであるサブフレーム内のインデックス番号がbであるサブバンドのIPDパラメータを表し、g_ILDiは、インデックス番号がiであるサブフレーム内のインデックス番号がbであるサブバンドのサイドゲインを表し、L’i(k)は、インデックス番号がiであるサブフレーム内のインデックス番号がbであるサブバンドの、時間シフト調整によって得られた、左チャネル周波数領域信号を表し、R’i(k)は、インデックス番号がiであるサブフレーム内のインデックス番号がbであるサブバンドの、時間シフト調整によって得られた、右チャネル周波数領域信号を表し、L’’i(k)は、インデックス番号がiであるサブフレーム内のインデックス番号がbであるサブバンドの、複数のステレオパラメータの調整によって得られた、左チャネル周波数領域信号を表し、R’’i(k)は、インデックス番号がiであるサブフレーム内のインデックス番号がbであるサブバンドの、複数のステレオパラメータの調整によって得られた、右チャネル周波数領域信号を表し、iは、サブフレームインデックス番号を表し、i=0,1,…,P-1であり、kは、周波数ビンインデックス番号を表し、k∈[band_limits(b),band_limits(b+1)-1]であり、band_limits(b)は、インデックス番号がiであるサブフレーム内のインデックス番号がbであるサブバンドに含まれる周波数ビンの最小インデックス番号を表し、band_limits(b+1)は、インデックス番号がiであるサブフレーム内のインデックス番号がb+1であるサブバンドに含まれる周波数ビンの最小インデックス番号を表す。
他の例では、インデックス番号がiであるサブフレーム内のインデックス番号がbであるサブバンドのダウンミックス信号DMXi(k)は、代替として、以下の方法に従って計算され得る。
DMXi(k)=[L’’(k)+R’’(k)]・c(26)、および
Figure 0007520922000021
L’’i(k)は、インデックス番号がiであるサブフレーム内のインデックス番号がbであるサブバンドの、複数のステレオパラメータの調整によって得られた、左チャネル周波数領域信号を表し、R’’i(k)は、インデックス番号がiであるサブフレーム内のインデックス番号がbであるサブバンドの、複数のステレオパラメータの調整によって得られた、右チャネル周波数領域信号を表し、iは、サブフレームインデックス番号を表し、i=0,1,…,P-1であり、kは、周波数ビンインデックス番号を表し、k∈[band_limits(b),band_limits(b+1)-1]であり、band_limits(b)は、サブバンドインデックス番号がbであるサブバンドに含まれる周波数ビンの最小インデックス番号を表し、band_limits(b+1)は、インデックス番号がiであるサブフレーム内のインデックス番号がb+1であるサブバンドに含まれる周波数ビンの最小インデックス番号を表す。ダウンミックス信号エネルギーおよび残差信号エネルギーを計算するための方法は、本出願の本実施形態では限定されない。
409:事前設定条件を満たすサブバンドのダウンミックス信号エネルギーおよび残差信号エネルギーに基づいて残差信号符号化パラメータを決定する。
410:残差信号符号化パラメータに基づいて、現在のフレームのM個のサブバンドの各々の残差信号が符号化される必要があるかどうかを決定する。残差信号が符号化される必要があると決定される場合、412が行われる。残差信号が符号化される必要がないと決定される場合、411が行われる。
411:残差信号符号化パラメータに基づいて現在のフレームのM個のサブバンドの各々のダウンミックス信号を符号化する。この場合、残差信号は符号化される必要がない。
412:残差信号符号化パラメータに基づいて現在のフレームのM個のサブバンドの各々のダウンミックス信号および残差信号を符号化する。
ステップ409からステップ411の具体的な実施態様については、方法300の関連説明を参照されたい。簡潔にするために、本明細書では詳細を繰り返さない。
方法300において、符号器側が現在のフレームをP個のサブフレームに分割し、Pが2以上の正の整数であり、P個のサブフレームの各々のスペクトル係数をN個のサブバンドに分割する場合、および残差信号符号化パラメータが、事前設定条件を満たす、各サブフレーム内のM個のサブバンド(M個のサブバンドは少なくともN個のサブバンドの一部である)のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいて決定される場合、したがって、方法300では、現在のフレーム内のインデックス番号がbであるサブバンドの残差信号エネルギーres_cod_NRG_S[b]は、P個すべてのサブフレーム内のインデックス番号がbであるサブバンドの残差信号エネルギーの和であり、現在のフレーム内のインデックス番号がbであるサブバンドのダウンミックス信号エネルギーres_cod_NRG_M[b]は、P個すべてのサブフレーム内のインデックス番号がbであるサブバンドのダウンミックス信号エネルギーの和である、ことに留意されたい。
例えば、現在のフレームは2つのサブフレームに分割され、2つのサブフレームの各のスペクトル係数はN個のサブバンドに分割される。したがって、方法300では、現在のフレーム内のインデックス番号がbであるサブバンドのダウンミックス信号エネルギーres_cod_NRG_M[b]は、サブフレーム1内のインデックス番号がbであるサブバンドのダウンミックス信号エネルギーとサブフレーム2内のインデックス番号がbであるサブバンドのダウンミックス信号エネルギーの和であり、現在のフレーム内のインデックス番号がbであるサブバンドの残差信号エネルギーres_cod_NRG_S[b]は、サブフレーム1内のインデックス番号がbであるサブバンドの残差信号エネルギーとサブフレーム2内のインデックス番号がbであるサブバンドの残差信号エネルギーの和である。
以上では、図1から図7を用いて本出願の実施形態におけるステレオ信号符号化方法を詳細に説明している。以下では、図8および図9を参照して本出願の実施形態におけるステレオ信号符号化装置を説明する。図8および図9のいずれの装置も本出願の実施形態におけるステレオ信号符号化方法に対応していることを理解されたい。加えて、図8および図9のいずれの装置も、本出願の実施形態におけるステレオ信号符号化方法を行い得る。簡潔にするために、以下では繰り返しの説明を適宜省略する。
図8は、本出願の一実施形態によるステレオ信号符号化装置の概略的ブロック図である。図8の装置500は、
ステレオ信号の現在のフレームの残差信号符号化パラメータを、現在のフレームのM個のサブバンドの各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいて決定するように構成された第1の決定モジュール501であって、現在のフレームの残差信号符号化パラメータが、M個のサブバンドの残差信号を符号化するかどうかを示すために使用され、M個のサブバンドがN個のサブバンドの少なくとも一部であり、Nが1より大きい正の整数であり、M≦N、Mが正の整数である、第1の決定モジュール501と、
現在のフレームの残差信号符号化パラメータに基づいて、現在のフレームのM個のサブバンドの残差信号を符号化するかどうかを決定するように構成された、第2の決定モジュール502と
を含む。
本出願では、残差信号符号化パラメータは、N個のサブバンド内の、事前設定された帯域幅範囲を満足するM個のサブバンドのダウンミックス信号エネルギーおよび残差信号エネルギーに基づいて決定され、M個のサブバンドの各々の残差信号を符号化するかどうかは、残差信号符号化パラメータに基づいて決定される。これにより、符号化レートが比較的低い場合にダウンミックス信号のみを符号化することが回避される。あるいは、事前設定された帯域幅範囲を満足するサブバンドのすべての残差信号を符号化するかどうかが、残差信号符号化パラメータに基づいて決定される。したがって、復号されたステレオ信号の空間感覚および音像安定性が改善されると同時に復号されたステレオ信号の高周波歪みを可能な限り低減することができ、それによって符号化品質が改善される。
任意選択で、一実施態様では、M個のサブバンドは、サブバンドインデックス番号がN個のサブバンドにおける事前設定された最大サブバンドインデックス番号以下であるM個のサブバンドである。
任意選択で、一実施態様では、M個のサブバンドは、N個のサブバンド内の、サブバンドインデックス番号が事前設定された最小サブバンドインデックス番号以上、事前設定された最大サブバンドインデックス番号以下であるM個のサブバンドである。
任意選択で、一実施態様では、第2の決定モジュール502は、残差信号符号化パラメータを事前設定された第1の閾値と比較し、第1の閾値が0より大きく1.0より小さく、残差信号符号化パラメータが第1の閾値以下である場合、M個のサブバンドの各々の残差信号を符号化しないと決定するか、または残差信号符号化パラメータが第1の閾値より大きい場合、M個のサブバンドの各々の残差信号を符号化すると決定する、ようにさらに構成される。
任意選択で、一実施態様では、第1の決定モジュール501は、M個のサブバンドの各々のダウンミックス信号エネルギー、残差信号エネルギー、およびサイドゲインに基づいて残差信号符号化パラメータを決定するようにさらに構成される。
任意選択で、一実施態様では、第1の決定モジュール501は、M個のサブバンドの各々のダウンミックス信号エネルギー、残差信号エネルギー、およびサイドゲインに基づいて第1のパラメータを決定し、第1のパラメータが、M個のサブバンドの各々のダウンミックス信号エネルギーと残差信号エネルギーとの間の値関係を示し、M個のサブバンドの各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいて第2のパラメータを決定し、第2のパラメータが第1のエネルギー和と第2のエネルギー和との間の値関係を示し、第1のエネルギー和がM個のサブバンドの残差信号エネルギーとダウンミックス信号エネルギーの和であり、第2のエネルギー和が、現在のフレームの前のフレームの周波数領域信号におけるM個のサブバンドの残差信号エネルギーとダウンミックス信号エネルギーの和であり、現在のフレームのM個のサブバンドが前のフレームのM個のサブバンドと同じサブバンドインデックス番号を有し、第1のパラメータ、第2のパラメータ、および現在のフレームの前のフレームの長期平滑化パラメータに基づいて残差信号符号化パラメータを決定するようにさらに構成される。
任意選択で、一実施態様では、第1の決定モジュール501は、M個のサブバンドの各々のダウンミックス信号エネルギー、残差信号エネルギー、およびサイドゲインに基づいてM個のエネルギーパラメータを決定し、M個のエネルギーパラメータが、それぞれ、M個のサブバンドのうちの1つのダウンミックス信号エネルギーと残差信号エネルギーとの間の値関係を各々示し、M個のエネルギーパラメータがM個のサブバンドと1対1で対応し、M個のエネルギーパラメータのうちの最大値を有するエネルギーパラメータを第1のパラメータとして決定するようにさらに構成される。
任意選択で、一実施態様では、第1の決定モジュール501によって決定されたM個のエネルギーパラメータのうちのサブバンドインデックス番号がbであるサブバンドのエネルギーパラメータが以下の式を満たし、
res_dmx_ratio[b]=res_cod_NRG_S[b]/(res_cod_NRG_S[b]+(1-g(b))・(1-g(b))・res_cod_NRG_M[b]+1)
式中、res_dmx_ratio[b]は、サブバンドインデックス番号がbであるサブバンドのエネルギーパラメータを表し、bは、0以上であり、事前設定された最大サブバンドインデックス番号以下であり、res_cod_NRG_S[b]は、サブバンドインデックス番号がbであるサブバンドの残差信号エネルギーを表し、res_cod_NRG_M[b]は、サブバンドインデックス番号がbであるサブバンドのダウンミックス信号エネルギーを表し、g(b)は、サブバンドインデックス番号がbであるサブバンドのサイドゲインside_gain[b]の関数を表す。
任意選択で、一実施態様では、第1の決定モジュール501は、M個のサブバンドの各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいて第1のパラメータを決定し、第1のパラメータが、M個のサブバンドの各々のダウンミックス信号エネルギーと残差信号エネルギーとの間の値関係を示し、M個のサブバンドの各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいて第2のパラメータを決定し、第2のパラメータが第1のエネルギー和と第2のエネルギー和との間の値関係を示し、第1のエネルギー和がM個のサブバンドの残差信号エネルギーとダウンミックス信号エネルギーの和であり、第2のエネルギー和が、現在のフレームの前のフレームの周波数領域信号におけるM個のサブバンドの残差信号エネルギーとダウンミックス信号エネルギーの和であり、現在のフレームのM個のサブバンドが前のフレームのM個のサブバンドと同じサブバンドインデックス番号を有し、第1のパラメータ、第2のパラメータ、および現在のフレームの前のフレームの長期平滑化パラメータに基づいて残差信号符号化パラメータを決定するようにさらに構成される。
任意選択で、一実施態様では、第1の決定モジュール501は、M個のサブバンドの各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいてM個のエネルギーパラメータを決定し、M個のエネルギーパラメータが、M個のサブバンドの各々のダウンミックス信号エネルギーと残差信号エネルギーとの間の値関係を各々示し、M個のエネルギーパラメータがM個のサブバンドと1対1で対応し、M個のエネルギーパラメータのうちの最大値を有するエネルギーパラメータを第1のパラメータとして決定するようにさらに構成される。
任意選択で、一実施態様では、第1の決定モジュール501によって決定されたM個のエネルギーパラメータのうちのサブバンドインデックス番号がbであるサブバンドのエネルギーパラメータが以下の式を満たし、
res_dmx_ratio[b]=res_cod_NRG_S[b]/res_cod_NRG_M[b]
式中、res_dmx_ratio[b]は、サブバンドインデックス番号がbであるサブバンドのエネルギーパラメータを表し、bは、0以上であり、事前設定された最大サブバンドインデックス番号以下であり、res_cod_NRG_S[b]は、サブバンドインデックス番号がbであるサブバンドの残差信号エネルギーを表し、res_cod_NRG_M[b]は、サブバンドインデックス番号がbであるサブバンドのダウンミックス信号エネルギーを表す。
任意選択で、一実施態様では、第1の決定モジュール501は、M個のエネルギーパラメータの和を(補正されるべき)第1のパラメータres_dmx_ratio1として決定し、res_dmx_ratio1を、M個のエネルギーパラメータのうちの最大値res_dmx_ratio_maxおよびM個のサブバンドの各々のダウンミックス信号エネルギーres_cod_NRG_M[b]に基づいて補正し、補正によって得られたres_dmx_ratio2を決定するようにさらに構成される。
例えば、符号器側はres_dmx_ratio1を以下の式に従って補正し、式中、M=5であり、
補正によって得られたres_dmx_ratio2は以下の式を満たす。
Figure 0007520922000022
任意選択で、一実施態様では、補正によって得られたres_dmx_ratio2がさらに補正され得る。
例えば、補正によって最終的に得られたres_dmx_ratio3は以下の式を満たし、
res_dmx_ratio3=pow(res_dmx_ratio2,1.2)
式中、pow()関数は、指数関数を表し、pow(res_dmx_ratio2,1.2)は、res_dmx_ratio2の1.2乗を表す。
任意選択で、一実施態様では、第1の決定モジュール501は、第1のパラメータを、M個のサブバンドの残差信号エネルギーの和およびM個のサブバンドのダウンミックス信号エネルギーの和に基づいて決定するようにさらに構成される。
具体的には、符号器側は、M個のサブバンドのダウンミックス信号エネルギーの和dmx_nrg_all_currとM個のサブバンドの残差信号エネルギーの和res_nrg_all_currとを別々に決定し、dmx_nrg_all_currおよびres_nrg_all_currに基づいて第1のパラメータを決定する。
任意選択で、一実施態様では、M個のサブバンドのダウンミックス信号エネルギーの和dmx_nrg_all_currは以下の式を満たし、
Figure 0007520922000023
式中、res_cod_NRG_M_prev[b]は、現在のフレームの前のフレームにおけるサブバンドインデックス番号がbであるサブバンドのダウンミックス信号エネルギーを表し、γ1は、平滑化係数を表し、γ1は、0以上1以下の実数であり、例えば、γ1=0.1である。
任意選択で、一実施態様では、M個のサブバンドの残差信号エネルギーの和res_nrg_all_currは以下の式を満たし、
Figure 0007520922000024
式中、res_cod_NRG_S_prev[b]は、現在のフレームの前のフレームにおけるサブバンドインデックス番号がbであるサブバンドの残差信号エネルギーを表し、γ2は、平滑化係数を表し、γ2は、0以上1以下の実数であり、例えば、γ2=0.1である。
符号器側は、dmx_nrg_all_currおよびres_nrg_all_currに基づいて第1のパラメータres_dmx_ratioを決定する。
例えば、符号器側によって最終的に決定された第1のパラメータres_dmx_ratioは以下の式を満たす。
res_dmx_ratio=res_nrg_all_curr/dmx_nrg_all_curr
任意選択で、一実施態様では、第1の決定モジュール501によって決定されたM個のエネルギーパラメータのうちのサブバンドインデックス番号がbであるサブバンドのエネルギーパラメータが以下の式を満たし、
res_dmx_ratio[b]=res_cod_NRG_S[b]/res_cod_NRG_M[b]
式中、res_dmx_ratio[b]は、M個のエネルギーパラメータのうちのサブバンドインデックス番号がbであるサブバンドのエネルギーパラメータを表し、bは、0以上であり、事前設定された最大サブバンドインデックス番号以下であり、res_cod_NRG_S[b]は、サブバンドインデックス番号がbであるサブバンドの残差信号エネルギーを表し、res_cod_NRG_M[b]は、サブバンドインデックス番号がbであるサブバンドのダウンミックス信号エネルギーを表す。
任意選択で、一実施形態では、現在のフレームの、第1の決定モジュール501によって決定された残差信号符号化パラメータは、現在のフレームの長期平滑化パラメータであり、現在のフレームの長期平滑化パラメータは以下の式を満たし、
res_dmx_ratio_lt=res_dmx_ratio・α+res_dmx_ratio_lt_prev・(1-α)
式中、res_dmx_ratio_ltは、現在のフレームの長期平滑化パラメータを表し、res_dmx_ratioは、第1のパラメータを表し、res_dmx_ratio_lt_prevは、現在のフレームの前のフレームの長期平滑化パラメータを表し、0<α<1であり、
第2のパラメータが事前設定された第3の閾値より大きい場合、第1のパラメータが事前設定された第2の閾値より小さい場合のαの値は、第1のパラメータが事前設定された第2の閾値以上の場合のαの値より大きく、第2の閾値は0以上0.6以下であり、第3の閾値は2.7以上3.7以下であるか、または
第2のパラメータが事前設定された第5の閾値より大きい場合、第1のパラメータが事前設定された第4の閾値より大きい場合のαの値は、第1のパラメータが事前設定された第4の閾値以下の場合のαの値より大きく、第4の閾値は0以上0.9以下であり、第5の閾値は0以上0.71以下であるか、または
第1のパラメータが事前設定された第2の閾値より小さく、第2のパラメータが事前設定された第3の閾値より大きい場合のαの値は、第2のパラメータが事前設定された第5の閾値以上であり、事前設定された第3の閾値以下である場合のαの値より大きく、第2の閾値は0以上0.6以下であり、第3の閾値は2.7以上3.7以下であり、第5の閾値は0以上0.71以下である。
任意選択で、一実施形態では、第2の決定モジュール502は、M個のサブバンドの残差信号を符号化すると決定されるときに、M個のサブバンドのダウンミックス信号および残差信号を符号化するか、またはM個のサブバンドの残差信号を符号化しないと決定されるときに、M個のサブバンドのダウンミックス信号を符号化するようにさらに構成される。
図9は、本出願の一実施形態によるステレオ信号符号化装置の概略的ブロック図である。図9の装置600は、
プログラムを格納するように構成された、メモリ601と、
メモリ601に格納されたプログラムを実行するように構成されたプロセッサ602であって、メモリ内のプログラムが実行されると、プロセッサ602が、ステレオ信号の現在のフレームの残差信号符号化パラメータを、現在のフレームのM個のサブバンドの各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいて決定し、現在のフレームの残差信号符号化パラメータが、M個のサブバンドの残差信号を符号化するかどうかを示すために使用され、M個のサブバンドがN個のサブバンドの少なくとも一部であり、Nが1より大きい正の整数であり、M≦N、Nが正の整数であり、残差信号符号化パラメータに基づいて、現在のフレームのM個のサブバンドの残差信号を符号化するかどうかを決定する、ように特に構成される、プロセッサ602と
を含む。
任意選択で、一実施態様では、M個のサブバンドは、サブバンドインデックス番号がN個のサブバンドにおける事前設定された最大サブバンドインデックス番号以下であるM個のサブバンドである。
任意選択で、一実施態様では、M個のサブバンドは、N個のサブバンド内の、サブバンドインデックス番号が事前設定された最小サブバンドインデックス番号以上、事前設定された最大サブバンドインデックス番号以下であるM個のサブバンドである。
任意選択の一実施態様では、プロセッサ602は、残差信号符号化パラメータを事前設定された第1の閾値と比較し、第1の閾値が0より大きく1.0より小さく、残差信号符号化パラメータが第1の閾値以下である場合、M個のサブバンドの各々の残差信号を符号化しないと決定するか、または残差信号符号化パラメータが第1の閾値より大きい場合、M個のサブバンドの各々の残差信号を符号化すると決定する、ようにさらに構成される。
任意選択の一実施態様では、プロセッサ602は、M個のサブバンドの各々のダウンミックス信号エネルギー、残差信号エネルギー、およびサイドゲインに基づいて残差信号符号化パラメータを決定するようにさらに構成される。
任意選択の一実施態様では、プロセッサ602は、M個のサブバンドの各々のダウンミックス信号エネルギー、残差信号エネルギー、およびサイドゲインに基づいて第1のパラメータを決定し、第1のパラメータが、M個のサブバンドの各々のダウンミックス信号エネルギーと残差信号エネルギーとの間の値関係を示し、M個のサブバンドの各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいて第2のパラメータを決定し、第2のパラメータが第1のエネルギー和と第2のエネルギー和との間の値関係を示し、第1のエネルギー和がM個のサブバンドの残差信号エネルギーとダウンミックス信号エネルギーの和であり、第2のエネルギー和が、現在のフレームの前のフレームの周波数領域信号におけるM個のサブバンドの残差信号エネルギーとダウンミックス信号エネルギーの和であり、現在のフレームのM個のサブバンドが前のフレームのM個のサブバンドと同じサブバンドインデックス番号を有し、第1のパラメータ、第2のパラメータ、および現在のフレームの前のフレームの長期平滑化パラメータに基づいて残差信号符号化パラメータを決定するようにさらに構成される。
任意選択の一実施態様では、プロセッサ602は、M個のサブバンドの各々のダウンミックス信号エネルギー、残差信号エネルギー、およびサイドゲインに基づいてM個のエネルギーパラメータを決定し、M個のエネルギーパラメータが、それぞれ、M個のサブバンドのうちの1つのダウンミックス信号エネルギーと残差信号エネルギーとの間の値関係を各々示し、M個のエネルギーパラメータがM個のサブバンドと1対1で対応し、M個のエネルギーパラメータのうちの最大値を有するエネルギーパラメータを第1のパラメータとして決定するようにさらに構成される。
任意選択で、一実施態様では、プロセッサ602によって決定されたM個のエネルギーパラメータのうちのサブバンドインデックス番号がbであるサブバンドのエネルギーパラメータが以下の式を満たし、
res_dmx_ratio[b]=res_cod_NRG_S[b]/(res_cod_NRG_S[b]+(1-g(b))・(1-g(b))・res_cod_NRG_M[b]+1)
式中、res_dmx_ratio[b]は、サブバンドインデックス番号がbであるサブバンドのエネルギーパラメータを表し、bは、0以上であり、事前設定された最大サブバンドインデックス番号以下であり、res_cod_NRG_S[b]は、サブバンドインデックス番号がbであるサブバンドの残差信号エネルギーを表し、res_cod_NRG_M[b]は、サブバンドインデックス番号がbであるサブバンドのダウンミックス信号エネルギーを表し、g(b)は、サブバンドインデックス番号がbであるサブバンドのサイドゲインside_gain[b]の関数を表す。
任意選択の一実施態様では、プロセッサ602は、M個のサブバンドの各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいて第1のパラメータを決定し、第1のパラメータが、M個のサブバンドの各々のダウンミックス信号エネルギーと残差信号エネルギーとの間の値関係を示し、M個のサブバンドの各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいて第2のパラメータを決定し、第2のパラメータが第1のエネルギー和と第2のエネルギー和との間の値関係を示し、第1のエネルギー和がM個のサブバンドの残差信号エネルギーとダウンミックス信号エネルギーの和であり、第2のエネルギー和が、現在のフレームの前のフレームの周波数領域信号におけるM個のサブバンドの残差信号エネルギーとダウンミックス信号エネルギーの和であり、現在のフレームのM個のサブバンドが前のフレームのM個のサブバンドと同じサブバンドインデックス番号を有し、第1のパラメータ、第2のパラメータ、および現在のフレームの前のフレームの長期平滑化パラメータに基づいて残差信号符号化パラメータを決定するようにさらに構成される。
任意選択の一実施態様では、プロセッサ602は、M個のサブバンドの各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいてM個のエネルギーパラメータを決定し、M個のエネルギーパラメータが、M個のサブバンドの各々のダウンミックス信号エネルギーと残差信号エネルギーとの間の値関係を各々示し、M個のエネルギーパラメータがM個のサブバンドと1対1で対応し、M個のエネルギーパラメータのうちの最大値を有するエネルギーパラメータを第1のパラメータとして決定するようにさらに構成される。
任意選択で、一実施態様では、プロセッサ602によって決定されたM個のエネルギーパラメータのうちのサブバンドインデックス番号がbであるサブバンドのエネルギーパラメータが以下の式を満たし、
res_dmx_ratio[b]=res_cod_NRG_S[b]/res_cod_NRG_M[b]
式中、res_dmx_ratio[b]は、サブバンドインデックス番号がbであるサブバンドのエネルギーパラメータを表し、bは、0以上であり、事前設定された最大サブバンドインデックス番号以下であり、res_cod_NRG_S[b]は、サブバンドインデックス番号がbであるサブバンドの残差信号エネルギーを表し、res_cod_NRG_M[b]は、サブバンドインデックス番号がbであるサブバンドのダウンミックス信号エネルギーを表す。
任意選択の一実施態様では、プロセッサ602は、M個のエネルギーパラメータの和を(補正されるべき)第1のパラメータres_dmx_ratio1として決定し、res_dmx_ratio1を、M個のエネルギーパラメータのうちの最大値res_dmx_ratio_maxおよびM個のサブバンドの各々のダウンミックス信号エネルギーres_cod_NRG_M[b]に基づいて補正し、補正によって得られたres_dmx_ratio2を決定するようにさらに構成される。
例えば、符号器側はres_dmx_ratio1を以下の式に従って補正し、式中、M=5であり、
補正によって得られたres_dmx_ratio2は以下の式を満たす。
Figure 0007520922000025
任意選択で、一実施態様では、補正によって得られたres_dmx_ratio2がさらに補正され得る。
例えば、補正によって最終的に得られたres_dmx_ratio3は以下の式を満たし、
res_dmx_ratio3=pow(res_dmx_ratio2,1.2)
式中、pow()関数は、指数関数を表し、pow(res_dmx_ratio2,1.2)は、res_dmx_ratio2の1.2乗を表す。
任意選択で、一実施態様では、プロセッサ602は、第1のパラメータを、M個のサブバンドの残差信号エネルギーの和およびM個のサブバンドのダウンミックス信号エネルギーの和に基づいて決定するようにさらに構成される。
具体的には、符号器側は、M個のサブバンドのダウンミックス信号エネルギーの和dmx_nrg_all_currとM個のサブバンドの残差信号エネルギーの和res_nrg_all_currとを別々に決定し、dmx_nrg_all_currおよびres_nrg_all_currに基づいて第1のパラメータを決定する。
任意選択で、一実施態様では、M個のサブバンドのダウンミックス信号エネルギーの和dmx_nrg_all_currは以下の式を満たし、
Figure 0007520922000026
式中、res_cod_NRG_M_prev[b]は、現在のフレームの前のフレームにおけるサブバンドインデックス番号がbであるサブバンドのダウンミックス信号エネルギーを表し、γ1は、平滑化係数を表し、γ1は、0以上1以下の実数であり、例えば、γ1=0.1である。
任意選択で、一実施態様では、M個のサブバンドの残差信号エネルギーの和res_nrg_all_currは以下の式を満たし、
Figure 0007520922000027
式中、res_cod_NRG_S_prev[b]は、現在のフレームの前のフレームにおけるサブバンドインデックス番号がbであるサブバンドの残差信号エネルギーを表し、γ2は、平滑化係数を表し、γ2は、0以上1以下の実数であり、例えば、γ2=0.1である。
符号器側は、dmx_nrg_all_currおよびres_nrg_all_currに基づいて第1のパラメータres_dmx_ratioを決定する。
例えば、符号器側によって最終的に決定された第1のパラメータres_dmx_ratioは以下の式を満たす。
res_dmx_ratio=res_nrg_all_curr/dmx_nrg_all_curr
任意選択で、一実施態様では、プロセッサ602によって決定されたM個のエネルギーパラメータのうちのサブバンドインデックス番号がbであるサブバンドのエネルギーパラメータが以下の式を満たし、
res_dmx_ratio[b]=res_cod_NRG_S[b]/res_cod_NRG_M[b]
式中、res_dmx_ratio[b]は、M個のエネルギーパラメータのうちのサブバンドインデックス番号がbであるサブバンドのエネルギーパラメータを表し、bは、0以上であり、事前設定された最大サブバンドインデックス番号以下であり、res_cod_NRG_S[b]は、サブバンドインデックス番号がbであるサブバンドの残差信号エネルギーを表し、res_cod_NRG_M[b]は、サブバンドインデックス番号がbであるサブバンドのダウンミックス信号エネルギーを表す。
任意選択で、一実施態様では、第1のパラメータが事前設定された第2の閾値より小さく、第2のパラメータが事前設定された第3の閾値より大きい場合、現在のフレームの、プロセッサ602によって決定される残差信号符号化パラメータは現在のフレームの長期平滑化パラメータであり、現在のフレームの長期平滑化パラメータは以下の式を満たし、
res_dmx_ratio_lt=res_dmx_ratio・α+res_dmx_ratio_lt_prev・(1-α)
式中、res_dmx_ratio_ltは、現在のフレームの長期平滑化パラメータを表し、res_dmx_ratioは、第1のパラメータを表し、res_dmx_ratio_lt_prevは、現在のフレームの前のフレームの長期平滑化パラメータを表し、0<α<1であり、
第2のパラメータが事前設定された第3の閾値より大きい場合、第1のパラメータが事前設定された第2の閾値より小さい場合のαの値は、第1のパラメータが事前設定された第2の閾値以上の場合のαの値より大きく、第2の閾値は0以上0.6以下であり、第3の閾値は2.7以上3.7以下であるか、または
第2のパラメータが事前設定された第5の閾値より大きい場合、第1のパラメータが事前設定された第4の閾値より大きい場合のαの値は、第1のパラメータが事前設定された第4の閾値以下の場合のαの値より大きく、第4の閾値は0以上0.9以下であり、第5の閾値は0以上0.71以下であるか、または
第1のパラメータが事前設定された第2の閾値より小さく、第2のパラメータが事前設定された第3の閾値より大きい場合のαの値は、第2のパラメータが事前設定された第5の閾値以上であり、事前設定された第3の閾値以下である場合のαの値より大きく、第2の閾値は0以上0.6以下であり、第3の閾値は2.7以上3.7以下であり、第5の閾値は0以上0.71以下である。
任意選択で、一実施形態では、プロセッサ602は、M個のサブバンドの残差信号を符号化すると決定されるときに、M個のサブバンドのダウンミックス信号および残差信号を符号化するか、またはM個のサブバンドの残差信号を符号化しないと決定されるときに、M個のサブバンドのダウンミックス信号を符号化するようにさらに構成される。
本出願はチップをさらに提供する。本チップは、プロセッサと通信インターフェースとを含む。通信インターフェースは、外部デバイスと通信するように構成され、プロセッサは、本出願の実施形態におけるステレオ信号符号化方法を行うように構成される。
任意選択で、一実施態様では、本チップはメモリをさらに含み得る。メモリは、命令を格納し、プロセッサは、メモリに格納された命令を実行するように構成される。命令が実行されると、プロセッサは、本出願の実施形態におけるステレオ信号符号化方法を行うように構成される。
任意選択で、一実施態様では、本チップは、端末機器またはネットワーク機器に組み込まれる。
本出願は、コンピュータ可読記憶媒体を提供する。本コンピュータ可読記憶媒体は、デバイスによって実行されるべきプログラムコードを格納する。プログラムコードは、本出願の実施形態におけるステレオ信号符号化方法を行うための命令を含む。
本発明の実施形態で言及されたプロセッサは、中央処理装置(Central Processing Unit、CPU)であってもよく、または他の汎用プロセッサ、デジタル信号プロセッサ(Digital Signal Processor、DSP)、特定用途向け集積回路(Application Specific Integrated Circuit、ASIC)、フィールドプログラマブルゲートアレイ(Field Programmable Gate Array、FPGA)もしくは他のプログラマブルロジックデバイス、ディスクリートゲートもしくはトランジスタ論理デバイス、ディスクリートハードウェアコンポーネントなどであってもよいことを理解されたい。汎用プロセッサはマイクロプロセッサであってもよく、またはプロセッサは任意の従来のプロセッサなどであってもよい。
本発明の実施形態で言及されたメモリは、揮発性メモリまたは不揮発性メモリであってもよく、揮発性メモリおよび不揮発性メモリを含んでいてもよいことが理解されよう。不揮発性メモリは、読取り専用メモリ(Read-Only Memory、ROM)、プログラマブル読取り専用メモリ(Programmable ROM、PROM)、消去プログラマブル読取り専用メモリ(Erasable PROM、EPROM)、電気的消去可能 ログラマブル読取り専用メモリ(Electrically EPROM、EEPROM)、またはフラッシュメモリであり得る。揮発性メモリは、外部キャッシュとして使用されるランダムアクセスメモリ(Random Access Memory、RAM)であり得る。限定ではなく例として挙げると、多くの形態のRAM、例えば、スタティックランダムアクセスメモリ(Static RAM、SRAM)、ダイナミックランダムアクセスメモリ(Dynamic RAM、DRAM)、シンクロナス・ダイナミック・ランダム・アクセス・メモリ(Synchronous DRAM、SDRAM)、ダブル・データ・レート・シンクロナス・ダイナミック・ランダム・アクセス・メモリ(Double Data Rate SDRAM、DDR SDRAM)、拡張シンクロナス・ダイナミック・ランダム・アクセス・メモリ(Enhanced SDRAM、ESDRAM)、シンクリンク・ダイナミック・ランダム・アクセス・メモリ(Synchlink DRAM、SLDRAM)、ダイレクト・ラムバス・ランダム・アクセス・メモリ(Direct Rambus RAM、DR RAM)が使用され得る。
プロセッサが、汎用プロセッサ、DSP、ASIC、FPGA、もしくは他のプログラマブルロジックデバイス、ディスクリートゲート、トランジスタ論理回路、またはディスクリートハードウェアコンポーネントである場合、メモリ(記憶モジュール)はプロセッサに統合されることに留意されたい。
本明細書に記載されるメモリは、これらのメモリおよび任意の他の適切なタイプのメモリを含むが、これに限定されないことに留意されたい。
本明細書で開示される実施形態に記載される例と組み合わせて、各ユニットおよびアルゴリズムステップが、電子ハードウェアによって、またはコンピュータソフトウェアと電子ハードウェアの組み合わせによって実現され得ることを、当業者は理解するであろう。機能が果たされるのがハードウェアによってかそれともソフトウェアによってかは、技術的解決策の個々の用途および設計上の制約条件に依存する。当業者であれば、特定の用途ごとに様々な方法を使用して記載の機能を実施し得るが、その実施態様は本出願の範囲を超えるものと見なされるべきではない。
説明を簡便にするために、前述のシステム、装置、およびユニットの詳細な動作プロセスについては、前述の方法実施形態における対応するプロセスを参照するものとし、本明細書には詳細が記載されていないことが、当業者には明確に理解されよう。
本出願で提供されるいくつかの実施形態においては、開示のシステム、装置、および方法が他のやり方で実現され得ることを理解されたい。例えば、記載の装置実施形態は単なる例にすぎない。例えば、ユニットへの分割は単なる論理的機能分割にすぎず、実際の実装に際しては他の分割も可能である。例えば、複数のユニットまたはコンポーネントが組み合わされ、または統合して他のシステムとされる場合もあり、いくつかの特徴が無視され、または実行されない場合もある。加えて、図示され、または記述された相互結合または直接結合または通信接続は、いくつかのインターフェースを使用して実現されてもよい。装置間またはユニット間の間接結合または通信接続は、電子的形態、機械的形態、または他の形態で実現されてもよい。
別々の部品として記載されたユニットは物理的に分離している場合もそうではない場合もあり、ユニットとして図示された部品は物理的ユニットである場合もそうではない場合もあり、一箇所に位置する場合もあり、複数のネットワークユニット上に分散されている場合もある。ユニットの一部または全部が、各実施形態の解決策の目的を達成するための実際の要件に基づいて選択されてもよい。
加えて、本出願の実施形態における機能ユニットは1つの処理ユニットに統合されてもよく、またはユニットの各々が物理的に独立して存在していてもよく、または2つ以上のユニットが1つのユニットに統合される。
各機能がソフトウェア機能ユニットの形態で実現され、独立した製品として販売または使用される場合に、それらの機能は、コンピュータ可読記憶媒体に格納され得る。そうした理解に基づき、本出願の技術的解決策は本質的に、または先行技術に寄与する部分が、または技術的解決策の一部がソフトウェア製品の形態で実現され得る。コンピュータソフトウェア製品は記憶媒体に格納されており、(パーソナルコンピュータ、サーバ、ネットワーク機器などとし得る)コンピュータデバイスに、本出願の実施形態に記載されている方法のステップの全部または一部を実行するよう命令するためのいくつかの命令を含む。前述の記憶媒体は、USBフラッシュドライブ、リムーバブルハードディスク、読取り専用メモリ(Read-Only Memory、ROM)、ランダムアクセスメモリ(Random Access Memory、RAM)、磁気ディスク、または光ディスクなどの、プログラムコードを格納することができる任意の媒体を含む。
以上の説明は、本出願の特定に実施態様にすぎず、本出願の保護範囲を限定するためのものではない。本出願で開示された技術範囲内で当業者が容易に思いつく一切の変形または置換は、本出願の保護範囲内であるものとする。したがって、本出願の保護範囲は、特許請求の範囲の保護範囲に従うものとする。
110 符号化構成要素
120 復号構成要素
130 移動端末
131 収集構成要素
132 チャネル符号化構成要素
140 移動端末
141 オーディオ再生構成要素
142 チャネル復号構成要素
150 ネットワーク要素
151 チャネル復号構成要素
152 チャネル符号化構成要素
300 ステレオ信号符号化方法
500 装置
501 第1の決定モジュール
502 第2の決定モジュール
600 装置
601 メモリ
602 プロセッサ

Claims (9)

  1. ステレオ信号符号化方法であって、
    ステレオ信号の現在のフレームの残差信号符号化パラメータを、前記現在のフレームのM個のサブバンドの各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいて決定するステップであって、前記現在のフレームは、N個のサブバンドを含み、前記M個のサブバンドは前記N個のサブバンドの少なくとも一部であり、Nは1より大きい正の整数であり、M≦N、Mは正の整数である、ステップと、
    前記残差信号符号化パラメータに基づいて、前記現在のフレームの前記M個のサブバンドの残差信号を符号化するか否かを決定するステップと
    を含
    前記残差信号符号化パラメータを決定するステップは、
    前記M個のサブバンドの各々の前記ダウンミックス信号エネルギーおよび前記残差信号エネルギーに基づいて第1のパラメータを決定するステップであって、前記第1のパラメータは、前記M個のサブバンドの各々の前記ダウンミックス信号エネルギーと前記残差信号エネルギーとの間の値関係を示す、ステップと、
    前記M個のサブバンドの各々の前記ダウンミックス信号エネルギーおよび前記残差信号エネルギーに基づいて第2のパラメータを決定するステップであって、前記第2のパラメータは第1のエネルギー和と第2のエネルギー和との間の値関係を示し、前記第1のエネルギー和は前記M個のサブバンドの残差信号エネルギーとダウンミックス信号エネルギーの和であり、前記第2のエネルギー和は、前記現在のフレームの前のフレームの周波数領域信号におけるM個のサブバンドの残差信号エネルギーとダウンミックス信号エネルギーの和であり、前記現在のフレームの前記M個のサブバンドは前記前のフレームの前記M個のサブバンドと同じサブバンドインデックス番号を有する、ステップと、
    前記第1のパラメータ、前記第2のパラメータ、および前記現在のフレームの前記前のフレームの長期平滑化パラメータに基づいて前記現在のフレームの前記残差信号符号化パラメータを決定するステップと、を含む、
    ステレオ信号符号化方法。
  2. 前記残差信号符号化パラメータに基づいて、前記M個のサブバンドの前記残差信号を符号化するか否かを決定する前記ステップは、
    前記残差信号符号化パラメータを事前設定された第1の閾値と比較するステップであって、前記第1の閾値が0より大きく1.0より小さい、ステップと、
    前記残差信号符号化パラメータが前記第1の閾値以下であるとき前記M個のサブバンドの前記残差信号を符号化しないと決定するステップ、または
    前記残差信号符号化パラメータが前記第1の閾値より大きいとき前記M個のサブバンドの前記残差信号を符号化すると決定するステップと
    を含む、請求項1に記載の方法。
  3. 前記第1のパラメータを決定するステップは、
    前記M個のサブバンドの各々の前記ダウンミックス信号エネルギーおよび前記残差信号エネルギーに基づいてM個のエネルギーパラメータを決定するステップであって、前記M個のエネルギーパラメータは、前記M個のサブバンドの各々の前記ダウンミックス信号エネルギーと前記残差信号エネルギーとの間の前記値関係を各々示し、前記M個のエネルギーパラメータは前記M個のサブバンドと1対1で対応する、ステップと、
    前記M個のエネルギーパラメータの中から最大値を有するエネルギーパラメータを前記第1のパラメータとして選択するステップと
    を含む、請求項1または2に記載の方法。
  4. 前記M個のエネルギーパラメータのうちの、サブバンドbのエネルギーパラメータは以下の式を満足し、
    res_dmx_ratio[b]=res_cod_NRG_S[b]/res_cod_NRG_M[b]
    式中、res_dmx_ratio[b]は、サブバンドbの前記エネルギーパラメータを表し、bは、0以上であり、事前設定された最大サブバンドインデックス番号以下であり、res_cod_NRG_S[b]は、サブバンドbの残差信号エネルギーを表し、res_cod_NRG_M[b]は、サブバンドbのダウンミックス信号エネルギーを表す、請求項3に記載の方法。
  5. 前記現在のフレームの前記残差信号符号化パラメータは、前記現在のフレームの長期平滑化パラメータであり、前記現在のフレームの前記長期平滑化パラメータは以下の式を満足し、
    res_dmx_ratio_lt=res_dmx_ratio・α+res_dmx_ratio_lt_prev・(1-α)
    式中、res_dmx_ratio_ltは、前記現在のフレームの前記長期平滑化パラメータを表し、res_dmx_ratioは、前記第1のパラメータを表し、res_dmx_ratio_lt_prevは、前記現在のフレームの前記前のフレームの前記長期平滑化パラメータを表し、0<α<1であり、
    前記第2のパラメータが事前設定された第3の閾値より大きい場合、前記第1のパラメータが事前設定された第2の閾値より小さい場合のαの第1の値は、前記第1のパラメータが前記事前設定された第2の閾値以上の場合のαの第2の値より大きく、前記第2の閾値が0以上0.6以下であり、前記第3の閾値が2.7以上3.7以下であるか、または
    前記第2のパラメータが事前設定された第5の閾値より小さい場合、前記第1のパラメータが事前設定された第4の閾値より大きい場合のαの第3の値は、前記第1のパラメータが前記事前設定された第4の閾値以下の場合のαの第4の値より大きく、前記第4の閾値が0以上0.9以下であり、前記第5の閾値が0以上0.71以下であるか、または
    前記第2のパラメータが事前設定された第5の閾値以上であり、事前設定された第3の閾値以下である場合、αの第5の値は、前記第1のパラメータが事前設定された第2の閾値より小さく、前記第2のパラメータが前記事前設定された第3の閾値より大きい場合のαの第6の値より小さく、前記第2の閾値が0以上0.6以下であり、前記第3の閾値が2.7以上3.7以下であり、前記第5の閾値が0以上0.71以下である、請求項1から4のいずれか一項に記載の方法。
  6. 前記M個のサブバンドの前記残差信号を符号化すると決定されるとき前記M個のサブバンドのダウンミックス信号および前記残差信号を符号化するステップ、または
    前記M個のサブバンドの前記残差信号を符号化しないと決定されるとき前記M個のサブバンドのダウンミックス信号を符号化するステップ
    をさらに含む、請求項1から5のいずれか一項に記載の方法。
  7. ステレオ信号符号化装置であって、
    プログラムを格納するように構成された、メモリと、
    前記メモリに格納された前記プログラムを実行するように構成されたプロセッサであって、前記メモリ内の前記プログラムが実行されると、前記プロセッサは、コンピュータに請求項1から6のいずれか一項に記載の方法を実行させるように構成される、プロセッサと
    を含む、ステレオ信号符号化装置。
  8. プログラムが記憶されたコンピュータ可読記憶媒体であって、前記プログラムはコンピュータに請求項1から6のいずれか一項に記載の方法を行わせる、コンピュータ可読記憶媒体。
  9. コンピュータに請求項1から6のいずれか一項に記載の方法を実行させるよう構成されたコンピュータプログラム。
JP2022115641A 2018-05-31 2022-07-20 ステレオ信号符号化方法およびステレオ信号符号化装置 Active JP7520922B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
CN201810549237.3A CN110556117B (zh) 2018-05-31 2018-05-31 立体声信号的编码方法和装置
CN201810549237.3 2018-05-31
PCT/CN2019/076341 WO2019227991A1 (zh) 2018-05-31 2019-02-27 立体声信号的编码方法和装置
JP2020566740A JP7110401B2 (ja) 2018-05-31 2019-02-27 ステレオ信号符号化方法およびステレオ信号符号化装置

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2020566740A Division JP7110401B2 (ja) 2018-05-31 2019-02-27 ステレオ信号符号化方法およびステレオ信号符号化装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2024110194A Division JP2024153672A (ja) 2018-05-31 2024-07-09 ステレオ信号符号化方法およびステレオ信号符号化装置

Publications (2)

Publication Number Publication Date
JP2022163058A JP2022163058A (ja) 2022-10-25
JP7520922B2 true JP7520922B2 (ja) 2024-07-23

Family

ID=68697244

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2020566740A Active JP7110401B2 (ja) 2018-05-31 2019-02-27 ステレオ信号符号化方法およびステレオ信号符号化装置
JP2022115641A Active JP7520922B2 (ja) 2018-05-31 2022-07-20 ステレオ信号符号化方法およびステレオ信号符号化装置

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2020566740A Active JP7110401B2 (ja) 2018-05-31 2019-02-27 ステレオ信号符号化方法およびステレオ信号符号化装置

Country Status (9)

Country Link
US (3) US11462224B2 (ja)
EP (2) EP3783607B1 (ja)
JP (2) JP7110401B2 (ja)
KR (3) KR102710464B1 (ja)
CN (2) CN114708874A (ja)
BR (1) BR112020024257A2 (ja)
PT (1) PT3783607T (ja)
SG (1) SG11202011324RA (ja)
WO (1) WO2019227991A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110556118B (zh) 2018-05-31 2022-05-10 华为技术有限公司 立体声信号的编码方法和装置
US12100403B2 (en) * 2020-03-09 2024-09-24 Nippon Telegraph And Telephone Corporation Sound signal downmixing method, sound signal coding method, sound signal downmixing apparatus, sound signal coding apparatus, program and recording medium
CN118800251A (zh) * 2023-04-13 2024-10-18 华为技术有限公司 场景音频信号的编码方法和装置
CN117079657B (zh) * 2023-10-16 2024-01-26 中国铁塔股份有限公司 压限处理方法、装置、电子设备及可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008519307A (ja) 2004-11-04 2008-06-05 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 多チャンネル音声信号の符号化及び復号化
JP2008519306A (ja) 2004-11-04 2008-06-05 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 信号の組のエンコード及びデコード
JP2016531483A (ja) 2013-07-22 2016-10-06 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 無相関化信号の寄与の残差信号ベースの調整を用いたマルチチャンネルオーディオデコーダ、マルチチャンネルオーディオエンコーダ、方法およびコンピュータプログラム

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4245288B2 (ja) * 2001-11-13 2009-03-25 パナソニック株式会社 音声符号化装置および音声復号化装置
WO2003077235A1 (en) * 2002-03-12 2003-09-18 Nokia Corporation Efficient improvements in scalable audio coding
US7318035B2 (en) * 2003-05-08 2008-01-08 Dolby Laboratories Licensing Corporation Audio coding systems and methods using spectral component coupling and spectral component regeneration
DK3561810T3 (da) 2004-04-05 2023-05-01 Koninklijke Philips Nv Fremgangsmåde til kodning af venstre og højre audioindgangssignaler, tilsvarende koder, afkoder og computerprogramprodukt
US7573912B2 (en) * 2005-02-22 2009-08-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. Near-transparent or transparent multi-channel encoder/decoder scheme
US7751572B2 (en) * 2005-04-15 2010-07-06 Dolby International Ab Adaptive residual audio coding
US7548853B2 (en) * 2005-06-17 2009-06-16 Shmunk Dmitry V Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding
US8321230B2 (en) * 2006-02-06 2012-11-27 France Telecom Method and device for the hierarchical coding of a source audio signal and corresponding decoding method and device, programs and signals
US8571875B2 (en) * 2006-10-18 2013-10-29 Samsung Electronics Co., Ltd. Method, medium, and apparatus encoding and/or decoding multichannel audio signals
CN101067931B (zh) * 2007-05-10 2011-04-20 芯晟(北京)科技有限公司 一种高效可配置的频域参数立体声及多声道编解码方法与系统
CN101393743A (zh) * 2007-09-19 2009-03-25 中兴通讯股份有限公司 一种可配置参数的立体声编码装置及其编码方法
CN101842832B (zh) * 2007-10-31 2012-11-07 松下电器产业株式会社 编码装置和解码装置
KR101428487B1 (ko) * 2008-07-11 2014-08-08 삼성전자주식회사 멀티 채널 부호화 및 복호화 방법 및 장치
CN101635145B (zh) * 2008-07-24 2012-06-06 华为技术有限公司 编解码方法、装置和系统
CN105225667B (zh) * 2009-03-17 2019-04-05 杜比国际公司 编码器系统、解码器系统、编码方法和解码方法
FR2947944A1 (fr) * 2009-07-07 2011-01-14 France Telecom Codage/decodage perfectionne de signaux audionumeriques
KR20110018107A (ko) * 2009-08-17 2011-02-23 삼성전자주식회사 레지듀얼 신호 인코딩 및 디코딩 방법 및 장치
KR101710113B1 (ko) 2009-10-23 2017-02-27 삼성전자주식회사 위상 정보와 잔여 신호를 이용한 부호화/복호화 장치 및 방법
CN102243876B (zh) * 2010-05-12 2013-08-07 华为技术有限公司 预测残差信号的量化编码方法及装置
KR101585852B1 (ko) 2011-09-29 2016-01-15 돌비 인터네셔널 에이비 Fm 스테레오 라디오 신호들에서 고품질의 검출
WO2013189030A1 (zh) * 2012-06-19 2013-12-27 深圳广晟信源技术有限公司 对单声道或立体声进行编码的方法
EP2690621A1 (en) * 2012-07-26 2014-01-29 Thomson Licensing Method and Apparatus for downmixing MPEG SAOC-like encoded audio signals at receiver side in a manner different from the manner of downmixing at encoder side
US9564138B2 (en) 2012-07-31 2017-02-07 Intellectual Discovery Co., Ltd. Method and device for processing audio signal
US9711150B2 (en) * 2012-08-22 2017-07-18 Electronics And Telecommunications Research Institute Audio encoding apparatus and method, and audio decoding apparatus and method
US20150125023A1 (en) 2013-03-08 2015-05-07 Ideavillage Products Corp. Headset with variable acoustic impedance
EP2830051A3 (en) * 2013-07-22 2015-03-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals
ES2904275T3 (es) * 2015-09-25 2022-04-04 Voiceage Corp Método y sistema de decodificación de los canales izquierdo y derecho de una señal sonora estéreo

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008519307A (ja) 2004-11-04 2008-06-05 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 多チャンネル音声信号の符号化及び復号化
JP2008519306A (ja) 2004-11-04 2008-06-05 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 信号の組のエンコード及びデコード
JP2016531483A (ja) 2013-07-22 2016-10-06 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 無相関化信号の寄与の残差信号ベースの調整を用いたマルチチャンネルオーディオデコーダ、マルチチャンネルオーディオエンコーダ、方法およびコンピュータプログラム

Also Published As

Publication number Publication date
KR20210008091A (ko) 2021-01-20
KR102548475B1 (ko) 2023-06-26
EP4435777A1 (en) 2024-09-25
US11978463B2 (en) 2024-05-07
PT3783607T (pt) 2024-07-11
US11462224B2 (en) 2022-10-04
BR112020024257A2 (pt) 2021-02-23
US20240355343A1 (en) 2024-10-24
KR20230098708A (ko) 2023-07-04
JP7110401B2 (ja) 2022-08-01
KR20240145060A (ko) 2024-10-04
CN114708874A (zh) 2022-07-05
CN110556117B (zh) 2022-04-22
SG11202011324RA (en) 2020-12-30
EP3783607A1 (en) 2021-02-24
KR102710464B1 (ko) 2024-09-25
EP3783607A4 (en) 2021-06-30
EP3783607B1 (en) 2024-05-08
US20220392470A1 (en) 2022-12-08
JP2021525390A (ja) 2021-09-24
WO2019227991A1 (zh) 2019-12-05
US20210082445A1 (en) 2021-03-18
CN110556117A (zh) 2019-12-10
JP2022163058A (ja) 2022-10-25

Similar Documents

Publication Publication Date Title
JP7520922B2 (ja) ステレオ信号符号化方法およびステレオ信号符号化装置
US8527282B2 (en) Method and an apparatus for processing a signal
US9275648B2 (en) Method and apparatus for processing audio signal using spectral data of audio signal
KR102578950B1 (ko) 스테레오 신호 인코딩 방법 및 장치
JP7159351B2 (ja) ダウンミックスされた信号の計算方法及び装置
KR20200027008A (ko) 스테레오 신호의 인코딩 및 디코딩 방법과, 인코딩 및 디코딩 장치
WO2019170955A1 (en) Audio coding
CN112233682B (zh) 一种立体声编码方法、立体声解码方法和装置
KR102710541B1 (ko) 스테레오 코딩 방법 및 디바이스, 및 스테레오 디코딩 방법 및 디바이스
US11961526B2 (en) Method and apparatus for calculating downmixed signal and residual signal
KR102380454B1 (ko) 시간-도메인 스테레오 인코딩 및 디코딩 방법 및 관련 제품
JP2024153672A (ja) ステレオ信号符号化方法およびステレオ信号符号化装置
TW201911293A (zh) 時域立體聲參數的編碼方法和相關產品
KR102727811B1 (ko) 스테레오 신호 인코딩 방법 및 장치
RU2773421C2 (ru) Способ и соответствующий продукт для определения режима кодирования/декодирования аудио

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220818

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220818

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230828

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231002

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20231213

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240328

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240610

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240710

R150 Certificate of patent or registration of utility model

Ref document number: 7520922

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150