JP7311573B2 - 時間領域ステレオエンコーディング及びデコーディング方法並びに関連製品 - Google Patents

時間領域ステレオエンコーディング及びデコーディング方法並びに関連製品 Download PDF

Info

Publication number
JP7311573B2
JP7311573B2 JP2021180319A JP2021180319A JP7311573B2 JP 7311573 B2 JP7311573 B2 JP 7311573B2 JP 2021180319 A JP2021180319 A JP 2021180319A JP 2021180319 A JP2021180319 A JP 2021180319A JP 7311573 B2 JP7311573 B2 JP 7311573B2
Authority
JP
Japan
Prior art keywords
current frame
channel
signal
scheme
ratio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021180319A
Other languages
English (en)
Other versions
JP2022010020A (ja
Inventor
海▲ティン▼ 李
▲賓▼ 王
磊 苗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of JP2022010020A publication Critical patent/JP2022010020A/ja
Priority to JP2023111288A priority Critical patent/JP2023139041A/ja
Application granted granted Critical
Publication of JP7311573B2 publication Critical patent/JP7311573B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/007Two-channel systems in which the audio signals are in digital form
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)

Description

本出願は、オーディオエンコーディング及びデコーディング技術の分野に関し、詳細には、時間領域ステレオエンコーディング及びデコーディング方法並びに関連製品に関する。
生活の質が、向上したので、人々は、高品質オーディオに対するますます高い要求を有している。モノラルオーディオと比較して、ステレオオーディオは、様々な音源についての方向感及び分布感を有し、情報の明瞭性、了解度、及び存在感を改善することができ、したがって、人々に人気がある。
パラメトリックステレオエンコーディング及びデコーディング技術においては、ステレオ信号は、モノラル信号と空間認知パラメータとに変換され、マルチチャンネル信号は、圧縮される。これは、一般的なステレオエンコーディング及びデコーディング技術である。しかしながら、パラメトリックステレオエンコーディング及びデコーディング技術においては、空間認知パラメータは、通常、周波数領域において抽出される必要があり、時間領域変換が、実行される必要があるので、コーデック全体の遅延は、相対的に大きい。したがって、遅延について、相対的に厳しい要件が、存在するとき、時間領域ステレオエンコーディング技術が、より良い選択である。
従来の時間領域ステレオエンコーディング技術においては、信号は、時間領域において2つのモノラル信号を取得するために、ダウンミックスされる。例えば、MSエンコーディング技術においては、ミッドチャンネル(Mid channel)信号と、サイドチャンネル(Side channel)信号とを取得するために、左及び右チャンネル信号が、最初にダウンミックスされる。例えば、Lは、左チャンネル信号を示し、Rは、右チャンネル信号を示す。このケースにおいては、ミッドチャンネル信号は、0.5×(L+R)であり、ミッドチャンネル信号は、左チャンネルと右チャンネルとの間の相関についての情報を示し、サイドチャンネル信号は、0.5×(L-R)であり、サイドチャンネル信号は、左チャンネルと右チャンネルとの間の差についての情報を示す。その後、ミッドチャンネル信号とサイドチャンネル信号は、モノラルエンコーディング方法を使用することによって、別々にエンコードされ、ミッドチャンネル信号は、通常、より多量のビットを使用することによってエンコードされ、サイドチャンネル信号は、通常、より少量のビットを使用することによってエンコードされる。
従来の時間領域ステレオエンコーディング技術が使用されるとき、ときどき、プライマリ信号のエネルギーは、きわめて小さく、又はエネルギーは、見当たりさえせず、最終的なエンコーディング品質の低下をもたらすこと研究及び実践を通して見出された
本出願の実施形態は、時間領域ステレオエンコーディング方法及び関連製品を提供する。
第1の態様に従うと、本出願の実施形態は、時間領域ステレオエンコーディング方法を提供し、方法は、現在のフレームの符号化モードを決定するステップと、現在のフレームの符号化モードが反相関信号符号化モードであると決定されたとき、現在のフレームにおけるプライマリチャンネル信号(primary channel signal)及びセカンダリチャンネル信号(secondary channel signal)を取得するために、反相関信号符号化モードに対応する時間領域ダウンミックス処理方式を使用することによって、現在のフレームにおける左及び右チャンネル信号に対して時間領域ダウンミックス処理を実行するステップであって、反相関信号符号化モードに対応する時間領域ダウンミックス処理方式は、反相関信号チャンネル組み合わせスキームに対応する時間領域ダウンミックス処理方式であり、反相関信号チャンネル組み合わせスキームは、逆位相に近い信号に対応するチャンネル組み合わせスキームである、ステップと、現在のフレームにおける取得されたプライマリ及びセカンダリチャンネル信号をエンコードするステップとを含み得る。
現在のフレームにおけるステレオ信号は、例えば、現在のフレームにおける左及び右チャンネル信号を含む。
現在のフレームの符号化モードは、複数の符号化モードのうちの1つであり得る。例えば、現在のフレームの符号化モードは、以下の符号化モード、即ち、相関信号符号化モード、反相関信号符号化モード、相関から反相関信号符号化への切り換えモード、及び反相関から相関信号符号化への切り換えモードのうちの1つであり得る。
上述のソリューションにおいては、現在のフレームの符号化モードは、決定される必要があり、これは、現在のフレームの符号化モードについて複数の可能性があることを示していることが理解され得る。ただ1つの符号化モードしかない従来のソリューションと比較して、複数の可能な符号化モードを有するこのソリューションは、複数の可能なシナリオとより相性が良く、調和することができる。加えて、逆位相に近い信号に対応するチャンネル組み合わせスキームが、導入されるので、現在のフレームにおけるステレオ信号が、逆位相に近い信号であるとき、より目標に合ったチャンネル組み合わせスキーム及び符号化モードが、存在し、これは、エンコーディング品質を改善する助けになる。
いくつかの可能な実装においては、方法は、現在のフレームの符号化モードが相関信号符号化モードであると決定されたとき、現在のフレームにおけるプライマリ及びセカンダリチャンネル信号を取得するために、相関信号符号化モードに対応する時間領域ダウンミックス処理方式を使用することによって、現在のフレームにおける左及び右チャンネル信号に対して時間領域ダウンミックス処理を実行するステップをさらに含み得る。相関信号符号化モードに対応する時間領域ダウンミックス処理方式は、相関信号チャンネル組み合わせスキームに対応する時間領域ダウンミックス処理方式であり、相関信号チャンネル組み合わせスキームは、同位相に近い信号に対応するチャンネル組み合わせスキームである。
いくつかの可能な実装においては、方法は、現在のフレームの符号化モードが相関から反相関信号符号化への切り換えモードであると決定されたとき、現在のフレームにおけるプライマリ及びセカンダリチャンネル信号を取得するために、相関から反相関信号符号化への切り換えモードに対応する時間領域ダウンミックス処理方式を使用することによって、現在のフレームにおける左及び右チャンネル信号に対して時間領域ダウンミックス処理を実行するステップをさらに含み得る。相関から反相関信号符号化への切り換えモードに対応する時間領域ダウンミックス処理方式は、相関信号チャンネル組み合わせスキームから反相関信号チャンネル組み合わせスキームへの移行に対応する時間領域ダウンミックス処理方式である。
いくつかの可能な実装においては、方法は、現在のフレームの符号化モードが反相関から相関信号符号化への切り換えモードであると決定されたとき、現在のフレームにおけるプライマリ及びセカンダリチャンネル信号を取得するために、反相関から相関信号符号化への切り換えモードに対応する時間領域ダウンミックス処理方式を使用することによって、現在のフレームにおける左及び右チャンネル信号に対して時間領域ダウンミックス処理を実行するステップをさらに含み得る。反相関から相関信号符号化への切り換えモードに対応する時間領域ダウンミックス処理方式は、反相関信号チャンネル組み合わせスキームから相関信号チャンネル組み合わせスキームへの移行に対応する時間領域ダウンミックス処理方式である。
異なる符号化モードに対応する時間領域ダウンミックス処理方式は、通常、異なることが理解されることができる。加えて、各符号化モードは、1つ又は複数の時間領域ダウンミックス処理方式に対応し得る。
例えば、いくつかの可能な実装においては、現在のフレームにおけるプライマリ及びセカンダリチャンネル信号を取得するために、反相関信号符号化モードに対応する時間領域ダウンミックス処理方式を使用することによって、現在のフレームにおける左及び右チャンネル信号に対して時間領域ダウンミックス処理を実行するステップは、現在のフレームにおけるプライマリ及びセカンダリチャンネル信号を取得するために、現在のフレームのための反相関信号チャンネル組み合わせスキームのチャンネル組み合わせ比係数に基づいて、現在のフレームにおける左及び右チャンネル信号に対して時間領域ダウンミックス処理を実行するステップ、又は現在のフレームにおけるプライマリ及びセカンダリチャンネル信号を取得するために、現在のフレームのための反相関信号チャンネル組み合わせスキームのチャンネル組み合わせ比係数、及び以前のフレームのための反相関信号チャンネル組み合わせスキームのチャンネル組み合わせ比係数に基づいて、現在のフレームにおける左及び右チャンネル信号に対して時間領域ダウンミックス処理を実行するステップを含み得る。
オーディオフレーム(例えば、現在のフレーム又は以前のフレーム)のためのチャンネル組み合わせスキーム(例えば、反相関信号チャンネル組み合わせスキーム又は相関信号チャンネル組み合わせスキーム)のチャンネル組み合わせ比係数は、事前設定された固定値であり得ることが理解されることができる。もちろん、オーディオフレームのチャンネル組み合わせ比係数は、オーディオフレームのためのチャンネル組み合わせスキームに基づいて決定されてもまたよい。
いくつかの可能な実装においては、オーディオフレームのチャンネル組み合わせ比係数に基づいて、対応するダウンミックス行列が、構築され得るし、現在のフレームにおけるプライマリ及びセカンダリチャンネル信号を取得するために、チャンネル組み合わせスキームに対応するダウンミックス行列を使用することによって、現在のフレームにおける左及び右チャンネル信号に対して、時間領域ダウンミックス処理が実行される。
例えば、現在のフレームにおけるプライマリ及びセカンダリチャンネル信号を取得するために、現在のフレームのための反相関信号チャンネル組み合わせスキームのチャンネル組み合わせ比係数に基づいて、現在のフレームにおける左及び右チャンネル信号に対して、時間領域ダウンミックス処理が実行されるとき、
Figure 0007311573000001
である。
別の例について、現在のフレームにおけるプライマリ及びセカンダリチャンネル信号を取得するために、現在のフレームのための反相関信号チャンネル組み合わせスキームのチャンネル組み合わせ比係数、及び以前のフレームのための反相関信号チャンネル組み合わせスキームのチャンネル組み合わせ比係数に基づいて、現在のフレームにおける左及び右チャンネル信号に対して、時間領域ダウンミックス処理が実行されるとき、
0≦n<N-delay_comである場合、
Figure 0007311573000002
であり、又は
N-delay_com≦n<Nである場合、
Figure 0007311573000003
であり、ここで、
delay_comは、エンコーディング遅延補償を示す。
別の例について、現在のフレームにおけるプライマリ及びセカンダリチャンネル信号を取得するために、現在のフレームのための反相関信号チャンネル組み合わせスキームのチャンネル組み合わせ比係数、及び以前のフレームのための反相関信号チャンネル組み合わせスキームのチャンネル組み合わせ比係数に基づいて、現在のフレームにおける左及び右チャンネル信号に対して、時間領域ダウンミックス処理が実行されるとき、
0≦n<N-delay_comである場合、
Figure 0007311573000004
であり、
N-delay_com≦n<N-delay_com+NOVA_1である場合、
Figure 0007311573000005
であり、又は
N-delay_com+NOVA_1≦n<Nである場合、
Figure 0007311573000006
である。
本明細書において、fade_in(n)は、フェードイン係数を示し、例えば、
Figure 0007311573000007
である。もちろん、fade_in(n)は、或いは、nに基づいた別の関数関係のフェードイン係数であってよい。
fade_out(n)は、フェードアウト係数を示し、例えば、
Figure 0007311573000008
である。もちろん、fade_out(n)は、或いは、nに基づいた別の関数関係のフェードアウト係数であってよい。
本明細書において、NOVA_1は、移行処理長を示す。NOVA_1の値は、具体的なシナリオ要件に基づいて設定されてよい。例えば、NOVA_1は、3/Nに等しくてよく、又はNOVA_1は、Nよりも小さい別の値であってよい。
別の例について、現在のフレームにおけるプライマリ及びセカンダリチャンネル信号を取得するために、相関信号符号化モードに対応する時間領域ダウンミックス処理方式を使用することによって、現在のフレームにおける左及び右チャンネル信号に対して、時間領域ダウンミックス処理が実行されるとき、
Figure 0007311573000009
である。
上記の例において、XL(n)は、現在のフレームにおける左チャンネル信号を示し、XR(n)は、現在のフレームにおける右チャンネル信号を示し、Y(n)は、現在のフレーム内にあり、時間領域ダウンミックス処理を通して取得される、プライマリチャンネル信号を示し、X(n)は、現在のフレーム内にあり、時間領域ダウンミックス処理を通して取得される、セカンダリチャンネル信号を示す。
上記の例において、nは、サンプリング点の番号を示す。例えば、n=0、1、...、N-1である。
上記の例において、delay_comは、エンコーディング遅延補償を示す。
11は、以前のフレームのための相関信号チャンネル組み合わせスキームに対応するダウンミックス行列を示し、M11は、以前のフレームのための相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数に基づいて構築される。
12は、以前のフレームのための反相関信号チャンネル組み合わせスキームに対応するダウンミックス行列を示し、M12は、以前のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数に基づいて構築される。
22は、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するダウンミックス行列を示し、M22は、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数に基づいて構築される。
21は、現在のフレームのための相関信号チャンネル組み合わせスキームに対応するダウンミックス行列を示し、M21は、現在のフレームのための相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数に基づいて構築される。
21は、複数の形式、例えば、
Figure 0007311573000010
又は
Figure 0007311573000011
を有し得る。
本明細書において、ratioは、現在のフレームのための相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数を示す。
本明細書において、M22は、複数の形式、例えば、
Figure 0007311573000012
又は
Figure 0007311573000013
又は
Figure 0007311573000014
又は
Figure 0007311573000015
又は
Figure 0007311573000016
又は
Figure 0007311573000017
を有し得る。
本明細書において、α1=ratio_SM、α2=1-ratio_SMであり、ratio_SMは、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数を示す。
本明細書において、M12は、複数の形式、例えば、
Figure 0007311573000018
又は
Figure 0007311573000019
又は
Figure 0007311573000020
又は
Figure 0007311573000021
又は
Figure 0007311573000022
又は
Figure 0007311573000023
を有し得る。
本明細書において、α1_pre=tdm_last_ratio_SM、α2_pre=1-tdm_last_ratio_SMであり、tdm_last_ratio_SMは、以前のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数を示す。
現在のフレームにおける左及び右チャンネル信号は、具体的には、現在のフレームにおける元の左及び右チャンネル信号であり得(元の左及び右チャンネル信号は、時間領域前処理を施されていない左及び右チャンネル信号であり、例えば、サンプリングを通して取得された左及び右チャンネル信号であり得る)、又は現在のフレームにおける時間前処理を施された左及び右チャンネル信号であり得るし、又は現在のフレームにおける遅延アラインメント処理を施された左及び右チャンネル信号であり得る。
具体的には、例えば、
Figure 0007311573000024
又は
Figure 0007311573000025
又は
Figure 0007311573000026
である。
本明細書において、xL(n)は、現在のフレームにおける元の左チャンネル信号を示し、xR(n)は、現在のフレームにおける元の右チャンネル信号を示し、xL_HP(n)は、現在のフレームにおける時間領域前処理を施された左チャンネル信号を示し、xR_HP(n)は、現在のフレームにおける時間領域前処理を施された右チャンネル信号を示し、x’L(n)は、現在のフレームにおける遅延アラインメント処理を施された左チャンネル信号を示し、x’R(n)xR_HP(n)は、現在のフレームにおける遅延アラインメント処理を施された右チャンネル信号を示す。
第2の態様に従うと、本出願の実施形態は、時間領域ステレオデコーディング方法をさらに提供し、方法は、
現在のフレームにおけるデコードされたプライマリ及びセカンダリチャンネル信号を取得するために、ビットストリームをデコードするステップと、現在のフレームのデコーディングモードを決定するステップと、現在のフレームのデコーディングモードが反相関信号デコーディングモードであると決定されたとき、現在のフレームにおける再構成された左及び右チャンネル信号を取得するために、反相関信号デコーディングモードに対応する時間領域アップミックス処理方式を使用することによって、現在のフレームにおけるデコードされたプライマリ及びセカンダリチャンネル信号に対して時間領域アップミックス処理を実行するステップであって、反相関信号デコーディングモードに対応する時間領域アップミックス処理方式は、反相関信号チャンネル組み合わせスキームに対応する時間領域アップミックス処理方式であり、反相関信号チャンネル組み合わせスキームは、逆位相に近い信号に対応するチャンネル組み合わせスキームである、ステップ
を含み得る。
現在のフレームのデコーディングモードは、複数のデコーディングモードのうちの1つであり得る。例えば、現在のフレームのデコーディングモードは、以下のデコーディングモード、即ち、相関信号デコーディングモード、反相関信号デコーディングモード、相関から反相関信号デコーディングへの切り換えモード、及び反相関から相関信号デコーディングへの切り換えモードのうちの1つであり得る。
上述のソリューションにおいては、現在のフレームのデコーディングモードは、決定される必要があり、これは、現在のフレームのデコーディングモードについて複数の可能性があることを示していることが理解され得る。ただ1つのデコーディングモードしかない従来のソリューションと比較して、複数の可能なデコーディングモードを有するこのソリューションは、複数の可能なシナリオとより相性が良く、調和することができる。加えて、逆位相に近い信号に対応するチャンネル組み合わせスキームが、導入されるので、現在のフレームにおけるステレオ信号が、逆位相に近い信号であるとき、より目標に合ったチャンネル組み合わせスキーム及びデコーディングモードが、存在し、これは、デコーディング品質を改善する助けになる。
いくつかの可能な実装においては、方法は、
現在のフレームのデコーディングモードが相関信号デコーディングモードであると決定されたとき、現在のフレームにおける再構成された左及び右チャンネル信号を取得するために、相関信号デコーディングモードに対応する時間領域アップミックス処理方式を使用することによって、現在のフレームにおけるデコードされたプライマリ及びセカンダリチャンネル信号に対して時間領域アップミックス処理を実行するステップであって、相関信号デコーディングモードに対応する時間領域アップミックス処理方式は、相関信号チャンネル組み合わせスキームに対応する時間領域アップミックス処理方式であり、相関信号チャンネル組み合わせスキームは、同位相に近い信号に対応するチャンネル組み合わせスキームである、ステップ
をさらに含み得る。
いくつかの可能な実装においては、方法は、現在のフレームのデコーディングモードが相関から反相関信号デコーディングへの切り換えモードであると決定されたとき、現在のフレームにおける再構成された左及び右チャンネル信号を取得するために、相関から反相関信号デコーディングへの切り換えモードに対応する時間領域アップミックス処理方式を使用することによって、現在のフレームにおけるデコードされたプライマリ及びセカンダリチャンネル信号に対して時間領域アップミックス処理を実行するステップをさらに含み得る。相関から反相関信号デコーディングへの切り換えモードに対応する時間領域アップミックス処理方式は、相関信号チャンネル組み合わせスキームから反相関信号チャンネル組み合わせスキームへの移行に対応する時間領域アップミックス処理方式である。
いくつかの可能な実装においては、方法は、現在のフレームのデコーディングモードが反相関から相関信号デコーディングへの切り換えモードであると決定されたとき、現在のフレームにおける再構成された左及び右チャンネル信号を取得するために、反相関から相関信号デコーディングへの切り換えモードに対応する時間領域アップミックス処理方式を使用することによって、現在のフレームにおけるデコードされたプライマリ及びセカンダリチャンネル信号に対して時間領域アップミックス処理を実行するステップをさらに含み得る。反相関から相関信号デコーディングへの切り換えモードに対応する時間領域アップミックス処理方式は、反相関信号チャンネル組み合わせスキームから相関信号チャンネル組み合わせスキームへの移行に対応する時間領域アップミックス処理方式である。
異なるデコーディングモードに対応する時間領域アップミックス処理方式は、通常、異なることが理解されることができる。加えて、各デコーディングモードは、1つ又は複数の時間領域アップミックス処理方式に対応し得る。
例えば、いくつかの可能な実装においては、現在のフレームにおける再構成された左及び右チャンネル信号を取得するために、反相関信号デコーディングモードに対応する時間領域アップミックス処理方式を使用することによって、現在のフレームにおけるデコードされたプライマリ及びセカンダリチャンネル信号に対して時間領域アップミックス処理を実行するステップは、
現在のフレームにおける再構成された左及び右チャンネル信号を取得するために、現在のフレームのための反相関信号チャンネル組み合わせスキームのチャンネル組み合わせ比係数に基づいて、現在のフレームにおけるデコードされたプライマリ及びセカンダリチャンネル信号に対して時間領域アップミックス処理を実行するステップ、又は現在のフレームにおける再構成された左及び右チャンネル信号を取得するために、現在のフレームのための反相関信号チャンネル組み合わせスキームのチャンネル組み合わせ比係数、及び以前のフレームのための反相関信号チャンネル組み合わせスキームのチャンネル組み合わせ比係数に基づいて、現在のフレームにおけるデコードされたプライマリ及びセカンダリチャンネル信号に対して時間領域アップミックス処理を実行するステップ
を含む。
いくつかの可能な実装においては、オーディオフレームのチャンネル組み合わせ比係数に基づいて、対応するアップミックス行列が、構築され得るし、現在のフレームにおける再構成された左及び右チャンネル信号を取得するために、チャンネル組み合わせスキームに対応するアップミックス行列を使用することによって、現在のフレームにおけるデコードされたプライマリ及びセカンダリチャンネル信号に対して、時間領域アップミックス処理が実行される。
例えば、現在のフレームにおける再構成された左及び右チャンネル信号を取得するために、現在のフレームのための反相関信号チャンネル組み合わせスキームのチャンネル組み合わせ比係数に基づいて、現在のフレームにおけるデコードされたプライマリ及びセカンダリチャンネル信号に対して、時間領域アップミックス処理が実行されるとき、
Figure 0007311573000027
である。
別の例について、現在のフレームにおける再構成された左及び右チャンネル信号を取得するために、現在のフレームのための反相関信号チャンネル組み合わせスキームのチャンネル組み合わせ比係数、及び以前のフレームのための反相関信号チャンネル組み合わせスキームのチャンネル組み合わせ比係数に基づいて、現在のフレームにおけるデコードされたプライマリ及びセカンダリチャンネル信号に対して、時間領域アップミックス処理が実行されるとき、
0≦n<N-upmixing_delayである場合、
Figure 0007311573000028
であり、又は
N-upmixing_delay≦n<Nである場合、
Figure 0007311573000029
であり、ここで、
delay_comは、エンコーディング遅延補償を示す。
別の例について、現在のフレームにおける再構成された左及び右チャンネル信号を取得するために、現在のフレームのための反相関信号チャンネル組み合わせスキームのチャンネル組み合わせ比係数、及び以前のフレームのための反相関信号チャンネル組み合わせスキームのチャンネル組み合わせ比係数に基づいて、現在のフレームにおけるデコードされたプライマリ及びセカンダリチャンネル信号に対して、時間領域アップミックス処理が実行されるとき、
0≦n<N-upmixing_delayである場合、
Figure 0007311573000030
であり、
N-upmixing_delay≦n<N-upmixing_delay+NOVA_1である場合、
Figure 0007311573000031
であり、又は
N-upmixing_delay+NOVA_1≦n<Nである場合、
Figure 0007311573000032
である。
本明細書において、
Figure 0007311573000033
は、現在のフレームにおける再構成された左チャンネル信号を示し、
Figure 0007311573000034
は、現在のフレームにおける再構成された右チャンネル信号を示し、
Figure 0007311573000035
は、現在のフレームにおけるデコードされたプライマリチャンネル信号を示し、
Figure 0007311573000036
は、現在のフレームにおけるデコードされたセカンダリチャンネル信号を示す。
本明細書において、NOVA_1は、移行処理長を示す。
本明細書において、fade_in(n)は、フェードイン係数を示し、例えば、
Figure 0007311573000037
であり、もちろん、fade_in(n)は、或いは、nに基づいた別の関数関係のフェードイン係数であってよい。
本明細書において、fade_out(n)は、フェードアウト係数を示し、例えば、
Figure 0007311573000038
であり、もちろん、fade_out(n)は、或いは、nに基づいた別の関数関係のフェードアウト係数であってよい。
本明細書において、NOVA_1は、移行処理長を示す。NOVA_1の値は、具体的なシナリオ要件に基づいて設定されてよい。例えば、NOVA_1は、3/Nに等しくあり得るし、又はNOVA_1は、Nよりも小さい別の値であり得る。
別の例について、現在のフレームにおける再構成された左及び右チャンネル信号を取得するために、現在のフレームのための相関信号チャンネル組み合わせスキームのチャンネル組み合わせ比係数に基づいて、現在のフレームにおけるデコードされたプライマリ及びセカンダリチャンネル信号に対して、時間領域アップミックス処理が実行されるとき、
Figure 0007311573000039
である。
上記の例において、
Figure 0007311573000040
は、現在のフレームにおける再構成された左チャンネル信号を示し、
Figure 0007311573000041
は、現在のフレームにおける再構成された右チャンネル信号を示し、
Figure 0007311573000042
は、現在のフレームにおけるデコードされたプライマリチャンネル信号を示し、
Figure 0007311573000043
は、現在のフレームにおけるデコードされたセカンダリチャンネル信号を示す。
上記の例において、nは、サンプリング点の番号を示す。例えば、n=0、1、...、N-1である。
上記の例において、upmixing_delayは、デコーディング遅延補償を示す。
Figure 0007311573000044
は、以前のフレームのための相関信号チャンネル組み合わせスキームに対応するアップミックス行列を示し、
Figure 0007311573000045
は、以前のフレームのための相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数に基づいて構築される。
Figure 0007311573000046
は、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するアップミックス行列を示し、
Figure 0007311573000047
は、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数に基づいて構築される。
Figure 0007311573000048
は、以前のフレームのための反相関信号チャンネル組み合わせスキームに対応するアップミックス行列を示し、
Figure 0007311573000049
は、以前のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数に基づいて構築される。
Figure 0007311573000050
は、現在のフレームのための相関信号チャンネル組み合わせスキームに対応するアップミックス行列を示し、
Figure 0007311573000051
は、現在のフレームのための相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数に基づいて構築される。
Figure 0007311573000052
は、複数の形式、例えば、
Figure 0007311573000053
又は
Figure 0007311573000054
又は
Figure 0007311573000055
又は
Figure 0007311573000056
又は
Figure 0007311573000057
又は
Figure 0007311573000058
を有し得る。
本明細書において、α1=ratio_SM、α2=1-ratio_SMであり、ratio_SMは、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数を示す。
本明細書において、
Figure 0007311573000059
は、複数の形式、例えば、
Figure 0007311573000060
又は
Figure 0007311573000061
又は
Figure 0007311573000062
又は
Figure 0007311573000063
又は
Figure 0007311573000064
又は
Figure 0007311573000065
を有し得る。
本明細書において、α1_pre=tdm_last_ratio_SM、α2_pre=1-tdm_last_ratio_SMである。
本明細書において、tdm_last_ratio_SMは、以前のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数を示す。
本明細書において、
Figure 0007311573000066
は、複数の形式、例えば、
Figure 0007311573000067
又は
Figure 0007311573000068
を有し得る。
本明細書において、ratioは、現在のフレームのための相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数を示す。
第3の態様に従うと、本出願の実施形態は、時間領域ステレオエンコーディング装置をさらに提供し、装置は、互いに結合された、プロセッサと、メモリとを含み得る。プロセッサは、第1の態様におけるいずれかのステレオエンコーディング方法のいくつか又は全てのステップを実行するように構成され得る。
第4の態様に従うと、本出願の実施形態は、時間領域ステレオデコーディング装置をさらに提供し、装置は、互いに結合された、プロセッサと、メモリとを含み得る。プロセッサは、第2の態様におけるいずれかのステレオエンコーディング方法のいくつか又は全てのステップを実行するように構成され得る。
第5の態様に従うと、本出願の実施形態は、第1の態様におけるいずれかの方法を実施するように構成されたいくつかの機能ユニットを含む、時間領域ステレオエンコーディング装置を提供する。
第6の態様に従うと、本出願の実施形態は、第2の態様におけるいずれかの方法を実施するように構成されたいくつかの機能ユニットを含む、時間領域ステレオデコーディング装置を提供する。
第7の態様に従うと、本出願の実施形態は、コンピュータ可読記憶媒体を提供し、コンピュータ可読記憶媒体は、プログラムコードを記憶し、プログラムコードは、第1の態様におけるいずれかの方法のいくつか又は全てのステップを実行するために使用される命令を含む。
第8の態様に従うと、本出願の実施形態は、コンピュータ可読記憶媒体を提供し、コンピュータ可読記憶媒体は、プログラムコードを記憶し、プログラムコードは、第2の態様におけるいずれかの方法のいくつか又は全てのステップを実行するために使用される命令を含む。
第9の態様に従うと、本出願の実施形態は、コンピュータプログラム製品を提供し、コンピュータプログラム製品が、コンピュータ上において実行されたとき、コンピュータは、第1の態様におけるいずれかの方法のいくつか又は全てのステップを実行することを可能にされる。
第10の態様に従うと、本出願の実施形態は、コンピュータプログラム製品を提供し、コンピュータプログラム製品が、コンピュータ上において実行されたとき、コンピュータは、第2の態様におけるいずれかの方法のいくつか又は全てのステップを実行することを可能にされる。
以下に、本出願の実施形態又は背景を説明するのに必要とされる添付の図面について説明する。
本出願の実施形態に従った、逆位相に近い信号の概略図である。 本出願の実施形態に従った、オーディオエンコーディング方法の概略フローチャートである。 本出願の実施形態に従った、オーディオデコーディングモードを決定するための方法の概略フローチャートである。 本出願の実施形態に従った、別のオーディオエンコーディング方法の概略フローチャートである。 本出願の実施形態に従った、オーディオデコーディング方法の概略フローチャートである。 本出願の実施形態に従った、別のオーディオエンコーディング方法の概略フローチャートである。 本出願の実施形態に従った、別のオーディオデコーディング方法の概略フローチャートである。 本出願の実施形態に従った、時間領域ステレオパラメータ決定方法の概略フローチャートである。 本出願の実施形態に従った、別のオーディオエンコーディング方法の概略フローチャートである。 本出願の実施形態に従った、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数を算出及びエンコードするための方法の概略フローチャートである。 本出願の実施形態に従った、現在のフレームにおける左チャンネルと右チャンネルとの間の振幅相関差パラメータを算出するための方法の概略フローチャートである。 本出願の実施形態に従った、現在のフレームにおける左チャンネルと右チャンネルとの間の振幅相関差パラメータをチャンネル組み合わせ比係数に変換するための方法の概略フローチャートである。 本出願の実施形態に従った、別のオーディオデコーディング方法の概略フローチャートである。 本出願の実施形態に従った、装置の概略図である。 本出願の実施形態に従った、別の装置の概略図である。 本出願の実施形態に従った、別の装置の概略図である。 本出願の実施形態に従った、別の装置の概略図である。 本出願の実施形態に従った、別の装置の概略図である。 本出願の実施形態に従った、別の装置の概略図である。
以下では、本出願の実施形態における添付の図面を参照して、本出願の実施形態について説明する。
本出願の明細書、特許請求の範囲、及び添付の図面において述べられる「含む」、「有する」という語、及びそれらの他の任意の変形は、非排他的な包含を含むことが意図される。例えば、一連のステップ若しくはユニットを含む、処理、方法、システム、製品、又はデバイスは、列挙されたステップ又はユニットに限定されず、任意選択で、列挙されていないステップ若しくはユニットをさらに含み得るし、又は任意選択で、処理、方法、製品、若しくはデバイスの別の固有のステップ若しくはユニットをさらに含む。加えて、「第1の」、「第2の」、「第3の」、及び「第4の」などの語は、特定の順序を記述する代わりに、オブジェクトを区別するために使用される。
本出願の実施形態のソリューションは、説明を簡潔にするために、時間領域シナリオに特有であるので、時間領域信号は、簡潔に「信号」と呼ばれることがあることが留意されるべきである。例えば、左チャンネル時間領域信号は、簡潔に「左チャンネル信号」と呼ばれることがある。別の例について、右チャンネル時間領域信号は、簡潔に「右チャンネル信号」と呼ばれることがある。別の例について、モノラル時間領域信号は、簡潔に「モノラル信号」と呼ばれることがある。別の例について、参照チャンネル時間領域信号は、簡潔に「参照チャンネル信号」と呼ばれることがある。別の例について、プライマリチャンネル時間領域信号は、簡潔に「プライマリチャンネル信号」と呼ばれることがある。セカンダリチャンネル時間領域信号は、簡潔に「セカンダリチャンネル信号」と呼ばれることがある。別の例について、ミッドチャンネル(Mid channel)時間領域信号は、簡潔に「ミッドチャンネル信号」と呼ばれることがある。別の例について、サイドチャンネル(Side channel)時間領域信号は、簡潔に「サイドチャンネル信号」と呼ばれることがある。他のケースは、類推によって推測されることができる。
本出願の実施形態においては、左チャンネル時間領域信号と右チャンネル時間領域信号は、一括して「左及び右チャンネル時間領域信号」と呼ばれることがあり、又は一括して「左及び右チャンネル信号」と呼ばれることがあることが留意されるべきである。言い換えると、左及び右チャンネル時間領域信号は、左チャンネル時間領域信号と、右チャンネル時間領域信号とを含む。別の例について、現在のフレームにおける遅延アラインメント処理を施された左及び右チャンネル時間領域信号は、現在のフレームにおける遅延アラインメント処理を施された左チャンネル時間領域信号と、現在のフレームにおける遅延アラインメント処理を施された右チャンネル時間領域信号とを含む。同様に、プライマリチャンネル信号とセカンダリチャンネル信号は、一括して「プライマリ及びセカンダリチャンネル信号」と呼ばれることがある。言い換えると、プライマリ及びセカンダリチャンネル信号は、プライマリチャンネル信号と、セカンダリチャンネル信号とを含む。別の例について、デコードされたプライマリ及びセカンダリチャンネル信号は、デコードされたプライマリチャンネル信号と、デコードされたセカンダリチャンネル信号とを含む。別の例について、再構成された左及び右チャンネル時間領域信号は、左チャンネル再構成信号と、右チャンネル再構成信号とを含む。残りは、類推によって推測されることができる。
例えば、従来のMSエンコーディング技術においては、ミッドチャンネル(Mid channel)信号と、サイドチャンネル(Side channel)信号とを取得するために、左及び右チャンネル信号が、最初にダウンミックスされる。例えば、Lは、左チャンネル信号を示し、Rは、右チャンネル信号を示す。このケースにおいては、ミッドチャンネル信号は、0.5×(L+R)であり、ミッドチャンネル信号は、左チャンネルと右チャンネルとの間の相関についての情報を示し、サイドチャンネル信号は、0.5×(L-R)であり、サイドチャンネル信号は、左チャンネルと右チャンネルとの間の差についての情報を示す。その後、ミッドチャンネル信号とサイドチャンネル信号は、モノラルエンコーディング方法を使用することによって、別々にエンコードされ、ミッドチャンネル信号は、通常、より多量のビットを使用することによってエンコードされ、サイドチャンネル信号は、通常、より少量のビットを使用することによってエンコードされる。
さらに、いくつかのソリューションにおいては、エンコーディング品質を改善するために、時間領域ダウンミックス処理において、左及び右チャンネル時間領域信号が、分析されて、右チャンネルに対する左チャンネルの比率を示すために使用される時間領域ステレオパラメータを抽出する。提案される方法の目的は、以下の通りであり、即ち、ステレオ左及び右チャンネル信号間のエネルギー差が、相対的に大きいとき、時間領域ダウンミックスされた信号において、プライマリチャンネルのエネルギーは、増加させることができ、セカンダリチャンネルのエネルギーは、減少させることができる。例えば、Lは、左チャンネル信号を示し、Rは、右チャンネル信号を示す。このケースにおいては、プライマリチャンネル(Primary channel)信号は、Yと表記され、Y=alpha×L+beta×Rであり、Yは、2つのチャンネル間の相関についての情報を示し、セカンダリチャンネル(Secondary channel)信号は、Xと表記され、X=alpha×L-beta×Rであり、Xは、2つのチャンネル間の差についての情報を表す。本明細書において、alpha及びbetaは、0から1までの実数である。
図1は、左チャンネル信号及び右チャンネル信号の振幅変化を示している。時間領域における瞬間において、特定の位置における左チャンネル信号のサンプリング点の振幅の絶対値と、対応する位置における右チャンネル信号のサンプリング点の振幅の絶対値は、基本的に同じであるが、振幅は、反対の符号を有する。これは、典型的な逆位相に近い信号である。図1は、逆位相に近い信号の典型例を単に示している。実際に、逆位相に近い信号は、左及び右チャンネル信号間の位相差が近似的に180°である、ステレオ信号である。例えば、左及び右チャンネル信号間の位相差が[180-θ,180+θ]内に含まれるステレオ信号は、逆位相に近い信号と呼ばれることがあり、θは、0°から90°の間の任意の角度であってよい。例えば、θは、0°、5°、15°、17°、20°、30°、又は40°の角度に等しくてよい。
同様に、同位相に近い信号は、左及び右チャンネル信号間の位相差が近似的に0度である、ステレオ信号である。例えば、左及び右チャンネル信号間の位相差が[-θ,θ]内に含まれるステレオ信号は、同位相に近い信号と呼ばれることがある。θは、0°から90°までの間の任意の角度であってよい。例えば、θは、0°、5°、15°、17°、20°、30°、又は40°の角度に等しくてよい。
左及び右チャンネル信号が、同位相に近い信号であるとき、時間領域ダウンミックス処理を通して生成されるプライマリチャンネル信号のエネルギーは、通常、セカンダリチャンネル信号のエネルギーよりも著しく大きい。プライマリチャンネル信号が、より多量のビットを使用することによってエンコードされ、セカンダリチャンネル信号が、より少量のビットを使用することによってエンコードされる場合、より良好なエンコーディング効果が、取得されることができる。しかしながら、左及び右チャンネル信号が、逆位相に近い信号であるとき、同じ時間領域ダウンミックス処理方法が、使用される場合、生成されたプライマリチャンネル信号のエネルギーは、非常に小さいこと、又は失われさえすることがあり、最終的なエンコーディング品質の低下をもたらす。
以下では、引き続き、ステレオエンコーディング及びデコーディング品質を改善する助けになることができる、いくつかの技術的ソリューションについて説明する。
本出願の実施形態において述べられるエンコーディング装置及びデコーディング装置は、音声信号の収集、記憶、及び外部への送信などの機能を有する装置であり得る。具体的には、エンコーディング装置及びデコーディング装置は、例えば、モバイルフォン、サーバ、タブレットコンピュータ、パーソナルコンピュータ、又はノートブックコンピュータであり得る。
本出願のソリューションにおいては、左及び右チャンネル信号は、ステレオ信号の左及び右チャンネル信号であることが理解されることができる。ステレオ信号は、元のステレオ信号、又はマルチチャンネル信号内の信号の2つのチャンネルを含むステレオ信号、又はマルチチャンネル信号内の信号の複数のチャンネルによって共同で生成される信号の2つのチャンネルを含むステレオ信号であり得る。ステレオエンコーディング方法は、マルチチャンネルエンコーディングにおいて使用されるステレオエンコーディング方法でもあり得る。ステレオエンコーディング装置は、マルチチャンネルエンコーディング装置において使用されるステレオエンコーディング装置でもあり得る。ステレオデコーディング方法は、マルチチャンネルデコーディングにおいて使用されるステレオデコーディング方法でもあり得る。ステレオデコーディング装置は、マルチチャンネルデコーディング装置において使用されるステレオデコーディング装置でもあり得る。本出願の実施形態におけるオーディオエンコーディング方法は、例えば、ステレオエンコーディングシナリオに特有であり、本出願の実施形態におけるオーディオデコーディング方法は、例えば、ステレオデコーディングシナリオに特有である。
以下では、最初に、オーディオ符号化モードを決定するための方法を提供し、方法は、現在のフレームのためのチャンネル組み合わせスキームを決定するステップと、
以前のフレームのためのチャンネル組み合わせスキーム及び現在のフレームのためのチャンネル組み合わせスキームに基づいて、現在のフレームの符号化モードを決定するステップとを含み得る。
図2は、本出願の実施形態に従った、オーディオエンコーディング方法の概略フローチャートである。オーディオエンコーディング方法の関連ステップは、エンコーディング装置によって実施され得るし、例えば、以下のステップを含み得る。
201.現在のフレームのためのチャンネル組み合わせスキームを決定する。
現在のフレームのためのチャンネル組み合わせスキームは、複数のチャンネル組み合わせスキームのうちの1つである。例えば、複数のチャンネル組み合わせスキームは、反相関信号チャンネル組み合わせスキーム(anticorrelated signal Channel Combination Scheme)と、相関信号チャンネル組み合わせスキーム(correlated signal Channel Combination Scheme)とを含む。相関信号チャンネル組み合わせスキームは、同位相に近い信号に対応するチャンネル組み合わせスキームである。反相関信号チャンネル組み合わせスキームは、逆位相に近い信号に対応するチャンネル組み合わせスキームである。同位相に近い信号に対応するチャンネル組み合わせスキームは、同位相に近い信号に適用可能であり、逆位相に近い信号に対応するチャンネル組み合わせスキームは、逆位相に近い信号に適用可能であることが理解され得る。
202.以前のフレームのためのチャンネル組み合わせスキーム及び現在のフレームのためのチャンネル組み合わせスキームに基づいて、現在のフレームの符号化モードを決定する。
加えて、現在のフレームが、最初のフレーム(即ち、現在のフレームの以前のフレームが存在しない)である場合、現在のフレームの符号化モードは、現在のフレームのためのチャンネル組み合わせスキームに基づいて決定され得る。或いは、デフォルト符号化モードが、現在のフレームの符号化モードとして使用され得る。
現在のフレームの符号化モードは、複数の符号化モードのうちの1つである。例えば、複数の符号化モードは、相関から反相関信号符号化への切り換えモード(correlated-to-anticorrelated signal coding switching mode)、反相関から相関信号符号化への切り換えモード(anticorrelated-to-correlated signal coding switching mode)、相関信号符号化モード(correlated signal coding mode)、及び反相関信号符号化モード(anticorrelated signal coding mode)などを含み得る。
相関から反相関信号符号化への切り換えモードに対応する時間領域ダウンミックスモードは、例えば、「相関から反相関信号ダウンミックスへの切り換えモード」(correlated-to-anticorrelated signal downmix switching mode)と呼ばれることがある。反相関から相関信号符号化への切り換えモードに対応する時間領域ダウンミックスモードは、例えば、「反相関から相関信号ダウンミックスへの切り換えモード」(anticorrelated-to-correlated signal downmix switching mode)と呼ばれることがある。相関信号符号化モードに対応する時間領域ダウンミックスモードは、例えば、「相関信号ダウンミックスモード」(correlated signal downmix mode)と呼ばれることがある。反相関信号符号化モードに対応する時間領域ダウンミックスモードは、例えば、「反相関信号ダウンミックスモード」(anticorrelated signal downmix mode)と呼ばれることがある。
本出願のこの実施形態においては、符号化モード、デコーディングモード、及びチャンネル組み合わせスキームなど、オブジェクトの名前は、全て、例であり、実際の適用においては、他の名前が、使用されてもまたよいことが理解され得る。
203.現在のフレームにおけるプライマリ及びセカンダリチャンネル信号を取得するために、現在のフレームの符号化モードに対応する時間領域ダウンミックス処理に基づいて、現在のフレームにおける左及び右チャンネル信号に対して時間領域ダウンミックス処理を実行する。
現在のフレームにおけるプライマリ及びセカンダリチャンネル信号を取得するために、現在のフレームにおける左及び右チャンネル信号に対して、時間領域ダウンミックス処理が実行され得るし、プライマリ及びセカンダリチャンネル信号は、ビットストリームを取得するために、さらにエンコードされる。さらに、現在のフレームのチャンネル組み合わせスキームフラグ(現在のフレームのチャンネル組み合わせスキームフラグは、現在のフレームのためのチャンネル組み合わせスキームを示すために使用される)が、ビットストリーム内に書き込まれ得るし、デコーディング装置が、ビットストリーム内に含まれる現在のフレームのチャンネル組み合わせスキームフラグに基づいて、現在のフレームのためのチャンネル組み合わせスキームを決定するようにする。
以前のフレームのためのチャンネル組み合わせスキーム及び現在のフレームのためのチャンネル組み合わせスキームに基づいて、現在のフレームの符号化モードを決定する、様々な具体的な実装が、存在し得る。
具体的には、例えば、いくつかの可能な実装においては、以前のフレームのためのチャンネル組み合わせスキーム及び現在のフレームのためのチャンネル組み合わせスキームに基づいて、現在のフレームの符号化モードを決定することは、
以前のフレームのためのチャンネル組み合わせスキームが、相関信号チャンネル組み合わせスキームであり、現在のフレームのためのチャンネル組み合わせスキームが、反相関信号チャンネル組み合わせスキームであるとき、現在のフレームの符号化モードは、相関から反相関信号符号化への切り換えモードであると決定することであって、相関から反相関信号符号化への切り換えモードにおいては、相関信号チャンネル組み合わせスキームから反相関信号チャンネル組み合わせスキームへの移行に対応するダウンミックス処理方法を使用することによって、時間領域ダウンミックス処理が実行される、決定すること、又は
以前のフレームのためのチャンネル組み合わせスキームが、反相関信号チャンネル組み合わせスキームであり、現在のフレームのためのチャンネル組み合わせスキームが、反相関信号チャンネル組み合わせスキームであるとき、現在のフレームの符号化モードは、反相関信号符号化モードであると決定することであって、反相関信号符号化モードにおいては、反相関信号チャンネル組み合わせスキームに対応するダウンミックス処理方法を使用することによって、時間領域ダウンミックス処理が実行される、決定すること、又は
以前のフレームのためのチャンネル組み合わせスキームが、反相関信号チャンネル組み合わせスキームであり、現在のフレームのためのチャンネル組み合わせスキームが、相関信号チャンネル組み合わせスキームであるとき、現在のフレームの符号化モードは、反相関から相関信号符号化への切り換えモードであると決定することであって、反相関から相関信号符号化への切り換えモードにおいては、反相関信号チャンネル組み合わせスキームから相関信号チャンネル組み合わせスキームへの移行に対応するダウンミックス処理方法を使用することによって、時間領域ダウンミックス処理が実行され、反相関から相関信号符号化への切り換えモードに対応する時間領域ダウンミックス処理方式は、具体的には、セグメント化された時間領域ダウンミックス方式であり得るし、即ち、現在のフレームのためのチャンネル組み合わせスキーム及び以前のフレームのためのチャンネル組み合わせスキームに基づいて、現在のフレームにおける左及び右チャンネル信号に対して、セグメント化された時間領域ダウンミックス処理を実行する、決定すること、又は
以前のフレームのためのチャンネル組み合わせスキームが、相関信号チャンネル組み合わせスキームであり、現在のフレームのためのチャンネル組み合わせスキームが、相関信号チャンネル組み合わせスキームであるとき、現在のフレームの符号化モードは、相関信号符号化モードであると決定することであって、相関信号符号化モードにおいては、相関信号チャンネル組み合わせスキームに対応するダウンミックス処理方法を使用することによって、時間領域ダウンミックス処理が実行される、決定すること
を含み得る。
異なる符号化モードに対応する時間領域ダウンミックス処理方式は、通常、異なることが理解されることができる。加えて、各符号化モードは、1つ又は複数の時間領域ダウンミックス処理方式に対応し得る。
例えば、いくつかの可能な実装においては、現在のフレームの符号化モードが相関信号符号化モードであるとき、現在のフレームにおけるプライマリ及びセカンダリチャンネル信号を取得するために、相関信号符号化モードに対応する時間領域ダウンミックス処理方式を使用することによって、現在のフレームにおける左及び右チャンネル信号に対して、時間領域ダウンミックス処理が実行される。相関信号符号化モードに対応する時間領域ダウンミックス処理方式は、相関信号チャンネル組み合わせスキームに対応する時間領域ダウンミックス処理方式である。
別の例について、いくつかの可能な実装においては、現在のフレームの符号化モードが反相関信号符号化モードであると決定されたとき、現在のフレームにおけるプライマリ及びセカンダリチャンネル信号を取得するために、反相関信号符号化モードに対応する時間領域ダウンミックス処理方式を使用することによって、現在のフレームにおける左及び右チャンネル信号に対して、時間領域ダウンミックス処理が実行される。反相関信号符号化モードに対応する時間領域ダウンミックス処理方式は、反相関信号チャンネル組み合わせスキームに対応する時間領域ダウンミックス処理方式である。
別の例について、いくつかの可能な実装においては、現在のフレームの符号化モードが相関から反相関信号符号化への切り換えモードであると決定されたとき、現在のフレームにおけるプライマリ及びセカンダリチャンネル信号を取得するために、相関から反相関信号符号化への切り換えモードに対応する時間領域ダウンミックス処理方式を使用することによって、現在のフレームにおける左及び右チャンネル信号に対して、時間領域ダウンミックス処理が実行される。相関から反相関信号符号化への切り換えモードに対応する時間領域ダウンミックス処理方式は、相関信号チャンネル組み合わせスキームから反相関信号チャンネル組み合わせスキームへの移行に対応する時間領域ダウンミックス処理方式である。相関から反相関信号符号化への切り換えモードに対応する時間領域ダウンミックス処理方式は、具体的には、セグメント化された時間領域ダウンミックス方式であり得るし、即ち、現在のフレームのためのチャンネル組み合わせスキーム及び以前のフレームのためのチャンネル組み合わせスキームに基づいて、現在のフレームにおける左及び右チャンネル信号に対して、セグメント化された時間領域ダウンミックス処理を実行する。
別の例について、いくつかの可能な実装においては、現在のフレームの符号化モードが反相関から相関信号符号化への切り換えモードであると決定されたとき、現在のフレームにおけるプライマリ及びセカンダリチャンネル信号を取得するために、反相関から相関信号符号化への切り換えモードに対応する時間領域ダウンミックス処理方式を使用することによって、現在のフレームにおける左及び右チャンネル信号に対して、時間領域ダウンミックス処理が実行される。反相関から相関信号符号化への切り換えモードに対応する時間領域ダウンミックス処理方式は、反相関信号チャンネル組み合わせスキームから相関信号チャンネル組み合わせスキームへの移行に対応する時間領域ダウンミックス処理方式である。
異なる符号化モードに対応する時間領域ダウンミックス処理方式は、通常、異なることが理解されることができる。加えて、各符号化モードは、1つ又は複数の時間領域ダウンミックス処理方式に対応し得る。
例えば、いくつかの可能な実装においては、現在のフレームにおけるプライマリ及びセカンダリチャンネル信号を取得するために、反相関信号符号化モードに対応する時間領域ダウンミックス処理方式を使用することによって、現在のフレームにおける左及び右チャンネル信号に対して時間領域ダウンミックス処理を実行することは、現在のフレームにおけるプライマリ及びセカンダリチャンネル信号を取得するために、現在のフレームのための反相関信号チャンネル組み合わせスキームのチャンネル組み合わせ比係数に基づいて、現在のフレームにおける左及び右チャンネル信号に対して時間領域ダウンミックス処理を実行すること、又は現在のフレームにおけるプライマリ及びセカンダリチャンネル信号を取得するために、現在のフレームのための反相関信号チャンネル組み合わせスキームのチャンネル組み合わせ比係数、及び以前のフレームのための反相関信号チャンネル組み合わせスキームのチャンネル組み合わせ比係数に基づいて、現在のフレームにおける左及び右チャンネル信号に対して時間領域ダウンミックス処理を実行することを含み得る。
上述のソリューションにおいては、現在のフレームのためのチャンネル組み合わせスキームは、決定される必要があり、これは、現在のフレームのためのチャンネル組み合わせスキームについて複数の可能性があることを示していることが理解され得る。ただ1つのチャンネル組み合わせスキームしかない従来のソリューションと比較して、複数の可能なチャンネル組み合わせスキームを有するこのソリューションは、複数の可能なシナリオとより相性が良く、調和することができる。上述のソリューションにおいては、現在のフレームの符号化モードは、以前のフレームのためのチャンネル組み合わせスキーム及び現在のフレームのためのチャンネル組み合わせスキームに基づいて決定される必要があり、現在のフレームの符号化モードについて複数の可能性がある。ただ1つの符号化モードしかない従来のソリューションと比較して、複数の可能な符号化モードを有するこのソリューションは、複数の可能なシナリオとより相性が良く、調和することができる。
具体的には、例えば、現在のフレームのためのチャンネル組み合わせスキームが、以前のフレームのためのチャンネル組み合わせスキームと異なる場合、現在のフレームの符号化モードは、例えば、相関から反相関信号符号化への切り換えモード、又は反相関から相関信号符号化への切り換えモードであり得ると決定され得る。このケースにおいては、現在のフレームのためのチャンネル組み合わせスキーム及び以前のフレームのためのチャンネル組み合わせスキームに基づいて、現在のフレームにおける左及び右チャンネル信号に対して、セグメント化された時間領域ダウンミックス処理が実行され得る。
現在のフレームのためのチャンネル組み合わせスキームと、以前のフレームのためのチャンネル組み合わせスキームが、異なるとき、現在のフレームにおける左及び右チャンネル信号に対してセグメント化された時間領域ダウンミックス処理を実行するメカニズムが、導入される。セグメント化された時間領域ダウンミックス処理メカニズムは、チャンネル組み合わせスキームのスムーズな移行を実施する助けになり、さらにエンコーディング品質を改善する助けになる。
これに対応して、以下では、例を使用することによって、時間領域ステレオデコーディングシナリオについて説明する。
図3を参照すると、以下では、オーディオデコーディングモードを決定するための方法を提供する。オーディオデコーディングモードを決定するための方法の関連ステップは、デコーディング装置によって実施され得るし、方法は、具体的には、以下のステップを含み得る。
301.ビットストリーム内にある現在のフレームのチャンネル組み合わせスキームフラグに基づいて、現在のフレームのためのチャンネル組み合わせスキームを決定する。
302.以前のフレームのためのチャンネル組み合わせスキーム及び現在のフレームのためのチャンネル組み合わせスキームに基づいて、現在のフレームのデコーディングモードを決定する。
現在のフレームのデコーディングモードは、複数のデコーディングモードのうちの1つである。例えば、複数のデコーディングモードは、相関から反相関信号デコーディングへの切り換えモード(correlated-to-anticorrelated signal decoding switching mode)、反相関から相関信号デコーディングへの切り換えモード(anticorrelated-to-correlated signal decoding switching mode)、相関信号デコーディングモード(correlated signal decoding mode)、及び反相関信号デコーディングモード(anticorrelated signal decoding mode)などを含み得る。
相関から反相関信号デコーディングへの切り換えモードに対応する時間領域アップミックスモードは、例えば、「相関から反相関信号アップミックスへの切り換えモード」(correlated-to-anticorrelated signal upmix switching mode)と呼ばれることがある。反相関から相関信号デコーディングへの切り換えモードに対応する時間領域アップミックススモードは、例えば、「反相関から相関信号アップミックスへの切り換えモード」(anticorrelated-to-correlated signal upmix switching mode)と呼ばれることがある。相関信号デコーディングモードに対応する時間領域アップミックスモードは、例えば、「相関信号アップミックスモード」(correlated signal upmix mode)と呼ばれることがある。反相関信号デコーディングモードに対応する時間領域アップミックスモードは、例えば、「反相関信号アップミックスモード」(anticorrelated signal upmix mode)と呼ばれることがある。
本出願のこの実施形態においては、符号化モード、デコーディングモード、及びチャンネル組み合わせスキームなど、オブジェクトの名前は、全て、例であり、実際の適用においては、他の名前が、使用されてもまたよいことが理解され得る。
いくつかの可能な実装においては、以前のフレームのためのチャンネル組み合わせスキーム及び現在のフレームのためのチャンネル組み合わせスキームに基づいて、現在のフレームのデコーディングモードを決定することは、
以前のフレームのためのチャンネル組み合わせスキームが、相関信号チャンネル組み合わせスキームであり、現在のフレームのためのチャンネル組み合わせスキームが、反相関信号チャンネル組み合わせスキームであるとき、現在のフレームのデコーディングモードは、相関から反相関信号デコーディングへの切り換えモードであると決定することであって、相関から反相関信号デコーディングへの切り換えモードにおいては、相関信号チャンネル組み合わせスキームから反相関信号チャンネル組み合わせスキームへの移行に対応するアップミックス処理方法を使用することによって、時間領域アップミックス処理が実行される、決定すること、又は
以前のフレームのためのチャンネル組み合わせスキームが、反相関信号チャンネル組み合わせスキームであり、現在のフレームのためのチャンネル組み合わせスキームが、反相関信号チャンネル組み合わせスキームであるとき、現在のフレームのデコーディングモードは、反相関信号デコーディングモードであると決定することであって、反相関信号デコーディングモードにおいては、反相関信号チャンネル組み合わせスキームに対応するアップミックス処理方法を使用することによって、時間領域アップミックス処理が実行される、決定すること、又は
以前のフレームのためのチャンネル組み合わせスキームが、反相関信号チャンネル組み合わせスキームであり、現在のフレームのためのチャンネル組み合わせスキームが、相関信号チャンネル組み合わせスキームであるとき、現在のフレームのデコーディングモードは、反相関から相関信号デコーディングへの切り換えモードであると決定することであって、反相関から相関信号デコーディングへの切り換えモードにおいては、反相関信号チャンネル組み合わせスキームから相関信号チャンネル組み合わせスキームへの移行に対応するアップミックス処理方法を使用することによって、時間領域アップミックス処理が実行される、決定すること、又は
以前のフレームのためのチャンネル組み合わせスキームが、相関信号チャンネル組み合わせスキームであり、現在のフレームのためのチャンネル組み合わせスキームが、相関信号チャンネル組み合わせスキームであるとき、現在のフレームのデコーディングモードは、相関信号デコーディングモードであると決定することであって、相関信号デコーディングモードにおいては、相関信号チャンネル組み合わせスキームに対応するアップミックス処理方法を使用することによって、時間領域アップミックス処理が実行される、決定すること
を含む。
例えば、現在のフレームのデコーディングモードは、反相関信号デコーディングモードであると決定したとき、デコーディング装置は、現在のフレームにおける再構成された左及び右チャンネル信号を取得するために、反相関信号デコーディングモードに対応する時間領域アップミックス処理方式を使用することによって、現在のフレームにおけるデコードされたプライマリ及びセカンダリチャンネル信号に対して時間領域アップミックス処理を実行する。
再構成された左及び右チャンネル信号は、デコードされた左及び右チャンネル信号であり得るし、又はデコードされた左及び右チャンネル信号を取得するために、再構成された左及び右チャンネル信号に対して、遅延調整処理及び/又は時間領域後処理が実行され得る。
反相関信号デコーディングモードに対応する時間領域アップミックス処理方式は、反相関信号チャンネル組み合わせスキームに対応する時間領域アップミックス処理方式であり、反相関信号チャンネル組み合わせスキームは、逆位相に近い信号に対応するチャンネル組み合わせスキームである。
現在のフレームのデコーディングモードは、複数のデコーディングモードのうちの1つである。例えば、現在のフレームのデコーディングモードは、以下のデコーディングモード、即ち、相関信号デコーディングモード、反相関信号デコーディングモード、相関から反相関信号デコーディングへの切り換えモード、及び反相関から相関信号デコーディングへの切り換えモードのうちの1つであり得る。
上述のソリューションにおいては、現在のフレームのデコーディングモードは、決定される必要があり、これは、現在のフレームのデコーディングモードについて複数の可能性があることを示していることが理解され得る。ただ1つのデコーディングモードしかない従来のソリューションと比較して、複数の可能なデコーディングモードを有するこのソリューションは、複数の可能なシナリオとより相性が良く、調和することができる。加えて、逆位相に近い信号に対応するチャンネル組み合わせスキームが、導入されるので、現在のフレームにおけるステレオ信号が、逆位相に近い信号であるとき、より目標に合ったチャンネル組み合わせスキーム及びデコーディングモードが、存在し、これは、デコーディング品質を改善する助けになる。
別の例について、現在のフレームのデコーディングモードが相関信号デコーディングモードであると決定されたとき、デコーディング装置は、現在のフレームにおける再構成された左及び右チャンネル信号を取得するために、相関信号デコーディングモードに対応する時間領域アップミックス処理方式を使用することによって、現在のフレームにおけるデコードされたプライマリ及びセカンダリチャンネル信号に対して時間領域アップミックス処理を実行する。相関信号デコーディングモードに対応する時間領域アップミックス処理方式は、相関信号チャンネル組み合わせスキームに対応する時間領域アップミックス処理方式であり、相関信号チャンネル組み合わせスキームは、同位相に近い信号に対応するチャンネル組み合わせスキームである。
別の例について、現在のフレームのデコーディングモードが相関から反相関信号デコーディングへの切り換えモードであると決定されたとき、デコーディング装置は、現在のフレームにおける再構成された左及び右チャンネル信号を取得するために、相関から反相関信号デコーディングへの切り換えモードに対応する時間領域アップミックス処理方式を使用することによって、現在のフレームにおけるデコードされたプライマリ及びセカンダリチャンネル信号に対して時間領域アップミックス処理を実行する。相関から反相関信号デコーディングへの切り換えモードに対応する時間領域アップミックス処理方式は、相関信号チャンネル組み合わせスキームから反相関信号チャンネル組み合わせスキームへの移行に対応する時間領域アップミックス処理方式である。
別の例について、現在のフレームのデコーディングモードが反相関から相関信号デコーディングへの切り換えモードであると決定されたとき、デコーディング装置は、現在のフレームにおける再構成された左及び右チャンネル信号を取得するために、反相関から相関信号デコーディングへの切り換えモードに対応する時間領域アップミックス処理方式を使用することによって、現在のフレームにおけるデコードされたプライマリ及びセカンダリチャンネル信号に対して時間領域アップミックス処理を実行する。反相関から相関信号デコーディングへの切り換えモードに対応する時間領域アップミックス処理方式は、反相関信号チャンネル組み合わせスキームから相関信号チャンネル組み合わせスキームへの移行に対応する時間領域アップミックス処理方式である。
異なるデコーディングモードに対応する時間領域アップミックス処理方式は、通常、異なることが理解されることができる。加えて、各デコーディングモードは、1つ又は複数の時間領域アップミックス処理方式に対応し得る。
上述のソリューションにおいては、現在のフレームのためのチャンネル組み合わせスキームは、決定される必要があり、これは、現在のフレームのためのチャンネル組み合わせスキームについて複数の可能性があることを示していることが理解され得る。ただ1つのチャンネル組み合わせスキームしかない従来のソリューションと比較して、複数の可能なチャンネル組み合わせスキームを有するこのソリューションは、複数の可能なシナリオとより相性が良く、調和することができる。上述のソリューションにおいては、現在のフレームのデコーディングモードは、以前のフレームのためのチャンネル組み合わせスキーム及び現在のフレームのためのチャンネル組み合わせスキームに基づいて、決定される必要があり、現在のフレームのデコーディングモードについて複数の可能性がある。ただ1つのデコーディングモードしかない従来のソリューションと比較して、複数の可能なデコーディングモードを有するこのソリューションは、複数の可能なシナリオとより相性が良く、調和することができる。
さらに、デコーディング装置は、現在のフレームにおける再構成された左及び右チャンネル信号を取得するために、現在のフレームのデコーディングモードに対応する時間領域アップミックス処理に基づいて、現在のフレームにおけるデコードされたプライマリ及びセカンダリチャンネル信号に対して時間領域アップミックス処理を実行する。
以下では、例を使用して、エンコーディング装置によって現在のフレームのためのチャンネル組み合わせスキームを決定するいくつかの具体的な実装について説明する。エンコーディング装置によって現在のフレームのためのチャンネル組み合わせスキームを決定する様々な具体的な実装が、存在する。
例えば、いくつかの可能な実装においては、現在のフレームのためのチャンネル組み合わせスキームを決定することは、現在のフレームのためのチャンネル組み合わせスキームを決定するために、少なくとも1回、現在のフレームのためのチャンネル組み合わせスキーム判定を実行することを含み得る。
具体的には、例えば、現在のフレームのためのチャンネル組み合わせスキームを決定することは、現在のフレームのための初期チャンネル組み合わせスキームを決定するために、現在のフレームのための初期チャンネル組み合わせスキーム判定を実行することと、現在のフレームのためのチャンネル組み合わせスキームを決定するために、現在のフレームのための初期チャンネル組み合わせスキームに基づいて、現在のフレームのためのチャンネル組み合わせスキーム修正判定を実行することとを含む。加えて、現在のフレームのための初期チャンネル組み合わせスキームは、現在のフレームのためのチャンネル組み合わせスキームとして直接的に使用されてもまたよい。言い換えると、現在のフレームのためのチャンネル組み合わせスキームは、現在のフレームのための初期チャンネル組み合わせスキーム判定が実行された後に決定される、現在のフレームのための初期チャンネル組み合わせスキームであり得る。
例えば、現在のフレームのための初期チャンネル組み合わせスキーム判定を実行することは、現在のフレームにおける左及び右チャンネル信号を使用することによって、現在のフレームにおけるステレオ信号の同位相/逆位相の信号タイプを決定することと、現在のフレームにおけるステレオ信号の同位相/逆位相の信号タイプ、及び以前のフレームのためのチャンネル組み合わせスキームに基づいて、現在のフレームのための初期チャンネル組み合わせスキームを決定することとを含み得る。現在のフレームにおけるステレオ信号の同位相/逆位相の信号タイプは、同位相に近い信号、又は逆位相に近い信号であり得る。現在のフレームにおけるステレオ信号の同位相/逆位相の信号タイプは、現在のフレームの同位相/逆位相の信号タイプフラグ(例えば、同位相/逆位相の信号タイプフラグは、tmp_SM_flagによって表される)によって示され得る。具体的には、例えば、現在のフレームの同位相/逆位相の信号タイプフラグの値が、「1」であるとき、それは、現在のフレームにおけるステレオ信号の同位相/逆位相の信号タイプが、同位相に近い信号であることを示し、若しくは現在のフレームの同位相/逆位相の信号タイプフラグの値が、「0」であるとき、それは、現在のフレームにおけるステレオ信号の同位相/逆位相の信号タイプが、逆位相に近い信号であることを示し、又はそれの反対である。
オーディオフレーム(例えば、以前のフレーム又は現在のフレーム)のためのチャンネル組み合わせスキームは、オーディオフレームのチャンネル組み合わせスキームフラグによって示され得る。例えば、オーディオフレームのチャンネル組み合わせスキームフラグの値が、「0」であるとき、それは、オーディオフレームのためのチャンネル組み合わせスキームが、相関信号チャンネル組み合わせスキームであることを示し、若しくはオーディオフレームのチャンネル組み合わせスキームフラグの値が、「1」であるとき、それは、オーディオフレームのためのチャンネル組み合わせスキームが、反相関信号チャンネル組み合わせスキームであることを示し、又はそれの反対である。
同様に、オーディオフレーム(例えば、以前のフレーム又は現在のフレーム)のための初期チャンネル組み合わせスキームは、オーディオフレームの初期チャンネル組み合わせスキームフラグ(例えば、初期チャンネル組み合わせスキームフラグは、tdm_SM_flag_locによって表される)によって示され得る。例えば、オーディオフレームの初期チャンネル組み合わせスキームフラグの値が、「0」であるとき、それは、オーディオフレームのための初期チャンネル組み合わせスキームが、相関信号チャンネル組み合わせスキームであることを示し、若しくは、別の例について、オーディオフレームの初期チャンネル組み合わせスキームフラグの値が、「1」であるとき、それは、オーディオフレームのための初期チャンネル組み合わせスキームが、反相関信号チャンネル組み合わせスキームであることを示し、又はそれの反対である。
現在のフレームにおける左及び右チャンネル信号を使用することによって、現在のフレームにおけるステレオ信号の同位相/逆位相の信号タイプを決定することは、現在のフレームにおける左及び右チャンネル信号間の相関値xorrを算出することと、xorrが、第1の閾値以下であるとき、現在のフレームにおけるステレオ信号の同位相/逆位相の信号タイプは、同位相に近い信号であると決定すること、又はxorrが、第1の閾値よりも大きいとき、現在のフレームにおけるステレオ信号の同位相/逆位相の信号タイプは、逆位相に近い信号であると決定することとを含み得る。さらに、現在のフレームにおけるステレオ信号の同位相/逆位相の信号タイプを示すために、現在のフレームの同位相/逆位相の信号タイプフラグが、使用される場合、現在のフレームにおけるステレオ信号の同位相/逆位相の信号タイプが同位相に近い信号であると決定されたとき、現在のフレームの同位相/逆位相の信号タイプフラグの値は、現在のフレームにおけるステレオ信号の同位相/逆位相の信号タイプが、同位相に近い信号であることを示すように設定され得るし、又は現在のフレームにおけるステレオ信号の同位相/逆位相の信号タイプが位相に近い信号であると決定されたとき、現在のフレームの同位相/逆位相の信号タイプフラグの値は、現在のフレームにおけるステレオ信号の同位相/逆位相の信号タイプが、逆位相に近い信号であることを示すように設定され得る。
第1の閾値の値範囲は、例えば、(0.5,1.0)であり得るし、第1の閾値は、例えば、0.5、0.85、0.75、0.65、又は0.81に等しくてよい。
具体的には、例えば、オーディオフレーム(例えば、以前のフレーム若しくは現在のフレーム)の同位相/逆位相の信号タイプフラグの値が、「0」であるとき、それは、オーディオフレームのステレオ信号の同位相/逆位相の信号タイプが、同位相に近い信号であることを示し、若しくはオーディオフレーム(例えば、以前のフレーム若しくは現在のフレーム)の同位相/逆位相の信号タイプフラグの値が、「1」であるとき、それは、オーディオフレームのステレオ信号の同位相/逆位相の信号タイプが、逆位相に近い信号であることを示し、又はそれの反対である。
例えば、現在のフレームにおけるステレオ信号の同位相/逆位相の信号タイプ、及び以前のフレームのためのチャンネル組み合わせスキームに基づいて、現在のフレームのための初期チャンネル組み合わせスキームを決定することは、
現在のフレームにおけるステレオ信号の同位相/逆位相の信号タイプが、同位相に近い信号であり、以前のフレームのためのチャンネル組み合わせスキームが、相関信号チャンネル組み合わせスキームであるとき、現在のフレームのための初期チャンネル組み合わせスキームは、相関信号チャンネル組み合わせスキームであると決定すること、若しくは現在のフレームにおけるステレオ信号の同位相/逆位相の信号タイプが、逆位相に近い信号であり、以前のフレームのためのチャンネル組み合わせスキームが、反相関信号チャンネル組み合わせスキームであるとき、現在のフレームのための初期チャンネル組み合わせスキームは、反相関信号チャンネル組み合わせスキームであると決定すること、又は
現在のフレームにおけるステレオ信号の同位相/逆位相の信号タイプが、同位相に近い信号であり、以前のフレームのためのチャンネル組み合わせスキームが、反相関信号チャンネル組み合わせスキームであるとき、現在のフレームにおける左及び右チャンネル信号の信号対雑音比が、ともに、第2の閾値よりも小さい場合、現在のフレームのための初期チャンネル組み合わせスキームは、相関信号チャンネル組み合わせスキームであると決定すること、若しくは現在のフレームにおける左チャンネル信号の信号対雑音比及び/若しくは右チャンネル信号の信号対雑音比が、第2の閾値以上である場合、現在のフレームのための初期チャンネル組み合わせスキームは、反相関信号チャンネル組み合わせスキームであると決定すること、又は
現在のフレームにおけるステレオ信号の同位相/逆位相の信号タイプが、逆位相に近い信号であり、以前のフレームのためのチャンネル組み合わせスキームが、相関信号チャンネル組み合わせスキームであるとき、現在のフレームにおける左及び右チャンネル信号の信号対雑音比が、ともに、第2の閾値よりも小さい場合、現在のフレームのための初期チャンネル組み合わせスキームは、反相関信号チャンネル組み合わせスキームであると決定すること、若しくは現在のフレームにおける左チャンネル信号の信号対雑音比及び/若しくは右チャンネル信号の信号対雑音比が、第2の閾値以上である場合、現在のフレームのための初期チャンネル組み合わせスキームは、相関信号チャンネル組み合わせスキームであると決定すること
を含み得る。
第2の閾値の値範囲は、例えば、[0.8,1.2]であり得るし、第2の閾値は、例えば、0.8、0.85、0.9、1、1.1、又は1.18に等しくてよい。
現在のフレームのための初期チャンネル組み合わせスキームに基づいて、現在のフレームのためのチャンネル組み合わせスキーム修正判定を実行することは、以前のフレームのチャンネル組み合わせ比係数修正フラグ、現在のフレームにおけるステレオ信号の同位相/逆位相の信号タイプ、及び現在のフレームのための初期チャンネル組み合わせスキームに基づいて、現在のフレームのためのチャンネル組み合わせスキームを決定することを含み得る。
現在のフレームのためのチャンネル組み合わせスキームフラグは、tdm_SM_flagと表記され得るし、現在のフレームのチャンネル組み合わせ比係数修正フラグは、tdm_SM_modi_flagと表記される。例えば、チャンネル組み合わせ比係数修正フラグの値が、0であるとき、それは、チャンネル組み合わせ比係数が、修正される必要がないことを示し、又はチャンネル組み合わせ比係数修正フラグの値が、1であるとき、それは、チャンネル組み合わせ比係数が、修正される必要があることを示す。もちろん、チャンネル組み合わせ比係数が、修正される必要があるかどうかを示すために、他の異なる値が、チャンネル組み合わせ比係数修正フラグとして使用されてよい。
具体的には、例えば、現在のフレームのための初期チャンネル組み合わせスキーム判定の結果に基づいて、現在のフレームのためのチャンネル組み合わせスキーム修正判定を実行することは、
以前のフレームのチャンネル組み合わせ比係数修正フラグが、チャンネル組み合わせ比係数が修正される必要があることを示す場合、現在のフレームのためのチャンネル組み合わせスキームとして、反相関信号チャンネル組み合わせスキームを使用すること、又は以前のフレームのチャンネル組み合わせ比係数修正フラグが、チャンネル組み合わせ比係数が修正される必要がないことを示す場合、現在のフレームが切り換え条件を満たすかどうかを決定し、現在のフレームが切り換え条件を満たすかどうかについての決定の結果に基づいて、現在のフレームのためのチャンネル組み合わせスキームを決定すること
を含み得る。
現在のフレームが切り換え条件を満たすかどうかについての決定の結果に基づいて、現在のフレームのためのチャンネル組み合わせスキームを決定することは、
以前のフレームのためのチャンネル組み合わせスキームが、現在のフレームのための初期チャンネル組み合わせスキームと異なり、現在のフレームが、切り換え条件を満たし、現在のフレームのための初期チャンネル組み合わせスキームが、相関信号チャンネル組み合わせスキームであり、以前のフレームのためのチャンネル組み合わせスキームが、反相関信号チャンネル組み合わせスキームであるとき、現在のフレームのためのチャンネル組み合わせスキームは、反相関信号チャンネル組み合わせスキームであると決定すること、又は
以前のフレームのためのチャンネル組み合わせスキームが、現在のフレームのための初期チャンネル組み合わせスキームと異なり、現在のフレームが、切り換え条件を満たし、現在のフレームのための初期チャンネル組み合わせスキームが、反相関信号チャンネル組み合わせスキームであり、以前のフレームのためのチャンネル組み合わせスキームが、相関信号チャンネル組み合わせスキームであり、以前のフレームのチャンネル組み合わせ比係数が、第1の比係数閾値よりも小さいとき、現在のフレームのためのチャンネル組み合わせスキームは、相関信号チャンネル組み合わせスキームであると決定すること、又は
以前のフレームのためのチャンネル組み合わせスキームが、現在のフレームのための初期チャンネル組み合わせスキームと異なり、現在のフレームが、切り換え条件を満たし、現在のフレームのための初期チャンネル組み合わせスキームが、反相関信号チャンネル組み合わせスキームであり、以前のフレームのためのチャンネル組み合わせスキームが、相関信号チャンネル組み合わせスキームであり、以前のフレームのチャンネル組み合わせ比係数が、第1の比係数閾値以上であるとき、現在のフレームのためのチャンネル組み合わせスキームは、反相関信号チャンネル組み合わせスキームであると決定すること、又は
現在まで(P-1)番目のフレーム((P-1)th-to-current frame)のためのチャンネル組み合わせスキームが、現在までP番目のフレーム(Pth-to-current frame)のための初期チャンネル組み合わせスキームと異なり、現在までP番目のフレームが、切り換え条件を満たさず、現在のフレームが、切り換え条件を満たし、現在のフレームにおけるステレオ信号の同位相/逆位相の信号タイプが、同位相に近い信号であり、現在のフレームのための初期チャンネル組み合わせスキームが、相関信号チャンネル組み合わせスキームであり、以前のフレームのためのチャンネル組み合わせスキームが、反相関信号チャンネル組み合わせスキームであるとき、現在のフレームのためのチャンネル組み合わせスキームは、相関信号チャンネル組み合わせスキームであると決定すること、又は
現在まで(P-1)番目のフレームのためのチャンネル組み合わせスキームが、現在までP番目のフレームのための初期チャンネル組み合わせスキームと異なり、現在までP番目のフレームが、切り換え条件を満たさず、現在のフレームが、切り換え条件を満たし、現在のフレームにおけるステレオ信号の同位相/逆位相の信号タイプが、逆位相に近い信号であり、現在のフレームのための初期チャンネル組み合わせスキームが、反相関信号チャンネル組み合わせスキームであり、以前のフレームのためのチャンネル組み合わせスキームが、相関信号チャンネル組み合わせスキームであり、以前のフレームのチャンネル組み合わせ比係数が、第2の比係数閾値よりも小さいとき、現在のフレームのためのチャンネル組み合わせスキームは、相関信号チャンネル組み合わせスキームであると決定すること、又は
現在まで(P-1)番目のフレームのためのチャンネル組み合わせスキームが、現在までP番目のフレームのための初期チャンネル組み合わせスキームと異なり、現在までP番目のフレームが、切り換え条件を満たさず、現在のフレームが、切り換え条件を満たし、現在のフレームにおけるステレオ信号の同位相/逆位相の信号タイプが、逆位相に近い信号であり、現在のフレームのための初期チャンネル組み合わせスキームが、反相関信号チャンネル組み合わせスキームであり、以前のフレームのためのチャンネル組み合わせスキームが、相関信号チャンネル組み合わせスキームであり、以前のフレームのチャンネル組み合わせ比係数が、第2の比係数閾値以上であるとき、現在のフレームのためのチャンネル組み合わせスキームは、反相関信号チャンネル組み合わせスキームであると決定すること
を含み得る。
本明細書において、Pは、1よりも大きい整数であり得る。例えば、Pは、2、3、4、5、6、又は別の値に等しくてよい。
第1の比係数閾値の値範囲は、例えば、[0.4,0.6]であり得るし、第1の比係数閾値は、例えば、0.4、0.45、0.5、0.55、又は0.6に等しくてよい。
第2の比係数閾値の値範囲は、例えば、[0.4,0.6]であり得るし、第2の比係数閾値は、例えば、0.4、0.46、0.5、0.56、又は0.6に等しくてよい。
いくつかの可能な実装においては、現在のフレームが切り換え条件を満たすかどうかを決定することは、以前のフレームにおけるプライマリチャンネル信号のフレームタイプ、及び/又は以前のフレームにおけるセカンダリチャンネル信号のフレームタイプに基づいて、現在のフレームが切り換え条件を満たすかどうかを決定することを含み得る。
いくつかの可能な実装においては、現在のフレームが切り換え条件を満たすかどうかを決定することは、
第1の条件、第2の条件、及び第3の条件が、全て満たされるとき、現在のフレームは、切り換え条件を満たすと決定すること、又は第2の条件、第3の条件、第4の条件、及び第5の条件が、全て満たされるとき、現在のフレームは、切り換え条件を満たすと決定すること、又は第6の条件が、満たされるとき、現在のフレームは、切り換え条件を満たすと決定すること
を含み得る。
第1の条件は、以前のフレームの以前のフレームにおけるプライマリチャンネル信号のフレームタイプが、以下のうちの、即ち、VOICED_CLASフレーム(有声フレーム若しくは有声開始フレームの後に続く有声特徴を有するフレーム)、ONSETフレーム(有声開始フレーム)、SIN_ONSETフレーム(ハーモニックとノイズが混合された開始フレーム)、INACTIVE_CLASフレーム(非アクティブ特徴を有するフレーム)、及びAUDIO_CLAS(オーディオフレーム)のうちのいずれか1つであり、以前のフレームにおけるプライマリチャンネル信号のフレームタイプが、UNVOICED_CLASフレーム(いくつかの特徴のうちの1つ、即ち、無声、非アクティブ、ノイズ、若しくは有声で終了させられるフレーム)、若しくはVOICED_TRANSITIONフレーム(有声音の後の移行を有するフレーム、フレームは、きわめて弱い有声特徴を有する)であること、又は以前のフレームの以前のフレームにおけるセカンダリチャンネル信号のフレームタイプが、以下のうちの、即ち、VOICED_CLASフレーム、ONSETフレーム、SIN_ONSETフレーム、INACTIVE_CLASフレーム、及びAUDIO_CLASフレームのうちのいずれか1つであり、以前のフレームにおけるセカンダリチャンネル信号のフレームタイプが、UNVOICED_CLASフレーム、若しくはVOICED_TRANSITIONフレームであることである。
第2の条件は、以前のフレームにおけるプライマリチャンネル信号及びセカンダリチャンネル信号の原符号化モード(raw coding mode)が、どちらもVOICED(有声フレームに対応する符号化タイプ)でないことである。
第3の条件は、以前のフレームによって使用されたチャンネル組み合わせスキームを使用する、以前のフレームの前の連続するフレームの量が、事前設定されたフレーム量閾値よりも大きいことである。フレーム量閾値の値範囲は、例えば、[3,10]であり得る。例えば、フレーム量閾値は、3、4、5、6、7、8、9、又は別の値に等しくてよい。
第4の条件は、以前のフレームにおけるプライマリチャンネル信号のフレームタイプが、UNVOICED_CLASであること、又は以前のフレームにおけるセカンダリチャンネル信号のフレームタイプが、UNVOICED_CLASであることである。
第5の条件は、現在のフレームにおける左及び右チャンネル信号の長期2乗平均平方根エネルギー値が、エネルギー閾値よりも小さいことである。エネルギー閾値の値範囲は、例えば、[300,500]であり得る。例えば、エネルギー閾値は、300、400、410、451、482、500、415、又は別の値に等しくてよい。
第6の条件は、以前のフレームにおけるプライマリチャンネル信号のフレームタイプが、音楽信号であり、以前のフレームにおけるプライマリチャンネル信号のより高い周波数バンドのエネルギーに対するより低い周波数バンドのエネルギーの比が、第1のエネルギー比閾値よりも大きく、以前のフレームにおけるセカンダリチャンネル信号のより高い周波数バンドのエネルギーに対するより低い周波数バンドのエネルギーの比が、第2のエネルギー比閾値よりも大きいことである。
第1のエネルギー比閾値の範囲は、例えば、[4000,6000]であり得る。例えば、第1のエネルギー比閾値は、4000、4500、5000、5105、5200、6000、5800、又は別の値に等しくてよい。
第2のエネルギー比閾値の範囲は、例えば、[4000,6000]であり得る。例えば、第2のエネルギー比閾値は、4000、4501、5000、5105、5200、6000、5800、又は別の値に等しくてよい。
現在のフレームが切り換え条件を満たすかどうかを決定する様々な実装が、あり得るが、それらは、上で例として与えられた方式に限定されないことが理解され得る。
現在のフレームのためのチャンネル組み合わせスキームを決定するいくつかの実装が、上述の例において提供されたが、実際の適用は、上述の例における方式に限定されなくてよいことが理解され得る。
以下では、さらに、例を使用して、反相関信号符号化モードのためのシナリオについて説明する。
図4を参照すると、本出願の実施形態は、オーディオエンコーディング方法を提供する。オーディオエンコーディング方法の関連ステップは、エンコーディング装置によって実施され得るし、方法は、具体的には、以下のステップを含み得る。
401.現在のフレームの符号化モードを決定する。
402.現在のフレームの符号化モードが反相関信号符号化モードであると決定されたとき、現在のフレームにおけるプライマリ及びセカンダリチャンネル信号を取得するために、反相関信号符号化モードに対応する時間領域ダウンミックス処理方式を使用することによって、現在のフレームにおける左及び右チャンネル信号に対して時間領域ダウンミックス処理を実行する。
403.現在のフレームにおける取得されたプライマリ及びセカンダリチャンネル信号をエンコードする。
反相関信号符号化モードに対応する時間領域ダウンミックス処理方式は、反相関信号チャンネル組み合わせスキームに対応する時間領域ダウンミックス処理方式であり、反相関信号チャンネル組み合わせスキームは、逆位相に近い信号に対応するチャンネル組み合わせスキームである。
例えば、いくつかの可能な実装においては、現在のフレームにおけるプライマリ及びセカンダリチャンネル信号を取得するために、反相関信号符号化モードに対応する時間領域ダウンミックス処理方式を使用することによって、現在のフレームにおける左及び右チャンネル信号に対して時間領域ダウンミックス処理を実行することは、現在のフレームにおけるプライマリ及びセカンダリチャンネル信号を取得するために、現在のフレームのための反相関信号チャンネル組み合わせスキームのチャンネル組み合わせ比係数に基づいて、現在のフレームにおける左及び右チャンネル信号に対して時間領域ダウンミックス処理を実行すること、又は現在のフレームにおけるプライマリ及びセカンダリチャンネル信号を取得するために、現在のフレームのための反相関信号チャンネル組み合わせスキームのチャンネル組み合わせ比係数、及び以前のフレームのための反相関信号チャンネル組み合わせスキームのチャンネル組み合わせ比係数に基づいて、現在のフレームにおける左及び右チャンネル信号に対して時間領域ダウンミックス処理を実行することを含み得る。
オーディオフレーム(例えば、現在のフレーム又は以前のフレーム)のためのチャンネル組み合わせスキーム(例えば、反相関信号チャンネル組み合わせスキーム又は相関信号チャンネル組み合わせスキーム)のチャンネル組み合わせ比係数は、事前設定された固定値であり得ることが理解されることができる。もちろん、オーディオフレームのチャンネル組み合わせ比係数は、オーディオフレームのためのチャンネル組み合わせスキームに基づいて決定されてもまたよい。
いくつかの可能な実装においては、オーディオフレームのチャンネル組み合わせ比係数に基づいて、対応するダウンミックス行列が、構築され得るし、現在のフレームにおけるプライマリ及びセカンダリチャンネル信号を取得するために、チャンネル組み合わせスキームに対応するダウンミックス行列を使用することによって、現在のフレームにおける左及び右チャンネル信号に対して、時間領域ダウンミックス処理が実行される。
例えば、現在のフレームにおけるプライマリ及びセカンダリチャンネル信号を取得するために、現在のフレームのための反相関信号チャンネル組み合わせスキームのチャンネル組み合わせ比係数に基づいて、現在のフレームにおける左及び右チャンネル信号に対して、時間領域ダウンミックス処理が実行されるとき、
Figure 0007311573000069
である。
別の例について、現在のフレームにおけるプライマリ及びセカンダリチャンネル信号を取得するために、現在のフレームのための反相関信号チャンネル組み合わせスキームのチャンネル組み合わせ比係数、及び以前のフレームのための反相関信号チャンネル組み合わせスキームのチャンネル組み合わせ比係数に基づいて、現在のフレームにおける左及び右チャンネル信号に対して、時間領域ダウンミックス処理が実行されるとき、
0≦n<N-delay_comである場合、
Figure 0007311573000070
であり、又は
N-delay_com≦n<Nである場合、
Figure 0007311573000071
であり、ここで、
delay_comは、エンコーディング遅延補償を示す。
別の例について、現在のフレームにおけるプライマリ及びセカンダリチャンネル信号を取得するために、現在のフレームのための反相関信号チャンネル組み合わせスキームのチャンネル組み合わせ比係数、及び以前のフレームのための反相関信号チャンネル組み合わせスキームのチャンネル組み合わせ比係数に基づいて、現在のフレームにおける左及び右チャンネル信号に対して、時間領域ダウンミックス処理が実行されるとき、
0≦n<N-delay_comである場合、
Figure 0007311573000072
であり、
N-delay_com≦n<N-delay_com+NOVA_1である場合、
Figure 0007311573000073
であり、又は
N-delay_com+NOVA_1≦n<Nである場合、
Figure 0007311573000074
である。
本明細書において、fade_in(n)は、フェードイン係数を示す。例えば、
Figure 0007311573000075
である。もちろん、fade_in(n)は、或いは、nに基づいた別の関数関係のフェードイン係数であってよい。
fade_out(n)は、フェードアウト係数を示す。例えば、
Figure 0007311573000076
である。もちろん、fade_out(n)は、或いは、nに基づいた別の関数関係のフェードアウト係数であってよい。
NOVA_1は、移行処理長を示す。NOVA_1の値は、具体的なシナリオ要件に基づいて設定されてよい。例えば、NOVA_1は、3/Nに等しくてよく、又はNOVA_1は、Nよりも小さい別の値であってよい。
別の例について、現在のフレームにおけるプライマリ及びセカンダリチャンネル信号を取得するために、相関信号符号化モードに対応する時間領域ダウンミックス処理方式を使用することによって、現在のフレームにおける左及び右チャンネル信号に対して、時間領域ダウンミックス処理が実行されるとき、
Figure 0007311573000077
である。
上記の例において、XL(n)は、現在のフレームにおける左チャンネル信号を示し、XR(n)は、現在のフレームにおける右チャンネル信号を示し、Y(n)は、現在のフレーム内にあり、時間領域ダウンミックス処理を通して取得される、プライマリチャンネル信号を示し、X(n)は、現在のフレーム内にあり、時間領域ダウンミックス処理を通して取得される、セカンダリチャンネル信号を示す。
上記の例において、nは、サンプリング点の番号を示す。例えば、n=0、1、...、N-1である。
上記の例において、delay_comは、エンコーディング遅延補償を示す。
11は、以前のフレームのための相関信号チャンネル組み合わせスキームに対応するダウンミックス行列を示し、M11は、以前のフレームのための相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数に基づいて構築される。
12は、以前のフレームのための反相関信号チャンネル組み合わせスキームに対応するダウンミックス行列を示し、M12は、以前のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数に基づいて構築される。
22は、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するダウンミックス行列を示し、M22は、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数に基づいて構築される。
21は、現在のフレームのための相関信号チャンネル組み合わせスキームに対応するダウンミックス行列を示し、M21は、現在のフレームのための相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数に基づいて構築される。
21は、複数の形式、例えば、
Figure 0007311573000078
又は
Figure 0007311573000079
を有し得るし、
ratioは、現在のフレームのための相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数を示す。
22は、複数の形式、例えば、
Figure 0007311573000080
又は
Figure 0007311573000081
又は
Figure 0007311573000082
又は
Figure 0007311573000083
又は
Figure 0007311573000084
又は
Figure 0007311573000085
を有し得るし、
α1=ratio_SM、α2=1-ratio_SMであり、ratio_SMは、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数を示す。
12は、複数の形式、例えば、
Figure 0007311573000086
又は
Figure 0007311573000087
又は
Figure 0007311573000088
又は
Figure 0007311573000089
又は
Figure 0007311573000090
又は
Figure 0007311573000091
を有し得るし、
α1_pre=tdm_last_ratio_SM、α2_pre=1-tdm_last_ratio_SMであり、tdm_last_ratio_SMは、以前のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数を示す。
現在のフレームにおける左及び右チャンネル信号は、具体的には、現在のフレームにおける元の左及び右チャンネル信号であり得(元の左及び右チャンネル信号は、時間領域前処理を施されていない左及び右チャンネル信号であり、例えば、サンプリングを通して取得された左及び右チャンネル信号であり得る)、又は現在のフレームにおける時間前処理を施された左及び右チャンネル信号であり得るし、又は現在のフレームにおける遅延アラインメント処理を施された左及び右チャンネル信号であり得る。
具体的には、例えば、
Figure 0007311573000092
又は
Figure 0007311573000093
又は
Figure 0007311573000094
であり、
Figure 0007311573000095
は、現在のフレームにおける元の左及び右チャンネル信号を示し、
Figure 0007311573000096
は、現在のフレームにおける時間領域前処理を施された左及び右チャンネル信号を示し、
Figure 0007311573000097
は、現在のフレームにおける遅延アラインメント処理を施された左及び右チャンネル信号を示す。
これに対応して、以下では、例を使用して、反相関信号デコーディングモードのためのシナリオについて説明する。
図5を参照すると、本出願の実施形態は、オーディオデコーディング方法をさらに提供する。オーディオデコーディング方法の関連ステップは、デコーディング装置によって実施得るし、方法は、具体的には、以下のステップを含むことがある。
501.現在のフレームにおけるデコードされたプライマリ及びセカンダリチャンネル信号を取得するために、ビットストリームに基づいたデコーディングを実行する。
502.現在のフレームのデコーディングモードを決定する。
ステップ501及びステップ502を実行するための必要な順序はないことが理解され得る。
503.現在のフレームのデコーディングモードが反相関信号デコーディングモードであると決定されたとき、現在のフレームにおける再構成された左及び右チャンネル信号を取得するために、反相関信号デコーディングモードに対応する時間領域アップミックス処理方式を使用することによって、現在のフレームにおけるデコードされたプライマリ及びセカンダリチャンネル信号に対して時間領域アップミックス処理を実行する。
再構成された左及び右チャンネル信号は、デコードされた左及び右チャンネル信号であってよく、又は、遅延調整処理及び/若しくは時間領域後処理が、デコードされた左及び右チャンネル信号を取得するために、再構成された左及び右チャンネル信号に対して実行されてよい。
反相関信号デコーディングモードに対応する時間領域アップミックス処理方式は、反相関信号チャンネル組み合わせスキームに対応する時間領域アップミックス処理方式であり、反相関信号チャンネル組み合わせスキームは、逆位相に近い信号に対応するチャンネル組み合わせスキームである。
現在のフレームのデコーディングモードは、複数のデコーディングモードのうちの1つであってよい。例えば、現在のフレームのデコーディングモードは、以下のデコーディングモード、即ち、相関信号デコーディングモード、反相関信号デコーディングモード、相関から反相関信号デコーディングへの切り換えモード、及び反相関から相関信号デコーディングへの切り換えモード、のうちの1つであってよい。
上述のソリューションにおいては、現在のフレームのデコーディングモードは、決定される必要があり、これは、現在のフレームのデコーディングモードのための複数の可能性があることを示していることが理解され得る。1つのデコーディングモードのみがある従来のソリューションと比較して、複数の可能なデコーディングモードを有するこのソリューションは、複数の可能なシナリオとより相性が良く、調和することができる。加えて、逆位相に近い信号に対応するチャンネル組み合わせスキームが導入されるので、現在のフレームにおけるステレオ信号が逆位相に近い信号であるとき、より目標に合ったチャンネル組み合わせスキーム及びデコーディングモードがあり、これは、デコーディング品質を改善する助けになる。
いくつかの可能な実装においては、方法は、
現在のフレームのデコーディングモードが相関信号デコーディングモードであると決定されたとき、現在のフレームにおける再構成された左及び右チャンネル信号を取得するために、相関信号デコーディングモードに対応する時間領域アップミックス処理方式を使用することによって現在のフレームにおけるデコードされたプライマリ及びセカンダリチャンネル信号に対して時間領域アップミックス処理を実行することであって、相関信号デコーディングモードに対応する時間領域アップミックス処理方式は、相関信号チャンネル組み合わせスキームに対応する時間領域アップミックス処理方式であり、相関信号チャンネル組み合わせスキームは、同位相に近い信号に対応するチャンネル組み合わせスキームである、実行すること
をさらに含むことがある。
いくつかの可能な実装においては、方法は、現在のフレームのデコーディングモードが、相関から反相関信号デコーディングへの切り換えモードであると決定されたとき、現在のフレームにおける再構成された左及び右チャンネル信号を取得するために、相関から反相関信号デコーディングへの切り換えモードに対応する時間領域アップミックス処理方式を使用することによって、現在のフレームにおけるデコードされたプライマリ及びセカンダリチャンネル信号に対して時間領域アップミックス処理を実行することであって、相関から反相関信号デコーディングへの切り換えモードに対応する時間領域アップミックス処理方式は、相関信号チャンネル組み合わせスキームから反相関信号チャンネル組み合わせスキームへの移行に対応する時間領域アップミックス処理方式である、実行することをさらに含むことがある。
いくつかの可能な実装においては、方法は、現在のフレームのデコーディングモードが、反相関から相関信号デコーディングへの切り換えモードであると決定されたとき、現在のフレームにおける再構成された左及び右チャンネル信号を取得するために、反相関から相関信号デコーディングへの切り換えモードに対応する時間領域アップミックス処理方式を使用することによって、現在のフレームにおけるデコードされたプライマリ及びセカンダリチャンネル信号に対して時間領域アップミックス処理を実行することであって、反相関から相関信号デコーディングへの切り換えモードに対応する時間領域アップミックス処理方式は、反相関信号チャンネル組み合わせスキームから相関信号チャンネル組み合わせスキームへの移行に対応する時間領域アップミックス処理方式である、実行することをさらに含むことがある。
異なるデコーディングモードに対応する時間領域アップミックス処理方式は通常、異なることが理解されることができる。加えて、各デコーディングモードは、1つ又は複数の時間領域アップミックス処理方式に対応し得る。
例えば、いくつかの可能な実装においては、現在のフレームにおける再構成された左及び右チャンネル信号を取得するために、反相関信号デコーディングモードに対応する時間領域アップミックス処理方式を使用することによって、現在のフレームにおけるデコードされたプライマリ及びセカンダリチャンネル信号に対して時間領域アップミックス処理を実行することは、
現在のフレームにおける再構成された左及び右チャンネル信号を取得するために、現在のフレームのための反相関信号チャンネル組み合わせスキームのチャンネル組み合わせ比係数に基づいて現在のフレームにおけるデコードされたプライマリ及びセカンダリチャンネル信号に対して時間領域アップミックス処理を実行すること、又は、現在のフレームにおける再構成された左及び右チャンネル信号を取得するために、現在のフレームのための反相関信号チャンネル組み合わせスキームのチャンネル組み合わせ比係数及び以前のフレームのための反相関信号チャンネル組み合わせスキームのチャンネル組み合わせ比係数に基づいて、現在のフレームにおけるデコードされたプライマリ及びセカンダリチャンネル信号に対して時間領域アップミックス処理を実行すること
を含む。
いくつかの可能な実装においては、対応するアップミックス行列は、オーディオフレームのチャンネル組み合わせ比係数に基づいて構築されることがあり、時間領域アップミックス処理が、現在のフレームにおける再構成された左及び右チャンネル信号を取得するために、チャンネル組み合わせスキームに対応するアップミックス行列を使用することによって、現在のフレームにおけるデコードされたプライマリ及びセカンダリチャンネル信号に対して実行される。
例えば、時間領域アップミックス処理が、現在のフレームにおける再構成された左及び右チャンネル信号を取得するために、現在のフレームのための反相関信号チャンネル組み合わせスキームのチャンネル組み合わせ比係数に基づいて現在のフレームにおけるデコードされたプライマリ及びセカンダリチャンネル信号に対して実行されるとき、
Figure 0007311573000098
である。
別の例について、時間領域アップミックス処理が、現在のフレームにおける再構成された左及び右チャンネル信号を取得するために、現在のフレームのための反相関信号チャンネル組み合わせスキームのチャンネル組み合わせ比係数及び以前のフレームのための反相関信号チャンネル組み合わせスキームのチャンネル組み合わせ比係数に基づいて現在のフレームにおけるデコードされたプライマリ及びセカンダリチャンネル信号に対して実行されるとき、
0≦n<N-upmixing_dalyである場合、
Figure 0007311573000099
であり、又は
N-upmixing_daly≦n<Nである場合、
Figure 0007311573000100
であり、ここで、
delay_comは、エンコーディング遅延補償を示す。
別の例について、時間領域アップミックス処理が、現在のフレームにおける再構成された左及び右チャンネル信号を取得するために、現在のフレームのための反相関信号チャンネル組み合わせスキームのチャンネル組み合わせ比係数及び以前のフレームのための反相関信号チャンネル組み合わせスキームのチャンネル組み合わせ比係数に基づいて現在のフレームにおけるデコードされたプライマリ及びセカンダリチャンネル信号に対して実行されるとき、
0≦n<N-upmixing_dalyである場合、
Figure 0007311573000101
であり、
N-upmixing_daly≦n<N-upmixing_daly+NOVA_1である場合
Figure 0007311573000102
であり、又は
N-upmixing_daly+NOVA_1≦n<Nである場合
Figure 0007311573000103
である。
本明細書において、
Figure 0007311573000104
は、現在のフレームにおける再構成された左チャンネル信号を示し、
Figure 0007311573000105
は、現在のフレームにおける再構成された右チャンネル信号を示し、
Figure 0007311573000106
は、現在のフレームにおけるデコードされたプライマリチャンネル信号を示し、
Figure 0007311573000107
は、現在のフレームにおけるデコードされたセカンダリチャンネル信号を示す。
NOVA_1は、移行処理長を示す。
fade_in(n)は、フェードイン係数を示す。例えば、
Figure 0007311573000108
である。もちろん、fade_in(n)は、或いは、nに基づいた別の関数関係のフェードイン係数であってよい。
fade_out(n)は、フェードアウト係数を示す。例えば、
Figure 0007311573000109
である。もちろん、fade_out(n)は、或いは、nに基づいた別の関数関係のフェードアウト係数であってよい。
NOVA_1は、移行処理長を示す。NOVA_1の値は、具体的なシナリオ要件に基づいて設定されてよい。例えば、NOVA_1は3/Nに等しくてもよく、NOVA_1は、Nよりも小さい別の値であってもよい。
別の例について、時間領域アップミックス処理が、現在のフレームにおける再構成された左及び右チャンネル信号を取得するために、現在のフレームのための相関信号チャンネル組み合わせスキームのチャンネル組み合わせ比係数に基づいて現在のフレームにおけるデコードされたプライマリ及びセカンダリチャンネル信号に対して実行されるとき、
Figure 0007311573000110
である。
上述の例において、
Figure 0007311573000111
は、現在のフレームにおける再構成された左チャンネル信号を示す。
Figure 0007311573000112
は、現在のフレームにおける再構成された右チャンネル信号を示す。
Figure 0007311573000113
は、現在のフレームにおけるデコードされたプライマリチャンネル信号を示す。
Figure 0007311573000114
は、現在のフレームにおけるデコードされたセカンダリチャンネル信号を示す。
上記の例について、nは、サンプリング点の番号を示す。例えば、n=0,1,…,N-1である。
上記の例において、upmixing_delayは、デコーディング遅延補償を示す。
Figure 0007311573000115
は、以前のフレームのための相関信号チャンネル組み合わせスキームに対応するアップミックス行列を示し、
Figure 0007311573000116
は、以前のフレームのための相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数に基づいて構築される。
Figure 0007311573000117
は、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するアップミックス行列を示し、
Figure 0007311573000118
は、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数に基づいて構築される。
Figure 0007311573000119
は、以前のフレームのための反相関信号チャンネル組み合わせスキームに対応するアップミックス行列を示し、
Figure 0007311573000120
は、以前のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数に基づいて構築される。
Figure 0007311573000121
は、現在のフレームのための相関信号チャンネル組み合わせスキームに対応するアップミックス行列を示し、
Figure 0007311573000122
は、現在のフレームのための相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数に基づいて構築される。
Figure 0007311573000123
は、複数の形式、例えば、
Figure 0007311573000124
又は
Figure 0007311573000125
又は
Figure 0007311573000126
又は
Figure 0007311573000127
又は
Figure 0007311573000128
又は
Figure 0007311573000129
を有することがあり、ここで、
α1=ratio_SM、α2=1-ratio_SMであり、ratio_SMは、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数を示す。
Figure 0007311573000130
は、複数の形式、例えば、
Figure 0007311573000131
又は
Figure 0007311573000132
又は
Figure 0007311573000133
又は
Figure 0007311573000134
又は
Figure 0007311573000135
又は
Figure 0007311573000136
を有することがあり、ここで、
α1_pre=tdm_last_ratio_SM、α2_pre=1-tdm_last_ratio_SMであり、
tdm_last_ratio_SMは、以前のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数を示す。
Figure 0007311573000137
は、複数の形式、例えば、
Figure 0007311573000138
又は
Figure 0007311573000139
を有することがあり、ここで、
ratioは、現在のフレームのための相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数を示す。
以下は、例を使用して、相関から反相関信号符号化への切り換えモード及び反相関から相関信号符号化への切り換えモードのためのシナリオについて説明する。相関から反相関信号符号化への切り換えモード及び反相関から相関信号符号化への切り換えモードに対応する時間領域ダウンミックス処理方式は、例えば、セグメント化された時間領域ダウンミックス処理方式である。
図6を参照すると、本出願の実施形態は、オーディオエンコーディング方法を提供する。オーディオエンコーディング方法の関連ステップは、エンコーディング装置によって実施されてよく、方法は、具体的には、以下のステップを含むことがある。
601.現在のフレームのためのチャンネル組み合わせスキームを決定する。
602.現在のフレームのためのチャンネル組み合わせスキームが、以前のフレームのためのチャンネル組み合わせスキームとは異なるとき、現在のフレームにおけるプライマリ及びセカンダリチャンネル信号を取得するために、現在のフレームのためのチャンネル組み合わせスキーム及び以前のフレームのためのチャンネル組み合わせスキームに基づいて現在のフレームにおける左及び右チャンネル信号に対してセグメント化された時間領域ダウンミックス処理を実行する。
603.現在のフレームにおける取得されたプライマリ及びセカンダリチャンネル信号をエンコードする。
現在のフレームのためのチャンネル組み合わせスキームが、以前のフレームのためのチャンネル組み合わせスキームとは異なる場合、それは、現在のフレームの符号化モードが、相関から反相関信号符号化への切り換えモード又は反相関から相関信号符号化への切り換えモードであると決定されてよい。現在のフレームの符号化モードが、相関から反相関信号符号化への切り換えモード又は反相関から相関信号符号化への切り換えモードである場合、例えば、セグメント化された時間領域ダウンミックス処理が、現在のフレームのためのチャンネル組み合わせスキーム及び以前のフレームのためのチャンネル組み合わせスキームに基づいて、現在のフレームにおける左及び右チャンネル信号に対して実行されることがある。
具体的には、例えば、以前のフレームのためのチャンネル組み合わせスキームが相関信号チャンネル組み合わせスキームであり、現在のフレームのためのチャンネル組み合わせスキームが反相関信号チャンネル組み合わせスキームであるとき、現在のフレームの符号化モードが相関から反相関信号符号化への切り換えモードであると決定されることがある。別の例について、以前のフレームのためのチャンネル組み合わせスキームが反相関信号チャンネル組み合わせスキームであり、現在のフレームのためのチャンネル組み合わせスキームが相関信号チャンネル組み合わせスキームであるとき、現在のフレームの符号化モードが反相関から相関信号符号化への切り換えモードであると決定されることがある。残りは、類推によって推測されることができる。
セグメント化された時間領域ダウンミックス処理は、現在のフレームにおける左及び右チャンネル信号が少なくとも2つのセグメントに分割されると理解されてよく、異なる時間領域ダウンミックス処理方式は、各セグメントが時間領域ダウンミックス処理を実行するために使用される。非セグメント化時間領域ダウンミックス処理と比較して、セグメント化された時間領域ダウンミックス処理は、隣接するフレームのためのチャンネル組み合わせスキームが変化するとき、よりスムーズな移行を取得する可能性が高いことが理解されることができる。
上述のソリューションにおいては、現在のフレームのためのチャンネル組み合わせスキームが決定される必要があり、これは、現在のフレームのためのチャンネル組み合わせスキームにについて複数の可能性があることを示していることが理解され得る。ただ1つのチャンネル組み合わせスキームしかない従来のソリューションと比較して、複数の可能なチャンネル組み合わせスキームを有するこのソリューションは、複数の可能なシナリオとより相性が良く、調和することができる。加えて、現在のフレームのためのチャンネル組み合わせスキームと以前のフレームのためのチャンネル組み合わせスキームが異なるとき、現在のフレームにおける左及び右チャンネル信号に対してセグメント化された時間領域ダウンミックス処理を実行するメカニズムが導入される。セグメント化された時間領域ダウンミックス処理メカニズムは、チャンネル組み合わせスキームのスムーズな移行を実施し、さらにエンコーディング品質を改善する助けになる。
加えて、逆位相に近い信号に対応するチャンネル組み合わせスキームが導入されたので、現在のフレームにおけるステレオ信号が逆位相に近い信号であるとき、より目標に合ったチャンネル組み合わせスキーム及び符号化モードが、存在し、これは、エンコーディング品質を改善する助けになる。
例えば、以前のフレームのためのチャンネル組み合わせスキームは、相関信号チャンネル組み合わせスキームであってもよいし、反相関信号チャンネル組み合わせスキームであってもよい。現在のフレームのためのチャンネル組み合わせスキームは、相関信号チャンネル組み合わせスキームであってもよいし、反相関信号チャンネル組み合わせスキームであってもよい。したがって、現在のフレームのためのチャンネル組み合わせスキームと以前のフレームのためのチャンネル組み合わせスキームが異なる、いくつかの可能なケースがある。
具体的には、例えば、以前のフレームのためのチャンネル組み合わせスキームが相関信号チャンネル組み合わせスキームであり、現在のフレームのためのチャンネル組み合わせスキームが反相関信号チャンネル組み合わせスキームであるとき、現在のフレームにおける左及び右チャンネル信号は、左及び右チャンネル信号の開始セグメントと、左及び右チャンネル信号の中間セグメントと、左及び右チャンネル信号の終了セグメントとを含み、現在のフレームにおけるプライマリ及びセカンダリチャンネル信号は、プライマリ及びセカンダリチャンネル信号の開始セグメントと、プライマリ及びセカンダリチャンネル信号の中間セグメントと、プライマリ及びセカンダリチャンネル信号の終了セグメントとを含む。このケースでは、現在のフレームにおけるプライマリ及びセカンダリチャンネル信号を取得するために、現在のフレームのためのチャンネル組み合わせスキーム及び以前のフレームのためのチャンネル組み合わせスキームに基づいて現在のフレームにおける左及び右チャンネル信号に対してセグメント化された時間領域ダウンミックス処理を実行することは、
以前のフレームのための相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数及び以前のフレームのための相関信号チャンネル組み合わせスキームに対応する時間領域ダウンミックス処理方式を使用することによって、現在のフレームにおけるプライマリ及びセカンダリチャンネル信号の開始セグメントを取得するために、現在のフレームにおける左及び右チャンネル信号の開始セグメントに対して時間領域ダウンミックス処理を実行することと、
現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数及び現在のフレームのための反相関信号チャンネル組み合わせスキームに対応する時間領域ダウンミックス処理方式を使用することによって、現在のフレームにおけるプライマリ及びセカンダリチャンネル信号の終了セグメントを取得するために、現在のフレームにおける左及び右チャンネル信号の終了セグメントに対して時間領域ダウンミックス処理を実行することと、
以前のフレームのための相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数及び以前のフレームのための相関信号チャンネル組み合わせスキームに対応する時間領域ダウンミックス処理方式を使用することによって、プライマリ及びセカンダリチャンネル信号の第1の中間セグメントを取得するために、現在のフレームにおける左及び右チャンネル信号の中間セグメントに対して時間領域ダウンミックス処理を実行することと、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数及び現在のフレームのための反相関信号チャンネル組み合わせスキームに対応する時間領域ダウンミックス処理方式を使用することによって、プライマリ及びセカンダリチャンネル信号の第2の中間セグメントを取得するために、現在のフレームにおける左及び右チャンネル信号の中間セグメントに対して時間領域ダウンミックス処理を実行することと、現在のフレームにおけるプライマリ及びセカンダリチャンネル信号の中間セグメントを取得するために、プライマリ及びセカンダリチャンネル信号の第1の中間セグメント並びにプライマリ及びセカンダリチャンネル信号の第2の中間セグメントに対して重み付け和処理を実行することとを含むことがある。
現在のフレームにおける左及び右チャンネル信号の開始セグメント、左及び右チャンネル信号の中間セグメント、並びに左及び右チャンネル信号の終了セグメントの長さは、要件に基づいて設定されることがある。現在のフレームにおける左及び右チャンネル信号の開始セグメント、左及び右チャンネル信号の中間セグメント、及び左及び右チャンネル信号の終了セグメントの長さは、同じであってもよいし、部分的に同じであってもよいし、互いとは異なってもよい。
現在のフレームにおけるプライマリ及びセカンダリチャンネル信号の開始セグメント、プライマリ及びセカンダリチャンネル信号の中間セグメント、並びにプライマリ及びセカンダリチャンネル信号の終了セグメントの長さは、要件に基づいて設定されることがある。現在のフレームにおけるプライマリ及びセカンダリチャンネル信号の開始セグメント、プライマリ及びセカンダリチャンネル信号の中間セグメント、並びにプライマリ及びセカンダリチャンネル信号の終了セグメントの長さは、同じであってもよいし、部分的に同じであってもよいし、互いとは異なってもよい。
重み付け和処理が、プライマリ及びセカンダリチャンネル信号の第1の中間セグメント並びにプライマリ及びセカンダリチャンネル信号の第2の中間セグメントに対して実行されるとき、プライマリ及びセカンダリチャンネル信号の第1の中間セグメントに対応する重み付け率は、プライマリ及びセカンダリチャンネル信号の第2の中間セグメントに対応する重み付け率に等しくてもよいし、これに等しくなくてもよい。
例えば、重み付け和処理が、プライマリ及びセカンダリチャンネル信号の第1の中間セグメント並びにプライマリ及びセカンダリチャンネル信号の第2の中間セグメントに対して実行されるとき、プライマリ及びセカンダリチャンネル信号の第1の中間セグメントに対応する重み付け率はフェードアウト係数であり、プライマリ及びセカンダリチャンネル信号の第2の中間セグメントに対応する重み付け率はフェードイン係数である。
いくつかの可能な実装においては、
Figure 0007311573000140
ここで、
11(n)は現在のフレームにおけるプライマリチャンネル信号の開始セグメントを示し、Y11(n)は現在のフレームにおけるセカンダリチャンネル信号の開始セグメントを示し、X31(n)は現在のフレームにおけるプライマリチャンネル信号の終了セグメントを示し、Y31(n)は現在のフレームにおけるセカンダリチャンネル信号の終了セグメントを示し、X21(n)は現在のフレームにおけるプライマリチャンネル信号の中間セグメントを示し、Y21(n)は現在のフレームにおけるセカンダリチャンネル信号の中間セグメントを示し、
X(n)は現在のフレームにおけるプライマリチャンネル信号を示し、
Y(n)は現在のフレームにおけるセカンダリチャンネル信号を示す。
例えば、
Figure 0007311573000141
である。
例えば、fade_in(n)はフェードイン係数を示し、fade_out(n)はフェードアウト係数を示す。例えば、fade_in(n)とfade_out(n)の合計は1である。
具体的には、例えば、
Figure 0007311573000142
及び
Figure 0007311573000143
である。もちろん、fade_in(n)は、或いは、nに基づいた別の関数関係のフェードイン係数であってよい。もちろん、fade_out(n)は、或いは、nに基づいた別の関数関係のフェードアウト係数であってよい。
本明細書において、nは、サンプリング点の番号を示す。n=0,1,…,N-1であり、0<N1<N2<N-1である。
例えば、N1は、100、107、120、150、又は別の値に等しい。
例えば、N2は、180、187、200、203、又は別の値に等しい。
本明細書において、X211(n)は現在のフレームにおけるプライマリチャンネル信号の第1の中間セグメントを示し、Y211(n)は現在のフレームにおけるセカンダリチャンネル信号の第1の中間セグメントを示す。X212(n)は現在のフレームにおけるプライマリチャンネル信号の第2の中間セグメントを示し、Y212(n)は現在のフレームにおけるセカンダリチャンネル信号の第2の中間セグメントを示す。
いくつかの可能な実装においては、
1≦n<N2である場合、
Figure 0007311573000144
であり、
1≦n<N2の場合、
Figure 0007311573000145
であり、
0≦n<N1である場合、
Figure 0007311573000146
であり、
2≦n<Nである場合、
Figure 0007311573000147
であり、ここで、
L(n)は現在のフレームにおける左チャンネル信号を示し、XR(n)は現在のフレームにおける右チャンネル信号を示し、 M11は、以前のフレームのための相関信号チャンネル組み合わせスキームに対応するダウンミックス行列を示し、M11は、以前のフレームのための相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数に基づいて構築され、M22は、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するダウンミックス行列を示し、M22は、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数に基づいて構築される。
22は、複数の可能な形式を有することがあり、これらの形式は、具体的には、例えば、
Figure 0007311573000148
又は
Figure 0007311573000149
又は
Figure 0007311573000150
又は
Figure 0007311573000151
又は
Figure 0007311573000152
又は
Figure 0007311573000153
であり、ここで、
α1=ratio_SM、α2=1-ratio_SMであり、ratio_SMは、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数を示す。
11は、複数の可能な形式を有することがあり、これらの形式は、具体的には、例えば、
Figure 0007311573000154
又は
Figure 0007311573000155
であり、ここで、
tdm_last_ratioは、以前のフレームのための相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数を示す。
具体的には、別の例について、以前のフレームのためのチャンネル組み合わせスキームが反相関信号チャンネル組み合わせスキームであり、現在のフレームのためのチャンネル組み合わせスキームが相関信号チャンネル組み合わせスキームであるとき、現在のフレームにおける左及び右チャンネル信号は、左及び右チャンネル信号の開始セグメントと、左及び右チャンネル信号の中間セグメントと、左及び右チャンネル信号の終了セグメントとを含み、現在のフレームにおけるプライマリ及びセカンダリチャンネル信号は、プライマリ及びセカンダリチャンネル信号の開始セグメントと、プライマリ及びセカンダリチャンネル信号の中間セグメントと、プライマリ及びセカンダリチャンネル信号の終了セグメントとを含む。このケースでは、現在のフレームにおけるプライマリ及びセカンダリチャンネル信号を取得するために、現在のフレームのためのチャンネル組み合わせスキーム及び以前のフレームのためのチャンネル組み合わせスキームに基づいて現在のフレームにおける左及び右チャンネル信号に対してセグメント化された時間領域ダウンミックス処理を実行することは、
以前のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数及び以前のフレームのための反相関信号チャンネル組み合わせスキームに対応する時間領域ダウンミックス処理方式を使用することによって、現在のフレームにおけるプライマリ及びセカンダリチャンネル信号の開始セグメントを取得するために、現在のフレームにおける左及び右チャンネル信号の開始セグメントに対して時間領域ダウンミックス処理を実行することと、
現在のフレームに対する相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数及び現在のフレームのための相関信号チャンネル組み合わせスキームに対応する時間領域ダウンミックス処理方式を使用することによって、現在のフレームにおけるプライマリ及びセカンダリチャンネル信号の終了セグメントを取得するために、現在のフレームにおける左及び右チャンネル信号の終了セグメントに対して時間領域ダウンミックス処理を実行することと、
以前のフレームに対する反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数及び以前のフレームに対する反相関信号チャンネル組み合わせスキームに対応する時間領域ダウンミックス処理方式を使用することによって、プライマリ及びセカンダリチャンネル信号の第3の中間セグメントを取得するために、現在のフレームにおける左及び右チャンネル信号の中間セグメントに対して時間領域ダウンミックス処理を実行することと、現在のフレームに対する相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数及び現在のフレームに対する相関信号チャンネル組み合わせスキームに対応する時間領域ダウンミックス処理方式を使用することによって、プライマリ及びセカンダリチャンネル信号の第4の中間セグメントを取得するために、現在のフレームにおける左及び右チャンネル信号の中間セグメントに対して時間領域ダウンミックス処理を実行することと、現在のフレームにおけるプライマリ及びセカンダリチャンネル信号の中間セグメントを取得するために、プライマリ及びセカンダリチャンネル信号の第3の中間セグメント並びにプライマリ及びセカンダリチャンネル信号の第4中間セグメントに対して重み付け和処理を実行することとを含むことがある。
重み付け和処理が、プライマリ及びセカンダリチャンネル信号の第3の中間セグメント並びにプライマリ及びセカンダリチャンネル信号の第4の中間セグメントに対して実行されるとき、プライマリ及びセカンダリチャンネル信号の第3の中間セグメントに対応する重み付け率は、プライマリ及びセカンダリチャンネル信号の第4の中間セグメントに対応する重み付け率に等しくてもよいし、これに等しくなくてもよい。
例えば、重み付け和処理が、プライマリ及びセカンダリチャンネル信号の第3の中間セグメント並びにプライマリ及びセカンダリチャンネル信号の第4の中間セグメントに対して実行されるとき、プライマリ及びセカンダリチャンネル信号の第3の中間セグメントに対応する重み付け率はフェードアウト係数であり、プライマリ及びセカンダリチャンネル信号の第4の中間セグメントに対応する重み付け率はフェードイン係数である。
いくつかの可能な実装においては、
Figure 0007311573000156
であり、ここで、
12(n)は現在のフレームにおけるプライマリチャンネル信号の開始セグメントを示し、Y12(n)は現在のフレームにおけるセカンダリチャンネル信号の開始セグメントを示し、X32(n)は現在のフレームにおけるプライマリチャンネル信号の終了セグメントを示し、Y32(n)は現在のフレームにおけるセカンダリチャンネル信号の終了セグメントを示し、X22(n)は現在のフレームにおけるプライマリチャンネル信号の中間セグメントを示し、Y22(n)は現在のフレーム;におけるセカンダリチャンネル信号の中間セグメントを示し、
X(n)は現在のフレームにおけるプライマリチャンネル信号を示し、
Y(n)は現在のフレームにおけるセカンダリチャンネル信号を示す。
例えば、
Figure 0007311573000157
であり、ここで、
fade_in(n)はフェードイン係数を示し、fade_out(n)はフェードアウト係数を示し、fade_in(n)とfade_out(n)の合計は1である。
具体的には、例えば、
Figure 0007311573000158
及び
Figure 0007311573000159
である。もちろん、fade_in(n)は、或いは、nに基づいた別の関数関係のフェードイン係数であってよい。もちろん、fade_out(n)は、或いは、nに基づいた別の関数関係のフェードイン係数であってよい。
本明細書において、nは、サンプリング点の番号を示す。例えば、n=0,1,…,N-1である。
本明細書において、0<N3<N4<N-1である。
例えば、N3は、101、107、120、150、又は別の値に等しい。
例えば、N4は、181、187、200、205、又は別の値に等しい。
221(n)は現在のフレームにおけるプライマリチャンネル信号の第3の中間セグメントを示し、Y221(n)は現在のフレームにおけるセカンダリチャンネル信号の第3の中間セグメントを示す。X222(n)は現在のフレームにおけるプライマリチャンネル信号の第4の中間セグメントを示し、Y222(n)は現在のフレームにおけるセカンダリチャンネル信号の第4の中間セグメントを示す。
いくつかの可能な実装においては、
3≦n<N4である場合、
Figure 0007311573000160
であり、
3≦n<N4である場合、
Figure 0007311573000161
であり、
0≦n<N3である場合、
Figure 0007311573000162
であり、
4≦n<Nである場合、
Figure 0007311573000163
であり、ここで、
L(n)は現在のフレームにおける左チャンネル信号を示し、XR(n)は現在のフレームにおける右チャンネル信号を示す。
12は、以前のフレームに対する反相関信号チャンネル組み合わせスキームに対応するダウンミックス行列を示し、M12は、以前のフレームに対する反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数に基づいて構築される。M21は、現在のフレームに対する相関信号チャンネル組み合わせスキームに対応するダウンミックス行列を示し、M21は、現在のフレームに対する相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数に基づいて構築される。
12は、複数の可能な形式を有することがあり、これらの形式は、具体的には、例えば、
Figure 0007311573000164
又は
Figure 0007311573000165
又は
Figure 0007311573000166
又は
Figure 0007311573000167
又は
Figure 0007311573000168
又は
Figure 0007311573000169
であり、ここで、
α1_pre=tdm_last_ratio_SM、α2_pre=1-tdm_last_ratio_SMであり、
tdm_last_ratio_SMは、以前のフレームに対する反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数を示す。
21は、複数の可能な形式を有することがあり、これらの形式は、具体的には、例えば、
Figure 0007311573000170
又は
Figure 0007311573000171
であり、ここで、
ratioは、現在のフレームに対する相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数を示す。
いくつかの可能な実装においては、現在のフレームにおける左及び右チャンネル信号は、例えば、現在のフレームにおける元の左及び右チャンネル信号であってもよいし、時間領域前処理を施された左及び右チャンネル信号であってもよいし、遅延アラインメント処理を施された左及び右チャンネル信号であってもよい。
具体的には、例えば、
Figure 0007311573000172
又は
Figure 0007311573000173
又は
Figure 0007311573000174
であり、ここで、
L(n)は、現在のフレームにおける元の左チャンネル信号を示し(元の左チャンネル信号は、時間領域前処理を施されていない左チャンネル信号である)、xR(n)は、現在のフレームにおける元の右チャンネル信号を示し(元の右チャンネル信号は、時間領域前処理を施されていない右チャンネル信号である)、
L_HP(n)は、現在のフレームにおける、時間領域前処理を施された左チャンネル信号を示し、xR_HP(n)は、現在のフレームにおける、時間領域前処理を施された右チャンネル信号を示す。x’L(n)は、現在のフレームにおける、遅延アラインメント処理を施された左チャンネル信号を示し、x’R(n)は、現在のフレームにおける、遅延アラインメント処理を施された右チャンネル信号を示す。
上述の例におけるセグメント化された時間領域ダウンミックス処理方式は、全ての可能な実装であるとは限らないことがあり、実際の適用では、別のセグメント化された時間領域ダウンミックス処理方式も使用されてよいことが理解されることができる。
これに対応して、以下では、例を使用して、相関から反相関信号デコーディングへの切り換えモード及び反相関から相関信号デコーディングへの切り換えモードのためのシナリオについて説明する。相関から反相関信号デコーディングへの切り換えモード及び反相関から相関信号デコーディングへの切り換えモードに対応する時間領域ダウンミックス処理方式は、例えば、セグメント化された時間領域ダウンミックス処理方式である。
図7を参照すると、本出願の実施形態は、オーディオデコーディング方法を提供する。オーディオデコーディング方法の関連ステップは、デコーディング装置によって実施されてよく、方法は、具体的には、以下のステップを含むことがある。
701.現在のフレームにおけるデコードされたプライマリ及びセカンダリチャンネル信号を取得するために、ビットストリームに基づいたデコーディングを実行する。
702.現在のフレームのためのチャンネル組み合わせスキームを決定する。
ステップ701及びステップ702を実行するための必要な順序はないことが理解され得る。
703.現在のフレームに対するチャンネル組み合わせスキームが以前のフレームに対するチャンネル組み合わせスキームとは異なるとき、現在のフレームにおける再構成された左及び右チャンネル信号を取得するために、現在のフレームに対するチャンネル組み合わせスキーム及び以前のフレームに対するチャンネル組み合わせスキームに基づいて、現在のフレームにおけるデコードされたプライマリ及びセカンダリチャンネル信号に対してセグメント化された時間領域アップミックス処理を実行する。
現在のフレームに対するチャンネル組み合わせスキームは、複数のチャンネル組み合わせスキームのうちの1つである。
例えば、複数のチャンネル組み合わせスキームは、反相関信号チャンネル組み合わせスキームと、相関信号チャンネル組み合わせスキームとを含む。相関信号チャンネル組み合わせスキームは、同位相に近い信号に対応するチャンネル組み合わせスキームである。反相関信号チャンネル組み合わせスキームは、逆位相に近い信号に対応するチャンネル組み合わせスキームである。同位相に近い信号に対応するチャンネル組み合わせスキームは同位相に近い信号に適用可能であり、逆位相に近い信号に対応するチャンネル組み合わせスキームは逆位相に近い信号に適用可能であることが理解され得る。
セグメント化された時間領域アップミックス処理は、現在のフレームにおける左及び右チャンネル信号が少なくとも2つのセグメントに分割されると理解されてよく、異なる時間領域アップミックス処理方式は、各セグメントが時間領域アップミックス処理を実行するために使用される。非セグメント化された時間領域アップミックス処理と比較して、セグメント化された時間領域アップミックス処理は、隣接するフレームに対するチャンネル組み合わせスキームが変化するとき、よりスムーズな移行を取得する可能性が高いことが理解されることができる。
上述のソリューションにおいては、現在のフレームに対するチャンネル組み合わせスキームが決定される必要があり、これは、現在のフレームに対するチャンネル組み合わせスキームについて複数の可能性があることを示していることが理解され得る。ただ1つのチャンネル組み合わせスキームしかない従来のソリューションと比較して、複数の可能なチャンネル組み合わせスキームを有するこのソリューションは、複数の可能なシナリオとより相性が良く、調和することができる。加えて、現在のフレームに対するチャンネル組み合わせスキームと以前のフレームに対するチャンネル組み合わせスキームが異なるとき、現在のフレームにおける左及び右チャンネル信号に対してセグメント化された時間領域アップミックス処理を実行するメカニズムが導入される。セグメント化された時間領域アップミックス処理メカニズムは、チャンネル組み合わせスキームのスムーズな移行を実施する助けになり、さらにエンコーディング品質を改善する助けになる。
加えて、逆位相に近い信号に対応するチャンネル組み合わせスキームが導入されるので、現在のフレームにおけるステレオ信号が逆位相に近い信号であるとき、より目標に合ったチャンネル組み合わせスキーム及び符号化モードが、存在し、これは、エンコーディング品質を改善する助けになる。
例えば、以前のフレームに対するチャンネル組み合わせスキームは、相関信号チャンネル組み合わせスキームであってもよいし、反相関信号チャンネル組み合わせスキームであってもよい。現在のフレームに対するチャンネル組み合わせスキームは、相関信号チャンネル組み合わせスキームであってもよいし、反相関信号チャンネル組み合わせスキームであってもよい。したがって、現在のフレームに対するチャンネル組み合わせスキームと以前のフレームに対するチャンネル組み合わせスキームが異なる、いくつかの可能なケースがある。
具体的には、例えば、以前のフレームに対するチャンネル組み合わせスキームは相関信号チャンネル組み合わせスキームであり、現在のフレームに対するチャンネル組み合わせスキームは反相関信号チャンネル組み合わせスキームである。現在のフレームにおける再構成された左及び右チャンネル信号は、再構成された左及び右チャンネル信号の開始セグメントと、再構成された左及び右チャンネル信号の中間セグメントと、再構成された左及び右チャンネル信号の終了セグメントとを含む。現在のフレームにおけるデコードされたプライマリ及びセカンダリチャンネル信号は、デコードされたプライマリ及びセカンダリチャンネル信号の開始セグメントと、デコードされたプライマリ及びセカンダリチャンネル信号の中間セグメントと、デコードされたプライマリ及びセカンダリチャンネル信号の終了セグメントとを含む。このケースでは、現在のフレームにおける再構成された左及び右チャンネル信号を取得するために、現在のフレームに対するチャンネル組み合わせスキーム及び以前のフレームに対するチャンネル組み合わせスキームに基づいて、現在のフレームにおけるデコードされたプライマリ及びセカンダリチャンネル信号に対してセグメント化された時間領域アップミックス処理を実行することは、以前のフレームに対する相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数及び以前のフレームに対する相関信号チャンネル組み合わせスキームに対応する時間領域アップミックス処理方式を使用することによって、現在のフレームにおける再構成された左及び右チャンネル信号の開始セグメントを取得するために、現在のフレームにおけるデコードされたプライマリ及びセカンダリチャンネル信号の開始セグメントに対して時間領域アップミックス処理を実行することと、
現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数及び現在のフレームのための反相関信号チャンネル組み合わせスキームに対応する時間領域アップミックス処理方式を使用することによって、現在のフレームにおける再構成された左及び右チャンネル信号の終了セグメントを取得するために、現在のフレームにおけるデコードされたプライマリ及びセカンダリチャンネル信号の終了セグメントに対して時間領域アップミックス処理を実行することと、
以前のフレームのための相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数及び以前のフレームのための相関信号チャンネル組み合わせスキームに対応する時間領域アップミックス処理方式を使用することによって、再構成された左及び右チャンネル信号の第1の中間セグメントを取得するために、現在のフレームにおけるデコードされたプライマリ及びセカンダリチャンネル信号の中間セグメントに対して時間領域アップミックス処理を実行することと、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数及び現在のフレームのための反相関信号チャンネル組み合わせスキームに対応する時間領域アップミックス処理方式を使用することによって、再構成された左及び右チャンネル信号の第2の中間セグメントを取得するために、現在のフレームにおけるデコードされたプライマリ及びセカンダリチャンネル信号の中間セグメントに対して時間領域アップミックス処理を実行することと、現在のフレームにおける再構成された左及び右チャンネル信号の中間セグメントを取得するために、再構成された左及び右チャンネル信号の第1の中間セグメント並びに再構成された左及び右チャンネル信号の第2の中間セグメントに対して重み付け和処理を実行することと
を含む。
現在のフレームにおける再構成された左及び右チャンネル信号の開始セグメント、再構成された左及び右チャンネル信号の中間セグメント、並びに再構成された左及び右チャンネル信号の終了セグメントの長さは、要件に基づいて設定されることがある。現在のフレームにおける再構成された左及び右チャンネル信号の開始セグメント、再構成された左及び右チャンネル信号の中間セグメント、並びに再構成された左及び右チャンネル信号の終了セグメントの長さは、同じであってもよいし、部分的に同じであってもよいし、互いとは異なってもよい。
現在のフレームにおけるデコードされたプライマリ及びセカンダリチャンネル信号の開始セグメント、デコードされたプライマリ及びセカンダリチャンネル信号の中間セグメント、並びにデコードされたプライマリ及びセカンダリチャンネル信号の終了セグメントの長さは、要件に基づいて設定されることがある。現在のフレームにおけるデコードされたプライマリ及びセカンダリチャンネル信号の開始セグメント、デコードされたプライマリ及びセカンダリチャンネル信号の中間セグメント、並びにデコードされたプライマリ及びセカンダリチャンネル信号の終了セグメントの長さは、同じであってもよいし、部分的に同じであってもよし、互いとは異なってもよい。
再構成された左及び右チャンネル信号は、デコードされた左及び右チャンネル信号であってよく、又は、遅延調整処理及び/若しくは時間領域後処理が、デコードされた左及び右チャンネル信号を取得するために、再構成された左及び右チャンネル信号に対して実行されてよい。
重み付け和処理が、再構成された左及び右チャンネル信号の第1の中間セグメント並びに再構成された左及び右チャンネル信号の第2の中間セグメントに対して実行されるとき、再構成された左及び右チャンネル信号の第1の中間セグメントに対応する重み付け率は、再構成された左及び右チャンネル信号の第2の中間セグメントに対応する重み付け率に等しくてもよいし、これに等しくなくてもよい。
例えば、重み付け和処理が、再構成された左及び右チャンネル信号の第1の中間セグメント並びに再構成された左及び右チャンネル信号の第2の中間セグメントに対して実行されるとき、再構成された左及び右チャンネル信号の第1の中間セグメントに対応する重み付け率はフェードアウト係数であり、再構成された左及び右チャンネル信号の第2の中間セグメントに対応する重み付け率はフェードイン係数である。
いくつかの可能な実装においては、
Figure 0007311573000175
であり、ここで、
Figure 0007311573000176
は、現在のフレームにおける再構成された左チャンネル信号の開始セグメントを示し、
Figure 0007311573000177
は、現在のフレームにおける再構成された右チャンネル信号の開始セグメントを示す。
Figure 0007311573000178
は、現在のフレームにおける再構成された左チャンネル信号の終了セグメントを示し、
Figure 0007311573000179
は、現在のフレームにおける再構成された右チャンネル信号の終了セグメントを示す。
Figure 0007311573000180
は、現在のフレームにおける再構成された左チャンネル信号の中間セグメントを示し、
Figure 0007311573000181
は、現在のフレームにおける再構成された右チャンネル信号の中間セグメントを示し、
Figure 0007311573000182
は、現在のフレームにおける再構成された左チャンネル信号を示し、
Figure 0007311573000183
は、現在のフレームにおける再構成された右チャンネル信号を示す。
例えば、
Figure 0007311573000184
である。
例えば、fade_in(n)はフェードイン係数を示し、fade_out(n)はフェードアウト係数を示す。例えば、fade_in(n)とfade_out(n)の合計は1である。
具体的には、例えば、
Figure 0007311573000185
及び
Figure 0007311573000186
である。もちろん、fade_in(n)は、或いは、nに基づいた別の関数関係のフェードイン係数であってよい。もちろん、fade_out(n)は、或いは、nに基づいた別の関数関係のフェードイン係数であってよい。
本明細書において、nはサンプリング点の番号を示し、n=0,1,…,N-1である。本明細書では、0<N1<N2<N-1である。
Figure 0007311573000187
は、現在のフレームにおける再構成された左チャンネル信号の第1の中間セグメントを示し、
Figure 0007311573000188
は、現在のフレームにおける再構成された右チャンネル信号の第1の中間セグメントを示す。
Figure 0007311573000189
は、現在のフレームにおける再構成された左チャンネル信号の第2の中間セグメントを示し、
Figure 0007311573000190
は、現在のフレームにおける再構成された右チャンネル信号の第2の中間セグメントを示す。
いくつかの可能な実装においては、
1≦n<N2である場合、
Figure 0007311573000191
であり、
1≦n<N2である場合、
Figure 0007311573000192
であり、
0≦n<N1である場合、
Figure 0007311573000193
であり、
2≦n<Nである場合、
Figure 0007311573000194
であり、ここで、
Figure 0007311573000195
は、現在のフレームにおけるデコードされたプライマリチャンネル信号を示し、
Figure 0007311573000196
は、現在のフレームにおけるデコードされたセカンダリチャンネル信号を示し、
Figure 0007311573000197
は、以前のフレームのための相関信号チャンネル組み合わせスキームに対応するアップミックス行列を示し、
Figure 0007311573000198
は、以前のフレームのための相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数に基づいて構築され、
Figure 0007311573000199
は、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するアップミックス行列を示し、
Figure 0007311573000200
は、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数に基づいて構築される。
Figure 0007311573000201
は、複数の可能な形式を有することがあり、これらの形式は、具体的には、例えば、
Figure 0007311573000202
又は
Figure 0007311573000203
又は
Figure 0007311573000204
又は
Figure 0007311573000205
又は
Figure 0007311573000206
又は
Figure 0007311573000207
であり、ここで、
α1=ratio_SM、α2=1-ratio_SMであり、ratio_SMは、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数を示す。
Figure 0007311573000208
は、複数の可能な形式を有することがあり、これらの形式は、具体的には、例えば、
Figure 0007311573000209
又は
Figure 0007311573000210
である。
本明細書において、tdm_last_ratioは、以前のフレームのための相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数を示す。
具体的には、別の例について、以前のフレームのためのチャンネル組み合わせスキームは反相関信号チャンネル組み合わせスキームであり、現在のフレームのためのチャンネル組み合わせスキームは相関信号チャンネル組み合わせスキームである。現在のフレームにおける再構成された左及び右チャンネル信号は、再構成された左及び右チャンネル信号の開始セグメントと、再構成された左及び右チャンネル信号の中間セグメントと、再構成された左及び右チャンネル信号の終了セグメントとを含む。現在のフレームにおけるデコードされたプライマリ及びセカンダリチャンネル信号は、デコードされたプライマリ及びセカンダリチャンネル信号の開始セグメントと、デコードされたプライマリ及びセカンダリチャンネル信号の中間セグメントと、デコードされたプライマリ及びセカンダリチャンネル信号の終了セグメントとを含む。このケースでは、現在のフレームにおける再構成された左及び右チャンネル信号を取得するために、現在のフレームのためのチャンネル組み合わせスキーム及び以前のフレームのためのチャンネル組み合わせスキームに基づいて、現在のフレームにおけるデコードされたプライマリ及びセカンダリチャンネル信号に対してセグメント化された時間領域アップミックス処理を実行することは、
以前のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数及び以前のフレームのための反相関信号チャンネル組み合わせスキームに対応する時間領域アップミックス処理方式を使用することによって、現在のフレームにおける再構成された左及び右チャンネル信号の開始セグメントを取得するために、現在のフレームにおけるデコードされたプライマリ及びセカンダリチャンネル信号の開始セグメントに対して時間領域アップミックス処理を実行することと、
現在のフレームのための相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数及び現在のフレームのための相関信号チャンネル組み合わせスキームに対応する時間領域アップミックス処理方式を使用することによって、現在のフレームにおける再構成された左及び右チャンネル信号の終了セグメントを取得するために、現在のフレームにおけるデコードされたプライマリ及びセカンダリチャンネル信号の終了セグメントに対して時間領域アップミックス処理を実行することと、
以前のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数及び以前のフレームのための反相関信号チャンネル組み合わせスキームに対応する時間領域アップミックス処理方式を使用することによって、再構成された左及び右チャンネル信号の第3の中間セグメントを取得するために、現在のフレームにおけるデコードされたプライマリ及びセカンダリチャンネル信号の中間セグメントに対して時間領域アップミックス処理を実行することと、現在のフレームのための相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数及び現在のフレームのための相関信号チャンネル組み合わせスキームに対応する時間領域アップミックス処理方式を使用することによって、再構成された左及び右チャンネル信号の第4の中間セグメントを取得するために、現在のフレームにおけるデコードされたプライマリ及びセカンダリチャンネル信号の中間セグメントに対して時間領域アップミックス処理を実行することと、現在のフレームにおける再構成された左及び右チャンネル信号の中間セグメントを取得するために、再構成された左及び右チャンネル信号の第3の中間セグメント並びに再構成された左及び右チャンネル信号の第4の中間セグメントに対して重み付け和処理を実行することと
を含む。
重み付け和処理が、再構成された左及び右チャンネル信号の第3の中間セグメント並びに再構成された左及び右チャンネル信号の第4の中間セグメントに対して実行されるとき、再構成された左及び右チャンネル信号の第3の中間セグメントに対応する重み付け率は、再構成された左及び右チャンネル信号の第4の中間セグメントに対応する重み付け率に等しくてもよいし、これに等しくなくてもよい。
例えば、重み付け和処理が、再構成された左及び右チャンネル信号の第3の中間セグメント並びに再構成された左及び右チャンネル信号の第4の中間セグメントに対して実行されるとき、再構成された左及び右チャンネル信号の第3の中間セグメントに対応する重み付け率はフェードアウト係数であり、再構成された左及び右チャンネル信号の第4の中間セグメントに対応する重み付け率はフェードイン係数である。
いくつかの可能な実装においては、
Figure 0007311573000211
であり、ここで、
Figure 0007311573000212
は、現在のフレームにおける再構成された左チャンネル信号の開始セグメントを示し、
Figure 0007311573000213
は、現在のフレームにおける再構成された右チャンネル信号の開始セグメントを示し、
Figure 0007311573000214
は、現在のフレームにおける再構成された左チャンネル信号の終了セグメントを示し、
Figure 0007311573000215
は、現在のフレームにおける再構成された右チャンネル信号の終了セグメントを示し、
Figure 0007311573000216
は、現在のフレームにおける再構成された左チャンネル信号の中間セグメントを示し、
Figure 0007311573000217
は、現在のフレームにおける再構成された右チャンネル信号の中間セグメントを示す。
Figure 0007311573000218
は、現在のフレームにおける再構成された左チャンネル信号を示し、
Figure 0007311573000219
は、現在のフレームにおける再構成された右チャンネル信号を示す。
例えば、
Figure 0007311573000220
である。
fade_in(n)はフェードイン係数を示し、fade_out(n)はフェードアウト係数を示し、fade_in(n)とfade_out(n)の合計は1である。
具体的には、例えば、
Figure 0007311573000221
及び
Figure 0007311573000222
である。もちろん、fade_in(n)は、或いは、nに基づいた別の関数関係のフェードイン係数であってよい。もちろん、fade_out(n)は、或いは、nに基づいた別の関数関係のフェードアウト係数であってよい。
本明細書において、nは、サンプリング点の番号を示す。例えば、n=0,1,…,N-1である。
本明細書において、0<N3<N4<N-1である。
例えば、N3は、101、107、120、150、又は別の値に等しい。
例えば、N4は、181、187、200、205、又は別の値に等しい。
Figure 0007311573000223
は、現在のフレームにおける再構成された左チャンネル信号の第3の中間セグメントを示し、
Figure 0007311573000224
は、現在のフレームにおける再構成された右チャンネル信号の第3の中間セグメントを示す。
Figure 0007311573000225
は、現在のフレームにおける再構成された左チャンネル信号の第4の中間セグメントを示し、
Figure 0007311573000226
は、現在のフレームにおける再構成された右チャンネル信号の第4の中間セグメントを示す。
いくつかの可能な実装においては、
3≦n<N4である場合、
Figure 0007311573000227
であり、
3≦n<N4である場合、
Figure 0007311573000228
であり、
0≦n<N3である場合、
Figure 0007311573000229
であり、
4≦n<Nである場合、
Figure 0007311573000230
であり、ここで、
Figure 0007311573000231
は、現在のフレームにおけるデコードされたプライマリチャンネル信号を示し、
Figure 0007311573000232
は、現在のフレームにおけるデコードされたセカンダリチャンネル信号を示す。
Figure 0007311573000233
は、以前のフレームのための反相関信号チャンネル組み合わせスキームに対応するアップミックス行列を示し、
Figure 0007311573000234
は、以前のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数に基づいて構築される。
Figure 0007311573000235
は、現在のフレームのための相関信号チャンネル組み合わせスキームに対応するアップミックス行列を示し、
Figure 0007311573000236
は、現在のフレームのための相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数に基づいて構築される。
Figure 0007311573000237
は、複数の可能な形式を有することがあり、これらの形式は、具体的には、例えば、
Figure 0007311573000238
又は
Figure 0007311573000239
又は
Figure 0007311573000240
又は
Figure 0007311573000241
又は
Figure 0007311573000242
又は
Figure 0007311573000243
であり、ここで、
α1_pre=tdm_last_ratio_SM、α2_pre=1-tdm_last_ratio_SMであり、
tdm_last_ratio_SMは、以前のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数を示す。
Figure 0007311573000244
は、複数の可能な形式を有することがあり、これらの形式は、具体的には、例えば、
Figure 0007311573000245
又は
Figure 0007311573000246
であり、ここで、
ratioは、現在のフレームのための相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数を示す。
本出願のこの実施形態においては、現在のフレームのステレオパラメータ(例えば、チャンネル組み合わせ比係数及び/又はチャンネル間時間差)は、固定値であってもよいし、現在のフレームのためのチャンネル組み合わせスキーム(例えば、相関信号チャンネル組み合わせスキーム又は反相関信号チャンネル組み合わせスキーム)に基づいて決定されてもよい。
図8を参照すると、以下は、例を使用して、時間領域ステレオパラメータ決定方法について説明する。時間領域ステレオパラメータ決定方法の関連ステップは、エンコーディング装置によって実施され得るし、方法は、具体的には、以下のステップを含み得る。
801.現在のフレームのためのチャンネル組み合わせスキームを決定する。
802.現在のフレームに対してチャンネル組み合わせスキームに基づいて現在のフレームの時間領域ステレオパラメータを決定し、この時間領域ステレオパラメータは、チャンネル組み合わせ比係数及びチャンネル間時間差のうちの少なくとも1つを含むことがある。
現在のフレームのためのチャンネル組み合わせスキームは、複数のチャンネル組み合わせスキームのうちの1つである。
例えば、複数のチャンネル組み合わせスキームは、反相関信号チャンネル組み合わせスキームと、相関信号チャンネル組み合わせスキームとを含む。
相関信号チャンネル組み合わせスキームは、同位相に近い信号に対応するチャンネル組み合わせスキームである。反相関信号チャンネル組み合わせスキームは、逆位相に近い信号に対応するチャンネル組み合わせスキームである。同位相に近い信号に対応するチャンネル組み合わせスキームは同位相に近い信号に適用可能であり、逆位相に近い信号に対応するチャンネル組み合わせスキームは逆位相に近い信号に適用可能であることが理解され得る。
現在のフレームのためのチャンネル組み合わせスキームが相関信号チャンネル組み合わせスキームであると決定されたとき、現在のフレームの時間領域ステレオパラメータは、現在のフレームのための相関信号チャンネル組み合わせスキームに対応する時間領域ステレオパラメータである。又は、現在のフレームのためのチャンネル組み合わせスキームが反相関信号チャンネル組み合わせスキームであると決定されたとき、現在のフレームの時間領域ステレオパラメータは、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応する時間領域ステレオパラメータである。
上述のソリューションにおいては、現在のフレームのためのチャンネル組み合わせスキームが決定される必要があり、これは、現在のフレームのためのチャンネル組み合わせスキームについて複数の可能性があることを示していることが理解され得る。ただ1つのチャンネル組み合わせスキームしかない従来のソリューションと比較して、複数の可能なチャンネル組み合わせスキームを有するこのソリューションは、複数の可能なシナリオとより相性が良く、調和することができる。現在のフレームの時間領域ステレオパラメータは、現在のフレームのためのチャンネル組み合わせスキームに基づいて決定されるので、時間領域ステレオパラメータは、複数の可能なシナリオとより相性が良く、調和することができ、エンコーディング品質及びデコーディング品質がさらに改善可能である。
いくつかの可能な実装においては、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数及び現在のフレームのための相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数は、最初に別々に計算されてよい。その後、現在のフレームのためのチャンネル組み合わせスキームが相関信号チャンネル組み合わせスキームであると決定されたとき、現在のフレームの時間領域ステレオパラメータは、現在のフレームのための相関信号チャンネル組み合わせスキームに対応する時間領域ステレオパラメータであると決定され、又は、現在のフレームのためのチャンネル組み合わせスキームが反相関信号チャンネル組み合わせスキームであると決定されたとき、現在のフレームの時間領域ステレオパラメータは、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応する時間領域ステレオパラメータであると決定される。或いは、現在のフレームのための相関信号チャンネル組み合わせスキームに対応する時間領域ステレオパラメータが最初に計算されてよく、現在のフレームのためのチャンネル組み合わせスキームが相関信号チャンネル組み合わせスキームであると決定されたとき、現在のフレームの時間領域ステレオパラメータは、現在のフレームのための相関信号チャンネル組み合わせスキームに対応する時間領域ステレオパラメータであると決定されるか、又は、現在のフレームのためのチャンネル組み合わせスキームが反相関信号チャンネル組み合わせスキームであると決定されたとき、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応する時間領域ステレオパラメータが計算され、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応する時間領域ステレオパラメータは、現在のフレームの時間領域ステレオパラメータと決定される。
或いは、現在のフレームのためのチャンネル組み合わせスキームが最初に決定されてよい。現在のフレームのためのチャンネル組み合わせスキームが相関信号チャンネル組み合わせスキームであると決定されたとき、現在のフレームのための相関信号チャンネル組み合わせスキームに対応する時間領域ステレオパラメータが計算され、現在のフレームの時間領域ステレオパラメータは、現在のフレームのための相関信号チャンネル組み合わせスキームに対応する時間領域ステレオパラメータである。又は、現在のフレームのためのチャンネル組み合わせスキームが反相関信号チャンネル組み合わせスキームであると決定されたとき、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応する時間領域ステレオパラメータが計算され、現在のフレームの時間領域ステレオパラメータは、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応する時間領域ステレオパラメータである。
いくつかの可能な実装においては、現在のフレームのためのチャンネル組み合わせスキームに基づいて現在のフレームの時間領域ステレオパラメータを決定することは、現在のフレームのためのチャンネル組み合わせスキームに基づいて、現在のフレームのためのチャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数の初期値を決定することを含む。現在のフレームのためのチャンネル組み合わせスキーム(相関信号チャンネル組み合わせスキーム又は反相関信号チャンネル組み合わせスキーム)に対応するチャンネル組み合わせ比係数の初期値が修正される必要がないとき、現在のフレームのためのチャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数は、現在のフレームのためのチャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数の初期値に等しい。現在のフレームのためのチャンネル組み合わせスキーム(相関信号チャンネル組み合わせスキーム又は反相関信号チャンネル組み合わせスキーム)に対応するチャンネル組み合わせ比係数の初期値が修正される必要があるとき、現在のフレームのためのチャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数の初期値は、現在のフレームのためのチャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数の修正値を取得するように修正され、現在のフレームのためのチャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数は、現在のフレームのためのチャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数の修正値に等しい。
例えば、現在のフレームのためのチャンネル組み合わせスキームに基づいて現在のフレームの時間領域ステレオパラメータを決定することは、現在のフレームにおける左チャンネル信号に基づいて現在のフレームにおける左チャンネル信号のフレームエネルギーを計算することと、現在のフレームにおける右チャンネル信号に基づいて現在のフレームにおける右チャンネル信号のフレームエネルギーを計算することと、現在のフレームにおける左チャンネル信号のフレームエネルギー及び現在のフレームにおける右チャンネル信号のフレームエネルギーに基づいて、現在のフレームのための相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数の初期値を計算することとを含むことがある。
現在のフレームのための相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数の初期値が修正される必要がないとき、現在のフレームのための相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数は、現在のフレームのための相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数の初期値に等しく、現在のフレームのための相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数のエンコードされたインデックスは、現在のフレームのための相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数の初期値のエンコードされたインデックスに等しい。
現在のフレームのための相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数の初期値が修正される必要があるとき、現在のフレームのための相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数の初期値及び初期値のエンコードされたインデックスは、現在のフレームのための相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数の修正値及び修正値のエンコードされたインデックスを取得するように修正される。現在のフレームのための相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数は、現在のフレームのための相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数の修正値に等しく、現在のフレームのための相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数のエンコードされたインデックスは、現在のフレームのための相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数の修正値のエンコードされたインデックスに等しい。
具体的には、例えば、現在のフレームのための相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数の初期値及び初期値のエンコードされたインデックスが修正され、
ratio_idx_mod=0.5*(tdm_last_ratio_idx+16)及び、
ratio_modqua=ratio_tabl[ratio_idx_mod]であり、ここで、
tdm_last_ratio_idxは、以前のフレームのための相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数のエンコードされたインデックスを示し、ratio_idx_modは、現在のフレームのための相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数の修正値に対応するエンコードされたインデックスを示し、ratio_modquaは、現在のフレームのための相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数の修正値を示す。
別の例について、現在のフレームのためのチャンネル組み合わせスキームに基づいて現在のフレームの時間領域ステレオパラメータを決定することは、現在のフレームにおける左及び右チャンネル信号に基づいて現在のフレームにおける参照チャンネル信号を取得することと、現在のフレームにおける左チャンネル信号と参照チャンネル信号との間の振幅相関パラメータを計算することと、現在のフレームにおける右チャンネル信号と参照チャンネル信号との間の振幅相関パラメータを計算することと、現在のフレームにおける左チャンネル信号と参照チャンネル信号との間の振幅相関パラメータ及び現在のフレームにおける右チャンネル信号と参照チャンネル信号との間の振幅相関パラメータに基づいて、現在のフレームにおける左チャンネル信号と右チャンネル信号との間の振幅相関差パラメータを計算することと、現在のフレームにおける左チャンネル信号と右チャンネル信号との間の振幅相関差パラメータに基づいて、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数を計算することとを含む。
現在のフレームにおける左チャンネル信号と右チャンネル信号との間の振幅相関差パラメータに基づいて、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数を計算することは、例えば、現在のフレームにおける左チャンネル信号と右チャンネル信号との間の振幅相関差パラメータに基づいて、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数の初期値を計算することと、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数を取得するために、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数の初期値を修正することとを含むことがある。現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数の初期値が修正される必要がないとき、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数は、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数の初期値に等しいときことが理解され得る。
いくつかの可能な実装においては、
Figure 0007311573000247
及び
Figure 0007311573000248
であり、ここで、
Figure 0007311573000249
であり、
mono_i(n)は現在のフレームにおける参照チャンネル信号を示し、
x’L(n)は、現在のフレームにおける、遅延アラインメント処理を施された左チャンネル信号を示し、x’R(n)は、現在のフレームにおける、遅延アラインメント処理を施された右チャンネル信号を示し、corr_LMは、現在のフレームにおける左チャンネル信号と参照チャンネル信号との間の振幅相関パラメータを示し、corr_RMは、現在のフレームにおける右チャンネル信号と参照チャンネル信号との間の振幅相関パラメータを示す。
いくつかの可能な実装においては、現在のフレームにおける左チャンネル信号と参照チャンネル信号との間の振幅相関パラメータ及び現在のフレームにおける右チャンネル信号と参照チャンネル信号との間の振幅相関パラメータに基づいて、現在のフレームにおける左チャンネル信号と右チャンネル信号との間の振幅相関差パラメータを計算することは、現在のフレームにおける遅延アラインメント処理を施された左チャンネル信号と参照チャンネル信号との間の振幅相関パラメータに基づいて、現在のフレームにおける左チャンネル信号と参照チャンネル信号との間の長期平滑化された振幅相関パラメータを計算することと、現在のフレームにおける遅延アラインメント処理を施された右チャンネル信号と参照チャンネル信号との間の振幅相関パラメータに基づいて、現在のフレームにおける右チャンネル信号と参照チャンネル信号との間の長期平滑化された振幅相関パラメータを計算することと、現在のフレームにおける左チャンネル信号と参照チャンネル信号との間の長期平滑化された振幅相関パラメータ及び現在のフレームにおける右チャンネル信号と参照チャンネル信号との間の長期平滑化された振幅相関パラメータに基づいて、現在のフレームにおける左チャンネルと右チャンネルとの間の振幅相関差パラメータを計算することとを含む。
さまざまな平滑化方式、例えば、
tdm_lt_corr_LM_SMcur=α*tdm_lt_corr_LM_SMpre+(1-α)corr_LMがあってよく、ここで、
tdm_lt_rms_L_SMcur=(1-A)*tdm_lt_rms_L_SMpre+A*rms_Lであり、Aは、現在のフレームにおける左チャンネル信号の長期平滑化されたフレームエネルギーの更新係数を示し、tdm_lt_rms_L_SMcurは、現在のフレームにおける左チャンネル信号の長期平滑化されたフレームエネルギーを示し、rms_Lは、現在のフレームにおける左チャンネル信号のフレームエネルギーを示し、tdm_lt_corr_LM_SMcurは、現在のフレームにおける左チャンネル信号と参照チャンネル信号との間の長期平滑化された振幅相関パラメータを示し、tdm_lt_corr_LM_SMpreは、以前のフレームにおける左チャンネル信号と参照チャンネル信号との間の長期平滑化された振幅相関パラメータを示し、αは左チャンネル平滑化係数を示す。
例えば、
tdm_lt_corr_RM_SMcur=β*tdm_lt_corr_RM_SMpre+(1-β)corr_LMであり、ここで、
tdm_lt_rms_R_SMcur=(1-B)*tdm_lt_rms_R_SMpre+B*rms_Rであり、Bは、現在のフレームにおける右チャンネル信号の長期平滑化されたフレームエネルギーの更新係数を示し、tdm_lt_rms_R_SMpreは、現在のフレームにおける右チャンネル信号の長期平滑化されたフレームエネルギーを示し、rms_Rは、現在のフレームにおける右チャンネル信号のフレームエネルギーを示し、tdm_lt_corr_RM_SMcurは、現在のフレームにおける右チャンネル信号と参照チャンネル信号との間の長期平滑化された振幅相関パラメータを示し、tdm_lt_corr_RM_SMpreは、以前のフレームにおける右チャンネル信号と参照チャンネル信号との間の長期平滑化された振幅相関パラメータを示し、βは右チャンネル平滑化係数を示す。
いくつかの可能な実装においては、
diff_lt_corr=tdm_lt_corr_LM_SM-tdm_lt_corr_RM_SMであり、ここで、
tdm_lt_corr_LM_SMは、現在のフレームにおける左チャンネル信号と参照チャンネル信号との間の長期平滑化された振幅相関パラメータを示し、tdm_lt_corr_RM_SMは、現在のフレームにおける右チャンネル信号と参照チャンネル信号との間の長期平滑化された振幅相関パラメータを示し、diff_lt_corrは、現在のフレームにおける左チャンネル信号と右チャンネル信号との間の振幅相関差パラメータを示す。
いくつかの可能な実装においては、現在のフレームにおける左チャンネル信号と右チャンネル信号との間の振幅相関差パラメータに基づいて、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数を計算することは、現在のフレームにおける左チャンネル信号と右チャンネル信号の間にあってマッピング処理を施された振幅相関差パラメータの値範囲が、[MAP_MIN,MAP_MAX]であることを可能にするために、現在のフレームにおける左チャンネル信号と右チャンネル信号との間の振幅相関差パラメータに対してマッピング処理を実行することと、左チャンネル信号と右チャンネル信号との間にあってマッピング処理を施された振幅相関差パラメータを、チャンネル組み合わせ比係数へと変換することとを含む。
いくつかの可能な実装においては、現在のフレームにおける左チャンネルと右チャンネルとの間にある振幅相関差パラメータに対してマッピング処理を実行することは、現在のフレームにおける左チャンネル信号と右チャンネル信号との間の振幅相関差パラメータに対して振幅制限を実行することと、現在のフレームにおける左チャンネル信号と右チャンネル信号との間の振幅制限振幅相関差パラメータに対してマッピング処理を実行することとを含む。
さまざまな振幅制限方式があってよく、それらは、具体的には、例えば、
Figure 0007311573000250
であり、ここで、
RATIO_MAXは、現在のフレームにおける左チャンネル信号と右チャンネル信号との間の振幅制限振幅相関差パラメータの最大値を示し、RATIO_MINは、現在のフレームにおける左チャンネル信号と右チャンネル信号との間の振幅制限振幅相関差パラメータの最小値を示し、RATIO_MAX>RATIO_MINである。
さまざまなマッピング処理方式があってよく、それらは、具体的には、例えば、
Figure 0007311573000251
であり、ここで、
Figure 0007311573000252
であり、
1=MAP_MAX-RATIO_MAX*A1又はB1=MAP_HIGH-RATIO_HIGH*A1であり、
Figure 0007311573000253
であり、
2=MAP_LOW-RATIO_LOW*A2又はB2=MAP_MIN-RATIO_MIN*A2であり、
Figure 0007311573000254
であり、
3=MAP_HIGH-RATIO_HIGH*A3又はB3=MAP_LOW-RATIO_LOW*A3であり、
diff_lt_corr_mapは、現在のフレームにおける左チャンネル信号と右チャンネル信号との間にあってマッピング処理を施された振幅相関差パラメータを示し、
MAP_MAXは、現在のフレームにおける左チャンネル信号と右チャンネル信号との間にあってマッピング処理を施された振幅相関差パラメータの最大値を示し、MAP_HIGHは、現在のフレームにおける左チャンネル信号と右チャンネル信号との間にあってマッピング処理を施された振幅相関差パラメータの高閾値を示し、MAP_LOWは、現在のフレームにおける左チャンネル信号と右チャンネル信号との間にあってマッピング処理を施された振幅相関差パラメータの低閾値を示し、MAP_MINは、現在のフレームにおける左チャンネル信号と右チャンネル信号との間にあってマッピング処理を施された振幅相関差パラメータの最小値を示し、
MAP_MAX>MAP_HIGH>MAP_LOW>MAP_MINであり、
RATIO_MAXは、現在のフレームにおける左チャンネル信号と右チャンネル信号との間にある振幅制限振幅相関差パラメータの最大値を示し、RATIO_HIGHは、現在のフレームにおける左チャンネル信号と右チャンネル信号との間振幅制限振幅相関差パラメータの高閾値を示し、RATIO_LOWは、現在のフレームにおける左チャンネル信号と右チャンネル信号との間振幅制限振幅相関差パラメータの低閾値を示し、RATIO_MINは、現在のフレームにおける左チャンネル信号と右チャンネル信号との間振幅制限振幅相関差パラメータの最小値を示し、
RATIO_MAX>RATIO_HIGH>RATIO_LOW>RATIO_MINである。
別の例について、
Figure 0007311573000255
であり、ここで、
diff_lt_corr_limitは、現在のフレームにおける左チャンネル信号と右チャンネル信号との間の振幅制限振幅相関差パラメータを示し、diff_lt_corr_mapは、現在のフレーム左チャンネル信号と右チャンネル信号との間にあってマッピング処理を施された振幅相関差パラメータを示し、
Figure 0007311573000256
であり、
RATIO_MAXは、現在のフレームにおける左チャンネル信号と右チャンネル信号との間の振幅相関差パラメータの最大振幅を示し、-RATIO_MAXは、現在のフレームにおける左チャンネル信号と右チャンネル信号との間の振幅相関差パラメータの最小振幅を示す。
いくつかの可能な実装においては、
Figure 0007311573000257
であり、ここで、
diff_lt_corr_mapは、現在のフレームにおける左チャンネル信号と右チャンネル信号との間にあってマッピング処理を施された振幅相関差パラメータを示し、ratio_SMは、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数を示すか、又は、ratio_SMは、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数の初期値を示す。
本出願のいくつかの実装においては、チャンネル組み合わせ比係数が修正される必要があるシナリオにおいて、修正は、チャンネル組み合わせ比係数がエンコードされる前に実行されてもよいし、その後に実行されてもよい。具体的には、例えば、現在のフレームのチャンネル組み合わせ比係数(例えば、反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数又は相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数)の初期値が、計算を通して最初に取得されてよく、その後、チャンネル組み合わせ比係数の初期値が、現在のフレームのチャンネル組み合わせ比係数の初期エンコードされたインデックスを取得するためにエンコードされ、取得された現在のフレームのチャンネル組み合わせ比係数の初期エンコードされたインデックスが、現在のフレームのチャンネル組み合わせ比係数のエンコードされたインデックスを取得するように修正される(現在のフレームのチャンネル組み合わせ比係数のエンコードされたインデックスを取得することは、現在のフレームのチャンネル組み合わせ比係数を取得することに等しい)。或いは、現在のフレームのチャンネル組み合わせ比係数の初期値が、計算を通して最初に取得されてよく、その後、計算を通して取得された現在のフレームのチャンネル組み合わせ比係数の初期値が、現在のフレームのチャンネル組み合わせ比係数を取得するように修正され、取得された現在のフレームのチャンネル組み合わせ比係数が、現在のフレームのチャンネル組み合わせ比係数のエンコードされたインデックスを取得するようにエンコードされる。
現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数の初期値を修正するさまざまな方式がある。例えば、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数の初期値が、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数を取得するように修正される必要があるとき、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数の初期値は、以前のフレームのチャンネル組み合わせ比係数及び現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数の初期値に基づいて修正されることがある。又は現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数の初期値は、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数の初期値に基づいて修正されることがある。
例えば、最初に、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数の初期値が修正される必要があるかどうかが、現在のフレームにおける左チャンネル信号の長期平滑化されたフレームエネルギー、現在のフレームにおける右チャンネル信号の長期平滑化されたフレームエネルギー、現在のフレームにおける左チャンネル信号のフレーム間エネルギー差、履歴バッファにおける以前のフレームのバッファされたエンコーディングパラメータ(例えば、プライマリチャンネル信号のフレーム間相関及びセカンダリチャンネル信号のフレーム間相関)、現在のフレーム及び以前のフレームのチャンネル組み合わせスキームフラグ、以前のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数、並びに現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数の初期値に基づいて、決定される。修正される必要がある場合、以前のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数が、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数として使用される。そうでない場合、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数の初期値が、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数として使用される。
もちろん、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数を取得するように現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数の初期値を修正する具体的な実装は、上述の例に限定されない。
803.現在のフレームの決定された時間領域ステレオパラメータをエンコードする。
いくつかの可能な実装においては、量子化エンコーディングが、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応する決定されたチャンネル組み合わせ比係数に対して実行され、
ratio_init_SMqua=ratio_tabl[ratio_idx_init_SM]であり、ここで、
ratio_tabl_SMは、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数のためのスカラー量子化を実行するためのコードブックを示し、ratio_idx_init_SMは、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数の初期エンコードされたインデックスを示し、ratio_init_SMquaは、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数の量子化エンコードされた初期値を示す。
いくつかの可能な実装においては、
ratio_idx_SM=ratio_idx_init_SM、及び
ratio_SM=ratio_tabl[ratio_idx_SM]であり、ここで、
ratio_SMは、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数を示し、ratio_idx_SMは、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数のエンコードされたインデックスを示す、又は
ratio_idx_SM=φ*ratio_idx_init_SM+(1-φ)*tdm_last_ratio_idx_SM、及び
ratio_SM=ratio_tabl[ratio_idx_SM]であり、ここで、
ratio_idx_init_SMは、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応する初期エンコードされたインデックスを示し、tdm_last_ratio_idx_SMは、以前のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数の最終的なエンコードされたインデックスを示し、
Figure 0007311573000258
は、反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数の修正係数であり、ratio_SMは、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数を示す。
いくつかの可能な実装においては、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数の初期値が、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数を取得するように修正される必要があるとき、量子化エンコーディングは、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数の初期エンコードされたインデックスを取得するために、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数の初期値に対して最初に実行されることがある。次いで、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数の初期エンコードされたインデックスが、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応する以前のフレームのチャンネル組み合わせ比係数のエンコードされたインデックス及びチャンネル組み合わせ比係数の初期エンコードされたインデックスに基づいて修正されることがある。又は、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数の初期エンコードされたインデックスが、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数の初期エンコードされたインデックスに基づいて修正されることがある。
例えば、量子化エンコーディングが、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応する初期エンコードされたインデックスを取得するために、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数の初期値に対して最初に実行されることがある。その後、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数の初期値が修正される必要があるとき、以前のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数のエンコードされたインデックスは、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数のエンコードされたインデックスとして使用される。そうでない場合は、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数の初期エンコードされたインデックスは、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数のエンコードされたインデックスとして使用される。最後に、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数のエンコードされたインデックスに対応する量子化エンコードされた値が、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数として使用される。
加えて、時間領域ステレオパラメータがチャンネル間時間差を含むとき、現在のフレームのためのチャンネル組み合わせスキームに基づいて現在のフレームの時間領域ステレオパラメータを決定することは、現在のフレームのためのチャンネル組み合わせスキームが相関信号チャンネル組み合わせスキームであるとき、現在のフレームのチャンネル間時間差を計算することを含むことがある。加えて、計算を通して取得される現在のフレームのチャンネル間時間差は、ビットストリームへと書き込まれることがある。デフォルトチャンネル間時間差(例えば、0)は、現在のフレームのためのチャンネル組み合わせスキームが反相関信号チャンネル組み合わせスキームであるとき、現在のフレームのチャンネル間時間差として使用される。加えて、デフォルトチャンネル間時間差がビットストリームへと書き込まれないことがあり、デコーディング装置も、デフォルトチャンネル間時間差を使用する。
以下は、例を使用することによって、時間領域ステレオパラメータエンコーディング方法をさらに提供する。この方法は、例えば、現在のフレームのためのチャンネル組み合わせスキームを決定することと、現在のフレームのためのチャンネル組み合わせスキームに基づいて現在のフレームの時間領域ステレオパラメータを決定することと、現在のフレームの決定された時間領域ステレオパラメータをエンコードすることであって、時間領域ステレオパラメータは、チャンネル組み合わせ比係数及びチャンネル間時間差のうちの少なくとも1つを含むことがある、エンコードすることとを含むことがある。
これに対応して、デコーディング装置は、ビットストリームから現在のフレームの時間領域ステレオパラメータを取得し、ビットストリームから取得された現在のフレームの時間領域ステレオパラメータに基づいて関連デコーディングをさらに実行することがある。
以下は、より具体的な適用シナリオに関する例を使用することによって、説明を提供する。
図9-Aは、本出願の実施形態に従った、オーディオエンコーディング方法の概略フローチャートである。本出願の本実施形態において提供されるオーディオエンコーディング方法は、エンコーディング装置によって実施されてよく、この方法は、具体的には、以下のステップを含むことがある。
901.現在のフレームにおける元の左及び右チャンネル信号に対して時間領域前処理を実行する。
例えば、ステレオオーディオ信号のサンプリングレートが16KHzである場合、信号の1つのフレームは20msであり、フレーム長はNと表記され、N=320であるとき、それは、フレーム長が320のサンプリング点であることを示す。現在のフレームにおけるステレオ信号は、現在のフレームにおける左チャンネル信号と、現在のフレームにおける右チャンネル信号とを含むことがある。現在のフレームにおける元の左チャンネル信号はxL(n)と表記され、現在のフレームにおける元の右チャンネル信号はxR(n)と表記され、nはサンプリング点の番号であり、n=0,1,…,N-1である。
例えば、現在のフレームにおける元の左及び右チャンネル信号に対して時間領域前処理を実行することは、現在のフレームにおける時間領域前処理を施された左及び右チャンネル信号を取得するために、現在のフレームにおける元の左及び右チャンネル信号のためのハイパスフィルタリング処理を実行することであって、現在のフレームにおける時間領域前処理を施された左チャンネル信号はxL_HP(n)と表記され、現在のフレームにおける時間領域前処理を施された右チャンネル信号はxR_HP(n)と表記される、実行することを含むことがある。本明細書において、nはサンプリング点の番号であり、n=0,1,…,N-1である。ハイパスフィルタリング処理において使用されるフィルタは、例えば、カットオフ周波数が20Hzである無限インパルス応答(Infinite Impulse ResponseIIR)フィルタであってもよいし、別のタイプのフィルタであってもよい。
例えば、サンプリングレートが16KHzであり、20Hzのカットオフ周波数に対応するハイパスフィルタの伝達関数は、
Figure 0007311573000259
であってよく、ここで、
0=0.994461788958195、b1=-1.988923577916390、b2=0.994461788958195、a1=1.988892905899653、a2=-0.988954249933127、zはZトランスフォームのトランスフォーム係数である。
対応する時間領域フィルタの伝達関数は、
L_HP(n)=b0*xL(n)+b1*xL(n-1)+b2*xL(n-2)-a1*xL_HP(n-1)-a2*xL_HP(n-2)、及び
R_HP(n)=b0*xR(n)+b1*xR(n-1)+b2*xR(n-2)-a1*xR_HP(n-1)-a2*xR_HP(n-2)
と表されることがある。
902.現在のフレームにおける遅延アラインメント処理を施された左及び右チャンネル信号を取得するために、現在のフレームにおける時間領域前処理を施された左及び右チャンネル信号に対して遅延アラインメント処理を実行する。
遅延アラインメント処理を施された信号は、簡潔に、「遅延アラインメントされた信号」と呼ばれることがある。例えば、遅延アラインメント処理を施された左チャンネル信号は、簡潔に、「遅延アラインメントされた左チャンネル信号」と呼ばれることがあり、遅延アラインメント処理を施された右チャンネル信号は、簡潔に、「遅延アラインメントチャンネル信号」と呼ばれることがあり、以下同様である。
具体的には、チャンネル間遅延パラメータは、現在のフレームにおける前処理された左及び右チャンネル信号に基づいて抽出され、その後エンコードされることがあり、遅延アラインメント処理は、現在のフレームにおける遅延アラインメント処理を施された左及び右チャンネル信号を取得するために、エンコードされたチャンネル間遅延パラメータに基づいて左及び右チャンネル信号に対して実行される。現在のフレームにおける遅延アラインメント処理を施された左チャンネル信号はx’L(n)と表記され、現在のフレームにおける遅延アラインメント処理を施された右チャンネル信号はx’R(n)と表記され、ここでnはサンプリング点の番号であり、n=0,1,…,N-1である。
具体的には、例えば、エンコーディング装置は、現在のフレームにおける前処理された左及び右チャンネル信号に基づいて左チャンネル及び右チャンネルの時間領域相互相関関数を計算し、左チャンネル信号と右チャンネル信号との間の時間差を決定するために、左チャンネル及び右チャンネルの時間領域相互相関関数の最大値(又は別の値)を検索し、左チャンネルと右チャンネルとの間の決定された時間差に対して量子化エンコーディングを実行し、左チャンネル及び右チャンネルから選択された1つのチャンネルの信号を基準として使用し、現在のフレームにおける、遅延アラインメント処理を施された左及び右チャンネル信号を取得するために、左チャンネルと右チャンネルとの間の量子化エンコードされた時間差に基づいて他のチャンネルの信号のための遅延調整を実行することがある。
遅延アラインメント処理の多くの特定の実装方法があり、本実施形態においては、特定の遅延アラインメント処理方法が限定されないことが留意されるべきである。
903.現在のフレームにおける、遅延アラインメント処理を施された左及び右チャンネル信号のために時間領域分析を実行する。
具体的には、時間領域分析は、過渡検出などを含むことがある。過渡検出は、現在のフレームにおける遅延アラインメント処理を施された左及び右チャンネル信号上で実行されたエネルギー検出であることがある(具体的には、現在のフレームが突然のエネルギー変化を有するかどうかが検出され得る)。例えば、現在のフレームにおける遅延アラインメント処理を施された左チャンネル信号のエネルギーはEcur_Lと表され、以前のフレームにおける遅延アラインメントを施された左チャンネル信号のエネルギーはEpre_Lと表される。このケースでは、過渡検出は、現在のフレームにおける遅延アラインメント処理を施された左チャンネル信号の過渡検出結果を取得するために、Epre_LとEcur_Lとの間の差の絶対値に基づいて実行されることがある。同様に、過渡検出は、同じ方法を使用することによって、現在のフレームにおける遅延アラインメント処理を施されたチャンネル信号に対して実行されることがある。時間領域分析は、過渡検出以外の別の従来の方式の時間領域分析をさらに含むことがあり、例えば、周波数帯域拡張前処理を含むことがある。
ステップ903は、ステップ902の後で、現在のフレームにおけるプライマリ及びセカンダリチャンネル信号がエンコードされる前の、任意の時点で実行されてよいことが理解され得る。
904.現在のフレームのためのチャンネル組み合わせスキームを決定するために、現在のフレームにおける遅延アラインメント処理を施された左及び右チャンネル信号に基づいて現在のフレームのためのチャンネル組み合わせスキーム判定を実行する。
2つの可能なチャンネル組み合わせスキームは、本実施形態においては例として説明され、以下の説明では、それぞれ相関信号チャンネル組み合わせスキーム及び反相関信号チャンネル組み合わせスキームと呼ばれる。本実施形態においては、相関信号チャンネル組み合わせスキームは、現在のフレームにおける左及び右チャンネル信号(遅延アラインメント後に取得される)が同位相に近い信号であるケースに対応し、反相関信号チャンネル組み合わせスキームは、現在のフレームにおける左及び右チャンネル信号(遅延アラインメント後に取得される)が逆位相に近い信号であるケースに対応する。もちろん、「相関信号チャンネル組み合わせスキーム」及び「反相関信号チャンネル組み合わせスキーム」に加えて、他の名前も、実際の適用において2つの可能なチャンネル組み合わせスキームを表すために使用されてよい。
本実施形態のいくつかのソリューションでは、チャンネル組み合わせスキーム判定は、初期チャンネル組み合わせスキーム判定及びチャンネル組み合わせスキーム変更判定に分類されることがある。チャンネル組み合わせスキーム判定が、現在のフレームのためのチャンネル組み合わせスキームを決定するために現在のフレームに対して実行されることが理解されることができる。現在のフレームのためのチャンネル組み合わせスキームを決定する実装のいくつかの例については、上述の実施形態における関連説明を参照されたい。詳細は、本明細書では再度説明されない。
905.現在のフレームのための相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数の初期値及び初期値のエンコードされたインデックスを取得するために、現在のフレームにおける遅延アラインメント処理を施された左及び右チャンネル信号及び現在のフレームのチャンネル組み合わせスキームフラグに基づいて、現在のフレームのための相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数を計算及びエンコードする。
具体的には、例えば、現在のフレームにおける左及び右チャンネル信号のフレームエネルギーが、現在のフレームにおける遅延アラインメント処理を施された左及び右チャンネル信号に基づいて最初に計算され、ここで、
現在のフレームにおける左チャンネル信号のフレームエネルギーrms_Lは
Figure 0007311573000260
を満たし、
現在のフレームにおける右チャンネル信号のフレームエネルギーrms_Rは
Figure 0007311573000261
を満たし、ここで、
x’L(n)は、現在のフレームにおける遅延アラインメント処理を施された左チャンネル信号を示し、
x’R(n)は、現在のフレームにおける遅延アラインメント処理を施された右チャンネル信号を示す。
その後、現在のフレームのための相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数が、現在のフレームにおける左チャンネルのフレームエネルギー及び右チャンネルのフレームエネルギーに基づいて計算される。計算を通して取得される、現在のフレームのための相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数ratio_initは、
Figure 0007311573000262
を満たす。
その後、量子化エンコーディングが、対応するエンコードされたインデックスratio_idx_init及び量子化現在のフレームのための相関信号チャンネル組み合わせスキームに対応する量子化エンコードされたチャンネル組み合わせ比係数ratio_initquaを取得するために、計算を通して取得される、現在のフレームのための相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数ratio_initに対して実行される。
ratio_initqua=ratio_tabl[ratio_idx_init]
本明細書において、ratio_tablは、スカラー量子化のためのコードブックである。量子化エンコーディングは、任意の従来のスカラー量子化方法、例えば、均一なスカラー量子化又は不均一なスカラー量子化を使用することによって、実行されてよい。エンコーディングに使用されるビットの量は、例えば、5ビットである。具体的なスカラー量子化方法は、本明細書では再度説明されない。
現在のフレームのための相関信号チャンネル組み合わせスキームに対応する量子化エンコードされたチャンネル組み合わせ比係数ratio_initquaは、現在のフレームのための相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数の取得された初期値であり、エンコードされたインデックスratio_idx_initは、現在のフレームのための相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数の初期値に対応するエンコードされたインデックスである。
加えて、現在のフレームのための相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数の初期値に対応するエンコードされたインデックスは、現在のフレームのチャンネル組み合わせスキームフラグtdm_SM_flagの値に基づいて、さらに修正されてよい。
例えば、量子化エンコーディングは、5ビットスカラー量子化である。tdm_SM_flag=1であるとき、現在のフレームのための相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数の初期値に対応するエンコードされたインデックスratio_idx_initは、あらかじめ設定された値(例えば、15又は別の値)に修正され、現在のフレームのための相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数の初期値は、ratio_initqua=ratio_tabl[15]に修正されることがある。
上述の計算方法に加えて、従来の時間領域ステレオエンコーディング技術におけるチャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数を計算するための任意の方法は、現在のフレームのための相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数を計算するために使用されてよいことが留意されるべきである。或いは、現在のフレームのための相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数の初期値は、固定値(例えば、0.5又は別の値)に直接的に設定されてよい。
906.チャンネル組み合わせ比係数修正フラグに基づいて、チャンネル組み合わせ比係数が修正される必要があるかどうかを決定する。
修正される必要がある場合、現在のフレームのための相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数及びチャンネル組み合わせ比係数のエンコードされたインデックスは、現在のフレームのための相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数の修正値と、この修正値のエンコードされたインデックスを取得するように修正される。
現在のフレームのチャンネル組み合わせ比係数修正フラグは、tdm_SM_modi_flagと表記される。例えば、チャンネル組み合わせ比係数修正フラグの値が0であるとき、それは、チャンネル組み合わせ比係数は修正される必要がないことを示す。又は、チャンネル組み合わせ比係数修正フラグの値が1であるとき、それは、チャンネル組み合わせ比係数が修正される必要があることを示す。もちろん、他の異なる値が、チャンネル組み合わせ比係数が修正される必要があるかどうかを示すために、チャンネル組み合わせ比係数修正フラグとして使用されてよい。
例えば、チャンネル組み合わせ比係数が修正される必要があるかどうかを、チャンネル組み合わせ比係数修正フラグに基づいて、決定することは、具体的には、例えば、チャンネル組み合わせ比係数修正フラグtdm_SM_modi_flag=1である場合、チャンネル組み合わせ比係数が修正される必要があると決定される、を含むことがある。別の例について、チャンネル組み合わせ比係数修正フラグtdm_SM_modi_flag=0である場合、チャンネル組み合わせ比係数は修正される必要がないと決定される。
現在のフレームのための相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数及びチャンネル組み合わせ比係数のエンコードされたインデックスを修正することは、具体的には、
例えば、現在のフレームのための相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数の修正値に対応するエンコードされたインデックスは、ratio_idx_mod=0.5*(tdm_last_ratio_idx+16)を満たし、ここで、tdm_last_ratio_idxは、以前のフレームのための相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数のエンコードされたインデックスであるということ、
を含むことがある。
現在のフレームのための相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数の修正値ratio_modquaは、ratio_modqua=ratio_tabl[ratio_idx_mod]を満たす。
907.現在のフレームのための相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数の初期値及び初期値のエンコードされたインデックス、現在のフレームのための相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数の修正値及び修正値のエンコードされたインデックス、並びにチャンネル組み合わせ比係数修正フラグに基づいて、現在のフレームのための相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数ratio及びエンコードされたインデックスratio_idxを決定する。
具体的には、例えば、相関信号チャンネル組み合わせスキームに対応する決定されたチャンネル組み合わせ比係数ratioは、
Figure 0007311573000263
を満たし、ここで、
ratio_initquaは、現在のフレームのための相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数の初期値を示し、ratio_modquaは、現在のフレームのための相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数の修正値を示し、tdm_SM_modi_flagは、現在のフレームのチャンネル組み合わせ比係数修正フラグを示す。
相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数に対応する決定されたエンコードされたインデックスratio_idxは、
Figure 0007311573000264
を満たし、ここで、
ratio_idx_initは、現在のフレームのための相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数の初期値に対応するエンコードされたインデックスを示し、ratio_idx_modは、現在のフレームのための相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数の修正値に対応するエンコードされたインデックスを示す。
908.現在のフレームのチャンネル組み合わせスキームフラグが反相関信号チャンネル組み合わせスキームに対応するかどうかを決定し、対応する場合、反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数及びエンコードされたインデックスを取得するために、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数を計算及びエンコードする。
最初に、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数を計算するために使用される履歴バッファがリセットされる必要があるかどうかが決定されることがある。
例えば、現在のフレームのチャンネル組み合わせスキームフラグtdm_SM_flagが1に等しく(例えば、tdm_SM_flagが1に等しいことは、現在のフレームのチャンネル組み合わせスキームフラグが反相関信号チャンネル組み合わせスキームに対応することを示す)、以前のフレームのチャンネル組み合わせスキームフラグtdm_SM_flagが0に等しい(例えば、tdm_SM_flagが0に等しいことは、以前のフレームのチャンネル組み合わせスキームフラグが相関信号チャンネル組み合わせスキームに対応することを示す)場合、それは、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数を計算するために使用される履歴バッファがリセットされる必要があることを示す。
履歴バッファリセットフラグtdm_SM_reset_flagは、初期チャンネル組み合わせスキーム判定及びチャンネル組み合わせスキーム修正判定の処理において決定されることがあり、その後、履歴バッファリセットフラグの値が、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数を計算するために使用される履歴バッファがリセットされる必要があるかどうかを決定するように決定されることが留意されるべきである。例えば、tdm_SM_reset_flagが1であるとき、それは、現在のフレームのチャンネル組み合わせスキームフラグが反相関信号チャンネル組み合わせスキームに対応し、以前のフレームのチャンネル組み合わせスキームフラグが相関信号チャンネル組み合わせスキームに対応することを示す。例えば、履歴バッファリセットフラグtdm_SM_reset_flagが1に等しいとき、それは、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数を計算するために使用される履歴バッファがリセットされる必要があることを示す。多くの具体的なリセット方法がある。現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数を計算するために使用される履歴バッファにおける全てのパラメータは、あらかじめ設定された初期値に基づいてリセットされることがある。或いは、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数を計算するために使用される履歴バッファにおけるいくつかのパラメータは、あらかじめ設定された初期値に基づいてリセットされることがある。或いは、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数を計算するために使用される履歴バッファにおけるいくつかのパラメータは、あらかじめ設定された初期値に基づいてリセットされることがあり、他のパラメータは、現在のフレームのための相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数を計算するために使用される履歴バッファにおける対応するパラメータに基づいてリセットされる。
その後、現在のフレームのチャンネル組み合わせスキームフラグtdm_SM_flagが反相関信号チャンネル組み合わせスキームに対応するかどうかがさらに決定される。反相関信号チャンネル組み合わせスキームは、逆位相に近いステレオ信号に対して時間領域ダウンミックスを実行することにより適したチャンネル組み合わせスキームである。本実施形態においては、現在のフレームのチャンネル組み合わせスキームフラグtdm_SM_flag=1であるとき、それは、現在のフレームのチャンネル組み合わせスキームフラグが反相関信号チャンネル組み合わせスキームに対応することを示す。現在のフレームのチャンネル組み合わせスキームフラグtdm_SM_flag=0であるとき、それは、現在のフレームのチャンネル組み合わせスキームフラグが相関信号チャンネル組み合わせスキームに対応することを示す。
現在のフレームのチャンネル組み合わせスキームフラグが反相関信号チャンネル組み合わせスキームに対応するかどうかを決定することは、具体的には、
現在のフレームのチャンネル組み合わせスキームフラグの値が1であるかどうかを決定することを含むことがあり、現在のフレームのチャンネル組み合わせスキームフラグtdm_SM_flag=1である場合、それは、現在のフレームのチャンネル組み合わせスキームフラグが反相関信号チャンネル組み合わせスキームに対応することを示し、このケースでは、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数は計算及びエンコードされることがある。
図9-Bを参照すると、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数を計算及びエンコードすることは、例えば、以下のステップ9081から9085を含むことがある。
9081.現在のフレームにおける、遅延アラインメント処理を施された左及び右チャンネル信号のために信号エネルギー分析を実行する。
現在のフレームにおける左チャンネル信号のフレームエネルギー、現在のフレームにおける右チャンネル信号のフレームエネルギー、現在のフレームにおける左チャンネルの長期平滑化されたフレームエネルギー、現在のフレームにおける右チャンネルの長期平滑化されたフレームエネルギー、現在のフレームにおける左チャンネルのフレーム間エネルギー差、及び現在のフレームにおける右チャンネルのフレーム間エネルギー差が別々に取得される。
例えば、現在のフレームにおける左チャンネル信号のフレームエネルギーrms_Lは
Figure 0007311573000265
を満たし、
現在のフレームにおける右チャンネル信号のフレームエネルギーrms_Rは
Figure 0007311573000266
を満たし、ここで、
x’L(n)は、現在のフレームにおける、遅延アラインメント処理を施された左チャンネル信号を示し、
x’R(n)は、現在のフレームにおける、遅延アラインメント処理を施された右チャンネル信号を示す。
例えば、現在のフレームにおける左チャンネルの長期平滑化されたフレームエネルギーtdm_lt_rms_L_SMcurは、
tdm_lt_rms_L_SMcur=(1-A)*tdm_lt_rms_L_SMpre+A*rms_Lを満たし、ここで、
tdm_lt_rms_L_SMpreは、以前のフレームにおける左チャンネルの長期平滑化されたフレームエネルギーを示し、Aは、左チャンネルの長期平滑化されたフレームエネルギーの更新係数を示し、Aは、例えば、0から1までの実数であってよく、Aは、例えば、0.4に等しくてよい。
例えば、現在のフレームにおける右チャンネルの長期平滑化されたフレームエネルギーtdm_lt_rms_R_SMcurは、
tdm_lt_rms_R_SMcur=(1-B)*tdm_lt_rms_R_SMpre+B*rms_Rを満たし、ここで、
tdm_lt_rms_R_SMpreは、以前のフレームにおける右チャンネルの長期平滑化されたフレームエネルギーを示し、Bは、右チャンネルの長期平滑化されたフレームエネルギーの更新係数を示し、Bは、例えば、0から1までの実数であってよく、Bは、例えば、左チャンネルの長期平滑化されたフレームエネルギーの更新係数と同じであってもよいし、これとは異なってもよい。例えば、Bは、0.4に等しくてもよい。
例えば、現在のフレームにおける左チャンネルのフレーム間エネルギー差ener_L_dtは、
ener_L_dt=tdm_lt_rms_L_SMcur-tdm_lt_rms_L_SMpre
を満たす。
例えば、現在のフレームにおける右チャンネルのフレーム間エネルギー差ener_R_dtは、
ener_R_dt=tdm_lt_rms_R_SMcur-tdm_lt_rms_R_SMpre
を満たす。
9082.現在のフレームにおける、遅延アラインメント処理を施された左及び右チャンネル信号に基づいて、現在のフレームにおける参照チャンネル信号を決定する。参照チャンネル信号は、モノラル信号と呼ばれることもある。参照チャンネル信号がモノラル信号と呼ばれる場合、参照チャンネルに関連する全ての説明及びパラメータ名について、参照チャンネル信号は、モノラル信号と交換されてよい。
例えば、参照チャンネル信号mono_i(n)は、
Figure 0007311573000267
を満たし、ここで、
x’L(n)は、現在のフレームにおける、遅延アラインメント処理を施された左チャンネル信号であり、x’R(n)は、現在のフレームにおける、遅延アラインメント処理を施された右チャンネル信号である。
9083.現在のフレームにおける、遅延アラインメント処理を施された左チャンネル信号と参照チャンネル信号との間の振幅相関パラメータと、現在のフレームにおける、遅延アラインメント処理を施された右チャンネル信号と参照チャンネル信号との間の振幅相関パラメータを別々に計算する。
例えば、現在のフレームにおける、遅延アラインメント処理を施された左チャンネル信号と参照チャンネル信号との間の振幅相関パラメータcorr_LMは、例えば、
Figure 0007311573000268
を満たす。
例えば、現在のフレームにおける、遅延アラインメント処理を施された右チャンネル信号と参照チャンネル信号との間の振幅相関パラメータcorr_RMは、例えば、
Figure 0007311573000269
を満たす。
本明細書において、x’L(n)は、現在のフレームにおける、遅延アラインメント処理を施された左チャンネル信号を示し、x’R(n)は、現在のフレームにおける、遅延アラインメント処理を施された右チャンネル信号を示し、mono_i(n)は現在のフレームにおける参照チャンネル信号を示し、|●|は絶対値を採用することを示す。
9084.現在のフレームにおける遅延アラインメント処理を施された左チャンネル信号と参照チャンネル信号との間の振幅相関パラメータ及び現在のフレームにおける遅延アラインメント処理を施された右チャンネル信号と参照チャンネル信号との間の振幅相関パラメータに基づいて、現在のフレームにおける左チャンネルと右チャンネルとの間の振幅相関差パラメータdiff_lt_corrを計算する。
ステップ9081は、ステップ9082及びステップ9083の前に実行されてもよいし、ステップ9082及びステップ9083の後でステップ9084の前に実行されてもよいことが理解され得る。
図9-Cを参照すると、例えば、現在のフレームにおける左チャンネルと右チャンネルとの間の振幅相関差パラメータdiff_lt_corrを計算することは、具体的には、以下のステップ90841と90842とを含むことがある。
90841.現在のフレームにおける遅延アラインメント処理を施された左チャンネル信号と参照チャンネル信号との間の振幅相関パラメータ及び現在のフレームにおける遅延アラインメント処理を施された右チャンネル信号と参照チャンネル信号との間の振幅相関パラメータに基づいて、現在のフレームにおける左チャンネル信号と参照チャンネル信号との間の長期平滑化された振幅相関パラメータと、現在のフレームにおける右チャンネル信号と参照チャンネル信号との間の長期平滑化された振幅相関パラメータを計算する。
例えば、現在のフレームにおける左チャンネル信号と参照チャンネル信号との間の長期平滑化された振幅相関パラメータ及び現在のフレームにおける右チャンネル信号と参照チャンネル信号との間の長期平滑化された振幅相関パラメータを計算するための方法は、現在のフレームにおける左チャンネル信号と参照チャンネル信号との間の長期平滑化された振幅相関パラメータtdm_lt_corr_LM_SMは、
tdm_lt_corr_LM_SMcur=α*tdm_lt_corr_LM_SMpre+(1-α)corr_LM
を満たすことを含むことがある。
本明細書において、tdm_lt_corr_LM_SMcurは、現在のフレームにおける左チャンネル信号と参照チャンネル信号との間の長期平滑化された振幅相関パラメータを示し、dm_lt_corr_LM_SMpreは、以前のフレームにおける左チャンネル信号と参照チャンネル信号との間の長期平滑化された振幅相関パラメータを示し、αは左チャンネル平滑化係数を示し、αは、あらかじめ設定された0から1までの実数、例えば、0.2、0.5、又は0.8であってよい。或いは、αの値は、適応計算を通して取得されてもよい。
例えば、現在のフレームにおける右チャンネル信号と参照チャンネル信号との間の長期平滑化された振幅相関パラメータtdm_lt_corr_RM_SMは、
tdm_lt_corr_RM_SMcur=β*tdm_lt_corr_RM_SMpre+(1-β)corr_LM
を満たす。
本明細書において、tdm_lt_corr_RM_SMcurは、現在のフレームにおける右チャンネル信号と参照チャンネル信号との間の長期平滑化された振幅相関パラメータを示し、tdm_lt_corr_RM_SMpreは、を以前のフレームにおける右チャンネル信号と参照チャンネル信号との間の長期平滑化された振幅相関パラメータ示し、βは右チャンネル平滑化係数を示し、βは、あらかじめ設定された0から1までの実数であってよい。Βは、左チャンネル平滑化係数αの値と同じであってもよいし、これとは異なってもよく、βは、例えば、0.2、0.5、又は0.8に等しくてよい。或いは、βの値は、適応計算を通して取得されてもよい。
現在のフレームにおける左チャンネル信号と参照チャンネル信号との間の長期平滑化された振幅相関パラメータ及び現在のフレームにおける右チャンネル信号と参照チャンネル信号との間の長期平滑化された振幅相関パラメータを計算するための別の方法は、
最初に、現在のフレームにおける左チャンネル信号と参照チャンネル信号との間の修正された振幅相関パラメータcorr_LM_modを取得するために、現在のフレームにおける遅延アラインメント処理を施された左チャンネル信号と参照チャンネル信号との間の振幅相関パラメータcorr_LMを修正することと、現在のフレームにおける右チャンネル信号と参照チャンネル信号との間の修正された振幅相関パラメータcorr_RM_modを取得するために、現在のフレームにおける遅延アラインメント処理を施された右チャンネル信号と参照チャンネル信号との間の振幅相関パラメータcorr_RMを修正することと、
その後、現在のフレームにおける左チャンネル信号と参照チャンネル信号との間の修正された振幅相関パラメータcorr_LM_mod、現在のフレームにおける右チャンネル信号と参照チャンネル信号との間の修正された振幅相関パラメータcorr_RM_mod、以前のフレームにおける左チャンネル信号と参照チャンネル信号との間の長期平滑化された振幅相関パラメータtdm_lt_corr_LM_SMpre、及び以前のフレームにおける右チャンネル信号と参照チャンネル信号との間の長期平滑化された振幅相関パラメータtdm_lt_corr_RM_SMpreに基づいて、現在のフレームにおける左チャンネル信号と参照チャンネル信号との間の長期平滑化された振幅相関パラメータdiff_lt_corr_LM_tmp及び現在のフレームにおける右チャンネル信号と参照チャンネル信号との間の長期平滑化された振幅相関パラメータdiff_lt_corr_RM_tmpを決定することと、
その後、現在のフレームにおける左チャンネル信号と参照チャンネル信号との間の長期平滑化された振幅相関パラメータdiff_lt_corr_LM_tmp及び現在のフレームにおける右チャンネル信号と参照チャンネル信号との間の長期平滑化された振幅相関パラメータdiff_lt_corr_RM_tmpに基づいて、現在のフレームにおける左チャンネルと右チャンネルとの間の振幅相関差パラメータの初期値diff_lt_corr_SMを取得することと、現在のフレームにおける左チャンネルと右チャンネルとの間の取得された振幅相関差パラメータの初期値diff_lt_corr_SM及び以前のフレームにおける左チャンネルと右チャンネルとの間の振幅相関差パラメータtdm_last_diff_lt_corr_SMに基づいて、現在のフレームにおける左チャンネルと右チャンネルとの間の振幅相関差のフレーム間変動パラメータd_lt_corrを決定することと、
最後に、信号エネルギー分析を通して取得された、現在のフレームにおける左チャンネル信号のフレームエネルギー、現在のフレームにおける右チャンネル信号のフレームエネルギー、現在のフレームにおける左チャンネルの長期平滑化されたフレームエネルギー、現在のフレームにおける右チャンネルの長期平滑化されたフレームエネルギー、現在のフレームにおける左チャンネルのフレーム間エネルギー差、及び現在のフレームにおける右チャンネルのフレーム間エネルギー差、並びに現在のフレームにおける左チャンネルと右チャンネルとの間の振幅相関差のフレーム間変動パラメータに基づいて、異なる左チャンネル平滑化係数及び右チャンネル平滑化係数を適応的に選択し、現在のフレームにおける左チャンネル信号と参照チャンネル信号との間の長期平滑化された振幅相関パラメータtdm_lt_corr_LM_SM及び現在のフレームにおける右チャンネル信号と参照チャンネル信号との間の期平滑化された振幅相関パラメータtdm_lt_corr_RM_SMを計算することと
を含むことがある。
上記で例として与えられた2つの方法に加えて、現在のフレームにおける左チャンネル信号と参照チャンネル信号との間の長期平滑化された振幅相関パラメータ及び現在のフレームにおける右チャンネル信号と参照チャンネル信号との間の長期平滑化された振幅相関パラメータを計算するための多くの方法があり得る。これは、本出願では限定されない。
90842.現在のフレームにおける左チャンネル信号と参照チャンネル信号との間の長期平滑化された振幅相関パラメータ及び現在のフレームにおける右チャンネル信号と参照チャンネル信号との間の長期平滑化された振幅相関パラメータに基づいて、現在のフレームにおける左チャンネルと右チャンネルとの間の振幅相関差パラメータdiff_lt_corrを計算する。
例えば、現在のフレームにおける左チャンネルと右チャンネルとの間の振幅相関差パラメータdiff_lt_corrは、
diff_lt_corr=tdm_lt_corr_LM_SM-tdm_lt_corr_RM_SMを満たし、ここで、
tdm_lt_corr_LM_SMは、現在のフレームにおける左チャンネル信号と参照チャンネル信号との間の長期平滑化された振幅相関パラメータを示し、tdm_lt_corr_RM_SMは、現在のフレームにおける右チャンネル信号と参照チャンネル信号との間の長期平滑化された振幅相関パラメータを示す。
9085.現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数及びチャンネル組み合わせ比係数のエンコードされたインデックスを決定するように、現在のフレームにおける左チャンネルと右チャンネルとの間の振幅相関差パラメータdiff_lt_corrをチャンネル組み合わせ比係数へと変換し、エンコーディング及び量子化を実行する。
図9-Dを参照すると、現在のフレームにおける左チャンネルと右チャンネルとの間の振幅相関差パラメータをチャンネル組み合わせ比係数へと変換するための可能な方法は、具体的には、ステップ90851から90853を含むことがある。
90851.左チャンネルと右チャンネルの間にあってマッピング処理を施された振幅相関差パラメータの値範囲が[MAP_MIN,MAP_MAX]であることを可能にするために、左チャンネルと右チャンネルとの間の振幅相関差パラメータに対してマッピング処理を実行する。
左チャンネルと右チャンネルとの間の振幅相関差パラメータに対してマッピング処理を実行するための方法は、以下のステップを含むことがある。
最初に、振幅制限が、左チャンネルと右チャンネルとの間の振幅相関差パラメータに対して実行される。例えば、左チャンネルと右チャンネルとの間の振幅制限振幅相関差パラメータdiff_lt_corr_limitは、
Figure 0007311573000270
を満たす。
本明細書において、RATIO_MAXは、左チャンネルと右チャンネルとの間の振幅制限振幅相関差パラメータの最大値を示し、RATIO_MINは、左チャンネルと右チャンネルとの間の振幅制限振幅相関差パラメータの最小値を示す。例えば、RATIO_MAXは、あらかじめ設定された経験値であり、RATIO_MAXは、1.5、3.0、又は別の値であってよい。RATIO_MINは、あらかじめ設定された経験値であり、RATIO_MINは、-1.5、-3.0、又は別の値であってよく、ここで、RATIO_MAX>RATIO_MINである。
その後、マッピング処理が、左チャンネルと右チャンネルとの間の振幅制限振幅相関差パラメータに対して実行される。左チャンネルと右チャンネルとの間にあってマッピング処理を施された振幅相関差パラメータdiff_lt_corr_mapは、
Figure 0007311573000271
を満たし、ここで、
Figure 0007311573000272
であり、
1=MAP_MAX-RATIO_MAX*A1又はB1=MAP_HIGH-RATIO_HIGH*A1であり、
Figure 0007311573000273
であり、
2=MAP_LOW-RATIO_LOW*A2又はB2=MAP_MIN-RATIO_MIN*A2であり、
Figure 0007311573000274
であり、
3=MAP_HIGH-RATIO_HIGH*A3又はB3=MAP_LOW-RATIO_LOW*A3
である。
本明細書において、MAP_MAXは、左チャンネルと右チャンネルとの間にあってマッピング処理を施された振幅相関差パラメータの最大値を示し、MAP_HIGHは、左チャンネルと右チャンネルとの間にあってマッピング処理を施された振幅相関差パラメータの高閾値を示し、MAP_LOWは、左チャンネルと右チャンネルとの間にあってマッピング処理を施された振幅相関差パラメータの低閾値を示し、MAP_MINは、左チャンネルと右チャンネルとの間にあってマッピング処理を施された振幅相関差パラメータの最小値を示し、ここで、
MAP_MAX>MAP_HIGH>MAP_LOW>MAP_MIN
である。
例えば、本出願のいくつかの実施形態においては、MAP_MAXは2.0であってよく、MAP_HIGHは1.2であってよく、MAP_LOWは0.8であってよく、MAP_MINは0.0であってよい。もちろん、実際の適用では、値は、そのような例に限定されない。
RATIO_MAXは、左チャンネルと右チャンネルとの間の振幅制限振幅相関差パラメータの最大値を示し、RATIO_HIGHは、左チャンネルと右チャンネルとの間の振幅制限振幅相関差パラメータの高閾値を示し、RATIO_LOWは、左チャンネルと右チャンネルとの間の振幅制限振幅相関差パラメータの低閾値を示し、RATIO_MINは、左チャンネルと右チャンネルとの間の振幅制限振幅相関差パラメータの最小値を示し、ここで、
RATIO_MAX>RATIO_HIGH>RATIO_LOW>RATIO_MIN
である。
例えば、本出願のいくつかの実施形態においては、RATIO_MAXは1.5、RATIO_HIGHは0.75、RATIO_LOWは-0.75、RATIO_MINは-1.5である。もちろん、実際の適用では、値は、そのような例に限定されない。
本出願のいくつかの実施形態における別の方法は、次のとおりである。左チャンネルと右チャンネルとの間にあってマッピング処理を施された振幅相関差パラメータdiff_lt_corr_mapは、
Figure 0007311573000275
を満たす。
本明細書において、diff_lt_corr_limitは、左チャンネルと右チャンネルとの間の振幅制限振幅相関差パラメータを示し、ここで、
Figure 0007311573000276
である。
本明細書において、RATIO_MAXは、左チャンネルと右チャンネルとの間の振幅相関差パラメータの最大振幅を示し、-RATIO_MAXは、左チャンネルと右チャンネルとの間の振幅相関差パラメータの最小振幅を示す。RATIO_MAXは、あらかじめ設定された経験値であってよく、RATIO_MAXは、例えば、1.5、3.0、又は0よりも大きい別の実数であってよい。
90852.左チャンネルと右チャンネルとの間にあってマッピング処理を施された振幅相関差パラメータを、チャンネル組み合わせ比係数へと変換する。
チャンネル組み合わせ比係数ratio_SMは、
Figure 0007311573000277
を満たし、ここで、
cos(・)はコサイン演算を示す。
上述の方法に加えて、別の方法が、左チャンネルと右チャンネルとの間の振幅相関差パラメータをチャンネル組み合わせ比係数へと変換するために使用され、例えば、
反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数が更新される必要があるかどうかは、信号エネルギー分析を通して取得される、現在のフレームにおける左チャンネルの長期平滑化されたフレームエネルギー、現在のフレームにおける右チャンネルの長期平滑化されたフレームエネルギー、及び現在のフレームにおける左チャンネルのフレーム間エネルギー差、エンコーダの履歴バッファにおける以前のフレームのバッファされたエンコーディングパラメータ(例えば、プライマリチャンネル信号のフレーム間相関パラメータ及びセカンダリチャンネル信号のフレーム間相関パラメータ)、現在のフレーム及び以前のフレームのチャンネル組み合わせスキームフラグ、並びに現在のフレーム及び以前のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数に基づいて決定される。
反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数が更新される必要がある場合、左チャンネルと右チャンネルとの間の振幅相関差パラメータは、上述の例における方法を使用することによってチャンネル組み合わせ比係数へと変換される。そうでない場合、以前のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数及びチャンネル組み合わせ比係数のエンコードされたインデックスは、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数及びチャンネル組み合わせ比係数のエンコードされたインデックスとして直接的に使用される。
90853.変換後に取得されたチャンネル組み合わせ比係数に対して量子化エンコーディングを実行し、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数を決定する。
具体的には、例えば、量子化エンコーディングが、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応する初期エンコードされたインデックスratio_idx_init_SM及び現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数の量子化エンコードされた初期値ratio_init_SMquaを取得するために、変換後に取得されたチャンネル組み合わせ比係数に対して実行され、ここで、
ratio_init_SMqua=ratio_tabl_SM[ratio_idx_init_SM]
である。
本明細書において、ratio_tabl_SMは、反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数に対してスカラー量子化を実行するためのコードブックを示す。量子化エンコーディングは、従来の技術における任意のスカラー量子化方法、例えば、均一なスカラー量子化又は不均一なスカラー量子化を使用することによって、実行されてよい。エンコーディングに使用されるビットの量は、5ビットであってよい。具体的な方法は、本明細書では説明されない。反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数に対してスカラー量子化を実行するためのコードブックは、相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数に対してスカラー量子化を実行するためのコードブックと同じであってもよいし、又はこれとは異なってもよい。コードブックが同じであるとき、チャンネル組み合わせ比係数に対してスカラー量子化を実行するために使用される1つのコードブックのみが記憶される必要がある。このケースでは、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数の量子化エンコードされた初期値ratio_init_SMquaは、
ratio_init_SMqua=ratio_tabl[ratio_idx_init_SM]
である。
例えば、方法は、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数の量子化エンコードされた初期値を、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数として直接的に使用し、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数の初期エンコードされたインデックスを、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数のエンコードされたインデックスとして直接的に使用することである。
現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数のエンコードされたインデックスratio_idx_SMは、
ratio_idx_SM=ratio_idx_init_SM
を満たす。
現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数は、
ratio_SM=ratio_tabl[ratio_idx_SM]
を満たす。
別の方法は、以前のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数のエンコードされたインデックス又は以前のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数に基づいて、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数の量子化エンコードされた初期値及び現在のフレームのための反相関信号チャンネル組み合わせスキームに対応する初期エンコードされたインデックスを修正し、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数の修正されたエンコードされたインデックスを、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数のエンコードされたインデックスとして使用し、反相関信号チャンネル組み合わせスキームに対応する修正されたチャンネル組み合わせ比係数を、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数として使用することであってよい。
現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数のエンコードされたインデックスratio_idx_SMは、
ratio_idx_SM=φ*ratio_idx_init_SM+(1-φ)*tdm_last_ratio_idx_SM
を満たす。
本明細書において、ratio_idx_init_SMは、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応する初期エンコードされたインデックスを示し、tdm_last_ratio_idx_SMは、以前のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数のエンコードされたインデックスであり、
Figure 0007311573000278
は、反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数の修正係数である。
Figure 0007311573000279
の値は経験値であってよく、
Figure 0007311573000280
は、例えば、0.8に等しくてよい。
現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数は、
ratio_SM=ratio_tabl[ratio_idx_SM]
を満たす。
別の方法は、反相関信号チャンネル組み合わせスキームに対応する量子化されていないチャンネル組み合わせ比係数を、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数として使用することである。言い換ると、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数ratio_SMは、
Figure 0007311573000281
を満たす。
加えて、第4の方法は、以前のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数に基づいて現在のフレームのための反相関信号チャンネル組み合わせスキームに対応する量子化されていないチャンネル組み合わせ比係数を修正し、反相関信号チャンネル組み合わせスキームに対応する修正されたチャンネル組み合わせ比係数を、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数として使用し、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数のエンコードされたインデックスを取得するために、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数に対して量子化エンコーディングを実行することである。
上述の方法に加えて、左チャンネルと右チャンネルとの間の振幅相関差パラメータをチャンネル組み合わせ比係数へと変換し、エンコーディング及び量子化を実行するための多くの方法があることがある。同様に、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数及びチャンネル組み合わせ比係数のエンコードされたインデックスを決定するための多くの異なる方法があることがある。これは、本出願では限定されない。
909.現在のフレームの符号化モードを決定するために、以前のフレームのチャンネル組み合わせスキームフラグ及び現在のフレームのチャンネル組み合わせスキームフラグに基づいて符号化モード判定を実行する。
現在のフレームのチャンネル組み合わせスキームフラグはtmd_SM_flagと表記され、以前のフレームのチャンネル組み合わせスキームフラグはtmd_last_SM_flagと表記され、以前のフレームのチャンネル組み合わせスキームフラグと現在のフレームのチャンネル組み合わせスキームフラグのジョイントフラグは(tmd_last_SM_flag、tmd_SM_flag)と表記され得る。符号化モード判定は、ジョイントフラグに基づいて実行されることがある。詳細は、以下の例において与えられる。
相関信号チャンネル組み合わせスキームは0によって表され、反相関信号チャンネル組み合わせスキームは1によって表されると仮定される。このケースでは、以前のフレームと現在のフレームのチャンネル組み合わせスキームフラグのジョイントフラグは、以下の4つのケース即ち(01)、(11)、(10)、及び(00)を有し、現在のフレームの符号化モードは、相関信号符号化モード、反相関信号符号化モード、相関から反相関信号符号化への切り換えモード、及び反相関から相関信号符号化への切り換えモードとして決定される。例えば、以前のフレーム及び現在のフレームのチャンネル組み合わせスキームフラグのジョイントフラグが(00)である場合、それは、現在のフレームの符号化モードが相関信号符号化モードであることを示す。以前のフレーム及び現在のフレームのチャンネル組み合わせスキームフラグのジョイントフラグが(11)である場合、それは、現在のフレームの符号化モードが反相関信号符号化モードであることを示す。以前のフレーム及び現在のフレームのチャンネル組み合わせスキームフラグのジョイントフラグが(01)である場合、それは、現在のフレームの符号化モードが相関から反相関信号符号化への切り換えモードであることを示す。又は、以前のフレーム及び現在のフレームのチャンネル組み合わせスキームフラグのジョイントフラグが(10)である場合、それは、現在のフレームの符号化モードが反相関から相関信号符号化への切り換えモードであることを示す。
910.現在のフレームの符号化モードstereo_tdm_coder_typeを取得した後、エンコーディング装置は、現在のフレームにおけるプライマリ及びセカンダリチャンネル信号を取得するために、現在のフレームの符号化モードに対応する時間領域ダウンミックス処理方法に基づいて現在のフレームにおける左及び右チャンネル信号に対して時間領域ダウンミックス処理を実行する。
現在のフレームの符号化モードは、複数の符号化モードのうちの1つである。例えば、複数の符号化モードは、相関から反相関信号符号化への切り換えモードと、反相関から相関信号符号化への切り換えモードと、相関信号符号化モードと、反相関信号符号化モードとを含むことがある。異なる符号化モードにおける時間領域ダウンミックス処理の実装については、上述の実施形態における例の関連説明を参照されたい。詳細は、本明細書では再度説明されない。
911.エンコーディング装置は、エンコードされたプライマリチャンネル信号及びエンコードされたセカンダリチャンネル信号を取得するために、プライマリチャンネル信号とセカンダリチャンネル信号を別々にエンコードする。
具体的には、ビット割り当ては、以前のフレームにおけるプライマリチャンネル信号及び/又はセカンダリチャンネル信号のエンコーディングにおいて取得されたパラメータ情報並びにプライマリ及びセカンダリチャンネル信号をエンコードするためのビットの総量に基づいて、プライマリチャンネル信号のエンコーディング及びセカンダリチャンネル信号のエンコーディングのために、最初に実行されることがある。その後、プライマリチャンネル信号とセカンダリチャンネル信号は、プライマリチャンネルエンコーディングのエンコードされたインデックス及びセカンダリチャンネルエンコーディングのエンコードされたインデックスを取得するために、ビット割り当ての結果に基づいて別々にエンコードされる。プライマリチャンネルエンコーディング及びセカンダリチャンネルエンコーディングは、任意のモノラルオーディオエンコーディング技術を使用することによって実施されてよく、このモノラルオーディオエンコーディング技術は、本明細書ではさらに説明されない。
912.エンコーディング装置は、チャンネル組み合わせスキームフラグに基づいてチャンネル組み合わせ比係数の対応するエンコードされたインデックスを選択し、エンコードされたインデックスをビットストリームへと書き込み、エンコードされたプライマリチャンネル信号、エンコードされたセカンダリチャンネル信号、及び現在のフレームのチャンネル組み合わせスキームフラグをビットストリームへと書き込む。
具体的には、例えば、現在のフレームのチャンネル組み合わせスキームフラグtdm_SM_flagが相関信号チャンネル組み合わせスキームに対応する場合、現在のフレームのための相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数のエンコードされたインデックスratio_idxがビットストリームへと書き込まれる。又は、現在のフレームのチャンネル組み合わせスキームフラグtdm_SM_flagが反相関信号チャンネル組み合わせスキームに対応する場合、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数のエンコードされたインデックスratio_idx_SMがビットストリームへと書き込まれる。例えば、tdm_SM_flag=0である場合、現在のフレームのための相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数のエンコードされたインデックスratio_idxがビットストリームへと書き込まれる。又は、tdm_SM_flag=1である場合、現在のフレームのための反相関信号チャンネル組み合わせスキームに対応するチャンネル組み合わせ比係数のエンコードされたインデックスratio_idx_SMがビットストリームへと書き込まれる。
加えて、エンコードされたプライマリチャンネル信号、エンコードされたセカンダリチャンネル信号、及び現在のフレームのチャンネル組み合わせスキームフラグが、ビットストリームへと書き込まれる。ビットストリーム書き込み動作を実行するための順序はないことが理解され得る。
これに対応して、以下は、例を使用することによって時間領域ステレオデコーディングシナリオについて説明する。
図10を参照すると、以下は、オーディオデコーディング方法をさらに提供する。オーディオデコーディング方法の関連ステップは、具体的にはデコーディング装置によって実施されてよく、方法は、具体的には、以下のステップを含むことがある。
1001.現在のフレームにおけるデコードされたプライマリ及びセカンダリチャンネル信号を取得するために、ビットストリームに基づいたデコーディングを実行する。
1002.現在のフレームの時間領域ステレオパラメータを取得するために、ビットストリームに基づいてデコーディングを実行する。
現在のフレームの時間領域ステレオパラメータは、現在のフレームのチャンネル組み合わせ比係数を含み(ビットストリームは、現在のフレームのチャンネル組み合わせ比係数のエンコードされたインデックスを含み、デコーディングは、現在のフレームのチャンネル組み合わせ比係数を取得するために現在のフレームのチャンネル組み合わせ比係数のエンコードされたインデックスに基づいて実行されることがある)、現在のフレームのチャンネル間時間差などをさらに含んでよい(例えば、ビットストリームは、現在のフレームのチャンネル間時間差のエンコードされたインデックスを含み、デコーディングは、現在のフレームのチャンネル間時間差を取得するために、現在のフレームのチャンネル間時間差のエンコードされたインデックスに基づいて実行されることがある。又は、ビットストリームは、現在のフレームのチャンネル間時間差の絶対値のエンコードされたインデックスを含み、デコーディングは、現在のフレームのチャンネル間時間差の絶対値を取得するために、現在のフレームのチャンネル間時間差の絶対値のエンコードされたインデックスに基づいて実行されることがある)。
1003.ビットストリームに基づいて、ビットストリーム内に含まれる現在のフレームのチャンネル組み合わせスキームフラグを取得し、現在のフレームのためのチャンネル組み合わせスキームを決定する。
1004.現在のフレームのためのチャンネル組み合わせスキーム及び以前のフレームのためのチャンネル組み合わせスキームに基づいて、現在のフレームのデコーディングモードを決定する。
現在のフレームのためのチャンネル組み合わせスキーム及び以前のフレームのためのチャンネル組み合わせスキームに基づいて現在のフレームのデコーディングモードを決定することについては、ステップ909において現在のフレームの符号化モードを決定するための方法を参照されたい。現在のフレームのデコーディングモードは、複数のデコーディングモードのうちの1つである。例えば、複数のデコーディングモードは、相関から反相関信号デコーディングへの切り換えモードと、反相関から相関信号デコーディングへの切り換えモードと、相関信号デコーディングモードと、反相関信号デコーディングモードとを含むことがある。符号化モードとデコーディングモードは、1対1の対応をとる。
例えば、以前のフレーム及び現在のフレームのチャンネル組み合わせスキームフラグのジョイントフラグが(00)である場合、それは、現在のフレームのデコーディングモードが相関信号デコーディングモードであることを示す。以前のフレーム及び現在のフレームのチャンネル組み合わせスキームフラグのジョイントフラグが(11)である場合、それは、現在のフレームのデコーディングモードが反相関信号デコーディングモードであることを示す。以前のフレーム及び現在のフレームのチャンネル組み合わせスキームフラグのジョイントフラグが(01)である場合、それは、現在のフレームのデコーディングモードが相関から反相関信号デコーディングへの切り換えモードであることを示す。又は、以前のフレーム及び現在のフレームのチャンネル組み合わせスキームフラグのジョイントフラグが(10)である場合、それは、現在のフレームのデコーディングモードが反相関から相関信号デコーディングへの切り換えモードであることを示す。
ステップ1001、ステップ1002、及びステップ1003、及び1004を実行するための必要な順序はないことが理解され得る。
1005.現在のフレームにおける再構成された左及び右チャンネル信号を取得するために、現在のフレームの決定されたデコーディングモードに対応する時間領域アップミックス処理方式を使用することによって現在のフレームにおけるデコードされたプライマリ及びセカンダリチャンネル信号に対して時間領域アップミックス処理を実行する。
異なるデコーディングモードにおける時間領域アップミックス処理の関連実装については、上述の実施形態における例の関連説明を参照されたい。詳細は、本明細書では再度説明されない。
時間領域アップミックス処理のために使用されるアップミックス行列は、現在のフレームの取得されたチャンネル組み合わせ比係数に基づいて構築される。
現在のフレームにおける再構成された左及び右チャンネル信号は、現在のフレームにおけるデコードされた左及び右チャンネル信号として使用されることがある。
或いは、さらに、遅延調整が、現在のフレームにおける遅延調整を施された再構成された左及び右チャンネル信号を取得するために、現在のフレームのチャンネル間時間差に基づいて現在のフレームにおける再構成された左及び右チャンネル信号に対して実行されることがあり、現在のフレームにおける遅延調整を施された再構成された左及び右チャンネル信号は、現在のフレームにおけるデコードされた左及び右チャンネル信号として使用されることがある。或いは、さらに、時間領域後処理が、現在のフレームにおける遅延調整を施された再構成された左及び右チャンネル信号に対して実行されることがあり、現在のフレームにおける時間領域後処理を施された再構成された左及び右チャンネル信号は、現在のフレームにおけるデコードされた左及び右チャンネル信号として使用されることがある。
上述の内容は、本出願の実施形態における方法について詳細に説明する。以下は、本出願の実施形態における装置について説明する。
図11-Aを参照すると、本出願の実施形態は、装置1100をさらに提供する。装置1100は、
互いに結合されたプロセッサ1110とメモリ1120であって、プロセッサ1110は、本出願の実施形態において提供される任意の方法のいくつか又は全てのステップを実行することがあるように構成される、プロセッサ1110とメモリ1120と
を含むことがある。
メモリ1120は、限定されるものではないが、ランダムアクセスメモリRandom Access MemoryRAM)、読み出し専用メモリRead-Only MemoryROM)、消去可能プログラマブル読み出し専用メモリErasable Programmable Read Only MemoryEPROM)、又はコンパクトディスク読み出し専用メモリCompact Disc Read-Only MemoryCD-ROM)を含み得る。メモリ1102は、関連命令及び関連データを記憶するように構成される。
もちろん、装置1100は、データを受信及び送信するように構成されたトランシーバ1130をさらに含むことがある。
プロセッサ1110は、1つ又は複数の中央処理ユニットCentral Processing UnitCPU)であってよい。プロセッサ1110が1つのCPUであるとき、CPUは、シングルコアCPUであってもよいし、マルチコアCPUであってもよい。プロセッサ1110は、具体的には、デジタル信号プロセッサであってよい。
実装処理では、上述の方法におけるステップは、プロセッサ1110におけるハードウェア集積論理回路を使用することによって、又はソフトウェアの形式をした命令を使用することによって、実装可能である。プロセッサ1110は、汎用プロセッサであってもよいし、デジタル信号プロセッサであってもよいし、特定用途向け集積回路であってもよいし、フィールドプログラマブルゲートアレイ又は別のプログラマブル論理デバイスであってもよいし、ディスクリートゲート又はトランジスタ論理デバイスであってもよいし、ディスクリートハードウェア構成要素であってもよい。プロセッサ1110は、本発明の実施形態に開示されている方法、ステップ、及び論理ブロック図を実装又は実行してよい。汎用プロセッサはマイクロプロセッサであってもよいし、プロセッサは、任意の従来のプロセッサなどであってもよい。本発明の実施形態に関して開示される方法のステップは、ハードウェアデコーディングプロセッサを使用することによって直接的に実行され、成し遂げられてもよいし、デコーディングプロセッサにおけるハードウェアモジュールとソフトウェアモジュールの組み合わせを使用することによって実行され、成し遂げられてもよい。
ソフトウェアモジュールは、ランダムアクセスメモリ、フラッシュメモリ、読み出し専用メモリ、プログラマブル読み出し専用メモリ、電気消去可能プログラマブルメモリ、又はレジスタなどの、当技術分野における成熟した記憶媒体内に配置されてよい。記憶媒体は、メモリ1120内に配置される。例えば、プロセッサ1110は、メモリ1120における情報を読み出し、プロセッサ1110のハードウェアと組み合わせて、上述の方法におけるステップを完了してよい。
さらに、装置1100は、トランシーバ1130をさらに含むことがある。トランシーバ1130は、例えば、関連データ(例えば、命令、チャンネル信号、又はビットストリーム)を受信及び送信するように構成されることがある。例えば、装置1100は、図2から図9-Dに示される任意の実施形態における対応する方法のいくつか又は全てのステップを実行することがある。
具体的には、例えば、装置1100が上述のエンコーディングの関連ステップを実行するとき、装置1100は、エンコーディング装置(又はオーディオエンコーディング装置)と呼ばれることがある。装置1100が上述のデコーディングの関連ステップを実行するとき、装置1100は、デコーディング装置(又はオーディオデコーディング装置)と呼ばれることがある。
図11-Bを参照すると、装置1100がエンコーディング装置であるとき、例えば、装置1100は、マイクロホン1140と、アナログ-デジタル変換器1150などをさらに含むことがある。
例えば、マイクロホン1140は、アナログオーディオ信号を取得するためにサンプリングを実行するように構成されることがある。
例えば、アナログ-デジタル変換器1150は、アナログオーディオ信号をデジタルオーディオ信号に変換するように構成されることがある。
図11-Cを参照すると、装置1100がエンコーディング装置であるとき、例えば、装置1100は、スピーカ1160と、デジタル-アナログ変換器1170などをさらに含むことがある。
例えば、デジタル-アナログ変換器1170は、デジタルオーディオ信号をアナログオーディオ信号へと変換するように構成されることがある。
例えば、スピーカ1160は、アナログオーディオ信号を再生するように構成されることがある。
加えて、図12-Aを参照すると、本出願の実施形態は、本出願の実施形態において提供される任意の方法を実施するように構成されたいくつかの機能ユニットを含む装置1200を提供する。
例えば、装置1200が、図2に示される実施形態における対応する方法を実行するとき、装置1200は、
現在のフレームのためのチャンネル組み合わせスキームを決定し、以前のフレームのためのチャンネル組み合わせスキーム及び現在のフレームのためのチャンネル組み合わせスキームに基づいて現在のフレームの符号化モードを決定するように構成された第1の決定ユニット1210と、
現在のフレームにおけるプライマリ及びセカンダリチャンネル信号を取得するために、現在のフレームの符号化モードに対応する時間領域ダウンミックス処理に基づいて現在のフレームにおける左及び右チャンネル信号に対して時間領域ダウンミックス処理を実行するように構成されたエンコーディングユニット1220と
を含むことがあることがある。
さらに、図12-Bを参照すると、装置1200は、現在のフレームの時間領域ステレオパラメータを決定するように構成された第2の決定ユニット1230をさらに含むことがある。エンコーディングユニット1220は、現在のフレームの時間領域ステレオパラメータをエンコードするようにさらに構成されることがある。
別の例では、図12-Cを参照すると、装置1200が、図3に示される実施形態における対応する方法を実行するとき、装置1200は、
ビットストリーム内にある現在のフレームのチャンネル組み合わせスキームフラグに基づいて現在のフレームのためのチャンネル組み合わせスキームを決定し、以前のフレームのためのチャンネル組み合わせスキーム及び現在のフレームのためのチャンネル組み合わせスキームに基づいて現在のフレームのデコーディングモードを決定するように構成された第3の決定ユニット1240と、
現在のフレームにおけるデコードされたプライマリ及びセカンダリチャンネル信号を取得するためにビットストリームに基づいてデコーディングを実行し、現在のフレームにおける再構成された左及び右チャンネル信号を取得するために現在のフレームのデコーディングモードに対応する時間領域アップミックス処理に基づいて現在のフレームにおけるデコードされたプライマリ及びセカンダリチャンネル信号に対して時間領域アップミックス処理を実行するように構成されたデコーディングユニット1250と
を含むことがある。
装置が別の方法を実行するケースが、類推によって推測される。
本出願の実施形態は、コンピュータ可読記憶媒体を提供する。コンピュータ可読記憶媒体はプログラムコードを記憶し、このプログラムコードは、本出願の実施形態において提供される任意の方法におけるいくつか又は全てのステップを実行するための命令を含むことがある。
本出願の実施形態は、コンピュータプログラム製品を提供する。コンピュータプログラム製品がコンピュータ上で走らされるとき、コンピュータは、本出願の実施形態において提供される任意の方法におけるいくつか又は全てのステップを実行することが可能である。
上述の実施形態においては、全ての実施形態の説明は、それぞれの焦点を有する。実施形態において詳細に説明されない部分については、別の実施形態における関連説明を参照されたい。
本出願において提供されるいくつかの実施形態においては、開示される装置が別の方式で実施されてよいことが理解されるべきである。例えば、説明される装置実施形態は例にすぎない。例えば、ユニット分割は、論理機能分割にすぎず、又は実際の実装では他の分割であってよい。例えば、複数のユニット又は構成要素は組み合わされてもよいし、別のシステムへと統合されてもよく、又は、いくつかの特徴が無視されてもよいし、実行されなくてもよい。加えて、表示又は説明される相互の間接的な結合若しくは直接的な結合又は通信接続は、いくつかのインタフェースを使用することによって実施されてよい。装置若しくはユニット間の間接的な結合又は通信接続は、電子的形式で実施されてもよいし、他の形式で実施されてもよい。
別個の部分として説明されるユニットは、物理的に分離されてもよいし、物理的に分離されなくてもよく、ユニットとして表示される構成要素は、物理ユニットであってもよいし、物理ユニットでなくてもよい。具体的に言えば、構成要素は、1つの位置に配置されてもよいし、複数のネットワークユニット上に分散されてもよい。ユニットのうちのいくつか又は全ては、実施形態のソリューションの目的を達成するために、実際の必要性に従って選択されてよい。
加えて、本発明の実施形態における機能ユニットは1つの処理ユニットへと統合されてもよいし、又は、ユニットの各々が物理的に単独で存在してもよいし、又は、2つ以上のユニットが1つのユニットへと統合される。統合されたユニットは、ハードウェアの形式で実施されてもよいし、ソフトウェア機能ユニットの形式で実施されてもよい。
統合されたユニットがソフトウェア機能ユニットの形式で実施され、独立した製品として販売又は使用されるとき、統合されたユニットは、コンピュータ可読記憶媒体内に記憶されることがある。そのような理解に基づいて、本発明の技術的ソリューションは本質的に、又は従来技術に寄与する部分、又は技術的ソリューションの全て若しくは一部は、ソフトウェア製品の形式で実施されることがある。コンピュータソフトウェア製品は、記憶媒体内に記憶され、本発明の実施形態において説明される方法のステップの全て又は一部を実行するようにコンピュータデバイス(パーソナルコンピュータ、サーバ、ネットワークデバイスなどであってよい)指示するためのいくつかの命令を含む。上述の記憶媒体は、USBフラッシュドライブ、読み出し専用メモリ(ROM、Read-Only Memory)、ランダムアクセスメモリ(RAM、Random Access Memory)、リムーバブルハードディスク、磁気ディスク、又は光ディスクなどの、プログラムコードを記憶することができる任意の媒体を含む。

Claims (15)

  1. 音声信号エンコーダによって実行される音声信号符号化方法であって、前記方法は、
    音声信号の現在のフレームの信号タイプを決定するステップであって、前記現在のフレームの前記信号タイプは、位相に近いタイプ又は逆位相に近いタイプのいずれかである、ステップと、
    前記現在のフレームの前記信号タイプに従って、現在のフレームの符号化モードを取得するステップと、
    前記符号化モードに従って、前記現在のフレームのプライマリチャンネル信号及びセカンダリチャンネル信号を取得するステップと、
    前記現在のフレームの前記取得されたプライマリ及びセカンダリチャンネル信号を符号化するステップと、
    を含み、
    前記符号化モードに従って、前記現在のフレームの前記プライマリチャンネル信号及び前記セカンダリチャンネル信号を取得する前記ステップは、
    前記符号化モードに対応する第1の比係数に基づいて、前記現在のフレームの左チャンネル信号及び右チャンネル信号上での時間領域ミックス処理を実行して、前記プライマリ及びセカンダリチャンネル信号を取得ステップ、又は、
    前記符号化モードに対応する第1の比係数、及び前のフレームの符号化モードに対応する第2の比係数に基づいて、前記現在のフレームの左チャンネル信号及び右チャンネル信号上での時間領域ミックス処理を実行して、前記現在のフレームの前記プライマリ及びセカンダリチャンネル信号を取得するステップ
    を含み、
    前記時間領域ミックス処理が前記第1の比係数及び前記第2の比係数に従って実行されるとき、前記現在のフレームの前記左及び右チャンネル信号と、前記現在のフレームの前記プライマリ及びセカンダリ信号とは、以下の式、即ち、
    0≦n<N-delay_comである場合には、
    Figure 0007311573000282
    又は、N-delay_com≦n<Nである場合には、
    Figure 0007311573000283
    を満たし、ここで、X L (n)は、前記左チャンネル信号を表し、X R (n)は、前記右チャンネル信号を表し、Y(n)は、前記プライマリチャンネル信号を表し、X(n)は、前記セカンダリチャンネル信号を表し、
    nは、サンプリング点の番号を表し、delay_comは、符号化遅延補償を表し、M 22 は、前記現在のフレームの前記符号化モードに対応するミックス行列を表し、M 22 は、前記第1の比係数に基づいて構築され、M 12 は、前記前のフレームの前記符号化モードに対応するミックス行列を表し、M 12 は、前記第2の比係数に基づいて構築される、
    音声信号符号化方法
  2. 音声信号エンコーダによって実行される音声信号符号化方法であって、前記方法は、
    音声信号の現在のフレームの信号タイプを決定するステップであって、前記現在のフレームの前記信号タイプは、同位相に近いタイプ又は逆位相に近いタイプのいずれかである、ステップと、
    前記現在のフレームの前記信号タイプに従って、現在のフレームの符号化モードを取得するステップと、
    前記符号化モードに従って、前記現在のフレームのプライマリチャンネル信号及びセカンダリチャンネル信号を取得するステップと、
    前記現在のフレームの前記取得されたプライマリ及びセカンダリチャンネル信号を符号化するステップと、
    を含み、
    前記符号化モードに従って、前記現在のフレームの前記プライマリチャンネル信号及び前記セカンダリチャンネル信号を取得する前記ステップは、
    前記符号化モードに対応する第1の比係数に基づいて、前記現在のフレームの左チャンネル信号及び右チャンネル信号上での時間領域ミックス処理を実行して、前記プライマリ及びセカンダリチャンネル信号を取得ステップ、又は、
    前記符号化モードに対応する第1の比係数、及び前のフレームの符号化モードに対応する第2の比係数に基づいて、前記現在のフレームの左チャンネル信号及び右チャンネル信号上での時間領域ミックス処理を実行して、前記現在のフレームの前記プライマリ及びセカンダリチャンネル信号を取得するステップ
    を含み、
    前記第1の比係数及び前記第2の比係数に従って時間領域ミックス処理が実行されるとき、前記現在のフレームの前記左及び右チャンネル信号と、前記現在のフレームの前記プライマリ及びセカンダリ信号とは、以下の式、即ち、
    0≦n<N-delay_comである場合には、
    Figure 0007311573000284
    又は、N-delay_com≦n<N-delay_com+NOVA_1である場合には、
    Figure 0007311573000285
    又は、N-delay_com+NOVA_1≦n<Nである場合には、
    Figure 0007311573000286
    を満たし、ここで、fade_in(n)は、フェードイン係数を表し、
    Figure 0007311573000287
    であり、fade_out(n)は、フェードアウト係数を表し、
    Figure 0007311573000288
    であり、NOVA_1は、移行処理長を表し、nは、サンプリング点の番号を表し、n=0,1,…,N-1であり、XL(n)は、前記左チャンネル信号を表し、XR(n)は、前記右チャンネル信号を表し、Y(n)は、前記プライマリチャンネル信号を表し、X(n)は、前記セカンダリチャンネル信号を表し、delay_comは、符号化遅延補償を表し、M22は、前記現在のフレームの前記符号化モードに対応するミックス行列を表し、M22は、前記第1の比係数に基づいて構築され、M12は、前記前のフレームの前記符号化モードに対応するミックス行列を表し、M12は、前記第2の比係数に基づいて構築される、
    音声信号符号化方法。
  3. Figure 0007311573000289
    又は
    Figure 0007311573000290
    又は
    Figure 0007311573000291
    又は
    Figure 0007311573000292
    又は
    Figure 0007311573000293
    又は
    Figure 0007311573000294
    であり、ここで、α1=ratio_SM、α2=1-ratio_SMであり、ratio_SMは、前記第1の比係数を表す、
    請求項1又は2に記載の方法。
  4. Figure 0007311573000295
    又は
    Figure 0007311573000296
    又は
    Figure 0007311573000297
    又は
    Figure 0007311573000298
    又は
    Figure 0007311573000299
    又は
    Figure 0007311573000300
    であり、ここで、α1_pre=tdm_last_ratio_SM、α2_pre=1-tdm_last_ratio_SMであり、tdm_last_ratio_SMは、前記第2の比係数を表す、
    請求項1~3のいずれか1項に記載の方法。
  5. Figure 0007311573000301
    又は
    Figure 0007311573000302
    又は
    Figure 0007311573000303
    であり、ここで、xL(n)は、前記現在のフレームのオリジナルの左チャンネル信号を表し、xR(n)は、前記現在のフレームのオリジナルの右チャンネル信号を表し、xL_HP(n)は、時間領域前処理を受けた、前記現在のフレームの左チャンネル信号を表し、xR_HP(n)は、時間領域前処理を受けた、前記現在のフレームの右チャンネル信号を表す、x’L(n)は、遅延アライメントを受けた、前記現在のフレームの左チャンネル信号を表し、x’R(n)は、遅延アライメントを受けた、前記現在のフレームの右チャンネル信号を表す、
    請求項1~4のいずれか1項に記載の方法。
  6. 音声信号デコーダによって実行される音声信号デコーディング方法であって、前記方法は、
    受信されたビットストリームに基づいて、音声信号の現在のフレームのデコードされたプライマリチャンネル信号及びセカンダリチャンネル信号を取得するステップと、
    前記現在のフレームの信号タイプを取得するステップであって、前記現在のフレームの前記信号タイプは、位相に近いタイプ又は逆位相に近いタイプのいずれかである、ステップと、
    前記信号タイプに基づいて、前記現在のフレームのデコーディングモードを取得するステップと、
    前記デコードされたプライマリチャンネル信号と、前記デコードされたセカンダリチャンネル信号と、前記デコーディングモードとに基づいて、前記現在のフレームの再構築された左チャンネル信号及び再構築された右チャンネル信号を取得するステップと、
    を含み、
    前記現在のフレームの再構築された左チャンネル信号及び再構築された右チャンネル信号を取得するステップは、
    前記現在のフレームの前記デコーディングモードに対応する第1の比係数に基づいて、前記デコードされたプライマリ及びセカンダリチャンネル信号上での時間領域ミックス処理を実行して、前記再構築された左及び右チャンネル信号を取得するステップ、又は
    前記現在のフレームの前記デコーディングモードに対応する第1の比係数、及び前のフレームのデコーディングモードに対応する第2の比係数に基づいて、前記デコードされたプライマリ及びセカンダリチャンネル信号上での時間領域ミックス処理を実行して、前記再構築された左及び右チャンネル信号を取得するステップ
    を含み、
    前記第1の比係数、及び前記第2の比係数に基づいて前記時間領域ミックス処理が実行されるとき、前記再構築された左及び右チャンネル信号と、前記デコードされたプライマリ及びセカンダリ信号は、以下の式、即ち、
    0≦n<N-upmixing_delayである場合には、
    Figure 0007311573000304
    又は、N-upmixing_delay≦n<Nである場合には、
    Figure 0007311573000305
    を満たし、ここで、
    Figure 0007311573000306
    は、前記再構築された左チャンネル信号を表し、
    Figure 0007311573000307
    は、前記再構築された右チャンネル信号を表し、
    Figure 0007311573000308
    は、前記デコードされたプライマリチャンネル信号を表し、
    Figure 0007311573000309
    は、前記デコードされたセカンダリチャンネル信号を表し、nは、サンプリング点の番号を表し、n=0,1,…,N-1であり、upmixing_delayは、デコーディング遅延補償を表し、
    Figure 0007311573000310
    は、前記現在のフレームの前記デコーディングモードに対応するミックス行列を表し、
    Figure 0007311573000311
    は、前記第1の比係数に基づいて構築され、
    Figure 0007311573000312
    は、前記前のフレームの前記デコーディングモードに対応するミックス行列を表し、
    Figure 0007311573000313
    は、前記第2の比係数に基づいて構築される、
    音声信号デコーディング方法
  7. 音声信号デコーダによって実行される音声信号デコーディング方法であって、前記方法は、
    受信されたビットストリームに基づいて、音声信号の現在のフレームのデコードされたプライマリチャンネル信号及びセカンダリチャンネル信号を取得するステップと、
    前記現在のフレームの信号タイプを取得するステップであって、前記現在のフレームの前記信号タイプは、同位相に近いタイプ又は逆位相に近いタイプのいずれかである、ステップと、
    前記信号タイプに基づいて、前記現在のフレームのデコーディングモードを取得するステップと、
    前記デコードされたプライマリチャンネル信号と、前記デコードされたセカンダリチャンネル信号と、前記デコーディングモードとに基づいて、前記現在のフレームの再構築された左チャンネル信号及び再構築された右チャンネル信号を取得するステップと、
    を含み、
    前記現在のフレームの再構築された左チャンネル信号及び再構築された右チャンネル信号を取得するステップは、
    前記現在のフレームの前記デコーディングモードに対応する第1の比係数に基づいて、前記デコードされたプライマリ及びセカンダリチャンネル信号上での時間領域ミックス処理を実行して、前記再構築された左及び右チャンネル信号を取得するステップ、又は
    前記現在のフレームの前記デコーディングモードに対応する第1の比係数、及び前のフレームのデコーディングモードに対応する第2の比係数に基づいて、前記デコードされたプライマリ及びセカンダリチャンネル信号上での時間領域ミックス処理を実行して、前記再構築された左及び右チャンネル信号を取得するステップ
    を含み、
    前記第1の比係数、及び前記第2の比係数に基づいて時間領域ミックス処理が実行されるとき、前記再構築された左及び右チャンネル信号と、前記デコードされたプライマリ及びセカンダリチャンネル信号とは、以下の式、即ち、
    0≦n<N-upmixing_delayである場合には、
    Figure 0007311573000314
    又は、N-upmixing_delay≦n<N-upmixing_delay+NOVA_1である場合には、
    Figure 0007311573000315
    又は、N-upmixing_delay≦n<Nである場合には、
    Figure 0007311573000316
    を満たし、ここで、
    Figure 0007311573000317
    は、前記再構築された左チャンネル信号を表し、
    Figure 0007311573000318
    は、前記再構築された右チャンネル信号を表し、
    Figure 0007311573000319
    は、前記デコードされたプライマリチャンネル信号を表し、
    Figure 0007311573000320
    は、前記デコードされたセカンダリチャンネル信号を表し、NOVA_1は、移行処理長を表し、fade_in(n)は、フェードイン係数を表し、
    Figure 0007311573000321
    であり、
    fade_out(n)は、フェードアウト係数を表し、
    Figure 0007311573000322
    であり、nは、サンプリング点の番号を表し、n=0,1,…,N-1であり、upmixing_delayは、デコーディング遅延補償を表し、
    Figure 0007311573000323
    は、前記現在のフレームの前記デコーディングモードに対応するミックス行列を表し、
    Figure 0007311573000324
    は、前記第1の比係数に基づいて構築され、
    Figure 0007311573000325
    は、前記前のフレームの前記デコーディングモードに対応するミックス行列を表し、
    Figure 0007311573000326
    は、前記第2の比係数に基づいて構築される、
    音声信号デコーディング方法。
  8. Figure 0007311573000327
    又は
    Figure 0007311573000328
    又は
    Figure 0007311573000329
    又は
    Figure 0007311573000330
    又は
    Figure 0007311573000331
    又は
    Figure 0007311573000332
    であり、ここで、α1=ratio_SM、α2=1-ratio_SMであり、ratio_SMは、前記第1の比係数を表す、
    請求項6又は7に記載の方法。
  9. Figure 0007311573000333
    又は
    Figure 0007311573000334
    又は
    Figure 0007311573000335
    又は
    Figure 0007311573000336
    又は
    Figure 0007311573000337
    又は
    Figure 0007311573000338
    であり、ここで、α1_pre=tdm_last_ratio_SM、α2_pre=1-tdm_last_ratio_SMであり、tdm_last_ratio_SMは、前記第2の比係数を表す、
    請求項6~8のいずれか1項に記載の方法。
  10. コンピュータ実行可能命令を格納するためのメモリと、
    前記メモリに動作的に接続されたプロセッサと
    を備え、前記プロセッサは、請求項1~のいずれか1項に記載の方法を実行するために前記コンピュータ実行可能命令を実行するように構成される、
    音声信号エンコーダ。
  11. コンピュータ実行可能命令を格納するためのメモリと、
    前記メモリに動作的に接続されたプロセッサと
    を備え、前記プロセッサは、請求項6~9のいずれか1項に記載の方法を実行するために前記コンピュータ実行可能命令を実行するように構成される、
    音声信号デコーダ。
  12. そこに記録されたプログラムを有するコンピュータ可読記憶媒体であって、前記プログラムはコンピュータに請求項1~のいずれか1項に記載の方法を実行させる、
    コンピュータ可読記憶媒体。
  13. そこに記録されたプログラムを有するコンピュータ可読記憶媒体であって、前記プログラムは、コンピュータに請求項6~9のいずれか1項に記載の方法を実行させる、
    コンピュータ可読記憶媒体。
  14. 請求項1~のいずれか1項に記載の方法をコンピュータに実行させるように構成された、媒体上に格納されたコンピュータプログラム。
  15. 請求項6~9のいずれか1項に記載の方法をコンピュータに実行させるように構成された、媒体上に格納されたコンピュータプログラム。
JP2021180319A 2017-08-10 2021-11-04 時間領域ステレオエンコーディング及びデコーディング方法並びに関連製品 Active JP7311573B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2023111288A JP2023139041A (ja) 2017-08-10 2023-07-06 時間領域ステレオエンコーディング及びデコーディング方法並びに関連製品

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
CN201710679740.6A CN109389984B (zh) 2017-08-10 2017-08-10 时域立体声编解码方法和相关产品
CN201710679740.6 2017-08-10
PCT/CN2018/100060 WO2019029724A1 (zh) 2017-08-10 2018-08-10 时域立体声编解码方法和相关产品
JP2020507599A JP6974927B2 (ja) 2017-08-10 2018-08-10 時間領域ステレオエンコーディング及びデコーディング方法並びに関連製品

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2020507599A Division JP6974927B2 (ja) 2017-08-10 2018-08-10 時間領域ステレオエンコーディング及びデコーディング方法並びに関連製品

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2023111288A Division JP2023139041A (ja) 2017-08-10 2023-07-06 時間領域ステレオエンコーディング及びデコーディング方法並びに関連製品

Publications (2)

Publication Number Publication Date
JP2022010020A JP2022010020A (ja) 2022-01-14
JP7311573B2 true JP7311573B2 (ja) 2023-07-19

Family

ID=65272801

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2020507599A Active JP6974927B2 (ja) 2017-08-10 2018-08-10 時間領域ステレオエンコーディング及びデコーディング方法並びに関連製品
JP2021180319A Active JP7311573B2 (ja) 2017-08-10 2021-11-04 時間領域ステレオエンコーディング及びデコーディング方法並びに関連製品
JP2023111288A Pending JP2023139041A (ja) 2017-08-10 2023-07-06 時間領域ステレオエンコーディング及びデコーディング方法並びに関連製品

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2020507599A Active JP6974927B2 (ja) 2017-08-10 2018-08-10 時間領域ステレオエンコーディング及びデコーディング方法並びに関連製品

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2023111288A Pending JP2023139041A (ja) 2017-08-10 2023-07-06 時間領域ステレオエンコーディング及びデコーディング方法並びに関連製品

Country Status (9)

Country Link
US (3) US11062715B2 (ja)
EP (2) EP3664087B1 (ja)
JP (3) JP6974927B2 (ja)
KR (4) KR102380431B1 (ja)
CN (2) CN109389984B (ja)
BR (1) BR112020002682A2 (ja)
SG (1) SG11202001169WA (ja)
TW (1) TWI689210B (ja)
WO (1) WO2019029724A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109389984B (zh) * 2017-08-10 2021-09-14 华为技术有限公司 时域立体声编解码方法和相关产品
CN109389985B (zh) 2017-08-10 2021-09-14 华为技术有限公司 时域立体声编解码方法和相关产品
JPWO2022176270A1 (ja) * 2021-02-16 2022-08-25
CN114365509B (zh) * 2021-12-03 2024-03-01 北京小米移动软件有限公司 一种立体声音频信号处理方法及设备/存储介质/装置
WO2023130018A1 (en) * 2021-12-30 2023-07-06 Ibiquity Digital Corporation Method and detector for providing an alert message for left/right phase inversion

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017049396A1 (en) 2015-09-25 2017-03-30 Voiceage Corporation Method and system for time domain down mixing a stereo sound signal into primary and secondary channels using detecting an out-of-phase condition of the left and right channels

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3144284B2 (ja) * 1995-11-27 2001-03-12 日本電気株式会社 音声符号化装置
US20030220800A1 (en) * 2002-05-21 2003-11-27 Budnikov Dmitry N. Coding multichannel audio signals
US7830921B2 (en) * 2005-07-11 2010-11-09 Lg Electronics Inc. Apparatus and method of encoding and decoding audio signal
KR101218776B1 (ko) 2006-01-11 2013-01-18 삼성전자주식회사 다운믹스된 신호로부터 멀티채널 신호 생성방법 및 그 기록매체
US8190425B2 (en) * 2006-01-20 2012-05-29 Microsoft Corporation Complex cross-correlation parameters for multi-channel audio
JP5122681B2 (ja) * 2008-05-23 2013-01-16 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ パラメトリックステレオアップミクス装置、パラメトリックステレオデコーダ、パラメトリックステレオダウンミクス装置、及びパラメトリックステレオエンコーダ
US8060042B2 (en) * 2008-05-23 2011-11-15 Lg Electronics Inc. Method and an apparatus for processing an audio signal
CN102089811B (zh) * 2008-07-11 2013-04-10 弗朗霍夫应用科学研究促进协会 用于编码和解码音频样本的音频编码器和解码器
CN102428512A (zh) * 2009-06-02 2012-04-25 松下电器产业株式会社 下混装置、编码装置以及其方法
EP2323130A1 (en) 2009-11-12 2011-05-18 Koninklijke Philips Electronics N.V. Parametric encoding and decoding
FR2966634A1 (fr) 2010-10-22 2012-04-27 France Telecom Codage/decodage parametrique stereo ameliore pour les canaux en opposition de phase
WO2012066727A1 (ja) * 2010-11-17 2012-05-24 パナソニック株式会社 ステレオ信号符号化装置、ステレオ信号復号装置、ステレオ信号符号化方法及びステレオ信号復号方法
US20130177158A1 (en) * 2011-11-17 2013-07-11 Digital Audio Labs Method for sending multiple pcm audio channels over an industry-standard stereo link
GB2524333A (en) * 2014-03-21 2015-09-23 Nokia Technologies Oy Audio signal payload
CN109389984B (zh) * 2017-08-10 2021-09-14 华为技术有限公司 时域立体声编解码方法和相关产品

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017049396A1 (en) 2015-09-25 2017-03-30 Voiceage Corporation Method and system for time domain down mixing a stereo sound signal into primary and secondary channels using detecting an out-of-phase condition of the left and right channels

Also Published As

Publication number Publication date
US11640825B2 (en) 2023-05-02
KR20220043246A (ko) 2022-04-05
JP2022010020A (ja) 2022-01-14
RU2020109715A (ru) 2021-09-10
JP6974927B2 (ja) 2021-12-01
US20220139404A1 (en) 2022-05-05
JP2023139041A (ja) 2023-10-03
US11062715B2 (en) 2021-07-13
TW201911888A (zh) 2019-03-16
KR102493482B1 (ko) 2023-01-31
BR112020002682A2 (pt) 2020-07-28
KR20200035138A (ko) 2020-04-01
EP3664087A1 (en) 2020-06-10
EP4358083A2 (en) 2024-04-24
US20200176000A1 (en) 2020-06-04
KR20230018550A (ko) 2023-02-07
SG11202001169WA (en) 2020-03-30
EP4358083A3 (en) 2024-06-19
CN114005455A (zh) 2022-02-01
KR102641952B1 (ko) 2024-02-29
CN109389984A (zh) 2019-02-26
US20230306972A1 (en) 2023-09-28
RU2020109715A3 (ja) 2021-11-19
JP2020529636A (ja) 2020-10-08
WO2019029724A1 (zh) 2019-02-14
KR20240032159A (ko) 2024-03-08
TWI689210B (zh) 2020-03-21
KR102380431B1 (ko) 2022-04-01
EP3664087A4 (en) 2020-08-05
CN109389984B (zh) 2021-09-14
EP3664087B1 (en) 2024-02-14

Similar Documents

Publication Publication Date Title
JP7311573B2 (ja) 時間領域ステレオエンコーディング及びデコーディング方法並びに関連製品
US11935547B2 (en) Method for determining audio coding/decoding mode and related product
US20240153511A1 (en) Time-domain stereo encoding and decoding method and related product
US20230352033A1 (en) Time-domain stereo parameter encoding method and related product

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211105

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211105

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221205

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230306

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230606

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230706

R150 Certificate of patent or registration of utility model

Ref document number: 7311573

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150