CN115662449A - 一种声道间相位差参数的提取方法及装置 - Google Patents

一种声道间相位差参数的提取方法及装置 Download PDF

Info

Publication number
CN115662449A
CN115662449A CN202211111461.7A CN202211111461A CN115662449A CN 115662449 A CN115662449 A CN 115662449A CN 202211111461 A CN202211111461 A CN 202211111461A CN 115662449 A CN115662449 A CN 115662449A
Authority
CN
China
Prior art keywords
current frame
ipd
frame
parameter
channel signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211111461.7A
Other languages
English (en)
Inventor
张兴涛
李海婷
刘泽新
苗磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of CN115662449A publication Critical patent/CN115662449A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Stereophonic System (AREA)
  • Telephonic Communication Services (AREA)

Abstract

一种声道间相位差参数的提取方法,提取包括:获取用于确定多声道信号的当前帧的信息提取方式的参数(S101);根据用于确定多声道信号的当前帧的信息提取方式的参数确定当前帧的多声道信号的IPD参数的提取方式(S102),确定的当前帧的多声道信号的IPD参数的提取方式为预设的至少两种IPD参数提取方式中的一种;根据确定的当前帧的多声道信号的IPD参数的提取方式提取当前帧的多声道信号的IPD参数(S103)。可提高IPD参数的提取方式的选择多样性,更好地保持相位信息,提升音频的编码质量的优点。

Description

一种声道间相位差参数的提取方法及装置
本申请是分案申请,原申请的申请号是201780004928.9,原申请日是2017年5月25日,原申请的全部内容通过引用结合在本申请中。
技术领域
本发明涉及通信技术领域,尤其涉及一种声道间相位差参数的提取方法及装置。
背景技术
随着生活质量的提高,人们对高质量的音频的需求不断增大。相对于单声道音频,立体声音频具有各声源的方位感和分布感,能够提高音频信息的清晰度和可懂度,增强音频播放的临场感,因而备受人们的青睐。
参数立体声(Parametric Stereo,PS)编码是常用的立体声处理技术的编码方式之一。PS编码根据空间感知特性对立体声信号(即多声道信号)进行编解码处理,将多声道信号的编解码转换为单声道音频信号的编解码和空间感知参数的编解码。PS编码中的空间感知参数包括声道间相关性(Inter-channel Coherence,IC)、声道间电平差(Inter-channel Level Difference,ILD)、声道间时间差(Inter-channel Time Difference,ITD)和声道间相位差(Inter-channel Phase Difference,IPD)等。其中,ITD和IPD为表示声源水平方位的空间感知参数。ILD、ITD和IPD决定人耳对声源位置的感知,可以有效确定声场位置,对立体声信号的恢复具有重大作用,因此,IPD等参数的确定对立体声信号的恢复具有重要作用。
现有技术一中,立体声信号的每一帧的IPD参数是将时域信号变换为频域信号,将频域信号划分为多个子带,逐个子带计算IPD参数,通过对每个子带的IPD参数进行量化编码之后用于立体声信号的编码。现有技术一的IPD参数计算需要对多个子带的频域信号进行逐个子带计算,占用资源多,编码速率低。
现有技术二中,立体声信号的每一帧的IPD参数是将时域信号变换为频域信号,再基于频域信号计算一帧的IPD参数,称为全局声道间相位差(即Group IPD)参数,最后通过对Group IPD参数进行量化编码之后用于立体声信号的编码。现有技术二只提取了一个IPD参数(即Group IPD参数)进而仅能对一个IPD参数进行量化编码,虽然占用资源少,但是提取的相位信息精度低,编码质量差。
发明内容
本申请提供一种声道间相位差参数的提取方法及装置,可提高IPD参数的提取方式的选择多样性,更好地保持相位信息,提升音频的编码质量。
第一方面,提供了一种声道间相位差参数的提取方法,其可包括:
获取用于确定多声道信号的当前帧的信息提取方式的参数;
根据所述用于确定多声道信号的当前帧的信息提取方式的参数确定当前帧的多声道信号的声道间相位差IPD参数的提取方式,所述确定的当前帧的多声道信号的IPD参数的提取方式为预设的至少两种IPD参数提取方式中的一种;
根据所述确定的当前帧的多声道信号的IPD参数的提取方式提取所述当前帧的多声道信号的IPD参数。
本申请所提供的方法可预先设定多种声道间相位差IPD参数的提取方式,进而可在确定当前帧的多声道信号的IPD参数的提取方式时,根据获取到的用于确定多声道信号的当前帧的信息提取方式的参数确定上述当前帧的多声道信号的IPD参数的提取方式,进而可根据确定的IPD参数的提取方式提取当前帧的多声道信号的IPD参数。本申请提高了当前帧的多声道信号的IPD参数的提取方式的选择多样性,增强了当前帧的多声道信号的IPD参数的提取方式与当前帧的信息提取方式确定参数的相关性,可更好地保持相位信息,提升多声道信号的编码质量。
结合第一方面,在第一种可能的实现方式中,所述用于确定多声道信号的当前帧的信息提取方式的参数包括当前帧的信号特性参数和所述当前帧的前A帧的信号特性参数中的至少一种,其中,所述A为不小于1的整数;
其中,所述当前帧的信号特性参数包括所述当前帧的左右声道相关值、所述当前帧的表示左右声道相关性的参数、所述当前帧的子带IPD的方差、所述当前帧的信号类型以及所述当前帧的声道间时间差ITD中的至少一种;
所述当前帧的前A帧的信号特性参数包括所述当前帧的前A帧的每一帧的左右声道相关值、所述当前帧的前A帧的每一帧的表示左右声道相关性的参数、所述当前帧的前A帧的每一帧的子带IPD的方差、所述当前帧的前A帧的每一帧的ITD、所述当前帧的前A帧的每一帧的IPD参数的提取方式以及所述当前帧的前A帧的每一帧的信号类型中的至少一种;
其中,所述信号类型包括语音帧或者音乐帧。
本申请所提供的用于确定多声道信号的当前帧的信息提取方式的参数包括当前帧的信号特性参数,或者当前帧的前A帧的信号特性参数,或者当前帧的信号特性参数和当前帧的前A帧的信号特性参数等。其中,当前帧的信号特性参数和当前帧的前A帧的信号特性参数可包括一种或者多种,增强了当前帧的多声道信号的IPD参数的提取方式与当前帧的信号特性参数或者当前帧的前A帧的信号特性参数的相关性,提高了当前帧的多声道信号的IPD参数的提取方式的适用性。
结合第一方面第一种可能的实现方式,在第二种可能的实现方式中,所述用于确定多声道信号的当前帧的信息提取方式的参数包括所述当前帧的左右声道相关值和所述当前帧的子带IPD的方差;
若所述当前帧的左右声道相关值大于第一阈值,并且所述当前帧的子带IPD的方差小于第二阈值,所述根据所述用于确定多声道信号的当前帧的信息提取方式的参数确定当前帧的多声道信号的IPD参数的提取方式包括:
确定所述当前帧的多声道信号的IPD参数的提取方式为第一提取方式。
本申请提供的方法可在当前帧的左右声道相关值满足条件并且当前帧的子带IPD的方差也满足条件时,将当前帧的多声道信号的IPD参数的提取方式确定为第一提取方式,增强了第一提取方式与当前帧的左右声道相关值和当前帧的多声道信号的子带IPD的方差的相关性,提高了当前帧的多声道信号的IPD参数的提取方式的适用性。
结合第一方面第一种可能的实现方式,在第三种可能的实现方式中,所述用于确定多声道信号的当前帧的信息提取方式的参数包括所述当前帧的表示左右声道相关性的参数和所述当前帧的子带IPD的方差;
若所述当前帧的表示左右声道相关性的参数的值大于第一阈值,并且所述当前帧的子带IPD的方差小于第二阈值,所述根据所述用于确定多声道信号的当前帧的信息提取方式的参数确定当前帧的多声道信号的IPD参数的提取方式包括:
确定所述当前帧的多声道信号的IPD参数的提取方式为第一提取方式。
本申请提供的方法可在当前帧的表示左右声道相关性的参数满足条件时,将当前帧的多声道信号的IPD参数的提取方式确定为第一提取方式,提高了当前帧的多声道信号的IPD参数的提取方式的适用性。
结合第一方面第二种可能的实现方式,在第四种可能的实现方式中,所述第一阈值为0.75。
结合第一方面第一种可能的实现方式,在第五种可能的实现方式中,所述用于确定多声道信号的当前帧的信息提取方式的参数包括所述当前帧的前A帧的每一帧的IPD参数的提取方式和所述当前帧的前A帧的每一帧的信号类型;
若所述当前帧的前A帧的每一帧的IPD参数的提取方式均为第一提取方式,并且所述当前帧的前A帧的每一帧的信号类型均为音乐帧,所述根据所述用于确定多声道信号的当前帧的信息提取方式的参数确定当前帧的多声道信号的IPD参数的提取方式包括:
确定所述当前帧的多声道信号的IPD参数的提取方式为第一提取方式。
本申请提供的方法可在当前帧的前A帧的每一帧的IPD参数的提取方式符合要求,并且当前帧的前A帧的每一帧的信号类型符合要求时,将当前帧的多声道信号的IPD参数的提取方式确定为第一提取方式,增强了第一提取方式与当前帧的前A帧的信号特性参数的关联性,可提高当前帧的多声道信号的IPD参数的提取方式的选择准确性。
结合第一方面第一种可能的实现方式,在第六种可能的实现方式中,所述用于确定多声道信号的当前帧的信息提取方式的参数包括所述当前帧的ITD参数、所述当前帧的子带IPD的方差,以及所述当前帧的前A帧的每一帧的信号类型;
若所述当前帧的ITD参数的值大于第三阈值、所述当前帧的子带IPD的方差小于第四阈值,并且所述当前帧的前A帧的每一帧的信号类型均为语音帧,所述根据所述用于确定多声道信号的当前帧的信息提取方式的参数确定当前帧的多声道信号的IPD参数的提取方式包括:
确定所述当前帧的多声道信号的IPD参数的提取方式为第一提取方式。
本申请提供的方法可在当前帧的ITD参数和子带IPD的方差等当前帧的信号特性参数满足条件,并且当前帧的前A帧的每一帧的信号类型符合要求时,将当前帧的多声道信号的IPD参数的提取方式确定为第一提取方式,增强了第一提取方式与当前帧的信号特性参数以及当前帧的前A帧的信号特性参数的相关性,可提高当前帧的多声道信号的IPD参数的提取方式的适用性。
结合第一方面第二种可能的实现方式至第一方面第六种可能的实现方式中任一种,在第七种可能的实现方式中,所述第一提取方式包括:当前帧的多声道信号的全局声道间相位差Group IPD参数提取方式,或者,不提取当前帧的多声道信号的IPD参数,或者,将当前帧的多声道信号的IPD参数设置为0。
本申请提供了两种可选的实现方式作为第一提取方式,提高了当前帧的多声道信号的IPD参数的提取方式的选择多样性,增强当前帧的多声道信号的IPD参数的提取方法的适用性。
结合第一方面第七种可能的实现方式,在第八种可能的实现方式中,当所述第一提取方式为当前帧的多声道信号的Group IPD参数提取方式时,所述根据所述确定的当前帧的多声道信号的IPD参数的提取方式提取所述当前帧的多声道信号的IPD参数包括:
提取所述当前帧的左右声道频域信号的子带的IPD参数,根据所述提取的子带的IPD参数确定所述当前帧的多声道信号的Group IPD。
本申请提供的方法可在确定当前帧的多声道信号的IPD参数的提取方式为GroupIPD提取方式时,提取当前帧的左右声道频域信号的子带的IPD参数,并根据提取的子带的IPD参数确定当前帧的多声道信号的Group IPD,增强了当前帧的多声道信号的Group IPD与当前帧的左右声道频域信号的子带的IPD参数的相关性,可提高IPD参数的编码质量。当前帧的多声道信号的IPD参数的提取方式采用Group IPD提取方式时IPD参数的编码占用的比特较少,可将更多的比特用于其他参数的编码,进而可提升音频的编码质量。
结合第一方面第二种可能的实现方式至第一方面第六种可能的实现方式中任一种,在第九种可能的实现方式中,若所述当前帧的多声道信号的IPD参数的提取方式不为第一提取方式,所述根据所述用于确定多声道信号的当前帧的信息提取方式的参数确定当前帧的多声道信号的IPD参数的提取方式还包括:
确定当前帧的多声道信号的IPD参数的提取方式为第二提取方式;
其中,所述第二提取方式包括:子带集合IPD参数提取方式或者子带IPD参数提取方式。
结合第一方面第九种可能的实现方式,在第十种可能的实现方式中,所述第二提取方式为子带集合IPD参数提取方式,所述确定当前帧的多声道信号的IPD参数的提取方式为第二提取方式包括:
将所述当前帧的多声道信号的左右声道频域信号的子带划分为至少二个子带集合,每个所述子带集合中包含至少1个子带,并且至少有一个子带集合包括了至少2个子带;
获取每个所述子带集合的子带IPD的方差;
若每个所述子带集合的子带IPD的方差均小于第二阈值,并且所述当前帧的左右声道相关值大于第一阈值,则确定所述当前帧的多声道信号的IPD参数的提取方式为子带集合IPD参数提取方式;
所述根据所述确定的当前帧的多声道信号的IPD参数的提取方式提取所述当前帧的多声道信号的IPD参数包括:
计算所述至少二个子带集合中每个子带集合的IPD参数。
本申请提供的方法可在确定当前帧的多声道信号的IPD参数不是第一提取方式时,进一步根据当前帧的左右声道频域信号的子带划分得到的多个的子带集合的子带IPD确定当前帧的多声道信号的IPD参数的提取方式。当划分得到的每个子带集合的子带IPD的方差满足条件,并且当前帧的左右声道相关值也满足条件时,将当前帧的多声道信号的IPD参数的提取方式确定为子带集合IPD参数提取方式,进而可计算每个子带集合的IPD参数以将每个子带集合的IPD参数确定为当前帧的多声道信号的IPD参数。本申请可提高当前帧的多声道信号的IPD参数的提取方式的选择多样性,采用多个IPD参数作为当前帧的多声道信号的IPD参数可更好地保持相位信息,进而可提高音频编码的准确性,同时将子带划分为子带集合提取的IPD参数少于逐个子带提取的IPD参数的个数,可将更多的比特用于其他参数的编码,可提高音频的编码质量。
结合第一方面第九种可能的实现方式,在第十一种可能的实现方式中,所述第二提取方式为子带集合IPD参数提取方式,所述确定当前帧的多声道信号的IPD参数的提取方式为第二提取方式包括:
将所述当前帧的多声道信号的左右声道频域信号的子带划分为至少二个子带集合,每个所述子带集合中包含至少1个子带,并且至少有一个子带集合包括了至少2个子带;
计算所述至少二个子带集合中每个子带集合的IPD参数。
结合第一方面第九种可能的实现方式,在第十二种可能的实现方式中,所述第二提取方式为子带IPD参数提取方式,所述确定当前帧的多声道信号的IPD参数的提取方式为第二提取方式包括:
若至少一个所述子带集合的子带IPD的方差大于所述第二阈值,或者所述当前帧的左右声道相关值小于或等于所述第一阈值,则确定所述当前帧的多声道信号的IPD参数的提取方式为子带IPD参数提取方式;
所述根据所述确定的当前帧的多声道信号的IPD参数的提取方式提取所述当前帧的多声道信号的IPD参数包括:
计算所述当前帧的左右声道频域信号的各个子带或部分子带的IPD参数。
本申请提供的方法可在确定当前帧的多声道信号的IPD参数不是第一提取方式时,将当前帧的多声道信号的IPD参数的提取方式确定为子带IPD参数提取方式,进而可计算当前帧的左右声道频域信号的每个子带或部分子带的IPD参数以将每个子带的IPD参数确定为当前帧的多声道信号的IPD参数。本申请可提高当前帧的多声道信号的IPD参数的提取方式的选择多样性,采用当前帧的左右声道频域信号的每个子带或部分子带的IPD参数作为当前帧的多声道信号的IPD参数可更好地保持相位信息,进而可提高音频编码的准确性。
结合第一方面第九种可能的实现方式,在第十三种可能的实现方式中,所述第二提取方式为子带IPD参数提取方式,所述确定当前帧的多声道信号的IPD参数的提取方式为第二提取方式包括:
计算所述当前帧的左右声道频域信号的各个子带或部分子带的IPD参数。
结合第一方面第一种可能的实现方式,在第十四种可能的实现方式中,在所述用于确定多声道信号的当前帧的信息提取方式的参数包括所述当前帧的左右声道相关值时,所述获取用于确定多声道信号的当前帧的信息提取方式的参数,包括:
获取所述多声道信号的当前帧的左右声道时域信号,将所述左右声道时域信号变换为左右声道频域信号;
根据所述左右声道频域信号计算所述当前帧的多声道信号的左右声道相关值。
本申请提供的方法可将多声道信号的当前帧的左右声道时域信号变换为左右声道频域信号,并根据左右声道频域信号计算当前帧的左右声道相关值,以供当前帧的多声道信号的IPD参数的提取方式的确定,可提高当前帧的多声道信号的IPD参数的提取方式的确定与当前帧的左右声道频域信号的相关性,增强IPD参数的提取方式的确定的准确性。
结合第一方面第一种可能的实现方式,在第十五种可能的实现方式中,在所述用于确定多声道信号的当前帧的信息提取方式的参数包括所述当前帧的子带IPD的方差时,所述获取用于确定多声道信号的当前帧的信息提取方式的参数,包括:
获取所述多声道信号的当前帧的左右声道时域信号,将所述左右声道时域信号变换为左右声道频域信号;
将所述左右声道频域信号划分为至少二个子带,并根据每个所述子带的频域信号计算每个所述子带的IPD,并根据每个所述子带的IPD计算所述当前帧的子带IPD的方差。
本申请提供的方法可将多声道信号的当前帧的左右声道时域信号变换为左右声道频域信号,并根据左右声道频域信号计算当前帧的每个子带的IPD,进而可计算当前帧的子带IPD的方差,以供当前帧的多声道信号的IPD参数的提取方式的确定,可提高当前帧的多声道信号的IPD参数的提取方式的确定与当前帧的左右声道频域信号的相关性,增强IPD参数的提取方式的确定的准确性。
第二方面,提供了一种声道间相位差参数的提取装置,其可包括:
获取模块,用于获取用于确定多声道信号的当前帧的信息提取方式的参数;
确定模块,用于根据所述获取模块获取的所述用于确定多声道信号的当前帧的信息提取方式的参数确定当前帧的多声道信号的声道间相位差IPD参数的提取方式,所述确定的当前帧的多声道信号的IPD参数的提取方式为预设的至少两种IPD参数提取方式中的一种;
提取模块,用于根据所述确定模块确定的当前帧的多声道信号的IPD参数的提取方式提取所述当前帧的多声道信号的IPD参数。
本申请所提供的提取装置可预先设定多种声道间相位差IPD参数的提取方式,进而可在确定当前帧的多声道信号的IPD参数的提取方式时,根据获取到的用于确定多声道信号的当前帧的信息提取方式的参数确定上述当前帧的多声道信号的IPD参数的提取方式,进而可根据确定的IPD参数的提取方式提取当前帧的多声道信号的IPD参数。本申请提高了当前帧的多声道信号的IPD参数的提取方式的选择多样性,增强了当前帧的多声道信号的IPD参数的提取方式与当前帧的信息提取方式确定参数的相关性,可更好地保持相位信息,提升多声道信号的编码质量。
结合第二方面,在第一种可能的实现方式中,所述用于确定多声道信号的当前帧的信息提取方式的参数包括当前帧的信号特性参数和所述当前帧的前A帧的信号特性参数中的至少一种,其中,所述A为不小于1的整数;
其中,所述当前帧的信号特性参数包括所述当前帧的左右声道相关值、所述当前帧的表示左右声道相关性的参数、所述当前帧的子带IPD的方差、所述当前帧的信号类型以及所述当前帧的声道间时间差ITD中的至少一种;
所述当前帧的前A帧的信号特性参数包括所述当前帧的前A帧的每一帧的左右声道相关值、所述当前帧的前A帧的每一帧的表示左右声道相关性的参数、所述当前帧的前A帧的每一帧的子带IPD的方差、所述当前帧的前A帧的每一帧的ITD、所述当前帧的前A帧的每一帧的IPD参数的提取方式以及所述当前帧的前A帧的每一帧的信号类型中的至少一种;
其中,所述信号类型包括语音帧或者音乐帧。
结合第二方面第一种可能的实现方式,在第二种可能的实现方式中,所述用于确定多声道信号的当前帧的信息提取方式的参数包括所述当前帧的左右声道相关值和所述当前帧的子带IPD的方差;
若所述当前帧的左右声道相关值大于第一阈值,并且所述当前帧的子带IPD的方差小于第二阈值,所述确定模块具体用于:
确定所述当前帧的多声道信号的IPD参数的提取方式为第一提取方式。
结合第二方面第一种可能的实现方式,在第三种可能的实现方式中,所述用于确定多声道信号的当前帧的信息提取方式的参数包括所述当前帧的表示左右声道相关性的参数;
若所述当前帧的表示左右声道相关性的参数的值大于第一阈值,所述确定模块具体用于:
确定所述当前帧的多声道信号的IPD参数的提取方式为第一提取方式。
结合第二方面第三种可能的实现方式,在第四种可能的实现方式中,所述第一阈值为0.75。
结合第二方面第一种可能的实现方式,在第五种可能的实现方式中,所述用于确定多声道信号的当前帧的信息提取方式的参数包括所述当前帧的前A帧的每一帧的IPD参数的提取方式和所述当前帧的前A帧的每一帧的信号类型;
若所述当前帧的前A帧的每一帧的IPD参数的提取方式均为第一提取方式,并且所述当前帧的前A帧的每一帧的信号类型均为音乐帧,所述确定模块具体用于:
确定所述当前帧的多声道信号的IPD参数的提取方式为第一提取方式。
结合第二方面第一种可能的实现方式,在第六种可能的实现方式中,所述用于确定多声道信号的当前帧的信息提取方式的参数包括所述当前帧的ITD参数、所述当前帧的子带IPD的方差,以及所述当前帧的前A帧的每一帧的信号类型;
若所述当前帧的ITD参数的值大于第三阈值、所述当前帧的子带IPD的方差小于第四阈值,并且所述当前帧的前A帧的每一帧的信号类型均为语音帧,所述确定模块具体用于:
确定所述当前帧的多声道信号的IPD参数的提取方式为第一提取方式。
结合第二方面第二种可能的实现方式至第二方面第六种可能的实现方式中人一种,在第七种可能的实现方式中,所述第一提取方式包括:当前帧的多声道信号的全局声道间相位差Group IPD参数提取方式,或者,不提取当前帧的多声道信号的IPD参数,或者,将当前帧的多声道信号的IPD参数设置为0。
结合第二方面第七种可能的实现方式,在第八种可能的实现方式中,当所述确定模块确定所述当前帧的多声道信号的IPD参数的提取方式为Group IPD提取方式时,所述提取模块具体用于:
提取所述当前帧的左右声道频域信号的子带的IPD参数,根据所述提取的子带的IPD参数确定所述当前帧的多声道信号的Group IPD。
结合第二方面第二种可能的实现方式至第二方面第五种可能的实现方式中人一种,在第九种可能的实现方式中,若所述当前帧的多声道信号的IPD参数的提取方式不为第一提取方式,所述确定模块具体用于:
确定当前帧的多声道信号的IPD参数的提取方式为第二提取方式;
其中,所述第二提取方式包括:子带集合IPD参数提取方式或者子带IPD参数提取方式。
结合第二方面第九种可能的实现方式,在第十种可能的实现方式中,所述第二提取方式为子带集合IPD参数提取方式,所述确定模块具体用于:
将所述当前帧的多声道信号的左右声道频域信号的子带划分为至少二个子带集合,每个所述子带集合中包含至少1个子带,并且至少有一个子带集合包括了至少2个子带;
获取每个所述子带集合的子带IPD的方差;
若每个所述子带集合的子带IPD的方差均小于第二阈值,并且所述当前帧的左右声道相关值大于第一阈值,则确定所述当前帧的多声道信号的IPD参数的提取方式为子带集合IPD参数提取方式;
所述提取模块具体用于:
计算所述获取模块确定的所述至少二个子带集合中每个子带集合的IPD参数。
结合第二方面第九种可能的实现方式,在第十一种可能的实现方式中,所述第二提取方式为子带集合IPD参数提取方式,所述确定模块具体用于:
将所述当前帧的多声道信号的左右声道频域信号的子带划分为至少二个子带集合,每个所述子带集合中包含至少1个子带,并且至少有一个子带集合包括了至少2个子带;
所述提取模块具体用于:
计算所述获取模块确定的所述至少二个子带集合中每个子带集合的IPD参数。
结合第二方面第十种可能的实现方式,在第十二种可能的实现方式中,所述第二提取方式为子带IPD参数提取方式,所述确定模块具体用于:
若至少一个所述子带集合的子带IPD的方差大于所述第二阈值,或者所述当前帧的左右声道相关值小于或等于所述第一阈值,则确定所述当前帧的多声道信号的IPD参数的提取方式为子带IPD参数提取方式;
所述提取模块具体用于:
计算所述当前帧的左右声道频域信号的各个子带的IPD参数。
结合第二方面第十种可能的实现方式,在第十三种可能的实现方式中,所述第二提取方式为子带IPD参数提取方式,所述提取模块具体用于:
计算所述当前帧的左右声道频域信号的各个子带的IPD参数。
结合第二方面第一种可能的实现方式,在第十四种可能的实现方式中,在所述用于确定多声道信号的当前帧的信息提取方式的参数包括所述当前帧的左右声道相关值时,所述获取模块具体用于:
获取所述多声道信号的当前帧的左右声道时域信号,将所述左右声道时域信号变换为左右声道频域信号;
根据所述左右声道频域信号计算所述当前帧的左右声道相关值。
结合第二方面第一种可能的实现方式,在第十五种可能的实现方式中,在所述用于确定多声道信号的当前帧的信息提取方式的参数包括所述当前帧的子带IPD的方差时,所述获取模块具体用于:
获取所述多声道信号的当前帧的左右声道时域信号,将所述左右声道时域信号变换为左右声道频域信号;
将所述左右声道频域信号划分为至少二个子带,并根据每个所述子带的频域信号计算每个所述子带的IPD,并根据每个所述子带的IPD计算所述当前帧的子带IPD的方差。
本申请在当前帧的多声道信号的IPD参数的提取方式采用Group IPD提取方式时IPD参数的编码占用的比特较少,可将更多的比特用于其他参数的编码,进而可提升音频的编码质量。本申请还可采用多个IPD参数作为当前帧的多声道信号的IPD参数可更好地保持相位信息,进而可提高音频编码的准确性,同时将子带划分为子带集合提取的IPD参数少于逐个子带提取的IPD参数的个数,可将更多的比特用于其他参数的编码,可提高音频的编码质量。
第三方面,提供了一种终端,包括:存储器和处理器,所述存储器和所述处理器相连;
所述存储器用于存储一组程序代码;
所述处理器用于调用所述存储器中存储的程序代码执行如下操作:
获取用于确定多声道信号的当前帧的信息提取方式的参数;
根据所述用于确定多声道信号的当前帧的信息提取方式的参数确定当前帧的多声道信号的声道间相位差IPD参数的提取方式,所述确定的当前帧的多声道信号的IPD参数的提取方式为预设的至少两种IPD参数提取方式中的一种;
根据所述确定的当前帧的多声道信号的IPD参数的提取方式提取所述当前帧的多声道信号的IPD参数。
本申请所提供的终端可预先设定多种声道间相位差IPD参数的提取方式,进而可在确定当前帧的多声道信号的IPD参数的提取方式时,根据获取到的用于确定多声道信号的当前帧的信息提取方式的参数确定上述当前帧的多声道信号的IPD参数的提取方式,进而可根据确定的IPD参数的提取方式提取当前帧的多声道信号的IPD参数。本申请提高了当前帧的多声道信号的IPD参数的提取方式的选择多样性,增强了当前帧的多声道信号的IPD参数的提取方式与当前帧的信息提取方式确定参数的相关性,可更好地保持相位信息,提升多声道信号的编码质量。
结合第三方面,在第一种可能的实现方式中,所述用于确定多声道信号的当前帧的信息提取方式的参数包括当前帧的信号特性参数和当前帧的前A帧的信号特性参数中的至少一种,其中,所述A为不小于1的整数;
其中,所述当前帧的信号特性参数包括所述当前帧的左右声道相关值、所述当前帧的子带IPD的方差以及所述当前帧的声道间时间差ITD中的至少一种;
所述当前帧的前A帧的信号特性参数包括所述当前帧的前A帧的每一帧的左右声道相关值、所述当前帧的前A帧的每一帧的子带IPD的方差、所述当前帧的前A帧的每一帧的ITD、所述当前帧的前A帧的每一帧的IPD参数的提取方式以及所述当前帧的前A帧的每一帧的信号类型中的至少一种;
其中,所述信号类型包括语音帧或者音乐帧。
结合第三方面第一种可能的实现方式,在第二种可能的实现方式中,所述用于确定多声道信号的当前帧的信息提取方式的参数包括所述当前帧的左右声道相关值和所述当前帧的子带IPD的方差;
若所述当前帧的左右声道相关值大于第一阈值,并且所述当前帧的子带IPD的方差小于第二阈值,所述处理器具体用于:
确定所述当前帧的多声道信号的IPD参数的提取方式为第一提取方式。
结合第三方面第一种可能的实现方式,在第三种可能的实现方式中,所述用于确定多声道信号的当前帧的信息提取方式的参数包括所述当前帧的前A帧的每一帧的IPD参数的提取方式和所述当前帧的前A帧的每一帧的信号类型;
若所述当前帧的前A帧的每一帧的IPD参数的提取方式均为第一提取方式,并且所述当前帧的前A帧的每一帧的信号类型均为音乐帧,所述处理器具体用于:
确定所述当前帧的多声道信号的IPD参数的提取方式为第一提取方式。
结合第三方面第一种可能的实现方式,在第四种可能的实现方式中,所述用于确定多声道信号的当前帧的信息提取方式的参数包括所述当前帧的ITD参数、所述当前帧的子带IPD的方差,以及所述当前帧的前A帧的每一帧的信号类型;
若所述当前帧的ITD参数的值大于第三阈值、所述当前帧的子带IPD的方差小于第四阈值,并且所述当前帧的前A帧的每一帧的信号类型均为语音帧,所述处理器具体用于:
确定所述当前帧的多声道信号的IPD参数的提取方式为第一提取方式。
结合第三方面第二种可能的实现方式至第三方面第四种可能的实现方式中任一种,在第五种可能的实现方式中,所述第一提取方式包括:当前帧的多声道信号的全局声道间相位差Group IPD参数提取方式,或者,不提取当前帧的多声道信号的IPD参数。
结合第三方面第五种可能的实现方式,在第六种可能的实现方式中,当所述第一提取方式为当前帧的多声道信号的Group IPD参数提取方式时,所述处理器具体用于:
提取所述当前帧的左右声道频域信号的子带的IPD参数,根据所述提取的子带的IPD参数确定所述当前帧的多声道信号的Group IPD。
结合第三方面第二种可能的实现方式至第三方面第四种可能的实现方式中任一种,在第七种可能的实现方式中,若所述当前帧的多声道信号的IPD参数的提取方式不为第一提取方式,所述处理器具体用于:
确定当前帧的多声道信号的IPD参数的提取方式为第二提取方式;
其中,所述第二提取方式包括:子带集合IPD参数提取方式或者子带IPD参数提取方式。
结合第三方面第七种可能的实现方式,在第八种可能的实现方式中,所述第二提取方式为子带集合IPD参数提取方式,所述处理器具体用于:
将所述当前帧的多声道信号的左右声道频域信号的子带划分为至少二个子带集合,每个所述子带集合中包含至少1个子带,并且至少有一个子带集合包括了至少2个子带;
获取每个所述子带集合的子带IPD的方差;
若每个所述子带集合的子带IPD的方差均小于第二阈值,并且所述当前帧的左右声道相关值大于第一阈值,则确定所述当前帧的多声道信号的IPD参数的提取方式为子带集合IPD参数提取方式;
计算所述至少二个子带集合中每个子带集合的IPD参数。
结合第三方面第八种可能的实现方式,在第九种可能的实现方式中,所述第二提取方式为子带IPD参数提取方式,所述处理器具体用于:
若至少一个所述子带集合的子带IPD的方差大于所述第二阈值,或者所述当前帧的左右声道相关值小于或等于所述第一阈值,则确定所述当前帧的多声道信号的IPD参数的提取方式为子带IPD参数提取方式;
计算所述当前帧的左右声道频域信号的各个子带的IPD参数。
结合第三方面第一种可能的实现方式,在第十种可能的实现方式中,在所述用于确定多声道信号的当前帧的信息提取方式的参数包括所述当前帧的左右声道相关值时,所述处理器具体用于:
获取所述多声道信号的当前帧的左右声道时域信号,将所述左右声道时域信号变换为左右声道频域信号;
根据所述左右声道频域信号计算所述当前帧的左右声道相关值。
结合第三方面第一种可能的实现方式,在第十一种可能的实现方式中,在所述用于确定多声道信号的当前帧的信息提取方式的参数包括所述当前帧的子带IPD的方差时,所述处理器具体用于:
获取所述多声道信号的当前帧的左右声道时域信号,将所述左右声道时域信号变换为左右声道频域信号;
将所述左右声道频域信号划分为至少二个子带,并根据每个所述子带的频域信号计算每个所述子带的IPD,并根据每个所述子带的IPD计算所述当前帧的子带IPD的方差。
本申请在当前帧的多声道信号的IPD参数的提取方式采用Group IPD提取方式时IPD参数的编码占用的比特较少,可将更多的比特用于其他参数的编码,进而可提升音频的编码质量。本申请还可采用多个IPD参数作为当前帧的多声道信号的IPD参数可更好地保持相位信息,进而可提高音频编码的准确性,同时将子带划分为子带集合提取的IPD参数少于逐个子带提取的IPD参数的个数,可将更多的比特用于其他参数的编码,可提高音频的编码质量。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是PS编码的原理示意图;
图2是PS解码的原理示意图;
图3是本发明实施例提供的IPD参数的提取方法的一流程示意图;
图4是本发明实施例提供的IPD参数的提取方法的另一流程示意图;
图5是用于多声道信号编码的总比特数的分配示意图;
图6a是多声道信号的原始信号语谱图;
图6b是原始信号语谱图解码得到的一音频信号语谱图;
图6c是原始信号语谱图解码得到的另一音频信号语谱图;
图7是本发明实施例提供的IPD参数的提取装置的结构示意图;
图8是本发明实施例提供的终端的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,图1是PS编码的原理示意图。
在PS编码中,编码端将多声道(例如x1声道和x2声道)输入的立体声信号的编码下混(downmix)为单声道音频信号,并通过空间感知参数分析来提取立体声信号的空间感知参数,进而通过单声道音频信号编码得到单声道音频比特流,通过空间感知参数编码得到空间感知参数比特流。进一步的,编码端通过单声道音频比特流和空间感知参数比特流的比特流复用得到立体声信号编码的比特流。
参见图2,图2是PS解码的原理示意图。
解码端将立体声信号编码的比特流进行比特流解复用得到单声道音频比特流和空间感知参数比特流,再对单声道音频比特流进行单声道音频信号解码,对空间感知参数比特流进行空间感知参数解码。进一步的,解码端将单声道音频信号解码后借助空间感知参数来合成重建立体声信号。
具体实现中,上述PS编码和PS解码中的空间感知参数包括IC、ILD、ITD和IPD等。其中,IC描述了声道间的互相关或相干性,该参数决定了声场范围的感知,可以提高音频信号空间感和声响稳定性。ILD用于分辨立体声源的水平方向角度,描述了声道间的强度差别,该参数将影响整个频谱的频率成分。ITD和IPD为表示声源水平方位的空间感知参数。ILD、ITD和IPD决定人耳对声源位置的感知,可以有效确定声场位置,对立体声信号的恢复具有重大作用。因此,IPD等参数的确定对立体声信号的恢复具有重要作用。
下面将结合图3至图8对本发明实施例提供的IPD参数的提取方法及装置进行具体说明。
参见图3,是本发明实施例提供的IPD参数的提取方法的一流程示意图。本发明实施例提供的方法包括步骤:
S101,获取用于确定多声道信号的当前帧的信息提取方式的参数。
具体实现中,本发明实施例提供的IPD参数的提取方法的执行主体可为多声道信号编码的编码端。编码端根据本发明实施例提供的IPD参数的提取方法提取当前帧的多声道信号的IPD参数之后,则可对提取的IPD参数进行量化编码。解码端解码得到IPD参数之后,则可将解码得到的IPD参数用于立体声合成处理。下面将对本发明实施例提供的IPD参数的提取方法进行具体描述。
在一些可行的实施方式中,编码端提取当前帧的多声道信号的IPD参数时,可首先获取用于确定多声道信号的当前帧的信息提取方式的参数,进而可根据上述当前帧的信息提取方式确定参数确定当前帧的多声道信号的IPD参数的提取方式。即,上述当前帧的信息提取方式确定参数用于确定当前帧的多声道信号的IPD参数等信息的提取方式。具体实现中,上述用于确定多声道信号的当前帧的信息提取方式的参数包括当前帧的信号特性参数和上述当前帧的前A帧的信号特性参数中的至少一种。即,上述用于确定多声道信号的当前帧的信息提取方式的参数可包括当前帧的信号特性参数,或者当前帧的前A帧的信号特性参数,或者当前帧的信号特性参数和当前帧的前A帧的信号特性参数等,具体可根据实际应用场景确定,在此不做限制。其中,上述A为不小于1的整数,即上述当前帧的前A帧可为当前帧的前一帧、前二帧或者前三帧等,在此不做限制。
具体实现中,上述当前帧的信号特性参数可包括当前帧的左右声道相关值、所述当前帧的表示左右声道相关性的参数、当前帧的子带IPD的方差、所述当前帧的信号类型以及当前帧的ITD等参数中的一种或者多种。其中,上述当前帧的左右声道相关值、所述当前帧的表示左右声道相关性的参数和当前帧的子带IPD的方差可根据多声道信号的左右声道频域信号计算得到。上述当前帧的ITD参数可由编码端根据多声道信号的当前帧的ITD参数的提取方式确定,其中,上述当前帧的ITD参数的提取方式可包括标准协议中提供的提取方式,或者现有的本领域技术人员公知的提取方式,在此不做限制。
上述当前帧的前A帧的信号特性参数包括当前帧的前A帧的每一帧的左右声道相关值、当前帧的前A帧的每一帧的表示左右声道相关性的参数、当前帧的前A帧的每一帧的子带IPD的方差、当前帧的前A帧的每一帧的ITD、当前帧的前A帧的每一帧的IPD参数的提取方式以及当前帧的前A帧的每一帧的信号类型中的至少一种。即,上述当前帧的前A帧的信号特性参数可包括当前帧的前A帧的每一帧的IPD参数的提取方式,或者当前帧的前A帧的每一帧的信号类型,或者当前帧的前A帧的每一帧的IPD参数的提取方式和信号类型等,具体可根据实际应用场景确定,在此不做限制。其中,上述当前帧的前A帧的每一帧的IPD参数的提取方式可包括编码端根据多声道信号的当前帧的前A帧的信息提取方式确定参数确定的多声道信号的当前帧的前A帧的每一帧的IPD参数的提取方式,或者标准协议中提供的IPD参数的提取方式,或者现有的本领域技术人员公知的IPD参数的提取方式等,在此不做限制。上述信号类型可包括语音帧或者音乐帧。
在一些可行的实施方式中,编码端可对多声道信号的当前帧的左右声道时域信号进行时频变换,得到当前帧的左右声道频域信号。具体的,上述时频变换可采用快速傅立叶变换(Fast Fourier Transformation,FFT)或者修正离散余弦变换(Modified DiscreteCosine Transform,MDCT)等实现方式,在此不做限制。其中,时频变换可以以帧为单位进行,也可以以子帧为单位进行。例如,编码端可采用FFT将多声道信号的当前帧的左右声道时域信号变换为左右声道频域信号,具体变换式可包括:
Figure BDA0003843424930000131
Figure BDA0003843424930000132
其中,n为时域信号索引值,k为频域信号索引值;Length为帧长,L为将时域信号变换为频域信号的时频变换长度;xL(n)和xR(n)分别为左右声道时域信号,L(k)和R(k)分别为用于计算IPD参数的左声道频域信号和右声道频域信号的第k个频点值。
实数序列x(n)(包括xL(n)或者xR(n))的傅立叶变换系数X(k)为复数,并且其实部具有偶对称性,虚部具有奇对称性,即X(k)具有如下的共轭对称性:X(0)和X(N/2)都是实数,且满足如下关系式:
X(k)=X*(N-k),1≤k≤L/2-1
在计算离散傅立叶变换时,利用这种共轭对称性,我们就可以不必计算和存储X(k),L/2+1≤k≤L-1以及X(0)和X(L/2)的虚部,而仅需计算X(0)到X(L/2)即可。
编码端将当前帧的左右声道时域信号变换为左右声道频域信号之后,则可根据左右声道频域信号计算当前帧的左右声道相关值。具体的,上述左右声道相关值的表达式如下:
Figure BDA0003843424930000141
其中,L为将时域信号变换为频域信号的时频变换长度,L(k)和R(k)分别为用于计算IPD参数的左声道频域信号和右声道频域信号的第k个频点值。R*(k)为R(k)的共轭,即R*(k)为右声道频域信号的第k个频点值的共轭。
在一些可行的实施方式中,编码端将当前帧的左右声道时域信号按帧或子帧变换为左右声道频域信号之后,可以根据左右声道频域信号计算当前帧的表示左右声道相关性的参数。具体的,上述表示左右声道相关性的参数的表达式如下:
Figure BDA0003843424930000142
Figure BDA0003843424930000143
Figure BDA0003843424930000144
Figure BDA0003843424930000145
Figure BDA0003843424930000146
其中,L(k)和R(k)分别为左声道频域信号和右声道频域信号的第k个频点值,Lr(k)和Rr(k)分别为左声道频域信号和右声道频域信号的第k个频点值的实部,Li(k)和Ri(k)分别为左声道频域信号和右声道频域信号的第k个频点值的虚部;L为子带频谱系数的个数;N为子带个数;
或者,表示左右声道相关性的参数的表达式如下:
Figure BDA0003843424930000147
其中,L为整个频带或部分频带的频谱系数的个数;
或表示左右声道相关性的参数的表达式如下:
Figure BDA0003843424930000148
在一些可行的实施方式中,编码端将当前帧的左右声道时域信号变换为左右声道频域信号之后,还可根据左右声道频域信号计算当前帧的子带IPD的方差。具体的,可首先将当前帧的左右声道频域信号划分为至少二个子带(即多个子带),假设为Nsubband个子带,其中,Nsubband为大于2的整数。进一步的,可根据划分得到的每个子带的频域信号计算每个子带的IPD参数,并根据每个子带的IPD参数计算当前帧的子带IPD的方差。其中,对于第b个子带,b为大于或者等于0并且小于N的整数,包含的频点为Ab-1≤k≤Ab-1,则计算第b个子带的IPD参数可采用如下表达式:
Figure BDA0003843424930000151
其中,L(k)为左声道频域信号第k个频点值,R*(k)为右声道频域信号第k个频点值的共轭。
编码端可按照上述表达式计算得到每个子带的IPD参数,进而可根据每个子带的IPD参数计算当前帧的子带IPD的方差。其中,上述子带IPD的方差可采用如下表达式计算得到:
Figure BDA0003843424930000152
其中,
Figure BDA0003843424930000153
Figure BDA0003843424930000154
编码端计算得到当前帧的左右声道相关值和当前帧的子带IPD的方差之后,如需要根据当前帧的左右声道相关值和当前帧的子带IPD的方差确定当前帧的多声道信号的IPD参数的提取方式,则可直接采用上述当前帧的左右声道相关值和当前帧的子带IPD的方差确定。
编码端确定当前帧的表示左右声道相关性的参数和当前帧的子带IPD的方差之后,如需要根据当前帧的表示左右声道相关性的参数和当前帧的子带IPD的方差确定当前帧的多声道信号的IPD参数的提取方式,则可直接采用上述当前帧的表示左右声道相关性的参数和当前帧的子带IPD的方差确定。
S102,根据所述用于确定多声道信号的当前帧的信息提取方式的参数确定当前帧的多声道信号的IPD参数的提取方式。
具体实现中,本发明实施例提供的IPD参数的提取方法中编码端可根据当前帧的信息提取方式确定参数自适应地选择当前帧的多声道信号的IPD参数的提取方式,从预先设置的多种IPD参数的提取方式中选择一种作为当前帧的多声道信号的IPD参数的提取方式。其中,上述预先设置的多种IPD参数的提取方式可包括:第一提取方式和第二提取方式。其中第一提取方式包括Group IPD提取方式、或者不提取当前帧的多声道信号的IPD参数、或者将当前帧的多声道信号的IPD参数设置为0。上述第二提取方式包括子带集合IPD参数提取方式或者子带IPD参数提取方式等。下面将结合步骤S103对当前帧的多声道信号的IPD参数的提取方式的确定和各种IPD参数的提取方式对应的IPD参数的提取的实现方式进行描述。
S103,根据所述确定的当前帧的多声道信号的IPD参数的提取方式提取所述当前帧的多声道信号的IPD参数。
在一些可行的实施方式中,编码端可首先根据用于确定多声道信号的当前帧的信息提取方式的参数确定当前帧的多声道信号的IPD参数的提取方式是否为第一提取方式。若是,则根据相应的提取方式提取当前帧的多声道信号的Group IPD,或者不提取IPD参数,或者将当前帧的多声道信号的IPD参数设置为0。否则,可以直接确定当前帧的多声道信号的IPD参数的提取方式是子带集合IPD参数提取方式或子带IPD参数提取方式,在这种情况下,实际应用中可以是已经将第二提取方式确定为这二种提取方式之一了,因此在确定采用第二提取方式时,也就确定了具体是采用这二种提取方式中的哪一种;或者也可以根据用于确定多声道信号的当前帧的信息提取方式的参数进一步判断当前帧的多声道信号的IPD参数的提取方式是子带集合IPD参数提取方式还是子带IPD参数提取方式。
在一些可行的实施方式中,若编码端获取的用于确定多声道信号的当前帧的信息提取方式的参数包括当前帧的左右声道相关值和当前帧的子带IPD的方差,则可将上述当前帧的左右声道相关值与预先定义的第一阈值进行比对,并将上述当前帧的子带IPD的方差与预先定义的第二阈值进行比对。其中,上述预先定义的第一阈值的取值范围为[0.6,0.95],上述预先定义的第二阈值的取值范围为[0.05,0.5]。具体实现中,上述第一阈值可取值为0.89,或者0.8,或者0.75等。其中,上述0.89可为最大值,0.8可为中间值,0.75可为最小值,具体可根据实际应用场景确定,在此不做限制。上述第二阈值可取值为0.45,或者0.25,或者0.3等。其中,上述0.45可为最大值,0.3可为中间值,0.25可为最小值,具体可根据实际应用场景确定,在此不做限制。若比较得到上述当前帧的左右声道相关值大于第一阈值,并且当前帧的子带IPD的方差小于第二阈值,则可将当前帧的多声道信号的IPD参数的提取方式确定为第一提取方式。否则,确定当前帧的多声道信号的IPD参数的提取方式不为第一提取方式。
可选的,在一些可行的实施方式中,若编码端获取的用于确定多声道信号的当前帧的信息提取方式的参数为所述当前帧的表示左右声道相关性的参数,则可将上述所述当前帧的表示左右声道相关性的参数值与预先定义的第一阈值进行比对,若所述当前帧的表示左右声道相关性的参数值大于第一阈值,则确定所述当前帧的多声道信号的IPD参数的提取方式为第一提取方式,例如可以为将当前帧的多声道信号的IPD参数设置为0,或者也可以为Group IPD提取方式,或者也可以为不提取当前帧的多声道信号的IPD参数。其中,第一阈值的取值范围和具体取值可以如前面所述,例如可以为0.75。
可选的,在一些可行的实施方式中,若编码端获取的用于确定多声道信号的当前帧的信息提取方式的参数为当前帧的前A帧的信号特性参数,包括当前帧的前A帧的每一帧的IPD参数的提取方式和当前帧的前A帧的每一帧的信号类型,则可判断上述当前帧的前A帧的每一帧的IPD参数的提取方式是否为预设的IPD参数的提取方式,上述当前帧的前A帧的每一帧的信号类型是否为预设的信号类型。若上述当前帧的前A帧的每一帧的IPD参数的提取方式均为第一提取方式,并且上述当前帧的前A帧的每一帧的信号类型均为音乐帧,则可将当前帧的多声道信号的IPD参数的提取方式确定为第一提取方式。
例如,当A=1时,上述当前帧的前A帧即为当前帧的前一帧。若上述当前帧的前一帧的IPD参数的提取方式为第一提取方式,并且上述当前帧的前一帧的信号类型为音乐帧,则可将当前帧的多声道信号的IPD参数的提取方式确定为第一提取方式。否则,确定当前帧的多声道信号的IPD参数的提取方式不为第一提取方式。
当A=2时,上述当前帧的前A帧即为当前帧的前两帧。若上述当前帧的前两帧的IPD参数的提取方式均为第一提取方式,并且上述当前帧的前两帧的信号类型均为音乐帧,则可将当前帧的多声道信号的IPD参数的提取方式确定为第一提取方式。否则,确定当前帧的多声道信号的IPD参数的提取方式不为第一提取方式。
可选的,在一些可行的实施方式中,若编码端获取的用于确定多声道信号的当前帧的信息提取方式的参数包括当前帧的ITD参数、当前帧的子带IPD的方差和当前帧的前A帧的每一帧的信号类型,则可将上述当前帧的ITD参数的绝对值与预先定义的第三阈值进行比对,将上述当前帧的子带IPD的方差与预先定义的第四阈值进行比对。进一步的,可判断上述当前帧的前A帧的每一帧的信号类型是否为目标信号类型。其中,上述预先定义的第三阈值的取值为[0,4],上述预先定义的第四阈值的取值范围为[0.05,0.4]。上述第三阈值可取值为4,或者2,或者0等。其中,上述4可为最大值,2可为中间值,0可为最小值,具体可根据实际应用场景确定,在此不做限制。上述第四阈值可取值为0.4,或者0.35,或者0.25等。其中,上述0.4可为最大值,0.35可为中间值,0.25可为最小值,具体可根据实际应用场景确定,在此不做限制。上述目标信号类型为语音帧。若比较得到上述当前帧的ITD参数的绝对值大于第三阈值,当前帧的子带IPD的方差小于第四阈值,并且上述当前帧的前A帧的每一帧的信号类型均为语音帧,则可将当前帧的多声道信号的IPD参数的提取方式确定为第一提取方式。否则,确定当前帧的多声道信号的IPD参数的提取方式不为第一提取方式。
其中,上述当前帧的前A帧可包括:当前帧的前一帧,当前帧的前二帧或者当前帧的前三帧等,在此不做限制。若当前帧的前A帧为当前帧的前一帧,则当上述当前帧的前一帧的ITD参数的绝对值大于第三阈值,当前帧的子带IPD的方差小于第四阈值,并且上述当前帧的前一帧的信号类型为语音帧时,可将当前帧的多声道信号的IPD参数的提取方式确定为Group IPD提取方式。若当前帧的前A帧为当前帧的前多帧,则当上述当前帧的ITD参数的绝对值大于第三阈值,当前帧的子带IPD的方差小于第四阈值,并且上述当前帧的前多帧中每一帧的信号类型均为语音帧时,可将当前帧的多声道信号的IPD参数的提取方式确定为第一提取方式。
在一些可行的实施方式中,编码端确定当前帧的多声道信号的IPD参数的提取方式后,将当前帧的多声道信号的IPD参数的提取方式的标志位进行编码,然后针对不同的提取方式采用不同的方式对当前帧的多声道信号的IPD参数进行量化。
在一些可行的实施方式中,编码端确定当前帧的多声道信号的IPD参数的提取方式为第一提取方式之后,则可根据第一提取方式提取当前帧的多声道信号的IPD参数。具体的,若上述第一提取方式是不提取当前帧的多声道信号的IPD参数,则不做任何操作,即,结束当前帧的IPD参数的提取对应的进程。若上述第一提取方式是将当前帧的多声道信号的IPD参数设置为0,则将已经提取的当前帧多声道信号的IPD参数的值设置为0。若上述第一提取方式是提取当前帧的多声道信号的Group IPD参数提取方式,则可根据Group IPD参数提取方式提取当前帧的多声道信号的Group IPD,其中,提取的当前帧的多声道信号的Group IPD作为当前帧的多声道信号的IPD参数。具体的,编码端可提取当前帧的左右声道频域信号的至少一部分子带的IPD参数。其中,上述当前帧的左右声道频域信号的至少一部分子带具体可包括上述当前帧的左右声道频域信号划分得到的Nsubband个子带中的全部子带或者部分子带,在此不做限制。具体实现中,用户可根据多声道信号编码的编码速率或者编码质量等编码需求,确定提取多声道信号的当前帧的多声道信号的Group IPD时所使用的当前帧的左右声道频域信号的频域范围,包括当前帧的左右声道频域信号的整个频域范围的频域信号,即当前帧的左右声道频域信号的所有子带的频域信号,或者当前帧的左右声道频域信号的特定频域范围,即当前帧的左右声道频域信号中的部分帧的频域信号,上述当前帧的左右声道频域信号中的部分帧的频域信号包含在左右声道频域信号的部分子带频域信号中。
在一些可行的实施方式中,若编码端确定提取当前帧的左右声道频域信号的Group IPD时所使用的当前帧的左右声道频域信号的频域范围为当前帧的左右声道频域信号的整个频域范围,则可提取当前帧的左右声道频域信号的所有子带(即当前帧的Nsubband个子带)中每一个子带的IPD参数,计算提取的所有子带的IPD参数的均值,进而将获取的所有子带的IPD参数的均值作为当前帧的多声道信号的Group IPD。其中,当前帧的多声道信号的Group IPD提取公式如下:
Figure BDA0003843424930000181
其中,G_IPD即为当前帧的多声道信号的Group IPD,IPD(b)为第b个子带的IPD参数。
可行的,在一些可行的实施方式中,若编码端确定提取当前帧的左右声道频域信号的Group IPD时所使用的当前帧的左右声道频域信号的频域范围为当前帧的左右声道频域信号的特定频域范围,例如[k1,k2],即第k1个频点到第k2个频点之间的频域信号,则可提取当前帧的左右声道频域信号的部分子带(即第k1个频点到第k2个频点之间的频域信号所属的子带)中每一个子带的IPD参数,计算提取的所有子带的IPD参数的均值,进而将获取的所有子带的IPD参数的均值作为当前帧的多声道信号的Group IPD。
具体实现中,上述第k1个频点到第k2个频点之间的频域信号所属的子带的IPD参数可预先定义为每个频点的IPD参数,即,此时,可将子带的IPD参数的计算替换为每个频点的IPD参数的计算,以每个频点的IPD参数作为每个子带的IPD参数的计算来计算当前帧的多声道信号的Group IPD。其中,在预设的频域范围[k1,k2]内逐个频点计算每个频点的IPD参数的计算方式如下:
IPD(k)=∠L(k)R*(k),k1≤k≤k2
其中,L(k)为左声道频域信号第k个频点值,R*(k)为右声道频域信号第k个频点值的共轭。
进一步的,对预设范围(多声道频域信号的多帧信号,包含当前帧和当前帧的前A帧)内的IPD(k)进行统计处理,得到group IPD参数。
例如,若上述特定频域范围[k1,k2]为6帧的左右声道频域信号中每一帧的左右声道频域信号的选取范围,则可计算这6帧的左右声道频域信号中每一帧的(k2-k1+1)个频点的IPD参数的均值,计算公式如下:
Figure BDA0003843424930000191
进一步,可计算包含当前帧在内的连续6帧IPD参数的均值,并作为当前帧的多声道信号的Group IPD:
Figure BDA0003843424930000192
其中,
Figure BDA0003843424930000193
为与当前帧紧邻的前一帧的IPD参数的均值,
Figure BDA0003843424930000194
为当前帧的前两帧的IPD参数的均值,其它依次类推。
在一些可行的实施方式中,若编码端确定当前帧的多声道信号的IPD参数的提取方式不是第一提取方式,则可以直接确定当前帧的多声道信号的IPD参数的提取方式为子带集合IPD参数提取方式或子带IPD参数提取方式。
在一些可行的实施方式中,若编码端确定当前帧的多声道信号的IPD参数的提取方式不是第一提取方式,则可进一步判断当前帧的多声道信号的IPD参数的提取方式。具体的,编码端可将当前帧的左右声道频域信号的子带划分为至少二个子带集合(即划分为多个子带集合),其中,每个子带集合中包含一个或者多个子带。进一步的,编码端可获取每个子带集合的子带IPD的方差,若每个子带集合的子带IPD的方差均小于第二阈值,并且当前帧的左右声道相关值大于第一阈值,则可确定当前帧的多声道信号的IPD参数的提取方式为子带集合IPD参数提取方式。进而,可计算每个子带集合的IPD参数,将获取的每个子带集合的IPD参数作为当前帧的多声道信号的IPD参数。
在一些可行的实施方式中,若编码端确定当前帧的多声道信号的IPD参数的提取方式不是第一提取方式,则可进一步判断当前帧的多声道信号的IPD参数的提取方式。具体的,编码端可将当前帧的左右声道频域信号的子带划分为至少二个子带集合(即划分为多个子带集合),其中,每个子带集合中包含一个或者多个子带。进一步的,编码端可获取每个子带集合的子带IPD的方差,若每个子带集合的子带IPD的方差均小于第二阈值,并且当前帧的表示左右声道相关性的参数值大于第一阈值,则可确定当前帧的多声道信号的IPD参数的提取方式为子带集合IPD参数提取方式。进而,可计算每个子带集合的IPD参数,将获取的每个子带集合的IPD参数作为当前帧的多声道信号的IPD参数。
例如,如图4,图4是本发明实施例提供的IPD参数的提取方法的另一流程示意图。上述方法包括步骤:
S201,计算当前帧的左右声道相关值和当前帧的子带IPD的方差。
在一些实施方式中,步骤S201也可以是确定当前帧的表示左右声道相关性的参数的值和当前帧的子带IPD的方差。
S202,判断是否为第一提取方式,若判断结果为是,则执行步骤S203,否则,执行步骤S205。
编码端可根据当前帧的左右声道频域信号的左右声道相关值和子带IPD的方差确定当前帧的多声道信号的IPD参数的提取方式是否为第一提取方式,具体确定方法可参见上述实施例,在此不再赘述。
或者,编码端也可以根据当前帧的表示左右声道相关性的参数的值和子带IPD的方差确定当前帧的多声道信号的IPD参数的提取方式是否为第一提取方式,具体确定方法可参见上述实施例,在此不再赘述。
S203,提取当前帧的多声道信号的Group IPD。
S204,Group IPD的量化编码。
若编码端确定当前帧的多声道信号的IPD参数的提取方式是Group IPD提取方式,则可提取当前帧的多声道信号的Group IPD,具体提取方式可参见上述实施例,在此不再赘述。编码端提取当前帧的多声道信号的Group IPD之后,则可执行Group IPD的量化编码等操作,具体量化编码方式可参见标准协议中描述的实现方式,在此不再赘述。
S205,计算P1个子带的子带IPD的方差和P2个子带的子带IPD的方差。
S206,判断是否为2个IPD参数提取方式,若判断为是,则执行步骤S207,否则,执行步骤S209。
若编码端确定当前帧的多声道信号的IPD参数的提取方式不是Group IPD提取方式,则可将当前帧的左右声道频域信号的子带划分为二个子带集合,包括子带集合1(子带集合1中包含P1个子带)和子带集合2(子带集合2中包含P2个子带),进而可计算子带集合1(即P1个子带)的子带IPD的方差(设为第一方差)和子带集合2(即P2个子带)的子带IPD的方差(设为第二方差)。其中,上述P1和P2之和等于Nsubband。当上述当前帧的左右声道频域信号的左右声道相关值大于第一阈值,并且上述第一方差和第二方差均小于第二阈值时,确定当前帧的多声道信号的IPD参数的提取方式为二个IPD参数提取方式,即二个子带集合IPD参数提取方式。或者,当上述当前帧的表示左右声道频域信号的左右声道相关性的参数的值大于第一阈值,并且上述第一方差和第二方差均小于第二阈值时,确定当前帧的多声道信号的IPD参数的提取方式为二个IPD参数提取方式,即二个子带集合IPD参数提取方式。
其中,上述第一方差的计算方式如下:
Figure BDA0003843424930000201
其中,
Figure BDA0003843424930000202
上述第二方差的计算方式如下:
Figure BDA0003843424930000211
其中,
Figure BDA0003843424930000212
S207,计算第一IPD参数和第二IPD参数。
S208,第一IPD参数和第二IPD参数的量化编码。
进一步的,编码端确定了当前帧的多声道信号的IPD参数的提取方式为二个IPD参数提取方式之后,则可分别计算子带集合1对应的第一IPD参数和子带集合2对应的第二IPD参数。其中,上述第一IPD参数的计算方法和第二IPD参数的计算方法可与上述Group IPD的计算方法相同,具体可参见上述实施例,在此不再赘述。编码端计算得到第一IPD参数和第二IPD参数之后,则可执行第一IPD参数和第二IPD参数的量化编码,具体量化编码方式可参见标准协议中描述的实现方式,在此不再赘述。
S209,计算P3个子带的子带IPD的方差和P4个子带的子带IPD的方差。
S210,判断是否为3个IPD参数提取方式,若判断结果为是,则执行步骤S211,否则,执行步骤S213。
进一步的,若上述当前帧的多声道信号的IPD参数的提取方式不是二个IPD参数提取方式,则可将子带集合1进行划分,得到更加细化的子带集合(例如子带集合3和子带集合4,其中,子带集合3包含P3个子带,子带集合4包含P4个子带,P3+P4=P1)。进而可计算每个子带集合(子带集合2、子带集合3和子带集合4)的子带IPD的方差,包括第二方差、第三方差和第四方差。其中,上述第三方差(即P3个子带的子带IPD的方差)和第四方差(即P4个子带的子带IPD的方差)的计算方式可参见上述第一方差和第二方差的计算方式,在此不再赘述。当当前帧的左右声道相关值大于第一阈值,并且上述第二方差、第三方差和第四方差均小于第二阈值时,确定当前帧的多声道信号的IPD参数的提取方式为三个IPD参数提取方式。
S211,计算第二IPD参数、第三IPD参数和第四IPD参数。
S212,第二IPD参数、第三IPD参数和第四IPD参数的量化编码。
编码端确定当前帧的多声道信号的IPD参数的提取方式为三个IPD参数提取方式之后,则可分别提取子带集合2对应的第二IPD参数和子带集合3对应的第三IPD参数、子带集合4对应的第四IPD参数,进而可执行第二IPD参数、第三IPD参数和第四IPD参数的量化编码,具体量化编码方式可参见标准协议中描述的实现方式,在此不再赘述。其中,上述第二IPD参数的计算方法、第三IPD参数和第四IPD参数的计算方法可与上述Group IPD的计算方法相同,具体可参见上述实施例,在此不再赘述。
其中,上述第三方差的计算方式如下:
Figure BDA0003843424930000213
其中,
Figure BDA0003843424930000221
上述第四方差的计算方法如下:
Figure BDA0003843424930000222
其中,
Figure BDA0003843424930000223
其中,1≤P3,P4<P1且P3+P4=P1。
S213,计算K个IPD参数。
S214,K个IPD参数量化编码。
需要说明的是,本发明实施例不局限于上述第一IPD参数、第二IPD参数、第三IPD参数和第四IPD参数的提取。当第三方差、第四方差或者第二方差不满足条件时,还可以进一步缩小计算范围,计算K个IPD参数和K个IPD参数量化编码,最终实现M种IPD提取方法。其中,K和M均为大于或者等于4并且小于或者等于Nsubband的整数。
可选的,在一些可选的实施方式中,若编码端确定当前帧的多声道信号的IPD参数的提取方式不是第一提取方式,则可获取每个子带集合的子带IPD的方差,若上述获取的所有子带集合的子带IPD的方差中存在一个或者多个方差大于第二阈值,或者当前帧的左右声道相关值小于或者等于第一阈值,则可确定当前帧的多声道信号的IPD参数的提取方式为子带集合IPD参数提取方式。进而可根据当前帧的左右声道频域信号计算当前帧的左右声道频域信号的每个子带的IPD参数,将提取的每个子带的IPD参数作为当前帧的多声道信号的IPD参数。即,编码端确定当前帧的多声道信号的IPD参数的提取方式不是第一提取方式之后,则可计算当前帧的左右声道频域信号的Nsubband个子带中每个子带的IPD参数,进而将Nsubband个子带IPD参数确定为当前帧的多声道信号的IPD参数。其中,上述每个子带的IPD参数的计算方式可参见上述实现方式,在此不再赘述。
可选的,在一些可选的实施方式中,若编码端确定当前帧的多声道信号的IPD参数的提取方式不是第一提取方式,则可获取每个子带集合的子带IPD的方差,若上述获取的所有子带集合的子带IPD的方差中存在一个或者多个方差大于第二阈值,或者当前帧的表示左右声道相关性的参数的值小于或者等于第一阈值,则可确定当前帧的多声道信号的IPD参数的提取方式为子带集合IPD参数提取方式。进而可根据当前帧的左右声道频域信号计算当前帧的左右声道频域信号的每个子带的IPD参数,将提取的每个子带的IPD参数作为当前帧的多声道信号的IPD参数。即,编码端确定当前帧的多声道信号的IPD参数的提取方式不是第一提取方式之后,则可计算当前帧的左右声道频域信号的Nsubband个子带中每个子带的IPD参数,进而将Nsubband个子带IPD参数确定为当前帧的多声道信号的IPD参数。其中,上述每个子带的IPD参数的计算方式可参见上述实现方式,在此不再赘述。
参见图5,图5是用于多声道信号编码的总比特数的分配示意图。在本发明实施例中,在满足用于多声道信号的编码的总比特数保持不变(即N1+M1=N2+M2)的应用场景中,采用Group IPD参数提取方式时可节省IPD参数的编码占用的比特数,可将更多的比特数用于其他参数的编码,可在保持编码质量的前提下降低编码速率。采用子带IPD参数提取方式(包括子带集合IPD参数提取方式和子带IPD参数提取方式)时IPD参数的编码占用的比特数比采用Group IPD参数提取方式时多,可通过IPD参数的提取方式的自适应选择保持编码速率的前提下提升编码质量。其中,N1为用于子带IPD参数的编码的比特数,M1为当前帧用于除子带IPD参数外的其他参数的编码的比特数。N2为用于Group IPD参数的编码的比特数,M2为当前帧用于除Group IPD参数之外的其他参数的编码的比特数。其中,上述N1、N2、M1和M2均为正整数。
在总编码比特数保持一致的前提下,对比本发明实施例提供的IPD参数的提取方法(Group IPD参数的提取方式和子带IPD参数的提取方式的自适应切换,即根据当前帧的信息提取方式确定参数自适应确定IPD参数的提取方式)和已有技术(Nsubband个子带的子带IPD参数的提取方式)的效果,其语谱图比较如图6a至6c所示。其中,图6a为多声道信号的原始信号语谱图,该原始信号为谐波信号。图6b为已有技术提取得到的IPD参数编码之后解码端根据对应的解码算法解码得到的音频信号语谱图。如图6b所示,上述原始信号在解码端解码得到的音频信号中原始信号的高频部分(画圆圈部分)的谐波成分没有恢复出来,使得该音频信号在听觉上噪声感较强,造成人耳听觉上不舒适。图6c是本发明实施例提供的方法提取的IPD参数编码之后解码端根据对应的解码算法解码得到的音频信号语谱图。如图6c所示,上述原始信号在解码端解码得到的音频信号中原始信号的高频部分的谐波成分被很好地恢复出来,使得音频信号在听觉上没有噪声感。由对比结果可知,本发明实施例提高的方法可在保持立体声信号相位的前提下,提升最终输出信号的听觉质量。
在本发明实施例中,编码端可预先设定多种IPD参数的提取方式,进而可在确定当前帧的多声道信号的IPD参数的提取方式时,根据获取到的用于确定多声道信号的当前帧的信息提取方式的参数确定上述当前帧的多声道信号的IPD参数的提取方式,实现IPD参数的提取方式的自适应选择。进而可根据确定的IPD参数的提取方式提取当前帧的多声道信号的IPD参数。本发明实施例提高了当前帧的多声道信号的IPD参数的提取方式的选择多样性,增强了当前帧的多声道信号的IPD参数的提取方式与当前帧的信息提取方式确定参数的相关性。本发明实施例可在满足用于多声道信号的编码的总比特数保持不变的前提下,通过IPD参数的提取方式的自适应选择,使得在采用Group IPD参数提取方式时可节省IPD参数的编码占用的比特数,可将更多的比特数用于其他参数的编码,可在保持编码质量的前提下降低编码速率。在采用子带IPD参数提取方式(包括子带集合IPD参数提取方式和逐个子带IPD参数提取方式)时IPD参数的编码占用的比特数比采用Group IPD参数提取方式时多,可通过IPD参数的提取方式的自适应选择保持编码速率的前提下提升编码质量。
参加图7,是本发明实施例提供的IPD参数的提取装置的实施例结构示意图。本发明实施例提高的提取装置,包括:
获取模块10,用于获取用于确定多声道信号的当前帧的信息提取方式的参数。
确定模块20,用于根据所述获取模块获取的所述用于确定多声道信号的当前帧的信息提取方式的参数确定所述多声道信号的当前帧的声道间相位差IPD参数的提取方式。
其中,所述确定的当前帧的多声道信号的IPD参数的提取方式为预设的至少两种IPD参数提取方式中的一种。
提取模块30,用于根据所述确定模块确定的当前帧的多声道信号的IPD参数的提取方式提取所述当前帧的多声道信号的IPD参数。
在一些可行的实施方式中,所述用于确定多声道信号的当前帧的信息提取方式的参数包括当前帧的信号特性参数和所述当前帧的前A帧的信号特性参数中的至少一种,其中,所述A为不小于1的整数;
其中,所述当前帧的信号特性参数包括所述当前帧的左右声道相关值、所述当前帧的表示左右声道相关性的参数、所述当前帧的子带IPD的方差、所述当前帧的信号类型以及所述当前帧的声道间时间差ITD中的至少一种;
所述当前帧的前A帧的信号特性参数包括所述当前帧的前A帧的每一帧的左右声道相关值、所述当前帧的前A帧的每一帧的表示左右声道相关性的参数、所述当前帧的前A帧的每一帧的子带IPD的方差、所述当前帧的前A帧的每一帧的ITD、所述当前帧的前A帧的每一帧的IPD参数的提取方式以及所述当前帧的前A帧的每一帧的信号类型中的至少一种;
其中,所述信号类型包括语音帧或者音乐帧。
在一些可行的实施方式中,在所述用于确定多声道信号的当前帧的信息提取方式的参数包括所述当前帧的左右声道相关值和所述当前帧的子带IPD的方差;
若所述当前帧的左右声道相关值大于第一阈值,并且所述当前帧的子带IPD的方差小于第二阈值,所述确定模块具体用于:
确定所述当前帧的多声道信号的IPD参数的提取方式为第一提取方式。
在一些可行的实施方式中,所述用于确定多声道信号的当前帧的信息提取方式的参数包括所述当前帧的表示左右声道相关性的参数;若所述当前帧的表示左右声道相关性的参数大于第一阈值,所述确定模块具体用于:
确定所述当前帧的多声道信号的IPD参数的提取方式为第一提取方式。其中,都可以阈值的取值如前所述,此处不再赘述。
在一些可行的实施方式中,所述用于确定多声道信号的当前帧的信息提取方式的参数包括所述当前帧的前A帧的每一帧的IPD参数的提取方式和所述当前帧的前A帧的每一帧的信号类型;
若所述当前帧的前A帧的每一帧的IPD参数的提取方式均为第一提取方式,并且所述当前帧的前A帧的每一帧的信号类型均为音乐帧,所述确定模块具体用于:
确定所述当前帧的多声道信号的IPD参数的提取方式为第一提取方式。
在一些可行的实施方式中,所述用于确定多声道信号的当前帧的信息提取方式的参数包括所述当前帧的ITD参数、所述当前帧的子带IPD的方差,以及所述当前帧的前A帧的每一帧的信号类型;
若所述当前帧的ITD参数的值大于第三阈值、所述当前帧的子带IPD的方差小于第四阈值,并且所述当前帧的前A帧的每一帧的信号类型为语音帧,所述确定模块具体用于:
确定所述当前帧的多声道信号的IPD参数的提取方式为第一提取方式。
在一些可行的实施方式中,所述第一提取方式包括:当前帧的多声道信号的全局声道间相位差Group IPD参数提取方式,或者,不提取当前帧的多声道信号的IPD参数,或者,将当前帧的多声道信号的IPD参数设置为0。
在一些可行的实施方式中,当所述确定模块确定所述当前帧的多声道信号的IPD参数的提取方式为Group IPD提取方式时,所述提取模块具体用于:
提取所述当前帧的左右声道频域信号的子带的IPD参数,根据所述提取的子带的IPD参数确定所述当前帧的多声道信号的Group IPD。
在一些可行的实施方式中,若所述当前帧的多声道信号的IPD参数的提取方式不为第一提取方式,所述确定模块具体用于:
确定当前帧的多声道信号的IPD参数的提取方式为第二提取方式;
其中,所述第二提取方式包括:子带集合IPD参数提取方式或者子带IPD参数提取方式。
在一些可行的实施方式中,所述第二提取方式为子带集合IPD参数提取方式,所述确定模块具体用于:
将所述当前帧的多声道信号的左右声道频域信号的子带划分为至少二个子带集合,每个所述子带集合中包含至少1个子带,并且至少有一个子带集合包括了至少2个子带;
获取每个所述子带集合的子带IPD的方差;
若每个所述子带集合的子带IPD的方差均小于第二阈值,并且所述当前帧的左右声道相关值大于第一阈值,则确定所述当前帧的多声道信号的IPD参数的提取方式为子带集合IPD参数提取方式;
所述提取模块具体用于:
计算所述确定模块确定的所述至少二个子带集合中每个子带集合的IPD参数。
在一些可行的实施方式中,所述第二提取方式为子带集合IPD参数提取方式,所述确定模块具体用于:
将所述当前帧的多声道信号的左右声道频域信号的子带划分为至少二个子带集合,每个所述子带集合中包含至少1个子带,并且至少有一个子带集合包括了至少2个子带;
获取每个所述子带集合的子带IPD的方差;
若每个所述子带集合的子带IPD的方差均小于第二阈值,并且所述当前帧的表示左右声道相关性的参数的值大于第一阈值,则确定所述当前帧的多声道信号的IPD参数的提取方式为子带集合IPD参数提取方式;
所述提取模块具体用于:
计算所述确定模块确定的所述至少二个子带集合中每个子带集合的IPD参数。
在一些可行的实施方式中,所述第二提取方式为子带IPD参数提取方式,所述确定模块具体用于:
若至少一个所述子带集合的子带IPD的方差大于所述第二阈值,或者所述当前帧的左右声道相关值小于或等于所述第一阈值,则确定所述当前帧的多声道信号的IPD参数的提取方式为子带IPD参数提取方式;
所述提取模块具体用于:
计算所述当前帧的左右声道频域信号的各个子带的IPD参数。
在一些可行的实施方式中,所述第二提取方式为子带IPD参数提取方式,所述确定模块具体用于:
若至少一个所述子带集合的子带IPD的方差大于所述第二阈值,或者所述当前帧的表示左右声道相关性的参数的值小于或等于所述第一阈值,则确定所述当前帧的多声道信号的IPD参数的提取方式为子带IPD参数提取方式;
所述提取模块具体用于:
计算所述当前帧的左右声道频域信号的各个子带或部分子带的IPD参数。
具体实现中,上述IPD参数的提取装置具体可为本发明实施例中所描述的编码端。上述提取装置可通过其内置的各个模块执行上述IPD参数的提取方式中各个步骤所描述的实现方式,在此不再赘述。
在本发明实施例中,编码端可预先设定多种IPD参数的提取方式,进而可在确定当前帧的多声道信号的IPD参数的提取方式时,根据获取到的用于确定多声道信号的当前帧的信息提取方式的参数确定上述当前帧的多声道信号的IPD参数的提取方式,实现IPD参数的提取方式的自适应选择。进而可根据确定的IPD参数的提取方式提取当前帧的多声道信号的IPD参数。本发明实施例提高了当前帧的多声道信号的IPD参数的提取方式的选择多样性,增强了当前帧的多声道信号的IPD参数的提取方式与当前帧的信息提取方式确定参数的相关性。本发明实施例可在满足用于多声道信号的编码的总比特数保持不变的前提下,通过IPD参数的提取方式的自适应选择,使得在采用Group IPD参数提取方式时可节省IPD参数的编码占用的比特数,可将更多的比特数用于其他参数的编码,可在保持编码质量的前提下降低编码速率。在采用子带IPD参数提取方式(包括子带集合IPD参数提取方式和逐个子带IPD参数提取方式)时IPD参数的编码占用的比特数比采用Group IPD参数提取方式时多,可通过IPD参数的提取方式的自适应选择保持编码速率的前提下提升编码质量。
参见图8,是本发明实施例提供的终端的结构示意图。本发明实施例提供的终端,包括存储器1000和处理器2000。上述存储器1000和处理器2000相连。
所述存储器1000用于存储一组程序代码;
所述处理器2000用于调用所述存储器1000中存储的程序代码执行如下操作:
获取用于确定多声道信号的当前帧的信息提取方式的参数;
根据所述用于确定多声道信号的当前帧的信息提取方式的参数确定当前帧的多声道信号的声道间相位差IPD参数的提取方式,所述确定的当前帧的多声道信号的IPD参数的提取方式为预设的至少两种IPD参数提取方式中的一种;
根据所述确定的当前帧的多声道信号的IPD参数的提取方式提取所述当前帧的多声道信号的IPD参数。
在一些可行的实施方式中,所述用于确定多声道信号的当前帧的信息提取方式的参数包括当前帧的信号特性参数和当前帧的前A帧的信号特性参数中的至少一种,其中,所述A为不小于1的整数;
其中,所述当前帧的信号特性参数包括所述当前帧的左右声道相关值、当前帧的表示左右声道相关性的参数、所述当前帧的子带IPD的方差以及所述当前帧的声道间时间差ITD中的至少一种;
所述当前帧的前A帧的信号特性参数包括所述当前帧的前A帧的每一帧的左右声道相关值、当前帧的前A帧的每一帧的表示左右声道相关性的参数、所述当前帧的前A帧的每一帧的子带IPD的方差、所述当前帧的前A帧的每一帧的ITD、所述当前帧的前A帧的每一帧的IPD参数的提取方式以及所述当前帧的前A帧的每一帧的信号类型中的至少一种;
其中,所述信号类型包括语音帧或者音乐帧。
在一些可行的实施方式中,所述用于确定多声道信号的当前帧的信息提取方式的参数包括所述当前帧的左右声道相关值和所述当前帧的子带IPD的方差;
若所述当前帧的左右声道相关值大于第一阈值,并且所述当前帧的子带IPD的方差小于第二阈值,所述处理器2000具体用于:
确定所述当前帧的多声道信号的IPD参数的提取方式为第一提取方式。
在一些可行的实施方式中,所述用于确定多声道信号的当前帧的信息提取方式的参数包括所述当前帧的表示左右声道相关性的参数和所述当前帧的子带IPD的方差;
若所述当前帧的表示左右声道相关性的参数的值大于第一阈值,并且所述当前帧的子带IPD的方差小于第二阈值,所述处理器2000具体用于:
确定所述当前帧的多声道信号的IPD参数的提取方式为第一提取方式。
在一些可行的实施方式中,所述用于确定多声道信号的当前帧的信息提取方式的参数包括所述当前帧的前A帧的每一帧的IPD参数的提取方式和所述当前帧的前A帧的每一帧的信号类型;
若所述当前帧的前A帧的每一帧的IPD参数的提取方式均为第一提取方式,并且所述当前帧的前A帧的每一帧的信号类型均为音乐帧,所述处理器2000具体用于:
确定所述当前帧的多声道信号的IPD参数的提取方式为第一提取方式。
在一些可行的实施方式中,所述用于确定多声道信号的当前帧的信息提取方式的参数包括所述当前帧的ITD参数、所述当前帧的子带IPD的方差,以及所述当前帧的前A帧的每一帧的信号类型;
若所述当前帧的ITD参数的值大于第三阈值、所述当前帧的子带IPD的方差小于第四阈值,并且所述当前帧的前A帧的每一帧的信号类型均为语音帧,所述处理器2000具体用于:
确定所述当前帧的多声道信号的IPD参数的提取方式为第一提取方式。
在一些可行的实施方式中,所述第一提取方式包括:当前帧的多声道信号的全局声道间相位差Group IPD参数提取方式,或者,不提取当前帧的多声道信号的IPD参数。
在一些可行的实施方式中,当所述第一提取方式为当前帧的多声道信号的GroupIPD参数提取方式时,所述处理器2000具体用于:
提取所述当前帧的左右声道频域信号的子带的IPD参数,根据所述提取的子带的IPD参数确定所述当前帧的多声道信号的Group IPD。
在一些可行的实施方式中,若所述当前帧的多声道信号的IPD参数的提取方式不为第一提取方式,所述处理器2000具体用于:
确定当前帧的多声道信号的IPD参数的提取方式为第二提取方式;
其中,所述第二提取方式包括:子带集合IPD参数提取方式或者子带IPD参数提取方式。
在一些可行的实施方式中,所述第二提取方式为子带集合IPD参数提取方式,所述处理器2000具体用于:
将所述当前帧的多声道信号的左右声道频域信号的子带划分为至少二个子带集合,每个所述子带集合中包含至少1个子带,并且至少有一个子带集合包括了至少2个子带;
获取每个所述子带集合的子带IPD的方差;
若每个所述子带集合的子带IPD的方差均小于第二阈值,并且所述当前帧的左右声道相关值大于第一阈值,则确定所述当前帧的多声道信号的IPD参数的提取方式为子带集合IPD参数提取方式;
计算所述至少二个子带集合中每个子带集合的IPD参数。
在一些可行的实施方式中,所述第二提取方式为子带集合IPD参数提取方式,所述处理器2000具体用于:
将所述当前帧的多声道信号的左右声道频域信号的子带划分为至少二个子带集合,每个所述子带集合中包含至少1个子带,并且至少有一个子带集合包括了至少2个子带;
获取每个所述子带集合的子带IPD的方差;
若每个所述子带集合的子带IPD的方差均小于第二阈值,并且所述当前帧的表示左右声道相关性的参数的值大于第一阈值,则确定所述当前帧的多声道信号的IPD参数的提取方式为子带集合IPD参数提取方式;
计算所述至少二个子带集合中每个子带集合的IPD参数。
在一些可行的实施方式中,所述第二提取方式为子带IPD参数提取方式,所述处理器2000具体用于:
若至少一个所述子带集合的子带IPD的方差大于所述第二阈值,或者所述当前帧的左右声道相关值小于或等于所述第一阈值,则确定所述当前帧的多声道信号的IPD参数的提取方式为子带IPD参数提取方式;
计算所述当前帧的左右声道频域信号的各个子带或部分子带的IPD参数。
在一些可行的实施方式中,所述第二提取方式为子带IPD参数提取方式,所述处理器2000具体用于:
若至少一个所述子带集合的子带IPD的方差大于所述第二阈值,或者所述当前帧的表示左右声道相关性参数的值小于或等于所述第一阈值,则确定所述当前帧的多声道信号的IPD参数的提取方式为子带IPD参数提取方式;
计算所述当前帧的左右声道频域信号的各个子带或部分子带的IPD参数。
在一些可行的实施方式中,在所述用于确定多声道信号的当前帧的信息提取方式的参数包括所述当前帧的左右声道相关值时,所述处理器2000具体用于:
获取所述多声道信号的当前帧的左右声道时域信号,将所述左右声道时域信号变换为左右声道频域信号;
根据所述左右声道频域信号计算所述当前帧的左右声道相关值。
在一些可行的实施方式中,在所述用于确定多声道信号的当前帧的信息提取方式的参数包括所述当前帧的子带IPD的方差时,所述处理器2000具体用于:
获取所述多声道信号的当前帧的左右声道时域信号,将所述左右声道时域信号变换为左右声道频域信号;
将所述左右声道频域信号划分为至少二个子带,并根据每个所述子带的频域信号计算每个所述子带的IPD,并根据每个所述子带的IPD计算所述当前帧的子带IPD的方差。
本申请可预先设定多种IPD参数的提取方式,进而可在确定当前帧的多声道信号的IPD参数的提取方式时,根据获取到的用于确定多声道信号的当前帧的信息提取方式的参数确定上述当前帧的多声道信号的IPD参数的提取方式,实现IPD参数的提取方式的自适应选择,进而可根据确定的IPD参数的提取方式提取当前帧的多声道信号的IPD参数。本申请提高了当前帧的多声道信号的IPD参数的提取方式的选择多样性,增强了当前帧的多声道信号的IPD参数的提取方式与当前帧的信息提取方式确定参数的相关性。本申请在当前帧的多声道信号的IPD参数的提取方式采用Group IPD提取方式时IPD参数的编码占用的比特较少,可将更多的比特用于其他参数的编码,进而可提升音频的编码质量。本申请还可采用多个IPD参数作为当前帧的多声道信号的IPD参数可更好地保持相位信息,进而可提高音频编码的准确性,同时将子带划分为子带集合提取的IPD参数少于逐个子带提取的IPD参数的个数,可将更多的比特用于其他参数的编码,可提高音频的编码质量。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
本发明的说明书、权利要求书以及附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或者单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或者单元,或可选地还包括对于这些过程、方法、系统、产品或设备固有的其他步骤或单元。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (24)

1.一种声道间相位差参数的提取方法,其特征在于,包括:
获取用于确定多声道信号的当前帧的信息提取方式的参数;
根据所述用于确定多声道信号的当前帧的信息提取方式的参数确定当前帧的多声道信号的声道间相位差IPD参数的提取方式,所述确定的当前帧的多声道信号的IPD参数的提取方式为预设的至少两种IPD参数提取方式中的一种;
对所述当前帧的左右声道时域信号进行时频变换,以得到所述当前帧的左右声道频域信号;
根据所述确定的当前帧的多声道信号的IPD参数的提取方式提取所述当前帧的左右声道频域信号的IPD参数;
对所述当前帧的左右声道频域信号的IPD参数进行量化编码。
2.如权利要求1所述的方法,其特征在于,所述用于确定多声道信号的当前帧的信息提取方式的参数包括当前帧的信号特性参数和当前帧的前A帧的信号特性参数中的至少一种,其中,所述A为不小于1的整数;
其中,所述当前帧的信号特性参数包括所述当前帧的表示左右声道相关性的参数、所述当前帧的子带IPD的方差、所述当前帧的信号类型以及所述当前帧的声道间时间差ITD中的至少一种;
所述当前帧的前A帧的信号特性参数包括所述当前帧的前A帧的每一帧的表示左右声道相关性的参数、所述当前帧的前A帧的每一帧的子带IPD的方差、所述当前帧的前A帧的每一帧的ITD、所述当前帧的前A帧的每一帧的IPD参数的提取方式以及所述当前帧的前A帧的每一帧的信号类型中的至少一种;
其中,所述信号类型包括语音帧或者音乐帧。
3.如权利要求2所述的方法,其特征在于,所述用于确定多声道信号的当前帧的信息提取方式的参数包括所述当前帧的表示左右声道相关性的参数;
若所述当前帧的表示左右声道相关性的参数值大于第一阈值所述根据所述用于确定多声道信号的当前帧的信息提取方式的参数确定当前帧的多声道信号的IPD参数的提取方式包括:
确定所述当前帧的多声道信号的IPD参数的提取方式为第一提取方式。
4.如权利要求3所述的方法,其特征在于,所述第一阈值为0.75。
5.如权利要求2所述的方法,其特征在于,所述用于确定多声道信号的当前帧的信息提取方式的参数包括所述当前帧的前A帧的每一帧的IPD参数的提取方式和所述当前帧的前A帧的每一帧的信号类型;
若所述当前帧的前A帧的每一帧的IPD参数的提取方式均为第一提取方式,并且所述当前帧的前A帧的每一帧的信号类型均为音乐帧,所述根据所述用于确定多声道信号的当前帧的信息提取方式的参数确定当前帧的多声道信号的IPD参数的提取方式包括:
确定所述当前帧的多声道信号的IPD参数的提取方式为第一提取方式。
6.如权利要求2所述的方法,其特征在于,所述用于确定多声道信号的当前帧的信息提取方式的参数包括所述当前帧的ITD参数、所述当前帧的子带IPD的方差,以及所述当前帧的前A帧的每一帧的信号类型;
若所述当前帧的ITD参数的值大于第三阈值、所述当前帧的子带IPD的方差小于第四阈值,并且所述当前帧的前A帧的每一帧的信号类型均为语音帧,所述根据所述用于确定多声道信号的当前帧的信息提取方式的参数确定当前帧的多声道信号的IPD参数的提取方式包括:
确定所述当前帧的多声道信号的IPD参数的提取方式为第一提取方式。
7.如权利要求3-6任一项所述的方法,其特征在于,所述第一提取方式包括:当前帧的多声道信号的全局声道间相位差Group IPD参数提取方式,或者,不提取当前帧的多声道信号的IPD参数,或者,将当前帧的多声道信号的IPD参数设置为0。
8.如权利要求7所述的方法,其特征在于,当所述第一提取方式为当前帧的多声道信号的Group IPD参数提取方式时,所述根据所述确定的当前帧的多声道信号的IPD参数的提取方式提取所述当前帧的多声道信号的IPD参数包括:
提取所述当前帧的左右声道频域信号的子带的IPD参数,根据所述提取的子带的IPD参数确定所述当前帧的多声道信号的Group IPD。
9.如权利要求3-6任一项所述的方法,其特征在于,若所述当前帧的多声道信号的IPD参数的提取方式不为第一提取方式,所述根据所述用于确定多声道信号的当前帧的信息提取方式的参数确定当前帧的多声道信号的IPD参数的提取方式还包括:
确定当前帧的多声道信号的IPD参数的提取方式为第二提取方式;
其中,所述第二提取方式包括:子带集合IPD参数提取方式或者子带IPD参数提取方式。
10.如权利要求9所述的方法,其特征在于,所述第二提取方式为子带IPD参数提取方式,所述确定当前帧的多声道信号的IPD参数的提取方式为第二提取方式包括:
计算所述当前帧的左右声道频域信号的各个子带或部分子带的IPD参数。
11.如权利要求9所述的方法,其特征在于,所述第二提取方式为子带集合IPD参数提取方式,所述确定当前帧的多声道信号的IPD参数的提取方式为第二提取方式包括:
将所述当前帧的多声道信号的左右声道频域信号的子带划分为至少二个子带集合,每个所述子带集合中包含至少1个子带,并且至少有一个子带集合包括了至少2个子带;
计算所述至少二个子带集合中每个子带集合的IPD参数。
12.一种声道间相位差参数的提取装置,其特征在于,包括:
获取模块,用于获取用于确定多声道信号的当前帧的信息提取方式的参数;
确定模块,用于根据所述获取模块获取的所述用于确定多声道信号的当前帧的信息提取方式的参数确定当前帧的多声道信号的声道间相位差IPD参数的提取方式,所述确定的当前帧的多声道信号的IPD参数的提取方式为预设的至少两种IPD参数提取方式中的一种;
用于对所述当前帧的左右声道时域信号进行时频变换,以得到所述当前帧的左右声道频域信号的模块;
提取模块,用于根据所述确定模块确定的当前帧的多声道信号的IPD参数的提取方式提取所述当前帧的左右声道频域信号的IPD参数;
用于对所述当前帧的左右声道频域信号的IPD参数进行量化编码的模块。
13.如权利要求12所述的提取装置,其特征在于,所述用于确定多声道信号的当前帧的信息提取方式的参数包括当前帧的信号特性参数和所述当前帧的前A帧的信号特性参数中的至少一种,其中,所述A为不小于1的整数;
其中,所述当前帧的信号特性参数包括所述当前帧的表示左右声道相关性的参数、所述当前帧的子带IPD的方差、所述当前帧的信号类型以及所述当前帧的声道间时间差ITD中的至少一种;
所述当前帧的前A帧的信号特性参数包括所述当前帧的前A帧的每一帧的表示左右声道相关性的参数、所述当前帧的前A帧的每一帧的子带IPD的方差、所述当前帧的前A帧的每一帧的ITD、所述当前帧的前A帧的每一帧的IPD参数的提取方式以及所述当前帧的前A帧的每一帧的信号类型中的至少一种;
其中,所述信号类型包括语音帧或者音乐帧。
14.如权利要求13所述的提取装置,其特征在于,所述用于确定多声道信号的当前帧的信息提取方式的参数包括所述当前帧的表示左右声道相关性的参数;
若所述当前帧的表示左右声道相关性的参数大于第一阈值,所述确定模块具体用于:
确定所述当前帧的多声道信号的IPD参数的提取方式为第一提取方式。
15.如权利要求14所述的提取装置,其特征在于,所述第一阈值为0.75。
16.如权利要求13所述的提取装置,其特征在于,所述用于确定多声道信号的当前帧的信息提取方式的参数包括所述当前帧的前A帧的每一帧的IPD参数的提取方式和所述当前帧的前A帧的每一帧的信号类型;
若所述当前帧的前A帧的每一帧的IPD参数的提取方式均为第一提取方式,并且所述当前帧的前A帧的每一帧的信号类型均为音乐帧,所述确定模块具体用于:
确定所述当前帧的多声道信号的IPD参数的提取方式为第一提取方式。
17.如权利要求13所述的提取装置,其特征在于,所述用于确定多声道信号的当前帧的信息提取方式的参数包括所述当前帧的ITD参数、所述当前帧的子带IPD的方差,以及所述当前帧的前A帧的每一帧的信号类型;
若所述当前帧的ITD参数的值大于第三阈值、所述当前帧的子带IPD的方差小于第四阈值,并且所述当前帧的前A帧的每一帧的信号类型均为语音帧,所述确定模块具体用于:
确定所述当前帧的多声道信号的IPD参数的提取方式为第一提取方式。
18.如权利要求14-17任一项所述的提取装置,其特征在于,所述第一提取方式包括:当前帧的多声道信号的全局声道间相位差Group IPD参数提取方式,或者,不提取当前帧的多声道信号的IPD参数,或者,将当前帧的多声道信号的IPD参数设置为0。
19.如权利要求18所述的提取装置,其特征在于,当所述确定模块确定所述当前帧的多声道信号的IPD参数的提取方式为Group IPD提取方式时,所述提取模块具体用于:
提取所述当前帧的左右声道频域信号的子带的IPD参数,根据所述提取的子带的IPD参数确定所述当前帧的多声道信号的Group IPD。
20.如权利要求14-17任一项所述的提取装置,其特征在于,若所述当前帧的多声道信号的IPD参数的提取方式不为第一提取方式,所述确定模块具体用于:
确定当前帧的多声道信号的IPD参数的提取方式为第二提取方式;
其中,所述第二提取方式包括:子带集合IPD参数提取方式或者子带IPD参数提取方式。
21.如权利要求20所述的提取装置,其特征在于,所述第二提取方式为子带集合IPD参数提取方式,所述确定模块具体用于:
将所述当前帧的多声道信号的左右声道频域信号的子带划分为至少二个子带集合,每个所述子带集合中包含至少1个子带,并且至少有一个子带集合包括了至少2个子带;
所述提取模块具体用于:
计算所述确定模块确定的所述至少二个子带集合中每个子带集合的IPD参数。
22.如权利要求20所述的提取装置,其特征在于,所述第二提取方式为子带IPD参数提取方式,
所述提取模块具体用于:
计算所述当前帧的左右声道频域信号的各个子带或部分子带的IPD参数。
23.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至11任一所述的方法。
24.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至11任一所述的方法。
CN202211111461.7A 2016-05-31 2017-05-25 一种声道间相位差参数的提取方法及装置 Pending CN115662449A (zh)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
CN201610377800.4A CN107452387B (zh) 2016-05-31 2016-05-31 一种声道间相位差参数的提取方法及装置
CN2016103778004 2016-05-31
CNPCT/CN2016/102128 2016-10-14
PCT/CN2016/102128 WO2017206416A1 (zh) 2016-05-31 2016-10-14 一种声道间相位差参数的提取方法及装置
CN201780004928.9A CN108475509B (zh) 2016-05-31 2017-05-25 一种声道间相位差参数的提取方法及装置
PCT/CN2017/085909 WO2017206794A1 (zh) 2016-05-31 2017-05-25 一种声道间相位差参数的提取方法及装置

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201780004928.9A Division CN108475509B (zh) 2016-05-31 2017-05-25 一种声道间相位差参数的提取方法及装置

Publications (1)

Publication Number Publication Date
CN115662449A true CN115662449A (zh) 2023-01-31

Family

ID=60478483

Family Applications (3)

Application Number Title Priority Date Filing Date
CN201610377800.4A Active CN107452387B (zh) 2016-05-31 2016-05-31 一种声道间相位差参数的提取方法及装置
CN201780004928.9A Active CN108475509B (zh) 2016-05-31 2017-05-25 一种声道间相位差参数的提取方法及装置
CN202211111461.7A Pending CN115662449A (zh) 2016-05-31 2017-05-25 一种声道间相位差参数的提取方法及装置

Family Applications Before (2)

Application Number Title Priority Date Filing Date
CN201610377800.4A Active CN107452387B (zh) 2016-05-31 2016-05-31 一种声道间相位差参数的提取方法及装置
CN201780004928.9A Active CN108475509B (zh) 2016-05-31 2017-05-25 一种声道间相位差参数的提取方法及装置

Country Status (6)

Country Link
US (3) US11393480B2 (zh)
EP (3) EP4336495A3 (zh)
KR (2) KR102196390B1 (zh)
CN (3) CN107452387B (zh)
ES (1) ES2836682T3 (zh)
WO (2) WO2017206416A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107452387B (zh) 2016-05-31 2019-11-12 华为技术有限公司 一种声道间相位差参数的提取方法及装置
CN109215668B (zh) * 2017-06-30 2021-01-05 华为技术有限公司 一种声道间相位差参数的编码方法及装置
CN110556116B (zh) 2018-05-31 2021-10-22 华为技术有限公司 计算下混信号和残差信号的方法和装置
GB2582749A (en) * 2019-03-28 2020-10-07 Nokia Technologies Oy Determination of the significance of spatial audio parameters and associated encoding

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8843378B2 (en) * 2004-06-30 2014-09-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Multi-channel synthesizer and method for generating a multi-channel output signal
US7983922B2 (en) * 2005-04-15 2011-07-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing
TWI396188B (zh) * 2005-08-02 2013-05-11 Dolby Lab Licensing Corp 依聆聽事件之函數控制空間音訊編碼參數的技術
EP2144229A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Efficient use of phase information in audio encoding and decoding
KR20100035121A (ko) * 2008-09-25 2010-04-02 엘지전자 주식회사 신호 처리 방법 및 이의 장치
US8346380B2 (en) * 2008-09-25 2013-01-01 Lg Electronics Inc. Method and an apparatus for processing a signal
US20110206223A1 (en) * 2008-10-03 2011-08-25 Pasi Ojala Apparatus for Binaural Audio Coding
US8666752B2 (en) * 2009-03-18 2014-03-04 Samsung Electronics Co., Ltd. Apparatus and method for encoding and decoding multi-channel signal
GB2470059A (en) * 2009-05-08 2010-11-10 Nokia Corp Multi-channel audio processing using an inter-channel prediction model to form an inter-channel parameter
CN102656628B (zh) * 2009-10-15 2014-08-13 法国电信公司 优化的低吞吐量参数编码/解码
US9112591B2 (en) * 2010-04-16 2015-08-18 Samsung Electronics Co., Ltd. Apparatus for encoding/decoding multichannel signal and method thereof
KR101033241B1 (ko) * 2010-07-23 2011-05-06 엘아이지넥스원 주식회사 위상 배열 안테나 시스템을 위한 신호 처리 장치 및 방법
WO2012045203A1 (en) * 2010-10-05 2012-04-12 Huawei Technologies Co., Ltd. Method and apparatus for encoding/decoding multichannel audio signal
CN102844808B (zh) * 2010-11-03 2016-01-13 华为技术有限公司 用于编码多通道音频信号的参数编码器
CN102446507B (zh) 2011-09-27 2013-04-17 华为技术有限公司 一种下混信号生成、还原的方法和装置
EP2702587B1 (en) 2012-04-05 2015-04-01 Huawei Technologies Co., Ltd. Method for inter-channel difference estimation and spatial audio coding device
EP2834813B1 (en) 2012-04-05 2015-09-30 Huawei Technologies Co., Ltd. Multi-channel audio encoder and method for encoding a multi-channel audio signal
EP3028474B1 (en) * 2013-07-30 2018-12-19 DTS, Inc. Matrix decoder with constant-power pairwise panning
CN104681029B (zh) 2013-11-29 2018-06-05 华为技术有限公司 立体声相位参数的编码方法及装置
CN104053120B (zh) * 2014-06-13 2016-03-02 福建星网视易信息系统有限公司 一种立体声音频的处理方法和装置
CN107452387B (zh) * 2016-05-31 2019-11-12 华为技术有限公司 一种声道间相位差参数的提取方法及装置
US10217467B2 (en) * 2016-06-20 2019-02-26 Qualcomm Incorporated Encoding and decoding of interchannel phase differences between audio signals

Also Published As

Publication number Publication date
EP3451331A4 (en) 2019-06-19
EP3822967B1 (en) 2023-12-27
EP3451331A1 (en) 2019-03-06
US11393480B2 (en) 2022-07-19
US20190096411A1 (en) 2019-03-28
ES2836682T3 (es) 2021-06-28
EP3451331B1 (en) 2020-10-21
BR112018074333A2 (pt) 2019-03-06
WO2017206416A1 (zh) 2017-12-07
CN107452387A (zh) 2017-12-08
WO2017206794A1 (zh) 2017-12-07
US11915709B2 (en) 2024-02-27
CN107452387B (zh) 2019-11-12
KR20190009363A (ko) 2019-01-28
CN108475509A (zh) 2018-08-31
US20220328053A1 (en) 2022-10-13
US20240161755A1 (en) 2024-05-16
EP4336495A3 (en) 2024-05-01
EP4336495A2 (en) 2024-03-13
EP3822967A1 (en) 2021-05-19
KR102196390B1 (ko) 2020-12-29
KR102288841B1 (ko) 2021-08-10
CN108475509B (zh) 2022-10-04
KR20200145859A (ko) 2020-12-30

Similar Documents

Publication Publication Date Title
CN110495105B (zh) 多声道信号的编解码方法和编解码器
US8848925B2 (en) Method, apparatus and computer program product for audio coding
KR20200100061A (ko) 상이한 시간/주파수 해상도를 사용하여 지향성 오디오 코딩 파라미터를 인코딩 또는 디코딩 하기 위한 장치 및 방법
RU2439718C1 (ru) Способ и устройство для обработки звукового сигнала
US9263050B2 (en) Allocation, by sub-bands, of bits for quantifying spatial information parameters for parametric encoding
JP2019502965A (ja) 1つの広帯域アライメント・パラメータと複数の狭帯域アライメント・パラメータとを使用して、多チャネル信号を符号化又は復号化する装置及び方法
CN108475509B (zh) 一种声道间相位差参数的提取方法及装置
CN110462733B (zh) 多声道信号的编解码方法和编解码器
RU2769789C2 (ru) Способ и устройство кодирования параметра межканальной разности фаз
EP2690622B1 (en) Audio decoding device and audio decoding method
CN104299615B (zh) 一种声道间电平差处理方法及装置
CN105336334B (zh) 多声道声音信号编码方法、解码方法及装置
BR122023025938A2 (pt) Método e aparelho de extração de parâmetro de diferença de fase intercanal, e meio de armazenamento
BR112018074333B1 (pt) Método e aparelho de extração de parâmetro de diferença de fase intercanal

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination