CN107358959A - 多声道信号的编码方法和编码器 - Google Patents

多声道信号的编码方法和编码器 Download PDF

Info

Publication number
CN107358959A
CN107358959A CN201610303992.4A CN201610303992A CN107358959A CN 107358959 A CN107358959 A CN 107358959A CN 201610303992 A CN201610303992 A CN 201610303992A CN 107358959 A CN107358959 A CN 107358959A
Authority
CN
China
Prior art keywords
present frame
itd parameter
frame
itd
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610303992.4A
Other languages
English (en)
Other versions
CN107358959B (zh
Inventor
张兴涛
刘泽新
苗磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201610303992.4A priority Critical patent/CN107358959B/zh
Priority to PCT/CN2016/103596 priority patent/WO2017193551A1/zh
Publication of CN107358959A publication Critical patent/CN107358959A/zh
Application granted granted Critical
Publication of CN107358959B publication Critical patent/CN107358959B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明实施例提供一种多声道信号的编码方法和编码器,该方法包括:获取包含多声道信号的当前帧;根据多声道信号,确定特征信息,其中,特征信息包括当前帧的帧类型和信号类型中的至少一种,帧类型包括语音帧和/或非语音帧,信号类型包括清音和/或浊音;根据特征信息,确定当前帧的ITD参数;对ITD参数进行编码。本发明实施例能够提高ITD参数提取的准确性。

Description

多声道信号的编码方法和编码器
技术领域
本发明实施例涉及音频编解码领域,并且更为具体地,涉及一种多声道信号的编码方法和编码器。
背景技术
随着生活质量的提高,人们对高质量音频的需求不断增大。相对于单声道音频,立体声音频具有各声源的方位感和分布感,能够提高声音的清晰度、可懂度及临场感,因而备受人们青睐。
立体声处理技术主要有和差(Mid/Sid,MS)编码、强度立体声(IntensityStereo,IS)编码以及参数立体声(Parametric Stereo,PS)编码。
MS编码基于声道间相关性将两路信号作和、差变换,各声道能量主要集中在和声道,使声道间冗余得以去除。在MS编码技术中,码率的节省依赖于输入信号的相关性,当左右声道信号的相关性差时,需分别传输左声道信号和右声道信号。IS编码基于人耳听觉系统对声道的高频成分(例如,大于2kHz的成分)的相位差异精细结果不敏感的特性,将左右两路信号的高频分量进行简化处理。但该IS编码技术仅对高频成分有效,如将IS编码处理扩展到低频,将会引起严重的人为噪声。PS编码基于双耳听觉模型,在编码端将立体声转换成单声道信号和少量描述空间声场的空间参数(或空间感知参数),如图1所示(图1中的xL为左声道时域信号,xR为右声道时域信号)。解码端得到单声道信号后进一步结合空间参数恢复立体声,如图2所示。相对于MS编码,PS编码压缩比高,在保持较好音质的前提下,能够获得更高的编码增益,且可以工作在全音频带宽中,能够很好地还原立体声的空间感知效果。
PS编码中,空间参数包括声道间相关性(Inter-channel Coherent,IC)、声道间电平差(Inter-channel Level Difference,ILD)、声道间时间差(Inter-channel TimeDifference,ITD)以及声道间相位差(Inter-channel Phase Difference,IPD)。IC描述了声道间的互相关或相干性,该参数决定了声场范围的感知,可以提高音频信号空间感和声响稳定性。ILD用于分辨立体声源的水平方向角度,描述了声道间的强度差别,该参数将影响整个频谱的频率成分。ITD和IPD为表示声源水平方位的空间参数,描述了声道间的时间和相位的差别,该参数主要影响2kHz以下的频率成分。ILD、ITD和IPD能够决定人耳对声源位置的感知,可以有效确定声场位置,对立体声信号的恢复具有重要作用。
在具体的音频编码过程中,可以以帧为单位对立体声进行编码。在对当前帧进行编码时,可以基于当前帧中的多声道信号提取当前帧对应的ITD参数。其中,既可以基于时域信号提取当前帧的ITD参数,也可以基于频域信号提取当前帧的ITD参数。但无论基于那种方式提取当前帧的ITD参数,在整个编码过程中,所有帧的ITD参数提取方式均保持一致,这样的ITD参数提取方式不够灵活。
发明内容
本申请提供一种多声道信号的编码方法和编码器,以提高ITD参数提取方式的灵活性。
第一方面,提供一种多声道信号的编码方法,包括:获取包含多声道信号的当前帧;根据所述多声道信号,确定特征信息,其中,所述特征信息包括所述当前帧的帧类型和信号类型中的至少一种,所述帧类型包括语音帧和/或非语音帧,所述信号类型包括清音和/或浊音;根据所述特征信息,确定所述当前帧的ITD参数;对所述ITD参数进行编码。当前帧的ITD参数可以表示当前帧中的多声道信号的ITD参数。
本方案根据特征信息确定当前帧的ITD参数,而非像现有技术那样不考虑当前帧多声道信号的类型或特征,采用固定的方式提取ITD参数,因此,本方案能够提高ITD参数提取的灵活性。
结合第一方面,在第一方面的第一种实现方式中,所述根据所述多声道信号,确定特征信息,包括:根据所述多声道信号,确定所述当前帧的帧类型;所述根据所述特征信息,确定所述当前帧的ITD参数,包括:在所述当前帧为非语音帧的情况下,采用第一ITD参数提取方式确定所述当前帧的ITD参数;在所述当前帧为语音帧的情况下,采用第二ITD参数提取方式确定所述当前帧的ITD参数。
本方案中,根据当前帧的类型的不同,采用不同的ITD参数提取方式,提高了ITD参数提取方式的灵活性。
结合第一方面的第一种实现方式,在第一方面的第二种实现方式中,所述采用第一ITD参数提取方式确定所述当前帧的ITD参数,包括:将所述当前帧的前一帧或前一子帧的ITD参数确定为所述当前帧的ITD参数。
具体地,多声道信号可以是以帧为单位进行处理的,通常每帧为20ms,此外,可以将帧进一步划分为子帧进行处理,例如,将20ms的一帧划分成2个子帧时,每个子帧为10ms;将20ms的一帧划分成4个子帧时,每个子帧为5ms。当前帧的前一帧可以指的是与当前帧紧邻的前一帧,即当前帧开始点往前推移20ms所包含的音频样点。当前帧的前一子帧可以指与当前帧紧邻的前一帧的最后一个子帧。
本方案中,如果当前帧为非语音帧,一般承载的是背景噪声信号,而背景噪声信号的ITD参数一般波动较小,可以直接将当前帧的前一帧的ITD参数确定为当前帧的ITD参数,这样能够提高编码效率。
结合第一方面的第一种或第二种实现方式,在第一方面的第三种实现方式中,所述采用第二ITD参数提取方式确定所述当前帧的ITD参数,包括:根据所述多声道信号,确定所述当前帧的ITD参数。
结合第一方面的第三种实现方式,在第一方面的第四种实现方式中,所述根据所述多声道信号,确定所述当前帧的ITD参数,包括:根据所述多声道信号,确定所述当前帧的初始ITD参数;根据所述当前帧的前一帧或前一子帧的ITD参数,对所述当前帧的初始ITD参数进行平滑处理,得到所述当前帧的ITD参数。
通过平滑处理,能够避免噪声的影响,提高ITD参数提取的准确性。
结合第一方面的第四种实现方式,在第一方面的第五种实现方式中,所述根据所述当前帧的前一帧或前一子帧的ITD参数,对所述当前帧的初始ITD参数进行平滑处理,得到所述当前帧的ITD参数,包括:根据Tsm=w1*Tsm [-1]+w2*T1,确定所述当前帧的ITD参数,其中,T1表示所述当前帧的初始ITD参数,Tsm表示所述当前帧的ITD参数,Tsm [-1]表示所述当前帧的前一帧或前一子帧的ITD参数,w1和w2表示平滑因子,其中,w1和w2的取值范围均为[0,1],且w1+w2=1。
结合第一方面的第三种实现方式,在第一方面的第六种实现方式中,所述根据所述多声道信号,确定所述当前帧的ITD参数,包括:根据所述多声道信号,确定所述当前帧的K个子帧的初始ITD参数,K为大于1的整数;根据所述K个子帧中的每个子帧的前一子帧的ITD参数,对所述每个子帧的初始ITD参数进行平滑处理,得到所述每个子帧的ITD参数;将所述K个子帧的ITD参数确定为所述当前帧的ITD参数。
应理解,上述每个子帧的前一子帧可以指每个子帧紧邻的前一子帧。具体地,对于K个子帧中的第1个子帧而言,该第1个子帧的前一子帧为与当前帧紧邻的前一帧的最后一个子帧,对于K个子帧的第i(i>2)个子帧而言,该第i子帧的前一子帧为K个子帧中的第i-1个子帧。
结合第一方面的第六种实现方式,在第一方面的第七种实现方式中,所述根据所述K个子帧中的每个子帧的前一子帧的ITD参数,对所述每个子帧的初始ITD参数进行平滑处理,得到所述每个子帧的ITD参数,包括:根据Tsm(j)=w1*Tsm(j-1)+w2*T(j),确定所述每个子帧的ITD参数,其中,T(j)表示所述K个子帧中的第j个子帧的初始ITD参数,Tsm(j)表示所述第j个子帧的ITD参数,Tsm(j-1)表示所述K个子帧中的第j-1个子帧的ITD参数,w1和w2表示平滑因子,j为整数,且1≤j≤K,其中,w1和w2的取值范围均为[0,1],且w1+w2=1。
结合第一方面的第五种或第七种实现方式,在第一方面的第八种实现方式中,所述平滑因子的取值是基于所述当前帧的信号类型确定的。
根据信号类型确定平滑因子,能够进一步提高ITD参数提取的灵活性。
结合第一方面的第三种实现方式,在第一方面的第九种实现方式中,所述根据所述多声道信号,确定所述当前帧的ITD参数,包括:根据所述多声道信号,生成目标频域信号;对所述目标频域信号进行频时变换,得到目标时域信号;根据所述目标时域信号,确定所述当前帧的ITD参数。
在某些实现方式中,所述目标频域信号的相位与所述多声道信号的IPD线性相关。在某些实现方式中,所述目标频域信号的相位为所述多声道信号的IPD。应理解,频域信号可以通过复数表示,而复数可以通过幅值和相位表示,目标频域信号的相位可以指表示组成该目标频域信号的复数的相位。
在某些实现方式中,目标频域信号可以为多声道频域信号的互相关信号。
在某些实现方式中,所述根据所述目标时域信号,确定所述当前帧的ITD参数,包括:从所述目标时域信号的N个采样点中选取目标采样点,所述目标采样点为所述N个采样点中的采样值最大的采样点,N表示所述目标时域信号的采样点的数目;根据所述目标采样点对应的索引值,确定所述当前帧的ITD参数,其中,所述索引值用于指示所述目标采样点在所述N个采样点中的排序。可替换地,所述索引值用于指示所述目标采样点为所述N个采样点中的第几个采样点。例如,N个采样点的索引值的取值范围可以为(-N/2,N/2],假设目标采样点为N个采样点中的最后一个采样点,则目标采样点对应的索引值为N/2。
结合第一方面的第九种实现方式,在第一方面的第十种实现方式中,所述根据所述多声道信号,生成目标频域信号,包括:根据所述多声道信号,确定所述目标频域信号的幅值;根据所述多声道信号,确定所述当前帧多声道信号的IPD参数;根据所述目标频域信号的幅值,以及所述当前帧多声道信号的IPD参数,生成所述目标频域信号。
结合第一方面的第十种实现方式,在第一方面的第十一种实现方式中,所述根据所述多声道信号,确定所述目标频域信号的幅值,包括:根据确定所述目标频域信号的幅值,其中,AM(k)表示所述目标频域信号的幅值,A1(k)和A2(k)分别表示所述多声道信号中的任意两个声道的频域信号的幅值,k表示频点,0≤k≤L/2,L表示将所述多声道信号从时域变换至频域时采用的时频变换长度。
结合第一方面的第十种或第十一种实现方式,在第一方面的第十二种实现方式中,所述根据所述目标频域信号的幅值,以及所述当前帧的IPD参数(具体指当前帧中的多声道信号的IPD参数),生成所述目标频域信号,包括:根据生成所述目标频域信号,其中,AM(k)表示所述目标频域信号的幅值,XM_real(k)表示所述目标频域信号的实部,XM_iamge(k)表示所述目标频域信号的虚部,IPD(k)表示所述IPD参数,k表示频点,0≤k≤L/2,L表示将所述多声道信号从时域变换至频域时采用的时频变换长度。
结合第一方面的第九种实现方式,在第一方面的第十三种实现方式中,所述根据所述多声道信号,生成目标频域信号,包括:根据XM(k)=X1(k)*X* 2(k),生成所述目标频域信号,其中,XM(k)表示所述目标频域信号,X1(k)表示所述多声道信号中的第一声道的频域信号,X* 2(k)表示所述多声道信号中的第二声道的频域信号的共轭,k表示频点,0≤k≤L/2,L表示将所述多声道信号从时域变换至频域时采用的时频变换长度。
结合第一方面的第九种实现方式,在第一方面的第十四种实现方式中,所述根据所述多声道信号,生成目标频域信号,包括:根据XM(k)=X1(k)*X* 2(k),确定频域信号XM(k),其中,X1(k)表示所述多声道信号中的第一声道的频域信号,X* 2(k)表示所述多声道信号中的第二声道的频域信号的共轭,k表示频点,0≤k≤L/2,L表示将所述多声道信号从时域变换至频域时采用的时频变换长度;对所述频域信号XM(k)的幅值进行归一化处理,得到所述目标频域信号。
结合第一方面的第一种至第十四种实现方式中的任一种,在第一方面的第十五种实现方式中,所述根据所述多声道信号,确定所述当前帧的帧类型,包括:确定所述多声道信号的能量;在所述多声道信号的能量小于或等于预设的能量阈值的情况下,将所述当前帧确定为非语音帧;在所述多声道信号的能量大于所述能量阈值的情况下,将所述当前帧确定为语音帧。
结合第一方面的第一种实现方式,在第一方面的第十六种实现方式中,所述方法还包括:根据所述多声道信号,确定所述当前帧的初始ITD参数;所述采用第一ITD参数提取方式确定所述当前帧的ITD参数,包括:将所述当前帧的初始ITD参数确定为所述当前帧的ITD参数;所述采用第二ITD参数提取方式确定所述当前帧的ITD参数,包括:对所述当前帧的初始ITD参数进行调整,得到所述当前帧的ITD参数。
结合第一方面的第十六种实现方式,在第一方面的第十七种实现方式中,所述对所述当前帧的初始ITD参数进行调整,得到所述当前帧的ITD参数,包括:根据所述当前帧的前一帧或者前N帧的帧类型,以及所述当前帧的初始ITD参数,确定所述当前帧的ITD参数,其中,N为大于1的整数。
根据当前帧的前一帧或者前N帧的帧类型,以及当前帧的初始ITD参数,确定当前帧的ITD参数,能够提高ITD参数提取的灵活性。
结合第一方面的第十七种实现方式,在第一方面的第十八种实现方式中,所述根据所述当前帧的前一帧或者前N帧的帧类型,以及所述当前帧的初始ITD参数,确定所述当前帧的ITD参数,包括:在所述当前帧的前一帧或者前N帧的帧类型为语音帧的情况下,根据所述当前帧的前一帧的ITD参数和所述当前帧的初始ITD参数,确定所述当前帧的ITD参数。
本方案中,如果当前帧的前一帧或者前N帧为语音帧,说明当前帧为连续语音帧中的一帧,而连续语音帧之间的ITD参数是存在关联的,根据当前帧的前一帧的ITD参数和当前帧的初始ITD参数,确定当前帧的ITD参数,能够提高ITD参数提取的灵活性。
结合第一方面的第十八种实现方式,在第一方面的第十九种实现方式中,所述根据所述当前帧的前一帧的ITD参数和所述当前帧的初始ITD参数,确定所述当前帧的ITD参数,包括:在所述当前帧的前一帧的ITD参数不为预设值,且所述当前帧的初始ITD参数为预设值的情况下,将所述当前帧的前一帧的ITD参数确定为所述当前帧的ITD参数;否则,将所述当前帧的初始ITD参数确定为所述当前帧的ITD参数。
本方案中,当前帧为连续语音帧中的一帧,连续语音帧的ITD参数一般波动较小,将当前帧的前一帧的ITD参数确定为当前帧的ITD参数,能够避免ITD参数计算错误,提高ITD参数提取的准确性。
结合第一方面的第十八种实现方式,在第一方面的第二十种实现方式中,所述根据所述当前帧的前一帧的ITD参数和所述当前帧的初始ITD参数,确定所述当前帧的ITD参数,包括:在所述当前帧的前一帧的ITD参数不为预设值,且所述当前帧的初始ITD参数为预设值的情况下,如果连续计算出的ITD参数为预设值的个数小于预设阈值,将所述当前帧的前一帧的ITD参数确定为所述当前帧的ITD参数;否则,将所述当前帧的初始ITD参数确定为所述当前帧的ITD参数。
结合第一方面的第十六种或第十七种实现方式,在第一方面的第十八种实现方式中,预设值为0。
第二方面,提供一种编码器,包括能够执行第一方面中的多声道信号的编码方法的各个步骤的单元。
第三方面,提供一种编码器,包括存储器和处理器,所述存储器用于存储程序,所述处理器用于执行程序,当所述程序被执行时,所述处理器执行第一方面中的方法。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是现有技术中的PS编码的流程图。
图2是现有技术中的PS解码的流程图。
图3是现有技术中的基于时域的ITD参数提取方法的示例性流程图。
图4是现有技术中的基于频域的ITD参数提取方法的示例性流程图。
图5是本发明实施例的多声道信号的编码方法的示意性流程图。
图6是本发明实施例的多声道信号的编码方法的示意性流程图。
图7是本发明实施例的多声道信号的编码方法的示意性流程图。
图8是本发明实施例的多声道信号的编码方法的示意性流程图。
图9是当前帧的ITD参数的提取方式的示例性流程图。
图10是当前帧的ITD参数的提取方式的示例性流程图。
图11是本发明实施例的编码器的示意性结构图。
图12是本发明实施例的编码器的示意性结构图。
具体实施方式
为了便于理解,先简单介绍多声道的ILD、ITD、IPD的含义。以第一个麦克拾取到的信号为第一声道信号,第二个麦克拾取到的信号为第二声道信号为例:
ILD描述了第一声道信号和第二声道信号之间的强度差别;如果ILD大于0,表示第一声道信号的能量高于第二声道信号的能量;如果ILD等于0,表示第一声道信号的能量等于第二声道信号的能量;如果ILD小于0,表示第一声道信号的能量小于第二声道信号的能量;
ITD描述的第一声道信号和第二声道信号之间的时间差别,即声源到达第一个麦克和第二个麦克的时间差异,如果ITD大于0,表示声源到达第一个麦克的时间早于声源到达第二个麦克的时间;如果ITD等于0,表示声源到达同时到达第一个麦克和第二个麦克;如果ITD小于0,表示声源达到第一个麦克的时间晚于声源到达第二个麦克的时间;
IPD描述了第一声道信号和第二声道信号的相位差别,该参数通常和ITD参数结合在一起,以便解码端恢复多声道信号的相位信息。
在现有技术中,ITD参数的提取方式主要分为基于时域的ITD参数提取方式和基于频域的ITD参数提取方式,为了便于理解,先结合图3和图4,分别对这两种ITD参数提取方式进行介绍。
图3是基于时域的ITD参数提取方法的示例性流程图。图3的方法包括:
310、基于左右声道时域信号提取ITD参数。
具体而言,可以基于左右声道时域信号,采用时域互相关函数提取ITD参数,例如:在0≤i≤Tmax范围内,计算:
如果则T1取max(Cn(i))对应的索引值的相反数;否则T1取max(Cp(i))对应的索引值;其中,i为计算互相关函数的索引值,Tmax对应于不同采样率下ITD取值的最大值,Length为帧长。
320、对ITD参数进行量化处理。
图4是基于频域的ITD参数提取方法的示例性流程图。图4的方法包括:
410、对左右声道时域信号进行时频变换,得到左右声道频域信号。
具体而言,时频变换可以采用离散傅里叶变换(Discrete FourierTransformation,DFT)、修正的离散余弦变换(Modified Discrete Cosine Transform,MDCT)等技术,将时域信号变换为频域信号。
例如,对于输入的左右声道的时域信号,时频变换可以采用DFT变换,具体地,可以采用如下公式进行DFT变换。
其中,n为时域信号的样点的索引值,k为频域信号的频点的索引值,L为时频变换长度。x(n)为左声道时域信号或右声道时域信号。
420、基于左右声道频域信号提取ITD参数。
具体地,可以将频域信号的L个频点(Frequency Bin)划分为N个子带,对于第b个子带,其包含的频点为Ab-1≤k≤Ab-1。在搜索范围-Tmax≤j≤Tmax,可以采用如下公式计算幅值:
则第b个子带的ITD参数可以为即公式(4)计算出的最大值对应的样点的索引值。
430、对ITD参数进行量化处理。
应理解,图3和图4描述的是ITD参数的大体流程,实际中,可以视情况以帧、子帧或子带为单位提取ITD参数,本发明实施例对此不作具体限定。当以帧为单位提取ITD参数时,当前帧的ITD参数可以为一个ITD参数;当以子帧或子带为单位提取ITD参数是,当前帧的ITD参数可以为多个ITD参数,即每个子帧或每个子带对应一个ITD参数。
例如,在基于时域的ITD参数提取方式实际中,可以以帧或子帧为单位提取ITD参数。例如,对于一个20ms的当前帧,可以以当前帧(即20ms)为单位进行时频变换,提取当前帧的ITD参数;在当前帧被划分成2个子帧的情况下,可以以子帧(即10ms)为单位进行时频变换,提取每个子帧对应的ITD参数;在当前帧被划分成4个子帧的情况下,可以以子帧(即5ms)为单位进行时频变换,提取每个子帧对应的ITD参数。
又如,在基于频域的ITD参数提取方式中,可以以帧或子帧为单位提取ITD参数。当帧或子帧进一步被划分成多个子带时,还可以以子带为单位提取ITD参数。
现有技术中,ITD参数的提取方式一旦确定,多声道信号所有帧的ITD参数提取方式就固定下来,而无法根据实际情况灵活调整。但是多声道信号不同帧有不同的特征,例如,有些帧中包含的是语音信号,有些帧中包含的是背景噪声信号;有些帧中的语音信号是清音,有些帧中的语音信号是浊音;有些帧的能量高,有些帧的能量低。多声道信号不同类型的帧或不同类型的信号可以采用相同或不同的ITD参数提取方式,例如,对于背景噪声信号而言,其ITD参数在一定时间范围内通常不会发生大的变化,如果按帧重复地计算背景噪声信号的ITD参数,会浪费编码资源,降低编码效率。
为了提高ITD参数提取的灵活性,下面结合图5,详细描述本发明实施例的多声道信号的编码方法。
图5是本发明实施例的多声道信号的编码方法的示意性流程图。图5的多声道信号的编码方法包括:
510、获取包含多声道信号的当前帧。
在一些实施例中,多声道信号可以为多声道时域信号;在一些实施例中,多声道信号可以为多声道频域信号。
520、根据多声道信号,确定特征信息。
本发明实施例对特征信息的具体类型不作限定,在一些实施例中,所述特征信息可用于指示所述多声道信号的特征。在一些实施例中,特征信息可以包括当前帧的帧类型和信号类型中的至少一种,帧类型可以包括语音帧和/或非语音帧;信号类型可以包括清音和/或浊音。在一些实施例中,语音帧为包含语音信号的帧。在一些实施例中,非语音帧也可称为背景帧。背景帧中的信号例如可以是背景噪声信号。此外,本发明实施例对语音帧和非语音帧的具体命名不作限定,例如,在语音活动检测(Voice Activity Detection,VAD)检测中,包含语音信号的帧可以称之为语音激活帧(或称active帧);非语音帧可以称为语音非激活帧(或称inactive帧)。下文以语音帧为语音激活帧,非语音帧为语音非激活帧为例进行举例说明。
本发明实施例对根据多声道信号,确定多声道信号的信号类型的具体方式不作限定。在一些实施例中,当多声道时域信号的过零率(Zero Crossing Rate,ZCR)大于预设阈值时,多声道信号的信号类型为清音(或当前帧为清音帧);否则,多声道信号的信号类型为浊音(或当前帧为浊音帧)。在另一些实施例中,当多声道信号的相关值(用于描述多声道信号的相关性)大于预设阈值时,多声道信号的信号类型为浊音(或当前帧为浊音帧);否则,多声道信号的信号类型为清音(或当前帧为清音帧)。
530、根据特征信息,确定当前帧的ITD参数。
具体地,可以根据当前帧的帧类型,确定当前帧的ITD参数。例如,对语音激活帧和语音非激活帧采用不同的ITD参数提取方式。或者,可以根据多声道信号的信号类型,确定当前帧的ITD参数。例如,对清音信号和浊音信号采用不同的ITD参数提取方式。后文会结合具体的例子进行详细描述,此处不再详述。
540、对所述ITD参数进行编码。
在一些实施例中,图5的方法还可以包括:向解码端发送编码后的ITD参数。
在一些实施例中,步骤520可包括:根据所述多声道信号,确定所述当前帧的帧类型;步骤530可包括:在所述当前帧为非语音帧的情况下,采用第一ITD参数提取方式确定所述当前帧的ITD参数;在所述当前帧为语音帧的情况下,采用第二ITD参数提取方式确定所述当前帧的ITD参数。
应理解,本发明实施例对根据所述多声道信号,确定所述当前帧的帧类型的方式不作具体限定。例如,可以基于VAD确定当前帧的帧类型。
还应理解,本发明实施例对第一ITD参数提取方式和第二ITD参数提取方式不作具体限定,只要第一ITD参数提取方式和第二ITD参数提取方式不同即可。
在一些实施例中,第一ITD参数提取方式可以是将所述当前帧的前一帧或前一子帧的ITD参数确定为所述当前帧的ITD参数。
在一些实施例中,第二ITD参数提取方式可以是根据所述多声道信号,确定所述当前帧的ITD参数。例如,可以采用现有技术中的基于时域、频域的方式提取当前帧的ITD参数。或者,可以在现有技术的基础上对提取出的初始ITD参数进行平滑处理,得到当前帧的ITD参数。或者,可以采用根据本发明实施例的基于混合域(时域和频域)的方式提取ITD参数,后文会对基于混合域的ITD参数进行详细描述,此处不再赘述。
下文以多声道信号为左右声道信号为例进行详细说明,但本发明实施例不限于此。实际中,本申请中的方案可应用于处理两声道或多声道信号中的任意两个声道,在多声道场景下,下文中的左右声道可以是该多声道中的任意两个声道。
图6是本发明实施例的多声道信号的编码方法的示意性流程图。应理解,图6示出的处理步骤或操作仅是示例,本发明实施例还可以执行其它操作或者图6中的各种操作的变形。此外,图6中的各个步骤可以按照与图6呈现的不同的顺序来执行,并且有可能并非要执行图6中的全部操作。图6的方法包括:
610、检测当前帧的帧类型。
具体地,可以对当前帧进行VAD,并根据检测结果判断当前帧是语音激活帧,还是语音非激活帧。
620、判断当前帧是否为语音激活帧。
如果不是语音激活帧(即当前帧为语音非激活帧),可以执行步骤630;如果是语音激活帧,可以执行步骤640。
630、采用第一ITD参数提取方式确定当前帧的ITD参数。
在一些实施例中,第一ITD参数提取方式可以包括:将当前帧的前一帧或前一子帧的ITD参数确定为当前帧的ITD参数。
640、采用第二ITD参数提取方法确定当前帧的ITD参数。
可选地,在一些实施例中,可以采用图3描述的方式提取当前帧的ITD参数,即在时域提取当前帧的ITD参数。
可选地,在一些实施例中,可以采用图4描述的方式提取当前帧的ITD参数,即在频域提取当前帧的ITD参数。
可选地,在一些实施例中,可以在混合域提取当前帧的ITD参数,下文会结合图7和图8,对根据本发明实施例在混合域提取ITD参数的方式进行详细描述,此处不再详述。
可选地,在一些实施例中,可以先提取当前帧的初始ITD参数;再对当前帧的初始ITD参数进行平滑处理,得到当前帧的ITD参数。
应理解,本发明实施例对当前帧的初始ITD参数的提取方式不作具体限定。
可选地,作为一种实现方式,可以采用图3描述的方式提取当前帧的初始ITD参数,即在时域提取当前帧的初始ITD参数。
可选地,作为一种实现方式,可以采用图4描述的方式提取当前帧的ITD参数,即在频域提取当前帧的初始ITD参数。
可选地,作为一种实现方式,可以在混合域提取当前帧的初始ITD参数,下文会结合图7和图8,对根据本发明实施例的在混合域提取ITD参数的方式进行详细描述。
在提取出当前帧的初始ITD参数之后,可以采用如下公式进行平滑处理:
Tsm=w1*Tsm [-1]+w2*T1 (5)
其中,Tsm [-1]为当前帧的前一帧的ITD参数的平滑值;对于平滑因子w1、w2,可以设置为常数,例如w1=0.75,w2=0.25,或者w1=0.8,w2=0.2,或者w1=0.9,w2=0.1等;也可以根据Tsm [-1]和T1的大小关系设置为不同的因子;也可以结合当前帧中的信号类型,采用不同的平滑因子进行平滑处理。例如,对于清音帧,可以采用较小的平滑因子,对于浊音帧,可以采用较大的平滑因子。此外,w1、w2的关系满足w1+w2=1。
或者,如果当前帧划分为K个子帧,每个子帧可以对应一个初始ITD参数(子帧ITD参数的提取方式与帧的ITD参数提取方式类似,也可分为基于时域、频域、混合域的提取方式,为避免重复,此处赘述),可以采用如下公式对每个子帧的初始ITD参数进行平滑处理:
Tsm(j)=w1*Tsm(j-1)+w2*T(j) (6)
其中,Tsm(j-1)为前一子帧的ITD参数的平滑值;对于平滑因子w1、w2,可以设置为常数,例如w1=0.75,w2=0.25,或者w1=0.8,w2=0.2,或者w1=0.9,w2=0.1等;也可以根据Tsm(j-1)和T(j)的大小关系设置为不同的因子;也可以结合当前帧中的信号类型,采用不同的平滑因子进行平滑处理。例如,对于清音帧,可以采用较小的平滑因子,对于浊音帧,可以采用较大的平滑因子。此外,w1、w2的关系满足w1+w2=1。
在一些实施例中,平滑处理可以在编码实现,也可以在解码端实现。
下面结合图7和图8,详细描述本发明实施例的基于混合域的ITD参数提取方式。图7和图8描述的ITD参数提取方式可用于提取当前帧的ITD参数;此外,在需要进行平滑处理的实施例中,图7和图8描述的ITD参数提取方式也可用于提取当前帧的初始ITD参数。图7和图8的ITD参数实现方式会在频域构造目标频域信号,该目标频域信号的相位为多声道信号的IPD,这样,当将目标频域信号转换到时域,得到目标时域信号时,当前帧的ITD参数会位于该目标时域信号的采样值最大的采样点对应的索引值处。图7和图8的区别在于目标频域信号的构造方式不同。
图7是本发明实施例的多声道信号的编码方法的示意性流程图。在图7对应的实施例中,目标频域信号主要是通过逐频点计算单声道频域信号的幅值和左右声道信号的IPD而构建出的频域信号。应理解,图7示出的处理步骤或操作仅是示例,本发明实施例还可以执行其它操作或者图7中的各种操作的变形。此外,图7中的各个步骤可以按照与图7呈现的不同的顺序来执行,并且有可能并非要执行图7中的全部操作。
710、对左右声道的时域信号分别进行时频变换,得到左右声道的频域信号。
具体地,可以采用公式(7)和(8)对左右声道的时域信号进行离散傅里叶变换(Discrete Fourier Transformation,DFT):
其中,xL(n)和xR(n)分别为左右声道的时域信号,Length为帧长或子帧长,k为频域信号的频点的索引值,L为时频变换长度。
为了提升编码效率,可以采用快速傅里叶变换(Fast Fourier Transformation,FFT)进行时频变换,时频变换后得到的频域信号是复数信号,包含了实部和虚部,对于左声道的频域信号,其实部为XL_real(k),虚部为XL_image(k);对于右声道的频域信号,其实部为XR_real(k),虚部为XR_image(k),其中,
具体地,以左声道的频域信号为例,其实部和虚部的取值可以采用如下计算方式:
XL_real(0)=XL(0),XL_image(0)=0 (9)
或者,
XL_real(0)=XL(0),XL_image(0)=0 (12)
需要注意的是,时频变换以后,对于宽带信号(WB信号),如果时频变换长度为512,则得到的频域信号包括256个频点,其中第256个频点对应的是8kHz的频谱,第128个频点对应的是4kHz的频谱,其它依次类推。
720、对左右声道的频域信号进行频域系数处理,得到目标频域信号。
在一些实施例中,可以逐频点计算目标频域信号的幅值AM(k)以及声道间相位差IPD(k),其中,k为频点,0≤k≤L/2,L为将左右声道的时域信号变换成左右声道的频域信号时采用的时频变换长度。
具体地,可以先计算目标频域信号的幅值AM(k):
其中,左声道频域信号的幅值可以为:
右声道频域信号的幅值可以为:
然后,可以计算左右声道信号的IPD(k):
IPD(k)=∠L(k)*R*(k),k1≤k≤k2 (18)
其中,k表示频点,L(k)和R(k)分别为左右声道频域信号第k个频点值,该频点值包含实部和虚部,R*(k)表示右声道频域信号第k个频点值的共轭,L(k)和R(k)的实部和虚部可以基于XL(k)和XR(k)构建,该公式(18)可以进一步整理为:
其中:
A′(k)=XL_real(k)*XR_real(k)+XL_image(k)*XR_image(k) (20)
A″(k)=XL_image(k)*XR_real(k)-XL_real(k)*XR_image(k) (21)
接着,在得到目标频域信号的幅值,以及左右声道信号的相位差之后,进一步处理得到目标频域信号:
XM_real(k)=AM(k)*cos(IPD(k)) (22)
XM_iamge(k)=AM(k)*sin(IPD(k)) (23)
在一些实施例中,在得到目标频域信号的幅值以及左右声道信号的IPD后,可以采用查表法得到目标频域信号,例如,设置sin函数和cos函数表格,利用查表法得到目标频域信号,这样可以有效降低算法的计算复杂度。
730、对目标频域信号进行频时变换,得到目标时域信号。
在一些实施例中,可以对目标频域信号加窗并进行逆离散傅里叶变换(InverseDiscrete Fourier Transform,IDFT)。
具体地,可以先对目标频域信号进行加窗处理:
其中,k为频点,0≤k≤L/2,L为将左右声道的时域信号变换成左右声道的频域信号时采用的时频变换长度。
然后,对加窗后的信号进行IDFT变换,得到目标时域信号:
其中,n为时域信号的采样点的索引值,0≤n<L/2。
在一些实施例中,步骤730可以采用IDFT进行频时变换,也可以采用逆快速傅里叶变换(Inverse Fast Fourier Transform,IFFT)进行频时变换。
在一些实施例中,可以无需对所有频点进行频时变换,仅在特定频域范围内进行频时变换,这样可以有效降低算法的计算复杂度。例如,可以在频点范围[k3,k4]内进行频时变换,其中,k3>0,k4<L/2。
740、对目标时域信号的幅值进行平滑处理。
具体地,目标时域信号的幅值可以通过下式表示:
对目标时域信号的幅值进行平滑处理,得到幅度平滑值Asm(n):
其中,为当前帧的前一帧/子帧第n点的幅度平滑值;w1、w2为平滑因子,可以设置为常数,也可以随和A(n)的大小关系的变化而变化,同时满足w1+w2=1。例如,可以设置w1=0.75,w2=0.25,或者w1=0.8,w2=0.2,或者w1=0.9,w2=0.1,或者
750、搜索平滑后的目标时域信号的采样值最大的采样点对应的索引值,得到ITD参数。
具体地,搜索平滑后的时域信号的采样值最大的采样点对应的索引值index=argmax(Asm(n)),ITD参数=index。
从公式(22)和(23)可以看出,频域系数处理以后得到的目标频域信号的相位为第一声道和第二声道的IPD。进一步地,由于IPD与ITD之间存在线性关系,可以将目标频域信号近似改写成下式:
对目标频域信号进行频时变换之后,目标时域信号的采样值最大的采样点对应的索引值会在ITD处。
图8是本发明实施例的多声道信号的编码方法的示意性流程图。在图8对应的实施例中,目标频域信号主要是基于左右声道信号中的一个声道的信号和另一个声道的信号的共轭构建出的频域信号。应理解,图8示出的处理步骤或操作仅是示例本发明实施例还可以执行其它操作或者图8中的各种操作的变形。此外,图8中的各个步骤可以按照与图8呈现的不同的顺序来执行,并且有可能并非要执行图8中的全部操作。此外,图8中的各个步骤与图7中的各个步骤对应,不同之处在于步骤820的处理方式不同于步骤720的处理方式,其他步骤可以参照图7,此处不再详述。
810、对左右声道的时域信号分别进行时频变换,得到左右声道的频域信号。
820、通过左右声道信号中一个声道的频域信号和另一声道的频域信号的共轭相乘,得到目标频域信号。
应理解,一个声道的频域信号和另一个声道的频域信号的共轭相乘,得到的频域信号的相位为这两个声道的IPD。
具体地,目标频域信号XM(k)可以通过下式计算得到:
XM(k)=L(k)*R*(k) (32)
其中,L(k)和R(k)分别为左右声道频域信号第k个频点值,该频点值包含实部和虚部,R*(k)表示右声道频域信号第k个频点值的共轭,L(k)和R(k)的实部和虚部可以基于XL(k)和XR(k)构建。
或者XM(k)=R(k)*L*(k) (33)
其中,R(k)为右声道的频域信号第k个频点值,L*(k)为左声道的频域信号第k个频点值的共轭,0≤k≤L/2。
在一些实施例中,在得到XM(k)之后,可以进一步对XM(k)进行归一化处理,得到目标频域信号。
具体地,可以先计算XM(k)的最大幅值:
然后对XM(k)的幅值进行归一化处理:
830、对目标频域信号进行频时变换,得到目标时域信号。
840、对目标时域信号的幅值进行平滑处理。
850、搜索平滑后的目标时域信号的采样值最大的采样点对应的索引值,得到ITD参数。
继续参见图6,图6中的步骤610的实现方式可以有多种,例如,可以在时域检测当前帧的帧类型;也可以在频域检测当前帧的帧类型。
在一些实施例中,可以采用VAD检测算法检测当前帧的帧类型。具体地,可以基于当前帧中的信号的能量检测当前帧的帧类型。下面结合图9对基于能量的帧类型检测方式进行举例说明。
图9是当前帧的ITD参数的提取方式的示例性流程图。图9主要是基于当前帧中的信号的能量对当前帧进行VAD检测,以确定当前帧是语音激活帧,还是语音非激活帧。应理解,图9示出的处理步骤或操作仅是示例本发明实施例还可以执行其它操作或者图9中的各种操作的变形。此外,图9中的各个步骤可以按照与图9呈现的不同的顺序来执行,并且有可能并非要执行图9中的全部操作。
910、对左右声道的时域信号进行时频变换。
具体地,可以对左右声道的时域信号分别进行快速傅里叶变换(Fast FourierTransformation,FFT)变换,得到左右声道的频域信号:
其中,xL(n)和xR(n)分别表示左右声道的时域信号,k为频域信号的频点的索引值,Length为帧长,L为时频变换长度。
FFT变换后得到的复数信号包含实部和虚部,对于左声道频域信号实部为XL_real(k),虚部为XL_image(k);对于右声道信号实部为XR_real(k),虚部为XR_image(k),其中,0≤k≤L/2。
在一些实施例中,XL_real(k)、XL_image(k)可以采用如下公式描述的取值方式(XR_real(k)、XR_image(k)的取值方式同理,此处不再赘述):
XL_real(0)=XL(0),XL_image(0)=0 (39)
或者:
XL_real(0)=XL(0),XL_image(0)=0 (42)
920、计算当前帧/子帧的能量。
具体地,可以根据如下公式计算当前帧/子帧的能量:
然后,可以判断当前帧/子帧的能量Etot是否大于预设的VAD阈值EVAD;其中,EVAD可以设置为固定值,也可以根据当前帧/子帧能量自适应调整。
如果Etot≤EVAD,可以执行步骤930;如果Etot≥EVAD,可以执行步骤940。
930、采用第一ITD参数提取方式提取当前帧/子帧的ITD参数。
第一ITD参数提取方式可以是:保持当前帧的前一帧/子帧的ITD值。
940、采用第二ITD参数提取方式提取当前帧/子帧的ITD参数。
第二ITD参数提取的实现方式可以参照图6的步骤640。下面仍以基于混合域的ITD参数提取方式进行举例说明。
Step 1,可以结合当前帧/子帧的能量进行频域系数处理。
具体地,假设当前帧/子帧第k个频点的能量为E(k),如果E(k)*L≤Etot,可以将目标频域信号当前频点设置为0;否则,可以计算目标频域信号当前频点的幅值以及IPD,采用类似图7描述的方式,处理得到目标频域信号,其中,L为将左右声道的时域信号变换成左右声道的频域信号时采用的时频变换长度。
具体地,可以采用如下公式计算幅值AM(k):
其中,左声道频域信号在第k个频点的幅值为:
右声道频域信号在第k个频点的幅值为:
其次,可以采用如下公式计算左右声道信号的声道间相位差IPD(k):
IPD(k)=∠L(k)*R*(k) (47)
其中,L(k)和R(k)分别为左右声道频域信号第k个频点值,该频点值包含实部和虚部,R*(k)表示右声道频域信号第k个频点值的共轭,L(k)和R(k)的实部和虚部可以基于XL(k)和XR(k)构建。
然后,构建目标频域信号,使得该目标频域信号的相位与左右声道信号的IPD线性相关。
具体地,可以采用如下公式构建目标频域信号:
Step 2,对目标频域信号进行频时变换,得到目标时域信号。
在一些实施例中,可以先对目标频域信号进行加窗及IDFT变换,得到目标时域信号。
具体地,可以采用如下公式对目标频域信号进行加窗处理:
进一步地,可以采用如下公式对加窗后的频域信号进行IDFT变换,得到目标时域信号:
其中,0≤n<L/2。
此外,在一些实施例中,还可以对目标时域信号的幅值A(n)进行平滑处理,得到幅度平滑值Asm(n)。例如,可以结合信号类型采用不同的平滑因子进行平滑处理。例如,对于清音帧,采用较小的平滑因子,对于浊音帧,采用较大的平滑因子。
具体地,可以采用如下公式计算目标时域信号幅值A(n):
然后可以采用如下公式对A(n)进行平滑处理,得到幅度平滑值Asm(n):
其中,表示当前帧的前一帧/子帧第n点的幅度平滑值;对于平滑因子w1、w2可以设置为常数,也可以根据和A(n)的大小关系设置为不同的因子,w1、w2满足w1+w2=1。例如,可以设置w1=0.75,w2=0.25,或者w1=0.8,w2=0.2,或者w1=0.9,w2=0.1,或者
Step 3,根据目标时域信号的采样值最大的采样点对应的索引值,确定当前帧或当前子帧的ITD参数。
具体地,可以将目标频域信号的采样值最大的采样点对应的索引值确定为当前帧或当前子帧的ITD参数。例如,可以搜索平滑后时域信号的采样值最大的采样点对应的索引值index=arg(max(Asm(n))),得到ITD参数:ITD=index。
或者,可以对目标频域信号的采样值最大的采样点对应的索引值进行变换(如归一化、等比例缩放等),将变换后的值确定为当前帧或当前子帧的ITD参数。
在上文描述的实现方式中,如果当前帧为非语音帧,可以将当前帧的前一帧或前一子帧的ITD参数确定为当前帧的ITD参数,但本发明实施例不限于此。例如,如果当前帧为非语音帧,可以在时域、频域或混合域提取当前帧的ITD参数;如果当前帧为语音帧,且当前帧的前一帧也是语音激活帧(即当前帧为连续语音帧中的一帧),由于连续语音帧的ITD参数一般不会有大的波动,如果当前帧的前一帧的ITD参数不为预设值,而当前帧的ITD参数的计算结果为预设值(预设值例如可以为0),这可能是当前帧的ITD参数计算错误引起的,因此,可以考虑将当前帧的前一帧或前一子帧的ITD参数确定为当前帧的ITD参数。下面结合图10对这种实现方式进行详细描述。
图10是当前帧的ITD参数的提取方式的示例性流程图。应理解,图10示出的处理步骤或操作仅是示例,本发明实施例还可以执行其它操作或者图10中的各种操作的变形。此外,图10中的各个步骤可以按照与图10呈现的不同的顺序来执行,并且有可能并非要执行图10中的全部操作。
1010、对左右声道的时域信号进行时频变换。
该步骤与步骤910类似,可以参照步骤910,为避免重复,此处不再详述。
1020、确定当前帧是否为语音激活帧。
具体地,可以基于左右声道的频域信号进行VAD检测。如果当前帧为语音非激活帧,执行步骤1030;如果当前帧为语音激活帧,执行步骤1040。
1030、采用第一ITD参数提取方式提取当前帧的ITD参数。
具体地,可以基于左右声道频域系数,根据频域互相关算法计算当前帧的ITD参数。频域互相关算法可以通过如下公式实现:
其中,L(k)和R(k)分别为左右声道频域信号第k个频点值,该频点值包含实部和虚部,R*(k)表示右声道频域信号第k个频点值的共轭,L(k)和R(k)的实部和虚部可以基于XL(k)和XR(k)构建。
1040、采用第二ITD参数提取方式提取当前帧的ITD参数。
具体地,可以基于左右声道频域信号,结合当前帧的前一帧的ITD参数和/或计算出的连续为零的ITD参数的个数,对当前帧计算得到的ITD参数进行调整。
可选地,作为一种实现方式,通过VAD检测获知当前帧为连续语音帧(即当前帧的前一帧或前几帧均为语音帧)时,若当前帧的前一帧的ITD参数不为预设值(预设值例如可以是0),而当前帧的ITD参数为预设值时,可以将当前帧的前一帧的ITD参数作为当前帧的ITD参数;否则,可以将当前帧的初始ITD参数确定为当前帧的ITD参数。
可选地,作为另一种实现方式,通过VAD检测获知当前帧为连续语音帧(即当前帧的前一帧或前几帧均为语音帧)时,若当前帧的前一帧的ITD参数不为预设值(预设值例如可以是0),而当前帧的ITD参数为预设值,且连续计算得到的ITD参数(包括当前帧的ITD参数在内的)为预设值的个数小于预设阈值时,将当前帧的前一帧的ITD参数作为当前帧的ITD参数,并增加ITD参数连续为预设值的计数值;否则,可以将当前帧的初始ITD参数确定为当前帧的ITD参数。
上文结合图5至图10,详细描述了根据本发明实施例的多声道信号的编码方法。下文结合图11至图12,详细描述根据本发明实施例的编码器。应理解,图11或图12对应的编码器能够执行图5至图10中的各个步骤,为避免重复,此处不再详述。
图11是本发明实施例的编码器的示意性结构图。图11的编码器1100包括:
获取单元1110,用于获取包含多声道信号的当前帧;
第一确定单元1120,用于根据所述多声道信号,确定特征信息,其中,所述特征信息包括所述当前帧的帧类型和信号类型中的至少一种,所述帧类型包括语音帧和/或非语音帧,所述信号类型包括清音和/或浊音;
第二确定单元1130,用于根据所述特征信息,确定所述当前帧的声道间时间差ITD参数;
编码单元1140,用于对所述ITD参数进行编码。
可选地,作为一个实施例,所述第一确定单元1110具体用于根据所述多声道信号,确定所述当前帧的帧类型;所述第二确定单元1120具体用于在所述当前帧为非语音帧的情况下,采用第一ITD参数提取方式确定所述当前帧的ITD参数;在所述当前帧为语音帧的情况下,采用第二ITD参数提取方式确定所述当前帧的ITD参数。
可选地,作为一个实施例,所述第二确定单元1120具体用于将所述当前帧的前一帧或前一子帧的ITD参数确定为所述当前帧的ITD参数。
可选地,作为一个实施例,所述第二确定单元1120具体用于根据所述多声道信号,确定所述当前帧的ITD参数。
所述第二确定单元1120具体用于根据所述多声道信号,生成目标频域信号;对所述目标频域信号进行频时变换,得到目标时域信号;根据所述目标时域信号,确定所述当前帧的ITD参数。
所述第二确定单元1120具体用于根据所述多声道信号,确定所述目标频域信号的幅值;根据所述多声道信号,确定所述当前帧多声道信号的IPD参数;根据所述目标频域信号的幅值,以及所述当前帧多声道信号的IPD参数,生成所述目标频域信号。
所述第二确定单元1120具体用于根据确定所述目标频域信号的幅值,其中,AM(k)表示所述目标频域信号的幅值,A1(k)和A2(k)分别表示所述多声道信号中的任意两个声道的频域信号的幅值,k表示频点,0≤k≤L/2,L表示将所述多声道信号从时域变换至频域时采用的时频变换长度。
所述第二确定单元1120具体用于根据生成所述目标频域信号,其中,AM(k)表示所述目标频域信号的幅值,XM_real(k)表示所述目标频域信号的实部,XM_iamge(k)表示所述目标频域信号的虚部,IPD(k)表示所述IPD参数,k表示频点,0≤k≤L/2,L表示将所述多声道信号从时域变换至频域时采用的时频变换长度。
所述第二确定单元1120具体用于根据XM(k)=X1(k)*X* 2(k),生成所述目标频域信号,其中,XM(k)表示所述目标频域信号,X1(k)表示所述多声道信号中的第一声道的频域信号,X* 2(k)表示所述多声道信号中的第二声道的频域信号的共轭,k表示频点,0≤k≤L/2,L表示将所述多声道信号从时域变换至频域时采用的时频变换长度。
所述第二确定单元1120具体用于根据XM(k)=X1(k)*X* 2(k),确定频域信号XM(k),其中,X1(k)表示所述多声道信号中的第一声道的频域信号,X* 2(k)表示所述多声道信号中的第二声道的频域信号的共轭,k表示频点,0≤k≤L/2,L表示将所述多声道信号从时域变换至频域时采用的时频变换长度;对所述频域信号XM(k)的幅值进行归一化处理,得到所述目标频域信号。
可选地,作为一个实施例,所述第二确定单元1120具体用于根据所述多声道信号,确定所述当前帧的初始ITD参数;根据所述当前帧的前一帧或前一子帧的ITD参数,对所述当前帧的初始ITD参数进行平滑处理,得到所述当前帧的ITD参数。
可选地,作为一个实施例,所述第二确定单元1120具体用于根据Tsm=w1*Tsm [-1]+w2*T1,确定所述当前帧的ITD参数,其中,T1表示所述当前帧的初始ITD参数,Tsm表示所述当前帧的ITD参数,Tsm [-1]表示所述当前帧的前一帧或前一子帧的ITD参数,w1和w2表示平滑因子,其中,w1和w2的取值范围均为[0,1],且w1+w2=1。
可选地,作为一个实施例,所述第二确定单元1120具体用于根据所述多声道信号,确定所述当前帧的K个子帧的初始ITD参数,K为大于1的整数;根据所述K个子帧中的每个子帧的前一子帧的ITD参数,对所述每个子帧的初始ITD参数进行平滑处理,得到所述每个子帧的ITD参数;将所述K个子帧的ITD参数确定为所述当前帧的ITD参数。
可选地,作为一个实施例,所述第二确定单元1120具体用于根据Tsm(j)=w1*Tsm(j-1)+w2*T(j),确定所述每个子帧的ITD参数,其中,T(j)表示所述K个子帧中的第j个子帧的初始ITD参数,Tsm(j)表示所述第j个子帧的ITD参数,Tsm(j-1)表示所述K个子帧中的第j-1个子帧的ITD参数,w1和w2表示平滑因子,j为整数,且1≤j≤K,其中,w1和w2的取值范围均为[0,1],且w1+w2=1。
可选地,作为一个实施例,所述平滑因子的取值是基于所述当前帧的信号类型确定的。
可选地,作为一个实施例,所述第一确定单元1110具体用于确定所述多声道信号的能量;在所述多声道信号的能量小于或等于预设的能量阈值的情况下,将所述当前帧确定为非语音帧;在所述多声道信号的能量大于所述能量阈值的情况下,将所述当前帧确定为语音帧。
可选地,作为一个实施例,所述编码器还包括:第三确定单元,用于根据所述多声道信号,确定所述当前帧的初始ITD参数;所述第二确定单元1120具体用于将所述当前帧的初始ITD参数确定为所述当前帧的ITD参数;对所述当前帧的初始ITD参数进行调整,得到所述当前帧的ITD参数。
可选地,作为一个实施例,所述第二确定单元1120具体用于根据所述当前帧的前一帧或者前N帧的帧类型,以及所述当前帧的初始ITD参数,确定所述当前帧的ITD参数,其中,N为大于1的整数。
可选地,作为一个实施例,所述第二确定单元1120具体用于在所述当前帧的前一帧或者前N帧的帧类型为语音帧的情况下,根据所述当前帧的前一帧的ITD参数和所述当前帧的初始ITD参数,确定所述当前帧的ITD参数。
可选地,作为一个实施例,所述第二确定单元1120具体用于在所述当前帧的前一帧的ITD参数不为预设值,且所述当前帧的初始ITD参数为预设值的情况下,将所述当前帧的前一帧的ITD参数确定为所述当前帧的ITD参数;否则,可以将当前帧的初始ITD参数确定为当前帧的ITD参数。
图12是本发明实施例的编码器的示意性结构图。图12的编码器1200包括:
存储器1210,用于存储程序;
处理器1220,用于执行存储器1210中的程序,当所述程序被执行时,所述处理器1220获取包含多声道信号的当前帧;根据所述多声道信号,确定特征信息,其中,所述特征信息包括所述当前帧的帧类型和信号类型中的至少一种,所述帧类型包括语音帧和/或非语音帧,所述信号类型包括清音和/或浊音;根据所述特征信息,确定所述当前帧的声道间时间差ITD参数;对所述ITD参数进行编码。
可选地,作为一个实施例,所述处理器1220具体用于根据所述多声道信号,确定所述当前帧的帧类型;在所述当前帧为非语音帧的情况下,采用第一ITD参数提取方式确定所述当前帧的ITD参数;在所述当前帧为语音帧的情况下,采用第二ITD参数提取方式确定所述当前帧的ITD参数。
可选地,作为一个实施例,所述处理器1220具体用于将所述当前帧的前一帧或前一子帧的ITD参数确定为所述当前帧的ITD参数。
可选地,作为一个实施例,所述处理器1220具体用于根据所述多声道信号,确定所述当前帧的ITD参数。
所述处理器1220具体用于根据所述多声道信号,生成目标频域信号;对所述目标频域信号进行频时变换,得到目标时域信号;根据所述目标时域信号,确定所述当前帧的ITD参数。
所述处理器1220具体用于根据所述多声道信号,确定所述目标频域信号的幅值;根据所述多声道信号,确定所述当前帧多声道信号的IPD参数;根据所述目标频域信号的幅值,以及所述当前帧多声道信号的IPD参数,生成所述目标频域信号。
所述处理器1220具体用于根据确定所述目标频域信号的幅值,其中,AM(k)表示所述目标频域信号的幅值,A1(k)和A2(k)分别表示所述多声道信号中的任意两个声道的频域信号的幅值,k表示频点,0≤k≤L/2,L表示将所述多声道信号从时域变换至频域时采用的时频变换长度。
所述处理器1220具体用于根据生成所述目标频域信号,其中,AM(k)表示所述目标频域信号的幅值,XM_real(k)表示所述目标频域信号的实部,XM_iamge(k)表示所述目标频域信号的虚部,IPD(k)表示所述IPD参数,k表示频点,0≤k≤L/2,L表示将所述多声道信号从时域变换至频域时采用的时频变换长度。
所述处理器1220具体用于根据XM(k)=X1(k)*X* 2(k),生成所述目标频域信号,其中,XM(k)表示所述目标频域信号,X1(k)表示所述多声道信号中的第一声道的频域信号,X* 2(k)表示所述多声道信号中的第二声道的频域信号的共轭,k表示频点,0≤k≤L/2,L表示将所述多声道信号从时域变换至频域时采用的时频变换长度。
所述处理器1220具体用于根据XM(k)=X1(k)*X* 2(k),确定频域信号XM(k),其中,X1(k)表示所述多声道信号中的第一声道的频域信号,X* 2(k)表示所述多声道信号中的第二声道的频域信号的共轭,k表示频点,0≤k≤L/2,L表示将所述多声道信号从时域变换至频域时采用的时频变换长度;对所述频域信号XM(k)的幅值进行归一化处理,得到所述目标频域信号。
可选地,作为一个实施例,所述处理器1220具体用于根据所述多声道信号,确定所述当前帧的初始ITD参数;根据所述当前帧的前一帧或前一子帧的ITD参数,对所述当前帧的初始ITD参数进行平滑处理,得到所述当前帧的ITD参数。
可选地,作为一个实施例,所述处理器1220具体用于根据Tsm=w1*Tsm [-1]+w2*T1,确定所述当前帧的ITD参数,其中,T1表示所述当前帧的初始ITD参数,Tsm表示所述当前帧的ITD参数,Tsm [-1]表示所述当前帧的前一帧或前一子帧的ITD参数,w1和w2表示平滑因子,其中,w1和w2的取值范围均为[0,1],且w1+w2=1。
可选地,作为一个实施例,所述处理器1220具体用于根据所述多声道信号,确定所述当前帧的K个子帧的初始ITD参数,K为大于1的整数;根据所述K个子帧中的每个子帧的前一子帧的ITD参数,对所述每个子帧的初始ITD参数进行平滑处理,得到所述每个子帧的ITD参数;将所述K个子帧的ITD参数确定为所述当前帧的ITD参数。
可选地,作为一个实施例,所述处理器1220具体用于根据Tsm(j)=w1*Tsm(j-1)+w2*T(j),确定所述每个子帧的ITD参数,其中,T(j)表示所述K个子帧中的第j个子帧的初始ITD参数,Tsm(j)表示所述第j个子帧的ITD参数,Tsm(j-1)表示所述K个子帧中的第j-1个子帧的ITD参数,w1和w2表示平滑因子,j为整数,且1≤j≤K,其中,w1和w2的取值范围均为[0,1],且w1+w2=1。
可选地,作为一个实施例,所述平滑因子的取值是基于所述当前帧的信号类型确定的。
可选地,作为一个实施例,所述处理器1220具体用于确定所述多声道信号的能量;在所述多声道信号的能量小于或等于预设的能量阈值的情况下,将所述当前帧确定为非语音帧;在所述多声道信号的能量大于所述能量阈值的情况下,将所述当前帧确定为语音帧。
可选地,作为一个实施例,所述处理器1220还用于根据所述多声道信号,确定所述当前帧的初始ITD参数;所述处理器1220具体用于将所述当前帧的初始ITD参数确定为所述当前帧的ITD参数;对所述当前帧的初始ITD参数进行调整,得到所述当前帧的ITD参数。
可选地,作为一个实施例,所述处理器1220具体用于根据所述当前帧的前一帧或者前N帧的帧类型,以及所述当前帧的初始ITD参数,确定所述当前帧的ITD参数,其中,N为大于1的整数。
可选地,作为一个实施例,所述处理器1220具体用于在所述当前帧的前一帧或者前N帧的帧类型为语音帧的情况下,根据所述当前帧的前一帧的ITD参数和所述当前帧的初始ITD参数,确定所述当前帧的ITD参数。
可选地,作为一个实施例,所述处理器1220具体用于在所述当前帧的前一帧的ITD参数不为预设值,且所述当前帧的初始ITD参数为预设值的情况下,将所述当前帧的前一帧的ITD参数确定为所述当前帧的ITD参数;否则,可以将当前帧的初始ITD参数确定为当前帧的ITD参数。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (26)

1.一种多声道信号的编码方法,其特征在于,包括:
获取包含多声道信号的当前帧;
根据所述多声道信号,确定特征信息,其中,所述特征信息包括所述当前帧的帧类型和信号类型中的至少一种,所述帧类型包括语音帧和/或非语音帧,所述信号类型包括清音和/或浊音;
根据所述特征信息,确定所述当前帧的声道间时间差ITD参数;
对所述ITD参数进行编码。
2.如权利要求1所述的方法,其特征在于,所述根据所述多声道信号,确定特征信息,包括:
根据所述多声道信号,确定所述当前帧的帧类型;
所述根据所述特征信息,确定所述当前帧的ITD参数,包括:
在所述当前帧为非语音帧的情况下,采用第一ITD参数提取方式确定所述当前帧的ITD参数;
在所述当前帧为语音帧的情况下,采用第二ITD参数提取方式确定所述当前帧的ITD参数。
3.如权利要求2所述的方法,其特征在于,所述采用第一ITD参数提取方式确定所述当前帧的ITD参数,包括:
将所述当前帧的前一帧或前一子帧的ITD参数确定为所述当前帧的ITD参数。
4.如权利要求2或3所述的方法,其特征在于,所述采用第二ITD参数提取方式确定所述当前帧的ITD参数,包括:
根据所述多声道信号,确定所述当前帧的ITD参数。
5.如权利要求4所述的方法,其特征在于,所述根据所述多声道信号,确定所述当前帧的ITD参数,包括:
根据所述多声道信号,确定所述当前帧的初始ITD参数;
根据所述当前帧的前一帧或前一子帧的ITD参数,对所述当前帧的初始ITD参数进行平滑处理,得到所述当前帧的ITD参数。
6.如权利要求5所述的方法,其特征在于,所述根据所述当前帧的前一帧或前一子帧的ITD参数,对所述当前帧的初始ITD参数进行平滑处理,得到所述当前帧的ITD参数,包括:
根据Tsm=w1*Tsm [-1]+w2*T1,确定所述当前帧的ITD参数,其中,T1表示所述当前帧的初始ITD参数,Tsm表示所述当前帧的ITD参数,Tsm [-1]表示所述当前帧的前一帧或前一子帧的ITD参数,w1和w2表示平滑因子,其中,w1和w2的取值范围均为[0,1],且w1+w2=1。
7.如权利要求4所述的方法,其特征在于,所述根据所述多声道信号,确定所述当前帧的ITD参数,包括:
根据所述多声道信号,确定所述当前帧的K个子帧的初始ITD参数,K为大于1的整数;
根据所述K个子帧中的每个子帧的前一子帧的ITD参数,对所述每个子帧的初始ITD参数进行平滑处理,得到所述每个子帧的ITD参数;
将所述K个子帧的ITD参数确定为所述当前帧的ITD参数。
8.如权利要求7所述的方法,其特征在于,所述根据所述K个子帧中的每个子帧的前一子帧的ITD参数,对所述每个子帧的初始ITD参数进行平滑处理,得到所述每个子帧的ITD参数,包括:
根据Tsm(j)=w1*Tsm(j-1)+w2*T(j),确定所述每个子帧的ITD参数,其中,T(j)表示所述K个子帧中的第j个子帧的初始ITD参数,Tsm(j)表示所述第j个子帧的ITD参数,Tsm(j-1)表示所述K个子帧中的第j-1个子帧的ITD参数,w1和w2表示平滑因子,j为整数,且1≤j≤K,其中,w1和w2的取值范围均为[0,1],且w1+w2=1。
9.如权利要求6或8所述的方法,其特征在于,所述平滑因子的取值是基于所述当前帧的信号类型确定的。
10.如权利要求2所述的方法,其特征在于,所述方法还包括:
根据所述多声道信号,确定所述当前帧的初始ITD参数;
所述采用第一ITD参数提取方式确定所述当前帧的ITD参数,包括:
将所述当前帧的初始ITD参数确定为所述当前帧的ITD参数;
所述采用第二ITD参数提取方式确定所述当前帧的ITD参数,包括:
对所述当前帧的初始ITD参数进行调整,得到所述当前帧的ITD参数。
11.如权利要求10所述的方法,其特征在于,所述对所述当前帧的初始ITD参数进行调整,得到所述当前帧的ITD参数,包括:
根据所述当前帧的前一帧或者前N帧的帧类型,以及所述当前帧的初始ITD参数,确定所述当前帧的ITD参数,其中,N为大于1的整数。
12.如权利要求11所述的方法,其特征在于,所述根据所述当前帧的前一帧或者前N帧的帧类型,以及所述当前帧的初始ITD参数,确定所述当前帧的ITD参数,包括:
在所述当前帧的前一帧或者前N帧的帧类型为语音帧的情况下,根据所述当前帧的前一帧的ITD参数和所述当前帧的初始ITD参数,确定所述当前帧的ITD参数。
13.如权利要求12所述的方法,其特征在于,所述根据所述当前帧的前一帧的ITD参数和所述当前帧的初始ITD参数,确定所述当前帧的ITD参数,包括:
在所述当前帧的前一帧的ITD参数不为预设值,且所述当前帧的初始ITD参数为预设值的情况下,将所述当前帧的前一帧的ITD参数确定为所述当前帧的ITD参数;否则,将所述当前帧的初始ITD参数确定为所述当前帧的ITD参数。
14.一种编码器,其特征在于,包括:
获取单元,用于获取包含多声道信号的当前帧;
第一确定单元,用于根据所述多声道信号,确定特征信息,其中,所述特征信息包括所述当前帧的帧类型和信号类型中的至少一种,所述帧类型包括语音帧和/或非语音帧,所述信号类型包括清音和/或浊音;
第二确定单元,用于根据所述特征信息,确定所述当前帧的声道间时间差ITD参数;
编码单元,用于对所述ITD参数进行编码。
15.如权利要求14所述的编码器,其特征在于,所述第一确定单元具体用于根据所述多声道信号,确定所述当前帧的帧类型;所述第二确定单元具体用于在所述当前帧为非语音帧的情况下,采用第一ITD参数提取方式确定所述当前帧的ITD参数;在所述当前帧为语音帧的情况下,采用第二ITD参数提取方式确定所述当前帧的ITD参数。
16.如权利要求15所述的编码器,其特征在于,所述第二确定单元具体用于将所述当前帧的前一帧或前一子帧的ITD参数确定为所述当前帧的ITD参数。
17.如权利要求15或16所述的编码器,其特征在于,所述第二确定单元具体用于根据所述多声道信号,确定所述当前帧的ITD参数。
18.如权利要求17所述的编码器,其特征在于,所述第二确定单元具体用于根据所述多声道信号,确定所述当前帧的初始ITD参数;根据所述当前帧的前一帧或前一子帧的ITD参数,对所述当前帧的初始ITD参数进行平滑处理,得到所述当前帧的ITD参数。
19.如权利要求18所述的编码器,其特征在于,所述第二确定单元具体用于根据Tsm=w1*Tsm [-1]+w2*T1,确定所述当前帧的ITD参数,其中,T1表示所述当前帧的初始ITD参数,Tsm表示所述当前帧的ITD参数,Tsm [-1]表示所述当前帧的前一帧或前一子帧的ITD参数,w1和w2表示平滑因子,其中,w1和w2的取值范围均为[0,1],且w1+w2=1。
20.如权利要求17所述的编码器,其特征在于,所述第二确定单元具体用于根据所述多声道信号,确定所述当前帧的K个子帧的初始ITD参数,K为大于1的整数;根据所述K个子帧中的每个子帧的前一子帧的ITD参数,对所述每个子帧的初始ITD参数进行平滑处理,得到所述每个子帧的ITD参数;将所述K个子帧的ITD参数确定为所述当前帧的ITD参数。
21.如权利要求20所述的编码器,其特征在于,所述第二确定单元具体用于根据Tsm(j)=w1*Tsm(j-1)+w2*T(j),确定所述每个子帧的ITD参数,其中,T(j)表示所述K个子帧中的第j个子帧的初始ITD参数,Tsm(j)表示所述第j个子帧的ITD参数,Tsm(j-1)表示所述K个子帧中的第j-1个子帧的ITD参数,w1和w2表示平滑因子,j为整数,且1≤j≤K,其中,w1和w2的取值范围均为[0,1],且w1+w2=1。
22.如权利要求19或21所述的编码器,其特征在于,所述平滑因子的取值是基于所述当前帧的信号类型确定的。
23.如权利要求15所述的编码器,其特征在于,所述编码器还包括:
第三确定单元,用于根据所述多声道信号,确定所述当前帧的初始ITD参数;
所述第二确定单元具体用于将所述当前帧的初始ITD参数确定为所述当前帧的ITD参数;对所述当前帧的初始ITD参数进行调整,得到所述当前帧的ITD参数。
24.如权利要求23所述的编码器,其特征在于,所述第二确定单元具体用于根据所述当前帧的前一帧或者前N帧的帧类型,以及所述当前帧的初始ITD参数,确定所述当前帧的ITD参数,其中,N为大于1的整数。
25.如权利要求24所述的编码器,其特征在于,所述第二确定单元具体用于在所述当前帧的前一帧或者前N帧的帧类型为语音帧的情况下,根据所述当前帧的前一帧的ITD参数和所述当前帧的初始ITD参数,确定所述当前帧的ITD参数。
26.如权利要求25所述的编码器,其特征在于,所述第二确定单元具体用于在所述当前帧的前一帧的ITD参数不为预设值,且所述当前帧的初始ITD参数为预设值的情况下,将所述当前帧的前一帧的ITD参数确定为所述当前帧的ITD参数;否则,将所述当前帧的初始ITD参数确定为所述当前帧的ITD参数。
CN201610303992.4A 2016-05-10 2016-05-10 多声道信号的编码方法和编码器 Active CN107358959B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201610303992.4A CN107358959B (zh) 2016-05-10 2016-05-10 多声道信号的编码方法和编码器
PCT/CN2016/103596 WO2017193551A1 (zh) 2016-05-10 2016-10-27 多声道信号的编码方法和编码器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610303992.4A CN107358959B (zh) 2016-05-10 2016-05-10 多声道信号的编码方法和编码器

Publications (2)

Publication Number Publication Date
CN107358959A true CN107358959A (zh) 2017-11-17
CN107358959B CN107358959B (zh) 2021-10-26

Family

ID=60266105

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610303992.4A Active CN107358959B (zh) 2016-05-10 2016-05-10 多声道信号的编码方法和编码器

Country Status (2)

Country Link
CN (1) CN107358959B (zh)
WO (1) WO2017193551A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109859749A (zh) * 2017-11-30 2019-06-07 阿里巴巴集团控股有限公司 一种语音信号识别方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1428953A (zh) * 2002-04-22 2003-07-09 西安大唐电信有限公司 一种多通道amr声码器的实现方法和设备
CN101517637A (zh) * 2006-09-18 2009-08-26 皇家飞利浦电子股份有限公司 音频对象的编码与解码
US20110123031A1 (en) * 2009-05-08 2011-05-26 Nokia Corporation Multi channel audio processing
CN102216983A (zh) * 2008-11-19 2011-10-12 摩托罗拉移动公司 用于编码与信号源相关联的至少一个参数的设备和方法
CN103295577A (zh) * 2013-05-27 2013-09-11 深圳广晟信源技术有限公司 用于音频信号编码的分析窗切换方法和装置
CN103339670A (zh) * 2011-02-03 2013-10-02 瑞典爱立信有限公司 确定多通道音频信号的通道间时间差

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1858006B1 (en) * 2005-03-25 2017-01-25 Panasonic Intellectual Property Corporation of America Sound encoding device and sound encoding method
CN103180899B (zh) * 2010-11-17 2015-07-22 松下电器(美国)知识产权公司 立体声信号的编码装置、解码装置、编码方法及解码方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1428953A (zh) * 2002-04-22 2003-07-09 西安大唐电信有限公司 一种多通道amr声码器的实现方法和设备
CN101517637A (zh) * 2006-09-18 2009-08-26 皇家飞利浦电子股份有限公司 音频对象的编码与解码
CN102216983A (zh) * 2008-11-19 2011-10-12 摩托罗拉移动公司 用于编码与信号源相关联的至少一个参数的设备和方法
US20110123031A1 (en) * 2009-05-08 2011-05-26 Nokia Corporation Multi channel audio processing
CN103339670A (zh) * 2011-02-03 2013-10-02 瑞典爱立信有限公司 确定多通道音频信号的通道间时间差
CN103295577A (zh) * 2013-05-27 2013-09-11 深圳广晟信源技术有限公司 用于音频信号编码的分析窗切换方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109859749A (zh) * 2017-11-30 2019-06-07 阿里巴巴集团控股有限公司 一种语音信号识别方法和装置
US11869481B2 (en) 2017-11-30 2024-01-09 Alibaba Group Holding Limited Speech signal recognition method and device

Also Published As

Publication number Publication date
WO2017193551A1 (zh) 2017-11-16
CN107358959B (zh) 2021-10-26

Similar Documents

Publication Publication Date Title
JP7161564B2 (ja) チャネル間時間差を推定する装置及び方法
US10573328B2 (en) Determining the inter-channel time difference of a multi-channel audio signal
JP7443423B2 (ja) マルチチャネル信号の符号化方法およびエンコーダ
CN103348703B (zh) 用以利用预先算出的参考曲线来分解输入信号的装置和方法
EP2352145B1 (en) Transient speech signal encoding method and device, decoding method and device, processing system and computer-readable storage medium
US9449603B2 (en) Multi-channel audio encoder and method for encoding a multi-channel audio signal
CN107851444A (zh) 用于将声学信号分解为声音对象的方法和系统、声音对象及其使用
US20090070108A1 (en) Method and system for identifying speech sound and non-speech sound in an environment
EP3457402B1 (en) Noise-adaptive voice signal processing method and terminal device employing said method
JP2023055951A (ja) マルチチャネル信号を符号化する方法及びエンコーダ
US20230419976A1 (en) Apparatus for Encoding or Decoding an Encoded Multichannel Signal Using a Filling Signal Generated by a Broad Band Filter
CN108885876A (zh) 用于对多声道音频信号的参数编码和解码的空间化信息进行的优化编码和解码
CN105284133A (zh) 基于信号下混比进行中心信号缩放和立体声增强的设备和方法
CN106033671A (zh) 确定声道间时间差参数的方法和装置
EP2489036B1 (en) Method, apparatus and computer program for processing multi-channel audio signals
CN103475986A (zh) 基于多分辨率小波的数字助听器语音增强方法
CN106128480B (zh) 一种对带噪语音进行语音活动检测的方法
CN109215635B (zh) 用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法
CN107358959A (zh) 多声道信号的编码方法和编码器
Lin et al. Focus on the sound around you: Monaural target speaker extraction via distance and speaker information
US20240185865A1 (en) Method and device for multi-channel comfort noise injection in a decoded sound signal
CN107358961B (zh) 多声道信号的编码方法和编码器
Ito Enrichment of Audio Signal using Side Information.
Kim et al. Perceptual relevance of the temporal envelope to the speech signal in the 4–7kHz band
CN107358960A (zh) 多声道信号的编码方法和编码器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant