CN111133509B

CN111133509B - 一种立体声信号处理方法及装置

Info

Publication number: CN111133509B
Application number: CN201780090879.5A
Authority: CN
Inventors: 艾雅·苏谟特; 李海婷; 苗磊
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2017-05-16
Filing date: 2017-12-14
Publication date: 2022-11-08
Anticipated expiration: 2037-12-14
Also published as: EP3611726A1; US20230395083A1; CN115641855A; CN111133509A; KR102391266B1; CN108877815B; JP2023085339A; BR112019024128A2; EP3611726A4; EP3611726B1; KR20220061250A; WO2018209942A1; KR20230059178A; US20220051680A1; KR20210095220A; JP7248745B2; DK3916725T3; CN108877815A; ES2886505T3; ES2939311T3

Abstract

一种立体声信号处理方法及装置，其中方法包括：对当前帧的立体声信号进行时延估计，确定所述当前帧的声道间时间差；所述当前帧的声道间时间差为所述当前帧的第一声道信号与所述当前帧的第二声道信号之间的时间差；若所述当前帧的声道间时间差的符号与所述当前帧的前一帧的声道间时间差的符号不同，则根据所述当前帧的声道间时间差对所述当前帧的第一声道信号进行时延对齐处理、根据所述前一帧的声道间时间差对所述当前帧的第二声道信号进行时延对齐处理；所述第一声道信号为所述当前帧的目标声道信号，所述第二声道信号与所述前一帧的目标声道信号处于相同声道。

Description

一种立体声信号处理方法及装置

本申请要求在2017年5月16日提交国家专利局、申请号为201710344704.4、发明名称为“一种立体声信号处理方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及信息技术领域，尤其涉及一种立体声信号处理方法及装置。

背景技术

随着生活质量的提高，人们对高质量音频的需求不断增大。相对于单声道音频，立体声音频具有各声源的方位感和分布感，能够提高信息的清晰度、可懂度及临场感，因而备受人们青睐。现有的时域立体声编码技术，通常是在时域将左声道信号和右声道信号下混为中央通道(Mid channel)信号以及边通道(Side channel)信号。下混后的中央通道信号可以表示为0.5×(L+R)，表征了左声道信号和右声道信号之间的相关信息；下混后的边通道信号可以表示为0.5×(L-R)，表征了左声道信号和右声道信号之间的差异信息，其中L表示左声道信号，R表示右声道信号。然后，再分别对中央通道信号及边通道信号采用单声道编码方法进行编码。对于中央通道信号，通常用较多的比特数进行编码；对于边通道信号，通常用较少的比特数进行编码。

为了提高编码效率，需要使得中央通道信号更大，而边通道信号更小。目前在时域立体声编码中，在获得中央通道信号及边通道信号之前会使用匹配算法对左声道信号和右声道信号进行时延估计得到声道间时间差，并根据声道间时间差对左声道信号和右声道信号进行时延对齐处理，从而使得下混后获得的中央通道信号更大、而边通道信号更小。根据声道间时间差进行时延对齐的算法中，通常的做法是从左声道和右两个声道中选择一个声道，对该声道的信号进行时延对齐处理，这个声道被称为目标声道；而另一个声道的信号不进行时延调整，只是作为目标声道进行时延调整的一个参考，这个声道被称为参考声道。

现有方法中，若发现时延估计得到的当前帧的声道间时间差的符号不同于前一帧的声道间时间差的符号，则将当前帧的目标声道的选择保持和前一帧的目标声道相同。同时无论当前帧的声道间时间差的估计值是多少，都将其强制的设为零。然后，根据设置为零的声道间时间差对当前帧的目标声道进行时延对齐处理，从而保证时延对齐处理后的当前帧的目标声道和参考声道之间的时延为零。

上述方法中，当两帧立体声信号的声道间时间差的符号发生变化，说明左右声道的信号到达先后顺序发生了变化，可能是从左声道信号先到达转变成右声道信号先到达，也可能是从右声道信号先到达转变成左声道信号先到达。如果将当前帧的声道间时间差强制设置为零，就只是按照零时间差而非左右声道真实的时间差调整左右声道，对这样获得的时延调整后的左右声道信号进行时域下混处理，但实际上两个声道的信号并没有实现真正的时延对齐，也就没有办法有效的对两个声道之间的相关性成分进行抵消，造成当前帧时域下混后的边通道信号能量变大，降低了立体声编码的整体质量。

发明内容

本申请提供一种立体声信号处理方法及装置，用以解决在两帧立体声信号的声道间时间差的符号发生变化时，由于声道间时延不对齐，导致的立体声编码的编码质量低的问题。

本申请实施例提供了一种立体声信号处理方法，应用于立体声编解码器的编码端，该方法包括：

对当前帧的立体声信号进行时延估计，确定所述当前帧的声道间时间差；所述当前帧的声道间时间差为所述当前帧的第一声道信号与所述当前帧的第二声道信号之间的时间差；

若所述当前帧的声道间时间差的符号与所述当前帧的前一帧的声道间时间差的符号不同，则根据所述当前帧的声道间时间差对所述当前帧的第一声道信号进行时延对齐处理、根据所述前一帧的声道间时间差对所述当前帧的第二声道信号进行时延对齐处理；所述第一声道信号为所述当前帧的目标声道信号，所述第二声道信号与所述前一帧的目标声道信号处于相同声道。

根据本申请提供的方法，当确定当前帧的声道间时间差的符号与当前帧的前一帧的声道间时间差的符号不同时，根据所述当前帧的声道间时间差对所述当前帧的第一声道信号进行时延对齐处理、根据所述前一帧的声道间时间差对所述当前帧的第二声道信号进行时延对齐处理，使得当前帧的时延对齐处理能够按照真实的声道间时间差进行，保证了对齐效果更优，避免了现有技术中因为将当前帧的声道间时间差强制设置为零，而导致时延对齐处理后当前帧两个声道之间的相关性成分无法进行抵消，造成当前帧时域下混后的次要声道信号能量变大、影响编码整体质量的问题。

可选的，根据所述当前帧的声道间时间差对所述当前帧的第一声道信号进行时延对齐处理，包括：

将所述当前帧的第一声道信号中第一处理长度的信号压缩为第一对齐处理长度的信号，以获得时延对齐处理后的所述当前帧的第一声道信号；

所述第一处理长度是根据所述当前帧的声道间时间差和所述第一对齐处理长度确定的，所述第一处理长度大于所述第一对齐处理长度。

可选的，所述第一处理长度为所述当前帧的声道间时间差的绝对值与所述第一对齐处理长度之和。

可选的，所述第一处理长度的信号的起始点位于所述第一对齐处理长度的信号的起始点之前、且所述第一处理长度的信号的起始点与第一对齐处理长度的信号的起始点之间的长度为当前帧的声道间时间差的绝对值。

可选的，所述第一对齐处理长度的信号的起始点位于当前帧的第一声道信号的起始点或位于当前帧的第一声道信号的起始点之后，且所述第一对齐处理长度的信号的起始点与所述当前帧的第一声道信号结束点之间的长度大于或等于所述第一对齐处理长度。

可选的，所述第一对齐处理长度的信号的起始点位于当前帧的第一声道信号的起始点之前，且与当前帧的第一声道信号的起始点之间的长度小于或等于过渡长度，且所述第一对齐处理长度的信号的起始点与所述当前帧的第一声道信号的结束点之间的长度大于或等于所述第一对齐处理长度与所述过渡长度之和，其中，所述过渡长度小于或等于当前帧的声道间时间差的绝对值的最大值。

可选的，根据所述前一帧的声道间时间差对所述当前帧的第二声道信号进行时延对齐处理，包括：

将所述当前帧的第二声道信号中第二处理长度的信号拉伸为第二对齐处理长度的信号，以获得时延对齐处理后的所述当前帧的第二声道信号；

所述第二处理长度是根据所述前一帧的声道间时间差和所述第二对齐处理长度确定的，所述第二处理长度小于所述第二对齐处理长度。

可选的，所述第二处理长度为所述第二对齐处理长度与所述前一帧的声道间时间差的绝对值之差。

可选的，所述第二处理长度的信号的起始点位于所述第二对齐处理长度的信号的起始点之后、且所述第二处理长度的信号的起始点与第二对齐处理长度的信号的起始点之间的长度为前一帧的声道间时间差的绝对值。

可选的，所述第二对齐处理长度的信号的起始点位于当前帧的第二声道信号的起始点或位于当前帧的第二声道信号的起始点之后，且所述第二对齐处理长度的信号的起始点与所述当前帧的第二声道信号的结束点之间的长度大于或等于所述第二对齐处理长度。

可选的，所述第二对齐处理长度的信号的起始点与当前帧的第二声道信号的起始点之间的长度等于第二预设长度；所述第一对齐处理长度的信号的起始点与当前帧的第一声道信号的起始点之间的长度等于第二预设长度与第二对齐处理长度之和。

可选的，所述第一对齐处理长度小于或等于所述当前帧的帧长，所述第一对齐处理长度为预先设定的长度，或者，所述第一对齐处理长度满足以下公式：

其中，L_next target为所述第一对齐处理长度，cur_itd为所述当前帧的声道间时间差，prev_itd为所述前一帧的声道间时间差，L为时延对齐处理的处理长度。

可选的，所述第二对齐处理长度小于或等于所述当前帧的帧长，所述第二对齐处理长度为预先设定的长度，或者，所述第二对齐处理长度满足以下公式：

其中，L_pre_target为所述第二对齐处理长度，cur_itd为所述当前帧的声道间时间差，prev_itd为所述前一帧的声道间时间差，L为时延对齐处理的处理长度。

可选的，所述时延对齐处理的处理长度小于或等于所述当前帧的帧长，所述时延对齐处理的处理长度为预先设定的长度；或者，所述时延对齐处理的处理长度满足以下公式：

其中，L为时延对齐处理的处理长度，MAX_DELAY_CHANGE为相邻帧声道间时间差的最大差值，L_init为预设的时延对齐处理的处理长度。

本申请实施例提供一种立体声信号处理装置，可以执行实现上述方法提供的任意一种立体声信号处理方法。

在一种可能的设计中，该立体声信号处理装置包括多个功能模块，例如包括处理单元和收发单元，用于实现上述提供的任意一种立体声信号处理方法，使得当确定当前帧的声道间时间差的符号与当前帧的前一帧的声道间时间差的符号不同时，根据所述当前帧的声道间时间差对所述当前帧的第一声道信号进行时延对齐处理、根据所述前一帧的声道间时间差对所述当前帧的第二声道信号进行时延对齐处理，使得当前帧的时延对齐处理能够按照真实的声道间时间差进行，保证了对齐效果更优，避免了现有技术中因为将当前帧的声道间时间差强制设置为零，而导致时延对齐处理后当前帧两个声道之间的相关性成分无法进行抵消，造成当前帧时域下混后的次要声道信号能量变大、影响编码整体质量的问题。

本申请实施例提供一种立体声信号处理装置，所述装置包括：所述装置包括处理器和存储器，所述存储器存储了可执行指令，所述可执行指令用于指示所述处理器执行如下步骤：

可选的，所述可执行指令用于指示所述处理器在根据所述当前帧的声道间时间差对所述当前帧的第一声道信号进行时延对齐处理时执行如下步骤：

可选的，所述可执行指令用于指示所述处理器在根据所述前一帧的声道间时间差对所述当前帧的第二声道信号进行时延对齐处理时执行如下步骤：

可选的，所述第二处理长度的信号的起始点位于所述第二对齐处理长度的信号的起始点之后、且所述第二处理长度的信号的起始点与第二对齐处理长度的信号的起始点之间的长度为前一帧的声道间时间差的绝对值。可选的，所述第二对齐处理长度的信号的起始点位于当前帧的第二声道信号的起始点或位于当前帧的第二声道信号的起始点之后，且所述第二对齐处理长度的信号的起始点与所述当前帧的第二声道信号的结束点之间的长度大于或等于所述第二对齐处理长度。

可选的，所述第一对齐处理长度小于或等于所述当前帧的帧长，所述第一对齐处理长度为预先设定的长度；或者，所述第一对齐处理长度满足以下公式：

其中，L_next_target为所述第一对齐处理长度，cur_itd为所述当前帧的声道间时间差，prev_itd为所述前一帧的声道间时间差，L为时延对齐处理的处理长度。

可选的，所述第二对齐处理长度小于或等于所述当前帧的帧长，所述第二对齐处理长度为预先设定的长度；或者，所述第二对齐处理长度满足以下公式：

其中，L为时延对齐处理的处理长度，MAXDELAY_CHANGE为相邻帧声道间时间差的最大差值，L_init为预设的时延对齐处理的处理长度。

本申请实施例提供了一种立体声信号处理方法，应用于立体声编解码器的解码端，该方法包括：

根据接收到的码流确定当前帧的声道间时间差；所述当前帧的声道间时间差为所述当前帧的第一声道信号与所述当前帧的第二声道信号之间的时间差；

若所述当前帧的声道间时间差的符号与所述当前帧的前一帧的声道间时间差的符号不同，则根据所述当前帧的声道间时间差对所述当前帧的第一声道信号进行时延恢复处理、根据所述前一帧的声道间时间差对所述当前帧的第二声道信号进行时延恢复处理；所述第一声道信号为所述当前帧的目标声道信号，所述第二声道信号与所述前一帧的目标声道信号处于相同声道。

根据本申请提供的方法，当确定当前帧的声道间时间差的符号与当前帧的前一帧的声道间时间差的符号不同时，根据所述当前帧的声道间时间差对所述当前帧的第一声道信号进行时延恢复处理、根据所述前一帧的声道间时间差对所述当前帧的第二声道信号进行时延恢复处理，使得当前帧的时延恢复处理能够按照真实的声道间时间差进行，保证了对齐效果更优，避免了现有技术中因为将当前帧的声道间时间差强制设置为零，而导致时延恢复处理后当前帧两个声道之间的相关性成分无法进行抵消，造成当前帧时域下混后的次要声道信号能量变大、影响解码后的信号质量的问题。

可选的，所述根据所述当前帧的声道间时间差对所述当前帧的第一声道信号进行时延恢复处理，包括：

将所述当前帧的第一声道信号中第三处理长度的信号拉伸为第三对齐处理长度的信号，以获得时延恢复处理后的所述当前帧的第一声道信号；

所述第三处理长度是根据所述当前帧的声道间时间差和所述第三对齐处理长度确定的，所述第三处理长度小于所述第三对齐处理长度。

可选的，所述第三处理长度为所述第三对齐处理长度与所述当前帧的声道间时间差的绝对值之差。

可选的，所述第三处理长度的信号的起始点位于所述第三对齐处理长度的信号的起始点之后、且所述第三处理长度的信号的起始点与第三对齐处理长度的信号的起始点之间的长度为当前帧的声道间时间差的绝对值。

可选的，所述第三处理长度的信号的起始点位于所述当前帧的第一声道信号的起始点或位于当前帧的第一声道信号的起始点之后，且所述第三处理长度的信号的起始点与当前帧的第一声道信号的结束点之间的长度大于或等于所述第三对齐处理长度与当前帧的声道间时间差的绝对值之差。

可选的，所述根据所述前一帧的声道间时间差对所述当前帧的第二声道信号进行时延恢复处理，包括：

将所述当前帧的第二声道信号中第四处理长度的信号压缩为第四对齐处理长度的信号，以获得时延恢复处理后的所述当前帧的第二声道信号；

所述第四处理长度是根据所述前一帧的声道间时间差和所述第四对齐处理长度确定的，所述第四处理长度大于所述第四对齐处理长度。

可选的，所述第四处理长度为所述前一帧的声道间时间差的绝对值与所述第四对齐处理长度之和。

可选的，所述第四处理长度的信号的起始点位于所述第四对齐处理长度的信号的起始点之前、且所述第四处理长度的信号的起始点与第四对齐处理长度的信号的起始点之间的长度为前一帧的声道间时间差的绝对值。

可选的，所述第四对齐处理长度的信号的起始点位于当前帧的第二声道信号的起始点或位于当前帧的第二声道信号的起始点之后，且所述第四对齐处理长度的信号的起始点与所述当前帧的第二声道信号的结束点之间的长度大于等于所述第四对齐处理长度。

可选的，所述第四对齐处理长度的信号的起始点与当前帧的第二声道信号的起始点之间的长度等于第四预设长度；所述第三对齐处理长度的信号的起始点与当前帧的第一声道信号的起始点之间的长度等于第四预设长度与第四对齐处理长度之和。

可选的，所述第三对齐处理长度为预先设定的长度；或者，所述第三对齐处理长度满足以下公式：

其中，L2_next_target为所述第三对齐处理长度，cur itd为所述当前帧的声道间时间差，prev_itd为所述前一帧的声道间时间差，L为时延对齐处理的处理长度。

可选的，所述第四对齐处理长度为预先设定的长度；或者，所述第四对齐处理长度满足以下公式：

其中，L2_pre_target为所述第四对齐处理长度，cur_itd为所述当前帧的声道间时间差，prev_itd为所述前一帧的声道间时间差，L为时延对齐处理的处理长度。

可选的，所述时延对齐处理的处理长度为预先设定的长度；或者，所述时延对齐处理的处理长度满足以下公式：

在一种可能的设计中，该立体声信号处理装置包括多个功能模块，例如包括处理单元和收发单元，用于实现上述提供的任意一种立体声信号处理方法，使得当确定当前帧的声道间时间差的符号与当前帧的前一帧的声道间时间差的符号不同时，根据所述当前帧的声道间时间差对所述当前帧的第一声道信号进行时延恢复处理、根据所述前一帧的声道间时间差对所述当前帧的第二声道信号进行时延恢复处理，使得当前帧的时延恢复处理能够按照真实的声道间时间差进行，保证了对齐效果更优，避免了现有技术中因为将当前帧的声道间时间差强制设置为零，而导致时延恢复处理后当前帧两个声道之间的相关性成分无法进行抵消，造成当前帧时域下混后的次要声道信号能量变大、影响解码后的信号质量的问题。

本申请实施例提供一种立体声信号处理装置，所述装置包括：处理器和存储器，所述存储器存储了可执行指令，所述可执行指令用于指示所述处理器执行如下步骤：

可选的，所述可执行指令用于指示所述处理器在根据所述当前帧的声道间时间差对所述当前帧的第一声道信号进行时延恢复处理时执行如下步骤：

可选的，所述可执行指令用于指示所述处理器在根据所述前一帧的声道间时间差对所述当前帧的第二声道信号进行时延恢复处理时执行如下步骤：

本申请实施例中还提供一种计算机存储介质，该存储介质中存储软件程序，该软件程序在被一个或多个处理器读取并执行时可实现上述任意一种设计提供的立体声信号处理方法。

本申请实施例还提供了一种系统，该系统包括上述任意一种设计提供的立体声信号处理装置，可选的，该系统还可以包括本申请实施例提供的方案中与所述立体声信号处理装置进行交互的其他设备。

本申请实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

附图说明

图1为本申请实施例提供的一种立体声信号处理方法流程示意图；

图2为本申请实施例提供的一种立体声信号处理方法示意图；

图3为本申请实施例提供的一种立体声信号处理方法示意图；

图4为本申请实施例提供的一种立体声信号处理方法示意图；

图5为本申请实施例提供的一种立体声信号处理方法示意图；

图6为本申请实施例提供的一种立体声信号处理方法示意图；

图7(a)为本申请实施例提供的一种立体声信号处理方法示意图；

图7(b)为本申请实施例提供的一种立体声信号处理方法示意图；

图8为本申请实施例提供的一种立体声信号处理方法示意图；

图9为本申请实施例提供的一种立体声信号处理方法示意图；

图10为本申请实施例提供的一种立体声信号处理方法示意图；

图11为本申请实施例提供的一种立体声信号处理方法示意图；

图12为本申请实施例提供的一种立体声信号处理方法示意图；

图13为本申请实施例提供的一种立体声信号处理方法示意图；

图14为本申请实施例提供的一种立体声信号处理装置结构法示意图；

图15为本申请实施例提供的一种立体声信号处理装置结构法示意图；

图16为本申请实施例提供的一种立体声信号处理装置结构法示意图；

图17为本申请实施例提供的一种立体声信号处理装置结构法示意图。

具体实施方式

下面将结合附图对本申请作进一步地详细描述。

本申请实施例适用于音频信号特别是立体声信号的编码和解码。目前的立体声信号的编码主要包括以下过程：时域预处理、时延估计与编码、时延对齐、时域分析、下混参数提取与编码、时域下混处理、下混后的信号编码等。音频信号的解码过程可以与之相反，在此不再赘述。

上述编码过程只是示例，实际的编码过程可能会有所变化，本申请实施例并不限定。本申请实施例主要是对时延对齐进行处理，下面进行详细描述，同时，上述编码过程的其他步骤可以参考现有技术中的描述，在此不再逐一举例说明。

本申请实施例中，每一帧立体声信号包括左声道信号和右声道信号，且帧长为N，N为大于0的正整数。

如图1所示，为本申请实施例提供的一种立体声信号处理方法流程示意图。

参见图1，该方法包括：

步骤101：对当前帧的立体声信号进行时延估计，确定所述当前帧的声道间时间差；所述当前帧的声道间时间差为所述当前帧的第一声道信号与所述当前帧的第二声道信号之间的时间差。

步骤102：若所述当前帧的声道间时间差的符号与所述当前帧的前一帧的声道间时间差的符号不同，则根据所述当前帧的声道间时间差对所述当前帧的第一声道信号进行时延对齐处理、根据所述前一帧的声道间时间差对所述当前帧的第二声道信号进行时延对齐处理；所述第一声道信号为所述当前帧的目标声道信号，所述第二声道信号与所述前一帧的目标声道信号处于相同声道。

其中，当前帧的前一帧与该当前帧是紧邻的两帧，在时序上是连续的。

步骤101中，对当前帧进行时延估计的过程可以如下：

第一步：对当前帧的左声道信号、右声道信号进行时域预处理。

若立体声信号的采样率为16KHz，一帧立体声信号持续长度为20ms，帧长记作N，则N＝320，即帧长为320个样点。当前帧的立体声信号包括当前帧的左声道信号以及当前帧的右声道信号，当前帧的左声道信号记作x_L(n)，当前帧的右声道信号记作x_R(n)，其中n为样点序号，n＝0，1，…，N-1。

对当前帧的左声道信号、右声道信号进行时域预处理，具体地可以包括对当前帧的左声道信号、右声道信号进行高通滤波处理，得到当前帧预处理后的左声道信号、右声道信号，当前帧预处理后的左声道信号记作x_{L_Hp}(n)，当前帧预处理后的右声道信号记作x_{R_HP}(n)，其中n为样点序号，n＝0，1，…，N-1。高通滤波处理可以是截止频率为20Hz的无限脉冲响应(Infinite Impulse Response，IIR)滤波器，也可是其他类型的滤波器。例如，采样率为16KHz对应的截止频率为20Hz的高通滤波器的传递函数为：

其中，b₀＝0.994461788958195，b₁＝-1.988923577916390，b₂＝0.994461788958195，a₁＝1.988892905899653，a₂＝-0.988954249933127，z为Z变换的变换因子。相应的时域滤波后的信号为：

x_{L_HP}(n)＝b₀*x_L(n)+b₁*x_L(n-1)+b₂*x_L(n-2)-a₁*x_{L_HP}(n-1)-a₂*x_{L_HP}(n-2)..(2)

x_{R_HP}(n)＝b₀*x_R(n)+b₁*x_R(n-1)+b₂*x_R(n-2)-a₁*x_{R_HP}(n-1)-a₂*x_{R_HP}(n-2)..(3)

需要说明的是，对当前帧的左声道信号、右声道信号进行时域预处理不是必须要做的。如果没有时域预处理的步骤，则用于进行时延估计和时延对齐处理的左声道信号和右声道信号就是原始立体声信号中的左声道信号和右声道信号。这里原始立体声信号中的左声道信号和右声道信号是指采集到的经过模数(Analog to Digital，A/D)转换后的脉冲编码调制(Pulse Code Modulation，PCM)信号。同时，本申请实施例中，信号的采样率还可以为8KHz、16KHz、32KHz、44.1KHz以及48KHz等，本申请实施例对此并不限定。

当前帧预处理后的左声道信号记作

当前帧预处理后的右声道信号记作

其中n为样点序号，n＝0，1，…，N-1。

另外，预处理除了本申请实施例中描述的高通滤波处理，还可以为其它处理方式，如预加重处理等，本申请实施例对此并不限定。

第二步：根据当前帧预处理后的左声道信号、右声道信号进行时延估计，获得当前帧的声道间时间差。

举例来说，可以根据当前帧预处理后的左声道信号、右声道信号计算左右声道间的互相关系数。然后，确定互相关系数的最大值，根据互相关系数的最大值确定当前帧的声道间时间差。

具体地：T_max对应于当前采样率下声道间时间差取值的最大值，T_min对应于当前采样率下声道间时间差取值的最小值。T_max和T_min为预先设定的实数，且T_max大于T_min。本申请实施例中，采样率为16KHz时，T_max＝40，T_min＝-40。采样率为32KHz时，T_max＝80，T_min＝-80，其他采样率的情况，T_max和T_min的取值不再赘述。

左右声道间的互相关系数可以通过以下方式计算：

若T_min小于等于0，T_max大于0，则在Tmin≤i≤0范围内，左右声道间的互相关系数满足以下公式：

在0＜i≤T_max范围内，左右声道间的互相关系数满足以下公式：

其中，N为帧长，

为当前帧预处理后的左声道信号，

为当前帧预处理后的右声道信号，c(i)为左右声道间的互相关系数，i为互相关系数的索引值。

若T_min小于等于0，T_max小于等于0，则在T_min≤i≤T_max范围内，左右声道间的互相关系数满足以下公式：

其中，N为帧长，

为当前帧预处理后的左声道信号，

若设置的T_min大于0，设置的T_max大于0，则在T_min＜i≤T_max范围内，左右声道间的互相关系数满足以下公式：

其中，N为帧长，

为当前帧预处理后的左声道信号，

最后将得到互相关系数最大值对应的索引值，作为当前帧的声道间时间差。

结合前面的描述，在本申请实施例中，T_max等于40、T_min等于-40时，在Tmin≤i≤T_max范围内搜索左右声道间的互相关系数c(i)的最大值，将得到互相关系数最大值对应的索引值，作为当前帧的声道间时间差，记作cur_itd。

在估计出当前帧的声道间时间差之后，对估计出的当前帧的声道间时间差进行量化编码，将量化后的编码索引写入码流，传输给解码端。可选的，将量化编码后的值作为当前帧的声道间时间差。

除了上面描述的时延估计方法，还可以根据其他时延估计方法确定当前帧的声道间时间差，例如根据当前帧预处理后的左声道信号、右声道信号或者根据当前帧的左声道信号、右声道信号计算左右声道间的互相关系数，然后根据前M1个音频帧(M1为大于等于1的整数)的左右声道间的互相关系数以及计算出的当前帧的左右声道间的互相关系数进行长时平滑处理，得到平滑后的左右声道间的互相关系数，然后在T_min≤i≤T_max范围内搜索平滑后的左右声道间的互相关系数的最大值，得到最大值对应的索引值，作为当前帧的声道间时间差。再例如，还可以为对根据前M2个音频帧(M2为大于等于1的整数)的声道间时间差和当前帧估计出的声道间时间差进行帧间平滑处理，用平滑后的声道间时间差作为当前帧的声道间时间差。

需要说明的是，本申请实施例中，将估计出的当前帧的声道间时间差作为最终确定的当前帧的声道间时间差，但是估计当前帧的声道间时间差的方法包括但不限于上面描述的方法。

步骤102中，符号可以是指正号(+)或负号(-)。本申请实施例中，前一帧位于当前帧之前，且与当前帧相邻。

当确定当前帧的声道间时间差的符号与前一帧的声道间时间差的符号不同，则可以分别对当前帧的第一声道信号以及第二声道信号进行时延对齐处理，以下为了描述方便，将当前帧的第一声道信号对应的声道称为第一声道，将当前帧的第二声道信号对应的声道称为第二声道。需要说明的是，第一声道为当前帧的目标声道，还可以称为下一帧目标声道，也可以称作当前帧的指示目标声道，或者称为当前帧的前一帧目标声道之外的另一个声道。相应的，第二声道为当前帧的参考声道，第二声道为立体声信号的两个声道中与前一帧的目标声道相同的声道，还可以称为前一帧目标声道，也可以称作当前帧的指示参考声道，或者称为当前帧的目标声道之外的另一个声道。例如，前一帧的目标声道为左声道，则第一声道信号为当前帧中的右声道信号，第二声道信号为当前帧中的左声道信号；前一帧的目标声道为右声道，则第一声道信号为当前帧中的左声道信号，第二声道信号为当前帧中的右声道信号。

本申请实施例中，目标声道和参考声道是专用术语，具体的，现有的根据声道间时间差进行时延对齐的算法，需要从左声道和右两个声道中选择一个声道，对选择出的声道的信号进行时延对齐处理，这个声道被称为目标声道；而另一个声道作为目标声道进行时延对齐处理的参考，被称为参考声道。而本申请实施例提出的方法中，当确定当前帧的声道间时间差的符号与前一帧的声道间时间差的符号不同时，需要对两个声道均进行时延对齐处理，因此当确定当前帧的声道间时间差的符号与前一帧的声道间时间差的符号不同时，所述的第一声道为当前帧的目标声道是广义上的当前帧的目标声道，需要进行时延对齐处理，所述的第二声道为当前帧的参考声道是广义上的当前帧的参考声道，也需要进行时延对齐处理。

可选的，本申请实施例中，可以通过以下方式确定前一帧的目标声道和参考声道，从而确定第一声道和第二声道：若前一帧的声道间时间差小于0，则可以认为前一帧的目标声道为左声道，由于第二声道为立体声信号的两个声道中与前一帧的目标声道相同的声道，因此第二声道为左声道，第一声道为右声道；若前一帧的声道间时间差大于或等于0，则可以认为前一帧的目标声道为右声道，由于第二声道为立体声信号的两个声道中与前一帧的目标声道相同的声道，因此第二声道为右声道，第一声道为左声道。

可选的，本申请实施例中，也可以通过以下方式确定当前帧的目标声道和参考声道，从而确定第一声道和第二声道：在确定当前帧的声道间时间差大于或等于0时，可以认为当前帧的目标声道为右声道，即第一声道为右声道，第二声道为左声道；在确定当前帧的声道间时间差小于0时，可以认为当前帧的目标声道为左声道，即第一声道为左声道，第二声道为右声道。

可选的，本申请实施例中，还可以根据获取到的前一帧的目标声道索引或参考声道索引，直接确定前一帧的目标声道和参考声道，从而确定第一声道和第二声道。

本申请实施例中，对第一声道信号以及第二声道信号进行时延对齐处理的方法有多种，下面分别描述。

一、根据当前帧的声道间时间差对当前帧的第一声道信号进行时延对齐处理

具体的，将所述当前帧的第一声道信号中第一处理长度的信号压缩为第一对齐处理长度的信号，以获得时延对齐处理后的所述当前帧的第一声道信号；其中，所述第一处理长度为根据所述当前帧的声道间时间差和所述第一对齐处理长度确定的，所述第一处理长度大于所述第一对齐处理长度。

本申请实施例中，第一处理长度可以为当前帧的声道间时间差的绝对值与第一对齐处理长度之和。

本申请实施例中，第一对齐处理长度可以用L_next_target表示。所述第一对齐处理长度小于或等于所述当前帧的帧长，第一对齐处理长度可以为预先设定的长度，也可以根据其他方式确定。第一对齐处理长度为预先设定的长度时，可以为L、L/2或者L/3或者是小于等于L的任意长度，L为时延对齐处理的处理长度，其中，所述时延对齐处理的处理长度小于或等于所述当前帧的帧长，即L为预设的小于或等于当前采样率下对应的帧长N的任意正整数，且大于声道间时间差绝对值的最大值的正整数，例如L＝290，L＝200等。在本申请实施例中，L可以针对不同的采样率设置不同的值，也可以采用统一的值。一般情况下，可以根据技术人员的经验预设一个值，例如采样率为16KHz时，L设置为290，此时本申请实施例中，L_next_target＝L/2＝145。

同时，本申请实施例中，所述第一处理长度的信号的起始点位于所述第一对齐处理长度的信号的起始点之前、且所述第一处理长度的信号的起始点与第一对齐处理长度的信号的起始点之间的长度为当前帧的声道间时间差的绝对值。

本申请实施例中，当前帧的声道间时间差为cur_itd，abs(cur_itd)表示当前帧的声道间时间差的绝对值，为了描述方便，以下部分描述中，将abs(cur_itd)称为第一时延长度。前一帧的声道间时间差为prev_itd，abs(prev_itd)表示前一帧的声道间时间差的绝对值，为了描述方便，以下部分描述中，将abs(prev_itd)称为第二时延长度。

第一处理长度的信号的具体位置，可以根据不同实际情况确定，下面分别描述：

第一种可能的情况：

如图2所示，为本申请实施例提供的一种时延对齐处理示意图。图2中为描述方便，将时延对齐处理前第一声道信号中与压缩处理后第一声道信号中位置相同的点，采用相同的坐标进行标记，但不代表坐标相同的点的信号是相同的。例如，时延对齐处理前和压缩处理后，当前帧的第一声道信号的起始点的坐标均标记为B1。

结合图2，第一对齐处理长度的信号的起始点位于当前帧的第一声道信号的起始点B1。第一对齐处理长度的信号的结束点为C1，从起始点B1到结束点C1之间的长度等于第一对齐处理长度。其中B1＝0，C1＝B1+L_next_target-1。

第一处理长度的信号的起始点A1位于第一对齐处理长度的信号的起始点B1之前，且所述第一处理长度的信号的起始点A1与所述第一对齐处理长度的信号的起始点B1之间的长度为当前帧的声道间时间差的绝对值。即A1＝B1-abs(cur_itd)。第一处理长度的信号的结束点为C1，与第一对齐处理长度的信号的结束点的坐标相同。

在进行时延对齐处理过程中，将第一声道的信号中从A1点到C1点的信号压缩为第一对齐处理长度的信号，压缩后获得的第一对齐处理长度的信号，作为压缩处理后的第一声道信号中从起始点B1开始的第一对齐处理长度的信号。同时，当前帧的第一声道信号中未被压缩的信号保持不变，即将时延对齐处理前第一声道信号中从C1+1点开始至E1点的信号，直接作为压缩处理后第一声道信号中从C1+1点开始至E1点的信号。E1为当前帧的第一声道信号的结束点，当前帧的帧长为N，E1＝N-1。

本申请实施例中，还可以根据当前帧的第二声道信号中从E2-abs(cur_itd)+1点至E2点的信号人工重建出第一时延长度的信号，并将重建出的第一时延长度的信号作为压缩处理后的第一声道信号中从第E1+1点到G1点信号，其中，E2为当前帧的第二声道信号的结束点，E2＝E1，G1＝E1+abs(cur_itd)。

需要说明的是，具体如何重建出第一时延长度的信号，本申请实施例对此并不限定，例如，可以直接将当前帧的第二声道信号中从E1-abs(cur_itd)+1点至E1点的信号直接作为重建出的第一时延长度的信号。

最后，将压缩处理后的第一声道的信号中，从F1点开始的N个样点作为时延对齐处理后当前帧的第一声道信号，即时延对齐处理后当前帧的第一声道信号的起始点为F1点，结束点为G1点；F1点位于当前帧的第一声道信号的起始点之后，且与当前帧的第一声道信号的起始点之间的长度为第一时延长度；G1点位于当前帧的第一声道信号的结束点之后，且与当前帧的第一声道信号的结束点之间的长度为第一时延长度。即F1＝B1+abs(cur_itd)。

例如，结合图2，当前帧的第一声道为左声道、第二声道为右声道，则将左声道中从A1点至C1点的信号压缩为第一对齐处理长度的信号，压缩后获得的第一对齐处理长度的信号作为压缩处理后左声道信号的前第一对齐处理长度的信号(即压缩处理后左声道信号的B1点至C1点的信号)。然后，将压缩处理前左声道信号中，从C1+1点至E1点的信号直接作为压缩处理后当前帧的左声道信号中从C1+1点至E1点的信号。然后，根据当前帧的右声道信号中从结束点之前的第一时延长度的信号(即当前帧的右声道信号的E1-abs(cur_itd)+1点至E1点信号)重建出第一时延长度的信号，并将重建出的第一时延长度的信号作为压缩处理后左声道信号中结束点之后的第一时延长度的信号(即压缩处理后左声道信号的E1+1点至G1点的信号)。最后，将压缩处理后的信号中从F1点至G1点的信号作为时延对齐处理后当前帧的左声道信号。

当前帧的第一声道为右声道、第二声道为左声道时，可以参考前面的描述，在此不再赘述。

第二种可能的情况：

如图3所示，为本申请实施例提供的一种立体声信号处理示意图。图3中为描述方便，将时延对齐处理前第一声道信号中与压缩处理后第一声道信号中位置相同的点，采用相同的坐标进行标记，但不代表坐标相同的点的信号是相同的。例如，时延对齐处理前和压缩处理后，当前帧的第一声道信号的起始点的坐标均标记为B1。

结合图3，第一对齐处理长度的信号的起始点D1位于当前帧的第一声道信号的起始点B1之后，且所述第一对齐处理长度的信号的起始点D1与所述当前帧的第一声道信号结束点E1之间的长度大于或等于所述第一对齐处理长度。第一对齐处理长度的信号的结束点为C1，从起始点D1到结束点C1之间的长度等于第一对齐处理长度。其中C1＝D1+L_next_target-1。

图3中，当前帧的帧长为N，当前帧的第一声道信号的起始点B1＝0，当前帧的第一声道信号的结束点E1＝N-1。第一对齐处理长度的起始点D1位于当前帧的第一声道信号的起始点B1之后，且所述第一对齐处理长度的信号的起始点D1与所述当前帧的第一声道信号结束点E1之间的长度大于或等于所述第一对齐处理长度。为描述方便，以下将第一对齐处理长度的信号的起始点D1与第一声道信号的起始点B1之间的长度称之为第一预设长度，第一预设长度大于0且小于或等于当前帧的帧长与所述第一对齐处理长度的差值，具体可以根据实际情况进行设置，在此不再赘述。

第一处理长度的信号的起始点A1位于第一对齐处理长度的信号的起始点D1之前，且所述第一处理长度的信号的起始点A1与所述第一对齐处理长度的信号的起始点D1之间的长度为当前帧的声道间时间差的绝对值，即第一处理长度的信号的起始点A1＝D1-abs(cur_itd)，第一处理长度的信号的结束点为C1，与第一对齐处理长度的信号的结束点的坐标相同。

本申请实施例中，在进行时延对齐处理过程中，对信号压缩的同时，可以将第一声道信号中，位于第一处理长度的信号的起始点之前的第一预设长度的信号，直接作为压缩处理后的第一声道信号中从起始点开始的第一预设长度的信号，即将第一声道信号中从H1点到A1-1点的信号作为压缩后的第一声道信号中从B1点到D1-1点的信号。其中，H1＝B1-abs(cur_itd)。

在对信号压缩的过程中，将第一声道信号中从A1点到C1点的信号压缩为第一对齐处理长度的信号，压缩后获得的第一对齐处理长度的信号，作为压缩处理后的第一声道信号中从D1点开始的第一对齐处理长度的信号，即将压缩后获得的第一对齐处理长度的信号，直接作为压缩处理后第一声道信号中从D1点到C1点的信号。

同时，当前帧的第一声道信号中未被压缩的信号保持不变，即将时延对齐处理前当前帧的第一声道信号中从C1+1点开始至E1点的信号，直接作为压缩处理后的第一声道信号中从C1+1点开始至E1点的信号。E1为当前帧的第一声道信号的结束点，当前帧的帧长为N，E1＝N-1。

本申请实施例中，还可以根据当前帧的第二声道信号中从E2-abs(cur_itd)+1点至E2点信号人工重建出的第一时延长度的信号，并将重建出的第一时延长度的信号作为压缩处理后的第一声道信号的E1+1点至G1点的信号，其中，E2为当前帧的第二声道信号的结束点，E2＝E1，G1＝E1+abs(cur_itd)。

需要说明的是，具体如何重建出第一时延长度的信号，本申请实施例对此并不限定，例如，可以直接将当前帧的第二声道信号中从E2-abs(cur_itd)+1点至E2点的信号直接作为重建出的第一时延长度的信号。

最后，将压缩处理后的第一声道的信号中，从F1点开始的N个样点作为时延对齐处理后当前帧的第一声道信号，即时延对齐处理后当前帧的第一声道信号的起始点为F1点，结束点为G1点；F1＝B1+abs(cur_itd)，G1＝E1+abs(cur_itd)。

例如，结合图3，当前帧的第一声道为左声道、第二声道为右声道。将左声道的信号中从H1点至A1-1点的信号直接作为压缩处理后的左声道信号的从B1点至D1-1点的信号；将左声道信号中从A1点至C1点的信号压缩为第一对齐处理长度的信号，压缩后获得的第一对齐处理长度的信号作为压缩处理后的左声道信号的D1点至C1点的信号。然后，将当前帧的左声道信号中，从C1+1点至E1点的信号，直接作为压缩处理后的左声道信号中从C1+1点至E1点的信号；然后，根据当前帧的右声道信号中从E2-abs(cur itd)+1点至E2点的信号人工重建出第一时延长度的信号，并将重建出的第一时延长度的信号作为压缩处理后的左声道信号的E1+1点至G1点的信号。最后，将压缩处理后的信号中从F1点至G1点的信号作为时延对齐处理后当前帧的左声道信号。

第三种可能的情况：

如图4所示，为本申请实施例提供的一种立体声信号处理示意图。图4中为描述方便，将时延对齐处理前第一声道信号中与压缩处理后第一声道信号中位置相同的点，采用相同的坐标进行标记，但不代表坐标相同的点的信号是相同的。例如，时延对齐处理前和压缩处理后，当前帧的第一声道信号的结束点的坐标均标记为E1。

图4中，当前帧的帧长为N，当前帧的第一声道信号的起始点B1＝0，当前帧的第一声道信号的结束点E1＝N-1。第一对齐处理长度的起始点D1位于当前帧的第一声道信号的起始点B1之前，且与当前帧的第一声道信号的起始点B1之间的长度小于或等于过渡长度，且所述第一对齐处理长度的信号的起始点D1与所述当前帧的第一声道信号的结束点E1之间的长度大于或等于所述第一对齐处理长度与所述过渡长度之和。为了描述方便，本申请实施例以及图4中，将过渡段长度用ts表示。此时，D1＝B1-ts，。第一对齐处理长度的信号的结束点为C1，从起始点D1到结束点C1之间的长度等于第一对齐处理长度。其中C1＝D1+L_next_target-1。

本申请实施例中，过渡段长度可以为预设的正整数，预设的正整数可以是相关技术人员凭经验设定的，过渡段长度一般小于或等于当前帧的声道间时间差的绝对值的最大值；过渡段长度也可以是根据当前帧的声道间时间差计算得到的，例如，过渡段长度为abs(cur_itd)/2。

第一处理长度的信号的起始点A1位于第一对齐处理长度的信号的起始点D1之前，且所述第一处理长度的信号的起始点A1与所述第一对齐处理长度的信号的起始点D1之间的长度为当前帧的声道间时间差的绝对值，即第一处理长度的信号的起始点A1＝D1-abs(cur_itd)，第一处理长度的信号的结束点C1，与第一对齐处理长度的信号的结束点的坐标相同。

需要说明的是，图4中是以所述第一对齐处理长度的信号的起始点D1与当前帧的第一声道信号的起始点B1之间的长度等于过渡长度为例进行说明，所述第一对齐处理长度的信号的起始点D1与当前帧的第一声道信号的起始点B1之间的长度还可以小于过渡长度，D1＜B1且D1＞B1。小于过渡长度的情况可以参考此处的描述，在此不再赘述。

在进行时延对齐处理过程中，将第一声道信号中从A1点到C1点的信号压缩为第一对齐处理长度的信号，压缩后获得的第一对齐处理长度的信号，作为压缩处理后的第一声道信号中从D1点开始的第一对齐处理长度的信号，即将压缩后获得的第一对齐处理长度的信号作为压缩处理后的第一声道信号中从D1点到C1点的信号。

需要说明的是，具体如何重建出第一时延长度的信号，本申请实施例对此并不限定。

最后，将压缩处理后的第一声道的信号中，从F1点开始的N个样点作为时延对齐处理后当前帧的第一声道信号，即时延对齐处理后当前帧的第一声道信号的起始点为F1点，结束点为G1点；其中F1＝B1+abs(cur_itd)。

例如，结合图4，当前帧的第一声道为左声道、第二声道为右声道。将左声道信号中从A1点至C1点的信号压缩为第一对齐处理长度的信号，压缩后获得的第一对齐处理长度的信号作为压缩处理后的左声道信号中从D1点至C1点的信号。然后，将当前帧的左声道信号中，从C1+1点至E1点的信号，直接作为压缩处理后的左声道信号中从C1+1点至E1点的信号；然后，根据当前帧的右声道信号中从E2-abs(cur_itd)+1点至E2点信号人工重建出的第一时延长度的信号，并将重建出的第一时延长度的信号作为压缩处理后的左声道信号的E1+1点至G1点的信号，其中，E2为当前帧的右声道信号的结束点。最后，将压缩处理后的信号中从F1点至G1点的信号作为时延对齐处理后当前帧的左声道信号。

可选的，为了增加真实信号与人工重建信号之间的平滑，还可以设置一个平滑过渡段，平滑过渡段长度为Ts2。平滑过渡段长度可以设置为预设的正整数，平滑过渡段长度与过渡段长度的差小于等于帧长与第一对齐处理长度的差，例如将Ts2设置为10。

此时，在进行时延对齐处理过程中，将第一声道信号中从A1点到C1点的信号压缩为第一对齐处理长度的信号，压缩后获得的第一对齐处理长度的信号，作为压缩处理后的第一声道信号中从D1点开始的第一对齐处理长度的信号，即将压缩后获得的第一对齐处理长度的信号作为压缩处理后的第一声道信号中从D1点到C1点的信号。

同时，将时延对齐处理前当前帧的第一声道信号中从C1+1点开始至E1-Ts2点的信号，直接作为压缩处理后的第一声道信号中从C1+1点开始至E1一Ts2点的信号。E1为当前帧的第一声道信号的结束点，当前帧的帧长为N，E1＝N-1。根据当前帧的第二声道信号中从E2-abs(cur_itd)-Ts2+1点至E2-abs(cur_itd)点信号人工重建出的平滑过渡段长度的信号，并将重建出的平滑过渡段长度的信号作为压缩处理后的第一声道信号的E1-Ts2+1点至E1点的信号。

需要说明的是，具体如何重建出第一时延长度的信号和平滑过渡段长度的信号，本申请实施例对此并不限定。

需要说明的是，在第二种可能的情况中，也可以设置一个过渡段长度，具体设置过渡段长度的方法及步骤，以及设置过渡段长度之后对当前帧的第一声道信号进行的时延对齐处理的过程，可以参考前面的描述，在此不再赘述。在第二种可能的情况中，还可以设置一个过渡段长度和一个平滑过渡段长度，具体设置过渡段长度和平滑过渡段长度的方法及步骤，以及设置过渡段长度和平滑过渡段长度之后对当前帧的第一声道信号进行的时延对齐处理的过程，可以参考前面的描述。

上述方法中，通过增加过渡段长度或者增加过渡段长度和平滑过渡段长度，实现增加帧与帧之间的平滑，提高了时延对齐处理后的当前帧中两个声道信号之间对齐的准确性，从而提高了编码质量。

需要说明的是，本申请实施例中，对第一处理长度的信号进行压缩的方法可以是采用三次样条差值法进行压缩，可以是二次样条插值法进行压缩，可以使用线性差值法进行压缩，也可以是B样条插值法进行压缩，如二次B样条插值法，三次B样条插值法。本申请实施例对压缩的具体方法不作限定，可以采用任何一种技术进行处理。

二、根据前一帧的声道间时间差对当前帧的第二声道信号进行时延对齐处理

具体的，将所述第二声道信号中第二处理长度的信号拉伸为第二对齐处理长度的信号，以获得时延对齐处理后的所述当前帧的第二声道信号；其中，所述第二处理长度为根据所述前一帧的声道间时间差和所述第二对齐处理长度确定的，所述第二处理长度小于所述第二对齐处理长度。

本申请实施例中，第二处理长度为所述第二对齐处理长度与所述前一帧的声道间时间差的绝对值之差。本申请实施例中，第二对齐处理长度可以用L_pre_target表示。

第二对齐处理长度可以为预先设定的长度，也可以根据其他方式确定。所述第二对齐处理长度小于或等于所述当前帧的帧长，第二对齐处理长度为预先设定的长度时，可以为L、L/2或者L/3或者是小于等于L的任意长度，其中，L为预设的小于或等于当前采样率下对应的帧长N的任意正整数，且大于声道间时间差绝对值的最大值的正整数，例如L＝290，L＝200等。在本申请实施例中，L可以针对不同的采样率设置不同的值，也可以采用统一的值。一般情况下，可以根据技术人员的经验预设一个值，例如采样率为16KHz时，L设置为290。本申请实施例中，L_pre_target＝L/2＝145。

同时，所述第二处理长度的信号的起始点位于所述第二对齐处理长度的信号的起始点之后、且所述第二处理长度的信号的起始点与第二对齐处理长度的信号的起始点之间的长度为前一帧的声道间时间差的绝对值。

第二处理长度的信号的具体位置，可以根据不同实际情况确定，下面分别描述：

第一种可能的情况：

如图5所示，为本申请实施例提供的一种立体声信号处理示意图。图5中为描述方便，将时延对齐处理前第二声道信号中与拉伸处理后的第二声道信号中位置相同的点，采用相同的坐标进行标记，但不代表坐标相同的点的信号是相同的。例如，时延对齐处理前和压缩处理后，当前帧的第二声道信号的起始点的坐标均标记为B2。

结合图5，当前帧的帧长为N，当前帧的第二声道信号的起始点B2＝0，当前帧的第二声道信号的结束点E2＝N-1。第二对齐处理长度的起始点位于当前帧的第二声道信号的起始点B2。第二对齐处理长度的信号的结束点为C2，从起始点B2到结束点C2之间的长度等于第二对齐处理长度。其中，C2＝B2+L_pre_target-1。

第二处理长度的信号的起始点A2位于第二对齐处理长度的起始点B2之后，且与所述第二对齐处理长度的起始点B2之间的长度为前一帧的声道间时间差的绝对值。第二处理长度的信号的起始点A2＝B2+abs(prev_itd)，第二处理长度的信号的结束点为C2，与第二对齐处理长度的信号的结束点的坐标相同。

在时延对齐处理过程中，将第二声道信号中从A2点到C2点的信号拉伸为第二对齐处理长度的信号，拉伸后获得的第二对齐处理长度的信号，作为拉伸处理后的第二声道信号中从起始点B2开始的第二对齐处理长度的信号，即将拉伸后获得的第二对齐处理长度的信号作为拉伸处理后的第二声道信号中从起始点B2到C2点的信号。

本申请实施例中，在对信号拉伸的同时，可以保持当前帧的第二声道信号中未被拉伸的信号不变，即将当前帧的第二声道信号中从C2+1点开始至E2点的信号，直接作为拉伸处理后的第二声道信号中从C2+1点开始至E2点的信号。E2为当前帧的第二声道信号的结束点，当前帧的帧长为N，E2＝N-1。

最后，将拉伸处理后的第二声道信号中，从起始点B2点开始的N个样点作为时延对齐处理后当前帧的第二声道信号，即时延对齐处理后当前帧的第二声道信号的起始点为B2点，结束点为E2点。

例如，结合图5，当前帧的第一声道为左声道、第二声道为右声道。将当前帧的右声道信号中从A2点至C2点的信号拉伸为第二对齐处理长度的信号，拉伸后获得的第二对齐处理长度的信号作为拉伸处理后的右声道信号的B2点至C2点的信号。然后，将当前帧的右声道信号中，从C2+1点至E2点的信号，直接作为拉伸处理后的右声道信号中从C2+1点至E2点的信号。最后，将拉伸处理后的信号中从B2点至E2点的信号作为时延对齐处理后当前帧的右声道信号。

第二种可能的情况：

如图6所示，为本申请实施例提供的一种立体声信号处理示意图。图6中为描述方便，将时延对齐处理前第二声道信号中与拉伸处理后第二声道信号中位置相同的点，采用相同的坐标进行标记，但不代表坐标相同的点的信号是相同的。

结合图6，当前帧的帧长为N，当前帧的第二声道信号的起始点B2＝0，当前帧的第二声道信号的结束点E2＝N-1。第二对齐处理长度的起始点位于当前帧的第二声道信号的起始点B2之后，且所述第二对齐处理长度的信号的起始点D2与所述当前帧的第二声道信号的结束点E2之间的长度大于或等于所述第二对齐处理长度，其中第二对齐处理长度的信号的结束点C2＝D2+L_pre_target-1。为描述方便，以下将第二对齐处理长度的信号的起始点D2与第二声道信号的起始点B2之间的长度称之为第二预设长度，第二预设长度可以大于0且小于或等于当前帧的帧长与第二对齐处理长度的差值，具体可以根据实际情况进行设置，在此不再赘述。

第二处理长度的信号的起始点A2位于第二对齐处理长度的起始点B2之后，且与所述第二对齐处理长度的起始点B2之间的长度为前一帧的声道间时间差的绝对值。第二处理长度的信号的起始点A2＝D2+abs(prev_itd)，第二处理长度的信号的结束点与第二对齐处理长度的信号的结束点的坐标相同，C2＝D2+L_pre_target-1。

在时延对齐处理过程中，将第二声道信号中从H2＝B2+abs(prev_itd)开始的第二预设长度的信号，直接作为拉伸处理后的第二声道信号中从起始点B2开始的第二预设长度的信号。即结合图6，将当前帧的第二声道信号中，从H2点至A2-1点的信号，直接作为拉伸处理后的第二声道信号中从B2点至D2-1点的信号。

同时，将第二声道信号中从A2点到C2点的信号拉伸为第二对齐处理长度的信号，拉伸后获得的第二对齐处理长度的信号，作为拉伸处理后的第二声道信号中从D2点开始的第二对齐处理长度的信号，即将拉伸后获得的第二对齐处理长度的信号作为拉伸处理后的第二声道信号中从D2点到C2点的信号。

最后，将拉伸处理后的第二声道信号中，从起始点B2点开始的N个样点作为时延对齐处理后当前帧的第二声道信号，即时延对齐处理后当前帧的第一声道信号的起始点为B2点，结束点为E2点。

例如，结合图6，当前帧的第一声道为左声道、第二声道为右声道。在时延对齐处理过程中，将当前帧的右声道信号中，从H2点至A2-1点的信号，直接作为拉伸处理后的右声道信号中从B2点至D2-1点的信号；将当前帧的右声道信号中从A2点至C2点的信号拉伸为第二对齐处理长度的信号，拉伸后获得的第二对齐处理长度的信号作为拉伸处理后的右声道信号的D2点至C2点的信号。然后，将当前帧的右声道信号中，从C2+1点至E2点的信号，直接作为拉伸处理后的右声道信号中从C2+1点至E2点的信号。最后，将拉伸处理后的信号中从B2点至E2点的信号作为时延对齐处理后当前帧的右声道信号。

需要说明的是，本申请实施例中，对第二处理长度的信号进行拉伸的方法可以是采用三次样条差值法进行拉伸，可以是二次样条插值法进行拉伸，可以使用线性差值法进行拉伸，也可以是B样条插值法进行拉伸，如二次B样条插值法，三次B样条插值法。本申请实施例对拉伸的具体方法不作限定，可以采用任何一种技术进行处理。

本申请实施例中，在进行时延对齐处理之后，还可以量化编码当前帧的声道间时间差，获得当前帧的声道间时间差的编码索引，并将编码索引写入码流。需要说明的是，对当前帧的声道间时间差进行量化编码也可以在步骤101中进行，也可以在此处进行，本申请实施例对此并不限定。

具体将编码索引写入码流的方法可以有很多种，本申请实施例不作限制。例如：可以是将当前帧的声道间时间差的绝对值进行量化编码后，将当前帧的声道间时间差的绝对值的编码索引写入码流，传输给解码端；同时将当前帧的目标声道的索引作为目标声道索引写入码流，或者将当前帧的参考声道的索引作为参考声道索引写入码流，传输给解码端。

当前帧时延对齐处理后的左声道信号记作x′_L(n)，当前帧时延对齐处理后的右声道信号记作x′_R(n)，其中n为样点序号，n＝0，1，…，N-1。根据当前帧的声道间时间差的符号和前一帧的声道间时间差的符号，有可能是时延对齐处理后的第一声道信号为当前帧时延对齐处理后的左声道信号记作x′_L(n)，也可能是时延对齐处理后的第二声道信号为当前帧时延对齐处理后的左声道信号记作x′_L(n)。同样，有可能是时延对齐处理后的第一声道信号为当前帧时延对齐处理后的右声道信号记作x′_R(n)，也可能是时延对齐处理后的第二声道信号为当前帧时延对齐处理后的右声道信号记作x′_R(n)。

最后，对时延对齐处理后的第一声道信号和时延对齐处理后的第二声道信号进行编码。

具体地，可以使用现有的立体声编码方法对时延对齐处理后的第一声道信号和时延对齐处理后的第二声道信号进行编码，将编码得到的码流传输给解码端。本申请实施例不对其具体的编码方法作限定。

可选的，本申请实施例中，第一对齐处理长度不为预先设定的长度时，可以满足以下公式：

其中，L_next_target为所述第一对齐处理长度，cur itd为所述当前帧的声道间时间差，prev_itd为所述前一帧的声道间时间差，L为时延对齐处理的处理长度。|·|表示取绝对值。

所述第二对齐处理长度不为预先设定的长度时，可以满足以下公式：

其中，L_pre_target为所述第二对齐处理长度，cur_itd为所述当前帧的声道间时间差，prev_itd为所述前一帧的声道间时间差，L为时延对齐处理的处理长度。L为预设的小于或等于当前采样率下对应的帧长N的任意正整数，且大于声道间时间差绝对值的最大值的正整数，例如L＝290，L＝200等。|·|表示取绝对值。

可选的，本申请实施例中，时延对齐处理的处理长度不为预先设定的长度时，可以满足以下公式：

其中，L为时延对齐处理的处理长度，MAX_DELAY_CHANGE为相邻帧声道间时间差的最大差值，L_init为预设的时延对齐处理的处理长度，例如L_init可以大于或等于相邻帧声道间时间差的最大差值，且小于或等于所述当前帧的帧长，例如290或200等。|·|表示取绝对值。

MAX_DELAY_CHANGE可以是大于0小于等于|T_max-T_min|的正整数，T_max对应于当前采样率下声道间时间差取值的最大值，T_min对应于当前采样率下声道间时间差取值的最小值。例如，MAX_DELAY_CHANGE等于80、40或者20。在本申请实例中，MAX_DELAY_CHANGE可以为20。

下面通过一个具体的实施例描述。

步骤一：根据当前帧的立体声信号进行时延估计，确定当前帧的声道间时间差。

该步骤的具体内容可以参考步骤101，在此不再赘述。

步骤二：若所述当前帧的声道间时间差的符号与前一帧的声道间时间差的符号不同，则根据所述当前帧的声道间时间差对当前帧的第一声道信号进行时延对齐处理。

步骤三：若所述当前帧的声道间时间差的符号与前一帧的声道间时间差的符号不同，根据所述前一帧的声道间时间差对当前帧的第二声道信号进行时延对齐处理。

结合步骤二以及步骤三，所述第二对齐处理长度的信号的起始点与当前帧的第二声道信号的起始点之间的长度等于第二预设长度；所述第一对齐处理长度的信号的起始点与当前帧的第一声道信号的起始点之间的长度等于第二预设长度与第二对齐处理长度之和。同时，第一对齐处理长度满足公式(8)，且第二对齐处理长度满足公式(9)。

如图7(a)所示，为本申请实施例提供的一种立体声信号处理示意图。图7(a)中为描述方便，将时延对齐处理前第一声道信号中与时延对齐处理后第一声道信号中位置相同的点，采用相同的坐标进行标记；将时延对齐处理前第二声道信号中与时延对齐处理后的第二声道信号中位置相同的点，采用相同的坐标进行标记。

当前帧的帧长为N，当前帧的第一声道信号的起始点为B1＝0，当前帧的第一声道信号的结束点为E1＝N-1，当前帧的第二声道信号的起始点B2＝0，当前帧的第二声道信号的结束点E2＝N-1。第一对齐处理长度的信号的起始点为D1＝D2+L_pre_target，第一对齐处理长度的信号的结束点为C1＝D1+L_next_target-1，第一处理长度的信号的起始点为A1＝D1-abs(cur_itd)，第一处理长度的信号的结束点与第一对齐处理长度的信号的结束点的坐标相同，为C1＝D1+L_next_target-1。第二对齐处理长度的起始点为D2，第二对齐处理长度的结束点为C2＝D2+L_pre_target-1；第二处理长度的信号的起始点为A2＝D2+abs(prev_itd)，第二处理长度的信号的结束点为C2＝D2+L_pre_target-1。为描述方便，以下将第二对齐处理长度的信号的起始点D2与第二声道信号的起始点B2之间的长度称之为第二预设长度，第二预设长度可以大于0且小于或等于当前帧的帧长与第二对齐处理长度的差值，具体可以根据实际情况进行设置，在此不再赘述。此时对第一处理长度的信号进行压缩以及对第二处理长度的信号进行拉伸可以如图7(a)所示。

结合图7(a)，对于第一声道信号，在进行时延对齐处理过程中，将第一声道的信号中从H1点至A1-1点的信号直接作为压缩处理后的第一声道信号中从B1点至D1-1点的信号，其中H1＝B1-abs(cur_itd)；将当前帧的第一声道信号中从A1点至C1点的信号压缩为第一对齐处理长度的信号，压缩后获得的第一对齐处理长度的信号作为压缩处理后的第一声道信号中D1点至C1点的信号。然后，将当前帧的第一声道信号中，从C1+1点至E1点的信号，直接作为压缩处理后的第一声道信号中从C1+1点至E1点的信号；然后，根据当前帧的第二声道信号中从结束点E2之前的第一时延长度的信号人工重建出第一时延长度的信号，并将重建出的第一时延长度的信号作为压缩处理后的第一声道信号的E1+1点至G1点的信号，其中G1＝E1+abs(cur_itd)-1。最后，将时延对齐处理后的信号中从F1点至G1点的信号作为时延对齐处理后当前帧的第一声道信号，F1＝B1+abs(cur_itd)。

对于第二声道信号，在进行时延对齐处理过程中，将第二声道信号中从H2＝B2+abs(prev_itd)开始的第二预设长度的信号，直接作为拉伸处理后的第二声道信号中从起始点B2开始的第二预设长度的信号。即结合图7(a)，将当前帧的第二声道信号中从H2点至A2-1点的信号，直接作为拉伸处理后的第二声道信号中从B2点至D2-1点的信号。将当前帧的第二声道信号中从A2点至C2点的信号拉伸为第二对齐处理长度的信号，拉伸后获得的第二对齐处理长度的信号作为拉伸处理后的第二声道信号的D2点至C2点的信号。然后，将当前帧的第二声道信号中，从C2+1点至E2点的信号，直接作为拉伸处理后的第二声道信号中从C2+1点至E2点的信号。最后，将时延对齐处理后的信号中从B2点至E2点的信号作为时延对齐处理后当前帧的第二声道信号。

结合图7(a)，本申请实施例中第二对齐处理长度的起始点也可以为第二声道信号的起始点，即D2＝B2，D1＝B1+L_pre_target，此时对第一处理长度的信号进行压缩以及对第二处理长度的信号进行拉伸可以如图7(b)所示。

如图7(b)所示，为本申请实施例提供的一种立体声信号处理示意图。图7(b)中为描述方便，将时延对齐处理前第一声道信号中与时延对齐处理后第一声道信号中位置相同的点，采用相同的坐标进行标记；将时延对齐处理前第二声道信号中与时延对齐处理后的第二声道信号中位置相同的点，采用相同的坐标进行标记。

图7(b)中，当前帧的帧长为N，当前帧的第一声道信号的起始点为B1＝0，当前帧的第一声道信号的结束点为E1＝N-1；第一对齐处理长度的信号的起始点为D1＝B1+L_pre_target，第一对齐处理长度的信号的结束点为C1＝B1+L_pre_target+L_next_target-1，第一处理长度的信号的起始点为A1＝B1+L_pre_target-abs(cur_itd)，第一处理长度的信号的结束点与第一对齐处理长度的信号的结束点的坐标相同，为C1＝B1+L_pre_target+L_next_target-1。

当前帧的第二声道信号的起始点B2＝0，当前帧的第二声道信号的结束点E2＝N-1。第二对齐处理长度的起始点为第二声道信号的起始点B2，第二对齐处理长度的结束点为C2＝B2+L_pre_target-1；第二处理长度的信号的起始点为A2＝B2+abs(prev_itd)，第二处理长度的信号的结束点为C2＝B2+L_pre_target-1。

结合图7(b)，对于第一声道信号，在进行时延对齐处理过程中，将第一声道的信号中从H1点至A1-1点的信号直接作为压缩处理后的第一声道信号中从B1点至D1-1点的信号，其中H1＝B1-abs(cur_itd)；将当前帧的第一声道信号中从A1点至C1点的信号压缩为第一对齐处理长度的信号，压缩后获得的第一对齐处理长度的信号作为压缩处理后的第一声道信号中D1点至C1点的信号。然后，将当前帧的第一声道信号中，从C1+1点至E1点的信号，直接作为压缩处理后的第一声道信号中从C1+1点至E1点的信号；然后，根据当前帧的第二声道信号中从结束点E2之前的第一时延长度的信号人工重建出第一时延长度的信号，并将重建出的第一时延长度的信号作为压缩处理后的第一声道信号的E1+1点至G1点的信号，其中G1＝E1+abs(cur_itd)-1。最后，将时延对齐处理后的信号中从F1点至G1点的信号作为时延对齐处理后当前帧的第一声道信号，F1＝B1+abs(cur_itd)。

对于第二声道信号，在进行时延对齐处理过程中，将当前帧的第二声道信号中从A2点至C2点的信号拉伸为第二对齐处理长度的信号，拉伸后获得的第二对齐处理长度的信号作为拉伸处理后的第二声道信号的B2点至C2点的信号。然后，将当前帧的第二声道信号中，从C2+1点至E2点的信号，直接作为拉伸处理后的第二声道信号中从C2+1点至E2点的信号。最后，将时延对齐处理后的信号中从B2点至E2点的信号作为时延对齐处理后当前帧的第二声道信号。

为了增加帧与帧之间的平滑，也可以设置一个过渡段，过渡段长度为ts。可选的，还可以设置一个平滑过渡长度，平滑过渡段长度为Ts2。具体方法参考前面的描述，这里不再赘述。

本申请实施例中，若确定当前帧的声道间时间差的符号与前一帧的声道间时间差的符号相同，则可以根据当前帧的声道间时间差以及前一帧的声道间时间差对所述当前帧的目标声道的信号进行时延对齐处理，此时当前帧的目标声道与前一帧的目标声道为同一个声道。具体进行时延对齐处理的方法，本申请实施例对此并不限定。

举例来说，一种可能的处理方法如下：

第一步，将估计出的当前帧的声道间时间差，作为当前帧的声道间时间差。

第二步，根据当前帧的声道间时间差和前一帧的声道间时间差选择当前帧的目标声道以及参考声道。当前帧的声道间时间差记作cur_itd，前一帧声道间时间差记作prev_itd。具体地可以是：如果cur_itd＝0：则当前帧的目标声道与前一帧的目标声道保持一致。例如，当前帧的目标声道索引记作target_idx，前一帧的目标声道索引记作prev_target_idx，target_idx＝prev_target_idx。如果cur_itd＜0：则当前帧的目标声道为左声道。例如，当前帧的目标声道索引记作target_idx，target_idx＝0。如果cur_itd＞0：则当前帧的目标声道为右声道。例如，当前帧的目标声道索引记作target_idx，target_idx＝1。

同时，还可以将当前帧的目标声道索引编码写入码流，传输给解码端。

第三步，根据当前帧的声道间时间差和前一帧的声道间时间差对选择的目标声道的信号进行时延对齐处理。具体地可以是：

以目标声道所对应声道的经过预处理后的时域信号作为目标声道的信号，以参考声道所对应声道的经过预处理后的时域信号作为参考声道的信号。例如目标声道为左声道，则以左声道的经过预处理后的时域信号作为目标声道的信号，参考声道为右声道，则以右声道的经过预处理后的时域信号作为参考声道的信号。目标声道为右声道，则以右声道的经过预处理后的时域信号作为目标声道的信号，参考声道为左声道，则以左声道的经过预处理后的时域信号作为参考声道的信号。

如果abs(cur_itd)等于abs(prev_itd)，则不对目标声道的信号进行压缩或者拉伸处理，根据参考声道信号人工重建abs(cur_itd)点信号，作为目标声道的第B+N点到B+N+abs(cur_itd)-1点信号，直接将当前帧的目标声道信号时延abs(cur_itd)个样点，作为时延对齐处理后当前帧的目标声道信号。其中，其中B表示当前帧的目标声道信号中起始点的坐标，N表示当前帧的帧长，abs()表示取绝对值操作。直接将当前帧的参考声道信号作为将当前帧时延对齐处理后的参考声道信号。

如果abs(cur_itd)小于abs(prev_itd)，则将缓存的目标声道信号中从第B+abs(prev_itd)-abs(cur_itd)到第B+L-1点的信号拉伸为长度L点的信号，作为拉伸处理后的目标声道的前L点信号，将目标声道信号中从第B+L点到第B+N-1点的信号直接作为拉伸处理后的目标声道的第B+L点到第B+N-1点信号，根据参考声道信号人工重建abs(cur_itd)点信号，作为拉伸处理后的目标声道的第B+N点到第B+N+abs(cur_itd)-1点信号。将拉伸处理后的目标声道信号中从第B+abs(cur_itd)点开始的N点信号，作为时延对齐处理后当前帧的目标声道信号。将当前帧的参考声道信号直接作为时延对齐处理后当前帧的参考声道信号。其中B表示当前帧的目标声道信号中起始点的坐标，N表示当前帧的帧长，L为时延对齐处理的处理长度。

如果abs(cur_itd)大于abs(prev_itd)，则将缓存的目标声道信号中从第B+abs(prev_itd)-abs(cur_itd)到第B+L-1点的信号压缩为长度L点的信号，作为压缩处理后的目标声道的前L点信号，将目标声道信号中从第B+L点到第B+N-1点的信号直接作为压缩处理后的目标声道的第B+L点到B+N-1点信号，根据参考声道信号人工重建abs(cur_itd)点信号，作为压缩处理后的目标声道的第B+N点到第B+N+abs(cur_itd)-1点信号。将压缩处理后的目标声道的从第B+abs(cur_itd)点开始的N点信号，作为时延对齐处理后当前帧的目标声道信号。将当前帧的参考声道信号直接作为时延对齐处理后当前帧的参考声道信号。其中B表示当前帧的目标声道信号中起始点的坐标，N表示当前帧的帧长，L为时延对齐处理的处理长度。

为了增加帧与帧之间的平滑，这里可以设置一个过渡段，过渡段长度为ts。第一过渡段长度可以设置为预设的正整数，预设的正整数可以是相关技术人员凭经验设定的。例如，第一过渡段长度也可以是根据当前帧的声道间时间差计算得到的，例如，ts＝abs(cur_itd)/2。同样，为了增加真实信号与重建信号之间的平滑，也可以设置一个平滑过渡段，平滑过渡段长度为Ts2。平滑过渡段长度可以设置为预设的正整数，例如将Ts2设置为10。则第三步根据估计出的当前帧的声道间时间差和前一帧声道间时间差对选择的目标声道的信号进行时延对齐处理，可以变为：

如果abs(cur_itd)小于abs(prev_itd)，则将缓存的目标声道信号中从第B-ts+abs(prev_itd)-abs(cur_itd)到第B+L-ts-1点的信号拉伸为长度L的信号，作为拉伸处理后的目标声道的第B-ts点到第B+L-ts-1点信号；将目标声道信号中从第B+L-ts点到第B+N-Ts2-1点的信号直接作为拉伸处理后的目标声道的第B+L-ts点到第B+N-Ts2-1点信号；根据参考声道信号以及目标声道信号产生Ts2点信号，作为拉伸处理后的目标声道的第B+N-Ts2点到第B+N-1点信号；根据参考声道信号人工重建abs(cur_itd)点信号，作为拉伸处理后的目标声道的第B+N点到第B+N+abs(cur_itd)-1点信号。将拉伸处理后的目标声道从第B+abs(cur_itd)点开始的N点信号，作为时延对齐处理后当前帧的目标声道信号。将当前帧的参考声道信号直接作为时延对齐处理后当前帧的参考声道信号。其中B表示当前帧的目标声道信号中起始点的坐标，N表示当前帧的帧长，L为时延对齐处理的处理长度。

如果abs(cur_itd)大于abs(prev_itd)，则将缓存的目标声道信号中从第B-ts+abs(prev_itd)-abs(cur_itd)到第B+L-ts-1点的信号压缩为长度L点的信号，作为压缩处理后的目标声道的第B-ts点到第B+L-ts-1点信号；将目标声道信号中从第B+L-ts点到第B+N-Ts2-1点的信号直接作为压缩处理后的目标声道的第B+L-ts点到第B+N-Ts2-1点信号；根据参考声道信号以及目标声道信号产生Ts2点信号，作为压缩处理后的目标声道的第B+N-Ts2点到第B+N-1点信号；根据参考声道信号人工重建abs(cur_itd)点信号，作为压缩处理后的目标声道的第B+N点到第B+N+abs(cur_itd)-1点信号。将压缩处理后的目标声道的从第B+abs(cur_itd)点开始的N点信号，作为时延对齐处理后当前帧的目标声道信号。将当前帧的参考声道信号直接作为时延对齐处理后当前帧的参考声道信号。其中B表示当前帧的目标声道信号中起始点的坐标，N表示当前帧的帧长，L为时延对齐处理的处理长度。

其中，根据参考声道信号以及目标声道信号产生Ts2点信号，作为压缩或者拉伸处理后的目标声道的第B+N-Ts2点到B+N-1点信号，具体地可以是：根据目标声道中从第B+N-Ts2点到B+N-1点的信号以及参考声道中从第B+N-abs(cur_itd)-Ts2点到B+N-abs(cur_itd)-1点的信号产生Ts2点信号，作为压缩或者拉伸处理后的目标声道的第B+N-Ts2点到B+N-1点信号。根据参考声道信号人工重建abs(cur_itd)点信号，作为压缩或者拉伸处理后的目标声道的第B+N点到B+N+abs(cur_itd)-1点信号，具体地可以是：根据参考声道中从第B+N-abs(cur_itd)点到B+N-1点的信号产生abs(cur_itd)点信号，作为压缩或者拉伸处理后的目标声道的第B+N点到B+N+abs(cur_itd)-1点信号。

当前帧时延对齐处理后的左声道信号记作x′_L(n)，当前帧时延对齐处理后的右声道信号记作x′_R(n)，其中n为样点序号，n＝0，1，…，N-1。根据当前帧的声道间时间差的符号，有可能是时延对齐处理后的目标声道信号为当前帧时延对齐处理后的左声道信号记作x′_L(n)，也可能是时延对齐处理后的目标声道信号为当前帧时延对齐处理后的右声道信号记作x′_R(n)。同样，有可能是时延对齐处理后的参考声道信号为当前帧时延对齐处理后的左声道信号记作x′_L(n)，也可能是时延对齐处理后的参考声道信号为当前帧时延对齐处理后的右声道信号记作x′_R(n)。

最终获得的时延对齐处理后的信号用于时域下混处理，从而获得时域下混处理后的主要声道信号和次要声道信号，分别对主要声道信号和次要声道信号进行编码，从而实现对输入的立体声信号进行编码的目的。

本申请实施例还可以适用于解码过程，解码过程可以视为编码过程的逆过程，下面详细描述。

如图8所示，为本申请实施例提供的一种立体声信号处理方法，包括：

步骤801：根据接收到的码流确定当前帧的声道间时间差；所述当前帧的声道间时间差为所述当前帧的第一声道信号与所述当前帧的第二声道信号之间的时间差。

步骤801中，还可以根据接收到的码流解码得到当前帧的第一声道信号和当前帧的第二声道信号。

本申请实施例对解码得到当前帧的第一声道信号和当前帧的第二声道信号的方法不作限定，只要与编码端对时延对齐处理后的第一声道信号和时延对齐处理后的第二声道信号进行编码的编码方法相对应即可。解码得到的当前帧的第一声道信号，即时延恢复处理前的第一声道信号，对应与编码段经过编码后的时延对齐处理后的第一声道信号；解码得到的当前帧的第二声道信号，即时延恢复处理前的第二声道信号，对应与编码段经过编码后的时延对齐处理后的第二声道信号。

步骤801中，解码当前帧的声道间时间差的方法要与编码端编码的方法相对应：例如，若编码端是将当前帧的声道间时间差的绝对值的编码索引和参考声道索引写入码流，传输给解码端，则解码端根据接收到的码流，解码得到当前帧的声道间时间差的绝对值以及参考声道索引。

也可以是，若编码端是将当前帧的声道间时间差的绝对值的编码索引和目标声道索引写入码流，传输给解码端，则解码端根据接收到的码流，解码得到当前帧的声道间时间差的绝对值以及目标声道索引。

还可以是，若编码端是将当前帧的声道间时间差的编码索引写入码流传输给解码端，则解码端根据接收到的码流，解码得到当前帧的声道间时间差。

前一帧的声道间时间差的确定方式可以参考此处的描述，在此不再赘述。

步骤802：若所述当前帧的声道间时间差的符号与所述当前帧的前一帧的声道间时间差的符号不同，则根据所述当前帧的声道间时间差对所述当前帧的第一声道信号进行时延恢复处理、根据所述前一帧的声道间时间差对所述当前帧的第二声道信号进行时延恢复处理；所述第一声道信号为所述当前帧的目标声道信号，所述第二声道信号与所述前一帧的目标声道信号处于相同声道。

步骤802中，符号可以是指正号(+)或负号(-)。本申请实施例中，前一帧位于当前帧之前，且与当前帧相邻。以下为了描述方便，将当前帧的第一声道信号对应的声道称为第一声道，将当前帧的第二声道信号对应的声道称为第二声道。需要说明的是，第一声道为当前帧的目标声道，还可以称为下一帧目标声道，也可以称作当前帧的指示目标声道，或者称为当前帧的前一帧目标声道之外的另一个声道。相应的，第二声道为当前帧的参考声道，第二声道为立体声信号的两个声道中与前一帧的目标声道相同的声道，还可以称为前一帧目标声道，也可以称作当前帧的指示参考声道，或者称为当前帧的目标声道之外的另一个声道。例如，前一帧的目标声道为左声道，则第一声道信号为当前帧中的右声道信号，第二声道信号为当前帧中的左声道信号；前一帧的目标声道为右声道，则第一声道信号为当前帧中的左声道信号，第二声道信号为当前帧中的右声道信号。

步骤802中，如果解码端根据接收到的码流，解码得到当前帧的声道间时间差，则可以直接判断当前帧的声道间时间差的符号与前一帧声道间时间差的符号是否相同。

如果解码端根据接收到的码流，解码得到当前帧的声道间时间差的绝对值和当前帧的参考声道，或者当前帧的声道间时间差的绝对值和目标声道索引，则需要根据当前帧的参考声道和前一帧的参考声道索引，或者根据当前帧的目标声道和前一帧的目标声道索引判断当前帧的声道间时间差的符号与前一帧声道间时间差的符号是否相同。

这里以解码得到当前帧的声道间时间差的绝对值以及参考声道索引为例，具体地：若当前帧的参考声道索引与前一帧的参考声道索引不相等，则确定当前帧的声道间时间差的符号与前一帧声道间时间差的符号不同；若当前帧的参考声道索引与前一帧的参考声道索引相等，则确定当前帧的声道间时间差的符号与前一帧声道间时间差的符号相同。其他情况可以参考此处的描述，在此不再赘述。

解码端的时延恢复处理与编码端的时延对齐处理是对应的，编码端若进行了压缩，则解码端就需要将压缩后的信号进行拉伸，同理，编码端若进行了拉伸，则解码端就需要将拉伸后的信号进行压缩。

本申请实施例中，在解码过程中，对第一声道信号以及第二声道信号进行时延恢复处理的方法有多种，下面分别描述。

一、根据当前帧的声道间时间差对当前帧的第一声道信号进行时延恢复处理

具体的，将所述当前帧的第一声道信号中第三处理长度的信号拉伸为第三对齐处理长度的信号，以获得时延恢复处理后的所述当前帧的第一声道信号。其中，所述第三处理长度为根据所述当前帧的声道间时间差和所述第三对齐处理长度确定的，所述第三处理长度小于所述第三对齐处理长度。

解码过程中，所述第三处理长度可以为所述第三对齐处理长度与所述当前帧的声道间时间差的绝对值之差，第三对齐处理长度可以为预先设定的长度，也可以根据其他方式确定，例如根据公式(8)确定。本申请实施例中，所述第三对齐处理长度小于或等于所述当前帧的帧长。第三对齐处理长度为预先设定的时，可以为L、L/2或者L/3或者是小于等于L的任意长度，其中，L为预设的小于或等于当前采样率下对应的帧长N的任意正整数，且大于声道间时间差绝对值的最大值的正整数，例如L＝290，L＝200等。在本申请实施例中，L可以针对不同的采样率设置不同的值，也可以采用统一的值。一般情况下，可以根据技术人员的经验预设一个值，例如采样率为16KHz时，L设置为290，此时第三对齐处理长度为L/2＝145。

本申请实施例中，所述第三处理长度的信号的起始点位于所述第三对齐处理长度的信号的起始点之后、且所述第三处理长度的信号的起始点与第三对齐处理长度的信号的起始点之间的长度为当前帧的声道间时间差的绝对值。

本申请实施例中，第三对齐处理长度可以用L2_next_target表示，第四对齐处理长度可以用L2_pre_target表示。需要说明的是，编码端的第一对齐处理长度，与其对应的解码端的第三对齐处理长度实际上是相等的，相应的，编码端的第二对齐处理长度，与其对应的解码端的第四对齐处理长度实际上是相等的，为了描述方便，在此用不同的标记表示。当前帧的声道间时间差为cur_itd，abs(cur_itd)表示当前帧的声道间时间差的绝对值，为了描述方便，以下部分描述中，将abs(cur_itd)称为第一时延长度。前一帧的声道间时间差为prev_itd，abs(prev_itd)表示前一帧的声道间时间差的绝对值，为了描述方便，以下部分描述中，将abs(prev_itd)称为第二时延长度。

解码过程中，第三处理长度的信号的具体位置，可以根据不同实际情况确定，下面分别描述：

第一种可能的情况：

如图9所示，为本申请实施例提供的一种立体声信号处理示意图。图9中为描述方便，将时延恢复处理前第一声道信号中与拉伸处理后第一声道信号中位置相同的点，采用相同的坐标进行标记，但不代表坐标相同的点的信号是相同的。

图9中，当前帧的帧长为N，当前帧的第一声道信号的起始点B3＝0，当前帧的第一声道信号的结束点E3＝N-1。第三处理长度的信号的起始点位于当前帧的第一声道信号的起始点B3，第三处理长度的信号的结束点C3＝B3-abs(cur_itd)+L2next_target-1。

图9中，第三对齐处理长度的起始点A3＝B3-abs(cur_itd)，第三对齐处理长度的信号的结束点为C3，与第三处理长度的信号的结束点的坐标相同。

在时延恢复处理过程中，结合图9，将当前帧的第一声道信号中从B3点到C3点的信号拉伸为第三对齐处理长度的信号，拉伸后获得的第三对齐处理长度的信号作为拉伸处理后的第一声道信号中从第三对齐处理长度的起始点A3开始的第三对齐处理长度的信号，即作为拉伸处理后的第一声道信号中从第三对齐处理长度的起始点A3到C3点的信号。

本申请实施例中，在对信号拉伸的同时，可以将当前帧的第一声道信号中从C3+1点开始至E3点的信号，直接作为拉伸处理后的第一声道信号中从C3+1点开始至E3点的信号。

最后，将拉伸处理后的第一声道信号中，从起始点A3点开始的N个样点作为时延恢复处理后当前帧的第一声道信号，即时延恢复处理后当前帧的第一声道信号的起始点为A3点，结束点为G3点，G3＝E3-abs(cur_itd)。

一般情况下，第三处理长度的信号的起始点还可以位于第一声道信号的起始点之后，但要保证第三处理长度的信号的起始点位于第一声道信号的起始点之后时，所述第三处理长度的信号的起始点与当前帧的第一声道信号的结束点之间的长度大于或等于所述第三对齐处理长度与当前帧的声道间时间差的绝对值之差，下面详细描述。

第二种可能的情况：

如图10所示，为本申请实施例提供的一种立体声信号处理示意图。图10中为描述方便，将时延恢复处理前第一声道信号中与拉伸处理后第一声道信号中位置相同的点，采用相同的坐标进行标记，但不代表坐标相同的点的信号是相同的。

图10中，当前帧的帧长为N，当前帧的第一声道信号的起始点B3＝0，当前帧的第一声道信号的结束点E3＝N-1。

图10中，第三处理长度的起始点为D3，第三处理长度的信号的结束点C3＝D3-abs(cur_itd)+L2_next_target-1，A3为第三对齐处理长度的信号的起始点A3＝D3-abs(cur_itd)，第三对齐处理长度的信号的结束点与第三处理长度的信号的结束点C3坐标相同，C3＝A3+L2_next_target-1＝D3-abs(cur_itd)+L2_next_target-1。第三处理长度的信号的起始点D3位于当前帧的第一声道信号的起始点B3之后，且所述第三处理长度的信号的起始点与当前帧的第一声道信号的结束点之间的长度大于或等于所述第三对齐处理长度与当前帧的声道间时间差的绝对值之差。第三处理长度的信号的起始点D3与当前帧的第一声道信号的起始点B3之间的长度为第三预设长度，第三预设长度可以根据实际情况确定，第三预设长度大于0且小于或等于当前帧的帧长与第三处理长度的差值。图10中，以第三预设长度大于当前帧的声道间时间差的绝对值为例进行说明，第三预设长度为其他情况时可以参考此处的描述。

图10中，第三处理长度的信号的起始点D3点与当前帧的第一声道信号的起始点B3点之间的长度为第三预设长度，第三对齐处理长度的信号的起始点为A3点，A3＝A3＝D3-abs(cur_itd)，H3点位于当前帧的第一声道信号的起始点B3之前，H3点与A3点之间的长度为第三预设长度，H3点与B3之间的长度为当前帧的声道间时间差的绝对值，即H3＝B3-abs(cur_itd)。

需要说明的是，A3点可以在当前帧的第一声道信号的起始点B3之前，且与当前帧的第一声道信号的起始点B3之间的长度小于或等于当前帧的声道间时间差的绝对值；A3点可以位于当前帧的第一声道信号的起始点B3；A3点还可以在当前帧的第一声道信号的起始点B3之后，且与当前帧的第一声道信号的起始点B3之间的长度小于或等于当前帧的帧长与第三对齐处理长度的差值，A3点在上述位置时可以参考此处的描述，在此不再赘述。

在时延恢复处理过程中，可以将当前帧的第一声道信号中从起始点B3开始的第三预设长度的信号，作为第三对齐处理长度的起始点A3之前的第三预设长度的信号。结合图10，将当前帧的第一声道信号中从B3点至D3-1点的信号作为时延恢复处理后的第一声道信号中从H3至A3-1点的信号。

然后，可以将当前帧的第一声道信号中从起始点开始的第三处理长度的信号拉伸为第三对齐处理长度的信号，并将拉伸获得的第三对齐处理长度的信号作为拉伸处理后的第一声道信号中以第三对齐处理长度的起始点开始的第三对齐处理长度的信号。结合图10，将当前帧的第一声道信号中从起始点D3至C3点的信号拉伸为第三对齐处理长度的信号，作为拉伸处理后的第一声道信号中从A3点至C3点的信号。

然后，将当前帧的第一声道信号中从C3+1点至E3点的信号，作为拉伸处理后的第一声道信号中从C3+1点至E3点的信号。

最后，将拉伸处理后的第一声道信号中从起始点H3开始的N点信号，作为时延恢复处理后当前帧的第一声道信号，时延恢复处理后当前帧的第一声道信号的起始点为H3点，结束点为G3点，G3＝E3-abs(cur_itd)。

二、根据前一帧的声道间时间差对当前帧的第二声道信号进行时延恢复处理

具体的，将所述当前帧的第二声道信号中第四处理长度的信号压缩为第四对齐处理长度的信号，以获得时延恢复处理后的所述当前帧的第二声道信号；其中所述第四处理长度为根据所述前一帧的声道间时间差和所述第四对齐处理长度确定的，所述第四处理长度大于所述第四对齐处理长度。

本申请实施例中，所述第四处理长度可以为所述前一帧的声道间时间差的绝对值与所述第四对齐处理长度之和。同时，所述第四处理长度的信号的起始点位于所述第四对齐处理长度的信号的起始点之前、且所述第四处理长度的信号的起始点与第四对齐处理长度的信号的起始点之间的长度为前一帧的声道间时间差的绝对值。

需要说明的是，第四对齐处理长度可以为预先设定的长度，也可以根据其他方式确定，例如根据公式(9)确定。本申请实施例中，所述第四对齐处理长度小于或等于所述当前帧的帧长，第四对齐处理长度为预先设定的时，可以为L、L/2或者L/3或者是小于等于L的任意长度。

本申请实施例中，所述第四对齐处理长度的信号的起始点可以位于当前帧的第二声道信号的起始点，也可以位于当前帧的第二声道信号的起始点之后，但不论哪种情况，所述第四对齐处理长度的信号的起始点与所述当前帧的第二声道信号的结束点之间的长度大于或等于所述第四对齐处理长度，下面分别描述。

第一种可能的情况：

如图11所示，为本申请实施例提供的一种立体声信号处理示意图。图11中为描述方便，将时延恢复处理前第二声道信号中与压缩处理后第二声道信号中位置相同的点，采用相同的坐标进行标记，但不代表坐标相同的点的信号是相同的。

图11中，当前帧的帧长为N，当前帧的第二声道信号的起始点B4＝0，当前帧的第二声道信号的结束点E4＝N-1。

第四对齐处理长度的信号的起始点位于当前帧的第二声道信号的起始点B4，第四对齐处理长度的信号的结束点为C4＝B4+L2_pre_target-1。第四处理长度的信号的起始点为A4＝B4-abs(prev_itd)，第四处理长度的信号的结束点为C4，与第四对齐处理长度的信号的起始点的坐标相同。

在时延恢复处理过程中，可以将以第四处理长度的信号的起始点为起点的第四处理长度的信号压缩为第四对齐处理长度的信号，将压缩获得的第四对齐处理长度的信号作为压缩处理后的第二声道信号中以B4点为起点的第四对齐处理长度的信号。结合图11，将A4点至C4点的信号压缩为第四对齐处理长度的信号，并将压缩获得的第四对齐处理长度的信号作为压缩处理后第二声道信号中从B4点至C4点的信号。

然后，将当前帧的第二声道信号中从C4+1点至E4点的信号，作为压缩处理后第二声道信号中从C4+1点至E4点的信号。

最后，将压缩处理后的第二声道信号中从起始点B4开始的N点信号，作为时延恢复处理后当前帧的第二声道信号，即时延对齐处理后当前帧的第二声道信号的起始点为B4点，结束点为E4点。

第二种可能的情况：

如图12所示，为本申请实施例提供的一种立体声信号处理示意图。图12中为描述方便，将时延恢复处理前当前帧的第二声道信号中与压缩处理后当前帧的第二声道信号中位置相同的点，采用相同的坐标进行标记，但不代表坐标相同的点的信号是相同的。

图12中，当前帧的帧长为N，当前帧的第一声道信号的起始点B4＝0，当前帧的第一声道信号的结束点E4＝N-1。

第四对齐处理长度的信号的起始点为D4，第四对齐处理长度的信号的结束点为C4＝D4+L2_pre_target-1。所述第四对齐处理长度的信号的起始点D4位于当前帧的第二声道信号的起始点B4之后，且所述第四对齐处理长度的信号的起始点D4与所述当前帧的第二声道信号的结束点E4之间的长度大于等于所述第四对齐处理长度。

为描述方便，将第四对齐处理长度的信号的起始点D4与当前帧的第二声道信号的起始点B4之间的长度为第四预设长度，第四预设长度大于0且小于或等于当前帧的帧长与第四对齐处理长度的差值。

第四处理长度的信号的起始点A4＝D4-abs(prev_itd)，第四处理长度的信号的结束点为C4，与第四对齐处理长度的信号的起始点的坐标相同。

图12中，H4点与A4点之间的长度为第四预设长度，与B4点之间的长度为前一帧的声道间时间差的绝对值，即H4＝B4-abs(prev_itd)。

在时延恢复处理过程中，可以将当前帧的第二声道信号中第四处理长度的信号的起始点之前的第四预设长度的信号，直接作为压缩处理后的第二声道信号中以B4点开始的第四预设长度的信号。结合图12，将H4点至A4-1点的信号，作为压缩处理后的第二声道信号中从B4点至D4-1点的信号。

然后，可以将当前帧的第二声道信号中，以第四处理长度的信号的起始点为起点的第四处理长度的信号压缩为第四对齐处理长度的信号，将压缩获得的第四对齐处理长度的信号作为压缩处理后的第二声道信号中，以第四对齐处理长度的信号的起始点为起点的第四对齐处理长度的信号。结合图12，将当前帧的第二声道信号中A4点至C4点的信号压缩为第四对齐处理长度的信号，并将压缩获得的第四对齐处理长度的信号作为压缩处理后的第二声道信号中从D4点至C4点的信号。

然后，将当前帧的第二声道信号中未被压缩的信号保持不变，即将当前帧的第二声道信号中从C4+1点至E4点的信号，作为压缩处理后的第二声道信号中从C4+1点至E4点的信号。

最后，将压缩处理后的第二声道信号中从起始点B4开始的N点信号，作为时延恢复处理后当前帧的第二声道信号。

下面通过一个具体的实施例描述。

步骤一：根据接收到的码流确定当前帧的声道间时间差。

该步骤的具体内容可以参考步骤801，在此不再赘述。

步骤二：若所述当前帧的声道间时间差的符号与前一帧的声道间时间差的符号不同，则根据所述当前帧的声道间时间差对当前帧的第一声道信号进行时延恢复处理。

步骤三：若所述当前帧的声道间时间差的符号与前一帧的声道间时间差的符号不同，根据所述前一帧的声道间时间差对当前帧的第二声道信号进行时延恢复处理。

步骤二以及步骤三中，所述第四对齐处理长度的信号的起始点与当前帧的第二声道信号的起始点之间的长度等于第四预设长度；所述第三对齐处理长度的信号的起始点与当前帧的第一声道信号的起始点之间的长度等于第四预设长度与第四对齐处理长度之和。同时，第三对齐处理长度满足公式(8)、第四对齐处理长度满足公式(9)。此时对第三处理长度的信号进行拉伸以及对第四处理长度的信号进行压缩可以参考如图13所示。图13中，是以第四对齐处理长度的起始点位于当前帧的第一声道信号的起始点为例进行说明，第四对齐处理长度的起始点在其他位置时可以参考第四对齐处理长度的起始点位于当前帧的第二声道信号的起始点B4之后对第二声道信号进行时延恢复处理的描述及此处对第一声道信号进行时延恢复处理的描述，在此不再赘述。

图13中，当前帧的帧长为N，当前帧的第二声道信号的起始点为B4＝0，当前帧的第二声道信号的结束点为E4＝N-1；第四对齐处理长度的信号的起始点位于当前帧的第二声道信号的起始点B4，第四对齐处理长度的信号的结束点为C4＝B4+L2_pre_target-1，第四处理长度的信号的起始点为A4＝B4-abs(prev_itd)，第四处理长度的信号的结束点C4＝B4+L2_pre_target-1。

当前帧的第一声道信号的起始点为B3＝0，当前帧的第一声道信号的结束点为E3＝N-1；第三处理长度的信号的起始点为D3＝B4+L2_pre_target，D3＝C4+1，第三处理长度的信号的结束点C3＝A3+L2_next_target-1，第三对齐处理长度的信号的起始点为A3＝D3-abs(cur_itd)，第三对齐处理长度的信号的结束点为C3＝A3+L_next_target-1，。

在时延恢复处理过程中，针对第一声道信号，将当前帧的第一声道信号中从B3点至D3-1点的信号直接作为拉伸处理后的第一声道信号中从H3至A3-1点的信号，H3＝A3-L2_pre_target。

然后，将当前帧的第一声道信号中从起始点D3至C3点的信号拉伸为第三对齐处理长度的信号，拉伸获得的第三对齐处理长度的信号作为拉伸处理后的第一声道信号中从A3点至C3点的信号。

最后，将拉伸处理后的第一声道信号中从起始点A3开始的N点信号，作为时延恢复处理后当前帧的第一声道信号，时延恢复处理后当前帧的第一声道信号的起始点为A3点，结束点为G3点，G3＝E3-abs(cur_itd)。

在时延恢复处理过程中，针对第二声道信号，将A4点至C4点的信号压缩为第四对齐处理长度的信号，并将压缩获得的第四对齐处理长度的信号作为压缩处理后第二声道信号中从B4点至C4点的信号。

需要说明的是，本申请实施例中，对信号的拉伸或压缩的方法，并不限定，具体可以参考步骤101至步骤102中的描述，在此不再赘述。

本申请实施例中，帧与帧存在过渡段长度时，也可以参考前面的描述，在此不再赘述。

基于相同的技术构思，本申请实施例还提供一种立体声信号处理装置，该立体声信号处理装置可执行图1所述的方法流程。

如图14所示，本申请实施例提供一种立体声信号处理装置结构示意图。

参见图14，该立体声信号处理装置1400包括：

时延估计单元1401，用于根据当前帧的立体声信号进行时延估计，确定当前帧的声道间时间差；

处理单元1402，用于若确定所述当前帧的声道间时间差的符号与前一帧的声道间时间差的符号不同，则根据所述当前帧的声道间时间差对当前帧的第一声道信号进行时延对齐处理、根据所述前一帧的声道间时间差对当前帧的第二声道信号进行时延对齐处理；所述第一声道信号为当前帧的目标声道信号，所述第二声道信号为所述当前帧的立体声信号中与前一帧的目标声道处于相同声道的信号。

可选的，所述处理单元1402具体用于：

所述第一处理长度为根据所述当前帧的声道间时间差和所述第一对齐处理长度确定的，所述第一处理长度大于所述第一对齐处理长度。

可选的，所述第一对齐处理长度的信号的起始点位于当前帧的第一声道信号的起始点之前，且与当前帧的第一声道信号的起始点之间的长度小于或等于过渡长度，且所述第一对齐处理长度的信号的起始点与所述当前帧的第一声道信号的结束点之间的长度大于或等于所述第一对齐处理长度与所述过渡长度之和，所述过渡长度小于或等于当前帧的声道间时间差的绝对值的最大值。

可选的，所述处理单元1402具体用于：

所述第二处理长度为根据所述前一帧的声道间时间差和所述第二对齐处理长度确定的，所述第二处理长度小于所述第二对齐处理长度。

如图15所示，本申请实施例提供一种立体声信号处理装置结构示意图。

参见图15，该立体声信号处理装置1500包括：处理器1501、存储器1502。

存储器1502存储了可执行指令，所述可执行指令用于指示所述处理器1501执行如下步骤：

可选的，所述可执行指令用于指示所述处理器1501在根据所述当前帧的声道间时间差对所述当前帧的第一声道信号进行时延对齐处理时执行如下步骤：

可选的，所述可执行指令用于指示所述处理器1501在根据所述前一帧的声道间时间差对所述当前帧的第二声道信号进行时延对齐处理时执行如下步骤：

基于相同的技术构思，本申请实施例还提供一种立体声信号处理装置，该立体声信号处理装置可执行图8所述的方法流程。

如图16所示，本申请实施例提供一种立体声信号处理装置结构示意图。

参见图16，该立体声信号处理装置1600包括：

收发单元1601，用于根据接收到的码流确定当前帧的声道间时间差；

处理单元1602，用于若所述当前帧的声道间时间差的符号与前一帧的声道间时间差的符号不同，则根据所述当前帧的声道间时间差对当前帧的第一声道信号进行时延恢复处理、根据所述前一帧的声道间时间差对当前帧的第二声道信号进行时延恢复处理；所述第一声道信号为当前帧的目标声道信号，所述第二声道信号为所述当前帧的立体声信号中与前一帧的目标声道处于相同声道的信号。

可选的，所述处理单元1602具体用于：

所述第三处理长度为根据所述当前帧的声道间时间差和所述第三对齐处理长度确定的，所述第三处理长度小于所述第三对齐处理长度。

可选的，所述处理单元1602具体用于：

所述第四处理长度为根据所述前一帧的声道间时间差和所述第四对齐处理长度确定的，所述第四处理长度大于所述第四对齐处理长度。

可选的，所述第三对齐处理长度小于或等于所述当前帧的帧长，所述第三对齐处理长度为预先设定的长度；或者，所述第三对齐处理长度满足以下公式：

其中，L2_next_target为所述第三对齐处理长度，cur_itd为所述当前帧的声道间时间差，prev_itd为所述前一帧的声道间时间差，L为时延对齐处理的处理长度。

可选的，所述第四对齐处理长度小于或等于所述当前帧的帧长，所述第四对齐处理长度为预先设定的长度；或者，所述第四对齐处理长度满足以下公式：

如图17所示，本申请实施例提供一种立体声信号处理装置结构示意图。

参见图17，该立体声信号处理装置1700包括：处理器1701、存储器1702。

存储器1702存储了可执行指令，所述可执行指令用于指示所述处理器1701执行如下步骤：

可选的，所述可执行指令用于指示所述处理器1701在根据所述当前帧的声道间时间差对所述当前帧的第一声道信号进行时延恢复处理时执行如下步骤：

可选的，所述可执行指令用于指示所述处理器1701在根据所述前一帧的声道间时间差对所述当前帧的第二声道信号进行时延恢复处理时执行如下步骤：

本申请实施例还提供了一种计算机可读存储介质，用于存储为执行上述处理器所需执行的计算机软件指令，其包含用于执行上述处理器所需执行的程序。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的范围。这样，倘若本申请的这些修改和变型属于本申请权利要求的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种立体声信号处理方法，其特征在于，所述方法包括：

对当前帧的立体声信号进行时延估计，确定所述当前帧的声道间时间差；所述当前帧的声道间时间差为所述当前帧的第一声道信号与所述当前帧的第二声道信号之间的时间差；所述立体声信号为经过模数转换后的脉冲编码调制信号；

2.根据权利要求1所述的方法，其特征在于，根据所述当前帧的声道间时间差对所述当前帧的第一声道信号进行时延对齐处理，包括：

3.根据权利要求2所述的方法，其特征在于，所述第一处理长度为所述当前帧的声道间时间差的绝对值与所述第一对齐处理长度之和。

4.根据权利要求3所述的方法，其特征在于，所述第一处理长度的信号的起始点位于所述第一对齐处理长度的信号的起始点之前、且所述第一处理长度的信号的起始点与第一对齐处理长度的信号的起始点之间的长度为当前帧的声道间时间差的绝对值。

5.根据权利要求3所述的方法，其特征在于，所述第一对齐处理长度的信号的起始点位于当前帧的第一声道信号的起始点或位于当前帧的第一声道信号的起始点之后，且所述第一对齐处理长度的信号的起始点与所述当前帧的第一声道信号结束点之间的长度大于或等于所述第一对齐处理长度。

6.根据权利要求3所述的方法，其特征在于，所述第一对齐处理长度的信号的起始点位于当前帧的第一声道信号的起始点之前，且与当前帧的第一声道信号的起始点之间的长度小于或等于过渡长度，且所述第一对齐处理长度的信号的起始点与所述当前帧的第一声道信号的结束点之间的长度大于或等于所述第一对齐处理长度与所述过渡长度之和，其中，所述过渡长度小于或等于当前帧的声道间时间差的绝对值的最大值。

7.根据权利要求2至6任一所述的方法，其特征在于，根据所述前一帧的声道间时间差对所述当前帧的第二声道信号进行时延对齐处理，包括：

8.根据权利要求7所述的方法，其特征在于，所述第二处理长度为所述第二对齐处理长度与所述前一帧的声道间时间差的绝对值之差。

9.根据权利要求8所述的方法，其特征在于，所述第二处理长度的信号的起始点位于所述第二对齐处理长度的信号的起始点之后、且所述第二处理长度的信号的起始点与第二对齐处理长度的信号的起始点之间的长度为前一帧的声道间时间差的绝对值。

10.根据权利要求8所述的方法，其特征在于，所述第二对齐处理长度的信号的起始点位于当前帧的第二声道信号的起始点或位于当前帧的第二声道信号的起始点之后，且所述第二对齐处理长度的信号的起始点与所述当前帧的第二声道信号的结束点之间的长度大于或等于所述第二对齐处理长度。

11.根据权利要求7所述的方法，其特征在于，所述第二对齐处理长度的信号的起始点与当前帧的第二声道信号的起始点之间的长度等于第二预设长度；所述第一对齐处理长度的信号的起始点与当前帧的第一声道信号的起始点之间的长度等于第二预设长度与第二对齐处理长度之和。

12.根据权利要求2至6任一所述的方法，其特征在于，所述第一对齐处理长度小于或等于所述当前帧的帧长，所述第一对齐处理长度为预先设定的长度，或者，所述第一对齐处理长度满足以下公式：

13.根据权利要求8至11任一所述的方法，其特征在于，所述第二对齐处理长度小于或等于所述当前帧的帧长，所述第二对齐处理长度为预先设定的长度，或者，所述第二对齐处理长度满足以下公式：

14.根据权利要求12所述的方法，其特征在于，所述时延对齐处理的处理长度小于或等于所述当前帧的帧长，所述时延对齐处理的处理长度为预先设定的长度；或者，所述时延对齐处理的处理长度满足以下公式：

15.一种立体声信号处理方法，其特征在于，所述方法包括：

根据接收到的码流确定当前帧的声道间时间差；所述当前帧的声道间时间差为所述当前帧的第一声道信号与所述当前帧的第二声道信号之间的时间差；所述第一声道信号与所述第二声道信号为经过模数转换后的脉冲编码调制信号；

16.根据权利要求15所述的方法，其特征在于，所述根据所述当前帧的声道间时间差对所述当前帧的第一声道信号进行时延恢复处理，包括：

17.根据权利要求16所述的方法，其特征在于，所述第三处理长度为所述第三对齐处理长度与所述当前帧的声道间时间差的绝对值之差。

18.根据权利要求17所述的方法，其特征在于，所述第三处理长度的信号的起始点位于所述第三对齐处理长度的信号的起始点之后、且所述第三处理长度的信号的起始点与第三对齐处理长度的信号的起始点之间的长度为当前帧的声道间时间差的绝对值。

19.根据权利要求18所述的方法，其特征在于，所述第三处理长度的信号的起始点位于所述当前帧的第一声道信号的起始点或位于当前帧的第一声道信号的起始点之后，且所述第三处理长度的信号的起始点与当前帧的第一声道信号的结束点之间的长度大于或等于所述第三对齐处理长度与当前帧的声道间时间差的绝对值之差。

20.根据权利要求16所述的方法，其特征在于，所述根据所述前一帧的声道间时间差对所述当前帧的第二声道信号进行时延恢复处理，包括：

21.根据权利要求20所述的方法，其特征在于，所述第四处理长度为所述前一帧的声道间时间差的绝对值与所述第四对齐处理长度之和。

22.根据权利要求21所述的方法，其特征在于，所述第四处理长度的信号的起始点位于所述第四对齐处理长度的信号的起始点之前、且所述第四处理长度的信号的起始点与第四对齐处理长度的信号的起始点之间的长度为前一帧的声道间时间差的绝对值。

23.根据权利要求22所述的方法，其特征在于，所述第四对齐处理长度的信号的起始点位于当前帧的第二声道信号的起始点或位于当前帧的第二声道信号的起始点之后，且所述第四对齐处理长度的信号的起始点与所述当前帧的第二声道信号的结束点之间的长度大于等于所述第四对齐处理长度。

24.根据权利要求20至23任一所述的方法，其特征在于，所述第四对齐处理长度的信号的起始点与当前帧的第二声道信号的起始点之间的长度等于第四预设长度；所述第三对齐处理长度的信号的起始点与当前帧的第一声道信号的起始点之间的长度等于第四预设长度与第四对齐处理长度之和。

25.一种立体声信号处理装置，其特征在于，所述装置包括处理器和存储器，所述存储器存储了可执行指令，所述可执行指令用于指示所述处理器执行如下步骤：

26.根据权利要求25所述的装置，其特征在于，所述可执行指令用于指示所述处理器在根据所述当前帧的声道间时间差对所述当前帧的第一声道信号进行时延对齐处理时执行如下步骤：

27.根据权利要求26所述的装置，其特征在于，所述第一处理长度为所述当前帧的声道间时间差的绝对值与所述第一对齐处理长度之和。

28.根据权利要求27所述的装置，其特征在于，所述第一处理长度的信号的起始点位于所述第一对齐处理长度的信号的起始点之前、且所述第一处理长度的信号的起始点与第一对齐处理长度的信号的起始点之间的长度为当前帧的声道间时间差的绝对值。

29.根据权利要求27所述的装置，其特征在于，所述第一对齐处理长度的信号的起始点位于当前帧的第一声道信号的起始点或位于当前帧的第一声道信号的起始点之后，且所述第一对齐处理长度的信号的起始点与所述当前帧的第一声道信号结束点之间的长度大于或等于所述第一对齐处理长度。

30.根据权利要求27所述的装置，其特征在于，所述第一对齐处理长度的信号的起始点位于当前帧的第一声道信号的起始点之前，且与当前帧的第一声道信号的起始点之间的长度小于或等于过渡长度，且所述第一对齐处理长度的信号的起始点与所述当前帧的第一声道信号的结束点之间的长度大于或等于所述第一对齐处理长度与所述过渡长度之和，其中，所述过渡长度小于或等于当前帧的声道间时间差的绝对值的最大值。

31.根据权利要求26至30任一所述的装置，其特征在于，所述可执行指令用于指示所述处理器在根据所述前一帧的声道间时间差对所述当前帧的第二声道信号进行时延对齐处理时执行如下步骤：

32.根据权利要求31所述的装置，其特征在于，所述第二处理长度为所述第二对齐处理长度与所述前一帧的声道间时间差的绝对值之差。

33.根据权利要求32所述的装置，其特征在于，所述第二处理长度的信号的起始点位于所述第二对齐处理长度的信号的起始点之后、且所述第二处理长度的信号的起始点与第二对齐处理长度的信号的起始点之间的长度为前一帧的声道间时间差的绝对值。

34.一种立体声信号处理装置，其特征在于，所述装置包括：处理器和存储器，所述存储器存储了可执行指令，所述可执行指令用于指示所述处理器执行如下步骤：

35.根据权利要求34所述的装置，其特征在于，所述可执行指令用于指示所述处理器在根据所述当前帧的声道间时间差对所述当前帧的第一声道信号进行时延恢复处理时执行如下步骤：

36.根据权利要求35所述的装置，其特征在于，所述第三处理长度为所述第三对齐处理长度与所述当前帧的声道间时间差的绝对值之差。

37.根据权利要求36所述的装置，其特征在于，所述第三处理长度的信号的起始点位于所述第三对齐处理长度的信号的起始点之后、且所述第三处理长度的信号的起始点与第三对齐处理长度的信号的起始点之间的长度为当前帧的声道间时间差的绝对值。

38.根据权利要求37所述的装置，其特征在于，所述第三处理长度的信号的起始点位于所述当前帧的第一声道信号的起始点或位于当前帧的第一声道信号的起始点之后，且所述第三处理长度的信号的起始点与当前帧的第一声道信号的结束点之间的长度大于或等于所述第三对齐处理长度与当前帧的声道间时间差的绝对值之差。

39.根据权利要求34至38任一所述的装置，其特征在于，所述可执行指令用于指示所述处理器在根据所述前一帧的声道间时间差对所述当前帧的第二声道信号进行时延恢复处理时执行如下步骤：

40.根据权利要求39所述的装置，其特征在于，所述第四处理长度为所述前一帧的声道间时间差的绝对值与所述第四对齐处理长度之和。