CN101136202A

CN101136202A - 音频信号处理系统、方法以及音频信号收发装置

Info

Publication number: CN101136202A
Application number: CNA200610125794XA
Authority: CN
Inventors: 马鸿飞; 唐骏; 徐明亮; 章鑫; 詹五洲; 余水安
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2006-08-29
Filing date: 2006-08-29
Publication date: 2008-03-05
Anticipated expiration: 2026-08-29
Also published as: CN101136202B

Abstract

本发明公开的音频信号处理系统、方法和收发装置，可保证对原始音频信号的数据块进行拆分，并对数据块进行时频变换处理，得到可描述原始音频信号的时频变换参数；还对完成拆分的数据块进行心理声学分析并对分析结果进行组合，得到可描述原始音频信号的合成的掩蔽曲线。使用本发明，可在减小通信延迟的前提下有效弱化预回声效应。

Description

音频信号处理系统、方法以及音频信号收发装置

技术领域

本发明涉及通信领域，具体涉及一种音频信号处理系统、方法以及音频信号收发装置。

背景技术

目前，高质量低速率音频编码技术一般采用分帧或分块的处理方法，即用窗选的方法将连续音频信号变成连续的音频数据块，再对各音频数据块进行时频变换和量化编码处理，之后进行存储或传输。上述音频编码技术有利于消除音频信号的冗余度，提高音频编码压缩比；但这种算法也不可避免的存在一些缺点：频域上的量化噪声经反变换后会在时域中扩散，因而产生预回声效应，而预回声会严重影响音频质量。

有鉴于此，如何弱化预回声效应一直是音频编码技术中的一个研究重点。随着研究的不断进展，目前已经可以应用长短窗切换技术在一定程度上弱化预回声效应，但由于当前变换窗的窗型还取决于下一变换窗的窗型，使得在处理数据块时必须同时考虑当前数据块和下一数据块的特性，因而必须在接收到下一数据块时才能处理当前数据块，这显然给数据块处理引入了附加时延，因而会导致通信延迟；长短窗切换技术原理图如图1所示。

可见，目前所应用的长短窗切换技术弱化预回声效应会导致比较严重的通信延迟，明显不利于音频通信。

另外，针对带有瞬变特性的音频信号的量化和编码需要更多比特数这一特点，比特池技术在音频编码中也得到了应用。具体而言，使用比特池存储完成音频帧编码后所节省下来的比特，以便在当前音频帧的编码比特需求量大于平均比特需求数时，使用比特池中存储的比特以满足编码比特需求量的突发性增加；由于应用了足够的比特对带有瞬变特性的音频信号进行正常的量化和编码，所以预回声效应在一定程度上能够得到弱化。但是，比特池的应用会带来与音频采样频率和编码速率相关的通信延迟，并且该通信延迟还与比特池的容量成正比。

因此，在大容量比特池被普遍应用的情况下，目前应用于音频编码的比特池技术会导致比较严重的通信延迟，明显不利于音频通信。

发明内容

有鉴于此，本发明的主要目的在于提供一种音频信号处理系统和方法，在减小通信延迟的前提下有效弱化预回声效应。

本发明的另一目的在于提供一种音频信号收发装置，在减小通信延迟的前提下有效弱化预回声效应。

为达到上述目的，本发明的技术方案是这样实现的：

本发明公开了一种音频信号处理系统，该系统包括位于音频信号发送端的时频分析模块、心理声学模块，还包括位于音频信号接收端的时频合成模块；

其中，心理声学模块，用于对收到的原始音频信号的音频数据块进行拆分，对拆分后的数据块进行心理声学分析，并将分析所得的多个掩蔽曲线合成得到最后的掩蔽曲线；

时频分析模块，用于对收到的原始音频信号的音频数据块进行时频变换，得到时频变换参数；

时频合成模块，用于对所述时频变换参数进行时频反变换，得到重构的音频数据。

所述心理声学模块、时频分析模块进一步和剩余信号分析及量化与编码模块相连；

所述剩余信号分析及量化与编码模块，用于对心理声学模块和时频分析模块所生成的掩蔽曲线、时频变换参数进行剩余信号分析和量化处理，生成可描述原始音频信号的剩余信号、掩蔽门限信号的编码流并发送出去。

所述剩余信号分析及量化与编码模块进一步和编码比特封装模块相连；编码比特封装模块，用于对来自剩余信号分析及量化与编码模块的剩余信号、掩蔽门限信号的编码流进行合路及封装处理，并将完成封装处理后所形成的编码比特流发送出去。

该系统进一步包含和所述时频合成模块相连的解码及反量化模块，还包含和解码及反量化模块相连的编码比特拆封模块；

其中，编码比特拆封模块，用于对所述剩余信号、掩蔽门限信号的编码流进行分路处理，得到分路后的剩余信号、掩蔽门限信号的编码数据并发送给解码及反量化模块；

解码及反量化模块，用于对收到的剩余信号、掩蔽门限信号的编码数据进行解码和反量化处理，并利用处理所得的剩余信号和掩蔽门限信号计算出时频变换参数，再将计算出的时频变换参数发送给时频合成模块。

所述心理声学模块、时频分析模块进一步和比特分配及量化与编码模块相连；

所述比特分配及量化与编码模块，用于根据心理声学模块、时频分析模块所生成的时频变换参数和掩蔽曲线，对时频变换参数进行量化与编码后得到时频变换参数编码流；并且对所述掩蔽曲线和心理声学模块所生成的边信息进行量化与编码后得到边信息编码流。

所述比特分配及量化与编码模块进一步和编码比特封装模块相连；编码比特封装模块，用于对比特分配及量化与编码模块所生成的时频变换参数编码流、边信息编码流进行合路及封装处理，并将完成封装处理后所形成的编码比特流发送出去。

其中，编码比特拆封模块，用于对所述时频变换参数编码流、边信息编码流进行拆封、分路处理，得到时频变换参数和边信息的编码数据并发送给解码及反量化模块：

解码及反量化模块，用于对收到的时频变换参数和边信息的编码数据进行解码及反量化处理，得到时频变换参数和边信息并发送给时频合成模块。

所述心理声学模块进一步用于判决收到的原始音频信号产生预回声的可能性。

所述心理声学模块、时频分析模块进一步与音频预处理模块相连；

所述音频预处理模块，用于对收到的原始音频信号进行包括增益控制在内的预处理，并将完成预处理的原始音频信号发送给心理声学模块和时频分析模块。

本发明还公开了一种音频信号处理方法，该方法包括：

对原始音频信号的数据块进行拆分，并对数据块进行时频变换处理，得到可描述原始音频信号的时频变换参数；还对完成拆分的数据块进行心理声学分析并对分析结果进行组合，得到可描述原始音频信号的合成的掩蔽曲线。

对所述数据块进行拆分的过程为：

确定数据块拆分点，在该拆分点对数据块进行拆分。

确定数据块拆分点的方法为：

在数据块中设置滑动窗SW1和SW2，并计算SW1和SW2内信号的平均/最大能量，再计算Sw2内信号的平均/最大能量与SW1内信号的平均/最大能量之比五R(k)，并确定R(k)，的最大值R_max；并且，在R_max大于预先设置的门限值时将R_max所对应的k值在数据块中所对应的样点确定为瞬变信号起始点，并将该瞬变信号起始点作为拆分数据块的数据块拆分点。

进一步将数据块的后半部分进行等份划分，并且将包含所述瞬变信号起始点的数据等分块的起始点确定为数据块拆分点。

对数据块进行所述心理声学分析的过程为：

对完成拆分的数据块进行心理声学分析，对分析所得的多个心理声学分析结果进行合成，得到合成的掩蔽曲线。

所述完成拆分的数据块包含左数据块D_L、对右数据块进行增益控制所得的数据块

将

与D_L相加所得的数据块

所述合成的方法为：

通过对

D_L和

进行心理声学分析以分别得到

D_L和

的掩蔽曲线：

MaskerD_L和

并且，选择

中的一个掩蔽曲线和MaskerD_L合成，得到合成的所述掩蔽曲线。

所述合成是通过应用以下方法之一实现的：

掩蔽曲线偏移补偿法、均值差加权偏移补偿法、加权最小值法、归一加权和法、非归一加权和法。

该方法进一步包括：

对所述时频变换参数、掩蔽曲线进行剩余信号分析和量化处理，生成可描述原始音频信号的剩余信号、掩蔽门限信号的编码流。

所述剩余信号分析和量化处理的过程为：

对所述掩蔽曲线进行量化得到掩蔽门限信号，再根据得到的掩蔽门限信号和所述时频变换参数进行剩余信号分析得到剩余信号，并对得到的剩余信号进行量化处理。

进一步对所述剩余信号、掩蔽门限信号的编码流进行解码和反量化处理，利用处理所得的剩余信号和掩蔽门限信号得到时频变换参数；并对得到的时频变换参数进行时频反变换，得到重构的音频数据。

该方法进一步包括：

对所述时频变换参数进行量化与编码后得到时频变换参数编码流，并且对包含有数据块拆分信息的边信息和所述掩蔽曲线进行量化与编码后得到边信息编码流。

进一步对所述时频变换参数编码流、边信息编码流进行解码及反量化处理，得到时频变换参数和边信息；并对得到的时频变换参数进行时频反变换，再用时频反变换所得到的时域信号结合所述边信息，计算得到重构的音频数据。

得到所述时频变换参数的方法为：

用所述剩余信号乘以掩蔽门限信号，得到时频变换参数；

或者，在对数域中，用所述剩余信号加上掩蔽门限信号，得到时频变换参数。

所述时频反变换处理的过程为：

对所述时频变换参数进行时频反变换处理得到时域信号，再根据所述边信息中所包含的数据块拆分点的位置信息对数据块拆分点以及该拆分点之后的数据的幅度进行加权处理。

预先判断原始音频信号是否具有产生预回声的可能性，当确定原始音频信号具有产生预回声的可能性时，执行所述数据块拆分操作。

判断原始音频信号是否具有产生预回声可能性的方法为：

根据原始音频信号的幅度变化来判定其瞬态或稳态特性所体现的产生预回声的可能性；

或者，根据原始音频信号的频域参数特征来判定其瞬态或稳态特性所体现的产生预回声的可能性。

本发明还公开了一种音频信号发送装置，该装置包括时频分析模块和心理声学模块；

时频分析模块，用于对收到的原始音频信号的音频数据块进行时频变换，得到时频变换参数。

本发明还公开了一种时频合成模块，该模块用于对收到的时频变换参数进行时频反变换，并用时频反变换所得到的时域信号结合包含有数据块拆分信息的边信息，计算得到重构的音频数据。

该时频合成模块进一步和解码及反量化模块相连，解码及反量化模块还和编码比特拆封模块相连；

其中，编码比特拆封模块，用于对收到的剩余信号、掩蔽门限信号以及边信息的编码流进行分路处理，得到分路后的剩余信号、掩蔽门限信号和边信息的编码数据并发送给解码及反量化模块；

解码及反量化模块，用于对收到的剩余信号、掩蔽门限信号和边信息的编码数据进行解码和反量化处理，并利用处理所得的剩余信号和掩蔽门限信号计算出时频变换参数，再将计算出的时频变换参数和完成解码的边信息发送给时频合成模块。

其中，编码比特拆封模块，用于对收到的时频变换参数编码流、边信息编码流进行拆封、分路处理，得到时频变换参数和边信息的编码数据并发送给解码及反量化模块；

与现有技术相比，本发明所提供的音频信号处理系统、方法和收发装置，可保证对原始音频信号的数据块进行拆分，并对数据块进行时频变换处理，得到可描述原始音频信号的时频变换参数；还对完成拆分的数据块进行心理声学分析并对分析结果进行组合，得到可描述原始音频信号的合成的掩蔽曲线。可见，本发明可在减小通信延迟的前提下有效弱化预回声效应。

附图说明

图1是长短窗切换技术原理图；

图2是本发明一较佳实施例的音频信号编码器结构及原理示意图；

图3是滑动窗示意图；

图4是在含瞬变信号的数据块中确定拆分点的原理示意图；

图5a是数据块被拆分后的左数据块示意图；

图5b是数据块被拆分后的右数据块示意图；

图6是完成增益控制后的右数据块示意图；

图7是左数据块掩蔽曲线和完成增益控制后的右数据块的掩蔽曲线示意图；

图8是合成后的掩蔽曲线示意图；

图9是本发明一较佳实施例的音频信号解码器结构及原理示意图；

图10a是本发明重构数据块示意图；

图10b是现有技术重构数据块示意图。

图11是本发明另一较佳实施例的音频信号编码器结构及原理示意图。

具体实施方式

下面结合附图及具体实施例对本发明详细说明。

本发明所提供的音频信号处理系统包括位于音频信号发送端的时频分析模块、心理声学模块，还包括位于音频信号接收端的时频合成模块；其中，心理声学模块，用于对收到的原始音频信号的音频数据块进行拆分，对拆分后的数据块进行心理声学分析，并将分析所得的多个掩蔽曲线合成得到最后的掩蔽曲线；时频分析模块，用于对收到的原始音频信号的音频数据块进行时频变换，得到时频变换参数；时频合成模块，用于对所述时频变换参数进行时频反变换，得到重构的音频数据。

本发明所提供的音频信号处理方法包括：对原始音频信号的数据块进行拆分，并对数据块进行时频变换处理，得到可描述原始音频信号的时频变换参数；还对完成拆分的数据块进行心理声学分析并对分析结果进行组合，得到可描述原始音频信号的合成的掩蔽曲线。

本发明所提供的音频信号发送装置包括时频分析模块和心理声学模块；其中，心理声学模块，用于对收到的原始音频信号的音频数据块进行拆分，对拆分后的数据块进行心理声学分析，并将分析所得的多个掩蔽曲线合成得到最后的掩蔽曲线；时频分析模块，用于对收到的原始音频信号的音频数据块进行时频变换，得到时频变换参数。

本发明所提供的音频信号接收装置为时频合成模块，该模块用于对收到的时频变换参数进行时频反变换，并用时频反变换所得到的时域信号结合包含有数据块拆分信息的边信息，计算得到重构的音频数据。

参见图2，图2是本发明一较佳实施例的音频信号编码器结构及原理示意图。图2中，将原始音频信号输入音频预处理模块210和预回声判决模块220；其中，预回声判决模块220根据收到的原始音频信号的时域和/或频域特性判决原始音频信号产生预回声的可能性；并将该判决结果以判决边信息的形式发送给音频预处理模块210、剩余信号分析及量化与编码模块250。

具体而言，无论预回声判决模块220执行的所述判决操作怎样，其关键在于确定原始音频信号中是否存在能够产生预回声的瞬变信号。那么，针对原始音频信号的时域特性而言，瞬变信号往往在时域上表现为幅度的突变，因此可以根据原始音频信号的幅度变化来判定其瞬态或稳态特性，比如：在AC-3音频编码中，先对收到的组成原始音频信号的数据块进行划分，再根据划分出的相邻子数据块幅度峰值之比的大小来判定当前数据块是否包含瞬变信号。

针对原始音频信号的频域特性而言，则可以根据收到的原始音频信号的频域参数特征来判定其瞬态或稳态特性，比如：可以根据感知熵的大小来判定当前数据块是否包含瞬变信号。

当收到来自预回声判决模块220的判决边信息时，音频预处理模块210根据收到的判决边信息对收到的原始音频信号进行相应的预处理。具体而言，当所述判决边信息代表原始音频信号不具有产生预回声的可能性时，音频预处理模块210不对原始音频信号的数据块进行特殊处理，而是直接发送给时频分析模块230和心理声学模块240。通常，可以将这种直接发送的数据块称为I类音频数据。

当所述判决边信息代表原始音频信号具有产生预回声的可能性时，音频预处理模块210则对原始音频信号的数据块进行拆分，尽量使拆分后的各个数据块中只包含单一类型的音频信号，如：将数据块X拆分为数据块A和数据块B，并且数据块A中只包含稳态信号，而数据块B中则只包含瞬态信号。通常，可以将这种被拆分并进行处理以后的数据块称为II类音频数据。

具体的数据块拆分原理如图3、图4所示。参见图3，图3是滑动窗示意图。图3中，将要被拆分的数据块(可称之为数据块D)由1024个样点组成。在进行拆分时，先用两个首尾相接的长度为64个样点的滑动窗SW1和SW2对数据块中的数据进行窗选。SW1和SW2的初始位置可以为：SW1的右端点与数据块前半部分的终点重合，SW2的左端点与数据块后半部分的起始点重合。SW1和SW2的滑动方向如图3所示，滑动的终点则为SW2的右端点与整个数据块的终点重合处；并且，如果在SW2的左端点设一滑动点k，那么可以先计算SW1和SW2内信号的平均/最大能量，再计算SW2内信号的平均/最大能量与SW1内信号的平均/最大能量之比R(k)，之后找到R(k)的最大值R_max。

在找到R_max时，将R_max与预先预定的门限值进行比较，并在R_max大于所述门限值时确定数据块具有产生预回声的可能性；当然，这时还要记录R_max所对应的k值，并将该k值所对应的样点作为数据块中瞬变信号的起始点。

在实际应用中，当确定了瞬变信号的起始点时，就可以直接将该起始点作为数据块拆分点P(如图4所示)。需要说明的是：为了以较少编码比特表示瞬变信号的起始点，可以进一步将数据块的后半部分进行N等份划分，以近似表示瞬变信号的起始点，比如：取N＝8，使得数据块被划分的每个数据等分块的长度为64个样点，并且将包含瞬变信号起始点k的数据等分块的起始点确定为数据块拆分点P。

如果对图4所示的数据块进行拆分，可以以所述数据块拆分点P为界限将数据块D拆分成两个数据块左数据块D_L和右数据块D_R；那么，拆分后所形成的左数据块和右数据块则分别如图5a、图5b所示。

参见图5a，图5a是数据块被拆分后的左数据块示意图。图5a中，D_L是通过将数据块D的数据块拆分点P及其后面的数据归零所得到的。

参见图5b，图5b是数据块被拆分后的右数据块示意图。图5b中，D_R是通过将数据块D的数据块拆分点P之前的数据归零所得到的。

在实际应用中，音频预处理模块210所执行的预处理操作除了拆分数据块以外，还包含对完成拆分的数据块进行增益控制和相加等操作，最后形成II类音频数据。

具体而言，所述增益控制的方法通常为：对拆分数据块D后所得到的D_R的幅度进行压缩或对D_R的部分频带信号的幅度进行压缩。通常，用于进行增益控制的增益因子α的取值为0<α≤1；并且，可以根据应用场景改变增益因子α的取值，如：编码速率越高，增益因子α的取值越大；编码速率越低，增益因子α的取值则越小。通常，可以将完成增益控制后的D_R称为

(如图6所示)，图6中的增益因子α的取值为1/2。

得到

时，音频预处理模块210将

与拆分数据块D后所得到的D_L相加，并将相加后所得到的数据块记为

由于

与D_L的长度均为1024，因此可以应用同维矢量相加的方式将

与D_L相加。

完成对音频数据中的数据块拆分、增益控制以及相加处理后，音频预处理模块210则将完成所述处理后所得到的II类音频数据发送给时频分析模块230和心理声学模块240。

无论收到I类音频数据还是II类音频数据，时频分析模块230都会对来自音频预处理模块210的音频数据块进行时频变换处理，以得到时频变换参数并发送给剩余信号分析及量化与编码模块250。当然，当收到I类音频数据时，时频分析模块230会对来自音频预处理模块210的音频数据块进行时频变换处理，并生成由I类音频数据的修正离散余弦变换(MDCT)系数表示的时频变换参数；当收到II类音频数据时，时频分析模块230则通常对所述数据块

进行时频变换处理，并生成由

的修正离散余弦变换(MDCT)系数表示的时频变换参数。

至于心理声学模块240，则需要对收到的I类音频数据、II类音频数据区别对待：当收到来自音频预处理模块210的I类音频数据时，心理声学模块240直接对收到的I类音频数据进行心理声学分析，以得到掩蔽曲线并发送给剩余信号分析及量化与编码模块250；当收到来自音频预处理模块210的II类音频数据时，心理声学模块240则对组成II类音频数据的各数据块分别进行心理声学分析，再对得到的多个心理声学分析结果进行合成，以最终得到合成的掩蔽曲线并发送给剩余信号分析及量化与编码模块250。

具体而言，针对II类音频数据，心理声学模块240会收到来自音频预处理模块210的

D_L和

因而可以通过进行心理声学分析以分别得到

D_L和

的掩蔽曲线：

MaskerD_L和

并且，心理声学模块240选择

中的一个掩蔽曲线和MaskerD_L合成(假设选择

和MaskerD_L合成)。MaskerD_L和

如图7所示，其中，标有“+”的曲线代表

未标有“+”的曲线代表MaskerD_L；将MaskerD_L和

合成后所形成的掩蔽曲线则如图8所示。

具体而言，进行上述的掩蔽曲线合成操作的思路是：通过控制MaskerD_L和的相对幅值和形状来控制二者在所形成的合成掩蔽曲线中起作用的百分比，从而控制针对不同音频分量的比特分配。

在实际应用中，对掩蔽曲线进行合成的方法有多种，比如：

方法一、掩蔽曲线偏移补偿法

分别对MaskerD_L和进行偏移补偿，再根据偏移补偿后所得的MaskerD_L和中的相对小的样点得到最终的掩蔽曲线Masker。通常，用于进行合成的计算公式为：

Masker = \min (Masker D_{L} + Offset_L, Masker {\tilde{D}}_{R} + Offset_R)

其中Offset_L和Offset_R分别为MaskerD_L和

的偏移量。

方法二：均值差加权偏移补偿法

分别求出MaskerD_L和的均值，并将求出的均值分别记为Ave_MaskerD_L和

最终完成合成的掩蔽曲线Masker由以下公式计算得到：

Masker = \min (Masker D_{L} + β * (Ave_Masker {\tilde{D}}_{R} - Ave_Masker D_{L}), Masker {\tilde{D}}_{R})

其中，0<β<1为偏移加权系数。

方法三：加权最小值法

通过调整加权系数来调整MaskerD_L和

的形状，并控制完成形状调整的MaskerD_L和

的样点在最终所合成的掩蔽曲线Masker中所占的比例；合成Masker的公式如下：

Masker = \min (ξ_{L} * Masker D_{L}, ξ_{R} * Masker {\tilde{D}}_{R})

其中，ξ_L和ξ_R为加权因子，ξ_L、ξ_R>0。

方法四：归一加权和法

对MaskerD_L和

中相对应的各样点进行加权求和，以合成最后的掩蔽曲线Masker；合成Masker的公式如下：

Masker = δ * Masker D_{L} + (1 - δ) * Masker {\tilde{D}}_{R}

其中，0<δ<1。

方法五、非归一加权和法

对MaskerD_L和进行加权，加权因子分别为λ_L和λ_R，λ_L、λ_R>0；之后，计算完成加权的MaskerD_L和

之和；合成Masker的公式如下：

Masker = λ_{L} * Masker D_{L} + λ_{R} * Masker {\tilde{D}}_{R}

可见，完成上述操作后，剩余信号分析及量化与编码模块250将收到来自时频分析模块230的时频变换参数、来自心理声学模块240的掩蔽曲线以及来自预回声判决模块220的判决边信息。当收到所述时频变换参数、掩蔽曲线和判决边信息时，剩余信号分析及量化与编码模块250对收到的掩蔽曲线进行量化，以得到掩蔽门限信号；再根据收到的时频变换参数和得到的掩蔽门限信号进行剩余信号分析，以得到消除了人耳听觉不相干性成分的剩余信号，并对得到的剩余信号进行量化处理。之后，剩余信号分析及量化与编码模块250对收到的判决边信息以及得到的剩余信号量化值、掩蔽门限信号进行编码处理，并将编码处理后所形成的编码流发送给编码比特封装模块260。

具体而言，对掩蔽曲线进行量化的操作方法通常为：对掩蔽曲线的各值取整。所述剩余信号分析的方法通常为：用收到的数据块

的MDCT系数除以掩蔽门限信号，得到剩余信号；当然，如果在对数域计算，则是用收到的数据块的MDCT系数减去掩蔽门限信号，得到剩余信号。对剩余信号进行量化的操作方法较多，通常可以简单地对剩余信号进行取整处理。

当收到来自剩余信号分析及量化与编码模块250的编码流时，编码比特封装模块260对这些编码流进行合路及封装处理，再将完成封装处理后所形成的编码比特流发送出去。可见，所发送的数据结构中包含有可描述原始音频信号的剩余信号、掩蔽门限信号以及边信息。所述边信息中通常包含有指示数据块编解码方式的标识等；并且，如果数据块具有产生预回声的可能性，那么边信息中还包含有数据块拆分点P的位置信息及增益因子α的信息。当然，如果没有进行增益控制，那么α的值和数据块拆分点P的信息则都没有进行传输的必要。

当图2所示的编码器一侧发送编码比特流时，图9所示的解码器则用于接收并处理相应的编码比特流。参见图9，图9是本发明一较佳实施例的音频信号解码器结构及原理示意图。图9中，编码比特拆封模块910会接收到来自编码器一侧所发送的编码比特流，并对收到的编码比特流按类进行分路处理，得到剩余信号、掩蔽门限信号和边信息的编码数据；之后，再将得到的剩余信号、掩蔽门限信号和边信息的编码数据发送给解码及反量化模块920。

解码及反量化模块920收到来自编码比特拆封模块910的剩余信号、掩蔽门限信号和边信息的编码数据时，对这些编码数据进行解码和反量化处理，并利用处理所得的剩余信号和掩蔽门限信号计算出时频变换参数；之后，再将计算出的时频变换参数和完成解码的边信息发送给时频合成模块930。

具体而言，解码及反量化模块920可以应用得到的剩余信号乘以掩蔽门限信号，以得到时频变换参数；当然，如果是在对数域进行计算，解码及反量化模块920则需要应用得到的剩余信号加上掩蔽门限信号，以得到时频变换参数。

时频合成模块930收到来自解码及反量化模块920的时频变换参数和边信息时，根据收到的边信息对时频变换参数进行时频反变换处理，最终得到重构的音频数据。具体而言，时频合成模块930对收到的时频变换参数进行时频反变换处理，得到时域信号；该时域信号就是前述数据块

的重构数据块之后，时频合成模块930利用收到的边信息中所包含的数据块拆分点P的位置信息及增益因子α对得到的数据块

的P点及P点之后的数据的幅度进行加权处理，并且加权因子为1/α，以最终得到前述数据块D的重构数据块D′。

经过上述操作后得到的重构数据块D′如图10a所示，而应用现有技术所得到的重构数据块通常如图10b所示。

通过将图10a与图10b对比可见，图10a所示数据块所受到的预回声影响明显比图10b所示数据块所受到的预回声影响小得多；显然，本发明相对现有技术而言能够有效弱化预回声效应。另外，由以上所述还可以看出，本发明没有引入窗切换等能够导致通信延迟的因素，也避免了因采用比特池技术所带来的通信延迟。因此，本发明相对现有技术而言能够明显减小通信延迟。

需要说明的是，图2中，可以将时频分析模块230与心理声学模块240相连，将原始音频信号直接输入时频分析模块230和心理声学模块240；并且，音频预处理模块210和预回声判决模块220所进行的操作可以由心理声学模块240执行，并将执行结果传递给时频分析模块230。

再有，还可以将剩余信号分析及量化与编码模块250分离为两个模块：剩余信号分析模块、比特分配及量化与编码模块。这样，就可以由剩余信号分析模块进行有关剩余信号的分析操作，并将所得的剩余信号、掩蔽门限信号和边信息发送给比特分配及量化与编码模块；比特分配及量化与编码模块则可以对收到的剩余信号、掩蔽门限信号及边信息进行量化和编码等操作，并形成剩余信号、掩蔽门限信号及边信息的编码流。

实际上，音频信号编码器的结构及工作原理还可以如图11所示。图11中，彼此相连的时频分析模块1101、心理声学模块1102均和比特分配及量化与编码模块1103相连，比特分配及量化与编码模块1103则与编码比特封装模块1104相连。

图11中，心理声学模块1102用于对收到的原始音频信号的音频数据块进行拆分，然后对拆分后的数据块进行心理声学分析，得到两个或多个掩蔽曲线，再由两个或多个掩蔽曲线合成得到最后的掩蔽曲线，之后将合成的掩蔽曲线及包含数据块拆分信息的判决边信息发送给比特分配及量化与编码模块1103；并且，心理声学模块1102还将所述判决边信息发送给时频分析模块1101。

当然，心理声学模块1102可以先判断原始音频信号产生预回声的可能性，并在确定原始音频信号可能产生预回声时执行所述拆分操作；而在确定原始音频信号不可能产生预回声时，心理声学模块1102则直接对收到的音频数据块进行心理声学分析，并将分析得到的掩蔽曲线和包含音频数据块信息的判决边信息发送给比特分配及量化与编码模块1103。

时频分析模块1101可以根据收到的判决边信息，对收到的原始音频信号的音频数据块先进行增益控制等预处理，之后对完成预处理的音频数据块进行时频变换，并将得到的时频变换参数发送给比特分配及量化与编码模块1103。

比特分配及量化与编码模块1103根据收到的时频变换参数和掩蔽曲线，对时频变换参数进行量化与编码，得到时频变换参数编码流；并且将收到的掩蔽曲线和判决边信息作为边信息进行量化与编码，得到边信息编码流。之后，比特分配及量化与编码模块1103将得到的时频变换参数和边信息的编码流发送给编码比特封装模块1104，由编码比特封装模块1104对收到的编码流进行封装，并将封装后所形成的编码比特流发送出去。

针对图2中各实体所执行操作的具体描述，同样可以应用于图11，在此不再赘述。

针对图11所述的音频信号发送端而言，相应的音频信号接收端的结构及工作原理与图9所示内容大体相同，不同点在于：编码比特拆封模块910收到的是完成封装的时频变换参数和边信息的编码流，并且对这些编码流进行拆封、分路处理后会得到时频变换参数和边信息的编码数据；编码比特拆封模块910会将得到的时频变换参数和边信息的编码数据发送给解码及反量化模块920；解码及反量化模块920则对收到的时频变换参数和边信息的编码数据进行解码及反量化处理，得到时频变换参数和边信息。

综上所述，本发明所提供的音频信号处理系统、方法以及音频信号收发装置，在减小通信延迟的前提下能够有效弱化预回声效应。

Claims

1.一种音频信号处理系统，其特征在于，该系统包括位于音频信号发送端的时频分析模块、心理声学模块，还包括位于音频信号接收端的时频合成模块；

2.如权利要求1所述的系统，其特征在于，所述心理声学模块、时频分析模块进一步和剩余信号分析及量化与编码模块相连；

3.如权利要求2所述的系统，其特征在于，所述剩余信号分析及量化与编码模块进一步和编码比特封装模块相连；编码比特封装模块，用于对来自剩余信号分析及量化与编码模块的剩余信号、掩蔽门限信号的编码流进行合路及封装处理，并将完成封装处理后所形成的编码比特流发送出去。

4.如权利要求2或3所述的系统，其特征在于，该系统进一步包含和所述时频合成模块相连的解码及反量化模块，还包含和解码及反量化模块相连的编码比特拆封模块；

5.如权利要求1所述的系统，其特征在于，所述心理声学模块、时频分析模块进一步和比特分配及量化与编码模块相连；

6.如权利要求5所述的系统，其特征在于，所述比特分配及量化与编码模块进一步和编码比特封装模块相连；编码比特封装模块，用于对比特分配及量化与编码模块所生成的时频变换参数编码流、边信息编码流进行合路及封装处理，并将完成封装处理后所形成的编码比特流发送出去。

7.如权利要求5或6所述的系统，其特征在于，该系统进一步包含和所述时频合成模块相连的解码及反量化模块，还包含和解码及反量化模块相连的编码比特拆封模块；

其中，编码比特拆封模块，用于对所述时频变换参数编码流、边信息编码流进行拆封、分路处理，得到时频变换参数和边信息的编码数据并发送给解码及反量化模块；

8.如权利要求1、2、3、5或6所述的系统，其特征在于，所述心理声学模块进一步用于判决收到的原始音频信号产生预回声的可能性。

9.如权利要求1、2、3、5或6所述的系统，其特征在于，所述心理声学模块、时频分析模块进一步与音频预处理模块相连；

10.一种音频信号处理方法，其特征在于，该方法包括：

11.如权利要求10所述的方法，其特征在于，对所述数据块进行拆分的过程为：

确定数据块拆分点，在该拆分点对数据块进行拆分。

12.如权利要求11所述的方法，其特征在于，确定数据块拆分点的方法为：

在数据块中设置滑动窗SW1和SW2，并计算SW1和SW2内信号的平均/最大能量，再计算SW2内信号的平均/最大能量与SW1内信号的平均/最大能量之比R(k)，并确定R(k)的最大值R_max；并且，在R_max大于预先设置的门限值时将R_max所对应的k值在数据块中所对应的样点确定为瞬变信号起始点，并将该瞬变信号起始点作为拆分数据块的数据块拆分点。

13.如权利要求12所述的方法，其特征在于，进一步将数据块的后半部分进行等份划分，并且将包含所述瞬变信号起始点的数据等分块的起始点确定为数据块拆分点。

14.如权利要求10所述的方法，其特征在于，对数据块进行所述心理声学分析的过程为：

15.如权利要求14所述的方法，其特征在于，所述完成拆分的数据块包含左数据块D_L、对右数据块进行增益控制所得的数据块