CN101136202B - 音频信号处理系统、方法以及音频信号收发装置 - Google Patents
音频信号处理系统、方法以及音频信号收发装置 Download PDFInfo
- Publication number
- CN101136202B CN101136202B CN200610125794XA CN200610125794A CN101136202B CN 101136202 B CN101136202 B CN 101136202B CN 200610125794X A CN200610125794X A CN 200610125794XA CN 200610125794 A CN200610125794 A CN 200610125794A CN 101136202 B CN101136202 B CN 101136202B
- Authority
- CN
- China
- Prior art keywords
- module
- time
- signal
- data block
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开的音频信号处理系统、方法和收发装置,可保证对原始音频信号的数据块进行拆分,并对数据块进行时频变换处理,得到可描述原始音频信号的时频变换参数;还对完成拆分的数据块进行心理声学分析并对分析结果进行组合,得到可描述原始音频信号的合成的掩蔽曲线。使用本发明可在减小通信延迟的前提下有效弱化预回声效应。
Description
技术领域
本发明涉及通信领域,具体涉及一种音频信号处理系统、方法以及音频信号收发装置。
背景技术
目前,高质量低速率音频编码技术一般采用分帧或分块的处理方法,即用窗选的方法将连续音频信号变成连续的音频数据块,再对各音频数据块进行时频变换和量化编码处理,之后进行存储或传输。上述音频编码技术有利于消除音频信号的冗余度,提高音频编码压缩比;但这种算法也不可避免的存在一些缺点:频域上的量化噪声经反变换后会在时域中扩散,因而产生预回声效应,而预回声会严重影响音频质量。
有鉴于此,如何弱化预回声效应一直是音频编码技术中的一个研究重点。随着研究的不断进展,目前已经可以应用长短窗切换技术在一定程度上弱化预回声效应,但由于当前变换窗的窗型还取决于下一变换窗的窗型,使得在处理数据块时必须同时考虑当前数据块和下一数据块的特性,因而必须在接收到下一数据块时才能处理当前数据块,这显然给数据块处理引入了附加时延,因而会导致通信延迟;长短窗切换技术原理图如图1所示。
可见,目前所应用的长短窗切换技术弱化预回声效应会导致比较严重的通信延迟,明显不利于音频通信。
另外,针对带有瞬变特性的音频信号的量化和编码需要更多比特数这一特点,比特池技术在音频编码中也得到了应用。具体而言,使用比特池存储完成音频帧编码后所节省下来的比特,以便在当前音频帧的编码比特需求量大于平均比特需求数时,使用比特池中存储的比特以满足编码比特需求量的突发性增加;由于应用了足够的比特对带有瞬变特性的音频信号进行正常的量化和编码,所以预回声效应在一定程度上能够得到弱化。但是,比特池的应用会带来与音频采样频率和编码速率相关的通信延迟,并且该通信延迟还与比特池的容量成正比。
因此,在大容量比特池被普遍应用的情况下,目前应用于音频编码的比特池技术会导致比较严重的通信延迟,明显不利于音频通信。
发明内容
有鉴于此,本发明的主要目的在于提供一种音频信号处理系统和方法,在减小通信延迟的前提下有效弱化预回声效应。
本发明的另一目的在于提供一种音频信号收发装置,在减小通信延迟的前提下有效弱化预回声效应。
为达到上述目的,本发明的技术方案是这样实现的:
本发明公开了一种音频信号处理系统,该系统包括位于音频信号发送端的时频分析模块、心理声学模块,还包括位于音频信号接收端的时频合成模块;
其中,心理声学模块,用于对收到的原始音频信号的音频数据块进行拆分,对拆分后的数据块进行心理声学分析,并将分析所得的多个掩蔽曲线合成得到最后的掩蔽曲线;
时频分析模块,用于对收到的原始音频信号的音频数据块进行时频变换,得到时频变换参数;
时频合成模块,用于对所述时频变换参数进行时频反变换,得到重构的音频数据。
所述心理声学模块、时频分析模块进一步和剩余信号分析及量化与编码模块相连;
所述剩余信号分析及量化与编码模块,用于对心理声学模块和时频分析模块所生成的掩蔽曲线、时频变换参数进行剩余信号分析和量化处理,生成可描述原始音频信号的剩余信号、掩蔽门限信号的编码流并发送出去。
所述剩余信号分析及量化与编码模块进一步和编码比特封装模块相连;编码比特封装模块,用于对来自剩余信号分析及量化与编码模块的剩余信号、掩蔽门限信号的编码流进行合路及封装处理,并将完成封装处理后所形成的编码比特流发送出去。
该系统进一步包含和所述时频合成模块相连的解码及反量化模块,还包含和解码及反量化模块相连的编码比特拆封模块;
其中,编码比特拆封模块,用于对所述剩余信号、掩蔽门限信号的编码流进行分路处理,得到分路后的剩余信号、掩蔽门限信号的编码数据并发送给解码及反量化模块;
解码及反量化模块,用于对收到的剩余信号、掩蔽门限信号的编码数据进行解码和反量化处理,并利用处理所得的剩余信号和掩蔽门限信号计算出时频变换参数,再将计算出的时频变换参数发送给时频合成模块。
所述心理声学模块、时频分析模块进一步和比特分配及量化与编码模块相连;
所述比特分配及量化与编码模块,用于根据心理声学模块、时频分析模块所生成的时频变换参数和掩蔽曲线,对时频变换参数进行量化与编码后得到时频变换参数编码流;并且对所述掩蔽曲线和心理声学模块所生成的边信息进行量化与编码后得到边信息编码流。
所述比特分配及量化与编码模块进一步和编码比特封装模块相连;编码比特封装模块,用于对比特分配及量化与编码模块所生成的时频变换参数编码流、边信息编码流进行合路及封装处理,并将完成封装处理后所形成的编码比特流发送出去。
该系统进一步包含和所述时频合成模块相连的解码及反量化模块,还包含和解码及反量化模块相连的编码比特拆封模块;
其中,编码比特拆封模块,用于对所述时频变换参数编码流、边信息编码流进行拆封、分路处理,得到时频变换参数和边信息的编码数据并发送给解码及反量化模块;
解码及反量化模块,用于对收到的时频变换参数和边信息的编码数据进行解码及反量化处理,得到时频变换参数和边信息并发送给时频合成模块。
所述心理声学模块进一步用于判决收到的原始音频信号产生预回声的可能性。
所述心理声学模块、时频分析模块进一步与音频预处理模块相连;
所述音频预处理模块,用于对收到的原始音频信号进行包括增益控制在内的预处理,并将完成预处理的原始音频信号发送给心理声学模块和时频分析模块。
本发明还公开了一种音频信号处理方法,该方法包括:
对原始音频信号的数据块进行拆分,并对数据块进行时频变换处理,得到可描述原始音频信号的时频变换参数;还对完成拆分的数据块进行心理声学分析并对分析结果进行组合,得到可描述原始音频信号的合成的掩蔽曲线。
对所述数据块进行拆分的过程为:
确定数据块拆分点,在该拆分点对数据块进行拆分。
确定数据块拆分点的方法为:
在数据块中设置滑动窗SW1和SW2,并计算SW1和SW2内信号的平均/最大能量,再计算SW2内信号的平均/最大能量与SW1内信号的平均/最大能量之比R(k),并确定R(k)的最大值Rmax;并且,在Rmax大于预先设置的门限值时将Rmax所对应的k值在数据块中所对应的样点确定为瞬变信号起始点,并将该瞬变信号起始点作为拆分数据块的数据块拆分点。
进一步将数据块的后半部分进行等份划分,并且将包含所述瞬变信号起始点的数据等分块的起始点确定为数据块拆分点。
对数据块进行所述心理声学分析的过程为:
对完成拆分的数据块进行心理声学分析,对分析所得的多个心理声学分析结果进行合成,得到合成的掩蔽曲线。
所述合成的方法为:
所述合成是通过应用以下方法之一实现的:
掩蔽曲线偏移补偿法、均值差加权偏移补偿法、加权最小值法、归一加权和法、非归一加权和法。
该方法进一步包括:
对所述时频变换参数、掩蔽曲线进行剩余信号分析和量化处理,生成可描述原始音频信号的剩余信号、掩蔽门限信号的编码流。
所述剩余信号分析和量化处理的过程为:
对所述掩蔽曲线进行量化得到掩蔽门限信号,再根据得到的掩蔽门限信号和所述时频变换参数进行剩余信号分析得到剩余信号,并对得到的剩余信号进行量化处理。
进一步对所述剩余信号、掩蔽门限信号的编码流进行解码和反量化处理,利用处理所得的剩余信号和掩蔽门限信号得到时频变换参数;并对得到的时频变换参数进行时频反变换,得到重构的音频数据。
该方法进一步包括:
对所述时频变换参数进行量化与编码后得到时频变换参数编码流,并且对包含有数据块拆分信息的边信息和所述掩蔽曲线进行量化与编码后得到边信息编码流。
进一步对所述时频变换参数编码流、边信息编码流进行解码及反量化处理,得到时频变换参数和边信息;并对得到的时频变换参数进行时频反变换,再用时频反变换所得到的时域信号结合所述边信息,计算得到重构的音频数据。
得到所述时频变换参数的方法为:
用所述剩余信号乘以掩蔽门限信号,得到时频变换参数;
或者,在对数域中,用所述剩余信号加上掩蔽门限信号,得到时频变换参数。
所述时频反变换处理的过程为:
对所述时频变换参数进行时频反变换处理得到时域信号,再根据所述边信息中所包含的数据块拆分点的位置信息对数据块拆分点以及该拆分点之后的数据的幅度进行加权处理。
预先判断原始音频信号是否具有产生预回声的可能性,当确定原始音频信号具有产生预回声的可能性时,执行所述数据块拆分操作。
判断原始音频信号是否具有产生预回声可能性的方法为:
根据原始音频信号的幅度变化来判定其瞬态或稳态特性所体现的产生预回声的可能性;
或者,根据原始音频信号的频域参数特征来判定其瞬态或稳态特性所体现的产生预回声的可能性。
本发明还公开了一种音频信号发送装置,该装置包括时频分析模块和心理声学模块;
其中,心理声学模块,用于对收到的原始音频信号的音频数据块进行拆分,对拆分后的数据块进行心理声学分析,并将分析所得的多个掩蔽曲线合成得到最后的掩蔽曲线;
时频分析模块,用于对收到的原始音频信号的音频数据块进行时频变换,得到时频变换参数。
所述心理声学模块、时频分析模块进一步和剩余信号分析及量化与编码模块相连;
所述剩余信号分析及量化与编码模块,用于对心理声学模块和时频分析模块所生成的掩蔽曲线、时频变换参数进行剩余信号分析和量化处理,生成可描述原始音频信号的剩余信号、掩蔽门限信号的编码流并发送出去。
所述剩余信号分析及量化与编码模块进一步和编码比特封装模块相连;编码比特封装模块,用于对来自剩余信号分析及量化与编码模块的剩余信号、掩蔽门限信号的编码流进行合路及封装处理,并将完成封装处理后所形成的编码比特流发送出去。
所述心理声学模块、时频分析模块进一步和比特分配及量化与编码模块相连;
所述比特分配及量化与编码模块,用于根据心理声学模块、时频分析模块所生成的时频变换参数和掩蔽曲线,对时频变换参数进行量化与编码后得到时频变换参数编码流;并且对所述掩蔽曲线和心理声学模块所生成的边信息进行量化与编码后得到边信息编码流。
所述比特分配及量化与编码模块进一步和编码比特封装模块相连;编码比特封装模块,用于对比特分配及量化与编码模块所生成的时频变换参数编码流、边信息编码流进行合路及封装处理,并将完成封装处理后所形成的编码比特流发送出去。
所述心理声学模块进一步用于判决收到的原始音频信号产生预回声的可能性。
所述心理声学模块、时频分析模块进一步与音频预处理模块相连;
所述音频预处理模块,用于对收到的原始音频信号进行包括增益控制在内的预处理,并将完成预处理的原始音频信号发送给心理声学模块和时频分析模块。
本发明还公开了一种时频合成模块,该模块用于对收到的时频变换参数进行时频反变换,并用时频反变换所得到的时域信号结合包含有数据块拆分信息的边信息,计算得到重构的音频数据。
该时频合成模块进一步和解码及反量化模块相连,解码及反量化模块还和编码比特拆封模块相连;
其中,编码比特拆封模块,用于对收到的剩余信号、掩蔽门限信号以及边信息的编码流进行分路处理,得到分路后的剩余信号、掩蔽门限信号和边信息的编码数据并发送给解码及反量化模块;
解码及反量化模块,用于对收到的剩余信号、掩蔽门限信号和边信息的编码数据进行解码和反量化处理,并利用处理所得的剩余信号和掩蔽门限信号计算出时频变换参数,再将计算出的时频变换参数和完成解码的边信息发送给时频合成模块。
该时频合成模块进一步和解码及反量化模块相连,解码及反量化模块还和编码比特拆封模块相连;
其中,编码比特拆封模块,用于对收到的时频变换参数编码流、边信息编码流进行拆封、分路处理,得到时频变换参数和边信息的编码数据并发送给解码及反量化模块;
解码及反量化模块,用于对收到的时频变换参数和边信息的编码数据进行解码及反量化处理,得到时频变换参数和边信息并发送给时频合成模块。
与现有技术相比,本发明所提供的音频信号处理系统、方法和收发装置,可保证对原始音频信号的数据块进行拆分,并对数据块进行时频变换处理,得到可描述原始音频信号的时频变换参数;还对完成拆分的数据块进行心理声学分析并对分析结果进行组合,得到可描述原始音频信号的合成的掩蔽曲线。可见,本发明可在减小通信延迟的前提下有效弱化预回声效应。
附图说明
图1是长短窗切换技术原理图;
图2是本发明一较佳实施例的音频信号编码器结构及原理示意图;
图3是滑动窗示意图;
图4是在含瞬变信号的数据块中确定拆分点的原理示意图;
图5a是数据块被拆分后的左数据块示意图;
图5b是数据块被拆分后的右数据块示意图;
图6是完成增益控制后的右数据块示意图;
图7是左数据块掩蔽曲线和完成增益控制后的右数据块的掩蔽曲线示意图;
图8是合成后的掩蔽曲线示意图;
图9是本发明一较佳实施例的音频信号解码器结构及原理示意图;
图10a是本发明重构数据块示意图;
图10b是现有技术重构数据块示意图。
图11是本发明另一较佳实施例的音频信号编码器结构及原理示意图。
具体实施方式
下面结合附图及具体实施例对本发明详细说明。
本发明所提供的音频信号处理系统包括位于音频信号发送端的时频分析模块、心理声学模块,还包括位于音频信号接收端的时频合成模块;其中,心理声学模块,用于对收到的原始音频信号的音频数据块进行拆分,对拆分后的数据块进行心理声学分析,并将分析所得的多个掩蔽曲线合成得到最后的掩蔽曲线;时频分析模块,用于对收到的原始音频信号的音频数据块进行时频变换,得到时频变换参数;时频合成模块,用于对所述时频变换参数进行时频反变换,得到重构的音频数据。
本发明所提供的音频信号处理方法包括:对原始音频信号的数据块进行拆分,并对数据块进行时频变换处理,得到可描述原始音频信号的时频变换参数;还对完成拆分的数据块进行心理声学分析并对分析结果进行组合,得到可描述原始音频信号的合成的掩蔽曲线。
本发明所提供的音频信号发送装置包括时频分析模块和心理声学模块;其中,心理声学模块,用于对收到的原始音频信号的音频数据块进行拆分,对拆分后的数据块进行心理声学分析,并将分析所得的多个掩蔽曲线合成得到最后的掩蔽曲线;时频分析模块,用于对收到的原始音频信号的音频数据块进行时频变换,得到时频变换参数。
本发明所提供的音频信号接收装置为时频合成模块,该模块用于对收到的时频变换参数进行时频反变换,并用时频反变换所得到的时域信号结合包含有数据块拆分信息的边信息,计算得到重构的音频数据。
参见图2,图2是本发明一较佳实施例的音频信号编码器结构及原理示意图。图2中,将原始音频信号输入音频预处理模块210和预回声判决模块220;其中,预回声判决模块220根据收到的原始音频信号的时域和/或频域特性判决原始音频信号产生预回声的可能性;并将该判决结果以判决边信息的形式发送给音频预处理模块210、剩余信号分析及量化与编码模块250。
具体而言,无论预回声判决模块220执行的所述判决操作怎样,其关键在于确定原始音频信号中是否存在能够产生预回声的瞬变信号。那么,针对原始音频信号的时域特性而言,瞬变信号往往在时域上表现为幅度的突变,因此可以根据原始音频信号的幅度变化来判定其瞬态或稳态特性,比如:在AC-3音频编码中,先对收到的组成原始音频信号的数据块进行划分,再根据划分出的相邻子数据块幅度峰值之比的大小来判定当前数据块是否包含瞬变信号。
针对原始音频信号的频域特性而言,则可以根据收到的原始音频信号的频域参数特征来判定其瞬态或稳态特性,比如:可以根据感知熵的大小来判定当前数据块是否包含瞬变信号。
当收到来自预回声判决模块220的判决边信息时,音频预处理模块210根据收到的判决边信息对收到的原始音频信号进行相应的预处理。具体而言,当所述判决边信息代表原始音频信号不具有产生预回声的可能性时,音频预处理模块210不对原始音频信号的数据块进行特殊处理,而是直接发送给时频分析模块230和心理声学模块240。通常,可以将这种直接发送的数据块称为I类音频数据。
当所述判决边信息代表原始音频信号具有产生预回声的可能性时,音频预处理模块210则对原始音频信号的数据块进行拆分,尽量使拆分后的各个数据块中只包含单一类型的音频信号,如:将数据块X拆分为数据块A和数据块B,并且数据块A中只包含稳态信号,而数据块B中则只包含瞬态信号。通常,可以将这种被拆分并进行处理以后的数据块称为II类音频数据。
具体的数据块拆分原理如图3、图4所示。参见图3,图3是滑动窗示意图。图3中,将要被拆分的数据块(可称之为数据块D)由1024个样点组成。在进行拆分时,先用两个首尾相接的长度为64个样点的滑动窗SW1和SW2对数据块中的数据进行窗选。SW1和SW2的初始位置可以为:SW1的右端点与数据块前半部分的终点重合,SW2的左端点与数据块后半部分的起始点重合。SW1和SW2的滑动方向如图3所示,滑动的终点则为SW2的右端点与整个数据块的终点重合处;并且,如果在SW2的左端点设一滑动点k,那么可以先计算SW1和SW2内信号的平均/最大能量,再计算SW2内信号的平均/最大能量与SW1内信号的平均/最大能量之比R(k),之后找到R(k)的最大值Rmax。
在找到Rmax时,将Rmax与预先预定的门限值进行比较,并在Rmax大于所述门限值时确定数据块具有产生预回声的可能性;当然,这时还要记录Rmax所对应的k值,并将该k值所对应的样点作为数据块中瞬变信号的起始点。
在实际应用中,当确定了瞬变信号的起始点时,就可以直接将该起始点作为数据块拆分点P(如图4所示)。需要说明的是:为了以较少编码比特表示瞬变信号的起始点,可以进一步将数据块的后半部分进行N等份划分,以近似表示瞬变信号的起始点,比如:取N=8,使得数据块被划分的每个数据等分块的长度为64个样点,并且将包含瞬变信号起始点k的数据等分块的起始点确定为数据块拆分点P。
如果对图4所示的数据块进行拆分,可以以所述数据块拆分点P为界限将数据块D拆分成两个数据块左数据块DL和右数据块DR;那么,拆分后所形成的左数据块和右数据块则分别如图5a、图5b所示。
参见图5a,图5a是数据块被拆分后的左数据块示意图。图5a中,DL是通过将数据块D的数据块拆分点P及其后面的数据归零所得到的。
参见图5b,图5b是数据块被拆分后的右数据块示意图。图5b中,DR是通过将数据块D的数据块拆分点P之前的数据归零所得到的。
在实际应用中,音频预处理模块210所执行的预处理操作除了拆分数据块以外,还包含对完成拆分的数据块进行增益控制和相加等操作,最后形成II类音频数据。
具体而言,所述增益控制的方法通常为:对拆分数据块D后所得到的DR的幅度进行压缩或对DR的部分频带信号的幅度进行压缩。通常,用于进行增益控制的增益因子α的取值为0<α≤1;并且,可以根据应用场景改变增益因子α的取值,如:编码速率越高,增益因子α的取值越大;编码速率越低,增益因子α的取值则越小。通常,可以将完成增益控制后的DR称为(如图6所示),图6中的增益因子α的取值为1/2。
完成对音频数据中的数据块拆分、增益控制以及相加处理后,音频预处理模块210则将完成所述处理后所得到的II类音频数据发送给时频分析模块230和心理声学模块240。
无论收到I类音频数据还是II类音频数据,时频分析模块230都会对来自音频预处理模块210的音频数据块进行时频变换处理,以得到时频变换参数并发送给剩余信号分析及量化与编码模块250。当然,当收到I类音频数据时,时频分析模块230会对来自音频预处理模块210的音频数据块进行时频变换处理,并生成由I类音频数据的修正离散余弦变换(MDCT)系数表示的时频变换参数;当收到II类音频数据时,时频分析模块230则通常对所述数据块进行时频变换处理,并生成由的修正离散余弦变换(MDCT)系数表示的时频变换参数。
至于心理声学模块240,则需要对收到的I类音频数据、II类音频数据区别对待:当收到来自音频预处理模块210的I类音频数据时,心理声学模块240直接对收到的I类音频数据进行心理声学分析,以得到掩蔽曲线并发送给剩余信号分析及量化与编码模块250;当收到来自音频预处理模块210的II类音频数据时,心理声学模块240则对组成II类音频数据的各数据块分别进行心理声学分析,再对得到的多个心理声学分析结果进行合成,以最终得到合成的掩蔽曲线并发送给剩余信号分析及量化与编码模块250。
具体而言,针对II类音频数据,心理声学模块240会收到来自音频预处理模块210的DL和,因而可以通过进行心理声学分析以分别得到DL和的掩蔽曲线:Mas ker DL和并且,心理声学模块240选择 中的一个掩蔽曲线和Mas ker DL合成(假设选择和Mas ker DL合成)。Mas ker DL和如图7所示,其中,标有“+”的曲线代表未标有“+”的曲线代表Mas ker DL;将Mas ker DL和合成后所形成的掩蔽曲线则如图8所示。
具体而言,进行上述的掩蔽曲线合成操作的思路是:通过控制Mas ker DL和的相对幅值和形状来控制二者在所形成的合成掩蔽曲线中起作用的百分比,从而控制针对不同音频分量的比特分配。
在实际应用中,对掩蔽曲线进行合成的方法有多种,比如:
方法一、掩蔽曲线偏移补偿法
方法二:均值差加权偏移补偿法
其中,0<β<1为偏移加权系数。
方法三:加权最小值法
其中,ξL和ξR为加权因子,ξL、ξR>0。
方法四:归一加权和法
其中,0<δ<1。
方法五、非归一加权和法
可见,完成上述操作后,剩余信号分析及量化与编码模块250将收到来自时频分析模块230的时频变换参数、来自心理声学模块240的掩蔽曲线以及来自预回声判决模块220的判决边信息。当收到所述时频变换参数、掩蔽曲线和判决边信息时,剩余信号分析及量化与编码模块250对收到的掩蔽曲线进行量化,以得到掩蔽门限信号;再根据收到的时频变换参数和得到的掩蔽门限信号进行剩余信号分析,以得到消除了人耳听觉不相干性成分的剩余信号,并对得到的剩余信号进行量化处理。之后,剩余信号分析及量化与编码模块250对收到的判决边信息以及得到的剩余信号量化值、掩蔽门限信号进行编码处理,并将编码处理后所形成的编码流发送给编码比特封装模块260。
具体而言,对掩蔽曲线进行量化的操作方法通常为:对掩蔽曲线的各值取整。所述剩余信号分析的方法通常为:用收到的数据块的MDCT系数除以掩蔽门限信号,得到剩余信号;当然,如果在对数域计算,则是用收到的数据块的MDCT系数减去掩蔽门限信号,得到剩余信号。对剩余信号进行量化的操作方法较多,通常可以简单地对剩余信号进行取整处理。
当收到来自剩余信号分析及量化与编码模块250的编码流时,编码比特封装模块260对这些编码流进行合路及封装处理,再将完成封装处理后所形成的编码比特流发送出去。可见,所发送的数据结构中包含有可描述原始音频信号的剩余信号、掩蔽门限信号以及边信息。所述边信息中通常包含有指示数据块编解码方式的标识等;并且,如果数据块具有产生预回声的可能性,那么边信息中还包含有数据块拆分点P的位置信息及增益因子α的信息。当然,如果没有进行增益控制,那么α的值和数据块拆分点P的信息则都没有进行传输的必要。
当图2所示的编码器一侧发送编码比特流时,图9所示的解码器则用于接收并处理相应的编码比特流。参见图9,图9是本发明一较佳实施例的音频信号解码器结构及原理示意图。图9中,编码比特拆封模块910会接收到来自编码器一侧所发送的编码比特流,并对收到的编码比特流按类进行分路处理,得到剩余信号、掩蔽门限信号和边信息的编码数据;之后,再将得到的剩余信号、掩蔽门限信号和边信息的编码数据发送给解码及反量化模块920。
解码及反量化模块920收到来自编码比特拆封模块910的剩余信号、掩蔽门限信号和边信息的编码数据时,对这些编码数据进行解码和反量化处理,并利用处理所得的剩余信号和掩蔽门限信号计算出时频变换参数;之后,再将计算出的时频变换参数和完成解码的边信息发送给时频合成模块930。
具体而言,解码及反量化模块920可以应用得到的剩余信号乘以掩蔽门限信号,以得到时频变换参数;当然,如果是在对数域进行计算,解码及反量化模块920则需要应用得到的剩余信号加上掩蔽门限信号,以得到时频变换参数。
时频合成模块930收到来自解码及反量化模块920的时频变换参数和边信息时,根据收到的边信息对时频变换参数进行时频反变换处理,最终得到重构的音频数据。具体而言,时频合成模块930对收到的时频变换参数进行时频反变换处理,得到时域信号;该时域信号就是前述数据块的重构数据块之后,时频合成模块930利用收到的边信息中所包含的数据块拆分点P的位置信息及增益因子α对得到的数据块的P点及P点之后的数据的幅度进行加权处理,并且加权因子为1/α,以最终得到前述数据块D的重构数据块D′。
经过上述操作后得到的重构数据块D′如图10a所示,而应用现有技术所得到的重构数据块通常如图10b所示。
通过将图10a与图10b对比可见,图10a所示数据块所受到的预回声影响明显比图10b所示数据块所受到的预回声影响小得多;显然,本发明相对现有技术而言能够有效弱化预回声效应。另外,由以上所述还可以看出,本发明没有引入窗切换等能够导致通信延迟的因素,也避免了因采用比特池技术所带来的通信延迟。因此,本发明相对现有技术而言能够明显减小通信延迟。
需要说明的是,图2中,可以将时频分析模块230与心理声学模块240相连,将原始音频信号直接输入时频分析模块230和心理声学模块240;并且,音频预处理模块210和预回声判决模块220所进行的操作可以由心理声学模块240执行,并将执行结果传递给时频分析模块230。
再有,还可以将剩余信号分析及量化与编码模块250分离为两个模块:剩余信号分析模块、比特分配及量化与编码模块。这样,就可以由剩余信号分析模块进行有关剩余信号的分析操作,并将所得的剩余信号、掩蔽门限信号和边信息发送给比特分配及量化与编码模块;比特分配及量化与编码模块则可以对收到的剩余信号、掩蔽门限信号及边信息进行量化和编码等操作,并形成剩余信号、掩蔽门限信号及边信息的编码流。
实际上,音频信号编码器的结构及工作原理还可以如图11所示。图11中,彼此相连的时频分析模块1101、心理声学模块1102均和比特分配及量化与编码模块1103相连,比特分配及量化与编码模块1103则与编码比特封装模块1104相连。
图11中,心理声学模块1102用于对收到的原始音频信号的音频数据块进行拆分,然后对拆分后的数据块进行心理声学分析,得到两个或多个掩蔽曲线,再由两个或多个掩蔽曲线合成得到最后的掩蔽曲线,之后将合成的掩蔽曲线及包含数据块拆分信息的判决边信息发送给比特分配及量化与编码模块1103;并且,心理声学模块1102还将所述判决边信息发送给时频分析模块1101。
当然,心理声学模块1102可以先判断原始音频信号产生预回声的可能性,并在确定原始音频信号可能产生预回声时执行所述拆分操作;而在确定原始音频信号不可能产生预回声时,心理声学模块1102则直接对收到的音频数据块进行心理声学分析,并将分析得到的掩蔽曲线和包含音频数据块信息的判决边信息发送给比特分配及量化与编码模块1103。
时频分析模块1101可以根据收到的判决边信息,对收到的原始音频信号的音频数据块先进行增益控制等预处理,之后对完成预处理的音频数据块进行时频变换,并将得到的时频变换参数发送给比特分配及量化与编码模块1103。
比特分配及量化与编码模块1103根据收到的时频变换参数和掩蔽曲线,对时频变换参数进行量化与编码,得到时频变换参数编码流;并且将收到的掩蔽曲线和判决边信息作为边信息进行量化与编码,得到边信息编码流。之后,比特分配及量化与编码模块1103将得到的时频变换参数和边信息的编码流发送给编码比特封装模块1104,由编码比特封装模块1104对收到的编码流进行封装,并将封装后所形成的编码比特流发送出去。
针对图2中各实体所执行操作的具体描述,同样可以应用于图11,在此不再赘述。
针对图11所述的音频信号发送端而言,相应的音频信号接收端的结构及工作原理与图9所示内容大体相同,不同点在于:编码比特拆封模块910收到的是完成封装的时频变换参数和边信息的编码流,并且对这些编码流进行拆封、分路处理后会得到时频变换参数和边信息的编码数据;编码比特拆封模块910会将得到的时频变换参数和边信息的编码数据发送给解码及反量化模块920;解码及反量化模块920则对收到的时频变换参数和边信息的编码数据进行解码及反量化处理,得到时频变换参数和边信息。
综上所述,本发明所提供的音频信号处理系统、方法以及音频信号收发装置,在减小通信延迟的前提下能够有效弱化预回声效应。
Claims (31)
1.一种音频信号处理系统,其特征在于,该系统包括位于音频信号发送端的时频分析模块、心理声学模块,还包括位于音频信号接收端的时频合成模块;
其中,心理声学模块,用于对收到的原始音频信号的音频数据块进行拆分,对拆分后的数据块进行心理声学分析,并将分析所得的多个掩蔽曲线合成得到最后的掩蔽曲线;
时频分析模块,用于对收到的原始音频信号的音频数据块进行时频变换,得到时频变换参数;
时频合成模块,用于对所述时频变换参数进行时频反变换,得到重构的音频数据;
心理声学模块进一步用于判决收到的原始音频信号产生预回声的可能性。
2.如权利要求1所述的系统,其特征在于,所述心理声学模块、时频分析模块进一步和剩余信号分析及量化与编码模块相连;
所述剩余信号分析及量化与编码模块,用于对心理声学模块和时频分析模块所生成的掩蔽曲线、时频变换参数进行剩余信号分析和量化处理,生成可描述原始音频信号的剩余信号、掩蔽门限信号的编码流并发送出去。
3.如权利要求2所述的系统,其特征在于,所述剩余信号分析及量化与编码模块进一步和编码比特封装模块相连;编码比特封装模块,用于对来自剩余信号分析及量化与编码模块的剩余信号、掩蔽门限信号的编码流进行合路及封装处理,并将完成封装处理后所形成的编码比特流发送出去。
4.如权利要求2或3所述的系统,其特征在于,该系统进一步包含和所述时频合成模块相连的解码及反量化模块,还包含和解码及反量化模块相连的编码比特拆封模块;
其中,编码比特拆封模块,用于对所述剩余信号、掩蔽门限信号的编码流进行分路处理,得到分路后的剩余信号、掩蔽门限信号的编码数据并发送给解码及反量化模块;
解码及反量化模块,用于对收到的剩余信号、掩蔽门限信号的编码数据进行解码和反量化处理,并利用处理所得的剩余信号和掩蔽门限信号计算出时频变换参数,再将计算出的时频变换参数发送给时频合成模块。
5.如权利要求1所述的系统,其特征在于,所述心理声学模块、时频分析模块进一步和比特分配及量化与编码模块相连;
所述比特分配及量化与编码模块,用于根据心理声学模块、时频分析模块所生成的时频变换参数和掩蔽曲线,对时频变换参数进行量化与编码后得到时频变换参数编码流;并且对所述掩蔽曲线和心理声学模块所生成的边信息进行量化与编码后得到边信息编码流。
6.如权利要求5所述的系统,其特征在于,所述比特分配及量化与编码模块进一步和编码比特封装模块相连;编码比特封装模块,用于对比特分配及量化与编码模块所生成的时频变换参数编码流、边信息编码流进行合路及封装处理,并将完成封装处理后所形成的编码比特流发送出去。
7.如权利要求5或6所述的系统,其特征在于,该系统进一步包含和所述时频合成模块相连的解码及反量化模块,还包含和解码及反量化模块相连的编码比特拆封模块;
其中,编码比特拆封模块,用于对所述时频变换参数编码流、边信息编码流进行拆封、分路处理,得到时频变换参数和边信息的编码数据并发送给解码及反量化模块;
解码及反量化模块,用于对收到的时频变换参数和边信息的编码数据进行解码及反量化处理,得到时频变换参数和边信息并发送给时频合成模块。
8.如权利要求1、2、3、5或6所述的系统,其特征在于,所述心理声学模块、时频分析模块进一步与音频预处理模块相连;
所述音频预处理模块,用于对收到的原始音频信号进行包括增益控制在内的预处理,并将完成预处理的原始音频信号发送给心理声学模块和时频分析模块。
9.一种音频信号处理方法,其特征在于,该方法包括:
对原始音频信号的数据块进行拆分,并对数据块进行时频变换处理,得到可描述原始音频信号的时频变换参数;还对完成拆分的数据块进行心理声学分析并对分析结果进行组合,得到可描述原始音频信号的合成的掩蔽曲线;判决收到的原始音频信号产生预回声的可能性。
10.如权利要求9所述的方法,其特征在于,对所述数据块进行拆分的过程为:
确定数据块拆分点,在该拆分点对数据块进行拆分。
11.如权利要求10所述的方法,其特征在于,确定数据块拆分点的方法为:
在数据块中设置滑动窗SW1和SW2,并计算SW1和SW2内信号的平均/最大能量,再计算SW2内信号的平均/最大能量与SW1内信号的平均/最大能量之比R(k),并确定R(k)的最大值Rmax;并且,在Rmax大于预先设置的门限值时将Rmax所对应的k值在数据块中所对应的样点确定为瞬变信号起始点,并将该瞬变信号起始点作为拆分数据块的数据块拆分点。
12.如权利要求11所述的方法,其特征在于,进一步将数据块的后半部分进行等份划分,并且将包含所述瞬变信号起始点的数据等分块的起始点确定为数据块拆分点。
13.如权利要求9所述的方法,其特征在于,对数据块进行所述心理声学分析的过程为:
对完成拆分的数据块进行心理声学分析,对分析所得的多个心理声学分析结果进行合成,得到合成的掩蔽曲线。
15.如权利要求13或14所述的方法,其特征在于,所述合成是通过应用以下方法之一实现的:
掩蔽曲线偏移补偿法、均值差加权偏移补偿法、加权最小值法、归一加权和法、非归一加权和法。
16.如权利要求9所述的方法,其特征在于,该方法进一步包括:
对所述时频变换参数、掩蔽曲线进行剩余信号分析和量化处理,生成可描述原始音频信号的剩余信号、掩蔽门限信号的编码流。
17.如权利要求16所述的方法,其特征在于,所述剩余信号分析和量化处理的过程为:
对所述掩蔽曲线进行量化得到掩蔽门限信号,再根据得到的掩蔽门限信号和所述时频变换参数进行剩余信号分析得到剩余信号,并对得到的剩余信号进行量化处理。
18.如权利要求16所述的方法,其特征在于,进一步对所述剩余信号、掩蔽门限信号的编码流进行解码和反量化处理,利用处理所得的剩余信号和掩蔽门限信号得到时频变换参数;并对得到的时频变换参数进行时频反变换,得到重构的音频数据。
19.如权利要求9所述的方法,其特征在于,该方法进一步包括:
对所述时频变换参数进行量化与编码后得到时频变换参数编码流,并且对包含有数据块拆分信息的边信息和所述掩蔽曲线进行量化与编码后得到边信息编码流。
20.如权利要求19所述的方法,其特征在于,进一步对所述时频变换参数编码流、边信息编码流进行解码及反量化处理,得到时频变换参数和边信息;并对得到的时频变换参数进行时频反变换,再用时频反变换所得到的时域信号结合所述边信息,计算得到重构的音频数据。
21.如权利要求18或20所述的方法,其特征在于,得到所述时频变换参数的方法为:
用所述剩余信号乘以掩蔽门限信号,得到时频变换参数;
或者,在对数域中,用所述剩余信号加上掩蔽门限信号,得到时频变换参数。
22.如权利要求18或20所述的方法,其特征在于,所述时频反变换处理的过程为:
对所述时频变换参数进行时频反变换处理得到时域信号,再根据所述边信息中所包含的数据块拆分点的位置信息对数据块拆分点以及该拆分点之后的数据的幅度进行加权处理。
23.如权利要求9所述的方法,其特征在于,预先判断原始音频信号是否具有产生预回声的可能性,当确定原始音频信号具有产生预回声的可能性时,执行所述数据块拆分操作。
24.如权利要求23所述的方法,其特征在于,判断原始音频信号是否具有产生预回声可能性的方法为:
根据原始音频信号的幅度变化来判定其瞬态或稳态特性所体现的产生预回声的可能性;
或者,根据原始音频信号的频域参数特征来判定其瞬态或稳态特性所体现的产生预回声的可能性。
25.一种音频信号发送装置,其特征在于,该装置包括时频分析模块和心理声学模块;
其中,心理声学模块,用于对收到的原始音频信号的音频数据块进行拆分,对拆分后的数据块进行心理声学分析,并将分析所得的多个掩蔽曲线合成得到最后的掩蔽曲线;心理声学模块进一步用于判决收到的原始音频信号产生预回声的可能性;
时频分析模块,用于对收到的原始音频信号的音频数据块进行时频变换,得到时频变换参数。
26.如权利要求25所述的装置,其特征在于,所述心理声学模块、时频分析模块进一步和剩余信号分析及量化与编码模块相连;
所述剩余信号分析及量化与编码模块,用于对心理声学模块和时频分析模块所生成的掩蔽曲线、时频变换参数进行剩余信号分析和量化处理,生成可描述原始音频信号的剩余信号、掩蔽门限信号的编码流并发送出去。
27.如权利要求26所述的装置,其特征在于,所述剩余信号分析及量化与编码模块进一步和编码比特封装模块相连;编码比特封装模块,用于对来自剩余信号分析及量化与编码模块的剩余信号、掩蔽门限信号的编码流进行合路及封装处理,并将完成封装处理后所形成的编码比特流发送出去。
28.如权利要求25所述的装置,其特征在于,所述心理声学模块、时频分析模块进一步和比特分配及量化与编码模块相连;
所述比特分配及量化与编码模块,用于根据心理声学模块、时频分析模块所生成的时频变换参数和掩蔽曲线,对时频变换参数进行量化与编码后得到时频变换参数编码流;并且对所述掩蔽曲线和心理声学模块所生成的边信息进行量化与编码后得到边信息编码流。
29.如权利要求28所述的装置,其特征在于,所述比特分配及量化与编码模块进一步和编码比特封装模块相连;编码比特封装模块,用于对比特分配及量化与编码模块所生成的时频变换参数编码流、边信息编码流进行合路及封装处理,并将完成封装处理后所形成的编码比特流发送出去。
30.如权利要求25至29任一项所述的装置,其特征在于,所述心理声学模块进一步用于判决收到的原始音频信号产生预回声的可能性。
31.如权利要求25至29任一项所述的装置,其特征在于,所述心理声学模块、时频分析模块进一步与音频预处理模块相连;
所述音频预处理模块,用于对收到的原始音频信号进行包括增益控制在内的预处理,并将完成预处理的原始音频信号发送给心理声学模块和时频分析模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200610125794XA CN101136202B (zh) | 2006-08-29 | 2006-08-29 | 音频信号处理系统、方法以及音频信号收发装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200610125794XA CN101136202B (zh) | 2006-08-29 | 2006-08-29 | 音频信号处理系统、方法以及音频信号收发装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101136202A CN101136202A (zh) | 2008-03-05 |
CN101136202B true CN101136202B (zh) | 2011-05-11 |
Family
ID=39160261
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200610125794XA Expired - Fee Related CN101136202B (zh) | 2006-08-29 | 2006-08-29 | 音频信号处理系统、方法以及音频信号收发装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101136202B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101756834B1 (ko) * | 2008-07-14 | 2017-07-12 | 삼성전자주식회사 | 오디오/스피치 신호의 부호화 및 복호화 방법 및 장치 |
CN101740033B (zh) * | 2008-11-24 | 2011-12-28 | 华为技术有限公司 | 一种音频编码方法和音频编码器 |
CN101826327B (zh) * | 2009-03-03 | 2013-06-05 | 中兴通讯股份有限公司 | 一种基于时域掩蔽的瞬态判决方法及设备 |
CN102169694B (zh) * | 2010-02-26 | 2012-10-17 | 华为技术有限公司 | 生成心理声学模型的方法及装置 |
CN101908342B (zh) * | 2010-07-23 | 2012-09-26 | 北京理工大学 | 利用频域滤波后处理进行音频暂态信号预回声抑制的方法 |
EP3748994B1 (en) | 2015-08-25 | 2023-08-16 | Dolby Laboratories Licensing Corporation | Audio decoder and decoding method |
CN106504766B (zh) * | 2016-11-28 | 2019-11-26 | 湖南国科微电子股份有限公司 | 一种数字音频信号的动态范围压缩方法 |
CN108241091B (zh) * | 2016-12-27 | 2021-09-03 | 北京普源精电科技有限公司 | 利用频谱仪进行2fsk信号峰值搜索的方法及频谱仪 |
CN107068155A (zh) * | 2017-01-23 | 2017-08-18 | 天津大学 | 一种基于方差和时域峰值的多级音频暂稳态判决方法 |
CN112530444B (zh) * | 2019-09-18 | 2023-10-03 | 华为技术有限公司 | 音频编码方法和装置 |
CN110728970B (zh) * | 2019-09-29 | 2022-02-25 | 东莞市中光通信科技有限公司 | 一种数字辅助隔音处理的方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1202250A1 (en) * | 1999-10-29 | 2002-05-02 | Sony Corporation | Signal processing device and method therefor and program storing medium |
CN1388517A (zh) * | 2002-06-05 | 2003-01-01 | 北京阜国数字技术有限公司 | 一种基于伪小波滤波的音频编/解码技术 |
CN1461112A (zh) * | 2003-07-04 | 2003-12-10 | 北京阜国数字技术有限公司 | 一种基于极小化全局噪声掩蔽比准则和熵编码的量化的音频编码方法 |
CN1677490A (zh) * | 2004-04-01 | 2005-10-05 | 北京宫羽数字技术有限责任公司 | 一种增强音频编解码装置及方法 |
WO2005096508A1 (fr) * | 2004-04-01 | 2005-10-13 | Beijing Media Works Co., Ltd | Equipement de codage et de decodage audio ameliore, procede associe |
-
2006
- 2006-08-29 CN CN200610125794XA patent/CN101136202B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1202250A1 (en) * | 1999-10-29 | 2002-05-02 | Sony Corporation | Signal processing device and method therefor and program storing medium |
CN1388517A (zh) * | 2002-06-05 | 2003-01-01 | 北京阜国数字技术有限公司 | 一种基于伪小波滤波的音频编/解码技术 |
CN1461112A (zh) * | 2003-07-04 | 2003-12-10 | 北京阜国数字技术有限公司 | 一种基于极小化全局噪声掩蔽比准则和熵编码的量化的音频编码方法 |
CN1677490A (zh) * | 2004-04-01 | 2005-10-05 | 北京宫羽数字技术有限责任公司 | 一种增强音频编解码装置及方法 |
WO2005096508A1 (fr) * | 2004-04-01 | 2005-10-13 | Beijing Media Works Co., Ltd | Equipement de codage et de decodage audio ameliore, procede associe |
Also Published As
Publication number | Publication date |
---|---|
CN101136202A (zh) | 2008-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101136202B (zh) | 音频信号处理系统、方法以及音频信号收发装置 | |
EP1619664B1 (en) | Speech coding apparatus, speech decoding apparatus and methods thereof | |
JP4743963B2 (ja) | 複数チャネル信号の符号化及び復号化 | |
EP1934973B1 (en) | Temporal and spatial shaping of multi-channel audio signals | |
TWI444990B (zh) | 用以利用複數預測來處理多聲道音訊信號之音訊編碼器、音訊解碼器及相關方法 | |
CN103052983B (zh) | 音频或视频编码器、音频或视频解码器及编码和解码方法 | |
CN101268351B (zh) | 健壮解码器 | |
EP0927988B1 (en) | Encoding speech | |
EP1396841A1 (en) | Encoding apparatus and method; decoding apparatus and method; and program | |
EP1785984A1 (en) | Audio encoding apparatus, audio decoding apparatus, communication apparatus and audio encoding method | |
KR20190072647A (ko) | 위상 보상을 이용하여 멀티 채널 신호를 다운믹싱 또는 업믹싱하는 장치 및 방법 | |
CN102576536B (zh) | 数字音频信号的增强的编码/解码方法和装置 | |
CN105280190B (zh) | 带宽扩展编码和解码方法以及装置 | |
WO2011044700A1 (en) | Simultaneous time-domain and frequency-domain noise shaping for tdac transforms | |
EP2037451A1 (en) | Method for improving the coding efficiency of an audio signal | |
CN101128866A (zh) | 多声道音频编码中的优化保真度和减少的信令 | |
CN101751926A (zh) | 信号编码、解码方法及装置、编解码系统 | |
CN100405460C (zh) | 音频信号编码 | |
CN109300480B (zh) | 立体声信号的编解码方法和编解码装置 | |
EP2133872B1 (en) | Encoding device and encoding method | |
EP2296143B1 (en) | Audio signal decoding device and balance adjustment method for audio signal decoding device | |
US20050160126A1 (en) | Constrained filter encoding of polyphonic signals | |
EP1938315A1 (en) | Signal coding and decoding based on spectral dynamics | |
CN109427338B (zh) | 立体声信号的编码方法和编码装置 | |
JP6951554B2 (ja) | ステレオ信号符号化の間に信号を再構成する方法及び機器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20110511 Termination date: 20170829 |