CN114007176B

CN114007176B - 用于降低信号延时的音频信号处理方法、装置及存储介质

Info

Publication number: CN114007176B
Application number: CN202011072173.6A
Authority: CN
Inventors: 陆丛希; 李林锴; 袁宇帆; 孙鸿程
Original assignee: Shanghai Youwei Intelligent Technology Co ltd
Current assignee: Shanghai Youwei Intelligent Technology Co ltd
Priority date: 2020-10-09
Filing date: 2020-10-09
Publication date: 2023-12-19
Anticipated expiration: 2040-10-09
Also published as: US20230402052A1; WO2022073478A1; CN114007176A

Abstract

本申请公开了一种音频信号处理方法，音频信号处理方法包括：提供输入音频信号，所述输入音频信号包括以预定帧移相互偏移且具有预定帧长的多个输入数据帧；以第一窗函数依序对所述多个输入数据帧进行第一加窗处理；对第一加窗处理后的输入音频信号进行预定信号处理，并生成输出音频信号；其中所述输出音频信号具有与所述输入音频信号的多个输入数据帧对应的多个输出数据帧，并且所述多个输出数据帧具有所述预定帧长；以第二窗函数依序对所述多个输出数据帧进行第二加窗处理；以及，以所述预定帧移叠加地输出经第二加窗处理的所述多个输出数据帧。

Description

用于降低信号延时的音频信号处理方法、装置及存储介质

技术领域

本申请涉及音频处理技术，更具体地，涉及一种用于降低信号延时的音频信号处理方法、装置及存储介质。

背景技术

在音频设备中，音频信号的处理过程中的信号延时是不期望的，特别是对于某些实时性要求较高的应用，例如助听设备，从音频输入到音频输出的总系统延时期待尽量控制在10毫秒以下，最慢不能超过20毫秒，否则将对语言识别造成影响。然而，现有的音频设备往往难以满足前述的低延时的要求。

因此，有必要提供一种用于音频设备的音频信号处理方法，以解决现有技术中延时较高的问题。

发明内容

本申请的一个目的在于提供一种用于降低信号延时的音频信号处理方法。

在本申请的一个方面，提供了一种音频信号处理方法，包括：提供输入音频信号，所述输入音频信号包括以预定帧移相互偏移且具有预定帧长的多个输入数据帧；以第一窗函数依序对所述多个输入数据帧进行第一加窗处理，所述第一窗函数在其起始端点与终止端点处分别对准每个输入数据帧的两端；其中，所述第一窗函数包括位于其起始区域的起始函数部分、位于其终止区域的终止函数部分以及位于其中间区域的中间函数部分，所述中间区域位于所述起始区域与所述终止区域之间；并且其中，所述中间函数部分具有第一加权系数，所述起始函数部分从所述起始端点处的0变化为邻接所述中间区域的第一加权系数，所述终止函数部分从邻接所述中间区域的第一加权系数变化为所述终止端点处的0；对第一加窗处理后的输入音频信号进行预定信号处理，并生成输出音频信号；其中所述输出音频信号具有与所述输入音频信号的多个输入数据帧对应的多个输出数据帧，并且所述多个输出数据帧具有所述预定帧长；以第二窗函数依序对所述多个输出数据帧进行第二加窗处理，所述第二窗函数在其起始端点和终止端点分别对准每个输出数据帧的两端；其中，所述第二窗函数包括位于其抑制区域的抑制函数部分、位于其输出区域的输出函数部分以及位于其补偿区域的补偿函数部分，所述补偿区域位于所述抑制区域与所述输出区域之间，所述输出区域的长度等于所述终止区域的长度；并且其中，所述抑制函数部分起始于所述起始端点处的0且用于抑制信号输出；所述输出函数部分终止于所述终止端点处的0；所述补偿函数部分用于提供与所述输出函数部分相关的信号加权并且补偿所述终止函数部分与所述第一加权系数之间的信号加权差异，并且其从邻接所述抑制区域的抑制函数部分变化为邻接所述输出区域的所述输出函数部分；以及以所述预定帧移叠加地输出经第二加窗处理的所述多个输出数据帧。

在本申请的其他方面，还提供一种音频信号处理装置和非暂态计算机存储介质。

以上为本申请的概述，可能有简化、概括和省略细节的情况，因此本领域的技术人员应该认识到，该部分仅是示例说明性的，而不旨在以任何方式限定本申请范围。本概述部分既非旨在确定所要求保护主题的关键特征或必要特征，也非旨在用作为确定所要求保护主题的范围的辅助手段。

附图说明

通过下面说明书和所附的权利要求书并与附图结合，将会更加充分地清楚理解本申请内容的上述和其他特征。可以理解，这些附图仅描绘了本申请内容的若干实施方式，因此不应认为是对本申请内容范围的限定。通过采用附图，本申请内容将会得到更加明确和详细地说明。

图1示出了现有音频设备的音频信号处理链路中信号延时的组成；

图2示出了根据本申请一个实施例的音频设备的模块示意图；

图3示出了根据本申请一个实施例的示例性音频信号被处理的过程；

图4a和图4b示出了图3所示的第一窗函数和第二窗函数的放大示意图；

图5a和图5b示出了根据本申请一个实施例的第一窗函数和第二窗函数的另一示例；

图6示出了输入数据帧与输出数据帧具有不等长度的分段的示例。。

具体实施方式

在下面的详细描述中，参考了构成其一部分的附图。在附图中，类似的符号通常表示类似的组成部分，除非上下文另有说明。详细描述、附图和权利要求书中描述的说明性实施方式并非旨在限定。在不偏离本申请的主题的精神或范围的情况下，可以采用其他实施方式，并且可以做出其他变化。可以理解，可以对本申请中一般性描述的、在附图中图解说明的本申请内容的各个方面进行多种不同构成的配置、替换、组合，设计，而所有这些都明确地构成本申请内容的一部分。

图1示出了现有音频设备的音频信号处理链路中信号延时的组成。该现有音频设备的音频信号处理链路可以包括音频采集模块、信号处理模块以及音频播放模块，这些模块对音频信号进行处理的过程会引入各种类型的信号延时。

具体地，音频采集模块用于对模拟形式的原始音频信号进行采集，并生成对应的数字格式的音频数据点。通常来说，音频采集模块可以以预定的采样率，例如16kHz，对原始音频信号进行采样，并且可以按照预定帧长，例如10毫秒，来对采集生成的音频数据点进行分帧，从而生成具有预定帧长的多个输入数据帧，这些连续的多个输入数据帧即构成了输入音频信号。每个输入数据帧可以包括对应数量的音频数据点。例如，在以16kHz采样率采集音频信号并且帧长为10毫秒的情况下，每个输入数据帧可以具有160个音频数据点。可以理解，在前述的例子中帧长被表示为时间长度，在另一些情况下，帧长也可以被表示为音频数据点的数量，例如帧长为160个音频数据点或256个音频数据点，此时音频数据点的采样率与每帧音频数据点的数量对应于以时间长度表示的帧长。

音频采集模块对原始音频信号的采集会引入音频采集延时101。对于一些现有的音频设备，其音频采集模块仅在产生一个输入数据帧之后，才会继续对原始音频信号继续进行采集，并且生成下一个输入数据帧。这意味着每两个相邻的输入数据帧是不相互重叠的，因此这时音频采集模块引入的音频采集延时101等于输入数据帧的帧长。此外，在音频采集过程中还会引入硬件输入延时103，其取决于模拟/数字信号的转换延时，通常为1-2毫秒。在此之后，采集生成的输入音频信号会被发送给信号处理模块，并且由信号处理模块基于预定的信号处理算法对输入音频信号进行处理，这会引入算法处理延时105。算法处理延时105通常与帧长成比例，例如为帧长的0.2至0.5倍。输出音频信号可以具有与输入音频信号相同的帧长，例如，输出音频信号可以包括均具有预定帧长的多个输出数据帧。输出音频信号会被发送给音频播放模块，并且由音频播放模块播放以供音频设备的使用者收听。在此过程中，音频播放模块会引入硬件输出延时107以及音频播放延时109。其中，与硬件输入延时103类似，硬件输出延时107主要取决于音频信号的数字/模拟转换，其通常为1-2毫秒。在该现有音频设备中，音频播放模块对输出音频信号的播放和处理是以输出数据帧为单位的，也即在接收到每个输出数据帧之后，音频播放模块才会播放该输出数据帧的内容，因此音频播放延时109也等于输出数据帧的帧长。通常而言，为了满足后续频谱分析和处理的要求，数据帧的帧长至少为20毫秒。

可以看出，在图1所示的现有音频设备的音频信号处理过程中，取决于数据帧的帧长的音频采集延时101和音频播放延时109对总信号延时影响最为显著。如果需要降低总信号延时，必须降低这两种类型的信号延时。

为了解决现有音频设备中存在的高信号延时的问题，本申请的实施例在音频采集的分帧处理时不是背对背地截取音频数据点，而是相互重叠一部分进行截取，也即在不同的数据帧之间引入了帧移；相应地，在音频播放时，相邻数据帧之间也以相同的帧移偏移。这使得音频采集延时与音频播放延时从数据帧帧长减小到帧移的大小，因而音频信号处理链路的总信号延时显著降低。此外，本申请的实施例还通过特殊设计的窗函数对数据帧进行加窗处理，这有效地保留了原始信号中的信息，从而使得播放的音频信号能够更好地还原原始音频信号。

图2示出了根据本申请一个实施例的音频设备200的模块示意图。在一个例子中，该音频设备可以是助听设备，在另一些例子中，该音频设备也可以是无线耳机(例如采用蓝牙传输协议的无线耳机)、扬声器或其他有线或无线音频设备。

如图2所示，该音频设备200包括音频采集模块201，其用于对原始音频信号进行采集，并生成对应的数字格式的音频数据点。音频采集模块201还用于对生成的音频数据点以预定帧移进行分帧，从而生成包括多个输入数据帧的输入音频信号。在输入音频信号中，相邻的两个输入数据帧的起始位置存在预定帧移，该预定帧移的大小小于帧长。在一些实施例中，每个输入数据帧可以包括N个相等长度的分段，其中N为不小于2的整数，而帧移的大小可以等于帧长的1/N。由于每过一个帧移后，新的输入数据帧就会被提供以进行后续处理，因此音频采集延时实质上被减小到与帧移的大小相同。例如帧移为帧长的1/N时，音频采集延时则被分别减小到帧长的1/N。在一些其他的实施例中，帧移也可以是多个分段的长度，例如2个、3个或更多个。

音频设备200还包括第一加窗模块203，其用于以第一窗函数依序对输入音频信号的多个输入数据帧进行第一加窗处理。采用相互重叠且具有帧移的输入音频信号的另一优势在于其能够提供相对平稳的信号，这对于需要进行加窗处理的音频信号而言是非常有利的。加窗处理可以减少信号的时域-频域和频域-时域转换过程中的频谱泄露，而时域-频域和频域-时域是频域信号处理所必需的。

正如图2所示，音频设备200还包括时域-频域转换模块205、信号处理模块207以及频域-时域转换模块209，其依序对第一加窗处理后的输入音频信号进行处理。具体地，信号处理模块207所实施的信号处理算法通常是频域信号处理算法，而输入音频信号是时域信号，因此信号处理模块207前级的时域-频域转换模块205会对输入音频信号预先进行时域-频域信号转换，而在算法处理之后，信号处理模块207后级的频域-时域转换模块209再对信号进行频域-时域信号转换，从而生成时域形式的输出音频信号。类似于输入音频信号，在一些实施例中，输出音频信号也包括具有与输入音频信号的多个输入数据帧对应的多个输出数据帧，并且这些输出数据帧以预定帧移相互偏移且具有与输入数据帧相同的预定帧长。

音频设备200还包括第二加窗模块211，其用于以第二窗函数依序对输出音频信号的多个输出数据帧进行第二加窗处理。关于第二加窗处理以及第一加窗模块203进行的第一加窗处理的更多细节，将在下文中结合示例进一步说明。

在经第二加窗模块211处理后，输出音频信号可以被发送给音频播放模块213，并由其播放给音频设备200的使用者收听。可以理解，在输出音频信号中，相邻的两个输出数据帧的起始位置存在预定帧移，该预定帧移的大小小于帧长。在一些实施例中，每个输出数据帧可以包括N个分段，其中N为不小于2的整数，而帧移的大小可以等于帧长的1/N。由于每过一个帧移后，新的输出数据帧就会被提供给音频播放模块213，因此音频播放延时实质上被减小到与帧移的大小相同。例如帧移为帧长的1/N时，音频播放延时则被分别减小到帧长的1/N。

图3示出了根据本申请一个实施例的示例性音频信号被处理的过程。

如图3所示，原始音频信号可以被信号采集模块采集，并生成以预定帧移相互偏移的多个输入数据帧(图3中未示出每个输入数据帧包括的数据点)，例如如图3所示的第i帧输入数据帧、第i+1帧输入数据帧以及第i+2帧输入数据帧，其中i为正整数。在图3的示例中，这3帧输入数据帧分别包括4个相等长度的分段，并且相互偏移一个分段的长度，也即1/4帧输入数据帧的帧长。需要说明的是，在实际应用中，每个输入数据帧包括的分段的数量，以及两个相邻输入数据帧之间的帧移可以根据实际需要调整。

对于输入音频信号中的多个输入数据帧，第一加窗模块可以以第一窗函数依序对其进行第一加窗处理。参考图3，第一窗函数301具有起始端点301a和终止端点301b，其分别对准每个输入数据帧的两端。例如，在第T_i时刻，第一窗函数301的两端分别对准第i帧输入数据帧的两端，以对其进行加窗处理；在第T_i+1时刻，第一窗函数301的两端分别对准第i+1帧输入数据帧的两端，以对其进行加窗处理；在第T_i+2时刻，第一窗函数301的两端分别对准第i+2帧输入数据帧的两端，以对其进行加窗处理。

在图3所示的实施例中，第一窗函数301对应的窗体可以被划分为起始于起始端点301a的起始区域303、终止于终止端点301b的终止区域305以及位于起始区域303和终止区域305之间的中间区域307。其中，第一窗函数301在中间区域307内具有相同的第一加权系数；第一窗函数301还具有位于起始区域303的起始函数部分，其从起始端点301a处的0变化为邻接中间区域307的第一加权系数；第一窗函数301还具有位于终止区域305的终止函数部分，其从邻接中间区域307的第一加权系数变化为终止端点301b处的0。

第一窗函数301在起始端点301a和终止端点301b处的值为0可以有效地抑制频谱泄露。中间区域307内的第一加权系数决定了第一加窗处理后输入数据帧中保留的音频信息。在一些实施例中，第一加权系数可以为1，也即每个输入数据帧对准中间区域307的部分的音频信息在第一加窗处理时是没有衰减的。在一些其他的实施例中，第一加权系数也可以是其他值，例如0.5至1。在实际应用中，中间区域307可以尽量地扩展。在图3所示的示例中，中间区域307的长度为输入数据帧的2个分段，而起始区域303和终止区域305的长度分别为输入数据帧的1个分段。在一些优选的例子中，例如当输入数据帧具有8个分段时，中间区域307的长度可以为输入数据帧的6个分段，而起始区域303和终止区域305的长度分别为输入数据帧的1个分段；再例如当输入数据帧具有16个分段时，中间区域307的长度可以为输入数据帧的14个分段，而起始区域303和终止区域305的长度分别为输入数据帧的1个分段。可以理解，在一些其他的例子中，起始区域303和终止区域305也可以具有其他的长度。例如当输入数据帧具有16个分段时，中间区域307的长度可以为输入数据帧的12个分段，而起始区域303和终止区域305的长度分别为输入数据帧的2个分段。

正如前述，起始区域303中的起始函数部分从起始端点301a处的0变化为邻接中间区域307的第一加权系数(例如1)，而终止区域305中的终止函数部分则从邻接中间区域307的第一加权系数(例如1)变化为终止端点301b处的0。起始函数部分与终止函数部分可以与一些现有的窗函数相同或相似。在图3所示的实施例中，起始函数部分可以拟合汉宁窗函数的起始半侧的函数部分，而终止函数部分则拟合汉宁窗函数的终止半侧的函数部分。换言之，相比于现有的汉宁窗函数，第一窗函数具有额外的中间区域来提供较高的第一加权系数，以尽可能多地保留输入数据帧中的音频信息。

在依序加窗处理完输入数据帧之后，这些输入数据帧可以在时域-频域转换后被进行频域信号处理。频域信号处理得到的信号在频域-时域转换后形成包括多个输出数据帧的输出音频信号。第二加窗模块可以以第二窗函数依序对这些输出数据帧进行第二加窗处理。继续参考图3，第二窗函数311具有起始端点311a和终止端点311b，其分别对准每个输出数据帧的两端。例如，在第T’_i时刻，第二窗函数311的两端分别对准第i帧输出数据帧的两端，以对其进行加窗处理；在第T’_i+1时刻，第二窗函数311的两端分别对准第i+1帧输出数据帧的两端，以对其进行加窗处理；在第T’_i+2时刻，第二窗函数311的两端分别对准第i+2帧输出数据帧的两端，以对其进行加窗处理。需要说明的是，在图3所示的示例中第i、i+1和i+2帧输出数据帧的波形未被示出，因而第二加窗处理被表示为对准第i、i+1和i+2帧输入数据帧，但是本领域技术人员可以理解，经由加窗处理后，每个输出数据帧可以具有对应的输入数据帧不同的信息和波形。

第二窗函数311对应的窗体可以被划分为起始于其起始端点311a的抑制区域313、终止于其终止端点311b的输出区域315以及位于抑制区域313和输出区域315之间的补偿区域317。抑制区域313具有用于抑制对准该区域的输出数据帧中的数据输出的抑制函数部分。在一些实施例中，该抑制函数部分可以被设置为在抑制区域313的长度范围内均等于0。换言之，在第二加窗处理后，输出数据帧中对准抑制区域313的数据可以不被发送给音频播放模块，也就不会被播放给音频设备的使用者。在另一些实施例中，抑制函数部分也可以具有其他函数曲线，其大体从起始端点311a处的0变化到某个加权值，例如小于1的一个值。可以理解，由于抑制函数部分用于抑制数据输出，因此抑制区域的长度大体互补于输出数据帧中希望输出的长度。在图3所示的示例中，输出数据帧包括4个相等的分段，输出区域315和补偿区域317各占据1个分段，那么抑制区域313的长度就等于2个分段。

输出区域315的长度等于第一窗函数301的终止区域303的长度，因此其对输出数据帧的处理大体对应于终止区域303对输入数据帧的处理。第二窗函数311具有位于输出区域315的输出函数部分，其从邻接补偿区域317的补偿函数部分变化为终止端点311b处的0；第二窗函数311还具有位于补偿区域317的补偿函数部分，补偿函数部分用于提供与输出函数部分相关的信号加权并且补偿终止函数部分与第一加权系数之间的信号加权差异，其从邻接抑制区域313的抑制函数部分变化为邻接输出区域315的输出函数部分。例如，补偿函数部分是终止函数部分与输出函数部分的乘积再除以第一加权系数的商。在第一加权系数等于1的情况下，补偿函数部分是终止区域303的终止函数部分与输出函数部分的乘积。具体地，从图3可以看出，经第二加窗处理的输出数据帧是以预定帧移相互偏移后被叠加输出，因此第i帧输出数据第4分段与第i+1帧输出数据帧的第3分段相互叠加后输出。然而，在两次加窗处理过程中，第i帧输入/输出数据帧的第4分段分别被以终止函数部分和输出函数部分处理，而第i+1帧输入数据帧的第3分段在第一加窗处理时是以中间区域的第一加权系数加权的(当加权系数为1时相当于未被衰减)，因此在第二加窗处理时以终止函数部分与输出函数部分的乘积再除以第一加权系数这样的函数曲线来处理第i+1帧输出数据帧的第3分段，从整个信号处理过程来看，这样的处理方式可以使得这两个将被叠加输出的分段可以以相同的加权函数处理，从而补偿了之前的第一加窗处理的信号加权处理的不一致。类似地，第i+1帧输出数据第4分段与第i+2帧输出数据帧的第3分段相互叠加后输出，在第二加窗处理时以终止函数部分与输出函数部分的乘积来处理第i+2帧输出数据帧的第3分段使得其与第i+1帧输出数据帧的第4分段这两个将被叠加输出的分段可以以相同的加权函数处理。

需要说明的是，对于输出数据帧的每个分段而言，其在输出时的叠加操作中可以对应于相邻数据帧中的分段，因此在叠加操作中这些对应的分段会被叠加输出。例如，图3中的第i+2帧输出数据帧的第3分段对应于第i+1帧输出数据帧的第4分段。然而，音频播放设备通常播放具有预定帧长的输出音频信号，因此在一些实施例中，叠加输出的经第二加窗处理的多个输出数据帧仍保持预定帧长，例如如图3所示的保持4个分段的长度。因此，对于相邻的两个输出数据帧，其在输出时可能并非完整地输出，而是仅输出与输出时间窗口(其具有预定帧长)对准的一部分。仍参考图3所示，在T’_i+1时刻，输出时间窗口可以对准于第i帧输出数据帧，因此第i帧输出数据帧的第3和第4分段可以经第二加窗处理后输出，而第i+1帧输出数据帧的第3分段落入该输出时间窗口内，因此其也经第二加窗处理后输出，但第i+2帧输出数据帧中落入输出时间窗口的第2分段被第二加窗处理后被抑制输出，以及i+3帧输出数据帧(图中未示出)的第1分段也被抑制输出，因此，此时，实际输出的经第二加窗处理的输出音频信号仅包括第i帧输出数据帧的第3和第4分段(经第二加窗处理)以及第i+1帧输出数据帧的第3分段(经第二加窗处理)。其他时刻具有类似的输出信号构成，在此不再赘述。

可以理解，图3的输出数据帧的叠加输出之所以仅输出两个相邻输出数据帧的3个分段，是因为第二加窗处理中抑制区域(加权系数为0)占据了4个分段(帧长)中2个分段的长度。在一些其他的实施例中，取决于帧长、每个输出数据帧的分帧数量以及抑制函数区域的抑制函数部分的曲线/加权系数，最终输出的信号的构成可能会有所不同，本领域技术人员可以根据实际情况确定。

在图3所示的例子中，N被取值为4，在其他的示例中，N可以为不小于2的正整数。需要注意的是，N可取的最大值应小于帧长的一半，也即，即每个分段的长度应大于2个数据点，否则帧长/N不是整数，这会导致无法拆分数据点。具体地，当N等于帧长时，第一窗函数处理的数据帧的前两个数据点和后两个数据点都是0-1突变，这使得其不能起到窗函数应有的抑制频谱泄露的效果，且第二窗函数为零。当N等于帧长的一半时，第二窗函数在进行相邻输出数据帧的叠加过程中主要只保留了前一次处理的第一分段和后一次处理的第二分段，没有解决帧与帧之间的平滑过渡问题。只有当帧长/N>＝3时，过渡的数据帧的长度才逐渐能实现数据帧的平滑。

图4a和图4b示出了图3所示的第一窗函数和第二窗函数的放大示意图。如图4a所示，起始区域内的起始函数部分拟合汉宁窗函数的起始半侧的函数部分，终止区域内的终止函数拟合汉宁窗函数的终止半侧的函数部分；中间区域内各处的加权系数均为1。如图4b所示，抑制区域内各处的加权函数均为0，输出区域内的输出函数部分拟合汉宁窗函数的终止半侧的函数部分，而补偿区域内的补偿函数是汉宁窗函数的终止半侧的函数部分的乘积。

因此，假设起始区域和终止区域的长度均为L/N，其中L为一个输入数据帧或输出数据帧的长度，N为大于2的正整数，那么图4a中的第一窗函数w1(n)可以被表示为下述表达式：

图4b中的第二窗函数w2(n)可以被表示为下述表达式：

图5a和图5b示出了根据本申请一个实施例的第一窗函数和第二窗函数的另一示例。如图5a所示，起始区域内的起始函数部分拟合平顶窗函数的起始半侧的函数部分，终止区域内的终止函数拟合平顶窗函数的终止半侧的函数部分；中间区域内各处的加权系数均为1。如图5b所示，抑制区域内各处的加权函数均为0，输出区域内的输出函数部分拟合平顶窗函数的终止半侧的函数部分，而补偿区域内的补偿函数是平顶窗函数的终止半侧的函数部分的乘积。

因此，图5a中的第一窗函数w1’(n)可以被表示为下述表达式：

其中a₀＝1，a₁＝1.93，a₂＝1.29，a₃＝0.388，a₄＝0.032。

图5b中的第二窗函数w2’(n)可以被表示为下述表达式：

其中a₀＝1，a₁＝1.93，a₂＝1.29，a₃＝0.388，a₄＝0.032。

可以理解，图4a-4b以及图5a-5b仅示例性地说明了窗函数的形状，特别是其起始函数部分、终止函数部分以及输出函数部分可以采用的形状。本领域技术人员可以根据实际应用的需要，对这些部分的形状进行调整，并且补偿函数部分可以根据其他部分的形状而调整。

需要说明的是，在本申请的上述实施例中，均以输入数据帧和输出数据帧包括N个相等长度的分段进行说明，并且相邻数据帧之间的帧移等于一个分段的长度。在一些其他的实施例中，输入数据帧和输出数据帧可以具有相同或不同数量的分段，例如输入数据帧可以具有M个分段，输出数据帧可以具有N个分段，其中M和N是大于2的正整数，并且M可以等于N或不等于N。在一些实施例中，M个分段中的至少一部分分段具有不相等的长度，和/或N个分段中的至少一部分具有不相等的长度。此外，相邻输入数据帧以及相邻输出数据帧之间的帧移应当相等，这可以使得第二窗函数的补偿函数部分对输出数据帧的处理能够补偿第一窗函数中终止函数部分与第一加权系数之间的信号加权差异。例如，帧移应等于输入数据帧的M个分段中最后输入的分段的长度，并且等于输出数据帧的N个分段中最后输出的分段的长度。

图6示出了输入数据帧与输出数据帧具有不等长度的分段的示例。如图6所示，输入数据帧和输出数据帧的帧长均为10ms。其中，输入数据帧1和2具有长度分别为2.2ms、4.4ms以及3.4ms的3个分段，并且其间的帧移为2.2ms，也即与最后输入的分段的长度相等；输入数据帧1和2具有长度分别为2.2ms、4.4ms以及3.4ms的3个分段，并且这两个相邻帧之间的帧移为2.2ms，也即与最后输入的分段的长度相等；输出数据帧1和2具有长度分别为2.2ms、5.6ms以及2.2ms的3个分段，并且这两个相邻帧之间的帧移为2.2ms，也即与最后输出的分段的长度相等。类似于图3和图4所示的示例，与每个输出数据帧中的第二个分段对准的第二窗函数的补偿区域可以具有补偿函数部分，其能够补偿在第一加窗处理过程中输入数据帧2的第二个分段中因第一窗函数中的终止函数部分与第一加权系数之间的信号加权差异，也即图6所示的2.2ms长度的被补偿数据的部分。本领域技术人员可以理解，图6所示的例子仅仅是示意性的，在实际应用中，可以根据数据帧的帧移、分段以及其他因素来设计第一窗函数和第二窗函数的具体函数曲线。

在一些实施例中，本申请还提供了一些计算机程序产品，其包括非暂态计算机可读存储介质。该非暂态计算机可读存储介质包括计算机可执行的代码，用于执行图3所示的方法实施例中的步骤。在一些实施例中，计算机程序产品可以被存储在硬件装置中，例如音频信号处理装置中。

本发明的实施例可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现。

应当注意，尽管在上文详细描述中提及了音频信号处理方法、装置和存储介质的若干步骤或模块，但是这种划分仅仅是示例性的而非强制性的。实际上，根据本申请的实施例，上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之，上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。

本技术领域的一般技术人员可以通过研究说明书、公开的内容及附图和所附的权利要求书，理解和实施对披露的实施方式的其他改变。在权利要求中，措词“包括”不排除其他的元素和步骤，并且措辞“一”、“一个”不排除复数。在本申请的实际应用中，一个零件可能执行权利要求中所引用的多个技术特征的功能。权利要求中的任何附图标记不应理解为对范围的限制。

Claims

1.一种音频信号处理方法，其特征在于，所述音频信号处理方法包括：

提供输入音频信号，所述输入音频信号包括以预定帧移相互偏移且具有预定帧长的多个输入数据帧；

以第一窗函数依序对所述多个输入数据帧进行第一加窗处理，所述第一窗函数在其起始端点与终止端点处分别对准每个输入数据帧的两端；其中，所述第一窗函数包括位于其起始区域的起始函数部分、位于其终止区域的终止函数部分以及位于其中间区域的中间函数部分，所述中间区域位于所述起始区域与所述终止区域之间；并且其中，所述中间函数部分具有第一加权系数，所述起始函数部分从所述起始端点处的0变化为邻接所述中间区域的第一加权系数，所述终止函数部分从邻接所述中间区域的第一加权系数变化为所述终止端点处的0；

对第一加窗处理后的输入音频信号进行预定信号处理，并生成输出音频信号；其中所述输出音频信号具有与所述输入音频信号的多个输入数据帧对应的多个输出数据帧，并且所述多个输出数据帧具有所述预定帧长；

以第二窗函数依序对所述多个输出数据帧进行第二加窗处理，所述第二窗函数在其起始端点和终止端点分别对准每个输出数据帧的两端；其中，所述第二窗函数包括位于其抑制区域的抑制函数部分、位于其输出区域的输出函数部分以及位于其补偿区域的补偿函数部分，所述补偿区域位于所述抑制区域与所述输出区域之间，所述输出区域的长度等于所述终止区域的长度；并且其中，所述抑制函数部分起始于所述起始端点处的0且用于抑制信号输出；所述输出函数部分终止于所述终止端点处的0；所述补偿函数部分用于提供与所述输出函数部分相关的信号加权并且补偿所述终止函数部分与所述第一加权系数之间的信号加权差异，并且其从邻接所述抑制区域的抑制函数部分变化为邻接所述输出区域的所述输出函数部分；以及

以所述预定帧移叠加地输出经第二加窗处理的所述多个输出数据帧。

2.根据权利要求1所述的音频信号处理方法，其特征在于，每个输入数据帧和每个输出数据帧分别包括N个分段，其中N为不小于2的整数。

3.根据权利要求2所述的音频信号处理方法，其特征在于，所述N个分段具有相等的长度，所述预定帧移等于所述分段的长度。

4.根据权利要求3所述的音频信号处理方法，其特征在于，所述起始区域、终止区域、补偿区域和输出区域的长度均等于一个分段的长度。

5.根据权利要求4所述的音频信号处理方法，其特征在于，所述抑制区域的长度等于一个或多个分段的长度。

6.根据权利要求4所述的音频信号处理方法，其特征在于，所述中间区域的长度等于一个或多个分段的长度。

7.根据权利要求1所述的音频信号处理方法，其特征在于，所述第一加权系数等于或小于1。

8.根据权利要求7所述的音频信号处理方法，其特征在于，所述补偿函数部分是所述终止函数部分与所述输出函数部分的乘积再除以第一加权系数的商。

9.根据权利要求1所述的音频信号处理方法，其特征在于，每个输入数据帧包括M个分段，每个输出数据帧包括N个分段，其中M和N为不小于2的整数，所述M个分段中的至少一部分分段具有不相等的长度，所述N个分段中的至少一部分分段具有不相等的长度，并且所述预定帧移等于所述输入数据帧的M个分段中最后输入的分段的长度、并且等于所述输出数据帧的N个分段中最后输出的分段的长度。

10.根据权利要求9所述的音频信号处理方法，其特征在于，M和N不相等。

11.根据权利要求1所述的音频信号处理方法，其特征在于，所述抑制函数部分在所述抑制区域保持为0。

12.根据权利要求1至11中任一项所述的音频信号处理方法，其特征在于，所述第一窗函数的起始函数部分拟合汉宁窗函数的起始半侧的函数部分，所述第一窗函数的终止函数部分拟合汉宁窗函数的终止半侧的函数部分。

13.根据权利要求12所述的音频信号处理方法，其特征在于，所述第二窗函数的输出函数部分拟合汉宁窗函数的终止半侧的函数部分。

14.根据权利要求1至11中任一项所述的音频信号处理方法，其特征在于，所述第一窗函数的起始函数部分拟合平顶窗函数的起始半侧的函数部分，所述第一窗函数的终止函数部分拟合平顶窗函数的终止半侧的函数部分。

15.根据权利要求14所述的音频信号处理方法，其特征在于，所述第二窗函数的输出函数部分拟合平顶窗函数的终止半侧的函数部分。

16.根据权利要求1至11中任一项所述的音频信号处理方法，其特征在于，所述第二窗函数的输出函数部分与所述第一窗函数的终止函数部分相同。

17.根据权利要求1所述的音频信号处理方法，其特征在于，对第一加窗处理后的输入音频信号进行预定信号处理包括：

对第一加窗处理后的输入音频信号进行时域-频域转换；

以预定的频域信号处理算法对所述时域-频域转换后的输入音频信号进行频域信号处理；以及

对频域信号处理后的输入音频信号进行频域-时域转换，以生成输出音频信号。

18.一种音频信号处理装置，其特征在于，所述音频信号处理装置包括非暂态计算机存储介质，其上存储有一个或多个可执行指令，所述一个或多个可执行指令被处理器执行后执行下述步骤：

19.一种非暂态计算机存储介质，其上存储有一个或多个可执行指令，所述一个或多个可执行指令被处理器执行后执行下述步骤：