CN110491366B

CN110491366B - 音频平滑处理方法、装置、计算机设备和存储介质

Info

Publication number: CN110491366B
Application number: CN201910589462.4A
Authority: CN
Inventors: 黄俊杰; 王耀南; 张鹏; 吴仕灿; 王焕鹏; 林昊
Original assignee: Merchants Union Consumer Finance Co Ltd
Current assignee: Zhaolian Consumer Finance Co ltd
Priority date: 2019-07-02
Filing date: 2019-07-02
Publication date: 2021-11-09
Anticipated expiration: 2039-07-02
Also published as: CN110491366A

Abstract

本申请涉及一种音频平滑处理方法、装置、计算机设备和存储介质。所述方法包括：将音频的时域信号转化为频域信号；针对同一时间点的多个频域信号，分别确定每个频率点的缩放倍数；缩放倍数根据每个频率点的幅值与最大幅值的比值，以及前一时间点对应频率点的缩放倍数确定；最大幅值为频域信号中所有频率点的幅值最大值；对频域信号中每个频率点的幅值，按照各自对应的缩放倍数进行缩放，得到新的频域信号；将新的频域信号转化为时域信号，作为音频的平滑信号。采用本方法即将音频的前后时间点的频率点幅值进行平滑关联，提高了音频音量缩放后的平滑度，避免对全局语音的音量大小进行相同幅度的调整导致部分声音片段音量过大的问题。

Description

音频平滑处理方法、装置、计算机设备和存储介质

技术领域

本申请涉及音频技术领域，特别是涉及一种音频平滑处理方法、音频平滑处理装置、计算机设备和计算机可读存储介质。

背景技术

语音合成技术，又称文语转换技术(Text to Speech，TTS)，是通过机械、电子等方法产生人造语音的技术；由于其智能程度较高，被广泛应用于各种人机交互场景下，具体例如，车辆报站系统、手机语音助手的语音回答、电子书的自动朗读、智能客服等等。

目前，在进行语音合成的过程中，通常需要对语音数据的音量进行调整；例如，语音合成模型的训练过程中，对用于训练的语音数据要求较高，基于此，开发人员通常需要对语音合成模型训练中的语音数据进行音量调节。

常见的音量调节方式为，对全局语音的音量大小进行相同幅度的调整，该调整后的结果中常常出现部分声音片段音量过大的问题，极大程度地影响语音合成的效果。

发明内容

基于此，有必要针对上述技术问题，提供一种音频平滑处理方法、装置、计算机设备和存储介质。

一方面，本发明实施例提供一种音频平滑处理方法，所述方法包括：

将音频的时域信号转化为频域信号；

针对同一时间点的多个频域信号，分别确定每个频率点的缩放倍数；所述缩放倍数根据每个频率点的幅值与最大幅值的比值，以及前一时间点对应频率点的缩放倍数确定；所述最大幅值为所述频域信号中所有频率点的幅值最大值；

对所述频域信号中每个频率点的幅值，按照各自对应的缩放倍数进行缩放，得到新的频域信号；

将所述新的频域信号转化为时域信号，作为所述音频的平滑信号。

在其中一个实施例中，所述确定每个频率点的缩放倍数的步骤，包括：

比对每个频率点的幅值与最大幅值的比值和设定阈值；所述设定阈值小于1；

若所述频率点的所述比值小于所述设定阈值，则将前一时间点对应频率点的缩放倍数确定为所述频率点的缩放倍数。

在其中一个实施例中，所述方法还包括：

若所述频率点的所述比值大于所述设定阈值，则确定所述频率点的缩放倍数为所述比值的倒数。

在其中一个实施例中，所述方法还包括：

若所述频率点的所述比值小于所述设定阈值，且所述频率点无前一时间点的对应频率点，则确定所述频率点的缩放倍数为1。

在其中一个实施例中，所述设定阈值为0.6至0.9。

在其中一个实施例中，所述将所述新的频域信号转化为时域信号的步骤，包括：

通过Griffin-Lim算法将所述新的频域信号转化为时域信号。

另一方面，本发明实施例还提供一种音频平滑处理方法，所述方法包括：

将音频的时域信号转化为频域信号；

针对同一时间点的多个频域信号，分别确定每个频率点的缩放倍数；所述缩放倍数根据每个频率点的幅值与最大幅值的比值，以及前一时间点对应频率点的缩放倍数确定；所述最大幅值为所述频域信号中所有频率点的幅值最大值；并根据同一时间点的多个频率点的缩放倍数，确定所述同一时间点的缩放倍数；

将所述频域信号转化为时域信号；

对转化得到的所述时域信号中每个时间点的幅值，按照各自时间点对应的缩放倍数进行缩放，得到新的时域信号，作为所述音频的平滑信号。

再一方面，本发明实施例提供一种音频平滑处理装置，所述装置包括：

第一时频转化模块，用于将音频的时域信号转化为频域信号；

第一倍数确定模块，用于针对同一时间点的多个频域信号，分别确定每个频率点的缩放倍数；所述缩放倍数根据每个频率点的幅值与最大幅值的比值，以及前一时间点对应频率点的缩放倍数确定；所述最大幅值为所述频域信号中所有频率点的幅值最大值；

第一幅值缩放模块，用于对所述频域信号中每个频率点的幅值，按照各自对应的缩放倍数进行缩放，得到新的频域信号；

第一频时转化模块，用于将所述新的频域信号转化为时域信号，作为所述音频的平滑信号。

第二时频转化模块，用于将音频的时域信号转化为频域信号；

第二倍数确定模块，用于针对同一时间点的多个频域信号，分别确定每个频率点的缩放倍数；所述缩放倍数根据每个频率点的幅值与最大幅值的比值，以及前一时间点对应频率点的缩放倍数确定；所述最大幅值为所述频域信号中所有频率点的幅值最大值；并根据同一时间点的多个频率点的缩放倍数，确定所述同一时间点的缩放倍数；

第二频时转化模块，用于将所述频域信号转化为时域信号；

第二幅值缩放模块，用于对转化得到的所述时域信号中每个时间点的幅值，按照各自时间点对应的缩放倍数进行缩放，得到新的时域信号，作为所述音频的平滑信号。

再一方面，本发明实施例提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现一种音频平滑处理方法的步骤。

再一方面，本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现一种音频平滑处理方法的步骤。

上述技术方案中的一个技术方案具有如下优点或有益效果：通过针对同一时间点的多个频域信号，分别确定每个频率点的缩放倍数；其中，缩放倍数是根据每个频率点的幅值与最大幅值的比值，以及前一时间点对应频率点的缩放倍数来确定的；按照各自对应的缩放倍数进行缩放，得到新的频域信号，如此即将前后时间点的频率点幅值进行平滑关联，提高了音频音量缩放后的平滑度，避免对全局语音的音量大小进行相同幅度的调整导致部分声音片段音量过大的问题。

附图说明

图1为一个实施例中音频平滑处理方法的示意性流程图；

图2为另一个实施例中音频平滑处理方法的示意性流程图；

图3为另一个实施例中音频平滑处理方法的示意性流程图；

图4为一个实施例中音频平滑处理装置的示意性结构图；

图5为另一个实施例中音频平滑处理装置的示意性结构图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本申请提供的音频平滑处理方法，可以应用于下述应用环境中，其中，包括音频处理设备；音频处理设备所处理的音频数据，可以是本地存储器存储的，也可以是网络上的。

具体地，音频处理设备在获取到待处理的音频后，可将音频的时域信号转化为频域信号；针对同一时间点的多个频域信号，分别确定每个频率点的缩放倍数；缩放倍数根据每个频率点的幅值与最大幅值的比值，以及前一时间点对应频率点的缩放倍数确定；且上述的最大幅值为频域信号中所有频率点的幅值最大值；对频域信号中每个频率点的幅值，按照各自对应的缩放倍数进行缩放，得到新的频域信号；将新的频域信号转化为时域信号，作为音频的平滑信号；最后将该音频的平滑信号重新存储于指定的存储器或数据库中，并从获取下一个待处理的音频。

需要说明的是，本发明实施例中，所说音频处理设备既可以是包含多台处理设备的一个设备群组，也可以是单台处理设备。该音频处理设备可以是手机、计算机、平板电脑、可穿戴设备等各类终端。当然，本申请提供的音频平滑处理方法，还可以应用于其它应用环境中，例如音频处理设备直接与终端、服务器等设备网络连接，从而获取待处理的音频数据。

在一个实施例中，如图1所示，提供了一种音频平滑处理方法，以该方法应用于上述的音频处理设备为例进行说明，包括以下步骤：

S202，将音频的时域信号转化为频域信号。

具体可通过快速傅里叶变换将音频的时域信号转化为频域信号，此时，同一个时间点的时域信号，即可转换成在该时间点下不同频率对应的振幅。当然，将音频的时域信号转化为频域信号还可以采用其他时域到频域的转换方式。

在本实施例中，通过将音频的时域信号转化为频域信号，即基于频谱进行音频音量转换，可便于后续语音合成模型的训练。

S204，针对同一时间点的多个频域信号，分别确定每个频率点的缩放倍数；缩放倍数根据每个频率点的幅值与最大幅值的比值，以及前一时间点对应频率点的缩放倍数确定；最大幅值为频域信号中所有频率点的幅值最大值。

其中，幅值可以理解为频域上的振幅值。

一种实施方式为，基于音频的频谱，首先确定频域信号中所有频率点的幅值最大值，作为缩放的基准值；接着，确定每一时间点对应的各个频率点幅值与最大幅值的比值；如若该比值满足预设的条件，则可结合前一时间点对应频率点的缩放倍数确定当前时间点对应频率点的缩放倍数。

应当指出的是，前一个时间点是相对而言的，并非一个绝对的时间点；相邻时间点的时长可根据对音频时域信号的采样间隔确定。

S206，对频域信号中每个频率点的幅值，按照各自对应的缩放倍数进行缩放，得到新的频域信号。

按照上述步骤确定了每个频率点的缩放倍数，由此得到的每个频率点对应的缩放倍数可能是不一样的，因此不同频率点可能采用不同的缩放倍数进行缩放，相对于传统技术中对全局语音的音量进行相同幅度的缩放，语音缩放后的平滑度高，极大程度地提高了语音合成的效果。

该步骤中，具体可按照时间点的先后顺序依次缩放每个频率点的幅值，保证缩放的有序进行。

S208，将新的频域信号转化为时域信号，作为音频的平滑信号。

本发明上述实施例中，执行主体可为音频处理设备，具体地，音频处理设备可以是终端或其他计算机设备；当然，执行主体也可为客户端或其他应用软件等，也可根据实际情况进行选择和变更。

上述实施例的音频平滑处理方法中，通过将音频的时域信号转化为频域信号；针对同一时间点的多个频域信号，分别确定每个频率点的缩放倍数；其中，缩放倍数是根据每个频率点的幅值与最大幅值的比值，以及前一时间点对应频率点的缩放倍数来确定的；按照各自对应的缩放倍数进行缩放，得到新的频域信号，如此即将前后时间点的频率点幅值进行平滑关联，提高了音频音量缩放后的平滑度，避免对全局语音的音量大小进行相同幅度的调整导致部分声音片段音量过大的问题。

在一些实施例中，请参阅图2，S204具体包括：S2041，比对每个频率点的幅值与最大幅值的比值和设定阈值；设定阈值小于1；S2042，若频率点的比值小于设定阈值，则将前一时间点对应频率点的缩放倍数确定为频率点的缩放倍数。

可以理解为，若频率点的幅值与最大幅值的比值小于设定阈值，即此时，频率点的幅值与最大幅值的差距较大，音频信号属于音量较小的信号；若该频率点的缩放倍数与前一时间点对应频率点的缩放倍数相同，即保证了两个信号的振幅在缩放前后的差量一致，进而保证音量缩放后过渡较为平滑。

在一些实施例中，请继续参阅图2，S204具体还可以包括：

S2043，若频率点的比值大于设定阈值，则确定频率点的缩放倍数为上述比值的倒数。

在该步骤中，若频率点的幅值与最大幅值的比值大于设定阈值，即此时，频率点的幅值与最大幅值的差距较小，音频信号属于音量较大的信号；若确定频率点的缩放倍数为上述比值的倒数，即表示需将频率点的幅值缩放至最大幅值，该缩放倍数的确定有利于进一步加强音量较大的信号，在语音合成算法中，音量较大的信号贡献度较大，因此突出音频中关键帧信号的振幅值，便于后续执行例如训练语音合成模型等多项语音合成操作。

在一些实施例中，请继续参阅图2，S204具体还可以包括：

S2044，若频率点的比值小于设定阈值，且频率点无前一时间点的对应频率点，则确定频率点的缩放倍数为1。

其中，频率点无前一时间点即当前时间点为音频的初始时间点(一般为0s)，此时，若频率点的幅值与最大幅值的比值小于设定阈值，则不对其进行缩放；该步骤中的频率点信号与步骤S2042中的信号相类似，均属于音量较小的信号，不执行缩放操作可防止其被缩放至较大的音量，保留其低音量特性，有利于音频的平滑缩放。

在一些实施例中，上述的设定阈值为0.6至0.9，优选为0.8，也可根据实际情况或经验值进行设定，此处不作限定。

具体例如，若设定阈值为0.8，确定的所有频域信号的幅值最大值为80dB，且获取到的待缩放的幅值为位于音频频谱中的时间点为5s、频率点为2000Hz的幅值50dB，确定其缩放倍数的步骤可为：

1、确定待缩放的频率点幅值与最大幅值的比值为0.625；

2、经判断可知，频率点幅值与最大幅值的比值小于设定阈值，且时间点为5s，并非音频的初始时间点；

3、将前一时间点4.9s(仅为示例，不用于限制相邻时间点的时间间隔)对应频率点的缩放倍数确定为频率点的缩放倍数。

如若此时的设定阈值为0.6，确定其缩放倍数的步骤可为：

1、确定待缩放的频率点幅值与最大幅值的比值为0.625；

2、经判断可知，频率点幅值与最大幅值的比值大于设定阈值；

3、确定频率点的缩放倍数为上述比值的倒数，即1.6；则频率点的幅值经缩放后由50dB变为幅值最大值80dB。

在一些实施例中，S208具体包括：通过Griffin-Lim算法将新的频域信号转化为时域信号。

使用Griffin-Lim算法而非深度网络转换等技术，能够有效提高信号的转换速度，满足生产性能要求。

本申请提出了一种基于频域的语音平滑方案，该方案可应用于语音合成算法中；具体地，该语音合成算法可应用于招联智能交互(包括智能催收、智能客服等)中的应答环节，智能交互系统为招联在催收、客服等领域减少人工投入，提高用户体验提供了技术保障。

本方案通过结合前一时间片段的缩放倍数来进行整体调整，可有效防止某些空白的音频片段幅值被放大到最大幅值；具体实施过程可简化为下述步骤：

1)将声音文件通过快速傅里叶变换转化为频谱；

2)计算该音频的振幅最大值；

3)计算该音频每个时间点、每个频率对应振幅的缩放倍数；

其中，如果振幅大于最大振幅的80％(可选为60％-90％)，则将该振幅放大到最大振幅；如果振幅小于最大振幅的80％，且具有上一个时间点，则缩放倍数与上一个时间点的倍数一致；如果振幅小于最大振幅的80％，且无上一个时间点，则不进行缩放；

4)根据确定的缩放倍数将频谱缩放到特定的大小；

5)根据Griffin-Lim算法将频谱转为普通声音文件。

在另一个实施例中，如图3所示，还提供了一种音频平滑处理方法，同样地，以该方法应用于上述的音频处理设备为例进行说明，包括以下步骤：

S302，将音频的时域信号转化为频域信号；

S304，针对同一时间点的多个频域信号，分别确定每个频率点的缩放倍数；缩放倍数根据每个频率点的幅值与最大幅值的比值，以及前一时间点对应频率点的缩放倍数确定；最大幅值为频域信号中所有频率点的幅值最大值；并根据同一时间点的多个频率点的缩放倍数，确定同一时间点的缩放倍数；

本步骤中，根据同一时间点的多个频率点的缩放倍数，确定所述同一时间点的缩放倍数，可以理解为，将频域信号中时间点a对应的多个频率点的缩放倍数，转化为可以应用于时域信号缩放的时间点a的缩放倍数，以便于后续针对每个时间点的时域信号进行缩放。

S306，将频域信号转化为时域信号；

S308，对转化得到的时域信号中每个时间点的幅值，按照各自时间点对应的缩放倍数进行缩放，得到新的时域信号，作为音频的平滑信号。

需要说明的是，上述与本实施例相关的各个实施例步骤同样可以作为本实施例的拓展方案；本实施例的音频平滑处理方法，通过将音频的时域信号转化为频域信号；针对同一时间点的多个频域信号，分别确定每个频率点的缩放倍数；其中，缩放倍数是根据每个频率点的幅值与最大幅值的比值，以及前一时间点对应频率点的缩放倍数来确定的；将频域信号转化为时域信号，并将频域信号的同一时间点对应的每个频率点的缩放倍数转化为时域信号的同一时间点对应的缩放倍数；对时域信号中每个时间点的幅值，按照各自对应的缩放倍数进行缩放，得到新的时域信号，作为音频的平滑信号；该方法可以直接根据频域的每个时间点的缩放倍数，推算出时域的缩放倍数，以消除频谱与波形转换的损失。同时，也可将前后时间点的频率点幅值进行平滑关联，提高了音频音量缩放后的平滑度，避免对全局语音的音量大小进行相同幅度的调整导致部分声音片段音量过大的问题。

应该理解的是，对于前述的各方法实施例，虽然流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，方法实施例的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

基于与上述实施例中的音频平滑处理方法相同的思想，本文还提供一种音频平滑处理装置。

在一个实施例中，如图4所示，提供了一种音频平滑处理装置，包括：第一时频转化模块401、第一时频转化模块402、第一幅值缩放模块403和第一频时转化模块404，其中：

第一时频转化模块401，用于将音频的时域信号转化为频域信号；

第一时频转化模块402，用于针对同一时间点的多个频域信号，分别确定每个频率点的缩放倍数；缩放倍数根据每个频率点的幅值与最大幅值的比值，以及前一时间点对应频率点的缩放倍数确定；最大幅值为频域信号中所有频率点的幅值最大值；

第一幅值缩放模块403，用于对频域信号中每个频率点的幅值，按照各自对应的缩放倍数进行缩放，得到新的频域信号；

第一频时转化模块404，用于将新的频域信号转化为时域信号，作为音频的平滑信号。

在一些实施例中，第一时频转化模块402，具体用于：比对每个频率点的幅值与最大幅值的比值和设定阈值；设定阈值小于1；若频率点的比值小于设定阈值，则将前一时间点对应频率点的缩放倍数确定为频率点的缩放倍数。

在一些实施例中，第一时频转化模块402，具体还用于：若频率点的比值大于设定阈值，则确定频率点的缩放倍数为比值的倒数。

在一些实施例中，第一时频转化模块402，具体还用于：若频率点的比值小于设定阈值，且频率点无前一时间点的对应频率点，则确定频率点的缩放倍数为1。

在一些实施例中，设定阈值为0.6至0.9。

在一些实施例中，第一频时转化模块404，具体用于：通过Griffin-Lim算法将新的频域信号转化为时域信号。

在一个实施例中，如图5所示，还提供了一种音频平滑处理装置，包括：第二时频转化模块501、第二倍数确定模块502、第二频时转化模块503和第二幅值缩放模块504，其中：

第二时频转化模块501，用于将音频的时域信号转化为频域信号；

第二倍数确定模块502，用于针对同一时间点的多个频域信号，分别确定每个频率点的缩放倍数；缩放倍数根据每个频率点的幅值与最大幅值的比值，以及前一时间点对应频率点的缩放倍数确定；最大幅值为频域信号中所有频率点的幅值最大值；并根据同一时间点的多个频率点的缩放倍数，确定同一时间点的缩放倍数；

第二频时转化模块503，用于将频域信号转化为时域信号；

第二幅值缩放模块504，用于对转化得到的时域信号中每个时间点的幅值，按照各自时间点对应的缩放倍数进行缩放，得到新的时域信号，作为音频的平滑信号。

关于音频平滑处理装置的具体限定可以参见上文中对于音频平滑处理方法的限定，在此不再赘述。上述音频平滑处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

此外，上述示例的音频平滑处理装置的实施方式中，各程序模块的逻辑划分仅是举例说明，实际应用中可以根据需要，例如出于相应硬件的配置要求或者软件的实现的便利考虑，将上述功能分配由不同的程序模块完成，即将音频平滑处理装置的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分功能。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是音频处理设备，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储用于音频平滑处理的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种音频平滑处理方法。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：将音频的时域信号转化为频域信号；针对同一时间点的多个频域信号，分别确定每个频率点的缩放倍数；缩放倍数根据每个频率点的幅值与最大幅值的比值，以及前一时间点对应频率点的缩放倍数确定；最大幅值为频域信号中所有频率点的幅值最大值；对频域信号中每个频率点的幅值，按照各自对应的缩放倍数进行缩放，得到新的频域信号；将新的频域信号转化为时域信号，作为音频的平滑信号。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：比对每个频率点的幅值与最大幅值的比值和设定阈值；设定阈值小于1；若频率点的比值小于设定阈值，则将前一时间点对应频率点的缩放倍数确定为频率点的缩放倍数。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：若频率点的比值大于设定阈值，则确定频率点的缩放倍数为比值的倒数。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：若频率点的比值小于设定阈值，且频率点无前一时间点的对应频率点，则确定频率点的缩放倍数为1。

在一个实施例中，设定阈值为0.6至0.9。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：通过Griffin-Lim算法将新的频域信号转化为时域信号。

在一个实施例中，又提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：将音频的时域信号转化为频域信号；针对同一时间点的多个频域信号，分别确定每个频率点的缩放倍数；缩放倍数根据每个频率点的幅值与最大幅值的比值，以及前一时间点对应频率点的缩放倍数确定；最大幅值为频域信号中所有频率点的幅值最大值；并根据同一时间点的多个频率点的缩放倍数，确定同一时间点的缩放倍数；将频域信号转化为时域信号；对转化得到的时域信号中每个时间点的幅值，按照各自时间点对应的缩放倍数进行缩放，得到新的时域信号，作为音频的平滑信号。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：将音频的时域信号转化为频域信号；针对同一时间点的多个频域信号，分别确定每个频率点的缩放倍数；缩放倍数根据每个频率点的幅值与最大幅值的比值，以及前一时间点对应频率点的缩放倍数确定；最大幅值为频域信号中所有频率点的幅值最大值；对频域信号中每个频率点的幅值，按照各自对应的缩放倍数进行缩放，得到新的频域信号；将新的频域信号转化为时域信号，作为音频的平滑信号。

在一个实施例中，计算机程序被处理器执行时实现以下步骤：比对每个频率点的幅值与最大幅值的比值和设定阈值；设定阈值小于1；若频率点的比值小于设定阈值，则将前一时间点对应频率点的缩放倍数确定为频率点的缩放倍数。

在一个实施例中，计算机程序被处理器执行时实现以下步骤：若频率点的比值大于设定阈值，则确定频率点的缩放倍数为比值的倒数。

在一个实施例中，计算机程序被处理器执行时实现以下步骤：若频率点的比值小于设定阈值，且频率点无前一时间点的对应频率点，则确定频率点的缩放倍数为1。

在一个实施例中，设定阈值为0.6至0.9。

在一个实施例中，计算机程序被处理器执行时实现以下步骤：通过Griffin-Lim算法将新的频域信号转化为时域信号。

在一个实施例中，又提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：将音频的时域信号转化为频域信号；针对同一时间点的多个频域信号，分别确定每个频率点的缩放倍数；缩放倍数根据每个频率点的幅值与最大幅值的比值，以及前一时间点对应频率点的缩放倍数确定；最大幅值为频域信号中所有频率点的幅值最大值；并根据同一时间点的多个频率点的缩放倍数，确定同一时间点的缩放倍数；将频域信号转化为时域信号；对转化得到的时域信号中每个时间点的幅值，按照各自时间点对应的缩放倍数进行缩放，得到新的时域信号，作为音频的平滑信号。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

本文实施例的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或(模块)单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

在本文中提及的“第一\第二”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二”在允许的情况下可以互换特定的顺序或先后次序。应该理解“第一\第二”区分的对象在适当情况下可以互换，以使这里描述的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种音频平滑处理方法，所述方法包括：

将音频的时域信号转化为频域信号；

将所述新的频域信号转化为时域信号，作为所述音频的平滑信号；

所述确定每个频率点的缩放倍数的步骤，包括：

若所述频率点的所述比值小于所述设定阈值，则将前一时间点对应频率点的缩放倍数确定为所述频率点的缩放倍数；

若所述频率点的所述比值大于所述设定阈值，则确定所述频率点的缩放倍数为所述比值的倒数；

2.根据权利要求1所述的方法，其特征在于，所述将所述新的频域信号转化为时域信号的步骤，包括：

通过Griffin-Lim算法将所述新的频域信号转化为时域信号。

3.根据权利要求1或2所述的方法，其特征在于，所述设定阈值为0.6至0.9。

4.根据权利要求3所述的方法，其特征在于，所述设定阈值为0.8。

5.一种音频平滑处理方法，所述方法包括：

将音频的时域信号转化为频域信号；

将所述频域信号转化为时域信号；

对转化得到的所述时域信号中每个时间点的幅值，按照各自时间点对应的缩放倍数进行缩放，得到新的时域信号，作为所述音频的平滑信号；

所述确定每个频率点的缩放倍数的步骤，包括：

6.根据权利要求5所述的方法，其特征在于，所述将所述频域信号转化为时域信号的步骤，包括：

通过Griffin-Lim算法将所述频域信号转化为时域信号。

7.一种音频平滑处理装置，其特征在于，所述装置包括：

第一频时转化模块，用于将所述新的频域信号转化为时域信号，作为所述音频的平滑信号；

第一倍数确定模块，还用于比对每个频率点的幅值与最大幅值的比值和设定阈值；所述设定阈值小于1；若所述频率点的所述比值小于所述设定阈值，则将前一时间点对应频率点的缩放倍数确定为所述频率点的缩放倍数；若所述频率点的所述比值大于所述设定阈值，则确定所述频率点的缩放倍数为所述比值的倒数；若所述频率点的所述比值小于所述设定阈值，且所述频率点无前一时间点的对应频率点，则确定所述频率点的缩放倍数为1。

8.一种音频平滑处理装置，其特征在于，所述装置包括：

第二频时转化模块，用于将所述频域信号转化为时域信号；

第二幅值缩放模块，用于对转化得到的所述时域信号中每个时间点的幅值，按照各自时间点对应的缩放倍数进行缩放，得到新的时域信号，作为所述音频的平滑信号；

第二倍数确定模块，还用于比对每个频率点的幅值与最大幅值的比值和设定阈值；所述设定阈值小于1；若所述频率点的所述比值小于所述设定阈值，则将前一时间点对应频率点的缩放倍数确定为所述频率点的缩放倍数；若所述频率点的所述比值大于所述设定阈值，则确定所述频率点的缩放倍数为所述比值的倒数；若所述频率点的所述比值小于所述设定阈值，且所述频率点无前一时间点的对应频率点，则确定所述频率点的缩放倍数为1。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。