CN113516988B

CN113516988B - 一种音频处理方法、装置、智能设备及存储介质

Info

Publication number: CN113516988B
Application number: CN202011642981.1A
Authority: CN
Inventors: 鲍枫
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2024-02-23
Anticipated expiration: 2040-12-30
Also published as: CN118173113A; CN113516988A

Abstract

本申请实施例公开了一种音频处理方法、装置、智能设备及计算机可读存储介质。其中方法包括：获取待处理的音频信号，并根据音频频段划分值将待处理的音频信号划分为待处理的第一频段信号和待处理的第二频段信号；对待处理的第一频段信号进行特征提取得到N维低频特征参数，并根据N维低频特征参数和待处理的音频信号得到M维系数特征参数；将待处理的第二频段信号划分为K个频带，并对每频带进行特征提取得到K维高频特征参数；调用噪声优化模型对N维低频特征参数，M维系数特征参数和K维高频特征参数进行处理，得到P维增益参数。通过增益参数对待处理的音频信号进行增益计算处理，改善待处理的音频信号中的噪声音频信号造成的不利影响。

Description

一种音频处理方法、装置、智能设备及存储介质

技术领域

本发明涉及计算机技术领域，具体涉及一种音频处理方法、装置、智能设备及计算机可读存储介质。

背景技术

随着通信技术的不断发展，用户能够随时随地的进行语音通信。由于通信地点不固定，在通信时周围环境可能存在噪声，使得传输的音频信号中携带了部分非必要的信号。

在一个场景中，该非必要信号主要是指噪声信号，该噪声信号包括回声信号，以及其他物体发出的声音信号(如汽车鸣笛)。这些噪声信号会给通信过程中语音信号带来不利影响，比如语音信号接收方的用户未能听清语音信号发送方的用户的语音内容，降低了语音交互的质量。

发明内容

本发明实施例提供了一种音频处理方法、装置、智能设备及计算机可读存储介质，能够在一定程度上提高音频信号的质量。

一方面，本申请实施例提供了一种音频处理方法，该方法包括：

获取待处理的音频信号，并根据音频频段划分值将所述待处理的音频信号划分为待处理的第一频段信号和待处理的第二频段信号；

对所述待处理的第一频段信号进行特征提取得到N维低频特征参数，并根据所述N维低频特征参数和所述待处理的音频信号得到M维系数特征参数；

将所述待处理的第二频段信号划分为K个频带，并对每频带进行特征提取得到K维高频特征参数；

调用噪声优化模型对所述N维低频特征参数，所述M维系数特征参数和所述K维高频特征参数进行处理，得到P维增益参数，P为正整数；

对所述待处理的音频信号和所述P维增益参数进行增益计算处理，得到处理后的音频信号；

其中，所述噪声优化模型包括R层门控循环单元网络和激活层，所述激活层用于对第R层门控循环单元网络的输出结果进行激活，R为大于等于2的正整数。

另一方面，本申请实施例提供了一种音频处理装置，该处理装置包括：

获取单元，用于获取待处理的音频信号；

处理单元，用于根据音频频段划分值将所述待处理的音频信号划分为待处理的第一频段信号和待处理的第二频段信号；以及用于对所述待处理的第一频段信号进行特征提取得到N维低频特征参数，并根据所述N维低频特征参数和所述待处理的音频信号得到M维系数特征参数；以及用于将所述待处理的第二频段信号划分为K个频带，并对每频带进行特征提取得到K维高频特征参数；以及用于调用噪声优化模型对所述N维低频特征参数，所述M维系数特征参数和所述K维高频特征参数进行处理，得到P维增益参数，P为正整数；以及用于对所述待处理的音频信号和所述P维增益参数进行增益计算处理，得到处理后的音频信号；

相应地，本申请实施例还提供了一种音频处理设备，包括处理器、存储器和通信接口，所述处理器、所述存储器和所述通信接口相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行上述的音频处理方法。

相应地，本申请提供了一种计算机可读存储介质，计算机可读存储介质存储有一条或多条指令，一条或多条指令适于由处理器加载并执行上述的音频处理方法。

相应地，本申请提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述的音频处理方法。

本申请实施例中，通过直接提取待处理的音频信号中第一频段信号对应的N维低频特征参数，较为完整的保留了第一频段信号的特征；并结合第二频段信号对应的K维高频特征参数和M为系数特征参数，较为完整的保留了待处理的音频信号的特征，进而提高增益参数的准度；通过增益参数对待处理的音频信号进行增益计算处理，可以较为有效地对待处理的音频信号进行优化修正，降低甚至消除该待处理的音频信号中关于噪声音频信号的特征对待处理的音频信号的不利影响，从而提高语音交互的质量。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a为本申请实施例提供的一种音频处理的场景架构图；

图1b为本申请实施例提供的一种音频处理流程图；

图2为本申请实施例提供的一种音频处理方法的流程图；

图3a为本申请实施例提供的另一种音频处理方法的流程图；

图3b为本申请实施例提供的一种噪声优化模型的训练流程图；

图4a为本申请实施例提供的一种调用噪声优化模型对待处理的音频信号的特征参数进行处理的流程图；

图4b为本申请实施例提供的一种会议会话界面图；

图4c为本申请实施例提供的一种语音会话界面图；

图4d为本申请实施例提供的一种待处理的音频信号的波形示意图；

图4e为本申请实施例提供的一种处理后的音频信号的波形示意图；

图5为本申请实施例提供的一种音频处理装置的结构示意图；

图6为本申请实施例提供的一种智能设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

本申请实施例涉及人工智能(Artificial Intelligence，AI)及机器学习(Machine Learning，ML)，通过将AI和ML相结合能够挖掘和分析音频信号中的特征，使得智能设备能够更加精确的对音频信号进行识别处理，从中确定出音频信号中的噪声信号的特征，以便于减轻甚至消除这部分噪声信号对原音频信号的不利影响。其中，AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

AI技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大应用程序的处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向，本申请实施例主要涉及其中的语音处理技术(即通过增益参数抑制待处理音频信号中的噪声信号，来提降低甚至消除该待处理的音频信号中关于噪声音频信号的特征对待处理的音频信号的不利影响)。

ML是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。ML是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。ML和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。本申请实施例主要涉及采用样本数据对初始模型进行训练，得到训练后的噪声优化模型。

请参阅图1a，图1a为本申请实施例提供的一种音频处理的场景架构图。如图1a所示，场景架构图包括了终端设备101，终端设备102和服务器103。其中，终端设备101是音频信号发送方所使用的设备，终端设备102是音频信号接收方所使用的设备；在一些实施例中，终端设备102也可以向终端设备101发送音频信号，相应地，终端设备101也可以接收终端设备102发送的音频信号并播放。终端设备101和终端设备102的数量可以为一个或多个，终端设备101和终端设备102的形态仅用于举例，终端设备101和终端设备102可以包括但不限于：智能手机(如Android手机、iOS手机等)、平板电脑、便携式个人计算机、移动互联网设备(MobileInternetDevices，简称MID)、语音采集(播放)器等具有语音播放及收集功能的设备。

服务器103是音频信号中转设备，服务器103可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备101，终端设备102和服务器103可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

图1b为本申请实施例提供的一种音频处理流程图。如图1b所示，音频处理流程主要包括：终端设备101采集音频信号发送方的混合音频信号(即获取待处理的音频信号)，混合音频信号包括了语音音频信号和噪声音频信号；(1)根据音频频段划分值将待处理的音频信号划分为待处理的第一频段信号和待处理的第二频段信号(例如，假设音频频段划分值为1000Hz，待处理的音频信号的带宽为8000Hz，则根据音频频段划分值对待处理的音频信号进行划分后，得到待处理的第一频段信号为0Hz-1000Hz，待处理的第二频段信号为1000Hz-8000Hz)；(2)对待处理的第一频段信号进行特征提取得到N维低频特征参数(第一频段信号包括N个频点，每个频点对应1维低频特征参数)，并根据对N维低频特征参数和待处理的音频信号进行运算处理，得到M维系数特征参数；(3)将待处理的第二频段信号划分为K个频带，并对每频带进行特征提取得到K维高频特征参数；(4)调用噪声优化模型对N维低频特征参数，M维系数特征参数和K维高频特征参数进行处理，得到P维增益参数；(5)对待处理的音频信号(即第一频段的N个频点和第二频段的K个频带)和P维增益参数进行增益计算处理，得到处理后的音频信号，该处理后的音频信号减弱或消除了待处理的音频信号中的噪声部分对应的信号，可以通过服务器103传输给一个或多个音频信号接收方，也可以由音频信号发送方直接发送给音频信号接收方，即终端设备101直接将音频信号发送给终端设备102。其中，噪声优化模型包括R层门控循环单元网络和激活层，该激活层用于对第R层门控循环单元网络的输出结果进行激活。需要说明的是，上述步骤(1)-步骤(5)可以由终端设备101或终端设备102执行(终端设备上安装有基于噪声优化模型设计的应用程序)，也可以由服务器103执行，步骤(2)可以和步骤(3)同时执行，也可以在步骤(3)之后执行。

在一个实施例中，N维低频特征参数包括以下一种或多种：N维低频特征参数中第i维低频特征参数用于表征语音音频信号的特征(即第i维低频特征参数对应的频带只包含人声)；N维低频特征参数中第j维低频特征参数用于表征噪声音频信号的特征(即第j维低频特征参数对应的频带只包含噪声)；N维低频特征参数中第k维低频特征参数用于表征人声音频信号和噪声音频信号的特征(即第k维低频特征参数对应的频带既包含人声又包含噪声)。举例说明，假设N维低频特征参数中第i维增益参数表征的是仅包含人声音频信号的频带所对应的修正系数，第j维增益参数表征的是仅包含噪声音频信号的频带所对应的修正系数；则第i维低频特征参数也是对应表示人声音频信号的一个特征，第j维低频特征参数则对应表示噪声信号的一个特征。并且，在计算时，若得到的P维增益参数中第i维增益参数为1，第j维的增益参数为0.01，则对待处理的音频信号和P维增益参数进行增益计算处理是指：将N维低频特征参数中第j维低频特征参数对应的频带的功率谱与P维增益参数中第j维的增益参数0.01相乘，得到新的功率谱。可以理解的是，由于噪声音频所属的频带的功率谱在与对应的增益参数0.01相乘后，噪声功率大幅降低，而人声音频所属的频带的功率谱与对应的增益参数1相乘后，人声功率不变，因此运算后噪声音频信号对人声音频信号的影响会大幅降低。需要说明的是，若第k维低频特征参数用于表征人声音频信号和噪声音频信号的特征，则可以根据人声音频信号和噪声音频信号在第k维低频特征参数对应的频带中功率的大小确定对应的第k维增益参数，例如，第k维低频特征参数对应的频带中人声音频信号的功率是噪声音频信号的8倍(即表示噪声较小对人声影响不大)，则将第k维增益参数的值确定为0.9。或者，对第k维低频特征参数对应的频带进行进一步划分，得到只包含人声音频信号的k1频带和只包含噪声音频信号的k2频带。K维高频特征参数与N维低频特征参数的原理类似，在此不再赘述。

经过实践研究发现，输入噪声优化模型的特征参数维度(即N+K)范围在[60,90]时，该噪声优化模型能够较好地对待处理的音频信号进行优化，增强语音信号，抑制噪声；其中，当输入噪声优化模型的特征参数维度范围在[70,80]时，该噪声优化模型对待处理的音频信号的优化效果更好；进一步地，当输入噪声优化模型的特征参数维度在76维左右时，比如74维、75维、76维、77维、78维时，该噪声优化模型对待处理的音频信号的优化效果更加明显，且不论在模型训练阶段还是对待处理的音频信号进行优化阶段，占用的软硬件资源较为合适。后续以N+K＝76为例，对本申请的方案进行详细说明。

在本申请实施例中，通过直接提取待处理的音频信号中第一频段信号对应的N维低频特征参数，较为完整的保留了第一频段信号的特征；并结合第二频段信号对应的K维高频特征参数和M为系数特征参数，较为完整的保留了待处理的音频信号的特征，进而提高增益参数的准度；通过增益参数对待处理的音频信号进行增益计算处理，可以较为有效地对待处理的音频信号进行优化修正，降低甚至消除该待处理的音频信号中关于噪声音频信号的特征对待处理的音频信号的不利影响，从而提高语音交互的质量。

请参阅图2，图2为本申请实施例提供的一种音频处理方法的流程图。该方法可以由一个智能设备来执行，该智能设备具体可以是图1a中所示的终端设备101，终端设备102或服务器103，本申请实施例的所述方法包括如下步骤。

S201：获取待处理的音频信号，并根据音频频段划分值将待处理的音频信号划分为待处理的第一频段信号和待处理的第二频段信号。待处理的音频信号可以通过待处理的第一频段信号和待处理的第二频段信号联合表示。音频频段划分值用于将待处理的音频信号划分为两个频段。在一种实施方式中，待处理的第一频段信号和待处理的第二频段信号互不重合；设音频频段划分值为1000Hz，待处理的音频信号的带宽为8000Hz，则根据音频频段划分值对待处理的音频信号进行划分后，得到待处理的第一频段信号为(0，1000]Hz，待处理的第二频段信号为(1000，8000]Hz。

可选的，待处理的第一频段信号和待处理的第二频段信号存在部分重合；设第一频段信号的音频频段划分值为1100Hz，第二频段信号的音频频段划分值为900Hz，待处理的音频信号的带宽为8000Hz，则根据音频频段划分值对待处理的音频信号进行划分后，得到待处理的第一频段信号为(0，1100]Hz，待处理的第二频段信号为(900，8000]Hz，即待处理的第一频段信号和待处理的第二频段信号均包括带宽在(900,1100)Hz内的音频信号。

在一种实施方式中，智能设备可以通过搭载的语音采集装置采集待处理的音频信号，例如，终端设备通过搭载的麦克风采集用户的语音。在另一种实施方式中，智能设备可以通过通信接口接收其他设备发送的待处理的音频信号，例如，服务器接收终端设备发送的待处理的音频信号。

S202：对待处理的第一频段信号进行特征提取得到N维低频特征参数，并根据N维低频特征参数和待处理的音频信号得到M维系数特征参数。待处理的第一频段信号中包括N个频点，N维低频特征参数是对N个频点分别进行特征提取后得到的。在一种实施方式中，对第一频段信号进行快速傅里叶变换(fast Fourier transform，FFT)得到N个频点，计算各个频点对应的频率倒谱系数，得到N维低频特征参数；其中，频率倒谱系数可以是巴克频率倒谱系数(Bark Frequency Cepstrum Coefficient，BFCC)，梅尔频率倒谱系数(MelFrequency Cepstrum Coefficient，MFCC)等。

M维系数特征参数是通过N维低频特征参数或待处理的音频信号进行运算得到，运算方式包括以下至少一种：差分运算，互相关系数(用于指示两个信号的关系)的离散余弦变换(Discrete Cosine Transform，DCT)，FFT。在一种实施方式中，对待处理的音频信号进行滤波处理，得到滤波特征参数；例如，采用基音(pitch)滤波器对待处理的音频信号进行滤波处理，得到待处理的音频信号对应的pitch特征值。根据待处理的音频信号确定待处理的音频信号的能量参数；具体地，对待处理的音频信号进行快速傅里叶变换(Fast FourierTransform，FFT)得到待处理的音频信号对应能量参数；或者对待处理的音频信号进行语音活动检测(Voice Activity Detection，VAD)得到待处理的音频信号对应能量参数。对N维低频特征参数中前j维低频特征参数进行一阶差分运算(得到j维一阶差分特征参数)，二阶差分运算(得到j维二阶差分特征参数)以及计算前j维低频特征参数的互相关系数的DCT值(得到j维DCT参数)，得到M-2维中间特征参数(M-2＝3j)。

S203：将待处理的第二频段信号划分为K个频带，并对每频带进行特征提取得到K维高频特征参数。频带是指信号所占据的频带宽度，即能够有效通过该信道的信号的最大频带宽度。智能设备按照频率由低至高的顺序对第二频段信号进行划分，得到第二频段信号对应的K个频带，每个频带中至少包括2个频点，第二频段信号对应的K个频带中第i个频带的最大频率低于第i+1个频带的最低频率，且第i个频带中频点的数量小于或等于第i+1个频带中频点的数量。

在一种实施方式中，对第二频段信号进行快速傅里叶变换(fast Fouriertransform，FFT)得到Q个频点(Q为正整数，且Q大于2K)，按照上述划分规则将Q个频点划分为K个频带，并计算各个频带对应的频率倒谱系数，得到K维高频特征参数。

由步骤S201-步骤S203可知，第一频段信号中每个频点均对应一维低频特征参数，相较于第二频段信号中至少两个频段对应一维高频特征参数而言，N维低频特征参数更加完整(详细)的保留了第一频段信号的特征。在实际应用中，第一频段信号为人声对应的音频信号所属的带宽范围，即通过直接提取待处理的音频信号中第一频段信号对应的N维低频特征参数可以更好的保留人声的特征，以便于噪声优化模型对N维低频特征参数进行后续处理(如识别，分配增益参数等)。

此外，N维低频特征参数，M维系数特征参数和K维高频特征参数能够联合表征获取的待处理的音频信号，待处理的音频信号的时长可以是预先确定的，例如，待处理的音频信号分帧处理后的信号(即每一帧音频信号都是一个待处理的音频信号)，那么每帧音频信号会对应N维低频特征参数和K维高频特征参数；又例如，待处理的音频信号的时长是30ms的音频信号，那么每30ms的音频信号会对应N维低频特征参数，M维系数特征参数和K维高频特征参数；当然，待处理的音频信号的时长还可以为其他值。

S204：调用噪声优化模型对N维低频特征参数，M维系数特征参数和K维高频特征参数进行处理，得到P维增益参数。噪声优化模型包括R层门控循环单元网络和激活层，该激活层用于对第R层门控循环单元网络的输出结果进行激活，R为大于等于2的正整数，例如R＝3。增益参数用于降低或消除待处理的音频信号中的噪声音频信号。

在一种实施方式中，P＝N+K，即噪声优化模型对N维低频特征参数和K维高频特征参数进行处理后，得到第一频段信号中每个频点对应的功率谱的增益参数和第二频段信号中每个频带对应的功率谱的增益参数。基于噪声优化模型，每一个频点或频带中包含的噪声的功率越大，所期望的增益参数的值越小，即期望增益参数的值与噪声的功率成反比，以尽量降低甚至消除待处理的音频信号中的噪声。各增益参数的取值范围为[0,1]，增益参数中对应于语音(通常指人声)所属频带的参数值为1或趋近于1，对应于噪声所属频带的参数值为0或趋近于0。例如，假设频带1为语音所属的频带，频带2为噪声所属的频带，频点3为语音所属的频点，则频带1的增益参数的值为1或趋近于1，频带2的增益参数的值为0或趋近于0，频点3的增益参数的值为1或趋近于1。

可以理解的是，若P维增益参数的值均大于增益参数阈值，则表示该待处理的音频信号中噪声较小或没有噪声；若P维增益参数的值均小于增益参数阈值，则表示该待处理的音频信号中噪声较大或者该待处理的音频信号中不包含语音。

在另一种实施方式中，P不等于N+K，例如，假设N维低频特征参数对应的频带中包括频带1，该频带中既不包含语音，也不包含噪声，则此时P＝N+K-1，即P维增益参数中不包括频带1对应的增益参数。

S205：对待处理的音频信号和P维增益参数进行增益计算处理，得到处理后的音频信号。智能设备通过增益参数对待处理的音频信号中噪声所属的频带的功率谱进行修正，以尽量降低甚至消除待处理的音频信号中的噪声，进而得到处理后的音频信号。

在一种实施方式中，智能设备通过搭载的音频采集装置(如话筒)采集待处理的音频信号后，通过执行上述步骤S201-步骤S205对待处理的音频信号进行处理，并将处理后的音频信号发送给参与通信的一个或多个终端设备。在另一种实施方式中，智能设备获取第一终端设备发送给第二终端设备的待处理的音频信号，通过执行上述步骤S201-步骤S205对待处理的音频信号进行处理，并将处理后的音频信号发送给第二终端设备。在又一实施方式中，智能设备接收终端设备发送待处理的音频信号，通过执行上述步骤S201-步骤S205对待处理的音频信号进行处理，并对处理后的音频信号执行播放处理。

请参阅图3a，图3a为本申请实施例提供的另一种音频处理方法的流程图。该方法可以由一个智能设备来执行，该智能设备具体可以是图1a中所示的终端设备101，终端设备102或服务器103，本申请实施例的所述方法包括如下步骤。

S301：获取待处理的音频信号，并根据音频频段划分值将待处理的音频信号划分为待处理的第一频段信号和待处理的第二频段信号。步骤S301的具体实施方式可参考图2中步骤S201的实施方式，在此不再赘述。在一种实施方式中，智能设备检测待处理的音频信号的采样率，若检测到待处理的音频信号的采样率为目标采样率(目标采样率可以为一个或多个)，则触发执行根据音频频段划分值将待处理的音频信号划分为待处理的第一频段信号和待处理的第二频段信号的步骤；例如，目标采样率为16K采样率，采用16K采样率进行采样得到的音频信号的带宽为8K，可以采用本申请的音频处理方法，利用本申请实施例中的噪声优化模型来进行分析，以便于实现语言信号增强和噪声抑制。其中，上述提及的8K带宽信号是指音频的截止频率为8K的音频信号；通常对音频信号的采样率一般要求为截止频率的2倍及其以上；因此，对于检测到的语音信号的截止频率为8K的语音信号，对应的采样率为16K，而对于截止频率为16K的语音信号，对应的采样率为32K，采样率越高，语音信号的细节越丰富。

可选的，对于采用目标采样率以外的采样率进行采样得到的音频信号，则可以采用现有的其他方式进行语音增强处理，或者对本申请的音频处理方法中的各个参数进行适应性调整(如音频频段划分值，噪声优化模型中的参数等)，然后进行语音增强处理。

S302：对待处理的第一频段信号进行特征提取得到N维低频特征参数，并根据N维低频特征参数和待处理的音频信号得到M维系数特征参数。步骤S302的具体实施方式可参考图2中步骤S202的实施方式，在此不再赘述。

在一个实施例中，第一频段信号的范围为(0，1000]Hz，FFT对应的频带宽度为31.25Hz，对第一频段信号进行FFT处理，得到第一频段信号的32个频点(即N＝32)，计算各个频点对应的频率倒谱系数，得到N维低频特征参数。进一步地，N维低频特征参数中前6维BFCC是用于表示待处理的音频信号的低频信号的特征参数，则通过前6维BFCC可以计算得到6维一阶差分，6维二阶差分和6维互相关系数的DCT值，得到18维低频特征参数。此外，对待处理的音频信号进行滤波处理，得到1维滤波特征参数；对待处理的音频信号进行FFT处理，得到1维能量参数；即系数特征参数的维数为20。

S303：将待处理的第二频段信号划分为K个频带，并对每频带进行特征提取得到K维高频特征参数。步骤S303的具体实施方式可参考图2中步骤S203的实施方式，在此不再赘述。在一个实施例中，智能设备将第二频段信号划分为24个频带，即K＝24；并计算各个频带对应的频率倒谱系数，得到K维高频特征参数。

S304：调用噪声优化模型对N维低频特征参数，M维系数特征参数和K维高频特征参数进行处理，得到P维增益参数。在一个实施例中，基于上述的N＝32维低频特征参数，M＝20维系数特征参数，K＝24维高频特征参数，可以得到76维输入到噪声优化模型的特征参数，通过噪声优化模型得到对应的P维增益参数。P为增益参数与第一频段信号和第二频段信号对应，在一个实施例中，P＝N+K。

图3b为本申请实施例提供的一种噪声优化模型的训练流程图，如图3b所示，噪声优化模型包括三层门控循环单元，即R＝3。其中，每一层门控循环单元网络的节点数与网络的层数成正比，即第i层门控循环单元网络的节点数小于第i+1层至第R层中任一层的门控循环单元网络的节点数，i为正整数，且i小于R。噪声优化模型是在调用噪声优化模型对N维低频特征参数，M维系数特征参数和K维高频特征参数进行处理，得到P维增益参数之前，通过执行如图3b所示的步骤S3041-步骤S3043得到的。

在一种实施方式中，S3041：采用初始模型对语音样本数据的N维低频样本特征参数，M维系数样本特征参数和K维高频样本特征参数进行处理，得到P维初始增益参数。其中，语音样本数据包括的音频信号为混合信号，即语音样本数据包括的音频信号中一部分音频信号为纯净语音音频信号，一部分音频信号为噪声音频信号，还有一部分音频信号为同时包含语音音频信号和噪声音频信号的音频信号。步骤S3041的具体实施方式可参考图2中步骤S204的实施方式，在此不再赘述。

S3042：通过代价函数对P维初始增益参数和语音样本数据的实际增益进行比较。其中，实际增益是通过语音样本数据与语音样本数据对应的纯净语音数据计算得到的，即对语音样本数据和实际增益进行增益计算处理得到的音频信号与纯净语音数据的音频信号相同，或趋近于纯净语音数据的音频信号。代价函数用于将初始模型中的参数调整为合适的值，使得P维初始增益参数与实际增益相同，或趋近于实际增益。代价函数包括：均方误差(Mean Squared Error，MSE)，平均绝对误差(Mean Absolute Error，MAE)，交叉熵代价函数(Cross Entry，CE)等；例如，智能设备将P维初始增益参数与实际增益进行MSE比较。

S3043：根据比较结果对初始模型中的参数进行调整，得到噪声优化模型。智能设备根据P维初始增益参数与实际增益对初始模型中的参数(如激活函数，节点的数量等)进行调整，得到噪声优化模型。可选的，在得到噪声优化模型后，对优化后的模型进行量化处理，得到量化处理后的噪声优化模型。在一个实施例中，噪声优化模型参数的非量化体积为950kb左右，通过量化处理后噪声优化模型参数的量化体积为200kb左右。可见，通过量化处理能够有效压缩噪声优化模型占用的空间，节省资源。

图4a为本申请实施例提供的一种调用噪声优化模型对待处理的音频信号的特征参数进行处理的流程图。如图4a所示，噪声优化模型包括三层门控循环单元网络和一层激活层。首先将N维低频特征参数，M维系数特征参数和K维高频特征参数输入噪声优化模型的第一层门控循环单元网络中，然后将N维低频特征参数，M维系数特征参数，K维高频特征参数和第一层门控循环单元网络的输出输入第二层门控循环单元网络中，接着将N维低频特征参数，M维系数特征参数，K维高频特征参数，第一层门控循环单元网络的输出和第二层门控循环单元网络的输出输入第三层门控循环单元网络中，最后将第三层门控循环单元网络的输出输入激活层中进行激活，得到P为增益参数。

在一个实施例中，三层门控循环单元网络中均包括激活函数，激活函数用于为模型加入非线性因素，挖掘数据中隐藏的逻辑关系。每层门控循环单元网络中的激活函数可以是相同的，也可以是不同的，对此本申请不作限制。激活函数包括：sigmoid函数、双曲正切(tanh)函数、线性整流(Rectified Linear Unit,ReLU)函数、高斯误差(Gaussian ErrorLinerar Units，GELU)函数等。例如，第一层门控循环单元网络由60个计算节点构成，且第一层门控循环单元网络包含的激活函数为tanh函数；第二层门控循环单元网络由70个计算节点构成，且第二层门控循环单元网络包含的激活函数为sigmoid函数；第三层门控循环单元网络由130个计算节点构成，且第三层门控循环单元网络包含的激活函数为tanh函数；激活层由56个计算节点构成(在一种实施方式中，激活层的计算节点的数量是根据低频特征参数和高频特征参数的维度确定的；具体地，激活层中计算节点数＝N+K)，且激活层是基于sigmoid函数构建的。

S305：对P维增益参数中每一维增益参数对应的待处理音频信号的功率谱进行运算得到优化后的功率谱。功率谱用于指示单位频带内的信号功率。在一种实施方式中，待处理音频信号的功率谱是由N个频点对应的功率谱和K个频带对应的功率组合得到的，智能设备将第一频段信号对应的N个频点中第x个频点的功率谱与P维增益参数中第x维增益参数进行运算，得到第x个频点对应的低频优化功率谱，x为正整数，且x小于等于N；将第二频段信号对应的K个频带中第y个频带的功率谱与P维增益参数中第N+y维增益参数进行运算，得到第y个频带对应的高频优化功率谱，y为正整数，且y小于等于K；例如，设N＝32，K＝24，P＝K+N，第3个频点对应第3维增益参数，第3个频带对应第32+3＝35维增益参数。每一个频点或频带中包含的噪声的功率越大，所期望的增益参数的值越小，即期望增益参数的值与噪声的功率成反比，以尽量降低甚至消除待处理的音频信号中的噪声。各增益参数的取值范围为[0,1]，增益参数中对应于语音所属频带的参数值为1或趋近于1，对应于噪声所属频带的参数值为0或趋近于0。可见，通过将每个频点或频带的功率谱与对应维度的增益参数进行运算，能够降低或消除待处理的音频信号中的噪声，提高音频信号的质量。

S306：对优化后的功率谱进行信号转换处理，得到处理后的音频信号。在一种实施方式中，智能设备对各个频点或频带对应的优化功率谱进行FFT反变换，得到处理后的音频信号。

图4b为本申请实施例提供的一种会议会话界面图。如图4b所示，待处理的音频信号是按照时域先后对实时通信音频信号进行截取后得到的，在按照上述图2中的步骤S201-S205，或者图3a中的步骤S301-S306对待处理的音频信号进行处理后，智能设备根据处理后的音频信号的时域信息对各个处理后的音频信号进行拼接，得到实时音频信号对应的优化音频信号。例如，智能设备采集了会议用户1在会议时的一段目标语音得到对应的音频信号，按照时域先后顺序将该音频信号划分为待处理的音频信号1-待处理的音频信号10，分别对待处理的音频信号1-待处理的音频信号10进行处理，得到各个待处理的音频信号对应的N维低频特征参数，M维系数特征参数和K维高频特征参数，并采用噪声优化模型对各个待处理的音频信号对应的N维低频特征参数，M维系数特征参数和K维高频特征参数进行处理，得到各个待处理的音频信号对应的P维增益参数，采用各个待处理的音频信号对应的P维增益参数对对应的待处理的音频信号进行增益运算处理，得到处理后的音频信号1-处理后的音频信号10，根据处理后的音频信号的时域信息对各个处理后的音频信号1-处理后的音频信号10进行拼接，得到目标语音对应的优化后的音频信号，并将优化后的音频信号发送给参与会议的其他用户。

图4c为本申请实施例提供的一种语音会话界面图。如图4c所示，待处理的音频信号是用户录制的，若录制的语音的时长小于划分阈值，则智能设备将整段语音对应的音频信号作为待处理的音频信号。在按照上述图2中的步骤S201-S205，或者图3a中的步骤S301-S306对待处理的音频信号进行处理后，智能设备将处理后的音频信号进行保存或根据会话用户的标识将处理后的音频信号发送给对应的终端设备。

图4d为本申请实施例提供的一种待处理的音频信号的波形示意图。如图4d所示，该待处理的音频信号中包括语音音频信号和多余的噪声音频信号，波形与信号的能量成正比，即波形幅度越大，则对应音频信号的能量越大。通过上述图2或图3a的音频处理方法对待处理的音频信号进行处理后，可得到的处理后的音频信号。处理后的音频信号的波形示意图如图4e所示，由图4e可以看出，多余的噪声音频信号的能量被大幅度的抑制甚至完全消除(即波形幅度明显减小或消失)，而语音音频信号则几乎不受影响(即波形变化较小或不变)。可见，采用处理后的音频信号可在一定程度上抑制噪声，进而提高通信质量。

本申请实施例中，通过直接提取待处理的音频信号中第一频段信号对应的N维低频特征参数，较为完整的保留了第一频段信号的特征；并结合第二频段信号对应的K维高频特征参数和M为系数特征参数，较为完整的保留了待处理的音频信号的特征，进而提高增益参数的准度；通过增益参数对待处理的音频信号进行增益计算处理，可以较为有效地对待处理的音频信号进行优化修正，降低甚至消除该待处理的音频信号中关于噪声音频信号的特征对待处理的音频信号的不利影响，从而提高语音交互的质量。此外，噪声优化模型由R层(如R＝3)门控循环单元网络和激活层构成，复杂度较低，进而保证语音优化过程中的实时性；且量化后的噪声优化模型占用空间较少，满足实时通信的要求，能够搭载在各种音频处理设备中。

上述详细阐述了本申请实施例的方法，为了便于更好地实施本申请实施例的上述方案，相应地，下面提供了本申请实施例的装置。

请参见图5，图5为本申请实施例提供的一种音频处理装置的结构示意图，该装置可以搭载在上述方法实施例中的智能设备上，该智能设备具体可以是图1a中所示的终端设备101，终端设备102或者服务器103。图5所示的音频处理装置可以用于执行上述图2，图3a和图3b所描述的方法实施例中的部分或全部功能。其中，各个单元的详细描述如下：

获取单元501，用于获取待处理的音频信号；

处理单元502，用于根据音频频段划分值将所述待处理的音频信号划分为待处理的第一频段信号和待处理的第二频段信号；以及用于对所述待处理的第一频段信号进行特征提取得到N维低频特征参数，并根据所述N维低频特征参数和所述待处理的音频信号得到M维系数特征参数；以及用于将所述待处理的第二频段信号划分为K个频带，并对每频带进行特征提取得到K维高频特征参数；以及用于调用噪声优化模型对所述N维低频特征参数，所述M维系数特征参数和所述K维高频特征参数进行处理，得到P维增益参数，P为正整数；以及用于对所述待处理的音频信号和所述P维增益参数进行增益计算处理，得到处理后的音频信号；

在一个实施例中，所述待处理的第一频段信号包括N个频点，所述N维低频特征参数是对所述N个频点分别进行特征提取后得到的。

在一个实施例中，P＝N+K，所述处理单元502，具体用于：

将所述N个频点中第x个频点的功率谱与所述P维增益参数中第x维增益参数进行运算，得到第x个频点对应的低频优化功率谱，x为正整数，且x小于等于N；

将所述K个频带中第y个频带的功率谱与所述P维增益参数中第N+y维增益参数进行运算，得到第y个频带对应的高频优化功率谱，y为正整数，且y小于等于K；

对待处理的音频信号的优化功率谱进行信号转换处理，得到处理后的音频信号。

在一个实施例中，所述M维系数特征参数包括M-2维中间特征参数，滤波特征参数和能量参数；所述处理单元502，具体用于：

对所述待处理的音频信号进行滤波处理，得到所述滤波特征参数；

对所述待处理的音频信号进行运算处理，得到所述能量参数；

对所述N维低频特征参数中前j维低频特征参数进行运算处理，得到所述M-2维中间特征参数，j为正整数，且j小于N。

在一个实施例中，所述K个频带中，第i个频带中包括至少两个频点，第i个频带中频点的数量小于或等于第i+1个频带中频点的数量，i为正整数，且i小于等于K。

在一个实施例中，所述噪声优化模型包括三层门控循环单元；

所述噪声优化模型的第一层门控循环单元网络的输入为所述N维低频特征参数，所述M维系数特征参数和所述K维高频特征参数；

所述噪声优化模型的第二层门控循环单元网络的输入为所述第一层门控循环单元网络的输出，所述N维低频特征参数，所述M维系数特征参数和所述K维高频特征参数；

所述噪声优化模型的第三层门控循环单元网络的输入为所述第一层门控循环单元网络的输出，所述第二层门控循环单元网络的输出，所述N维低频特征参数，所述M维系数特征参数和所述K维高频特征参数。

在一个实施例中，所述噪声优化模型是根据语音样本数据训练得到的，所述样本数据包括的音频信号为混合信号；在调用噪声优化模型对所述N维低频特征参数，所述M维系数特征参数和所述K维高频特征参数进行处理，得到P维增益参数之前，所述处理单元502，还用于：

采用初始模型对所述语音样本数据的N维低频样本特征参数，M维系数样本特征参数和K维高频样本特征参数进行处理，得到P维初始增益参数；

通过代价函数对所述P维初始增益参数和所述语音样本数据的实际增益进行比较，所述实际增益是通过所述语音样本数据与所述语音样本数据对应的纯净语音数据计算得到的；

根据所述比较结果对所述初始模型中的参数进行调整，得到所述噪声优化模型。

根据本申请的一个实施例，图2，图3a和图3b所示的音频处理方法所涉及的部分步骤可由图5所示的音频处理装置中的各个单元来执行。例如，图2中所示的步骤S201可由图5所示的获取单元501和处理单元502协作执行，步骤S202-步骤S205可由图5所示的处理单元502执行。图3a中所示的步骤S301可由图5所示的获取单元501和处理单元502协作执行，步骤S302-步骤S306可由图5所示的处理单元502执行。图3b中所示的步骤S3041-步骤S3043可由图5所示的处理单元502执行。图5所示的音频处理装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本申请的其它实施例中，音频处理装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。

根据本申请的另一个实施例，可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算装置上运行能够执行如图2，图3a和图3b中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图5中所示的音频处理装置，以及来实现本申请实施例的音频处理方法。所述计算机程序可以记载于例如计算机可读记录介质上，并通过计算机可读记录介质装载于上述计算装置中，并在其中运行。

基于同一发明构思，本申请实施例中提供的音频处理装置解决问题的原理与有益效果与本申请方法实施例中音频处理装置解决问题的原理和有益效果相似，可以参见方法的实施的原理和有益效果，为简洁描述，在这里不再赘述。

请参阅图6，图6为本申请实施例提供的一种智能设备的结构示意图，所述智能设备至少包括处理器601、通信接口602和存储器603。其中，处理器601、通信接口602和存储器603可通过总线或其他方式连接。其中，处理器601(或称中央处理器(Central ProcessingUnit，CPU))是终端的计算核心以及控制核心，其可以解析终端内的各类指令以及处理终端的各类数据，例如：CPU可以用于解析用户向终端所发送的开关机指令，并控制终端进行开关机操作；再如：CPU可以在终端内部结构之间传输各类交互数据，等等。通信接口602可选的可以包括标准的有线接口、无线接口(如WI-FI、移动通信接口等)，受处理器601的控制可以用于收发数据；通信接口602还可以用于终端内部数据的传输以及交互。存储器603(Memory)是终端中的记忆设备，用于存放程序和数据。可以理解的是，此处的存储器603既可以包括终端的内置存储器，当然也可以包括终端所支持的扩展存储器。存储器603提供存储空间，该存储空间存储了终端的操作系统，可包括但不限于：Android系统、iOS系统、Windows Phone系统等等，本申请对此并不作限定。

在本申请实施例中，处理器601通过运行存储器603中的可执行程序代码，用于执行如下操作：

通过通信接口602获取待处理的音频信号，并根据音频频段划分值将所述待处理的音频信号划分为待处理的第一频段信号和待处理的第二频段信号；

对所述待处理的第一频段信号进行特征提取得到N维低频特征参数，并根据所述N维低频特征参数和所述待处理的音频信号得到M维系数特征参数，M，N为正整数；

将所述待处理的第二频段信号划分为K个频带，并对每频带进行特征提取得到K维高频特征参数，K为正整数；

作为一种可选的实施例，所述待处理的第一频段信号包括N个频点，所述N维低频特征参数是对所述N个频点分别进行特征提取后得到的。

作为一种可选的实施例，P＝N+K，处理器601对所述待处理的音频信号和所述P维增益参数进行处理，得到处理后的音频信号的具体实施例为：

作为一种可选的实施例，所述M维系数特征参数包括M-2维中间特征参数，滤波特征参数和能量参数；处理器601根据所述N维低频特征参数和所述待处理的音频信号得到M维系数特征参数的具体实施例为：

作为一种可选的实施例，所述K个频带中，第i个频带中包括至少两个频点，第i个频带中频点的数量小于或等于第i+1个频带中频点的数量，i为正整数，且i小于等于K。

作为一种可选的实施例，所述噪声优化模型包括三层门控循环单元；

作为一种可选的实施例，所述噪声优化模型是根据语音样本数据训练得到的，所述样本数据包括的音频信号为混合信号，调用噪声优化模型对所述N维低频特征参数，所述M维系数特征参数和所述K维高频特征参数进行处理，得到P维增益参数之前，处理器601还用于：

基于同一发明构思，本申请实施例中提供的智能设备解决问题的原理与有益效果与本申请方法实施例中音频处理方法解决问题的原理和有益效果相似，可以参见方法的实施的原理和有益效果，为简洁描述，在这里不再赘述。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有一条或多条指令，所述一条或多条指令适于由处理器加载并执行上述方法实施例所述的音频处理方法。

本申请实施例还提供一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述方法实施例所述的音频处理方法。

本申请实施例还提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述音频处理的方法。

本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。

本申请实施例装置中的模块可以根据实际需要进行合并、划分和删减。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，可读存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

以上所揭露的仅为本申请一种较佳实施例而已，当然不能以此来限定本申请之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本申请权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种音频处理方法，其特征在于，所述方法包括：

其中，所述噪声优化模型包括R层门控循环单元网络和激活层，所述激活层用于对第R层门控循环单元网络的输出结果进行激活，R为大于等于2的正整数；

其中，所述待处理的第一频段信号包括N个频点，所述N维低频特征参数是对所述N个频点分别进行特征提取后得到的，P=N+K，所述对所述待处理的音频信号和所述P维增益参数进行处理，得到处理后的音频信号，包括：

2.如权利要求1所述的方法，其特征在于，所述M维系数特征参数包括M-2维中间特征参数，滤波特征参数和能量参数；所述根据所述N维低频特征参数和所述待处理的音频信号得到M维系数特征参数，包括：

3.如权利要求1所述的方法，其特征在于，所述K个频带中，第i个频带中包括至少两个频点，第i个频带中频点的数量小于或等于第i+1个频带中频点的数量，i为正整数，且i小于等于K。

4.如权利要求1所述的方法，其特征在于，所述噪声优化模型包括三层门控循环单元；

5.如权利要求1所述的方法，其特征在于，所述噪声优化模型是根据语音样本数据训练得到的，所述样本数据包括的音频信号为混合信号，调用噪声优化模型对所述N维低频特征参数，所述M维系数特征参数和所述K维高频特征参数进行处理，得到P维增益参数之前，所述方法还包括：

6.一种音频处理装置，其特征在于，包括：

获取单元，用于获取待处理的音频信号；

处理单元，用于根据音频频段划分值将所述待处理的音频信号划分为待处理的第一频段信号和待处理的第二频段信号；以及用于对所述待处理的第一频段信号进行特征提取得到N维低频特征参数，并根据所述N维低频特征参数和所述待处理的音频信号得到M维系数特征参数，M，N为正整数，所述待处理的第一频段信号包括N个频点，所述N维低频特征参数是对所述N个频点分别进行特征提取后得到的；以及用于将所述待处理的第二频段信号划分为K个频带，并对每频带进行特征提取得到K维高频特征参数；以及用于调用噪声优化模型对所述N维低频特征参数，所述M维系数特征参数和所述K维高频特征参数进行处理，得到P维增益参数，K、P为正整数；以及用于对所述待处理的音频信号和所述P维增益参数进行增益计算处理，得到处理后的音频信号；

其中，P=N+K，所述处理单元，具体用于将所述N个频点中第x个频点的功率谱与所述P维增益参数中第x维增益参数进行运算，得到第x个频点对应的低频优化功率谱，x为正整数，且x小于等于N；将所述K个频带中第y个频带的功率谱与所述P维增益参数中第N+y维增益参数进行运算，得到第y个频带对应的高频优化功率谱，y为正整数，且y小于等于K；对待处理的音频信号的优化功率谱进行信号转换处理，得到处理后的音频信号。

7.一种智能设备，其特征在于，包括：存储装置和处理器；

所述存储装置中存储有计算机程序；

处理器，执行计算机程序，实现如权利要求1-5任一项所述的音频处理方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时，如权利要求1-5任一项所述音频处理方法被实现。