CN113611324B

CN113611324B - 一种直播中环境噪声抑制的方法、装置、电子设备及存储介质

Info

Publication number: CN113611324B
Application number: CN202110688922.6A
Authority: CN
Inventors: 何潇
Original assignee: Shanghai Yitan Network Technology Co ltd
Current assignee: Shanghai Yitan Network Technology Co ltd
Priority date: 2021-06-21
Filing date: 2021-06-21
Publication date: 2024-03-26
Anticipated expiration: 2041-06-21
Also published as: CN113611324A

Abstract

一种直播中环境噪声抑制的方法、装置、电子设备及存储介质，它包括：获取待处理的直播音频数据流，将直播音频数据流最前列固定长度数据放入输入缓冲区；将输入缓冲区的音频时域信号序列输入音频处理模型进行处理，音频处理模型至少包括频域处理过程和时域处理过程，经过傅里叶变换转换为语音频谱，语音频谱的幅值至少经过循环神经网络模型和非线性激活函数，生成幅值系数序列，所述幅值系数序列与所述音频时域信号序列的初始幅值进行相值相乘，在频谱相位保持不变的情况下从而得到新的幅值；将所述新幅值的语音频谱通过逆傅里叶变换，得到时域信号，后所述时域信号经过循环神经网络模型和非线性激活函数，生成输入信号长度相等的系数序列，并与之前的时域信号进行相乘，获得经过噪声抑制处理的新语音信号。

Description

一种直播中环境噪声抑制的方法、装置、电子设备及存储介质

技术领域

本发明实施例涉及计算机技术领域，尤其涉及一种实施例涉及计算机技术领域，尤其涉及一种直播中环境噪声抑制的方法、装置、电子设备及存储介质。

背景技术

随着互联网技术的迅速发展，以视频直播和语音直播为主的网络直播如今已深入人们的日常工作和生活，各种各样的网络直播可以为人们带来多样化的信息，提供新鲜的娱乐体验。

广州市百果园网络科技有限公司在公开了一种201610754817.7音频信号处理方法，及装置，其中方法包括：获取直播过程中产生的待处理音频信号，从所述待处理音频信号中提取音频帧；根据先验的音频模型确定第一概率、第二概率以及第三概率；所述第一概率为所述音频帧属于语音的概率，所述第二概率为所述音频帧属于音乐的概率，所述第三概率为所述音频帧属于噪音的概率；若所述第一概率小于第一门限或者所述第二概率小于第二门限，并且，所述第三概率大于第三门限，则确定所述音频帧包含噪音；在确定所述待处理音频信号中包含噪音后，对属于噪音的音频帧进行降噪处理。可以适用于直播的应用场景，实现音频信号的降噪，提升音频信号质量。该方法中采用维纳滤波器进行降噪的具体实现方案是：上述对属于噪音的音频帧进行降噪处理包括：根据上述待处理音频信号U以及包含噪音的音频帧的数量V计算信噪比SNR；然后计算维纳滤波器的传递函数H，H＝SNR/(SNR+1)，在频域计算输出的音频信号Y，Y＝H×U。更具体地，该提案实施例还提供了先验的音频模型的自动化训练方案：在上述根据先验的音频模型确定第一概率、第二概率以及第三概率之前，先通过深度神经网络、隐含马尔科夫模型或者频谱特征聚类的方式获得上述先验的音频模型。在获得先验的音频模型后，可以通过实际测试来确定训练的效果，选择较好的先验的音频模型在后续判断噪音的过程中使用。

上述的方法主要是通过滤波器来环境噪声抑制的，存在噪声抑制效果不佳的问题。现有技术中期望通过卷积神经网络或循环神经网络根据某一时刻前后波形预计此时刻纯语音波形，但该方法忽略音频频谱特征，导致网络结构复杂，所需训练样本较多，推理时间较长；而之前仅使用频域处理方式，是期望通过滤波仅保留当前音频中的人声频谱，但仍会保留人声率范围内的噪声频谱，存在噪声抑制不佳的问题。

发明内容

本发明提供了一种直播中环境噪声抑制的方法，以解决现有技术中噪声抑制不佳的问题。

一种直播中环境噪声抑制的方法，包括：

获取待处理的直播音频数据流，将所述直播音频数据流最前列固定长度数据放入输入缓冲区；

将所述输入缓冲区的音频时域信号序列输入音频处理模型进行处理，所述音频处理模型至少包括频域处理过程和时域处理过程，

所述频域处理过程至少包括：经过傅里叶变换转换为语音频谱，所述语音频谱的幅值至少经过循环神经网络模型和非线性激活函数，生成幅值系数序列，所述幅值系数序列与所述音频时域信号序列的初始幅值进行相值相乘，在频谱相位保持不变的情况下从而得到新的幅值；

时域处理过程至少包括：将所述新幅值的语音频谱通过逆傅里叶变换，得到时域信号，后所述时域信号经过循环神经网络模型和非线性激活函数，生成输入信号长度相等的系数序列，并与之前的时域信号进行相乘，获得经过噪声抑制处理的新语音信号；

较佳地，还包括：经过所述噪声抑制的新语音信号与所述音频时域信号序列按比例进行叠加后输出。

一种环境噪声抑制处理装置，其特征在于，

输入缓冲区；

输出缓冲区；

音频处理模型：包括频域处理过程和时域处理过程，用于通过训练集训练所述模型的频域处理过程可获得输入音频数据的所述频域的预估幅值系数序列，训练时域处理过程可获得输入音频数据的时域处理的信号长度相等的系数序列；

前端处理模块：用于获取待处理的直播音频数据流，将所述直播音频数据流最前列固定长度数据放入所述输入缓冲区；

噪声抑制处理模块：包括频域处理过程子模块和时域处理过程子模块，用于将所述输入缓冲区的音频时域信号序列输入音频处理模型进行处理

频域处理过程子模块：经过傅里叶变换转换为语音频谱，所述语音频谱的幅值至少经过循环神经网络模型和非线性激活函数，生成幅值系数序列，所述幅值系数序列与所述音频时域信号序列的初始幅值进行相值相乘，从而得到新的幅值；

时域处理过程子模块：用于将所述新幅值的语音频谱通过逆傅里叶变换，得到时域信号，后所述时域信号经过循环神经网络模型和非线性激活函数，生成输入信号长度相等的系数序列，并与之前的时域信号进行相乘，获得经过噪声抑制处理的新语音信号。

一种电子设备，其特征在于，所述电子设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述的语音处理方法。

一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如上述的语音处理方法。

本发明可以实现：采用频域处理的音频降噪模型，可直接剔除语音频谱中不属于人声的部分，模型结构较简单，处理速率较快，并同时采用时域处理的音频降噪模型，又直接预测人声波形，达到效果，但是同时又克服了只采用时域处理的音频降噪模型直接结算频谱，造成其模型结构复杂，所需训练样本量较大，处理速率较慢的问题。

附图说明

图1为直播网络的一种原理图；

图2为一种声音数据处理原理图；

图3为音频处理模型的处理原理图。

具体实施方式

以下结合附图，具体说明本发明。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

参见图1，图1为本申请实施例提供的直播系统的架构示意图。如图1所示，该直播互动系统包括第一终端110、第二终端120和服务器130，第一终端110和第二终端120可以通过有线或无线网络与服务器130进行通信。

需要说明的是，第一终端110和第二终端120上运行有直播应用程序(Application，APP)，第一终端110上运行的直播APP中登录有第一用户，第二终端120上运行的直播APP中登录有第二用户。示例性的，第一用户可以为目标直播间中的观看用户，第二用户可以为目标直播间中的在线主播，在本申请实施例提供的直播系统中，目标直播间中可以同时存在多位在线主播(此时直播系统中包括多个第二终端120)，这多位在线主播与观看用户共同进行音频的直播活动。

在本申请实施例提供的直播互动系统中，第一终端110可以预先安装音频处理模型和噪声抑制模块，也可以不安装，如果安装，则在本端完成噪声抑制处理，如果不安排，可以在服务器130完成处理。

在本申请实施例提供的直播系统中，第二终端120一般会安装音频处理模型和噪声抑制模块，在本端完成噪声抑制处理，处理效率高，速度更快。

应理解，图1所示的直播系统的结构仅为示例，在实际应用中，本申请实施例提供的直播互动系统并不仅限于图1所示的结构，例如，本申请实施例提供的直播系统中可以包括多个第二终端120，也可以包括一个第二终端120，又例如，本申请实施例提供的直播系统中的第一终端110和第二终端120并不仅限于图1所示的智能手机，也可以平板电脑、笔记本电脑、掌上电脑、移动互联网设备(mobile internet device，MID)、可穿戴设备(例如智能手表、智能手环等)以及智能电视等携带数据处理功能(例如，多媒体数据播放功能)的智能终端。在此不对本申请实施例提供的直播互动系统的结构做任何限定。

第一终端110和第二终端120均可以包括直播软件，其中直播可以是指通过设备采集开播方数据，经过一系列处理(例如，视频编码压缩)成可观看、可传输的音视频流，输出至观看用户端(也可以称为互动用户端)的技术。

一种直播中环境噪声抑制的方法，它包括：

S110：获取待处理的直播音频数据流，将所述直播音频数据流最前列固定长度数据放入输入缓冲区；

S120：将所述输入缓冲区的音频时域信号序列输入音频处理模型进行处理，所述音频处理模型至少包括频域处理过程和时域处理过程，

时域处理过程至少包括：将所述新幅值的语音频谱通过逆傅里叶变换，得到时域信号，后所述时域信号经过循环神经网络模型和非线性激活函数，生成输入信号长度相等的系数序列，并与之前的时域信号进行相乘，获得经过噪声抑制处理的新语音信号.

在本发明中，最佳还可以包括：

S130：经过所述噪声抑制的新语音信号与所述音频时域信号序列按比例进行叠加后输出。

在步骤S110之前包括：音频处理模型建立并进行训练和验证。即：收集纯语音音频和噪声音频的样本集，按照预先采样率和分辨率采样其波形，经过等比例混叠作为音频处理模型的输入，而纯语音音频波形作为真实值，损失函数采用所有样本的信噪比的相反数平均值，其中模型输出音频波形作为预估值，所述样本集分成训练集和验证集，通过所述训练集训练所述模型，通过所述验证集验证所述模型。

应用例：

在信号的实时处理流程(如图2所示)中，输入缓冲区和输出缓冲区固定为相同长度(记为block_len)并且初始为0，每次处理的偏移长度(记为block_shift)也相同。每次处理将输入流中的最前列的block_shift长度信号复制到输入缓冲区，输入缓冲区的时域信号序列，输入缓冲区中的信号通过下述降噪方法处理后的输出信号叠加到输出缓冲区。每次处理后，输出缓冲区的前block_shift长度信号幅值到输出流，并且输出缓冲器中的信号序列前移block_shift长度，后方补0。

获得输入缓冲区的时域信号序列进一步包括：

首先获取需要进行处理的音频信号，这些音频信号可以通过爬取或用户预设输入得到，在分帧之前，用户可自行设置帧移或帧叠，以及帧长，其中，在一帧数据中帧叠的数据为为上一帧的数据，帧移的数据为新数据；当获取到音频信号时，同时获取预设的帧长，由于帧长由帧移与帧叠相加得到，当帧移已设定，则依据帧长以及预设的帧移，可得到帧叠，当帧叠已设定，则可依据帧长以及预设的帧叠得到帧移，然后按照帧长、帧移与帧叠进行分帧，得到相应的时域信号。

举例地，设置输入音频信号的帧长为L、帧移为L2，帧叠为L1，其中L＝L1+L2，上述L2取值可为一帧音频信号的时间/>其中fs为采样频率，例如一段音频时长为20ms左右，采样频率为16kHz的时候，则可以设定帧长为256点，当设定帧长以及帧移后，即可得到帧叠，然后按照设定的值进行分帧，得到相应的时域信号。

音频处理模型建立并进行训练和验证。即：收集纯语音音频和噪声音频的样本集，按照预先采样率和分辨率采样其波形，经过等比例混叠作为音频处理模型的输入，而纯语音音频波形作为真实值，损失函数采用所有样本的信噪比的相反数平均值，其中模型输出音频波形作为预估值(通过每轮训练过程中损失在模型中的反向传播，调整模型隐藏层的权重)，所述样本集分成训练集和验证集，通过所述训练集训练所述模型，通过所述验证集验证所述模型

降噪方法处理进一步包括：

频域处理部分：

输入音频时域信号，经过傅里叶变换(例如短时傅里叶变换)转换为语音频谱，频谱的幅值经过m个(m可为任意正整数，例如2)循环神经网络(例如LSTM(Long Short-TermMemory，长短期记忆网络))和非线性激活函数(例如sigmoid函数：f(x)＝1/1+exp(-x))处理，生成幅值系数序列，与初始幅值相乘，从而得到新的幅值，而频谱的相位保持不变。

时域处理部分：

经过上述处理的语音频谱通过逆傅里叶变换(例如逆短时傅里叶变换)，得到时域信号。该时域信号经过一维卷积(卷积核大小和跨度都为1，输出空间维度为LSTM隐藏节点数目)、n个(n可为任意正整数，例如2)循环神经网络(例如LSTM)和非线性激活函数(例如sigmoid函数)处理，生成输入信号长度相等的系数序列，并与其相乘。再通过一维卷积(卷积核大小和跨度都为1，输出空间维度为输入信号长度)，输出经过噪声抑制的语音信号。在允许少量噪声的场景下，可以将经过噪声抑制的语音信号与原始语音信号按照一定比例(例如此比例0.8：0.2时，输出音频波形幅值＝经过噪声抑制的音频波形幅值*0.8+输入音频波形幅值*0.2)叠加，以保证语音信号的完整性。

从直播音频数据流对应的音频数据流中获得音频时域信号序列中包括采样步骤，所述采样率和分辨率与所述音频处理模型的样本集的采样率和分辨率适配，

并且所述音频处理模型的样本集采集若干种采样率和分辨率，不同的采样率和分辨率对应适配的所述音频处理模型，所述直播音频数据流对应的音频数据流中采样的采样率和分辨率为至少其中之一，并且输入对应的音频处理模型进行处理。一般地，输入音频采样率和分辨率越高，采用的block_len、block_shift和LSTM隐藏节点数目越大。例如，输入音频采样率和分辨率为16kHz时，输入和输出缓冲区block_len＝512，block_shift＝128，LSTM隐藏节点数目＝128；音频采样率和分辨率为44.1kHz时，输入和输出缓冲区block_len＝1024，block_shift＝256，LSTM隐藏节点数目＝256。模型频域处理部分LSTM输出长度与傅里叶变换后的长度(输入波形长度的一半+1)相同，时域处理部分LSTM输出长度为256。

本实例可以实现：采用频域处理的音频降噪模型，可直接剔除语音频谱中不属于人声的部分，模型结构较简单，处理速率较快，并同时采用时域处理的音频降噪模型，又直接预测人声波形，达到效果，但是同时又克服了只采用时域处理的音频降噪模型直接结算频谱，造成其模型结构复杂，所需训练样本量较大，处理速率较慢的问题。

本申请还提供了一种计算机可读的存储介质，存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行以上实施例所描述音频信号处理方法。

本申请还提供了一种包含指令的计算机设备，计算机设备包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现以上实施例所描述的音频信号处理方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种直播中环境噪声抑制的方法，其特征在于，包括：

时域处理过程至少包括：将所述新幅值的语音频谱通过逆傅里叶变换，得到时域信号，后所述时域信号经过循环神经网络模型和非线性激活函数，生成输入信号长度相等的系数序列，并与之前的时域信号进行相乘，获得经过噪声抑制处理的新语音信号。

2.如权利要求1所述的方法，其特征在于，还包括：经过所述噪声抑制的新语音信号与所述音频时域信号序列按比例进行叠加后输出。

3.如权利要求1所述的方法，其特征在于，与之前的时域信号进行相乘之后还包括：再通过一维卷积核大小和跨度都为N，输出空间维度为输入信号长度的卷积层，后输出经过噪声抑制的语音信号。

4.如权利要求1所述的方法，其特征在于，还包括：

收集纯语音音频和噪声音频的样本集，按照预先采样率和分辨率采样其波形，经过等比例混叠作为音频处理模型的输入，而纯语音音频波形作为真实值，损失函数采用所有样本的信噪比的相反数平均值，其中模型输出音频波形作为预估值，所述样本集分成训练集和验证集，通过所述训练集训练所述模型，通过所述验证集验证所述模型。

5.如权利要求4所述的方法，其特征在于，获取待处理的直播音频数据流，将所述直播音频数据流最前列固定长度数据放入输入缓冲区进一步包括：

设置输入缓冲区和输出缓冲区固定为block_len的相同长度并且初始为0，每次处理偏移长度block_shift且block_shift不大于block_len的数据；

将直播音频数据流中获取最前列block_len长度的数据；

将所述数据放入所述输入缓冲区，以便输入音频处理模型进行环境噪声抑制处理，

处理后，输出缓冲区的前block_shift长度信号幅值到输出缓冲区，并且输出缓冲器中的信号序列前移block_shift长度，后方补0。

6.如权利要求1所述的方法，其特征在于，所述语音频谱的幅值至少经过循环神经网络模型和非线性激活函数进一步包括：

频谱的幅值经过m个LSTM循环神经网络和sigmoid函数：f(x)＝1/(1+exp(-x))处理，生成幅值系数序列。

7.如权利要求5所述的方法，其特征在于，从直播音频数据流对应的音频数据流中获得音频时域信号序列中包括采样步骤，所述采样率和分辨率与所述音频处理模型的样本集的采样率和分辨率适配，

并且所述音频处理模型的样本集采集若干种采样率和分辨率，不同的采样率和分辨率对应适配的所述音频处理模型，所述直播音频数据流对应的音频数据流中采样的采样率和分辨率为至少其中之一，并且输入对应的音频处理模型进行处理。

8.如权利要求7所述的方法，其特征在于：输入音频采样率和分辨率越高，采用的block_len、block_shift和LSTM隐藏节点数目越大，输入音频采样率和分辨率为16kHz时，输入和输出缓冲区block_len＝512，block_shift＝128,LSTM隐藏节点数目＝128；音频采样率和分辨率为44.1kHz时，输入和输出缓冲区block_len＝1024，block_shift＝256，LSTM隐藏节点数目＝256，模型频域处理部分LSTM输出长度与傅里叶变换后的长度相同，所述傅里叶变换后的长度为输入波形长度的一半+1，时域处理部分LSTM输出长度为256。

9.一种环境噪声抑制处理装置，其特征在于，

输入缓冲区；

输出缓冲区；

10.一种电子设备，其特征在于，所述电子设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-8中任一所述的语音处理方法。

11.一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-8中任一所述的语音处理方法。