CN113555028A

CN113555028A - 一种用于车联网语音降噪的处理方法

Info

Publication number: CN113555028A
Application number: CN202110814772.9A
Authority: CN
Inventors: 李淑娜; 周而重
Original assignee: Shouyue Technology Beijing Co Ltd
Current assignee: Shouyue Technology Beijing Co Ltd
Priority date: 2021-07-19
Filing date: 2021-07-19
Publication date: 2021-10-26
Anticipated expiration: 2041-07-19
Also published as: CN113555028B

Abstract

本发明公开了一种用于车联网语音降噪的处理方法，该方法包括：根据语音和噪声能量值，调整信噪比，对噪声信号进行缩放，得到不同的噪声语音；建立降噪模型；基于降噪模型降噪后的结果，截取部分环境噪声，根据语音能量平均值大集中在‑35dB以下，利用语音处理工具将‑35dB以下持续2s以上的静音部分去除。通过该方法，本方法将端到端的深度学习网络用于实际的风燥较大的车载语音处理场景中，免去了传统方法中将语音变换处理的步骤；通过调节不同信噪比参数获得更多的训练样本，提升模型的泛化能力，对于模型处理后的样本，去除静音部分再保存，节省了存储空间。

Description

一种用于车联网语音降噪的处理方法

技术领域

本发明属于网约车技术领域，特别涉及一种用于车联网语音降噪的处理方法。

背景技术

网约车运营过程的录音为还原司乘过程最好的证据，比如司乘人员纠纷，当通过双方申诉理由，不能明确判定责任归属时，调取录音记录，根据真实的录音数据来判定责任归属方。车载录音大都风燥大，还掺有行车过程的导航播报声音，与人声混合，去除难度较大。另外，网约车行车过程的录音都是伴随订单开始和结束的全程的录音，短则几分钟，长则几小时，但是车载录音由于行车和环境问题，普遍存在噪声大，噪音种类多，并且还伴有导航音或者音乐人声一类噪声的特点，非常不利于后续对语音数据的分析和利用。因此去除音频文件中的噪声，人声部分又不失真，是降噪处理的目的所在。

现有技术的缺点：

现有降噪技术方法处理后的语音，容易出现声音丢失，或者降噪不明显，给客服人员或者风控人员提供的便利甚微，有时不得不去听原始录音。因此急需使用一种有效的降噪处理方法，更多的只保留人声，并且去除掉空白的录音，缩短录音的总时长，提高使用录音分析的效率。

发明内容

针对相关技术中的上述技术问题，本发明提出一种用于车联网语音降噪的处理方法，能够克服现有技术的上述不足。

为实现上述技术目的，本发明的技术方案是这样实现的：

一种用于车联网语音降噪的处理方法，该方法包括：

根据语音和噪声能量值，调整信噪比，对噪声信号进行缩放，得到不同的噪声语音；

建立降噪模型，其中，降噪模型包括：生成器、判别器和训练参数；

基于降噪模型降噪后的结果，截取部分环境噪声，根据语音能量平均值大都集中在-35dB以下，利用语音处理工具将-35dB以下持续2s以上的静音部分去除。

进一步的，所述根据语音和噪声能量值，调整信噪比，对噪声信号进行缩放，得到不同的噪声语音，包括：

获取纯净人声和噪声数据，根据将要混合的纯净语音能量，采用不同的信噪比将已标注噪音的数据进行不同比例缩放，得到更多纯净人声和噪声混合样本数据。

进一步的，所述根据语音和噪声能量值，调整信噪比，对噪声信号进行缩放，得到不同的噪声语音的计算步骤为：

计算干净语音和原始噪音的能量值；

得到新的语音噪声能量值；

根据信噪比的公式缩放得到新的噪音信号数据；

构造混合的语音样本。

进一步的，所述生成器，包括：

通过多层的卷积神经网络提取输入的语音信号特征；

经过参数线性整流单元，学习训练集带噪声数据分布与干净语音数据分布的映射，生成假样本数据。

进一步的，所述判别器的输入数据，包括：

一部分是来自生成器模仿的真实样本，另一部分是生成器生成的假样本数据。

进一步的，所述生成器通过调整参数去掉噪音部分，得到干净的语音。

进一步的，所述训练参数，包括：原有模型网络结构下，调整相关数据，训练得到模型。

本发明的有益效果：通过该方法，本方法将端到端的深度学习网络用于实际的风燥较大的车载语音处理场景中，免去了传统方法中将语音变换处理的步骤；通过调节不同信噪比参数获得更多的训练样本，提升模型的泛化能力，对于模型处理后的样本，去除静音部分再保存，节省了存储空间。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了根据本发明实施例的一种用于车联网语音降噪的处理方法的流程框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地说明，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，一种用于车联网语音降噪的处理方法，该方法包括：

在本发明的一些实施例中，所述根据语音和噪声能量值，调整信噪比，对噪声信号进行缩放，得到不同的噪声语音，包括：

在本发明的一些实施例中，所述根据语音和噪声能量值，调整信噪比，对噪声信号进行缩放，得到不同的噪声语音的计算步骤为：

计算干净语音和原始噪音的能量值；

得到新的语音噪声能量值；

根据信噪比的公式缩放得到新的噪音信号数据；

构造混合的语音样本。

在本发明的一些实施例中，所述生成器，包括：

通过多层的卷积神经网络提取输入的语音信号特征；

在本发明的一些实施例中，所述判别器的输入数据，包括：

在本发明的一些实施例中，所述生成器通过调整参数去掉噪音部分，得到更干净的语音。

在本发明的一些实施例中，所述训练参数，包括：原有模型网络结构下，调整相关数据，训练得到模型。

本文采用一种端到端的语音增强方案，利用SEGAN对抗网络生成纯净语音的过程。以往的语音处理，基本基于人工提取特征，对语音进行分桢处理，手动提取MFCC特征后，对频谱再进行后续的处理。SEGAN网络直接基于时域的语音信号提取语音特征，最后生成的语音也直接是时域信号，免去了时域到频域转换和逆转换的过程。输入模型的样本为带有噪声样本的语音数据和纯净的语音数据。SEGAN网络主要有两个部分，生成器和判别器。

样本准备：

由于日常运营过程中产生的语音数据量巨大，但是由于网约车司机非常尊重乘客的意愿，在乘客不愿说话的情况下，司机不能主动和乘客聊天。所以很多订单行程录音基本都是空白噪声，人声部分的数据占比非常小，因此标注人声语音任务非常难。在获取一定量的纯净人声(Clean)和噪声(Noise)数据后，采用不同的信噪比(SNR)将已标注噪音数据根据将要混合的纯净语音能量进行不同比例的缩放，得到更多二者混合样本数据。

根据语音和噪声能量值和需要调整的信噪比为SNR，对噪声信号进行缩放，得到不同的噪声语音，具体计算步骤如下：

1)计算干净语音和原始噪音的能量值

S(t):收集的纯净语音人声部分的语音信号数据

S_dB:纯净人声部分的语音信号数据的能量

N(t):收集的噪声语音信号数据

N_dB:噪声部语音信号数据的能量

2)得到新的语音噪声能量值

N_new_dB＝S_dB–SNR；

N_new_dB：构造的新噪声语音信号能量。

SNR：信噪比

3)根据信噪比的公式缩放得到新的噪音信号数据

4)构造混合的语音样本

M(t)＝S(t)+N_new(t)；

N_new(t)：通过缩放得到的新噪音信号数据

S(t)是真实样本x的语音信号数据，M(t)是构造的混合样本

对噪声截取或者平铺，以得到跟干净语音等长的混合语音信号。

通过添加不同信噪比的混合方式，能在现有的样本基础上扩大混合样本的多样性，覆盖更多噪声范围内的实际样本，提高模型的泛化能力。

降噪模型：

传统降噪方法一般采用估计噪声和维纳滤波，算法的效果高度依赖于噪声估计的准确性，一般应用在平稳噪声和瞬时噪声。近年来，随着深度学习的出现，也有人提出一种基于RNN模型的降噪算法[1]，该算法将语音信号和深度学习结合起来，噪声抑制效果优于传统方法。但是该方法不是端到端的训练模型，需要手动提取语音特征。为了规避这些问题，更深的模型被用在语音的领域，并且自动提取时域的特征用于模型训练，减少了语音信号在解码时相位变换和对齐方面的损失。SEGAN模型结合了在图像领域取得显著效果的GAN模型的思想，应用在含有噪音的语音领域。SEGAN包括生成器(G)和判别器(D)两个部分。

生成器G的网络结构是一个encoder-decoder，auto-encoder通过多层的卷积神经网络提取输入的语音信号特征，再经过PReLUs(参数线性整流单元)，主要学习训练集带噪声数据

分布与干净语音数据分布的映射，生成新的样本数据，称为假样本数据

生成的样本数据；

真实样本；

生成器模型；

判别器：

判别器是一个二分类器，输入数据包括两部分，一部分是来自生成器模仿的真实样本(x)，另一部分是生成器生成的假样本数据

D需要判定x是真实样本，而

是假样本。反过来生成器G通过调整参数去掉噪音部分，得到更接近于干净的语音，以至于最后D判定

为真实的干净样本。

这种对抗训练的方式，最后使得G可以生成足够真实的样本，D也可以提取到更接近真实数据的特征，损失函数如下，在G的部分使用L2正则项来限制生成的样本和真实样本的距离。

生成的样本数据；

真实样本；

生成器模型；

判别器模型；

λ:超参数；

V_LSGAN(G):平方误差逻辑损失。

训练参数：

训练集为约40小时的带噪声语音数据，在原有模型网络结构下，调整batch_size为10,learningrate为0.0001，epoch为200，训练得到的模型，语音降噪效果明显，对客服和风控部门人员需要用语音来取证时非常友好，既能保证语音不失真，又能去除掉绝大部分的噪音。

静音处理：

车载录音在行程中有真实人声语音的只有少部分，其余基本都是导航音和环境噪声。而行程录音短则几分钟，长则几小时，对于司乘纠纷用语音求证来说非常困难。

因此，基于上述模型降噪后的结果，截取部分环境噪声，根据语音能量平均值大都集中在-35dB以下，所以可以利用语音处理工具将-35dB以下持续2s以上的静音部分去除，极大的缩短了，语音时长，节省存储空间。去除静音的工具直接利用linux系统ffmpeg工具包实现。

通过该方法，本方法将端到端的深度学习网络用于实际的风燥较大的车载语音处理场景中，免去了传统方法中将语音变换处理的步骤；通过调节不同信噪比参数获得更多的训练样本，提升模型的泛化能力，对于模型处理后的样本，去除静音部分再保存，节省了存储空间。

尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。