CN108877775B

CN108877775B - 语音数据处理方法、装置、计算机设备及存储介质

Info

Publication number: CN108877775B
Application number: CN201810561725.6A
Authority: CN
Inventors: 涂宏
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-06-04
Filing date: 2018-06-04
Publication date: 2023-03-31
Anticipated expiration: 2038-06-04
Also published as: WO2019232845A1; CN108877775A

Abstract

本发明公开一种语音数据处理方法、装置、计算机设备及存储介质，该语音数据处理方法包括：获取原始语音数据；采用VAD算法对所述原始语音数据进行分帧和切分处理，获取至少两帧待测语音数据；采用ASR语音特征提取算法对每一帧所述待测语音数据进行特征提取，获取待测滤波器语音特征；采用训练好的ASR‑LSTM语音识别模型对所述待测滤波器语音特征进行识别，获取识别概率值；若所述识别概率值大于预设概率值，则将所述待测语音数据作为目标语音数据。该语音数据处理方法可有效去除噪音及静音的干扰，提高模型识别的准确率。

Description

语音数据处理方法、装置、计算机设备及存储介质

技术领域

本发明涉及语音识别技术领域，尤其涉及一种语音数据处理方法、装置、计算机设备及存储介质。

背景技术

语音活动检测(Voice Activity Detection，以下简称VAD)又称语音端点检测或语音边界检测，是从声音信号流中识别和消除长时间的静音期，以达到在不降低业务质量的情况下节省话路资源的作用。

目前，在语音识别模型训练或识别时，需要获取较纯净的语音数据进行模型训练，但用于当前的语音数据往往夹杂着噪音或静音，导致在使用夹杂噪音的语音数据进行训练时，获取的语音识别模型的准确率较低，不利于语音识别模型的推广应用。

发明内容

基于此，有必要针对上述技术问题，提供一种语音数据处理方法、装置、计算机设备及存储介质,用于解决现有技术中语音识别模型的准确率较低的技术问题。

一种语音数据处理方法，包括：

获取原始语音数据；

采用VAD算法对所述原始语音数据进行分帧和切分处理，获取至少两帧待测语音数据；

采用ASR语音特征提取算法对每一帧所述待测语音数据进行特征提取，获取待测滤波器语音特征；

采用训练好的ASR-LSTM语音识别模型对所述待测滤波器语音特征进行识别，获取识别概率值；

若所述识别概率值大于预设概率值，则将所述待测语音数据作为目标语音数据。

一种语音数据处理装置，包括：

原始语音数据获取模块，用于获取原始语音数据；

待测语音数据获取模块，用于采用VAD算法对所述原始语音数据进行分帧和切分处理，获取至少两帧待测语音数据；

待测滤波器语音特征获取模块，用于采用ASR语音特征提取算法对每一帧所述待测语音数据进行特征提取，获取待测滤波器语音特征；

识别概率值获取模块，用于采用训练好的ASR-LSTM语音识别模型对所述待测滤波器语音特征进行识别，获取识别概率值；

目标语音数据获取模块，用于若所述识别概率值大于预设概率值，则将所述待测语音数据作为目标语音数据。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述语音数据处理方法的步骤。

一种非易失性存储介质，所述非易失性存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述语音数据处理方法的步骤。

上述语音数据处理方法、装置、计算机设备及存储介质，先获取原始语音数据，然后，采用VAD算法对原始语音数据进行分帧和切分处理，以便初步的排除静音段的干扰，以提高后续模型识别的准确率。采用ASR语音特征提取算法对至少两帧待测语音数据进行特征提取，获取待测滤波器语音特征，以便采用训练好的ASR-LSTM语音识别模型对待测滤波器语音特征进行识别，获取识别概率值。若识别概率值大于预设概率值，则认为该待测语音数据为语音，并将该待测语音数据作为目标语音数据，减小噪音干扰，以便采用目标语音数据作为训练数据对声纹模型或其他语音模型进行训练，以提高模型的识别准确率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中语音数据处理方法的一应用环境图；

图2是本发明一实施例中语音数据处理方法的一流程图；

图3是图2中步骤S20的一具体流程图；

图4是图2中步骤S30的一具体流程图；

图5是本发明一实施例中语音数据处理方法的又一流程图；

图6是图5中步骤S63的一具体流程图；

图7是本发明一实施例中语音数据处理装置的一示意图；

图8是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请提供的语音数据处理方法，可应用在如图1的应用环境中，其中，计算机设备通过网络与服务器进行通信。计算机设备可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器来实现。

具体地，该语音数据处理方法应用在银行、证券、保险等金融机构或者其他机构配置的计算机设备上，用于采用语音数据处理方法对原始语音数据进行预处理，获取训练数据，以便采用该训练数据训练声纹模型或其他语音模型，以提高模型识别的准确率。

在一实施例中，如图2所示，提供一种语音数据处理方法，以该方法应用在图1中的服务器为例进行说明，包括如下步骤：

S10：获取原始语音数据。

其中，原始语音数据是采用录音设备录制得到的说话人语音数据，该原始语音数据是未经处理的语音数据。本实施例中，该原始语音数据可以是wav、mp3或其他格式的语音数据。该原始语音数据包括目标语音数据和干扰语音数据，其中，目标语音数据是指原始语音数据中声纹连续变化明显的语音部分，该目标语音数据一般为说话人语音。相应地，干扰语音数据是指原始语音数据中目标语音数据之外的语音部分，即干扰语音数据为说话人语音之外的语音。具体地，干扰语音数据包括静音段和噪音段，其中，静音段是指原始语音数据中由于静默而没有发音的语音部分，如采集到的原始语音数据中因说话人在说话过程由于思考和呼吸等而没有发出声音时的语音部分，该语音部分则为静音段。噪音段是指原始语音数据中的环境噪音对应的语音部分，如门窗的开关和物体的碰撞等发出的声音都可以认为是噪音段。

S20：采用VAD算法对原始语音数据进行分帧和切分处理，获取至少两帧待测语音数据。

其中，待测语音数据是采用VAD算法将干扰语音数据中的静音段切除后获取的原始语音数据。VAD(Voice Activity Detection，语音活动检测)算法是从噪音环境中准确定位出目标语音数据的开始和结束的算法。VAD算法可用于从原始语音数据的信号流中识别和消除长时间的静音段，以消除原始语音数据中的静音段这一干扰语音数据，提高语音数据处理的精度。

帧是语音数据中最小的观测单位，分帧是依据语音数据的时序进行划分的过程，由于原始语音数据整体上看不是平稳的，但是在局部上可以看作是平稳的，所以将原始语音数据进行分帧可获取较平稳的单帧语音数据。在语音识别或声纹识别过程中需要输入的是平稳信号，所以服务器需要先对原始语音数据进行分帧处理。

切分是将原始语音数据中属于静音段的单帧语音数据切除的过程。本实施例中，采用VAD算法对分帧处理后的原始语音数据进行切分处理，去除静音段，以获取至少两帧待测语音数据。

在一实施例中，如图3所示，步骤S20中，即采用VAD算法对原始语音数据进行分帧和切分处理，获取至少两帧待测语音数据，具体包括如下步骤：

S21：对原始语音数据进行分帧处理，获取至少两帧单帧语音数据。

分帧是将N个采样点集合成一个观测单位，称为帧。通常情况下N的值为256或512，涵盖的时间约为20-30ms左右。为避免相邻两帧的变化过大，通过使相邻两帧之间有一段重叠区域，此重叠区域包含了M个采样点，通常M的值约为N的1/2或1/3，此过程称为分帧。具体地，在对原始语音数据进行分帧后，可获取至少两帧单帧语音数据，每一帧单帧语音数据包含N个采样点数。

进一步地，由于对原始语音数据进行分帧处理后获取的至少两帧单帧语音数据中，每一帧的起始段和末尾端会出现不连续的地方，分帧越多会导致分帧后的单帧语音数据与分帧前的原始语音数据的误差越大。为了使分帧后的单帧语音数据变得连续，每一帧都可以表现出周期函数的特征，因此，还需要对分帧后的每一单帧语音数据进行加窗处理和预加重处理，以获取质量更好的单帧语音数据。

加窗是每一帧乘以汉明窗(即Hamming Window)，由于汉明窗的幅频特性是旁瓣衰减较大，服务器通过对单帧语音数据进行加窗处理，可增加帧左端和帧右端的连续性。即通过对分帧后的单帧语音数据进行加窗处理，可将非平稳语音信号转变为短时平稳信号。设分帧后的信号为S(n),n＝0,1…,N-1,N为帧的大小，汉明窗的信号为W(n)，则加窗处理后的信号为S'(n)＝S(n)×W(n)，其中，

0≤n≤N-1，N为帧的大小，不同的a值会产生不同的汉明窗，一般情况下a取0.46。

为了增加语音信号相对于低频分量的高频分量的幅度，以消除声门激励和口鼻辐射的影响，需要对单帧语音数据进行预加重处理，有助于提高信噪比。信噪比是指一个电子设备或者电子系统中信号与噪音的比例。

预加重是将加窗后的单帧语音数据通过一个高通滤波器H(Z)＝1-μz^-1，其中，μ值介于0.9-1.0之间，Z表示单帧语音数据，预加重的目标是提升高频部分，使信号的频谱更平滑，保持在低频到高频的整个频带中，能用同样的信噪比求频谱，突出高频的共振峰。

可以理解地，通过对原始语音数据进行分帧、加窗和预加重等预处理，使得预处理后的单帧语音数据具有分辨率高、平稳性好且与原始语音数据误差较小的优点，使得后续对至少两帧单帧语音数据进行切分处理时，可提高获取至少两帧待测语音数据的效率和质量。

S22：采用短时能量计算公式对单帧语音数据进行切分处理，获取单帧语音数据对应的短时能量，保留短时能量大于第一门限阈值的单帧语音数据，作为第一语音数据。

其中，短时能量计算公式具体为

其中，N为单帧语音数据的帧长，x_n(m)为第n帧单帧语音数据，E(n)为短时能量，m为时间序列。

其中，短时能量是指一帧语音信号的能量。第一门限阈值是预先设定的数值较低的门限阈值。第一语音数据是指单帧语音数据中某帧单帧语音数据对应的短时能量大于第一门限阈值的语音数据。VAD算法可检测出单帧语音数据中的静音段、过渡段、语音段和结束段这四部分语音。具体地，采用短时能量计算公式对每一帧单帧语音数据进行计算，获取每一帧单帧语音数据对应的短时能量，保留短时能量大于第一门限阈值的单帧语音数据，作为第一语音数据。本实施例中，保留短时能量大于第一门限阈值的单帧语音数据，即标记起始点，证明该起始点之后的单帧语音数据进入过渡段，即最终获取的第一语音数据包括过渡段、语音段和结束段。可以理解地，步骤S21中基于短时能量获取到的第一语音数据是将短时能量不大于第一门限阈值的单帧语音数据切分后所得到的，即去除了单帧语音数据中静音段这一部分干扰语音数据。

S23：采用过零率计算公式对第一语音数据进行切分处理，获取第一语音数据对应的过零率，保留过零率大于第二门限阈值的第一语音数据，获取至少两帧待测语音数据。

其中，过零率计算公式具体为

其中，sgn[]为符号函数，其函数公式为/>

x_n(m)为第n帧第一语音数据，Z_n为过零率，m为时间序列。

其中，第二门限阈值是预先设定好的数值较高的门限阈值。由于第一门限阈值被超过未必是语音段的开始，有可能是很短的噪音引起的，因此需要计算每一帧第一语音数据(即处于过渡段及过渡段以后的原始语音数据)的过零率，若第一语音数据对应的过零率不大于第二门限阈值，则认为该第一语音数据处于静音段，将该段第一语音数据进行切分，即保留过零率大于第二门限阈值的第一语音数据，从而获取至少两帧待测语音数据，达到进一步切分第一语音数据的过渡段中的干扰语音数据的目的。

本实施例中，先采用短时能量计算公式对原始语音数据进行切分处理，获取对应的短时能量，保留短时能量大于第一门限阈值的单帧语音数据，即标记起始点，证明该起始点之后的单帧语音数据进入过渡段，可初步切除单帧语音数据中的静音段；然后，计算每一帧第一语音数据(即处于过渡段及过渡段以后的原始语音数据)的过零率，将过零率不大于第二门限阈值的第一语音数据切除，以获取过零率大于第二门限阈值的至少两帧待测语音数据。本实施例中，VAD算法通过采用双门限的方式切分第一语音数据中静音段对应的干扰语音数据，实现简单，提高语音数据的处理效率。

S30：采用ASR语音特征提取算法对每一帧待测语音数据进行特征提取，获取待测滤波器语音特征。

其中，待测滤波器语音特征是采用ASR语音特征提取算法对待测语音数据进行特征提取所获取的滤波器特征。滤波器(Filter-Bank，简称Fbank)特征是语音识别过程中常用的语音特征。由于当前常用的梅尔特征在进行模型训练或识别过程中会进行降维处理，导致部分信息的丢失，为避免上述问题出现，本实施例中采用滤波器特征代替常用的梅尔特征，可有助于提高后续模型识别的准确率。ASR(Automatic Speech Recognition，自动语音识别)，是一种将人的语音转换为文本的技术，一般包括语音特征提取、声学模型与模式匹配和语言模型与语言处理三大部分。ASR语音特征提取算法是ASR技术中用于实现语音特征提取的算法。

由于声学模型或语音识别模型的识别是基于待测语音数据进行特征提取后的语音特征进行识别，而不能直接基于待测语音数据进行识别，因此，需先对待测语音数据进行特征提取。本实施例中，采用ASR语音特征提取算法对每一帧待测语音数据进行特征提取，以获取待测滤波器语音特征，可为后续模型识别提供技术支持。

在一实施例中，如图4所示，步骤S30中，即采用ASR语音特征提取算法对待测语音数据进行特征提取，获取待测滤波器语音特征，具体包括如下步骤：

S31：对每一帧待测语音数据进行快速傅里叶变换，获取与每一帧待测语音数据对应的频谱。

其中，待测语音数据对应的频谱是指待测语音数据在频域上的能量谱。由于语音信号在时域上的变换通常很难看出信号的特性，通常需将它转换为频域上的能量分布来观察，不同的能量分布代表不同语音的特性。本实施例中对每一帧待测语音数据进行快速傅里叶变换得到各帧待测语音数据频谱，即能量谱。

快速傅里叶变换(Fast Fourier Transform，以下简称FFT)是由离散傅里叶变换(Discrete Fourier Transform，以下简称DFT)的快速计算的统称。快速傅里叶变换用于将时域信号转换为频域能量谱的变换过程。由于待测语音数据是对原始语音数据进行预处理和语音活动检测处理后的信号，主要体现为时域上的信号，很难看出信号的特性，因此，需将对每一帧待测语音数据进行快速傅里叶变换以得到在频谱上的能量分布。

快速傅里叶变换的公式为X_i(w)＝FFT{x_i(k)}；其中，x_i(k)为时域上的第i帧待测语音数据，X_i(w)为频域上的第i帧待测语音数据对应的语音信号频谱，k表示时间序列，w表示语音信号频谱中的频率。具体地，离散傅里叶变换的计算公式为

其中，/>

N为每一帧待测语音数据所包含的采样点数。由于在数据量较大时，DFT的算法复杂度高，计算量较大，耗费时间，因此采用快速傅里叶变换进行计算，以加快计算速度，节省时间。具体地，快速傅里叶变换是利用离散傅里叶变换公式中的旋转因子/>

的特性，即周期性、对称性和可约性，采用蝶形运算对上述公式进行转换，以降低算法复杂度。

具体地，N个采样点的DFT运算称为蝶形运算,而FFT运算就由若干级迭代的蝶形运算组成。假设每一帧待测语音数据的采样点数为2^L个，(L为正整数)，若采样点不足2^L个，可以用0补位，知道满足帧内采样点数在2^L个，则蝶形运算的计算公式为

其中，X'(k')为偶数项分支的离散傅立叶变换，X”(k”)为奇数项分支的离散傅立叶变换。通过蝶形运算将N个采样点的DFT运算转换为奇数项离散傅里叶变换和偶数项离散傅里叶变换进行计算，降低算法复杂度，实现高效运算的目的。

S32：将频谱通过Mel滤波器组，获取待测滤波器语音特征。

其中，Mel滤波器组是指将快速傅里叶变换输出的能量谱(即待测语音数据的频谱)通过一组Mel(梅尔)尺度的三角滤波器组，定义一个有M个滤波器的滤波器组，采用的滤波器为三角滤波器，中心频率为f(m),m＝1,2,...,M。M通常取22-26。梅尔滤波器组用于对频谱进行平滑化，并起消除滤波作用，可以突出语音的共振峰特征，可降低运算量。然后计算梅尔滤波器组中每个三角滤波器输出的对数能量

0≤m≤M，其中，M是三角滤波器的个数，m表示第m个三角滤波器，H_m(w)表示第m个三角滤波器的频率响应，X_i(w)表示第i帧待测语音数据对应的语音信号频谱，w表示语音信号频谱中的频率，该对数能量即为待测滤波器语音特征。

本实施例中，先对每一帧待测语音数据进行快速傅里叶变换，获取与每一帧待测语音数据对应的频谱，以降低运算复杂度加快计算速度，节省时间。然后，将频谱通过Mel滤波器组并计算梅尔滤波器组中每个三角滤波器输出的对数能量，获取待测滤波器语音特征，以消除滤波，突出语音的共振峰特征，降低运算量。

S40：采用训练好的ASR-LSTM语音识别模型对待测滤波器语音特征进行识别，获取识别概率值。

其中，ASR-LSTM语音识别模型是预先训练好的用于区分待测滤波器语音特征中的语音和噪音的模型。具体地，ASR-LSTM语音识别模型是采用LSTM(long-short termmemory，长短时记忆神经网络)对采用ASR语音特征提取算法提取出的训练滤波器语音特征进行训练后获得的语音识别模型。识别概率值是采用ASR-LSTM语音识别模型对待测滤波器语音特征进行识别时，识别其为语音的概率。该识别概率值可以为0-1之间的实数。具体地，将每一帧待测语音数据对应的待测滤波器语音特征输入到ASR-LSTM语音识别模型中进行识别，以获取每一帧待测滤波器语音特征对应的识别概率值，即为语音的可能性。

S50：若识别概率值大于预设概率值，则将待测语音数据作为目标语音数据。

由于待测语音数据是去除了静音段的单帧语音数据，因此排除了静音段的干扰。具体地，若识别概率值大于预设概率值，则认为该待测语音数据不为噪音段，即将识别概率值大于预设概率值的待测语音数据确定为目标语音数据。可以理解地，服务器通过对已去除静音段的待测语音数据进行识别，可排除目标语音数据中携带静音段和噪音段等干扰语音数据，以便采用目标语音数据作为训练数据对声纹模型或其他语音模型进行训练，以提高模型的识别准确率。若识别概率值不大于预设概率值，则证明该段待测语音数据很可能为噪音，将该段待测语音数据排除，以避免后续基于目标语音数据训练模型时，导致训练所得的模型识别准确率不高的问题。

本实施例中，先获取原始语音数据，该原始语音数据包括目标语音数据和干扰语音数据，采用VAD算法对原始语音数据进行分帧和切分处理，以便初步的切除静音段的干扰，为后续获取较纯净的目标语音数据提供保障。采用ASR语音特征提取算法对每一帧待测语音数据进行特征提取，获取待测滤波器语音特征，有效解决了解决模型训练时对数据进行降维处理，造成部分信息丢失的问题。若识别概率值大于预设概率值，则认为该待测语音数据为目标语音数据，使得获取的目标语音数据不包含静音段和噪音段等被切除的干扰语音数据，即获取较纯净的目标语音数据，有助于后续利用目标语音数据作为训练数据对声纹模型或其他语音模型进行训练，以提高模型的识别准确率。

在一实施例中，该语音数据处理方法还包括：预先训练ASR-LSTM语音识别模型。

如图5所示，预先训练ASR-LSTM语音识别模型，具体包括如下步骤：

S61：获取训练语音数据。

其中，训练语音数据是从开源语音数据库中获取的随时间连续变化的语音数据，用于进行模型训练。该训练语音数据包括纯净的语音数据和纯净的噪音数据。开源语音数据库中已经将纯净的语音数据和纯净的噪音数据进行标记，以便进行模型训练。该训练语音数据中纯净的语音数据和纯净的噪音数据的比例为1:1，即获取同等比例的纯净的语音数据和纯净的噪音数据，能够有效防止模型训练过拟合的情况，以使通过训练语音数据训练所获得的模型的识别效果更加精准。本实施例中，在服务器获取训练语音数据之后，还需要对训练语音数据进行分帧，获取至少两帧训练语音数据，以便后续对每一帧训练语音数据进行特征提取。

S62：采用ASR语音特征提取算法对训练语音数据进行特征提取，获取训练滤波器语音特征。

由于声学模型训练是基于训练语音数据进行特征提取后的语音特征进行训练，而不是直接基于训练语音数据进行训练，因此，需先对训练语音数据进行特征提取，以获取待测滤波器语音特征。可以理解地，由于训练语音数据是具备时序性的，因此对每一帧待测语音数据进行特征提取所获取的训练滤波器语音特征是具备时序性的。具体地，服务器采用ASR语音特征提取算法对每一帧训练语音数据进行特征提取，获取携带时序状态的训练滤波器语音特征，为后续模型训练提供技术支持。本实施例中，采用ASR语音特征提取算法对训练语音数据进行特征提取的步骤与步骤S30的特征提取的步骤相同，为避免赘述，在此不再重复。

S63：将训练滤波器语音特征输入到长短时记忆神经网络模型中进行训练，获取训练好的ASR-LSTM语音识别模型。

其中，长短时记忆神经网络(long-short term memory，以下简称LSTM)模型是一种时间递归神经网络模型，适合于处理和预测具有时间序列，且时间序列间隔和延迟相对较长的重要事件。LSTM模型具有时间记忆功能，因而用来处理携带时序状态的训练滤波器语音特征。LSTM模型是具有长时记忆能力的神经网络模型中的一种，具有输入层、隐藏层和输出层这三层网络结构。其中，输入层是LSTM模型的第一层，用于接收外界信号，即负责接收训练滤波器语音特征。输出层是LSTM模型的最后一层，用于向外界输出信号，即负责输出LSTM模型的计算结果。隐藏层是LSTM模型中除输入层和输出层之外的各层，用于对滤波器语音特征进行训练，以调整LSTM模型中隐藏层的各层的参数，以获取ASR-LSTM语音识别模型。可以理解地，采用LSTM模型进行模型训练增加了滤波器语音特征的时序性，从而提高了ASR-LSTM语音识别模型的准确率。本实施例中，LSTM模型的输出层采用Softmax(回归模型)进行回归处理，用于分类输出权重矩阵。Softmax(回归模型)是一种常用于神经网络的分类函数，它将多个神经元的输出，映射到[0,1]区间内，可以理解成概率，计算起来简单方便，从而来进行多分类输出，使其输出结果更准确。

本实施例中，先从开源语音数据库中获取同等比例的语音数据和噪音数据，以防止模型训练过拟合的情况，使通过训练语音数据训练获得的语音识别模型的识别效果更加精准。然后，采用ASR语音特征提取算法对每帧训练语音数据进行特征提取，获取训练滤波器语音特征。最后，通过采用具有时间记忆能力的长短时记忆神经网络模型对训练滤波器语音特征进行训练，获取训练好的ASR-LSTM语音识别模型，使得该ASR-LSTM语音识别模型的识别准确率较高。

在一实施例中，如图6所示，步骤S63中，将训练滤波器语音特征输入到长短时记忆神经网络模型中进行训练，获取训练好的ASR-LSTM语音识别模型，具体包括如下步骤：

S631：在长短时记忆神经网络模型的隐藏层采用第一激活函数对训练滤波器语音特征进行计算，获取携带激活状态标识的神经元。

其中，长短时记忆神经网络模型的隐藏层中的每个神经元包括三个门，分别为输入门、遗忘门和输出门。遗忘门决定在神经元中所要丢弃的过去的信息。输入门决定在神经元中所要增加的信息。输出门决定在神经元中所要输出的信息。第一激活函数是用于激活神经元状态的函数。神经元状态决定各个门(即输入门、遗忘门和输出门)的丢弃、增加和输出的信息。激活状态标识包括通过标识和不通过标识。本实施例中的输入门、遗忘门和输出门对应的标识分别为i、f和o。

本实施例中，具体选用Sigmoid(S型生长曲线)函数作为第一激活函数，Sigmoid函数是一个在生物学中常见的S型的函数，在信息科学中，由于其具有单增以及反函数单增等性质，Sigmoid函数常被用作神经网络的阈值函数，可将变量映射到0-1之间。第一激活函数的计算公式为

其中，z表示遗忘门的输出值。

具体地，通过计算每一神经元(训练滤波器语音特征)的激活状态，以获取携带激活状态标识为通过标识的神经元。本实施例中，采用遗忘门的计算公式f_t＝σ(z)＝σ(W_f·[h_t-1,x_t]+b_f)，计算遗忘门哪些信息被接收(即只接收携带激活状态标识为通过标识的神经元)，其中，f_t表示遗忘门限(即激活状态)，W_f表示遗忘门的权重矩阵，b_f表示遗忘门的权值偏置项，h_t-1表示上一时刻神经元的输出，x_t表示当前时刻的输入数据即训练滤波器语音特征，t表示当前时刻，t-1表示上一时刻。遗忘门中还包括遗忘门限，通过遗忘门的计算公式对训练滤波器语音特征进行计算，会得到一个0-1区间的标量(即遗忘门限)，此标量决定了神经元根据当前状态和过去状态的综合判断所接收过去信息的比例，以达到数据的降维，减少计算量，提高训练效率。

S632：在长短时记忆神经网络模型的隐藏层采用第二激活函数对携带激活状态标识的神经元进行计算，获取长短时记忆神经网络模型隐藏层的输出值。

其中，长短时记忆神经网络模型隐藏层的输出值包括输入门的输出值、输出门的输出值和神经元状态。具体地，在长短时记忆神经网络模型的隐藏层中的输入门中，采用第二激活函数携带激活状态标识为通过标识的神经元进行计算，获取隐藏层的输出值。本实施例中，由于线性模型的表达能力不够，因此采用tanh(双曲正切)函数作为输入门的激活函数(即第二激活函数)，可加入非线性因素使得训练出的ASR-LSTM语音识别模型能够解决更复杂的问题。并且，激活函数tanh(双曲正切)具有收敛速度快的优点，可以节省训练时间，增加训练效率。

具体地，通过输入门的计算公式计算输入门的输出值。其中，输入门中还包括输入门限，输入门的计算公式为i_t＝σ(W_i·[h_t-1,x_t]+b_i)，其中，W_i为输入门的权值矩阵，i_t表示输入门限，b_i表示输入门的偏置项，通过输入门的计算公式对训练滤波器语音特征进行计算会得到一个0-1区间的标量(即输入门限)，此标量控制了神经元根据当前状态和过去状态的综合判断所接收当前信息的比例，即接收新输入的信息的比例，以减少计算量，提高训练效率。

然后，采用神经元状态的计算公式

和

计算当前神经元状态；其中，W_c表示神经元状态的权重矩阵，b_c表示神经元状态的偏置项，/>

表示上一时刻的神经元状态，C_t表示当前时刻神经元状态。通过将神经元状态和遗忘门限(输入门限)进行点乘操作，以便模型只输出所需的信息，提高模型学习的效率。

最后，采用输出门的计算公式o_t＝σ(W_o[h_t-1,x_t]+b_o)计算输出门中哪些信息被输出，再采用公式h_t＝o_t*tanh(C_t)计算当前时刻神经元的输出值，其中，o_t表示输出门限，W_o表示输出门的权重矩阵，b_o表示输出门的偏置项，h_t表示当前时刻神经元的输出值。

S633：基于长短时记忆神经网络模型隐藏层的输出值对长短时记忆神经网络模型进行误差反传更新，获取训练好的ASR-LSTM语音识别模型。

首先，根据公式

和/>

计算任意t时刻的输出门的误差项/>

输入门的误差项/>

遗忘门的误差项/>

和神经元状态的误差项/>

然后，根据权值更新公式

进行误差反传更新，其中，T表示时刻，W表示权值，如W_i、W_c、W_o或W_f，B表示输出值如i_t、f_t，o_t或

δ表示误差项，/>

为上一时刻神经元的状态数据，b^t-1 _h为上一时刻隐藏层的输出值。根据偏置更新公式/>

更新偏置。其中，b为各门的偏置项，δ_a，t表示t时刻各门的误差。

最后，根据该权值更新公式进行运算即可获取更新后的权值，根据偏置更新公式更新偏置，将获取的更新后的各层的权值和偏置，应用到长短时记忆神经网络模型中即可获取训练好的ASR-LSTM语音识别模型。进一步地，该ASR-LSTM语音识别模型中的各权值实现了ASR-LSTM语音识别模型决定丢弃哪些旧信息、增加哪些新信息以及输出哪些信息的功能。在ASR-LSTM语音识别模型的输出层最终会输出概率值。该概率值表示训练语音数据在通过ASR-LSTM语音识别模型识别后确定其为语音数据的概率，可广泛应用于语音数据处理方面，以达到准确识别训练滤波器语音特征的目的。

本实施例中，通过在长短时记忆神经网络模型的隐藏层采用第一激活函数对训练滤波器语音特征进行计算，获取携带激活状态标识的神经元，以达到数据的降维，减少计算量，提高训练效率。在长短时记忆神经网络模型的隐藏层采用第二激活函数对携带激活状态标识的神经元进行计算，获取长短时记忆神经网络模型隐藏层的输出值，以便基于长短时记忆神经网络模型隐藏层的输出值对长短时记忆神经网络模型进行误差反传更新，获取更新后的各权值和偏置，将更新后的各权值和偏置应用到长短时记忆神经网络模型中即可获取ASR-LSTM语音识别模型，可广泛应用于语音数据处理方面，以达到准确识别训练滤波器语音特征的目的。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种语音数据处理装置，该语音数据处理装置与上述实施例中语音数据处理方法一一对应。如图7所示，该语音数据处理装置包括原始语音数据获取模块10、待测语音数据获取模块20、待测滤波器语音特征获取模块30、识别概率值获取模块40和目标语音数据获取模块50。各功能模块详细说明如下：

原始语音数据获取模块10，用于获取原始语音数据。

待测语音数据获取模块20，用于采用VAD算法对原始语音数据进行分帧和切分处理，获取至少两帧待测语音数据。

待测滤波器语音特征获取模块30，用于采用ASR语音特征提取算法对每一帧待测语音数据进行特征提取，获取待测滤波器语音特征。

识别概率值获取模块40，用于采用训练好的ASR-LSTM语音识别模型对待测滤波器语音特征进行识别，获取识别概率值。

目标语音数据获取模块50，用于若识别概率值大于预设概率值，则将待测语音数据作为目标语音数据。

具体地，待测语音数据获取模块20包括单帧语音数据获取单元21、第一语音数据获取单元22和待测语音数据获取单元23。

单帧语音数据获取单元21，用于对原始语音数据进行分帧处理，获取至少两帧单帧语音数据。

第一语音数据获取单元22，用于采用短时能量计算公式对单帧语音数据进行切分处理，获取对应的短时能量，保留短时能量大于第一门限阈值的单帧语音数据，作为第一语音数据。

待测语音数据获取单元23，采用过零率计算公式对第一语音数据进行切分处理，获取对应的过零率，保留过零率大于第二门限阈值的第一语音数据，获取至少两帧待测语音数据。

具体地，短时能量计算公式为

过零率计算公式为

其中，sgn[]为符号函数，x_n(m)为第n帧第一语音数据，Z_n为过零率，m为时间序列。

具体地，待测滤波器语音特征获取模块30包括频谱获取单元31和待测滤波器语音特征获取单元32。

频谱获取单元31，用于对每一帧待测语音数据进行快速傅里叶变换，获取与待测语音数据对应的频谱。

待测滤波器语音特征获取单元32，用于将频谱通过Mel滤波器组，获取待测滤波器语音特征。

具体地，语音数据处理装置还包括ASR-LSTM语音识别模型训练模块60，用于预先训练ASR-LSTM语音识别模型。

ASR-LSTM语音识别模型训练模块60包括训练语音数据获取单元61、训练滤波器语音特征获取单元62和ASR-LSTM语音识别模型获取单元63。

训练语音数据获取单元61，用于获取训练语音数据。

训练滤波器语音特征获取单元62，用于采用ASR语音特征提取算法对训练语音数据进行特征提取，获取训练滤波器语音特征。

ASR-LSTM语音识别模型获取单元63，用于将训练滤波器语音特征输入到长短时记忆神经网络模型中进行训练，获取训练好的ASR-LSTM语音识别模型。

具体地，ASR-LSTM语音识别模型获取单元63包括激活状态神经元获取子单元631、模型输出值获取子单元632和ASR-LSTM语音识别模型获取子单元633。

激活状态神经元获取子单元631，用于在长短时记忆神经网络模型的隐藏层采用第一激活函数对训练滤波器语音特征进行计算，获取携带激活状态标识的神经元。

模型输出值获取子单元632，用于在长短时记忆神经网络模型的隐藏层采用第二激活函数对携带激活状态标识的神经元进行计算，获取长短时记忆神经网络模型隐藏层的输出值。

ASR-LSTM语音识别模型获取子单元633，用于基于长短时记忆神经网络模型隐藏层的输出值对长短时记忆神经网络模型进行误差反传更新，获取训练好的ASR-LSTM语音识别模型。

关于语音数据处理装置的具体限定可以参见上文中对于语音数据处理方法的限定，在此不再赘述。上述语音数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储执行语音数据处理方法过程中生成或获取的数据，如目标语音数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音数据处理方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：获取原始语音数据；采用VAD算法对原始语音数据进行分帧和切分处理，获取至少两帧待测语音数据；采用ASR语音特征提取算法对每一帧待测语音数据进行特征提取，获取待测滤波器语音特征；采用训练好的ASR-LSTM语音识别模型对待测滤波器语音特征进行识别，获取识别概率值；若识别概率值大于预设概率值，则将待测语音数据作为目标语音数据。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：对原始语音数据进行分帧处理，获取至少两帧单帧语音数据；采用短时能量计算公式对单帧语音数据进行切分处理，获取对应的短时能量，保留短时能量大于第一门限阈值的单帧语音数据，作为第一语音数据；采用过零率计算公式对第一语音数据进行切分处理，获取对应的过零率，保留过零率大于第二门限阈值的第一语音数据，获取至少两帧待测语音数据。

具体地，短时能量计算公式为

其中，N为单帧语音数据的帧长，x_n(m)为第n帧单帧语音数据，E(n)为短时能量，m为时间序列；过零率计算公式为

在一个实施例中，处理器执行计算机程序时还实现以下步骤：对每一帧待测语音数据进行快速傅里叶变换，获取与待测语音数据对应的频谱；将频谱通过Mel滤波器组，获取待测滤波器语音特征。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取训练语音数据；采用ASR语音特征提取算法对训练语音数据进行特征提取，获取训练滤波器语音特征；将训练滤波器语音特征输入到长短时记忆神经网络模型中进行训练，获取训练好的ASR-LSTM语音识别模型。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：在长短时记忆神经网络模型的隐藏层采用第一激活函数对训练滤波器语音特征进行计算，获取携带激活状态标识的神经元；在长短时记忆神经网络模型的隐藏层采用第二激活函数对携带激活状态标识的神经元进行计算，获取长短时记忆神经网络模型隐藏层的输出值；基于长短时记忆神经网络模型隐藏层的输出值对长短时记忆神经网络模型进行误差反传更新，获取ASR-LSTM语音识别模型。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取原始语音数据；采用VAD算法对原始语音数据进行分帧和切分处理，获取至少两帧待测语音数据；采用ASR语音特征提取算法对每一帧待测语音数据进行特征提取，获取待测滤波器语音特征；采用训练好的ASR-LSTM语音识别模型对待测滤波器语音特征进行识别，获取识别概率值；若识别概率值大于预设概率值，则将待测语音数据作为目标语音数据。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：对原始语音数据进行分帧处理，获取至少两帧单帧语音数据；采用短时能量计算公式对单帧语音数据进行切分处理，获取对应的短时能量，保留短时能量大于第一门限阈值的单帧语音数据，作为第一语音数据；采用过零率计算公式对第一语音数据进行切分处理，获取对应的过零率，保留过零率大于第二门限阈值的第一语音数据，获取至少两帧待测语音数据。

具体地，短时能量计算公式为

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：对每一帧待测语音数据进行快速傅里叶变换，获取与待测语音数据对应的频谱；将频谱通过Mel滤波器组，获取待测滤波器语音特征。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：获取训练语音数据；采用ASR语音特征提取算法对训练语音数据进行特征提取，获取训练滤波器语音特征；将训练滤波器语音特征输入到长短时记忆神经网络模型中进行训练，获取训练好的ASR-LSTM语音识别模型。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：在长短时记忆神经网络模型的隐藏层采用第一激活函数对训练滤波器语音特征进行计算，获取携带激活状态标识的神经元；在长短时记忆神经网络模型的隐藏层采用第二激活函数对携带激活状态标识的神经元进行计算，获取长短时记忆神经网络模型隐藏层的输出值；基于长短时记忆神经网络模型隐藏层的输出值对长短时记忆神经网络模型进行误差反传更新，获取训练好的ASR-LSTM语音识别模型。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种语音数据处理方法，其特征在于，包括：

获取原始语音数据，所述原始语音数据包括目标语音数据和干扰语音数据，所述干扰语音数据包括静音段和噪音段；所述静音段是所述原始语音数据中由于静默而没有发音的语音部分，所述噪音段是指所述原始语音数据中的环境噪音对应的语音部分；

采用VAD算法对所述原始语音数据进行分帧和切分处理，获取至少两帧待测语音数据，所述待测语音数据是采用VAD算法将干扰语音数据中的静音段切除后获取到的数据；

采用训练好的ASR-LSTM语音识别模型对所述待测滤波器语音特征进行识别，获取识别概率值，所述识别概率值是采用所述ASR-LSTM语音识别模型对待测滤波器语音特征进行识别时，识别其为语音的概率；

若所述识别概率值大于预设概率值，则将所述待测语音数据作为目标语音数据；

其中，ASR-LSTM语音识别模型的训练过程如下：

获取训练语音数据，所述训练语音数据中纯净的语音数据和纯净的噪音数据的比例为1:1；

采用ASR语音特征提取算法对训练语音数据进行特征提取，获取训练滤波器语音特征；

在长短时记忆神经网络模型的隐藏层采用第一激活函数对所述训练滤波器语音特征进行计算，获取携带激活状态标识的神经元；

在所述长短时记忆神经网络模型的隐藏层采用第二激活函数对所述携带激活状态标识的神经元进行计算，获取所述长短时记忆神经网络模型隐藏层的输出值；

基于所述长短时记忆神经网络模型隐藏层的输出值对所述长短时记忆神经网络模型进行误差反传更新，获取训练好的所述ASR-LSTM语音识别模型。

2.如权利要求1所述的语音数据处理方法，其特征在于，所述采用VAD算法对所述原始语音数据进行分帧和切分处理，获取至少两帧待测语音数据，包括：

对所述原始语音数据进行分帧处理，获取至少两帧单帧语音数据；

采用短时能量计算公式对所述单帧语音数据进行切分处理，获取对应的短时能量，保留所述短时能量大于第一门限阈值的单帧语音数据，作为第一语音数据；

采用过零率计算公式对所述第一语音数据进行切分处理，获取对应的过零率，保留所述过零率大于第二门限阈值的第一语音数据，获取至少两帧所述待测语音数据。

3.如权利要求2所述的语音数据处理方法，其特征在于，所述短时能量计算公式为

其中，N为单帧语音数据的帧长，x_n(m)为第n帧所述单帧语音数据，E(n)为所述短时能量，m为时间序列；

所述过零率计算公式为

其中，sgn[]为符号函数，x_n(m)为第n帧所述第一语音数据，Z_n为所述过零率，m为时间序列。

4.如权利要求1所述的语音数据处理方法，其特征在于，所述采用ASR语音特征提取算法对每一帧所述待测语音数据进行特征提取，获取待测滤波器语音特征，包括：

对每一帧所述待测语音数据进行快速傅里叶变换，获取与所述待测语音数据对应的频谱；

将所述频谱通过Mel滤波器组，获取所述待测滤波器语音特征。

5.一种语音数据处理装置，其特征在于，包括：

原始语音数据获取模块，用于获取原始语音数据，所述原始语音数据包括目标语音数据和干扰语音数据，所述干扰语音数据包括静音段和噪音段；所述静音段是所述原始语音数据中由于静默而没有发音的语音部分，所述噪音段是指所述原始语音数据中的环境噪音对应的语音部分；

待测语音数据获取模块，用于采用VAD算法对所述原始语音数据进行分帧和切分处理，获取至少两帧待测语音数据，所述待测语音数据是采用VAD算法将干扰语音数据中的静音段切除后获取到的数据；

识别概率值获取模块，用于采用训练好的ASR-LSTM语音识别模型对所述待测滤波器语音特征进行识别，获取识别概率值，所述识别概率值是采用所述ASR-LSTM语音识别模型对待测滤波器语音特征进行识别时，识别其为语音的概率；

目标语音数据获取模块，用于若所述识别概率值大于预设概率值，则将所述待测语音数据作为目标语音数据；

其中，ASR-LSTM语音识别模型的训练过程，使用以下模块：

训练语音数据获取模块，用于获取训练语音数据，所述训练语音数据中纯净的语音数据和纯净的噪音数据的比例为1:1；

训练滤波器语音特征获取模块，用于采用ASR语音特征提取算法对训练语音数据进行特征提取，获取训练滤波器语音特征；

神经元获取模块，用于在长短时记忆神经网络模型的隐藏层采用第一激活函数对所述训练滤波器语音特征进行计算，获取携带激活状态标识的神经元；

输出值获取模块，用于在所述长短时记忆神经网络模型的隐藏层采用第二激活函数对所述携带激活状态标识的神经元进行计算，获取所述长短时记忆神经网络模型隐藏层的输出值；

ASR-LSTM语音识别模型获取模块，基于所述长短时记忆神经网络模型隐藏层的输出值对所述长短时记忆神经网络模型进行误差反传更新，获取训练好的所述ASR-LSTM语音识别模型。

6.如权利要求5所述的语音数据处理装置，其特征在于，所述待测语音数据获取模块包括：

单帧语音数据获取单元，用于对所述原始语音数据进行分帧处理，获取至少两帧单帧语音数据；

第一语音数据获取单元，用于采用短时能量计算公式对所述单帧语音数据进行切分处理，获取对应的短时能量，保留所述短时能量大于第一门限阈值的原始语音数据，作为第一语音数据；

待测语音数据获取单元，用于采用过零率计算公式对所述第一语音数据进行切分处理，获取对应的过零率，保留所述过零率大于第二门限阈值的原始语音数据，获取至少两帧所述待测语音数据。

7.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述语音数据处理方法的步骤。

8.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述语音数据处理方法的步骤。