CN109036470A

CN109036470A - 语音区分方法、装置、计算机设备及存储介质

Info

Publication number: CN109036470A
Application number: CN201810561723.7A
Authority: CN
Inventors: 涂宏
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-06-04
Filing date: 2018-06-04
Publication date: 2018-12-18
Anticipated expiration: 2038-06-04
Also published as: CN109036470B; WO2019232833A1

Abstract

本发明公开了一种语音区分方法、装置、计算机设备及存储介质。该语音区分方法包括：基于语音活动检测算法处理原始待区分语音数据，获取目标待区分语音数据；基于所述目标待区分语音数据，获取相对应的ASR语音特征；将所述ASR语音特征输入到预先训练好的ASR‑DNN模型中进行区分，获取目标区分结果。采用该语音区分方法可以很好地区分目标语音和干扰语音，在语音数据噪音干扰非常大的情况下，仍然可以进行准确的语音区分。

Description

语音区分方法、装置、计算机设备及存储介质

技术领域

本发明涉及语音处理领域，尤其涉及一种语音区分方法、装置、计算机设备及存储介质。

背景技术

语音区分是指对输入的语音进行静音筛选，仅保留对识别更有意义的语音段(即目标语音)。目前的语音区分方法仍然存在很大的不足，尤其在噪音存在的情况下，随着噪音的变大，进行语音区分的难度就越大，无法准确区分出目标语音和干扰语音，导致语音区分的效果不理想。

发明内容

本发明实施例提供一种语音区分方法、装置、计算机设备及存储介质，以解决在进行语音区分效果不理想的问题。

本发明实施例提供一种语音区分方法，包括：

基于语音活动检测算法处理原始待区分语音数据，获取目标待区分语音数据；

基于所述目标待区分语音数据，获取相对应的ASR语音特征；

将所述ASR语音特征输入到预先训练好的ASR-DNN模型中进行区分，获取目标区分结果。

本发明实施例提供一种语音区分装置，包括：

目标待区分语音数据获取模块，用于基于语音活动检测算法处理原始待区分语音数据，获取目标待区分语音数据；

语音特征获取模块，用于基于所述目标待区分语音数据，获取相对应的ASR语音特征；

目标区分结果获取模块，用于将所述ASR语音特征输入到预先训练好的ASR-DNN模型中进行区分，获取目标区分结果。

本发明实施例提供一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述语音区分方法的步骤。

本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述语音区分方法的步骤。

本发明实施例所提供的语音区分方法、装置、计算机设备及存储介质中，首先基于语音活动检测算法处理原始待区分语音数据，获取目标待区分语音数据，把原始待区分语音数据通过语音活动检测算法先区分一次，得到范围更小的目标待区分语音数据，能够初步有效去除非语音。然后基于目标待区分语音数据，获取相应的ASR(Automatic SpeechRecognition，自动语音识别技术)语音特征，为后续根据该ASR语音特征进行相应的ASR-DNN(DNN，Deep Neural Networks，深度神经网络)模型识别提供技术基础。最后将ASR语音特征输入到预先训练好的ASR-DNN模型中进行区分，获取目标区分结果，该ASR-DNN模型是根据ASR语音特征专门训练的用于精确区分语音的识别模型，能够从目标待区分语音数据中正确区分目标语音和干扰语音。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中语音区分方法的一应用环境图；

图2是本发明一实施例中语音区分方法的一流程图；

图3是图2中步骤S10的一具体流程图；

图4是图2中步骤S20的一具体流程图；

图5是图4中步骤S21的一具体流程图；

图6是图4中步骤S24的一具体流程图；

图7是图2中步骤S30之前的一具体流程图；

图8是本发明一实施例中语音区分装置的一示意图；

图9是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1示出本发明实施例提供的语音区分方法的应用环境。该语音识别方法的应用环境包括服务端和客户端，其中，服务端和客户端之间通过网络进行连接，客户端是可与用户进行人机交互的设备，包括但不限于电脑、智能手机和平板等设备，服务端具体可以用独立的服务器或者多个服务器组成的服务器集群实现。本发明实施例提供的语音区分方法应用于服务端。

如图2所示，图2示出本实施例中语音区分方法的一流程图，该语音区分方法包括如下步骤：

S10：基于语音活动检测算法处理原始待区分语音数据，获取目标待区分语音数据。

其中，语音活动检测(Voice Activity Detection，以下简称VAD)，目的是从声音信号流里识别和消除长时间的静音期，以达到在不降低业务质量的情况下节省话路资源的作用，可以节省宝贵的带宽资源，降低端到端的时延，提升用户体验。语音活动检测算法(VAD算法)即语音活动检测时具体采用的算法，该算法可以有多种。可以理解地，VAD可以应用在语音区分，能够区分目标语音和干扰语音。目标语音是指语音数据中声纹连续变化明显的语音部分，干扰语音可以是语音数据中由于静默而没有发音的语音部分，也可以是环境噪音。原始待区分语音数据是最原始获取到的待区分语音数据，该原始待区分语音数据是指待采用VAD算法进行初步区分处理的语音数据。目标待区分语音数据是指通过语音活动检测算法对原始待区分语音数据进行处理后，获取的用于语音区分的语音数据。

本实施例中，采用VAD算法对原始待区分语音数据进行处理，从原始待区分语音数据中初步筛选出目标语音和干扰语音，并将初步筛选出的目标语音部分作为目标待区分语音数据。可以理解地，对于初步筛选出的干扰语音，该初步筛选出的干扰语音不必再进行区分，以提高语音区分的效率。而从原始待区分语音数据中初步筛选出的目标语音仍然存在干扰语音的内容，尤其当原始待区分语音数据的噪音比较大时，初步筛选出的目标语音混杂的干扰语音(如噪音)就越多，显然此时采用VAD算法是无法有效区分语音的，因此应将初步筛选出的混杂着干扰语音的目标语音作为目标待区分语音数据，以对初步筛选出的目标语音进行更精确的区分。服务端通过采用VAD算法对原始待区分语音数据进行初步语音区分，可以根据初步筛选的原始待区分语音数据进行再区分，同时去除大量的干扰语音，有利于后续进一步的语音区分。

在一具体实施方式中，如图3所示，步骤S10中，基于语音活动检测算法处理原始待区分语音数据，获取目标待区分语音数据，包括如下步骤：

S11：根据短时能量特征值计算公式对原始待区分语音数据进行处理，获取对应的短时能量特征值，将短时能量特征值大于第一阈值的原始待区分数据保留，确定为第一原始区分语音数据，其中，短时能量特征值计算公式为N为语音帧长，s(n)为时域上的信号幅度，n为时间。

其中，短时能量特征值描述的是一帧语音(一帧一般取10-30ms)在其时域上对应的能量，该短时能量的“短时”应理解为一帧的时间(即语音帧长)。由于目标语音的短时能量特征值，相比于干扰语音(静音)的短时能量特征值会高出很多，因此可以根据该短时能量特征值来区分目标语音和干扰语音。

本实施例中，根据短时能量特征值计算公式处理原始待区分语音数据(需要预先对原始待区分语音数据作分帧的处理)，计算并获取原始待区分语音数据各帧的短时能量特征值，将各帧的短时能量特征值与预先设置的第一阈值进行比较，将大于第一阈值的原始待区分语音数据保留，并确定为第一原始区分语音数据。该第一阈值是用于衡量短时能量特征值是属于目标语音还是干扰语音的分界值。本实施例中，根据短时能量特征值和第一阈值的比较结果，可以从短时能量特征值的角度初步区分得到原始待区分语音数据中的目标语音，并有效去除原始待区分语音数据中大量的干扰语音。

S12：根据过零率特征值计算公式对原始待区分语音数据进行处理，获取对应的过零率特征值，将过零率特征值小于第二阈值的原始待区分语音数据保留，确定为第二原始区分语音数据，其中，过零率特征值计算公式为N为语音帧长，s(n)为时域上的信号幅度n为时间。

其中，过零率特征值是描述一帧语音中语音信号波形穿过横轴(零电平)的次数。由于目标语音的过零率特征值，相比于干扰语音的过零率特征值会低很多，因此可以根据该短时能量特征值来区分目标语音和干扰语音。

本实施例中，根据过零率特征值计算公式处理原始待区分语音数据，计算并获取原始待区分语音数据各帧的过零率特征值，将各帧的过零率特征值与预先设置的第二阈值进行比较，将小于第二阈值的原始待区分语音数据保留，并确定为第二原始区分语音数据。该第二阈值是用于衡量短时能量特征值是属于目标语音还是干扰语音的分界值。本实施例中，根据过零率特征值和第二阈值的比较结果，可以从过零率特征值的角度初步区分得到原始待区分语音数据中的目标语音，并有效去除原始待区分语音数据中大量的干扰语音。

S13：将第一原始区分语音数据和第二原始区分语音数据作为目标待区分语音数据。

本实施例中，第一原始区分语音数据是根据短时能量特征值的角度从原始待区分语音数据中区分并获取的，第二原始区分语音数据是根据过零率特征值的角度从原始待区分语音数据中区分并获取的。第一原始区分语音数据和第二原始区分语音数据分别从区分语音的不同角度出发，这两个角度都能够很好地区分语音，因此将第一原始区分语音数据和第二原始区分语音数据合并(以取交集的方式合并)在一起，作为目标待区分语音数据。

步骤S11-S13可以初步有效地去除原始待区分语音数据中大部分的干扰语音数据，保留混杂着目标语音和少部分干扰语音(如噪音)的原始待区分语音数据，并将该原始待区分语音数据作为目标待区分语音数据，能够对原始待区分语音数据作有效的初步语音区分。

S20：基于目标待区分语音数据，获取相对应的ASR语音特征。

其中，ASR(Automatic Speech Recognition，自动语音识别技术)是将语音数据转换为计算机可读输入的技术，例如将语音数据转化为按键、二进制编码或者字符序列等形式。通过ASR可以提取目标待区分语音数据中的语音特征，提取到的语音即为与其相对应的ASR语音特征。可以理解地，ASR能够将原本计算机无法直接读取的语音数据转换为计算机能够读取的ASR语音特征，该ASR语音特征可以采用向量的方式表示。

本实施例中，采用ASR对目标待区分语音数据进行处理，获取相对应的ASR语音特征，该ASR语音特征可以很好地反映目标待区分语音数据的潜在特征，可以根据ASR语音特征对目标待区分语音数据进行区分，为后续根据该ASR语音特征进行相应的ASR-DNN(DNN，Deep Neural Networks，深度神经网络)模型识别提供重要的技术前提。

在一具体实施方式中，如图4所示，步骤S20中，基于目标待区分语音数据，获取相对应的ASR语音特征，包括如下步骤：

S21：对目标待区分语音数据进行预处理，获取预处理语音数据。

本实施例中，对目标待区分语音数据进行预处理，并获取相对应的预处理语音数据。对目标待区分语音数据进行预处理能够更好地提取目标待区分语音数据的ASR语音特征，使得提取出的ASR语音特征更能代表该目标待区分语音数据，以采用该ASR语音特征进行语音区分。

在一具体实施方式中，如图5所示，步骤S21中，对目标待区分语音数据进行预处理，获取预处理语音数据，包括如下步骤：

S211：对目标待区分语音数据作预加重处理，预加重处理的计算公式为s'_n＝s_n-a*s_n-1，其中，s_n为时域上的信号幅度，s_n-1为与s_n相对应的上一时刻的信号幅度，s'_n为预加重后时域上的信号幅度，a为预加重系数，a的取值范围为0.9<a<1.0。

其中，预加重是一种在发送端对输入信号高频分量进行补偿的信号处理方式。随着信号速率的增加，信号在传输过程中受损很大，为了使接收端能得到比较好的信号波形，就需要对受损的信号进行补偿。预加重技术的思想就是在传输线的发送端增强信号的高频成分，以补偿高频分量在传输过程中的过大衰减，使得接收端能够得到较好的信号波形。预加重对噪声并没有影响，因此能够有效提高输出信噪比。

本实施例中，对目标待区分语音数据作预加重处理，该预加重处理的公式为s'_n＝s_n-a*s_n-1，其中，s_n为时域上的信号幅度，即语音数据在时域上表达的语音的幅值(幅度)，s_n-1为与s_n相对的上一时刻的信号幅度，s'_n为预加重后时域上的信号幅度，a为预加重系数，a的取值范围为0.9<a<1.0，这里取0.97预加重的效果比较好。采用该预加重处理能够消除发声过程中声带和嘴唇等造成的干扰，可以有效补偿目标待区分语音数据被压抑的高频部分，并且能够突显目标待区分语音数据高频的共振峰，加强目标待区分语音数据的信号幅度，有助于提取ASR语音特征。

S212：将预加重后的目标待区分语音数据进行分帧处理。

本实施例中，在预加重目标待区分语音数据后，还应进行分帧处理。分帧是指将整段的语音信号切分成若干段的语音处理技术，每帧的大小在10-30ms的范围内，以大概1/2帧长作为帧移。帧移是指相邻两帧间的重叠区域，能够避免相邻两帧变化过大的问题。对目标待区分语音数据进行分帧处理，能够将目标待区分语音数据分成若干段的语音数据，可以细分目标待区分语音数据，便于ASR语音特征的提取。

S213：将分帧后的目标待区分语音数据进行加窗处理，获取预处理语音数据，加窗的计算公式为其中，N为窗长，n为时间，s_n为时域上的信号幅度，s'_n为加窗后时域上的信号幅度。

本实施例中，在对目标待区分语音数据进行分帧处理后，每一帧的起始段和末尾端都会出现不连续的地方，所以分帧越多与目标待区分语音数据的误差也就越大。采用加窗能够解决这个问题，可以使分帧后的目标待区分语音数据变得连续，并且使得每一帧能够表现出周期函数的特征。加窗处理具体是指采用窗函数对目标待区分语音数据进行处理，窗函数可以选择汉明窗，则该加窗的公式为N为汉明窗窗长，n为时间，s_n为时域上的信号幅度，s'_n为加窗后时域上的信号幅度。对目标待区分语音数据进行加窗处理，获取预处理语音数据，能够使得分帧后的目标待区分语音数据在时域上的信号变得连续，有助于提取目标待区分语音数据的ASR语音特征。

上述步骤S211-S213对目标待区分语音数据的预处理操作，为提取目标待区分语音数据的ASR语音特征提供了基础，能够使得提取的ASR语音特征更能代表该目标待区分语音数据，并根据该ASR语音特征进行语音区分。

S22：对预处理语音数据作快速傅里叶变换，获取目标待区分语音数据的频谱，并根据频谱获取目标待区分语音数据的功率谱。

其中，快速傅里叶变换(Fast Fourier Transformation，简称FFT),指利用计算机计算离散傅里叶变换的高效、快速计算方法的统称，简称FFT。采用这种算法能使计算机计算离散傅里叶变换所需要的乘法次数大为减少，特别是被变换的抽样点数越多，FFT算法计算量的节省就越显著。

本实施例中，对预处理语音数据进行快速傅里叶变换，以将预处理语音数据从时域上的信号幅度转换为在频域上的信号幅度(频谱)。该计算频谱的公式为1≤k≤N，N为帧的大小，s(k)为频域上的信号幅度，s(n)为时域上的信号幅度，n为时间，i为复数单位。在获取预处理语音数据的频谱后，可以根据该频谱直接求得预处理语音数据的功率谱，以下将预处理语音数据的功率谱称为目标待区分语音数据的功率谱。该计算目标待区分语音数据的功率谱的公式为1≤k≤N，N为帧的大小，s(k)为频域上的信号幅度。通过将预处理语音数据从时域上的信号幅度转换为频域上的信号幅度，再根据该频域上的信号幅度获取目标待区分语音数据的功率谱，为从目标待区分语音数据的功率谱中提取ASR语音特征提供重要的技术基础。

S23：采用梅尔刻度滤波器组处理目标待区分语音数据的功率谱，获取目标待区分语音数据的梅尔功率谱。

其中，采用梅尔刻度滤波器组处理目标待区分语音数据的功率谱是对功率谱进行的梅尔频率分析，梅尔频率分析是基于人类听觉感知的分析。观测发现，人耳就像一个滤波器组一样，只关注某些特定的频率分量(人的听觉对频率是有选择性的)，也就是说人耳只让某些频率的信号通过，而直接无视不想感知的某些频率信号。然而这些滤波器在频率坐标轴上却不是统一分布的，在低频区域有很多的滤波器，他们分布比较密集，但在高频区域，滤波器的数目就变得比较少，分布很稀疏。可以理解地，梅尔刻度滤波器组在低频部分的分辨率高，跟人耳的听觉特性是相符的，这也是梅尔刻度的物理意义所在。

本实施例中，采用梅尔刻度滤波器组处理目标待区分语音数据的功率谱，获取目标待区分语音数据的梅尔功率谱，通过采用梅尔刻度滤波器组对频域信号进行切分，使得最后每个频率段对应一个数值，若滤波器的个数为22，则可以得到目标待区分语音数据的梅尔功率谱对应的22个能量值。通过对目标待区分语音数据的功率谱进行梅尔频率分析，使得其分析后获取的梅尔功率谱保留着与人耳特性密切相关的频率部分，该频率部分能够很好地反映出目标待区分语音数据的特征。

S24：在梅尔功率谱上进行倒谱分析，获取目标待区分语音数据的梅尔频率倒谱系数。

其中，倒谱(cepstrum)是指一种信号的傅里叶变换谱经对数运算后再进行的傅里叶反变换，由于一般傅里叶谱是复数谱，因而倒谱又称复倒谱。

本实施例中，对梅尔功率谱进行倒谱分析，根据倒谱的结果，分析并获取目标待区分语音数据的梅尔频率倒谱系数。通过该倒谱分析，可以将原本特征维数过高，难以直接使用的目标待区分语音数据的梅尔功率谱中包含的特征，通过在梅尔功率谱上进行倒谱分析，转换成易于使用的特征(用来进行训练或识别的梅尔频率倒谱系数特征向量)。该梅尔频率倒谱系数能够作为ASR语音特征对不同语音进行区分的系数，该ASR语音特征可以反映语音之间的区别，可以用来识别和区分目标待区分语音数据。

在一具体实施方式中，如图6所示，步骤S24中，在梅尔功率谱上进行倒谱分析，获取目标待区分语音数据的梅尔频率倒谱系数，包括如下步骤：

S241：取梅尔功率谱的对数值，获取待变换梅尔功率谱。

本实施例中，根据倒谱的定义，对梅尔功率谱取对数值log，获取待变换梅尔功率谱m。

S242：对待变换梅尔功率谱作离散余弦变换，获取目标待区分语音数据的梅尔频率倒谱系数。

本实施例中，对待变换梅尔功率谱m作离散余弦变换(Discrete CosineTransform,DCT)，获取相对应的目标待区分语音数据的梅尔频率倒谱系数，一般取第2个到第13个系数作为ASR语音特征，该ASR语音特征能够反映语音数据间的区别。对待变换梅尔功率谱m作离散余弦变换的公式为i＝0,1,2，...，N-1，N为帧长，m为待变换梅尔功率谱，j为待变换梅尔功率谱的自变量。由于梅尔滤波器之间是有重叠的，所以采用梅尔刻度滤波器获取的能量值之间是具有相关性的，离散余弦变换可以对待变换梅尔功率谱m进行降维压缩和抽象，并获得相应的ASR语音特征，相比于傅里叶变换，离散余弦变换的结果没有虚部，在计算方面有明显的优势。

步骤S21-S24基于ASR技术对目标待区分语音数据进行特征提取的处理，最终获取的ASR语音特征能够很好地体现目标待区分语音数据，该ASR语音特征能够在深度网络模型训练获取得到ASR-DNN模型，使训练获取的ASR-DNN模型在进行语音区分时的结果更为精确，即使在噪音很大的条件下，也可以精确地将噪音和语音区分开来。

需要说明的是，以上提取的特征为梅尔频率倒谱系数，在这里不应将ASR语音特征限定为只有梅尔频率倒谱系数一种，而应当认为采用ASR技术获取的语音特征，只要能够有效反映语音数据特征，都是可以作为ASR语音特征进行识别和模型训练的。

S30：将ASR语音特征输入到预先训练好的ASR-DNN模型中进行区分，获取目标区分结果。

其中，ASR-DNN模型是指采用ASR语音特征训练而成的深度神经网络模型，DNN即指深度神经网络(Deep Neural Networks)。该ASR-DNN模型是采用ASR语音特征训练的，因此该模型能够识别ASR语音特征，从而根据ASR语音特征区分语音。例如，待训练语音数据包括目标语音和噪音，则在进行ASR-DNN模型训练时提取了目标语音的ASR语音特征和噪音的ASR语音特征，使得训练获取的ASR-DNN模型能够根据ASR语音特征识别目标语音和干扰语音中的噪音，实现区分目标语音和干扰语音(在采用VAD区分原始待区分语音数据时已经去除了大部分的干扰语音，这里ASR-DNN模型区分的干扰语音主要是指噪音部分)的效果。

本实施例中，将ASR语音特征输入到预先训练好的ASR-DNN模型中进行区分，由于ASR语音特征能够反映语音数据的特征，因此可以根据ASR-DNN模型对目标待区分语音数据提取的ASR语音特征进行识别，从而根据ASR语音特征对目标待区分语音数据作出精确的语音区分。该预先训练好的ASR-DNN模型结合了ASR语音特征和神经网络对特征进行深层提取的特点，从语音的本质上对语音进行了区分，在噪音条件非常恶劣的情况下仍然有很高的精确率。具体地，由于ASR提取的特征也包含了噪音的ASR语音特征，因此，在该ASR-DNN模型中，噪音也是可以精确地进行区分，解决当前语音区分方法(包括但不限于VAD)在噪音条件下无法有效进行语音区分的问题。

在一具体实施方式中，步骤S30，在将ASR语音特征输入到预先训练好的ASR-DNN模型中进行区分，获取目标区分结果的步骤之前，语音区分方法还包括如下步骤：获取ASR-DNN模型。

如图7所示，获取ASR-DNN模型的步骤具体包括：

S31：获取待训练语音数据，并提取待训练语音数据的待训练ASR语音特征。

其中，待训练语音数据是指获取ASR-DNN模型所需的语音数据，该待训练语音数据可以是直接采用开源的语音训练集，或者是通过收集大量样本语音数据的语音训练集。该待训练语音数据是将目标语音和噪音提前区分好的(目标语音和噪音的比例可以取1:1)，区分采取的具体方式可以是对目标语音和噪音分别设置不同的标签值。例如，将待训练语音数据中的部分都标记为1(代表“真”)，将噪音部分都标记为0(代表“假”)，通过提前设置的标签值可以检验ASR-DNN模型识别的精确度，以便提供改进的参考，更新ASR-DNN模型中的网络参数，不断优化ASR-DNN模型。

本实施例中，获取待训练语音数据，并提取该待训练语音数据的特征，该特征即待训练ASR语音特征，提取待训练ASR语音特征的步骤与步骤S21-S24相同，在此不再赘述。待训练语音数据中包括目标语音部分和噪音部分，这两种语音数据都有各自的ASR语音特征，因此，可以提取并采用待训练ASR语音特征训练相对应的ASR-DNN模型，使得根据该待训练ASR语音特征训练获取的ASR-DNN模型可以精确地区分目标语音和噪音(噪音属于干扰语音)。

S32：初始化DNN模型。

其中，DNN模型即深度神经网络模型，深度神经网络模型中包括由神经元组成的输入层、隐藏层和输出层。该深度神经网络模型中包括各层之间各个神经元连接的权值和偏置，这些权值和偏置决定了DNN模型的性质及识别效果。

本实施例中，初始化DNN模型，该初始化操作即设置DNN模型中权值和偏置的初始值，该初始值初始设置时可以设置为较小的值，如设置在区间[-0.3-0.3]之间，或者直接采用经验值设置初始的权值和偏置。合理的初始化DNN模型可以使模型在初期有较灵活的调整能力，可以在模型训练过程中对模型进行有效的调整，而不会使模型在初始阶段的调整能力就很差，导致训练出的模型区分效果不好。

S33：将待训练ASR语音特征输入到DNN模型中，根据前向传播算法获取DNN模型的输出值，DNN模型的当前层表示为l，当前层的输出用公式表示为a^i,l＝σ(W^la^i,l-1+b^l)，其中，σ为激活函数，W为权值，l-1为上一层，b为偏置，i表示第i组输入的待训练ASR语音特征。

本实施例中，DNN的前向传播算法即根据DNN模型中连接各个神经元的权值W,偏置b和输入值向量xⁱ在DNN模型中进行的一系列线性运算和激活运算，从输入层开始，一层层的向后计算，一直运算到输出层，得到输出值为止。则根据前向传播算法可以计算DNN模型中网络每一层的输出值，直至算到最后一层的输出值。具体地，有DNN模型的总层数为L，DNN模型中连接各个神经元的权值W,偏置b和输入值向量xⁱ，输出层的输出值a^i,L(i表示第i组输入的待训练ASR语音特征)，则a¹＝xⁱ(第一层的输出即在输入层输入的ASR语音特征，该ASR语音特征以向量表示)，根据前向传播算法可知输出a^i,l＝σ(W^la^i,l-1+b^l)，其中，l表示当前层，σ为激活函数，这里具体采用的激活函数可以是sigmoid或者tanh激活函数。根据上述计算a^i,l的公式按层数逐层进行前向传播，获取DNN模型中网络最终的输出值a^i,L，有了输出值a^i,L即可以根据输出值a^i,L对DNN模型中的网络参数(连接各个神经元的权值W,偏置b)进行调整，以获取拥有优秀的区别语音能力的ASR-DNN模型。

S34：基于输出值进行误差反传，更新DNN模型各层的权值和偏置，获取ASR-DNN模型，其中，更新权值的计算公式为l为当前层，W为权值，α为迭代步长，m为输入的待训练ASR语音特征的样本总数，δ^i,l为当前层的灵敏度；z^i,l＝W^la^i,l-1+b^l，a^i,l-1为上一层的输出，T表示矩阵转置运算，更新偏置的计算公式为

本实施例中，在根据前向传播算法获取DNN模型的输出值a^i,L后，可以根据a^i,L与预先设置好标签的待训练ASR语音特征计算待训练ASR语音特征在该DNN模型中训练时产生的误差，并根据该误差构建合适的误差函数(如采用均方差来度量误差的误差函数)，根据误差函数进行误差反传，调整、更新DNN模型各层的权值W和偏置b。基于ASR语音特征训练的DNN模型即ASR-DNN模型。

更新DNN模型各层的权值W和偏置b采用的是后向传播算法，根据后向传播算法求误差函数最小化的极值，以优化更新DNN模型各层的权值W和偏置b，获取ASR-DNN模型。具体地，设置模型训练的迭代步长为α，最大迭代次数MAX与停止迭代阈值∈。在后向传播算法中，灵敏度δ^i,l是每次更新参数都会出现的公共因子，因此可以借助灵敏度δ^i,l计算误差，以更新DNN模型中的网络参数。已知a¹＝xⁱ(第一层的输出即在输入层输入的ASR语音特征)，则先求出输出层的灵敏度δ^i,L，z^i,l＝W^la^i,l-1+b^l，其中i表示第i组输入的待训练ASR语音特征，y为标签值(即用来与输出值a^i,L相比较的实际值)再根据δ^i,L求出层l的灵敏度δ^i,l，根据后向传播算法可以计算得出层l的灵敏度以得到层l的灵敏度δ^i,l，即可以更新DNN模型各层的权值W和偏置b，则更新后的权值为更新后的偏置为其中，α为模型训练的迭代步长，m为输入的待训练ASR语音特征的样本总数，T表示矩阵转置运算。当所有W和b的变化值都小于停止迭代阈值∈时，即可停止训练；或者，训练达到最大迭代次数MAX时，停止训练。通过待训练ASR语音特征在DNN模型中的输出值和预先设置好的标签之间产生的误差，实现DNN模型各层的权值W和偏置b的更新，使得最终获取的ASR-DNN模型能够根据ASR语音特征区分语音。

步骤S31-S34采用待训练ASR语音特征对DNN模型进行训练，使得训练获取的ASR-DNN模型可以有效区分语音，在噪音干扰严重的情况下，仍然可以将目标语音和噪音进行精确的区分。具体地，ASR-DNN模型在模型训练过程中进一步提取了待训练ASR语音特征的深层特征，ASR-DNN模型网络中训练好的权值和偏置体现了该基于ASR语音特征的深层特征。ASR-DNN模型能够基于目标语音ASR特征和噪音ASR语音特征进行深层特征的识别，实现对目标语音和噪音的精确区分。

本实施例所提供的语音区分方法中，首先基于语音活动检测算法(VAD)处理原始待区分语音数据，获取目标待区分语音数据，把原始待区分语音数据通过语音活动检测算法先区分一次，得到范围更小的目标待区分语音数据，能够初步有效地去除原始待区分语音数据中的干扰语音数据，保留混杂着目标语音和干扰语音的原始待区分语音数据，并将该原始待区分语音数据作为目标待区分语音数据，能够对原始待区分语音数据作有效的初步语音区分，去除大量的干扰语音。然后基于目标待区分语音数据，获取相对应的ASR语音特征，该ASR语音特征能够使语音区分的结果更为精确，即使在噪音很大的条件下，也可以精确地将干扰语音(如噪音)和目标语音区分开来，为后续根据该ASR语音特征进行相应的ASR-DNN模型识别提供重要的技术前提。最后将ASR语音特征输入到预先训练好的ASR-DNN模型中进行区分，获取目标区分结果，该ASR-DNN模型是根据ASR语音特征专门训练的用于有效区分语音的识别模型，能够从混杂着目标语音和干扰语音(由于已经采用VAD区分过一次，所以这里的干扰语音大多数是指噪音)的目标待区分语音数据中正确区分目标语音和干扰语音，提高语音区分的准确性。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

图8示出与实施例中语音区分方法一一对应的语音区分装置的原理框图。如图8所示，该语音区分装置包括目标待区分语音数据获取模块10、语音特征获取模块20和目标区分结果获取模块30。其中，目标待区分语音数据获取模块10、语音特征获取模块20和目标区分结果获取模块30的实现功能与实施例中语音区分方法对应的步骤一一对应，为避免赘述，本实施例不一一详述。

目标待区分语音数据获取模块10，用于基于语音活动检测算法处理原始待区分语音数据，获取目标待区分语音数据。

语音特征获取模块20，用于基于目标待区分语音数据，获取相对应的ASR语音特征。

目标区分结果获取模块30，用于将ASR语音特征输入到预先训练好的ASR-DNN模型中进行区分，获取目标区分结果。

优选地，目标待区分语音数据获取模块10包括第一原始区分语音数据获取单元11、第二原始区分语音数据获取单元12和目标待区分语音数据获取单元13。

第一原始区分语音数据获取单元11，用于根据短时能量特征值计算公式对原始待区分语音数据进行处理，获取对应的短时能量特征值，将短时能量特征值大于第一阈值的原始待区分数据保留，确定为第一原始区分语音数据，其中短时能量特征值计算公式为N为语音帧长，s(n)为时域上的信号幅度，n为时间。

第二原始区分语音数据获取单元12，用于根据过零率特征值计算公式对原始待区分语音数据进行处理，获取对应的过零率特征值，将过零率特征值小于第二阈值的原始待区分语音数据保留，确定为第二原始区分语音数据，其中过零率特征值计算公式为N为语音帧长，s(n)为时域上的信号幅度，n为时间。

目标待区分语音数据获取单元13，用于将第一原始区分语音数据和第二原始区分语音数据作为目标待区分语音数据。

优选地，语音特征获取模块20包括预处理语音数据获取单元21、功率谱获取单元22、梅尔功率谱获取单元23和梅尔频率倒谱系数单元24。

预处理单元21，用于对目标待区分语音数据进行预处理，获取预处理语音数据。

功率谱获取单元22，用于对预处理语音数据作快速傅里叶变换，获取目标待区分语音数据的频谱，并根据频谱获取目标待区分语音数据的功率谱。

梅尔功率谱获取单元23，用于采用梅尔刻度滤波器组处理目标待区分语音数据的功率谱，获取目标待区分语音数据的梅尔功率谱。

梅尔频率倒谱系数单元24，用于在梅尔功率谱上进行倒谱分析，获取目标待区分语音数据的梅尔频率倒谱系数。

优选地，预处理单元21包括预加重子单元211、分帧子单元212和加窗子单元213。

预加重子单元211，用于对目标待区分语音数据作预加重处理，预加重处理的计算公式为s'_n＝s_n-a*s_n-1，其中，s_n为时域上的信号幅度，s_n-1为与s_n相对应的上一时刻的信号幅度，s'_n为预加重后时域上的信号幅度，a为预加重系数，a的取值范围为0.9<a<1.0。

分帧子单元212，用于将预加重后的目标待区分语音数据进行分帧处理。

加窗子单元213，用于将分帧后的目标待区分语音数据进行加窗处理，获取预处理语音数据，加窗的计算公式为其中，N为窗长，n为时间，s_n为时域上的信号幅度，s'_n为加窗后时域上的信号幅度。

优选地，梅尔频率倒谱系数单元24包括待变换梅尔功率谱获取子单元241和梅尔频率倒谱系数子单元242。

待变换梅尔功率谱获取子单元241，用于取梅尔功率谱的对数值，获取待变换梅尔功率谱。

梅尔频率倒谱系数子单元242，用于对待变换梅尔功率谱作离散余弦变换，获取目标待区分语音数据的梅尔频率倒谱系数。

优选地，该语音区分装置还包括ASR-DNN模型获取模块40，ASR-DNN模型获取模块40包括待训练ASR语音特征获取单元41、初始化单元42、输出值获取单元43和更新单元44。

待训练ASR语音特征获取单元41，用于获取待训练语音数据，并提取待训练语音数据的待训练ASR语音特征。

初始化单元42，用于初始化DNN模型。

输出值获取单元43，用于将待训练ASR语音特征输入到DNN模型中，根据前向传播算法获取DNN模型的输出值，DNN模型的当前层表示为l，当前层的输出用公式表示为a^i,l＝σ(W^la^i,l-1+b^l)，其中，σ为激活函数，W为权值，l-1为上一层，b为偏置，i表示第i组输入的待训练ASR语音特征。

更新单元44，用于基于输出值进行误差反传，更新DNN模型各层的权值和偏置，获取ASR-DNN模型，其中，更新权值的计算公式为l为当前层，W为权值，α为迭代步长，m为输入的待训练ASR语音特征的样本总数，δ^i,l为当前层的灵敏度；z^i,l＝W^la^i,l-1+b^l，a^i,l-1为上一层的输出，b^l为当前层的偏置，T为矩阵转置运算，更新偏置的计算公式为

本实施例提供一计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现实施例中语音区分方法，为避免重复，这里不再赘述。或者，该计算机程序被处理器执行时实现实施例中语音区分装置中各模块/单元的功能，为避免重复，这里不再赘述。

可以理解地，所述计算机可读存储介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号和电信信号等。

图9是本实施例中计算机设备的示意图。如图9所示，计算机设备50包括处理器51、存储器52以及存储在存储器52中并可在处理器51上运行的计算机程序53。处理器51执行计算机程序53时实现实施例中语音区分方法的各个步骤，例如图2所示的步骤S10、S20和S30。或者，处理器51执行计算机程序53时实现实施例中语音区分装置各模块/单元的功能，如图8所示目标待区分语音数据获取模块10、语音特征获取模块20和目标区分结果获取模块30的功能。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种语音区分方法，其特征在于，包括：

基于所述目标待区分语音数据，获取相对应的ASR语音特征；

2.根据权利要求1所述的语音区分方法，其特征在于，所述基于语音活动检测算法处理原始待区分语音数据，获取目标待区分语音数据，包括：

根据短时能量特征值计算公式对所述原始待区分语音数据进行处理，获取对应的短时能量特征值，将所述短时能量特征值大于第一阈值的所述原始待区分数据保留，确定为第一原始区分语音数据，短时能量特征值计算公式为其中，N为语音帧长，s(n)为时域上的信号幅度，n为时间；

根据过零率特征值计算公式对所述原始待区分语音数据进行处理，获取对应的过零率特征值，将所述过零率特征值小于第二阈值的所述原始待区分语音数据保留，确定为第二原始区分语音数据，过零率特征值计算公式为其中，N为语音帧长，s(n)为时域上的信号幅度，n为时间；

将所述第一原始区分语音数据和所述第二原始区分语音数据作为所述目标待区分语音数据。

3.根据权利要求1所述的语音区分方法，其特征在于，所述基于所述目标待区分语音数据，获取相对应的ASR语音特征，包括：

对所述目标待区分语音数据进行预处理，获取预处理语音数据；

对所述预处理语音数据作快速傅里叶变换，获取目标待区分语音数据的频谱，并根据所述频谱获取目标待区分语音数据的功率谱；

采用梅尔刻度滤波器组处理所述目标待区分语音数据的功率谱，获取目标待区分语音数据的梅尔功率谱；

在所述梅尔功率谱上进行倒谱分析，获取目标待区分语音数据的梅尔频率倒谱系数。

4.根据权利要求3所述的语音区分方法，其特征在于，所述对所述目标待区分语音数据进行预处理，获取预处理语音数据，包括：

对所述目标待区分语音数据作预加重处理，预加重处理的计算公式为s'_n＝s_n-a*s_n-1，其中，s_n为时域上的信号幅度，s_n-1为与s_n相对应的上一时刻的信号幅度，s'_n为预加重后时域上的信号幅度，a为预加重系数，a的取值范围为0.9<a<1.0；

将预加重后的所述目标待区分语音数据进行分帧处理；

将分帧后的所述目标待区分语音数据进行加窗处理，获取预处理语音数据，加窗的计算公式为其中，N为窗长，n为时间，s_n为时域上的信号幅度，s'_n为加窗后时域上的信号幅度。

5.根据权利要求3所述的语音区分方法，其特征在于，所述在所述梅尔功率谱上进行倒谱分析，获取目标待区分语音数据的梅尔频率倒谱系数，包括：

取所述梅尔功率谱的对数值，获取待变换梅尔功率谱；

对所述待变换梅尔功率谱作离散余弦变换，获取目标待区分语音数据的梅尔频率倒谱系数。

6.根据权利要求1所述的语音区分方法，其特征在于，在所述将所述ASR语音特征输入到预先训练好的ASR-DNN模型中进行区分，获取区分结果的步骤之前，所述语音区分方法还包括：获取ASR-DNN模型；

所述获取ASR-DNN模型的步骤包括：

获取待训练语音数据，并提取所述待训练语音数据的待训练ASR语音特征；

初始化DNN模型；

将所述待训练ASR语音特征输入到DNN模型中，根据前向传播算法获取DNN模型的输出值，所述DNN模型的当前层表示为l，当前层的输出用公式表示为a^i,l＝σ(W^la^i,l-1+b^l)，其中，σ为激活函数，W为权值，l-1为上一层，b为偏置，i表示第i组输入的待训练ASR语音特征；

基于所述输出值进行误差反传，更新DNN模型各层的权值和偏置，获取ASR-DNN模型，其中，更新权值的计算公式为l为当前层，W为权值，α为迭代步长，m为输入的待训练ASR语音特征的样本总数，δ^i,l为当前层的灵敏度；z^i,l＝W^la^i,l-1+b^l，a^i,l-1为上一层的输出，b^l为当前层的偏置，T为矩阵转置运算，更新偏置的计算公式为

7.一种语音区分装置，其特征在于，包括：

8.根据权利要求7所述的语音区分装置，其特征在于，所述目标待区分语音数据获取模块，包括：

第一原始区分语音数据获取单元，用于根据短时能量特征值计算公式对所述原始待区分语音数据进行处理，获取对应的短时能量特征值，将所述短时能量特征值大于第一阈值的所述原始待区分数据保留，确定为第一原始区分语音数据，其中短时能量特征值计算公式为N为语音帧长，s(n)为时域上的信号幅度，n为时间；

第二原始区分语音数据获取单元，用于根据过零率特征值计算公式对所述原始待区分语音数据进行处理，获取对应的过零率特征值，将所述过零率特征值小于第二阈值的所述原始待区分语音数据保留，确定为第二原始区分语音数据，其中过零率特征值计算公式为N为语音帧长，s(n)为时域上的信号幅度，n为时间；

目标待区分语音数据获取单元，用于将所述第一原始区分语音数据和所述第二原始区分语音数据作为所述目标待区分语音数据。

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述语音区分方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述语音区分方法的步骤。