CN108922561A

CN108922561A - 语音区分方法、装置、计算机设备及存储介质

Info

Publication number: CN108922561A
Application number: CN201810561695.9A
Authority: CN
Inventors: 涂宏
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-06-04
Filing date: 2018-06-04
Publication date: 2018-11-30
Also published as: WO2019232848A1

Abstract

本发明公开了一种语音区分方法、装置、计算机设备及存储介质。该方法包括：获取原始测试语音数据，对原始测试语音数据进行预处理，获取预处理语音数据；对预处理语音数据进行端点检测处理，获取待测试语音数据；对待测试语音数据进行特征提取，获取待测试语音特征；将待测试语音特征输入到预先训练好的卷积深度置信网络模型中进行识别，获取语音区分结果。该方法提高了语音区分的准确性，使得获取的语音区分结果更加准确。

Description

语音区分方法、装置、计算机设备及存储介质

技术领域

本发明涉及语音识别技术领域，尤其涉及一种语音区分方法、装置、计算机设备及存储介质。

背景技术

语音数据一般包括目标语音和干扰语音，其中，目标语音是指语音数据中声纹连续变化明显的语音部分。干扰语音可以是语音数据中由于静默而没有发音的语音部分(即静音段)，也可以是环境噪音部分(即噪音段)。语音区分是指对输入的语音进行静音筛选，仅保留对识别更有意义的语音数据(即目标语音)。当前主要采用端点检测技术对语音数据进行区分，这种语音区分方式，在目标语音中夹杂噪音时，随着噪音越大，进行语音区分的难度越大，其端点检测的识别结果越不准确。因此，采用端点检测技术进行语音区分时，其语音区分的识别结果容易受外部因素影响，使得语音区分结果不准确。

发明内容

本发明实施例提供一种语音区分方法、装置、计算机设备及存储介质，以解决语音区分结果不准确的问题。

本发明实施例提供一种语音区分方法，包括：

获取原始测试语音数据，对所述原始测试语音数据进行预处理，获取预处理语音数据；

对所述预处理语音数据进行端点检测处理，获取待测试语音数据；

对所述待测试语音数据进行特征提取，获取待测试语音特征；

将所述待测试语音特征输入到预先训练好的卷积深度置信网络模型中进行识别，获取语音区分结果。

本发明实施例提供一种语音区分装置，包括：

原始测试语音数据处理模块，用于获取原始测试语音数据，对所述原始测试语音数据进行预处理，获取预处理语音数据；

待测试语音数据获取模块，用于对所述预处理语音数据进行端点检测处理，获取待测试语音数据；

待测试语音特征获取模块，用于对所述待测试语音数据进行特征提取，获取待测试语音特征；

语音区分结果获取模块，用于将所述待测试语音特征输入到预先训练好的卷积深度置信网络模型中进行识别，获取语音区分结果。

本发明实施例提供一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述语音区分方法的步骤。

本发明实施例提供一种非易失性存储介质，所述非易失性存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述语音区分方法的步骤。

本发明实施例提供的语音区分方法、装置、计算机设备及存储介质，通过获取原始测试语音数据，并对原始测试语音数据进行预加重、分帧和加窗处理，得到预处理语音数据。然后对预处理语音数据进行端点检测处理，获取待测试语音数据。初步去除非语音片段对应的待测试语音数据，有效减少语音区分的处理时间，提高语音处理的质量。对待测试语音数据进行特征提取，获取待测试语音特征，并将待测试语音特征输入到预先训练好的卷积深度置信网络模型中进行识别，获取语音区分结果，提高了语音区分的准确性，使得获取的语音区分结果更加准确。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中语音区分方法的一应用场景图；

图2是本发明一实施例中语音区分方法的一流程图；

图3是图2中步骤S10的一具体流程图；

图4是图3中步骤S20的一具体流程图；

图5是图2中步骤S30的一具体流程图；

图6是本发明一实施例中语音区分方法的另一流程图；

图7是图6中步骤S403的一具体流程图；

图8是图2中步骤S40的一具体流程图；

图9是本发明一实施例语音区分装置的一示意图；

图10是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的语音区分方法，可以用在如图1所示的应用环境中。其中，终端设备将采集到的原始测试语音数据，通过网络发送给对应的服务器，与该终端设备连接的服务器在获取到的原始测试语音数据后，首先对该原始测试语音数据进行端点检测处理，获取待测试语音数据。然后对获取到的待测试语音数据进行特征提取，获取待测试语音特征。最后将待测试语音特征输入到预先训练好的卷积深度置信网络模型中进行识别，获取语音区分结果，达到对语音数据中的目标语音和干扰语音的进行区分处理的目的。其中，终端设备是可与用户进行人机交互的设备，包括但不限于各种个人计算机、笔记本电脑、智能手机和平板电脑。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种语音区分方法，该语音区分方法包括如下步骤：

S10：获取原始测试语音数据，对原始测试语音数据进行预处理，获取预处理语音数据。

其中，原始测试语音数据是指终端设备采集到的说话人的语音数据。该原始测试语音数据包括目标语音和干扰语音，其中，目标语音是指语音数据中声纹连续变化明显的语音部分；相应地，干扰语音是指语音数据中目标语音之外的语音部分。具体地，干扰语音包括静音段和噪音段，其中，静音段是指语音数据中由于静默而没有发音的语音部分，如说话人在说话过程中会思考、呼吸等，由于说话人在思考和呼吸时是不会发出声音的，因此该语音部分则为静音段。噪音段是指语音数据中的环境噪音部分，如门窗的开关、物体的碰撞等发出的声音都可以认为是噪音段。

具体地，终端设备通过声音采集模块(如录音模块)获取一段原始测试语音数据，该原始测试语音数据是需要进行语音区分的包含有目标语音和干扰语音的一段语音数据。获取原始测试语音数据后，对原始测试语音数据进行预处理，获取预处理语音数据。预处理语音数据指原始测试语音数据经过预处理后得到的语音数据。

本实施例中的预处理具体包括：对原始测试语音数据进行预加重、分帧和加窗处理。采用预加重处理的公式s'_n＝s_n-a*s_n-1对原始测试语音数据进行预加重处理，以消除说话人的声带和嘴唇对说话人语音的影响，提高说话人语音的高频分辨率。其中，s'_n为预加重处理后的n时刻的语音信号幅度，s_n为n时刻的语音信号幅度，s_n-1为n-1时刻的语音信号幅度，a为预加重系数。然后对预加重处理后的原始测试语音数据进行分帧处理时。在分帧时，每一帧语音数据的起始点和末尾点都会出现不连续的地方，分帧越多，与原始测试语音数据的误差也就越大。为了保持每一帧语音数据的频率特性，还需要进行加窗处理。对原始测试语音数据进行预处理，获取预处理语音数据，为后续步骤执行对原始测试语音数据进行区分处理提供数据来源。

S20：对预处理语音数据进行端点检测处理，获取待测试语音数据。

其中，端点检测处理是从一段语音数据中确定目标语音的起始点和结束点的一种处理手段。一段语音数据中不可避免地会存在有干扰语音，因此，在终端设备获取原始测试语音数据并经过预处理后，需要对获取的预处理语音数据进行初步检测处理，去除掉干扰语音，保留剩余的语音数据，该剩余的语音数据则作为待测试语音数据。该待测试语音数据中会包括目标语音，也会包括没有准确去除的干扰语音

具体地，在获取预处理语音数据后，获取该预处理语音数据对应的短时能量特征值和短时过零率。其中，短时能量特征值指任一时刻语音数据中的一帧语音对应的能量值。短时过零率指语音数据对应的语音信号与横轴(零电平)的交点的个数。本实施例中，服务器对预处理语音数据进行端点检测，可以减少语音区分的处理时间，提高语音区分处理的质量。

可以理解地，对预处理语音数据进行端点检测处理，可以初步地去除静音段和噪音段对应的语音数据，去除效果不是很好，为了更加准确地去除预处理语音数据中的静音段和噪音段，在获取待测试语音数据后还需执行步骤S30和步骤S40，以获取更加准确的目标语音。

S30：对待测试语音数据进行特征提取，获取待测试语音特征。

其中，待测试语音特征包括但不限于频谱特征、音质特征和声纹特征。频谱特征是根据声音振动频率区分不同的语音数据，如目标语音和干扰语音。音质特征和声纹特征是根据声纹和声音的音色特点识别待测试语音数据对应的说话人。由于语音区分是用于区分语音数据中的目标语音和干扰语音，因此，只需要获取待测试语音数据的频谱特征，就可以完成语音区分。其中，频谱是频率谱密度的简称，频谱特征是反映频率谱密度的参数。

S40：将待测试语音特征输入到预先训练好的卷积深度置信网络模型中进行识别，获取语音区分结果。

卷积深度置信网络(Convolutional Deep Belief Networks，CDBN)模型是预先训练好的用于区分待测试语音数据中的目标语音和干扰语音的神经网络模型。语音区分结果指经过卷积深度置信网络模型识别，区分待测试语音数据中的目标语音和干扰语音的识别结果。采用预先训练好的卷积深度置信网络模型对待测试语音数据进行识别，获取语音识别概率值。将语音识别概率值与预设概率值进行比较，大于或等于预设概率值的语音识别概率值对应的待测试语音数据为目标语音，小于预设概率值的语音识别概率值对应的待测试语音数据为干扰语音。即本实施例中，将识别概率较高的目标语音保留，去除识别概率较低的干扰语音。采用卷积深度置信网络模型对待测试语音数据进行识别，可以提高识别准确率，使得语音区分结果更加准确。

本实施例所提供的语音区分方法，对预处理语音数据进行端点检测处理，获取待测试语音数据，可以减少语音区分的处理时间，提高语音处理的质量。再对待测试语音数据进行特征提取，将待测试语音特征输入到预先训练好的卷积深度置信网络模型中进行识别，获取语音区分结果，提高了语音区分的准确性，使得获取的语音区分结果更加准确。

在一实施例中，如图3所示，步骤S10，对原始测试语音数据进行预处理，获取预处理语音数据，具体包括如下步骤：

S11：对原始测试语音数据进行预加重处理，预加重处理的公式为s'_n＝s_n-a*s_n-1，其中，s'_n为预加重处理后的n时刻的语音信号幅度，s_n为n时刻的语音信号幅度，s_n-1为n-1时刻的语音信号幅度，a为预加重系数。

具体地，为了消除说话人的声带和嘴唇对说话人语音的影响，提高说话人语音的高频分辨率，需采用公式s'_n＝s_n-a*s_n-1对原始测试语音数据进行预加重处理。语音信号幅度即语音数据在时域上表达的语音的幅度，a为预加重系数，0.9<a<1.0，一般地，a取0.97效果比较好。

S12：对预加重处理后的原始测试语音数据进行分帧处理，获取分帧语音数据。

预加重后的语音数据对应的语音信号是一种非平稳信号，但是语音信号具有短时平稳性。其中，短时平稳性指在短时间范围(如10ms-30ms)内，语音信号是平稳的性质。因此，在获取预加重后的语音数据后，还需进行分帧处理，以将预加重后的语音数据划分为一帧一帧的语音数据，得到分帧语音数据。该分帧语音数据指短时间范围内对应的语音片段，该分割出的语音片段则称为帧。一般地，在分帧时，为保持相邻两帧语音数据的连续性，可使相邻两帧的语音数据中会存在重叠部分，该重叠部分为帧长的1/2，该重叠部分称为帧移。

S13：对分帧语音数据进行加窗处理，获取预处理语音数据，加窗处理的公式为和s″_n＝w_n*s′_n，其中，w_n为n时刻的汉明窗，N为汉明窗窗长，s'_n为n时刻时域上的信号幅度，s'_n'为n时刻加窗后时域上的信号幅度。

在分帧处理后，每一帧语音数据的起始点和末尾点都会出现不连续的地方，分帧越多，与原始测试语音数据的误差也就越大。为了保持每一帧语音数据的频率特性，还需要对分帧语音数据进行加窗处理。本实施例中采用汉明窗对语音数据进行加窗处理，具体为：先采用汉明窗函数进行加窗处理，然后采用公式s″_n＝w_n*s′_n获取加窗处理后的信号幅度。

步骤S11-S13，通过对原始测试语音数据进行预加重、分帧和加窗处理，可以获取分辨率高、平稳性好且与原始测试语音数据误差较小的预处理语音数据，提高后续通过端点检测处理，获取待测试语音数据的效率，并保证待测试语音数据的质量。

在一实施例中，如图3所示，步骤S20，对预处理语音数据进行端点检测处理，获取待测试语音数据，具体包括如下步骤：

S21：采用短时能量特征值计算公式对预处理语音数据进行处理，获取预处理语音数据对应的短时能量特征值，并将短时能量特征值小于第一阈值的预处理语音数据去除，获取第一测试语音数据，短时能量特征值计算公式为其中，N为预处理语音数据中帧的个数，N≥2，s(n)为时域上第n帧预处理语音数据的信号幅度。

其中，第一阈值是预先设置的基于短时能量特征值区分干扰语音中的静音段和目标语音的阈值。具体地，采用短时能量特征值计算公式对预处理语音数据进行处理，获取对应的短时能量特征值，其中，N为预处理语音数据中帧的个数，N≥2，s(n)为时域上第n帧预处理语音数据的信号幅度，E为预处理语音数据的短时能量特征值。

本实施例中，获取短时能量特征值，将短时能量特征值与第一阈值进行比较，将短时能量特征值小于第一阈值的预处理语音数据去除，获取剩余的预处理语音数据，将该剩余的预处理语音数据作为第一测试语音数据。可以理解地，第一测试语音数据是第一次排除预处理语音数据中静音段之后的语音数据。

S22：采用短时过零率计算公式对预处理语音数据进行处理，获取预处理语音数据对应的短时过零率，并将短时过零率小于第二阈值的预处理语音数据去除，获取第二测试语音数据，短时过零率计算公式为其中，N为预处理语音数据中帧的个数，N≥2，s(n)为时域上第n帧语音数据的信号幅度。

第二阈值是预先设置的基于短时过零率区分干扰语音中的静音段和目标语音的阈值。具体地，采用短时过零率计算公式对预处理语音数据进行处理，获取对应的短时过零率，其中，N为预处理语音数据中帧的个数，N≥2，s(n)为时域上第n帧语音数据的信号幅度，ZCR为预处理语音数据的短时过零率。本实施例中，获取短时过零率，将短时过零率与第二阈值进行比较，将短时过零率小于第二阈值的预处理语音数据去除，获取剩余的预处理语音数据，将该剩余的预处理语音数据作为第二测试语音数据。可以理解地，获取第二测试语音数据是第二次排除预处理语音数据中静音段之后获取的语音数据。

例如，在端点检测处理时，预先设置两个阈值，即第一阈值T1和第二阈值T2，其中，第一阈值T1为短时能量特征值对应的阈值，第二阈值T2为短时过零率对应的阈值。本实施例中，设第一阈值T1为10，设第二阈值T2为15，若预处理语音数据的短时能量特征值小于10，则该短时能量特征值对应的预处理语音数据为静音段，需去除；若预处理语音数据的短时能量特征值不小于10，则该短时能量特征值对应的预处理语音数据不为静音段，需保留。若预处理语音数据的短时过零率小于10，则该短时过零率对应的预处理语音数据为静音段，需去除；若预处理语音数据的短时过零率不小于10，则该短时过零率对应的预处理语音数据不为静音段，需保留。

S23：对第一测试语音数据和第二测试语音数据进行去噪音处理，获取待测试语音数据。

具体地，在获取去除静音段的第一测试语音数据和第二测试语音数据之后，获取第一测试语音数据和第二测试语音数据共同存在的预处理语音数据作为共同语音数据，再对共同语音数据去噪音处理，获取待测试语音数据。其中，对第一测试语音数据和第二测试语音数据进行去噪音处理是指去除第一测试语音数据和第二测试语音数据中的噪音段。该噪音段包括但不限于门窗的开关或者物体的碰撞时发出的声音。

进一步地，对共同语音数据去噪音处理，获取待测试语音数据具体包括如下步骤：(1)获取共同语音数据的语音信号能量，确定该语音信号能量对应的至少一个极大值和极小值。(2)获取相邻的极大值和极小值之间变化时间。(3)若该突变时间小于预设的最短时间阈值，则说明该共同语音数据中的语音信号能量在较短时间内发生突变，该突变时间对应的共同语音数据为噪音段，因此需将这部分噪音段去除，以获取待测试语音数据。其中，最短时间阈值是预先设置的时间值，用于判断共同语音数据中的噪音段。

步骤S21-S23中，通过获取预处理语音数据的短时能量特征值和短时过零率，并分别与第一阈值和第二阈值比较，分别获取第一测试语音数据和第二测试语音数据，可以排除静音段对应的预处理语音数据。然后，对第一测试语音数据和第二测试语音数据进行去噪音处理，可保留目标语音对应的待测试语音数据，减少对待测试语音数据进行特征提取时需要处理的数据量。

在一实施例中，由于待测试语音数据是对原始测试语音数据进行预处理、分帧和加窗处理后，再进行端点检测后获取的语音数据，使得待测试语音数据包括多帧单帧语音数据，使得后续对待测试语音数据进行特征提取，可以具体为对待测试语音数据中的每一帧单帧语音数据进行特征提取。

在一实施例中，如图5所示，步骤S30，对待测试语音数据进行特征提取，获取待测试语音特征，具体包括如下步骤：

S31：对单帧语音数据进行快速傅里叶变换处理，获取待测试语音数据的功率谱。

获取待测试语音数据中的每一帧单帧语音数据，采用公式进行快速傅里叶变换(Fast Fourier Transformation，简称FFT)处理，获取待测试语音数据的频谱。公式中，1≤k≤N，N为待测试语音数据中帧的个数，s(k)为频域上的信号幅度，s(n)为时域上第n帧语音数据的信号幅度，j为负数单位。在获取待测试语音数据的频谱后，对频谱采用公式进行功率谱计算，获取待测试语音数据中该单帧语音数据的功率谱。公式中，1≤k≤N，N为待测试语音数据中帧的个数，s(k)为频域上的信号幅度，P(k)为求得待测试语音数据的功率谱。获取功率谱方便步骤S32获取梅尔频谱。

S32：采用梅尔滤波器组对功率谱进行降维处理，获取梅尔频谱。

由于人的听觉感知系统可以模拟复杂的非线性系统，基于步骤S31获取的功率谱不能很好地展现语音数据的非线性特点，因此，还需要采用梅尔滤波器组对频谱进行降维处理，使得获取的待测试语音数据的频谱更加接近人耳感知的频率。其中，梅尔滤波器组是由多个重叠的三角带通滤波器组成的，三角带通滤波器携带有下限频率、截止频率和中心频率三种频率。这些三角带通滤波器的中心频率在梅尔刻度上是等距的，梅尔刻度在1000HZ之前是线性增长的，1000HZ之后是成对数增长的。梅尔频谱与功率谱之间的转换关系：其中，n表示三角带通滤波器的个数，w_n为转换系数，l_n为下限频率，h_n为截止频率，P(k)为功率谱，k为第k帧语音数据。

S33：对梅尔频谱进行倒谱分析，获取待测试语音特征。

其中，倒谱(cepstrum)是指一种信号的傅里叶变换谱经对数运算后再进行的傅里叶逆变换，由于一般傅里叶谱是复数谱，因而倒谱又称复倒谱。

具体地，在获取梅尔频谱后，对梅尔频谱取对数X＝logmel_(n)，然后对X作离散余弦变换(Discrete Cosine Transform,DCT)，获取梅尔频率倒谱系数(MFCC)，该梅尔频率倒谱系数(MFCC)即为待测试语音特征。其中，离散傅里叶变化的公式为c_i表示第i个梅尔频率倒谱系数，n表示梅尔频率倒谱系数的个数，与梅尔滤波器的个数相关，若梅尔滤波器的个数为13个，则梅尔频率倒谱系数的个数也可以有13个。

进一步地，为了便于观察和更好地反映待测试语音数据对应的语音信号的特点，在获取梅尔频率倒谱系数(MFCC)后，还需要对MFCC进行归一化处理。其中，归一化处理的具体步骤为：对所有的c_i求平均值，然后用每一个c_i减去平均值获取每一个c_i对应的归一化处理后的值。c_i对应的归一化处理后的值为待测试语音数据的梅尔频率倒谱系数(MFCC)，即就是该待测试语音数据的待测试语音特征。

在一实施例中，如图6所示在步骤S40，将待测试语音特征输入到预先训练好的卷积深度置信网络模型中进行识别的步骤之前，该语音区分方法还包括：预先训练卷积深度置信网络模型。

预先训练卷积深度置信网络模型具体包括如下步骤：

S401：获取待训练语音数据，待训练语音数据包括标准训练语音数据和干扰训练语音数据。

待训练语音数据指用来训练卷积深度置信网络模型的语音数据，该待训练语音数据中的语音数据包括标准训练语音数据和干扰训练语音数据。其中，标准训练语音数据指不包含静音段和噪音段的纯净的语音数据；干扰训练语音数据指包括静音段和噪音段的语音数据。待训练语音数据可以从已经预先区分好的存储有标准训练语音数据和干扰训练语音数据的语音数据库中获取，也可以从开源的语音训练集中获取。本实施例中获取的待训练语音数据为预先区分好的，并且标准训练语音数据和干扰训练语音数据的比例为1:1的语音数据，方便基于获取到的标准训练语音数据和干扰训练语音数据对卷积深度置信网络(CDBN)模型进行模型训练，提高训练效率，避免出现过拟合现象。

S402：将标准训练语音数据和干扰训练语音数据按同等比例输入到卷积深度置信网络模型中进行模型训练，获取原始卷积限制玻尔兹曼机。

卷积深度置信网络(CDBN)模型是由多个卷积限制玻尔兹曼机(CRBM)组成的，因此，将标准训练语音数据和干扰训练语音数据按同等比例输入到卷积深度置信网络模型中进行训练时，应当是对卷积深度置信网络(CDBN)模型中的每一个卷积限制玻尔兹曼机(CRBM)进行训练。

具体地，CDBN中的CRBM的个数为n,CRBM分为两个层，上层是隐藏层h，用于提取待训练语音数据(标准训练语音数据和干扰训练语音数据比例为1:1的待训练语音数据)的语音特征；下层是可视层v，用于输入训练的待训练语音数据。隐藏层和可视层中包括多个隐藏单元和多个可视单元。假设隐藏单元中的语音数据和可视单元中的语音特征均为二值变量v_i∈{0,1}，h_j∈{0,1}，其中，v_i表示可视层中第i个二值变量v的状态、h_j隐藏层中第j个二值变量h的状态。可视单元的个数为n,隐藏单元的个数为m。则将标准训练语音数据和干扰训练语音数据按同等比例输入到卷积深度置信网络模型中进行训练具体包括如下步骤：首先，采用CRBM内置的能量公式确定(v,h)。当参数(v,h)确定后，获取对应的概率分布公式其中，z(θ)是归一化因子，然后，基于相关公式p(h_j＝1|v)＝σ(b_j+w_ij*_vv)(1)、p(v_i＝1|h)＝σ(a_i+w_ji*_fh)(2)和对训练语音特征进行训练，调整可视层和隐藏层的偏置参数和两者之间的权重，获取原始卷积限制玻尔兹曼机。其中，θ＝{w_ij,a_i,b_j}，a_i为可视层的偏置参数，b_j为隐藏层的偏置参数，w_ij为第i个可视单元和第j个隐藏单元连接线上的权重，w_ji为第j个隐藏单元和第i个可视单元连接线上的权重，w_ji＝w_ij，σ表示sigmoid激活函数，*v表示有效卷积，*f为全卷积符号，v和h分别表示可视层和隐藏层的状态。

S403：对原始卷积限制玻尔兹曼机进行堆叠处理，获取卷积深度置信网络模型。

在获取原始卷积限制玻尔兹曼机后，对原始卷积限制玻尔兹曼机进行堆叠处理，即将第一个有效卷积限制玻尔兹曼机的输出数据作为第二个原始卷积限制玻尔兹曼机的输入数据，将第二个有效卷积限制玻尔兹曼机的输出数据作为第三个原始卷积限制玻尔兹曼机的输入数据，依此类推，多个原始卷积限制玻尔兹曼机生成一个卷积深度置信网络模型。

将已经区分好的标准训练语音数据和干扰训练语音数据输入到卷积深度置信网络模型中，通过卷积限制玻尔兹曼机(CRBM)中的相关公式(步骤S402中的相关公式)对卷积深度置信网络模型中的偏置参数和权重进行迭代更新，获取原始卷积限制玻尔兹曼机。然后对原始卷积限制玻尔兹曼机进行堆叠处理，获取卷积深度置信网络模型，使得卷积深度置信网络模型不断地进行更新，提高卷积深度置信网络模型的识别准确性。

在一实施例中，如图7所示，步骤S403，对原始卷积限制玻尔兹曼机进行堆叠处理，获取卷积深度置信网络模型，具体包括如下步骤：

S4031：对原始卷积限制玻尔兹曼机进行概率最大池化处理和稀疏正则化处理，获取有效卷积限制玻尔兹曼机。

具体地，卷积深度置信网络模型在对原始卷积限制玻尔兹曼机进行堆叠处理时，可能会出现过度拟合和重叠的情况。其中，过度拟合是指在使用卷积深度置信网络模型识别待测试语音数据的过程中，若输入的待测试语音数据为训练模型时使用的待训练语音数据时，识别准确率非常高，若输入的待测试语音数据为非训练语音数据时，识别准确率非常低的情况。重叠是指相邻的原始卷积限制玻尔兹曼机会出现重叠的情况。因此，在原始卷积限制玻尔兹曼机对叠成卷积深度置信网络模型时，还需要对原始卷积限制玻尔兹曼机进行概率最大池化处理和稀疏正则化处理，避免原始卷积限制玻尔兹曼机出现过度拟合和重叠的情况。其中，概率最大池化处理是为了防止出现重叠的情况进行的处理操作；稀疏正则化处理是为了防止出现过拟合的情况进行的处理操作。对原始卷积限制玻尔兹曼机进行概率最大池化处理和稀疏正则化处理可以有效减少堆叠处理的处理量，同时提高卷积限制玻尔兹曼机的识别准确性。

S4032：对有效卷积限制玻尔兹曼机进行堆叠处理，获取卷积深度置信网络模型。

在经过概率最大池化处理和稀疏正则化处理后，对获取的有效卷积限制玻尔兹曼机进行堆叠处理，获取卷积深度置信网络模型。本实施例中，获取到的卷积深度置信网络模型环境适应能力更加完善，可避免过度拟合和重叠的情况出现，使其对任何待测试语音数据的识别更加准确。

在一实施例中，如图8所示，步骤S40，将待测试语音特征输入到预先训练好的卷积深度置信网络模型中进行识别，获取语音区分结果，具体包括如下步骤：

S41：将待测试语音特征输入到预先训练好的卷积深度置信网络模型中进行识别，获取语音识别概率值。

将待测试语音特征输入到预先训练好的卷积深度置信网络模型中进行识别，根据卷积深度置信网络模型的识别过程，待测试语音特征输出的是一个概率值，该概率值即为获取的语音识别概率值。

进一步地，将待测试语音特征输入到预先训练好的卷积深度置信网络模型中时，为了减少卷积深度置信网络模型的计算量，同时为了提高识别待测试语音特征的准确性，卷积深度置信网络模型会在识别之前对待测试语音进行划分，将待测试语音数据中的单帧语音数据按相同数量划分为至少两个语音片段进行识别。卷积深度置信网络模型对每个语音片段对应的待测试语音特征进行识别，获取每个语音片段的语音识别概率值。然后对至少两个语音片段的语音识别概率值进行求均值计算，获取到的均值即为待测试语音数据对应的语音识别概率值。其中，语音片段是指含有多个单帧语音数据的片段。

S42：基于语音识别概率值获取语音区分结果。

获取语音识别概率值后，卷积深度置信网络模型会基于预先设置好的预设概率值对每个组的语音识别概率值进行比较，小于预设概率值的语音片段为干扰语音，大于等于预设概率值的语音片段为目标语音。进一步地，卷积深度置信网络模型会在获取语音识别概率值后，会将识别概率值小于预设概率值的语音片段去除，仅保留识别概率值大于预设概率值的语音片段。使得待测语音数据仅保留目标语音对应的待测试语音数据。

基于预设概率值判断待测试语音数据中的目标语音和干扰语音，并将干扰语音对应的待测试语音数据去除，保留目标语音对应的待测试语音数据，实现了区分待测试语音数据中的目标语音和干扰语音的功能。

对原始测试语音数据进行预加重、分帧和加窗处理，获取预处理语音数据，然后，通过短时能量特征值和短时过零率对该预处理语音数据进行端点检测处理，获取待测试语音数据，可以初步去除干扰语音对应的待测试语音数据，有效减少卷积深度置信网络模型对待测试语音数据进行识别的处理时间。对待测试语音数据进行特征提取，获取待测试语音特征，并将待测试语音特征输入到预先训练好的卷积深度置信网络模型中进行识别，获取语音区分结果，提高了语音区分的准确性，使得获取的语音区分结果更加准确。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种语音区分装置，该语音区分装置与上述实施例中语音区分方法一一对应。如图9所示，该语音区分装置包括原始测试语音数据处理模块10、待测试语音数据获取模块20、待测试语音特征获取模块30和语音区分结果获取模块40。其中，原始测试语音数据处理模块10、待测试语音数据获取模块20、待测试语音特征获取模块30和语音区分结果获取模块40的实现功能与上述实施例中语音区分方法对应的步骤一一对应，为避免赘述，本实施例不一一详述。

原始测试语音数据处理模块10，用于获取原始测试语音数据，对原始测试语音数据进行预处理，获取预处理语音数据。

待测试语音数据获取模块20，用于对预处理语音数据进行端点检测处理，获取待测试语音数据。

待测试语音特征获取模块30，用于对待测试语音数据进行特征提取，获取待测试语音特征。

语音区分结果获取模块40，用于将待测试语音特征输入到预先训练好的卷积深度置信网络模型中进行识别，获取语音区分结果。

具体地，原始测试语音数据处理模块10包括第一处理单元11和第二处理单元12。

第一处理单元11，用于对原始测试语音数据进行预加重处理，预加重处理的公式为s'_n＝s_n-a*s_n-1，其中，s'_n为预加重处理后的n时刻的语音信号幅度，s_n为n时刻的语音信号幅度，s_n-1为n-1时刻的语音信号幅度，a为预加重系数。

第二处理单元12，用于对预加重处理后的原始测试语音数据进行分帧处理，获取分帧语音数据。

第三处理单元13，用于对分帧语音数据进行加窗处理，获取预处理语音数据，加窗处理的公式为和s″_n＝w_n*s′_n，其中，w_n为n时刻的汉明窗，N为汉明窗窗长，s'_n为n时刻时域上的信号幅度，s'_n'为n时刻加窗后时域上的信号幅度。

具体地，待测试语音数据获取模块20包括第一测试语音数据获取单元21、第二测试语音数据获取单元22和待测试语音数据获取单元23。

第一测试语音数据获取单元21，用于采用短时能量特征值计算公式对预处理语音数据进行处理，获取预处理语音数据对应的短时能量特征值，并将短时能量特征值小于第一阈值的预处理语音数据去除，获取第一测试语音数据，短时能量特征值计算公式为其中，N为预处理语音数据中帧的个数，N≥2，s(n)为时域上第n帧预处理语音数据的信号幅度。

第二测试语音数据获取单元22，用于采用短时过零率计算公式对预处理语音数据进行处理，获取预处理语音数据对应的短时过零率，并将短时过零率小于第二阈值的预处理语音数据去除，获取第二测试语音数据，短时过零率计算公式为其中，N为预处理语音数据中帧的个数，N≥2，s(n)为时域上第n帧语音数据的信号幅度。

待测试语音数据获取单元23，用于对第一测试语音数据和第二测试语音数据进行去噪音处理，获取待测试语音数据。

具体地，待测试语音数据包括单帧语音数据。

待测试语音特征获取模块30包括功率谱获取单元31、梅尔频谱获取单元32和待测试语音特征获取单元33。

功率谱获取单元31，用于对单帧语音数据进行快速傅里叶变换处理，获取待测试语音数据的功率谱。

梅尔频谱获取单元32，用于采用梅尔滤波器组对功率谱进行降维处理，获取梅尔频谱。

待测试语音特征获取单元33，用于对梅尔频谱进行倒谱分析，获取待测试语音特征。

具体地，该语音区分装置还用于预先训练卷积深度置信网络模型。

该语音区分装置还包括待训练语音数据获取单元401、模型训练单元402和模型获取单元403。

待训练语音数据获取单元401，用于获取待训练语音数据，待训练语音数据包括标准训练语音数据和干扰训练语音数据。

模型训练单元402，用于将标准训练语音数据和干扰训练语音数据按同等比例输入到卷积深度置信网络模型中进行模型训练，获取原始卷积限制玻尔兹曼机。

模型获取单元403，用于对原始卷积限制玻尔兹曼机进行堆叠处理，获取卷积深度置信网络模型。

具体地，模型获取单元403包括池化和正则处理单元4031和堆叠处理单元4032。

池化和正则处理单元4031，用于对原始卷积限制玻尔兹曼机进行概率最大池化处理和稀疏正则化处理，获取有效卷积限制玻尔兹曼机。

堆叠处理单元4032，用于对有效卷积限制玻尔兹曼机进行堆叠处理，获取卷积深度置信网络模型。

具体地，语音区分结果获取模块40包括语音识别概率值获取单元41和语音区分结果获取单元42。

语音识别概率值获取单元41，用于将待测试语音特征输入到预先训练好的卷积深度置信网络模型中进行识别，获取语音识别概率值。

语音区分结果获取单元42，用于基于语音识别概率值获取语音区分结果。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储语音区分方法过程中获取的或者生成的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音区分方法。

在一实施例中，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：获取原始测试语音数据，对原始测试语音数据进行预处理，获取预处理语音数据；对预处理语音数据进行端点检测处理，获取待测试语音数据；对待测试语音数据进行特征提取，获取待测试语音特征；将待测试语音特征输入到预先训练好的卷积深度置信网络模型中进行识别，获取语音区分结果。

在一实施例中，处理器执行计算机程序时还实现以下步骤：对原始测试语音数据进行预加重处理，预加重处理的公式为s'_n＝s_n-a*s_n-1，其中，s'_n为预加重处理后的n时刻的语音信号幅度，s_n为n时刻的语音信号幅度，s_n-1为n-1时刻的语音信号幅度，a为预加重系数；对预加重处理后的原始测试语音数据进行分帧处理，获取分帧语音数据；对分帧语音数据进行加窗处理，获取预处理语音数据，加窗处理的公式为和s″_n＝w_n*s′_n，其中，w_n为n时刻的汉明窗，N为汉明窗窗长，s'_n为n时刻时域上的信号幅度，s'_n'为n时刻加窗后时域上的信号幅度。

在一实施例中，处理器执行计算机程序时还实现以下步骤：采用短时能量特征值计算公式对预处理语音数据进行处理，获取预处理语音数据对应的短时能量特征值，并将短时能量特征值小于第一阈值的预处理语音数据去除，获取第一测试语音数据，短时能量特征值计算公式为其中，N为预处理语音数据中帧的个数，N≥2，s(n)为时域上第n帧预处理语音数据的信号幅度；采用短时过零率计算公式对预处理语音数据进行处理，获取预处理语音数据对应的短时过零率，并将短时过零率小于第二阈值的预处理语音数据去除，获取第二测试语音数据，短时过零率计算公式为其中，N为预处理语音数据中帧的个数，N≥2，s(n)为时域上第n帧语音数据的信号幅度；对第一测试语音数据和第二测试语音数据进行去噪音处理，获取待测试语音数据。

在一实施例中，处理器执行计算机程序时还实现以下步骤：对单帧语音数据进行快速傅里叶变换处理，获取待测试语音数据的功率谱；采用梅尔滤波器组对功率谱进行降维处理，获取梅尔频谱；对梅尔频谱进行倒谱分析，获取待测试语音特征。

在一实施例中，处理器执行计算机程序时还实现以下步骤：预先训练卷积深度置信网络模型。具体地，预先训练卷积深度置信网络模型，包括：获取待训练语音数据，待训练语音数据包括标准训练语音数据和干扰训练语音数据；将标准训练语音数据和干扰训练语音数据按同等比例输入到卷积深度置信网络模型中进行模型训练，获取原始卷积限制玻尔兹曼机；对原始卷积限制玻尔兹曼机进行堆叠处理，获取卷积深度置信网络模型。

在一实施例中，处理器执行计算机程序时还实现以下步骤：对原始卷积限制玻尔兹曼机进行概率最大池化处理和稀疏正则化处理，获取有效卷积限制玻尔兹曼机；对有效卷积限制玻尔兹曼机进行堆叠处理，获取卷积深度置信网络模型。

在一实施例中，处理器执行计算机程序时还实现以下步骤：将待测试语音特征输入到预先训练好的卷积深度置信网络模型中进行识别，获取语音识别概率值；基于语音识别概率值获取语音区分结果。

在一个实施例中，提供了一种非易失性存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取原始测试语音数据，对原始测试语音数据进行预处理，获取预处理语音数据；对预处理语音数据进行端点检测处理，获取待测试语音数据；对待测试语音数据进行特征提取，获取待测试语音特征；将待测试语音特征输入到预先训练好的卷积深度置信网络模型中进行识别，获取语音区分结果。

在一实施例中，计算机程序被处理器执行时还实现以下步骤：对原始测试语音数据进行预加重处理，预加重处理的公式为s'_n＝s_n-a*s_n-1，其中，s'_n为预加重处理后的n时刻的语音信号幅度，s_n为n时刻的语音信号幅度，s_n-1为n-1时刻的语音信号幅度，a为预加重系数；对预加重处理后的原始测试语音数据进行分帧处理，获取分帧语音数据；对分帧语音数据进行加窗处理，获取预处理语音数据，加窗处理的公式为和s″_n＝w_n*s′_n，其中，w_n为n时刻的汉明窗，N为汉明窗窗长，s'_n为n时刻时域上的信号幅度，s'_n'为n时刻加窗后时域上的信号幅度。

在一实施例中，计算机程序被处理器执行时还实现以下步骤：采用短时能量特征值计算公式对预处理语音数据进行处理，获取预处理语音数据对应的短时能量特征值，并将短时能量特征值小于第一阈值的预处理语音数据去除，获取第一测试语音数据，短时能量特征值计算公式为其中，N为预处理语音数据中帧的个数，N≥2，s(n)为时域上第n帧预处理语音数据的信号幅度；采用短时过零率计算公式对预处理语音数据进行处理，获取预处理语音数据对应的短时过零率，并将短时过零率小于第二阈值的预处理语音数据去除，获取第二测试语音数据，短时过零率计算公式为其中，N为预处理语音数据中帧的个数，N≥2，s(n)为时域上第n帧语音数据的信号幅度；对第一测试语音数据和第二测试语音数据进行去噪音处理，获取待测试语音数据。

在一实施例中，计算机程序被处理器执行时还实现以下步骤：对单帧语音数据进行快速傅里叶变换处理，获取待测试语音数据的功率谱；采用梅尔滤波器组对功率谱进行降维处理，获取梅尔频谱；对梅尔频谱进行倒谱分析，获取待测试语音特征。

在一实施例中，计算机程序被处理器执行时还实现以下步骤：预先训练卷积深度置信网络模型。具体地，预先训练卷积深度置信网络模型，包括：获取待训练语音数据，待训练语音数据包括标准训练语音数据和干扰训练语音数据；将标准训练语音数据和干扰训练语音数据按同等比例输入到卷积深度置信网络模型中进行模型训练，获取原始卷积限制玻尔兹曼机；对原始卷积限制玻尔兹曼机进行堆叠处理，获取卷积深度置信网络模型。

在一实施例中，计算机程序被处理器执行时还实现以下步骤：对原始卷积限制玻尔兹曼机进行概率最大池化处理和稀疏正则化处理，获取有效卷积限制玻尔兹曼机；对有效卷积限制玻尔兹曼机进行堆叠处理，获取卷积深度置信网络模型。

在一实施例中，计算机程序被处理器执行时还实现以下步骤：将待测试语音特征输入到预先训练好的卷积深度置信网络模型中进行识别，获取语音识别概率值；基于语音识别概率值获取语音区分结果。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于计算机设备上的非易失性存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种语音区分方法，其特征在于，包括：

2.如权利要求1所述的语音区分方法，其特征在于，所述对所述原始测试语音数据进行预处理，获取预处理语音数据，包括：

对所述原始测试语音数据进行预加重处理，所述预加重处理的公式为s'_n＝s_n-a*s_n-1，其中，s'_n为预加重处理后的n时刻的语音信号幅度，s_n为n时刻的语音信号幅度，s_n-1为n-1时刻的语音信号幅度，a为预加重系数；

对预加重处理后的原始测试语音数据进行分帧处理，获取分帧语音数据；

对所述分帧语音数据进行加窗处理，获取预处理语音数据，所述加窗处理的公式为和s″_n＝w_n*s′_n，其中，w_n为n时刻的汉明窗，N为汉明窗窗长，s'_n为n时刻时域上的信号幅度，s″_n为n时刻加窗后时域上的信号幅度。

3.如权利要求2所述的语音区分方法，其特征在于，所述对所述预处理语音数据进行端点检测处理，获取待测试语音数据，包括：

采用短时能量特征值计算公式对所述预处理语音数据进行处理，获取所述预处理语音数据对应的短时能量特征值，并将所述短时能量特征值小于第一阈值的预处理语音数据去除，获取第一测试语音数据，短时能量特征值计算公式为其中，N为预处理语音数据中帧的个数，N≥2，s(n)为时域上第n帧预处理语音数据的信号幅度；

采用短时过零率计算公式对所述预处理语音数据进行处理，获取所述预处理语音数据对应的短时过零率，并将所述短时过零率小于第二阈值的预处理语音数据去除，获取第二测试语音数据，短时过零率计算公式为其中，N为预处理语音数据中帧的个数，N≥2，s(n)为时域上第n帧语音数据的信号幅度；

对所述第一测试语音数据和所述第二测试语音数据进行去噪音处理，获取待测试语音数据。

4.如权利要求1所述的语音区分方法，其特征在于，所述待测试语音数据包括单帧语音数据；

所述对所述待测试语音数据进行特征提取，获取待测试语音特征，包括

对所述单帧语音数据进行快速傅里叶变换处理，获取待测试语音数据的功率谱；

采用梅尔滤波器组对所述功率谱进行降维处理，获取梅尔频谱；

对所述梅尔频谱进行倒谱分析，获取所述待测试语音特征。

5.如权利要求1所述的语音区分方法，其特征在于，在所述将所述待测试语音特征输入到预先训练好的卷积深度置信网络模型中进行识别的步骤之前，所述语音区分方法还包括：预先训练卷积深度置信网络模型；

所述预先训练卷积深度置信网络模型，包括：

获取待训练语音数据，所述待训练语音数据包括标准训练语音数据和干扰训练语音数据；

将所述标准训练语音数据和所述干扰训练语音数据按同等比例输入到卷积深度置信网络模型中进行模型训练，获取原始卷积限制玻尔兹曼机；

对所述原始卷积限制玻尔兹曼机进行堆叠处理，获取卷积深度置信网络模型。

6.如权利要求5所述的语音区分方法，其特征在于，所述对所述原始卷积限制玻尔兹曼机进行堆叠处理，获取卷积深度置信网络模型，包括：

对所述原始卷积限制玻尔兹曼机进行概率最大池化处理和稀疏正则化处理，获取有效卷积限制玻尔兹曼机；

对所述有效卷积限制玻尔兹曼机进行堆叠处理，获取卷积深度置信网络模型。

7.如权利要求1所述的语音区分方法，其特征在于，所述将所述待测试语音特征输入到预先训练好的卷积深度置信网络模型中进行识别，获取语音区分结果，包括：

将所述待测试语音特征输入到预先训练好的卷积深度置信网络模型中进行识别，获取语音识别概率值；

基于语音识别概率值获取语音区分结果。

8.一种语音区分装置，其特征在于，包括：

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述语音区分方法的步骤。

10.一种非易失性存储介质，所述非易失性存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述语音区分方法的步骤。