CN108962223A

CN108962223A - 一种基于深度学习的语音性别识别方法、设备及介质

Info

Publication number: CN108962223A
Application number: CN201810661799.7A
Authority: CN
Inventors: 叶志坚; 李稀敏; 肖龙源; 蔡振华; 刘晓葳; 谭玉坤
Original assignee: Xiamen Kuaishangtong Technology Corp ltd
Current assignee: Xiamen Kuaishangtong Technology Corp ltd
Priority date: 2018-06-25
Filing date: 2018-06-25
Publication date: 2018-12-07

Abstract

本发明公开了一种基于深度学习的语音性别识别方法、设备及介质，所述方法包括获取待检测的语音信息；从所述语音信息提取语音的声学特征；构建ResCNN神经网络模型；将所述声学特征输入所述ResCNN神经网络模型，获得性别概率p；将所述性别概率p与真实性别进行比较，构造交叉熵损失函数；根据所述交叉熵损失函数对所述ResCNN神经网络模型进行训练；利用训练好的ResCNN神经网络模型进行语音性别预测。本发明通过联合ResCNN神经网络架构和交叉熵损失函数，不但可以提高语音识别率，精确地识别某段语音的性别，并且减小整个模型大小。

Description

一种基于深度学习的语音性别识别方法、设备及介质

技术领域

本发明涉及性别识别领域，具体涉及一种基于深度学习的语音性别识别方法、计算机设备及计算机可读存储介质。

背景技术

目前大部分性别识别方法采用人脸识别的方式进行性别识别，需要摄像装置获取人脸图像，并根据脸部特征识别性别，然而人脸识别还受光照条件(例如白天和夜晚，室内和室外等)、人脸的很多遮盖物(例如口罩、墨镜、头发、胡须等)、年龄等多方面因素的影响，但是通过声纹识别技术对人的性别进行识别并不会受以上因素的影响，而且精确度高，只需要说话人的一句话即可验证该人的性别。所谓声纹即是用电声学仪器显示的携带言语信息的声波频谱。声纹生理图人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程，人在讲话时使用的发声器官舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大，所以任何两个人的声纹图谱都有差异，因此采用声纹识别去判断一个人的性别，准确度是相对较高的。然而现有的通过语音识别性别的算法较为复杂，本发明提供一种基于深度学习的语音识别性别方法，不仅简单而且识别精度高。

发明内容

本发明的目的在于克服现有技术问题，提出基于深度学习的方式从语音信息精确地实现性别的识别，鉴于此，本发明提供了一种基于深度学习的语音性别识别方法、设备及介质。

其中，本发明提供的一种基于深度学习的语音性别识别方法，包括如下步骤：

步骤一，获取待检测的语音信息；

步骤二，从所述语音信息提取语音的声学特征；

步骤三，构建ResCNN神经网络模型；

步骤四，将所述声学特征输入所述ResCNN神经网络模型，获得性别概率p；

步骤五，将所述性别概率p与真实性别进行比较，构造交叉熵损失函数；

步骤六，根据所述交叉熵损失函数对所述ResCNN神经网络模型进行训练；

步骤七，利用训练好的ResCNN神经网络模型进行语音性别预测。

进一步的，所述提取语音的声学特征过程包括将时域信号转换成时域-频域信息。在发明实施例中，优选地，采用短时傅里叶变换和梅尔频率倒谱系数将时域信号转换成时域-频域信息。

优选的，步骤四后，还将所述性别概率p进行softmax分类(1-p，p)，即概率p为0～1的二分类。

在本发明实施例中，按照如下构建ResCNN神经网络模型，卷积网络核的层数为16层：

第1层使用5×5的卷积核，通道数为64，步长为2；

3-8层为3个ResBlock残差块，卷积核为3×3，通道数为64，步长为1；

第9层使用5×5的卷积核，通道数为128，步长为2；

10-15层为3个ResBlock残差块，卷积核为3×3，通道数为128，步长为1；

接着在时间轴方向上做平均；

第16层为全连接层，输出节点数为512。

进一步的，所述构造交叉熵损失函数具体为：每一批训练样本包含M段语音样本，将预测的结果和真实的结果做比较构造一个交叉熵损失函数L，所述交叉熵损失函数公式为如下：

其中，y_i为第i段语音的真实性别，为第i句话预测性别，M表示声音样本数量，M为正整数且M≥1。

为了更快地收敛，本发明还在根据所述交叉熵损失函数对所述ResCNN神经网络模型进行训练后，还利用随机梯度下降算法进行神经网络训练。

在本发明实施例中，利用训练好的ResCNN神经网络模型进行语音性别预测，具体为，判断性别概率p是否大于等于设定阈值，若是则所述语音信息判断为男性语音，若概率p小于设定阈值，则所述语音信息判断为女性语音。

在本发明一实施例中，优选地，所述的设定阈值为0.5。

另外，本发明另一实施例中，还提供了一种计算机设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行上述的基于深度学习的语音性别识别方法。

另外，本发明另一实施例中，还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令被处理器执行时实现上述的基于深度学习的语音性别识别方法。

本发明提供的基于深度学习的语音性别识别方法、计算机设备及介质，与现有技术相比，本发明是通过联合上述ResCNN深度神经网络架构和交叉熵损失函数，不但可以提高语音识别率，精确的识别某段语音的性别，并且减小整个模型大小。

附图说明

此处所说明的附图用来提供对发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1本发明实施例1提供了一种基于深度学习的语音性别识别方法的流程示意图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白，以下结合附图和实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明提供了一种基于深度学习的语音性别识别方法，具体到性别识别的训练方式，本发明是简化版的ResCNN神经网络架构及交叉熵损失函数进行训练，可以有效提高识别的精度和降低训练的难度。具体实现方式如下：

本发明提供了一种基于深度学习的语音性别识别方法，如附图1所示，包括如下步骤：

步骤一，获取待检测的语音信息；

步骤二，从所述语音信息提取语音的声学特征；所述提取语音的声学特征过程包括将时域信号转换成时域-频域信息，在在发明实施例中，优选地，采用短时傅里叶变换和梅尔频率倒谱系数将时域信号转换成时域-频域信息。需要说明的是，本发明所述语音信息提取语音的声学特征还可以采用其它方式进行，不限于本发明所指的优选方式。

步骤三，构建ResCNN神经网络模型；

其中，按照如下构建ResCNN神经网络模型，卷积网络核的层数为16层：

第1层使用5×5的卷积核，通道数为64，步长为2；

第9层使用5×5的卷积核，通道数为128，步长为2；

接着在时间轴方向上做平均；

第16层为全连接层，输出节点数为512。

其中，y_i为第i段语音的真实性别，为第i句话预测性别，M表示声音样本数量，M为正整数且M≥1。需要说明的是，y_i为第i段语音的真实性别为0或者为1；为第i句话预测性别的概率p介于0和1之间。

softmax函数经常用于解决分类问题，其值对应于判别为该类的概率，所有值加起来刚好等于1。优选的，步骤四后，还将所述性别概率p进行softmax分类(1-p，p)，即概率p为0～1的二分类。

进一步的，为了更快地收敛，本发明还在根据所述交叉熵损失函数对所述ResCNN神经网络模型进行训练后，还利用随机梯度下降算法进行神经网络训练。作为本发明优选实施例，采用随机梯度下降算法(StochasticGradientDescent，简称SGD)能有效避免冗余计算，消耗时间更短。当然本领域技术人员还可以采用其它算法。

在本发明一实施例中，优选地，所述的设定阈值为0.5。

待检测的是男性语音或者女性语音，将该段语音经该神经网络训练出来得到的是0或1的一个判别结果，如果为1为男性语音，则0就是女性语音。

训练的时候，首先人为地给语音打上标签，并与神经网络预测的语音性别结果进行对比，如果神经网络预测结果是男性语音，事实上该段语音是女性声音则会产生一个误差，该误差为损失函数，然后经过随机梯度算法SGD或者其他的类似算法来训练，如果输出结果和标签不一致则继续训练，直到输出结果和标签的一致，之后就可以用这个训练完的神经网络架构去进行语音性别预测。

需要说明的是，本发明中，在神经网络中，将声音判别结果性别为男的设置为1，相应的性别为女的设置为0，则当预测结果为1为男性语音，预测结果为女性语音。也可以将声音将判别结果性别为女的设置为1，将性别为男的设置为0。

另外，本发明的另一实施例，还提供了一种计算机设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行上述的基于深度学习的语音性别识别方法。

另外，本发明的另一实施例，还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令被处理器执行时实现上述的基于深度学习的语音性别识别方法。

上述说明描述了本发明的优选实施例，但应当理解本发明并非局限于上述实施例，且不应看作对其他实施例的排除。通过本发明的启示，本领域技术人员结合公知或现有技术、知识所进行的改动也应视为在本发明的保护范围内。

Claims

1.一种基于深度学习的语音性别识别方法，其特征在于，包括如下步骤：

步骤一，获取待检测的语音信息；

步骤二，从所述语音信息提取语音的声学特征；

步骤三，构建ResCNN神经网络模型；

2.根据权利要求1所述的基于深度学习的语音性别识别方法，其特征在于，

所述提取语音的声学特征过程包括将时域信号转换成时域-频域信息。

3.根据权利要求1所述的基于深度学习的语音性别识别方法，其特征在于，

步骤四后，还将所述性别概率p进行softmax分类(1-p，p)，即概率p为0～1的二分类。

4.根据权利要求1所述的基于深度学习的语音性别识别方法，其特征在于，

按照如下构建ResCNN神经网络模型，卷积网络核的层数为16层：

第1层使用5×5的卷积核，通道数为64，步长为2；

第9层使用5×5的卷积核，通道数为128，步长为2；

接着在时间轴方向上做平均；

第16层为全连接层，输出节点数为512。

5.根据权利要求1所述的基于深度学习的语音性别识别方法，其特征在于，

所述构造交叉熵损失函数具体为：每一批训练样本包含M段语音样本，将预测的结果和真实的结果做比较构造一个交叉熵损失函数L，所述交叉熵损失函数公式为如下：

6.根据权利要求1所述的基于深度学习的语音性别识别方法，其特征在于，

根据所述交叉熵损失函数对所述ResCNN神经网络模型进行训练后，还利用随机梯度下降算法进行神经网络训练。

7.根据权利要求1所述的基于深度学习的语音性别识别方法，其特征在于，

利用训练好的ResCNN神经网络模型进行语音性别预测，具体为，判断性别概率p是否大于等于设定阈值，若是则所述语音信息判断为男性语音，若概率p小于设定阈值，则所述语音信息判断为女性语音。

8.根据权利要求7所述的基于深度学习的语音性别识别方法，其特征在于，

所述的设定阈值为0.5。

9.一种计算机设备，其特征在于，

所述计算机设备包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行权利要求1-8中任一项所述的基于深度学习的语音性别识别方法。

10.一种非暂态计算机可读存储介质，其特征在于，

所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令被处理器执行时实现如权利要求1-8任一所述的基于深度学习的语音性别识别方法。