CN111091840A

CN111091840A - 一种建立性别识别模型的方法及性别识别方法

Info

Publication number: CN111091840A
Application number: CN201911313441.6A
Authority: CN
Inventors: 王磊
Original assignee: Zhejiang Baiying Technology Co Ltd
Current assignee: Zhejiang Baiying Technology Co Ltd
Priority date: 2019-12-19
Filing date: 2019-12-19
Publication date: 2020-05-01

Abstract

本发明公开了一种建立性别识别模型的方法，所述方法包括：收集语料，对所述语料进行男女声音的打标；提取所述语料中的mfcc和filterbank特征；根据所述语料中的mfcc和fil terbank特征，对待训练的ResCNN神经网络模型进行神经网络训练；将所述训练好的ResCN N神经网络模型作为性别识别模型。

Description

一种建立性别识别模型的方法及性别识别方法

技术领域

本发明涉及深度学习领域，尤其涉及一种建立性别识别模型的方法及性别识别方法。

背景技术

人脸识别，是基于人的脸部特征信息进行身份识别的一种生物识别技术。用摄像机或摄像头采集含有人脸的图像或视频流，并自动在图像中检测和跟踪人脸，进而对检测到的人脸进行脸部识别的一系列相关技术，通常也叫做人像识别、面部识别。目前大部分的性别识别都采用人脸识别的方法，但在智能外呼的场景中，无法通过摄像头去获取人脸图像，而声纹识别技术可以对人的性别进行识别，只需根据客户的通话声音即可实时甄别其性别，方便后续有针对性的话术调整，定制客户个性化的需求，同时可以健全用户画像。

现有市面上采用多模型融合的传统机器学习方法进行声纹识别判断一个人的性别，不仅特征提取困难，算法复杂，而且模型比较重，预测的响应慢、无法达到实时预测的效果。因此本发明意欲提供一种建立性别识别模型的方法及性别识别方法，不仅简单而且识别精度高。

发明内容

本发明要解决的技术问题，在于提供一种建立性别识别模型的方法及性别识别方法，能够满足外呼场景对性别识别的需求，同时性别识别方式不受场景的约束，例如光照条件、年龄、人脸的遮盖物以及化妆影响。

第一方面，本发明提供一种建立性别识别模型的方法，所述方法包括：

收集语料，对所述语料进行男女声音的打标；

提取所述语料中的mfcc和filterbank特征；

根据所述语料中的mfcc和filterbank特征，对待训练的ResCNN神经网络模型进行神经网络训练；

将所述训练好的ResCNN神经网络模型作为性别识别模型。

在上述方案中，所述对待训练的ResCNN神经网络模型进行神经网络训练还包括：

使用softmax作为ResCNN神经网络模型的输出层函数，交叉熵作为损失函数，利用随机梯度下降算法进行神经网络训练。

第二方面，本发明提供一种基于上述第一方面任一项所述建立性别识别模型的方法的性别识别方法，所述性别识别方法包括：

获取待识别语音文件，对所述待识别语音文件进行vad预处理，根据静音部分将所述待识别语音文件切分成至少一份音频；

将所述至少一份音频转换成域谱矩阵，提取所述至少一份音频特征输入所述性别识别模型；

所述性别识别模型隐藏层最后一层的输出结果为所述至少一份音频的性别识别结果，所述性别识别结果为至少一份d-vector；

取所述至少一份d-vector的平均值作为待识别语音文件的映射；

将所述至少一份d-vector的平均值与d-vector1、d-vector2作余弦相似度比较，输出相似度高的结果，所述d-vector1、d-vector2分别为男性和女性声纹的映射；

根据输出结果，进行性别打标。

在上述方案中，所述方法还包括：在时间频域上，切除待识别语音的静音部分，获得切分后的若干份音频。

在上述方案中，所述输出相似度高的结果为输出d-vector1或输出d-vector2，所述d-vector1对应男性声纹的映射，所述d-vector2对应女性声纹的映射。

本发明的有益效果是：

基于上述技术方案，本发明实施例建立基于神经网络模型的性别识别模型和性别识别方法，识别用户的性别。本发明运用深度学习技术，只需少量的语料即可训练出一个基于神经网络模型的性别识别模型，通过对神经网络模型隐藏层最后一层输出标记为声纹的映射实现男女性别识别，且识别率达98％以上；且基于本发明提供的性别识别模型的性别识别可做到实时识别，在线上使用，可做到毫秒响应，另外本发明提供的性别识别模型维护成本低，只需要收集badcase，重新训练模型即可不断地更新与维护模型。

附图说明

图1为本发明一实施例的一种建立性别识别模型的方法的流程示意图；

图2为本发明一实施例的一种基于建立性别识别模型的方法的性别识别方法的流程示意图。

具体实施方式

下面通过具体实施例，并结合附图，对本发明的技术方案作进一步的具体描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

现有的人脸识别，一来无法满足外呼场景的需求，同时人脸识别还受场景的约束，例如光照条件、年龄、人脸的遮盖物以及化妆影响。但声纹识别技术不会受这些因素影响，每个人讲话时的发声器差异很大，所以每个人的声纹图都有差异，因此使用声纹识别取判断一个人的性别是可行的，并且精度更高。目前市面上多模型融合的传统机器学习方法，不仅特征提取困难，算法复杂，而且模型比较重，预测的响应慢、无法达到实时预测的效果。

基于上述通过传统机器学习方法获得的识别模型预测速度慢、无法达到实时预测的效果，本发明实施例将对本发明提供的一种建立性别识别模型的方法及性别识别方法进行说明。

如附图1所示为本发明提供的一种建立性别识别模型的方法，包括：

S101，收集语料，对所述语料进行男女声音的打标；

S102，提取所述语料中的mfcc和filterbank特征；

S103，根据所述语料中的mfcc和filterbank特征，对待训练的ResCNN神经网络模型进行神经网络训练；

S104，将所述训练好的ResCNN神经网络模型作为性别识别模型。

可选地，所述对待训练的ResCNN神经网络模型进行神经网络训练还包括：

可以理解，在对ResCNN神经网络模型进行神经网络训练时，需要预先确定目标函数，也就是损失函数，损失函数的选择可以有多种，本发明所解决的问题是性别识别的问题，本质上是二分类问题，对应的损失函数为0-1损失，在本发明一实施例中采用softmax作为输出层函数以获得每个输出都是以概率的形式表示，而以softmax作为输出层函数的神经网络模型，采用交叉熵作为损失函数最为合适。

基于上述技术方案，本发明实施例通过对ResCNN神经网络模型进行神经网络训练得到训练好的ResCNN神经网络模型作为性别识别模型，通过输入男性或女性的语料提取的mfcc和filterbank特征，ResCNN神经网络模型输出男性或女性的标签，ResCNN神经网络模型通过不断地反向传播提高输出准确率，进行ResCNN神经网络模型迭代参数，以获得训练好的ResCNN神经网络模型。

可以理解，可以通过设置参数的迭代次数或设置判断性别的准确率以判断ResCNN神经网络模型是否已经训练完毕，当参数的迭代次数超过规定上限后，判断ResCNN神经网络模型已经训练完毕，或者判断性别准确率达到一定百分比后，判断ResCNN神经网络模型已经训练完毕。

附图2是为本发明提供的一种基于上述实施例所述建立性别识别模型的方法的性别识别方法，所述性别识别方法包括：

S201，获取待识别语音文件，对所述待识别语音文件进行vad预处理，根据静音部分将所述待识别语音文件切分成至少一份音频；

S202，将所述至少一份音频转换成域谱矩阵，提取所述至少一份音频特征输入所述性别识别模型；

S203，所述性别识别模型隐藏层最后一层的输出结果为所述至少一份音频的性别识别结果，所述性别识别结果为至少一份d-vector；

S204，取所述至少一份d-vector的平均值作为待识别语音文件的映射；

S205，将所述至少一份d-vector的平均值与d-vector1、d-vector2作余弦相似度比较，输出相似度高的结果，所述d-vector1、d-vector2分别为男性和女性声纹的映射；

S206，根据输出结果，进行性别打标。

可选地，所述方法还包括：在时间频域上，切除待识别语音的静音部分，获得切分后的若干份音频。

可以理解，将待识别语音的时域作为X轴，待识别语音的声压作为Y轴建立一个二维的坐标系，由于语音信号是持续波动的信号，一段语音信号在二维坐标系的表现形式为存在至少一个有效音频段以及大于等于0个的静音段，将待识别语音文件中大于等于0个的静音段进行切除，获得至少一个有效音频段，每一个有效音频段分别作为性别识别模型的输入，获得每一个有效音频段对应的性别识别模型的最后一个隐藏层的输出，记为d-vector，取所有有效音频对应的d-vector的平均值与男性、女性声纹映射作余弦相似度比较，将相似度高的比较结果作为输出结果。

可选地，所述输出相似度高的结果为输出d-vector1或输出d-vector2，所述d-vector1对应男性声纹的映射，所述d-vector2对应女性声纹的映射。

基于上述技术方案，本发明实施例利用训练好的性别识别模型对待识别语音进行性别判断，通过性别识别模型的最后一个隐藏层的输出与男性、女性声纹映射作余弦相似度比较判断待识别语音的性别识别结果，实现了基于声纹特征实时和高精度识别说话人性别的技术效果。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，这些均属于本发明的保护范围之内。

Claims

1.一种建立性别识别模型的方法，其特征是，所述方法包括：

收集语料，对所述语料进行男女声音的打标；

提取所述语料中的mfcc和filterbank特征；

将所述训练好的ResCNN神经网络模型作为性别识别模型。

2.根据权利要求1所述的一种基于d-vector建立性别识别模型的方法，其特征是，所述对待训练的ResCNN神经网络模型进行神经网络训练还包括：

3.一种基于上述权利要求1-2任一项所述建立性别识别模型的方法的性别识别方法，其特征是，所述性别识别方法包括：

将所述若干份音频转换成域谱矩阵，提取所述至少一份音频特征输入所述性别识别模型；

所述性别识别模型隐藏层最后一层的输出结果为所述至少一份音频的性别识别结果，所述性别识别结果为若干份d-vector；

根据输出结果，进行性别打标。

4.根据权利要求3所述的一种性别识别方法，其特征是，所述方法还包括：在时间频域上，切除待识别语音的静音部分，获得切分后的至少一份音频。

5.根据权利要求3所述的一种性别识别方法，其特征是，所述输出相似度高的结果为输出d-vector1或输出d-vector2，所述d-vector1对应男性声纹的映射，所述d-vector2对应女性声纹的映射。