CN111091840A - 一种建立性别识别模型的方法及性别识别方法 - Google Patents

一种建立性别识别模型的方法及性别识别方法 Download PDF

Info

Publication number
CN111091840A
CN111091840A CN201911313441.6A CN201911313441A CN111091840A CN 111091840 A CN111091840 A CN 111091840A CN 201911313441 A CN201911313441 A CN 201911313441A CN 111091840 A CN111091840 A CN 111091840A
Authority
CN
China
Prior art keywords
gender identification
neural network
model
gender
rescnn
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911313441.6A
Other languages
English (en)
Inventor
王磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Baiying Technology Co Ltd
Original Assignee
Zhejiang Baiying Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Baiying Technology Co Ltd filed Critical Zhejiang Baiying Technology Co Ltd
Priority to CN201911313441.6A priority Critical patent/CN111091840A/zh
Publication of CN111091840A publication Critical patent/CN111091840A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种建立性别识别模型的方法,所述方法包括:收集语料,对所述语料进行男女声音的打标;提取所述语料中的mfcc和filterbank特征;根据所述语料中的mfcc和fil terbank特征,对待训练的ResCNN神经网络模型进行神经网络训练;将所述训练好的ResCN N神经网络模型作为性别识别模型。

Description

一种建立性别识别模型的方法及性别识别方法
技术领域
本发明涉及深度学习领域,尤其涉及一种建立性别识别模型的方法及性别识别方法。
背景技术
人脸识别,是基于人的脸部特征信息进行身份识别的一种生物识别技术。用摄像机或摄像头采集含有人脸的图像或视频流,并自动在图像中检测和跟踪人脸,进而对检测到的人脸进行脸部识别的一系列相关技术,通常也叫做人像识别、面部识别。目前大部分的性别识别都采用人脸识别的方法,但在智能外呼的场景中,无法通过摄像头去获取人脸图像,而声纹识别技术可以对人的性别进行识别,只需根据客户的通话声音即可实时甄别其性别,方便后续有针对性的话术调整,定制客户个性化的需求,同时可以健全用户画像。
现有市面上采用多模型融合的传统机器学习方法进行声纹识别判断一个人的性别,不仅特征提取困难,算法复杂,而且模型比较重,预测的响应慢、无法达到实时预测的效果。因此本发明意欲提供一种建立性别识别模型的方法及性别识别方法,不仅简单而且识别精度高。
发明内容
本发明要解决的技术问题,在于提供一种建立性别识别模型的方法及性别识别方法,能够满足外呼场景对性别识别的需求,同时性别识别方式不受场景的约束,例如光照条件、年龄、人脸的遮盖物以及化妆影响。
第一方面,本发明提供一种建立性别识别模型的方法,所述方法包括:
收集语料,对所述语料进行男女声音的打标;
提取所述语料中的mfcc和filterbank特征;
根据所述语料中的mfcc和filterbank特征,对待训练的ResCNN神经网络模型进行神经网络训练;
将所述训练好的ResCNN神经网络模型作为性别识别模型。
在上述方案中,所述对待训练的ResCNN神经网络模型进行神经网络训练还包括:
使用softmax作为ResCNN神经网络模型的输出层函数,交叉熵作为损失函数,利用随机梯度下降算法进行神经网络训练。
第二方面,本发明提供一种基于上述第一方面任一项所述建立性别识别模型的方法的性别识别方法,所述性别识别方法包括:
获取待识别语音文件,对所述待识别语音文件进行vad预处理,根据静音部分将所述待识别语音文件切分成至少一份音频;
将所述至少一份音频转换成域谱矩阵,提取所述至少一份音频特征输入所述性别识别模型;
所述性别识别模型隐藏层最后一层的输出结果为所述至少一份音频的性别识别结果,所述性别识别结果为至少一份d-vector;
取所述至少一份d-vector的平均值作为待识别语音文件的映射;
将所述至少一份d-vector的平均值与d-vector1、d-vector2作余弦相似度比较,输出相似度高的结果,所述d-vector1、d-vector2分别为男性和女性声纹的映射;
根据输出结果,进行性别打标。
在上述方案中,所述方法还包括:在时间频域上,切除待识别语音的静音部分,获得切分后的若干份音频。
在上述方案中,所述输出相似度高的结果为输出d-vector1或输出d-vector2,所述d-vector1对应男性声纹的映射,所述d-vector2对应女性声纹的映射。
本发明的有益效果是:
基于上述技术方案,本发明实施例建立基于神经网络模型的性别识别模型和性别识别方法,识别用户的性别。本发明运用深度学习技术,只需少量的语料即可训练出一个基于神经网络模型的性别识别模型,通过对神经网络模型隐藏层最后一层输出标记为声纹的映射实现男女性别识别,且识别率达98%以上;且基于本发明提供的性别识别模型的性别识别可做到实时识别,在线上使用,可做到毫秒响应,另外本发明提供的性别识别模型维护成本低,只需要收集badcase,重新训练模型即可不断地更新与维护模型。
附图说明
图1为本发明一实施例的一种建立性别识别模型的方法的流程示意图;
图2为本发明一实施例的一种基于建立性别识别模型的方法的性别识别方法的流程示意图。
具体实施方式
下面通过具体实施例,并结合附图,对本发明的技术方案作进一步的具体描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
现有的人脸识别,一来无法满足外呼场景的需求,同时人脸识别还受场景的约束,例如光照条件、年龄、人脸的遮盖物以及化妆影响。但声纹识别技术不会受这些因素影响,每个人讲话时的发声器差异很大,所以每个人的声纹图都有差异,因此使用声纹识别取判断一个人的性别是可行的,并且精度更高。目前市面上多模型融合的传统机器学习方法,不仅特征提取困难,算法复杂,而且模型比较重,预测的响应慢、无法达到实时预测的效果。
基于上述通过传统机器学习方法获得的识别模型预测速度慢、无法达到实时预测的效果,本发明实施例将对本发明提供的一种建立性别识别模型的方法及性别识别方法进行说明。
如附图1所示为本发明提供的一种建立性别识别模型的方法,包括:
S101,收集语料,对所述语料进行男女声音的打标;
S102,提取所述语料中的mfcc和filterbank特征;
S103,根据所述语料中的mfcc和filterbank特征,对待训练的ResCNN神经网络模型进行神经网络训练;
S104,将所述训练好的ResCNN神经网络模型作为性别识别模型。
可选地,所述对待训练的ResCNN神经网络模型进行神经网络训练还包括:
使用softmax作为ResCNN神经网络模型的输出层函数,交叉熵作为损失函数,利用随机梯度下降算法进行神经网络训练。
可以理解,在对ResCNN神经网络模型进行神经网络训练时,需要预先确定目标函数,也就是损失函数,损失函数的选择可以有多种,本发明所解决的问题是性别识别的问题,本质上是二分类问题,对应的损失函数为0-1损失,在本发明一实施例中采用softmax作为输出层函数以获得每个输出都是以概率的形式表示,而以softmax作为输出层函数的神经网络模型,采用交叉熵作为损失函数最为合适。
基于上述技术方案,本发明实施例通过对ResCNN神经网络模型进行神经网络训练得到训练好的ResCNN神经网络模型作为性别识别模型,通过输入男性或女性的语料提取的mfcc和filterbank特征,ResCNN神经网络模型输出男性或女性的标签,ResCNN神经网络模型通过不断地反向传播提高输出准确率,进行ResCNN神经网络模型迭代参数,以获得训练好的ResCNN神经网络模型。
可以理解,可以通过设置参数的迭代次数或设置判断性别的准确率以判断ResCNN神经网络模型是否已经训练完毕,当参数的迭代次数超过规定上限后,判断ResCNN神经网络模型已经训练完毕,或者判断性别准确率达到一定百分比后,判断ResCNN神经网络模型已经训练完毕。
附图2是为本发明提供的一种基于上述实施例所述建立性别识别模型的方法的性别识别方法,所述性别识别方法包括:
S201,获取待识别语音文件,对所述待识别语音文件进行vad预处理,根据静音部分将所述待识别语音文件切分成至少一份音频;
S202,将所述至少一份音频转换成域谱矩阵,提取所述至少一份音频特征输入所述性别识别模型;
S203,所述性别识别模型隐藏层最后一层的输出结果为所述至少一份音频的性别识别结果,所述性别识别结果为至少一份d-vector;
S204,取所述至少一份d-vector的平均值作为待识别语音文件的映射;
S205,将所述至少一份d-vector的平均值与d-vector1、d-vector2作余弦相似度比较,输出相似度高的结果,所述d-vector1、d-vector2分别为男性和女性声纹的映射;
S206,根据输出结果,进行性别打标。
可选地,所述方法还包括:在时间频域上,切除待识别语音的静音部分,获得切分后的若干份音频。
可以理解,将待识别语音的时域作为X轴,待识别语音的声压作为Y轴建立一个二维的坐标系,由于语音信号是持续波动的信号,一段语音信号在二维坐标系的表现形式为存在至少一个有效音频段以及大于等于0个的静音段,将待识别语音文件中大于等于0个的静音段进行切除,获得至少一个有效音频段,每一个有效音频段分别作为性别识别模型的输入,获得每一个有效音频段对应的性别识别模型的最后一个隐藏层的输出,记为d-vector,取所有有效音频对应的d-vector的平均值与男性、女性声纹映射作余弦相似度比较,将相似度高的比较结果作为输出结果。
可选地,所述输出相似度高的结果为输出d-vector1或输出d-vector2,所述d-vector1对应男性声纹的映射,所述d-vector2对应女性声纹的映射。
基于上述技术方案,本发明实施例利用训练好的性别识别模型对待识别语音进行性别判断,通过性别识别模型的最后一个隐藏层的输出与男性、女性声纹映射作余弦相似度比较判断待识别语音的性别识别结果,实现了基于声纹特征实时和高精度识别说话人性别的技术效果。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,这些均属于本发明的保护范围之内。

Claims (5)

1.一种建立性别识别模型的方法,其特征是,所述方法包括:
收集语料,对所述语料进行男女声音的打标;
提取所述语料中的mfcc和filterbank特征;
根据所述语料中的mfcc和filterbank特征,对待训练的ResCNN神经网络模型进行神经网络训练;
将所述训练好的ResCNN神经网络模型作为性别识别模型。
2.根据权利要求1所述的一种基于d-vector建立性别识别模型的方法,其特征是,所述对待训练的ResCNN神经网络模型进行神经网络训练还包括:
使用softmax作为ResCNN神经网络模型的输出层函数,交叉熵作为损失函数,利用随机梯度下降算法进行神经网络训练。
3.一种基于上述权利要求1-2任一项所述建立性别识别模型的方法的性别识别方法,其特征是,所述性别识别方法包括:
获取待识别语音文件,对所述待识别语音文件进行vad预处理,根据静音部分将所述待识别语音文件切分成至少一份音频;
将所述若干份音频转换成域谱矩阵,提取所述至少一份音频特征输入所述性别识别模型;
所述性别识别模型隐藏层最后一层的输出结果为所述至少一份音频的性别识别结果,所述性别识别结果为若干份d-vector;
取所述至少一份d-vector的平均值作为待识别语音文件的映射;
将所述至少一份d-vector的平均值与d-vector1、d-vector2作余弦相似度比较,输出相似度高的结果,所述d-vector1、d-vector2分别为男性和女性声纹的映射;
根据输出结果,进行性别打标。
4.根据权利要求3所述的一种性别识别方法,其特征是,所述方法还包括:在时间频域上,切除待识别语音的静音部分,获得切分后的至少一份音频。
5.根据权利要求3所述的一种性别识别方法,其特征是,所述输出相似度高的结果为输出d-vector1或输出d-vector2,所述d-vector1对应男性声纹的映射,所述d-vector2对应女性声纹的映射。
CN201911313441.6A 2019-12-19 2019-12-19 一种建立性别识别模型的方法及性别识别方法 Pending CN111091840A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911313441.6A CN111091840A (zh) 2019-12-19 2019-12-19 一种建立性别识别模型的方法及性别识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911313441.6A CN111091840A (zh) 2019-12-19 2019-12-19 一种建立性别识别模型的方法及性别识别方法

Publications (1)

Publication Number Publication Date
CN111091840A true CN111091840A (zh) 2020-05-01

Family

ID=70396437

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911313441.6A Pending CN111091840A (zh) 2019-12-19 2019-12-19 一种建立性别识别模型的方法及性别识别方法

Country Status (1)

Country Link
CN (1) CN111091840A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111787170A (zh) * 2020-06-17 2020-10-16 北京捷通华声科技股份有限公司 外呼处理方法及装置
CN112581942A (zh) * 2020-12-29 2021-03-30 云从科技集团股份有限公司 一种基于语音识别目标对象的方法、系统、设备及介质
CN114863939A (zh) * 2022-07-07 2022-08-05 四川大学 一种基于声音的大熊猫属性识别方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108694954A (zh) * 2018-06-13 2018-10-23 广州势必可赢网络科技有限公司 一种性别年龄识别方法、装置、设备及可读存储介质
CN108962223A (zh) * 2018-06-25 2018-12-07 厦门快商通信息技术有限公司 一种基于深度学习的语音性别识别方法、设备及介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108694954A (zh) * 2018-06-13 2018-10-23 广州势必可赢网络科技有限公司 一种性别年龄识别方法、装置、设备及可读存储介质
CN108962223A (zh) * 2018-06-25 2018-12-07 厦门快商通信息技术有限公司 一种基于深度学习的语音性别识别方法、设备及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吴明辉等: "一种基于深度神经网络的话者确认方法", 《计算机应用与软件》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111787170A (zh) * 2020-06-17 2020-10-16 北京捷通华声科技股份有限公司 外呼处理方法及装置
CN112581942A (zh) * 2020-12-29 2021-03-30 云从科技集团股份有限公司 一种基于语音识别目标对象的方法、系统、设备及介质
CN114863939A (zh) * 2022-07-07 2022-08-05 四川大学 一种基于声音的大熊猫属性识别方法及系统
CN114863939B (zh) * 2022-07-07 2022-09-13 四川大学 一种基于声音的大熊猫属性识别方法及系统

Similar Documents

Publication Publication Date Title
CN105976809B (zh) 基于语音和面部表情的双模态情感融合的识别方法及系统
WO2021208287A1 (zh) 用于情绪识别的语音端点检测方法、装置、电子设备及存储介质
CN110136727B (zh) 基于说话内容的说话者身份识别方法、装置及存储介质
CN111524527B (zh) 话者分离方法、装置、电子设备和存储介质
CN105632501B (zh) 一种基于深度学习技术的自动口音分类方法及装置
CN111128223B (zh) 一种基于文本信息的辅助说话人分离方法及相关装置
CN102509547B (zh) 基于矢量量化的声纹识别方法及系统
CN109256150A (zh) 基于机器学习的语音情感识别系统及方法
CN112289323B (zh) 语音数据处理方法、装置、计算机设备和存储介质
CN107731233A (zh) 一种基于rnn的声纹识别方法
CN111091840A (zh) 一种建立性别识别模型的方法及性别识别方法
Chetty Biometric liveness checking using multimodal fuzzy fusion
CN102324232A (zh) 基于高斯混合模型的声纹识别方法及系统
CN110648667B (zh) 多人场景人声匹配方法
CN108735200A (zh) 一种说话人自动标注方法
CN113851136A (zh) 基于聚类的说话人识别方法、装置、设备及存储介质
CN111341350A (zh) 人机交互控制方法、系统、智能机器人及存储介质
CN105679323B (zh) 一种号码发现方法及系统
CN113113022A (zh) 一种基于说话人声纹信息的自动识别身份的方法
Sinha et al. Acoustic-phonetic feature based dialect identification in Hindi Speech
Pao et al. A study on the search of the most discriminative speech features in the speaker dependent speech emotion recognition
CN113744742A (zh) 对话场景下的角色识别方法、装置和系统
JP2015175859A (ja) パターン認識装置、パターン認識方法及びパターン認識プログラム
CN111785262B (zh) 一种基于残差网络及融合特征的说话人年龄性别分类方法
CN111462762B (zh) 一种说话人向量正则化方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200501

RJ01 Rejection of invention patent application after publication