CN110211569A - 基于语音图谱和深度学习的实时性别识别方法 - Google Patents

基于语音图谱和深度学习的实时性别识别方法 Download PDF

Info

Publication number
CN110211569A
CN110211569A CN201910612980.3A CN201910612980A CN110211569A CN 110211569 A CN110211569 A CN 110211569A CN 201910612980 A CN201910612980 A CN 201910612980A CN 110211569 A CN110211569 A CN 110211569A
Authority
CN
China
Prior art keywords
voice
deep learning
voice map
real
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910612980.3A
Other languages
English (en)
Inventor
王磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Baiying Technology Co Ltd
Original Assignee
Zhejiang Baiying Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Baiying Technology Co Ltd filed Critical Zhejiang Baiying Technology Co Ltd
Priority to CN201910612980.3A priority Critical patent/CN110211569A/zh
Publication of CN110211569A publication Critical patent/CN110211569A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及语音识别领域,尤其涉及于语音图谱和深度学习的实时性别识别方法,包括以下步骤:S1:基于深度学习算法建立模型;S2:语音对话过程中实时获取音频流;S3:将获取的音频流通过VAD切除静音部分;S4:通过fbank提取音频的数字特征;S5:将数字特征转换成语音图谱,将语音图谱通过模型进行性别预测,得到性别识别结果。本发明针对语音可以实时性别识别,同时提升了性别识别的准确率。

Description

基于语音图谱和深度学习的实时性别识别方法
技术领域
本发明涉及语音识别领域,尤其涉及基于语音图谱和深度学习的实时性别识别方法。
背景技术
随着大数据和深度学习技术的发展,语音识别和声纹识别越来越多的运用于各行各业,包括目标任务确认,语音开锁,智能语音机器人等行业,还包括智能人机交互,声控机器人,智能家居语音唤醒等,随着深度学习技术的不断发展,声纹识别和语音识别技术已经出现了很多影响人们生活的产品,越来越大的影响了人类生活。
而在性别识别这块也有一些传统的方法尝试,例如:直接基于声音的基音频率差异,按男女不同范围的基音频率识别男女;采用多个传统模型融合的方式去实现,特征不断变换多个融合模型共同发挥作用。但是这些方法存在以下问题:基音频率差异这种方式,因为男女本身的基音频率就存在交叉,而且由于个体的特殊性导致准确率特别低;多模型融合方式的过程往往特别复杂,模型可解释性不强,而且预测时间特别长,没办法做到实时的性别识别;对话的音频信息往往含有一些外界噪音和背景音,或者是第二个人的说话信息以上方法在这个场景下准确率低下;对话中含有大量的静音部分(包括对话中单声道填充和对话人本身的停顿部分),会影响识别的准确率。
发明内容
为解决上述问题,本发明提出涉及基于语音图谱和深度学习的实时性别识别方法。
基于语音图谱和深度学习的实时性别识别方法,包括以下步骤:
S1:基于深度学习算法建立模型;
S2:语音对话过程中实时获取音频流;
S3:将获取的音频流通过VAD切除静音部分;
S4:通过fbank提取音频的数字特征;
S5:将数字特征转换成语音图谱,将语音图谱通过模型进行性别预测,得到性别识别结果。
优选的,所述基于深度学习算法建立模型包括以下步骤:
S11:语音图谱结合打标标签生成样本信息,按照设定比例划分训练集合和测试集合;
S12:对语音图谱作归一化和正则化处理,保存样本集合的均值和方差信息;
S13:将训练集合输入给下游的resnet网络,重新训练网络最后一层和softmax层,多次循环,不断拟合神经网络的相关参数,直到损失达到阀值或者迭代次数达到预设值;
S14:用测试集合进行测试,若模型准确度达到预期值,则输出模型,否则调整参数或者样本信息重新训练模型。
优选的,所述语音图谱包括若干个768*32的二维数字矩阵。
优选的,所述语音图谱包括音频流的频域和时域信息。
本发明具备以下有益效果:
1.本发明通过VAD切除静音部分,提升了性别识别的准确率;
2.本发明采用语音图谱和深度学习结合的方案,利用迁移学习重新训练resnet网络,结合多个语音图谱综合计算概率的方式大大简化了整个识别过程;
3.在通话过程中,每一句话的实时识别,可以识别出一通对话中出现男女多个人的识别。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1是本发明一实施例一种涉及于语音图谱和深度学习的实时性别识别方法的流程示意图;
图2是本发明一实施例一种涉及于语音图谱和深度学习的实时性别识别方法中步骤S1的流程示意图。
具体实施方式
以下结合附图,对本发明的技术方案作进一步的描述,但本发明并不限于这些实施例。
基于以上构思及技术,本发明实施例提出一种涉及基于语音图谱和深度学习的实时性别识别方法,如图1所示,包括以下步骤:
S1:基于深度学习算法建立模型;
S2:语音对话过程中实时获取音频流;
S3:将获取的音频流通过VAD切除静音部分;
S4:通过fbank提取音频的数字特征;
S5:将数字特征转换成语音图谱,将语音图谱通过模型进行性别预测,得到性别识别结果。
深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。深度学习是机器学习中一种基于对数据进行表征学习的方法。观测值可以使用多种方式来表示,如每个像素强度值的向量,或者更抽象地表示成一系列边、特定形状的区域等。而使用某些特定的表示方法更容易从实例中学习任务(例如,人脸识别或语音识别)。
在本实施例中,基于深度学习算法建立模型,基于建立的模型来实现语音性别识别。具体的,如图2,包括以下步骤:
S11:语音图谱结合打标标签生成样本信息,按照设定比例划分训练集合和测试集合;
S12:对语音图谱作归一化和正则化处理,保存样本集合的均值和方差信息;
S13:将训练集合输入给下游的resnet网络,重新训练网络最后一层和softmax层,多次循环,不断拟合神经网络的相关参数,直到损失达到阀值或者迭代次数达到预设值;
S14:用测试集合进行测试,若模型准确度达到预期值,则输出模型,否则调整参数或者样本信息重新训练模型。
为实现语音对话过程中性别的实时识别,因此需要在语音的对话过程中实时获取音频流。
基于语音对话过程中存在静音部分,因此需要将静音部分切除以排除干扰,以提高本方法的识别准确度。在本实施例中,将获取的音频流通过VAD切除静音部分。
VAD的全称是:Voice Activity Detection(语音激活检测),能够区分传输语音信号中的语音信号和背景噪音,当然还能在通信中区分语音和静默段能够区分传输语音信号中的语音信号和背景噪音。
在切除静音部分之后,通过fbank提取音频的数字特征。具体包括以下步骤:
S31:预加重:通过一个一阶有限激励响应高通滤波器,使信号的频谱变得平坦,不易受到有限字长效应的影响;
S32:分帧:根据语音的短时平稳特性,语音可以以帧为单位进行处理,实验中选取的语音帧长为32ms,帧移为16ms;
S33:加窗:采用汉明窗对一帧语音加窗,以减小吉布斯效应的影响;
S34:快速傅立叶变换(Fast Fourier Transformation,FFT):将时域信号变换成为信号的功率谱(频域信号);
S35:梅尔滤波器组:用一组Mel频标上线性分布的三角窗滤波器(共24个三角窗滤波器),对信号的功率谱滤波,每一个三角窗滤波器覆盖的范围都近似于人耳的一个临界带宽,以此来模拟人耳的掩蔽效应。一般取40个三角滤波器,取对数后即40维fbank;
S36:求对数:三角窗滤波器组的输出求取对数,可以得到近似于同态变换的结果;
S37:得到数字特征。
将得到的数字特征转换成多个语音图谱,将多个语音图谱分别通过模型进行性别预测,得到性别识别结果。语音图谱包括若干个768*32的二维数字矩阵,同时包括音频流的频域和时域信息。最后按男女图谱计算概率,概率大于50%的类别即位最终的性别。
本发明通过步骤S1中基于深度学习训练得到的模型,结合多个语音图谱综合计算概率的方式大大简化了整个识别过程,识别准确度高。
本发明在实际应用中,可以通过智能终端采用python flask搭建web应用,然后加载模型文件,下载音频信息,vad切除静音,特征提取生成语音图谱,进行归一化和正则化,调用模型预测,按多个语音图谱的性别结果计算男女的概率,概率>50%即为男性,小于50%即为女性。
本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (4)

1.基于语音图谱和深度学习的实时性别识别方法,其特征在于,包括以下步骤:
S1:基于深度学习算法建立模型;
S2:语音对话过程中实时获取音频流;
S3:将获取的音频流通过VAD切除静音部分;
S4:通过fbank提取音频的数字特征;
S5:将数字特征转换成语音图谱,将语音图谱通过模型进行性别预测,得到性别识别结果。
2.根据权利要求1所述的基于语音图谱和深度学习的实时性别识别方法,其特征在于,所述基于深度学习算法建立模型包括以下步骤:
S11:语音图谱结合打标标签生成样本信息,按照设定比例划分训练集合和测试集合;
S12:对语音图谱作归一化和正则化处理,保存样本集合的均值和方差信息;
S13:将训练集合输入给下游的resnet网络,重新训练网络最后一层和softmax层,多次循环,不断拟合神经网络的相关参数,直到损失达到阀值或者迭代次数达到预设值;
S14:用测试集合进行测试,若模型准确度达到预期值,则输出模型,否则调整参数或者样本信息重新训练模型。
3.根据权利要求1所述的基于语音图谱和深度学习的实时性别识别方法,其特征在于,所述语音图谱包括若干个768*32的二维数字矩阵。
4.根据权利要求3所述的基于语音图谱和深度学习的实时性别识别方法,其特征在于,所述语音图谱包括音频流的频域和时域信息。
CN201910612980.3A 2019-07-09 2019-07-09 基于语音图谱和深度学习的实时性别识别方法 Pending CN110211569A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910612980.3A CN110211569A (zh) 2019-07-09 2019-07-09 基于语音图谱和深度学习的实时性别识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910612980.3A CN110211569A (zh) 2019-07-09 2019-07-09 基于语音图谱和深度学习的实时性别识别方法

Publications (1)

Publication Number Publication Date
CN110211569A true CN110211569A (zh) 2019-09-06

Family

ID=67796616

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910612980.3A Pending CN110211569A (zh) 2019-07-09 2019-07-09 基于语音图谱和深度学习的实时性别识别方法

Country Status (1)

Country Link
CN (1) CN110211569A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110705218A (zh) * 2019-10-11 2020-01-17 浙江百应科技有限公司 一种基于深度学习的外呼状态识别方式
CN111009262A (zh) * 2019-12-24 2020-04-14 携程计算机技术(上海)有限公司 语音性别识别的方法及系统
CN111723679A (zh) * 2020-05-27 2020-09-29 上海五零盛同信息科技有限公司 基于深度迁移学习的人脸和声纹认证系统及方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103514883A (zh) * 2013-09-26 2014-01-15 华南理工大学 一种自适应实现男女声切换方法
CN105095401A (zh) * 2015-07-07 2015-11-25 北京嘀嘀无限科技发展有限公司 一种性别识别的方法及装置
CN108765930A (zh) * 2018-06-26 2018-11-06 上海掌门科技有限公司 行车监控方法及设备
CN108806696A (zh) * 2018-05-08 2018-11-13 平安科技(深圳)有限公司 建立声纹模型的方法、装置、计算机设备和存储介质
CN108847224A (zh) * 2018-07-05 2018-11-20 广州势必可赢网络科技有限公司 一种声音墙画面显示方法及装置
CN108962223A (zh) * 2018-06-25 2018-12-07 厦门快商通信息技术有限公司 一种基于深度学习的语音性别识别方法、设备及介质
CN109378007A (zh) * 2018-12-28 2019-02-22 浙江百应科技有限公司 一种基于智能语音对话实现性别识别的方法
CN109448719A (zh) * 2018-12-11 2019-03-08 网易(杭州)网络有限公司 神经网络模型建立方法及语音唤醒方法、装置、介质和设备
CN109616099A (zh) * 2018-12-13 2019-04-12 南京工程学院 一种基于基音频率及平滑处理的男女语音性别识别方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103514883A (zh) * 2013-09-26 2014-01-15 华南理工大学 一种自适应实现男女声切换方法
CN105095401A (zh) * 2015-07-07 2015-11-25 北京嘀嘀无限科技发展有限公司 一种性别识别的方法及装置
CN108806696A (zh) * 2018-05-08 2018-11-13 平安科技(深圳)有限公司 建立声纹模型的方法、装置、计算机设备和存储介质
CN108962223A (zh) * 2018-06-25 2018-12-07 厦门快商通信息技术有限公司 一种基于深度学习的语音性别识别方法、设备及介质
CN108765930A (zh) * 2018-06-26 2018-11-06 上海掌门科技有限公司 行车监控方法及设备
CN108847224A (zh) * 2018-07-05 2018-11-20 广州势必可赢网络科技有限公司 一种声音墙画面显示方法及装置
CN109448719A (zh) * 2018-12-11 2019-03-08 网易(杭州)网络有限公司 神经网络模型建立方法及语音唤醒方法、装置、介质和设备
CN109616099A (zh) * 2018-12-13 2019-04-12 南京工程学院 一种基于基音频率及平滑处理的男女语音性别识别方法
CN109378007A (zh) * 2018-12-28 2019-02-22 浙江百应科技有限公司 一种基于智能语音对话实现性别识别的方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110705218A (zh) * 2019-10-11 2020-01-17 浙江百应科技有限公司 一种基于深度学习的外呼状态识别方式
CN111009262A (zh) * 2019-12-24 2020-04-14 携程计算机技术(上海)有限公司 语音性别识别的方法及系统
CN111723679A (zh) * 2020-05-27 2020-09-29 上海五零盛同信息科技有限公司 基于深度迁移学习的人脸和声纹认证系统及方法

Similar Documents

Publication Publication Date Title
CN108597496B (zh) 一种基于生成式对抗网络的语音生成方法及装置
CN108922513B (zh) 语音区分方法、装置、计算机设备及存储介质
CN112466326B (zh) 一种基于transformer模型编码器的语音情感特征提取方法
CN110428842A (zh) 语音模型训练方法、装置、设备及计算机可读存储介质
CN106504768B (zh) 基于人工智能的电话拨测音频分类方法及装置
CN108550375A (zh) 一种基于语音信号的情感识别方法、装置和计算机设备
CN106782511A (zh) 修正线性深度自编码网络语音识别方法
CN108630209B (zh) 一种基于特征融合与深度置信网络的海洋生物识别方法
CN106952649A (zh) 基于卷积神经网络和频谱图的说话人识别方法
CN110211569A (zh) 基于语音图谱和深度学习的实时性别识别方法
CN104157290A (zh) 一种基于深度学习的说话人识别方法
CN108986798B (zh) 语音数据的处理方法、装置及设备
CN111724770B (zh) 一种基于深度卷积生成对抗网络的音频关键词识别方法
CN102890930A (zh) 基于hmm/sofmnn混合模型的语音情感识别方法
CN108831506A (zh) 基于gmm-bic的数字音频篡改点检测方法及系统
CN110136696A (zh) 音频数据的监控处理方法和系统
CN110189766A (zh) 一种基于神经网络的语音风格转移方法
CN113327631B (zh) 一种情感识别模型的训练方法、情感识别方法及装置
Nasrun et al. Human emotion detection with speech recognition using Mel-frequency cepstral coefficient and support vector machine
Zhang et al. A novel insect sound recognition algorithm based on MFCC and CNN
Chaves et al. Katydids acoustic classification on verification approach based on MFCC and HMM
CN111785262A (zh) 一种基于残差网络及融合特征的说话人年龄性别分类方法
Wu et al. Audio-based expansion learning for aerial target recognition
CN113327616A (zh) 声纹识别方法、装置、电子设备及存储介质
Estrebou et al. Voice recognition based on probabilistic SOM

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190906