CN110211569A - 基于语音图谱和深度学习的实时性别识别方法 - Google Patents
基于语音图谱和深度学习的实时性别识别方法 Download PDFInfo
- Publication number
- CN110211569A CN110211569A CN201910612980.3A CN201910612980A CN110211569A CN 110211569 A CN110211569 A CN 110211569A CN 201910612980 A CN201910612980 A CN 201910612980A CN 110211569 A CN110211569 A CN 110211569A
- Authority
- CN
- China
- Prior art keywords
- voice
- deep learning
- voice map
- real
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013135 deep learning Methods 0.000 title claims abstract description 25
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000012549 training Methods 0.000 claims description 14
- 238000012360 testing method Methods 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 235000013399 edible fruits Nutrition 0.000 claims 1
- 238000005516 engineering process Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000006854 communication Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 239000000155 melt Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及语音识别领域,尤其涉及于语音图谱和深度学习的实时性别识别方法,包括以下步骤:S1:基于深度学习算法建立模型;S2:语音对话过程中实时获取音频流;S3:将获取的音频流通过VAD切除静音部分;S4:通过fbank提取音频的数字特征;S5:将数字特征转换成语音图谱,将语音图谱通过模型进行性别预测,得到性别识别结果。本发明针对语音可以实时性别识别,同时提升了性别识别的准确率。
Description
技术领域
本发明涉及语音识别领域,尤其涉及基于语音图谱和深度学习的实时性别识别方法。
背景技术
随着大数据和深度学习技术的发展,语音识别和声纹识别越来越多的运用于各行各业,包括目标任务确认,语音开锁,智能语音机器人等行业,还包括智能人机交互,声控机器人,智能家居语音唤醒等,随着深度学习技术的不断发展,声纹识别和语音识别技术已经出现了很多影响人们生活的产品,越来越大的影响了人类生活。
而在性别识别这块也有一些传统的方法尝试,例如:直接基于声音的基音频率差异,按男女不同范围的基音频率识别男女;采用多个传统模型融合的方式去实现,特征不断变换多个融合模型共同发挥作用。但是这些方法存在以下问题:基音频率差异这种方式,因为男女本身的基音频率就存在交叉,而且由于个体的特殊性导致准确率特别低;多模型融合方式的过程往往特别复杂,模型可解释性不强,而且预测时间特别长,没办法做到实时的性别识别;对话的音频信息往往含有一些外界噪音和背景音,或者是第二个人的说话信息以上方法在这个场景下准确率低下;对话中含有大量的静音部分(包括对话中单声道填充和对话人本身的停顿部分),会影响识别的准确率。
发明内容
为解决上述问题,本发明提出涉及基于语音图谱和深度学习的实时性别识别方法。
基于语音图谱和深度学习的实时性别识别方法,包括以下步骤:
S1:基于深度学习算法建立模型;
S2:语音对话过程中实时获取音频流;
S3:将获取的音频流通过VAD切除静音部分;
S4:通过fbank提取音频的数字特征;
S5:将数字特征转换成语音图谱,将语音图谱通过模型进行性别预测,得到性别识别结果。
优选的,所述基于深度学习算法建立模型包括以下步骤:
S11:语音图谱结合打标标签生成样本信息,按照设定比例划分训练集合和测试集合;
S12:对语音图谱作归一化和正则化处理,保存样本集合的均值和方差信息;
S13:将训练集合输入给下游的resnet网络,重新训练网络最后一层和softmax层,多次循环,不断拟合神经网络的相关参数,直到损失达到阀值或者迭代次数达到预设值;
S14:用测试集合进行测试,若模型准确度达到预期值,则输出模型,否则调整参数或者样本信息重新训练模型。
优选的,所述语音图谱包括若干个768*32的二维数字矩阵。
优选的,所述语音图谱包括音频流的频域和时域信息。
本发明具备以下有益效果:
1.本发明通过VAD切除静音部分,提升了性别识别的准确率;
2.本发明采用语音图谱和深度学习结合的方案,利用迁移学习重新训练resnet网络,结合多个语音图谱综合计算概率的方式大大简化了整个识别过程;
3.在通话过程中,每一句话的实时识别,可以识别出一通对话中出现男女多个人的识别。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1是本发明一实施例一种涉及于语音图谱和深度学习的实时性别识别方法的流程示意图;
图2是本发明一实施例一种涉及于语音图谱和深度学习的实时性别识别方法中步骤S1的流程示意图。
具体实施方式
以下结合附图,对本发明的技术方案作进一步的描述,但本发明并不限于这些实施例。
基于以上构思及技术,本发明实施例提出一种涉及基于语音图谱和深度学习的实时性别识别方法,如图1所示,包括以下步骤:
S1:基于深度学习算法建立模型;
S2:语音对话过程中实时获取音频流;
S3:将获取的音频流通过VAD切除静音部分;
S4:通过fbank提取音频的数字特征;
S5:将数字特征转换成语音图谱,将语音图谱通过模型进行性别预测,得到性别识别结果。
深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。深度学习是机器学习中一种基于对数据进行表征学习的方法。观测值可以使用多种方式来表示,如每个像素强度值的向量,或者更抽象地表示成一系列边、特定形状的区域等。而使用某些特定的表示方法更容易从实例中学习任务(例如,人脸识别或语音识别)。
在本实施例中,基于深度学习算法建立模型,基于建立的模型来实现语音性别识别。具体的,如图2,包括以下步骤:
S11:语音图谱结合打标标签生成样本信息,按照设定比例划分训练集合和测试集合;
S12:对语音图谱作归一化和正则化处理,保存样本集合的均值和方差信息;
S13:将训练集合输入给下游的resnet网络,重新训练网络最后一层和softmax层,多次循环,不断拟合神经网络的相关参数,直到损失达到阀值或者迭代次数达到预设值;
S14:用测试集合进行测试,若模型准确度达到预期值,则输出模型,否则调整参数或者样本信息重新训练模型。
为实现语音对话过程中性别的实时识别,因此需要在语音的对话过程中实时获取音频流。
基于语音对话过程中存在静音部分,因此需要将静音部分切除以排除干扰,以提高本方法的识别准确度。在本实施例中,将获取的音频流通过VAD切除静音部分。
VAD的全称是:Voice Activity Detection(语音激活检测),能够区分传输语音信号中的语音信号和背景噪音,当然还能在通信中区分语音和静默段能够区分传输语音信号中的语音信号和背景噪音。
在切除静音部分之后,通过fbank提取音频的数字特征。具体包括以下步骤:
S31:预加重:通过一个一阶有限激励响应高通滤波器,使信号的频谱变得平坦,不易受到有限字长效应的影响;
S32:分帧:根据语音的短时平稳特性,语音可以以帧为单位进行处理,实验中选取的语音帧长为32ms,帧移为16ms;
S33:加窗:采用汉明窗对一帧语音加窗,以减小吉布斯效应的影响;
S34:快速傅立叶变换(Fast Fourier Transformation,FFT):将时域信号变换成为信号的功率谱(频域信号);
S35:梅尔滤波器组:用一组Mel频标上线性分布的三角窗滤波器(共24个三角窗滤波器),对信号的功率谱滤波,每一个三角窗滤波器覆盖的范围都近似于人耳的一个临界带宽,以此来模拟人耳的掩蔽效应。一般取40个三角滤波器,取对数后即40维fbank;
S36:求对数:三角窗滤波器组的输出求取对数,可以得到近似于同态变换的结果;
S37:得到数字特征。
将得到的数字特征转换成多个语音图谱,将多个语音图谱分别通过模型进行性别预测,得到性别识别结果。语音图谱包括若干个768*32的二维数字矩阵,同时包括音频流的频域和时域信息。最后按男女图谱计算概率,概率大于50%的类别即位最终的性别。
本发明通过步骤S1中基于深度学习训练得到的模型,结合多个语音图谱综合计算概率的方式大大简化了整个识别过程,识别准确度高。
本发明在实际应用中,可以通过智能终端采用python flask搭建web应用,然后加载模型文件,下载音频信息,vad切除静音,特征提取生成语音图谱,进行归一化和正则化,调用模型预测,按多个语音图谱的性别结果计算男女的概率,概率>50%即为男性,小于50%即为女性。
本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
Claims (4)
1.基于语音图谱和深度学习的实时性别识别方法,其特征在于,包括以下步骤:
S1:基于深度学习算法建立模型;
S2:语音对话过程中实时获取音频流;
S3:将获取的音频流通过VAD切除静音部分;
S4:通过fbank提取音频的数字特征;
S5:将数字特征转换成语音图谱,将语音图谱通过模型进行性别预测,得到性别识别结果。
2.根据权利要求1所述的基于语音图谱和深度学习的实时性别识别方法,其特征在于,所述基于深度学习算法建立模型包括以下步骤:
S11:语音图谱结合打标标签生成样本信息,按照设定比例划分训练集合和测试集合;
S12:对语音图谱作归一化和正则化处理,保存样本集合的均值和方差信息;
S13:将训练集合输入给下游的resnet网络,重新训练网络最后一层和softmax层,多次循环,不断拟合神经网络的相关参数,直到损失达到阀值或者迭代次数达到预设值;
S14:用测试集合进行测试,若模型准确度达到预期值,则输出模型,否则调整参数或者样本信息重新训练模型。
3.根据权利要求1所述的基于语音图谱和深度学习的实时性别识别方法,其特征在于,所述语音图谱包括若干个768*32的二维数字矩阵。
4.根据权利要求3所述的基于语音图谱和深度学习的实时性别识别方法,其特征在于,所述语音图谱包括音频流的频域和时域信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910612980.3A CN110211569A (zh) | 2019-07-09 | 2019-07-09 | 基于语音图谱和深度学习的实时性别识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910612980.3A CN110211569A (zh) | 2019-07-09 | 2019-07-09 | 基于语音图谱和深度学习的实时性别识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110211569A true CN110211569A (zh) | 2019-09-06 |
Family
ID=67796616
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910612980.3A Pending CN110211569A (zh) | 2019-07-09 | 2019-07-09 | 基于语音图谱和深度学习的实时性别识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110211569A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110705218A (zh) * | 2019-10-11 | 2020-01-17 | 浙江百应科技有限公司 | 一种基于深度学习的外呼状态识别方式 |
CN111009262A (zh) * | 2019-12-24 | 2020-04-14 | 携程计算机技术(上海)有限公司 | 语音性别识别的方法及系统 |
CN111723679A (zh) * | 2020-05-27 | 2020-09-29 | 上海五零盛同信息科技有限公司 | 基于深度迁移学习的人脸和声纹认证系统及方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103514883A (zh) * | 2013-09-26 | 2014-01-15 | 华南理工大学 | 一种自适应实现男女声切换方法 |
CN105095401A (zh) * | 2015-07-07 | 2015-11-25 | 北京嘀嘀无限科技发展有限公司 | 一种性别识别的方法及装置 |
CN108765930A (zh) * | 2018-06-26 | 2018-11-06 | 上海掌门科技有限公司 | 行车监控方法及设备 |
CN108806696A (zh) * | 2018-05-08 | 2018-11-13 | 平安科技(深圳)有限公司 | 建立声纹模型的方法、装置、计算机设备和存储介质 |
CN108847224A (zh) * | 2018-07-05 | 2018-11-20 | 广州势必可赢网络科技有限公司 | 一种声音墙画面显示方法及装置 |
CN108962223A (zh) * | 2018-06-25 | 2018-12-07 | 厦门快商通信息技术有限公司 | 一种基于深度学习的语音性别识别方法、设备及介质 |
CN109378007A (zh) * | 2018-12-28 | 2019-02-22 | 浙江百应科技有限公司 | 一种基于智能语音对话实现性别识别的方法 |
CN109448719A (zh) * | 2018-12-11 | 2019-03-08 | 网易(杭州)网络有限公司 | 神经网络模型建立方法及语音唤醒方法、装置、介质和设备 |
CN109616099A (zh) * | 2018-12-13 | 2019-04-12 | 南京工程学院 | 一种基于基音频率及平滑处理的男女语音性别识别方法 |
-
2019
- 2019-07-09 CN CN201910612980.3A patent/CN110211569A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103514883A (zh) * | 2013-09-26 | 2014-01-15 | 华南理工大学 | 一种自适应实现男女声切换方法 |
CN105095401A (zh) * | 2015-07-07 | 2015-11-25 | 北京嘀嘀无限科技发展有限公司 | 一种性别识别的方法及装置 |
CN108806696A (zh) * | 2018-05-08 | 2018-11-13 | 平安科技(深圳)有限公司 | 建立声纹模型的方法、装置、计算机设备和存储介质 |
CN108962223A (zh) * | 2018-06-25 | 2018-12-07 | 厦门快商通信息技术有限公司 | 一种基于深度学习的语音性别识别方法、设备及介质 |
CN108765930A (zh) * | 2018-06-26 | 2018-11-06 | 上海掌门科技有限公司 | 行车监控方法及设备 |
CN108847224A (zh) * | 2018-07-05 | 2018-11-20 | 广州势必可赢网络科技有限公司 | 一种声音墙画面显示方法及装置 |
CN109448719A (zh) * | 2018-12-11 | 2019-03-08 | 网易(杭州)网络有限公司 | 神经网络模型建立方法及语音唤醒方法、装置、介质和设备 |
CN109616099A (zh) * | 2018-12-13 | 2019-04-12 | 南京工程学院 | 一种基于基音频率及平滑处理的男女语音性别识别方法 |
CN109378007A (zh) * | 2018-12-28 | 2019-02-22 | 浙江百应科技有限公司 | 一种基于智能语音对话实现性别识别的方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110705218A (zh) * | 2019-10-11 | 2020-01-17 | 浙江百应科技有限公司 | 一种基于深度学习的外呼状态识别方式 |
CN111009262A (zh) * | 2019-12-24 | 2020-04-14 | 携程计算机技术(上海)有限公司 | 语音性别识别的方法及系统 |
CN111723679A (zh) * | 2020-05-27 | 2020-09-29 | 上海五零盛同信息科技有限公司 | 基于深度迁移学习的人脸和声纹认证系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108597496B (zh) | 一种基于生成式对抗网络的语音生成方法及装置 | |
CN108922513B (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
CN112466326B (zh) | 一种基于transformer模型编码器的语音情感特征提取方法 | |
CN110428842A (zh) | 语音模型训练方法、装置、设备及计算机可读存储介质 | |
CN106504768B (zh) | 基于人工智能的电话拨测音频分类方法及装置 | |
CN108550375A (zh) | 一种基于语音信号的情感识别方法、装置和计算机设备 | |
CN106782511A (zh) | 修正线性深度自编码网络语音识别方法 | |
CN108630209B (zh) | 一种基于特征融合与深度置信网络的海洋生物识别方法 | |
CN106952649A (zh) | 基于卷积神经网络和频谱图的说话人识别方法 | |
CN110211569A (zh) | 基于语音图谱和深度学习的实时性别识别方法 | |
CN104157290A (zh) | 一种基于深度学习的说话人识别方法 | |
CN108986798B (zh) | 语音数据的处理方法、装置及设备 | |
CN111724770B (zh) | 一种基于深度卷积生成对抗网络的音频关键词识别方法 | |
CN102890930A (zh) | 基于hmm/sofmnn混合模型的语音情感识别方法 | |
CN108831506A (zh) | 基于gmm-bic的数字音频篡改点检测方法及系统 | |
CN110136696A (zh) | 音频数据的监控处理方法和系统 | |
CN110189766A (zh) | 一种基于神经网络的语音风格转移方法 | |
CN113327631B (zh) | 一种情感识别模型的训练方法、情感识别方法及装置 | |
Nasrun et al. | Human emotion detection with speech recognition using Mel-frequency cepstral coefficient and support vector machine | |
Zhang et al. | A novel insect sound recognition algorithm based on MFCC and CNN | |
Chaves et al. | Katydids acoustic classification on verification approach based on MFCC and HMM | |
CN111785262A (zh) | 一种基于残差网络及融合特征的说话人年龄性别分类方法 | |
Wu et al. | Audio-based expansion learning for aerial target recognition | |
CN113327616A (zh) | 声纹识别方法、装置、电子设备及存储介质 | |
Estrebou et al. | Voice recognition based on probabilistic SOM |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190906 |