CN110211569A

CN110211569A - 基于语音图谱和深度学习的实时性别识别方法

Info

Publication number: CN110211569A
Application number: CN201910612980.3A
Authority: CN
Inventors: 王磊
Original assignee: Zhejiang Baiying Technology Co Ltd
Current assignee: Zhejiang Baiying Technology Co Ltd
Priority date: 2019-07-09
Filing date: 2019-07-09
Publication date: 2019-09-06

Abstract

本发明涉及语音识别领域，尤其涉及于语音图谱和深度学习的实时性别识别方法，包括以下步骤：S1：基于深度学习算法建立模型；S2：语音对话过程中实时获取音频流；S3：将获取的音频流通过VAD切除静音部分；S4：通过fbank提取音频的数字特征；S5：将数字特征转换成语音图谱，将语音图谱通过模型进行性别预测，得到性别识别结果。本发明针对语音可以实时性别识别，同时提升了性别识别的准确率。

Description

基于语音图谱和深度学习的实时性别识别方法

技术领域

本发明涉及语音识别领域，尤其涉及基于语音图谱和深度学习的实时性别识别方法。

背景技术

随着大数据和深度学习技术的发展，语音识别和声纹识别越来越多的运用于各行各业，包括目标任务确认，语音开锁，智能语音机器人等行业，还包括智能人机交互，声控机器人，智能家居语音唤醒等，随着深度学习技术的不断发展，声纹识别和语音识别技术已经出现了很多影响人们生活的产品，越来越大的影响了人类生活。

而在性别识别这块也有一些传统的方法尝试，例如：直接基于声音的基音频率差异，按男女不同范围的基音频率识别男女；采用多个传统模型融合的方式去实现，特征不断变换多个融合模型共同发挥作用。但是这些方法存在以下问题：基音频率差异这种方式，因为男女本身的基音频率就存在交叉，而且由于个体的特殊性导致准确率特别低；多模型融合方式的过程往往特别复杂，模型可解释性不强，而且预测时间特别长，没办法做到实时的性别识别；对话的音频信息往往含有一些外界噪音和背景音，或者是第二个人的说话信息以上方法在这个场景下准确率低下；对话中含有大量的静音部分(包括对话中单声道填充和对话人本身的停顿部分)，会影响识别的准确率。

发明内容

为解决上述问题，本发明提出涉及基于语音图谱和深度学习的实时性别识别方法。

基于语音图谱和深度学习的实时性别识别方法，包括以下步骤：

S1：基于深度学习算法建立模型；

S2：语音对话过程中实时获取音频流；

S3：将获取的音频流通过VAD切除静音部分；

S4：通过fbank提取音频的数字特征；

S5：将数字特征转换成语音图谱，将语音图谱通过模型进行性别预测，得到性别识别结果。

优选的，所述基于深度学习算法建立模型包括以下步骤：

S11：语音图谱结合打标标签生成样本信息，按照设定比例划分训练集合和测试集合；

S12：对语音图谱作归一化和正则化处理，保存样本集合的均值和方差信息；

S13：将训练集合输入给下游的resnet网络，重新训练网络最后一层和softmax层，多次循环，不断拟合神经网络的相关参数，直到损失达到阀值或者迭代次数达到预设值；

S14：用测试集合进行测试，若模型准确度达到预期值，则输出模型，否则调整参数或者样本信息重新训练模型。

优选的，所述语音图谱包括若干个768*32的二维数字矩阵。

优选的，所述语音图谱包括音频流的频域和时域信息。

本发明具备以下有益效果：

1.本发明通过VAD切除静音部分，提升了性别识别的准确率；

2.本发明采用语音图谱和深度学习结合的方案，利用迁移学习重新训练resnet网络，结合多个语音图谱综合计算概率的方式大大简化了整个识别过程；

3.在通话过程中，每一句话的实时识别，可以识别出一通对话中出现男女多个人的识别。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1是本发明一实施例一种涉及于语音图谱和深度学习的实时性别识别方法的流程示意图；

图2是本发明一实施例一种涉及于语音图谱和深度学习的实时性别识别方法中步骤S1的流程示意图。

具体实施方式

以下结合附图，对本发明的技术方案作进一步的描述，但本发明并不限于这些实施例。

基于以上构思及技术，本发明实施例提出一种涉及基于语音图谱和深度学习的实时性别识别方法，如图1所示，包括以下步骤：

S1：基于深度学习算法建立模型；

S2：语音对话过程中实时获取音频流；

S3：将获取的音频流通过VAD切除静音部分；

S4：通过fbank提取音频的数字特征；

深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。深度学习是机器学习中一种基于对数据进行表征学习的方法。观测值可以使用多种方式来表示，如每个像素强度值的向量，或者更抽象地表示成一系列边、特定形状的区域等。而使用某些特定的表示方法更容易从实例中学习任务(例如，人脸识别或语音识别)。

在本实施例中，基于深度学习算法建立模型，基于建立的模型来实现语音性别识别。具体的，如图2，包括以下步骤：

为实现语音对话过程中性别的实时识别，因此需要在语音的对话过程中实时获取音频流。

基于语音对话过程中存在静音部分，因此需要将静音部分切除以排除干扰，以提高本方法的识别准确度。在本实施例中，将获取的音频流通过VAD切除静音部分。

VAD的全称是：Voice Activity Detection(语音激活检测)，能够区分传输语音信号中的语音信号和背景噪音，当然还能在通信中区分语音和静默段能够区分传输语音信号中的语音信号和背景噪音。

在切除静音部分之后，通过fbank提取音频的数字特征。具体包括以下步骤：

S31：预加重：通过一个一阶有限激励响应高通滤波器，使信号的频谱变得平坦，不易受到有限字长效应的影响；

S32：分帧：根据语音的短时平稳特性，语音可以以帧为单位进行处理，实验中选取的语音帧长为32ms，帧移为16ms；

S33：加窗：采用汉明窗对一帧语音加窗，以减小吉布斯效应的影响；

S34：快速傅立叶变换(Fast Fourier Transformation,FFT)：将时域信号变换成为信号的功率谱(频域信号)；

S35：梅尔滤波器组：用一组Mel频标上线性分布的三角窗滤波器(共24个三角窗滤波器)，对信号的功率谱滤波，每一个三角窗滤波器覆盖的范围都近似于人耳的一个临界带宽，以此来模拟人耳的掩蔽效应。一般取40个三角滤波器，取对数后即40维fbank；

S36：求对数：三角窗滤波器组的输出求取对数，可以得到近似于同态变换的结果；

S37：得到数字特征。

将得到的数字特征转换成多个语音图谱，将多个语音图谱分别通过模型进行性别预测，得到性别识别结果。语音图谱包括若干个768*32的二维数字矩阵，同时包括音频流的频域和时域信息。最后按男女图谱计算概率，概率大于50％的类别即位最终的性别。

本发明通过步骤S1中基于深度学习训练得到的模型，结合多个语音图谱综合计算概率的方式大大简化了整个识别过程，识别准确度高。

本发明在实际应用中，可以通过智能终端采用python flask搭建web应用，然后加载模型文件，下载音频信息，vad切除静音，特征提取生成语音图谱，进行归一化和正则化，调用模型预测，按多个语音图谱的性别结果计算男女的概率，概率>50％即为男性，小于50％即为女性。

本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.基于语音图谱和深度学习的实时性别识别方法，其特征在于，包括以下步骤：

S1：基于深度学习算法建立模型；

S2：语音对话过程中实时获取音频流；

S3：将获取的音频流通过VAD切除静音部分；

S4：通过fbank提取音频的数字特征；

2.根据权利要求1所述的基于语音图谱和深度学习的实时性别识别方法，其特征在于，所述基于深度学习算法建立模型包括以下步骤：

3.根据权利要求1所述的基于语音图谱和深度学习的实时性别识别方法，其特征在于，所述语音图谱包括若干个768*32的二维数字矩阵。

4.根据权利要求3所述的基于语音图谱和深度学习的实时性别识别方法，其特征在于，所述语音图谱包括音频流的频域和时域信息。