CN110931023B

CN110931023B - 性别识别方法、系统、移动终端及存储介质

Info

Publication number: CN110931023B
Application number: CN201911200351.6A
Authority: CN
Inventors: 白坤; 肖龙源; 李稀敏; 蔡振华; 刘晓葳
Original assignee: Xiamen Kuaishangtong Technology Co Ltd
Current assignee: Xiamen Kuaishangtong Technology Co Ltd
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2022-08-19
Anticipated expiration: 2039-11-29
Also published as: CN110931023A

Abstract

本发明适用于数据处理技术领域，提供了一种性别识别方法、系统、移动终端及存储介质，该方法包括：获取样本数据，对样本数据进行分类，以得到男生数据和女生数据；根据男生数据和女生数据生成训练集，构建时延神经网络；获取训练集声学特征，将声学特征输入至时延神经网络进行模型训练，以得到性别识别模型；采集用户的语音数据，将语音数据输入至性别识别模型进行分析，以得到用户性别信息。本发明通过针对采集到的语音数据中声学特征分析，以进行男女性别的识别，防止了由于采用图像特征识别所导致的识别准确率低下的现象，通过将声学特征作为网络的输入对时延神经网络进行模型训练的设计，提高了所述性别识别模型针对用户男女识别的准确性。

Description

性别识别方法、系统、移动终端及存储介质

技术领域

本发明属于数据处理技术领域，尤其涉及一种性别识别方法、系统、移动终端及存储介质。

背景技术

说话人识别是目前身份认证及人工智能领域研究的一个热点，解决说话人识别问题具有重要的理论价值和深远的实用意义。性别辨识可应用于需验证男女生性别的场合，例如商品推荐，男性和女性的商品需求区别很大，性别识别会帮助商家了解男性和女性不同的喜好和需求，从而改进产品，提供更良好的用户体验和内容质量。性别识别还可以帮助智能设备如穿戴设备提供定制化的服务，因为不同性别有不同偏好、生活习惯和独有特征。

现有的性别识别均是通过采用图像特征分析的方式进行用户性别的判断，人脸图像的特征提取包括人脸五官距离特征，像素特征，局部二进制模式，Gabor小波变换等，但由于用户穿着打扮以及个人外貌的差异，导致通过图像特征识别有很大的局限性且识别准确率较低。

发明内容

本发明实施例的目的在于提供一种性别识别方法、系统、移动终端及存储介质，旨在解决现有的性别识别方法中，由于采用图像识别进行男女性别识别所导致的识别准确性低下的问题。

本发明实施例是这样实现的，一种性别识别方法，所述方法包括：

获取样本数据，并对所述样本数据进行分类，以得到男生数据和女生数据；

根据所述男生数据和所述女生数据生成训练集，并构建时延神经网络；

获取所述训练集声学特征，并将所述声学特征输入至所述时延神经网络进行模型训练，以得到性别识别模型；

采集用户的语音数据，将所述语音数据输入至所述性别识别模型进行分析，以得到用户性别信息。

更进一步的，所述获取所述训练集声学特征的步骤包括：

对所述训练集中的连续语音进行预加重处理，并对预加重处理后的所述连续语音进行分帧处理；

对分帧处理的后的所述连续语音进行加窗处理，并将加窗处理后的所述连续语音进行滤波；

对滤波后的所述连续语音进行对数运算，并对对数运算后的所述连续语音进行离散余弦变换，以得到所述声学特征。

更进一步的，所述将加窗处理后的所述连续语音进行滤波的步骤之前，所述方法还包括：

对加窗处理后的所述连续语音进行傅里叶变换，以得到所述连续语音对应的功率谱。

更进一步的，所述对对数运算后的所述连续语音进行离散余弦变换的步骤之后，所述方法还包括：

对所述声学特征进行动态差分参数提取，以得到动态特征；

将所述动态特征和所述声学特征输入至所述时延神经网络进行模型训练，以得到所述性别识别模型。

更进一步的，所述将所述声学特征输入至所述时延神经网络进行模型训练的步骤之后，所述方法还包括：

在所述时延神经网络中进行dropout处理，以防止所述性别识别模型的过拟合。

更进一步的，所述将所述声学特征输入至所述时延神经网络进行模型训练的步骤包括：

采用交叉熵损失函数和Adam算法分别对所述延神经网络进行网络参数的计算和更新，并通过预设次数迭代，以得到所述性别识别模型。

本发明实施例的另一目的在于提供一种性别识别系统，所述系统包括：

样本获取模块，用于获取样本数据，并对所述样本数据进行分类，以得到男生数据和女生数据；

网络构建模块，用于根据所述男生数据和所述女生数据生成训练集，并构建时延神经网络；

模型训练模块，用于获取所述训练集声学特征，并将所述声学特征输入至所述时延神经网络进行模型训练，以得到性别识别模型；

性别识别模块，用于采集用户的语音数据，将所述语音数据输入至所述性别识别模型进行分析，以得到用户性别信息。

更进一步的，所述模型训练模块还用于：

本发明实施例的另一目的在于提供一种移动终端，包括存储设备以及处理器，所述存储设备用于存储计算机程序，所述处理器运行所述计算机程序以使所述移动终端执行上述的性别识别方法。

本发明实施例的另一目的在于提供一种存储介质，其存储有上述的移动终端中所使用的计算机程序，该计算机程序被处理器执行时实现上述的性别识别方法的步骤。

本发明实施例，通过针对采集到的语音数据中声学特征分析，以进行男女性别的识别，防止了由于采用图像特征识别所导致的识别准确率低下的现象，通过将声学特征作为网络的输入对时延神经网络进行模型训练的设计，有效的提高了所述性别识别模型针对用户男女识别的准确性。

附图说明

图1是本发明第一实施例提供的性别识别方法的流程图；

图2是本发明第二实施例提供的性别识别方法的流程图；

图3是本发明第三实施例提供的性别识别系统的结构示意图；

图4是本发明第四实施例提供的移动终端的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

现有的性别识别过程中，由于用户穿着打扮以及个人外貌的差异，导致通过图像特征识别有很大的局限性且识别准确率较低，因此，本发明实施例的目的在于通过基于声学特征分析，以进行男女性别的识别，提高了性别识别的准确率。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

实施例一

请参阅图1，是本发明第一实施例提供的性别识别方法的流程图，包括步骤：

步骤S10，获取样本数据，并对所述样本数据进行分类，以得到男生数据和女生数据；

其中，该样本数据为音频数据，由于男生和女生之间发音存在特征差异，因此，该步骤中，通过采用分类器的方式对样本数据中的男生数据和女生数据进行分类，并在分类的同时对男生数据和女生数据分别进行标注，例如男生数据标注“1”，女生数据标注“2”，通过分别对男生数据和女生数据进行标注的设计，有效的方便了后续针对男生数据和女生数据的区分；

步骤S20，根据所述男生数据和所述女生数据生成训练集，并构建时延神经网络；

其中，在构建训练集的同时也同时生成测试集，即将所有数据的80％生成该训练集，剩余的20％生成测试集，以方便后续针对该时延神经网络的模型训练；

步骤S30，获取所述训练集声学特征，并将所述声学特征输入至所述时延神经网络进行模型训练，以得到性别识别模型；

其中，该声学特征为梅尔倒谱系数(Mel-scaleFrequency CepstralCoefficients，简称MFCC)，MFCC是在Mel标度频率域提取出来的倒谱参数，Mel标度描述了人耳频率的非线性特性，它与频率的关系可用下式近似表示：

式中f为频率，单位为Hz；

具体的，由于性别之间的声音的特征不同，比如在某一个频率段声音的能量，基频等，所以可以采用不用声音特征的组合作为网络的输入，并训练出分类器，该步骤中，所使用的声音特征组合为：13维的MFCC特征、13维的MFCC特征一阶导数，13维MFCC特征二阶导数等，共计39维特征；

优选的，该步骤中，对所述时延神经网络进行了优化，通过将最后的按照说话人为标签的分类层，变成以男女性别为标签的softmax二分类层，并且在模型中加入了dropout操作，防止模型过拟合；

步骤S40，采集用户的语音数据，将所述语音数据输入至所述性别识别模型进行分析，以得到用户性别信息；

其中，可以采用麦克风的方式进行该语音数据的采集，并通过采用蓝牙、WIFI或无线网络的方式进行该语音数据的传输，以及时通过该性别识别模型针对采集到的语音数据进行男女性别分析，提高了性别分析的效率；

本实施例，通过针对采集到的语音数据中声学特征分析，以进行男女性别的识别，防止了由于采用图像特征识别所导致的识别准确率低下的现象，通过将声学特征作为网络的输入对时延神经网络进行模型训练的设计，有效的提高了所述性别识别模型针对用户男女识别的准确性。

实施例二

请参阅图2，是本发明第二实施例提供的性别识别方法的流程图，包括步骤：

步骤S11，获取样本数据，并对所述样本数据进行分类，以得到男生数据和女生数据；

步骤S21，根据所述男生数据和所述女生数据生成训练集，并构建时延神经网络；

步骤S31，对所述训练集中的连续语音进行预加重处理，并对预加重处理后的所述连续语音进行分帧处理；

其中，是通过将该联系语音通过一高通滤波器，以实现预加重处理的操作，预加重的目的是提升高频部分，使信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱。同时，也是为了消除发生过程中声带和嘴唇的效应，来补偿语音信号受到发音系统所抑制的高频部分，也为了突出高频的共振峰；

优选的，该步骤中，先将N个采样点集合成一个观测单位，称为帧。通常情况下N的值为256或512，涵盖的时间约为20～30ms左右。为了避免相邻两帧的变化过大，因此会让两相邻帧之间有一段重叠区域，此重叠区域包含了M个取样点，通常M的值约为N的1/2或1/3。通常语音识别所采用语音信号的采样频率为8KHz或16KHz，以8KHz来说，若帧长度为256个采样点，则对应的时间长度是256/8000 1000＝32ms；

步骤S41，对分帧处理的后的所述连续语音进行加窗处理，并对加窗处理后的所述连续语音进行傅里叶变换，以得到所述连续语音对应的功率谱；

该步骤中，将每一帧乘以汉明窗，以增加帧左端和右端的连续性。假设分帧后的信号为S(n)，n＝0，1，…，N-1，N为帧的大小，那么乘上汉明窗后，W(n)形式如下：

不同的a值会产生不同的汉明窗，一般情况下a取0.46；

优选的，由于信号在时域上的变换通常很难看出信号的特性，所以通常将它转换为频域上的能量分布来观察，不同的能量分布，就能代表不同语音的特性。所以在乘上汉明窗后，每帧还必须再经过快速傅里叶变换以得到在频谱上的能量分布。对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧的频谱。并对语音信号的频谱取模平方得到语音信号的功率谱。设语音信号的DFT为：

式中x(n)为输入的语音信号，N表示傅里叶变换的点数；

步骤S51，对所述功率谱进行滤波，对滤波后的所述功率谱进行对数运算，并对对数运算后的所述连续语音进行离散余弦变换，以得到所述声学特征；

其中，可以采用滤波器的方式以达到对所述功率谱的滤波效果，即通过将能量谱通过一组Mel尺度的三角形滤波器组，定义一个有M个滤波器的滤波器组(滤波器的个数和临界带的个数相近)，采用的滤波器为三角滤波器，中心频率为。M通常取22-26。各f(m)之间的间隔随着m值的减小而缩小，随着m值的增大而增宽；

具体的，三角带通滤波器有两个主要目的：

对频谱进行平滑化，并消除谐波的作用，突显原先语音的共振峰。(因此一段语音的音调或音高，是不会呈现在MFCC参数内，以MFCC为特征的语音辨识系统，并不会受到输入语音的音调不同而有所影响)此外，还可以降低运算量；

三角滤波器的频率响应定义为：

式中

且该步骤中，计算每个滤波器组输出的对数能量为：

则，经离散余弦变换(DCT)得到MFCC系数为：

将上述的对数能量带入离散余弦变换，求出L阶的Mel-scale Cepstrum参数。L阶指MFCC系数阶数，通常取12-16，该M是三角滤波器个数；

此外，一帧的音量(即能量)，也是语音的重要特征，而且非常容易计算。因此，通常再加上一帧的对数能量(定义：一帧内信号的平方和，再取10为底的对数值，再乘以10)使得每一帧基本的语音特征就多了一维，包括一个对数能量和剩下的倒频谱参数；

步骤S61，对所述声学特征进行动态差分参数提取，以得到动态特征，将所述动态特征和所述声学特征输入至所述时延神经网络进行模型训练，以得到所述性别识别模型；

其中，通过采用交叉熵损失函数和Adam算法分别对所述延神经网络进行网络参数的计算和更新，并通过预设次数迭代，以得到所述性别识别模型；

优选的，本实施例中，在所述时延神经网络中进行dropout处理，以防止所述性别识别模型的过拟合；

该步骤中，标准的倒谱参数MFCC只反映了语音参数的静态特性，语音的动态特性可以用这些静态特征的差分谱来描述。因此，需要把动、静态特征结合起来才能有效提高系统的识别性能。差分参数的计算可以采用下面的公式：；

式中，dt表示第t个一阶差分；Ct表示第t个倒谱系数；Q表示倒谱系数的阶数；K表示一阶导数的时间差，可取1或2。将上式中结果再代入就可以得到二阶差分的参数，因此，MFCC的全部组成其实是由：N维MFCC参数(N/3MFCC系数+N/3一阶差分参数+N/3二阶差分参数)+帧能量(此项可根据需求替换)；

步骤S71，采集用户的语音数据，将所述语音数据输入至所述性别识别模型进行分析，以得到用户性别信息；

实施例三

请参阅图3，是本发明第三实施例提供的性别识别系统100的结构示意图，包括样本获取模块10、网络构建模块11、模型训练模块12和性别识别模块13，其中：

样本获取模块10，用于获取样本数据，并对所述样本数据进行分类，以得到男生数据和女生数据；

网络构建模块11，用于根据所述男生数据和所述女生数据生成训练集，并构建时延神经网络；

模型训练模块12，用于获取所述训练集声学特征，并将所述声学特征输入至所述时延神经网络进行模型训练，以得到性别识别模型；

性别识别模块13，用于采集用户的语音数据，将所述语音数据输入至所述性别识别模型进行分析，以得到用户性别信息。

本实施例中，所述模型训练模块12还用于：

优选的，所述模型训练模块12还用于：对加窗处理后的所述连续语音进行傅里叶变换，以得到所述连续语音对应的功率谱。

进一步的，所述模型训练模块12还用于：对所述声学特征进行动态差分参数提取，以得到动态特征；将所述动态特征和所述声学特征输入至所述时延神经网络进行模型训练，以得到所述性别识别模型。

更进一步的，所述模型训练模块12还用于：在所述时延神经网络中进行dropout处理，以防止所述性别识别模型的过拟合。

此外，所述模型训练模块12还用于：采用交叉熵损失函数和Adam算法分别对所述延神经网络进行网络参数的计算和更新，并通过预设次数迭代，以得到所述性别识别模型。

实施例四

请参阅图4，是本发明第四实施例提供的移动终端101，包括存储设备以及处理器，所述存储设备用于存储计算机程序，所述处理器运行所述计算机程序以使所述移动终端101执行上述的性别识别方法。

本实施例还提供了一种存储介质，其上存储有上述移动终端101中所使用的计算机程序，该程序在执行时，包括如下步骤：

采集用户的语音数据，将所述语音数据输入至所述性别识别模型进行分析，以得到用户性别信息。所述的存储介质，如：ROM/RAM、磁碟、光盘等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元或模块完成，即将存储装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施方式中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。

本领域技术人员可以理解，图3中示出的组成结构并不构成对本发明的性别识别系统的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，而图1-2中的性别识别方法亦采用图3中所示的更多或更少的部件，或者组合某些部件，或者不同的部件布置来实现。本发明所称的单元、模块等是指一种能够被所述目标性别识别系统中的处理器(图未示)所执行并功能够完成特定功能的一系列计算机程序，其均可存储于所述目标性别识别系统的存储设备(图未示)内。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种性别识别方法，其特征在于，所述方法包括：

获取所述训练集声学特征，声学特征为梅尔倒谱系数，并将所述声学特征输入至所述时延神经网络进行模型训练，以得到性别识别模型；

2.如权利要求1所述的性别识别方法，其特征在于，所述获取所述训练集声学特征的步骤包括：

3.如权利要求2所述的性别识别方法，其特征在于，所述将加窗处理后的所述连续语音进行滤波的步骤之前，所述方法还包括：

4.如权利要求2所述的性别识别方法，其特征在于，所述对对数运算后的所述连续语音进行离散余弦变换的步骤之后，所述方法还包括：

对所述声学特征进行动态差分参数提取，以得到动态特征；

5.如权利要求1所述的性别识别方法，其特征在于，所述将所述声学特征输入至所述时延神经网络进行模型训练的步骤之后，所述方法还包括：

6.如权利要求1所述的性别识别方法，其特征在于，所述将所述声学特征输入至所述时延神经网络进行模型训练的步骤包括：

7.一种性别识别系统，其特征在于，所述系统包括：

模型训练模块，用于获取所述训练集声学特征，声学特征为梅尔倒谱系数，并将所述声学特征输入至所述时延神经网络进行模型训练，以得到性别识别模型；

8.如权利要求7所述的性别识别系统，其特征在于，所述模型训练模块还用于：

9.一种移动终端，其特征在于，包括存储设备以及处理器，所述存储设备用于存储计算机程序，所述处理器运行所述计算机程序以使所述移动终端执行根据权利要求1至6任一项所述的性别识别方法。

10.一种存储介质，其特征在于，其存储有权利要求9所述的移动终端中所使用的计算机程序，该计算机程序被处理器执行时实现权利要求1至6任一项所述的性别识别方法的步骤。