CN109616099A

CN109616099A - 一种基于基音频率及平滑处理的男女语音性别识别方法

Info

Publication number: CN109616099A
Application number: CN201811522085.4A
Authority: CN
Inventors: 焦良葆; 曹宇彤; 朱瑞晨; 薛淑敏; 郭伟奇; 宛博文; 谢田; 曲心悦; 冯晨昕
Original assignee: Nanjing Institute of Technology
Current assignee: Nanjing Institute of Technology
Priority date: 2018-12-13
Filing date: 2018-12-13
Publication date: 2019-04-12

Abstract

本发明提供一种基于基音频率及平滑处理的男女语音性别识别方法，包括：首先进行男女语音训练，对男性和女性语音进行预处理，提取其基音频率，建立匹配模型；然后是男女语音性别测试，采集一段男性/女性语音，与经过训练的匹配模型进行对比，从而判断出该声音为男性/女性，以此达到男女语音性别识别的目的；本发明通过平滑处理使得声音辨别的准确性更高，并且引入系统学习功能，即每次测试完毕后，新的语音均会加入模型库，随着数据的不断增长，测试的稳定性和准确性会越来越高。

Description

一种基于基音频率及平滑处理的男女语音性别识别方法

技术领域

本发明属于音频信号处理领域，尤其涉及一种基于基音频率及平滑处理的男女语音性别识别方法。

背景技术

在语音信号处理中，语音信号参数提取的准确性非常重要，只有获得准确的参数，才能利用这些参数进行高效的处理。而在许多参数提取中，基音周期的提取尤为重要，广泛地应用于语音压缩编码、语音分析合成以及语音识别等方面。所以，准确可靠地估计并提取基音周期对语音信号处理至关重要，它直接影响到合成语音是否真实再现原始语音信号，影响到语音识别的识别率，影响到语音压缩编码的正确率。

为了提高基音检测的准确性，降低计算复杂度，人们已经开发了许多基音检测算法。从具体检测方法上来看，大致可以分为三类：（1）波形估计法：直接有声音波形来估计基音周期，分析出波形上的周期峰值。包括并行处理法、数据减少法等。（2）相关处理法：这种方法在语音限号处理中广泛使用，这是因为相关处理法抗波形的相位失真能力强，另外它在硬件处理上结构简单。包括波形自相关法、平均幅值差分函数法（AMDF）、简化逆滤波法（SIFT）等。（3）变换法：将语音信号变换到频域或者倒谱域来估计基音周期，利用同态分析方法将声道的影响消除，得到属于激励部分的信息，进一步求取基音周期。比如倒谱法，虽然倒谱法分析算法比较复杂，但是基因周期估计效果好。

发明内容

针对上述问题，本发明所要解决的技术问题是提供种一种基于基音频率及平滑处理的男女语音性别识别方法，依据倒谱法，以应用于男女性别识别，也可应用于语音分析应用的多个方面。

为实现上述技术目的，达到上述技术效果，本发明的方法包括为：

S1：男女语音训练阶段，对男性和女性语音进行预处理,然后提取其基音频率,建立匹配模型;

S2：男女语音采集阶段，采集男性/女性的语音，利用与S1相同的方法提取其基音频率，进行分析；

S3：平滑处理阶段，去除更多与所需参数无关的干扰，使得最终结果更具准确性；

S4：性别识别对比模块，将S2采集到的语音信号参数经过平滑处理后与S1建立的模型进行比对，得出性别判别结果。

进一步地，在S1中建立的模型是由大量男性女性语音经过提取得到的基音频率组成，其关键参数是男性和女性独立的基音频率的均值。

进一步地，本发明所用的语音信号文件的格式为.wav文件。

进一步地，本发明通过MATLAB软件来初步实现。

进一步地，根据S1建立的模型，系统会通过求均值的方法得到一个特征值，该特征值随测试数据的不断增多会越发趋于稳定以及准确。然后进行比对，若该性别特征值与S1所得的基音频率参数相比，大于S1所得的基音频率参数，则判定该语音信号是由女性发出的，若小于S1所得的基音频率参数，则判定该语音信号是由男性发出的。

进一步地，该性别特征比对模块将比对结果通过窗口形式即时显示，即直接显示输出性别判别结果。

有益效果

本发明提出了一种基于基音频率及平滑处理的男女语音性别识别方法，经过实际测试以及理论推导，本发明的判断准确性较高，实用性较强，可以经改善后应用于各种与语音信号有关的实际应用中。

附图说明

图1是本发明基于基音频率及平滑处理的男女语音性别识别方法的系统架构图；

图2是本发明男性/女性语音信号采集及软件实现的流程图；

图3是本发明的系统学习原理图；

图4是本发明的MATLAB图像显示样例；

图5是本发明的样例结果。

具体实施方式

以下结合附图说明本发明的实施方式，本发明可通过多种平台实现，也可在其他项目中加以应用。本说明书中的各项细节亦可基于不同的观点与应用，在不背离本发明的精神下进行各种修饰与变更。

根据图1所示的基于基音频率及平滑处理的男女语音性别识别方法的系统架构图，具体实施步骤如下：

（1）男女语音训练阶段；

（2）男女语音采集阶段；

（3）平滑处理阶段；

（4）性别识别对比模块。

步骤（1）中，要建立匹配模型，具体步骤如下：

11）手机采集音频文件；

12）将音频文件传到电脑以.wav文件格式保存，建立样本库；

13）获取关键基音频率参数；

14）获取最终建立的初始模型的判别值。

通过手机的录音功能，预先在安静的条件下录制好1000个人的语音，这一千人男女比例均衡，年龄层次符合大致的正态分布，即大部分人群的年龄在18-40之间，另外少部分的儿童及老人均考虑在内，地域分布方面，尽可能的按照全国各省份的人口比例来寻找合适的人群。如此，考虑的因素较多较全面，有利于提高系统判定的准确性和容错率，否则如果都找身边同年龄段的人分析训练，那么测试一个老人的声音时，错误率较高。

将录音文件全部导入电脑，要求文件格式为.wav文件，按顺序编号存入一个文件夹中，该文件夹即为样本库，初始存放1000个语音文件，之后每次测试都把测试的语音文件加入到此库中。

通过测试，发现绝大多数人发出声音的基音频率范围为50Hz-400Hz，正常情况下，男性发出声音的基音频率范围为50Hz-200Hz，女性发出声音的基音频率范围为150Hz-400Hz。然后获取第一个重要指标，对男性女性语音分别进行操作，对所有男性语音进行平滑处理后得到基音频率参数，对其求均值可以得到男性语音的基音频率的平均参数134.47Hz，同理，对所有女性语音进行平滑处理后得到基音频率参数，对其求均值可以得到女性语音的基音频率的平均参数241.31Hz。第二个重要指标，男性基音频率的最大值和女性基音频率的最小值，如果单纯地将这两个因素直接加入考虑，其偶然性较高，会导致错误率上升不少，所以，考虑到概率论与数理统计中的“3σ”准则，取出边缘对整体几乎没有影响的值，在剩下的值中选取男性基音频率的最大值189.75Hz和女性基音频率的最小值170.11Hz。

综合考虑男性女性基音频率的分布以及重要指标参数，得到最终建立的初始模型的判别值为179.49Hz。

其中平滑处理的目的是减小外界噪声，声音本身抖动不稳定等多种因素导致的波形不稳定以及所导致的误差，经平滑处理后所得的波形更加稳定，基音频率参数更加准确。

平滑处理的核心原理如下：

线性平滑处理是用滑动窗进行线性滤波处理，即

，

式中，x（n）是线性平滑处理之前的波形，y（n）是线性平滑处理之后的波形，其中n代表离散波形在各整数点处的取值；且｛z（k）｝（k=-N，-N+1，…，N）为2N+1点平滑窗，且满足；其中k代表平滑窗函数在各整数点处的取值，N决定平滑窗的长度，即2N+1点的平滑窗。

本实施例随机采样一个人的语音，将语音文件导入电脑，经过MATLAB中写好的函数并通过平滑处理，分析得到该语音的基音频率参数，将该参数与判别值比较，若大于判别值，则判定该语音信号是由女性发出的，若小于判别值，则判定该语音信号是由男性发出的。

在第一次进行测试时，通过分析得到的基音频率参数会和179.49Hz比较，大于此值则判断为女性，小于此值则判断为男性，判断完之后会将此基音频率参数加入库中，若该人为男性，则男性基音频率的平均值和最大值均有可能发生改变，若该人为女性，则女性基音频率的平均值和最小值均有可能发生改变。之后最终的判别值也会因此而改变。之后是第二次，第三次，第N次测试，每次测试都会导致判别值发生微小的变化，同时库中的样本越来越多。该判别值随测试数据的不断增多会越发趋于稳定以及准确。由此实现一种系统学习的效果。

综上所述，本发明一种基于基音频率及平滑处理的男女语音性别识别方法通过手机进行录音，并将音频文件传到电脑以.wav文件格式保存，通过分析得到其基音频率参数，并与之前的大量数据模型分析得到的参数进行比对，从而判断出发出声音者的性别。经过实际测试以及理论推导，本发明的判断准确性较高，实用性较强，可以经改善后应用于各种与语音信号有关的实际应用中。

上述方法仅用于说明本发明的原理及功能，而非用于限制本发明。任何本领域技术人员可在不违背本发明的精神及范畴下，对上述方法进行修饰与改变。

Claims

1.一种基于基音频率及平滑处理的男女语音性别识别方法，其特征在于：所述方法是利用基音进行检测分析，提取基音频率，再通过平滑处理获得匹配模型的判别值，实现男女性别识别。

2.根据权利要求1所述的方法，其特征在于：包括如下步骤：

S1：男女语音训练阶段，先对男性和女性语音进行预处理,然后提取其基音频率,建立匹配模型；

S2：男女语音采集分析阶段，采集男性/女性的语音，利用与步骤S1相同的方法提取其基音频率，进行分析；

S3：平滑处理，去除更多与所需参数无关的干扰，使得最终结果更具准确性；

S4：性別识别比对模块，利用步骤S1建立的模型,将步骤S2采集到的语音信号经过处理后获得的参数经过步骤S3平滑处理后与步骤S1建立的模型进行比对，得出性别判别结果。

3.根据权利要求2所述的方法，其特征在于：上述平滑处理的核心是用滑动窗进行线性滤波处理，即

，

式中，x（n）是线性平滑处理之前的波形，y（n）是线性平滑处理之后的波形，其中n代表离散波形在各整数点处的取值；且｛z（k）｝（k=-N，-N+1，…，N）为2N+1点平滑窗，且满足；其中k代表平滑窗函数在各整数点处的取值；N决定平滑窗的长度，即2N+1点的平滑窗。

4.根据权利要求2所述的方法，其特征在于：所述步骤S1中，所建立的模型是由大量男性女性语音经过提取得到的多个关键基音频率参数组成：

A.对所有男性语音进行平滑处理后得到基音频率参数，对其求均值可以得到男性语音的基音频率的平均参数134.47Hz；

B.对所有女性语音进行平滑处理后得到基音频率参数，对其求均值可以得到女性语音的基音频率的平均参数241.31Hz；

C.根据概率论与数理统计中的“3σ”准则，取出边缘对整体几乎没有影响的值，在剩下的男性基音频率参数中选取最大值189.75Hz；

D.根据概率论与数理统计中的“3σ”准则，取出边缘对整体几乎没有影响的值，在剩下的女性基音频率参数中选取最小值170.11Hz；

E. 综合考虑男性女性基音频率的分布以及重要指标参数，得到最终建立的初始模型的判别值为179.49Hz。

5.根据权利要求4所述的方法，其特征在于：所述步骤E中，每次测试完毕后，新的语音均会加入模型库，求得的判别值随测试数据的不断增多会越发趋于稳定以及准确，即系统学习的过程。

6.根据权利要求2所述的方法，其特征在于：所述步骤S4中，通过步骤S2得到的语音信号并经步骤S3处理获取到的基音频率参数与步骤S1所得的判别值对比，若该基音频率参数大于判别值，则判定该语音信号是由女性发出的，若基音频率参数小于判别值，则判定该语音信号是由男性发出的。