CN110033786B

CN110033786B - 性别判断方法、装置、设备及可读存储介质

Info

Publication number: CN110033786B
Application number: CN201910317305.8A
Authority: CN
Inventors: 王若白; 丁彧; 范长杰
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2019-04-19
Filing date: 2019-04-19
Publication date: 2021-03-30
Anticipated expiration: 2039-04-19
Also published as: CN110033786A

Abstract

本公开提供一种性别判断方法、装置、设备及可读存储介质，能够分离待识别语音数据包括的各个帧数据中的清音部分和浊音部分，从而根据清音部分和浊音部分分别确定MFCC系数，再根据帧数据的基频以及清音部分和浊音部分对应的MFCC系数，使用预设性别模型确定待识别语音数据的性别，由于得到的MFCC系数分别只受到清音或浊音的影响，使得确定的性别结果更加准确。

Description

性别判断方法、装置、设备及可读存储介质

技术领域

本公开涉及语音数据处理技术，尤其涉及一种性别判断方法、装置、设备及可读存储介质。

背景技术

目前，很多应用场景中需要根据语音判断性别，例如，在游戏软件中，需要根据玩家在游戏中的语音判断玩家性别。

现有技术中根据语音判断性别的方法，一般先提取待识别语音的特征参数，具体采用的方法是计算每一条语音的MFCC(Mel Frequency Cepstral Coefficents，梅尔频率倒谱系数)，再使用预先训练好的模型根据该MCFF判断待识别语音数据对应的性别。

人类在发声时，将发音时声带振动的声音称为浊音，声带不振动的声音称为清音。发明人发现，即使在发出浊音时，呼气也是不可避免的，因此，一条语音中不可避免的会同时存在清音和浊音，而现有技术的方案中，直接确定语音的MFCC，其中会同时受到清音和浊音的影响，导致基于该MFCC进行判断得到的性别结果不准确。

发明内容

本公开提供一种性别判断方法、装置、设备及可读存储介质，以解决现有技术中，采用直接确定语音的MFCC，并基于该MFCC进行判断得到的性别结果不准确的问题。

本公开的第一个方面是提供一种性别判断方法，包括：

对待识别语音数据进行预处理，得到帧数据；

根据预设算法确定每个所述帧数据对应的基频；

根据所述基频确定所述帧数据中包括清音部分、浊音部分；

分别确定所述帧数据中所述清音部分对应的第一MFCC、所述浊音部分对应的第二MFCC；

将所述帧数据的基频、所述第一MFCC、所述第二MFCC输入预设性别判断模型，以使所述预设性别判断模型确定所述待识别语音数据对应的性别。

本公开的另一个方面是提供一种性别判断装置，包括：

预处理模块，用于对待识别语音数据进行预处理，得到帧数据；

基频确定模块，用于根据预设算法确定每个所述帧数据对应的基频；

分离模块，用于根据所述基频确定所述帧数据中包括清音部分、浊音部分；

系数确定模块，用于分别确定所述帧数据中所述清音部分对应的第一MFCC、所述浊音部分对应的第二MFCC；

性别确定模块，用于将所述帧数据的基频、所述第一MFCC、所述第二MFCC输入预设性别判断模型，以使所述预设性别判断模型确定所述待识别语音数据对应的性别。

本公开的又一个方面是提供一种性别判断设备，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并配置为由所述处理器执行以实现如上述第一方面所述的性别判断方法。

本公开的又一个方面是提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现如上述第一方面所述的性别判断方法。

本公开提供的性别判断方法、装置、设备及可读存储介质的技术效果是：

本公开提供的性别判断方法、装置、设备及可读存储介质，包括：对待识别语音数据进行预处理，得到帧数据；根据预设算法确定每个帧数据对应的基频；根据基频确定帧数据中包括清音部分、浊音部分；分别确定帧数据中清音部分对应的第一MFCC、浊音部分对应的第二MFCC；将帧数据的基频、第一MFCC、第二MFCC输入预设性别判断模型，以使预设性别判断模型确定待识别语音数据对应的性别。本实施例提供的方法、装置、设备及可读存储介质，能够分离待识别语音数据包括的各个帧数据中的清音部分和浊音部分，从而根据清音部分和浊音部分分别确定MFCC系数，再根据帧数据的基频以及清音部分和浊音部分对应的MFCC系数，使用预设性别模型确定待识别语音数据的性别，由于得到的MFCC系数分别只受到清音或浊音的影响，使得确定的性别结果更加准确。

附图说明

图1为本发明一示例性实施例示出的性别判断方法的流程图；

图2为本发明另一示例性实施例示出的性别判断方法的流程图；

图2A为本发明一示例性实施例示出的根据自相关函数确定基频的方法的流程图；

图2B为本发明一示例性实施例示出的自相关函数示意图；

图2C为本发明一示例性实施例示出的拟合曲线示意图；

图2D为本发明另一示例性实施例示出的根据自相关函数确定基频的方法的流程图；

图2E为本发明一示例性实施例示出的分离清音、浊音的方法的示意图；

图3为本发明一示例性实施例示出的性别判断装置的结构图；

图4为本发明另一示例性实施例示出的性别判断装置的结构图；

图5为本发明一示例性实施例示出的性别判断设备的结构图。

具体实施方式

男女声之所以能被区分，是因为发声器官结构的内在差异，导致了基频和频谱包络的不同。清音的本质，是近似白噪声的呼吸声，在通过声道时被在不同频段进行了增强和减弱，而生成了足以辨义的频谱差别。因为声道结构是有性别差异的，因此清音的频谱也会有性别差异，能够在性别判定中起到一定作用。

同时，即使是在发出浊音的时候，呼气也是不可避免的，从而也会带有清音成分。因此，如果对一帧的频谱直接计算MFCC，得到的结果就是受到了浊音和清音共同的影响，无法完全代表浊音谱或清音谱的形状。

本发明实施例提供的方案中，在每个帧数据中分离出清音部分以及浊音部分，再分别确定清音部分和浊音部分的MFCC，最后使用预先训练得到的判断模型基于清音部分和浊音部分的MFCC确定待识别语音的性别，使得性别判断结果更加准确。

图1为本发明一示例性实施例示出的性别判断方法的流程图。

如图1所示，本实施例提供的性别判断方法包括：

步骤101，对待识别语音数据进行预处理，得到帧数据。

本实施例提供的性别判断方法可以由判断设备来执行，该判断设备可以是具备计算能力的电子设备，例如计算机、平板电脑、移动电话等。本实施例提供的方法，用于根据待识别语音数据进行性别判断，具体可以得到说出该待识别语音的用户性别。

实际应用时，可以对每条待识别语音数据进行预处理，得到帧数据。

其中，可以对待识别语音数据进行重采样处理，例如，可以在16000Hz的预设频率下对待识别语音数据进行重采样，即每秒从连续的语音数据中提取并组成16000个离散信号。

具体的，经过重采样后，可以得到待识别语音数据对应的采样数据，此时的采样数据包括多个离散信号。因为语音信号为短时平稳信号，所以需要进行分帧处理，以便把每一帧当成平稳信号处理。同时为了减少帧与帧之间的变化，相邻帧之间取重叠，得到待识别语音数据对应的每个帧数据。例如，可以按照帧长为1024、帧移为256对采样数据进行分帧。

进一步的，本实施例提供的方法中，还可以将待识别语音数据的能量进行归一化，并确定每个帧数据归一化后的能量。能量值可以用幅值的形式表示，每个时间点对应于一个能量幅值。

实际应用时，可以删除能量幅值低于阈值的帧，即剔除无意义帧数据。

步骤102，根据预设算法确定每个帧数据对应的基频。

其中，针对每个帧数据，可以通过预设算法计算其对应的基频。在声音中，基频是指一个复音中基音的频率。在构成一个复音的若干个音中，基音的频率最低，强度最大。

具体的，判断设备中可以设置自相关算法、平行处理法、倒谱法和简化逆滤波法等算法，用于提取帧数据中的基频。

实际应用时，自相关算法是利用语音信号在发浊音时的周期性来检验音调的周期的算法。自相关函数是信号自身的相关函数，可以用来度量信号自身的相似性。对于周期性的信号，自相关函数也呈周期性，因此，可以根据帧数据的自相关函数的周期性，来确定其基频。

可选的，语音的时域波形能够代表语音信号随时间变化的幅值变化情况，因此，可以根据时域波形确定帧数据的基频。例如，可以统计在一个单位时间内，波形中幅值出现的次数，就能够确定出基频。

其中，还可以根据每个帧数据的自相关函数确定对应的自相关系数，再根据自相关系数确定整个待识别语音数据的初步基频轨迹，再根据每个帧数据的实际情况，对初步基频进行调整，进而得到每个帧数据的基频。

步骤103，根据基频确定帧数据中包括清音部分、浊音部分。

具体的，确定出每个帧数据的基频后，可以根据基频分离出每个帧数据中包括的清音部分以及浊音部分。

进一步的，可以确定帧数据对应频谱，例如，通过短时FFT计算确定每个帧数据的频谱。在频谱中确定清音部分和浊音部分。频谱可以是信号幅值与信号频率间的关系谱，即在不同的频率下，音频数据的幅值大小。

实际应用时，浊音的能量值比清音大得多，因此，可以根据频谱中的幅值确定其中包括的浊音，再将剩余部分作为帧数据的清音。

其中，在频谱中，可以确定其中的峰值，并在峰值之前以及之后确定局部最小值，得到峰脚，连接两个峰脚就能够得到一个近似三角形的部分，这一部分，作为帧数据的浊音部分。

可以根据基频确定峰值，具体将基频的n次谐波频点对应的幅值，确定为峰值。

具体的，在确定峰脚时，可能会由于扰动，在当前的峰脚附近还存在局部最小值，导致浊音分离不完全。因此，还可以根据峰值确定周边范围，并根据该范围内的幅值确定幅值阈值，在确定峰脚时，在峰值前后区域内、且幅值低于该幅值阈值的范围内，确定峰脚。

进一步的，将确定的三角形部分认为是浊音部分，那么剩余的部件即为清音部分。

步骤104，分别确定帧数据中清音部分对应的第一MFCC、浊音部分对应的第二MFCC。

实际应用时，可以分别计算清音和浊音部分的MFCC值。还可以保留MFCC的前20项，作为最终的第一MFCC和第二MFCC。

其中，可以根据帧数据的频谱，确定出清音频谱以及浊音频谱，将清音频谱以及浊音频谱通过一组三角滤波器，再作离散余弦变换(DCT)得到MFCC系数。即通过MFCC系数表示信号频谱的能量在不同频率区间的分布。每一个滤波器的作用就是得到对应频率区间的频谱能量。

具体的MFCC计算方法可以采用现有技术中的方式。

步骤105，将帧数据的基频、第一MFCC、第二MFCC输入预设性别判断模型，以使预设性别判断模型确定待识别语音数据对应的性别。

进一步的，对于男性、女性的声音来说，其在基频以及能量上的表现均有各自的特定，因此，可以根据帧数据的基频以及清音的MFCC系数、浊音的MFCC系数确定待识别语音数据对应的性别。

实际应用时，可以预先训练得到预设性别判断模型，将待识别语音数据包括的帧数据的基频、第一MFCC、第二MFCC输入预设性别判断模型，以使预设性别判断模型确定待识别语音数据对应的性别。

其中，可以预先准确用于训练模型的训练语音数据。可以在实际应用场景中收集训练语音数据，例如，可以收集数千条游戏玩家的录音，形成训练语音数据。

具体的，可以由人工对这些训练语音数据进行标注，使得每一条训练语音数据都携带有性别标识。本实施例提供的方法中，性别标识除了“男性”、“女性”以外，还可以包括“无”。设置有男性标识的训练语音数据，表明该语音数据是由男性说出的，设置有女性标识的训练语音数据，表明该语音数据是由女性说出的，设置有无的训练语音数据，表明这一条训练语音数据内没有用户说话，这条训练语音数据中可以有音频信号，但该音频信号中不包括说话内容，例如，可以是计算机运转的声音、其他噪音等。

进一步的，在对训练语音数据标注时，可以使用标识符分别表示“男性”、“女性”、“无”，例如，可以用1表示“男性”，2表示“女性”，0表示“无”。

实际应用时，可以对携带有性别信息的训练语音数据进行处理，具体可以如步骤101-104中对待识别语音数据进行处理的过程，得到训练语音数据包括的帧数据的基频、清音MFCC、浊音MFCC。并根据训练语音数据携带的性别标识，训练语音数据包括的帧数据的基频，清音MFCC、浊音MFCC训练模型，得到性别判断模型。

其中，在一种实施方式中，可以针对每个性别类型都设置一个预设模型，并对每个预设模型进行训练，从而得到不同性别类别对应的判断模型。例如，女性判断模型，男性判断模型，无人判断模型。在这种实施方式中，预设性别判断模型可以包括多个模型，可以将待识别语音数据包括的帧数据的基频、第一MFCC、第二MFCC分别输入多个模型，并根据多个模型输出的结果，确定出待识别语音数据对应的性别。

例如，每个模型输出的结果可以是属于该模型对应性别的概率值，还可以是属于该模型对应性别的分数值。即通过每个模型，能够确定出每个帧数据对应的分数或概率值，可以确定同一个模型输出结果的平均值，将其作为最终评价指标，再根据该最终评价指标，确定出待识别语音数据所对应的性别。例如，若通过女性判断模型确定的最终评价指标最高，则可以认为待识别语音数据对应的性别是女。

本实施例提供的方法用于确定带识别语音数据对应的性别，该方法由设置有本实施例提供的方法的设备执行，该设备通常以硬件和/或软件的方式来实现。

本实施例提供的性别判断方法，包括：对待识别语音数据进行预处理，得到帧数据；根据预设算法确定每个帧数据对应的基频；根据基频确定帧数据中包括清音部分、浊音部分；分别确定帧数据中清音部分对应的第一MFCC、浊音部分对应的第二MFCC；将帧数据的基频、第一MFCC、第二MFCC输入预设性别判断模型，以使预设性别判断模型确定待识别语音数据对应的性别。本实施例提供的方法，能够分离待识别语音数据包括的各个帧数据中的清音部分和浊音部分，从而根据清音部分和浊音部分分别确定MFCC系数，再根据帧数据的基频以及清音部分和浊音部分对应的MFCC系数，使用预设性别模型确定待识别语音数据的性别，由于得到的MFCC系数分别只受到清音或浊音的影响，使得确定的性别结果更加准确。

图2为本发明另一示例性实施例示出的性别判断方法的流程图。

如图2所示，本实施例提供的性别判断方法，包括：

步骤201，对携带有性别标识的语音数据进行预处理，得到训练帧数据；

步骤202，根据预设算法确定每个训练帧数据对应的训练基频；

步骤203，根据训练基频确定训练帧数据中包括训练清音部分、训练浊音部分；

步骤204，分别确定训练帧数据中训练清音部分对应的清音MFCC、训练浊音部分对应的浊音MFCC；

步骤205，根据训练语音数据的性别标识、训练帧数据的训练基频、清音MFCC、浊音MFCC训练模型，得到预设性别判断模型。

本实施例提供的方法中，还可以包括训练预设性别判断模型的步骤。

实际应用时，可以对携带有性别信息的训练语音数据进行处理，提取每条训练语音数据中的特征参数，具体可以如步骤101-104或下述中对待识别语音数据进行处理的过程，得到训练语音数据包括的帧数据的基频、清音MFCC、浊音MFCC。并根据训练语音数据携带的性别标识，训练语音数据包括的帧数据的基频，清音MFCC、浊音MFCC训练模型，得到性别判断模型。

其中，在根据训练语音数据的性别标识、训练帧数据的训练基频、清音MFCC、浊音MFCC训练模型时，可以将具有男性标识的训练语音数据对应的训练帧数据的基频、清音MFCC以及浊音MFCC输入第一预设模型，训练得到男性判断模型；将具有女性标识的训练语音数据对应的训练帧数据的基频、清音MFCC以及浊音MFCC输入第二预设模型，训练得到女性判断模型；将具有无人标识的训练语音数据对应的训练帧数据的基频、清音MFCC以及浊音MFCC输入第三预设模型，训练得到无人判断模型。

实际应用时，本实施例提供的方法中，可以对每条训练语音数据进行处理得到多个训练帧数据，对于每个训练帧数据能够确定出对应的训练基频、清音MFCC系数、浊音MFCC系数。可以认为训练语音数据的性别标识适用于其包括的每个训练帧数据。因此，每个训练帧数据还具有性别标识这一特征。

其中，可以针对不同性别训练得到对应的判断模型。

具体的，可以设置不同性别类型对应的第一预设模型，第二预设模型以及第三预设模型，该预设模型具体可以是GMM模型，再将相应类别的训练帧数据的参数输入上述模型，从而对模型进行训练。训练帧数据参数可以包括性别标识、特征向量，特征向量可以是由训练基频、清音MFCC、浊音MFCC组成的向量。

进一步的，本实施例提供的方法中，性别标识包括男性、女性以及无人，因此，可以分别训练得到三个判断模型。

实际应用时，这三种性别判断模型的确定时序不进行限制。

其中，训练预设性别判断模型的步骤可以由训练设备来执行，该训练设备和判断性别的判断设备可以是同一个电子设备，也可以是不同的电子设备。

步骤206，按照预设采样频率对待识别语音数据进行重采样得到采样数据。

其中，需要对待识别语音数据进行处理，再基于处理后的数据提取特征参数。

首先，需要对待识别语音数据进行重采样处理。可以预先在判断设备中预先设置采样频率，当判断设备判断性别时，可以获取这一采样频率，并根据该采样频率对待识别语音数据进行重采样处理。

具体的，预设采样频率可以是16000Hz，即在一秒时长的语音数据中，采样得到16000个数据值，通过对待识别语音数据重采样，能够得到该语音数据对应的采样数据。例如，一条语音数据时长10秒，则可以得到包括160000个数据值的采样数据，这些数据值可以认为是某一时刻的幅值。

步骤207，根据预设分帧参数对采样数据进行分帧处理，得到帧数据。

由于语音信号在宏观上是不平稳的，在微观上是平稳的，具有短时平稳性，因此，需要将一条待识别语音数据分割成多个帧数据。

进一步的，判断设备中可以预先设置分帧参数，当需要对采样数据进行分帧处理时，可以获取该分帧参数。分帧参数可以包括帧长，还可以包括帧移。例如，帧长可以是1024，帧移可以是256。

实际应用时，判断设备可以根据分帧参数对采样数据进行分割，得到多个帧数据。

可选的，本实施例提供的方法还可以包括步骤208。

步骤208，确定每个帧数据对应的能量，并删除能量低于预设阈值的帧数据。

其中，可以确定帧数据的能量，并设定预设阈值，若语音帧的能量低于预设阈值，则认为该帧数据为无声段，因此，可以删除该帧数据。

具体的，可以计算一帧中语音幅值的平方和作为该帧的能量。

进一步的，还可以先对语音的能量进行归一化处理，再计算每一帧对应的能量，例如，将整个语音数据的幅值除以最大的幅值绝对值，使得幅值最大的点绝对值为1。

实际应用时，可以预先设置归一化能量阈值，因此，可以将每一帧数据归一化后的能量与归一化能量阈值进行比对，并删除能量低于该阈值的帧数据。

步骤209，确定帧数据在时域的自相关函数，并根据自相关函数确定帧数据对应的基频。

其中，在实际执行时若设置有步骤208，则可以根据未被删除的帧数据执行本步骤。

具体的，可以确定帧数据的自相关函数。本实施例提供的方法中，自相关函数可以通过下式进行确定：

其中corr_x为帧数据x的自相关函数，n为x的长度，k为时延，x[i]与x[i+k]是相邻的数据值。

进一步的，可以根据帧数据的自相关函数确定该帧数据的基频。

图2A为本发明一示例性实施例示出的根据自相关函数确定基频的方法的流程图。

如图2A所示，在一种实施方式中，可以采用下述步骤，根据帧数据的自相关函数确定该帧数据的基频。

步骤2091，根据自相关函数确定出最大幅值对应的时间，并根据时间确定相邻时间。

实际应用时，自相关函数是一个帧数据在时域上的函数，通过自相关函数，能够体现出帧数据的幅值周期与时间的对应关系。

其中，可以根据自相关函数，确定最大幅值对应的时间。例如，自相关函数是具有波形的函数，则可以确定波形的峰值，将峰值对应的时间，作为最大幅值对应的时间。

具体的，还可以删除自相关函数第一次过零点之前的部分，时延接近0时，自相关函数可能大于时延等于周期时的自相关函数值，因此，时延太短，信号发生的变化不够大，这对于计算频率没有任何意义，因此可以舍去。

进一步的，还可以确定该时间对应的相邻时间，可以确定两个相邻时间。例如，若确定的时间是59，则相邻时间是58和60。

实际应用时，在确定帧数据在时域的自相关函数之后，还可以将帧数据对应的自相关函数的幅值进行归一化。具体可以将自相关函数的每个幅值，与时刻为0时的幅值相除，并将结果作为归一化后的自相关幅值。相应的，在确定最大幅值对应的时间时，可以根据归一化后的自相关函数幅值，确定最大幅值对应的时间。

图2B为本发明一示例性实施例示出的自相关函数示意图。

如图2B所示，删除第一次过零点之前的部分，在该自相关函数中，在59s时，自相关函数达到峰值。

步骤2092，根据自相关函数、时间、相邻时间进行二次插值，确定目标时间。

实际应用时，由于自相关函数是根据采样数据得到的，由于采样处理，采样数据相较于最初的语音数据可能存在数据缺失情况。因此，在确定了幅值最大的时间以及相邻时间后，可以对其进行插值处理，得到更准确的最大幅值对应的时间。

其中，可以确定当前的最大幅值，即确定的时间对应幅值，还可以确定相邻时间对应的幅值，从而根据这三个时间以及对应的幅值，进行插值处理。

具体的，可以预先设置插值公式，用于确定目标时间，例如，该插值公式可以是：

其中，

是目标时间，t是当前确定的最大幅值对应的时间，t-1、t+1是两个相邻时间，a[t]是自相关函数中，时间为t时对应的幅值。根据上式，能够确定得到目标时间

进一步的，还可以对时间、相邻时间及其对应的幅值进行拟合，得到拟合曲线，再根据拟合曲线确定目标时间。例如，对t、t-1、t+1及其对应的幅值进行拟合。

图2C为本发明一示例性实施例示出的拟合曲线示意图。

如图2C所示，通过拟合能够得到二次函数的曲线，可以将拟合曲线中的顶点对应的时间，作为目标时间。如图2C所示，图中的目标时间为59.24。

步骤2093，根据预设采样频率、目标时间确定帧数据对应的基频。

实际应用时，可以计算预设采样频率以及目标时间的比值，从而确定出帧数据的基频。例如，本实施例提供的方法中，预设采样频率可以是16000Hz，如图2C所示，确定的目标时间可以是59.24，因此，确定的基频可以是16000/59.24＝270.1Hz。

图2D为本发明另一示例性实施例示出的根据自相关函数确定基频的方法的流程图。

如图2D所示，还可以采用下述步骤确定帧数据的基频。

步骤2094，根据帧数据的自相关函数确定其对应的自相关系数。

本实施例提供的方法，可以通过Viterbi译码求出整条语音的基频轨迹。

其中，可以获取帧数据的自相关函数，并确定帧数据的自相关系数。例如，可以将自相关系数谱A[t,f]表示第t帧对应基频f的自相关系数，若第t帧的语音信号为x，则自相关系数A[t,f]等于corr_x[k]，其中k*f＝Fs。k是时延，Fs为采样频率。

在Viterbi译码过程中，能够保证k＝Fs/f是整数。

步骤2095，根据每个帧数据的自相关系数，确定帧数据对应的频率似然值。

帧数据对应的频率似然值可以包括，第t帧基频为f时，前t帧基频轨迹的对应似然值总和，还可以包括第t帧选取基频为f、第t-1帧基频为p时，前t帧基频轨迹的对应似然值总和。

具体的，可以用前驱p[t,f]表示第t帧对应基频f时，前一帧基频的最优值。总似然值L[t,f]表示选取第t帧基频为f时，前t帧基频轨迹的对应似然值总和。当前似然值l_t,[p]表示第t帧选取基频为f、第t-1帧基频为p时，前t帧基频轨迹的对应似然值总和。阈值Th为事先设定好的清浊判定阈值。则：

A[t,0]＝Th

l_t,f[p]＝L[t-1,p]+A[t,f](pf＝0)

p[t,f]＝argmaxl_t,f[p]

通过上述计算方式，能够得到帧数据对应不同基频时的频率似然值。

步骤2096，根据频率似然值确定帧数据的初步基频，并根据频率似然值确定初步基频是否为局部极大值。

可以根据频率似然值确定前驱矩阵p，并保存的前驱矩阵p。若最后一帧编号为T，则可以确定最后一帧的基频为f_T＝argmaxL[T,f]，并利用之前保存的前驱矩阵p，可以回溯得到每一帧的初步基频f_t＝p[t+1,f_t+1]。

针对每个帧数据来说，可以具有频率与似然值的对应关系，可以设置横轴为频率，纵轴为频率似然值。此时，可以在频率与似然值的关系中，确定出当前确定的基频是否为局部极大值。

若是，则执行步骤2097，若否，则执行步骤2098。

步骤2097，将初步基频确定为帧数据对应的基频。

其中，若初步基频在频率与似然值的对应关系中，是局部极大值，则可以将该初步基频确定为该帧数据最终的基频。

步骤2098，根据初步基频确定局部极大值，并将局部极大值确定为帧数据对应的基频。

具体的，若初步基频在频率与似然值的对应关系中，不是局部极大值，则可以确定初步基频附近的局部极大值，具体可以在小于初步基频的范围确定第一局部极大值，还可以在大于初步基频的范围确定第二局部极大值，并比对这两个局部极大值，将较大的幅值(也就是似然值)对应的频率作为最终的局部极大值。可以将确定的局部极大值确定为帧数据对应的基频。

步骤210，根据基频在帧数据的频谱中确定帧数据的谐波频率。

进一步的，可以对每一个帧数据进行处理，得到对应的频谱。具体可以对帧数据进行FTT转换，得到对应的频域信号。频谱用于表征一帧数据的频率与能量的对应关系。

实际应用时，可以在帧数据中确定谐波频点，可以认为基频的整数倍频率为谐波频率，即n×f₀。n为谐波次数，f₀为帧数据的基频。

步骤211，根据谐波频率在频谱中确定峰值，并根据峰值确定峰脚。

其中，可以在频谱中，将谐波频率对应的能量幅值作为峰值。可以在该峰值的基础上，在小于谐波频率的范围以及大于谐波频率的范围，确定峰脚。峰脚可以认为是能量从峰值连续下降的最低处，在频谱中，峰脚处周围的连续能量均大于峰脚处的能量。

具体的，对于一个峰值来说，能够确定两个峰脚，一个峰脚的频率小于谐波频率，另一个峰脚的频率大于谐波频率。

进一步的，在遇到扰动时，频谱中峰脚的位置可能存在小的峰值，导致峰脚确定不准确的问题。因此，还可以在峰值周围确定能量阈值，并在小于该能量阈值的范围确定峰脚。

实际应用时，可以获取频谱中，峰值前、后半个基频范围内的幅值，并根据幅值确定幅值阈值。若谐波频率为n×f₀，则可以获取频率范围n×f₀-f₀/2到n×f₀+f₀/2之间的幅值，并根据获取的幅值确定幅值阈值。具体可以采集一定数量的幅值，并计算幅值均值作为幅值阈值。

其中，在峰值前、后范围的频谱中，确定出幅值小于幅值阈值的目标范围，并在目标范围内确定峰脚。可以在频谱中确定小于谐波频率，且能量幅值小于幅值阈值的范围，还可以确定大于谐波频率，且能量幅值大于幅值阈值的范围作为目标范围。并在目标范围内确定频率距离谐波频率最近的局部极小值，并将该局部极小值对应的频谱位置，确定为峰脚。

步骤212，根据峰值、峰脚确定浊音部分，将频谱中浊音以外的部分，确定为清音部分。

具体的，可以将峰值及其对应的峰脚连接起来，得到类似于三角形的部分，作为浊音部分。将频谱中除去浊音剩余的部分，作为清音部分。

进一步的，可以认为一个峰值对应两个峰脚。将两个峰脚进行连接，该连线对应的频率及幅值，可以认为是清音部分。而原始的频谱中，该连线范围的频率对应的帧数据的幅值作为浊音部分。

图2E为本发明一示例性实施例示出的分离清音、浊音的方法的示意图。

如图2E所示，图中类似于三角形的部分为浊音部分，浊音下半部分为清音部分。

步骤213，分别确定帧数据中清音部分对应的第一MFCC、浊音部分对应的第二MFCC。

步骤213与步骤104的具体原理和实现方式类似，此处不再赘述。

步骤214，将待识别语音数据对应的帧数据的基频、第一MFCC、第二MFCC分别输入男性判断模型、女性判断模型、无人判断模型。

其中，可以将待识别语音数据的特征参数分别输入男性判断模型、女性判断模型、无人判断模型。具体可以将待识别语音数据包括的各个帧数据的基频、第一MFCC、第二MFCC组成特征向量，再每个帧数据对应的特征向量输入训练得到的三个模型中。

步骤215，获取男性判断模型、女性判断模型、无人判断模型确定的每个帧数据对应的男性评价子值、女性评价子值、无人评价子值。

具体的，三个训练好的模型，可以输出其根据每个特征向量确定的评价子值，例如，男性判断模型可以对输入的每个特征向量进行计算，得到该特征向量所属的帧数据对应的男性评价子值。女性判断模型、无人判断模型与之类似，也能够计算出每个特征向量对应的评价子值，也就是该特征向量所属的帧数据的评价子值。

进一步的，该评价子值可以是帧数据对应的性别似然值。

步骤216，根据每个帧数据对应的男性评价子值、女性评价子值、无人评价子值，确定待识别语音数据对应的男性评价值、女性评价值、无人评价值。

进一步的，可以将每个帧数据对应的同一类别评价子值进行汇总，例如可以求和、求平均值等方式，确定出该类别评价值。例如，可以将每个帧数据对应的男性评价子值相加，再除以帧数据的数量，从而得到待识别语音数据的男性评价值。相似的，还可以得到女性评价值、无人评价值。

步骤217，根据男性评价值、女性评价值、无人评价值确定待识别语音数据对应的性别。

实际应用时，可以将评价值最高的性别类别作为待识别语音数据对应的性别。例如，若女性评价值最高，则可以确定待识别语音数据对应的性别为女性。

图3为本发明一示例性实施例示出的性别判断装置的结构图。

如图3所示，本实施例提供的性别判断装置，包括：

预处理模块31，用于对待识别语音数据进行预处理，得到帧数据；

基频确定模块32，用于根据预设算法确定每个所述帧数据对应的基频；

分离模块33，用于根据所述基频确定所述帧数据中包括清音部分、浊音部分；

系数确定模块34，用于分别确定所述帧数据中所述清音部分对应的第一MFCC、所述浊音部分对应的第二MFCC；

性别确定模块35，用于将所述帧数据的基频、所述第一MFCC、所述第二MFCC输入预设性别判断模型，以使所述预设性别判断模型确定所述待识别语音数据对应的性别。

本实施例提供的性别判断装置的具体原理和实现方式及效果均与图1所示的实施例类似，此处不再赘述。

图4为本发明另一示例性实施例示出的性别判断装置的结构图。

如图4所示，在上述实施例的基础上，本实施例提供的性别判断装置，可选的，所述预处理模块31包括：

采样单元311，用于按照预设采样频率对所述待识别语音数据进行重采样得到采样数据；

分帧单元312，用于根据预设分帧参数对所述采样数据进行分帧处理，得到帧数据。

可选的，所述基频确定模块32包括：

确定单元321，用于确定所述帧数据在时域的自相关函数，基频确定单元322，用于根据所述自相关函数确定所述帧数据对应的基频。

可选的，所述基频确定单元322具体用于：

根据所述自相关函数确定出最大幅值对应的时间，并根据所述时间确定相邻时间；

根据所述自相关函数、所述时间、所述相邻时间进行二次插值，确定目标时间；

根据所述预设采样频率、所述目标时间确定所述帧数据对应的所述基频。

所述基频确定模块32还用于在所述确定所述帧数据在时域的自相关函数之后：

将所述帧数据对应的自相关函数的幅值进行归一化；

相应的，所述基频确定单元322具体用于：

根据归一化后的自相关函数幅值，确定最大幅值对应的时间。

可选的，所述基频确定单元322具体用于：

根据所述帧数据的所述自相关函数确定其对应的自相关系数；

根据每个所述帧数据的所述自相关系数，确定所述帧数据对应的频率似然值；

根据所述频率似然值确定所述帧数据的初步基频，并根据所述频率似然值确定所述初步基频是否为局部极大值；

若是，则将所述初步基频确定为所述帧数据对应的所述基频；

若否，则根据所述初步基频确定局部极大值，并将所述局部极大值确定为所述帧数据对应的所述基频。

可选的，所述分离模块33包括：

谐波确定单元331，用于根据所述基频在所述帧数据的频谱中确定所述帧数据的谐波频率；

分离单元332，用于根据所述谐波频率在所述频谱中确定峰值，并根据所述峰值确定峰脚；

分离单元332，还用于根据所述峰值、所述峰脚确定浊音部分，将所述频谱中浊音以外的部分，确定为所述清音部分。

可选的，所述分离单元332具体用于：

获取所述频谱中，所述峰值前、后半个基频范围内的幅值，并根据所述幅值确定幅值阈值；

在所述峰值前、后范围的所述频谱中，确定出幅值小于所述幅值阈值的目标范围，并在所述目标范围内确定所述峰脚。

可选的，所述装置还包括训练模块36，用于：

对携带有性别标识的语音数据进行预处理，得到训练帧数据；

根据预设算法确定每个所述训练帧数据对应的训练基频；

根据所述训练基频确定所述训练帧数据中包括训练清音部分、训练浊音部分；

分别确定所述训练帧数据中所述训练清音部分对应的清音MFCC、所述训练浊音部分对应的浊音MFCC；

根据所述训练语音数据的性别标识、所述训练帧数据的训练基频、所述清音MFCC、所述浊音MFCC训练模型，得到所述预设性别判断模型

可选的，所述训练模块36包括：

男性训练单元361，用于将具有男性标识的训练语音数据对应的训练帧数据的基频、清音MFCC以及浊音MFCC输入第一预设模型，训练得到男性判断模型；

女性训练单元362，用于将具有女性标识的训练语音数据对应的训练帧数据的基频、清音MFCC以及浊音MFCC输入第二预设模型，训练得到女性判断模型；

无人训练单元363，用于将具有无人标识的训练语音数据对应的训练帧数据的基频、清音MFCC以及浊音MFCC输入第三预设模型，训练得到无人判断模型。

可选的，所述性别确定模块35具体用于：

将所述待识别语音数据对应的所述帧数据的基频、所述第一MFCC、所述第二MFCC分别输入男性判断模型、女性判断模型、无人判断模型；

获取所述男性判断模型、所述女性判断模型、所述无人判断模型确定的每个所述帧数据对应的男性评价子值、女性评价子值、无人评价子值；

根据所述每个所述帧数据对应的男性评价子值、所述女性评价子值、所述无人评价子值，确定所述待识别语音数据对应的男性评价值、女性评价值、无人评价值；

根据所述男性评价值、所述女性评价值、所述无人评价值确定所述待识别语音数据对应的性别。

本实施例提供的性别判断装置的具体原理和实现方式均与图2所示的实施例类似，此处不再赘述。

图5为本发明一示例性实施例示出的性别判断设备的结构图。

如图5所示，本实施例提供的性别判断设备包括：

存储器51；

处理器52；以及

计算机程序；

其中，所述计算机程序存储在所述存储器51中，并配置为由所述处理器52执行以实现如上所述的任一种性别判断方法。

本实施例还提供一种计算机可读存储介质，其上存储有计算机程序，

所述计算机程序被处理器执行以实现如上所述的任一种性别判断方法。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种性别判断方法，其特征在于，包括：

对待识别语音数据进行预处理，得到帧数据；

根据预设算法确定每个所述帧数据对应的基频；

根据所述基频确定所述帧数据中包括的清音部分以及浊音部分；

将所述帧数据的基频、所述第一MFCC和所述第二MFCC输入预设性别判断模型，以使所述预设性别判断模型确定所述待识别语音数据对应的性别。

2.根据权利要求1所述的方法，其特征在于，所述对待识别语音数据进行预处理，得到帧数据包括：

按照预设采样频率对所述待识别语音数据进行重采样得到采样数据；

根据预设分帧参数对所述采样数据进行分帧处理，得到帧数据。

3.根据权利要求2所述的方法，其特征在于，所述根据预设算法确定每个所述帧数据对应的基频，包括：

确定所述帧数据在时域的自相关函数，并根据所述自相关函数确定所述帧数据对应的基频。

4.根据权利要求3所述的方法，其特征在于，所述根据所述自相关函数确定所述帧数据对应的基频，包括：

5.根据权利要求4所述的方法，其特征在于，所述确定所述帧数据在时域的自相关函数之后，还包括：

将所述帧数据对应的自相关函数的幅值进行归一化；

相应的，所述根据所述自相关函数确定出最大幅值对应的时间，包括：

6.根据权利要求3所述的方法，其特征在于，所述根据所述自相关函数确定所述帧数据对应的基频，包括：

7.根据权利要求1所述的方法，其特征在于，所述根据所述基频确定所述帧数据中包括清音部分、浊音部分，包括：

根据所述基频在所述帧数据的频谱中确定所述帧数据的谐波频率；

根据所述谐波频率在所述频谱中确定峰值，并根据所述峰值确定峰脚；

根据所述峰值、所述峰脚确定浊音部分，将所述频谱中浊音以外的部分，确定为所述清音部分。

8.根据权利要求7所述的方法，其特征在于，所述根据所述峰值确定峰脚，包括：

9.根据权利要求1所述的方法，其特征在于，还包括：

根据预设算法确定每个所述训练帧数据对应的训练基频；

根据所述训练基频确定所述训练帧数据中包括的训练清音部分以及训练浊音部分；

根据训练语音数据的性别标识、所述训练帧数据的训练基频、所述清音MFCC和所述浊音MFCC训练模型，得到所述预设性别判断模型。

10.根据权利要求9所述的方法，其特征在于，所述根据所述训练语音数据的性别标识、所述训练帧数据的训练基频、所述清音MFCC、所述浊音MFCC训练模型，得到所述预设性别判断模型，包括：

将具有男性标识的训练语音数据对应的训练帧数据的基频、清音MFCC以及浊音MFCC输入第一预设模型，训练得到男性判断模型；

将具有女性标识的训练语音数据对应的训练帧数据的基频、清音MFCC以及浊音MFCC输入第二预设模型，训练得到女性判断模型；

将具有无人标识的训练语音数据对应的训练帧数据的基频、清音MFCC以及浊音MFCC输入第三预设模型，训练得到无人判断模型。

11.根据权利要求10所述的方法，其特征在于，将所述帧数据的基频、所述第一MFCC和所述第二MFCC输入预设性别判断模型，以使所述预设性别判断模型确定所述待识别语音数据对应的性别，包括：

将所述待识别语音数据对应的所述帧数据的基频、所述第一MFCC和所述第二MFCC分别输入男性判断模型、女性判断模型、无人判断模型；

根据所述男性评价值、所述女性评价值和所述无人评价值确定所述待识别语音数据对应的性别。

12.一种性别判断装置，其特征在于，包括：

分离模块，用于根据所述基频确定所述帧数据中包括的清音部分以及浊音部分；

性别确定模块，用于将所述帧数据的基频、所述第一MFCC和所述第二MFCC输入预设性别判断模型，以使所述预设性别判断模型确定所述待识别语音数据对应的性别。

13.一种性别判断设备，其特征在于，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并配置为由所述处理器执行以实现如权利要求1-11任一种所述的方法。

14.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，

所述计算机程序被处理器执行以实现如权利要求1-11任一种所述的方法。