CN110246507A

CN110246507A - 一种语音的识别方法和装置

Info

Publication number: CN110246507A
Application number: CN201910716991.6A
Authority: CN
Inventors: 黄选平; 周建龙; 张洪亮; 杨森; 李博; 张雅琴
Original assignee: SHANGHAI YOUYANG XINMEI INFORMATION TECHNOLOGY Co Ltd
Current assignee: Du Xiaoman Technology Beijing Co Ltd
Priority date: 2019-08-05
Filing date: 2019-08-05
Publication date: 2019-09-17
Anticipated expiration: 2039-08-05
Also published as: CN110246507B

Abstract

本申请实施例提供了一种语音的识别方法和装置,所述方法首先获得语音文件；然后提取所述语音文件的多个语音特征参数；所述语音特征参数用于表征男女声音特征的差异；之后依据所述多个语音特征参数识别所述语音文件中说话人的性别；最后选择与所述性别对应的高斯混合模型进行年龄分类，得到所述说话人的年龄段；将所述说话人的性别以及年龄段作为输出结果进行显示。可见，由于本申请实施例中可以根据多个语音特征参数得到该语音文件中说话人的性别，在该性别的基础上来确定出说话人的年龄段，可以快速、准确地识别出说话人的性别、年龄段，进而为后续工作提供了有利的依据。

Description

一种语音的识别方法和装置

技术领域

本申请涉及软件开发技术领域，特别涉及一种语音的识别方法和装置。

背景技术

语音除了承载说话人的意愿信息，同时也携带了说话人如性别、年龄、情绪、身体状况、文化背景、语言种类等信息。

其中，说话人的性别和年龄对于定向推送是具有指导意义的信息。如果可以从语音中得知说话人的性别、年龄，就可以更有针对性的去进行后续工作。

例如，电话销售中如果准确地知道说话人的性别、年龄，那么，在进行销售的过程中可以更针对性的提供销售内容。

又例如，机器人进行内容推送时，如果可以知道说话人的性别、年龄，就可以避免推送一些不合适的内容，避免向未成年人推送有关香烟的内容等。

又例如，在接到报警电话时，可以较为快速的识别出报警人的大概身份，以便于提供更合理的指导意见。

因此，如何可以准确识别出语音中说话人的性别、年龄，成为亟需解决的技术问题。

发明内容

本申请所要解决的技术问题是提供一种语音的识别方法和装置，用以快速、准确地识别出说话人的性别、年龄，作为后续工作的有力依据。

本申请提供了一种一种语音的识别方法，包括：

获得语音文件；

提取所述语音文件的多个语音特征参数；所述语音特征参数用于表征男女声音特征的差异；

依据所述多个语音特征参数识别所述语音文件中说话人的性别；

选择与所述性别对应的高斯混合模型进行年龄分类，得到所述说话人的年龄段；

将所述说话人的性别以及年龄段作为输出结果输出。

可选的，所述提取所述语音文件的多个语音特征参数包括：

读取所述语音文件；

将所述语音文件进行分帧处理，得到多个语音帧；

将每一个所述语音帧进行傅里叶变换得到与该语音帧对应的频谱数据；

依据多个所述频谱数据提取多个语音特征参数。

可选的，所述依据多个所述频谱数据提取多个语音特征参数包括：

提取多个所述频谱数据中与声音频率相关的多个语音特征参数。

可选的，所述提取多个所述频谱数据中与声音频率相关的多个语音特征参数包括：

获取所述频谱数据中所有大于预设阈值的目标频谱数据；

依据所述频谱数据对应的频谱图获得与所述目标频谱数据相对应的目标声音频率；

计算多个所述所述目标声音频率的平均频率、频率标准差、中位频率、25％分位数频率、75％分位数频率、频率间隔范围；

将所述平均频率、所述频率标准差、所述中位频率、所述25％分位数频率、所述75％分位数频率、所述频率间隔范围作为所述与声音频率相关的多个语音特征参数。

获取所述频谱数据中所有大于预设阈值的目标频谱数据；

将所述频谱数据中幅值达到最大值时的频率确定为主频，将所述目标频谱数据中频率最小的频率最为基频；

依据所述主频以及所述基频计算多个所述所述目标声音频率的基频均值、基频标准差、基频最小值、基频最大值、基频范围、主频均值、主频标准差、主频最小值、主频最大值、主频范围；

将所述基频均值、所述基频标准差、所述基频最小值、所述基频最大值、所述基频范围、所述主频均值、所述主频标准差、所述主频最小值、所述主频最大值、所述主频范围作为所述与声音频率相关的多个语音特征参数。

提取所述频谱数据中与声音幅值相关的多个语音特征参数。

可选的，所述提取所述频谱数据中与声音幅值相关的多个语音特征参数包括：

获取所述频谱数据中所有大于预设阈值的目标频谱数据；

依据预设公式计算所述目标声音频率的偏度、峰度、谱熵、频谱平坦度、频谱中心；

将所述偏度、所述峰度、所述谱熵、所述频谱平坦度、所述频谱中心作为所述与声音幅值相关的多个语音特征参数。

可选的，所述依据所述多个语音特征参数识别所述语音文件中说话人的性别包括：

将所述多个语音特征参数输入到预设的二分类模型中，得到所述语音文件中说话人的性别；其中，所述预设的二分类模型是将所述多个语音特征参数映射到高维度空间后，采用SVM分类模型进行性别分类超平面训练得到的。

可选的，所述选择与所述性别对应的高斯混合模型进行年龄分类，得到所述说话人的年龄段包括：

确定与所述性别相对应的高斯混合模型；

获得所述语音文件的MFCC语音特征参数；

利用所述MFCC语音特征参数以及所述多个语音特征参数作为输入参数；

将所述输入参数分别代入多个年龄段的高斯混合模型中，得到多个概率结果；

将所述多个概率结果中最大的一个所对应的年龄段作为所述说话人的年龄段。

本发明另一方面提供了一种语音的识别装置。

一种语音的识别装置，包括：

获得装置，用于获得语音文件；

提取装置，用于提取所述语音文件的多个语音特征参数；所述语音特征参数用于表征男女声音特征的差异；

性别计算装置，用于依据所述多个语音特征参数识别所述语音文件中说话人的性别；

年龄段计算装置，用于选择与所述性别对应的高斯混合模型进行年龄分类，得到所述说话人的年龄段；

输出模块，用于将所述说话人的性别以及年龄段作为输出结果输出。

由上述方案可知，本申请实施例提供了一种语音的识别方法和装置,所述方法首先获得语音文件；然后提取所述语音文件的多个语音特征参数；所述语音特征参数用于表征男女声音特征的差异；之后依据所述多个语音特征参数识别所述语音文件中说话人的性别；最后选择与所述性别对应的高斯混合模型进行年龄分类，得到所述说话人的年龄段；将所述说话人的性别以及年龄段作为输出结果进行显示。可见，由于本申请实施例中可以根据多个语音特征参数得到该语音文件中说话人的性别，在该性别的基础上来确定出说话人的年龄段，可以快速、准确地识别出说话人的性别、年龄段，进而为后续工作提供了有利的依据。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种语音文件的识别方法的流程示意图；

图2是本发明实施例提供的一种语音的识别方法中提取多个语音特征参数的流程示意图；

图3是本发明实施例提供的一种语音文件的识别装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本发明公开了一种语音文件的识别方法，其核心在于基于机器学习精准识别语音文件中说话人的性别和年龄段，以便于根据这些信息来进行优质的服务。

参见图1，图1是本发明实施例提供的一种语音文件的识别方法的流程示意图。

本发明提供的一种语音的识别方法，包括：

S101、获得语音文件；

本发明实施例中，首先需要获得语音文件。

可以理解的是，语音文件可以是在电话交流中所述实时获得的，例如，在接通电话的N秒时间内的语音数据作为语音文件，一般来说，10-30毫秒的时间内，语音信号特定基本是保持相对稳定的，实际使用中，通常不会只分析一帧数据，至少是几十帧数据。

当然，还可以是已经保存好的语音文件，在此不进行限定。

S102、提取所述语音文件的多个语音特征参数；所述语音特征参数用于表征男女声音特征的差异；

S103、依据所述多个语音特征参数识别所述语音文件中说话人的性别；

本发明实施例中，多个语音特征参数是指与男女声音特征的差异所表征的参数，需要说明的是，多个语音特征参数中，不包括MFCC语音特征参数，而是本发明中所特定的多个语音特征参数。

其中，多个语音特征参数具体可以包括：平均频率、频率标准差、中位频率、25％分位数频率、75％分位数频率、频率间隔范围、偏度、峰度、谱熵、频谱平坦度、频谱中心、基频均值、基频标准差、基频最小值、基频最大值、基频范围、主频均值、主频标准差、主频最小值、主频最大值、主频范围。这些语音特征参数均可以表征男女声音特征的差异。

本发明实施例中，利用多个非MFCC语音特征参数来识别语音文件中说话人的性别。

S104、选择与所述性别对应的高斯混合模型进行年龄分类，得到所述说话人的年龄段；

本发明实施例中，在得到说话人的性别之后，以此为依据，来对年龄段进行计算。

其中，高斯混合模型是预先所建立的模型，在本发明中可以包括有儿童、中年、老年分别对应的高斯混合模型，当确定出性别之后，依据男性或女性所对应的多个高斯混合模型进行分类，得到语音文件中说话人所对应的年龄段。

可以理解的是，年龄段可以是指一个年龄范围，例如，儿童的年龄范围可以是18岁以下，老年则是60岁以上，18到60之间的为中年。

基于性别的前提下对年龄段进行分类，计算过程很快，计算结果也更精确。

S105、将所述说话人的性别以及年龄段作为输出结果输出。

本发明实施例中，还有将语音文件中说话人的性别和年龄段作为输出结果来输出的过程。

其中，输出可以是在显示装置上进行显示，也可以是输出到指定装置来显示，例如，在接通电话后，对方说话人的语音文件被很快识别，将其性别和年龄段显示在显示装置中，来提示相关人员。

当然，也可以是作为输出结果来实现后续流程，例如作为自动推送的依据来有选择性的推送内容。

由上述方案可知，本申请实施例提供了一种语音的识别方法,所述方法首先获得语音文件；然后提取所述语音文件的多个语音特征参数；所述语音特征参数用于表征男女声音特征的差异；之后依据所述多个语音特征参数识别所述语音文件中说话人的性别；最后选择与所述性别对应的高斯混合模型进行年龄分类，得到所述说话人的年龄段；将所述说话人的性别以及年龄段作为输出结果进行显示。可见，由于本申请实施例中可以根据多个语音特征参数得到该语音文件中说话人的性别，在该性别的基础上来确定出说话人的年龄段，可以快速、准确地识别出说话人的性别、年龄段，进而为后续工作提供了有利的依据。

本发明实施例中，得到语音文件后，提取其中的多个语音特征参数。在此步骤中，所提取的是与MFCC语音特征参数无关的参数。

具体的，参见图2，图2是本发明实施例提供的一种语音的识别方法中提取多个语音特征参数的流程示意图。

其中，所述提取所述语音文件的多个语音特征参数包括：

S201、读取所述语音文件；

S202、将所述语音文件进行分帧处理，得到多个语音帧；

S203、将每一个所述语音帧进行傅里叶变换得到与该语音帧对应的频谱数据；

本发明实施例中，将获得的语音文件先执行分帧处理，会得到多个语音帧。

然后对每一帧进行傅里叶变换，得到与每一帧各自对应的频谱数据。

其中，对应于每一个频谱来说，频谱可以表示为频率与幅值的关系，基于此，为显示一段语音不同时刻的频谱图，本发明实施例中，将幅值映射为灰度级标识的条形图，幅值越大的位置所对应的区域颜色越深，例如越黑，将每一帧数据的频谱图排列起来，可以增加一个时间维度，得到显示随时间变化的频谱图。

S204、依据多个所述频谱数据提取多个语音特征参数。

本发明实施例中，可以根据多个频谱数据来提取语音特征参数。

其中，语音特征参数可以分为两类，一类是与频率信息相关的参数，一类是与幅值信息相关的参数，这些语音特征参数可以具体包括21个语音特征参数：21个特征，分别为：平均频率、频率标准差、中位频率、25％分位数频率、75％分位数频率、频率间隔范围、偏度、峰度、谱熵、频谱平坦度、频谱中心、基频均值、基频标准差、基频最小值、基频最大值、基频范围、主频均值、主频标准差、主频最小值、主频最大值、主频范围。

可以理解的是，本发明实施例中，这些语音特征参数与MFCC语音特征参数无关，是根据男女声音的差异所对应的频率信息、幅值信息的不同而设置的相关参数。可以使得计算性别时的精度更加精准且高效。

下面对此过程进行详细介绍。

前述实施例中提及了提取多个语音特征参数的过程。

本发明实施例中所述依据多个所述频谱数据提取多个语音特征参数包括：

其中，所述提取多个所述频谱数据中与声音频率相关的多个语音特征参数包括：

获取所述频谱数据中所有大于预设阈值的目标频谱数据；

本发明实施例中，首先计算出每一个语音帧的频谱数据，然后选择超过频谱数据中所有超过阈值的所有数据对应的频率。

然后计算所有频率对应的均值、标准差、中位数、排行1/4的频率、排行3/4的频率，然后用75％分位数频率与25％分位数频率的区间范围作为频率间隔范围。

之所以采用平均频率、频率标准差、中位频率、25％分位数频率、75％分位数频率、频率间隔范围，是因为不同性别的人发声差异主要体现在声音的频率特征上，男性声音频率相对较低，女性声音频率相对较高。

本发明实施例中，所述提取多个所述频谱数据中与声音频率相关的多个语音特征参数包括：

获取所述频谱数据中所有大于预设阈值的目标频谱数据；

本发明实施例中，还会计算基频均值、基频标准差、基频最小值、基频最大值、基频范围、主频均值、主频标准差、主频最小值、主频最大值、主频范围，这些参数与前述介绍的频率的均值等类似，也是可以体现出男女声音差别的参数。

其中，主频是幅值最大时所对应的频率，基频是超过预设阈值时所有频率最小的频率。然后计算整个语音文件的均值、最大值、最小值以及主频范围。其中，基频范围是基频最大值与基频最小值的差值。主频范围是主频最大值与主频最小值的差值。

另外，本发明实施例中，还会提取与声音幅值相关的多个语音特征参数。

提取所述频谱数据中与声音幅值相关的多个语音特征参数。

其中，所述提取所述频谱数据中与声音幅值相关的多个语音特征参数包括：

获取所述频谱数据中所有大于预设阈值的目标频谱数据；

为了方便理解，下面对上述参数的计算过程进行介绍。

偏度(skew)是衡量随机变量概率分布的不对称性，峰度(kurt)反映了峰部的尖度，偏度skew(x)以及峰度kurt(x)的计算公式如下：

其中X为频率，u为频率的均值，σ为频率的方差。

本发明实施例中，依据上述两个公式计算偏度和峰度。

根据熵的特性可以知道，分布越均匀，熵越大，谱熵反映了每一帧信号的均匀程度，谱熵I(f)计算公式为：

其中，f(ω)是平稳序列xt(t＝0，±1，…)的正规化谱，或称为密度函数，x表示频率。

本发明实施例中，根据上述公式计算谱熵。

频谱平坦度(Flatness)反映了基频和谐波之间的幅值大小分布的情况，一般来说语音频谱往往会在基频(基音)和谐波中出现峰值，而噪声频谱则相对平坦，频谱平坦度的计算公式为：

其中N表示频带数，一般为分4个频带：低频带、中低频带、中高频带、高频带。X表示频率，x(n)表示位于该频带的频率数目。

本发明实施例中，根据上述公式计算频谱平坦度。

频谱中心又称为频谱一阶距，频谱中心的值越小，表明越多的频谱能量集中在低频范围内，频谱中心m计算公式为：

m＝E[x*A]

其中，x表示频率，A表示对应的幅值。

本发明实施例中，与前述参数类似的，可以获得与声音幅值相关的各种参数，来作为性别识别的依据。

本发明实施例中，获得了上述几个参数后，会根据这些语音他在参数来识别语音文件中说话人的性别。

下面对此过程进行介绍。

本发明实施例中，所述依据所述多个语音特征参数识别所述语音文件中说话人的性别包括：

本发明实施例中，SVM，即支持向量机(Support Vector Machine)，是一种二分类的模型。采用SVM分类，就是从多个维度的数据中找到一条满足如下条件：使得距离这条直线最近的点到这条直线的距离最短。

与二维空间类似的，高维空间中，该直线为超平面。具体的。

方程如下表示，其中w为系数：

ω^Tx+b＝0

计算该系数的方法为根据样本数据求解下述公式：

在本发明实施例中，可以利用前述得到的多个语音特征参数例如前述21项语音特征参数作为输入参数，映射到高维度空间例如21维度空间，然后采用SVM分类模型对所输入的参数进行性别分类超平面，从而得到语音文件中说话人的性别。

可以理解的是，预设的二分类模型预先进行了机器学习和训练。

本发明实施例中，采用与MFCC语音特征参数的其它语音特征参数高达21项语音特征作为语音文件中说话人分类的依据，然后采用SVM模型进行分类，从而保证性别分类的准确度。

本发明实施例中，在得到性别之后，在此基础上，对语音文件中说话人的年龄段进行分类计算。

优选的，所述选择与所述性别对应的高斯混合模型进行年龄分类，得到所述说话人的年龄段包括：

确定与所述性别相对应的高斯混合模型；

获得所述语音文件的MFCC语音特征参数；

本发明实施例中，预先训练有多个高斯混合模型，其中，每一种性别对应至少三种不同的高斯混合模型，三种高斯混合模型分别对应儿童、中年以及老年这三种年龄段。

本发明实施例中，MFCC语音特征参数的获取过程可以参考现有技术，在此不进行赘述。与现有技术所不同的，本发明实施例利用的是MFCC语音特征参数以及前述实施例中所获得的多个语音特征参数作为输入参数，分别代入不同的高斯混合模型中进行计算，得到多个概率结果。

将多个概率结果中最大的一个所对应的年龄段作为所述说话人的年龄段。例如，确定了是男性的性别后，利用前述获得的21项语音特征参数以及获得的MFCC语音特征参数来作为输入，分别得到儿童年龄段的概率为33％，中年年龄段的概率为44％，老年年龄段的概率为88％，则，将老年年龄段作为最终说话人的年龄段。

可以看出，本发明实施例中，根据多想语音特征参数，对语音文件中说话人性别进行分类后，在性别条件下，再对MFCC特征、基频、主频等语音特征参数整体结合起来的特征数据进行说话人年龄段，得到更加精准的分类结果。

与上述方法相对应的，本发明实施例还提供了一种一种语音的识别装置。

参见图3，图3是本发明实施例提供的一种语音的识别装置的结构示意图。

本发明提供的一种语音的识别装置，包括：

获得装置1，用于获得语音文件；

提取装置2，用于提取所述语音文件的多个语音特征参数；所述语音特征参数用于表征男女声音特征的差异；

性别计算装置3，用于依据所述多个语音特征参数识别所述语音文件中说话人的性别；

年龄段计算装置4，用于选择与所述性别对应的高斯混合模型进行年龄分类，得到所述说话人的年龄段；

输出模块5，用于将所述说话人的性别以及年龄段作为输出结果输出。

优选的，所述提取装置具体用于：

读取所述语音文件；

将所述语音文件进行分帧处理，得到多个语音帧；

依据多个所述频谱数据提取多个语音特征参数。

优选的，所述依据多个所述频谱数据提取多个语音特征参数包括：

优选的，所述提取多个所述频谱数据中与声音频率相关的多个语音特征参数包括：

获取所述频谱数据中所有大于预设阈值的目标频谱数据；

提取所述频谱数据中与声音幅值相关的多个语音特征参数。

优选的，所述提取所述频谱数据中与声音幅值相关的多个语音特征参数包括：

获取所述频谱数据中所有大于预设阈值的目标频谱数据；

优选的，所述性别计算装置3包括：

确定与所述性别相对应的高斯混合模型；

获得所述语音文件的MFCC语音特征参数；

需要说明的是，本实施例的一种语音的识别装置中各个模块的功能实现可以参考上述方法实施例中的一种语音的识别方法的各个步骤，用于实现上述方法实施例中的全部技术方案，其各个模块的功能可以根据上述方法实施例中的方法具体实现，其具体实现过程可参照上述实施例中的相关描述，此处不再赘述。

由上述方案可知，本申请实施例提供了一种语音的识别装置,所述装置获得语音文件；提取所述语音文件的多个语音特征参数；依据所述多个语音特征参数识别所述语音文件中说话人的性别；选择与所述性别对应的高斯混合模型进行年龄分类，得到所述说话人的年龄段；将所述说话人的性别以及年龄段作为输出结果进行显示。可见，由于本申请实施例中可以根据多个语音特征参数得到该语音文件中说话人的性别，在该性别的基础上来确定出说话人的年龄段，可以快速、准确地识别出说话人的性别、年龄段，进而为后续工作提供了有利的依据。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本发明所提供的一种语音的识别的方法和装置进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种语音的识别方法，其特征在于，包括：

获得语音文件；

将所述说话人的性别以及年龄段作为输出结果输出。

2.根据权利要求1所述的识别方法，其特征在于，所述提取所述语音文件的多个语音特征参数包括：

读取所述语音文件；

将所述语音文件进行分帧处理，得到多个语音帧；

依据多个所述频谱数据提取多个语音特征参数。

3.根据权利要求2所述的识别方法，其特征在于，所述依据多个所述频谱数据提取多个语音特征参数包括：

4.根据权利要求3所述的识别方法，其特征在于，所述提取多个所述频谱数据中与声音频率相关的多个语音特征参数包括：

获取所述频谱数据中所有大于预设阈值的目标频谱数据；

5.根据权利要求3所述的识别方法，其特征在于，所述提取多个所述频谱数据中与声音频率相关的多个语音特征参数包括：

获取所述频谱数据中所有大于预设阈值的目标频谱数据；

6.根据权利要求2所述的识别方法，其特征在于，所述依据多个所述频谱数据提取多个语音特征参数包括：

提取所述频谱数据中与声音幅值相关的多个语音特征参数。

7.根据权利要求6所述的识别方法，其特征在于，所述提取所述频谱数据中与声音幅值相关的多个语音特征参数包括：

获取所述频谱数据中所有大于预设阈值的目标频谱数据；

8.根据权利要求1至7任意一项所述的识别方法，其特征在于，所述依据所述多个语音特征参数识别所述语音文件中说话人的性别包括：

9.根据权利要求2所述的识别方法，其特征在于，所述选择与所述性别对应的高斯混合模型进行年龄分类，得到所述说话人的年龄段包括：

确定与所述性别相对应的高斯混合模型；

获得所述语音文件的MFCC语音特征参数；

10.一种语音的识别装置，其特征在于，包括：

获得装置，用于获得语音文件；