CN111683181B

CN111683181B - 基于语音的用户性别年龄识别方法、装置及计算机设备

Info

Publication number: CN111683181B
Application number: CN202010345904.3A
Authority: CN
Inventors: 赵婧; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-04-27
Filing date: 2020-04-27
Publication date: 2022-04-12
Anticipated expiration: 2040-04-27
Also published as: WO2021218136A1; CN111683181A

Abstract

本发明公开了基于语音的用户性别年龄识别方法、装置、计算机设备及存储介质，涉及人工智能中的语音分类技术领域，包括将所接收有用户端发送的当前用户语音数据进行预处理，得到预处理后语音数据；将其中每一帧语音数据进行短时平均幅度、梅尔频率倒谱系数及梅尔频率倒谱系数一阶差分的特征提取，得到对应的混合参数特征以组成混合参数特征时间序列；将混合参数特征时间序列输入至高斯混合模型得到对应的当前用户分类结果；调用语音回复策略，获取对应的当前语音回复数据，将当前语音回复数据发送至用户端。实现了基于用户语音对性别和年龄的精准识别。

Description

基于语音的用户性别年龄识别方法、装置及计算机设备

技术领域

本发明涉及人工智能中的语音分类技术领域，尤其涉及一种基于语音的用户性别年龄识别方法、装置、计算机设备及存储介质。

背景技术

目前，智能电话外呼系统在自动根据待外呼用户清单中的用户信息对各用户进行电话外呼时，均是根据用户信息中的年龄和性别来确定外呼坐席声音的类型和外呼流程。

例如根据用户信息获知该用户为中年男性时，则智能电话外呼系统则调用女性坐席录音以实现外呼。但是若发生接电话的用户不是本人时，导致性别播报准确率较低。

发明内容

本发明实施例提供了一种基于语音的用户性别年龄识别方法、装置、计算机设备及存储介质，旨在解决现有技术智能电话外呼系统在自动根据待外呼用户清单中的用户信息对各用户进行电话外呼时，若接电话的用户不是本人，易导致性别播报准确率较低的问题。

第一方面，本发明实施例提供了一种基于语音的用户性别年龄识别方法，其包括：

接收用户端发送的当前用户语音数据；

将所述当前用户语音数据进行预处理，得到预处理后语音数据；

将所述预处理后语音数据中每一帧语音数据进行短时平均幅度的提取、并将每一帧语音数据进行梅尔频率倒谱系数、及梅尔频率倒谱系数一阶差分的特征提取，得到与所述预处理后语音数据中每一帧语音数据对应的混合参数特征，以组成混合参数特征时间序列；

将所述混合参数特征时间序列输入至预先训练的高斯混合模型，得到与所述当前用户语音数据对应的当前用户分类结果；其中，所述当前用户分类结果包括性别参数和预估年龄参数；以及

调用预先存储的语音回复策略，获取在所述语音回复策略中与当前用户分类结果对应的当前语音回复数据，将所述当前语音回复数据发送至用户端。

第二方面，本发明实施例提供了一种基于语音的用户性别年龄识别装置，其包括：

语音数据接收单元，用于接收用户端发送的当前用户语音数据；

语音预处理单元，用于将所述当前用户语音数据进行预处理，得到预处理后语音数据；

混合参数序列获取单元，用于将所述预处理后语音数据中每一帧语音数据进行短时平均幅度的提取、并将每一帧语音数据进行梅尔频率倒谱系数、及梅尔频率倒谱系数一阶差分的特征提取，得到与所述预处理后语音数据中每一帧语音数据对应的混合参数特征，以组成混合参数特征时间序列；

用户分类单元，用于将所述混合参数特征时间序列输入至预先训练的高斯混合模型，得到与所述当前用户语音数据对应的当前用户分类结果；其中，所述当前用户分类结果包括性别参数和预估年龄参数；以及

回复数据发送单元，用于调用预先存储的语音回复策略，获取在所述语音回复策略中与当前用户分类结果对应的当前语音回复数据，将所述当前语音回复数据发送至用户端。

第三方面，本发明实施例又提供了一种计算机设备，其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的基于语音的用户性别年龄识别方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其中所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的基于语音的用户性别年龄识别方法。

本发明实施例提供了一种基于语音的用户性别年龄识别方法、装置、计算机设备及存储介质，包括接收用户端发送的当前用户语音数据；将所述当前用户语音数据进行预处理，得到预处理后语音数据；将所述预处理后语音数据中每一帧语音数据进行短时平均幅度的提取、并将每一帧语音数据进行梅尔频率倒谱系数、及梅尔频率倒谱系数一阶差分的特征提取，得到与所述预处理后语音数据中每一帧语音数据对应的混合参数特征，以组成混合参数特征时间序列；将所述混合参数特征时间序列输入至预先训练的高斯混合模型，得到与所述当前用户语音数据对应的当前用户分类结果；其中，所述当前用户分类结果包括性别参数和预估年龄参数；以及调用预先存储的语音回复策略，获取在所述语音回复策略中与当前用户分类结果对应的当前语音回复数据，将所述当前语音回复数据发送至用户端。该方法综合考虑了短时平均幅度、梅尔频率倒谱系数、及梅尔频率倒谱系数一阶差分等特征对性别识别的影响，实现了基于用户语音对性别和年龄的精准识别。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于语音的用户性别年龄识别方法的应用场景示意图；

图2为本发明实施例提供的基于语音的用户性别年龄识别方法的流程示意图；

图3为本发明实施例提供的基于语音的用户性别年龄识别方法的子流程示意图；

图4为本发明实施例提供的基于语音的用户性别年龄识别方法的另一子流程示意图；

图5为本发明实施例提供的基于语音的用户性别年龄识别装置的示意性框图；

图6为本发明实施例提供的基于语音的用户性别年龄识别装置的子单元示意性框图；

图7为本发明实施例提供的基于语音的用户性别年龄识别装置的另一子单元示意性框图；

图8为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1和图2，图1为本发明实施例提供的基于语音的用户性别年龄识别方法的应用场景示意图；图2为本发明实施例提供的基于语音的用户性别年龄识别方法的流程示意图，该基于语音的用户性别年龄识别方法应用于服务器中，该方法通过安装于服务器中的应用软件进行执行。

如图2所示，该方法包括步骤S110～S150。

S110、接收用户端发送的当前用户语音数据。

在本实施例中，当服务器中部署的智能语音系统需对用户语音进行性别和年龄识别时，初始需接收用户端上传的当前用户语音数据，从而进行后续的语音预处理和分类识别过程。

S120、将所述当前用户语音数据进行预处理，得到预处理后语音数据。

在本实施例中，由于实际的语音信号(例如本申请中采集的当前用户语音数据)是模拟信号，因此在对语音信号进行数字处理之前，首先要将所述当前用户语音数据(将所述当前用户语音数据记为s(t))以采样周期T采样，将其离散化为s(n)，采用周期的选取应根据当前用户语音数据的带宽(依奈奎斯特采样定理)来确定，以避免信号的频域混叠失真。在对离散后的语音信号进行量化处理过程中会带来一定的量化噪声和失真。有了初始的所述当前用户语音数据后，对其进行语音的预处理包括：预加重和加窗分帧等步骤。

在一实施例中，如图3所示，步骤S120包括：

S121、调用预先存储的采样周期将所述当前用户语音数据进行采样，得到当前离散语音信号；

S122、调用预先存储的一阶FIR高通数字滤波器对所述当前离散语音信号进行预加重，得到当前预加重语音信号；

S123、调用预先存储的汉明窗对所述当前预加重语音信息进行加窗，得到加窗后语音数据；

S124、调用预先存储的帧移和帧长对所述加窗后语音数据进行分帧，得到预处理后语音数据。

在本实施例中，在对语音信号进行数字处理之前，首先要将所述当前用户语音数据(将所述当前用户语音数据记为s(t))以采样周期T采样，将其离散化为s(n)。

然后，调用预先存储的一阶FIR高通数字滤波器时，一阶FIR高通数字滤波器即为一阶非递归型高通数字滤波器，其传递函数如下式(1)：

H(z)＝1-az^-1 (1)

具体实施时，a的取值为0.98。例如，设n时刻的所述当前离散语音信号的采样值为x(n)，经过预加重处理后的当前预加重语音信号中与x(n)对应的采样值为y(n)＝x(n)-ax(n-1)。

之后，所调用的汉明窗的函数如下式(2)：

通过汉明窗对所述当前预加重语音信息进行加窗，得到的加窗后语音数据可以表示为：Q(n)＝y(n)*ω(n)。

最后，调用预先存储的帧移和帧长对所述加窗后语音数据进行分帧时，例如所述加窗后语音数据对应的时域信号为x(l)，加窗分帧处理后的预处理后语音数据中第n帧语音数据为xn(m)，且xn(m)满足式(3)：

xn(m)＝ω(n)*x(n+m)，0≤m≤N-1 (3)

其中，n＝0，1T，2T，……，N是帧长，T是帧移，ω(n)是汉明窗的函数。

通过对所述当前用户语音数据进行预处理，能有效用于后续的声音参数提取。

S130、将所述预处理后语音数据中每一帧语音数据进行短时平均幅度的提取、并将每一帧语音数据进行梅尔频率倒谱系数、及梅尔频率倒谱系数一阶差分的特征提取，得到与所述预处理后语音数据中每一帧语音数据对应的混合参数特征，以组成混合参数特征时间序列。

在本实施例中，对所述预处理后语音数据中进行重要参数提取时，一般是提取短时平均幅度、梅尔频率倒谱系数、及梅尔频率倒谱系数一阶差分，之后由所提取的参数组成与所述预处理后语音数据中每一帧语音数据对应的混合参数特征，以组成混合参数特征时间序列。通过这一方式，得到了由所述预处理后语音数据中提取的重要参数，结合这些重要参数能更加准确的进行用户类型分类(主要是年龄和性别的分类)。

其中，将所述预处理后语音数据中每一帧语音数据进行短时平均幅度的提取时，具体的根据

计算预处理后语音数据中第n帧语音数据的短时平均幅度；其中，M_n表示预处理后语音数据中第n帧语音数据的短时平均幅度，预处理后语音数据中第n帧语音数据为xn(m)，0≤m≤N-1，N是帧长。

在一实施例中，如图4所示，步骤S130包括：

S131、将所述预处理后语音数据依次进行傅里叶变换，得到频域语音数据；

S132、将所述频域语音数据取绝对值，得到取绝对值后语音数据；

S133、将所述取绝对值后语音数据通过梅尔滤波，得到梅尔滤波后语音数据；

S134、将所述梅尔滤波后语音数据依次进行取对数运算和离散余弦变换，得到与所述预处理后语音数据对应的梅尔频率倒谱系数；

S135、获取所述梅尔频率倒谱系数中连续相邻两项之差，以得到梅尔频率倒谱系数一阶差分。

在本实施例中，由于所述预处理后语音数据往往是时域上的语音信号，要想将其映射到线性频率上，就必须用DFT(DFT即离散傅里叶变换)或者FFT(FFT即傅里叶变换)，以实现时域到频域的转换。对N点的信号，若N/2为整数，可以使用FFT，以加快算法的处理速度。若N/2不为整数，就只能使用DFT，算法速度会随着点数的增加而下降。所以在分帧时，点数必须为2的整数倍。

由于FFT出来结果的是复数，有实部和虚部，对其取绝对值，得到复数的模，而去掉相位。模反应的是声音的幅值，幅值包含有用的信息。人耳对声音的相位并不敏感，可以忽略相位。

通过梅尔滤波器组对所述取绝对值后语音数据通过梅尔滤波，得到梅尔滤波后语音数据。梅尔滤波器组的具体参数如下：

设置梅尔滤波器组的采样率fs＝8000Hz，滤波器频率范围的最低频率fl＝0，滤波器频率范围的最高频率fh＝fs/2＝8000/2＝4000；设置滤波器个数M＝24，FFT的长度N＝256。对所述取绝对值后语音数据通过梅尔滤波后，是对线性的频率进行梅尔滤波，反应了人耳的听觉特性。

将所述梅尔滤波后语音数据依次进行取对数运算和离散余弦变换时，离散余弦变换即DCT变换，时域信号变换到频域，取对数，再经过DCT变换，得到的是倒谱系数。若在频域之后增加Mel滤波(即梅尔滤波)，则最终得到MFCC(MFCC即梅尔频率倒谱系数)。

一阶差分就是离散函数中连续相邻两项之差。当自变量从x变到x+1时，函数y＝y(x)的改变量Δyx＝y(x+1)-y(x)，(x＝0，1，2，......)称为函数y(x)在点x的一阶差分，记为Δyx＝yx+1-yx，(x＝0，1，2，......)。

由于所述预处理后语音数据中每一帧语音数据都可以对应获取上述三个特征参数(即短时平均幅度、梅尔频率倒谱系数、及梅尔频率倒谱系数一阶差分)，也就是一帧语音数据对应一个1*3的行向量，且所述预处理后语音数据中包括M帧语音数据，每一帧语音数据对应的一个1*3的行向量按照时序串接后，得到一个1*3M的行向量，该1*3M的行向量为与所述预处理后语音数据对应的混合参数特征时间序列。

具体实施时，除了对所述预处理后语音数据中每一帧语音数据都可以对应获取短时平均幅度、梅尔频率倒谱系数、及梅尔频率倒谱系数一阶差分，还可以对所述预处理后语音数据中每一帧语音数据都对应获取基频、语速、声压级这三个参数，从而组成参数维度更多的混合参数特征时间序列。

S140、将所述混合参数特征时间序列输入至预先训练的高斯混合模型，得到与所述当前用户语音数据对应的当前用户分类结果；其中，所述当前用户分类结果包括性别参数和预估年龄参数。

在本实施例中，预先训练的高斯混合模型时，需要分别训练若干个子高斯混合模型，例如用于识别18-20岁男性的第一子高斯混合模型、用于识别21-30岁男性的第二子高斯混合模型、用于识别31-49岁男性的第三子高斯混合模型、用于识别41-50岁男性的第四子高斯混合模型、用于识别51-70岁男性的第五子高斯混合模型、用于识别18-20岁女性的第六子高斯混合模型、用于识别21-30岁女性的第七子高斯混合模型、用于识别31-49岁女性的第八子高斯混合模型、用于识别41-50岁女性的第九子高斯混合模型、用于识别51-70岁女性的第十子高斯混合模型。

高斯混合模型(即Gaussian mixture model，简记为GMM)是指具有如下式(4)的概率分布模型：

其中，α_k是系数且α_k≥0，

φ(y|θ_k)是高斯分布密度，

其中，

成为第k个子模型。

在一实施例中，步骤S140中所述高斯混合模型中包括多个子高斯混合模型；其中，多个子高斯混合模型中的其中一个记为第一子高斯混合模型，所述第一子高斯混合模型为用于识别18-20岁男性的识别模型。以训练用于识别18-20岁男性的第一子高斯混合模型为例来说明，步骤S140之前还包括：

获取第一样本数据；其中，第一样本数据中为多个18-20岁男性的语音数据对应的混合参数特征时间序列；

通过第一样本数据对待训练第一子高斯混合模型进行训练，得到用于识别18-20岁男性的第一子高斯混合模型；

将训练后的第一子高斯混合模型存储至区块链网络。

区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。

在本实施例中，第一样本数据中获取18-20岁男性的语音数据对应的混合参数特征时间序列的方式，可以参考步骤S110至步骤S130中获取当前用户语音数据对应的混合参数特征时间序列的具体过程。对待训练第一子高斯混合模型进行训练的过程就是输入多组混合参数特征时间序列，并通过EM算法(EM算法即最大期望算法)求解待训练第一子高斯混合模型中的参数，从而得到第一子高斯混合模型。

在服务器中的所述训练后的第一子高斯混合模型可以上链存储至区块链网络(该区块链网络较佳的是私有链，以供企业的各子公司使用该私有链调用第一子高斯混合模型)，除了所述高斯混合模型中包括的第一子高斯混合模型可以上链存储至区块链网络，所述高斯混合模型中的其他子高斯混合模型也可以上链存储至区块链网络。所述高斯混合模型中每一个子高斯混合模型中包括的各参数值(如α_k，φ(y|θ_k)对应的参数值)均存储至区块链网络。在此过程中，服务器视为区块链网络中的一个区块链节点设备，其具备上传数据至区块链网络的权限。当服务器需从区块链网络中获取所述第一子高斯混合模型时，对服务器是否具备区块链节点设备的权限进行验证，若服务器具备区块链节点设备的权限，则获取所述第一子高斯混合模型，并在区块链网络中进行广播以告知区块链节点设备服务器已获取了所述第一子高斯混合模型。

S150、调用预先存储的语音回复策略，获取在所述语音回复策略中与当前用户分类结果对应的当前语音回复数据，将所述当前语音回复数据发送至用户端。

在本实施例中，服务器中存储的语音回复策略中包括多种语音风格模板数据，每一种语音风格模板数据对应一种语音回复数据，且每一语音风格模板数据所使用的发音者性别、发音者风格、话术流程均是预先设置好的。

例如，获取了当前用户分类结果为18-20岁男性，在所述语音回复策略中与18-20岁男性这一用户分类结果对应的当前语音回复数据为女性甜美风格的、活泼话术流程。也即对于识别出了男性客户的时候自动调用甜美女性坐席录音，并且在话术流程中称呼对方为先生，增加礼貌。在女性客户接听电话的时候自动调用磁性男声坐席录音，并称呼其为女士以表礼貌。对于年轻的客户调用轻松活泼的话术流程，对于年长客户调用成熟稳重的话术流程。

在一实施例中，步骤S150之后还包括：

通过预先训练的N-gram模型对所述当前用户语音数据进行识别得到识别结果，获取所述识别结果中与用户识别码字段对应的用户身份唯一识别码。

在本实施例中，通过所述N-gram模型(即多元模型)对所述当前用户语音数据进行识别，识别得到的是一整句话，例如“我叫张三，性别男，年龄25，今天需要办理A业务。”，通过N-gram模型能对所述当前用户语音数据进行有效识别，得到识别概率最大的语句作为识别结果。

由于此时已将当前用户语音数据转化为识别结果这一文本数据，此时定位识别结果中的几个关键字符串，即可获取所述识别结果中与用户年龄字段及用户性别字段分别对应的用户年龄取值和用户性别取值。同时也可获取所述识别结果中与用户识别码字段对应的用户身份唯一识别码，该用户身份唯一识别码最佳为用户身份证号。

在一实施例中，所述通过预先训练的N-gram模型对所述当前用户语音数据进行识别得到识别结果，获取所述识别结果中与用户识别码字段对应的用户身份唯一识别码之后，还包括：

根据所述用户身份唯一识别码，获取与用户端对应的用户真实年龄值和用户真实性别取值，判断所述预估年龄参数的取值是否等于所述用户真实年龄值，且判断所述性别参数的取值是否等于所述用户真实性别取值；

若所述预估年龄参数的取值不等于所述用户真实年龄值，或者所述性别参数的取值不等于所述用户真实性别取值，将所述当前用户分类结果及所述当前用户语音数据存储至预先创建的第一存储区域。

在本实施例中，当获取了所述用户身份唯一识别码(也即用户的身份证号)之后，可以通过用户身份唯一识别码来获取该用户的真实年龄和性别。而通过高斯混合模型以对当前用户语音数据的分类，得到了包括性别参数和预估年龄参数的当前用户分类结果。此时将所述预估年龄参数的取值与用户真实年龄值相比较而判断是否相等，同时将所述性别参数的取值与所述用户真实性别取值相比较而判断是否相等。通过上述比较，即可判断通过高斯混合模型以对当前用户语音数据的分类是否正确。

若所述预估年龄参数的取值不等于所述用户真实年龄值，或者所述性别参数的取值不等于所述用户真实性别取值，则表示当前用户分类结果中的性别参数的取值和/或预估年龄参数的取值不准确，此时根据当前用户分类结果对应获得的当前语音回复数据并不适合于当前用户，故将所有分类不准确的所述当前用户分类结果及所述当前用户语音数据存储至预先创建的第一存储区域。

在服务器中的第一存储区域中记录智能识别性别年龄结果不准确的数据，作为客户的历史记录，以便于后续改进高斯混合模型。

若所述预估年龄参数的取值等于所述用户真实年龄值，且所述性别参数的取值等于所述用户真实性别取值，则表示当前用户分类结果中的性别参数的取值和预估年龄参数的取值均是准确的，此时根据当前用户分类结果对应获得的当前语音回复数据是适合于当前用户，此时无需对针对当前用户分类结果对应的当前用户语音数据进行调整。

该方法综合考虑了短时平均幅度、梅尔频率倒谱系数、及梅尔频率倒谱系数一阶差分等特征对性别识别的影响，实现了基于用户语音对性别和年龄的精准识别。

本发明实施例还提供一种基于语音的用户性别年龄识别装置，该基于语音的用户性别年龄识别装置用于执行前述基于语音的用户性别年龄识别方法的任一实施例。具体地，请参阅图5，图5是本发明实施例提供的基于语音的用户性别年龄识别装置的示意性框图。该基于语音的用户性别年龄识别装置100可以配置于服务器中。

如图5所示，基于语音的用户性别年龄识别装置100包括：语音数据接收单元110、语音预处理单元120、混合参数序列获取单元130、用户分类单元140、回复数据发送单元150。

语音数据接收单元110，用于接收用户端发送的当前用户语音数据。

语音预处理单元120，用于将所述当前用户语音数据进行预处理，得到预处理后语音数据。

在一实施例中，如图6所示，语音预处理单元120包括：

语音数据采样单元121，用于调用预先存储的采样周期将所述当前用户语音数据进行采样，得到当前离散语音信号；

预加重单元122，用于调用预先存储的一阶FIR高通数字滤波器对所述当前离散语音信号进行预加重，得到当前预加重语音信号；

加窗单元123，用于调用预先存储的汉明窗对所述当前预加重语音信息进行加窗，得到加窗后语音数据；

分帧单元124，用于调用预先存储的帧移和帧长对所述加窗后语音数据进行分帧，得到预处理后语音数据。

然后，调用预先存储的一阶FIR高通数字滤波器时，一阶FIR高通数字滤波器即为一阶非递归型高通数字滤波器，其传递函数如上式(1)。

例如，设n时刻的所述当前离散语音信号的采样值为x(n)，经过预加重处理后的当前预加重语音信号中与x(n)对应的采样值为y(n)＝x(n)-ax(n-1)。

之后，所调用的汉明窗的函数如上式(2)，通过汉明窗对所述当前预加重语音信息进行加窗，得到的加窗后语音数据可以表示为：Q(n)＝y(n)*ω(n)。

最后，调用预先存储的帧移和帧长对所述加窗后语音数据进行分帧时，例如所述加窗后语音数据对应的时域信号为x(l)，加窗分帧处理后的预处理后语音数据中第n帧语音数据为xn(m)，且xn(m)满足上式(3)。通过对所述当前用户语音数据进行预处理，能有效用于后续的声音参数提取。

混合参数序列获取单元130，用于将所述预处理后语音数据中每一帧语音数据进行短时平均幅度的提取、并将每一帧语音数据进行梅尔频率倒谱系数、及梅尔频率倒谱系数一阶差分的特征提取，得到与所述预处理后语音数据中每一帧语音数据对应的混合参数特征，以组成混合参数特征时间序列。

在一实施例中，如图7所示，混合参数序列获取单元130包括：

傅里叶变换单元131，用于将所述预处理后语音数据依次进行傅里叶变换，得到频域语音数据；

取绝对值单元132，用于将所述频域语音数据取绝对值，得到取绝对值后语音数据；

梅尔滤波单元133，用于将所述取绝对值后语音数据通过梅尔滤波，得到梅尔滤波后语音数据；

梅尔频率倒谱系数获取单元134，用于将所述梅尔滤波后语音数据依次进行取对数运算和离散余弦变换，得到与所述预处理后语音数据对应的梅尔频率倒谱系数；

一阶差分获取单元135、获取所述梅尔频率倒谱系数中连续相邻两项之差，以得到梅尔频率倒谱系数一阶差分。

用户分类单元140，用于将所述混合参数特征时间序列输入至预先训练的高斯混合模型，得到与所述当前用户语音数据对应的当前用户分类结果；其中，所述当前用户分类结果包括性别参数和预估年龄参数。

高斯混合模型(即Gaussian mixture model，简记为GMM)是指具有如上式(4)的概率分布模型。

在一实施例中，用户分类单元140所述高斯混合模型中包括多个子高斯混合模型；其中，多个子高斯混合模型中的其中一个记为第一子高斯混合模型，所述第一子高斯混合模型为用于识别18-20岁男性的识别模型。以训练用于识别18-20岁男性的第一子高斯混合模型为例来说明，基于语音的用户性别年龄识别装置100还包括：

第一样本获取单元，用于获取第一样本数据；其中，第一样本数据中为多个18-20岁男性的语音数据对应的混合参数特征时间序列；

第一子模型训练单元，用于通过第一样本数据对待训练第一子高斯混合模型进行训练，得到用于识别18-20岁男性的第一子高斯混合模型；

子模型上链单元，用于将训练后的第一子高斯混合模型存储至区块链网络。

在本实施例中，第一样本数据中获取18-20岁男性的语音数据对应的混合参数特征时间序列的方式，可以参考获取当前用户语音数据对应的混合参数特征时间序列的具体过程。对待训练第一子高斯混合模型进行训练的过程就是输入多组混合参数特征时间序列，并通过EM算法(EM算法即最大期望算法)求解待训练第一子高斯混合模型中的参数，从而得到第一子高斯混合模型。

回复数据发送单元150，用于调用预先存储的语音回复策略，获取在所述语音回复策略中与当前用户分类结果对应的当前语音回复数据，将所述当前语音回复数据发送至用户端。

在一实施例中，基于语音的用户性别年龄识别装置100还包括：

身份唯一识别码获取单元，用于通过预先训练的N-gram模型对所述当前用户语音数据进行识别得到识别结果，获取所述识别结果中与用户识别码字段对应的用户身份唯一识别码。

在一实施例中，基于语音的用户性别年龄识别装置100，还包括：

性别年龄比对单元，用于根据所述用户身份唯一识别码，获取与用户端对应的用户真实年龄值和用户真实性别取值，判断所述预估年龄参数的取值是否等于所述用户真实年龄值，且判断所述性别参数的取值是否等于所述用户真实性别取值；

误差数据存储单元，用于若所述预估年龄参数的取值不等于所述用户真实年龄值，或者所述性别参数的取值不等于所述用户真实性别取值，将所述当前用户分类结果及所述当前用户语音数据存储至预先创建的第一存储区域。

该装置综合考虑了短时平均幅度、梅尔频率倒谱系数、及梅尔频率倒谱系数一阶差分等特征对性别识别的影响，实现了基于用户语音对性别和年龄的精准识别。

上述基于语音的用户性别年龄识别装置可以实现为计算机程序的形式，该计算机程序可以在如图8所示的计算机设备上运行。

请参阅图8，图8是本发明实施例提供的计算机设备的示意性框图。该计算机设备500是服务器，服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。

参阅图8，该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括非易失性存储介质503和内存储器504。

该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时，可使得处理器502执行基于语音的用户性别年龄识别方法。

该处理器502用于提供计算和控制能力，支撑整个计算机设备500的运行。

该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行基于语音的用户性别年龄识别方法。

该网络接口505用于进行网络通信，如提供数据信息的传输等。本领域技术人员可以理解，图8中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现本发明实施例公开的基于语音的用户性别年龄识别方法。

本领域技术人员可以理解，图8中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图8所示实施例一致，在此不再赘述。

应当理解，在本发明实施例中，处理器502可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序，其中计算机程序被处理器执行时实现本发明实施例公开的基于语音的用户性别年龄识别方法。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为逻辑功能划分，实际实现时可以有另外的划分方式，也可以将具有相同功能的单元集合成一个单元，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于语音的用户性别年龄识别方法，其特征在于，包括：

接收用户端发送的当前用户语音数据；

2.根据权利要求1所述的基于语音的用户性别年龄识别方法，其特征在于，所述调用预先存储的语音回复策略，获取在所述语音回复策略中与当前用户分类结果对应的当前语音回复数据，将所述当前语音回复数据发送至用户端之后，还包括：

3.根据权利要求2所述的基于语音的用户性别年龄识别方法，其特征在于，所述通过预先训练的N-gram模型对所述当前用户语音数据进行识别得到识别结果，获取所述识别结果中与用户识别码字段对应的用户身份唯一识别码之后还包括：

4.根据权利要求1所述的基于语音的用户性别年龄识别方法，其特征在于，所述将所述当前用户语音数据进行预处理，得到预处理后语音数据，包括：

调用预先存储的采样周期将所述当前用户语音数据进行采样，得到当前离散语音信号；

调用预先存储的一阶FIR高通数字滤波器对所述当前离散语音信号进行预加重，得到当前预加重语音信号；

调用预先存储的汉明窗对所述当前预加重语音信息进行加窗，得到加窗后语音数据；

调用预先存储的帧移和帧长对所述加窗后语音数据进行分帧，得到预处理后语音数据。

5.根据权利要求1所述的基于语音的用户性别年龄识别方法，其特征在于，所述将每一帧语音数据进行梅尔频率倒谱系数、及梅尔频率倒谱系数一阶差分的特征提取，包括：

将所述预处理后语音数据依次进行傅里叶变换，得到频域语音数据；

将所述频域语音数据取绝对值，得到取绝对值后语音数据；

将所述取绝对值后语音数据通过梅尔滤波，得到梅尔滤波后语音数据；

将所述梅尔滤波后语音数据依次进行取对数运算和离散余弦变换，得到与所述预处理后语音数据对应的梅尔频率倒谱系数；

获取所述梅尔频率倒谱系数中连续相邻两项之差，以得到梅尔频率倒谱系数一阶差分。

6.根据权利要求1所述的基于语音的用户性别年龄识别方法，其特征在于，所述高斯混合模型中包括多个子高斯混合模型；其中，多个子高斯混合模型中的其中一个记为第一子高斯混合模型，所述第一子高斯混合模型为用于识别18-20岁男性的识别模型；

所述将所述混合参数特征时间序列输入至预先训练的高斯混合模型，得到与所述当前用户语音数据对应的当前用户分类结果之前，还包括：

将训练后的第一子高斯混合模型存储至区块链网络。

7.一种基于语音的用户性别年龄识别装置，其特征在于，包括：

8.根据权利要求7所述的基于语音的用户性别年龄识别装置，其特征在于，所述语音预处理单元，包括：

语音数据采样单元，用于调用预先存储的采样周期将所述当前用户语音数据进行采样，得到当前离散语音信号；

预加重单元，用于调用预先存储的一阶FIR高通数字滤波器对所述当前离散语音信号进行预加重，得到当前预加重语音信号；

加窗单元，用于调用预先存储的汉明窗对所述当前预加重语音信息进行加窗，得到加窗后语音数据；

分帧单元，用于调用预先存储的帧移和帧长对所述加窗后语音数据进行分帧，得到预处理后语音数据。

9.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的基于语音的用户性别年龄识别方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至6任一项所述的基于语音的用户性别年龄识别方法。