CN113539243A

CN113539243A - 语音分类模型的训练方法、语音分类方法及相关装置

Info

Publication number: CN113539243A
Application number: CN202110762453.8A
Authority: CN
Inventors: 张军伟; 李�诚
Original assignee: Shanghai Sensetime Intelligent Technology Co Ltd
Current assignee: Shanghai Sensetime Intelligent Technology Co Ltd
Priority date: 2021-07-06
Filing date: 2021-07-06
Publication date: 2021-10-22
Also published as: WO2023279691A1

Abstract

本申请公开语音分类模型的训练方法、语音分类方法及相关装置、设备、存储介质，其中，训练方法包括：获取至少一个类别的语音数据，同一类别的语音数据构成一个语音数据集；提取语音数据集中每个语音数据的语音特征；利用语音数据集中的语音特征对语音分类模型中的子分类模型进行训练；语音分类模型包括至少一个子分类模型，子分类模型与语音数据集一一对应。通过对语音数据进行类别分类，形成对应语音数据集，利用语音特征训练对应的子分类模型，从而得到识别所需类别语音数据的语音分类模型。本申请仅利用新类别的语音数据来进行训练，即可使得语音分类模型实现对新类别的分类。

Description

语音分类模型的训练方法、语音分类方法及相关装置

技术领域

本申请属于语音识别领域，特别是涉及语音分类模型的训练方法、语音分类方法及相关装置、设备、存储介质。

背景技术

语音识别技术就是让智能设备听懂人类的语音。它是一门涉及数字信号处理、人工智能、语言学、数理统计学、声学、情感学及心理学等多学科交叉的科学。近年来，随着人工智能的兴起，语音识别技术在理论和应用方面都取得大突破，开始从实验室走向市场，已逐渐走进我们的日常生活。

语音识别是人工智能技术的一个比较大的应用领域，分为语音意义识别和语音类型识别。对于语音类别的识别，当前能够实现语音识别的人工智能产品中，一般集成的是训练好的语音分类模型，当需要增加对新类别的识别，当前方案无法实现。

发明内容

本申请提供一种语音分类模型的训练方法、语音分类方法及相关装置、设备、存储介质。

本申请第一方面提供了一种语音分类模型的训练方法，训练方法包括：获取至少一个类别的语音数据，同一类别的语音数据构成一个语音数据集；提取语音数据集中每个语音数据的语音特征；利用语音数据集中的语音特征对语音分类模型中的子分类模型进行训练；语音分类模型包括至少一个子分类模型，子分类模型与语音数据集一一对应。

因此，提出的语音分类模型包括子分类模型，一个子分类模型对应一个类别的语音数据集，则在训练语音分类模型时，获取到各个类别的语音数据，并且每个类别的语音数据构成一个语音数据集，利用语音数据集来对语音分类模型中的子分类模型进行训练，即可使得语音分类模型能够实现语音分类。且基于该训练方法，本申请中语音分类模型可随时增加新的语音类别的分类。

其中，训练方法还包括：基于语音数据集中的至少部分语音数据，确定语音数据集的类别特征；利用语音数据集的类别特征，对语音数据集中每个语音数据的语音特征进行处理；利用语音数据集中的语音特征对语音分类模型中的子分类模型进行训练，包括：利用语音数据集中处理后的语音特征对语音分类模型中的子分类模型进行训练。

因此，利用语音数据集中的至少部分语音数据，可以获得该语音数据集的类别特征，即通过类别特征突出体现该语音数据集的类别，利用类别特征对语音特征进行处理，可以使得训练效果更好，更利于子分类模型识别该类别。

其中，语音数据集的类别特征包括语音数据集的音频响度特征和音调变化特征。

因此，语音数据集的类别特征主要体现在语音的响度和音调的变化。

其中，基于语音数据集中的至少部分语音数据，确定语音数据集的类别特征，包括：计算语音数据集中至少部分语音数据的语音能量的均方根，以获得音频响度特征；计算语音数据集中至少部分语音数据的过零特征，以获得音调变化特征。

因此，针对每个类别基础音频响度的不同，可获得每个语音数据能量的均方根，从而获得类别特征中的音频响度特征。针对每个类别的音调变化不同，获得每个语音数据的音频过零特征，从而获得类别特征中的音调变化特征。

其中，所述利用所述语音数据集的类别特征，对所述语音数据集中每个语音数据的语音特征进行处理，包括：将语音特征除以所述音频响度特征，并加上所述音调变化特征。

因此，可基于不同语音数据的类别特征，获得处理后的语音特征，以进一步强化不同类别的区别，利于后续训练语音分类模型。

其中，提取语音数据集中每个语音数据的语音特征，包括：提取语音数据集中每个语音数据的语音特征，并对语音特征进行降维处理。

因此，对语音特征进行降维处理，可以减少后续训练时的计算量，利用在终端中实现分类模型的训练。

其中，训练方法包括：呈现录入指示，录入指示对应一个类别的语音数据的录入；获取至少一个类别的语音数据，包括：获取依据录入指示的语音数据。

因此，便于引导用户录入语音数据。

本申请第二方面提供了一种语音分类方法，语音分类方法包括：获取待分类语音；提取待分类语音的待分类语音特征；将待分类语音特征输入语音分类模型，确定待分类语音的类别，语音分类模型由上述的训练方法训练获得。

因此，可高效和高准确率地对待分类语音进行识别分类，可识别分类的待分类语音类别可经过提前训练。

其中，语音分类方法还包括：确定待分类语音的待分类语音响度特征和待分类音调特征；利用待分类响度特征和待分类音调特征，对待分类语音特征进行处理；将待分类语音特征输入语音分类模型，包括：将处理后的待分类语音特征输入语音分类模型。

因此，不同用户的待分类语音的待分类语音响度特征和待分类音调特征不同。通过待分类语音的待分类语音响度特征和待分类音调特征，可以区别开不同用户的声音，以实现对待分类语音特征的提取和优化。基于待分类语音特征的待分类语音响度特征和待分类音调特征作为分类维度，对待分类语音特征进行优化，实现对不同用户的精确分类。

其中，提取待分类语音的待分类语音特征，包括：提取待分类语音的待分类语音特征，并对待分类语音特征进行降维处理。

因此，可实现对待分类语音特征的降维处理，降低运算量。

其中，获取待分类语音，包括：获取针对风扇的控制语音，作为待分类语音；确定待分类语音的类别包括：确定待分类语音的类别为开启、停止、加速、减速、左转、右转中的一种。

因此，可实现对风扇的语音控制。

本申请第三方面提供了一种终端设备，包括相互耦接的存储器和处理器，处理器用于执行存储器中存储的程序指令，以实现上述第一方面中的训练方法和上述第二方面中的语音分类方法。

本申请第四方面提供了一种计算机可读存储介质，其上存储有程序指令，程序指令被处理器执行时实现上述第一方面中的训练方法和上述第二方面中的语音分类方法。

上述方案，通过对语音数据进行类别分类，形成对应语音数据集，并提取优化不同类别语音数据的语音特征，利用语音特征训练对应的子分类模型，从而得到识别所需类别语音数据的语音分类模型。本申请的语音分类模型包括至少一个子分类模型，子分类模型与语音数据集一一对应设置。从而本申请的每个类别的语音数据集对应单独训练一个子分类模型，需要增加类别数量时，无需重新训练整个语音分类模型，仅需新增训练一个子分类模型，以增加可识别的语音类别即可。从而减小训练量，提高训练效率，并实现通用的语言识别方案。进一步地，本申请的训练方法运算量低，可以实现在计算力受限的机器人上完成语音分类训练任务，在机器人应用领域，可适合作为人工智能教具使用。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，其中：

图1是本申请的语音分类模型的训练方法一实施例的流程示意图；

图2是本申请的语音分类模型的训练方法一实施例中的对语音特征进行优化的流程示意图；

图3是本申请的语音分类方法一实施例的流程示意图；

图4是本申请的语音分类方法一实施例中的对待分类语音特征进行优化的流程示意图；

图5是本申请的语音分类模型的训练装置一实施例的框架示意图；

图6是本申请的语音分类装置一实施例的框架示意图；

图7是本申请终端设备一实施例的框架示意图；

图8是本申请计算机可读存储介质一实施例的框架示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参阅图1和图2，图1是本申请的语音分类模型的训练方法一实施例的流程示意图；图2是本申请的语音分类模型的训练方法一实施例中的对语音特征进行优化的流程示意图。本申请实施例的语音分类模型的训练方法由智能设备或终端设备等电子设备执行，终端设备可以为用户设备(User Equipment，UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字助理(Personal Digital Assistant，PDA)、手持设备、计算设备、车载设备、可穿戴设备等，智能设备可包括智能教育机器人、智能移动机器人等，所述方法可以通过电子设备的处理器调用存储器中存储的计算机可读指令的方式来实现。

本申请一方法提供了一种语音分类模型的训练方法，具体包括如下步骤：

步骤S11：获取至少一个类别的语音数据，同一类别的语音数据构成一个语音数据集。

类别可以基于通用领域分类和/或基于用户分类，通用领域分类包括性别分类，数字分类和方向分类等。具体地，性别分类包括男、女的性别分类类别；数字分类包括0-9的数字分类类别；方向分类包括前后左右等方向分类类别；用户分类包括基于不同使用者个人的用户分类类别。

在一些实施例中，获取每个类别的语音数据时，可以引导用户按照指示录制多遍语音数据，并将其聚类后构成一个语音数据集。

具体地，获取至少一个类别的语音数据前可包括：呈现录入指示，录入指示对应一个类别的语音数据的录入。设备会呈现引导用户录制语音数据的录入指示，可以通过屏幕显示和/或语音播报的形式呈现，每个录入指示对应一个类别的语音数据的录入。

需要说明的是，录入指示的具体内容可根据应用场景和录音需求作出调整。

例如，应用场景为风扇的语音控制，录音需求为控制风扇开启、停止、加速、减速、左转、右转等，则录入指示可以是以屏幕显示和/或语音播报的方式，引导用户重复“开启风扇”、“停止风扇”、“风扇风速增大”、“风扇风速减小”、“风扇向左转动”、“风扇向右转动”等语音，从而获取对应类别的语音数据。

例如，应用场景为行走小车的语音控制，录音需求为控制行走小车前进、后退、向右、向左等，则录入指示可以是以屏幕显示和/或语音播报的方式，引导用户重复“向前行走”、“向后行走”、“向左行走”、“向右行走”等方向类别的语音，“1”、“2”等数字类别的语音，“米”等长度单位类别的语音，以及其他所需的语音。从而获取对应类别的语音数据。

进一步地，获取至少一个类别的语音数据，包括获取依据录入指示的语音数据。可选地，依据录入指示，单次录入的语音数据的时长为3-10s，例如3s、5s、8s或者10s等。在此范围内，语音数据的时长利于语音特征的提取，并且保持较小的计算量，提高后续数据处理速度，进而提高训练效率。

以不同类别来说明具体如何获取至少一个类别的语音数据：

在获取基于用户分类的类别的语音数据时，可以引导用户按照录入指示录制多遍“您好”等语音数据，并构成一个具有用户ID的用户分类类别的语音数据集。

在获取基于方向分类的类别的语音数据时，可以引导用户按照录入指示录制多遍“向前行走”、“向右行走”等类似的语音数据，并构成对应方向的方向分类类别的语音数据集。通常录制“前后左右”四个不同方向的语音数据，可构成前后左右四个方向分类类别的语音数据集。

在获取基于数字分类的类别的语音数据时，可以引导用户按照录入指示录制多遍“0”、“1”等数字相关的语音数据，并构成对应数字的数字分类类别的语音数据集。通常录制“0-9”十个不同方向的语音数据，可构成十个数字分类类别的语音数据集。

在获取基于性别分类的类别的语音数据时，可以引导用户按照指示录制多遍指示短语类语音数据，并可结合一些人脸识别等辅助手段对用户性别进行分类，并构成对应性别的性别分类类别的语音数据集。

为了减小训练运算量，每个录入指示对应一个类别的语音数据的录入。当然，在技术允许的情况下，还可以引导用户按照录入指示录制多遍类似“向前行走1米”的语音数据，根据不同音段将其分别构成“前”的方向分类类别的语音数据集，以及构成“1”的数字分类类别的语音数据集，从而减少用户录制的语音数据量，提升用户体验。

需要说明的是，若语音分类模型仅训练通用领域的识别，那么无需获取用户分类类别的语音数据。可以仅根据需求，获取所需通用领域的各个类别的语音数据，训练在通用领域识别的语音分类模型。若语音分类模型需要训练基于每个用户的语音识别，那么首先获取用户类别的语音数据，构成一个具有用户ID的用户分类类别的语音数据集；进而获取每个用户的所需其他通用领域类别的语音数据，构成其他各个类别的语音数据集。

在一些实施例中，获取语音数据通常通过录制用户的声音实现，机器人产品一般自带声卡，对声卡进行配置后即可正常实现录音功能。当一些情况下，用户录制声音时，机器人录入的声音很小，而且得与机器人靠得很近，此时可以对麦克风进行语音增强配置，使得麦克风稍稍加强一些，便于用户录入语音数据。具体加强配置参数根据机器人录制用户声音时的情况进行调节，此处不作限制。

在一些实施例中，语音数据也可以通过与其他设备通信获取，例如通过从云端服务器下载或从其他移动设备获取。

步骤S12：提取语音数据集中每个语音数据的语音特征。

目前技术完成语音识别的方案，大多是利用神经网络模型通过词向量(wordembedding)分类完成语音训练和识别，训练计算量大，是在计算力受限的机器人硬件上，无法完成昂贵的计算操作，并且训练过程耗时长，训练效率低。

本申请实施例基于不同类别语音数据的语音特征，通过优化语音分类模型实现更好的语音识别。其中，提取语音数据的语音特征可以是梅尔频率倒谱系数(Mel-frequencycepstral coefficients，MFCC)语音特征实现。以下对MFCC语音特征进行简单介绍：

梅尔频率倒谱系数(MFCC)就是组成梅尔频率倒谱的系数。倒谱和梅尔频率倒谱的区别在于，梅尔频率倒谱的频带划分是在梅尔刻度上等距划分的，它比用于正常的对数倒频谱中的线性间隔的频带更能近似人类的听觉系统。

由于能量频谱中还存在大量的无用讯息，尤其人耳无法分辨高频的频率变化，因此让频谱通过梅尔滤波器可解决该问题。梅尔滤波器也就是一组预设数量个非线性分布的三角带通滤波器，能求得每一个滤波器输出的对数能量。预设数量可以为20等。必须注意的是：这预设数量个三角带通滤波器在“梅尔刻度”的频率上是平均分布的。梅尔频率代表一般人耳对于频率的感受度，由此也可以看出人耳对于频率f的感受是呈对数变化的。

具体地，提取语音数据集中每个语音数据的MFCCs语音特征的一般流程包括如下方法：

预加重

通常高频能量比低频能量小，预加重滤波器主要为了放大高频，消除发声过程中声带和嘴唇的效应，来补偿语音信号受到发音系统所抑制的高频部分，也为了突出高频的共振峰。可通过使用一个高通滤波器实现。

分帧

语音信号是短时平稳信号，所以通常是在短时帧窗口内进行特征提取操作。同时为了避免连续帧差别太大，提取的相邻两帧之间会有重叠部分。

加窗

分帧后，一般会对每帧乘以一个窗函数来平滑信号，如汉明(Hamming)窗口。目的是增加帧两端的连续性，减少后续操作对频谱的泄漏。

频域转换

频域转换就是对傅立叶变换了。这里称为短时傅立叶变换(Short-time FourierTransform，STFT)，目的就是将信号从时域转换到频域。

功率谱

对语音信号的频谱取模平方，得到语音信号的谱线能量。

提取mel刻度

计算Mel滤波器组，将功率谱通过一组Mel刻度(通常取40个滤波器，nfilt＝40)的三角滤波器(triangular filters)来提取频带。

Mel刻度的目的是模拟人耳对声音的非线性感知，在较低的频率下更具辨别力，在较高的频率下则不具辨别力。

计算方法：对于快速傅里叶变换(Fast Fourier Transform，FFT)得到的幅度谱，分别跟每一个滤波器进行频率相乘累加，得到的值即为该帧数据在该滤波器对应频段的能量值。

得到MFCCs

以上步骤中计算的滤波器组系数是高度相关的，可以应用离散余弦变换(Discrete Cosine Transform，DCT)对滤波器组系数去相关处理，并产生滤波器组的压缩表示。将上一步得到的能量对数带入到离散余弦变换公式得到MFCCs：

其中，s(m)为提取mel刻度的步骤中所得到的滤波器的能量值；L为MFCC系数阶数，通常取12-16；M是三角滤波器个数；N为分帧步骤中每帧的大小，通常将预设数量个采样点集合成一个观测单位，称为帧，预设数量通常为256或者512，即通常情况下N的值为256或512。

通过上述方法，即可提取语音数据集中每个语音数据的MFCCs语音特征。

在一些实施例中，提取语音数据集中每个语音数据的语音特征包括：提取语音数据集中每个语音数据的语音特征，并对语音特征进行降维处理。由于提取的原始MFCC特征可能由于音频时间长度不同，而导致维度不同，在利用语音数据集对语音分类模型进行训练时，分类模型要求语音数据集中的语音数据的语音特征的特征维度相同，所以需要对语音特征进行降维处理，从而适用于分类模型的训练。

具体地，在对语音特征进行降维处理前包括去除语音数据集中所有短于预设时长的语音数据。例如，预设时长为0.5s等。从而去除一些过短的无效语音数据，降低计算量，提高训练精度和训练效率。

进一步地，对语音特征进行降维处理包括：提取得到的mfcc特征其纬度为特征向量维数和分帧数两部分决定，分别记为[n_mfcc,n_frames]，根据经验参数，可以将特征向量维数n_mfcc设定为16；分帧数n_frame和音频时间长度相关，可以取其分帧数最小值，然后将该二维特征拉平为一维特征，从而实现对语音特征的降维处理，降低运算量。

对于基于通用领域分类类别的语音数据集中的语音数据，利用上述内容提供的方法，已经可以提取出用于训练分类模型的语音特征。除此之外，对于基于用户分类类别的语音数据集中的语音数据，由于每个用户声音的基础响度等因素不尽相同，所以不同用户类别的语音数据集中的语音数据的类别特征不同。所以在处理基于用户分类类别的语音数据集中的语音数据时，除了利用上述内容提供的方法，提取出语音特征以外，还需要进一步对语音数据集中的语音特征进行优化，具体包括：

步骤S121：基于语音数据集中的至少部分语音数据，确定语音数据集的类别特征。

利用语音数据集中的至少部分语音数据，可以获得该语音数据集的类别特征，即通过类别特征突出体现该语音数据集的类别，利用类别特征对语音特征进行处理，可以使得训练效果更好，更利于子分类模型识别该类别。

在一些实施例中，同一用户类别的语音数据构成的一个语音数据集的类别特征包括：语音数据集的音频响度特征和音调变化特征。通过音频响度特征和音调变化特征，可以区别开不同用户的声音，以实现对语音数据集的特征提取和优化。

具体地，基于每个语音数据集中的至少部分语音数据，确定语音数据集的类别特征，包括：

计算语音数据集中至少部分语音数据的语音能量的均方根，以获得音频响度特征。针对每个类别基础音频响度的不同，可获得每个语音数据能量的均方根，从而获得类别特征中的音频响度特征。

计算语音数据集中至少部分语音数据的过零特征，以获得音调变化特征。针对每个类别的音调变化不同，获得每个语音数据的音频过零特征，从而获得类别特征中的音调变化特征。

在上述实施例中，基于类别特征中的音频响度特征和音调变化特征作为分类维度，对语音特征进行优化，实现对不同用户的语音数据集的精确分类。在其他实施例中，还可以基于类别特征中的其他特征作为分类维度，实现对不同用户类别的分类。

步骤S122：利用语音数据集的类别特征，对语音数据集中每个语音数据的语音特征进行处理。

利用确定的语音数据集的类别特征，即上述步骤S121中获得的音频响度特征和音调变化特征，对语音数据集中每个语音数据的语音特征进行处理。

具体地，利用语音数据集的类别特征，对语音数据集中每个语音数据的语音特征进行处理包括：将每个用户类别的语音特征除以对应的音频响度特征，并加上对应的音调变化特征，以获得每个用户类别的语音数据集的语音特征。

本申请实施例采用的语音特征提取及优化方案，可获得更加泛化的语音特征，适用更多的语音分类模型。

步骤S13：利用语音数据集中的语音特征对语音分类模型中的子分类模型进行训练，语音分类模型包括至少一个子分类模型，子分类模型与语音数据集一一对应。

本申请实施例基于不同类别语音数据的语音特征，通过优化语音分类模型实现更好的语音识别。其中，提取语音数据的语音特征可以通过上述步骤实现，本申请实施例的语音分类模型包括至少一个子分类模型，子分类模型与语音数据集一一对应设置。从而本申请实施例的每个类别的语音数据集对应单独训练一个子分类模型，需要增加类别数量时，无需重新训练整个语音分类模型，仅需新增训练一个子分类模型，以增加可识别的语音类别即可。从而减小训练量，提高训练效率，并实现通用的语言识别方案。

本申请实施例可采用高斯混合模型(Gaussian Mixed Model，GMM)作为语音分类模型。高斯混合模型可以看作是由K个高斯子模型组合而成的模型，这K个单模型是混合模型的隐变量(Hidden variable)。在语音分类模型的训练中，语音数据需要分类的类别数量即为K，子分类模型即为高斯子模型。例如，对于“前后左右”四个不同方向的方向分类类别，GMM模型会训练4个高斯子模型。而对于“0-9”十个不同数字的数字分类类别，GMM模型会训练10个高斯子模型。

不同模型可能具有不同的参数，我们可采用最大期望值(Expectation-Maximum，EM)算法确定模型参数，EM算法是一种迭代算法，用于含有隐变量(Hidden variable)的概率模型参数的最大似然估计。

每次迭代包含两个步骤：

E-step：求期望

E(γ_jk|X，θ)for all j＝1，2，...，N

M-step：求极大，计算新一轮迭代的模型参数。

其中，θ为每个子分类模型的模型参数；X为语音特征；γ_jk为预期输出；N为每个语音数据集中语音数据的总数量；j为每个语音数据的序号。

通过EM算法训练每个子分类模型的均值和方差参数，以获得识别对应类别语音数据的子分类模型。

需要说明的是，若语音分类模型仅训练通用领域的识别，那么无需获取用户分类类别的语音数据。直接利用各语音数据集中的语音特征，对语音分类模型中的对应子分类模型进行训练即可。

若语音分类模型训练基于用户分类类别和通用领域分类类别的识别，首先需要利用一用户类别的语音数据集中处理后的语音特征，对语音分类模型中的对应的子分类模型进行训练；随后利用该用户的其他通用领域各语音数据集中的语音特征，对语音分类模型中的各对应子分类模型进行训练。之后再按照相同方法依次训练其他用户类别的语言分类模型。

通过上述训练方法，每个用户都具有其对应的子分类模型，训练获得的语言分类模型可以针对性地识别不同用户的语音，提高语音分类模型的精度。

本申请实施例通过对语音数据进行类别分类，形成对应语音数据集，并提取优化不同类别语音数据的语音特征，利用语音特征训练对应的子分类模型，从而得到识别所需类别语音数据的语音分类模型。本申请实施例提出的语音分类模型包括子分类模型，一个子分类模型对应一个类别的语音数据集，则在训练语音分类模型时，获取到各个类别的语音数据，并且每个类别的语音数据构成一个语音数据集，利用语音数据集来对语音分类模型中的子分类模型进行训练，即可使得语音分类模型能够实现语音分类。且基于该训练方法，本申请实施例中语音分类模型可随时增加新的语音类别的分类。从而减小训练量，提高训练效率，并实现通用的语言识别方案。本申请实施例的训练方法运算量低，可以实现在计算力受限的机器人上完成语音分类训练任务，在机器人应用领域，可适合作为人工智能教具使用。本申请实施例的训练方法可以通过python编程实现了整个语音识别流程。

请参阅图3和图4，图3是本申请的语音分类方法一实施例的流程示意图；图4是本申请的语音分类方法一实施例中的对待分类语音特征进行优化的流程示意图。本申请实施例的语音分类方法由智能设备或终端设备等电子设备执行，终端设备可以为用户设备(User Equipment，UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字助理(Personal Digital Assistant，PDA)、手持设备、计算设备、车载设备、可穿戴设备等，智能设备可包括智能教育机器人、智能移动机器人等，所述方法可以通过电子设备的处理器调用存储器中存储的计算机可读指令的方式来实现。

本申请又一实施例提供了一种语音分类方法，语音分类方法包括：

步骤S21：获取待分类语音。

在一些实施例中，获取待分类语音，待分类语音可以包括唤醒语音和指令语音。唤醒语音用于唤醒设备，以及可以供语音分类模型识别对应用户，指令语音用于控制设备。

以一个利用语音进行风扇控制的方案举例，获取待分类语音包括：

获取针对风扇的控制语音，作为待分类语音。需要说明的是，风扇可识别的待分类语音类别可以预先设置或者用户直接在风扇上进行训练得到，具体可以包括开启、停止、加速、减速、左转、右转等。其中，上述指令语音仅为列举的常见的几种指令语音，还可以采用相近意思的其他指令语音代替，例如减速还可以为调小，加速还可以为调大；开启还可以为打开，停止还可以为关闭，此处不作限制。

步骤S22：提取待分类语音的待分类语音特征。

待分类语音的待分类语音特征可以基于MFCC语音特征实现。以下对MFCC语音特征进行简单介绍：

具体地，提取待分类语音的待分类语音特征的MFCCs语音特征的一般流程包括预加重、分帧、加窗、频域转换、功率谱、提取mel刻度和得到MFCCs，通过上述流程即可提取待分类语音的MFCCs语音特征。具体提取待分类语音的MFCCs语音特征的步骤与上述实施例对应步骤类似，此处不再赘述。

在一些实施例中，提取待分类语音的待分类语音特征包括：提取待分类语音的待分类语音特征，并对待分类语音特征进行降维处理，从而降低运算量，提高识别效率。

具体地，在对待分类语音特征进行降维处理前包括去除短于预设时长的待分类语音。例如，预设时长为0.5s等。从而去除过短的无效待分类语音，从而避免造成识别失误。

进一步地，对待分类语音特征进行降维处理包括：提取得到的mfcc特征其纬度为特征向量维数和分帧数两部分决定，分别记为[n_mfcc,n_frames]，根据经验参数，可以将n_mfcc设定为16；n_frame和音频时间长度相关，可以取其分帧数最小值，然后将该二维特征拉平为一维特征，从而实现对待分类语音特征的降维处理，降低运算量。

对于通用领域分类类别的待分类语音，利用上述内容提供的方法，已经可以提取出待分类语音。除此之外，对于用户分类类别的待分类语音，由于每个用户声音的基础响度等因素不尽相同，所以不同用户的待分类语音的类别特征不同。所以在处理待分类语音时，除了利用上述内容提供的方法，提取出待分类语音特征以外，还需要进一步对待分类语音特征进行优化，具体包括：

步骤S221：确定待分类语音的待分类语音响度特征和待分类音调特征。

不同用户的待分类语音的待分类语音响度特征和待分类音调特征不同。通过待分类语音的待分类语音响度特征和待分类音调特征，可以区别开不同用户的声音，以实现对待分类语音特征的提取和优化。

具体地，确定待分类语音的待分类语音响度特征和待分类音调特征包括：

计算待分类语音的语音能量的均方根，以获得待分类语音响度特征。针对每个待分类语音基础音频响度的不同，可获得每个待分类语音能量的均方根，从而获得待分类语音的待分类语音响度特征。

计算待分类语音的过零特征，以获得待分类音调特征。针对每个待分类语音的音调变化不同，获得每个待分类语音的音频过零特征，从而获得待分类语音的待分类音调特征。

在上述实施例中，基于待分类语音特征的待分类语音响度特征和待分类音调特征作为分类维度，对待分类语音特征进行优化，实现对不同用户的精确分类。在其他实施例中，还可以基于其他特征作为分类维度，实现对不同用户的分类。

步骤S222：利用待分类响度特征和待分类音调特征，对待分类语音特征进行处理。

利用确定的待分类语音的待分类响度特征和待分类音调特征，即上述步骤S221中获得的待分类响度特征和待分类音调特征，对待分类语音特征进行处理。

具体地，利用待分类语音的待分类响度特征和待分类音调特征，对待分类语音特征进行处理包括：将每个待分类语音特征除以对应的待分类响度特征，并加上对应的待分类音调特征，以获得每个用户的待分类语音特征。

本申请实施例采用的待分类语音特征提取及优化方案，可获得更加泛化的待分类语音特征，适用更多的语音分类模型。

步骤S23：将待分类语音特征输入语音分类模型，确定待分类语音的类别。

本实施例的语音分类模型采用上述任一实施例中的训练方法训练获得。

本申请实施例的语音分类模型包括至少一个子分类模型，每个子分类模型识别一个类别的待分类语音特征。本申请实施例可采用高斯混合模型(GMM模型)作为语音分类模型。高斯混合模型可以看作是由K个高斯子模型组合而成的模型，这K个单模型是混合模型的隐变量(Hidden variable)。在GMM语音分类模型中，语音数据需要分类的类别数量即为K，子分类模型即为高斯子模型。例如，对于“前后左右”四个不同方向的方向分类类别，GMM模型会训练4个高斯子模型。而对于“0-9”十个不同数字的数字分类类别，GMM模型会训练10个高斯子模型。

需要说明的是，若语音分类模型仅用于通用领域的识别，那么直接将待分类语音输入语音分类模型，获得分类结果。

可选地，调用语音分类模型中所有子分类模型，计算待分类语音属于每个子分类模型的概率并保存，选取最大的概率所属的子分类模型对应的类别，作为分类结果。

若语音分类模型用于基于用户分类类别和通用领域分类类别的识别，首先需要识别待分类语音属于的用户类别，将待分类语音特征输入语音分类模型包括：将处理后的待分类语音特征输入语音分类模型，以获得用户类别分类结果。随后利用该用户相关的其他子分类模型，识别待分类语音在通用领域类别的分类结果。可选地，调用语音分类模型中所有识别用户类别的子分类模型，计算待分类语音属于每个子分类模型的概率并保存，选取最大的概率所属的子分类模型对应的用户类别，作为用户类别分类结果。随后调用该用户相关的其他子分类模型，计算待分类语音属于每个子分类模型的概率并保存，选取最大的概率所属的子分类模型对应的类别，作为分类结果。

通过首先识别用户类别，并作为类似登录入口，采用其他对应子分类模型对该用户的待分类语音进行进一步识别，可以有针对性的识别用户语音，提高识别效率和准确率。尤其对带有方言或者口音的用户，可有效提高识别准确率，提升用户体验。本实施例中的语音分类方法可高效和高准确率地对待分类语音进行识别分类，可识别分类的待分类语音类别可经过提前训练，可实现通用的语言识别分类方案。

仍以一个利用语音进行风扇控制的方案举例，风扇上具有经过预先训练的语音分类模型，或者用户直接在风扇上进行训练获得语音分类模型。语音分类模型确定待分类语音的类别包括：确定待分类语音的类别为开启、停止、加速、减速、左转、右转中的一种。

需要说明的是，上述指令语音仅为列举的常见的几种指令语音，还可以采用相近意思的其他指令语音进行对风扇的语音分类模型进行训练并用于识别，例如减速还可以为调小，加速还可以为调大；开启还可以为打开，停止还可以为关闭，此处不作限制。

除风扇外，本申请实施例的语音分类方法还可以用于照明装置、行走小车等其他类型的教育机器人上。

请参阅图5，图5是本申请的语音分类模型的训练装置一实施例的框架示意图。

本申请又一实施例提供了一种语音分类模型的训练装置300，包括：语音获取模块31，特征提取模块32和运算模块33。其中，语音获取模块31用于获取至少一个类别的语音数据，同一类别的语音数据构成一个语音数据集。特征提取模块32用于提取语音数据集中每个语音数据的语音特征。运算模块33用于利用语音数据集中的语音特征对语音分类模型中的子分类模型进行训练；语音分类模型包括至少一个子分类模型，子分类模型与语音数据集一一对应。本申请实施例的训练装置300通过对语音数据进行类别分类，形成对应语音数据集，并提取优化不同类别语音数据的语音特征，利用语音特征训练对应的子分类模型，从而得到识别所需类别语音数据的语音分类模型。本申请实施例的语音分类模型包括至少一个子分类模型，子分类模型与语音数据集一一对应设置。从而本申请实施例的每个类别的语音数据集对应单独训练一个子分类模型，需要增加类别数量时，无需重新训练整个语音分类模型，仅需新增训练一个子分类模型，以增加可识别的语音类别即可。从而减小训练量，提高训练效率，并实现通用的语言识别方案。本申请实施例的训练方法运算量低，可以实现在计算力受限的机器人上完成语音分类训练任务，在机器人应用领域，可适合作为人工智能教具使用。本申请实施例的训练装置300可以通过python编程实现了整个语音识别流程。

请参阅图6，图6是本申请的语音分类装置一实施例的框架示意图。

本申请又一实施例提供了一种语音分类装置400，包括：语音获取模块41，特征提取模块42和分类模块43。其中，语音获取模块41用于获取待分类语音。特征提取模块42用于提取待分类语音的待分类语音特征。分类模块43用于将待分类语音特征输入语音分类模型，确定待分类语音的类别，本申请实施例中的语音分类模型由上述实施例中的训练装置训练获得。本申请实施例的语音分类装置400的对待分类语音的识别效率和准确率高，可识别分类的待分类语音类别可经过提前训练，可实现通用的语言识别分类。

请参阅图7，图7是本申请终端设备一实施例的框架示意图。

本申请又一实施例提供了一种终端设备700，包括相互耦接的存储器701和处理器702，处理器702用于执行存储器701中存储的程序指令，以实现上述任一实施例的训练方法和上述任一实施例的语音分类方法。在一个具体的实施场景中，终端设备700可以包括但不限于：微型计算机、服务器、笔记本电脑、平板电脑等移动设备。此外，终端设备700还可以包括风扇、照明装置、行走小车等。

具体而言，处理器702用于控制其自身以及存储器701以实现上述任一训练方法实施例的步骤，或实现上述任一语音分类方法实施例中的步骤。处理器702还可以称为CPU(Central Processing Unit，中央处理单元)。处理器702可能是一种集成电路芯片，具有信号的处理能力。处理器702还可以是通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器702可以由集成电路芯片共同实现。

通过上述方案，能够准确且高效地实现语音分类。

请参阅图8，图8是本申请计算机可读存储介质一实施例的框架示意图。

本申请又一实施例提供了一种计算机可读存储介质800，其上存储有程序指令801，程序指令801被处理器执行时实现上述任一项的训练方法以及任一项的语言分类方法。通过上述方案，能够准确且高效地实现语音分类。

本申请实施例还提供了一种计算机程序产品，包括计算机可读代码，或者承载有计算机可读代码的非易失性计算机可读存储介质，当所述计算机可读代码在电子设备的处理器中运行时，所述电子设备中的处理器执行上述方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质800中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质800中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质800包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种语音分类模型的训练方法，其特征在于，所述训练方法包括：

获取至少一个类别的语音数据，同一类别的语音数据构成一个语音数据集；

提取所述语音数据集中每个语音数据的语音特征；

利用所述语音数据集中的语音特征对所述语音分类模型中的子分类模型进行训练；所述语音分类模型包括至少一个子分类模型，所述子分类模型与所述语音数据集一一对应。

2.根据权利要求1所述的训练方法，其特征在于，所述训练方法还包括：

基于所述语音数据集中的至少部分语音数据，确定所述语音数据集的类别特征；

利用所述语音数据集的类别特征，对所述语音数据集中每个语音数据的语音特征进行处理；

所述利用所述语音数据集中的语音特征对所述语音分类模型中的子分类模型进行训练，包括：

利用所述语音数据集中处理后的语音特征对所述语音分类模型中的子分类模型进行训练。

3.根据权利要求2所述的训练方法，其特征在于，所述语音数据集的类别特征包括所述语音数据集的音频响度特征和音调变化特征。

4.根据权利要求3所述的训练方法，其特征在于，所述基于所述语音数据集中的至少部分语音数据，确定所述语音数据集的类别特征，包括：

计算所述语音数据集中至少部分语音数据的语音能量的均方根，以获得所述音频响度特征；

计算所述语音数据集中至少部分语音数据的过零特征，以获得所述音调变化特征。

5.根据权利要求4所述的训练方法，其特征在于，所述利用所述语音数据集的类别特征，对所述语音数据集中每个语音数据的语音特征进行处理，包括：

将语音特征除以所述音频响度特征，并加上所述音调变化特征。

6.根据权利要求1-5任一项所述的训练方法，其特征在于，所述提取所述语音数据集中每个语音数据的语音特征，包括：

提取所述语音数据集中每个语音数据的语音特征，并对所述语音特征进行降维处理。

7.根据权利要求1-5任一项所述的训练方法，其特征在于，所述训练方法包括：

呈现录入指示，所述录入指示对应一个类别的语音数据的录入；

所述获取至少一个类别的语音数据，包括：获取依据所述录入指示的语音数据。

8.一种语音分类方法，其特征在于，所述语音分类方法包括：

获取待分类语音；

提取所述待分类语音的待分类语音特征；

将所述待分类语音特征输入语音分类模型，确定所述待分类语音的类别，所述语音分类模型由权利要求1-7中任一项所述的训练方法训练获得。

9.根据权利要求8所述的语音分类方法，其特征在于，所述语音分类方法还包括：

确定所述待分类语音的待分类语音响度特征和待分类音调特征；

利用所述待分类响度特征和待分类音调特征，对所述待分类语音特征进行处理；

所述将所述待分类语音特征输入语音分类模型，包括：

将处理后的待分类语音特征输入所述语音分类模型。

10.根据权利要求8或9所述的语音分类方法，其特征在于，所述提取所述待分类语音的待分类语音特征，包括：

提取所述待分类语音的待分类语音特征，并对所述待分类语音特征进行降维处理。

11.根据权利要求8或9所述的语音分类方法，其特征在于，所述获取待分类语音，包括：

获取针对风扇的控制语音，作为所述待分类语音；

所述确定所述待分类语音的类别，包括：

确定所述待分类语音的类别为开启、停止、加速、减速、左转、右转中的一种。

12.一种终端设备，其特征在于，所述终端设备包括相互耦接的存储器和处理器，所述处理器用于执行所述存储器中存储的程序指令，以实现权利要求1至11中任一项所述的方法。

13.一种计算机可读存储介质，其上存储有程序数据，其特征在于，所述程序数据被处理器执行时实现权利要求1至11中任一项所述的方法。