CN112767967A

CN112767967A - 语音分类方法、装置及自动语音分类方法

Info

Publication number: CN112767967A
Application number: CN202011626157.7A
Authority: CN
Inventors: 陈海波; 罗志鹏; 潘春光
Original assignee: Shenyan Technology Beijing Co ltd
Current assignee: Shenyan Technology Beijing Co ltd
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2021-05-07

Abstract

本申请实施例公开一种语音分类方法、装置及自动语音分类方法，该语音分类方法包括：从原始语音数据提取声学特征，构成训练集和验证集，其中声学特征包括梅尔频谱特征和梅尔倒频系数特征；将训练集中的梅尔频谱特征作为训练数据对逻辑回归模型进行训练并将验证集输入已训练的逻辑回归模型，得到第一语音分类结果；将训练集中的梅尔倒频系数特征作为训练数据对深度学习模型进行训练并将验证集输入已训练的深度学习模型，得到第二语音分类结果；将第一语音分类结果与第二语音分类结果相融合。通过该语音分类方法构建的语音分类模型在速度和精度方面均有较好的性能。

Description

语音分类方法、装置及自动语音分类方法

技术领域

本申请涉及互联网技术领域。更具体地，涉及一种语音分类方法、装置及自动语音分类方法。

背景技术

全称神经信息处理系统大会(Conference and Workshop on NeuralInformation Processing Systems，NeurIPS)，是全球最受瞩目的AI、机器学习顶级学术会议之一。历来，NeurIPS竞赛单元都被誉为AI界的华山论剑，汇聚了全球AI顶尖力量决战技术之巅。深度学习(DeepLearning，DL)近年来飞速发展，在多个领域中获得了显著效果提升，但是深度学习技术实现仍然需要大量的专家经验和人工成本，因此自动深度学习系统(AutoDL)受到了学术及工业界的广泛关注，AutoDL对快速推动落地应用和理论发展都具有重大意义。

针对语音方向的自动语音分类(AutoSpeech)也是此次AutoDL中的一项，AutoSpeech主要是自动化完成对语音分类模型的建模，为了考研构建的模型的实用性，需要从模型的出分时间和最高分精度等多个维度进行综合性评价，针对该评价方式，构建的模型需要兼顾模型的速度和精度。

发明内容

本申请的目的在于提供一种语音分类方法、装置及自动语音分类方法，以解决现有技术存在的问题中的至少一个。

为达到上述目的，本申请采用下述技术方案：

本申请第一方面提供一种语音分类方法，该构建方法包括：

S10、从原始语音数据提取声学特征，构成训练集和验证集，其中所述声学特征包括梅尔频谱特征和梅尔倒频系数特征；

S12、将训练集中的梅尔频谱特征作为训练数据对逻辑回归模型进行训练并将验证集输入已训练的逻辑回归模型，得到第一语音分类结果；

S14、将训练集中的梅尔倒频系数特征作为训练数据对深度学习模型进行训练并将验证集输入已训练的深度学习模型，得到第二语音分类结果；

S16、将所述第一语音分类结果与所述第二语音分类结果相融合。

在一种可能的实现方式中，所述从原始语音数据提取声学特征包括：

S100、对原始语音数据进行预处理，生成时域信号，对每一帧语音数据通过快速傅里叶变换或离散傅里叶变换处理得到语音线性频谱；

S102、将线性频谱输入Mel滤波器组进行滤波，生成所述梅尔频谱特征；

S104、取所述梅尔频谱特征的对数能量，生成相应的对数频谱；

S106、使用离散余弦变换将对数频谱转换为梅尔倒频系数特征。

在一种可能的实现方式中，所述将训练集中的梅尔频谱特征作为训练数据对逻辑回归模型进行训练并将验证集输入已训练的逻辑回归模型，得到第一语音分类结果包括：

S120、将训练集中预定比例的梅尔频谱特征作为初始训练数据输入逻辑回归模型进行初步训练；

S122、将验证集输入初步训练的逻辑回归模型进行预测，得到第一子语音分类结果，所述第一子语音分类结果能够作为所述第一语音分类结果输出；

S124、增加新的梅尔频谱特征作为训练数据输入所述逻辑回归模型进行训练；

S126、将验证集输入训练的逻辑回归模型进行预测，得到第二子语音分类结果，所述第二子语音分类结果能够作为所述第一语音分类结果输出；

S128、重复S124～S126，直到所有梅尔频谱特征全部输入所述逻辑回归模型。

在一种可能的实现方式中，所述将训练集中的梅尔倒频系数特征作为训练数据对深度学习模型进行训练并用验证集对训练的深度学习模型进行验证包括：

识别作为训练数据的梅尔倒频系数特征的类别数据量，对于类别数据量大于预设数量阈值的梅尔倒频系数特征少采样，对于类别数据量小于预设数量阈值的梅尔倒频系数特征多采样，生成类别数据量均衡的训练数据；

将所述类别数据量均衡的训练数据输入所述深度学习模型进行训练。

在一种可能的实现方式中，所述将训练集中的梅尔倒频系数特征作为训练数据对深度学习模型进行训练并用验证集对训练的深度学习模型进行验证，得到第二语音分类结果：

将训练集中的梅尔倒频系数特征作为训练数据输入CNN网络模型、CNN与GRU构成的组合网络模型和LSTM网络模型进行训练，其中CNN的输入层作为所述组合网络模型的输入层，GRU的输出层作为所述组合网络模型的输出层；

将验证集输入训练的CNN网络模型、CNN与GRU构成的组合网络模型和LSTM网络模型，分别得到CNN网络模型语音分类结果、CNN与GRU构成的组合网络模型语音分类结果和LSTM网络模型语音分类结果；

其中，所述CNN网络模型语音分类结果、CNN与GRU构成的组合网络模型语音分类结果和LSTM网络模型语音分类结果的集合分别作为第二语音分类结果输出。

根据梅尔倒频系数特征训练集所包含的类别个数和数据量，自动选择所述深度学习网络中包括的网络模型，将所述梅尔倒频系数特征测试集输入所述选择的网络模型，其中所述深度学习模型包括CNN网络模型、CNN与GRU构成的组合网络模型和LSTM网络模型。

在一种可能的实现方式中，所述将根据逻辑回归模型得到的语音分类结果与根据深度学习模型得到的语音分类结果相融合包括：

将所有训练的模型的语音分类结果中最佳的N个分类结果以及每个模型的最佳结果进行融合；

其中N为正整数，且N≥1。

本申请第二方面提供了一种自动语音分类方法，应用于本申请第一方面提供的语音分类方法，该自动语音分类方法包括：

S20、从待测语音数据提取声学特征作为测试集，其中所述声学特征包括梅尔频谱特征和梅尔倒频系数特征；

S22、将梅尔频谱特征测试集输入逻辑回归模型得到语音分类结果；

S24、根据梅尔倒频系数特征测试集所包含的类别个数和数据量，自动选择所述深度学习网络中包括的网络模型，将所述梅尔倒频系数特征测试集输入所述选择的网络模型，其中所述深度学习模型包括至少两个深度学习神经网络；

S26、将根据逻辑回归模型得到的语音分类结果与根据所选择的深度学习神经网络得到的语音分类结果相融合。

在一种可能的是实现方式中，所述多个深度学习神经网络包括CNN网络模型、CNN与GRU构成的组合网络模型和LSTM网络模型。

在一种可能的是实现方式中，该语音分类方法还包括

根据梅尔倒频系数特征测试集所包含的类别个数选择所述CNN网络模型、CNN与GRU构成的组合网络模型和LSTM网络模型的输出层是二分类器或者多分类器。

本申请第三方面提供一种语音分类装置，该装置包括：

声学特征提取单元，用于从原始语音数据提取声学特征，构成训练集和验证集，其中所述声学特征包括梅尔频谱特征和梅尔倒频系数特征(梅尔倒频系数)；

梅尔频谱特征训练单元，用于将训练集中的梅尔频谱特征作为训练数据对逻辑回归模型进行训练并将验证集输入已训练的逻辑回归模型，得到第一语音分类结果；

梅尔倒频系数特征训练单元，将训练集中的梅尔倒频系数特征作为训练数据对深度学习模型进行训练并将验证集输入已训练的深度学习模型，得到第二语音分类结果；

融合单元，用于将所述第一语音分类结果与所述第二语音分类结果相融合。

在一种可能的实现方式中，其特征在于，所述梅尔频谱特征训练单元包括：

第一梅尔频谱特征训练模块，用于将训练集中预定比例的梅尔频谱特征作为初始训练数据输入逻辑回归模型进行初步训练；

第一梅尔频谱特征分类模块，用于将验证集输入初步训练的逻辑回归模型进行预测，得到第一子语音分类结果；

第二梅尔频谱特征训练模块，用于增加新的梅尔频谱特征作为训练数据输入所述逻辑回归模型进行训练；

第二梅尔频谱特征分类模块，用于将验证集输入训练的逻辑回归模型进行预测，得到第二子语音分类结果；

以增量训练方式重复训练和验证过程，直到所有梅尔频谱特征全部输入所述逻辑回归模型。

在一种可能的实现方式中，所述梅尔倒频系数特征训练单元包括：

数据量识别模块，用于识别作为训练数据的梅尔倒频系数特征的类别数据量，对于类别数据量多的梅尔倒频系数特征少采样，对于类别数据量少的梅尔倒频系数特征多采样，生成类别数据量均衡的训练数据；

梅尔倒频系数特征训练模块，用于将所述类别数据量均衡的训练数据输入所述深度学习模型进行训练。

在一种可能的实现方式中，所述梅尔倒频系数特征训练模块被进一步配置为：

将验证集输入训练的CNN网络模型、CNN与GRU构成的组合网络模型和LSTM网络模型，得到各自的语音分类结果。

在一种可能的实现方式中，所述梅尔倒频系数特征训练单元还包括：

模型选择模块，用于根据梅尔倒频系数特征训练集所包含的类别个数和数据量，自动选择所述深度学习网络中包括的网络模型，将所述梅尔倒频系数特征测试集输入所述选择的网络模型，其中所述深度学习模型包括CNN网络模型、CNN与GRU构成的组合网络模型和LSTM网络模型。

在一种可能的实现方式中，所述融合单元被进一步配置为将所有训练的模型的语音分类结果中最佳的N个分类结果以及每个模型的最佳结果进行融合。

本申请第四方面提供一种计算机设备，包括处理器和存储有程序的存储器，所述程序被处理器执行时实现本申请第一方面提供的所述语音分类方法或者本申请第二方面提供的自动语音分类方法。

本申请第五方面提供一种计算机可读介质，存储有程序，其特征在于，所述程序被执行时实现本申请第一方面提供的所述语音分类方法或者本申请第二方面提供的自动语音分类方法。

本发明的有益效果如下：

本申请提供的技术方案，在提升速度方面，采用特征维度较小的梅尔频谱特征和轻量化的且具有较少参数设置的逻辑回归模型可快速获取结果，提升语音分类模型的出分速度；在提升精度方面，采用特征维度较高的梅尔倒频系数特征和多模型组合的深度学习模型可保证语音分类模型的精度，并且将逻辑回归模型得到的语音分类结果与根据深度学习模型得到的语音分类结果相融合可进一步提升语音分类模型的精度。

附图说明

下面结合附图对本发明的具体实施方式作进一步详细的说明。

图1示出本申请提供的一种语音分类方法的实施例的流程图。

图2示出本申请提供的梅尔频谱特征和梅尔倒频系数特征的获取方法流程图。

图3示出本申请提供的训练集递增训练方法。

图4示出本申请提供的一种语音分类装置。

图5示出本申请提供的一种自动语音分类方法流程图。

图6示出适于用来实现语音分类模型构建方法或者自动语音分类方法的计算机设备。

具体实施方式

为了更清楚地说明本发明，下面结合优选实施例和附图对本发明做进一步的说明。附图中相似的部件以相同的附图标记进行表示。本领域技术人员应当理解，下面所具体描述的内容是说明性的而非限制性的，不应以此限制本发明的保护范围。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合。下面将参考附图并结合实施例来详细说明本申请。

随着互联网技术的不断发展，各类建模大赛越来越受到关注，建模大赛的目的在于培育当代技术人员运用理论知识、大数据资源和现代信息技术手段解决现实问题的能力，培养其创新精神和创新能力。

AutoSpeech挑战赛，是针对语音分类/识别相关的国际性赛事，挑战赛分为三个阶段：反馈阶段、检查阶段和最终阶段。

首先参赛选手通过下载数据集，离线开发自己的AutoSpeech程序。

然后进入反馈阶段，参赛者将自己的AutoSpeech程序代码上传到平台上，并通过在另外下载的验证数据集进行测试，得到其性能的即时反馈。

反馈阶段结束后，将进入检查阶段，参赛选手只允许在私有数据集上提交一次代码，以便进行调试。此时，参赛选手将无法阅读详细的日志，但是他们能够看到他们的代码是否报告错误。最终阶段，参赛选手的AutoSpeech程序在测试数据集上进行评估。最终阶段的排名将决定获胜者。

需要说明的是，比赛平台将提供统一配置的GPU服务器进行相同环境相同计算资源的测试，并设定每个评测数据集的运行时长。基于此规定，赛制方通常根据分类模型的速度和精度等多个维度进行综合性评价。赛制方通过积分方式判定模型的优劣，例如，根据模型输出结果的速度，则可以优先获得一部分分值，再根据模型的精度，获取一部分分值。

因此，为了兼顾语音分类模型的速度和精度，请参考图1，图1是本申请提供的一种语音分类方法的实施例的流程图。

本申请的一个实施例提供的一种语音分类方法，包括：

S10、从原始语音数据提取声学特征，构成训练集和验证集，其中声学特征包括梅尔频谱(Mel spectrogram)特征和梅尔倒频系数(MFCC)特征；

需要说明的是，原始语音数据实际为一段被标识的音频数据，即赛制方提供的数据集。例如，包含有5种鸟叫的音频数据或者包含有4种情绪的人声等，本申请对此不作限定。

原始语音并不能直接输入至模型中，因此，需要将原始语音转化成模型可以识别的且对音频分类有效果的声学特征，常用的声学特征一般有基音相关特征、短时能量相关特征、共振峰相关特征、过零率、梅尔频谱特征、梅尔倒谱系数等。梅尔频谱特征和梅尔倒谱系数特征就是使用非常广泛的声学特征形式。

容易理解的是，在语音分类等领域中，一般需要将提取的声学特征划分为训练集、验证集。其中，训练集是用来确定模型的网络结构或者控制模型复杂程度的参数，验证集用来防止模型过拟合。典型的划分是训练集占总声学特征集的50％，验证集占50％，训练集和验证集都是从声学特征集中随机抽取的。

示例性的，原始数据为如表1所示的5类鸟叫数据：

声学特征的类别	数据量	训练集	验证集
				麻雀	100	50	50
燕子	80	40	40
				黄鹂	60	30	30
布谷	20	10	10
				画眉	40	20	20

需要说明的是，数据量可理解为鸟叫在原始数据中出现的次数，例如，在本示例提供的原始数据中，麻雀的叫声出现了100次，燕子的叫声出现了80次，黄鹂的叫声出现了60次，布谷的叫声出现了20次，画眉的叫声出现了40次。

相应的，在原始数据为4种情绪的人声时，例如，快乐、愤怒、悲哀、恐惧，则该原始数据的声学特征类别则为该4中情绪，即快乐、愤怒、悲哀、恐惧；数据量则对应不同情绪下发声的次数。

在本实施例中，考虑到对声学特征的提取速度，选择容易获取的梅尔频谱特征和梅尔倒频系数特征作为语音分类模型的研究特征，需要说明的是，在一些可选的实施例中，也可以选择例如基音相关特征、短时能量相关特征等特征作为语音分类模型的研究特征。

继续参考图2，示出了本实施例中梅尔频谱特征和梅尔倒频系数特征的获取方法流程图，该方法包括：

需要说明的是，在提取梅尔频谱特征时，有些语音的序列较长，影响模型速度，因此，可对语音序列进行截断，同时降低梅尔频谱特征的维度，来提高模型的速度。

需要说明的是，预处理的目的是便于提取声学特征，预处理过程包括预加重、加窗和分帧、端点检测等。经过预处理后的原始语音数据是一维的时域信号，时域信号很难看出信号的特性，直观上难以得出频率变化规律。所以通常将它转换为频域上的能量分布来观察，不同的能量分布，就能代表不同语音的特性。因此，对预处理后的语音数据，再经过快速傅里叶变换或离散傅里叶变换以得到在频谱上的能量分布。即，对预处理后的语音数据进行快速傅里叶变换或者离散傅里叶变换得到语音线性频谱。语音线性频谱往往是很大的一张图，为了得到合适大小的声音特征，往往把它通过Mel滤波器组(梅尔标度滤波器组)，变换为梅尔频谱特征。

还需要说明的是，在对原始语音数据进行预处理之前，还可以对原始语音数据进行静音处理，提取出有效的语音部分，进一步提高语音分类模型的准确性。具体地，可以通过统计删除预先标记的原始语音数据中语音能量低于百分之十的音频数据。对原始语音数据进行静音处理也可在对原始语音进行预处理之后进行。

示例性的，获取梅尔频谱特征以及梅尔倒频系数特征的具体过程如下：

对获取得到的原始语音数据S(n)进行预处理，生成时域信号X(n)(信号序列的长度N＝256)，接着，对每一帧语音数据通过快速傅里叶变换或离散傅里叶变换处理得到语音线性频谱X(k)，可表示为：

将线性频谱X(k)输入Mel滤波器组进行滤波，生成梅尔频谱特征，接着取梅尔频谱特征的对数能量，生成相应的对数频谱S(m)。

这里，Mel滤波器组是一组三角带同滤波器H_m(k)，且需满足0≤m≤M，其中M表示滤波器的数量，通常为20～28。带通滤波器的传递函数可以表示为：

f(m)为中心频率。

之所以对Mel能量频谱取对数，是为了促进声纹识别系统性能的提升。语音线性频谱X(k)到对数频谱S(m)的传递函数为：

通过使用离散余弦变换(DCT)将对数频谱S(m)求解转换为梅尔倒频系数特征参数，梅尔倒频系数特征参数的第n维特征分量C(n)的表达式为：

通过上述步骤获得的梅尔倒频系数特征参数仅反映语音数据的静态特性，可通过求其的一阶、二阶差分得到动态特性参数。

梅尔频谱特征与梅尔倒频系数特征相比，提取简单，可提高模型的速度，而梅尔倒频系数特征则可提高模型的精度。

逻辑回归模型对比深度学习模型，速度上有着很大的提升，能够很快完成模型的训练。

为进一步降低逻辑回归模型训练时间，尽快获取语音分类结果，参考图3，示出了本实施例提供的递增训练方法，该方法包括：

预定比例的梅尔频谱特征可根据等分原则进行划分，也可为其他分类标准划分。

示例性的，设计如下表2所示的预定比例规则：

初次训练数据	10％梅尔频谱特征
		二次训练数据	20％梅尔频谱特征
三次训练数据	30％梅尔频谱特征
		……	……
十次训练数据	100％梅尔频谱特征

需要说明的是，每后一次的训练数据中应当包含前一次训练数据，例如，二次训练数据中的20％梅尔频谱特征应当包含初次训练数据的10％梅尔频谱特征。语音分类的表现形式是多样化的，例如，可输出多种声音的占比等。

示例性的，继续借鉴前述表1示例中的原始数据，基于5类鸟叫的原始数据而言，经过本实施例的逻辑回归模型后，可得到如表3所示出的分类结果：

声学特征类别	分类结果(占比)
		麻雀	30％
燕子	26％
		黄鹂	24％
布谷	8％
		画眉	12％

需要说明的是，表3中示出的仅仅为初次训练数据带来的语音分类结果，表3中示出的数据仅仅作为示例性的参考，与实际结果不相干。

基于前述内容可知，本实施例中，应用的到的逻辑回归模型的目的在于快速获取结果，以此来获取语音分类模型在速度方面的分值，因此，为了更快的获取结果，可采用预定比例的梅尔频谱特征作进行训练及验证，以更快的获取结果。

增加的新的梅尔频谱特征作可根据前述表1中的预设比例规则执行，也可为其他规则，例如二次训练数据中输入30％梅尔频谱特征等。

S126、将验证集输入训练的逻辑回归模型进行预测，得到第一子语音分类结果，所述第一子语音分类结果能够作为所述第一语音分类结果输出；

采用上述增量训练的方式，可快速获得一个语音分类结果，帮助模型获得较大分值，之后，通过慢慢加入新的训练特征，可逐渐提升语音分类模型的性能。

由此，通过参数设置较少的逻辑回归模型，可快速获得分类结果，使得语音分类模型在速度方面的获得较大分值。

容易理解的是，深度学习是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。

利用梅尔倒频系数特征对深度学习模型进行训练，可提高语音分类模型的精度。

需要说明的是，由于作为训练数据的梅尔倒频系数特征的数据量不平衡，借鉴表1示出的初始数据为5种鸟叫数据，由表1可知，对于训练集而言，其中，麻雀的叫声出现50次，燕子的叫声出现40次，黄鹂的叫声出现30次，布谷的叫声出现10次，画眉的叫声出现20次，可以看出，训练集中，各种鸟叫的数据出现次数并不平衡，即，各种鸟叫的梅尔倒频系数特征的数据量个数不平衡。由于数据量的不平衡，会影响分类结果的精确性，因此，本实施例提供了一种数据量平衡方法，该方法包括：

识别作为训练数据的梅尔倒频系数特征的类别数据量，对于类别数据量多大于预设数量阈值的梅尔倒频系数特征少采样，对于类别数据量少小于预设数量阈值的梅尔倒频系数特征多采样，生成类别数据量均衡的训练数据；

需要说明的是，所述数量阈值的具体取值可根据各类别数据量的大小进行相应的设计。

示例性的，通过加权求和的方式，获得所有梅尔倒频系数特征的类别数据量的平均值：

(50+40+30+10+20)/5＝30

对于梅尔倒频系数特征的类别数据量多的鸟叫进行删减，对于梅尔倒频系数特征的类别数据量少的鸟叫进行复制加量，例如，对于麻雀，则删减一部分数据量(如删减20个)，对于布谷，则复制数据量(如复制2次)等，使得各个鸟叫的梅尔倒频系数特征的数据量趋于平衡。

通过对梅尔倒频系数特征的类别数据量个数进行平衡，可加速模型的收敛速度和收敛效果。

容易理解的是，深度学习模型是模型方法的统称，其通常是多个模型的组合而成。本实施例提供的深度学习网络模型可包括CNN网络模型、CNN与GRU构成的组合网络模型和LSTM网络模型等，基于深度学习网络模型为CNN网络模型、CNN与GRU构成的组合网络模型和LSTM网络模型，则步骤S14具体可包括：

需要说明的是，CNN网络模型、CNN与GRU构成的组合网络模型和LSTM网络模型是相互独立的，通过三者可获得三组语音分类结果。

继续借鉴前述表1所示的鸟叫数据，进行举例说明，可先将5种鸟的训练集输入到CNN网络模型中进行训练，再利用5种鸟的验证集获得CNN网络的语音分类结果，例如，利用CNN网络模型获得的分类结果如下表4所示

声学特征的类别	分类结果(占比)
		麻雀	35％
燕子	25％
		黄鹂	25％
布谷	5％
		画眉	10％

同理，利用CNN与GRU构成的组合网络模型获得的分类结果如下表5所示

声学特征的类别	分类结果(占比)
		麻雀	32％
燕子	26％
		黄鹂	22％
布谷	6％
		画眉	14％

利用LSTM网络模型构成的组合网络模型获得的分类结果如下表6所示

根据表格4-6可知，不同的网络模型所获得的分类结果不同。

具体地，将所有训练的模型的语音分类结果中最佳的N个分类结果以及每个模型的最佳结果进行融合。

容易理解的是，在对逻辑回归模型以及深度学习模型的训练与验证过程中，需要进行反复多次的输入和输出，因此，不管是对于逻辑回归模型还是深度学习模型中的CNN网络模型、CNN与GRU构成的组合网络模型和LSTM网络模型而言，都会获得多组分类结果。并且，前述已说明，对于训练集和验证集，都是被标识过的，即知道结果的。

示例性的，继续参考表1，根据表1示出的数据，可得知5种鸟叫的标准分类结果，如表7所示，

声学特征的类别	分类结果(占比)
		麻雀	≈33.33％
燕子	≈26.67％
		黄鹂	20％
布谷	≈6.67％
		画眉	≈13.33％

例如，对逻辑回归模型进行了15次训练与验证，则可得到逻辑回归模型的15个分类结果，同理，分别对深度学习模型中的CNN网络模型、CNN与GRU构成的组合网络模型和LSTM网络模型进行15次训练与验证，则分别得到CNN网络模型的15个分类结果、CNN与GRU构成的组合网络模型的15个分类结果和LSTM网络模型的15个分类结果。

设定，N＝5，则选取逻辑回归模型的15个分类结果中与标准分类结果最接近的5个分类结果以及最最接近标准分类结果的最佳结果；选取CNN网络模型的15个分类结果中与标准分类结果最接近的5个分类结果以及最最接近标准分类结果的最佳结果；选取CNN与GRU构成的组合网络模型的15个分类结果中与标准分类结果最接近的5个分类结果以及最最接近标准分类结果的最佳结果；选取LSTM网络模型的15个分类结果中与标准分类结果最接近的5个分类结果以及最最接近标准分类结果的最佳结果。将每个模型的6个分类结果进行融合。

示例性的，如表8所示，为逻辑回归模型15个分类结果中与标准分类结果最接近的5个分类结果以及最最接近标准分类结果的最佳结果表。

在进行结果融合时，可利用加权平均的方法，以此来获得各种鸟类的最终分类结果，例如，麻雀对应的最终占比为利用逻辑回归模型获得的如上表所示的第一分类结果、第二分类结果、第三分类结果、第四分类结果、第五分类结果、最佳分类结果之和，加上通过CNN网络模型获得的与标准分类结果最接近的5个分类结果以及最最接近标准分类结果的最佳结果之和，加上通过CNN与GRU构成的组合网络模型获得的与标准分类结果最接近的5个分类结果以及最最接近标准分类结果的最佳结果之和，再加上通过LSTM网络模型获得的与标准分类结果最接近的5个分类结果以及最最接近标准分类结果的最佳结果之和，最后求平均值，该平均值即为麻雀对应的最终占比值。通过该融合方法，依次获取燕子对应的最终占比值、黄鹂对应的最终占比值、布谷对应的最终占比值及画眉的对应的最终占比值。

由此，通过多模型的数据融合，可获得精度较高的分类结果，使得模型在精度方面获得较高的分值。

需要特别说明的是，实际比赛过程中，赛制方会设定模型的训练时间，使得训练集无法对每一个深度学习模型进行训练。这就需要在多个深度学习模型中选择一个较为合适的模型进行训练。

因此，进一步地，步骤S14具体可包括：

根据梅尔倒频系数特征训练集所包含的类别个数和数据量，自动选择所述深度学习网络中包括的网络模型，将所述梅尔倒频系数特征测试集输入所述选择的网络模型进行训练。

需要说明的是，与前述所有模型均训练的语音分类模型构建方法实施例不同的是，在利用选择性训练模型方法时，测试集仅仅进入多个深度学习神经网络中的一个，即，选择最适合的深度学习神经网络进行语音分类。

对于从多个深度学习神经网络中如何进行选择最适合的网络模型，可基于原始语音的播放长度或者测试集的数据集大小进行选择。例如，可设计如

表9所示的选择规则。

需要说明的是，该设计规则仅仅是说明性的，实际比赛中，可根据选手的经验等因素来实现最佳深度学习模型的选择。

需要说明的是，可通过配置文件的方式，生成自动选择模型的程序，与通过构建方法构建的语音分类模型进行关联。

通过该自动选择深度学习模型的方法，也可对分类结果进行融合，以提高模型的精度。

具体地，将逻辑回归模型得到的语音分类结果中最佳的N个分类结果及最佳结果与根据自动选择深度学习模型得到的最佳深度学习模型获得的语音分类结果中最佳的N个分类结果及最佳结果相融合。

举例说明，基于训练集的类别个数及数据量，根据自动选择深度学习模型选择规则，例如，最佳模型为CNN网络模型，通过将训练集输入CNN网络模型，对CNN网络模型进行参数设置，将验证集输入到CNN网络模型，获得分类结果，借鉴前述，所有模型的分类结果进行融合的方式，对逻辑回归模型获得的分类结果与CNN网络模型获得的结果进行融合。

需要说明的是，通过自动选择深度学习模型而言，并非只能选择一种深度学习模型，也可为两种，例如，自动选择的深度学习模型为CNN网络模型和LSTM网络模型，则通过自动选择深度学习模型的最终分类结果，即为逻辑回归模型、CNN网络模型和LSTM网络模型的分类结果的融合。

由此，通过上述实施例构建方法构建的语音分类模型，在速度方面，采用特征维度较小的梅尔频谱特征和轻量化的且具有较少参数设置的逻辑回归模型的组合来实现快速获取分类结果的目的，在精度方面，采用特征维度较高的梅尔倒频系数特征和多模型组合的深度学习模型可保证语音分类模型的精度，并且将逻辑回归模型得到的语音分类结果与根据深度学习模型得到的语音分类结果相融合可进一步提升语音分类模型的精度，通过该方法构建的语音分类模型可对数据处理过程进行优化，压缩语音分类模型对数据处理的时间，提高语音分类模型的效率。

与上述语音分类方法的实施例相对应，本申请还公开了一种语音分类装置实施例，请参考图6，其为本申请提供的一种语音分类装置实施例示意图。由于装置实施例基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。下面描述的装置实施例仅仅是示意性的。

如图4，本申请的另一个实施例提供一种语音分类装置，包括：

声学特征提取单元、梅尔频谱特征训练单元、梅尔倒频系数特征训练单元及融合单元。

其中，声学特征提取单元用于从原始语音数据提取声学特征，构成训练集和验证集，声学特征包括梅尔频谱特征和梅尔倒频系数特征；

进一步地，该梅尔频谱特征训练单元包括：

第一梅尔频谱特征分类模块，用于将验证集输入初步训练的逻辑回归模型进行预测，得到语音分类结果；

第二梅尔频谱特征分类模块，用于将验证集输入训练的逻辑回归模型进行预测，得到语音分类结果；

梅尔倒频系数特征训练单元，用于将训练集中的梅尔倒频系数特征作为训练数据对深度学习模型进行训练并用验证集对训练的深度学习模型进行验证；

进一步地，该梅尔倒频系数特征训练单元包括：

所述梅尔倒频系数特征训练模块被进一步配置为：

与将训练集中的梅尔倒频系数特征作为训练数据输入CNN网络模型、CNN与GRU构成的组合网络模型和LSTM网络模型进行训练不同的是，所述梅尔倒频系数特征训练单元还包括：

融合单元，用于将根据逻辑回归模型得到的语音分类结果与根据深度学习模型得到的语音分类结果相融合。

进一步地，所述融合单元被进一步配置为将所有训练的模型的语音分类结果中最佳的N个分类结果以及每个模型的最佳结果进行融合。

由此，通过上述实施例构建装置构建的语音分类模型，在速度方面，采用特征维度较小的梅尔频谱特征和轻量化的且具有较少参数设置的逻辑回归模型的组合来实现快速获取分类结果的目的，在精度方面，采用特征维度较高的梅尔倒频系数特征和多模型组合的深度学习模型可保证语音分类模型的精度，并且将逻辑回归模型得到的语音分类结果与根据深度学习模型得到的语音分类结果相融合可进一步提升语音分类模型的精度，通过该方法构建的语音分类模型可对数据处理过程进行优化，压缩语音分类模型对数据处理的时间，提高语音分类模型的效率。

需要说明的是，通过前述语音分类模型构建方法实施例与语音分类模型构建装置构建的语音分类模型并不仅仅限于在参加比赛时适用，也可适用在对模型的分类结果有速度要求或者精度要求的场景，例如，在需要快速得知分类结果时，则采用逻辑回归模型直接获得分类结果；在需要精度较高的分类结果时，则选择所有模型的分类结果融合得到最终分类结果或者通过自动选择的深度学习网络模型的分类结果与逻辑回归模型的分类结果进行融合得到最终分类结果。

如图5，本申请的另一个实施例提供一种自动语音分类方法，该方法应用于通过前述语音分类模型构建方法实施例与语音分类模型构建装置构建的语音分类模型，包括：

S24、根据梅尔倒频系数特征测试集所包含的类别个数和数据量，自动选择所述深度学习网络中包括的网络模型，将所述梅尔倒频系数特征测试集输入所述选择的网络模型，其中所述深度学习模型包括多个深度学习神经网络；

具体地，多个深度学习神经网络包括CNN网络模型、CNN与GRU构成的组合网络模型和LSTM网络模型。

需要说明的是，与语音分类模型构建方法实施例不同的是，在进行自动语音分类时，测试集仅仅进入多个深度学习神经网络中的一个，即，选择最适合的深度学习神经网络进行语音分类。

表10所示的选择规则。

需要说明的是，该设计规则仅仅是说明性的，实际应用中，可以在模型构建时，基于各个网络模型对语音数据的分类结果的优劣程度，来划分规则。

进一步地，还可根据梅尔倒频系数特征测试集所包含的类别个数选择所述CNN网络模型、CNN与GRU构成的组合网络模型和LSTM网络模型的输出层是二分类器或者多分类器。

示例性的，当测试集所包含的类别有多个时，例如，前述语音分类模型构建方法中表1示例，其类别有5个，则需要选择深度学习神经网络模型的输出层时多分类器。当测试集所包含的类别为两个，例如，人在积极情绪下发声与在消极情绪下的发生，则仅仅需要选择深度学习神经网络模型的输出层为二分类器。

如图6所示，适于用来实现上述实施例提供的语音分类模型构建方法或者自动语音分类方法的计算机设备，包括中央处理模块(CPU)，其可以根据存储在只读存储器(ROM)中的程序或者从存储部分加载到随机访问存储器(RAM)中的程序而执行各种适当的动作和处理。在RAM中，还存储有计算机系统操作所需的各种程序和数据。CPU、ROM以及RAM通过总线被此相连。输入/输入(I/O)接口也连接至总线。

以下部件连接至I/O接口:包括键盘、鼠标等的输入部分；包括诸如液晶显示器(LCD)等以及扬声器等的输出部分；包括硬盘等的存储部分；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分。通信部分经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至I/O接口。可拆卸介质，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器上，以便于从其上读出的计算机程序根据需要被安装入存储部分。

特别地，根据本实施例，上文流程图描述的过程可以被实现为计算机软件程序。例如，本实施例包括一种计算机程序产品，其包括有形地包含在计算机可读介质上的计算机程序，上述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。

附图中的流程图和示意图，图示了本实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或示意图中的每个方框可以代表一个模块、程序段或代码的一部分，上述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，示意图和/或流程图中的每个方框、以及示意和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器，包括获取模块、运算模块和提取模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定。例如，运算模块还可以被描述为“计算模块”。

作为另一方面，本实施例还提供了一种非易失性计算机存储介质，该非易失性计算机存储介质可以是上述实施例中上述装置中所包含的非易失性计算机存储介质，也可以是单独存在，未装配入终端中的非易失性计算机存储介质。上述非易失性计算机存储介质存储有一个或者多个程序，当上述一个或者多个程序被一个设备执行时，使得上述设备能实现对产品不良的影响因素的评估。

在本申请的描述中，需要说明的是，术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请的限制。除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

还需要说明的是，在本申请的描述中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定，对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动，这里无法对所有的实施方式予以穷举，凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。

Claims

1.一种语音分类方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述从原始语音数据提取声学特征包括：

3.根据权利要求1所述的方法，其特征在于，所述将训练集中的梅尔频谱特征作为训练数据对逻辑回归模型进行训练并将验证集输入已训练的逻辑回归模型，得到第一语音分类结果包括：

4.根据权利要求1所述的方法，其特征在于，所述将训练集中的梅尔倒频系数特征作为训练数据对深度学习模型进行训练并用验证集对训练的深度学习模型进行验证包括：

5.根据权利要求1或4所述的方法，其特征在于，所述将训练集中的梅尔倒频系数特征作为训练数据对深度学习模型进行训练并用验证集对训练的深度学习模型进行验证，得到第二语音分类结果：

6.根据权利要求1或4所述的方法，其特征在于，所述将训练集中的梅尔倒频系数特征作为训练数据对深度学习模型进行训练并用验证集对训练的深度学习模型进行验证包括：

7.根据权利要求1所述的方法，其特征在于，所述将根据逻辑回归模型得到的语音分类结果与根据深度学习模型得到的语音分类结果相融合包括：

其中N为正整数，且N≥1。

8.一种自动语音分类方法，应用于权利要求1-7中任一项的方法构建的模型，其特征在于，包括：

9.根据权利要求8所述的方法，其特征在于，所述多个深度学习神经网络包括CNN网络模型、CNN与GRU构成的组合网络模型和LSTM网络模型。

10.根据权利要求9所述的方法，其特征在于，还包括

11.一种语音分类装置，其特征在于，包括：

12.根据权利要求11所述的装置，其特征在于，所述梅尔频谱特征训练单元包括：

13.根据权利要求11所述的装置，其特征在于，所述梅尔倒频系数特征训练单元包括：

14.根据权利要求11所述的装置，其特征在于，所述梅尔倒频系数特征训练模块被进一步配置为：

15.根据权利要求11所述的装置，其特征在于，所述梅尔倒频系数特征训练单元还包括：

16.根据权利要求10所述的装置，其特征在于，所述融合单元被进一步配置为将所有训练的模型的语音分类结果中最佳的N个分类结果以及每个模型的最佳结果进行融合。

17.一种计算机设备，包括处理器和存储有程序的存储器，其特征在于，所述程序被处理器执行时实现权利要求1-6中任一项所述的方法或者权利要求7-9中任一项所述的方法。

18.一种计算机可读介质，存储有程序，其特征在于，所述程序被执行时实现权利要求1-6中任一项所述的方法或者权利要求7-9中任一项所述的方法。