CN113823271A

CN113823271A - 语音分类模型的训练方法、装置、计算机设备及存储介质

Info

Publication number: CN113823271A
Application number: CN202011507171.5A
Authority: CN
Inventors: 付立
Original assignee: Jingdong Technology Holding Co Ltd
Current assignee: Jingdong Technology Holding Co Ltd
Priority date: 2020-12-18
Filing date: 2020-12-18
Publication date: 2021-12-21
Anticipated expiration: 2040-12-18
Also published as: CN113823271B

Abstract

本申请提出一种语音分类模型的训练方法、装置、计算机设备及存储介质，其中，方法包括：获取多个样本语音数据；对多个样本语音数据进行转换以生成多个样本频谱信息序列；将多个样本频谱信息序列输入至自动语音识别ASR预训练模型，以分别生成与各个样本语音数据对应的样本谐音结果；以及根据多个样本谐音结果对语音分类模型进行训练。由于是根据样本语音数据的样本谐音结果训练语音分类模型，实现仅在小规模训练集上，采用样本谐音结果进行分类训练，以获得语音分类模型，从而降低了语音分类模型训练的标注成本，并且针对不同的语音分类任务，采用相同的模型结构，从而降低了模型的训练成本。

Description

语音分类模型的训练方法、装置、计算机设备及存储介质

技术领域

本申请涉及互联网技术领域，尤其涉及一种语音分类模型的训练方法、装置、计算机设备及存储介质。

背景技术

近年来，随着人工智能技术的飞跃式发展，智能语音技术已经在智能电话机器人、手机助手、物联网等应用场景中快速普及。语音分类是智能语音技术领域中的重要内容之一，旨在对给定的一段语音信号的属性进行分类，具体包括语种分类、情绪分类等等。例如在语音语种分类任务中，判断出某一段音频属于汉语、英语、还是日语等，在语音情绪分类任务中，判断出某一段音频属于开心、难过、还是紧张等。

为了实现语音分类任务，现有技术通常的做法是针对特定的分类任务，搜集并标记相应的语音数据，并设计相应的分类模型，最后利用标记的数据对语音分类模型进行训练。

这种方式下，由于不同的语音分类任务的问题特点不尽相同，因此，不同的语音分类模型的设计过程往往存在较大的差异，数据标注的成本较高，并且模型设计的工作量较大。

发明内容

本申请旨在至少在一定程度上解决相关技术中的技术问题之一。

本申请提出一种语音分类模型的训练方法、装置、计算机设备及存储介质，以实现仅在小规模训练集上，采用样本谐音结果进行分类训练，以获得语音分类模型，从而降低了语音分类模型训练的标注成本，并且针对不同的语音分类任务，采用相同的模型结构，从而降低了模型的训练成本，用于解决现有技术中不同的语音分类模型的设计过程往往存在较大的差异，数据标注的成本较高，并且模型设计的工作量较大的技术问题。

本申请第一方面实施例提出了一种语音分类模型的训练方法，包括：获取多个样本语音数据；对所述多个样本语音数据进行转换以生成多个样本频谱信息序列；将所述多个样本频谱信息序列输入至自动语音识别ASR预训练模型，以分别生成与各个所述样本语音数据对应的样本谐音结果；以及根据多个所述样本谐音结果对语音分类模型进行训练。

本申请实施例的语音分类模型的训练方法，通过获取多个样本语音数据，并对多个样本语音数据进行转换以生成多个样本频谱信息序列，将多个样本频谱信息序列输入至自动语音识别ASR预训练模型，以分别生成与各个样本语音数据对应的样本谐音结果；以及根据多个样本谐音结果对语音分类模型进行训练，由于是根据样本语音数据的样本谐音结果训练语音分类模型，实现仅在小规模训练集上，采用样本谐音结果进行分类训练，以获得语音分类模型，从而降低了语音分类模型训练的标注成本，并且针对不同的语音分类任务，采用相同的模型结构，从而降低了模型的训练成本。

本申请第二方面实施例提出了一种语音分类模型的训练装置，包括：获取模块，用于获取多个样本语音数据；转换模块，用于对所述多个样本语音数据进行转换以生成多个样本频谱信息序列；生成模块，用于将所述多个样本频谱信息序列输入至自动语音识别ASR预训练模型，以分别生成与各个所述样本语音数据对应的样本谐音结果；以及训练模块，用于根据多个所述样本谐音结果对语音分类模型进行训练。

本申请实施例的语音分类模型的训练装置，通过获取多个样本语音数据，并对多个样本语音数据进行转换以生成多个样本频谱信息序列，将多个样本频谱信息序列输入至自动语音识别ASR预训练模型，以分别生成与各个样本语音数据对应的样本谐音结果；以及根据多个样本谐音结果对语音分类模型进行训练，由于是根据样本语音数据的样本谐音结果训练语音分类模型，实现仅在小规模训练集上，采用样本谐音结果进行分类训练，以获得语音分类模型，从而降低了语音分类模型训练的标注成本，并且针对不同的语音分类任务，采用相同的模型结构，从而降低了模型的训练成本。

本申请第三方面实施例提出了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如本申请第一方面实施例提出的语音分类模型的训练方法。

本申请第四方面实施例提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请第一方面实施例提出的语音分类模型的训练方法。

本申请第五方面实施例提出了一种计算机程序产品，当所述计算机程序产品中的指令处理器执行时，执行如本申请第一方面实施例提出的语音分类模型的训练方法。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理，并不构成对本申请的不当限定。

图1是根据一示例性实施例示出的一种语音分类模型的训练方法的流程图；

图2是根据另一示例性实施例示出的一种语音分类模型的训练方法的流程图；

图3为本申请实施例中神经网络模型的结构示意图；

图4是根据一示例性实施例示出的一种语音分类模型的训练装置的结构图；

图5示出了适于用来实现本申请实施方式的示例性计算机设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本申请的技术方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。

图1是根据一示例性实施例示出的一种语音分类模型的训练方法的流程图。

其中，需要说明的是，本实施例的语音分类模型的训练方法的执行主体为语音分类模型的训练装置，该装置可以由软件和/或硬件的方式实现，该装置可以配置在电子设备中，电子设备可以包括但不限于终端、服务器端等。

如图1所示，包括以下步骤。

在步骤S101中，获取多个样本语音数据。

其中，用于训练语音分类模型的语音数据，可以被称为样本语音数据，样本语音数据可以包含海量的语音数据，一份语音数据可以比如一段语音。

本申请实施例中，可以根据具体语音分类场景的任务需求，准备相应的训练用的样本语音数据，对此不做限制。

也即是说，针对不同的语音分类任务，准备对应于该语音分类任务的训练用的样本语音数据，从而采用对应于该语音分类任务的训练用的样本语音数据来训练一个语音分类模型，实现针对不同的语音分类任务，采用相同的模型结构，从而降低了模型的训练成本。

在步骤S102中，对多个样本语音数据进行转换以生成多个样本频谱信息序列。

一些实施例中，在获取多个样本语音数据之后，可以对各个样本语音数据进行相应的预处理，比如可以去噪处理等等。

本申请实施例中可以对多个样本语音数据进行转换以生成多个样本频谱信息序列，便于后续的模型识别以训练语音分类模型。

举例而言，记任意一个语音分类任务的样本语音数据的数据集为s_i＝{x_i,y_i}，其中i∈[1,N]，N为数据集中样本语音数据的数量，x_i为每一条样本语音数据的频谱特征，y_i为该样本语音数据的类别标注结果(该类别标注结果用于在训练模型的过程中作为参考内容)，其中y_i∈[1,K]，K代表数据集中所有标注语音类别的种类数量。

也即是说，在本申请实施例中，可以是首先对多个样本语音数据进行转换以生成多个样本频谱信息序列，并且根据多个样本频谱信息序列以及对应的标注语音类别形成上述示例中的样本语音数据的数据集为s_i＝{x_i,y_i}。

而在对多个样本语音数据进行转换以生成多个样本频谱信息序列时，其中的每个样本频谱信息序列是对应于一个样本语音数据的，该样本频谱信息可以用于表示对应样本语音数据的频谱特征矢量，该频谱特征矢量可以采用短时傅立叶变换(Short-TimeFourier Transform，STFT)的方式获得，其中，窗口大小可以为20ms，窗口滑动步长可以为10ms，则通过STFT可以获得每一段样本语音数据的81维的频谱信息序列(可以被称为样本频谱信息序列)，样本语音数据的采样率为16kHz，每条样本语音数据的时长在0.5s到15s之间。

在步骤S103中，将多个样本频谱信息序列输入至自动语音识别ASR预训练模型，以分别生成与各个样本语音数据对应的样本谐音结果。

上述在对多个样本语音数据进行转换以生成多个样本频谱信息序列之后，可以将多个样本频谱信息序列输入至自动语音识别(Automatic Speech Recognition，ASR)预训练模型，以分别生成与各个样本语音数据对应的样本谐音结果。

也即是说，本申请实施例中，为了降低语音分类模型训练的数据成本，利用了基于CTC(Connectionist Temporal Classification，基于神经网络的时序类分类)的ASR预训练模型，获得每条样本语音数据对应的样本谐音结果。

其中，所谓的谐音，指利用汉字同音或近音字来代替本音的一种方法。例如在粤语中“你与我”的谐音为“内与偶”，英文中“I love you”的谐音为“爱老虎油”等等。给定一段样本语音数据输入至普通话的ASR预训练模型，ASR预训练模型能够识别出一个结果，这个结果可以被视作汉字谐音，类似于一个只懂汉语的人去听粤语一样，虽然不懂目标语言，但是可以用谐音结果表示听到的内容。

一些实施例中，可以采用隐变量矩阵描述样本谐音结果，样本频谱信息序列包括：多帧样本频谱信息，隐变量矩阵中的元素，表示一帧样本频谱信息，映射为一个对应的候选谐音结果的概率值。

也即是说，本申请实施例中，可以采用ASR预训练模型生成与各个样本语音数据对应的样本谐音结果，使得输出为隐变量矩阵形式的样本谐音结果，该隐变量矩阵描述获得样本谐音结果的概率分布矩阵，由此，本申请实施例相比于直接用汉字结果表示音频的谐音，采用每一帧样本谐音结果的概率分布矩阵能够保留更多的音频特征信息，便于用于后续的音频分类任务。

举例而言，可以记基于CTC的ASR预训练模型为非线性函数F_a(θ_a)，θ_a为基于CTC的ASR预训练模型的参数，则给定一段样本语音数据的频谱特征x_i，则可以计算获得该样本语音数据的谐音结果h_i(可以被称为样本谐音结果)，即ASR输出的隐变量矩阵形式的样本谐音结果，示例如下：

h_i＝F_a(x_i,θ_a)； (1)

其中，h_i∈R^d×T，d为基于CTC的ASR预训练模型输出的建模单元个数，T为输出特征的时间帧长度。

在本申请实施例中，d＝7228，对应7228个常用汉字的个数，h_i每一列的所有元素的总和为1，分别对应该时间帧上观测量属于每一个候选谐音结果的概率值。

上述的h_i即为ASR预训练模型输出的样本谐音结果。例如，在语音语种分类任务中，英文的“and”会被普通话的ASR模型识别为“按的”，实际上，其对应的样本谐音结果可能会在某一时间帧上“按”的概率较大，且在后续时间帧上“的”的概率较大。

上述在分别生成与各个样本语音数据对应的样本谐音结果之后，可以采用与不同样本语音数据对应的样本谐音结果训练人工智能网络模型，以使得该人工智能网络模型能够对语音进行分类，实现语音分类模型的训练。

在步骤S104中，根据多个样本谐音结果对语音分类模型进行训练。

其中，语音分类模型可以是人工智能中的网络模型，比如神经网络模型，或者机器学习模型等等，对此不做限制。

也即是说，本申请实施例可以采用上述的样本谐音结果来训练人工智能中的网络模型，从而实现仅在小规模训练集上，采用样本谐音结果进行分类训练，以获得语音分类模型。

可选地，一些实施例中，根据多个样本谐音结果对语音分类模型进行训练，可以是将多个样本谐音结果分别输入至初始的神经网络模型以生成预测语音类别，根据预测语音类别和与样本语音数据对应的标注语音类别，对初始的神经网络模型进行训练，以及将训练得到的神经网络模型作为语音分类模型，从而实现快速地训练得到语音分类模型，并且由于语音分类模型是人工智能当中的神经网络模型，能够使得训练得到的语音分类模型，具有较好的语音分类效果。

一些实施例中，当采用隐变量矩阵描述样本谐音结果，样本频谱信息序列包括：多帧样本频谱信息，隐变量矩阵中的元素，表示一帧样本频谱信息，映射为一个对应的候选谐音结果的概率值，则将多个样本谐音结果分别输入至初始的神经网络模型以生成预测语音类别，可以具体是将各帧样本频谱信息，和其映射为一个对应的候选谐音结果的概率值输入至初始的神经网络模型以生成预测语音类别，从而实现样本谐音结果与神经网络模型的高效融合，使得神经网络模型能够学习并预测得到样本谐音结果及与其对应的语音类别之间的关联关系。

本实施例中，通过获取多个样本语音数据，并对多个样本语音数据进行转换以生成多个样本频谱信息序列，将多个样本频谱信息序列输入至自动语音识别ASR预训练模型，以分别生成与各个样本语音数据对应的样本谐音结果；以及根据多个样本谐音结果对语音分类模型进行训练，由于是根据样本语音数据的样本谐音结果训练语音分类模型，实现仅在小规模训练集上，采用样本谐音结果进行分类训练，以获得语音分类模型，从而降低了语音分类模型训练的标注成本，并且针对不同的语音分类任务，采用相同的模型结构，从而降低了模型的训练成本。

图2是根据另一示例性实施例示出的一种语音分类模型的训练方法的流程图。

如图2所示，包括以下步骤。

在步骤S201中，获取多个样本语音数据。

在步骤S202中，对多个样本语音数据进行转换以生成多个样本频谱信息序列。

在步骤S203中，将多个样本频谱信息序列输入至自动语音识别ASR预训练模型，以分别生成与各个样本语音数据对应的样本谐音结果。

步骤S201至步骤S203的描述可以具体参见上述实施例，在此不再赘述。

在步骤S204中，构建与初始的神经网络模型对应的目标函数。

其中，参见图3，图3为本申请实施例中神经网络模型的结构示意图，初始的神经网络模型包括：顺序连接的双向长短期记忆网络Bi-LSTM层、时间最大池化TMP层、全连接层FC，以及柔性最大值传输函数Softmax层。

举例而言，为了对ASR识别得到的样本谐音结果进行分类，本实施例可以构建初始的神经网络模型(可以被称为语音分类模型)F_c，比如可以包括1层双向长短期记忆网络(Bi-directional Long Short-Term Memory，Bi-LSTM)，1层时间最大池化层(Time Max-Pooling，TMP)，1层全连接层FC和1层柔性最大值传输函数Softmax层，该网络模型F_c的参数可以随机初始化。

上述的初始的神经网络模型对应的函数表示，可以举例如下：

记语音分类模型为函数F_c，则语音分类模型的输出为：

o_i＝F_c(h_i,θ_c)； (2)

其中，θ_c为语音分类模型的参数的集合，o_i＝[o_i,1,o_i,2,...,o_i,K]为K维输出矢量，o_i,k分别为语音分类模型输出o_i的第k个元素，其中，k∈[1,K]，且

o_i,k分别指代将该样本谐音结果识别为不同的预测语音类别的概率。

在步骤S205中，对初始的神经网络模型的参数进行初始化处理。

本申请实施例在对初始的神经网络模型进行训练的过程中，在构建与初始的神经网络模型对应的目标函数后，还可以动态地调整初始的神经网络模型的参数，直至目标函数收敛。

也即是说，本申请实施例中，在利用样本语音数据对应的样本谐音结果，对初始的神经网络模型进行训练的过程中，可以设计优化目标函数，并且在训练过程中，可以动态地调整初始的神经网络模型的参数，直至目标函数收敛，从而实现使得训练得到的语义分类模型对样本语音数据的意图进行分类。

在本申请中，可以设计交叉熵作为优化的目标函数，进行意图分类，具体如下

其中，N_b为训练中每一个批次的数量，在本申请中N_b＝32。

而后，获得的正则化网络模型的损失函数(可以被称为目标函数)可以示例如下：

L＝L₁+λ|θ_c||； (4)

其中，正则项||θ_c||为网络模型F_c中所有参数的2范数的总和，正则项参数λ＝10^-4。

则上述动态地调整初始的神经网络模型的参数，直至目标函数收敛，可以是固定ASR预训练模型为非线性函数F_a(θ_a)中的模型参数θ_a，仅更新语音分类模型F_c的网络模型参数θ_c，对此不做限制。

在步骤S206中，将各帧样本频谱信息，和其映射为一个对应的候选谐音结果的概率值输入至初始的神经网络模型，得到输出结果，输出结果包括：将样本语音数据识别为不同的候选语音类别的概率值。

在步骤S207中，将不同的候选语音类别的概率值和样本语音数据数量输入目标函数，得到函数值。

也即是说，将不同的候选语音类别的概率值和样本语音数据数量输入至上述的目标函数(4)中，并结合函数(1)(2)(3)运算得到相应的目标函数输出的函数值，而后触发执行后续步骤。

在步骤S208中，根据函数值从不同的概率值之中选取目标概率值，并将目标概率值对应的候选语音类别作为预测语音类别。

步骤S206-步骤S208中，可以采用反向传播算法进行初始的神经网络模型训练，比如可以采用ADAM优化算法(ADAM优化算法是一种对随机梯度下降法的扩展)，ADAM的初始值设为10^-5。

上述在结合函数(1)(2)(3)运算得到相应的目标函数输出的函数值之后，可以根据函数值从不同的概率值之中选取目标概率值(比如可以将概率值的大小排序前设定个数的概率值，作为目标概率值，当目标概率值较大时，表示将样本语音数据识别为与其对应的候选语音类别的概率较大)，而后，将目标概率值对应的候选语音类别作为预测语音类别。

在步骤S209中，根据预测语音类别和与样本语音数据对应的标注语音类别，对初始的神经网络模型进行训练。

可选地，一些实施例中，可以根据预测语音类别和标注语音类别生成损失值，并根据损失值对初始的神经网络模型进行训练，从而不仅仅保障了模型识别的准确性，还能够大幅度地提升模型识别的效率。

在步骤S210中，将训练得到的神经网络模型作为语音分类模型。

本实施例中，通过获取多个样本语音数据，并对多个样本语音数据进行转换以生成多个样本频谱信息序列，将多个样本频谱信息序列输入至自动语音识别ASR预训练模型，以分别生成与各个样本语音数据对应的样本谐音结果；以及根据多个样本谐音结果对语音分类模型进行训练，由于是根据样本语音数据的样本谐音结果训练语音分类模型，实现仅在小规模训练集上，采用样本谐音结果进行分类训练，以获得语音分类模型，从而降低了语音分类模型训练的标注成本，并且针对不同的语音分类任务，采用相同的模型结构，从而降低了模型的训练成本。动态地调整初始的神经网络模型的参数，直至目标函数收敛，从而实现使得训练得到的语义分类模型对样本语音数据的意图进行分类。将各帧样本频谱信息，和其映射为一个对应的候选谐音结果的概率值输入至初始的神经网络模型以生成预测语音类别，从而实现样本谐音结果与神经网络模型的高效融合，使得神经网络模型能够学习并预测得到样本谐音结果及与其对应的语音类别之间的关联关系。

图4是根据一示例性实施例示出的一种语音分类模型的训练装置的结构图。

如图4所示，该语音分类模型的训练装置40包括：

获取模块401，用于获取多个样本语音数据；

转换模块402，用于对多个样本语音数据进行转换以生成多个样本频谱信息序列；

生成模块403，用于将多个样本频谱信息序列输入至自动语音识别ASR预训练模型，以分别生成与各个样本语音数据对应的样本谐音结果；以及

训练模块404，用于根据多个样本谐音结果对语音分类模型进行训练。

在本申请的一些实施例中，根据多个样本谐音结果对语音分类模型进行训练，包括：

将多个样本谐音结果分别输入至初始的神经网络模型以生成预测语音类别；

根据预测语音类别和与样本语音数据对应的标注语音类别，对初始的神经网络模型进行训练；以及

将训练得到的神经网络模型作为语音分类模型。

在本申请的一些实施例中，根据预测语音类别和与样本语音数据对应的标注语音类别，对初始的神经网络模型进行训练，包括：

根据预测语音类别和标注语音类别生成损失值；

根据损失值对初始的神经网络模型进行训练。

在本申请的一些实施例中，采用隐变量矩阵描述样本谐音结果，样本频谱信息序列包括：多帧样本频谱信息，隐变量矩阵中的元素，表示一帧样本频谱信息，映射为一个对应的候选谐音结果的概率值。

在本申请的一些实施例中，将多个样本谐音结果分别输入至初始的神经网络模型以生成预测语音类别，包括：

将各帧样本频谱信息，和其映射为一个对应的候选谐音结果的概率值输入至初始的神经网络模型以生成预测语音类别。

在本申请的一些实施例中，将各帧样本频谱信息，和其映射为一个对应的候选谐音结果的概率值输入至初始的神经网络模型以生成预测语音类别，包括：

构建与初始的神经网络模型对应的目标函数；

对初始的神经网络模型的参数进行初始化处理；

将各帧样本频谱信息，和其映射为一个对应的候选谐音结果的概率值输入至初始的神经网络模型，得到输出结果，输出结果包括：将样本语音数据识别为不同的候选语音类别的概率值；

将不同的候选语音类别的概率值和样本语音数据数量输入目标函数，得到函数值；

根据函数值从不同的概率值之中选取目标概率值，并将目标概率值对应的候选语音类别作为预测语音类别。

在本申请的一些实施例中，构建与初始的神经网络模型对应的目标函数后，还包括：

调整初始的神经网络模型的参数，直至目标函数收敛。

在本申请的一些实施例中，初始的神经网络模型包括：顺序连接的双向长短期记忆网络Bi-LSTM层、时间最大池化TMP层、全连接层，以及柔性最大值传输函数Softmax层。

与上述图1至图3实施例提供的语音分类模型的训练方法相对应，本申请还提供一种语音分类模型的训练装置，由于本申请实施例提供的语音分类模型的训练装置与上述图1至图3实施例提供的语音分类模型的训练方法相对应，因此在语音分类模型的训练方法的实施方式也适用于本申请实施例提供的语音分类模型的训练装置，在本申请实施例中不再详细描述。

为了实现上述实施例，本申请还提出一种计算机设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时，实现如本申请前述实施例提出的语音分类模型的训练方法。

为了实现上述实施例，本申请还提出一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请前述实施例提出的语音分类模型的训练方法。

为了实现上述实施例，本申请还提出一种计算机程序产品，当计算机程序产品中的指令处理器执行时，执行如本申请前述实施例提出的语音分类模型的训练方法。

图5示出了适于用来实现本申请实施方式的示例性计算机设备的框图。图5显示的计算机设备12仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图5所示，计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture；以下简称：ISA)总线，微通道体系结构(Micro Channel Architecture；以下简称：MAC)总线，增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation；以下简称：VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection；以下简称：PCI)总线。

计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(Random Access Memory；以下简称：RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图5未显示，通常称为“硬盘驱动器”)。尽管图5中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如：光盘只读存储器(Compact Disc Read OnlyMemory；以下简称：CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory；以下简称：DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本申请各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机设备12交互的设备通信，和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network；以下简称：LAN)，广域网(Wide Area Network；以下简称：WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现前述实施例中提及的语音分类模型的训练方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种语音分类模型的训练方法，其特征在于，包括：

获取多个样本语音数据；

对所述多个样本语音数据进行转换以生成多个样本频谱信息序列；

将所述多个样本频谱信息序列输入至自动语音识别ASR预训练模型，以分别生成与各个所述样本语音数据对应的样本谐音结果；以及

根据多个所述样本谐音结果对语音分类模型进行训练。

2.如权利要求1所述的方法，其特征在于，所述根据多个所述样本谐音结果对语音分类模型进行训练，包括：

将多个所述样本谐音结果分别输入至初始的神经网络模型以生成预测语音类别；

根据所述预测语音类别和与所述样本语音数据对应的标注语音类别，对所述初始的神经网络模型进行训练；以及

将训练得到的神经网络模型作为所述语音分类模型。

3.如权利要求2所述的方法，其特征在于，所述根据所述预测语音类别和与所述样本语音数据对应的标注语音类别，对所述初始的神经网络模型进行训练，包括：

根据所述预测语音类别和所述标注语音类别生成损失值；

根据所述损失值对所述初始的神经网络模型进行训练。

4.如权利要求2所述的方法，其特征在于，采用隐变量矩阵描述所述样本谐音结果，所述样本频谱信息序列包括：多帧样本频谱信息，所述隐变量矩阵中的元素，表示一帧所述样本频谱信息，映射为一个对应的候选谐音结果的概率值。

5.如权利要求4所述的方法，其特征在于，所述将多个所述样本谐音结果分别输入至初始的神经网络模型以生成预测语音类别，包括：

将各帧所述样本频谱信息，和其映射为一个对应的候选谐音结果的概率值输入至所述初始的神经网络模型以生成所述预测语音类别。

6.如权利要求5所述的方法，其特征在于，所述将各帧所述样本频谱信息，和其映射为一个对应的候选谐音结果的概率值输入至所述初始的神经网络模型以生成所述预测语音类别，包括：

构建与所述初始的神经网络模型对应的目标函数；

对所述初始的神经网络模型的参数进行初始化处理；

将各帧所述样本频谱信息，和其映射为一个对应的候选谐音结果的概率值输入至所述初始的神经网络模型，得到输出结果，所述输出结果包括：将所述样本语音数据识别为不同的候选语音类别的概率值；

将所述不同的候选语音类别的概率值和所述样本语音数据数量输入所述目标函数，得到函数值；

根据所述函数值从不同的所述概率值之中选取目标概率值，并将所述目标概率值对应的候选语音类别作为所述预测语音类别。

7.如权利要求6所述的方法，其特征在于，所述构建与所述初始的神经网络模型对应的目标函数后，还包括：

调整所述初始的神经网络模型的参数，直至所述目标函数收敛。

8.如权利要求2-7任一项所述的方法，其特征在于，所述初始的神经网络模型包括：顺序连接的双向长短期记忆网络Bi-LSTM层、时间最大池化TMP层、全连接层，以及柔性最大值传输函数Softmax层。

9.一种语音分类模型的训练装置，其特征在于，包括：

获取模块，用于获取多个样本语音数据；

转换模块，用于对所述多个样本语音数据进行转换以生成多个样本频谱信息序列；

生成模块，用于将所述多个样本频谱信息序列输入至自动语音识别ASR预训练模型，以分别生成与各个所述样本语音数据对应的样本谐音结果；以及

训练模块，用于根据多个所述样本谐音结果对语音分类模型进行训练。

10.一种计算机设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如权利要求1-8中任一所述的方法。

11.一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1至8中任一项所述的方法。