CN112786017B

CN112786017B - 语速检测模型的训练方法及装置、语速检测方法及装置

Info

Publication number: CN112786017B
Application number: CN202011568346.3A
Authority: CN
Inventors: 王卓然; 高强; 刘鲁鹏; 夏龙; 元海明; 王宏伟; 郭常圳
Original assignee: Beijing Ape Power Future Technology Co Ltd
Current assignee: Beijing Ape Power Future Technology Co Ltd
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2024-04-09
Anticipated expiration: 2040-12-25
Also published as: CN112786017A

Abstract

本说明书提供语速检测模型的训练方法及装置、语速检测方法及装置，其中所述语速检测模型的训练方法包括：获取样本音频片段的训练数据组集合；将所述训练数据组集合输入语速检测模型的时间卷积模块中，确定每个样本子音频片段i的第一向量；将每个样本子音频片段i的第一向量输入注意力层，确定每个样本子音频片段i的第二向量；将每个样本子音频片段i的第二向量输入全连接层，确定每个样本子音频片段i的预测标签；基于每个样本子音频片段i的预测标签和每个样本子音频片段i的样本标签对所述语速检测模型进行训练，直至达到训练停止条件。本说明书实施例中，在语速检测模型中加入注意力层，提高了语速检测模型的预测准确率。

Description

语速检测模型的训练方法及装置、语速检测方法及装置

技术领域

本说明书涉及语音识别技术领域，特别涉及语速检测模型的训练方法及装置、语速检测方法及装置。

背景技术

随着语音识别技术的发展，越来越多的领域开始应用语音识别技术辅助工作，以提高工作效率。语速作为一种重要的表达情感的手段，在语音识别技术中发挥着重要的作用。因此，如何快速准确地确定一段语音的语速成为一个亟需解决的问题。

现有技术通常是基于语音特征进行检测。具体地，通过识别音频片段的能量包络、频域特征、时域波谱、过零率等与语速相关性较高的语音特征，并结合门限判决来检测语速。但真实环境下语速较为多变，会使得频域、时域波谱发生畸变，影响语速检测的结果，导致语速检测的准确率降低。

发明内容

有鉴于此，本说明书实施例提供了一种语速检测模型的训练方法，一种语速检测方法。本说明书同时涉及一种语速检测模型的训练装置，一种语速检测装置，一种计算设备，以及一种计算机可读存储介质，以解决现有技术中存在的技术缺陷。

根据本说明书实施例的第一方面，提供了一种语速检测模型的训练方法，包括：

获取样本音频片段的训练数据组集合，其中，所述样本音频片段包括多个样本子音频片段，每个训练数据组包括所述样本子音频片段的频谱图和样本标签，每个样本标签为所述样本音频片段的开始时间点到每个样本子音频片段的结束时间点之间包括的词单元的长度信息；

将所述训练数据组集合输入语速检测模型的时间卷积模块中，确定每个样本子音频片段i的第一向量，其中，每个样本子音频片段i的第一向量根据样本子音频片段i及前i-1个样本子音频片段共同确定，i为大于或等于1的正整数；

将每个样本子音频片段i的第一向量输入注意力层，确定每个样本子音频片段i的第二向量，其中，每个样本子音频片段i的第二向量根据样本子音频片段i及前至少前1个样本子音频片段共同确定；

将每个样本子音频片段i的第二向量输入全连接层，确定每个样本子音频片段i的预测标签；

基于每个样本子音频片段i的预测标签和每个样本子音频片段i的样本标签对所述语速检测模型进行训练，直至达到训练停止条件。

根据本说明书实施例的第二方面，提供了一种语速检测方法，包括：

获取待检测音频片段的频谱图组，其中，所述待检测音频片段包括多个待检测子音频片段，所述频谱图组包括所述多个待检测子音频片段的频谱图；

将所述待检测音频片段的频谱图组输入语速检测模型的时间卷积模块中，确定每个待检测子音频片段i的第一向量，其中，所述语速检测模型是通过上述所述的语速检测模型的训练方法训练得到的，每个待检测子音频片段i的第一向量根据待检测子音频片段i及前i-1个待检测子音频片段共同确定，i为大于或等于1的正整数；

将每个待检测子音频片段i的第一向量输入注意力层，确定每个待检测子音频片段i的第二向量，其中，每个待检测子音频片段i的第二向量根据待检测子音频片段i及至少前1个待检测子音频片段共同确定；

将每个待检测子音频片段i的第二向量输入全连接层，得到每个待检测子音频片段i的标签；

基于所述多个待检测子音频片段i的标签，确定所述待检测音频片段的标签。

根据本说明书实施例的第三方面，提供了一种语速检测模型的训练装置，包括：

第一获取模块，被配置为获取样本音频片段的训练数据组集合，其中，所述样本音频片段包括多个样本子音频片段，每个训练数据组包括所述样本子音频片段的频谱图和样本标签，每个样本标签为所述样本音频片段的开始时间点到每个样本子音频片段的结束时间点之间包括的词单元的长度信息；

第一确定模块，被配置为将所述训练数据组集合输入语速检测模型的时间卷积模块中，确定每个样本子音频片段i的第一向量，其中，每个样本子音频片段i的第一向量根据样本子音频片段i及前i-1个样本子音频片段共同确定，i为大于或等于1的正整数；

第二确定模块，被配置为将每个样本子音频片段i的第一向量输入注意力层，确定每个样本子音频片段i的第二向量，其中，每个样本子音频片段i的第二向量根据样本子音频片段i及至少前1个样本子音频片段共同确定；

第三确定模块，被配置为将每个样本子音频片段i的第二向量输入全连接层，确定每个样本子音频片段i的预测标签；

训练模块，被配置为基于每个样本子音频片段i的预测标签和每个样本子音频片段i的样本标签对所述语速检测模型进行训练，直至达到训练停止条件。

根据本说明书实施例的第四方面，提供了一种语速检测的装置，包括：

第二获取模块，被配置为获取待检测音频片段的频谱图组，其中，所述待检测音频片段包括多个待检测子音频片段，所述频谱图组包括所述多个待检测子音频片段的频谱图；

第四确定模块，被配置为将待检测音频片段的频谱图组输入语速检测模型的时间卷积模块中，确定每个待检测子音频片段i的第一向量，其中，所述语速检测模型是通过上述所述的语速检测模型的训练方法训练得到的，每个待检测子音频片段i的第一向量根据待检测子音频片段i及前i-1个待检测子音频片段共同确定，i为大于或等于1的正整数；

第五确定模块，被配置为将每个待检测子音频片段i的第一向量输入注意力层，确定每个待检测子音频片段i的第二向量，其中，每个待检测子音频片段i的第二向量根据待检测子音频片段i及至少前1个待检测子音频片段共同确定；

第六确定模块，被配置为将每个待检测子音频片段i的第二向量输入全连接层，得到每个待检测子音频片段i的标签；

第七确定模块，被配置为基于所述多个待检测子音频片段i的标签，确定所述待检测音频片段的标签。

根据本说明书实施例的第五方面，提供了一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，以实现上述所述的语速检测模型的训练方法，或者，以实现上述所述的语速检测方法。

根据本说明书实施例的第六方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现所述语速检测模型的训练方法的步骤，或者，实现所述语速检测方法的步骤。

本说明书提供的语速检测模型的训练方法，获取样本音频片段的训练数据组集合，其中，所述样本音频片段包括多个样本子音频片段，每个训练数据组包括所述样本子音频片段的频谱图和样本标签，每个样本标签为所述样本音频片段的开始时间点到每个样本子音频片段的结束时间点之间包括的词单元的长度信息；将所述训练数据组集合输入语速检测模型的时间卷积模块中，确定每个样本子音频片段i的第一向量，其中，每个样本子音频片段i的第一向量根据样本子音频片段i及前i-1个样本子音频片段共同确定，i为大于或等于1的正整数；将每个样本子音频片段i的第一向量输入注意力层，确定每个样本子音频片段i的第二向量，其中，每个样本子音频片段i的第二向量根据样本子音频片段i及至少前1个样本子音频片段共同确定；将每个样本子音频片段i的第二向量输入全连接层，确定每个样本子音频片段i的预测标签；基于每个样本子音频片段i的预测标签和每个样本子音频片段i的样本标签对所述语速检测模型进行训练，直至达到训练停止条件。本说明书实施例中，以到每个样本子音频片段为止出现的词单元的长度信息为标签对语速检测模型进行训练，可以更好地对语速检测模型进行建模，加快模型收敛的速度，提高预测结果的准确率，并且，在语速检测模型中加入注意力层，进一步捕捉了样本子音频片段之间的依赖关系，提高了语速检测模型的预测准确率。

附图说明

图1是本说明书一实施例提供的一种语速检测模型的训练方法的流程图；

图2是本说明书一实施例提供的一种输入序列的示意图；

图3是本说明书一实施例提供的一种模型结构的示意图；

图4是本说明书一实施例提供的一种残差块的结构示意图；

图5是本说明书一实施例提供的一种注意力层的结构示意图；

图6是本说明书一实施例提供的一种应用于语速检测的语速检测模型的训练方法的处理流程图；

图7是本说明书一实施例提供的一种语速检测方法的流程图；

图8是本说明书一实施例提供的一种语速检测模型的示意图；

图9是本说明书一实施例提供的一种应用于语速检测的语速检测方法的处理流程图；

图10是本说明书一实施例提供的一种语速检测模型的训练装置的结构示意图；

图11是本说明书一实施例提供的一种语速检测装置的结构示意图；

图12是本说明书一实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本说明书内涵的情况下做类似推广，因此本说明书不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本说明书一个或多个实施例涉及的名词术语进行解释。

语速检测模型：用于对音频片段的语速进行检测的模型。

词单元：对输入文本做任何实际处理前，都需要将其分割成诸如字、标点符号、数字或字母等语言单元，这些单元被称为词单元。对于英文文本，词单元可以是一个单词、一个标点符号、一个数字等，对于中文文本，最小的词单元可以是一个字、一个标点符号、一个数字等。

非线性变换：是把原始的特征做非线性变换，得到一个新的特征，使用这个新的特征来做线性的分类，则对应到原始的特征空间中，相当于做了非线性的分类。

第一向量：样本子音频片段i的频谱特征结合前i-1个样本子音频片段的频谱特征得到的特征向量。

第二向量：样本子音频片段i的第一向量结合至少前1个样本子音频片段的第一向量得到的特征向量。

第三向量：样本子音频片段的第二向量通过全连接层进行线性映射和非线性变换后得到的特征向量。

在本说明书中，提供了一种语速检测模型的训练方法，一种语速检测方法，本说明书同时涉及一种语速检测模型的训练装置，一种语速检测装置，一种计算设备，以及一种计算机可读存储介质，在下面的实施例中逐一进行详细说明。

图1示出了根据本说明书一实施例提供的另一种语速检测方法的流程图，具体包括以下步骤：

步骤102，获取样本音频片段的训练数据组集合，其中，所述样本音频片段包括多个样本子音频片段，每个训练数据组包括所述样本子音频片段的频谱图和样本标签，每个样本标签为所述样本音频片段的开始时间点到每个样本子音频片段的结束时间点之间包括的词单元的长度信息。

其中，样本音频片段的数量可以为多个，且每个样本音频片段均包括多个样本子音频片段，每个样本音频片段包括的样本子音频片段的数量相同或不同。

作为一种示例，长度信息可以为词单元的字数，或者，长度信息可以为词单元的音节数量。

例如，以长度信息为词单元的字数为例，若样本音频片段的总时长为3秒，假设该样本音频片段包括3个样本子音频片段，每个样本子音频片段的时长为1秒，且第一个样本子音频片段包括的词单元的字数为5，第二个样本子音频片段包括的词单元的字数为4个，第三个样本子音频片段包括的词单元的字数为6个，则第一个样本子音频片段的样本标签为5，第二个样本子音频片段的样本标签为9，第三个样本子音频片段的样本标签为15。

在实施中，所述获取样本音频片段的训练数据组集合的具体实现可以包括：确定所述样本音频片段包括的每个样本子音频片段的样本标签，对每个样本子音频片段进行处理，确定每个样本子音频片段的频谱图，将同一个样本子音频片段的标签和频谱图确定为一个训练数据组，得到所述训练数据组集合。

也就是说，由于每个训练数据组中包括样本子音频片段的频谱图和样本标签，因此，需要确定样本音频片段中每个样本子音频片段的频谱图和样本标签，并将同一样本子音频片段的频谱图和样本标签确定为一个训练数据组，进而可以确定每个样本子音频片段的训练数据组，得到训练数据组集合。

在一些实施例中，语音数据库中可以存储有样本音频片段，以及样本音频片段包括的多个样本子音频片段的样本标签，可以从语音数据库中获取样本音频片段包括的每个样本子音频片段的样本标签。

在一些实施例中，对每个样本子音频片段进行处理，确定每个样本子音频片段的频谱图的具体实现可以包括：将目标样本子音频片段进行分帧，得到多帧样本子音频片段，其中，所述目标样本子音频片段i为所述多个样本子音频片段i中的任意一个。对每帧样本子音频片段进行傅里叶变换，得到每帧样本子音频片段的频谱特征，将所述多帧样本子音频片段的频谱特征进行拼接，得到所述目标样本子音频片段的频谱图。

也就是说，对于该样本音频片段包括的多个样本子音频片段中的目标样本子音频片段，可以将目标样本子音频片段划分为多帧样本子音频片段，并且对每帧样本子音频片段进行傅里叶变换，得到每帧样本子音频片段的频谱特征，并将多帧样本子音频片段的频谱特征拼接在一起，得到该目标样本子音频片段的频谱图。对于样本音频片段包括的每个样本子音频片段均进行上述操作后，可以确定每个样本子音频片段的频谱图。

示例性地，假设样本音频片段的时长为960ms×3，且每个样本子音频片段的时长为960ms。对于目标样本子音频片段来说，可以将该960ms时长的样本子音频片段划分为30帧时长为32ms的样本子音频片段，可以对每帧样本子音频片段进行傅里叶变换，得到每帧样本子音频片段的频谱特征，将该30帧样本子音频片段的频谱特征进行拼接，可以得到该目标样本子音频片段的频谱图。

需要说明的是，上述对每个样本子音频片段进行处理，确定每个样本子音频片段的频谱图的过程可以理解为对样本子音频片段进行stft(short-time Fouriertransform，短时傅里叶变换)，得到每个样本子音频片段的频谱图。

进一步地，获取样本音频片段的训练数据组集合之前，还可以包括：从语音数据库中获取样本音频片段；对所述样本音频片段进行数据增强处理，得到处理后的样本音频片段。相应地，所述获取样本音频片段的训练数据组集合，包括：获取所述处理后的样本音频片段的训练数据组集合。

其中，数据增强是为了提高语速检测模型的鲁棒性，通过对样本音频片段进行数据增强，可以在不增加样本音频片段的数量的情况下获取更好的多样性，从而让模型学习到更一般的规律。

也就是说，可以从语音数据库中获取多个样本音频片段，并对样本音频片段进行数据增强处理。在这种情况下，获取样本音频片段的训练数据组集合可以为确定处理后的样本音频片段的训练数据组集合。

作为一种示例，对样本音频片段进行数据增强处理可以包括：对样本音频片段的音调、音量进行微小的扰动，或者，在样本音频片段中增加高斯白噪声，或者，对至少两个样本音频片段进行拼接。

在本说明书实施例中，通过对样本音频片段进行数据增强处理，能够让模型适应在不同的噪声、音调、音量情况下对音频片段的语速进行检测，使得模型的鲁棒性更强，不至于过拟合。

在一些实施例中，获取处理后的样本音频片段的训练数据组集合可以包括：确定处理后的样本音频片段包括的每个样本子音频片段的样本标签，对每个样本子音频片段进行处理，确定每个样本子音频片段的频谱图，将同一个样本子音频片段的标签和频谱图确定为一个训练数据组，得到处理后的样本音频片段的训练数据组集合。

作为一种示例，对样本音频片段的音调、音量进行微小的扰动，或者，在样本音频片段中增加高斯白噪声后，不会对样本音频片段中样本子音频片段的样本标签产生影响，因此，可以按照上述获取样本音频片段的训练数据组集合的方式确定处理后的样本音频片段的训练数据组集合。不同的是，将上述样本音频片段替换为处理后的样本音频片段。

作为一种示例，对至少两个样本音频片段进行拼接后得到的处理后的样本音频片段，其包括的样本子音频片段的样本标签会发生变化。

示例性地，假设将两个样本音频片段拼接起来，第一个样本音频片段的时长为960x3 ms，即包括3个时长为960ms的样本子音频片段，且三个样本子音频片段的标签分别为1，3和5，即该样本音频片段到第一个样本子音频片段累计有1个字，到第二个样本子音频片段累计有3个字，到第三个样本子音频片段累计有5个字，第二个样本音频片段的时长为960x2 ms，即包括2个时长为960ms的样本子音频片段，且两个样本子音频片段的标签分别为1和3。将第一个样本音频片段和第二个样本音频片段拼接后，得到处理后的样本音频片段，该处理后的样本音频片段中包括五个样本子音频片段，第一个样本子音频片段的标签不变为1，第二个样本子音频片段的标签不变为3，第三个样本子音频片段的标签不变为5，第四个样本子音频片段的标签变为6，第五个样本子音频片段的标签变为7。

需要说明的是，在另一种实施例中，可以按照上述确定每个样本子音频片段的频谱图的方式确定处理后的样本音频片段包括的每个样本子音频片段的频谱图。不同的是，将上述样本音频片段替换为处理后的样本音频片段。确定处理后的样本音频片段包括的每个样本子音频片段的样本标签可以按照上述示例的方式。

进一步地，为了保证输入语速检测模型的每个样本音频片段的频谱图组的序列长度相同，可以确定多个样本音频片段的频谱图组中序列长度最大的样本音频片段的序列长度，将其他每个样本音频片段的频谱图组中的序列长度调整至与序列长度最大的样本音频片段的频谱图组中的序列长度相同。即对样本音频片段的频谱图组中的序列进行pad操作，参见图2，t1、t2、......、tn是不同的样本音频片段的频谱图组，可以看出图2中每个样本音频片段的频谱图组的序列长度相同。如此，可以便于语速检测模型进行卷积操作。

在本说明书实施例中，以样本音频片段的开始时间点到样本子音频片段的结束时间点之间的词单元的长度信息为样本标签，相对于以半个样本子音频片段包括的字数为标签的情况，可以避免出现样本音频片段划分不恰当，导致每个样本子音频片段包括的字数不准确，进而导致总字数不准确的情况，可以更好地对语速检测模型进行语速建模，加快语速检测模型的收敛速度，并提高语速检测模型的预测性能。

步骤104，将所述训练数据组集合输入语速检测模型的时间卷积模块中，确定每个样本子音频片段i的第一向量，其中，每个样本子音频片段i的第一向量根据样本子音频片段i及前i-1个样本子音频片段共同确定，i为大于或等于1的正整数。

在一些实施例中，语速检测模型可以为对TCN(Temporal Convolutionalnetwork，时间卷积网络模型)模型进行改进后的模型，即调整后的TCN模型。

为了便于描述，将语速检测模型中TCN模型原有的网络结构称为时间卷积模块。

作为一种示例，参见图3，TCN模型由输入层、TCN隐藏层和输出层一起组合成，TCN隐藏层由多个TCN残差块组成。即时间卷积模块包括输入层、TCN隐藏层和输出层。由图3可知，TCN模型中，每一个隐藏层的多个卷积核可以独立对样本子音频片段的频谱特征进行卷积运算，即每一个隐藏层可以并行对多个不同的样本子音频片段的频谱特征进行卷积运算，能够提高语速检测的效率，满足真实环境下低时延的需求。

示例性地，本申请实施例对TCN模型的架构及空洞系数不进行限制。图3仅是以TCN模型包括输入层、输出层和三个TCN隐藏层，且三个TCN隐藏层的空洞卷积系数分别为1、2、4，输出层的空洞卷积系数为8为例对TCN模型的架构进行介绍。在另一些实施例中，TCN模型中TCN隐藏层的数量可以自行设置，空洞系数也可以自行设置，本申请实施例对此不作限定。

参见图4，每个TCN残差块由扩张因果卷积层(也称空洞卷积层)、权重归一层、ReLU(Rectified LinearUnit，修正线性单元)函数和Dropout层线性构成，进一步地，TCN残差块中还可以包括一个1×1的卷积。其中，Dropout层可以有效防止模型过拟合的问题出现。

需要说明的是，TCN隐藏层的数量可以人为进行设置并修改。

由于TCN模型具有结合上文信息的功能，因此，每个样本子音频片段i的第一向量可以由每个样本子音频片段的频谱特征和前i-1个样本子音频片段的频谱特征共同确定。

在实施中，将样本音频片段的训练数据组集合输入至语速检测模型的时间卷积模块中，即将样本子音频片段对应的训练数据组输入至时间卷积模块中，每个样本子音频片段i中每帧样本子音频片段的频谱特征通过扩张因果卷积层、权重归一层、修正线性单元ReLU函数和Dropout层之后，可以得到结合前i-1个样本子音频片段的频谱特征的每个样本子音频片段的第一向量。

示例性地，假设样本音频片段包括3个样本子音频片段，将该3个样本子音频片段的频谱特征输入时间卷积模块后，若i为1，则对于第1个样本子音频片段来说，可以通过扩张因果卷积层、权重归一层、修正线性单元ReLU函数和Dropout层的处理，得到第1个样本子音频片段的第一向量；若i为2，则前i-1个为前1个，即第1个，那么对于第2个样本子音频片段来说，通过扩张因果卷积层、权重归一层、修正线性单元ReLU函数和Dropout层的处理，可以将第1个样本子音频片段的频谱特征与第2个样本子音频片段的频谱特征相结合，得到第2个样本子音频片段的第一向量；若i为3，则前i-1个为前2个，即第1个和第2个，那么对于第3个样本子音频片段来说，通过扩张因果卷积层、权重归一层、修正线性单元ReLU函数和Dropout层的处理，可以将第1个样本子音频片段的频谱特征、第2个样本子音频片段的频谱特征、和第3个样本子音频片段的频谱特征三者相结合，得到第3个样本子音频片段的第一向量。

进一步地，在本步骤执行之前，可以初始化TCN模型的权重，设置迭代次数、残差块的个数、网络层数、扩张系数、卷积核大小、学习率以及隐层神经元参数。设置完成这些参数后，可以以mini-batch(小批量)的形式将训练数据组集合输入时间卷积模块中进行训练。

在本说明书实施例中，以改进后的TCN模型作为语速检测模型，可以利用TCN模型能够并行进行卷积运算的特点提高语速检测的效率。

步骤106，将每个样本子音频片段i的第一向量输入注意力层，确定每个样本子音频片段i的第二向量，其中，每个样本子音频片段i的第二向量根据样本子音频片段i及至少前1个样本子音频片段共同确定。

作为一种示例，注意力层可以采用任何能够对输入的向量进行注意力计算的结构，本申请实施例对此不作限定。

在实施中，将每个样本子音频片段i的第一向量输入注意力层，确定每个样本子音频片段i的第二向量的具体实现可以包括：基于目标矩阵和每个样本子音频片段i的第一向量，确定每个样本子音频片段i的第一权重；基于每个第一权重确定每个样本子音频片段i相对于至少前1个样本子音频片段的第二权重；基于每个样本子音频片段i相对于至少前1个样本子音频片段的第二权重和至少前1个样本子音频片段的第一向量，确定每个样本子音频片段i的第二向量。

其中，目标矩阵可以由计算设备默认设置。第二权重是对第一权重进行归一化处理后得到的。

在一些实施例中，可以基于目标矩阵和样本子音频片段i的第一向量，通过下述公式(1)确定样本子音频片段i的第一权重：

e_i＝h_i*W (1)

其中，W为目标矩阵，e_i为样本子音频片段i的第一权重，h_i为样本子音频片段i的第一向量。

在一些实施例中，可以基于样本子音频片段i的第一权重，通过下述公式(2)确定样本子音频片段i相对于样本子音频片段j的第二权重：

其中，α_i,j为样本子音频片段i相对于样本子音频片段j的第二权重，e_j为样本子音频片段j的第一权重，且样本子音频片段j是至少前1个样本子音频片段中的样本子音频片段，n大于等于0，且n小于i。

在一些实施例中，可以基于样本子音频片段i相对于样本子音频片段j的第二权重和样本子音频片段j的第一向量，通过下述公式(3)确定样本子音频片段i的第二向量：

其中，α_i,j为样本子音频片段i相对于样本子音频片段j的第二权重，h_j为样本子音频片段j的第一向量，且样本子音频片段j是至少前1个样本子音频片段中的样本子音频片段，n大于或等于0，且n小于i。

通过上述三个公式，可以确定每个样本子音频片段i的结合上文信息的第二向量。

作为一种示例，为了减少计算量，且使得模型训练的效果最优，n可以为2，即基于样本子音频片段i的第一向量和该样本子音频片段前2个样本子音频片段的第一向量做注意力计算，确定样本子音频片段i的第二向量。

示例性地，参见图5，图5是根据一示例性实施例示出的一种注意力层的示意图。其中，C₇是样本子音频片段7的第二向量，α_7,5是样本子音频片段7相对于样本子音频片段5的第二权重，α_7,6是样本子音频片段7相对于样本子音频片段6的第二权重，α_7,7是样本子音频片段7对应样本子音频片段7的第二权；重C₈是样本子音频片段8的第二向量，α_8,6是样本子音频片段8相对于样本子音频片段6的第二权重，α_8,7是样本子音频片段8相对于样本子音频片段7的第二权重，α_8,8是样本子音频片段8对应样本子音频片段8的第二权重。

在本说明书实施例中，在现有的TCN网络结构中增加了注意力层，可以进一步捕捉样本子音频片段间的依赖关系，能够提高语速检测模型的预测准确率。

步骤108，将每个样本子音频片段i的第二向量输入全连接层，确定每个样本子音频片段i的预测标签。

在实施中，将每个样本子音频片段i的第二向量输入全连接层，确定每个样本子音频片段i的预测标签的具体实现可以包括：基于目标样本子音频片段i的第二向量确定所述目标样本子音频片段i的第三向量，其中，所述目标样本子音频片段i为所述多个样本子音频片段i中的任意一个。基于所述第三向量，通过归一化函数分别确定每种参考标签为所述目标样本子音频片段i的预测标签的概率。将最大概率对应的参考标签确定为所述样本子音频片段i的预测标签。

示例性地，归一化函数可以是softmax函数，或者归一化函数可以是任何与softmax函数功能相同的函数，本申请实施例对此不作限定。

作为一种示例，假设预测结果是1-100个字，则参考标签的数量为100种，且参考标签分别为包括1个字、2个字、......、99个字和100个字。

作为一种示例，对于目标样本子音频片段i来说，将目标样本子音频片段i的第二向量输入全连接层后，可以对该第二向量进行线性映射和非线性变换，得到对第二向量进行转换后的第三向量，再通过归一化函数对该第三向量进行处理，得到每种参考标签可能为目标样本子音频片段i的标签的预测概率，可以得到目标样本子音频片段i的多个概率，且每个概率与一种参考标签对应，将最大概率对应的标签确定为该目标样本音频片段i的预测标签。对每个样本子音频片段均进行上述操作后，可以确定每个样本子音频片段的预测标签。

其中，线性映射是从一个向量空间V到另一个向量空间W的映射。通过线性映射，可以实现词向量的维度至句向量的维度的转换。非线性变换，就是把原始的特征向量做非线性变换，得到一个新的特征向量，使用这个新的特征向量来做线性的分类，则对应到原始的特征空间中，相当于做了非线性的分类。

示例性地，假设目标样本子音频片段i的第二向量为1000维，参考标签有100个类，经过线性映射和非线性转换后，可以得到将目标样本子音频片段i转换为100维的第三向量，再通过归一化函数对该100维的第三向量进行归一化处理，得到一个100维的概率向量，每一维的概率表示该目标样本子音频片段i的标签为该维度的概率。例如，若该100维的概率向量中，第6维的概率为0.1，可以确定该目标样本子音频片段i的预测标签为6的概率为0.5，第1维的概率为0.02，可以确定该目标样本子音频片段i的预测标签为1的概率为0.02，假设第6维的概率最大，可以确定该目标样本子音频片段i的预测标签为6。

进一步地，将每个样本子音频片段i的第二向量输入全连接层之前，还可以包括：对每个样本子音频片段i的第二向量进行目标操作，得到每个样本子音频片段i调整后的第二向量，其中，所述目标操作使得每个样本子音频片段i的第二向量与所述样本子音频片段i的频谱图对应。相应地，将每个样本子音频片段i的第二向量输入全连接层可以包括：将每个样本子音频片段i调整后的第二向量输入全连接层。

作为一种示例，该目标操作可以是MASK(掩膜)操作，是与PAD操作对应的操作。

由于输入全连接层后先确定第三向量，又使用归一化函数进行归一化处理，若直接对PAD后的向量进行归一化处理，PAD的部分也会分摊一部分概率，这可能导致第二向量中有意义的部分(即非PAD部分)概率之和小于1，确定的概率不准确，进而导致确定的预测标签不准确，影响模型训练的效率以及模型预测的准确率。因此，需要先对每个第二向量进行MASK操作，抵消掉之前的PAD操作的影响。

在这种情况下，可以将每个样本子音频片段i调整后的第二向量输入全连接层，基于每个样本子音频片段i调整后的第二向量确定每个样本子音频片段i的预测标签。

步骤110，基于每个样本子音频片段i的预测标签和每个样本子音频片段i的样本标签对所述语速检测模型进行训练，直至达到训练停止条件。

在一种可能的实现方式中，基于每个样本子音频片段i的预测标签和每个样本子音频片段i的样本标签对所述语速检测模型进行训练，直至达到训练停止条件的具体实现可以包括：基于每个样本子音频片段i的预测标签和每个样本子音频片段i的样本标签，通过损失函数，确定每个样本子音频片段i对应的损失值，基于每个样本子音频片段i对应的损失值确定所述样本音频片段对应的损失值，基于所述样本音频片段对应的损失值，对所述语速检测模型进行训练，直至达到训练停止条件。

其中，该损失函数可以是交叉熵损失函数，或者，该损失函数可以是对数损失函数、指数损失函数等，本申请实施例对此不作限定。本申请实施例仅以损失函数是交叉熵损失函数为例。

其中，损失值还可以称为均方误差，可以认为是用来衡量预测结果和实际结果之间差异的一个指标。损失值越小，说明预测结果和实际结果的差异越小，损失值越大，说明预测结果和实际结果的差异越大。

作为一种示例，每确定一次预测标签，可以认为进行了一次迭代训练，便可以确定一次损失值。

在一些实施例中，可以基于每个样本子音频片段i的预测标签和每个样本子音频片段i的样本标签，通过如下公式(4)确定样本音频片段对应的损失值：

其中，N为样本音频片段包括的样本子音频片段的数量，P_i为样本子音频片段i的预测标签，L_i为样本子音频片段i的样本标签，Y＝Cross Entropy(P，L)是损失函数。

示例性地，假设样本音频片段包括三个样本子音频片段A、B和C，可以分别算出样本子音频片段A、B和C的损失值，将样本子音频片段A、B和C的损失值求和，可以得到样本音频片段的损失值。

在一些实施例中，基于所述样本音频片段对应的损失值，对所述语速检测模型进行训练，直至达到训练停止条件的具体实现可以包括：若所述损失值大于或等于预设阈值，继续对所述语速检测模型进行训练，若所述损失值小于所述预设阈值，停止训练。

需要说明的是，预设阈值的数值可以由用户根据实际情况确定，也可以由计算设备默认设置，本申请实施例对此不做限定。

也就是说，可以判断损失值是否小于预设阈值，在损失值大于或等于预设阈值的情况下，可以继续对语速检测模型进行训练；在损失值小于预设阈值的情况下，可以停止训练。

其中，预设阈值为损失值的临界值，在损失值大于或等于预设阈值的情况下，说明语速检测模型的预测结果与真实结果之间仍存在一定偏差，仍需调整语速检测模型的参数并获取样本音频片段继续对该语速检测模型进行训练；在损失值小于预设阈值的情况下，说明语速检测模型的预测结果与真实结果的接近程度已经足够，可以停止训练。

本说明书实施例所述的语速检测模型的训练方法，根据损失值判断语速检测模型的具体训练情况，并在训练未合格的情况下根据损失值反向调整语速检测模型的参数以提高该模型的分析能力，训练速率高且训练效果好。

在另一种可能的实现方式中，基于每个样本子音频片段i的预测标签和每个样本子音频片段i的样本标签对所述语速检测模型进行训练，直至达到训练停止条件的具体实现可以包括：每确定一次每个样本子音频片段i的预测标签，确定进行一次迭代训练，继续基于所述每个样本子音频片段i的预测标签和所述每个样本子音频片段i的样本标签对所述语速检测模型进行迭代训练；记录所述迭代训练的迭代次数；若所述迭代次数小于预设次数，继续对所述语速检测模型进行训练；或者，若所述迭代次数大于或等于所述预设次数，停止训练。

也就是说，每预测得到一次预测标签，可以认为进行了一次迭代训练，基于该次迭代训练得到的预测标签和样本标签继续进行对模型进行迭代训练，并记录迭代训练的迭代次数，若迭代次数小于预设次数，说明模型训练的次数还不够，需要继续训练，若迭代次数等于或大于预设次数，说明已经经过了足够多次数的训练，模型的性能已经基本稳定，可以停止训练。

需要说明的是，预设次数可以由用户根据实际需求进行设置，也可以由计算设备默认设置，本申请实施例对此不做限定。

在本说明书实施例中，根据迭代次数判断模型训练是否完成，可以减少不必要次数的迭代训练，提高模型训练的效率。

下述结合附图6，以本说明书提供的语速检测模型的训练方法在语速检测中的应用为例，对所述语速检测模型的训练方法进行进一步说明。其中，图6示出了本说明书一实施例提供的一种应用于语速检测中的语速检测模型的训练方法的处理流程图，具体包括以下步骤：

步骤602，从语音数据库中获取样本音频片段。

步骤604，对所述样本音频片段进行数据增强处理，得到处理后的样本音频片段。

本步骤的具体实现可以参见步骤102的相关描述，本说明书实施例在此不再赘述。

步骤606，获取处理后的样本音频片段包括的每个样本子音频片段的样本标签。

其中，所述样本音频片段包括多个样本子音频片段。

每个样本标签为所述样本音频片段的开始时间点到每个样本子音频片段的结束时间点之间包括的词单元的长度信息。

例如，假设处理后的样本音频片段包括两个样本子音频片段A和B，样本子音频片段A和样本子音频片段B的时长均为960ms，以词单元为字，长度信息为数量为例，该样本音频片段中第一个960ms包括5个字，第二个960ms包括3个字，即样本子音频片段A的样本标签为5，样本子音频片段B的样本标签为3。

步骤608，对每个样本子音频片段进行处理，确定每个样本子音频片段的频谱图。

在实施中，可以将目标样本子音频片段进行分帧，得到多帧样本子音频片段，对每帧样本子音频片段进行傅里叶变换，可以得到每帧样本子音频片段的频谱特征，将所述多帧样本子音频片段的频谱特征进行拼接，得到所述目标样本子音频片段的频谱图。

其中，所述目标样本子音频片段为所述多个样本子音频片段中的任意一个。

例如，对样本子音频片段A进行分帧，假设每帧的时长为36ms，可以将样本子音频片段A划分为30帧，可以对每帧样本子音频片段进行傅里叶变换，可以得到每帧样本子音频片段的频谱特征，将该30帧样本子音频片段的频谱特征进行拼接，可以得到样本子音频片段A的频谱图a。同理，可以得到样本子音频片段B的频谱图b。

步骤610，将同一个样本子音频片段的标签和频谱图确定为一个训练数据组，得到处理后的样本音频片段的训练数据组集合。

例如，将样本子音频片段A的标签5和样本子音频片段A的频谱图a确定为样本子音频片段A的训练数据组，将样本子音频片段B的标签3和样本子音频片段B的频谱图b确定为样本子音频片段B的训练数据组。

步骤612，将所述训练数据组集合输入语速检测模型的时间卷积模块中，确定每个样本子音频片段i的第一向量。

其中，每个样本子音频片段i的第一向量根据样本子音频片段i及前i-1个样本子音频片段共同确定，i为大于或等于1的正整数。

例如，将样本子音频片段A的训练数据组和样本子音频片段B的训练数据组均输入语速检测模型的时间卷积模块中，可以得到样本子音频片段A的第一向量以及样本子音频片段B的第一向量。

需要说明的是，本步骤的具体实现可以参见步骤104的相关描述，本实施例在此不再赘述。

步骤614，将每个样本子音频片段i的第一向量输入注意力层，基于目标矩阵和每个样本子音频片段i的第一向量，确定每个样本子音频片段i的第一权重。

例如，将样本子音频片段A的第一向量和样本子音频片段B的第一向量均输入注意力层中，可以通过上述步骤106中的公式(1)确定样本子音频片段A的第一权重以及样本子音频片段B的第一权重。

步骤616，基于每个第一权重确定每个样本子音频片段i相对于至少前1个样本子音频片段的第二权重。

例如，将样本子音频片段A的第一权重和样本子音频片段B的第一权重均输入注意力层中，可以通过上述步骤106中的公式(2)确定样本子音频片段A相对于至少前1个样本子音频片段的第二权重，以及确定样本子音频片段B相对于至少前1个样本子音频片段的第二权重。

步骤618，基于每个样本子音频片段i的第二权重和至少前1个样本子音频片段的第一向量，确定每个样本子音频片段的第二向量。

例如，由于样本子音频片段A为样本音频片段的第一个样本子音频片段，因此，可以基于样本子音频片段A的第二权重和第一向量，通过上述步骤106中的公式(3)确定样本子音频片段A的第二向量，以及基于样本子音频片段A的第二权重和第一向量，样本子音频片段B的第二权重和第一向量，可以通过上述步骤106中的公式(3)确定样本子音频片段B的第二向量。

步骤620，将每个样本子音频片段i的第二向量输入全连接层。

例如，将样本子音频片段A的第二向量和样本子音频片段B的第二向量均输入全连接层。

步骤622，基于目标样本子音频片段i的第二向量确定所述目标样本子音频片段i的第三向量。

其中，所述目标样本子音频片段i为所述多个样本子音频片段i中的任意一个。

例如，基于样本子音频片段A的第二向量确定样本子音频片段A的第三向量，以及基于样本子音频片段B的第二向量确定样本子音频片段B的第二向量。

需要说明的是，本步骤的具体实现可以参见步骤108的相关描述，本实施例在此不再赘述。

步骤624，基于所述第三向量，通过归一化函数分别确定每种参考标签为所述目标样本子音频片段i的预测标签的概率。

例如，假设参考标签的种类包括100个，基于样本子音频片段A的第三向量，通过归一化函数确定每种参考标签分别为样本子音频片段A的预测标签的概率，得到样本子音频片段A的100个概率，以及基于样本子音频片段B的第三向量通过归一化函数确定每种参考标签为样本子音频片段B的预测标签的概率，得到样本子音频片段B的100个概率。

步骤626，将最大概率对应的参考标签确定为所述样本子音频片段i的预测标签。

例如，假设样本子音频片段A的100个概率中，第5维对应的概率最大，可以确定样本子音频片段A的预测标签为5；假设样本子音频片段B的100个概率中，第6维对应的概率最大，可以确定样本子音频片段B的预测标签为6。

步骤628，基于每个样本子音频片段i的预测标签和每个样本子音频片段i的样本标签，通过损失函数，确定每个样本子音频片段i对应的损失值。

例如，基于样本子音频片段A的预测标签5和样本子音频片段A的样本标签为5，通过损失函数，确定该样本子音频片段A对应的损失值，以及基于样本子音频片段B的预测标签6和样本子音频片段B的样本标签为3，通过损失函数，确定该样本子音频片段B对应的损失值。

步骤630，基于每个样本子音频片段i对应的损失值确定所述样本音频片段对应的损失值。

例如，可以将样本子音频片段A对应的损失值和样本子音频片段B对应的损失值相加，可以得到样本音频片段对应的损失值。

步骤632，基于所述样本音频片段对应的损失值，对所述语速检测模型进行训练，直至达到训练停止条件。

需要说明的是，步骤628-步骤632是对步骤110的下位描述，具体实现可以参见步骤110的相关描述，本实施例在此不再赘述。

图7示出了根据本说明书一实施例提供的一种语速检测方法的流程图，具体可以包括以下步骤：

步骤702，获取待检测音频片段的频谱图组，其中，所述待检测音频片段包括多个待检测子音频片段，所述频谱图组包括所述多个待检测子音频片段的频谱图。

在实施中，可以获取待检测音频片段，并对待检测音频片段进行划分，得到多个待检测子音频片段，对每个待检测子音频片段进行处理，可以确定每个待检测子音频片段的频谱图。

在一些实施例中，对每个待检测子音频片段进行处理，确定每个待检测子音频片段的频谱图的具体实现可以包括：将目标待检测子音频片段进行分帧，得到多帧待检测子音频片段，对每帧待检测子音频片段进行傅里叶变换，得到每帧待检测子音频片段的频谱特征，将多帧待检测子音频的频谱特征进行拼接，得到目标待检测子音频片段的频谱图。

其中，目标待检测子音频片段为该多个待检测子音频片段中的任一待检测子音频片段。

也就是说，对于该待检测音频片段包括的多个待检测子音频片段中的目标待检测子音频片段，可以将目标待检测子音频片段划分为多帧待检测子音频片段，并且对每帧待检测子音频片段进行傅里叶变换，得到每帧待检测子音频片段的频谱特征，并将多帧待检测子音频片段的频谱特征拼接在一起，得到该目标待检测子音频片段的频谱图。对于待检测音频片段包括的每个待检测子音频片段均进行上述操作后，可以确定每个待检测子音频片段的频谱图。

示例性地，假设待检测音频片段的时长为960ms×3，且每个待检测子音频片段的时长为960ms。对于目标待检测子音频片段来说，可以将该960ms时长的待检测子音频片段划分为30帧时长为32ms的待检测子音频片段，可以对每帧待检测子音频片段进行傅里叶变换，得到每帧待检测子音频片段的频谱特征，将该30帧待检测子音频片段的频谱特征进行拼接，可以得到该目标待检测子音频片段的频谱图。

需要说明的是，上述对每个待检测子音频片段进行处理，确定每个待检测子音频片段的频谱图的过程可以理解为对待检测子音频片段进行stft，得到每个待检测子音频片段的频谱图。

进一步地，为了保证输入语速检测模型的每个待检测音频片段的频谱图组的序列长度相同，可以对每个输入的待检测音频片段的频谱图组中的序列进行pad操作，使得每个输入的待检测音频片段的频谱图组中的序列长度相同。如此，可以便于语速检测模型进行卷积操作。

步骤704，将所述待检测音频片段的频谱图组输入语速检测模型的时间卷积模块中，确定每个待检测子音频片段i的第一向量。

其中，所述语速检测模型是通过上述语速检测模型的训练方法训练得到的，每个待检测子音频片段i的第一向量根据待检测子音频片段i及前i-1个待检测子音频片段共同确定，i为大于或等于1的正整数。

由于语速检测模型是对TCN模型进行改进并训练后得到的，因此，通过该语速检测模型，可以将待检测子音频片段与其之前的待检测子音频片段的特征进行结合，得到待检测音频片段i结合上文信息后的第一向量，考虑了待检测子音频片段之间的依赖关系，可以提高语速检测模型的性能。

作为一种示例，语速检测模型包括时间卷积模块，该时间卷积模块包括TCN输入层、TCN隐藏层和输出层。

其中，参见图4，该TCN隐藏层由多个TCN残差块组成，每个TCN残差块由扩张因果卷积层、权重归一层、修正线性单元ReLU函数和Dropout层线性构成，进一步地，TCN残差块中还可以包括一个1×1的卷积。

作为一种示例，本步骤可以包括：将多个待检测子音频片段的频谱图通过输入层输入TCN隐藏层，在TCN隐藏层，每个待检测子音频片段的频谱特征通过扩张因果卷积层、权重归一层、修正线性单元ReLU函数和Dropout层之后，通过输出层可以输出结合前i-1个待检测子音频片段的每个待检测子音频片段的第一向量。

示例性地，假设待检测音频片段包括3个待检测子音频片段，将该3个待检测子音频片段的频谱特征输入时间卷积模块后，若i为1，则对于第1个待检测子音频片段来说，可以通过扩张因果卷积层、权重归一层、修正线性单元ReLU函数和Dropout层的处理，得到第1个待检测子音频片段的第一向量；若i为2，则前i-1个为前1个，即第1个，那么对于第2个待检测子音频片段来说，通过扩张因果卷积层、权重归一层、修正线性单元ReLU函数和Dropout层的处理，可以将第1个待检测子音频片段的频谱特征与第2个待检测子音频片段的频谱特征相结合，得到第2个待检测子音频片段的第一向量；若i为3，则前i-1个为前2个，即第1个和第2个，那么对于第3个待检测子音频片段来说，通过扩张因果卷积层、权重归一层、修正线性单元ReLU函数和Dropout层的处理，可以将第1个待检测子音频片段的频谱特征、第2个待检测子音频片段的频谱特征、和第3个待检测子音频片段的频谱特征三者相结合，得到第3个待检测子音频片段的第一向量。

步骤706，将每个待检测子音频片段i的第一向量输入注意力层，确定每个待检测子音频片段i的第二向量。

其中，每个待检测子音频片段i的第二向量根据待检测子音频片段i及至少前1个待检测子音频片段共同确定。

在实施中，本步骤的具体实现可以包括：基于目标矩阵和每个待检测子音频片段i的第一向量，确定每个待检测子音频片段的第一权重；基于每个第一权重确定每个待检测子音频片段i相对于所述至少前1个待检测子音频片段的第二权重；基于每个待检测子音频片段i的第二权重和所述至少前1个待检测子音频片段的第一向量，确定每个待检测子音频片段的第二向量。

在一些实施例中，可以基于目标矩阵和待检测子音频片段i的第一向量，通过上述实施例中的公式(1)确定待检测子音频片段i的第一权重。在本实施例中，上述公式(1)中的参数表示的意义有所不同，其中，e_i为待检测子音频片段i的第一权重，h_i为待检测子音频片段i的第一向量。

在一些实施例中，可以基于待检测子音频片段i的第一权重，通过上述实施例中的公式(2)确定待检测子音频片段i相对于待检测子音频片段j的第二权重。在本实施例中，上述公式(2)中的参数表示的意义有所不同，其中，α_i,j为待检测子音频片段i相对于待检测子音频片段j的第二权重，e_j为待检测子音频片段j的第一权重，且待检测子音频片段j是至少前1个待检测子音频片段中的待检测子音频片段，n大于等于0，且n小于i。

在一些实施例中，可以基于待检测子音频片段i相对于待检测子音频片段j的第二权重和待检测子音频片段j的第一向量，通过上述实施例中的公式(3)确定待检测子音频片段i的第二向量。在本实施例中，上述公式(3)中的参数表示的意义有所不同，其中，α_i,j为待检测子音频片段i相对于待检测子音频片段j的第二权重，h_j为待检测子音频片段j的第一向量，且待检测子音频片段j是至少前1个待检测子音频片段中的待检测子音频片段，n大于或等于0，且n小于i。

通过上述三个公式，可以确定每个待检测子音频片段i的结合上文信息的第二向量。

本实施例使用的语速检测模型中包括注意力层，可以进一步捕捉待检测子音频片段间的依赖关系，提高了语速检测模型的语速预测准确率。

步骤708，将每个待检测子音频片段i的第二向量输入全连接层，得到每个待检测子音频片段i的标签。

在实施中，本步骤的具体实现可以包括：基于目标待检测子音频片段i的第二向量确定所述目标待检测子音频片段i的第三向量，其中，所述目标待检测子音频片段i为所述多个待检测子音频片段i中的任意一个；基于所述第三向量，通过归一化函数确定每种参考标签为所述目标待检测子音频片段i的标签的概率；将最大概率对应的参考标签确定为所述目标待检测子音频片段i的标签。

作为一种示例，参见图8，语速检测模型可以包括时间卷积模块、注意力层和全连接层，该全连接层中可以包括归一化函数。

作为一种示例，对于目标待检测子音频片段i来说，将目标待检测子音频片段i的第二向量输入全连接层后，可以对该第二向量进行线性映射和非线性变换，得到对第二向量进行转换后的第三向量，再通过归一化函数对该第三向量进行处理，得到每种参考标签为目标待检测子音频片段i的标签的概率，可以得到目标待检测子音频片段i的多个概率，将最大概率对应的标签确定为该目标待检测音频片段i的标签。对每个待检测子音频片段均进行上述操作后，可以确定每个待检测子音频片段的标签。

示例性地，假设目标待检测子音频片段i的第二向量为1000维，参考标签有100个类，经过线性映射和非线性转换后，可以得到将目标待检测子音频片段i转换为100维的第三向量，再通过归一化函数对该100维的第三向量进行归一化处理，得到一个100维的概率向量，每一维的概率表示该目标待检测子音频片段i的标签为该维度的概率。例如，若该100维的概率向量中，第6维的概率为0.5，可以确定该目标待检测子音频片段i的标签为6的概率为0.5，第1维的概率为0.02，可以确定该目标待检测子音频片段i的标签为1的概率为0.02，假设第6维的概率最大，可以确定该目标待检测子音频片段i的标签为6。

进一步地，将每个待检测子音频片段i的第二向量输入全连接层之前，还可以包括：对每个待检测子音频片段i的第二向量进行目标操作，得到每个待检测子音频片段i调整后的第二向量，其中，所述目标操作使得每个待检测子音频片段i的第二向量与所述待检测子音频片段i的频谱图对应。相应地，将每个待检测子音频片段i的第二向量输入全连接层可以包括：将每个待检测子音频片段i调整后的第二向量输入全连接层。

其中，该目标操作为MASK操作，是与PAD操作对应的操作。作为一种示例，参见图8，该语速检测模型还可以包括MASK层。

由于输入全连接层后先确定第三向量，又使用归一化函数进行归一化处理，若直接对PAD后的向量进行归一化处理，PAD的部分也会分摊一部分概率，这可能导致第二向量中有意义的部分(即非PAD部分)概率之和小于1，确定的概率不准确，进而导致确定的标签不准确，影响模型训练的效率以及模型预测的准确率。因此，需要先对每个第二向量进行MASK操作，抵消掉之前的PAD操作的影响。

在这种情况下，可以将每个待检测子音频片段i调整后的第二向量输入全连接层，基于每个待检测子音频片段i调整后的第二向量确定每个待检测子音频片段i的标签。

步骤710，基于所述多个待检测子音频片段i的标签，确定所述待检测音频片段的标签。

在实施中，可以将多个待检测子音频片段i的标签中最大的标签确定为该待检测音频片段的标签。

作为一种示例，待检测子音频片段的标签可以为从待检测音频片段的开始时间点到该待检测子音频片段的结束时间点之间的字数。因此，最大的标签即为最多的字数，而最多的字数为多个待检测子音频片段中最后一个待检测子音频片段的字数，即从待检测音频片段的开始时间点到待检测音频片段的结束时间点之间的字数，即待检测音频片段的总字数。

示例性地，假设待检测音频片段为10秒，且待检测音频片段包括3个待检测子音频片段，第一个待检测子音频片段的结束时间点为第3秒，第二个待检测子音频片段的结束时间点为第6秒，第三个待检测子音频片段的结束时间点为第10秒，从开始时间点到第3秒包括10个字，从第3秒到第6秒包括12个字，从第6秒到第10秒包括20个字，则可以确定第一个待检测子音频片段的标签为10，第二个待检测子音频片段的标签为22，第三个待检测子音频片段的标签为42，可以确定多个待检测子音频片段的标签中最大的标签为42，进而可以确定待检测音频片段的总字数为42。

进一步地，确定待检测音频片段的总字数后，可以获取待检测音频片段的总时长，将总字数和总时长的商确定为该待检测音频片段的语速。

本申请实施例提供的语速检测方法可以准确地检测音频片段的语速，且拥有比LSTM、ASR(Automatic Speech Recognition，自动语音识别技术)系统更快的训练速度以及检测速度，同时可以利用GPU(Graphics Processing Unit，图形处理器)进行大规模并行计算，更适合实时处理场景下的语速检测。

本说明书提供的语速检测方法，获取待检测音频片段的频谱图组，其中，所述待检测音频片段包括多个待检测子音频片段，所述频谱图组包括所述多个待检测子音频片段的频谱图；将所述待检测音频片段的频谱图组输入语速检测模型的时间卷积模块中，确定每个待检测子音频片段i的第一向量，其中，所述语速检测模型是通过上述权利要求1-10中任一项所述的语速检测模型的训练方法训练得到的，每个待检测子音频片段i的第一向量根据待检测子音频片段i及前i-1个待检测子音频片段共同确定，i为大于或等于1的正整数；将每个待检测子音频片段i的第一向量输入注意力层，确定每个待检测子音频片段i的第二向量，其中，每个待检测子音频片段i的第二向量根据待检测子音频片段i及至少前1个待检测子音频片段共同确定；将每个待检测子音频片段i的第二向量输入全连接层，得到每个待检测子音频片段i的标签；基于所述多个待检测子音频片段i的标签，确定所述待检测音频片段的标签。本说明书实施例中，在语速检测模型中加入注意力层，捕捉了待检测子音频片段之间的依赖关系，能够提高语速检测模型的准确率，使得语速检测模型可以更加准确地确定待检测音频片段的标签。

下述结合附图9，以本说明书提供的语速检测方法在语速检测中的应用为例，对所述语速检测方法进行进一步说明。其中，图9示出了本说明书一实施例提供的一种应用于语速检测中的语速检测方法的处理流程图，具体可以包括以下步骤：

步骤902，获取待检测音频片段。

步骤904，将待检测音频片段划分为多个待检测子音频片段。

步骤906，对每个待检测子音频片段进行处理，确定每个待检测子音频片段的频谱图。

例如，可以对每个待检测子音频片段进行短时傅里叶变换，可以得到每个待检测音频片段的频谱图。

步骤908，基于每个待检测子音频片段的频谱图确定待检测音频片段的频谱图组。

例如，按照检测子音频片段的顺序将多个待检测子音频片段的频谱图进行拼接，可以得到待检测音频片段的频谱图组。

需要说明的是，步骤902-步骤908是对步骤702的下位描述，其具体实现可以参见步骤702的相关描述，本实施例在此不再赘述。

步骤910，将待检测音频片段的频谱图组输入语速检测模型的时间卷积模块中，确定每个待检测子音频片段i的第一向量。

其中，该语速检测模型是通过上述所述的语速检测模型的训练方法训练得到的，每个待检测子音频片段i的第一向量可以根据待检测子音频片段i及前i-1个待检测子音频片段共同确定，i为大于或等于1的正整数。

需要说明的是，步骤910的实现过程和步骤704的实现过程雷同，其具体实现可以参见步骤704的相关描述，本实施例在此不再赘述。

步骤912，将每个待检测子音频片段i的第一向量输入注意力层，基于目标矩阵和每个待检测子音频片段i的第一向量，确定每个待检测子音频片段的第一权重。

步骤914，基于每个第一权重确定每个待检测子音频片段i相对于所述至少前1个待检测子音频片段的第二权重。

步骤916，基于每个待检测子音频片段i的第二权重和所述至少前1个待检测子音频片段的第一向量，确定每个待检测子音频片段的第二向量。

需要说明的是，步骤912-步骤916是对步骤706的下位描述，其具体实现可以参见步骤706的相关描述，本实施例在此不再赘述。

步骤918，将每个待检测子音频片段i的第二向量输入全连接层。

步骤920，基于目标待检测子音频片段i的第二向量确定每个待检测子音频片段i的第三向量。

步骤922，基于每个待检测子音频片段i的第三向量，通过归一化函数确定每种参考字数为每个待检测子音频片段i的字数的概率。

在实施中，对于目标待检测子音频片段，可以通过归一化函数确定每种参考字数为目标待检测音频片段i的字数的概率。其中，目标待检测子音频片段为多个待检测子音频片段中的任一待检测子音频片段。

例如，假设参考字数的种类为50种，分别为包括1个字、2个字、......、49个字和100个字，对于目标待检测子音频片段，可以确定该目标待检测子音频片段包括1个字的概率、包括2个字的概率、......包括49个字的概率和包括50个字的概率。

步骤924，将每个待检测子音频片段对应的概率中最大概率对应的参考字数确定为每个待检测子音频片段i的字数。

例如，假设目标待检测子音频片段包括1个字的概率为0.01，包括2个字的概率为0.02，包括10个字的概率为0.5，包括其他字的概率均小于0.02，因此，可以确定该目标待检测子音频片段的字数为10。

步骤926，将该多个待检测子音频片段i的字数中最多的字数确定为该待检测音频片段的总字数。

例如，假设待检测音频片段为10秒，且待检测音频片段包括3个待检测子音频片段，第一个待检测子音频片段的结束时间点为第3秒，第二个待检测子音频片段的结束时间点为第6秒，第三个待检测子音频片段的结束时间点为第10秒，从开始时间点到第3秒包括10个字，从第3秒到第6秒包括12个字，从第6秒到第10秒包括20个字，则可以确定第一个待检测子音频片段的标签为10，第二个待检测子音频片段的标签为22，第三个待检测子音频片段的标签为42，可以确定多个待检测子音频片段的标签中最大的标签为42，进而可以确定待检测音频片段的总字数为42。

步骤928，获取待检测音频片段的总时长，基于总时长和总字数确定该待检测音频片段的语速。

继续上述举例，待检测音频片段的总时长为10秒，总字数为42，可以确定该待检测音频片段的语速为每秒4.2个字。

与上述方法实施例相对应，本说明书还提供了语速检测模型的训练装置实施例，图10示出了本说明书一实施例提供的一种语速检测模型的训练装置的结构示意图。如图10所示，该装置包括：

第一获取模块1002，被配置为获取样本音频片段的训练数据组集合，其中，所述样本音频片段包括多个样本子音频片段，每个训练数据组包括所述样本子音频片段的频谱图和样本标签，每个样本标签为所述样本音频片段的开始时间点到每个样本子音频片段的结束时间点之间包括的词单元的长度信息；

第一确定模块1004，被配置为将所述训练数据组集合输入语速检测模型的时间卷积模块中，确定每个样本子音频片段i的第一向量，其中，每个样本子音频片段i的第一向量根据样本子音频片段i及前i-1个样本子音频片段共同确定，i为大于或等于1的正整数；

第二确定模块1006，被配置为将每个样本子音频片段i的第一向量输入注意力层，确定每个样本子音频片段i的第二向量，其中，每个样本子音频片段i的第二向量根据样本子音频片段i及前i-1个样本子音频片段共同确定；

第三确定模块1008，被配置为将每个样本子音频片段i的第二向量输入全连接层，确定每个样本子音频片段i的预测标签；

训练模块1010，被配置为基于每个样本子音频片段i的预测标签和每个样本子音频片段i的样本标签对所述语速检测模型进行训练，直至达到训练停止条件。

可选地，所述第二确定模块1006被配置为：

基于目标矩阵和每个样本子音频片段i的第一向量，确定每个样本子音频片段i的第一权重；

基于每个第一权重确定每个样本子音频片段i相对于所述至少前1个样本子音频片段的第二权重；

基于每个样本子音频片段i的第二权重和所述至少前1个样本子音频片段的第一向量，确定每个样本子音频片段的第二向量。

可选地，所述第三确定模块1008被配置为：

基于目标样本子音频片段i的第二向量确定所述目标样本子音频片段i的第三向量，其中，所述目标样本子音频片段i为所述多个样本子音频片段i中的任意一个；

基于所述第三向量，通过归一化函数确定每种参考标签为所述目标样本子音频片段i的标签的概率；

将最大概率对应的参考标签确定为所述目标样本子音频片段i的预测标签。

可选地，所述训练模块1010被配置为：

基于每个样本子音频片段i的预测标签和每个样本子音频片段i的样本标签，通过损失函数，确定每个样本子音频片段i对应的损失值；

基于每个样本子音频片段i对应的损失值确定所述样本音频片段对应的损失值；

基于所述样本音频片段对应的损失值，对所述语速检测模型进行训练，直至达到训练停止条件。

可选地，所述第一获取模块1002被配置为：

确定所述样本音频片段包括的每个样本子音频片段的样本标签；

对每个样本子音频片段进行处理，确定每个样本子音频片段的频谱图；

将同一个样本子音频片段的标签和频谱图确定为一个训练数据组，得到所述训练数据组集合。

可选地，所述第一获取模块1002被配置为：

将目标样本子音频片段进行分帧，得到多帧样本子音频片段，其中，所述目标样本子音频片段为所述多个样本子音频片段中的任意一个；

对每帧样本子音频片段进行傅里叶变换，得到每帧样本子音频片段的频谱特征；

将所述多帧样本子音频片段的频谱特征进行拼接，得到所述目标样本子音频片段的频谱图。

可选地，所述第一获取模块1002还被配置为：

从语音数据库中获取样本音频片段；

对所述样本音频片段进行数据增强处理，得到处理后的样本音频片段；

获取所述处理后的样本音频片段的训练数据组集合。

可选地，所述第三确定模块1008还被配置为：

对每个样本子音频片段i的第二向量进行目标操作，得到每个样本子音频片段i调整后的第二向量，其中，所述目标操作使得每个样本子音频片段i的第二向量与所述样本子音频片段i的频谱图对应；

将每个样本子音频片段i调整后的第二向量输入全连接层。

可选地，所述训练模块1010被配置为：

若所述损失值大于或等于预设阈值，继续对所述语速检测模型进行训练；

若所述损失值小于所述预设阈值，停止训练。

可选地，所述训练模块1010被配置为：

每确定一次每个样本子音频片段i的预测标签，确定进行一次迭代训练，继续基于所述每个样本子音频片段i的预测标签和所述每个样本子音频片段i的样本标签对所述语速检测模型进行迭代训练；

记录所述迭代训练的迭代次数；

若所述迭代次数小于预设次数，继续对所述语速检测模型进行训练；或者，若所述迭代次数大于或等于所述预设次数，停止训练。

上述为本实施例的一种语速检测模型的训练装置的示意性方案。需要说明的是，该语速检测模型的训练装置的技术方案与上述的语速检测模型的训练方法的技术方案属于同一构思，语速检测模型的训练装置的技术方案未详细描述的细节内容，均可以参见上述语速检测模型的训练方法的技术方案的描述。

与上述方法实施例相对应，本说明书还提供了语速检测装置实施例，图11示出了本说明书一实施例提供的一种语速检测装置的结构示意图。如图11所示，该装置包括：

第二获取模块1102，被配置为获取待检测音频片段的频谱图组，其中，所述待检测音频片段包括多个待检测子音频片段，所述频谱图组包括所述多个待检测子音频片段的频谱图；

第四确定模块1104，被配置为将所述待检测音频片段的频谱图组输入语速检测模型的时间卷积模块中，确定每个待检测子音频片段i的第一向量，其中，所述语速检测模型是通过上述实施例所述的语速检测模型的训练方法训练得到的，每个待检测子音频片段i的第一向量根据待检测子音频片段i及前i-1个待检测子音频片段共同确定，i为大于或等于1的正整数；

第五确定模块1106，被配置为将每个待检测子音频片段i的第一向量输入注意力层，确定每个待检测子音频片段i的第二向量，其中，每个待检测子音频片段i的第二向量根据待检测子音频片段i及至少前1个待检测子音频片段共同确定；

第六确定模块1108，被配置为将每个待检测子音频片段i的第二向量输入全连接层，得到每个待检测子音频片段i的标签；

第七确定模块1110，被配置为基于所述多个待检测子音频片段i的标签，确定所述待检测音频片段的标签。

可选地，所述第五确定模块1106被配置为：

基于目标矩阵和每个待检测子音频片段i的第一向量，确定每个待检测子音频片段的第一权重；

基于每个第一权重确定每个待检测子音频片段i相对于所述至少前1个待检测子音频片段的第二权重；

基于每个待检测子音频片段i的第二权重和所述至少前1个待检测子音频片段的第一向量，确定每个待检测子音频片段的第二向量。

可选地，所述第六确定模块1108被配置为：

基于目标待检测子音频片段i的第二向量确定所述目标待检测子音频片段i的第三向量，其中，所述目标待检测子音频片段i为所述多个待检测子音频片段i中的任意一个；

基于所述第三向量，通过归一化函数确定每种参考标签为所述目标待检测子音频片段i的标签的概率；

将最大概率对应的参考标签确定为所述目标待检测子音频片段i的标签。

可选地，所述第七确定模块1110被配置为：

将所述多个待检测子音频片段i的标签中最大的标签确定为所述待检测音频片段的标签。

上述为本实施例的一种语速检测装置的示意性方案。需要说明的是，该语速检测装置的技术方案与上述的语速检测方法的技术方案属于同一构思，语速检测装置的技术方案未详细描述的细节内容，均可以参见上述语速检测方法的技术方案的描述。

图12示出了根据本说明书一实施例提供的一种计算设备1200的结构框图。该计算设备1200的部件包括但不限于存储器1210和处理器1220。处理器1220与存储器1210通过总线1230相连接，数据库1250用于保存数据。

计算设备1200还包括接入设备1240，接入设备1240使得计算设备1200能够经由一个或多个网络1260通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备440可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本说明书的一个实施例中，计算设备1200的上述部件以及图12中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图12所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备1200可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备1200还可以是移动式或静止式的服务器。

其中，处理器1220用于执行如下计算机可执行指令，以实现上述语速检测模型的训练方法，或者，以实现上述语速检测方法。

作为一种示例，该计算设备1200还可以包括GPU，可以提高模型训练过程中的计算效率，进而提高模型训练效率。

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的语速检测模型的训练方法或语速检测方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述语速检测模型的训练方法或语速检测方法的技术方案的描述。

本说明书一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时以用于实现上述语速检测模型的训练方法，或者，实现上述语速检测方法。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的语速检测模型的训练方法或语速检测方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述语速检测模型的训练方法或语速检测方法的技术方案的描述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本说明书并不受所描述的动作顺序的限制，因为依据本说明书，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本说明书所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本说明书的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种语速检测模型的训练方法，其特征在于，所述方法包括：

获取样本音频片段的训练数据组集合，其中，所述样本音频片段包括多个样本子音频片段，每个训练数据组包括所述样本子音频片段的频谱图和样本标签，每个样本标签为所述样本音频片段的开始时间点到每个样本子音频片段的结束时间点之间包括的词单元的长度信息累加得到；

将每个样本子音频片段i的第一向量输入注意力层，确定每个样本子音频片段i的第二向量，其中，每个样本子音频片段i的第二向量根据样本子音频片段i及至少前1个样本子音频片段共同确定；

2.如权利要求1所述的语速检测模型的训练方法，其特征在于，所述将每个样本子音频片段i的第一向量输入注意力层，确定每个样本子音频片段i的第二向量，包括：

3.如权利要求1所述的语速检测模型的训练方法，其特征在于，所述将每个样本子音频片段i的第二向量输入全连接层，确定每个样本子音频片段i的预测标签，包括：

基于所述第三向量，通过归一化函数分别确定每种参考标签为所述目标样本子音频片段i的预测标签的概率；

4.如权利要求1所述的语速检测模型的训练方法，其特征在于，所述基于每个样本子音频片段i的预测标签和每个样本子音频片段i的样本标签对所述语速检测模型进行训练，直至达到训练停止条件，包括：

5.如权利要求1所述的语速检测模型的训练方法，其特征在于，所述获取样本音频片段的训练数据组集合，包括：

6.如权利要求5所述的语速检测模型的训练方法，其特征在于，所述对每个样本子音频片段进行处理，确定每个样本子音频片段的频谱图，包括：

7.如权利要求5所述的语速检测模型的训练方法，其特征在于，所述获取样本音频片段的训练数据组集合之前，还包括：

从语音数据库中获取样本音频片段；

相应地，所述获取样本音频片段的训练数据组集合，包括：

获取所述处理后的样本音频片段的训练数据组集合。

8.如权利要求1所述的语速检测模型的训练方法，其特征在于，所述将每个样本子音频片段i的第二向量输入全连接层之前，还包括：

相应地，将每个样本子音频片段i的第二向量输入全连接层，包括：

将每个样本子音频片段i调整后的第二向量输入全连接层。

9.如权利要求4所述的语速检测模型的训练方法，其特征在于，所述基于所述样本音频片段对应的损失值，对所述语速检测模型进行训练，直至达到训练停止条件，包括：

若所述损失值小于所述预设阈值，停止训练。

10.如权利要求1所述的语速检测模型的训练方法，其特征在于，所述基于每个样本子音频片段i的预测标签和每个样本子音频片段i的样本标签对所述语速检测模型进行训练，直至达到训练停止条件，包括：

记录所述迭代训练的迭代次数；

11.一种语速检测方法，其特征在于，所述方法包括：

将所述待检测音频片段的频谱图组输入语速检测模型的时间卷积模块中，确定每个待检测子音频片段i的第一向量，其中，所述语速检测模型是通过上述权利要求1-10中任一项所述的语速检测模型的训练方法训练得到的，每个待检测子音频片段i的第一向量根据待检测子音频片段i及前i-1个待检测子音频片段共同确定，i为大于或等于1的正整数；

12.如权利要求11所述的语速检测方法，其特征在于，所述将每个待检测子音频片段i的第一向量输入注意力层，确定每个待检测子音频片段i的第二向量，包括：

13.如权利要求11所述的语速检测方法，其特征在于，所述将每个待检测子音频片段i的第二向量输入全连接层，得到每个待检测子音频片段i的标签，包括：

14.如权利要求11所述的语速检测方法，其特征在于，所述基于所述多个待检测子音频片段i的标签，确定所述待检测音频片段的标签，包括：

15.一种语速检测模型的训练装置，其特征在于，所述装置包括：

第一获取模块，被配置为获取样本音频片段的训练数据组集合，其中，所述样本音频片段包括多个样本子音频片段，每个训练数据组包括所述样本子音频片段的频谱图和样本标签，每个样本标签为所述样本音频片段的开始时间点到每个样本子音频片段的结束时间点之间包括的词单元的长度信息累加得到；

16.一种语速检测装置，其特征在于，所述装置包括：

第四确定模块，被配置为将所述待检测音频片段的频谱图组输入语速检测模型的时间卷积模块中，确定每个待检测子音频片段i的第一向量，其中，所述语速检测模型是通过上述权利要求1-10中任一项所述的语速检测模型的训练方法训练得到的，每个待检测子音频片段i的第一向量根据待检测子音频片段i及前i-1个待检测子音频片段共同确定，i为大于或等于1的正整数；

17.一种计算设备，其特征在于，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，以实现上述权利要求1-10中任意一项所述的语速检测模型的训练方法，或者，以实现上述权利要求11-14中任意一项所述的语速检测方法。

18.一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现权利要求1-10中任意一项所述的语速检测模型的训练方法，或者，以实现上述权利要求11-14中任意一项所述的语速检测方法。