CN111159464A

CN111159464A - 一种音频片段的检测方法及相关设备

Info

Publication number: CN111159464A
Application number: CN201911399043.0A
Authority: CN
Inventors: 缪畅宇
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-12-26
Filing date: 2019-12-26
Publication date: 2020-05-15
Anticipated expiration: 2039-12-26
Also published as: CN111159464B

Abstract

本发明实施例公开了一种音频片段的检测方法，包括：接收对目标音频文件的音频片段检测请求，所述音频片段检测请求携带目标类别标识；将所述目标音频文件的音频特征和所述目标类别标识的类别向量输入至训练后的音频片段提取模型；其中，所述训练后的音频片段提取模型包括训练后的分类模型和训练后的回归模型；根据所述训练后的分类模型，对所述目标音频文件的音频特征进行检测，以判断所述目标音频文件对应的所有音频类别中是否存在所述类别向量对应的音频类别；若存在，则根据训练后的回归模型确定所述目标音频文件中所述类别向量对应的音频片段的起止信息。采用本发明，可以在音频文件中准确检测出目标类别标识的音频片段。

Description

一种音频片段的检测方法及相关设备

技术领域

本发明涉及计算机技术领域，尤其涉及一种音频片段的检测方法及相关设备。

背景技术

随着科学技术的发展，音频片段的检测技术得到快速发展，人们对于检测并获得一个音频文件中某一类别的音频片段的要求越来越高。通常来说，音频文件的组成很多样，从音频的音色组成来看，可以有打击乐、键盘乐、人声等，从音频的流程来看，可以有副歌、间奏、前奏等，从音频的人声声部来看，可以有男高音、女低音、男中音等。而现目前的技术中，对于一个训练模型，只能检测出音频文件中的一种类别的音频片段，不能用一个训练模型检测出音频文件中任意一种类别的音频片段，例如只能检测出男高音、女低音或男中音，不能检测出副歌、间奏或前奏，因此，如何用一个训练模型检测出音频文件中任意一种类别的音频片段是当前的研究热点。

发明内容

本发明实施例所要解决的技术问题在于，提供一种音频片段的检测方法，可以在音频文件中准确检测出目标类别标识的音频片段。

一方面，本发明实施例提供了一种音频片段的检测方法，包括：

接收对目标音频文件的音频片段检测请求，所述音频片段检测请求携带目标类别标识；

将所述音频文件的音频特征和所述目标类别标识的类别向量输入至训练后的音频片段提取模型，得到所述音频文件中所述类别向量对应的音频片段的起止信息；

根据所述起止信息确定所述音频片段。

另一方面，本发明实施例提供了一种音频片段的检测装置，包括：

接收单元，用于接收对目标音频文件的音频片段检测请求，所述音频片段检测请求携带目标类别标识；

处理单元，将所述目标音频文件的音频特征和所述目标类别标识的类别向量输入至训练后的音频片段提取模型；其中，所述训练后的音频片段提取模型包括训练后的分类模型和训练后的回归模型；

所述处理单元，还用于根据所述训练后的分类模型，对所述目标音频文件的音频特征进行检测，以判断所述目标音频文件对应的所有音频类别中是否存在所述类别向量对应的音频类别；

所述处理单元，还用于若所述目标音频文件对应的所有音频类别中存在所述类别向量对应的音频类别，则根据训练后的回归模型确定所述目标音频文件中所述类别向量对应的音频片段的起止信息；

所述处理单元，还用于根据所述起止信息确定所述音频片段。

相应的，本发明实施例提供了一种终端，包括：所述终端包括：存储器，所述存储器包括计算机可读指令；与所述存储器相连的处理器，所述处理器用于执行所述计算机可读指令，从而使得所述设备执行上述涉及的音频片段的检测方法。

相应的，本发明实施例提供了一种计算机可读存储介质，包括：所述计算机可读存储介质中存储有程序指令，所述程序指令被处理器执行时，实现上述涉及的音频片段的检测方法。

在本发明实施例中，接收对目标音频文件的音频片段检测请求，所述音频片段检测请求携带目标类别标识，将所述音频文件的音频特征和所述目标类别标识的类别向量输入至训练后的音频片段提取模型，根据训练后的音频片段提取模型中的训练后的分类模型和训练后的回归模型，得到所述音频文件中所述类别向量对应的音频片段的起止信息，根据所述起止信息确定所述音频片段；基于上述方式，能够在音频文件中准确检测出目标类别标识的音频片段，提高了检测的精准度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种示例性系统架构图；

图2是本发明实施例提供的一种音频片段的检测方法的框架图；

图3是本发明实施例提供的一个音频文件的示例频谱图；

图4是本发明实施例提供的一种音频片段的检测方法的示例图；

图5是本发明实施例提供的一种音频片段的检测方法的算法框架图；

图6是本发明实施例提供的一种音频片段的检测方法的流程示意图；

图7是本发明实施例提供的另一种音频片段的检测方法的流程示意图；

图8是本发明实施例提供的分布式系统应用于区块链系统的一个可选的结构示意图；

图9是本发明实施例提供的区块结构一个可选的示意图；

图10是本发明实施例提供的一种音频片段的检测装置的结构示意图；

图11是本发明实施例提供的一种终端设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1示出了可以应用本申请的音频片段的检测方法或音频片段的检测装置的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、网络102和服务器103。网络102用以在终端设备101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等。用户可以使用终端设备101通过网络102与服务器103交互，已接收或发送消息等。终端设备101上可以安装有各种应用，例如音乐播放类应用、图像处理类应用、社交类应用、搜索类应用。

终端设备101可以是硬件，也可以是软件。当终端设备101为硬件时，可以是具有显示屏的各种设备，包括但不限于智能手机、PC(Personal Computer，个人计算机)、笔记本电脑、PAD(平板电脑)、智能可穿戴设备等设备；当终端设备101为软件时，可以安装在上述所列举的设备中。终端设备101可以接收接收对目标音频文件的音频片段检测请求，所述音频片段检测请求携带目标类别标识；将所述目标音频文件的音频特征和所述目标类别标识的类别向量输入至训练后的音频片段提取模型，得到所述目标音频文件中所述类别向量对应的音频片段的起止信息；根据所述起止信息确定所述音频片段。

服务器103可以是提供各种服务的服务器，例如对终端设备101上安装的应用提供支持的后台服务器，服务器103可以接收对目标音频文件的音频片段检测请求，所述音频片段检测请求携带目标类别标识；将所述目标音频文件的音频特征和所述目标类别标识的类别向量输入至训练后的音频片段提取模型，得到所述目标音频文件中所述类别向量对应的音频片段的起止信息；根据所述起止信息确定所述音频片段。

需要说明的是，本发明实施例所提供的音频片段的检测方法可以由终端设备101执行，也可以由服务器103来执行，相应地，音频片段的检测装置可以设置于服务器103中，也可以设置在终端设备101中。可以理解的是，图1中的终端设备、网络和服务器的数目仅是示意性的，根据实际情况可以具有任意数目的终端设备、网络和服务器。

请参见图2，图2所示的是本发明实施例提供的一种音频片段的检测方法的框架图，该框架图中包括了目标音频文件、频谱图、目标类别标识、音频片段提取模型和音频片段。将目标音频文件变换后得到频谱图，然后将频谱图和目标类别标识一起输入到音频片段提取模型中，就可以获得目标音频文件中该目标类别标识对应的音频片段。

对于音频文件变换得到的频谱图请参见图3，图3所示的是一个音频文件的示例频谱图，其具体生成方法是：对该音频文件进行时间维度的采样，得到离散的时域序列，然后再按固定时间段进行组合，得到各组时域序列，将每组序列进行编号，例如可以是G1，G2、G3......以此类推，进而对每组时域序列进行频域处理，得到该音频文件的频域序列，根据时域序列和频域序列获得该音频文件的频谱图。需要说明的是，对音频文件变换成频谱图的算法可以包括：快速傅里叶变换(Fast Fourier Transform，FFT)算法、梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients，MFCCs)算法、离散傅里叶变换(DiscreteFourier Transform，DFT)算法。

请参见图4，图4所示的是音频片段提取模型中的一个训练样本的示例图，图4中的频谱图是选取的一个音频文件的频谱图，其中图中黑框框住的部分代表了一个类别名称标识在一个音频文件中对应的音频片段，该音频片段在该音频文件中对应的坐标位置是x1，x2，x1是开始位置，x2是结束位置，比如x1是1，x2是3，类别标识是前奏，也就是{G1，G2，G3}着三个序列拼接在一起，表示这是这个音频文件的前奏，假设这个音频文件的名字叫我爱你中国，那么，训练样本就是{X＝{我爱你中国，前奏}，Y＝{1，3}}，也就是输入的是音频文件和类别标识，输出的是起止信息。

请参见图5，图5所示的是本发明实施例提供的一种音频片段的检测方法的算法框架图，图5中所表示的是将一个音频文件变换得到的频谱图输入到特征提取模型中，特征提取模型提取频谱图的特征，同时将类别标识输入至文本编码器模型中，该文本编码器模型将该类别标识编码到一个固定维度的类别向量。然后将特征提取模型提取的频谱特征和文本编码器编码得到的类别向量输入至全连接网络中，经全连接网络输出之后，进行多任务学习，使得音频片段提取模型中的分类模型对音频文件的频谱特征进行检测，能够判断出音频文件对应的所有音频类别中是否存在类别向量对应的音频类别，如果音频文件对应的所有音频类别中存在类别向量对应的音频类别，则音频片段提取模型中的回归模型能够确定音频文件中类别向量对应的音频片段的起止信息。

其中，特征提取模型是一种提取音频文件频谱图的频谱特征的模型，该模型可以是卷积神经网络(Convolutional Neural Networks，CNN)、深度神经网络(Deep NeuralNetworks，DNN)、循环神经网络(Recurrent Neural Networks，RNN)或者其他可以提取音频文件频谱图特征的模型。文本编码器模型是一种将类别标识编码成一个固定维度类别向量的模型，固定维度是可以根据实际情况设置的，例如本发明实施例中将类别标识编码成一个二维的类别向量，当然可编码成其他维度的类别向量，本发明实施例不作限制。

需要说明的是，多任务学习指的是对音频片段提取模型进行的训练，音频片段提取模型可以包括分类模型和回归模型。其中，用来对音频片段提取模型进行训练的样本可以包括正样本数据和负样本数据，正样本数据指的是样本音频片段的类别标识与该样本音频片段的起止信息具有正确对应关系，负样本数据指的是样本音频片段的类别标识与该样本音频片段的起止信息具有错误对应关系。

举例来说，音频文件是《我爱你中国》，以该音频文件中的一个音频片段作为样本音频片段为例，对该样本音频片段进行了类别标识标注和起止信息标注，比如图4所示的{X＝{我爱你中国，前奏}，Y＝{1，3}}，将其作为正样本数据，也就是说在音频文件《我爱你中国》的频谱图中，类别标识为前奏的样本音频片段的起止信息是[1，3]这个向量，那么用该正样本数据对音频片段提取模型进行训练，使得分类模型输出是1，代表前奏这个类别标识在这个音频文件中存在，使得回归模型的输出是[1，3]这个向量，代表该样本音频片段的起止信息；另外，将{X＝{我爱你中国，副歌}，Y＝{1，3}}作为负样本数据，此时类别标识副歌与样本音频片段的起止信息具有错误对应关系，那么用该负样本数据对音频片段提取模型进行训练，使得分类模型输出是0，代表副歌这个类别标识不存在于这个音频文件中，使得回归模型输出[1，3]，代表该样本音频片段的起止信息是正确的；此外，{X＝{我爱你中国，前奏}，Y＝{7，11}}是负样本数据，此时类别标识前奏与样本音频片段的起止信息具有错误对应关系，那么用该负样本数据对音频片段提取模型进行训练，使得分类模型输出是1，代表前奏这个类别标识存在于这个音频文件中，使得回归模型输出默认值，代表该样本音频片段的起止信息是错误的，其中回归模型输出的默认值可以是音频文件的起始位置，也可以是任意设置的向量比如[0，100]、[0，50]或[0，200]等。可以理解的是，本发明实施例中的样本音频片段可以是任意音频文件中的任意类别标识的任意音频片段。

需要说明的是，本发明实施例中以多个正样本数据和负样本数据对音频片段提取模型进行训练，使得即便是只有类别标识或者只有起止信息是正确的，音频片段提取模型仍然能从输入的音频文件中找到相应的信息，对起止信息或类别标识进行预测。

具体的音频片段的检测方法请参见图6，图6所示的是本发明实施例提供的一种音频片段的检测方法的流程示意图，该方法的执行主体如上述提及的，其可以是终端设备101，也可以是服务器103。该音频片段的检测方法的具体步骤可以包括如下步骤S601～S603：

S601、接收对目标音频文件的音频片段检测请求，所述音频片段检测请求携带目标类别标识。

具体的，目标音频文件是用户输入的想要提取其音频片段的音频文件，其可以是用户任意指定的一个音频文件。目标类别标识指的是用户输入的任意音频片段的类别标识，其可以是前奏、副歌、男高音、女高音、人声、钢琴声、打击声等任意音频片段的类别标识中的任意一类。本发明实施例中，接收对目标音频文件的音频片段检测请求，该音频片段检测请求中携带了目标类别标识，使得能够触发后续音频片段检测的流程。

S602、将所述目标音频文件的音频特征和所述目标类别标识的类别向量输入至训练后的音频片段提取模型；其中，所述训练后的音频片段提取模型包括训练后的分类模型和训练后的回归模型。

具体来说，目标音频文件的音频特征指的是目标音频文件变换成频谱图后，特征提取器提取的该频谱图的频谱特征，目标类别标识的类别向量指的是用户输入的目标类别标识通过文本编码器进行编码成一个固定维度的类别向量，训练后的音频片段提取模型指的是通过大量的正样本数据和负样本数据进行训练的，能够得出目标音频文件中目标类别标识的类别向量对应的音频片段起止信息的模型。在本发明实施例中，训练后的音频片段提取模型可以包括训练后的分类模型和训练后的回归模型，将所述目标音频文件的音频特征和所述目标类别标识的类别向量输入至训练后的音频片段提取模型，以便于后续训练后的音频片段提取模型对目标音频文件的音频特征和所述目标类别标识的类别向量的处理。

603、根据所述训练后的分类模型，对所述目标音频文件的音频特征进行检测，以判断所述目标音频文件对应的所有音频类别中是否存在所述类别向量对应的音频类别。

具体的，目标音频文件中存在着各种音频类别以及该音频类别对应的起止信息。将所述目标音频文件的音频特征和所述目标类别标识的类别向量输入至训练后的音频片段提取模型，训练后的音频片段提取模型通过该模型中训练后的分类模型，对目标音频文件的音频特征进行检测，能够判断出目标音频文件对应的所有音频类别中是否存在目标类别标识的类别向量对应的音频类别，若存在则训练后的分类模型输出1，若不存在则训练后的分类模型输出0。

604、若所述目标音频文件对应的所有音频类别中存在所述类别向量对应的音频类别，则根据训练后的回归模型确定所述目标音频文件中所述类别向量对应的音频片段的起止信息。

具体来说，若训练后的分类模型输出1，则说明目标音频文件对应的所有音频类别中存在目标类别标识的类别向量对应的音频类别，此时则触发训练后的回归模型对目标音频文件中该类别向量对应的音频片段的起止信息进行确定，该起止信息可以是一个二维向量，例如[1，3]，其对应的目标音频文件中的具体的音频片段的起止信息。其中，回归模型确定出的起止信息可以是任意维度的向量，也可以是其他能够确定音频片段起止信息的信息。需要进行说明的是，本发明实施例中若分类模型对目标音频特征进行检测后，判断出目标音频文件对应的所有音频类别中并不存在该类别向量对应的音频类别，则训练后的回归模型并不需要进行算法操作，进一步节约系统资源，节省运行成本。

在一种实现方式中，所述将所述目标音频文件的音频特征和所述目标类别标识的类别向量输入至训练后的音频片段提取模型，得到所述目标音频文件中所述类别向量对应的音频片段的起止信息之前，还可以包括：获取样本音频文件的样本数据，所述样本数据包括的至少一个样本音频片段、各个所述样本音频片段的类别标识以及各个所述样本音频片段的起止信息；根据所述至少一个样本音频片段、所述各个所述样本音频片段的类别标识以及所述至少一个样本音频片段的起止信息，得到训练后的音频片段提取模型。

具体的，为得到训练后的音频片段提取模型，需要对该模型进行大量正样本数据和负样本数据的训练，如上述所提及的训练方式，选取多个音频文件作为样本音频文件，以其中一个样本音频文件为例，获取该样本音频的样本数据，该样本数据中包括至少一个样本音频片段，各个样本音频片段的类别标识以及各个样本音频片段的起止信息，将至少一个样本音频片段、各个所述样本音频片段的类别标识以及各个样本音频片段的起止信息输入该音频片段提取模型进行训练。需要说明的是，样本音频片段的类别标识与样本音频片段的起止信息具有正确对应关系的是正样本数据，样本音频片段的类别标识与样本音频片段起止信息具有错误对应关系的是负样本数据。

在一种实现方式中，所述样本音频文件的样本数据包括正样本数据和负样本数据，所述正样本数据的置信度高于负样本数据的置信度。

具体的，在统计学上，置信度也称为可靠度、置信水平、或置信系数。由于样本具有随机性，当利用抽样对总体参数作出估计时，所得出的结论总是不确定的。因此，可采用数理统计中的区间估计法来估计一个估计值与总体参数之间的误差在一定允许的范围以内的概率有多大，这个相应的概率即称作置信度。也就是说，在本发明实施例中，正样本数据中样本音频片段的类别标识与样本音频片段的起止信息具有对应关系的概率，大于负样本数据中样本音频片段的类别标识与样本音频片段的起止信息具有对应关系的概率。

S605、根据所述起止信息确定所述音频片段。

具体的，起止信息是指目标音频文件中目标类别标识的类别向量对应的音频片段的起止信息，即该类别向量对应的音频片段在目标音频文件中的开始与结束位置，例如可以是目标音频文件中的2s～16s、12s～27s、19s～35s等音频片段的起止信息。需要说明的是，该起止信息可以是一个二维向量，其对应的是目标音频文件中的具体的一个音频片段的起止信息。

在本发明实施例中，接收对目标音频文件的音频片段检测请求，所述音频片段检测请求携带目标类别标识，将所述目标音频文件的音频特征和所述目标类别标识的类别向量输入至训练后的音频片段提取模型，使得训练后的分类模型能够判断出目标音频文件对应的所有音频类别中是否存在该类别向量对应的音频类别，若存在，则根据训练后的回归模型确定出目标音频文件中该类别向量对应的音频片段的起止信息，进而根据所述起止信息确定音频片段，从而可以实现在目标音频文件中准确得出目标类别标识的音频片段的起止信息，并根据起止信息精准检测出目标类别标识的音频片段。

请参见图7，图7所示的是本发明实施例提供的另一种音频片段的检测方法的流程示意图，该方法的执行主体如上述提及的，其可以是终端设备101，也可以是服务器103。该音频片段的检测方法的具体步骤可以包括如下步骤S701～S706：

S701、接收对目标音频文件的音频片段检测请求，所述音频片段检测请求携带目标类别标识。

需要说明的是，本发明实施例中的的步骤S701具体可参见上述实施例中步骤S601，本发明实施例不再赘述。

S702、获取所述目标音频文件的频谱图。

其中，目标音频文件的频谱图是通过获取目标音频文件的时域序列，再将该时域序列进行频域处理后得到目标音频文件的频域序列，根据时域序列和频域序列，得到的目标音频文件的频谱图。

在一种实现方式中，所述获取所述目标音频文件的频谱图，可以包括：获取所述目标音频文件的时域序列；对所述时域序列进行频域处理，得到所述目标音频文件的频域序列；根据所述时域序列和所述频域序列，获得所述目标音频文件的频谱图，所述频谱图包括多个频谱序列。

具体的，目标音频文件变换得到频谱图的算法，如上述所提及的可以包括但不限于快速傅里叶变换算法、梅尔频率倒谱系数算法、离散傅里叶变换算法，其具体的算法可以是对目标音频文件进行时间维度的采样，比如每隔0.1s采样一个音频信号，得到离散的时域序列T1～Tn，每个值代表音频在该采样点上的大小，然后再按固定时间段(比如3s)进行组合，比如时间段长度为3s采样间隔0.1s，那每组序列就包含了3s/0.1s＝30个值，比如T1～T30就是一组，假设叫G1，T31～T60就是G2，依次类推。接着对每组时域序列进行频域处理，将得到频率信号，代表一组时域序列里面包含的不同频率的分布，对频率信号也进行采样，比如10hz，就得到一个离散的频域序列，最后根据时域序列和频域序列获得目标音频文件的频谱图，在该频谱图中包括了多个频谱序列。

S703、根据特征提取模型，对所述频谱图进行检测，得到所述目标音频文件的音频特征。

具体来说，特征提取模型是一种对输入的音频文件的频谱图的音频特征进行提取的模型，该模型如上述所示，可以是卷积神经网络(Convolutional Neural Networks，CNN)、深度神经网络(Deep Neural Networks，DNN)、循环神经网络(Recurrent NeuralNetworks，RNN)中的任意一种，当然该模型不限于这三种，其可以是能够对音频文件的频谱图的音频特征进行提取的任意模型。本发明实施例中，特征提取模型则首先对该频谱图进行检测，进而提取该频谱图的频谱特征作为目标音频文件的音频特征，使得训练后的音频片段提取模型能对该音频特征进行检测，进行后续的算法操作。

S704、根据文本编码器模型，对所述目标类别标识进行检测，得到所述目标类别标识的类别向量。

具体的，文本编码器模型是一个将目标类别标识经过处理后编码成一个固定维度向量的模型。举例来说，输入的目标类别标识是“前奏”，由于机器不是人，其只能识别出数字语言，并不能识别出“前奏”这个自然语言，此时则需要经过文本编码器将“前奏”转换成机器能读懂的向量；通常来说，经过文本编码器处理后的向量维度不高，本发明实施例中，将目标类别标识经过文本编码器处理后，编码到一个固定维度的类别向量，例如可以是四维类别向量，便于后续音频片段处理模型对其进行算法操作。需要说明的是，固定维度是可以任意设置的值，本发明实施例不作限制。

S705、将所述目标音频文件的音频特征和所述目标类别标识的类别向量输入至训练后的音频片段提取模型，得到所述目标音频文件中所述类别向量对应的音频片段的起止信息。

具体来说，目标音频文件的音频特征指的是目标音频文件变换成频谱图后，特征提取器提取的该频谱图的频谱特征，目标类别标识的类别向量指的是用户输入的目标类别标识通过文本编码器进行编码成一个固定维度的类别向量，训练后的音频片段提取模型指的是通过大量的正样本数据和负样本数据进行训练的，能够得出目标音频文件中目标类别标识的类别向量对应的音频片段起止信息的模型。在本发明实施例中，将目标音频文件的音频特征和目标类别标识的类别向量输入至训练后的音频片段提取模型，根据训练后的分类模型和训练后的回归模型就能够得到目标音频文件中目标类别标识的类别向量对应的音频片段的起止信息，当然，若目标音频文件对应的所有音频类别中不存在目标类别标识的类别向量，则不会得出该目标类别标识的类别向量对应的音频片段的起止信息。

S706、根据所述起止信息确定所述音频片段。

需要说明的是，本发明实施例中的的步骤S706具体可参见上述实施例中步骤S605，本发明实施例不再赘述。

在本发明实施例中，接收对目标音频文件的音频片段检测请求，该请求中携带了目标类别标识；获取目标音频文件的频谱图，根据特征提取模型，提取目标音频文件的音频特征，同时，根据文本编码器模型，将目标类别标识编码成一个类别向量，使得将目标音频文件的音频特征和类别向量输入到训练后的音频片段提取模型时，更加容易被识别出；进而将目标音频文件的音频特征和目标类别标识的类别向量输入到训练后的音频片段提取模型中，使得训练后的音频片段提取模型，能够得到所述音频文件中所述类别向量对应的音频片段的起止信息，进而根据所述起止信息确定音频片段；基于上述方式，可以在音频文件中准确检测出目标类别标识的音频片段。

本发明实施例涉及的系统可以是由客户端、多个节点(接入网络中的任意形式的计算设备，如服务器、用户终端)通过网络通信的形式连接形成的分布式系统。

以分布式系统为区块链系统为例，参见图8，图8是本发明实施例提供的分布式系统800应用于区块链系统的一个可选的结构示意图，由多个节点801(接入网络中的任意形式的计算设备，如服务器、用户终端)和客户端802形成，节点之间形成组成的点对点(P2P，Peer To Peer)网络，P2P协议是一个运行在传输控制协议(TCP，Transmission ControlProtocol)协议之上的应用层协议。在分布式系统中，任何机器如服务器、终端设备都可以加入而成为节点，节点包括硬件层、中间层、操作系统层和应用层。

参见图8示出的区块链系统中各节点的功能，涉及的功能包括：

1)路由，节点具有的基本功能，用于支持节点之间的通信。

节点除具有路由功能外，还可以具有以下功能：

2)应用，用于部署在区块链中，根据实际业务需求而实现特定业务，记录实现功能相关的数据形成记录数据，在记录数据中携带数字签名以表示任务数据的来源，将记录数据发送到区块链系统中的其他节点，供其他节点在验证记录数据来源以及完整性成功时，将记录数据添加到临时区块中。

例如，应用实现的业务包括：

2.1)钱包，用于提供进行电子货币的交易的功能，包括发起交易(即，将当前交易的交易记录发送给区块链系统中的其他节点，其他节点验证成功后，作为承认交易有效的响应，将交易的记录数据存入区块链的临时区块中；当然，钱包还支持查询电子货币地址中剩余的电子货币；

2.2)共享账本，用于提供账目数据的存储、查询和修改等操作的功能，将对账目数据的操作的记录数据发送到区块链系统中的其他节点，其他节点验证有效后，作为承认账目数据有效的响应，将记录数据存入临时区块中，还可以向发起操作的节点发送确认。

2.3)智能合约，计算机化的协议，可以执行某个合约的条款，通过部署在共享账本上的用于在满足一定条件时而执行的代码实现，根据实际的业务需求代码用于完成自动化的交易，例如查询买家所购买商品的物流状态，在买家签收货物后将买家的电子货币转移到商户的地址；当然，智能合约不仅限于执行用于交易的合约，还可以执行对接收的信息进行处理的合约。

3)区块链，包括一系列按照产生的先后时间顺序相互接续的区块(Block)，新区块一旦加入到区块链中就不会再被移除，区块中记录了区块链系统中节点提交的记录数据。

参见图9，图9是本发明实施例提供的区块结构(Block Structure)一个可选的示意图，每个区块中包括本区块存储交易记录的哈希值(本区块的哈希值)、以及前一区块的哈希值，各区块通过哈希值连接形成区块链。另外，区块中还可以包括有区块生成时的时间戳等信息。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了相关的信息，用于验证其信息的有效性(防伪)和生成下一个区块。

基于上述音频片段检测方法的实施例的描述，本发明实施例还提供了一种音频片段的检测装置，该装置可以执行图6和图7的所示的方法。请参见图10，图10所示的音频片段的检测装置可以运行如下单元：

接收单元1001，用于接收对目标音频文件的音频片段检测请求，所述音频片段检测请求携带目标类别标识；

处理单元1002，用于将所述目标音频文件的音频特征和所述目标类别标识的类别向量输入至训练后的音频片段提取模型；其中，所述训练后的音频片段提取模型包括训练后的分类模型和训练后的回归模型；

所述处理单元1002，还用于根据所述训练后的分类模型，对所述目标音频文件的音频特征进行检测，以判断所述目标音频文件对应的所有音频类别中是否存在所述类别向量对应的音频类别；

所述处理单元1002，还用于若所述目标音频文件对应的所有音频类别中存在所述类别向量对应的音频类别，则根据训练后的回归模型确定所述目标音频文件中所述类别向量对应的音频片段的起止信息；

所述处理单元1002，还用于根据所述起止信息确定所述音频片段。

在一种实现方式中，处理单元1002根据特征提取模型，对所述目标音频文件进行检测，得到所述目标音频文件的音频特征。

在一种实现方式中，处理单元1002根据特征提取模型，对所述目标音频文件进行检测，得到所述目标音频文件的音频特征可以包括：获取所述目标音频文件的频谱图；根据特征提取模型，对所述频谱图进行检测，得到所述目标音频文件的音频特征。

在一种实现方式中，处理单元1002获取所述目标音频文件的频谱图，可以包括：获取所述目标音频文件的时域序列；对所述时域序列进行频域处理，得到所述目标音频文件的频域序列；根据所述时域序列和所述频域序列，获得所述目标音频文件的频谱图，所述频谱图包括多个频谱序列。

在一种实现方式中，处理单元1002将所述目标音频文件的音频特征和所述目标类别标识的类别向量输入至训练后的音频片段提取模型之前，还可以包括：根据文本编码器模型，对所述目标类别标识进行检测，得到所述目标类别标识的类别向量。

在一种实现方式中，处理单元1002将所述目标音频文件的音频特征和所述目标类别标识的类别向量输入至训练后的音频片段提取模型之前，还可以包括：获取样本音频文件的样本数据，所述样本数据包括的至少一个样本音频片段、各个所述样本音频片段的类别标识以及各个所述样本音频片段的起止信息；根据所述至少一个样本音频片段、所述各个所述样本音频片段的类别标识以及各个所述样本音频片段的起止信息，得到训练后的音频片段提取模型。

可以理解的是，本发明实施例中各个功能模块的具体实现可参考前述方法项实施例的相关描述，在此不赘述。

在本发明实施例中，接收对目标音频文件的音频片段检测请求，所述音频片段检测请求携带目标类别标识，将所述音频文件的音频特征和所述目标类别标识的类别向量输入至训练后的音频片段提取模型，根据训练后的音频片段提取模型中的训练后的分类模型和训练后的回归模型，得到所述音频文件中所述类别向量对应的音频片段的起止信息，根据所述起止信息确定所述音频片段，从而能够在音频文件中准确检测出目标类别标识的音频片段，提高了检测的精准度。

基于上述方法实施例以及装置实施例的描述，再请参见图11，图11为本发明实施例提供的一种终端设备的结构示意图。该终端设备包括处理器1101、存储器1102以及接收器1103，所述处理器1101、所述存储器1102以及所述接收器1103通过一条或多条通信总线连接。

处理器1101被配置为支持终端设备执行图6、图7所述方法中音频片段检测装置相应的功能。该处理器1101可以是中央处理器(centralprocessingunit，CPU)，网络处理器(networkprocessor，NP)，硬件芯片或者其任意组合。

存储器1102用于存储程序代码等。存储器1102可以包括易失性存储器(volatilememory)，例如随机存取存储器(randomaccessmemory，RAM)；存储器1102也可以包括非易失性存储器(non-volatilememory)，例如只读存储器(read-onlymemory，ROM)，快闪存储器(flashmemory)，硬盘(harddiskdrive，HDD)或固态硬盘(solid-statedrive，SSD)；存储器1102还可以包括上述种类的存储器的组合。

在本发明实施例中，接收器1103用于接收数据，该处理器1101可以调用存储器1102中存储的程序代码执行相应操作，具体如下：

接收器1103接收对目标音频文件的音频片段检测请求，所述音频片段检测请求携带目标类别标识；

处理器1101将所述目标音频文件的音频特征和所述目标类别标识的类别向量输入至训练后的音频片段提取模型；其中，所述训练后的音频片段提取模型包括训练后的分类模型和训练后的回归模型；

处理器1101根据所述训练后的分类模型，对所述目标音频文件的音频特征进行检测，以判断所述目标音频文件对应的所有音频类别中是否存在所述类别向量对应的音频类别；

若所述目标音频文件对应的所有音频类别中存在所述类别向量对应的音频类别，则处理器1101根据训练后的回归模型确定所述目标音频文件中所述类别向量对应的音频片段的起止信息；

处理器1101根据所述起止信息确定所述音频片段。

在一种实现方式中，处理器1101根据特征提取模型，对所述目标音频文件进行检测，得到所述目标音频文件的音频特征。

在一种实现方式中，处理器1101根据特征提取模型，对所述目标音频文件进行检测，得到所述目标音频文件的音频特征可以包括：获取所述目标音频文件的频谱图；根据特征提取模型，对所述频谱图进行检测，得到所述目标音频文件的音频特征。

在一种实现方式中，处理器1101获取所述目标音频文件的频谱图，可以包括：获取所述目标音频文件的时域序列；对所述时域序列进行频域处理，得到所述目标音频文件的频域序列；根据所述时域序列和所述频域序列，获得所述目标音频文件的频谱图，所述频谱图包括多个频谱序列。

在一种实现方式中，处理器1101将所述目标音频文件的音频特征和所述目标类别标识的类别向量输入至训练后的音频片段提取模型之前，还可以包括：根据文本编码器模型，对所述目标类别标识进行检测，得到所述目标类别标识的类别向量。

在一种实现方式中，处理器1101将所述目标音频文件的音频特征和所述目标类别标识的类别向量输入至训练后的音频片段提取模型之前，还可以包括：获取样本音频文件的样本数据，所述样本数据包括的至少一个样本音频片段、各个所述样本音频片段的类别标识以及各个所述样本音频片段的起止信息；根据所述至少一个样本音频片段、所述各个所述样本音频片段的类别标识以及各个所述样本音频片段的起止信息，得到训练后的音频片段提取模型。

可以理解的是，本发明实施例中所述的具体实现可参考前述方法项实施例的相关描述，在此不赘述。

本发明实施例还提供一种计算机可读存储介质，可以用于存储图6和图7所示实施例中终端所用的计算机软件指令，其包含用于执行上述实施例中为终端所设计的程序。

上述计算机可读存储介质包括但不限于快闪存储器、硬盘、固态硬盘。

本领域普通技术人员可以意识到，结合本申请中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(SolidStateDisk，SSD))等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种音频片段的检测方法，其特征在于，包括：

将所述目标音频文件的音频特征和所述目标类别标识的类别向量输入至训练后的音频片段提取模型；其中，所述训练后的音频片段提取模型包括训练后的分类模型和训练后的回归模型；

根据所述训练后的分类模型，对所述目标音频文件的音频特征进行检测，以判断所述目标音频文件对应的所有音频类别中是否存在所述类别向量对应的音频类别；

若所述目标音频文件对应的所有音频类别中存在所述类别向量对应的音频类别，则根据训练后的回归模型确定所述目标音频文件中所述类别向量对应的音频片段的起止信息；

根据所述起止信息确定所述音频片段。

2.根据权利要求1所述的方法，其特征在于，所述将所述目标音频文件的音频特征和所述目标类别标识的类别向量输入至训练后的音频片段提取模型之前，还包括：

根据特征提取模型，对所述目标音频文件进行检测，得到所述目标音频文件的音频特征。

3.根据权利要求2所述的方法，其特征在于，所述根据特征提取模型，对所述目标音频文件进行检测，得到所述目标音频文件的音频特征，包括：

获取所述目标音频文件的频谱图；

根据特征提取模型，对所述频谱图进行检测，得到所述目标音频文件的音频特征。

4.根据权利要求3所述的方法，其特征在于，所述获取所述目标音频文件的频谱图，包括：

获取所述目标音频文件的时域序列；

对所述时域序列进行频域处理，得到所述目标音频文件的频域序列；

根据所述时域序列和所述频域序列，获得所述目标音频文件的频谱图，所述频谱图包括多个频谱序列。

5.根据权利要求1所述的方法，其特征在于，所述将所述目标音频文件的音频特征和所述目标类别标识的类别向量输入至训练后的音频片段提取模型之前，还包括：

根据文本编码器模型，对所述目标类别标识进行检测，得到所述目标类别标识的类别向量。

6.根据权利要求1所述的方法，其特征在于，所述将所述目标音频文件的音频特征和所述目标类别标识的类别向量输入至训练后的音频片段提取模型之前，还包括：

获取样本音频文件的样本数据，所述样本数据包括的至少一个样本音频片段、各个所述样本音频片段的类别标识以及各个所述样本音频片段的起止信息；

根据所述至少一个样本音频片段、所述各个所述样本音频片段的类别标识以及各个所述样本音频片段的起止信息，得到训练后的音频片段提取模型。

7.根据权利要求6所述的方法，其特征在于，所述样本音频文件的样本数据包括正样本数据和负样本数据，所述正样本数据的置信度高于负样本数据的置信度。

8.一种音频片段的检测装置，其特征在于，包括：

处理单元，用于将所述目标音频文件的音频特征和所述目标类别标识的类别向量输入至训练后的音频片段提取模型；其中，所述训练后的音频片段提取模型包括训练后的分类模型和训练后的回归模型；

9.一种终端，其特征在于，所述终端包括：

存储器，所述存储器包括计算机可读指令；

与所述存储器相连的处理器，所述处理器用于执行所述计算机可读指令，从而使得所述设备执行权利要求1～7任一项所述的音频片段的检测方法。

10.一种计算机可读存储介质，其特征在于，包括：所述计算机可读存储介质中存储有程序指令，所述程序指令被处理器执行时，实现如权利要求1-7任一项所述的音频片段的检测方法。