CN112667844A

CN112667844A - 检索音频的方法、装置、设备和存储介质

Info

Publication number: CN112667844A
Application number: CN202011540312.3A
Authority: CN
Inventors: 陈洲旋; 赵伟峰
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2020-12-23
Filing date: 2020-12-23
Publication date: 2021-04-16

Abstract

本申请公开了一种检索音频的方法、装置、设备和存储介质，属于机器学习技术领域。该方法包括：获取第一音频；基于预先训练的分类模型，确定第一音频的类别，其中，类别包括第一类别或第二类别，第一类别用于指示第一音频中的噪声音频与人声音频的音量关系满足预设条件，第二类别用于指示第一音频中的噪声音频与人声音频的音量关系不满足预设条件；如果第一音频的类别为第一类别，则检索与第一音频相匹配的第二音频；如果第一音频的类别为第二类别，则控制输出检索失败提示信息。本申请可以节省对噪声较大的音频进行检索的过程，以及用户对检索结果中的歌曲音频逐一播放和听取的过程，进而节省了上述过程的时间。

Description

检索音频的方法、装置、设备和存储介质

技术领域

本申请涉及机器学习技术领域，特别涉及一种检索音频的方法、装置、设备和存储介质。

背景技术

随着信息技术和网络技术的发展，音乐库规模呈几何级数增长，音乐歌曲的快速检索也成为新的研究热点。传统的音乐检索方法主要基于文本关键字检索，根据用户输入的歌曲名、歌手、流派、歌词等文本信息进行相关歌曲音频检索。为了方便用户进行检索，一种新的音乐检索方法应运而生，该方法可以通过对用户哼唱出的音频进行检索，进而在用户无法提供确切的歌曲名、歌手等文本信息的情况下，在音乐库中检索出相应的歌曲音频。

在相关技术中，用户启动音乐应用程序，在终端上显示音乐应用程序的主界面。当用户点击主界面上的哼唱检索按钮时，终端接收到录制哼唱音频的指令，开始录制哼唱音频。当终端录制完哼唱音频时，终端将录制完成的哼唱音频发送给服务器。服务器接收录制完成的哼唱音频，基于录制的哼唱音频进行检索，获得与哼唱音频相匹配的歌曲音频，一般为相似度超过某阈值的歌曲音频，并将这些歌曲音频发送给终端。终端在获得这些歌曲音频之后，将这些歌曲音频展示在终端上。用户可以通过在终端上播放这些歌曲音频，来找到符合用户需求的歌曲音频。

在实现本申请的过程中，发明人发现相关技术至少存在以下问题：

当某一音频所包含的噪声较大时，基于该音频获得的检索结果很可能不包含符合用户需求的歌曲音频，而用户却会对该检索结果中的多个歌曲音频进行逐一播放和听取，以便在该检索结果中找到符合用户需求的歌曲音频。当用户没有在该检索结果中找到符合用户需求的歌曲音频时，用户会重新录制哼唱音频，并基于重新录制的哼唱音频进行检索。因此，对噪声较大的音频进行检索的过程，以及用户对该检索结果中歌曲音频逐一播放却得不到用户想寻找的歌曲音频的过程都会极大的浪费用户的时间。

发明内容

本申请实施例提供了一种检索音频的方法、装置、设备和存储介质,能够解决对噪声较大的音频进行检索的过程，以及用户对基于噪声较大的音频获得的检索结果逐一播放和听取的过程，浪费用户的时间的问题。所述技术方案如下：

第一方面，本申请实施例提供了一种检索音频的方法，所述方法包括：

获取第一音频；

基于预先训练的分类模型，确定所述第一音频的类别，其中，所述类别包括第一类别或第二类别，所述第一类别用于指示所述第一音频中的噪声音频与人声音频的音量关系满足预设条件，所述第二类别用于指示所述第一音频中的噪声音频与人声音频的音量关系不满足预设条件；

如果所述第一音频的类别为第一类别，则检索与所述第一音频相匹配的第二音频；

如果所述第一音频的类别为第二类别，则控制输出检索失败提示信息。

可选的，所述基于预先训练的分类模型，确定所述第一音频的类别，包括：

筛选出所述第一音频中音量值大于预设音量值的目标音频段；

获得每个目标音频段的音高线；

将每个目标音频段的音高线输入预先训练的分类模型，输出所述第一音频的类别。

可选的，所述预先训练的分类模型包括转换模块、自注意学习模块、子分类模块以及处理模块；所述将每个目标音频段的音高线输入预先训练的分类模型，输出所述第一音频的类别，包括：

将每个目标音频段的音高线输入预先训练的分类模型中的转换模块，得到每个目标音频段维度对齐后的音高序列；

将每个目标音频段维度对齐后的音高序列输入预先训练的分类模型中的自注意学习模块，得到每个目标音频段权重调整后的音高序列；

将每个目标音频段权重调整后的音高序列输入预先训练的分类模型中的子分类模块，得到每个目标音频段的类别；

将每个目标音频段的类别输入所述预先训练的分类模型中的处理模块，得到所述第一音频的类别。

可选的，所述将每个目标音频段的类别输入所述预先训练的分类模型中的处理模块，得到所述第一音频的类别，包括：

将每个目标音频段的类别输入所述预先训练的分类模型中的处理模块，以使所述处理模块基于每个目标音频段的类别和每个目标音频段的时长，确定出每个类别的总时长并将对应总时长最长的类别确定为所述第一音频的类别。

可选的，所述检索与所述第一音频相匹配的第二音频，包括：

基于每个目标音频段的音高线，检索与第一音频相匹配的第二音频。

可选的，所述基于每个目标音频段的音高线，检索与第一音频相匹配的第二音频，包括：

对于每个目标音频段的音高线，在预先存储的各音频的基准音高线中，确定与所述目标音频段的音高线满足匹配条件的多个基准音高线，得到所述目标音频段的至少一个基准音高线；

在所有目标音频段的基准音高线中，确定出现次数最多的目标基准音高线；

将所述目标基准音高线的音频，确定为与所述第一音频相匹配的第二音频。

将所述第一音频段除所述目标音频段之外的其它音频段的音高线设置为0；

基于每个目标音频段和其他音频段的音高线，检索与第一音频相匹配的第二音频。

将所述目标音频段输入预先训练的分类模型，输出所述第一音频的类别。

可选的，所述预先训练的分类模型包括特征提取模块、自注意学习模块、子分类模块以及处理模块；所述将所述目标音频段输入预先训练的分类模型，输出所述第一音频的类别，包括：

将所述目标音频段输入所述预先训练的分类模型中的特征提取模块，获得目标音频段对应的特征信息；

将所述特征信息输入所述预先训练的分类模型中的自注意学习模块，输出经过权重调整后的特征信息；

将每个所述经过权重调整后的特征信息输入所述预先训练的分类模型中的子分类模块，输出每个目标音频段的类别；

第二方面，本申请实施例提供了一种检索音频的装置，所述装置包括：

获取模块，被配置为获取第一音频；

确定模块，被配置为基于预先训练的分类模型，确定所述第一音频的类别，其中，所述类别包括第一类别或第二类别，所述第一类别用于指示所述第一音频中的噪声音频与人声音频的音量关系满足预设条件，所述第二类别用于指示所述第一音频中的噪声音频与人声音频的音量关系不满足预设条件；

检索模块，被配置为如果所述第一音频的类别为第一类别，则检索与所述第一音频相匹配的第二音频；

提示模块，被配置为如果所述第一音频的类别为第二类别，则控制输出检索失败提示信息。

可选的，所述确定模块，被配置为：

获得每个目标音频段的音高线；

可选的，所述预先训练的分类模型包括转换模块、自注意学习模块、子分类模块以及处理模块；所述确定模块，被配置为：

可选的，所述确定模块，被配置为：

可选的，所述检索模块，被配置为：

可选的，所述确定模块，被配置为：

可选的，所述预先训练的分类模型包括特征提取模块、自注意学习模块、子分类模块以及处理模块；所述确定模块，被配置为：

第三方面，本申请实施例提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如第一方面所述的检索音频的方法所执行的操作。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如第一方面所述的检索音频的方法所执行的操作。

本申请实施例提供的技术方案带来的有益效果是：

本申请实施例提供的方法通过预先训练的分类模型，来检测第一音频的类别；当第一音频的类别为第一类别时，确定第一音频所包含的噪声较小，可以基于第一音频进行检索，并检索出与第一音频相匹配的第二音频。当第一音频的类别为第二类别时，确定第二音频所包含的噪声较大，控制输出检索失败提示信息。在本申请中，当第一音频的类别为第一类别时，基于第一音频获得的检索结果的准确率较高，用户可以快速的在检索结果中找到符合自己需求的歌曲音频；当第一音频的类别为第二类别时，由于其检索的准确度不高，因此不对第一音频进行检索，从而省略了对噪声较大的音频进行检索的过程，以及用户对基于噪声较大的音频获得的检索结果逐一播放和听取却得不到其想寻找的歌曲音频的过程，从而节省了上述过程的时间。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种检索音频的实施环境示意图；

图2是本申请实施例提供的一种检索音频的方法流程图；

图3是本申请实施例提供的一种检索音频的示意图；

图4是本申请实施例提供的一种检索音频的示意图；

图5是本申请实施例提供的一种检索音频的示意图；

图6是本申请实施例提供的一种检索音频的装置结构示意图；

图7是本申请实施例提供的一种终端的结构示意图；

图8是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

图1是本申请实施例提供的一种检索音频的实施环境示意图，如图1所示，该实施环境可以包括：服务器101和终端102。

服务器101可以是一台服务器，也可以是多台服务器组成的服务器集群。服务器101可以是云计算平台和虚拟化中心中的至少一种，本申请实施例对此不做限定。服务器101可以用于接收终端发送的检索请求，该检索请求中携带有第一音频，也可以用于检索出第一音频相匹配的第二音频。当然，该服务器101还可以包括其他功能服务器，以便提供更加全面且多样化的服务。

终端102可以是智能手机、游戏主机、台式计算机、平板电脑、MP3(Moving PictureExperts Group Audio Layer III，动态影像专家压缩标准音频层面3)播放器、MP4(MovingPicture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器和膝上型便携计算机中的至少一种。终端102通过有线网络或无线网络与服务器101相连，终端102安装和运行有可以基于录制的音频进行检索的应用程序。终端102可以用于在接收到用户触发的第一音频的录制指令之后，录制第一音频；还可以用于确定第一音频的类别；还可以用于当检测到第一音频的类别为第一类别时，向服务器发送检索请求；还可以用于当检测到第一音频的类别为第二类别时，控制输出检索失败提示信息。

本申请实施例提供的方法可以应用于音乐应用程序，也可以应用于其他检索音频的应用程序。以音乐应用程序为例，用户在终端上打开音乐应用程序，终端上显示音乐应用程序的主界面。当用户在音乐应用程序的主界面上点击检索哼唱音频的按钮时，终端接收到录制指令，开始录制用户的哼唱音频。当终端录制完用户的哼唱音频时，终端上预先设置的分类模型对哼唱音频进行识别，确定该哼唱音频的类别。当哼唱音频的类别为第一类别时，终端向服务器发送携带有哼唱音频的检索请求。当服务器接收到终端发送的检索请求时，服务器获取检索请求中的哼唱音频，并检索出与哼唱音频相匹配的歌曲音频，将检索出的歌曲音频的歌曲标识作为检索结果发送给终端，其中，检索出的歌曲音频一般为多个。当终端接收到服务器发送的检索结果时，将检索结果中的多个歌曲标识显示在终端的界面上。当哼唱音频的类别为第二类别时，终端可以在终端的显示界面上显示检索失败的提示信息，以便提醒用户重新录制哼唱音频。在本申请中，当哼唱音频的类别为第一类别时，基于该哼唱音频获得的检索结果的准确率较高，用户可以快速地在检索结果中找到符合自己需求的歌曲音频。当第一音频的类别为第二类别时，由于检索的准确度不高，不对第一音频进行检索，省略了对噪声较大的音频进行检索的过程以及用户对检索结果逐一播放歌曲音频的过程，从而节省了用户的时间。

本申请实施例提供了一种检索音频的方法，以图2所示的本申请实施例提供的一种检索音频的方法流程图为例进行说明。如图2所示，该方法包括下述步骤：

步骤201，获取第一音频。

其中，第一音频为用户哼唱的音频。

在实施中，在用户开启终端的音乐应用程序后，终端显示音乐应用程序的主界面。当用户点击主界面上的音频检索按钮时，终端接收到音频检索指令，开始录制用户哼唱的音频。在终端录制完用户哼唱的音频时，得到第一音频。

或者，用户开启音乐应用程序，终端显示音乐应用程序的主界面。用户可以点击主界面上的检索入口，并显示音频检索界面。在该音频检索界面上，用户可以点击音频检索界面上的录制按钮。在终端接收到录制指令后，终端开始录制用户哼唱的音频。当终端录制完用户哼唱的音频时，终端得到第一音频。

步骤202，基于预先训练的分类模型，确定第一音频的类别。

其中，第一音频的类别包括第一类别或第二类别，第一类别用于指示第一音频中的噪声音频与人声音频的音量关系满足预设条件，第二类别用于指示第一音频中的噪声音频与人声音频的音量关系不满足预设条件。需要说明的是，预设关系是通过机器学习获得的，预设关系如噪声音频和人声音频的音量大小关系，不同的音频的预设关系可能是相同的也可能不同。本申请提供了如下几种确定第一音频的类别的方式，具体如下：

1、确定第一音频类型的第一种实现方式。

筛选出第一音频中音量值大于预设音量值的目标音频段；获得目标音频段的音高线；将目标音频段的音高线输入预先训练的分类模型以得到第一音频的类别。

其中，预设音量值可以是由技术人员预先设置且固定的音量值，例如，-60分贝。或者也可以根据第一音频的实际情况而设置，即确定第一音频中每个音频帧对应的音量值，将第一音频中每个音频帧对应的音量值进行相加，并除以第一音频包含的音频帧数获得第一音频对应的平均音量，将平均音量值和预先设置的比例相乘确定出第一音频的预设音量值。

由于人在哼唱歌曲时会存在停顿，在停顿时间内只会对该时间间隔内的噪声进行录制，因此在实施中，获取到第一音频中每个音频帧的音量值，针对每个音频帧的音量值，过滤掉音量值低于预设音量值的音频帧(即只含有噪声的音频帧)，并基于过滤后的每个音频帧以及过滤后的每个音频帧对应的时间，将时间上相邻的音频帧进行相连，从而获得至少一个目标音频段。然后，对脉冲编码PCM格式的目标音频段进行采样，获取到各个音频帧的音高值，并对音频帧的音高值进行平滑处理，将音高在1个半音内音高值进行连接，获取到目标音频段的音高线。将每个目标音频段的音高线输入到预先训练的分类模型，输出第一音频的类别。需要说明的是，目标音频段的音高线包括多个在1个半音内音高值形成的音高线。

然后，基于每个目标音频段的音高线与预先训练的分类模型中的子分类模块得到每个目标音频段的类别；基于每个目标音频段的类别和每个目标音频段的时长确定出每个类别的总时长；将对应总时长最长的类别确定为第一音频的类别。

确定目标音频段的类别时可以将各个目标音频段的音高序列的维度进行对齐。具体地，根据每个目标音频段的音高线，得到每个目标音频段对应的音高序列。音高序列可以认为向量，音高序列的维度可以为向量的长度。如果每个目标音频段对应的音高序列的维度不同，则对每个目标音频段对应的音高序列进行处理，处理后的各个目标音频段的音高序列维度相同，即得到每个目标音频段维度对齐后的音高序列。将每个目标音频段对应的维度对齐后的音高序列输入预先训练的分类模型中的子分类模型中，输出每个目标音频段的类别。如果每个目标音频段对应的音高序列的维度相同，则直接输入到预先训练的分类模型中的子分类模型中，输出每个目标音频段的类别。

需要说明的是，在本申请实施例中，将分类模型划分为转换模块、子分类模块和处理模块。转换模块用于确定每个目标音频段的音高序列，并对每个音高序列进行处理获得维度对齐后的音高序列，其中每个维度对齐后的音高序列的维度相同。子分类模块用于确定目标音频段的类别。处理模块用于将相同类别对应的目标音频段的时长进行相加获得每个类别的总时长，并判断出对应总时长最长的类别。例如，第一音频中的目标音频段1的类别为第一类别，对应的时长为5秒；目标音频段2的类别为第二类别，对应的时长为7秒；目标音频段2的类别为第一类别，对应的时长为6秒。由于第一类别的总时长为11秒，第二类别的总时长为7秒，第一类别的总时长大于第二类别的总时长，因此，第一音频的类别为第一类别。

分类模型的训练方法可以是：根据上述获取第一音频中的至少一个目标音频段的音高线的方法，对样本音频集中的每个样本音频进行处理，获得每个样本音频的至少一个目标样本音频段的音高线。技术人员对样本音频集中的每个样本音频的类别进行标注，例如，如果技术人员在听取样本音频时，认为该样本音频的噪声的声音比人声的声音小，则将该样本音频的基准类别设置为第一类别；如果技术人员在听取样本音频时，认为该样本音频的噪声的声音比人声的声音大，则将该样本音频的基准类别设置为第二类别，通过这样的方法获得每个样本音频的基准类别。这样，可以将一个样本音频的至少一个目标样本音频段的音高线和基准类别作为一个训练样本，进而形成训练样本集。在训练样本集中随机抽取出一个训练样本，并将该训练样本对应的至少一个目标样本音频段的音高线输入分类模型，输出该样本音频的类别。将该类别和该训练样本的基准类别输入到损失函数中，获取到损失信息，并基于损失信息，对分类模型的权重参数进行调整，从而完成一次训练过程。再基于训练样本集中的其他训练样本对分类模型进行训练，直至完成预设次训练过程。在完成预设次训练过程后，获得预先训练的分类模型。

本申请实施例提供的方法在将第一音频划分为多个目标音频段时，由于将小于预设音量值的音频帧过滤掉，也就是说去除了只包含噪声的音频段，即用户哼唱音频时停歇部分对应的音频段，提高了预先训练的分类模型对第一音频的类别进行识别的准确性。

在本实现方式中，分类模型还可以包括自注意学习模块。将每个目标音频段维度对齐后的音高序列输入到自注意学习模块中，获得每个目标音频段经过权重调整后的音高序列。将每个目标音频段经过权重调整后的音高序列输入到子分类模块中，获得每个目标音频段的类别。

具体的，可以使用已经训练完成的自注意学习模块中的调整权重对目标音频段的音高序列进行调整。需要说明的是，在对目标音频段进行调整前，自注意学习模块中的调整权重可以根据目标音频段的实际情况进行适应性调整，为了便于描述，调整前的调整权重可以称为初始调整权重，调整后的调整权重可以称为目标调整权重。

自注意学习模块的一种结构如图3所示，在维度对齐后的音高序列输入自注意学习模块之后，自注意学习模块将维度对齐后的音高序列与初始调整权重进行加和，对加和之后的结果进行激活函数1、卷积处理、激活函数2以及采样处理，获得目标调整权重a，将目标调整权重a与维度对齐后的音高序列进行相乘处理，获得经过权重调整后的音高序列。需要说明的是，维度对齐后的音高序列和初始调整权重的维度相同，因此两者可以加和。

或者，在目标音频段对应的维度对齐后的音高序列输入自注意学习模块之后，基于预先设定的第一权值和第二权值，对维度对齐后的音高序列与初始调整权重进行加权求和处理，并对加权求和的结果进行激活函数1、卷积处理、激活函数2以及采样处理，获得目标调整权重a，将目标调整权重a与维度对齐后的音高序列进行相乘处理获得经过权重调整后的音高序列。

上述包括有转换模块、子分类模块、处理模块和自注意学习模块的分类模型为经过训练的模型。在训练过程中，根据损失信息对自注意学习模块的权重参数和子分类模块的权重参数进行调整，进而获得训练完成的自注意学习模块和子分类模块。其中，自注意学习模块中的权重参数包括初始调整权重、激活函数1中的系数、卷积处理中的权重参数以及激活函数2中的系数。需要说明的是，训练前技术人员可以预先设定初始调整权重，在多次训练过程中不断调整该初始调整权重，完成训练后边可以获得自注意学习模块的初始调整权重。

在本申请实施例中，通过自注意学习模块对每个音高序列的权重进行调整，进而在将权重调整后的音高序列输入子分类模块后，子分类模块会将注意聚焦到对应权重较大的部分上，进而使得子分类模块对目标音频段的分类更加的准确。

2、确定第一音频类型的第二种实现方式。

筛选出第一音频中音量值大于预设音量值的目标音频段；将目标音频段输入预先训练的分类模型以得到第一音频的类别。与上一种实现方式不同的是，输入分类模型的并非目标音频段的音高线，而是将目标音频段直接输入至分类模型中进行分类。

其中，分类模型包括特征提取模块、自注意学习模块、子分类模块和处理模块。因此可以将目标音频段输入特征提取模块，获得目标音频段对应的特征信息；将特征信息输入自注意学习模块，输出经过权重调整后的特征信息；将每个经过权重调整后的特征信息输入子分类模块，输出每个目标音频段的类别；处理模块基于每个目标音频段的类别，确定第一音频的类别。

其中，特征提取模块用于对目标音频段提取特征信息，提取到的多个特征信息的权重是相等的，自注意学习模块用于调整每个目标音频段对应的特征信息的权重，子分类模块可以为神经网络模块，通过神经网络模块对输入的经过权重调整后的特征信息进行卷积处理，进而确定出权重调整后的特征信息对应目标音频段的类别，其中，子分类模块可以为SVM模块。需要说明的是，该实现方式中的自注意学习模块和第一种实现方式种的自注意学习模块类似，只是该实现方式中的自注意学习模块的输入为每个目标音频段的特征信息。

其中，特征信息可以为音频的基频，也可以是音频的包络。

例如，可以使用densenet(密集卷积网络)模型确定第一音频属于某类别的概率，流程为将某个音频段输入feature block(特征提取模块)后，获得feature block的输出。将feature block的输出输入到第一个dense block(密集卷积模块)，获得第一个denseblock的输出。其中，第一个dense block中有n个dense layer，每个dense layer输入都是前面所有层的输出的拼接。将第一个dense block的输出输入到第一个transition block(过渡模块)，获得第一个transition block的输出。其中，transition block由convolution(卷积层)和poolling(池化层)组成。将第一个transition block的输出输入到第二个dense block，获得第二个dense block的输出。将第二个dense block的输出输入到第三个dense block，获得第三个dense block的输出。将第三个dense block的输出输入到classification block(分类模块)，输出该音频段对应的score，其中，classificationblock由pooling(池化层)、linear(线性层)组成。将获得的score输入到prediction(预测层)，进而获得该音频段为第一类别的概率和该音频段为第二类别的概率。

在上述过程中，可以在densenet网络模型的输入层前添加自注意学习模块，目的是让网络模型更加专注于更加有效的音频，其原理可以是将目标音频段输入到featureblock后，获得目标音频段对应的特征信息，将目标音频段对应的特征信息与预先训练的权重进行相乘处理，获得经过权重调整后的特征信息，再将处理后的特征信息输入到第一个dense block中。

进一步的，将每个经过权重调整后的特征信息输入到预先训练的分类模型中的子分类模块中，输出每个经过权重调整后的特征信息对应的目标音频段为第一类别的概率和第二类别的概率；处理模块可以将每个经过权重调整后的特征信息对应的目标音频段为第一类别的概率相加，确定第一类别对应的总概率；将每个经过权重调整后的特征信息对应的目标音频段为第二类别的概率相加，确定第二类别对应的总概率；当第一类别对应的概率大于第二类别的概率时，确定第一音频的类别为第一类别；当第二类别的概率大于第一类别的概率时，确定第一音频的类别为第二类别。

3、确定第一音频类型的第三种实现方式。

将第一音频直接输入到预先训练的分类模型中，输出第一音频的类别。

分类模型的训练方式可以是：将一个样本音频和该样本音频对应的基准类别作为一个训练样本，多个训练样本形成训练样本集。将训练样本中的样本音频输入分类模型输出该样本音频的类别，基于该类别和基准类别完成一次训练过程，从而在多次训练后获得预先训练的分类模型。

需要说明的是，该实现方式中的分类模型与第二种实现方式类似，即均直接将音频输入分类模型，因此相关描述请参见上述说明此处不再赘述。

4、确定第一音频类型的第四种实现方式。

获得第一音频的音高线，将第一音频的音高线输入到预先训练的分类模型中以得到第一音频的类别。

需要说明的是，该实现方式中的分类模型与第一种实现方式类似，即均需要输入音高线至分类模型，因此相关描述请参见上述说明此处不再赘述。

5、确定第一音频类型的第五种实现方式。

从第一音频中获得多个目标音频段后，将第一音频段除目标音频段之外的其它音频段的音高线设置为0；将每个目标音频段的音高线和其他音频段的音高线输入到预先训练的分类模型中，输出第一音频对应的类别。在该种实现方式中，预先训练的分类模型的训练样本包括样本音频的目标样本音频段的音高线和其他样本音频段的音高线，且样本音频标注有对应的类别。

需要说明的是，该实现方式中的分类模型与第一种实现方式中的分类模型类似，此处不再赘述。

在本申请实施例中，在对上述分类模块进行训练前，可以对样本音频集中的样本音频进行数据清理，进而去掉样本音频集中重复的样本音频和损坏的样本音频，使得进行数据清理后的样本音频集中的每个样本音频都是有效的音频。

步骤203，如果第一音频的类别为第一类别，则检索与第一音频相匹配的第二音频。

其中，第二音频为与第一音频的匹配度满足匹配条件的歌曲音频，第二音频的个数一般为多个。

在实施中，当终端确定出第一音频的类别为第一类别时，终端生成包含第一音频的检索请求，并将该检索请求发送给服务器。在服务器接收到终端发送的检索请求时，服务器获取到检索请求中的第一音频，检索出与第一音频相匹配的第二音频，并确定出第二音频对应的歌曲标识，将第二音频对应的歌曲标识发送给终端。终端在接收到第二音频对应的歌曲音频之后，在显示界面上显示第二音频的歌曲标识。当用户点击显示界面上的播放按钮时，终端接收到播放指令，并获取该播放指令的歌曲标识，将携带有歌曲标识的播放请求发送给服务器。当服务器接收到该播放请求时，服务器获取播放请求中的歌曲标识，并确定出该歌曲标识的歌曲音频，将该歌曲标识的歌曲音频发送给终端。终端接收到服务器发送的歌曲音频，对该歌曲音频进行播放。

其中，第二音频的歌曲标识用于唯一标识第二音频的标识，查找出的歌曲标识的歌曲音频和歌曲标识对应的第二音频可以为同一音频。

需要说明的是，如果第一音频的类别为第一类别，则说明第一音频中的噪声音频的音量与人声音频的音量小于预设条件，可以理解为第一音频中的噪声音频对基于第一音频进行检索的过程影响较小，甚至可以忽略不计。

可选的，基于每个目标音频段的音高线，检索与第一音频相匹配的第二音频。可选的，对于每个目标音频段的音高线，在预先存储的各音频的基准音高线中，确定与目标音频段的音高线满足匹配条件的多个基准音高线，得到目标音频段的至少一个基准音高线；在所有目标音频段的基准音高线中，确定出现次数最多的目标基准音高线；将目标基准音高线的音频，确定为与第一音频相匹配的第二音频。其中，匹配条件为两个音高线对应的歌曲音频的旋律相同。

例如，如图4所示，将第一音频划分为目标音频段1、目标音频段2、目标音频段3、目标音频段4和目标音频段5，确定出目标音频段1的音高线1，目标音频段2的音高线2、目标音频段3的音高线3、目标音频段4的音高线4和目标音频段5的音高线5。与音高线1满足匹配条件的基准音高线为基准音高线1、基准音高线3、基准音高线4，与音高线2满足匹配条件的基准音高线为基准音高线2，与音高线3满足匹配条件的基准音高线为基准音高线1、基准音高线2和基准音高线4，与音高线4满足匹配条件的基准音高线为基准音高线3和基准音高线4，与音高线5满足匹配条件的基准音高线为基准音高线1和基准音高线4。基准音高线1出现3次，基准音高线2出现2次，基准音高线3出现2次，基准音高线4出现4次。基准音高线4出现的次数最高，可以将基准音高线4作为目标基准音高线。

需要说明的是，在一种情况下，可以确定出多个与所有目标音频段的音高线相匹配的目标基准音高线，其中基准音高线可以是一首歌曲音频对应的音高线，也可以是一段时间的歌曲音频对应的音高线。

可选的，将第一音频段除目标音频段之外的其它音频段的音高线设置为0；基于每个目标音频段和其他音频段的音高线，检索与第一音频相匹配的第二音频。其中，其他音频段为只包含噪声音频的音频段，其他音频段的时长远远小于目标音频段的时长。例如图5所示，第一音频中包括目标音频段1、目标音频段2和目标音频段3，以及其他音频段1和其他音频段2。将其他音频段1和其他音频段2分别的音高线设置为0。

步骤204，如果第一音频的类别为第二类别，则控制输出检索失败提示信息。

需要说明的是，如果第一音频的类别为第二类别，则说明第一音频中的噪声音频的音量与人声音频的音量大于预设比值，可以理解为第一音频中的噪声音频对基于第一音频进行检索的过程影响较大，服务器无法基于第一音频进行检索。

在实施中，如果第一音频的类别为第二类别，则终端控制输出检索失败提示信息，该检索失败提示信息用于指示第一音频所包含的噪声较大。

可选的，可以将预先训练的分类模型设置在服务器中，并在服务器中进行检索。在终端录制完成第一音频后，终端向服务器发送音频分类请求，该音频分类请求中携带终端录制的第一音频。服务器接收到终端发送的音频分类请求，并获取音频分类请求中的第一音频。基于服务器中预先训练的分类模型，确定第一音频的类别。如果第一音频的类别为第一类别，服务器检索与第一音频相匹配的第二音频，并获得第二音频的歌曲标识，将第二音频的歌曲标识作为检索结果发送给终端；终端接收到检索结果后，获得检索结果中的歌曲标识，并将其显示在终端的显示界面上。如果第一音频的类别为第二类别，服务器向终端发送检索失败提示信息。终端基于服务器发送的检索失败提示信息，在显示界面上显示检索失败的提示消息，其中，该提示消息中还包括检索失败的理由为第一音频所包括的噪声较大。

需要说明的是，分类模型可以在服务器中进行训练，也可以在终端对分类模型进行训练，终端再将预先训练的分类模型发送给终端。

可选的，服务器可以将预先训练的分类模型发送给终端，并将预先训练的分类模型设置在终端中。同时，还可以在终端中预先设置各音频的音高线库，进而通过终端检索与第一音频相匹配的第二音频，其中，音高线库还存储有每个音高线的歌曲标识。在终端录制完成第一音频后，通过终端中设置的预先训练的分类模型，确定第一音频的类别。当第一音频的类别为第一类别时，终端可以根据第一音频的音高线和音高线库，确定出与第一音频的音高线满足匹配条件的多个音高线，进而确定出满足匹配条件的音高线的歌曲标识，并将其显示在终端的显示界面上。如果第一音频的类别为第二类别，终端控制输出检索失败提示信息。

本申请通过预先训练的分类模型，来检测第一音频的类别；当第一音频的类别为第一类别时，确定第一音频所包含的噪声较小，可以基于第一音频进行检索，并检索出与第一音频相匹配的第二音频。当第一音频的类别为第二类别时，确定第二音频所包含的噪声较大，控制输出检索失败提示信息。在本申请中，当第一音频的类别为第一类别时，基于第一音频获得的检索结果的准确率较高，用户可以快速的在检索结果中找到符合自己需求的歌曲音频；当第一音频的类别为第二类别时，不对第一音频进行检索，省略了对噪声较大的音频进行检索的过程以及用户对检索结果逐一播放的过程，从而节省了用户的时间。

本申请实施例提供了一种检索音频的装置，以图6所示的本申请实施例提供的一种检索音频的装置结构示意图为例进行说明。如图6所示，该装置包括获取模块610、确定模块620、检索模块630和提示模块640。如果该装置是终端，那么确定模块和/或检索模块可以集成在该终端，也可以与该终端分离部署，具体部署在服务器：

获取模块610，被配置为获取第一音频；

确定模块620，被配置为基于预先训练的分类模型，确定所述第一音频的类别，其中，所述类别包括第一类别或第二类别，所述第一类别用于指示所述第一音频中的噪声音频与人声音频的音量关系满足预设条件，所述第二类别用于指示所述第一音频中的噪声音频与人声音频的音量关系不满足预设条件；

检索模块630，被配置为如果所述第一音频的类别为第一类别，则检索与所述第一音频相匹配的第二音频；

提示模块640，被配置为如果所述第一音频的类别为第二类别，则控制输出检索失败提示信息。

可选的，所述确定模块620，被配置为：

获得每个目标音频段的音高线；

可选的，所述预先训练的分类模型包括转换模块、自注意学习模块、子分类模块以及处理模块；所述确定模块620，被配置为：

可选的，所述确定模块620，被配置为：

可选的，所述检索模块630，被配置为：

可选的，所述确定模块620，被配置为：

可选的，所述预先训练的分类模型包括特征提取模块、自注意学习模块、子分类模块以及处理模块；所述确定模块620，被配置为：

需要说明的是：上述实施例提供的检索音频的装置在检索音频时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的检索音频的装置与检索音频的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图7是本申请实施例提供的一种终端的结构示意图。该终端700可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端700还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端700包括有：处理器701和存储器702。

处理器701可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器701可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器701也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器701可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器701还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器702可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器702还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器702中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器701所执行以实现本申请中方法实施例提供的检索音频的方法。

在一些实施例中，终端700还可选包括有：外围设备接口703和至少一个外围设备。处理器701、存储器702和外围设备接口703之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口703相连。具体地，外围设备包括：射频电路704、触摸显示屏705、摄像头706、音频电路707、定位组件708和电源709中的至少一种。

外围设备接口703可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器701和存储器702。在一些实施例中，处理器701、存储器702和外围设备接口703被集成在同一芯片或电路板上；在一些其他实施例中，处理器701、存储器702和外围设备接口703中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路704用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路704通过电磁信号与通信网络以及其他通信设备进行通信。射频电路704将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路704包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路704可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路704还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏705用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏705是触摸显示屏时，显示屏705还具有采集在显示屏705的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器701进行处理。此时，显示屏705还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏705可以为一个，设置终端700的前面板；在另一些实施例中，显示屏705可以为至少两个，分别设置在终端700的不同表面或呈折叠设计；在再一些实施例中，显示屏705可以是柔性显示屏，设置在终端700的弯曲表面上或折叠面上。甚至，显示屏705还可以设置成非矩形的不规则图形，也即异形屏。显示屏705可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件706用于采集图像或视频。可选地，摄像头组件706包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件706还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路707可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器701进行处理，或者输入至射频电路704以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端700的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器701或射频电路704的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路707还可以包括耳机插孔。

定位组件708用于定位终端700的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件708可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源709用于为终端700中的各个组件进行供电。电源709可以是交流电、直流电、一次性电池或可充电电池。当电源709包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端700还包括有一个或多个传感器710。该一个或多个传感器710包括但不限于：加速度传感器711、陀螺仪传感器712、压力传感器713、指纹传感器714、光学传感器715以及接近传感器716。

加速度传感器711可以检测以终端700建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器711可以用于检测重力加速度在三个坐标轴上的分量。处理器701可以根据加速度传感器711采集的重力加速度信号，控制触摸显示屏705以横向视图或纵向视图进行用户界面的显示。加速度传感器711还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器712可以检测终端700的机体方向及转动角度，陀螺仪传感器712可以与加速度传感器711协同采集用户对终端700的3D动作。处理器701根据陀螺仪传感器712采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器713可以设置在终端700的侧边框和/或触摸显示屏705的下层。当压力传感器713设置在终端700的侧边框时，可以检测用户对终端700的握持信号，由处理器701根据压力传感器713采集的握持信号进行左右手识别或快捷操作。当压力传感器713设置在触摸显示屏705的下层时，由处理器701根据用户对触摸显示屏705的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器714用于采集用户的指纹，由处理器701根据指纹传感器714采集到的指纹识别用户的身份，或者，由指纹传感器714根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器701授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器714可以被设置终端700的正面、背面或侧面。当终端700上设置有物理按键或厂商Logo时，指纹传感器714可以与物理按键或厂商Logo集成在一起。

光学传感器715用于采集环境光强度。在一个实施例中，处理器701可以根据光学传感器715采集的环境光强度，控制触摸显示屏705的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏705的显示亮度；当环境光强度较低时，调低触摸显示屏705的显示亮度。在另一个实施例中，处理器701还可以根据光学传感器715采集的环境光强度，动态调整摄像头组件706的拍摄参数。

接近传感器716，也称距离传感器，通常设置在终端700的前面板。接近传感器716用于采集用户与终端700的正面之间的距离。在一个实施例中，当接近传感器716检测到用户与终端700的正面之间的距离逐渐变小时，由处理器701控制触摸显示屏705从亮屏状态切换为息屏状态；当接近传感器716检测到用户与终端700的正面之间的距离逐渐变大时，由处理器701控制触摸显示屏705从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图7中示出的结构并不构成对终端700的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图8是本申请实施例提供的一种服务器的结构示意图，该服务器800可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processingunits，CPU)801和一个或一个以上的存储器802，其中，所述存储器802中存储有至少一条指令，所述至少一条指令由所述处理器801加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成上述实施例中检索音频的方法。例如，所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种检索音频的方法，其特征在于，所述方法包括：

获取第一音频；

2.根据权利要求1所述的方法，其特征在于，所述基于预先训练的分类模型，确定所述第一音频的类别，包括：

获得每个目标音频段的音高线；

3.根据权利要求2所述的方法，其特征在于，所述预先训练的分类模型包括转换模块、自注意学习模块、子分类模块以及处理模块；所述将每个目标音频段的音高线输入预先训练的分类模型，输出所述第一音频的类别，包括：

4.根据权利要求3所述的方法，其特征在于，所述将每个目标音频段的类别输入所述预先训练的分类模型中的处理模块，得到所述第一音频的类别，包括：

5.根据权利要求2所述的方法，其特征在于，所述检索与所述第一音频相匹配的第二音频，包括：

6.根据权利要求5所述的方法，其特征在于，所述基于每个目标音频段的音高线，检索与第一音频相匹配的第二音频，包括：

7.根据权利要求5所述的方法，其特征在于，所述基于每个目标音频段的音高线，检索与第一音频相匹配的第二音频，包括：

8.根据权利要求1所述的方法，其特征在于，所述基于预先训练的分类模型，确定所述第一音频的类别，包括：

9.根据权利要求8所述的方法，其特征在于，所述预先训练的分类模型包括特征提取模块、自注意学习模块、子分类模块以及处理模块；所述将所述目标音频段输入预先训练的分类模型，输出所述第一音频的类别，包括：

10.一种检索音频的装置，其特征在于，所述装置包括：

获取模块，被配置为获取第一音频；

11.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如权利要求1至权利要求9任一项所述的检索音频的方法所执行的操作。

12.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如权利要求1至权利要求9任一项所述的检索音频的方法所执行的操作。