CN109189976B

CN109189976B - 搜索音频数据的方法和装置

Info

Publication number: CN109189976B
Application number: CN201811100175.4A
Authority: CN
Inventors: 黄安麒; 刘彦彬; 李深远; 董治; 代玥; 范恒远; 陈莉
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2018-09-20
Filing date: 2018-09-20
Publication date: 2022-04-08
Anticipated expiration: 2038-09-20
Also published as: CN109189976A

Abstract

本发明提供了一种搜索音频数据的方法和装置，属于互联网技术领域。将多个音频数据的相关联图像数据分别输入指定的特征提取模型，得到每个音频数据的相关联图像数据对应的特征信息，进行存储，其中，所述特征信息包括音频类型信息和图像特征信息；获取目标图像数据；将所述目标图像数据输入所述特征提取模型，得到所述目标图像数据对应的目标特征信息；确定所述目标特征信息分别与存储的每个音频数据对应的特征信息的相似度；基于每个音频数据对应的相似度，在所述多个音频数据中选取至少一个音频数据，作为所述目标图像数据对应的搜索结果。采用本发明，可以提高搜索音频数据的灵活性。

Description

搜索音频数据的方法和装置

技术领域

本发明涉及互联网技术领域，特别涉及一种搜索音频数据的方法和装置。

背景技术

随着互联网技术的发展，终端上的应用程序的种类越来越多、功能越来越丰富，音乐播放应用程序即是一种很常用的应用程序。

用户开启音乐播放应用程序之后，可以在搜索栏中输入关键词，如歌曲中的关键词语、歌手名字等来查找与关键词相对应的歌曲。

在实现本发明的过程中，发明人发现相关技术至少存在以下问题：

利用关键词查找歌曲的搜索形式比较单一，导致搜索歌曲的灵活性较差。

发明内容

本发明实施例提供了一种搜索音频数据的方法和装置，以解决相关技术的问题。所述技术方案如下：

根据本发明实施例，提供一种搜索音频数据的方法，所述方法包括：

将多个音频数据的相关联图像数据分别输入指定的特征提取模型，得到每个音频数据的相联关图像数据对应的特征信息，进行存储，其中，所述特征信息包括音频类型信息和图像特征信息；

获取目标图像数据；

将所述目标图像数据输入所述特征提取模型，得到所述目标图像数据对应的目标特征信息；

确定所述目标特征信息与存储的多个音频数据对应的特征信息的相似度；

基于每个音频数据对应的相似度，在所述多个音频数据中选取至少一个音频数据，作为所述目标图像数据对应的搜索结果。

可选的，所述特征信息为特征向量，所述目标特征信息为目标特征向量。

可选的，所述确定所述目标特征信息分别与储存的每个特征信息的相似度，包括：

将目标特征向量A分别与每个特征向量B，输入相似度计算公式

确定所述目标特征向量分别与每个所述特征向量的相似度ρ，其中，a_i为特征向量A中第i个元素，b_i为特征向量B中第i个元素。

确定所述目标特征向量分别与每个所述特征向量的相似度cosθ，其中，a_i为特征向量A中第i个元素，b_i为特征向量B中第i个元素。

可选的，所述目标特征向量中的每个元素分别对应所述目标图像数据与一种预设音乐类型的关联概率值或者对应一种预设图像元素在所述目标图像数据中的存在概率值；

所述特征向量中的每个元素分别对应所述相关联图像数据与一种预设音乐类型的关联概率值或者对应一种预设图像元素在所述相关联图像数据中的存在概率值。

可选的，所述指定的特征提取模型为预先训练的特征提取模型；

所述方法还包括：

获取多个样本音频数据的相关联图像数据的图像元素和音乐类型；

基于每个样本音频数据的图像元素和音乐类型，生成每个样本音频数据的相关联图像数据对应的特征向量；

将每个样本音频数据的相关联图像数据和对应的特征向量，作为训练样本，对初始特征提取模型进行训练，得到所述特征提取模型。

可选的，所述基于每个音频数据对应的相似度，在所述多个音频数据中选取至少一个音频数据，作为所述目标图像数据对应的搜索结果，包括：

基于每个音频数据对应的相似度，在所述多个音频数据中选取相似度处于预设数值范围的音频数据，作为所述目标图像数据对应的搜索结果。

基于每个音频数据对应的相似度，在所述多个音频数据中选取相似度的排名位于预设排名内的音频数据，作为所述目标图像数据对应的搜索结果。

可选的，所述获取目标图像数据，包括：

从终端发送的携带有目标图像数据的搜索请求中获取目标图像数据。

可选的，所述获取目标图像数据，包括：

从目标账户已公开的相关联图像数据中获取目标图像数据。

可选的，所述装置包括：

储存模块，用于将多个音频数据的相关联图像数据分别输入指定的特征提取模型，得到每个音频数据的相关联图像数据对应的特征信息，进行存储，其中，所述特征信息包括音频类型信息和图像特征信息；

第一获取模块，用于获取目标图像数据；

第一确定模块，用于将所述目标图像数据输入所述特征提取模型，得到所述目标图像数据对应的目标特征信息；

第二确定模块，用于确定所述目标特征信息与存储的多个音频数据对应的特征信息的相似度；

搜索模块，用于基于每个音频数据对应的相似度，在所述多个音频数据中选取至少一个音频数据，作为所述目标图像数据对应的搜索结果。

可选的，所述第二确定模块，用于：

可选的，所述第二确定模块，用于：

所述装置还包括：

第二获取模块，用于获取多个样本音频数据的相关联图像数据的图像元素和音乐类型；

生成模块，用于基于每个样本音频数据的图像元素和音乐类型，生成每个样本音频数据的相关联图像数据对应的特征向量；

训练模块，用于将每个样本音频数据的相关联图像数据和对应的特征向量，作为训练样本，对所始特征提取模型进行训练，得到所述特征提取模型。

可选的，所述搜索模块，用于：

可选的，所述第一获取模块，用于：

从目标账户已公开的相关联图像数据中获取目标图像数据。

根据本发明实施例，还提供一种搜索音频数据的装置，所述装置包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如上述所述的搜索音频数据的方法。

根据本发明实施例，还提供一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如上述所述的搜索音频数据的方法。

本发明实施例提供的技术方案带来的有益效果至少包括：

本发明实施例中，服务器在搜索音频数据时，可以将获取到的目标图像数据输入到指定的特征提取模型中，得到对应的目标特征信息；然后，确定目标特征信息分别与预先利用特征提取模型计算并储存的，多个音频数据的相关联图像数据对应的特征信息之间的相似度；最后，服务器可以基于每个音频数据对应的相似度，在多个音频数据中选取至少一个音频数据，作为目标图像数据对应的搜索结果。这样，用户在搜索音频数据时，不仅可以基于音频数据中的关键词对其进行搜索，还可以使用与该音频数据相关的图像数据进行搜索，从而，可以提高搜索音频数据的灵活性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种搜索音频数据的方法的流程图；

图2是本发明实施例提供的一种歌单的示意图；

图3是本发明实施例提供的一种搜索音频数据的方法的应用场景图；

图4是本发明实施例提供的一种搜索音频数据的方法的流程图；

图5是本发明实施例提供的一种搜索音频数据的装置的结构示意图；

图6是本发明实施例提供的一种搜索音频数据的装置的结构示意图；

图7是本发明实施例提供的一种搜索音频数据的装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

本发明实施例提供了一种搜索音频数据的方法，该方法可以由服务器执行。其中，服务器可以是音乐播放应用程序的后台服务器。

服务器可以包括收发器、处理器、存储器等部件。其中，收发器用于与终端进行数据传输，例如可以接收终端发送的携带有目标图像数据的搜索请求，收发器可以包括WiFi(Wireless-Fidelity，无线高保真技术)部件、天线、匹配电路、调制解调器等。处理器，可以为CPU(Central Processing Unit，中央处理单元)等，可以用于确定目标特征信息分别与存储的每个特征信息的相似度等。存储器，可以为RAM(Random Access Memory，随机存取存储器)，Flash(闪存)等，可以用于存储接收到的数据、处理过程所需的数据、处理过程中生成的数据等，如可以存储音乐库中每个音频数据的相关联图像数据对应的特征信息等。

如图1所示，该方法的处理流程可以如下：

在步骤101中，服务器将多个音频数据的相关联图像数据分别指定的特征提取模型，得到每个音频数据的相关联图像数据对应的特征信息，进行存储。

其中，指定的特征提取模型可以是经过预先训练得到的特征提取模型。

其中，音频数据可以是音乐数据，如一首歌曲，多个相关联的歌曲可以组成一个歌单，每一个歌单如图2所示，都包括一张用来表示该歌单风格或者类型的图像，该图像可以称为该歌单的封面图，而通常一首歌曲可以出现在多个歌单里面，例如，歌曲A可以出现经典类型的歌单中，还可以出现在安静类型的歌单中，还可以出现在伤感类型的歌单中等等，那么这些歌单都会有一张封面图，这些封面图可以统称为歌曲A的相关联图像数据，当然，相关联图像数据还可以包括该歌曲A的宣传海报，所属专辑的封面图等。

其中，相关联图像数据对应的特征信息也可以称为特征向量，包括音频类型信息和图像特征信息，相应的，特征向量中的元素中有表示音频类型信息的元素，也可以有表示图像特征信息的元素。

在实施中，由于图像在一定程度上可以体现出音频的一些特点，例如，具有古筝的图像可以在一定程度上体现出古典音乐风格，具有滑板的图像可以在一定程度上体现出嘻哈音乐风格。因此，特征向量中的每个元素可以分别对应相关联图像数据与一种预设音乐类型的关联概率值，如该相关联图像数据与经典音乐的关联概率值、该相关联图像数据与嘻哈音乐的关联概率值等。

由于图像中的图像元素也可以反应一些信息，例如，对于具有天安门的图像，可以用来反应国歌类的音乐，或者，也可以用来反应歌颂天安门的音乐。又例如，对于具有某个歌星的图像，可以用来反应该歌星的音乐代表作。因此，特征向量中的元素中可以包括表示图像特征信息的元素，例如，特征向量中的每一个元素分别对应一种预设图像元素在相关联图像数据中的存在概率值，如表示歌手王菲的图像元素在该相关联图像数据中的存在概率值、表示歌手那英的图像元素在该相关联图像数据中的存在概率值，以及表示某一建筑物(天安门)在该相关联图像数据中的存在概率值等。

可见，特征向量中的多个元素中可以既包括表示图像特征信息的元素又包括表示音频类型信息的元素，也即是，特征向量中的元素要么对应一种预设图像元素在该相关联图像数据中的存在概率值，要么对应该相关联图像数据与一种预设音乐类型的关联概率值。

例如，图像数据M对应的特征向量M(P1，P2，P3，P4，P5，P6……)中P1表示图像数据M与经典音乐类型的关联概率值，P2表示图像数据M与嘻哈音乐类型的关联概率值，P3表示图像数据M与安静音乐类型的关联概率值，P4表示歌手王菲的图像元素在图像数据M中的存在概率值，P5表示歌手那英的图像元素在图像数据M中的存在概率值，P6表示天安门的图像元素在图像数据M中的存在概率值。

这样，服务器可以通过预先训练的特征提取模型得到音乐库中每一首歌曲的特征向量以及每一个歌单的特征向量，并对这些特征向量进行存储。

在步骤102中，服务器获取目标图像数据。

可选的，目标图像数据可以是服务器从终端接收到的图像数据，相应的，服务器可以从终端发送的携带有目标图像数据的搜索请求中获取目标图像数据。

在实施中，终端中可以安装有系统程序和应用程序。用户在使用终端的过程中，基于自己的不同需求，会使用各种各样的应用程序，终端中可以安装有具备播放音乐功能的音乐播放应用程序。这样，用户打开音乐播放应用程序之后，如图3所示，在上传图像数据的搜索栏中上传目标图像数据，此时，在终端中可以相应地检测到上传目标图像数据的触发操作。终端可以向服务器发送携带有目标图像数据的搜索请求。需要说明的是，在该搜索请求中，包括目标图像数据的标识以及终端的登录账户。其中，登录账户可以是用户在直播应用程序中登录的账户。

可选的，目标图像数据还可以是服务器从用户已公开的相关联图像数据中获取到的图像数据，相应的，服务器可以从目标账户已公开的相关联图像数据中获取目标图像数据。

在实施中，上述音乐播放应用程序可以是其它应用程序下的一个小程序，例如，音乐播放应用程序可以是通信应用程序的一个小程序，那么该音乐应用程序与上述通信应用程序相关联，进而，服务器可以从通信应用程序中用户登录的目标账户中，获取到用户在该目标账户中公开的图像数据，如上述目标图像数据可以是用户该目标账户的头像对应的图像数据，还可以是用户在该账户中上传的已公开的图像数据等。

在步骤103中，服务器将目标图像数据输入特征提取模型，得到目标图像数据对应的目标特征信息。

其中，特征信息为特征向量，相应的，目标特征信息为目标特征向量，目标特征向量中的每个元素分别对应目标图像数据与一种预设音乐类型的关联概率值或一种预设图像元素在目标图像数据中的存在概率值，具体例子在上文介绍特征信息时已示例，此处便不再赘述。

这样，当服务器获取到目标图像数据时，例如，当服务器接收到终端发送的携带有目标图像数据的搜索请求时，或者，当服务器检测到用户开启音乐播放应用程序，从目标账户已公开的相关联图像数据中获取到目标图像数据时，可以将获取到的目标图像数据输入特征提取模型，得到目标图像数据对应的目标特征信息。

在步骤104中，服务器确定目标特征信息分别与存储的每个音频数据对应的特征信息的相似度。

其中，相似度表示两个数据的相似程度。

在实施中，服务器将目标图像数据输入特征提取模型得到对应的目标特征信息之后，进一步确定目标特征信息分别与存储的每个音频数据对应的特征信息的相似度。其中，如上述所述，目标特征信息是服务器获取到的目标图像数据对应的特征信息，目标特征信息是目标特征向量，存储的特征信息是音乐播放应用程序中数据库中每个音乐数据的封面图对应的特征信息，特征信息是特征向量。这样，可以确定目标特征向量分别与存储的每个特征向量的相似度。

在步骤105中，基于每个音频数据对应的相似度，在多个音频数据中选取至少一个音频数据，作为目标图像数据对应的搜索结果。

在一种实施例中，服务器确定每个音频数据的特征向量与目标特征向量的相似度之后，可以根据相似度的大小，在多个音频数据中选取至少一个音频数据，作为目标图像数据对应的搜索结果。

基于上述所述，上述搜索音频数据的方法至少具有以下应用场景：

一种可能的应用场景可以是，用户可以通过图像数据搜索音乐数据，例如，当用户打算通过图像数据搜索音乐数据，或者当用户不清楚所有搜索的音乐数据的歌词和歌手姓名时，可以通过图像数据搜索音乐数据。具体的，用户开启音乐播放应用程序之后，通过终端向服务器发送携带有目标图像数据的搜索请求。服务器接收到搜索请求之后，将目标图像数据输入预先训练的特征提取模型得到目标图像数据对应的目标特征信息。然后，确定目标特征信息分别与存储的每个特征信息的相似度。最后，基于每个音频数据对应的相似度，在多个音频数据中选取至少一个音频数据，作为目标图像数据对应的搜索结果，并将搜索结果发送给上述终端。这样用户可以从至少一个音频数据中选取所要搜索的音频数据。

例如，用户登录音乐播放应用程序之后，打开如图3所示的界面，上传一张歌手那英穿着旗袍的目标图像数据的搜索请求时，服务器接收到该搜索请求之后，使用上述方法，可以向用户发送由多个歌曲或者歌单组成的列表，其中，排在前面的是那英的古典类或者安静类的歌曲或者歌单，其次是其他歌手演唱的古典类或者安静类的歌曲或歌单，用户可以从多个歌曲或者歌单中选取自己感兴趣的歌曲或者歌单试听。需要说明的是，上述例子中如果歌手那英这一图像元素在目标图像数据所占的比例很小，那么服务器向用户发送的搜索结果中排名靠前的是一些常见的古典类的歌曲或者歌单，其中，可能是那英演唱的，也可能是其他歌手演唱的。

一种可能的应用场景可以是，一般情况下，人们所喜欢的东西具有相通性，例如，用户喜欢安静，那么在图像方面可能是比较柔和、安静的图像，在音乐方面可能属于安静类、轻松类的音乐，也就是说从用户所喜欢的图像可以推断用户所喜欢的音乐，进而，服务器可以基于用户公开的图像数据，向其推荐音频数据。例如，服务器可以基于用户在音乐播放应用程序所关联的目标账户中公开的相关联图像数据，向用户推荐相关的音乐数据。具体的，当用户登录与音乐播放应用程序相关联的通信应用程序时，服务器可以获取用户登录该通信应用程序的目标账户中获取相关联图像数据，如目标账户的头像对应的图像数据，目标账户的社交圈公开的相关联图像数据等。然后，分别将上述目标账户中的相关联图像数据当做目标图像数据，利用特征提取模型得到对应的目标特征信息。之后，确定目标特征信息分别与存储的每个特征信息的相似度。最后，基于每个音频数据对应的相似度，在多个音频数据中选取至少一个音频数据，作为目标图像数据对应的搜索结果，并将搜索结果推送给终端。这样，服务器可以根据用户所喜欢的图像，向用户推荐可能喜欢的音乐。

例如，用户的与该音乐播放应用程序相关联的通信应用程序的社交圈中公开的图像数据，大多是很流行很时尚的图像数据。那么，用户登录该音乐播放应用程序之后，服务器可以通过音乐播放应用程序获取到用户在通信应用程序的社交圈公开的图像数据，进而可以向用户推荐一些嘻哈类的歌曲或者歌单。又例如，用户的社交圈中公开的图像数据，大多是关于自然风景的图像数据，那么服务器可以通过音乐播放应用程序获取到这些图像数据之后，可以向其推荐清新类或者轻松类的歌曲或者歌单。

可选的，由上述可知，特征提取模型是通过机器学习的算法预先训练的，其训练过程可以按照如图4所示的流程进行：

在步骤401中，服务器获取多个样本音频数据的相关联图像数据的图像元素和音乐类型。

其中，由上述所述，相关联图像数据可以是与样本音频数据相关的图像数据，例如，样本音频数据所属音频数据表单的封面图对应的图像数据，样本音频数据的宣传海报对应的图像数据等。样本音频数据的音乐类型顾名思义是该样本音频数据所属的音乐类型，如经典类型、嘻哈类型、安静类型等等。样本音频数据的相关联图像数据的图像元素，例如，相关联图像数据中的所含有的元素，如歌手王菲、歌手那英、天安门、汽车、自然风景等等。这样，技术人员可以将多个样本音频数据的相关联图像数据的图像元素和音乐类型输入到服务器对应的终端中，进而，服务器可以获取多个样本音频数据的相关联图像数据的图像元素和音乐类型。

在步骤402中，服务器基于每个样本音频数据的图像元素和音乐类型，生成每个样本音频数据的相关联图像数据对应的特征向量。

在一种可能的实施例中，服务器获取到多个样本音频数据的相关联图像数据的图像元素和音乐类型之后，可以基于每个样本音频数据的图像元素和音乐类型，生成每个样本音频数据的相关联图像数据对应的特征向量。

其中，如果特征信息包括图像特征信息和音频类型信息，相应的，服务器基于每个样本音频数据的音乐类型，以及每个样本音频数据的相关联图像数据的图像元素，生成每个样本音频数据的相关联图像数据对应的特征向量。

在步骤403中，服务器将每个样本音频数据的相关联图像数据和对应的特征向量，作为训练样本，对初始特征提取模型进行训练，得到特征提取模型。

在一种可能的实施例中，技术人员可以将每个样本音频数据的相关联图像数据和对应的特征向量，作为训练样本，输入到初始特征提取模型中。进而服务器对训练样本进行训练，得到特征提取模型。

可选的，由上述可知，特征信息为特征向量，目标特征信息为目标特征向量，那么可以利用两个向量之间的闵式距离来比较两者之间的相似度，具体的，将目标特征向量A分别与每个特征向量B，输入相似度计算公式

确定目标特征向量分别与每个特征向量的相似度ρ，其中，a_i为特征向量A中第i个元素，b_i为特征向量B中第i个元素。

其中，相似度ρ越大，两个特征向量越相似。

可选的，向量具有方向性服务器还可以利用两个向量之间的夹角余弦值来比较两者的相似度，相应的，将目标特征向量A分别与每个特征向量B，输入相似度计算公式

确定目标特征向量分别与每个特征向量的相似度cosθ，其中，a_i为特征向量A中第i个元素，b_i为特征向量B中第i个元素。

其中，相似度cosθ越接近于1，两个特征向量越相似。

需要指出的是，上述的特征向量可以是一个特征向量还可以是一组特征向量，例如，如果是一组特征向量，如特征向量组E和特征向量组F比较相似度，则在利用上述的相似度公式计算时，可以将特征向量组E中的每一个特征向量首尾相连组成一个特征向量E’，将特征向量组F中的每一个特征向量首尾相连组成一个特征向量F’，然后，计算特征向量E’与特征向量F’之间的相似度，特征向量E’与特征向量F’之间的相似度即为特征向量组E和特征向量组F之间的相似度。又例如，如果是一组特征向量，还以特征向量组E和特征向量组F比较相似度示例，也可以先计算特征向量组E中的第i个特征向量Ei与特征向量组F中的第i个特征向量Fi之间的相似度，这样可以得到多个相似度，之后，再由这些相似度计算一个平均的相似度，这个平均的相似度即为特征向量组E和特征向量组F之间的相似度。

可选的，服务器可以基于每个音频数据对应的相似度，在多个音频数据中选取一个与目标图像数据最相似的音频数据，作为目标图像数据对应的搜索结果。

例如，如果服务器利用闵式距离计算目标特征向量与储存的特征向量之间的相似度时，可以选取最大的相似度ρ对应的音频数据，作为目标图像数据对应的搜索结果。如果服务器利用两个向量之间的夹角余弦值计算目标特征向量与储存的特征向量之间的相似度时，可以选取最接近1的相似度cosθ对应的音频数据，作为目标图像数据对应的搜索结果。

可选的，服务器可以基于每个音频数据对应的相似度，在多个音频数据中选取相似度处于预设数值范围的音频数据，作为目标图像数据对应的搜索结果。

在一种可能的实施例中，如果服务器利用闵式距离计算目标特征向量与储存的特征向量之间的相似度时，可以选取相似度ρ在处于预设数值范围的音频数据，例如，选取0≤ρ^-1≤1数值范围内对应的音频数据，作为目标图像数据对应的搜索结果。如果服务器利用两个向量之间的夹角余弦值计算目标特征向量与储存的特征向量之间的相似度时，也可以选取相似度cosθ处于预设数值范围的音频数据，例如，选取0.5≤cosθ≤1数值范围内对应的音频数据，作为目标图像数据对应的搜索结果。

可选的，服务器还可以基于每个音频数据对应的相似度，在多个音频数据中选取相似度的排名位于预设排名内的音频数据，作为目标图像数据对应的搜索结果。

在一种可能的实施例中，服务器利用上述的闵式距离或者夹角余弦值分别计算出目标特征向量与每个特征向量之间的相似度之后，可以按照每个特征向量与目标特征向量的相似程度的大小，对每个相似度对应的音频数据进行排序，可以从中选取相似度的排名位于预设排名内的音频数据，例如，前10名对应的音频数据，作为目标图像数据对应的搜索结果。

本实施例还提供了一种搜索音频数据的装置，如图5所示，该装置包括：

储存模块510，用于将多个音频数据的相关联图像数据分别输入预先训练的特征提取模型，得到每个音频数据的相关联图像数据对应的特征信息，进行存储，其中，所述特征信息包括音频类型信息和图像特征信息；

第一获取模块520，用于获取目标图像数据；

第一确定模块530，用于将所述目标图像数据输入所述特征提取模型，得到所述目标图像数据对应的目标特征信息；

第二确定模块540，用于确定所述目标特征信息与存储的多个每个音频数据对应的特征信息的相似度；

搜索模块550，用于基于每个音频数据对应的相似度，在所述多个音频数据中选取至少一个音频数据，作为所述目标图像数据对应的搜索结果。

可选的，第二确定模块540，用于：

可选的，第二确定模块540，用于：

可选的，所述目标特征向量中的每个元素分别对应所述目标图像数据与一种预设音乐类型的关联概率值或者对应一种预设图像元素在目标图像数据中的存在概率值；

所述特征向量中的每个元素分别对应所述相关联图像数据与一种预设音乐类型的关联概率值或者对应一种预设图像元素在相关联图像数据中的存在概率值。

可选的，如图6所示，该装置还包括：

第二获取模块610，用于获取多个样本音频数据的相关联图像数据的图像元素和音乐类型；

生成模块620，用于基于每个样本音频数据的图像元素和音乐类型，生成每个样本音频数据的相关联图像数据对应的特征向量；

训练模块630，用于将每个样本音频数据的相联关图像数据和对应的特征向量，作为训练样本，对初始特征提取模型进行训练，得到所述特征提取模型。

可选的，搜索模块550，用于：

可选的，第一获取模块520，用于：

从目标账户已公开的相关联图像数据中获取目标图像数据。

需要说明的是：上述实施例提供的搜索音频数据的装置在搜索音频数据时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的搜索音频数据的装置与搜索音频数据的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图7是本发明实施例提供的一种计算机设备的结构示意图，该计算机设备700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(centralprocessing units，CPU)701和一个或一个以上的存储器702，其中，所述存储器702中存储有至少一条指令，所述至少一条指令由所述处理器701加载并执行以实现下述确定用户特征数据的方法步骤：

将多个音频数据的相关联图像数据分别输入指定的特征提取模型，得到每个音频数据的相关联图像数据对应的特征信息，进行存储，其中，所述特征信息包括音频类型信息和图像特征信息；

获取目标图像数据；

确定所述目标特征信息与存储的多个每个音频数据对应的特征信息的相似度；

可选的，所述至少一条指令由所述处理器701加载并执行以实现下述方法步骤：

所述至少一条指令由所述处理器701加载并执行以实现下述方法步骤：

将每个样本音频数据的相关联图像数据和对应的特征向量，作为训练样本，对所述初始特征提取模型进行训练，得到所述特征提取模型。

从目标账户已公开的相关联图像数据中获取目标图像数据。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种搜索音频数据的方法，其特征在于，所述方法包括：

将多个音频数据的相关联图像数据分别输入指定的特征提取模型，得到每个音频数据的相关联图像数据对应的特征信息，进行存储，其中，所述特征信息包括音频类型信息和图像特征信息，所述特征信息为特征向量，所述相关联图像数据是与样本音频数据相关的图像数据；

获取目标图像数据，所述获取目标图像数据为从终端发送的携带有目标图像数据的搜索请求中获取目标图像数据，或者，从目标账户已公开的相关联图像数据中获取目标图像数据；

将所述目标图像数据输入所述特征提取模型，得到所述目标图像数据对应的目标特征信息，所述目标特征信息为目标特征向量；

确定所述目标特征信息与存储的多个音频数据对应的特征信息的相似度，所述目标特征向量中的每个元素分别对应所述目标图像数据与一种预设音乐类型的关联概率值或者对应一种预设图像元素在所述目标图像数据中的存在概率值；

所述特征向量中的每个元素分别对应所述相关联图像数据与一种预设音乐类型的关联概率值或者对应一种预设图像元素在所述相关联图像数据中的存在概率值；

基于每个音频数据对应的相似度，在所述多个音频数据中选取至少一个音频数据，作为所述目标图像数据对应的搜索结果；

所述指定的特征提取模型为预先训练的特征提取模型，所述方法还包括：

2.根据权利要求1所述的方法，其特征在于，所述确定所述目标特征信息分别与储存的每个特征信息的相似度，包括：

3.根据权利要求1所述的方法，其特征在于，所述确定所述目标特征信息分别与储存的每个特征信息的相似度，包括：

4.根据权利要求1所述的方法，其特征在于，所述基于每个音频数据对应的相似度，在所述多个音频数据中选取至少一个音频数据，作为所述目标图像数据对应的搜索结果，包括：

5.根据权利要求1所述的方法，其特征在于，所述基于每个音频数据对应的相似度，在所述多个音频数据中选取至少一个音频数据，作为所述目标图像数据对应的搜索结果，包括：

6.一种搜索音频数据的装置，其特征在于，所述装置包括：

储存模块，用于将多个音频数据的相关联图像数据分别输入指定的特征提取模型，得到每个音频数据的相关联图像数据对应的特征信息，进行存储，其中，所述特征信息包括音频类型信息和图像特征信息，所述特征信息为特征向量，所述相关联图像数据是与样本音频数据相关的图像数据；

第一获取模块，用于从终端发送的携带有目标图像数据的搜索请求中获取目标图像数据，或者，从目标账户已公开的相关联图像数据中获取目标图像数据；

第一确定模块，用于将所述目标图像数据输入所述特征提取模型，得到所述目标图像数据对应的目标特征信息，所述目标特征信息为目标特征向量；

第二确定模块，用于确定所述目标特征信息与存储的多个音频数据对应的特征信息的相似度，所述目标特征向量中的每个元素分别对应所述目标图像数据与一种预设音乐类型的关联概率值或者对应一种预设图像元素在所述目标图像数据中的存在概率值；所述特征向量中的每个元素分别对应所述相关联图像数据与一种预设音乐类型的关联概率值或者对应一种预设图像元素在所述相关联图像数据中的存在概率值；

搜索模块，用于基于每个音频数据对应的相似度，在所述多个音频数据中选取至少一个音频数据，作为所述目标图像数据对应的搜索结果；

所述指定的特征提取模型为预先训练的特征提取模型；

所述装置还包括：

7.根据权利要求6所述的装置，其特征在于，所述第二确定模块，用于：

8.根据权利要求6所述的装置，其特征在于，所述第二确定模块，用于：

9.根据权利要求6所述的装置，其特征在于，所述搜索模块，用于：

10.根据权利要求6所述的装置，其特征在于，所述搜索模块，用于：

11.一种搜索音频数据的装置，其特征在于，所述装置包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如权利要求1-5任一所述的搜索音频数据的方法。

12.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如权利要求1-5任一所述的搜索音频数据的方法。