CN110209844B

CN110209844B - 多媒体数据匹配方法、装置和存储介质

Info

Publication number: CN110209844B
Application number: CN201910411754.9A
Authority: CN
Inventors: 吕孟叶; 董治; 黄安麒; 李深远
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2019-05-17
Filing date: 2019-05-17
Publication date: 2021-08-31
Anticipated expiration: 2039-05-17
Also published as: CN110209844A; WO2020232796A1

Abstract

本申请实施例公开了一种多媒体数据匹配方法、装置和存储介质，本申请可以获取待匹配的音频数据集，然后，根据预设策略对该音频数据集的每个音频数据的多种类型进行分析，根据分析结果确定该音频数据集的分类信息，接着，采用预设分类模型对该预设图片库中的每张图片的类别进行解析，根据该每张图片的类别确定每张图片的分类信息，再然后，基于音频数据集的分类信息在该预设数据库中查找与该音频数据集的分类信息匹配的图片，得到至少一张匹配的图片；该方案可以有效地提高多媒体数据之间关联度的准确性。

Description

多媒体数据匹配方法、装置和存储介质

技术领域

本申请涉及通信技术领域，具体涉及一种多媒体数据匹配方法、装置和存储介质。

背景技术

随着互联网的发展，社交网络在人们的日常生活中有着不可替代的地位。在播放音乐时显示当前音乐对应的图片信息，可以让音乐播放界面更有丰富，或者在显示图片时播放对应的音乐，给图片增添情感的表达与活力。因此，人们喜欢给音乐配图，或者给视频配乐，通过二者的结合以使情感的表达更加丰富。但是，目前音乐配图，或者视频配乐都是比较单一的，无法更准确的更多方面的情感表达。

发明内容

本申请实施例提供一种多媒体数据匹配方法、装置和存储介质，可以有效地提高多媒体数据之间关联度的准确性。

本申请实施例提供一种多媒体数据匹配方法，包括：

获取待匹配的音频数据集；

根据预设策略对所述音频数据集的每个音频数据的多种类型进行分析，根据分析结果确定所述音频数据集的分类信息；

采用预设分类模型对所述图片集的每张图片的类型进行分析，根据分析结果确定所述图片集的分类信息；

基于音频数据集的分类信息在所述预设数据库中查找与所述音频数据集的分类信息匹配的图片，得到至少一张匹配的图片。

可选的，在一些实施例中，在所述多媒体数据匹配方法中，所述根据预设策略对所述音频数据集的每个音频数据的多种类型进行分析，根据分析结果确定所述音频数据集的分类信息，包括：

根据预设策略从预设音频数据库中查找所述音频数据集的每个音频数据的类别，并统计所述音频数据的类别出现的频率；

根据所述频率确定所述音频数据集的分类信息。

可选的，在一些实施例中，在所述多媒体数据匹配方法中，所述基于音频数据集的分类信息在所述预设数据库中查找与所述音频数据集的分类信息匹配的图片，得到至少一张匹配的图片，包括：

根据所述音频数据集的分类信息确定音频数据集的得分向量；

根据所述图片的分类信息确定图片的得分向量；

在预设图片库中搜索与所述音频数据集的得分向量距离最小的所述图片的得分向量，得到至少一张匹配的图片。

可选的，在一些实施例中，在所述多媒体数据匹配方法中，所述在预设图片库中搜索与所述音频数据集的得分向量距离最小的所述图片的得分向量，得到至少一张与所述音频数据集匹配的图片，包括：

设置每种类型的权重，并根据所述类型的权重计算所述音频数据集的得分向量和所述图片的得分向量的距离；

在预设数据库中搜索距离最小的图片，得到至少一张与所述音频数据集匹配的图片。

可选的，在一些实施例中，在所述多媒体数据匹配方法中，所述采用预设分类模型对所述预设图片库中的每张图片的类别进行解析之前，还包括：

获取多种类型、各类型的多个类别和每个类别对应的多张图片样本作为训练数据集；

根据所述训练数据集对预设的分类模型进行训练，得到分类模型。

可选的，在一些实施例中，在所述多媒体数据匹配方法中，所述获取多种类型、各类型的多个类别和每个类别对应的多张图片样本作为训练数据集，包括：

获取多种类型，以及各类型的多个类别，对每个类别建立至少一个搜索关键字；

利用所述关键字查找多个类别对应的多张目标图片样本，以及与所述类别无关的多张无关图片样本；

将所述多张目标图片样本和多张无关图片样本作为训练数据集。

可选的，在一些实施例中，在所述多媒体数据匹配方法中，所述根据所述训练数据集对预设的分类模型进行训练，得到分类模型，包括：

对所述训练数据集的图片样本提取目标特征信息；

根据所述目标特征信息对所述图片样本进行分析，利用多个全连接层子网络分别得到所述多种类型的得分预测值；

获取训练数据集的得分真实值，根据所述得分真实值和得分预测值对预设的分类模型进行收敛，得到分类模型。

本申请实施例还提供一种多媒体数据匹配方法，包括：

获取待匹配的图片集；

根据预设策略对所述图片集的每张图片的多种类型进行分析，根据分析结果确定所述图片集的分类信息；

解析预设数据库里音频数据集的每个音频数据的多种类型，以确定每个音频数据的分类信息；

基于图片集的分类信息在所述预设数据库中查找与所述图片集的分类信息匹配的音频数据，得到至少一个匹配的音频数据。

可选的，在一些实施例中，在所述多媒体数据匹配方法中，所述采用预设分类模型对所述图片集的每张图片的类型进行分析，根据分析结果确定所述图片集的分类信息，包括：

采用预设分类模型对所述图片集的每张图片的类型进行分析，得到图片每个类别的得分，并计算所述图片集每个类别的平均得分；

判断所述类别的平均得分是否超过预设阈值，若所述类别的平均得分超过预设阈值，则确定所述类别为所述图片集的分类信息。

可选的，在一些实施例中，在所述多媒体数据匹配方法中，所述解析预设数据库里音频数据集的每个音频数据的多种类型，以确定每个音频数据的分类信息，包括：

查找存储于预设音频数据库中音频数据集的每种音频数据的类别；

根据所述音频数据的类别确定音频数据的分类信息。

可选的，在一些实施例中，在所述多媒体数据匹配方法中，所述基于图片集的分类信息在所述预设数据库中查找与所述图片集的分类信息匹配的音频数据，得到至少一个匹配的音频数据，包括：

在预设音频数据库中搜索与所述图片集的分类信息重合个数最多的音频数据，得到至少一个匹配的音频数据。

可选的，在一些实施例中，在所述多媒体数据匹配方法中，所述在预设音频数据库中搜索与所述图片集的分类信息重合个数最多的音频数据，得到至少一个匹配的音频数据，包括：

设置每种类型的权重，并根据所述类型的权重计算所述图片集的分类信息重合个数之和；

在预设音频数据库中搜索重合个数之和最多的音频数据，得到至少一个匹配的音频数据。

可选的，在一些实施例中，在所述多媒体数据匹配方法中，所述采用预设分类模型对所述图片集的每张图片的类型进行分析之前，还包括：

对所述训练数据集的图片样本提取目标特征信息；

相应的，本申请实施例还提供一种多媒体数据匹配装置，包括：

第一获取模块，用于获取待匹配的音频数据集；

第一分析模块，用于根据预设策略对所述音频数据集的每个音频数据的多种类型进行分析，根据分析结果确定所述音频数据集的分类信息；

第一解析模块，用于采用预设分类模型对所述预设图片库中的每张图片的类别进行解析，根据所述每张图片的类别确定每张图片的分类信息；

第一匹配模块，用于基于音频数据集的分类信息在所述预设数据库中查找与所述音频数据集的分类信息匹配的图片，得到至少一张匹配的图片。

第二获取模块，用于获取待匹配的图片集；

第二分析模块，用于采用预设分类模型对所述图片集的每张图片的类型进行分析，根据分析结果确定所述图片集的分类信息；

第二解析模块，用于解析预设数据库里音频数据集的每个音频数据的多种类型，以确定每个音频数据的分类信息；

第二匹配模块，用于基于图片集的分类信息在所述预设数据库中查找与所述图片集的分类信息匹配的音频数据，得到至少一个匹配的音频数据。

此外，本申请实施例还提供一种存储介质，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行本申请实施例提供的任一种多媒体数据匹配方法中的步骤。

本申请在进行多媒体数据匹配时，可以获取待匹配的音频数据集，然后，根据预设策略对该音频数据集的每个音频数据的多种类型进行分析，根据分析结果确定该音频数据集的分类信息，接着，采用预设分类模型对该预设图片库中的每张图片的类别进行解析，根据该每张图片的类别确定每张图片的分类信息，再然后，基于音频数据集的分类信息在该预设数据库中查找与该音频数据集的分类信息匹配的图片，得到至少一张匹配的图片；该方案可以有效地提高多媒体数据之间关联度的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本申请实施例提供的多媒体数据匹配方法的场景示意图；

图1b是本申请实施例提供的多媒体数据匹配方法的第一流程示意图；

图1c是本申请实施例提供的多媒体数据匹配方法的第二流程示意图；

图2a是本申请实施例提供的训练数据集的产生方法示意图；

图2b是本申请实施例提供的分类模型的设计示意图；

图2c是本申请实施例提供的多媒体数据匹配方法的第三流程示意图；

图2d是本申请实施例提供的多媒体数据匹配方法的第四流程示意图；

图3a是本申请实施例提供的多媒体数据匹配方法的第五流程示意图；

图3b是本申请实施例提供的多媒体数据匹配方法的第六流程示意图；

图4a是本申请实施例提供的多媒体数据匹配装置的第一结构示意图；

图4b是本申请实施例提供的多媒体数据匹配装置的第二结构示意图；

图5是本申请实施例提供的网络设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请中的术语“第一”、“第二”和“第三”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。

本申请实施例提供一种多媒体数据匹配方法、装置和存储介质。

其中，多媒体数据可以包括文本、图像、声音、动画和视频影像等多种媒体形式的数据。则多媒体数据集可以为多个文本、图像、声音、动画和视频影像等数据的集合，比如，音频数据集、图片集或文本集等等。

其中，该多媒体数据匹配装置具体可以集成在网络设备中，该网络设备可以是终端或服务器等设备，例如，参见图1a，用户在需要给音乐配图时，用户可以发送待匹配的音频数据集给网络设备，触发网络设备对音频数据进行处理，网络设备可以获取待匹配的音频数据集，然后，根据预设策略对该音频数据集的每个音频数据的多种类型进行分析，根据分析结果确定该音频数据集的分类信息，接着，采用预设分类模型对该预设图片库中的每张图片的类别进行解析，根据该每张图片的类别确定每张图片的分类信息，再然后，基于音频数据集的分类信息在该预设数据库中查找与该音频数据集的分类信息匹配的图片，得到至少一张匹配的图片。

以下分别进行详细说明。需说明的是，以下实施例的顺序不作为对实施例优选顺序的限定。

在本实施例中，将从多媒体数据匹配装置的角度进行描述，该多媒体数据匹配装置具体可以集成在网络设备中，该网络设备可以是终端或服务器等设备，其中，该终端可以包括平板电脑、笔记本电脑或个人计算机(Personal Computer，PC)等。

本申请实施例提供一种多媒体数据匹配方法，包括：获取待匹配的音频数据集，然后，根据预设策略对该音频数据集的每个音频数据的多种类型进行分析，根据分析结果确定该音频数据集的分类信息，接着，采用预设分类模型对该预设图片库中的每张图片的类别进行解析，根据该每张图片的类别确定每张图片的分类信息，再然后，基于音频数据集的分类信息在该预设数据库中查找与该音频数据集的分类信息匹配的图片，得到至少一张匹配的图片。

如图1b所示，该多媒体数据匹配方法的具体流程可以如下：

101、获取待匹配的音频数据集。

例如，具体可以从网络、手机或者其他终端等各种途径来获取音频数据集，进而提供给该多媒体数据匹配装置，即，该多媒体数据匹配装置具体可以接收各种途径获取到的音频数据集。

其中，音频数据可以包括歌曲、声音、轻音乐或者语音等等。相应的，一个音频数据可以包括一首歌曲、一首轻音乐、一段语音或者一段声音等等。音频数据集为多个音频数据的集合，比如，可以包括歌曲集、声音集或语音集等等。类型可以包括节奏类型、情感类型、主题类型和/或场景类型等等。

102、根据预设策略对该音频数据集的每个音频数据的多种类型进行分析，根据分析结果确定该音频数据集的分类信息。

其中，该预设策略可以根据实际处理需要进行设置，比如，可以为统计类型出现的频率或者各类型的平均得分是否超过预设阈值，等等。比如，当需要给音频数据集配图时，可以从数据库中查找每个音频的标签，然后统计各标签出现的频率，以(标签、频率)作为该音频数据集的标签得分向量，即步骤“根据预设策略对该音频数据集的每个音频数据的多种类型进行分析，根据分析结果确定该音频数据集的分类信息”可以包括：

根据预设策略从预设音频数据库中查找该音频数据集的每个音频数据的类别，并统计该音频数据的类别出现的频率；根据该频率确定该音频数据集的分类信息。

其中，音频数据的类别设置方式可以有很多种，比如，可以根据实际情况的灵活设置保存在预设音频数据库，也可以预先设置好存储在预设音频数据库中，等等。

其中，每种类型可以包括多个类别，比如，节奏类型可以包括快速、缓慢和/或未知等等，情感类型可以包括快乐、喜爱、兴奋、生气、恐惧、悲伤和/或未知等等，主题类型可以包括ACG(Animation Comic Game，动画、漫画、游戏的总称)、古风、儿歌、乐器、现场、情感、宗教和/或未知等等，场景类型可以包括派对、跳舞、运动、开车、旅行、工作、校园、约会、咖啡馆、休闲和/或未知等等。其中，该音频数据集的分类信息可以包括音频数据集的类型、类别和频率等等。

103、采用预设分类模型对该预设图片库中的每张图片的类别进行解析，根据该每张图片的类别确定每张图片的分类信息。

例如，当需要给音频数据集配图时，具体可以采用预设分类模型对该预设图片库中的每张图片的类别进行打分，并存储结果。以(标签，模型打分)作为每张图的标签得分向量，如果图片的无关度得分过大，则直接剔除出库，等等。

其中，该预设分类模型由多个确定了分类及得分的图片样本训练而成，具体可以有其他设备进行训练后，提供给该多媒体数据匹配装置，或者，也可以由该多媒体数据匹配装置自行进行训练；即在步骤“采用预设分类模型对该预设图片库中的每张图片的类别进行解析”之前，该多媒体数据匹配方法还可以包括：

(1)获取多种类型、各类型的多个类别和每个类别对应的多张图片样本作为训练数据集。

例如，具体可以获取多种类型，以及各类型的多个类别，对每个类别建立至少一个搜索关键字，利用该关键字在网络上查找多个类别对应的多张图片样本，或者，也可以在预设音乐库中查找含有各类别的音乐集和/或MV(music video，音乐短片)等的封面图片样本，以及与该类别无关的多张纯色图片、纯纹理图片、或logo(logogram，标识)图片等与音乐类型无关的图片样本，等等。将该多张目标图片样本和多张无关图片样本作为训练数据集。即步骤“获取多种类型、各类型的多个类别和每个类别对应的多张图片样本作为训练数据集”可以包括：

利用该关键字查找多个类别对应的多张目标图片样本，以及与该类别无关的多张无关图片样本；

将该多张目标图片样本和多张无关图片样本作为训练数据集。

其中，无关图片指的是与音乐属性不相关的图片，比如，纯色图片、纯纹理图片、或logo图片等等。

可选的，还可以将该训练数据集进行数据清洗，比如，利用公开图像识别模型或者人工等剔除明显错误分类或重复的图片样本，等等，得到最终的训练数据集。

(2)根据该训练数据集对预设的分类模型进行训练，得到分类模型。

例如，具体可以对该训练数据集的图片样本提取目标特征信息，根据该目标特征信息对该图片样本进行分析，为了使模型的准确率高且鲁棒性强，可以利用多个全连接层子网络分别得到该多种类型的得分预测值，即每个全连接层子网络分别输出一个类型的结果，包括多个对应类别得分和1个无关度得分。获取训练数据集的得分真实值，根据该得分真实值和得分预测值对预设的分类模型进行收敛，比如，可以使用带有掩码的二值化交叉熵作为损失函数，即对于每个输入样本，只计算其标注所属类型内部的二值化交叉熵，得到分类模型。

其中，得分真实值指的是预先标注好的值。无关度得分指的是未知的属性、类别，或者与多媒体数据属性、类别无关的得分。

可选的，分类模型的全连接网络最后一层的激活函数可以选用Sigmoid函数(也称为S型生长曲线)，使得该分类模型可同时为多个类型独立打分，互不干扰。

104、基于音频数据集的分类信息在该预设数据库中查找与该音频数据集的分类信息匹配的图片，得到至少一张匹配的图片。

例如，当需要给音频数据集配图时，具体可以根据该音频数据集的分类信息确定音频数据集的得分向量，根据该图片的分类信息确定图片的得分向量，在预设图片库中搜索与该音频数据集的得分向量距离最小的该图片的得分向量，得到至少一张匹配的图片。

可选的，为了使多媒体数据的匹配性更好，更好的体现多媒体的属性，可以设置每种类型的权重，并根据该类型的权重计算该音频数据集的得分向量和该图片的得分向量的距离，在预设数据库中搜索距离最小的图片，得到至少一张与该音频数据集匹配的图片。

可选的，在得到至少一张与该音频数据集匹配的图片后，可以将该匹配的图片与该音频数据集进行融合，得到融合的多媒体数据。

其中，融合方式可以有很多种，比如，可以根据具体情况建立音频数据集和一张图片之间的对应关系，或者音频数据集和多张图片之间的对应关系，等等。还可以将这些对应关系存储在多媒体匹配装置中，或者也可以保存在网络设备中并发送给其他设备，等等。也可以将音频数据集和图片存储于网页插件中，点击该插件可以同时播放，等等。

由上可知，本实施例可以获取待匹配的音频数据集，然后，根据预设策略对该音频数据集的每个音频数据的多种类型进行分析，根据分析结果确定该音频数据集的分类信息，接着，采用预设分类模型对该预设图片库中的每张图片的类别进行解析，根据该每张图片的类别确定每张图片的分类信息，再然后，基于音频数据集的分类信息在该预设数据库中查找与该音频数据集的分类信息匹配的图片，得到至少一张匹配的图片；该方案通过多媒体数据的多种类型进行分析，且每个类型内可独立输出各类别的得分，可以完整提取多媒体的属性，还可以有效建立图片(或视频)和音乐的双向关联，比如为歌单歌曲配图等等，利用各类型的多个类别数据共同训练模型的底层特征，并考虑未知类型的存在，可以使得模型准确率高且鲁棒性强，通过多种类型分析后融合，可以有效地提高多媒体数据之间关联度的准确性。

本申请实施例提供一种多媒体数据匹配方法，包括：获取待匹配的图片集，然后，采用预设分类模型对该图片集的每张图片的类型进行分析，根据分析结果确定该图片集的分类信息，接着，解析预设数据库里音频数据集的每个音频数据的多种类型，以确定每个音频数据的分类信息，再然后，基于图片集的分类信息在该预设数据库中查找与该图片集的分类信息匹配的音频数据，得到至少一个匹配的音频数据。

如图1c所示，该多媒体数据匹配方法的具体流程可以如下：

111、获取待匹配的图片集。

例如，具体可以从网络、手机、视频、图像采集设备或者其他终端等各种途径来获取图片集，进而提供给该多媒体数据匹配装置，即，该多媒体数据匹配装置具体可以接收各种途径获取到的图片集。

其中，图片集可以是多张图片的集合或者视频的多张截图等等。比如，当需要给视频配乐时，可以先等间隔(比如每1秒)截图或利用聚类算法截图(根据视觉相似度划分场景，再每个场景截取一幅或多幅图)，得到多张视频截图。

112、采用预设分类模型对该图片集的每张图片的类型进行分析，根据分析结果确定该图片集的分类信息。

例如，当需要给视频或者图片集等配乐时，可以对多张视频截图或者图片集中的每张图片进行标签打分，然后统计每个标签的平均得分。可选的，如某张图片或截图的无关度得分过大，则不计入后续统计。即步骤“采用预设分类模型对该图片集的每张图片的类型进行分析，根据分析结果确定该图片集的分类信息”可以包括：

采用预设分类模型对该图片集的每张图片的类型进行分析，得到图片每个类别的得分，并计算该图片集每个类别的平均得分；判断该类别的平均得分是否超过预设阈值，若该类别的平均得分超过预设阈值，则确定该类别为该图片集的分类信息。

其中，预设阈值的设定方式可以有很多种，比如，可以根据实际应用的需求灵活设置，也可以预先设置好存储在网络设备中。此外，预设阈值可以内置于网络设备中，或者，也可以保存在存储器中并发送给网络设备，等等。

其中，该预设分类模型由多个确定了分类及得分的图片样本训练而成，具体可以有其他设备进行训练后，提供给该多媒体数据匹配装置，或者，也可以由该多媒体数据匹配装置自行进行训练；即在步骤“采用预设分类模型对该图片集的每张图片的类型进行分析”之前，该多媒体数据匹配方法还可以包括：

113、解析预设数据库里音频数据集的每个音频数据的多种类型，以确定每个音频数据的分类信息。

其中，预设数据库可以包括预设图片库、预设音频数据库或预设音乐库等等。比如，在给视频或者图片集等配乐时，预设数据库可以为预设音乐库，等等。

例如，具体可以当需要给视频或者图片集等配乐时，查找存储于预设音频数据库中音频数据集的每种音频数据的类别，根据该音频数据的类别确定音频数据的分类信息。

114、基于图片集的分类信息在该预设数据库中查找与该图片集的分类信息匹配的音频数据，得到至少一个匹配的音频数据。

例如，当需要给视频或者图片集等配乐时，具体可以在预设音频数据库中搜索与该图片集的分类信息重合个数最多的音频数据，得到至少一个匹配的音频数据。

可选的，为了使多媒体数据的融合匹配性更好，更好的体现多媒体的属性，可以设置每种类型的权重，并根据该类型的权重计算该图片集的分类信息重合个数之和，在预设音频数据库中搜索重合个数之和最多的音频数据，得到至少一个匹配的音频数据。

可选的，在得到至少一个匹配的音频数据后，可以将该匹配的音频数据与该图片集进行融合，得到融合的多媒体数据。

其中，融合方式可以有很多种，比如，可以根据具体情况建立图片集和一个音频数据之间的对应关系，或者图片集和多个音频数据之间的对应关系，等等。可以将这些对应关系存储在多媒体匹配装置中，或者也可以保存在网络设备中并发送给其他设备，等等。

由上可知，本实施例可以获取待匹配的图片集，然后，采用预设分类模型对该图片集的每张图片的类型进行分析，根据分析结果确定该图片集的分类信息，接着，解析预设数据库里音频数据集的每个音频数据的多种类型，以确定每个音频数据的分类信息，再然后，基于图片集的分类信息在该预设数据库中查找与该图片集的分类信息匹配的音频数据，得到至少一个匹配的音频数据；该方案通过多媒体数据的多种类型进行分析，且每个类型内可独立输出各类别的得分，可以完整提取多媒体的属性，还可以有效建立图片(或视频)和音乐的双向关联，比如为图片视频配乐等等，利用各类型的多个类别数据共同训练模型的底层特征，并考虑未知类型的存在，可以使得模型准确率高且鲁棒性强，通过多种类型分析后融合，可以有效地提高多媒体数据之间关联度的准确性。

根据前面实施例所描述的方法，以下将以该多媒体数据匹配装置具体集成在网络设备中，音频数据集为歌单，音频数据为歌曲为例作进一步详细说明。

(一)首先，需要对分类模型进行训练，具体可以如下：

例如，如图2a所示，具体可以获取多种类型，以及各类型的多个类别，比如，可以获取预设音乐库内的标签大类和标签大类下的各个标签名。对每个类别建立至少一个搜索关键字，利用该关键字在网络上查找多个类别对应的多张图片样本，比如，对每个标签名建立一个或多个中英文搜索关键字，在网络上搜集公开图片。或者，也可以在预设音乐库中查找含有各类别的音乐集和/或音乐短片等的封面图片样本，比如，在预设音乐内部系统中查找含有各标签的歌单和MV，得到对应的歌单封面图和MV封面图。以及，与该类别无关的多张纯色图片、纯纹理图片、或logo图片等与音乐类型无关的图片样本，等等。比如，在网络上搜集纯色图、纯纹理图案或logo图案等与音乐属性无关的图片。将这些多张目标图片样本和多张无关图片样本作为训练数据集。比如，总共K个标签大类，每个大类下有N_i个标签(i＝1,2,…,K),那么训练数据集则含有K个大分类，每个分类下有N_i+1个小分类(包括1个无关类)。

可选的，还可以将该训练数据集进行数据清洗，比如，利用公开图像识别模型或者人工等剔除明显错误分类或重复的图片样本，等等，得到最终的训练数据集。比如，“悲伤”类别的图片中含有明显笑脸，则需要剔除该含有明显笑脸的图片。

例如，如图2b所示，具体可以对该训练数据集的图片样本提取目标特征信息，根据该目标特征信息对该图片样本进行分析。比如，该模型含有一个公用的基于卷积神经网络的特征提取子网络，和K个单独的全连接层子网络，为了使模型的准确率高且鲁棒性强，可以利用多个全连接层子网络分别得到该多种类型的得分预测值，即每个全连接层子网络分别输出一个类型的结果，包括多个对应类别得分和1个无关度得分。获取训练数据集的得分真实值，根据该得分真实值和得分预测值对预设的分类模型进行收敛，比如，可以使用带有掩码的二值化交叉熵作为损失函数，即对于每个输入样本，只计算其标注所属类型内部的二值化交叉熵，得到分类模型。

(二)其次，通过该训练好的分类模型，便可找出与待融合的歌单匹配的图片，将歌单和匹配的图片进行融合，具体可参见图2c。

如图2c所示，一种多媒体数据匹配方法，具体流程可以如下：

201、网络设备获取待匹配的歌单。

例如，具体可以从网络、手机、视频、图像采集设备或者其他终端等各种途径来获取歌单，进而提供给该多媒体数据匹配装置，即，该多媒体数据匹配装置具体可以接收各种途径获取到的歌单(即歌曲列表)。

202、网络设备根据预设策略对该歌单的每首歌曲的多种类型进行分析，根据分析结果确定该歌单的分类信息。

其中，该预设策略可以根据实际处理需要进行设置，比如，可以为统计类型出现的频率。

例如，具体可以根据预设策略从预设音乐库中查找歌单的每首歌曲的类别，并统计该歌曲的类别出现的频率，比如，从预设音乐库中查找歌单中的每首歌曲的标签，并统计各标签出现的频率。根据该频率确定该音频数据集的分类信息，比如，确定该歌单属于哪个标签，该标签对应出现的频率，以(标签，频率)作为该歌单的得分向量。

203、网络设备采用预设分类模型对该预设图片库中的每张图片的类别进行解析，根据该每张图片的类别确定每张图片的分类信息。

例如，具体可以采用预设分类模型对预设图片库中的每张图片进行打分，并存储结果。比如，某图片的得分如表1所示。以(标签，模型打分)作为每张图的得分向量；如果图片的无关度得分过大，则直接剔除出库。

其中，分类信息可以包括标签、得分等。类型可以包括节奏类型、情感类型、主题类型和/或场景类型等等。其中，每种类型可以包括多个类别，比如，节奏类型可以包括快速、缓慢和/或未知等等，情感类型可以包括快乐、喜爱、兴奋、生气、恐惧、悲伤和/或未知等等，主题类型可以包括ACG(Animation Comic Game，动画、漫画、游戏的总称)、古风、儿歌、乐器、现场、情感、宗教和/或未知等等，场景类型可以包括派对、跳舞、运动、开车、旅行、工作、校园、约会、咖啡馆、休闲和/或未知等等。

表1

204、网络设备在该预设图片库中查找与该歌单的分类信息匹配的图片，得到至少一个匹配的图片。

例如，具体可以根据该歌单的分类信息确定歌单的得分向量，根据该图片的分类信息确定图片的得分向量，在预设图片库中搜索与该歌单的得分向量距离最小的该图片的得分向量，得到至少一张匹配的图片。比如，可以计算该歌单的得分向量与每张图的得分向量的欧式或者余弦距离，然后搜索并输出与歌单的得分向量距离最小的图片的得分向量，得到该歌单最匹配的一幅或多幅图片。

可选的，如图2d所示，为了使多媒体数据的融合匹配性更好，更好的体现多媒体的属性，可以设置每种类型的权重，并根据该类型的权重计算该音频数据集的得分向量和该图片的得分向量的距离，比如，可以预先设置每个标签的权重，使得某些重要标签有更高的权重，再计算加权的欧式或者余弦距离。在预设图片库中搜索距离最小的图片，得到至少一张与该歌单匹配的图片。

205、网络设备将该匹配的图片与该歌单进行融合，得到融合的多媒体数据。

其中，融合方式可以有很多种，比如，可以建立歌单和匹配的图片之间的对应关系，将其存储在多媒体融合装置中，点击匹配的图片即可播放歌单中的歌曲，并在播放界面显示匹配的图片，或者播放该歌单的歌曲时显示匹配的图片，等等。

由上可知，本实施例的网络设备在对多媒体数据进行匹配时，获取待匹配的音频数据集，然后，根据预设策略对该音频数据集的每个音频数据的多种类型进行分析，根据分析结果确定该音频数据集的分类信息，接着，采用预设分类模型对该预设图片库中的每张图片的类别进行解析，根据该每张图片的类别确定每张图片的分类信息，再然后，基于音频数据集的分类信息在该预设数据库中查找与该音频数据集的分类信息匹配的图片，得到至少一张匹配的图片；该方案通过多媒体数据的多种类型进行分析，且每个类型内可独立输出各类别的得分，可以完整提取多媒体的属性，还可以有效建立图片(或视频)和音乐的双向关联，比如为歌单歌曲配图、为图片视频配乐等等，利用各类型的多个类别数据共同训练模型的底层特征，并考虑未知类型的存在，可以使得模型准确率高且鲁棒性强，通过多种类型分析后融合，可以有效地提高多媒体数据之间关联度的准确性。

根据前面实施例所描述的方法，以下将以该多媒体数据匹配装置具体集成在网络设备中，图片集为视频，图片为视频截图，音频数据集为音乐库，音频数据为歌曲举例作进一步详细说明。

(一)首先，需要对分类模型进行训练，具体可以如下：

此外，需说明的是，上述分类模型的训练具体可参见前面的实施例，在此不作赘述。

(二)其次，通过该训练好的分类模型，便可找出与待融合的视频匹配的歌曲，将视频和匹配的歌曲进行融合，具体可参见图3a。

如图3a所示，一种多媒体数据匹配方法，具体流程可以如下：

301、网络设备获取待匹配的视频。

例如，具体可以从网络、手机、或者其他终端等各种途径来获取视频，进而提供给该多媒体数据匹配装置，即，该多媒体数据匹配装置具体可以接收各种途径获取到的视频。然后，等间隔，比如每1秒，截图或利用聚类算法截图即根据视觉相似度划分场景，在每个场景截取一幅或多幅图，得到多张视频截图，即视频的图片集。

302、网络设备采用预设分类模型对该视频的每张图片的类型进行分析，根据分析结果确定该视频的分类信息。

例如，具体可以采用预设分类模型对该图片集的每张图片的类型进行分析，得到图片每个类别的得分，并计算该图片集每个类别的平均得分；判断该类别的平均得分是否超过预设阈值，若该类别的平均得分超过预设阈值，则确定该类别为该图片集的分类信息。比如，可以采用预设分类模型对得到的视频截图进行标签打分。如果某张图片或截图的无关度得分过大，则不计入后续统计。对于每个标签，统计平均得分，若超过预先设定的阈值，则认为输入视频/图片集包含该标签，得到一个或多个标签。

其中，预设阈值的设定方式可以有很多种，比如，可以根据实际应用的需求灵活设置，也可以预先设置好存储在网络设备中。比如，预设阈值可以设为40，此外，预设阈值可以内置于网络设备中，或者，也可以保存在存储器中并发送给网络设备，等等。

303、网络设备解析预设音乐库里的每首歌曲的多种类型，以确定每首歌曲的分类信息。

例如，具体可以查找存储于预设音乐库中每首歌曲的类别，根据该歌曲的类别确定歌曲的分类信息。比如，搜索预设音乐库中每首歌曲的标签，根据歌曲的标签确定歌曲的分类信息。

304、网络设备在该预设音乐库中查找与该视频的分类信息匹配的歌曲，得到至少一首匹配的歌曲。

例如，具体可以在预设音乐库中搜索与该图片集的分类信息重合个数最多的歌曲，得到至少一个匹配的歌曲。比如，基于标签重合的个数，在预设音乐库搜索中，得到与该视频/图片集匹配的一首或多首歌曲

可选的，如图3b所示，为了使多媒体数据的融合匹配性更好，更好的体现多媒体的属性，可以设置每种类型的权重，并根据该类型的权重计算该图片集的分类信息重合个数之和，在预设音乐库中搜索重合个数之和最多的歌曲，得到至少一个匹配的歌曲。比如，可以预先定义每个标签的权重，使得某些重要标签有更高的权重，再计算重合标签的权重之和，在预设音乐库中搜索重合个数之和最多的歌曲，得到至少一首匹配的歌曲。

305、网络设备将该匹配的歌曲与该视频进行融合，得到融合的多媒体数据。

其中，融合方式可以有很多种，比如，可以建立视频和匹配的歌曲之间的对应关系，将其存储在多媒体融合装置中，播放视频时同时播放拍匹配的歌曲，等等。

由上可知，本实施例的网络设备在对多媒体数据进行匹配时，获取待匹配的图片集，然后，采用预设分类模型对该图片集的每张图片的类型进行分析，根据分析结果确定该图片集的分类信息，接着，解析预设数据库里音频数据集的每个音频数据的多种类型，以确定每个音频数据的分类信息，再然后，基于图片集的分类信息在该预设数据库中查找与该图片集的分类信息匹配的音频数据，得到至少一个匹配的音频数据；该方案通过多媒体数据的多种类型进行分析，且每个类型内可独立输出各类别的得分，可以完整提取多媒体的属性，还可以有效建立图片(或视频)和音乐的双向关联，比如为歌单歌曲配图、为图片视频配乐等等，利用各类型的多个类别数据共同训练模型的底层特征，并考虑未知类型的存在，可以使得模型准确率高且鲁棒性强，通过多种类型分析后融合，可以有效地提高多媒体数据之间关联度的准确性。

为了更好地实施本申请实施例提供的多媒体数据匹配方法，本申请实施例还提供一种多媒体数据匹配装置，该多媒体数据匹配装置具体可以集成在如手机、平板电脑、掌上电脑等网络设备中。其中名词的含义与上述多媒体数据匹配方法中相同，具体实现细节可以参考方法实施例中的说明。

例如，如图4a所示，多媒体数据匹配装置可以包括第一获取模块401、第一分析模块402、第一解析模块403、以及第一匹配模块404，如下：

(1)第一获取模块401；

第一获取模块401，用于获取待匹配的音频数据集。

例如，第一获取模块401，具体可以从网络、手机、视频、图像采集设备或者其他终端等各种途径来获取音频数据集，进而提供给该多媒体数据匹配装置，即，该多媒体数据匹配装置具体可以接收各种途径获取到的音频数据集。

(2)第一分析模块402；

第一分析模块402，用于根据预设策略对该音频数据集的每个音频数据的多种类型进行分析，根据分析结果确定该音频数据集的分类信息。

例如，第一分析模块402，具体可以用于当需要给音频数据集配图时，根据预设策略从预设音频数据库中查找该音频数据集的每个音频数据的类别，并统计该音频数据的类别出现的频率；根据该频率确定该音频数据集的分类信息。

其中，该音频数据集的分类信息可以包括音频数据集的类型、类别和频率等等。

(3)第一解析模块403；

第一解析模块403，用于采用预设分类模型对该预设图片库中的每张图片的类别进行解析，根据该每张图片的类别确定每张图片的分类信息。

例如，当需要给音频数据集配图时，第一解析模块403，具体可以采用预设分类模型对该预设图片库中的每张图片的类别进行打分，并存储结果。以(标签，模型打分)作为每张图的标签得分向量，如果图片的无关度得分过大，则直接剔除出库，等等。

其中，该预设分类模型由多个确定了分类及得分的图片样本训练而成，具体可以有其他设备进行训练后，提供给该多媒体数据匹配装置，或者，也可以由该多媒体数据匹配装置自行进行训练，即该多媒体数据匹配装置，还可以包括训练模块406。该训练模块406可以包括获取子模块和训练子模块。

(1)获取子模块，用于获取多种类型、各类型的多个类别和每个类别对应的多张图片样本作为训练数据集。

例如，获取子模块，具体可以用于获取多种类型，以及各类型的多个类别，对每个类别建立至少一个搜索关键字，利用该关键字在网络上查找多个类别对应的多张图片样本，或者，也可以在预设音乐库中查找含有各类别的音乐集和/或音乐短片等的封面图片样本，以及与该类别无关的多张纯色图片、纯纹理图片、或logo图片等与音乐类型无关的图片样本，等等。将该多张目标图片样本和多张无关图片样本作为训练数据集，即获取子模块4061可以用于：

可选的，获取子模块，还可以用于将该训练数据集进行数据清洗，比如，利用公开图像识别模型或者人工等剔除明显错误分类或重复的图片样本，等等，得到最终的训练数据集。

(2)训练子模块，用于根据该训练数据集对预设的分类模型进行训练，得到分类模型。

例如，训练子模块，具体可以用于对该训练数据集的图片样本提取目标特征信息，根据该目标特征信息对该图片样本进行分析，为了使模型的准确率高且鲁棒性强，可以利用多个全连接层子网络分别得到该多种类型的得分预测值，即每个全连接层子网络分别输出一个类型的结果，包括多个对应类别得分和1个无关度得分。获取训练数据集的得分真实值，根据该得分真实值和得分预测值对预设的分类模型进行收敛，比如，可以使用带有掩码的二值化交叉熵作为损失函数，即对于每个输入样本，只计算其标注所属类型内部的二值化交叉熵，得到分类模型。

(4)第一匹配模块404；

第一匹配模块404，用于基于音频数据集的分类信息在该预设数据库中查找与该音频数据集的分类信息匹配的图片，得到至少一张匹配的图片。

例如，第一匹配模块404，具体可以用于当需要给音频数据集配图时，根据该音频数据集的分类信息确定音频数据集的得分向量，根据该图片的分类信息确定图片的得分向量，在预设图片库中搜索与该音频数据集的得分向量距离最小的该图片的得分向量，得到至少一张匹配的图片。

可选的，为了使多媒体数据的匹配性更好，更好的体现多媒体的属性，匹配模块404还可以用于设置每种类型的权重，并根据该类型的权重计算该音频数据集的得分向量和该图片的得分向量的距离，在预设图片库中搜索距离最小的图片，得到至少一张与该音频数据集匹配的图片。

可选的，在得到至少一张与该音频数据集匹配的图片后，可以将该匹配的第二多媒体数据与该第一多媒体数据集进行融合，得到融合的多媒体数据。

其中，融合方式可以有很多种，比如，可以根据具体情况建立第一多媒体数据集和一个第二多媒体数据之间的对应关系，或者第一多媒体数据集和多个第二多媒体数据之间的对应关系，等等。可以将这些对应关系存储在多媒体融合装置中，或者也可以保存在网络设备中并发送给其他设备，等等。也可以将第一多媒体数据集和第二多媒体数据存储于网页插件中，点击该插件可以同时播放，等等。

本领域技术人员可以理解，图4a中示出的多媒体数据匹配装置并不构成对装置的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。此外，需说明的是，上述各个单元的具体实施可参见前面的方法实施例，在此不作赘述。

由上可知，本实施例的多媒体数据匹配装置，第一获取模块401可以获取待匹配的音频数据集，然后，第一分析模块402根据预设策略对该音频数据集的每个音频数据的多种类型进行分析，根据分析结果确定该音频数据集的分类信息，接着，第一解析模块403采用预设分类模型对该预设图片库中的每张图片的类别进行解析，根据该每张图片的类别确定每张图片的分类信息，再然后，由第一匹配模块404基于音频数据集的分类信息在该预设数据库中查找与该音频数据集的分类信息匹配的图片，得到至少一张匹配的图片；该方案通过多媒体数据的多种类型进行分析，且每个类型内可独立输出各类别的得分，可以完整提取多媒体的属性，还可以有效建立图片(或视频)和音乐的双向关联，比如为歌单歌曲配图、为图片视频配乐等等，利用各类型的多个类别数据共同训练模型的底层特征，并考虑未知类型的存在，可以使得模型准确率高且鲁棒性强，通过多种类型分析后融合，可以有效地提高多媒体数据之间关联度的准确性。

例如，如图4b所示，多媒体数据匹配装置可以包括第二获取模块411、第二分析模块412、第二解析模块413、以及第二匹配模块414，如下：

(1)第二获取模块411；

第二获取模块411，用于获取待匹配的图片集。

例如，第二获取模块411，具体可以从网络、手机、视频、图像采集设备或者其他终端等各种途径来获取第一多媒体数据集，进而提供给该多媒体数据匹配装置，即，该多媒体数据匹配装置具体可以接收各种途径获取到的第一多媒体数据集。

(2)第二分析模块412；

第二分析模块412，用于采用预设分类模型对该图片集的每张图片的类型进行分析，根据分析结果确定该图片集的分类信息。

例如，第二分析模块412，具体可以用于当需要给视频或者图片集等配乐时，可以对多张视频截图或者图片集中的每张图片进行标签打分，然后统计每个标签的平均得分。可选的，如某张图片或截图的无关度得分过大，则不计入后续统计。

可选的，第二分析模块412，具体可以用于当需要给视频或者图片集等配乐时，采用预设分类模型对该图片集的每张图片的类型进行分析，得到图片每个类别的得分，并计算该图片集每个类别的平均得分；判断该类别的平均得分是否超过预设阈值，若该类别的平均得分超过预设阈值，则确定该类别为该图片集的分类信息。

例如，获取子模块，具体可以用于获取多种类型，以及各类型的多个类别，对每个类别建立至少一个搜索关键字，利用该关键字在网络上查找多个类别对应的多张图片样本，或者，也可以在预设音乐库中查找含有各类别的音乐集和/或音乐短片等的封面图片样本，以及与该类别无关的多张纯色图片、纯纹理图片、或logo图片等与音乐类型无关的图片样本，等等。将该多张目标图片样本和多张无关图片样本作为训练数据集，即获取子模块可以用于：

(3)第二解析模块413；

第二解析模块413，用于解析预设数据库里音频数据集的每个音频数据的多种类型，以确定每个音频数据的分类信息。

例如，第二解析模块413，具体也可以用于当需要给视频或者图片集等配时乐，查找存储于预设音频数据库中音频数据集的每种音频数据的类别，根据该音频数据的类别确定音频数据的分类信息。

(4)第二匹配模块414；

第二匹配模块414，用于基于图片集的分类信息在该预设数据库中查找与该图片集的分类信息匹配的音频数据，得到至少一个匹配的音频数据。

例如，第二匹配模块414，具体也可以用于当需要给视频或者图片集等配乐时，在预设音频数据库中搜索与该图片集的分类信息重合个数最多的音频数据，得到至少一个匹配的音频数据。

可选的，为了使多媒体数据的匹配性更好，更好的体现多媒体的属性，第二匹配模块414还可以用于设置每种类型的权重，并根据该类型的权重计算该图片集的分类信息重合个数之和，在预设音频数据库中搜索重合个数之和最多的音频数据，得到至少一个匹配的音频数据。

可选的，在得到至少一个匹配的音频数据后，可以将该匹配的第二多媒体数据与该第一多媒体数据集进行融合，得到融合的多媒体数据。

本领域技术人员可以理解，图4b中示出的多媒体数据匹配装置并不构成对装置的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。此外，需说明的是，上述各个单元的具体实施可参见前面的方法实施例，在此不作赘述。

由上可知，本实施例的多媒体数据匹配装置，第二获取模块411可以获取待匹配的图片集，然后，第二分析模块412采用预设分类模型对该图片集的每张图片的类型进行分析，根据分析结果确定该图片集的分类信息，接着，第二解析模块413解析预设数据库里音频数据集的每个音频数据的多种类型，以确定每个音频数据的分类信息，再然后，由第二匹配模块414基于图片集的分类信息在该预设数据库中查找与该图片集的分类信息匹配的音频数据，得到至少一个匹配的音频数据；该方案通过多媒体数据的多种类型进行分析，且每个类型内可独立输出各类别的得分，可以完整提取多媒体的属性，还可以有效建立图片(或视频)和音乐的双向关联，比如为歌单歌曲配图、为图片视频配乐等等，利用各类型的多个类别数据共同训练模型的底层特征，并考虑未知类型的存在，可以使得模型准确率高且鲁棒性强，通过多种类型分析后融合，可以有效地提高多媒体数据之间关联度的准确性。

相应的，本发明实施例还提供一种网络设备，该网络设备可以为服务器或终端等设备，其集成了本发明实施例所提供的任一种多媒体数据匹配装置。如图5所示，其示出了本发明实施例所涉及的网络设备的结构示意图，具体来讲：

该网络设备可以包括一个或者一个以上处理核心的处理器501、一个或一个以上计算机可读存储介质的存储器502、电源503和输入单元504等部件。本领域技术人员可以理解，图5中示出的网络设备结构并不构成对网络设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器501是该网络设备的控制中心，利用各种接口和线路连接整个网络设备的各个部分，通过运行或执行存储在存储器502内的软件程序和/或模块，以及调用存储在存储器502内的数据，执行网络设备的各种功能和处理数据，从而对网络设备进行整体监控。可选的，处理器501可包括一个或多个处理核心；优选的，处理器501可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器501中。

存储器502可用于存储软件程序以及模块，处理器501通过运行存储在存储器502的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器502可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据网络设备的使用所创建的数据等。此外，存储器502可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器502还可以包括存储器控制器，以提供处理器501对存储器502的访问。

网络设备还包括给各个部件供电的电源503，优选的，电源503可以通过电源管理系统与处理器501逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源503还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该网络设备还可包括输入单元504，该输入单元504可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，网络设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，网络设备中的处理器501会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器502中，并由处理器501来运行存储在存储器502中的应用程序，从而实现各种功能，如下：

获取待匹配的音频数据集，然后，根据预设策略对该音频数据集的每个音频数据的多种类型进行分析，根据分析结果确定该音频数据集的分类信息，接着，采用预设分类模型对该预设图片库中的每张图片的类别进行解析，根据该每张图片的类别确定每张图片的分类信息，再然后，基于音频数据集的分类信息在该预设数据库中查找与该音频数据集的分类信息匹配的图片，得到至少一张匹配的图片。

或者

获取待匹配的图片集，然后，采用预设分类模型对该图片集的每张图片的类型进行分析，根据分析结果确定该图片集的分类信息，接着，解析预设数据库里音频数据集的每个音频数据的多种类型，以确定每个音频数据的分类信息，再然后，基于图片集的分类信息在该预设数据库中查找与该图片集的分类信息匹配的音频数据，得到至少一个匹配的音频数据。

以上各个操作具体可参见前面的实施例，在此不再赘述。

由上可知，本实施例的方案通过多媒体数据的多种类型进行分析，且每个类型内可独立输出各类别的得分，可以完整提取多媒体的属性，还可以有效建立图片(或视频)和音乐的双向关联，比如为歌单歌曲配图、为图片视频配乐等等，利用各类型的多个类别数据共同训练模型的底层特征，并考虑未知类型的存在，可以使得模型准确率高且鲁棒性强，通过多种类型分析后融合，可以有效地提高多媒体数据之间关联度的准确性。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请实施例所提供的任一种多媒体数据匹配方法中的步骤。例如，该指令可以执行如下步骤：

或者

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本申请实施例所提供的任一种多媒体数据匹配方法中的步骤，因此，可以实现本申请实施例所提供的任一种应用于多媒体数据匹配方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种多媒体数据匹配方法、装置和存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种多媒体数据匹配方法，其特征在于，包括：

获取待匹配的音频数据集；

采用预设分类模型对所述预设图片库中的每张图片的类别进行解析，根据所述每张图片的类别确定每张图片的分类信息；

根据所述音频数据集的分类信息确定音频数据集的得分向量，包括：从预设音频库中查找所述音频数据集中每个音频的标签以及所述标签出现的频率，将所述标签以及频率作为所述音频数据集的得分向量；

根据所述图片的分类信息确定图片的得分向量，包括：从所述预设图片库中获取所述图片的标签，用所述预设分类模型对所述图片进行打分，将所述标签以及打分作为所述图片的得分向量；

设置每种类型的权重，并根据所述类型的权重计算所述音频数据集的得分向量和所述图片的得分向量的距离，所述距离为欧氏距离或余弦距离；

在预设图片库中搜索距离最小的图片，得到至少一张与所述音频数据集匹配的图片。

2.根据权利要求1所述多媒体数据匹配方法，其特征在于，所述根据预设策略对所述音频数据集的每个音频数据的多种类型进行分析，根据分析结果确定所述音频数据集的分类信息，包括：

根据所述频率确定所述音频数据集的分类信息。

3.根据权利要求1至2任一项所述多媒体数据匹配方法，其特征在于，所述采用预设分类模型对所述预设图片库中的每张图片的类别进行解析之前，还包括：

4.根据权利要求3所述多媒体数据匹配方法，其特征在于，所述获取多种类型、各类型的多个类别和每个类别对应的多张图片样本作为训练数据集，包括：

5.根据权利要求3所述多媒体数据匹配方法，其特征在于，所述根据所述训练数据集对预设的分类模型进行训练，得到分类模型，包括：

对所述训练数据集的图片样本提取目标特征信息；

6.一种多媒体数据匹配方法，其特征在于，包括：

获取待匹配的图片集；

7.根据权利要求6所述多媒体数据匹配方法，其特征在于，所述采用预设分类模型对所述图片集的每张图片的类型进行分析，根据分析结果确定所述图片集的分类信息，包括：

8.根据权利要求6所述多媒体数据匹配方法，其特征在于，所述解析预设数据库里音频数据集的每个音频数据的多种类型，以确定每个音频数据的分类信息，包括：

根据所述音频数据的类别确定音频数据的分类信息。

9.根据权利要求6-8任一项所述多媒体数据匹配方法，其特征在于，所述采用预设分类模型对所述图片集的每张图片的类型进行分析之前，还包括：

10.根据权利要求9所述多媒体数据匹配方法，其特征在于，所述获取多种类型、各类型的多个类别和每个类别对应的多张图片样本作为训练数据集，包括：

11.根据权利要求9所述多媒体数据匹配方法，其特征在于，所述根据所述训练数据集对预设的分类模型进行训练，得到分类模型，包括：

对所述训练数据集的图片样本提取目标特征信息；

12.一种多媒体数据匹配装置，其特征在于，包括：

第一获取模块，用于获取待匹配的音频数据集；

第一匹配模块，用于根据所述音频数据集的分类信息确定音频数据集的得分向量，包括，从预设音频库中查找所述音频数据集中每个音频的标签以及所述标签出现的频率，将所述标签以及频率作为所述音频数据集的得分向量，根据所述图片的分类信息确定图片的得分向量，包括，从所述预设图片库中获取所述图片的标签，用所述预设分类模型对所述图片进行打分，将所述标签以及打分作为所述图片的得分向量，设置每种类型的权重，并根据所述类型的权重计算所述音频数据集的得分向量和所述图片的得分向量的距离，所述距离为欧氏距离或余弦距离，在预设数据库中搜索距离最小的图片，得到至少一张与所述音频数据集匹配的图片。

13.一种多媒体数据匹配装置，其特征在于，包括：

第二获取模块，用于获取待匹配的图片集；

第二匹配模块，用于设置每种类型的权重，并根据所述类型的权重计算所述图片集的分类信息重合个数之和，在预设音频数据库中搜索重合个数之和最多的音频数据，得到至少一个匹配的音频数据。

14.一种存储介质，其特征在于，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至11任一项所述的多媒体数据匹配方法中的步骤。