CN110110626A

CN110110626A - 一种视频情感类别识别方法、装置及电子设备

Info

Publication number: CN110110626A
Application number: CN201910333127.8A
Authority: CN
Inventors: 陆瀛海
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2019-04-24
Filing date: 2019-04-24
Publication date: 2019-08-09

Abstract

本发明实施例提供了一种视频情感类别识别方法、装置及电子设备，该方法包括：获取待识别的目标视频；提取所述目标视频的音频数据的音频特征；将所述音频特征输入预先训练的神经网络模型，得到所述目标视频的情感类别识别结果；其中，所述神经网络模型是根据样本视频和所述样本视频的情感类别训练得到的、用于对视频进行情感类别识别的模型，所述样本视频的情感类别为根据所述样本视频的音频数据所确定的类别。本发明实施例可以降低对视频进行情感类别识别的复杂度。

Description

一种视频情感类别识别方法、装置及电子设备

技术领域

本发明涉及视频处理技术领域，特别是涉及一种视频情感类别识别方法、装置及电子设备。

背景技术

随着科技的日益进步和互联网的普及，越来越多的人通过视频来传输信息和分享生活，所以视频推荐显得日益重要。为了精准地进行视频推荐，在视频推荐过程中，对视频进行情感类别识别是非常重要的一个环节。对视频进行情感类别识别是指：基于视频的内容，识别视频的情感类别，该情感类别有多种，例如，该情感类别可以有：高兴、悲伤、恐惧、激烈、舒缓等。

目前，对视频进行情感类别识别的方法是：分析待识别视频的视频画面，来确定视频的情感类别。然而，由于视频画面所涵盖的数据内容较多，直接分析待识别视频的视频画面，来确定待识别视频的情感类别，导致识别过程较为复杂。因此，如何降低对视频进行情感类别识别的复杂度，是一个亟待解决的问题。

发明内容

本发明实施例的目的在于提供一种视频情感类别识别方法、装置及电子设备，以降低对视频进行情感类别识别的复杂度。具体技术方案如下：

第一方面，本发明实施例提供了一种视频情感类别识别方法，包括：

获取待识别的目标视频；

提取所述目标视频的音频数据的音频特征；

将所述音频特征输入预先训练的神经网络模型，得到所述目标视频的情感类别识别结果；其中，所述神经网络模型是根据样本视频和所述样本视频的情感类别训练得到的、用于对视频进行情感类别识别的模型，所述样本视频的情感类别为根据所述样本视频的音频数据所确定的类别。

可选地，所述目标视频的音频数据包括：所述目标视频的配乐；

所述样本视频的音频数据包括：所述样本视频的配乐。

可选地，所述音频特征包括：频域特征和/或时域特征。

可选地，所述神经网络模型的训练过程，包括：

获取所述样本视频以及所述样本视频的情感类别；

提取所述样本视频的音频数据的样本音频特征；

利用所述样本音频特征和所述样本视频的情感类别，训练初始的神经网络模型，得到训练完成的神经网络模型。

可选地，所述获取所述样本视频，包括：

确定多个音频，每一音频对应一种情感类别；

针对每一音频，确定该音频所对应的多个视频，该音频所对应的每一视频为：以该音频作为配乐的视频；

将所确定的视频作为所述样本视频。

可选地，所述神经网络模型为多分类神经网络模型；所述将所述音频特征输入预先训练的神经网络模型，得到所述目标视频的情感类别识别结果，包括：

将所述音频特征输入预先训练的神经网络模型，得到所述目标视频对应的多个概率值；其中，每个概率值为：所述目标视频的多种情感类别中的一种的概率；

将所述多个概率值中最大概率值对应的情感类别，判定为所述目标视频的情感类别识别结果。

第二方面，本发明实施例提供了一种视频情感类别识别装置，包括：

第一获取模块，用于获取待识别的目标视频；

第一提取模块，用于提取所述目标视频的音频数据的音频特征；

输入模块，用于将所述音频特征输入预先训练的神经网络模型，得到所述目标视频的情感类别识别结果；其中，所述神经网络模型是根据样本视频和所述样本视频的情感类别训练得到的、用于对视频进行情感类别识别的模型，所述样本视频的情感类别为根据所述样本视频的音频数据所确定的类别。

所述样本视频的音频数据包括：所述样本视频的配乐。

可选地，所述音频特征包括：频域特征和/或时域特征。

可选地，所述装置还包括：

第二获取模块，用于获取所述样本视频以及所述样本视频的情感类别；

第二提取模块，用于提取所述样本视频的音频数据的样本音频特征；

训练模块，用于利用所述样本音频特征和所述样本视频的情感类别，训练初始的神经网络模型，得到训练完成的神经网络模型。

可选地，所述第二获取模块，具体用于确定多个音频，每一音频对应一种情感类别；针对每一音频，确定该音频所对应的多个视频，该音频所对应的每一视频为：以该音频作为配乐的视频；将所确定的视频作为所述样本视频。

可选地，所述神经网络模型为多分类神经网络模型；

所述输入模块，具体用于将所述音频特征输入预先训练的神经网络模型，得到所述目标视频对应的多个概率值；其中，每个概率值为：所述目标视频的多种情感类别中的一种的概率；将所述多个概率值中最大概率值对应的情感类别，判定为所述目标视频的情感类别识别结果。

第三方面，本发明实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，所述处理器、所述通信接口、所述存储器通过所述通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现如上第一方面所述的视频情感类别识别方法步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现如上第一方面所述的视频情感类别识别方法步骤。

本发明实施例提供的方案，预先根据样本视频和样本视频的情感类别训练神经网络模型。进而，在对目标视频进行情感类别识别时，提取目标视频的音频数据的音频特征，将该音频特征输入预先训练的神经网络模型，得到目标视频的情感类别识别结果。本发明实施例由于利用训练的神经网络模型分析目标视频的音频数据的音频特征，来获得目标视频的情感类别识别结果，相比于分析目标视频的视频画面获得目标视频的情感类别识别结果，在识别过程中处理简单，因而可以降低对视频进行情感类别识别的复杂度。另外，在实际应用中，使用相同的音频数据制作的视频，其视频的情感类别均相同或相似，因而，本发明实施例根据样本视频的音频数据确定样本视频的情感类别，可以获得大量的有标注的训练样本。进一步通过利用大量有标注的训练样本训练的神经网络模型，来对目标视频进行情感类别识别，可以提高对视频进行情感类别识别的效果。

当然，实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例提供的一种视频情感类别识别方法的流程图；

图2为本发明实施例提供的一种视频情感类别识别装置的结构图；

图3本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

为了解决现有技术问题，本发明实施例提供了一种视频情感类别识别方法、装置及电子设备。

需要说明的是，本发明实施例提供的一种视频情感类别识别方法可以应用于电子设备中。在具体应用中，该电子设备可以是各种终端设备，例如：计算机、智能手机、平板电脑，也可以是服务器，本发明对此并不限定。

如图1所示，本发明实施例提供的一种视频情感类别识别方法，可以包括如下步骤：

S101，获取待识别的目标视频。

当电子设备需要对某一视频进行情感类别识别时，可以将该视频作为待识别的目标视频。该目标视频可以是时长较短的短视频，也可以是时长较长的普通视频。

在本申请中，目标视频是含有音频数据的视频。其中，音频数据的形式可以有多种。例如，音频数据可以是目标视频的配乐，具体的，目标视频的配乐可以是由一种或多种乐器演奏形成的纯器乐音乐，也可以是由一个或多个人演唱形成的声乐音乐，还可以是由一种或多种乐器演奏，以及由一个或多个人演唱形成的组合音乐。

又例如，音频数据可以是目标视频的视频画面对应的音乐，如当目标视频的视频画面是一个歌手在演唱歌曲，则目标视频的视频画面对应的音乐为：该目标视频中该歌手演唱该歌曲形成的声乐音乐。又如当目标视频的视频画面是一个演奏者在演奏乐器，则目标视频的视频画面对应的音乐为：该目标视频中该演奏者演奏该乐器形成的器乐音乐。

S102，提取目标视频的音频数据的音频特征。

为了对目标视频进行情感类别识别，电子设备可以对目标视频进行降维，利用降维得到的数据对目标视频进行情感类别识别。其中，降维的方式可以有多种，在一种方式中，可以是：电子设备提取目标视频的音频数据，从而利用该音频数据对目标视频进行情感类别识别。进一步地，电子设备可以提取该音频数据的音频特征。可以理解的，目标视频的音频数据，例如：目标视频的配乐或目标视频的视频画面对应的音乐等，往往可以体现出目标视频的情感类别。即目标视频的情感类别往往可以通过目标视频的音频数据体现出来。而上述音频特征包含了目标视频的音频数据的大量信息，因此，电子设备可以利用该音频特征来获得目标视频的情感类别识别结果。

可选地，目标视频的音频数据可以包括：目标视频的配乐。该配乐可以是声乐音乐、器乐音乐或二者的组合音乐。

可选地，音频数据的音频特征可以包括：频域特征和/或时域特征。即，电子设备可以提取音频数据的频域特征和/或时域特征。当然，音频特征还可以包括一些其他的与音频相关的特征，这里并不限定。

音频特征的提取方式存在多种，具体的，不同的音频数据和不同的音频特征，相应地，可以对应有不同的提取方式。以音频数据包括配乐，以及音频特征包括频域特征为例，该音频特征可以是对配乐的音频进行傅里叶变换所得的特征。也就是说，提取目标视频的配乐的音频特征的方式可以是：对配乐的音频进行傅里叶变换，从而得到音频特征。傅里叶变换表示能将满足一定条件的某个函数表示成三角函数(正弦和/或余弦函数)或者它们的积分的线性组合。在音频领域，对音频进行傅里叶变换，可以分析音频的频域特性，得到音频的频域特征。

S103，将音频特征输入预先训练的神经网络模型，得到目标视频的情感类别识别结果。

其中，神经网络模型是根据样本视频和样本视频的情感类别训练得到的、用于对视频进行情感类别识别的模型，样本视频的情感类别为根据样本视频的音频数据所确定的类别。

为了对目标视频进行情感类别识别，可以预先根据样本视频和样本视频的情感类别训练神经网络模型。进而，在训练好神经网络模型后，可以将目标视频的音频数据的音频特征输入训练好的神经网络模型，使得训练好的神经网络模型输出目标视频的情感类别识别结果。本实施例中，可以设定多种情感类别，例如：高兴、悲伤、恐惧、激烈、舒缓等。那么，训练好的神经网络模型可以输出：目标视频的情感类别为多种情感类别中的某一种的情感类别识别结果。

可选地，神经网络模型的训练过程，可以包括如下步骤A1-A3：

步骤A1，获取样本视频以及样本视频的情感类别。

其中，样本视频和样本视频的情感类别是训练神经网络模型的训练样本。训练样本的个数可以根据经验或实际需要进行设定。样本视频的获取方式可以有多种，为了布局清晰，将在下文中进行介绍。本实施例中，在获取样本视频后，可以通过人工方式确定样本视频的情感类别，即通过人工方式确定出每一样本视频为上述多种情感类别中的哪一种。由于对每一样本视频的情感类别为上述多种情感类别中的某一种，所以，从这一角度样本视频可以包括：情感类别分别为多种情感类别中的一种的样本视频。示例性的，多种情感类别包括：高兴、悲伤和恐惧，那么样本视频至少包括：一情感类别为高兴的样本视频、一情感类别为悲伤的样本视频和一情感类别为恐惧的样本视频。

步骤A2，提取样本视频的音频数据的样本音频特征。

在获取样本视频以及样本视频的情感类别之后，可以进一步提取样本视频的音频数据的样本音频特征，从而可以利用样本音频特征和样本视频的情感类别，训练神经网络模型。

提取样本视频的音频数据的样本音频特征的方式可以参考S102中提取目标视频的音频数据的音频特征的方式，这里不再赘述。

需要说明的是，训练神经网络模型的所利用的样本视频的音频数据的形式，和目标视频的音频数据的形式具有一致性。而且，样本音频特征的具体形式，和音频特征的具体形式也具有一致性。即如果目标视频的音频数据包括：目标视频的配乐，则样本视频的音频数据也包括：样本视频的配乐。如果音频特征包括：频域特征，则样本音频特征也包括：频域特征。

步骤A3，利用样本音频特征和样本视频的情感类别，训练初始的神经网络模型，得到训练完成的神经网络模型。

其中，初始的神经网络模型可以是现有的任一种神经网络模型。示例性地，初始的神经网络模型的结构可以是：卷积神经网络+softmax结构。

利用样本音频特征和样本视频的情感类别，训练初始的神经网络模型的过程为：不断地调整模型中的参数，使得模型不断收敛到设定的收敛条件，则模型训练完成。当训练好神经网络模型后，就可以利用该训练好的神经网络模型对目标视频进行情感类别识别。

其中，神经网络模型可以为多分类神经网络模型，即神经网络模型可以输出属于多种情感类别中每一种的概率值。那么，可选地，在一种实现方式中，将音频特征输入预先训练的神经网络模型，得到目标视频的情感类别识别结果，可以包括如下步骤B1-B2：

步骤B1：将音频特征输入预先训练的神经网络模型，得到目标视频对应的多个概率值；其中，每个概率值为：目标视频的多种情感类别中的一种的概率；

步骤B2：将多个概率值中最大概率值对应的情感类别，判定为目标视频的情感类别识别结果。

具体的，由于神经网络模型为多分类神经网络模型，因而，将音频特征输入预先训练的神经网络模型后，可以得到目标视频对应的多个概率值。概率值的个数与样本视频的情感类别的数量具有一致性。例如，样本视频包括有a、b、c三种不同情感类别的样本视频，那么，将音频特征输入预先训练的神经网络模型后，可以得到：目标视频的情感类别a的概率值、目标视频的情感类别b的概率值、目标视频的情感类别c的概率值。需要说明的是，输出的所有概率值之和为1。

进一步地，可以将多个概率值中最大概率值对应的情感类别，判定为目标视频的情感类别识别结果。某一个概率值最大，说明目标视频的情感类别为该概率值对应的情感类别的可能性最大，则可以将该概率值对应的情感类别作为目标视频的情感类别识别结果。

本发明实施例提供的方案，预先根据样本视频和样本视频的情感类别训练神经网络模型。进而，在对目标视频进行情感类别识别时，提取目标视频的音频数据的音频特征，将该音频特征输入预先训练的神经网络模型，得到目标视频的情感类别识别结果。本发明实施例由于利用训练的神经网络模型分析目标视频的音频数据的音频特征，来获得目标视频的情感类别识别结果，相比于分析目标视频的视频画面获得目标视频的情感类别识别结果，在识别过程中处理简单，因而可以降低对视频进行情感类别识别的复杂度。另外，在实际应用中，很多视频可以具有相同的音频数据，因而，本发明实施例根据样本视频的音频数据确定样本视频的情感类别，可以获得大量的有标注的训练样本。进一步通过利用大量有标注的训练样本训练的神经网络模型，来对目标视频进行情感类别识别，可以提高对视频进行情感类别识别的效果。

下面对上述步骤A1中获取样本视频的方式进行介绍。在一种实现方式中，获取样本视频，可以包括如下步骤C1-C3：

步骤C1：确定多个音频，每一音频对应一种情感类别。

本实现方式中，为了获取可以包括有多种情感类别的样本视频。可以先确定出多个音频，这里，每一音频对应一种情感类别。示例性的，将三首对应不同情感类别的歌曲作为三个音频。

步骤C2：针对每一音频，确定该音频所对应的多个视频，该音频所对应的每一视频为：以该音频作为配乐的视频。

在实际应用中，很多视频可以具有相同的音频数据。即很多视频的视频画面不同，但可以具有相同的音频数据。基于这一特点，在确定出多个音频后，可以针对每一音频，确定该音频所对应的多个视频。这里，该音频所对应的每一视频为：以该音频作为配乐的视频。

具体的，可以针对每一音频，可以在预设视频库中，确定该音频所对应的多个视频。这样，就可以获得大量的训练样本。通常，一个音频对应的视频的数量可以达到10万以上。

例如，针对确定出的音频m，在预设视频库中，确定出以该音频m作为配乐的10万个视频。

步骤C3：将所确定的视频作为样本视频。

在确定出每一音频所对应的多个视频后，可以将所确定的视频作为样本视频。这样，就获得了大量的训练样本。通过利用大量有标注的训练样本训练的神经网络模型，来对目标视频进行情感类别识别，可以提高对视频进行情感类别识别的效果。

相应于图1所示方法实施例，本发明实施例提供了一种视频情感类别识别装置，如图2所示，所述装置包括：

第一获取模块201，用于获取待识别的目标视频；

第一提取模块202，用于提取所述目标视频的音频数据的音频特征；

输入模块203，用于将所述音频特征输入预先训练的神经网络模型，得到所述目标视频的情感类别识别结果；其中，所述神经网络模型是根据样本视频和所述样本视频的情感类别训练得到的、用于对视频进行情感类别识别的模型，所述样本视频的情感类别为根据所述样本视频的音频数据所确定的类别。

所述样本视频的音频数据包括：所述样本视频的配乐。

可选地，所述音频特征包括：频域特征和/或时域特征。

可选地，所述装置还包括：

可选地，所述神经网络模型为多分类神经网络模型；

所述输入模块203，具体用于将所述音频特征输入预先训练的神经网络模型，得到所述目标视频对应的多个概率值；其中，每个概率值为：所述目标视频的多种情感类别中的一种的概率；将所述多个概率值中最大概率值对应的情感类别，判定为所述目标视频的情感类别识别结果。

本发明实施例还提供了一种电子设备，如图3所示，包括处理器301、通信接口302、存储器303和通信总线304，其中，处理器301，通信接口302，存储器303通过通信总线304完成相互间的通信，

存储器303，用于存放计算机程序；

处理器301，用于执行存储器303上所存放的程序时，实现上述实施例中任一的视频情感类别识别方法，以获得相同的技术效果。其中，一种视频情感类别识别方法，包括：

获取待识别的目标视频；

提取所述目标视频的音频数据的音频特征；

所述样本视频的音频数据包括：所述样本视频的配乐。

可选地，所述音频特征包括：频域特征和/或时域特征。

可选地，其特征在于，所述神经网络模型的训练过程，包括：

获取所述样本视频以及所述样本视频的情感类别；

提取所述样本视频的音频数据的样本音频特征；

可选地，所述获取所述样本视频，包括：

确定多个音频，每一音频对应一种情感类别；

将所确定的视频作为所述样本视频。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一的视频情感类别识别方法，以获得相同的技术效果。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一的视频情感类别识别方法，以获得相同的技术效果。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本发明实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置/电子设备/存储介质/计算机程序产品实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种视频情感类别识别方法，其特征在于，包括：

获取待识别的目标视频；

提取所述目标视频的音频数据的音频特征；

2.根据权利要求1所述的方法，其特征在于，所述目标视频的音频数据包括：所述目标视频的配乐；

所述样本视频的音频数据包括：所述样本视频的配乐。

3.根据权利要求1或2所述的方法，其特征在于，所述音频特征包括：频域特征和/或时域特征。

4.根据权利要求1或2所述的方法，其特征在于，所述神经网络模型的训练过程，包括：

获取所述样本视频以及所述样本视频的情感类别；

提取所述样本视频的音频数据的样本音频特征；

5.根据权利要求4所述的方法，其特征在于，所述获取所述样本视频，包括：

确定多个音频，每一音频对应一种情感类别；

将所确定的视频作为所述样本视频。

6.根据权利要求1或2所述的方法，其特征在于，所述神经网络模型为多分类神经网络模型；所述将所述音频特征输入预先训练的神经网络模型，得到所述目标视频的情感类别识别结果，包括：

7.一种视频情感类别识别装置，其特征在于，包括：

第一获取模块，用于获取待识别的目标视频；

8.根据权利要求7所述的装置，其特征在于，所述目标视频的音频数据包括：所述目标视频的配乐；

所述样本视频的音频数据包括：所述样本视频的配乐。

9.根据权利要求7或8所述的装置，其特征在于，所述音频特征包括：频域特征和/或时域特征。

10.根据权利要求7或8所述的装置，其特征在于，所述装置还包括：

11.根据权利要求10所述的装置，其特征在于，

所述第二获取模块，具体用于确定多个音频，每一音频对应一种情感类别；针对每一音频，确定该音频所对应的多个视频，该音频所对应的每一视频为：以该音频作为配乐的视频；将所确定的视频作为所述样本视频。

12.根据权利要求7或8所述的装置，其特征在于，所述神经网络模型为多分类神经网络模型；

13.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，所述处理器、所述通信接口、所述存储器通过所述通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现权利要求1-6任一所述的方法步骤。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-6任一项所述的方法步骤。