CN113434731A

CN113434731A - 音乐视频流派分类方法、装置、计算机设备及存储介质

Info

Publication number: CN113434731A
Application number: CN202110742887.1A
Authority: CN
Inventors: 张旭龙; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2021-09-24
Anticipated expiration: 2041-06-30
Also published as: CN113434731B

Abstract

本发明涉及语音语义和图像检测领域，具体公开了一种音乐视频流派分类方法、装置、计算机设备及存储介质，其方法通过对音乐视频中的视频数据进行视频片段划分，计算视频片段的若干帧间光流并输入预设的时域风格卷积网络，得到与视频片段对应的第一音乐流派分类结果；提取视频片段的关键帧图像，从音乐视频的音频数据中截取与关键帧图像对应的关键音频数据并输入预设的空间风格卷积网络，得到与视频片段对应的第二音乐流派分类结果；根据若干视频片段的第一音乐流派分类结果和第二音乐流派分类结果的加权平均值，确定该音乐视频的音乐流派类别。本发明综合考虑了音乐视频中的音频内容和视频内容对音乐流派的分类影响，分类的精确度高。

Description

音乐视频流派分类方法、装置、计算机设备及存储介质

技术领域

本发明涉及语音语义和图像检测领域，尤其涉及一种音乐视频流派分类方法、装置、计算机设备及存储介质。

背景技术

随着互联网技术的不断发展，用户可随时随地从互联网获取到海量的音乐视频以满足其在娱乐、工作等方面的需求。而为满足用户的不同偏好或者满足用户的不同工作需求，使用户可以快速检索并获取到其所需的音乐视频，需要对音乐视频进行流派分类。

传统的音乐视频流派分类方法，仅通过提取出音乐视频中有关流派识别的特征音频信息，再根据提取出的特征音频信息对音乐视频进行流派分类，得到音乐视频的流派。即仅考虑到不同音乐流派的特征音频信息的差异这一因素，而并未考虑其他影响因素。

但是，由于不同的音乐流派之间存在交叉部分，且需要综合考虑其他方面的因素才能较好地区分开不同的音乐流派，所以传统的音乐视频流派分类方法仅根据音乐视频的特征音频信息这一因素，进行“一刀切”的分类方式，仍存在分类精确度较差的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种音乐视频流派分类方法、装置、计算机设备及存储介质，以解决现有的音乐视频流派分类方法的分类精确度较差的问题。

一种音乐视频流派分类方法，包括：

获取音乐视频文件，从所述音乐视频文件中提取音频数据和视频数据；将所述视频数据划分成若干视频片段；每个所述视频片段包括若干帧图像；

计算所述视频片段的若干帧间光流，将所述若干帧间光流输入预设的时域风格卷积网络进行处理，得到与所述视频片段对应的第一音乐流派分类结果；

提取所述视频片段的关键帧图像，从所述音频数据中截取与所述关键帧图像对应的关键音频数据，将所述关键音频数据输入预设的空间风格卷积网络进行处理，得到与所述视频片段对应的第二音乐流派分类结果；

计算所述若干视频片段的第一音乐流派分类结果和第二音乐流派分类结果的加权平均值，根据所述加权平均值确定所述音乐视频文件的音乐流派类别。

一种音乐视频流派分类装置，包括：

数据提取模块，用于获取音乐视频文件，从所述音乐视频文件中提取音频数据和视频数据；将所述视频数据划分成若干视频片段；每个所述视频片段包括若干帧图像；

第一音乐流派分类结果获得模块，用于计算所述视频片段的若干帧间光流，将所述若干帧间光流输入预设的时域风格卷积网络进行处理，得到与所述视频片段对应的第一音乐流派分类结果；

第二音乐流派分类结果获得模块，用于提取所述视频片段的关键帧图像，从所述音频数据中截取与所述关键帧图像对应的关键音频数据，将所述关键音频数据输入预设的空间风格卷积网络进行处理，得到与所述视频片段对应的第二音乐流派分类结果；

音乐流派类别确定模块，用于对计算所述若干视频片段的第一音乐流派分类结果和第二音乐流派分类结果的加权平均值，根据所述加权平均值确定所述音乐视频文件的音乐流派类别。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现上述音乐视频流派分类方法。

一个或多个存储有计算机可读指令的可读存储介质，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行如上述音乐视频流派分类方法。

上述音乐视频流派分类方法、装置、计算机设备及存储介质，在对音乐视频的音乐流派进行分类时，对从该音乐视频文件中提取的视频数据进行视频片段划分，计算视频片段的若干帧间光流并输入预设的时域风格卷积网络进行处理，得到与所述视频片段对应的第一音乐流派分类结果；提取视频片段的关键帧图像，从由音乐视频文件中提取出的音频数据中截取与所述关键帧图像对应的关键音频数据并输入预设的空间风格卷积网络进行处理，得到与所述视频片段对应的第二音乐流派分类结果；再计算若干视频片段的第一音乐流派分类结果和第二音乐流派分类结果的加权平均值，从而确定该待分类的音乐视频文件的音乐流派类别。该分类方法不仅考虑到音乐视频中的音频数据对音乐流派分类结果的影响，而且还考虑到音频数据中的视频数据对音乐流派的分类结果的影响。即综合考虑到音乐视频中的音频数据和视频数据，很好地提高了音乐视频的音乐流派的分类结果的精确度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中音乐视频流派分类方法流程示意图；

图2是本发明一实施例中音乐视频流派分类装置的结构示意图；

图3是本发明一实施例中计算机设备的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在一实施例中，如图1所示，提供一种音乐视频流派分类方法，包括如下步骤：

步骤S10，获取音乐视频文件，从所述音乐视频文件中提取音频数据和视频数据；将所述视频数据划分成若干视频片段；每个所述视频片段包括若干帧图像。

音乐视频文件，即MV(music video)，也称“可视歌曲”，其通常既包括音乐歌曲的音频内容(即音频数据)，也包括视频内容(即视频数据)。

在本发明的示例性实施例中，可通过librosa从音乐视频文件中提取出其中的音频数据。Librosa(音频处理库)，是一个用于音频、音乐分析、处理的python工具包，具有时频处理、特征提取、绘制声音图形等功能。

在本发明实施例中，将所述视频数据划分成若干视频片段，包括：

从所述视频数据中提取若干画面切换图像；以所述画面切换图像为裁剪边界帧，将所述视频数据划分成若干个视频片段。

当连续的图像变化每秒超过24帧画面以上时，根据视觉暂留原理，人眼无法辨别单幅的静态画面；看上去是平滑连续的视觉效果，这样连续的画面叫做视频。

在本发明实施例中，视频数据泛指在一个时间段内的连续若干帧画面(即若干帧视频图像)，一个时间点对应一帧视频图像(一个画面)。

其中，在当前时间点的画面内容相较于其前一时间点的画面内容变化较大时，即可认为前一时间点的画面与当前时间点的画面不同，此时，可将当前时间点的画面视为画面切换图像。例如，当前时间点的画面内容是室内场景，而前一时间点的画面内容是室外场景，那么可认为当前时间点的画面与前一时间点的画面不同，此时，可将当前时间点的画面(室内场景)视为画面切换图像。

在本发明的一实施例中，上述从所述视频数据中提取若干画面切换图像，包括：

从所述若干帧视频图像中抽取出相邻的第一帧视频图像和第二帧视频图像；计算所述第一帧视频图像和第二帧视频图像之间的像素点差异值，判断所述像素点差异值是否处于预设的阈值范围；若所述像素点差异值处于预设的阈值范围，则将所述第二帧视频图像确定为画面切换图像。

其中，第一帧视频图像和第二帧视频图像是指从若干帧视频图像中抽取出的时间相邻的两帧视频图像。例如，视频数据是一段总时长为1000毫秒的视频，可先通过预设的时间间隔(例如，100毫秒)从视频中抽取出10帧视频图像，再从这10帧视频图像中抽取出时间点为100毫秒和200毫秒的视频图像，此时，可将时间点为100毫秒的视频图像作为第一帧视频图像，时间点为200毫秒的视频图像作为第二帧视频图像。

像素点差异值，表示第一帧视频图像与第二帧视频图像的像素点大小差值。通常为用第二帧视频图像的像素点大小减去第一帧视频图像的像素点大小所得到的差值。

通常，当像素点差异值大于等于5％时，第二帧视频图像的画面内容相较于第一帧视频图像的画面内容发生了较大的变化，即发生了画面的切换，可将第二帧视频图像确定为画面切换图像。因此，预设的阈值范围可以是大于等于5％。一般地，当像素点差异值达到90％以上时，画面内容已经完全发生切换。例如，画面场景由室内画面切换到室外画面。

在本发明的另一实施例中，上述从所述视频数据中提取若干画面切换图像，包括：

每次从所述若干帧视频图像中抽取出时间连续的k帧视频图像，将所述k帧视频图像输入预设的长短期记忆网络中进行处理，得到各帧视频图像的标签值，将标签值为1的视频图像确定为画面切换图像。

其中，预设的长短期记忆网络可采用现有的时序模型LSTM。

示例性的，假设视频数据包括N帧视频图像，每帧视频图像的原始尺寸大小为720*1080，先通过OpenCV中的reshape函数对每帧视频图像进行图像转换，得到尺寸大小为512*512的N帧转换图像；然后，每次从N帧转换图像中抽取出时间连续的k帧(k＝7)转换图像作为时序模型LSTM的单次输入，以对原始数据N*512*512进行升维得到M*7*512*512，其中，M为N/7的整数。其中，单次输入LSTM中的图像大小为7*512*512，经过LSTM层后输出的图像大小为512*512，再通过flatten(拉平)层进行展平得到向量，再将该向量输入全联接层，经全联接后再接入softmax或sigmoid进行二分类，得到各帧视频图像的标签值(0或1)，将标签值为1的视频图像确定为画面切换图像。

在本发明的一个示例性实施例中，以所述画面切换图像为裁剪边界帧，将所述视频数据划分成若干个视频片段。具体的，可以两帧相邻的画面切换图像为两个裁剪边界帧，将它们之间的若干视频图像划分为一个视频片段。例如，视频数据由10帧视频图像构成(每1秒对应一帧视频图像)，而画面切换图像分别为在第2、3、10秒时的视频图像，那么可以第2秒与第3秒时的视频图像，以及第3秒与第10秒时的视频图像为裁剪边界帧，将视频数据划分成2～3秒、3～10秒两个视频片段。

在本发明的另一个示例性实施例中，当画面切换图像为在第2秒时的视频图像和在第5秒时的视频图像时，即画面切换图像不包括视频数据的最后一个时间点的画面，但为了全面考虑到视频数据的各个时间点的画面，那么可以将视频数据的起始时间点和终点时间点这两个时间点的画面也视为是画面切换图像。此时，可以将具有10帧视频图像的视频数据(每秒对应一帧视频图像)划分为1～2秒、2～5秒、5～10秒三个视频片段。

一般地，音乐视频的流派与关键帧图像的关联性比较大，而对于一些无画面变化的静态场景，则对音乐流派的分类结果的影响较小，所以为了更加高效且准确地得出音乐视频的分类结果，在对视频进行片段划分时，可以不考虑在第一帧画面切换图像出现之前的画面，即在划分片段时，可将该部分的视频图像过滤掉。比如，一个视频前半部分(例如，1～5秒)是静态场景，在第6秒之后才出现画面，此时，第6秒的画面为第一帧画面切换图像，此时，在对该视频进行片段划分时，可以将1～5秒的视频图像过滤掉，从第6秒开始对视频进行片段划分。

步骤S20，计算所述视频片段的若干帧间光流，将所述若干帧间光流输入预设的时域风格卷积网络进行处理，得到与所述视频片段对应的第一音乐流派分类结果。

其中，时域风格卷积网络，可利用带有批归一化的Inception以及batchnormalization构建得到。其中，inception是类似CNN的一种深层网络，具有很好的精度和速度的平衡；使用batch normalization可以优化每一个batch的输入数据，对它们进行归一化使得数据范围更加一致。其中，具体的构建方法为现有技术，可参照现有技术构建并获得时域风格卷积网络，在此不做赘述。

在上述步骤S20中，计算所述视频片段的若干帧间光流，包括：

对所述视频片段中的若干帧图像进行图像缩放处理，得到与所述若干帧图像对应的缩放图像。

在本发明实施例中，视频片段中的每帧图像的原始尺寸大小为720*1080，通过OpenCV中的reshape函数对若干帧图像进行图像缩放处理，以将每帧图像的尺寸大小缩放尺寸大小为512*512，得到缩放图像。

基于稠密光流算法对所述缩放图像进行计算，获得与所述视频片段对应的帧间光流。

在本发明实施例中，对所述缩放图像进行计算，具体可采用opencv中的calcOptivalFlowFarneback()函数，该函数基于Gunnar Farneback算法(稠密光流算法)计算密集光流(即帧间光流)。

在本发明实施例中，基于稠密光流算法对所述缩放图像进行计算，具体的，基于稠密光流算法依次计算视频片段中的每两相邻帧之间的光流图，得到若干光流图，即得到该视频片段的帧间光流。

示例性的，假设一个视频片段中有3帧图像，分别标号为A、B、C，基于稠密光流算法计算出相邻图像A与图像B之间的光流图，以及相邻的图像B与图像C的光流图，即计算得到2张光流图，这2张光流图即代表该视频片段的帧间光流。

在本发明实施例中，上述时域风格卷积网络包含4层卷积层。首先，将尺寸大小为512*512的缩放图像输入时域风格卷积网络后，输出图像大小为64*64矩阵；再在将该64*64矩阵输入分类器的全联接层前，对64*64矩阵进行拉平(flatten)得到大小为64*64的向量，再64*64的向量输入softmax层，之后输出大小为15个音乐流派类别的向量，其中，每个音乐流派类别的向量分别对应一个概率，将音乐流派类别的向量中的最大概率所对应的标签确定为第一音乐流派分类结果。例如，经softmax层输出大小为15个音乐流派类别的向量为[1,2,2,2,3,5,6,2,1,1,2,3,4,5,2]，该向量[1,2,2,2,3,5,6,2,1,1,2,3,4,5,2]的每一项对应一个Softmax函数值，其中，向量中的“6”为拥有最大权重的项，将该拥有最大权重的项所对应的音乐流派确定为第一音乐流派分类结果。若向量中的“6”所对应的音乐流派为“朋克”，则第一音乐流派分类结果为“朋克”。

步骤S30，提取所述视频片段的关键帧图像，从所述音频数据中截取与所述关键帧图像对应的关键音频数据，将所述关键音频数据输入预设的空间风格卷积网络进行处理，得到与所述视频片段对应的第二音乐流派分类结果。

在本发明实施例中，关键帧图像是指在以所述画面切换图像为裁剪边界帧，将所述视频数据划分成若干个视频片段后，每个视频片段中所含有的画面切换图像。

例如，视频数据由10帧视频图像构成，且画面切换图像为在第2秒时的视频图像、在第3秒时的视频图像以及在第10秒时的视频图像，那么将视频数据划分成2～3秒、3～10秒两个视频片段。在2～3秒这一视频片段中，包括两帧画面切换图像(即在第2秒时的视频图像、在第3秒时的视频图像)，这两帧画面切换图像即为该视频片段的关键帧图像。

在本发明实施例中，上述步骤S30中，从所述音频数据中截取与所述关键帧图像对应的关键音频数据，将所述关键音频数据输入预设的空间风格卷积网络进行处理，包括：

根据预设音频截取规则从所述音频数据中截取与所述关键帧图像对应的关键音频数据。

将所述关键音频数据转换成Mel频谱图。

将所述Mel频谱图输入预设的空间风格卷积网络进行处理。

其中，关键帧图像是指一个时间点的图像。关键音频数据是在关键帧图像所对应的时间点附近3～5秒的音频内容(通常是音频波形)。预设音频截取规则，通常是指在关键帧图像所在的时间点之前和之后的3～5秒所构成的时间段(时间窗)。

示例性的，若音频数据总时长为60秒，视频数据的总时长也是60秒，视频数据被划分为1～20秒、21～40秒和41～60秒三个视频片段，分别记为第一视频片段、第二视频片段和第三视频片段。其中，第一视频片段的关键帧图像是第4秒的图像、第11秒的图像和第20秒的图像。预设的音频截取规则是截取关键视频帧的时间点之前3秒和之后3秒的时间段的音频内容，那么可以根据该音频截取规则从音频数据中截取第1～7秒的音频内容作为第一视频片段中的第4秒的图像所对应的关键音频数据。类似的，第一视频片段中的第11秒的图像所对应的关键音频数据则为从音频数据中的第8～14秒的音频内容。

结合上述例子，若预设的音频截取规则是截取关键帧图像的时间点之前5秒和之后5秒的时间段的音频内容，那么上述第一视频片段中的第4秒的图像之前的时间不够5秒，则在截取关键音频数据时，将第4秒之前的音频内容取完即可，即截取到的关键音频数据为第1～9秒的音频内容。可以理解的，若在关键帧图像的时间点之后的时间不够5秒，那么在截取关键音频数据时，将在关键帧图像的时间点之后的音频内容取完即可。

在本发明实施例中，将所述关键音频数据转换成Mel频谱图，具体的，可通过将关键音频数据进行时频变换得到x轴为时间轴，y轴为频率轴的Mel频谱图。

示例性的，可将关键音频数据转换成大小为80*512的二维频谱矩阵，其中，80为频率，512为时间。

在本发明实施例中，空间风格卷积网络，可利用带有批归一化的Inception以及batch normalization构建得到。其中，inception是类似CNN的一种深层网络，具有很好的精度和速度的平衡；使用batch normalization可以优化每一个batch的输入数据，对它们进行归一化使得数据范围更加一致。其中，具体的构建方法为现有技术，可参照现有技术构建并获得空间风格卷积网络，在此不做赘述。

在本发明实施例中，将上述二维频谱矩阵输入空间风格卷积网络(包含4层卷积层)，经处理后输出大小为16*16矩阵，再将16*16矩阵通过flatten(拉平)得到16*16的向量，再将该16*16的向量输入到分类器的全联接层，再输到softmax层，得到大小为15个音乐流派类别的向量，其中，每个音乐流派类别的向量分别对应一个概率，将音乐流派类别的向量中的最大概率所对应的标签确定为第二音乐流派分类结果。例如，经softmax层输出大小为15个音乐流派类别的向量为[1,5,2,2,3,4,2,2,1,1,2,3,4,1,2]，该向量的每一项对应一个Softmax函数值，其中，向量中的“5”为拥有最大权重的项，将该最大权重的项所对应的音乐流派确定为第二音乐流派分类结果。若向量中的“5”所对应的音乐流派为“民谣”，则第二音乐流派分类结果为“民谣”。

步骤S40，计算所述若干视频片段的第一音乐流派分类结果和第二音乐流派分类结果的加权平均值，根据所述加权平均值确定所述音乐视频文件的音乐流派类别。

在本发明实施例中，上述步骤S40包括：

对同一视频片段的第一音乐流派分类结果和第二音乐流派分类结果进行加权平均运算，得到与所述视频片段对应的第一加权平均值；

对所述若干视频片段的第一加权平均值进行加权平均运算，得到第二加权平均值，根据所述第二加权平均值确定所述音乐视频文件的音乐流派类别。

其中，第一音乐流派分类结果和第二音乐流派分类结果均采用后验概率值。首先，可分别给第一音乐流派分类结果和第二音乐流派分类结果赋予一个权重值。例如，赋予第一音乐流派分类结果的权重值为0.7，第二音乐流派分类结果的权重值为0.3。然后，对同一视频片段的第一乐流派分类结果和第二音乐流派分类结果进行加权平均运算，具体地，将第一流派分类结果和第二音乐流派分类结果分别乘以其权重值，即第一音乐流派分类结果乘以0.7，第二音乐流派分类结果乘以0.3，得到该视频片段的第一加权平均值。

在本发明的示例性实施例中，假设一个待分类的音乐视频的视频数据包括三个视频片段，分别对第一视频片段、第二视频片段和第三视频片段，那么经上述处理后可以得到与第一视频片段对应的第一乐流派分类结果1和第二音乐流派分类结果1；与第二视频片段对应的第一乐流派分类结果2和第二音乐流派分类结果2；与第三视频片段对应的第一乐流派分类结果3和第二音乐流派分类结果3。首先，对第一视频片段的第一音乐流派分类结果和第二音乐流派分类结果进行加权平均运算，得到第一视频片段的第一加权平均值1。类似地，可计算得到第二视频片段的第一加权平均值2；以及第三视频片段的第一加权平均值3。再根据赋予给第一视频片段、第二视频片段和第三视频片段的权重值，对对所述若干视频片段的第一加权平均值进行加权平均运算，得到第二加权平均值。具体的，假设赋予给第一视频片段、第二视频片段和第三视频片段的权重值分别为0.5、0.2和0.3，那么分别将第一加权平均值1乘以其权重值0.5，第一加权平均值2乘以其权重值0.2，第一加权平均值3乘以其权重值0.3，即得到第二加权平均值。根据该第二加权平均值中的最大项所对应的音乐流派类别确定为该音乐视频文件的音乐流派类别。例如，0.5*第二加权平均值1＞0.2*第二加权平均值2＞0.3*第二加权平均值3，那么将0.5*第二加权平均值1这一项所对应的音乐流派类别(如“流行音乐”)确定为该音乐视频文件的音乐流派类别。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种音乐视频流派分类装置，该音乐视频流派分类装置与上述实施例中音乐视频流派分类方法一一对应。如图2所示，该音乐视频流派分类装置包括数据提取模块11、第一音乐流派分类结果获得模块12、第二音乐流派分类结果获得模块13和音乐流派类别确定模块14。各功能模块详细说明如下：

数据提取模块11，用于获取音乐视频文件，从所述音乐视频文件中提取音频数据和视频数据；将所述视频数据划分成若干视频片段；每个所述视频片段包括若干帧图像；

第一音乐流派分类结果获得模块12，用于计算所述视频片段的若干帧间光流，将所述若干帧间光流输入预设的时域风格卷积网络进行处理，得到与所述视频片段对应的第一音乐流派分类结果；

第二音乐流派分类结果获得模块13，用于提取所述视频片段的关键帧图像，从所述音频数据中截取与所述关键帧图像对应的关键音频数据，将所述关键音频数据输入预设的空间风格卷积网络进行处理，得到与所述视频片段对应的第二音乐流派分类结果；

音乐流派类别确定模块14，用于计算所述若干视频片段的第一音乐流派分类结果和第二音乐流派分类结果的加权平均值，根据所述加权平均值确定所述音乐视频文件的音乐流派类别。

在本发明的一个实施例中，所述视频数据包括若干帧视频图像。上述数据提取模块11包括视频片段划分单元，用于从所述视频数据中提取若干画面切换图像；以所述画面切换图像为裁剪边界帧，将所述视频数据划分成若干个视频片段。

在本发明的一个实施例中，所述视频数据包括若干帧视频图像。上述视频片段划分单元，包括第一画面切换图像提取单元，用于从所述若干帧视频图像中抽取出相邻的第一帧视频图像和第二帧视频图像；计算所述第一帧视频图像和第二帧视频图像之间的像素点差异值，判断所述像素点差异值是否处于预设的阈值范围；若所述像素点差异值处于预设的阈值范围，则将所述第二帧视频图像确定为画面切换图像。

在本发明的另一个实施例中，上述视频片段划分单元，包括第二画面切换图像提取单元，用于每次从所述若干帧视频图像中抽取出时间连续的k帧视频图像，将所述k帧视频图像输入预设的长短期记忆网络中进行处理，得到各帧视频图像的标签值；将标签值为1的视频图像确定为画面切换图像。

在本发明实施例中，上述第一音乐流派分类结果获得模块12包括帧间光流计算单元，用于对所述视频片段中的若干帧图像进行图像缩放处理，得到与所述若干帧图像对应的缩放图像；基于稠密光流算法对所述缩放图像进行计算，获得与所述视频片段对应的帧间光流。

在本发明实施例中，上述第二音乐流派分类结果获得模块13包括关键音频数据截取单元，用于根据预设音频截取规则从所述音频数据中截取与所述关键帧图像对应的关键音频数据；将所述关键音频数据转换成Mel频谱图；将所述Mel频谱图输入预设的空间风格卷积网络进行处理。

在本发明实施例中，上述音乐流派类别确定单元14包括第一加权平均值计算单元和音乐流派类别确定单元。

第一加权平均值计算单元，用于对同一视频片段的第一音乐流派分类结果和第二音乐流派分类结果进行加权平均运算，得到与所述视频片段对应的第一加权平均值。

音乐流派类别确定单元，用于对所述若干视频片段的第一加权平均值进行加权平均运算，得到第二加权平均值，根据所述第二加权平均值确定所述音乐视频文件的音乐流派类别。

关于音乐视频流派分类装置的具体限定可以参见上文中对于音乐视频流派分类方法的限定，在此不再赘述。上述音乐视频流派分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括可读存储介质、内存储器。该可读存储介质存储有操作系统、计算机可读指令和数据库。该内存储器为可读存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的数据库用于存储音乐视频流派分类方法所涉及的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种音乐视频流派分类方法。本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令，处理器执行计算机可读指令时实现以下步骤：

在一个实施例中，提供了一个或多个存储有计算机可读指令的计算机可读存储介质，本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。可读存储介质上存储有计算机可读指令，计算机可读指令被一个或多个处理器执行时实现以下步骤：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，所述的计算机可读指令可存储于一非易失性可读取存储介质或易失性可读存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种音乐视频流派分类方法，其特征在于，包括：

2.如权利要求1所述的音乐视频流派分类方法，其特征在于，所述将所述视频数据划分成若干个视频片段，包括：

从所述视频数据中提取若干画面切换图像；

以所述画面切换图像为裁剪边界帧，将所述视频数据划分成若干个视频片段。

3.如权利要求2所述的音乐视频流派分类方法，其特征在于，所述视频数据包括若干帧视频图像；

所述从所述视频数据中提取若干画面切换图像，包括：

从所述若干帧视频图像中抽取出相邻的第一帧视频图像和第二帧视频图像；

计算所述第一帧视频图像和第二帧视频图像之间的像素点差异值，判断所述像素点差异值是否处于预设的阈值范围；

若所述像素点差异值处于预设的阈值范围，则将所述第二帧视频图像确定为画面切换图像。

4.如权利要求2所述的音乐视频流派分类方法，其特征在于，所述视频数据包括若干帧视频图像；

所述从所述视频数据中提取若干画面切换图像，包括：

每次从所述若干帧视频图像中抽取出时间连续的k帧视频图像，将所述k帧视频图像输入预设的长短期记忆网络中进行处理，得到各帧视频图像的标签值；

将标签值为1的视频图像确定为画面切换图像。

5.如权利要求1所述的音乐视频流派分类方法，其特征在于，所述计算所述视频片段的若干帧间光流，包括：

对所述视频片段中的若干帧图像进行图像缩放处理，得到与所述若干帧图像对应的缩放图像；

6.如权利要求1所述的音乐视频流派分类方法，其特征在于，所述从所述音频数据中截取与所述关键帧图像对应的关键音频数据，将所述关键音频数据输入预设的空间风格卷积网络进行处理，包括：

根据预设音频截取规则从所述音频数据中截取与所述关键帧图像对应的关键音频数据；

将所述关键音频数据转换成Mel频谱图；

将所述Mel频谱图输入预设的空间风格卷积网络进行处理。

7.如权利要求1所述的音乐视频流派分类方法，其特征在于，所述计算所述若干视频片段的第一音乐流派分类结果和第二音乐流派分类结果的加权平均值，根据所述加权平均值确定所述音乐视频文件的音乐流派类别，包括：

8.一种音乐视频流派分类装置，其特征在于，包括：

音乐流派类别确定模块，用于计算所述若干视频片段的第一音乐流派分类结果和第二音乐流派分类结果的加权平均值，根据所述加权平均值确定所述音乐视频文件的音乐流派类别。

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，其特征在于，所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述音乐视频流派分类方法。

10.一个或多个存储有计算机可读指令的可读存储介质，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行如权利要求1至7中任一项所述音乐视频流派分类方法。