CN114973086A

CN114973086A - 视频处理方法、装置、电子设备及存储介质

Info

Publication number: CN114973086A
Application number: CN202210579164.9A
Authority: CN
Inventors: 朱彦浩; 胡郡郡; 唐大闰
Original assignee: Beijing Minglue Zhaohui Technology Co Ltd
Current assignee: Beijing Minglue Zhaohui Technology Co Ltd
Priority date: 2022-05-25
Filing date: 2022-05-25
Publication date: 2022-08-30

Abstract

本发明提供了一种视频处理方法、装置、电子设备及存储介质，该方法包括：获取目标视频；每隔预设时间对目标视频进行抽帧，得到多个视频帧；通过对每个视频帧进行特征提取，得到多个视频帧特征，以及按照多个视频帧对应的时序提取目标视频中的音频数据对应的多个音频频谱特征；通过对每一预设时间对应的视频帧特征和音频频谱特征进行融合学习，生成目标视频在每个预设时间处对应的场景语义特征；根据场景语义特征对目标视频进行场景分割。本发明通过融合学习目标视频的视频帧特征和音频频谱特征，更加精细地掌握目标视频的场景语义特征，根据场景语义特征对视频进行场景分割，提高了目标视频场景分割的准确率。

Description

视频处理方法、装置、电子设备及存储介质

技术领域

本发明涉及大数据处理领域，具体而言，涉及一种视频处理方法、装置、电子设备及存储介质。

背景技术

目前，在社交网络领域，短视频是当下最火的社交手段和信息的传播方法；短视频的镜头分割在社交网络领域应用较为广泛。当前，短视频镜头的分割大多主要在意的是视觉上的视角和场景的变化，比如，通过计算视频帧图像之间的相似度，进行短视频分割，而多个不同的镜头才可能构成一个有意义的视频段，仅凭帧图像的视觉变化或场景变化进行的视频分割准确率较低。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本发明提供了一种视频处理方法、装置、电子设备及存储介质。

第一方面，本发明提供了一种视频处理方法，所述方法包括：获取目标视频，其中，所述目标视频为待进行场景分割的短视频；每隔预设时间对所述目标视频进行抽帧，得到多个视频帧；通过对每个视频帧进行特征提取，得到多个视频帧特征，以及按照所述多个视频帧对应的时序提取所述目标视频中的音频数据对应的多个音频频谱特征；通过对每一预设时间对应的视频帧特征和音频频谱特征进行融合学习，生成所述目标视频在每个预设时间处对应的场景语义特征；根据所述场景语义特征对所述目标视频进行场景分割。

第二方面，本发明提供了一种视频处理装置，所述装置包括：获取模块，用于获取目标视频，其中，所述目标视频为待进行场景分割的短视频；抽取模块，用于每隔预设时间对所述目标视频进行抽帧，得到多个视频帧；特征提取模块，用于通过对每个视频帧进行特征提取，得到多个视频帧特征，以及按照所述多个视频帧对应的时序提取所述目标视频中的音频数据对应的多个音频频谱特征；学习模块，用于通过对每一预设时间对应的视频帧特征和音频频谱特征进行融合学习，生成所述目标视频在每个预设时间处对应的场景语义特征；处理模块，用于根据所述场景语义特征对所述目标视频进行场景分割。

第三方面，本发明提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

第四方面，本发明提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述方法的步骤。

本发明技术方案可以应用于基于深度学习技术的计算机视觉领域。本发明实施例提供的上述技术方案与相关技术相比具有如下有点：

本发明实施例提供的视频处理方法，获取目标视频，每隔预设时间对目标视频进行抽帧，得到多个视频帧；对每个视频帧进行特征提取，得到多个视频帧特征，以及按照多个视频帧对应的时序提取目标视频中的音频数据对应的多个音频频谱特征；接着，对每一预设时间对应的视频帧特征和音频频谱特征进行融合学习，生成目标视频在每个预设时间处对应的场景语义特征；根据场景语义特征对目标视频进行场景分割。本发明通过融合学习目标视频的视频帧特征和音频频谱特征，更加精细地掌握目标视频的场景语义内容，有利于提高视频场景分割的准确率，解决了现有技术中对短视频分割的准确率低的技术问题。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种视频处理方法的流程示意图；

图2为本发明一具体实施例提供的一种视频处理方法的流程示意图；

图3为本发明实施例提供的一种视频处理装置的结构示意图；

图4为本发明实施例提供的一种计算机设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

第一方面，本发明实施例提供的一种视频处理方法，该方法可以应用在短视频分段、对短视频分析及短视频推荐等场景中。图1为本发明实施例提供的一种视频处理方法的流程示意图，如图1所示，该方法包括如下步骤：

步骤S102，获取目标视频，目标视频为待进行场景分割的短视频；

本发明提供的视频处理方法的执行主体为视频处理装置，视频处理装置可以为终端设备、服务器等硬件设备，或者为硬件设备上安装的软件。

本发明实施例以服务器为执行主体为例进行说明。服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。本发明实施例可以基于人工智能技术对目标视频及其他相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

可选地，服务器从预置的视频数据库中查找并获取短视频。短视频的场景分割指的是对于一个短视频，在语义层面上进行相应的场景切分，将一个短视频按照视频播放的时间顺序切分为不同的几个段，每个段有不同的含义。

步骤S104，每隔预设时间对目标视频进行抽帧，得到多个视频帧；

为了使得最后的视频分割结果更加的精准，本实施例对视频每隔预设时间抽取一帧，例如0.5s抽取一帧，即每帧的帧长度为0.5s。

步骤S106，通过对每个视频帧进行特征提取，得到多个视频帧特征，以及按照多个视频帧对应的时序提取目标视频中的音频数据对应的多个音频频谱特征；

可选地，使用Vit模型进行视频帧特征的提取并存储。其中，VIT模型即visiontransformer，其想法是将在NLP(全程为Natural Language Processing，即自然语言处理)领域的基于自注意力机制transformer模型用于图像任务中，相比于图像任务中的传统的基于卷积神经网络模型，VIT模型在图像处理任务中有着比卷积网络更强的效果和更节约的成本。

音频信息是视频原本就存在的信息，使用更多的信息做分类是优化分类准确率的通用方法。举例说明，比如现在视频里有海浪的声音，可能是一个户外场景，但音频(非语言)信息对视频场景的分类是至关重要的。

进一步地，具体实施时，上述步骤S106包括：抽取目标视频中的音频数据，并将音频数据转换成音频频谱图；按照多个视频帧对应的时序对音频频谱图进行切分，得到与视频帧的数量相同的多个音频频谱序列；通过对每个音频频谱序列进行特征提取，得到与视频帧的数量相同的多个音频频谱特征。

在具体实施例中，将视频中的背景音频(比如背景音乐音频和主体音频等)抽取成wav的音频文件；通过此文件生成音频频谱图，对音频频谱图按照视频帧对应的时序进行切分，对切分后的频谱图进行特征提取，得到音频频谱特征。比如，短视频A，每隔预设时间从短视频A中抽取一视频帧，在该视频帧对应的时刻的前后一定时间范围内，从短视频A中的音频数据中抽取一音频帧，即与视频帧的时序对齐抽取音频帧，来达到视频帧与音频帧的数量匹配。

需要说明的是，通常音频特征提取常用ASR对音频中的语音进行文本提取，文本经过过滤后，使用bert提取相关语义信息进行特征融合，但是语言的文本特征提取无法获取到音频文件中存在的非语义信息，比如一些视频的背景音乐会带有轻松愉快或者伤感，或者愤怒的感情，这也非语言而仅仅只是音乐。而通过本实施例，对视频中的背景音频转换成音频频谱图，再进行特征提取能够捕捉到音频文件中的非语义信息，通过音频信号转为频谱图像，使用计算机视觉领域的图像特征提取方法，生成相应的特征向量，从而获取到视频中的更加准确的语义内容。

步骤S108，通过对每一预设时间对应的视频帧特征和音频频谱特征进行融合学习，生成目标视频在每个预设时间处对应的场景语义特征；

在本实施例中，采用了多模态融合技术，对于同一个时间长度上的帧特征和音频频谱特征进行多模态融合，学习到同一时间长度下的多模态混合特征的结果。

步骤S110，根据场景语义特征对目标视频进行场景分割。

本发明实施例中提供了一种可能的实现方式，上述步骤S108包括：通过以下方式生成目标视频在每个预设时间处对应的场景语义特征：针对多个预设时间中的任一目标预设时间，将目标预设时间对应的目标视频帧特征和目标音频频谱特征进行关联，得到关联特征；通过将关联特征输入SE模块进行学习，生成目标视频在目标预设时间处对应的场景语义特征。

在本实施例中，对于同一个时间长度上的视频和音频特征，首先将其进行连接，对连接后的视频音频特征送入一个SE模块中进行特征的注意力学习，输出同一时间长度下的多模态混合特征的结果。例如，抽取了100帧图像，频谱图有(80*10000)的长度，那么对频谱图做裁剪，生成100个80*100的图和视觉图像做对应。

本发明实施例中提供了一种可能的实现方式中，还包括：通过SE模块学习目标视频帧特征对应的第一通道对应的第一全局空间特征、目标音频频谱特征对应的第二通道的第二全局空间特征以及第一通道与第二通道间的依赖程度；根据第一全局空间特征、第二全局空间特征及依赖程度分别为目标视频帧特征分配第一权重及为目标音频频谱特征分配第二权重；根据目标视频帧特征、第一权重、目标音频频谱特征及第二权重构建场景语义特征。

在本实施例中，SE模块是指Squeeze-and-Excitation Networks网络单元，Squeeze和Excitation是两个非常关键的操作，显式地建模特征通道之间的相互依赖关系。需要说明的是，SE模块不是引入一个新的空间维度来进行特征通道间的融合，而是采用了一种全新的「特征重标定」策略。具体来说，就是通过学习的方式来自动获取到每个特征通道的重要程度，然后依照这个重要程度去提升有用的特征并抑制对当前任务用处不大的特征。

SE模块就是一个自动学习通道注意力的模块，整体网络结构的所有权重(包括SE的权重)都是根据最后的分类损失通过梯度进行计算的到的。模型的标注数据就是会对原视频做切分，比如0-3.5，3.5-7，7-9这三段，网络结构训练时，会找到这些点对应的帧，相应位置的分割点的标签设为1，其他时间点设为0。通过本实施例，利用SE模块对帧特征、音频频谱特征分配权重，更加精确地体现出目标视频中的场景信息，从而得到更加准确的场景语义特征。

本发明实施例中提供了一种可能的实现方式中，上述步骤S110包括：根据场景语义特征判断与场景语义特征对应的预设时间是否为目标视频的场景分割时间点；若与场景语义特征对应的预设时间为目标视频的场景分割时间点，则在场景分割时间点对目标视频进行场景分割，得到场景分割结果。

具体实施时，将目标视频在每个预设时间处对应的场景语义特征输入基于长短期记忆神经网络结构的分类模型，以判断每个预设时间是否为目标视频的场景时间边界；若多个预设时间中存在至少一预设时间为目标视频的场景时间边界，则确定为至少一预设时间为目标视频的场景分割时间点，并输出至少一预设时间对应的场景分割时间点。

优选地，对于每一个时间段上的多模态混合特征，输入到LSTM网络结构中进行此时刻是否是分割点的判断。

本实施例中的分类模型可以是基于LSTM网络结构的分类器，使用前一时刻分类模型输出的中间特征做当前时刻是不是分类点的二分类。

进一步地，分类模型包括与预设时间的数量相同的子网络，每个预设时间对应的场景语义特征对应一个子网络，每一子网络由长短期记忆神经网络构建得到；其中，将目标视频在每个预设时间处对应的场景语义特征输入基于长短期记忆神经网络结构的分类模型，以判断每个预设时间是否为目标视频的场景时间边界，包括：将第1个预设时间对应的场景语义特征输入分类模型中的第1子网络，以得到第1子网络的中间特征；将第1子网络的中间特征和第2个预设时间对应的场景语义特征输入分类模型中的第2子网络，以依据第1子网络的中间特征判断第2个预设时间是否为目标视频的场景时间边界，并得到第2子网络的中间特征；将第n-1子网络的中间特征和第n个预设时间对应的场景语义特征输入分类模型中的第n子网络，以依据第n-1子网络的中间特征判断第n个预设时间是否为目标视频的场景时间边界，其中，n为大于3的正整数；输出每一子网络对每个预设时间的判断结果。

也就是说，对于每一个时间段上的多模态混合特征输入到LSTM网络结构中进行此时刻是否是分割点的判断；接着，对于此刻经过LSTM的中间结果输入到下一刻的LSTM结构中，同时对于下一刻的视频和音频的结果输入到下一刻的SE网络结构中，最后输出整个视频的分割点的时间点信息。

举例来说，图2为本发明一具体实施例提供的一种视频处理方法的流程示意图，如图2所示，主要包括以下步骤：

步骤a，获取一短视频；

步骤b，每隔预设时间(比如0.5s)对该短视频进行抽帧，得到多个视频帧集合；

步骤c，采用vit模型对每个视频帧进行特征提取，得到多个视频帧特征；以及抽取该短视频中的wav音频文件，并转换成频谱图，按照视频帧的数量对频谱图进行切分，然后将切分后的频谱图送入至resnet18网络中进行特征提取，得到与视频帧数量相同的音频频谱特征；

步骤d，对于同一时间长度上的视频帧特征和音频频谱特征，进行连接，将连接后的特征输入到SE模块中进行特征的注意力学习，输出同一时间长度下的多模态混合特征的结果；

步骤e，每一时间长度对于一个LSTM网络，将步骤d得到的同一时间长度下的多模态混合特征的结果输入至对应的LSTM网络进行学习，判断此刻的预设时间是否为该短视频的场景分割时间点(如图2所示的y1，y2……)，并将此刻LSTM网络学习到的中间特征(也即隐层特征)输入到下一时刻的LSTM网络中学习，也就是说，即每一刻的LSTM都会接受之前所有时刻学习到的特征(即之前的中间特征)，来计算当前时间点上的特征(即当前时间点的中间特征)，再将当前时间点的中间特征送入下一个时间点的LSTM；直到将所有预设时间对应的多模态混合特征的结果均输入到对应的LSTM网络中；

最后输出整个视频的分割点的时间点信息。

本发明结合多模态的信息融合和LSTM进行视频的段的分割，具有速度快，准确率高的优点。通过本发明实施例实现的短视频的场景分割，与镜头切分不同，镜头的切分大多主要在意的是视觉上的视角和场景的变化，并不在意视频中的情景发展和语义内容，对短视频进行分段，有利于更加精细的掌握短视频的内容，可以更加方便的对短视频进行分析，有利于改善用户推荐。

第二方面，基于上文各个实施例提供的视频处理方法，基于同一发明构思，在本实施例中还提供了一种视频处理装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图3为本发明实施例提供的一种视频处理装置的结构示意图，如图3所示，该装置包括：获取模块30，用于获取目标视频，其中，目标视频为待进行场景分割的短视频；抽取模块32，连接至上述获取模块30，用于每隔预设时间对目标视频进行抽帧，得到多个视频帧；特征提取模块34，连接至上述抽取模块32，用于通过对每个视频帧进行特征提取，得到多个视频帧特征，以及按照多个视频帧对应的时序提取目标视频中的音频数据对应的多个音频频谱特征；学习模块36，连接至上述特征提取模块34，用于通过对每一预设时间对应的视频帧特征和音频频谱特征进行融合学习，生成目标视频在每个预设时间处对应的场景语义特征；处理模块38，连接至上述学习模块36，用于根据场景语义特征对目标视频进行场景分割。

可选地，特征提取模块34包括：处理单元，用于抽取目标视频中的音频数据，并将音频数据转换成音频频谱图；切分单元，用于按照多个视频帧对应的时序对音频频谱图进行切分，得到与视频帧的数量相同的多个音频频谱序列；提取单元，用于通过对每个音频频谱序列进行特征提取，得到与视频帧的数量相同的多个音频频谱特征。

可选地，学习模块36包括：通过以下方式生成目标视频在每个预设时间处对应的场景语义特征：关联单元，用于针对多个预设时间中的任一目标预设时间，将目标预设时间对应的目标视频帧特征和目标音频频谱特征进行关联，得到关联特征；生成单元，用于通过将关联特征输入SE模块进行学习，生成目标视频在目标预设时间处对应的场景语义特征。

可选地，生成单元包括：学习子单元，用于通过SE模块学习目标视频帧特征对应的第一通道对应的第一全局空间特征、目标音频频谱特征对应的第二通道的第二全局空间特征以及第一通道与第二通道间的依赖程度；分配子单元，用于根据第一全局空间特征、第二全局空间特征及依赖程度分别为目标视频帧特征分配第一权重及为目标音频频谱特征分配第二权重；构建子单元，用于根据目标视频帧特征、第一权重、目标音频频谱特征及第二权重构建场景语义特征。

可选地，处理模块38包括：判断单元，用于根据场景语义特征判断与场景语义特征对应的预设时间是否为目标视频的场景分割时间点；分割单元，用于当与场景语义特征对应的预设时间为目标视频的场景分割时间点时，在场景分割时间点对目标视频进行场景分割，得到场景分割结果。

可选地，判断单元包括：判断子单元，用于将目标视频在每个预设时间处对应的场景语义特征输入基于长短期记忆神经网络结构的分类模型，以判断每个预设时间是否为目标视频的场景时间边界；输出子单元，用于当多个预设时间中存在至少一预设时间为目标视频的场景时间边界时，确定为至少一预设时间为目标视频的场景分割时间点，并输出至少一预设时间对应的场景分割时间点。

可选地，分类模型包括与预设时间的数量相同的子网络，每个预设时间对应的场景语义特征对应一个子网络，每一子网络由长短期记忆神经网络构建得到；其中，判断子单元用于：将第1个预设时间对应的场景语义特征输入分类模型中的第1子网络，以得到第1子网络的中间特征；将第1子网络的中间特征和第2个预设时间对应的场景语义特征输入分类模型中的第2子网络，以依据第1子网络的中间特征判断第2个预设时间是否为目标视频的场景时间边界，并得到第2子网络的中间特征；将第n-1子网络的中间特征和第n个预设时间对应的场景语义特征输入分类模型中的第n子网络，以依据第n-1子网络的中间特征判断第n个预设时间是否为目标视频的场景时间边界，其中，n为大于3的正整数；输出每一子网络对每个预设时间的判断结果。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

第三方面，本发明实施例提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现第一方面提供的视频处理方法的步骤。

图4示出了一个实施例中计算机设备的内部结构图。如图4所示，该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏等。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可以存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现视频处理方法。该内存储器中也可以储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行视频处理方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图3(装置图)中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本发明提供的视频处理装置可以实现为一种计算机程序的形式，计算机程序可在如图4所示的计算机设备上运行。计算机设备的存储器中可存储组成该翻译装置的各个程序模块，比如，图3所示的获取模块30、抽取模块32、特征提取模块34、学习模块36、处理模块38。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本发明各个实施例的视频处理方法中的步骤。

例如，图4所示的计算机设备可以通过如图3所示的视频处理装置中的获取模块30执行获取目标视频，目标视频为待进行场景分割的短视频；计算机设备可以通过抽取模块32执行每隔预设时间对目标视频进行抽帧，得到多个视频帧；计算机设备可以通过特征提取模块34执行通过对每个视频帧进行特征提取，得到多个视频帧特征，以及按照多个视频帧对应的时序提取目标视频中的音频数据对应的多个音频频谱特征；计算机设备可以通过学习模块36执行通过对每一预设时间对应的视频帧特征和音频频谱特征进行融合学习，生成目标视频在每个预设时间处对应的场景语义特征；计算机设备可以通过处理模块38执行根据场景语义特征对目标视频进行场景分割。

可理解的是，本发明实施例提供的计算机设备，有关内容的解释、举例、有益效果等部分可以参考第一方面中的相应部分，此处不再赘述。

第四方面，本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面提供的视频处理方法的步骤。

可理解的是，本发明实施例提供的计算机可读存储介质，有关内容的解释、举例、有益效果等部分可以参考第一方面中的相应部分，此处不再赘述。

可理解的是，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种视频处理方法，其特征在于，所述方法包括：

获取目标视频，其中，所述目标视频为待进行场景分割的短视频；

每隔预设时间对所述目标视频进行抽帧，得到多个视频帧；

通过对每个视频帧进行特征提取，得到多个视频帧特征，以及按照所述多个视频帧对应的时序提取所述目标视频中的音频数据对应的多个音频频谱特征；

通过对每一预设时间对应的视频帧特征和音频频谱特征进行融合学习，生成所述目标视频在每个预设时间处对应的场景语义特征；

根据所述场景语义特征对所述目标视频进行场景分割。

2.根据权利要求1所述的方法，其特征在于，所述按照所述多个视频帧对应的时序提取所述目标视频中的音频数据对应的多个音频频谱特征包括：

抽取所述目标视频中的音频数据，并将所述音频数据转换成音频频谱图；

按照所述多个视频帧对应的时序，对所述音频频谱图进行切分，得到与所述视频帧的数量相同的多个音频频谱序列；

通过对每个音频频谱序列进行特征提取，得到与所述视频帧的数量相同的多个音频频谱特征。

3.根据权利要求1所述的方法，其特征在于，所述通过对每一预设时间对应的视频帧特征和音频频谱特征进行融合学习，生成所述目标视频在每个预设时间处对应的场景语义特征，包括：

通过以下方式生成所述目标视频在每个预设时间处对应的场景语义特征：

针对多个预设时间中的任一目标预设时间，将所述目标预设时间对应的目标视频帧特征和目标音频频谱特征进行关联，得到关联特征；

通过将所述关联特征输入SE模块进行学习，生成所述目标视频在所述目标预设时间处对应的场景语义特征。

4.根据权利要求3所述的方法，其特征在于，所述通过将所述关联特征输入SE模块进行学习，生成所述目标视频在所述目标预设时间处对应的场景语义特征包括：

通过所述SE模块学习所述目标视频帧特征对应的第一通道对应的第一全局空间特征、所述目标音频频谱特征对应的第二通道的第二全局空间特征以及所述第一通道与所述第二通道间的依赖程度；

根据所述第一全局空间特征、第二全局空间特征及所述依赖程度分别为所述目标视频帧特征分配第一权重及为所述目标音频频谱特征分配第二权重；

根据所述目标视频帧特征、所述第一权重、所述目标音频频谱特征及所述第二权重构建所述场景语义特征。

5.根据权利要求1-4中任意一项所述的方法，其特征在于，所述根据所述场景语义特征对所述目标视频进行场景分割包括：

根据所述场景语义特征判断与所述场景语义特征对应的预设时间是否为所述目标视频的场景分割时间点；

若与所述场景语义特征对应的预设时间为所述目标视频的场景分割时间点，则在所述场景分割时间点对所述目标视频进行场景分割，得到场景分割结果。

6.根据权利要求5所述的方法，其特征在于，所述根据所述场景语义特征判断与所述场景语义特征对应的预设时间是否为所述目标视频的场景分割时间点包括：

将所述目标视频在每个预设时间处对应的场景语义特征输入基于长短期记忆神经网络结构的分类模型，以判断每个预设时间是否为所述目标视频的场景时间边界；

若多个预设时间中存在至少一预设时间为所述目标视频的场景时间边界，则确定为所述至少一预设时间为所述目标视频的场景分割时间点，并输出所述至少一预设时间对应的场景分割时间点。

7.根据权利要求6所述的方法，其特征在于，所述分类模型包括与所述预设时间的数量相同的子网络，每个预设时间对应的场景语义特征对应一个子网络，每一子网络由长短期记忆神经网络构建得到；其中，所述将所述目标视频在每个预设时间处对应的场景语义特征输入基于长短期记忆神经网络结构的分类模型，以判断每个预设时间是否为所述目标视频的场景时间边界，包括：

将第1个预设时间对应的场景语义特征输入所述分类模型中的第1子网络，以得到所述第1子网络的中间特征；

将所述第1子网络的中间特征和第2个预设时间对应的场景语义特征输入所述分类模型中的第2子网络，以依据所述第1子网络的中间特征判断所述第2个预设时间是否为所述目标视频的场景时间边界，并得到所述第2子网络的中间特征；

将第n-1子网络的中间特征和第n个预设时间对应的场景语义特征输入所述分类模型中的第n子网络，以依据所述第n-1子网络的中间特征判断第n个预设时间是否为所述目标视频的场景时间边界，其中，n为大于3的正整数；

输出每一子网络对每个预设时间的判断结果。

8.一种视频处理装置，其特征在于，所述装置包括：

获取模块，用于获取目标视频，其中，所述目标视频为待进行场景分割的短视频；

抽取模块，用于每隔预设时间对所述目标视频进行抽帧，得到多个视频帧；

特征提取模块，用于通过对每个视频帧进行特征提取，得到多个视频帧特征，以及按照所述多个视频帧对应的时序提取所述目标视频中的音频数据对应的多个音频频谱特征；

学习模块，用于通过对每一预设时间对应的视频帧特征和音频频谱特征进行融合学习，生成所述目标视频在每个预设时间处对应的场景语义特征；

处理模块，用于根据所述场景语义特征对所述目标视频进行场景分割。

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。