CN111950653B

CN111950653B - 视频处理方法和装置、存储介质及电子设备

Info

Publication number: CN111950653B
Application number: CN202010858714.1A
Authority: CN
Inventors: 王晟玮; 汪亮
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Shenzhen Yayue Technology Co ltd
Priority date: 2020-08-24
Filing date: 2020-08-24
Publication date: 2021-09-10
Anticipated expiration: 2040-08-24
Also published as: CN111950653A

Abstract

本发明公开了一种视频处理方法和装置、存储介质及电子设备。该方法包括：获取待处理的目标视频；对目标视频中各个视频帧依次进行特征提取，得到与每个视频帧对应的图像特征集；根据图像特征集对目标视频中的全部视频帧进行划分，得到第一场景视频帧列表；依次获取每个关键视频帧和位于关键视频帧之前的参考视频帧之间的特征相似度；在特征相似度达到合并条件的情况下，将关键视频帧所在第一场景中的场景视频帧序列，合并到参考视频帧所在第二场景中的场景视频帧序列中，以将第一场景视频帧列表更新为第二场景视频帧列表；按照第二场景视频帧列表对目标视频进行分割处理。本发明解决了相关技术中视频分割处理准确率较低的技术问题。

Description

视频处理方法和装置、存储介质及电子设备

技术领域

本发明涉及计算机领域，具体而言，涉及一种视频处理方法和装置、存储介质及电子设备。

背景技术

在视频播放平台从版权方获得原始视频文件后，通常需要将原始视频文件转换为符合要求的标准码流，才能分发给各个用户客户端进行播放。在转换的过程中，转码中台通常会对原始视频文件进行分割，形成多个视频片段，以便于针对每个视频片段进行视频质量的增强和编码，最后再将多个编码后的视频片段合并，以得到完整的视频流文件。这里为了使得同一场景内的连续视频帧播放质量一致，因而要求根据场景对视频进行分割。

然而，目前相关技术提供的视频分割方法中，通常都是针对视频的单一特征来实现视频分割的，例如，基于字幕或语音的语义进行场景分析，进而根据分析结果来对视频进行分割处理。但这样利用单一特征对场景的分析是不全面的，分割的适用范围受限，从而导致视频分割准确率较低的问题。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种视频处理方法和装置、存储介质及电子设备，以至少解决相关技术中视频分割处理准确率较低的技术问题。

根据本发明实施例的一个方面，提供了一种视频处理方法，包括：获取待处理的目标视频；对上述目标视频中各个视频帧依次进行特征提取，得到与每个视频帧对应的图像特征集，其中，上述图像特征集中包括上述视频帧的至少两个图像特征；根据上述图像特征集对上述目标视频中的全部视频帧进行划分，得到第一场景视频帧列表，其中，上述第一场景视频帧列表中记录有上述目标视频中包含的多个场景分别对应的场景视频帧序列，每个场景视频帧序列中的首个视频帧为上述场景的关键视频帧；依次获取每个上述关键视频帧和位于上述关键视频帧之前的参考视频帧之间的特征相似度；在上述特征相似度达到合并条件的情况下，将上述关键视频帧所在第一场景中的场景视频帧序列，合并到上述参考视频帧所在第二场景中的场景视频帧序列中，以将上述第一场景视频帧列表更新为第二场景视频帧列表；按照上述第二场景视频帧列表对上述目标视频进行分割处理。

根据本发明实施例的另一方面，还提供了一种视频处理装置，包括：第一获取单元，用于获取待处理的目标视频；第一提取单元，用于对上述目标视频中各个视频帧依次进行特征提取，得到与每个视频帧对应的图像特征集，其中，上述图像特征集中包括上述视频帧的至少两个图像特征；划分单元，用于根据上述图像特征集对上述目标视频中的全部视频帧进行划分，得到第一场景视频帧列表，其中，上述第一场景视频帧列表中记录有上述目标视频中包含的多个场景分别对应的场景视频帧序列，每个场景视频帧序列中的首个视频帧为上述场景的关键视频帧；第二获取单元，用于依次获取每个上述关键视频帧和位于上述关键视频帧之前的参考视频帧之间的特征相似度；合并更新单元，用于在上述特征相似度达到合并条件的情况下，将上述关键视频帧所在第一场景中的场景视频帧序列，合并到上述参考视频帧所在第二场景中的场景视频帧序列中，以将上述第一场景视频帧列表更新为第二场景视频帧列表；分割处理单元，用于按照上述第二场景视频帧列表对上述目标视频进行分割处理。

根据本发明实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述视频处理方法。

根据本发明实施例的又一方面，还提供了一种电子设备，包括存储器和处理器，上述存储器中存储有计算机程序，上述处理器被设置为通过所述计算机程序执行上述的视频处理方法。

在本发明实施例中，在获取到目标视频中各个视频帧分别对应的图像特征集之后，利用上述图像特征集对目标视频中的全部视频帧进行初次划分，得到第一场景视频帧列表。然后再获取上述每个场景的关键视频帧及参考视频帧之间的特征相似度，以进一步根据该特征相似度是否达到合并条件的判定结果，来确定是否合并上述关键视频帧所在第一场景中的场景视频帧序列和上述参考视频帧所在第二场景中的场景视频帧序列，从而实现对上述第一场景视频帧列表进行进一步更新，得到第二场景视频帧列表，并按照上述第二场景视频帧列表来对目标视频进行分割处理。也就是说，融合多个图像特征来对目标视频进行划分得到第一场景视频帧列表之后，再结合视频帧的特征相似度，来分析目标视频中各个视频帧之间的场景关联性，从而实现对视频帧的场景特性进行全面的精细化分析，而不再局限于单一特征的分析结果，提高了视频分割处理的准确率，进而克服相关技术中存在的视频分割处理的准确率较低的问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的视频处理方法的硬件环境的示意图；

图2是根据本发明实施例的一种可选的视频处理方法的流程图；

图3是根据本发明实施例的另一种可选的视频处理方法的流程图；

图4是根据本发明实施例的一种可选的视频处理方法中的神经网络的网络结构示意图；

图5是根据本发明实施例的又一种可选的视频处理方法的流程图；

图6是根据本发明实施例的又一种可选的视频处理方法的流程图；

图7是根据本发明实施例的又一种可选的视频处理方法的流程图；

图8是根据本发明实施例的一种可选的视频处理装置的结构示意图；

图9是根据本发明实施例的一种可选的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是，本申请实施例提供的视频处理方法涉及以下技术术语：

HSV：(Hue，Saturation，Value)。色调、饱和度、明度，是图像领域中常用到的一种颜色编码方法。

YUV：视频常采用的一种颜色编码方法。Y代表亮度，U和V代表色度。

CNN：Convolutional neural network。卷积神经网络。

Sift：Scale-Invariant Feature Transform。尺度不变的特征变化，也是图像处理中的一种特征提取算法。

MFCC：Mel-frequency cepstral coefficients。梅尔频率倒谱系数，音频数据的一种特征。

SSIM：Structural similarity index measurement。结构相似性度量，一种图像质量评价指标，也可以用来评价图像的相似性。

根据本发明实施例的一个方面，提供了一种视频处理方法，可选地，作为一种可选的实施方式，上述视频处理方法可以但不限于应用于如图1所示的环境中的视频处理系统中，其中，该视频处理系统可以包括但不限于终端设备102、网络104、服务器106。这里终端设备102中包括人机交互屏幕1022，处理器1024及存储器1026。人机交互屏幕1022用于展示目标视频。上述处理器1024用于将目标视频发送服务器106，存储器1026用于存储上述目标视频的视频资源。

此外，服务器106中包括数据库1062及处理引擎1064，数据库1062中用于存储目标视频对应的场景视频帧列表，及分割后的多个视频片段。处理引擎1064用于采用本实施例中提供的方法对目标视频进行分割处理。

具体过程如以下步骤：如步骤S104-S112，在服务器106获取到目标视频之后，对该目标视频中各个视频帧依次进行特征提取，得到与每个视频帧对应的图像特征集。然后根据上述图像特征集对目标视频中的全部视频帧进行划分，得到第一场景视频帧列表，其中，这里的第一场景视频帧列表中记录有目标视频中包含的多个场景分别对应的场景视频帧序列，每个场景视频帧序列中的首个视频帧为场景的关键视频帧。依次获取每个关键视频帧和位于该关键视频帧之前的参考视频帧之间的特征相似度，并在该特征相似度达到合并条件的情况下，将该关键视频帧所在第一场景中的场景视频帧序列，合并到上述参考视频帧所在第二场景中的场景视频帧序列中，以将第一场景视频帧列表更新为第二场景视频真列表，从而实现按照第二场景视频帧列表对目标视频进行分割处理。

需要说明的是，在本实施例中，在获取到目标视频中各个视频帧分别对应的图像特征集之后，利用上述图像特征集对目标视频中的全部视频帧进行初次划分，得到第一场景视频帧列表。然后再获取上述每个场景的关键视频帧及参考视频帧之间的特征相似度，以进一步根据该特征相似度是否达到合并条件的判定结果，来确定是否合并上述关键视频帧所在第一场景中的场景视频帧序列和上述参考视频帧所在第二场景中的场景视频帧序列，从而实现对上述第一场景视频帧列表进行进一步更新，得到第二场景视频帧列表，并按照上述第二场景视频帧列表来对目标视频进行分割处理。也就是说，融合多个图像特征来对目标视频进行划分得到第一场景视频帧列表之后，再结合视频帧的特征相似度，来分析目标视频中各个视频帧之间的场景关联性，从而实现对视频帧的场景特性进行全面的精细化分析，而不再局限于单一特征的分析结果，提高了视频分割处理的准确率，进而克服相关技术中存在的视频分割处理的准确率较低的问题。

可选地，在本实施例中，上述终端设备可以包括但不限于以下至少之一：手机(如Android手机、iOS手机等)、笔记本电脑、平板电脑、掌上电脑、MID(Mobile InternetDevices，移动互联网设备)、PAD、台式电脑、智能电视等。上述网络可以包括但不限于：有线网络，无线网络，其中，该有线网络包括：局域网、城域网和广域网，该无线网络包括：蓝牙、WIFI及其他实现无线通信的网络。上述服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群，或者是云服务器。上述仅是一种示例，本实施例中对此不作任何限定。

需要说明的是，上述视频处理方法可以由终端或服务器独立执行，或由终端设备和服务器协同执行，本申请实施例中下文以该方法由服务器执行为例进行说明。

可选地，作为一种可选的实施方式，如图2所示，上述视频处理方法包括：

S202，获取待处理的目标视频；

S204，对目标视频中各个视频帧依次进行特征提取，得到与每个视频帧对应的图像特征集，其中，图像特征集中包括视频帧的至少两个图像特征；

S206，根据图像特征集对目标视频中的全部视频帧进行划分，得到第一场景视频帧列表，其中，第一场景视频帧列表中记录有目标视频中包含的多个场景分别对应的场景视频帧序列，每个场景视频帧序列中的首个视频帧为场景的关键视频帧；

S208，依次获取每个关键视频帧和位于关键视频帧之前的参考视频帧之间的特征相似度；

S210，在特征相似度达到合并条件的情况下，将关键视频帧所在第一场景中的场景视频帧序列，合并到参考视频帧所在第二场景中的场景视频帧序列中，以将第一场景视频帧列表更新为第二场景视频帧列表；

S212，按照第二场景视频帧列表对目标视频进行分割处理。

可选地，在本实施例中，上述视频处理方法可以但不限于应用于携带有视频内容的各个目标客户端对应的服务器中。这里目标客户端例如视频共享客户端、视频播放客户端等。为保证目标客户端的观看体验，通常在从版权方获得原始视频文件后，都需要对该原始视频文件进行一次转码处理，以使该原始视频文件转换为符合要求的标准码流，之后才会分发给各个目标客户端进行播放展示。在上述转码的过程中，转码中台需要对原始视频文件按照场景进行分割处理，形成多个视频片段。以便于转码中台分布式地对每个视频片段进行视频质量的增强和编码。最后，再将每个视频片段的码流合并形成完整的待播放的视频流文件。将上述待播放的视频流文件推送给各个目标客户端进行播放展示。也就是说，采用在本实施例中提供的上述视频处理方法来对原始视频文件按照场景进行全面精细化分割，将进一步保证基于此合并得到的视频流文件中同一场景内的连续视频帧前后画面质量连续，避免由于采用现有技术对原始视频文件划分得到的视频片段不准确，使得同一场景内的连续视频帧出现在不同视频片段中，而又对不同视频片段采用不同图像编码处理，所导致的视频流文件中的播放画面质量不统一的情况。换言之，通过本申请实施例中提供的视频处理方法，将利用对多特征融合的分析结果，来确保对视频划分得到的场景视频帧列表的准确率，以使得对精准划分后的各个视频片段按照不同场景执行不同的图像增强和画面质量提升等处理，进而提升整合视频片段后得到的视频流文件的播放流畅度和画面质量连续性，达到改善用户的观看体验的效果。

可选地，在本实施例中，上述图像特征集可以包括但不限于是：将视频帧中各个像素点上对应的一种图像色彩分量参数的取值的均值，作为该视频帧的一个图像特征。其中，上述图像色彩分量参数可以包括但不限于为目标色彩编码空间中的参数：色调、饱和度、明度(Hue，Saturation，Value，简称HSV)。例如，获取一个视频帧各个像素点的色调的均值，作为该视频帧的色调特征；获取一个视频帧各个像素点的饱和度的均值，作为该视频帧的饱和度特征；获取一个视频帧各个像素点的明度的均值，作为该视频帧的明度特征。也就是说，假设视频帧原始格式为YUV格式，将其映射到HSV色彩编码空间后，则可以获取该视频帧中各个像素点在色调、饱和度和明度三个图像色彩分量参数上的取值的均值，以作为该视频帧对应的图像特征集。这里为示例，本实施例中对图像特征集中涉及的参数不作限定，还可以为RGB三个颜色分量参数，或其他用于指示图像特性的参数。

可选地，在本实施例中，根据图像特征集对目标视频中的全部视频帧进行划分，得到第一场景视频帧列表可以包括但不限于：计算上述图像特征集中各个图像特征的均值，以得到与该视频帧匹配的目标图像特征。进一步，利用相邻两个视频帧各自对应的目标图像特征的比对结果所指示的差异，来对上述目标视频中全部视频帧进行划分，以得到第一场景视频帧列表。

例如，仍以视频帧的HSV特征为例，获取第i个视频帧的H_avg、S_avg、V_avg三个图像特征构成的图像特征集之后，获取三者的均值HSV_avg，将其作为该第i个视频帧的目标图像特征。然后参考上述过程计算获取相邻的第i+1个视频帧的目标图像特征。通过比对二者的差异(例如计算二者之间的距离)，来确定第i个视频帧与第i+1个视频帧是否为同一场景中的视频帧。若差异小于一定阈值，则将二者合并作为同一场景中的视频帧，若差异大于一定阈值，则将二者分别作为不同场景中的视频帧。也就是说，基于使用视频帧的HSV_avg这一初级特征对目标视频按照场景进行了一个初划分，以生成按照不同场景记录的视频帧序列，并将其作为上述第一场景视频帧列表。

可选地，在本实施例中，上述关键视频帧和位于关键视频帧之前的参考视频帧之间的特征相似度可以包括但不限于：上述关键视频帧的关键特征向量和上述参考视频帧的参考特征向量二者之间的余弦距离、上述关键视频帧与上述参考视频帧二者之间匹配特征点在关键视频帧中的第一占比，和上述关键视频帧与上述参考视频帧二者之间匹配特征点在参考视频帧中的第二占比。其中，上述关键特征向量和参考特征向量是基于卷积神经网络进行处理得到的；上述匹配特征点是采用Sift特征算子对关键视频帧和参考视频帧分别进行特征点提取和比对后得到的。此外，上述参考视频帧可以但不限于为关键视频帧之前且与该关键视频帧相邻的视频帧，即关键视频帧的前一个视频帧。也就是说，使用卷积神经网络和Sift特征算子，分析第一场景视频帧列表中的关键视频帧和关键视频帧之前相邻的参考视频帧中的高级特征。来进一步对其使用特征融合算法以判断两帧的相似性，若相似，则合并场景；反之，则保留原始的场景划分，从而实现将第一场景视频帧列表更新为第二场景视频帧列表，达到对目标视频中的场景进行再次精细化的划分更新。

需要说明的是，这里的卷积神经网络可以但不限于MobileNet V2，还可以使用Inception Net，PasNet等网路，均可实现同等功能。此外，这里的Sift是指尺度不变特征转化，是一种计算机视觉算法，它具有平移、旋转和尺度不变性。其步骤包括：1)构建尺度空间，检测极值点，获得尺度不变性；2)特征点过滤并精确定位，剔除不稳定的特征点；3)在特征点处提取特征描述符，为特征点分配方向值；4)生成特征描述子，利用特征描述符寻找匹配点。

通过本申请提供的实施例，融合多个图像特征来对目标视频进行划分得到第一场景视频帧列表之后，再结合视频帧的特征相似度，来分析目标视频中各个视频帧之间的场景关联性，从而实现对视频帧的场景特性进行全面的精细化分析，而不再局限于单一特征的分析结果，提高了视频分割处理的准确率，进而克服相关技术中存在的视频分割处理的准确率较低的问题。

作为一种可选的方案，对目标视频中各个视频帧依次进行特征提取，得到与每个视频帧对应的图像特征集包括：

S1，依次将目标视频中的每个视频帧作为当前视频帧，以执行以下特征提取操作，直至遍历目标视频中的全部视频帧：

S2，将当前视频帧映射至目标色彩编码空间中，以提取当前视频帧中各个像素点映射至目标色彩编码空间中各个图像色彩分量参数的参数取值，其中，目标色彩编码空间包括至少两个图像色彩分量参数；

S3，根据各个像素点的图像色彩分量参数的参数取值，确定与当前视频帧匹配的图像特征集。

可选地，在本实施例中，根据各个像素点的图像色彩分量参数的参数取值，确定与当前视频帧匹配的图像特征集包括：获取各个像素点的第i个图像色彩分量参数的参数取值的均值，得到当前视频帧的第i个图像特征，其中，i为大于等于1，小于等于N的整数，N为目标色彩编码空间中图像色彩分量参数的数量，N为正整数。

可选地，在本实施例中，上述目标色彩编码空间可以但不限于为HSV色彩空间，在该HSV色彩空间中包括以下图像色彩分量参数：色调、饱和度、明度(Hue，Saturation，Value，简称HSV)。在将视频帧映射至上述目标色彩编码空间时，是将视频帧中各个像素点映射至目标色彩编码空间，因而将获取到各个像素点在该目标色彩编码空间中各个图像色彩分量参数的参数取值。进一步，将第i个图像色彩分量参数的取值的均值作为该视频帧对应图像特征集中的第i个图像特征。

具体结合以下示例进行说明：这里的目标视频中各个视频帧的原始格式可以但不限于均为YUV格式，在将其映射到HSV色彩空间时，各个视频帧可以依次作为当前视频帧，假设当前视频帧中的高和宽，分别用M和N表示，(i，j)代表当前视频帧中任意一个像素点的位置坐标，H，S和V分别代表了该像素点的三个图像色彩分量参数的取值。通过以下公式计算获取对应的图像特征集将包括以下图像特征：。

其中，H_avg用于表示当前视频帧中各个像素点的色调分量参数的取值的均值，S_avg用于表示当前视频帧中各个像素点的饱和度分量参数的取值的均值，V_avg用于表示当前视频帧中各个像素点的明度分量参数的取值的均值。

基于上述计算结果将得到当前视频帧的三个图像色彩分量参数对应的三个图像特征，以构成该当前视频帧对应的图像特征集。参考上述方式获取上述目标视频中各个视频帧各自对应的图像特征集。

针对上述视频处理方法，具体结合图3所示步骤来进行全流程说明：

在如步骤S302获取目标视频之后，执行步骤S304，提取各个视频帧中HSV特征，并经比对得到第一场景视频帧列表。然后，如步骤S306-1，基于第一场景视频帧列表中的关键视频帧和该关键视频帧之前的参考视频帧(即关键视频帧的前一个视频帧)生成各自的特征向量，并经比对得到余弦距离。此外如步骤S306-2，采用Sift算子提取关键视频帧和参考视频帧的Sift特征点，并经比对得到匹配特征点，再获取该匹配特征点在关键视频帧对应的特征点集中所占的第一占比和该匹配特征点在参考视频帧对应的特征点集中所占的第二占比。最后如步骤S308，特征融合，以确定合并或保留第一场景视频帧列表中的视频帧序列，从而实现更新得到第二场景视频帧列表。以便于基于该第二场景视频帧列表中精细化分割的各个场景的视频帧序列对目标视频进行划分，来确保得到的视频片段的准确性，进而使得再次合并得到的视频流文件的画面质量的统一性。

通过本申请提供的实施例，依次获取目标视频中各个视频帧的像素点在目标色彩编码空间中对应的各个图像色彩分量参数的参数取值，以利用该参数取值计算得到视频帧对应的图像特征集中的图像特征，从而实现利用该图像特征来对目标视频中的全部视频帧进行初次划分，以得到粗分后的第一场景视频帧列表。

作为一种可选的方案，根据图像特征集对目标视频中的全部视频帧进行划分，得到第一场景视频帧列表包括：

S1，获取图像特征集中各个图像特征的均值，将图像特征的均值作为与视频帧匹配的目标图像特征；

S2，依次比对相邻两个视频帧各自对应的目标图像特征，得到比对结果；

S3，根据比对结果对全部视频帧进行划分，得到第一场景视频帧列表。

具体结合以下示例进行说明：假设仍以上述场景继续说明，在获取当前视频帧对应的图像特征集(H_avg，S_avg，V_avg)之后，可以使用下式计算该当前视频帧各个图像特征的均值(即HSV的均值)：

然后，将上述各个图像特征的均值HSV_avg，作为该当前视频帧对应的目标图像特征，并利用该目标图像特征来进一步参与比对，以获取第一场景视频帧列表。

可选地，在本实施例中，依次比对相邻两个视频帧各自对应的目标图像特征，得到比对结果包括：获取第j+1个视频帧的目标图像特征与第j个视频帧的目标图像特征的特征差值，其中，j为大于等于1，小于等于M-1的整数，M为目标视频中视频帧的数量；比对特征差值与第一阈值，得到比对结果。

可选地，在本实施例中，根据比对结果对全部视频帧进行划分，得到第一场景视频帧列表包括：在比对结果指示特征差值小于第一阈值的情况下，确定第j+1个视频帧与第j个视频帧为同一个场景，则将第j+1个视频帧添加到第j个视频帧所在的场景视频帧序列中；在比对结果指示特征差值大于等于第一阈值的情况下，确定第j+1个视频帧与第j个视频帧并非同一个场景，则为第j+1个视频帧创建新的场景视频帧序列。

具体结合以下示例进行说明：在通过以上公式计算求得每一帧视频帧的目标图像特征HSV_avg之后，可以比较相邻两帧的目标图像特征，得到特征差值。进一步利用该特征差值与第一阈值(如用T_HSV表示)的比较结果，来确定是否将上述相邻两个视频帧合并，存入同一场景中的视频帧序列中。

例如，若相邻两帧(即第j+1个视频帧与第j个视频帧)的目标图像特征的特征差值小于阈值T_HSV，则认为第j+1个视频帧与第j个视频帧属于同一个场景中，将二者存入同一个场景对应的场景帧序列中。若相邻两帧(即第j+1个视频帧与第j个视频帧)的目标图像特征的特征差值大于阈值T_HSV，则认为二者并非同一个场景，并将第j+1个视频帧存入一个新的场景的视频帧序列中，以此类推，直至遍历目标视频中的全部视频帧，得到初始的第一场景视频帧列表。其中，上述阈值T_HSV的最优取值可以但不限于设置为25。

假设对目标视频中的10个视频帧执行以上操作，过程可以如下：

获取每个视频帧中各个像素点在HSV色彩空间中各个图像色彩分量参数的取值，并计算均值得到图像特征集(H_avg，S_avg，V_avg)。然后基于上述图像特征集再进行均值计算，以获取各个视频帧的目标图像特征，如依次为HSV₁、HSV₂、HSV₃…HSV₁₀。接着依次获取相邻两个视频帧的目标图像特征的特征差值，并与第一阈值T_HSV进行比对。如比对HSV₁-HSV₂的差值和T_HSV，得到差值小于T_HSV，则确定第1个视频帧(帧标识为1)与第2个视频帧(帧标识为2)为同一个场景，则可以将二者存入视频帧列表中，作为场景一对应的视频帧序列，如表1所示的第一项中记录的数据。又如比对HSV₂-HSV₃的差值和T_HSV，得到差值大于T_HSV，则确定第二个视频帧与第三个视频帧并非同一个场景，则将第3个视频帧(帧标识为3)存入视频帧列表中与场景二对应的视频帧序列中，如表1所示的第二项中记录的数据。以此类推得到各个场景对应的视频帧序列，从而得到初分后的第一场景视频帧列表。

表1

场景	场景帧序列(帧标识)
		一	1、2
二	3
		三	4、5、6
四	7、8
		五	9、10

通过本申请提供的实施例，在获取到每个视频帧匹配的目标图像特征之后，比对相邻两个目标图像特征之间的特征差值和第一阈值，进而根据比对结果来确定两个相邻的视频帧是否为同一场景，从而实现快速划分得到第一场景视频帧列表。

作为一种可选的方案，依次获取每个关键视频帧和位于关键视频帧之前的参考视频帧之间的特征相似度包括：

S1，获取关键视频帧的关键特征向量和参考视频帧的参考特征向量；

S2，获取关键特征向量与参考特征向量之间的余弦距离，其中，特征相似度包括余弦距离；

S3，获取关键视频帧和参考视频帧中的匹配特征点；

S4，获取匹配特征点在关键视频帧中的第一占比和匹配特征点在参考视频帧中的第二占比，其中，特征相似度包括第一占比和第二占比。

可选地，在本实施例中，获取关键视频帧的关键特征向量和参考视频帧的参考特征向量包括：对关键视频帧和参考视频帧分别进行预处理，得到候选关键视频帧和候选参考视频帧；将候选关键视频帧输入轻量级卷积神经网络，以得到关键特征向量，并将候选参考视频帧输入轻量级卷积神经网络，以得到参考特征向量，其中，轻量级卷积神经网络为利用多组样本图像对及对应的标签信息进行机器训练后所得到的用于生成图像的特征向量的神经网络，多组样本图像对中的每组样本图像对包括样本视频中第一样本场景中的首帧图像和第二样本场景的末帧图像，第二样本场景与第一样本场景相邻且位于第一样本场景之前，标签信息包括首帧图像的场景标签及末帧图像的场景标签。

可选地，在本实施例中，上述预处理可以包括但不限于：对关键视频帧和参考视频帧进行格式转换和尺寸调整，以得到适应轻量级卷积神经网络的输入要求。例如，在轻量级卷积神经网络为MobileNet V2网络，则可以将上述视频帧调整为尺寸为224*224的RGB格式的三通道图像，如得到尺寸为224*224的RGB格式的候选关键视频帧和尺寸为224*224的RGB格式的候选参考视频帧。也就是说，在实际应用中，可以根据实际应用的神经网络模型对内存占用的限制和对准确率等要求进行调整。

此外，在本实施例中，上述轻量级卷积神经网络可以但不限于为MobileNet V2网络，还可以是Inception Net，PasNet等网路，均可实现同等功能。

具体来说，假设这里的轻量级卷积神经网络以MobileNet V2网络为例进行说明：假设上述MobileNet V2网络的网络结构可以如图4所示。上述MobileNet V2网络中包括：一个卷积层后，设置有17个深度可分离卷积层，最后连接有2个卷积层和1个池化层。通过上述网络的处理后将生成一个1280*1的特征向量。

具体结合上述网络结构的MobileNet V2网络应用于本申请实施例中，对关键视频帧F_n和参考视频帧F_n-1执行以下操作：

对第一场景视频帧列表中的关键视频帧F_n进行下采样，得到224*224的图像，并转换为RGB格式的图像，得到候选关键视频帧。然后，将该候选关键视频帧作为MobileNet V2网络的输入，从而得到与关键视频帧F_n匹配的维度为1280*1的关键特征向量I_n。此外，对参考视频帧F_n-1也进行同样的处理，以得到与参考视频帧F_n-1匹配的维度为1280*1的参考特征向量I_n-1。最后，再使用下式计算关键特征向量I_n和参考特征向量I_n-1的余弦距离：

其中，d_cos为关键特征向量I_n和参考特征向量I_n-1的余弦距离，其取值范围可以但不限于在0至1之间。

此外，在本实施例中，可以但不限于采用Sift算子来提取关键视频帧中的特征点，并提取参考视频帧中的特征点。然后比对二者以得到匹配特征点，并进一步获取该匹配特征点在关键视频帧中的第一占比和在参考视频帧中的第二占比。

例如，假设了关键视频帧F_n中特征点的数目为N_n，参考视频帧F_n-1中特征点的数目记为N_n-1，以及匹配特征点的数目为M。然后可以使用下式求得占比：

其中，p_n用于指示匹配特征点在关键视频帧F_n中的第一占比，p_n-1用于指示匹配特征点在参考视频帧F_n-1中的第二占比。

需要说明的是，在本实施例中，上述方式为示例，还可以对特征向量和匹配特征点的占比这两种高级特征使用或逻辑、多核学习，相关性多元统计等方法。在实际应用中，可以根据实际应用中对查准率和查全率的要求进行调整。

通过本申请提供的实施例，通过卷积神经网络来提取关键视频帧和参考视频帧的特征向量，并通过Sift算子来获取关键视频帧和参考视频帧的匹配特征点，以计算得到第一占比和第二占比，从而获取到二者的特征相似度，以便于利用上述特征相似度来确定是否更新第一场景视频帧列表。也就是说，通过特征融合的方式对特征向量和匹配特征点的占比这两种高级特征进行判读，以确定是否重新合并视频帧，得到更新后的第二场景视频帧列表。

可选地，在本实施例中，在获取待处理的目标视频之前，还包括：获取多个样本视频，并提取每个样本视频中的多组图像对；将每组图像对作为当前组图像对，执行以下操作，直至达到轻量级卷积神经网络的收敛条件：将当前组图像对中的第一样本场景中的首帧图像输入第一训练卷积神经网络中，以得到第一特征向量，并将当前组图像对中的第二样本场景中的末帧图像输入第二训练卷积神经网络中，以得到第二特征向量，其中，轻量级卷积神经网络训练时使用孪生网络结构，孪生网络结构包括第一训练卷积神经网络和第二训练卷积神经网络，且第一训练卷积神经网络和第二训练卷积神经网络共享训练权重；获取第一特征向量及第二特征向量之间的余弦距离，并将第一特征向量及第二特征向量之间的余弦距离作为特征距离；将特征距离及标签信息输入损失函数，以计算得到当前损失值；获取当前损失值及当前损失值的上一个损失值的损失值差值；在损失值差值指示孪生网络结构达到收敛条件的情况下，则将当前完成训练的第一训练卷积神经网络或第二训练卷积神经网络作为轻量级卷积神经网络。

需要说明的是，在本实施例中，上述轻量级卷积神经网络可以为MobileNet V2网络，这里的MobileNet V2网络的训练流程可以如下：

选取多个样本视频，以尽量覆盖到各种品类。然后使用本申请实施例中提出的HSV特征提取方法来对上述样本视频进行预分割，并保留分割出的每个场景的首帧图像和末帧图像。将上一个场景的末帧图像(参考视频帧)和当前场景的首帧图像(关键视频帧)配对，形成一组图像对，并人工标记是否为同一个场景的场景标签，以形成用于训练的数据集。之后，对数据集进行划分，选取75％的数据作为训练集，剩下25％的数据作为测试集。并且，需要保证训练中，正例和反例的比例约为1：1。

接着搭建训练网络，这里训练时使用的网络为孪生网络结构，如图5所示，搭建两个结构完全相同的MobileNet V2网络(即第一训练卷积神经网络和第二训练卷积神经网络)。

具体来说，对于上述数据集中的每一个图像对(如图像1和图像2)，分别输入两个MobileNet V2网络(如MobileNet V2-1和MobileNet V2-2)，如步骤S502-1和步骤S502-2。然后如步骤S504-1和步骤S504-2，通过MobileNet V2网络的处理，将分别生成两个特征向量(如特征向量1和特征向量2)，如步骤S506-1和步骤S506-2。最后如步骤S508，对上述两个特征向量计算余弦距离。

同时，需要注意的是，在训练过程中，上述孪生结构中的两个MobileNet V2网络共享权重。也就是说，在每次训练后，先固定其中一个(如MobileNet V2-1)网络中的权重参数，通过反向传播更新另一个(如MobileNet V2-2)网络中的权重参数。然后再将更新后的权重参数直接同步给MobileNet V2-1网络，从而实现对两个MobileNet V2网络的同步训练更新，并在达到收敛条件后，将其中任意一个作为应用于实际业务中。

进一步，在训练过程中建立的损失函数可以如下：

其中，N代表训练所用数据集中图像对的总数。下标i代表了当前处理的样本序号。y_i代表了当前样本(即第i组图像对)的标签，当作为样本的图像对中的两张图像属于同一个场景的时候，y_i的取值为1；当作为样本的中两张图像不属于同一个场景的时候，y_i的取值为0。d_cos，i代表了当前样本中两张图像的余弦距离，当两张图像属于同一场景时，余弦距离趋近于1；当两张图像不属于同一场景时，余弦距离趋近于0。

进一步，从上述式(5)中还可以看出，该损失函数由两部分组成，前一部分为余弦距离，后一部分则是权重衰减性，可以让网络学习到更平滑的权重，提高网络的泛化能力。

此外，在本实施例中，在上述训练过程中，可以但不限于获取相邻两次训练输出结果的损失值的差值，在连续多次差值均小于一定阈值的情况下，确定达到训练的收敛条件。其中，上述每一次的损失值即为将标签信息y_i和余弦距离d_cos，i输入上述公式(5)计算得到的L。

在完成网络的训练之后，需要使用预先分离出来的测试集对网络性能进行测试，计算网络的准确率和查全率等指标，评估是否符合业务需求。若符合，则将网络投入使用，不符合，则对网络进行二次训练等操作。

通过本申请提供的实施例，通过轻量级卷积神经网络计算得到关键视频帧对应的关键特征向量，和参考视频帧对应的参考特征向量。其中，上述轻量级卷积神经网络采用孪生网络结构训练得到，从而实现基于此高级特征来进一步精细化划分场景视频帧列表，以提升视频分割处理的准确率。

作为一种可选的方案，获取关键视频帧和参考视频帧中的匹配特征点包括：

S1，将关键视频帧转换为关键视频帧灰度图，并将参考视频帧转换为参考视频帧灰度图；

S2，采用尺度不变的特征变化算子，从关键视频帧灰度图中提取关键特征点集，并从参考视频帧灰度图中提取参考特征点集；

S3，比对关键特征点集和参考特征点集，以获取匹配特征点。

在本实施例中，在获取到第一场景视频帧列表之后，可以使用Sift特征算子分析以得到匹配特征点，具体过程可以参考图6所示流程。具体来说，假设如步骤S602-1和步骤S602-2，确定当前待处理的参考视频帧F_n-1和关键视频帧F_n，然后将输入的视频帧分别转换为灰度图，如步骤S604-1得到参考视频帧灰度图，如步骤S604-2，得到关键视频帧灰度图。再执行步骤S606-1和步骤S606-2，使用Sift算子分别提取出特征点，得到关键特征点集和参考特征点集。并将关键视频帧F_n中特征点的数目记为N_n，将参考视频帧F_n-1中特征点的数目记为N_n-1。经过步骤S608的比对匹配后，如步骤S610将获取到匹配特征点的数量，如数目M。

在上述步骤S608特征点的比对匹配过程中，可以但不限于采用快速最近邻匹配方式，以确定出两个视频帧中的匹配特征点。具体来说，假设以关键视频帧F_n为参考，对关键视频帧F_n中提取出的每一个特征点Q_i执行以下操作：

获取参考视频帧F_n-1中提取出的各个特征点与上述特征点Q_i之间的欧氏距离。在找出两个最近邻点(记为a，b)的情况下，获取特征点Q_i与特征点a之间的欧式距离S_a，及特征点Q_i与特征点b之间的欧式距离S_b。然后，比对S_a与T*S_b，在S_a<T*S_b时，确定参考视频帧F_n-1中存在匹配特征点，即为a点。其中，T的取值可以为0.5。

需要说明的是，上述为示例，还可以以参考视频帧F_n-1为例，在关键视频帧F_n中查找对应的匹配特征点，查找方式可以参考上述过程，这里不再赘述。

进一步，假设获取到关键视频帧F_n中特征点集的数目N_n，参考视频帧F_n-1中特征点集的数目记为N_n-1，以及匹配特征点的数目M，则可以基于上述数据计算匹配特征点分别在两帧的特征点中的占比，即第一占比和第二占比。

通过本申请提供的实施例，通过Sift特征算子来提取关键视频帧中的特征点和参考视频帧中的特征点，以基于此计算二者的匹配特征点在关键视频帧中特征点所占的第一占比，和匹配特征点在参考视频帧中特征点所占的第二占比，以便于基于此高级特征来进一步精细化划分场景视频帧列表，从而提升视频分割处理的准确率。

作为一种可选的方案，在依次获取每个关键视频帧和位于关键视频帧之前的参考视频帧之间的特征相似度之后，还包括：

1)在余弦距离大于第二阈值的情况下，确定特征相似度达到合并条件；

2)在余弦距离小于等于第二阈值，第一占比大于第三阈值且第二占比大于第四阈值的情况下，确定特征相似度达到合并条件；

3)在余弦距离小于等于第二阈值，且第一占比小于等于第三阈值的情况下，确定特征相似度并未达到合并条件，保留关键视频帧所在第一场景中的场景视频帧序列；

4)在余弦距离小于等于第二阈值，且第二占比小于等于第四阈值的情况下，确定特征相似度并未达到合并条件，保留关键视频帧所在第一场景中的场景视频帧序列。

具体结合图7所示示例进行说明：假设获取到关键视频帧F_n和参考视频帧F_n-1之间的余弦距离d_cos。在Sift特征算子提取后得到匹配特征点的第一占比为p_n，第二占比为p_n-1。用于与余弦距离比对的阈值为T_cos，用于与第一占比和第二占比比对的阈值为T_sift。

具体来说，在进行特征融合的时候，在如步骤S702，获取到关键视频帧F_n和参考视频帧F_n-1之间的余弦距离d_cos之后，执行步骤S704，判断d_cos是否大于阈值T_cos，如果d_cos>T_cos，则直接将关键视频帧F_n所在的场景与参考视频帧F_n-1所在的场景进行合并，即如步骤S710-2，将关键视频帧所在场景对应的视频帧序列，合并到参考视频帧所在场景对应的视频帧序列中。如果d_cos没有大于T_cos，则继续进行判断，执行步骤S706，判断匹配特征点在关键视频帧的特征点集中所占的第一占比p_n是否大于阈值T_sift。如果第一占比p_n小于等于阈值T_sift，则如步骤S710-1，保留关键视频帧和参考视频帧各自的场景分割结果。

而在第一占比p_n大于阈值T_sift的情况下，则执行步骤S708，判断匹配特征点在参考视频帧的特征点集中所占的第二占比p_n-1是否大于阈值T_sift。如果第二占比p_n-1小于等于阈值T_sift，则如步骤S710-1，保留关键视频帧和参考视频帧各自的场景分割结果。如果第二占比p_n-1大于阈值T_sift的情况下，则如步骤S710-2，将关键视频帧所在场景对应的视频帧序列，合并到参考视频帧所在场景对应的视频帧序列中。

其中，上述步骤S706与步骤S708的执行顺序可以交换，上述为示例，本实施例中对此不作任何限定。也即是说，在第一占比p_n和第二占比p_n-1均大于阈值T_sift的情况下，则将关键视频帧F_n所在的场景与参考视频帧F_n-1所在的场景进行合并，即如步骤S710-2，将关键视频帧所在场景对应的视频帧序列，合并到参考视频帧所在场景对应的视频帧序列中。如果上述两次任意一次占比小于阈值，则保留第一场景视频帧列表中对关键视频帧和参考视频帧的场景划分。需要说明的是，上述阈值T_cos的取值可以但不限于为0.8，上述阈值T_sift的取值可以但不限于为0.3。这里为示例，本实施例中对此不作任何限定。

通过本申请提供的实施例，利用关键视频帧和参考视频帧之间的特征向量计算得到的余弦距离，和基于Sift特征算子提取的特征点而得到的匹配特征点对应的第一占比和第二占比，这些高级特征来对第一场景视频帧列表进行进一步更新调整，得到精细化分割处理后的第二场景视频帧列表，从而确保视频分割结果的准确性。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

根据本发明实施例的另一个方面，还提供了一种用于实施上述视频处理方法的视频处理装置。如图8所示，该装置包括：

第一获取单元802，用于获取待处理的目标视频；

第一提取单元804，用于对目标视频中各个视频帧依次进行特征提取，得到与每个视频帧对应的图像特征集，其中，图像特征集中包括视频帧的至少两个图像特征；

划分单元806，用于根据图像特征集对目标视频中的全部视频帧进行划分，得到第一场景视频帧列表，其中，第一场景视频帧列表中记录有目标视频中包含的多个场景分别对应的场景视频帧序列，每个场景视频帧序列中的首个视频帧为场景的关键视频帧；

第二获取单元808，用于依次获取每个关键视频帧和位于关键视频帧之前的参考视频帧之间的特征相似度；

合并更新单元810，用于在特征相似度达到合并条件的情况下，将关键视频帧所在第一场景中的场景视频帧序列，合并到参考视频帧所在第二场景中的场景视频帧序列中，以将第一场景视频帧列表更新为第二场景视频帧列表；

分割处理单元812，用于按照第二场景视频帧列表对目标视频进行分割处理。

具体的实施例可以参考上述视频处理方法的实施例，本实施例中在此不再赘述。

根据本发明实施例的又一个方面，还提供了一种用于实施上述视频处理方法的电子设备，该电子设备可以是图1所示的终端设备或服务器。本实施例以该电子设备为服务器为例来说明。如图9所示，该电子设备包括存储器902和处理器904，该存储器902中存储有计算机程序，该处理器904被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子设备可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，获取待处理的目标视频；

S2，对目标视频中各个视频帧依次进行特征提取，得到与每个视频帧对应的图像特征集，其中，图像特征集中包括视频帧的至少两个图像特征；

S3，根据图像特征集对目标视频中的全部视频帧进行划分，得到第一场景视频帧列表，其中，第一场景视频帧列表中记录有目标视频中包含的多个场景分别对应的场景视频帧序列，每个场景视频帧序列中的首个视频帧为场景的关键视频帧；

S4，依次获取每个关键视频帧和位于关键视频帧之前的参考视频帧之间的特征相似度；

S5，在特征相似度达到合并条件的情况下，将关键视频帧所在第一场景中的场景视频帧序列，合并到参考视频帧所在第二场景中的场景视频帧序列中，以将第一场景视频帧列表更新为第二场景视频帧列表；

S6，按照第二场景视频帧列表对目标视频进行分割处理。

可选地，本领域普通技术人员可以理解，图9所示的结构仅为示意，电子装置电子设备也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图9其并不对上述电子装置电子设备的结构造成限定。例如，电子装置电子设备还可包括比图9中所示更多或者更少的组件(如网络接口等)，或者具有与图9所示不同的配置。

其中，存储器902可用于存储软件程序以及模块，如本发明实施例中的视频处理方法和装置对应的程序指令/模块，处理器904通过运行存储在存储器902内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的视频处理方法。存储器902可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器902可进一步包括相对于处理器904远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器902具体可以但不限于用于存储目标视频及处理过程中的中间信息，如场景视频帧列表等信息。作为一种示例，如图9所示，上述存储器902中可以但不限于包括上述视频处理装置中的第一获取单元802、第一提取单元804、划分单元806、第二获取单元808、合并更新单元810及分割处理单元812。此外，还可以包括但不限于上述视频处理装置中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置906用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置906包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置906为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子设备还包括：连接总线910，用于连接上述电子设备中的各个模块部件。

在其他实施例中，上述终端设备或者服务器可以是一个分布式系统中的一个节点，其中，该分布式系统可以为区块链系统，该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中，节点之间可以组成点对点(P2P，Peer To Peer)网络，任意形式的计算设备，比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述视频处理方法。其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述计算机可读的存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，获取待处理的目标视频；

S6，按照第二场景视频帧列表对目标视频进行分割处理。

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种视频处理方法，其特征在于，包括：

获取待处理的目标视频；

对所述目标视频中各个视频帧依次进行特征提取，得到与每个视频帧对应的图像特征集，其中，所述图像特征集中包括所述视频帧的至少两个图像特征；

获取所述图像特征集中各个图像特征的均值，将所述图像特征的均值作为与所述视频帧匹配的目标图像特征，依次比对相邻两个视频帧各自对应的目标图像特征，得到比对结果，根据所述比对结果对全部视频帧进行划分，得到第一场景视频帧列表，其中，所述第一场景视频帧列表中记录有所述目标视频中包含的多个场景分别对应的场景视频帧序列，每个场景视频帧序列中的首个视频帧为所述场景的关键视频帧；

依次获取每个所述关键视频帧和位于所述关键视频帧之前的参考视频帧之间的特征相似度，其中，所述特征相似度包括：所述关键视频帧的关键特征向量和所述参考视频帧的参考特征向量二者之间的余弦距离、所述关键视频帧与所述参考视频帧二者之间匹配特征点在所述关键视频帧中的第一占比，和所述关键视频帧与所述参考视频帧二者之间匹配特征点在所述参考视频帧中的第二占比；

在所述余弦距离大于第二阈值的情况下，确定所述特征相似度达到合并条件；

在所述余弦距离小于等于所述第二阈值，所述第一占比大于第三阈值且所述第二占比大于第四阈值的情况下，确定所述特征相似度达到所述合并条件；

在所述余弦距离小于等于所述第二阈值，且所述第一占比小于等于所述第三阈值的情况下，确定所述特征相似度并未达到所述合并条件，保留所述关键视频帧所在所述第一场景中的场景视频帧序列；

在所述余弦距离小于等于所述第二阈值，且所述第二占比小于等于所述第四阈值的情况下，确定所述特征相似度并未达到所述合并条件，保留所述关键视频帧所在所述第一场景中的场景视频帧序列；

所述关键视频帧与所述参考视频帧二者之间匹配特征点通过以下方式获取：

将所述关键视频帧转换为关键视频帧灰度图，并将所述参考视频帧转换为参考视频帧灰度图；

采用尺度不变的特征变化算子，从所述关键视频帧灰度图中提取关键特征点集，并从所述参考视频帧灰度图中提取参考特征点集；

比对所述关键特征点集和所述参考特征点集，以获取所述匹配特征点；

在所述特征相似度达到合并条件的情况下，将所述关键视频帧所在第一场景中的场景视频帧序列，合并到所述参考视频帧所在第二场景中的场景视频帧序列中，以将所述第一场景视频帧列表更新为第二场景视频帧列表；

按照所述第二场景视频帧列表对所述目标视频进行分割处理。

2.根据权利要求1所述的方法，其特征在于，所述对所述目标视频中各个视频帧依次进行特征提取，得到与每个视频帧对应的图像特征集包括：

依次将所述目标视频中的每个视频帧作为当前视频帧，以执行以下特征提取操作，直至遍历所述目标视频中的全部视频帧：

将所述当前视频帧中各个像素点映射至目标色彩编码空间中，以得到所述各个像素点在所述目标色彩编码空间内各个图像色彩分量参数的参数取值，其中，所述目标色彩编码空间包括至少两个图像色彩分量参数；

根据所述各个像素点的所述图像色彩分量参数的参数取值，确定与所述当前视频帧匹配的所述图像特征集。

3.根据权利要求2所述的方法，其特征在于，所述根据所述各个像素点的所述图像色彩分量参数的参数取值，确定与所述当前视频帧匹配的所述图像特征集包括：

获取所述各个像素点的第i个图像色彩分量参数的参数取值的均值，得到所述当前视频帧的第i个图像特征，其中，所述i为大于等于1，小于等于N的整数，所述N为所述目标色彩编码空间中所述图像色彩分量参数的数量，所述N为正整数。

4.根据权利要求1所述的方法，其特征在于，

所述依次比对相邻两个视频帧各自对应的目标图像特征，得到比对结果包括：获取第j+1个视频帧的目标图像特征与第j个视频帧的目标图像特征的特征差值，其中，所述j为大于等于1，小于等于M-1的整数，所述M为所述目标视频中视频帧的数量；比对所述特征差值与第一阈值，得到所述比对结果；

所述根据所述比对结果对全部视频帧进行划分，得到所述第一场景视频帧列表包括：在所述比对结果指示所述特征差值小于所述第一阈值的情况下，确定所述第j+1个视频帧与所述第j个视频帧为同一个场景，则将所述第j+1个视频帧添加到所述第j个视频帧所在的场景视频帧序列中；在所述比对结果指示所述特征差值大于等于所述第一阈值的情况下，确定所述第j+1个视频帧与所述第j个视频帧并非同一个场景，则为所述第j+1个视频帧创建新的场景视频帧序列。

5.根据权利要求1所述的方法，其特征在于，所述获取所述关键视频帧的关键特征向量和所述参考视频帧的参考特征向量包括：

对所述关键视频帧和所述参考视频帧分别进行预处理，得到候选关键视频帧和候选参考视频帧；

将所述候选关键视频帧输入轻量级卷积神经网络，以得到所述关键特征向量，并将所述候选参考视频帧输入所述轻量级卷积神经网络，以得到所述参考特征向量，其中，所述轻量级卷积神经网络为利用多组样本图像对及对应的标签信息进行机器训练后所得到的用于生成图像的特征向量的神经网络，所述多组样本图像对中的每组样本图像对包括样本视频中第一样本场景中的首帧图像和第二样本场景的末帧图像，所述第二样本场景与所述第一样本场景相邻且位于所述第一样本场景之前，所述标签信息包括所述首帧图像的场景标签及所述末帧图像的场景标签。

6.根据权利要求5所述的方法，其特征在于，在所述获取待处理的目标视频之前，还包括：

获取多个所述样本视频，并提取每个所述样本视频中的所述多组图像对；

将每组图像对作为当前组图像对，执行以下操作，直至达到所述轻量级卷积神经网络的收敛条件：

将所述当前组图像对中的所述第一样本场景中的首帧图像输入第一训练卷积神经网络中，以得到第一特征向量，并将所述当前组图像对中的所述第二样本场景中的末帧图像输入第二训练卷积神经网络中，以得到第二特征向量，其中，所述轻量级卷积神经网络训练时使用孪生网络结构，所述孪生网络结构包括所述第一训练卷积神经网络和所述第二训练卷积神经网络，且所述第一训练卷积神经网络和所述第二训练卷积神经网络共享训练权重；

获取所述第一特征向量及所述第二特征向量之间的余弦距离，将所述第一特征向量及所述第二特征向量之间的余弦距离作为特征距离；

将所述特征距离及所述标签信息输入损失函数，以计算得到当前损失值；

获取所述当前损失值及所述当前损失值的上一个损失值的损失值差值；

在所述损失值差值指示所述孪生网络结构达到所述收敛条件的情况下，则将当前完成训练的所述第一训练卷积神经网络或所述第二训练卷积神经网络作为所述轻量级卷积神经网络。

7.一种视频处理装置，其特征在于，包括：

第一获取单元，用于获取待处理的目标视频；

第一提取单元，用于对所述目标视频中各个视频帧依次进行特征提取，得到与每个视频帧对应的图像特征集，其中，所述图像特征集中包括所述视频帧的至少两个图像特征；

划分单元，用于获取所述图像特征集中各个图像特征的均值，将所述图像特征的均值作为与所述视频帧匹配的目标图像特征，依次比对相邻两个视频帧各自对应的目标图像特征，得到比对结果，根据所述比对结果对全部视频帧进行划分，得到第一场景视频帧列表，其中，所述第一场景视频帧列表中记录有所述目标视频中包含的多个场景分别对应的场景视频帧序列，每个场景视频帧序列中的首个视频帧为所述场景的关键视频帧；

第二获取单元，用于依次获取每个所述关键视频帧和位于所述关键视频帧之前的参考视频帧之间的特征相似度，其中，所述特征相似度包括：所述关键视频帧的关键特征向量和所述参考视频帧的参考特征向量二者之间的余弦距离、所述关键视频帧与所述参考视频帧二者之间匹配特征点在所述关键视频帧中的第一占比，和所述关键视频帧与所述参考视频帧二者之间匹配特征点在所述参考视频帧中的第二占比；

第一确定单元，用于在所述余弦距离大于第二阈值的情况下，确定所述特征相似度达到合并条件；

第二确定单元，用于在所述余弦距离小于等于所述第二阈值，所述第一占比大于第三阈值且所述第二占比大于第四阈值的情况下，确定所述特征相似度达到所述合并条件；

第三确定单元，用于在所述余弦距离小于等于所述第二阈值，且所述第一占比小于等于所述第三阈值的情况下，确定所述特征相似度并未达到所述合并条件，保留所述关键视频帧所在所述第一场景中的场景视频帧序列；

第四确定单元，用于在所述余弦距离小于等于所述第二阈值，且所述第二占比小于等于所述第四阈值的情况下，确定所述特征相似度并未达到所述合并条件，保留所述关键视频帧所在所述第一场景中的场景视频帧序列；

转换单元，用于将所述关键视频帧转换为关键视频帧灰度图，并将所述参考视频帧转换为参考视频帧灰度图；

第二提取单元，用于采用尺度不变的特征变化算子，从所述关键视频帧灰度图中提取关键特征点集，并从所述参考视频帧灰度图中提取参考特征点集；

比对单元，用于比对所述关键特征点集和所述参考特征点集，以获取所述匹配特征点；

合并更新单元，用于在所述特征相似度达到合并条件的情况下，将所述关键视频帧所在第一场景中的场景视频帧序列，合并到所述参考视频帧所在第二场景中的场景视频帧序列中，以将所述第一场景视频帧列表更新为第二场景视频帧列表；

分割处理单元，用于按照所述第二场景视频帧列表对所述目标视频进行分割处理。

8.一种计算机可读的存储介质，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行所述权利要求1至6任一项中所述的方法。

9.一种电子设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至6任一项中所述的方法。