CN112906492A

CN112906492A - 视频场景处理方法、装置、设备及介质

Info

Publication number: CN112906492A
Application number: CN202110111155.2A
Authority: CN
Inventors: 张文浩
Original assignee: BOE Technology Group Co Ltd
Current assignee: BOE Technology Group Co Ltd
Priority date: 2021-01-27
Filing date: 2021-01-27
Publication date: 2021-06-04
Also published as: US20220237400A1; US11948359B2

Abstract

本申请公开了一种视频场景处理方法、装置、设备及介质，该方法包括：根据预设的滑动窗口从视频流中获取当前视频帧序列；对当前视频帧序列进行视频镜头识别；在识别到当前视频帧序列属于相同视频镜头时，对当前视频帧序列进行场景分类识别；在识别到当前视频帧序列包含不同的场景分类结果时，根据场景分类结果对当前视频帧序列进行平滑处理，得到平滑结果。本申请实施例提供的技术方案，通过识别出相同视频镜头下不同视频场景，然后对视频帧进行平滑处理，有效地解决了针对不同视频场景进行色彩调整所导致的视觉跳变问题。

Description

视频场景处理方法、装置、设备及介质

技术领域

本申请涉及视频图像处理技术领域，尤其涉及视频场景处理方法、装置、设备及介质。

背景技术

随着多媒体技术的发展，大量视频数据日益呈爆炸式速度增长,视频场景分割是多媒体信息理解识别的基础。

对经过分割的视频场景进行帧画面处理时，可能存在帧画面处理不理想的情况，导致经过处理的视频在播放时使得观看者感到不适。

发明内容

鉴于现有技术中的上述缺陷或不足，期望提供一种视频场景处理方法、装置、设备及介质，来解决上述针对视频场景进行帧画面处理导致的问题。

一方面，本申请实施例提供了一种视频场景处理方法，该方法包括：

根据预设的滑动窗口从视频流中获取当前视频帧序列；

对当前视频帧序列进行视频镜头识别；

在识别到当前视频帧序列属于相同视频镜头时，对当前视频帧序列进行场景分类识别；

在识别到当前视频帧序列包含不同的场景分类结果时，根据场景分类结果对当前视频帧序列进行平滑处理，得到平滑结果。

一方面，本申请实施例提供了一种视频场景处理装置，该装置包括：

视频帧获取模块，用于从视频流中按照预设的滑动窗口长度获取当前视频帧序列；

视频镜头识别模块，用于对当前视频帧序列进行视频镜头识别；

场景分类识别模块，用于在识别到当前视频帧序列属于相同视频镜头时，对当前视频帧序列进行场景分类识别；

融合处理模块，用于在识别到当前视频帧序列包含不同的场景分类结果时，根据场景分类结果对当前视频帧序列进行平滑处理，得到平滑结果。

一方面，本申请实施例提供了一种电子设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，该处理器执行所述程序时实现如本申请实施例描述的方法。

第六方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序用于实现本申请实施例描述的方法。

本申请实施例提供了一种视频场景处理方法、装置、设备及介质，该方法根据预设的滑动窗口从视频流中获取当前视频帧序列；然后，对当前视频帧序列进行视频镜头识别；在识别到当前视频帧序列属于相同视频镜头时，对当前视频帧序列进行场景分类识别；在识别到当前视频帧序列包含不同的场景分类结果时，根据场景分类结果对当前视频帧序列进行平滑处理，得到平滑结果，本申请实施例提供的技术方案，通过滑动窗口获取视频帧序列，然后对视频帧序列进行镜头识别和视频场景识别，在属于相同视频镜头的不同视频场景时，对视频帧序列进行平滑处理，可以有效地解决针对不同视频场景进行色彩调整导致的视觉跳变问题。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1示出了本申请实施例提出的视频场景处理方法的应用场景示意图；

图2示出了本申请实施例提出的视频场景处理方法的流程示意图；

图3示出了本申请实施例提供的又一视频场景处理方法的流程示意图；

图4示出了本申请实施例提供的再一视频场景处理方法的流程示意图；

图5示出了本申请实施例提供的滑动窗口提取视频帧序列的示意图；

图6示出了本申请实施例提供的按照预设步长移动滑动窗口进行平滑处理的示意图；

图7示出了本申请实施例提供的视频场景处理装置的结构示意图；

图8示出了本申请实施例提供电子设备的处理系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关公开，而非对该公开的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与公开相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

请参考图1，图1示出了本申请实施例提供的视频场景处理方法的应用场景示意图。如图1所示，在图像采集设备1采集得到的视频数据时，将视频数据通过网络2发送至图像处理设备3。图像处理设备3对视频数据进行帧画面处理。随着图像采集设备的移动，对图像采集设备采集得到的视频数据，会根据视频数据所包含的场景对视频数据进行色彩调整，但是这种色彩调整会导致经过调整处理的视频数据存在视觉跳变问题。

图像采集设备1包括但不限于各种类型的摄像头，摄像机，移动终端的摄像头等。

网络2可以包括无线网络或有线网络，通过无线网络或者有线网络使用标准通信技术和/或协议。网络通常为因特网，也可以是任何网络，包括但不限于局域网(Local AreaNetwork，LAN)、城域网(Metropolitan Area Network，MAN)、广域网(Wide Area Network，WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。

图像处理设备3包括但不限于电子设备和服务器，电子设备包括但不限于台式电脑，笔记本电脑，或者具有较强图像处理功能的移动终端。服务器包括但不限于独立的物理服务器，多个物理服务器构成的服务器集群或者分布式系统，提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

在对视频数据进行图像处理时，如果视频数据包含从室内场景变化到室外场景，针对视频数据的图像处理则包括针对室内场景对应的帧图像进行色彩调整和针对室外场景对应的帧图像进行色彩调整，不同场景的色彩调整处理会存在色彩跳变。尤其在相同视频镜头下存在不同的视频场景切换时，针对不同视频场景的色彩调整处理，会使得视觉跳变问题更明显。

“色彩调整”是指对视频数据中的帧图像进行色彩增强处理，使得帧图像的色彩特点更显著。例如，亮的更亮、暗的更暗、鲜艳的更鲜艳。

本申请为了解决该问题，提出了一种视频场景处理方法，期望能够解决相同视频镜头下的不同视频场景切换导致的视觉跳变问题。

下面请参考图2，图2示出了本申请实施例提出的视频场景处理方法的流程示意图。如图2所示，该方法可以由视频场景处理装置执行，该视频场景处理装置可以预先配置在电子设备中。该方法包括：

步骤201，根据预设的滑动窗口从视频流中获取当前视频帧序列。

步骤202，对当前视频帧序列进行视频镜头识别；

步骤203，在识别到当前视频帧序列属于相同视频镜头时，对当前视频帧序列进行场景分类识别。

步骤204，在识别到当前视频帧序列包含不同的场景分类结果时，根据场景分类结果对当前视频帧序列进行平滑处理，得到平滑结果。

在上述步骤中，预设的滑动窗口是指用于从视频流中提取待处理的视频帧序列的窗口。对该视频流进行序列化处理之后，通过滑动窗口从序列化处理的结果中提取多个视频帧，如图5所示，假设滑动窗口的长度为M，步长为1，则通过初始滑动窗口从序列化处理的视频流中获取M个连续的视频帧{F₀,F₁,……，F_M-1}。

对当前视频帧序列进行视频镜头识别。例如可以通过根据当前视频帧序列中相邻两帧视频帧之间的相似度确定当前视频帧序列对应的视频镜头是否存在变化。当前视频帧序列包括多帧视频帧。在相似度表示当前视频帧序列中相邻两帧视频帧相似时，确定当前视频帧序列对应的视频镜头相同；在相似度表示当前视频帧序列中相邻两帧视频帧不相似时，确定当前视频帧序列对应的视频镜头不同。该相似度可以通过利用直方图像素差值来表示。考虑到视频镜头边界是视频内容发生变化的表征，当相邻两帧的图像像素差值变化很小时，按照直方图分布示意图，可以确定处于低值区的像素差值表示视频镜头未发生变化，处于高值区的像素差值则表示视频镜头发生变化。

根据当前视频帧序列中相邻两帧视频帧之间的相似度，确定当前视频帧序列对应的视频镜头是否存在变化可以包括以下步骤：

确定当前视频帧序列中相邻两帧视频帧的直方图像素差值，该直方图像素差值是相邻两帧视频帧之间的像素差值对应的直方图差值；

在直方图像素差值小于预设阈值时，确定当前视频帧序列中相邻两帧视频帧对应的视频镜头相同；

在直方图像素差值大于等于预设阈值时，确定当前视频帧序列中相邻两帧视频帧对应的视频镜头不同。

可选地，根据当前视频帧序列中相邻两帧视频帧之间的相似度，确定当前视频帧序列对应的视频镜头是否存在变化，包括：

确定当前视频帧序列中相邻两帧视频帧的直方图像素差值；

根据直方图像素差值与当前视频帧序列的时间参数之间的映射关系，构建相似度曲线；

确定相似度曲线是否存在驻点；

在确定相似度曲线中不存在驻点时，确定当前视频帧序列对应的视频镜头相同；

在确定相似度曲线中存在驻点时，确定当前视频帧序列对应的视频镜头不同。

在识别到当前视频帧序列属于相同视频镜头时，进一步地对当前视频帧序列进行场景分类识别。例如可以将与所述滑动窗口对应的多帧视频帧中每一帧视频帧输入到预先构建的场景分类模型，输出得到每一帧视频帧对应的场景分类结果。场景分类模型包括但不限于采用视觉词袋模型，对视频帧的特征进行分类处理。或者，对当前视频帧序列每一视频帧，归一化处理得到多个图像块，然后将相邻图像块之间的上下文关系词，输入到词袋模型进行分类，得到场景分类结果。或者，利用KNN(英文全称K Nearest Neighbors)分类算法对当前视频帧序列中每一视频帧进行分类识别，得到与每一视频帧对应的场景分类结果。该场景分类结果包括但不限于场景类型和与场景类型对应的分类概率值。本申请实施例中，对视频帧序列进行场景识别时，可以根据视频帧序列中相邻两帧对应的场景类型来确定视频帧序列是否包含不同的场景分类结果。例如，在当前视频帧序列中识别到相邻两帧对应的场景类型不同，则确定当前视频帧序列中包含两个场景类型。

在识别到当前视频帧序列包含不同的场景分类结果时，根据场景分类结果对当前视频帧序列进行平滑处理，得到平滑结果。平滑处理是指对当前视频帧序列中的视频帧的色彩参数进行融合处理，通过平滑处理可以使得不同的场景的视频帧的色彩调整差异一致化，从而解决在相同镜头下针对不同场景进行色彩调整所导致的视觉跳变问题。

在上述实施例基础上，如图3所示，图3示出了本申请实施例提供的又一视频场景处理方法的流程示意图。该方法可以由视频场景处理装置执行，该视频场景处理装置可以配置在电子设备中。该方法包括：

步骤301，根据预设的滑动窗口从视频流中获取当前视频帧序列；

步骤302，对当前视频帧序列进行视频镜头识别；

步骤303，在识别到当前视频帧序列属于相同视频镜头时，对当前视频帧序列进行场景分类识别，得到场景类型和与场景类型对应的分类概率值；

步骤304，在确定当前视频帧序列中包含至少两个场景类型，该至少两个场景类型包括第一场景类型和第二场景类型；

步骤305，获取第一场景类型对应的第一分类概率值和第二场景类型对应的第二分类概率值；

步骤306，根据第一分类概率值和第二分类概率值对当前视频帧序列中的目标视频帧进行融合处理，得到与目标视频帧对应的融合处理结果；

步骤307，将与目标视频帧对应的融合处理结果作为平滑结果。

在上述步骤中，获取当前视频帧序列之后，对当前视频帧序列进行视频镜头识别，在识别到当前视频帧序列属于相同视频镜头时，将当前视频帧的每一帧视频帧输入到场景分类模型，得到每一视频帧对应的场景类型和与场景类型对应的分类概率值。

在根据场景分类结果对当前视频帧序列进行平滑处理时，可以包括以下两种方式：

第一种方式，将当前视频帧序列整体当作平滑处理对象，在识别到相同镜头下存在不同视频场景时，将当前视频帧序列中每一帧作为目标视频帧，根据第一分类概率值和第二分类概率值对当前视频帧序列中的目标视频帧进行融合处理，得到平滑结果。按照这种方式，在移动滑动窗口时，按照滑动窗口的窗口长度沿着视频流对应的时间轴移动。滑动窗口的窗口长度是指滑动窗口的大小。例如，如图6所示，滑动窗口的窗口长度为M，其表示从视频流中读取M帧视频帧。在获取视频帧序列之后，按照第一种方式对视频流中提取得到视频帧序列的每一帧进行融合处理。然后，再按照滑动窗口的窗口长度移动滑动窗口，得到新的视频帧序列，对新的视频帧序列进行镜头识别和视频场景识别，如果新的视频帧序列与前次提取的视频帧序列属于相同的视频镜头，则进一步判断新的视频帧序列和前次提取的视频帧序列是否属于相同的视频场景，如果是则无需对新的视频帧序列进行融合处理，如果不是则对新的视频帧序列进行融合处理。如果新的视频帧序列与前次提取的视频帧序列属于不同的视频镜头，则无需对新的视频帧序列进行融合处理。通过对视频帧序列整体平滑处理，可以解决在首次识别出滑动窗口内多个视频帧，在满足相同视频镜头条件下且存在不同视频场景时，有效地节省融合处理的时间，从而提高融合处理的效率。

第二种方式，将当前视频帧序列中首帧当作平滑处理对象，在识别到相同镜头下存在不同视频场景时，将当前视频帧序列中首帧作为目标视频帧，根据第一分类概率值和第二分类概率值对当前视频帧序列中的目标视频帧进行融合处理，得到平滑结果。按照第二种方式移动滑动窗口，按照预设步长沿着视频流对应的时间移动，预设步长是指视频流中每帧视频帧的长度。预设步长包括但不限1帧。如图6所示，滑动窗口的预设步长为1帧，第一次从视频流中读取M帧视频帧，起始帧为F₀，第二次从视频流中仍读取M帧视频帧，起始帧为F₁。按照第二种方式进行融合，是对每次从视频流中提取的视频帧序列的首帧进行融合。在确定当前视频帧序列属于相同视频镜头条件下且存在不同视频场景时，按照滑动窗口的步长移动滑动窗口，并对每次移动的滑动窗口内的视频帧序列的首帧进行平滑处理，可以有效地提高相邻滑动窗口对应的视频帧序列的融合处理结果的一致性，相对于第一种方式，其融合处理结果更加精确，可以更好地避免视觉跳变问题。

根据第一分类概率值和第二分类概率值对当前视频帧序列中的目标视频帧进行融合处理，可以包括：

获取当前视频帧序列中目标视频帧对应的待融合参数；

将待融合参数分别与第一分类概率值和所述第二分类概率值进行融合，得到与目标视频帧对应的融合处理结果。

上述待融合参数包括但不限于视频帧的色彩调整参数，色彩调整参数包括但不限于图像灰阶值。

例如可以通过下述融合处理公式对目标视频帧的待融合参数进行融合处理，

其中I_融合表示对目标视频帧的融合处理结果；

I_i表示第i个目标视频帧的图像灰阶值；

T_scenek(w_i，k)表示第i个目标视频帧被分类为场景k的分类概率值；

T_scenej(w_i，j)表示第i个目标视频帧被分类为场景j的分类概率值。

本申请实施例，通过对相同视频镜头下不同场景的待融合参数进行融合处理，使得不同场景的色彩调整参数趋于一致，从而实现不同场景之间色彩调整结果的平滑过渡，有效地解决了视觉跳变问题。

在上述实施例基础上，如图4所示，图4示出了本申请实施例提供的再一视频场景处理方法的流程示意图。该方法可以由视频场景处理装置执行，该视频场景处理装置可以配置在电子设备中。该方法包括：

步骤401，根据预设的滑动窗口从视频流中获取当前视频帧序列；

步骤402，对当前视频帧序列进行视频镜头识别；

步骤403，在识别到当前视频帧序列属于相同视频镜头时，对当前视频帧序列进行场景分类识别。

步骤404，在识别到当前视频帧序列不属于相同视频镜头时，不对当前视频帧序列做平滑处理；但是还需对当前视频帧序列需进行色彩调整。该色彩调整采用的参数是未经过平滑处理的图像灰阶值。

步骤405，在识别到当前视频帧序列属于相同视频镜头，且识别到当前视频帧序列包含不同的场景分类结果时，根据场景分类结果对当前视频帧序列进行平滑处理，得到平滑结果。

步骤406，在识别到当前视频帧序列属于相同视频镜头，且识别到当前视频帧序列包含相同的场景分类结果时，不对当前视频帧序列做平滑处理。但是，还需对当前视频帧序列需进行色彩调整。该色彩调整采用的参数是未经过平滑处理的图像灰阶值。

步骤407，按照滑动窗口的预设步长沿着视频流对应的时间轴移动滑动窗口；

步骤408，获取与移动后的滑动窗口对应的更新视频帧序列；

步骤409，利用更新视频帧序列对当前视频帧序列进行更新；

返回步骤402，继续执行对当前视频帧序列的识别，然后在识别到更新视频帧序列与当前视频帧序列属于相同的视频镜头时，继续对更新视频帧序列进行场景分类识别，当识别到更新视频帧序列包含不同的场景分类结果时，根据场景分类结果对更新视频帧序列中进行平滑处理。

在上述步骤中，通过滑动窗口的预设步长移动滑动窗口，在对滑动窗口提取的当前视频帧序列融合处理完成之后，再对移动滑动窗口之后提取的更新当前视频帧序列进行融合处理，直到对不同场景分类结果对应的相邻两帧的前一帧完成融合处理，其可以有效地节省融合处理时间，并获得更好地融合处理效率。

下面以图6为例，假设滑动窗口长度为M，预设滑动步长为1帧，通过滑动窗口从经过序列化处理的视频流中获得第一视频帧序列{F₀,F₁,……，F_M-1}，在识别到第一视频帧序列属于相同视频镜头，且第一视频帧序列属于相同视频场景时，不对第一视频帧序列进行任何处理；继续按照预设滑动步长移动滑动窗口，得到第二视频帧序列{F₁,F₂,……，F_M}，在识别到第二视频帧序列属于相同视频镜头，且第二视频帧序列包括不同视频场景时，对第二视频帧序列的首帧F₁，按照融合处理公式进行融合处理得到融合处理结果

然后，继续按照预设滑动步长移动滑动窗口，得到第三视频帧序列{F₂,F₃,……，F_M+1}，同样的处理，可以识别到第三视频帧序列属于相同视频镜头，且第三视频帧序列包括不同视频场景时，对第三视频帧序列的首帧F₂，按照融合处理公式进行融合处理得到融合处理结果

重复按照预设滑动步长移动滑动窗口，直到得到第M+1视频帧序列{F_M+1,F_M+2,……，F_2M}，同样经过视频镜头识别处理，此时识别到第三视频帧序列属于相同视频镜头，且第M+1视频帧序列属于相同视频场景，则不对第M+1视频帧序列{F_M+1,F_M+2,……，F_2M}。

本申请实施例通过上述滑动窗口从视频流中逐帧进行平滑处理，可以有效地保证不同视频场景下视频帧的色彩调整参数的一致性，从而解决相关技术存在的针对不同视频场景进行色彩调整导致的视觉跳变问题。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

下面请参考图7，图7示出了本申请实施例提供的视频场景处理装置的结构示意图。该装置可以配置服务器，从服务器预先下载至电子设备使用，也可以预先安装在电子设备中。该装置包括：

视频帧获取模块701，用于从视频流中按照预设的滑动窗口长度获取当前视频帧序列；

视频镜头识别模块702，用于对当前视频帧序列进行视频镜头识别；

场景分类识别模块703，用于在识别到当前视频帧序列属于相同视频镜头时，对当前视频帧序列进行场景分类识别；

融合处理模块704，用于在识别到当前视频帧序列包含不同的场景分类结果时，根据场景分类结果对当前视频帧序列进行平滑处理，得到平滑结果。

可选地，视频帧序列包括与滑动窗口对应的多帧视频帧，场景分类识别模块还用于：

将多帧视频帧中每一帧视频帧输入到预先构建的场景分类模型，输出得到每一帧视频帧对应的场景分类结果。

可选地，场景分类结果包括场景类型和与场景类型对应的分类概率值，则融合处理模块还用于包括：

确定当前视频帧序列中包含至少两个场景类型，该至少两个场景类型包括当前视频帧序列中的相邻两帧的第一帧对应的第一场景类型和所述相邻两帧的第二帧对应的第二场景类型；

获取第一场景类型对应的第一分类概率值和第二场景类型对应的第二分类概率值；

根据第一分类概率值和第二分类概率值对当前视频帧序列中目标视频帧进行融合处理，得到与目标视频帧对应的融合处理结果，该目标视频帧为当前视频帧序列中的首帧；

将与目标视频帧对应的融合处理结果作为平滑结果。

该装置还包括：

第一滑窗移动模块，用于按照所述滑动窗口的预设步长沿着所述视频流对应的时间轴移动所述滑动窗口，所述预设步长是指所述视频流中每帧视频帧的长度；

视频帧获取模块用于，获取与移动后的所述滑动窗口对应的更新视频帧序列；

视频镜头识别模块，用于对所述更新视频帧序列进行视频镜头识别；

场景分类识别模块，用于在识别到所述更新视频帧序列属于相同视频镜头时，对所述更新视频帧序列进行场景分类识别；

融合处理模块，用于在识别到所述更新视频帧序列包含不同的场景分类结果时，对所述更新视频帧序列的首帧进行平滑处理；

循环控制模块，用于返回上述移动所述滑动窗口的步骤，直到所述视频流的最后一帧视频帧。

场景分类结果包括场景类型和与场景类型对应的分类概率值，则融合处理模块还用于：

根据第一分类概率值和第二分类概率值对当前视频帧序列中的目标视频帧进行融合处理，得到与目标视频帧对应的融合处理结果，该目标视频帧为当前视频帧序列中的每一帧；

将与目标视频帧对应的融合处理结果作为平滑结果。

该装置还包括：

第二滑窗移动模块，用于按照所述滑动窗口的窗口长度沿着所述视频流对应的时间轴移动所述滑动窗口，所述窗口长度是指所述滑动窗口的大小；

视频帧获取模块，用于获取与移动后的所述滑动窗口对应的更新视频帧序列；

融合处理模块，用于在识别到所述更新视频帧序列包含不同的场景分类结果时，对所述更新视频帧序列的每一帧进行平滑处理；

融合处理模块还用于：

获取当前视频帧序列中目标视频帧对应的待融合参数；

将待融合参数分别与第一分类概率值和第二分类概率值进行融合，得到与目标视频帧对应的融合处理结果。

可选地，视频镜头识别模块还用于：

根据当前视频帧序列中相邻两帧视频帧之间的相似度，确定当前视频帧序列对应的视频镜头是否存在变化；

在相似度表示当前视频帧序列中相邻两帧视频帧相似时，确定当前视频帧序列对应的视频镜头相同；

在相似度表示当前视频帧序列中相邻两帧视频帧不相似时，确定当前视频帧序列对应的视频镜头不同。

应当理解，上述装置中记载的诸单元或模块与参考图1描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征同样适用于上述装置及其中包含的单元，在此不再赘述。上述装置可以预先实现在电子设备的浏览器或其他安全项目中，也可以通过下载等方式而加载到电子设备的浏览器或其安全项目中。上述装置中的相应单元可以与电子设备中的单元相互配合以实现本申请实施例的方案。

在上文详细描述中提及的若干模块或者单元，这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

下面参考图8，图8示出了本申请实施例提供电子设备的处理系统的结构示意图。

如图8所示，计算机系统包括中央处理单元(CPU)501，其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM503中，还存储有操作所需的各种程序和数据。CPU 501、ROM502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

以下部件连接至I/O接口505：包括键盘、鼠标等的输入部分506；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。

特别地，根据本公开的实施例，上文参考流程图图1-2描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在机器可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分509从网络上被下载和安装，和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时，执行本申请的系统中限定的上述功能。

需要说明的是，本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，前述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元或模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中，例如，可以描述为：一种处理器包括视频帧获取模块、视频镜头识别模块、场景分类识别模块和融合处理模块等。其中，这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定，例如，视频帧获取模块还可以被描述为“用于从视频流中按照预设的滑动窗口长度获取当前视频帧序列的模块”。

作为另一方面，本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中的。上述计算机可读存储介质存储有一个或者多个程序，当上述前述程序被一个或者一个以上的处理器用来执行描述于本申请的视频场景处理的方法。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离前述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种视频场景处理方法，其特征在于，该方法包括：

根据预设的滑动窗口从视频流中获取当前视频帧序列；

对所述当前视频帧序列进行视频镜头识别；

在识别到所述当前视频帧序列属于相同视频镜头时，对所述当前视频帧序列进行场景分类识别；

在识别到所述当前视频帧序列包含不同的场景分类结果时，根据所述场景分类结果对所述当前视频帧序列进行平滑处理，得到平滑结果。

2.根据权利要求1所述的方法，其特征在于，所述视频帧序列包括与所述滑动窗口对应的多帧视频帧，所述对所述当前视频帧序列进行场景分类识别，包括：

将所述多帧视频帧中每一帧视频帧输入到预先构建的场景分类模型，输出得到每一帧视频帧对应的场景分类结果。

3.根据权利要求1所述的方法，其特征在于，所述场景分类结果包括场景类型和与场景类型对应的分类概率值，则所述根据所述场景分类结果对所述当前视频帧序列进行平滑处理，包括：

确定所述当前视频帧序列中包含至少两个场景类型，所述至少两个场景类型包括所述当前视频帧序列中的相邻两帧的第一帧对应的第一场景类型和所述相邻两帧的第二帧对应的第二场景类型；

获取所述第一场景类型对应的第一分类概率值和第二场景类型对应的第二分类概率值；

根据所述第一分类概率值和所述第二分类概率值对所述当前视频帧序列中目标视频帧进行融合处理，得到与所述目标视频帧对应的融合处理结果，所述目标视频帧为所述当前视频帧序列中的首帧；

将与所述目标视频帧对应的融合处理结果作为所述平滑结果。

4.根据权利要求3所述的方法，其特征在于，在得到平滑结果之后，该方法还包括：

按照所述滑动窗口的预设步长沿着所述视频流对应的时间轴移动所述滑动窗口，所述预设步长是指所述视频流中每帧视频帧的长度；

获取与移动后的所述滑动窗口对应的更新视频帧序列；

对所述更新视频帧序列进行视频镜头识别；

在识别到所述更新视频帧序列属于相同视频镜头时，对所述更新视频帧序列进行场景分类识别；

在识别到所述更新视频帧序列包含不同的场景分类结果时，对所述更新视频帧序列的首帧进行平滑处理；

返回上述移动所述滑动窗口的步骤，直到所述视频流的最后一帧视频帧。

5.根据权利要求1所述的方法，其特征在于，所述场景分类结果包括场景类型和与场景类型对应的分类概率值，则所述根据所述场景分类结果对所述当前视频帧序列进行平滑处理，包括：

根据所述第一分类概率值和所述第二分类概率值对所述当前视频帧序列中的目标视频帧进行融合处理，得到与所述目标视频帧对应的融合处理结果，所述目标视频帧为所述当前视频帧序列中的每一帧；

将所述融合处理结果作为所述平滑结果。

6.根据权利要求5所述的方法，其特征在于，在得到平滑结果之后，该方法还包括：

按照所述滑动窗口的窗口长度沿着所述视频流对应的时间轴移动所述滑动窗口，所述窗口长度是指所述滑动窗口的大小；

获取与移动后的所述滑动窗口对应的更新视频帧序列；

对所述更新视频帧序列进行视频镜头识别；

在识别到所述更新视频帧序列包含不同的场景分类结果时，对所述更新视频帧序列的每一帧进行平滑处理；

7.根据权利要求3或5所述的方法，其特征在于，所述根据所述第一分类概率值和所述第二分类概率值对所述当前视频帧序列中的目标视频帧进行融合处理，包括：

获取所述当前视频帧序列中目标视频帧对应的待融合参数；

将所述待融合参数分别与所述第一分类概率值和所述第二分类概率值进行融合，得到与所述目标视频帧对应的融合处理结果。

8.根据权利要求1所述的方法，其特征在于，所述对所述当前视频帧序列进行视频镜头识别包括：

根据所述当前视频帧序列中相邻两帧视频帧之间的相似度，确定所述当前视频帧序列对应的视频镜头是否存在变化；

在所述相似度表示所述当前视频帧序列中相邻两帧视频帧相似时，确定所述当前视频帧序列对应的视频镜头相同；

在所述相似度表示所述当前视频帧序列中相邻两帧视频帧不相似时，确定所述当前视频帧序列对应的视频镜头不同。

9.根据权利要求1所述的方法，其特征在于，该方法还包括：

在识别到所述当前视频帧序列属于不同视频镜头时，对所述当前视频帧序列不进行平滑处理；或者，

在识别到所述当前视频帧序列属于相同视频镜头，且所述当前视频帧序列属于相同的场景分类结果时，对所述当前视频帧序列不进行平滑处理。

10.一种视频场景处理装置，其特征在于，该装置包括：

视频镜头识别模块，用于对所述当前视频帧序列进行视频镜头识别；

场景分类识别模块，用于在识别到所述当前视频帧序列属于相同视频镜头时，对所述当前视频帧序列进行场景分类识别；

融合处理模块，用于在识别到所述当前视频帧序列包含不同的场景分类结果时，根据所述场景分类结果对所述当前视频帧序列进行平滑处理，得到平滑结果。

11.一种电子设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-9中任一项所述的方法。

12.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-9中任一项所述的方法。