CN110675425B

CN110675425B - 一种视频边框识别方法、装置、设备及介质

Info

Publication number: CN110675425B
Application number: CN201910779391.4A
Authority: CN
Inventors: 杨喻茸; 徐叙远; 龚国平; 吴韬
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-08-22
Filing date: 2019-08-22
Publication date: 2020-12-15
Anticipated expiration: 2039-08-22
Also published as: CN110675425A

Abstract

本发明公开了一种视频边框识别方法、装置、设备及介质，方法包括获取带有边框的目标视频；提取所述目标视频中目标帧序列，根据所述目标帧序列得到与所述目标帧序列对应的目标图像序列；根据所述目标图像序列确定候选边框，所述候选边框中的静止像素数量满足预设的候选边框判定条件，所述静止像素为在所述目标图像序列的各个目标图像中值波动程度满足预设要求的像素；对候选边框进行区域融合处理以得到目标边框。本发明可以基于视频的运动特性将边框识别问题转化为运动区域的提取问题，并且通过区域融合方法对候选边框进行进一步地识别，从而对于大部分边框有运动的情况也能够具有较强的鲁棒性。具备计算简单，耗时少，识别准确的显著优势。

Description

一种视频边框识别方法、装置、设备及介质

技术领域

本发明涉及视频处理领域，尤其涉及一种视频边框识别方法、装置、设备及介质。

背景技术

随着短视频的兴起，目前视频的制作手法越来越丰富，各大视频制作应用软件都提供了丰富的视频边框素材，使得用户可以很方便地对视频添加各类边框。然而，边框的引入对于视频识别算法而言相当于引入的干扰，从而降低了视频识别算法的准确率，也增加了依托于视频识别实现相关功能的难度。

为了降低边框素材对于视频识别算法的准确率的影响，现有技术中可以将边框识别算法作为识别视频算法的前置算法，通过边框识别算法提取视频中的有效信息，再以提取到的有效信息作为识别视频算法的输入，以达到规避边框产生的干扰的目的。然而，现有技术中的边框识别算法着重以边框的形状作为边框识别的识别依据，随着边框素材愈加丰富，以形状作为边框识别依据的边框识别算法的准确度也难以保证。

发明内容

为了解决现有技术难以提供具备高准确度的边框识别方案的技术问题，本发明实施例提供一种视频边框识别方法、装置、设备及介质。

一方面，本发明提供了一种视频边框识别方法，所述方法包括：

获取带有边框的目标视频；

提取所述目标视频中目标帧序列，根据所述目标帧序列得到与所述目标帧序列对应的目标图像序列；

根据所述目标图像序列确定候选边框，所述候选边框中的静止像素数量满足预设的候选边框判定条件，所述静止像素为在所述目标图像序列的各个目标图像中值波动程度满足预设要求的像素；

对候选边框进行区域融合处理以得到目标边框。

另一方面，本发明提供一种视频边框识别装置，所述装置包括：

目标视频获取模块，用于获取带有边框的目标视频；

目标图像序列获取模块，用于提取所述目标视频中目标帧序列，根据所述目标帧序列得到与所述目标帧序列对应的目标图像序列；

候选边框提取模块，用于根据所述目标图像序列确定候选边框，所述候选边框中的静止像素数量满足预设的候选边框判定条件，所述静止像素为在所述目标图像序列的各个目标图像中值波动程度满足预设要求的像素；

目标边框确定模块，用于对候选边框进行区域融合处理以得到目标边框。

另一方面，本发明提供了一种视频边框识别设备，其特征在于，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现一种视频边框识别方法。

另一方面，本发明提供了一种计算机存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行一种视频边框识别方法。

本发明提供了一种视频边框识别方法、装置、设备及介质。本发明可以基于视频的运动特性将边框识别问题转化为运动区域的提取问题，并且通过区域融合方法对候选边框进行进一步地识别，从而对于大部分边框有运动的情况也能够具有较强的鲁棒性。具备计算简单，耗时少，识别准确的显著优势。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1是本发明提供的一个可行的实施例中所述视频边框识别方法的实施环境示意图；

图2是本发明提供的一种视频边框识别方法流程图；

图3是本发明提供的提取所述目标视频中目标帧序列流程图；

图4是本发明提供的目标帧序列示意图；

图5是本发明提供的根据所述目标图像序列确定候选边框流程图；

图6是本发明提供的根据所述像素图案特征序列提取候选边框流程图；

图7是本发明提供的根据所述像素图案特征序列提取候选边框流程图；

图8是本发明提供的对候选边框进行区域融合处理以得到目标边框流程图；

图9是本发明提供的使用滑动窗口法对候选边框进行区域融合处理，以得到疑似目标边框流程图；

图10是本发明提供的滑动窗口示意图；

图11是本发明提供的对所述目标边框进行校验流程图；

图12是本发明提供的校验场景示意图；

图13是本发明提供的短视频示意图；

图14是本发明提供的一种视频边框识别装置框图；

图15是本发明提供的一种用于实现本发明实施例所提供的方法的设备的硬件结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了使本发明实施例公开的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明实施例进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本发明实施例，并不用于限定本发明实施例。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

为了对于本发明实施例中所述的技术方案进行清晰的阐述，本发明实施例首先对与其相关技术名词、技术背景和技术环境进行解释：

现有技术中视频编辑已经被广泛使用。比如，当横屏拍摄的视频在竖屏设备上播放或者竖屏视频在横屏设备上播放时，为了使视频不被拉伸，可以在视频的左右或者上下添加边框。再者，在发布视频之前，还可以为视频添加可以修饰视频显示效果的各种边框图案。这种二次制作的视频提升了用户的体验，但是却为视频识别和基于识别结果的相关功能的实现带来了困难。例如对于重复视频检测而言，由于视频边框可能占据了超过视频一半的画面，相同边框的不同视频容易误判为相同视频，而不同边框的相同视频则可能被误判为不同视频，从而降低了重复视频检测的精度。

为了保证视频识别的准确度，现有技术中可以将视频边框识别作为视频识别的前置算法。现有的视频边框识别算法假定边框由直线构成，因此，其主要是通过直线检测算法检测出直线区域，再根据边框的一些特性约束来过滤掉过多的候选直线。目前的直线检测算法中，常用的为霍夫变换(HT)和LSD直线检测。

霍夫变换(Hough Transform，HT)是一种特征检测，被广泛应用在图像分析、计算机视觉以及数位影像处理之中。霍夫变换是用来辨别找出物件中的特征，例如：线条。他的算法流程大致如下，给定一个物件、要辨别的形状的种类，算法会在参数空间中执行投票来决定物体的形状，而这是由累加空间里的局部最大值来决定。标准霍夫变换本质上是把图像映射到它的参数空间(即霍夫空间)上，通过计算累计结果的局部最大值得到一个符合该特定形状的集合作为霍夫变换结果。

LSD(Line Segment Detector)直线检测的核心是像素合并与误差控制。LSD号称是能在线性时间(linear-time)内得到亚像素级准确度的直线段检测算法，LSD的目标在于检测图像中局部的直的轮廓。LSD是一种直线分割算法，目标在于检测图像中局部的直线轮廓，运行速度相比于霍夫线变换更快，并且可以提取更多线段特征。

现有技术认为边框多为上下或者左右，横平竖直，且边框包围的面积也可以做为约束条件，使用直线检测检测出候选边框之后，根据视频边框的约束条件，可以过滤掉不符合的直线，从而确定视频边框。

然而，现有技术的方案仅使用直线检测的逻辑，在大部分视频边框为黑边的情况下，能够取得不错的检测效果。随着短视频的兴起，目前的视频制作边框素材越来越丰富，大部分的边框素材背景复杂，边框与视频内容的边缘在部分情况下并不清晰，当边缘被破坏的情况下，直线检测较为困难，且画面复杂，会检测出过多干扰直线。

与之相应的，霍夫直线检测算法计算量较大，性能难以满足大规模实时应用。

LSD作为一种局部提取的算法，虽然运行速度比霍夫直线检测要快，但是对于直线相交的情况，则必有至少一条直线被割裂为两条。又因为其本身运行依赖于梯度，直线交点梯度值往往又较小，因此很有可能相交的两条直线在交点处被割裂为四条线段。基于其自增长的特点，对于长线段被遮挡、局部模糊等原因经常割裂被为多条直线，这就导致LSD算法中产生的干扰直线数量更多，降低了边框识别速度和精度。

有鉴于此，本发明实施例提供一种不依赖现有技术中的直线检测算法的视频边框识别方法，根据视频内容本身的运动特性将边框识别问题转化为运动区域的提取问题，从而提出能够适应各种边框，并且速度精度均较高的视频边框识别方法。首先，本发明实施例公开了在一个可行的实施例中所述视频边框识别方法的实施环境。

参见图1，该实施环境包括：客户端01、服务器03。

客户端01可以包括：智能手机、平板电脑、笔记本电脑、数字助理、智能可穿戴设备、车载终端等类型的实体设备，也可以包括运行于实体设备中的软体，例如视频类应用程序等。所述客户端01可以基于浏览器/服务器模式(Browser/Server，B/S)或客户端/服务器模式(Client/Server，C/S)与所述服务器03通信连接。

所述客户端01可以对视频内容进行编辑以得到带有边框的视频，将所述带有边框的视频发送至服务器03。所述服务器03可以对带有边框的视频进行视频边框识别以得到带有边框的视频中的有效信息，将所述有效信息作为视频识别算法的输入。在其它可行的实施例中，视频添加边框、视频边框识别以及视频识别也可以在客户端01中实施。

所述服务器03可以包括一个独立运行的服务器，或者分布式服务器，或者由多个服务器组成的服务器集群。

请参考图2，其示出了一种视频边框识别方法流程图，所述方法可以以图1所述的实施环境为执行主体实施，所述方法可以包括：

S101.获取带有边框的目标视频。

S103.提取所述目标视频中目标帧序列，根据所述目标帧序列得到与所述目标帧序列对应的目标图像序列。

视频由多个镜头组成，而同一个镜头之中的图像序列具有一定的连续性，图像序列中的不同图像的有效内容之间具有根据时序进行变化的关系，这一相关关系可以反映视频本身的运动特性。与之相对应的，视频边框在图像序列中的不同图像之间均是相同的，因此有别于有效内容，图像序列中的不同图像的视频边框是相对静止的。本发明实施例旨在基于视频边框与有效内容的上述差距提取视频边框，故在本步骤中提取目标视频中的目标帧序列。

为降低计算的冗余，也为了增强目标帧序列对视频本身的运动特性的反应能力，在一个可行的实施方式中，所述目标帧序列中的各个目标帧均为关键帧。具体地，所述提取所述目标视频中目标帧序列，如图3所示，包括：

S1031.间隔固定时长提取所述目标视频中的关键帧以得到关键帧序列。

S1033.在所述关键帧序列中去除冗余的关键帧以得到目标帧序列，所述目标帧序列中相邻的目标帧的相似度小于预设阈值。

本发明实施例并不限定去除冗余的关键帧的具体方法，比如可以提取相邻关键帧的颜色直方图进行比对，若其特征值的差值小于预设阈值则认为存在冗余的关键帧，对其进行去除。

目标帧序列的分析结果与视频边框识别的精度相关，因此，在一个可行的实施例还可以限定目标帧序列中目标帧的个数，比如所述目标帧序列中目标帧个数大于三个。如图4所示，在目标帧序列中提取了四个目标帧。各个目标帧均为竖屏图像，图像的上部和下部均为视频边框，图像的中部为视频的有效内容。

在一个可行的实施例中，可以对目标帧序列中各个目标帧对应的目标帧图像进行处理以得到目标图像序列，具体地，所述根据所述目标帧序列得到与所述目标帧序列对应的目标图像序列，包括：若所述目标帧序列中的各个目标帧对应的目标帧图像均为彩色图像，则将各个所述目标帧图像转化为灰度图，以得到目标图像序列；若所述目标帧序列中的各个目标帧对应的目标帧图像均为灰度图像，则直接根据各个所述目标帧图像得到目标图像序列。

S105.根据所述目标图像序列确定候选边框，所述候选边框中的静止像素数量满足预设的候选边框判定条件，所述静止像素为在所述目标图像序列的各个目标图像中值波动程度满足预设要求的像素。

在一个可行的实施例中，所述候选边框判定条件限定了候选边框位置中的静止像素数量与候选边框的相邻位置中的静止像素数量的对应关系。所述候选边框的相邻位置形成的图案与所述候选边框形成的图案相同。比如候选边框判定条件可以为：候选边框中的静止像素数量与候选边框的上一个相邻位置中的静止像素数量的第一差值，和候选边框中的静止像素数量与边框的下一个相邻位置中的静止像素数量的第二差值的关系满足预设条件，所述预设条件可以为所述第一差值和所述第二差值的绝对差值大于预设阈值。

在一个可行的实施例中，所述候选边框和所述候选边框的相邻位置形成的图案都被称之为像素图案，比如所述像素图案可以为一个完整的像素行或像素列。具体地，所述根据所述目标图像序列确定候选边框，如图5所示，包括：

S1051.根据目标图像序列获取方差矩阵，所述方差矩阵中每个元素的值均为所述元素指向的像素所对应的方差，所述像素所对应的方差用于表征所述目标图像序列的各个目标图像中所述像素的值的波动程度。

具体地，所述方差矩阵中的每个元素的值均可以通过公式

计算，其中s_ij表征方差矩阵中某个元素的值，x^t _ij表征所述元素指向的像素在第t张图中的像素值，

表征所述元素指向的像素在各个目标图像中的像素平均值，n表征所述目标图像序列中目标图像的个数。

具体地，假设各个目标图像均为高度为h，宽度为w的图像，则相应的，所述方差矩阵也为h*w矩阵。

S1053.根据所述方差矩阵获取每个像素图案中静止像素的数量，以得到像素图案特征序列。

具体地，若像素在所述方差矩阵中对应元素的值小于预设阈值，则判定所述像素为静止像素，从而确定每个像素图案中静止像素的数量。

具体地，本发明实施例中像素图案特征序列中的各个元素的值即为像素图案中静止像素的数量，具体地，在一个可行的实施方式中可以使用数组表示像素图案特征序列。

若所述目标视频为竖屏视频，一般情况下其边框在所述目标视频的上部和下部，则认为其像素图案为完整的像素行。若所述像素图案为完整的像素行，则像素图案特征序列可以使用数组rows[n]表征，其中n为所述像素行的总个数。以常见的分辨率为1090p的视频为例，其在本发明实施例中得到的目标图像分辨率为1920*1080，则n取值即为1080。

若所述目标视频为横屏视频，一般情况下其边框在所述目标视频的左部和右部，则认为其像素图案为完整的像素列。若所述像素图案为完整的像素列，则像素图案特征序列可以使用数组column[n]表征，其中n为所述像素列的总个数。以常见的分辨率为1090p的视频为例，其在本发明实施例中得到的目标图像分辨率为1920*1080，则n取值即为1920。

S1055.根据所述像素图案特征序列提取候选边框。

本发明实施例中候选边框为静止元素的数量发生突变的像素图案，根据所述像素图案特征序列可以判断各个像素图案相对于其附近的像素图案是否发生了静止元素的数量的突变，若是，则所述像素图案可以被提取为候选边框。

在一个优选的实施例中，所述根据所述像素图案特征序列提取候选边框，如图6所示，包括：

S1.获取扫描步长。

具体地，为了降低扫描消耗的资源，可以设定扫描步长，比如每隔五个像素图案扫描一次。

S3.根据所述扫描步长扫描所述像素图案特征序列，以确定当前像素图案特征。

S5.若所述当前像素图案特征小于预设阈值，则判定所述当前像素图案为候选边框。

进一步地，在另一个优选的实施例中，给出了另一种根据所述像素图案特征序列提取候选边框的方法。所述根据所述像素图案特征序列提取候选边框，如图7所示，包括：

S10.获取扫描步长。

S30.根据所述扫描步长扫描所述像素图案特征序列，以确定当前像素图案特征。

S50.获取相邻像素图案特征，所述相邻像素图案特征为当前像素图案的相邻扫描像素图案在所述像素图案特征序列的对应值。

具体地，所述相邻扫描像素图案可以为在扫描至所述当前像素图案的上一个被扫描像素图案或下一个被扫描像素图案。

S70.根据所述当前像素图案特征和所述相邻像素图案特征的差值判断所述当前像素图案是否为候选边框。

具体地，若所述当前像素图案为扫描过程的第一个被扫描像素图案或最后一个被扫描像素图案，则所述根据所述当前像素图案特征和所述相邻像素图案特征的差值判断所述当前像素图案是否为候选边框可以包括：

获取所述当前像素图案特征和所述相邻像素图案特征的差值的绝对值；若所述绝对值大于预设阈值，则判定所述当前像素图案为候选边框。

具体地，若所述当前像素图案不是扫描过程的第一个被扫描像素图案和最后一个被扫描像素图案，则所述当前像素图案的相邻扫描像素图案有两个，分别为所述当前像素图案的上一个被扫描像素图案和下一个被扫描像素图案，相应的，所述相邻像素图案特征也包括两个值，分别为当前像素图案的上一个被扫描像素图案在所述像素图案特征序列的对应值，记为相邻像素图案特征第一分值，以及当前像素图案的下一个被扫描像素图案在所述像素图案特征序列的对应值，记为相邻像素图案特征第二分值。

所述根据所述当前像素图案特征和所述相邻元素特征的差值判断所述当前像素图案是否为候选边框，包括：

S910.获取第一差值，所述第一差值为所述相邻像素图案特征第一分值和所述当前像素图案特征的差值；

S930.获取第二差值，所述第二差值为所述当前像素图案特征与所述相邻像素图案特征第二分值的差值；

S950.获取所述第一差值和所述第二差值的差值的绝对值；若所述绝对值大于预设阈值，则判定所述当前像素图案为候选边框。

S107.对候选边框进行区域融合处理以得到目标边框。

所述目标边框即为识别出的所述目标视频的边框，目标视频中所述目标边框包围的区域为所述目标视频的有效区间。

事实上，部分视频的模板有运动的情况，比如滚动的字幕歌词或者背景亮度的改变，会导致模板所在的像素图案也被提取为了候选边框。本发明实施例通过进行大量数据分析得出结论，即对于绝大部分视频，视频边框处的像素波动是最明显的，而视频模板纵使被提取为候选边框，其像素波动也明显小于真实的视频边框的像素波动，故本发明实施例中目标边框可以为各个候选边框中像素波动最大的两个候选边框。

在一个优选的实施例中，所述对候选边框进行区域融合处理以得到目标边框，如图8所示，包括：

S1071.使用滑动窗口法对候选边框进行区域融合处理，以得到疑似目标边框。

为了提升目标边框的获取速度，可以使用滑动窗口法对候选边框进行区域融合处理。所述使用滑动窗口法对候选边框进行区域融合处理的处理思路在于对滑动窗口覆盖的区域进行融合处理。

具体地，所述使用滑动窗口法对候选边框进行区域融合处理，以得到疑似目标边框，如图9所示，包括：

S10711.为目标视频划分多个区域，设置滑动窗口，所述滑动窗口沿所述区域滑动。

S10713.按照预设顺序滑动所述滑动窗口，确定所述多个区域中被所述滑动窗口覆盖的当前区域。

在一个可行的实施例中若所述目标视频为竖屏视频，则自上而下滑动所述滑动窗口，相应的，所述目标视频为横屏视频，则自左而右滑动所述滑动窗口。

S10715.若落入所述当前区域的候选边框数量大于一，则对落入所述当前区域的候选边框进行融合以得到一个疑似目标边框。

具体地，所述疑似目标边框为落入所述当前区域候选边框中像素波动最大的候选边框。

在一个可行的实施例中若所述目标视频为竖屏视频，则自上而下滑动所述滑动窗口，相应的，候选边框的像素波动可以通过公式row[i]-row[j]来计算，row[i]即为当前区域中某个候选边框在所述像素图案特征序列中对应的元素值，row[j]即为所述候选边框的下一个候选边框在所述像素图案特征序列中对应的元素值。

在一个可行的实施例中若所述目标视频为横屏视频，则自左而右滑动所述滑动窗口，相应的，候选边框的像素波动可以通过公式column[i]-column[j]来计算，column[i]即为当前区域中某个候选边框在所述像素图案特征序列中对应的元素值，column[j]即为所述候选边框的下一个候选边框在所述像素图案特征序列中对应的元素值。

以图10为例，当所述滑动窗口自上而下滑动时，区域2成为当前区域，区域2中一个候选边框为第600行，所述候选边框的下一个边框为第700行，则row[600]-row[700]的值即为所述候选边框的像素波动值。

S1073.将像素波动最大的两个疑似目标边框确定为目标边框。

进一步地，本发明实施例认为对于特殊场景中的目标视频，比如视频的运动特征不明显，则所述目标边框的判定结果可能出现极小概率的错误，因此，在一个优选的实施例中，还包括对所述目标边框进行校验的步骤，所述对所述目标边框进行校验，如图11所示，包括：

S1091.获取偏移步长。

S1093.根据第一目标边框和所述偏移步长获取第一偏移边框和第二偏移边框。

S1095.根据第二目标边框和所述偏移步长获取第三偏移边框和第四偏移边框。

S1097.根据所述第一偏移边框、第二偏移边框、第三偏移边框和第四偏移边框构建第一偏移区域和第二偏移区域，所述第一偏移区域和所述偏移区域相交并且形状相同。

如图12所示，目标视频中被提取出目标边框1和2，第一偏移边框为1-1，第二偏移边框为1-2，第三偏移边框为2-1，第四偏移边框为2-2，第一偏移边框为1-1和第三偏移边框为2-1围成了第一偏移区域，第二偏移边框为1-2和第四偏移边框为2-2围成了第二偏移区域，显而易见，第一偏移区域和所述偏移区域相交并且形状相同。

S1099.计算所述第一偏移区域中视频与所述第二偏移区域中视频的相关程度，若所述相关程度大于预设阈值，则判定所述目标边框为目标视频的真实边框。

具体地，可以提取目标视频在某个时刻的快照，以所述快照中第一偏移区域和第二偏移区域的图像的相关程度作为所述第一偏移区域中视频与所述第二偏移区域中视频的相关程度进行判定；也可以提取目标视频在多个时刻的多个快照，根据各个快照中第一偏移区域和第二偏移区域的图像的相关程度作为所述第一偏移区域中视频与所述第二偏移区域中视频的相关程度进行判定。

本发明实施例中并不限定具体的相关程度获取方法，在一个可行的实施例中，可以对第一偏移区域的图像和第二偏移区域的图像分别生成颜色直方图，以所述颜色直方图的特征值距离作为相关程度的衡量依据。本发明实施例中并不限定颜色直方图的颜色空间，其可以为常见的RGB、HSV等颜色空间。

本发明实施例公开一种视频边框识别方法，可以基于视频的运动特性将边框识别问题转化为运动区域的提取问题，并且通过区域融合方法对候选边框进行进一步地识别，从而对于大部分边框有运动的情况也能够具有较强的鲁棒性。具备计算简单，耗时少的显著优势，可以单独使用，其对视频识别算法的性能损耗影响小，因此也可以用作视频识别的前置算法进行使用。

本发明实施例进一步给出所述视频框识别方法的其中一个应用场景，即重复视频检测场景。目前许多的应用软件可以提供丰富的视频边框模板，方便用户将自己拍摄的视频内容二次制作后发布，导致在网络中传播的短视频上有大量的自媒体添加自己的边框或者黑边，如图13所示。对于重复视频检测技术而言，短视频加了边框之后，直接提取的特征包含了边框信息，会导致误检测。而使用本发明实施例公开的一种视频边框识别方法首先识别短视频中的目标边框，将目标边框包围的有效内容作为重复视频检测的特征提取对象，可以大大降低误检测的概率。

本发明实施例提供一种视频边框识别装置，如图14所示，所述装置包括：

目标视频获取模块201，用于获取带有边框的目标视频；

目标图像序列获取模块203，用于提取所述目标视频中目标帧序列，根据所述目标帧序列得到与所述目标帧序列对应的目标图像序列；

候选边框提取模块205，用于根据所述目标图像序列确定候选边框，所述候选边框中的静止像素数量满足预设的候选边框判定条件，所述静止像素为在所述目标图像序列的各个目标图像中值波动程度满足预设要求的像素；

目标边框确定模块207，用于对候选边框进行区域融合处理以得到目标边框。

具体地，本发明实施例所述一种视频边框识别装置与方法实施例均基于相同发明构思。详情请参见方法实施例，在此不再赘述。

本发明实施例还提供了一种计算机存储介质，所述计算机存储介质可以存储有多条指令。所述指令可以适于由处理器加载并执行本发明实施例所述的一种视频边框识别方法，所述方法至少包括下述步骤：

一种视频边框识别方法，所述方法包括：

获取带有边框的目标视频；

对候选边框进行区域融合处理以得到目标边框。

在一个优选的实施例中，还包括对所述目标边框进行校验的步骤，所述对所述目标边框进行校验包括：

获取偏移步长；

根据第一目标边框和所述偏移步长获取第一偏移边框和第二偏移边框；

根据第二目标边框和所述偏移步长获取第三偏移边框和第四偏移边框；

根据所述第一偏移边框、第二偏移边框、第三偏移边框和第四偏移边框构建第一偏移区域和第二偏移区域，所述第一偏移区域和所述偏移区域相交并且形状相同；

计算所述第一偏移区域中视频与所述第二偏移区域中视频的相关程度，若所述相关程度大于预设阈值，则判定所述目标边框为目标视频的真实边框。

在一个优选的实施例中，所述提取所述目标视频中目标帧序列，包括：

间隔固定时长提取所述目标视频中的关键帧以得到关键帧序列；

在所述关键帧序列中去除冗余的关键帧以得到目标帧序列，所述目标帧序列中相邻的目标帧的相似度小于预设阈值。

在一个优选的实施例中，所述根据所述目标图像序列确定候选边框，包括：

根据目标图像序列获取方差矩阵，所述方差矩阵中每个元素的值均为所述元素指向的像素所对应的方差，所述像素所对应的方差用于表征所述目标图像序列的各个目标图像中所述像素的值的波动程度；

根据所述方差矩阵获取每个像素图案中静止像素的数量，以得到像素图案特征序列；

根据所述像素图案特征序列提取候选边框。

在一个优选的实施例中，所述根据所述像素图案特征序列提取候选边框，包括：

获取扫描步长；

根据所述扫描步长扫描所述像素图案特征序列，以确定当前像素图案特征；

若所述当前像素图案特征小于预设阈值，则判定所述当前像素图案为候选边框。

获取扫描步长；

获取相邻像素图案特征，所述相邻像素图案特征为当前像素图案的相邻扫描像素图案在所述像素图案特征序列的对应值；

根据所述当前像素图案特征和所述相邻像素图案特征的差值判断所述当前像素图案是否为候选边框。

一个优选的实施例中，所述对候选边框进行区域融合处理以得到目标边框，包括：

使用滑动窗口法对候选边框进行区域融合处理，以得到疑似目标边框；

将像素波动最大的两个疑似目标边框确定为目标边框。

一个优选的实施例中，所述使用滑动窗口法对候选边框进行区域融合处理，以得到疑似目标边框，包括：

为目标视频划分多个区域，设置滑动窗口，所述滑动窗口沿所述区域滑动；

按照预设顺序滑动所述滑动窗口，确定所述多个区域中被所述滑动窗口覆盖的当前区域；

若落入所述当前区域的候选边框数量大于一，则对落入所述当前区域的候选边框进行融合以得到一个疑似目标边框。

进一步地，图15示出了一种用于实现本发明实施例所提供的方法的设备的硬件结构示意图，所述设备可以参与构成或包含本发明实施例所提供的装置或系统。如图15所示，设备10可以包括一个或多个(图中采用102a、102b，……，102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图15所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，设备10还可包括比图15中所示更多或者更少的组件，或者具有与图15所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到设备10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器104可用于存储应用软件的软件程序以及模块，如本发明实施例中所述的方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的一种视频边框识别方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至设备10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括设备10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(NetworkInterfaceController，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(RadioFrequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与设备10(或移动设备)的用户界面进行交互。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置和服务器实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种视频边框识别方法，其特征在于，所述方法包括：

获取带有边框的目标视频；

根据所述方差矩阵获取每个像素图案中静止像素的数量，以得到像素图案特征序列；所述静止像素为在所述目标图像序列的各个目标图像中值波动程度满足预设要求的像素；

获取扫描步长；

根据当前像素图案特征与预设阈值的关系判断当前像素图案是否为候选边框；或，获取相邻像素图案特征，所述相邻像素图案特征为当前像素图案的相邻扫描像素图案在所述像素图案特征序列的对应值；根据所述当前像素图案特征和所述相邻像素图案特征的差值判断所述当前像素图案是否为候选边框；

若所述当前像素图案为候选边框，则对候选边框进行区域融合处理以得到目标边框。

2.根据权利要求1所述的方法，其特征在于，还包括对所述目标边框进行校验的步骤，所述对所述目标边框进行校验包括：

获取偏移步长；

根据第一目标边框和所述偏移步长在第一方向上获取第一偏移边框和在第二方向上获取第二偏移边框；所述第一方向和所述第二方向为相反方向；

根据第二目标边框和所述偏移步长在所述第一方向上获取第三偏移边框和在所述第二方向上获取第四偏移边框；

根据所述第一偏移边框和所述第三偏移边框构建第一偏移区域，根据所述第二偏移框和所述第四偏移框构建第二偏移区域，所述第一偏移区域和所述第二偏移区域相交并且形状相同；

3.根据权利要求1所述的方法，其特征在于，所述提取所述目标视频中目标帧序列，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据当前像素图案特征与预设阈值的关系判断当前像素图案是否为候选边框，包括：

5.根据权利要求1所述的方法，其特征在于，所述对候选边框进行区域融合处理以得到目标边框，包括：

将像素波动最大的两个疑似目标边框确定为目标边框。

6.根据权利要求5所述的方法，其特征在于，所述使用滑动窗口法对候选边框进行区域融合处理，以得到疑似目标边框，包括：

7.一种视频边框识别装置，其特征在于，所述装置包括：

目标视频获取模块，用于获取带有边框的目标视频；

候选边框提取模块，用于根据目标图像序列获取方差矩阵，所述方差矩阵中每个元素的值均为所述元素指向的像素所对应的方差，所述像素所对应的方差用于表征所述目标图像序列的各个目标图像中所述像素的值的波动程度；根据所述方差矩阵获取每个像素图案中静止像素的数量，以得到像素图案特征序列；所述静止像素为在所述目标图像序列的各个目标图像中值波动程度满足预设要求的像素；获取扫描步长；根据所述扫描步长扫描所述像素图案特征序列，以确定当前像素图案特征；根据当前像素图案特征与预设阈值的关系判断当前像素图案是否为候选边框；或，获取相邻像素图案特征，所述相邻像素图案特征为当前像素图案的相邻扫描像素图案在所述像素图案特征序列的对应值；根据所述当前像素图案特征和所述相邻像素图案特征的差值判断所述当前像素图案是否为候选边框；

8.根据权利要求7所述的装置，其特征在于，还包括校验模块，用于对所述目标边框进行校验，所述校验模块，包括：

偏移步长获取单元，用于获取偏移步长；

第一偏移单元，用于根据第一目标边框和所述偏移步长在第一方向上获取第一偏移边框和在第二方向上获取第二偏移边框；所述第一方向和所述第二方向为相反方向；

第二偏移单元，用于根据第二目标边框和所述偏移步长在所述第一方向上获取第三偏移边框和在所述第二方向上获取第四偏移边框；

偏移区域构建单元，用于根据所述第一偏移边框和所述第三偏移边框构建第一偏移区域，根据所述第二偏移框和所述第四偏移框构建第二偏移区域，所述第一偏移区域和所述第二偏移区域相交并且形状相同；

边框判定单元，用于计算所述第一偏移区域中视频与所述第二偏移区域中视频的相关程度，若所述相关程度大于预设阈值，则判定所述目标边框为目标视频的真实边框。

9.根据权利要求7所述的装置，其特征在于，所述目标图像序列获取模块用于间隔固定时长提取所述目标视频中的关键帧以得到关键帧序列；在所述关键帧序列中去除冗余的关键帧以得到目标帧序列，所述目标帧序列中相邻的目标帧的相似度小于预设阈值。

10.根据权利要求7所述的装置，其特征在于，所述目标边框确定模块，包括：

融合单元，用于使用滑动窗口法对候选边框进行区域融合处理，以得到疑似目标边框；

目标边框确定单元，用于将像素波动最大的两个疑似目标边框确定为目标边框。

11.根据权利要求10所述的装置，其特征在于，所述融合单元，包括：

区域划分单元，用于为目标视频划分多个区域，设置滑动窗口，所述滑动窗口沿所述区域滑动；

疑似目标边框获取单元，用于按照预设顺序滑动所述滑动窗口，确定所述多个区域中被所述滑动窗口覆盖的当前区域；若落入所述当前区域的候选边框数量大于一，则对落入所述当前区域的候选边框进行融合以得到一个疑似目标边框。

12.一种计算机存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如权利要求1-6任一项所述的一种视频边框识别方法。

13.一种视频边框识别设备，其特征在于，包括至少一个处理器，以及与所述至少一个处理器通信连接的存储器；所述至少一个处理器通过运行存储在存储器内的软件程序以及模块，实现如权利要求1-6中任一所述的一种视频边框识别方法。