CN110334606A

CN110334606A - 画中画定位方法及装置

Info

Publication number: CN110334606A
Application number: CN201910495565.4A
Authority: CN
Inventors: 龙铭凯; 周凯艳; 朱晓宁; 赖晨曦
Original assignee: Suzhou Red Fire Combustion Data Technology Co Ltd
Current assignee: Suzhou Red Fire Combustion Data Technology Co Ltd
Priority date: 2019-06-11
Filing date: 2019-06-11
Publication date: 2019-10-15
Anticipated expiration: 2039-06-11
Also published as: CN110334606B

Abstract

本申请公开了一种画中画定位方法及装置。该方法包括：获取视频中的图片样本，其中，所述视频中至少包括一动态窗口；对所述图片样本执行第一预设操作和第二预设操作；遍历第一预设操作结果和第二预设操作结果，得到行列范围和行列序号；以及，根据所述行列范围和所述行列序号确定所述动态窗口的矩形区域。能够替代传统的图像分割算法，且精确定位视频中至少一个动态窗口，达到了推测动态内容和静态内容的分布，消除动态窗口之间相互影响，同时修正动态窗口的目的，从而实现了提高定位精度，且降低了计算成本的技术效果。本申请解决了动态窗口的定位精度低，且计算成本大的技术问题。

Description

画中画定位方法及装置

技术领域

本申请涉及画中画定位领域，具体而言，涉及一种画中画定位方法及装置。

背景技术

相比移动端投屏直播而言，在PC投屏为基础的直播环境中，增加了用户自定义界面的表达形式。为了让直播内容和主播的人物画面同时出现在同一屏幕中，往往采用同屏多窗口的画中画模式。

这种模式增加了显示画面的复杂度，直播内容窗口在画面中的方位和显示比例都是用户随机定义的，可能会造成画面比例变形，给以图像为基础的直播流内容分析系统带来挑战，因此，在这种新增的模式中，定位直播内容窗口，提取画面并恢复比例，是能够正确分析直播流前提条件。

画中画一般处于矩形窗口中，直播画面(前景)和画面框架(背景) 的图像想似性有差别，相似的解决方案较多采用图像分割的各种算法。

图像分割算法多以静态图像中画面上的亮度和色彩差异行为标志，来将图像分割成若干区域，它会由于直播图像的变动而带来不稳定，并且分析过程中往往使用计算成本较大的方法，严重占用系统的计算资源(CPU)。

针对相关技术中动态窗口的定位精度低，且计算成本大的问题，目前尚未提出有效的解决方案。

发明内容

本申请的主要目的在于提供一种画中画定位方法及装置，以解决动态窗口的定位精度低，且计算成本大的问题。

为了实现上述目的，根据本申请的一个方面，提供了一种画中画定位方法。

根据本申请的画中画定位方法包括：获取视频中的图片样本，其中，所述视频中至少包括一动态窗口；对所述图片样本执行第一预设操作和第二预设操作；遍历第一预设操作结果和第二预设操作结果，得到行列范围和行列序号；以及，根据所述行列范围和所述行列序号确定所述动态窗口的矩形区域。

进一步的，获取视频中的图片样本包括：截取视频画面；将截取的视频画面保存为图片序列；在所述图片序列中选取指定数目图片作为图片样本。

进一步的，对所述图片样本执行第一预设操作包括：将图片样本中的每两张图片分为一组；对每组中的图片进行矩形减法并取绝对值，得到矩阵集合；对矩阵集合中的矩阵进行累加求和并执行阈值操作，得到第一二值图像；通过中值滤波滤除所述第一二值图像中的椒盐噪声。

进一步的，对所述图片样本执行第二预设操作包括：提取所述图片样本中图片的动态窗口轮廓；对每张图片的动态窗口轮廓进行累加求和并执行阈值操作，得到第二二值图像。

进一步的，遍历第一预设操作结果得到行列范围包括：对执行第一预设操作得到的第一二值图像进行行遍历，得到行范围；对执行第一预设操作得到的第一二值图像进行列遍历，得到列范围。

进一步的，遍历第二预设操作结果得到行列序号包括：对执行第二预设操作得到的第二二值图像进行行遍历，得到行序号；对执行第二预设操作得到的第二二值图像进行列遍历，得到列序号。

进一步的，根据所述行列范围和所述行列序号确定所述动态窗口的矩形区域包括：判断行列序号是否在行列范围内；如果在，则通过预设计算规则纠正所述行列范围；根据纠正后的行列范围确定所述动态窗口的矩形区域。

进一步的，根据所述行列范围和所述行列序号确定所述动态窗口的矩形区域之后还包括：依照所述矩形区域分割出所述动态窗口。

为了实现上述目的，根据本申请的另一方面，提供了一种画中画定位装置。

根据本申请的画中画定位装置包括：获取模块，用于获取视频中的图片样本，其中，所述视频中至少包括一动态窗口；执行模块，用于对所述图片样本执行第一预设操作和第二预设操作；遍历模块，用于遍历第一预设操作结果和第二预设操作结果，得到行列范围和行列序号；以及，确定模块，用于根据所述行列范围和所述行列序号确定所述动态窗口的矩形区域。

进一步的，所述确定模块包括：判断行列序号是否在行列范围内；如果在，则通过预设计算规则纠正所述行列范围；根据纠正后的行列范围确定所述动态窗口的矩形区域。

在本申请实施例中，采用动态评估、轮廓提取、多轮采样相结合的方式，通过获取视频中的图片样本，其中，所述视频中至少包括一动态窗口；对所述图片样本执行第一预设操作和第二预设操作；遍历第一预设操作结果和第二预设操作结果，得到行列范围和行列序号；以及，根据所述行列范围和所述行列序号确定所述动态窗口的矩形区域；能够替代传统的图像分割算法，且精确定位视频中至少一个动态窗口，达到了推测动态内容和静态内容的分布，消除动态窗口之间相互影响，同时修正动态窗口的目的，从而实现了提高定位精度，且降低了计算成本的技术效果，进而解决了动态窗口的定位精度低，且计算成本大的技术问题。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的画中画定位方法示意图；

图2是根据本申请实施例的画中画定位装置示意图；

图3是根据本申请一优选实施例的图片样本中图片示意图；

图4是根据本申请一优选实施例的取差的绝对值后的图片示意图；

图5是根据本申请一优选实施例的第一二值图像示意图；

图6是根据本申请一优选实施例的中值滤波后的第一二值图像示意图；

图7是根据本申请另一优选实施例的图片样本中图片示意图；

图8是根据本申请另一优选实施例的第一预设操作后的图片示意图；

图9是根据本申请另一优选实施例的第二预设操作后的图片示意图；

图10是根据本申请一优选实施例的图片的矩形区域示意图；

图11是根据本申请一优选实施例的图片的矩形区域示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本申请中，术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本发明及其实施例，并非用于限定所指示的装置、元件或组成部分必须具有特定方位，或以特定方位进行构造和操作。

并且，上述部分术语除了可以用于表示方位或位置关系以外，还可能用于表示其他含义，例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言，可以根据具体情况理解这些术语在本发明中的具体含义。

此外，术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如，可以是固定连接，可拆卸连接，或整体式构造；可以是机械连接，或电连接；可以是直接相连，或者是通过中间媒介间接相连，又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

根据本发明实施例，提供了一种画中画定位方法，如图1所示，该方法包括如下的步骤S100至步骤S106：

步骤S100、获取视频中的图片样本，其中，所述视频中至少包括一动态窗口；

具体的，获取视频中的图片样本包括：

截取视频画面；

将截取的视频画面保存为图片序列；

在所述图片序列中选取指定数目图片作为图片样本。

在本实施例中，视频可以是手机游戏直播视频，也可以是电脑游戏直播视频；视频中包含的动态窗口至少为游戏窗口，还可以包含主播窗口；由于游戏中动态内容较多，想要定位该动态游戏窗口，采用动态评估方法。

具体而言，截取视频画面，保存成jpg图片文件序列；本实施例中，也可以是其他格式的图片文件序列，在此不做限定。在该视频画面中的左上角矩形区域为动态游戏窗口，其他区域为静态内容，也可以是矢量运动较小的动图等。

在jpg图片文件序列选取指定数目图片作为图片样本，在本实施例中，选取50张图片作为图片样本，用于进行动态评估。

如图3或7所示，为图片序列中选取的50张图片的其中一张，可以看出图3中包含主播窗口、游戏窗口和静态内容，图7中包含游戏窗口、主播窗口和静态内容，且游戏窗口和主播窗口连接在一起。

步骤S102、对所述图片样本执行第一预设操作和第二预设操作；

具体的，对所述图片样本执行第一预设操作包括：

将图片样本中的每两张图片分为一组；

对每组中的图片进行矩形减法并取绝对值，得到矩阵集合；

对矩阵集合中的矩阵进行累加求和并执行阈值操作，得到第一二值图像；

通过中值滤波滤除所述第一二值图像中的椒盐噪声。

仍然以图3中的视频截图及截取的50张图片为例，每两张图片进行矩形的减法，取差的绝对值：

对于尺寸为m×n的灰度图片，可以将其看成是m×n的矩阵，求两张图片的差的绝对值就是对矩形求绝对差。

假设有矩阵A和B，大小的都是m×n，其中

则A和B的绝对差定义如下：

将得到的25个矩阵进行累加求和：

假设有矩阵A、B、C和D，大小的都是m×n，其中

矩阵D的元素全为0，

将矩阵A、B和C的累加和保存到矩阵D中，定义如下：

通过以上处理之后的图像如图4所示；可以看到除了游戏窗口和右下角的动图窗口，其他区域接近黑色。

求和后矩阵，使用阈值进行阈值操作，即像素灰度值小于阈值的置0，大于该阈值的置为255，从而得到二值图像。

经过阈值处理的二值图像如图5所示。可以看到该图像只有黑色和白色两种灰度，但是黑色区域有很多白色噪声。

对阈值处理的二值图进行中值滤波，滤除图像中的椒盐噪声，中值滤波法是一种非线性平滑技术，它将每一像素点的灰度值设置为该点某邻域窗口内的所有像素点灰度值的中值。

中值滤波是基于排序统计理论的一种能有效抑制噪声的非线性信号处理技术，中值滤波的基本原理是把数字图像或数字序列中一点的值用该点的一个邻域中各点值的中值代替，从而消除孤立的噪声点。

二维中值滤波输出为g(x,y)＝med{f(x-k,y-i),(k,i∈W)}，其中，f(x,y)、 g(x,y)分别为原始图像和处理后图像。W为二维模板，通常为3*3，5*5区域，也可以是不同的的形状，如线状，圆形，十字形，圆环形等。

中值滤波对脉冲噪声有良好的滤除作用，特别是在滤除噪声的同时，能够保护信号的边缘，使之不被模糊。

经过中值滤波之后的图像如图6所示，可以看到游戏窗口矩阵边界清晰，其他区域的白色噪声也没有了。

通过以上的动态评估方法，能够定位出图3对应的动态游戏窗口的边框；但是当视频画面中存在2个或2个以上的动态窗口时，则会产生相互影响，使动态窗口之间的边界不清晰。

以图7中的视频截图及截取的50张图片为例，通过以上的步骤可以得出如图8所示的图像，可以看出游戏窗口、主播窗口之间的边界很不清晰，不利于各个动态窗口的精确定位。

在本实施例中，仅以视频中出现2个动态窗口为例，应当理解为通过本方法也可以对3个、4个或多个动态窗口实现精确定位，并不应当理解为对保护范围的限制。

优选的，对所述图片样本执行第二预设操作包括：

提取所述图片样本中图片的动态窗口轮廓；

对每张图片的动态窗口轮廓进行累加求和并执行阈值操作，得到第二二值图像。

为了消除动态窗口之间的对定位精度的相互影响，对选取的每张图片进行轮廓提取，并对50张图片的轮廓进行累加，并对结果进行阈值操作从而得到轮廓的二值图像，如图9所示。可以看到经过对画面轮廓的计算，可以得到清晰的窗口线段，以便对游戏窗口进行切分。

为消除动态窗口之间的相互影响提供保障。

步骤S104、遍历第一预设操作结果和第二预设操作结果，得到行列范围和行列序号；

具体的，遍历第一预设操作结果得到行列范围包括：

对执行第一预设操作得到的第一二值图像进行行遍历，得到行范围；

对执行第一预设操作得到的第一二值图像进行列遍历，得到列范围。

先进行行遍历，先按照从左往右的顺序进行遍历。依次找到每行中第一个值不为零的像素，记录该像素的横坐标为该行的起始点，放到起始点队列中。再找到该行中从起始点开始的连续的值不零的像素点的个数，记录该个数为该行的长度，放到长度队列中。分别对起始点队列和长度队列里的值进行统计，获取出现次数最多的值，即为画面中矩形区域的起始点横坐标和该矩形区域的宽度，从而计算出矩形区域的列范围的一组坐标。

再按照从右往左的顺序进行遍历，得到另一组矩形区域列范围的一组坐标。

比较以上两组坐标。取列起始序号较小的那个值，取列终止序号较大的那个值，从而得到新的列范围的一组坐标。

同样地，对图像进行列遍历，分别按从上到下和从下到上的顺序进行遍历，得到两组矩阵行范围坐标，取行范围(即行终点序号减去行起点序号)较大的那组坐标作为行范围的一组坐标。

实现了行、列范围的确定，为提高动态窗口定位精度提供保障。

具体的，遍历第二预设操作结果得到行列序号包括：

对执行第二预设操作得到的第二二值图像进行行遍历，得到行序号；

对执行第二预设操作得到的第二二值图像进行列遍历，得到列序号。

先进行行遍历，对第二二值图像进行进行行遍历。依次找到每行中第一个值不为零的像素，记录该像素的横坐标为该行的起始点，放到起始点队列中。每行中，列的起始序号再加上2(因为轮廓线段的宽度为2像素)的那一列开始遍历，记录第一个不为零的像素点的序号，放到队列中。对队列中的值进行统计，获取出现次数最多的值，即为轮廓图像中竖向线段的列序号。

同样地，对第二二值图像进行列遍历，可以得到轮廓图像中横向线段的行序号。

实现了行、列序号的确定，为提高动态窗口定位精度提供保障。

步骤S106、根据所述行列范围和所述行列序号确定所述动态窗口的矩形区域。

具体的，根据所述行列范围和所述行列序号确定所述动态窗口的矩形区域包括：

判断行列序号是否在行列范围内；

如果在，则通过预设计算规则纠正所述行列范围；

根据纠正后的行列范围确定所述动态窗口的矩形区域。

对线段的列序号与列范围进行比较，如果线段列序号在列范围内，则用线段列序号减去列起始点序号，用列终止点序号减去线段列序号，取数值较大的为新的列范围坐标。

同样的方法获取新的行范围坐标。

通过以上两步，我们就得到了游戏窗口矩形的起始点坐标和该矩形的宽度和高度，从而可以从游戏推流图片中提取出游戏窗口。

我们用红色的线条在图片3和图7上标注出通过该步骤得到的矩形区域，如图10和图11所示。可以看到通过本发明的方法准确的识别出了一个或多个游戏窗口矩形区域，消除了动态窗口之间的相互影响，提高了窗口定位精度，而且与图像分割算法相比，降低了计算成本，通过多轮采样，修正关键视频内容窗口的定位精度。

优选的，根据所述行列范围和所述行列序号确定所述动态窗口的矩形区域之后还包括：

依照所述矩形区域分割出所述动态窗口。

最后将定位出来的矩形区域从分割出来，以便对其作进一步的图像分析。

从以上的描述中，可以看出，本发明实现了如下技术效果：

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

根据本发明实施例，还提供了一种用于实施上述画中画定位方法的装置，如图2所示，该装置包括：

获取模块10，用于获取视频中的图片样本，其中，所述视频中至少包括一动态窗口；

具体的，获取视频中的图片样本包括：

截取视频画面；

将截取的视频画面保存为图片序列；

在所述图片序列中选取指定数目图片作为图片样本。

执行模块20，用于对所述图片样本执行第一预设操作和第二预设操作；

具体的，对所述图片样本执行第一预设操作包括：

将图片样本中的每两张图片分为一组；

对每组中的图片进行矩形减法并取绝对值，得到矩阵集合；

通过中值滤波滤除所述第一二值图像中的椒盐噪声。

假设有矩阵A和B，大小的都是m×n，其中

则A和B的绝对差定义如下：

将得到的25个矩阵进行累加求和：

假设有矩阵A、B、C和D，大小的都是m×n，其中

矩阵D的元素全为0，

将矩阵A、B和C的累加和保存到矩阵D中，定义如下：

优选的，对所述图片样本执行第二预设操作包括：

提取所述图片样本中图片的动态窗口轮廓；

为消除动态窗口之间的相互影响提供保障。

遍历模块30，用于遍历第一预设操作结果和第二预设操作结果，得到行列范围和行列序号；

具体的，遍历第一预设操作结果得到行列范围包括：

具体的，遍历第二预设操作结果得到行列序号包括：

确定模块40，用于根据所述行列范围和所述行列序号确定所述动态窗口的矩形区域。

判断行列序号是否在行列范围内；

如果在，则通过预设计算规则纠正所述行列范围；

根据纠正后的行列范围确定所述动态窗口的矩形区域。

同样的方法获取新的行范围坐标。

依照所述矩形区域分割出所述动态窗口。

从以上的描述中，可以看出，本发明实现了如下技术效果：

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种画中画定位方法，其特征在于，包括：

获取视频中的图片样本，其中，所述视频中至少包括一动态窗口；

对所述图片样本执行第一预设操作和第二预设操作；

遍历第一预设操作结果和第二预设操作结果，得到行列范围和行列序号；以及，

根据所述行列范围和所述行列序号确定所述动态窗口的矩形区域。

2.根据权利要求1所述的画中画定位方法，其特征在于，获取视频中的图片样本包括：

截取视频画面；

将截取的视频画面保存为图片序列；

在所述图片序列中选取指定数目图片作为图片样本。

3.根据权利要求1所述的画中画定位方法，其特征在于，对所述图片样本执行第一预设操作包括：

将图片样本中的每两张图片分为一组；

对每组中的图片进行矩形减法并取绝对值，得到矩阵集合；

通过中值滤波滤除所述第一二值图像中的椒盐噪声。

4.根据权利要求1所述的画中画定位方法，其特征在于，对所述图片样本执行第二预设操作包括：

提取所述图片样本中图片的动态窗口轮廓；

5.根据权利要求1所述的画中画定位方法，其特征在于，遍历第一预设操作结果得到行列范围包括：

6.根据权利要求1所述的画中画定位方法，其特征在于，遍历第二预设操作结果得到行列序号包括：

7.根据权利要求1所述的画中画定位方法，其特征在于，根据所述行列范围和所述行列序号确定所述动态窗口的矩形区域包括：

判断行列序号是否在行列范围内；

如果在，则通过预设计算规则纠正所述行列范围；

根据纠正后的行列范围确定所述动态窗口的矩形区域。

8.根据权利要求1所述的画中画定位方法，其特征在于，根据所述行列范围和所述行列序号确定所述动态窗口的矩形区域之后还包括：

依照所述矩形区域分割出所述动态窗口。

9.一种画中画定位装置，其特征在于，包括：

获取模块，用于获取视频中的图片样本，其中，所述视频中至少包括一动态窗口；

执行模块，用于对所述图片样本执行第一预设操作和第二预设操作；

遍历模块，用于遍历第一预设操作结果和第二预设操作结果，得到行列范围和行列序号；以及，

确定模块，用于根据所述行列范围和所述行列序号确定所述动态窗口的矩形区域。

10.根据权利要求8所述的画中画定位装置，其特征在于，所述确定模块包括：

判断行列序号是否在行列范围内；

如果在，则通过预设计算规则纠正所述行列范围；

根据纠正后的行列范围确定所述动态窗口的矩形区域。