CN110276769A

CN110276769A - 一种视频画中画架构中直播内容定位方法

Info

Publication number: CN110276769A
Application number: CN201810205608.6A
Authority: CN
Inventors: 陈艺超; 金凯; 任重; 龙明凯
Original assignee: Shanghai Roar Network Technology Co Ltd
Current assignee: Shanghai Weilong Culture Communication Co ltd
Priority date: 2018-03-13
Filing date: 2018-03-13
Publication date: 2019-09-24
Anticipated expiration: 2038-03-13
Also published as: CN110276769B

Abstract

本发明揭示了一种视频画中画架构中直播内容定位方法，包括：步骤S1、截取视频画面，保存成图片格式；步骤S2、选取截取图片中的若干张图片，选取图片张数记为L，对选取图片中的两张图片作为一组进行矩形的减法计算，取差的绝对值，进行若干组矩形减法计算，得到若干组结果；步骤S3、对步骤S2中的结果进行累加求和，并做阈值操作；步骤S4、对步骤S3中得到的数据做滤波操作；步骤S5、分别进行行遍历及列遍历，获取游戏窗口行范围及列范围；步骤S9、根据步骤S5的结果得到正确的游戏窗口矩阵坐标，分割出游戏窗口。本发明提出的视频画中画架构中直播内容定位方法，可快速定位直播图像的区域，直播图像变动带来的影响很小，且占用系统资源较低。

Description

一种视频画中画架构中直播内容定位方法

技术领域

本发明属于网络通讯技术领域，涉及一种视频直播方法，尤其涉及一种视频画中画架构中直播内容定位方法。

背景技术

相比移动端投屏直播而言，在PC投屏为基础的直播环境中，增加了用户自定义界面的表达形式。为了让直播内容和主播的人物画面同时出现在同一屏幕中，往往采用同屏多窗口的画中画模式。

这种模式增加了显示画面的复杂度，直播内容窗口在画面中的方位和显示比例都是用户随机定义的，可能会造成画面比例变形，给以图像为基础的直播流内容分析系统带来挑战，因此，在这种新增的模式中，定位直播内容窗口，提取画面并恢复比例，是能够正确分析直播流前提条件。

画中画一般处于矩形窗口中，直播画面(前景)和画面框架(背景)的图像想似性有差别，相似的解决方案较多采用图像分割的各种算法。

图像分割算法多以静态图像中画面上的亮度和色彩差异行为标志，来将图像分割成若干区域，它会由于直播图像的变动而带来不稳定，并且分析过程中往往使用计算成本较大的方法，严重占用系统的计算资源(CPU)。

有鉴于此，如今迫切需要设计一种区分直播中直播内容的方法，以便克服现有区分方式存在的上述缺陷。

发明内容

本发明所要解决的技术问题是：提供一种视频画中画架构中直播内容定位方法，可快速定位直播图像的区域，直播图像变动带来的影响很小，且占用系统资源较低。

为解决上述技术问题，本发明采用如下技术方案：

一种视频画中画架构中直播内容定位方法，所述方法包括：

步骤S1、截取视频画面，保存成图片格式；

步骤S2、选取截取图片中的若干张图片，图片张数记为L，每两张图片为一组进行矩形的减法，取差的绝对值；

对于尺寸为m×n的灰度图片，将其看成是m×n的矩阵，求两张图片的差的绝对值为对矩形求绝对差；

假设有矩阵A和B，大小的都是m×n，其中：

则A和B的绝对差定义如下：

步骤S3、将步骤S2中的各个结果矩阵进行累加求和；

假设有矩阵A、B、C和D，大小的都是m×n，其中

矩阵D的元素全为0；

将矩阵A、B和C的累加和保存到矩阵D中，定义如下：

步骤S4、得到的结果矩阵，使用阈值进行阈值操作，即像素灰度值小于阈值的置0，大于该阈值的置为255，从而得到二值图像；

步骤S5、对步骤S4中的结果矩阵进行中值滤波，滤除图像中的校验噪声；

中值滤波法是一种非线性平滑技术，将每一像素点的灰度值设置为该点某邻域窗口内的所有像素点灰度值的中值；

中值滤波是基于排序统计理论的一种能有效抑制噪声的非线性信号处理技术，中值滤波的基本原理是把数字图像或数字序列中一点的值用该点的一个邻域中各点值的中值代替，从而消除孤立的噪声点；

二维中值滤波输出为g(x,y)＝med{f(x-k,y-i),(k,i∈W)}，其中，f(x,y)、g(x,y)分别为原始图像和处理后图像；W为二维模板；

中值滤波用以对脉冲噪声进行滤除，在滤除噪声的同时，保护信号的边缘，使之不被模糊；

步骤S6、视频会话窗口和游戏窗口的区分步骤；

由于视频会话头窗口和游戏窗口运动矢量都很大，导致两个矩形区域边界不清晰，难以对游戏窗口矩形区域进行提取；

因此，对选取的每张图片进行轮廓提取，并对L张图片的轮廓进行累加，并对结果进行阈值操作从而得到轮廓的二值图像；

经过对画面轮廓的计算，得到清晰的窗口线段，以便对游戏窗口进行切分；

步骤S7、对步骤S5中得到的图像进行遍历；

先进行行遍历，先按照从左往右的顺序进行遍历；依次找到每行中第一个值不为零的像素，记录该像素的横坐标为该行的起始点，放到起始点队列中；再找到该行中从起始点开始的连续的值不为零的像素点的个数，记录该个数为该行的长度，放到长度队列中；分别对起始点队列和长度队列里的值进行统计，获取出现次数最多的值，即为画面中矩形区域的起始点横坐标和该矩形区域的宽度，从而计算出矩形区域的列范围的一组坐标；

再按照从右往左的顺序进行遍历，得到另一组矩形区域列范围的一组坐标；

比较以上两组坐标；取列起始序号较小的那个值，取列终止序号较大的那个值，从而得到新的列范围的一组坐标；

同样地，对图像进行列遍历，分别按从上到下和从下到上的顺序进行遍历，得到两组矩阵行范围坐标，取行范围较大的那组坐标作为行范围的一组坐标；行范围较大指行终点序号减去行起点序号较大；

步骤S8、对步骤S6中得到的图像进行遍历；

先进行行遍历，对步骤S7中得到的行范围进行行遍历；每行中，从步骤S7中得到的列的起始序号再加上a的那一列开始遍历，a为轮廓线段宽度的像素数；记录第一个不为零的像素点的序号，放到队列中；对队列中的值进行统计，获取出现次数最多的值，即为轮廓图像中竖向线段的列的序号；

同样地，对轮廓图像进行列遍历，得到轮廓图像中横向线段的行的序号；

步骤S9、对步骤S7、步骤S8的计算结果进行比较；

对步骤S8中得到的线段列序号与步骤S7中得到的列范围进行比较，如果线段列序号在列范围内，则用线段列序号减去列起始点序号，用列终止点序号减去线段列序号，取数值较大的为新的列范围坐标；

同样的方法获取新的行范围坐标；

通过以上两步，得到游戏窗口矩形的起始点坐标和该矩形的宽度和高度，从而从游戏推流图片中提取出游戏窗口，以便对其作进一步的图像分析。

一种视频画中画架构中直播内容定位方法，所述方法包括：

步骤S1、截取视频画面，保存成图片格式；

步骤S2、选取截取图片中的若干张图片，选取图片张数记为L，对选取图片中的两张图片作为一组进行矩形的减法计算，取差的绝对值，进行若干组矩形减法计算，得到若干组结果；

步骤S3、对步骤S2中的结果进行累加求和，并做阈值操作；

步骤S4、对步骤S3中得到的数据做滤波操作；

步骤S5、分别进行行遍历及列遍历，获取游戏窗口行范围及列范围；

步骤S9、根据步骤S5的结果得到正确的游戏窗口矩阵坐标，分割出游戏窗口。

作为本发明的一种优选方案，所述直播内容定位方法在步骤S5与步骤S9之间还包括如下步骤：

步骤S6、对选取的L张图片中的全部或部分图片分别进行轮廓提取；

步骤S7、对得到的轮廓结果进行累加，并做阈值操作；

步骤S8、对轮廓结果分别进行行遍历和列遍历，获取轮廓竖向线段的列序号和横向线段的行序号；

步骤S9为：根据步骤S5、步骤S8的结果得到正确的游戏窗口矩阵坐标，分割出游戏窗口。

作为本发明的一种优选方案，步骤S2中，选取截取图片中的若干张图片，每两张图片为一组进行矩形的减法，取差的绝对值；

假设有矩阵A和B，大小的都是m×n，其中：

则A和B的绝对差定义如下：

作为本发明的一种优选方案，步骤S3中，将步骤S2中的各个结果矩阵进行累加求和的过程包括：

假设有矩阵A、B、C和D，大小的都是m×n，其中

矩阵D的元素全为0；

将矩阵A、B和C的累加和保存到矩阵D中，定义如下：

作为本发明的一种优选方案，步骤S4中，对步骤S3得到的结果矩阵，使用阈值进行阈值操作，即像素灰度值小于阈值的置0，大于该阈值的置为255，从而得到二值图像。

作为本发明的一种优选方案，步骤S5中，对步骤S4中的结果矩阵进行中值滤波，滤除图像中的校验噪声；

中值滤波用以对脉冲噪声进行滤除，在滤除噪声的同时，保护信号的边缘，使之不被模糊。

作为本发明的一种优选方案，步骤S6中，主播摄像头窗口和游戏窗口的区分步骤；

由于主播摄像头窗口和游戏窗口运动矢量都很大，导致两个矩形区域边界不清晰，难以对游戏窗口矩形区域进行提取；

因此，对选取的每张图片进行轮廓提取，并对50张图片的轮廓进行累加，并对结果进行阈值操作从而得到轮廓的二值图像；

经过对画面轮廓的计算，得到清晰的窗口线段，以便对游戏窗口进行切分。

作为本发明的一种优选方案，步骤S7中，对步骤S5中得到的图像进行遍历；

先进行行遍历，先按照从左往右的顺序进行遍历；依次找到每行中第一个值不为零的像素，记录该像素的横坐标为该行的起始点，放到起始点队列中；再找到该行中从起始点开始的连续的值不零的像素点的个数，记录该个数为该行的长度，放到长度队列中；分别对起始点队列和长度队列里的值进行统计，获取出现次数最多的值，即为画面中矩形区域的起始点横坐标和该矩形区域的宽度，从而计算出矩形区域的列范围的一组坐标；

同样地，对图像进行列遍历，分别按从上到下和从下到上的顺序进行遍历，得到两组矩阵行范围坐标，取行范围、即行终点序号减去行起点序号较大的那组坐标作为行范围的一组坐标。

作为本发明的一种优选方案，步骤S8中，对步骤S6中得到的图像进行遍历；

同样地，对轮廓图像进行列遍历，得到轮廓图像中横向线段的行的序号。

作为本发明的一种优选方案，步骤S9，对步骤S7、步骤S8的计算结果进行比较；

同样的方法获取新的行范围坐标；

本发明的有益效果在于：本发明提出的视频画中画架构中直播内容定位方法，可快速定位直播图像的区域，直播图像变动带来的影响很小，且占用系统资源较低。

附图说明

图1为本发明视频画中画架构中直播内容定位方法的流程图。

图2为本发明视频画中画架构中直播内容定位方法中pc投屏游戏视频画面的示意图。

图3为对50张游戏画面进行绝对值减法再累加求和的结果画面示意图。

图4为对图3进行阈值操作的结果示意图。

图5为对图4进行中值滤波的结果示意图。

图6为pc投屏游戏视频画面示意图。

图7为图6经过步骤S1-S5处理后的结果示意图。

图8为对50张游戏图片进行轮廓提取并求和的结果示意图。

图9为对图2进行识别最终的标注示意图。

图10为对图6进行识别最终的标注示意图。

具体实施方式

下面结合附图详细说明本发明的优选实施例。

实施例一

请参阅图1，本发明揭示了一种视频画中画架构中直播内容定位方法，由于pc投屏的游戏视频画面有很多窗口，但是游戏窗口一般为矩形区域，并且相对于其他窗口运动矢量比较大。对多幅推流图像进行减法并对结果进行累加之后，游戏窗口的灰度值很大，而其他窗口的灰度值较小，游戏窗口边缘清晰，并且为矩形。对图像进行遍历，提取出游戏窗口矩形区域。所述直播内容定位方法具体包括如下步骤：

步骤S1、截取视频画面，保存成图片格式；

步骤S2、选取截取图片中的若干张图片，图片张数记为L(如50张)，每两张图片为一组进行矩形的减法(如可将50张图片分成25组，每组两张图片)，取差的绝对值；

假设有矩阵A和B，大小的都是m×n，其中：

则A和B的绝对差定义如下：

步骤S3、将步骤S2中的各个结果矩阵进行累加求和；

假设有矩阵A、B、C和D，大小的都是m×n，其中

矩阵D的元素全为0；

将矩阵A、B和C的累加和保存到矩阵D中，定义如下：

步骤S6、视频会话窗口和游戏窗口的区分步骤；

步骤S7、对步骤S5中得到的图像进行遍历；

步骤S8、对步骤S6中得到的图像进行遍历；

步骤S9、对步骤S7、步骤S8的计算结果进行比较；

同样的方法获取新的行范围坐标；

实施例二

本实施例与实施例一的区别在于，本实施例中，步骤S4中的滤波方式可以为中值滤波之外的其他滤波方式，本领域技术人员可以根据需要选择其他滤波方式。

实施例三

本实施例与实施例一的区别在于，本实施例中，步骤S2中，每两张图片为一组进行矩形的减法，可以将所有图片分成若干组，每组中的图片与其他组的图片相互之间完全不同，也可以有部分相同。在选取图片时，优选方案是选取各组之间完全不同的图片的方式；如实施例一中，可以将50张图片分为25组，对一组进行矩形减法。

实施例四

一种视频画中画架构中直播内容定位方法，所述方法包括：

步骤S1、截取视频画面，保存成图片格式；

步骤S3、对步骤S2中的结果进行累加求和，并做阈值操作；

步骤S4、对步骤S3中得到的数据做滤波操作；

步骤S7、对得到的轮廓结果进行累加，并做阈值操作；

步骤S9、根据步骤S5、步骤S8的结果得到正确的游戏窗口矩阵坐标，分割出游戏窗口。

实施例五

一种视频画中画架构中直播内容定位方法，所述方法包括：

步骤S1、截取视频画面，保存成图片格式；

步骤S3、对步骤S2中的结果进行累加求和，并做阈值操作；

步骤S4、对步骤S3中得到的数据做滤波操作；

综上所述，本发明提出的视频画中画架构中直播内容定位方法，可快速定位直播图像的区域，直播图像变动带来的影响很小，且占用系统资源较低。

这里本发明的描述和应用是说明性的，并非想将本发明的范围限制在上述实施例中。这里所披露的实施例的变形和改变是可能的，对于那些本领域的普通技术人员来说实施例的替换和等效的各种部件是公知的。本领域技术人员应该清楚的是，在不脱离本发明的精神或本质特征的情况下，本发明可以以其它形式、结构、布置、比例，以及用其它组件、材料和部件来实现。在不脱离本发明范围和精神的情况下，可以对这里所披露的实施例进行其它变形和改变。

Claims

1.一种视频画中画架构中直播内容定位方法，其特征在于，所述方法包括：

步骤S1、截取视频画面，保存成图片格式；

假设有矩阵A和B，大小的都是m×n，其中：

则A和B的绝对差定义如下：

步骤S3、将步骤S2中的各个结果矩阵进行累加求和；

假设有矩阵A、B、C和D，大小的都是m×n，其中

矩阵D的元素全为0；

将矩阵A、B和C的累加和保存到矩阵D中，定义如下：

二维中值滤波输出为g(x,y)＝med{f(x-k,y-i),(k,iεW)}，其中，f(x,y)、g(x,y)分别为原始图像和处理后图像；W为二维模板；

步骤S6、视频会话窗口和游戏窗口的区分步骤；

步骤S7、对步骤S5中得到的图像进行遍历；

步骤S8、对步骤S6中得到的图像进行遍历；

步骤S9、对步骤S7、步骤S8的计算结果进行比较；

同样的方法获取新的行范围坐标；

2.一种视频画中画架构中直播内容定位方法，其特征在于，所述方法包括：

步骤S1、截取视频画面，保存成图片格式；

步骤S3、对步骤S2中的结果进行累加求和，并做阈值操作；

步骤S4、对步骤S3中得到的数据做滤波操作；

3.根据权利要求2所述的视频画中画架构中直播内容定位方法，其特征在于：

所述直播内容定位方法在步骤S5与步骤S9之间还包括如下步骤：

步骤S7、对得到的轮廓结果进行累加，并做阈值操作；

4.根据权利要求2所述的视频画中画架构中直播内容定位方法，其特征在于：

步骤S2中，选取截取图片中的若干张图片，每两张图片为一组进行矩形的减法，取差的绝对值；

假设有矩阵A和B，大小的都是m×n，其中：

则A和B的绝对差定义如下：

5.根据权利要求2所述的视频画中画架构中直播内容定位方法，其特征在于：

步骤S3中，将步骤S2中的各个结果矩阵进行累加求和的过程包括：

假设有矩阵A、B、C和D，大小的都是m×n，其中

矩阵D的元素全为0；

将矩阵A、B和C的累加和保存到矩阵D中，定义如下：

6.根据权利要求2所述的视频画中画架构中直播内容定位方法，其特征在于：

步骤S4中，对步骤S3得到的结果矩阵，使用阈值进行阈值操作，即像素灰度值小于阈值的置0，大于该阈值的置为255，从而得到二值图像；

步骤S5中，对步骤S4中的结果矩阵进行中值滤波，滤除图像中的校验噪声；

7.根据权利要求3所述的视频画中画架构中直播内容定位方法，其特征在于：

步骤S6中，主播摄像头窗口和游戏窗口的区分步骤；

8.根据权利要求3所述的视频画中画架构中直播内容定位方法，其特征在于：

步骤S7中，对步骤S5中得到的图像进行遍历；

9.根据权利要求3所述的视频画中画架构中直播内容定位方法，其特征在于：

步骤S8中，对步骤S6中得到的图像进行遍历；

10.根据权利要求3所述的视频画中画架构中直播内容定位方法，其特征在于：

步骤S9，对步骤S7、步骤S8的计算结果进行比较；

同样的方法获取新的行范围坐标；