CN111767920B

CN111767920B - 感兴趣区域的提取方法、装置、电子设备及存储介质

Info

Publication number: CN111767920B
Application number: CN202010611283.9A
Authority: CN
Inventors: 常炎隆
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2023-07-28
Anticipated expiration: 2040-06-30
Also published as: CN111767920A

Abstract

本申请公开了感兴趣区域的提取方法、装置、电子设备及存储介质，涉及图像处理领域。具体实现方案为：预处理步骤，针对视频帧图像进行二值化处理，得到第一图像；分割步骤，利用分水岭算法将第一图像分割为前景图像和后景图像，得到前后景分割图像；提取步骤，对前后景分割图像进行膨胀处理，在膨胀处理后的图像上标记从视频帧图像中提取的感兴趣区域。本申请实施例能够从视频帧图像中提取出更加准确的感兴趣区域，提升了视频主观评价。在恒定平均码率的情况下，提升了视频图像的质量。

Description

感兴趣区域的提取方法、装置、电子设备及存储介质

技术领域

本申请可应用于计算机技术领域，尤其是图像处理领域。

背景技术

在机器视觉、图像处理领域中，在被处理的图像中以方框、圆、椭圆、不规则多边形等方式勾勒出需要处理的区域，称为ROI(Region of Interest，感兴趣区域)。现有技术中的感兴趣区域的提取方法存在感兴趣区域提取的精确度不够、视频图像的质量不够理想的缺陷，尤其是图像的细节特征表现得不够理想。

发明内容

本申请提供了一种用于感兴趣区域的提取方法、装置、设备以及存储介质。

根据本申请的第一方面，提供了一种感兴趣区域的提取方法，包括：

预处理步骤，针对视频帧图像进行二值化处理，得到第一图像；

分割步骤，利用分水岭算法将第一图像分割为前景图像和后景图像，得到前后景分割图像；

提取步骤，对前后景分割图像进行膨胀处理，在膨胀处理后的图像上标记从视频帧图像中提取的感兴趣区域。

根据本申请的第二方面，提供了一种感兴趣区域的提取装置，包括：

预处理单元，用于针对视频帧图像进行二值化处理，得到第一图像；

分割单元，用于利用分水岭算法将第一图像分割为前景图像和后景图像，得到前后景分割图像；

提取单元，用于对前后景分割图像进行膨胀处理，在膨胀处理后的图像上标记从视频帧图像中提取的感兴趣区域。

根据本申请的第三方面，提供了一种电子设备，包括：

至少一个处理器；以及

与至少一个处理器通信连接的存储器；其中，

存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本申请任意一项实施例所提供的方法。

根据本申请的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使该计算机执行本申请任意一项实施例所提供的方法。

上述申请中的一个实施例具有如下优点或有益效果：能够从视频帧中提取出更加准确的感兴趣区域，提升了视频主观评价。在恒定平均码率的情况下，提升了视频图像的质量。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请一实施例的感兴趣区域的提取方法的流程图；

图2是根据本申请另一实施例的感兴趣区域的提取方法的预处理步骤的流程图；

图3是根据本申请另一实施例的感兴趣区域的提取方法的流程图；

图4是根据本申请另一实施例的感兴趣区域的提取方法的二值化的效果图；

图5是根据本申请另一实施例的感兴趣区域的提取方法的开运算的效果图；

图6是根据本申请另一实施例的感兴趣区域的提取方法的分割步骤的流程图；

图7是根据本申请另一实施例的感兴趣区域的提取方法的距离变换之后的效果图；

图8是根据本申请另一实施例的感兴趣区域的提取方法的第二图像的效果图；

图9是根据本申请另一实施例的感兴趣区域的提取方法的轮廓图像效果图；

图10是根据本申请另一实施例的感兴趣区域的提取方法的提取步骤的流程图；

图11是根据本申请另一实施例的感兴趣区域的提取方法的区域调整的流程图；

图12是根据本申请另一实施例的感兴趣区域的提取方法的锐化操作的效果图；

图13是根据本申请另一实施例的感兴趣区域的提取方法的ROI提取结果的效果图；

图14是根据本申请另一实施例的感兴趣区域的提取方法的最终编码效果图；

图15是根据本申请另一实施例的感兴趣区域的提取方法的视频编码流程图；

图16是根据本申请一实施例的感兴趣区域的提取装置的示意图；

图17是根据本申请另一实施例的感兴趣区域的提取装置的示意图；

图18是根据本申请另一实施例的感兴趣区域的提取装置的示意图；

图19是根据本申请另一实施例的感兴趣区域的提取装置的提取单元的示意图；

图20是用来实现本申请实施例的文档标题树的构建方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本申请一实施例的感兴趣区域的提取方法的流程图。参见图1，该感兴趣区域的提取方法包括：

预处理步骤S110，针对视频帧图像进行二值化处理，得到第一图像；

分割步骤S120，利用分水岭算法将第一图像分割为前景图像和后景图像，得到前后景分割图像；

提取步骤S130，对前后景分割图像进行膨胀处理，在膨胀处理后的图像上标记从视频帧图像中提取的感兴趣区域。

视频是连续的图像序列，由连续的帧构成。视频中的每一帧图像称为视频帧图像(可以简称视频帧)。由于人眼的视觉暂留效应，当视频帧序列以一定的速率播放时，人眼看到的就是动作连续的视频。视频编码是压缩和改变视频内容格式的过程。视频编码方式包括通过压缩技术，将原始视频格式的文件转换成另一种视频格式文件的方式。由于压缩减少了视频传输所需的带宽，经过视频编码之后在互联网上传输视频会变得更加容易，同时提供了高质量的视频体验。

在传统的视频编码方式的基础上，可在视频编码过程中增加ROI提取步骤，提取视频的每一帧图像的ROI区域。然后对ROI区域进行QP(Quantization Parameter，量化参数)调整，来提高ROI区域的编码质量。可采用本申请实施例提供的感兴趣区域的提取方法提取视频的每一帧图像的ROI区域。

本申请实施例的感兴趣区域的提取方法中，通过二值化处理、分水岭算法的分割处理和膨胀处理，能够从视频帧中提取出更加准确的感兴趣区域，提升了视频主观评价。在恒定平均码率的情况下，提升了视频图像的质量。

图2是根据本申请另一实施例的感兴趣区域的提取方法的预处理步骤的流程图。如图2所示，在一种实施方式中，图1中的预处理步骤S110具体可包括：

步骤S210，将视频帧图像转换成灰度图像；

步骤S220，利用大津算法对灰度图像进行二值化处理；

步骤S230，对二值化处理后的图像进行开运算，得到第一图像。

图3是根据本申请另一实施例的感兴趣区域的提取方法的流程图。参见图1至图3，图2中的步骤S210，将视频帧图像转换成灰度图像，具体可包括图3中的步骤1.1和步骤1.2。在步骤1.1中，读取当前视频帧图像的RGB图像。其中，RGB代表红、绿、蓝三个通道的颜色。RGB色彩模式通过对红(R)、绿(G)、蓝(B)三个颜色通道的变化以及它们相互之间的叠加来得到各式各样的颜色。在步骤1.2中，将当前视频帧图像的RGB图像转换成灰度图像。可采用以下公式将RGB图像转换成灰度图像：

Gray＝R*0.299+G*0.587+B*0.114

其中，Gray表示灰度值。将RGB图像中的表示像素点颜色的红(R)、绿(G)、蓝(B)三个值代入以上公式，得到该像素点转化成灰度图像后对应的灰度值Gray。

图2中的步骤S220，具体可包括图3中的步骤1.3。在步骤1.3中，利用OTSU(大津算法)对灰度图像进行二值化(binary threshold)处理。其中，OTSU又称最大类间方差法。利用最大类间方差法可按图像的灰度特性，将图像分成背景和目标两部分。在背景和目标之间的类间方差越大的情况下，构成图像的背景和目标两部分的差别越大。因此，类间方差最大的分割方式对应的图像的错分概率是最小的。

图2中的步骤S230，具体可包括图3中的步骤1.4。在步骤1.4中，对二值化处理后的图像进行开运算(Opening)。

在数学形态学中，开运算可以包括先腐蚀后膨胀。以下为开运算公式：

其中，A表示目标图像，B表示结构元素，和/>分别表示腐蚀和膨胀。以上公式表示利用结构元素B对目标图像A进行腐蚀处理和膨胀处理。腐蚀处理的作用是噪点消除，膨胀处理的作用是使前景图像回到原来的尺寸。

从步骤1.1至步骤1.4是提取方法流程的第一阶段。经过第一阶段得到开运算之后的二值化图像，即第一图像。

图4是根据本申请另一实施例的感兴趣区域的提取方法的二值化的效果图。图4中的左图是待提取的视频帧图像。图4中的右图是将视频帧图像经过转换成灰度图像和二值化处理之后得到的图像。从图4中的右图中可以看出，二值化处理之后得到的图像中是有噪点的。

图5是根据本申请另一实施例的感兴趣区域的提取方法的开运算的效果图。图5中的左图是将二值化处理之后得到的图像经过腐蚀处理之后得到的图像。从图5中的左图中可以看出，图像中的噪点被消除了。图5中的右图是经过膨胀处理之后得到的图像，也就是第一图像。从图5中的右图中可以看出，膨胀处理的作用是使前景图像回到原来的尺寸。

本申请实施例中，通过开运算消除了二值化处理之后的图像中的噪点，并且使前景图像回到原来的尺寸，通过预处理步骤得到稳定的二值分割图像，使得在后续处理步骤中能够保证ROI提取精度。

图6是根据本申请另一实施例的感兴趣区域的提取方法的分割步骤的流程图。如图4所示，在一种实施方式中，图1中的分割步骤S120具体可包括：

步骤S310，将第一图像进行距离变换；

步骤S320，将距离变换后的图像进行二值化处理，得到第二图像；

步骤S330，将第一图像与第二图像的灰度值相减，得到轮廓图像，轮廓图像中包括视频帧图像中的前景区域的轮廓；

步骤S340，将轮廓图像中的连通区域进行标记，连通区域包括像素值相同且相互连通的像素点；

步骤S350，将标记连通区域后的轮廓图像作为分水岭算法的输入图像，利用分水岭算法得到前后景分割图像。

参见图1至图6，图6中的步骤S310，将第一图像进行距离变换，具体可包括图3中的步骤2.1。在步骤2.1中，距离变换的作用是找到图像前景区域的核心点。图7是根据本申请另一实施例的感兴趣区域的提取方法的距离变换之后的效果图。由图7可以看出，越接近前景区域的核心点的位置对应的图像亮度越大，越远离前景区域的核心点的位置对应的图像亮度越小。因此，通过距离变换可以找到图像前景区域的核心点。

图6中的步骤S320，将距离变换后的图像进行二值化处理，具体可包括图3中的步骤2.2。在步骤2.2中，二值化处理可使用OTSU或Kittle算法。由于距离变换后的图像中像素点的灰度值有多个不同取值，该图像不再是二值化图像，因此需要再一次进行二值化处理。再一次进行二值化处理之后，得到第二图像。图8是根据本申请另一实施例的感兴趣区域的提取方法的第二图像的效果图。

图6中的步骤S330，将第一图像与第二图像的灰度值相减，具体可包括图3中的步骤2.3。在步骤2.3中进行前后景相减运算(subtract)。第一图像是开运算之后得到的图像，也就是图5中的右图。将第一图像的灰度值与第二图像的灰度值相减，获取第一阶段所得到的图像的轮廓图像。图9是根据本申请另一实施例的感兴趣区域的提取方法的轮廓图像效果图。可见轮廓图像中包括视频帧图像中的前景区域的轮廓，且相减运算后得到的轮廓图像的边缘是白色(灰度值255)。

图6中的步骤S340，将轮廓图像中的连通区域进行标记，具体可包括图3中的步骤2.4。在步骤2.4中，对连通区域进行标记。连通区域包括像素值相同且相互连通的像素点。一个示例性的标记方法可包括以下步骤：

1)扫描第二图像的每个像素点，将像素值相同的并且相互连通的像素点分为相同的组(group)，得到像素连通组件。扫描结束最终得到图像中所有的像素连通组件。例如，在轮廓图像中共标记了38个连通区域，对应的38个像素连通组件可表示如下：

[0，1，2，3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，19，20，21，22，23，24，25，26，27，28，29，30，31，34，36，32，33，35，37]

2)针对步骤1)中得到的连通组件，先对所有标记的连通区域内的像素点的颜色值都做+1处理。由于后续步骤中的分水岭算法要求输入图像的所有像素点的灰度值都大于1，因此需要先对所有标记的连通区域颜色都做+1处理。然后将轮廓图像中ColorValue(颜色值)等于255(白色)的像素点的像素置为0。由于在上述相减运算后得到的轮廓图像的边缘是白色(255)，因此这一步骤的主要作用是将轮廓设置为格栅，限定分水岭算法对格栅内的图像进行处理。

图6中的步骤S350，具体可包括图3中的步骤2.5。在步骤2.5中，将经过上述步骤标记后的图像作为分水岭算法(watershed)的输入图像，利用分水岭算法对输入图像进行分割。在分水岭算法中，将ColorValue>1的像素点确认为前景，将ColorValue＝1的像素点认为是未知区域。

分水岭算法是一种基于拓扑理论的数学形态学的分割方法。其基本思想是把图像看作是测地学上的拓扑地貌，图像中每一点像素的灰度值表示该点的海拔高度，每一个局部极小值及其影响区域称为集水盆，而集水盆的边界则形成分水岭。分水岭的概念和形成可以通过模拟浸入过程来说明。在每一个局部极小值表面，刺穿一个小孔，然后把整个模型慢慢浸入水中。随着浸入的加深，每一个局部极小值的影响域慢慢向外扩展，在两个集水盆汇合处构筑大坝，即形成分水岭。分水岭变换得到的是输入图像的集水盆图像，集水盆之间的边界点，即为分水岭。

分水岭算法对微弱边缘具有良好的响应。另外，分水岭算法所得到的封闭的集水盆，为分析图像的区域特征提供了可能。利用分水岭算法将图像准确地分割为前景图像和后景图像，使得在后续的提取步骤中能够提取到更加准确的ROI区域。

从步骤2.1至步骤2.5是提取方法流程的第二阶段。经过第二阶段，将第一图像分割为前景图像和后景图像，得到前后景分割图像。

图10是根据本申请另一实施例的感兴趣区域的提取方法的提取步骤的流程图。如图10所示，在一种实施方式中，图1中的提取步骤S130具体可包括：

步骤S410，将前后景分割图像中的后景图像进行置白操作，并且将前后景分割图像中的前景图像进行置黑操作，得到硬分割图像；

步骤S420，对硬分割图像进行膨胀处理；

步骤S430，在膨胀处理后的图像上进行标记，得到前景目标标记矩阵；

步骤S440，将前景目标标记矩阵进行规范化处理；

步骤S450，将规范化处理后的前景目标标记矩阵所标记的矩形区域作为从视频帧图像中提取的感兴趣区域。

参见图1至图10，图10中的步骤S410，具体可包括图3中的步骤3.1。在步骤3.1中，将第二阶段得到的前后景分割图像进行前后景分割处理，得到硬分割图像。例如，具体操作可包括：将后景图像全部置白，像素置为255；将前景图像全部置黑，像素置为0。

图10中的步骤S420，对硬分割图像进行膨胀处理，具体可包括图3中的步骤3.2和步骤3.3。分水岭算法可能使图像中出现小碎片，例如图像中的人的鞋子和腿可能有距离，鞋子和腿可能被划分为两个矩形。在步骤3.2中，通过膨胀处理(Dilate)可以使两个矩形之间的空白被填平，达到粘合前景空隙的效果。这一步骤是对最终的提取结果中的图像做预处理，使得最终输出的图像视觉效果更好。

在步骤3.3中，对图像四周进行前景填充膨胀处理。图像四周包括图像边缘，也就是与图像的上下左右四条边接近的区域。在步骤3.3中针对位于图像四周的前景区域的边缘做颜色填充。颜色填充的方式可包括轮廓描边。例如在前景区域的边缘绘制宽度为5像素的线条。通过轮廓描边处理可防止后续步骤中绘制矩形检测框时无法识别检测。

图10中的步骤S430，在膨胀处理后的图像上进行标记，具体可包括图3中的步骤3.4。在步骤3.4中，对图像中的前景物体进行标记。标记的方法可包括：遍历前景图像中的所有轮廓，绘制每个轮廓的最小矩阵。前景图像中的所有轮廓的最小矩阵构成前景目标标记矩阵。目标标记矩阵也称为ROI矩阵。可用目标标记矩阵来表示感兴趣区域的提取结果。ROI矩阵可以是一个矩形数组，用矩形的左上角的x坐标、y坐标以及矩形的长和宽来表示图像的矩形位置。

为了得到更加精确的提取结果，可在步骤S440中进一步将前景目标标记矩阵进行规范化处理。然后在步骤S450中将规范化处理后的前景目标标记矩阵所标记的矩形区域作为从视频帧图像中提取的感兴趣区域。

本申请实施例中，在分水岭算法之后通过膨胀运算处理，可以达到粘合前景空隙、提高识别精度的效果。经过通过膨胀运算处理可更加准确地标记出前景目标，使得最终产出的图像视觉效果更好。

在一种实施方式中，图10中的步骤S440，将前景目标标记矩阵进行规范化处理，包括在满足以下条件的至少之一的情况下，将前景目标标记矩阵去除：

前景目标标记矩阵所标记的矩形区域小于等于预设的第二区域阈值；

前景目标标记矩阵所标记的矩形区域的高度和宽度的比例小于等于预设的比例阈值。

图10中的步骤S440，具体可包括图3中的步骤3.5。在步骤3.5中，清晰不规范前景目标标记矩阵。具体可包括将目标太小、高度较小宽度较大的矩阵去掉。

从步骤3.1至步骤3.5是提取方法流程的第三阶段。经过第三阶段，标记了从视频帧图像中提取的感兴趣区域。

本申请实施例中，通过对前景目标标记矩阵规范化处理，去除掉目标太小、目标尺寸不符合预期的前景目标标记矩阵，使得前景目标标记得更加准确。

图11是根据本申请另一实施例的感兴趣区域的提取方法的区域调整的流程图。如图11所示，在一种实施方式中，在图1中的提取步骤S130之后，上述方法还包括：

步骤S510，判断当前标记的第一感兴趣区域是否大于等于预设区域阈值；

步骤S520，在第一感兴趣区域大于等于预设区域阈值的情况下，利用卷积核矩阵对第一感兴趣区域的图像进行锐化操作；针对锐化操作后的图像，重新执行预处理步骤、分割步骤和提取步骤，以标记由第一感兴趣区域缩小得到的第二感兴趣区域；

步骤S530，将卷积核矩阵增强；

步骤S540，将第二感兴趣区域作为新的第一感兴趣区域，返回执行判断的步骤S510。

在这种实施方式中，判断当前标记的第一感兴趣区域是否过大，如果过大，例如第一感兴趣区域占据了整个视频帧图像的一半或者一多半，则利用卷积核矩阵对图像进行锐化操作。针对锐化操作后的图像，再重新执行图1中的预处理步骤、分割步骤和提取步骤，得到比第一感兴趣区域更小的第二感兴趣区域。然后将第二感兴趣区域作为新的第一感兴趣区域，再返回执行判断当前标记的新的第一感兴趣区域是否过大的步骤。如果新的第一感兴趣区域还是过大，利用增强的卷积核矩阵对图像进行锐化操作，针对锐化操作后的图像，再重新执行图1中的预处理步骤、分割步骤和提取步骤，提取更小的感兴趣区域。直到感兴趣区域的大小合理为止。

本申请实施例中，在标记区域过大的情况下，重复执行ROI提取流程，通过增强卷积核提取更小的标记区域，使得最终的ROI提取结果更加精确。

在一种实施方式中，上述方法还包括步骤S550，在第一感兴趣区域小于预设区域阈值的情况下，将第一感兴趣区域作为针对视频帧图像的提取结果。

以下是利用第一次卷积核矩阵、第二次增强的卷积核矩阵进行锐化的示例：

第一次卷积核矩阵为：

[-1,-1,-1],

[-1,9,-1],

[-1,-1,-1]

若利用第一次卷积核矩阵经过第一次锐化后的感兴趣区域仍然过大，则再利用以下第二次增强的卷积核矩阵对图像进行锐化：

[-2,-2,-2],

[-2,17,-2],

[-2,-2,-2]

以此类推，直到感兴趣区域的大小合理为止。

再参见图3，在步骤4.1中，首先判断第三阶段标记的感兴趣区域是否过大。若是，如果已经经过的锐化操作，则需要增强卷积核矩阵以进一步提取更小的标记区域。在步骤4.2中，以增强之后卷积核矩阵中的元素的值新建一个卷积核矩阵。在步骤4.3中利用增强的卷积核矩阵对图像进行锐化处理。在步骤4.4中重新执行从步骤1.1至步骤3.5的提取方法流程之后，再返回步骤4.1中的判断步骤。若在步骤4.1中判断为否，则转向执行步骤4.5，将当前的前景目标标记矩阵作为最终提取的ROI矩阵。其中，若在步骤4.1中判断为否，则转向执行步骤4.5这一过程在图3中未示出。图3中的步骤4.1至步骤4.5是提取方法流程的第四阶段。经过第四阶段，调整了标记的感兴趣区域。

本申请实施例中，通过与区域阈值的比较，最终确定目标尺寸符合预期的前景目标标记矩阵，使得从视频帧中提取出更加准确的感兴趣区域。

图12是根据本申请另一实施例的感兴趣区域的提取方法的锐化操作的效果图。图12中的左图是利用上述第一次卷积核矩阵处理后得到的图像效果，图12中的右图是利用上述第二次增强的卷积核矩阵处理后得到的图像效果。对比左图和右图的效果可以看出，右图中的花瓣纹理更细腻，轮廓更清晰，视觉效果更好。

图13是根据本申请另一实施例的感兴趣区域的提取方法的ROI提取结果的效果图。图13中提取出的ROI由多个矩形区域组成。可用ROI矩阵表示ROI中包含的多个矩形区域。ROI矩阵可以是一个矩形数组，用矩形的左上角的x坐标、y坐标以及矩形的长和宽来表示图像的矩形位置。

图14是根据本申请另一实施例的感兴趣区域的提取方法的最终编码效果图。图14中的左图为现有技术的编码效果图，图14中的右图为本申请实施例的编码效果图。可以根据图14中的左图中标记的矩形矩阵对比左图和右图中的效果差距。通过观察包含人的耳朵的矩形区域，可看出两图相比之下右图的耳朵和耳洞的轮廓更清晰。通过观察包含人的右手的矩形区域，可看出左图的图像中存在拉丝效果，右图的图像更加清晰。通过观察包含人的左手的矩形区域，可看出两图相比之下右图的左手的皱纹的纹理表现得更细腻。通过观察包含人的背部的矩形区域，可看出两图相比之下右图的背部的图像更真实地表现出皮肤的光泽，图像效果更好。在一种实施方式中，上述方法还包括：

将从视频帧图像中提取的感兴趣区域的量化参数调小，将视频帧图像中除感兴趣区域之外区域的量化参数调大。

图15是根据本申请另一实施例的感兴趣区域的提取方法的视频编码流程图。如图15所示，一个示例性的视频编码流程可包括以下步骤：

(1)加在输入源。输入源中可包括图像和视音频。图像的格式可包括Jpg格式或Png格式等。

(2)进行全局的编码配置。配置信息可包括码率、分辨率、编码协议、帧率和B帧数中的至少一项。

(3)对每一帧图像，提取识别前景目标为ROI区域。采用CV(Computer Version，计算机视觉)方法识别，具体提取识别方法可参见图1至图14中的示例描述，在此不再赘述。

(4)将图像中ROI区域的QP调小。

(5)将图像中非ROI区域的QP调大。

(6)利用X264/X265标准进行视频编码。

(7)输出媒体文件。

与现有技术比较，本申请实施例的感兴趣区域的提取方法有以下明显的优势：

1)利用从视频中的每一帧图像中提取特定的ROI区域来进行调整编码，达到了帧、像素级别的质量控制。

2)在恒定平均码率的情况下，提升了视频图像的质量，并且不会增加带宽和文件大小。在同等视频图像质量的条件下，本申请实施例编码产出的视频大小更小，在直播场景中占用的带宽更低，成本更少。

3)人眼主观上更多地观察前景目标，并且视频的主要展现内容为前景物体，如汽车、人、飞机等。利用本申请实施例的ROI提取算法可增强主观关注特征，抑制非关注特征，提升视频主观评价。

4)本申请实施例的ROI提取算法是一种属于CV概念的方法，不依赖任何机器学习模型完成，更加轻量化，性能更高。在各种极端平台条件下部署简单、不需要庞大的模型文件支持，速度也更快。

参考图16，本申请实施例提供一种感兴趣区域的提取装置，包括：

预处理单元100，用于针对视频帧图像进行二值化处理，得到第一图像；

分割单元200，用于利用分水岭算法将第一图像分割为前景图像和后景图像，得到前后景分割图像；

提取单元300，用于对前后景分割图像进行膨胀处理，在膨胀处理后的图像上标记从视频帧图像中提取的感兴趣区域。

参考图17，在其他一些实施方式中，上述装置还包括区域调整单元400，区域调整单元400用于：

判断当前标记的第一感兴趣区域是否大于等于预设区域阈值；

在第一感兴趣区域大于等于预设区域阈值的情况下，利用卷积核矩阵对第一感兴趣区域的图像进行锐化操作；针对锐化操作后的图像，重新执行预处理步骤、分割步骤和提取步骤，以标记由第一感兴趣区域缩小得到的第二感兴趣区域；

将卷积核矩阵增强；

将第二感兴趣区域作为新的第一感兴趣区域，返回执行判断的步骤。

在其他一些实施方式中，区域调整单元400还用于：在第一感兴趣区域小于预设区域阈值的情况下，将第一感兴趣区域作为针对视频帧图像的提取结果。

参考图18，在其他一些实施方式中，上述装置还包括参数调整单元500，参数调整单元500用于：

在其他一些实施方式中，预处理单元100具体用于：

将视频帧图像转换成灰度图像；

利用大津算法对灰度图像进行二值化处理；

对二值化处理后的图像进行开运算，得到第一图像。

在其他一些实施方式中，分割单元200具体用于：

将第一图像进行距离变换；

将距离变换后的图像进行二值化处理，得到第二图像；

将第一图像与第二图像的灰度值相减，得到轮廓图像，轮廓图像中包括视频帧图像中的前景区域的轮廓；

将轮廓图像中的连通区域进行标记，连通区域包括像素值相同且相互连通的像素点；

将标记连通区域后的轮廓图像作为分水岭算法的输入图像，利用分水岭算法得到前后景分割图像。

参考图19，在其他一些实施方式中，提取单元300包括：

硬分割子单元310，用于将前后景分割图像中的后景图像进行置白操作，并且将前后景分割图像中的前景图像进行置黑操作，得到硬分割图像；

膨胀处理子单元320，用于对硬分割图像进行膨胀处理；

标记子单元330，用于在膨胀处理后的图像上进行标记，得到前景目标标记矩阵；

规范化处理子单元340，用于将前景目标标记矩阵进行规范化处理；

提取子单元350，用于将规范化处理后的前景目标标记矩阵所标记的矩形区域作为从视频帧图像中提取的感兴趣区域。

在其他一些实施方式中，规范化处理子单元340具体用于在满足以下条件的至少之一的情况下，将前景目标标记矩阵去除：

本发明实施例各装置中的各模块的功能可以参见上述方法中的对应描述，在此不再赘述。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图20所示，是根据本申请实施例的感兴趣区域的提取方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图20所示，该电子设备包括：一个或多个处理器801、存储器802，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图20中以一个处理器801为例。

存储器802即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的感兴趣区域的提取方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的感兴趣区域的提取方法。

存储器802作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的感兴趣区域的提取方法对应的程序指令/模块(例如，附图16所示的预处理单元100、分割单元200和提取单元300，附图17所示的区域调整单元400，附图18所示的参数调整单元500，或者附图19所示的硬分割子单元310、膨胀处理子单元320、标记子单元330、规范化处理子单元340和提取子单元350)。处理器801通过运行存储在存储器802中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的感兴趣区域的提取方法。

存储器802可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据感兴趣区域的提取电子设备的使用所创建的数据等。此外，存储器802可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器802可选包括相对于处理器801远程设置的存储器，这些远程存储器可以通过网络连接至感兴趣区域的提取的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

感兴趣区域的提取方法的电子设备还可以包括：输入装置803和输出装置804。处理器801、存储器802、输入装置803和输出装置804可以通过总线或者其他方式连接，图8中以通过总线连接为例。

输入装置803可接收输入的数字或字符信息，以及产生与感兴趣区域的提取的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置804可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与虚拟专用服务器(VPS)服务中，存在的管理难度大，业务扩展性弱的缺陷。

本申请实施例能够从视频帧中提取出更加准确的感兴趣区域，提升了视频主观评价。在恒定平均码率的情况下，提升了视频图像的质量。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种感兴趣区域的提取方法，包括：

分割步骤，利用分水岭算法将所述第一图像分割为前景图像和后景图像，得到前后景分割图像；

提取步骤，对所述前后景分割图像进行膨胀处理，在膨胀处理后的图像上标记从所述视频帧图像中提取的感兴趣区域；

所述方法，还包括：

在所述第一感兴趣区域大于等于预设区域阈值的情况下，利用卷积核矩阵对所述第一感兴趣区域的图像进行锐化操作；针对锐化操作后的图像，重新执行所述预处理步骤、所述分割步骤和所述提取步骤，以标记由第一感兴趣区域缩小得到的第二感兴趣区域；将卷积核矩阵增强；将所述第二感兴趣区域作为新的第一感兴趣区域，返回执行所述判断的步骤；

在所述第一感兴趣区域小于预设区域阈值的情况下，将所述第一感兴趣区域作为针对所述视频帧图像的提取结果；

所述方法还包括：

将从所述视频帧图像中提取的感兴趣区域的量化参数调小，将所述视频帧图像中除感兴趣区域之外区域的量化参数调大。

2.根据权利要求1所述的方法，所述预处理步骤具体包括：

将所述视频帧图像转换成灰度图像；

利用大津算法对所述灰度图像进行二值化处理；

对二值化处理后的图像进行开运算，得到所述第一图像。

3.根据权利要求1所述的方法，所述分割步骤具体包括：

将所述第一图像进行距离变换；

将距离变换后的图像进行二值化处理，得到第二图像；

将所述第一图像与所述第二图像的灰度值相减，得到轮廓图像，所述轮廓图像中包括所述视频帧图像中的前景区域的轮廓；

将所述轮廓图像中的连通区域进行标记，所述连通区域包括像素值相同且相互连通的像素点；

4.根据权利要求1所述的方法，所述提取步骤包括：

将所述前后景分割图像中的后景图像进行置白操作，并且将所述前后景分割图像中的前景图像进行置黑操作，得到硬分割图像；

对所述硬分割图像进行膨胀处理；

在膨胀处理后的图像上进行标记，得到前景目标标记矩阵；

将所述前景目标标记矩阵进行规范化处理；

将规范化处理后的前景目标标记矩阵所标记的矩形区域作为从所述视频帧图像中提取的感兴趣区域。

5.根据权利要求4所述的方法，所述将所述前景目标标记矩阵进行规范化处理，包括在满足以下条件的至少之一的情况下，将所述前景目标标记矩阵去除：

所述前景目标标记矩阵所标记的矩形区域小于等于预设的第二区域阈值；

所述前景目标标记矩阵所标记的矩形区域的高度和宽度的比例小于等于预设的比例阈值。

6.一种感兴趣区域的提取装置，包括：

分割单元，用于利用分水岭算法将所述第一图像分割为前景图像和后景图像，得到前后景分割图像；

提取单元，用于对所述前后景分割图像进行膨胀处理，在膨胀处理后的图像上标记从所述视频帧图像中提取的感兴趣区域；

所述装置还包括区域调整单元，所述区域调整单元用于：

所述区域调整单元还用于：在所述第一感兴趣区域小于预设区域阈值的情况下，将所述第一感兴趣区域作为针对所述视频帧图像的提取结果；

所述装置还包括参数调整单元，所述参数调整单元用于：

7.根据权利要求6所述的装置，所述预处理单元具体用于：

将所述视频帧图像转换成灰度图像；

利用大津算法对所述灰度图像进行二值化处理；

对二值化处理后的图像进行开运算，得到所述第一图像。

8.根据权利要求6所述的装置，所述分割单元具体用于：

将所述第一图像进行距离变换；

将距离变换后的图像进行二值化处理，得到第二图像；

9.根据权利要求6所述的装置，所述提取单元包括：

硬分割子单元，用于将所述前后景分割图像中的后景图像进行置白操作，并且将所述前后景分割图像中的前景图像进行置黑操作，得到硬分割图像；

膨胀处理子单元，用于对所述硬分割图像进行膨胀处理；

标记子单元，用于在膨胀处理后的图像上进行标记，得到前景目标标记矩阵；

规范化处理子单元，用于将所述前景目标标记矩阵进行规范化处理；

提取子单元，用于将规范化处理后的前景目标标记矩阵所标记的矩形区域作为从所述视频帧图像中提取的感兴趣区域。

10.根据权利要求9所述的装置，所述规范化处理子单元具体用于在满足以下条件的至少之一的情况下，将所述前景目标标记矩阵去除：

11.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。

12.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-5中任一项所述的方法。