CN114782676B

CN114782676B - 一种视频感兴趣区域的提取方法和系统

Info

Publication number: CN114782676B
Application number: CN202210350590.5A
Authority: CN
Inventors: 陈祥; 王立冬; 金强; 李硕; 韩强; 赵宏伟; 张文东; 周骋
Original assignee: Beijing Radio And Television Station; Sumavision Technologies Co Ltd
Current assignee: Beijing Radio And Television Station; Sumavision Technologies Co Ltd
Priority date: 2022-04-02
Filing date: 2022-04-02
Publication date: 2023-01-06
Anticipated expiration: 2042-04-02
Also published as: CN114782676A

Abstract

本发明提供一种视频感兴趣区域的提取方法。对原始图像进行下采样，得到多通道低分辨率图像(步骤S1)。利用训练的卷积神经网络，从多通道低分辨率图像提取特征，得到多维初始特征图(步骤S2)。利用经过训练的卷积神经网络，对多维初始特征图进行特征提取和下采样得到分辨率呈比例缩小第一特征图至第n特征图(步骤S3)。将第一特征图至第n特征图的分辨率对齐后融合，得到融合特征图(步骤S4)。利用卷积层将融合特征图展开成一维向量，通过全连接层分类，得到矩形区域的坐标、长宽和概率值(步骤S5)。将概率值由大到小排序，选取规定个数概率值大的矩形区域作为识别的感兴趣区域ROI(步骤S6)。

Description

一种视频感兴趣区域的提取方法和系统

技术领域

本发明涉及图像中感兴趣区域的识别，尤其涉及视频感兴趣区域的识别方法和系统。

背景技术

随着视频编码技术以及网络传输的快速发展，超高清、高动态范围、高色域以及高流畅度的视频观看体验，对于编码性能与质量提出了更高需求。

由于终端呈现的视频画面信息量较以往更加庞大，观众会更倾向于人眼更敏感的平坦低频区域，或者是场景中更吸引“眼球”的区域，如电视剧、舞台晚会中的人脸表情、滚动的标识字幕以及电视台台标等元素；而对于时空域尺度内变化剧烈的场景，如高速运动的物体，纹理复杂的装饰，人眼往往都会“忽略”，所以对图像内容的准确理解将会是编码过程中提升质量、均衡码率分配的重要环节。

感知编码能够针对特定区域进行压缩和解压缩。其基于人眼视觉系统的特性，对不同视频信号失真的敏感程度不同，结合率失真模型消除视频压缩过程中的时空域冗余信息。目前普遍使用的率失真代价模型中包括了对视频信号失真度和压缩后比特数的衡量，即RDO率失真优化：

其中，RD代表率失真代价值(Rate Distortion)，它包括了将所有编码单元LCU的原始像素f与经预测重建后的像素值f_r之间的差值累加和，以及所消耗比特数R经拉格朗日因子λ作用后的权重。遍历预测方法、划分过程以及量化参数等编码工具时，比较不同工具组合的RD值，选择其中令该代价值最小的工具组合。尽管该模型能够较为全面地考虑了码率和失真程度对重建图像质量的影响，但与人眼主观体验的相关性较差。

基于空域纹理特征、时域运动的显著性计算对编码视频进行前处理，需要在压缩开始前获取重点关注区域位置，无法在视频播出时进行实时处理。

分析视频中观众感兴趣的区域，在编码时有针对性的分配码率，提升感兴趣区域的图像质量、对提高视频的观看效果有重要的意义。基于纹理特征、运动特征检测感兴趣区域，需要分析视频帧中的纹理特征和运动特征，对于同一视频帧中有人脸、台标、字幕等纹理特征、运动特征不相同的局部区域进行识别时，存在识别率低的问题，容易发生误检，而直接影响图像的编码效果，造成图像主观质量的急剧下降。

本发明的第一目的在于提供提出一种视频感兴趣区域的提取方法和系统，解决对视频帧中纹理特征、运动特征等不相同的局部区域进行识别时识别率低的问题。

第二目的在于提高对不同尺度的特征的提取能力。

第三目的在于提供适合视频编码用的感兴趣区域信息。

发明内容

为了解决上述问题，本发明的第一技术方案为一种视频感兴趣区域的提取系统，其特征在于包括，采样模块(1)、初始特征提取模块(2)、多阶段特征提取·下采样模块(3)、融合特征图生成模块(4)、检测模块(5)、输出模块(6)。

所述采样模块(1)，逐帧输入视频的原始图像，对所述原始图像进行下采样，得到低分辨率多通道图像；所述初始特征提取模块(2)由卷积神经网络构成，对输入的低分辨率多通道图像进行特征提取，得到多维初始特征图。

所述多阶段特征提取·下采样模块(3)，由多个串联的卷积神经网络构成，对输入的所述多维初始特征图多阶段地提取特征和下采样，得到分辨率逐渐降低的第一至第n特征图。

所述融合特征图生成模块(4)，对所述第n特征图上采样，与第n-1特征图的分辨率对齐后与第n-1特征图做相加操作(31a)，得到的特征图继续上采样，与第n-2特征图的分辨率对齐后与第n-2特征图做相加操作(31b)，重复对得到的特征图进行上采样和相加操作，直至与第一特征图融合，得到融合特征图。

所述检测模块(5)，由卷积神经网络构成，对输入的所述融合特征图进行分类，得到矩形区域的坐标值、长宽信息和概率值。所述输出模块(6)，将所述矩形区域的概率值由大到小排序，选取规定个数概率值大的矩形区域作为感兴趣区域(ROI)，输出其坐标值、长宽信息，所述神经网络中通过训练，获取检测感兴趣特征的权重。

因此，能够不受纹理特征、运动特征的影响，即使同一视频帧中具有人脸、台标、字幕等纹理特征、运动特征完全不相同的局部区域也能有效的进行识别。

并且，通过多阶段特征提取和下采样得到第一至第n特征图，重复将特征图上采样，与之前的特征图做相加操作，得到融合特征图。能够提取原始图像中不同尺度的特征，并在融合特征图中保留该特征的位置信息。因此能够识别出原始图像中不同尺度的特征，获取不同尺寸的感兴趣区域(ROI)信息。

作为一种实施方式，可以选择视频中的人脸、台标、字幕作为感兴趣特征，此时所述神经网络通过训练获取检测人脸、台标、字幕的权重。

作为一种实施方式，所述输出模块(6)输出的矩形的坐标值、长宽信息可以用于对所述视频进行编码时，确定所述矩形区域内的编码策略，此时，所述输出模块(6)，在输出所述矩形区域前，判断所述矩形区域在所述原始图像中覆盖的最大编码单元，有边界落在所述矩形区域外的最大编码单元时，调整所述矩形区域的坐标值、长宽信息，使所述矩形区域完整涵盖整个最大编码单元。

因此，能够提供适合视频编码用的感兴趣区域信息。

作为一种实施方式，所述初始特征提取模块(2)的神经网络可以包括，串联的第一卷积层(21)、第一非线性激活层(22)、第二卷积层(23)，所述低分辨率多通道图像输入所述第一卷积层(21)提取特征，提取的特征图输入所述第二卷积层(23)提取特征，第一卷积层(21)提取的特征图与第二卷积层(23)提取的特征图做相加操作(24)得到多维初始特征图。

由于第一卷积层(21)输出的特征图跳过第二卷积层(23)与第二卷积层(23)输出的特征图融合，因此，神经网络能够更好的进行训练和拟合。

作为一种实施方式，所述多阶段特征提取·下采样模块(3)，可以由三个串联的卷积神经网络(31)构成，对输入的所述多维初始特征图三阶段地提取特征和下采样，下采样的倍率为1/2，得到分辨率成整数倍降低的第一至第三特征图。

所述融合特征图生成模块(4)，对所述第三特征图上采样，与第二特征图的分辨率对齐后与第二特征图做相加操作(31a)，得到的特征图继续上采样，与第一特征图的分辨率对齐后与第一特征图做相加操作(31b)，得到融合特征图。

作为一种实施方式，所述检测模块(5)的卷积神经网络可以包括卷积层(51)、全连接层(52)，由所述卷积层(51)将所述融合特征图展开成一维向量，所述全连接层(52)对所述一维向量进行分类，得到疑似感兴趣区域的坐标值、长宽信息和概率值。

本发明的第二技术方案为一种视频感兴趣区域的提取方法，其特征在于，包括以下步骤，采样步骤(S1)，逐帧输入视频的原始图像，对所述原始图像进行下采样，得到低分辨率多通道图像。

初始特征提取步骤(S2)利用卷积神经网络，对输入的低分辨率多通道图像进行特征提取，得到多维初始特征图。多阶段特征提取·下采样步骤(S3)，利用多个串联的卷积神经网络，对输入的所述多维初始特征图多阶段地提取特征和下采样，得到分辨率逐渐降低的第一至第n特征图。

融合特征图生成步骤(S4)，对所述第n特征图上采样，与第n-1特征图的分辨率对齐后与第n-1特征图做相加操作(31a)，得到的特征图继续上采样，与第n-2特征图的分辨率对齐后与第n-2特征图做相加操作(31b)，重复对得到的特征图进行上采样和相加操作，直至与第一特征图融合，得到融合特征图。

检测步骤(S5)，利用卷积神经网络构成，对输入的所述融合特征图进行分类，得到矩形区域的坐标值、长宽信息和概率值。输出步骤(S6)，将所述矩形区域的概率值由大到小排序，选取规定个数概率值大的矩形区域作为感兴趣区域(ROI)，输出其坐标值、长宽信息。所述神经网络中通过训练，获取检测感兴趣特征的权重。

因此，与第一技术方案相同，能够不受纹理特征、运动特征的影响，即使同一视频帧中具有人脸、台标、字幕等纹理特征、运动特征完全不相同的局部区域也能有效的进行识别。

作为一种实施方式，所述输出步骤(S6)输出的矩形的坐标值、长宽信息用于对所述视频进行编码时，确定所述矩形区域内的编码策略。所述输出步骤(S6)，在输出所述矩形区域前，判断所述矩形区域在所述原始图像中覆盖的最大编码单元，有边界落在所述矩形区域外的最大编码单元时，调整所述矩形区域的坐标值、长宽信息，使所述矩形区域完整涵盖整个最大编码单元。

附图说明

图1为视频感兴趣区域提取系统的说明图；

图2为视频感兴趣区域提取方法的步骤说明图；

图3为初始特征提取模块的说明图；

图4为多阶段特征提取·下采样模块和融合特征图生成模块的说明图；

图5为图4中基础单元的说明图；

图6为检测模块的说明图；

图7为输出模块的说明图；

图8为视频感兴趣区域提取系统(具体实施例)的整体结构说明图；

图9为视频感兴趣区域提取系统(具体实施例)的具体结构说明图；

图10为提取感兴趣区域的说明图；

图11为感兴趣区域在原始图像中位置的说明图。

具体实施方式

下面结合附图对本发明的较佳实施例进行详细阐述，参考标号是指本发明中的组件、技术，以便本发明的优点和特征在适合的环境下实现能更易于被理解。下面的描述是对本发明权利要求的具体化，并且与权利要求相关的其它没有明确说明的具体实现也属于权利要求的范围。

随着8K超高清化电视节目的播出，对电视节目的制作以及传输产生了非常大的挑战。由于编解码需要的计算资源非常庞大，现有的处理器在处理时极易发送卡顿、掉帧等事故。在编码前对视频图像进行特征提取和场景识别分析，针对观众更容易关注的区域，如人脸、台标、字幕等局部区域进行识别，根据识别结果，为这些区域分配更多的比特数，不仅可以降低处理的计算资源，满足实时性需求，同时也可为用户提供更好的观看体验。

本发明，针对视频帧的原始图像，利用卷积神经网络识别观众感兴趣区域的位置，使视频编码能够设计出更合理的编码策略，提高观众关注区域的视频质量。

图1为视频感兴趣区域提取系统的说明图。

如图1所示，视频感兴趣区域的提取系统，包括以下模块，采样模块1，初始特征提取模块2、多阶段特征提取·下采样模块3、融合特征图生成模块、检测模块5、输出模块6。

采样模块1逐帧输入视频各视频帧的原始图像，进行下采样得到低分辨率多通道图像。

初始特征提取模块2由经过训练的卷积神经网络构成。低分辨率多通道图像输入初始特征提取模块2，进行特征提取，得到C*M*N维度的多维初始特征图，即得到C个通道，每个通道是M*N像素的特征图。

多阶段特征提取·下采样模块3，由多个串联的卷积神经网络构成，通过多个串联的卷积神经网络从多维初始特征图提取特征。即，通过第一神经网络提取特征，并下采样得到第一特征图，下采样的倍率为1/2。第一特征图输入第二个卷积神经网络，再次提取特征，并下采样得到第二特征图下采样的倍率同样为1/2。通过n个经过训练的卷积神经网络，重复提取特征和下采样得到第一至第n特征图，各个特征图的分辨率成比例缩小。因此，第一至第n特征图的各个特征图中，像素的感受野各不相同，原始图像中不同尺度的特征，被提取到不同的特征图。

融合特征图生成模块4，将第n特征图上采样与第n-1特征图的分辨率对齐后与第n-1特征图融合，得到的融合结果继续上采样后与第n-2特征图做相加操作，重复对特征图进行上采样和与之前的特征图做相加操作，直至与第一特征图融合，得到融合特征图，因此，融合特征图中融合了原始图像中不同尺度下的特征信息。第n特征图上采样与第n-1特征图的分辨率对齐包含分辨率相同，第n特征图中的像素在上采样后与第n-1特征图中对应的像素位于相同位置。融合特征图的像素数与第一特征图的像素相同。

作为下采样和上采样的倍率也可以选择其他倍率，例如1/4倍和4倍等。

检测模块5，由经过训练的卷积神经网络构成。例如利用卷积层将融合特征图展开成一维向量，通过全连接层分类，得到矩形区域的坐标值、长宽信息和概率值。

输出模块6，将检测模块5检测到的矩形区域作为疑似感兴趣区域，获取其坐标值、长宽信息和概率值，按概率值大小由大到小进行排序，选取规定个数概率值大的矩形区域作为识别到的感兴趣区域ROI，获取其坐标值、长宽信息，例如图11中的矩形区域b1的坐标值、长宽信息。

本实施方式中，感兴趣区域ROI的坐标、长宽信息用于对视频编码时，设定编码策略，例如为感兴趣区域ROI分配更多的比特数，与其他区域相比，提高感兴趣区域ROI的观看质量。

因此，输出模块6，在输出矩形区域前，判断矩形区域在原始图像中覆盖的最大编码单元，有边界落在矩形区域外的最大编码单元时，调整矩形区域的坐标值、长宽信息，使矩形区域完整涵盖整个最大编码单元。通过调整得到例如图11中的矩形区域b的坐标值、长宽信息，即，感兴趣区域ROI的坐标值、长宽信息。

图2为视频感兴趣区域提取方法的步骤说明图。如图2所示，视频感兴趣区域的提取方法，包括以下步骤：

采样步骤S1，逐帧输入视频帧，对视频帧的原始图像进行下采样，得到多通道低分辨率图像。例如逐帧输入8K视频的各视频帧，将R、G、B(Y、U、V)三个通道的原始图像下采样为三通道512*512像素的多通道低分辨率图像。这样相对于原始图像，多通道低分辨率图像在水平方向的分辨率缩小了15倍，即，多通道低分辨率图像中的像素在水平方向上具有原始图像15个像素的感受野。

采样步骤S1在提取原始图像的同时，通过下采样，过滤掉了细小的区域信息，使提取的感兴趣区域被限制在一定以上的尺度。下采样的倍率可以根据视频编码时最大编码单元设定。

初始特征提取步骤S2，将多通道低分辨率图像输入经过训练的卷积神经网络(例如输入初始特征提取模块2)，提取图像中的特征，得到C*M*N维度的多维初始特征图。即得到C个通道，每个通道是M*N像素的特征图，例如得到128通道512*512像素的多维初始特征图。

多阶段特征提取·下采样步骤S3，将多维初始特征图输入经过训练的卷积神经网络(例如输入多阶段特征提取·下采样模块3)，对多维初始特征图进行特征提取和下采样得到第一特征图，例如得到256*256像素的第一特征图。

对第一特征图再次进行特征提取和下采样，得到第二特征图，例如得到128*128像素的第二特征图。重复对得到的特征图进行特征提取和下采样，得到第一至第n特征图。下采样的倍率为1/2。各个特征图的分辨率呈比例缩小。

由于各个特征图的像素具有不同的感受野，原始图像中不同尺度的特征被不同的特征图提取。

融合特征图生成步骤S4，将第n特征图上采样与第n-1特征图的分辨率对齐后与第n-1特征图做相加操作，进行融合，得到的融合结果继续上采样后与第n-2特征图相加操作，进行融合，重复对特征图进行上采样和融合过程，直至与第一特征图融合，得到融合特征图，因此融合特征图中包含原始图像中不同尺度下的特征信息。

检测步骤S5，将融合特征图输入经过训练的卷积神经网络(例如输入检测模块5)，利用卷积层将融合特征图展开成一维向量，通过全连接层分类，得到矩形区域的坐标值、长宽信息和概率值。

输出步骤S6，将检测步骤S5检测到的矩形区域，作为疑似感兴趣区域获取矩形区域的坐标值、长宽信息，按概率值大小由大到小排序，选取规定个数概率值大的矩形区域作为识别的感兴趣区域ROI，获取其坐标值、长宽信息。

如果矩形区域在原始图像中覆盖的最大编码单元中，有边界落在矩形区域外的最大编码单元时，调整矩形区域的坐标值、长宽信息，使矩形区域完整涵盖整个最大编码单元，即，调整感兴趣区域ROI的坐标值、长宽信息，使其完整涵盖整个最大编码单元。

本发明利用经过训练的神经网络，从视频帧提取感兴趣区域ROI的信息，因此能够识别不同纹理特征、运动特征的局部区域，将其作为感兴趣区域ROI提取。即使视频帧中同时存在纹理特征、运动特征等不相同的局部区域也能正确地进行识别。尤其适用于针对感兴趣区域ROI采用有别于其他区域编码策略的编码。

由于预先将视频帧的原始图像进行下采样，降低其分辨率，过滤掉了不需要作为感兴趣区域提取的细小区域信息，并降低了后续处理的数据量(采样步骤S1)。

在多阶段特征提取和下采样(多阶段特征提取·下采样步骤S3)以及融合(融合特征图生成步骤S4)的阶段，得到分辨率成比例缩小的第一至第n特征图，并将第一至第n特征图融合成融合特征图。在融合时，将第n特征图2倍上采样，调整分辨率后与第n-1特征图融合，再将得到的融合结果继续2倍上采样，调整分辨率后与第n-2特征图融合，重复以上步骤直至与第一特征图融合，得到融合特征图。即，融合时，保证第一至第n特征图之间各像素的对应关系

因此，通过多阶段特征提取和下采样，融合特征图中包含了在原始图像中不同尺度的特征信息以及正确的位置信息。

例如从原始图像中提取人脸、台标或滚动字幕特征作为感兴趣区域时，通过训练神经网络系统使其能够识别人脸、台标或滚动字幕，获取权重。利用经过训练的神经网络系统就能从原始图像中提取不同尺度的人脸、台标或滚动字幕特征，而不受特征在原始图像中尺度大小的影响。即，不同尺度的人脸、台标或滚动字幕都作为特征提取到融合特征图中。

本发明中，通过多阶段的特征提取和下采样，生成多个不同分辨率的特征图不仅可以减少计算量，同时在融合特征图中综合了原始图像中不同尺度上的特征信息，可以不考虑原始图像中感兴趣区域的尺度大小进行提取，提高了识别准确度，因此在编码时不会因为感兴趣区域的大小发生变化，导致帧与帧之间，编码策略发生变化，造成同一特征在不同帧上的清晰度发生变化影响观看效果。

识别出感兴趣区域ROI之后，当感兴趣区域ROI的边界位于最大编码单元(例如64*64)内部时，即，感兴趣区域ROI的边界与最大编码单元的边界不重合时，修改矩形区域(感兴趣区域ROI)的坐标值、长宽，使感兴趣区域ROI完整覆盖编码单元。因此编码时，能够对原始图像中观众感兴趣的整个局部区域采用统一的编码策略，提高视频的观看效果。

以下对初始特征提取模块2、对阶段特征提取·下采样模块3、融合特征图生成模块4、检测模块5、输出模块6的具体结构进行说明。

图3为初始特征提取模块的说明图。

如图3所示，初始特征提取模块2，包括串联设置的第一卷积层21、第一非线性激活层22、第二卷积层23和输出层24。第一卷积层21和第二卷积23层可以包括多个串联的神经网络，用于从输入的低分辨率多通道图像提取多维特征。

采样模块1例如输入8K视频的原始图像，输出三通道(R、G、B)分辨率为512*512的低分辨率多通道图像。该低分辨率多通道图像输入初始特征提取模块2。

初始特征提取模块2中的第一卷积层21例如有64个5*5*3的卷积核，低分辨率多通道图像输入第一卷积层21，得到128通道的特征图，第二卷积层23例如有128个5*5*128的卷积核，输出128通道的特征图。在卷积计算过程中步长为1，并进行补0操作，保证第一卷积层21输出的特征图与第二卷积层23输出的特征图具有相同的分辨率。

第一非线性激活层22采用relu或leaky relu激活函数在网络中引入非线性特征，增加网络的可传播性。

第二卷积层24提取的特征图与低分辨率多通道图像通过相加操作24，形成分辨率为512*512，通道数为128的多维初始特征图。

由于第一卷积层21输出的特征图跳过第二卷积层23与第二卷积层23输出的特征图融合，使得神经网络能够更好的进行训练和拟合。

图4为多阶段特征提取·下采样模块和融合特征图生成模块的说明图。图5为图4中基础单元的说明图。

多阶段特征提取·下采样模块3由经过训练的神经网络构成。如图4所示，多阶段特征提取·下采样模块3由三个串联的基础单元(对应权利要求5中的卷积神经网络)31组成，基础单元31的具体结构如图5所示。首先对基础单元31进行说明。如图5所示，基础单元31包括串联的第三卷积层31a、第二非线性激活层31b、第四卷积层31c和池化层31d。

第三卷积层31a采用1*1*128(1*1为卷积核尺寸、128为输入通道数)的卷积核，输出通道为16，将通道数降低8倍，减少计算量。

第四卷积层31c采用3*3*16(3*3为卷积核尺寸、16为输入通道数)的卷积核，输出通道为128。通过第四卷积层31c提取特征的同时，通道数恢复成输入时128的状态。

第二非线性激活层31b采用relu或leaky relu激活函数在网络中引入非线性特征，以增加网络的可传播性。

第四卷积层31c提取的128通道的特征图经过池化层31d，作1/2下采样。池化层采用最大值池化操作或平均值池化操作。

返回图4进行说明，第一个基础单元31输入多维初始特征图，在提取特征的同时，经过下采样操作，得到第一特征图。第一特征图输入第二个基础单元31进行特征提取和下采样，得到第二特征图。同样，第二特征图输入第三个基础单元31进行特征提取和下采样，得到第三特征图。各个基础单元31分别按1/2倍率下采样。

因此，各个基础单元31得到的特征图的像素具有不同的感受野，提取出不同尺度特征的分布情况(越靠后的基础单元31提取的特征尺度越大)。

融合特征图生成模块4，将各个基础单元31提取的第一、第二、第三特征图融合为融合特征图，因此融合特征图中结合了由各个基础单元31提取的不同尺度的特征。在融合时为保证各个特征图的分辨率相同，将第三个基础单元31输出的第三特征图经过2倍上采样后，与第二个基础单元31输出的第二特征图做相加操作31a，相加的结果继续2倍上采样后，与第一个基础单元31输出的第一特征图做相加操作31b，得到融合特征图。

图6示出了检测模块的说明图。

如图6所示，检测模块5包括卷积层51和全连接层52。

卷积层51采用1*1*128的卷积核，输出通道为1000，得到一维向量。一维向量输入全连接层52，通过全连接层52分类，得到多个矩形区域的左上角坐标值(x，y),区域长宽(w,h)，以及该区域的概率值，共5个值。输出的长度以及通道数根据需要选择，例如有k个矩形区域，设置k*5的输出通道。通过卷积层将融合特征图展开成一维向量，通过全连接层得到矩形区域的坐标值以及长宽信息为现有技术，具体原理不再赘述。

图7示出了输出模块的说明图。如图7所示，输出模块6，由概率值排序模块61和坐标转换模块62构成，概率值排序模块61将检测模块5检测出来的矩形区域，即疑似感兴趣区域的概率值，从高到低排序，根据需要取规定数量矩形区域作为识别的感兴趣区域ROI，获得该感兴趣区域的信息，比如左上角坐标x、y，长宽W、H(参见图10中的b图)。

对视频进行编码的最大编码单元例如为64*64像素，坐标转换模块62按照视频编码时的最大编码单元，判断感兴趣区域ROI在原始图像中覆盖的最大编码单元，对于编码单元一部分落在感兴趣区域ROI边界外的，扩大该矩形区域的左上角坐标(x、y)以及长宽(W、H)，使获得的感兴趣区域ROI完整涵盖编码单元后。

为从原始图像中提取具有特定特征的局部区域作为感兴趣区域ROI，以上神经网络均通过训练，具有检测特定特征，即感兴趣特征的权重。

本发明中，通过对低分辨率多通道图像进行多阶段特征提取和下采样，得到分辨率成比例下降的多个特征图(第一特征图～第2特征图)，提取原始图像(视频帧)中不同尺度的特征。各个特征图通过上采样最终融合成融合特征图。将融合特征图展开成一维向量，通过全连接层分类，得到感兴趣区域ROI的坐标、长宽。与通过硬阈值检测相比，能保证感兴趣区域被识别到。并且获得的感兴趣区域ROI完整涵盖编码单元，在编码时，因此编码时，能够对原始图像中观众感兴趣的整个局部区域采用统一的编码策略，提高视频的观看效果。

以下通过具体实施例对本发明的技术方案进行说明。实施例中以纹理特征不同的人脸、台标、字幕作为特征(感兴趣特征)获得感兴趣区域ROI信息(位置信息)。

图8为视频感兴趣区域提取系统具体实施例的整体结构说明图。如图8所示，视频感兴趣区域提取系统包括：卷积神经网络系统100、ROI区域提取系统200。卷积神经网络系统100从视频的各帧原始图像80提取特征，形成融合不同尺度特征的融合特征图，ROI区域提取系统200从融合特征图提取人脸、台标、字幕特征，获得分别包括人脸、台标、字幕的感兴趣区域ROI的坐标以及长宽信息。ROI区域的坐标以及长宽信息通过附加操作300与原始图像80叠加后发送到未图示的编码器进行编码。

图9为视频感兴趣区域提取系统具体实施例的结构说明图。如图9所示，卷积神经网络系统100包括采样模块110、初始特征提取模块120、第一阶段特征提取模块130、第二阶段特征提取模块140、第三阶段特征提取模块140、第一阶段上采样模块160、第二阶段上采样模块170。

ROI区域提取系统200包括第一检测模块210、第二检测模块220、第三检测模块230、第一ROI区域输出模块211、第二ROI区域输出模块222、第三ROI区域输出模块233。

卷积神经网络系统100中的采样模块110、初始特征提取模块120分别对应于图1中采样模块1、初始特征提取模块2；第一阶段特征提取模块130、第二阶段特征提取模块140、第三阶段特征提取模块150对应于图4、5中的基础单元，其组合对应于图1中的多阶段特征提取·下采样模块3；第一阶段上采样模块160、第二阶段上采样模块170以及相加操作161、162的组合对应于图1中的融合特征图生成模块4。

ROI区域提取系统200中的第一检测模块210、第二检测模块220、第三检测模块230的组合对应于图1中的检测模块5；第一ROI区域输出模块211、第二ROI区域输出模块222、第三ROI区域输出模块233的组合对应于图1中的输出模块6。

各个模块的具体结构参照图3、4、5、6、7以及相关说明，此处不再赘述。

采样模块110逐帧输入8K视频的原始图像，进行下采样得到三通道，512*512的低分辨率多通道图像。

初始特征提取模块120对低分辨率多通道图像进行特征提取，得到通道数为128，512*512像素的多维初始特征图。

第一阶段特征提取模块130对输入的多维初始特征图、提取特征和下采样，得到第一特征图。第二阶段特征提取模块140对输入的第一特征图、提取特征和下采样，得到第二特征图。第三阶段特征提取模块150对第二特征图提取特征和下采样，得到第三特征图。

第一阶段特征提取模块130、第二阶段特征提取模块140、第三阶段特征提取模块150(基础单元31)如图5所示，采样两个卷积层和激活层、池化层的结构。其中第三卷积层31a采用1*1*128(1*1为卷积核尺寸、128为输入通道数)的卷积核，输出通道为16，将通道数降低8倍，减少计算量；第四卷积层31c采用5*5*16(5*5为卷积核尺寸、16为输入通道数)的卷积核，输出通道为128。通过第四卷积层31c提取特征的同时，通道数恢复成输入时128的状态。本实施方式中卷积计算时的移动量均为1。第二非线性激活层31b采用relu或leakyrelu激活函数。第四卷积层31c提取的128通道的特征图经过池化层31d，作1/2下采样。

第一阶段特征提取模块130、第二阶段特征提取模块140、第三阶段特征提取模块150分别输出256*256像素的第一特征图、128*128像素的第二特征图、64*64像素的第三特征图。三个特征图的通道数为128。

第三阶段特征提取模块150输出的第三特征图(64*64)，通过第一阶段上采样模块160上采样为128*128像素的特征图后与第二特征图(128*128像素)做相加操作161。相加操作的结果通过第二阶段上采样模块170上采样为256*256像素的特征图后与第一特征图(256*256像素)做相加操作171，得到128通道，256*256像素的融合特征图。

ROI区域提取系统200从融合特征图分别提取出与人脸部分对应的感兴趣区域，与台标部分部分对应的感兴趣区域，与字幕部分对应的感兴趣区域。具体如下：

第一检测模块210如图6所示，由串联的卷积层51和全连接层52构成。卷积层51采用1*1*128的卷积核，输出通道为1000。融合特征图输入卷积层51，将融合特征图展开成一维向量。全连接层52的权重用人脸训练得到，通过全连接层52分类，得到多个矩形区域，即疑似人脸区域的坐标值、长宽信息和概率值。

第一ROI区域输出模块211，将检测到的矩形区域的概率值由大到小排序，选取规定个数概率值大的矩形区域作为识别的ROI区域(感兴趣区域ROI)，获取其坐标值、长宽信息，并根据编码需要，修改感兴趣区域ROI的坐标和长宽，使感兴趣区域ROI完整涵盖最大编码单元。

第二检测模块220同样如图6所示，由串联的卷积层51和全连接层52构成。卷积层51采用1*1*128的卷积核，输出通道为1000。融合特征图输入卷积层51，将融合特征图展开成一维向量。全连接层52的权重用台标训练得到。通过全连接层52分类，得到与台标“BRTV”相关的矩形区域的坐标值、长宽信息和概率值。

第二ROI区域输出模块222，将检测到矩形区域的概率值由大到小排序，选取规定个数概率值大的矩形区域作为识别的ROI区域(感兴趣区域ROI)，获取其坐标值、长宽信息。并根据编码需要，修改感兴趣区域ROI的坐标和长宽，使感兴趣区域ROI完整涵盖最大编码单元。

第三检测模块230与第一检测模块210、第二检测模块220相同，由图6所示串联的卷积层51和全连接层52构成。卷积层51采用1*1*128的卷积核，输出通道为1000。融合特征图输入卷积层51，将融合特征图展开成一维向量。全连接层52的权重用标准字形的汉字、数字、英语字母训练得到，通过全连接层52分类，得到与“字幕”相关的矩形区域的坐标值、长宽信息和概率值。

第三ROI区域输出模块233，将检测到的多个矩形区域的概率值由大到小排序，选取规定个数概率值大的矩形区域作为识别的ROI区域(感兴趣区域ROI)，获取其坐标值、长宽信息。并根据编码需要，修改感兴趣区域ROI的坐标和长宽，使感兴趣区域ROI完整涵盖最大编码单元。

作为变形例，为避免视频中，台标以及字幕以外的文字以及图案区域被作为感兴趣区域ROI误检出来，可利用台标以及字幕在视频中显示位置固定的特定进行区分。即，第二ROI区域输出模块22，将得到的与台标相关的矩形区域存储起来，将当前视频帧的矩形区域的坐标、长宽与前一视频帧的矩形区域的坐标、长宽进行比较，只有一致时，当前视频帧的矩形区域作为ROI区域(感兴趣区域ROI)，输出其坐标值、长宽信息。

第三ROI区域输出模块233也同样，通过比较当前视频帧的矩形区域的坐标、长宽与与前一视频帧的矩形区域的坐标、长宽，在两者一致时，将当前视频帧的矩形区域作为ROI区域(感兴趣区域ROI)，输出其坐标值、长宽信息。

第一检测模块210、第二检测模块220、第三检测模块230，提取到的矩形感兴趣区域的坐标以及长宽(ROI区域信息)作为附件信息通过附加操作300附加在原始图像(视频帧)上发送给未图示的编码器编码。

以上对视频感兴趣区域提取系统具体实施例进行了说明。由具体实施例可知，本实施方式，能够从原始图像80识别人脸、台标、字幕等纹理特征、运动特征完全不同的局部区域，从识别的局部区域中按概率大小提取一定数量概率大的局部区域作为感兴趣区域ROI，即使纹理特征、运动特征不同的人脸、台标、字幕出现在同一视频帧中也能正确提取。

并且可以不受人脸、台标、字幕在视频帧中尺度大小影响，提取感兴趣区域ROI。即使各个视频帧之间，人脸、台标、字幕的尺度发生变化，也不会发生漏检，保证了编码后视频的观看效果。

由于输出的感兴趣区域ROI完整地覆盖了编码时的最大编码单元，在编码时，能够确保整个感兴趣区域ROI具有相同的编码策略，保证了编码后视频的观看效果。

以下通过附图对感兴趣区域ROI的提取进行说明。

图10为提取感兴趣区域提取的说明图。图10(a)为输入卷积神经网络系统100的原始图像80，(b)为提取的感兴趣区域ROI的信息。

图10(a)中，原始图像80中包括人物80a、字幕80b、台标80c、背景80d等特征。经过卷积神经网络系统100、ROI区域提取系统200，分别与人物80a的人脸、字幕80b、台标80c对应的矩形区域作为感兴趣区域ROI a、b、c被提取出来，左上角的a1、b1、c1分别为感兴趣区域ROI的坐标，H、W为感兴趣区域的长和宽(参见图10中b图)。

图11为感兴趣区域在原始图像中位置的说明图。如图11所示，提取到的感兴趣区域a、b、c分别包含原始图像80中的台标、人脸、字幕，因此在对视频进行编码时，可以针对感兴趣区域a、b、c有针对性的确定编码策略，例如为感兴趣区域ROI分配较多的比特数，提高其清晰度。

图11中，打斜线的区域b1是未根据最大编码单元CTU，调整坐标和长宽前的矩形区域(疑似感兴趣区域)。由于矩形区域b1的边界位于最大编码单元CTU的内部，影响编码。因此，调整其坐标和长宽，使感兴趣区域ROI b不仅完整包含人脸，其边界与最大编码单元CTU的边界重合，完整覆盖最大编码单元CTU。

应该注意的是，上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。

Claims

1.一种视频感兴趣区域的提取系统，其特征在于包括，采样模块(1)、初始特征提取模块(2)、多阶段特征提取·下采样模块(3)、融合特征图生成模块(4)、检测模块(5)、输出模块(6)，

所述采样模块(1)，逐帧输入视频的原始图像，对所述原始图像进行下采样，得到低分辨率多通道图像；

所述初始特征提取模块(2)由卷积神经网络构成，对输入的低分辨率多通道图像进行特征提取，得到多维初始特征图；

所述多阶段特征提取·下采样模块(3)，由多个串联的卷积神经网络构成，对输入的所述多维初始特征图多阶段地提取特征和下采样，得到分辨率逐渐降低的第一至第n特征图；

所述融合特征图生成模块(4)，对所述第n特征图上采样，与第n-1特征图的分辨率对齐后与第n-1特征图做相加操作(31a)，得到的特征图继续上采样，与第n-2特征图的分辨率对齐后与第n-2特征图做相加操作(31b)，重复对得到的特征图进行上采样和相加操作，直至与第一特征图融合，得到融合特征图；

所述检测模块(5)，由卷积神经网络构成，对输入的所述融合特征图进行分类，得到矩形区域的坐标值、长宽信息和概率值；

所述输出模块(6)，将所述矩形区域的概率值由大到小排序，选取规定个数概率值大的矩形区域作为感兴趣区域(ROI)，输出其坐标值、长宽信息，

所述神经网络中通过训练，获取检测感兴趣特征的权重，

其中，所述初始特征提取模块(2)的神经网络包括，串联的第一卷积层(21)、第一非线性激活层(22)、第二卷积层(23)，所述低分辨率多通道图像输入所述第一卷积层(21)提取特征，提取的特征图输入所述第二卷积层(23)提取特征，第一卷积层(21)提取的特征图与第二卷积层(23)提取的特征图做相加操作(24)得到多维初始特征图。

2.根据权利要求1所述的一种视频感兴趣区域的提取系统，其特征在于，视频中的人脸、台标、字幕作为感兴趣特征，所述神经网络通过训练获取检测人脸、台标、字幕的权重。

3.根据权利要求1或2所述的一种视频感兴趣区域的提取系统，其特征在于，

所述输出模块(6)输出的矩形的坐标值、长宽信息用于对所述视频进行编码时，确定所述矩形区域内的编码策略，

所述输出模块(6)，在输出所述矩形区域信息前，判断所述矩形区域在所述原始图像中覆盖的最大编码单元，有边界落在所述矩形区域外的最大编码单元时，调整所述矩形区域的坐标值、长宽信息，使所述矩形区域，即感兴趣区域(ROI)完整涵盖整个最大编码单元。

4.根据权利要求1所述的一种视频感兴趣区域的提取系统，其特征在于，

所述多阶段特征提取·下采样模块(3)，由三个串联的卷积神经网络(31)构成，对输入的所述多维初始特征图三阶段地提取特征和下采样，下采样的倍率为1/2，得到分辨率成整数倍降低的第一至第三特征图，

5.根据权利要求4所述的一种视频感兴趣区域的提取系统，其特征在于，

所述检测模块(5)的卷积神经网络包括卷积层(51)、全连接层(52)，由所述卷积层(51)将所述融合特征图展开成一维向量，所述全连接层(52)对所述一维向量进行分类，得到疑似感兴趣区域的坐标值、长宽信息和概率值。

6.一种视频感兴趣区域的提取方法，其特征在于，包括以下步骤，

采样步骤(S1)，逐帧输入视频的原始图像，对所述原始图像进行下采样，得到低分辨率多通道图像；

初始特征提取步骤(S2)利用卷积神经网络，对输入的低分辨率多通道图像进行特征提取，得到多维初始特征图；

多阶段特征提取·下采样步骤(S3)，利用多个串联的卷积神经网络，对输入的所述多维初始特征图多阶段地提取特征和下采样，得到分辨率逐渐降低的第一至第n特征图；

融合特征图生成步骤(S4)，对所述第n特征图上采样，与第n-1特征图的分辨率对齐后与第n-1特征图做相加操作(31a)，得到的特征图继续上采样，与第n-2特征图的分辨率对齐后与第n-2特征图做相加操作(31b)，重复对得到的特征图进行上采样和相加操作，直至与第一特征图融合，得到融合特征图；

检测步骤(S5)，利用卷积神经网络构成，对输入的所述融合特征图进行分类，得到矩形区域的坐标值、长宽信息和概率值；

输出步骤(S6)，将所述矩形区域的概率值由大到小排序，选取规定个数概率值大的矩形区域作为感兴趣区域(ROI)，输出其坐标值、长宽信息，

所述神经网络中通过训练，获取检测感兴趣特征的权重，

其中，所述初始特征提取步骤(S2)利用的神经网络包括，串联的第一卷积层(21)、第一非线性激活层(22)、第二卷积层(23)，所述采样步骤(S1)得到的所述低分辨率多通道图像输入所述第一卷积层(21)提取特征，提取的特征图输入所述第二卷积层(23)提取特征，第一卷积层(21)提取的特征图与第二卷积层(23)提取的特征图做相加操作(24)得到多维初始特征图。

7.根据权利要求6所述的一种视频感兴趣区域的提取方法，其特征在于，视频中的人脸、台标、字幕作为感兴趣特征，所述神经网络通过训练获取检测人脸、台标、字幕的权重。

8.根据权利要求6或7所述的一种视频感兴趣区域的提取方法，其特征在于，

所述输出步骤(S6)输出的矩形的坐标值、长宽信息用于对所述视频进行编码时，确定所述矩形区域内的编码策略，

所述输出步骤(S6)，在输出所述矩形区域信息前，判断所述矩形区域在所述原始图像中覆盖的最大编码单元，有边界落在所述矩形区域外的最大编码单元时，调整所述矩形区域的坐标值、长宽信息，使所述矩形区域，即感兴趣区域(ROI)完整涵盖整个最大编码单元。