CN116612122B

CN116612122B - 图像显著性区域的检测方法及装置、存储介质及电子设备

Info

Publication number: CN116612122B
Application number: CN202310893629.2A
Authority: CN
Inventors: 周士琪; 罗准; 谭嵩; 李云龙
Original assignee: Hunan Happly Sunshine Interactive Entertainment Media Co Ltd
Current assignee: Hunan Happly Sunshine Interactive Entertainment Media Co Ltd
Priority date: 2023-07-20
Filing date: 2023-07-20
Publication date: 2023-10-10
Anticipated expiration: 2043-07-20
Also published as: CN116612122A

Abstract

本发明提供一种图像显著性区域的检测方法及装置、存储介质及电子设备，包括：获取待处理视频帧；提取待处理视频帧的显著性特征；对显著性特征进行语义增强处理，得到语义增强特征；对语义增强特征进行多尺度增强处理，获取多尺度增强特征；对多尺度增强特征进行处理，获取待处理视频帧的显著性区域检测结果。本发明从待处理视频帧中提取显著性特征后，对显著性特征进行语义增强以及多尺度增强等处理，从而可以深度挖掘特征的表现力，增强特征的语义表达能力，以使特征满足检测显著性区域的各类因素和需求，进而提高显著性区域检测结果的准确性。

Description

图像显著性区域的检测方法及装置、存储介质及电子设备

技术领域

本发明涉及图像处理技术领域，特别涉及一种图像显著性区域的检测方法及装置、存储介质及电子设备。

背景技术

视频感知编码是一种利用人眼注意力机制的视频编码技术，它通过在视频编码时将码率更多的分配到视频画面中人眼所关注的感兴趣区域，该感兴趣区域还可以称为显著性区域。使视频观看者在使用和原来相同或甚至更低码率的情况下，让视频观看者获取到更好的主观画质体验。

为了实现码率在感兴趣区域的重分配，检测视频画面中的显著性区域是必要的。目前在检测显著性区域时，为了快速检测出显著性区域，仅使用视频画面的简单特征数据进行检测，导致检测结果精度低。

发明内容

有鉴于此，本发明实施例提供一种图像显著性区域的检测方法及装置、存储介质及电子设备，本发明通过对提取的显著性特征进行语义增强以及多尺度增强等处理，提高特征的表现力，使得特征可以满足进行显著性区域检测的各种因素，进而提高检测的精度。

为实现上述目的，本发明实施例提供如下技术方案：

一种图像显著性区域的检测方法，包括：

获取待处理视频帧；

利用显著性特征提取模型提取所述待处理视频帧的显著性特征；

对所述显著性特征进行语义增强处理，得到语义增强特征；

对所述语义增强特征进行多尺度增强处理，获取多尺度增强特征；

对所述多尺度增强特征进行处理，获取所述待处理视频帧的显著性区域检测结果。

上述的方法，可选的，还包括：

基于所述显著性区域检测结果，对所述待处理视频帧的码率进行重分配。

上述的方法，可选的，所述显著性特征提取模型由轻量化网络组成，所述轻量化网络的总下采样率调整为预设数值，并且所述轻量化网络中设置空洞卷积。

上述的方法，可选的，所述获取待处理视频帧，包括：

获取视频，从所述视频中获取初始视频帧；

对所述初始视频帧进行格式转换，得到转换视频帧；

对所述转换视频帧进行降采样处理，得到降采样视频帧；

对所述降采样视频帧的边界进行填充，得到填充视频帧；

对所述填充视频帧进行归一化处理，得到归一化视频帧，并将所述归一化视频帧确定为待处理视频帧。

上述的方法，可选的，所述对所述显著性特征进行语义增强处理，得到语义增强特征，包括：

获取所述显著性特征中的各个显著性特征因子；

对各个所述显著性特征因子进行处理，获取全局语义增强向量；

对所述全局语义增强向量进行处理，得到每个所述显著性特征因子的语义增强向量；

对于每个所述显著性特征因子，将所述显著性特征因子和所述显著性特征因子的语义增强向量进行融合，得到所述显著性特征因子的语义增强特征因子；

基于各个所述语义增强特征因子，得到语义增强特征。

上述的方法，可选的，所述对所述语义增强特征进行多尺度增强处理，获取多尺度增强特征，包括：

对所述语义增强特征中的各个语义增强因子进行处理，得到每个所述语义增强因子的多尺度特征因子；

将各个所述多尺度特征因子进行融合，得到多尺度增强特征。

一种图像显著性区域的检测装置，包括：

获取单元，用于获取待处理视频帧；

提取单元，用于利用显著性特征提取模型提取所述待处理视频帧的显著性特征；

第一处理单元，用于对所述显著性特征进行语义增强处理，得到语义增强特征；

第二处理单元，用于对所述语义增强特征进行多尺度增强处理，获取多尺度增强特征；

第三处理单元，用于对所述多尺度增强特征进行处理，获取所述待处理视频帧的显著性区域检测结果。

上述的装置，可选的，还包括：

分配单元，用于基于所述显著性区域检测结果，对所述待处理视频帧的码率进行重分配。

上述的装置，可选的，所述显著性特征提取模型由轻量化网络组成，所述轻量化网络的总下采样率调整为预设数值，并且所述轻量化网络中设置空洞卷积。

上述的装置，可选的，所述获取单元，包括：

第一获取子单元，用于获取视频，从所述视频中获取初始视频帧；

转换子单元，用于对所述初始视频帧进行格式转换，得到转换视频帧；

降采样处理子单元，用于对所述转换视频帧进行降采样处理，得到降采样视频帧；

填充子单元，用于对所述降采样视频帧的边界进行填充，得到填充视频帧；

归一化处理子单元，用于对所述填充视频帧进行归一化处理，得到归一化视频帧，并将所述归一化视频帧确定为待处理视频帧。

上述的装置，可选的，所述第一处理单元，包括：

第二获取子单元，用于获取所述显著性特征中的各个显著性特征因子；

第三获取子单元，用于对各个所述显著性特征因子进行处理，获取全局语义增强向量；

第一处理子单元，用于对所述全局语义增强向量进行处理，得到每个所述显著性特征因子的语义增强向量；

第二融合子单元，用于对于每个所述显著性特征因子，将所述显著性特征因子和所述显著性特征因子的语义增强向量进行融合，得到所述显著性特征因子的语义增强特征因子；

获得子单元，用于基于各个所述语义增强特征因子，得到语义增强特征。

上述的装置，可选的，所述第二处理单元，包括：

第二处理子单元，用于对所述语义增强特征中的各个语义增强因子进行处理，得到每个所述语义增强因子的多尺度特征因子；

第二融合子单元，用于将各个所述多尺度特征因子进行融合，得到多尺度增强特征。

一种存储介质，所述存储介质包括存储的指令，其中，在所述指令运行时控制所述存储介质所在的设备执行上所述的图像显著性区域的检测方法。

一种电子设备，包括存储器，以及一个或者一个以上的指令，其中一个或者一个以上指令存储于存储器中，且经配置以由一个或者一个以上处理器执行上所述的图像显著性区域的检测方法。

与现有技术相比，本发明具有以下优点：

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种图像显著性区域的检测方法的方法流程图；

图2为本发明实施例提供的获取待处理视频帧的方法流程图；

图3为本发明实施例提供的对显著性特征进行语义增强处理，得到语义增强特征的方法流程图；

图4为本发明实施例提供的对视频帧的码率重分配的方法流程图；

图5为本发明实施例提供的一种图像显著性区域的检测装置的结构示意图；

图6为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本申请中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

术语解释：

AUC：variant of Area underROC Curve，ROC曲线下面积的变化，AUC越大说明算法检测性能越好。

sAUC：shuffled AUC，sAUC为显著性评价指标。

NSS：Normalized Scanpath Saliency，归一化扫描路径显著性，NSS越大说明算法检测性能越好，sAUC评估显著性检测模型的中心偏执，越大表示检测性能越好。

IG：Information Gain，信息增益，IG越大说明算法检测性能越好。

KLD：Kullback-Leibler divergence，KL散度，用于评估预测的眼关注点显著图和参考图ground truth之间的分布差异，越小表示检测性能越好；

CC：Pearson’s Correlation Coefficient，皮尔逊相关系数，也是线性相关系数，用于评价预测的眼关注点显著图和参考图ground truth之间的线性相关性，CC越大说明该模型性能越好。

SIM：Similarity，相似性；用于评估预测的眼关注点显著图和参考图groundtruth之间的分布相似性，越大表示检测性能越好。

由背景技术可知，为了提高显著性区域的检测速度，传统的检测方式使用简单的特征数据进行检测，简单的特征数据的表现力差，无法满足进行显著性区域检测的各类因素，降低了检测的精度。

除上述的问题之外，一些基于深度学习的显著性检测算法相较于传统的方法在精度上取得了很大的提升，但是这些方法为了追求更高的精度，往往都使用了复杂的模型，导致模型的速度慢，极大的降低了感知编码的整体效率，增加了应用成本。

为了解决上述的问题，本发明提供一种图像显著性区域的检测方案，通过对待处理视频帧的显著性特征进行一系列处理，可以得到可以满足进行显著性区域检测的各类因素的多尺度增强特征，增强了特征的表现力，从而提高显著性区域的检测准确性。

本发明可用于众多通用或专用的计算装置环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。优选的，本发明可以应用于视频编码处理系统。

参照图1，为本发明实施例提供的一种图像显著性区域的检测方法的方法流程图，具体说明如下所述：

S101、获取待处理视频帧。

需要说明的是，可以将视频中的帧作为待处理视频帧，进一步的，可以为视频中的任意帧，也可以是视频中的关键帧。

待处理视频帧可以为视频中原始的、未经过处理的帧，还可以是经过一系统处理后得到的帧。

进一步的，对视频中的帧进行处理的目的是去除帧中的噪音等影响特征提取的因素，进而提高后续特征提取的精度，从而提高显著性区域检测的准确性。

参照图2，为本发明实施例提供的获取待处理视频帧的方法流程图，具体说明如下所述：

S201、获取视频，从视频中获取初始视频帧。

可以从视频库中获取任意视频，还可以是工作人员提供的视频，还可以是基于视频标识获取的视频，视频标识为视频的唯一身份标识。

初始视频帧可以是视频中的任意帧，还可以是按照预设规则提取的帧，示例性的，预设规则可以为提取关键帧，还可以是按照预设时间步长提取帧。

从视频中获取的初始视频帧至少为一个，每个初始视频帧的处理过程均可以应用S202至S205的过程。

S202、对初始视频帧进行格式转换，得到转换视频帧。

将初始视频帧转换为RGB格式视频帧，换言之，转换视频帧的格式为RGB格式。

在对初始视频帧进行格式转换时，对视频帧进行色彩空间映射，以将YUV420格式视频帧转换为RGB格式视频帧。

S203、对转换视频帧进行降采样处理，得到降采样视频帧。

按照预设的降采样规则对转换视频帧进行降采样处理，以将转换视频帧降低到较低的分辨率，具体如利用双线性插值对RGB格式视频帧进行降采样，从而得到降采样视频帧。

S204、对降采样视频帧的边界进行填充，得到填充视频帧。

对降采样视频帧的边界进行填充时，具体可以是对降采样视频帧的宽高边进行0值填充，得到填充视频帧，该填充视频帧和RGB视频帧具有相同宽高比。

S205、对填充视频帧进行归一化处理，得到归一化视频帧，并将归一化视频帧确定为待处理视频帧。

对填充视频帧进行归一化处理时，可将填充视频帧的RGB值归一化为[0,1]，从而得到归一化视频帧，归一化视频帧的格式为RGB格式。

本发明通过对视频帧进行格式转换、降采样、填充以及归一化等处理，可以有效去掉影响显著性特征提取的因素，提高后续提取的特征的精度，进而提高检测的准确性。

S102、利用显著性特征提取模型提取待处理视频帧的显著性特征。

显著性特征包括但不限于待处理视频帧的色彩、亮度、纹理方向、高层语义等特征。

显著性特征提取模型由轻量化网络组成，显著性特征提取模型为预先训练完成的模型。

需要说明的是，为提高显著性特征模型提取特征的精度，组成显著性特征模型的轻量化网络是经过调整的，具体如：轻量化网络的总下采样率大小调整为预设数值，并且基于轻量化网络的网络模型，在轻量化网络中设置空洞卷积，即不同网络模型的轻量化网络设置空洞卷积的位置是不同的。

轻量化网络包括但不限于MobileNetV2、SqueezeNet以及ShuffleNet等。示例性的，以MobileNetV2作为主体网络组成显著性特征提取模型进行说明，此处仅为示例说明，并显著性特征提取模型的组成网络不局限于MobileNetV2。

MobileNetV2由一个3×3卷积和17个转置残差模块组成，不同于原始的MobileNetV2，本发明中MobileNetV2的第7和第14个转置卷积模块的下采样率被设置为1，使MobileNetV2的总下采样率被调整为8。同时，将第7到第13个转置残差模块的普通卷积替换为空洞率为2的空洞卷积，将第14到第17个转置残差模块的普通卷积替换为空洞率为4的空洞卷积，并移除原始MobileNetV2末尾的全局池化层和两个1×1卷积。最后，将MobileNetV2第13和第17个转置残差模块的输出的显著性特征因子作为提取的显著性特征。

优选的，显著性特征由多个显著性特征因子组成，优选的，本发明的显著性特征因子的个数设置为2个，使用f _m和f _h表示，显著性特征因子的个数可以根据需求进行设置，延续上文的说明，本发明使用了MobileNetV2第13和第17这两个转置残差模块层的输出作为显著性特征因子，但也可以使用更多层的输出作为显著性特征因子，数量可以根据实际需求进行设置。

本发明实施例提供的方法中，显著性特征提取模型使用轻量化网络组成，由此可以保障该特征提取模型的提取特征的实时性，并且该特征提取模型中加入空洞卷积，可以提高感受野，使该特征提取模型更适用于显著性检测任务。除此之外，本发明的特征提取模型使用轻量化网络，相对于其他使用复杂的网络组成的特征提取模型，本发明的特征提取模型提取特征的速度会更快，并且本发明的特征提取模型经过调整总下采样率，以及增加空洞卷积，可以提高特征提取的精度，由此，本发明提供的特征提取模型不仅可以提高特征提取的速率，还确保了特征提取的精度。

S103、对显著性特征进行语义增强处理，得到语义增强特征。

使用全局语义增强模型对显著性特征进行语义增强处理，进而得到语义增强特征，全局语义增强模型为预先训练完成的模型。

参照图3，为本发明实施例提供的对显著性特征进行语义增强处理，得到语义增强特征的方法流程图，具体说明如下所述：

S301、获取显著性特征中的各个显著性特征因子。

对显著性特征进行处理，从而得到各个显著性特征因子，延续上文的说明，此处获取的各个显著性特征因子包括f _m和f _h。

S302、对各个显著性特征因子进行处理，获取全局语义增强向量。

优选的，具体可以为：全局语义增强模块在各个显著性特征因子中选择目标显著性特征因子；调用第一卷积对目标显著性特征因子进行下采样，得到第一语义增强特征；调用各个第二卷积对第一语义增强特征进行处理，得到第二语义增强特征；使用全局池化层对第二语义增强特征进行处理，得到全局语义增强向量；其中各个第二卷积的空洞率不同。

示例性的，第一卷积可为步长为2的3×3的卷积，第二卷积也可以为是3×3的卷积。

在选择目标显著性特征因子时，可以随机进行选择，也可以按照一定的规则进行选择，例如将显著性特征提取模型中指定的转置残差模块层输出的显著性特征因子作为目标显著性特征因子。

示例性的，可以使用显著性特征因子f _h进行处理，得到全局语义增强向量，具体如：利用一个步长为2的3×3卷积对f _h进行下采样，用以平衡速度和精度，并得到一个具有更高感受野的初步语义增强特征f _s，进一步的，f _s可以理解为上文的第一语义增强特征，得到初步语义增强特征的过程可以表示为：，其中，bn表示batch normalization（批归一化），δ表示Relu6激活函数，/>表示卷积操作，/>表示卷积核，其下标分别表示卷积核的大小，下采样率和空洞率，具体的/>表示卷积核的大小为3，下采样率为2，空洞率为1。然后，利用3个空洞率分别为2，4，8的3×3卷积对f _s进行并行处理，并各个卷积输出的结果在通道层堆叠成一个包含多尺度信息的语义增强特征f _sc，f _sc可以理解为上文中的第二语义增强特征，f _sc还可以理解为输入特征图。接着，通过一个全局池化层对f _sc进行处理，得到一个更加抽象的全局语义增强向量v _s，该过程可表示为，其中，c表示特征通道索引，GP表示全局池化操作，H表示输入特征图的高，W表示输入特征图的宽，i表示输入特征图的高的索引，j表示输入特征图的宽的索引。

S303、对全局语义增强向量进行处理，得到每个显著性特征因子的语义增强向量。

需要说明的是，使用每个显著性特征因子的卷积对全局语义增强向量进行处理，从而得到每个显著性特征因子的语义增强向量。

延续上文的说明，对于显著性特征因子f _m和f _h，通过两个不同的1×1卷积作用于全局语义增强向量v _s，得到适用于f _m的语义增强向量v _sm，以及适用于f _h的语义增强向量和v _sf。

S304、对于每个显著性特征因子，将显著性特征因子和显著性特征因子的语义增强向量进行融合，得到显著性特征因子的语义增强特征因子。

对于每个显著性特征因子，可以使用卷积将显著性特征因子和显著性特征因子的语义增强向量融合；示例性的，利用3×3卷积将v _sm与f _m融合，得到显著性特征因子f _m的语义增强特征ef _m，以及将v _sf与f _h进行融合，得到显著性特征因子f _h的语义增强特征ef _h。

S305、基于各个语义增强因子，得到语义增强特征。

将语义增强因子确定为语义增强特征。

本发明通过使用全局语义增强模型对显著性特征进行语义增强，可以提高特征的语义表达能力，可以进一步提取网络的深层语义特征，来对显著性特征提取模型提取的显著性特征进行增强，从而得到更满足于显著性区域检测的需求的高层语义特征。通过进行语义增强，使本发明进行显著性区域检测轻量高效的同时取得更高的精度。

S104、对语义增强特征进行多尺度增强处理，获取多尺度增强特征。

利用多路空洞卷积模型对语义增强特征进行多尺度增强处理，获取多尺度增强特征。示例性的：对语义增强特征中的各个语义增强因子进行处理，得到每个语义增强因子的多尺度特征因子；将各个多尺度特征因子进行融合，得到多尺度增强特征。

优选的，不同的语义增强因子使用不同的多路空洞卷积模块进行处理，从而得到每个语义增强因子的多尺度特征因子，不同的多路空洞卷积模块的参数共享。

在本发明提供的方案中，将包含ef _m和ef _h的语义增强特征输入到多路空洞卷积模型，多路空洞卷积模型中包含两个共享参数的多路空洞卷积模块；多路空洞卷积模块通过4个共享参数且使用不同空洞率的3×3深度可分离卷积对接收到的语义增强因子进行处理，将4个深度可分离卷积提取的特征在通道维度进行堆叠，并利用一个卷积进行融合，从而得到与该语义增强因子对应的多尺度特征因子；示例性的，ef _m对应的多尺度特征因子为sf _m，ef _h对应的多尺度特征因子为sf _h，优选的，多尺度特征因子也可以称为多尺度信息。

在得到各个多尺度特征因子后，可以使用卷积将各个多尺度特征因子融合，得到多尺度增强特征；示例性的，利用一个3×3卷积对sf _m和sf _h进行融合，得到多尺度增强特征sf。

本发明通过进行多尺度增强处理，可以多尺度的挖掘特征的表现力，从而可以得到更满足于显著性区域检测的特征，提高检测的准确率。

S105、对多尺度增强特征进行处理，获取待处理视频帧的显著性区域检测结果。

使用解码器网络对多尺度增强特征进行处理，获取待处理视频帧的显著性区域检测结果。

示例性的，解码器网络通过3个上采样-卷积模块对多尺度增强特征进行处理，得到最后的视频帧显著性区域预测，该过程可表示为，，其中，i={1,2,3}，/>即sf，up表示双线性插值操作，每次将/>上采样2倍，/>表示3×3卷积，每次将特征的通道数减少2倍。/>即最后的显著区域预测，它具有和输入视频帧相同的分辨率，每个像素值的取值范围为[0,1]，表示每个像素点的显著性程度；1表示该像素点具有最高的显著程度，0表示该像素点具有最低的显著程度。

优选的，最后的视频帧显著性区域预测即为上文的显著性区域检测结果。

在本发明提供的另一实施例中，基于显著性区域检测结果，对待处理视频帧的码率进行重分配；基于显著性区域检测结果，视频编码器例如H264，HEVC等，可以利用任何适合的码率控制算法，将码率更多的分配在视频帧的显著性区域，从而实现显著性区域的主观画质提升，或者节约码率的目的。

优选的，本发明中的显著性特征提取模型、全局语义增强模型、多路空洞卷积模型以及解码器网络组成显著性区域检测模型，其中，显著性特征提取模型、全局语义增强模型以及多路空洞卷积模型均需要进行训练。

优选的，本发明提供的方法可以应用于视频编码处理系统，视频编码处理系统包括视频处理模块和显著性区域检测模型，其中，视频处理模块用于获取待处理视频帧；显著性区域检测模型包括显著性特征提取模型、全局语义增强模型、多路空洞卷积模型以及解码器网络；显著性特征提取模型用于提取待处理视频帧的显著性特征；全局语义增强模型用于对显著性特征进行语义增强处理，得到语义增强特征；多路空洞卷积模型用于对语义增强特征进行多尺度增强处理，获取多尺度增强特征；解码器网络用于对多尺度增强特征进行处理，获取待处理视频帧的显著性区域检测结果。

本发明实施例提供的方法中，获取待处理视频帧；提取待处理视频帧的显著性特征；对显著性特征进行语义增强处理，得到语义增强特征；对语义增强特征进行多尺度增强处理，获取多尺度增强特征；对多尺度增强特征进行处理，获取待处理视频帧的显著性区域检测结果。本发明从待处理视频帧中提取显著性特征后，对显著性特征进行语义增强以及多尺度增强等处理，从而可以深度挖掘特征的表现力，增强特征的语义表达能力，以使特征满足检测显著性区域的各类因素，进而提高显著性区域检测结果的准确性。

参照图4，为本发明实施例提供的对视频帧的码率重分配的方法流程图，具体说明如下所述：

步骤1：对视频中的视频帧进行格式转换、降采样等处理，得到归一化RGB格式视频帧。

步骤2：将归一化RGB格式视频帧输入显著性特征提取模型进行处理，使得显著性特征模型输出显著性特征。

步骤3：使用全局语义增强模型对显著性特征进行处理，得到义增强特征。

其中，全局语义增强模块可以理解为语义增强特征。

步骤4：使用多路空洞卷积模块对语义增强特征进行处理，得到多尺度增强特征。

其中，多路空洞卷积模块可以理解为多路空洞卷积模型。

步骤5：使用解码器网络对多尺度增强特征进行处理，得到显著性区域检测结果。

步骤6：视频编码器基于显著性区域检测结果对视频帧进行码率重分配。

本发明的步骤1至步骤6的具体说明可以参照上文的说明，此处不再进行赘述。

优选的，本发明所用提供的方案为基于深度学习的方法，因此在执行步骤1至步骤6时需要提前对这些步骤中涉及的显著性特征提取模型、全局语义增强模块、多路空洞卷积模块进行训练，不断的更新对应的参数，以得到预测时所需的模型参数，从而提高检测显著性区域的准确性。具体而言，在显著性检测数据集上对模型进行训练，例如SALICON数据集，在数据集上总共对模型训练10轮，学习率设置为1×10^-4，每过5轮将学习率下调0.1倍。采用KLD (Kullback-Leibler divergence) and CC (Pearson’s Correlation Coefficient)作为损失函数，损失函数的具体计算过程可表示为：，其中，cov表示协方差，σ表示方差，gt表示显著性区域标签值，p表示显著性区域预测值，并且都被归一化为[0,1]，γ=-1，ε=1×e ^-8，i表示gt和p对应的像素坐标索引。最后，利用Adam优化器对模型参数进行更新，在得到最佳的模型参数后，即可执行步骤1至步骤6。

为具体说明本发明提供的方案进行显著性区域检测的速率快和精度高，将使用本发明提供的方案构建的模型与当前主流显著性检测算法SAM-ResNet，MSI-Net，SalGAN，FastSal等不同算法构建的模型在SALICON测试数据集进行处理的结果进行对比。采用模型中AUC，sAUC，NSS，IG，KLD，CC，SIM这7项指标对算法精度进行评估，FPS为模型速度指标，表示模型每秒可预测的帧数，测试结果如表1所示。

表1

需要说明的是，表1中的方向向上的箭头表示指标的数值越大，精度越好，例如AUC指标的数值越大，表示精度好；方向向上的箭头表示指标的数值越小，精度越好，例如KLD指标的数值越小，精度越好。

由表1的实验数据可知，本发明在取得最快速度131FPS的同时，在AUC，KLD，CC，IG这四项指标上取得了最佳精度，在其余4项指标上也基本接近最佳精度。FastSal算法，虽然也有122FPS的运行速度，但是该算法在所有指标的精度上却远远低于本发明。SAM-ResNet算法在一些指标取得了和本发明相似或更好的精度，但是速度仅仅只有10FPS，而本发明在大部分指标更优于SAM-ResNet的同时，速度提升了13倍。综上所述，本发明相较现有的技术更好的兼顾的算法的精度与速度。因此，本发明也能更高效的应用于视频感知编码，在降低感知编码前处理成本的同时，保障了码率在感兴趣区域重分配的精度，在一定程度上实现了降本增效的目标。

本发明采用了轻量化的网络作为显著性特征提取模型，以保障算法的实时性能。同时在特征提取器尾部加入空卷积提升感受野，使其更适用于显著性检测任务。本发明采用了全局语义增强模块，可以对轻量化显著性特征提取器的语义表达能力进行增强，引导其更好的对显著性区域进行检测，有效的提升了算法的性能。本发明还采用了多路空洞卷积模型，可以更好的提取网络的多尺度信息，并且只需要增加少量的额外参数，在保障算法效率的同时进一步增加了模型精度。由此，应用本发明可以兼具速度与精度，能有效能高效的给视频编码器提供准确的感兴趣区域预测，在降低前处理成本的同时，保障了码率在感兴趣区域重分配的精度；本发明在提高检测效率和精度的基础上降低了成本，实现了降本增效。

与图1相对应的，本发明还提供一种图像显著性区域的检测装置，该装置可以设置于视频编码处理系统，该装置用于支持图1所示的方法的具体实现。

参照图5，为本发明实施例提供的一种图像显著性区域的检测装置的结构示意图，具体说明如下所述：

获取单元501，用于获取待处理视频帧；

提取单元502，用于利用显著性特征提取模型提取所述待处理视频帧的显著性特征；

第一处理单元503，用于对所述显著性特征进行语义增强处理，得到语义增强特征；

第二处理单元504，用于对所述语义增强特征进行多尺度增强处理，获取多尺度增强特征；

第三处理单元505，用于对所述多尺度增强特征进行处理，获取所述待处理视频帧的显著性区域检测结果。

本发明实施例提供的装置中，获取待处理视频帧；提取待处理视频帧的显著性特征；对显著性特征进行语义增强处理，得到语义增强特征；对语义增强特征进行多尺度增强处理，获取多尺度增强特征；对多尺度增强特征进行处理，获取待处理视频帧的显著性区域检测结果。本发明从待处理视频帧中提取显著性特征后，对显著性特征进行语义增强以及多尺度增强等处理，从而可以深度挖掘特征的表现力，增强特征的语义表达能力，以使特征满足检测显著性区域的各类因素，进而提高显著性区域检测结果的准确性。

在本发明提供的另一实施例中，该装置还包括：

在本发明提供的另一实施例中，该装置的显著性特征提取模型由轻量化网络组成，所述轻量化网络的总下采样率调整为预设数值，并且所述轻量化网络中设置空洞卷积。

在本发明提供的另一实施例中，该装置的获取单元501，包括：

在本发明提供的另一实施例中，该装置的第一处理单元503，包括：

在本发明提供的另一实施例中，该装置的第二处理单元504，包括：

本发明实施例还提供了一种存储介质，所述存储介质包括存储的指令，其中，在所述指令运行时控制所述存储介质所在的设备执行上述图像显著性区域的检测方法。

本发明实施例还提供了一种电子设备，其结构示意图如图6所示，具体包括存储器601，以及一个或者一个以上的指令602，其中一个或者一个以上指令602存储于存储器601中，且经配置以由一个或者一个以上处理器603执行所述一个或者一个以上指令602执行上述图像显著性区域的检测方法。

上述各个实施例的具体实施过程及其衍生方式，均在本发明的保护范围之内。以上本发明实施例公开的图像显著性区域的检测装置中的各个单元、各个子单元的具体工作过程，可参见本发明上述实施例公开的图像显著性区域的检测方法中的对应内容，这里不再进行赘述。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种图像显著性区域的检测方法，其特征在于，包括：

获取待处理视频帧；

利用显著性特征提取模型提取所述待处理视频帧的显著性特征，所述显著性特征提取模型由轻量化网络组成；所述显著性特征包括浅层显著性特征和深层显著性特征；

利用语义增强因子直接对所述轻量化网络提取的所述显著性特征进行全局语义增强处理，得到语义增强特征，所述轻量化网络中设置空洞卷积；

对所述多尺度增强特征进行处理，获取所述待处理视频帧的显著性区域检测结果；

其中，所述利用语义增强因子直接对所述轻量化网络提取的所述显著性特征进行全局语义增强处理，得到语义增强特征，包括：

获取所述显著性特征中的显著性特征的深层显著性特征因子与浅层显著性特征因子；

利用所述深层显著性特征因子进行处理，获取深层次的全局语义增强向量；

对所述深层显著性特征进行下采样得到第一语义增强特征，利用卷积对所述第一语义增强特征进行并行处理，得到一个包含多尺度信息的第二语义增强特征，通过全局池化层对所述第二语义增强特征进行处理得到全局语义增强向量，通过不同的卷积对所述全局语义增强向量进行处理，得到分别对应于所述浅层显著性特征因子与所述深层显著性特征因子的语义增强向量；

将所述浅层显著性特征因子与深层显著性特征因子分别与各自对应的语义增强向量进行融合，得到所述浅层显著性特征因子的语义增强特征因子和深层显著性特征因子的语义增强特征因子；

基于各个所述语义增强特征因子，得到语义增强特征。

2.根据权利要求1所述的方法，其特征在于，还包括：

3.根据权利要求1所述的方法，其特征在于，所述轻量化网络的总下采样率调整为预设数值。

4.根据权利要求1所述的方法，其特征在于，所述获取待处理视频帧，包括：

获取视频，从所述视频中获取初始视频帧；

对所述初始视频帧进行格式转换，得到转换视频帧；

对所述转换视频帧进行降采样处理，得到降采样视频帧；

对所述降采样视频帧的边界进行填充，得到填充视频帧；

5.根据权利要求1所述的方法，其特征在于，所述对所述语义增强特征进行多尺度增强处理，获取多尺度增强特征，包括：

6.一种图像显著性区域的检测装置，其特征在于，包括：

获取单元，用于获取待处理视频帧；

提取单元，用于利用显著性特征提取模型提取所述待处理视频帧的显著性特征，所述显著性特征提取模型由轻量化网络组成；所述显著性特征包括浅层显著性特征和深层显著性特征；

第一处理单元，用于利用语义增强因子直接对所述轻量化网络提取的所述显著性特征进行全局语义增强处理，得到语义增强特征，所述轻量化网络中设置空洞卷积；

第三处理单元，用于对所述多尺度增强特征进行处理，获取所述待处理视频帧的显著性区域检测结果；

其中，所述第一处理单元，包括：

第二获取子单元，用于获取所述显著性特征中的显著性特征的深层显著性特征因子与浅层显著性特征因子；

第三获取子单元，用于利用所述深层显著性特征因子进行处理，获取深层次的全局语义增强向量；

第一处理子单元，用于对所述深层显著性特征进行下采样得到第一语义增强特征，利用卷积对所述第一语义增强特征进行并行处理，得到一个包含多尺度信息的第二语义增强特征，通过全局池化层对所述第二语义增强特征进行处理得到全局语义增强向量，通过不同的卷积对所述全局语义增强向量进行处理，得到分别对应于所述浅层显著性特征因子与所述深层显著性特征因子的语义增强向量；

第二融合子单元，用于将所述浅层显著性特征因子与深层显著性特征因子分别与各自对应的语义增强向量进行融合，得到所述浅层显著性特征因子的语义增强特征因子和深层显著性特征因子的语义增强特征因子；

7.根据权利要求6所述的装置，其特征在于，还包括：

8.一种存储介质，其特征在于，所述存储介质包括存储的指令，其中，在所述指令运行时控制所述存储介质所在的设备执行如权利要求1-5任意一项所述的图像显著性区域的检测方法。

9.一种电子设备，其特征在于，包括存储器，以及一个或者一个以上的指令，其中一个或者一个以上指令存储于存储器中，且经配置以由一个或者一个以上处理器执行如权利要求1-5任意一项所述的图像显著性区域的检测方法。