CN111985341A

CN111985341A - 一种图像的视觉注意力捕捉方法、系统及可读存储介质

Info

Publication number: CN111985341A
Application number: CN202010716230.3A
Authority: CN
Inventors: 孔俊; 郑彩侠; 吕英华; 陈文河; 王建中; 齐妙
Original assignee: Northeast Normal University
Current assignee: Northeast Normal University
Priority date: 2020-07-23
Filing date: 2020-07-23
Publication date: 2020-11-24
Anticipated expiration: 2040-07-23
Also published as: CN111985341B

Abstract

本发明属于图像分析技术领域，本发明提供的一种图像的视觉注意力捕捉方法、系统，其方法基于三路径深度网络TP‑Net来估计图像中人的注视目标。TP‑Net通过融合场景中人与人或者人与物之间的关系信息、场景显著性信息和头部信息来预测图像中人的注视目标，并通过微金字塔模块来有效捕获网络训练过程中学习到的多尺度特征，且能较好地解决图像中视觉注意力捕捉中人脸的模糊和被遮挡的问题；其系统以及包括该注意力捕捉方法的可读存储介质也具有同样的技术效果。

Description

一种图像的视觉注意力捕捉方法、系统及可读存储介质

技术领域

本发明涉及图像分析技术领域，更具体的说，特别涉及一种基于三路径深度网络的图像中人的视觉注意力捕捉方法、系统及可读存储介质。

背景技术

在计算机视觉领域，现有的一些视觉注意力捕捉方法通常需要预先设置许多约束来使注意力捕捉任务变得简单。例如，限制注意力捕捉的场景只能是两人相互看着对方、要求人脸是必须可检测到的、或需要利用眼动跟踪数据。这些约束极大地限制了计算机视觉图像中人的注意力捕捉方法的应用范围。因为人的正脸在图像中并不总是可见的，而眼动跟踪数据是较难获得的，需要额外的辅助设备。因此，迫切需要开发一种无需上述约束也可以有效捕捉图像或视频中人的视觉注意力的方法。

发明内容

在自然场景中，人的头部信息，场景中物体的显著度信息，以及人和与其交互的人或者物之间存在的关系信息，都可以为推断场景中人的注视目标提供有力依据。鉴于此，本发明实施例提供了基于三路径深度网络的视觉注意力捕捉方法、系统及可读存储介质，以解决现有技术中需要预先设置约束来进行注意力捕捉的问题。

本发明实施例的第一方面提供了一种图像的视觉注意力捕捉方法，包括以下步骤：

S1.基于图像中的头部特写和头部位置信息来预测粗略的注视区域，构成第一路径；

S2.基于整幅图像作为输入来估计图像场景中物体的显著度，构成第二路径；

S3.基于整幅图像作为输入来估计图像中人与人或人与物之间的关系信息，构成第三路径；

S4.融合所述第一路径、所述第二路径和所述第三路径的输出结果，估计图像中人的注视方向和目标。

本发明实施例的第二方面提供了一种图像的视觉注意力捕捉系统，包括：

第一路径单元，基于输入的图像中的头部特写和头部位置信息来预测粗略的注视区域；

第二路径单元，基于输入的整幅图像来估计图像场景中物体的显著度；

第三路径单元，基于输入的整幅图像来估计图像中人与人或人与物之间的关系信息；

融合单元，分别与所述第一路径单元、所述第二路径单元和所述第三路径单元连接，对所述第一路径单元、所述第二路径单元和所述第三路径单元的输出结果进行融合后估计图像中人的注视方向和目标。

本发明实施例的第三方面提供了一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序被一个或多个处理器执行时实现如前述图像的视觉注意力捕捉方法的步骤。

本申请基于三路径深度网络，采用挖掘人的头部信息、场景显著度信息和场景中人与人或人与物之间的关系信息的方式来估计机器人视觉图像或者视频中人的注意力，且通过三个路径对注视区域、场景中物体显著度和图像中人与人或人与物的关系信息的估计结果进行融合，可进一步提高视觉注意力捕捉的准确性。也有利于机器人通过视觉信号实现人体跟踪。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例一提供的视觉注意力捕捉方法的基本步骤图；

图2是本申请实施例一提供的视觉注意力捕捉方法的具体步骤图；

图3是本申请实施例二提供的视觉注意力捕捉系统框架示意图；

图4是本申请实施例一提供的视觉注意力捕捉方法的框架流程示意图；

图5是本发明实施例一提供的视觉注意力捕捉方法中关系特征提取模型处理流程框图；

图6是本发明实施例一提供的视觉注意力捕捉方法中微金字塔模块处理流程框图；

图7是本发明实施例一采用不同融合策略在GAZEFOLLOW数据集和DLGAZE数据集上运行时的收敛曲线图；

图8是本发明实施例一的网络架构与不同网络架构在GAZEFOLLOW数据集上的消融实验结果(I)；

图9是本发明实施例一的网络架构与不同网络架构在DLGAZE数据集上的消融实验结果(I)；

图10是本发明实施例一的网络架构与不同网络架构在GAZEFOLLOW数据集上的消融实验结果(II)；

图11是本发明实施例一的网络架构与不同网络架构在DLGAZE数据集上的消融实验结果(II)。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。技术术语中英文对照：三个路径的深度网络(简称为TP-Net)、视觉注意力(Visual Attention)、卷积操作(CONV)、上采样操作(UP)、感兴趣区域(ROI)、全连接层(FC)、循环神经网络(GRU)、迭代次数(epoch)、批大小(batch size)、受试者工作特性曲线下的面积(AUC)、平均距离差(AvgDist)、最小距离差(MinDist)、平均角度差(AvgAng)。

参见图1-6，本发明实施例一提供的一种图像的视觉注意力捕捉方法，包括以下步骤：

具体的，所有路径的最后一层的激活函数均为sigmoid函数，而网络中其他的激活函数均为ReLU。三个路径的输出均是大小为13×13的特征图，通过特征图中元素对应相乘进行融合，得到最终的人的注视位置。

进一步的，如图2所示，所述步骤S1包含以下步骤：

S11.采用ImageNet数据集预训练卷积神经网络；

S12.将卷积神经网络中的至少两个原始全连接层更换为一个大小为500的全连接层，以学习头部特写图像的特征；

S13.将头部特写图像输入所述卷积神经网络，得到所述头部特写图像的特征，然后将所述头部特写图像的特征与头部位置坐标连接起来输入三个大小分别为400、200和169的全连接层来估计一个粗略的注视区域。

再进一步的，所述步骤S2包含以下步骤：

S21.采用在Place365数据集上预训练的卷积神经网络；

S22.保留卷积神经网络的卷积层，并采用微金字塔模块替换全连接层，构成改进型卷积神经网络；

S23.将整幅图像输入所述改进型卷积神经网络来估计图像场景中物体的显著度。

其中，所述步骤S22中的微金字塔模块的处理步骤包括：

S221.通过侧连接层接收并处理卷积神经网络的最后一个卷积层输出的低尺度特征，以实现对输入的低尺度特征进行去噪；

S221’.通过上卷积层接收并处理对所述低尺度特征执行了卷积操作后得到的高尺度特征，以实现将高尺度特征的尺寸由6×6修改为13×13，使其可以和侧连接层输出的尺寸为13×13的低尺度特征进行加法计算；

S222.对所述上卷积层和所述侧连接层的处理结果进行加法融合后输入平滑层进行处理，以实现对输出数据的去噪，最终输出蕴含多尺度特征信息的高级特征。

具体的，图6中“c1”表示卷积神经网络(如Alexnet网络)的最后一个卷积层(conv5层)的输出，“c2”是通过对“c1”执行卷积操作获得的。“c2”和“c1”分别由上卷积层(例如，其由一个1×1的卷积操作构成)和侧连接层(例如，其由一个上采样操作和一个2×2卷积操作构成)处理，然后通过加法融合得到“p2”。最终输出的“p1”是通过平滑层(其由一个3×3的卷积操作构成)对“p2”进行去噪处理获得的蕴含多尺度特征信息的高级语义特征。需要注意的是，本发明将微金字塔模块嵌入到显著性路径和关系路径中，利用了神经网络固有的多尺度结构融合高、低尺度特征来获得丰富的特征信息。

上述方法将微金字塔模块与现有卷积神经网络融合，能够有效地挖掘图像不同尺度的特征，进而可以准确估计出显著度信息(Saliency Heatmap)。

进一步的，如图2所示，所述步骤S3包括以下步骤：

S31.采用PASCAL VOC和MS COCO数据集预训练关系特征提取模型；

S32.将整体图像输入所述关系特征提取模型中，得到关系图特征；

S33.将所述关系图特征归一化到[0,1]范围内；

S34.将归一化后的所述关系图特征输入所述改进型卷积神经网络，估计图像中人与人或人与物之间的关系信息。

其中，如图5所示，所述步骤S32中所述关系特征提取模型的处理步骤包括：

S321.输入整幅图像，利用子区域提取网络提取感兴趣区域；

S322.对所述感兴趣区域进行池化操作提取场景信息；

S323.对所述感兴趣区域进行映射操作提取区域特征；

S324.将所述区域特征经过池化操作和全连接层处理后作为顶点信息；

S325.将所述区域特征进行拼接操作后作为边信息；

S326.利用循环神经网络将所述场景信息、所述顶点信息和所述边信息进行融合处理，得到所述关系图特征。

具体的，关系特征提取模型以整幅图像为输入，利用子区域提取网络提取感兴趣区域(ROI)(如图中矩形框所示区域)，然后分别利用ROI池化操作和ROI映射操作提取场景信息和ROI区域特征。将ROI特征经过池化和全连接层处理后作为顶点信息，ROI特征拼接作为边信息，并利用循环神经网络(GRU)将所有信息融合处理得到关系图特征。得到关系图特征后，将其归一化并输入到改进的Alexnet网络(其结构细节与显著性路径中改进的Alexnet网络相同)得到关系信息(Relation Heatmap)。

上述方法利用关系特征提取模型将图像中的语义关系信息引入视觉注意力捕捉，有效提高了对图像中人的注意力判断的准确性。

优选的，所述步骤S4中采用元素相乘对所述第一路径、所述第二路径和所述第三路径的输出结果进行融合；

在其他实施例中，还可以采用元素相加或者拼接的方式对所述第一路径、所述第二路径和所述第三路径的输出结果进行融合。

具体的，申请人测试了可以整合三个路径的融合策略，如上述的加法融合、拼接融合和乘法融合。其中加法融合的效果最差，而拼接融合和乘法融合的结果相同。

为了在拼接融合和乘法融合之间选择一个相对较好的策略，申请人进一步测试了这两种融合策略在两个数据集上的收敛速度。

具体的，乘法融合是将三个路径输出的三个13×13大小的特征图对应元素相乘，得到一个融合了三个路径输出结果的特征图，大小仍为13×13。拼接操作是将三个路径输出的三个13×13大小的特征图横向拼接，得到一个大小为13×39的特征图，然后将其每行依次首尾相接形成一个大小为507的一维向量，再采用一个大小为169全连接层对其处理将其变换为169大小的一维向量，再按拼接时首尾相接的逆操作将此一维向量转换为13×13大小的特征图，该特征图也是融合了三个路径输出结果的信息。采用这两者融合策略都是希望三个路径输出的特征图的值大的位置融合后特征值依然大。

如附图7所示，图中虚线曲线代表TP-Net网络采用乘法融合策略时的网络收敛曲线，实线曲线为TP-Net网络采用拼接融合策略时的网络收敛曲线，对比两条曲线的下降趋势可以看出，随着迭代次数(图7中记为epoch)的增加，乘法融合策略的目标函数损失值(图7中记为Loss)下降更快，且没有震荡。这意味着乘法融合策略收敛速度更快。因此，申请人选择它作为TP-Net的最优融合策略。

具体的，注视路径、显著性路径和关系路径可以分别获取图像不同侧面的信息，因此将三个路径进行融合来构建TP-Net网络，可以较为有效的解决图像中的视觉注意力的捕捉问题。申请人通过实验测试了几种不同的融合策略，然后选择了一种效果较好的融合策略，即上述的元素相乘。将原始图像记为x_ｉ，头部特写图像记为x_ｈ，头部位置坐标记为x_p，三个路径的融合方式如公式(1)所示：

H＝F(G(x_h,x_p)·S(x_i)·R(x_i)) (1)

其中F表示全连接层，G、S、R分别代表注视、显著性和关系路径的输出。最终输出的注意力捕捉结果为H。H是和输入图像尺寸大小一致的一个概率图。在H中，某点是注视目标的可能性越大，H中相应位置的概率值越接近于1，反之，越接近于0。

优选的，所述步骤S1至S4中，所述卷积神经网络为Alexnet网络。在其他优选的实施例中，其卷积神经网络也可以采用vgg网络或者GoogLeNet网络。

具体的，申请人使用PyTorch来实现TP-Net。为了更好地训练模型，首先通过翻转和随机裁剪来增加训练图像的数量，并将图像大小统一调整为227×227。所有输入数据都规范化到[0,1]范围。在模型训练过程中，采用动量设置为0.9的随机梯度下降法对网络参数进行优化。迭代次数(epoch)设置为200次，批大小(batch size)设置为50。实验中所采用的两个数据集差异较大，因此在两个数据集上进行实验时，申请人分别对模型的学习率和权值衰减(weight decay)参数设置了不同的值。由于GazeFollow数据集比较大，申请人将学习率设置为5×10^-3，权重衰减参数设置为每10个迭代学习率衰减20％。而对于DLGaze数据集，为了使网络更好地收敛，申请人设置学习率为3×10^-3，权值衰减设置为0。

如图3所示，本发明实施例二提供一种图像的视觉注意力捕捉系统，包括第一路径单元、第二路径单元、第三路径单元和分别与三者连接的融合单元。其中：

进一步的，所述第一路径单元中卷积神经网络的至少两个原始全连接层更换为一个大小为500的全连接层，以学习头部特写图像的特征。例如采用了alexnet网络时，其全连接层恰好是两个，那么就将其2个全连接层换为大小为500的一个全连接层。若采用其他卷积神经网络，如采用vgg网络或者GoogLeNet网络，其包含的全连接层不只两个，那么其中至少有两个全连接层会被替换。

所述第二路径单元与所述第三路径单元中的改进型卷积神经网络包括卷积神经网络的卷积层和替换全连接层的微金字塔模块。相较于一般的卷积神经网络，不仅可以提高视觉注意力捕捉的精度，还可以提高三路径深度网络的计算速度。

所述第三路径单元包括：特征提取器和与其相连的所述改进型卷积神经网络。

在优选的实施例中，微金字塔模块包括：相互平行设置的上卷积层和侧连接层，以及与二者分别连接的加法融合部和接收融合后信息数据的平滑层。

侧连接层用于接收卷积神经网络的最后一个卷积层输出的低尺度特征并对其进行去噪；

上卷积层用于接收对所述低尺度特征执行了卷积操作后的得到的高尺度特征，并将该高尺度特征的尺寸6×6扩大为与低尺度特征13×13相同，以便于二者相加；

微金字塔模块对上卷积层和侧连接层的处理结果进行加法融合，再通过平滑层对处理后的数据进行去噪，最终输出蕴含多尺度特征信息的高级特征。

具体的，显著性路径采用在Place365数据集上预训练的Alexnet，并对其进行改进以学习整体图像的特征。在实际实施中，仅保留Alexnet的前5个卷积层，并添加一个3×3个卷积层和一个微金字塔模块。在微金字塔模块中，上卷积层由一个上采样层和一个2×2卷积层组成，侧连接层和平滑层的卷积核尺寸分别为1×1和3×3。

在优选的实施例中，关系特征提取模型包括：子区域提取网络和分别与所述子区域提取网络连接的池化模块和映射模块；还包括全连接层和循环神经网络。

整幅图像输入关系特征提取模型后，子区域提取网络对输入的图像提取感兴趣区域。

池化模块对感兴趣区域进行池化操作以提取场景信息；

映射模块对所述感兴趣区域进行映射操作以提取区域特征；

其中，区域特征经过池化操作和全连接层处理后作为顶点信息；

同时，区域特征经过拼接操作后作为边信息；

循环神经网络(GRU)用于将所述场景信息、所述顶点和所述边信息进行融合处理，得到所述关系图特征。

本发明实施例三提供一种可读存储介质，所述可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上所述任一一项所述基于三路径深度网络的视觉注意力捕捉方法的步骤。

上述技术方案的技术效果在于：

本发明捕捉方法融合了三种不同路径所得的估计结果以保证更为准确有效的判断出机器人视觉图像中人的注意力方向，使机器可以更为准确的理解他人的意图、分析他人的社会行为。并进一步满足在虚拟现实、人机交互、行为监控和电子游戏等实际应用中对机器人视觉的需求。

进一步的，本发明设计了一种基于三路径深度网络TP-Net来估计图像中人的注视目标。TP-Net通过融合场景中人与人或者人与物之间的关系信息、场景显著性信息和头部信息来预测图像中人的注视目标，并通过微金字塔模块来有效捕获网络训练过程中学习到的多尺度特征，且能较好地解决图像中视觉注意力捕捉中人脸的模糊和被遮挡的问题。

同时，本发明所设计的注意力捕捉方法无需预设约束条件的、可以利用对象级关系信息的视觉注意力捕捉方法。该方法可以同时融合人的信息(如头部位置)、场景显著性信息和人与物之间的高层关系信息，来预测图像或者视频中人的注视目标。具体的，第一路径利用头部特写图像和头部位置信息来预测粗略的注视区域；第二路径以整幅图像作为输入来估计场景中物体的显著度；第三路径用于学习图像中人与物之间的关系信息；然后，通过融合三个路径来估计人的注视方向和目标。

为了证明和更好地理解本申请所提出的TP-Net中各个路径和模块的重要性，本专利测试了TP-Net中不同组件的性能。使用Recasens et al.作为基线架构，并通过向基线架构中添加不同的模块来逐步构建不同的网络。这些构建的网络如下：1)Baseline+pyramid：将微金字塔模块分别引入基线架构(Baseline代表基线架构，基线架构仅含有注视路径和显著度路径，没有关系路径)的两条路径中；2)Baseline+relation：在基线架构中添加关系路径；3)Baseline+relation+pyramid：先将关系路径引入基线架构，再将微金字塔模块嵌入各个路径。附图8至表附图11给出了消融实验(消融实验是指在基线架构中逐步添加关系路径和微金字塔模块构成不同的网络结构，然后对不同网络结构的性能进行比较)的结果，其中“Gazepath”、“Salpath”和“Rnpath”分别代表注视路径、显著性路径和关系路径。

申请人在实验中所采用的注意力捕捉结果的精度评价指标为：面积(AUC)、平均距离差(AvgDist)、最小距离差(MinDist)、和平均角度差(AvgAng)，AUC值越大代表注意力捕捉的结果精度越高，而AvgDist、MinDist和AvgAng的值越小代表结果精度越高。从附图8和附图9中所示的实验结果可以看出，当微金字塔模块添加到注视路径，注意力捕捉结果的精度会下降，而当微金字塔模块添加到显著性路径或同时添加到显著性路径和注视估计路径时，注意力捕捉结果的精度会有所提高。其中，将微金字塔模块仅添加到显著性路径时获得了最优结果。产生这种现象的原因在于，微金字塔模块可以将不同大小的目标对象的特征在多个尺度上进行整合，获得高级语义信息，增强网络的可识别性，有利于目标检测和实例分割任务。这一特性更符合显著性路径的要求。因此，在显著性路径中加入微金字塔模块可以有效提高网络性能。

附图10和附图11的结果表明在网络上中添加关系路径可以有效提高网络性能，这说明关系信息对注意力捕捉任务具有重要价值。在此基础上，进一步将微金字塔模块添加到网络所有的路径中，结果表明，当仅在显著性路径和关系路径中加入微金字塔模块，而不加入注视路径时，网络获得了最佳性能，这也是本专利设计的TP-Net的最终架构。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种图像的视觉注意力捕捉方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于三路径深度网络的视觉注意力捕捉方法，其特征在于，所述步骤S1包含以下步骤：

S11.采用ImageNet数据集预训练卷积神经网络；

3.如权利要求1所述的基于三路径深度网络的视觉注意力捕捉方法，其特征在于，所述步骤S2包含以下步骤：

S21.采用在Place365数据集上预训练的卷积神经网络；

4.如权利要求3所述的基于三路径深度网络的视觉注意力捕捉方法，其特征在于，所述步骤S22中的微金字塔模块的处理步骤包括：

S221.通过侧连接层接收并处理卷积神经网络的最后一个卷积层输出的低尺度特征；

S221’.通过上卷积层接收并处理对所述低尺度特征执行了卷积操作后得到的高尺度特征；

S222.对所述上卷积层和所述侧连接层的处理结果进行加法融合后输入平滑层进行处理，输出蕴含多尺度特征信息的高级特征。

5.如权利要求1所述的基于三路径深度网络的视觉注意力捕捉方法，其特征在于，所述步骤S3包括以下步骤：

S31.采用PASCAL VOC和MS COCO数据集预训练关系特征提取模型；

S33.将所述关系图特征归一化到[0,1]范围内；

6.如权利要求5所述的基于三路径深度网络的视觉注意力捕捉方法，其特征在于，所述步骤S32中所述关系特征提取模型的处理步骤包括：

S321.输入整幅图像，利用子区域提取网络提取感兴趣区域；

S322.对所述感兴趣区域进行池化操作提取场景信息；

S323.对所述感兴趣区域进行映射操作提取区域特征；

S325.将所述区域特征进行拼接操作后作为边信息；

7.如权利要求6所述的基于三路径深度网络的视觉注意力捕捉方法，其特征在于，所述步骤S4中采用元素相乘或者元素相加或者拼接对所述第一路径、所述第二路径和所述第三路径的输出结果进行融合；

所述步骤S1至S4中，所述卷积神经网络为Alexnet网络、vgg网络或者GoogLeNet网络。

8.一种图像的视觉注意力捕捉系统，其特征在于，包括：

9.如权利要求8所述的图像的视觉注意力捕捉系统，其特征在于，所述第一路径单元中卷积神经网络的至少两个原始全连接层更换为一个大小为500的全连接层，以学习头部特写图像的特征；

所述第二路径单元与所述第三路径单元中的改进型卷积神经网络包括卷积神经网络的卷积层和替换全连接层的微金字塔模块；

所述第三路径单元包括：特征提取模型和与其相连的所述改进型卷积神经网络。

10.一种可读存储介质，所述可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。