CN112734820B

CN112734820B - 注视目标估计的方法和装置、电子设备、神经网络结构

Info

Publication number: CN112734820B
Application number: CN202110331364.8A
Authority: CN
Inventors: 於其之; 金天磊
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2021-03-29
Filing date: 2021-03-29
Publication date: 2021-08-03
Anticipated expiration: 2041-03-29
Also published as: CN112734820A

Abstract

本发明公开了一种注视目标估计的方法和装置、电子设备、神经网络结构，该方法包括：获取场景图像和场景图像中待处理人物的头部位置掩膜，从场景图像和头部位置掩膜提取场景特征和多层中间特征；将场景特征依次进行深度估计及多次上采样后与多层中间特征融合，获得深度辅助特征；根据头部位置掩膜从场景图像中获取头部图像，再从头部图像提取头部特征；根据头部特征计算视线辅助特征，将头部特征与视线辅助特征融合，获得视线特征；将场景特征与视线特征依次进行拼接、解码后与深度辅助特征融合，融合后进行特征转换输出注视目标位置。本发明提升了单目图像中人物的注视目标估计的准确率，适用于提高人机交互系统的意图识别能力。

Description

注视目标估计的方法和装置、电子设备、神经网络结构

技术领域

本发明涉及计算机领域，尤其涉及一种注视目标估计的方法和装置、电子设备、神经网络结构。

背景技术

注视目标估计，即检测图像中给定人物所注视的目标，是人机交互系统的一项重要功能。人机交互系统通过估计人物的注视目标，能够更加准确的理解人物当前的兴趣点，以及更加准确的预测人物后续的行为。基于单目图像的注视目标估计的方法对图像采集设备要求较低，具有广泛的应用前景。

现有的基于单目图像的注视目标估计的方法的基本思路是沿视线的投影方向寻找显著目标。当沿视线的投影方向存在多个显著目标时，现有方法识别准确率较低，其原因是现有方法没有考虑视线与显著目标在深度方向的相对位置关系。

发明内容

本发明实施例的目的是提出一种注视目标估计的方法和装置、电子设备、神经网络结构，以解决当沿视线的投影方向存在多个显著目标时，现有的基于单目图像的注视目标估计的方法准确率较低的问题。

为了达到上述目的，本发明实施例所采用的技术方案来如下：

第一方面，本发明实施例提供一种注视目标估计的方法，包括：

获取场景图像和所述场景图像中待处理人物的头部位置掩膜，从所述场景图像和所述头部位置掩膜提取场景特征和多层中间特征；

将所述场景特征依次进行深度估计及多次上采样后与所述多层中间特征融合，获得深度辅助特征；

根据所述头部位置掩膜从所述场景图像中获取头部图像，再从所述头部图像提取头部特征；

根据所述头部特征计算视线辅助特征，将所述头部特征与所述视线辅助特征融合，获得视线特征；

将所述场景特征与所述视线特征依次进行拼接、解码后与所述深度辅助特征融合，融合后进行特征转换输出注视目标位置。

第二方面，本发明实施例提供一种注视目标估计装置，包括：

第一特征提取模块，用于获取场景图像和所述场景图像中待处理人物的头部位置掩膜，从所述场景图像和所述头部位置掩膜提取场景特征和多层中间特征；

第二特征提取模块，用于将所述场景特征依次进行深度估计及多次上采样后与所述多层中间特征融合，获得深度辅助特征；

第三特征提取模块，用于根据所述头部位置掩膜从所述场景图像中获取头部图像，从所述头部图像提取头部特征；

第四特征提取模块，用于根据所述头部特征计算视线辅助特征，将所述头部特征与所述视线辅助特征融合，获得视线特征；

输出模块，用于将所述场景特征与所述视线特征依次进行拼接、解码后与所述深度辅助特征融合，融合后进行特征转换输出注视目标位置。

第三方面，本发明实施例提供一种电子设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的方法。

第四方面，本发明实施例提供一种用于注视目标估计的神经网络结构，包括：

场景卷积网络，由多个残差网络和池化层组成，输入为场景图像和所述场景图像中待处理人物的头部位置掩膜，末端输出为场景特征，中间基于每一次池化的结果输出多层中间特征；

深度辅助网络，由深度估计卷积网络和多个上采样卷积网络组成，输入为所述场景特征，通过所述深度估计卷积网络后获得所述深度估计的输出，再将所述深度估计的输出输入到上采样卷积网络中，融合对应特征尺度的多层中间特征，输入到下一个上采样卷积网络中，如此依次融合，最终输出深度辅助特征；

头部卷积网络，由多个残差网络和池化层组成，输入为根据所述头部位置掩膜从所述场景图像中获取的头部图像，从所述头部图像提取头部特征以输出；

视线辅助网络，由卷积网络组成，输入为所述头部特征，根据所述头部特征计算视线辅助特征，将所述头部特征与所述视线辅助特征融合，最终输出视线特征；

输出模块，将所述场景特征与所述视线特征依次进行拼接、解码后与所述深度辅助特征融合，融合后进行特征转换输出注视目标位置。

第五方面，本发明实施例提供一种用于注视目标估计的神经网络结构的训练方法，包括：

使用单目图像深度估计方法生成标注图像的深度图像，所述标注图像包含头部位置标注和注视目标标注；

将所述深度图像作为训练时所述深度辅助网络的标签；

根据所述头部位置标注和注视目标标注，以及所述深度图像，计算头部和注视目标在三维空间中的相对位置，将所述相对位置作为训练时所述视线辅助网络的标签；

其中训练的损失函数

为：

其中，

为深度部分损失；

为视线方向损失；

为视线目标位置损失，

、

、

均为损失函数权重。

本申请的实施例提供的技术方案可以包括以下有益效果：

由上述实施例可知，现有的基于单目图像的注视目标估计的方法在沿视线方向存在多个显著物体时准确率较低，而本发明实施例通过从图像中提取深度辅助特征和视线辅助特征，充分挖掘并利用了单目图像中隐含的待估计人物的头部和场景中的物体在三维空间中的相对位置关系，从而提高了沿视线方向存在多个显著物体时的注视目标估计的准确率。本发明适用提高人机交互系统对人物的注视意图的理解能力。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明实施例提供的一种注视目标估计的方法的流程图；

图2是本发明实施例提供的注视目标估计网络构架的示意图；

图3是本发明实施例提供的步骤S101的流程图；

图4是本发明实施例提供的深度辅助网络的示意图；

图5是本发明实施例提供的步骤S102的流程图；

图6是本发明实施例提供的视线辅助网络的示意图；

图7是本发明实施例提供的步骤S105的流程图；

图8是本发明实施例提供的一种注视目标估计的装置的框图。

图9是本发明实施例提供的一种用于注视目标估计的神经网络结构的训练方法的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应该理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

相反，本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本发明有更好的了解，在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

实施例1：

图1是本发明实施例提供的一种注视目标估计的方法的流程框图，图2是本发明实施例提供的注视目标估计网络构架的示意图；本发明实施例提供一种注视目标估计的方法，参考图1和图2，该方法可以包括以下步骤：

步骤S101，获取场景图像和所述场景图像中待处理人物的头部位置掩膜，从所述场景图像和所述头部位置掩膜提取场景特征和多层中间特征；图3是本发明实施例提供的步骤S101的流程图，参考图3，该步骤具体可以包括以下子步骤：

步骤S1011，获取场景图像和所述场景图像中待处理人物的头部位置掩膜；

具体地，在本实施例中，将所述场景图像的尺寸可以调整为224×224。所述头部位置掩膜可以使用224×224的图像表达，所述图像中头部包围盒内部像素为255，头部包围盒以外的像素值为0。

步骤S1012，将所述场景图像和所述头部位置掩膜提供给场景卷积网络，其中所述场景卷积网络为多层次主干网络，所述场景卷积网络末端输出场景特征；

具体地，所述场景卷积网络可以使用具有50个卷积层的深度残差网络Res2Net-50进行特征提取，末端增加额外的残差卷积层和均值池化层，输出的场景将特征尺寸为7×7×1024。

步骤S1013，输出所述多层次主干网络不同层次的特征，获得多层中间特征。

具体地，所述场景图像输入到所述多层次主干网络中，在经过第2层卷积网络后，进入第一个池化层，得到尺寸为64×64×128的第一中间特征；将所述第一中间特征在经过第6个卷积层残差网络后，进入第二个池化层，得到尺寸为31×31×256的第二中间特征；所述第二中间特征在经过第40个卷积层残差网络后，进入第三个池化层，得到尺寸为15×15×512的第三中间特征。所述第一中间特征、第二中间特征和第三中间特征组成了多层中间特征。

图4是本发明实施例提供的深度辅助网络的示意图；图5是本发明实施例提供的步骤S102的流程图；参考图4和图5，针对步骤S102，将所述场景特征依次进行深度估计及多次上采样后与所述多层中间特征融合，获得深度辅助特征；具体可以包括以下子步骤：

步骤S1021，将所述场景特征提供给深度估计卷积网络进行深度估计；

具体地，将所述场景支路中场景卷积网络输出的特征输入深度估计卷积网络。

步骤S1022，将所述深度估计卷积网络的输出提供给多个相连的上采样卷积网络；

具体地，所述深度估计卷积网络输出端连接上采样卷积网络，该上采样卷积网络可以将尺寸为7×7×1024的场景特征减少特征通道，增大特征尺寸，输出尺寸为64×64×128的特征。

步骤S1023，将所述多层中间特征与所述多个相连的上采用卷积网络的多个输出依次分别融合，获得深度辅助特征。

具体地，将所述场景支路中场景卷积网络中间层特征输入所述上采用卷积网络，获得深度辅助特征。

该步骤还可以包括将所述上采样卷积网络输出端连接第一特征转换网络，所述第一特征转换网络输出深度图像；该第一特征转换网络由一个平均池化层构成，用于将特征尺寸调整为64×64×1。

步骤S103，根据所述头部位置掩膜从所述场景图像中获取头部图像，再从所述头部图像提取头部特征；

具体地，根据所述头部位置掩膜从所述场景图像中获取头部图像，将所述头部图像输入头部卷积网络，输出头部特征；在本实施例中，所述头部卷积网络可以使用具有50个卷积层的深度残差网络Res2Net-50进行特征提取，末端增加额外的残差卷积层和均值池化层，将特征调整为尺寸为7×7×1024的头部特征。

图6是本发明实施例提供的视线辅助网络的示意图，参考图6，针对步骤S104，根据所述头部特征计算视线辅助特征，将所述头部特征与所述视线辅助特征融合，获得视线特征；

具体地，将所述7×7×1024头部特征提供给视线辅助网络计算视线辅助特征；所述视线辅助网络由三层卷积网络组成，用于进一步提取特征，输出7×7×1024的视线辅助特征。具体地，特征的融合可以为相加方式的融合，融合后得到视线特征尺寸为7×7×1024。

该步骤后还可包括：将所述视线辅助特征提供给第二特征转换网络进行特征转换，输出相对位置。

图7是本发明实施例提供的步骤S105的流程图；针对步骤S105，将所述场景特征与所述视线特征依次进行拼接、解码后与所述深度辅助特征融合，融合后进行特征转换输出注视目标位置；具体可以包括以下子步骤：

步骤S1051，将所述场景特征与所述视线特征进行拼接；

具体地，所述场景特征尺寸7×7×1024，所述视线特征尺寸7×7×1024，拼接后输出的特征尺寸7×7×2048。

步骤S1052，将所述拼接的特征提供给解码器进行解码，所述解码器由多个转置卷积组成；

具体地，所述解码器由三个个转置卷积层组成，所述解码后特征的尺寸为64×64×128。

步骤S1053，将所述解码的特征与所述深度辅助特征进行融合；

具体地，所述融合的方式可以为相加方式的方式融合，所述融合后的特征尺寸为64×64×128。

步骤S1054，将所述融合的特征提供给第三特征转换网络进行特征转换输出注视目标热图；

具体地，所述第三特征转换网络由两个1×1卷积层构成，用于将所述融合的特征调整为尺寸为64×64×1的注视目标热图。

步骤S1055，在所述目标热图中取最大值所在的位置为注视目标位置。

具体地，所述目标热图的值表达了注视目标在图像上的分布概率，因此取最大值所在的位置为估计的注视目标位置。

实施例2：

与前述的一种注视目标估计的方法的实施例相对应，本申请还提供了一种注视目标估计装置的实施例。

图8是根据一示例性实施例示出一种注视目标估计装置框图。参照图8，该装置包括：

第一特征提取模块21，用于获取场景图像和所述场景图像中待处理人物的头部位置掩膜，从所述场景图像和所述头部位置掩膜提取场景特征和多层中间特征；

第二特征提取模块22，用于将所述场景特征依次进行深度估计及多次上采样后与所述多层中间特征融合，获得深度辅助特征；

第三特征提取模块23，用于根据所述头部位置掩膜从所述场景图像中获取头部图像，从所述头部图像提取头部特征；

第四特征提取模块24，用于根据所述头部特征计算视线辅助特征，将所述头部特征与所述视线辅助特征融合，获得视线特征；

输出模块25，用于将所述场景特征与所述视线特征依次进行拼接、解码后与所述深度辅助特征融合，融合后进行特征转换输出注视目标位置。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

相应的，本申请还提供一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述的一种注视目标估计的方法。

相应的，本申请还提供一种计算机可读存储介质，其上存储有计算机指令，其特征在于，该指令被处理器执行时实现如上述的一种注视目标估计的方法。

实施例3：

本发明实施例还提供一种用于注视目标估计的神经网络结构，包括：

上述处理过程的细化描述，请参考实施例1，这里不再进行赘述。

实施例4：

图9是本发明实施例提供的一种用于注视目标估计的神经网络结构的训练方法的流程图。参考图9，本发明实施例还提供上述的一种用于注视目标估计的神经网络结构的训练方法，该方法可以包括：

步骤S201，使用单目图像深度估计方法生成标注图像的深度图像，所述标注图像包含头部位置标注和注视目标标注；

具体地，本实施例使用公开的GazeFollow数据集中的标注图像。本实施例使用文献Towards Robust Monocular Depth Estimation: Mixing Datasets for Zero-shotCross-dataset Transfer（发表于 IEEE Transactions on Pattern Analysis andMachine Intelligence, 2020年8月）所公开的单目图像深度估计方法生成所述标注图像的深度图像。该方法处理有人的室内场景时，所输出的深度质量较高。

步骤S202，将所述深度图像作为训练时所述深度辅助网络的标签；

步骤S203，根据所述头部位置标注和注视目标标注，以及所述深度图像，计算头部和注视目标在三维空间中的相对位置，将所述相对位置作为训练时所述视线辅助网络的标签；

具体地，本实施例中，通过头部位置标注在所述深度图像中获取三维空间位置（x1,y1,depth1），通过注视目标标注在所述深度图像中获取三维空间位置（x2，y2, depth2），取两个位置的差值为头部和注视目标在三维空间中的相对位置

。

本实施例中，训练的损失函数为：

其中，

为深度部分损失，由对数空间下的均方误差计算方法计算；

为视线方向损失，由数据归一化后的均方误差计算方法计算；

为视线目标位置损失，由所述注视目标估计网络模型估计的目标位置热图与所述注视目标标注通过二维高斯函数生成的热图通过均方误差计算方法计算。训练时，以注视目标位置估计为主要任务设定损失函数权重为

=100，

=100，

=10000，学习率设置为0.0004。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。