CN113408511A

CN113408511A - 一种确定注视目标的方法、系统、设备及存储介质

Info

Publication number: CN113408511A
Application number: CN202110964803.9A
Authority: CN
Inventors: 刘景泰; 胡郑希; 张千一; 吴仕超; 杨定也; 程石磊
Original assignee: Nankai University
Current assignee: Nankai University
Priority date: 2021-08-23
Filing date: 2021-08-23
Publication date: 2021-09-17
Anticipated expiration: 2041-08-23
Also published as: CN113408511B

Abstract

本发明实施例提供了一种确定注视目标的方法、系统、设备及存储介质，方法包括：将头部图片、头部位置掩码和注视向量空间拼接，获得第一输入参量，将第一输入参量输入到用于特征提取的第一主干网络中，以使第一主干网络对第一输入参量进行特征提取，获得第一主干网络输出的第一注视向量空间特征，将第一注视向量空间特征输入到粗粒度模块中，以使粗粒度模块对第一注视向量空间特征进行编码处理，获得粗粒度模块输出的粗粒度的第一三维注视向量，将第一三维注视向量和注视向量空间做矩阵乘法后获得注视区域热图，基于第一注视向量空间特征确定注视目标。本发明实现了对三维空间的场景信息的充分利用，使得本发明可以应用于广泛的三维场景中。

Description

一种确定注视目标的方法、系统、设备及存储介质

技术领域

本发明涉及人机交互领域，特别是涉及一种确定注视目标的方法、系统、设备及存储介质。

背景技术

人的注视分析作为人机交互的重要组成部分，人的视线不仅反映了人的关注区域和目标，还可以反映人的意图和心理活动。伴随科学技术的发展，对注视目标的分析已经成为各类科技公司的研究热点，以使其更好的满足各类应用场景。

现阶段确定注视目标的方法，主要是利用概率图模型对二维场景中的场景信息和人类骨骼信息进行提取分析，从而获得场景点云中的潜在意图、注视方向和注视目标。然而，由于现有技术只能结合人类骨骼信息对二维场景的场景信息进行提取，难以部署于广泛的三维应用场景中。因此如何针对三维场景信息进行提取，从而实现确定注视目标，已经成为当前研发人员迫切要解决的问题。

发明内容

本发明实施例的目的在于提供一种确定注视目标的方法、系统、设备及存储介质，以实现确定三维场景中的注视目标。具体技术方案如下：

一种确定注视目标的方法，所述方法包括：

将头部图片、头部位置掩码和注视向量空间在通道维度上拼接，获得第一输入参量。

将所述第一输入参量输入到用于特征提取的第一主干网络中，以使所述第一主干网络对所述第一输入参量进行特征提取。

获得所述第一主干网络输出的第一注视向量空间特征，将所述第一注视向量空间特征输入到粗粒度模块中，以使所述粗粒度模块对所述第一注视向量空间特征进行编码处理。

获得所述粗粒度模块输出的粗粒度的第一三维注视向量，将所述第一三维注视向量和所述注视向量空间做矩阵乘法后获得注视区域热图。

基于所述第一注视向量空间特征确定注视目标。

可选的，所述方法还包括：

利用深度相机对目标场景进行采集，获得场景图片和第一深度图片。

利用预设头部检测算法从所述场景图片中提取所述头部图片和第一位置，其中，所述第一位置为所述目标场景中眼睛的位置。

利用预设头部掩码生成算法对所述头部图片进行转换，获得所述头部位置掩码。

利用预设配准算法对所述场景图片和所述第一深度图片进行配准，获得配准后的第二深度图片。

利用所述第二深度图片、所述深度相机的参数和所述第一位置构建所述注视向量空间。

可选的，所述方法还包括：

将所述场景图片、所述注视区域热图和所述头部位置掩码作为第四输入参量输入到用于特征提取的第三主干网络中，以使所述第三主干网络对所述第四输入参量进行特征提取。

获得所述第三主干网络输出的视觉显著性特征，将所述视觉显著性特征与头部注意力的映射图做乘法后获得带有注意力的视觉显著性特征，其中，所述头部注意力的映射图为头部特征与头部位置特征经过全连接层改变形状后获得，所述头部特征由预设头部路径提取模型从所述头部图片中提取获得，所述头部位置特征为所述头部位置掩码经过预设池化算法池化后获得。

可选的，所述基于所述第一注视向量空间特征确定注视目标，具体包括：

将所述第一注视向量空间特征、所述头部特征和所述带有注意力的视觉显著性特征作为第二输入参量，输入到细粒度模块中，所述细粒度模块对所述第二输入参量进行编码处理获得细粒度的第二三维注视向量。

将所述第二三维注视向量和二维注视热图作为第三输入参量，由预设联合推断算法对所述第三输入参量在三维空间中进行推算处理，确定所述注视目标，其中，所述二维注视热图由预设编码器解码器架构对所述头部特征和所述带有注意力的视觉显著性特征进行编码解码后获得。

可选的，所述预设头部路径提取模型为第二主干网络，所述方法还包括：

将所述头部图片输入到用于特征提取的所述第二主干网络中，以使所述第二主干网络对所述头部图片进行特征提取。

获得所述第二主干网络输出的所述头部特征。

可选的，所述由预设联合推断算法对所述第三输入参量在三维空间中进行推算处理，确定注视目标，具体包括：

利用预设针孔相机模型将提议区域投射至所述三维空间中，获得位于所述三维空间中的所述提议区域内的注视向量集合，利用所述预设联合推断算法，选取所述注视向量集合中与所述第二三维注视向量拟合度最高的第三三维注视向量，将所述第三三维注视向量的指向点确定为所述注视目标，其中，所述提议区域的中心点为所述二维注视热图的最大值对应的位置，所述提议区域的长和宽均不大于所述二维注视热图的长和宽。

可选的，所述利用所述第二深度图片、所述深度相机的参数和所述第一位置构建所述注视向量空间，具体包括：

通过对所述第二深度图片添加两个通道，从而构建像素空间图片，其中，所述两个通道分别用于表示像素坐标系的横坐标和纵坐标。

将所述像素空间图片的两个通道表示的所述横坐标和纵坐标，经所述深度相机按照所述深度相机的参数处理后，投射到三维空间中，获得第一三维空间图片。

将所述第一三维空间图片减去所述第一位置后生成的第二三维空间图片进行正则化处理，获得所述注视向量空间。

一种确定注视目标的系统，所述系统包括：

参量获取模块，用于将头部图片、头部位置掩码和注视向量空间在通道维度上拼接，获得第一输入参量。

特征提取模块，用于将所述第一输入参量输入到用于特征提取的第一主干网络中，以使所述第一主干网络对所述第一输入参量进行特征提取。

粗粒度处理模块，用于获得所述第一主干网络输出的第一注视向量空间特征，将所述第一注视向量空间特征输入到粗粒度模块中，以使所述粗粒度模块对所述第一注视向量空间特征进行编码处理。

热图生成模块，用于获得所述粗粒度模块输出的粗粒度的第一三维注视向量，将所述第一三维注视向量和所述注视向量空间做矩阵乘法后获得注视区域热图。

注视目标确定模块，用于基于所述第一注视向量空间特征确定注视目标。

一种确定注视目标的设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器。

其中所述处理器被配置为执行所述指令，以实现如上述任一项所述的确定注视目标的方法。

一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如上述任一项所述的确定注视目标的方法。

本发明实施例提供的一种确定注视目标的方法、系统、设备及存储介质，通过构建注视向量空间，对深度相机采集的三维空间中的信息进行充分利用，使得本发明可直接对三维场景下的场景信息进行提取和利用。同时，本发明通过利用三维注视路径特征提取模型，结合上述注视向量空间，对三维场景提供的场景信息进行特征提取和处理，进而确定三维空间中的注视目标，实现了对三维空间的场景信息的充分利用，在无需结合额外的人类骨骼信息情况下确定三维空间中的注视目标，从而使得本发明可以应用于广泛的三维场景中。

当然，实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种确定注视目标的方法的流程图；

图2为本发明一可选实施例提供的一种确定注视目标的方法的示意图；

图3为本发明一可选实施例提供的一种二维注视热图的示意图；

图4为本发明一可选实施例提供的一种三维空间坐标系下的注视向量的示意图；

图5为本发明实施例提供的一种确定注视目标的系统的框图；

图6为本发明实施例提供的一种确定注视目标的设备的框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种确定注视目标的方法，如图1所示，包括：

S101、将头部图片、头部位置掩码和注视向量空间在通道维度上拼接，获得第一输入参量。

其中，上述头部图片由预设头部检测算法，通过对深度相机采集的场景图片中，头部所在位置进行提取处理获得的。

上述头部位置掩码由预设头部掩码生成算法，对上述头部图片进行转换处理获得的。具体的，上述转换处理为：预设头部掩码生成算法将头部图片数据化，并将头部图片中头部区域置1，其它场景区域置0，最终生成用于表征头部位置的掩码。

可选的，对于上述预设头部检测算法和预设头部掩码生成算法，以实现在本发明中的具体功能为准，本发明对上述两种算法的具体内容不做过多赘述和限定。

上述注视向量空间是一个表示三维空间中所有可能的注视向量的三通道图片，该三通道图片反应了三维空间中，由人眼到可视目标点之间的注视向量的数据集合。

可选的，本发明实施例中采用深度相机（RGB-D）进行图像采集，该相机能主动测量每个像素到相机平面的距离，且该相机可以通过内置算法将采集的普通三通道彩色场景图片和采集的第一深度图片进行配准，获得配准后的第二深度图片。

S102、将第一输入参量输入到用于特征提取的第一主干网络中，以使第一主干网络对第一输入参量进行特征提取。

其中，上述第一主干网络对第一输入参量进行特征提取，具体为：针对上述第一输入参量的三维注视路径特征进行提取。本步骤实现了对三维场景下的场景信息的充分利用，而无需结合人类骨骼信息实现对注视目标的确定。

可选的，在本发明的一可选实施例中，上述第一主干网络采用50层的残差神经网络结构（Resnet-50），对于上述第一主干网络采用何种结构，以实现本发明目的为准，本发明对此不做过多限制。

S103、获得第一主干网络输出的第一注视向量空间特征，将第一注视向量空间特征输入到粗粒度模块中，以使粗粒度模块对第一注视向量空间特征进行编码处理。

其中，上述粗粒度模块是由编码器和全连接层组成的，用于对上述第一注视向量空间特征进行编码处理，以生成经粗略处理后的粗略的第一三维注视向量。

S104、获得粗粒度模块输出的粗粒度的第一三维注视向量，将第一三维注视向量和注视向量空间做矩阵乘法后获得注视区域热图。

其中，上述注视区域热图用以表示三维空间中的可视区域被注视的程度。

S105、基于第一注视向量空间特征确定注视目标。

可选的，上述方法还包括：

利用预设头部检测算法从场景图片中提取头部图片和第一位置，其中，第一位置为目标场景中眼睛的位置。

利用预设头部掩码生成算法对头部图片进行转换，获得头部位置掩码。

利用预设配准算法对场景图片和第一深度图片进行配准，获得配准后的第二深度图片。

利用第二深度图片、深度相机的参数和第一位置构建注视向量空间。

其中，上述深度相机的参数包括内参和外参，上述内参数据包括深度相机的光心和焦距，上述外参数据包括深度相机的空间坐标系和旋转矩阵。需要说明的是，上述深度相机的参数为本领域人员所公知的技术参数，本发明在此不做过多赘述。

可选的，上述方法还包括：

将场景图片、注视区域热图和头部位置掩码作为第四输入参量输入到用于特征提取的第三主干网络中，以使第三主干网络对第四输入参量进行特征提取。

获得第三主干网络输出的视觉显著性特征，将视觉显著性特征与头部注意力的映射图做乘法后获得带有注意力的视觉显著性特征，其中，头部注意力的映射图为头部特征与头部位置特征经过全连接层改变形状后获得，头部特征由预设头部路径提取模型从头部图片中提取获得，头部位置特征为头部位置掩码经过预设池化算法池化后获得。

其中，上述视觉显著性特征，用于通过视觉显著性表征人类面对一个场景中视觉显著性区域的关注程度。上述视觉显著性区域为人类在场景中关注的区域。

其中，上述头部注意力的映射图为用于表征视觉注意力的矩阵。

本领域技术人员可以理解的是，上述步骤S105可以通过多种方式来实现，例如通过概率图模型联合（Human-attention-object，HAO）用于点云中，实现确定注视目标。

当然，在本法明的一可选实施例中，上述步骤S105也可以通过如下方式实现：

可选的，在本发明一可选实施例中，上述基于第一注视向量空间特征确定注视目标，具体包括：

将第一注视向量空间特征、头部特征和带有注意力的视觉显著性特征作为第二输入参量，输入到细粒度模块中，细粒度模块对第二输入参量进行编码处理获得细粒度的第二三维注视向量。

将第二三维注视向量和二维注视热图作为第三输入参量，由预设联合推断算法对第三输入参量在三维空间中进行推算处理，确定注视目标，其中，二维注视热图由预设编码器解码器架构对头部特征和带有注意力的视觉显著性特征进行编码解码后获得。

上述细粒度模块是由编码器和全连接层组成的，用于对上述第二输入参量进行编码处理，以生成经细化处理的精确的第二三维注视向量。

上述二维注视热图，是指在二维图片上反应可视区域被注视的程度的热力图。

可选的，上述预设头部路径提取模型为第二主干网络，上述方法还包括：

将头部图片输入到用于特征提取的第二主干网络中，以使第二主干网络对头部图片进行特征提取。

获得第二主干网络输出的头部特征。

可选的，在本发明的另一可选实施例中，上述第二主干网络能采用如上述第一主干网络采用50层的残差神经网络结构（Resnet-50），也能采用其它结构，以实现本发明目的为准，本发明对此不做过多限制。

可选的，在本发明一可选实施例中，上述由预设联合推断算法对第三输入参量在三维空间中进行推算处理，确定注视目标，具体包括：

利用预设针孔相机模型将提议区域投射至三维空间中，获得位于三维空间中的提议区域内的注视向量集合，利用预设联合推断算法，选取注视向量集合中与第二三维注视向量拟合度最高的第三三维注视向量，将第三三维注视向量的指向点确定为注视目标，其中，提议区域的中心点为二维注视热图的最大值对应的位置，提议区域的长和宽均不大于二维注视热图的长和宽。

为了方便对上述方法的理解，特在此结合如图2所示的本法明另一可选实施例，对上述方法进行解释：

如图2所示，在三维注视特征提取路径中，将注视向量空间201、头部位置掩码202和头部图片203在通道维度拼接205后，作为第一输入参量输入到第一主干网络206中，由第一主干网络206对上述第一输入参量进行特征提取，获得第一注视向量空间特征207，由粗粒度模块208对上述第一注视向量空间特征207进行编码处理，获得第一三维注视向量209，将上述第一三维注视向量209和上述注视向量空间201做矩阵乘法210后，获得注视区域热图211。

在头部特征提取路径中，由第二主干网络212对输入的头部图片203进行特征提取，获得头部特征213。

利用预设池化算法214对头部位置掩码202进行池化，获得头部位置特征215，将头部位置特征215和头部特征213在通道维度拼接205后，输入到全连接层216，经改变形状后，获得头部注意力的映射图217。

在视觉显著性特征提取路径中，利用第三主干网络228对输入的头部位置掩码202、场景图片204和注视区域热图211进行特征提取，获得视觉显著性特征218，将视觉显著性特征218的每个通道和头部注意力的映射图217做乘法219后，获得带有注意力的视觉显著性特征220。

在三维注视向量预测分支中，将第一注视向量空间特征207、带有注意力的视觉显著性特征220和头部特征213在通道维度上进行拼接221后，作为第二输入参量输入到细粒度模块222中，由细粒度模块222对第二输入参量进行编码处理后，获得第二三维注视向量223。

在二维注视热图预测分支中，由预设的编码器解码器架构224，对头部特征213和带有注意力的视觉显著性特征220进行编码解码，获得二维注视热图225。

将第二三维注视向量223和二维注视热图225作为第三输入参量，利用预设联合推断算法226对第三输入参量进行推算处理，确定注视目标227。

需要说明的是，上述矩阵乘法210和上述乘法219可以相同也可以不同，上述通道维度拼接205和上述在通道维度上进行拼接221可以相同也可以不同，具体情况以实际应用场景为准，本发明对此不做过多限制。

在此，为进一步清楚的解释，请结合图3和图4对上述利用预设联合推断算法确定注视目标的过程进行理解：

图3为上述方法中获得的二维注视热图225，图中虚线框内，带有不同密度点的椭圆形区域为二维注视热图中数值较大的区域，在上述二维注视热图225中框选一个提议区域229，该提议区域229的中心点为上述二维注视热图中的最大值对应的点。

可选的，上述提议区域229的长和宽均不大于二维注视热图的长和宽，本发明对该提议区域的长和宽的具体数值不做限定。

利用预设针孔相机模型将该提议区域投射到三维空间中，获得如图4所示的包含X轴、Y轴和Z轴的三维空间坐标系下的注视向量集合，图4中立方体229为图3中提议区域229被投射入三维空间后的区域，上述注视向量集合中的向量目标点包括黑色空心圆231、白色空心圆230、白色圆和黑色圆。

其中，图4中黑色空心圆231为上述第一位置，白色空心圆230为确定的注视目标，白色圆为在上述提议区域229内的可能注视点，黑色圆为在上述三维空间中，除图4中提议区域229内的注视点之外的注视点。

注视向量集合中与上述第二三维注视向量拟合度最高的第三三维注视向量，即以图4中黑色空心圆231为发出点，以白色空心圆230为目标点的第三三维注视向量，将位于白色空心圆230处的目标点确定为注视目标点。

可选的，在本发明一可选实施例中，上述利用第二深度图片、深度相机的参数和第一位置构建注视向量空间，具体包括：

通过对第二深度图片添加两个通道，从而构建像素空间图片，其中，两个通道分别用于表示像素坐标系的横坐标和纵坐标。

将像素空间图片的两个通道表示的横坐标和纵坐标，经深度相机按照深度相机的参数处理后，投射到三维空间中，获得第一三维空间图片。

将第一三维空间图片减去第一位置后生成的第二三维空间图片进行正则化处理，获得注视向量空间。

本发明实施例通过构建注视向量空间，对深度相机采集的三维空间中的信息进行充分利用，使得本发明可直接对三维场景下的场景信息进行提取和利用。同时，本发明通过利用三维注视路径特征提取模型，结合上述注视向量空间，对三维场景提供的场景信息进行特征提取和处理，进而确定三维空间中的注视目标，实现了对三维空间的场景信息的充分利用，在无需结合额外的人类骨骼信息情况下确定三维空间中的注视目标，从而使得本发明可以应用于广泛的三维场景中。

与上述确定注视目标的方法的实施例相对应，本发明还提供了一种确定注视目标的系统，如图5所示，确定注视目标的系统包括：

参量获取模块501，用于将头部图片、头部位置掩码和注视向量空间在通道维度上拼接，获得第一输入参量。

特征提取模块502，用于将第一输入参量输入到用于特征提取的第一主干网络中，以使第一主干网络对第一输入参量进行特征提取。

粗粒度处理模块503，用于获得第一主干网络输出的第一注视向量空间特征，将第一注视向量空间特征输入到粗粒度模块中，以使粗粒度模块对第一注视向量空间特征进行编码处理。

热图生成模块504，用于获得粗粒度模块输出的粗粒度的第一三维注视向量，将第一三维注视向量和注视向量空间做矩阵乘法后获得注视区域热图。

注视目标确定模块505，用于基于第一注视向量空间特征确定注视目标。

可选的，上述系统还包括：

第一图片提取子模块，用于利用深度相机对目标场景进行采集，获得场景图片和第一深度图片。

第二图片提取子模块，用于利用预设头部检测算法从场景图片中提取头部图片和第一位置，其中，第一位置为目标场景中眼睛的位置。

第一图片转换子模块，用于利用预设头部掩码生成算法对头部图片进行转换，获得头部位置掩码。

第一图片配准子模块，用于利用预设配准算法对场景图片和第一深度图片进行配准，获得配准后的第二深度图片。

第一注视向量空间构建子模块，用于利用第二深度图片、深度相机的参数和第一位置构建注视向量空间。

可选的，上述注视目标确定模块505还包括：

第一参量输入子模块，用于将场景图片、注视区域热图和头部位置掩码作为第四输入参量输入到用于特征提取的第三主干网络中，以使第三主干网络对第四输入参量进行特征提取。

第一乘法处理子模块，用于获得第三主干网络输出的视觉显著性特征，将视觉显著性特征与头部注意力的映射图做乘法后获得带有注意力的视觉显著性特征，其中，头部注意力的映射图为头部特征与头部位置特征经过全连接层改变形状后获得，头部特征由预设头部路径提取模型从头部图片中提取获得，头部位置特征为头部位置掩码经过预设池化算法池化后获得。

可选的，上述注视目标确定模块505，可具体设置为：

将第二三维注视向量和二维注视热图作为第三输入参量，由预设联合推断算法对第三输入参量在三维空间中进行推算处理，确定注视目标，其中，二维注视热图由预设编码器解码器架构对头部特征和带有注意力的视觉显著性特征进行编码解码后获得。可选的，上述第一乘法处理子模块，还包括：

第三图片提取子模块，用于将头部图片输入到用于特征提取的第二主干网络中，以使第二主干网络对头部图片进行特征提取。

头部特征获取子模块，获得第二主干网络输出的头部特征。

可选的，上述注视目标确定模块505，可具体设置为：

可选的，上述第一注视向量空间构建子模块，可具体设置为：

如图6所示，本发明实施例还提供了一种确定注视目标的设备，包括：

处理器601；

用于存储处理器601可执行指令的存储器602。

其中处理器被配置为执行指令，以实现上述任一项的确定注视目标的方法。

一种计算机可读存储介质，当计算机可读存储介质中的指令由确定注视目标的设备的处理器601执行时，使得确定注视目标的设备能够执行上述任一项的确定注视目标的方法。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体 (transitory media)，如调制的数据信号和载波。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种确定注视目标的方法，其特征在于，包括：

将头部图片、头部位置掩码和注视向量空间在通道维度上拼接，获得第一输入参量；

将所述第一输入参量输入到用于特征提取的第一主干网络中，以使所述第一主干网络对所述第一输入参量进行特征提取；

获得所述第一主干网络输出的第一注视向量空间特征，将所述第一注视向量空间特征输入到粗粒度模块中，以使所述粗粒度模块对所述第一注视向量空间特征进行编码处理；

获得所述粗粒度模块输出的粗粒度的第一三维注视向量，将所述第一三维注视向量和所述注视向量空间做矩阵乘法后获得注视区域热图；

基于所述第一注视向量空间特征确定注视目标。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

利用深度相机对目标场景进行采集，获得场景图片和第一深度图片；

利用预设头部检测算法从所述场景图片中提取所述头部图片和第一位置，其中，所述第一位置为所述目标场景中眼睛的位置；

利用预设头部掩码生成算法对所述头部图片进行转换，获得所述头部位置掩码；

利用预设配准算法对所述场景图片和所述第一深度图片进行配准，获得配准后的第二深度图片；

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

将所述场景图片、所述注视区域热图和所述头部位置掩码作为第四输入参量输入到用于特征提取的第三主干网络中，以使所述第三主干网络对所述第四输入参量进行特征提取；

4.根据权利要求3所述的方法，其特征在于，所述基于所述第一注视向量空间特征确定注视目标，具体包括：

将所述第一注视向量空间特征、所述头部特征和所述带有注意力的视觉显著性特征作为第二输入参量，输入到细粒度模块中，所述细粒度模块对所述第二输入参量进行编码处理获得细粒度的第二三维注视向量；

5.根据权利要求3所述的方法，其特征在于，所述预设头部路径提取模型为第二主干网络，所述方法还包括：

将所述头部图片输入到用于特征提取的所述第二主干网络中，以使所述第二主干网络对所述头部图片进行特征提取；

获得所述第二主干网络输出的所述头部特征。

6.根据权利要求4所述的方法，其特征在于，所述由预设联合推断算法对所述第三输入参量在三维空间中进行推算处理，确定注视目标，具体包括：

7.根据权利要求2所述的方法，其特征在于，所述利用所述第二深度图片、所述深度相机的参数和所述第一位置构建所述注视向量空间，具体包括：

通过对所述第二深度图片添加两个通道，从而构建像素空间图片，其中，所述两个通道分别用于表示像素坐标系的横坐标和纵坐标；

将所述像素空间图片的两个通道表示的所述横坐标和纵坐标，经所述深度相机按照所述深度相机的参数处理后，投射到三维空间中，获得第一三维空间图片；

8.一种确定注视目标的系统，其特征在于，所述系统包括：

参量获取模块，用于将头部图片、头部位置掩码和注视向量空间在通道维度上拼接，获得第一输入参量；

特征提取模块，用于将所述第一输入参量输入到用于特征提取的第一主干网络中，以使所述第一主干网络对所述第一输入参量进行特征提取；

粗粒度处理模块，用于获得所述第一主干网络输出的第一注视向量空间特征，将所述第一注视向量空间特征输入到粗粒度模块中，以使所述粗粒度模块对所述第一注视向量空间特征进行编码处理；

热图生成模块，用于获得所述粗粒度模块输出的粗粒度的第一三维注视向量，将所述第一三维注视向量和所述注视向量空间做矩阵乘法后获得注视区域热图；

9.一种确定注视目标的设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中所述处理器被配置为执行所述指令，以实现如权利要求1至7中任一项所述的确定注视目标的方法。

10.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至7中任一项所述的确定注视目标的方法。