CN112288806A

CN112288806A - 物体空间关系的识别方法、装置和训练方法、装置

Info

Publication number: CN112288806A
Application number: CN202011043286.3A
Authority: CN
Inventors: 潘滢炜; 李业豪; 姚霆
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2020-09-28
Filing date: 2020-09-28
Publication date: 2021-01-29
Anticipated expiration: 2040-09-28
Also published as: CN112288806B

Abstract

本公开涉及一种物体空间关系的识别方法、装置和训练方法、装置，涉及计算机技术领域。本公开的方法包括：获取图像中待确定空间关系的第一物体的名称、第二物体的名称、第一物体的坐标信息、第二物体的坐标信息、以及第一物体的深度信息和第二物体的深度信息；根据第一物体的名称，第二物体的名称分别确定第一物体的第一语言特征和第二物体的第二语言特征；根据第一语言特征、第二语言特征、第一物体的坐标信息、第二物体的坐标信息、以及第一物体的深度信息和第二物体的深度信息，确定第一物体和第二物体的空间关系。

Description

物体空间关系的识别方法、装置和训练方法、装置

技术领域

本公开涉及计算机技术领域，特别涉及一种物体空间关系的识别方法、装置和训练方法、装置。

背景技术

空间关系识别是图像内容理解与感知中重要的一个任务，它主要是指定图像中两个物体(物体A与B)，然后去推测这两个物体在真实世界中是否遵从给定的一种空间关系。例如，A是否在B的前面、后面等。

发明人已知的物体空间关系识别技术都是基于物体2D(二维)坐标和语言(物体的名称)的深度学习方法。具体而言就是基于神经网络的编码器来捕获两个物体的2D坐标信息(边框的坐标)。然后再根据编码的2D坐标信息与语言表示，来执行空间关系识别推理。

发明内容

发明人发现：目前已知的物体空间关系识别技术依赖2D坐标信息和语言信息直接推断空间关系，很少探索物体之间的相对深度位移信息。但是，在真实世界中，人类通常会利用物体间深度信息来进行推断，比如一旦知道两个物体间深度相对大小，例如，A的深度要大于B，那么A就在B的后面。因此，参考物体的深度信息进行物体空间关系的识别可以提高识别的准确度。

本公开所要解决的一个技术问题是：提出一种新的物体空间关系的识别方法，提高识别的准确度。

根据本公开的一些实施例，提供的一种物体空间关系的识别方法，包括：获取图像中待确定空间关系的第一物体的名称、第二物体的名称、第一物体的坐标信息、第二物体的坐标信息、以及第一物体的深度信息和第二物体的深度信息；根据第一物体的名称，第二物体的名称分别确定第一物体的第一语言特征和第二物体的第二语言特征；根据第一语言特征、第二语言特征、第一物体的坐标信息、第二物体的坐标信息、以及第一物体的深度信息和第二物体的深度信息，确定第一物体和第二物体的空间关系。

在一些实施例中，确定第一物体和第二物体的空间关系包括：预设第一物体与第二物体的多种空间关系描述信息；针对每种空间关系描述信息，确定对应的预设空间关系语言特征，并将预设空间关系语言特征，第一语言特征、第二语言特征、第一物体的坐标信息、第二物体的坐标信息、以及第一物体的深度信息和第二物体的深度信息输入空间关系识别模型，确定第一物体与第二物体的空间关系表示为该空间关系描述信息的概率；根据第一物体与第二物体的空间关系表示为每种空间关系描述信息的概率，确定第一物体和第二物体的空间关系。

在一些实施例中，确定第一物体与第二物体的空间关系表示为该空间关系描述信息的概率包括：将预设空间关系语言特征，第一语言特征、第二语言特征、第一物体的坐标信息、第二物体的坐标信息、以及第一物体的深度信息和第二物体的深度信息输入空间关系识别模型中的融合网络，确定融合特征；将融合特征输入空间关系识别模型中的分类器，输出第一物体与第二物体的空间关系表示为该空间关系描述信息的概率。

在一些实施例中，确定第一物体与第二物体的空间关系表示为该空间关系描述信息的概率包括：将第一语言特征、第二语言特征和预设空间关系语言特征输入空间关系识别模型的第一融合网络进行融合，确定第一融合特征；将第一物体的坐标信息、第二物体的坐标信息、第一物体的深度信息、第二物体的深度信息以及预设空间关系语言特征输入空间关系识别模型的第二融合网络进行融合，确定第二融合特征；将第一融合特征和第二融合特征输入注意力机制网络进行融合，确定第一特征，作为融合特征；将第一特征输入空间关系识别模型中的分类器，输出第一物体与第二物体的空间关系表示为该空间关系描述信息的概率。

在一些实施例中，确定第一物体与第二物体的空间关系表示为该空间关系描述信息的概率包括：根据第一物体的坐标信息、第二物体的坐标信息、第一物体的深度信息、第二物体的深度信息，确定第一物体和第二物体的相对位移表示特征；将第一语言特征、第二语言特征和预设空间关系语言特征输入空间关系识别模型的第一融合网络进行融合，确定第一融合特征；将相对位移表示特征以及预设空间关系语言特征输入空间关系识别模型的第三融合网络进行融合，确定第三融合特征；将第一融合特征和第三融合特征输入注意力机制网络进行融合，确定第二特征，作为融合特征；将第二特征输入空间关系识别模型中的分类器，输出第一物体与第二物体的空间关系表示为该空间关系描述信息的概率。

在一些实施例中，确定第一物体与第二物体的空间关系表示为该空间关系描述信息的概率包括：根据第一物体的坐标信息、第二物体的坐标信息、第一物体的深度信息、第二物体的深度信息，确定第一物体和第二物体的相对位移表示特征；将第一语言特征、第二语言特征和预设空间关系语言特征输入空间关系识别模型的第一融合网络进行融合，确定第一融合特征；将第一物体的坐标信息、第二物体的坐标信息、第一物体的深度信息、第二物体的深度信息以及预设空间关系语言特征输入空间关系识别模型的第二融合网络进行融合，确定第二融合特征；将相对位移表示特征以及预设空间关系语言特征输入空间关系识别模型的第三融合网络进行融合，确定第三融合特征；将第一融合特征、第二融合特征和第三融合特征输入注意力机制网络进行融合，确定第三特征，作为融合特征；将第三特征输入空间关系识别模型中的分类器，输出第一物体与第二物体的空间关系表示为该空间关系描述信息的概率。

在一些实施例中，确定第一融合特征包括：将第一语言特征、第二语言特征和预设空间关系语言特征分别输入第一融合网络中对应的全连接层，得到各个全连接层输出的特征；将各个全连接层输出的特征相加，再输入一个全连接层，得到第一融合特征。

在一些实施例中，确定第二融合特征包括：将第一物体的坐标信息和第一物体的深度信息进行拼接得到第一位置特征，将第二物体的坐标信息和第二物体的深度信息进行拼接得到第二位置特征；将第一位置特征、第二位置特征和预设空间关系语言特征分别输入第二融合网络中对应的全连接层，得到各个全连接层输出的特征；将各个全连接层输出的特征相加，再输入一个全连接层，得到第二融合特征。

在一些实施例中，确定第三融合特征包括：将相对位移表示特征和预设空间关系语言特征分别输入第三融合网络对应的全连接层，得到各个全连接层输出的特征；将各个全连接层输出的特征相加，再输入一个全连接层，得到第三融合特征。

在一些实施例中，第一物体的坐标信息包括第一物体的矩形框对角线上两顶点的坐标，第二物体的坐标信息包括第二物体的矩形框对角线上两顶点的坐标；第一物体的深度信息包括第一物体的矩形框内各个像素的深度值的平均值；第二物体的深度信息包括第二物体的矩形框内各个像素的深度值的平均值；确定第一物体和第二物体的相对位移表示特征包括：

根据第一物体的矩形框对角线上两顶点的坐标、第二物体的矩形框对角线上两顶点的坐标、第一物体的矩形框的中心点坐标、以及第二物体的矩形框的中心点坐标，确定第一物体与第二物体的坐标相对位移特征；根据第一物体的矩形框内各个像素的深度值的平均值和第二物体的矩形框内各个像素的深度值的平均值，确定第一物体与第二物体的深度相对位移特征；将坐标相对位移特征和深度相对位移特征进行拼接，得到相对位移表示特征。

在一些实施例中，将第一融合特征、第二融合特征和第三融合特征输入注意力机制网络进行融合，确定第三特征包括：将第一融合特征、第二融合特征和第三融合特征分别输入注意力机制网络中的第一组全连接层中的各个全连接层，得到各个全连接层输出的特征；将各个全连接层输出的特征相加，再输入注意力机制网络中Softmax层，得到第一注意力权重、第二注意力权重和第三注意力权重；将第一融合特征、第二融合特征和第三融合特征分别输入注意力机制网络中的第二组全连接层的各个全连接层，得到第一融合特征映射成的第一映射特征，第二融合特征映射成的第二映射特征，第三融合特征映射成的第三映射特征；分别根据将第一注意力权重、第二注意力权重和第三注意力权重对第一映射特征、第二映射特征和第三映射特征进行加权；将加权结果输入一个全连接层，得到输出的第三特征。

在一些实施例中，根据第一物体的名称，第二物体的名称分别确定第一物体的第一语言特征和第二物体的第二语言特征包括：对第一物体的名称中每个词进行编码，将各个词的编码输入门循环结构，得到输出的第一物体的第一语言特征；对第二物体的名称中每个词进行编码，将各个词的编码输入门循环结构，得到输出的第二物体的第二语言特征。

根据本公开的另一些实施例，提供的一种训练方法，包括：获取多个图像作为训练样本，其中，每个图像包括第一物体和第二物体，并标注了第一物体和第二物体的空间关系；针对每个训练样本，确定第一物体的名称、第二物体的名称、第一物体的坐标信息、第二物体的坐标信息、以及第一物体的深度信息和第二物体的深度信息；根据第一物体的名称，第二物体的名称分别确定第一物体的第一语言特征和第二物体的第二语言特征；将各个训练样本对应的第一语言特征、第二语言特征、第一物体的坐标信息、第二物体的坐标信息、以及第一物体的深度信息和第二物体的深度信息输入空间关系识别模型，得到输出的第一物体和第二物体的空间关系的表示信息；根据各个训练样本对应的第一物体和第二物体的空间关系的表示信息，与标注的第一物体和第二物体的空间关系，对空间关系识别模型进行训练。

在一些实施例中，得到输出的第一物体和第二物体的空间关系的表示信息包括：针对每个训练样本，预设第一物体与第二物体的空间关系描述信息，并确定对应的预设空间关系语言特征；将训练样本对应的预设空间关系语言特征，第一语言特征、第二语言特征、第一物体的坐标信息、第二物体的坐标信息、以及第一物体的深度信息和第二物体的深度信息输入空间关系识别模型，得到输出的第一物体与第二物体的空间关系表示为对应的空间关系描述信息的概率。

在一些实施例中，得到输出的第一物体与第二物体的空间关系表示为对应的空间关系描述信息的概率包括：将训练样本对应的预设空间关系语言特征，第一语言特征、第二语言特征、第一物体的坐标信息、第二物体的坐标信息、以及第一物体的深度信息和第二物体的深度信息输入空间关系识别模型中的融合网络，确定融合特征；将融合特征输入空间关系识别模型中的分类器，输出第一物体与第二物体的空间关系表示为该空间关系描述信息的概率。

在一些实施例中，得到输出的第一物体与第二物体的空间关系表示为对应的空间关系描述信息的概率包括：根据第一物体的坐标信息、第二物体的坐标信息、第一物体的深度信息、第二物体的深度信息，确定第一物体和第二物体的相对位移表示特征；将第一语言特征、第二语言特征和预设空间关系语言特征输入空间关系识别模型的第一融合网络进行融合，确定第一融合特征；将第一物体的坐标信息、第二物体的坐标信息、第一物体的深度信息、第二物体的深度信息以及预设空间关系语言特征输入空间关系识别模型的第二融合网络进行融合，确定第二融合特征；将相对位移表示特征以及预设空间关系语言特征输入空间关系识别模型的第三融合网络进行融合，确定第三融合特征；将第一融合特征和第三融合特征输入注意力机制网络进行融合，确定第三特征，作为融合特征；将第三特征输入空间关系识别模型中的分类器，输出第一物体与第二物体的空间关系表示为该空间关系描述信息的概率。

在一些实施例中，对空间关系识别模型进行训练包括：根据第一物体与第二物体的空间关系表示为该空间关系描述信息的概率，与标注的第一物体和第二物体的空间关系的误差，确定损失函数；根据损失函数对空间关系识别模型中的融合网络和分类器的参数进行调整，对空间关系识别模型进行训练。

在一些实施例中，得到输出的第一物体与第二物体的空间关系表示为对应的空间关系描述信息的概率还包括：将第一融合特征输入第一子分类器，得到第一物体与第二物体的空间关系表示为该空间关系描述信息的第一概率；将第二融合特征输入第二子分类器，得到第一物体与第二物体的空间关系表示为该空间关系描述信息的第二概率；将第三融合特征输入第三子分类器，得到第一物体与第二物体的空间关系表示为该空间关系描述信息的第三概率；将第三特征输入分类器，得到第一物体与第二物体的空间关系表示为该空间关系描述信息的第四概率；对空间关系识别模型进行训练包括：根据第一概率、第二概率、第三概率以及第四概率与标注的第一物体和第二物体的空间关系的误差，确定损失函数；根据损失函数对空间关系识别模型的参数进行调整，对空间关系识别模型进行训练。

根据本公开的又一些实施例，提供的一种物体空间关系的识别装置，包括：获取模块，用于获取图像中待确定空间关系的第一物体的名称、第二物体的名称、第一物体的坐标信息、第二物体的坐标信息、以及第一物体的深度信息和第二物体的深度信息；语言特征确定模块，用于根据第一物体的名称，第二物体的名称分别确定第一物体的第一语言特征和第二物体的第二语言特征；空间关系确定模块，用于根据第一语言特征、第二语言特征、第一物体的坐标信息、第二物体的坐标信息、以及第一物体的深度信息和第二物体的深度信息，确定第一物体和第二物体的空间关系。

根据本公开的再一些实施例，提供的一种训练装置，包括：获取模块，用于获取多个图像作为训练样本，其中，每个图像包括第一物体和第二物体，并标注了第一物体和第二物体的空间关系；信息确定模块，用于针对每个训练样本，确定第一物体的名称、第二物体的名称、第一物体的坐标信息、第二物体的坐标信息、以及第一物体的深度信息和第二物体的深度信息；语言特征确定模块，用于根据第一物体的名称，第二物体的名称分别确定第一物体的第一语言特征和第二物体的第二语言特征；空间关系确定模块，用于将各个训练样本对应的第一语言特征、第二语言特征、第一物体的坐标信息、第二物体的坐标信息、以及第一物体的深度信息和第二物体的深度信息输入空间关系识别模型，得到输出的第一物体和第二物体的空间关系的表示信息；调整模块，用于根据各个训练样本对应的第一物体和第二物体的空间关系的表示信息，与标注的第一物体和第二物体的空间关系，对空间关系识别模型进行训练。

根据本公开的又一些实施例，提供的一种物体空间关系的识别系统，包括：前述任意实施例的物体空间关系的识别装置和前述任意实施例的训练装置。

根据本公开的再一些实施例，提供的一种电子设备，包括：处理器；以及耦接至处理器的存储器，用于存储指令，指令被处理器执行时，使处理器执行如前述任意实施例的物体空间关系的识别方法或前述任意实施例的的训练方法。

根据本公开的又一些实施例，提供的一种非瞬时性计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现前述任意实施例的物体空间关系的识别方法或前述任意实施例的训练方法。

本公开中结合两个物体的坐标信息、名称(即语言信息)以及深度信息，对物体之间的空间关系进行识别。坐标信息反映了物体的平面几何特性和位置，深度信息反映了物体第三维度的立体感知信息，语言信息则蕴含了物体相关的常识知识，三者结合进行理解和学习，更加接近人类的视觉感知和理解过程，提高了对物体空间关系的识别的准确性。

通过以下参照附图对本公开的示例性实施例的详细描述，本公开的其它特征及其优点将会变得清楚。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出本公开的一些实施例的物体空间关系的识别方法的流程示意图。

图2示出本公开的一些实施例的空间关系识别模型的结构示意图。

图3示出本公开的一些实施例的物体空间关系的识别装置的结构示意图。

图4示出本公开的一些实施例的训练装置的结构示意图。

图5示出本公开的一些实施例的物体空间关系的识别系统的结构示意图。

图6示出本公开的一些实施例的训练装置的结构示意图。

图7示出本公开的一些实施例的电子设备的结构示意图。

图8示出本公开的另一些实施例的电子设备的结构示意图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

本公开提供一种物体空间关系的识别方法，下面结合图1～2进行描述。

图1为本公开物体空间关系的识别方法一些实施例的流程图。如图1所示，该实施例的方法包括：步骤S102～S106。

在步骤S102中，获取图像中待确定空间关系的第一物体的名称、第二物体的名称、第一物体的坐标信息、第二物体的坐标信息、以及第一物体的深度信息和第二物体的深度信息。

可以利用现有的目标识别模型对图像中的物体进行识别，得到各个物体的名称和坐标信息，不限于所举示例。例如，第一物体的坐标信息包括第一物体的矩形框对角线上两顶点的坐标，第二物体的坐标信息包括第二物体的矩形框对角线上两顶点的坐标。例如，两个物体O₁和O₂，坐标信息可以分别表示为四维向量

这四维分别代表物体边界矩形框左上角和右下角的坐标。

可以利用预训练好的图像像素级别深度估计器确定两个物体的深度信息。例如，图像像素级别深度估计器对物体的矩形框中每一个像素都预测深度值，将第一物体的矩形框内各个像素的深度值的平均值，第二物体的矩形框内各个像素的深度值的平均值分别作为第一物体的深度信息和第二物体的深度信息，可以分别表示为

在步骤S104中，根据第一物体的名称，第二物体的名称分别确定第一物体的第一语言特征和第二物体的第二语言特征。

在一些实施例中，对第一物体的名称中每个词进行编码，将各个词的编码输入门循环结构，得到输出的第一物体的第一语言特征

对第二物体的名称中每个词进行编码，将各个词的编码输入门循环结构，得到输出的第二物体的第二语言特征

可以采用现有的词嵌入(Word embedding)算法对每个词进行编码，除了门循环结构(GRU)也可以采用其他文本编码器来确定第一语言特征和第二语言特征，不限于所举示例。GRU可以将每一个词的特征融合为一整个特征。

在步骤S106中，根据第一语言特征、第二语言特征、第一物体的坐标信息、第二物体的坐标信息、以及第一物体的深度信息和第二物体的深度信息，确定第一物体和第二物体的空间关系。

可以利用空间关系识别模型确定第一物体和第二物体的空间关系。后续将会对空间关系识别模型进行详细描述。空间关系识别模型的输入是一个需要推断的空间关系三元组(物体O₁的特征、预设的空间关系描述信息R、物体O₂的特征)，模型的目的是去判断两个物体间的空间关系是否符合该预设的空间关系描述信息R。在一些实施例中，预设第一物体与第二物体的多种空间关系描述信息；针对每种空间关系描述信息，确定对应的预设空间关系语言特征，并将预设空间关系语言特征，第一语言特征、第二语言特征、第一物体的坐标信息、第二物体的坐标信息、以及第一物体的深度信息和第二物体的深度信息输入空间关系识别模型，确定第一物体与第二物体的空间关系表示为该空间关系描述信息的概率；根据第一物体与第二物体的空间关系表示为每种空间关系描述信息的概率，确定第一物体和第二物体的空间关系。

第一物体与第二物体的多种空间关系描述信息，例如包括：前面、后面、左边、右边、下面、上面、里面等分别表示第一物体在第二物体的前面、后面、左边、右边、下面、上面、里面等，可以根据实际需求进行设置。将空间关系描述信息转换为预设空间关系语言特征，例如，可以对每种空间关系描述信息进行编码，得到对应预设空间关系语言特征w_R。例如，可以采用one hot embedding算法进行编码。

针对每种空间关系描述信息，空间关系识别模型输出的是第一物体和第二物体的空间关系符合这种空间关系描述信息的概率。例如，模型分别输出第一物体在第二物体的前面、后面、左边、右边等的概率。可以根据第一物体与第二物体的空间关系表示为每种空间关系描述信息的概率，选取概率最高的空间关系描述信息确定第一物体和第二物体的空间关系。

空间关系识别模型包括用于进行特征融合的融合网络，以及分类器。基于训练过程，融合网络可以更好的学习如何将各种特征进行映射和融合，使这些特征能够形成一个更加准确的描述两个物体空间特征的融合特征，从而使分类器能够输出更加准确的结果。在一些实施例中，将预设空间关系语言特征，第一语言特征、第二语言特征、第一物体的坐标信息、第二物体的坐标信息、以及第一物体的深度信息和第二物体的深度信息输入空间关系识别模型中的融合网络，确定融合特征；将融合特征输入空间关系识别模型中的分类器，输出第一物体与第二物体的空间关系表示为该空间关系描述信息的概率。

在一些实施例中，融合网络可以包括第一融合网络，还可以包括第二融合网络和第三融合网络中至少一个，还可以包括：注意力机制网络。第一融合网络可以作为语言特征的融合网络，第二融合网络可以作为坐标信息和深度信息的融合网络，第三融合网络可以作为两个物体间坐标的相对位移和深度信息的融合网络。注意力机制网络可以调整三个融合网络输出的特征的注意力权重，进一步对三个融合网络输出的特征进行融合。

在一些实施例中，将第一语言特征、第二语言特征和预设空间关系语言特征输入空间关系识别模型的第一融合网络进行融合，确定第一融合特征；将第一物体的坐标信息、第二物体的坐标信息、第一物体的深度信息、第二物体的深度信息以及预设空间关系语言特征输入空间关系识别模型的第二融合网络进行融合，确定第二融合特征；将第一融合特征和第二融合特征输入注意力机制网络进行融合，确定第一特征，作为融合特征；将第一特征输入空间关系识别模型中的分类器，输出第一物体与第二物体的空间关系表示为该空间关系描述信息的概率。

在另一些实施例中，根据第一物体的坐标信息、第二物体的坐标信息、第一物体的深度信息、第二物体的深度信息，确定第一物体和第二物体的相对位移表示特征；将第一语言特征、第二语言特征和预设空间关系语言特征输入空间关系识别模型的第一融合网络进行融合，确定第一融合特征；将相对位移表示特征以及预设空间关系语言特征输入空间关系识别模型的第三融合网络进行融合，确定第三融合特征；将第一融合特征和第三融合特征输入注意力机制网络进行融合，确定第二特征，作为融合特征；将第二特征输入空间关系识别模型中的分类器，输出第一物体与第二物体的空间关系表示为该空间关系描述信息的概率。

在又一些实施例中，根据第一物体的坐标信息、第二物体的坐标信息、第一物体的深度信息、第二物体的深度信息，确定第一物体和第二物体的相对位移表示特征；将第一语言特征、第二语言特征和预设空间关系语言特征输入空间关系识别模型的第一融合网络进行融合，确定第一融合特征；将第一物体的坐标信息、第二物体的坐标信息、第一物体的深度信息、第二物体的深度信息以及预设空间关系语言特征输入空间关系识别模型的第二融合网络进行融合，确定第二融合特征；将相对位移表示特征以及预设空间关系语言特征输入空间关系识别模型的第三融合网络进行融合，确定第三融合特征；将第一融合特征、第二融合特征和第三融合特征输入注意力机制网络进行融合，确定第三特征，作为融合特征；将第三特征输入空间关系识别模型中的分类器，输出第一物体与第二物体的空间关系表示为该空间关系描述信息的概率。

上述三个实施例中，利用的融合网络不同，当第一融合网络，第二融合网络，第三融合网络均被利用时，输出的结果更加准确。下面分别具体描述各个融合网络。

例如，第一融合网络主要融合每个物体的语言特征表达

和预设空间关系语言特征w_R。第一融合网络可以包括全连接层和加法器，全连接层用于对输入的该全连接层的认证进行映射和转换，得到更加能表达物体空间特征的向量，加法器用于将输入该加法器的各个特征进行融合。

第一融合网络可以包括多个全连接层，例如包括：分别对应于第一语言特征、第二语言特征和预设空间关系语言特征的三个全连接层，以及用于将三个全连接层的输出进行特征相加后再输入的一个全连接层。如图2所示，在一些实施例中，将第一语言特征、第二语言特征和预设空间关系语言特征分别输入第一融合网络中对应的全连接层，得到各个全连接层输出的特征；将各个全连接层输出的特征相加，再输入一个全连接层，得到第一融合特征R_l。第一融合网络中的计算方法可以采用以下公式表示。

公式(1)中，

分别表示第一物体和第二物体的语言特征，w_R表示预设空间关系语言特征，W_l1，W_l2，W_Rl分别表示

和w_R分别输入的三个全连接层的参数转换矩阵，W_l表示三个全连接层输出的特征相加后输入的一个全连接层的参数转换矩阵。

例如，第二融合网络主要融合每个物体的坐标信息

深度信息

以及预设空间关系语言特征w_E。第二融合网络可以包括全连接层和加法器，全连接层用于对输入的该全连接层的认证进行映射和转换，得到更加能表达物体空间特征的向量，加法器用于将输入该加法器的各个特征进行融合。

第二融合网络可以包括多个全连接层，例如包括：分别对应于第一物体的第一位置特征，第二物体的第二位置特征和预设空间关系语言特征的三个全连接层，以及用于将三个全连接层的输出进行特征相加后再输入的一个全连接层。针对每个物体将该物体的坐标信息和深度信息进行组合得到对应的位置信息。如图2所示，在一些实施例中，将第一物体的坐标信息和第一物体的深度信息进行拼接得到第一位置特征，将第二物体的坐标信息和第二物体的深度信息进行拼接得到第二位置特征；将第一位置特征、第二位置特征和预设空间关系语言特征分别输入第二融合网络中对应的全连接层，得到各个全连接层输出的特征；将各个全连接层输出的特征相加，再输入一个全连接层，得到第二融合特征R_t。第二融合网络中的计算方法可以采用以下公式表示。

公式(2)中，

分别表示第一物体和第二物体的坐标信息，

分别表示第一物体和第二物体的深度信息，w_R表示预设空间关系语言特征，W_t1，W_t2，W_Rt分别表示

和w_R分别输入的三个全连接层的参数转换矩阵，W_t表示三个全连接层输出的特征相加后输入的一个全连接层的参数转换矩阵。

例如，第三融合网络主要融合相对位移表示特征和预设空间关系语言特征w_R。相对位移表示特征可以更好的反映两个物体的空间关系，因此，将相对位移表示特征作为第三融合网络的一项输入。在一些实施例中，根据第一物体的矩形框对角线上两顶点的坐标、第二物体的矩形框对角线上两顶点的坐标、第一物体的矩形框的中心点坐标、以及第二物体的矩形框的中心点坐标，确定第一物体与第二物体的坐标相对位移特征；根据第一物体的矩形框内各个像素的深度值的平均值和第二物体的矩形框内各个像素的深度值的平均值，确定第一物体与第二物体的深度相对位移特征；将坐标相对位移特征和深度相对位移特征进行拼接，得到相对位移表示特征。可以采用以下公示确定第一物体和第二物体的相对位移表示特征。

公示(3)中，

分别表示第一物体和第二物体的矩形框的中心点坐标，如前述实施例

分别表示第一物体和第二物体的坐标信息，

分别表示第一物体和第二物体的深度信息。

第三融合网络可以包括全连接层和加法器，全连接层用于对输入的该全连接层的认证进行映射和转换，得到更加能表达物体空间特征的向量，加法器用于将输入该加法器的各个特征进行融合。第三融合网络可以包括多个全连接层，例如包括：分别对应于相对位移表示特征和预设空间关系语言特征的两个全连接层，以及用于将两个全连接层的输出进行特征相加后再输入的一个全连接层。如图3所示，在一些实施例中，将相对位移表示特征和预设空间关系语言特征分别输入第三融合网络对应的全连接层，得到各个全连接层输出的特征；将各个全连接层输出的特征相加，再输入一个全连接层，得到第三融合特征R_d。第三融合网络中的计算方法可以采用以下公式表示。

R_d＝W_d(W_d1D₁₂+W_Rdw_R) (4)

公式(4)中，D₁₂表示第一物体和第二物体的相对位移表示特征，w_R表示预设空间关系语言特征，W_d1，W_Rd分别表示D₁₂和w_R分别输入的两个全连接层的参数转换矩阵，W_d表示两个全连接层输出的特征相加后输入的一个全连接层的参数转换矩阵。

注意力机制网络可以动态的融合上述第一融合特征，第二融合特征，第三融合特征或者其中的任意两个融合特征。注意力机制网络包括全连接层，加法器和Softmax层，全连接层用于对输入的该全连接层的认证进行映射和转换，得到更加能表达物体空间特征的向量，加法器用于将输入该加法器的各个特征进行融合。Softmax层用于确定输入该Softmax层的不同特征的注意力权重。下面以注意力机制网络的输入为第一融合特征，第二融合特征，第三融合特征进行举例说明。

注意力机制网络可以包括多个全连接层，例如包括：分别对应于第一融合特征、第二融合特征和第三融合特征的第一组全连接层和第二组全连接层，每组全连接层可以分别包括三个全连接层。第一组全连接层输出的特征经过加法器和Softmax层，得到第一注意力权重、第二注意力权重和第三注意力权重，第二组全连接层输出第一映射特征、第二映射特征和第三映射特征，将第一映射特征、第二映射特征和第三映射特征进行加权后，再输入一个全连接层。

如图2所示，在一些实施例中，将第一融合特征、第二融合特征和第三融合特征分别输入注意力机制网络中的第一组全连接层中的各个全连接层，得到各个全连接层输出的特征；将各个全连接层输出的特征相加，再输入注意力机制网络中Softmax层，得到第一注意力权重、第二注意力权重和第三注意力权重λ₁，λ₂，λ₃；将第一融合特征、第二融合特征和第三融合特征分别输入注意力机制网络中的第二组全连接层的各个全连接层，得到第一融合特征映射成的第一映射特征，第二融合特征映射成的第二映射特征，第三融合特征映射成的第三映射特征；分别根据将第一注意力权重、第二注意力权重和第三注意力权重对第一映射特征、第二映射特征和第三映射特征进行加权；将加权结果输入一个全连接层，得到输出的第三特征。注意力权重的计算过程可以参考以下公式。

a＝W_a(W_alR_l+W_atR_t+W_adR_d) (5)

λ＝softmax(a) (6)

公式(5)中，R_l，R_t和R_d分别表示第一融合特征、第二融合特征和第三融合特征，W_al，W_at和W_ad分别表示R_l，R_t和R_d分别输入的第一组全连接层中各个全连接层的参数转换矩阵，W_a表示第一组全连接层输出的特征相加后输入的一个全连接层的参数转换矩阵。公式(6)中λ是三维的向量，它的每一维λ₁，λ₂，λ₃分别为第一注意力权重、第二注意力权重和第三注意力权重。进一步，第三特征可以采用以下公式计算。

公式(7)中，W_λl，W_λt，W_λd分别表示R_l，R_t和R_d分别输入的第二组全连接层中各个全连接层的参数转换矩阵，W_λlR_l，W_λtR_t，W_λdR_d分别表示第一映射特征、第二映射特征和第三映射特征，W_λ表示第一映射特征、第二映射特征和第三映射特征的加权结果输入的全连接层的参数转换矩阵。

通过上述第一融合网络、第二融合网络、第三融合网络和注意力机制网络实现了语言特征、坐标信息和深度信息与空间关系描述信息的融合，在融合过程中通过多个全连接层来实现特征的转换和映射，使其表达为更能反映空间关系信息的特征，通过注意力机制网络实现多路信息的权重判断并进行进一步融合，最终得到的特征再通过一个二分类器获得两个物体间满足空间关系描述信息的概率。例如分类器的计算过程可以采用以下公式表示。

公式(8)中，W_as为分类器的参数转换矩阵。

上述实施例中结合两个物体的坐标信息、名称(即语言信息)以及深度信息，对物体之间的空间关系进行识别。坐标信息反映了物体的平面几何特性和位置，深度信息反映了物体第三维度的立体感知信息，语言信息则蕴含了物体相关的常识知识，三者结合进行理解和学习，更加接近人类的视觉感知和理解过程，提高了对物体空间关系的识别的准确性。

下面结合图3描述本公开训练方法的一些实施例。

图3为本公开训练方法一些实施例的流程图。如图3所示，该实施例的方法包括：步骤S302～S310。

在步骤S302中，获取多个图像作为训练样本。

每个图像包括第一物体和第二物体，并标注了第一物体和第二物体的空间关系，即标注了第一物体在第二物体前面、后面等。

在步骤S304中，针对每个训练样本，确定第一物体的名称、第二物体的名称、第一物体的坐标信息、第二物体的坐标信息、以及第一物体的深度信息和第二物体的深度信息。

在步骤S306中，根据第一物体的名称，第二物体的名称分别确定第一物体的第一语言特征和第二物体的第二语言特征。

对第一物体和第二物体的名称中每个词进行编码的过程可以采用预先训练的编码模型进行处理，而前述实施例中提到的用于将每一个词的特征融合为一整个特征的GRU可以作为空间关系识别模型的一部分，一同进行训练。如图2所示GRU可以作为第一融合网络的一部分。

在步骤S308中，将各个训练样本对应的第一语言特征、第二语言特征、第一物体的坐标信息、第二物体的坐标信息、以及第一物体的深度信息和第二物体的深度信息输入空间关系识别模型，得到输出的第一物体和第二物体的空间关系的表示信息。

在一些实施例中，预设第一物体与第二物体的空间关系描述信息，并确定对应的预设空间关系语言特征；将训练样本对应的预设空间关系语言特征，第一语言特征、第二语言特征、第一物体的坐标信息、第二物体的坐标信息、以及第一物体的深度信息和第二物体的深度信息输入空间关系识别模型，得到输出的第一物体与第二物体的空间关系表示为对应的空间关系描述信息的概率。有一部分训练样本对应的预设的空间关系描述信息可以是正确的，另一部分训练样本对应的预设的空间关系描述信息可以是错误的，这样模型训练过程中可以学习不同情况。

在一些实施例中，将训练样本对应的预设空间关系语言特征，第一语言特征、第二语言特征、第一物体的坐标信息、第二物体的坐标信息、以及第一物体的深度信息和第二物体的深度信息输入空间关系识别模型中的融合网络，确定融合特征；将融合特征输入空间关系识别模型中的分类器，输出第一物体与第二物体的空间关系表示为该空间关系描述信息的概率。

进一步，在一些实施例中，根据第一物体的坐标信息、第二物体的坐标信息、第一物体的深度信息、第二物体的深度信息，确定第一物体和第二物体的相对位移表示特征；将第一语言特征、第二语言特征和预设空间关系语言特征输入空间关系识别模型的第一融合网络进行融合，确定第一融合特征；将第一物体的坐标信息、第二物体的坐标信息、第一物体的深度信息、第二物体的深度信息以及预设空间关系语言特征输入空间关系识别模型的第二融合网络进行融合，确定第二融合特征；将相对位移表示特征以及预设空间关系语言特征输入空间关系识别模型的第三融合网络进行融合，确定第三融合特征；将第一融合特征和第三融合特征输入注意力机制网络进行融合，确定第三特征，作为融合特征；将第三特征输入空间关系识别模型中的分类器，输出第一物体与第二物体的空间关系表示为该空间关系描述信息的概率。

上述各个实施例可以参考图1对应的实施例，在空间关系识别模型的训练和使用(或测试)过程中，各个特征的融合、分类过程是类似的，在此不再对训练过程中的上述过程进行具体描述。

在步骤S310中，根据各个训练样本对应的第一物体和第二物体的空间关系的表示信息，与标注的第一物体和第二物体的空间关系，对空间关系识别模型进行训练。

在一些实施例，根据第一物体与第二物体的空间关系表示为该空间关系描述信息的概率，与标注的第一物体和第二物体的空间关系的误差，确定损失函数；根据损失函数对空间关系识别模型中的融合网络和分类器的参数进行调整，对空间关系识别模型进行训练。损失函数例如为交叉熵损失函数，可以采用梯度下降等现有算法对融合网络和分类器的参数进行调整，重复上述过程，直至达到预设条件(例如，损失值最小、损失值达到预设值、迭代次数达到阈值等)，完成对空间关系识别模型进行训练。

在一些实施例，融合网络包括：第一融合网络、第二融合网络、第三融合网络，分别在各个融合网络中设置第一子分类器，第二子分类器和第三子分类器，各个子分类器分别根据本融合网络中得到的融合特征来确定第一物体与第二物体的空间关系符合空间关系描述信息。例如，将第一融合特征输入第一子分类器，得到第一物体与第二物体的空间关系表示为该空间关系描述信息的第一概率；将第二融合特征输入第二子分类器，得到第一物体与第二物体的空间关系表示为该空间关系描述信息的第二概率；将第三融合特征输入第三子分类器，得到第一物体与第二物体的空间关系表示为该空间关系描述信息的第三概率；将第三特征输入分类器，得到第一物体与第二物体的空间关系表示为该空间关系描述信息的第四概率；根据第一概率、第二概率、第三概率以及第四概率与标注的第一物体和第二物体的空间关系的误差，确定损失函数；根据损失函数对空间关系识别模型的参数进行调整，对空间关系识别模型进行训练。

分类器和各个子分类器也可以采用全连接层进行构建，如图2所示。第一子分类器根据融合每个物体的语言特征和预设空间关系语言特征的融合特征进行空间关系的推理，例如可以采用以下公式表示第一子分类器的计算过程。

S_l＝W_lsR_l (9)

公式(9)中，W_ls表示第一子分类器的参数转换矩阵，R_l为第一融合特征。

第二子分类器根据融合每个物体的坐标信息、深度信息和预设空间关系语言特征的融合特征进行空间关系的推理，例如可以采用以下公式表示第二子分类器的计算过程。

S_t＝W_tsR_t (10)

公式(10)中，W_ts表示第二子分类器的参数转换矩阵，R_t为第二融合特征。

第三子分类器根据融合相对位移表示特征和预设空间关系语言特征的融合特征进行空间关系的推理，例如可以采用以下公式表示第二子分类器的计算过程。

S_d＝W_dsR_d (11)

公式(11)中，W_ds表示第三子分类器的参数转换矩阵，R_d为第三融合特征。

针对预设的空间关系描述信息，第一、第二、第三子分类器和最后的分类器分别输出第一物体与第二物体的空间关系表示为该空间关系描述信息的概率，这四个概率分别与标注的第一物体和第二物体的空间关系计算误差，根据误差之和确定损失函数，根据损失函数对空间关系识别模型的所有参数进行调整，直至满足预设条件，完成对空间关系识别模型进行训练。

上述实施例中以空间关系识别模型包括第一、第二、第三融合网络为例描述训练方法，当空间关系识别模型包括第二、第三融合网络中的一个，以及第一融合网络的情况下，训练方法类似，不再赘述。

上述实施例的方法，在各个融合网络中设置子分类器，分别根据各自的融合网络中的融合特征进行空间推理，根据各个子分类器的输出结果和最终分类器的输出结果对整个模型进行训练，可以使每一个融合网络更加准确的提取和学习输入信息中表示空间管线的特征，实现更好的融合效果。并且使整个模型的准确度得以提升。

本公开还提供一种物体空间关系的识别装置，下面结合图4进行描述。

图4为本公开物体空间关系的识别装置的一些实施例的结构图。如图4所示，该实施例的装置40包括：获取模块410，语言特征确定模块420，空间关系确定模块430。

获取模块410，用于获取图像中待确定空间关系的第一物体的名称、第二物体的名称、第一物体的坐标信息、第二物体的坐标信息、以及第一物体的深度信息和第二物体的深度信息。

语言特征确定模块420，用于根据第一物体的名称，第二物体的名称分别确定第一物体的第一语言特征和第二物体的第二语言特征。

在一些实施例中，语言特征确定模块420用于对第一物体的名称中每个词进行编码，将各个词的编码输入门循环结构，得到输出的第一物体的第一语言特征；对第二物体的名称中每个词进行编码，将各个词的编码输入门循环结构，得到输出的第二物体的第二语言特征。

空间关系确定模块430，用于根据第一语言特征、第二语言特征、第一物体的坐标信息、第二物体的坐标信息、以及第一物体的深度信息和第二物体的深度信息，确定第一物体和第二物体的空间关系。

在一些实施例中，空间关系确定模块430用于预设第一物体与第二物体的多种空间关系描述信息；针对每种空间关系描述信息，确定对应的预设空间关系语言特征，并将预设空间关系语言特征，第一语言特征、第二语言特征、第一物体的坐标信息、第二物体的坐标信息、以及第一物体的深度信息和第二物体的深度信息输入空间关系识别模型，确定第一物体与第二物体的空间关系表示为该空间关系描述信息的概率；根据第一物体与第二物体的空间关系表示为每种空间关系描述信息的概率，确定第一物体和第二物体的空间关系。

在一些实施例中，空间关系确定模块430用于将预设空间关系语言特征，第一语言特征、第二语言特征、第一物体的坐标信息、第二物体的坐标信息、以及第一物体的深度信息和第二物体的深度信息输入空间关系识别模型中的融合网络，确定融合特征；将融合特征输入空间关系识别模型中的分类器，输出第一物体与第二物体的空间关系表示为该空间关系描述信息的概率。

在一些实施例中，空间关系确定模块430用于将第一语言特征、第二语言特征和预设空间关系语言特征输入空间关系识别模型的第一融合网络进行融合，确定第一融合特征；将第一物体的坐标信息、第二物体的坐标信息、第一物体的深度信息、第二物体的深度信息以及预设空间关系语言特征输入空间关系识别模型的第二融合网络进行融合，确定第二融合特征；将第一融合特征和第二融合特征输入注意力机制网络进行融合，确定第一特征，作为融合特征；将第一特征输入空间关系识别模型中的分类器，输出第一物体与第二物体的空间关系表示为该空间关系描述信息的概率。

在一些实施例中，空间关系确定模块430用于根据第一物体的坐标信息、第二物体的坐标信息、第一物体的深度信息、第二物体的深度信息，确定第一物体和第二物体的相对位移表示特征；将第一语言特征、第二语言特征和预设空间关系语言特征输入空间关系识别模型的第一融合网络进行融合，确定第一融合特征；将相对位移表示特征以及预设空间关系语言特征输入空间关系识别模型的第三融合网络进行融合，确定第三融合特征；将第一融合特征和第三融合特征输入注意力机制网络进行融合，确定第二特征，作为融合特征；将第二特征输入空间关系识别模型中的分类器，输出第一物体与第二物体的空间关系表示为该空间关系描述信息的概率。

在一些实施例中，空间关系确定模块430用于根据第一物体的坐标信息、第二物体的坐标信息、第一物体的深度信息、第二物体的深度信息，确定第一物体和第二物体的相对位移表示特征；将第一语言特征、第二语言特征和预设空间关系语言特征输入空间关系识别模型的第一融合网络进行融合，确定第一融合特征；将第一物体的坐标信息、第二物体的坐标信息、第一物体的深度信息、第二物体的深度信息以及预设空间关系语言特征输入空间关系识别模型的第二融合网络进行融合，确定第二融合特征；将相对位移表示特征以及预设空间关系语言特征输入空间关系识别模型的第三融合网络进行融合，确定第三融合特征；将第一融合特征、第二融合特征和第三融合特征输入注意力机制网络进行融合，确定第三特征，作为融合特征；将第三特征输入空间关系识别模型中的分类器，输出第一物体与第二物体的空间关系表示为该空间关系描述信息的概率。

在一些实施例中，空间关系确定模块430用于将第一语言特征、第二语言特征和预设空间关系语言特征分别输入第一融合网络中对应的全连接层，得到各个全连接层输出的特征；将各个全连接层输出的特征相加，再输入一个全连接层，得到第一融合特征。

在一些实施例中，空间关系确定模块430用于将第一物体的坐标信息和第一物体的深度信息进行拼接得到第一位置特征，将第二物体的坐标信息和第二物体的深度信息进行拼接得到第二位置特征；将第一位置特征、第二位置特征和预设空间关系语言特征分别输入第二融合网络中对应的全连接层，得到各个全连接层输出的特征；将各个全连接层输出的特征相加，再输入一个全连接层，得到第二融合特征。

在一些实施例中，空间关系确定模块430用于将相对位移表示特征和预设空间关系语言特征分别输入第三融合网络对应的全连接层，得到各个全连接层输出的特征；将各个全连接层输出的特征相加，再输入一个全连接层，得到第三融合特征。

在一些实施例中，第一物体的坐标信息包括第一物体的矩形框对角线上两顶点的坐标，第二物体的坐标信息包括第二物体的矩形框对角线上两顶点的坐标；第一物体的深度信息包括第一物体的矩形框内各个像素的深度值的平均值；第二物体的深度信息包括第二物体的矩形框内各个像素的深度值的平均值；空间关系确定模块430用于根据第一物体的矩形框对角线上两顶点的坐标、第二物体的矩形框对角线上两顶点的坐标、第一物体的矩形框的中心点坐标、以及第二物体的矩形框的中心点坐标，确定第一物体与第二物体的坐标相对位移特征；根据第一物体的矩形框内各个像素的深度值的平均值和第二物体的矩形框内各个像素的深度值的平均值，确定第一物体与第二物体的深度相对位移特征；将坐标相对位移特征和深度相对位移特征进行拼接，得到相对位移表示特征。

在一些实施例中，空间关系确定模块430用于将第一融合特征、第二融合特征和第三融合特征分别输入注意力机制网络中的第一组全连接层中的各个全连接层，得到各个全连接层输出的特征；将各个全连接层输出的特征相加，再输入注意力机制网络中Softmax层，得到第一注意力权重、第二注意力权重和第三注意力权重；将第一融合特征、第二融合特征和第三融合特征分别输入注意力机制网络中的第二组全连接层的各个全连接层，得到第一融合特征映射成的第一映射特征，第二融合特征映射成的第二映射特征，第三融合特征映射成的第三映射特征；分别根据将第一注意力权重、第二注意力权重和第三注意力权重对第一映射特征、第二映射特征和第三映射特征进行加权；将加权结果输入一个全连接层，得到输出的第三特征。

本公开还提供一种训练装置，下面结合图5进行描述。

图5为本公开训练装置的一些实施例的结构图。如图5所示，该实施例的装置50包括：获取模块510，信息确定模块520，语言特征确定模块530，空间关系确定模块540，调整模块550。

获取模块510，用于获取多个图像作为训练样本，其中，每个图像包括第一物体和第二物体，并标注了第一物体和第二物体的空间关系。

信息确定模块520，用于针对每个训练样本，确定第一物体的名称、第二物体的名称、第一物体的坐标信息、第二物体的坐标信息、以及第一物体的深度信息和第二物体的深度信息。

语言特征确定模块530，用于根据第一物体的名称，第二物体的名称分别确定第一物体的第一语言特征和第二物体的第二语言特征。

空间关系确定模块540，用于将各个训练样本对应的第一语言特征、第二语言特征、第一物体的坐标信息、第二物体的坐标信息、以及第一物体的深度信息和第二物体的深度信息输入空间关系识别模型，得到输出的第一物体和第二物体的空间关系的表示信息。

在一些实施例中，空间关系确定模块540用于预设第一物体与第二物体的空间关系描述信息，并确定对应的预设空间关系语言特征；将训练样本对应的预设空间关系语言特征，第一语言特征、第二语言特征、第一物体的坐标信息、第二物体的坐标信息、以及第一物体的深度信息和第二物体的深度信息输入空间关系识别模型，得到输出的第一物体与第二物体的空间关系表示为对应的空间关系描述信息的概率。

在一些实施例中，空间关系确定模块540用于将训练样本对应的预设空间关系语言特征，第一语言特征、第二语言特征、第一物体的坐标信息、第二物体的坐标信息、以及第一物体的深度信息和第二物体的深度信息输入空间关系识别模型中的融合网络，确定融合特征；将融合特征输入空间关系识别模型中的分类器，输出第一物体与第二物体的空间关系表示为该空间关系描述信息的概率。

在一些实施例中，空间关系确定模块540用于根据第一物体的坐标信息、第二物体的坐标信息、第一物体的深度信息、第二物体的深度信息，确定第一物体和第二物体的相对位移表示特征；将第一语言特征、第二语言特征和预设空间关系语言特征输入空间关系识别模型的第一融合网络进行融合，确定第一融合特征；将第一物体的坐标信息、第二物体的坐标信息、第一物体的深度信息、第二物体的深度信息以及预设空间关系语言特征输入空间关系识别模型的第二融合网络进行融合，确定第二融合特征；将相对位移表示特征以及预设空间关系语言特征输入空间关系识别模型的第三融合网络进行融合，确定第三融合特征；将第一融合特征和第三融合特征输入注意力机制网络进行融合，确定第三特征，作为融合特征；将第三特征输入空间关系识别模型中的分类器，输出第一物体与第二物体的空间关系表示为该空间关系描述信息的概率。

调整模块550，用于根据各个训练样本对应的第一物体和第二物体的空间关系的表示信息，与标注的第一物体和第二物体的空间关系，对空间关系识别模型进行训练。

在一些实施例中，调整模块550用于根据第一物体与第二物体的空间关系表示为该空间关系描述信息的概率，与标注的第一物体和第二物体的空间关系的误差，确定损失函数；根据损失函数对空间关系识别模型中的融合网络和分类器的参数进行调整，对空间关系识别模型进行训练。

在一些实施例中，调整模块550用于将第一融合特征输入第一子分类器，得到第一物体与第二物体的空间关系表示为该空间关系描述信息的第一概率；将第二融合特征输入第二子分类器，得到第一物体与第二物体的空间关系表示为该空间关系描述信息的第二概率；将第三融合特征输入第三子分类器，得到第一物体与第二物体的空间关系表示为该空间关系描述信息的第三概率；将第三特征输入分类器，得到第一物体与第二物体的空间关系表示为该空间关系描述信息的第四概率；根据第一概率、第二概率、第三概率以及第四概率与标注的第一物体和第二物体的空间关系的误差，确定损失函数；根据损失函数对空间关系识别模型的参数进行调整，对空间关系识别模型进行训练。

本公开还提供一种物体空间关系的识别系统，下面结合图6进行描述。

图6为本公开物体空间关系的识别系统的一些实施例的结构图。如图6所示，该实施例的系统6包括：前述任意实施例的物体空间关系的识别装置40和前述任意实施例的训练装置50。

本公开的实施例中的电子设备，例如物体空间关系的识别装置，或训练装置可各由各种计算设备或计算机系统来实现，下面结合图7以及图8进行描述。

图7为本公开电子设备的一些实施例的结构图。如图7所示，该实施例的电子设备70包括：存储器710以及耦接至该存储器710的处理器720，处理器720被配置为基于存储在存储器710中的指令，执行本公开中任意一些实施例中的物体空间关系的识别方法或训练方法。

其中，存储器710例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)、数据库以及其他程序等。

图8为本公开电子设备的另一些实施例的结构图。如图8所示，该实施例的电子设备80包括：存储器810以及处理器820，分别与存储器710以及处理器720类似。还可以包括输入输出接口830、网络接口840、存储接口850等。这些接口830，840，850以及存储器810和处理器820之间例如可以通过总线860连接。其中，输入输出接口830为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口840为各种联网设备提供连接接口，例如可以连接到数据库服务器或者云端存储服务器等。存储接口850为SD卡、U盘等外置存储设备提供连接接口。

本领域内的技术人员应当明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解为可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本公开的较佳实施例，并不用以限制本公开，凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种物体空间关系的识别方法，包括：

获取图像中待确定空间关系的第一物体的名称、第二物体的名称、所述第一物体的坐标信息、所述第二物体的坐标信息、以及所述第一物体的深度信息和所述第二物体的深度信息；

根据所述第一物体的名称，所述第二物体的名称分别确定所述第一物体的第一语言特征和所述第二物体的第二语言特征；

根据所述第一语言特征、所述第二语言特征、所述第一物体的坐标信息、所述第二物体的坐标信息、以及所述第一物体的深度信息和所述第二物体的深度信息，确定所述第一物体和第二物体的空间关系。

2.根据权利要求1所述的识别方法，其中，所述确定所述第一物体和第二物体的空间关系包括：

预设所述第一物体与所述第二物体的多种空间关系描述信息；

针对每种空间关系描述信息，确定对应的预设空间关系语言特征，并将所述预设空间关系语言特征，所述第一语言特征、所述第二语言特征、所述第一物体的坐标信息、所述第二物体的坐标信息、以及所述第一物体的深度信息和所述第二物体的深度信息输入空间关系识别模型，确定所述第一物体与所述第二物体的空间关系表示为该空间关系描述信息的概率；

根据所述第一物体与所述第二物体的空间关系表示为每种空间关系描述信息的概率，确定所述第一物体和第二物体的空间关系。

3.根据权利要求2所述的识别方法，其中，所述确定所述第一物体与所述第二物体的空间关系表示为该空间关系描述信息的概率包括：

将所述预设空间关系语言特征，所述第一语言特征、所述第二语言特征、所述第一物体的坐标信息、所述第二物体的坐标信息、以及所述第一物体的深度信息和所述第二物体的深度信息输入所述空间关系识别模型中的融合网络，确定融合特征；

将所述融合特征输入所述空间关系识别模型中的分类器，输出所述第一物体与所述第二物体的空间关系表示为该空间关系描述信息的概率。

4.根据权利要求3所述的识别方法，其中，所述确定所述第一物体与所述第二物体的空间关系表示为该空间关系描述信息的概率包括：

将所述第一语言特征、所述第二语言特征和所述预设空间关系语言特征输入所述空间关系识别模型的第一融合网络进行融合，确定第一融合特征；

将所述第一物体的坐标信息、所述第二物体的坐标信息、所述第一物体的深度信息、所述第二物体的深度信息以及所述预设空间关系语言特征输入所述空间关系识别模型的第二融合网络进行融合，确定第二融合特征；

将所述第一融合特征和所述第二融合特征输入注意力机制网络进行融合，确定第一特征，作为所述融合特征；

将所述第一特征输入所述空间关系识别模型中的分类器，输出所述第一物体与所述第二物体的空间关系表示为该空间关系描述信息的概率。

5.根据权利要求3所述的识别方法，其中，所述确定所述第一物体与所述第二物体的空间关系表示为该空间关系描述信息的概率包括：

根据所述第一物体的坐标信息、所述第二物体的坐标信息、所述第一物体的深度信息、所述第二物体的深度信息，确定所述第一物体和所述第二物体的相对位移表示特征；

将所述相对位移表示特征以及所述预设空间关系语言特征输入所述空间关系识别模型的第三融合网络进行融合，确定第三融合特征；

将所述第一融合特征和所述第三融合特征输入注意力机制网络进行融合，确定第二特征，作为所述融合特征；

将所述第二特征输入所述空间关系识别模型中的分类器，输出所述第一物体与所述第二物体的空间关系表示为该空间关系描述信息的概率。

6.根据权利要求3所述的识别方法，其中，所述确定所述第一物体与所述第二物体的空间关系表示为该空间关系描述信息的概率包括：

将所述第一融合特征、所述第二融合特征和所述第三融合特征输入注意力机制网络进行融合，确定第三特征，作为所述融合特征；

将所述第三特征输入所述空间关系识别模型中的分类器，输出所述第一物体与所述第二物体的空间关系表示为该空间关系描述信息的概率。

7.根据权利要求4-6任一项所述的识别方法，其中，所述确定第一融合特征包括：

将所述第一语言特征、所述第二语言特征和所述预设空间关系语言特征分别输入所述第一融合网络中对应的全连接层，得到各个全连接层输出的特征；

将各个全连接层输出的特征相加，再输入一个全连接层，得到第一融合特征。

8.根据权利要求4或6所述的识别方法，其中，所述确定第二融合特征包括：

将所述第一物体的坐标信息和所述第一物体的深度信息进行拼接得到第一位置特征，将所述第二物体的坐标信息和所述第二物体的深度信息进行拼接得到第二位置特征；

将所述第一位置特征、所述第二位置特征和所述预设空间关系语言特征分别输入所述第二融合网络中对应的全连接层，得到各个全连接层输出的特征；

将各个全连接层输出的特征相加，再输入一个全连接层，得到第二融合特征。

9.根据权利要求5或6所述的识别方法，其中，所述确定第三融合特征包括：

将所述相对位移表示特征和所述预设空间关系语言特征分别输入所述第三融合网络对应的全连接层，得到各个全连接层输出的特征；

将各个全连接层输出的特征相加，再输入一个全连接层，得到第三融合特征。

10.根据权利要求5或6所述的识别方法，其中，所述第一物体的坐标信息包括所述第一物体的矩形框对角线上两顶点的坐标，所述第二物体的坐标信息包括所述第二物体的矩形框对角线上两顶点的坐标；所述第一物体的深度信息包括所述第一物体的矩形框内各个像素的深度值的平均值；所述第二物体的深度信息包括所述第二物体的矩形框内各个像素的深度值的平均值；

所述确定所述第一物体和所述第二物体的相对位移表示特征包括：

根据所述第一物体的矩形框对角线上两顶点的坐标、所述第二物体的矩形框对角线上两顶点的坐标、所述第一物体的矩形框的中心点坐标、以及所述第二物体的矩形框的中心点坐标，确定所述第一物体与所述第二物体的坐标相对位移特征；

根据所述第一物体的矩形框内各个像素的深度值的平均值和所述第二物体的矩形框内各个像素的深度值的平均值，确定所述第一物体与所述第二物体的深度相对位移特征；

将所述坐标相对位移特征和所述深度相对位移特征进行拼接，得到所述相对位移表示特征。

11.根据权利要求6所述的识别方法，其中，将所述第一融合特征、所述第二融合特征和所述第三融合特征输入注意力机制网络进行融合，确定第三特征包括：

将所述第一融合特征、所述第二融合特征和所述第三融合特征分别输入所述注意力机制网络中的第一组全连接层中的各个全连接层，得到各个全连接层输出的特征；

将各个全连接层输出的特征相加，再输入注意力机制网络中Softmax层，得到第一注意力权重、第二注意力权重和第三注意力权重；

将所述第一融合特征、所述第二融合特征和所述第三融合特征分别输入所述注意力机制网络中的第二组全连接层的各个全连接层，得到所述第一融合特征映射成的第一映射特征，所述第二融合特征映射成的第二映射特征，所述第三融合特征映射成的第三映射特征；

分别根据将所述第一注意力权重、第二注意力权重和第三注意力权重对所述第一映射特征、所述第二映射特征和所述第三映射特征进行加权；

将加权结果输入一个全连接层，得到输出的第三特征。

12.根据权利要求1所述的识别方法，其中，所述根据所述第一物体的名称，所述第二物体的名称分别确定所述第一物体的第一语言特征和所述第二物体的第二语言特征包括：

对所述第一物体的名称中每个词进行编码，将各个词的编码输入门循环结构，得到输出的所述第一物体的第一语言特征；

对所述第二物体的名称中每个词进行编码，将各个词的编码输入门循环结构，得到输出的所述第二物体的第二语言特征。

13.一种训练方法，包括：

获取多个图像作为训练样本，其中，每个图像包括第一物体和第二物体，并标注了所述第一物体和所述第二物体的空间关系；

针对每个训练样本，确定第一物体的名称、第二物体的名称、所述第一物体的坐标信息、所述第二物体的坐标信息、以及所述第一物体的深度信息和所述第二物体的深度信息；

将各个训练样本对应的所述第一语言特征、所述第二语言特征、所述第一物体的坐标信息、所述第二物体的坐标信息、以及所述第一物体的深度信息和所述第二物体的深度信息输入空间关系识别模型，得到输出的所述第一物体和第二物体的空间关系的表示信息；

根据各个训练样本对应的所述第一物体和第二物体的空间关系的表示信息，与标注的所述第一物体和所述第二物体的空间关系，对所述空间关系识别模型进行训练。

14.一种物体空间关系的识别装置，包括：

获取模块，用于获取图像中待确定空间关系的第一物体的名称、第二物体的名称、所述第一物体的坐标信息、所述第二物体的坐标信息、以及所述第一物体的深度信息和所述第二物体的深度信息；

语言特征确定模块，用于根据所述第一物体的名称，所述第二物体的名称分别确定所述第一物体的第一语言特征和所述第二物体的第二语言特征；

空间关系确定模块，用于根据所述第一语言特征、所述第二语言特征、所述第一物体的坐标信息、所述第二物体的坐标信息、以及所述第一物体的深度信息和所述第二物体的深度信息，确定所述第一物体和第二物体的空间关系。

15.一种训练装置，包括：

获取模块，用于获取多个图像作为训练样本，其中，每个图像包括第一物体和第二物体，并标注了所述第一物体和所述第二物体的空间关系；

信息确定模块，用于针对每个训练样本，确定第一物体的名称、第二物体的名称、所述第一物体的坐标信息、所述第二物体的坐标信息、以及所述第一物体的深度信息和所述第二物体的深度信息；

空间关系确定模块，用于将各个训练样本对应的所述第一语言特征、所述第二语言特征、所述第一物体的坐标信息、所述第二物体的坐标信息、以及所述第一物体的深度信息和所述第二物体的深度信息输入空间关系识别模型，得到输出的所述第一物体和第二物体的空间关系的表示信息；

调整模块，用于根据各个训练样本对应的所述第一物体和第二物体的空间关系的表示信息，与标注的所述第一物体和所述第二物体的空间关系，对所述空间关系识别模型进行训练。

16.一种电子设备，包括：

处理器；以及

耦接至所述处理器的存储器，用于存储指令，所述指令被所述处理器执行时，使所述处理器执行如权利要求1-12任一项所述的物体空间关系的识别方法或权利要求13所述的训练方法。

17.一种非瞬时性计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现权利要求1-12任一项所述的物体空间关系的识别方法或权利要求13所述的训练方法。