CN108921952A

CN108921952A - 物体功能性预测方法、装置、计算机设备和存储介质

Info

Publication number: CN108921952A
Application number: CN201810618106.6A
Authority: CN
Inventors: 胡瑞珍; 黄惠; 张皓
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2018-06-15
Filing date: 2018-06-15
Publication date: 2018-11-30
Anticipated expiration: 2038-06-15
Also published as: CN108921952B; US20210365718A1; US11288538B2; WO2019237450A1

Abstract

本申请涉及一种物体功能性预测方法、装置、计算机设备和存储介质。包括：获取待预测物体和多个候选场景；将待预测物体和当前候选场景输入距离度量模型，距离度量模型根据已训练的场景特征子网络计算得到当前候选场景对应的特征向量，根据待预测物体和所述当前候选场景对应的特征向量输出待预测物体到所述当前候选场景的距离，其中距离度量模型的模型参数包括由已训练的物体特征子网络确定的参数；根据距离度量模型得到待预测物体到各个候选场景的距离；根据待预测物体到各个候选场景的距离确定待预测物体对应的目标场景；根据目标场景得到待预测物体对应的功能性预测结果，能够提高物体功能预测通用性。

Description

物体功能性预测方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种物体功能性预测方法、装置、计算机设备和存储介质。

背景技术

三维物体的功能分析作为理解和操作三维环境的一种方式受到了较多的关注。一个物体的功能可以通过包含这个物体的三维场景来体现，这个物体被称为中心物体，中心物体被一个或多个其它物体所围绕。

传统的物体功能性预测方法通常用几何的方式来分析物体结构从而得到功能性，需要规定很多特定的部件结构模型，并不具有通用性。或通过模拟人形代理来分析人与物体之间的交互，对于物体间相互作用体现的功能，由于不能直接通过模拟人形代理来分析使得功能性预测受到限制。

发明内容

基于此，有必要针对上述技术问题，提供一种能够通过网络模型学习功能相似性来推测物体的功能性，不受限于几何结构，能学习人与物体以及物体之间的交互，从而提高物体功能性预测的通用性的物体功能性预测方法、装置、计算机设备和存储介质。

一种物体功能性预测方法，所述方法包括：

获取待预测物体和多个候选场景；

将待预测物体和当前候选场景输入距离度量模型，所述距离度量模型根据已训练的场景特征子网络计算得到当前候选场景对应的特征向量，根据所述待预测物体和所述当前候选场景对应的特征向量输出所述待预测物体到所述当前候选场景的距离，其中距离度量模型的模型参数包括由已训练的物体特征子网络确定的参数；

根据所述距离度量模型得到待预测物体到各个候选场景的距离；

根据待预测物体到各个候选场景的距离确定所述待预测物体对应的目标场景；

根据所述目标场景得到所述待预测物体对应的功能性预测结果。

在其中一个实施例中，所述已训练的场景特征子网络和物体特征子网络通过以下步骤训练得到：

构建功能相似性网络，所述功能相似性网络包括物体特征子网络和至少2个场景特征子网络，其中各个基本场景特征子网络共享网络参数；

获取训练数据集合，所述训练数据集合中的各个训练数据包括孤立物体数据、正场景数据和负场景数据，其中正场景体现的功能与孤立物体功能相同，负场景体现的功能与孤立物体功能不同；

根据所述训练数据集合对所述功能相似性网络进行训练，根据所述功能相似性网络的输出计算代价函数，调整所述功能相似性网络的参数，直到所述代价函数满足收敛条件，得到已训练的功能相似性网络。

在其中一个实施例中，所述功能相似性网络对应的物体特征子网络的输出为高斯模型对应的参数，所述代价函数为关于孤立物体与正场景之间对应的功能相似性期望、孤立物体与负场景之间对应的功能相似性期望的函数，所述功能相似性期望通过以下公式计算得到：

其中，ε(x,Y)表示孤立物体x与场景Y之间对应的功能相似性期望值，p是高斯分布，N是所述高斯模型对应的高斯数量，{φ_k,μ_k,σ_k}是所述高斯模型中第k个高斯的参数，其中φ_k表示权重，μ_k表示均值和σ_k表示方差，f_Y是由所述功能相似性网络对应的场景特征子网络计算得到的场景Y对应的特征向量。

在其中一个实施例中，所述方法还包括：

根据所述已训练的场景特征子网络计算不同场景之间的功能性差异；

根据所述已训练的物体特征子网络计算不同物体之间的功能性差异。

在其中一个实施例中，所述根据所述目标场景得到所述待预测物体对应的功能性预测结果之后，还包括：

根据所述功能性预测结果确定所述待预测物体对应的功能标签；

将所述待预测物体和所述待预测物体对应的功能标签输入已训练的上下文生成网络模型；

所述已训练的上下文生成网络模型通过生成子网络生成对应的目标场景；

所述已训练的上下文生成网络模型通过放置子网络生成所述待预测物体对应的放置参数；

根据所述目标场景和所述放置参数，得到以所述待预测物体为中心物体的交互上下文场景。

在其中一个实施例中，所述方法还包括：

将所述交互上下文场景、所述功能标签输入已训练的分割网络；

所述分割网络计算得到所述交互上下文场景对应的体素化场景中各个体素对应的功能性概率；

根据各个体素对应的功能性概率将所述交互上下文场景对应的体素化场景分割为不同交互类型对应的体素集合。

在其中一个实施例中，所述方法还包括：

获取当前体素集合对应的当前交互类型，获取与所述当前交互类型对应的候选替换物体；

根据相似性算法从所述候选替换物体中检索得到所述当前体素集合对应的目标替换物体；

在所述交互上下文场景对应的体素化场景中用所述目标替换物体替换所述当前体素集合。

一种物体功能性预测装置，所述装置包括：

距离度量模块，用于获取待预测物体和多个候选场景，将待预测物体和当前候选场景输入距离度量模型，所述距离度量模型根据已训练的场景特征子网络计算得到当前候选场景对应的特征向量，根据所述待预测物体和所述当前候选场景对应的特征向量输出所述待预测物体到所述当前候选场景的距离，其中距离度量模型的模型参数包括由已训练的物体特征子网络确定的参数，根据所述距离度量模型得到待预测物体到各个候选场景的距离；

目标场景确定模块，用于根据待预测物体到各个候选场景的距离确定所述待预测物体对应的目标场景；

功能性预测模块，用于根据所述目标场景得到所述待预测物体对应的功能性预测结果。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取待预测物体和多个候选场景；将待预测物体和当前候选场景输入距离度量模型，所述距离度量模型根据已训练的场景特征子网络计算得到当前候选场景对应的特征向量，根据所述待预测物体和所述当前候选场景对应的特征向量输出所述待预测物体到所述当前候选场景的距离，其中距离度量模型的模型参数包括由已训练的物体特征子网络确定的参数；根据所述距离度量模型得到待预测物体到各个候选场景的距离；根据待预测物体到各个候选场景的距离确定所述待预测物体对应的目标场景；根据所述目标场景得到所述待预测物体对应的功能性预测结果。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述物体功能性预测方法、装置、计算机设备和存储介质，通过获取待预测物体和多个候选场景；将待预测物体和当前候选场景输入距离度量模型，所述距离度量模型根据已训练的场景特征子网络计算得到当前候选场景对应的特征向量，根据所述待预测物体和所述当前候选场景对应的特征向量输出所述待预测物体到所述当前候选场景的距离，其中距离度量模型的模型参数包括由已训练的物体特征子网络确定的参数；根据所述距离度量模型得到待预测物体到各个候选场景的距离；根据待预测物体到各个候选场景的距离确定所述待预测物体对应的目标场景；根据所述目标场景得到所述待预测物体对应的功能性预测结果，通过网络模型学习功能相似性来推测物体的功能性，不受限于几何结构，能学习人与物体以及物体之间的交互，提高了物体功能性预测的通用性与准确性。

附图说明

图1为一个实施例中物体功能性预测方法的应用环境图；

图2为一个实施例中物体功能性预测方法的流程示意图；

图3为一个实施例中得到已训练的功能相似性网络的流程示意图；

图4为一个实施例中功能相似性网络的结构示意图；

图5为一个实施例中生成物体交互上下文场景的流程示意图；

图6为一个实施例中场景分割的流程示意图；

图7为一个实施例中上下文生成网络的结构示意图；

图8为一个实施例中场景分割网络的结构示意图；

图9为一个实施例中优化体素化场景的流程示意图；

图10为一个实施例中物体功能性预测装置的结构框图；

图11为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请

本申请提供的物体功能性预测方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104通过网络进行通信。终端可获取用户输入的待预测物体和从数据库中获取多个候选场景，距离度量模型可以在服务器104中或终端102中，当距离度量模型在服务器104中时，可以将待预测物体发送至服务器104进行功能性预测，多个候选场景可以存储在服务器104中。当距离度量模型在终端102时，可直接在终端102进行功能性预测。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种物体功能性预测方法，以该方法应用于图1中的终端或服务器为例进行说明，包括以下步骤：

步骤S210，获取待预测物体和多个候选场景，将待预测物体和当前候选场景输入距离度量模型，距离度量模型根据已训练的场景特征子网络计算得到当前候选场景对应的特征向量，根据待预测物体和当前候选场景对应的特征向量输出所述待预测物体到当前候选场景的距离，其中距离度量模型的模型参数包括由已训练的物体特征子网络确定的参数。

其中，待预测物体是指需要预测物体功能的物体，可以用三维模型数据表示待预测物体。场景是指包括中心物体和旁边物体的完整场景，中心物体旁边的物体叫做中心物体对应的交互上下文。候选场景为多个，通过距离度量模型计算待预测物体与各个候选场景的功能相似性，从而从候选场景中得到与待预测物体功能最相近的场景作为目标场景。候选场景可以存储在数据库中，从而使用距离度量模型从候选场景中检索得到目标场景。

距离度量模型用于计算待预测物体到各个候选场景的度量距离，度量距离体现了孤立物体x所支持的功能与场景Y所体现的功能的相似性，距离越近表示孤立物体x所支持的功能与场景Y所体现的功能越相近。为了获得这个度量距离，将物体和场景映射到交互空间中，在这个空间中度量距离。

距离度量模型用于计算输入物体x支持场景Y体现的功能的期望值，也就是概率值，通过此概率值体现孤立物体x所支持的功能与场景Y所体现的功能的相似性。距离度量模型的输出与输入物体、当前候选场景对应的特征向量、距离度量模型参数相关，而距离度量模型的模型参数又是由已训练的物体特征子网络确定的。其中当前候选场景对应的特征向量是根据已训练的场景特征子网络计算得到。

其中，场景特征子网络由多个卷积层实现，将输入的场景Y映射为64维的特征向量f_Y，代表场景中的中心物体在交互空间中的坐标。

物体特征子网络将孤立的物体映射到交互空间中，可以由在多个卷积层后添加全连接层以得到高斯模型参数来实现的。

步骤S220，根据距离度量模型得到待预测物体到各个候选场景的距离。

具体地，将待预测物体分别与各个候选场景组合输入距离度量模型，从而得到待预测物体到各个候选场景的距离。

步骤S230，根据待预测物体到各个候选场景的距离确定待预测物体对应的目标场景，根据目标场景得到待预测物体对应的功能性预测结果。

具体地，待预测物体到候选场景的距离越近，表示孤立物体x所支持的功能与场景Y所体现的功能的相似性越高。在一个实施例中，将最小距离对应的候选场景作为目标场景。另外，由于一个物体可能有多个不同的功能，可以选取距离小于预设阈值的多个候选场景作为目标场景，不同的目标场景可能代表物体不同的功能。具体的确定目标场景的方法可根据需要自定义。由于从候选场景中筛选出的目标场景的功能与待预测物体很接近，从而可以通过目标场景得到待预测物体对应的功能性预测结果。

本实施例中，通过获取待预测物体和多个候选场景；将待预测物体和当前候选场景输入距离度量模型，所述距离度量模型根据已训练的场景特征子网络计算得到当前候选场景对应的特征向量，根据所述待预测物体和所述当前候选场景对应的特征向量输出所述待预测物体到所述当前候选场景的距离，其中距离度量模型的模型参数包括由已训练的物体特征子网络确定的参数；根据所述距离度量模型得到待预测物体到各个候选场景的距离；根据待预测物体到各个候选场景的距离确定所述待预测物体对应的目标场景；根据所述目标场景得到所述待预测物体对应的功能性预测结果，通过网络模型学习功能相似性来推测物体的功能性，不受限于几何结构，能学习人与物体以及物体之间的交互，提高了物体功能性预测的通用性与准确性。

在一个实施例中，如图3所示，已训练的场景特征子网络和物体特征子网络通过以下步骤训练得到：

步骤S310，构建功能相似性网络，功能相似性网络包括物体特征子网络和至少2个场景特征子网络，其中各个基本场景特征子网络共享网络参数。

具体地，功能相似性网络通过推断孤立的三维物体的交互上下文来预测其功能。功能相似性网络的目标是学习距离度量模型，表示为其通过度量距离体现给定孤立物体x与场景Y中的中心物体之间的功能相似性，这个度量规定物体x与场景Y中的中心物体之间交互的不同。学习度量距离也就是学习两个映射函数，物体映射函数表示为E_obj，场景映射函数表示为E_scn，然后，定义映射函数应满足在映射空间中具有相似交互的场景彼此接近，而具有不同交互的场景相距较远的要求。

其中，两个场景特征子网络共享参数，因为它们学习相同的函数，即场景映射函数。

步骤S320，获取训练数据集合，训练数据集合中的各个训练数据包括孤立物体数据、正场景数据和负场景数据，其中正场景体现的功能与孤立物体功能相同，负场景体现的功能与孤立物体功能不同。

具体地，从提供度量示例的三元组中学习距离度量模型。具体来说，训练数据集合中的各个训练数据是由三元组的形式组成，其中x_i是一个孤立物体数据，表示一个正场景数据，表示一个负场景数据。学习距离度量模型就可以表示为学习E_obj和E_scn使得对所有成立。

步骤S330，根据训练数据集合对所述功能相似性网络进行训练，根据功能相似性网络的输出计算代价函数，调整功能相似性网络的参数，直到代价函数满足收敛条件，得到已训练的功能相似性网络。

具体地，功能相似性网络以训练数据集合中的各个训练数据作为输入，一个训练数据包括一个物体和两个场景，其中物体可以由643体素化表示。其中两个场景特征子网络根据输入的场景学习E_scn，而另一个物体特征子网络根据输入的孤立物体学习E_obj，这些子网络可以通过将三维体素转换为特征向量，实现从输入到交互空间的映射，所有子网络一起训练。由于物体层次和场景层次属于不同的域，所以本实施例中将不同域映射到同一隐空间中。

训练过程是通过优化子网络的参数来最小化训练集的代价函数，代价函数确保了具有类似功能的物体在映射空间中保持接近，且具有不同功能的物体保持在一定距离之外。在一个实施例中，功能相似性网络用Adam优化器训练。

得到已训练的功能相似性网络，就能得到已训练的场景特征子网络和已训练的物体特征子网络，从而可利用已训练的场景特征子网络和已训练的物体特征子网络确定距离度量模型中的参数。

本实施例中，通过对包括三个子网络的功能相似性网络进行训练，得到距离度量模型的参数，训练数据和训练得到的模型不受限于几何结构，能学习人与物体以及物体之间的交互，能得到准确的模型参数并且训练得到的模型的通用性高。

在一个实施例中，功能相似性网络对应的物体特征子网络的输出为高斯模型对应的参数，代价函数为关于孤立物体与正场景之间对应的功能相似性期望、孤立物体与负场景之间对应的功能相似性期望的函数，功能相似性期望通过以下公式计算得到：

具体地，高斯模型可以为混合高斯模型，学习一个从输入到使用混合高斯模型(GMM)的隐空间的概率映射，使用GMM，可以计算输入物体x与场景Y之间对应的功能相似性期望。其中{φ_k,μ_k,σ_k}是物体特征子网络的输出，通过学习物体特征子网络得到这些高斯模型参数。

根据功能相似性期望函数计算得到孤立物体与正场景之间对应的功能相似性期望ε(x,Y⁺)，孤立物体与负场景之间对应的功能相似性期望ε(x,Y^-)，根据ε(x,Y⁺)和ε(x,Y^-)得到代价函数。

在一个实施例中，代价函数通过以下公式计算得到：

其中，L(x,Y⁺,Y^-)＝max{0,m+ε(x,Y⁺)-ε(x,Y^-)}

其中，m是三元组的数量，x_i是一个孤立物体数据，表示一个正场景数据，表示一个负场景数据。m是余量参数，m的值可自定义，在一个实施例中m取10，有助于控制优化过程的收敛。如果负期望和正期望之间的差值小于m，那么三元组有利于网络参数的优化。

在一个具体的实施例中，如图4所示，为功能相似性网络的结构示意图，最上方一行网络实现了E_obj网络，第二和第三行网络实现了E_scn网络。每个立方体的上方标注了这一层中该单元的数量，下方标注了这一层处理的数据维度。

在一个实施例中，方法还包括：根据已训练的场景特征子网络计算不同场景之间的功能性差异，根据已训练的物体特征子网络计算不同物体之间的功能性差异。

具体地，可通过‖E_scn(Y₁)-E_scn(Y₂)‖₂来计算两个场景Y₁和Y₂之间的功能性差异，对于两个物体x₁和x₂，可以通过E_obj(x₁)和E_obj(x₂)的概率来计算两个物体间的功能性差异，由于每个物体可以得到一个对应的GMM，所以可以通过GMM距离来衡量两个物体间的功能性差异。

在一个实施例中，如图5所示，步骤S230之后，还包括：

步骤S410，根据功能性预测结果确定待预测物体对应的功能标签，将待预测物体和待预测物体对应的功能标签输入已训练的上下文生成网络模型。

具体地，功能标签用于描述待预测物体对应的功能，可直接用物体名称作为物体的功能标签，如桌子对应的功能标签为“Table”，上下文生成网络可以为输入的孤立物体生成对应的交互场景，生成的场景是由与输入物体进行交互的其它物体组成，以展示输入物体的功能。在一个实施例中，待预测物体对应的功能标签可以是自定义的功能标签。在一个实施例中，待预测物体对应的功能标签是用功能相似性网络输出结果的最高概率类别来得到。尽管一个物体可以有多个功能，但是通过将单个标签作为输入，可以生成有特定功能的场景Y。上下文生成网络模型可以输入单个体素化的物体x，以及其功能标签c，网络的输出是一个体素化的场景Y。

步骤S420，已训练的上下文生成网络模型通过生成子网络生成对应的目标场景，已训练的上下文生成网络模型通过放置子网络生成所述待预测物体对应的放置参数。

其中，放置参数用于描述物体放入目标场景的放置信息，如缩放和平移量。

具体地，上下文生成网络模型由生成子网络和放置子网络来完成的，通过合并生成子网络和放置子网络的输出结果，我们得到一个完整的场景Y，其中输入物体x被放在适当的位置作为中心物体，而生成的场景作为中心物体的上下文场景。通过改变输入的功能标签c，我们可以生成不同的场景来体现同一物体的不同功能。

为了训练上下文生成网络模型，提供包含中心物体和周围物体的体素化场景以及功能性标签作为示例。定义了两种代价函数：用于生成子网络的代价函数是训练数据与生成结果之间的平均交叉熵，不包括中心物体，而放置子网络的代价函数是训练数据与生成结果之间中心物体缩放和平移量的L2范数之和。首先单独训练放置子网络。然后，固定放置子网络的参数并训练生成子网络，最后，对整个网络进行微调得到已训练的上下文生成网络模型。

步骤S430，根据目标场景和放置参数，得到以待预测物体为中心物体的交互上下文场景。

具体地，通过放置参数将待预测物体准确地放置到目标场景中，从而得到以待预测物体为中心物体的交互上下文场景。

在一个具体地实施例中，如图7所示，输入的物体首先通过卷积子网络映射到特征空间，得到一个128维的特征向量，再通过全连接层根据物体的特征向量和功能标签c得到一个256维的特征向量。最后，一个解码子网络以这个特征向量作为输入，合成交互上下文场景。同时，由几个全连接层组成的空间变换网络以特征向量为输入，计算输入物体x放入场景中所需的放置参数，如缩放参数和平移参数。

在一个实施例中，如图6所示，方法还包括：

步骤S510，将交互上下文场景、功能标签输入已训练的分割网络。

具体地，上下文生成网络的输出是一个体素化的场景，其中包括三种类型：中心物体，上下文场景，空区域。分割网络的目标是将上下文场景中的体素分割为不同交互类型的物体。

步骤S520，分割网络计算得到交互上下文场景对应的体素化场景中各个体素对应的功能性概率。

具体地，假设在数据集中有M种不同的交互类型，例如，椅子放在桌子旁边，书本放在桌子上面，使用分割网络得到交互上下文场景中每个体素被标记为某种交互类型的概率。输出一个由M个概率组成的向量，其中是体素j被标记为i型交互方式的概率。分割网络由编码和解码的卷积网络组成，如图8所示，在一个具体的实施例中，编码器将输入向量缩小为128维的特征向量，该向量与处理场景标签的全连接层的输出级联，该级联后的特征向量被进行进一步处理和解码，以获得上下文场景体素的功能性概率。

为了训练这个分割网络，通过对每个场景中的交互物体标记其交互类型来准备训练数据。在一个实施例中，共18个交互标签，是在数据集中观察到的交互类型，这些交互类型包括支撑、被支撑、坐、骑、悬挂、打字等等。分割网络的代价函数定义为数据集与预测标签之间的平均交叉熵。

步骤S530，根据各个体素对应的功能性概率将交互上下文场景对应的体素化场景分割为不同交互类型对应的体素集合。

具体地，为了得到最终的分割结果，可以取每个体素的最大概率标签。然而，这种情况下生成的结果可能会有噪声。为了平滑体素的功能标签，通过在概率分布上应用图割来解决这个多标签优化问题。建立了一个图，其中每个交互物体的体素是一个节点，并且两个相邻体素之间使用26连通性相连。每个体素和标签的数据代价为1-p_l，其中p_l是指该体素属于标签l的概率。对于不同标签之间的平滑项，计算每对标签在训练数据中是否相邻并将代价设置为1-f_i,j，其中f_i,j是标签l_i和l_j相邻的归一化频率。当对每个体素进行标记后，就可以为任何标签找到所有的相连部分。如果某部分大小小于其对应标签最大部分大小的10％，就删除该部分。

最后，通过结合分割后的场景与中心物体的体素，可以得到一个体素化的场景Y，其中包含中心物体以及具有不同交互类型的其他物体。

在一个实施例中，如图9所示，方法还包括：

步骤S610，获取当前体素集合对应的当前交互类型，获取与当前交互类型对应的候选替换物体。

具体地，可训练一个分类网络，将数据集中的每一个物体映射到其对应的交互类型，从而各个不同的交互类型都存在对应的候选替换物体。得到当前体素集合对应的当前交互类型，从而得到与当前交互类型对应的候选替换物体。

其中，分类网络用于将输入物体或场景划分为一个或多个功能性类别，在训练分类网络时，训练三元组同时还会带有物体或场景的功能性标签。为了建立一个物体的功能性分类网络，在E_obj子网络的最后增加了两个全连接层，来学习函数L(x)，L(x)将Eobj子网络输出的三个GMM参数进一步转换为25维的向量，该25维向量里哪个概率最大就说明该物体属于哪一个类别，将输出的GMM参数转换为分类的概率。相似地，为了实现场景的功能性分类网络，在E_scn子网络的最后增加了两个全连接层，来学习分类函数L(Y)。

步骤S620，根据相似性算法从候选替换物体中检索得到当前体素集合对应的目标替换物体。

具体地，可用分类网络的最后一个特征层对生成的场景中的物体以及分割好的体素进行编码，通过特征向量的L2距离检索得到与当前体素集合最相似的目标替换物体。

步骤S630，在交互上下文场景对应的体素化场景中用目标替换物体替换当前体素集合。

具体地，当所有需要替换的物体都检索得到对应的目标替换物体时，对目标替换物体进行缩放和平移，将其放在中心物体周围，使得场景中对应的相对位置和大小与生成场景中对应的相对位置和大小尽可能一致。

本实施例中，体素化后的场景可以通过检索高分辨率模型来替代场景中的物体进行进一步优化。

应该理解的是，虽然上述流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图10所示，提供了一种物体功能性预测装置，包括：

距离度量模块710，用于获取待预测物体和多个候选场景，将待预测物体和当前候选场景输入距离度量模型，距离度量模型根据已训练的场景特征子网络计算得到当前候选场景对应的特征向量，根据待预测物体和所述当前候选场景对应的特征向量输出待预测物体到所述当前候选场景的距离，其中距离度量模型的模型参数包括由已训练的物体特征子网络确定的参数，根据距离度量模型得到待预测物体到各个候选场景的距离。

目标场景确定模块720，用于根据待预测物体到各个候选场景的距离确定待预测物体对应的目标场景。

功能性预测模块730，用于根据目标场景得到待预测物体对应的功能性预测结果。

在一个实施例中，如图10所示，装置还包括：

训练模块740，用于构建功能相似性网络，功能相似性网络包括物体特征子网络和至少2个场景特征子网络，其中各个基本场景特征子网络共享网络参数，获取训练数据集合，训练数据集合中的各个训练数据包括孤立物体数据、正场景数据和负场景数据，其中正场景体现的功能与孤立物体功能相同，负场景体现的功能与孤立物体功能不同，根据训练数据集合对功能相似性网络进行训练，根据功能相似性网络的输出计算代价函数，调整功能相似性网络的参数，直到代价函数满足收敛条件，得到已训练的功能相似性网络。

在一个实施例中，如图10所示，装置还包括：

功能性差异计算模块750，用于根据所述已训练的场景特征子网络计算不同场景之间的功能性差异，根据所述已训练的物体特征子网络计算不同物体之间的功能性差异。

在一个实施例中，如图10所示，装置还包括：

上下文生成模块760，用于根据功能性预测结果确定待预测物体对应的功能标签，将待预测物体和待预测物体对应的功能标签输入已训练的上下文生成网络模型，已训练的上下文生成网络模型通过生成子网络生成对应的目标场景，已训练的上下文生成网络模型通过放置子网络生成所述待预测物体对应的放置参数，根据目标场景和放置参数，得到以待预测物体为中心物体的交互上下文场景。

在一个实施例中，如图10所示，装置还包括：

分割模块770，用于将交互上下文场景、功能标签输入已训练的分割网络，分割网络计算得到交互上下文场景对应的体素化场景中各个体素对应的功能性概率，根据各个体素对应的功能性概率将交互上下文场景对应的体素化场景分割为不同交互类型对应的体素集合。

在一个实施例中，如图10所示，装置还包括：

优化模块780，用于获取当前体素集合对应的当前交互类型，获取与当前交互类型对应的候选替换物体，根据相似性算法从候选替换物体中检索得到当前体素集合对应的目标替换物体，在交互上下文场景对应的体素化场景中用目标替换物体替换所述当前体素集合。

上述物体功能性预测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现上述实施例所述的物体功能性预测方法。

本领域技术人员可以理解，图11中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现以下步骤：获取待预测物体和多个候选场景；将待预测物体和当前候选场景输入距离度量模型，距离度量模型根据已训练的场景特征子网络计算得到当前候选场景对应的特征向量，根据所述待预测物体和所述当前候选场景对应的特征向量输出所述待预测物体到所述当前候选场景的距离，其中距离度量模型的模型参数包括由已训练的物体特征子网络确定的参数；根据距离度量模型得到待预测物体到各个候选场景的距离；根据待预测物体到各个候选场景的距离确定所述待预测物体对应的目标场景；根据目标场景得到待预测物体对应的功能性预测结果。

在一个实施例中，场景特征子网络和物体特征子网络的训练包括：构建功能相似性网络，所述功能相似性网络包括物体特征子网络和至少2个场景特征子网络，其中各个基本场景特征子网络共享网络参数，获取训练数据集合，所述训练数据集合中的各个训练数据包括孤立物体数据、正场景数据和负场景数据，其中正场景体现的功能与孤立物体功能相同，负场景体现的功能与孤立物体功能不同；根据所述训练数据集合对所述功能相似性网络进行训练，根据所述功能相似性网络的输出计算代价函数，调整所述功能相似性网络的参数，直到所述代价函数满足收敛条件，得到已训练的功能相似性网络。

在一个实施例中，功能相似性网络对应的物体特征子网络的输出为高斯模型对应的参数，所述代价函数为关于孤立物体与正场景之间对应的功能相似性期望、孤立物体与负场景之间对应的功能相似性期望的函数，所述功能相似性期望通过以下公式计算得到：

在一个实施例中，计算机程序还使得所述处理器执行如下步骤：根据已训练的场景特征子网络计算不同场景之间的功能性差异，根据已训练的物体特征子网络计算不同物体之间的功能性差异。

在一个实施例中，计算机程序还使得所述处理器执行如下步骤：根据功能性预测结果确定待预测物体对应的功能标签；将待预测物体和所述待预测物体对应的功能标签输入已训练的上下文生成网络模型；已训练的上下文生成网络模型通过生成子网络生成对应的目标场景；已训练的上下文生成网络模型通过放置子网络生成所述待预测物体对应的放置参数；根据目标场景和所述放置参数，得到以待预测物体为中心物体的交互上下文场景。

在一个实施例中，计算机程序还使得所述处理器执行如下步骤：将交互上下文场景、所述功能标签输入已训练的分割网络；分割网络计算得到所述交互上下文场景对应的体素化场景中各个体素对应的功能性概率；根据各个体素对应的功能性概率将所述交互上下文场景对应的体素化场景分割为不同交互类型对应的体素集合。

在一个实施例中，计算机程序还使得所述处理器执行如下步骤：获取当前体素集合对应的当前交互类型，获取与当前交互类型对应的候选替换物体；根据相似性算法从候选替换物体中检索得到所述当前体素集合对应的目标替换物体；在交互上下文场景对应的体素化场景中用所述目标替换物体替换当前体素集合。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取待预测物体和多个候选场景；将待预测物体和当前候选场景输入距离度量模型，距离度量模型根据已训练的场景特征子网络计算得到当前候选场景对应的特征向量，根据所述待预测物体和所述当前候选场景对应的特征向量输出所述待预测物体到所述当前候选场景的距离，其中距离度量模型的模型参数包括由已训练的物体特征子网络确定的参数；根据距离度量模型得到待预测物体到各个候选场景的距离；根据待预测物体到各个候选场景的距离确定所述待预测物体对应的目标场景；根据目标场景得到待预测物体对应的功能性预测结果。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种物体功能性预测方法，所述方法包括：

获取待预测物体和多个候选场景；

2.根据权利要求1所述的方法，其特征在于，所述已训练的场景特征子网络和物体特征子网络通过以下步骤训练得到：

3.根据权利要求2所述的方法，其特征在于，所述功能相似性网络对应的物体特征子网络的输出为高斯模型对应的参数，所述代价函数为关于孤立物体与正场景之间对应的功能相似性期望、孤立物体与负场景之间对应的功能相似性期望的函数，所述功能相似性期望通过以下公式计算得到：

其中，ε(x，Y)表示孤立物体x与场景Y之间对应的功能相似性期望值，p是高斯分布，N是所述高斯模型对应的高斯数量，{φ_k，μ_k，σ_k}是所述高斯模型中第k个高斯的参数，其中φ_k表示权重，μ_k表示均值和σ_k表示方差，f_Y是由所述功能相似性网络对应的场景特征子网络计算得到的场景Y对应的特征向量。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述根据所述目标场景得到所述待预测物体对应的功能性预测结果之后，还包括：

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

8.一种物体功能性预测装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述方法的步骤。