CN111144492A

CN111144492A - 面向移动端虚拟现实与增强现实的场景图谱生成方法

Info

Publication number: CN111144492A
Application number: CN201911374530.1A
Authority: CN
Inventors: 万海; 欧佳玲; 曾娟; 王宝亿
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2019-12-27
Filing date: 2019-12-27
Publication date: 2020-05-12
Anticipated expiration: 2039-12-27
Also published as: CN111144492B

Abstract

本发明提供面向移动端虚拟现实和增强现实的场景图谱生成方法，涉及场景图谱领域。包括：利用场景图谱样本集，提取视觉关系组合、常识信息；通过目标检测模型检测出图像中物体的物体框及其物体类别；获取与物体对应的语义信息，根据常识信息进一步构造常识知识图，生成视觉关系f1；提取物体框区域的视觉信息，生成视觉关系f2；结合常识信息和视觉信息，通过注意力机制将f1、f2结合，生成场景图谱，获得并优化场景图谱生成模型。本发明在移动端运行场景图谱生成模型，能快速识别虚拟现实或增强现实画面中目标物体及物体之间的关系，相比服务器端检测具有更高的检测效率，为面向移动端虚拟现实和增强现实进行场景图谱生成提供技术可行性。

Description

面向移动端虚拟现实与增强现实的场景图谱生成方法

技术领域

本发明涉及场景图谱表示学习相关领域，更具体地，涉及面向移动端虚拟现实与增强现实的场景图谱生成方法。

背景技术

随着移动设备的普及和其计算能力的提高，在移动设备中虚拟现实与增强现实应用也随之发展。虚拟现实是利用计算机生成的一种模拟环境，使用户沉浸到该环境中。增强现实技术使现实世界信息和虚拟世界信息内容综合在一起，被人类感官所感知，从而实现超越现实的感官体验。为了使虚拟现实和增强现实的系统更好地被人类感知，系统有必要对现实世界进行理解，场景图谱是机器对现实世界图像进行理解的关键步骤。从现实场景对应的场景图谱中抽象出视觉关系，有利于机器对现实场景的理解。

图像场景图谱是对一幅图像所描绘场景的抽象的、结构化的表示。具体来说，图像场景图谱以图像场景图谱视觉关系组合(主语物体、关系谓词、宾语物体)的方式记录了图像中的两个物体以及两个物体之间的关系，并且每个物体在图像中都有一个对应的物体框和物体类别。图像场景图谱最先由Johnson等人提出，近来在计算机视觉和人工智能领域受到了关注。其中视觉关系组合对图像理解、图像描述等任务有很大的帮助。

以往的场景图谱生成方法，大多是利用图像的视觉信息，没有充分利用到与图像相关的一些常识信息，这些常识信息有利于为我们对图像上物体关系的理解，所以本发明提出了一个基于常识知识图的场景图谱生成方法，该方法结合了图像的视觉信息和收集的常识信息进行场景图谱生成。

随着神经网络的发展和移动终端的普及，移动终端可以应用一些神经网络模型，与虚拟现实和增强现实技术结合，使得用户能有更好的体验。在移动端虚拟现实和增强现实场景下进行场景图谱生成，有助于机器对图像场景的理解，为后续有关图像问答、图像理解等技术提供支持。本发明为面向移动端虚拟现实和增强现实进行场景图谱生成提供技术可行性。

发明内容

为了解决现有技术所存在的问题，本发明提供面向移动端虚拟现实与增强现实的图像场景图谱生成方法，在移动端运行场景图谱生成模型，能够快速识别虚拟现实或增强现实画面中目标物体及物体之间的关系，相比服务器端的检测，具有更高的检测效率。

本发明的技术方案如下：面向移动端虚拟现实与增强现实的图像场景图谱生成方法，包括以下步骤：

S1、利用场景图谱样本集，提取并统计视觉关系组合，提取常识信息；

S2、通过训练好的目标检测模型检测出场景图谱样本集图像中的物体，生成若干个候选区域，并预测出候选区域对应的物体类别；

S3、根据步骤S2得到的物体类别获取与物体对应的语义信息，再根据步骤S1所提取的常识信息，进一步构造常识知识图，生成初步的视觉关系f1；

S4、通过神经网络模型提取所述候选区域的视觉信息，包括视觉特征、空间特征和语义特征，生成初步的视觉关系f2；

S5、结合视觉信息和常识信息，通过注意力机制，将初步的视觉关系f1、初步的视觉关系f2的检测结果结合，进行场景图谱生成，并得到场景图谱生成模型；

S6、虚拟现实与增强现实系统包括移动端、计算机显示终端，对得到的场景图谱生成模型进行常识知识图和模型参数的优化，从而获取能够嵌入移动端的模型；以现实场景图像作为输入，并传输给计算及显示终端；计算及显示终端接收到现实场景图像，进行场景图谱生成，抽取对应现实场景图的视觉关系，叠加在现实场景图像中，获得当前现实或虚拟场景的场景图谱。

与现有技术相比，本发明技术方案的有益效果是：

在移动端虚拟现实与增强现实系统中应用场景图谱生成有利于系统对虚拟世界或现实世界的理解，有助于现实世界与虚拟世界的交互。所述场景图谱生成方法不仅利用了图像的视觉信息，还充分利用了数据集视觉关系组合隐藏的常识信息，通过结合注意力机制，生成图像场景图谱，能够提高图像场景图谱表示学习的效果。更进一步的，针对场景图谱生成模型的特点对模型进行优化，生成适用于移动端的场景图谱生成模型，可以缩小模型大小，并且提高模型的推理速度，为面向移动端虚拟现实和增强现实进行场景图谱生成提供技术可行性。

附图说明

图1为本发明实施例提供的场景图谱生成方法的流程示意图；

图2为本发明实施例提供的场景图谱生成的框架中视觉信息的框架示意图；

图3为本发明实施例提供的面向移动端虚拟现实与增强现实的场景图谱生成方法的流程示意图。

具体实施方式

下面结合附图和实施例对本发明做详细描述，可以理解的是，在本发明所描述的具体示例性实施方式仅用于解释本发明，而非对本发明进行限定，本发明的实施方式并不限于此。

另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分。对于本领域普通技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本实施例的面向移动端虚拟现实与增强现实的场景图谱生成方法，样本集中的所有的图像记为

所有的物体类别记为

所有的关系类别记为

输入图像I的场景图谱(所有的视觉关系组合)记为

输入图像I的物体集合记为

一条视觉关系组合记为

其中

本发明结合图像信息以及常识信息完成图像场景图谱生成任务。如图1所示，包括以下步骤：

步骤1、利用场景图谱样本集，提取并统计视觉关系组合，提取常识信息；在场景图谱样本集中，一条视觉关系组合标记为(s,p,o)，其中s代表主语物体，o代表宾语物体，p代表关系谓词；

S11、将场景图谱样本集进行采样得到样本数据集，作为场景图谱生成方法的输入；

S12、提取样本数据集中的视觉关系组合，对视觉关系组合进行统计，根据样本数据集里的视觉关系组合提取出常识信息，构建常识图

其中λ表示标记函数,表示两个物体之间的关系的一个条件概率：

式中，

表示两个物体之间的关系，

表示物体类别。

步骤2、通过训练好的目标检测模型检测出样本数据集上的图像I上的物体

以及生成若干个物体框，并预测出物体框对应的物体类别；

S21、首先对样本数据集中的图像用训练好的目标检测模型生成若干个候选区域，也就是物体框，并且预测出候选区域对应的物体类别。该步骤可以使用神经网络目标检测框架来实现。

S22、基于步骤S21，提取出物体框，记为b＝(x_min,y_min,x_max,y_max)，其中x_min和y_min表示物体框左上角的坐标，x_max和y_max表示物体框右下角的坐标；

S23、预测每个物体框对应的物体类别c；对于每个物体，表示为o＝(c,b)，其中c表示物体类别，b表示物体框，为后面步骤进行特征编码做准备。

步骤3、根据步骤2得到的物体类别获取与物体对应的语义信息，再根据步骤1所提取的常识信息，进一步构造常识图，生成初步的视觉关系f1；

本步骤所生成的初步的视觉关系f1与常识信息有关。本步骤将视觉关系组合的统计作为输入，根据步骤S2得到的物体类别c来获取与物体对应的语义信息，且语义信息也作为常识信息，再结合步骤1所提取的常识信息，进一步构造常识知识图，获得初步的视觉关系f1。其中视觉关系通过视觉关系组合的形式表示，即(s,p,o)，每个视觉关系组合对应一个概率，筛选出比阈值大的视觉关系组合，例如，包括但不限于0.5。

步骤4、通过神经网络模型提取步骤2所生成的候选区域的视觉信息，包括视觉特征、空间特征和语义特征，生成初步的视觉关系f2；

如图2所示，具体生成过程如下：

S41、将检测出来的一对物体s和o，分别表示主语物体和宾语物体，通过训练好的神经网络模型提取视觉特征，例如，包括但不限于VGG16，编码成300维的视觉特征v_app；

S42、将检测出来的一对物体s和o，获取他们的位置信息，依次通过降采样、掩膜、卷积神经网络和全连接层，获取空间特征：

a)降采样指将物体s和o物体框的像素降采样到32*32大小；

b)掩膜指物体s或o的物体框所包围的地方置为1，图像的其他地方置为0，再将物体s和o的掩膜拼为一个数组；

c)将该数组通过神经网络模型(包括三层卷积神经网络和两层全连接层)编码成300维的空间特征，记为空间特征编码v_spa；

S43、将预测出来的物体类别c，获取对应的词向量，从而获取语义特征。具体做法是通过在训练集训练的Word2Vec模型，获取对应的词向量，获取对应物体类别的一个128维的语义特征编码，记为v_w；

S44、将视觉特征、空间特征和语义特征融合为视觉信息，从而生成初步的视觉关系f2。

具体步骤如下：

a)将视觉特征和空间特征连接concate{v_app,v_spa}作为特征v1；

b)将组合的两个物体的主语物体类别的语义特征、特征v1、宾语主体类别的语义特征输入双向递归神经网络当中(Bi-RNN)；选择双向递归神经网络是由于在视觉关系中主语物体、关系谓词、宾语物体是有顺序的，主语物体和宾语物体一旦反过来，可能就是有不一样的关系谓词，双向递归神经网络可以适应这个特点。

c)根据上一步骤b)，对于每一对物体通过双向递归神经网络会输出一个概率表，再通过一层归一化处理后，概率表的数值范围会在(0,1)，该概率表表示这一对物体之间的一个关系概率分布，从而我们可以得到初步的视觉关系f2；

步骤5、结合视觉信息和常识信息，通过注意力机制，将以上两个初步的视觉关系检测结果结合，进行场景图谱生成，并得到场景图谱生成模型。即根据步骤3和步骤4分别生成的视觉关系f1和f2，通过注意力机制进行结合，具体如下：

a_n＝ReLU(Wf_n+b)

最后得到视觉关系f3，计算场景图谱生成模型的损失值，用随机梯度下降算法进行层级神经网络中各层参数的反向传播得到梯度值并反向传播更新层级神经网络参数。损失值采用交叉熵作为损失函数，损失函数定义如下：

L_i＝-w_L log(f_i)

对场景图谱生成模型的生成结果进行谓词检测、短语检测、关系检测，以验证这种场景图谱生成模型的有效性。

a)所述谓词检测任务就是输入图像以及标好的物体的物体框和物体类别，预测这两个物体之间的关系谓词，关系谓词预测正确即该视觉关系组合正确；

b)所述短语检测任务就是输入图像，预测物体以及物体之间的关系，视觉关系组合正确，并且包住两个物体的物体框与数据集标好的物体框的交并比(IOU)大于一个阈值，例如，包括但不限于0.5，则该视觉关系组合正确，否则，该视觉关系组合错误；

c)所述关系检测任务就是输入图像，预测物体以及物体之间的关系，视觉关系组合正确，并且两个物体的物体框与数据集标好的物体框分别的交并比(IOU)大于一个阈值，例如，包括但不限于0.5，则该视觉关系组合正确，否则，该视觉关系组合错误，会比上面一个任务的条件严格。

步骤6、对上述场景图谱生成模型中的常识知识图和模型参数进行优化，生成能够嵌入移动端的模型；以现实场景图像作为输入，并传输给计算及显示终端；计算及显示终端接收到现实场景图像，进行场景图谱生成，抽取对应现实场景图的视觉关系，叠加在现实场景图像中，获得当前现实或虚拟场景的场景图谱。

如图3所示，虚拟现实与增强现实系统包括移动端、计算机显示终端，将场景图谱生成模型和数据导入移动端，具体包括以下步骤：

S61、将上述场景图谱生成模型导入移动端。具体包括以下步骤：

获取场景图谱生成模型，针对场景图谱生成模型的特点对模型进行优化处理，生成适用于在移动端调用人工智能硬件的模型，可以有效提高模型在移动端的运行速度。针对本专利提出的场景图谱生成模型的特点，可以进行以下两方面的优化。

第一是针对常识知识图的优化，留下出现频率高的关系。对常识知识图的优化方式如下：

其中式中，

表示两个物体之间的关系，

分别表示主语物体和宾语物体的物体类别，threshold表示阈值。P(p|c_s,c_o)表示c_s和c_o之间是p关系的概率，w_p表示优化后的常识知识图中c_s和c_o之间是p关系的概率。

第二是对提取主语物体和宾语物体之间关系的部分模型参数进行优化，优化可以将模型大小缩小为原来的四分之一，同时提高运行速度，精度的损失在可接受范围内。优化的方式如下：

internal_r＝max-min

internal_q＝2^B-0

quant＝Round((real-min)*internal_q/internal_r)

其中real表示原始数据的浮点数，quant表示量化整数，Round(*)表示取最接近的整数，B表示量化的比特数，比如量化为8bit整数，则B＝8,max、min分别表示原始数据的最大值、最小值。而模型在加载时，可以通过反量化将模型参数恢复成原来的数值，从而不影响模型的效果。将场景图谱生成模型部署在移动端，调用移动端的人工智能硬件进行加速，提高运行速度。

S62、移动端获取现实场景图像，并传输给计算及显示终端。

S63、计算及显示终端接收到现实场景图像，用目标检测模型进行目标提取，检测出图像中包含的目标物体，确定每个物体的物体框和物体类别。记为：物体框b＝(x_min,y_min,x_max,y_max)和物体类别c，其中x_min和y_min表示物体框左上角的坐标，x_max和y_max表示物体框右下角的坐标；

S64、用以上获取到的现实场景图像和检测到的物体进行场景图谱生成，抽取对应现实场景的视觉关系，叠加在现实场景图像中。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.面向移动端虚拟现实和增强现实的场景图谱生成方法，其特征在于，包括以下步骤：

S2、通过训练好的目标检测模型检测出输入场景图谱样本集图像中的物体，生成若干个物体框，并预测出物体框对应的物体类别；

S4、通过神经网络模型提取所述物体框的视觉信息，包括视觉特征、空间特征和语义特征，生成初步的视觉关系f2；

S6、虚拟现实与增强现实系统包括移动端、计算机显示终端，对得到的场景图谱生成模型进行常识知识图和模型参数的优化，从而获取能够嵌入移动端的模型，以现实场景图像作为输入，并传输给计算及显示终端；计算及显示终端接收到现实场景图像，进行场景图谱生成，抽取对应现实场景图的视觉关系，叠加在现实场景图像中，获得当前现实或虚拟场景的场景图谱。

2.根据权利要求1所述的面向移动端虚拟现实和增强现实的场景图谱生成方法，其特征在于，步骤S1所利用的场景图谱样本集中，视觉关系组合标记为(s,p,o)，其中s代表主语物体，o代表宾语物体，p代表关系谓词。

3.根据权利要求1所述的面向移动端虚拟现实和增强现实的场景图谱生成方法，其特征在于，步骤S1包括：

S12、提取样本数据集中的视觉关系组合，对视觉关系组合进行统计，根据样本数据集合里的视觉关系组合提取出常识信息，构建常识知识图