CN111914697A

CN111914697A - 基于视图语义信息和序列上下文信息的多视目标识别方法

Info

Publication number: CN111914697A
Application number: CN202010686791.3A
Authority: CN
Inventors: 刘安安; 郭富宾; 周河宇; 宋丹
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2020-07-16
Filing date: 2020-07-16
Publication date: 2020-11-10

Abstract

本发明公开了一种基于视图语义信息和序列上下文信息的多视目标识别方法，包括：利用虚拟相机对三维模型数据库中的三维模型进行虚拟拍照，生成三维模型的视图序列；使用神经网络提取视图序列中的每个视图特征，生成视图特征序列；学习视图特征序列中每个视图特征的语义信息，增强视图特征中有用的语义信息、遏制干扰信息；利用3D CNN学习增强后的视图特征序列中相邻视图特征之间的关联性，挖掘视图特征序列的上下文信息；最终通过全局平均池化将视图特征序列融合成一个紧致的特征描述符，利用特征描述符进行多视目标识别。本发明利用视图的语义信息对视图特征进行增强，提高了多视目标识别的精度。

Description

基于视图语义信息和序列上下文信息的多视目标识别方法

技术领域

本发明涉及视图序列，以及多视目标识别领域，尤其涉及一种基于视图语义信息和序列上下文信息的多视目标识别方法。

背景技术

近年来，随着三维技术在虚拟现实、三维打印、医学诊断等领域的广泛应用^[1]，三维物体的数量迅速增长，使得多视目标识别方法受到了极大的关注。同时，大量的工作致力于构造有区别的描述符^[2]。现有的方法^[3]通常通过在三维物体周围放置虚拟摄像机获得其的多个视图，然后通过神经网络提取每个视图的特征，最后将这些视图特征融合到一个紧凑的特征描述符中。在此基础也衍生出一些知名数据库如ModelNet40^[4]，有很多研究者在这个上面进行相关的研究。

现有的方法，关注的地方主要在视图序列特征融合的部分，这一部分研究者们提出了很多方法，比如MVCNN^[5]，GVCNN^[6]等方法。这类的方法，大都会采取最大池化策略去进行视图序列特征的融合，但是这样的操作会导致融合特征中仅保存每个视图特征的最大值，对于视图中细微的变化很难去捕捉到，无法很好的学习到视图的上下文信息。

虽然已经有人在多视目标识别领域做了很多工作，但是对于视图序列的上下信息研究上还有一些欠缺，并且研究者把更多的精力放在视图特征融合上面，对于视图的自身语义信息很少关注。基于此现状，目前面临的挑战主要有以下两个方面：

1、如何学习视图的语义信息；

2、如何挖掘视图序列的上下文信息。

发明内容

本发明提供了一种基于视图语义信息和序列上下文信息的多视目标识别方法，受到3D CNN在视频处理领域成功应用的启发，本发明在序列上下文信息的挖掘部分引入3DCNN设计新的网络结构解决了现有方法在序列上下文研究上，结构简单粗糙或计算量大等缺陷，并在此基础上增加了对于视图本身的关注，利用视图的语义信息对视图特征进行增强，提高了多视目标识别的精度，详见下文描述：

一种基于视图语义信息和序列上下文信息的多视目标识别方法，所述方法包括：

利用虚拟相机对三维模型数据库中的三维模型进行虚拟拍照，生成三维模型的视图序列；

使用神经网络提取视图序列中的每个视图特征，生成视图特征序列；

学习视图特征序列中每个视图特征的语义信息，增强视图特征中有用的语义信息、遏制干扰信息；

利用3D CNN学习增强后的视图特征序列中相邻视图特征之间的关联性，挖掘视图特征序列的上下文信息；

最终通过全局平均池化将视图特征序列融合成一个紧致的特征描述符，利用特征描述符进行多视目标识别。

其中，所述学习视图特征序列中每个视图特征的语义信息，增强视图特征中有用的语义信息、遏制干扰信息具体为：

利用视图特征中每个通道包含的全局统计信息代表其语义信息的重要性；

基于全局统计信息获取视图序列中第i个视图特征的第c个特征图的重要性；利用特征图的重要性更新每个特征图

最后，更新视图特征序列中所有视图特征的特征图，得到更新后的特征序列集合，进而实现了对特征有用的语义信息进行增强，无用的语义信息进行遏制。

进一步地，所述利用3D CNN学习增强后的视图特征序列中相邻视图特征之间的关联性，挖掘视图特征序列的上下文信息具体为：

上下文学习一共包含两个3D卷积模块，每个模块是由一个卷积层，一个正则化层，一个激活层级联组成的；

第一个卷积层的卷积核尺寸设置为1×1×1，第二个卷积层的卷积核尺寸设置为3×3×3。

所述全局统计信息具体为：

其中，

W_i ^c分别代表视图序列中第i个视图特征的第c个特征图的高，宽，

代表特征图。

所述第i个视图特征的第c个特征图的重要性具体为：

其中，σ,δ为激活函数，T₁,T₂代表两个全连接层。

本发明提供的技术方案的有益效果是：

1、本发明计算出视图特征中每个特征图所包含的语义信息的重要性，根据这些计算结果，可以增强有用的语义信息，遏制其中无用即干扰的语义信息，这是被很多模型检索方法所忽略的部分；本发明关注了视图本身特质，弥补了之前研究的盲点，可以有效的提升多视目标识别的精度；

2、本发明通过学习视图序列的上下文信息，挖掘出相邻视图间的关联性，现有技术的方法很多采用最大池化的策略将视图序列中所有视图特征进行融合，但这样仅保留每个视图特征的最大值，对于每个视图的特征细微变化难以捕捉，也因此导致对于上下文信息的探索能力也就十分有限；本发明基于3D CNN设计了全新的视图序列上下文学习，捕捉视图特征的细微变化及视图之间的关联性，充分利用视图序列上下文信息，提升多视目标识别的精度。

附图说明

图1为一种基于视图语义信息和序列上下文信息的多视目标识别方法的流程图；

图2为利用虚拟相机生成三维模型视图序列的示意图；

图3为基于视图语义信息和序列上下文信息的多视目标识别的网络结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

实施例1

一种基于视图语义信息和序列上下文信息的多视目标识别方法，参见图1，该方法包括以下步骤：

101：利用虚拟相机对三维模型数据库中的三维模型进行虚拟拍照，生成三维模型的视图序列；

102：使用神经网络提取视图序列中的每个视图特征，生成视图特征序列；

103：学习视图特征序列中每个视图特征的语义信息，增强视图特征中有用的语义信息、遏制干扰信息；

现有技术中对于视图语义信息往往只关注视图间的联系，很少的回归视图本身即视图语义信息上，于是本方法关注了视图本身的特质，弥补了之前研究的盲点。

104：利用3D CNN学习增强后的视图特征序列中相邻视图特征之间的关联性，挖掘视图特征序列的上下文信息；

本发明基于3D CNN设计新的视图序列上下文学习过程，解决现有技术中方法过于简单，对上下文信息获取能力有限的问题。

105：最终通过全局平均池化将视图特征序列融合成一个紧致的特征描述符，利用特征描述符，进行多视目标识别。

综上所述，本发明实施例针对多视目标识别基于视图语义信息和序列上下文信息提出的全新方法，并设计全新的网络结构，提高了多视目标识别的精度。

实施例2

下面结合具体的实例、计算公式对实施例1中的方案进行进一步地介绍，详见下文描述：

201：首先利用虚拟相机对三维模型数据库中模型进行虚拟拍照，生成视图序列；

其中，上述步骤201主要包括：

预定义一组视点，视点即为观测目标物体的视点，在本发明实施例中，设置12个视点，即围绕在三维模型的质心每隔30度放置一个虚拟相机，视点完全均匀的分布在目标物体周围。通过选取不同的间隔角度，顺时针获取三维模型的不同角度视图，生成视图序列。

202：使用神经网络提取视图序列中的每个视图特征，生成视图特征序列；

其中，神经网络可以采取通用的基础网络的任意一种(AlexNet，VGGNet，ResNet等)，但是为了与其他方法进行公平对比，所有的实验数据均是在采取的AlexNet网络结构前提下获得的。

定义视图序列特征集合为：F＝{v₁,v₂,v₃,…,v_n},v_n∈R^H×W×C，其中v_n是视图特征，H,W,C分别代表视图特征的高，宽，通道数，R为实数集。

203：学习视图特征序列中每个视图特征的语义信息，然后增强视图特征中有用的语义信息、遏制干扰信息；

其中，学习单个视图的语义信息是指利用视图特征中每个通道包含的特征，即特征图的全局统计信息代表其语义信息的重要性。定义视图序列中第i个视图特征的第c个特征图的全局统计信息为

其中，

代表特征图。

然而这种计算方式无法应用较为复杂的应用场景。所以本发明在全局统计信息

上应用一个带有激活函数的门机制使得

具有一个非线性的学习能力，可以应用于较为复杂的场景。于是定义视图序列中第i个视图特征的第c个特征图的重要性为

其中，σ,δ为激活函数，T₁,T₂代表两个全连接层。

经过计算所得的

是具有一个非线性的学习能力，在数值的大小上可以反应出特征图包含的语义信息重要性大小，

数值越大特征图的语义信息越有用。于是将

作为特征图的权重更新对应的特征图，这样就使得包含有用语义信息的特征图对于最后计算结果的影响力大，包含无用的语义信息的特征图对于最后计算结果的影响力小。就可以起到对于有用语义信息的增强，无用语义信息的遏制。

利用

去更新每个特征图

更新后的特征图定义为

最后，更新视图特征序列中所有视图特征的特征图，更新后特征序列集合定义为

其中，

代表更新后的视图特征。

通过更新后的特征序列集合

实现了对于特征有用的语义信息进行增强，无用的语义信息进行遏制。

204：利用3D CNN学习增强后的视图特征序列中相邻视图特征之间的关联性，挖掘视图特征序列的上下文信息；

其中，本发明受到3D CNN在视频处理领域成功应用的启发，将其创新性的应用到多视目标识别领域中，实现视图特征序列的上下文学习。

本发明的视图特征序列的上下文学习一共包含两个3D卷积模块，每个模块是由一个卷积层，一个正则化层，一个激活层级联组成的。第一个卷积层的卷积核尺寸设置为1×1×1，用来增加网络结构的非线性拟合能力，使本发明的网络结构对用多视目标的特征学习能力更强，可以获得多视目标更具有代表性得特征。第二个卷积层卷积核的尺寸设置为3×3×3，原因是3×3×3的卷积核在对输入特征进行计算时，会考虑到相邻视图特征的特征值，有助于挖掘不同视图特征间的上下文信息。

现有技术中采用捕捉上下文的方法，例如：采用最大池化或者lstm聚合信息，存在结构简单无法进行充分的信息挖掘，或结构过分复杂计算量大，本发明通过上述设计计算量小，并且3D CNN不像最大池化只保留特征值的最大值，而是会将卷积核覆盖范围的特征值一起加权计算，即使数值变化不大，也会体现在最后的计算结果里，这样可以对于视图序列微弱变化也比较敏感，上下文可以得到很好的挖掘。

205：最终通过全局平均池化将视图特征序列融合成一个紧致的特征描述符，利用特征描述符进行目标识别。

本发明通过全局平均池化，可以抑制输入视图的局部区域噪声，满足实际应用中的需要。

实施例3

下面结合具体的试验对实施例1和2中的方案进行可行性验证，详见下文描述：

本发明采用ModelNet40公开的数据集，与其他多视目标识别方法进行对比，评测指标分别选择分类精度和mAP^[7]。

通过上述实验数据可以看出，本发明提出的基于视图语义信息和序列上下文信息的多视目标识别方法具有超过当前主流方法的良好性能，能够很好的处理多视目标识别中所面临的挑战。

参考文献：

[1]S Jeannin，S Jeannin.MPEG7 Visual part ofexperimentation ModelVersion 7[J].ISO/IEC JTC1/SC29/WG11 N，2001,3914.

[2]QiC R,Su H,Mo K,et al.PointNet:Deep Learning on Point Sets for 3DClassification and Segmentation[J].2016.

[3]张飞.三维模型特征提取和相关反馈算法研究与实现[D].西北大学,2010

[4]Z.Wu,S.Song,A.Khosla,F.Yu,L.Zhang,X.Tang,and J.Xiao.3d shapenets:Adeep representation for volumetric shapes.In Proceedings of IEEE Conferenceon Computer Vision and Pattern Recognition (CVPR),2015.

[5]Su H,Maji S,Kalogerakis E,et al.Multi-view Convolutional NeuralNetworks for 3D Shape Recognition[J].2015.

[6]Yifan Feng,Zizhao Zhang,t al.Group-View Convolutional NeuralNetworks for 3D Shape Recognition(CVPR),2018.

[7]Liu A,Nie W,Gao Y,et al.View-Based 3-D Model Retrieval:A Benchmark[J].IEEE TRANSACTIONS ON CYBERNETICS,2018.

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于视图语义信息和序列上下文信息的多视目标识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种基于视图语义信息和序列上下文信息的多视目标识别方法，其特征在于，所述学习视图特征序列中每个视图特征的语义信息，增强视图特征中有用的语义信息、遏制干扰信息具体为：

3.根据权利要求1所述的一种基于视图语义信息和序列上下文信息的多视目标识别方法，其特征在于，所述利用3D CNN学习增强后的视图特征序列中相邻视图特征之间的关联性，挖掘视图特征序列的上下文信息具体为：

4.根据权利要求1所述的一种基于视图语义信息和序列上下文信息的多视目标识别方法，其特征在于，所述全局统计信息具体为：

其中，

代表特征图。

5.根据权利要求2所述的一种基于视图语义信息和序列上下文信息的多视目标识别方法，其特征在于，所述第i个视图特征的第c个特征图的重要性具体为：

其中，σ，δ为激活函数，T₁，T₂代表两个全连接层。