CN111914697A - 基于视图语义信息和序列上下文信息的多视目标识别方法 - Google Patents
基于视图语义信息和序列上下文信息的多视目标识别方法 Download PDFInfo
- Publication number
- CN111914697A CN111914697A CN202010686791.3A CN202010686791A CN111914697A CN 111914697 A CN111914697 A CN 111914697A CN 202010686791 A CN202010686791 A CN 202010686791A CN 111914697 A CN111914697 A CN 111914697A
- Authority
- CN
- China
- Prior art keywords
- view
- sequence
- feature
- information
- semantic information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
Abstract
本发明公开了一种基于视图语义信息和序列上下文信息的多视目标识别方法,包括:利用虚拟相机对三维模型数据库中的三维模型进行虚拟拍照,生成三维模型的视图序列;使用神经网络提取视图序列中的每个视图特征,生成视图特征序列;学习视图特征序列中每个视图特征的语义信息,增强视图特征中有用的语义信息、遏制干扰信息;利用3D CNN学习增强后的视图特征序列中相邻视图特征之间的关联性,挖掘视图特征序列的上下文信息;最终通过全局平均池化将视图特征序列融合成一个紧致的特征描述符,利用特征描述符进行多视目标识别。本发明利用视图的语义信息对视图特征进行增强,提高了多视目标识别的精度。
Description
技术领域
本发明涉及视图序列,以及多视目标识别领域,尤其涉及一种基于视图语义信息和序列上下文信息的多视目标识别方法。
背景技术
近年来,随着三维技术在虚拟现实、三维打印、医学诊断等领域的广泛应用[1],三维物体的数量迅速增长,使得多视目标识别方法受到了极大的关注。同时,大量的工作致力于构造有区别的描述符[2]。现有的方法[3]通常通过在三维物体周围放置虚拟摄像机获得其的多个视图,然后通过神经网络提取每个视图的特征,最后将这些视图特征融合到一个紧凑的特征描述符中。在此基础也衍生出一些知名数据库如ModelNet40[4],有很多研究者在这个上面进行相关的研究。
现有的方法,关注的地方主要在视图序列特征融合的部分,这一部分研究者们提出了很多方法,比如MVCNN[5],GVCNN[6]等方法。这类的方法,大都会采取最大池化策略去进行视图序列特征的融合,但是这样的操作会导致融合特征中仅保存每个视图特征的最大值,对于视图中细微的变化很难去捕捉到,无法很好的学习到视图的上下文信息。
虽然已经有人在多视目标识别领域做了很多工作,但是对于视图序列的上下信息研究上还有一些欠缺,并且研究者把更多的精力放在视图特征融合上面,对于视图的自身语义信息很少关注。基于此现状,目前面临的挑战主要有以下两个方面:
1、如何学习视图的语义信息;
2、如何挖掘视图序列的上下文信息。
发明内容
本发明提供了一种基于视图语义信息和序列上下文信息的多视目标识别方法,受到3D CNN在视频处理领域成功应用的启发,本发明在序列上下文信息的挖掘部分引入3DCNN设计新的网络结构解决了现有方法在序列上下文研究上,结构简单粗糙或计算量大等缺陷,并在此基础上增加了对于视图本身的关注,利用视图的语义信息对视图特征进行增强,提高了多视目标识别的精度,详见下文描述:
一种基于视图语义信息和序列上下文信息的多视目标识别方法,所述方法包括:
利用虚拟相机对三维模型数据库中的三维模型进行虚拟拍照,生成三维模型的视图序列;
使用神经网络提取视图序列中的每个视图特征,生成视图特征序列;
学习视图特征序列中每个视图特征的语义信息,增强视图特征中有用的语义信息、遏制干扰信息;
利用3D CNN学习增强后的视图特征序列中相邻视图特征之间的关联性,挖掘视图特征序列的上下文信息;
最终通过全局平均池化将视图特征序列融合成一个紧致的特征描述符,利用特征描述符进行多视目标识别。
其中,所述学习视图特征序列中每个视图特征的语义信息,增强视图特征中有用的语义信息、遏制干扰信息具体为:
利用视图特征中每个通道包含的全局统计信息代表其语义信息的重要性;
最后,更新视图特征序列中所有视图特征的特征图,得到更新后的特征序列集合,进而实现了对特征有用的语义信息进行增强,无用的语义信息进行遏制。
进一步地,所述利用3D CNN学习增强后的视图特征序列中相邻视图特征之间的关联性,挖掘视图特征序列的上下文信息具体为:
上下文学习一共包含两个3D卷积模块,每个模块是由一个卷积层,一个正则化层,一个激活层级联组成的;
第一个卷积层的卷积核尺寸设置为1×1×1,第二个卷积层的卷积核尺寸设置为3×3×3。
所述全局统计信息具体为:
所述第i个视图特征的第c个特征图的重要性具体为:
其中,σ,δ为激活函数,T1,T2代表两个全连接层。
本发明提供的技术方案的有益效果是:
1、本发明计算出视图特征中每个特征图所包含的语义信息的重要性,根据这些计算结果,可以增强有用的语义信息,遏制其中无用即干扰的语义信息,这是被很多模型检索方法所忽略的部分;本发明关注了视图本身特质,弥补了之前研究的盲点,可以有效的提升多视目标识别的精度;
2、本发明通过学习视图序列的上下文信息,挖掘出相邻视图间的关联性,现有技术的方法很多采用最大池化的策略将视图序列中所有视图特征进行融合,但这样仅保留每个视图特征的最大值,对于每个视图的特征细微变化难以捕捉,也因此导致对于上下文信息的探索能力也就十分有限;本发明基于3D CNN设计了全新的视图序列上下文学习,捕捉视图特征的细微变化及视图之间的关联性,充分利用视图序列上下文信息,提升多视目标识别的精度。
附图说明
图1为一种基于视图语义信息和序列上下文信息的多视目标识别方法的流程图;
图2为利用虚拟相机生成三维模型视图序列的示意图;
图3为基于视图语义信息和序列上下文信息的多视目标识别的网络结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
实施例1
一种基于视图语义信息和序列上下文信息的多视目标识别方法,参见图1,该方法包括以下步骤:
101:利用虚拟相机对三维模型数据库中的三维模型进行虚拟拍照,生成三维模型的视图序列;
102:使用神经网络提取视图序列中的每个视图特征,生成视图特征序列;
103:学习视图特征序列中每个视图特征的语义信息,增强视图特征中有用的语义信息、遏制干扰信息;
现有技术中对于视图语义信息往往只关注视图间的联系,很少的回归视图本身即视图语义信息上,于是本方法关注了视图本身的特质,弥补了之前研究的盲点。
104:利用3D CNN学习增强后的视图特征序列中相邻视图特征之间的关联性,挖掘视图特征序列的上下文信息;
本发明基于3D CNN设计新的视图序列上下文学习过程,解决现有技术中方法过于简单,对上下文信息获取能力有限的问题。
105:最终通过全局平均池化将视图特征序列融合成一个紧致的特征描述符,利用特征描述符,进行多视目标识别。
综上所述,本发明实施例针对多视目标识别基于视图语义信息和序列上下文信息提出的全新方法,并设计全新的网络结构,提高了多视目标识别的精度。
实施例2
下面结合具体的实例、计算公式对实施例1中的方案进行进一步地介绍,详见下文描述:
201:首先利用虚拟相机对三维模型数据库中模型进行虚拟拍照,生成视图序列;
其中,上述步骤201主要包括:
预定义一组视点,视点即为观测目标物体的视点,在本发明实施例中,设置12个视点,即围绕在三维模型的质心每隔30度放置一个虚拟相机,视点完全均匀的分布在目标物体周围。通过选取不同的间隔角度,顺时针获取三维模型的不同角度视图,生成视图序列。
202:使用神经网络提取视图序列中的每个视图特征,生成视图特征序列;
其中,神经网络可以采取通用的基础网络的任意一种(AlexNet,VGGNet,ResNet等),但是为了与其他方法进行公平对比,所有的实验数据均是在采取的AlexNet网络结构前提下获得的。
定义视图序列特征集合为:F={v1,v2,v3,…,vn},vn∈RH×W×C,其中vn是视图特征,H,W,C分别代表视图特征的高,宽,通道数,R为实数集。
203:学习视图特征序列中每个视图特征的语义信息,然后增强视图特征中有用的语义信息、遏制干扰信息;
然而这种计算方式无法应用较为复杂的应用场景。所以本发明在全局统计信息上应用一个带有激活函数的门机制使得具有一个非线性的学习能力,可以应用于较为复杂的场景。于是定义视图序列中第i个视图特征的第c个特征图的重要性为
其中,σ,δ为激活函数,T1,T2代表两个全连接层。
经过计算所得的是具有一个非线性的学习能力,在数值的大小上可以反应出特征图包含的语义信息重要性大小,数值越大特征图的语义信息越有用。于是将作为特征图的权重更新对应的特征图,这样就使得包含有用语义信息的特征图对于最后计算结果的影响力大,包含无用的语义信息的特征图对于最后计算结果的影响力小。就可以起到对于有用语义信息的增强,无用语义信息的遏制。
204:利用3D CNN学习增强后的视图特征序列中相邻视图特征之间的关联性,挖掘视图特征序列的上下文信息;
其中,本发明受到3D CNN在视频处理领域成功应用的启发,将其创新性的应用到多视目标识别领域中,实现视图特征序列的上下文学习。
本发明的视图特征序列的上下文学习一共包含两个3D卷积模块,每个模块是由一个卷积层,一个正则化层,一个激活层级联组成的。第一个卷积层的卷积核尺寸设置为1×1×1,用来增加网络结构的非线性拟合能力,使本发明的网络结构对用多视目标的特征学习能力更强,可以获得多视目标更具有代表性得特征。第二个卷积层卷积核的尺寸设置为3×3×3,原因是3×3×3的卷积核在对输入特征进行计算时,会考虑到相邻视图特征的特征值,有助于挖掘不同视图特征间的上下文信息。
现有技术中采用捕捉上下文的方法,例如:采用最大池化或者lstm聚合信息,存在结构简单无法进行充分的信息挖掘,或结构过分复杂计算量大,本发明通过上述设计计算量小,并且3D CNN不像最大池化只保留特征值的最大值,而是会将卷积核覆盖范围的特征值一起加权计算,即使数值变化不大,也会体现在最后的计算结果里,这样可以对于视图序列微弱变化也比较敏感,上下文可以得到很好的挖掘。
205:最终通过全局平均池化将视图特征序列融合成一个紧致的特征描述符,利用特征描述符进行目标识别。
本发明通过全局平均池化,可以抑制输入视图的局部区域噪声,满足实际应用中的需要。
实施例3
下面结合具体的试验对实施例1和2中的方案进行可行性验证,详见下文描述:
本发明采用ModelNet40公开的数据集,与其他多视目标识别方法进行对比,评测指标分别选择分类精度和mAP[7]。
通过上述实验数据可以看出,本发明提出的基于视图语义信息和序列上下文信息的多视目标识别方法具有超过当前主流方法的良好性能,能够很好的处理多视目标识别中所面临的挑战。
参考文献:
[1]S Jeannin,S Jeannin.MPEG7 Visual part ofexperimentation ModelVersion 7[J].ISO/IEC JTC1/SC29/WG11 N,2001,3914.
[2]QiC R,Su H,Mo K,et al.PointNet:Deep Learning on Point Sets for 3DClassification and Segmentation[J].2016.
[3]张飞.三维模型特征提取和相关反馈算法研究与实现[D].西北大学,2010
[4]Z.Wu,S.Song,A.Khosla,F.Yu,L.Zhang,X.Tang,and J.Xiao.3d shapenets:Adeep representation for volumetric shapes.In Proceedings of IEEE Conferenceon Computer Vision and Pattern Recognition (CVPR),2015.
[5]Su H,Maji S,Kalogerakis E,et al.Multi-view Convolutional NeuralNetworks for 3D Shape Recognition[J].2015.
[6]Yifan Feng,Zizhao Zhang,t al.Group-View Convolutional NeuralNetworks for 3D Shape Recognition(CVPR),2018.
[7]Liu A,Nie W,Gao Y,et al.View-Based 3-D Model Retrieval:A Benchmark[J].IEEE TRANSACTIONS ON CYBERNETICS,2018.
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种基于视图语义信息和序列上下文信息的多视目标识别方法,其特征在于,所述方法包括:
利用虚拟相机对三维模型数据库中的三维模型进行虚拟拍照,生成三维模型的视图序列;
使用神经网络提取视图序列中的每个视图特征,生成视图特征序列;
学习视图特征序列中每个视图特征的语义信息,增强视图特征中有用的语义信息、遏制干扰信息;
利用3D CNN学习增强后的视图特征序列中相邻视图特征之间的关联性,挖掘视图特征序列的上下文信息;
最终通过全局平均池化将视图特征序列融合成一个紧致的特征描述符,利用特征描述符进行多视目标识别。
3.根据权利要求1所述的一种基于视图语义信息和序列上下文信息的多视目标识别方法,其特征在于,所述利用3D CNN学习增强后的视图特征序列中相邻视图特征之间的关联性,挖掘视图特征序列的上下文信息具体为:
上下文学习一共包含两个3D卷积模块,每个模块是由一个卷积层,一个正则化层,一个激活层级联组成的;
第一个卷积层的卷积核尺寸设置为1×1×1,第二个卷积层的卷积核尺寸设置为3×3×3。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010686791.3A CN111914697A (zh) | 2020-07-16 | 2020-07-16 | 基于视图语义信息和序列上下文信息的多视目标识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010686791.3A CN111914697A (zh) | 2020-07-16 | 2020-07-16 | 基于视图语义信息和序列上下文信息的多视目标识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111914697A true CN111914697A (zh) | 2020-11-10 |
Family
ID=73280306
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010686791.3A Pending CN111914697A (zh) | 2020-07-16 | 2020-07-16 | 基于视图语义信息和序列上下文信息的多视目标识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111914697A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113515656A (zh) * | 2021-07-06 | 2021-10-19 | 天津大学 | 一种基于增量学习的多视角目标识别与检索方法、及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108399628A (zh) * | 2015-09-30 | 2018-08-14 | 快图有限公司 | 用于跟踪对象的方法和系统 |
CN110443298A (zh) * | 2019-07-31 | 2019-11-12 | 华中科技大学 | 一种基于云-边缘协同计算的ddnn及其构建方法和应用 |
CN110457515A (zh) * | 2019-07-19 | 2019-11-15 | 天津理工大学 | 基于全局特征捕捉聚合的多视角神经网络的三维模型检索方法 |
CN111078913A (zh) * | 2019-12-16 | 2020-04-28 | 天津运泰科技有限公司 | 基于多视图卷积神经网络的三维模型检索方法 |
CN111078916A (zh) * | 2019-11-01 | 2020-04-28 | 天津大学 | 一种基于多层次特征对齐网络的跨域三维模型检索方法 |
-
2020
- 2020-07-16 CN CN202010686791.3A patent/CN111914697A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108399628A (zh) * | 2015-09-30 | 2018-08-14 | 快图有限公司 | 用于跟踪对象的方法和系统 |
CN110457515A (zh) * | 2019-07-19 | 2019-11-15 | 天津理工大学 | 基于全局特征捕捉聚合的多视角神经网络的三维模型检索方法 |
CN110443298A (zh) * | 2019-07-31 | 2019-11-12 | 华中科技大学 | 一种基于云-边缘协同计算的ddnn及其构建方法和应用 |
CN111078916A (zh) * | 2019-11-01 | 2020-04-28 | 天津大学 | 一种基于多层次特征对齐网络的跨域三维模型检索方法 |
CN111078913A (zh) * | 2019-12-16 | 2020-04-28 | 天津运泰科技有限公司 | 基于多视图卷积神经网络的三维模型检索方法 |
Non-Patent Citations (3)
Title |
---|
HANG SU ET AL.: ""Multi-view Convolutional Neural Networks for 3D Shape Recognition"", 《ARXIV》 * |
SHUIWANG JI ET AL.: ""3D Convolutional Neural Networks for Human Action Recognition"", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 * |
蔡志兴 等: ""基于深度学习的路面裂缝自动化识别研究"", 《交通建设》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113515656A (zh) * | 2021-07-06 | 2021-10-19 | 天津大学 | 一种基于增量学习的多视角目标识别与检索方法、及装置 |
CN113515656B (zh) * | 2021-07-06 | 2022-10-11 | 天津大学 | 一种基于增量学习的多视角目标识别与检索方法、及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cong et al. | Going from RGB to RGBD saliency: A depth-guided transformation model | |
Daradkeh et al. | Development of effective methods for structural image recognition using the principles of data granulation and apparatus of fuzzy logic | |
Zhong | Intrinsic shape signatures: A shape descriptor for 3D object recognition | |
Farfade et al. | Multi-view face detection using deep convolutional neural networks | |
Bashir et al. | Vr-proud: Vehicle re-identification using progressive unsupervised deep architecture | |
Chen et al. | Saliency detection via the improved hierarchical principal component analysis method | |
CN111178208A (zh) | 基于深度学习的行人检测方法、装置及介质 | |
CN111310821B (zh) | 多视图特征融合方法、系统、计算机设备及存储介质 | |
Jiang et al. | Hyperspectral image classification with spatial consistence using fully convolutional spatial propagation network | |
CN110543581A (zh) | 基于非局部图卷积网络的多视图三维模型检索方法 | |
CN113515656B (zh) | 一种基于增量学习的多视角目标识别与检索方法、及装置 | |
CN112801059B (zh) | 图卷积网络系统和基于图卷积网络系统的3d物体检测方法 | |
CN112529068B (zh) | 一种多视图图像分类方法、系统、计算机设备和存储介质 | |
Jiang | A review of the comparative studies on traditional and intelligent face recognition methods | |
Song et al. | Local-to-global mesh saliency | |
CN113160283A (zh) | 一种基于sift的多摄像头场景下的目标跟踪方法 | |
CN112966643A (zh) | 基于自适应加权的人脸和虹膜融合识别方法及装置 | |
Su et al. | Monocular depth estimation using information exchange network | |
Bickel et al. | A novel shape retrieval method for 3D mechanical components based on object projection, pre-trained deep learning models and autoencoder | |
El‐Henawy et al. | Action recognition using fast HOG3D of integral videos and Smith–Waterman partial matching | |
CN114387304A (zh) | 目标跟踪方法、计算机程序产品、存储介质及电子设备 | |
CN111914697A (zh) | 基于视图语义信息和序列上下文信息的多视目标识别方法 | |
Liu et al. | Deep learning of directional truncated signed distance function for robust 3D object recognition | |
Li et al. | 3D object retrieval based on multi-view convolutional neural networks | |
CN116188956A (zh) | 一种深度伪造人脸图像检测的方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20201110 |
|
WD01 | Invention patent application deemed withdrawn after publication |