CN105868324B

CN105868324B - 一种基于隐含状态模型的多视角目标检索方法

Info

Publication number: CN105868324B
Application number: CN201610181271.0A
Authority: CN
Inventors: 刘安安; 李希茜; 聂为之
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2016-03-28
Filing date: 2016-03-28
Publication date: 2019-08-27
Anticipated expiration: 2036-03-28
Also published as: CN105868324A

Abstract

一种基于隐含状态模型的多视角目标检索方法：采集不同物体的多视角彩色视图，处理后得到各物体的初始视图集构成数据库，将数据库分为训练库与测试库；提取数据库中各物体的初始视图集的任意视觉特征，以Zernike矩为视觉特征，得到各物体的初始特征向量集；选定训练库中的一物体的初始视图集作为检索目标，再选取测试库中的一物体的初始视图集作为比较目标，将检索目标与比较目标作为观测数据，建立图结构，计算检索目标与比较目标之间的相似度；判断是否将测试库中的所有物体的初始视图集已作为比较目标；降序排列检索目标和比较目标的相似度，将相似度最高的比较目标作为检索结果。本发明消除了采集初始视图时对摄像机阵列的空间限制。

Description

一种基于隐含状态模型的多视角目标检索方法

技术领域

本发明涉及一种多视角目标检索方法。特别是涉及一种基于隐含状态模型的多视角目标检索方法。

背景技术

我们生活在三维的世界中，人类的视觉感知具有立体的三维特性。三维目标是物体的多边形表示，它既可以显示现实世界中的实体，也可以描绘虚构的模型。继声音、图像、视频之后，三维目标作为第四代媒体信息载体吸引了大量研究者的目光。MPEG(MovingPictures Experts Group/Motion Pictures Experts Group,MPEG)国际标准中规定，媒体数据除了包括一维和二维信息之外，还包含三维场景和三维模型等信息^[1]。三维模型能够多角度地描绘物体的纹理、色彩、形状信息，而三维场景可以全方位地真实还原生活场景中的立体环境、物体摆放、空间结构等基本设置。

近年来图形硬件传感器、三维建模工具和计算机视觉技术的飞速发展，使得三维信息获取设备的价格稳步降低，与此同时可用性大幅增加，因而大规模的三维目标数据库得以应用于各科学领域，如计算机辅助制图^[2]、医学图像分析^[3]、分子生物学^[4]和数字娱乐产业^[5]。互联网的兴起加速了三维模型的传播，使得人们对于计算机检索工具的依赖愈加迫切，并且规模性和复杂性日益增强。如何快速有效地从大规模三维目标数据库中检索到符合用户需求的模型，提高三维模型的检索效率，最大可能地实现资源重用已成为时下最新研究热点。

多视角目标检索是基于数字多媒体处理、计算机视觉和模式识别等技术，借助于计算机处理技术，分析检索目标的多视角视图并从数据库中寻找相似物体的过程。通常多视角目标检索技术主要分为两类：基于模型的检索和基于视图的检索^[6]。基于模型的检索是直接从虚拟的三维模型中采集其纹理、色彩、体积、形状等信息构造特征描述符，并利用各级描述符进行相似度比较的方法^[7]。虽然基于模型的检索能够综合利用三维目标的局部和全局有效信息，但巨大的计算量和繁琐的步骤限制了它的应用。基于视图的检索是利用摄像机阵列从不同的方位捕捉一系列三维目标的二维视图，而后从多视角视图中提取视觉特征进行相似度比较的方法^[8]。此方法原理简单、描述特征丰富多样且具有较高的实用性。两种方法各有利弊，但由于基于视图的检索方法操作性强，能够利用成熟的二维图像处理技术而得到更加广泛的应用。

多视角目标检索领域目前面临的主要挑战为：(1)采集初始视图时，大多数方法高度依赖于摄像机阵列所在的空间位置与角度，严格的摄像机阵列限制使得当录制环境或数据采集方式不符合要求时无法进行相互检索，限制了实际应用范围。(2)大部分基于视图的检索方法只利用了视图特征间的显性特征关系，而忽略了其内在的隐含结构与隐含空间上下文联系。

发明内容

本发明所要解决的技术问题是，提供一种可以应用于任何基于视图的三维目标数据库的基于隐含状态模型的多视角目标检索方法。

本发明所采用的技术方案是：一种基于隐含状态模型的多视角目标检索方法，包括以下步骤：

1)利用摄像机或任意的摄像机阵列采集不同物体的多视角彩色视图，经过图像处理后得到各物体的初始视图集构成数据库，根据物体是否具有类别标签将数据库分为训练库与测试库；

2)提取数据库中各物体的初始视图集的任意视觉特征，以Zernike矩为视觉特征，得到各物体的初始特征向量集；

3)选定训练库中的一物体的初始视图集作为检索目标，再选取测试库中的一物体的初始视图集作为比较目标，将检索目标与比较目标作为观测数据，建立图结构，计算检索目标与比较目标之间的相似度；

4)判断是否将测试库中的所有物体的初始视图集已作为比较目标，是则进入下一步骤，否则返回步骤3)；

5)降序排列检索目标和比较目标的相似度，将相似度最高的比较目标作为检索结果。

步骤1)所述的处理是，提取各彩色视图的掩膜，即将目标物体与背景分离，保持物体的彩色性质不变，将背景统一为黑色。

步骤1)中将有类别标签的物体初始视图集归为训练库，将无类别标签的物体初始视图集归为测试库。

步骤3)是给定检索目标的初始视图集和类别标签，比较目标的初始视图集，计算检索目标和比较目标的相似度；具体包括：比较目标的初始视图集表示为X＝{x₁,x₂,...,x_j,...,x_m}，其中每张初始视图x_j由它的特征向量φ(x_j)∈R^d表示，d表示特征维度，Zernike矩的d＝49；用y表示比较目标的初始视图集X的类别标签，y＝1表示和检索目标的初始视图集同类，y＝0表示和检索目标的初始视图集不同类；对于比较目标的初始视图集X，进一步定义了隐含状态矢量l＝{l₁,l₂,...l_j,...,l_m}表示隐含代表性视图集，其中l_j表示第j张初始视图对应的隐含代表性视图，由第j-w到第j+w张初始视图的初始特征向量决定，取值于隐含状态有限集合L；

根据比较目标的初始视图集X，类别标签y和隐含状态矢量l，定义以下条件概率模型：

P(y＝1,l|X,p)＝e^{δ(y,l,X；p)}/∑_y',le^{δ(y',l,X；p)} (1)

其中p表示模型参数，而δ(y,l,X；p)∈R是由模型参数p引导的势函数，y'表示所有比较目标的类别标签，得到目标函数P(y＝1|X,p)，

P(y＝1|X,p)＝∑_le^{δ(y,l,X；p)}/∑_y',le^{δ(y',l,X；p)} (2)

给定新的比较目标的初始视图集X后，把目标函数P(y＝1|X,p)作为比较目标和检索目标的相似度；训练集中的第i个训练物体的初始视图集X_i和它的类别标签y_i组成训练对(X_i,y_i)，i＝1,2,...,n，其中X_i＝{x_i1,x_i2,...,x_ij,...,x_im}，x_ij表示第i个训练物体初始视图集的第j张初始视图，y_i∈Y表示第i个训练物体初始视图集的类别标签，Y表示类别标签所有可能的取值；利用训练集生成模型参数p，模型参数p通过下式生成：

S(p)由两部分构成：第一部分为训练物体初始视图集的对数似然函数，第二项为高斯先验概率的对数函数；使用牛顿梯度下降法寻找最优模型参数p^*＝argmax_p S(p)，第i个训练物体初始视图集对应的似然函数为：

计算S_i(p)关于δ(y,l,X；p)的梯度关系，构建无向图E，其中每个顶点表示隐含代表性视图，而顶点之间对应的边<l_i,l_j>表示隐含代表性视图的潜在空间结构，采用以下形式的δ(y,l,X；p)：

其中p(l_j)∈R^d(l_j∈L)是关于第j个隐含代表性视图的参数，φ(x_j)·p(l_j)表示初始视图x_j和隐含代表性视图l_j之间的联系；p(y,l_j)∈R(l_j∈L,y∈Y)表示隐含代表性视图l_j和类别标签y的联系；p(y,l_j,l_k)∈R(l_j,l_k∈L,y∈Y)对应于类别标签y下，隐含代表性视图l_j和l_k之间的潜在空间关系。

假设无向图E中的边形成树状结构，利用梯度下降法得到S_i(θ)关于模型参数p(l_j)、p(y,l_j)和p(y,l_j,l_k)的导数，从而得到模型参数p的取值，再根据式目标函数P(y＝1|X,p)计算比较目标和检索目标的相似度。

本发明的一种基于隐含状态模型的多视角目标检索方法，消除了采集初始视图时对摄像机阵列的空间限制，可以应用于任何基于视图的三维目标数据库。即当检索目标的初始视图数目与数据库中的物体不一致时，也可以使用本方法进行检索。采用图模型分析初始视图之间的深层结构，提高了检索的准确率。

附图说明

图1是本发明基于隐含状态模型的多视角目标检索方法的流程图；

图2a是本发明中物体的多视角视图第一种姿态的示意图；

图2b是本发明中物体的多视角视图第二种姿态的示意图；

图2c是本发明中物体的多视角视图第三种姿态的示意图；

图2d是本发明中物体的多视角视图第四种姿态的示意图；

图3a是本发明中物体的初始视图第一种姿态的示意图；

图3b是本发明中物体的初始视图第二种姿态的示意图；

图3c是本发明中物体的初始视图第三种姿态的示意图；

图3d是本发明中物体的初始视图第四种姿态的示意图；

图4是本发明中初始视图集、隐含状态和类别标签之间的结构示意图；

图5是六种算法的查准-查全曲线。

具体实施方式

下面结合实施例和附图对本发明的一种基于隐含状态模型的多视角目标检索方法做出详细说明。

研究表明，多视角目标的视图特征与其相似性具有非常密切的关联，可以利用图模型拟合视图特征之间的相似度来判断两物体是否匹配。

如图1所示，本发明的一种基于隐含状态模型的多视角目标检索方法，包括以下步骤：

1)利用摄像机或任意的摄像机阵列采集不同物体的多视角彩色视图，经过图像处理后得到各物体的初始视图集构成数据库，根据物体是否具有类别标签将数据库分为训练库与测试库，将有类别标签的物体初始视图集归为训练库，将无类别标签的物体初始视图集归为测试库。所述的处理是，提取各彩色视图的掩膜，即将目标物体与背景分离，保持物体的彩色性质不变，将背景统一为黑色。

本发明实施例首先采集N个物体的多视角彩色视图(本例中N＝505)构成多视角目标数据库，采集过程描述如下：将物体置于可旋转工作台的中央，一个KINECT摄像头(此摄像头为本领域所公知，全称为“XBOX 360第一代KINECT”，型号为1414，美国专利号为6483918和6775708)位于与水平工作台夹角60°，距离物体45cm处，当物体旋转一圈时均匀拍摄360张彩色视图。

根据采集背景为绿色的特点，通过Matlab中的图像处理工具包提取各彩色视图的掩膜，即将目标物体与背景分离，保持物体的彩色性质不变，将背景统一为黑色，得到各物体的初始视图集构成数据库。随机挑选1/3的物体标上类别标签作为训练库，其余未标记物体作为测试库。

特征提取是计算机视觉中的一个概念，它是指利用计算机提取图像信息，包括纹理、颜色、形状等低层视觉特征和高级语义特征。Zernike矩特征是在数字图像处理领域应用范围较广泛的一种主流特征，它既能够描述图像的整体形状，也可以捕捉图像的微小细节，并且具有收缩、平移、旋转不变性，易于识别。根据参考文献[9]和[10]提取各物体初始视图的Zernike特征后，物体的每张初始视图转化为一个49维的特征向量，初始视图集的特征向量构成初始特征向量集。

3)选定训练库中的一物体的初始视图集作为检索目标，再选取测试库中的一物体的初始视图集作为比较目标，将检索目标与比较目标作为观测数据，建立图结构，计算检索目标与比较目标之间的相似度；是给定检索目标的初始视图集和类别标签，比较目标的初始视图集，计算检索目标和比较目标的相似度；具体包括：

比较目标的初始视图集表示为X＝{x₁,x₂,...,x_j,...,x_m}，其中每张初始视图x_j由它的特征向量φ(x_j)∈R^d表示，d表示特征维度，Zernike矩的d＝49；用y表示比较目标的初始视图集X的类别标签，y＝1表示和检索目标的初始视图集同类，y＝0表示和检索目标的初始视图集不同类；对于比较目标的初始视图集X，进一步定义了隐含状态矢量l＝{l₁,l₂,...l_j,...,l_m}表示隐含代表性视图集，其中l_j表示第j张初始视图对应的隐含代表性视图，由第j-w到第j+w张初始视图的初始特征向量决定，取值于隐含状态有限集合L；隐含状态之间的转换传达了视角转换的变化过程，如图4所示。

P(y＝1,l|X,p)＝e^{δ(y,l,X；p)}/∑_y',le^{δ(y',l,X；p)} (1)

P(y＝1|X,p)＝∑_le^{δ(y,l,X；p)}/∑_y',le^{δ(y',l,X；p)} (2)

假设无向图E中的边形成树状结构，根据文献[16]，利用梯度下降法得到S_i(θ)关于模型参数p(l_j)、p(y,l_j)和p(y,l_j,l_k)的导数，从而得到模型参数p的取值，再根据式目标函数P(y＝1|X,p)计算比较目标和检索目标的相似度。

具体实例

下面结合具体的实例，对实施例中的方案进行实验验证，详见下文描述：

一、数据库

本实验使用的数据库为由步骤1)构建的基于真实三维物体的多视角目标数据库，共包含61类505个物体，如飞机、鞋子、轮船、牙刷、盆栽、苹果等。每个物体有360张初始视图，分辨率为640*480。随机选择1/3物体标记类别标签作为训练库，其余作为测试库。

二、对比算法

适应性聚类算法AVC^[11](Adaptive views clustering)是根据“并不是所有视图都具有同等重要性”的原则提出的代表性视图最优选择方法，它使用了贝叶斯模型改进检索性能。

豪斯多夫距离算法HAUS^[12](Hausdorff)重点关注不同三维目标的多视角视图的距离计算问题。它使用豪斯多夫距离来表示两个物体间的相似性关系。

最近邻算法NN^[13](Nearest Neighbor)类似于豪斯多夫算法，不同的是在计算特征空间的距离时依据最近邻距离的原则。

加权二分图算法WBGM^[14](Weighted Bipartite Graph Matching)在得到多视角视图并提取视觉特征后，首先通过层级化聚类的方法选择代表性视图，在此基础上构建了加权二分图并实现了最佳匹配，依据所得相似度值降序排列得到检索结果。

无摄像机阵列限制算法CCFV^[15](Camera Constraint-Free View-Based 3DObject Retrieval)提出利用高斯模型拟合相似物体的视图集之间的匹配关系，并结合正负匹配样例提高检索性能。

三、评估标准

不失一般性的，采用查准-查全曲线(Precision-Recall)来衡量本发明方法的检索性能。查准-查全曲线能够系统地、综合地评估一个多视角目标方法的性能优劣。当查全查准曲线与坐标轴围成的面积越大时，检索性能越优异。它以查全率(Recall)为横坐标，查准率(Precision)为纵坐标，根据以下公式得到曲线值：

其中Recall是查全率，N_z是正确检索对象的数量，N_r是所有相关对象的数量。

其中Precision是查准率，N_all是所有检索对象的数量。

四、实验结果

六种算法的查全-查准曲线结果如图5所示。当查全查准曲线与坐标轴围成的面积越大时，检索性能越优异。

由图5可知，本方法的检索性能优于其它所有算法。由于和NN、HAUS算法相比，本算法采用了结构化模型深入探索视图之间的潜在联系，NN和HAUS只是单一地计算特征向量之间的距离。和AVC，CCFV算法相比，本发明的方法采用了图模型来模拟多视角视图之间的相似性，充分挖掘了它们之间的空间结构，而AVC只是简单地采用贝叶斯概率模型、CCFV只是简单地采用高斯模型进行相似度比较；和WBGM相比，虽然两者均采用了图模型，但是WBGM是基于二分图匹配的方法，本发明在图模型的基础上引入了隐含变量表示潜在代表性视图和潜在空间结构。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

参考文献：

[1]Jeannin S,Cieplinski L,Ohm J R,et al.Mpeg-7visual part ofexperimentation model version 9.0[J].ISO/IEC JTC1/SC29/WG11N,2001,3914.

[2]Bosche F,Haas C T.Automated retrieval of 3D CAD model objects inconstruction range images[J].Automation in Construction,2008,17(4):499-512.

[3]Guétat G,Maitre M,Joly L,et al.Automatic 3-D grayscale volumematching and shape analysis[J].Information Technology in Biomedicine,IEEETransactions on,2006,10(2):362-376.

[4]Yeh J S,Chen D Y,Chen B Y,et al.A web-based three-dimensionalprotein retrieval system by matching visual similarity[J].Bioinformatics,2005,21(13):3056-3057.

[5]Wong H S,Ma B,Yu Z,et al.3-D head model retrieval using a singleface view query[J].Multimedia,IEEE Transactions on,2007,9(5):1026-1036.

[6]Gao Y,Tang J,Hong R,et al.Camera constraint-free view-based 3-dobject retrieval[J].Image Processing,IEEE Transactions on,2012,21(4):2269-2281.

[7]Li B,Johan H.3D model retrieval using hybrid features and classinformation[J].Multimedia tools and applications,2013,62(3):821-846.

[8]Wang M,Gao Y,Lu K,et al.View-based discriminative probabilisticmodeling for 3d object retrieval and recognition[J].Image Processing,IEEETransactions on,2013,22(4):1395-1407.

[9]Tahmasbi A,Saki F,Shokouhi S B.Classification of benign andmalignant masses based on Zernike moments[J].Computers in Biology andMedicine,2011,41(8):726-735.

[10]Tahmasbi A,Saki F,Aghapanah H,et al.A novel breast mass diagnosissystem based on Zernike moments as shape and density descriptors[C]//Biomedical Engineering(ICBME),201118th Iranian Conference of.IEEE,2011:100-104.

[11]T.F.Ansary,M.Daoudi,and J.-P.Vandeborre,“A bayesian 3-d searchengine using adaptive views clustering,”Multimedia,IEEE Transactions on,vol.9,no.1,pp.78–88,2007.

[12]Y.Gao,J.Tang,H.Li,Q.Dai,and N.Zhang,“View-based 3d modelretrieval with probabilistic graph model,”Neurocomputing,vol.73,no.10,pp.1900–1905,2010.

[13]T.M.Cover and P.E.Hart,“Nearest neighbor pattern classification,”Information Theory,IEEE Transactions on,vol.13,no.1,pp.21–27,1967.

[14]Y.Gao,Q.Dai,M.Wang,and N.Zhang,“3d model retrieval using weightedbipartite graph matching,”Signal Processing:Image Communication,vol.26,no.1,pp.39–47,2011.

[15]Gao Y.Camera constraint-free view-based 3-D object retrieval.[J].IEEE Transactions on Image Processing,2012,21(4):2269-2281.

[16]Kumar S,Hebert M.Discriminative random fields:Adiscriminativeframework for contextual interaction in classification[C]//Computer Vision,2003.Proceedings.Ninth IEEE International Conference on.IEEE,2003:1150-1157.

[17]Lafferty J,McCallum A,Pereira F C N.Conditional random fields:Probabilistic models for segmenting and labeling sequence data[J].2001。

Claims

1.一种基于隐含状态模型的多视角目标检索方法，其特征在于，包括以下步骤：

3)选定训练库中的一物体的初始视图集作为检索目标，再选取测试库中的一物体的初始视图集作为比较目标，将检索目标与比较目标作为观测数据，建立图结构，计算检索目标与比较目标之间的相似度；具体包括：

给定检索目标的初始视图集和类别标签，比较目标的初始视图集，计算检索目标和比较目标的相似度；具体包括：比较目标的初始视图集表示为X＝{x₁,x₂,...,x_j,...,x_m}，其中每张初始视图x_j由它的特征向量φ(x_j)∈R^d表示，d表示特征维度，Zernike矩的d＝49；用y表示比较目标的初始视图集X的类别标签，y＝1表示和检索目标的初始视图集同类，y＝0表示和检索目标的初始视图集不同类；对于比较目标的初始视图集X，进一步定义了隐含状态矢量l＝{l₁,l₂,...l_j,...,l_m}表示隐含代表性视图集，其中l_j表示第j张初始视图对应的隐含代表性视图，由第j-w到第j+w张初始视图的初始特征向量决定，取值于隐含状态有限集合L；

P(y＝1,l|X,p)＝e^{δ(y,l,X；p)}/∑_y',le^{δ(y',l,X；p)} (1)

P(y＝1|X,p)＝∑_le^{δ(y,l,X；p)}/∑_y',le^{δ(y',l,X；p)} (2)

S(p)由两部分构成：第一部分为训练物体初始视图集的对数似然函数，第二项为高斯先验概率的对数函数；使用牛顿梯度下降法寻找最优模型参数p^*＝argmax_pS(p)，第i个训练物体初始视图集对应的似然函数为：

计算S_i(p)关于δ(y,l,X；p)的梯度关系，构建无向图E，其中每个顶点表示隐含代表性视图，而顶点之间对应的边＜l_i,l_j＞表示隐含代表性视图的潜在空间结构，采用以下形式的δ(y,l,X；p)：

其中p(l_j)∈R^d(l_j∈L)是关于第j个隐含代表性视图的参数，φ(x_j)·p(l_j)表示初始视图x_j和隐含代表性视图l_j之间的联系；p(y,l_j)∈R(l_j∈L,y∈Y)表示隐含代表性视图l_j和类别标签y的联系；p(y,l_j,l_k)∈R(l_j,l_k∈L,y∈Y)对应于类别标签y下，隐含代表性视图l_j和l_k之间的潜在空间关系；

假设无向图E中的边形成树状结构，利用梯度下降法得到S_i(p)关于模型参数p(l_j)、p(y,l_j)和p(y,l_j,l_k)的导数，从而得到模型参数p的取值，再根据式目标函数P(y＝1|X,p)计算比较目标和检索目标的相似度；

2.根据权利要求1所述的一种基于隐含状态模型的多视角目标检索方法，其特征在于，步骤1)所述的处理是，提取各彩色视图的掩膜，即将目标物体与背景分离，保持物体的彩色性质不变，将背景统一为黑色。

3.根据权利要求1所述的一种基于隐含状态模型的多视角目标检索方法，其特征在于，步骤1)中将有类别标签的物体初始视图集归为训练库，将无类别标签的物体初始视图集归为测试库。