CN110533048A

CN110533048A - 基于全景区域场景感知的组合语义层次连接模型的实现方法及系统

Info

Publication number: CN110533048A
Application number: CN201810498703.XA
Authority: CN
Inventors: 万卫兵
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2018-05-23
Filing date: 2018-05-23
Publication date: 2019-12-03
Anticipated expiration: 2038-05-23
Also published as: CN110533048B

Abstract

一种基于全景区域场景感知的组合语义层次连接模型的实现方法及系统，该包括：ROI提取模块、全景区域分割模块、空间信息获取模块以及多层次建模模块，其中：ROI提取模块与目标实例分割相连并传输目标显著区域信息，全景区域分割模块与兴趣点3D重建相连并传输区域边界信息，空间信息获取模块与语义子空间模型相连并传输区域位置相关性信息，多层次建模模块输出各区域的空间语义及关联度信息。本发明在利用区域显著性获取ROI进行全景分割的基础上、提取兴趣点进行几何重建及要素空间语义信息关联的前提下，依据场景构成要素概率共生的解析，实现场景感知的多层次建模。

Description

基于全景区域场景感知的组合语义层次连接模型的实现方法及系统

技术领域

本发明涉及的是一种图形处理领域的技术，具体是一种基于全景区域场景感知的组合语义层次连接模型的实现方法及系统。

背景技术

上世纪七十年代末八十年代初，完整的场景理解系统开始出现，但现有试图全面理解视觉场景的系统不具备自适应性，需要针对特定场景由人工设定参数，无法推广应用到新的场景。基于高阶马尔科夫模型全局能量优化的方法虽然能够有效地描述场景的结构先验，表达场景的局部和全局性先验并能在同一能量优化框架下有效地融合多种场景理解手段，但表达能力和可求解性的矛盾。很多复杂的高阶能量模型，尽管对场景理解提供了丰富的约束，但由于缺乏对应的优化方法，只能使用并不适合该模型的通用优化方法求解。另一个问题是，目前的高阶能量模型或求解方法均缺乏足够的通用性，限制了它的应用范围和科学价值。

迄今为止，绝大多数的场景整体分析研究成果均侧重于采用挖掘图像中局部语义信息的方式。但局部语义信息与底层区域特征不一定会完全相符，甚至会产生矛盾，因此，如何在众多的内容元素中提取场景构成要素(依据概率共生性和几何关系)使其具有较高的主题一致性就成为计算机视觉领域的热门研究课题。

发明内容

本发明针对现有技术存在的上述不足，提出一种基于全景区域场景感知的组合语义层次连接模型的实现方法及系统，在利用区域显著性获取ROI进行全景分割的基础上、提取兴趣点进行几何重建及要素空间语义信息关联的前提下，依据场景构成要素概率共生的解析，实现场景感知的多层次建模。

本发明是通过以下技术方案实现的：

本发明包括以下步骤：

步骤一、利用多尺度HOG特征获得待处理图像中各区域的底层特征向量，依据二维隐马尔可夫模型获取待处理图像中的显著性区域，在此基础上根据场景构成要素类型提取得到待处理图像关注目标的兴趣区域(ROI)。

步骤二、在兴趣区域中进行全景分割(Panoptic Segmentation,PS)，具体为：基于全卷积网络(FCN)和带有卷积神经网络特征的区域(RCNN)的多重递归模型，检测每个目标实例并对兴趣区域中的每个像素分类，依据全景质量指数(panoptic quality measure)获得精确的要素区域分割，得到分割后的目标实例边界及语义关联。

步骤三、兴趣点几何重建：利用目标实例边界的局部特征，利用自相似描述子提取待处理图像中各区域边界对应位置的兴趣点，并依此利用多视几何实现兴趣点的立体3D重建，得到各目标区域空间位置关系。

步骤四、要素空间感知：利用各目标区域空间位置关系和兴趣点对目标距离或者长度进行三维测量，得到目标边界的精确定位及区域分离。

步骤五、利用步骤二得到的分割后的目标实例边界和步骤三得到的各目标区域空间位置关系，结合步骤四得到的目标边界的精确定位及区域分离，对于各目标区域，通过矩阵—向量相关性分析，将不同区域的向量表达映射到一个共同语义子空间(即KNN稀疏图)且保持不同区域数据之间的关联度，实现层次化建模。

本发明涉及一种实现上述方法的系统，包括：ROI提取模块、全景区域分割模块、空间信息获取模块以及多层次建模模块，其中：ROI提取模块与目标实例分割相连并传输目标显著区域信息，全景区域分割模块与兴趣点3D重建相连并传输区域边界信息，空间信息获取模块与语义子空间模型相连并传输区域位置相关性信息，多层次建模模块输出各区域的空间语义及关联度信息。

技术效果

与现有技术相比，本发明算法简单高效，只在ROI区域处理；区域边界精度高而全，采用全景分割无死角；空间信息准确快速，利用兴趣点和自相似描述子3D重建；同时局部语义信息与底层区域特征存在完全一致性，采用共同语义子空间(KNN稀疏图)。

附图说明

图1为基于全景区域场景感知的多层次建模示意图；

图2二维隐马尔科夫显著区域ROI提取流程图；

图3多目标实例分割网络框图；

图4自相似描述子说明图；

图5局部自相似差异函数多视重建图；

图6联合概率最大共生目标类；

图7多层次建模稀疏示意图；

图8全景场景感知结果示意图。

具体实施方式

如图1所示，为本实施例涉及的一种基于全景区域场景感知的多层次建模方法，具体包括：

步骤一、利用多尺度HOG特征获得区域底层特征向量，依据二维隐马尔可夫模型获取显著区域，在此基础上根据场景构成要素类型进行ROI提取，如图2所示，具体包括：

步骤1.1、特征提取：为了更全面地描述图像块区域，在HOG特征的基础上加上了周围空间信息，增强其上下文描述性能，该特征称为空间金字塔HOG特征(SP-HOG，SpatialPyramidHOG)。

步骤1.2、编码：根据图像的特征描述子训练出特征字典，然后用该字典进行编码，将图像转换为码字图。

所述的特征字典，采用k-means聚类方式来提取中心描述子。通过选取k个类的中心向量μ_t，然后对每一个特征向量x^(l)，求其对应属于的类：其中：c^(l)表示特征向量x^(l)的类别，该式表明，离特征向量最近的类别作为该特征向量的类别，然后根据同一类下的所有特征向量来更新类中心：其中：n表示特征向量的个数，所得的k个中心向量就是特征字典D＝R^k×d，d表示SP-HOG特征向量的维度。

步骤1.3、模型学习和推断：在训练阶段，根据拓展的二维隐马尔可夫模型的拓扑图进行模型参数的学习；在训练后的测试阶段，根据码字图和二维隐马尔可夫模型的模型参数推断所述图像的目标信息，从而获取其显著性信息。

所述的模型参数为：λ＝{Π,A,B}，其中：状态转移概率矩阵为A＝{a_ij}，a_ij表示状态s_i转移到状态s_j的概率且a_ij≥0；发射矩阵为B＝{b_ki}，b_ki＝b(o_i|s_k)表示状态s_k表现为o_i的概率；初始状态Π＝{π_k}，表示每个状态s_k在初始节点中出现的概率。得到模型参数后，我们的目标是求取一个最可能的隐藏状态序列，即满足：

所述的拓扑图，即二维图像拓扑结构的2D-Viterbi算法定义的概率推断表达式为：其中：表示图像块S_i,j的邻域，观测变量为O＝{O_ij,i＝1,2,...,m；j＝1,2,...,n}，m表示码字图的行数，n表示列数，与观测变量相对应的隐藏状态变量为S＝{S_ij,i＝1,2,...,m；j＝1,2,...,n}，S_ij∈{s₀,s₁}。这就是第一步的概率推断过程，即根据概率寻找下一步概率最大路径。第二步回溯是根据概率最大路径来判定每个图像块区域的分类情况，即确定其状态。

所述的拓扑图，采用基于最大概率最优路径的方法：其中：s_k＝{s₀,s₁}，表示反向的邻域，并以状态转移概率最大的状态作为最终的取值，经过第二步的回溯过程后，确定了各个图像块S_i,j分别隶属于哪一个特征向量类别，从而得到所述图像的显著性信息，即概率最大图像块的区域。由此，可以进行显著目标要素区域的合并，实现初始ROI提取。

步骤二、深度学习的全景分割；在上述获得的ROI区域，实现新的任务场景----全景分割(Panoptic Segmentation)；基于FCN和RCNN的多重递归模型，检测每个目标实例并进行分割(实例分割)，同时对每个像素分类(语义分割)，依据评价指标---panopticquality(PQ)measure以获得精确的要素区域分割，具体包括：

步骤2.1、对区域内所有物体进行描述，即每个像素分配语义标签和实例id，相同标签和相同id的像素属于相同物体。

所述的语义标签集包括：子集LSt和子集LTh，且L＝LSt∪LTh，其中：子集LSt和子集LTh分别表示不可数无规则区域和可数的目标对象。

步骤2.2、结合语义分割(为每个像素分配一个类标签)和实例分割(检测和分割每个目标实例)两种独立的方式，采用基于FCN和RCNN的多重递归模型，依据全景质量评价标准(PQ)进行实例匹配，如图3所示，将二者的结果进行合并，(图像的每个像素都必须分配一个语义标签和一个实例ID。具有相同标签和ID的像素属于同一个目标，而对于背景标签而言，实例ID被忽略。)从而获得全景分割结果。

所述的全景质量评价标准(PQ)PQ＝∑(p,g)∈tpIoU(p,g)/(|TP|+1/2|FP|+1/2|FN|)，其中：p为预测分割，g为事实分割GT(Ground Truth)，∑(p,g)∈tpIoU(p,g)为匹配所有分割的平均IoU(Intersection over Union两个矩形交集的面积/两个矩形的并集面积)；1/2|FP|+1/2|FN|为惩罚(penalize)没有匹配的实例。

所述的分割，其所有分割后的区域具有一致的权重。

所述的全景质量评价标准(PQ)也可以看作是分割质量Segmentation Quality(SQ)和检测质量Detection Quality(DQ)的乘积PQ＝SQ×DQ，其中：SQ＝∑(p,g)∈tpIoU(p,g)/|TP|，DQ＝|TP|/(|TP|+1/2|FP|+1/2|FN|)SQ是匹配所有对象的平均IoU。给定图片的一个预测分割和GT分割，每个GT分割最多只能有一个对应的预测分割，且其IoU必须严格大于0.5。

步骤三、兴趣点几何重建及要素空间感知；利用前一步骤得到的实例边界和空间语义关系，依据目标实例边界的局部特征，利用自相似描述子提取对应原图位置的兴趣点如图4所示，并依此利用多视几何实现兴趣点的立体3D重建，使用基于LSS描述算子对兴趣点进行三维重建的方法来对目标距离或者长度进行测量，具体包括：

步骤3.1、计算图像所对应的相机的位置信息，从一幅图像中选择要测量长度的端点作为兴趣点(Point of Interest，POI)；

步骤3.2、局部自相似性的使用：在图像序列或者图像集的其它图像中的极线上寻找兴趣点的匹配点进行重建，如图5所示；

所述的匹配点，通过使用归一化互相关(Normalized Cross Correlation，NCC)的算法对LSS描述算子进行匹配对比得到，LSS描述算子的归一化互相关匹配结果其中：q1和q2分别为在参考图像与搜索图像中的像素点，Sq1(k)与Sq2(k)分别为q1与q2位置提取的LSS描述算子，Sq1与Sq2为LSS描述算子向量的均值，N为LSS描述算子的维度。

所述的重建，基于局部自相似差异函数实现，对于点p局部自相似差异函数其中：t(p，I₁，I₂)为对在I₁、I₂图像中的点对的局部自相似差异，V(p)为点p可见的一个图像集或者图像序列，参考图像R(p)为V(p)中的一幅图像；当局部自相似差异值小，则说明点p在图像集中的投影区域具有较强的一致性。候选三维空间点的位置被固定在从光心与兴趣点的连线上，因此便能保证在优化迭代的过程中，产生的三维点的投影一直在兴趣点的位置。

步骤3.3、根据图像中标定参照物的实际长度，依据多视几何单应矩阵，获得兴趣点的世界坐标。计算兴趣点间的距离，就得到了目标距离、长度，实现空间感知；

步骤四、场景全景区域要素的解析和层次化建模。利用要素的区域边界(真实分割显著图)和语义相关性，结合空间感知的合理性，实现层次化建模，具体步骤包括：

步骤4.1、采用独立分量分析(ICA)滤波器系数概率作显著性评估：从大量同类场景中提取出该类场景的图像块作为代表，然后利用ICA得到该类场景的图像块特征，根据得到的该类场景的滤波器系数进行分布图分析可以得到近似广义高斯分布密度的图像，对该图像进行拟合，得到相关的区域热度图。

步骤4.2、根据滤波器各个系数的概率分布密度大小来判断该图像块区域的显著性(模型预测显著图)，越大显著性就越高。最后，概率密度最大的目标作为关键要素，利用联合概率大小推理出其共生的目标类，产生多目标相应的关联度量，实现场景要素的解析，如图6所示。

所述的真实GT分割显著图为：其中：为第i个要素的边界序列，为边界点的空间坐标，N_subj为要素的个数。

利用Pearson相关系数作为衡量模型预测显著结果图与真实显著图之间的相关性，Pearson相关系数其中：H(x)为真实显著图，P(x)为模型生成的显著图，μ_H,μ_P分别为显著图H(x),P(x)各自的平均显著性值，σ_H,σ_P分别为两类显著图的标准差，Cov()为两类显著图的协方差。

步骤4.3、层次化建模。对于各目标区域，通过矩阵—向量相关性分析，将不同区域的向量表达映射到一个共同语义子空间，即稀疏图中且保持不同区域数据之间的关联度，在不同区域对应的特征向量的基础上，得出区域之间的距离矩阵，根据区域之间的距离关系建立KNN稀疏图。利用整个输入的数据X＝X1∪Xn构建稀疏图g。建立场景感知的层次化模型，如图7所示。

所述的KNN稀疏图g＝(X，E，W)，其中：X＝{X_i}是顶点集，每个样本数据点Xi都被看作一个顶点，E＝{e_ij}是边集，矩阵W＝{W_ij}是g对应的N×N的邻接矩阵，Wij是从顶点i、j之间的关系得到的边eij对应的权值，i，j＝1，…，n，W_ij∈[0，1]，W_ii＝1。权值较大值表明两节点有更高的相关度，较小值则相反。

所述的相关度选择为：W_ij＝exp(-d(i，j)/τ)，其中：d(i，j)表示最短距离，调节参数τ>0。距离换算选择余弦距离。对于各区域特征向量为Ds＝(f，r，c，l)，其中：f为数据的特征子，r为区域大小，c为邻域数，l为空间位置。

在此基础上，语义组合特征向量为Dagg＝{F，(Rmin，Rmax)，nc，WA，LP}，其中：F为得到的局部特征组合；(Rmin，Rmax)为各区域数据的包围子集；nc为进行组合的区域个数；WA为区域数据相关度的集合；LP为数据的空间区域分布的概率。

图8为使用本发明所用方法得到的结果图，从图8可以看出本发明方案全景感知准确度高，效果良好。

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由上述具体实施所限，在其范围内的各个实现方案均受本发明之约束。

Claims

1.一种基于全景区域场景感知的组合语义层次连接模型的实现方法，其特征在于，包括以下步骤：

步骤一、利用多尺度HOG特征获得待处理图像中各区域的底层特征向量，依据二维隐马尔可夫模型获取待处理图像中的显著性区域，在此基础上根据场景构成要素类型提取得到待处理图像关注目标的兴趣区域；

步骤二、在兴趣区域中进行全景分割，具体为：基于全卷积网络和带有卷积神经网络特征的区域的多重递归模型，检测每个目标实例并对兴趣区域中的每个像素分类，依据全景质量指数获得精确的要素区域分割，得到分割后的目标实例边界及语义关联；

步骤三、兴趣点几何重建：利用目标实例边界的局部特征，利用自相似描述子提取待处理图像中各区域边界对应位置的兴趣点，并依此利用多视几何实现兴趣点的立体3D重建，得到各目标区域空间位置关系；

步骤四、要素空间感知：利用各目标区域空间位置关系和兴趣点对目标距离或者长度进行三维测量，得到目标边界的精确定位及区域分离；

步骤五、利用步骤二得到的分割后的目标实例边界和步骤三得到的各目标区域空间位置关系，结合步骤四得到的目标边界的精确定位及区域分离，对于各目标区域，通过矩阵—向量相关性分析，将不同区域的向量表达映射到一个共同语义子空间，即KNN稀疏图且保持不同区域数据之间的关联度，实现层次化建模。

2.根据权利要求1所述的方法，其特征是，所述的步骤一具体包括：

步骤1.1、特征提取：为了更全面地描述图像块区域，在HOG特征的基础上加上了周围空间信息，增强其上下文描述性能，该特征称为空间金字塔HOG特征；

步骤1.2、编码：根据图像的特征描述子训练出特征字典，然后用该字典进行编码，将图像转换为码字图；

3.根据权利要求2所述的方法，其特征是，所述的特征字典，采用k-means聚类方式来提取中心描述子，通过选取k个类的中心向量μ_t，然后对每一个特征向量x^(l)，求其对应属于的类：其中：c^(l)表示特征向量x^(l)的类别，该式表明，离特征向量最近的类别作为该特征向量的类别，然后根据同一类下的所有特征向量来更新类中心：其中：n表示特征向量的个数，所得的k个中心向量就是特征字典D＝R^k×d，d表示SP-HOG特征向量的维度。

4.根据权利要求2所述的方法，其特征是，所述的模型参数为：λ＝{Π,A,B}，其中：状态转移概率矩阵为A＝{a_ij}，a_ij表示状态s_i转移到状态s_j的概率且a_ij≥0；发射矩阵为B＝{b_ki}，b_ki＝b(o_i|s_k)表示状态s_k表现为o_i的概率；初始状态Π＝{π_k}，表示每个状态s_k在初始节点中出现的概率，得到模型参数后为求取一个最可能的隐藏状态序列，即满足：

5.根据权利要求2所述的方法，其特征是，所述的拓扑图，即二维图像拓扑结构的2D-Viterbi算法定义的概率推断表达式为：其中：表示图像块S_i,j的邻域，观测变量为O＝{O_ij,i＝1,2,...,m；j＝1,2,...,n}，m表示码字图的行数，n表示列数，与观测变量相对应的隐藏状态变量为S＝{S_ij,i＝1,2,...,m；j＝1,2,...,n}，S_ij∈{s₀,s₁}。这就是第一步的概率推断过程，即根据概率寻找下一步概率最大路径。第二步回溯是根据概率最大路径来判定每个图像块区域的分类情况，即确定其状态；

6.根据权利要求1所述的方法，其特征是，所述的步骤2具体包括：

步骤2.1、对区域内所有物体进行描述，即每个像素分配语义标签和实例id，相同标签和相同id的像素属于相同物体；

步骤2.2、结合语义分割，即为每个像素分配一个类标签和实例分割，即检测和分割每个目标实例两种独立的方式，采用基于FCN和RCNN的多重递归模型，依据全景质量评价标准进行实例匹配，将二者的结果进行合并从而获得全景分割结果。

7.根据权利要求6所述的方法，其特征是，所述的全景质量评价标准(PQ)PQ＝∑(p,g)∈tpIoU(p,g)/(|TP|+1/2|FP|+1/2|FN|)，其中：p为预测分割，g为事实分割GT(GroundTruth)，∑(p,g)∈tpIoU(p,g)为匹配所有分割的平均IoU；1/2|FP|+1/2|FN|为惩罚没有匹配的实例。

8.根据权利要求2所述的方法，其特征是，所述的全景质量评价标准，采用分割质量和检测质量的乘积PQ＝SQ×DQ得到，其中：SQ＝∑(p,g)∈tpIoU(p,g)/|TP|，DQ＝|TP|/(|TP|+1/2|FP|+1/2|FN|)SQ是匹配所有对象的平均IoU。

9.根据权利要求2所述的方法，其特征是，所述的步骤3具体包括：

步骤3.1、计算图像所对应的相机的位置信息，从一幅图像中选择要测量长度的端点作为兴趣点；

步骤3.2、局部自相似性的使用：在图像序列或者图像集的其它图像中的极线上寻找兴趣点的匹配点进行重建；

步骤3.3、根据图像中标定参照物的实际长度，依据多视几何单应矩阵，获得兴趣点的世界坐标。计算兴趣点间的距离，就得到了目标距离、长度，实现空间感知。

10.根据权利要求9所述的方法，其特征是，所述的匹配点，通过使用归一化互相关算法对LSS描述算子进行匹配对比得到，LSS描述算子的归一化互相关匹配结果其中：q1和q2分别为在参考图像与搜索图像中的像素点，Sq1(k)与Sq2(k)分别为q1与q2位置提取的LSS描述算子，Sq1与Sq2为LSS描述算子向量的均值，N为LSS描述算子的维度。

11.根据权利要求9所述的方法，其特征是，所述的重建，基于局部自相似差异函数实现，对于点p局部自相似差异函数其中：t(p，I₁，I₂)为对在I₁、I₂图像中的点对的局部自相似差异，V(p)为点p可见的一个图像集或者图像序列，参考图像R(p)为V(p)中的一幅图像；当局部自相似差异值小，则说明点p在图像集中的投影区域具有较强的一致性。候选三维空间点的位置被固定在从光心与兴趣点的连线上，因此便能保证在优化迭代的过程中，产生的三维点的投影一直在兴趣点的位置。

12.根据权利要求1所述的方法，其特征是，所述的步骤4具体包括：

步骤4.1、采用独立分量分析滤波器系数概率作显著性评估：从大量同类场景中提取出该类场景的图像块作为代表，然后利用ICA得到该类场景的图像块特征，根据得到的该类场景的滤波器系数进行分布图分析可以得到近似广义高斯分布密度的图像，对该图像进行拟合，得到相关的区域热度图；

步骤4.2、根据滤波器各个系数的概率分布密度大小来判断该图像块区域的显著性，即模型预测显著图，概率密度最大的目标作为关键要素，利用联合概率大小推理出其共生的目标类，产生多目标相应的关联度量，实现场景要素的解析；

步骤4.3、层次化建模。对于各目标区域，通过矩阵—向量相关性分析，将不同区域的向量表达映射到一个共同语义子空间，即稀疏图中且保持不同区域数据之间的关联度，在不同区域对应的特征向量的基础上，得出区域之间的距离矩阵，根据区域之间的距离关系建立KNN稀疏图，利用整个输入的数据X＝X1∪Xn构建稀疏图g建立场景感知的层次化模型。

13.根据权利要求12所述的方法，其特征是，所述的真实GT分割显著图为：其中：为第i个要素的边界序列，为边界点的空间坐标，N_subj为要素的个数；

14.根据权利要求12所述的方法，其特征是，所述的KNN稀疏图g＝(X，E，W)，其中：X＝{X_i}是顶点集，每个样本数据点Xi都被看作一个顶点，E＝{e_ij}是边集，矩阵W＝{W_ij}是g对应的N×N的邻接矩阵，Wij是从顶点i、j之间的关系得到的边eij对应的权值，i，j＝1，…，n，W_ij∈[0，1]，W_ii＝1，权值较大值表明两节点有更高的相关度。

15.根据权利要求14所述的方法，其特征是，所述的相关度W_ij＝exp(-d(i，j)/τ)，其中：d(i，j)表示最短距离，调节参数τ>0，对于各区域特征向量为Ds＝(f，r，c，l)，其中：f为数据的特征子，r为区域大小，c为邻域数，l为空间位置。

16.一种实现上述任一权利要求所述方法的系统，其特征在于，包括：ROI提取模块、全景区域分割模块、空间信息获取模块以及多层次建模模块，其中：ROI提取模块与目标实例分割相连并传输目标显著区域信息，全景区域分割模块与兴趣点3D重建相连并传输区域边界信息，空间信息获取模块与语义子空间模型相连并传输区域位置相关性信息，多层次建模模块输出各区域的空间语义及关联度信息。