CN110533048A - 基于全景区域场景感知的组合语义层次连接模型的实现方法及系统 - Google Patents

基于全景区域场景感知的组合语义层次连接模型的实现方法及系统 Download PDF

Info

Publication number
CN110533048A
CN110533048A CN201810498703.XA CN201810498703A CN110533048A CN 110533048 A CN110533048 A CN 110533048A CN 201810498703 A CN201810498703 A CN 201810498703A CN 110533048 A CN110533048 A CN 110533048A
Authority
CN
China
Prior art keywords
image
point
region
interest
segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810498703.XA
Other languages
English (en)
Other versions
CN110533048B (zh
Inventor
万卫兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN201810498703.XA priority Critical patent/CN110533048B/zh
Publication of CN110533048A publication Critical patent/CN110533048A/zh
Application granted granted Critical
Publication of CN110533048B publication Critical patent/CN110533048B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • G06V10/507Summing image-intensity values; Histogram projection analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

一种基于全景区域场景感知的组合语义层次连接模型的实现方法及系统,该包括:ROI提取模块、全景区域分割模块、空间信息获取模块以及多层次建模模块,其中:ROI提取模块与目标实例分割相连并传输目标显著区域信息,全景区域分割模块与兴趣点3D重建相连并传输区域边界信息,空间信息获取模块与语义子空间模型相连并传输区域位置相关性信息,多层次建模模块输出各区域的空间语义及关联度信息。本发明在利用区域显著性获取ROI进行全景分割的基础上、提取兴趣点进行几何重建及要素空间语义信息关联的前提下,依据场景构成要素概率共生的解析,实现场景感知的多层次建模。

Description

基于全景区域场景感知的组合语义层次连接模型的实现方法 及系统
技术领域
本发明涉及的是一种图形处理领域的技术,具体是一种基于全景区域场景感知的组合语义层次连接模型的实现方法及系统。
背景技术
上世纪七十年代末八十年代初,完整的场景理解系统开始出现,但现有试图全面理解视觉场景的系统不具备自适应性,需要针对特定场景由人工设定参数,无法推广应用到新的场景。基于高阶马尔科夫模型全局能量优化的方法虽然能够有效地描述场景的结构先验,表达场景的局部和全局性先验并能在同一能量优化框架下有效地融合多种场景理解手段,但表达能力和可求解性的矛盾。很多复杂的高阶能量模型,尽管对场景理解提供了丰富的约束,但由于缺乏对应的优化方法,只能使用并不适合该模型的通用优化方法求解。另一个问题是,目前的高阶能量模型或求解方法均缺乏足够的通用性,限制了它的应用范围和科学价值。
迄今为止,绝大多数的场景整体分析研究成果均侧重于采用挖掘图像中局部语义信息的方式。但局部语义信息与底层区域特征不一定会完全相符,甚至会产生矛盾,因此,如何在众多的内容元素中提取场景构成要素(依据概率共生性和几何关系)使其具有较高的主题一致性就成为计算机视觉领域的热门研究课题。
发明内容
本发明针对现有技术存在的上述不足,提出一种基于全景区域场景感知的组合语义层次连接模型的实现方法及系统,在利用区域显著性获取ROI进行全景分割的基础上、提取兴趣点进行几何重建及要素空间语义信息关联的前提下,依据场景构成要素概率共生的解析,实现场景感知的多层次建模。
本发明是通过以下技术方案实现的:
本发明包括以下步骤:
步骤一、利用多尺度HOG特征获得待处理图像中各区域的底层特征向量,依据二维隐马尔可夫模型获取待处理图像中的显著性区域,在此基础上根据场景构成要素类型提取得到待处理图像关注目标的兴趣区域(ROI)。
步骤二、在兴趣区域中进行全景分割(Panoptic Segmentation,PS),具体为:基于全卷积网络(FCN)和带有卷积神经网络特征的区域(RCNN)的多重递归模型,检测每个目标实例并对兴趣区域中的每个像素分类,依据全景质量指数(panoptic quality measure)获得精确的要素区域分割,得到分割后的目标实例边界及语义关联。
步骤三、兴趣点几何重建:利用目标实例边界的局部特征,利用自相似描述子提取待处理图像中各区域边界对应位置的兴趣点,并依此利用多视几何实现兴趣点的立体3D重建,得到各目标区域空间位置关系。
步骤四、要素空间感知:利用各目标区域空间位置关系和兴趣点对目标距离或者长度进行三维测量,得到目标边界的精确定位及区域分离。
步骤五、利用步骤二得到的分割后的目标实例边界和步骤三得到的各目标区域空间位置关系,结合步骤四得到的目标边界的精确定位及区域分离,对于各目标区域,通过矩阵—向量相关性分析,将不同区域的向量表达映射到一个共同语义子空间(即KNN稀疏图)且保持不同区域数据之间的关联度,实现层次化建模。
本发明涉及一种实现上述方法的系统,包括:ROI提取模块、全景区域分割模块、空间信息获取模块以及多层次建模模块,其中:ROI提取模块与目标实例分割相连并传输目标显著区域信息,全景区域分割模块与兴趣点3D重建相连并传输区域边界信息,空间信息获取模块与语义子空间模型相连并传输区域位置相关性信息,多层次建模模块输出各区域的空间语义及关联度信息。
技术效果
与现有技术相比,本发明算法简单高效,只在ROI区域处理;区域边界精度高而全,采用全景分割无死角;空间信息准确快速,利用兴趣点和自相似描述子3D重建;同时局部语义信息与底层区域特征存在完全一致性,采用共同语义子空间(KNN稀疏图)。
附图说明
图1为基于全景区域场景感知的多层次建模示意图;
图2二维隐马尔科夫显著区域ROI提取流程图;
图3多目标实例分割网络框图;
图4自相似描述子说明图;
图5局部自相似差异函数多视重建图;
图6联合概率最大共生目标类;
图7多层次建模稀疏示意图;
图8全景场景感知结果示意图。
具体实施方式
如图1所示,为本实施例涉及的一种基于全景区域场景感知的多层次建模方法,具体包括:
步骤一、利用多尺度HOG特征获得区域底层特征向量,依据二维隐马尔可夫模型获取显著区域,在此基础上根据场景构成要素类型进行ROI提取,如图2所示,具体包括:
步骤1.1、特征提取:为了更全面地描述图像块区域,在HOG特征的基础上加上了周围空间信息,增强其上下文描述性能,该特征称为空间金字塔HOG特征(SP-HOG,SpatialPyramidHOG)。
步骤1.2、编码:根据图像的特征描述子训练出特征字典,然后用该字典进行编码,将图像转换为码字图。
所述的特征字典,采用k-means聚类方式来提取中心描述子。通过选取k个类的中心向量μt,然后对每一个特征向量x(l),求其对应属于的类:其中:c(l)表示特征向量x(l)的类别,该式表明,离特征向量最近的类别作为该特征向量的类别,然后根据同一类下的所有特征向量来更新类中心:其中:n表示特征向量的个数,所得的k个中心向量就是特征字典D=Rk×d,d表示SP-HOG特征向量的维度。
步骤1.3、模型学习和推断:在训练阶段,根据拓展的二维隐马尔可夫模型的拓扑图进行模型参数的学习;在训练后的测试阶段,根据码字图和二维隐马尔可夫模型的模型参数推断所述图像的目标信息,从而获取其显著性信息。
所述的模型参数为:λ={Π,A,B},其中:状态转移概率矩阵为A={aij},aij表示状态si转移到状态sj的概率且aij≥0;发射矩阵为B={bki},bki=b(oi|sk)表示状态sk表现为oi的概率;初始状态Π={πk},表示每个状态sk在初始节点中出现的概率。得到模型参数后,我们的目标是求取一个最可能的隐藏状态序列,即满足:
所述的拓扑图,即二维图像拓扑结构的2D-Viterbi算法定义的概率推断表达式为:其中:表示图像块Si,j的邻域,观测变量为O={Oij,i=1,2,...,m;j=1,2,...,n},m表示码字图的行数,n表示列数,与观测变量相对应的隐藏状态变量为S={Sij,i=1,2,...,m;j=1,2,...,n},Sij∈{s0,s1}。这就是第一步的概率推断过程,即根据概率寻找下一步概率最大路径。第二步回溯是根据概率最大路径来判定每个图像块区域的分类情况,即确定其状态。
所述的拓扑图,采用基于最大概率最优路径的方法:其中:sk={s0,s1},表示反向的邻域,并以状态转移概率最大的状态作为最终的取值,经过第二步的回溯过程后,确定了各个图像块Si,j分别隶属于哪一个特征向量类别,从而得到所述图像的显著性信息,即概率最大图像块的区域。由此,可以进行显著目标要素区域的合并,实现初始ROI提取。
步骤二、深度学习的全景分割;在上述获得的ROI区域,实现新的任务场景----全景分割(Panoptic Segmentation);基于FCN和RCNN的多重递归模型,检测每个目标实例并进行分割(实例分割),同时对每个像素分类(语义分割),依据评价指标---panopticquality(PQ)measure以获得精确的要素区域分割,具体包括:
步骤2.1、对区域内所有物体进行描述,即每个像素分配语义标签和实例id,相同标签和相同id的像素属于相同物体。
所述的语义标签集包括:子集LSt和子集LTh,且L=LSt∪LTh,其中:子集LSt和子集LTh分别表示不可数无规则区域和可数的目标对象。
步骤2.2、结合语义分割(为每个像素分配一个类标签)和实例分割(检测和分割每个目标实例)两种独立的方式,采用基于FCN和RCNN的多重递归模型,依据全景质量评价标准(PQ)进行实例匹配,如图3所示,将二者的结果进行合并,(图像的每个像素都必须分配一个语义标签和一个实例ID。具有相同标签和ID的像素属于同一个目标,而对于背景标签而言,实例ID被忽略。)从而获得全景分割结果。
所述的全景质量评价标准(PQ)PQ=∑(p,g)∈tpIoU(p,g)/(|TP|+1/2|FP|+1/2|FN|),其中:p为预测分割,g为事实分割GT(Ground Truth),∑(p,g)∈tpIoU(p,g)为匹配所有分割的平均IoU(Intersection over Union两个矩形交集的面积/两个矩形的并集面积);1/2|FP|+1/2|FN|为惩罚(penalize)没有匹配的实例。
所述的分割,其所有分割后的区域具有一致的权重。
所述的全景质量评价标准(PQ)也可以看作是分割质量Segmentation Quality(SQ)和检测质量Detection Quality(DQ)的乘积PQ=SQ×DQ,其中:SQ=∑(p,g)∈tpIoU(p,g)/|TP|,DQ=|TP|/(|TP|+1/2|FP|+1/2|FN|)SQ是匹配所有对象的平均IoU。给定图片的一个预测分割和GT分割,每个GT分割最多只能有一个对应的预测分割,且其IoU必须严格大于0.5。
步骤三、兴趣点几何重建及要素空间感知;利用前一步骤得到的实例边界和空间语义关系,依据目标实例边界的局部特征,利用自相似描述子提取对应原图位置的兴趣点如图4所示,并依此利用多视几何实现兴趣点的立体3D重建,使用基于LSS描述算子对兴趣点进行三维重建的方法来对目标距离或者长度进行测量,具体包括:
步骤3.1、计算图像所对应的相机的位置信息,从一幅图像中选择要测量长度的端点作为兴趣点(Point of Interest,POI);
步骤3.2、局部自相似性的使用:在图像序列或者图像集的其它图像中的极线上寻找兴趣点的匹配点进行重建,如图5所示;
所述的匹配点,通过使用归一化互相关(Normalized Cross Correlation,NCC)的算法对LSS描述算子进行匹配对比得到,LSS描述算子的归一化互相关匹配结果 其中:q1和q2分别为在参考图像与搜索图像中的像素点,Sq1(k)与Sq2(k)分别为q1与q2位置提取的LSS描述算子,Sq1与Sq2为LSS描述算子向量的均值,N为LSS描述算子的维度。
所述的重建,基于局部自相似差异函数实现,对于点p局部自相似差异函数 其中:t(p,I1,I2)为对在I1、I2图像中的点对的局部自相似差异,V(p)为点p可见的一个图像集或者图像序列,参考图像R(p)为V(p)中的一幅图像;当局部自相似差异值小,则说明点p在图像集中的投影区域具有较强的一致性。候选三维空间点的位置被固定在从光心与兴趣点的连线上,因此便能保证在优化迭代的过程中,产生的三维点的投影一直在兴趣点的位置。
步骤3.3、根据图像中标定参照物的实际长度,依据多视几何单应矩阵,获得兴趣点的世界坐标。计算兴趣点间的距离,就得到了目标距离、长度,实现空间感知;
步骤四、场景全景区域要素的解析和层次化建模。利用要素的区域边界(真实分割显著图)和语义相关性,结合空间感知的合理性,实现层次化建模,具体步骤包括:
步骤4.1、采用独立分量分析(ICA)滤波器系数概率作显著性评估:从大量同类场景中提取出该类场景的图像块作为代表,然后利用ICA得到该类场景的图像块特征,根据得到的该类场景的滤波器系数进行分布图分析可以得到近似广义高斯分布密度的图像,对该图像进行拟合,得到相关的区域热度图。
步骤4.2、根据滤波器各个系数的概率分布密度大小来判断该图像块区域的显著性(模型预测显著图),越大显著性就越高。最后,概率密度最大的目标作为关键要素,利用联合概率大小推理出其共生的目标类,产生多目标相应的关联度量,实现场景要素的解析,如图6所示。
所述的真实GT分割显著图为:其中:为第i个要素的边界序列,为边界点的空间坐标,Nsubj为要素的个数。
利用Pearson相关系数作为衡量模型预测显著结果图与真实显著图之间的相关性,Pearson相关系数其中:H(x)为真实显著图,P(x)为模型生成的显著图,μHP分别为显著图H(x),P(x)各自的平均显著性值,σHP分别为两类显著图的标准差,Cov()为两类显著图的协方差。
步骤4.3、层次化建模。对于各目标区域,通过矩阵—向量相关性分析,将不同区域的向量表达映射到一个共同语义子空间,即稀疏图中且保持不同区域数据之间的关联度,在不同区域对应的特征向量的基础上,得出区域之间的距离矩阵,根据区域之间的距离关系建立KNN稀疏图。利用整个输入的数据X=X1∪Xn构建稀疏图g。建立场景感知的层次化模型,如图7所示。
所述的KNN稀疏图g=(X,E,W),其中:X={Xi}是顶点集,每个样本数据点Xi都被看作一个顶点,E={eij}是边集,矩阵W={Wij}是g对应的N×N的邻接矩阵,Wij是从顶点i、j之间的关系得到的边eij对应的权值,i,j=1,…,n,Wij∈[0,1],Wii=1。权值较大值表明两节点有更高的相关度,较小值则相反。
所述的相关度选择为:Wij=exp(-d(i,j)/τ),其中:d(i,j)表示最短距离,调节参数τ>0。距离换算选择余弦距离。对于各区域特征向量为Ds=(f,r,c,l),其中:f为数据的特征子,r为区域大小,c为邻域数,l为空间位置。
在此基础上,语义组合特征向量为Dagg={F,(Rmin,Rmax),nc,WA,LP},其中:F为得到的局部特征组合;(Rmin,Rmax)为各区域数据的包围子集;nc为进行组合的区域个数;WA为区域数据相关度的集合;LP为数据的空间区域分布的概率。
图8为使用本发明所用方法得到的结果图,从图8可以看出本发明方案全景感知准确度高,效果良好。
上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施所限,在其范围内的各个实现方案均受本发明之约束。

Claims (16)

1.一种基于全景区域场景感知的组合语义层次连接模型的实现方法,其特征在于,包括以下步骤:
步骤一、利用多尺度HOG特征获得待处理图像中各区域的底层特征向量,依据二维隐马尔可夫模型获取待处理图像中的显著性区域,在此基础上根据场景构成要素类型提取得到待处理图像关注目标的兴趣区域;
步骤二、在兴趣区域中进行全景分割,具体为:基于全卷积网络和带有卷积神经网络特征的区域的多重递归模型,检测每个目标实例并对兴趣区域中的每个像素分类,依据全景质量指数获得精确的要素区域分割,得到分割后的目标实例边界及语义关联;
步骤三、兴趣点几何重建:利用目标实例边界的局部特征,利用自相似描述子提取待处理图像中各区域边界对应位置的兴趣点,并依此利用多视几何实现兴趣点的立体3D重建,得到各目标区域空间位置关系;
步骤四、要素空间感知:利用各目标区域空间位置关系和兴趣点对目标距离或者长度进行三维测量,得到目标边界的精确定位及区域分离;
步骤五、利用步骤二得到的分割后的目标实例边界和步骤三得到的各目标区域空间位置关系,结合步骤四得到的目标边界的精确定位及区域分离,对于各目标区域,通过矩阵—向量相关性分析,将不同区域的向量表达映射到一个共同语义子空间,即KNN稀疏图且保持不同区域数据之间的关联度,实现层次化建模。
2.根据权利要求1所述的方法,其特征是,所述的步骤一具体包括:
步骤1.1、特征提取:为了更全面地描述图像块区域,在HOG特征的基础上加上了周围空间信息,增强其上下文描述性能,该特征称为空间金字塔HOG特征;
步骤1.2、编码:根据图像的特征描述子训练出特征字典,然后用该字典进行编码,将图像转换为码字图;
步骤1.3、模型学习和推断:在训练阶段,根据拓展的二维隐马尔可夫模型的拓扑图进行模型参数的学习;在训练后的测试阶段,根据码字图和二维隐马尔可夫模型的模型参数推断所述图像的目标信息,从而获取其显著性信息。
3.根据权利要求2所述的方法,其特征是,所述的特征字典,采用k-means聚类方式来提取中心描述子,通过选取k个类的中心向量μt,然后对每一个特征向量x(l),求其对应属于的类:其中:c(l)表示特征向量x(l)的类别,该式表明,离特征向量最近的类别作为该特征向量的类别,然后根据同一类下的所有特征向量来更新类中心:其中:n表示特征向量的个数,所得的k个中心向量就是特征字典D=Rk×d,d表示SP-HOG特征向量的维度。
4.根据权利要求2所述的方法,其特征是,所述的模型参数为:λ={Π,A,B},其中:状态转移概率矩阵为A={aij},aij表示状态si转移到状态sj的概率且aij≥0;发射矩阵为B={bki},bki=b(oi|sk)表示状态sk表现为oi的概率;初始状态Π={πk},表示每个状态sk在初始节点中出现的概率,得到模型参数后为求取一个最可能的隐藏状态序列,即满足:
5.根据权利要求2所述的方法,其特征是,所述的拓扑图,即二维图像拓扑结构的2D-Viterbi算法定义的概率推断表达式为:其中:表示图像块Si,j的邻域,观测变量为O={Oij,i=1,2,...,m;j=1,2,...,n},m表示码字图的行数,n表示列数,与观测变量相对应的隐藏状态变量为S={Sij,i=1,2,...,m;j=1,2,...,n},Sij∈{s0,s1}。这就是第一步的概率推断过程,即根据概率寻找下一步概率最大路径。第二步回溯是根据概率最大路径来判定每个图像块区域的分类情况,即确定其状态;
所述的拓扑图,采用基于最大概率最优路径的方法:其中:sk={s0,s1},表示反向的邻域,并以状态转移概率最大的状态作为最终的取值,经过第二步的回溯过程后,确定了各个图像块Si,j分别隶属于哪一个特征向量类别,从而得到所述图像的显著性信息,即概率最大图像块的区域。由此,可以进行显著目标要素区域的合并,实现初始ROI提取。
6.根据权利要求1所述的方法,其特征是,所述的步骤2具体包括:
步骤2.1、对区域内所有物体进行描述,即每个像素分配语义标签和实例id,相同标签和相同id的像素属于相同物体;
步骤2.2、结合语义分割,即为每个像素分配一个类标签和实例分割,即检测和分割每个目标实例两种独立的方式,采用基于FCN和RCNN的多重递归模型,依据全景质量评价标准进行实例匹配,将二者的结果进行合并从而获得全景分割结果。
7.根据权利要求6所述的方法,其特征是,所述的全景质量评价标准(PQ)PQ=∑(p,g)∈tpIoU(p,g)/(|TP|+1/2|FP|+1/2|FN|),其中:p为预测分割,g为事实分割GT(GroundTruth),∑(p,g)∈tpIoU(p,g)为匹配所有分割的平均IoU;1/2|FP|+1/2|FN|为惩罚没有匹配的实例。
8.根据权利要求2所述的方法,其特征是,所述的全景质量评价标准,采用分割质量和检测质量的乘积PQ=SQ×DQ得到,其中:SQ=∑(p,g)∈tpIoU(p,g)/|TP|,DQ=|TP|/(|TP|+1/2|FP|+1/2|FN|)SQ是匹配所有对象的平均IoU。
9.根据权利要求2所述的方法,其特征是,所述的步骤3具体包括:
步骤3.1、计算图像所对应的相机的位置信息,从一幅图像中选择要测量长度的端点作为兴趣点;
步骤3.2、局部自相似性的使用:在图像序列或者图像集的其它图像中的极线上寻找兴趣点的匹配点进行重建;
步骤3.3、根据图像中标定参照物的实际长度,依据多视几何单应矩阵,获得兴趣点的世界坐标。计算兴趣点间的距离,就得到了目标距离、长度,实现空间感知。
10.根据权利要求9所述的方法,其特征是,所述的匹配点,通过使用归一化互相关算法对LSS描述算子进行匹配对比得到,LSS描述算子的归一化互相关匹配结果 其中:q1和q2分别为在参考图像与搜索图像中的像素点,Sq1(k)与Sq2(k)分别为q1与q2位置提取的LSS描述算子,Sq1与Sq2为LSS描述算子向量的均值,N为LSS描述算子的维度。
11.根据权利要求9所述的方法,其特征是,所述的重建,基于局部自相似差异函数实现,对于点p局部自相似差异函数其中:t(p,I1,I2)为对在I1、I2图像中的点对的局部自相似差异,V(p)为点p可见的一个图像集或者图像序列,参考图像R(p)为V(p)中的一幅图像;当局部自相似差异值小,则说明点p在图像集中的投影区域具有较强的一致性。候选三维空间点的位置被固定在从光心与兴趣点的连线上,因此便能保证在优化迭代的过程中,产生的三维点的投影一直在兴趣点的位置。
12.根据权利要求1所述的方法,其特征是,所述的步骤4具体包括:
步骤4.1、采用独立分量分析滤波器系数概率作显著性评估:从大量同类场景中提取出该类场景的图像块作为代表,然后利用ICA得到该类场景的图像块特征,根据得到的该类场景的滤波器系数进行分布图分析可以得到近似广义高斯分布密度的图像,对该图像进行拟合,得到相关的区域热度图;
步骤4.2、根据滤波器各个系数的概率分布密度大小来判断该图像块区域的显著性,即模型预测显著图,概率密度最大的目标作为关键要素,利用联合概率大小推理出其共生的目标类,产生多目标相应的关联度量,实现场景要素的解析;
步骤4.3、层次化建模。对于各目标区域,通过矩阵—向量相关性分析,将不同区域的向量表达映射到一个共同语义子空间,即稀疏图中且保持不同区域数据之间的关联度,在不同区域对应的特征向量的基础上,得出区域之间的距离矩阵,根据区域之间的距离关系建立KNN稀疏图,利用整个输入的数据X=X1∪Xn构建稀疏图g建立场景感知的层次化模型。
13.根据权利要求12所述的方法,其特征是,所述的真实GT分割显著图为:其中:为第i个要素的边界序列,为边界点的空间坐标,Nsubj为要素的个数;
利用Pearson相关系数作为衡量模型预测显著结果图与真实显著图之间的相关性,Pearson相关系数其中:H(x)为真实显著图,P(x)为模型生成的显著图,μHP分别为显著图H(x),P(x)各自的平均显著性值,σHP分别为两类显著图的标准差,Cov()为两类显著图的协方差。
14.根据权利要求12所述的方法,其特征是,所述的KNN稀疏图g=(X,E,W),其中:X={Xi}是顶点集,每个样本数据点Xi都被看作一个顶点,E={eij}是边集,矩阵W={Wij}是g对应的N×N的邻接矩阵,Wij是从顶点i、j之间的关系得到的边eij对应的权值,i,j=1,…,n,Wij∈[0,1],Wii=1,权值较大值表明两节点有更高的相关度。
15.根据权利要求14所述的方法,其特征是,所述的相关度Wij=exp(-d(i,j)/τ),其中:d(i,j)表示最短距离,调节参数τ>0,对于各区域特征向量为Ds=(f,r,c,l),其中:f为数据的特征子,r为区域大小,c为邻域数,l为空间位置。
16.一种实现上述任一权利要求所述方法的系统,其特征在于,包括:ROI提取模块、全景区域分割模块、空间信息获取模块以及多层次建模模块,其中:ROI提取模块与目标实例分割相连并传输目标显著区域信息,全景区域分割模块与兴趣点3D重建相连并传输区域边界信息,空间信息获取模块与语义子空间模型相连并传输区域位置相关性信息,多层次建模模块输出各区域的空间语义及关联度信息。
CN201810498703.XA 2018-05-23 2018-05-23 基于全景区域场景感知的组合语义层次连接模型的实现方法及系统 Active CN110533048B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810498703.XA CN110533048B (zh) 2018-05-23 2018-05-23 基于全景区域场景感知的组合语义层次连接模型的实现方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810498703.XA CN110533048B (zh) 2018-05-23 2018-05-23 基于全景区域场景感知的组合语义层次连接模型的实现方法及系统

Publications (2)

Publication Number Publication Date
CN110533048A true CN110533048A (zh) 2019-12-03
CN110533048B CN110533048B (zh) 2023-08-04

Family

ID=68656379

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810498703.XA Active CN110533048B (zh) 2018-05-23 2018-05-23 基于全景区域场景感知的组合语义层次连接模型的实现方法及系统

Country Status (1)

Country Link
CN (1) CN110533048B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110930419A (zh) * 2020-02-13 2020-03-27 北京海天瑞声科技股份有限公司 图像分割方法、装置、电子设备及计算机存储介质
CN111105459A (zh) * 2019-12-24 2020-05-05 广州视源电子科技股份有限公司 描述子地图生成方法、定位方法、装置、设备和存储介质
CN111178300A (zh) * 2019-12-31 2020-05-19 北京城市网邻信息技术有限公司 目标检测方法、装置、设备、介质
CN111242954A (zh) * 2020-01-20 2020-06-05 浙江大学 一种带有双向连接和遮挡处理的全景分割方法
CN112257649A (zh) * 2020-11-03 2021-01-22 深圳创新奇智科技有限公司 一种物品识别方法、模型训练方法、装置及电子设备
CN112489060A (zh) * 2020-12-07 2021-03-12 北京医准智能科技有限公司 一种用于肺炎病灶分割的系统及方法
CN113139549A (zh) * 2021-03-25 2021-07-20 北京化工大学 一种基于多任务学习的参数自适应全景分割方法
CN113470048A (zh) * 2021-07-06 2021-10-01 北京深睿博联科技有限责任公司 场景分割方法、装置、设备及计算机可读存储介质
CN113470095A (zh) * 2021-09-03 2021-10-01 贝壳技术有限公司 室内场景重建模型的处理方法和装置
CN115065841A (zh) * 2022-06-25 2022-09-16 同济大学 基于多层次内容感知边界检测的视频处理方法及存储介质
CN115578564A (zh) * 2022-10-25 2023-01-06 北京医准智能科技有限公司 实例分割模型的训练方法、装置、电子设备及存储介质
CN117593527A (zh) * 2024-01-18 2024-02-23 厦门大学 一种基于链式感知的指向性3d实例分割方法
CN117623735A (zh) * 2023-12-01 2024-03-01 广东雅诚德实业有限公司 高强度抗污日用陶瓷的生产方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521617A (zh) * 2011-12-26 2012-06-27 西北工业大学 一种利用稀疏基的协同显著性检测方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521617A (zh) * 2011-12-26 2012-06-27 西北工业大学 一种利用稀疏基的协同显著性检测方法

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
AIHGF: "论文阅读理解 - Panoptic Segmentation 全景分割", 《CSDN》 *
BRUCE等: "Saliency Based on information Maximization", 《PROCEEDINGS OF THE 18TH INTERNATIONAL CONFERENCE ON NEURAL INFORMATION PROCESSING SYSTEMS》 *
万卫兵: "Two-dimensional hidden semantic information model for target saliency detection and eyetracking identification", 《JOURNAL OF ELECTRONIC IMAGING》 *
万卫兵等: "Local self-similarity descriptor for point-of-interest reconstruction of real-world scenes", 《MEASUREMENT SCIENCE AND TECHNOLOGY》 *
王君言等: "基于DL1图和KNN图叠加图的高光谱图像半监督分类算法", 《中国科学:信息科学》 *
甘海明等: "基于深度学习的龙眼叶片叶绿素含量预测的高光谱反演模型", 《华南农业大学学报》 *
胡风明等: "基于Gabor滤波器和ICA技术的SAR目标识别算法", 《现代雷达》 *
郭玉堂等: "基于连续预测的半监督学习图像语义标注", 《计算机工程与科学》 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111105459B (zh) * 2019-12-24 2023-10-20 广州视源电子科技股份有限公司 描述子地图生成方法、定位方法、装置、设备和存储介质
CN111105459A (zh) * 2019-12-24 2020-05-05 广州视源电子科技股份有限公司 描述子地图生成方法、定位方法、装置、设备和存储介质
CN111178300A (zh) * 2019-12-31 2020-05-19 北京城市网邻信息技术有限公司 目标检测方法、装置、设备、介质
CN111242954A (zh) * 2020-01-20 2020-06-05 浙江大学 一种带有双向连接和遮挡处理的全景分割方法
CN111242954B (zh) * 2020-01-20 2022-05-13 浙江大学 一种带有双向连接和遮挡处理的全景分割方法
CN110930419A (zh) * 2020-02-13 2020-03-27 北京海天瑞声科技股份有限公司 图像分割方法、装置、电子设备及计算机存储介质
CN112257649A (zh) * 2020-11-03 2021-01-22 深圳创新奇智科技有限公司 一种物品识别方法、模型训练方法、装置及电子设备
CN112489060A (zh) * 2020-12-07 2021-03-12 北京医准智能科技有限公司 一种用于肺炎病灶分割的系统及方法
CN113139549A (zh) * 2021-03-25 2021-07-20 北京化工大学 一种基于多任务学习的参数自适应全景分割方法
CN113139549B (zh) * 2021-03-25 2024-03-15 北京化工大学 一种基于多任务学习的参数自适应全景分割方法
CN113470048A (zh) * 2021-07-06 2021-10-01 北京深睿博联科技有限责任公司 场景分割方法、装置、设备及计算机可读存储介质
CN113470095A (zh) * 2021-09-03 2021-10-01 贝壳技术有限公司 室内场景重建模型的处理方法和装置
CN113470095B (zh) * 2021-09-03 2021-11-16 贝壳技术有限公司 室内场景重建模型的处理方法和装置
CN115065841A (zh) * 2022-06-25 2022-09-16 同济大学 基于多层次内容感知边界检测的视频处理方法及存储介质
CN115578564A (zh) * 2022-10-25 2023-01-06 北京医准智能科技有限公司 实例分割模型的训练方法、装置、电子设备及存储介质
CN117623735A (zh) * 2023-12-01 2024-03-01 广东雅诚德实业有限公司 高强度抗污日用陶瓷的生产方法
CN117623735B (zh) * 2023-12-01 2024-05-14 广东雅诚德实业有限公司 高强度抗污日用陶瓷的生产方法
CN117593527A (zh) * 2024-01-18 2024-02-23 厦门大学 一种基于链式感知的指向性3d实例分割方法
CN117593527B (zh) * 2024-01-18 2024-05-24 厦门大学 一种基于链式感知的指向性3d实例分割方法

Also Published As

Publication number Publication date
CN110533048B (zh) 2023-08-04

Similar Documents

Publication Publication Date Title
CN110533048A (zh) 基于全景区域场景感知的组合语义层次连接模型的实现方法及系统
Mukhoti et al. Evaluating bayesian deep learning methods for semantic segmentation
Häne et al. Dense semantic 3d reconstruction
CN111310659B (zh) 基于增进式图卷积神经网络的人体动作识别方法
CN106909938B (zh) 基于深度学习网络的视角无关性行为识别方法
Zhang et al. Efficient inductive vision transformer for oriented object detection in remote sensing imagery
CN109034035A (zh) 基于显著性检测和特征融合的行人重识别方法
CN105574545B (zh) 街道环境图像多视角语义切割方法及装置
Su et al. DLA-Net: Learning dual local attention features for semantic segmentation of large-scale building facade point clouds
Zhai et al. An improved faster R-CNN pedestrian detection algorithm based on feature fusion and context analysis
Chen et al. A local tangent plane distance-based approach to 3D point cloud segmentation via clustering
Li et al. An aerial image segmentation approach based on enhanced multi-scale convolutional neural network
Zhang et al. Large-scale point cloud contour extraction via 3D guided multi-conditional generative adversarial network
CN114495266A (zh) 非站立姿态检测方法、装置、计算机设备及存储介质
Gao et al. Road extraction using a dual attention dilated-linknet based on satellite images and floating vehicle trajectory data
CN111738164A (zh) 一种基于深度学习的行人检测方法
Wang et al. Semantic annotation for complex video street views based on 2D–3D multi-feature fusion and aggregated boosting decision forests
Xue et al. Weakly supervised point cloud segmentation via deep morphological semantic information embedding
Liu et al. Social graph transformer networks for pedestrian trajectory prediction in complex social scenarios
Gao et al. Occluded person re-identification based on feature fusion and sparse reconstruction
Zhang et al. Exploring Semantic Information Extraction from Different Data Forms in 3D Point Cloud Semantic Segmentation
CN116662468A (zh) 基于地理对象空间模式特征的城市功能区识别方法及系统
Li A crowd density detection algorithm for tourist attractions based on monitoring video dynamic information analysis
Tang et al. High-Definition Maps Construction Based on Visual Sensor: A Comprehensive Survey
CN114973305B (zh) 一种针对拥挤人群的精确人体解析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant