CN117689876A - 一种鸟类视觉启发的复杂背景下运动目标显著性检测方法 - Google Patents

一种鸟类视觉启发的复杂背景下运动目标显著性检测方法 Download PDF

Info

Publication number
CN117689876A
CN117689876A CN202311733090.0A CN202311733090A CN117689876A CN 117689876 A CN117689876 A CN 117689876A CN 202311733090 A CN202311733090 A CN 202311733090A CN 117689876 A CN117689876 A CN 117689876A
Authority
CN
China
Prior art keywords
saliency
representing
super
sup
pixel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311733090.0A
Other languages
English (en)
Inventor
牛晓可
方太禾
王治忠
张晋雄
刘锐斌
杨业冬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou University
Original Assignee
Zhengzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou University filed Critical Zhengzhou University
Priority to CN202311733090.0A priority Critical patent/CN117689876A/zh
Publication of CN117689876A publication Critical patent/CN117689876A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种鸟类视觉启发的复杂背景下运动目标显著性检测方法,包括以下步骤:A:计算每个超像素的全局显著度特征和局部显著度特征,使用贝叶斯框架进行特征融合获得最终的空间显著度;B:使用光流场特征得到初始时间显著度;然后使用光流场特征、梯度特征和初始时间显著度得到原始时间显著度;再计对原始时间显著度进行修正和传播更新;最后使用能量累积得到最终时间显著度;C:分别计算空间显著度的似然熵和时间显著性度的似然熵,并根据显著图融合模型获得最终的融合显著图。本发明能够基于鸟类在运动目标检测上的神经机制,准确地实现复杂背景下运动目标显著性检测。

Description

一种鸟类视觉启发的复杂背景下运动目标显著性检测方法
技术领域
本发明涉及计算机视觉领域,尤其涉及一种鸟类视觉启发的复杂背景下运动目标显著性检测方法。
背景技术
显著目标检测是指识别场景中能引起注意的显著区域,并将检测的结果用显著图来表示,显著图中的像素值代表当前位置属于显著目标的概率。显著目标检测作为计算机视觉任务中的预处理部分,在图像分割、目标检测、目标识别、前景标注、缩略图创建、图像压缩、视觉扫描路径预测和交通安全等领域有着广泛的应用。近年来,许多针对运动目标的显著性检测方法被提出,这些方法在一些复杂场景上存在局限性。
运动目标显著性检测任务包括空间显著性检测、时间显著性检测和时空显著性融合三个环节。运动目标显著性检测方法可以分为自底向上和自顶向下的两种方法,自顶向下的方法是任务驱动的,属于有监督学习,而自底向上的方法是数据驱动的,通常计算前景和背景的对比度得出显著度,属于无监督算法。针对现有无监督算法模型,对于空间显著性检测,Yang通过凸包中心的先验概率计算显著图,但它依赖于凸包的位置,若估计不准确,则无法有效检测;Xie提出了基于贝叶斯推理的方法,将多尺度的特征进行有效的结合,得到更精准概率推理结果;另一些方法更加注重边界的重要性,认为图像的边界一般属于背景区域,但当显著目标出现在图像边界时,这种基于背景边界假设的方法并不可靠;Peng提出了基于拓扑特征的方法,这种方法受到拓扑感知理论的启发。相对空间显著性检测,基于视频帧的时间显著性检测则较为复杂,Liu等人提出了基于运动信息传播的算法,考虑了帧间的相关性信息进行时序传播,但在复杂场景下性能下降;Guo提出了新的主运动向量用来定义显著度,从而改善原始的时间显著图,提升了运算速度;Wang利用测地线距离的方法定义显著度,更多的关注空间和时间边缘特征,用来视频分割;Chen等人利用基于马尔科夫随机场的显著性滤波方法,保证目标的时空一致性,但这种方法相对依赖于KNN滤波器的参数设置;Fang等人利用自适应熵的不确定度来融合时空信息,将时空信息合理的融合。针对有监督算法模型,有一些使用深度学习的方法,取得了非常好的效果,但它们需要大量的已标记数据集,占用计算资源很大,同时计算复杂,最重要的是深度学习模型缺乏可解释性。我们的模型主要使用和参考了自底向上的无监督模型框架,无需大量标记数据集。
上述方法各有优势,但在面对复杂背景时无法很好的实现显著性检测的任务。这些方法的空间显著图仅使用颜色、纹理和空间位置等特征进行对比度计算,面对复杂颜色场景,会出现显著区域分布不均匀和背景噪声干扰大的情况;在时间显著图的计算中,一些方法将显著信息进行传播,但它们的原始时间显著图中的显著目标出现缺失,这样会将错误的信息进行传播;时空融合机制不合理,一些方法只是简单将时空信息进行相加或者相乘,这种方法面对复杂背景会失效。
发明内容
本发明的目的是提供一种鸟类视觉启发的复杂背景下运动目标显著性检测方法,能够基于鸟类在运动目标检测上的神经机制,准确地实现复杂背景下运动目标显著性检测。
本发明采用下述技术方案:
一种鸟类视觉启发的复杂背景下运动目标显著性检测方法,依次包括以下步骤:
A:对视频序列中每段视频的每一帧进行超像素分割,然后计算每个超像素的全局显著度特征和局部显著度特征;最后基于得到的全局显著度特征和局部显著度特征,使用贝叶斯框架进行特征融合,获得最终的空间显著度;
其中,全局显著度特征包括颜色坐标显著度特征和拓扑显著度特征;
B:对视频序列中每段视频的每一帧分别进行平滑处理,并通过光流场分析相邻帧的运动变化,使用光流场特征得到初始时间显著度;然后使用光流场特征计算得出梯度特征,使用梯度特征和初始时间显著度得到原始时间显著度;再计算基于运动方向特征的修正矩阵,对原始时间显著度进行修正;将修正后的时间显著度沿时间轴进行信息传播更新;最后,使用能量累积将修正并传播后的时间显著度进行信息的累积,得到最终时间显著度;
C:利用步骤A中获得的空间显著度和步骤B中获得的最终时间显著度,分别计算空间显著度的似然熵和时间显著性度的似然熵,并根据显著图融合模型获得最终的融合显著图。
所述的步骤A包括以下具体步骤:
A1:对视频序列中每段视频的每一帧进行超像素分割,得到每帧图像的超像素的集合{Supi},i=1,...,N,N为超像素的总个数;
A2:计算每个超像素Supi在CIELAB颜色空间中的颜色均值ci和空间坐标均值pi
A3:计算每个超像素Supi的全局显著度特征,全局显著度特征包括基于颜色距离和坐标距离的颜色坐标显著度特征Sco(i)和基于拓扑特征的拓扑显著度特征Sots(i);
A4:获取每个超像素Supi的局部显著度特征Sloc(i);
A5:基于得到的全局显著度特征和局部显著度特征,利用贝叶斯框架进行特征融合,获得最终的空间显著度
所述的步骤A3中,颜色坐标显著度特征Sco(i)为:
其中,下角标co表示颜色;i和j分别表示第i个和第j个超像素;ci和cj分别表示第i个和第j个超像素的CIELAB颜色均值;pi和pj分别表示第i个和第j个超像素的空间坐标均值;σp为空间权重参数;
拓扑显著度特征Sots(i)为:
Sots(i)=f(Stc·Sbias);
其中,下角标ots表示仅使用拓扑复杂度;Stc表示拓扑复杂度,Sbias表示中心偏置,函数f表示分式指数函数;
所述的步骤A4中,局部显著度特征Sloc(i)为:
其中,下角标loc为local的首字母缩写,U表示超像素Supi的邻接矩阵中与超像素Supi相邻的其余超像素的集合。
所述的步骤A5包括以下具体步骤:
A51:对全局显著度特征中的颜色坐标显著度和拓扑显著度进行融合,并作为贝叶斯模型的先验概率:Sglo(i)=Sco(i)·Sots(i);
其中,Sglo(i)表示空间全局显著度特征,glo为global的缩写;Sco(i)表示颜色坐标显著度,Sots(i)表示拓扑显著度;
A52:根据凸包中心坐标和凸包边界坐标,创建一个三角部分的掩膜并作为观测前景区域U0
A53:利用局部显著度特征Sloc(i),计算前景目标和背景目标的观测似然;
其中,p(Sloc(i)|S1)表示前景目标的观测似然,p(Sloc(i)|S0)表示背景目标的观测似然;S1表示前景目标中的超像素,S0表示背景目标中的超像素,表示观测前景区域U0内部属于前景目标的超像素个数,表示观测前景区域U0内部属于背景目标的超像素个数;下标S0表示属于背景目标,下标S1表示属于前景目标;Sloc(i)为每个超像素Supi的局部显著度特征;代表了前景目标中所有超像素与前景目标中第i个超像素具有相似特征的超像素个数,代表了背景目标中所有超像素与背景目标第i个超像素具有相似特征的超像素个数;
A54:利用得到的先验概率以及前景目标和背景目标的观测似然,根据贝叶斯公式计算得到后验概率p(i),作为空间显著度
所述的步骤B包括以下具体步骤:
B1:对视频序列中每段视频的每一帧分别进行平滑处理,对经平滑处理的视频帧Γ={F1,...,Ft,...},通过点轨迹跟踪和谱聚类法计算相邻两个视频帧(Ft,Ft+1)之间的光流场φt;Ft表示第t个视频帧;
B2:计算第t个视频帧Ft的第i个超像素Supi的初始时间显著度
B3:基于得到光流场φt求取超像素的梯度特征并利用初始时间显著度计算得到每一个超像素的原始时间显著度
B4:基于得到光流场φt求取超像素的运动方向θt(i),并结合超像素Supi与任意一个相邻元素的权重Wi Adj(Z),以及超像素Supi的原始时间显著度获取所有超像素的整体修正矩阵SALxMb和最终修正后的矩阵SALMb';
B5:基于信息传播理论,将t时刻的超像素Supi的修正后的时间显著度传播更新至t+1处的超像素Supt+1(j)的修正后的时间显著度得到t+1处的超像素Supt+1(j)的修正并传播后的时间显著度
B6:基于能量累积理论,使用步骤B5中修正并传播后的显著度利用能量累积模型进行能量累积,最终得到能量累积过后的显著图
所述的步骤B2中,初始时间显著度为:
其中,上角标M表示运动,t表示第t个视频帧,mφt(i)和mφt(j)分别表示第i个和第j个超像素的光流均值,Num和Num(i)分别表示第t个视频帧Ft的总像素个数和第i个超像素的像素个数;
步骤B3中,原始时间显著度为:
其中,梯度特征中的上标b表示边界;
所述的步骤B4中,所有超像素的整体修正矩阵SALxMb和最终修正后的矩阵SALMb'为:
SALMb'=SALMb+SALxMb
其中,SALxMb表示整体修正矩阵,x表示修正,SALMb表示原始时间显著度存储矩阵,θt(i)表示运动角度,vy和vx分别表示光流向量的y和x分量,上标Adj表示邻接,NZ表示相邻元素的最大个数,表示每个超像素Supi所有相邻元素的运动方向。
所述的B5中,修正并传播后的时间显著度为:
其中,下标t+1表示第t+1帧;α表示传播强度,ψ(Supt(i),Supt+1(j))表示超像素Supt(i)与超像素Supt+1(j)的相关程度;ρ(Supt(i),Supt+1(j))表示Supt(i)经过光流mφt(i)的作用下传播至下一帧Ft+1后,该传播后的超像素与t+1处的超像素Supt+1(j)相交的比例;dlab(Supt(i),Supt+1(j))表示超像素Supt(i)与超像素Supt+1(j)之间的lab颜色的欧式距离;dwass(Supt(i),Supt+1(j)表示超像素Supt(i)与超像素Supt+1(j)之间的Wasserstein距离。
所述的步骤B6中,能量累积过后的显著图为:
其中,上MbCh则表示加入了能量累积作用;下标t表示第t帧;β为能量累积强度参数,表示修正并传播后的显著度能达到的最大值,设置为1,表示修正并传播后的显著度能达到的最小值,设置为0,if"motion is detected in t"表示运动发生在第t帧。
所述的融合显著图SalFt为:
本发明使用超像素分割来减少计算负担,利用超像素的颜色、坐标和新型的拓扑特征获得全局显著度;同时还利用邻接矩阵获得局部显著度;并在贝叶斯框架下有效融合全局显著度和局部显著度,能够充分利用所有特征,获得具有鲁棒性的推理结果。
本发明使用光流场特征得到初始时间显著度;然后使用光流场特征计算得出梯度特征,通过梯度特征和初始时间显著度得到原始时间显著度;本发明基于鸟类离顶盖通路中的视顶盖(OT)的外周调制机制,利用基于运动方向特征的修正矩阵对原始时间显著度进行修正,使得显著度分布更加均匀;本发明还将修正后的时间显著度沿时间轴进行信息传播更新,并基于鸟类视顶盖(OT)的能量累积机制,使用能量累积将修正并传播后的时间显著度进行信息的累积,得到最终时间显著度,使得最终的显著度更加精准。最后,本发明采用基于自适应熵的不确定加权融合方式,能有效的将空间线索和运动线索进行充分的融合,避免出现直接将时间线索和空间线索进行加和或者相乘,导致无法很好的融合空间线索和运动线索。
附图说明
图1为本发明的流程示意图。
具体实施方式
以下结合附图和实施例对本发明作以详细的描述:
A:对视频序列中每段视频的每一帧进行超像素分割,然后计算每个超像素的全局显著度特征和局部显著度特征;最后基于得到的全局显著度特征和局部显著度特征,使用贝叶斯框架进行特征融合,获得最终的空间显著度;
其中,全局显著度特征包括颜色坐标显著度特征和拓扑显著度特征;
本发明中,所述的步骤A包括以下具体步骤:
A1:对视频序列中每段视频的每一帧进行超像素分割,得到每帧图像的超像素的集合{Supi},i=1,...,N,N为超像素的总个数;
其中,使用简单线性迭代聚类进行超像素集合{Supi}的计算属于公知技术,在此不再赘述。
A2:计算每个超像素Supi在CIELAB颜色空间中的颜色均值ci和空间坐标均值pi
A3:计算每个超像素Supi的全局显著度特征,全局显著度特征包括基于颜色距离和坐标距离的颜色坐标显著度特征和基于拓扑特征的拓扑显著度特征;
本发明中,利用任意超像素Supi和其他所有的超像素Supj,j≠i的对比度关系来定义颜色坐标显著度,颜色坐标显著度特征Sco(i)的计算方式如下:
其中,下角标co为color的字母缩写,含义为颜色;i和j分别表示第i个和第j个超像素;ci和cj分别表示第i个和第j个超像素的CIELAB颜色均值;pi和pj分别表示第i个和第j个超像素的空间坐标均值;σp为空间权重参数,控制空间权重的强度;
现有技术中,大多利用基于凸包中心坐标的凸包中心对比度;而本发明中,则通过凸包中心坐标来提取凸包区域,即通过凸包中心坐标和凸包边界坐标来绘制一个掩膜;然后利用拓扑特征这一极其有效的显著性特征,基于拓扑复杂度的显著性定义方法,求解拓扑显著度特征Sots(i);
由于拓扑复杂度将空间中物体之间的结构关系定义为单元结构、嵌套结构、并行结构和复合结构,因而复杂度约高的区域,其显著度越高,更能体现拓扑复杂度的有效性,因而本发明采用拓扑显著度特征Sots(i)作为全局显著度特征的有效补充。
拓扑显著度特征Sots(i)的计算方式如下:
Sots(i)=f(Stc·Sbias);
其中,下角标ots为only topo-complexity saliency的缩写,表示仅使用拓扑复杂度的含义;Stc表示拓扑复杂度,Sbias表示中心偏置;函数f表示分式指数函数;
A4:获取每个超像素Supi的局部显著度特征Sloc(i);
其中,下角标loc为local的首字母缩写,U表示超像素Supi的邻接矩阵中与超像素Supi相邻的其余超像素的集合;
步骤A3中求取的颜色坐标显著度和拓扑显著度均为全局概念的显著度,而局部特征对显著目标的检测也尤为重要。在任意超像素Supi的邻域范围U内,若能够将局部突出的区域提取出来,即可重点突出显著区域和背景区域的差异性,从而在局部角度提取显著区域。因此,本发明中,利用CIELAB颜色空间中的颜色均值ci,对于任意超像素Supi,基于求解得到的邻接矩阵,继续求解超像素Supi的局部显著度特征Sloc(i)。
A5:基于得到的全局显著度特征和局部显著度特征,利用贝叶斯框架进行特征融合,获得最终的空间显著度
现有的特征融合过程中,大多使用简单的相乘或者相加的融合操作;但现有的融合方法无法充分有效的利用特征,造成融合结果效果过于极端,导致信息失效;而本发明中,则采用贝叶斯框架实现特征融合,能够有效利用所有特征,获得具有鲁棒性的推理结果;
由于贝叶斯模型是一种基于先验概率和似然的概率推理模型,需要先验和似然进行求解,因此在本发明中,一方面使用超像素作为概率推理的基本元素,可以极大地减少计算负担;另一方面,使用全局显著度特征进行融合并作为贝叶斯模型的先验:
所述的步骤A5包括以下具体步骤:
A51:对全局显著度特征中的颜色坐标显著度和拓扑显著度进行融合,并作为贝叶斯模型的先验概率:
Sglo(i)=Sco(i)·Sots(i);
其中,Sglo(i)表示空间全局显著度特征,glo为global的缩写;Sco(i)表示颜色坐标显著度,Sots(i)表示拓扑显著度;
A52:根据凸包中心坐标和凸包边界坐标,创建一个三角部分的掩膜并作为观测前景区域U0
现有技术中,可求解出基于增强Harris点算子的凸包区域范围,凸包区域范围中包含凸包中心坐标和凸包边界坐标,因此我们根据上述中心点和边界点的坐标,创建一个三角部分的掩膜Mask,并作为观测前景区域U0,本发明中前景目标和背景目标均是在此观测前景区域内部;观测前景区域U0作为显著目标的初始区域,并用于后续真实区域的计算。
A53:利用局部显著度特征Sloc(i),计算前景目标和背景目标的观测似然;
其中,p(Sloc(i)|S1)表示前景目标的观测似然,p(Sloc(i)|S0)表示背景目标的观测似然;S1表示前景目标中的超像素,S0表示背景目标中的超像素,表示观测前景区域U0中的超像素;p(S1)和p(S0)表示超像素属于前景目标和背景目标的先验概率;表示前景目标和背景目标分别与观测前景区域相交的超像素;p(v)d(v)代表了积分项;
如果位于相同交集区域的超像素的概率分布是均匀的,则上述积分公式可以简单的理解为求和,即统计交集的超像素个数。本发明中可使用表示观测前景区域U0内部属于前景目标的超像素个数,表示观测前景区域U0内部属于背景目标的超像素个数,而代表了前景目标中所有超像素与前景目标中第i个超像素具有相似特征的超像素个数,同理代表了背景目标中所有超像素与背景目标第i个超像素具有相似特征的超像素个数,所以前景目标和背景目标的观测似然可以被简化为如下:
其中,S1表示前景目标中的超像素,S0表示背景目标中的超像素;表示观测前景区域U0内部属于前景目标的超像素个数,表示观测前景区域U0内部属于背景目标的超像素个数;下标S0表示属于背景目标,下标S1表示属于前景目标;Sloc(i)为每个超像素Supi的局部显著度特征;代表了前景目标中所有超像素与前景目标中第i个超像素具有相似特征的超像素个数,代表了背景目标中所有超像素与背景目标第i个超像素具有相似特征的超像素个数;
A54:利用得到的先验概率以及前景目标和背景目标的观测似然,根据贝叶斯公式计算得到后验概率p(i),作为空间显著度
其中,p(i)为后验概率,它等于下标t表示此时为第t帧,上标spa为spatial的缩写;Sglo(i)代表了全局显著度特征,p(Sloc(i)|S1)表示前景目标的观测似然,p(Sloc(i)|S0)表示背景目标的观测似然。
B:对视频序列中每段视频的每一帧分别进行平滑处理,并通过光流场分析相邻帧的运动变化,使用光流场特征得到初始时间显著度;然后使用光流场特征计算得出梯度特征,使用梯度特征和初始时间显著度得到原始时间显著度;再计算基于运动方向特征的修正矩阵,对原始时间显著度进行修正;将修正后的时间显著度沿时间轴进行信息传播更新;最后,使用能量累积将修正并传播后的时间显著度进行信息的累积,得到最终时间显著度;
B1:对视频序列中每段视频的每一帧分别进行平滑处理,对经平滑处理的视频帧Γ={F1,...,Ft,...},通过点轨迹跟踪和谱聚类法计算相邻两个视频帧(Ft,Ft+1)之间的光流场φt;Ft表示第t个视频帧;光流场的计算方法为现有算法,在此不再赘述;
B2:计算第t个视频帧Ft的第i个超像素Supi的初始时间显著度
其中,上角标M为motion的首字母缩写,代表运动的含义;t表示第t个视频帧;mφt(i)和mφt(j)分别表示第i个和第j个超像素的光流均值;Num和Num(i)分别表示第t个视频帧Ft的总像素个数和第i个超像素的像素个数;公式右侧同时也表示除了第i个超像素Supi的全局光流均值;
步骤B2中,本发明仍然使用简单线性迭代聚类计算每一帧的超像素集合{Supi},i=1,...,N,从而计算第t个视频帧的第i个超像素Supi的初始时间显著度使用简单线性迭代聚类进行超像素集合{Supi}的计算属于公知技术,在此不再赘述。
B3:基于得到光流场φt求取超像素的梯度特征并利用初始时间显著度计算得到每一个超像素的原始时间显著度
其中,梯度特征中的上标b代表了边界的意思,意思是指梯度特征存在于运动目标区域的边界;超像素的梯度特征的计算方法属于公知技术,在此不再赘述。
步骤B2中,同时也表示除了第i个超像素Supi的全局光流均值。由于运动目标的运动幅度较大,而背景的运动具有整体性且幅度较小,因此运动目标超像素的光流均值会和全局光流均值产生较大的对比度,可用来描述超像素的显著度。
一方面,由于本发明中通过超像素提取分割每一帧得到很多超像素,若只用对比度这样的特征来描述每一个超像素的显著度并不准确,对比度只是幅度方面的特征;且本发明出于计算效率的考虑计算了每一个超像素的光流均值,但光流均值并不能全面反映超像素显著度的重要性。
另一方面,由于梯度特征代表了运动目标的运动变化率,而运动目标的边界处一般与背景相邻,那么一定会有较大的梯度存在于运动目标和背景边界处。
因此,本发明根据已经获得的全局光流场φt,计算得到基于光流的梯度然后对于每个超像素的边界再根据边界上的所有梯度值,求其均值得到每一个超像素的梯度特征
本发明在原始时间显著度的公式中使用了指数函数,能够在梯度为0时,保证最终结果不为0,从而将结果顺利的进行传播和更新;
B4:基于得到光流场φt求取超像素的运动方向θt(i),并结合超像素Supi与任意一个相邻元素的权重以及超像素Supi的原始时间显著度获取所有超像素的整体修正矩阵SALxMb和最终修正后的矩阵SALMb';
其中,SALxMb表示整体修正矩阵,上标Mb和上述原始时间显著度中的标志含义一致,表示运动,b来源于梯度特征,表示边界,x表示修正;θt(i)表示运动角度,下标t表示第t帧,vy和vx分别表示光流向量的y和x分量,上标Adj表示邻接,NZ表示相邻元素的最大个数,表示每个超像素Supi所有相邻元素的运动方向;
步骤B3中,求取得到的原始时间显著度是基于图本身的特征,是从全局角度进行考虑;但是在面对复杂场景、光流估计不准确和运动不均匀的情况时,上述方法效果不佳,会出现显著度分布不均匀的情况,因此,本发明中同时考虑有局部特征,以确保显著目标区域分布更加均匀。
根据已有的基于鸟类视觉的电生理实验,我们发现鸟类离顶盖通路中的视顶盖(OT)不仅能够编码感受野内的目标运动,同时会受到感受野外视觉刺激的影响。在定量地对比了不同外周背景对OT神经元运动目标检测的调制作用,发现了外周调制作用会随着目标的运动状态及自身属性而发生动态变化。然而,与运动方向对比相比,亮度对比对神经元的调制作用较弱。对鸟类而言,在面对运动物体时,亮度信息可能比运动信息(如运动方向)的威胁更小。因此本发明中的局部特征采用运动方向特征,可根据每个超像素的光流值mφt(i)计算得到对应的运动方向θt(i);
由于仅使用图本身的全局特征导致了显著区域分布不平衡,本发明中利用局部特征去修正原始时间显著图,以达到显著区域分布更加均匀的效果。但要修正原始时间显著图,则需要具有局部的图连接,因此本发明中使用邻接矩阵来描述这种图模型。在邻接矩阵中,可以清晰的找到每个超像素Supi的相邻元素,再分别求解每个超像素Supi所有相邻元素的运动方向本发明中,将每个超像素Supi的邻接元素定义为Nz为相邻元素的最大个数。
若想通过局部元素进行显著度的扩散,使运动目标的超像素的显著度分布更加均匀,则需要得到每个超像素与它的相邻元素之间存在的权重关系,可以理解为相关程度,而从运动目标的整体性来考虑,属于运动目标的超像素大部分拥有一致的运动方向,这在局部角度更加明显,因此本发明中定义了超像素Supi与它任意一个相邻元素的权重:
上述权重计算公式代表了两个超像素之间运动角度的差值,若差值越小,说明两个超像素可能属于一个整体,因此利用指数函数,使权重变大。
利用上述求取的原始时间显著度和权重Wi Adj(Z),获取所有超像素的整体修正矩阵SALxMb;本发明利用SALMb存储了所有的原始时间显著度,表示原始时间显著度存储矩阵,它的维度为N*1;SALxMb表示整体修正矩阵,维度同样为N*1,
上述修正过程可以理解为,先将每个超像素的所有邻接元素按照对应权重求和,再将所有超像素按照这样的计算关系求和,最终累加为整体修正矩阵SALxMb;而原始时间显著度存储矩阵SALMb和整体修正矩阵SALxMb求和后得到最终修正后的矩阵,所以我们将其修正为SALMb':
SALMb'=SALMb+SALxMb
对于超像素Supi的原始时间显著度我们将其修正为
通过上述修正,对于原始时间显著度,本发明将局部特别显著的区域扩散至邻接区域,有效的解决了分布不均匀的情况。
B5:基于信息传播理论,将t时刻的超像素Supi的修正后的时间显著度传播更新至t+1处的超像素Supt+1(j)的修正后的时间显著度得到t+1处的超像素Supt+1(j)的修正并传播后的时间显著度这里t+1处的j不同于t时刻的i,因为我们将t时刻的超像素Supt(i)和t+1处的超像素Supt+1(j)加以区分,避免出现超像素区域传播后重复导致未能成功传播。
其中,下标t+1表示第t+1帧;上标Mb和上述一致,表示运动含义;α表示传播强度,α=0.5;ψ(Supt(i),Supt+1(j))表示超像素Supt(i)与超像素Supt+1(j)的相关程度;
上述公式中,使用指数函数保证结果非0;ρ(Supt(i),Supt+1(j))表示Supt(i)经过光流mφt(i)的作用下传播至下一帧Ft+1后,该传播后的超像素与t+1处的超像素Supt+1(j)相交的比例,相交比例越大,则相似度越大;dlab(Supt(i),Supt+1(j))表示超像素Supt(i)与超像素Supt+1(j)之间的lab颜色的欧式距离,距离越小,在表观特征上越相似;dwass(Supt(i),Supt+1(j)表示超像素Supt(i)与超像素Supt+1(j)之间的Wasserstein距离,可以度量两个离散分布矩阵的相似程度,并且给出了分布转移的方案,我们使用lab颜色距离的直方图分布作为它的离散分布矩阵输入;
B6:基于能量累积理论,使用步骤B5中修正并传播后的显著度作为利用能量累积模型进行能量累积,最终得到能量累积过后的显著图
其中,上标Mb和上述一致,表示运动含义,MbCh则表示加入了能量累积作用;下标t表示第t帧;β为能量累积强度参数,初步设置为0.5,表示修正并传播后的显著度能达到的最大值,设置为1,表示修正并传播后的显著度能达到的最小值,设置为0,if"motion is detected in t"表示运动发生在第t帧。
本发明采用上述传播方案将时间信息沿时间轴正向传播,虽然上述传播方案有效的将显著信息进行时间方向上的传播,但是会出现传播不均匀的情况,有些显著值大的地方将较大值传播至下一帧,而属于显著目标但显著值偏小的地方,在传播至下一帧后,与显著值大的区域相比,它依然并不突出,即便经过了信息传播,但是仍然出现了分布不均匀。
为解决这个问题,本发明在设计时,发现鸟类离顶盖通路中的视顶盖(OT)在对于同一个神经元在感受野内的中心位置处,其响应与外界刺激是连续运动至该位置还是随机呈现在该位置相关,且这种响应差异与目标运动速度相关,说明该神经现象不仅仅是由神经元自身历史发放影响的,说明OT神经元可能存在对时空信息整和与累计处理的能力。在t时刻发现的运动变化,其能量变化可以描述为:
其中,C被称为充电增加量,如果在像素(x,y)处出现了运动,则会增加电荷直到最大值,若未出现运动,则电荷值会一直下降,D为电荷值减少量。
其中,Ch[x,y,t]表示在像素(x,y)和时刻t处的电荷值,Ch[x,y,t-Δt]表示在像素(x,y)和时刻t-Δt处的电荷值,Chmax为电荷的最大值,设置为255,Chmin为电荷的最小值,设置为0;
本发明中,使用修正并传播后的时间显著度作为能量累积模型的输入,
最终得到能量累积过后的显著图,即最终时间显著度它可以均匀的分布。
C:利用步骤A中获得的空间显著度和步骤B中获得的最终时间显著度分别计算空间显著度的似然熵和时间显著性度的似然熵根据显著图融合模型获得最终的融合显著图SalFt
其中,下标t表示第t帧;上标spa为spatial的缩写,是空间的含义;上标tem为temporal的缩写,是时间的含义;MbCh表示对运动加入了能量累积作用。
现有的时空线索合并时,大多直接将时间线索和空间线索进行加和或者相乘,现有的合并会造成有用信息的损失,无法很好的融合空间线索和运动线索。因此,本发明中采用基于自适应熵的不确定加权融合方式,能有效的将空间线索和运动线索进行充分的融合。
同时,由于不确定性较大的显著值所对应的权重很小,因此本发明中将权重与不确定性作为反比,确定显著图融合模型如下:

Claims (10)

1.一种鸟类视觉启发的复杂背景下运动目标显著性检测方法,其特征在于,依次包括以下步骤:
A:对视频序列中每段视频的每一帧进行超像素分割,然后计算每个超像素的全局显著度特征和局部显著度特征;最后基于得到的全局显著度特征和局部显著度特征,使用贝叶斯框架进行特征融合,获得最终的空间显著度;
其中,全局显著度特征包括颜色坐标显著度特征和拓扑显著度特征;
B:对视频序列中每段视频的每一帧分别进行平滑处理,并通过光流场分析相邻帧的运动变化,使用光流场特征得到初始时间显著度;然后使用光流场特征计算得出梯度特征,使用梯度特征和初始时间显著度得到原始时间显著度;再计算基于运动方向特征的修正矩阵,对原始时间显著度进行修正;将修正后的时间显著度沿时间轴进行信息传播更新;最后,使用能量累积将修正并传播后的时间显著度进行信息的累积,得到最终时间显著度;
C:利用步骤A中获得的空间显著度和步骤B中获得的最终时间显著度,分别计算空间显著度的似然熵和时间显著性度的似然熵,并根据显著图融合模型获得最终的融合显著图。
2.根据权利要求1所述的鸟类视觉启发的复杂背景下运动目标显著性检测方法,其特征在于,所述的步骤A包括以下具体步骤:
A1:对视频序列中每段视频的每一帧进行超像素分割,得到每帧图像的超像素的集合{Supi},i=1,...,N,N为超像素的总个数;
A2:计算每个超像素Supi在CIELAB颜色空间中的颜色均值ci和空间坐标均值pi
A3:计算每个超像素Supi的全局显著度特征,全局显著度特征包括基于颜色距离和坐标距离的颜色坐标显著度特征Sco(i)和基于拓扑特征的拓扑显著度特征Sots(i);
A4:获取每个超像素Supi的局部显著度特征Sloc(i);
A5:基于得到的全局显著度特征和局部显著度特征,利用贝叶斯框架进行特征融合,获得最终的空间显著度
3.根据权利要求1所述的鸟类视觉启发的复杂背景下运动目标显著性检测方法,其特征在于:所述的步骤A3中,颜色坐标显著度特征Sco(i)为:
其中,下角标co表示颜色;i和j分别表示第i个和第j个超像素;ci和cj分别表示第i个和第j个超像素的CIELAB颜色均值;pi和pj分别表示第i个和第j个超像素的空间坐标均值;σp为空间权重参数;
拓扑显著度特征Sots(i)为:
Sots(i)=f(Stc·Sbias);
其中,下角标ots表示仅使用拓扑复杂度;Stc表示拓扑复杂度,Sbias表示中心偏置,函数f表示分式指数函数;
所述的步骤A4中,局部显著度特征Sloc(i)为:
其中,下角标loc为local的首字母缩写,U表示超像素Supi的邻接矩阵中与超像素Supi相邻的其余超像素的集合。
4.根据权利要求3所述的鸟类视觉启发的复杂背景下运动目标显著性检测方法,其特征在于,所述的步骤A5包括以下具体步骤:
A51:对全局显著度特征中的颜色坐标显著度和拓扑显著度进行融合,并作为贝叶斯模型的先验概率:Sglo(i)=Sco(i)·Sots(i);
其中,Sglo(i)表示空间全局显著度特征,glo为global的缩写;Sco(i)表示颜色坐标显著度,Sots(i)表示拓扑显著度;
A52:根据凸包中心坐标和凸包边界坐标,创建一个三角部分的掩膜并作为观测前景区域U0
A53:利用局部显著度特征Sloc(i),计算前景目标和背景目标的观测似然;
其中,p(Sloc(i)|S1)表示前景目标的观测似然,p(Sloc(i)|S0)表示背景目标的观测似然;S1表示前景目标中的超像素,S0表示背景目标中的超像素,表示观测前景区域U0内部属于前景目标的超像素个数,表示观测前景区域U0内部属于背景目标的超像素个数;下标S0表示属于背景目标,下标S1表示属于前景目标;Sloc(i)为每个超像素Supi的局部显著度特征;代表了前景目标中所有超像素与前景目标中第i个超像素具有相似特征的超像素个数,代表了背景目标中所有超像素与背景目标第i个超像素具有相似特征的超像素个数;
A54:利用得到的先验概率以及前景目标和背景目标的观测似然,根据贝叶斯公式计算得到后验概率p(i),作为空间显著度
5.根据权利要求5所述的鸟类视觉启发的复杂背景下运动目标显著性检测方法,其特征在于,所述的步骤B包括以下具体步骤:
B1:对视频序列中每段视频的每一帧分别进行平滑处理,对经平滑处理的视频帧Γ={F1,...,Ft,...},通过点轨迹跟踪和谱聚类法计算相邻两个视频帧(Ft,Ft+1)之间的光流场φt;Ft表示第t个视频帧;
B2:计算第t个视频帧Ft的第i个超像素Supi的初始时间显著度
B3:基于得到光流场φt求取超像素的梯度特征并利用初始时间显著度计算得到每一个超像素的原始时间显著度
B4:基于得到光流场φt求取超像素的运动方向θt(i),并结合超像素Supi与任意一个相邻元素的权重Wi Adj(Z),以及超像素Supi的原始时间显著度获取所有超像素的整体修正矩阵SALxMb和最终修正后的矩阵SALMb';
B5:基于信息传播理论,将t时刻的超像素Supi的修正后的时间显著度传播更新至t+1处的超像素Supt+1(j)的修正后的时间显著度得到t+1处的超像素Supt+1(j)的修正并传播后的时间显著度
B6:基于能量累积理论,使用步骤B5中修正并传播后的显著度利用能量累积模型进行能量累积,最终得到能量累积过后的显著图
6.根据权利要求5所述的鸟类视觉启发的复杂背景下运动目标显著性检测方法,其特征在于,所述的步骤B2中,初始时间显著度为:
其中,上角标M表示运动,t表示第t个视频帧,mφt(i)和mφt(j)分别表示第i个和第j个超像素的光流均值,Num和Num(i)分别表示第t个视频帧Ft的总像素个数和第i个超像素的像素个数;
步骤B3中,原始时间显著度为:
其中,梯度特征中的上标b表示边界。
7.根据权利要求6所述的鸟类视觉启发的复杂背景下运动目标显著性检测方法,其特征在于,所述的步骤B4中,所有超像素的整体修正矩阵SALxMb和最终修正后的矩阵SALMb'为:
SALMb'=SALMb+SALxMb
其中,SALxMb表示整体修正矩阵,x表示修正,SALMb表示原始时间显著度存储矩阵,θt(i)表示运动角度,vy和vx分别表示光流向量的y和x分量,上标Adj表示邻接,NZ表示相邻元素的最大个数,表示每个超像素Supi所有相邻元素的运动方向。
8.根据权利要求7所述的鸟类视觉启发的复杂背景下运动目标显著性检测方法,其特征在于,所述的B5中,修正并传播后的时间显著度为:
其中,下标t+1表示第t+1帧;α表示传播强度,ψ(Supt(i),Supt+1(j))表示超像素Supt(i)与超像素Supt+1(j)的相关程度;ρ(Supt(i),Supt+1(j))表示Supt(i)经过光流mφt(i)的作用下传播至下一帧Ft+1后,该传播后的超像素与t+1处的超像素Supt+1(j)相交的比例;dlab(Supt(i),Supt+1(j))表示超像素Supt(i)与超像素Supt+1(j)之间的lab颜色的欧式距离;dwass(Supt(i),Supt+1(j)表示超像素Supt(i)与超像素Supt+1(j)之间的Wasserstein距离。
9.根据权利要求8所述的鸟类视觉启发的复杂背景下运动目标显著性检测方法,其特征在于,所述的步骤B6中,能量累积过后的显著图为:
其中,上MbCh则表示加入了能量累积作用;下标t表示第t帧;β为能量累积强度参数,表示修正并传播后的显著度能达到的最大值,设置为1,表示修正并传播后的显著度能达到的最小值,设置为0,if"motion is detected in t"表示运动发生在第t帧。
10.根据权利要求9所述的鸟类视觉启发的复杂背景下运动目标显著性检测方法,其特征在于:所述的融合显著图SalFt为:
CN202311733090.0A 2023-12-18 2023-12-18 一种鸟类视觉启发的复杂背景下运动目标显著性检测方法 Pending CN117689876A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311733090.0A CN117689876A (zh) 2023-12-18 2023-12-18 一种鸟类视觉启发的复杂背景下运动目标显著性检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311733090.0A CN117689876A (zh) 2023-12-18 2023-12-18 一种鸟类视觉启发的复杂背景下运动目标显著性检测方法

Publications (1)

Publication Number Publication Date
CN117689876A true CN117689876A (zh) 2024-03-12

Family

ID=90133380

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311733090.0A Pending CN117689876A (zh) 2023-12-18 2023-12-18 一种鸟类视觉启发的复杂背景下运动目标显著性检测方法

Country Status (1)

Country Link
CN (1) CN117689876A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117974634A (zh) * 2024-03-28 2024-05-03 南京邮电大学 一种基于证据深度学习的无锚框表面缺陷可信检测方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117974634A (zh) * 2024-03-28 2024-05-03 南京邮电大学 一种基于证据深度学习的无锚框表面缺陷可信检测方法
CN117974634B (zh) * 2024-03-28 2024-06-04 南京邮电大学 一种基于证据深度学习的无锚框表面缺陷可信检测方法

Similar Documents

Publication Publication Date Title
CN107644429B (zh) 一种基于强目标约束视频显著性的视频分割方法
CN108648161B (zh) 非对称核卷积神经网络的双目视觉障碍物检测系统及方法
CN105930868B (zh) 一种基于层次化增强学习的低分辨率机场目标检测方法
CN110619628B (zh) 一种人脸图像质量评估方法
WO2018000752A1 (zh) 一种基于多尺度cnn和连续crf的单目图像深度估计方法
CN107392917B (zh) 一种基于时空约束的视频显著性检测方法及系统
Zhang et al. A new haze removal approach for sky/river alike scenes based on external and internal clues
CN103514441B (zh) 基于移动平台的人脸特征点定位跟踪方法
CN112837344B (zh) 一种基于条件对抗生成孪生网络的目标跟踪方法
WO2021093275A1 (zh) 一种人群计数系统中自适应计算高斯核大小的方法
CN104616308A (zh) 一种基于核模糊聚类的多尺度水平集图像分割方法
CN112947419B (zh) 避障方法、装置及设备
CN117689876A (zh) 一种鸟类视觉启发的复杂背景下运动目标显著性检测方法
CN111462191A (zh) 一种基于深度学习的非局部滤波器无监督光流估计方法
CN112329784A (zh) 一种基于时空感知及多峰响应的相关滤波跟踪方法
Chen et al. A full density stereo matching system based on the combination of CNNs and slanted-planes
CN109447036A (zh) 一种图像数字分割与识别方法及系统
Tawab et al. Efficient multi-feature PSO for fast gray level object-tracking
CN110826563A (zh) 基于神经网络和概率图模型的手指静脉分割方法及装置
Xie et al. 3D surface segmentation from point clouds via quadric fits based on DBSCAN clustering
Duan [Retracted] Deep Learning‐Based Multitarget Motion Shadow Rejection and Accurate Tracking for Sports Video
CN102156879B (zh) 基于加权陆地运动距离的人体目标匹配方法
CN117079072A (zh) 一种基于深度学习的图像鲁棒构建视觉里程计的方法
CN107169533B (zh) 一种超像素的概率因子tmf的sar图像海岸线检测算法
Pajares et al. Fuzzy cognitive maps applied to computer vision tasks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination