CN111461139B - 一种复杂场景下的多目标视觉显著性分层检测方法 - Google Patents

一种复杂场景下的多目标视觉显著性分层检测方法 Download PDF

Info

Publication number
CN111461139B
CN111461139B CN202010227331.4A CN202010227331A CN111461139B CN 111461139 B CN111461139 B CN 111461139B CN 202010227331 A CN202010227331 A CN 202010227331A CN 111461139 B CN111461139 B CN 111461139B
Authority
CN
China
Prior art keywords
image
detection
clue
significance
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010227331.4A
Other languages
English (en)
Other versions
CN111461139A (zh
Inventor
李璇
黄正华
徐宇航
田潇
江毅
程莉
朱丽娜
请求不公布姓名
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Institute of Technology
Original Assignee
Wuhan Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Institute of Technology filed Critical Wuhan Institute of Technology
Priority to CN202010227331.4A priority Critical patent/CN111461139B/zh
Publication of CN111461139A publication Critical patent/CN111461139A/zh
Application granted granted Critical
Publication of CN111461139B publication Critical patent/CN111461139B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种复杂场景下的多目标视觉显著性分层检测方法,属于计算机视觉和图像处理技术领域。方法包括:基于格式塔线索将待检图像划分为多个图像块,对全部图像块进行显著性检测,根据显著性检测结果对全部图像块进行组合,并将图像块组合后的显著性检测结果作为第一层线索;使用一般性目标检测方法对待检图像进行目标检测,将目标检测结果作为第二层线索;基于交叉扩散方法,将第一层线索和所述第二层线索进行线索融合,并得到显著性结果图。本发明将格式塔线索运用到图像显著性检测中,针对具有复杂视觉场景和多目标分布的图像,充分利用感知结构信息和多目标分布信息,从而全面、均匀的突显出图像中具有明确边界的目标显著性区域。

Description

一种复杂场景下的多目标视觉显著性分层检测方法
技术领域
本发明涉及计算机视觉和图像处理技术领域,特别是指一种复杂场景下的多目标视觉显著性分层检测方法。
背景技术
图像的显著性检测是图像处理方面非常重要的一个课题,显著性检测作为一种重要的视觉信息预处理手段,在计算机视觉和图像的理解与分析领域发挥着重要的作用。早期,国内外学者对于显著性检测的研究主要采用的是自底向上的方式,采用这类方式的方法主要有基于对比度的方法,基于傅里叶频域的方法,基于信息论的方法等,尽管这些方法对于处理具有简单背景和单一目标图像时效果明显,但不适用于复杂背景下的图像目标视觉显著性检测。
发明内容
为了更好的解决上述问题,本发明提供一种复杂场景下的多目标视觉显著性分层检测方法。
本发明提供一种复杂场景下的多目标视觉显著性分层检测方法,具体包括以下步骤:
S1、基于格式塔线索将待检图像划分为多个图像块,对全部所述图像块进行显著性检测,根据显著性检测结果对全部所述图像块进行组合,并将图像块组合后的显著性检测结果作为第一层线索;
S2、使用一般性目标检测方法对所述待检图像进行目标检测,将目标检测结果作为第二层线索;
S3、基于交叉扩散方法,将所述第一层线索和所述第二层线索进行线索融合,并得到显著性结果图。
优选的,所述步骤S1,具体包括:
S11、使用高斯滤波器对所述待检图像进行平滑处理,得到处理后的待检图像,然后基于格式塔法则中的近邻性线索和相似性线索提取图像遍历步长;
S12、利用所述图像遍历步长设置窗口实现图像遍历,将处理后的待检图像划分为多个图像块;
S13、融合格式塔法则的连续性线索和闭合性线索,对全部所述图像块进行显著性检测,得到显著性检测结果根据所述显著性检测结果对全部所述图像块进行组合,并将图像块组合后的显著性检测结果作为第一层线索。
本发明在进行基于图像块的显著性检测时,充分考虑并有效利用了图像块之间的感知组合和结构信息,根据格式塔法则中的四种感知组合:近邻性、相似性、闭合性和连续性设定自适应的步长进行图像块的划分,从而通过设定合理的检测域实现了基于图像块组合的视觉显著性区域线索的提取。
优选的,所述步骤S11,具体包括:
使用高斯滤波器对所述待检图像进行平滑处理,得到处理后的待检图像;
基于格式塔法则中的近邻性线索和相似性线索提取图像遍历步长,所述图像遍历步长根据以下公式计算:
L=gesD(x)aver
其中,aver为求平均值,gesD(x)为像素之间的格式塔距离函数,根据以下公式计算:
Figure BDA0002428147460000031
其中,xi、xj是像素点的距离特征线索,ci、cj为像素点的特征信息,
Figure BDA0002428147460000032
为所述待检图像中的任意两个像素i和j之间的近邻性线索,
Figure BDA0002428147460000033
为所述待检图像中的任意两个像素i和j之间的相似性线索。
优选的,构建一个图G(V,E,W),其中V为所有像素的集合,记为V={1,2,3,…,N},E={(i,j|i,j∈V)}表示连接像素点的边的集合,W=(Wij)N×N为权值矩阵,Wij为像素点i、j连线的边的权值,表示像素点i、j之间的相似程度。图像的格式塔线索通过图的权值矩阵来表示,因此矩阵的近邻性,相似性,连续性,闭合性线索可以分别由权值矩阵Wpro,Wsim,Wcon,Wcls表示。在第一层分割中首先需要提取近邻性和相似性线索,基于近邻性和相似性线索提取合适的图像遍历步长,以实现图像的第一步分割。
图像中的两个像素和之间的近邻性线索定义为:
Figure BDA0002428147460000034
Figure BDA0002428147460000035
Figure BDA0002428147460000036
分别表示像素的颜色和纹理特征信息。
图像中的两个像素和之间的相似性线索定义为:
Figure BDA0002428147460000041
其中d(x)表示像素之间的欧式距离;σx、σsim为预设参数,参数σi是保证
Figure BDA0002428147460000042
的特殊参数。
优选的,以图像块为粒度的显著性检测方法中,一个图像块的显著性值是用它和图像中其他图像块的对比来进行定义的,具体的,一个图像块的显著性是通过比较其特征与整个图像中其他图像块的特征来得到的,所述特征包括但不限于颜色、对比度、亮度、位置。
图像I中图像块Ik的显著性值定义为:
Figure BDA0002428147460000043
其中,D(i,j)表示图像块i和j间的特征距离度量。L为一特定区域,该区域是根据预设规则判定的某一固定窗口大小,在本申请中为利用格式塔法则中的近邻性和相似性线索,充分考虑图像像素间的感知组合和结构信息,从而获得的用于自适应图像块划分的窗口大小L作为检测域。
优选的,所述步骤S13,具体包括:
融合格式塔法则的连续性线索和闭合性线索,对所述图像块进行显著性检测,并得到显著性检测结果,根据所述显著性检测结果对全部所述图像块进行组合,并将图像块组合后的显著性检测结果作为第一层线索,所述组合后的显著性检测结果Ws表示为:
Figure BDA0002428147460000044
其中,Siv为所述图像块的显著性矩阵,即所述显著性检测结果,根据以下公式计算:
Figure BDA0002428147460000051
k表示某个图像块中超像素区域的个数,wij表示超像素块间近邻性和相似性线索的权值线性组合,根据以下公式计算:
Figure BDA0002428147460000052
其中,α、β为灵敏度参数;
U(i)为颜色和位置唯一性值,D(i)为每个超像素块颜色空间分布的方差值,分别根据以下公式计算:
Figure BDA0002428147460000053
Figure BDA0002428147460000054
其中,
Figure BDA0002428147460000055
为两个超像素块ri和rj之间的闭合性线索,
Figure BDA0002428147460000056
为两个超像素块ri和rj之间的连续性线索,分别根据以下公式计算:
Figure BDA0002428147460000057
Figure BDA0002428147460000058
其中,
Figure BDA0002428147460000059
Figure BDA00024281474600000510
为预设参数,g(r)为超像素块r的格式塔线索,根据以下公式计算:
Figure BDA00024281474600000511
Figure BDA0002428147460000061
其中,ω的闭合性p(zcls|ω)为:
Figure BDA0002428147460000062
其中l=1,2,...,K,|ejl|表示线段ejl的长度;
ω的连续性p(zcon|ω)为:
Figure BDA0002428147460000063
其中,r表示图像块中的超像素块,z表示格式塔线索,ω表示需要区分的目标超像素块,
gcls、gcon分别表示超像素块的闭合性格式塔线索和连续性格式塔线索,zcls、zcls分别表示闭合性格式塔线索和连续性格式塔线索,对分割后的像素块边缘进行细化和跟踪,获得边缘线段的集合,所述边缘线段的集合表示为{e1,e2,...,ej},每条线段都对应两个超像素块ri,rj),根据超像素块之间的显著性特征差异程度,将ej的强度值设为
Figure BDA0002428147460000064
优选的,所述步骤S2,具体包括:
对图像进行尺寸上的处理,将其归一化到相同尺寸,组合该窗口的像素梯度幅值,采用支持向量机框架SVM进行学习,最终进行一般性目标估计。
为了获得图像的一般性特征,通过线性模型ω∈R64对由尺寸或纵横比定义的窗口进行扫描,并对其进行评分,使用公式为:
sl=<w,gl
l=(i,x,y)
其中,sl,gl分别为过滤器得分和NG特征,l和i分别代表位置以及尺度,(x,y)则是窗口坐标。
通过非最大抑制比(NMS)来得到建议窗口,对象状态得分的计算公式为:
ol=vi*sl+ti(vi,ti∈R)
优选的,本申请的一般性目标检测中,运用两级级联SVM。
第一级SVM训练,用全部的正样本以及随机选择的负样本以保证总样本数达到SVM训练总样本数进行训练,经过第一级SVM训练,得到线性模型参数w,对样本进行打分,得到新的正样本和负样本,为第二级SVM训练做准备。
第二级SVM训练,根据第一级SVM训练得到的新的正样本和负样本进行训练,可以得到权值vi,ti,因此可以用公式ol=vi*sl+ti将一般性目标得分进行定义,即可以得到是否检测到一般性目标。
优选的,对第一级SVM训练得到的线性模型w以及NG特征值进行二值化,所述二值化的计算方式近似为:
Figure BDA0002428147460000071
Nw,βj,aj,分别为基向量个数,校准系数和基向量。因为二进制数字只能为0和1,所以取:
Figure BDA0002428147460000081
Figure BDA0002428147460000082
引入w与二进制内积公式得到:
Figure BDA0002428147460000083
而64维的NG特征值二值化可以近似表示为:
Figure BDA0002428147460000084
最后将二值化模型w和NG进行结合对窗口评分:
Figure BDA0002428147460000085
Figure BDA0002428147460000086
其中,Cj,k是使用CPU原子操作得到的。
假设一幅图像的候选框为N个,则第k个窗口的加权矩阵表示为
Figure BDA0002428147460000087
Figure BDA0002428147460000088
即候选窗口中的像素置1,其他的像素置0,则得到的图像中所有候选窗口的累加权重矩阵为W:
Figure BDA0002428147460000089
将W进行归一化,则得到一般性目标检测结果,用矩阵WO表示。
优选的,所述步骤S3,具体包括:
S31、基于交叉扩散方法,构建显著性检测对象分层检测模型,根据所述第一层线索构建基于视觉线索的非负亲和矩阵,根据所述第二层线索构建基于一般性目标分布线索的非负亲和矩阵;
S32、对所述非负亲和矩阵分别进行归一化处理,得到归一化状态矩阵,作为核矩阵;
S33、对所述核矩阵进行预设次数的迭代,得到融合矩阵;
S34、根据所述融合矩阵,得到融合后的显著性结果图。
本发明通过充分考虑基于全局的多目标分布信息,采用基于交叉扩散过程的多层级线索融合策略将一般性目标检测结果与基于格式塔线索的图像块组合显著性检测结果进行合成,充分地利用了先验信息,极大地提高了显著性算法的整体性能。
优选的,所述S31步骤,具体包括:
构建分层检测模型,根据两层检测结果构建基于视觉线索非负亲和矩阵WSC和基于一般性目标分布线索的非负亲和矩阵WOC
令待融合的线索加权图像分别为gs和go,其对应的非负亲和矩阵分别为WSC和WOC
根据交叉扩散过程的定义,对于每一个线索加权图g=(v,ε,W),v={1,…,n}表示图像的点,
Figure BDA0002428147460000091
表示图像的边,
Figure BDA0002428147460000092
表示非负亲和矩阵,Wij表示点i,j之间的度量关系,当Wij=0时表示没有线索。
优选的,归一化状态矩阵PS和PO的计算公式为:
Figure BDA0002428147460000093
Figure BDA0002428147460000094
核矩阵
Figure BDA0002428147460000095
Figure BDA0002428147460000096
的计算公式为:
在输入图像gs和go后,构造成新的图像
Figure BDA00024281474600001014
Figure BDA0002428147460000101
新的图像
Figure BDA00024281474600001015
满足以下条件:
Figure BDA00024281474600001016
具有与g相同的节点集,即
Figure BDA0002428147460000102
Figure BDA0002428147460000103
只保留连接相邻节点的g边缘,
Figure BDA0002428147460000104
当且仅当j∈Ω(i),Ω(·)表示节点的邻域。
进而得到相应的非负亲和矩阵:
Figure BDA0002428147460000105
Figure BDA0002428147460000106
进而得到对应的归一化矩阵,即核矩阵:
Figure BDA0002428147460000107
Figure BDA0002428147460000108
经过t次迭代得到融合矩阵,公式如下:
Figure BDA0002428147460000109
Figure BDA00024281474600001010
其中
Figure BDA00024281474600001011
Figure BDA00024281474600001012
是迭代后的矩阵,两个亲和矩阵在迭代期间交换信息,由于核矩阵仅通过使用可靠的局部信息并且由状态矩阵构成,所以交叉扩散过程由此具有减少噪声和降低损耗风险的效果。
经历过t次迭代的亲和矩阵Wc计算方法如下:
Figure BDA00024281474600001013
其中
Figure BDA0002428147460000111
表示各元素的乘积,为了提高算法的鲁棒性,规定所有数据取正值。
Figure BDA0002428147460000112
Figure BDA0002428147460000113
其中η>0,I是一个恒等矩阵。
交叉扩散的融合过程提高了多目标视觉显著性检测的有效性,并最终输出显著性结果图。
优选的,所述像素点的特征信息ci包括:
颜色、亮度和方向。
本发明还提供一种复杂场景下的多目标视觉显著性分层检测装置,包括以下模块:
显著性检测模块,用于基于格式塔线索将待检图像划分为多个图像块,对全部所述图像块进行显著性检测,根据显著性检测结果对全部所述图像块进行组合,并将图像块组合后的显著性检测结果作为第一层线索;
目标检测模块,用于使用一般性目标检测方法对待检图像进行目标检测,将目标检测结果作为第二层线索;
线索融合模块,用于基于交叉扩散方法将所述第一层线索和所述第二层线索进行线索融合,并得到显著性结果图。
本发明还提供一种电子设备,所述设备包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述任一项所述的一种复杂场景下的多目标视觉显著性分层检测方法的步骤。
本发明还提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的一种复杂场景下的多目标视觉显著性分层检测方法的步骤。
本发明通过提出一种复杂背景下的多目标视觉显著性分层检测方法,将格式塔线索融入到图像块的划分和显著性区域提取的过程之中,有效地利用了像素、图像块这些视觉“对象”之间的感知组合和结构信息,构建的分层检测模型,结合基于格式塔线索的图像块组合显著性线索和基于全局的多目标似物性分布信息,全面、均匀的突显出图像中具有明确边界的目标显著性区域。该方法明显提升了复杂场景下进行多目标视觉显著性区域检测算法的性能。
本发明还利用基于交叉扩散过程的融合策略,将分层检测模型中的两层线索进行有机融合,充分地利用了先验信息,极大地提高了算法的整体性能,在显著性检测性能上获得了显著的提升。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明实施例中的一种复杂场景下的多目标视觉显著性分层检测方法流程图;
图2是本发明实施例中的第一层线索的计算方法流程图;
图3是本发明实施例中的基于交叉扩散方法,融合得到显著性结果图的方法流程图;
图4是本发明实施例中的一种复杂场景下的多目标视觉显著性分层检测装置模块图;
图5(a)为本发明实施例中处理的原始图像示意图;
图5(b)为本发明实施例中将原始图像显著性检测处理后的示意图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
本发明的实施例提供一种复杂场景下的多目标视觉显著性分层检测方法,参见图1,具体包括以下步骤:
S1、基于格式塔线索将待检图像划分为多个图像块,对全部所述图像块进行显著性检测,根据显著性检测结果对全部所述图像块进行组合,并将图像块组合后的显著性检测结果作为第一层线索;
S2、使用一般性目标检测方法对所述待检图像进行目标检测,将目标检测结果作为第二层线索;
S3、基于交叉扩散方法,将所述第一层线索和所述第二层线索进行线索融合,并得到显著性结果图。
优选的,步骤S1,如图2所示,具体包括:
S11、使用高斯滤波器对所述待检图像进行平滑处理,得到处理后的待检图像,然后基于格式塔法则中的近邻性线索和相似性线索提取图像遍历步长;
S12、利用图像遍历步长设置窗口实现图像遍历,将处理后的待检图像划分为多个图像块;
S13、融合格式塔法则的连续性线索和闭合性线索,对全部图像块进行显著性检测,得到显著性检测结果,根据显著性检测结果对全部图像块进行组合,并将图像块组合后的显著性检测结果作为第一层线索。
本发明的实施例在进行基于图像块的显著性检测时,充分考虑并有效利用了图像块之间的感知组合和结构信息,根据格式塔法则中的四种感知组合:近邻性、相似性、闭合性和连续性设定自适应的步长进行图像块的划分,从而通过设定合理的检测域实现了基于图像块组合的视觉显著性区域线索的提取。
优选的,所述步骤S11,具体包括:
使用高斯滤波器对所述待检图像进行平滑处理,得到处理后的待检图像;
基于格式塔法则中的近邻性线索和相似性线索提取图像遍历步长,所述图像遍历步长根据以下公式计算:
L=gesD(x)aver
其中,aver为求平均值,gesD(x)为像素之间的格式塔距离函数,根据以下公式计算:
Figure BDA0002428147460000141
其中,xi、xj是像素点的距离特征线索,ci、cj为像素点的特征信息,
Figure BDA0002428147460000142
为所述待检图像中的任意两个像素i和j之间的近邻性线索,
Figure BDA0002428147460000143
为所述待检图像中的任意两个像素i和j之间的相似性线索。
优选的,构建一个图G(V,E,W),其中V为所有像素的集合,记为V={1,2,3,...,N},E={(i,j|i,j∈V)}表示连接像素点的边的集合,W=(Wij)N×N为权值矩阵,Wij为像素点i、j连线的边的权值,表示像素点i、j之间的相似程度。图像的格式塔线索通过图的权值矩阵来表示,因此矩阵的近邻性,相似性,连续性,闭合性线索可以分别由权值矩阵Wpro,Wsim,Wcon,Wcls表示。在第一层分割中首先需要提取近邻性和相似性线索,基于近邻性和相似性线索提取合适的图像遍历步长实现图像的第一步分割。
图像中的两个像素和之间的近邻性线索定义为:
Figure BDA0002428147460000151
Figure BDA0002428147460000152
Figure BDA0002428147460000153
分别表示像素的颜色和纹理特征信息。
图像中的两个像素和之间的相似性线索定义为:
Figure BDA0002428147460000154
其中d(x)表示像素之间的欧式距离;σx、σsim为预设参数,参数σi是保证
Figure BDA0002428147460000155
的特殊参数。
在一个具体的实施例中,σx和σsim分别设定为0.25和20。
优选的,以图像块为粒度的显著性检测方法中,一个图像块的显著性值是用它和图像中其他图像块的对比度来定义的,具体来说,一个图像块的显著性是通过比较其特征与整个图像中其他图像块的特征来得到的,所述特征包括但不限于颜色、对比度、亮度、位置。
图像I中图像块Ik的显著性值定义为:
Figure BDA0002428147460000161
其中,D(i,j)表示图像块i和j间的特征距离度量。L为一特定区域,该区域是根据预设规则判定的某一固定窗口大小,在本发明中为利用格式塔法则中的近邻性和相似性线索,充分考虑图像像素间的感知组合和结构信息,从而获得用于自适应图像块划分的窗口大小L作为检测域。
在一个具体的实施例中,通过选择合适的窗口实现图像的遍历,完成图像块的划分,本申请中采用图像遍历算法对图像进行显著性划分,通过使用一个图像遍历程序基于一定的步长对图像进行“块”的划分,其关键步骤在于步长的选择,合适的步长可以增加图像显著性识别的准确性,因此采取基于格式塔法则中的近邻性和相似性线索提取合适的图像遍历步长,避免误差较大的步长带来一系列的错误(如产生混叠,失真等)。
优选的,所述步骤S13,具体包括:
融合格式塔法则的连续性线索和闭合性线索,对所述图像块进行显著性检测,并得到显著性检测结果,根据所述显著性检测结果对全部所述图像块进行组合,并将图像块组合后的显著性检测结果作为第一层线索,所述组合后的显著性检测结果Ws表示为:
Figure BDA0002428147460000162
在一个具体的实施例中,图像块的组合即为矩阵的拼接,原始图像和显著性检测结果比较的示例如图5(a)和图5(b)所示。
其中,Siv为所述图像块的显著性矩阵,即显著性检测结果,根据以下公式计算:
Figure BDA0002428147460000171
k表示某个图像块中超像素区域的个数,wij表示超像素块间近邻性和相似性线索的权值线性组合,根据以下公式计算:
Figure BDA0002428147460000172
其中,α、β为灵敏度参数;
U(i)为颜色和位置唯一性值,D(i)为每个超像素块颜色空间分布的方差值,分别根据以下公式计算:
Figure BDA0002428147460000173
Figure BDA0002428147460000174
其中,
Figure BDA0002428147460000175
为两个超像素块ri和rj之间的闭合性线索,
Figure BDA0002428147460000176
为两个超像素块ri和rj之间的连续性线索,分别根据以下公式计算:
Figure BDA0002428147460000177
Figure BDA0002428147460000178
其中,
Figure BDA0002428147460000179
Figure BDA00024281474600001710
为预设参数,g(r)为超像素块r的格式塔线索,根据以下公式计算:
Figure BDA00024281474600001711
Figure BDA0002428147460000181
其中,ω的闭合性p(zcls|ω)为:
Figure BDA0002428147460000182
其中l=1,2,...,K,|ejl|表示线段ejl的长度;
ω的连续性p(zcon|ω)为:
Figure BDA0002428147460000183
其中,r表示图像块中的超像素块,z表示格式塔线索,ω表示需要区分的目标超像素块,
gcls、gcon分别表示超像素块的闭合性格式塔线索和连续性格式塔线索,zcls、zcls分别表示闭合性格式塔线索和连续性格式塔线索,对分割后的像素块边缘进行细化和跟踪,获得边缘线段的集合,所述边缘线段的集合表示为{e1,e2,…,ej},每条线段都对应两个超像素块(ri,rj),根据超像素块之间的显著性特征差异程度,将ej的强度值设为
Figure BDA0002428147460000184
优选的,所述步骤S2,具体包括:
对图像进行尺寸上的处理,将其归一化到相同尺寸,组合该窗口的像素梯度幅值,采用一个支持向量机框架进行学习,最终来进行一般性目标估计。
在一个具体的实施例中,由于一般对象的梯度幅值以及完好的封闭轮廓之间具有强联系,首先对图像进行尺寸上的处理,将其归一化到相同尺寸8*8,而组合该窗口的像素梯度幅值(NG)作为一个64位特征,采用一个二级级联的支持向量机框架进行学习,最终来进行一般性目标估计。
为了获得图像的一般性特征,通过线性模型ω∈R64对由尺寸或纵横比定义的窗口进行扫描,并对其进行评分:
sl=<w,gl
l=(i,x,y)
其中,sl,gl分别为过滤器得分和NG特征,l和i分别代表位置以及尺度,(x,y)则是窗口坐标。
通过非最大抑制比(NMS)来得到建议窗口,对象状态得分的计算公式为:
ol=vi*sl+ti(vi,ti∈R)
在一个具体的实施例中,由于一些尺寸窗口(如10*500)相较于其他窗口(如100*100)包含对象可能性不大,因此将对象状态得分(校准过滤器得分)计算公式定义为ol=vi*sl+ti(vi,ti∈R)。
优选的,本发明的一般性目标检测中,运用了两级级联SVM。
第一级SVM训练,用全部的正样本以及随机选择的负样本以保证总样本数达到SVM训练总样本数进行训练,经过第一级SVM训练,得到线性模型参数w,对样本进行打分,得到新的正负样本,为第二级SVM训练做准备。
第二级SVM训练,根据第一级SVM训练得到的新正负样本进行训练,可以得到权值vi,ti,因此可以用公式ol=vi*sl+ti将一般性目标得分进行定义,即可以得到是否检测到一般性目标。
优选的,对第一集SVM训练得到的线性模型w以及NG特征值进行二值化,所述二值化的计算方式近似为:
Figure BDA0002428147460000201
Nw,βj,aj,分别为基向量个数,校准系数和基向量。因为二进制只能为0和1,所以取:
Figure BDA0002428147460000202
Figure BDA0002428147460000203
引入w与二进制内积公式得到:
Figure BDA0002428147460000204
而64维的NG特征值二值化可以近似表示为:
Figure BDA0002428147460000205
最后将二值化模型w和NG进行结合对窗口评分:
Figure BDA0002428147460000206
Figure BDA0002428147460000207
其中,Cj,k是使用一些简单的原子操作得到的。
假设一幅图像的候选框为N个,则第k个窗口的加权矩阵表示为
Figure BDA0002428147460000208
Figure BDA0002428147460000209
即候选窗口中的像素置1,其他的像素置0,则得到的图像中所有候选窗口的累加权重矩阵为W:
Figure BDA0002428147460000211
将W进行归一化,则得到一般性目标检测结果,用矩阵WO表示。
优选的,所述步骤S3,如图3所示,具体包括:
S31、基于交叉扩散方法,构建显著性检测对象分层检测模型,根据所述第一层线索构建基于视觉线索的非负亲和矩阵,根据所述第二层线索构建基于一般性目标分布线索的非负亲和矩阵;
S32、对所述非负亲和矩阵分别进行归一化处理,得到归一化状态矩阵,作为核矩阵;
S33、对所述核矩阵进行预设次数的迭代,得到融合矩阵;
S34、根据所述融合矩阵,得到融合后的显著性结果图。
本发明的实施例通过充分考虑基于全局的多目标分布信息,采用基于交叉扩散过程的多层级线索融合策略将一般性目标检测结果与基于格式塔线索的图像块组合显著性检测结果进行合成,充分地利用了先验信息,极大地提高了显著性算法的整体性能。
优选的,所述S31步骤,具体包括:
构建分层检测模型,根据两层检测结果构建基于视觉线索非负亲和矩阵WSC和基于一般性目标分布线索的非负亲和矩阵WOC
令待融合的线索加权图像分别为gs和go,其对应的非负亲和矩阵分别为WSC和WOC
根据交叉扩散过程的定义,对于每一个线索加权图g=(v,ε,W),v={1,…,n}表示图像的点,
Figure BDA0002428147460000212
表示图像的边,
Figure BDA0002428147460000213
表示非负亲和矩阵,Wij表示点i,j之间的度量关系,当Wij=0时表示没有线索。
优选的,归一化状态矩阵PS和PO的计算公式为:
Figure BDA0002428147460000221
Figure BDA0002428147460000222
核矩阵
Figure BDA00024281474600002213
Figure BDA00024281474600002214
的计算公式为:
在输入图像gs和go后,构造成新的图像
Figure BDA00024281474600002212
Figure BDA0002428147460000223
满足以下条件:
Figure BDA0002428147460000224
具有与g相同的节点集,即
Figure BDA0002428147460000225
Figure BDA0002428147460000226
只保留连接相邻节点的g边缘,
Figure BDA0002428147460000227
当且仅当j∈Ω(i),Ω(·)表示节点的邻域。
进而得到相应的非负亲和矩阵:
Figure BDA0002428147460000228
Figure BDA0002428147460000229
进而得到对应的归一化矩阵,即核矩阵:
Figure BDA00024281474600002210
Figure BDA00024281474600002211
经过t次迭代得到融合矩阵,公式如下:
Figure BDA0002428147460000231
Figure BDA0002428147460000232
其中
Figure BDA0002428147460000233
Figure BDA0002428147460000234
是迭代后的矩阵,两个亲和矩阵在迭代期间交换信息,由于核矩阵仅通过使用可靠的局部信息并且由状态矩阵构成,所以交叉扩散过程由此具有减少噪声和降低损耗风险的效果。
经历过t次迭代的亲和矩阵Wc计算方法如下:
Figure BDA0002428147460000235
其中
Figure BDA0002428147460000236
表示各元素的乘积,为了提高算法的鲁棒性规定所有数据取正值。
Figure BDA0002428147460000237
Figure BDA0002428147460000238
其中η>0,I是一个恒等矩阵。
在本发明中经历交叉扩散的融合过程提高了多目标视觉显著性检测的有效性,最终输出显著性结果图。
优选的,所述像素点的特征信息ci包括:
颜色、亮度和方向。
本发明的实施例还提供一种复杂场景下的多目标视觉显著性分层检测装置,如图4所示,包括以下模块:
显著性检测模块81,用于基于格式塔线索将待检图像划分为多个图像块,对全部所述图像块进行显著性检测,根据显著性检测结果对全部所述图像块进行组合,并将图像块组合后的显著性检测结果作为第一层线索;
目标检测模块82,用于使用一般性目标检测方法对待检图像进行目标检测,将目标检测结果作为第二层线索;
线索融合模块83,用于基于交叉扩散方法将所述第一层线索和所述第二层线索进行线索融合,并得到显著性结果图。
优选的,所述显著性检测模块81,包括以下单元:
步长提取单元,用于使用高斯滤波器对所述待检图像进行平滑处理,得到处理后的待检图像,然后基于格式塔法则中的近邻性线索和相似性线索提取图像遍历步长;
图像块划分单元,用于利用所述图像遍历步长设置窗口实现图像遍历,将处理后的待检图像划分为多个图像块;
显著性检测单元,用于融合格式塔法则的连续性线索和闭合性线索,对全部所述图像块进行显著性检测,得到显著性检测结果;
组合单元,用于根据所述显著性检测结果对全部所述图像块进行组合,并将图像块组合后的显著性检测结果作为第一层线索。
优选的,所述线索融合模块83,包括以下单元:
矩阵构建单元,用于基于交叉扩散方法,构建显著性检测对象分层检测模型,根据所述第一层线索构建基于视觉线索的非负亲和矩阵,根据所述第二层线索构建基于一般性目标分布线索的非负亲和矩阵;
归一化处理单元,用于对所述非负亲和矩阵分别进行归一化处理,得到归一化状态矩阵,作为核矩阵;
迭代单元,用于对所述核矩阵进行预设次数的迭代,得到融合矩阵;
绘图单元,用于根据所述融合矩阵,得到融合后的显著性结果图。
本发明的实施例还提供一种电子设备,所述设备包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述任一项所述的一种复杂场景下的多目标视觉显著性分层检测方法的步骤。
本发明的实施例还提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的一种复杂场景下的多目标视觉显著性分层检测方法的步骤。
本发明的实施例通过提出一种复杂背景下的多目标视觉显著性分层检测算法,将格式塔线索融入到图像块的划分和显著性区域提取的过程之中,有效地利用了像素、图像块这些视觉“对象”之间的感知组合和结构信息,构建的分层检测模型,结合基于格式塔线索的图像块组合显著性线索和基于全局的多目标似物性分布信息,全面、均匀的突显出图像中具有明确边界的目标显著性区域。该方法明显提升了复杂场景下进行多目标视觉显著性区域检测算法的性能。
本发明的实施例还利用基于交叉扩散过程的融合策略,将分层检测模型中的两层线索进行有机融合,充分地利用了先验信息,极大地提高了算法的整体性能,在显著性检测性能上获得了显著的提升。
上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (9)

1.一种复杂场景下的多目标视觉显著性分层检测方法,其特征在于,包括:
S1、基于格式塔线索将待检图像划分为多个图像块,对全部所述图像块进行显著性检测,根据显著性检测结果对全部所述图像块进行组合,并将图像块组合后的显著性检测结果作为第一层线索;
S2、使用一般性目标检测方法对所述待检图像进行目标检测,将目标检测结果作为第二层线索;
S3、基于交叉扩散方法,将所述第一层线索和所述第二层线索进行线索融合,并得到显著性结果图;
所述步骤S1具体包括:
S11、使用高斯滤波器对所述待检图像进行平滑处理,得到处理后的待检图像,然后基于格式塔法则中的近邻性线索和相似性线索提取图像遍历步长;
S12、利用所述图像遍历步长设置窗口实现图像遍历,将处理后的待检图像划分为多个图像块;
S13、融合格式塔法则的连续性线索和闭合性线索,对全部所述图像块进行显著性检测,得到显著性检测结果,根据所述显著性检测结果对全部所述图像块进行组合,并将图像块组合后的显著性检测结果作为第一层线索。
2.根据权利要求1所述的一种复杂场景下的多目标视觉显著性分层检测方法,其特征在于,所述步骤S11具体包括:
使用高斯滤波器对所述待检图像进行平滑处理,得到处理后的待检图像;
基于格式塔法则中的近邻性线索和相似性线索提取图像遍历步长,所述图像遍历步长根据以下公式计算:
L=gesD(x)aver
其中,aver为求平均值,gesD(x)为像素之间的格式塔距离函数,根据以下公式计算:
Figure FDA0004060031220000021
其中,xi、xj是像素点的距离特征线索,ci、cj为像素点的特征信息,
Figure FDA0004060031220000022
为所述待检图像中的任意两个像素i和j之间的近邻性线索,
Figure FDA0004060031220000023
为所述待检图像中的任意两个像素i和j之间的相似性线索。
3.根据权利要求2所述的一种复杂场景下的多目标视觉显著性分层检测方法,其特征在于,所述步骤S13具体包括:
融合格式塔法则的连续性线索和闭合性线索,对所述图像块进行显著性检测,并得到显著性检测结果,根据所述显著性检测结果对全部所述图像块进行组合,并将图像块组合后的显著性检测结果作为第一层线索,所述组合后的显著性检测结果Ws表示为:
Figure FDA0004060031220000024
其中,Siv为所述图像块的显著性矩阵,即所述显著性检测结果,根据以下公式计算:
Figure FDA0004060031220000025
k表示某个图像块中超像素区域的个数,wij表示超像素块间近邻性和相似性线索的权值线性组合,根据以下公式计算:
Figure FDA0004060031220000031
其中,α、β为灵敏度参数;
U(i)为颜色和位置唯一性值,D(i)为每个超像素块颜色空间分布的方差值,分别根据以下公式计算:
Figure FDA0004060031220000032
Figure FDA0004060031220000033
其中,
Figure FDA0004060031220000034
为两个超像素块ri和rj之间的闭合性线索,
Figure FDA0004060031220000035
为两个超像素块ri和rj之间的连续性线索,分别根据以下公式计算:
Figure FDA0004060031220000036
Figure FDA0004060031220000037
其中,
Figure FDA0004060031220000038
Figure FDA0004060031220000039
为预设参数,g(r)为超像素块r的格式塔线索,根据以下公式计算:
Figure FDA00040600312200000310
其中,ω的闭合性p(zcls|ω)为:
Figure FDA0004060031220000041
其中l=1,2,…,K,|ejl|表示线段ejl的长度;
ω的连续性p(zcon|ω)为:
Figure FDA0004060031220000042
其中,r表示图像块中的超像素块,z表示格式塔线索,ω表示需要区分的目标超像素块,
gcls、gcon分别表示超像素块的闭合性格式塔线索和连续性格式塔线索,zcls、zcls分别表示闭合性格式塔线索和连续性格式塔线索,对分割后的像素块边缘进行细化和跟踪,获得边缘线段的集合,所述边缘线段的集合表示为{e1,e2,…,ej},每条线段都对应两个超像素块(ri,rj),根据超像素块之间的显著性特征差异程度,将ej的强度值设为
Figure FDA0004060031220000043
4.根据权利要求1所述的一种复杂场景下的多目标视觉显著性分层检测方法,其特征在于,所述步骤S3具体包括:
S31、基于交叉扩散方法,构建显著性检测对象分层检测模型,根据所述第一层线索构建基于视觉线索的非负亲和矩阵,根据所述第二层线索构建基于一般性目标分布线索的非负亲和矩阵;
S32、对所述非负亲和矩阵分别进行归一化处理,得到归一化状态矩阵,作为核矩阵;
S33、对所述核矩阵进行预设次数的迭代,得到融合矩阵;
S34、根据所述融合矩阵,得到融合后的显著性结果图。
5.根据权利要求4所述的一种复杂场景下的多目标视觉显著性分层检测方法,其特征在于,所述S31步骤,具体包括:
构建分层检测模型,根据两层检测结果构建基于视觉线索非负亲和矩阵WSC和基于一般性目标分布线索的非负亲和矩阵WOC
令待融合的线索加权图像分别为gs和go,其对应的非负亲和矩阵分别为WSC和WOC
根据交叉扩散过程的定义,对于每一个线索加权图g=(v,ε,W),v={1,…,n+表示图像的点,
Figure FDA0004060031220000051
表示图像的边,
Figure FDA0004060031220000052
表示非负亲和矩阵,Wij表示点i,j之间的度量关系,当Wij=0时表示没有线索。
6.根据权利要求2所述的一种复杂场景下的多目标视觉显著性分层检测方法,其特征在于,所述像素点的特征信息ci包括:
颜色、亮度和方向。
7.一种复杂场景下的多目标视觉显著性分层检测装置,其特征在于,包括:
显著性检测模块,用于基于格式塔线索将待检图像划分为多个图像块,对全部所述图像块进行显著性检测,根据显著性检测结果对全部所述图像块进行组合,并将图像块组合后的显著性检测结果作为第一层线索;
目标检测模块,用于使用一般性目标检测方法对待检图像进行目标检测,将目标检测结果作为第二层线索;
线索融合模块,用于基于交叉扩散方法将所述第一层线索和所述第二层线索进行线索融合,并得到显著性结果图;
所述显著性检测模块,包括以下单元:
步长提取单元,用于使用高斯滤波器对所述待检图像进行平滑处理,得到处理后的待检图像,然后基于格式塔法则中的近邻性线索和相似性线索提取图像遍历步长;
图像块划分单元,用于利用所述图像遍历步长设置窗口实现图像遍历,将处理后的待检图像划分为多个图像块;
显著性检测单元,用于融合格式塔法则的连续性线索和闭合性线索,对全部所述图像块进行显著性检测,得到显著性检测结果;
组合单元,用于根据所述显著性检测结果对全部所述图像块进行组合,并将图像块组合后的显著性检测结果作为第一层线索。
8.一种电子设备,其特征在于,所述设备包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的一种复杂场景下的多目标视觉显著性分层检测方法的步骤。
9.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的一种复杂场景下的多目标视觉显著性分层检测方法的步骤。
CN202010227331.4A 2020-03-27 2020-03-27 一种复杂场景下的多目标视觉显著性分层检测方法 Active CN111461139B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010227331.4A CN111461139B (zh) 2020-03-27 2020-03-27 一种复杂场景下的多目标视觉显著性分层检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010227331.4A CN111461139B (zh) 2020-03-27 2020-03-27 一种复杂场景下的多目标视觉显著性分层检测方法

Publications (2)

Publication Number Publication Date
CN111461139A CN111461139A (zh) 2020-07-28
CN111461139B true CN111461139B (zh) 2023-04-07

Family

ID=71684985

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010227331.4A Active CN111461139B (zh) 2020-03-27 2020-03-27 一种复杂场景下的多目标视觉显著性分层检测方法

Country Status (1)

Country Link
CN (1) CN111461139B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112668643B (zh) * 2020-12-28 2022-10-21 武汉工程大学 一种基于格式塔法则的半监督显著性检测方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102509072B (zh) * 2011-10-17 2013-08-28 上海大学 基于区域间差异的图像中显著对象的检测方法
CN102663368B (zh) * 2012-04-16 2014-09-17 南京大学 基于格式塔视觉原理的运动目标区域整合优化方法
US8971614B2 (en) * 2012-05-14 2015-03-03 University Of Southern California Extracting object edges from images
CN103793925B (zh) * 2014-02-24 2016-05-18 北京工业大学 融合时空特征的视频图像视觉显著程度检测方法
CN108234884B (zh) * 2018-02-12 2019-12-10 西安电子科技大学 一种基于视觉显著性的相机自动对焦方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李炜华.基于格式塔理论的建筑物区域提取方法研究.中国优秀硕士学位论文全文数据库电子期刊工程科技辑.2015,全文. *

Also Published As

Publication number Publication date
CN111461139A (zh) 2020-07-28

Similar Documents

Publication Publication Date Title
CN111723860B (zh) 一种目标检测方法及装置
CN110414507B (zh) 车牌识别方法、装置、计算机设备和存储介质
Wu et al. Stereo matching with fusing adaptive support weights
CN113076871B (zh) 一种基于目标遮挡补偿的鱼群自动检测方法
CN109711416B (zh) 目标识别方法、装置、计算机设备和存储介质
CN107633226B (zh) 一种人体动作跟踪特征处理方法
JP6100300B2 (ja) 階層グラフに基づく画像マッティングおよび前景推定の方法およびシステム
CN112287941B (zh) 一种基于自动字符区域感知的车牌识别方法
CN112150493A (zh) 一种基于语义指导的自然场景下屏幕区域检测方法
Shahroudnejad et al. Copy-move forgery detection in digital images using affine-SIFT
CN111091101B (zh) 基于一步法的高精度行人检测方法、系统、装置
CN112528845B (zh) 一种基于深度学习的物理电路图识别方法及其应用
CN111510792B (zh) 基于自适应加权图差异分析的视频摘要生成方法及系统
Lim et al. Text segmentation in color images using tensor voting
CN110852327A (zh) 图像处理方法、装置、电子设备及存储介质
Salem A Survey on Various Image Inpainting Techniques.
CN116664565A (zh) 一种光伏太阳能电池片的隐裂检测方法及系统
CN114170570A (zh) 一种适用于拥挤场景下的行人检测方法及系统
CN111461139B (zh) 一种复杂场景下的多目标视觉显著性分层检测方法
Shit et al. An encoder‐decoder based CNN architecture using end to end dehaze and detection network for proper image visualization and detection
CN113627481A (zh) 一种面向智慧园林的多模型组合的无人机垃圾分类方法
CN113807237A (zh) 活体检测模型的训练、活体检测方法、计算机设备及介质
CN111612802A (zh) 一种基于现有图像语义分割模型的再优化训练方法及应用
CN108765384B (zh) 一种联合流形排序和改进凸包的显著性检测方法
CN114283431B (zh) 一种基于可微分二值化的文本检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant