CN111428805B - 显著性物体的检测方法、模型、存储介质及电子设备 - Google Patents

显著性物体的检测方法、模型、存储介质及电子设备 Download PDF

Info

Publication number
CN111428805B
CN111428805B CN202010251865.0A CN202010251865A CN111428805B CN 111428805 B CN111428805 B CN 111428805B CN 202010251865 A CN202010251865 A CN 202010251865A CN 111428805 B CN111428805 B CN 111428805B
Authority
CN
China
Prior art keywords
convolution
level
image
convolution operation
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010251865.0A
Other languages
English (en)
Other versions
CN111428805A (zh
Inventor
许静
邱宇
刘云
朱静雯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nankai University
Original Assignee
Nankai University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nankai University filed Critical Nankai University
Priority to CN202010251865.0A priority Critical patent/CN111428805B/zh
Publication of CN111428805A publication Critical patent/CN111428805A/zh
Application granted granted Critical
Publication of CN111428805B publication Critical patent/CN111428805B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种显著性物体的检测方法、检测模型、计算机可读存储介质以及电子设备,通过编码操作和解码操作以获取待检测图像中的显著性物体的位置信息和轮廓信息,其中,编码操作包括N层级第一卷积操作,解码操作包括与第一卷积操作对应的N层级第二卷积操作,下一层级第二卷积操作包括对上一层级第二卷积操作的输出图像和该上一层级第二卷积操作对应的第一卷积操作的输出图像进行的第一融合操作,在解码操作中融合对应编码操作的输出图像,可以结合编码操作得到的信息,从而提高检测精度;并且部分第二卷积操作包括多个具有不同空洞率且并行的空洞卷积操作,可以从多个尺度去学习得到多个尺度的信息,从而进一步提高检测精度。

Description

显著性物体的检测方法、模型、存储介质及电子设备
技术领域
本发明涉及计算机视觉领域,具体涉及一种显著性物体的检测方法、检测模型、计算机可读存储介质以及电子设备。
背景技术
显著性物体检测,即显著性检测,是计算机视觉领域中一个基础且重要的任务,它主要解决如何在一张自然图像中检测出最重要、最吸引人注意的物体或区域的问题。显著性物体检测技术在计算机视觉领域有很多重要的应用,并且是很多任务的预处理步骤,比如物体检测、物体跟踪、图像分割、图像检索、场景分割等。传统的显著性物体检测严重依赖于手工设计的特征,比如图像纹理特征、图像对比度等,但是这些手工设计的特征通常基于专家的先验知识,因此存在一定的不全面性,并且这些传统特征一般无法表征高层的语义信息。
随着深度学习,特别是深度神经网络的快速发展,将神经网络模型应用到显著性物体检测中来取得了巨大进展。在深度神经网络中,编码-解码架构已经运用在显著性物体检测任务中,尽管编码-解码架构带来了巨大的进展,但是由于直接从卷积神经网络得到的有限的尺度无法完全且准确描述真实世界中物体的尺度多样性和形状多样性,因此卷积神经网络中基本的多尺度学习能力是有限的。
发明内容
有鉴于此,本发明实施例致力于提供一种显著性物体的检测方法、检测模型、计算机可读存储介质以及电子设备,通过编码操作和解码操作以获取待检测图像中的显著性物体的位置信息和轮廓信息,其中,编码操作包括N层级第一卷积操作,且下一层级第一卷积操作的输入图像为上一层级第一卷积操作的输出图像;解码操作包括与第一卷积操作对应的N层级第二卷积操作,下一层级第二卷积操作包括对上一层级第二卷积操作的输出图像和该上一层级第二卷积操作对应的第一卷积操作的输出图像进行的第一融合操作,在解码操作中融合对应编码操作的输出图像,可以结合编码操作得到的信息,从而提高检测精度;并且部分第二卷积操作包括具有不同空洞率且并行的多个空洞卷积操作,利用多个空洞卷积操作,可以从多个尺度去学习得到多个尺度的信息,从而进一步提高检测精度。
根据本发明的一方面,本发明一实施例提供的一种显著性物体的检测方法,包括:对待检测图像进行编码操作,得到所述待检测图像的编码图像;其中所述编码操作具体包括N层级第一卷积操作,第M+1层级第一卷积操作的输入图像为第M层级第一卷积操作的输出图像;以及对所述编码图像进行解码操作,得到所述待检测图像中的显著性物体图像;其中所述解码操作具体包括与所述N层级第一卷积操作对应的N层级第二卷积操作,第M层级第二卷积操作包括对第M+1层级第二卷积操作的输出图像和所述第M+1层级第一卷积操作的输出图像进行的第一融合操作;其中,所述N层级第二卷积操作中的部分第二卷积操作在所述第一融合操作之后,还包括具有不同空洞率且并行的多个空洞卷积操作,N、M为整数且N>M≥1。
在一实施例中,所述部分第二卷积操作包括:与所述多个空洞卷积操作并行的第一池化操作;以及对所述多个空洞卷积操作的输出图像和所述第一池化操作的输出图像进行第二融合操作。
在一实施例中,在所述多个空洞卷积操作、所述第一池化操作之后,所述部分第二卷积操作还包括:分别与所述多个空洞卷积操作、所述第一池化操作对应的多个注意力卷积操作;所述对所述多个空洞卷积操作的输出图像和所述第一池化操作的输出图像进行第二融合操作包括:对所述多个注意力卷积操作的输出图像进行所述第二融合操作。
在一实施例中,所述部分第二卷积操作还包括:与所述多个空洞卷积操作并行的注意力残差卷积操作;所述对所述多个空洞卷积操作的输出图像和所述第一池化操作的输出图像进行第二融合操作包括:对所述多个注意力卷积操作的输出图像和所述注意力残差卷积操作的输出图像进行第二融合操作。
在一实施例中,所述注意力卷积操作包括通道注意力卷积操作和空间注意力卷积操作;和/或所述注意力残差卷积操作包括通道注意力卷积操作和空间注意力卷积操作。
在一实施例中,在所述第二融合操作之后,所述部分第二卷积操作还包括:残差叠加操作,所述残差叠加操作具体包括:将所述多个空洞卷积操作的输入图像和所述第二融合操作的输出图像进行叠加操作。
在一实施例中,在所述N层级第一卷积操作之后,所述编码操作还包括:语义指导操作,所述语义指导操作具体包括:将所述编码图像的语义信息和每一层级第二卷积操作的输入图像进行第三融合操作。
根据本发明的另一方面,本发明一实施例提供的一种显著性物体的检测模型,包括:编码模块,用于对待检测图像进行编码操作,得到所述待检测图像的编码图像;其中所述编码操作具体包括N层级第一卷积操作,第M+1层级第一卷积操作的输入图像为第M层级第一卷积操作的输出图像;以及解码模块,用于对所述编码图像进行解码操作,得到所述待检测图像中的显著性物体图像;其中所述解码操作具体包括与所述N层级第一卷积操作对应的N层级第二卷积操作,第M层级第二卷积操作包括对第M+1层级第二卷积操作的输出图像和所述第M+1层级第一卷积操作的输出图像进行的第一融合操作;其中,所述N层级第二卷积操作中的部分第二卷积操作在所述第一融合操作之后,还包括具有不同空洞率且并行的多个空洞卷积操作,N、M为整数且N>M≥1。
根据本发明的另一方面,本发明一实施例提供的一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述任一所述的显著性物体的检测方法。
根据本发明的另一方面,本发明一实施例提供的一种电子设备,所述电子设备包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于执行上述任一所述的显著性物体的检测方法。
本发明实施例提供的一种显著性物体的检测方法、检测模型、计算机可读存储介质以及电子设备,通过编码操作和解码操作以获取待检测图像中的显著性物体的位置信息和轮廓信息,其中,编码操作包括N层级第一卷积操作,且下一层级第一卷积操作的输入图像为上一层级第一卷积操作的输出图像;解码操作包括与第一卷积操作对应的N层级第二卷积操作,下一层级第二卷积操作包括对上一层级第二卷积操作的输出图像和该上一层级第二卷积操作对应的第一卷积操作的输出图像进行的第一融合操作,在解码操作中融合对应编码操作的输出图像,可以结合编码操作得到的信息,从而提高检测精度;并且部分第二卷积操作包括具有不同空洞率且并行的多个空洞卷积操作,利用多个空洞卷积操作,可以从多个尺度去学习得到多个尺度的信息,从而进一步提高检测精度。
附图说明
图1所示为本申请一实施例提供的一种显著性物体的检测方法的流程图。
图2所示为本申请一实施例提供的一种第二卷积操作的流程图。
图3所示为本申请另一实施例提供的一种第二卷积操作的流程图。
图4所示为本申请另一实施例提供的一种第二卷积操作的流程图。
图5所示为本申请一实施例提供的一种通道注意力卷积操作的流程图。
图6所示为本申请一实施例提供的一种注意力残差卷积操作的流程图。
图7所示为本申请另一实施例提供的一种显著性物体的检测方法的流程图。
图8所示为本申请一实施例提供的一种显著性物体的检测模型的结构示意图。
图9所示为本申请另一实施例提供的一种显著性物体的检测模型的结构示意图。
图10是本申请一示例性实施例提供的电子设备的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
此外,在示例性实施例中,因为相同的参考标记表示具有相同结构的相同部件或相同方法的相同步骤,如果示例性地描述了一实施例,则在其他示例性实施例中仅描述与已描述实施例不同的结构或方法。
在整个说明书及权利要求书中,当一个部件描述为“连接”到另一部件,该一个部件可以“直接连接”到另一部件,或者通过第三部件“电连接”到另一部件。此外,除非明确地进行相反的描述,术语“包括”及其相应术语应仅理解为包括所述部件,而不应该理解为排除任何其他部件。
下面结合附图具体说明本申请提供的显著性物体的检测方法、检测模型、计算机可读存储介质以及电子设备的具体实现方式:
图1所示为本申请一实施例提供的一种显著性物体的检测方法的流程图。如图1所示,该检测方法包括如下步骤:
步骤110:对待检测图像进行编码操作,得到待检测图像的编码图像;其中编码操作具体包括N层级第一卷积操作,第M+1层级第一卷积操作的输入图像为第M层级第一卷积操作的输出图像,N、M为整数且N>M≥1。
编码操作是通过多层级的第一卷积操作实现的,其中每一层级的第一卷积操作可以是由至少一个卷积层实现,在一实施例中,第一卷积操作可以是4个卷积层,通过多层级的第一卷积操作,将待检测图像逐级缩小,以获取高级语义信息,即待检测图像中的显著性物体的位置信息,并且当前层级(第M+1层级)的第一卷积操作是紧接着上一层级(第M层级)的第一卷积操作的,即当前层级的第一卷积操作的输入图像是上一层级的第一卷积操作的输出图像(即特征图),其中当前层级为第一层级时,其输入图像为待检测图像。利用编码操作可以将待检测图像逐级缩小并获取待检测图像中的显著性物体的位置信息等高级语义信息,为后续提取出该待检测图像中的显著性物体的图像提供了数据支持。
步骤120:对编码图像进行解码操作,得到待检测图像中的显著性物体图像;其中解码操作具体包括与N层级第一卷积操作对应的N层级第二卷积操作,第M层级第二卷积操作包括对第M+1层级第二卷积操作的输出图像和第M+1层级第一卷积操作的输出图像进行的第一融合操作;其中,N层级第二卷积操作中的部分第二卷积操作在第一融合操作之后,还包括具有不同空洞率且并行的多个空洞卷积操作。
在得到待检测图像的编码图像后,即得到了待检测图像中很多的高级语义信息,其中包括待检测图像中的显著性物体的位置信息,然而高级语义信息中包含的显著性物体的边缘等细节信息较少,在提取显著性物体的图像时,单纯依靠高级语义信息是不够的,因此,需要进一步获取待检测图像中显著性物体的边缘等细节信息,而通过解码操作将编码图像放大可以获取这些细节信息。为了得到更多的细节信息,本申请实施例中解码操作也包括与编码操作对应的N层级第二卷积操作,通过对应的N层级第二卷积操作即可获取与待检测图像大小一致的图像,从而获取最多的细节信息。解码操作是通过多层级的第二卷积操作实现的,其中每一层级的第二卷积操作可以是由至少一个卷积层实现,通过多层级的第二卷积操作,将编码图像的逐级放大,以获取细节信息,即待检测图像中的显著性物体的轮廓等信息,其中,当前层级(第M层级)的第二卷积操作是紧接着上一层级(第M+1层级)的第二卷积操作的,并且第M层级的第二卷积操作是第M+1层级的第二卷积操作的输出图像(即特征图)和第M+1层级第一卷积操作的输出图像(即特征图)进行的第一融合操作,其中当前层级为最后(即第N层级)层级时,其输出图像为最终输出图像(即待检测图像中显著性物体图像)。为了从多个尺度获取待检测图像中显著性物体的细节信息,本申请实施例将解码操作中的部分第二卷积操作在第一融合操作之后加入多个具有不同空洞率且并行的空洞卷积操作,利用不同空洞率的多个空洞卷积层实现多个尺度的卷积操作,从而获取多尺度的细节信息,进一步提高细节信息的准确性,从而进一步提高提取待检测图像中显著性物体的图像准确性。
在一实施例中,N=4,应当理解,本申请实施例可以根据实际应用场景的需求而选取N的不同取值。在一实施例中,每个第二卷积操作均为有监督卷积操作。在一实施例中,空洞卷积操作的数量可以为3,应当理解,本申请实施例可以根据实际应用场景的需求而选取空洞卷积操作的具体数量。
本发明实施例提供的一种显著性物体的检测方法,通过编码操作和解码操作以获取待检测图像中的显著性物体的位置信息和轮廓信息,其中,编码操作包括N层级第一卷积操作,且下一层级第一卷积操作的输入图像为上一层级第一卷积操作的输出图像;解码操作包括与第一卷积操作对应的N层级第二卷积操作,下一层级第二卷积操作包括对上一层级第二卷积操作的输出图像和该上一层级第二卷积操作对应的第一卷积操作的输出图像进行的第一融合操作,在解码操作中融合对应编码操作的输出图像,可以结合编码操作得到的信息,从而提高检测精度;并且部分第二卷积操作包括具有不同空洞率且并行的多个空洞卷积操作,利用多个空洞卷积操作,可以从多个尺度去学习得到多个尺度的信息,从而进一步提高检测显著性物体图像的精度,有助于后续的物体检测、物体跟踪、图像分割、图像检索、场景分割等应用场景下的准确度。
图2所示为本申请一实施例提供的一种第二卷积操作的流程图。如图2所示,部分第二卷积操作可以包括:
步骤121:并行具有不同空洞率的多个空洞卷积操作。
该步骤与步骤120中多个空洞卷积操作相同,此处不再赘述。
步骤122:进行第一池化操作。
通过对输入图像进行第一池化操作,即可对输入图像进行空洞率为0的空洞卷积操作,从而进一步获取更多尺度的细节信息,进一步提高细节信息的准确性。
步骤123:对多个空洞卷积操作的输出图像和第一池化操作的输出图像进行第二融合操作。
在获取多个空洞卷积操作的输出图像(即多个尺度学习得到的包含不同尺度的细节信息的图像)和第一池化操作的图像(即通过空洞率为0卷积操作得到的包含另一尺度的细节信息的图像)后,对多个空洞卷积操作的输出图像和第一池化操作的输出图像进行第二融合操作,以得到更为准确的细节信息。
图3所示为本申请另一实施例提供的一种第二卷积操作的流程图。如图3所示,在步骤121和步骤122之后,该部分第二卷积操作还可以分别包括:
步骤124:进行多个注意力卷积操作。步骤123相应的调整为:对多个注意力卷积操作的输出图像进行第二融合操作。
通过在每一个空洞卷积操作和第一池化操作之后分别进行一次注意力卷积操作,可以为并列的空洞卷积操作的每一个分支和第一池化操作后得到的特征图中的每一个像素点学习得到一个注意力值,即在每一个空洞卷积操作和第一池化操作之后的特征图中的每一个像素生成一个权重,从而实现解码过程中更有针对性的学习每一个像素,以更为准确的提取显著性物体的图像对应的像素。
图4所示为本申请另一实施例提供的一种第二卷积操作的流程图。如图4所示,该部分第二卷积操作还可以包括:
步骤125:进行注意力残差卷积操作。步骤123相应的调整为:对多个注意力卷积操作的输出图像和注意力残差卷积操作的输出图像进行第二融合操作。
在一实施例中,如图4所示,在步骤125之后,该部分第二卷积操作还可以包括:
步骤126:进行残差叠加操作。该残差叠加操作具体可以包括:将该部分第二卷积操作的输入图像和第二融合操作的输出图像进行叠加操作。
通过设置并行的空洞卷积操作、第一池化操作及注意力残差卷积操作后进行残差叠加操作,可以避免因过多的注意力卷积操作而导致的图像像素之间的梯度消失,保持梯度,从而提高后续提取显著性物体的准确度。
在一实施例中,步骤124中的注意力卷积操作可以包括通道注意力卷积操作和空间注意力卷积操作;步骤125中的注意力残差卷积操作也可以包括通道注意力卷积操作和空间注意力卷积操作。通过通道注意力卷积操作和空间注意力卷积操作分别得到各个通道的权重和图像中各个像素单元的权重,从而提高提取显著性物体的准确度。
图5所示为本申请一实施例提供的一种通道注意力卷积操作的流程图。如图5所示,通道注意力卷积操作可以具体包括:
步骤510:进行全局平均池化操作。通过全局平均池化操作压缩特征图的空间信息。
步骤520:进行第一多层感知操作。通过在全局平均池化操作之后进行多层感知操作以得到各个通道的被重视程度,即权重。
步骤530:进行全局最大池化操作。通过进行与全局平均池化操作并行的全局最大池化操作压缩特征图的空间信息。
步骤540:进行第二多层感知操作。通过在全局最大池化操作之后进行多层感知操作以得到各个通道的被重视程度,即权重。
步骤550:进行叠加操作。将经过全局平均池化操作和全局最大池化操作后得到的通道被重视程度叠加以得到最终的通道被重视程度。
步骤560:进行激活函数操作。通过将得到的最终的通道被重视程度进行激活函数操作,以得到各个通道的权重。
通过全局平均池化操作和全局最大池化操作可以将输入的特征图压缩空间信息,并且通过叠加操作以得到各个通道的权重,从而更为准确的获知通道权重。
图6所示为本申请一实施例提供的一种注意力残差卷积操作的流程图。如图6所示,注意力残差卷积操作可以具体包括:
步骤610:进行全局平均池化操作。通过全局平均池化操作压缩特征图的通道信息。
步骤620:进行全局最大池化操作。通过进行与全局平均池化操作并行的全局最大池化操作压缩特征图的通道信息。
步骤630:进行融合操作。将经过全局平均池化操作和全局最大池化操作后得到的像素点被重视程度融合以得到最终的像素点被重视程度。
步骤640:进行激活函数操作。通过将得到的最终的像素点被重视程度进行激活函数操作,以得到各个像素点的位置权重。
通过全局平均池化操作和全局最大池化操作可以将输入的特征图压缩通道信息,并且通过融合操作以得到各个像素点的位置权重,从而更为准确的获知像素点的位置权重。
在一实施例中,可以将上述步骤560得到的通道权重和步骤640得到的空间权重相融合(例如对应元素分别相乘)以得到注意力卷积操作和注意力残差卷积操作的输出特征图。
图7所示为本申请另一实施例提供的一种显著性物体的检测方法的流程图。如图7所示,在N层级第一卷积操作之后,编码操作还可以包括:
步骤111:进行语义指导操作。语义指导操作具体为:将编码图像的语义信息和每一层级第二卷积操作的输入图像进行第三融合操作。在一实施例中,语义指导操作具体可以包括多个并行的空洞卷积操作。通过高层的语义信息指导低层的特征学习,并且利用多个空洞卷积操作实现多尺度的高级语义来指导低层的特征学习,从而可以获取更多且更为准确的细节信息,继而提高了提取显著性物体的准确性。
图8所示为本申请一实施例提供的一种显著性物体的检测模型的结构示意图。如图8所示,该检测模型80包括:编码模块81,用于对待检测图像进行编码操作,得到待检测图像的编码图像;其中编码操作具体包括N层级第一卷积操作,第M+1层级第一卷积操作的输入图像为第M层级第一卷积操作的输出图像;以及解码模块82,用于对编码图像进行解码操作,得到待检测图像中的显著性物体图像;其中解码操作具体包括与N层级第一卷积操作对应的N层级第二卷积操作,第M层级第二卷积操作包括对第M+1层级第二卷积操作的输出图像和第M+1层级第一卷积操作的输出图像进行的第一融合操作;其中,N层级第二卷积操作中的部分第二卷积操作包括多个具有不同空洞率且并行的空洞卷积操作,N、M为整数且N>M≥1。
在一实施例中,第一卷积操作可以是4个卷积层。在一实施例中,N=4。在一实施例中,空洞卷积操作的数量可以为3。在一实施例中,每个第二卷积操作均为有监督卷积操作。
本发明实施例提供的一种显著性物体的检测模型,通过编码模块81和解码模块82分别进行编码操作和解码操作,以获取待检测图像中的显著性物体的位置信息和轮廓信息,其中,编码操作包括N层级第一卷积操作,且下一层级第一卷积操作的输入图像为上一层级第一卷积操作的输出图像;解码操作包括与第一卷积操作对应的N层级第二卷积操作,下一层级第二卷积操作包括对上一层级第二卷积操作的输出图像和该上一层级第二卷积操作对应的第一卷积操作的输出图像进行的第一融合操作,在解码操作中融合对应编码操作的输出图像,可以结合编码操作得到的信息,从而提高检测精度;并且部分第二卷积操作包括具有不同空洞率且并行的多个空洞卷积操作,利用多个空洞卷积操作,可以从多个尺度去学习得到多个尺度的信息,从而进一步提高显著性物体图像的检测精度,有助于后续的物体检测、物体跟踪、图像分割、图像检索、场景分割等应用场景下的准确度。
图9所示为本申请另一实施例提供的一种显著性物体的检测模型的结构示意图。如图9所示,上述解码模块82还可以包括:空洞卷积子模块821,用于并行具有不同空洞率的多个空洞卷积操作;第一池化子模块822,用于进行第一池化操作;第二融合子模块823,用于对多个空洞卷积操作的输出图像和第一池化操作的输出图像进行第二融合操作。
在一实施例中,如图9所示,该解码模块82还可以包括:注意力卷积子模块824,用于分别进行多个注意力卷积操作。
在一实施例中,如图9所示,该解码模块82还可以包括:注意力残差卷积子模块825,用于进行注意力残差卷积操作。
在一实施例中,如图9所示,该解码模块82还可以包括:残差叠加子模块826,用于进行残差叠加操作。
在一实施例中,如图9所示,该注意力卷积子模块824和注意力残差卷积子模块825均可以包括:通道注意力卷积单元8210,用于进行通道注意力卷积操作;空间注意力卷积8220,用于进行空间注意力卷积操作。
在一实施例中,如图9所示,通道注意力卷积单元8210可以包括:第一全局平均池化子单元8211,用于进行全局平均池化操作;第一感知子单元8212,用于对第一全局平均池化子单元8211的输出图像进行第一多层感知操作;第一全局最大池化子单元8213,用于进行全局最大池化操作;第二感知子单元8214,用于对第一全局最大池化子单元8213的输出图像进行第二多层感知操作;叠加子单元8215,用于对第一感知子单元8212和第二感知子单元8214的输出图像进行叠加操作;第一激活子单元8216,用于对叠加子单元8215的输出图像进行激活函数操作。
在一实施例中,如图9所示,空间注意力卷积8220可以包括:第二全局平均池化子单元8221,用于进行全局平均池化操作;第二全局最大池化子单元8222,用于进行全局最大池化操作;融合子单元8223,用于对第二全局平均池化子单元8221和第二全局最大池化子单元8222的输出图像进行融合操作;第二激活子单元8224,用于对融合子单元8223的输出图像进行激活函数操作。
在一实施例中,如图9所示,编码模块81可以包括:语义指导子模块811,用于进行语义指导操作。语义指导子模块811可以进一步配置为:将编码图像的语义信息和每一层级第二卷积操作的输入图像进行第三融合操作。
下面,参考图10来描述根据本申请实施例的电子设备。该电子设备可以是第一设备和第二设备中的任一个或两者、或与它们独立的单机设备,该单机设备可以与第一设备和第二设备进行通信,以从它们接收所采集到的输入信号。
图10图示了根据本申请实施例的电子设备的框图。
如图10所示,电子设备10包括一个或多个处理器11和存储器12。
处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备10中的其他组件以执行期望的功能。
存储器12可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器11可以运行所述程序指令,以实现上文所述的本申请的各个实施例的显著性物体的检测方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
在一个示例中,电子设备10还可以包括:输入装置13和输出装置14,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
例如,在该电子设备是第一设备或第二设备时,该输入装置13可以是数据传送装置,用于传送代码的输入信号。在该电子设备是单机设备时,该输入装置13可以是通信网络连接器,用于从第一设备和第二设备接收所采集的输入信号。
此外,该输入设备13还可以包括例如键盘、鼠标等等。
该输出装置14可以向外部输出各种信息,包括确定出的距离信息、方向信息等。该输出设备14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图10中仅示出了该电子设备10中与本申请有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备10还可以包括任何其他适当的组件。
除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的显著性物体的检测方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的显著性物体的检测方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
为了进一步验证本申请实施所提供的显著性物体的检测方法、检测模型、计算机可读存储介质、电子设备在实际检测恶意代码的过程中有较高的准确度,先列出我们的方法与19种其他方法的对比结果,评估指标是在显著性物体检测任务上常用的Fβ和MAE,其中,Fβ的值越高代表结果越好,MAE的值越低代表结果越好,SOD、HKU-IS、ECSSD、THUR15K、DUTS-test为图像数据库。详细结果如下表:
表1不同数据库和不同方法检测出显著性物体的结果表
Figure GDA0002600969080000151
Figure GDA0002600969080000161
由上述表1可以看成,针对各个图像数据库中的图像,在检测显著性物体时,我们的方法大部分效果指标相比于其他的方法较优,因此,可以得到我们的方法可以明显提高检测的准确度。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims (10)

1.一种显著性物体的检测方法,其特征在于,包括:
对待检测图像进行编码操作,得到所述待检测图像的编码图像;其中所述编码操作具体包括N层级第一卷积操作,第M+1层级第一卷积操作的输入图像为第M层级第一卷积操作的输出图像;以及
对所述编码图像进行解码操作,得到所述待检测图像中的显著性物体图像;其中所述解码操作具体包括与所述N层级第一卷积操作对应的N层级第二卷积操作,第M层级第二卷积操作包括对第M+1层级第二卷积操作的输出图像和所述第M+1层级第一卷积操作的输出图像进行的第一融合操作;
其中,所述N层级第二卷积操作中的部分第二卷积操作在所述第一融合操作之后,还包括具有不同空洞率且并行的多个空洞卷积操作,N、M为整数且N>M≥1。
2.根据权利要求1所述的检测方法,其特征在于,所述部分第二卷积操作包括:
与所述多个空洞卷积操作并行的第一池化操作;以及
对所述多个空洞卷积操作的输出图像和所述第一池化操作的输出图像进行第二融合操作。
3.根据权利要求2所述的检测方法,其特征在于,在所述多个空洞卷积操作、所述第一池化操作之后,所述部分第二卷积操作还包括:
分别与所述多个空洞卷积操作、所述第一池化操作对应的多个注意力卷积操作;
所述对所述多个空洞卷积操作的输出图像和所述第一池化操作的输出图像进行第二融合操作包括:
对所述多个注意力卷积操作的输出图像进行所述第二融合操作。
4.根据权利要求3所述的检测方法,其特征在于,所述部分第二卷积操作还包括:
与所述多个空洞卷积操作并行的注意力残差卷积操作;
所述对所述多个空洞卷积操作的输出图像和所述第一池化操作的输出图像进行第二融合操作包括:
对所述多个注意力卷积操作的输出图像和所述注意力残差卷积操作的输出图像进行第二融合操作。
5.根据权利要求4所述的检测方法,其特征在于,所述注意力卷积操作包括通道注意力卷积操作和空间注意力卷积操作;和/或
所述注意力残差卷积操作包括通道注意力卷积操作和空间注意力卷积操作。
6.根据权利要求2所述的检测方法,其特征在于,在所述第二融合操作之后,所述部分第二卷积操作还包括:
残差叠加操作,所述残差叠加操作具体包括:
将所述多个空洞卷积操作的输入图像和所述第二融合操作的输出图像进行叠加操作。
7.根据权利要求2所述的检测方法,其特征在于,在所述N层级第一卷积操作之后,所述编码操作还包括:
语义指导操作,所述语义指导操作具体包括:
将所述编码图像的语义信息和每一层级第二卷积操作的输入图像进行第三融合操作。
8.一种显著性物体的检测模型,其特征在于,包括:
编码模块,用于对待检测图像进行编码操作,得到所述待检测图像的编码图像;其中所述编码操作具体包括N层级第一卷积操作,第M+1层级第一卷积操作的输入图像为第M层级第一卷积操作的输出图像;以及
解码模块,用于对所述编码图像进行解码操作,得到所述待检测图像中的显著性物体图像;其中所述解码操作具体包括与所述N层级第一卷积操作对应的N层级第二卷积操作,第M层级第二卷积操作包括对第M+1层级第二卷积操作的输出图像和所述第M+1层级第一卷积操作的输出图像进行的第一融合操作;其中,所述N层级第二卷积操作中的部分第二卷积操作在所述第一融合操作之后,还包括具有不同空洞率且并行的多个空洞卷积操作,N、M为整数且N>M≥1。
9.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-7任一所述的显著性物体的检测方法。
10.一种电子设备,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于执行上述权利要求1-7任一所述的显著性物体的检测方法。
CN202010251865.0A 2020-04-01 2020-04-01 显著性物体的检测方法、模型、存储介质及电子设备 Active CN111428805B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010251865.0A CN111428805B (zh) 2020-04-01 2020-04-01 显著性物体的检测方法、模型、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010251865.0A CN111428805B (zh) 2020-04-01 2020-04-01 显著性物体的检测方法、模型、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN111428805A CN111428805A (zh) 2020-07-17
CN111428805B true CN111428805B (zh) 2023-04-18

Family

ID=71551938

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010251865.0A Active CN111428805B (zh) 2020-04-01 2020-04-01 显著性物体的检测方法、模型、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN111428805B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112149661A (zh) * 2020-08-07 2020-12-29 珠海欧比特宇航科技股份有限公司 车牌识别方法、装置及介质
CN112132156B (zh) * 2020-08-18 2023-08-22 山东大学 多深度特征融合的图像显著性目标检测方法及系统
CN112541459A (zh) * 2020-12-21 2021-03-23 山东师范大学 基于多尺度感知注意力网络的人群计数方法及系统
CN114025198B (zh) * 2021-11-08 2023-06-27 深圳万兴软件有限公司 基于注意力机制的视频卡通化方法、装置、设备及介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1732028A1 (en) * 2005-06-10 2006-12-13 Delphi Technologies, Inc. System and method for detecting an eye
CN110490189A (zh) * 2019-07-04 2019-11-22 上海海事大学 一种基于双向消息链路卷积网络的显著性物体的检测方法
CN110610184A (zh) * 2018-06-15 2019-12-24 阿里巴巴集团控股有限公司 图像的显著目标的检测方法、装置及设备
CN110648334A (zh) * 2019-09-18 2020-01-03 中国人民解放军火箭军工程大学 一种基于注意力机制的多特征循环卷积显著性目标检测方法
CN110705566A (zh) * 2019-09-11 2020-01-17 浙江科技学院 一种基于空间金字塔池的多模态融合显著性检测方法
CN110825968A (zh) * 2019-11-04 2020-02-21 腾讯科技(深圳)有限公司 信息推送方法、装置、存储介质和计算机设备
CN110866907A (zh) * 2019-11-12 2020-03-06 中原工学院 基于注意力机制的全卷积网络织物疵点检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9721332B2 (en) * 2015-02-16 2017-08-01 Hrl Laboratories, Llc Spike domain convolution circuit

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1732028A1 (en) * 2005-06-10 2006-12-13 Delphi Technologies, Inc. System and method for detecting an eye
CN110610184A (zh) * 2018-06-15 2019-12-24 阿里巴巴集团控股有限公司 图像的显著目标的检测方法、装置及设备
CN110490189A (zh) * 2019-07-04 2019-11-22 上海海事大学 一种基于双向消息链路卷积网络的显著性物体的检测方法
CN110705566A (zh) * 2019-09-11 2020-01-17 浙江科技学院 一种基于空间金字塔池的多模态融合显著性检测方法
CN110648334A (zh) * 2019-09-18 2020-01-03 中国人民解放军火箭军工程大学 一种基于注意力机制的多特征循环卷积显著性目标检测方法
CN110825968A (zh) * 2019-11-04 2020-02-21 腾讯科技(深圳)有限公司 信息推送方法、装置、存储介质和计算机设备
CN110866907A (zh) * 2019-11-12 2020-03-06 中原工学院 基于注意力机制的全卷积网络织物疵点检测方法

Also Published As

Publication number Publication date
CN111428805A (zh) 2020-07-17

Similar Documents

Publication Publication Date Title
CN111428805B (zh) 显著性物体的检测方法、模型、存储介质及电子设备
CN108710885B (zh) 目标对象的检测方法和装置
CN105164700B (zh) 使用概率模型在视觉数据中检测对象
CN115203380A (zh) 基于多模态数据融合的文本处理系统及其方法
CN111079570A (zh) 一种人体关键点识别方法、装置及电子设备
CN113343982B (zh) 多模态特征融合的实体关系提取方法、装置和设备
CN111310770B (zh) 目标检测方法和装置
CN108875492B (zh) 人脸检测及关键点定位方法、装置、系统和存储介质
CN106447592B (zh) 每个特征描述符的在线个性化服务
CN109063776B (zh) 图像再识别网络训练方法、装置和图像再识别方法及装置
CN112668588B (zh) 车位信息生成方法、装置、设备和计算机可读介质
CN108876847B (zh) 图像定位方法、装置、系统和存储介质
CN111652054A (zh) 关节点检测方法、姿态识别方法及装置
CN114187483A (zh) 生成对抗样本的方法、检测器的训练方法及相关设备
CN113989616A (zh) 一种目标检测方法、装置、设备和存储介质
CN113449840A (zh) 神经网络训练方法及装置、图像分类的方法及装置
CN113435531B (zh) 零样本图像分类方法、系统、电子设备及存储介质
CN113516697B (zh) 图像配准的方法、装置、电子设备及计算机可读存储介质
CN114139630A (zh) 姿态识别方法、装置、存储介质和电子设备
CN114168768A (zh) 图像检索方法及相关设备
CN113837257A (zh) 一种目标检测方法及装置
CN116258873A (zh) 一种位置信息确定方法、对象识别模型的训练方法及装置
CN115393423A (zh) 目标检测方法和装置
CN110634155A (zh) 一种基于深度学习的目标检测方法和装置
CN114972465A (zh) 图像目标深度的检测方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant