CN112418345B - 细粒度小目标快速识别的方法和装置 - Google Patents

细粒度小目标快速识别的方法和装置 Download PDF

Info

Publication number
CN112418345B
CN112418345B CN202011437106.XA CN202011437106A CN112418345B CN 112418345 B CN112418345 B CN 112418345B CN 202011437106 A CN202011437106 A CN 202011437106A CN 112418345 B CN112418345 B CN 112418345B
Authority
CN
China
Prior art keywords
feature map
attention
channel
module
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011437106.XA
Other languages
English (en)
Other versions
CN112418345A (zh
Inventor
湛强
黄成�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Xiaoyang Software Co ltd
Original Assignee
Shenzhen Xiaoyang Software Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Xiaoyang Software Co ltd filed Critical Shenzhen Xiaoyang Software Co ltd
Priority to CN202011437106.XA priority Critical patent/CN112418345B/zh
Publication of CN112418345A publication Critical patent/CN112418345A/zh
Application granted granted Critical
Publication of CN112418345B publication Critical patent/CN112418345B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种细粒度小目标快速识别的方法和装置,涉及目标识别领域。该方法包括:在基于深度神经网络的目标识别算法中增加注意力机制,得到检测模型,将待识别的图像输入到检测模型中进行处理,采用带有注意力机制的卷积操作抽取图像的浅层特征,得到多通道的浅层特征图,采用带有注意力机制的残差操作抽取图像的语义特征,得到多通道的语义特征图,并对浅层特征图和语义特征图进行融合,将融合后的特征图输入到检测器,根据目标类别检测出小目标。该装置包括:建立模块、输入模块、卷积模块、残差模块和检测模块。本申请提高了模型的泛化能力和目标检测的速度,有效提高了小目标的检测能力和识别精度。

Description

细粒度小目标快速识别的方法和装置
技术领域
本申请涉及目标识别领域,特别是涉及一种细粒度小目标快速识别的方法和装置。
背景技术
随着计算机技术的发展,目标识别的应用已经越来越广泛。现有的目标识别算法普遍通过采用不同尺度来识别大目标和小目标。尽管这种方法在一定程度上提高了对小目标的检测能力,但是检测小目标效果的提升并不明显。由于小目标本身的特点是尺寸通常很小,不同的两个小目标之间的区别更加小,而这种方法忽略了小目标的本质特征,没有区分像素之间的相关性,会直接导致针对小目标提取出来的特征泛化能力较差。而且,随着网络不断变深,池化操作在提高感受野的同时,会减小图像分辨率,导致小目标的边缘信息减弱,甚至随着池化层逐渐消失,进而导致小目标识别漏检率偏高,降低识别的准确率和召回率,识别速度也受影响。
发明内容
本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。
根据本申请的一个方面,提供了一种细粒度小目标快速识别的方法,包括:
在基于深度神经网络的目标识别算法中增加注意力机制,得到检测模型;
将待识别的图像输入到所述检测模型中进行处理;
采用带有注意力机制的卷积操作抽取所述图像的浅层特征,得到多通道的浅层特征图;
采用带有注意力机制的残差操作抽取所述图像的语义特征,得到多通道的语义特征图,并对所述浅层特征图和语义特征图进行融合;
将融合后的特征图输入到检测器,根据目标类别检测出小目标。
可选地,采用带有注意力机制的卷积操作抽取所述图像的浅层特征,得到多通道的浅层特征图,包括:
采用卷积操作抽取所述图像的浅层特征,得到多通道的浅层特征图,将所述浅层特征图作为输入执行空间注意力操作,对所述空间注意力操作的结果执行通道注意力操作,将所述通道注意力操作的结果作为所述卷积操作的结果输出。
可选地,采用带有注意力机制的残差操作抽取所述图像的语义特征,得到多通道的语义特征图,并对所述浅层特征图和语义特征图进行融合,包括:
采用残差操作对所述卷积操作的结果抽取语义特征,得到多通道的语义特征图,将所述语义特征图作为输入执行空间注意力操作,对所述空间注意力操作的结果执行通道注意力操作,将所述通道注意力操作的结果与所述语义特征图进行融合。
可选地,执行空间注意力操作,包括:
将输入的特征图传输至空间注意力模块,所述空间注意力模块根据所述特征图中有效信息的分布生成相应的空间注意力权值矩阵,然后将所述输入的特征图与所述空间注意力权值矩阵进行相乘。
可选地,对所述空间注意力操作的结果执行通道注意力操作,包括:
将所述空间注意力操作的结果传输至通道注意力模块,所述通道注意力模块根据多通道特征图的重要程度生成相应的通道注意力权值矩阵,然后将所述空间注意力操作的结果与所述通道注意力权值矩阵进行相乘。
可选地,在基于深度神经网络的目标识别算法中增加注意力机制,得到检测模型,包括:
对YOLOv3算法模型进行降尺度处理,删除用于识别大目标的尺度,保留其余两个尺度,然后增加注意力机制,得到检测模型。
可选地,将融合后的特征图输入到检测器,根据目标类别检测出小目标,包括:
将融合后的特征图分别传输至两个分支,一个分支经带有注意力机制的卷积操作后传输至第一检测器,根据目标类别检测出小目标,另一个分支经上采样操作后与上层特征图进行融合,并经带有注意力机制的卷积操作后传输至第二检测器,根据目标类别检测出微小目标。
根据本申请的另一个方面,提供了一种细粒度小目标快速识别的装置,包括:
建立模块,其配置成在基于深度神经网络的目标识别算法中增加注意力机制,得到检测模型;
输入模块,其配置成将待识别的图像输入到所述检测模型中进行处理;
卷积模块,其配置成采用带有注意力机制的卷积操作抽取所述图像的浅层特征,得到多通道的浅层特征图;
残差模块,其配置成采用带有注意力机制的残差操作抽取所述图像的语义特征,得到多通道的语义特征图,并对所述浅层特征图和语义特征图进行融合;
检测模块,其配置成将融合后的特征图输入到检测器,根据目标类别检测出小目标。
可选地,所述卷积模块具体配置成:
采用卷积操作抽取所述图像的浅层特征,得到多通道的浅层特征图,将所述浅层特征图作为输入执行空间注意力操作,对所述空间注意力操作的结果执行通道注意力操作,将所述通道注意力操作的结果作为所述卷积操作的结果输出。
可选地,所述残差模块具体配置成:
采用残差操作对所述卷积操作的结果抽取语义特征,得到多通道的语义特征图,将所述语义特征图作为输入执行空间注意力操作,对所述空间注意力操作的结果执行通道注意力操作,将所述通道注意力操作的结果与所述语义特征图进行融合。
可选地,所述卷积模块或残差模块还包括:
空间注意力模块,其配置成接收输入的特征图,根据所述特征图中有效信息的分布生成相应的空间注意力权值矩阵,然后将所述输入的特征图与所述空间注意力权值矩阵进行相乘。
可选地,所述卷积模块或残差模块还包括:
通道注意力模块,其配置成接收输入的所述空间注意力操作的结果,根据多通道特征图的重要程度生成相应的通道注意力权值矩阵,然后将所述空间注意力操作的结果与所述通道注意力权值矩阵进行相乘。
可选地,所述建立模块具体配置成:
对YOLOv3算法模型进行降尺度处理,删除用于识别大目标的尺度,保留其余两个尺度,然后增加注意力机制,得到检测模型。
可选地,所述检测模块具体配置成:
将融合后的特征图分别传输至两个分支,一个分支经带有注意力机制的卷积操作后传输至第一检测器,根据目标类别检测出小目标,另一个分支经上采样操作后与上层特征图进行融合,并经带有注意力机制的卷积操作后传输至第二检测器,根据目标类别检测出微小目标。
根据本申请的又一个方面,提供了一种计算设备,包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如上所述的方法。
根据本申请的又一个方面,提供了一种计算机可读存储介质,优选为非易失性可读存储介质,其内存储有计算机程序,所述计算机程序在由处理器执行时实现如上所述的方法。
根据本申请的又一个方面,提供了一种计算机程序产品,包括计算机可读代码,当所述计算机可读代码由计算机设备执行时,导致所述计算机设备执行上述的方法。
本申请提供的技术方案,通过在基于深度神经网络的目标识别算法中增加注意力机制,得到检测模型,将待识别的图像输入到检测模型中进行处理,采用带有注意力机制的卷积操作抽取图像的浅层特征,得到多通道的浅层特征图,采用带有注意力机制的残差操作抽取图像的语义特征,得到多通道的语义特征图,并对浅层特征图和语义特征图进行融合,将融合后的特征图输入到检测器,根据目标类别检测出小目标,提高了模型的泛化能力和目标检测的速度,有效提高了小目标的检测能力和识别精度。
根据下文结合附图对本申请的具体实施例的详细描述,本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。
附图说明
后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解,这些附图未必是按比例绘制的。附图中:
图1是根据本申请一个实施例的细粒度小目标快速识别的方法流程图;
图2是根据本申请另一个实施例的细粒度小目标快速识别的方法流程图;
图3是根据本申请另一个实施例的基于YOLOv3算法模型的架构图;
图4是根据本申请另一个实施例的注意力机制示意图;
图5是根据本申请另一个实施例的细粒度小目标快速识别的装置结构图;
图6是根据本申请另一个实施例的计算设备结构图;
图7是根据本申请另一个实施例的计算机可读存储介质结构图。
具体实施方式
本发明实施例涉及细粒度小目标的快速识别,通过在基于深度神经网络的目标识别模型中增加注意力机制来实现。其中,注意力机制作为一种算法理论在自然语言处理(NLP)中已经在使用,但是本发明的独特之处在于将注意力机制引入计算机视觉的小目标检测领域,具有不同的意义,能够有效提高小目标的识别精度,在不同尺度背景下对小目标具有更高的准确率和召回率,并且识别速度也有一定的提高,实现了在复杂背景条件下,高精度的识别出图像中的小目标(通常在10-30像素之间)。
本发明中的注意力机制包括空间注意力机制(Spatial attention)和通道注意力机制(Channel attention)。首先,由于小目标的分辨率不高(一般不超过30像素),而且不同像素之间存在显著的梯度变化,因此,通过空间注意力机制对不同像素赋予不同的注意力权重,对需关注的像素赋予高注意力权重,不相关的像素赋予低注意力权重,从而提高了需要关注的像素,同时抑制了不相关的像素。具体来讲,在设计深度神经网络模型的时候,初始设置时将高度相关的像素赋予较高的空间注意力权重,不相关的像素赋予较低的空间注意力权重,然后基于大规模的数据集,对该深度神经网络模型进行训练,该模型通过反向梯度传播机制,不断的降低目标函数,不断的拟合训练集,从而不断学习哪些特征对于最终的目标识别任务是高度相关的,从而赋予很高的空间注意力权重,反之赋予很低的空间注意力权重。其次,由于不同通道特征图和小目标之间的相关性存在着很大的差异,有些通道特征图和小目标之间相关程度很高,有些通道特征图和小目标之间相关程度很低,因此,通过通道注意力机制,将相关程度高的通道特征图赋予较高的通道注意力权重,将相关程度低的通道特征图赋予较低的通道注意力权重,从而可以有效的提高小目标检测的效果。
图1是根据本申请一个实施例的细粒度小目标快速识别的方法流程图。参见图1,该方法包括:
101:在基于深度神经网络的目标识别算法中增加注意力机制,得到检测模型;
102:将待识别的图像输入到检测模型中进行处理;
103:采用带有注意力机制的卷积操作抽取图像的浅层特征,得到多通道的浅层特征图;
104:采用带有注意力机制的残差操作抽取图像的语义特征,得到多通道的语义特征图,并对浅层特征图和语义特征图进行融合;
其中,深度神经网络在特征抽取的过程中生成多通道的特征图,一个通道对应一个特征图。浅层特征可以描述图像的纹理、颜色等。深层特征包含图像的高级语义特征,有些抽取出来的语义特征甚至无法解释,但是对于目标的检测和识别贡献很大。将浅层特征的图像纹理信息和深层的图像语义特征,可以有效的提高小目标的检测能力。
由于深度网络在梯度反向传播的过程中采用链式法则,会导致深度网络的浅层很难得到梯度信息甚至无法得到。本发明中采用残差操作,可以通过残差连接快速的反向传播到浅层网络。残差操作通过残差连接(shortcut)将浅层特征和深层特征进行连接。反向传播时,梯度会沿着残差连接将梯度信息反向传播给浅层网络,不再受链式法则的约束,从而可以有效地抑制梯度的消失。
105:将融合后的特征图输入到检测器,根据目标类别检测出小目标。
本实施例中,可选的,采用带有注意力机制的卷积操作抽取图像的浅层特征,得到多通道的浅层特征图,包括:
采用卷积操作抽取图像的浅层特征,得到多通道的浅层特征图,将浅层特征图作为输入执行空间注意力操作,对空间注意力操作的结果执行通道注意力操作,将通道注意力操作的结果作为卷积操作的结果输出。
本实施例中,可选的,采用带有注意力机制的残差操作抽取图像的语义特征,得到多通道的语义特征图,并对浅层特征图和语义特征图进行融合,包括:
采用残差操作对卷积操作的结果抽取语义特征,得到多通道的语义特征图,将语义特征图作为输入执行空间注意力操作,对空间注意力操作的结果执行通道注意力操作,将通道注意力操作的结果与语义特征图进行融合。
本实施例中,可选的,执行空间注意力操作,包括:
将输入的特征图传输至空间注意力模块,空间注意力模块根据特征图中有效信息的分布生成相应的空间注意力权值矩阵,然后将输入的特征图与空间注意力权值矩阵进行相乘。
本实施例中,可选的,对空间注意力操作的结果执行通道注意力操作,包括:
将空间注意力操作的结果传输至通道注意力模块,通道注意力模块根据多通道特征图的重要程度生成相应的通道注意力权值矩阵,然后将空间注意力操作的结果与通道注意力权值矩阵进行相乘。
本实施例中,空间注意力模块主要功能为编码大范围的图像语义信息到局部感受野,以增强特征图的表示能力。通道注意力模块通过不同通道映射的语义信息之间的相互依赖性来增强特征图对特定语义的表征能力。
本实施例中,可选的,在基于深度神经网络的目标识别算法中增加注意力机制,得到检测模型,包括:
对YOLOv3算法模型进行降尺度处理,删除用于识别大目标的尺度,保留其余两个尺度,然后增加注意力机制,得到检测模型。
本实施例中,可选的,将融合后的特征图输入到检测器,根据目标类别检测出小目标,包括:
将融合后的特征图分别传输至两个分支,一个分支经带有注意力机制的卷积操作后传输至第一检测器,根据目标类别检测出小目标,另一个分支经上采样操作后与上层特征图进行融合,并经带有注意力机制的卷积操作后传输至第二检测器,根据目标类别检测出微小目标。
本实施例提供的上述方法,通过在基于深度神经网络的目标识别算法中增加注意力机制,得到检测模型,将待识别的图像输入到检测模型中进行处理,采用带有注意力机制的卷积操作抽取图像的浅层特征,得到多通道的浅层特征图,采用带有注意力机制的残差操作抽取图像的语义特征,得到多通道的语义特征图,并对浅层特征图和语义特征图进行融合,将融合后的特征图输入到检测器,根据目标类别检测出小目标,提高了模型的泛化能力和目标检测的速度,有效提高了小目标的检测能力和识别精度。
图2是根据本申请另一个实施例的细粒度小目标快速识别的方法流程图。参见图2,该方法包括:
201:对YOLOv3算法模型进行降尺度处理,删除用于识别大目标的尺度,保留其余两个尺度,然后增加注意力机制,得到检测模型;
由于本发明聚焦在小目标的检测和识别任务,因此,将原有的YOLOv3模型的3个尺度降低为2个尺度。其中,用来检测和识别大目标的输出Y3,由于对于小目标的识别任务贡献不大,而且增加了模型的参数量和运算量,因此将其删除,仅保留输出Y1和Y2两个尺度,从而降低了模型的参数量和运算量,提高了检测能力。
202:将待识别的图像输入到检测模型中进行处理;
203:采用卷积操作抽取图像的浅层特征,得到多通道的浅层特征图,将浅层特征图作为输入执行空间注意力操作,对空间注意力操作的结果执行通道注意力操作,将通道注意力操作的结果作为卷积操作的结果输出;
本步骤中的执行空间注意力操作,可以具体包括:
将输入的特征图即上述浅层特征图传输至空间注意力模块,空间注意力模块根据该特征图中有效信息的分布生成相应的空间注意力权值矩阵,然后将输入的特征图与空间注意力权值矩阵进行相乘。
本步骤中的对空间注意力操作的结果执行通道注意力操作,可以具体包括:
将空间注意力操作的结果传输至通道注意力模块,通道注意力模块根据多通道特征图的重要程度生成相应的通道注意力权值矩阵,然后将空间注意力操作的结果与通道注意力权值矩阵进行相乘。
204:采用残差操作对卷积操作的结果抽取语义特征,得到多通道的语义特征图,将语义特征图作为输入执行空间注意力操作,对空间注意力操作的结果执行通道注意力操作,将通道注意力操作的结果与语义特征图进行融合;
本步骤中的执行空间注意力操作,可以具体包括:
将输入的特征图即上述语义特征图传输至空间注意力模块,空间注意力模块根据该特征图中有效信息的分布生成相应的空间注意力权值矩阵,然后将输入的特征图与空间注意力权值矩阵进行相乘。
本步骤中的对空间注意力操作的结果执行通道注意力操作,可以具体包括:
将空间注意力操作的结果传输至通道注意力模块,通道注意力模块根据多通道特征图的重要程度生成相应的通道注意力权值矩阵,然后将空间注意力操作的结果与通道注意力权值矩阵进行相乘。
205:将融合后的特征图分别传输至两个分支,一个分支经带有注意力机制的卷积操作后传输至第一检测器,根据目标类别检测出小目标,另一个分支经上采样操作后与上层特征图进行融合,并经带有注意力机制的卷积操作后传输至第二检测器,根据目标类别检测出微小目标。
图3是根据本申请另一个实施例的基于YOLOv3算法模型的架构图。参见图3,该架构对YOLOv3算法模型进行降尺度处理,删除输出Y3,保留其余两个输出Y1和Y2,然后增加注意力机制,得到检测模型。使用该模型进行小目标检测的流程具体如下:
301:输入待检测的图像到上述检测模型中;
302:采用带注意力机制的卷积模块DBL_SC抽取该图像的浅层特征,得到多通道的浅层特征图,可以标记为Features_1;
303:采用带注意力机制的残差模块RES1_SC(包含1个残差模块)抽取该图像的深层语义特征,并进行第一次下采样操作,使用残差机制将本层抽取的多通道的语义特征图与上一层特征图进行融合,得到本层多通道的特征图,可以标记为Features_2;
304:采用带注意力机制的残差模块RES2_SC(包含2个残差模块)抽取该图像的深层语义特征,并进行第二次下采样操作,使用残差机制将本层抽取的多通道的语义特征图与上一层特征图进行融合,得到本层多通道的特征图,可以标记为Features_3;
305:采用带注意力机制的残差模块RES8_SC(包含8个残差模块)抽取该图像的深层语义特征,并进行第三次下采样操作,使用残差机制将本层抽取的多通道的语义特征图与上一层特征图进行融合,得到本层多通道的特征图,可以标记为Features_4;
306:采用带注意力机制的残差模块RES8_SC(包含8个残差模块)抽取该图像的深层语义特征,并进行第四次下采样操作,使用残差机制将本层抽取的多通道的语义特征图与上一层特征图进行融合,得到本层多通道的特征图,可以标记为Features_5;
307:采用带注意力机制的残差模块RES4_SC(包含4个残差模块)抽取该图像的深层语义特征,并进行第五次下采样操作,使用残差机制将本层抽取的多通道的语义特征图与上一层特征图进行融合,得到本层多通道的特征图,可以标记为Features_6;
308:对融合后的结果再次进行带注意力机制的卷积操作,抽取该图像的深层语义特征,得到本层多通道的特征图,可以标记为Features_7;。
309:对多通道特征图Features_7进行上采样,得到的结果标记为Features_8;
310:采用特征金字塔模型,将上采样的结果Features_8和之前得到的结果Features_5进行拼接,实现进一步特征融合,特征融合后的结果可以标记为Features_9。
311:再次进行带注意力机制的卷积操作,得到的特征图标记为Features_10,将Features_10作为输入同时传输给两个分支进行检测,分别执行312和314;
312:第一个分支将Features_10作为最终抽取的特征,输入到检测器进行目标检测,这个分支主要用于相对较大的小目标物体检测,根据目标物体的类别检测,最终得到识别目标Y1;
313:将识别到的目标Y1输出,该分支流程结束;
314:第二个分支将Features_10作为输入,进行上采样操作,生成的特征图可以标记为Features_11,这个分支主要用于微小物体的目标检测;
315:采用特征金字塔模型,将上采样的结果Features_11和之前得到的结果Features_4进行拼接,实现进一步特征融合,特征融合后的结果可以标记为Features_12;
316:针对Features_12执行带注意力机制的卷积操作,得到的特征图可以标记为Features_13;
317:再次执行带注意力机制的卷积操作,得到的特征图标记为Features_14;
318:将Features_14输入到检测器进行检测,根据目标物体的类别检测,最终得到识别目标Y2;
319:将识别到的目标Y2输出,该分支流程结束。
图4是根据本申请另一个实施例的注意力机制示意图。该示意图为通用示意场景,可以适用于卷积操作中的注意力机制,也可以适用于残差操作中的注意力机制,此处仅以通用场景为例进行说明。该注意力机制的处理流程包括:
401:接收输入的特征图,具体为卷积操作得到的多通道的浅层特征图或者残差操作得到的多通道的语义特征图;
402:对输入的特征图进行卷积操作抽取深层语义特征,得到多通道的特征图后输入至空间注意力模块;
403:空间注意力模块对输入的特征图执行空间注意力操作,根据特征图中有效信息的分布生成相应的空间注意力权值矩阵,并与输入的特征图进行相乘,然后结果输入至通道注意力模块;
404:通道注意力模块对输入的特征图执行通道注意力操作,根据多通道特征图的重要程度生成相应的通道注意力权值矩阵,并与输入的特征图进行相乘;
405:将经过空间注意力和通道注意力机制得到的特征图,与401中输入的特征图进行加法操作,实现特征融合,最终输出融合后的多通道特征图。
本实施例提供的上述方法,通过在基于深度神经网络的目标识别算法中增加注意力机制,得到检测模型,将待识别的图像输入到检测模型中进行处理,采用带有注意力机制的卷积操作抽取图像的浅层特征,得到多通道的浅层特征图,采用带有注意力机制的残差操作抽取图像的语义特征,得到多通道的语义特征图,并对浅层特征图和语义特征图进行融合,将融合后的特征图输入到检测器,根据目标类别检测出小目标,提高了模型的泛化能力和目标检测的速度,有效提高了小目标的检测能力和识别精度。
图5是根据本申请另一个实施例的细粒度小目标快速识别的装置结构图。参见图5,该装置包括:
建立模块501,其配置成在基于深度神经网络的目标识别算法中增加注意力机制,得到检测模型;
输入模块502,其配置成将待识别的图像输入到检测模型中进行处理;
卷积模块503,其配置成采用带有注意力机制的卷积操作抽取图像的浅层特征,得到多通道的浅层特征图;
残差模块504,其配置成采用带有注意力机制的残差操作抽取图像的语义特征,得到多通道的语义特征图,并对浅层特征图和语义特征图进行融合;
检测模块505,其配置成将融合后的特征图输入到检测器,根据目标类别检测出小目标。
本实施例中,可选的,卷积模块具体配置成:
采用卷积操作抽取图像的浅层特征,得到多通道的浅层特征图,将浅层特征图作为输入执行空间注意力操作,对空间注意力操作的结果执行通道注意力操作,将通道注意力操作的结果作为卷积操作的结果输出。
本实施例中,可选的,残差模块具体配置成:
采用残差操作对卷积操作的结果抽取语义特征,得到多通道的语义特征图,将语义特征图作为输入执行空间注意力操作,对空间注意力操作的结果执行通道注意力操作,将通道注意力操作的结果与语义特征图进行融合。
本实施例中,可选的,卷积模块或残差模块还包括:
空间注意力模块,其配置成接收输入的特征图,根据特征图中有效信息的分布生成相应的空间注意力权值矩阵,然后将输入的特征图与空间注意力权值矩阵进行相乘。
本实施例中,可选的,卷积模块或残差模块还包括:
通道注意力模块,其配置成接收输入的空间注意力操作的结果,根据多通道特征图的重要程度生成相应的通道注意力权值矩阵,然后将空间注意力操作的结果与通道注意力权值矩阵进行相乘。
本实施例中,可选的,建立模块具体配置成:
对YOLOv3算法模型进行降尺度处理,删除用于识别大目标的尺度,保留其余两个尺度,然后增加注意力机制,得到检测模型。
本实施例中,可选的,检测模块具体配置成:
将融合后的特征图分别传输至两个分支,一个分支经带有注意力机制的卷积操作后传输至第一检测器,根据目标类别检测出小目标,另一个分支经上采样操作后与上层特征图进行融合,并经带有注意力机制的卷积操作后传输至第二检测器,根据目标类别检测出微小目标。
本实施例提供的上述装置,可以执行上述任一方法实施例提供的方法,详细过程详见方法实施例中的描述,此处不赘述。
本实施例提供的上述装置,通过在基于深度神经网络的目标识别算法中增加注意力机制,得到检测模型,将待识别的图像输入到检测模型中进行处理,采用带有注意力机制的卷积操作抽取图像的浅层特征,得到多通道的浅层特征图,采用带有注意力机制的残差操作抽取图像的语义特征,得到多通道的语义特征图,并对浅层特征图和语义特征图进行融合,将融合后的特征图输入到检测器,根据目标类别检测出小目标,提高了模型的泛化能力和目标检测的速度,有效提高了小目标的检测能力和识别精度。
根据下文结合附图对本申请的具体实施例的详细描述,本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。
本申请实施例还提供了一种计算设备,参照图6,该计算设备包括存储器1120、处理器1110和存储在所述存储器1120内并能由所述处理器1110运行的计算机程序,该计算机程序存储于存储器1120中的用于程序代码的空间1130,该计算机程序在由处理器1110执行时实现用于执行任一项根据本发明的方法步骤1131。
本申请实施例还提供了一种计算机可读存储介质。参照图7,该计算机可读存储介质包括用于程序代码的存储单元,该存储单元设置有用于执行根据本发明的方法步骤的程序1131′,该程序被处理器执行。
本申请实施例还提供了一种包含指令的计算机程序产品。当该计算机程序产品在计算机上运行时,使得计算机执行根据本发明的方法步骤。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、获取其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令处理器完成,所述的程序可以存储于计算机可读存储介质中,所述存储介质是非短暂性(英文:non-transitory)介质,例如随机存取存储器,只读存储器,快闪存储器,硬盘,固态硬盘,磁带(英文:magnetic tape),软盘(英文:floppy disk),光盘(英文:optical disc)及其任意组合。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

Claims (10)

1.一种细粒度小目标快速识别的方法,其特征在于,包括:
在基于深度神经网络的目标识别算法中增加注意力机制,得到检测模型;
将待识别的图像输入到所述检测模型中进行处理;
采用带有注意力机制的卷积操作抽取所述图像的浅层特征,得到多通道的浅层特征图;
采用带有注意力机制的残差操作抽取所述图像的语义特征,得到多通道的语义特征图,并对所述浅层特征图和语义特征图进行融合;
将融合后的特征图输入到检测器,根据目标类别检测出小目标;
在基于深度神经网络的目标识别算法中增加注意力机制,得到检测模型,包括:
对YOLOv3算法模型进行降尺度处理,删除用于识别大目标的尺度,保留其余两个尺度,然后增加注意力机制,得到检测模型;
将融合后的特征图输入到检测器,根据目标类别检测出小目标,包括:
将融合后的特征图分别传输至两个分支,一个分支经带有注意力机制的卷积操作后传输至第一检测器,根据目标类别检测出小目标,另一个分支经上采样操作后与上层特征图进行融合,并经带有注意力机制的卷积操作后传输至第二检测器,根据目标类别检测出微小目标。
2.根据权利要求1所述的方法,其特征在于,采用带有注意力机制的卷积操作抽取所述图像的浅层特征,得到多通道的浅层特征图,包括:
采用卷积操作抽取所述图像的浅层特征,得到多通道的浅层特征图,将所述浅层特征图作为输入执行空间注意力操作,对所述空间注意力操作的结果执行通道注意力操作,将所述通道注意力操作的结果作为所述卷积操作的结果输出。
3.根据权利要求2所述的方法,其特征在于,采用带有注意力机制的残差操作抽取所述图像的语义特征,得到多通道的语义特征图,并对所述浅层特征图和语义特征图进行融合,包括:
采用残差操作对所述卷积操作的结果抽取语义特征,得到多通道的语义特征图,将所述语义特征图作为输入执行空间注意力操作,对所述空间注意力操作的结果执行通道注意力操作,将所述通道注意力操作的结果与所述语义特征图进行融合。
4.根据权利要求2或3所述的方法,其特征在于,执行空间注意力操作,包括:
将输入的特征图传输至空间注意力模块,所述空间注意力模块根据所述特征图中有效信息的分布生成相应的空间注意力权值矩阵,然后将所述输入的特征图与所述空间注意力权值矩阵进行相乘。
5.根据权利要求2或3所述的方法,其特征在于,对所述空间注意力操作的结果执行通道注意力操作,包括:
将所述空间注意力操作的结果传输至通道注意力模块,所述通道注意力模块根据多通道特征图的重要程度生成相应的通道注意力权值矩阵,然后将所述空间注意力操作的结果与所述通道注意力权值矩阵进行相乘。
6.一种细粒度小目标快速识别的装置,其特征在于,包括:
建立模块,其配置成在基于深度神经网络的目标识别算法中增加注意力机制,得到检测模型;
输入模块,其配置成将待识别的图像输入到所述检测模型中进行处理;
卷积模块,其配置成采用带有注意力机制的卷积操作抽取所述图像的浅层特征,得到多通道的浅层特征图;
残差模块,其配置成采用带有注意力机制的残差操作抽取所述图像的语义特征,得到多通道的语义特征图,并对所述浅层特征图和语义特征图进行融合;
检测模块,其配置成将融合后的特征图输入到检测器,根据目标类别检测出小目标;
所述建立模块具体配置成:
对YOLOv3算法模型进行降尺度处理,删除用于识别大目标的尺度,保留其余两个尺度,然后增加注意力机制,得到检测模型;
所述检测模块具体配置成:
将融合后的特征图分别传输至两个分支,一个分支经带有注意力机制的卷积操作后传输至第一检测器,根据目标类别检测出小目标,另一个分支经上采样操作后与上层特征图进行融合,并经带有注意力机制的卷积操作后传输至第二检测器,根据目标类别检测出微小目标。
7.根据权利要求6所述的装置,其特征在于,所述卷积模块具体配置成:
采用卷积操作抽取所述图像的浅层特征,得到多通道的浅层特征图,将所述浅层特征图作为输入执行空间注意力操作,对所述空间注意力操作的结果执行通道注意力操作,将所述通道注意力操作的结果作为所述卷积操作的结果输出。
8.根据权利要求7所述的装置,其特征在于,所述残差模块具体配置成:
采用残差操作对所述卷积操作的结果抽取语义特征,得到多通道的语义特征图,将所述语义特征图作为输入执行空间注意力操作,对所述空间注意力操作的结果执行通道注意力操作,将所述通道注意力操作的结果与所述语义特征图进行融合。
9.根据权利要求7或8所述的装置,其特征在于,所述卷积模块或残差模块还包括:
空间注意力模块,其配置成接收输入的特征图,根据所述特征图中有效信息的分布生成相应的空间注意力权值矩阵,然后将所述输入的特征图与所述空间注意力权值矩阵进行相乘。
10.根据权利要求7或8所述的装置,其特征在于,所述卷积模块或残差模块还包括:
通道注意力模块,其配置成接收输入的所述空间注意力操作的结果,根据多通道特征图的重要程度生成相应的通道注意力权值矩阵,然后将所述空间注意力操作的结果与所述通道注意力权值矩阵进行相乘。
CN202011437106.XA 2020-12-07 2020-12-07 细粒度小目标快速识别的方法和装置 Active CN112418345B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011437106.XA CN112418345B (zh) 2020-12-07 2020-12-07 细粒度小目标快速识别的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011437106.XA CN112418345B (zh) 2020-12-07 2020-12-07 细粒度小目标快速识别的方法和装置

Publications (2)

Publication Number Publication Date
CN112418345A CN112418345A (zh) 2021-02-26
CN112418345B true CN112418345B (zh) 2024-02-23

Family

ID=74776277

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011437106.XA Active CN112418345B (zh) 2020-12-07 2020-12-07 细粒度小目标快速识别的方法和装置

Country Status (1)

Country Link
CN (1) CN112418345B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112990317B (zh) * 2021-03-18 2022-08-30 中国科学院长春光学精密机械与物理研究所 一种弱小目标检测方法
CN113688826A (zh) * 2021-07-05 2021-11-23 北京工业大学 基于特征融合的花粉图像检测方法及系统
CN113537254B (zh) * 2021-08-27 2022-08-26 重庆紫光华山智安科技有限公司 图像特征提取方法、装置、电子设备及可读存储介质
CN114037839B (zh) * 2021-10-21 2024-06-28 长沙理工大学 一种小目标识别方法、系统、电子设备及介质
CN117876831A (zh) * 2024-01-15 2024-04-12 国家粮食和物资储备局科学研究院 目标检测识别方法、装置、电子设备和存储介质

Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109145713A (zh) * 2018-07-02 2019-01-04 南京师范大学 一种结合目标检测的小目标语义分割方法
CN110276269A (zh) * 2019-05-29 2019-09-24 西安交通大学 一种基于注意力机制的遥感图像目标检测方法
CN110533084A (zh) * 2019-08-12 2019-12-03 长安大学 一种基于自注意力机制的多尺度目标检测方法
CN110633610A (zh) * 2019-05-17 2019-12-31 西南交通大学 一种基于yolo的学员状态检测算法
CN110909666A (zh) * 2019-11-20 2020-03-24 西安交通大学 一种基于改进型YOLOv3卷积神经网络的夜间车辆检测方法
CN110991362A (zh) * 2019-12-06 2020-04-10 西安电子科技大学 一种基于注意力机制的行人检测模型
CN111008555A (zh) * 2019-10-21 2020-04-14 武汉大学 一种无人机图像弱小目标增强提取方法
CN111079584A (zh) * 2019-12-03 2020-04-28 东华大学 基于改进YOLOv3的快速车辆检测方法
CN111179217A (zh) * 2019-12-04 2020-05-19 天津大学 一种基于注意力机制的遥感图像多尺度目标检测方法
AU2020100705A4 (en) * 2020-05-05 2020-06-18 Chang, Jiaying Miss A helmet detection method with lightweight backbone based on yolov3 network
CN111612751A (zh) * 2020-05-13 2020-09-01 河北工业大学 基于嵌入分组注意力模块的Tiny-yolov3网络的锂电池缺陷检测方法
CN111626208A (zh) * 2020-05-27 2020-09-04 北京百度网讯科技有限公司 用于检测小目标的方法和装置
CN111652035A (zh) * 2020-03-30 2020-09-11 武汉大学 一种基于ST-SSCA-Net的行人重识别方法及系统
CN111681240A (zh) * 2020-07-07 2020-09-18 福州大学 一种基于YOLO v3与注意力机制的桥梁表面裂痕检测方法
CN111695448A (zh) * 2020-05-27 2020-09-22 东南大学 一种基于视觉传感器的路侧车辆识别方法
CN111753666A (zh) * 2020-05-21 2020-10-09 西安科技大学 输电线路中小目标故障检测方法、检测系统及存储介质
CN111767882A (zh) * 2020-07-06 2020-10-13 江南大学 一种基于改进yolo模型的多模态行人检测方法
CN111914917A (zh) * 2020-07-22 2020-11-10 西安建筑科技大学 一种基于特征金字塔网络和注意力机制的目标检测改进算法
CN111931792A (zh) * 2020-08-12 2020-11-13 桂林电子科技大学 一种基于目标检测的瑶族纹样符号识别方法

Patent Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109145713A (zh) * 2018-07-02 2019-01-04 南京师范大学 一种结合目标检测的小目标语义分割方法
CN110633610A (zh) * 2019-05-17 2019-12-31 西南交通大学 一种基于yolo的学员状态检测算法
CN110276269A (zh) * 2019-05-29 2019-09-24 西安交通大学 一种基于注意力机制的遥感图像目标检测方法
CN110533084A (zh) * 2019-08-12 2019-12-03 长安大学 一种基于自注意力机制的多尺度目标检测方法
CN111008555A (zh) * 2019-10-21 2020-04-14 武汉大学 一种无人机图像弱小目标增强提取方法
CN110909666A (zh) * 2019-11-20 2020-03-24 西安交通大学 一种基于改进型YOLOv3卷积神经网络的夜间车辆检测方法
CN111079584A (zh) * 2019-12-03 2020-04-28 东华大学 基于改进YOLOv3的快速车辆检测方法
CN111179217A (zh) * 2019-12-04 2020-05-19 天津大学 一种基于注意力机制的遥感图像多尺度目标检测方法
CN110991362A (zh) * 2019-12-06 2020-04-10 西安电子科技大学 一种基于注意力机制的行人检测模型
CN111652035A (zh) * 2020-03-30 2020-09-11 武汉大学 一种基于ST-SSCA-Net的行人重识别方法及系统
AU2020100705A4 (en) * 2020-05-05 2020-06-18 Chang, Jiaying Miss A helmet detection method with lightweight backbone based on yolov3 network
CN111612751A (zh) * 2020-05-13 2020-09-01 河北工业大学 基于嵌入分组注意力模块的Tiny-yolov3网络的锂电池缺陷检测方法
CN111753666A (zh) * 2020-05-21 2020-10-09 西安科技大学 输电线路中小目标故障检测方法、检测系统及存储介质
CN111626208A (zh) * 2020-05-27 2020-09-04 北京百度网讯科技有限公司 用于检测小目标的方法和装置
CN111695448A (zh) * 2020-05-27 2020-09-22 东南大学 一种基于视觉传感器的路侧车辆识别方法
CN111767882A (zh) * 2020-07-06 2020-10-13 江南大学 一种基于改进yolo模型的多模态行人检测方法
CN111681240A (zh) * 2020-07-07 2020-09-18 福州大学 一种基于YOLO v3与注意力机制的桥梁表面裂痕检测方法
CN111914917A (zh) * 2020-07-22 2020-11-10 西安建筑科技大学 一种基于特征金字塔网络和注意力机制的目标检测改进算法
CN111931792A (zh) * 2020-08-12 2020-11-13 桂林电子科技大学 一种基于目标检测的瑶族纹样符号识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Attention-YOLO:引入注意力机制的YOLO检测算法;徐诚极 等;计算机工程与应用;第55卷(第6期);13-25 *
Dual efficient self-attention network for multi-target detection in aerial imagery;Sikui Wang 等;《Second Target Recognition and Artificial Intelligence Summit Forum》;1-8 *
SS-YOLO :An Object Detection Algorithm Based on YOLOV3 and Shuffle Net;Y. Li 等;《2020 IEEE 4th Information Technology, Networking, Electronic and Automation Control Conference (ITNEC), Chongqing, China》;769-772 *
YOLOV3:An Incremental Improvement;Joseph Redmon 等;《ARIXIV:1804.02767v1》;1-6 *

Also Published As

Publication number Publication date
CN112418345A (zh) 2021-02-26

Similar Documents

Publication Publication Date Title
CN112418345B (zh) 细粒度小目标快速识别的方法和装置
CN109816589B (zh) 用于生成漫画风格转换模型的方法和装置
US11321593B2 (en) Method and apparatus for detecting object, method and apparatus for training neural network, and electronic device
CN113761976A (zh) 基于全局引导选择性上下文网络的场景语义解析方法
CN111310770B (zh) 目标检测方法和装置
CN106462572A (zh) 用于分布式光学字符识别和分布式机器语言翻译的技术
CN111428805B (zh) 显著性物体的检测方法、模型、存储介质及电子设备
WO2021047482A1 (en) Method and system for performing steganographic technique
WO2023005386A1 (zh) 模型训练方法和装置
CN112949767A (zh) 样本图像增量、图像检测模型训练及图像检测方法
CN115861400B (zh) 目标对象检测方法、训练方法、装置以及电子设备
CN114936377A (zh) 模型训练和身份匿名化方法、装置、设备及存储介质
CN110991412A (zh) 人脸识别的方法、装置、存储介质及电子设备
CN113780326A (zh) 一种图像处理方法、装置、存储介质及电子设备
CN113140012A (zh) 图像处理方法、装置、介质及电子设备
CN117011156A (zh) 图像处理方法、装置、设备及存储介质
CN111738972B (zh) 建筑检测系统、方法和装置
CN116012612A (zh) 内容检测方法和系统
CN115601629A (zh) 模型训练方法、图像识别方法、介质、装置和计算设备
CN115757725A (zh) 问答处理方法、装置、计算机设备及存储介质
WO2024179388A1 (zh) 一种复式神经网络架构的浮游生物目标检测与分类方法
CN117689772A (zh) 一种基于潜空间特征融合的物体背景合成方法和系统
US20240037713A1 (en) System, devices and/or processes for image anti-aliasing
CN116258873A (zh) 一种位置信息确定方法、对象识别模型的训练方法及装置
CN116977692A (zh) 一种数据处理方法、设备以及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230519

Address after: Building 201, Phase 1, Tian'an Yungu Industrial Park, Gangtou Community, Bantian Street, Longgang District, Shenzhen City, Guangdong Province, 518129

Applicant after: Shenzhen Xiaoyang Software Co.,Ltd.

Address before: Room 1111, North building, Institute of technology, 1699 Zuchongzhi Road, Kunshan City, Suzhou City, Jiangsu Province, 215300

Applicant before: Suzhou Xiaoyang Software Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant