CN113283450A - 图像识别方法、装置、设备及计算机存储介质 - Google Patents

图像识别方法、装置、设备及计算机存储介质 Download PDF

Info

Publication number
CN113283450A
CN113283450A CN202110634147.6A CN202110634147A CN113283450A CN 113283450 A CN113283450 A CN 113283450A CN 202110634147 A CN202110634147 A CN 202110634147A CN 113283450 A CN113283450 A CN 113283450A
Authority
CN
China
Prior art keywords
feature map
network
target
image
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110634147.6A
Other languages
English (en)
Inventor
聂泳忠
杨素伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiren Ma Diyan Beijing Technology Co ltd
Original Assignee
Xiren Ma Diyan Beijing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiren Ma Diyan Beijing Technology Co ltd filed Critical Xiren Ma Diyan Beijing Technology Co ltd
Priority to CN202110634147.6A priority Critical patent/CN113283450A/zh
Publication of CN113283450A publication Critical patent/CN113283450A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种图像识别方法、装置、设备及计算机存储介质。该图像识别方法包括:获取待识别图像的单级特征图;基于预设感受野RFB网络模型对待识别图像的单级特征图进行空洞卷积,得到第一目标特征图;基于缩放点积注意力模型为第一目标特征图的所有通道分配注意力权重,并基于分配后的注意力权重输出第二目标特征图;基于第二目标特征图进行目标识别,得到待识别图像的识别结果。根据本申请实施例,能够解决如何提升对小目标识别的准确性的问题。

Description

图像识别方法、装置、设备及计算机存储介质
技术领域
本申请属于图像识别技术领域,具体涉及一种图像识别方法、装置、设备和存储介质。
背景技术
目前,图像识别技术领域在获取原始图像的特征图时,常常使用空洞卷积(Dilated Convolution)操作以增大特征的感受野。
然而,感受野变大,得到的特征图仅能够有效地表达尺寸较大的目标,但是对小目标的表达能力变差,无法有效表达尺寸较小的小目标,因此在利用空洞卷积后的特征图进行目标检测识别时,会影响对较小目标的检测识别能力,降低了小目标的识别准确性。因此,如何提升对小目标识别的准确性,是亟需解决的问题。
发明内容
本申请实施例提供一种图像识别方法、装置、设备及计算机存储介质,能够解决如何提升对小目标识别的准确性的问题。
第一方面,本申请实施例提供一种图像识别方法,该方法包括:获取待识别图像的单级特征图;基于预设感受野RFB网络模型对待识别图像的单级特征图进行空洞卷积,得到第一目标特征图;基于缩放点积注意力模型为第一目标特征图的所有通道分配注意力权重,并基于分配后的注意力权重输出第二目标特征图;基于第二目标特征图进行目标识别,得到待识别图像的识别结果。
在第一方面的一些可实现方式中,预设RFB网络模型包括预设卷积层、第一残差网络和第二残差网络,基于预设感受野RFB网络模型对待识别图像的单级特征图进行空洞卷积,得到第一目标特征图,包括:通过预设卷积层,对待识别图像的单级特征图进行降维和语义提取,得到第一特征图;基于第一残差网络对第一特征图进行空洞卷积,得到第二特征图;基于第二残差网络对第二特征图进行空洞卷积,得到第一目标特征图。
在第一方面的一些可实现方式中,第一残差网络包括第一子网络和第二子网络,基于第一残差网络对第一特征图进行空洞卷积,得到第二特征图,包括:基于第一子网络增大第一特征图的感受野,得到第三特征图;基于第二子网络增大第一特征图的感受野,得到第四特征图;将第四特征图与第一特征图进行add特征融合,得到第五特征图;将第五特征图与第三特征图进行Concat特征融合,得到第六特征图;将第六特征图与第一特征图进行add特征融合,得到第二特征图。
在第一方面的一些可实现方式中,第二残差网络包括四个膨胀率不同的第三子网络,第三子网络按照膨胀率由小到大的顺序进行排列。
在第一方面的一些可实现方式中,第一子网络与第二子网络的膨胀率不同。
在第一方面的一些可实现方式中,预设卷积层包括第一卷积层和第二卷积层,第一卷积层的卷积核大小为1*1,第二卷积层的卷积核大小为3*3。
第二方面,本申请实施例提供一种图像识别装置,该装置包括:获取模块,用于获取待识别图像的单级特征图;空洞卷积模块,用于基于预设RFB网络模型对待识别图像的单级特征图进行空洞卷积,得到第一目标特征图;注意力模块,用于基于缩放点积注意力模型为第一目标特征图的所有通道分配注意力权重,并基于分配后的注意力权重输出第二目标特征图;识别模块,用于基于第二目标特征图进行目标识别,得到待识别图像的识别结果。
在第二方面的一些可实现方式中,预设RFB网络模型包括预设卷积层、第一残差网络和第二残差网络,空洞卷积模块包括:降维和语义提取单元,用于通过预设卷积层,对待识别图像的单级特征图进行降维和语义提取,得到第一特征图;空洞卷积单元,用于基于第一残差网络对第一特征图进行空洞卷积,得到第二特征图;空洞卷积单元,还用于基于第二残差网络对第二特征图进行空洞卷积,得到第一目标特征图。
在第二方面的一些可实现方式中,第一残差网络包括第一子网络和第二子网络,空洞卷积单元包括:感受野子单元,用于基于第一子网络增大第一特征图的感受野,得到第三特征图;感受野子单元,还用于基于第二子网络增大第一特征图的感受野,得到第四特征图;特征融合子单元,用于将第四特征图与第一特征图进行add特征融合,得到第五特征图;特征融合子单元,还用于将第五特征图与第三特征图进行Concat特征融合,得到第六特征图;特征融合子单元,还用于将第六特征图与第一特征图进行add特征融合,得到第二特征图。
在第二方面的一些可实现方式中,第二残差网络包括四个膨胀率不同的第三子网络,第三子网络按照膨胀率由小到大的顺序进行排列。
在第二方面的一些可实现方式中,第一子网络与第二子网络的膨胀率不同。
在第二方面的一些可实现方式中,预设卷积层包括第一卷积层和第二卷积层,第一卷积层的卷积核大小为1*1,第二卷积层的卷积核大小为3*3。
第三方面,本申请提供一种图像识别设备,该设备包括:处理器以及存储有计算机程序指令的存储器;处理器执行计算机程序指令时实现第一方面或者第一方面任一可实现方式中的图像识别方法。
第四方面,本申请提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现第一方面或者第一方面任一可实现方式中的图像识别方法。
本申请实施例提供了一种图像识别方法,获取待识别图像的单级特征图,并基于预设感受野RFB网络模型对待识别图像的单级特征图进行空洞卷积,得到第一目标特征图。由于使用空洞卷积无法有效表达尺寸较小的小目标,因此基于缩放点积注意力模型为第一目标特征图的所有通道分配注意力权重,并基于分配后的注意力权重输出第二目标特征图,通过分配权重能够缓解特征图中关键特征的丢失,从而使输出的第二目标特征图能够对大目标和小目标均有效表达,解决特征图无法有效表达小目标的问题。在此基础上,基于第二目标特征图进行目标识别,能够有效识别尺寸较小的小目标,提升识别结果的准确性。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种图像识别方法的流程示意图;
图2是本申请实施例提供的待识别图像的示例的示意图;
图3是本申请实施例提供的一种RFB网络模型的结构示意图;
图4是本申请实施例提供的另一种图像识别方法的流程示意图;
图5是本申请实施例提供的一种空洞卷积方法的流程示意图;
图6是本申请实施例提供的一种图像识别装置的结构示意图;
图7是本申请实施例提供的一种图像识别设备的硬件结构示意图。
具体实施方式
下面将详细描述本申请的各个方面的特征和示例性实施例,为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本申请进行进一步详细描述。应理解,此处所描述的具体实施例仅意在解释本申请,而不是限定本申请。对于本领域技术人员来说,本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
如背景技术,图像识别技术领域在获取原始图像的特征图时,通常使用空洞卷积(Dilated Convolution)操作以增大特征的感受野。
然而,感受野变大,得到的特征图仅能够有效地表达尺寸较大的目标,但是对小目标的表达能力变差,无法有效表达尺寸较小的小目标,因此在利用空洞卷积后的特征图进行目标检测识别时,会影响对较小目标的检测识别能力,降低了小目标的识别准确性。因此,如何提升对小目标识别的准确性,是亟需解决的问题。
为了解决相关技术中的问题,本申请实施例提供了一种图像识别方法,获取待识别图像的单级特征图,并基于预设感受野RFB网络模型对待识别图像的单级特征图进行空洞卷积,得到第一目标特征图。由于使用空洞卷积无法有效表达尺寸较小的小目标,因此基于缩放点积注意力模型为第一目标特征图的所有通道分配注意力权重,并基于分配后的注意力权重输出第二目标特征图,通过分配权重能够缓解特征图中关键特征的丢失,从而使输出的第二目标特征图能够对大目标和小目标均有效表达,解决特征图无法有效表达小目标的问题。在此基础上,基于第二目标特征图进行目标识别,能够有效识别尺寸较小的小目标,提升识别结果的准确性,解决了如何提升对小目标识别的准确性的问题。
下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的图像识别方法进行详细地说明。
图1是本申请实施例提供的一种图像识别方法的流程示意图,其中,该图像识别方法的执行主体可以是图像识别设备。需要说明的是,上述执行主体并不构成对本申请的限定。
如图1所示,该图像识别方法可以包括S110-S140。
S110,获取待识别图像的单级特征图。
在本申请的一些实施例中,S110可以具体包括:向预设特征提取网络输入待识别图像,输出待识别图像的单级特征图。
其中,预设特征提取网络可以根据具体需求进行选择。
示例性地,该预设特征提取网络可以为VGG16模型、DenseNet模型、HourGlass模型或者特征金字塔网络(Feature Pyramid Networks,FPN)模型等可以提取图像特征的特征提取网络。
在本申请的一些实施例中,S110可以具体包括:通过FPN模型对输入的待识别图像进行特征提取,输出待识别图像的单级特征图。
在本申请的一些实施例中,单级特征图可以包括多个类别,其中,不同类别的单级特征图用于识别不同尺寸大小的目标。
在本申请的一些实施例中,S110可以具体包括:基于darknet53网络,融合多个残差块对待识别图像进行特征提取,得到多个类别的单级特征图。
作为一个具体的示例,图2所示的201为待识别图像,向特征提取网络输入待识别图像201之后,特征提取网络中包括的主干网络backbone,以darknet53网络为基础,融合多个残差块对待识别图像201的主要特征进行提取。其中,对于backbone部分的第二个CSP1_3模块可以输出A类单级特征图,其用于解码器端识别小尺寸的小目标202;对于backbone部分的最后一个CSP1_3模块可以输出B类单级特征图,其用于解码器端识别中尺寸的中目标203;对于Neck部分的CSP2_1模块可以输出C类单级特征图,其用于解码器端识别大尺寸的大目标204。
如此,使用darknet53融合多个残差块对输入图像提取特征,并以不同深度网络层输出的单级特征图作为不同尺寸目标识别解码器的输入,以更高效、更低耗地完成对目标边框的回归和目标类别的判定。
S120,基于预设感受野RFB网络模型对待识别图像的单级特征图进行空洞卷积,得到第一目标特征图。
其中,预设RFB网络模型用于对单级特征图进行空洞卷积(DilatedConvolution),以增大单级特征图的感受野。
在本申请的一些实施例中,第一目标特征图为待识别图像的多级特征图。
在本申请的一些实施例中,预设RFB网络模型可以包括预设卷积层、第一残差网络和第二残差网络,S120可以具体包括下述步骤:
S121,通过预设卷积层,对待识别图像的单级特征图进行降维和语义提取,得到第一特征图。
在本申请的一些实施例中,预设卷积层可以包括第一卷积层和第二卷积层。
在上述实施例中,S121可以具体包括下述步骤:通过第一卷积层对待识别图像的单级特征图进行降维;通过第二卷积层对降维后的单级特征图进行语义提取。
示例性地,第一卷积层的卷积核大小可以为1*1,第二卷积层的卷积核大小可以为3*3。
S122,基于第一残差网络对第一特征图进行空洞卷积,得到第二特征图。
S123,基于第二残差网络对第二特征图进行空洞卷积,得到第一目标特征图。
在本申请的一些实施例中,第二残差网络包括四个膨胀率不同的第三子网络,第三子网络按照膨胀率由小到大的顺序进行排列。
示例性地,第二残差网络可以包括四个膨胀率分别为2,4,6,8的第三子网络。
作为一个具体的实施例,图3是本申请实施例提供的一种RFB网络模型的结构示意图,如图3所示,该RFB网络模型300可以包括卷积核大小为1*1的第一卷积层301、卷积核大小为3*3的第二卷积层302、第一残差网络303和第二残差网络304,其中,第二残差网络304包括四个膨胀率分别为2,4,6,8的第三子网络。
如此,基于RFB网络模型对待识别图像的单级特征图进行空洞卷积,可以有效增大单级特征图在深度方向上的感受野范围,同时通过RFB模型中的残差模块实现对多个特征图的特征融合,为捕获更多像素点的类似特征提供帮助,提升网络的特征提取能力。
S130,基于缩放点积注意力模型为第一目标特征图的所有通道分配注意力权重,并基于分配后的注意力权重输出第二目标特征图。
在本申请的一些实施例中,S130可以具体包括下述步骤:基于第一目标特征图计算查询向量query和键key之间的相似性或相关性,得到注意力权重;对注意力权重进行归一化处理;依据注意力权重对值value进行加权求和。
在上述实施例中,可以通过自编码器Embeding进行训练,将词嵌入层,即第一目标特征图按照不同的权重做线性变换,得到n个不一样的(Q,K,V)稠密矩阵(Q为查询向量,K为键,V为值),然后通过注意力attention计算,得到n种不同角度的注意力attention权重。
由于空洞卷积的加入,导致网络对较小目标的检测识别能力降低,而基于缩放点积注意力模型对空洞卷积后得到的特征图进行处理,可以捕捉到全局之间的联系,缓解了解码过程中在长距离信息传递中的信息丢失问题,抑制了特征图中关键特征的丢失,解决了长距离依赖,从而使输出的第二目标特征图能够对大目标和小目标均有效表达,解决特征图无法有效表达小目标的问题,提升了对小目标的识别性能。
在本申请的一些实施例中,S130可以具体包括:在解码器端添加通道域和空间域的缩放点积注意力模型。
在上述实施例中,在解码器端,基于通道域和空间域的缩放点积注意力(ScaledDot-product Attention)模型对第一目标特征图进行处理。
在本申请的一些实施例中,空间域的缩放点积注意力模型作用在空间尺度上,用于为不同空间区域加权,即将第一目标特征图中的空间域信息做对应的空间变换,从而能将关键的信息提取出来;通道域的缩放点积注意力模型作用在通道Channel尺度上,用于为不同通道特征加权,即为第一目标特征图的每个通道上的信号都增加一个权重,来代表该通道与关键信息的相关度的话,这个权重越大,则表示相关度越高。
如此,在解码器端中加入通道方向与空间方向上的注意力单元,能够缓解不同网络层之间不同的感受野能力导致的特征图中关键特征的丢失,从而使输出的第二目标特征图能够对大目标和小目标均有效表达,解决特征图无法有效表达小目标的问题,提升了对小目标的识别性能。
S140,基于第二目标特征图进行目标识别,得到待识别图像的识别结果。
本申请实施例提供的图像识别方法,获取待识别图像的单级特征图,并基于预设感受野RFB网络模型对待识别图像的单级特征图进行空洞卷积,得到第一目标特征图。由于使用空洞卷积无法有效表达尺寸较小的小目标,因此基于缩放点积注意力模型为第一目标特征图的所有通道分配注意力权重,并基于分配后的注意力权重输出第二目标特征图,通过分配权重能够缓解特征图中关键特征的丢失,从而使输出的第二目标特征图能够对大目标和小目标均有效表达,解决特征图无法有效表达小目标的问题。在此基础上,基于第二目标特征图进行目标识别,能够有效识别尺寸较小的小目标,提升识别结果的准确性。
在本申请的一些实施例中,S140可以具体包括:基于第二目标特征图生成多个锚框anchor;基于每个anchor和ground truth(GT)框计算iou值;根据第一预设iou阈值和每个anchor对应的iou值,确定多个anchor中的正样本;根据第二预设iou阈值和每个anchor对应的iou值,确定多个anchor中的负样本;使用正样本和负样本进行目标分类预测,使用正样本进行位置的偏移和缩放预测,得到待识别图像的识别结果,该识别结果用于标识待识别图像中目标的位置。
在上述实施例中,可以以第二目标特征图上的坐标点为锚点,滑窗式的生成anchor。
在本申请的一些实施例中,为了能够在进行空洞卷积时,获取更细粒度、更丰富的特征,以弥补除去多级特征图融合后产生的差距,本申请实施例中预设RFB网络模型中的第一残差网络可以包括第一子网络和第二子网络,如图4所示,S122基于第一残差网络对第一特征图进行空洞卷积,得到第二特征图,可以具体包括下述步骤:
S410,基于第一子网络增大第一特征图的感受野,得到第三特征图。
S420,基于第二子网络增大第一特征图的感受野,得到第四特征图。
在本申请的一些实施例中,第一子网络与第二子网络的膨胀率不同。
示例性地,第一子网络的膨胀率可以为1,第二子网络的膨胀率可以为3。
需要说明的是,本申请在此不对第一子网络和第二子网络的膨胀率大小进行具体限定。
S430,将第四特征图与第一特征图进行add特征融合,得到第五特征图。
S440,将第五特征图与第三特征图进行Concat特征融合,得到第六特征图。
S450,将第六特征图与第一特征图进行add特征融合,得到第二特征图。
需要说明的是,S410可以在S420之前,也可以在S420之后,本申请不对S410和S420的执行顺序做具体限定。
作为一个具体的实施例,图5是本申请实施例提供的一种空洞卷积方法的流程示意图,如图5所示,第一残差网络500包括第一子网络510和第二子网络520,该第一残差网络的输入为经过降维和语义提取后的第一特征图;基于第一子网络510中的卷积层对该第一特征图进行空洞卷积,得到第三特征图;基于第二子网络520中的卷积层对该第一特征图进行空洞卷积,得到第四特征图;基于第二子网络520将第四特征图与第一特征图进行add特征融合,得到第五特征图;将第五特征图与第三特征图进行Concat特征融合,得到第六特征图;基于第一残差网络500将第六特征图与第一特征图进行add特征融合,输出第二特征图。
如此,基于第一残差网络能够在宽度方向上对单级特征图进行多层次空洞卷积后的特征融合,以获取更细粒度、更丰富的特征,弥补除去多级特征图融合后产生的差距,提升目标识别的准确性。
在本申请的一些实施例中,由于不同网络层各自具有不同的感受野和不同的感知能力,且预设RFB模型中特征图的特征融合、拼接可能会抵消各网络层的相对重要性,并抑制网络深层中的关键信息,影响目标检测时的精度,因此为了提高目标检测精度,在S450之后,该方法还可以包括下述步骤:向第二残差网络输入第二特征图,输出第一目标特征图;基于通道域和空间域的缩放点积注意力模型对第一目标特征图进行处理,输出第二目标特征图。
如此,通过缩放点积注意力模型整合所有通道图中的有关系的特征,有选择地强调深层与浅层相互关联的通道图,改善网络深层中的关键信息被抑制的问题,且深层语义可以帮助注意单元发现存在于网络浅层中的关键信息,从而使输出的第二目标特征图能够有效确定网络深层和网络浅层中的关键信息,更好地对待识别的目标进行表达,进而提高目标检测精度。
需要说明的是,本申请实施例提供的图像识别方法,执行主体可以为图像识别装置,或者该图像识别装置中的用于执行图像识别方法的控制模块。本申请实施例中以图像识别装置执行图像识别方法为例,说明本申请实施例提供的图像识别装置。下面对图像识别装置进行详细介绍。
图6是本申请实施例提供的一种图像识别装置的结构示意图,如图6所示,该图像识别装置600可以包括:获取模块610、空洞卷积模块620、注意力模块630、识别模块640。
其中,获取模块610,用于获取待识别图像的单级特征图;空洞卷积模块620,用于基于预设RFB网络模型对待识别图像的单级特征图进行空洞卷积,得到第一目标特征图;注意力模块630,用于基于缩放点积注意力模型为第一目标特征图的所有通道分配注意力权重,并基于分配后的注意力权重输出第二目标特征图;识别模块640,用于基于第二目标特征图进行目标识别,得到待识别图像的识别结果。
在本申请的一些实施例中,预设RFB网络模型包括预设卷积层、第一残差网络和第二残差网络,空洞卷积模块620包括:降维和语义提取单元,用于通过预设卷积层,对待识别图像的单级特征图进行降维和语义提取,得到第一特征图;空洞卷积单元,用于基于第一残差网络对第一特征图进行空洞卷积,得到第二特征图;空洞卷积单元,还用于基于第二残差网络对第二特征图进行空洞卷积,得到第一目标特征图。
在本申请的一些实施例中,第一残差网络包括第一子网络和第二子网络,空洞卷积单元包括:感受野子单元,用于基于第一子网络增大第一特征图的感受野,得到第三特征图;感受野子单元,还用于基于第二子网络增大第一特征图的感受野,得到第四特征图;特征融合子单元,用于将第四特征图与第一特征图进行add特征融合,得到第五特征图;特征融合子单元,还用于将第五特征图与第三特征图进行Concat特征融合,得到第六特征图;特征融合子单元,还用于将第六特征图与第一特征图进行add特征融合,得到第二特征图。
在本申请的一些实施例中,第二残差网络包括四个膨胀率不同的第三子网络,第三子网络按照膨胀率由小到大的顺序进行排列。
在本申请的一些实施例中,第一子网络与第二子网络的膨胀率不同。
在本申请的一些实施例中,预设卷积层包括第一卷积层和第二卷积层,第一卷积层的卷积核大小为1*1,第二卷积层的卷积核大小为3*3。
可以理解的是,图6所示的图像识别装置600中的各个模块/单元具有实现本申请实施例提供的图像识别方法中的各个步骤的功能,并能达到其相应的技术效果,为了简洁,在此不再赘述。
本申请实施例的图像识别装置,获取待识别图像的单级特征图,并基于预设感受野RFB网络模型对待识别图像的单级特征图进行空洞卷积,得到第一目标特征图。由于使用空洞卷积无法有效表达尺寸较小的小目标,因此基于缩放点积注意力模型为第一目标特征图的所有通道分配注意力权重,并基于分配后的注意力权重输出第二目标特征图,通过分配权重能够缓解特征图中关键特征的丢失,从而使输出的第二目标特征图能够对大目标和小目标均有效表达,解决特征图无法有效表达小目标的问题。在此基础上,基于第二目标特征图进行目标识别,能够有效识别尺寸较小的小目标,提升识别结果的准确性。
图7是本申请实施例提供的一种图像识别设备的硬件结构示意图。
如图7所示,本实施例中的图像识别设备700可以包括处理器701以及存储有计算机程序指令的存储器702。
具体地,上述处理器701可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
存储器702可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器702可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器702可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器702可在综合网关容灾设备的内部或外部。在特定实施例中,存储器702是非易失性固态存储器。存储器可包括只读存储器(Read-Only Memory,ROM),随机存取存储器(RandomAccess Memory,RAM),磁盘存储介质设备,光存储介质设备,闪存设备,电气、光学或其他物理/有形的存储器存储设备。因此,通常,存储器包括一个或多个编码有包括计算机可执行指令的软件的有形(非暂态)计算机可读存储介质(例如,存储器设备),并且当该软件被执行(例如,由一个或多个处理器)时,其可操作来执行参考根据本公开的一方面的方法所描述的操作。
处理器701通过读取并执行存储器702中存储的计算机程序指令,以实现上述实施例中的任意一种图像识别方法。
在一个示例中,图像识别设备700还可以包括通信接口703和总线710。其中,如图7所示,处理器701、存储器702、通信接口703通过总线710连接并完成相互间的通信。
通信接口703,主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。
总线710包括硬件、软件或两者,将在线数据流量计费设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线710可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
该图像识别设备可以执行本申请实施例中的图像识别方法,从而实现结合图1-图6描述的图像识别方法和装置。
另外,结合上述实施例中的图像识别方法,本申请实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种图像识别方法。
需要明确的是,本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本申请的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本申请的精神后,做出各种改变、修改和添加,或者改变步骤之间的顺序。
以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本申请中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本申请不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
上面参考根据本公开的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各方面。应当理解,流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器,以产生一种机器,使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解,框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合,也可以由执行指定的功能或动作的专用硬件来实现,或可由专用硬件和计算机指令的组合来实现。
以上所述,仅为本申请的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。

Claims (11)

1.一种图像识别方法,其特征在于,包括:
获取待识别图像的单级特征图;
基于预设感受野RFB网络模型对所述待识别图像的单级特征图进行空洞卷积,得到第一目标特征图;
基于缩放点积注意力模型为所述第一目标特征图的所有通道分配注意力权重,并基于分配后的注意力权重输出第二目标特征图;
基于所述第二目标特征图进行目标识别,得到所述待识别图像的识别结果。
2.根据权利要求1所述的方法,其特征在于,所述预设RFB网络模型包括预设卷积层、第一残差网络和第二残差网络,所述基于预设感受野RFB网络模型对所述待识别图像的单级特征图进行空洞卷积,得到第一目标特征图,包括:
通过所述预设卷积层,对所述待识别图像的单级特征图进行降维和语义提取,得到第一特征图;
基于所述第一残差网络对所述第一特征图进行空洞卷积,得到第二特征图;
基于所述第二残差网络对所述第二特征图进行空洞卷积,得到所述第一目标特征图。
3.根据权利要求2所述的方法,其特征在于,所述第一残差网络包括第一子网络和第二子网络,所述基于所述第一残差网络对所述第一特征图进行空洞卷积,得到第二特征图,包括:
基于所述第一子网络增大所述第一特征图的感受野,得到第三特征图;
基于所述第二子网络增大所述第一特征图的感受野,得到第四特征图;
将所述第四特征图与所述第一特征图进行add特征融合,得到第五特征图;
将所述第五特征图与所述第三特征图进行Concat特征融合,得到第六特征图;
将所述第六特征图与所述第一特征图进行add特征融合,得到所述第二特征图。
4.根据权利要求2或3所述的方法,其特征在于,所述第二残差网络包括四个膨胀率不同的第三子网络,所述第三子网络按照膨胀率由小到大的顺序进行排列。
5.根据权利要求3所述的方法,其特征在于,所述第一子网络与所述第二子网络的膨胀率不同。
6.根据权利要求1所述的方法,其特征在于,所述预设卷积层包括第一卷积层和第二卷积层,所述第一卷积层的卷积核大小为1*1,所述第二卷积层的卷积核大小为3*3。
7.一种图像识别装置,其特征在于,包括:
获取模块,用于获取待识别图像的单级特征图;
空洞卷积模块,用于基于预设RFB网络模型对所述待识别图像的单级特征图进行空洞卷积,得到第一目标特征图;
注意力模块,用于基于缩放点积注意力模型为所述第一目标特征图的所有通道分配注意力权重,并基于分配后的注意力权重输出第二目标特征图;
识别模块,用于基于所述第二目标特征图进行目标识别,得到所述待识别图像的识别结果。
8.根据权利要求7所述的装置,其特征在于,所述预设RFB网络模型包括预设卷积层、第一残差网络和第二残差网络,所述空洞卷积模块包括:
降维和语义提取单元,用于通过所述预设卷积层,对所述待识别图像的单级特征图进行降维和语义提取,得到第一特征图;
空洞卷积单元,用于基于所述第一残差网络对所述第一特征图进行空洞卷积,得到第二特征图;
所述空洞卷积单元,还用于基于所述第二残差网络对所述第二特征图进行空洞卷积,得到所述第一目标特征图。
9.根据权利要求8所述的装置,其特征在于,所述第一残差网络包括第一子网络和第二子网络,所述空洞卷积单元包括:
感受野子单元,用于基于所述第一子网络增大所述第一特征图的感受野,得到第三特征图;
所述感受野子单元,还用于基于所述第二子网络增大所述第一特征图的感受野,得到第四特征图;
特征融合子单元,用于将所述第四特征图与所述第一特征图进行add特征融合,得到第五特征图;
所述特征融合子单元,还用于将所述第五特征图与所述第三特征图进行Concat特征融合,得到第六特征图;
所述特征融合子单元,还用于将所述第六特征图与所述第一特征图进行add特征融合,得到所述第二特征图。
10.一种图像识别设备,其特征在于,所述设备包括:处理器以及存储有计算机程序指令的存储器;所述处理器执行所述计算机程序指令时实现如权利要求1-6任意一项所述的图像识别方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-6任意一项所述的图像识别方法。
CN202110634147.6A 2021-06-07 2021-06-07 图像识别方法、装置、设备及计算机存储介质 Pending CN113283450A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110634147.6A CN113283450A (zh) 2021-06-07 2021-06-07 图像识别方法、装置、设备及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110634147.6A CN113283450A (zh) 2021-06-07 2021-06-07 图像识别方法、装置、设备及计算机存储介质

Publications (1)

Publication Number Publication Date
CN113283450A true CN113283450A (zh) 2021-08-20

Family

ID=77283729

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110634147.6A Pending CN113283450A (zh) 2021-06-07 2021-06-07 图像识别方法、装置、设备及计算机存储介质

Country Status (1)

Country Link
CN (1) CN113283450A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114612807A (zh) * 2022-03-17 2022-06-10 盐城工学院 微小目标的特征识别方法、装置、电子设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114612807A (zh) * 2022-03-17 2022-06-10 盐城工学院 微小目标的特征识别方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN109190470B (zh) 行人重识别方法及装置
CN111046971A (zh) 图像识别方法、装置、设备及计算机可读存储介质
CN112949785B (zh) 对象检测方法、装置、设备及计算机存储介质
CN113283450A (zh) 图像识别方法、装置、设备及计算机存储介质
CN111967449A (zh) 文本检测方法、电子设备及计算机可读介质
CN116246127A (zh) 图像模型训练方法、图像处理方法、装置、介质及设备
CN113313086B (zh) 特征向量转换模型处理方法、装置、服务器及存储介质
CN115861659A (zh) 对象匹配方法、装置、设备及计算机存储介质
CN113792849B (zh) 字符生成模型的训练方法、字符生成方法、装置和设备
CN111506691B (zh) 一种基于深度匹配模型的轨迹匹配方法和系统
CN113721240A (zh) 一种目标关联方法、装置、电子设备及存储介质
CN111814689A (zh) 火灾识别网络模型的训练方法、火灾识别方法及相关设备
CN116416662A (zh) 人脸真伪鉴定方法、装置、设备及存储介质
CN113569934B (zh) Logo分类模型构建方法、系统、电子设备及存储介质
CN115243267B (zh) 一种基于dpi技术的5g网络伪基站检测定位方法及电子设备
CN110958054B (zh) 一种无线电发射机识别方法及装置
CN116071625B (zh) 深度学习模型的训练方法、目标检测方法及装置
CN117375770B (zh) 一种信道编码识别方法和装置
CN113569942B (zh) 短视频事件分类方法、系统、电子设备及存储介质
CN113762382B (zh) 模型的训练及场景识别方法、装置、设备及介质
CN116206282A (zh) 数据处理方法、装置、设备及计算机存储介质
CN118247721A (zh) 目标图像检测方法、装置、设备、介质及程序产品
CN114445811A (zh) 一种图像处理方法、装置及电子设备
CN116304036A (zh) 特征确定方法、装置、设备、介质及产品
CN116912286A (zh) 多目标跟踪方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination