CN114724021B - 一种数据的识别方法、装置、存储介质及电子装置 - Google Patents

一种数据的识别方法、装置、存储介质及电子装置 Download PDF

Info

Publication number
CN114724021B
CN114724021B CN202210572322.8A CN202210572322A CN114724021B CN 114724021 B CN114724021 B CN 114724021B CN 202210572322 A CN202210572322 A CN 202210572322A CN 114724021 B CN114724021 B CN 114724021B
Authority
CN
China
Prior art keywords
feature map
determining
network
sub
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210572322.8A
Other languages
English (en)
Other versions
CN114724021A (zh
Inventor
倪华健
易芮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Shanma Zhijian Technology Co ltd
Original Assignee
Beijing Shanma Zhijian Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Shanma Zhijian Technology Co ltd filed Critical Beijing Shanma Zhijian Technology Co ltd
Priority to CN202210572322.8A priority Critical patent/CN114724021B/zh
Publication of CN114724021A publication Critical patent/CN114724021A/zh
Application granted granted Critical
Publication of CN114724021B publication Critical patent/CN114724021B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例提供了一种数据的识别方法、装置、存储介质及电子装置,其中,该方法包括:将目标数据输入至目标网络模型的主干网络中,针对主干网络中包括的前N‑1层子网络依次执行以下操作:确定当前层子网络输出的第一特征图的目标注意力掩码,基于目标注意力掩码增强第一特征图,得到第二特征图,融合第二特征图以及下一层子网络对应的第三特征图,得到第四特征图,将第四特征图确定为下一层子网络输出的特征图;将第N层子网络输出的特征图确定为主干网络输出的融合特征图;利用目标网络模型中包括的多个识别子网络从不同的维度识别融合特征图,得到多个识别结果。通过本发明,解决了相关技术中存在的网络模型识别数据不准确的问题。

Description

一种数据的识别方法、装置、存储介质及电子装置
技术领域
本发明实施例涉及计算机领域,具体而言,涉及一种数据的识别方法、装置、存储介质及电子装置。
背景技术
通道注意力机制是一种卷积神经网络中常用的注意力机制方法,相对于其他几种注意力机制而言,操作相对简单且性能较好。通道注意力机制构建网络中不同通道之间的相关性,训练的过程中会带来不同通道间的权重差异,这种权重差异代表了通道的重要程度,通过通道的权重差异赋予不同的权重系数,从而来强化重要的特征而抑制不重要的特征。
常见的通道注意力机制主要用于单任务分类,而应用于多任务的注意力机制方法较少,多任务分类相对于单任务分类的难点在于以下几个方面:(1)多任务分类网络学习的信息相较于单任务要更为丰富,但是网络的下采样操作会丢失一些信息,造成网络性能不足。(2)不同任务间由于学习目标和数据集数量等差异,训练的过程中各个任务间的学习速率不一样,从而导致不同任务间的权重更新速度有差异,造成不同任务效果的差异较大。
由此可知,相关技术中存在网络模型识别数据不准确的问题。
针对相关技术中存在的上述问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种数据的识别方法、装置、存储介质及电子装置,以至少解决相关技术中存在的网络模型识别数据不准确的问题。
根据本发明的一个实施例,提供了一种数据的识别方法,包括:将目标数据输入至目标网络模型的主干网络中,针对所述主干网络中包括的前N-1层子网络依次执行以下操作:确定当前层子网络输出的第一特征图的目标注意力掩码,基于所述目标注意力掩码增强所述第一特征图,得到第二特征图,融合所述第二特征图以及下一层子网络对应的第三特征图,得到第四特征图,将所述第四特征图确定为所述下一层子网络输出的特征图,其中,所述主干网络中包括N层子网络,N为大于或等于2的整数,所述下一层子网络为与所述当前层子网络相邻的,且位于所述当前层子网络之后的子网络;将第N层子网络输出的特征图确定为所述主干网络输出的融合特征图;利用所述目标网络模型中包括的多个识别子网络从不同的维度识别所述融合特征图,得到多个识别结果,其中,多个所述识别子网络是通过如下方式训练的:确定每个所述识别子网络的第一损失值,基于所述第一损失值以及所述主干网络的主干网络参数确定用于更新多个所述识别子网络的识别网络参数的更新梯度,基于所述更新梯度对每个所述识别网络参数进行梯度更新。
根据本发明的另一个实施例,提供了一种数据的识别装置,包括:输入模块,用于将目标数据输入至目标网络模型的主干网络中,针对所述主干网络中包括的前N-1层子网络依次执行以下操作:确定当前层子网络输出的第一特征图的目标注意力掩码,基于所述目标注意力掩码增强所述第一特征图,得到第二特征图,融合所述第二特征图以及下一层子网络对应的第三特征图,得到第四特征图,将所述第四特征图确定为所述下一层子网络输出的特征图,其中,所述主干网络中包括N层子网络,N为大于或等于2的整数,所述下一层子网络为与所述当前层子网络相邻的,且位于所述当前层子网络之后的子网络;确定模块,用于将第N层子网络输出的特征图确定为所述主干网络输出的融合特征图;识别模块,用于利用所述目标网络模型中包括的多个识别子网络从不同的维度识别所述融合特征图,得到多个识别结果,其中,多个所述识别子网络是通过如下方式训练的:确定每个所述识别子网络的第一损失值,基于所述第一损失值以及所述主干网络的主干网络参数确定用于更新多个所述识别子网络的识别网络参数的更新梯度,基于所述更新梯度对每个所述识别网络参数进行梯度更新。
根据本发明的又一个实施例,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被处理器执行时实现上述任一项中所述的方法的步骤。
根据本发明的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
通过本发明,将目标数据输入至目标网络模型的主干网络中,主干网络中包括的前N-1层子网络依次执行以下操作:确定当前层子网络输出的第一特征图的目标注意力掩码,根据目标注意力掩码增强第一特征图,得到第二特征图,融合第二特征图以及下一层子网络对应的第三特征图,得到第四特征图,将第四特征图确定为下一层子网络输出的特征图。将第N-1层子网络输出的特征图确定为主干网络输出的融合特征图,利用目标网络模型中包括的多个识别子网络从不同维度识别融合特征图,得到多个识别结果。其中,多个子网络是如下方式进行训练的:确定每个识别子网络的第一损失值,根据第一损失值以及主干网络的主干网络参数确定用于更新多个识别子网络的识别网络参数的更新梯度,根据更新梯度对每个识别网络参数进行梯度更新。由于多个识别子网络识别的融合特征图,是利用前N-1层子网络对目标数据的特征图根据注意力掩码进行层层融合,得到融合特征图,通过注意力掩码进行层层融合,增加了丰富的语义信息,并增强了重要学习区域,因此,多个识别子网络对融合特征图进行识别所得到的识别结果更准确。此外,多个识别子网络在训练的过程中,是利用每个识别子网络的第一损失值和主干网络的主干网络参数确定的更新梯度,能够综合平衡不同任务的梯度,防止模型学习速度不均衡造成收敛较慢以及模型效果差异显著。因此,可以解决相关技术中存在的网络模型识别数据不准确的问题,达到提高识别结果的准确性的效果。
附图说明
图1是本发明实施例的一种数据的识别方法的移动终端的硬件结构框图;
图2是根据本发明实施例的数据的识别方法的流程图;
图3是根据本发明示例性实施例的基于目标注意力掩码增强第一特征图得到第二特征图结构示意图;
图4是根据本发明示例性实施例的融合第一特征图以及第三特征图的结构示意图;
图5是根据本发明实施例的数据的识别装置的结构框图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明的实施例。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
注意力机制被广泛应用于模型分类、目标检测以及语义分割等深度学习领域的各种任务中,成为了深度学习技术中的主流方法和研究热点之一。视觉注意力机制是为了模拟人类的视觉处理方式,当人类视觉接触某一事物时,会快速扫描事物的全局图像,然后聚焦于需要重点关注的目标区域,对目标区域给予更多的注意力,获取重要的细节信息而忽略无关紧要的信息,提升了事件处理的效率。深度学习中的注意力机制和人类视觉选择性关注目标的方式类似,目的也是在大量冗余的信息中将注意力集中于对当前任务目标重要的信息,提升特征处理的效率。
深度学习领域的视觉注意力机制主要包括以下几种:
(1)通道注意力机制,该注意力机制主要聚焦于输入图像的哪种特征是有意义的。神经网络中一个通道相当于一种特征,通道注意力机制赋予不同通道相应的权重,这个通道的权重分布表征了不同程度注意力的特征选择。
(2)空间注意力机制,该注意力机制主要聚焦于输入图像的哪部分的有效信息较丰富,将图片空间信息转换到另一个空间中同时保留了图片的重要信息。
(3)全局注意力机制,卷积操作一般只考虑卷积核的局部区域,针对感受野进行卷积运算,因此都是局部操作,而非局部注意力机制的感受野可以扩展到很大,将某些卷积操作融入全局信息,就可以解决局部感受野无法看清全局的情况,为后面的卷积层带来更加丰富的信息。
通道注意力机制是一种卷积神经网络中常用的注意力机制方法,相对于其他几种注意力机制而言,操作相对简单且性能较好。通道注意力机制构建网络中不同通道之间的相关性,训练的过程中会带来不同通道间的权重差异,这种权重差异代表了通道的重要程度,通过通道的权重差异赋予不同的权重系数,从而来强化重要的特征而抑制不重要的特征。
常见的通道注意力机制主要用于单任务分类,而应用于多任务的注意力机制方法较少,多任务分类相对于单任务分类的难点在于以下几个方面:(1)多任务分类网络学习的信息相较于单任务要更为丰富,但是网络的下采样操作会丢失一些信息,造成网络性能不足。(2)不同任务间由于学习目标和数据集数量等差异,训练的过程中各个任务间的学习速率不一样,从而导致不同任务间的权重更新速度有差异,造成不同任务效果的差异较大。
针对相关技术中存在的上述问题,提出以下实施例。
本申请实施例中所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图1是本发明实施例的一种数据的识别方法的移动终端的硬件结构框图。如图1所示,移动终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,其中,上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的数据的识别方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种数据的识别方法,图2是根据本发明实施例的数据的识别方法的流程图,如图2所示,该流程包括如下步骤:
步骤S202,将目标数据输入至目标网络模型的主干网络中,针对所述主干网络中包括的前N-1层子网络依次执行以下操作:确定当前层子网络输出的第一特征图的目标注意力掩码,基于所述目标注意力掩码增强所述第一特征图,得到第二特征图,融合所述第二特征图以及下一层子网络对应的第三特征图,得到第四特征图,将所述第四特征图确定为所述下一层子网络输出的特征图,其中,所述主干网络中包括N层子网络,N为大于或等于2的整数,所述下一层子网络为与所述当前层子网络相邻的,且位于所述当前层子网络之后的子网络;
步骤S204,将第N层子网络输出的特征图确定为所述主干网络输出的融合特征图;
步骤S206,利用所述目标网络模型中包括的多个识别子网络从不同的维度识别所述融合特征图,得到多个识别结果,其中,多个所述识别子网络是通过如下方式训练的:确定每个所述识别子网络的第一损失值,基于所述第一损失值以及所述主干网络的主干网络参数确定用于更新多个所述识别子网络的识别网络参数的更新梯度,基于所述更新梯度对每个所述识别网络参数进行梯度更新。
在上述实施例中,目标数据可以是图像、视频帧等。目标网络模型包括主干网络和多个识别子网络,主干网络中包括N层子网络。在将目标数据输入至目标网络模型中后,主干网络会提取目标网络模型的特征图,将特征图输入给多个识别子网络,以使多个识别子网络可以从不同的维度识别特征图。由于主干网络中包括N层子网络,N层子网络依次连接。将目标数据输入至目标网络模型后,主干网络的每层子网络均会确定目标数据的特征图。针对主干网络的前N-1层子网络,可以执行以下操作:确定当前层子网络输出的第一特征图的目标注意力掩码,根据目标注意力掩码增强第一特征图,得到第二特征图,融合第二特征图及当前层子网络的下一层子网络对应的第三特征图,得到第四特征图,将第四特征图确定为下一层子网络输出的特征图。例如,当前层子网络为第一层子网络时,可以确定第一层子网络输出的第一特征图的目标注意力掩码,根据目标注意力掩码增强第一特征图,得到第二特征图,融合第二特征图以及第二层子网络确定的目标数据的第三特征图,得到第四特征图。将第四特征图确定为第二层子网络输出的特征图。随后,当前层子网络变成第二层子网络。第四特征图为当前层子网络输出的特征图,确定第四特征图的目标注意力掩码,并根据目标注意力掩码增强第四特征图,并将增强后的特征图与第三层子网络确定的目标数据的特征图进行融合,将融合后的特征图确定为第三层子网络输出的特征图……直到当前层子网络为第N-1层子网络,将第N-1层子网络输出的特征图根据目标注意力掩码进行增强,将增强后的特征图与第N层子网络确定的目标数据的特征图进行融合,得到融合后的特征,将融合后的特征确定为第N层子网络输出的特征。此时,第N层子网络输出的特征即为主干网络输出的融合特征图。
在上述实施例中,在得到融合特征图后,融合特征图被输入到多个识别子网络中,每个识别子网络从不同的维度识别融合特征图,得到多个维度的识别结果。在训练多个识别子网络时,可以获取训练数据集。其中,训练数据集中包括用于训练每个识别子网络的任务数据集,用于训练每个识别子网络的训练数据的数量在同一级别。即不同任务数据集输入网络前,需要基于每个任务进行类别均衡,用于保证每个任务的不同类别的数据分布在同一级别的数据规模,防止某个任务的类别间数据量差异显著而造成收敛困难。在训练的过程中,可以确定每个识别子网络的第一损失值,根据每个识别子网络的第一损失值以及主干网络的主干网络参数确定识别网络参数的更新梯度。
可选地,上述步骤的执行主体可以是后台处理器,或者其他的具备类似处理能力的设备,还可以是至少集成有图像获取设备以及数据处理设备的机器,其中,图像获取设备可以包括摄像头等图形采集模块,数据处理设备可以包括计算机、手机等终端,但不限于此。
通过本发明,将目标数据输入至目标网络模型的主干网络中,主干网络中包括的前N-1层子网络依次执行以下操作:确定当前层子网络输出的第一特征图的目标注意力掩码,根据目标注意力掩码增强第一特征图,得到第二特征图,融合第二特征图以及下一层子网络对应的第三特征图,得到第四特征图,将第四特征图确定为下一层子网络输出的特征图。将第N-1层子网络输出的特征图确定为主干网络输出的融合特征图,利用目标网络模型中包括的多个识别子网络从不同维度识别融合特征图,得到多个识别结果。其中,多个子网络是如下方式进行训练的:确定每个识别子网络的第一损失值,根据第一损失值以及主干网络的主干网络参数确定用于更新多个识别子网络的识别网络参数的更新梯度,根据更新梯度对每个识别网络参数进行梯度更新。由于多个识别子网络识别的融合特征图,是利用前N-1层子网络对目标数据的特征图根据注意力掩码进行层层融合,得到融合特征图,通过注意力掩码进行层层融合,增加了丰富的语义信息,并增强了重要学习区域,因此,多个识别子网络对融合特征图进行识别所得到的识别结果更准确。此外,多个识别子网络在训练的过程中,是利用每个识别子网络的第一损失值和主干网络的主干网络参数确定的更新梯度,能够综合平衡不同任务的梯度,防止模型学习速度不均衡造成收敛较慢以及模型效果差异显著。因此,可以解决相关技术中存在的网络模型识别数据不准确的问题,达到提高识别结果的准确性的效果。
在一个示例性实施例中,确定当前层子网络输出的第一特征图的目标注意力掩码包括:确定所述第一特征图中包括的每个第一像素点在不同通道中的特征值,得到每个所述第一像素点对应的多个特征值;确定每个所述第一像素点对应的多个所述特征值的平均值;基于所述平均值确定每个所述第一像素点对应的所述目标注意力掩码。在本实施例中,在确定目标注意力掩码时,可以确定第一特征图中包括的每个第一像素点在不同通道中的特征值,得到每个第一像素点对应的多个特征值。并确定每个第一像素点对应的多个特征值的平均值,即确定多个通道中第一像素点的特征值的平均值,根据平均值确定每个第一像素点对应的目标注意力掩码。以当前层子网络为block1作为示例,令block1的输出feature map为A,即第一特征图,A的尺寸为n*h*w,n表示A中通道的总数量,h和w是每个通道的feature map尺寸,跨通道方向求均值操作,利用每个位置的通道均值对所有的feature map遍历求通道掩码M。
在一个示例性实施例中,基于所述平均值确定每个所述第一像素点对应的所述目标注意力掩码包括:在所述第一像素点的所述特征值大于所述平均值的情况下,将所述目标注意力掩码确定为第一常数;在所述第一像素点的所述特征值小于或等于所述平均值的情况下,将所述目标注意力掩码确定为第二常数。在本实施例中,每个第一像素点对应的多个特征值的平均值可以利用公式
Figure 766308DEST_PATH_IMAGE001
进行计算,其中,k表示取A中的第k个通道,k =(1,2,...,n),令A中第k个通道的feature map为Ak,Pk(i,j)表示Ak的第i,j位置的特征值,i =(1,2,...,w),j =(1,2,...,h),对A基于i,j位置历跨通道遍求均值得每个位置的通道均值,最后得到一个由C(i,j)构成的二维均值矩阵。在确定平均值后,可以根据公式
Figure 683448DEST_PATH_IMAGE002
确定目标注意力掩码。Mk(i,j)表示Ak在第i,j位置的掩码计算方式。利用
Figure 400869DEST_PATH_IMAGE003
对Ak中的所有位置遍历,获得Ak的掩码,对所有通道的feature map执行相同的操作,获得第一特征图的掩码M,M的尺寸也是n*h*w。
在一个示例性实施例中,基于所述目标注意力掩码增强所述第一特征图,得到第二特征图包括:确定所述第一特征图中包括的每个第一像素点的特征值与所述第一像素点对应的所述目标注意力掩码的第一乘积;将所述第一乘积确定为所述第一像素点的目标特征值;将所述目标特征值构成的特征图确定为所述第二特征图。在本实施例中,在确定第一特征值与目标注意力掩码后,可以利用目标注意力掩码对第一特征图进行增强。第二特征图可以利用公式
Figure 796078DEST_PATH_IMAGE004
计算。其中,A表示第一特征图,M表示目标注意力掩码,则可以利用M和A逐像素相乘即可获得注意力加强的Am,即第二特征图,Am表示注意力增强后的feature map,Am的尺寸也是n*h*w。第一像素点对应的目标注意力掩码为目标注意力掩码中包括的与第一像素点的位置相同的掩码。其中,基于目标注意力掩码增强第一特征图得到第二特征图结构示意图可参见附图3。
在一个示例性实施例中,融合所述第二特征图以及下一层子网络对应的第三特征图,得到第四特征图包括:确定所述第三特征图的尺寸信息;基于所述尺寸信息对所述第二特征图进行采样处理,得到与所述第三特征图的所述尺寸信息相同的第五特征图;确定所述第三特征图中包括与每个第一像素点对应的第二像素点;确定每个所述第一像素点的目标特征值与所述第五特征图对应的第一权重的第二乘积;确定每个所述第二乘积与所述第二像素点的特征值的第一和值;将所述第一和值构成的特征图确定为所述第四特征图。在本实施例中,每个主干网络中包括的子网络确定的目标数据的特征图的尺寸不同,位于前面的子网络确定的特征图的尺寸大于位于后的子网络确定的特征图的尺寸。在进行特征融合时,可以确定当前层子网络的下一层子网络的确定的第三特征图的尺寸信息,根据尺寸信息对增强后的第二特征图进行下采样处理,得到与第三特征图尺寸相同的第五特征图,在第三特征图中确定与每个第一像素点对应的第二像素点点,并确定第一像素点的目标特征值与第五特征图的第一权重的第二乘积。确定第二乘积与每个第二像素点的特征值的第一和值,将第一和值构成的特征图确定为第四特征图。
在上述实施例中,将第二特征图Am进行下采样至第二个block输出的feature map一样的大小获得Amp,Amp用于之后的特征融合操作。融合第一特征图以及第三特征图的结构示意图可参见附图4,如图4所示,当主干网络中包括4个子网络时,即拥有4个block的backbone,分别为block1、block2、block3和block4,之后连接3个全连接层输出3个loss,利用不同的loss求梯度获得自适应的梯度值。图中F表示每个block的融合注意力机制后的feature map,融合feature map操作从第二层block至最后一层block。融合公式可表示为
Figure 797401DEST_PATH_IMAGE005
。其中,Ablock_i表示第i层block结构输出的feature map,即第三特征图,Amp_block_i-1表示第i -1层注意力加强后再进行下采样的feature map,即第五特征图,Fi为Ablock_i加上m倍的Amp_block_i-1,m(对应于第一权重)是个可调参数,m∈[0,1],可根据实验效果进行调节。
在一个示例性实施例中,基于所述第一损失值以及所述主干网络的主干网络参数确定用于更新多个所述识别子网络的识别网络参数的更新梯度包括:基于所述第一损失值以及所述主干网络参数确定每个所述识别子网络的第二权重;基于所述第二权重以及所述第一损失值确定所述更新梯度。在本实施例中,可以将通道注意力机制应用于多任务分类网络的主干网络(backbone),取backbone的每个模块(block),即子网络输出的featuremap,利用通道注意力机制对该feature map提取注意力掩码,将注意力掩码与原featuremap逐像素相乘获得注意力加强的feature map,将注意力加强的feature map利用最大池化层(maxpool)下采样至下层feature map相同尺寸,接着将下采样后的feature map与下层feature map逐像素加权求和获得融合后的feature map。将不同任务的数据集输入到的backbone中,该backbone末端连接多个全连接层(FC),输出多个个任务的预测值。在得到预测值之后,可以根据预测值与真实值确定每个识别子网络的第一损失值。为了平衡多个任务子网络的训练速度差异,可以根据第一损失值和主干网络参数确定每个识别子网络的第二权重。根据第二权重和第一损失值确定更新梯度。
在一个示例性实施例中,基于所述第一损失值以及所述主干网络参数确定每个所述识别子网络的第二权重包括:确定每个所述第一损失值对所述主干网络参数的偏导数,得到多个偏导数;确定多个所述偏导数的第二和值;确定每个所述第一损失值与所述第二和值的比值;将每个所述比值确定为每个所述识别子网络对应的所述第二权重。在本实施例中,第二权重可以表示为
Figure 557546DEST_PATH_IMAGE006
,其中,
Figure 11530DEST_PATH_IMAGE007
。可以利用多任务分类网络的多个Loss分别对网络的参数求梯度gradi。Lossi表示第i个任务的Loss,W表示backbone中共享的参数,即主干网络参数,gradi表示第i个任务的梯度,i = 1,2,3……。每次迭代时对多个梯度求梯度占比,n表示识别子网络的数量。
在一个示例性实施例中,基于所述第二权重以及所述第一损失值确定所述更新梯度包括:确定每个所述第一损失值对所述主干网络参数的偏导数,得到多个偏导数;确定每个所述偏导数与所述偏导数对应的所述第二权重的乘积,得到多个第三乘积;确定多个所述第三乘积的第二和值;将所述第二和值确定为所述更新梯度。在本实施例中,更新梯度可以表示为
Figure 210431DEST_PATH_IMAGE008
。训练过程中能够自适应的平衡不同任务的梯度,防止模型学习速度不均衡造成收敛较慢以及模型效果差异显著。
在前述实施例中,利用通道注意力机制获得当前特征图(feature map)的每个通道的注意力掩码,基于当前注意力掩码与该feature map逐像素相乘,获得掩码操作后的feature map。该feature map保留了通道间的图片关键信息且抑制了冗余信息,将此feature map下采样至与下一层feature map同样尺寸,下一层feature map相对上一层拥有更高级的语义信息,将下采样后的feature map与下一层feature map逐像素加权获得融合通道注意力机制的feature map,该feature map融合了高级语义信息和低级语义信息中的注意力加强区域,相对于原feature map包含了更丰富的有效信息。
将该注意力机制方法应用于多任务分类网络中,多任务分类网络学习多个不同数据集的任务,训练的过程中共享卷积层的参数,网络输出多个任务的分支,每个分支输出一个任务的预测值。由于训练的过程中,不同任务的数据集规模和类别存在差异,收敛的任务目标也会有差异,往往会存在不同任务的学习速度不一致,为了权衡不同任务学习速度的差异,采用了基于不同任务的损失函数(Loss)反向传播产生的梯度分布来加权任务间的梯度,获得基于收敛速度加权后的整体梯度,网络优化过程中共享该梯度。训练过程中能够自适应的平衡不同任务的梯度,防止模型学习速度不均衡造成收敛较慢以及模型效果差异显著,同时利用通道注意力机制获得注意力加强的feature map,将其与下一层feature map融合,增加了丰富的语义信息,并增强了重要学习区域,backbone的性能获得了有效的提升。相对于单任务分类技术而言,这种多任务分类方式将多个任务集成到一个模型中训练,增加了模型的泛化能力,简化了重复的训练步骤,同时获得了与单任务分类相当的性能。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
在本实施例中还提供了一种数据的识别装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图5是根据本发明实施例的数据的识别装置的结构框图,如图5所示,该装置包括:
输入模块52,用于将目标数据输入至目标网络模型的主干网络中,针对所述主干网络中包括的前N-1层子网络依次执行以下操作:确定当前层子网络输出的第一特征图的目标注意力掩码,基于所述目标注意力掩码增强所述第一特征图,得到第二特征图,融合所述第二特征图以及下一层子网络对应的第三特征图,得到第四特征图,将所述第四特征图确定为所述下一层子网络输出的特征图,其中,所述主干网络中包括N层子网络,N为大于或等于2的整数,所述下一层子网络为与所述当前层子网络相邻的,且位于所述当前层子网络之后的子网络;
确定模块54,用于将第N层子网络输出的特征图确定为所述主干网络输出的融合特征图;
识别模块56,用于利用所述目标网络模型中包括的多个识别子网络从不同的维度识别所述融合特征图,得到多个识别结果,其中,多个所述识别子网络是通过如下方式训练的:确定每个所述识别子网络的第一损失值,基于所述第一损失值以及所述主干网络的主干网络参数确定用于更新多个所述识别子网络的识别网络参数的更新梯度,基于所述更新梯度对每个所述识别网络参数进行梯度更新。
在一个示例性实施例中,输入模块52可以通过如下方式实现确定当前层子网络输出的第一特征图的目标注意力掩码:确定所述第一特征图中包括的每个第一像素点在不同通道中的特征值,得到每个所述第一像素点对应的多个特征值;确定每个所述第一像素点对应的多个所述特征值的平均值;基于所述平均值确定每个所述第一像素点对应的所述目标注意力掩码。
在一个示例性实施例中,输入模块52可以通过如下方式实现基于所述平均值确定每个所述第一像素点对应的所述目标注意力掩码:在所述第一像素点的所述特征值大于所述平均值的情况下,将所述目标注意力掩码确定为第一常数;在所述第一像素点的所述特征值小于或等于所述平均值的情况下,将所述目标注意力掩码确定为第二常数。
在一个示例性实施例中,输入模块52可以通过如下方式实现基于所述目标注意力掩码增强所述第一特征图,得到第二特征图:确定所述第一特征图中包括的每个第一像素点的特征值与所述第一像素点对应的所述目标注意力掩码的第一乘积;将所述第一乘积确定为所述第一像素点的目标特征值;将所述目标特征值构成的特征图确定为所述第二特征图。
在一个示例性实施例中,输入模块52可以通过如下方式实现融合所述第二特征图以及下一层子网络对应的第三特征图,得到第四特征图:确定所述第三特征图的尺寸信息;基于所述尺寸信息对所述第二特征图进行采样处理,得到与所述第三特征图的所述尺寸信息相同的第五特征图;确定所述第三特征图中包括与每个第一像素点对应的第二像素点;确定每个所述第一像素点的目标特征值与所述第五特征图对应的第一权重的第二乘积;确定每个所述第二乘积与所述第二像素点的特征值的第一和值;将所述第一和值构成的特征图确定为所述第四特征图。
在一个示例性实施例中,识别模块56可以通过如下方式实现基于所述第一损失值以及所述主干网络的主干网络参数确定用于更新多个所述识别子网络的识别网络参数的更新梯度:基于所述第一损失值以及所述主干网络参数确定每个所述识别子网络的第二权重;基于所述第二权重以及所述第一损失值确定所述更新梯度。
在一个示例性实施例中,识别模块56可以通过如下方式实现基于所述第一损失值以及所述主干网络参数确定每个所述识别子网络的第二权重:确定每个所述第一损失值对所述主干网络参数的偏导数,得到多个偏导数;确定多个所述偏导数的第二和值;确定每个所述第一损失值与所述第二和值的比值;将每个所述比值确定为每个所述识别子网络对应的所述第二权重。
在一个示例性实施例中,识别模块56可以通过如下方式实现基于所述第二权重以及所述第一损失值确定所述更新梯度:确定每个所述第一损失值对所述主干网络参数的偏导数,得到多个偏导数;确定每个所述偏导数与所述偏导数对应的所述第二权重的乘积,得到多个第三乘积;确定多个所述第三乘积的第二和值;将所述第二和值确定为所述更新梯度。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
本发明的实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被处理器执行时实现上述任一项中所述的方法的步骤。
在一个示例性实施例中,上述计算机可读存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
在一个示例性实施例中,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
本实施例中的具体示例可以参考上述实施例及示例性实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种数据的识别方法,其特征在于,包括:
将目标数据输入至目标网络模型的主干网络中,针对所述主干网络中包括的前N-1层子网络依次执行以下操作:确定当前层子网络输出的第一特征图的目标注意力掩码,基于所述目标注意力掩码增强所述第一特征图,得到第二特征图,融合所述第二特征图以及下一层子网络对应的第三特征图,得到第四特征图,将所述第四特征图确定为所述下一层子网络输出的特征图,其中,所述主干网络中包括N层子网络,N为大于或等于2的整数,所述下一层子网络为与所述当前层子网络相邻的,且位于所述当前层子网络之后的子网络;
将第N层子网络输出的特征图确定为所述主干网络输出的融合特征图;
利用所述目标网络模型中包括的多个识别子网络从不同的维度识别所述融合特征图,得到多个识别结果,其中,多个所述识别子网络是通过如下方式训练的:确定每个所述识别子网络的第一损失值,基于所述第一损失值以及所述主干网络的主干网络参数确定用于更新多个所述识别子网络的识别网络参数的更新梯度,基于所述更新梯度对每个所述识别网络参数进行梯度更新;
基于所述目标注意力掩码增强所述第一特征图,得到第二特征图包括:确定所述第一特征图中包括的每个第一像素点的特征值与所述第一像素点对应的所述目标注意力掩码的第一乘积;将所述第一乘积确定为所述第一像素点的目标特征值;将所述目标特征值构成的特征图确定为所述第二特征图。
2.根据权利要求1所述的方法,其特征在于,确定当前层子网络输出的第一特征图的目标注意力掩码包括:
确定所述第一特征图中包括的每个第一像素点在不同通道中的特征值,得到每个所述第一像素点对应的多个特征值;
确定每个所述第一像素点对应的多个所述特征值的平均值;
基于所述平均值确定每个所述第一像素点对应的所述目标注意力掩码。
3.根据权利要求2所述的方法,其特征在于,基于所述平均值确定每个所述第一像素点对应的所述目标注意力掩码包括:
在所述第一像素点的所述特征值大于所述平均值的情况下,将所述目标注意力掩码确定为第一常数;
在所述第一像素点的所述特征值小于或等于所述平均值的情况下,将所述目标注意力掩码确定为第二常数。
4.根据权利要求1所述的方法,其特征在于,融合所述第二特征图以及下一层子网络对应的第三特征图,得到第四特征图包括:
确定所述第三特征图的尺寸信息;
基于所述尺寸信息对所述第二特征图进行采样处理,得到与所述第三特征图的所述尺寸信息相同的第五特征图;
确定所述第三特征图中包括与每个第一像素点对应的第二像素点;
确定每个所述第一像素点的目标特征值与所述第五特征图对应的第一权重的第二乘积;
确定每个所述第二乘积与所述第二像素点的特征值的第一和值;
将所述第一和值构成的特征图确定为所述第四特征图。
5.根据权利要求1所述的方法,其特征在于,基于所述第一损失值以及所述主干网络的主干网络参数确定用于更新多个所述识别子网络的识别网络参数的更新梯度包括:
基于所述第一损失值以及所述主干网络参数确定每个所述识别子网络的第二权重;
基于所述第二权重以及所述第一损失值确定所述更新梯度。
6.根据权利要求5所述的方法,其特征在于,基于所述第一损失值以及所述主干网络参数确定每个所述识别子网络的第二权重包括:
确定每个所述第一损失值对所述主干网络参数的偏导数,得到多个偏导数;
确定多个所述偏导数的第二和值;
确定每个所述第一损失值与所述第二和值的比值;
将每个所述比值确定为每个所述识别子网络对应的所述第二权重。
7.根据权利要求5所述的方法,其特征在于,基于所述第二权重以及所述第一损失值确定所述更新梯度包括:
确定每个所述第一损失值对所述主干网络参数的偏导数,得到多个偏导数;
确定每个所述偏导数与所述偏导数对应的所述第二权重的乘积,得到多个第三乘积;
确定多个所述第三乘积的第二和值;
将所述第二和值确定为所述更新梯度。
8.一种数据的识别装置,其特征在于,包括:
输入模块,用于将目标数据输入至目标网络模型的主干网络中,针对所述主干网络中包括的前N-1层子网络依次执行以下操作:确定当前层子网络输出的第一特征图的目标注意力掩码,基于所述目标注意力掩码增强所述第一特征图,得到第二特征图,融合所述第二特征图以及下一层子网络对应的第三特征图,得到第四特征图,将所述第四特征图确定为所述下一层子网络输出的特征图,其中,所述主干网络中包括N层子网络,N为大于或等于2的整数,所述下一层子网络为与所述当前层子网络相邻的,且位于所述当前层子网络之后的子网络;
确定模块,用于将第N层子网络输出的特征图确定为所述主干网络输出的融合特征图;
识别模块,用于利用所述目标网络模型中包括的多个识别子网络从不同的维度识别所述融合特征图,得到多个识别结果,其中,多个所述识别子网络是通过如下方式训练的:确定每个所述识别子网络的第一损失值,基于所述第一损失值以及所述主干网络的主干网络参数确定用于更新多个所述识别子网络的识别网络参数的更新梯度,基于所述更新梯度对每个所述识别网络参数进行梯度更新;
所述输入模块通过如下方式实现基于所述目标注意力掩码增强所述第一特征图,得到第二特征图:确定所述第一特征图中包括的每个第一像素点的特征值与所述第一像素点对应的所述目标注意力掩码的第一乘积;将所述第一乘积确定为所述第一像素点的目标特征值;将所述目标特征值构成的特征图确定为所述第二特征图。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被处理器执行时实现所述权利要求1至7任一项中所述的方法的步骤。
10.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至7任一项中所述的方法。
CN202210572322.8A 2022-05-25 2022-05-25 一种数据的识别方法、装置、存储介质及电子装置 Active CN114724021B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210572322.8A CN114724021B (zh) 2022-05-25 2022-05-25 一种数据的识别方法、装置、存储介质及电子装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210572322.8A CN114724021B (zh) 2022-05-25 2022-05-25 一种数据的识别方法、装置、存储介质及电子装置

Publications (2)

Publication Number Publication Date
CN114724021A CN114724021A (zh) 2022-07-08
CN114724021B true CN114724021B (zh) 2022-09-09

Family

ID=82231632

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210572322.8A Active CN114724021B (zh) 2022-05-25 2022-05-25 一种数据的识别方法、装置、存储介质及电子装置

Country Status (1)

Country Link
CN (1) CN114724021B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115527087B (zh) * 2022-11-04 2023-07-14 北京闪马智建科技有限公司 行为信息的确定方法、装置、存储介质及电子装置
CN115690544B (zh) * 2022-11-11 2024-03-01 北京百度网讯科技有限公司 多任务学习方法及装置、电子设备和介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110288084A (zh) * 2019-06-06 2019-09-27 北京小米智能科技有限公司 超网络训练方法和装置
CN111192200A (zh) * 2020-01-02 2020-05-22 南京邮电大学 基于融合注意力机制残差网络的图像超分辨率重建方法
CN112668584A (zh) * 2020-12-24 2021-04-16 山东大学 一种基于视觉注意力和多尺度卷积神经网络的空调外机画像智能检测方法
CN112434683A (zh) * 2021-01-27 2021-03-02 中国科学院自动化研究所 基于注意力机制的行人属性识别方法、系统、装置
CN112990116B (zh) * 2021-04-21 2021-08-06 四川翼飞视科技有限公司 基于多注意力机制融合的行为识别装置、方法和存储介质

Also Published As

Publication number Publication date
CN114724021A (zh) 2022-07-08

Similar Documents

Publication Publication Date Title
CN107945204B (zh) 一种基于生成对抗网络的像素级人像抠图方法
CN114724021B (zh) 一种数据的识别方法、装置、存储介质及电子装置
CN111738110A (zh) 基于多尺度注意力机制的遥感图像车辆目标检测方法
CN111797983A (zh) 一种神经网络构建方法以及装置
CN112990211B (zh) 一种神经网络的训练方法、图像处理方法以及装置
CN111401516A (zh) 一种神经网络通道参数的搜索方法及相关设备
CN114419570B (zh) 一种点云数据识别方法、装置、电子设备及存储介质
CN108764244B (zh) 基于卷积神经网络和条件随机场的潜在目标区域检测方法
CN112348036A (zh) 基于轻量化残差学习和反卷积级联的自适应目标检测方法
CN113807399A (zh) 一种神经网络训练方法、检测方法以及装置
CN114612443B (zh) 一种多模态数据复杂缺陷特征检测方法
CN112183649A (zh) 一种用于对金字塔特征图进行预测的算法
CN115018039A (zh) 一种神经网络蒸馏方法、目标检测方法以及装置
CN115147745A (zh) 一种基于城市无人机图像的小目标检测方法
CN114492601A (zh) 资源分类模型的训练方法、装置、电子设备及存储介质
CN115424264A (zh) 全景分割方法及相关装置、电子设备、存储介质
Meng et al. A mobilenet-SSD model with FPN for waste detection
CN114913182A (zh) 图像分割方法、装置、设备和存储介质
CN114067126A (zh) 一种红外图像目标检测方法
CN113256546A (zh) 一种基于彩色图指导的深度图补全方法
CN113128308B (zh) 一种港口场景下的行人检测方法、装置、设备及介质
CN116912483A (zh) 目标检测方法、电子设备以及存储介质
CN111291785A (zh) 目标检测的方法、装置、设备及存储介质
CN111291611A (zh) 一种基于贝叶斯查询扩展的行人重识别方法及装置
CN110991305A (zh) 一种遥感图像下的飞机检测方法及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant