CN117079160A - 无人机图像识别网络训练方法、应用方法及电子设备 - Google Patents

无人机图像识别网络训练方法、应用方法及电子设备 Download PDF

Info

Publication number
CN117079160A
CN117079160A CN202310933403.0A CN202310933403A CN117079160A CN 117079160 A CN117079160 A CN 117079160A CN 202310933403 A CN202310933403 A CN 202310933403A CN 117079160 A CN117079160 A CN 117079160A
Authority
CN
China
Prior art keywords
aerial vehicle
unmanned aerial
vehicle image
image recognition
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310933403.0A
Other languages
English (en)
Inventor
陈亚雄
杨猛
黄吉瑞
路雄博
熊盛武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanya Science and Education Innovation Park of Wuhan University of Technology
Original Assignee
Sanya Science and Education Innovation Park of Wuhan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanya Science and Education Innovation Park of Wuhan University of Technology filed Critical Sanya Science and Education Innovation Park of Wuhan University of Technology
Priority to CN202310933403.0A priority Critical patent/CN117079160A/zh
Publication of CN117079160A publication Critical patent/CN117079160A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/17Terrestrial scenes taken from planes or by drones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0499Feedforward networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/771Feature selection, e.g. selecting representative features from a multi-dimensional feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明涉及一种无人机图像识别网络训练方法、应用方法、电子设备及介质,包括:获取无人机图像数据集;构建初始无人机图像识别网络;以无人机图像作为输入,基于特征提取模块进行特征提取和特征优选加权得到优选特征数据,基于跨样本注意力模块进行跨样本注意力学习得到增强特征数据,将增强特征数据输入分类器模块解码得到分类预测结果;根据分类预测结果和标签信息确定标签平滑损失,更新网络参数直到损失不再降低,得到训练完备的无人机图像识别网络。本发明通过特征提取模块进行特征优选加权,提取出更具辨别力的特征,提高分类性能;通过跨样本注意力模块建立同类样本依赖关系,挖掘同类样本间的相似性,得到高准确度的无人机图像识别网络。

Description

无人机图像识别网络训练方法、应用方法及电子设备
技术领域
本发明涉及计算机视觉领域,具体涉及一种无人机图像识别网络训练方法、应用方法、电子设备及计算机可读存储介质。
背景技术
随着无人机设备的广泛运用,产生了大量无人机视角下的航拍图片,而对这些无人机图像的识别,根据其语义信息为每个未标注的无人机图像分配一个特定的标签,是无人机判读领域的基础且重要的任务。在环境检测、交通监管和灾害管理领域中都有着重要的应用。
由于无人机图像拍摄角度的不同,导致无人机图像有着复杂的空间分布结构,在进行无人机图像识别时,空间对象分布复杂,关注到类的主体比较困难;同时,无人机图像复杂的背景又很相似,导致了不同类图像之间存在着很高的类间相似性,这些问题均导致了现有神经网络模型对无人机图像的识别准确率较低。
而现有技术在针对上述问题时,例如基于类峰值响应的方法通过描述关键局部区域的峰值响应和相应的上下文信息,对不同区域分配不同的权重,以此突出重点关注区域,但是在背景复杂情况下,关注主体较为困难,因此仍未很好地解决类间相似性高的问题。
发明内容
有鉴于此,有必要提供一种无人机图像识别网络训练方法、应用方法、电子设备及计算机可读存储介质,用于解决现有技术中,难以关注重要特征,无法解决类间相似度大,导致对无人机图像识别准确度较低的技术问题。
为了解决上述问题,本发明提供了一种无人机图像识别网络训练方法,包括:
获取无人机图像数据集,所述无人机图像数据集包括无人机图像和对应标签信息;
构建初始无人机图像识别网络,所述初始无人机图像识别网络包括特征提取模块、跨样本注意力模块和分类器模块;
以所述无人机图像作为初始无人机图像识别网络的输入,基于特征提取模块对所述无人机图像进行特征提取和特征优选加权得到优选特征数据,基于跨样本注意力模块对所述优选特征数据进行跨样本注意力学习得到增强特征数据,将所述增强特征数据输入分类器模块解码得到分类预测结果;
根据所述分类预测结果和所述标签信息确定所述初始无人机图像识别网络的标签平滑损失,更新所述初始无人机图像识别网络参数,直到损失不再降低,根据所述特征提取模块和所述分类器模块得到训练完备的无人机图像识别网络。
进一步的,获取无人机图像数据集,包括:
获取无人机图像和对应标签信息;
将所述无人机图像进行大小重定义和中心裁剪保证图像尺寸一致,根据所述无人机图像和所述对应标签信息构建无人机图像数据集。
进一步的,特征提取模块包括四个基本提取模块、特征优选模块和全局平均池化层,所述基本提取模块由一个下采样层和一个纯卷积块组成;以所述无人机图像作为初始无人机图像识别网络的输入,基于特征提取模块对所述无人机图像进行特征提取和特征优选加权得到优选特征数据,包括:
将所述无人机图像输入特征提取模块,依次通过三个基本提取模块进行特征提取得到初始特征数据;
基于特征优选模块对所述初始特征数据进行像素特征优选加权得到初始优选数据;
基于特征优选模块对所述初始优选数据进行通道特征优选加权得到优选数据;
将所述优选数据通过基本提取模块进行特征提取和全局平均池化层得到优选特征数据。
进一步的,基于特征优选模块对所述初始特征数据进行像素特征优选加权得到初始优选数据,包括:
将所述初始特征数据进行卷积降维得到像素特征嵌入式表示;
基于嵌入式高斯算法计算所述像素特征嵌入式表示中特征的自相关性得到像素响应权重矩阵;
将所述响应权重矩阵与所述初始特征数据相乘得到全局响应图;
将所述全局响应图进行卷积升维,得到空间上下文特征,并将所述空间上下文特征与初始特征数据进行残差连接得到初始优选数据。
进一步的,基于特征优选模块对所述初始优选数据进行通道特征优选加权得到优选数据,包括:
将所述初始优选数据进行全局平均池化操作得到通道特征嵌入式表示;
将所述通道特征嵌入式表示输入多层感知器网络,基于多层感知器网络的网络参数矩阵为每个通道特征生成通道权重;
基于激活函数门控机制根据通道权重调整各个通道得到重加权矩阵;
对所述初始优选数据和所述重加权矩阵进行哈达玛积运算得到优选数据。
进一步的,基于跨样本注意力模块对所述优选特征数据进行跨样本注意力学习得到增强特征数据,包括:
对所述优选特征数据进行自注意力计算并按所述标签信息进行分组得到分组自注意力结果;
将所述分组自注意力结果拼接后进行线性变换操作,再进行残差连接和层归一化操作得到初始跨样本注意力特征;
基于多层感知器对所述跨样本注意力进行非线性化,再进行残差连接和层归一化操作得到跨样本注意力特征;
将所述跨样本注意力特征与所述优选特征数据进行拼接得到增强特征数据。
进一步的,根据所述分类预测结果和所述标签信息确定所述初始无人机图像识别网络的标签平滑损失,更新所述初始无人机图像识别网络参数,直到损失不再降低,根据所述特征提取模块和所述分类器模块得到训练完备的无人机图像识别网络,包括:
将所述标签信息平滑处理得到标签数据;
根据所述分类预测结果和所述标签数据确定所述初始无人机图像识别网络的标签平滑损失;
基于反向传播算法梯度更新所述初始无人机图像识别网络的网络参数,直至损失不再降低;
将所述特征提取模块和所述分类器模块组建得到训练完备的无人机图像识别网络。
本发明还提供了一种无人机图像识别网络应用方法,包括:
获取待检索无人机图像;
将待检索无人机图像输入到训练完备的无人机图像识别网络,识别无人机图像类别,其中,所述训练完备的无人机图像识别网络根据上述任一项所述的无人机图像识别网络训练方法确定;
基于所述无人机图像识别网络输出得到无人机图像类别。
本发明还提供了一种电子设备,包括处理器、存储器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时,实现上述任一项所述的无人机图像识别网络训练方法,和/或上述无人机图像识别网络应用方法。
本发明还提供了一种计算机可存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现上述任一项所述的无人机图像识别网络训练方法,和/或上述无人机图像识别网络应用方法。
与现有技术相比,采样上述实施例的有益效果是:在本发明提供的无人机图像识别网络训练方法中,首先获取无人机图像数据集,所述无人机图像数据集包括无人机图像和对应标签信息;然后构建初始无人机图像识别网络,所述初始无人机图像识别网络包括特征提取模块、跨样本注意力模块和分类器模块;以所述无人机图像作为初始无人机图像识别网络的输入,基于特征提取模块对所述无人机图像进行特征提取和特征优选加权得到优选特征数据,基于跨样本注意力模块对所述优选特征数据进行跨样本注意力学习得到增强特征数据,将所述增强特征数据输入分类器模块解码得到分类预测结果;最后根据所述分类预测结果和所述标签信息确定所述初始无人机图像识别网络的标签平滑损失,更新所述初始无人机图像识别网络参数,直到损失不再降低,根据所述特征提取模块和所述分类器模块得到训练完备的无人机图像识别网络。综上,本发明通过特征提取模块对无人机图像进行特征优选加权,在无人机图像的高复杂度空间结构情况下提取出更具辨别力的特征,提高分类性能;通过跨样本注意力模块在每个分类中建立不同样本的依赖关系,挖掘同类样本之间的相似性,更好地区分相似类,以此解决现有技术中,难以关注重要特征,无法解决类间相似度大的技术问题。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍,显然,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的无人机图像识别网络训练方法的一个实施例流程示意图;
图2为本发明提供的无人机图像识别网络应用方法的一个实施例流程示意图;
图3为本发明提供的电子设备的一个实施例结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所以其他实施例,都属于本发明保护的范围。
应当理解,示意图的附图并未按实物比例绘制。本发明中使用的流程图示出了根据本发明的一些实施例实现的操作。应当理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本发明内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器系统和/或微控制器系统中实现这些功能实体。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
图1为本发明提供的无人机图像识别网络训练方法的一个实施例流程示意图,如图1所示,无人机图像识别网络训练方法包括:
S101、获取无人机图像数据集,所述无人机图像数据集包括无人机图像和对应标签信息;
S102、构建初始无人机图像识别网络,所述初始无人机图像识别网络包括特征提取模块、跨样本注意力模块和分类器模块;
S103、以所述无人机图像作为初始无人机图像识别网络的输入,基于特征提取模块对所述无人机图像进行特征提取和特征优选加权得到优选特征数据,基于跨样本注意力模块对所述优选特征数据进行跨样本注意力学习得到增强特征数据,将所述增强特征数据输入分类器模块解码得到分类预测结果;
S104、根据所述分类预测结果和所述标签信息确定所述初始无人机图像识别网络的标签平滑损失,更新所述初始无人机图像识别网络参数,直到损失不再降低,根据所述特征提取模块和所述分类器模块得到训练完备的无人机图像识别网络。
具体地,在本发明提供的无人机图像识别网络训练方法中,首先获取无人机图像数据集,所述无人机图像数据集包括无人机图像和对应标签信息;然后构建初始无人机图像识别网络,所述初始无人机图像识别网络包括特征提取模块、跨样本注意力模块和分类器模块;以所述无人机图像作为初始无人机图像识别网络的输入,基于特征提取模块对所述无人机图像进行特征提取和特征优选加权得到优选特征数据,基于跨样本注意力模块对所述优选特征数据进行跨样本注意力学习得到增强特征数据,将所述增强特征数据输入分类器模块解码得到分类预测结果;最后根据所述分类预测结果和所述标签信息确定所述初始无人机图像识别网络的标签平滑损失,更新所述初始无人机图像识别网络参数,直到损失不再降低,根据所述特征提取模块和所述分类器模块得到训练完备的无人机图像识别网络。综上,本发明通过特征提取模块对无人机图像进行特征优选加权,在无人机图像的高复杂度空间结构情况下提取出更具辨别力的特征,提高分类性能;通过跨样本注意力模块在每个分类中建立不同样本的依赖关系,挖掘同类样本之间的相似性,更好地区分相似类,以此解决现有技术中,难以关注重要特征,无法解决类间相似度大的技术问题。
在本发明的具体实施例中,获取无人机图像数据集,包括:
获取无人机图像和对应标签信息;
将所述无人机图像进行大小重定义和中心裁剪保证图像尺寸一致,根据所述无人机图像和所述对应标签信息构建无人机图像数据集。
具体地,获取用于网络训练的无人机通过航拍得到的无人机图像,将图像进行大小重定义和中心剪裁后使所有图像尺寸大小一致,并将无人机图像进行分类标注得到对应标签信息,将大小一致的无人机图像和标签信息组成无人机图像数据集。
在本发明的具体实施例中,特征提取模块包括四个基本提取模块、特征优选模块和全局平均池化层,所述基本提取模块由一个下采样层和一个纯卷积块组成;以所述无人机图像作为初始无人机图像识别网络的输入,基于特征提取模块对所述无人机图像进行特征提取和特征优选加权得到优选特征数据,包括:
将所述无人机图像输入特征提取模块,依次通过三个基本提取模块进行特征提取得到初始特征数据;
基于特征优选模块对所述初始特征数据进行像素特征优选加权得到初始优选数据;
基于特征优选模块对所述初始优选数据进行通道特征优选加权得到优选数据;
将所述优选数据通过基本提取模块进行特征提取和全局平均池化层得到优选特征数据。
具体地,本发明实施例中特征提取模块由四个基本提取模块和特征优选模块组成,基本提取模块用于对图像数据进行特征提取,特征优选模块则用于对特征进行特征优选加权,提高重要特征的权重。对输入到特征提取模块的无人机图像,首先经过三个基本提取模块进行特征提取得到初始特征数据;然后通过特征优选模块对初始特征数据进行像素特征优选加权得到初始优选数据,以此建立起每个像素点与全图的关系,获取图像空间上的全局信息,使每个通道都具有足够多的信息;然后特征优选模块再对初始优选数据进行通道特征优选加权得到优选数据,以此选择出更具判别性的通道特征,学习到更好的特征表示;最后再经过一个基本提取模块和全局平均池化得到优选特征数据。
在本发明的具体实施例中,基于特征优选模块对所述初始特征数据进行像素特征优选加权得到初始优选数据,包括:
将所述初始特征数据进行卷积降维得到像素特征嵌入式表示;
基于嵌入式高斯算法计算所述像素特征嵌入式表示中特征的自相关性得到像素响应权重矩阵;
将所述响应权重矩阵与所述初始特征数据相乘得到全局响应图;
将所述全局响应图进行卷积升维,得到空间上下文特征,并将所述空间上下文特征与初始特征数据进行残差连接得到初始优选数据。
具体地,对于输入的初始特征数据,首先使用1×1卷积来获取特征的像素特征嵌入式表示,同时为减小参数量,减小特征的通道数,得到/>。对特征进行展平后基于嵌入式高斯算法计算特征的自相关性,即与当前图像空间中其他所有像素点的特征权重之和,表示每个像素点的响应,公式如下:
其中表示初始特征数据,/>分别表示特征数据的通道数、高和宽,/>和/>表示卷积网络的权重矩阵,/>是经过归一化后的每个像素点的像素响应权重矩阵。
之后将得到的像素响应权重矩阵作为权重再乘回特征中,公式为:
其中,表示卷积网络的权重矩阵,/>表示初始特征数据经过卷积后的像素特征嵌入式表示,/>表示得到的全局响应图。
此时得到了经过全局上下文信息丰富的特征,将展平状态再形状转换回原始形状后经过一个1×1卷积恢复到原始通道数,得到空间上下文特征,再与初始特征数据进行残差连接,将这些信息增加到初始特征数据中,得到初始优选数据。
在本发明的具体实施例中,基于特征优选模块对所述初始优选数据进行通道特征优选加权得到优选数据,包括:
将所述初始优选数据进行全局平均池化操作得到通道特征嵌入式表示;
将所述通道特征嵌入式表示输入多层感知器网络,基于多层感知器网络的网络参数矩阵为每个通道特征生成通道权重;
基于激活函数门控机制根据通道权重调整各个通道得到重加权矩阵;
对所述初始优选数据和所述重加权矩阵进行哈达玛积运算得到优选数据。
具体地,通过前面所述的像素特征优选加权后,此时每个通道中的特征在原始信息的基础上又获得了更加全面的空间上下文信息,还需进行进一步的特征优选加权。首先使用全局平均池化操作产生基于通道的特征响应的通道特征嵌入式表示,以保留整体特性和更多的高维信息,公式如下:
其中,表示第/>个通道的图片数据,/>表示图片数据每个像素点的坐标。
然后使用多层感知器这种前馈神经网络,利用其网络矩阵为每个通道特征生成不同的通道权重;再使用sigmoid激活函数的门控机制,根据通道权重调整各个通道得到重加权矩阵,表示经过特征选择后每个特征通道的重要性;最后将初始优选数据和重加权矩阵进行哈达玛积运算,完成在通道维度上对初始优选数据的重新加权,有效的选择出重要特征,抑制不重要特征,实现对特征的优选。
与现有技术相比,本发明通过像素特征优选加权捕获全面的全局空间信息,使得每个通道都具有足够多的信息,从而实现更加准确的通道选择,通过通道特征优选加权选择出更具判别性的特征,学习到更好的特征表示,提高分类性能。
在本发明的具体实施例中,基于跨样本注意力模块对所述优选特征数据进行跨样本注意力学习得到增强特征数据,包括:
对所述优选特征数据进行自注意力计算并按所述标签信息进行分组得到分组自注意力结果;
将所述分组自注意力结果拼接后进行线性变换操作,再进行残差连接和层归一化操作得到初始跨样本注意力特征;
基于多层感知器对所述跨样本注意力进行非线性化,再进行残差连接和层归一化操作得到跨样本注意力特征;
将所述跨样本注意力特征与所述优选特征数据进行拼接得到增强特征数据。
具体地,在本发明中,还加入了跨样本注意力模块,用于学习同类样本中,不同样本之间的关系。本发明的跨样本注意力模块在训练阶段,首先将优选特征数据当做自注意力的Q、K、V按照设定的头的数量进行划分,进行自注意力计算,以此平行地计算从输入信息中选取的多个信息,每个注意力关注输入信息的不同部分,使模型能够共同关注来自不同位置的不同表示子空间的信息,公式如下:
其中,为缩放系数。
再将每一组自注意力的结果拼接起来后进行线性变换,再进行残差连接和归一化操作得到初始跨样本注意力特征,公式如下:
其中,表示线性变换使用的全连接层的权重矩阵,/>表示残差连接,/>表示归一化操作。
之后再将初始跨样本注意力特征输入到多层感知器进行非线性化,再进行一次残差连接和归一化操作得到跨样本注意力特征,公式如下:
其中表示多层感知器。
最后将得到的跨样本注意力特征拼接到优选特征数据中得到增强特征数据。
与现有技术相比,本发明的跨样本注意力模块使用多头注意力的机制进一步细化了注意力层,在每个分类中建立了不同样本之间的依赖关系,挖掘每个分类中不同样本之间的相似性,实现对同类中不同样本间的促进学习,更好的区分相似类。
在本发明的具体实施例中,根据所述分类预测结果和所述标签信息确定所述初始无人机图像识别网络的标签平滑损失,更新所述初始无人机图像识别网络参数,直到损失不再降低,根据所述特征提取模块和所述分类器模块得到训练完备的无人机图像识别网络,包括:
将所述标签信息平滑处理得到标签数据;
根据所述分类预测结果和所述标签数据确定所述初始无人机图像识别网络的标签平滑损失;
基于反向传播算法梯度更新所述初始无人机图像识别网络的网络参数,直至损失不再降低;
将所述特征提取模块和所述分类器模块组建得到训练完备的无人机图像识别网络。
具体地,在计算损失时,更改传统的将标签信息转换为0,1的编码形式,而是通过以下公式将标签信息转换为标签数据:
其中,为一个很小的常数,本实验设置为0.1,/>为类数,当/>即对应类别时分类概率/>为/>,当其他情况时,对剩余小概率进行平均划分。
通过上述方法使得概率优目标不再为1和0,预测值的最优解也不再是正无穷大,而是一个具体的数值,在一定程度上避免了过度拟合,也缓解了错误标签带来的影响。根据分类预测结果和修改后得到的标签数据计算标签平滑损失,公式为:
其中,为分类预测结果中属于每个类别的概率,/>表示当前的标签数据。
然后基于反向传播算法梯度更新所述初始无人机图像识别网络的网络参数,直至损失不再降低,将特征提取模块和所述分类器模块组建得到训练完备的无人机图像识别网络。需要说明的是,跨样本注意力模块在仅在训练过程中使用学习样本关系,在测试以及训练完备的无人机图像识别网络中去掉跨样本注意力模块。
综上,本发明通过像素特征优选加权捕获全面的全局空间信息,使得每个通道都具有足够多的信息,从而实现更加准确的通道选择,通过通道特征优选加权选择出更具判别性的特征,学习到更好的特征表示,提高分类性能;通过跨样本注意力模块使用多头注意力的机制进一步细化了注意力层,在每个分类中建立了不同样本之间的依赖关系,挖掘每个分类中不同样本之间的相似性,实现对同类中不同样本间的促进学习,更好的区分相似类;通过计算标签平滑损失避免了网络过度拟合,同时缓解了错误标签带来的影响。
本发明还提供了一种无人机图像识别网络应用方法,如图2所示,图2为本发明提供的无人机图像识别网络应用方法的一个实施例的流程示意图,包括:
S201、获取待检索无人机图像;
S202、将待检索无人机图像输入到训练完备的无人机图像识别网络,识别无人机图像类别,其中,所述训练完备的无人机图像识别网络根据上述任一项所述的无人机图像识别网络训练方法确定;
S203、基于所述无人机图像识别网络输出得到无人机图像类别。
在本发明实施例中,首先,获取待识别的无人机图像;然后利用上述训练完备的无人机图像识别网络对待识别无人机图像进行有效识别,即可输出无人机图像类别。
本发明还提供了一种电子设备300,如图3所示,图3为本发明提供的电子设备一实施例的结构示意图,电子设备300包括处理器301、存储器302及存储在存储器302并可在处理器301上运行的计算机程序,处理器301执行程序时,实现如上所述的无人机图像识别网络训练方法和/或如上所述的无人机图像识别网络应用方法。
作为优选的实施例,上述电子设备还包括显示器303,用于显示处理器301执行如上所述无人机图像识别网络训练方法和/或如上所述的无人机图像识别网络应用方法的过程。
其中,处理器301可能是一种集成电路芯片,具有信号的处理能力。上述的处理器301可以是通用处理器,包括中央处理器(Central Processing Unit,CPU )、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器也可以是微处理器或者该处理器也可以是任何常规的处理器等。
其中,存储器302可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),安全数字(Secure Digital,SD卡),闪存卡(Flash Card)等。其中,存储器302用于存储程序,所述处理器301在接收到执行指令后,执行所述程序,前述本发明实施例任一实施例揭示的流程定义的方法可以应用于处理器301中,或者由处理器301实现。
其中,显示器303可以是LED显示屏,液晶显示器或触控式显示器等。显示器303用于显示在电子设备300的各种信息。
可以理解的是,图3所示的结构仅为电子设备300的一种结构示意图,电子设备300还可以包括比图3所示更多或更少的组件。图3中所示的各组件可以采用硬件、软件或其组合实现。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时,实现如上所述的无人机图像识别网络训练方法和/或如上所述的无人机图像识别网络应用方法。
一般来说,用于实现本发明方法的计算机指令的可以采用一个或多个计算机可读的存储介质的任意组合来承载。非临时性计算机可读存储介质可以包括任何计算机可读介质,除了临时性地传播中的信号本身。
计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线,或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件,或者上述的任意合适的组合。在本发明件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种无人机图像识别网络训练方法,其特征在于,所述方法包括:
获取无人机图像数据集,所述无人机图像数据集包括无人机图像和对应标签信息;
构建初始无人机图像识别网络,所述初始无人机图像识别网络包括特征提取模块、跨样本注意力模块和分类器模块;
以所述无人机图像作为初始无人机图像识别网络的输入,基于特征提取模块对所述无人机图像进行特征提取和特征优选加权得到优选特征数据,基于跨样本注意力模块对所述优选特征数据进行跨样本注意力学习得到增强特征数据,将所述增强特征数据输入分类器模块解码得到分类预测结果;
根据所述分类预测结果和所述标签信息确定所述初始无人机图像识别网络的标签平滑损失,更新所述初始无人机图像识别网络参数,直到损失不再降低,根据所述特征提取模块和所述分类器模块得到训练完备的无人机图像识别网络。
2.根据权利要求1所述的无人机图像识别网络训练方法,其特征在于,所述获取无人机图像数据集,包括:
获取无人机图像和对应标签信息;
将所述无人机图像进行大小重定义和中心裁剪保证图像尺寸一致,根据所述无人机图像和所述对应标签信息构建无人机图像数据集。
3.根据权利要求1所述的无人机图像识别网络训练方法,其特征在于,所述特征提取模块包括四个基本提取模块、特征优选模块和全局平均池化层,所述基本提取模块由一个下采样层和一个纯卷积块组成;以所述无人机图像作为初始无人机图像识别网络的输入,基于特征提取模块对所述无人机图像进行特征提取和特征优选加权得到优选特征数据,包括:
将所述无人机图像输入特征提取模块,依次通过三个基本提取模块进行特征提取得到初始特征数据;
基于特征优选模块对所述初始特征数据进行像素特征优选加权得到初始优选数据;
基于特征优选模块对所述初始优选数据进行通道特征优选加权得到优选数据;
将所述优选数据通过基本提取模块进行特征提取和全局平均池化层得到优选特征数据。
4.根据权利要求3所述的无人机图像识别网络训练方法,其特征在于,所述基于特征优选模块对所述初始特征数据进行像素特征优选加权得到初始优选数据,包括:
将所述初始特征数据进行卷积降维得到像素特征嵌入式表示;
基于嵌入式高斯算法计算所述像素特征嵌入式表示中特征的自相关性得到像素响应权重矩阵;
将所述响应权重矩阵与所述初始特征数据相乘得到全局响应图;
将所述全局响应图进行卷积升维,得到空间上下文特征,并将所述空间上下文特征与初始特征数据进行残差连接得到初始优选数据。
5.根据权利要求3所述的无人机图像识别网络训练方法,其特征在于,所述基于特征优选模块对所述初始优选数据进行通道特征优选加权得到优选数据,包括:
将所述初始优选数据进行全局平均池化操作得到通道特征嵌入式表示;
将所述通道特征嵌入式表示输入多层感知器网络,基于多层感知器网络的网络参数矩阵为每个通道特征生成通道权重;
基于激活函数门控机制根据通道权重调整各个通道得到重加权矩阵;
对所述初始优选数据和所述重加权矩阵进行哈达玛积运算得到优选数据。
6.根据权利要求1所述的无人机图像识别网络训练方法,其特征在于,所述基于跨样本注意力模块对所述优选特征数据进行跨样本注意力学习得到增强特征数据,包括:
对所述优选特征数据进行自注意力计算并按所述标签信息进行分组得到分组自注意力结果;
将所述分组自注意力结果拼接后进行线性变换操作,再进行残差连接和层归一化操作得到初始跨样本注意力特征;
基于多层感知器对所述跨样本注意力进行非线性化,再进行残差连接和层归一化操作得到跨样本注意力特征;
将所述跨样本注意力特征与所述优选特征数据进行拼接得到增强特征数据。
7.根据权利要求1所述的无人机图像识别网络训练方法,其特征在于,所述根据所述分类预测结果和所述标签信息确定所述初始无人机图像识别网络的标签平滑损失,更新所述初始无人机图像识别网络参数,直到损失不再降低,根据所述特征提取模块和所述分类器模块得到训练完备的无人机图像识别网络,包括:
将所述标签信息平滑处理得到标签数据;
根据所述分类预测结果和所述标签数据确定所述初始无人机图像识别网络的标签平滑损失;
基于反向传播算法梯度更新所述初始无人机图像识别网络的网络参数,直至损失不再降低;
将所述特征提取模块和所述分类器模块组建得到训练完备的无人机图像识别网络。
8.一种无人机图像识别网络应用方法,其特征在于,所述方法包括:
获取待检索无人机图像;
将待检索无人机图像输入到训练完备的无人机图像识别网络,识别无人机图像类别,其中,所述训练完备的无人机图像识别网络根据权利要求1至7任一项所述的无人机图像识别网络训练方法确定;
基于所述无人机图像识别网络输出得到无人机图像类别。
9.一种电子设备,包括处理器、存储器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,处理器执行程序时,实现上述权利要求1至7任一项所述的无人机图像识别网络训练方法,和/或上述权利要求8所述的无人机图像识别网络应用方法。
10.一种计算机可存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现上述权利要求1至7任一项所述的无人机图像识别网络训练方法,和/或上述权利要求8所述的无人机图像识别网络应用方法。
CN202310933403.0A 2023-07-27 2023-07-27 无人机图像识别网络训练方法、应用方法及电子设备 Pending CN117079160A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310933403.0A CN117079160A (zh) 2023-07-27 2023-07-27 无人机图像识别网络训练方法、应用方法及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310933403.0A CN117079160A (zh) 2023-07-27 2023-07-27 无人机图像识别网络训练方法、应用方法及电子设备

Publications (1)

Publication Number Publication Date
CN117079160A true CN117079160A (zh) 2023-11-17

Family

ID=88710582

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310933403.0A Pending CN117079160A (zh) 2023-07-27 2023-07-27 无人机图像识别网络训练方法、应用方法及电子设备

Country Status (1)

Country Link
CN (1) CN117079160A (zh)

Similar Documents

Publication Publication Date Title
CN109117777B (zh) 生成信息的方法和装置
CN113255694B (zh) 训练图像特征提取模型和提取图像特征的方法、装置
US20220101644A1 (en) Pedestrian re-identification method, device, electronic device and computer-readable storage medium
US20170091590A1 (en) Computer vision as a service
CN111709311A (zh) 一种基于多尺度卷积特征融合的行人重识别方法
Guan et al. On-device mobile landmark recognition using binarized descriptor with multifeature fusion
CN110765954A (zh) 一种车辆重识别方法、设备及存储装置
CN105069424A (zh) 面部快速识别系统和方法
CN114170516B (zh) 一种基于路侧感知的车辆重识别方法、装置及电子设备
CN110309810B (zh) 一种基于批次中心相似度的行人重识别方法
CN112733590A (zh) 一种基于二阶混合注意力的行人重识别方法
CN113313053A (zh) 图像处理方法、装置、设备、介质及程序产品
CN114898266B (zh) 训练方法、图像处理方法、装置、电子设备以及存储介质
Zhong et al. Improving pedestrian attribute recognition with multi-scale spatial calibration
CN114943937A (zh) 行人重识别方法、装置、存储介质及电子设备
CN113723558A (zh) 基于注意力机制的遥感图像小样本舰船检测方法
CN113255557A (zh) 一种基于深度学习的视频人群情绪分析方法及系统
CN116246287B (zh) 目标对象识别方法、训练方法、装置以及存储介质
CN115482436B (zh) 图像筛选模型的训练方法、装置以及图像筛选方法
CN115063831A (zh) 一种高性能行人检索与重识别方法及装置
Wang et al. Image matching via the local neighborhood for low inlier ratio
CN117079160A (zh) 无人机图像识别网络训练方法、应用方法及电子设备
CN112651996A (zh) 目标检测跟踪方法、装置、电子设备和存储介质
CN112949672A (zh) 商品识别方法、装置、设备以及计算机可读存储介质
Cao et al. Person reidentification based on view information and batch feature erasing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination