CN114187569A - 一种皮尔森系数矩阵与注意力融合的实时目标检测方法 - Google Patents

一种皮尔森系数矩阵与注意力融合的实时目标检测方法 Download PDF

Info

Publication number
CN114187569A
CN114187569A CN202111458521.8A CN202111458521A CN114187569A CN 114187569 A CN114187569 A CN 114187569A CN 202111458521 A CN202111458521 A CN 202111458521A CN 114187569 A CN114187569 A CN 114187569A
Authority
CN
China
Prior art keywords
matrix
pearson coefficient
layer
coefficient matrix
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111458521.8A
Other languages
English (en)
Inventor
程飞
杨鹏飞
李晨
林成民
朱子恒
丁韵青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202111458521.8A priority Critical patent/CN114187569A/zh
Publication of CN114187569A publication Critical patent/CN114187569A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Abstract

本发明公开了一种皮尔森系数矩阵与注意力融合的实时目标检测方法,主要解决现有图像处理技术存在特征图全局上下文信息不全、特征图处理耗时高的问题。其实现方案为:1)获取实验训练集和测试集,并使用骨干网络提取各自的图片特征,将提取的图片特征图输入到皮尔森系数矩阵与注意力融合的编码器;将该编码器输出的具有全局上下文关系的特征图输入到现有的DETR模型解码器中,构建出皮尔森系数矩阵与注意力融合的目标检测模型;2)利用训练集对该目标检测模型进行训练;3)将测试集图片输入到训练好的目标检测模型,得到待预测图像中的目标分类及目标定位坐标。本发明提高了目标检测的精确度和速度,可用于自动驾驶、交通流量分析。

Description

一种皮尔森系数矩阵与注意力融合的实时目标检测方法
技术领域
本发明属于计算机视觉技术领域,特别涉及一种实时目标检测方法,可用于自动驾驶、交通流量分析场景。
技术背景
随着深度学习的快速发展,使得计算机视觉及其相关领域迎来了巨大的机遇与挑战。作为计算机视觉的一个重要子领域,目标检测的发展取得长足进步。目标检测的任务是找出图片中所有感兴趣的物体,并确定它们的位置和类别。基于卷积神经网络的目标检测算法是其中的典型代表,其可以分为两类,一类是两阶段法,其代表算法有Faster R-CNN等,这种算法需要先产生目标的候选框,再对候选框做目标分类与包围框回归;另一类是一阶段法,代表算法有YOLO等,仅需要一次操作就可以直接预测目标的类别和位置。
卷积神经网络通过对输入图片进行局部线性加权实现图片特征提取,难以有效提取全局上下文信息,随着卷积层数的增加,特征图像素点的局部感受野增大,但会损失小目标的特征信息。Lin等人提出的特征金字塔FPN弥补这种不足,将较低卷积层提取的图片纹理信息与较高卷积层提取的图片语义信息通过上采样、下采样、横向连接结合,得到更丰富的图片特征。Dai等人使用可形变卷积动态调整卷积核在特征图中的采样点,提取远距离的有效特征。这两种方法虽说都在一定程度上缓解了卷积神经网络提取全局上下文关系能力不足的问题,但提取到的图片信息仍然遗漏了大量的全局上下文信息。
为了解决上述问题,Facebook团队在2020年ECCV会议上提出DETR网络结构,其利用Transformer的多头自注意力机制提取特征图片的全局上下文信息,给目标检测的研究带来了新方向。但DETR网络结构存在的不足之处是:Transformer中的每个编码器层都存在多头自注意力计算,而多头自注意力机制的核心在于查询向量与键向量乘积得到的注意力矩阵,即点与全局上下文的相互关系,计算复杂度与输入特征图尺寸的平方成正比,因此注意力计算会消耗大量时间,并且查询向量与键向量作为特征图的线性变化,没有考虑到特征图各个通道之间的数据变化规律与联系,导致编码器层对全局上下文特征的提取不够充分,降低了DETR网络结构的目标检测性能。
发明内容
本发明的目的在于克服上述现有技术存在的缺陷,提出一种皮尔森系数矩阵与注意力融合的实时目标检测方法,以对DETR网络结构进行改进,充分提取编码器特征,减小计算复杂度,提高目标检测性能。
为实现上述目的,本发明的技术方案包括:
(1)获取实时车辆检测公开数据集,对该数据集的训练集、测试集图片依次进行随机反转、缩放、裁剪,并根据设定的均值和标准差对图片进行归一化;
(2)采用ResNet-50作为骨干网络对归一化后的图片进行特征提取,得到维度为(B,C,H,W)的特征图矩阵X,其中B为特征图的数量,H、W分别为特征图的高和宽,C为特征图的通道数;
(3)构建皮尔森系数矩阵与注意力融合的目标检测模型:
(3a)获取带有全局上下文信息的特征图矩阵F:
计算特征图矩阵X中每一个特征值与其他所有特征值之间的皮尔森系数,构成皮尔森系数矩阵P;
将皮尔森系数矩阵P输入到一个输入层与输出层维度相同的多层感知机MLP中进行转化;
将转化后的皮尔森系数矩阵MP与特征图矩阵X做矩阵相乘,并将该矩阵相乘结果MF与特征图矩阵X进行残差连接并进行层归一化,得到层归一化后的残差连接矩阵F′;
将层归一化后的残差连接矩阵F′输入到前向反馈层FFN,该前向反馈层的输出结果为一个带有全局上下文信息的特征图矩阵F;
(3b)选用原始包含六个相同的编码器层的Transformer编码器,去除其前三个编码器层,将(3a)得到的带有全局上下文信息的特征图矩阵F与Transformer编码器的第四个编码器层相连接,形成具有四层结构的皮尔森系数矩阵与注意力融合的Transformer编码器,并将其与DETR网络结构中的解码器相连接,构成皮尔森系数矩阵与注意力融合的目标检测模型;
(4)设置皮尔森系数矩阵与注意力融合的目标检测模型的损失函数Loss,采用梯度下降法对模型进行训练,得到训练好的目标检测模型;
(5)将归一化后的测试集图片输入到训练好的目标检测模型中,得到待预测图像中的目标分类及目标定位坐标,通过目标定位坐标在图像中画出目标包围框并标注目标类别。
本发明与现有技术相比,具有如下优点:
第一,本发明使用基于皮尔森系数矩阵的编码器层提取像素之间的浅层关系,同时使用原始Transformer编码器层提取像素之间的深层关系,通过融合皮尔森系数矩阵与注意力机制对输入图片特征进行编码,相比原始Transformer编码器,具有更强的图片全局上下文关系提取能力。
第二,本发明由于使用多分支多层感知机对皮尔森系数矩阵进行转化,增强了皮尔森系数矩阵在提取全局上下文关系时的灵活性。
第三,本发明由于把原始Transformer的前三个编码器层替换为一个基于皮尔森系数矩阵的编码器层,相比原始包含六个编码器层的Transformer编码器,降低编码器的计算开销,提高模型的训练、推理速度。
附图说明
图1为本发明的实现流程图;
图2为本发明中的皮尔森系数矩阵与注意力融合的编码器结构图;
图3为本发明中的皮尔森系数矩阵与注意力融合的目标检测模型结构图;
图4为本发明中的目标检测模型与DETR模型训练过程中的平均准确率变化对比图;
图5为本发明中的目标检测模型对测试集图片进行检测的效果图。
具体实施方式
以下结合附图对本发明的实施例和效果做进一步详细描述。
参照图1,本实例的实现步骤如下:
步骤1,获取实验训练集和测试集。
1.1)从互联网上下载车辆检测公开数据集;
1.2)对数据集的训练集、测试集图片进行随机反转,将反转后的图片随机裁剪为不同的大小和宽高比,再将裁剪后的图片尺寸随机缩放为480、512、544、576、608、640、672、704、736、768、800中的一个;
1.3)设置均值为0.485、0.456、0.406,设置标准差为0.229、0.224、0.225,根据设定的均值和标准差对缩放后的图片进行归一化,得到归一化后的三通道图片。
步骤2,使用骨干网络提取图片特征。
选择ResNet-50网络作为骨干网络,其由一个卷积层、一个最大池化层、四个残差模块组成,其中四个残差模块又分别由9个卷积层、12个卷积层、18个卷积层和9个卷积层组成;
将归一化后的三通道图片输入到ResNet-50网络的第一个卷积层,再将该卷积层的输出结果输入到第一个最大池化层,再将该最大池化层的输出结果输入到第一个残差模块,再依次将残差模块的输出结果输入到下一个残差模块,最后一个残差模块的输出即为维度为(B,C,H,W)的特征图矩阵X,其中B为特征图的数量,H、W分别为特征图的高和宽,C为特征图的通道数。
步骤3,构建皮尔森系数矩阵与注意力融合的目标检测模型。
3.1)根据特征图矩阵X,获取带有全局上下文信息的特征图矩阵F:
3.1.1)计算特征图矩阵X中每一个特征值与其他所有特征值之间的皮尔森系数,构成皮尔森系数矩阵P:
对特征图矩阵X进行维度变换,即将其4维度(B,C,H,W)变换为3维度(B,H*W,C),其中H*W表示特征图的分辨率;
计算维度变换后特征图矩阵的最后一维均值:
Figure BDA0003388827120000041
其中,
Figure BDA0003388827120000042
表示第b个特征图矩阵中位置为s的特征向量的均值,Xb,s,c表示第b个特征图矩阵中位置为s的特征向量的第c个通道的特征值,b=1,2,…,B,s=1,2,…,H*W;
根据特征图矩阵最后一维的均值
Figure BDA0003388827120000043
和所述的特征值Xb,s,c计算皮尔森系数:
Figure BDA0003388827120000044
其中,
Figure BDA0003388827120000045
表示第b个特征图矩阵中位置为s1与s2的特征向量之间的皮尔森系数,
Figure BDA0003388827120000046
Figure BDA0003388827120000047
分别表示第b个特征图矩阵中位置为s1和s2的特征向量的第c个通道的特征值,
Figure BDA0003388827120000048
Figure BDA0003388827120000049
分别表示第b个特征图矩阵中位置为s1和s2的特征向量的均值,b=1,2,…,B;s1=1,2,…,H*W;s2=1,2,…,H*W;
利用皮尔森系数的计算公式,计算特征图矩阵中所有位置之间的皮尔森系数,得到维度为(B,H*W,H*W)的皮尔森系数矩阵P;
3.1.2)将皮尔森系数矩阵P输入到一个输入层与输出层维度相同的多层感知机MLP中进行转化:
对皮尔森系数矩阵P的最后一维做softmax归一化:
Figure BDA0003388827120000051
其中,
Figure BDA0003388827120000052
表示归一化后第b个特征图矩阵中位置为s1与s2的特征向量之间的皮尔森系数,b=1,2,…,B;s1=1,2,…,H*W;s2=1,2,…,H*W;
利用softmax归一化的计算公式,对皮尔森系数矩阵P的所有位置都进行归一化,得到归一化后的皮尔森系数矩阵P′;
根据不同特征图矩阵的特征图分辨率H*W,采用多分支结构选择相应的多层感知机MLP,该MLP由一个输入层、一个隐藏层和一个输出层构成,其中输入层的输入维度与输出层的输出维度都为H*W,保证转化前后皮尔森系数矩阵的维度不变,输入层与隐藏层之间的激活函数选择RELU,隐藏层与输出层之间不设置激活函数,将归一化后的皮尔森系数矩阵P′输入MLP的输入层,MLP的输出结果为转化后的皮尔森系数矩阵MP:
MP=W2*f(W1*P′+b1)+b2
其中,W1、b1分别代表输入层与隐藏层之间的权重参数和偏置项,W2、b2分别代表隐藏层与输出层之间的权重参数和偏置项,f(·)代表激活函数RELU;
3.1.3)将转化后的皮尔森系数矩阵MP与特征图矩阵X做矩阵相乘,并将该矩阵相乘结果MF与特征图矩阵X进行残差连接并进行层归一化,得到层归一化后的残差连接矩阵F′:
对多层感知机转化后的皮尔森系数矩阵与特征图矩阵的第二、三维进行矩阵相乘:
MFb=MPb×Xb
其中,MFb表示第b个多层感知机转化后的皮尔森系数矩阵与特征图矩阵的矩阵相乘结果,MPb表示第b个多层感知机转化后的皮尔森系数矩阵,Xb表示第b个特征图矩阵,b=1,2,…,B;
利用矩阵相乘的计算公式,对所有皮尔森系数矩阵与特征图矩阵都做矩阵相乘,得到矩阵相乘结果MF,将矩阵相乘结果MF与特征图矩阵X进行残差连接并进行层归一化,得到层归一化后的残差连接矩阵F′:
F′=LayerNorm(MF+X)
其中,LayerNorm(·)代表层归一化函数,X表示特征图矩阵。
3.1.4)将层归一化后的残差连接矩阵F′输入到前向反馈层FFN,该前向反馈层由两个全连接层组成,第一个全连接层的输入维度与第二个全连接层的输出维度一致,第一个全连接层的激活函数设置为RELU,第二个全连接层无激活函数,设置两个全连接层的dropout参数为0.1;将该前向反馈层的输出结果与残差连接矩阵F′再进行残差连接并进行层归一化,得到一个带有全局上下文信息的特征图矩阵F:
F=LayerNorm(F′+FFN(F′))
其中,LayerNorm(·)代表层归一化函数,FFN(·)代表对F′进行前向反馈层计算;
3.2)选用原始Transformer编码器,其由六个结构相同的基于注意力的编码器层组成,去除其前三个编码器层,将3.1)得到的带有全局上下文信息的特征图矩阵F与Transformer编码器的第四个编码器层相连接,形成具有四层结构的皮尔森系数矩阵与注意力融合的Transformer编码器,如图2所示;
3.3)选用DETR网络,其包括编码器、解码器,其中解码器由六个结构相同的解码器层组成,将3.2)中的Transformer编码器与DETR网络中的解码器相连接,构成皮尔森系数矩阵与注意力融合的目标检测模型。
上述目标检测模型的结构为:骨干网络→皮尔森系数矩阵与注意力融合的Transformer编码器→解码器,其中,皮尔森系数矩阵与注意力融合的Transformer编码器由一个基于皮尔森系数矩阵的编码器层和三个基于注意力的编码器层构成,解码器由六个结构相同的解码器层组成,如图3所示。
步骤4,对皮尔森系数矩阵与注意力融合的目标检测模型进行训练。
4.1)设置皮尔森系数矩阵与注意力融合的目标检测模型的损失函数Loss为交叉熵损失函数与L1范数损失函数之和,设置最大迭代次数为T=50,并令初始迭代次数t=0;
4.2)从训练集中按序选择两张图片与其对应的真实标签,将图片输入到步骤2中的骨干网络进行特征提取,将得到的特征图矩阵输入到皮尔森系数矩阵与注意力融合的目标检测模型,输出该图片的预测结果,并利用损失函数Loss计算预测结果与对应的真实标签的损失值;
4.3)采用Adam优化器,设置学习率为0.001,通过损失值对皮尔森系数矩阵与注意力融合的目标检测模型参数进行更新;
4.4)判断训练集的所有图片是否全部更新:如果是,则执行4.5),否则,返回4.2);
4.5)判断当前的迭代次数是否达到最大迭代次数T:如果是,则得到训练好的皮尔森系数矩阵与注意力融合的目标检测模型,执行步骤5;如果不是,则令t=t+1,返回4.2)。
步骤5,使用训练好的目标检测模型对输入图片进行目标检测。
将待检测图像输入到训练好的皮尔森系数矩阵与注意力融合的目标检测模型,通过其骨干网络提取输入图片的特征,该特征图通过基于皮尔森系数矩阵的编码器层提取全局上下文信息,该具有全局上下文信息的特征图再通过基于注意力的编码器层进一步提取全局上下文信息,该基于注意力的编码器层的输出结果再通过解码器得到待检测图像中的目标类别及目标定位坐标,通过目标定位坐标在图像中画出目标包围框并标注目标类别。
本发明的效果可通过以下实验进一步验证。
一.实验条件:
CPU使用Intel Xwon(R)Gold 6240CPU 2.60GHz×72,GPU使用NVIDIA GeForceGTX 2080Ti×3,操作系统使用Ubuntu 16.04,深度学习框架使用Pytorch1.8,NVIDIA计算包选择CUDA10.0+cuDNN7.4.1。
使用部分公开车辆检测数据集作为训练数据和测试数据。
二.实验内容
实验一.用上述训练数据集分别对本发明中的目标检测模型和现有的DETR模型进行训练,并分别记录其训练过程中的准确率、平均训练时间和平均测试时间,其中平均训练时间和平均测试时间如表1所示,训练过程中的准确率如图4所示,其中:
图4a为本发明中的目标检测模型训练的平均准确率均值mAP曲线;
图4b为现有的DETR模型训练的mAP曲线;
从4a可见,随着迭代次数的增大,mAP逐渐增加并稳定到0.30;
从4b可见,随着迭代次数的增大,mAP逐渐减少并稳定到0.29,低于本发明的收敛准确率;
由图4a和图4b的对比可见,本发明中的目标检测模型随着训练迭代次数增加,皮尔森系数矩阵的多层感知机的转化效果越来越好,因此mAP逐渐提升;由于DETR模型已加载训练好的模型参数,因此对数据集有极好的拟合能力,当数据集只有原来的一部分时,随着训练迭代次数的增加,模型对数据集的拟合能力逐渐降低,mAP逐渐下降。
表1为两种模型的训练时间与测试时间对比结果。
现有DETR模型 本发明目标检测模型
训练时间(秒/幅图) 0.1974 0.1925(↑2.48%)
测试时间(秒/幅图) 0.0837 0.0815(↑2.63%)
由表1可见,相比DETR模型,本发明提出的目标检测模型比DETR模型的训练速度高2.48%,测试速度上高2.63%。
实验二.从上述测试数据集中随机选择一张图片输入本发明中的目标检测模型进行目标检测,检测结果如图5所示。
从图4可见,本发明中的目标检测模型能够识别出输入图片中所有车辆的类别并对其进行定位。
综上,本发明中的目标检测模型具有良好的检测效果,且相比现有的DETR模型,在准确率、训练速度、测试速度上均有提升,表明本发明在实际应用中其效果优于现有的DETR模型。

Claims (9)

1.一种皮尔森系数矩阵与注意力融合的实时目标检测方法,其特征在于,包括:
(1)获取车辆检测公开数据集,对该数据集的训练集、测试集图片依次进行随机反转、缩放、裁剪,并根据设定的均值和标准差对图片进行归一化;
(2)采用ResNet-50作为骨干网络对归一化后的图片进行特征提取,得到维度为(B,C,H,W)的特征图矩阵X,其中B为特征图的数量,H、W分别为特征图的高和宽,C为特征图的通道数;
(3)构建皮尔森系数矩阵与注意力融合的目标检测模型:
(3a)获取带有全局上下文信息的特征图矩阵F:
计算特征图矩阵X中每一个特征值与其他所有特征值之间的皮尔森系数,构成皮尔森系数矩阵P;
将皮尔森系数矩阵P输入到一个输入层与输出层维度相同的多层感知机MLP中进行转化;
将转化后的皮尔森系数矩阵MP与特征图矩阵X做矩阵相乘,并将该矩阵相乘结果MF与特征图矩阵X进行残差连接并进行层归一化,得到层归一化后的残差连接矩阵F′;
将层归一化后的残差连接矩阵F′输入到前向反馈层FFN,该前向反馈层的输出结果为一个带有全局上下文信息的特征图矩阵F;
(3b)选用原始包含六个相同的编码器层的Transformer编码器,去除其前三个编码器层,将(3a)得到的带有全局上下文信息的特征图矩阵F与Transformer编码器的第四个编码器层相连接,形成具有四层结构的皮尔森系数矩阵与注意力融合的Transformer编码器,并将其与DETR网络结构中的解码器相连接,构成皮尔森系数矩阵与注意力融合的目标检测模型;
(4)设置皮尔森系数矩阵与注意力融合的目标检测模型的损失函数Loss,采用梯度下降法对模型进行训练,得到训练好的目标检测模型;
(5)将归一化后的测试集图片输入到训练好的目标检测模型中,得到待预测图像中的目标分类及目标定位坐标,通过目标定位坐标在图像中画出目标包围框并标注目标类别。
2.根据权利要求1所述的方法,其特征在于,(2)中采用ResNet-50作为骨干网络对归一化后的图片进行特征提取,是将归一化图片输入到ResNet-50网络的第一个卷积层,再将该卷积层的输出结果输入到第一个最大池化层,再将该最大池化层的输出结果依次输入到四个残差模块,最后一个残差模块的输出即为特征图矩阵X。
3.根据权利要求1所述的方法,其特征在于,(3a)中计算特征图矩阵X中每一个特征值与其他所有特征值之间的皮尔森系数,得到的皮尔森系数矩阵P,实现如下:
(3a1)对特征图矩阵X进行维度变换,即将其4维度(B,C,H,W)变换为3维度(B,H*W,C),其中,H*W表示特征图的分辨率;
计算维度变换后特征图矩阵的最后一维均值:
Figure FDA0003388827110000021
其中,
Figure FDA0003388827110000022
表示第b个特征图矩阵中位置为s的特征向量的均值,Xb,s,c表示第b个特征图矩阵中位置为s的特征向量的第c个通道的特征值,b=1,2,…,B;s=1,2,…,H*W;
(3a2)根据特征图矩阵最后一维的均值
Figure FDA0003388827110000023
和所述的特征值Xb,s,c计算皮尔森系数:
Figure FDA0003388827110000024
其中,
Figure FDA0003388827110000025
表示第b个特征图矩阵中位置为s1与s2的特征向量之间的皮尔森系数,
Figure FDA0003388827110000026
Figure FDA0003388827110000027
分别表示第b个特征图矩阵中位置为s1和s2的特征向量的第c个通道的特征值,
Figure FDA0003388827110000028
分别表示第b个特征图矩阵中位置为s1和s2的特征向量的均值,b=1,2,…,B;s1=1,2,…,H*W;s2=1,2,…,H*W;
(3a3)利用(3a2)的公式,计算特征图矩阵中所有位置之间的皮尔森系数,得到维度为(B,H*W,H*W)的皮尔森系数矩阵P。
4.根据权利要求1所述的方法,其特征在于,(3a)中将皮尔森系数矩阵P输入到一个输入层与输出层维度相同的多层感知机MLP中进行转化,实现如下:
(3a4)对皮尔森系数矩阵P的最后一维做softmax归一化:
Figure FDA0003388827110000029
其中,
Figure FDA00033888271100000210
表示归一化后第b个特征图矩阵中位置为s1与s2的特征向量之间的皮尔森系数,b=1,2,…,B;s1=1,2,…,H*W;s2=1,2,…,H*W;
(3a5)利用(3a4)的公式,对皮尔森系数矩阵P的所有位置都进行归一化,得到归一化后的皮尔森系数矩阵P′;
(3a6)根据不同特征图矩阵的特征图分辨率H*W,采用多分支结构选择相应的多层感知机MLP,将归一化后的皮尔森系数矩阵P′输入MLP的输入层,MLP的输出结果为转化后的皮尔森系数矩阵MP:
MP=W2*f(W1*P′+b1)+b2
其中,W1、b1分别代表输入层与隐藏层之间的权重参数和偏置项,W2、b2分别代表隐藏层与输出层之间的权重参数和偏置项,f(·)代表激活函数RELU。
5.根据权利要求1所述的方法,其特征在于,(3a)中得到矩阵相乘结果MF,实现如下:
(3a7)对多层感知机转化后的皮尔森系数矩阵与特征图矩阵的第二、三维进行矩阵相乘:
MFb=MPb×Xb
其中,MFb表示第b个多层感知机转化后的皮尔森系数矩阵与特征图矩阵的矩阵相乘结果,MPb表示第b个多层感知机转化后的皮尔森系数矩阵,Xb表示第b个特征图矩阵,b=1,2,…,B;
(3a8)利用(3a7)的公式,对所有皮尔森系数矩阵与特征图矩阵都做矩阵相乘,得到矩阵相乘结果MF。
6.根据权利要求1所述的方法,其特征在于,(3a)中得到层归一化后的残差连接矩阵F′,表示如下:
F′=LayerNorm(MF+X)
其中,LayerNorm(·)代表层归一化函数,X表示特征图矩阵。
7.根据权利要求1所述的方法,其特征在于,(3a)中得到的带有全局上下文信息的特征图矩阵F,表示如下:
F=LayerNorm(F′+FFN(F′))
其中,F代表带有全局上下文信息的特征图矩阵,LayerNorm(·)代表层归一化函数,FFN(·)代表对F′进行前向反馈层计算。
8.根据权利要求1所述的方法,其特征在于,(3b)中得到的皮尔森系数矩阵与注意力融合的目标检测模型,其结构为:骨干网络→皮尔森系数矩阵与注意力融合的Transformer编码器→解码器,其中,皮尔森系数矩阵与注意力融合的Transformer编码器由一个基于皮尔森系数矩阵的编码器层和三个基于注意力的编码器层构成。
9.根据权利要求1所述的方法,其特征在于(4)中用梯度下降法对皮尔森系数矩阵与注意力融合的目标检测模型进行训练,实现如下:
(4a)设置皮尔森系数矩阵与注意力融合的目标检测模型的损失函数Loss为交叉熵损失函数与L1范数损失函数之和,设置最大迭代次数为T=50,并令初始迭代次数t=0;
(4b)从训练集中按序选择两张图片与其对应的真实标签,将图片输入到(2)中的骨干网络进行特征提取,将得到的特征图矩阵输入到皮尔森系数矩阵与注意力融合的目标检测模型,输出该图片的预测结果,并利用损失函数Loss计算预测结果与对应的真实标签的损失值;
(4c)采用Adam优化器,设置学习率为0.001,通过损失值对皮尔森系数矩阵与注意力融合的目标检测模型参数进行更新;
(4d)判断训练集的所有图片是否全部更新:如果是,则执行(4e),否则,返回(4b);
(4e)判断当前的迭代次数是否达到最大迭代次数T:如果是,则得到训练好的皮尔森系数矩阵与注意力融合的目标检测模型,执行(5);如果不是,则令t=t+1,返回(4b)。
CN202111458521.8A 2021-12-02 2021-12-02 一种皮尔森系数矩阵与注意力融合的实时目标检测方法 Pending CN114187569A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111458521.8A CN114187569A (zh) 2021-12-02 2021-12-02 一种皮尔森系数矩阵与注意力融合的实时目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111458521.8A CN114187569A (zh) 2021-12-02 2021-12-02 一种皮尔森系数矩阵与注意力融合的实时目标检测方法

Publications (1)

Publication Number Publication Date
CN114187569A true CN114187569A (zh) 2022-03-15

Family

ID=80542009

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111458521.8A Pending CN114187569A (zh) 2021-12-02 2021-12-02 一种皮尔森系数矩阵与注意力融合的实时目标检测方法

Country Status (1)

Country Link
CN (1) CN114187569A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117191246A (zh) * 2023-11-07 2023-12-08 江苏航运职业技术学院 一种基于人工智能的船舶靠泊撞击力测试系统及方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117191246A (zh) * 2023-11-07 2023-12-08 江苏航运职业技术学院 一种基于人工智能的船舶靠泊撞击力测试系统及方法
CN117191246B (zh) * 2023-11-07 2024-02-06 江苏航运职业技术学院 一种基于人工智能的船舶靠泊撞击力测试系统及方法

Similar Documents

Publication Publication Date Title
CN108961235B (zh) 一种基于YOLOv3网络和粒子滤波算法的缺陷绝缘子识别方法
CN110111366B (zh) 一种基于多级损失量的端到端光流估计方法
CN113449131A (zh) 基于多特征信息捕捉和相关性分析的物品图像重识别方法
CN111191736A (zh) 基于深度特征交叉融合的高光谱图像分类方法
CN113673594B (zh) 一种基于深度学习网络的瑕疵点识别方法
CN111738363B (zh) 基于改进的3d cnn网络的阿尔茨海默病分类方法
CN109522831B (zh) 一种基于微卷积神经网络的车辆实时检测方法
CN111476133B (zh) 面向无人驾驶的前背景编解码器网络目标提取方法
CN110929080A (zh) 基于注意力和生成对抗网络的光学遥感图像检索方法
CN112651316A (zh) 二维和三维多人姿态估计系统及方法
CN116051840A (zh) 一种基于生成对抗学习的半监督水下图像语义分割方法
CN111652273A (zh) 一种基于深度学习的rgb-d图像分类方法
CN117152416A (zh) 一种基于detr改进模型的稀疏注意力目标检测方法
CN115131313A (zh) 基于Transformer的高光谱图像变化检测方法及装置
CN115147601A (zh) 基于自注意力全局特征增强的城市街道点云语义分割方法
CN116311186A (zh) 一种基于改进Transformer模型的植物叶片病变识别方法
CN114170154A (zh) 基于Transformer的遥感VHR图像变化检测方法
CN114187569A (zh) 一种皮尔森系数矩阵与注意力融合的实时目标检测方法
CN112668662B (zh) 基于改进YOLOv3网络的野外山林环境目标检测方法
CN113536925A (zh) 一种基于引导注意力机制的人群计数方法
CN117131348A (zh) 基于差分卷积特征的数据质量分析方法及系统
CN115222998B (zh) 一种图像分类方法
CN116386042A (zh) 一种基于三维池化空间注意力机制的点云语义分割模型
CN116402766A (zh) 一种结合卷积神经网络和Transformer的遥感影像变化检测方法
CN115439926A (zh) 一种基于关键区域和场景深度的小样本异常行为识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination