CN108205687B

CN108205687B - 目标检测系统中基于注意力机制定位损失计算方法及系统

Info

Publication number: CN108205687B
Application number: CN201810102737.2A
Authority: CN
Inventors: 刘阳; 孔祥斌; 李洪研; 张涛; 沈志忠; 陈树俊
Original assignee: CRSC Communication and Information Group Co Ltd CRSCIC
Current assignee: CRSC Communication and Information Group Co Ltd CRSCIC
Priority date: 2018-02-01
Filing date: 2018-02-01
Publication date: 2022-04-01
Anticipated expiration: 2038-02-01
Also published as: CN108205687A

Abstract

本发明涉及一种目标检测系统中基于注意力机制的定位损失计算方法及系统，其包括：在卷积神经网络的正向目标检测过程中，利用注意力机制计算用于生成目标预测框的卷积图的权重矩阵；确定预测框中心点横坐标、中心点纵坐标、横向宽度以及纵向高度各自单独的偏差所导致的其与目标框非重叠的区域；根据注意力机制获得的卷积图的权重矩阵中，位于预测框与目标框在卷积图上非重叠的区域的元素的权重，计算定位损失；计算反向误差传播中定位损失对于预测框、目标框与权重矩阵的梯度；判断卷积神经网络的迭代过程是否结束，否则返回前述步骤，是则结束。本发明能提高目标检测精确性，并能有效节省人力、物力和时间成本。

Description

目标检测系统中基于注意力机制定位损失计算方法及系统

技术领域

本发明涉及一种模式识别领域中计算机视觉方向的目标检测方法及系统，特别是关于一种目标检测系统中基于注意力机制的定位损失计算方法及系统。

背景技术

在近年来目标检测领域的Faster-RCNN、SSD等基于卷积神经网络经典算法中，在网络正向目标检测的最后阶段，已经获知系统对物体位置的预测框(predicted bounding-box)t^u和训练数据中的目标框(ground-truth bounding-box)v之后，普遍采用

函数来计算目标定位损失L_loc(t^u，v)。从而可以在反向误差传播阶段，利用链式求导法则，根据L_loc(t^u，v)在每层网络节点和链路处的梯度，修正网络中的链路权重和卷积核数值，通过上述迭代过程完成对卷积神经网络的训练。

其中，对于属于类别u的物体，i∈{x，y，w，h}代表对于预测框t^u和目标框v的比较是基于4个参数进行的：中心点横坐标x；中心点纵坐标y；横向宽度w；纵向高度h。系统将这4个维度的

代价直接相加，就可以得到目标定位损失的数值。

函数的表达式如下：

在反向误差传播的过程中，位于系统输出部分的

函数利用公式(3)和公式(4)分别对预测框t^u和目标框v求偏导数，以获得其对于这两个参数的梯度，并使用链式求导法则将该梯度数值依次传递给前面的所有层：

其中，sign()代表符号函数。

上述定位损失计算方法利用预测框t^u相对于目标框v的偏差，指导反向误差传播中对于网络参数的修正。由式2-4可见，

函数属于典型的分段函数，在自变量(即预测框t^u和目标框v中心点横坐标x、中心点纵坐标y、横向宽度w、纵向高度h的差值)绝对值小于1时表现为二次非线性函数，其对于自变量的变化相对不敏感；反之，在自变量绝对值大于1的区域，其表现为一次线性函数，其对自变量的变化比较敏感。这样做的目的是使得系统对于已经定位的比较精确的预测框t^u相对于目标框v的偏差造成的损失不敏感，其在反向误差传播中对于网络相关参数修正的影响也较小，系统将更加重视定位得非常不精确的预测框t^u的定位偏差，并主要根据其造成的损失来修正网络相关参数，最终保证系统对于网络参数迭代优化的效率。

近年来目标检测领域的Faster-RCNN、SSD等基于卷积神经网络经典算法中，在网络正向目标检测的最后阶段，普遍采用

代价来计算目标定位损失。但是前述做法存在一些显著的缺陷，尤其是其仅仅考虑预测框t^u和目标框v在中心点横坐标x、中心点纵坐标y、横向宽度w、纵向高度h的几何距离偏差，并简单地将上述4个偏差分别造成的

损失以均等权重相加，作为目标定位损失，并以此指导反向误差传播中对于网络参数的修正。然而在系统用来计算预测框t^u的卷积层提供的卷积图中，预测框t^u的上述4种偏差，甚至同一种偏差发生在不同方向上，都有可能对于系统的目标检测能力造成完全不同程度的影响。例如，如果在原始画面中，在当前目标左侧有另一个物体存在，而其右侧则是空无一物的背景，此时预测框t^u中心点横坐标x向左偏离不仅损失了目标物体右侧的一部分边缘特征，而且很可能会把其他物体右侧的一部分边缘特征包含进来，干扰系统对于被检测到的目标位置和类型的判断，从而严重影响目标检测系统的精度；反之，x向右偏离则只会损失目标物体左侧的一部分边缘特征。另一种典型情况是目标物体本身的重要特征也并非均匀分布在卷积图的画面中，当目标最核心的特征(例如人和动物的头肩部或汽车的前部等)集中在卷机图画面的某个区域时，预测框t^u因为中心点偏离或宽度、高度不足而损失这部分特征对于目标检测精度的影响将更加严重。

综上所述，传统的定位损失计算方法简单地将中心点横坐标x、中心点纵坐标y、横向宽度w、纵向高度h各自的偏差分别造成的

损失以均等权重相加，作为目标定位损失，其并未充分利用卷积图中蕴含的信息，特别是卷积图中不同区域的像素点因为包含的目标和背景的特征的数量和重要性不同，而对于目标检测中定位和分类等关键环节拥有不同程度的影响这一关键信息。上述缺陷导致在反向误差传播的迭代训练过程中，目标检测系统无法有效地训练出避免预测框漏掉目标物体中特征比较集中的重要部分，以及避免预测框混入周围其他物体的特征的能力，从而对目标定位造成较大的误差，这种误差还会随着系统中目标定位与目标分类共享的卷积层的参数迭代更新而进一步影响到系统对于目标分类结果的判断，因此难以保证目标检测的精确性。

发明内容

针对目标检测系统中传统的定位损失计算方法并未充分利用卷积图中蕴含的目标和背景的特征的数量和重要性的分布趋势信息，导致目标检测系统无法有效地避免预测框漏掉目标物体中特征比较集中的重要部分，以及避免预测框混入周围其他物体的特征，从而难以保证目标检测的精确性这一问题。本发明的目的是提供一种目标检测系统中基于注意力机制的定位损失计算方法及系统，该方法能提高目标检测精确性，并能有效节省人力、物力和时间成本。

为实现上述目的，本发明采取以下技术方案：一种目标检测系统中基于注意力机制的定位损失计算方法，其特征在于包括以下步骤：1)在卷积神经网络的正向目标检测过程中，利用注意力机制计算用于生成目标预测框的卷积图的权重矩阵；2)确定预测框中心点横坐标、中心点纵坐标、横向宽度以及纵向高度各自单独的偏差所导致的其与目标框非重叠的区域；3)根据注意力机制获得的卷积图的权重矩阵中，位于预测框与目标框在卷积图上非重叠的区域的元素的权重，计算定位损失；4)计算反向误差传播中定位损失对于预测框、目标框与权重矩阵的梯度；5)判断卷积神经网络的迭代过程是否结束，否则返回步骤1)，是则结束。

进一步，所述步骤1)中，具体计算过程如下：1.1)注意力机制根据卷积图计算出注意力矩阵M，其中每个元素的数值用M_p，q(a)∈[0，+∞)表示，叠加上原卷积图中每个像素点的数值F_p，q(a)自身固有的权重1之后，得到该像素的权重为(1+M_p，q(a))∈[1，+∞)，然后使用(1+M_p，q(a))对原卷机图中像素点的数值F_p，q(a)进行加权，将原卷积图中各个像素加权后的结果H_p，q(a)所组成的矩阵H作为卷积神经网络向下一层的输出；其中，p，q与a分别代表矩阵中第p行和第q列交叉点上的元素a；1.2)将(1+M_p，q(a))作为原卷积图中像素F_p，q(a)的权重，并将其记为

将每个像素的权重

组成的矩阵作为原卷积图的权重矩阵，并将其记为M^*。

进一步，所述步骤2)中，与目标框非重叠区域的确定方法如下：2.1)假设r^v代表目标框在卷积图中对应的区域，

代表预测框t^u的中心点横坐标、中心点纵坐标、横向宽度、纵向高度这4个参数的偏差中单独的偏差i导致该预测框在卷积图中对应的区域；其中，i∈{x，y，w，h}；2.2)将目标预测框t^u的中心点横坐标x、中心点纵坐标y、横向宽度w、纵向高度h这4个参数中除了i以外的其他3个的数值缩放成与目标框v相应参数的数值相同，获得仅存在单独的偏差i时的目标预测框，其在卷积图中圈出的区域即为单独的偏差i导致该预测框在卷积图中对应的区域

2.3)将

与r^v之间的并集区域

阳除

与r^v之间的交集区域

后剩余的区域

作为预测框t^u的x、y、w、h中单独的偏差i所导致其与目标框v非重叠的区域；2.4)依次令i分别等于x、y、w、h，重复上述步骤，获得x、y、w、h之中，每个单独的偏差导致的预测框与目标框不重叠的区域。

进一步，所述步骤3)中，目标检测系统的定位损失计算过程如下：3.1)分别计算预测框的中心点横坐标、中心点纵坐标、横向宽度和纵向高度单独的偏差在定位损失函数中的损失系数；3.2)根据损失系数计算目标检测系统的定位损失。

进一步，所述步骤3.1)中，故损失系数β_i的计算方法为：依次令i分别等于x、y、w和h，求单独的偏差i∈{x，y，w，h}导致的预测框

与目标框v不重合的区域像素点的平均权重，与

和v的并集区域像素点的平均权重的比值，即为单独的偏差i导致的损失系数β_i。

进一步，所述步骤3.2)中，利用损失系数β_i对传统方法定位损失中针对单独的偏差i∈{x，y，w，h}的

函数进行加权，再将加权后的各项数值相加，得到基于注意力机制的定位损失。

进一步，所述步骤4)中，通过计算反向误差传播中定位损失对于预测框t^u和目标框v的中心点横坐标x、中心点纵坐标y、横向宽度w、纵向高度h这4个参数中，第i∈{x，y，w，h}个单独的偏差

和v_i，以及注意力矩阵M中每个元素M_p，q(a)的偏导数，获得定位损失对于参数

v_i和每个元素M_p，q(a)的梯度数值；该梯度数值在卷积神经网络的反向误差传播过程中，使用链式求导法则将该梯度数值依次传递给前面的所有层，用于计算相关各层网络参数更新后的数值。

进一步，对于原卷积图中属于预测框与目标框不重合区域的像素点，降低其在注意力机制中的权重；对于原卷积图中属于预测框与目标框重合区域的像素点，则在注意力机制中的增加其权重；对于不属于预测框或目标框中任何区域的像素点，对其权重不做任何处理。

进一步，所述步骤5)中，如果目标检测系统的卷积神经网络的正向目标检测--反向误差传播过程的迭代因为不满足卷积神经网络自身的结束条件，则返回步骤1)；反之，若正向目标检测--反向误差传播过程的迭代已经因为满足卷积神经网络自身的结束条件，则结束。

一种目标检测系统中基于注意力机制的定位损失计算系统，其特征在于：该系统包括卷积图权重矩阵计算模块、非重叠区域确定模块、定位损失计算模块、梯度计算模块和结束判断模块；所述卷积图权重矩阵计算模块用于在卷积神经网络的正向目标检测过程中，利用注意力机制计算用于生成目标预测框的卷积图的权重矩阵；所述非重叠区域确定模块用于确定预测框中心点横坐标、中心点纵坐标、横向宽度以及纵向高度各自单独的偏差所导致的其与目标框非重叠的区域；所述定位损失计算模块用于根据注意力机制获得的卷积图的权重矩阵中，位于预测框与目标框在卷积图上非重叠的区域的元素的权重，计算定位损失；所述梯度计算模块用于计算反向误差传播中定位损失对于预测框、目标框与权重矩阵的梯度；所述结束判断模块用于判断卷积神经网络的迭代过程是否结束，否则返回步骤1)，是则结束。

本发明由于采取以上技术方案，其具有以下优点：1、本发明在计算目标检测系统的定位损失时，基于注意力机制，充分利用卷积图中所蕴含的目标和背景的特征的数量和重要性的分布趋势信息，自适应的分配、调整预测框与目标框在非重叠的区域中每个单独偏差的

函数计算结果的损失系数，因此获得了更精确的定位损失。该定位损失函数在正向目标检测--反向误差传播的迭代过程中，有效减少了预测框漏掉目标特征或混入背景特征的数量，使卷积神经网络更高效的获得从而提高了目标检测精确性。2、本发明基于注意力机制对定位损失及其在反向误差传播中的梯度进行计算，可直接嵌套在目标检测系统的卷积神经网络中，高效地与目标检测的主算法共用了的卷积神经网络的绝大部分结构，不仅运行中额外增加的运算量小，对于原有网络结构也基本不用进行修改，工程量小。3、本发明对于同一组预测框和目标框，在目标检测主算法的每次正向目标检测-反向误差传播过程中，仅执行一次，总运算复杂度不会随着主算法的迭代而呈几何级数增加。4、本发明在反向误差传播中，通过求解该定位损失对于预测框、目标框与权重矩阵的梯度，借助卷积神经网络自身的链式求导法则，更新系统中各层的相关参数，增强目标检测系统避免预测框漏掉目标物体中特征比较集中的重要部分，以及避免预测框混入周围其他物体的特征的能力，最终达到提高目标检测系统对物体的定位、分类性能的目的。5、本发明采用全自动实现，执行过程中无需用户的额外操作，也无需用户重新测量相关数据，节省了人力、物力和时间成本，并保证了坐标计算结果的精确性。

附图说明

图1是本发明的整体流程示意图；

图2是本发明的中心点横坐标、中心点纵坐标、横向宽度、纵向高度各自单独的偏差所导致的预测框与目标框非重叠的区域示意图。

具体实施方式

本发明提出一种基于注意力机制的定位损失计算方法，该方法基于注意力机制获得卷积图中物体和背景特征的分布趋势的权重，自适应的分配、调整预测框与目标框在非重叠的区域中每个单独偏差的

函数计算结果的损失系数，并据此计算定位损失；其在反向误差传播中，通过求解该定位损失对于预测框、目标框与权重矩阵的梯度，借助卷积神经网络自身的链式求导法则，更新系统中各层的相关参数，增强目标检测系统避免预测框漏掉目标物体中特征比较集中的重要部分，以及避免预测框混入周围其他物体的特征的能力，最终达到提高目标检测系统对物体的定位、分类性能的目的。下面结合附图和实施例对本发明进行详细的描述。

如图1所示，本发明提供一种目标检测系统中基于注意力机制的定位损失计算方法，其包括以下步骤：

1)在卷积神经网络的正向目标检测过程中，利用注意力机制计算用于生成目标预测框的卷积图的权重矩阵：

读取卷积神经网络在正向目标检测过程中用于生成目标预测框t^u的那一层网络输出的卷积图F中每个像素点的数值F_p，q(a)(其中p，q与a分别代表矩阵中第p行和第q列交叉点上的元素a)，并采用注意力机制对该卷积图数据进行处理；其中，卷积神经网络和注意力机制采用现有技术。

1.1)注意力机制对于卷积图的处理如公式(5)所示，注意力机制首先根据卷积图F计算出注意力矩阵M(其中每个元素的数值用M_p，q(a)∈[0，+∞)表示)，再叠加上原卷积图中每个像素点的数值F_p，q(a)自身固有的权重1之后，得到该像素的权重为(1+M_p，q(a))∈[1，+∞)，最后使用(1+M_p，q(a))对原卷机图中像素点的数值F_p，q(a)进行加权，将原卷积图中各个像素加权后的结果H_p，q(a)所组成的矩阵H作为卷积神经网络向下一层的输出。

H_p，q(a)＝(1+M_p，q(a))·F_p，q(a) (5)

1.2)将(1+M_p，q(a))作为原卷积图中像素F_p，q(a)的权重，并将其记为

将每个像素的权重

组成的矩阵作为原卷积图的权重矩阵，并将其记为M^*。其中权重

与注意力矩阵M中每个元素M_p，q(a)的关系由公式(6)表示。

2)确定预测框中心点横坐标、中心点纵坐标、横向宽度以及纵向高度各自单独的偏差所导致的其与目标框非重叠的区域：

由于目标检测系统的卷积神经网络在训练过程中，在生成目标预测框t^u时，t^u的中心点横坐标x、中心点纵坐标y、横向宽度w、纵向高度h这4个参数均可能与作为目标结果的目标框v存在不同程度的偏差，最终导致预测框t^u与目标框v不完全重合。故在本实施例中，根据预测框t^u与目标框v的中心点横坐标x、中心点纵坐标y、横向宽度w、纵向高度h数值，分别确定预测框t^u的x、y、w、h中每个单独的偏差所导致预测框与目标框v非重叠的区域，具体确定方法如下：

2.1)假设r^v代表目标框在卷积图中对应的区域，

代表预测框t^u的中心点横坐标、中心点纵坐标、横向宽度、纵向高度这4个参数的偏差中单独的偏差i导致该预测框在卷积图中对应的区域。

2.2)将目标预测框t^u的中心点横坐标x、中心点纵坐标y、横向宽度w、纵向高度h这4个参数中除了i以外的其他3个的数值缩放成与目标框v相应参数的数值相同，获得仅存在单独的偏差i时的目标预测框，其在卷积图中圈出的区域即为单独的偏差i导致该预测框在卷积图中对应的区域

2.3)将

与r^v之间的并集区域

扣除r_i ^t与r^v之间的交集区域

后剩余的区域

作为预测框t^u的x、y、w、h中单独的偏差i所导致其与目标框v非重叠的区域。

2.4)如图2所示，依次令i分别等于x、y、w、h，重复上述步骤2.2)～2.3)，获得x、y、w、h之中，每个单独的偏差导致的预测框与目标框不重叠的区域。

3)根据注意力机制获得的卷积图的权重矩阵中，位于预测框与目标框在卷积图上非重叠的区域的元素的权重，计算定位损失：

在本实施例中，计算预测框的中心点横坐标x、中心点纵坐标y、横向宽度w以及纵向高度h的偏差中，每个单独的偏差在定位损失函数中各自的损失系数，再使用该损失系数对属于该偏差的

函数进行加权，并将各个偏差的加权后的

函数结果的相加之和作为目标检测系统的定位损失。

具体过程如下：

3.1)分别计算预测框的中心点横坐标、中心点纵坐标、横向宽度和纵向高度单独的偏差在定位损失函数中的损失系数：

以

表示权重矩阵M^*中的某个像素a位于预测框的中心点横坐标x、中心点纵坐标y、横向宽度w、纵向高度h这4个参数中，单独的偏差i∈{x，y，w，h}所导致的该预测框在卷积图中与目标框v不重合的区域。与之类似，

代表像素a位于单独的偏差i所导致该预测框在卷积图中对应的区域

与目标框v的区域的并集。则定位损失函数中针对单独的偏差i的损失系数β_i可以通过下式计算：

其中，a∈{}表示在卷积图中的{}区域取像素点，∑_a∈{*}表示区间{*}内像素点的数量。

故损失系数β_i的计算方法为：依次令i分别等于x、y、w和h，求单独的偏差i∈{x，y，w，h}导致的预测框

与目标框v不重合的区域像素点的平均权重，与

当β_i数值较小时，由用来计算像素点权重的注意力机制的原理可知，相对于该目标来说，未被划入预测框的目标特征和被划入预测框的背景特征的数量和重要程度相对较小，说明单独的偏差i导致的

与v不重合现象对于目标定位和分类的影响较小，目标检测系统的定位损失也较小；反之，当β_i数值较大时，未被划入预测框的目标特征和被划入预测框的背景特征数量和重要程度相对较多，单独的偏差i对于目标定位和分类的影响较大，目标检测系统的定位损失也较大。

3.2)根据损失系数计算目标检测系统的定位损失：

利用损失系数β_i对传统方法定位损失(如公式(1)所示)中针对单独的偏差i∈{x，y，w，h}的

函数进行加权，再将加权后的各项数值相加，得到基于注意力机制的定位损失L_loc(t^u，v，M)：

其中，

函数的定义与公式(2)中相同。

与现有目标检测系统类似，本发明中定位损失的作用也是计算系统在反向误差传播阶段，网络中相关参数的修正幅度。而与现有技术的不同之处在于，本发明中的定位损失除了包含预测框与目标框的偏差大小之外，还进一步利用注意力机制获得的像素点权重，判断每个单独的偏差导致的未被划入预测框的目标特征和被划入预测框的背景特征的数量和重要程度。例如对于与目标框的偏差大小相似的不同预测框，或者同一个预测框中大小相似的不同偏差分量，其导致的未被划入预测框的目标特征和被划入预测框的背景特征的数量和重要程度越大，定位损失数值较大，说明其会比较严重的干扰目标检测系统对于目标定位和分类的判断，此时就需要根据损失系数对该定位损失赋予较大的权重来指导步骤4)中的反向误差传播步骤加大对卷积神经网络中相关参数的修正幅度。

4)计算反向误差传播中定位损失对于预测框、目标框与权重矩阵的梯度：

通过计算反向误差传播中定位损失对于预测框t^u和目标框v的中心点横坐标x、中心点纵坐标y、横向宽度w、纵向高度h这4个参数中，第i∈{x，y，w，h}个单独的参数

和v_i，以及注意力机制的注意力矩阵M中每个元素M_p，q(a)的偏导数，获得定位损失对于上述参数的梯度数值。该梯度数值将在卷积神经网络的反向误差传播过程中，使用链式求导法则将该梯度数值依次传递给前面的所有层，用于计算相关各层网络参数更新后的数值。目标检测系统通过基于注意力机制的定位损失，在反向误差传播过程中更新自身的参数，增强了系统避免预测框漏掉目标物体中特征比较集中的重要部分，以及避免预测框混入周围其他物体的特征的能力，最终达到提高目标检测精度的目的。

在本实施例中，与现有公式(3)、公式(4)类似，在反向误差传播的过程中，位于系统输出部分的定位损失函数通过对相关参数(

v_i和注意力矩阵M中每个元素M_p，q(a))求偏导数，得到其对于该参数的梯度数值。不同之处在于，本发明中基于注意力机制的定位损失L_loc(t^u，v，M)使用的权重矩阵M^*引入了关注点模块的矩阵M，因此，定位损失函数除了需要分别对

和v_i求偏导数，还需要对矩阵M中元素M_p，q(a)求偏导数。定位损失函数分别对

和v_i求偏导数：

与对

和v_i求偏导数不同，损失函数对矩阵M中元素M_p，q(a)求偏导数更为复杂，除了

函数自身的分段取值进行分类讨论，还需要对元素M_p，q(a)在矩阵M中的不同位置进行分类讨论，其表达式如下：

其中，sign()代表符号函数。

由上述公式可知，对于原卷积图中属于

区域(即属于预测框与目标框不重合的区域)的像素点，基于注意力机制的定位损失在卷积神经网络的反向误差传播过程中，通过修改相关参数，降低其在注意力机制中的权重；对于原卷积图中属于

区域(即属于预测框与目标框重合的区域)的像素点，则在注意力机制中的增加其权重；对于不属于

区域(即不属于预测框或目标框中任何区域)的像素点，其与本次定位损失的计算无关，对其权重不做任何处理。

5)判断卷积神经网络的迭代过程是否结束，否则返回步骤1)，是则结束：

如果目标检测系统的卷积神经网络的正向目标检测--反向误差传播过程的迭代因为不满足卷积神经网络自身的结束条件，则返回步骤1)，随着下一次正向目标检测重新基于注意力机制计算定位损失；反之，若正向目标检测--反向误差传播过程的迭代已经满足卷积神经网络自身的结束条件，则结束。

本发明还提供一种目标检测系统中基于注意力机制的定位损失计算系统，其特征在于：该系统包括卷积图权重矩阵计算模块、非重叠区域确定模块、定位损失计算模块、梯度计算模块和结束判断模块；

卷积图权重矩阵计算模块用于在卷积神经网络的正向目标检测过程中，利用注意力机制计算用于生成目标预测框的卷积图的权重矩阵；

非重叠区域确定模块用于确定预测框中心点横坐标、中心点纵坐标、横向宽度以及纵向高度各自单独的偏差所导致的其与目标框非重叠的区域；

定位损失计算模块用于根据注意力机制获得的卷积图的权重矩阵中，位于预测框与目标框在卷积图上非重叠的区域的元素的权重，计算定位损失；

梯度计算模块用于计算反向误差传播中定位损失对于预测框、目标框与权重矩阵的梯度；

结束判断模块用于判断卷积神经网络的迭代过程是否结束，否则返回步骤1)，是则结束。

上述各实施例仅用于说明本发明，各个步骤都是可以有所变化的，在本发明技术方案的基础上，凡根据本发明原理对个别步骤进行的改进和等同变换，均不应排除在本发明的保护范围之外。

Claims

1.一种目标检测系统中基于注意力机制的定位损失计算方法，其特征在于包括以下步骤：

1)在卷积神经网络的正向目标检测过程中，利用注意力机制计算用于生成目标预测框的卷积图的权重矩阵；

2)确定预测框中心点横坐标、中心点纵坐标、横向宽度以及纵向高度各自单独的偏差所导致的其与目标框非重叠的区域；

3)根据注意力机制获得的卷积图的权重矩阵中，位于预测框与目标框在卷积图上非重叠的区域的元素的权重，计算定位损失；

4)计算反向误差传播中定位损失对于预测框、目标框与权重矩阵的梯度；

5)判断卷积神经网络的迭代过程是否结束，否则返回步骤1)，是则结束；

所述步骤1)中，具体计算过程如下：

1.1)注意力机制根据卷积图计算出注意力矩阵M，其中每个元素的数值用M_p，q(a)∈[0，+∞)表示，叠加上原卷积图中每个像素点的数值F_p，q(a)自身固有的权重1之后，得到该像素的权重为(1+M_p，q(a))∈[1，+∞)，然后使用(1+M_p，q(a))对原卷积图中像素点的数值F_p，q(a)进行加权，将原卷积图中各个像素加权后的结果H_p，q(a)所组成的矩阵H作为卷积神经网络向下一层的输出；其中，p，q与a分别代表矩阵中第p行和第q列交叉点上的元素a；

将每个像素的权重

组成的矩阵作为原卷积图的权重矩阵，并将其记为M^*；

所述步骤2)中，与目标框非重叠区域的确定方法如下：

2.1)假设r^v代表目标框在卷积图中对应的区域，

代表预测框t^u的中心点横坐标、中心点纵坐标、横向宽度、纵向高度这4个参数的偏差中单独的偏差i导致该预测框在卷积图中对应的区域；其中，i∈{x，y，w，h}；

2.2)将目标预测框t^u的中心点横坐标x、中心点纵坐标y、横向宽度w、纵向高度h这4个参数中除了i以外的其他3个的数值缩放成与目标框v相应参数的数值相同，获得仅存在单独的偏差i时的目标预测框，其在卷积图中圈出的区域即为单独的偏差i导致该预测框在卷积图中对应的区域r_i ^t；

2.3)将r_i ^t与r^v之间的并集区域{r_i ^t∪r^v}扣除r_i ^t与r^v之间的交集区域{r_i ^t∩r^v}后剩余的区域{r_i ^t∪r^v-r_i ^t∩r^v}，作为预测框t^u的x、y、w、h中单独的偏差i所导致其与目标框v非重叠的区域；

2.4)依次令i分别等于x、y、w、h，重复上述步骤，获得x、y、w、h之中，每个单独的偏差导致的预测框与目标框不重叠的区域；

所述步骤4)中，通过计算反向误差传播中定位损失对于预测框t^u和目标框v的中心点横坐标x、中心点纵坐标y、横向宽度w、纵向高度h这4个参数中，第i∈{x，y，w，h}个单独的偏差

2.一种如权利要求1所述的方法，其特征在于：所述步骤3)中，目标检测系统的定位损失计算过程如下：

3.1)分别计算预测框的中心点横坐标、中心点纵坐标、横向宽度和纵向高度单独的偏差在定位损失函数中的损失系数；

3.2)根据损失系数计算目标检测系统的定位损失。

3.一种如权利要求2所述的方法，其特征在于：所述步骤3.1)中，故损失系数β_i的计算方法为：依次令i分别等于x、y、w和h，求单独的偏差i∈{x，y，w，h}导致的预测框r_i ^t与目标框v不重合的区域像素点的平均权重，与

4.一种如权利要求2所述的方法，其特征在于：所述步骤3.2)中，利用损失系数β_i对传统方法定位损失中针对单独的偏差i∈{x，y，w，h}的

5.一种如权利要求1所述的方法，其特征在于：对于原卷积图中属于预测框与目标框不重合区域的像素点，降低其在注意力机制中的权重；对于原卷积图中属于预测框与目标框重合区域的像素点，则在注意力机制中增加其权重；对于不属于预测框或目标框中任何区域的像素点，对其权重不做任何处理。

6.一种如权利要求1所述的方法，其特征在于：所述步骤5)中，如果目标检测系统的卷积神经网络的正向目标检测--反向误差传播过程的迭代不满足卷积神经网络自身的结束条件，则返回步骤1)；反之，若正向目标检测--反向误差传播过程的迭代已经满足卷积神经网络自身的结束条件，则结束。

7.一种目标检测系统中基于注意力机制的定位损失计算系统，其特征在于：该系统包括卷积图权重矩阵计算模块、非重叠区域确定模块、定位损失计算模块、梯度计算模块和结束判断模块；

所述卷积图权重矩阵计算模块用于在卷积神经网络的正向目标检测过程中，利用注意力机制计算用于生成目标预测框的卷积图的权重矩阵；

所述非重叠区域确定模块用于确定预测框中心点横坐标、中心点纵坐标、横向宽度以及纵向高度各自单独的偏差所导致的其与目标框非重叠的区域；

所述定位损失计算模块用于根据注意力机制获得的卷积图的权重矩阵中，位于预测框与目标框在卷积图上非重叠的区域的元素的权重，计算定位损失；

所述梯度计算模块用于计算反向误差传播中定位损失对于预测框、目标框与权重矩阵的梯度；

所述结束判断模块用于判断卷积神经网络的迭代过程是否结束，否则返回步骤1)，是则结束；

所述卷积图权重矩阵计算模块中，具体计算过程如下：

将每个像素的权重

组成的矩阵作为原卷积图的权重矩阵，并将其记为M^*；

所述非重叠区域确定模块中，与目标框非重叠区域的确定方法如下：

2.1)假设r^v代表目标框在卷积图中对应的区域，r_i ^t代表预测框t^u的中心点横坐标、中心点纵坐标、横向宽度、纵向高度这4个参数的偏差中单独的偏差i导致该预测框在卷积图中对应的区域；其中，i∈{x，y，w，h}；

2.3)将r_i ^t与r^v之间的并集区域{r_i ^t∪r^v}扣除r_i ^t与r^v之间的交集区域{r_i ^t∩r^v}后剩余的区域{r_i ^t∪r^v-_ri ^t∩r^v}，作为预测框t^u的x、y、w、h中单独的偏差i所导致其与目标框v非重叠的区域；

所述梯度计算模块中，通过计算反向误差传播中定位损失对于预测框t^u和目标框v的中心点横坐标x、中心点纵坐标y、横向宽度w、纵向高度h这4个参数中，第i∈{x，y，w，h}个单独的偏差