CN108205687B - 目标检测系统中基于注意力机制定位损失计算方法及系统 - Google Patents

目标检测系统中基于注意力机制定位损失计算方法及系统 Download PDF

Info

Publication number
CN108205687B
CN108205687B CN201810102737.2A CN201810102737A CN108205687B CN 108205687 B CN108205687 B CN 108205687B CN 201810102737 A CN201810102737 A CN 201810102737A CN 108205687 B CN108205687 B CN 108205687B
Authority
CN
China
Prior art keywords
target
frame
convolution
prediction frame
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810102737.2A
Other languages
English (en)
Other versions
CN108205687A (zh
Inventor
刘阳
孔祥斌
李洪研
张涛
沈志忠
陈树俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CRSC Communication and Information Group Co Ltd CRSCIC
Original Assignee
CRSC Communication and Information Group Co Ltd CRSCIC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CRSC Communication and Information Group Co Ltd CRSCIC filed Critical CRSC Communication and Information Group Co Ltd CRSCIC
Priority to CN201810102737.2A priority Critical patent/CN108205687B/zh
Publication of CN108205687A publication Critical patent/CN108205687A/zh
Application granted granted Critical
Publication of CN108205687B publication Critical patent/CN108205687B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种目标检测系统中基于注意力机制的定位损失计算方法及系统,其包括:在卷积神经网络的正向目标检测过程中,利用注意力机制计算用于生成目标预测框的卷积图的权重矩阵;确定预测框中心点横坐标、中心点纵坐标、横向宽度以及纵向高度各自单独的偏差所导致的其与目标框非重叠的区域;根据注意力机制获得的卷积图的权重矩阵中,位于预测框与目标框在卷积图上非重叠的区域的元素的权重,计算定位损失;计算反向误差传播中定位损失对于预测框、目标框与权重矩阵的梯度;判断卷积神经网络的迭代过程是否结束,否则返回前述步骤,是则结束。本发明能提高目标检测精确性,并能有效节省人力、物力和时间成本。

Description

目标检测系统中基于注意力机制定位损失计算方法及系统
技术领域
本发明涉及一种模式识别领域中计算机视觉方向的目标检测方法及系统,特别是关于一种目标检测系统中基于注意力机制的定位损失计算方法及系统。
背景技术
在近年来目标检测领域的Faster-RCNN、SSD等基于卷积神经网络经典算法中,在网络正向目标检测的最后阶段,已经获知系统对物体位置的预测框(predicted bounding-box)tu和训练数据中的目标框(ground-truth bounding-box)v之后,普遍采用
Figure GDA0003383687810000011
函数来计算目标定位损失Lloc(tu,v)。从而可以在反向误差传播阶段,利用链式求导法则,根据Lloc(tu,v)在每层网络节点和链路处的梯度,修正网络中的链路权重和卷积核数值,通过上述迭代过程完成对卷积神经网络的训练。
Figure GDA0003383687810000012
其中,对于属于类别u的物体,i∈{x,y,w,h}代表对于预测框tu和目标框v的比较是基于4个参数进行的:中心点横坐标x;中心点纵坐标y;横向宽度w;纵向高度h。系统将这4个维度的
Figure GDA0003383687810000013
代价直接相加,就可以得到目标定位损失的数值。
Figure GDA0003383687810000014
函数的表达式如下:
Figure GDA0003383687810000015
在反向误差传播的过程中,位于系统输出部分的
Figure GDA0003383687810000016
函数利用公式(3)和公式(4)分别对预测框tu和目标框v求偏导数,以获得其对于这两个参数的梯度,并使用链式求导法则将该梯度数值依次传递给前面的所有层:
Figure GDA0003383687810000017
Figure GDA0003383687810000018
其中,sign()代表符号函数。
上述定位损失计算方法利用预测框tu相对于目标框v的偏差,指导反向误差传播中对于网络参数的修正。由式2-4可见,
Figure GDA0003383687810000019
函数属于典型的分段函数,在自变量(即预测框tu和目标框v中心点横坐标x、中心点纵坐标y、横向宽度w、纵向高度h的差值)绝对值小于1时表现为二次非线性函数,其对于自变量的变化相对不敏感;反之,在自变量绝对值大于1的区域,其表现为一次线性函数,其对自变量的变化比较敏感。这样做的目的是使得系统对于已经定位的比较精确的预测框tu相对于目标框v的偏差造成的损失不敏感,其在反向误差传播中对于网络相关参数修正的影响也较小,系统将更加重视定位得非常不精确的预测框tu的定位偏差,并主要根据其造成的损失来修正网络相关参数,最终保证系统对于网络参数迭代优化的效率。
近年来目标检测领域的Faster-RCNN、SSD等基于卷积神经网络经典算法中,在网络正向目标检测的最后阶段,普遍采用
Figure GDA0003383687810000021
代价来计算目标定位损失。但是前述做法存在一些显著的缺陷,尤其是其仅仅考虑预测框tu和目标框v在中心点横坐标x、中心点纵坐标y、横向宽度w、纵向高度h的几何距离偏差,并简单地将上述4个偏差分别造成的
Figure GDA0003383687810000022
损失以均等权重相加,作为目标定位损失,并以此指导反向误差传播中对于网络参数的修正。然而在系统用来计算预测框tu的卷积层提供的卷积图中,预测框tu的上述4种偏差,甚至同一种偏差发生在不同方向上,都有可能对于系统的目标检测能力造成完全不同程度的影响。例如,如果在原始画面中,在当前目标左侧有另一个物体存在,而其右侧则是空无一物的背景,此时预测框tu中心点横坐标x向左偏离不仅损失了目标物体右侧的一部分边缘特征,而且很可能会把其他物体右侧的一部分边缘特征包含进来,干扰系统对于被检测到的目标位置和类型的判断,从而严重影响目标检测系统的精度;反之,x向右偏离则只会损失目标物体左侧的一部分边缘特征。另一种典型情况是目标物体本身的重要特征也并非均匀分布在卷积图的画面中,当目标最核心的特征(例如人和动物的头肩部或汽车的前部等)集中在卷机图画面的某个区域时,预测框tu因为中心点偏离或宽度、高度不足而损失这部分特征对于目标检测精度的影响将更加严重。
综上所述,传统的定位损失计算方法简单地将中心点横坐标x、中心点纵坐标y、横向宽度w、纵向高度h各自的偏差分别造成的
Figure GDA0003383687810000023
损失以均等权重相加,作为目标定位损失,其并未充分利用卷积图中蕴含的信息,特别是卷积图中不同区域的像素点因为包含的目标和背景的特征的数量和重要性不同,而对于目标检测中定位和分类等关键环节拥有不同程度的影响这一关键信息。上述缺陷导致在反向误差传播的迭代训练过程中,目标检测系统无法有效地训练出避免预测框漏掉目标物体中特征比较集中的重要部分,以及避免预测框混入周围其他物体的特征的能力,从而对目标定位造成较大的误差,这种误差还会随着系统中目标定位与目标分类共享的卷积层的参数迭代更新而进一步影响到系统对于目标分类结果的判断,因此难以保证目标检测的精确性。
发明内容
针对目标检测系统中传统的定位损失计算方法并未充分利用卷积图中蕴含的目标和背景的特征的数量和重要性的分布趋势信息,导致目标检测系统无法有效地避免预测框漏掉目标物体中特征比较集中的重要部分,以及避免预测框混入周围其他物体的特征,从而难以保证目标检测的精确性这一问题。本发明的目的是提供一种目标检测系统中基于注意力机制的定位损失计算方法及系统,该方法能提高目标检测精确性,并能有效节省人力、物力和时间成本。
为实现上述目的,本发明采取以下技术方案:一种目标检测系统中基于注意力机制的定位损失计算方法,其特征在于包括以下步骤:1)在卷积神经网络的正向目标检测过程中,利用注意力机制计算用于生成目标预测框的卷积图的权重矩阵;2)确定预测框中心点横坐标、中心点纵坐标、横向宽度以及纵向高度各自单独的偏差所导致的其与目标框非重叠的区域;3)根据注意力机制获得的卷积图的权重矩阵中,位于预测框与目标框在卷积图上非重叠的区域的元素的权重,计算定位损失;4)计算反向误差传播中定位损失对于预测框、目标框与权重矩阵的梯度;5)判断卷积神经网络的迭代过程是否结束,否则返回步骤1),是则结束。
进一步,所述步骤1)中,具体计算过程如下:1.1)注意力机制根据卷积图计算出注意力矩阵M,其中每个元素的数值用Mp,q(a)∈[0,+∞)表示,叠加上原卷积图中每个像素点的数值Fp,q(a)自身固有的权重1之后,得到该像素的权重为(1+Mp,q(a))∈[1,+∞),然后使用(1+Mp,q(a))对原卷机图中像素点的数值Fp,q(a)进行加权,将原卷积图中各个像素加权后的结果Hp,q(a)所组成的矩阵H作为卷积神经网络向下一层的输出;其中,p,q与a分别代表矩阵中第p行和第q列交叉点上的元素a;1.2)将(1+Mp,q(a))作为原卷积图中像素Fp,q(a)的权重,并将其记为
Figure GDA0003383687810000031
将每个像素的权重
Figure GDA0003383687810000032
组成的矩阵作为原卷积图的权重矩阵,并将其记为M*
进一步,所述步骤2)中,与目标框非重叠区域的确定方法如下:2.1)假设rv代表目标框在卷积图中对应的区域,
Figure GDA0003383687810000033
代表预测框tu的中心点横坐标、中心点纵坐标、横向宽度、纵向高度这4个参数的偏差中单独的偏差i导致该预测框在卷积图中对应的区域;其中,i∈{x,y,w,h};2.2)将目标预测框tu的中心点横坐标x、中心点纵坐标y、横向宽度w、纵向高度h这4个参数中除了i以外的其他3个的数值缩放成与目标框v相应参数的数值相同,获得仅存在单独的偏差i时的目标预测框,其在卷积图中圈出的区域即为单独的偏差i导致该预测框在卷积图中对应的区域
Figure GDA0003383687810000034
2.3)将
Figure GDA0003383687810000035
与rv之间的并集区域
Figure GDA0003383687810000036
阳除
Figure GDA0003383687810000037
与rv之间的交集区域
Figure GDA0003383687810000038
后剩余的区域
Figure GDA0003383687810000039
作为预测框tu的x、y、w、h中单独的偏差i所导致其与目标框v非重叠的区域;2.4)依次令i分别等于x、y、w、h,重复上述步骤,获得x、y、w、h之中,每个单独的偏差导致的预测框与目标框不重叠的区域。
进一步,所述步骤3)中,目标检测系统的定位损失计算过程如下:3.1)分别计算预测框的中心点横坐标、中心点纵坐标、横向宽度和纵向高度单独的偏差在定位损失函数中的损失系数;3.2)根据损失系数计算目标检测系统的定位损失。
进一步,所述步骤3.1)中,故损失系数βi的计算方法为:依次令i分别等于x、y、w和h,求单独的偏差i∈{x,y,w,h}导致的预测框
Figure GDA0003383687810000041
与目标框v不重合的区域像素点的平均权重,与
Figure GDA0003383687810000042
和v的并集区域像素点的平均权重的比值,即为单独的偏差i导致的损失系数βi
进一步,所述步骤3.2)中,利用损失系数βi对传统方法定位损失中针对单独的偏差i∈{x,y,w,h}的
Figure GDA0003383687810000043
函数进行加权,再将加权后的各项数值相加,得到基于注意力机制的定位损失。
进一步,所述步骤4)中,通过计算反向误差传播中定位损失对于预测框tu和目标框v的中心点横坐标x、中心点纵坐标y、横向宽度w、纵向高度h这4个参数中,第i∈{x,y,w,h}个单独的偏差
Figure GDA0003383687810000044
和vi,以及注意力矩阵M中每个元素Mp,q(a)的偏导数,获得定位损失对于参数
Figure GDA0003383687810000045
vi和每个元素Mp,q(a)的梯度数值;该梯度数值在卷积神经网络的反向误差传播过程中,使用链式求导法则将该梯度数值依次传递给前面的所有层,用于计算相关各层网络参数更新后的数值。
进一步,对于原卷积图中属于预测框与目标框不重合区域的像素点,降低其在注意力机制中的权重;对于原卷积图中属于预测框与目标框重合区域的像素点,则在注意力机制中的增加其权重;对于不属于预测框或目标框中任何区域的像素点,对其权重不做任何处理。
进一步,所述步骤5)中,如果目标检测系统的卷积神经网络的正向目标检测--反向误差传播过程的迭代因为不满足卷积神经网络自身的结束条件,则返回步骤1);反之,若正向目标检测--反向误差传播过程的迭代已经因为满足卷积神经网络自身的结束条件,则结束。
一种目标检测系统中基于注意力机制的定位损失计算系统,其特征在于:该系统包括卷积图权重矩阵计算模块、非重叠区域确定模块、定位损失计算模块、梯度计算模块和结束判断模块;所述卷积图权重矩阵计算模块用于在卷积神经网络的正向目标检测过程中,利用注意力机制计算用于生成目标预测框的卷积图的权重矩阵;所述非重叠区域确定模块用于确定预测框中心点横坐标、中心点纵坐标、横向宽度以及纵向高度各自单独的偏差所导致的其与目标框非重叠的区域;所述定位损失计算模块用于根据注意力机制获得的卷积图的权重矩阵中,位于预测框与目标框在卷积图上非重叠的区域的元素的权重,计算定位损失;所述梯度计算模块用于计算反向误差传播中定位损失对于预测框、目标框与权重矩阵的梯度;所述结束判断模块用于判断卷积神经网络的迭代过程是否结束,否则返回步骤1),是则结束。
本发明由于采取以上技术方案,其具有以下优点:1、本发明在计算目标检测系统的定位损失时,基于注意力机制,充分利用卷积图中所蕴含的目标和背景的特征的数量和重要性的分布趋势信息,自适应的分配、调整预测框与目标框在非重叠的区域中每个单独偏差的
Figure GDA0003383687810000051
函数计算结果的损失系数,因此获得了更精确的定位损失。该定位损失函数在正向目标检测--反向误差传播的迭代过程中,有效减少了预测框漏掉目标特征或混入背景特征的数量,使卷积神经网络更高效的获得从而提高了目标检测精确性。2、本发明基于注意力机制对定位损失及其在反向误差传播中的梯度进行计算,可直接嵌套在目标检测系统的卷积神经网络中,高效地与目标检测的主算法共用了的卷积神经网络的绝大部分结构,不仅运行中额外增加的运算量小,对于原有网络结构也基本不用进行修改,工程量小。3、本发明对于同一组预测框和目标框,在目标检测主算法的每次正向目标检测-反向误差传播过程中,仅执行一次,总运算复杂度不会随着主算法的迭代而呈几何级数增加。4、本发明在反向误差传播中,通过求解该定位损失对于预测框、目标框与权重矩阵的梯度,借助卷积神经网络自身的链式求导法则,更新系统中各层的相关参数,增强目标检测系统避免预测框漏掉目标物体中特征比较集中的重要部分,以及避免预测框混入周围其他物体的特征的能力,最终达到提高目标检测系统对物体的定位、分类性能的目的。5、本发明采用全自动实现,执行过程中无需用户的额外操作,也无需用户重新测量相关数据,节省了人力、物力和时间成本,并保证了坐标计算结果的精确性。
附图说明
图1是本发明的整体流程示意图;
图2是本发明的中心点横坐标、中心点纵坐标、横向宽度、纵向高度各自单独的偏差所导致的预测框与目标框非重叠的区域示意图。
具体实施方式
本发明提出一种基于注意力机制的定位损失计算方法,该方法基于注意力机制获得卷积图中物体和背景特征的分布趋势的权重,自适应的分配、调整预测框与目标框在非重叠的区域中每个单独偏差的
Figure GDA0003383687810000052
函数计算结果的损失系数,并据此计算定位损失;其在反向误差传播中,通过求解该定位损失对于预测框、目标框与权重矩阵的梯度,借助卷积神经网络自身的链式求导法则,更新系统中各层的相关参数,增强目标检测系统避免预测框漏掉目标物体中特征比较集中的重要部分,以及避免预测框混入周围其他物体的特征的能力,最终达到提高目标检测系统对物体的定位、分类性能的目的。下面结合附图和实施例对本发明进行详细的描述。
如图1所示,本发明提供一种目标检测系统中基于注意力机制的定位损失计算方法,其包括以下步骤:
1)在卷积神经网络的正向目标检测过程中,利用注意力机制计算用于生成目标预测框的卷积图的权重矩阵:
读取卷积神经网络在正向目标检测过程中用于生成目标预测框tu的那一层网络输出的卷积图F中每个像素点的数值Fp,q(a)(其中p,q与a分别代表矩阵中第p行和第q列交叉点上的元素a),并采用注意力机制对该卷积图数据进行处理;其中,卷积神经网络和注意力机制采用现有技术。
1.1)注意力机制对于卷积图的处理如公式(5)所示,注意力机制首先根据卷积图F计算出注意力矩阵M(其中每个元素的数值用Mp,q(a)∈[0,+∞)表示),再叠加上原卷积图中每个像素点的数值Fp,q(a)自身固有的权重1之后,得到该像素的权重为(1+Mp,q(a))∈[1,+∞),最后使用(1+Mp,q(a))对原卷机图中像素点的数值Fp,q(a)进行加权,将原卷积图中各个像素加权后的结果Hp,q(a)所组成的矩阵H作为卷积神经网络向下一层的输出。
Hp,q(a)=(1+Mp,q(a))·Fp,q(a) (5)
1.2)将(1+Mp,q(a))作为原卷积图中像素Fp,q(a)的权重,并将其记为
Figure GDA0003383687810000061
将每个像素的权重
Figure GDA0003383687810000062
组成的矩阵作为原卷积图的权重矩阵,并将其记为M*。其中权重
Figure GDA0003383687810000063
与注意力矩阵M中每个元素Mp,q(a)的关系由公式(6)表示。
Figure GDA0003383687810000064
2)确定预测框中心点横坐标、中心点纵坐标、横向宽度以及纵向高度各自单独的偏差所导致的其与目标框非重叠的区域:
由于目标检测系统的卷积神经网络在训练过程中,在生成目标预测框tu时,tu的中心点横坐标x、中心点纵坐标y、横向宽度w、纵向高度h这4个参数均可能与作为目标结果的目标框v存在不同程度的偏差,最终导致预测框tu与目标框v不完全重合。故在本实施例中,根据预测框tu与目标框v的中心点横坐标x、中心点纵坐标y、横向宽度w、纵向高度h数值,分别确定预测框tu的x、y、w、h中每个单独的偏差所导致预测框与目标框v非重叠的区域,具体确定方法如下:
2.1)假设rv代表目标框在卷积图中对应的区域,
Figure GDA0003383687810000065
代表预测框tu的中心点横坐标、中心点纵坐标、横向宽度、纵向高度这4个参数的偏差中单独的偏差i导致该预测框在卷积图中对应的区域。
2.2)将目标预测框tu的中心点横坐标x、中心点纵坐标y、横向宽度w、纵向高度h这4个参数中除了i以外的其他3个的数值缩放成与目标框v相应参数的数值相同,获得仅存在单独的偏差i时的目标预测框,其在卷积图中圈出的区域即为单独的偏差i导致该预测框在卷积图中对应的区域
Figure GDA0003383687810000071
2.3)将
Figure GDA0003383687810000072
与rv之间的并集区域
Figure GDA0003383687810000073
扣除ri t与rv之间的交集区域
Figure GDA0003383687810000074
后剩余的区域
Figure GDA0003383687810000075
作为预测框tu的x、y、w、h中单独的偏差i所导致其与目标框v非重叠的区域。
2.4)如图2所示,依次令i分别等于x、y、w、h,重复上述步骤2.2)~2.3),获得x、y、w、h之中,每个单独的偏差导致的预测框与目标框不重叠的区域。
3)根据注意力机制获得的卷积图的权重矩阵中,位于预测框与目标框在卷积图上非重叠的区域的元素的权重,计算定位损失:
在本实施例中,计算预测框的中心点横坐标x、中心点纵坐标y、横向宽度w以及纵向高度h的偏差中,每个单独的偏差在定位损失函数中各自的损失系数,再使用该损失系数对属于该偏差的
Figure GDA0003383687810000076
函数进行加权,并将各个偏差的加权后的
Figure GDA0003383687810000077
函数结果的相加之和作为目标检测系统的定位损失。
具体过程如下:
3.1)分别计算预测框的中心点横坐标、中心点纵坐标、横向宽度和纵向高度单独的偏差在定位损失函数中的损失系数:
Figure GDA0003383687810000078
表示权重矩阵M*中的某个像素a位于预测框的中心点横坐标x、中心点纵坐标y、横向宽度w、纵向高度h这4个参数中,单独的偏差i∈{x,y,w,h}所导致的该预测框在卷积图中与目标框v不重合的区域。与之类似,
Figure GDA0003383687810000079
代表像素a位于单独的偏差i所导致该预测框在卷积图中对应的区域
Figure GDA00033836878100000710
与目标框v的区域的并集。则定位损失函数中针对单独的偏差i的损失系数βi可以通过下式计算:
Figure GDA00033836878100000711
其中,a∈{}表示在卷积图中的{}区域取像素点,∑a∈{*}表示区间{*}内像素点的数量。
故损失系数βi的计算方法为:依次令i分别等于x、y、w和h,求单独的偏差i∈{x,y,w,h}导致的预测框
Figure GDA00033836878100000712
与目标框v不重合的区域像素点的平均权重,与
Figure GDA00033836878100000713
和v的并集区域像素点的平均权重的比值,即为单独的偏差i导致的损失系数βi
当βi数值较小时,由用来计算像素点权重的注意力机制的原理可知,相对于该目标来说,未被划入预测框的目标特征和被划入预测框的背景特征的数量和重要程度相对较小,说明单独的偏差i导致的
Figure GDA0003383687810000081
与v不重合现象对于目标定位和分类的影响较小,目标检测系统的定位损失也较小;反之,当βi数值较大时,未被划入预测框的目标特征和被划入预测框的背景特征数量和重要程度相对较多,单独的偏差i对于目标定位和分类的影响较大,目标检测系统的定位损失也较大。
3.2)根据损失系数计算目标检测系统的定位损失:
利用损失系数βi对传统方法定位损失(如公式(1)所示)中针对单独的偏差i∈{x,y,w,h}的
Figure GDA0003383687810000082
函数进行加权,再将加权后的各项数值相加,得到基于注意力机制的定位损失Lloc(tu,v,M):
Figure GDA0003383687810000083
其中,
Figure GDA0003383687810000084
函数的定义与公式(2)中相同。
与现有目标检测系统类似,本发明中定位损失的作用也是计算系统在反向误差传播阶段,网络中相关参数的修正幅度。而与现有技术的不同之处在于,本发明中的定位损失除了包含预测框与目标框的偏差大小之外,还进一步利用注意力机制获得的像素点权重,判断每个单独的偏差导致的未被划入预测框的目标特征和被划入预测框的背景特征的数量和重要程度。例如对于与目标框的偏差大小相似的不同预测框,或者同一个预测框中大小相似的不同偏差分量,其导致的未被划入预测框的目标特征和被划入预测框的背景特征的数量和重要程度越大,定位损失数值较大,说明其会比较严重的干扰目标检测系统对于目标定位和分类的判断,此时就需要根据损失系数对该定位损失赋予较大的权重来指导步骤4)中的反向误差传播步骤加大对卷积神经网络中相关参数的修正幅度。
4)计算反向误差传播中定位损失对于预测框、目标框与权重矩阵的梯度:
通过计算反向误差传播中定位损失对于预测框tu和目标框v的中心点横坐标x、中心点纵坐标y、横向宽度w、纵向高度h这4个参数中,第i∈{x,y,w,h}个单独的参数
Figure GDA0003383687810000085
和vi,以及注意力机制的注意力矩阵M中每个元素Mp,q(a)的偏导数,获得定位损失对于上述参数的梯度数值。该梯度数值将在卷积神经网络的反向误差传播过程中,使用链式求导法则将该梯度数值依次传递给前面的所有层,用于计算相关各层网络参数更新后的数值。目标检测系统通过基于注意力机制的定位损失,在反向误差传播过程中更新自身的参数,增强了系统避免预测框漏掉目标物体中特征比较集中的重要部分,以及避免预测框混入周围其他物体的特征的能力,最终达到提高目标检测精度的目的。
在本实施例中,与现有公式(3)、公式(4)类似,在反向误差传播的过程中,位于系统输出部分的定位损失函数通过对相关参数(
Figure GDA0003383687810000091
vi和注意力矩阵M中每个元素Mp,q(a))求偏导数,得到其对于该参数的梯度数值。不同之处在于,本发明中基于注意力机制的定位损失Lloc(tu,v,M)使用的权重矩阵M*引入了关注点模块的矩阵M,因此,定位损失函数除了需要分别对
Figure GDA0003383687810000092
和vi求偏导数,还需要对矩阵M中元素Mp,q(a)求偏导数。定位损失函数分别对
Figure GDA0003383687810000093
和vi求偏导数:
Figure GDA0003383687810000094
Figure GDA0003383687810000095
与对
Figure GDA0003383687810000096
和vi求偏导数不同,损失函数对矩阵M中元素Mp,q(a)求偏导数更为复杂,除了
Figure GDA0003383687810000097
函数自身的分段取值进行分类讨论,还需要对元素Mp,q(a)在矩阵M中的不同位置进行分类讨论,其表达式如下:
Figure GDA0003383687810000098
Figure GDA0003383687810000101
其中,sign()代表符号函数。
由上述公式可知,对于原卷积图中属于
Figure GDA0003383687810000102
区域(即属于预测框与目标框不重合的区域)的像素点,基于注意力机制的定位损失在卷积神经网络的反向误差传播过程中,通过修改相关参数,降低其在注意力机制中的权重;对于原卷积图中属于
Figure GDA0003383687810000103
区域(即属于预测框与目标框重合的区域)的像素点,则在注意力机制中的增加其权重;对于不属于
Figure GDA0003383687810000104
区域(即不属于预测框或目标框中任何区域)的像素点,其与本次定位损失的计算无关,对其权重不做任何处理。
5)判断卷积神经网络的迭代过程是否结束,否则返回步骤1),是则结束:
如果目标检测系统的卷积神经网络的正向目标检测--反向误差传播过程的迭代因为不满足卷积神经网络自身的结束条件,则返回步骤1),随着下一次正向目标检测重新基于注意力机制计算定位损失;反之,若正向目标检测--反向误差传播过程的迭代已经满足卷积神经网络自身的结束条件,则结束。
本发明还提供一种目标检测系统中基于注意力机制的定位损失计算系统,其特征在于:该系统包括卷积图权重矩阵计算模块、非重叠区域确定模块、定位损失计算模块、梯度计算模块和结束判断模块;
卷积图权重矩阵计算模块用于在卷积神经网络的正向目标检测过程中,利用注意力机制计算用于生成目标预测框的卷积图的权重矩阵;
非重叠区域确定模块用于确定预测框中心点横坐标、中心点纵坐标、横向宽度以及纵向高度各自单独的偏差所导致的其与目标框非重叠的区域;
定位损失计算模块用于根据注意力机制获得的卷积图的权重矩阵中,位于预测框与目标框在卷积图上非重叠的区域的元素的权重,计算定位损失;
梯度计算模块用于计算反向误差传播中定位损失对于预测框、目标框与权重矩阵的梯度;
结束判断模块用于判断卷积神经网络的迭代过程是否结束,否则返回步骤1),是则结束。
上述各实施例仅用于说明本发明,各个步骤都是可以有所变化的,在本发明技术方案的基础上,凡根据本发明原理对个别步骤进行的改进和等同变换,均不应排除在本发明的保护范围之外。

Claims (7)

1.一种目标检测系统中基于注意力机制的定位损失计算方法,其特征在于包括以下步骤:
1)在卷积神经网络的正向目标检测过程中,利用注意力机制计算用于生成目标预测框的卷积图的权重矩阵;
2)确定预测框中心点横坐标、中心点纵坐标、横向宽度以及纵向高度各自单独的偏差所导致的其与目标框非重叠的区域;
3)根据注意力机制获得的卷积图的权重矩阵中,位于预测框与目标框在卷积图上非重叠的区域的元素的权重,计算定位损失;
4)计算反向误差传播中定位损失对于预测框、目标框与权重矩阵的梯度;
5)判断卷积神经网络的迭代过程是否结束,否则返回步骤1),是则结束;
所述步骤1)中,具体计算过程如下:
1.1)注意力机制根据卷积图计算出注意力矩阵M,其中每个元素的数值用Mp,q(a)∈[0,+∞)表示,叠加上原卷积图中每个像素点的数值Fp,q(a)自身固有的权重1之后,得到该像素的权重为(1+Mp,q(a))∈[1,+∞),然后使用(1+Mp,q(a))对原卷积图中像素点的数值Fp,q(a)进行加权,将原卷积图中各个像素加权后的结果Hp,q(a)所组成的矩阵H作为卷积神经网络向下一层的输出;其中,p,q与a分别代表矩阵中第p行和第q列交叉点上的元素a;
1.2)将(1+Mp,q(a))作为原卷积图中像素Fp,q(a)的权重,并将其记为
Figure FDA0003383687800000011
将每个像素的权重
Figure FDA0003383687800000012
组成的矩阵作为原卷积图的权重矩阵,并将其记为M*
所述步骤2)中,与目标框非重叠区域的确定方法如下:
2.1)假设rv代表目标框在卷积图中对应的区域,
Figure FDA0003383687800000013
代表预测框tu的中心点横坐标、中心点纵坐标、横向宽度、纵向高度这4个参数的偏差中单独的偏差i导致该预测框在卷积图中对应的区域;其中,i∈{x,y,w,h};
2.2)将目标预测框tu的中心点横坐标x、中心点纵坐标y、横向宽度w、纵向高度h这4个参数中除了i以外的其他3个的数值缩放成与目标框v相应参数的数值相同,获得仅存在单独的偏差i时的目标预测框,其在卷积图中圈出的区域即为单独的偏差i导致该预测框在卷积图中对应的区域ri t
2.3)将ri t与rv之间的并集区域{ri t∪rv}扣除ri t与rv之间的交集区域{ri t∩rv}后剩余的区域{ri t∪rv-ri t∩rv},作为预测框tu的x、y、w、h中单独的偏差i所导致其与目标框v非重叠的区域;
2.4)依次令i分别等于x、y、w、h,重复上述步骤,获得x、y、w、h之中,每个单独的偏差导致的预测框与目标框不重叠的区域;
所述步骤4)中,通过计算反向误差传播中定位损失对于预测框tu和目标框v的中心点横坐标x、中心点纵坐标y、横向宽度w、纵向高度h这4个参数中,第i∈{x,y,w,h}个单独的偏差
Figure FDA0003383687800000021
和vi,以及注意力矩阵M中每个元素Mp,q(a)的偏导数,获得定位损失对于参数
Figure FDA0003383687800000022
vi和每个元素Mp,q(a)的梯度数值;该梯度数值在卷积神经网络的反向误差传播过程中,使用链式求导法则将该梯度数值依次传递给前面的所有层,用于计算相关各层网络参数更新后的数值。
2.一种如权利要求1所述的方法,其特征在于:所述步骤3)中,目标检测系统的定位损失计算过程如下:
3.1)分别计算预测框的中心点横坐标、中心点纵坐标、横向宽度和纵向高度单独的偏差在定位损失函数中的损失系数;
3.2)根据损失系数计算目标检测系统的定位损失。
3.一种如权利要求2所述的方法,其特征在于:所述步骤3.1)中,故损失系数βi的计算方法为:依次令i分别等于x、y、w和h,求单独的偏差i∈{x,y,w,h}导致的预测框ri t与目标框v不重合的区域像素点的平均权重,与
Figure FDA0003383687800000023
和v的并集区域像素点的平均权重的比值,即为单独的偏差i导致的损失系数βi
4.一种如权利要求2所述的方法,其特征在于:所述步骤3.2)中,利用损失系数βi对传统方法定位损失中针对单独的偏差i∈{x,y,w,h}的
Figure FDA0003383687800000024
函数进行加权,再将加权后的各项数值相加,得到基于注意力机制的定位损失。
5.一种如权利要求1所述的方法,其特征在于:对于原卷积图中属于预测框与目标框不重合区域的像素点,降低其在注意力机制中的权重;对于原卷积图中属于预测框与目标框重合区域的像素点,则在注意力机制中增加其权重;对于不属于预测框或目标框中任何区域的像素点,对其权重不做任何处理。
6.一种如权利要求1所述的方法,其特征在于:所述步骤5)中,如果目标检测系统的卷积神经网络的正向目标检测--反向误差传播过程的迭代不满足卷积神经网络自身的结束条件,则返回步骤1);反之,若正向目标检测--反向误差传播过程的迭代已经满足卷积神经网络自身的结束条件,则结束。
7.一种目标检测系统中基于注意力机制的定位损失计算系统,其特征在于:该系统包括卷积图权重矩阵计算模块、非重叠区域确定模块、定位损失计算模块、梯度计算模块和结束判断模块;
所述卷积图权重矩阵计算模块用于在卷积神经网络的正向目标检测过程中,利用注意力机制计算用于生成目标预测框的卷积图的权重矩阵;
所述非重叠区域确定模块用于确定预测框中心点横坐标、中心点纵坐标、横向宽度以及纵向高度各自单独的偏差所导致的其与目标框非重叠的区域;
所述定位损失计算模块用于根据注意力机制获得的卷积图的权重矩阵中,位于预测框与目标框在卷积图上非重叠的区域的元素的权重,计算定位损失;
所述梯度计算模块用于计算反向误差传播中定位损失对于预测框、目标框与权重矩阵的梯度;
所述结束判断模块用于判断卷积神经网络的迭代过程是否结束,否则返回步骤1),是则结束;
所述卷积图权重矩阵计算模块中,具体计算过程如下:
1.1)注意力机制根据卷积图计算出注意力矩阵M,其中每个元素的数值用Mp,q(a)∈[0,+∞)表示,叠加上原卷积图中每个像素点的数值Fp,q(a)自身固有的权重1之后,得到该像素的权重为(1+Mp,q(a))∈[1,+∞),然后使用(1+Mp,q(a))对原卷积图中像素点的数值Fp,q(a)进行加权,将原卷积图中各个像素加权后的结果Hp,q(a)所组成的矩阵H作为卷积神经网络向下一层的输出;其中,p,q与a分别代表矩阵中第p行和第q列交叉点上的元素a;
1.2)将(1+Mp,q(a))作为原卷积图中像素Fp,q(a)的权重,并将其记为
Figure FDA0003383687800000031
将每个像素的权重
Figure FDA0003383687800000032
组成的矩阵作为原卷积图的权重矩阵,并将其记为M*
所述非重叠区域确定模块中,与目标框非重叠区域的确定方法如下:
2.1)假设rv代表目标框在卷积图中对应的区域,ri t代表预测框tu的中心点横坐标、中心点纵坐标、横向宽度、纵向高度这4个参数的偏差中单独的偏差i导致该预测框在卷积图中对应的区域;其中,i∈{x,y,w,h};
2.2)将目标预测框tu的中心点横坐标x、中心点纵坐标y、横向宽度w、纵向高度h这4个参数中除了i以外的其他3个的数值缩放成与目标框v相应参数的数值相同,获得仅存在单独的偏差i时的目标预测框,其在卷积图中圈出的区域即为单独的偏差i导致该预测框在卷积图中对应的区域ri t
2.3)将ri t与rv之间的并集区域{ri t∪rv}扣除ri t与rv之间的交集区域{ri t∩rv}后剩余的区域{ri t∪rv-ri t∩rv},作为预测框tu的x、y、w、h中单独的偏差i所导致其与目标框v非重叠的区域;
2.4)依次令i分别等于x、y、w、h,重复上述步骤,获得x、y、w、h之中,每个单独的偏差导致的预测框与目标框不重叠的区域;
所述梯度计算模块中,通过计算反向误差传播中定位损失对于预测框tu和目标框v的中心点横坐标x、中心点纵坐标y、横向宽度w、纵向高度h这4个参数中,第i∈{x,y,w,h}个单独的偏差
Figure FDA0003383687800000041
和vi,以及注意力矩阵M中每个元素Mp,q(a)的偏导数,获得定位损失对于参数
Figure FDA0003383687800000042
vi和每个元素Mp,q(a)的梯度数值;该梯度数值在卷积神经网络的反向误差传播过程中,使用链式求导法则将该梯度数值依次传递给前面的所有层,用于计算相关各层网络参数更新后的数值。
CN201810102737.2A 2018-02-01 2018-02-01 目标检测系统中基于注意力机制定位损失计算方法及系统 Active CN108205687B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810102737.2A CN108205687B (zh) 2018-02-01 2018-02-01 目标检测系统中基于注意力机制定位损失计算方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810102737.2A CN108205687B (zh) 2018-02-01 2018-02-01 目标检测系统中基于注意力机制定位损失计算方法及系统

Publications (2)

Publication Number Publication Date
CN108205687A CN108205687A (zh) 2018-06-26
CN108205687B true CN108205687B (zh) 2022-04-01

Family

ID=62606386

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810102737.2A Active CN108205687B (zh) 2018-02-01 2018-02-01 目标检测系统中基于注意力机制定位损失计算方法及系统

Country Status (1)

Country Link
CN (1) CN108205687B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102563752B1 (ko) * 2017-09-29 2023-08-04 삼성전자주식회사 뉴럴 네트워크를 위한 트레이닝 방법, 뉴럴 네트워크를 이용한 인식 방법 및 그 장치들
WO2020061924A1 (zh) * 2018-09-27 2020-04-02 华为技术有限公司 运算加速器和数据处理方法
CN109919228B (zh) * 2019-03-08 2023-04-11 旺微科技(浙江)有限公司 一种目标的快速检测方法及装置
CN109948626A (zh) * 2019-03-08 2019-06-28 旺微科技(浙江)有限公司 一种目标检测方法及装置
CN111653103A (zh) * 2020-05-07 2020-09-11 浙江大华技术股份有限公司 一种目标对象的识别方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107103279A (zh) * 2017-03-09 2017-08-29 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种在垂直视角下基于深度学习的客流计数方法
CN107274451A (zh) * 2017-05-17 2017-10-20 北京工业大学 基于共享卷积神经网络的绝缘子检测方法及装置
CN107316058A (zh) * 2017-06-15 2017-11-03 国家新闻出版广电总局广播科学研究院 通过提高目标分类和定位准确度改善目标检测性能的方法
CN107563412A (zh) * 2017-08-09 2018-01-09 浙江大学 一种基于深度学习的红外图像电力设备实时检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107103279A (zh) * 2017-03-09 2017-08-29 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种在垂直视角下基于深度学习的客流计数方法
CN107274451A (zh) * 2017-05-17 2017-10-20 北京工业大学 基于共享卷积神经网络的绝缘子检测方法及装置
CN107316058A (zh) * 2017-06-15 2017-11-03 国家新闻出版广电总局广播科学研究院 通过提高目标分类和定位准确度改善目标检测性能的方法
CN107563412A (zh) * 2017-08-09 2018-01-09 浙江大学 一种基于深度学习的红外图像电力设备实时检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
" Study on drivers of cultivated land change in urban fringe area based on the logistic regression model";Shiquan Hou;《2011 International Conference on Remote Sensing, Environment and Transportation Engineering》;20111231;全文 *
基于X射线的复杂结构件内部零件装配正确性检测;吴桐 等;《激光与光电子学进展》;20171113;全文 *
基于极限学习机的视频异常行为检测算法;张新峰;《中国铁路》;20150731;全文 *

Also Published As

Publication number Publication date
CN108205687A (zh) 2018-06-26

Similar Documents

Publication Publication Date Title
CN108205687B (zh) 目标检测系统中基于注意力机制定位损失计算方法及系统
CN110298321B (zh) 基于深度学习图像分类的道路阻断信息提取方法
CN107945204B (zh) 一种基于生成对抗网络的像素级人像抠图方法
US10565697B2 (en) Utilizing overlay misregistration error estimations in imaging overlay metrology
JP4616068B2 (ja) 車両、画像処理システム、画像処理方法及び画像処理プログラム
CN110426914A (zh) 一种亚分辨率辅助图形的修正方法及电子设备
CN117351448B (zh) 一种基于YOLOv8改进的偏振图像道路目标检测方法
CN103247029B (zh) 一种用于拼接式探测器生成的高光谱图像几何配准方法
CN112465273A (zh) 一种基于局部注意力机制的无人车轨迹预测方法
KR101869266B1 (ko) 극한 심층학습 기반 차선 검출 시스템 및 그 방법
CN113269689B (zh) 一种基于法向量和高斯权重约束的深度图像补全方法及系统
Liu et al. Smoothed nonparametric derivative estimation using weighted difference quotients
CN110598711B (zh) 一种结合分类任务的目标分割方法
CN102567970A (zh) 图像修复方法及装置
CN109993772B (zh) 基于时空采样的实例级别特征聚合方法
CN114267027A (zh) 一种图像处理方法和装置
CN111105423B (zh) 一种基于深度学习的ct图像中肾脏分割方法
CN117173233A (zh) 基于半全局立体匹配的视差图确定方法、装置、介质及设备
CN111191694A (zh) 图像立体匹配方法
CN116433740A (zh) 一种基于激光条纹线的立体匹配方法
CN115631216A (zh) 一种基于多特征滤波器融合的云台目标跟踪系统和方法
CN115731269A (zh) 路面车道线预测方法、装置、车辆及存储介质
CN113095328B (zh) 一种基尼指数引导的基于自训练的语义分割方法
JP7374010B2 (ja) 風速分布推定装置及び風速分布推定方法
CN112348847B (zh) 一种目标尺度自适应跟踪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant