CN114120045B - 一种基于多门控混合专家模型的目标检测方法和装置 - Google Patents
一种基于多门控混合专家模型的目标检测方法和装置 Download PDFInfo
- Publication number
- CN114120045B CN114120045B CN202210082814.9A CN202210082814A CN114120045B CN 114120045 B CN114120045 B CN 114120045B CN 202210082814 A CN202210082814 A CN 202210082814A CN 114120045 B CN114120045 B CN 114120045B
- Authority
- CN
- China
- Prior art keywords
- target
- feature map
- expert model
- model
- expert
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Abstract
本专利公开了基于多门控混合专家模型的目标检测方法和装置,包括:获取图像中潜在目标所在的区域的目标特征图以及潜在目标边框;对目标特征图分别利用专家模型进行处理,输出与目标特征图对应的目标分类子任务结果和确定边框回归参数子任务结果;对目标特征图分别利用门控网络处理,分别输出与目标分类子任务对应的每个专家模型的自适应权重值、以及与确定边框回归参数子任务对应的每个专家模型的自适应权重值;根据自适应权重值、目标分类子任务结果和边框回归参数子任务结果,通过全连接神经网络处理确定目标的类别和边框。通过多门控混合专家模型进行目标分类和回归学习,从而提高分类和回归任务联合学习的效率,提高目标检测的准确率。
Description
技术领域
本专利涉及计算机视觉目标检测领域。具体而言,涉及一种基于多门控混合专家模型的目标检测方法和装置。
背景技术
近年来深度学习技术发展迅速,计算机视觉领域迎来了高速发展的时代,学术界和工业界的计算机视觉算法的研究与应用层出不穷、落地场景广泛,对人类生活产生了巨大的影响。
作为计算机视觉领域的一个方面,目标检测也被深度学习方法主宰。目标检测指的是预测图像上所有可能存在的物体的类别和位置大小。其基本流程是通过深度卷积神经网络提取图像的深度特征,然后基于深度特征通过区域推荐网络预测可能存在物体的区域,最后对最有可能存在目标的若干个区域进行分类和边框回归。现有技术已经证明该范式的方法在目标检测领域具有一定的效果。
然而,物体分类和边框回归的联合学习策略仍然比较粗糙,通常,现有技术中只是对上述两个任务的阐述进行共享,但是简单地共享两个任务的参数可能损害了目标检测准确率。
发明内容
本专利正是基于现有技术的上述需求而提出的,本专利要解决的技术问题是如何将物体分类和边框回归多任务联合学习,从而提高目标检测的准确性。
为了解决上述问题,本专利提供的技术方案包括:
一种基于多门控混合专家模型的目标检测方法,该方法包括:
获取图像中潜在目标所在的区域的目标特征图以及潜在目标边框;
对所述目标特征图分别利用专家模型进行处理,输出与所述目标特征图对应的目标分类子任务结果和确定边框回归参数子任务结果;所述专家模型的数量包括多个,每个专家模型分别输出其目标分类子任务结果和确定边框回归参数子任务结果;
对所述目标特征图分别利用门控网络进行处理,所述门控网络的数量为多个,每个门控网络分别输出与目标分类子任务对应的每个专家模型的自适应权重值、以及与确定边框回归参数子任务对应的每个专家模型的自适应权重值;
根据所述自适应权重值、每个专家模型分别输出的目标分类子任务结果和每个专家模型分别输出的确定边框回归参数子任务结果,通过全连接神经网络处理确定目标的类别和边框。
可选地,所述潜在目标所在的区域包括多个区域,获取每个区域的目标特征图以及潜在的目标边框。
可选地,所述门控网络的数量与子任务的数量一一对应。
可选地,根据所述自适应权重值、每个专家模型分别输出的目标分类子任务结果和每个专家模型分别输出的确定边框回归参数子任务结果,确定目标的类别和边框,包括:
每个专家模型得到的目标分类子任务结果乘以与该子任务对应的每个专家模型的自适应权重值得到权重调节后的目标分类子任务结果,根据所述权重调节后的目标分类子任务结果输入至全连接神经网络确定所述潜在目标的类别;
每个专家模型得到的边框回归参数子任务结果乘以与该子任务之对应的每个专家模型的自适应权重值得到权重调节后的边框回归参数子任务结果,根据所述权重调节后的边框回归参数子任务结果输入至全连接神经网络确定所述潜在目标边框的位移参数。
可选地,获取图像中潜在目标所在的区域的目标特征图以及潜在目标边框,包括:
获取待检测图像,对所述图像通过深度卷积神经模型提取多个预设尺度的深度特征图;
通过特征金字塔模型对每个深度特征图处理得到多尺度特征图;
利用区域推荐模型处理每个多尺度特征图,得到多个潜在目标所在区域;
根据区域池化模型对所述潜在目标所在区域进行处理得到目标特征图以及潜在目标边框。
可选地,所述门控网络包括:
通过多层感知机识别专家模型处理所述目标特征图的擅长程度,对专家模型进行分类,其中,所述专家模型处理所述目标特征图的擅长程度是各个专家模型分别对所述目标特征图基于损失函数进行向前反馈和向后反馈学习,并且各个专家模型的参数互不共享得到不同的学习结果;
利用softmax算法对所述分类的结果赋予权重。
可选地,通过特征金字塔模型对每个深度特征图处理得到多尺度特征图包括:
对第一层的深度图像特征进行初始化并上采样,获得第一层的多尺度特征图;
对其余的各层执行操作:获取当前层的深度特征图,对所述当前层的上一层的多尺度特征图进行上采样,并将所述深度特征图与上采样后的多尺度特征图进行融合,得到当前层的多尺度特征图,其中,所述融合是通过通道拼接和卷积操作完成。
可选地,利用区域推荐模型处理每个多尺度特征图,得到多个潜在目标所在区域包括:
针对每个尺度对应的各个层的多尺度特征图,基于各个区域进行区域推荐网络算法处理,获得潜在目标的各个候选区域,具体执行:对当前层的所述多尺度特征图进行滑动窗口预测,判断各个区域是否可能存在目标,若是,则获得潜在目标的候选区域,并得到所述候选区域相对于先验框的偏移以及置信度,否则,将所述区域剔除,其中,所述滑动窗口预测指使用预设长度的过滤器进行卷积操作;
将所述各个候选区域进行整合,并利用非极大值抑制算法对重叠部分处理得到多个潜在目标所在区域。
可选地,根据区域池化模型对所述潜在目标所在区域进行处理得到目标特征图以及潜在目标边框包括:利用双线性插值算法对所述潜在目标所在区域池化得到固定尺寸的目标特征图。
可选地,所述专家模型之间的各个任务共享,所述门控网络之间的各个任务不共享。
一种基于多门控混合专家模型的目标检测装置,其特征在于,包括:
获取模块,获取图像中潜在目标所在的区域的目标特征图以及潜在目标边框;
第一处理模块,对所述目标特征图分别利用专家模型进行处理,输出与所述目标特征图对应的目标分类子任务结果和确定边框回归参数子任务结果;所述专家模型的数量包括多个,每个专家模型分别输出其目标分类子任务结果和确定边框回归参数子任务结果;
第二处理模块,对所述目标特征图分别利用门控网络进行处理,所述门控网络的数量为多个,每个门控网络分别输出与目标分类子任务对应的每个专家模型的自适应权重值、以及与确定边框回归参数子任务对应的每个专家模型的自适应权重值;
确定模块,根据所述自适应权重值、每个专家模型分别输出的目标分类子任务结果和每个专家模型分别输出的确定边框回归参数子任务结果,通过全连接神经网络处理确定目标的类别和边框。
可选地,所述潜在目标所在的区域包括多个区域,获取每个区域的目标特征图以及潜在的目标边框。
可选地,所述门控网络的数量与子任务的数量一一对应。
可选地,所述确定模块用于:
每个专家模型得到的目标分类子任务结果乘以与该子任务对应的每个专家模型的自适应权重值得到权重调节后的目标分类子任务结果,根据所述权重调节后的目标分类子任务结果输入至全连接神经网络确定所述潜在目标的类别;
每个专家模型得到的边框回归参数子任务结果乘以与该子任务之对应的每个专家模型的自适应权重值得到权重调节后的边框回归参数子任务结果,根据所述权重调节后的边框回归参数子任务结果输入至全连接神经网络确定所述潜在目标边框的位移参数。
可选地,所述获取模块用于:
获取待检测图像,对所述图像通过深度卷积神经模型提取多个预设尺度的深度特征图;
通过特征金字塔模型对每个深度特征图处理得到多尺度特征图;
利用区域推荐模型处理每个多尺度特征图,得到多个潜在目标所在区域;
根据区域池化模型对所述潜在目标所在区域进行处理得到目标特征图以及潜在目标边框。
可选地,所述门控网络包括:
通过多层感知机识别专家模型处理所述目标特征图的擅长程度,对专家模型进行分类,其中,所述专家模型处理所述目标特征图的擅长程度是各个专家模型分别对所述目标特征图基于损失函数进行向前反馈和向后反馈学习,并且各个专家模型的参数互不共享得到不同的学习结果;
利用softmax算法对所述分类的结果赋予权重。
可选地,所述获取模块用于:
对第一层的深度图像特征进行初始化并上采样,获得第一层的多尺度特征图;
对其余的各层执行操作:获取当前层的深度特征图,对所述当前层的上一层的多尺度特征图进行上采样,并将所述深度特征图与上采样后的多尺度特征图进行融合,得到当前层的多尺度特征图,其中,所述融合是通过通道拼接和卷积操作完成。
可选地,所述获取模块用于:
针对每个尺度对应的各个层的多尺度特征图,基于各个区域进行区域推荐网络算法处理,获得潜在目标的各个候选区域,具体执行:对当前层的所述多尺度特征图进行滑动窗口预测,判断各个区域是否可能存在目标,若是,则获得潜在目标的候选区域,并得到所述候选区域相对于先验框的偏移以及置信度,否则,将所述区域剔除,其中,所述滑动窗口预测指使用预设长度的过滤器进行卷积操作;
将所述各个候选区域进行整合,并利用非极大值抑制算法对重叠部分处理得到多个潜在目标所在区域。
可选地,所述获取模块用于:利用双线性插值算法对所述潜在目标所在区域池化得到固定尺寸的目标特征图。
可选地,所述专家模型之间的各个任务共享,所述门控网络之间的各个任务不共享。
与现有技术相比,本专利构建了一种基于多门控混合专家模型的目标检测方法,相比于简单地使分类与边框回归模型共享参数的目标检测方法,该模型使用多门控混合专家模型对多任务进行自适应地参数共享和解耦,避免任务差异导致的负面信息在多任务之间传递,从而提高多任务联合学习的效率,提高目标检测模型的检测准确率;使用多门控混合专家模型对不同子空间的数据进行分治,可以避免不同子空间较大的数据分布差异导致模型陷入局部最优解。不同的独立的专家模型可以分别拟合不同子空间的数据分布,门控网络根据子空间的数据动态地选择使用相应的专家模型,从而避免差异较大的子空间之间的相互负面影响,进而提高模型的拟合效率,提升目标检测模型的准确率。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本专利具体实施方式提供的一种基于多门控混合专家模型的目标检测方法的流程图;
图2是本专利具体实施方式提供的一种基于多门控混合专家模型的目标检测方法的整体框架图;
图3是本专利具体实施方式提供的一种基于多门控混合专家模型的目标检测方法的残差模块;
图4是本专利具体实施方式提供的一种基于多门控混合专家模型的目标检测方法的特征金字塔网络结构;
图5是本专利具体实施方式提供的一种基于多门控混合专家模型的目标检测方法的多门控混合专家模型的结构示意图;
图6是本专利具体实施方式提供的一种基于多门控混合专家模型的目标检测装置的结构示意图。
具体实施方式
为使本专利实施例的目的、技术方案和优点更加清楚,下面将结合本专利实施例中的附图,对本专利实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利一部分实施例,而不是全部的实施例。基于本专利中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利保护的范围。
本专利提供一种基于多门控混合专家模型的目标检测方法和装置,由于分类任务与边框回归任务具有一定的相关性,联合学习比分别独立学习具有更好的优化效果;而与此同时,分类任务与边框回归任务也具有一定的差异,如分类任务更适合使用全连接神经网络进行建模、边框回归任务更适合使用卷积神经网络进行学习,完全共享两个任务的参数可能导致负面信息在各个任务之间进行传播,从而导致学习结果陷入局部最优解。本专利避免了学习结果陷入局部最优解,从而提升了目标检测方法的准确率。
为便于对本专利实施例的理解,下面将结合附图以具体实施例做进一步的解释说明,实施例1和实施例2并不构成对本专利实施例的限定。
实施例1
本实施例1提供了一种基于多门控混合专家模型的目标检测方法,解决了物体分类和边框回归多任务联合学习的问题,从而提升了目标检测方法的准确率。整体框架如图2所示,首先将图像输入至深度卷积神经网络中,获得多尺度特征,然后将多尺度特征输入至特征金字塔网络中,得到融合后的多尺度特征,进一步地,将多尺度特征分别输入至区域推荐网络和区域池化层处理,得到候选区域特征,最后将候选区域特征输入至多门控混合专家模型中,得到物体的类别和位置。其流程如图1所示,具体而言,所述方法包括以下步骤:
S1:获取图像中潜在目标所在的区域的目标特征图以及潜在目标边框。
在本专利实施例中,所述潜在目标所在的区域包括多个区域,获取每个区域的目标特征图以及潜在的目标边框。
在S1步骤中执行步骤具有包括S10-S13:
S10:获取待检测图像,对所述图像通过深度卷积神经模型提取多个预设尺度的深度特征图。
在本专利实施例中,使用深度卷积神经网络ResNet50提取待检测图像的深度图像特征。深度卷积神经网络包括卷积层、池化层和残差模块组成,对待检测图像经过各个层和残差模块处理后得到深度图像特征。卷积层由一组卷积核组成,也叫做过滤器,每个过滤器都会提取一种特定的特征;利用池化层保留由过滤器提取特征的主要特征;残差模块是指引入跳跃连接的卷积模块,卷积层在输入数据的基础上学习额外的残差信息,并与输入数据相加;一个残差模块包括两条路径F(x)和x,F(x)为路径拟合残差,x路径为恒等映射,符号⊕表示为异或操作,并要求参与运算的F(x)和x的尺寸要相同,当F(x)+x经过ReLU运算后直接作为下一个神经网络的输入,其中ReLU为激活函数,可以是f(x)=max(x,0)或者,激活函数的x为上一层神经网络的输入向量,当激活函数为f(x)=max(x,0)时,若输入的矩阵x大于0,则输出x,否则输出0。当激活函数为,若输入的矩阵x大于0,则输出,否则输出0,具体结构如图3所示。
残差网络(Residual Neural Network,ResNet)模型是深度卷积神经网络的模型,其意义在于:引入残差模块解决网络深度增加后模型退化的问题,大大提高了模型的深度,增强了图像内容识别的能力。残差模块与普通的卷积模块相比,残差模块能保留更多的输入数据的信息,因此当多个残差模块堆叠形成深度网络时,顶层的模块仍然能够获取足够的输入数据的信息。同时在训练过程中,反向传播的梯度能够顺畅地传播到输入层,而不出现梯度消失或爆炸的问题。
ResNet50是ResNet系列模型的变种,一共有50个卷积层,它在模型容量和推理速度之间取得了很好的权衡。ResNet50一共提取4种尺度的特征,对所述图像通过深度卷积神经网络分别提取经过conv3、conv4、conv5、conv6层的最后一个残差模块得到的深度图像特征,将其作为特征金字塔网络的输入,记为{C2、C3、C4、C5 },其分辨率分别为输入图像的1/8, 1/16, 1/32和1/64,其中,conv代表卷积计算。
S11:通过特征金字塔模型对每个深度特征图处理得到多尺度特征图。
将获得的四种尺度的特征图,按照特征图的大小划分为不同的阶段,每个阶段之间的特征图的尺度比例相差为2,每个阶段对应了特征金字塔网络中的一层。
在本专利实施例中,特征金字塔网络是一种多尺度融合模型,渐进式的自顶向下进行多尺度融合深度图像特征;一方面可以增强底层特征图的感受野、获取更多的上下文信息,另一方面也便于多尺度目标检测,提高模型对不同尺度的物体的检测准确率。
在S11步骤中执行步骤具有包括S110-S111:
S110:对第一层的深度图像特征进行初始化并上采样,获得第一层的多尺度特征图。
利用双线性插值算法进行上采样,扩大分辨率,使得该层的深度图像特征可以与对应下一层的深度图像特征进行融合。
第一层的深度图像特征比下面各层的尺度都大,以及分辨率都低;对第一层的深度图像特征进行初始化,可以通过池化操作预测得到对应上一层的多尺度特征并上采样,将第一层的深度图像特征与上采样后的多尺度特征进行融合,获得第一层的多尺度特征。
S111:对其余的各层执行操作:获取当前层的深度特征图,对所述当前层的上一层的多尺度特征图进行上采样,并将所述深度特征图与上采样后的多尺度特征图进行融合,得到当前层的多尺度特征图,其中,所述融合是通过通道拼接和卷积操作完成。
如图4所示,当第一层通过初始化并上采样后,再经过1x1卷积,得到第一层的多尺度特征,即将C5层先经过1x1卷积,得到M5特征。对于其余的各层,M5通过上采样,再拼接上C4经过1x1卷积后的特征,得到M4。同理对C3和C2执行相同的操作,分别得到M3和M2。再分别对M层特征经过3x3卷积,得到最终的P2、P3、P4、P5层特征,即多尺度特征。
S12:利用区域推荐模型处理每个多尺度特征图,得到多个潜在目标所在区域。
在本步骤中,具体执行步骤包括S120-S121:
S120:针对每个尺度对应的各个层的多尺度特征图,基于各个区域进行区域推荐网络算法处理,获得潜在目标的各个候选区域,具体执行:对当前层的所述多尺度特征图进行滑动窗口预测,判断各个区域是否可能存在目标,若是,则获得潜在目标的候选区域,并得到所述候选区域相对于先验框的偏移以及置信度,否则,将所述区域剔除,其中,所述滑动窗口预测指使用预设长度的过滤器进行卷积操作。
对多尺度特征图像利用预设长度的卷积核进行卷积操作,得到卷积特征图像,对所述卷积特征图像中的每一个点使用三个不同宽高比生成先验框,即对特征图中的每一个点初始化为3个先验框,并利用
计算得到每个先验框对应候选区域的2个概率值和4个坐标,2个概率值分别为候选区域包含目标的概率和不包含目标的概率,4个坐标值分别为候选区域的中心点的横纵坐标,以及候选区域的长和宽,其中,xa,ya,wa,ha分别为先验框的中心坐标和长与宽,tx,ty,tw,th是模型的预测值,x,y,w,h是基于模型预测值计算得到候选区域的中心点横纵坐标,以及候选区域的长和宽,x*,y*,w*,h*为真实标签值,ti,ti *用来计算损失值loss,具体公式为
其中,Ncls为一次训练所选的样本数的大小;Nreg为先验框的位置数;i为先验框的索引;pi是先验框属于某个目标的预测概率;当先验框是正样本时,pi *为1,否则为0;ti表示预测的候选区域的四个参数化坐标向量;ti *是与正先验框对应的实际边界框的坐标向量;λ是设定的超参数,可根据实际需要设置,例如λ=10;Lcls为分类损失函数,Lreg为回归损失函数;x和y表示候选区域中心点的横纵坐标,w和h分别代表候选区域的宽和高。
S121:将所述各个候选区域进行整合,并利用非极大值抑制算法对重叠部分处理得到多个潜在目标所在区域。
目标检测的过程中在同一目标的位置上会产生大量的候选区域,这些候选区域相互之间可能会有重叠,因此需要利用非极大值抑制找到最佳的目标边界框,消除冗余的边界框。
基于置信度进行排序,设置阈值,选择置信度最高的候选框并遍历其他的候选区域,计算置信度最高的候选区域与当前其他的候选区域的重叠面积,若所述重叠面积大于所述阈值,则将当前其他的候选区域删除,剩余的候选区域作为各个目标区域。
S13:根据区域池化模型对所述潜在目标所在区域进行处理得到目标特征图以及潜在目标边框。
使用区域池化层来缩减模型的大小,提高计算速度,同时提高所提取特征的鲁棒性。
利用双线性插值算法对所述潜在目标所在区域池化得到固定尺寸的目标特征图,具体操作是根据预设目标区域池化参数对所述各个目标区域划分为N*M个相同大小的小区域中,N、M的具体大小由实际应用需求所配置,与预设目标区域池化参数相关,本专利实施例不做具体限定。然后利用各个小区域的平均或者最大特征提取得到所述目标特征图。
在得到目标特征图后,需要将目标特征图输入至多门控混合专家模型中预测目标特征图中目标的类别和位置,其中,所述多门控混合专家模型的结构如图5所示,具体包括多个专家模型和多个门控网络,而门控网络的数量与子任务的数量一一对应,将目标特征图输入至每个专家模型和每个门控网络,每个专家模型经过处理后得到目标分类子任务结果和确定边框回归参数子任务结果,每个门控网络分别输出与目标分类子任务对应的每个专家模型的自适应权重值、以及与确定边框回归参数子任务对应的每个专家模型的自适应权重值,根据所述自适应权重值、每个专家模型分别输出的目标分类子任务结果和每个专家模型分别输出的确定边框回归参数子任务结果,通过全连接神经网络处理确定目标的类别和边框。
S2:对所述目标特征图分别利用专家模型进行处理,输出与所述目标特征图对应的目标分类子任务结果和确定边框回归参数子任务结果;所述专家模型的数量包括多个,每个专家模型分别输出其目标分类子任务结果和确定边框回归参数子任务结果。
所述专家模型采用多层感知机(Multilayer Perceptron,MLP)模型,通过非线性变换操作进行特征提取;在本专利实施例中,专家模型的数量根据对比实验结果进行设置,实现模型容量和过拟合风险之间的权衡,至少为2个。
例如,各个专家模型对所述目标特征图处理得到目标分类子任务结果如表1所示:
例如,各个专家模型对所述目标特征图处理得到边框回归参数子任务结果如表2所示:
S3:对所述目标特征图分别利用门控网络进行处理,所述门控网络的数量为多个,每个门控网络分别输出与目标分类子任务对应的每个专家模型的自适应权重值、以及与确定边框回归参数子任务对应的每个专家模型的自适应权重值。
在S3步骤中,所述门控网络的数量与子任务的数量一一对应。
在本专利实施例中,门控网络采用MLP和softmax模型,它与专家模型共享相同的输入数据,并预测各个专家模型的权重。门控网络的数量为2,即多任务的数量,所述任务包括分类和边框回归。每个门控网络控制了专家模型对每个任务的信息输入比例。
多层感知机的神经层与神经层之间是全连接的,即上一层的任何一个神经元与下一层的所有神经元都有连接,主要包括三层,输入层、隐藏层和输出层,在输入层中,输入的向量维数和神经元个数相同,在隐藏层中至少包括一层神经层。
在隐藏层的每一个神经层利用公式
计算每一层的输出,其中a表示w1x+b1,其中x表示上一层神经元的向量X,w代表两个神经元的连接权重,b代表偏置。
在本专利实施例中,所述门控网络执行步骤具体包括S30-S31:
S30:通过多层感知机识别专家模型处理所述目标特征图的擅长程度,对专家模型进行分类,其中,所述专家模型处理所述目标特征图的擅长程度是各个专家模型分别对所述目标特征图基于损失函数进行向前反馈和向后反馈学习,并且各个专家模型的参数互不共享得到不同的学习结果;
S31:利用softmax算法对所述分类的结果赋予权重。
例如,各个门控网络分别输出与目标分类子任务对应的每个专家模型的自适应权重值、以及与确定边框回归参数子任务对应的每个专家模型的自适应权重值如表3所示:
在表3中,门控网络1为目标分类子任务对应的每个专家模型分配自适应权重,门控网络2为边框回归参数子任务对应的每个专家模型分配自适应权重。
S4:根据所述自适应权重值、每个专家模型分别输出的目标分类子任务结果和每个专家模型分别输出的确定边框回归参数子任务结果,通过全连接神经网络处理确定目标的类别和边框。
在本专利实施例中,使用门控网络自适应赋值方法,将所有专家模型都动态的考虑在内,有利于识别的准确性。
在S4步骤中,具体执行步骤包括:
每个专家模型得到的目标分类子任务结果乘以与该子任务对应的每个专家模型的自适应权重值得到权重调节后的目标分类子任务结果,根据所述权重调节后的目标分类子任务结果输入至全连接神经网络确定所述潜在目标的类别。
例如,每个专家模型得到的目标分类子任务结果乘以与该子任务对应的每个专家模型的自适应权重值得到权重调节后的目标分类子任务结果如表4所示:
每个专家模型得到的边框回归参数子任务结果乘以与该子任务之对应的每个专家模型的自适应权重值得到权重调节后的边框回归参数子任务结果,根据所述权重调节后的边框回归参数子任务结果输入至全连接神经网络确定所述潜在目标边框的位移参数。
例如,每个专家模型得到的边框回归参数子任务结果乘以与该子任务之对应的每个专家模型的自适应权重值得到权重调节后的边框回归参数子任务结果如表5所示:
分类和边框回归网络均为全连接神经网络。记待检测目标类别数为C,分类网络的输出神经元数量为C+1,其中1表示背景类别,边框回归网络的输出神经元数量为C*4,即分别预测每个类别物体的边框(x、y、w、h)的偏移。
在本专利实施例中,所述各个专家模型之间的各个任务共享,所述各个门控网络之间的各个任务不共享,其中,每个任务对应至少两个专家模型和两个门控网络。
实施例2
图6是根据本专利具体实施例提供的一种基于多门控混合专家模型的目标检测装置的结构示意图。如图6所示,该系统包括:获取模块60,第一处理模块61,第二处理模块62,确定模块63。
获取模块60,获取图像中潜在目标所在的区域的目标特征图以及潜在目标边框;
第一处理模块61,对所述目标特征图分别利用专家模型进行处理,输出与所述目标特征图对应的目标分类子任务结果和确定边框回归参数子任务结果;所述专家模型的数量包括多个,每个专家模型分别输出其目标分类子任务结果和确定边框回归参数子任务结果;
第二处理模块62,对所述目标特征图分别利用门控网络进行处理,所述门控网络的数量为多个,每个门控网络分别输出与目标分类子任务对应的每个专家模型的自适应权重值、以及与确定边框回归参数子任务对应的每个专家模型的自适应权重值;
确定模块63,根据所述自适应权重值、每个专家模型分别输出的目标分类子任务结果和每个专家模型分别输出的确定边框回归参数子任务结果,通过全连接神经网络处理确定目标的类别和边框。
可选地,所述潜在目标所在的区域包括多个区域,获取每个区域的目标特征图以及潜在的目标边框。
可选地,所述门控网络的数量与子任务的数量一一对应。
可选地,所述确定模块63用于:
每个专家模型得到的目标分类子任务结果乘以与该子任务对应的每个专家模型的自适应权重值得到权重调节后的目标分类子任务结果,根据所述权重调节后的目标分类子任务结果输入至全连接神经网络确定所述潜在目标的类别;
每个专家模型得到的边框回归参数子任务结果乘以与该子任务之对应的每个专家模型的自适应权重值得到权重调节后的边框回归参数子任务结果,根据所述权重调节后的边框回归参数子任务结果输入至全连接神经网络确定所述潜在目标边框的位移参数。
可选地,所述获取模块60用于:
获取待检测图像,对所述图像通过深度卷积神经模型提取多个预设尺度的深度特征图;
通过特征金字塔模型对每个深度特征图处理得到多尺度特征图;
利用区域推荐模型处理每个多尺度特征图,得到多个潜在目标所在区域;
根据区域池化模型对所述潜在目标所在区域进行处理得到目标特征图以及潜在目标边框。
可选地,所述门控网络包括:
通过多层感知机识别专家模型处理所述目标特征图的擅长程度,对专家模型进行分类,其中,所述专家模型处理所述目标特征图的擅长程度是各个专家模型分别对所述目标特征图基于损失函数进行向前反馈和向后反馈学习,并且各个专家模型的参数互不共享得到不同的学习结果;
利用softmax算法对所述分类的结果赋予权重。
可选地,所述获取模块60用于:
对第一层的深度图像特征进行初始化并上采样,获得第一层的多尺度特征图;
对其余的各层执行操作:获取当前层的深度特征图,对所述当前层的上一层的多尺度特征图进行上采样,并将所述深度特征图与上采样后的多尺度特征图进行融合,得到当前层的多尺度特征图,其中,所述融合是通过通道拼接和卷积操作完成。
可选地,所述获取模块60用于:
针对每个尺度对应的各个层的多尺度特征图,基于各个区域进行区域推荐网络算法处理,获得潜在目标的各个候选区域,具体执行:对当前层的所述多尺度特征图进行滑动窗口预测,判断各个区域是否可能存在目标,若是,则获得潜在目标的候选区域,并得到所述候选区域相对于先验框的偏移以及置信度,否则,将所述区域剔除,其中,所述滑动窗口预测指使用预设长度的过滤器进行卷积操作;
将所述各个候选区域进行整合,并利用非极大值抑制算法对重叠部分处理得到多个潜在目标所在区域。
可选地,所述获取模块60用于:利用双线性插值算法对所述潜在目标所在区域池化得到固定尺寸的目标特征图。
可选地,所述专家模型之间的各个任务共享,所述门控网络之间的各个任务不共享。
以上所述的具体实施方式,对本专利的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本专利的具体实施方式而已,并不用于限定本专利的保护范围,凡在本专利的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本专利的保护范围之内。
Claims (18)
1.一种基于多门控混合专家模型的目标检测方法,其特征在于,包括:
获取待检测图像,对所述图像通过深度卷积神经模型提取多个预设尺度的深度特征图;
通过特征金字塔模型对每个深度特征图处理得到多尺度特征图;
利用区域推荐模型处理每个多尺度特征图,得到多个潜在目标所在区域;
根据区域池化模型对所述潜在目标所在区域进行处理得到目标特征图以及潜在目标边框;
对所述目标特征图分别利用专家模型进行处理,输出与所述目标特征图对应的目标分类子任务结果和确定边框回归参数子任务结果;所述专家模型的数量包括多个,每个专家模型分别输出其目标分类子任务结果和确定边框回归参数子任务结果;
对所述目标特征图分别利用门控网络进行处理,所述门控网络的数量为多个,每个门控网络分别输出与目标分类子任务对应的每个专家模型的自适应权重值、以及与确定边框回归参数子任务对应的每个专家模型的自适应权重值;
根据所述自适应权重值、每个专家模型分别输出的目标分类子任务结果和每个专家模型分别输出的确定边框回归参数子任务结果,通过全连接神经网络处理确定目标的类别和边框。
2.根据权利要求1所述的一种基于多门控混合专家模型的目标检测方法,其特征在于,所述潜在目标所在的区域包括多个区域,获取每个区域的目标特征图以及潜在的目标边框。
3.根据权利要求1所述的一种基于多门控混合专家模型的目标检测方法,其特征在于,所述门控网络的数量与子任务的数量一一对应。
4.根据权利要求1所述的一种基于多门控混合专家模型的目标检测方法,其特征在于,
根据所述自适应权重值、每个专家模型分别输出的目标分类子任务结果和每个专家模型分别输出的确定边框回归参数子任务结果,确定目标的类别和边框,包括:
每个专家模型得到的目标分类子任务结果乘以与该子任务对应的每个专家模型的自适应权重值得到权重调节后的目标分类子任务结果,根据所述权重调节后的目标分类子任务结果输入至全连接神经网络确定所述潜在目标的类别;
每个专家模型得到的边框回归参数子任务结果乘以与该子任务之对应的每个专家模型的自适应权重值得到权重调节后的边框回归参数子任务结果,根据所述权重调节后的边框回归参数子任务结果输入至全连接神经网络确定所述潜在目标边框的位移参数。
5.根据权利要求1所述的一种基于多门控混合专家模型的目标检测方法,其特征在于,所述门控网络包括:
通过多层感知机识别专家模型处理所述目标特征图的擅长程度,对专家模型进行分类,其中,所述专家模型处理所述目标特征图的擅长程度是各个专家模型分别对所述目标特征图基于损失函数进行向前反馈和向后反馈学习,并且各个专家模型的参数互不共享得到不同的学习结果;
利用softmax算法对所述分类的结果赋予权重。
6.根据权利要求1所述的一种基于多门控混合专家模型的目标检测方法,其特征在于,通过特征金字塔模型对每个深度特征图处理得到多尺度特征图包括:
对第一层的深度图像特征进行初始化并上采样,获得第一层的多尺度特征图;
对其余的各层执行操作:获取当前层的深度特征图,对所述当前层的上一层的多尺度特征图进行上采样,并将所述深度特征图与上采样后的多尺度特征图进行融合,得到当前层的多尺度特征图,其中,所述融合是通过通道拼接和卷积操作完成。
7.根据权利要求1所述的一种基于多门控混合专家模型的目标检测方法,其特征在于,利用区域推荐模型处理每个多尺度特征图,得到多个潜在目标所在区域包括:
针对每个尺度对应的各个层的多尺度特征图,基于各个区域进行区域推荐网络算法处理,获得潜在目标的各个候选区域,具体执行:对当前层的所述多尺度特征图进行滑动窗口预测,判断各个区域是否可能存在目标,若是,则获得潜在目标的候选区域,并得到所述候选区域相对于先验框的偏移以及置信度,否则,将所述区域剔除,其中,所述滑动窗口预测指使用预设长度的过滤器进行卷积操作;
将所述各个候选区域进行整合,并利用非极大值抑制算法对重叠部分处理得到多个潜在目标所在区域。
8.根据权利要求1所述的一种基于多门控混合专家模型的目标检测方法,其特征在于,根据区域池化模型对所述潜在目标所在区域进行处理得到目标特征图以及潜在目标边框包括:利用双线性插值算法对所述潜在目标所在区域池化得到固定尺寸的目标特征图。
9.根据权利要求1所述的一种基于多门控混合专家模型的目标检测方法,其特征在于,所述专家模型之间的各个任务共享,所述门控网络之间的各个任务不共享。
10.一种基于多门控混合专家模型的目标检测装置,其特征在于,包括:
获取模块,获取待检测图像,对所述图像通过深度卷积神经模型提取多个预设尺度的深度特征图;
通过特征金字塔模型对每个深度特征图处理得到多尺度特征图;
利用区域推荐模型处理每个多尺度特征图,得到多个潜在目标所在区域;
根据区域池化模型对所述潜在目标所在区域进行处理得到目标特征图以及潜在目标边框;
第一处理模块,对所述目标特征图分别利用专家模型进行处理,输出与所述目标特征图对应的目标分类子任务结果和确定边框回归参数子任务结果;所述专家模型的数量包括多个,每个专家模型分别输出其目标分类子任务结果和确定边框回归参数子任务结果;
第二处理模块,对所述目标特征图分别利用门控网络进行处理,所述门控网络的数量为多个,每个门控网络分别输出与目标分类子任务对应的每个专家模型的自适应权重值、以及与确定边框回归参数子任务对应的每个专家模型的自适应权重值;
确定模块,根据所述自适应权重值、每个专家模型分别输出的目标分类子任务结果和每个专家模型分别输出的确定边框回归参数子任务结果,通过全连接神经网络处理确定目标的类别和边框。
11.根据权利要求10所述的一种基于多门控混合专家模型的目标检测装置,其特征在于,所述潜在目标所在的区域包括多个区域,获取每个区域的目标特征图以及潜在的目标边框。
12.根据权利要求10所述的一种基于多门控混合专家模型的目标检测装置,其特征在于,所述门控网络的数量与子任务的数量一一对应。
13.根据权利要求10所述的一种基于多门控混合专家模型的目标检测装置,其特征在于,所述确定模块用于:
每个专家模型得到的目标分类子任务结果乘以与该子任务对应的每个专家模型的自适应权重值得到权重调节后的目标分类子任务结果,根据所述权重调节后的目标分类子任务结果输入至全连接神经网络确定所述潜在目标的类别;
每个专家模型得到的边框回归参数子任务结果乘以与该子任务之对应的每个专家模型的自适应权重值得到权重调节后的边框回归参数子任务结果,根据所述权重调节后的边框回归参数子任务结果输入至全连接神经网络确定所述潜在目标边框的位移参数。
14.根据权利要求10所述的一种基于多门控混合专家模型的目标检测装置,其特征在于,所述门控网络包括:
通过多层感知机识别专家模型处理所述目标特征图的擅长程度,对专家模型进行分类,其中,所述专家模型处理所述目标特征图的擅长程度是各个专家模型分别对所述目标特征图基于损失函数进行向前反馈和向后反馈学习,并且各个专家模型的参数互不共享得到不同的学习结果;
利用softmax算法对所述分类的结果赋予权重。
15.根据权利要求10所述的一种基于多门控混合专家模型的目标检测装置,其特征在于,所述获取模块用于:
对第一层的深度图像特征进行初始化并上采样,获得第一层的多尺度特征图;
对其余的各层执行操作:获取当前层的深度特征图,对所述当前层的上一层的多尺度特征图进行上采样,并将所述深度特征图与上采样后的多尺度特征图进行融合,得到当前层的多尺度特征图,其中,所述融合是通过通道拼接和卷积操作完成。
16.根据权利要求10所述的一种基于多门控混合专家模型的目标检测装置,其特征在于,所述获取模块用于:
针对每个尺度对应的各个层的多尺度特征图,基于各个区域进行区域推荐网络算法处理,获得潜在目标的各个候选区域,具体执行:对当前层的所述多尺度特征图进行滑动窗口预测,判断各个区域是否可能存在目标,若是,则获得潜在目标的候选区域,并得到所述候选区域相对于先验框的偏移以及置信度,否则,将所述区域剔除,其中,所述滑动窗口预测指使用预设长度的过滤器进行卷积操作;
将所述各个候选区域进行整合,并利用非极大值抑制算法对重叠部分处理得到多个潜在目标所在区域。
17.根据权利要求10所述的一种基于多门控混合专家模型的目标检测装置,其特征在于,所述获取模块用于:利用双线性插值算法对所述潜在目标所在区域池化得到固定尺寸的目标特征图。
18.根据权利要求10所述的一种基于多门控混合专家模型的目标检测装置,其特征在于,所述专家模型之间的各个任务共享,所述门控网络之间的各个任务不共享。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210082814.9A CN114120045B (zh) | 2022-01-25 | 2022-01-25 | 一种基于多门控混合专家模型的目标检测方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210082814.9A CN114120045B (zh) | 2022-01-25 | 2022-01-25 | 一种基于多门控混合专家模型的目标检测方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114120045A CN114120045A (zh) | 2022-03-01 |
CN114120045B true CN114120045B (zh) | 2022-05-31 |
Family
ID=80360844
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210082814.9A Active CN114120045B (zh) | 2022-01-25 | 2022-01-25 | 一种基于多门控混合专家模型的目标检测方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114120045B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115409217B (zh) * | 2022-11-01 | 2023-09-26 | 之江实验室 | 一种基于多专家混合网络的多任务预测性维护方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018213841A1 (en) * | 2017-05-19 | 2018-11-22 | Google Llc | Multi-task multi-modal machine learning model |
CN111242122A (zh) * | 2020-01-07 | 2020-06-05 | 浙江大学 | 一种轻量级深度神经网络旋转目标检测方法和系统 |
CN111753683A (zh) * | 2020-06-11 | 2020-10-09 | 南京师范大学 | 一种基于多专家卷积神经网络的人体姿态识别方法 |
CN111783523A (zh) * | 2020-05-19 | 2020-10-16 | 中国人民解放军93114部队 | 一种遥感影像旋转目标检测方法 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019222759A1 (en) * | 2018-05-18 | 2019-11-21 | Synaptics Incorporated | Recurrent multimodal attention system based on expert gated networks |
CN109978051A (zh) * | 2019-03-25 | 2019-07-05 | 北京理工大学 | 基于混合神经网络的监督分类方法 |
CN110706804B (zh) * | 2019-08-23 | 2024-02-02 | 刘雷 | 一种混合专家系统在肺腺癌分类中给的应用方法 |
CN111161277B (zh) * | 2019-12-12 | 2023-04-18 | 中山大学 | 一种基于深度学习的自然图像抠图方法 |
CN111898670B (zh) * | 2020-07-24 | 2024-04-05 | 深圳市声希科技有限公司 | 多模态情感识别方法、装置、设备及存储介质 |
CN111652202B (zh) * | 2020-08-10 | 2020-12-01 | 浙江大学 | 利用自适应的时空图模型通过提升视频-语言表征学习来解决视频问答问题的方法及其系统 |
CN112560999B (zh) * | 2021-02-18 | 2021-06-04 | 成都睿沿科技有限公司 | 一种目标检测模型训练方法、装置、电子设备及存储介质 |
CN112927246A (zh) * | 2021-03-01 | 2021-06-08 | 北京小白世纪网络科技有限公司 | 肺部轮廓分割、肿瘤免疫浸润分类系统及方法 |
CN112949731A (zh) * | 2021-03-11 | 2021-06-11 | 江苏禹空间科技有限公司 | 基于多专家模型的目标检测方法、装置、存储介质及设备 |
CN113065045B (zh) * | 2021-04-20 | 2022-07-22 | 支付宝(杭州)信息技术有限公司 | 对用户进行人群划分、训练多任务模型的方法和装置 |
-
2022
- 2022-01-25 CN CN202210082814.9A patent/CN114120045B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018213841A1 (en) * | 2017-05-19 | 2018-11-22 | Google Llc | Multi-task multi-modal machine learning model |
CN111242122A (zh) * | 2020-01-07 | 2020-06-05 | 浙江大学 | 一种轻量级深度神经网络旋转目标检测方法和系统 |
CN111783523A (zh) * | 2020-05-19 | 2020-10-16 | 中国人民解放军93114部队 | 一种遥感影像旋转目标检测方法 |
CN111753683A (zh) * | 2020-06-11 | 2020-10-09 | 南京师范大学 | 一种基于多专家卷积神经网络的人体姿态识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114120045A (zh) | 2022-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109614985B (zh) | 一种基于密集连接特征金字塔网络的目标检测方法 | |
CN107229904B (zh) | 一种基于深度学习的目标检测与识别方法 | |
CN111666836B (zh) | M-f-y型轻量化卷积神经网络的高分辨率遥感影像目标检测方法 | |
JP6855098B2 (ja) | 顔検出トレーニング方法、装置及び電子機器 | |
CN110335290B (zh) | 基于注意力机制的孪生候选区域生成网络目标跟踪方法 | |
CN108596053B (zh) | 一种基于ssd和车辆姿态分类的车辆检测方法和系统 | |
EP3289529B1 (en) | Reducing image resolution in deep convolutional networks | |
US20220215227A1 (en) | Neural Architecture Search Method, Image Processing Method And Apparatus, And Storage Medium | |
CN111291809B (zh) | 一种处理装置、方法及存储介质 | |
CN111507378A (zh) | 训练图像处理模型的方法和装置 | |
CN111583263A (zh) | 一种基于联合动态图卷积的点云分割方法 | |
CN108764244B (zh) | 基于卷积神经网络和条件随机场的潜在目标区域检测方法 | |
WO2021218517A1 (zh) | 获取神经网络模型的方法、图像处理方法及装置 | |
JP2018165948A (ja) | 画像認識装置、画像認識方法、コンピュータプログラム、及び製品監視システム | |
CN114972213A (zh) | 一种基于机器视觉的两阶段主板图像缺陷检测及定位方法 | |
WO2021218470A1 (zh) | 一种神经网络优化方法以及装置 | |
CN112116001A (zh) | 图像识别方法、装置及计算机可读存储介质 | |
CN111507222A (zh) | 一种基于多源数据知识迁移的三维物体检测框架 | |
US20220156508A1 (en) | Method For Automatically Designing Efficient Hardware-Aware Neural Networks For Visual Recognition Using Knowledge Distillation | |
TWI831016B (zh) | 機器學習方法、機器學習系統以及非暫態電腦可讀取媒體 | |
CN113807399A (zh) | 一种神经网络训练方法、检测方法以及装置 | |
CN114359245A (zh) | 一种工业场景下产品表面缺陷检测方法 | |
CN111414875A (zh) | 基于深度回归森林的三维点云头部姿态估计系统 | |
CN111145145A (zh) | 一种基于MobileNets的图像表面缺陷检测方法 | |
CN114359631A (zh) | 基于编码-译码弱监督网络模型的目标分类与定位方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: A Target Detection Method and Device Based on Multi gated Hybrid Expert Model Effective date of registration: 20221028 Granted publication date: 20220531 Pledgee: Beijing Zhongguancun bank Limited by Share Ltd. Pledgor: KITTEN&PUPPY Co.,Ltd. Registration number: Y2022990000754 |