CN113486879B

CN113486879B - 图像区域建议框检测方法、装置、设备及存储介质

Info

Publication number: CN113486879B
Application number: CN202110852078.6A
Authority: CN
Inventors: 陈欣; 戴磊; 刘玉宇
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-07-27
Filing date: 2021-07-27
Publication date: 2024-03-05
Anticipated expiration: 2041-07-27
Also published as: CN113486879A

Abstract

本发明涉及人工智能领域，公开了一种图像区域建议框检测方法、装置、设备及存储介质。该方法包括：通过原始卷积层提取目标图像的初始特征图；通过第一、第二、第三混合卷积层分别提取初始特征图对应的查询张量、近邻张量和价值张量；采用预置自注意力机制，融合查询张量和近邻张量，得到注意力图像，并对注意力图像和价值张量进行合并处理，得到新的特征图；计算新的特征图对应的二值化注意力图像，并将二值化注意力图像映射至目标图像，确定目标图像中目标对象的先验框；根据预置收缩率，对先验框进行边框回归处理，得到目标图像中目标对象的建议框。本发明融合了Anchorbase和Anchor free对建议框的检测，降低了建议框检测的误差。

Description

图像区域建议框检测方法、装置、设备及存储介质

技术领域

本发明涉及人工智能领域，尤其涉及一种图像区域建议框检测方法、装置、设备及存储介质。

背景技术

Anchor free(无锚目标检测方法)则更加灵活的通过置信度定位确定回归框的位置，好处是在原来锚点框的范围可以根据置信度的分数，出现一个或多个潜在框的可能，增加了回归框召回率，而且不受本身属性的(比如宽高比，大小)的限制。

但是Anchor free在遮挡情况下，遮挡周边的置信度呈现较高的情况，即使增加了召回率，在后续的NMS(Non-Maximum Suppression，非极大值抑制)中，也会存在干扰，特别是受到遮挡特征的干扰。Anchor free上直接在宽高上进行回归，颗粒度更大，误差也会更大。而Anchor base(锚定目标检测方法)在检测图像中的目标对象时，将目标对象限定在一个建议框里面，一个锚点限定在一个建议框，Anchor base的回归是建立在建议框的宽高的收缩率回归，其，颗粒度较大，误差也较小，但是存在召回率较低的技术问题，目前还没有尝试将两者进行融合的尝试。

发明内容

本发明的主要目的在于解决现有图像目标检测方法存在区域建议框边界检测精度低的技术问题。

本发明第一方面提供了一种图像区域建议框检测方法，包括：获取目标图像，并通过预置图像识别模型中的原始卷积层提取所述目标图像对应的初始特征图；通过所述图像识别模型中的第一混合卷积层提取所述初始特征图对应的查询张量，通过所述图像识别模型中的第二混合卷积层提取所述初始特征图对应的近邻张量，以及通过所述图像识别模型中的第三混合卷积层提取所述初始特征图对应的价值张量；采用预置自注意力机制，融合所述查询张量和所述近邻张量，得到注意力图像，并对所述注意力图像和所述价值张量进行合并处理，得到新的特征图；计算所述新的特征图对应的二值化注意力图像，并将所述二值化注意力图像映射至所述目标图像，确定所述目标图像中目标对象的先验框；根据预置收缩率，采用所述先验框在所述目标图像上进行边框回归处理，得到所述目标图像中目标对象的建议框。

可选的，在本发明第一方面的第一种实现方式中，所述通过所述图像识别模型中的第一混合卷积层提取所述初始特征图对应的查询张量包括：通过所述图像识别模型中的第一混合卷积层，提取所述初始特征图对应的多个状态特征和初始查询张量，并从所述多个状态特征中随机选取至少一个第一状态特征；初始化所述第一状态特征，并采用预置匹配策略，筛选与初始化的状态特征相匹配的优化动作；从所述多个状态特征中随机选取至少一个第二状态特征，并采用所述优化动作，对所述第二状态特征进行优化；根据所述第二状态特征的优化状态，计算所述下一个状态特征的优化回报，并根据所述优化回报对所述初始查询张量进行更新；直到对全部状态特征优化完成时，将最终更新的初始查询张量作为所述初始特征图对应的查询张量。

可选的，在本发明第一方面的第二种实现方式中，所述通过所述图像识别模型中的第二混合卷积层提取所述初始特征图对应的近邻张量包括：通过所述图像识别模型中的第二混合卷积层，计算所述初始特征图与已知类别的各个预置对照特征图的欧式距离；并根据所述欧式距离由大到小，选取预置数量的近邻特征图，并对各所述近邻特征图进行加权组合，得到所述初始特征图对应的近邻张量。

可选的，在本发明第一方面的第三种实现方式中，所述采用预置自注意力机制，融合所述查询张量和所述近邻张量，得到注意力图像包括：分解所述查询张量，得到所述初始特征图中的多个平面查询张量和各所述平面查询张量对应的多维向量值；采用预置聚合函数聚合各所述平面查询张量和各所述多维向量值，得到查询向量，并将所述查询向量映射为转换权值；计算所述转换权值和所述近邻张量的乘积，并根据计算结果生成所述初始特征图对应的注意力图像。

可选的，在本发明第一方面的第四种实现方式中，所述对所述注意力图像和所述价值张量进行合并处理，得到新的特征图包括：提取所述注意力图像中的系数，得到注意力系数矩阵；将所述注意力系数矩阵中的各系数与所述价值张量中的各向量进行点乘，得到新的特征图。

可选的，在本发明第一方面的第五种实现方式中，所述根据预置收缩率，采用所述先验框在所述目标图像上进行边框回归处理，得到所述目标图像中目标对象的建议框包括：按照预置比例对所述先验框进行缩放，得到多个等比例的先验框，并根据预置收缩率，对各个等比例的先验框的长宽进行缩放，得到多个面积尺寸的先验框；将所述目标图像分割成多个子图，并采用各个面积尺寸的先验框分别在各所述子图上进行窗口滑动，得到每个先验框对应的位置参数、置信度和至少一个类别概率；根据所述置信度和所述类别概率，调整所述先验框中对应子图的位置参数；根据所述位置参数，计算所述目标图像中目标对象的建议框。

本发明第二方面提供了一种图像区域建议框检测装置，包括：特征提取模块，用于获取目标图像，并通过预置图像识别模型中的原始卷积层提取所述目标图像对应的初始特征图；张量提取模块，用于通过所述图像识别模型中的第一混合卷积层提取所述初始特征图对应的查询张量，通过所述图像识别模型中的第二混合卷积层提取所述初始特征图对应的近邻张量，以及通过所述图像识别模型中的第三混合卷积层提取所述初始特征图对应的价值张量；合并模块，用于采用预置自注意力机制，融合所述查询张量和所述近邻张量，得到注意力图像，并对所述注意力图像和所述价值张量进行合并处理，得到新的特征图；映射模块，用于计算所述新的特征图对应的二值化注意力图像，并将所述二值化注意力图像映射至所述目标图像，确定所述目标图像中目标对象的先验框；回归模块，用于根据预置收缩率，采用所述先验框在所述目标图像上进行边框回归处理，得到所述目标图像中目标对象的建议框。

可选的，在本发明第二方面的第一种实现方式中，所述张量提取模块包括查询张量提取单元，用于：通过所述图像识别模型中的第一混合卷积层，提取所述初始特征图对应的多个状态特征和初始查询张量，并从所述多个状态特征中随机选取至少一个第一状态特征；初始化所述第一状态特征，并采用预置匹配策略，筛选与初始化的状态特征相匹配的优化动作；从所述多个状态特征中随机选取至少一个第二状态特征，并采用所述优化动作，对所述第二状态特征进行优化；根据所述第二状态特征的优化状态，计算所述下一个状态特征的优化回报，并根据所述优化回报对所述初始查询张量进行更新；

直到对全部状态特征优化完成时，将最终更新的初始查询张量作为所述初始特征图对应的查询张量。

可选的，在本发明第二方面的第二种实现方式中，所述张量提取模块还包括：近邻张量提取单元，用于通过所述图像识别模型中的第二混合卷积层，计算所述初始特征图与已知类别的各个预置对照特征图的欧式距离；并根据所述欧式距离由大到小，选取预置数量的近邻特征图，并对各所述近邻特征图进行加权组合，得到所述初始特征图对应的近邻张量；价值张量提取单元，用于通过所述图像识别模型中的第三混合卷积层提取所述初始特征图对应的价值张量。

可选的，在本发明第二方面的第三种实现方式中，所述合并模块包括融合单元，用于：分解所述查询张量，得到所述初始特征图中的多个平面查询张量和各所述平面查询张量对应的多维向量值；采用预置聚合函数聚合各所述平面查询张量和各所述多维向量值，得到查询向量，并将所述查询向量映射为转换权值；计算所述转换权值和所述近邻张量的乘积，并根据计算结果生成所述初始特征图对应的注意力图像。

可选的，在本发明第二方面的第四种实现方式中，所述合并模块还包括合并单元，用于：提取所述注意力图像中的系数，得到注意力系数矩阵；将所述注意力系数矩阵中的各系数与所述价值张量中的各向量进行点乘，得到新的特征图。

可选的，在本发明第二方面的第五种实现方式中，所述回归模块包括：缩放单元，用于按照预置比例对所述先验框进行缩放，得到多个等比例的先验框，并根据预置收缩率，对各个等比例的先验框的长宽进行缩放，得到多个面积尺寸的先验框；窗口滑动单元，用于将所述目标图像分割成多个子图，并采用各个面积尺寸的先验框分别在各所述子图上进行窗口滑动，得到每个先验框对应的位置参数、置信度和至少一个类别概率；调整单元，用于根据所述置信度和所述类别概率，调整所述先验框中对应子图的位置参数；计算单元，用于根据所述位置参数，计算所述目标图像中目标对象的建议框。

本发明第三方面提供了一种图像区域建议框检测设备，包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述图像区域建议框检测设备执行上述的图像区域建议框检测方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的图像区域建议框检测方法。

本发明提供的技术方案中，进行Anchor free时，在原图像识别模型提取完目标图像对应的初始特征图后，加入三个混合卷积层，分别提取原始特征图对应的查询张量、近邻张量和价值张量，然后通过注意力机制对三个张量进行融合和合并，即可得到新的特征图；接着通过将新的特征图进行二值化，并映射到目标图像中，即可确定目标图像的先验框；接着融合Anchor base的框回归，确定目标对象的建议框。通过三个混合卷积层和注意力机制将Anchor free的感受野扩展到图像全局，并通过最后的二值化特征图，降低框的回归粒度，最终得到的建议框精度误差较低，实现了Anchor base和Anchor free的融合。

附图说明

图1为本发明实施例中图像区域建议框检测方法的第一个实施例示意图；

图2为本发明实施例中图像区域建议框检测方法的第二个实施例示意图；

图3为本发明实施例中图像区域建议框检测方法的第三个实施例示意图；

图4为本发明实施例中图像区域建议框检测装置的一个实施例示意图；

图5为本发明实施例中图像区域建议框检测装置的另一个实施例示意图；

图6为本发明实施例中图像区域建议框检测设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种图像区域建议框检测方法、装置、设备及存储介质，通过原始卷积层提取目标图像的初始特征图；通过第一、第二、第三混合卷积层分别提取初始特征图对应的查询张量、近邻张量和价值张量；采用预置自注意力机制，融合查询张量和近邻张量，得到注意力图像，并对注意力图像和价值张量进行合并处理，得到新的特征图；计算新的特征图对应的二值化注意力图像，并将二值化注意力图像映射至目标图像，确定目标图像中目标对象的先验框；根据预置收缩率，对先验框进行边框回归处理，得到目标图像中目标对象的建议框。本发明融合了Anchor base和Anchor free对建议框的检测，降低了建议框检测的误差。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中图像区域建议框检测方法的第一个实施例包括：

101、获取目标图像，并通过预置图像识别模型中的原始卷积层提取目标图像对应的初始特征图；

可以理解的是，本发明的执行主体可以为图像区域建议框检测装置，还可以是终端或者服务器，具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

本实施中，此处目标图像指的是待识别区域建议框的图像，通过预置的图像识别模型检测到区域建议框后，还可以进一步用于图像检测，比如图像处理、图像复原、图像匹配、图像分类等。

目标图像分解为三个基础颜色红绿蓝的特征图像，经过k个卷积核之后，得到k个特征图，并通过k个特征图进一步提取目标图像的垂直特征图和水平特征图，得到包含两个通道的特征图，并合并成一个最终的初始特征图，比如目标图像分解得到6*6*3的特征图像，然后经两个不同的卷积核，则生成两个3*3*3的特征图，再从两个3*3*3的特征图中分别提取4*4的垂直特征图和水平特征图，即可得到4*4*2的初始特征图。

102、通过图像识别模型中的第一混合卷积层提取初始特征图对应的查询张量，通过图像识别模型中的第二混合卷积层提取初始特征图对应的近邻张量，以及通过图像识别模型中的第三混合卷积层提取初始特征图对应的价值张量；

本实施例中，在原始卷积层之后，图像识别模型中还包含三个混合卷积层，利用Self-Attention机制，通过三个混合卷积层分别提取初始特征图中的查询张量、近邻张量和价值张量，使得目标图像从全局感受野上进行特征叠加，避免原Anchor Free的局部感受野带来的边界噪音。

具体的，混合卷积层指的是包含多种不同卷积核尺寸的卷积层，通过大尺寸卷积核捕获高分辨率的图像特征模式，通过小尺寸卷积核捕获低分辨率但是精度和效率更高的图像特征模式。混合卷积层加入了多组卷积核，每组卷积核的尺寸大小，每组卷积核的通道数量，还可以包括空洞卷积。

具体的，通过第一混合卷积层进行Query Learning，得到原始特征图对应的查询张量，即Q-Tensor；通过第二混合卷积层进行Key Learning，得到原始特征图对应的近邻张量，K-Tensor；通过第三混合卷积层进行Value-based Reinforcement Learning，得到原始特征图的价值张量，即V-Tensor。

103、采用预置自注意力机制，融合查询张量和近邻张量，得到注意力图像，并对注意力图像和价值张量进行合并处理，得到新的特征图；

本实施例中，在Anchor Free中，利用Self-Attention机制，先初步对查询张量和近邻张量进行融合，形成Attention Map，即注意力图像，在通过注意力图像中的注意力参数与价值张量进行相乘，即可实现注意力图像和价值张量的合并，得到一个相对于原始特征图的新的特征图，实现Anchor Free利用Self-Attention机制的感受野全局叠加特征，突破感受野的局限性，减少边界噪音。

具体的，在进行查询张量和近邻张量的融合时，根据查询张量和近邻张量对应向量矩阵的系数，可以采用Softmax对两者系数进行融合，比如对于查询张量对应的向量矩阵A_ij、近邻张量对应的向量矩阵B_ij的融合，融合后注意力图像对应的向量矩阵C_ij＝A_ij*B_ij，其中，i、j分别为向量矩阵的行数和列数。

具体的，在对注意力图像和价值张量进行合并处理时，将Attention Map的最后一层SEBlock替换成Self-Attention算子，以用于得到改造后新的特征图。

104、计算新的特征图对应的二值化注意力图像，并将二值化注意力图像映射至目标图像，确定目标图像中目标对象的先验框；

本实施例中，根据新的特征图对应向量矩阵的系数，针对其系数进行二值化处理，实现注意力图像中各像素的单分类，是目标对象，或者非目标对象，通过0-1表达目标图像中目标对象与检测结果的相关性，确定目标对象的范围。

其中，二值化注意力图像中将预测为目标对象的像素标记为1，将预测为非目标对象的像素标记为0，每个像素标记都具有位置特征，初步确定目标对象的范围，以一个灰度分布直方图进行表示；接着将各像素标记的位置直接映射到目标图像中，即可模拟出目标对象的先验框。

105、根据预置收缩率，采用先验框在目标图像上进行边框回归处理，得到目标图像中目标对象的建议框。

本实施例中，前面采用的是基于Self-Attention的Anchor Free确定先验框的位置，后面融合Anchor based边框回归检测目标对象的建议框。针对不同尺寸的目标对象，采用不同的先验框尺寸得到的检测精度亦不同，此处可以通过预先设置先验框的收缩率，在不同尺寸的先验框上对目标对象进行边框回归处理，针对不同尺寸的目标对象，可以自适应选择最佳的先验框尺寸，确定最终目标对象的建议框。

进一步的，还可以按照不同的分割比例，先将目标目标图像分割成多个网格单元，比如13*13、26*26、52*52等，与先验框的尺寸等比对应，也是为了针对不同尺寸的目标对象的建议框检测进行分割。边框回归处理后，输出每个先验框的三类参数，包括先验框的位置参数、置信度和类别概率，位置参数包括中心二维坐标和先验框的长度和宽度，置信度和类别概率为[0,1]之间的值；另外，有多少个对象类别，即有多少个类别概率。

本发明实施例中，进行Anchor free时，在原图像识别模型提取完目标图像对应的初始特征图后，加入三个混合卷积层，分别提取原始特征图对应的查询张量、近邻张量和价值张量，然后通过注意力机制对三个张量进行融合和合并，即可得到新的特征图；接着通过将新的特征图进行二值化，并映射到目标图像中，即可确定目标图像的先验框；接着融合Anchor base的框回归，确定目标对象的建议框。通过三个混合卷积层和注意力机制将Anchor free的感受野扩展到图像全局，并通过最后的二值化特征图，降低框的回归粒度，最终得到的建议框精度误差较低，实现了Anchor base和Anchor free的融合。

请参阅图2，本发明实施例中图像区域建议框检测方法的第二个实施例包括：

201、获取目标图像，并通过预置图像识别模型中的原始卷积层提取目标图像对应的初始特征图；

202、通过图像识别模型中的第一混合卷积层，提取初始特征图对应的多个状态特征和初始查询张量，并从多个状态特征中随机选取至少一个第一状态特征；

203、初始化第一状态特征，并采用预置匹配策略，筛选与初始化的状态特征相匹配的优化动作；

204、从多个状态特征中随机选取至少一个第二状态特征，并采用优化动作，对第二状态特征进行优化；

205、根据第二状态特征的优化状态，计算下一个状态特征的优化回报，并根据优化回报对所述初始查询张量进行更新；

206、直到对全部状态特征优化完成时，将最终更新的初始查询张量作为初始特征图对应的查询张量；

本实施例中，Query Learning的混合卷积层中包含状态特征、优化动作、优化回报和查询张量四个处理对象，此处根据一个状态特征，通过预置匹配策略查询最适用于处理该状态特征的优化动作，然后根据优化动作与环境互动，观察下一个状态特征的变化，得到下一个状态特征即时的优化回报，以衡量该优化动作对整体环境的影响程度；并根据优化回报对原始的查询张量进行更新；以此循环，直到得到最终更新的查询张量。其中，查询张量表示在某一时刻的状态特征下，采取优化动作所能够获得收益的期望。

具体的，比如初始查询张量为Q(S₁，A₁)对于随机选取得到的第一个状态特征S₁；采用匹配策略ε-Greedy，筛选得到优化动作A₁并立刻执行；观察下一个状态特征S₂，并得到S₂即时的优化回报R₂；此时，即可通过R₂对Q(S₁，A₁)进行更新，得到Q(S₂，A₂)；继续采用匹配策略ε-Greedy筛选S₂的优化动作A₂，得到S₃的优化回报R₃，更新得到Q(S₃，A₃)；以此类推，直到得到Q(S_n，A_n)，并将Q(S_n，A_n)作为初始特征图对应的查询张量，其中，n为状态特征的数量。

进一步的，在对查询张量进行更新时，可以采用以下公式：Q(S_k,A_k)←(1-α)Q(S_k,A_k)+α[R_k+γmaxQ(S_k+1,A_k+1)]，其中，α为学习速率，γ为折扣因子，k∈n。

207、通过图像识别模型中的第二混合卷积层，计算初始特征图与已知类别的各个预置对照特征图的欧式距离；

208、根据欧式距离由大到小，选取预置数量的近邻特征图，并对各近邻特征图进行加权组合，得到初始特征图对应的近邻张量；

本实施例中，Key Learning的混合卷积层中包含多个已知类别的对照特征图，可以通过标注进行标记，包括目标图像中目标对象的类别和非目标图像。通过Key Learning学习目标图像二维的平面特征，通过欧式距离寻找与原始特征图相似的多个对照特征图，并根据对照特征图的距离大小进行加权，将选取得到的近邻特征图组合成二维张量，即二维的近邻张量。

具体的，对于初始特征图的特征向量x_i＝(x_i,1，x_i,2，……，x_i,M)^T和第z个对照特征图的特征向量x^z _j＝(x^z _j,1，x^z _j,2，……，x^z _j,M)^T，则分别计算x_i和各x^z _j的欧式距离，作为初始特征图和各对照特征图的欧氏距离L_z(x_i，x_j)。然后根据Key的数量，设置选取近邻特征图的数量，根据设置的数量选取欧式距离最小的一个或多个近邻特征图，以通过欧式距离确定与初始特征图最相思的对照特征图并作为近邻特征图。

其中，近邻特征图的数量设置可以根据图像识别模型训练时进行调整，当近邻特征图的数量较少时，模型训练较为复杂，使得模型容易过拟合，将初始特征图的类别判定为噪音类别；当近邻特征图的数量较多时，则模型较为简单，此时初始特征图的类别预测仅与对照特征图的类别数量相关，而与两者的相似度相关度较小，与初始特征图距离较远的对照特征图也会起预测作用，导致预测错误的情况。

另外，在计算初始特征图与对照特征图的欧式距离时，可以采用以下公式：其中，当p＝1时，可以采用以下公式：/>当p＝+∞时，/>

209、通过图像识别模型中的第三混合卷积层提取初始特征图对应的价值张量；

210、采用预置自注意力机制，融合查询张量和近邻张量，得到注意力图像，并对注意力图像和价值张量进行合并处理，得到新的特征图；

211、计算新的特征图对应的二值化注意力图像，并将二值化注意力图像映射至目标图像，确定目标图像中目标对象的先验框；

212、根据预置收缩率，采用先验框在目标图像上进行边框回归处理，得到目标图像中目标对象的建议框。

本发明实施例中借用了Self-Attention机制，将原始特征图加上三个混合卷积层，生成Query、Key、Value，对应计算得到查询张量、近邻张量和价值张量，并进一步仿照Attention Map机制，通过查询张量、近邻张量相乘生成注意力图像，再通过注意力图像里面的系数点乘价值张量生成新的特征图，以用于划定先验框的范围，即借助Self-Attention机制将anchor base的局部感受野扩展为全局感受野，降低先验框的遮挡噪音。

请参阅图3，本发明实施例中图像区域建议框检测方法的第三个实施例包括：

301、获取目标图像，并通过预置图像识别模型中的原始卷积层提取目标图像对应的初始特征图；

302、通过图像识别模型中的第一混合卷积层提取初始特征图对应的查询张量，通过图像识别模型中的第二混合卷积层提取初始特征图对应的近邻张量，以及通过图像识别模型中的第三混合卷积层提取初始特征图对应的价值张量；

303、分解查询张量，得到初始特征图中的多个平面查询张量和各平面查询张量对应的多维向量值；

304、采用预置聚合函数聚合各平面查询张量和各多维向量值，得到查询向量，并将查询向量映射为转换权值；

305、计算转换权值和近邻张量的乘积，并根据计算结果生成初始特征图对应的注意力图像；

本实施例中，查询张量以一个向量矩阵进行表示，包含多个平面查询张量和各个平面查询张量对应的多维向量值，通过Self-Attention机制将查询张量聚合到近邻张量中，再引入softmax生成初始特征图对应的注意力图像。

具体的，先对平面张量α(x_i，x_j)进行分解，得到查询张量x_i，多维向量值x_j，通过预置的聚合函数δ()对x_i和x_j进行聚合，得到查询向量δ(x_i，x_j)，并通过函数Υ将(x_i，x_j)映射为权值，即α(x_i，x_j)＝Υ(δ(x_i，x_j))，最后通过公式其中，R(i)为第i个查询张量的聚合空间，函数Υ实现了一个线性映射，其后接着一个线性或者非线性的映射函数。

306、提取注意力图像中的系数，得到注意力系数矩阵；

307、将注意力系数矩阵中的各系数与价值张量中的各向量进行点乘，得到新的特征图；

本实施例中，注意力图像中的系数通过一个二维矩阵进行表示，用于表征不同节点不同特征维度的向量特征。查询张量、近邻张量和价值张量对应的向量矩阵尺寸相同，在前面查询张量和近邻张量的融合过程中，得到的注意力图像对应的向量矩阵尺寸不发生改变，即注意力图像对应的向量矩阵尺寸也与价值张量对应的向量矩阵尺寸相同，故此处可直接对提取得到的注意力系数矩阵和价值张量对应的向量矩阵进行点乘，得到新的特征图，新的特征图对应的向量矩阵与前者注意力矩阵对应的向量矩阵尺寸也相同。

308、计算新的特征图对应的二值化注意力图像，并将二值化注意力图像映射至目标图像，确定目标图像中目标对象的先验框；

309、按照预置比例对先验框进行缩放，得到多个等比例的先验框，并根据预置收缩率，对各个等比例的先验框的长宽进行缩放，得到多个面积尺寸的先验框；

310、将目标图像分割成多个子图，并采用各个面积尺寸的先验框分别在各子图上进行窗口滑动，得到每个先验框对应的位置参数、置信度和至少一个类别概率；

311、根据置信度和类别概率，调整先验框中对应子图的位置参数；

312、根据位置参数，计算目标图像中目标对象的建议框。

本实施例中，通过采用加入了Self-Attention的Anchor Free确定可靠的先验框之后，采用Anchor Base的原理继续对目标图像进行区域建议框检测。根据先验框的尺寸进行等比缩放，比如先验框的原尺寸为52*52，将先验框的“长度：宽度”缩放为“1:1”、“1:1.5”、“1.5:1”，即可得到52*52、52*78、78*52三个尺寸，然后再根据预先设置的收缩率0.5、1、2，将三个尺寸的先验框分别进行缩放得到九个尺寸的先验框，即{26*26、26*39、39*26、52*52、52*78、78*52、104*104、104*156、156*104}。

然后将目标图像分割成多个像素级别的子图，并采用不同面积尺寸的先验框分别在各子图上进行滑动，以确定各先验框的位置参数、类别概率和置信度，其中，位置参数包括中心坐标(x，y)和尺寸(w，h)；最后根据各先验框的类别概率和置信度，调整先验框的位置参数，即中心坐标(x，y)和尺寸(w，h)，调整后的先验框的位置参数，映射到原来的目标图像中，即为目标图像的中目标对象的建议框。其中，一个类别概率对应一个检测类别。

另外，还可以根据不同的分割细粒度，对目标图像进行分割，得到不同尺寸的子图，尺寸越小，感受野越小，则适用于检测较小的目标对象，尺寸越大，感受野越大，则适用于检测较大的目标对象。

本发明实施例中，通过Attention Map机制确定先验框的范围，以一个二维矩阵表示，代表着在此类对象来看，强相关的位置数值越接近1，那么越能确定该对象的范围，通过映射原图，就可以模拟出一个先验框，保证该范围的回归细粒度足够小，最后在此基础上融合Anchor base的框回归方法，提升目标对象建议框的预测精度。

上面对本发明实施例中图像区域建议框检测方法进行了描述，下面对本发明实施例中图像区域建议框检测装置进行描述，请参阅图4，本发明实施例中图像区域建议框检测装置一个实施例包括：

特征提取模块401，用于获取目标图像，并通过预置图像识别模型中的原始卷积层提取所述目标图像对应的初始特征图；

张量提取模块402，用于通过所述图像识别模型中的第一混合卷积层提取所述初始特征图对应的查询张量，通过所述图像识别模型中的第二混合卷积层提取所述初始特征图对应的近邻张量，以及通过所述图像识别模型中的第三混合卷积层提取所述初始特征图对应的价值张量；

合并模块403，用于采用预置自注意力机制，融合所述查询张量和所述近邻张量，得到注意力图像，并对所述注意力图像和所述价值张量进行合并处理，得到新的特征图；

映射模块404，用于计算所述新的特征图对应的二值化注意力图像，并将所述二值化注意力图像映射至所述目标图像，确定所述目标图像中目标对象的先验框；

回归模块405，用于根据预置收缩率，采用所述先验框在所述目标图像上进行边框回归处理，得到所述目标图像中目标对象的建议框。

请参阅图5，本发明实施例中图像区域建议框检测装置的另一个实施例包括：

具体的，所述张量提取模块402包括查询张量提取单元4021，用于：

通过所述图像识别模型中的第一混合卷积层，提取所述初始特征图对应的多个状态特征和初始查询张量，并从所述多个状态特征中随机选取至少一个第一状态特征；

初始化所述第一状态特征，并采用预置匹配策略，筛选与初始化的状态特征相匹配的优化动作；

从所述多个状态特征中随机选取至少一个第二状态特征，并采用所述优化动作，对所述第二状态特征进行优化；

根据所述第二状态特征的优化状态，计算所述下一个状态特征的优化回报，并根据所述优化回报对所述初始查询张量进行更新；

具体的，所述张量提取模块402还包括：

近邻张量提取单元4022，用于通过所述图像识别模型中的第二混合卷积层，计算所述初始特征图与已知类别的各个预置对照特征图的欧式距离；并根据所述欧式距离由大到小，选取预置数量的近邻特征图，并对各所述近邻特征图进行加权组合，得到所述初始特征图对应的近邻张量；

价值张量提取单元4023，用于通过所述图像识别模型中的第三混合卷积层提取所述初始特征图对应的价值张量。

具体的，所述合并模块403包括融合单元4031，用于：

分解所述查询张量，得到所述初始特征图中的多个平面查询张量和各所述平面查询张量对应的多维向量值；

采用预置聚合函数聚合各所述平面查询张量和各所述多维向量值，得到查询向量，并将所述查询向量映射为转换权值；

计算所述转换权值和所述近邻张量的乘积，并根据计算结果生成所述初始特征图对应的注意力图像。

具体的，所述合并模块403还包括合并单元4032，用于：

提取所述注意力图像中的系数，得到注意力系数矩阵；

将所述注意力系数矩阵中的各系数与所述价值张量中的各向量进行点乘，得到新的特征图。

具体的，所述回归模块405包括：

缩放单元4051，用于按照预置比例对所述先验框进行缩放，得到多个等比例的先验框，并根据预置收缩率，对各个等比例的先验框的长宽进行缩放，得到多个面积尺寸的先验框；

窗口滑动单元4052，用于将所述目标图像分割成多个子图，并采用各个面积尺寸的先验框分别在各所述子图上进行窗口滑动，得到每个先验框对应的位置参数、置信度和至少一个类别概率；

调整单元4053，用于根据所述置信度和所述类别概率，调整所述先验框中对应子图的位置参数；

计算单元4054，用于根据所述位置参数，计算所述目标图像中目标对象的建议框。

本发明实施例中借用了Self-Attention机制，将原始特征图加上三个混合卷积层，生成Query、Key、Value，对应计算得到查询张量、近邻张量和价值张量，并进一步仿照Attention Map机制，通过查询张量、近邻张量相乘生成注意力图像，再通过注意力图像里面的系数点乘价值张量生成新的特征图，以用于划定先验框的范围，即借助Self-Attention机制将anchor base的局部感受野扩展为全局感受野，降低先验框的遮挡噪音；并进一步通过Attention Map机制确定先验框的范围，以一个二维矩阵表示，代表着在此类对象来看，强相关的位置数值越接近1，那么越能确定该对象的范围，通过映射原图，就可以模拟出一个先验框，保证该范围的回归细粒度足够小，最后在此基础上融合Anchor base的框回归方法，提升目标对象建议框的预测精度。

上面图4和图5从模块化功能实体的角度对本发明实施例中的图像区域建议框检测装置进行详细描述，下面从硬件处理的角度对本发明实施例中图像区域建议框检测设备进行详细描述。

图6是本发明实施例提供的一种图像区域建议框检测设备的结构示意图，该图像区域建议框检测设备600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)610(例如，一个或一个以上处理器)和存储器620，一个或一个以上存储应用程序633或数据632的存储介质630(例如一个或一个以上海量存储设备)。其中，存储器620和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对图像区域建议框检测设备600中的一系列指令操作。更进一步地，处理器610可以设置为与存储介质630通信，在图像区域建议框检测设备600上执行存储介质630中的一系列指令操作。

图像区域建议框检测设备600还可以包括一个或一个以上电源640，一个或一个以上有线或无线网络接口650，一个或一个以上输入输出接口660，和/或，一个或一个以上操作系统631，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图6示出的图像区域建议框检测设备结构并不构成对图像区域建议框检测设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种图像区域建议框检测设备，所述计算机设备包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行上述各实施例中的所述图像区域建议框检测方法的步骤。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述图像区域建议框检测方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种图像区域建议框检测方法，其特征在于，所述图像区域建议框检测方法包括：

获取目标图像，并通过预置图像识别模型中的原始卷积层提取所述目标图像对应的初始特征图；

通过所述图像识别模型中的第一混合卷积层提取所述初始特征图对应的查询张量，通过所述图像识别模型中的第二混合卷积层提取所述初始特征图对应的近邻张量，以及通过所述图像识别模型中的第三混合卷积层提取所述初始特征图对应的价值张量；

所述通过所述图像识别模型中的第一混合卷积层提取所述初始特征图对应的查询张量包括：

根据所述第二状态特征的优化状态，计算下一个状态特征的优化回报，并根据所述优化回报对所述初始查询张量进行更新；

直到对全部状态特征优化完成时，将最终更新的初始查询张量作为所述初始特征图对应的查询张量；

所述通过所述图像识别模型中的第二混合卷积层提取所述初始特征图对应的近邻张量包括：

通过所述图像识别模型中的第二混合卷积层，计算所述初始特征图与已知类别的各个预置对照特征图的欧式距离；

并根据所述欧式距离由大到小，选取预置数量的近邻特征图，并对各所述近邻特征图进行加权组合，得到所述初始特征图对应的近邻张量；

采用预置自注意力机制，融合所述查询张量和所述近邻张量，得到注意力图像，并对所述注意力图像和所述价值张量进行合并处理，得到新的特征图；

所述采用预置自注意力机制，融合所述查询张量和所述近邻张量，得到注意力图像包括：

计算所述转换权值和所述近邻张量的乘积，并根据计算结果生成所述初始特征图对应的注意力图像；

计算所述新的特征图对应的二值化注意力图像，并将所述二值化注意力图像映射至所述目标图像，确定所述目标图像中目标对象的先验框；

根据预置收缩率，采用所述先验框在所述目标图像上进行边框回归处理，得到所述目标图像中目标对象的建议框。

2.根据权利要求1所述的图像区域建议框检测方法，其特征在于，所述对所述注意力图像和所述价值张量进行合并处理，得到新的特征图包括：

提取所述注意力图像中的系数，得到注意力系数矩阵；

3.根据权利要求1或2所述的图像区域建议框检测方法，其特征在于，所述根据预置收缩率，采用所述先验框在所述目标图像上进行边框回归处理，得到所述目标图像中目标对象的建议框包括：

按照预置比例对所述先验框进行缩放，得到多个等比例的先验框，并根据预置收缩率，对各个等比例的先验框的长宽进行缩放，得到多个面积尺寸的先验框；

将所述目标图像分割成多个子图，并采用各个面积尺寸的先验框分别在各所述子图上进行窗口滑动，得到每个先验框对应的位置参数、置信度和至少一个类别概率；

根据所述置信度和所述类别概率，调整所述先验框中对应子图的位置参数；

根据所述位置参数，计算所述目标图像中目标对象的建议框。

4.一种图像区域建议框检测装置，其特征在于，所述图像区域建议框检测装置包括：

特征提取模块，用于获取目标图像，并通过预置图像识别模型中的原始卷积层提取所述目标图像对应的初始特征图；

张量提取模块，用于通过所述图像识别模型中的第一混合卷积层提取所述初始特征图对应的查询张量，通过所述图像识别模型中的第二混合卷积层提取所述初始特征图对应的近邻张量，以及通过所述图像识别模型中的第三混合卷积层提取所述初始特征图对应的价值张量；

合并模块，用于采用预置自注意力机制，融合所述查询张量和所述近邻张量，得到注意力图像，并对所述注意力图像和所述价值张量进行合并处理，得到新的特征图；

映射模块，用于计算所述新的特征图对应的二值化注意力图像，并将所述二值化注意力图像映射至所述目标图像，确定所述目标图像中目标对象的先验框；

回归模块，用于根据预置收缩率，采用所述先验框在所述目标图像上进行边框回归处理，得到所述目标图像中目标对象的建议框。

5.根据权利要求4所述的图像区域建议框检测装置，其特征在于，所述回归模块包括：

缩放单元，用于按照预置比例对所述先验框进行缩放，得到多个等比例的先验框，并根据预置收缩率，对各个等比例的先验框的长宽进行缩放，得到多个面积尺寸的先验框；

窗口滑动单元，用于将所述目标图像分割成多个子图，并采用各个面积尺寸的先验框分别在各所述子图上进行窗口滑动，得到每个先验框对应的位置参数、置信度和至少一个类别概率；

调整单元，用于根据所述置信度和所述类别概率，调整所述先验框中对应子图的位置参数；

计算单元，用于根据所述位置参数，计算所述目标图像中目标对象的建议框。

6.一种图像区域建议框检测设备，其特征在于，所述图像区域建议框检测设备包括：存储器和至少一个处理器，所述存储器中存储有指令；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述图像区域建议框检测设备执行如权利要求1-3中任意一项所述的图像区域建议框检测方法的步骤。

7.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1-3中任一项所述图像区域建议框检测方法的步骤。