CN112348057A

CN112348057A - 一种基于yolo网络的目标识别方法与装置

Info

Publication number: CN112348057A
Application number: CN202011128435.6A
Authority: CN
Inventors: 冯扬扬
Original assignee: Goertek Inc
Current assignee: Goertek Inc
Priority date: 2020-10-20
Filing date: 2020-10-20
Publication date: 2021-02-09

Abstract

本申请公开一种基于YOLO网络的目标识别方法与装置。本申请的方法包括：获取YOLO网络模型中一个残差块输出的原始特征图，根据原始特征图的像素信息对原始特征图的像素点进行空间特征融合，得到本残差块的新特征图，将新特征图输入至下一级残差块，构建出改进的YOLO网络；将目标的待处理图像输入至改进的YOLO网络进行目标识别，获得目标识别结果。本申请的装置包括：网络构建单元和目标识别单元。本申请的技术方案可以显著地提高识别准确率和鲁棒性。

Description

一种基于YOLO网络的目标识别方法与装置

技术领域

本申请涉及计算机技术领域，具体涉及一种基于YOLO网络的目标识别方法与装置。

背景技术

目标识别是人机交互等相关领域的一个重要研究方向。复杂背景下的目标识别，特别是复杂背景下对小目标的微小动作识别时，目标受外部环境影响较大，利用现有技术中基于人为特征设计、并通过分类器进行分类来达到目标识别的方案存在鲁棒性差、检测时间长的缺陷。

发明内容

本申请提供了一种基于YOLO网络的目标识别方法与装置，以提高目标识别的鲁棒性和准确性。

第一方面，本申请提供了一种基于YOLO网络的目标识别方法，包括：

获取YOLO网络模型中一个残差块输出的原始特征图，根据原始特征图的像素信息对原始特征图的像素点进行空间特征融合，得到本残差块的新特征图，将新特征图输入至下一级残差块，构建出改进的YOLO网络；

将目标的待处理图像输入至改进的YOLO网络进行目标识别，获得目标识别结果。

第二方面，本申请提供了一种基于YOLO网络的目标识别装置，该装置包括：

网络构建单元，用于获取YOLO网络模型中一个残差块输出的原始特征图，根据原始特征图的像素信息对原始特征图的像素点进行空间特征融合，得到本残差块的新特征图，将新特征图输入至下一级残差块，构建出改进的YOLO网络；

目标识别单元，用于将目标的待处理图像输入至改进的YOLO网络进行目标识别，获得目标识别结果。

第三方面，本申请提供了一种手势识别系统，包括：存储器、处理器和图像采集器；

图像采集器，采集手势图像；

存储器，存储计算机可执行指令；

处理器，根据计算机可执行指令执行基于YOLO网络的目标识别方法。

第四方面，本申请提供了一种计算机可读存储介质，计算机可读存储介质上存储有一个或多个计算机程序，一个或多个计算机程序被执行时实现基于YOLO网络的目标识别方法。

本申请的有益效果是：通过在原始特征图上引入像素点间的空间位置关系，对原始特征图进行改进，构建出改进的YOLO网络，这样改进的YOLO网络在对待处理图像进行特征学习时，能够使学习过程中得到的新特征图上的每个像素点处的像素值都融合其他像素点处的空间信息，实现像素点的空间特征融合，从而可以建立丰富的视觉上下文依赖关系，并基于新特征图上像素点的空间特征融合来聚焦目标所在区域、增强对目标的特征表达能力，使改进的YOLO网络基于该新特征图进行目标检测时，可以显著地提高识别准确率和鲁棒性。

附图说明

图1是本申请一个实施例示出的基于YOLO网络的目标识别方法的流程图；

图2是本申请一个实施例示出的改进的YOLO网络框架图；

图3是本申请一个实施例示出的一种计算模块的结构示意图；

图4是本申请一个实施例示出的另一种计算模块的结构示意；

图5是本申请一个实施例示出的改进的残差结构的示意图；

图6是本申请一个实施例示出的基于YOLO网络的目标识别装置的结构框图；

图7是本申请一个实施例的手势识别系统的结构框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

在目标识别过程中，一般是通过对目标所在区域进行特征提取，基于特征进行目标学习，此过程不可避免的会受背景影响，如果目标比较小，目标区域更易混有背景信息，如果是在复杂背景下对小目标进行识别，则识别准确度非常的差。

在目标识别过程中，我们只关注目标所在区域，通过目标所在区域定位感兴趣信息，抑制无用的背景信息，虽然传统的YOLO网络模型(例如YOLOV3网络模型)可以通过组合不同尺度的特征图(feature map)来捕捉不同比例的目标，但无法确定哪块区域是需要特别关心的，从而影响目标得特征表达。

针对上述问题，本申请为提高对目标的特征表达的准确性，对YOLO网络模型进行改进，在获取的不同尺度特征图上加入任意两个像素位置之间的空间依赖关系，消除由于卷积操作导致的类内不一致性，聚焦目标所在区域，增强对目标的特征表达能力。

图1是本申请一个实施例示出的基于YOLO网络的目标识别方法的流程图，如图1所示，本申请的目标识别方法包括以下步骤：

步骤S110，获取YOLO网络模型中一个残差块输出的原始特征图，根据原始特征图的像素信息对原始特征图的像素点进行空间特征融合，得到本残差块的新特征图，将新特征图输入至下一级残差块，构建出改进的YOLO网络。

这里的YOLO网络模型优选为第3版本，即YOLOV3网络模型，YOLOV3网络模型以YOLOV1网络模型与YOLOV2网络模型为基础，相较于V1与V2，YOLOV3网络模型调整了网络结构，采用了三个不同尺度的特征图来进行目标检测，即采用感受野尺度比较大的特征图检测尺寸比较大的目标，采用感受野尺度中等的特征图检测中等尺寸目标，采用感受野尺度比较小的特征图检测尺寸比较小的目标。

如图2所示，一个实施例中的YOLO网络模型包括卷积层和五个残差块组成，其中残差块是由CBL结构和残差结构(即图2中的res结构)组成，五个残差块中的残差结构包括res1至res5，其中CBL结构包括Conv(卷积层)、BN(batch normalization层，批标准化层)和以ReLU(Rectified Linear Unit，线性整流函数)作为激活函数的激活层。

本步骤中获取YOLO网络模型中一个残差块输出的原始特征图，可以理解为：获取一个残差块中CBL结构输出的原始特征图，对原始特征图的像素点进行空间特征融合后得到新特征图，将新特征图输入至本残差块的残差结构后再输入至下一级残差块；或者，获取一个残差块中残差结构输出的原始特征图，对原始特征图的像素点进行空间特征融合后得到新特征图，将新特征图输入至下一级残差块。

这里对原始特征图的像素点进行空间特征融合后得到新特征图的过程可以由计算模块实现，由此可以在残差块的CBL结构后接入该计算模块或在残差块的残差结构res后接入该计算模块，实现对YOLO网络模型的改进，得到改进的YOLO网络。

其中，所得到的新特征图中，每个像素点处融合了原始特征图上任意两个像素点之间的空间依赖关系，该空间依赖关系聚焦了目标所在的区域，增强对目标的特征表征能力。YOLO网络基于该新特征图进行目标检测，可以显著地提高识别准确率和鲁棒性。

步骤S120，将目标的待处理图像输入至改进的YOLO网络进行目标识别，获得目标识别结果。

这里可以利用图像采集设备采集目标的图像，例如用RGB相机采集用户手部、脸部等目标的图像，将采集到的图像输入至改进的YOLO网络进行目标识别。

传统YOLO网络模型是对从经过残差块之后的特征图进行检测，没有考虑目标与周围背景的空间相关性(即空间位置相关性)。因此，本实施例通过在原始特征图上引入像素点间的空间位置关系，对原始特征图进行改进，构建出改进的YOLO网络，这样改进的YOLO网络在对待处理图像进行特征学习时，能够使学习过程中得到的新特征图上的每个像素点处的像素值都融合其他像素点处的空间信息，实现像素点的空间特征融合，从而可以建立丰富的视觉上下文依赖关系，并基于新特征图上像素点的空间特征融合来聚焦目标所在区域、增强对目标的特征表达能力，使改进的YOLO网络基于该新特征图进行目标检测时，可以显著地提高识别准确率和鲁棒性。

在一些实施例中，在执行步骤S110之前，即在获取YOLO网络模型中一个残差块输出的原始特征图之前，本实施例的目标识别方法还包括：

从YOLO网络模型中的多个残差块中选择符合预设条件的残差块，对符合预设条件的残差块输出的原始特征图进行像素点的空间特征融合。

这里符合预设条件的残差块可以是用于目标检测的残差块、用于特征提取的残差块中的一个或多个残差块。

参考图2，图2中的YOLOV3网络中包括五个残差块，第一个残差块(CBL+改进的res1)、第二个残差块(CBL+改进的res2)均是用于特征提取，第三个残差块(CBL+改进的res3)、第四个残差块(CBL+改进的res4)和第五个残差块(CBL+改进的res5)均是用于目标检测，图2示例性示出了在用于目标检测的第三个残差块、第四个残差块和第五个残差块中分别引入一个用于空间特征融合的计算模块。由于本实施例中的残差块包括CBL结构和残差结构res，本实施例的计算模块可以接入到CBL结构之后，也可以接入到残差结构res之后。

在一些实施例中，可以通过下述方法得到新特征图：

1、根据原始特征图的像素信息计算原始特征图上任意像素点之间的像素值相关性。

图像的一种表现形式为矩阵，本实施例中改进的YOLO网络的输入图像为三维矩阵，第一维度表示为输入图像的图像通道数，第二维度与第三维度表示输入图像的空间尺寸。这里为计算原始特征图上任意像素点之间的像素值相关性，可以借助于原始特征图的三维矩阵进行计算。

一个实施例中，先将原始特征图进行卷积处理，得到第一输出量，第一输出量表示原始特征图的全局特征。参考图2，以对第四个残差块的CBL结构输出的特征图作为原始特征图为例，将原始特征图经过卷积核为3×3，步长为1的卷积，得到图3中的特征图A_C×H×W，其中，特征图A_C×H×W为第一输出量，C为通道数，H、W分别为原始特征图的高和宽。

接着根据第一输出量得到矩阵维度小于原始特征图对应矩阵维度的若干参考矩阵，利用至少部分参考矩阵计算原始特征图上任意像素点之间的像素值相关性对应的相关性矩阵，根据相关性矩阵计算出与第一输出量对应的空间响应矩阵，利用第一输出量与空间响应矩阵得到第二输出量，第二输出量表示原始特征图中关于目标对象所在区域的局部特征。

在计算第二输出量时，可以对第一输出量进行卷积处理，得到三个中间矩阵，并对三个中间矩阵进行降维处理，得到三个参考矩阵；在三个参考矩阵，选取两个矩阵分别作为第一个参考矩阵和第二个参考矩阵，剩下的一个矩阵作为第三个参考矩阵。

将第一个参考矩阵进行矩阵转置处理后与第二个参考矩阵进行矩阵乘法计算，得到相关性矩阵，对相关性矩阵进行归一化处理后，得到空间响应矩阵；将第三个参考矩阵与空间响应矩阵进行矩阵乘法计算后，对所得到的矩阵进行升维处理，得到与第一输出量维度相同的第二输出量。

如图3所示，将第一输出量矩阵A_C×H×W分别通过3个卷积核为3×3，步长为1的卷积得到3个相同大小的特征图，对应为三个中间矩阵B_C×H×W，C_C×H×W，D_C×H×W。将中间矩阵B_C×H×W通过Reshape操作将三维矩阵转换为C×N的二维参考矩阵，其中N＝H×W，然后通过Transpose操作将该二维参考矩阵转置为N×C的二维转置矩阵，此N×C的二维转置矩阵中每列保留了各个通道关于整个输入图像的不同的局部空间特征，而二维参考矩阵中的每行保留了各个通道关于整个输入图像的不同的局部空间特征。

这样，将一个C×N的二维参考矩阵与N×C的二维转置矩阵进行矩阵乘法，得到N×N的二维矩阵，此N×N的二维矩阵每个位置点像素融合其他所有像素点的相关位置信息，由于与目标的像素点越相近的背景像素点，像素值越相近，相关性越大，也就是与目标越相关，此时即计算出了原始特征图上任意像素点之间的像素值相关性，因此将该N×N的二维矩阵称为相关性矩阵。

2、在计算出原始特征图上任意像素点之间的像素值相关性之后，可以根据所述像素值相关性得到原始特征图对应的空间响应特征图。

在得到原始特征图上任意像素点之间的像素值的相关性后，为了聚焦目标所在的区域，可以通过图3所示，将N×N的二维矩阵经过Softmax激活函数进行归一化激活处理，得到空间响应特征图(也即空间响应矩阵S_N×N，空间响应矩阵反映了空间响应特征图中的各种信息)，空间响应特征图中体现出了原始特征图上任意两个像素点处的空间依赖关系，依赖性越强表明像素点距离越近，反之，依赖性越弱表明像素点距离越远，这样原始特征图上与目标像素点距离越近的像素点，两者的像素值越相关，空间依赖关系越强，由此，可以通过空间响应特征图增强对目标特征的表达。

3、在得到空间响应矩阵之后，利用空间响应特征图对原始特征图的像素点进行空间特征融合，得到新特征图。

继续参考图3，由于空间响应矩阵是无量纲的单纯数字化的矩阵，为了与图像关联起来，本实施例需要利用空间响应矩阵S_N×N与参考矩阵进行矩阵乘法，即将参考矩阵Reshape(D)_C×N与空间响应矩阵S_N×N进行矩阵乘法，并将乘法结果Reshape成与原始特征图维度相同的矩阵A’_C×H×W，该矩阵A’_C×H×W为能够表达目标所在区域的局部特征的第二输出量。

这样在计算出第二输出量之后，即可由第一输出量和第二输出量得到新特征图，即将第二输出量与第一输出量进行加权相加计算后，得到新特征图。

本申请实施例在此示出了前述步骤S110的一种具体实现方式。当然，应理解步骤S110也可以采用其它的方式实现，例如采用图4所示的方式计算新特征图。

具体是：对第一输出量按照原始特征图的图像通道数量进行拆分，得到多个拆分量，并根据每个拆分量得到矩阵维度小于原始特征图对应矩阵维度的若干参考矩阵，计算出与该拆分量对应的相关性矩阵和空间响应矩阵；参考图4，示例性地将第一输出量A_C×H×W拆分成两个拆分量，分别为E_C1×H×W与_C2×H×WF，C＝C1+C2。利用每个拆分量与该拆分量对应的空间响应矩阵计算出第二输出量，得到多个第二输出量，即分别计算出拆分量E对应的第二输出量和拆分量F对应的第二输出量。将多个第二输出量进行张量拼接，将拼接结果与第一输出量进行加权相加计算后，得到新特征图，即将拆分量E对应的第二输出量和拆分量F对应的第二输出量按照通道进行张量拼接，得到C×H×W大小的矩阵后与第一输出量A_C×H×W进行加权相加，得到新特征图对应的三维矩阵。

以计算拆分量E对应的第二输出量为例，将拆分量E分别通过3个卷积核为3×3，步长为1的卷积得到3个相同大小的中间矩阵B1_C1×H×W，C1_C1×H×W，D1_C1×H×W，将三个中间矩阵通过Reshape操作降维为C1×N的二维矩阵，得到3个参考矩阵，然后将第一个参考矩阵通过Transpose转置为N×C1的二维转置矩阵，将二维转置矩阵与第二个二维参考矩阵进行矩阵乘法计算，得到N×N矩阵，经过Softmax激活函数之后，得到拆分量E对应的空间响应矩阵S_N1×N1，接着将第三个二维参考矩阵与该空闲响应矩阵进行矩阵乘法计算，并将计算结果Reshape成与拆分量E维度相同的矩阵A1_C1×H×W，由此计算出了拆分量E对应的第二输出量，即矩阵A1_C1×H×W。

与计算拆分量E对应的第二输出量的步骤相同，可以计算出拆分量F对应的第二输出量A2_C2×H×W，进而将两个第二输出量进行张量拼接，将拼接结果与第一输出量A_C×H×W进行加权相加计算后，得到新特征图。

一般来说，神经网络越深越宽，网络性能就越好。但因为现实环境中人机交互的应用程序通常运行在小型设备上，而且推理时间不能长，在保证识别率的前提下，如何减少计算量则是本申请比较关心的另一个问题。

针对这一问题，本申请将YOLO网络模型中CBL结构的卷积层出来的路径划分为两个部分：一部分为原来的残差结构，即图5示出的路径一；另一部分为跨阶段层级结构，即图5示出的路径二，通过Concat操作将两部分拼接起来，并通过卷积操作，将两部分融合特征进行一个卷积变换。

即参考图5，获取YOLO网络模型中每个残差块中的初始残差结构，初始残差结构包括五个依次串联的卷积层，其中第一个卷积层501作为初始残差结构的输入与本残差块中的CBL结构相连，第二个卷积层502与第四个卷积层504叠加后与第五个卷积层505串联；在初始残差结构的第一个卷积层501后并联接入第六个卷积层506，第六个卷积层506还与第五个卷积层505张量拼接，张量拼接后接入第七个卷积层507，第七个卷积层507作为改进的残差结构的输出接入下一级残差块。

这样可以通过分开梯度流，让梯度流在不同的网络路径上传播，通过变换卷积层，可以获得具有相关性差异的梯度信息，通过合并，获得了更丰富的梯度融合信息。相较于传统的残差结构，可以获取更丰富的梯度融合信息，增强CNN的学习能力，极大地降低了计算量，提升了推理速度和准确率。

由此，本文本申请实施例基于提高目标特征准确表达及检测时间，对YOLO网络模型进行改进，在原始残差结构上加入跨阶段层级结构，缩短检测时间，并在获取的不同尺度特征图上进行像素点的空间特征融合，消除由于卷积操作导致的类内不一致性，聚焦目标所在的区域，增强对目标的特征表达能力，进而使得目标识别准确率得到了很大的提升。

与前述方法相对应，本申请还提供了一种基于YOLO网络的目标识别装置，图6是本申请一个实施例示出的基于YOLO网络的目标识别装置的结构框图，如图6所示，本实施例的装置600包括：

网络构建单元610，用于获取YOLO网络模型中一个残差块输出的原始特征图，根据原始特征图的像素信息对原始特征图的像素点进行空间特征融合，得到本残差块的新特征图，将新特征图输入至下一级残差块，构建出改进的YOLO网络；

目标识别单元620，用于将目标的待处理图像输入至改进的YOLO网络进行目标识别，获得目标识别结果。

在一些实施例中，图6的装置还包括计算模块，计算模块用于根据原始特征图的像素信息计算原始特征图上任意像素点之间的像素值相关性；根据所述像素值相关性得到原始特征图对应的空间响应特征图；利用所述空间响应特征图对原始特征图的像素点进行空间特征融合，得到所述新特征图。

相应的，网络构建单元610，用于从YOLO网络模型中的多个残差块中选择符合预设条件的残差块，在符合预设条件的每个残差块所包括的CBL结构后连接所述计算模块，将所述计算模块输出的新特征图输入到该残差块所包括的残差结构，将所述残差结构的输出输入至下一级残差块；或者，在符合预设条件的每个残差块所包括的残差结构后连接所述计算模块，将所述计算模块输出的新特征图输入至下一级残差块。

在一些实施例中，计算模块用于将原始特征图进行卷积处理，得到第一输出量；根据第一输出量得到矩阵维度小于原始特征图对应矩阵维度的若干参考矩阵，利用至少部分参考矩阵计算原始特征图上任意像素点之间的像素值相关性对应的相关性矩阵，根据相关性矩阵计算出与第一输出量对应的空间响应矩阵；利用第一输出量与空间响应矩阵得到第二输出量，由第一输出量和第二输出量得到新特征图。

相应的，计算模块还用于对第一输出量进行卷积处理，得到三个中间矩阵，并对三个中间矩阵进行降维处理，得到三个参考矩阵；将第一个参考矩阵进行矩阵转置处理后与第二个参考矩阵进行矩阵乘法计算，得到相关性矩阵，对相关性矩阵进行归一化处理后，得到空间响应矩阵；将第三个参考矩阵与空间响应矩阵进行矩阵乘法计算后，对所得到的矩阵进行升维处理，得到与第一输出量维度相同的第二输出量；将所述第二输出量与所述第一输出量进行加权相加计算后，得到新特征图。

在一些实施例中，计算模块还用于对第一输出量按照原始特征图的图像通道数量进行拆分，得到多个拆分量，并根据每个拆分量得到矩阵维度小于原始特征图对应矩阵维度的若干参考矩阵，计算出与该拆分量对应的相关性矩阵和空间响应矩阵；利用每个拆分量与该拆分量对应的空间响应矩阵计算出第二输出量，得到多个第二输出量；将所述多个第二输出量进行张量拼接，将拼接结果与所述第一输出量进行加权相加计算后，得到新特征图。

在一些实施例中，网络构建单元610，还用于获取YOLO网络模型中每个残差块中的初始残差结构，初始残差结构包括五个依次串联的卷积层，其中第一个卷积层作为初始残差结构的输入与本残差块中的CBL结构相连，第二个卷积层与第四个卷积层叠加后与第五个卷积层串联；在初始残差结构的第一个卷积层后并联接入第六个卷积层，第六个卷积层还与第五个卷积层张量拼接，张量拼接后接入第七个卷积层，第七个卷积层作为改进的残差结构的输出接入下一级残差块。

能够理解，上述基于YOLO网络的目标识别装置，能够实现前述实施例中提供的由处理器执行的基于YOLO网络的目标识别方法的各个步骤，关于基于YOLO网络的目标识别方法的相关阐释均适用于基于YOLO网络的目标识别装置，此处不再赘述。

图7是本申请一个实施例的手势识别系统的结构框图。请参考图7，在硬件层面，该手势识别系统包括图像采集器，图像采集器可以为RGB相机，采集手势图像。该收拾识别系统还包括处理器，可选地还包括内部总线、网络接口、存储器。其中，存储器可能包含内存，例如高速随机存取存储器(Random-Access Memory，RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少1个磁盘存储器等。当然，该手势识别系统还可能包括其他业务所需要的硬件。

处理器、网络接口和存储器可以通过内部总线相互连接，该内部总线可以是ISA(Industry Standard Architecture，工业标准体系结构)总线、PCI(PeripheralComponent Interconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

存储器，用于存放程序。具体地，程序可以包括程序代码，所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器，并向处理器提供指令和数据。

处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成基于YOLO网络的目标识别装置。处理器，执行存储器所存放的程序，并具体用于执行以下操作：

将目标的待处理图像输入至改进的YOLO网络进行目标识别，获得目标识别结果，其中通过获取YOLO网络模型中一个残差块输出的原始特征图，根据原始特征图的像素信息对原始特征图的像素点进行空间特征融合，得到本残差块的新特征图，将新特征图输入至下一级残差块，构建出改进的YOLO网络。

上述如本申请图6所示实施例揭示的基于YOLO网络的目标识别装置执行的方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器，包括中央处理器(CentralProcessing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific IntegratedCircuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

该手势识别系统还可执行图1中基于YOLO网络的目标识别方法，并实现基于YOLO网络的目标识别装置在图1所示实施例的功能，本申请实施例在此不再赘述。

本申请实施例还提出了一种计算机可读存储介质，该计算机可读存储介质存储一个或多个程序，该一个或多个程序包括指令，该指令当被包括多个应用程序的手势识别系统执行时，能够使该手势识别系统执行图1所示实施例的方法，并具体用于执行：

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于YOLO网络的目标识别方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，根据原始特征图的像素信息对原始特征图的像素点进行空间特征融合，得到本残差块的新特征图，包括：

根据原始特征图的像素信息计算原始特征图上任意像素点之间的像素值相关性；

根据所述像素值相关性得到原始特征图对应的空间响应特征图；

利用所述空间响应特征图对原始特征图的像素点进行空间特征融合，得到所述新特征图。

3.如权利要求2所述的方法，其特征在于，所述方法具体包括：

将原始特征图进行卷积处理，得到第一输出量；

根据第一输出量得到矩阵维度小于原始特征图对应矩阵维度的若干参考矩阵，利用至少部分参考矩阵计算原始特征图上任意像素点之间的像素值相关性对应的相关性矩阵，根据相关性矩阵计算出与第一输出量对应的空间响应矩阵；

利用第一输出量与空间响应矩阵得到第二输出量；

由第一输出量和第二输出量得到新特征图。

4.如权利要求3所述的方法，其特征在于，根据第一输出量得到矩阵维度小于原始特征图对应矩阵维度的若干参考矩阵，利用至少部分参考矩阵计算原始特征图上任意像素点之间的像素值相关性对应的相关性矩阵，根据相关性矩阵计算出与第一输出量对应的空间响应矩阵，包括：

对第一输出量进行卷积处理，得到三个中间矩阵，并对三个中间矩阵进行降维处理，得到三个参考矩阵；

将第一个参考矩阵进行矩阵转置处理后与第二个参考矩阵进行矩阵乘法计算，得到相关性矩阵，对相关性矩阵进行归一化处理后，得到空间响应矩阵；以及，

所述利用第一输出量与空间响应矩阵得到第二输出量包括：

将第三个参考矩阵与空间响应矩阵进行矩阵乘法计算后，对所得到的矩阵进行升维处理，得到与第一输出量维度相同的第二输出量。

5.如权利要求4所述的方法，其特征在于，由第一输出量和第二输出量得到新特征图，包括：

将所述第二输出量与所述第一输出量进行加权相加计算后，得到新特征图。

6.如权利要求4所述的方法，其特征在于，根据第一输出量得到矩阵维度小于原始特征图对应矩阵维度的若干参考矩阵之前，还包括：

对第一输出量按照原始特征图的图像通道数量进行拆分，得到多个拆分量；

根据每个拆分量得到矩阵维度小于原始特征图对应矩阵维度的若干参考矩阵，计算出与该拆分量对应的相关性矩阵和空间响应矩阵；

利用每个拆分量与该拆分量对应的空间响应矩阵计算出第二输出量，得到多个第二输出量。

7.如权利要求6所述的方法，其特征在于，由第一输出量和第二输出量得到新特征图，包括：

将所述多个第二输出量进行张量拼接，将拼接结果与所述第一输出量进行加权相加计算后，得到新特征图。

8.如权利要求1所述的方法，其特征在于，在获取YOLO网络模型中一个残差块输出的原始特征图之前，包括：

9.如权利要求1所述的方法，其特征在于，还包括：

获取YOLO网络模型中每个残差块中的初始残差结构，初始残差结构包括五个依次串联的卷积层，其中第一个卷积层作为初始残差结构的输入与本残差块中的CBL结构相连，第二个卷积层与第四个卷积层叠加后与第五个卷积层串联；

在初始残差结构的第一个卷积层后并联接入第六个卷积层，第六个卷积层还与第五个卷积层张量拼接，张量拼接后接入第七个卷积层，第七个卷积层作为改进的残差结构的输出接入下一级残差块。

10.一种基于YOLO网络的目标识别装置，其特征在于，包括：

11.如权利要求10所述的装置，其特征在于，还包括计算模块，用于根据原始特征图的像素信息计算原始特征图上任意像素点之间的像素值相关性；根据所述像素值相关性得到原始特征图对应的空间响应特征图；利用所述空间响应特征图对原始特征图的像素点进行空间特征融合，得到所述新特征图；

所述网络构建单元，用于从YOLO网络模型中的多个残差块中选择符合预设条件的残差块，在符合预设条件的每个残差块所包括的CBL结构后连接所述计算模块，将所述计算模块输出的新特征图输入到该残差块所包括的残差结构，将所述残差结构的输出输入至下一级残差块；或者，

在符合预设条件的每个残差块所包括的残差结构后连接所述计算模块，将所述计算模块输出的新特征图输入至下一级残差块。