CN111914831A

CN111914831A - 目标检测方法、装置及存储介质

Info

Publication number: CN111914831A
Application number: CN201910388846.XA
Authority: CN
Inventors: 屠震元; 徐超
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2019-05-10
Filing date: 2019-05-10
Publication date: 2020-11-10
Anticipated expiration: 2039-05-10
Also published as: CN111914831B

Abstract

本申请公开了一种目标检测方法、装置及存储介质，属于深度学习技术领域。本申请实施例可以首先从每个第一特征图的多个proposal框的概率值中确定至少一个概率值，之后，再根据确定的至少一个概率值对应的proposal框的尺寸参数确定相应第一特征图中至少一个proposal框的位置，进而根据确定的至少一个proposal框的位置来确定待检测图像中的检测目标。这样，由于先根据proposal框的概率值对Proposal框的尺寸数据进行了筛选，缩减了数据量，因此，后续根据筛选出来的数据确定对应的proposal框的位置即可，减小了计算量，缩短了运算时间，有利于提高检测的实时性。

Description

目标检测方法、装置及存储介质

技术领域

本申请涉及深度学习技术领域，特别涉及一种目标检测方法、装置及计算机可读存储介质。

背景技术

在监控场景下，经常需要通过目标检测网络模型对高分辨率的图像进行目标检测。例如，可以通过FRCNN(Faster Region based Convolutional Neural Network，基于区域的快速卷积神经网络)模型对图像中包括的车辆、车牌等目标进行检测。

相关技术中，当通过目标检测网络模型对图像进行目标检测时，可以首先提取待检测图像的图像特征，得到多个特征图。之后，对每个特征图进行处理，得到每个特征图中的多个Proposal框，确定每个特征图中的多个Proposal框在相应特征图中的位置。之后，根据确定的多个Proposal框的位置确定感兴趣区域，进而通过对感兴趣区域进行处理来确定每个感兴趣区域是否为检测目标。

然而，由于对每个特征图进行处理后得到的Proposal框数量巨大，因此，后续确定每个特征图中的多个Proposal框的位置时计算量较大，耗时较长，严重影响目标检测网络模型的检测实时性。

发明内容

本申请实施例提供了一种目标检测方法、装置及计算机可读存储介质。所述技术方案如下：

一方面，提供了一种目标检测方法，所述方法包括：

通过目标检测网络模型对多个第一特征图进行处理，得到每个第一特征图的多个建议proposal框的尺寸参数和概率值，所述多个第一特征图是对待检测图像进行特征提取得到；

从每个第一特征图的多个proposal框的概率值中获取至少一个概率值，得到每个第一特征图对应的至少一个概率值，所述每个第一特征图对应的至少一个概率值均大于相应第一特征图的多个proposal框的概率值中的剩余概率值；

根据每个第一特征图对应的至少一个概率值所对应的proposal框的尺寸参数确定相应第一特征图中的至少一个proposal框的位置；

根据每个第一特征图中的至少一个proposal框的位置，确定所述待检测图像中的检测目标。

可选地，所述从每个第一特征图的多个proposal框的概率值中获取至少一个概率值，得到每个第一特征图对应的至少一个概率值，包括：

通过快速排序法或堆排序法或二分排序法，从每个第一特征图的多个proposal框的概率值中获取至少一个概率值，得到每个第一特征图对应的至少一个概率值。

可选地，所述通过快速排序法或堆排序法或二分排序法，从每个第一特征图的多个proposal框的概率值中获取至少一个概率值，得到每个第一特征图对应的至少一个概率值，包括：

通过所述快速排序法或堆排序法或二分排序法，从每个第一特征图的多个proposal框的概率值中获取后M个概率值；

确定获取的M个概率值中大于参考概率值的概率值，并将确定的概率值作为相应第一特征图对应的至少一个概率值。

可选地，所述根据每个第一特征图中的至少一个proposal框的位置，确定所述待检测图像中的检测目标，包括：

根据每个第一特征图中的至少一个proposal框的位置和所述多个第一特征图，提取每个proposal框所对应的感兴趣区域的特征数据；

对提取的多个感兴趣区域的特征数据进行处理，得到所述待检测图像中的检测目标。

可选地，所述目标检测网络模型包括分类层，所述分类层包括第一全连接层、第二全连接层、全局平均池化层和softmax层；

所述对提取的多个感兴趣区域的特征数据进行处理，得到所述待检测图像中的检测目标，包括：

通过所述第一全连接层和所述第二全连接层对提取的多个感兴趣区域的特征数据进行处理，得到多个第二特征图；

通过所述全局平均池化层对所述多个第二特征图中的每个第二特征图进行处理，得到特征向量；

通过所述softmax层对所述特征向量进行处理，得到所述多个感兴趣区域的检测概率，将所述多个感兴趣区域中检测概率大于参考检测概率的感兴趣区域确定为所述待检测图像中的检测目标。

可选地，所述目标检测网络模型包括分类层，所述分类层第一全连接层、第二全连接层、第三全连接层和softmax层；

获取所述第三全连接层的权重矩阵的转置矩阵，所述第三全连接层的权重矩阵的转置矩阵是在向所述目标检测网络模型输入所述待检测图像之前对所述第三全连接层的权重矩阵进行预处理得到的；

通过所述第三全连接层，调用cuBLAS库对所述权重矩阵的转置矩阵和所述多个第二特征图中每个特征图对应的特征矩阵进行处理，得到特征向量，所述权重矩阵的转置矩阵和每个特征图对应的特征矩阵的运算类型均为第一类型，所述第一类型用于指示不对所述权重矩阵的转置矩阵和每个特征矩阵进行转置；

另一方面，提供了一种目标检测装置，所述装置包括：

处理模块，用于通过目标检测网络模型对多个第一特征图进行处理，得到每个第一特征图的多个建议proposal框的尺寸参数和概率值，所述多个第一特征图是对待检测图像进行特征提取得到；

获取模块，用于从每个第一特征图的多个proposal框的概率值中获取至少一个概率值，得到每个第一特征图对应的至少一个概率值，所述每个第一特征图对应的至少一个概率值均大于相应第一特征图的多个proposal框的概率值中的剩余概率值；

第一确定模块，用于根据每个第一特征图对应的至少一个概率值所对应的proposal框的尺寸参数确定相应第一特征图中的至少一个proposal框的位置；

第二确定模块，用于根据每个第一特征图中的至少一个proposal框的位置，确定所述待检测图像中的检测目标。

可选地，所述获取模块包括：

获取子模块，用于通过快速排序法或堆排序法或二分排序法，从每个第一特征图的多个proposal框的概率值中获取至少一个概率值，得到每个第一特征图对应的至少一个概率值。

可选地，所述获取子模块具体用于：

可选地，所述第二确定模块，包括：

提取子模块，用于根据每个第一特征图中的至少一个proposal框的位置和所述多个第一特征图，提取每个proposal框所对应的感兴趣区域的特征数据；

处理子模块，用于对提取的多个感兴趣区域的特征数据进行处理，得到所述待检测图像中的检测目标。

所述处理子模块具体用于：

另一方面，提供了一种目标检测装置，所述装置包括处理器、通信接口、存储器和通信总线；

其中，所述处理器、所述通信接口和所述存储器通过所述通信总线完成相互间的通信；

所述存储器用于存放计算机程序；

所述处理器用于执行所述存储器上所存放的程序，以实现前述提供的目标检测方法的步骤。

另一方面，提供了一种计算机可读存储介质，所述存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现前述提供的目标检测方法的步骤。

本申请实施例提供的技术方案带来的有益效果至少包括：在对多个第一特征图进行处理，得到每个第一特征图的多个proposal框的尺寸参数和概率值之后，可以首先从每个第一特征图的多个proposal框的概率值中确定至少一个概率值，之后，再根据确定的至少一个概率值对应的proposal框的尺寸参数确定相应第一特征图中至少一个proposal框的位置，进而根据确定的至少一个proposal框的位置来确定待检测图像中的检测目标。这样，由于先根据proposal框的概率值对Proposal框的尺寸数据进行了筛选，缩减了数据量，因此，后续根据筛选出来的数据确定对应的proposal框的位置即可，减小了计算量，缩短了运算时间，有利于提高检测的实时性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的目标检测方法的实施环境图；

图2是本发明实施例提供的目标检测方法的流程图；

图3是本发明实施例提供的目标检测装置的结构示意图；

图4是本发明实施例提供的用于进行目标检测的终端的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

在对本申请实施例进行详细的解释说明之前，先对本申请实施例涉及的应用场景予以介绍。

当前，在智能交通、安保等领域中，经常需要对拍摄到的高分辨率的图像或视频画面进行目标检测。例如，在智能交通领域中，通常会在卡口、停车场以及道路等诸多场景中设置监控设备进行图像采集。在采集到图像之后，可以对图像中包含的车辆或者是车辆的车牌等目标进行检测识别，以便后续根据检测结果进行进一步地处理。再例如，在安保领域中，可以在住宅区内设置监控设备，以进行图像采集。在采集到图像之后，可以对图像中的人或者物体等目标进行检测识别，以便进行追踪。本申请实施例提供的目标检测方法即可以应用于上述场景中，对监控设备采集的待检测图像中的目标进行检测识别。

图1是本申请实施例提供的一种目标检测方法的实施环境图。如图1所示，该实施环境中可以包括监控设备101和终端102。

其中，监控设备101与终端102建立有通信连接，通过该通信连接，监控设备101可以将采集到的图像或视频发送至终端102。终端102在接收到监控设备发送的图像或视频时，可以对图像或视频画面中的目标进行检测，并输出最终的检测结果。其中，检测目标可以是图像或视频画面中的车辆、车辆的车牌或者是其他目标，本申请实施例在此不对检测目标进行限定。

需要说明的是，监控设备101可以为CCD(Charge Coupled Device，电荷耦合器件)摄像机，也可以为其他可以进行图像采集并可以与终端102进行通信的摄像头。终端102可以为台式计算机、便携式电脑、网络服务器等计算机设备。

接下来对本申请实施例提供的目标检测方法进行介绍。

图2是本申请实施例提供的一种目标检测方法的流程图。该目标检测方法可以应用于图1所示的实施环境中的终端中，参见图2，该方法包括：

步骤201：通过目标检测网络模型对多个第一特征图进行处理，得到每个第一特征图的多个建议proposal框的尺寸参数和概率值，多个第一特征图是对待检测图像进行特征提取得到。

在本申请实施例中，终端可以接收监控设备发送的待检测图像。当终端接收到待检测图像之后，可以将该待检测图像归一化至指定尺寸，然后再将该指定尺寸的待检测图像输入至目标检测网络模型中。例如，该指定尺寸可以为180*60，当然，也可以为其他尺寸，本发明实施例在此不做具体限定。

其中，目标检测网络模型可以为FRCNN模型、RCNN模型等可以用于进行目标检测的神经网络模型。且该目标检测网络模型可以包括共用卷积层、RPN(Region ProposalNetwork，区域生成网络)层和分类层。在将待检测图像输入至该目标检测网络模型之后，可以通过共用卷积层，对待检测图像中的图像特征进行提取，从而得到多个第一特征图。

需要说明的是，该共用卷积层可以包括多个卷积层、多个Relu(rectified linearunit，线性修正单元)层和多个池化层。例如，以VGG16模型作为共用卷积层，则该共用卷积层可以包括13个卷积层、13个Relu层和4个池化层。当然，该共用卷积层包括的卷积层的数量、Relu层的数量以及池化层的数量也可以根据业务需要进行设计，本申请实施例对此不做限定。

在对待检测图像进行特征提取，得到多个第一特征图之后，可以将该多个第一特征图作为RPN层的输入。对于该多个第一特征图中的每个第一特征图，通过RPN层对该第一特征图进行处理，从而得到该第一特征图中的多个前景Anchors以及每个前景Anchors的概率值。在本申请实施例中，将得到的多个前景Anchors称为多个proposal框。之后，根据每个前景Anchors的中心点坐标和尺寸，进行边框回归，从而得到每个proposal框的边框回归偏移量。将每个proposal框的中心点坐标、尺寸以及回归偏移量作为该proposal框的尺寸参数。

对于多个第一特征图中的每个第一特征图，终端均可以参照上述方法，通过目标网络检测模型中的RPN层对其进行处理，从而得到每个第一特征图中的多个proposal框的尺寸参数和概率值。

步骤202：从每个第一特征图的多个proposal框的概率值中获取至少一个概率值，得到每个第一特征图对应的至少一个概率值。

在确定每个第一特征图中的多个proposal框的尺寸参数和概率值之后，终端可以通过RPN层对每个第一特征图中的多个proposal框的尺寸参数和概率值继续进行处理。

接下来以多个第一特征图中的任一第一特征图为例来说明RPN层对该第一特征图中的多个proposal框的尺寸参数和概率值继续进行处理的过程。

终端首先可以通过RPN层，采用快速排序法或堆排序法或二分排序法对该第一特征图中的多个proposal框的概率值进行排序，从而从该多个proposal框的概率值中获取至少一个概率值。其中，该至少一个概率值大于多个proposal框的概率值中剩余的概率值。

需要说明的是，在一些可能的实现方式中，终端可以直接通过快速排序法或堆排序法或二分排序法按照从大到小的顺序从多个proposal框的概率值中获取排在前M个的概率值，并将获取到M个概率值作为至少一个概率值。其中，M可以是用户预先设置的大于1的正整数，例如，M可以为300、400或者其他数值，本申请对此不做限定。在该种实现方式中，由于采用快速排序法或堆排序法或二分排序法查找到大于其他概率值的M个的概率值后，即可以直接将这M个概率值作为该第一特征图的至少一个概率值，而对于除该M个概率值之外的其他概率值，则无需再继续进行排序。这样，相对于相关技术中将所有proposal框的概率值彼此进行比较排序，本申请实施例中的方法可以有效的减少排序的计算量。

值得注意的是，上述的快速排序法、堆排序法或二分排序法仅是本申请实施例给出的几种可行的实现方式，显然的，终端也可以采用其他无需对所有概率值进行全部排序即可得到大于其他概率值的M个概率值的排序方法来获取第一特征图对应的至少一个概率值。

可选地，在另一些可能的实现方式中，当终端采用前述介绍的方法获取到M个概率值之后，虽然获取到的M个概率值大于多个概率值中的剩余概率值，但是，这M个概率值中可能包含一些无法满足实际检测要求的概率值。例如，这M个概率值中可能会包含有0.5或者是低于0.5的概率值，这些概率值在检测中可能并不能予以采信。在这种情况下，在获取到M个概率值之后，终端还可以通过预先设置的参考概率值来对这M个概率值进行筛选，从而得到至少一个概率值。示例性地，终端可以从获取到的M个概率值中确定大于参考概率值的概率值，并将确定的概率值作为该第一特征图对应的至少一个概率值。这样，对于M个概率值中一些无法满足检测要求的概率值，通过该参考概率值可以筛除掉。这样，在后续根据获取到的至少一个概率值进行进一步的处理时，可以有效的减少计算量。

步骤203：根据每个第一特征图对应的至少一个概率值所对应的proposal框的尺寸参数确定相应第一特征图中的至少一个proposal框的位置。

在从每个第一特征图的多个proposal框的概率值中获取到至少一个概率值之后，终端可以通过该RPN层，从相应第一特征图的多个proposal框的尺寸参数中，获取该至少一个概率值所对应的proposal框的尺寸参数。之后，根据该至少一个概率值所对应的proposal框的尺寸参数，确定相应第一特征图中的至少一个proposal框的位置。

需要说明的是，根据前述介绍可知，proposal框的尺寸参数包括proposal框的中心点的坐标、框的长度和宽度以及边框偏移量，根据这些尺寸参数，即可以确定得到proposal框在相应特征图中的位置。

可选地，在本申请实施例中，在确定得到proposal框在相应特征图中的位置之后，终端还可以根据每个proposal框在相应特征图中的位置来判断每个proposal框是否超出了其所在的特征图的范围。若超出了其所在特征图的范围，则可以对该proposal框进行剪裁，从而保证该proposal框能够位于该特征图的范围之内。

值得注意的是，确定proposal框在相应特征图中的位置时，需要涉及到大量的浮点计算。而在本申请实施例中，由于预先通过步骤202，根据多个proposal框的概率值的大小，对多个proposal框进行了筛选，因此，在本步骤中，可以只确定筛选出来的proposal框在相应特征图中的位置即可，而不需要确定所有proposal框在相应特征图中的位置，减少了计算量，缩短了处理时间。

步骤204：根据每个第一特征图中的至少一个proposal框的位置，确定待检测图像中的检测目标。

在确定每个第一特征图中的至少一个proposal框的位置之后，RPN层可以输出每个第一特征图中的至少一个proposal框的位置以及概率值。之后，终端可以通过目标网络检测模型的分类层，根据每个第一特征图中的至少一个proposal框的位置和多个第一特征图，提取每个proposal框所对应的感兴趣区域的特征数据。

其中，分类层可以包括ROI(region of interest，感兴趣区域)池化层。将每个第一特征图中的至少一个proposal框的位置以及概率值作为该ROI池化层的输入，并且，将前述的共用卷积层输出的多个第一特征图也作为该ROI池化层的输入。之后，该ROI池化层可以根据输入的每个第一特征图中的至少一个proposal框的位置，从相应第一特征图中确定每个proposal框所围住的区域，其中，每个proposal框所围住的区域即为每个proposal框所对应的感兴趣区域。这样，对于多个第一特征图，ROI池化层可以确定得到多个感兴趣区域。之后，ROI层可以提取该多个感兴趣区域的特征数据并输出。

在得到多个感兴趣区域的特征数据之后，分类层可以对多个感兴趣区域的特征数据进行处理，进而得到待检测图像中的检测目标。

需要说明的是，在本申请实施例中，根据分类层中位于ROI池化层后的神经网络的类型的不同，本步骤可以有不同的实现方式。

当分类层中位于ROI池化层后的神经网络包括第一全连接层、第二全连接层、全局平均池化层和softmax层时，在ROI池化层输出多个感兴趣区域的特征数据之后，终端可以通过第一全连接层和第二全连接层对提取的多个感兴趣区域的特征数据进行处理，得到多个第二特征图；通过全局平均池化层对多个第二特征图中的每个第二特征图进行处理，得到特征向量；通过softmax层对特征向量进行处理，得到多个感兴趣区域的检测概率，将多个感兴趣区域中检测概率大于参考检测概率的感兴趣区域确定为待检测图像中的检测目标。

需要说明的是，第一全连接层和第二全连接层可以对提取到的多个感兴趣区域的特征数据进行处理，从而得到多个第二特征图。之后，将多个第二特征图作为全局平均池化层的输入，该全局平均池化层可以对每个第二特征图进行平均池化，从而得到每个第二特征图对应的一个特征值。将得到的多个特征值组成特征向量，并输出该特征向量至softmax层。

值得注意的是，相关技术中，第二全连接层后通常设置有第三全连接层，通过第三全连接层对第二全连接层输出的多个第二特征图进行处理，从而得到特征向量。然而，由于全连接层的参数量巨大，因此，通过第三全连接层对第二全连接层输出的多个第二特征图进行处理，计算量较大，处理速度较慢，且容易过拟合。而本申请实施例中，采用全局平均池化层来代替第三全连接层，由于全局平均池化层的是对每个特征图进行平均池化，因此，相对于通过第三全连接层对每个第二特征图进行处理，计算量减小，处理速度提高，且可以一定程度上减轻过拟合。

Softmax层在接收到全局平均池化层输出的特征向量之后，可以根据该特征向量进行分类，从而得到每个感兴趣区域的检测概率。将每个感兴趣区域的检测概率与参考检测概率进行比较，如果某个感兴趣区域的检测概率大于参考检测概率，则可以确定该感兴趣区域为该待检测图像中的检测目标，否则，则可以确定该感兴趣区域并非该待检测图像中的检测目标。其中，参考检测概率是预先设置的感兴趣区域的最低置信度。

可选地，当分类层中位于ROI池化层后的神经网络包括第一全连接层、第二全连接层、第三全连接层和softmax层时，在ROI池化层输出多个感兴趣区域的特征数据之后，终端可以通过第一全连接层和第二全连接层对提取的多个感兴趣区域的特征数据进行处理，得到多个第二特征图；获取第三全连接层的权重矩阵的转置矩阵，第三全连接层的权重矩阵的转置矩阵是在向目标检测网络模型输入待检测图像之前对第三全连接层的权重矩阵进行预处理得到的；通过第三全连接层，调用cuBLAS库对权重矩阵的转置矩阵和多个第二特征图中每个特征图对应的特征矩阵进行处理，得到特征向量，权重矩阵的转置矩阵和每个特征图对应的特征矩阵的运算类型均为第一类型，第一类型用于指示不对所述权重矩阵的转置矩阵和每个特征矩阵进行转置；通过softmax层对特征向量进行处理，得到多个感兴趣区域的检测概率，将多个感兴趣区域中检测概率大于参考检测概率的感兴趣区域确定为待检测图像中的检测目标。

在该种实现方式中，终端可以在对待检测图像进行检测之前，也即，在开始前向推理之前，即预先将显存中按行存储的权重矩阵转换为按列存储，从而实现权重矩阵的转置。这样，当将待检测图像输入该目标检测网络模型，通过第二全连接层输出多个第二特征图之后，终端可以根据每个第二特征图确定得到每个第二特征图对应的特征矩阵。之后，对于多个特征矩阵中的任一特征矩阵，终端可以通过第三全连接层调用cuBLAS库，首先传入权重矩阵的转置矩阵，之后，再传入特征矩阵。传入的权重矩阵的转置矩阵和特征矩阵的操作类型设置为不转置，这样，cuBLAS库根据传入的权重矩阵的转置矩阵和特征矩阵进行矩阵运算，从而得到特征向量。

需要说明的是，由于在cuBLAS库中默认矩阵是按列顺序存储的，而在正常使用(也即，不使用cuBLAS库)时，矩阵在显存中存储的方式则是按行存储，所以，当传入一个矩阵时，若设置操作类型为不转置，则cuBLAS库会读取到的将是传入的矩阵的转置矩阵，并根据读取的矩阵来进行运算。在本申请实施例中，在开始前向推理之前，终端可以预先将显存中按行存储的权重矩阵转换为按列存储。这样，在进行前向推理的过程中，当第三全连接层调用cuBLAS库时，首先传入权重矩阵的转置矩阵，之后传入特征矩阵。cuBLAS库按列读取权重矩阵的转置矩阵和特征矩阵，此时，读取到的矩阵将分别为权重矩阵的转置矩阵的转置矩阵以及特征矩阵的转置矩阵。由于在开始前向推理之前，已经预先对权重矩阵进行了转置，因此，在将权重矩阵的转置矩阵和特征矩阵依次传入cuBLAS库之后，cuBLAS库可以对读取到的矩阵进行运算，从而得到运算结果。之后，可以按行的顺序读取该运算结果，此时，读取的运算结果即为对特征矩阵和权重矩阵的矩阵运算结果。对于每个特征矩阵，均采用上述方法进行处理，从而得到每个特征矩阵和权重矩阵的矩阵运算结果，之后，根据每个特征矩阵和权重矩阵的矩阵运算结果，即可以确定得到特征向量。

接下来通过一个示例对上述过程进行解释说明。

假设特征矩阵A_2ⅹ3为一个行数为2，列数为3的矩阵，如式(1)所示，权重矩阵B_4ⅹ3为一个行数为4，列数为3的矩阵，如式(2)所示。

其中，正常使用时，矩阵在显存中是按行的顺序以一维形式进行存储的。也就是说，特征矩阵A_2ⅹ3在显存中存储时各个元素的排列为：(a₁₁,a₁₂,a₁₃,a₂₁,a₂₂,a₂₃)，同理，权重矩阵B_4ⅹ3在显存中存储时各个元素的排列顺序为：(b₁₁,b₁₂,b₁₃,b₂₁,b₂₂,b₂₃,b₃₁,b₃₂,b₃₃,b₄₁,b₄₂,b₄₃)。

基于此，在进行前向推理之前，预先将显存中按行存储的权重矩阵B转换为按列存储，此时，在显存中权重矩阵B_4ⅹ3的各个元素的排列顺序将变为(b₁₁,b₂₁,b₃₁,b₄₁,b₁₂,b₂₂,b₃₂,b₄₂,b₁₃,b₂₃,b₃₃,b₄₃)。也即，相当于将权重矩阵B_4ⅹ3进行了转置，得到了转置后的矩阵B_3ⅹ4。后续，在前向推理的过程中，当第三全连接层调用cuBLAS库，将矩阵B_3ⅹ4中的各个元素按照上述排列顺序以一维的形式传入。由于cuBLAS库是按列来读取矩阵的。因此，在读取B_3ⅹ4时，cuBLAS会从第一个元素开始，每读取4个元素，将读取到的4个元素作为矩阵的一列，从而形成一个三行四列的矩阵。也即，终端会将按一维形式输入的矩阵B_3ⅹ4中的(b₁₁,b₂₁,b₃₁,b₄₁)这三个元素作为第一列，将(b₁₂,b₂₂,b₃₂,b₄₂)这三个元素作为第二列，以此类推。如此，在对B_3ⅹ4的各个元素读取之后，形成的矩阵将是(B_3ⅹ4)^T。

在将转换后的权重矩阵传入cuBLAS库之后，可以将特征矩阵A_2ⅹ3传入cuBLAS库。cuBLAS库在读取特征矩阵A_2ⅹ3时，也是按照上述方法进行处理，从而读取到的矩阵为(A_2ⅹ3)^T。cuBLAS库可以在依次读取到两个传入的矩阵之后，计算(B_3ⅹ4)^T与(A_2ⅹ3)^T的乘积。由矩阵的乘法规则可知，M^TN^T＝(NM)^T＝C^T，由此可见，(B_3ⅹ4)^T与(A_2ⅹ3)^T的乘积就等于特征矩阵A_2ⅹ3与矩阵B_3ⅹ4的乘积的转置矩阵。基于此，在计算得到两个矩阵的乘积之后，由于cuBLAS库会按列对该乘积进行存储，这样，后续终端按行对该乘积进行读取，读取到的结果就是该乘积的转置矩阵，也即，读取到的结果即是特征矩阵A_2ⅹ3与矩阵B_3ⅹ4的乘积。

而在相关技术中，通常均是在前向推理的过程中对权重矩阵进行转置，之后，当通过cuBLAS库来实现第三全连接层的矩阵运算时，通常会在前向推理的过程中依次传入特征矩阵和权重矩阵的转置矩阵，并将传入的特征矩阵和权重矩阵的操作类型均设置为转置。这样，cuBLAS库根据上述设置读取两个矩阵进行矩阵乘法运算之后得到的将是A_2ⅹ3与矩阵B_3ⅹ4的乘积。由于cuBLAS库会将计算得到的乘积按照列存储的，因此，当终端按照行的顺序对齐进行读取之后，读取到的实际上是A_2ⅹ3与矩阵B_3ⅹ4的乘积的转置矩阵。在这种情况下，终端还需要再对读取到的矩阵进行一次转置，才能得到特征矩阵和权重矩阵的乘积。

由此可见，相关技术中的调用方法，需要在前向推理的过程中占用运算资源来实现权重矩阵的转置，并且，在读取到运算结果之后，还需要对运算结果再进行一次转置才能得到特征矩阵和权重矩阵的矩阵运算结果。而采用本申请实施例提供的方法调用cuBLAS库来处理特征矩阵与权重矩阵，以得到特征向量时，由于在开始前向推理之前，即完成了权重矩阵的转置操作，因此，在前向推理过程中，不需要再占用运算资源对权重矩阵进行转置，即可以直接进行矩阵运算。并且，由于cuBLAS库计算得到的矩阵乘积是最终要得到的矩阵运算结果的转置矩阵，因此，后续只需按行的顺序读取该运算结果，得到的即为特征矩阵与权重矩阵的矩阵运算结果，无需再对读取的运算结果进行再次转置，不仅减少了对运算资源的占用，而且可以缩短检测时间。相较于相关技术中的调用方法，不需要在目标检测的过程中进行矩阵的转置操作，避免了在目标检测过程中转置操作对运算资源的占用。

通过调用cuBLAS库实现第三全连接层的矩阵运算，得到特征向量之后，第三全连接层可以输出该特征向量至softmax层。之后，Softmax层对该特征向量进行处理，最终得到待检测图像中的检测目标的实现过程与前文介绍的相关实现方式相同，本申请实施例在此不再赘述。

在本申请实施例中，在对多个第一特征图进行处理，得到每个第一特征图的多个proposal框的尺寸参数和概率值之后，可以首先从每个第一特征图的多个proposal框的概率值中确定至少一个概率值，之后，再根据确定的至少一个概率值对应的proposal框的尺寸参数确定相应第一特征图中至少一个proposal框的位置，进而根据确定的至少一个proposal框的位置来确定待检测图像中的检测目标。这样，由于先根据proposal框的概率值对Proposal框的尺寸数据进行了筛选，缩减了数据量，因此，后续根据筛选出来的数据确定对应的proposal框的位置即可，减小了计算量，缩短了运算时间，有利于提高检测的实时性。

接下来对本申请实施例提供的目标检测装置进行介绍。

参见图3，本申请实施例提供了一种目标检测装置300，该装置300包括：

处理模块301，用于通过目标检测网络模型对多个第一特征图进行处理，得到每个第一特征图的多个建议proposal框的尺寸参数和概率值，多个第一特征图是对待检测图像进行特征提取得到；

获取模块302，用于从每个第一特征图的多个proposal框的概率值中获取至少一个概率值，得到每个第一特征图对应的至少一个概率值，每个第一特征图对应的至少一个概率值均大于相应第一特征图的多个proposal框的概率值中的剩余概率值；

第一确定模块303，用于根据每个第一特征图对应的至少一个概率值所对应的proposal框的尺寸参数确定相应第一特征图中的至少一个proposal框的位置；

第二确定模块304，用于根据每个第一特征图中的至少一个proposal框的位置，确定待检测图像中的检测目标。

可选地，获取模块302包括：

可选地，获取子模块具体用于：

通过快速排序法或堆排序法或二分排序法，从每个第一特征图的多个proposal框的概率值中获取后M个概率值；

可选地，第二确定模块304包括：

提取子模块，用于根据每个第一特征图中的至少一个proposal框的位置和多个第一特征图，提取每个proposal框所对应的感兴趣区域的特征数据；

处理子模块，用于对提取的多个感兴趣区域的特征数据进行处理，得到待检测图像中的检测目标。

可选地，目标检测网络模型包括分类层，分类层包括第一全连接层、第二全连接层、全局平均池化层和softmax层；

处理子模块具体用于：

通过第一全连接层和第二全连接层对提取的多个感兴趣区域的特征数据进行处理，得到多个第二特征图；

通过全局平均池化层对多个第二特征图中的每个第二特征图进行处理，得到特征向量；

通过softmax层对特征向量进行处理，得到多个感兴趣区域的检测概率，将多个感兴趣区域中检测概率大于参考检测概率的感兴趣区域确定为待检测图像中的检测目标。

可选地，目标检测网络模型包括分类层，分类层第一全连接层、第二全连接层、第三全连接层和softmax层；

处理子模块具体用于：

获取第三全连接层的权重矩阵的转置矩阵，第三全连接层的权重矩阵的转置矩阵是在向目标检测网络模型输入待检测图像之前对第三全连接层的权重矩阵进行预处理得到的；

通过第三全连接层，调用cuBLAS库对权重矩阵的转置矩阵和多个第二特征图中每个特征图对应的特征矩阵进行处理，得到特征向量，权重矩阵的转置矩阵和每个特征图对应的特征矩阵的运算类型均为第一类型，第一类型用于指示不对权重矩阵的转置矩阵和每个特征矩阵进行转置；

综上所述，本申请实施例在对多个第一特征图进行处理，得到每个第一特征图的多个proposal框的尺寸参数和概率值之后，可以首先从每个第一特征图的多个proposal框的概率值中确定至少一个概率值，之后，再根据确定的至少一个概率值对应的proposal框的尺寸参数确定相应第一特征图中至少一个proposal框的位置，进而根据确定的至少一个proposal框的位置来确定待检测图像中的检测目标。这样，由于先根据proposal框的概率值对Proposal框的尺寸数据进行了筛选，缩减了数据量，因此，后续根据筛选出来的数据确定对应的proposal框的位置即可，减小了计算量，缩短了运算时间，有利于提高检测的实时性。

需要说明的是：上述实施例提供的目标检测装置在在进行目标检测时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的目标检测装置与目标检测方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图4示出了本申请一个示例性实施例提供的评分设备400的结构框图。该评分设备400可以是：智能手机、平板电脑、笔记本电脑或台式电脑。评分设备400还可能被称为用户设备、便携式评分设备、膝上型评分设备、台式评分设备等其他名称。

通常，评分设备400包括有：处理器401和存储器402。

处理器401可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器401可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中至少一种硬件形式来实现。处理器401也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器401可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器401还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器402可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器402还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器402中非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器401所执行以实现本申请方法实施例提供的实验的评分方法。

在一些实施例中，评分设备400还可选包括有：外围设备接口403和至少一个外围设备。处理器401、存储器402和外围设备接口403之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口403相连。具体地，外围设备包括：射频电路404、触摸显示屏405、摄像头406、音频电路407、定位组件408和电源409中至少一种。

外围设备接口403可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器401和存储器402。在一些实施例中，处理器401、存储器402和外围设备接口403被集成在同一芯片或电路板上；在一些其他实施例中，处理器401、存储器402和外围设备接口403中任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路404用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路404通过电磁信号与通信网络以及其他通信设备进行通信。射频电路404将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路404包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路404可以通过至少一种无线通信协议来与其它评分设备进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路404还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏405用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏405是触摸显示屏时，显示屏405还具有采集在显示屏405的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器401进行处理。此时，显示屏405还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏405可以为一个，设置评分设备400的前面板；在另一些实施例中，显示屏405可以为至少两个，分别设置在评分设备400的不同表面或呈折叠设计；在再一些实施例中，显示屏405可以是柔性显示屏，设置在评分设备400的弯曲表面上或折叠面上。甚至，显示屏405还可以设置成非矩形的不规则图形，也即异形屏。显示屏405可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件406用于采集图像或视频。可选地，摄像头组件406包括前置摄像头和后置摄像头。通常，前置摄像头设置在评分设备的前面板，后置摄像头设置在评分设备的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件406还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路407可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器401进行处理，或者输入至射频电路404以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在评分设备400的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器401或射频电路404的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路407还可以包括耳机插孔。

定位组件408用于定位评分设备400的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件408可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。

电源409用于为评分设备400中各个组件进行供电。电源409可以是交流电、直流电、一次性电池或可充电电池。当电源409包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，评分设备400还包括有一个或多个传感器410。该一个或多个传感器410包括但不限于：加速度传感器411、陀螺仪传感器412、压力传感器413、指纹传感器414、光学传感器415以及接近传感器416。

加速度传感器411可以检测以评分设备400建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器411可以用于检测重力加速度在三个坐标轴上的分量。处理器401可以根据加速度传感器411采集的重力加速度信号，控制触摸显示屏405以横向视图或纵向视图进行用户界面的显示。加速度传感器411还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器412可以检测评分设备400的机体方向及转动角度，陀螺仪传感器412可以与加速度传感器411协同采集用户对评分设备400的3D动作。处理器401根据陀螺仪传感器412采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器413可以设置在评分设备400的侧边框和/或触摸显示屏405的下层。当压力传感器413设置在评分设备400的侧边框时，可以检测用户对评分设备400的握持信号，由处理器401根据压力传感器413采集的握持信号进行左右手识别或快捷操作。当压力传感器413设置在触摸显示屏405的下层时，由处理器401根据用户对触摸显示屏405的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中至少一种。

指纹传感器414用于采集用户的指纹，由处理器401根据指纹传感器414采集到的指纹识别用户的身份，或者，由指纹传感器414根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器401授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器414可以被设置评分设备400的正面、背面或侧面。当评分设备400上设置有物理按键或厂商Logo时，指纹传感器414可以与物理按键或厂商Logo集成在一起。

光学传感器415用于采集环境光强度。在一个实施例中，处理器401可以根据光学传感器415采集的环境光强度，控制触摸显示屏405的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏405的显示亮度；当环境光强度较低时，调低触摸显示屏405的显示亮度。在另一个实施例中，处理器401还可以根据光学传感器415采集的环境光强度，动态调整摄像头组件406的拍摄参数。

接近传感器416，也称距离传感器，通常设置在评分设备400的前面板。接近传感器416用于采集用户与评分设备400的正面之间的距离。在一个实施例中，当接近传感器416检测到用户与评分设备400的正面之间的距离逐渐变小时，由处理器401控制触摸显示屏405从亮屏状态切换为息屏状态；当接近传感器416检测到用户与评分设备400的正面之间的距离逐渐变大时，由处理器401控制触摸显示屏405从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图4中示出的结构并不构成对评分设备400的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在本申请的示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由上述评分设备中的处理器执行以完成上述实施例中的实验的评分方法。例如，所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种目标检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述从每个第一特征图的多个proposal框的概率值中获取至少一个概率值，得到每个第一特征图对应的至少一个概率值，包括：

3.根据权利要求2所述的方法，其特征在于，所述通过快速排序法或堆排序法或二分排序法，从每个第一特征图的多个proposal框的概率值中获取至少一个概率值，得到每个第一特征图对应的至少一个概率值，包括：

4.根据权利要求1-3任一所述的方法，其特征在于，所述根据每个第一特征图中的至少一个proposal框的位置，确定所述待检测图像中的检测目标，包括：

5.根据权利要求4所述的方法，其特征在于，所述目标检测网络模型包括分类层，所述分类层包括第一全连接层、第二全连接层、全局平均池化层和softmax层；

6.根据权利要求4所述的方法，其特征在于，所述目标检测网络模型包括分类层，所述分类层第一全连接层、第二全连接层、第三全连接层和softmax层；

7.一种目标检测装置，其特征在于，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，所述获取模块包括：

9.根据权利要求8所述的装置，其特征在于，所述获取子模块具体用于：

10.根据权利要求7-9任一所述的装置，其特征在于，所述第二确定模块，包括：

11.根据权利要求10所述的装置，其特征在于，所述目标检测网络模型包括分类层，所述分类层包括第一全连接层、第二全连接层、全局平均池化层和softmax层；

所述处理子模块具体用于：

12.根据权利要求10所述的装置，其特征在于，所述目标检测网络模型包括分类层，所述分类层第一全连接层、第二全连接层、第三全连接层和softmax层；

所述处理子模块具体用于：

13.一种目标检测装置，其特征在于，所述装置包括处理器、通信接口、存储器和通信总线；

所述存储器用于存放计算机程序；

所述处理器用于执行所述存储器上所存放的程序，以实现权利要求1-6任一所述方法的步骤。

14.一种计算机可读存储介质，其特征在于，所述存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-6任一所述方法的步骤。