CN108171233A

CN108171233A - 使用基于区域的深度学习模型的对象检测的方法和设备

Info

Publication number: CN108171233A
Application number: CN201711201443.7A
Authority: CN
Inventors: 阿尔温德·叶德拉; 李正元; 马赛尔·纳萨尔; 穆斯塔法·艾尔可哈米
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2016-12-07
Filing date: 2017-11-27
Publication date: 2018-06-15
Anticipated expiration: 2037-11-27
Also published as: US10380741B2; KR20180065856A; CN108171233B; KR102341459B1; US20180158189A1

Abstract

描述使用基于区域的深度学习模型的对象检测的方法和设备。一方面，提供一种方法，其中，区域建议网络(RPN)用于通过分配置信水平识别图像中的感兴趣区域(RoI)，分配的RoI的置信水平用于提高由下游分类器分配给RoI的背景分数，背景分数用于柔性最大值函数以计算每个对象类的最终类概率。

Description

使用基于区域的深度学习模型的对象检测的方法和设备

本申请要求于2016年12月7日提交到美国专利商标局的第62/431,086号美国临时专利申请的优先权以及于2017年4月4日提交到美国专利商标局的第15/478,947号美国非临时专利申请的优先权，所述美国专利申请的全部内容通过引用合并于此。

技术领域

本公开总体涉及机器学习，更具体地讲，涉及用于对象检测的深度学习机的系统和方法。

背景技术

机器学习技术正不断发展并且已经开始支持从网络搜索、内容过滤、商业网站上的自动推荐、自动博弈到对象检测、图像分类、语音识别、机器翻译以及药物发现和基因组学的现代社会的很多方面。机器学习的领域中的当前技术状态为深度神经网络，其使用由利用多级抽象来学习数据(通常，非常大量的数据)的表示的多个处理层组成的计算模型—因此，称为术语“深度学习”、“深层网络”等。参见，例如，LeCun,Yann,Yoshua Bengio和Geoffrey Hinton.“Deep learning.”Nature,vol.521,pp.436-444(28May 2015)，其通过引用全部合并于此。

深度学习方法对于一般的对象检测已经显示出优越的性能。然而，即使使用深度学习，特定对象和/或特定情况的检测也更加困难。具有很多现实应用(诸如，自主驾驶和高级驾驶辅助系统)的行人检测是经由深度学习的检测多少受到各种限制结果的一个领域。

发明内容

根据本公开的一方面，提供一种使用基于区域的深度学习模型的对象检测的方法，所述方法包括：使用区域建议网络(RPN)通过分配置信水平来识别图像中的感兴趣区域(RoI)；使用分配的RoI的置信水平来提高由下游分类器分配给每个RoI的背景分数；在柔性最大值函数中使用分数来计算每个对象类的最终类概率。

根据本公开的一方面，提供一种能够使用基于区域的深度学习模型进行对象检测的设备，所述设备包括一个或多个非暂时性计算机可读介质和至少一个处理器，其中，所述至少一个处理器在执行存储在所述一个或多个非暂时性计算机可读介质中的指令时，执行以下步骤：使用区域建议网络(RPN)通过分配置信水平来识别图像中的感兴趣区域(RoI)，使用分配的RoI的置信水平来提高由下游分类器分配给每个RoI的背景分数，在柔性最大值函数中使用分数来计算每个对象类的最终类概率。

根据本公开的一方面，提供一种方法，包括制造芯片组，其中，所述芯片组包括至少一个处理器和一个或多个非暂时性计算机可读介质，其中，所述至少一个处理器在执行存储在所述一个或多个非暂时性计算机可读介质中的指令时，执行以下步骤：使用区域建议网络(RPN)通过分配置信水平来识别图像中的感兴趣区域(RoI)；使用分配的RoI的置信水平来提高由下游分类器分配给每个RoI的背景分数；在柔性最大值函数中使用分数来计算每个对象类的最终类概率；所述一个或多个非暂时性计算机可读介质存储所述指令。

根据本公开的一方面，提供一种测设设备的方法，包括：测试设备是否具有至少一个处理器，其中，所述至少一个处理器在执行存储在一个或多个非暂时性计算机可读介质上的指令时，执行以下步骤：使用区域建议网络(RPN)通过分配置信水平来识别图像中的感兴趣区域(RoI)；使用分配的RoI的置信水平来提高由下游分类器分配给每个RoI的背景分数；在柔性最大值函数中使用分数来计算每个对象类的最终类概率；测试所述设备是否具有所述一个或多个非暂时性计算机可读介质，其中，所述一个或多个非暂时性计算机可读介质存储所述指令。

附图说明

通过结合附图的下面的详细描述，本公开的一些实施例的上面和其他方面、特征和优点将变得更清楚，其中：

图1是示出根据本公开的实施例的快速的基于区域的卷积神经网络(R-CNN：Region-based Convolutional Neural Network)的框图；

图2是示出根据本公开的实施例的基于区域的全卷积网络(R-FCN：Region-basedFully Convolutional Network)的框图；

图3是示出根据本公开的实施例的网络的构造的框图；

图4是根据本公开的实施例的方法的流程图；

图5是示出应用本公开的实施例的深度卷积神经网络的示例的框图；

图6示出根据一个实施例的用于制造和测试本设备的示例性流程图。

具体实施方式

在下文中，参照附图详细地描述本公开的实施例。应注意，虽然相同的元件在不同的附图中被示出，但是他们由相同的参考标记表示。在下面的描述中，仅提供诸如详细的配置和组件的具体细节以帮助全面理解本公开的实施例。因此，本领域的技术人员应清楚：在不脱离本公开的范围的情况下，可对在此描述的实施例进行各种改变和修改。此外，为了清楚和简明，省略对公知的功能和构造的描述。下面描述的术语是在考虑本公开中的功能的情况下定义的术语，并且可根据用户、用户的意愿或习惯而不同。因此，应根据贯穿说明书的内容来确定术语的定义。

本公开可具有各种修改和各种实施例，其中，下面参照附图详细描述各种修改和各种实施例中的实施例。然而，应理解，本公开不限于所述实施例，而是包括本公开的范围内的所有的修改、等同物和替代物。

虽然包括序数(诸如，第一和第二)的术语可用于描述各种元件，但是结构元件不受这些术语限制。这些术语仅用于区分一个元件与另一个元件。例如，在不脱离本公开的范围的情况下，第一结构元件可被称为第二结构元件。类似地，第二结构元件也可被称为第一结构元件。如在此使用的，术语“和/或”包括一个或多个相关联的项的任何和所有组合。

在此的术语仅用于描述本公开的各种实施例，而不是意图限制本公开。除非上下文清楚地另有指示，否则单数形式也意图包括复数形式。在本公开中，应理解，术语“包括”或“具有”表示存在特征、数量、步骤、操作、结构元件、部件或它们的组合，并且不排除存在一个或多个其他特征、数量、步骤、操作、结构元件、部件或它们的组合或者添加一个或多个其他特征、数量、步骤、操作、结构元件、部件或它们的组合的可能。

除非有不同的定义，否则在此使用的所有的术语具有与本公开所属领域的技术人员理解的含义相同的含义。除非在本公开中清楚地定义，否则术语(诸如，通用字典中定义的术语)将被解释为具有与相关技术领域中的语境含义相同的含义，而不被解释为具有理想化或过于正式的含义。

各种实施例可包括一个或多个元件。元件可包括被布置为执行特定操作的任意结构。虽然可通过示例的方式在特定布置下具有有限数量的元件来描述实施例，但是这种实施例可包括如给定实施方式所期望的可替换布置下的更多或更少的元件。值得注意的是，对“一个实施例”或“实施例”的任何引用表示针对该实施例描述的特定特征、结构或特性被包括在至少一个实施例中。在说明书的不同位置出现的短语“一个实施例”(或“实施例”)不一定表示同一实施例。

如上阐述的，虽然深度学习方法对于一般对象检测已经显示出优越的性能，但是他们在行人检测上的性能则受到限制。

快速的基于区域的卷积神经网络(R-CNN)已经是用于一般对象检测的实际框架。然而，这个框架遭受高的误检率(false positive rate)的影响，即，背景区域被检测为属于预定对象类别(前景)的集合的对象(如，人)。因此，快速的R-CNN具有关于行人检测的受限制的结果。

本公开的实施例通过使用区域建议网络(RPN)分数提高由快速R-CNN的下游分类器分配的图像区域(即，感兴趣区域(RoI))的背景分数(或置信水平)，来降低误检率。简单来说，如果RPN对RoI是背景高度确信，则用于背景类的下游分类器的置信度按比例提高，从而减少误检前景/对象。在此描述的技术是一般性的，并且还可用于不经由RPN训练的模型的推理估计。此外，其他信息资源(如语义分割掩码)也可用于在下游分类器中提高RoI的背景分数。

目前，快速的R-CNN框架(诸如，由以下文献描述的快速的R-CNN框架：Ren,S.,He,K.,Girshick,R.and Sun,J.Faster R-CNN:Towards real-time object detection withregion proposal networks,in Advances in neural information processingsystems,pp.91-99(2015)，其通过引用全部合并于此)成为最成功的一般对象检测技术之一。它是一种具有两阶段检测处理的全神经网络方法。

图1是示出应用本公开的实施例可根据的快速的R-CNN的框图。如图1所示，输入图像101由在本公开中被称为基本网络110的深度CNN处理，结果是特征图120。

第一阶段为基于滑动窗口的检测器，即，RPN 130。RPN 130用于预测对象性分数(objectness score)，其中，对象性分数衡量与输入图像中的每一个位置对应的锚点(anchor)的对象类(在前景中)vs背景(没有对象)的集合的隶属度的概率。“对象性”可被广义地认为是对图像的一部分中是否存在对象的一种度量。通过RPN 130产生重叠的建议135。

在第二阶段中，由RPN 130建议的区域被馈送给下游分类器140以用于进一步分类成一些对象类别中的一个对象类别。这是使用称为RoI池化的注意机制(attentionmechanism)完成的。

快速的R-CNN方法的主要缺点是：需要针对每个RoI独立地执行下游分类。开发了一种新型的网络，即，基于区域的全卷积网络(R-FCN)(诸如，在以下文献中描述的基于区域的全卷积网络：Dai,J.,Li,Y.,He,K.and Sun,J.,R-FCN:Object Detection via Region-based Fully Convolutional Networks,arXiv preprint arXiv:1605.06409(2016),其通过引用全部合并于此)来通过在不同的RoI间共享计算来解决快速的R-CNN框架中的低效。

图2示出应用本公开的实施例可根据的R-FCN。与图1中相似，在图2中，由基本网络210处理图像201以产生特征图220。

R-FCN架构被设计为将建议的RoI分类成对象类别和背景。然而，在R-FCN框架中，使用仅卷积网络(convolution-only network)来实现下游分类器。因为卷积网络是平移不变的，并且对象检测需要对对象位置的平移敏感，所以R-FCN框架产生称为位置敏感分数图(position-sensitive score map)250的一组专用卷积层，其中，每个分数图将关于相对空间位置的位置信息编码为通道维度(channel dimension)。

更具体地，如图2所示，针对每个类别/类存在一组k²个位置敏感分数图，导致具有C个对象类别/类(以及对于背景是+1)的k²(C+1)通道输出层。该组k²个分数图对应于描述相对位置的k×k个空间网格。例如，当k×k＝3×3时，9个分数图对对象类别的{左上，中上，右上，…，右下}的情况进行编码。

此后，从这些分数图收集信息并且针对每个RoI产生分数的位置敏感RoI(PS-RoI)池化层(即，图2中的pre-RoI 260)。池化是选择性的，每个池化具有来自具有k×k个分数图的组中的仅仅一个分数图的k×k个箱聚合响应。

相比之下，本公开的实施例提供一种用以降低用于对象检测的基于区域的深度学习系统的误检率(或“假对象率”)的机制。基线快速的R-CNN/R-FCN模型将RPN分数仅用于对RoI进行分类并选择用于下游分类的前N个RoI。这个方法的缺点是所有的前N个RoI被下游分类器平等地对待。这可能包括具有很低的对象性分数的RoI。

在根据本公开的实施例中，由RPN产生的区域分数用于提高由下游分类器计算的分数。这个技术被称为RPN提高(RPN boosting)。在一个实施例中，贝叶斯框架(Bayesianframework)可用于计算给定RPN和分类器分数二者时RoI为对象的先验概率。然而，这个方法将所有对象的分数偏向背景并降低良好RoI(即，更可能是对象的那些RoI)的分数。

例如，使C₀、C₁、…、C_k表示感兴趣的K+1个类，其中，C₀表示背景类。对于给定的RoI，使P_B为由RPN分配给所述RoI的背景概率，使P_F为由RPN分配给所述RoI的前景概率。前景概率包括对象存在的概率，其中，这样的对象可属于感兴趣的K个类中的任意一个类。此外，使s₀、s₁、…、s_K为由下游分类器分配给所述RoI的分数。然后，根据由等式(1)表示的RPN置信度来提高背景分数：

更新的分数用于使用柔性最大值层(softmax layer)计算最终类概率，其中，柔性最大值层输出可能类的概率分布。

具体地，继续以上示例，使用K+1个类和更新且提高的分数s＝{s₀,s₁,...s,_K}，然后由柔性最大值层使用等式(2)计算具有标签m的类C(即，C_m)的概率y_m，其中，根据等式(1)提高s₀：

柔性最大值概率可直接用于预测阶段，其中，由于s₀的提高改变等式(2)的右手边的分母，所以s₀的提高影响所有其他类的概率。

虽然在训练阶段中使用柔性最大值概率，但是如由以下等式(3)给出的将柔性最大值概率表达为对数域中的交叉熵函数ε更为方便，其中，如果训练输入对应于类C_m，则t_i＝1(即，t_i＝t_m＝1)，否则为零(即，t_i＝0)，θ为网络参数。

为了最大化网络的参数θ，如等式(4)所示，使用针对分数s_m的交叉熵函数ε的偏导数：

图3是示出应用本公开的实施例的深度卷积神经网络的示例的框图。在底部的框和层形成残差网络(residual network,ResNet)。ResNet的输出被馈送至区域建议卷积网络(RPN Conv)310中，其中，区域建议卷积网络310的输出被区域建议分类函数(RPN_Cls)320使用以获得对象性的分类分数，区域建议卷积网络310的输出被RPN框拟合(RPN Reg)330使用以产生对象的检测框的坐标。针对检测对象的进一步分类，这个信息被位置敏感感兴趣区域分类(PSRoI Cls)340和位置敏感感兴趣区域拟合(PSRoI Reg)350网络使用以产生每个可能类类别的分类分数并精细化由RPN传送到ROI网络的每个可能的对象检测的检测框。提高的分数(s_i)360和提高的柔性最大值370的操作分别与以上描述的等式(1)和等式(2)相关。

图4是根据本公开的实施例的方法的流程图。在410中，由基本网络处理输入图像，以产生特征图。在420中，基于RPN滑动窗口的检测器选择建议的RoI并向每个ROI分配对象性分数的置信水平(即，RoI是前景中的对象的概率或RoI仅是背景中的部分的概率)。在430中，由RPN建议的区域被将每个RoI进一步分类成一些对象类别中的一个对象类别的下游分类器池化。然而，在下游分类器对RoI进行分类之前，430还使用在420中由RPN计算的置信水平来提高RoI的背景分数。背景分数还被用在柔性最大值函数中以计算每个对象类的最终类概率。

在本公开的另一个实施例中，可从任意其他源获得的语义分割掩码用于RPN提高，从而降低检测器的误警率。语义分割掩码被另一语义分割算法传送，并且与通过对象检测网络的区域或逐框标签相比，为考虑中的每个类提供像素单位的标签。针对这样的实施例中的每个RoI，可通过RoI中的前景像素的数量与总的像素数量的比率计算前景概率P_F和背景概率P_B。如果需要，可对RoI中的前景像素的数量设置下限，以防止P_F降低到0。这防止分类器将背景概率分配为1。

在本公开的另一个实施例中，光流的大小用于RPN提高，从而降低检测器的误警率。可从任意其他源获得光流。光流信息作为从一帧到另一帧的像素值的变化的程度的度量而由另一算法提供，并且如果相机是静止的(诸如，在监视相机中)，则光流信息可用作运动对象的指示。在这样的实施例中，为光流的大小设置阈值τ。假设背景没有移动，如果光流的大小小于阈值τ，则像素可被分类为背景，否则像素被设置为前景。针对每个RoI，可通过RoI中的前景像素的数量与总的像素数量的比率来计算前景概率P_F和背景概率P_B。如果需要，可对RoI中的前景像素的数量设置下限，以防止P_F下降到0。

仍在另一个实施例中，RPN缩放可与其他缩放因子(诸如，由语义分割或光流确定的缩放因子)进行组合以计算提高。

仍在另一个实施例中，迭代精细化可用在提高的RPN上，即，当分类头修改分类分数并重新调节区域时，更新的RoI区域的RoI分数重新用于下一次迭代。在迭代方案中，仅具有高分类分数的在当前迭代的检测候选被重新考虑。

例如，使为由网络输出的检测的集合。这里s_i和B_i表示第i个预测框的分数和边界框坐标。当RoI池化层的输入被{B_i}替换并且网络从RoI池化层向前运行时，获得与新的RoI对应的新的检测的集合使D＝D₀∪D₁以及使N＝NMS(D,τ)，其中，NMS表示抑制不具有最大分数的检测的非极大值抑制算法(Non-MaximumSuppression algorithm)。可通过使用AVG(N,D)对第一次迭代中的重叠的检测框和第二次迭代中的重叠的检测框取平均值来进一步精细化最终输出。

图5示出根据一个实施例的本设备的示例性示图。设备500包括至少一个处理器510和一个或多个非暂时性计算机可读介质520。至少一个处理器510在执行存储在一个或多个非暂时性计算机可读介质520中的指令时，执行以下步骤：使用RPN通过分配置信水平来识别图像中的RoI；使用分配的RoI的置信水平来提高由下游分类器分配给每个RoI的背景分数；在柔性最大值函数中使用提高的背景分数来计算每个对象类的最终类概率。此外，一个或多个非暂时性计算机可读介质520存储用于至少一个处理器510执行以上列出的步骤的指令。

在另一个实施例中，至少一个处理器510在执行存储在一个或多个非暂时性计算机可读介质520上的指令时，使用由RPN分配的用于识别图像中的RoI的置信水平、语义分割掩码和光流的大小中的至少一个来提高由下游分类器分配的背景分数。此外，一个或多个非暂时性计算机可读介质520存储用于至少一个处理器510执行这些步骤的指令。

在650，制造包括至少一个处理器和一个或多个非暂时性计算机可读介质的设备(在这个实例中，芯片组)。当执行存储在所述一个或多个非暂时性计算机可读介质中的指令时，所述至少一个处理器执行以下步骤：使用RPN通过分配置信水平来识别图像中的RoI；使用分配的RoI的置信水平来提高由下游分类器分配给每个RoI的背景分数；在柔性最大值函数中使用提高的分数来计算每个对象类的最终类概率。所述一个或多个非暂时性计算机可读介质存储用于所述至少一个处理器执行以上列出的步骤的指令。

在660，测试设备(在这个实例中，芯片组)。测试660的步骤包括：测试该设备是否具有至少一个处理器，其中，所述至少一个处理器在执行存储在一个或多个非暂时性计算机可读介质中的指令时，执行以下步骤“使用RPN通过分配置信水平来识别图像中的RoI，使用分配的RoI的置信水平来提高由下游分类器分配给每个RoI的背景分数，在柔性最大值函数中使用提高的分数来计算每个对象类的最终类概率”；测试该设备是否具有所述一个或多个非暂时性计算机可读介质，其中，所述一个或多个非暂时性计算机可读介质存储用于所述至少一个处理器执行以上列出的步骤的指令。

在另一个实施例中，制造包括至少一个处理器和一个或多个非暂时性计算机可读介质的芯片组。所述至少一个处理器在执行存储在所述一个或多个非暂时性计算机可读介质中的指令时，使用由RPN分配的用于识别图像中的RoI的置信水平、语义分割掩码和光流的大小中的至少一个来提高由下游分类器分配的背景分数。此外，所述一个或多个非暂时性计算机可读介质存储用于所述至少一个处理器执行以上列出的步骤的指令。

在这个实施例中，可通过以下步骤测试该芯片组：测试该设备是否具有至少一个处理器，其中，所述至少一个处理器在执行存储在一个或多个非暂时性计算机可读介质上的指令时，使用由RPN分配的用于识别图像中的RoI的置信水平、语义分割掩码和光流的大小中的至少一个来提高由下游分类器分配的背景分数；测试该设备是否具有所述一个或多个非暂时性计算机可读介质，其中，所述一个或多个非暂时性计算机可读介质存储用于所述至少一个处理器执行那个步骤的指令。

在本公开的实施例中，提供一种基于最近引入的R-FCN架构的行人检测的全深度卷积神经网络方法。在本公开的一方面，RPN的分数用于提高下游分类器的性能。

如本领域普通技术人员将理解的，根据具体的实施例和/或实现方式，与本公开的实施例相关的上述步骤和/或操作可以以不同的顺序或并行地或针对不同的时期等同时地发生。不同的实施例可以以不同的顺序或通过不同的方式或手段执行动作。如本领域普通技术人员将理解的，一些附图是执行的动作的简化表示，在此对他们的描述为简化概述，并且现实世界的实现将会更加复杂得多，需要更多的阶段和/或组件，并且还将根据具体实现的要求而变化。作为简化的表示，这些附图不显示其他需要的步骤，因为这些步骤是本领域普通技术人员已知和了解的，并且可能不是与本说明书有关的和/或对本说明书有帮助的。

类似地，如本领域的普通技术人员将理解的，一些附图为仅示出相关组件的简化框图，并且这些组件中的一些组件仅表示本领域中公知的功能和/或操作，而不是实际的硬件。在这种情况下，可以以各种方式和/或方式的组合(诸如，至少部分地以固件和/或硬件的形式，所述固件和/或硬件包括但不限于一个或多个专用集成电路(“ASIC”)、标准集成电路、执行适当指令并包括微控制器和/或嵌入式控制器的控制器、、现场可编程门阵列(“FPGA”)、复杂可编程逻辑装置(“CPLD”)等)来实现或提供组件/模块中的一些或全部。系统组件和/或数据结构中的一些或全部也可作为内容(例如，作为可执行或其他机器可读的软件指令或结构化数据)而被存储在非暂时性计算机可读介质(例如，作为硬盘、存储器、计算机网络或蜂窝无线网络或其他数据传输介质，或者通过适当的驱动或经由适当的连接读取的便携式介质物品(诸如，DVD或闪存装置))，以便使能或配置计算机可读介质和/或一个或多个关联的计算系统或装置来执行或另外使用或提供用于执行描述的技术中的至少一些技术的内容。

无论是单独还是以多处理布置，都可采用一个或多个处理器、简单的微控制器、控制器等来执行存储在非暂时性计算机可读介质上的指令序列以实现本公开的实施例。在一些实施例中，可使用硬连线电路代替软件指令或与软件指令组合使用。因此，本公开的实施例不限于硬件电路、固件和/或软件中的任何特定组合。

如在此时用的术语“计算机可读介质”表示存储可提供给处理器以执行的指令的任何介质。这种介质可具有许多形式，包括但不限于非易失性介质和易失性介质。非暂时性计算机可读介质的常用形式包括：例如，软盘、软磁盘、硬盘、磁带或任何其他磁性介质、CD-ROM、任何其他光学介质、打孔卡、纸带、具有孔图案的任何其他物理介质、RAM、PROM和EPROM、FLASH-EPROM、任何其他存储器芯片或盒式磁盘或者存储可由处理器执行的指令的任何其他介质。

可至少部分地在便携式装置上实现本公开的一些实施例。如在此使用的“便携式装置”和/或“移动装置”是指具有接收无线信号的能力的任何便携式或可移动电子装置，包括但不限于多媒体播放器、通信装置、计算装置、导航装置等。因此，移动装置包括(但不限于)用户设备(UE)、膝上型计算机、平板计算机、便携式数字助理(PDA)、MP3播放器、手持PC、即时消息装置(IMD)、蜂窝电话、全球导航卫星系统(GNSS)接收器、手表或可佩戴和/或携带在人身上的任何这种装置。

鉴于本公开，如本领域普通技术人员将理解的，可在集成电路(IC)中实现本公开的各种实施例，其中，集成电路(IC)也称为微芯片、硅芯片、计算机芯片或仅仅称为“芯片”。这样的IC可以是例如宽带和/或基带调制解调器芯片。

虽然已经描述了一些实施例，但是将理解，在不脱离本公开的范围的情况下，可进行各种修改。因此，本领域普通技术人员将清楚，本公开不限于在此描述的实施例中的任何实施例，而是具有仅由权利要求及其等同物所限定的范围。

Claims

1.一种使用基于区域的深度学习模型的对象检测的方法，包括：

使用区域建议网络通过分配置信水平来识别图像中的感兴趣区域；

使用分配的感兴趣区域的置信水平来提高由下游分类器分配给每个感兴趣区域的背景分数；

在柔性最大值函数中使用提高的背景分数来计算每个对象类的最终类概率。

2.根据权利要求1所述的使用基于区域的深度学习模型的对象检测的方法，其中，对象检测为行人检测。

3.根据权利要求1所述的使用基于区域的深度学习模型的对象检测的方法，其中，基于区域的深度学习模型为快速的基于区域的卷积神经网络。

4.根据权利要求1所述的使用基于区域的深度学习模型的对象检测的方法，其中，基于区域的深度学习模型为基于区域的全卷积网络。

5.根据权利要求1所述的使用基于区域的深度学习模型的对象检测的方法，其中，置信水平包括感兴趣区域为背景的概率P_B和感兴趣区域为前景的概率P_F。

6.根据权利要求5所述的使用基于区域的深度学习模型的对象检测的方法，其中，由下游分类器分配给感兴趣区域的背景分数是s₀，根据以下公式提高s₀：

7.根据权利要求1所述的使用基于区域的深度学习模型的对象检测的方法，其中，使用分配的感兴趣区域的置信水平来提高由下游分配器分配给每个感兴趣区域的背景分数的步骤包括：

迭代地精细化提高的背景分数。

8.根据权利要求1所述的使用基于区域的深度学习模型的对象检测的方法，其中，还使用语义分割掩码提高由下游分类器分配给每个感兴趣区域的背景分数。

9.根据权利要求1所述的使用基于区域的深度学习模型的对象检测的方法，其中，还使用光流大小来提高由下游分类器分配给每个感兴趣区域的背景分数。

10.一种能够使用基于区域的深度学习模型进行对象检测的设备，包括：

一个或多个非暂时性计算机可读介质；

至少一个处理器，当执行存储在所述一个或多个非暂时性计算机可读介质中的指令时，执行以下步骤：

11.根据权利要求10所述的能够使用基于区域的深度学习模型进行对象检测的设备，其中，对象检测为行人检测。

12.根据权利要求10所述的能够使用基于区域的深度学习模型进行对象检测的设备，其中，基于区域的深度学习模型为快速的基于区域的卷积神经网络。

13.根据权利要求10所述的能够使用基于区域的深度学习模型进行对象检测的设备，其中，基于区域的深度学习模型为基于区域的全卷积网络。

14.根据权利要求10所述的能够使用基于区域的深度学习模型进行对象检测的设备，其中，置信水平包括感兴趣区域为背景的概率P_B和感兴趣区域为前景的概率P_F。

15.根据权利要求14所述的能够使用基于区域的深度学习模型进行对象检测的设备，其中，由下游分类器分配给感兴趣区域的背景分数是s₀，根据以下公式提高s₀：

16.根据权利要求10所述的能够使用基于区域的深度学习模型进行对象检测的设备，其中，使用分配的感兴趣区域的置信水平来提高由下游分配器分配给每个感兴趣区域的背景分数的步骤包括：

迭代地精细化提高的背景分数。

17.根据权利要求10所述的能够使用基于区域的深度学习模型进行对象检测的设备，其中，还使用语义分割掩码提高由下游分类器分配给每个感兴趣区域的背景分数。

18.根据权利要求10所述的能够使用基于区域的深度学习模型进行对象检测的设备，其中，还使用光流大小提高由下游分类器分配给每个感兴趣区域的背景分数。

19.一种制造芯片组的方法，包括：

制造芯片组，所述芯片组包括：

至少一个处理器，当执行存储在一个或多个非暂时性计算机可读介质上的指令时，执行以下步骤：

在柔性最大值函数中使用提高的背景分数来计算每个对象类的最终类概率，

所述一个或多个非暂时性计算机可读介质，存储所述指令。

20.一种测试设备的方法，包括：

测试设备是否具有至少一个处理器，其中，所述至少一个处理器在执行存储在一个或多个非暂时性计算机可读介质上的指令时，执行以下步骤：

测试所述设备是否具有存储所述指令的所述一个或多个非暂时性计算机可读介质。