CN107871117B

CN107871117B - 用于检测对象的设备和方法

Info

Publication number: CN107871117B
Application number: CN201710618367.3A
Authority: CN
Inventors: 穆斯塔法·艾尔可哈米; 杜先之; 李正元
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2016-09-23
Filing date: 2017-07-26
Publication date: 2023-01-10
Anticipated expiration: 2037-07-26
Also published as: TWI764905B; US20180089505A1; US10657364B2; CN107871117A; KR20180033037A; TW201814591A; KR102279291B1

Abstract

提供一种用于检测对象的方法和设备。所述方法包括：接收图像；检测图像中的对象；通过初级对象检测器，确定对象的初级置信度检测分数；通过分类网络，确定对象的置信度比例因子；基于将初级置信度检测分数与置信度比例因子相乘，调节初级置信度检测分数。

Description

用于检测对象的设备和方法

本申请要求于2016年9月23日提交到美国专利商标局的第62/399,046号美国临时专利申请和2017年2月16日提交到美国专利商标局的第15/434,880号美国非临时专利申请的优先权，所述申请的全部内容通过引用包含于此。

技术领域

本公开总体涉及深度神经网络，更具体地讲，涉及针对用于快速和鲁棒的对象识别的深度网络融合的系统和方法。

背景技术

诸如脸部识别的对象识别包括从由诸如相机的图像传感器捕获的图像的数据库识别人，并通常包括学习脸部图像。使用测度(metric)将捕获的图像的表示与数据库中的脸部图像的表示进行比较，以返回最接近的匹配。脸部识别包括诸如脸部检测和脸部排列的预处理步骤。

由相机捕获的可视化图像内的对象识别可被用在包括防务、运输或执法等的各种行业或应用中。例如，可能期望在图像内识别诸如车辆、行人和建筑物的一个或多个对象。传统的对象检测方法在准确识别目标对象方面可能无法提供期望的可靠性，和/或可能提供比期望数量的误报识别(例如，将非目标对象检测为目标对象)更多的误报识别。

图像中的行人检测当前在视频监控、人识别以及高级驾驶员辅助系统(ADAS)的各个方面起关键的作用。行人的实时准确检测对于这样的系统的实际应用来说很重要。行人检测方法旨在以实时处理的速度画出准确描述图像中的全部行人的位置的边界框。

发明内容

本公开的方面提供一种包括用于快速和鲁棒地检测图像中捕获的行人的深度神经网络融合架构的系统和方法。

根据本公开的方面，提供一种方法，所述方法包括：接收图像；检测图像中的对象；通过初级对象检测器，确定对象的初级置信度检测分数；通过分类网络，确定对象的置信度比例因子；基于将初级置信度检测分数与置信度比例因子相乘，调节初级置信度检测分数。

根据本公开的另一方面，提供一种设备，所述设备包括：图像传感器；初级对象检测器；分类网络；处理器，被配置为：从图像传感器捕获图像，检测图像中的对象，使用初级对象检测器确定对象的初级置信度检测分数，使用分类网络确定对象的置信度比例因子，基于将初级置信度检测分数与置信度比例因子相乘来调节初级置信度检测分数。

根据本公开的另一方面，提供一种制造处理器的方法，所述方法包括：将所述处理器形成为包括至少一个其他处理器的晶片或封装件的部分，其中，所述处理器被配置为从图像传感器捕获图像，检测图像中的对象，使用初级对象检测器确定对象的初级置信度检测分数，使用分类网络确定对象的置信度比例因子，基于将初级置信度检测分数与置信度比例因子相乘来调节初级置信度检测分数。

根据本公开的另一方面，提供一种构造集成电路的方法，所述方法包括：针对集成电路的层的一组特征产生掩膜布局，其中，掩膜布局包括用于包括处理器的一个或多个电路特征的标准单元库宏，其中，所述处理器被配置为从图像传感器捕获图像，检测图像中的对象，使用初级对象检测器确定对象的初级置信度检测分数，使用分类网络确定对象的置信度比例因子，基于将初级置信度检测分数与置信度比例因子相乘来调节初级置信度检测分数。

附图说明

当结合附图时，通过下面的具体描述，本公开的上述和其他方面、特征和优点将会变得更加清楚，其中：

图1示出根据本公开的实施例的通信网络中的电子装置的框图；

图2示出根据本公开的实施例的网络融合架构的框图；

图3示出根据本公开的实施例的使用单镜头多框检测器(single shot multi-boxdetector)的初级对象检测器的框图；

图4示出根据本公开的实施例的具有一个分类网络的初级对象检测网络的软拒绝融合(soft-rejection fusion)的方法的流程图；

图5示出根据本公开的实施例的具有初级对象检测器的语义分割标记器的软拒绝融合的方法的流程图；

图6A示出根据本公开的实施例的具有候选对象的捕获图像；

图6B示出根据本公开的实施例的图6A的捕获图像的语义分割掩膜；

图7示出根据本公开的实施例的检测图像中的对象的方法的流程图；

图8示出根据本公开的实施例的对被配置为检测图像中的对象的处理器进行测试的方法的流程图；

图9示出根据本公开的实施例的制造被配置为检测图像中的对象的处理器的方法的流程图。

具体实施方式

以下，将参照附图对本公开进行更加全面地描述，在附图中示出了本公开的实施例。然而，本公开可以以多种不同的形式来实现，并且不应该被视为限于这里阐述的实施例。相反，提供这些实施例使得本公开将是彻底的和完整的，并且将该装置和方法的范围全面地传达给本领域技术人员。相同的参考标记始终表示相同的元件。

将理解，当元件被称为“连接到”或“结合到”另一个元件时，它可直接连接到或结合到所述另一个元件，或者可存在中间元件。相比之下，当元件被称为“直接连接到”或“直接结合到”另一个元件时，不存在中间元件。如这里使用的，术语“和/或”包括(但不限于)一个或多个关联的所列项的任何组合和全部组合。

将理解，尽管可在这里使用术语第一和第二以及其他术语来描述各种元件，但是这些元件不应该由这些术语限制。这些术语只是用于将一个元件与另一个元件进行区分。例如，在不脱离本公开的教导的情况下，第一信号可被称为第二信号，类似地，第二信号可被称为第一信号。

这里使用的术语仅是用于描述特定的实施例的目的，而意图不在于限制本装置和方法。如这里所使用的，除非上下文明确地另有指示，否则单数形式也意图包括复数形式。还将理解，当在本说明书中使用术语“包括”或“包括(但不限于)”时，表明陈述的特征、区域、整体、步骤、操作、元件和/或组件的存在，但不排除一个或多个其他特征、区域、整体、步骤、操作、元件、组件和/或它们的组合的存在或添加。

除非另有定义，否则这里使用的所有术语(包括(但不限于)技术术语和科学术语)具有与本装置和方法所属领域的普通技术人员普遍理解的含义相同的含义。还将理解，除非在这里明确地定义，否则术语(诸如在通用字典中定义的术语)应该被解释为具有与它们在相关领域的语境和/或本说明书中的含义一致的含义，而将不被理想化或过于形式化地解释。

图1示出根据本公开的实施例的网络环境中的电子装置的框图。

参照图1，电子装置100包括(但不限于)通信块110、处理器120、存储器130、显示器150、输入/输出块160、音频块170和图像传感器180。电子装置100可包括在便携式电子装置中，其中，便携式电子装置包括(但不限于)智能电话、平板计算机或个人计算机。电子装置100还可包括在车辆中，其中，车辆包括(但不限于)汽车、火车、飞机、自主车辆、无人驾驶飞机、自行车和摩托车。

电子装置100包括用于将电子装置100连接到另一电子装置以传达声音和数据的通信块110。通信块110可提供GPRS、EDGE、蜂窝通信、广域网、局域网、个人区域网、近场通信、装置到装置(D2D)、机器到机器(M2M)、卫星通信，增强移动宽带(eMBB)、海量机器类通信(mMTC)，超可靠低延迟通信(URLLC)，窄带物联网(NB-物联网)和短距离通信。通信块110的功能或包括收发器113的通信块100的部分功能可由芯片集实现。具体地，蜂窝通信块112使用技术(诸如，第二代(2G)、GPRS、EDGE、D2D、M2M、长期演进(LTE)，第五代(5g)、高级长期演进(LTE-A)、码分多址(CDMA)、宽带码分多址(WCDMA)、通用移动电信系统(UMTS)、无线宽带(WiBro)和全球移动通讯系统(GSM))，来通过地面基站收发台将广域网连接提供到其他电子装置或直接将广域网连接提供到其他电子装置。蜂窝通信块112包括(但不限于)芯片集及收发器113。收发器113包括(但不限于)发送器和接收器。无线保真(WiFi)通信块114使用诸如IEEE 802.11的技术通过网络访问点提供局域网连接。蓝牙通信块116使用诸如IEEE802.15的技术来提供个人区域直接和网络化通信。近场通信(NFC)块118使用诸如ISO/IEC14443的标准来提供点到点短距离通信。通信块110还可包括全球导航卫星系统(GNSS)接收器119。GNSS接收器119可支持从卫星发送器接收信号。

电子装置100可从包括(但不限于)电池的电源接收用于操作功能块的电力。

处理器120提供电子装置100的应用层处理功能。处理器120还为电子装置100中的各种块提供命令和控制功能。处理器120提供用于更新功能块所需的控制功能。处理器120可提供图像传感器180、初级对象检测器、次级对象检测器、语义分割单元、融合中心和分类网络所需的资源。分类网络可提供分类和定位二者。

存储器130提供用于装置控制程序代码、用户数据存储、应用代码和数据存储的存储。存储器130可提供用于蜂窝通信块112所需的固件、库、数据库、查找表、算法、方法和校正数据的数据存储。存储器120可提供用于图像传感器180所捕获的图像的存储。当装置启动时，图像传感器180所需的程序代码和数据库可从存储器130被加载到图像传感器180内的本地存储。

显示器150可以是触摸面板，并可被实现为液晶显示器(LCD)、有机发光二极管(OLED)显示器和有源矩阵OLED(AMOLED)显示器等。输入/输出块160控制到电子装置100的用户的接口。音频块170提供输入到电子装置100的音频和从电子装置100输出的音频。

图像传感器180可捕获静止图像和运动图像二者。图像传感器180可捕获电磁频谱的对于人眼可见的可见频谱部分内的图像。图像传感器180还可捕获电磁频谱的可见频谱部分外(包括红外线和紫外线)的图像。图像传感器180可以是互补金属氧化物半导体(CMOS)型或半导体电荷耦合器件(CCD)型，并可包括图像融合镜头和图像变焦功能。图像传感器180还可包括存储器、本地处理器和到处理器120的接口。

根据本公开的一个实施例，本系统和方法包括一种用于由图像传感器180捕获的图像内的行人的快速和鲁棒地检测的深度神经网络融合架构。本公开的深度神经网络融合架构包括并行处理多个网络，以减少在捕获的图像中确定行人的存在的延迟。除深度神经网络之外，本公开包括深度卷积网络。单拍摄(single shot)(单个捕获的图像的单个尺度上的一步网络(one step network))深度卷积网络被训练为对象检测器，以在捕获的图像内产生具有不同尺寸和遮挡(occlusion)的全部可能行人候选。深度卷积网络可输出捕获的图像内的大量的各种行人候选，以在可能引入误报的同时覆盖大多数地面实况(ground-truth)行人。多个深度神经网络(DNN)(可被认为是次级网络)被进一步并行处理，以对由深度卷积网络产生的全部行人候选进行分类。次级网络还可精细化初级边界框候选的边界框位置。边界框是捕获的图像的可由具有特定形状和纵横比(宽高比)的平行四边形定义的区域内的像素的组合；然而，边界框可以是除平行四边形之外的形状。

根据本公开的一个实施例，本系统和方法提供软拒绝融合，以融合(组合)由深度卷积和神经网络一起产生的软度量来产生最终候选分数。最终候选分数是图像中的检测的行人候选是实际行人的概率的测量。本软拒绝融合系统和方法将次级检测器结果(可选地)与初级对象检测器结果进行融合，并从分类网络而产生。本系统和方法对于检测捕获的图像内的小尺寸行人和被遮挡的行人来说是有益的。融合中心还可将来自全部分类网络的边界框的定位调节与来自初级对象检测器的边界框定位进行融合，以增加边界框定位的准确性。

根据本公开的一个实施例，本系统和方法将融合网络架构中的逐像素(pixel-wise)语义分割集成为对行人检测器的加强。语义分割可将图像分割成语义上有意义的部分，并将每个部分分类为预定类中的一个类。逐像素语义分割可通过对每个像素(而不是整个图像/段)进行分类来实现同样的目标。本系统和方法可应用于任何评价协议，并为一些评价方案提供包括显著更高的速度、准确性和效率的性能增加。评价方案可包括单个对象(诸如，行人)的对象检测或多个对象(诸如，行人、车辆、骑自行车的人)的检测。评价方案在避免漏掉正确检测和消除错误检测的同时注重最大化输出检测的准确性。

根据本公开的一个实施例，本系统和方法提供可被称为基于软拒绝的网络融合的网络融合。基于软拒绝的网络融合可精细化由初级对象检测器提供的候选对象。基于由分类网络提供的那些对象检测的置信度的聚合度来增加或减小由初级对象检测候选提供的分类分数，而不是执行要么接受要么拒绝候选对象的二分类决策。

初级对象检测候选的置信度分数基于由每个分类网络提供的分类概率而按置信度比例因子被放大或缩小(增加或减小)。对置信度比例因子设置下界，以防止任何分类网络主导缩放处理并防止基于来自单个分类网络的置信度分数消除初级对象检测候选。下界处理具有在基于分类网络的聚合置信度增加正确对象检测率的同时降低误报率的效果。置信度比例因子被融合在一起，以针对每个候选对象产生最终候选分数。

根据本公开的一个实施例，本系统和方法将逐像素语义分割标记用作次级并行检测器，并将次级并行检测器集成到本网络融合架构中。基于逐像素语义分割标记的次级并行检测器发挥对行人检测器(或一般对象检测器)的加强的作用。分割标记的步骤由使用对象的类别(例如，行人、车辆或建筑物)标记捕获的图像中的每个对象组成。软置信度分数可通过确定逐像素语义分割标记与由初级对象检测器提供的边界框检测之间的重叠的比率而被确定。

图2示出根据本公开的实施例的本网络融合架构的框图。

参照图2，网络融合架构222包括来自图像传感器的被可选地缩放的图像208，其中，图像208被提供到初级对象检测器210，并被可选地提供到次级对象检测器212和语义分割单元220。初级对象检测器210确定在图像208中检测到的对象，并针对每个检测到的对象创建边界框。在边界框列表和置信度分数单元214中创建针对确定的对象的边界框的列表和它们各自的置信度分数。分类网络200包括一个或多个DNN检测分类器和过滤器202。虽然图2示出两个DNN检测分类器和过滤器202，但是在不偏离本公开的范围的情况下，本公开可包括任何数量的DNN检测分类器和过滤器202。分类网络200包括可选次级并行检测网络204。可选次级并行检测网络204可将深度扩张卷积(deep dilated convolution)和上下文聚合用于语义分割标记，以进一步确定关于初级对象检测的软置信度分数。深度扩张卷积使用通过在非零过滤器系数之间插入零而具有不同扩张(上采样)因子的卷积核函数，从而有效地增加了过滤器的感受野(receptive field)。融合中心216融合来自一个或多个DNN检测分类器和过滤器202、可选次级并行检测网络204、边界框列表和置信度分数单元214的结果，并且进一步可选择地融合来自次级对象检测器212和语义分割单元220的结果。融合中心216将融合处理的结果提供到用于最终确定与检测到的对象相关联的边界框的最终确定单元218。

图3示出根据本公开的实施例的使用单拍摄多框检测器(single shot multi-boxdetector)的初级对象检测器的框图。

参照图3，七个输出层被用于在单个捕获的图像中产生行人候选。虽然图3示出七个层，但是在不偏离本公开的范围的情况下，本公开可包括任何数量的层。根据本公开的实施例，图3的初级对象检测器322包括前馈卷积网络。由图像传感器捕获的输入图像302被提供到作为基础网络的截断视觉几何组(truncated visual geometry group)VGG16 304。VGG是包括16个权重层的卷积神经网络模型，其中，16个权重层具有过滤器尺寸为三乘三的十三个卷积层以及三个全连接层。在VGG16 302基础网络层，最后的池化层被转换为具有一的步宽的3×3的感受野尺寸，并完全连接的fc7使用平稳小波变换算法而被转换为卷积层。池化层合并在先前特征图中学习和表示的特征，并可压缩或概括特征表示和普遍降低训练数据的过拟合。在基础网络之后添加六个附加卷积层和全局平均池化层，并且每个层的尺寸逐渐减小。层conv4_3 306、fc7 308、conv6_2 310、conv7_2 312、conv8_2 314、conv9_2316和pool6 318被用作输出层。在每个输出层之后执行边界框回归(regression)和分类。在层320中确定来自捕获的图像的行人候选。

根据本公开的一个实施例，初级对象检测器包括具有在多个卷积尺度和分辨率提取的特征的前馈卷积网络。在捕获的图像中，在提取的特征的每个位置的具有不同尺寸和纵横比的边界框候选被进一步分类为对象或背景，候选边界框的位置偏移通过边界框回归来计算。针对具有尺寸m×n×p的每个输出层，不同尺度和纵横比的一组默认边界框被布置在每个位置。默认边界框的纵横比被调节为匹配将被检测的对象，例如，如果目标是检测行人，则纵横比被设置为0.41。3×3×p卷积核函数被施加到每个位置，以产生分类分数和相对于默认边界框位置的边界框位置偏移。如果默认边界框与任何地面实况框具有大于0.5的杰卡德重叠指数(Jaccard overlap index)，则默认边界框被标记为正，否则默认边界框被标记为负。杰卡德重叠指数被用于比较默认边界框与地面实况框的相似度，并且是数据集的结合的大小除以交集的大小的值。

如下，在下面的等式(1)给出分类网络200的训练目标L：

其中，L_conf是softmax分类损失，L_loc是使用距离度量的平滑定位损失，N是被标记为正的默认框的数量，α是用于保持所述两种损失之间的平滑的常数权重项。平滑定位损失可被坐标之间的差的L1范数表示为L1＝Sum|y_i–y’_i|+Sum|x_i–x’_i|，其中，(x_i,y_i)表示框的坐标，(x’_i,y’_i)表示地面实况框的坐标，所述和(sum)覆盖全部坐标。

分类网络200的训练目标作为softmax分类损失与平滑L1定位损失的加权和而被给出。即使引入了大量的假对象检测，初级对象检测器210也以检测捕获的图像中感兴趣的全部对象(诸如，行人)为目标而被训练，以产生大量的候选对象。每个对象检测与它的定位边界框和置信度分数相关联。通过降低置信度分数阈值(其中，在置信度分数阈值之上接受候选对象)，从初级对象检测器210产生各种尺寸和遮挡的候选对象。

根据一个实施例，分类网络200包括并行运行的多个DNN检测分类器和过滤器202。分类网络200中的每个DNN检测分类器和过滤器202可以单个分类器或级联的多个分类器。此外，每个DNN检测分类器和过滤器202还可精细化检测到的对象的边界框的框坐标。来自所有的DNN检测分类器和过滤器202的置信度分数在融合中心216被融合。来自不同的DNN检测分类器和过滤器202的修改的边界框也可在融合中心216被融合成单个边界框。分类网络200中的每个网络被单独训练。为训练次级分类网络，初级对象检测器210在训练集上被运行，以产生一组对象检测，并且具有大于最小值的置信度分数或大于最小高度的边界框高度的所有对象检测被接受。初级检测器将仅输出与它的默认边界框的纵横比一致的检测，然而，最终纵横比由于使用框回归调节检测到的框坐标而稍微不同。对象检测根据由杰卡德重叠指数测量的它与地面实况的重叠的程度而被标记为正或负。对象检测被重新缩放或扭曲为固定尺寸。固定尺寸的随机修剪从重新缩放的对象检测框被获得，并与它们的标签被提供作为分类网络200的输入训练样本，其中，如果合并比例(union ratio)的修剪的框与地面实况框的交集具有大于百分之五十的重叠区域，则标签被确定为正。换言之，使用缩放的初级置信度检测分数将对象检测设置为固定尺寸；从设置后的对象检测确定具有固定尺寸的随机修剪；针对地面实况来标记随机修剪的类，以训练分类网络。为进一步训练分类网络200，地面实况框标签附近的修剪或正对象检测在合适转换回原始图像域之后被扩展特定百分比，并且分类网络200被训练，以通过边界框回归输出地面实况框坐标，其中，地面实况框坐标被转换回原始图像域。

根据本公开的一个实施例，本系统和方法提供通过软拒绝执行融合的融合中心216。软拒绝还通过将初级对象检测与分类网络200中的不同网络的软置信度结果进行融合，来精细化初级对象检测。本系统和方法包括在融合中心216的定位边界框调节的融合。作为示例，考虑一个初级候选和一个分类网络200。如果分类网络200已经确定候选对象的高置信度分数(例如，超过给定阈值分数的置信度分数)，则本系统通过将置信度分数与大于1的置信度比例因子相乘，来增加来自初级对象检测器210的候选对象的原始置信度分数。否则，本系统通过小于1的置信度比例因子来减少候选对象的置信度分数。当测试本系统时，通过使用分类网络200中的全部次级网络处理候选对象来针对每个候选对象产生一组分类概率。本系统和方法包括基于在融合中心216中确定的分数的软拒绝，而不是使用具有概率阈值的二元分类。

软拒绝方法的一个优点在于本系统不直接接受或拒绝任何候选对象。反而，对象置信度检测分数通过使用基于来自分类网络200的分类概率的因子来缩放置信度分数而被增加或减少。如果一个次级分类网络针对候选对象已经确定高置信度分数，则各个置信度分数通过大于一的置信度比例因子而在融合中心216中被增大。否则，置信度分数通过小于一的置信度比例因子而在融合中心216中被减小。然而，置信度比例因子被设置为至少p_min，以防止任何次级网络主导确定处理，这是因为正对象检测的不正确消除(诸如，可发生在二元分类)不能被纠正，然而，低分类置信度分数可被来自其他次级网络的较大分类置信度分数补偿。由于最终分数取决于所有的次级网络的置信度分数，所以即使一个次级网络在一个类别(诸如，被部分地遮挡的行人)具有低分类性能，其他次级网络也能够补偿它的缺陷，因此增加系统的可靠性。

根据本公开的一个实施例，如果次级分类网络针对初级对象检测的softmax分类概率超过值p_max，其中，p_max是期望的最大分类概率(例如，0.7的概率)，则该次级分类网络是置信的(confident)。令p_m为由第m次级网络针对候选对象产生的分类概率，可通过下面的等式(2)确定置信度比例因子a_m：

a_m＝p_m×1/p_max …(2)

为了融合全部的M个分类网络200，来自初级对象检测器210的初级对象置信度检测分数P_primary与来自全部的分类网络200的m个置信度比例因子a_m的乘积相乘以缩放初级置信度检测分数。

为防止任何次级网络主导置信度分数的确定，或者消除由初级对象检测器210提供的任何对象检测，最终置信度比例因子的下界被设置为期望的最小值p_min(例如，概率0.1)。最终融合置信度分类分数P_fused_classified被表示为如下面的等式(3)如下所示：

P_fused_classified＝P_primary x PRODUCT_m(max(a_m,p_min)) …(3)

上面在等式(3)中表示的PRODUCT_m是由分类网络产生的全部的m个置信度比例因子a_m的乘积。max(a_m,p_min)表示a_m和p_min之中的较大值。然而，如果置信度比例因子中的任何一个小于p_min，则那个特定置信度比例因子被设置为p_min的值。

图4示出根据本公开的实施例的具有一个分类网络的初级对象检测网络的软拒绝融合的方法的流程图。

参照图4，在402，分类网络200确定来自分类网络200的置信度比例因子是否小于p_min。如果置信度比例因子小于p_min，则在408，融合中心216通过常数因子减小来自初级对象检测器210的置信度分数。如果置信度比例因子不小于p_min，则在404，分类网络进一步确定来自分类网络200的置信度比例因子是否小于p_max并大于或等于p_min。如果来自分类网络200的置信度比例因子小于p_max并大于或等于p_min，则在410，融合中心216与来自分类网络200的置信度比例因子成比例地减小来自初级对象检测器210的置信度分数。如果置信度比例因子不小于p_max或不大于或等于p_min，则在406，分类网络200确定来自分类网络200的置信度比例因子是否大于或等于p_max。如果置信度比例因子不大于或等于p_max，则处理结束。如果来自分类网络200的置信度比例因子大于或等于p_max，则在412，融合中心216与来自分类网络200的置信度比例因子成比例地增大来自初级对象检测器210的置信度分数。

来自分类网络200的置信度比例因子还可根据分类网络200中的DNN神经网络检测分类器和过滤器202中的每个的信任的等级来修改。信任度量t_m可被确定，它表示与分类网络200相关联的信任的等级。t_m的值越大，信任等级越大。信任度量或信任度量的缩放值可被集成在融合中心216中，使得由分类网络200提供的具有较大信任度量t_m的分类可如下面等式(4)所示地被赋予更多重要性。

P_fused_classified＝P_primary x PRODUCT_m(max(a_m^t_m,p_min))…(4)

来自分类网络200的定位边界框还可在融合中心被融合，其中，分类网络200为从初级对象检测器210输出的边界框候选提供关于真框定位(true box localization)的不同值。针对来自分类网络200的定位坐标的偏移可被平均，然后被施加到来自初级对象检测器210的边界框的定位坐标。

根据本公开的一个实施例，图2的次级对象检测器是可选的，并确定如何融合来自分类网络200的结果与初级对象检测器210的结果。因为次级对象检测器212可产生还没有被初级对象检测器210提供的新对象检测，这不是当融合分类网络200的输出与初级对象检测器210的输出时的情况，所以使用分类网络200的当前软拒绝融合稍微不同于使用次级对象检测器212的当前软拒绝融合。为了解决次级对象检测器212中的新对象的产生，本公开的软拒绝方法通过次级对象检测器212消除新对象检测，因为新对象检测可能有助于增加假对象检测率。次级对象检测器212仅用于进一步微调初级对象检测器210的初级置信度检测分数。如果针对由初级对象检测器210检测的对象的来自次级对象检测器212的次级置信度检测分数超过最小阈值，则对象检测被接受，并且初级置信度检测分数被保持不变。否则，软拒绝融合可被应用于如在下面等式(5)所示地缩放初级置信度检测分数。

如果P_secondary>＝阈值,则P_fused_detect＝P_primary；

否则，

P_fused_detect＝P_primary x max(P_secondary x(1/p_max),p_min))…(5)其中，P_secondary是来自次级对象检测器的次级置信度检测分数，P_fused_detect是初级置信度检测分数与次级置信度检测分数的融合置信度检测分数。

如下面等式(6)所示，上面的等式(5)也可被应用于通过与分类网络200的融合获得的最后的P_fused，其中，P_primary被P_fused替换，

P_fused_detect＝P_fused_classified x max(P_secondary x(1/p_max),p_min))…(6)

图2的语义分割单元220也是可选的，并确定如何使用逐像素语意标记器(pixel-wise semantic labeler)在初级对象检测器210的检测中产生置信度分数。语义分割单元220基于深度扩张卷积和上下文聚合，并可用作并行次级对象检测器。为执行作为针对捕获的图像中的每个像素预测标签的任务的密集的预测，语义分割单元220包括作为前端预测模块的与扩张卷积相适应的全卷积VGG16网络，其中，全卷积VGG16网络的输出被提供给包括卷积层具有增加的扩张因子的全卷积网络的多尺度上下文聚合模块。语义分割标记器在初级对象检测器结果中提取用于它的置信度分数的软度量。输入到语义分割单元212的捕获的图像被放大，并被语义分割网络直接处理。使用示出用于行人类的激活的像素的一个颜色以及示出背景的其他颜色来产生二元掩膜。“人”和“骑手”分类类别可被考虑为行人，剩余的类可被考虑为背景。语义分割掩膜与来自初级对象检测器210的全部检测到的边界框重叠。根据本公开的一个实施例，本系统和方法在融合中心216融合语义分割标记与对象检测结果。由语义分割激活掩膜对每个初级对象检测边界框进行着色的程度提供初级对象检测器的结果中的次级语义分割分类的置信度的测量。上面等式(5)中的阈值可以是每个边界框内的激活的像素所重叠的面积与重叠的初级边界框的面积之间的最小比率，其中，所述激活的像素被语义分割网络识别为来自检测到的类的像素。

例如，如果激活的像素占据初级边界框面积的至少20％，则对象检测被接受，初级置信度检测分数不变。否则，如下面等式(7)所示，软拒绝融合被应用以缩放来自初级对象检测器210的初级置信度检测分数：

其中，A_b表示边界框的面积，A_m表示检测到的边界框A7_bbox内被语义分割掩膜覆盖的面积。a_ss和b_ss可通过交叉验证分别被选择为4和0.35。S_FDNN是来自初级对象检测器210的初级置信度检测分数，S_all是软拒绝融合之后的置信度检测分数。

图5示出根据本公开的实施例的具有初级对象检测器的语义分割标记器的软拒绝融合的方法的流程图。

参照图5，在502，本系统确定初级对象检测器的边界框与语义分割掩膜之间是否存在重叠。如果初级对象检测器的边界框与语义分割掩膜之间不存在重叠，则在508，本系统通过常数因子减小来自初级对象检测器的初级置信度检测分数，并消除来自语义分割单元220的任何次级对象检测。虽然次级对象检测由于未重叠而被消除，但是本系统仅调节初级置信度检测分数，而不是将初级置信度检测分数设置为零，因此初级置信度检测分数决不会被消除。如果初级对象检测器的边界框与语义分割掩膜之间存在重叠，则在504，本系统确定初级对象检测器的边界框与语义分割掩膜之间的重叠是否小于阈值。如果初级对象检测器的边界框与语义分割掩膜之间的重叠小于阈值，则在510，本系统与重叠的量成比例地减小来自初级对象检测器的初级置信度检测分数。否则，在512，来自初级对象检测器的初级置信度检测分数被保持不变，从而即使任何次级置信度检测分数可以是零，也保证初级置信度检测分数决不会被设置为0。应理解，本系统基于重叠的量调节初级置信度检测分数，并且，如果重叠的量大于阈值，则本系统可增大初级置信度检测分数；和/或如果重叠的量小于阈值，则本系统可减小初级置信度检测分数；和/或如果没有重叠，则本系统减小初级置信度检测分数；或在不脱离本公开的范围情况下的其他变形。

图6A示出根据本公开的实施例的具有候选对象的捕获图像。图6B示出根据本公开的实施例的图6A的捕获图像的语义分割掩膜。

参照图6A和图6B，图6B的语义分割掩膜示出误报对象检测可从初级对象检测器210被消除，因为来自初级对象检测器210的伪边界框不与语义分割掩膜重叠。语义分割掩膜还示出通过消除未重叠的次级对象检测从而不引入额外的误报对象检测的软融合。如在图6A中所示，在考虑之中的候选对象是行人。

根据本公开的一个实施例，分类网络200可以仅是次级分类网络并不执行定位。

如果置信度比例因子超过阈值，则由次级对象检测器212确定的软融合度量可消除新的对象检测，或将来自初级对象检测器210的初级置信度检测分数增加常数因子，或者如果置信度比例因子小于或等于阈值，则初级置信度检测分数被保持不变。

根据本公开的一个实施例，来自分类网络200的多个定位度量可通过非最大抑制而非次级坐标偏移的平均来与初级边界框候选融合，或者平均和非最大抑制方法可一起被使用。

根据本公开的一个实施例，初级对象检测器210可包括语义分割标记器，并且次级对象检测器212可帮助提高初级对象检测器210中的语义分割标记器识别同一类的多个实例。

本系统和方法通过缩放来自初级对象检测器的初级置信度检测分数以增大或减小在捕获的图像中检测的对象的置信度分数，来提供软拒绝融合，其中，通过基于被测量作为来自分类网络的置信度分数的分类概率的因子来进行所述缩放。软拒绝融合防止任何分类网络主导决定处理，并基于来自任何分类网络的单个度量防止初级候选对象检测的消除。软拒绝融合支持通过一个DNN检测分类器和过滤器的错误校正另一个DNN检测分类器和过滤器的错误，并积累来自多个分类网络的智能。软拒绝融合对初级对象检测器结果与分类网络结果的融合的顺序不敏感。

本网络融合架构支持次级对象检测器与初级对象检测器并行的操作以减少延迟。本网络融合架构支持分类网络中的多个深度神经网络分类器和过滤器并行的操作。本系统和方法提供分类网络的训练。

图7示出根据本公开的实施例的检测图像中的对象的方法的流程图。

参照图7，在701，本系统使用图像传感器捕获图像。在702，初级对象检测器检测图像中的对象，并确定检测到的对象的边界框。在703，初级对象检测器确定对象的初级置信度检测分数。在704，使用分类网络确定对象的置信度比例因子。在705，基于将初级置信度检测分数与置信度比例因子相乘，调节初级置信度检测分数。

图8示出根据本公开的实施例的对被配置为检测图像中的对象的处理器进行测试的方法的流程图。处理器可被实现以硬件或被实现以使用软件编程的硬件。

参照图8，在801，该方法将处理器形成为包括至少一个其他处理器的晶片或封装件的部分。处理器被配置为从图像传感器捕获图像，检测图像中的对象，使用初级对象检测器确定对象的初级置信度检测分数，使用分类网络确定对象的置信度比例因子，基于将初级置信度检测分数与置信度比例因子相乘来调节初级置信度检测分数。

在803，该方法测试处理器。测试处理器的步骤包括使用一个或多个电光转换器、将一个光信号分离成两个或更多个光信号的一个或多个分光器以及一个或多个光电转换器来测试处理器和至少一个其他处理器。

参照图9，在901，该方法包括数据的初始布局，其中，在数据的初始布局中，该方法针对集成电路的层的一组特征产生掩膜布局。掩膜布局包括用于包括处理器的一个或多个电路特征的标准单元库宏。处理器被配置为从图像传感器捕获图像，检测图像中的对象，使用初级对象检测器确定对象的初级置信度检测分数，使用分类网络确定对象的置信度比例因子，基于将初级置信度检测分数与置信度比例因子相乘来调节初级置信度检测分数。

在903，存在设计规则检查，其中，在设计规则检查中，该方法在产生掩膜布局期间为了符合布局设计规则而忽视宏的相对位置。

在905，存在布局调整，其中，在布局调整中，该方法在产生掩膜布局之后为了符合布局设计规则检查宏的相对位置。

在907，做出新的布局设计，其中，该方法在检测到任何的宏不符合布局设计规则时通过将每个不符合的宏改为遵守布局设计规则来修改掩膜布局，根据具有集成电路的所述层的该组特征的修改的掩膜布局来产生掩膜，并根据掩膜来制造集成电路层。

虽然已经参照本公开的特定实施例具体示出和描述了本公开，但是本领域普通技术人员将理解，在不脱离由所附权利要求和它们的等同物定义的本公开的范围的情况下，可对实施例做出形式和细节上的各种改变。

Claims

1.一种用于检测对象的方法，包括：

接收图像；

检测图像中的对象；

通过初级对象检测器，确定对象的初级置信度检测分数；

通过分类网络，确定对象的置信度比例因子；

基于将初级置信度检测分数与置信度比例因子相乘，调节初级置信度检测分数；

基于将每个像素分类为预定类中的一个，生成语义分割掩膜；

确定对象的边界框与语义分割掩膜之间的重叠的量；

如果对象的边界框与语义分割掩膜之间不存在重叠，则调节初级置信度检测分数，并消除来自语义分割掩膜的次级对象检测，

其中，语义分割掩膜是使用示出图像中的激活的像素的一个颜色和示出图像中的背景的另一个颜色产生的二元掩膜。

2.如权利要求1所述的方法，还包括：

基于将初级置信度检测分数与来自多个分类网络的对象的多个置信度比例因子的乘积相乘，缩放初级置信度检测分数。

3.如权利要求2所述的方法，还包括：

使用缩放的初级置信度检测分数将对象检测设置为固定尺寸；

从设置后的对象检测确定具有固定尺寸的随机修剪；

针对地面实况来标记所述随机修剪的类，以训练分类网络。

4.如权利要求1所述的方法，其中，置信度比例因子基于对象的分类概率与期望的最大分类概率的比率。

5.如权利要求1所述的方法，其中，置信度比例因子的下限被设置为期望的最小值。

6.如权利要求1所述的方法，还包括：确定对象的次级置信度检测分数；

如果次级置信度检测分数大于或等于阈值，则保持初级置信度检测分数；

如果次级置信度检测分数小于阈值，则调节初级置信度检测分数。

7.如权利要求6所述的方法，其中，如果次级置信度检测分数小于阈值则调节初级置信度检测分数的步骤包括：将初级置信度检测分数与次级置信度检测分数和多个置信度比例因子的乘积相乘。

8.如权利要求6所述的方法，其中，如果次级置信度检测分数小于阈值则调节初级置信度检测分数的步骤包括：将初级置信度检测分数与次级置信度检测分数和多个置信度比例因子的乘积相乘。

9.如权利要求1所述的方法，还包括：如果对象的边界框与语义分割掩膜之间的重叠的量小于阈值，则与重叠的量成比例地调节初级置信度检测分数。

10.如权利要求1所述的方法，还包括：如果对象的边界框与语义分割掩膜之间的重叠的量大于或等于阈值，则保持初级置信度检测分数。

11.如权利要求1所述的方法，还包括：并行操作初级对象检测器和分类网络。

12.一种用于检测对象的设备，包括：

图像传感器；

初级对象检测器；

分类网络；

处理器，被配置为：

从图像传感器捕获图像，

检测图像中的对象，

使用初级对象检测器确定对象的初级置信度检测分数，

使用分类网络确定对象的置信度比例因子，

基于将初级置信度检测分数与置信度比例因子相乘来调节初级置信度检测分数；

确定对象的边界框与语义分割掩膜之间的重叠的量；

13.如权利要求12所述的设备，其中，所述处理器还被配置为：

14.如权利要求12所述的设备，其中，置信度比例因子基于对象的分类概率与期望的最大分类概率的比率。

15.如权利要求12所述的设备，其中，置信度比例因子的下限被设置为期望的最小值。

16.如权利要求12所述的设备，其中，所述处理器还被配置为：确定对象的次级置信度检测分数；

17.如权利要求16所述的设备，其中，如果次级置信度检测分数小于阈值则调节初级置信度检测分数的步骤包括：将初级置信度检测分数与次级置信度检测分数和多个置信度比例因子的乘积相乘。

18.如权利要求16所述的设备，其中，如果次级置信度检测分数小于阈值则调节初级置信度检测分数的步骤包括：将调节后的初级置信度检测分数与次级置信度检测分数和多个置信度比例因子的乘积相乘。

19.如权利要求12所述的设备，其中，所述处理器还被配置为：如果对象的边界框与语义分割掩膜之间的重叠的量小于阈值，则与重叠的量成比例地调节初级置信度检测分数。

20.如权利要求12所述的设备，其中，所述处理器还被配置为：如果对象的边界框与语义分割掩膜之间的重叠的量大于或等于阈值，则保持初级置信度检测分数。

21.如权利要求12所述的设备，其中，所述处理器还被配置为：并行操作初级对象检测器和分类网络。

22.如权利要求12所述的设备，其中，所述处理器还被配置为：

从设置后的对象检测确定具有固定尺寸的随机修剪；

针对地面实况来标记所述随机修剪的类，以训练分类网络。

23.一种制造处理器的方法，包括：

将所述处理器形成为包括至少一个其他处理器的晶片或封装件的部分，其中，所述处理器被配置为从图像传感器捕获图像，检测图像中的对象，使用初级对象检测器确定对象的初级置信度检测分数，使用分类网络确定对象的置信度比例因子，基于将初级置信度检测分数与置信度比例因子相乘来调节初级置信度检测分数，基于将每个像素分类为预定类中的一个，生成语义分割掩膜，确定对象的边界框与语义分割掩膜之间的重叠的量，并且如果对象的边界框与语义分割掩膜之间不存在重叠，则调节初级置信度检测分数，并消除来自语义分割掩膜的次级对象检测，其中，语义分割掩膜是使用示出图像中的激活的像素的一个颜色和示出图像中的背景的另一个颜色产生的二元掩膜。

24.一种构造集成电路的方法，包括：

针对集成电路的层的一组特征产生掩膜布局，其中，掩膜布局包括用于包括处理器的一个或多个电路特征的标准单元库宏，其中，所述处理器被配置为从图像传感器捕获图像，检测图像中的对象，使用初级对象检测器确定对象的初级置信度检测分数，使用分类网络确定对象的置信度比例因子，基于将初级置信度检测分数与置信度比例因子相乘来调节初级置信度检测分数，基于将每个像素分类为预定类中的一个，生成语义分割掩膜，确定对象的边界框与语义分割掩膜之间的重叠的量，并且如果对象的边界框与语义分割掩膜之间不存在重叠，则调节初级置信度检测分数，并消除来自语义分割掩膜的次级对象检测，其中，语义分割掩膜是使用示出图像中的激活的像素的一个颜色和示出图像中的背景的另一个颜色产生的二元掩膜。