CN112805717A

CN112805717A - 腹侧-背侧神经网络：通过选择性注意力的对象检测

Info

Publication number: CN112805717A
Application number: CN201980062091.2A
Authority: CN
Inventors: 穆罕默德·K·易卜拉欣保尔; 余彦云; 李家云; 杰克·里斯; 阿扎德·莫格塔德里
Original assignee: Genealogy Network Operation Co
Current assignee: Genealogy Network Operation Co; Ancestry com Inc
Priority date: 2018-09-21
Filing date: 2019-09-19
Publication date: 2021-05-14
Also published as: US20210174083A1; US11475658B2; US10796152B2; AU2019345266A1; EP3853777A1; US20200097723A1; MX2021002777A; BR112021005214A2; AU2019345266B2; US10949666B2; US20200410235A1; NZ773328A; IL281530A; WO2020061273A1; CA3110708A1; EP3853777A4

Abstract

本文描述的实施方式总体上涉及视觉介质内的有效对象分类方法。该方法利用第一神经网络在视觉介质内执行基于注意力的对象定位以生成视觉掩模。将视觉掩模应用到视觉介质以产生被掩模的视觉介质。然后可以将被掩模的视觉介质馈送到第二神经网络中以检测和分类视觉介质内的对象。

Description

腹侧-背侧神经网络：通过选择性注意力的对象检测

相关申请

本申请要求2019年9月17日递交的名称为“Ventral-Dorsal Neural Networks:Object Detection Via Selective Attention”的美国非临时申请16/573.180的优先权，该美国非临时申请根据35 U.S.C.§119(e)要求2018年9月21日递交的名称为“Ventral-Dorsal Neural Networks:Object Detection Via Selective Attention”的美国临时申请62/734,897的优先权，两者的内容出于所有目的通过引用整体并入本文。

背景技术

计算机视觉中的对象检测正成为数据处理中越来越重要的方面。对象检测通常可以涉及检测和定义数字图像和视频内的对象(例如，建筑物、特定的人等)的图像处理方法。对象检测具有多种用途，例如但不限于，先进驾驶辅助系统、视频监控、图像检索系统、视觉搜索引擎和面部检测。但是，为了使对象检测有用，它必须具有一定水平的准确性。此外，为了使对象检测切实可行，它还必须具有一定水平的效率。例如，如果对象检测方法是高度准确的但是缓慢的和/或需要大量的计算机资源，则实施可能是不实际的。同时，如果对象检测方法轻便(即不需要大量的计算机资源)，但非常不准确，则它可能是没有用的。因此，鉴于对象检测方法的众多应用，需要一种非常准确但也是计算上有效的对象检测方法和系统。

发明内容

本文描述的实施方式总体上涉及用于在视觉介质内执行准确且有效的对象检测的腹侧-背侧神经网络。腹侧-背侧神经网络可以包括计算系统(该计算系统包括一个或多个处理器)、非暂时性存储介质、以及计算机实现的方法，它们包括用于接收包括多个对象的视觉介质的指令。指令还可包括：通过第一神经网络，识别视觉介质内的一个或多个相关视觉区域和一个或多个不相关视觉区域。指令还可以包括：至少基于所述一个或多个不相关视觉区域，生成包括像素阵列的视觉掩模。指令还可以包括：应用视觉掩模来修改一个或多个不相关视觉区域的像素强度值以产生被掩模的视觉介质。指令还可以包括：通过第二神经网络，识别被掩模的视觉介质内的一个或多个感兴趣对象。指令还可以包括：输出所述一个或多个感兴趣对象的标识。

在一个实施方式中，与一个或多个相关视觉区域相关联的像素强度值为非零。在一个实施方式中，与一个或多个不相关视觉区域相关联的像素强度值为零。

在一个实施方式中，第一神经网络是基于深度卷积注意力的对象检测神经网络。在一个实施方式中，第二神经网络是监督对象检测神经网络。在一个实施方式中，第二神经网络可仅用在视觉介质的被掩模的视觉介质部分上。

在一个实施方式中，指令还可以包括：从视觉介质中提取卷积特征，以及将所提取的卷积特征聚集到格式塔总和输出(Gestalt Total output)中。指令还可以包括：通过灵敏度分析来识别视觉介质内的高于预定阈值的像素，其中，高于预定阈值的像素限定所述一个或多个相关视觉区域。

附图说明

所包括的提供对本发明的进一步理解的附图并入本说明书中并构成本说明书的一部分，其示出本发明的实施方式，并且与详细描述一起用于解释本发明的原理。除了对本发明的基本理解以及可以实践本发明的各种方式所必需的以外，没有尝试更详细地示出本发明的结构细节。

图1示出根据本文描述的一个或多个实施方式的第一过程。

图2示出根据本文描述的一个或多个实施方式的第二过程。

图3示出根据本文描述的一个或多个实施方式的简化的计算机系统。

在附图中，相似的组件和/或特征可具有相同的数字附图标记。此外，可以通过以下来区分相同类型的各种组件：在附图标记后面加上字母，或在附图标记后面加上破折号、再加上区分相似的组件和/或特征的第二数字附图标记。如果在说明书中仅使用第一数字附图标记，则该描述适用于具有相同第一数字附图标记的相似组件和/或特征中的任一者，而不管其后缀如何。

具体实施方式

本文公开的实施方式总体上涉及用于在视觉介质(例如，数字图像、数字视频等)内执行准确且有效的对象检测的腹侧-背侧神经网络。腹侧-背侧神经网络基于人脑通常处理图像的方式。在人脑中，图像是沿着两个独立的神经流(一个在颞叶，另一个在顶叶)处理的。这些流之间的粗略功能区别是在对象识别之间，即“什么(what)”(图像中存在什么对象)与“何处(where)”(对象在图像内的何处)之间。从初级视觉皮层进入颞叶的腹侧路径以“什么”信息为主，而进入顶叶的背侧路径以“何处”信息为主。基于腹侧路径和背侧路径，本文公开的实施方式提出整合腹侧网络和背侧网络以执行视觉介质内的对象检测。

腹侧-背侧神经网络的腹侧网络使用基于注意力的对象检测，以识别视觉介质的相关部分。在腹侧-背侧神经网络的构造内，腹侧网络可以利用基于注意力的对象检测来快速识别视觉介质的与感兴趣对象无关的部分。可以将这种过程称为自上而下的显著性分析，以识别不相关视觉区域。一旦识别了不相关视觉区域，就可以为视觉介质创建视觉掩模，该视觉掩模从视觉介质中滤除不相关视觉区域(例如，噪声和/或不重要的背景信息)。将视觉掩模应用到视觉介质的结果是得到被掩模的视觉介质，其仅包含视觉介质的相关视觉区域。

腹侧-背侧神经网络的背侧网络使用监督对象检测来识别被掩模的视觉介质内的对象。因为被掩模的视觉介质仅包含视觉介质的相关部分(例如，视觉介质的不相关部分的像素值为零，而相关部分的像素值为非零)，于是由背侧网络执行的监督对象检测机制可以仅在视觉介质的一部分上执行。将监督对象检测聚焦在重要的视觉区域上允许有效分配计算资源，因为计算资源可只用在视觉介质的有限部分上，而不是整个视觉介质上。此外，通过仅在被掩模的视觉介质上执行监督对象检测，可以提高监督对象检测的准确性，这是因为与考虑整个视觉介质的情况相比，监督对象检测所需的检测范围更小。监督对象检测可以称为自下而上的显著性分析。通过将腹侧网络和背侧网络结合，可以实现更有效且更准确的对象检测机制。

图1示出根据本文描述的一个或多个实施方式的示例性过程100。过程100可以是使用腹侧网络执行以针对视觉介质内的对象位置执行基于注意力的对象检测的过程。过程100可以由处理器执行，该处理器从腹侧网络存储模块中检索一个或多个操作指令。除非特别提出或逻辑上要求，否则执行过程步骤的顺序不是强制性的。过程100可以是用于对象定位的过程。对象定位可以被定义为识别视觉介质内的(一个或多个)对象的(一个或多个)位置的过程。过程100描述了使用深度卷积神经网络(CNN)进行对象定位的新方法。深度CNN可以包括但不限于，Vgg 16、AlexNet、ResNet(例如，ResNet 18、ResNet 34、ResNet 50、ResNet 101、ResNet 152)、DenseNet等。过程100的各个部分可以利用先前训练的图像分类网络(例如，先前训练的CNN)结合灵敏度分析来识别视觉介质内的重要像素。灵敏度分析可以针对特定输入来计算神经网络的一个或多个网络层的激活模式的灵敏度。这种灵敏度分析的结果是得到输入(例如，到神经网络的一个或多个网络层的输入)中的每个像素的数值，该数值捕获了该像素中的小变化引起输出类别中的大变化的程度。每个像素的这些数值可以一起形成视觉介质的灵敏度图，该灵敏度图对对于对象分类很重要的图像区域进行编码。一旦确定了重要图像区域，就可以将掩模(即视觉掩模)应用到视觉介质，以滤除所有不重要的图像区域(即不相关区域)。

在105处，处理器接收视觉介质。视觉介质可以是包含视觉信息的数据集。例如，视觉介质可以是计算机图像、摄影图像、视频、视频流、视频的静止帧等。在一个实施方式中，视觉介质还可包含音频数据。在这种实施方式中，视觉介质可以是音乐视频、电影等。视觉介质可以是压缩(无损或有损)格式，例如但不限于，联合图像专家组(Joint PhotographicExperts Group，JPEG)、标记图像文件格式(Tagged Image File Format，TIFF)、便携式网络图形(Portable Network Graphics，PNG)、Windows媒体视频(Windows Media Video，WMV)、音视频交错格式(Audio Video Interleave，AVI)等。

在110处，处理器将视觉介质分离为多通道(例如，红-绿-蓝(RGB))图像。彩色、灰度和黑白数字图像由多个像素组成。这些像素中的每一者可以是一种或多种基色的组合。每个基色可以表示为一通道。在RGB图像中，存在表示根据红色的视觉介质的红色通道、表示根据绿色的视觉介质的绿色通道、以及表示根据蓝色的视觉介质的蓝色通道。因此，视觉介质由三个图像组成，每个通道一个图像。除了RGB通道外，还可以有其他类型的通道，这些通道能够用来分解视觉介质。例如，YUV通道、青色-品红色-黄色-黑色(CMYK)通道、色相饱和度值(HSV)通道等。不管使用的通道如何，处理器都将视觉介质分离为包括该视觉介质的通道。

在115处，处理器将多通道图像传递通过第一神经网络的卷积层。如前所述，过程100可以利用深度CNN。这种深度CNN可以包括但不限于，LeNet、AlexNet、VGGNet 16、GoogleNet、ResNets等。通常，深度CNN包括多个卷积层。到卷积层的输入是先前卷积层的输出，并且在第一卷积层的情况下，输入是代表视觉介质的像素值的阵列。例如，可以接收1920×1080×3的像素阵列(即全高清(HD)RGB像素阵列)作为到第一卷积层的输入。在每个卷积层中，内核(也称为滤波器或神经元)或多个内核可以在输入像素阵列上卷积。内核是值的阵列，这些值指示某种类型的特征。将内核应用于输入像素阵列以通过以卷积的方式将内核中的值乘以像素阵列中的像素来确定一个或多个特征。该乘法过程的结果是得到激活图(例如，激活滤波器)，激活图指示输入像素阵列内可能包含内核所指示的特征的区域。激活图是像素值的阵列。激活图可以是到后续卷积层的输入。后续卷积层中的后续内核指示的特征可以随每个后续卷积层而变得更加详细。例如，在第一卷积层中，第一内核可指示曲线，在第二卷积层中，第二内核可指示具有线的曲线，如此等等，直到在最后的卷积层中，最后一个内核可指示狗的爪子。每个后续卷积层中的内核可以建立在先前卷积层中检测到的内容上。另外，每个卷积层中可以有多个内核试图并行检测不同的对象。因此，随着CNN中卷积层的每次迭代，可以识别视觉介质中越来越多的细节。在最后一个卷积层上，可以产生一个或多个注意力图，这些注意力图是可以指示视觉介质内的高层次特征(例如鸟嘴、狗爪、轮胎等)的激活图。

在120处，处理器为在115处产生的一个或多个注意力图计算格式塔总和(GestaltTotal，GT)。在一个实施方式中，可以通过使用以下公式首先为每个注意力图计算全局平均池化(Global Average Pooling，GAP)值来计算GT：

F^k是滤波器k的GAP，f_k(x,y)是在空间位置(x,y)从滤波器k产生的注意力图的像素值。每个注意力图可以是指示视觉输入内的特征的一个或多个滤波器的结果。但是，无论贯穿CNN使用了多少个滤波器，在最后一个卷积层中每个注意图可以只存在一个最终滤波器。例如，如果最终卷积层产生了6个注意力图，那么可以也有6个最终滤波器用来产生这6个注意力图。在确定了每个注意力图的GAP之后，可以使用以下公式计算GT：

因此，GT可以聚集每个注意力图的GAP值。虽然GT的结果是标量值，但它通过提供一种方法来识别对最终卷积层活动有最大影响的像素(例如，最终卷积层产生的(一个或多个)注意力图)而承载了有价值的信息。影响最大的像素可以通过灵敏度分析来识别。

在125处，处理器基于先前计算的GT来进行灵敏度分析。当修改原始视觉介质的像素时，灵敏度分析确定灵敏度或GT的值的变化。可以使用以下公式进行灵敏度分析：

该公式是在点X＝Ii处的GT的导数(或偏导数)。X是视觉介质或被分离为多通道图像(例如，RGB图像)的视觉介质，并且Ii∈R^x*y*z是进入CNN的第i个视觉介质。R^x*y*z是域，Ii是该域的成员，x是像素宽度，y是像素高度，z是通道数。例如，在110处，视觉介质在分解成RGB图像时可以具有以下值：x＝1920，y＝1080，以及z＝3，其指示存在具有1920×1080个输入的3个通道。S可以表示为S∈R^x*y*z(可以称为灵敏度图)。可以为进入CNN的所有输入计算导数，在RGB图像的情况下，这可以每个像素包括三个通道。但是，腹侧网络的目的是引导空间注意力。因此，与确定每个通道内的每个像素位置的相关性的度量(measure)相反，可以确定每个像素位置的相关性的单个度量。

在130处，处理器确定多个像素位置的相关性的单个度量。可以有不同的方法来确定每个像素位置的相关性的单个度量。一个实施方式可以涉及使用以下公式对通道之间的导数值求平均：

k是输入到CNN中的通道数(例如，在RGB图像的情况下为3)，

是聚集导数的R^x*y结果。因此，可以利用灵敏度分析来确定位于x，y处的像素的重要性。替选的聚集方法可以是通过使用以下公式而使用通道之间的最大导数：

无论使用的方法如何，得到的

都将在所指示的像素水平上提供相关性的度量。

在135处，处理器将平滑滤波器应用于

为了将每个像素位置的相关性的度量转换到较大的相关性区域中，可以将平滑滤波器(例如，高斯滤波器、维纳滤波器、均值滤波器、最小值滤波器、最大值滤波器、中值滤波器等)用

卷积以生成平滑注意力图。为了从得到的平滑注意力图提取不同区域，可以将像素分类为相关的或不相关的。可以通过将平滑注意力图中低于掩模阈值的任何像素值设置为零来执行这种分类。可以将平滑注意力图中高于掩模阈值的像素值设置为一。在一个实施方式中，掩模阈值可以是平滑注意力图的平均像素值。结果是包含二进制值的阵列(或任何其他适当的数据结构)的视觉掩模，该二进制值的阵列可以在视觉介质的多个通道上重复。在140处，例如通过元素智能乘法(element-wise multiplication)将视觉掩模应用于视觉介质。然后可以将该修改后的图像(即，被掩模的视觉介质)提供给背侧网络。

过程100描述了用于确定视觉介质中的每个像素的数值的方法，该数值捕获了该像素中的小变化引起GT值的大变化的程度。这些数值形成视觉介质的灵敏度图，其指示视觉介质的哪些部分是相关的(对于图像分类很重要)。通过使用偏导数测量灵敏度，可以快速计算灵敏度。另外，偏导数计算不是计算上昂贵的功能。使用偏导数用于灵敏度分析可产生强大的定位性能，该定位性能可以快速执行而无需修改下层的CNN。因此，灵敏度分析可以与现有的CNN结合使用。

过程100描述了用于根据基于注意力的对象检测来确定视觉介质的相关部分的特定方法。然而，替选实施方式可以使用任何类型的基于注意力的对象检测，只要可以识别视觉介质的相关部分和不相关部分即可。这种基于注意力的对象检测CNN的示例可以是类激活图(Class Activation Map)、GradCAM等。一旦识别了视觉介质的相关部分，就可以生成视觉掩模以去除视觉介质的不相关部分。

图2示出根据本文描述的一个或多个实施方式的示例性过程200。过程200可以是由背侧网络执行以进行监督对象检测的过程。过程200可以由处理器执行，该处理器从背侧网络存储模块中检索一个或多个操作指令。除非特别提出或逻辑上要求，否则执行过程步骤的顺序不是强制性的。过程200可以是用于对象分类的过程。对象分类可以被定义为识别视觉介质内的(一个或多个)对象的过程。过程200描述了使用深度CNN进行对象分类的新方法。深度CNN可包括但不限于，Faster-RCNN、Fast-RCNN、R-CNN、Mask-RCNN、你只用看一遍(YOLO)等。在一个实施方式中，用于对象分类的过程200所利用的深度CNN不同于用于对象定位的过程100所利用的深度CNN。过程200的各个部分可以利用先前训练的图像分类网络(例如，先前训练的CNN)来检测和识别被掩模的视觉介质内的一个或多个对象。被掩模的视觉介质可以包括视觉介质的一个或多个部分。在一个实施方式中，被掩模的视觉介质是视觉介质中包含相关区域的部分。通过在被掩模的视觉介质上执行对象分类，视觉介质内的候选区域的空间减小。因此，大大减少了执行视觉介质内的对象分类所需的计算资源和持续时间。

在205处，处理器接收被掩模的视觉介质。被掩模的视觉介质可包含视觉介质中的一部分。在一个实施方式中，被掩模的视觉介质由过程100的一个或多个部分确定。过程200被用于通过利用被掩模的视觉介质对对象进行分类而对视觉介质内的对象进行分类。在一个实施方式中，被掩模的视觉介质可由处理器从一个或多个存储位置检索。

在210处，处理器将被掩模的视觉介质传递通过第二神经网络的卷积层以识别被掩模的视觉介质内的感兴趣区域。如前所述，第二神经网络可以是深度CNN，例如Faster-RCNN。在常规方法中，这种第二神经网络将用于完整的视觉介质上而不是视觉介质的一部分(即被掩模的视觉介质)上。通过使用较小的文件，与将整个视觉介质传递通过第二神经网络相比，大大减少了将被掩模的视觉介质经传递通过同一神经网络所花费的时间量。此外，因为被掩模的视觉介质包含视觉介质的相关区域，所以与在整个视觉介质上使用CNN相比，由同一CNN实现的对象分类可以更准确。第二神经网络可以是深度CNN，该深度CNN经训练以使用锚框提议感兴趣区域，处理这些区域的内容，并输出类别标签和边界框坐标。使用图像的数据集训练第二神经网络，这些图像标注有地面实况类别标签和地面实况边界框。选择第二神经网络参数以最小化分类损失和由边界框坐标的输出引起的回归损失的组合。一旦第二神经网络识别了被掩模的视觉介质内的感兴趣区域(包括感兴趣对象)，就生成特征图。

在215处，处理器通过特征图识别被掩模的视觉介质内的一个或多个对象分类。一旦确定了特征图，就可以利用第二神经网络来识别被掩模的视觉介质内的提议区域，并将提议区域包到边界框中。利用第二神经网络的感兴趣区域(ROI)池化层，边界框可以重新成形为固定大小，以便可以将边界框馈送到第二神经网络的完全连接的层中。根据ROI特征向量，可以利用神经网络的softmax层来预测ROI的类别以及与(一个或多个)ROI相关联的(一个或多个)边界框的偏移值。

在220处，处理器输出具有围绕感兴趣对象的边界框的视觉介质。过程200的最终结果是得到具有边界框的视觉介质，这些边界框围绕视觉介质中的各种对象。各种对象可以是位于被掩模的视觉介质内的感兴趣区域中的感兴趣对象。边界框还可以指示相应对象的分类。例如，分类可以是人、鸟、自行车等。通过向视觉介质提供边界框和分类，人可以清楚地确认和识别视觉介质内的已识别对象。

过程100和过程200的结合可以通过在部分图像区域上引导监督对象分类机制来潜在地加速对象检测处理。这些部分图像区域可以通过基于注意力的对象定位机制(例如，过程100)来确定。除了加速对象分类之外，从到对象分类神经网络的输入中去除不相关材料(例如，过程200)可以提高对象检测和分类的准确性。结合过程100和过程200的方法受到人脑视觉系统的启发。

图3示出根据本发明的一些实施方式的简化的计算机系统300。图3提供了计算机系统300的一个实施方式的示意图，该计算机系统300可以执行各个实施方式提供的方法的一些或全部步骤。应该注意的是，图3仅意在提供各种组件的一般性图示，可以适当地利用它们中的任何一者或全部。因此图3宽泛地示出可以如何以相对分离或相对更集成的方式来实现各个系统元件。

示出的计算机系统300包括可以通过总线305电联接的、或者可以适当地以其他方式通信的硬件元件。硬件元件可以包括：一个或多个处理器310，包括但不限于，一个或多个专用处理器，例如数字信号处理芯片、图形加速处理器等；一个或多个输入设备315，其可以包括但不限于鼠标、键盘、照相机等；一个或多个输出设备320，其可以包括但不限于显示设备、打印机等。

计算机系统300还可以包括一个或多个暂非时性存储设备325和/或与一个或多个非暂时性存储设备325通信，非暂时性存储设备325可以包括但不限于，本地和/或网络可访问的存储器、和/或可以包括但不限于，磁盘驱动器、驱动器阵列、光存储设备、固态存储设备和/或可以是可编程的、闪存可更新的只读存储器(“ROM”)等。这种存储设备可以被配置为实现任何适当的数据存储，包括但不限于，各种文件系统、数据库结构等。

计算机系统300也可包括通信子系统330，该通信子系统330可以包括但不限于，调制解调器、网卡(无线或有线)、红外通信设备、无线通信设备和/或芯片组(例如蓝牙^TM设备)、802.11设备、WiFi设备、WiMax设备、蜂窝通信设施等。通信子系统330可以包括一个或多个输入和/或输出通信接口，以允许与网络(例如以下描述的网络)交换数据以指定一个示例、其他计算机系统、电视和/或本文描述的任何其他设备。取决于期望的功能和/或其他关心的实现方式，便携式电子设备或类似设备可以通过通信子系统330来传送图像和/或其他信息。在其他实施方式中，便携式电子设备(例如第一电子设备)可以(例如作为输入设备315的电子设备)被并入计算机系统300中。在一些实施方式中，计算机系统300还将包括工作存储器335，其可以包括ROM设备，如上所述。

计算机系统300还可以包括被示为当前位于工作存储器335内的软件元件，软件元件包括操作系统340、设备驱动器、可执行库和/或其他代码(例如一个或多个应用程序345)，它们可包括由各种实施方式提供的计算机程序、和/或可被设计为实现如由本文所述的其他实施方式提供的方法和/或配置系统。应用程序345可以包括背侧网络模块350和腹侧网络模块355。背侧网络模块350可以包括指令，该指令在由处理器310执行时使处理器310将输入的视觉介质传递通过第一神经网络的一个或多个卷积层。因此，背侧网络模块350可以存储用于运行第一神经网络的信息。腹侧网络模块355可以包括指令，该指令在由处理器310执行时使处理器310将输入的被掩模的视觉介质传递通过第二神经网络的一个或多个卷积层，并输出具有所识别的一个或多个对象的视觉介质。因此，腹侧网络模块355可以存储用于运行第二神经网络的信息并输出具有边界框的视觉介质，这些边界框指示视觉介质内的一个或多个对象。

这些指令和/或代码的集合可以存储在非暂时性计算机可读存储介质(例如(一个或多个)上述存储设备325)上。在某些情况下，存储介质可被并入计算机系统(例如计算机系统300)内。在其他实施方式中，存储介质可以与计算机系统分开，存储介质例如诸如光盘的可移除介质，和/或存储介质以安装包的形式提供，使得存储介质可以用于编程、配置和/或适应其上存储有指令/代码的计算机。这些指令可以采取可执行代码的形式(可执行代码可以由计算机系统300执行)和/或可以采取源代码和/或可安装代码的形式，这些指令例如在使用各种可用的编译器、安装程序、压缩/解压缩实用程序等中的任一者在计算机系统300上编译和/或安装时，则采用可执行代码的形式。

对于本领域技术人员将明显的是，可以根据特定要求做出实质性的变化。例如，也可以使用定制的硬件，和/或可以在硬件、软件(包括便携式软件，例如小应用程序等)、或硬件和软件两者中实现特定元件。此外，可以采用与其他计算设备(诸如网络输入/输出设备)的连接。

如上所述，在一方面，一些实施方式可以采用计算机系统(诸如计算机系统300)来执行根据本技术的各种实施方式的方法。根据一组实施方式，计算机系统300响应于处理器310执行一个或多个指令的一个或多个序列来执行这些方法的一些或全部过程，该一个或多个指令可以被并入操作系统340和/或包含在工作存储器335中的其他代码(例如应用程序345)中。这种指令可以从另一计算机可读介质(例如(一个或多个)存储设备325中的一者或多者)读入工作存储器335中。仅作为示例，包含在工作存储器335中的指令序列的执行可以使(一个或多个)处理器310执行本文所述方法的一个或多个过程。附加地或可替选地，本文描述的方法的一部分可以通过专用硬件来执行。

如本文中所使用的，术语“机器可读介质”和“计算机可读介质”是指参与提供使机器以特定方式运行的数据的任何介质。在使用计算机系统300实现的实施方式中，各种计算机可读介质可被涉及以向(一个或多个)处理器310提供指令/代码，以用于执行和/或可用于存储和/或承载这种指令/代码。在许多实施方式中，计算机可读介质是物理和/或有形存储介质。这种介质可以采取非易失性介质或易失性介质的形式。非易失性介质包括例如光盘和/或磁盘，例如(一个或多个)存储设备325。易失性介质包括但不限于，动态存储器，例如工作存储器335。

物理和/或有形计算机可读介质的常见形式包括，例如软盘、软磁盘、硬盘、磁带或任何其他磁介质、CD-ROM、任何其他光学介质、打孔卡、纸带、具有孔图案的任何其他物理介质、RAM、PROM、EPROM、FLASH-EPROM、任何其他存储芯片或盒式磁带、或计算机可以从中读取指令和/或代码的任何其他介质。

各种形式的计算机可读介质可被涉及以将一个或多个指令的一个或多个序列传送到(一个或多个)处理器310以用于执行。仅作为示例，指令可以初始地被承载在远程计算机的磁盘和/或光盘上。远程计算机可以将指令加载到其动态存储器中，并通过传输介质将指令作为信号发送，以由计算机系统300接收和/或执行。

通信子系统330和/或其组件通常将接收信号，然后总线305可将信号和/或信号所承载的数据、指令等提供到工作存储器335，(一个或多个)处理器310从工作存储器335中检索并执行指令。工作存储器335接收到的指令可以可选地在由(一个或多个)处理器310执行之前或之后存储在非暂时性存储设备325上。

上文讨论的方法、系统和设备均是示例。各种配置可以适当地省略、替代或添加各种过程或组件。例如，在替选配置中，可以以与所描述的顺序不同的顺序执行所述方法，和/或可以添加、省略和/或组合各个阶段。而且，关于某些配置描述的特征可以在各种其他配置中组合。可以以类似的方式组合配置的不同方面和元件。而且，技术在发展，因此，许多元件是示例，并且不限制本发明或权利要求的范围。

在说明书中给出了具体细节，以提供对包括各实现方式的示例性配置的透彻理解。然而，可以在没有这些具体细节的情况下实践配置。例如，已经示出了公知的电路、过程、算法、结构和技术，而没有不必要的细节，以避免使配置模糊。该描述仅提供示例性配置，并且不限制权利要求的范围、适用性或配置。相反，配置的先前描述将向本领域技术人员提供用于实现所描述的技术的使能描述。在不脱离本发明的精神或范围的情况下，可以对元件的功能和布置进行各种改变。

而且，可以将配置描述为过程，该过程被描述为示意性流程图或框图。尽管每者都可以将操作描述为顺序过程，但是许多操作可以并行或同时执行。另外，可以重新排列操作的顺序。例如，过程100和/或过程200包含一个或多个部分，这些部分可以以分别与图1和图2所示的顺序不同的顺序执行。过程可具有图中未包括的其他步骤。此外，可以通过硬件、软件、固件、中间件、微代码、硬件描述语言或其任意组合来实现方法的示例。当以软件、固件、中间件或微代码实现时，用于执行必要任务的程序代码或代码段可以存储在诸如存储介质的非暂时性计算机可读介质中。处理器可以执行所描述的任务。

已经描述了多个示例性配置，在不脱离本发明的精神的情况下，可以使用各种修改、替选构造和等同形式。例如，以上元件可以是更大系统的组件，其中，其他规则可以优先于或以其他方式修改本技术的应用。而且，在考虑以上元件之前、期间或之后可以采取许多步骤。因此，以上描述不限制权利要求的范围。

如本文和所附权利要求书中所使用的，单数形式“一”和“该”包括复数的指代物，除非上下文另外明确指示。因此，例如，提及“一用户”包括多个这种用户，而提及“该处理器”包括提及一个或多个处理器及本领域技术人员已知的其等同形式，等等。

而且，当在本说明书和所附权利要求书中使用时，词语“包括”、“包含”和“含有”旨在指定存在所述特征、整数、组件或步骤，但是它们并不排除一个或多个其他特征、整数、组件、步骤、动作或组的存在或附加。

Claims

1.一种用于检测视觉介质内的对象的计算机实现的方法，包括：

接收包括多个对象的视觉介质；

通过第一神经网络，识别所述视觉介质内的一个或多个相关视觉区域和一个或多个不相关视觉区域；

至少基于所述一个或多个不相关视觉区域，生成视觉掩模，所述视觉掩模包括包含像素值的数据结构；

应用所述视觉掩模来修改所述一个或多个不相关视觉区域的像素强度值，以产生被掩模的视觉介质；

通过第二神经网络，识别所述被掩模的视觉介质内的一个或多个感兴趣对象；以及

输出所述一个或多个感兴趣对象的标识。

2.根据权利要求1所述的计算机实现的方法，其中，与所述一个或多个相关视觉区域相关联的像素强度值为非零。

3.根据权利要求1所述的计算机实现的方法，其中，与所述一个或多个不相关视觉区域相关联的像素强度值为零。

4.根据权利要求1所述的计算机实现的方法，其中，所述第一神经网络是基于深度卷积注意力的对象检测神经网络。

5.根据权利要求1所述的计算机实现的方法，其中，所述第二神经网络是监督对象检测神经网络。

6.根据权利要求1所述的计算机实现的方法，其中，所述通过第一神经网络，识别所述视觉介质内的一个或多个相关视觉区域和一个或多个不相关视觉区域进一步包括：

从所述视觉介质中提取卷积特征，以及将所提取的卷积特征聚集到格式塔总和输出中；以及

通过灵敏度分析，识别所述视觉介质内的高于预定阈值的像素，其中，所述高于预定阈值的像素限定所述一个或多个相关视觉区域。

7.根据权利要求1所述的计算机实现的方法，其中，将所述第二神经网络用于所述视觉介质的被掩模的视觉介质部分。

8.一种非暂时性计算机可读存储介质，所述非暂时性计算机可读存储介质上存储有用于使至少一个计算机系统检测视觉介质内的对象的指令，所述指令包括：

接收包括多个对象的视觉介质；

输出所述一个或多个感兴趣对象的标识。

9.根据权利要求8所述的非暂时性计算机可读存储介质，其中，与所述一个或多个相关视觉区域相关联的像素强度值为非零。

10.根据权利要求8所述的非暂时性计算机可读存储介质，其中，与所述一个或多个不相关视觉区域相关联的像素强度值为零。

11.根据权利要求8所述的非暂时性计算机可读存储介质，其中，所述第一神经网络是基于深度卷积注意力的对象检测神经网络。

12.根据权利要求8所述的非暂时性计算机可读存储介质，其中，所述第二神经网络是监督对象检测神经网络。

13.根据权利要求8所述的非暂时性计算机可读存储介质，其中，所述通过第一神经网络，识别所述视觉介质内的一个或多个相关视觉区域和一个或多个不相关视觉区域进一步包括：

14.根据权利要求8所述的非暂时性计算机可读存储介质，其中，将所述第二神经网络仅用于所述视觉介质的被掩模的视觉介质部分。

15.一种用于检测视觉介质内的对象的系统，包括：

一个或多个处理器；以及

与所述一个或多个处理器联接的存储器，所述存储器被配置为存储指令，所述指令在由所述一个或多个处理器执行时使所述一个或多个处理器执行以下操作：

接收包括多个对象的视觉介质；

输出所述一个或多个感兴趣对象的标识。

16.根据权利要求15所述的系统，其中，与所述一个或多个相关视觉区域相关联的像素强度值为非零。

17.根据权利要求15所述的系统，其中，与所述一个或多个不相关视觉区域相关联的像素强度值为零。

18.根据权利要求15所述的系统，其中，所述第一神经网络是基于深度卷积注意力的对象检测神经网络。

19.根据权利要求15所述的系统，其中，所述第二神经网络是监督对象检测神经网络。

20.根据权利要求15所述的系统，其中，所述通过第一神经网络，识别所述视觉介质内的一个或多个相关视觉区域和一个或多个不相关视觉区域进一步包括：