CN109670523A

CN109670523A - 用包括跟踪网的卷积神经网络获取与图像中的对象对应的边界框的方法和使用其的计算装置

Info

Publication number: CN109670523A
Application number: CN201811191036.7A
Authority: CN
Inventors: 金镕重; 南云铉; 夫硕焄; 成明哲; 吕东勋; 柳宇宙; 张泰雄; 郑景中; 诸泓模; 赵浩辰
Original assignee: Chastelard Vision Inc
Current assignee: Chastelard Vision Inc
Priority date: 2017-10-13
Filing date: 2018-10-12
Publication date: 2019-04-23
Anticipated expiration: 2038-10-12
Also published as: EP3471026C0; EP3471026B1; US9946960B1; JP2019075116A; JP6646124B2; KR102192830B1; KR20190041923A; EP3471026A1; CN109670523B

Abstract

提供了一种获取与对象相对应的边界框的方法。该方法包括以下步骤：(a)获取建议框；(b)通过参考(i)将参考边界框与建议框之间的距离进行比较的结果和/或(ii)将表示建议框是否包括对象的分数进行比较的结果，在建议框中选择特定建议框，然后设置特定建议框作为跟踪框的起始区域；(c)通过使用均值漂移跟踪算法确定当前帧的特定区域作为跟踪框的目标区域；以及(d)允许池化层通过将池化运算应用于对应于特定区域的区域生成池化特征图，然后允许FC层通过对池化特征图应用回归运算来获取边界框。

Description

用包括跟踪网的卷积神经网络获取与图像中的对象对应的边界框的方法和使用其的计算装置

技术领域

本发明涉及一种利用包括跟踪网的卷积神经网络(CNN)获取与测试图像中的对象相对应的边界框的方法和使用该方法的测试装置；更具体地，涉及通过使用包括跟踪网的CNN获取与测试图像中的至少一个对象相对应的至少一个边界框的方法，以及执行该方法的测试装置，所述方法包括以下步骤：(a)如果通过对作为当前帧的测试图像应用卷积运算而生成特征图，然后输出通过由区域建议网络(RPN)对特征图应用特定操作而得到的关于多个建议框的信息，则测试装置获取或支持另一装置获取多个建议框；(b)测试装置通过参考以下至少一项在多个建议框中选择或支持另一装置在多个建议框中选择至少一个特定建议框：(i)将前一帧中的对象的参考边界框与多个建议框的每一个之间的每个距离进行比较的结果以及(ii)将作为指示建议框的每一个是否包括对象的概率值的每个分数进行比较的结果，然后设置或支持另一装置设置特定建议框作为跟踪框的起始区域，其中，起始区域用于均值漂移跟踪算法；(c)通过使用均值漂移跟踪算法，测试装置确定或支持另一装置确定当前帧的特定区域作为跟踪框的目标区域，该特定区域具有关于和与前一帧中的对象的像素数据对应的概率类似的概率的信息；以及(d)测试装置允许池化层通过对特征图中对应于特定区域的区域应用池化运算生成池化特征图，然后允许FC层通过对池化特征图应用回归运算来获取边界框。

背景技术

在机器学习中，卷积神经网络(CNN或ConvNet)是一类深度前馈人工神经网络，已成功应用于分析视觉意象。

图1是示意性地示出根据现有技术的传统CNN的学习过程的图。

具体地，图1示出了通过将预测边界框与地面真值(GT)边界框进行比较来获取损失的过程。这里，损失代表预测边界框和GT边界框之间的差异，并表示为dx_c、dy_c、dw、dh，如图1所示。

首先，如图1所示，学习装置可以获取RGB图像作为输入以被馈送到包括在卷积块中的多个卷积层(即卷积滤波器)。当RGB图像通过多个卷积层时，RGB图像的大小(例如，宽度和高度)变小，而通道数增加。

如图1所示，学习装置允许区域建议网络(RPN)从由卷积块输出的最终特征图生成建议框，并允许池化层(例如ROI池化层)通过对特征图上与建议框对应的区域的像素数据应用最大池化运算(或平均池化运算)将特征图上与建议框对应的区域的大小调整到预定大小(例如，大小为2×2)。因此，获取了池化特征图。作为参考，池化特征图也可以称为特征向量。这里，最大池化运算是这样的运算：通过该运算，从特征图上的主题区域划分的子区域的每一个中的每个最大值被选择作为主题区域的代表值的每一个，如图1的右下方所示。

接下来，可以允许池化特征图被馈送到完全连接(FC)层。

然后，学习装置可以允许FC层识别RGB图像中的对象的类别。另外，可以通过FC层获取RGB图像中的预测边界框，并且还可以通过在预测边界框和地面真值(GT)边界框之间进行比较来获取损失。这里，GT边界框表示精确地围绕RGB图像中的对象的边界框，其通常可以由人为准备。

最后，图1中的学习装置可以通过在反向传播过程期间使用损失来调整包括在FC层、RPN或多个卷积层中的参数中的至少一个。

此后，具有包括调整后的参数的CNN的测试装置(未示出)可以稍后获取围绕测试图像中的对象的边界框。然而，即使测试装置具有包括调整后的参数的CNN，也很难获得精确地围绕测试图像中的对象的边界框。

因此，本发明的申请人提出了一种用于以高精度获取与测试图像中的至少一个对象相对应的至少一个边界框的方法。

发明内容

本发明的一个目的是解决上述问题。

本发明的另一个目的是提供一种使用包括在CNN中的跟踪网来获取与图像中的对象相对应的高精度的边界框的方法。

本发明的另一个目的是通过使用均值漂移跟踪算法更精确地跟踪对象。

本发明的另一个目的是通过使跟踪网重用(reuse)包括在CNN中的检测网络中的分类器和回归器来增加跟踪结果的可靠性以及验证结果。

根据本发明的一个方面，提供了一种通过使用包括跟踪网的CNN获取与测试图像中的至少一个对象相对应的至少一个边界框的方法，包括以下步骤：(a)如果通过对作为当前帧的测试图像应用卷积运算而生成特征图，然后输出通过由区域建议网络(RPN)对特征图应用特定操作而得到的关于多个建议框的信息，则测试装置获取或支持另一装置获取多个建议框；(b)通过参考(i)将前一帧中的对象的参考边界框与多个建议框的每一个之间的每个距离进行比较的结果以及(ii)将作为指示建议框的每一个是否包括对象的概率值的每个分数进行比较的结果中的至少一者，测试装置在多个建议框中选择或支持另一装置在多个建议框中选择至少一个特定建议框，然后设置或支持另一装置设置特定建议框作为跟踪框的起始区域，其中，起始区域用于均值漂移跟踪算法；(c)通过使用均值漂移跟踪算法，测试装置确定或支持另一装置确定当前帧的特定区域作为跟踪框的目标区域，该特定区域具有关于和与前一帧中的对象的像素数据对应的概率类似的概率的信息；以及(d)测试装置允许池化层通过对特征图中对应于特定区域的区域应用池化运算生成池化特征图，然后允许FC层通过对池化特征图应用回归运算来获取边界框。

根据本发明的另一方面，提供了一种通过使用包括跟踪网和检测网络的CNN获取与测试图像中的对象相对应的边界框的方法，包括以下步骤：(a)如果通过对作为当前帧的测试图像应用卷积运算而生成特征图，然后输出通过由区域建议网络(RPN)对特征图应用特定操作而得到的关于多个建议框的信息，则测试装置获取或支持另一装置获取多个建议框；(b)(b-1)通过参考(i)将前一帧中的对象的参考边界框与多个建议框的每一个之间的每个距离进行比较的结果以及(ii)将作为指示建议框的每一个是否包括对象的概率值的每个分数进行比较的结果中的至少一者，测试装置在多个建议框中选择或支持另一装置在多个建议框中选择至少一个特定建议框，然后设置或支持另一装置设置特定建议框作为跟踪框的起始区域，其中，起始区域用于均值漂移跟踪算法；(b-2)测试装置设置或支持另一装置设置多个建议框中尚未设置为跟踪框的至少一些建议框作为多个未跟踪框；以及(c)(c-1)在步骤(b-1)之后，通过使用均值漂移跟踪算法，测试装置确定或支持另一装置确定当前帧的特定区域作为跟踪框的目标区域，该特定区域具有关于和与前一帧中的对象的像素数据对应的概率类似的概率的信息；并且允许第一池化层通过将池化运算应用于特征图中对应于特定区域的区域来生成第一池化特征图，然后允许FC层通过将回归运算应用于第一池化特征图来获取第一边界框；(c-2)在步骤(b-2)之后，测试装置允许第二池化层通过对特征图上与多个未跟踪框的至少一个对应的区域应用池化运算来生成第二池化特征图；并且，如果FC层通过对第二池化特征图应用分类操作来检测新对象，则所述测试装置允许FC层通过对第二池化特征图应用回归运算来获取第二边界框。

根据本发明的另一方面，提供了一种通过使用包括跟踪网的CNN获取与测试图像中的至少一个对象相对应的至少一个边界框的测试装置，包括：通信部，用于获取测试图像或从其转换的特征图；以及处理器，用于执行以下处理：(I)如果通过对作为当前帧的测试图像应用卷积运算而获取特征图，然后输出通过由区域建议网络(RPN)对特征图应用特定操作而得到的关于多个建议框的信息，则获取或支持另一装置获取多个建议框；(II)通过参考(i)将前一帧中的对象的参考边界框与多个建议框的每一个之间的每个距离进行比较的结果以及(ii)将作为指示建议框的每一个是否包括对象的概率值的每个分数进行比较的结果中的至少一者，在多个建议框中选择或支持另一装置在多个建议框中选择至少一个特定建议框，然后设置或支持另一装置设置特定建议框作为跟踪框的起始区域，其中，起始区域用于均值漂移跟踪算法；(III)通过使用均值漂移跟踪算法，确定或支持另一装置确定当前帧的特定区域作为跟踪框的目标区域，该特定区域具有关于和与前一帧中的对象的像素数据对应的概率类似的概率的信息；以及(IV)允许池化层通过对特征图中对应于特定区域的区域应用池化运算生成池化特征图，然后允许FC层通过对池化特征图应用回归运算来获取边界框。

根据本发明的又一方面，提供了一种通过使用包括跟踪网和检测网络的CNN来获取与测试图像中的对象相对应的边界框的测试装置，包括：通信部，用于获取测试图像或从其转换的特征图；以及处理器，用于执行以下处理：(I)如果通过对作为当前帧的测试图像应用卷积运算而生成特征图，然后输出通过由区域建议网络(RPN)对特征图应用特定操作而得到的关于多个建议框的信息，则获取或支持另一装置获取多个建议框；(II)(II-1)通过参考(i)将前一帧中的对象的参考边界框与多个建议框的每一个之间的每个距离进行比较的结果以及(ii)将作为指示建议框的每一个是否包括对象的概率值的每个分数进行比较的结果中的至少一者，在多个建议框中选择或支持另一装置在多个建议框中选择至少一个特定建议框，然后设置或支持另一装置设置特定建议框作为跟踪框的起始区域，其中，起始区域用于均值漂移跟踪算法；(II-2)设置或支持另一装置设置多个建议框中尚未设置为跟踪框的至少一些建议框作为多个未跟踪框；以及(III)(III-1)在(II-1)的处理之后，通过使用均值漂移跟踪算法，确定或支持另一装置确定当前帧的特定区域作为跟踪框的目标区域，该特定区域具有关于和与前一帧中的对象的像素数据对应的概率类似的概率的信息；并且允许第一池化层通过将池化运算应用于特征图中对应于特定区域的区域来生成第一池化特征图，然后允许FC层通过将回归运算应用于第一池化特征图来获取第一边界框；(III-2)在(II-2)的处理之后，测试装置允许第二池化层通过对特征图上与多个未跟踪框的至少一个对应的区域应用池化运算来生成第二池化特征图；并且，如果FC层通过对第二池化特征图应用分类操作来检测新对象，则允许FC层通过对第二池化特征图应用回归运算来获取第二边界框。

附图说明

以下附图用于解释本发明的示例实施例，并且仅是本发明的优选实施例的一部分。可以基于本文的附图获得其他附图，而无需本领域技术人员的创造性工作。从以下结合附图给出的优选实施例的描述中，本发明的上述和其他目的和特征将变得明显，其中：

图1是示例性地示出根据现有技术的传统CNN的学习过程的图；

图2是示意性地示出根据本发明的一个示例实施例的测试装置的框图；

图3A是示例性地示出根据本发明的一个示例实施例的能够获取边界框的CNN的配置的框图；

图3B是示出根据本发明的一个示例实施例的通过使用包括跟踪网的CNN获取边界框的过程的流程图；

图4A是示例性地示出根据本发明另一示例实施例的能够获取边界框的CNN的配置的框图；

图4B是示出根据本发明另一示例实施例的通过使用包括跟踪网和检测网络的CNN获取边界框的过程的流程图；

图5是示出在本发明中使用的均值漂移跟踪算法的图。

具体实施方式

为了使本发明的目的、技术方案和优点清楚，参考附图，附图通过图示的方式示出了可以实践本发明的更详细的示例实施例。足够详细地描述了这些优选实施例，以使本领域技术人员能够实践本发明。

应该理解，本发明的各种实施例虽然不同，但不一定是相互排斥的。例如，在不脱离本发明的精神和范围的情况下，可以在其他实施例中实现本文中结合一个实施例描述的特定特征、结构或特性。另外，应该理解，在不脱离本发明的精神和范围的情况下，可以修改每个公开的实施例中的各个元件的位置或布置。因此，以下详细描述不应被视为具有限制意义，并且本发明的范围仅由所附权利要求限定，并由权利要求以及权利要求所赋予的等同物的全部范围适当地解释。在附图中，相同的附图标记在若干视图中指代相同或相似的功能。

在下文中，将参考附图详细描述本发明的优选实施例，以便本领域技术人员可以容易地实现本发明。

图2是示意性地示出根据本发明的一个示例实施例的测试装置的框图。

如图2所示，测试装置200可以包括通信部210和处理器220。并且，测试装置200还可以包括数据库230。视情况而定，测试装置200可以不包括数据库，如图2所示。这里，可以采用具有至少一个处理器来执行操作的任何数字计算装置作为本发明的测试装置200。

通信部210可以被配置为获取测试图像或从其获得的至少一个特征图。

处理器220可以被配置为执行以下过程：(i)在具有一定标准的RPN生成的所有建议框中选择建议框中的至少一个，即，至少一个特定建议框，(ii)设置特定建议框作为跟踪框的起始区域，其中起始区域用于跟踪算法，例如，均值漂移跟踪算法，(iii)通过使用均值漂移跟踪算法，确定特定区域作为跟踪框的目标区域，以及(iv)允许池化层通过将池化运算应用于特征图中与特定区域对应的区域来生成池化特征图，然后允许FC层通过对池化特征图应用回归运算来获取边界框。关于上述处理的更多细节将在下面描述。

同时，数据库230可以由测试装置200的通信部210访问，并且关于建议框的分数的信息、关于前一帧中的对象的参考边界框的信息以及关于CNN的参数的信息等可以存储在其中。

图3A是示例性地示出根据本发明的一个示例实施例的能够获取边界框的CNN的配置的框图，并且图3B示出了根据本发明的一个示例实施例的通过使用包括跟踪网的CNN来获取边界框的过程。

作为参考，测试装置200可以包括若干其他数字计算装置以执行本文中公开的功能或处理的每一个。尽管如此，为了便于描述和说明，在本发明的公开内容中做出了由单个数字计算装置实现测试装置200的假设。

参考图3A，如果输入图像301被发送到卷积块310，则通过将至少一个卷积运算应用于输入图像301来生成至少一个特征图。然后，将特征图转发到RPN 320以便生成建议框。

在将建议框发送到跟踪模块330之后，通过以下方式从跟踪模块330获取至少一个跟踪框：(i)在具有一定标准的建议框中选择特定建议框，以及(ii)将其设置为跟踪框的起始区域(即，初始窗口)，其中起始区域用于均值漂移跟踪算法。关于标准的详细说明将在稍后进行。

接下来，池化层340可以接收(i)来自卷积块310的特征图和(ii)来自跟踪模块330的关于跟踪框的信息，从而通过将池化运算应用于特征图中对应于跟踪框(即ROI)的区域来生成池化特征图。此后，完全连接(FC)层350可以经由分类器351识别对象类302，并且可以通过使用关于池化特征图的信息经由回归器352生成边界框303。

与包括图3A所示的包括卷积块310、RPN 320、跟踪模块330、池化层340和FC层350的CNN的测试装置200不同，根据具体情况，测试装置200中的CNN可以仅包括卷积块310、RPN320、跟踪模块330、池化层340和FC层360的一部分。

参考图3B，其具有图3A所示的配置，在步骤S311中，输入图像301(例如，具有1280×720的大小和3个通道的测试图像)被发送到卷积块310，并且作为结果，在步骤S312中，通过将卷积运算应用于输入图像301可以生成具有40×23的大小和256个通道的特征图304。这里，输入图像301可以被视为当前帧。

作为参考，卷积块310包括一个或多个卷积层。每当应用卷积运算时，输入的宽度和高度可以减小特定比率，并且通道数可以增加特定比率，但是不限于此。这里，可以基于卷积块310中包括的卷积层的参数(即，权重)来确定特定比率。

此外，在步骤S321中，RPN 320可以从特征图304生成关于建议框305的信息。作为参考，建议框305是其中的每一个具有包括输入图像301中的对象的概率的框。

进一步，在步骤S331中，测试装置200的处理器220通过参考(i)将前一帧中的对象的参考边界框307与建议框305的每一个之间的每个距离进行比较的结果以及(ii)将作为指示建议框305的每一个包括对象的概率的概率值的每个分数进行比较的结果中的至少一者，在多个建议框305中选择特定建议框306，然后测试装置200的处理器220设置特定建议框306作为跟踪框的起始区域。起始区域可以用于均值漂移跟踪算法。这里，尽管对象的参考边界框307是位于前一帧中的边界框，但是为了便于说明，图3B示出了当前帧上的参考框307。

例如，在步骤S331中，测试装置200的处理器220可以将特定建议框306确定为具有最小距离(例如，L2距离)，和/或在建议框305的各个分数中具有最高分数的建议框。

作为另一示例，测试装置200的处理器220可以将特定建议框306确定为具有L2距离/分数的最小比率的建议框。

这里，分数可以由(i)与GT边界框的区域的交叉点和建议框305的每一个的交叉点对应的区域与(ii)与GT边界框的区域的并集和建议框305的每一个的并集对应的区域的比率来表示。因此，分数可以是介于0和1之间的值。因此，在建议框305中选择的特定建议框306的概率值可以接近1。

同时，建议框305可以专用于仅同一个对象。作为另一示例，建议框305可以专用于多个对象。例如，如果生成100个建议框，则可以为对象A生成70个建议框，并且可以为对象B生成30个建议框。

然后，在步骤S341中，通过使用均值漂移跟踪算法，测试装置200的处理器220可以确定当前帧中的特定区域308作为跟踪框的目标区域，特定区域308具有关于和与前一帧中的对象的像素数据对应的概率类似的概率的信息。

这里，跟踪模块330可以使用均值漂移跟踪算法，但是对于本领域技术人员而言明显的是，跟踪算法不应限于此。

在步骤S351中，在获取跟踪框的目标区域308之后，通过将池化运算应用于特征图304中对应于目标区域308的区域来生成池化特征图(未示出)，即特征向量，然后，通过由FC层350中的回归器352对特征向量应用回归运算来生成边界框，并且可以通过由FC层350中的分类器351对特征向量应用操作来识别对象类(例如，车辆、行人、道路、建筑物等)。因此，可以经由包括跟踪网的CNN获取具有高精度的边界框。

作为参考，测试装置200可以允许跟踪模块330在当前帧中精确地找到跟踪框308的位置，并且可以指示FC层350细化跟踪框的大小，从而获得最接近GT边界框的边界框。

最后，测试装置200可以确定边界框作为参考边界框，以用于位于下一帧中的对象的跟踪框。

作为参考，图3A的配置可以称为跟踪网。

根据本发明的另一示例实施例，本发明的CNN还可以包括检测网络。关于另一示例实施例的细节可以在下面通过图4A和图4B的图示来描述。

图4A是示例性地示出根据本发明另一示例实施例的能够获取边界框的CNN的配置的框图。

参考图4A，包括在测试装置200中的CNN的配置可以包括跟踪网和检测网络。跟踪网和检测网络可以彼此共享卷积块310、RPN 320和FC层460。

视情况而定，与图4A不同，CNN可以对于每个网络包括单独的FC层。也就是说，CNN可能不共享单独的FC层之间的调整后的参数。这种CNN可以具有用于跟踪网的第一FC层和用于检测网络的第二FC层。

作为参考，在本发明的权利要求中，使用词语“FC层”而没有分离第一FC层和第二FC层，但这并不意味着在本发明的权利要求中使用的词语“FC层”不包括分离第一FC层和第二FC层的情况。

参考图4A，CNN可以接收输入图像并将其发送到卷积块310以获取特征图。然后，可以将特征图中继到RPN 320以生成建议框。例如，由RPN 320生成的建议框的数量可以是三百个，但是不限于此。

接下来，跟踪网的跟踪模块430可以接收关于建议框的信息，并且可以允许跟踪模块430内的跟踪器通过参考L2距离和/或如上所述的各个建议框的分数在建议框中选择至少一个特定建议框。例如，如果基于距前一帧的参考框的距离选择的特定建议框的数量是十个，则可以将关于其余未选择的建议框(即，未跟踪框)的信息转发到检测网络。也就是说，关于二百九十个未跟踪框的信息被转发到检测网络。

同时，根据跟踪网，通过由第一池化层440对特征图上与特定建议框对应的区域应用池化运算生成第一池化特征图；并且通过由FC层460对第一池化特征图应用回归运算来生成第一边界框。

另一方面，根据检测网络，通过由第二池化层450对特征图上与未跟踪框对应的区域应用池化运算生成第二池化特征图；并且通过由FC层460对第二池化特征图应用回归运算来获取第二边界框。

图4B是示出根据本发明另一示例实施例的通过使用包括跟踪网和检测网络的CNN获取边界框的过程的流程图。

作为参考，由于图3A和图4A中的CNN的实施例对于卷积块310和RPN320可以具有相同配置的事实，在图4B中的在步骤S410中发送输入图像、在步骤S420中生成特征图以及在步骤S430中生成建议框的过程与在图3B中描述的S311、S312和S321的过程相同。

然而，图4B中的过程与图3B中的过程的不同之处在于，不仅对跟踪框而且对未跟踪框执行处理。这里，在建议框中未被设置为跟踪框的多个建议框中的一些被设置为未跟踪框，但是不限于此。作为另一示例，可以根据一个或多个特定条件在建议框中选择未跟踪框。

作为参考，由于上面已经说明了通过使用均值漂移跟踪算法确定跟踪框的处理，因此将省略其详细说明。

在步骤S440中，测试装置200可以确定建议框的每一个是跟踪框还是未跟踪框。

如果在步骤S450中确定建议框为跟踪框，则在步骤S460中，测试装置200可以通过使用均值漂移跟踪算法来调整跟踪框的位置。详细地，在步骤S460中，通过使用均值漂移跟踪算法，测试装置200确定当前帧的特定区域作为跟踪框的目标区域，该特定区域具有关于与和前一帧中的对象的像素数据相对应的概率类似的概率的信息。此后，在步骤S470中，测试装置200通过由第一池化层440将特定区域池化来生成第一池化特征图，然后通过由FC层460对第一池化特征图应用回归运算来获取第一边界框。

否则，如果在步骤S450中确定建议框为未跟踪框，则在步骤S490中，测试装置200可以允许第二池化层450通过对特征图上与多个未跟踪框中的至少一个对应的区域应用池化运算来生成第二池化特征图；并且，如果FC层460通过对第二池化特征图应用分类操作来检测新对象，则允许FC层460通过对第二池化特征图应用回归运算来获取第二边界框。

再例如，在步骤S490之前，在步骤S480中，测试装置200可以通过参考(i)从前一帧获取的参考边界框与多个未跟踪框的每一个之间的L2距离中的每一个以及(ii)作为指示多个未跟踪框的每一个包括对象的概率的概率值的每个分数中的至少一者，在多个未跟踪框中选择至少一个特定未跟踪框。如果执行步骤S480，则在步骤S490中，测试装置200可以允许第二池化层450通过对特征图上与特定未跟踪框相对应的区域应用池化运算来生成第二池化特征图；并且，如果FC层460通过对第二池化特征图应用分类操作来检测新对象，则允许FC层460通过对第二池化特征图应用回归运算来获取第二边界框。

这里，测试装置200可以将与新对象相对应的第二边界框确定为参考边界框NEW_REF以用于包括在下一帧中的新对象的跟踪框，然后参考参考边界框NEW_REF与下一帧中的多个建议框中的每一个之间的每个距离在下一帧中设置跟踪框。

作为参考，分类操作的结果提供关于作为各种身份的对象的概率的信息。分类操作可以表示对象是车辆、乘客、背景以及道路等的概率。

图5是用于说明在本发明中使用的均值漂移跟踪算法的图。

通过参考图5，可以从特定区域510获得要跟踪的对象(例如，车辆)的直方图520。直方图是关于通过针对每种颜色对包括在对象的区域中的每个像素数进行计数并用每个像素数除总像素数而获取的概率数据的信息。

在获取直方图520的条件下，输入图像530被反投影以获取反投影图像540。这里，反投影是数字化输入图像530中的像素的多少颜色值包括在要跟踪的对象中的过程。如果将模型的直方图称为Hm并且如果输入图像I 530的每个像素x的颜色值被称为I(x)，则可以如公式w(x)＝Hm(I(x))所示获得反投影的值。

均值漂移跟踪算法可以应用于反投影的值。更具体地，由于均值漂移跟踪算法通过使用能够找到要从当前位置移动的数据分布的中心的均值漂移来跟踪图像中的对象，因此在本发明中，它用于查找当前帧中的从跟踪框的起始区域移动的特定区域，该特定区域具有关于和与前一帧中的对象的像素数据对应的概率类似的概率的信息。

作为参考，关于与前一帧中的对象的像素数据相对应的概率数据的信息可以是与前一帧中的第一边界框的像素数据和/或其中的第二边界框的像素数据相对应的直方图。

同时，在执行测试装置200的处理之前，可以通过学习装置(未示出)来调整包括在测试装置200中的CNN的至少一个参数。

详细地，在学习装置已经完成以下处理的条件下测试装置200可以执行上述步骤：(i)允许卷积层从包括用于训练的对象的训练图像获取用于训练的特征图，(ii)允许RPN获取与训练图像中与用于训练的对象相对应的用于训练的一个或多个建议框，(iii)允许池化层通过应用池化运算生成与用于训练的建议框对应的用于训练的池化特征图，(iv)允许FC层通过将回归运算应用于用于训练的池化特征图获取关于用于训练的边界框的像素数据的信息，以及(v)允许损失层通过比较关于训练图像中的边界框的像素数据的信息与GT图像中的所述边界框的像素数据的信息来获取比较数据，从而在反向传播过程中通过使用比较数据调整CNN的至少一个参数。

作为参考，可以通过第一FC层和第二FC层两者获取关于用于训练的边界框的像素数据的信息，视情况而定。如上所述，如果包括第一FC层的跟踪网和包括第二FC层的检测网络被配置为一个网络，则不必分别对第一FC层和第二FC层执行学习过程。在这种情况下，第一FC层的参数可以具有与第二FC层的参数相同的值。

根据本发明，具有获取与图像中的对象相对应的高精度边界框的效果。

根据本发明，通过使用均值漂移跟踪算法，具有更精确地跟踪对象的效果。

根据本发明，通过使跟踪网重用包括在CNN中的检测网络中的分类器和回归器，具有增加跟踪结果以及验证结果的可靠性的效果。

如上所述的本发明的实施例可以通过可记录到计算机可读介质的各种计算机装置以可执行程序命令的形式实现。计算机可读介质可以单独地或组合地包括程序命令、数据文件和数据结构。记录到介质的程序命令可以是为本发明专门设计的组件，或者对于相关领域的技术人员可用。计算机可读记录介质包括：诸如硬盘、软盘和磁带的磁介质；诸如CD-ROM和DVD的光学介质；诸如光盘的磁光介质；诸如ROM、RAM的硬件装置；以及专门用于存储和执行程序的闪存。程序命令不仅包括由编译器产生的机器语言代码，还包括可由通过计算装置执行的解释器等使用的高级代码。上述硬件装置可以不止作为软件模块工作来执行本发明的技术特征，并且它们在相反的情况下可以做同样的工作。

如上所述，已经通过诸如详细组件、有限实施例和附图的具体事项解释了本发明。虽然已经关于优选实施例示出和描述了本发明，但是，本领域技术人员将理解，在不脱离如在以下权利要求中限定的本发明的精神和范围的情况下，可以进行各种改变和修改。

因此，本发明的思想不应局限于所解释的实施例，并且以下专利权利要求以及包括与专利权利要求等同或等同的变化的所有内容都属于本发明的思想范畴。

Claims

1.一种通过使用包括跟踪网的CNN获取与测试图像中的至少一个对象相对应的至少一个边界框的方法，包括以下步骤：

(a)如果通过对作为当前帧的所述测试图像应用卷积运算而生成特征图，然后输出通过由区域建议网络(RPN)对所述特征图应用特定操作而得到的关于多个建议框的信息，则测试装置获取或支持另一装置获取所述多个建议框；

(b)所述测试装置通过参考以下至少一项在所述多个建议框中选择或支持另一装置在所述多个建议框中选择至少一个特定建议框：(i)将前一帧中的所述对象的参考边界框与所述多个建议框的每一个之间的每个距离进行比较的结果以及(ii)将作为指示所述建议框的每一个是否包括所述对象的概率值的每个分数进行比较的结果，然后设置或支持另一装置设置所述特定建议框作为跟踪框的起始区域，其中，所述起始区域用于均值漂移跟踪算法；

(c)通过使用所述均值漂移跟踪算法，所述测试装置确定或支持另一装置确定所述当前帧的特定区域作为所述跟踪框的目标区域，所述特定区域具有关于和与所述前一帧中的所述对象的像素数据对应的概率类似的概率的信息；以及

(d)所述测试装置允许池化层通过对所述特征图中对应于所述特定区域的区域应用池化运算生成池化特征图，然后允许FC层通过对所述池化特征图应用回归运算来获取边界框。

2.根据权利要求1所述的方法，其中，在所述步骤(c)中，关于与所述前一帧中的所述对象的像素数据对应的概率的所述信息是与所述前一帧中的所述边界框的像素数据相对应的直方图。

3.根据权利要求1所述的方法，还包括步骤：

(e)所述测试装置将所述边界框确定为参考边界框，以用于位于下一帧中的所述对象的跟踪框。

4.根据权利要求1所述的方法，其中，在所述步骤(b)中，如果所述对象的数量是多个，则所述测试装置通过参考以下至少一项在所述多个建议框中选择或支持另一装置在所述多个建议框中选择所述特定建议框：(i)将所述前一帧中的所述对象的所述参考边界框与所述多个建议框的每一个之间的距离的每一个进行比较的结果以及(ii)将作为指示所述建议框的每一个是否包括所述对象的概率值的每个分数进行比较的结果，然后设置或支持另一装置设置所述特定建议框的每一个作为所述跟踪框的每一个的每个起始区域。

5.根据权利要求1所述的方法，其中，在所述步骤(b)中，位于所述前一帧中的所述对象的所述参考边界框与所述多个建议框中的每一个之间的距离是所述参考边界框的中心坐标与所述多个建议框中的每一个的中心坐标之间的L2距离。

6.根据权利要求1所述的方法，其中，在学习装置已经完成以下处理的条件下所述测试装置执行所述步骤(a)至所述(d)：(i)允许卷积层从包括用于训练的对象的训练图像获取用于训练的特征图，(ii)允许所述RPN获取与所述训练图像中与用于训练的所述对象相对应的用于训练的一个或多个建议框，(iii)允许所述池化层通过应用池化运算生成与用于训练的建议框对应的用于训练的池化特征图，(iv)允许所述FC层通过将回归运算应用于用于训练的所述池化特征图获取关于用于训练的边界框的像素数据的信息，以及(v)允许损失层通过比较所述训练图像中的所述边界框的像素数据的信息与GT图像中的所述边界框的像素数据的信息来获取比较数据，从而在反向传播过程中通过使用所述比较数据调整所述CNN的至少一个参数。

7.根据权利要求1所述的方法，其中，在所述步骤(d)中，通过生成所述池化特征图然后通过所述FC层应用所述回归运算的处理，所述测试装置获取或支持另一装置获取所述边界框，所述边界框的大小被调整为对应于所述测试图像中的所述对象。

8.一种通过使用包括跟踪网和检测网络的CNN获取与测试图像中的对象相对应的边界框的方法，包括以下步骤：

(b)(b-1)所述测试装置通过参考以下至少一项在所述多个建议框中选择或支持另一装置在所述多个建议框中选择至少一个特定建议框：(i)将前一帧中的所述对象的参考边界框与所述多个建议框的每一个之间的每个距离进行比较的结果以及(ii)将作为指示建议框的每一个是否包括所述对象的概率值的每个分数进行比较的结果，然后设置或支持另一装置设置所述特定建议框作为跟踪框的起始区域，其中，所述起始区域用于均值漂移跟踪算法；(b-2)所述测试装置设置或支持另一装置设置所述多个建议框中尚未设置为跟踪框的至少一些建议框作为多个未跟踪框；以及

(c)(c-1)在所述步骤(b-1)之后，通过使用所述均值漂移跟踪算法，所述测试装置确定或支持另一装置确定所述当前帧的特定区域作为所述跟踪框的目标区域，所述特定区域具有关于和与所述前一帧中的所述对象的像素数据对应的概率类似的概率的信息；并且允许第一池化层通过将池化运算应用于所述特征图中对应于所述特定区域的区域来生成第一池化特征图，然后允许FC层通过将回归运算应用于所述第一池化特征图来获取第一边界框；(c-2)在所述步骤(b-2)之后，所述测试装置允许第二池化层通过对所述特征图上与所述多个未跟踪框的至少一个对应的区域应用池化运算来生成第二池化特征图；并且，如果所述FC层通过对所述第二池化特征图应用分类操作来检测新对象，则所述测试装置允许所述FC层通过对所述第二池化特征图应用回归运算来获取第二边界框。

9.根据权利要求8所述的方法，其中，在所述步骤(c-2)中，所述测试装置将与所述新对象相对应的所述第二边界框确定为参考边界框，以用于包括在下一帧中的所述新对象的跟踪框。

10.根据权利要求8所述的方法，其中，在所述步骤(b-2)中，通过参考以下至少一项在所述多个未跟踪框中选择至少一个特定未跟踪框：(i)从所述前一帧获取的所述参考边界框与所述多个未跟踪框中的每一个之间的L2距离的每一个以及(ii)作为指示所述多个未跟踪框的每一个是否包括所述对象的概率值的每个分数，并且其中，在所述步骤(c-2)中，所述测试装置允许所述第二池化层通过对所述特征图上与所述特定未跟踪框相对应的区域应用池化运算来生成所述第二池化特征图；并且，如果所述FC层通过对所述第二池化特征图应用分类操作来检测所述新对象，则允许所述FC层通过对所述第二池化特征图应用回归运算来获取所述第二边界框。

11.一种通过使用包括跟踪网的CNN获取与测试图像中的至少一个对象相对应的至少一个边界框的测试装置，包括：

通信部，用于获取所述测试图像或从所述测试图像转换的特征图；以及

处理器，用于执行以下处理：(I)如果通过对作为当前帧的所述测试图像应用卷积运算而获取所述特征图，然后输出通过由区域建议网络(RPN)对所述特征图应用特定操作而得到的关于多个建议框的信息，则获取或支持另一装置获取所述多个建议框；(II)通过参考以下至少一项在所述多个建议框中选择或支持另一装置在所述多个建议框中选择至少一个特定建议框：(i)将前一帧中的所述对象的参考边界框与所述多个建议框的每一个之间的每个距离进行比较的结果以及(ii)将作为指示所述建议框的每一个是否包括所述对象的概率值的每个分数进行比较的结果，然后设置或支持另一装置设置所述特定建议框作为跟踪框的起始区域，其中，所述起始区域用于均值漂移跟踪算法；(III)通过使用所述均值漂移跟踪算法，确定或支持另一装置确定所述当前帧的特定区域作为所述跟踪框的目标区域，所述特定区域具有关于和与所述前一帧中的所述对象的像素数据对应的概率类似的概率的信息；以及(IV)允许池化层通过对所述特征图中对应于所述特定区域的区域应用池化运算生成池化特征图，然后允许FC层通过对所述池化特征图应用回归运算来获取边界框。

12.根据权利要求11所述的测试装置，其中，在所述处理(III)中，关于与所述前一帧中的所述对象的像素数据对应的概率的所述信息是与所述前一帧中的所述边界框的像素数据相对应的直方图。

13.根据权利要求11所述的测试装置，其中，所述处理器还执行以下处理：(V)将所述边界框确定为参考边界框，以用于位于下一帧中的所述对象的跟踪框。

14.根据权利要求11所述的测试装置，其中，在所述处理(II)中，如果所述对象的数量是多个，则所述处理器通过参考以下至少一项在所述多个建议框中选择或支持另一装置在所述多个建议框中选择所述特定建议框：(i)将所述前一帧中的所述对象的所述参考边界框与所述多个建议框的每一个之间的距离的每一个进行比较的结果以及(ii)将作为指示所述建议框的每一个是否包括所述对象的概率值的每个分数进行比较的结果，然后设置或支持另一装置设置所述特定建议框的每一个作为所述跟踪框的每一个的每个起始区域。

15.根据权利要求11所述的测试装置，其中，在所述处理(II)中，位于所述前一帧中的所述对象的所述参考边界框与所述多个建议框中的每一个之间的距离是所述参考边界框的中心坐标与所述多个建议框中的每一个的中心坐标之间的L2距离。

16.根据权利要求11所述的测试装置，其中，在学习装置已经完成以下处理的条件下所述测试装置的所述处理器执行所述处理(I)至所述(IV)：(i)允许卷积层从包括用于训练的对象的训练图像获取用于训练的特征图，(ii)允许所述RPN获取与所述训练图像中与用于训练的所述对象相对应的用于训练的一个或多个建议框，(iii)允许所述池化层通过应用池化运算生成与用于训练的建议框对应的用于训练的池化特征图，(iv)允许所述FC层通过将所述回归运算应用于用于训练的所述池化特征图获取关于用于训练的边界框的像素数据的信息，以及(v)允许损失层通过比较所述训练图像中的所述边界框的像素数据的信息与GT图像中的所述边界框的像素数据的信息来获取比较数据，从而在反向传播过程中通过使用所述比较数据调整所述CNN的至少一个参数。

17.根据权利要求11所述的测试装置，其中，在所述处理(IV)中，通过生成所述池化特征图然后通过所述FC层应用所述回归运算的处理，所述处理器获取或支持另一装置获取所述边界框，所述边界框的大小被调整为对应于所述测试图像中的所述对象。

18.一种通过使用包括跟踪网和检测网络的CNN来获取与测试图像中的对象相对应的边界框的测试装置，包括：

处理器，用于执行以下处理：(I)如果通过对作为当前帧的所述测试图像应用卷积运算而生成所述特征图，然后输出通过由区域建议网络(RPN)对所述特征图应用特定操作而得到的关于多个建议框的信息，则获取或支持另一装置获取所述多个建议框；(II)(II-1)通过参考以下至少一项在所述多个建议框中选择或支持另一装置在所述多个建议框中选择至少一个特定建议框(i)将前一帧中的所述对象的参考边界框与所述多个建议框的每一个之间的每个距离进行比较的结果以及(ii)将作为指示所述建议框的每一个是否包括所述对象的概率值的每个分数进行比较的结果，然后设置或支持另一装置设置所述特定建议框作为跟踪框的起始区域，其中，所述起始区域用于均值漂移跟踪算法；(II-2)设置或支持另一装置设置所述多个建议框中尚未设置为跟踪框的至少一些建议框作为多个未跟踪框；以及(III)(III-1)在所述处理(II-1)之后，通过使用所述均值漂移跟踪算法，确定或支持另一装置确定所述当前帧的特定区域作为所述跟踪框的目标区域，所述特定区域具有关于和与所述前一帧中的所述对象的像素数据对应的概率类似的概率的信息；并且允许第一池化层通过将池化运算应用于所述特征图中对应于所述特定区域的区域来生成第一池化特征图，然后允许FC层通过将回归运算应用于所述第一池化特征图来获取第一边界框；(III-2)在所述处理(II-2)之后，所述测试装置允许第二池化层通过对所述特征图上与所述多个未跟踪框的至少一个对应的区域应用池化运算来生成第二池化特征图；并且，如果所述FC层通过对所述第二池化特征图应用分类操作来检测新对象，则允许所述FC层通过对所述第二池化特征图应用回归运算来获取第二边界框。

19.根据权利要求18所述的测试装置，其中，在所述处理(III-2)中，所述处理器将与所述新对象相对应的所述第二边界框确定为参考边界框，以用于包括在下一帧中的所述新对象的跟踪框。

20.根据权利要求18所述的测试装置，其中，在所述处理(II-2)中，通过参考以下至少一项在所述多个未跟踪框中选择至少一个特定未跟踪框：(i)从所述前一帧获取的所述参考边界框与所述多个未跟踪框中的每一个之间的L2距离的每一个以及(ii)作为指示所述多个未跟踪框的每一个是否包括所述对象的概率值的每个分数，并且其中，在所述处理(III-2)中，所述处理器允许所述第二池化层通过对所述特征图上与所述特定未跟踪框相对应的区域应用池化运算来生成所述第二池化特征图；并且，如果所述FC层通过对所述第二池化特征图应用分类操作来检测所述新对象，则允许所述FC层通过对所述第二池化特征图应用回归运算来获取所述第二边界框。