CN109670573B

CN109670573B - 利用损失增加调整cnn的参数的学习方法和学习装置以及使用它们的测试方法和测试装置

Info

Publication number: CN109670573B
Application number: CN201811191012.1A
Authority: CN
Inventors: 金镕重; 南云铉; 夫硕焄; 成明哲; 吕东勋; 柳宇宙; 张泰雄; 郑景中; 诸泓模; 赵浩辰
Original assignee: Stradvision Inc
Current assignee: Stradvision Inc
Priority date: 2017-10-13
Filing date: 2018-10-12
Publication date: 2023-07-28
Anticipated expiration: 2038-10-12
Also published as: EP3477554C0; CN109670573A; EP3477554B1; KR102229328B1; KR20190041925A; EP3477554A2; EP3477554A3; JP6716662B2; US10169679B1; JP2019075117A

Abstract

提供了一种利用损失增加来调整CNN的参数的学习方法。该方法包括以下步骤：学习装置获取：(a)特征图，从训练图像获取；(b)(i)与对象对应的建议ROI，使用RPN获取，以及第一池化特征图，通过对特征图上与建议ROI对应的区域进行池化获取，以及(ii)与对象对应的GT ROI，在训练图像上获取，以及第二池化特征图，通过对特征图上与GT ROI对应的区域进行池化获取；以及(c)(i)关于第一边界框的像素数据的信息，当第一池化特征图和第二池化特征图被输入到FC层中时获取，(ii)关于第一边界框和GT边界框的像素数据的信息之间的比较数据，以及关于比较数据反向传播信息，用于调整参数。

Description

利用损失增加调整CNN的参数的学习方法和学习装置以及使用它们的测试方法和测试装置

技术领域

本发明涉及一种利用损失增加调整CNN的参数的学习方法和学习装置以及使用它们的测试方法和测试装置；更具体地，涉及如下的方法：(a)从训练图像获取至少一个特征图，(b)通过使用RPN获取与训练图像上的至少一个对象相对应的一个或多个建议ROI，并通过对特征图上与建议ROI相对应的区域应用池化运算创建至少一个第一池化特征图，(c)在训练图像上获取对应于对象的GT ROI，并通过对特征图上对应于GT ROI的区域应用池化运算创建第二池化特征图，(d)当第一池化特征图和第二池化特征图被输入到第一FC层时，通过回归获取关于第一边界框的像素数据的信息，(e)通过比较关于第一边界框的像素数据的信息和关于GT边界框的像素数据的信息获取第一比较数据，以及(f)将关于第一比较数据的信息反向传播从而执行至少部分参数的第一调整。

背景技术

在机器学习中，卷积神经网络(CNN或ConvNet)是一类深度前馈人工神经网络，已成功应用于分析视觉意象。

图1是示意性地示出使用传统CNN的学习过程的图，其将预测边界框与地面真值(GT)边界框进行比较从而获取损失值。例如，损失值可以包括dx_c、dy_c、dw、dh，如图1所示。

首先，如图1所示的传统学习装置的包括至少一个卷积滤波器的卷积层可以接收对象的训练图像，例如RGB图像，然后通过使用训练图像创建至少一个特征图。特征图的宽度和高度可以在通过卷积层时减小，但是其通道数可以增加。

接下来，当特征图被输入到区域建议网络(RPN)时，传统学习装置可以允许RPN获取至少一个感兴趣区域(ROI)。具体地，如果将特征图输入到RPN中，则RPN可以创建一个或多个锚框(anchor box)，并且通过将锚框的每一个与GT边界框进行比较，确定锚框中与GT边界框匹配程度等于或大于预定阈值的特定锚框来作为ROI。

然后，传统学习装置可以允许池化层将最大池化或平均池化操作应用于特征图上对应于ROI的像素数据。这里，最大池化可以将特征图划分为一组非重叠子区域，并且对于子区域的每一个，在子区域的每一个中的像素值中输出其对应的最大值，并且平均值池化可以将特征图划分为一组非重叠的子区域，并且对于子区域的每一个，输出其对应的平均值。

接下来，图1中的传统学习装置可以执行以下过程：(i)将作为最大池化或平均池化的结果而获取的池化特征图输入到完全连接(FC)层中，以及(ii)允许FC层通过对池化特征图应用分类操作来确认对象的类型，即类。作为参考，可以将池化特征图称为特征向量。

此外，图1中的传统学习装置可以允许FC层获取训练图像上的边界框，然后允许损失层获取表示所获取的边界框与GT边界框之间的差异的损失值。这里，GT边界框可以是准确地包含训练图像中的对象的边界框，并且通常可以由人为创建。

最后，图1中的传统学习装置可以调整FC层的一个或多个参数、RPN的一个或多个参数以及卷积层的一个或多个参数的至少一部分，以减少反向传播过程期间的损失值。通过调整参数，可以提高之后在测试图像中获取边界框的精度。

传统上，池化层可以对特征图上对应于由RPN确定的ROI的区域应用池化操作。然而，由于ROI可能不准确地包含对象，因此从该区域池化的特征可能不是对象的所需特征。因此，这种池化的特征可能对CNN的学习产生不良影响。

因此，本发明的发明人提出了一种在学习中除了利用传统ROI之外还利用GT ROI的技术。

发明内容

本发明的一个目的是解决所有上述问题。

本发明的另一个目的是(i)连接(i-1)通过对特征图上与使用RPN获取的ROI对应的区域应用池化运算获取的池化特征图和(i-2)通过对特征图上与GT ROI对应的区域应用池化运算获取的池化特征图，(ii)将连接的池化特征图输入到FC层以通过回归获取边界框，(iii)反向传播关于通过在获取的边界框和GT边界框之间进行比较而获取的损失的信息，从而调整参数，以及(iv)通过使用调整后的参数，支持另一装置在测试图像上获取更准确地包含对象的边界框。

根据本发明的一个方面，提供了一种通过利用损失增加来调整卷积神经网络(CNN)的一个或多个参数的学习方法，包括以下步骤：(a)学习装置从训练图像获取或支持另一装置从训练图像获取至少一个特征图；(b)学习装置执行或支持另一装置执行如下过程：(i)通过使用RPN在训练图像上获取与至少一个对象对应的一个或多个建议ROI的过程和通过对特征图上与建议ROI对应的区域应用池化运算创建至少一个第一池化特征图的过程，以及(ii)在训练图像上获取与对象对应的GT ROI的过程和通过对特征图上与GTROI对应的区域应用池化运算创建第二池化特征图的过程；(c)学习装置执行或支持另一装置执行如下过程：(i)当第一池化特征图和第二池化特征图被输入到第一FC层中时，通过回归获取关于第一边界框的像素数据的信息的过程，(ii)通过在关于第一边界框的像素数据的信息和关于GT边界框的像素数据的信息之间进行比较来获取第一比较数据的过程，以及(iii)反向传播关于第一比较数据的信息从而执行至少部分参数的第一调整的过程。

根据本发明的另一方面，提供了一种通过使用包括卷积神经网络(CNN)的测试装置在测试图像上获取用于测试的对象的用于测试的边界框的方法，包括以下步骤：(a)在包括CNN的学习装置执行或支持另一装置执行如下过程的条件下，测试装置获取或支持另一装置获取测试图像，然后通过使用CNN从测试图像获取用于测试的特征图，其中CNN具有通过学习装置执行第一调整和第二调整而调整的参数：(1)从训练图像获取用于训练的特征图的过程，(2)(i)(i-1)通过使用RPN在训练图像上获取与用于训练的至少一个对象对应的用于训练的一个或多个建议ROI的过程以及(i-2)通过对用于训练的特征图上与用于训练的建议ROI对应的区域应用池化运算创建至少一个第一池化特征图的过程，以及(ii)(ii-1)在训练图像上获取与用于训练的对象相对应的GT ROI的过程以及(ii-2)通过对用于训练的特征图上与GT ROI对应的区域应用池化运算创建第二池化特征图的过程，(3)(i)(i-1)当第一池化特征图和第二池化特征图被输入到第一FC层中时，通过回归获取关于用于训练的第一边界框的像素数据的信息的过程，(i-2)通过在关于用于训练的第一边界框的像素数据的信息和关于用于训练的GT边界框的像素数据的信息之间进行比较来获取第一比较数据的过程，(i-3)反向传播关于第一比较数据的信息从而执行CNN的至少部分参数的第一调整的过程，(ii)(ii-1)当第一池化特征图被输入到第二FC层中时，通过回归获取关于用于训练的第二边界框的像素数据的信息的过程，(ii-2)通过在关于用于训练的第二边界框的像素数据的信息和关于用于训练的GT边界框的像素数据的信息之间进行比较获取第二比较数据的过程，以及(ii-3)反向传播关于第二比较数据的信息从而执行CNN的至少部分参数的第二调整的过程；(b)通过使用RPN，测试装置在测试图像上获取或支持另一装置在测试图像上获取与用于测试的对象相对应的用于测试的一个或多个建议ROI；(c)通过对用于测试的特征图上与用于测试的建议ROI对应的区域应用池化运算，测试装置创建或支持另一装置创建用于测试的至少一个池化特征图；以及(d)当用于测试的池化特征图被输入到第二FC层中时，测试装置通过回归获取或支持另一装置获取用于测试的边界框。

根据本发明的另一方面，提供了一种通过利用损失增加调整卷积神经网络(CNN)的一个或多个参数的学习装置，包括：通信部，用于获取或支持另一装置获取训练图像或其对应的至少一个特征图；以及处理器，用于执行或支持另一装置执行如下过程：(i)通过使用RPN在训练图像上获取与至少一个对象相对应的一个或多个建议ROI的过程以及通过对从通信部获取的特征图或通过对从通信部获取的训练图像应用一个或多个卷积运算计算得到的特征图上与建议ROI对应的区域应用池化运算创建至少一个第一池化特征图的过程；(ii)在训练图像上获取与对象对应的GT ROI的过程以及通过对特征图上与GT ROI对应的区域应用池化运算创建第二池化特征图的过程；(iii)当第一池化特征图和第二池化特征图被输入到第一FC层中时，通过回归获取关于第一边界框的像素数据的信息的过程；(iv)通过在关于第一边界框的像素数据的信息和关于GT边界框的像素数据的信息之间进行比较来获取第一比较数据的过程；以及(v)反向传播关于第一比较数据的信息从而执行至少部分参数的第一调整的过程。

根据本发明的又一方面，提供了一种通过使用包括卷积神经网络(CNN)的测试装置在测试图像上获取用于测试的对象的用于测试的边界框的测试装置，包括：通信部，在包括CNN的学习装置执行或支持另一装置执行如下过程的条件下，用于获取或支持另一装置获取测试图像或其对应的用于测试的至少一个特征图，(1)从训练图像获取用于训练的特征图的过程，(2)(i)(i-1)通过使用RPN在训练图像上获取与用于训练的至少一个对象对应的用于训练的一个或多个建议ROI的过程以及(i-2)通过对用于训练的特征图上与用于训练的建议ROI对应的区域应用池化运算创建至少一个第一池化特征图的过程，以及(ii)(ii-1)在训练图像上获取与用于训练的对象相对应的GT ROI的过程以及(ii-2)通过对用于训练的特征图上与GT ROI对应的区域应用池化运算创建第二池化特征图的过程，(3)(i)(i-1)当第一池化特征图和第二池化特征图被输入到第一FC层中时，通过回归获取关于用于训练的第一边界框的像素数据的信息的过程，(i-2)通过在关于用于训练的第一边界框的像素数据的信息和关于用于训练的GT边界框的像素数据的信息之间进行比较来获取第一比较数据的过程，(i-3)反向传播关于第一比较数据的信息从而执行CNN的至少部分参数的第一调整的过程，(ii)(ii-1)当第一池化特征图被输入到第二FC层中时，通过回归获取关于用于训练的第二边界框的像素数据的信息的过程，(ii-2)通过在关于用于训练的第二边界框的像素数据的信息和关于用于训练的GT边界框的像素数据的信息之间进行比较获取第二比较数据的过程，以及(ii-3)反向传播关于第二比较数据的信息从而执行CNN的至少部分参数的第二调整的过程；以及处理器，用于：(i)通过使用RPN在测试图像上获取或支持另一装置在测试图像上获取与用于测试的对象对应的用于测试的一个或多个建议ROI；(ii)通过对从通信部获取的用于测试的特征图或通过使用CNN计算得到的特征图上与用于测试的建议ROI对应的区域应用池化运算，创建或支持另一装置创建用于测试的至少一个池化特征图，其中所述CNN具有通过所述学习装置对从所述通信部获取的所述测试图像执行所述第一调整和所述第二调整而调整的参数；(iii)当用于测试的池化特征图被输入到第二FC层中时，通过回归获取或支持另一装置获取用于测试的边界框。

附图说明

通过下面结合附图对优选实施例的描述，本发明的上述和其它目的和特征将变得明显，其中：

图1是示意性地示出获取边界框并将其与GT边界框进行比较的传统学习装置的过程的图；

图2是示意性地示出根据本发明的一个示例实施例的学习装置的框图；

图3A是示意性地示出根据本发明的一个示例实施例的由包括第一FC层和第一损失层的学习装置使用GT ROI调整参数的过程的图；

图3B是示意性地示出根据本发明的另一示例实施例的由包括第一FC层、第二FC层、第一损失层和第二损失层的学习装置使用GT ROI调整参数的过程的图；

图4是示例性地示出根据本发明的一个示例实施例的池化和连接GT ROI和从RPN获取的建议ROI的过程的图；

图5是根据本发明的一个示例实施例的测试装置的框图；

图6A是示意性地示出根据本发明的一个示例实施例的由包括第一FC层的测试装置使用调整后的参数获取边界框的过程的图；

图6B是示意性地示出根据本发明另一示例实施例的由包括第二FC层的测试装置使用调整后的参数获取边界框的过程的图。

具体实施方式

在以下详细描述中，参考了附图，附图通过图示的方式示出了可以实践本发明的具体实施例。足够详细地描述了这些实施例，以使本领域技术人员能够实践本发明。应该理解，本发明的各种实施例虽然不同，但不一定是相互排斥的。例如，在不脱离本发明的精神和范围的情况下，可以在其他实施例中实现本文中结合一个实施例描述的特定特征、结构或特性。另外，应该理解，在不脱离本发明的精神和范围的情况下，可以修改每个公开的实施例中的各个元件的位置或布置。因此，以下详细描述不应被视为具有限制意义，并且本发明的范围仅由所附权利要求限定，并由权利要求以及权利要求所赋予的等同物的全部范围适当地解释。在附图中，相同的附图标记在若干视图中指代相同或相似的功能。

为了使本领域技术人员容易地实施本发明，通过参考附图对本发明的示例性实施例进行详细说明，如下所示。

图2是示意性地示出根据本发明的一个示例实施例的学习装置100的框图。

如图2所示，本发明的学习装置100可以包括通信部110和处理器120，并且视情况而定可以包括与图2不同的数据库130。

这里，本发明的学习装置100可以是具有能够根据本发明进行计算的处理器的数字装置。

通信部110可以被配置为获取训练图像或来自训练图像的至少一个特征图。

学习装置100的处理器120可以执行以下过程：(i)预测训练图像上的边界框，(ii)通过比较预测边界框与GT边界框获取比较数据，以及(iii)通过反向传播关于所获取的比较数据的信息调整CNN的参数。稍后将详细描述这一点。

数据库130可以由学习装置100的通信部110访问，并且可以存储关于比较数据的信息、关于表示对象是否是车辆、行人等的类的信息、关于ROI的信息以及关于参数的信息。

图3A是示出根据本发明的一个示例实施例的执行以下过程的学习装置100的图：(i)连接(i-1)通过由第一ROI池化层320对特征图上与从RPN 315输出的一个或多个建议ROI对应的区域应用池化运算获取的至少一个第一池化特征图和(i-2)通过由第二ROI池化层325对特征图上与GT ROI对应的区域应用池化运算获取的至少一个第二池化特征图，(ii)如果连接的特征图被输入到第一FC层330中，则通过回归获取边界框，以及(iii)通过反向传播关于由第一损失层335将边界框与GT边界框进行比较而获取的一个或多个损失值的信息调整CNN的参数。

尽管学习装置100示出为被配置为根据本说明书中的附图的一个装置，但是学习装置可以被划分为若干装置以执行其功能。为方便起见，本发明的说明书假设学习装置是单个装置。

通过参考图3A，本发明的学习装置100可以包括卷积层310、区域建议网络(RPN)315、第一FC层330和第一损失层335的至少一部分，其中卷积层310包括至少一个卷积滤波器。

如果通过通信部110获取训练图像，则处理器120可以允许卷积层310通过对训练图像应用卷积运算来产生特征图。根据具体情况，通信部110可以通过通信部110直接获取由另一个学习装置中包括的另一个卷积层预先创建的特征图。

作为参考，卷积层310可以被配置为包括一个或多个卷积滤波器，并且每当训练图像通过每个卷积滤波器时，训练图像的大小或其对应的特征图的大小可以减小到一半，而特征图的通道数可以增加到两倍。

例如，如果训练图像的大小是640×480并且其通道数是3，则第一特征图的大小是320×240并且其通道数是6，并且第二特征图的大小是160×120而其通道数是12，依此类推。

作为参考，相应的增加量和减少量可以根据卷积层中包括的每个卷积滤波器的参数而不同。

处理器120可以在训练图像上获取从RPN315输出的与对象相对应的建议ROI。

如果获取了建议ROI，则处理器120可以允许第一ROI池化层320通过对特征图上与建议ROI对应的区域应用池化运算来产生至少一个第一池化特征图。这里，池化运算可以包括最大池化运算、平均池化运算或任何其他操作。

另一方面，处理器120可以在训练图像上获取与对象对应的GT ROI，然后通过允许第二ROI池化层325将池化运算应用于特征图上与GT ROI对应的区域来产生至少一个第二池化特征图。这里，GT ROI可以是与被人为选择为在训练图像上准确地包含对象的GT边界框相同的区域。

作为参考，为了方便起见，说明书将ROI视为存在于训练图像上，然而，它可以根据具体情况指示特征图上的区域。

此外，处理器120可以执行以下过程：(i)如果第一池化特征图和第二池化特征图被输入到第一FC层330中，则通过回归获取关于第一边界框的像素数据的信息，(ii)通过第一损失层335将关于第一边界框的像素数据的信息与关于GT边界框的像素数据的信息进行比较获取第一比较数据，然后反向传播关于第一比较数据的信息。

输入到第一FC层中的数据可以包括由第一池化特征图和第二池化特征图的级联产生的至少一个特征向量。这将参考图4进行说明。

图4是示例性地示出根据本发明的一个示例实施例的对特征图上与GTROI和从RPN输出的建议ROI对应的各个区域进行池化以及连接各个池化特征图的过程的图。

作为参考，在图4中从获取训练图像的步骤到将池化特征图输入到第一FC层440中的步骤的过程与在图3A中从获取训练图像的步骤到将池化特征图输入到第一FC层330中的步骤的过程相同，因此，省略了详细说明。

另一方面，假设在训练图像通过卷积层之后获取具有M个通道的特征图(w/32×h/32)，则通过对具有M个通道的特征图(w/32×h/32)应用池化运算而获取的第一池化特征图与第二池化特征图也可以分别具有M个通道。这里，池化特征图可以是N×N维的方阵，并且可以称为特征向量。

处理器120可以执行以下过程：(i)通过将具有M个通道的第一池化特征图和具有M个通道的第二池化特征图沿通道轴连接，获取N×N×(2×M)维的至少一个特征向量，(ii)通过将获取的特征向量输入到第一FC层440中，获取关于第一边界框的像素数据的信息。这里，关于第一边界框的像素数据的信息可以包括像素坐标。

此外，处理器120可以允许图3A中的第一损失层335在第一边界框的像素坐标与GT边界框的像素坐标之间进行比较产生第一比较数据。这里，像素坐标可以是每个边界框的点的坐标，包括中心和顶点等的坐标。

此外，处理器120可以通过反向传播关于第一比较数据的信息来执行CNN的一个或多个参数的第一调整。可以执行反向传播以减小包括损失值的第一比较数据的值。参数可以是第一FC层、RPN和卷积层中的至少一个。

处理器120可以通过使用多个训练图像来执行或支持另一装置执行如上所述的参数的第一调整。

图3B是示出根据本发明的另一示例实施例的包括第一FC层330和第二FC层340的学习装置100执行以下过程的图：(i)通过第一损失层335将关于第一边界框的像素数据的信息与关于GT边界框的像素数据的信息进行比较获取第一比较数据，(ii)通过第二损失层345将关于第二边界框的像素数据的信息与关于GT边界框的像素数据的信息进行比较获取第二比较数据，以及(iii)通过反向传播关于第一比较数据和第二比较数据的信息来调整参数。

如上所示，图3B中所示的过程包括图3A中所示的过程，并且还包括第二FC层340的附加过程和利用第二损失层345的步骤。

学习装置100可以执行以下过程：(i)当第一池化特征图被输入到第二FC层340中时，通过回归获取关于第二边界框的像素数据的信息，(ii)通过第二损失层345将关于第二边界框的像素数据的信息与关于GT边界框的像素数据的信息进行比较获取第二比较数据，以及(iii)通过反向传播关于第二比较数据的信息支持对CNN的至少一个参数的第二调整。

处理器120可以通过使用多个训练图像来执行或支持另一装置执行如上所述的参数的第二调整。

也就是说，可以通过允许第二损失层345由关于GT边界框的像素数据的信息与仅第一池化特征图被输入的第二FC层340的输出之间进行比较产生第二比较数据来执行参数的第二调整。这里，参数可以是卷积层、RPN和第二FC层中的至少一个。

因此，第一调整可以包括调整卷积层、RPN和第一FC层的至少一个参数的调整，第二调整可以包括调整卷积层、RPN和第二FC层的至少一个参数的调整。

此外，处理器120可以将第一边界框的像素坐标与GT边界框的像素坐标进行比较。

这里，像素坐标可以是如上所述的每一个边界框的点的坐标。例如，假设第一边界框的中心的坐标为x和y，其宽度和高度为w和h，GT边界框的中心的坐标为x’和y’，其宽度和高度为w’和h’，则第一比较数据可以是x’-x，y’-y，w’-w和h’-h。相似的原理适用于第二比较数据的情况。

另一方面，RPN可以获取一个或多个锚框，并通过参考等于或大于预定值的分数设置锚框中选择的一些锚框作为建议ROI，其中通过在关于每一个锚框的像素数据的信息和关于GT边界框的像素数据的信息之间进行比较获取分数。

通常，单个像素可以用作若干锚框的锚点，因此，具有多个像素的训练图像明显地表现出多个锚框。这里，特征图上对应于多个锚框的区域可以是经历池化运算的候选。

作为参考，特征图上符合建议ROI的区域可以与通过调整训练图像上一部分锚框的宽度和高度的大小获取的区域对应。这是因为，如上所述，通过卷积层调整训练图像的宽度和高度的大小来获取特征图。类似地，特征图上与GT ROI对应的区域(即GT边界框)可以与通过调整GT边界框的宽度和高度的大小而获得的区域对应。

另一方面，可以通过使用将与锚框中的一个和GT边界框的交集对应的面积除以与锚框中的所述一个和GT边界框的并集对应的面积而获得的比率来执行各个比较，比率是针对锚框的每一个计算的。这里，每个比率可以用作分数。

例如，如果第一锚框和GT边界框的比率是四分之三，并且第二锚框和GT边界框的比率是三分之一，则第一锚框的分数可以被确定为比第二锚框的分数大。

此外，可以利用各种数据来计算分数，这些数据例如为，锚框的中心与GT边界框的中心之间的距离、锚框的高度与GT边界框的高度的差或比率、锚框的宽度与GT边界框的宽度的差或比率以及锚框的任意点与GT边界框的任意点之间的距离。

例如，RPN可以确定具有等于或大于0.7的分数的锚框作为建议ROI的候选。

图5是根据本发明的一个示例实施例的测试装置500的框图。这里，形容词短语“用于训练的”描述了用于解释学习装置100的概念，并且如下与用于解释测试装置500的“用于测试的”对比地使用。仅为方便起见，在上述说明中省略了形容词短语“用于训练的”。

如图5所示，本发明的测试装置500可以包括通信部510和处理器520，并且根据具体情况可以包括与图5不同的数据库530。在图中，测试装置500和学习装置100被示为单独的装置，然而，它们可以是相同的装置。

作为参考，在完成(i)作为卷积层、RPN和第一FC层中的至少一个的参数的调整的第一调整和/或(ii)作为卷积层、RPN和第二FC层中的至少一个的参数的调整的第二调整时，测试装置500的处理器520可以执行获取测试图像并找到包括用于测试的至少一个对象的用于测试的至少一个边界框的过程。

图6A是示意性地示出根据本发明的一个示例实施例的由包括第一FC层630的测试装置500使用调整后的参数获取用于测试的边界框的过程的图。

作为参考，图6A是示意性地示出包括具有通过学习装置100由第一调整获取的参数的CNN的测试装置500的过程的图，并且除了在双点划线矩形中的过程之外，所有过程类似于图3A中的过程，在双点划线矩形中的过程包括对与GT ROI对于的区域应用池化运算的过程以及反向传播关于所获取的第一比较数据的信息的过程。

包括具有通过第一调整的参数的CNN的测试装置500可以经由通信部510接收测试图像或从其获取的用于测试的特征图。此外，视情况而定，可以接收从RPN输出的关于用于测试的一个或多个建议ROI的信息。

如果经由通信部510获取测试图像，则处理器520可以将测试图像输入到卷积层610中以获取用于测试的特征图。

此外，处理器520可以执行以下过程：(i)通过使用RPN 615在测试图像上获取与用于测试的对象相对应的用于测试的建议ROI，以及(ii)通过ROI池化层620将池化运算应用于用于测试的特征图上与用于测试的建议ROI对应的区域来创建用于测试的池化特征图。

接下来，处理器520可以将用于测试的池化特征图输入到第一FC层630中，以通过回归获取用于测试的边界框。

与通过使用没有第一调整的参数获取的边界框相比，用于测试的边界框可以更准确地包括用于测试的对象。

图6B是示意性地示出根据本发明另一示例实施例的由包括第二FC层640的测试装置500获取用于测试的边界框的过程的图。

作为参考，图6B是示意性地示出包括具有通过学习装置100由第一调整和第二调整获取的参数的CNN的测试装置500的过程的图，并且除了在双点划线矩形中的过程之外，所有过程类似于图3B中的过程，在双点划线矩形中的过程包括(i)对与GT ROI对应的区域应用池化运算的过程，(ii)反向传播关于所获取的第一比较数据和第二比较数据的信息的过程，以及(iii)通过使用第一FC层630获取用于测试的边界框的过程。

作为参考，在图6B中用双点划线表示从第一FC层630获取边界框的过程的原因是，第一FC层630用于调整训练过程中的参数，并且在测试过程中仅使用第二FC层640。

包括具有通过第一调整和第二调整获取的参数的CNN的测试装置500可以经由通信部510接收测试图像或从其获取的用于测试的特征图。

如果经由通信部510获取测试图像，则处理器520可以允许卷积层610通过对测试图像应用卷积运算来产生用于测试的特征图。

接下来，处理器520可以将用于测试的池化特征图输入到第二FC层640中，从而通过回归获取用于测试的边界框。

与通过使用没有第一调整和第二调整的参数获得的边界框相比，用于测试的边界框可以更准确地包括用于测试的对象。

本发明具有以下效果：(i)连接(i-1)通过对特征图上与使用RPN获取的ROI对应的区域应用池化运算获取的池化特征图和(i-2)通过对特征图上与GT ROI对应的区域应用池化运算获取的池化特征图，(ii)将连接的池化特征图输入到FC层以通过回归获取边界框，(iii)反向传播关于通过在获取的边界框和GT边界框之间进行比较而获取的损失值的信息，从而调整参数，以及(iv)通过使用调整后的参数，支持另一装置在测试图像上获取更准确地包含用于测试的对象的用于测试的边界框。

如上所述的本发明的实施例可以通过可记录到计算机可读介质的各种计算机装置以可执行程序命令的形式实现。计算机可读介质可以单独地或组合地包括程序命令、数据文件和数据结构。记录到介质的程序命令可以是为本发明专门设计的组件，或者对于计算机软件领域的技术人员可用。计算机可读记录介质包括：诸如硬盘、软盘和磁带的磁介质；诸如CD-ROM和DVD的光学介质；诸如光盘的磁光介质；诸如ROM、RAM的硬件装置；以及专门用于存储和执行程序的闪存。程序命令不仅包括由编译器产生的机器语言代码，还包括可由通过计算机执行的解释器等使用的高级代码。上述硬件装置可以不止作为软件模块工作来执行本发明的动作，并且它们在相反的情况下可以做同样的工作。

如上所述，已经通过诸如详细组件、有限实施例和附图的具体事项解释了本发明。提供它们仅仅是为了帮助更全面地理解本发明。然而，本领域技术人员将理解，在不脱离所附权利要求限定的本发明的精神和范围的情况下，可以从说明书中进行各种改变和修改。

因此，本发明的思想不应局限于所解释的实施例，并且以下专利权利要求以及包括与专利权利要求等同或等同的变化的所有内容都属于本发明的思想范畴。

Claims

1.一种通过利用损失增加来调整卷积神经网络(CNN)的一个或多个参数的学习方法，包括以下步骤：

(a)学习装置从训练图像获取或支持另一装置从训练图像获取至少一个特征图；

(b)所述学习装置执行或支持另一装置执行如下过程：(i)通过使用RPN在所述训练图像上获取与至少一个对象对应的一个或多个建议ROI的过程和通过对所述特征图上与所述建议ROI对应的区域应用池化运算创建至少一个第一池化特征图的过程，以及(ii)在所述训练图像上获取与所述对象对应的GT ROI的过程和通过对所述特征图上与所述GT ROI对应的区域应用池化运算创建第二池化特征图的过程；以及

(c)所述学习装置执行或支持另一装置执行如下过程：(i)当所述第一池化特征图和所述第二池化特征图被输入到第一FC层中时，通过回归获取关于第一边界框的像素数据的信息的过程，(ii)通过在关于所述第一边界框的像素数据的信息和关于GT边界框的像素数据的信息之间进行比较来获取第一比较数据的过程，以及(iii)反向传播关于所述第一比较数据的信息从而执行至少部分所述参数的第一调整的过程，

其中，在所述步骤(c)中，所述学习装置执行或支持另一装置执行如下过程：(i)当所述第一池化特征图被输入到第二FC层中时，通过回归获取关于第二边界框的像素数据的信息的过程，(ii)通过在关于所述第二边界框的像素数据的信息和关于所述GT边界框的像素数据的信息之间进行比较来获取第二比较数据的过程，以及(iii)反向传播关于所述第二比较数据的信息从而执行至少部分所述参数的第二调整的过程。

2.根据权利要求1所述的方法，其中，所述参数的所述第一调整包括卷积层、所述RPN和所述第一FC层中的至少一个的参数的调整，并且所述参数的所述第二调整包括所述卷积层、所述RPN和所述第二FC层中的至少一个的参数的调整。

3.根据权利要求1所述的方法，其中，在所述步骤(c)中，所述学习装置执行或支持另一装置执行如下过程：(i)通过连接所述第一池化特征图和所述第二池化特征图获取至少一个特征向量的过程，(ii)当所述特征向量被输入到所述第一FC层时，通过回归获取关于所述第一边界框的像素数据的信息的过程，(iii)通过在关于所述第一边界框的像素数据的信息和关于所述GT边界框的像素数据的信息之间进行比较获取所述第一比较数据的过程，以及(iv)反向传播关于所述第一比较数据的信息从而执行至少部分所述参数的所述第一调整的过程。

4.根据权利要求1所述的方法，其中，在所述步骤(c)中，当所述第一池化特征图和所述第二池化特征图被输入到所述第一FC层中时，所述学习装置通过回归获取或支持另一装置获取关于所述第一边界框的像素数据的信息，然后所述学习装置比较或支持另一装置比较所述第一边界框的像素坐标与所述GT边界框的像素坐标。

5.根据权利要求1所述的方法，其中，所述学习装置允许所述RPN在所述训练图像上获取或支持另一装置在所述训练图像上获取分数等于或大于第一阈值的一个或多个锚框作为所述建议ROI，其中，通过在关于各个所述锚框的像素数据的信息和关于所述GT边界框的像素数据的信息之间分别进行比较来获取所述分数。

6.根据权利要求5所述的方法，其中，通过使用将与所述锚框中的一个和所述GT边界框的交集对应的面积除以与所述锚框中的所述一个和所述GT边界框的并集对应的面积而获得的比率来分别执行比较，其中，所述比率是针对所述锚框的每一个计算得到的。

7.一种通过使用包括卷积神经网络(CNN)的测试装置在测试图像上获取用于测试的对象的用于测试的边界框的方法，包括以下步骤：

(a)在包括所述CNN的学习装置执行或支持另一装置执行如下过程的条件下，所述测试装置获取或支持另一装置获取所述测试图像，然后通过使用所述CNN从所述测试图像获取用于测试的特征图，其中所述CNN具有通过所述学习装置执行第一调整和第二调整而调整的参数：(1)从训练图像获取用于训练的特征图的过程，(2)(i)(i-1)通过使用RPN在所述训练图像上获取与用于训练的至少一个对象对应的用于训练的一个或多个建议ROI的过程以及(i-2)通过对用于训练的所述特征图上与用于训练的所述建议ROI对应的区域应用池化运算创建至少一个第一池化特征图的过程，以及(ii)(ii-1)在所述训练图像上获取与用于训练的所述对象对应的GT ROI的过程以及(ii-2)通过对用于训练的所述特征图上与所述GT ROI对应的区域应用池化运算创建第二池化特征图的过程，(3)(i)(i-1)当所述第一池化特征图和所述第二池化特征图被输入到第一FC层中时，通过回归获取关于用于训练的第一边界框的像素数据的信息的过程，(i-2)通过在关于用于训练的所述第一边界框的像素数据的信息和关于用于训练的GT边界框的像素数据的信息之间进行比较来获取第一比较数据的过程，(i-3)反向传播关于所述第一比较数据的信息从而执行所述CNN的至少部分参数的所述第一调整的过程，(ii)(ii-1)当所述第一池化特征图被输入到第二FC层中时，通过回归获取关于用于训练的第二边界框的像素数据的信息的过程，(ii-2)通过在关于用于训练的所述第二边界框的像素数据的信息和关于用于训练的所述GT边界框的像素数据的信息之间进行比较获取第二比较数据的过程，以及(ii-3)反向传播关于所述第二比较数据的信息从而执行所述CNN的至少部分参数的所述第二调整的过程；

(b)通过使用所述RPN，所述测试装置在所述测试图像上获取或支持另一装置在所述测试图像上获取与用于测试的所述对象对应的用于测试的一个或多个建议ROI；

(c)通过对用于测试的所述特征图上与用于测试的所述建议ROI对应的区域应用池化运算，所述测试装置创建或支持另一装置创建用于测试的至少一个池化特征图；以及

(d)当用于测试的所述池化特征图被输入到所述第二FC层中时，所述测试装置通过回归获取或支持另一装置获取用于测试的边界框。

8.根据权利要求7所述的方法，其中，所述参数的所述第一调整包括卷积层、所述RPN和所述第一FC层中的至少一个的参数的调整，并且所述参数的所述第二调整包括所述卷积层、所述RPN和所述第二FC层中的至少一个的参数的调整。

9.根据权利要求7所述的方法，其中，所述学习装置执行或支持另一装置执行如下过程：(i)通过连接所述第一池化特征图和所述第二池化特征图获取至少一个特征向量的过程，(ii)当所述特征向量被输入到所述第一FC层中时，通过回归获取关于用于训练的所述第一边界框的像素数据的信息的过程，(iii)通过在关于所述第一边界框的像素数据的信息和关于用于训练的所述GT边界框的像素数据的信息之间进行比较获取所述第一比较数据的过程，以及(iv)反向传播关于所述第一比较数据的信息从而执行所述CNN的至少部分所述参数的所述第一调整的过程。

10.根据权利要求7所述的方法，其中，当所述第一池化特征图和所述第二池化特征图被输入到所述第一FC层中时，如果通过回归获取关于用于训练的所述第一边界框的像素坐标的信息，则所述学习装置比较或支持另一装置比较用于训练的所述第一边界框的像素坐标和用于训练的所述GT边界框的像素坐标。

11.根据权利要求7所述的方法，其中，所述学习装置允许所述RPN在所述训练图像上获取或支持另一装置在所述训练图像上获取分数等于或大于第二阈值的一个或多个锚框作为用于训练的所述建议ROI，其中，通过在关于各个所述锚框的像素数据的信息和关于用于训练的所述GT边界框的像素数据的信息之间分别进行比较来获取所述分数。

12.一种通过利用损失增加调整卷积神经网络(CNN)的一个或多个参数的学习装置，包括：

通信部，用于获取或支持另一装置获取训练图像或其对应的至少一个特征图；以及

处理器，用于执行或支持另一装置执行如下过程：(i)通过使用RPN在所述训练图像上获取与至少一个对象对应的一个或多个建议ROI的过程以及通过对从所述通信部获取的所述特征图或通过对从所述通信部获取的所述训练图像应用一个或多个卷积运算计算得出的特征图上与所述建议ROI对应的区域应用池化运算创建至少一个第一池化特征图的过程；(ii)在所述训练图像上获取与所述对象对应的GT ROI的过程以及通过对所述特征图上与所述GT ROI对应的区域应用池化运算创建第二池化特征图的过程；(iii)当所述第一池化特征图和所述第二池化特征图被输入到第一FC层中时，通过回归获取关于第一边界框的像素数据的信息的过程；(iv)通过在关于所述第一边界框的像素数据的信息和关于GT边界框的像素数据的信息之间进行比较来获取第一比较数据的过程；以及(v)反向传播关于所述第一比较数据的信息从而执行至少部分参数的第一调整的过程，

其中，在所述过程(ii)之后，所述处理器还执行或支持另一装置执行如下过程：(a)当所述第一池化特征图被输入到第二FC层时，通过回归获取关于第二边界框的像素数据的信息的过程，(b)通过在关于所述第二边界框的像素数据的信息和关于所述GT边界框的像素数据的信息之间进行比较获取第二比较数据的过程，以及(c)反向传播关于所述第二比较数据的信息从而执行至少部分参数的第二调整的过程。

13.根据权利要求12所述的学习装置，其中，所述参数的所述第一调整包括卷积层、所述RPN和所述第一FC层中的至少一个的参数的调整，并且所述参数的所述第二调整包括所述卷积层、所述RPN和所述第二FC层中的至少一个的参数的调整。

14.根据权利要求12所述的学习装置，其中，在所述过程(iii)至过程(v)中，所述处理器执行或支持另一装置执行如下过程：(a)通过连接所述第一池化特征图和所述第二池化特征图获取至少一个特征向量的过程，(b)当所述特征向量被输入到所述第一FC层时，通过回归获取关于所述第一边界框的像素数据的信息的过程，(c)通过在关于所述第一边界框的像素数据的信息和关于所述GT边界框的像素数据的信息之间进行比较获取所述第一比较数据的过程，以及(d)反向传播关于所述第一比较数据的信息从而执行至少部分参数的所述第一调整的过程。

15.根据权利要求12所述的学习装置，其中，在所述过程(iv)中，当所述第一池化特征图和所述第二池化特征图被输入到第一FC层中时，所述处理器通过回归获取或支持另一装置获取关于所述第一边界框的像素数据的信息，然后所述处理器比较或支持另一装置比较所述第一边界框的像素坐标与所述GT边界框的像素坐标。

16.根据权利要求12所述的学习装置，其中，所述处理器允许所述RPN在所述训练图像上获取或支持另一装置在所述训练图像上获取分数等于或大于第一阈值的一个或多个锚框作为所述建议ROI，其中，通过在关于各个所述锚框的像素数据的信息和关于所述GT边界框的像素数据的信息之间分别进行比较获取所述分数。

17.根据权利要求16所述的学习装置，其中，通过使用将与所述锚框中的一个和所述GT边界框的交集对应的面积除以与所述锚框中的所述一个和所述GT边界框的并集对应的面积而获得的比率来分别执行比较，其中，所述比率是针对所述锚框的每一个计算得到的。

18.一种通过使用包括卷积神经网络(CNN)的测试装置在测试图像上获取用于测试的对象的用于测试的边界框的测试装置，包括：

通信部，在包括所述CNN的学习装置执行或支持另一装置执行如下过程的条件下，所述通信部用于获取或支持另一装置获取所述测试图像或其对应的用于测试的至少一个特征图：(1)从训练图像获取用于训练的特征图的过程，(2)(i)(i-1)通过使用RPN在所述训练图像上获取与用于训练的至少一个对象对应的用于训练的一个或多个建议ROI的过程以及(i-2)通过对用于训练的所述特征图上与用于训练的所述建议ROI对应的区域应用池化运算创建至少一个第一池化特征图的过程，以及(ii)(ii-1)在所述训练图像上获取与用于训练的所述对象对应的GT ROI的过程以及(ii-2)通过对用于训练的所述特征图上与所述GTROI对应的区域应用池化运算创建第二池化特征图的过程，(3)(i)(i-1)当所述第一池化特征图和所述第二池化特征图被输入到第一FC层中时，通过回归获取关于用于训练的第一边界框的像素数据的信息的过程，(i-2)通过在关于用于训练的所述第一边界框的像素数据的信息和关于用于训练的GT边界框的像素数据的信息之间进行比较来获取第一比较数据的过程，(i-3)反向传播关于所述第一比较数据的信息从而执行所述CNN的至少部分参数的第一调整的过程，(ii)(ii-1)当所述第一池化特征图被输入到第二FC层中时，通过回归获取关于用于训练的第二边界框的像素数据的信息的过程，(ii-2)通过在关于用于训练的所述第二边界框的像素数据的信息和关于用于训练的所述GT边界框的像素数据的信息之间进行比较获取第二比较数据的过程，以及(ii-3)反向传播关于所述第二比较数据的信息从而执行所述CNN的至少部分参数的第二调整的过程；以及

处理器，用于：(i)通过使用所述RPN在所述测试图像上获取或支持另一装置在所述测试图像上获取与用于测试的所述对象对应的用于测试的一个或多个建议ROI；(ii)通过对从所述通信部获取的用于测试的所述特征图或通过使用所述CNN计算得到的特征图上与用于测试的所述建议ROI对应的区域应用池化运算，创建或支持另一装置创建用于测试的至少一个池化特征图，其中所述CNN具有通过所述学习装置对从所述通信部获取的所述测试图像执行所述第一调整和所述第二调整而调整的参数；以及(iii)当用于测试的所述池化特征图被输入到所述第二FC层中时，通过回归获取或支持另一装置获取用于测试的边界框。

19.根据权利要求18所述的测试装置，其中，所述参数的所述第一调整包括卷积层、所述RPN和所述第一FC层中的至少一个的参数的调整，并且所述参数的所述第二调整包括所述卷积层、所述RPN和所述第二FC层中的至少一个的参数的调整。

20.根据权利要求18所述的测试装置，其中，所述学习装置执行或支持另一装置执行如下过程：(i)通过连接所述第一池化特征图和所述第二池化特征图获取至少一个特征向量的过程，(ii)当所述特征向量被输入到所述第一FC层中时，通过回归获取关于用于训练的所述第一边界框的像素数据的信息的过程，(iii)通过在关于所述第一边界框的像素数据的信息和关于用于训练的所述GT边界框的像素数据的信息之间进行比较获取所述第一比较数据的过程，以及(iv)反向传播关于所述第一比较数据的信息从而执行所述CNN的至少部分所述参数的所述第一调整的过程。

21.根据权利要求18所述的测试装置，其中，当所述第一池化特征图和所述第二池化特征图被输入到所述第一FC层中时，如果通过回归获取关于用于训练的所述第一边界框的像素坐标的信息，则所述学习装置比较或支持另一装置比较用于训练的所述第一边界框的像素坐标和用于训练的所述GT边界框的像素坐标。

22.根据权利要求18所述的测试装置，其中，所述学习装置允许所述RPN在所述训练图像上获取或支持另一装置在所述训练图像上获取分数等于或大于第二阈值的一个或多个锚框作为用于训练的所述建议ROI，其中，通过在关于各个所述锚框的像素数据的信息和关于用于训练的所述GT边界框的像素数据的信息之间分别进行比较来获取所述分数。