CN111461161A

CN111461161A - 基于cnn且抗波动性强的客体检测方法及装置

Info

Publication number: CN111461161A
Application number: CN201911294522.6A
Authority: CN
Inventors: 金桂贤; 金镕重; 金寅洙; 金鹤京; 南云铉; 夫硕焄; 成明哲; 吕东勋; 柳宇宙; 张泰雄; 郑景中; 诸泓模; 赵浩辰
Original assignee: Stradvision Inc
Current assignee: Stradvision Inc
Priority date: 2019-01-22
Filing date: 2019-12-16
Publication date: 2020-07-28
Anticipated expiration: 2039-12-16
Also published as: KR102246368B1; JP2020119530A; EP3686785A1; CN111461161B; KR20200091323A; US10402692B1; JP6850046B2

Abstract

本发明提供一种学习基于CNN且抗波动性强的客体检测器的方法及装置，该客体检测器可根据诸如KPI等使用者的要求事项而适应地利用目标客体预测网络。如果由所述KPI决定的分辨率或焦距发生改变，则客体的大小也改变。利用面向使用者优化设计的所述方法，能够更准确地检测到诸如正在落下或已落下客体的不确实的客体，而且能够感知所述客体的波动。因此，所述方法对于军事目的或位于远处的客体检测非常有用。所述方法包括如下步骤：在使k从1增加到n的同时，学习装置使RPN，输出与图像上的第(k‑1)目标区域对应的第k加工图像上的第k客体推选，使FC层输出与第k客体对应的客体检测信息，使FC损失层获得FC损失。

Description

基于CNN且抗波动性强的客体检测方法及装置

技术领域

本发明涉及一种客体检测器的学习方法和学习装置以及利用其的测试方法和测试装置，该客体检测器可根据诸如关键绩效指标(Key Performa nce Index，KPI)等使用者要求而适应地利用目标客体预测网络，而且抗波动性强。

背景技术

在机器学习(machine learning)中，卷积神经网络(Convolutional NeuralNetwork，CNN或ConvNet)是成功应用于视觉图像分析的深度前馈人工神经网络(Deepfeedforward artificial neural network)。

基于CNN的客体检测器(i)使卷积层，对输入图像应用卷积运算，从而输出与所述输入图像对应的特征图，(ii)使区域推选网络(Region P roposal Network，RPN)，利用所述特征图，确认与所述输入图像内的客体对应的推选，(iii)使池化层，在与所述确认的推选对应的所述特征图上的区域应用至少一个池化运算，获得池化后特征图，(iv)使FC(Fully C onnected，全连接)层，将至少一个FC运算应用于与所述获得的池化后特征图乃至与所述客体相关的输出种类信息和回归信息，从而检测所述输入图像上的所述客体。

但是，基于所述CNN的客体检测器由于利用了借助于所述卷积层而缩小了所述输入图像尺寸的尺寸的所述特征图，因而容易检测位于所述输入图像的大尺寸的客体，但难以检测位于所述输入图像的小尺寸的客体。

作为另一示例，虽然可以利用放大所述输入图像而获得的调整了尺寸的图像来检测小尺寸的客体，但在这种情况下，所述客体检测器所需的运算量增加，因而所述客体检测器的性能低下。

因此，本发明的发明人希望提出一种缩短运算时间并高效检测位于输入图像上的多样尺寸的客体的学习方法和学习装置，及利用其的测试方法和测试装置。

发明内容

本发明的目的在于解决上述所有问题。

本发明另一目的在于提供一种基于CNN的客体检测器，使得能够与尺寸无关地高效检测图像上的客体。

本发明又一目的在于提供一种基于CNN的客体检测器，使得能够在不追加增加运算量的同时检测所述图像上的小尺寸客体。

本发明的目的是通过以下技术方案实现的：

根据本发明的一个方面，公开了一种利用目标客体预测网络的客体检测器的参数的学习方法，其特征在于，包括：(a)步骤，输入至少一个训练图像后，学习装置(i)使一个以上的卷积层，对与所述训练图像对应的至少一个第1加工图像应用一个以上的卷积运算，使得输出至少一个第1特征图，(ii)使区域推选网络RPN，利用所述第1特征图，输出与位于所述第1加工图像内的一个以上第1客体分别对应的一个以上的第1客体推选，(iii)使池化层，在所述第1特征图上，对与所述各个第1客体推选分别对应的各个区域，应用一个以上的池化运算，输出至少一个第1池化后特征图，(iv)使全连接FC层，对所述第1池化后特征图应用至少一个FC运算，输出与所述第1客体对应的第1客体检测信息，(v)使FC损失层，参照所述第1客体检测信息和与其对应的地面真值GT，获得一个以上的第1FC损失，进而通过利用所述第1FC损失的反向传播，学习所述FC层与所述卷积层的参数中至少一部分；及(b)步骤，在使k从2增加到n的同时，所述学习装置(i)使所述目标客体预测网络，参照第(k-1)加工图像上的一个以上的第(k-1)客体推选，在所述第(k-1)加工图像上，查找与预测为至少一个目标客体所在的区域对应的第(k-1)目标区域，(ii)在所述训练图像或调整了大小的训练图像上，获得与所述第(k-1)目标区域对应的第k加工图像后，使所述卷积层，对所述第k加工图像应用所述卷积运算，输出第k特征图，(iii)使所述RPN，参照所述第k特征图，输出与位于所述第k加工图像内的一个以上第k客体分别对应的一个以上的第k客体推选，(iv)使所述池化层，在所述第k特征图上，对与所述各个第k客体推选分别对应的各个区域应用所述池化运算，输出至少一个第k池化后特征图，(v)使所述FC层，对所述第k池化后特征图应用所述FC运算，输出与所述第k客体对应的第k客体检测信息，(vi)使所述FC损失层，参照所述第k客体检测信息和与其对应的GT，获得一个以上的第kFC损失，进而通过利用所述第kFC损失的反向传播，学习所述FC层及所述卷积层的参数中至少一部分。

一个实施例，其特征在于，在所述(a)步骤中，所述学习装置使RPN损失层，参照所述第1客体推选的信息和与其对应的GT，获得一个以上的第1RPN损失，进而通过利用所述第1RPN损失的反向传播而调整所述RPN的参数中至少一部分，在所述(b)步骤中，所述学习装置使所述RPN损失层，参照所述第k客体推选的信息和与其对应的GT，获得一个以上的第kRPN损失，进而通过利用所述第kRPN损失的反向传播而调整所述RPN的参数中至少一部分。

一个实施例，其特征在于，在所述(b)步骤中，所述学习装置使所述目标客体预测网络，(i)将所述第(k-1)加工图像区分为MxN栅格，(ii)生成显示出所述第(k-1)客体推选中的与所述栅格每个单元分别对应的推选个数的至少一个以上直方图，且在所述栅格的各单元内，存在与其对应的所述各个推选的全体区域或分割区域，(iii)使用移动窗中至少一个区域，决定所述第(k-1)目标区域，所述至少一个区域是指变更所述移动窗位置时所占有的所有区域中、所述直方图之和具有最大的值的区域。

一个实施例，其特征在于，在所述(b)步骤中，所述学习装置将所述训练图像的尺寸扩大为大于所述第1加工图像的尺寸，生成所述调整了大小的训练图像后，在所述调整了大小的训练图像上，裁剪与所述第(k-1)目标区域对应的至少一个区域，生成所述第k加工图像。

一个实施例，其特征在于，在所述(b)步骤中，所述学习装置在所述训练图像上，裁剪与所述第(k-1)目标区域对应的至少一个区域，对所述裁剪区域调整大小，生成所述第k加工图像。

一个实施例，其特征在于，对所述第k加工图像调整大小，使得所述第k加工图像的尺寸大于所述第(k-1)目标区域的尺寸。

一个实施例，其特征在于，

所述第1加工图像至第n加工图像的尺寸具有相同的大小。

根据本发明的另一个方面，公开了一种利用目标客体预测网络的客体检测器的测试方法，其特征在于，包括：(a)步骤，学习装置(1-1)使一个以上的卷积层，对与至少一个训练图像对应的至少一个第1学习用加工图像应用一个以上的卷积运算，输出至少一个第1学习用特征图，(1-2)使RPN，利用所述第1学习用特征图，输出与位于所述第1学习用加工图像内的一个以上第1学习用客体分别对应的一个以上第1学习用客体推选，(1-3)使池化层，在所述第1学习用特征图上，对与所述各个第1学习用客体推选分别对应的各个区域应用一个以上的池化运算，输出至少一个第1学习用池化后特征图，(1-4)使FC层，对所述第1学习用池化后特征图应用至少一个FC运算，输出与所述第1学习用客体对应的第1学习用客体检测信息，(1-5)使FC损失层，参照所述第1学习用客体检测信息和与其对应的GT，获得一个以上的第1FC损失，从而通过利用所述第1FC损失的反向传播，学习所述FC层及所述卷积层的参数中至少一部分，在使k从2增加到n的同时，(2-1)使所述目标客体预测网络，参照第(k-1)学习用加工图像上的一个以上的第(k-1)学习用客体推选，在所述第(k-1)学习用加工图像上，查找与预测为至少一个学习用目标客体所在的区域对应的第(k-1)学习用目标区域，(2-2)在所述训练图像或调整了大小的训练图像上，获得与所述第(k-1)学习用目标区域对应的第k学习用加工图像后，使所述卷积层，对所述第k学习用加工图像应用所述卷积运算，输出第k学习用特征图，(2-3)使所述RPN，参照所述第k学习用特征图，输出与位于所述第k学习用加工图像内的一个以上第k学习用客体分别对应的一个以上第k学习用客体推选，(2-4)使所述池化层，在所述第k学习用特征图上，对与所述各个第k学习用客体推选分别对应的各个区域应用所述池化运算，输出至少一个第k学习用池化后特征图，(2-5)使所述FC层，对所述第k学习用池化后特征图应用所述FC运算，输出与所述第k学习用客体对应的第k学习用客体检测信息，(2-6)使所述FC损失层，参照所述第k学习用客体检测信息和与其对应的GT，输出一个以上的第kFC损失，进而通过利用所述第kFC损失的反向传播，学习所述FC层及所述卷积层的所述参数中至少一部分，在这种状态下，获得至少一个测试图像后，测试装置(i)使所述卷积层，对与所述测试图像对应的至少一个第1测试用加工图像应用所述卷积运算，输出至少一个第1测试用特征图，(ii)使所述RPN，利用所述第1测试用特征图，输出与位于所述第1测试用加工图像内的一个以上第1测试用客体分别对应的一个以上第1测试用客体推选，(iii)使所述池化层，在所述第1测试用特征图上，对与所述各个第1测试用客体推选分别对应的各个区域应用所述池化运算，输出至少一个第1测试用池化后特征图，(iv)使所述FC层，对所述第1测试用池化后特征图应用所述FC运算，输出与所述第1测试用客体对应的第1测试用客体检测信息；及(b)步骤，在使k从2增加到n的同时，所述测试装置(i)使所述目标客体预测网络，参照第(k-1)测试用加工图像上的一个以上的第(k-1)测试用客体推选，在所述第(k-1)测试用加工图像上，查找与预测为至少一个测试用目标客体所在的区域对应的第(k-1)测试用目标区域，(ii)在所述测试图像或调整了大小的测试图像上，获得与所述第(k-1)测试用目标区域对应的第k测试用加工图像后，使所述卷积层，对所述第k测试用加工图像应用所述卷积运算，输出第k测试用特征图，(iii)使所述RPN，参照所述第k测试用特征图，输出与位于所述第k测试用加工图像内的一个以上的第k测试用客体分别对应的一个以上第k测试用客体推选，(iv)使所述池化层，在所述第k测试用特征图上，对与所述各个第k测试用客体推选分别对应的各个区域应用所述池化运算，输出至少一个第k测试用池化后特征图，(v)使所述FC层，对所述第k测试用池化后特征图应用所述FC运算，输出与所述第k测试用客体对应的第k测试用客体检测信息。

一个实施例，其特征在于，所述学习装置使RPN损失层，参照所述第1学习用客体推选的信息和与其对应的GT，获得一个以上的第1RPN损失，进而通过利用所述第1RPN损失的反向传播而调整所述RPN的参数中至少一部分，所述学习装置使所述RPN损失层，参照所述第k学习用客体推选的信息和与其对应的GT，获得一个以上的第kRPN损失，进而通过利用所述第kRPN损失的反向传播而调整所述RPN的参数中至少一部分。

一个实施例，其特征在于，在所述(b)步骤中，所述测试装置使所述目标客体预测网络，(i)将所述第(k-1)测试用加工图像区分为MxN栅格，(ii)生成显示出所述第(k-1)客体推选中的与所述栅格每个单元分别对应的测试用推选个数的至少一个以上测试用直方图，且在所述栅格的各单元内，存在与其对应的所述各个测试用推选的全体区域或分割区域，(iii)使用移动窗中至少一个区域，决定所述第(k-1)测试用目标区域，所述至少一个区域是指变更所述移动窗位置时所占有的所有区域中、所述测试用直方图之和具有最大的值的区域。

一个实施例，其特征在于，在所述(b)步骤中，所述测试装置将所述测试图像的尺寸扩大为大于所述第1测试用加工图像的尺寸，生成所述调整了大小的训测试像后，在所述调整了大小的测试图像上，裁剪与所述第(k-1)测试用目标区域对应的至少一个区域，生成所述第k测试用加工图像。

一个实施例，其特征在于，在所述(b)步骤中，所述测试装置在所述测试图像上，裁剪与所述第(k-1)测试用目标区域对应的至少一个区域，对所述裁剪区域调整大小，生成所述第k测试用加工图像。

一个实施例，其特征在于，对所述第k测试用加工图像调整大小，使得所述第k测试用加工图像的尺寸大于所述第(k-1)测试用目标区域的尺寸。

一个实施例，其特征在于，所述第1测试用加工图像至第n测试用加工图像的尺寸具有相同的大小。

根据本发明的又另一个方面，公开了一种学习装置，所述学习装置用于学习利用目标客体预测网络的客体检测器的参数，其特征在于，包括：存储指令的至少一个存储器；及至少一个处理器，所述至少一个处理器构成为运行所述指令，所述指令用于执行：(I)流程，(i)使一个以上的卷积层，对与至少一个训练图像对应的至少一个第1加工图像应用一个以上的卷积运算，输出至少一个第1特征图，(ii)使RPN，利用所述第1特征图，输出与位于所述第1加工图像内的一个以上第1客体分别对应的一个以上的第1客体推选，(iii)使池化层，在所述第1特征图上，对与所述各个第1客体推选分别对应的各个区域，应用一个以上的池化运算，输出至少一个第1池化后特征图，(iv)使FC层，对所述第1池化后特征图应用至少一个FC运算，输出与所述第1客体对应的第1客体检测信息，(v)使FC损失层，参照所述第1客体检测信息和与其对应的GT，获得一个以上的第1FC损失，进而通过利用所述第1FC损失的反向传播，学习所述FC层和所述卷积层的参数中至少一部分；及(II)流程，在使k从2增加到n的同时，(i)使所述目标客体预测网络，参照第(k-1)加工图像上的一个以上的第(k-1)客体推选，在所述第(k-1)加工图像上，查找与预测为至少一个目标客体所在的区域对应的第(k-1)目标区域，(ii)在所述训练图像或调整了大小的训练图像上，获得与所述第(k-1)目标区域对应的第k加工图像后，使所述卷积层，对所述第k加工图像应用所述卷积运算，输出第k特征图，(iii)使所述RPN，参照所述第k特征图，输出与位于所述第k加工图像内的一个以上第k客体分别对应的一个以上的第k客体推选，(iv)使所述池化层，在所述第k特征图上，对与所述各个第k客体推选分别对应的各个区域应用所述池化运算，输出至少一个第k池化后特征图，(v)使所述FC层，对所述第k池化后特征图应用所述FC运算，输出与所述第k客体对应的第k客体检测信息，(vi)使所述FC损失层，参照所述第k客体检测信息和与其对应的GT，获得一个以上的第kFC损失，进而通过利用所述第kFC损失的反向传播，学习所述FC层及所述卷积层的参数中至少一部分。

一个实施例，其特征在于，在所述(I)流程中，所述处理器使RPN损失层，参照所述第1客体推选的信息和与其对应的GT，获得一个以上的第1RPN损失，进而使得通过利用所述第1RPN损失的反向传播而调整所述RPN的参数中至少一部分；在所述(II)流程中，所述处理器使所述RPN损失层，参照所述第k客体推选的信息和与其对应的GT，获得一个以上的第kRPN损失，进而通过利用所述第kRPN损失的反向传播而调整所述RPN的参数中至少一部分。

一个实施例，其特征在于，在所述(II)流程中，所述处理器使所述目标客体预测网络，(i)将所述第(k-1)加工图像区分为MxN栅格，(ii)生成显示出所述第(k-1)客体推选中的与所述栅格每个单元分别对应的推选个数的至少一个以上直方图，且在所述栅格的各单元内，存在与其对应的所述各个推选的全体区域或分割区域，(iii)使用移动窗中至少一个区域来决定所述(k-1)目标区域，所述至少一个区域是指变更所述移动窗的位置时所占有的所有区域中、所述直方图之和具有最大的值的区域。

一个实施例，其特征在于，在所述(II)流程中，所述处理器将所述训练图像的尺寸扩大为大于所述第1加工图像的尺寸，生成所述调整了大小的训练图像后，在所述调整了大小的训练图像上，裁剪与所述第(k-1)目标区域对应的至少一个区域，生成所述第k加工图像。

一个实施例，其特征在于，在所述(II)流程中，所述处理器在所述训练图像上，裁剪与所述第(k-1)目标区域对应的至少一个区域，对所述裁剪区域调整大小，生成所述第k加工图像。

一个实施例，其特征在于，所述第1加工图像至第n加工图像的尺寸具有相同的大小。

根据本发明的又另一个方面，公开了一种测试装置，所述测试装置用于测试利用目标客体预测网络的客体检测器，其特征在于，包括：存储指令的至少一个存储器；及至少一个处理器，所述至少一个处理器构成为运行所述指令，所述指令用于在如下状态下，即，学习装置(1-1)使一个以上的卷积层，对与至少一个训练图像对应的至少一个第1学习用加工图像应用一个以上的卷积运算，输出至少一个第1学习用特征图，(1-2)使RPN，利用所述第1学习用特征图，输出与位于所述第1学习用加工图像内的一个以上第1学习用客体分别对应的一个以上第1学习用客体推选，(1-3)使池化层，在所述第1学习用特征图上，对与所述各个第1学习用客体推选分别对应的各个区域应用一个以上的池化运算，输出至少一个第1学习用池化后特征图，(1-4)使FC层，对所述第1学习用池化后特征图应用至少一个FC运算，输出与所述第1学习用客体对应的第1学习用客体检测信息，(1-5)使FC损失层，参照所述第1学习用客体检测信息和与其对应的GT，获得一个以上的第1FC损失，从而通过利用所述第1FC损失的反向传播，学习所述FC层及所述卷积层的参数中至少一部分；在使k从2增加到n的同时，(2-1)使所述目标客体预测网络，参照第(k-1)学习用加工图像上的一个以上的第(k-1)学习用客体推选，在所述第(k-1)学习用加工图像上，查找与预测为至少一个学习用目标客体所在的区域对应的第(k-1)学习用目标区域，(2-2)在所述训练图像或调整了大小的训练图像上，获得与所述第(k-1)学习用目标区域对应的第k学习用加工图像后，使所述卷积层，对所述第k学习用加工图像应用所述卷积运算，输出第k学习用特征图，(2-3)使所述RPN，参照所述第k学习用特征图，输出与位于所述第k学习用加工图像内的一个以上第k学习用客体分别对应的一个以上第k学习用客体推选，(2-4)使所述池化层，在所述第k学习用特征图上，对与所述各个第k学习用客体推选分别对应的各个区域应用所述池化运算，输出至少一个第k学习用池化后特征图，(2-5)使所述FC层，对所述第k学习用池化后特征图应用所述FC运算，输出与所述第k学习用客体对应的第k学习用客体检测信息，(2-6)使所述FC损失层，参照所述第k学习用客体检测信息和与其对应的GT，输出一个以上的第kFC损失，进而通过利用所述第kFC损失的反向传播，学习所述FC层及所述卷积层的所述参数中至少一部分，在这种状态下，所述指令用于执行：(I)流程，(i)使所述卷积层，对与测试图像对应的至少一个第1测试用加工图像应用所述卷积运算，输出至少一个第1测试用特征图，(ii)使所述RPN，利用所述第1测试用特征图，输出与位于所述第1测试用加工图像内的一个以上第1测试用客体分别对应的一个以上第1测试用客体推选，(iii)使所述池化层，在所述第1测试用特征图上，对与所述各个第1测试用客体推选分别对应的各个区域应用所述池化运算，输出至少一个第1测试用池化后特征图，(iv)使所述FC层，对所述第1测试用池化后特征图应用所述FC运算，输出与所述第1测试用客体对应的第1测试用客体检测信息；及(II)流程，在使k从2增加到n的同时，(i)使所述目标客体预测网络，参照第(k-1)测试用加工图像上的一个以上的第(k-1)测试用客体推选，在所述第(k-1)测试用加工图像上，查找与预测为至少一个测试用目标客体所在的区域对应的第(k-1)测试用目标区域，(ii)在所述测试图像或调整了大小的测试图像上，获得与所述第(k-1)测试用目标区域对应的第k测试用加工图像后，使所述卷积层，对所述第k测试用加工图像应用所述卷积运算，输出第k测试用特征图，(iii)使所述RPN，参照所述第k测试用特征图，输出与位于所述第k测试用加工图像内的一个以上的第k测试用客体分别对应的一个以上第k测试用客体推选，(iv)使所述池化层，在所述第k测试用特征图上，对与所述各个第k测试用客体推选分别对应的各个区域应用所述池化运算，输出至少一个第k测试用池化后特征图，(v)使所述FC层，对所述第k测试用池化后特征图应用所述FC运算，输出与所述第k测试用客体对应的第k测试用客体检测信息。

一个实施例，其特征在于，在所述(II)流程中，所述处理器使所述目标客体预测网络，(i)将所述第(k-1)测试用加工图像区分为MxN栅格，(ii)生成显示出所述第(k-1)客体推选中的与所述栅格每个单元分别对应的测试用推选个数的至少一个以上测试用直方图，且在所述栅格的各单元内，存在与其对应的所述各个测试用推选的全体区域或分割区域，(iii)使用移动窗中至少一个区域，决定所述第(k-1)测试用目标区域，所述至少一个区域是指变更所述移动窗的位置时所占有的所有区域中、所述测试用直方图之和具有最大的值的区域。

一个实施例，其特征在于，在所述(II)流程中，所述处理器将所述测试图像的尺寸扩大为大于所述第1测试用加工图像的尺寸，生成所述调整了大小的测试图像后，在所述调整了大小的测试图像上，裁剪与所述第(k-1)测试用目标区域对应的至少一个区域，生成所述第k测试用加工图像。

一个实施例，其特征在于，在所述(II)流程中，所述处理器在所述测试图像上，裁剪与所述第(k-1)测试用目标区域对应的至少一个区域，对所述裁剪区域调整大小，生成所述第k测试用加工图像。

与现有技术相比，本发明的优点在于：

根据本发明，具有的效果是，将输入图像加工成具有互不相同的尺寸的图像后，能够利用在各个加工图像上推定为客体所在的目标区域(Target Area，TR)，轻松检测图像内的较小客体。

另外，根据本发明，具有的效果是，将所述输入图像加工成互不相同的尺寸的图像后，裁剪(crop)在各个所述加工图像上推定为客体所在的目标区域，进而利用其经过加工的图像，检测图像内小尺寸的客体，从而能够实现运算量和运算时间的最小化。

附图说明

为了用于说明本发明实施例而附带的下面的图，只是本发明实施例中的一部分，本发明所属技术领域的普通技术人员(以下称为“普通技术人员”)可以不进行发明性作业，基于这些图获得其他图。

图1是概略地显示本发明一个实施例的利用目标客体预测网络的、学习基于CNN的客体检测器的学习装置的图。

图2是概略地显示本发明一个实施例的利用所述目标客体预测网络的、学习基于所述CNN的客体检测器的学习方法的图。

图3是概略地显示本发明一个实施例的利用所述目标客体预测网络的、基于所述CNN的客体检测器的学习方法中要考虑的、从RPN输出的客体推选的图。

图4是概略地显示本发明一个实施例的利用“利用所述目标客体预测网络的、基于所述CNN的客体检测器的学习方法要考虑的、从所述RPN输出的所述客体推选”来查找目标区域的流程的图。

图5是概略地显示本发明一个实施例的利用加工图像来检测至少一个目标客体的流程的图。

图6是概略地显示本发明一个实施例的利用所述目标客体预测网络的、基于所述CNN的客体检测器的测试装置的图。

图7是概略地显示本发明一个实施例的利用所述目标客体预测网络的、基于所述CNN的客体检测器的测试方法的图。

具体实施方式

后述有关本发明的详细说明，为了使本发明的目的、技术方案及优点更分明，参照作为示例而图示本发明可实施的特定实施例的附图，对这些实施例进行了详细说明，以便普通技术人员足以能够实施本发明。

另外，在本发明通篇内容及权利要求中，“包括”字样的术语及其变形，并非要将其他技术特征、附加物、构成要素或步骤排除在外。对于普通技术人员而言，本发明的其他目的、优点及特性，一部分来自本说明书，而一部分来自本发明的实施。以下的示例及附图是作为实例而提供的，并非意图限定本发明。

进一步地，本发明涵盖本说明书中显示的实施例的所有可能组合。本发明的多样实施例虽然互不相同，但应理解为不需要相互排他。例如，在此记载的特定形状、结构及特性，可以与一个实施例相关联，在不超出本发明的精神及范围的前提下体现为其他实施例。另外，各个公开的实施例内的个别构成要素的位置及配置，应理解为在不超出本发明的精神及范围的前提下可以进行变更。因此，后述的详细说明并非出于限定之意，本发明的范围，如能适当说明，则仅由与其权利要求所主张的内容等同的所有范围和所附权利要求所限定。在附图中，类似的附图标记指称在多个方面相同或类似的功能。

本发明中提及的各种图像可以包括铺装或非铺装道路相关图像，是可以推断此时会在道路环境中出现的物体(例如汽车、人、动物、植物、物品、建筑物、诸如飞机或无人机的飞行体、其他障碍物)的图像，但并非必须限定于此，本发明中提及的各种图像也可以是与道路无关的图像(例如与非铺设道路、小胡同、空地、海、湖、河、山、树林、沙漠、天空、室内相关的图像)，是可以推断此时会在非铺设道路、小胡同、空地、海、湖、河、山、树林、沙漠、天空、室内环境中出现的物体(例如汽车、人、动物、植物、物品、建筑物、诸如飞机或无人机的飞行体、其他障碍物)的图像，但并非必须限定于此。

下面为了让本发明所属技术领域的普通技术人员能够容易地实施本发明，参照附图，就本发明优选实施例进行详细说明。

参照图1，所述学习装置100可以包括通信部110和处理器120。

首先，所述通信部110获得支持其他装置获得至少一个训练图像。

此时，所述训练图像存储于数据库130，所述数据库130存储有针对与位于所述训练图像的一个以上客体分别对应的类信息及位置信息的至少一个GT(ground truth，地面真值)。

另外，所述学习装置还包括存储器115，所述存储器115能够存储执行后述的流程的计算机可读指令(computer readable instruction)。作为一个示例，所述处理器、所述存储器及介质等可以统合为一个处理器而发挥功能。

然后，所述处理器120执行或支持其他装置执行如下流程：(i)使一个以上的卷积层，对与所述训练图像对应的至少一个第1加工图像应用一个以上的卷积运算，输出至少一个第1特征图，(ii)使RPN，利用所述第1特征图，输出与位于所述第1加工图像内的一个以上第1客体分别对应的一个以上的第1客体推选，(iii)使池化层，在所述第1特征图上，对与所述各个第1客体推选分别对应的各个区域，应用一个以上的池化运算，输出至少一个第1池化后特征图，(iv)使FC层，对所述第1池化后特征图应用至少一个FC运算，输出与所述第1客体对应的第1客体检测信息，(v)使FC损失层，参照所述第1客体检测信息和与其对应的GT，获得一个以上的第1FC损失，从而通过利用所述第1FC损失的反向传播，学习所述FC层和所述卷积层的参数中至少一部分。

另外，所述处理器120可以执行或支持使得其他装置执行如下流程：在使k从2增加到n的同时，(i)使所述目标客体预测网络，参照第k-1加工图像上的一个以上的第k-1客体推选，在所述第k-1加工图像上，查找与预测为至少一个目标客体所在的区域对应的第k-1目标区域，(ii)在所述训练图像或调整了大小的训练图像上，如果获得与所述第k-1目标区域对应的第k加工图像，则使所述卷积层，对所述第k加工图像应用所述卷积运算，输出第k特征图，(iii)使所述RPN，参照所述第k特征图，输出与位于所述第k加工图像内的一个以上第k客体分别对应的一个以上的第k客体推选，(iv)使所述池化层，在所述第k特征图上，对与所述各个第k客体推选分别对应的各个区域应用所述池化运算，输出至少一个第k池化后特征图，(v)使所述FC层，对所述第k池化后特征图应用所述FC运算，输出与所述第k客体对应的第k客体检测信息，(vi)使所述FC损失层，参照所述第k客体检测信息和与其对应的GT，获得一个以上的第kFC损失，从而通过利用所述第kFC损失的反向传播，学习所述FC层及所述卷积层的参数中至少一部分。

另外，所述处理器120可以使RPN损失层，参照所述第1客体推选的信息和与其对应的GT，获得一个以上的第1RPN损失，从而通过利用所述第1RPN损失的反向传播而调整所述RPN的参数中至少一部分，使所述RPN损失层，参照所述第k客体推选的信息和与其对应的GT，获得一个以上的第kRPN损失，从而通过利用所述第kRPN损失的反向传播而调整所述RPN的参数中至少一部分。

此时，本发明一个实施例的所述学习装置100作为计算装置，只要是搭载处理器并具有运算能力的装置，则均可用作本发明的学习装置100。作为参考，在图1中，只显示了一个学习装置100，但不限定于此，所述学习装置也可以分成多个装置并执行功能。

下面参照图2，说明通过如上所述构成的本发明一个实施例的所述学习装置100，利用所述目标客体预测网络来学习基于CNN的客体检测器的参数的方法。

首先，输入了所述训练图像后，所述学习装置100使卷积层121，对与所述训练图像对应的所述第1加工图像应用所述卷积运算，输出所述第1特征图。其中，所述卷积层121可以为单一卷积层或多个卷积层。

此时，所述学习装置100可以使图像加工网络111，加工所述训练图像并生成包含尺寸互不相同的多个图像的图像金字塔，可以将所述图像金字塔中的一个图像作为所述第1加工图像而输入到所述卷积层121。

然后，所述学习装置100可以使RPN122，利用所述第1特征图，输出与位于所述第1加工图像内的所述第1客体对应的一个以上第1客体推选。

作为一个示例，参照图3，从所述RPN122输出的所述第1客体推选可以与所述第1加工图像内所述第1客体分别对应，所述各个第1客体推选可以包括关于所述各个第1客体的各推选框的信息，所述关于各推选框的信息具有与标记区域对应的位置信息和关于所述各个标记区域是否为客体的信息。此时，关于是否为客体的信息可以包括所述各个客体推选被预测为客体的几率信息，所述关于推选框的信息可以包括所述推选框被预测为与所述客体位置一致的几率信息。

然后，所述学习装置100可以使池化层123，在所述第1特征图上，对与所述第1客体推选对应的至少一个区域应用所述池化运算，输出所述第1池化后特征图，使FC层124，对所述第1池化后特征图应用所述FC运算，输出与所述第1客体对应的第1客体检测信息。

此时，所述第1客体检测信息可以包括关于边界框的信息(即，关于所述各个第1客体的位置信息)及关于与所述第1客体推选对应的所述各个第1客体的类信息。另外，所述类信息可以包括所述各个第1客体被预测为相应类的几率信息，关于所述边界框的信息可以包括所述各个边界框被预测为与所述客体的位置一致的几率信息。

然后，所述学习装置100可以使至少一个FC损失层125，参照所述第1客体检测信息和与其对应的GT，获得一个以上的第1FC损失，从而通过利用所述第1FC损失的反向传播，调整所述FC层124与所述卷积层121的参数中至少一部分。

另外，所述学习装置100可以使至少一个RPN损失层126，参照所述第1客体推选和与其对应的GT，获得一个以上的第1RPN损失，从而通过利用所述第1RPN损失的反向传播，调整所述RPN122的参数中至少一部分。

然后，所述学习装置100可以使目标客体预测网络127，参照第1加工图像上的所述第1客体推选，在所述第1加工图像上，查找与预测为所述目标客体所在的区域对应的第1目标区域。

作为一个示例，参照图4，所述目标客体预测网络127(i)将所述第1加工图像区分为MxN栅格，(ii)生成显示出所述第k-1客体推选中的与所述栅格每个单元分别对应的推选个数的至少一个以上直方图，且在所述栅格的各单元内，存在与其对应的所述各个推选的全体区域或分割区域，优选地，可以使得所述对应的推选的尺寸，比从所述RPN122输出的所述客体推选中与所述目标客体的尺寸对应的预先设置的尺寸小，(iii)使用具有与所述第1目标区域的尺寸对应的P×Q尺寸的移动窗的至少一个区域，决定所述第1目标区域，这里所述至少一个区域可以具有在变更所述移动窗的位置时所占有的所有区域中的所述直方图之和最大的值。

然后，所述学习装置100可以获得或支持其他装置获得所述训练图像或对其调整了大小的图像，即，与所述调整了大小的训练图像上的所述第1目标区域对应的第2加工图像。

此时，所述学习装置100可以使所述图像加工网络111，将所述训练图像的尺寸扩大为大于所述第1加工图像的尺寸的尺寸，生成所述调整了大小的训练图像后，在所述调整了大小的训练图像上，裁剪与所述第1目标区域TR对应的至少一个区域而生成所述第2加工图像，或对与所述训练图像上的所述第1目标区域TR对应的至少一个区域进行裁剪及调整大小，生成所述第2加工图像。

作为一个示例，所述图像加工网络111可以在与所述训练图像对应的所述图像金字塔中的大小大于第1加工图像的图像上，裁剪与第1目标区域TR对应的至少一个区域，生成所述第2加工图像。另外，所述图像加工网络111可以在所述训练图像中，裁剪与所述第1目标区域TR对应的至少一个区域，对所述裁剪的图像调整大小，从而生成所述第2加工图像。此时，所述第2加工图像可以被调整大小，使得尺寸大于所述第1目标区域的尺寸。为此，所述图像加工网络111可以对所述裁剪所得图像调整大小，使得与所述训练图像的所述图像金字塔中所述第1加工图像的下一个图像的尺寸对应，生成所述第2加工图像。

然后，所述学习装置100可以利用所述生成的第2加工图像，反复如上所述的过程，高效地检测所述训练图像上的小尺寸的客体，即，位于远处的客体。

即，所述学习装置100可以执行或支持其他装置执行如下流程：在使k从2增加到n的同时，(i)使所述目标客体预测网络127，参照第k-1加工图像上的一个以上的第k-1客体推选，在所述第k-1加工图像上，查找与预测为所述目标客体所在的区域对应的第k-1目标区域，(ii)在所述训练图像或调整了大小的训练图像上，获得与所述第k-1目标区域对应的第k加工图像之后，使所述卷积层，对所述第k加工图像应用所述卷积运算，输出第k特征图。而且，所述学习装置100使所述RPN122，利用所述第k特征图，输出与位于所述第k加工图像内的各个第k客体对应的所述第k客体推选，使所述池化层123，在所述第k特征图上，对与所述各个第k客体推选分别对应的各个区域应用所述池化运算，输出所述至少一个第k池化后特征图。然后，所述学习装置100使所述FC层124，对所述第k池化后特征图应用所述FC运算，输出与所述第k客体对应的第k客体检测信息。而且，所述学习装置100使所述FC损失层125，参照所述第k客体检测信息和与其对应的GT而获得一个以上的第kFC损失，从而可以通过利用所述第kFC损失的反向传播，调整所述FC层及所述卷积层的参数中至少一部分。另外，所述学习装置100可以使所述RPN损失层126，参照所述第k客体推选和与其对应的GT，获得一个以上的第kRPN损失，从而通过利用所述第kRPN损失的反向传播，调整所述RPN122的所述参数中至少一部分。

作为一个示例，参照图5，在与作为所述图像金字塔中最小尺寸图像的第1图像P1对应的所述第1加工图像MI1上，执行客体检测，预测所述第1目标区域TR1，在作为所述图像金字塔中下一个最小尺寸图像的第2图像P2中，在与所述第1目标区域TR1对应的所述第2加工图像MI2上，执行客体检测，确认第2目标区域TR2，在作为所述图像金字塔中第2图像P2的下一个最小尺寸图像的第三图像P3中，在与所述第2目标区域TR2对应的第三加工图像MI3上，执行客体检测，从而可以在较短运算时间内，容易地检测到具有特定尺寸的第k客体，优选地，检测到位于远处的小尺寸的客体。

此时，在所述第1加工图像至第n-1加工图像中，可以使得第1目标区域至第n-1目标区域的尺寸相同，或者在与各个加工图像的尺寸对应地使纵横比(aspect ratio)相同的状态下，其尺寸可以不同。另外，也可以使得所述第1加工图像至所述第n加工图像具有相同的大小。

根据如上所述的方法，高效检测位于所述训练图像内的尺寸多样的客体，特别是尺寸小、位于远处的所述第k客体，另外，由于只使用与所述预测的目标区域对应的区域，因而能够减小运算量，因此，能够缩短基于所述CNN的所述客体检测的运算时间。

另外，以上对于假定在所述训练图像上的目标客体为一个的情形进行了说明，但在所述训练图像内的目标客体为多个的情况下，也可以根据如上所述的方法，利用所述训练图像内的与所述各个目标客体对应的各个目标区域，实现所述各个目标客体的检测。

图6概略地图示了本发明一个实施例的利用所述目标客体预测网络的、测试基于所述CNN的客体检测器的测试装置，参照图6，所述测试装置200可以包括通信部210和处理器220。

首先，所述通信部210获得或支持其他装置获得至少一个测试图像。

另外，所述测试装置还包括存储器215，所述存储器115能够存储执行后述的流程的计算机可读指令(computer readable instruction)。作为一个示例，所述处理器、所述存储器及介质(medium)等可以统合为一个处理器而发挥功能。

此时，利用所述目标客体预测网络的、基于所述CNN的所述客体检测器，可以利用参照图1至图5所说明的所述学习方法进行学习。

作为参考，在以下说明中为了防止混同，在与学习流程相关的术语中添加了“学习用”字样的语句，在与测试流程相关的术语中添加了“测试用”字样的语句。

即，获得训练图像后，则所述学习装置可以执行：(a)流程，(i)使所述卷积层，对与所述训练图像对应的至少一个第1学习用加工图像应用所述卷积运算，输出至少一个第1学习用特征图，(ii)使所述RPN，利用所述第1学习用特征图，输出与位于所述第1学习用加工图像内的一个以上第1学习用客体分别对应的一个以上第1学习用客体推选，(iii)使所述池化层，在所述第1学习用特征图上，对与所述各个第1学习用客体推选分别对应的各个区域应用所述池化运算，输出至少一个第1学习用池化后特征图，(iv)使所述FC层，对所述第1学习用池化后特征图应用所述FC运算，输出与所述第1学习用客体对应的第1学习用客体检测信息，(v)使所述FC损失层，参照所述第1学习用客体检测信息和与其对应的GT，获得所述第1FC损失，从而通过利用所述第1FC损失的反向传播，学习所述FC层与所述卷积层的所述参数中至少一部分；(b)流程，在使k从2增加到n的同时，(i)使所述目标客体预测网络，参照第k-1学习用加工图像上的一个以上的第k-1学习用客体推选，在所述第k-1学习用加工图像上，查找与预测为至少一个学习用目标客体所在的区域对应的第k-1学习用目标区域，(ii)在所述训练图像或调整了大小的训练图像上，如果获得与所述第k-1学习用目标区域对应的第k学习用加工图像，则使所述卷积层，对所述第k学习用加工图像应用所述卷积运算，输出第k学习用特征图，(iii)使所述RPN，参照所述第k学习用特征图，输出与位于所述第k学习用加工图像内的一个以上第k学习用客体分别对应的一个以上第k学习用客体推选，(iv)使所述池化层，在所述第k学习用特征图上，对与所述各个第k学习用客体推选分别对应的各个区域应用所述池化运算，输出至少一个第k学习用池化后特征图，(v)使所述FC层，对所述第k学习用池化后特征图应用所述FC运算，输出与所述第k学习用客体对应的第k学习用客体检测信息，(vi)使所述FC损失层，参照所述第k学习用客体检测信息和与其对应的GT，输出一个以上的第kFC损失，从而通过利用所述第kFC损失的反向传播，学习所述FC层及所述卷积层的所述参数中至少一部分。

另外，所述学习装置可以使所述RPN损失层，参照所述第1学习用客体推选的信息和与其对应的GT，获得一个以上的第1RPN损失，从而通过利用所述第1RPN损失的反向传播而调整所述RPN的参数中至少一部分，使所述RPN损失层，参照所述第k学习用客体推选的信息和与其对应的GT，获得一个以上的第kRPN损失，从而通过利用所述第kRPN损失的反向传播而调整所述RPN的参数中至少一部分。

然后，所述处理器220可以执行或支持其他装置执行如下流程：(i)使所述卷积层，对与所述测试图像对应的至少一个第1测试用加工图像应用所述卷积运算，输出至少一个第1测试用特征图，(ii)使所述RPN，利用所述第1测试用特征图，输出与位于所述第1测试用加工图像内的一个以上第1测试用客体分别对应的一个以上第1测试用客体推选，(iii)使所述池化层，在所述第1测试用特征图上，对与所述各个第1测试用客体推选分别对应的各个区域应用所述池化运算，输出至少一个第1测试用池化后特征图，(iv)使所述FC层，对所述第1测试用池化后特征图应用所述FC运算，输出与所述第1测试用客体对应的第1测试用客体检测信息。然后，所述处理器220可以执行或支持其他装置执行如下流程：在使k从2增加到n的同时，(i)使所述目标客体预测网络，参照第k-1测试用加工图像上的一个以上的第k-1测试用客体推选，在所述第k-1测试用加工图像上，查找与预测为至少一个测试用目标客体所在的区域对应的第k-1测试用目标区域，(ii)在所述测试图像或调整了大小的测试图像上，如果获得与所述第k-1测试用目标区域对应的第k测试用加工图像，则使所述卷积层，对所述第k测试用加工图像应用所述卷积运算，输出第k测试用特征图，(iii)使所述RPN，参照所述第k测试用特征图，输出与位于所述第k测试用加工图像内的一个以上的第k测试用客体分别对应的一个以上第k测试用客体推选，(iv)使所述池化层，在所述第k测试用特征图上，对与所述各个第k测试用客体推选分别对应的各个区域应用所述池化运算，输出至少一个第k测试用池化后特征图，(v)使所述FC层，对所述第k测试用池化后特征图应用所述FC运算，输出与所述第k测试用客体对应的第k测试用客体检测信息。

此时，本发明一个实施例的测试装置200作为计算装置，只要是搭载处理器并具有运算能力的装置，则均可用作本发明的测试装置200。作为参考，在图6中，只显示了一个测试装置200，但不限定于此，测试装置也可以分成多个装置并执行功能。

下面参照图7，说明本发明一个实施例的利用所述测试装置200来测试利用所述目标客体预测网络的、基于所述CNN的所述客体检测器。在以下说明中，对于通过参照图1至图5说明的所述学习方法而能够容易地理解的部分，省略详细说明。

首先，在根据参照图1至图5说明的学习方法，学习了FC层224、卷积层221及RPN222的参数中至少一部分的状态下，输入了所述测试图像后，所述测试装置200可以使所述卷积层221，对与所述测试图像对应的所述第1加工图像应用所述卷积运算，输出所述第1测试用特征图。此时，所述卷积层221既可以为单一卷积层，也可以为多个卷积层。

此时，所述测试装置200可以使图像加工网络211，加工所述测试图像，生成包括尺寸互不相同的图像的图像金字塔，可以将所述图像金字塔中的一个图像作为所述第1测试用加工图像而输入到所述卷积层221。

然后，所述测试装置200可以使所述RPN222，利用所述第1测试用特征图，输出与位于所述第1测试用加工图像内的所述各个第1测试用客体对应的一个以上第1测试用客体推选。

此时，所述各个第1测试用客体推选可以包括关于所述各个第1测试用客体的各推选的信息，所述关于推选的信息具有与标记区域对应的位置信息和关于所述各个标记区域是否为客体的信息。

然后，所述测试装置200可以使池化层223，在所述第1测试用特征图上，对与所述第1客体推选对应的至少一个区域应用所述池化运算，输出至少一个第1测试用池化后特征图，使所述FC层224，对所述第1测试用池化后特征图应用所述FC运算，输出与所述第1测试用客体对应的第1测试用客体检测信息。

此时，所述第1测试用客体检测信息可以包括关于测试用边界框的信息(即，关于所述各个第1测试用客体的位置信息)及关于与所述第1测试用客体推选对应的所述各个第1测试用客体的类信息。

然后，所述测试装置200可以使目标客体预测网络227，参照第1测试用加工图像上的所述第1测试用客体推选，在所述第1测试用加工图像上，查找与预测为至少一个测试用目标客体所在的区域对应的第1测试用目标区域。

然后，所述测试装置200可以获得或支持其他装置获得所述调整了大小的测试图像或与所述测试图像上的所述第1测试用目标区域对应的第2测试用加工图像。

此时，所述测试装置200可以使所述图像加工网络211，将所述测试图像的尺寸扩大为大于所述第1测试用加工图像的尺寸，生成所述调整了大小的测试图像后，在所述调整了大小的测试图像上，裁剪与所述第1测试用目标区域对应的至少一个区域，生成所述第2测试用加工图像，或对与所述测试图像上的所述第1测试用目标区域对应的至少一个区域进行裁剪及调整大小，生成所述第2测试用加工图像。

作为一个示例，所述图像加工网络211可以在与所述测试图像对应的所述图像金字塔中尺寸比所述第1测试用加工图像大的图像上，裁剪与所述第1测试用目标区域对应的至少一个区域，生成所述第2测试用加工图像。另外，所述图像加工网络211可以在所述测试图像中，裁剪与所述第1测试用目标区域对应的至少一个区域，对所述裁剪而得的图像调整大小，从而生成所述第2测试用加工图像。此时，可以调整大小而使得第2测试用加工图像的尺寸大于所述第1测试用目标区域的尺寸。为此，所述图像加工网络211可以针对所述裁剪而得的图像调整大小，使得与所述测试图像的所述图像金字塔中所述第1测试用加工图像的下一个图像的尺寸对应，生成所述第2测试用加工图像。

然后，所述测试装置200利用所述生成的第2测试用加工图像，反复如上所述的过程，高效检测所述测试图像上的小尺寸的客体，即，位于远处的客体。

换言之，所述测试装置200可以执行或支持其他装置执行如下流程：在使k从2增加到n的同时，(i)使所述目标客体预测网络227，参照第k-1测试用加工图像上的一个以上的第k-1测试用客体推选，在所述第k-1测试用加工图像上，查找与预测为至少一个测试用目标客体所在的区域对应的第k-1测试用目标区域，(ii)在所述测试图像或调整了大小的测试图像上，获得与所述第k-1测试用目标区域对应的第k测试用加工图像之后，使所述卷积层221，对所述第k测试用加工图像应用所述卷积运算，输出第k测试用特征图。而且，所述测试装置200可以使所述RPN222，利用所述第k测试用特征图，输出与位于所述第k测试用加工图像内的所述各个第k测试用客体对应的所述第k测试用客体推选，使所述池化层223，在所述第k测试用特征图上，对与所述各个第k测试用客体推选分别对应的各个区域应用所述池化运算，输出至少一个第k测试用池化后特征图。然后，所述测试装置200可以使所述FC层224，对所述第k测试用池化后特征图应用所述FC运算，输出与所述第k测试用客体对应的第k测试用客体检测信息。

根据如上所述的方法，能够高效检测位于所述测试图像内的尺寸多样的客体，特别是尺寸小、位于远处的所述第k客体，另外，由于只使用与所述预测的目标区域对应的区域，因而能够减小运算量，因此，能够缩短基于所述CNN的所述客体检测的运算时间。

另外，以上对于假定在所述测试图像上的目标客体为一个的情形进行了说明，但在所述测试图像内的目标客体为多个的情况下，也可以根据如上所述的方法，利用所述测试图像内的与所述各个目标客体对应的各个目标区域，实现所述各个目标客体的检测。

可以提供一种能够学习客体检测器的参数并应用于诸如关键绩效指标(KPI)的使用者要求事项的目标客体预测网络。如果由所述KPI决定的分辨率(resolution)或焦距(focal length)发生改变，则客体的大小也改变。利用面向使用者优化设计所需的所述方法，能够更准确地检测诸如正在落下或已落下客体的不确实的客体，另外，还能够感知所述客体的波动(fluctuation)。因此，所述方法对于军事目的或位于远处的客体检测非常有用。

以上说明的本发明的实施例可以体现为可通过多样计算机构成要素而执行的程序命令的形态，记录于计算机可读记录介质。所述计算机可读记录介质可以单独或组合包括程序命令、数据文件、数据结构等。所述计算机可读记录介质中记录的程序命令可以是为本发明而特别设计、构成的，或者也可以是计算机软件领域从业人员公知并可使用的。在计算机可读记录介质的示例中，包括诸如硬盘、软盘及磁带的磁介质，诸如CD-ROM(只读光盘驱动器)、DVD(数字化视频光盘)的光记录介质，诸如软式光盘(floptical disk)的磁-光介质(magneto-optical media)，及诸如只读存储器(ROM)、随机存储器(RAM)、快闪存储器等的为了存储及执行程序命令而特殊构成的硬件装置。在程序命令的示例中，不仅有借助于编译程序而制成的机器语言代码，还包括使用解释器等而能够借助于计算机运行的高级语言代码。所述硬件装置为了执行本发明的处理，可以构成为一个以上的软件模块而运转，反之亦然。

以上根据诸如具体构成要素等的特定事项和限定的实施例及附图，对本发明进行了说明，但这只是为了帮助更全面理解本发明而提供的，并非本发明限定于所述实施例，只要是本发明所属技术领域的技术人员，便可以从这种记载导出多样的修订及变形。

因此，本发明的思想不局限于所述说明的实施例确定，后述权利要求书以及与该权利要求书等同地或等效地变形的所有内容均属于本发明的思想范畴。

Claims

1.一种利用目标客体预测网络的客体检测器的参数的学习方法，其特征在于，包括：

(a)步骤，输入至少一个训练图像后，学习装置(i)使一个以上的卷积层，对与所述训练图像对应的至少一个第1加工图像应用一个以上的卷积运算，使得输出至少一个第1特征图，(ii)使区域推选网络RPN，利用所述第1特征图，输出与位于所述第1加工图像内的一个以上第1客体分别对应的一个以上的第1客体推选，(iii)使池化层，在所述第1特征图上，对与所述各个第1客体推选分别对应的各个区域，应用一个以上的池化运算，输出至少一个第1池化后特征图，(iv)使全连接FC层，对所述第1池化后特征图应用至少一个FC运算，输出与所述第1客体对应的第1客体检测信息，(v)使FC损失层，参照所述第1客体检测信息和与其对应的地面真值GT，获得一个以上的第1FC损失，进而通过利用所述第1FC损失的反向传播，学习所述FC层与所述卷积层的参数中至少一部分；及

(b)步骤，在使k从2增加到n的同时，所述学习装置(i)使所述目标客体预测网络，参照第(k-1)加工图像上的一个以上的第(k-1)客体推选，在所述第(k-1)加工图像上，查找与预测为至少一个目标客体所在的区域对应的第(k-1)目标区域，(ii)在所述训练图像或调整了大小的训练图像上，获得与所述第(k-1)目标区域对应的第k加工图像后，使所述卷积层，对所述第k加工图像应用所述卷积运算，输出第k特征图，(iii)使所述RPN，参照所述第k特征图，输出与位于所述第k加工图像内的一个以上第k客体分别对应的一个以上的第k客体推选，(iv)使所述池化层，在所述第k特征图上，对与所述各个第k客体推选分别对应的各个区域应用所述池化运算，输出至少一个第k池化后特征图，(v)使所述FC层，对所述第k池化后特征图应用所述FC运算，输出与所述第k客体对应的第k客体检测信息，(vi)使所述FC损失层，参照所述第k客体检测信息和与其对应的GT，获得一个以上的第kFC损失，进而通过利用所述第kFC损失的反向传播，学习所述FC层及所述卷积层的参数中至少一部分。

2.根据权利要求1所述的方法，其特征在于，

在所述(a)步骤中，

所述学习装置使RPN损失层，参照所述第1客体推选的信息和与其对应的GT，获得一个以上的第1RPN损失，进而通过利用所述第1RPN损失的反向传播而调整所述RPN的参数中至少一部分，

在所述(b)步骤中，

所述学习装置使所述RPN损失层，参照所述第k客体推选的信息和与其对应的GT，获得一个以上的第kRPN损失，进而通过利用所述第kRPN损失的反向传播而调整所述RPN的参数中至少一部分。

3.根据权利要求1所述的方法，其特征在于，

在所述(b)步骤中，

所述学习装置使所述目标客体预测网络，(i)将所述第(k-1)加工图像区分为MxN栅格，(ii)生成显示出所述第(k-1)客体推选中的与所述栅格每个单元分别对应的推选个数的至少一个以上直方图，且在所述栅格的各单元内，存在与其对应的所述各个推选的全体区域或分割区域，(iii)使用移动窗中至少一个区域，决定所述第(k-1)目标区域，所述至少一个区域是指变更所述移动窗位置时所占有的所有区域中、所述直方图之和具有最大的值的区域。

4.根据权利要求1所述的方法，其特征在于，

在所述(b)步骤中，

所述学习装置将所述训练图像的尺寸扩大为大于所述第1加工图像的尺寸，生成所述调整了大小的训练图像后，在所述调整了大小的训练图像上，裁剪与所述第(k-1)目标区域对应的至少一个区域，生成所述第k加工图像。

5.根据权利要求1所述的方法，其特征在于，

在所述(b)步骤中，

所述学习装置在所述训练图像上，裁剪与所述第(k-1)目标区域对应的至少一个区域，对所述裁剪区域调整大小，生成所述第k加工图像。

6.根据权利要求5所述的方法，其特征在于，

对所述第k加工图像调整大小，使得所述第k加工图像的尺寸大于所述第(k-1)目标区域的尺寸。

7.根据权利要求1所述的方法，其特征在于，

所述第1加工图像至第n加工图像的尺寸具有相同的大小。

8.一种利用目标客体预测网络的客体检测器的测试方法，其特征在于，包括：

(a)步骤，学习装置(1-1)使一个以上的卷积层，对与至少一个训练图像对应的至少一个第1学习用加工图像应用一个以上的卷积运算，输出至少一个第1学习用特征图，(1-2)使RPN，利用所述第1学习用特征图，输出与位于所述第1学习用加工图像内的一个以上第1学习用客体分别对应的一个以上第1学习用客体推选，(1-3)使池化层，在所述第1学习用特征图上，对与所述各个第1学习用客体推选分别对应的各个区域应用一个以上的池化运算，输出至少一个第1学习用池化后特征图，(1-4)使FC层，对所述第1学习用池化后特征图应用至少一个FC运算，输出与所述第1学习用客体对应的第1学习用客体检测信息，(1-5)使FC损失层，参照所述第1学习用客体检测信息和与其对应的GT，获得一个以上的第1FC损失，从而通过利用所述第1FC损失的反向传播，学习所述FC层及所述卷积层的参数中至少一部分，在使k从2增加到n的同时，(2-1)使所述目标客体预测网络，参照第(k-1)学习用加工图像上的一个以上的第(k-1)学习用客体推选，在所述第(k-1)学习用加工图像上，查找与预测为至少一个学习用目标客体所在的区域对应的第(k-1)学习用目标区域，(2-2)在所述训练图像或调整了大小的训练图像上，获得与所述第(k-1)学习用目标区域对应的第k学习用加工图像后，使所述卷积层，对所述第k学习用加工图像应用所述卷积运算，输出第k学习用特征图，(2-3)使所述RPN，参照所述第k学习用特征图，输出与位于所述第k学习用加工图像内的一个以上第k学习用客体分别对应的一个以上第k学习用客体推选，(2-4)使所述池化层，在所述第k学习用特征图上，对与所述各个第k学习用客体推选分别对应的各个区域应用所述池化运算，输出至少一个第k学习用池化后特征图，(2-5)使所述FC层，对所述第k学习用池化后特征图应用所述FC运算，输出与所述第k学习用客体对应的第k学习用客体检测信息，(2-6)使所述FC损失层，参照所述第k学习用客体检测信息和与其对应的GT，输出一个以上的第kFC损失，进而通过利用所述第kFC损失的反向传播，学习所述FC层及所述卷积层的所述参数中至少一部分，在这种状态下，获得至少一个测试图像后，测试装置(i)使所述卷积层，对与所述测试图像对应的至少一个第1测试用加工图像应用所述卷积运算，输出至少一个第1测试用特征图，(ii)使所述RPN，利用所述第1测试用特征图，输出与位于所述第1测试用加工图像内的一个以上第1测试用客体分别对应的一个以上第1测试用客体推选，(iii)使所述池化层，在所述第1测试用特征图上，对与所述各个第1测试用客体推选分别对应的各个区域应用所述池化运算，输出至少一个第1测试用池化后特征图，(iv)使所述FC层，对所述第1测试用池化后特征图应用所述FC运算，输出与所述第1测试用客体对应的第1测试用客体检测信息；及

(b)步骤，在使k从2增加到n的同时，所述测试装置(i)使所述目标客体预测网络，参照第(k-1)测试用加工图像上的一个以上的第(k-1)测试用客体推选，在所述第(k-1)测试用加工图像上，查找与预测为至少一个测试用目标客体所在的区域对应的第(k-1)测试用目标区域，(ii)在所述测试图像或调整了大小的测试图像上，获得与所述第(k-1)测试用目标区域对应的第k测试用加工图像后，使所述卷积层，对所述第k测试用加工图像应用所述卷积运算，输出第k测试用特征图，(iii)使所述RPN，参照所述第k测试用特征图，输出与位于所述第k测试用加工图像内的一个以上的第k测试用客体分别对应的一个以上第k测试用客体推选，(iv)使所述池化层，在所述第k测试用特征图上，对与所述各个第k测试用客体推选分别对应的各个区域应用所述池化运算，输出至少一个第k测试用池化后特征图，(v)使所述FC层，对所述第k测试用池化后特征图应用所述FC运算，输出与所述第k测试用客体对应的第k测试用客体检测信息。

9.根据权利要求8所述的方法，其特征在于，

所述学习装置使RPN损失层，参照所述第1学习用客体推选的信息和与其对应的GT，获得一个以上的第1RPN损失，进而通过利用所述第1RPN损失的反向传播而调整所述RPN的参数中至少一部分，

所述学习装置使所述RPN损失层，参照所述第k学习用客体推选的信息和与其对应的GT，获得一个以上的第kRPN损失，进而通过利用所述第kRPN损失的反向传播而调整所述RPN的参数中至少一部分。

10.根据权利要求8所述的方法，其特征在于，

在所述(b)步骤中，

所述测试装置使所述目标客体预测网络，(i)将所述第(k-1)测试用加工图像区分为MxN栅格，(ii)生成显示出所述第(k-1)客体推选中的与所述栅格每个单元分别对应的测试用推选个数的至少一个以上测试用直方图，且在所述栅格的各单元内，存在与其对应的所述各个测试用推选的全体区域或分割区域，(iii)使用移动窗中至少一个区域，决定所述第(k-1)测试用目标区域，所述至少一个区域是指变更所述移动窗位置时所占有的所有区域中、所述测试用直方图之和具有最大的值的区域。

11.根据权利要求8所述的方法，其特征在于，

在所述(b)步骤中，

所述测试装置将所述测试图像的尺寸扩大为大于所述第1测试用加工图像的尺寸，生成所述调整了大小的训测试像后，在所述调整了大小的测试图像上，裁剪与所述第(k-1)测试用目标区域对应的至少一个区域，生成所述第k测试用加工图像。

12.根据权利要求8所述的方法，其特征在于，

在所述(b)步骤中，

所述测试装置在所述测试图像上，裁剪与所述第(k-1)测试用目标区域对应的至少一个区域，对所述裁剪区域调整大小，生成所述第k测试用加工图像。

13.根据权利要求12所述的方法，其特征在于，

对所述第k测试用加工图像调整大小，使得所述第k测试用加工图像的尺寸大于所述第(k-1)测试用目标区域的尺寸。

14.根据权利要求8所述的方法，其特征在于，

所述第1测试用加工图像至第n测试用加工图像的尺寸具有相同的大小。

15.一种学习装置，所述学习装置用于学习利用目标客体预测网络的客体检测器的参数，其特征在于，包括：

存储指令的至少一个存储器；及

至少一个处理器，所述至少一个处理器构成为运行所述指令，所述指令用于执行：(I)流程，(i)使一个以上的卷积层，对与至少一个训练图像对应的至少一个第1加工图像应用一个以上的卷积运算，输出至少一个第1特征图，(ii)使RPN，利用所述第1特征图，输出与位于所述第1加工图像内的一个以上第1客体分别对应的一个以上的第1客体推选，(iii)使池化层，在所述第1特征图上，对与所述各个第1客体推选分别对应的各个区域，应用一个以上的池化运算，输出至少一个第1池化后特征图，(iv)使FC层，对所述第1池化后特征图应用至少一个FC运算，输出与所述第1客体对应的第1客体检测信息，(v)使FC损失层，参照所述第1客体检测信息和与其对应的GT，获得一个以上的第1FC损失，进而通过利用所述第1FC损失的反向传播，学习所述FC层和所述卷积层的参数中至少一部分；及(II)流程，在使k从2增加到n的同时，(i)使所述目标客体预测网络，参照第(k-1)加工图像上的一个以上的第(k-1)客体推选，在所述第(k-1)加工图像上，查找与预测为至少一个目标客体所在的区域对应的第(k-1)目标区域，(ii)在所述训练图像或调整了大小的训练图像上，获得与所述第(k-1)目标区域对应的第k加工图像后，使所述卷积层，对所述第k加工图像应用所述卷积运算，输出第k特征图，(iii)使所述RPN，参照所述第k特征图，输出与位于所述第k加工图像内的一个以上第k客体分别对应的一个以上的第k客体推选，(iv)使所述池化层，在所述第k特征图上，对与所述各个第k客体推选分别对应的各个区域应用所述池化运算，输出至少一个第k池化后特征图，(v)使所述FC层，对所述第k池化后特征图应用所述FC运算，输出与所述第k客体对应的第k客体检测信息，(vi)使所述FC损失层，参照所述第k客体检测信息和与其对应的GT，获得一个以上的第kFC损失，进而通过利用所述第kFC损失的反向传播，学习所述FC层及所述卷积层的参数中至少一部分。

16.根据权利要求15所述的学习装置，其特征在于，

在所述(I)流程中，

所述处理器使RPN损失层，参照所述第1客体推选的信息和与其对应的GT，获得一个以上的第1RPN损失，进而使得通过利用所述第1RPN损失的反向传播而调整所述RPN的参数中至少一部分；

在所述(II)流程中，

所述处理器使所述RPN损失层，参照所述第k客体推选的信息和与其对应的GT，获得一个以上的第kRPN损失，进而通过利用所述第kRPN损失的反向传播而调整所述RPN的参数中至少一部分。

17.根据权利要求15所述的学习装置，其特征在于，

在所述(II)流程中，

所述处理器使所述目标客体预测网络，(i)将所述第(k-1)加工图像区分为MxN栅格，(ii)生成显示出所述第(k-1)客体推选中的与所述栅格每个单元分别对应的推选个数的至少一个以上直方图，且在所述栅格的各单元内，存在与其对应的所述各个推选的全体区域或分割区域，(iii)使用移动窗中至少一个区域来决定所述(k-1)目标区域，所述至少一个区域是指变更所述移动窗的位置时所占有的所有区域中、所述直方图之和具有最大的值的区域。

18.根据权利要求15所述的学习装置，其特征在于，

在所述(II)流程中，

所述处理器将所述训练图像的尺寸扩大为大于所述第1加工图像的尺寸，生成所述调整了大小的训练图像后，在所述调整了大小的训练图像上，裁剪与所述第(k-1)目标区域对应的至少一个区域，生成所述第k加工图像。

19.根据权利要求15所述的学习装置，其特征在于，

在所述(II)流程中，

所述处理器在所述训练图像上，裁剪与所述第(k-1)目标区域对应的至少一个区域，对所述裁剪区域调整大小，生成所述第k加工图像。

20.根据权利要求19所述的学习装置，其特征在于，

21.根据权利要求15所述的学习装置，其特征在于，

所述第1加工图像至第n加工图像的尺寸具有相同的大小。

22.一种测试装置，所述测试装置用于测试利用目标客体预测网络的客体检测器，其特征在于，包括：

存储指令的至少一个存储器；及

至少一个处理器，所述至少一个处理器构成为运行所述指令，所述指令用于在如下状态下，即，学习装置(1-1)使一个以上的卷积层，对与至少一个训练图像对应的至少一个第1学习用加工图像应用一个以上的卷积运算，输出至少一个第1学习用特征图，(1-2)使RPN，利用所述第1学习用特征图，输出与位于所述第1学习用加工图像内的一个以上第1学习用客体分别对应的一个以上第1学习用客体推选，(1-3)使池化层，在所述第1学习用特征图上，对与所述各个第1学习用客体推选分别对应的各个区域应用一个以上的池化运算，输出至少一个第1学习用池化后特征图，(1-4)使FC层，对所述第1学习用池化后特征图应用至少一个FC运算，输出与所述第1学习用客体对应的第1学习用客体检测信息，(1-5)使FC损失层，参照所述第1学习用客体检测信息和与其对应的GT，获得一个以上的第1FC损失，从而通过利用所述第1FC损失的反向传播，学习所述FC层及所述卷积层的参数中至少一部分；在使k从2增加到n的同时，(2-1)使所述目标客体预测网络，参照第(k-1)学习用加工图像上的一个以上的第(k-1)学习用客体推选，在所述第(k-1)学习用加工图像上，查找与预测为至少一个学习用目标客体所在的区域对应的第(k-1)学习用目标区域，(2-2)在所述训练图像或调整了大小的训练图像上，获得与所述第(k-1)学习用目标区域对应的第k学习用加工图像后，使所述卷积层，对所述第k学习用加工图像应用所述卷积运算，输出第k学习用特征图，(2-3)使所述RPN，参照所述第k学习用特征图，输出与位于所述第k学习用加工图像内的一个以上第k学习用客体分别对应的一个以上第k学习用客体推选，(2-4)使所述池化层，在所述第k学习用特征图上，对与所述各个第k学习用客体推选分别对应的各个区域应用所述池化运算，输出至少一个第k学习用池化后特征图，(2-5)使所述FC层，对所述第k学习用池化后特征图应用所述FC运算，输出与所述第k学习用客体对应的第k学习用客体检测信息，(2-6)使所述FC损失层，参照所述第k学习用客体检测信息和与其对应的GT，输出一个以上的第kFC损失，进而通过利用所述第kFC损失的反向传播，学习所述FC层及所述卷积层的所述参数中至少一部分，在这种状态下，所述指令用于执行：(I)流程，(i)使所述卷积层，对与测试图像对应的至少一个第1测试用加工图像应用所述卷积运算，输出至少一个第1测试用特征图，(ii)使所述RPN，利用所述第1测试用特征图，输出与位于所述第1测试用加工图像内的一个以上第1测试用客体分别对应的一个以上第1测试用客体推选，(iii)使所述池化层，在所述第1测试用特征图上，对与所述各个第1测试用客体推选分别对应的各个区域应用所述池化运算，输出至少一个第1测试用池化后特征图，(iv)使所述FC层，对所述第1测试用池化后特征图应用所述FC运算，输出与所述第1测试用客体对应的第1测试用客体检测信息；及(II)流程，在使k从2增加到n的同时，(i)使所述目标客体预测网络，参照第(k-1)测试用加工图像上的一个以上的第(k-1)测试用客体推选，在所述第(k-1)测试用加工图像上，查找与预测为至少一个测试用目标客体所在的区域对应的第(k-1)测试用目标区域，(ii)在所述测试图像或调整了大小的测试图像上，获得与所述第(k-1)测试用目标区域对应的第k测试用加工图像后，使所述卷积层，对所述第k测试用加工图像应用所述卷积运算，输出第k测试用特征图，(iii)使所述RPN，参照所述第k测试用特征图，输出与位于所述第k测试用加工图像内的一个以上的第k测试用客体分别对应的一个以上第k测试用客体推选，(iv)使所述池化层，在所述第k测试用特征图上，对与所述各个第k测试用客体推选分别对应的各个区域应用所述池化运算，输出至少一个第k测试用池化后特征图，(v)使所述FC层，对所述第k测试用池化后特征图应用所述FC运算，输出与所述第k测试用客体对应的第k测试用客体检测信息。

23.根据权利要求22所述的测试装置，其特征在于，

24.根据权利要求22所述的测试装置，其特征在于，

在所述(II)流程中，

所述处理器使所述目标客体预测网络，(i)将所述第(k-1)测试用加工图像区分为MxN栅格，(ii)生成显示出所述第(k-1)客体推选中的与所述栅格每个单元分别对应的测试用推选个数的至少一个以上测试用直方图，且在所述栅格的各单元内，存在与其对应的所述各个测试用推选的全体区域或分割区域，(iii)使用移动窗中至少一个区域，决定所述第(k-1)测试用目标区域，所述至少一个区域是指变更所述移动窗的位置时所占有的所有区域中、所述测试用直方图之和具有最大的值的区域。

25.根据权利要求22所述的测试装置，其特征在于，

在所述(II)流程中，

所述处理器将所述测试图像的尺寸扩大为大于所述第1测试用加工图像的尺寸，生成所述调整了大小的测试图像后，在所述调整了大小的测试图像上，裁剪与所述第(k-1)测试用目标区域对应的至少一个区域，生成所述第k测试用加工图像。

26.根据权利要求22所述的测试装置，其特征在于，

在所述(II)流程中，

所述处理器在所述测试图像上，裁剪与所述第(k-1)测试用目标区域对应的至少一个区域，对所述裁剪区域调整大小，生成所述第k测试用加工图像。

27.根据权利要求26所述的测试装置，其特征在于，

28.根据权利要求22所述的测试装置，其特征在于，