CN115130644A

CN115130644A - 对基于深度学习的检测网络进行自监督学习的方法及装置

Info

Publication number: CN115130644A
Application number: CN202210119377.3A
Authority: CN
Inventors: 柳宇宙; 康凤男; 诸泓模
Original assignee: Stradvision Inc
Current assignee: Stradvision Inc
Priority date: 2021-03-26
Filing date: 2022-02-08
Publication date: 2022-09-30
Also published as: EP4064135A1; JP7220813B2; KR20220134429A; JP2022151596A; US11113574B1

Abstract

本发明公开使用深度Q网络对基于深度学习的检测网络进行自监督学习的方法及用其的装置，包括：通过使用学习数据库训练的检测网络对第1未标记图像进行目标检测以生成第1目标检测信息，通过深度Q网络对与第1目标检测信息对应的第1状态集进行学习运算生成Q值，Q值的动作对应于第1未标记图像的接受时，对通过使用将第1未标记图像的标记图像作为学习数据添加的学习数据库来重新训练的检测网络进行测试以生成第1准确度，动作对应于第1未标记图像拒绝时，在无重新训练的情况下测试检测网络以生成第2准确度，生成第1状态集、动作、针对第1准确度或第2准确度的奖励及第2未标记图像的第2状态集作为转换向量，使用转换向量训练深度Q网络。

Description

对基于深度学习的检测网络进行自监督学习的方法及装置

相关申请的交叉引用

本发明要求于2021年3月26日提交的美国专利申请第17/213,853号的优先权和权益，其全部内容通过引用合并于此。

技术领域

本发明涉及一种使用深度Q网络对基于深度学习的检测网络(detectionnetwork)进行自监督学习(self-supervised learning)的方法及用其的学习装置，更具体地涉及一种使用检测网络中的目标检测结果，使用由检测网络选择为对训练有用的学习数据对检测网络进行自监督学习的方法及用其的学习装置。

背景技术

为了有效地训练检测网络，需要大量的学习数据，所述检测网络执行用于识别多个图像上对象的位置和类别的目标检测。

在现有技术中，通常使用一种监督学习(supervised learning)技术，其通过使用标记为真实数据的学习数据进行学习来提高针对检测网络的图像分析的准确性，其中所述真实数据为针对多个图像上对象的正确答案数据。然而，监督学习(supervised learning)需要大量的学习数据才能达到高性能，由于需要标记的学习数据，必须由人直接执行标记操作，给定任务越复杂，标记任务所需的时间和成本就越多，因此正在开发能够克服这一问题的学习技术。

例如，对无监督学习(unsupervised learning)而言，在训练检测网络时，不使用标记的学习数据，而使用聚类(clustering)或密度估计(密度估计)等方法对数据进行分组或识别数据之间的模式的方法。然而，由于没有提供标记的数据，因此难以评估聚类的结果，并且存在定义聚类或模式以将其应用于实际数据的限制的问题。

另外，作为其他替代方案，还正在研究诸如半监督学习(semi-supervisedlearning)和自监督学习(self-supervised learning)之类的方法。对半监督学习或自监督学习而言，使用最少量标记的学习数据和大量未标记的学习数据对检测网络进行训练。

具体地，在半监督学习或自监督学习中，使用标记的学习数据对检测网络进行初始学习，然后使用额外获取的学习数据使检测网络执行给定任务(task)以生成标记数据，如此，使用具有自己生成的标记数据的附加的学习数据和初始学习期间给出的标记学习数据，继续对检测网络进行训练。

然而，在进行半监督学习或自监督学习时，待用于训练检测网络的自生成数据的选择主要通过应用使用模型置信度(model confidence)等的启发式(heuristic)算法来选择，这些模型置信度等的选择标准的准确度不仅很难确定，不断调整这些选择标准还需要花费大量的时间和费用。

因此，需要一种能够解决所述问题的改进方案。

发明内容

本发明的目的在于解决所有上述问题。

另外，本发明的目的在于，通过使用由深度Q网络(deep Q-network)生成的Q值来有效地选择能够提高检测网络(detection network)的准确度的最优学习数据。

另外，本发明的另一目的在于，对连接于检测网络的深度Q网络进行将检测网络的准确度作为奖励(reward)的强化学习(reinforcement learning)，以使深度Q网络生成选择可以提高检测网络的准确度的最优学习数据的Q值。

此外，本发明的再一目的在于，通过使用基于由深度Q网络生成的Q值选择的学习数据来实现针对检测网络的自我监督学习(self-supervised learning)。

为了实现上述本发明的目的并实现后述的本发明的特征效果，本发明的特征结构如下。

根据本发明的一方面，公开一种使用深度Q网络(deep Q-network)对基于深度学习的检测网络(detection network)进行自监督学习(self-supervised learning)的方法，其包括：(a)在已使用多个存储在学习数据库中的学习数据训练用于检测对象的检测网络的状态下，当从未标记数据库(unlabeled database)中获得至少一个第1未标记图像(unlabeled image)时，学习装置(i)将所述第1未标记图像输入到所述检测网络，使所述检测网络对所述第1未标记图像进行目标检测以生成或支持生成第1目标检测信息，(ii)参考所述第1目标检测信息生成或支持生成第1状态集(state set)，所述第1状态集包括对应于针对包括在所述第1未标记图像中的第1对象的第1_1边界框的第1_1分类置信度(classification confidence)、第1_1回归不确定性(regression uncertainty)和第1_1池化特征图(pooled feature map)至对应于针对包括在所述第1未标记图像中的第k₁对象的第1_k₁边界框的第1_k₁分类置信度、第1_k₁回归不确定性和第1_k₁池化特征图，其中所述k₁为1以上的整数，(iii)将所述第1状态集输入到深度Q网络，使所述深度Q网络对所述第1状态集进行学习运算以生成或支持生成Q值，所述Q值包括对应于所述第1未标记图像的接受分数(acceptance score)和拒绝分数(rejection score)，(iv)将argMax函数应用于所述Q值以生成或支持生成动作(action)；(b)所述学习装置(i)参考所述动作，(i-1)当所述动作对应于所述第1未标记图像的接受(acceptance)时，把将所述第1目标检测信息作为标签添加到所述第1未标记图像而获得的标记图像(labeled image)作为学习数据添加到所述学习数据库中，从所述未标记数据库中删除所述第1未标记图像，使用包括在所述学习数据库中的至少一个所述学习数据重新训练所述检测网络，参考通过使用验证数据库测试重新训练的所述检测网络而获得的重新训练的所述检测网络的第1准确度(accuracy)生成或支持生成奖励，(i-2)当所述动作对应于所述第1未标记图像的拒绝(rejection)时，从所述未标记数据库中删除所述第1未标记图像，参考通过使用所述验证数据库测试所述检测网络而获得的所述检测网络的第2准确度生成或支持生成所述奖励，(ii)当从所述未标记数据库中获得至少一个第2未标记图像时，(ii-1)将所述第2未标记图像输入到所述检测网络，使所述检测网络对所述第2未标记图像进行目标检测以生成或支持生成第2目标检测信息，(ii-2)参考所述第2目标检测信息生成或支持生成第2状态集(state set)，所述第2状态集包括对应于针对包括在所述第2未标记图像中的第1对象的第2_1边界框的第2_1分类置信度、第2_1回归不确定性和第2_1池化特征图至对应于针对包括在所述第2未标记图像中的第k₂对象的第2_k₂边界框的第2_k₂分类置信度、第2_k₂回归不确定性和第2_k₂池化特征图，其中所述k₂为1以上的整数，(ii-3)将所述第1状态集、所述动作、所述奖励和所述第2状态集作为转换向量(transition vector)存储或支持存储在存储器；以及(c)所述学习装置通过从所述存储器中采样待用作至少一个学习用转换向量的至少一个特定转换向量来生成或支持生成小批量(minibatch)，使用所述小批量训练所述深度Q网络，以使所述深度Q网络根据所述第1状态集和所述第2状态集输出用于增加所述奖励的动作。

作为一例，在所述(a)步骤中，所述学习装置使深度Q网络(i)将至少一个全连接(Fully-Connected)运算应用于与所述第1_1边界框对应的所述第1_1分类置信度、所述第1_1回归不确定性和所述第1_1池化特征图至与所述第1_k₁边界框对应的所述第1_k₁分类置信度、所述第1_k₁回归不确定性和所述第1_k₁池化特征图中的每一个，生成或支持生成对应于所述第1_1边界框的第1中间接受分数(intermediate acceptance score)和第1中间拒绝分数(intermediate rejection score)至对应于所述第1_k₁边界框的第k₁中间接受分数和第k₁中间拒绝分数，(ii)通过对所述第1中间接受分数至所述k₁中间接受分数进行平均运算来生成所述接受分数，并且通过对所述第1中间拒绝分数至所述k₁中间拒绝分数进行平均运算来生成所述拒绝分数，生成或支持生成包括所述接受分数和所述拒绝分数的所述Q值。

作为一例，所述学习装置使所述深度Q网络将至少一个1x1卷积运算和一个m x m卷积运算应用于所述第1_1池化特征图至所述第1_k₁池化特征图以生成第1特征值(feature value)至第k₁特征值，将至少一个所述全连接运算应用于所述第1_1分类置信度至所述第1_k₁分类置信度、所述第1_1回归不确定性至所述第1_k₁回归不确定性和所述第1特征值至所述第k₁特征值，生成或支持生成所述第1中间接受分数至所述k₁中间接受分数和所述第1中间拒绝分数至所述k₁中间拒绝分数。

作为一例，重复执行所述(a)步骤、所述(b)步骤和所述(c)步骤以生成多个所述转换向量，在每次迭代的所述(c)步骤中，所述学习装置通过与所述存储器的所述转换向量的累积量成比例地随机选择待用作所述学习用转换向量的a*n个或2^n个所述特定转换向量来生成至少一个所述小批量，使用各所述小批量训练或支持训练所述深度Q网络，其中所述a和n为1以上的整数，对于每预设的迭代次数，n增加1。

作为一例，重复执行所述(a)步骤、所述(b)步骤和所述(c)步骤以生成多个所述转换向量，所述存储器包括重放存储器(replay memory)，在每次迭代的所述(c)步骤中，所述学习装置(i)将所述转换向量传输到所述重放存储器，以使所述重放存储器根据循环缓冲器(cyclic buffer)的预设容量用所述转换向量覆写(overwrite)最旧的先前转换向量以进行存储或支持存储，(ii)通过从所述重放存储器中随机采样待用作所述学习用转换向量的所述特定转换向量，生成或支持生成所述小批量。

作为一例，在所述(a)步骤中，所述学习装置将所述第1未标记图像输入到所述检测网络，使所述检测网络(i)通过至少一个卷积层对所述第1未标记图像进行至少一次卷积运算，生成或支持生成与所述第1未标记图像对应的第1特征图(feature map)，(ii)通过区域候选网络RPN(Region Proposal Network)参考所述第1特征图，针对所述第1未标记图像上多个预测具有所述第1对象至所述第k₁对象的候选区域生成或支持生成多个感兴趣区域ROI(region of interest)，(iii)通过池化层对与所述第1特征图上的多个所述ROI对应的每个所述候选区域进行ROI池化，以生成或支持生成与每个所述ROI对应的每个池化特征图，(iv)通过至少一个全连接(Fully-Connected)层对多个所述池化特征图进行全连接运算，生成或支持生成多个与每个所述ROI对应的回归信息(regression information)和分类信息(classification information)，(v)参考多个与每个所述ROI对应的所述回归信息和所述分类信息，生成或支持生成与位于所述第1未标记图像上的所述第1对象至所述第k₁对象中各对象对应的所述第1_1边界框至所述第1_k₁边界框与所述第1_1分类信息至所述第1_k₁分类信息。

根据本发明的另一发明，公开一种使用深度Q网络(deep Q-network)对基于深度学习的检测网络(detection network)进行自监督学习(self-supervised learning)的方法，其包括：(a)在已使用存储在学习数据库中的学习数据训练用于检测对象的检测网络的状态下，学习装置(I)在从未标记数据库(unlabeled database)中获得至少一个第1未标记图像(unlabeled image)时，(i)将所述第1未标记图像输入到所述检测网络，使所述检测网络对所述第1未标记图像进行目标检测以生成或支持生成第1目标检测信息，(ii)参考所述第1目标检测信息生成或支持生成第1状态集(state set)，所述第1状态集包括对应于针对包括在所述第1未标记图像中的第1对象的第1_1边界框的第1_1分类置信度(classification confidence)、第1_1回归不确定性(regression uncertainty)和第1_1池化特征图(pooled feature map)至对应于针对包括在所述第1未标记图像中的第k₁对象的第1_k₁边界框的第1_k₁分类置信度、第1_k₁回归不确定性和第1_k₁池化特征图，其中所述k₁为1以上的整数，(iii)将所述第1状态集输入到深度Q网络，使所述深度Q网络对所述第1状态集进行学习运算以生成或支持生成Q值，所述Q值包括对应于所述第1未标记图像的接受分数(acceptance score)和拒绝分数(rejection score)，(iv)将argMax函数应用于所述Q值以生成或支持生成动作(action)；(II)(i)参考所述动作，(i-1)当所述动作对应于所述第1未标记图像的接受(acceptance)时，把将所述第1目标检测信息作为标签添加到所述第1未标记图像而获得的标记图像(labeled image)作为学习数据添加到所述学习数据库中，从所述未标记数据库中删除所述第1未标记图像，使用包括在所述学习数据库中的至少一个所述学习数据重新训练所述检测网络，生成或支持生成通过使用验证数据库测试重新训练的所述检测网络而获得的重新训练的所述检测网络的第1准确度作为奖励(reward)，(i-2)当所述动作对应于所述第1未标记图像的拒绝(rejection)时，从所述未标记数据库中删除所述第1未标记图像，生成或支持生成通过使用所述验证数据库测试所述检测网络而获得的所述检测网络的第2准确度作为所述奖励，(ii)当从所述未标记数据库中获得至少一个第2未标记图像时，(ii-1)将所述第2未标记图像输入到所述检测网络，使所述检测网络对所述第2未标记图像进行目标检测以生成或支持生成第2目标检测信息，(ii-2)参考所述第2目标检测信息生成或支持生成第2状态集(state set)，所述第2状态集包括对应于针对包括在所述第2未标记图像中的第1对象的第2_1边界框的第2_1分类置信度、第2_1回归不确定性和第2_1池化特征图至对应于针对包括在所述第2未标记图像中的第k₂对象的第2_k₂边界框的第2_k₂分类置信度、第2_k₂回归不确定性和第2_k₂池化特征图，其中所述k₂为1以上的整数，(ii-3)将所述第1状态集、所述动作、所述奖励和所述第2状态集作为转换向量(transition vector)存储或支持存储在存储器；以及(III)在从所述存储器中采样待用作至少一个学习用转换向量的至少一个特定转换向量来生成或支持生成小批量(minibatch)，使用所述小批量训练或支持训练所述深度Q网络，以使所述深度Q网络根据所述第1状态集和所述第2状态集输出用于增加所述奖励的动作的状态下，自学习装置在获得从新的未标记数据库中选择的至少一个新的未标记图像时，(i)将所述新的未标记图像输入到所述检测网络，使所述检测网络通过对所述新的未标记图像进行目标检测来生成或支持生成新的目标检测信息，(ii)参考所述新的目标检测信息生成或支持生成新的状态集，所述新的状态集包括对应于针对包括在所述新的未标记图像中的第1对象的第1新的边界框的第1新的分类置信度、第1新的回归不确定性和第1新的池化特征图至对应于针对包括在所述新的未标记图像中的第k₃对象的第k₃新的边界框的第k₃新的分类置信度、第k₃新的回归不确定性和第k₃新的池化特征图，其中所述k₃为1以上的整数，(iii)将所述新的状态集输入到深度Q网络中，使所述深度Q网络对所述新的状态集进行学习运算以生成或支持生成新的Q值，所述新的Q值包括对应于所述新的未标记图像的新的接受分数和新拒绝分数，(iv)将argMax函数应用于所述新的Q值以生成或支持生成新的动作；以及(b)所述自学习装置参考所述新的动作，(i)当所述新的动作对应于所述新的未标记图像的接受(acceptance)时，把将所述新的目标检测信息作为标签添加到所述新的未标记图像而获得的新的标记图像作为所述学习数据添加到所述学习数据库中，从所述新的未标记数据库中删除所述新的未标记图像，使用包括在所述新的学习数据库中的至少一个所述学习数据重新训练或支持重新训练所述检测网络，(ii)当所述新的动作对应于所述新的未标记图像的拒绝(rejection)时，从所述新的未标记数据库中删除所述新的未标记图像。

作为一例，在所述(a)步骤中，所述自学习装置使所述深度Q网络(i)将至少一个全连接(Fully-Connected)运算应用于与所述第1新的边界框对应的所述第1新的分类置信度、所述第1新的回归不确定性和所述第1新的池化特征图至与所述第1新的边界框对应的所述第k₃新的分类置信度、所述第k₃新的回归不确定性和所述第k₃新的池化特征图，生成或支持生成对应于所述第1新的边界框的第1新的中间接受分数(intermediate acceptancescore)和第1新的中间拒绝分数(intermediate rejection score)至对应于所述第k₃新的边界框的第k₃新的中间接受分数和第k₃新的中间拒绝分数，(ii)通过对所述第1新的中间接受分数至所述第k₃新的中间接受分数进行平均运算来生成所述新的接受分数，并且通过对所述第1新的中间拒绝分数至所述第k₃新的中间拒绝分数进行平均运算来生成所述新的拒绝分数，生成或支持生成包括所述新的接受分数和所述新的拒绝分数的所述新的Q值。

作为一例，所述自学习装置使所述深度Q网络将至少一个1x1卷积运算和一个m xm卷积运算应用于所述第1新的池化特征图至所述第k₃新的池化特征图以生成第1新的特征值(feature value)至第k₃新的特征值，将至少一个所述全连接运算应用于所述第1新的分类置信度至所述第k₃新的分类置信度、所述第1新的回归不确定性至所述第k₃新的回归不确定性和所述第1新的特征值至所述第k₃新的特征值，生成或支持生成所述第1新的中间接受分数至所述第k₃新的中间接受分数和所述第1新的中间拒绝分数至所述第k₃新的中间拒绝分数。

作为一例，在所述(a)步骤中，所述自学习装置将所述新的未标记图像输入到所述检测网络，使所述检测网络(i)通过至少一个卷积层对所述新的未标记图像进行至少一次卷积运算，生成或支持生成与所述新的未标记图像对应的新的特征图，(ii)通过区域候选网络RPN(Region Proposal Network)参考所述新的特征图，针对所述新的未标记图像上多个预测具有所述第1对象至所述第k₃对象的候选区域生成或支持生成多个新的感兴趣区域ROI(region of interest)，(iii)通过池化层对与所述新的特征图上的多个所述新的ROI对应的每个所述候选区域进行ROI池化，以生成或支持生成多个与每个所述新的ROI对应的新的池化特征图，(iv)通过至少一个全连接(Fully-Connected)层对所述新的池化特征图进行全连接运算，生成或支持生成多个与每个所述新的所述ROI对应的新的回归信息(regression information)和新的分类信息(classification information)，(v)参考与每个所述新的ROI对应的多个所述新的回归信息和多个所述新的分类信息，生成或支持生成与位于所述新的未标记图像上的所述第1对象至所述第k₃对象中各对象对应的所述第1新的边界框至所述第k₃新的边界框与第1新的分类信息至第k₃新的分类信息。

根据本发明的再一方面，公开一种使用深度Q网络(deep Q-network)对基于深度学习的检测网络(detection network)进行自监督学习(self-supervised learning)的学习装置，其包括：至少一个存储指令的存储器；和至少一个用于执行所述指令的处理器，所述处理器执行如下处理：(a)在已使用存储在学习数据库中的学习数据训练用于检测对象的检测网络的状态下，(I)在从未标记数据库(unlabeled database)中获得至少一个第1未标记图像(unlabeled image)时，(i)将所述第1未标记图像输入到所述检测网络，使所述检测网络对所述第1未标记图像进行目标检测以生成或支持生成第1目标检测信息，(ii)参考所述第1目标检测信息生成或支持生成第1状态集(state set)，所述第1状态集包括对应于针对包括在所述第1未标记图像中的第1对象的第1_1边界框的第1_1分类置信度(classification confidence)、第1_1回归不确定性(regression uncertainty)和第1_1池化特征图(pooled feature map)至对应于针对包括在所述第1未标记图像中的第k₁对象的第1_k₁边界框的第1_k₁分类置信度、第1_k₁回归不确定性和第1_k₁池化特征图，其中所述k₁为1以上的整数，(iii)将所述第1状态集输入到深度Q网络，使所述深度Q网络对所述第1状态集进行学习运算以生成或支持生成Q值，所述Q值包括对应于所述第1未标记图像的接受分数(acceptance score)和拒绝分数(rejection score)，(iv)将argMax函数应用于所述Q值以生成或支持生成动作(action)的处理；(II)(i)参考所述动作，(i-1)当所述动作对应于所述第1未标记图像的接受(acceptance)时，把将所述第1目标检测信息作为标签添加到所述第1未标记图像而获得的标记图像(labeled image)作为学习数据添加到所述学习数据库中，从所述未标记数据库中删除所述第1未标记图像，使用包括在所述学习数据库中的至少一个所述学习数据重新训练所述检测网络，生成或支持生成通过使用验证数据库测试重新训练的所述检测网络而获得的重新训练的所述检测网络的第1准确度(accuracy)作为奖励，(i-2)当所述动作对应于所述第1未标记图像的拒绝(rejection)时，从所述未标记数据库中删除所述第1未标记图像，生成或支持生成通过使用所述验证数据库测试所述检测网络而获得的所述检测网络的第2准确度(accuracy)作为所述奖励，(ii)当从所述未标记数据库中获得至少一个第2未标记图像时，(ii-1)将所述第2未标记图像输入到所述检测网络，使所述检测网络对所述第2未标记图像进行目标检测以生成或支持生成第2目标检测信息，(ii-2)参考所述第2目标检测信息生成或支持生成第2状态集(state set)，所述第2状态集包括对应于针对包括在所述第2未标记图像中的第1对象的第2_1边界框的第2_1分类置信度、第2_1回归不确定性和第2_1池化特征图至对应于针对包括在所述第2未标记图像中的第k₂对象的第2_k₂边界框的第2_k₂分类置信度、第2_k₂回归不确定性和第2_k₂池化特征图，其中所述k₂为1以上的整数，(ii-3)将所述第1状态集、所述动作、所述奖励和所述第2状态集作为转换向量(transition vector)存储或支持存储在存储器的处理；以及(III)通过从所述存储器中采样待用作至少一个学习用转换向量的至少一个特定转换向量来生成或支持生成小批量(minibatch)，使用所述小批量训练或支持训练所述深度Q网络，以使所述深度Q网络根据所述第1状态集和所述第2状态集输出用于增加所述奖励的动作的处理。

作为一例，在所述(I)处理中，所述处理器使深度Q网络(i)将至少一个全连接(Fully-Connected)运算应用于与所述第1_1边界框对应的所述第1_1分类置信度、所述第1_1回归不确定性和所述第1_1池化特征图至与所述第1_k₁边界框对应的所述第1_k₁分类置信度、所述第1_k₁回归不确定性和所述第1_k₁池化特征图中的每一个，生成或支持生成对应于所述第1_1边界框的第1中间接受分数(intermediate acceptance score)和第1中间拒绝分数(intermediate rejection score)至对应于所述第1_k₁边界框的第k₁中间接受分数和第k₁中间拒绝分数，(ii)通过对所述第1中间接受分数至所述k₁中间接受分数进行平均运算来生成所述接受分数，并且通过对所述第1中间拒绝分数至所述k₁中间拒绝分数进行平均运算来生成所述拒绝分数，生成或支持生成包括所述接受分数和所述拒绝分数的所述Q值。

作为一例，所述处理器使所述深度Q网络将至少一个1x1卷积运算和一个m x m卷积运算应用于所述第1_1池化特征图至所述第1_k₁池化特征图以生成第1特征值(featurevalue)至第k₁特征值，将至少一个所述全连接运算应用于所述第1_1分类置信度至所述第1_k₁分类置信度、所述第1_1回归不确定性至所述第1_k₁回归不确定性和所述第1特征值至所述第k₁特征值，生成或支持生成所述第1中间接受分数至所述k₁中间接受分数和所述第1中间拒绝分数至所述k₁中间拒绝分数。

作为一例，重复执行所述(I)处理、所述(II)处理和所述(III)处理以生成多个所述转换向量，在每次迭代的所述(III)步骤中，所述处理器通过与所述存储器的所述转换向量的累积量成比例地随机选择待用作所述学习用转换向量的a*n个或2^n个所述特定转换向量来生成至少一个所述小批量，使用各所述小批量训练或支持训练所述深度Q网络，其中所述a和n为1以上的整数，对于每预设的迭代次数，n增加1。

作为一例，重复执行所述(I)处理、所述(II)处理和所述(III)处理以生成多个所述转换向量，所述存储器包括重放存储器(replay memory)，在每次迭代的所述(III)步骤中，所述处理器(i)将所述转换向量传输到所述重放存储器，以使所述重放存储器根据循环缓冲器(cyclic buffer)的预设容量用所述转换向量覆写(overwrite)最旧的先前转换向量以进行存储或支持存储，(ii)通过从所述重放存储器中随机采样待用作所述学习用转换向量的所述特定转换向量，生成或支持生成所述小批量。

作为一例，在所述(I)步骤中，所述处理器将所述第1未标记图像输入到所述检测网络，使所述检测网络(i)通过至少一个卷积层对所述第1未标记图像进行至少一次卷积运算，生成或支持生成与所述第1未标记图像对应的第1特征图(feature map)，(ii)通过区域候选网络RPN(Region Proposal Network)参考所述第1特征图，针对所述第1未标记图像上多个预测具有所述第1对象至所述第k₁对象的候选区域生成或支持生成多个感兴趣区域ROI(region of interest)，(iii)通过池化层对与所述第1特征图上的多个所述ROI对应的每个所述候选区域进行ROI池化，以生成或支持生成与每个所述ROI对应的每个池化特征图，(iv)通过至少一个全连接(Fully-Connected)层对多个所述池化特征图进行全连接运算，生成或支持生成多个与每个所述ROI对应的回归信息(regression information)和分类信息(classification information)，(v)参考多个与每个所述ROI对应的所述回归信息和所述分类信息，生成或支持生成与位于所述第1未标记图像上的所述第1对象至所述第k₁对象中各对象对应的所述第1_1边界框至所述第1_k₁边界框与所述第1_1分类信息至所述第1_k₁分类信息。

根据本发明的再一方面，公开一种使用深度Q网络(deep Q-network)对基于深度学习的检测网络(detection network)进行自监督学习(self-supervised learning)的自学习装置，其包括：至少一个存储指令的存储器；和至少一个用于执行所述指令的处理器，所述处理器执行如下处理：学习装置(I)在已使用存储在学习数据库中的学习数据训练用于检测对象的检测网络的状态下，(i)在从未标记数据库(unlabeled database)中获得至少一个第1未标记图像(unlabeled image)时，(i-1)将所述第1未标记图像输入到所述检测网络，使所述检测网络对所述第1未标记图像进行目标检测以生成或支持生成第1目标检测信息，(i-2)参考所述第1目标检测信息生成或支持生成第1状态集(state set)，所述第1状态集包括对应于针对包括在所述第1未标记图像中的第1对象的第1_1边界框的第1_1分类置信度(classification confidence)、第1_1回归不确定性(regression uncertainty)和第1_1池化特征图(pooled feature map)至对应于针对包括在所述第1未标记图像中的第k₁对象的第1_k₁边界框的第1_k₁分类置信度、第1_k₁回归不确定性和第1_k₁池化特征图，其中所述k₁为1以上的整数，(i-3)将所述第1状态集输入到深度Q网络，使所述深度Q网络对所述第1状态集进行学习运算以生成或支持生成Q值，所述Q值包括对应于所述第1未标记图像的接受分数(acceptance score)和拒绝分数(rejection score)，(i-4)将argMax函数应用于所述Q值以生成或支持生成动作(action)；(ii)(ii-1)参考所述动作，(1)当所述动作对应于所述第1未标记图像的接受(acceptance)时，把将所述第1目标检测信息作为标签添加到所述第1未标记图像而获得的标记图像(labeled image)作为学习数据添加到所述学习数据库中，从所述未标记数据库中删除所述第1未标记图像，使用包括在所述学习数据库中的至少一个所述学习数据重新训练所述检测网络，生成或支持生成通过使用验证数据库测试重新训练的所述检测网络而获得的重新训练的所述检测网络的第1准确度作为奖励(reward)，(2)当所述动作对应于所述第1未标记图像的拒绝(rejection)时，从所述未标记数据库中删除所述第1未标记图像，生成或支持生成通过使用所述验证数据库测试所述检测网络而获得的所述检测网络的第2准确度作为所述奖励，(ii-2)当从所述未标记数据库中获得至少一个第2未标记图像时，(1)将所述第2未标记图像输入到所述检测网络，使所述检测网络对所述第2未标记图像进行目标检测以生成或支持生成第2目标检测信息，(2)参考所述第2目标检测信息生成或支持生成第2状态集(state set)，所述第2状态集包括对应于针对包括在所述第2未标记图像中的第1对象的第2_1边界框的第2_1分类置信度、第2_1回归不确定性和第2_1池化特征图至对应于针对包括在所述第2未标记图像中的第k₂对象的第2_k₂边界框的第2_k₂分类置信度、第2_k₂回归不确定性和第2_k₂池化特征图，其中所述k₂为1以上的整数，(3)将所述第1状态集、所述动作、所述奖励和所述第2状态集作为转换向量(transition vector)存储或支持存储在存储器；以及(iii)在从所述存储器中采样待用作至少一个学习用转换向量的至少一个特定转换向量来生成或支持生成小批量(minibatch)，使用所述小批量训练或支持训练所述深度Q网络，以使所述深度Q网络根据所述第1状态集和所述第2状态集输出用于增加所述奖励的动作的状态下，在获得从新的未标记数据库中选择的至少一个新的未标记图像时，(i)将所述新的未标记图像输入到所述检测网络，使所述检测网络通过对所述新的未标记图像进行目标检测来生成或支持生成新的目标检测信息，(ii)参考所述新的目标检测信息生成或支持生成新的状态集，所述新的状态集包括对应于针对包括在所述新的未标记图像中的第1对象的第1新的边界框的第1新的分类置信度、第1新的回归不确定性和第1新的池化特征图至对应于针对包括在所述新的未标记图像中的第k₃对象的第k₃新的边界框的第k₃新的分类置信度、第k₃新的回归不确定性和第k₃新的池化特征图，其中所述k₃为1以上的整数，(iii)将所述新的状态集输入到深度Q网络中，使所述深度Q网络对所述新的状态集进行学习运算以生成或支持生成新的Q值，所述新的Q值包括对应于所述新的未标记图像的新的接受分数和新拒绝分数，(iv)将argMax函数应用于所述新的Q值以生成或支持生成新的动作的处理；以及(II)参考所述新的动作，(i)当所述新的动作对应于所述新的未标记图像的接受(acceptance)时，把将所述新的目标检测信息作为标签添加到所述新的未标记图像而获得的新的标记图像作为所述学习数据添加到所述学习数据库中，从所述新的未标记数据库中删除所述新的未标记图像，使用包括在所述新的学习数据库中的至少一个所述学习数据重新训练或支持重新训练所述检测网络，(ii)当所述新的动作对应于所述新的未标记图像的拒绝(rejection)时，从所述新的未标记数据库中删除所述新的未标记图像。

作为一例，在所述(I)处理中，所述处理器使所述深度Q网络(i)将至少一个全连接(Fully-Connected)运算应用于与所述第1新的边界框对应的所述第1新的分类置信度、所述第1新的回归不确定性和所述第1新的池化特征图至与所述第1新的边界框对应的所述第k₃新的分类置信度、所述第k₃新的回归不确定性和所述第k₃新的池化特征图，生成或支持生成对应于所述第1新的边界框的第1新的中间接受分数(intermediate acceptance score)和第1新的中间拒绝分数(intermediate rejection score)至对应于所述第k₃新的边界框的第k₃新的中间接受分数和第k₃新的中间拒绝分数，(ii)通过对所述第1新的中间接受分数至所述第k₃新的中间接受分数进行平均运算来生成所述新的接受分数，并且通过对所述第1新的中间拒绝分数至所述第k₃新的中间拒绝分数进行平均运算来生成所述新的拒绝分数，生成或支持生成包括所述新的接受分数和所述新的拒绝分数的所述新的Q值。

作为一例，所述处理器使所述深度Q网络将至少一个1x1卷积运算和一个m x m卷积运算应用于所述第1新的池化特征图至所述第k₃新的池化特征图以生成第1新的特征值(feature value)至第k₃新的特征值，将至少一个所述全连接运算应用于所述第1新的分类置信度至所述第k₃新的分类置信度、所述第1新的回归不确定性至所述第k₃新的回归不确定性和所述第1新的特征值至所述第k₃新的特征值，生成或支持生成所述第1新的中间接受分数至所述第k₃新的中间接受分数和所述第1新的中间拒绝分数至所述第k₃新的中间拒绝分数。

作为一例，在所述(I)处理中，所述处理器将所述新的未标记图像输入到所述检测网络，使所述检测网络(i)通过至少一个卷积层对所述新的未标记图像进行至少一次卷积运算，生成或支持生成与所述新的未标记图像对应的新的特征图，(ii)通过区域候选网络RPN(Region Proposal Network)参考所述新的特征图，针对所述新的未标记图像上多个预测具有所述第1对象至所述第k₃对象的候选区域生成或支持生成多个新的感兴趣区域ROI(region of interest)，(iii)通过池化层对与所述新的特征图上的多个所述新的ROI对应的每个所述候选区域进行ROI池化，以生成或支持生成多个与每个所述新的ROI对应的新的池化特征图，(iv)通过至少一个全连接(Fully-Connected)层对所述新的池化特征图进行全连接运算，生成或支持生成多个与每个所述新的所述ROI对应的新的回归信息(regression information)和新的分类信息(classification information)，(v)参考与每个所述新的ROI对应的多个所述新的回归信息和多个所述新的分类信息，生成或支持生成与位于所述新的未标记图像上的所述第1对象至所述第k₃对象中各对象对应的所述第1新的边界框至所述第k₃新的边界框与第1新的分类信息至第k₃新的分类信息。

除此之外，本发明还提供一种计算机可读记录介质，其用于记录用于执行本发明方法的计算机程序。

本发明的效果在于，通过使用由深度Q网络(deep Q-network)生成的Q值来有效地选择能够提高检测网络(detection network)的准确度的最优学习数据。

另外，本发明的另一效果在于，对连接于检测网络的深度Q网络进行将检测网络的准确度作为奖励(reward)的强化学习(reinforcement learning)，以使深度Q网络生成选择可以提高检测网络的准确度的最优学习数据的Q值。

此外，本发明的再一效果在于，通过使用基于由深度Q网络生成的Q值选择的学习数据来实现针对检测网络的自我监督学习(self-supervised learning)。

附图说明

用于描述本发明实施例的以下附图仅为本发明实施例的一部分，并且本发明所属领域的普通技术人员(以下称为“普通技术人员”)可以基于这些附图获得其他附图，而无需进行任何创造性工作。

图1为根据本发明一实施例的用于对深度Q网络(deep Q-network)进行强化学习(reinforcement learning)的学习装置的示意图，其基于深度学习的检测网络(detectionnetwork)中的目标检测结果，可以选择对检测网络的自监督学习有用的学习数据；

图2为根据本发明一实施例的对深度Q网络进行强化学习的过程图，其根据基于深度学习的检测网络中的目标检测结果，可以选择对检测网络的自监督学习有用的学习数据；

图3为根据本发明一实施例的深度Q网络的结构图；

图4为根据本发明一实施例的自学习装置(self-learning device)的示意图，其使用深度Q网络对基于深度学习的检测网络进行自监督学习(self-supervisedlearning)；

图5为根据本发明一实施例的使用深度Q网络对基于深度学习的检测网络进行自监督学习(self-supervised learning)的过程图。

具体实施方式

以下本发明的详细描述参见附图，所述附图以说明方式示出了可以实施本发明的具体实施例，以阐明本发明的目的、技术方案和优点。对这些实施例进行了充分详细的描述，以使本领域技术人员能够实施本发明。进一步地，本发明包括本说明书所示实施例的所有可能的组合。应当理解，本发明的各种实施例尽管不同但不必相互排斥。例如，本文记载的特定形状、结构及特性在一个实施例中在不超出本发明的精神及范围的前提下可通过其他实施例实现。并且，应当理解，所公开的每个实施例中各组件的位置或配置可在不超出本发明的精神及范围的前提下变更。因此，后述的详细说明并不用于限定本发明，只要能够进行适当的说明，本发明的范围应根据与其权利要求保护范围等同的所有范围和所附的权利要求保护范围而被限定。附图中类似的附图标记在多个方面指示相同或类似的功能。

另外，在本发明的内容及权利要求书中，术语“包括”及其变形并不意图排除其他技术特征、附加物、组件或步骤。对于本发明普通技术人员而言，本发明的其他目的、优点及特性中一部分可从本说明书获知，而一部分可从本发明的实施获知。以下的例示及附图作为实例提供，而并不是意图限制本发明。

本发明中涉及的各种图像可以包括与铺面道路或未铺面道路有关的图像，此时，可以假设可以出现在道路环境中的物体(例如，汽车、人、动物、植物、物体、建筑物、如飞机或无人机的飞行器以及其他障碍物)，但不一定限于此，本发明中涉及的各种图像可以为与道路无关的图像(例如，与未铺面道路、小巷、空地、大海、湖泊、河流、山脉、森林、沙漠、天空、室内有关的图像)，此时，可以假设可以出现在未铺面道路、小巷、空地、大海、湖泊、河流、山脉、森林、沙漠、天空、室内环境中的物体(例如，汽车、人、动物、植物、物体、建筑物、如飞机或无人机的飞行器以及其他障碍物)，但不一定限于此。

本文提供的公开内容的标题和摘要仅为方便起见，不应被解释为限制实施例的范围或含义。

为了使本领域普通技术人员能够容易地实施本发明，下面将参考附图详细描述本发明的优选实施例。

图1为根据本发明一实施例的用于对深度Q网络(deep Q-network)进行强化学习(reinforcement learning)的学习装置1000的示意图，其基于深度学习的检测网络(detection network)中的目标检测结果，选择对检测网络的自监督学习(self-supervised learning)有用的学习数据。

参见图1，学习装置1000可以包括存储指令的存储器1001，所述指令用于对深度Q网络进行强化学习，使其能够根据基于深度学习的检测网络中的目标检测结果选择对检测网络的自监督学习有用的学习数据；和用于执行对深度Q网络进行强化学习的操作的处理器1002，其响应存储在存储器1001中的指令，可以根据基于深度学习的检测网络中的目标检测结果选择对检测网络的自监督学习有用的学习数据。

具体地，学习装置1000通常可以使用计算装置(例如，计算机处理器、存储器、存储装置、输入和输出装置，和可以包括常规计算装置的其他组件的装置；电子通讯装置，如路由器、交换机等；电子信息存储系统，如网络附加存储(NAS)和存储区域网络(SAN))和计算机软件(即，使计算装置以特定方式运行的指令)的组合来实现所需的系统性能。

另外，计算装置的处理器可以包括诸如微处理单元(MPU，Micro ProcessingUnit)或中央处理单元(CPU，Central Processing Unit)、高速缓冲(Cache Memory)、数据总线(Data Bus)之类的硬件配置。另外，计算装置可以进一步包括操作系统、执行特定目的的应用程序的软件配置。

然而，不排除计算装置包括为实现本发明而集成介质、处理器和存储器的形式的集成处理器的情况。

下面将参考图2和图3描述对深度Q网络进行强化学习的方法，其使用如上所述配置的学习装置1000，可以根据本发明一实施例的基于深度学习的检测网络中的目标检测结果选择对检测网络的自监督学习有用的学习数据。

首先，图2为根据本发明一实施例的对深度Q网络200进行强化学习的过程图，其根据基于深度学习的检测网络100中的目标检测结果，可以选择对检测网络100的自监督学习有用的学习数据。

参见图2，学习装置1000在已使用多个存储在学习数据库中的学习数据训练用于检测对象的检测网络100的状态下，当从未标记数据库(unlabeled database)中获得至少一个第1未标记图像(unlabeled image)时，将第1未标记图像输入到检测网络100，可以使检测网络100对第1未标记图像进行目标检测以生成第1目标检测信息。其中，第1未标记图像可以从未标记数据库中随机选择。另外，多个用于检测网络100的初始学习的学习数据库中包括的学习数据均可以使用与每个学习数据对应的真实数据以处于注释(annotation)状态。另外，未标记数据库可以存储有多个未标注真实数据的未标记图像(unlabeledimage)。

具体地，学习装置1000将第1未标记图像输入到检测网络100，使检测网络100通过至少一个卷积层对第1未标记图像进行至少一次卷积运算，生成与第1未标记图像对应的第1特征图(feature map)，通过区域候选网络RPN(Region Proposal Network)参考第1特征图，针对第1未标记图像上多个预测具有第1对象至第k₁对象的候选区域生成多个第1感兴趣区域ROI(region of interest)，通过池化层对与第1特征图上的多个第1ROI对应的每个候选区域进行ROI池化，以生成与每个第1ROI对应的多个第1池化特征图(pooled featuremap)，通过至少一个全连接层(Fully-Connected Layer)对多个第1池化特征图进行第1全连接运算，生成多个与每个第1ROI对应的第1回归信息(regression information)和第1分类信息(classification information)，参考多个与每个第1ROI对应的第1回归信息和第1分类信息，可以生成与位于第1未标记图像上的第1对象至第k₁对象中各对象对应的所述第1_1边界框至所述第1_k₁边界框与第1_1分类信息至第1_k₁分类信息。此时，第1_1分类信息至第1_k₁分类信息中的每一个可以包括第1_1分类置信度(classification confidence)至第1_k₁分类置信度，并且第1_1边界框至第1_k₁边界框中的每一个可以包括第1_1回归不确定性(regression uncertainty)至第1_k₁回归不确定性。其中，k₁为1以上的整数，其值可以根据第1未标记图像上存在的对象的数量而变化。

接下来，学习装置1000可以参考第1目标检测信息生成第1状态集(state set)，所述第1状态集包括与针对第1未标记图像中包括的第1对象至第k₁对象的第1_1边界框至第1_k₁边界框中每一个对应的第1_1分类置信度至第1_k₁分类置信度、第1_1回归不确定性至第1_k₁回归不确定性和第1_1池化特征图至第1_k₁池化特征图。

另外，学习装置1000将第1状态集输入到深度Q网络200中，使深度Q网络200对第1状态集进行学习运算以生成Q值，所述Q值包括对应于第1未标记图像的接受分数(acceptance score)和拒绝分数(rejection score)，可以将argMax函数应用于Q值以生成动作。

具体地，参见图3，学习装置1000使深度Q网络200将至少一个第2全连接(Fully-Connected)运算应用于与第1_1边界框对应的第1_1分类置信度、第1_1回归不确定性和第1_1池化特征图至与第1_k₁边界框对应的第1_k₁分类置信度、第1_k₁回归不确定性和第1_k₁池化特征图中的每一个，可以生成对应于第1_1边界框的第1中间接受分数(intermediateacceptance score)和第1中间拒绝分数(intermediate rejection score)至对应于第1_k₁边界框的第k₁中间接受分数和第k₁中间拒绝分数。

其中，学习装置1000使深度Q网络200将至少一个1x1卷积运算和一个m x m卷积运算应用于第1_1池化特征图至第1_k₁池化特征图以生成第1特征值(feature value)至第k₁特征值，然后可以将至少一个第2全连接运算应用于第1_1分类置信度至第1_k₁分类置信度、第1_1回归不确定性至第1_k₁回归不确定性和第1特征值至第k₁特征值中的每一个。如此，使第1状态集中的每个元件，即，第1_1分类置信度至第1_k₁分类置信度、第1_1回归不确定性至第1_k₁回归不确定性和第1_1池化特征图至第1_k₁池化特征图的数据格式相同或相似，然后可以进行第2全连接运算。其中，m x m可以对应于第1_1池化特征图至第1_k₁池化特征图的大小。

作为一例，如图3中的示例所示，当从检测网络100生成的第1_1池化特征图至第1_k₁池化特征图的大小分别为(5x5)时，应用至少一个1x1卷积运算和一个5x5卷积运算以生成第1特征值至第k₁特征值，然后将至少一个第2全连接运算应用于第1_1分类置信度至第1_k₁分类置信度、第1_1回归不确定性至第1_k₁回归不确定性和第1特征值至第k₁特征值中的每一个，可以生成第1中间接受分数至第k₁中间接受分数和第1中间拒绝分数至第k₁中间拒绝分数。

然后，学习装置100使深度Q网络200通过对第1中间接受分数至第k₁中间接受分数进行平均运算来生成接受分数，并且通过对第1中间拒绝分数至第k₁中间拒绝分数进行平均运算来生成拒绝分数，从而可以生成包括接受分数和拒绝分数的Q值。

再次参见图2，学习装置100参考通过将argMax函数应用于深度Q网络200的Q值来生成的动作，在动作对应于第1未标记图像的接受(acceptance)时，把将第1目标检测信息作为标签添加到第1未标记图像而获得的标记图像作为学习数据添加到学习数据库，从未标记数据库中删除第1未标记图像，使用包括在学习数据库中的至少一个学习数据重新训练检测网络100，可以参考通过使用验证数据库(validation database)测试重新训练的检测网络100而获得的重新训练的检测网络100的第1准确度生成奖励。其中，第1准确度可以从使用验证数据库测试检测网络100的结果中获得。例如，第1准确度可以设置为通过将检测网络100针对包括在验证数据库中的测试数据生成的测试目标检测信息与测试数据的真实数据进行比较而生成的mAP(mean Average Precision)。

另一方面，学习装置1000参考通过将argMax函数应用于Q值来生成的动作，当动作对应于第1未标记图像的拒绝(rejection)时，从未标记数据库中删除第1未标记图像，可以参考通过使用验证数据库测试检测网络100而获得的检测网络100的第2准确度，即在未进行重新训练的当前状态下的检测网络100的第2准确度生成奖励。其中，由于所述第2准确度为在未进行针对检测网络100的重新训练的状态下测量的，因此在第2准确度测量之前测量的准确度会处于没有变化的状态。

接下来，学习装置1000在从未标记数据库中获得至少一个第2未标记图像(unlabeled image)时，可以将第2未标记图像输入到检测网络100，使检测网络100对第2未标记图像进行目标检测以生成第2目标检测信息。其中，第2未标记图像可以从未标记数据库中随机选择。

具体地，学习装置1000将第2未标记图像输入到检测网络100，使检测网络100通过至少一个卷积层对第2未标记图像进行至少一次卷积运算，生成与第2未标记图像对应的第2特征图(feature map)，通过区域候选网络RPN(Region Proposal Network)参考第2特征图，针对第2未标记图像(unlabeled image)上多个预测具有第1对象至第k₂对象的候选区域生成多个第2感兴趣区域ROI(region of interest)，通过池化层对与第2特征图上的多个第2ROI对应的每个候选区域进行ROI池化，以生成与每个第2ROI对应的多个第2池化特征图，通过至少一个全连接层对多个第2池化特征图进行第1全连接运算，生成多个与每个第2ROI对应的第2回归信息(regression information)和第2分类信息(classificationinformation)，参考多个与每个第2ROI对应的第2回归信息和第2分类信息，可以生成与位于第2未标记图像上的第1对象至第k₂对象中各对象对应的所述第2_1边界框至所述第2_k₂边界框与第2_1分类信息至第2_k₂分类信息。此时，第2_1分类信息至第2_k₂分类信息中的每一个可以包括第2_1分类置信度(classification confidence)至第2_k₂分类置信度，并且第2_1边界框至第2_k₂边界框中的每一个可以包括第2_1回归不确定性(regressionuncertainty)至第2_k₂回归不确定性。其中，k₂为1以上的整数，其值可以根据第2未标记图像中包括的对象的数量而变化。

接下来，学习装置1000可以参考第2目标检测信息生成第2状态集(state set)，所述第2状态集包括与针对第2未标记图像中包括的第1对象至第k₂对象的第2_1边界框至第2_k₂边界框中每一个对应的第2_1分类置信度至第2_k₂分类置信度、第2_1回归不确定性至第2_k₂回归不确定性和第2_1池化特征图至第2_k₂池化特征图。

接下来，学习装置1000可以将第1状态集、动作、奖励和第2状态集作为转换向量(transition vector)存储在存储器中。其中，在将与第1未标记图像对应的第1状态集、动作和奖励存储在存储器中的状态下，学习装置1000可以在第2状态集生成时将第2状态集额外地存储在存储器中。另外，转换向量的每个元件可以称为转换的各分量，转换向量可以以元组(tuple)的形式存储在存储器中。

此外，学习装置1000可以通过从存储器中采样待用作至少一个学习用转换向量的至少一个特定转换向量来生成小批量(minibatch)，使用小批量训练深度Q网络200，以使深度Q网络200根据第1状态集和第2状态集输出用于增加奖励的动作。其中，参考小批量中包括的学习用转换向量，生成使用贝尔曼方程(Bellman’s equation)的损失函数(lossfunction)，然后可以通过最小化损失来训练深度Q网络200。

另一方面，可以重复执行生成第1状态集、动作、奖励和第2状态集的步骤以生成多个转换向量，并且存储有转换向量的存储器可以包括重放存储器(replay memory)。因此，在每次迭代(iteration)中，学习装置1000可以将转换向量传输到重放存储器，以使重放存储器根据循环缓冲器(cyclic buffer)的预设容量用转换向量覆写(overwrite)最旧的先前转换向量以进行存储。通过这种方式，学习装置1000可以通过从重放存储器随机采样待用作至少一个学习用转换向量的特定转换向量来生成小批量。

另外，作为通过在每次迭代中采样小批量来训练深度Q网络200的示例，学习装置1000通过与转换向量的累积量成比例地随机选择待用作学习用转换向量的a*n个或2^n个特定转换向量来生成至少一个小批量，从而可以使用每个小批量训练深度Q网络200。其中，a和n为1以上的整数，对于每预设的迭代次数，n增加1。

如上所述的深度Q网络200的强化学习可以通过使用以下伪代码(pseudocode)来执行。在下面的伪代码中，深度Q网络200表示为Q-Net，检测网络100表示为Detection-Net。根据下面的伪代码，学习装置1000可以通过在生成转换向量的每次迭代中生成小批量来重复训练深度Q网络200的过程。

另一方面，通过使用上述方法，可以同时进行深度Q网络200的强化学习和检测网络100的自监督学习，但本发明不限于此，使用如上训练的深度Q网络对检测网络100执行自监督学习的方法如下。

在如上所述训练深度Q网络200的状态下，参见图4和图5，对自学习装置(self-learning device)使用深度Q网络200对基于深度学习的检测网络100进行自监督学习(self-supervised learning)的方法进行说明如下。

图5为根据本发明一实施例的使用深度Q网络200对基于深度学习的检测网络进行自监督学习(self-supervised learning)的自学习装置的示意图。

参见图4，自学习装置2000可以包括存储指令的存储器2001，所述指令用于使用深度Q网络200对检测网络100执行自监督学习(self-supervised learning)；和处理器2002，其响应于存储在存储器2001中的指令，使用深度Q网络200对检测网络100执行自监督学习(self-supervised learning)。

具体地，自学习装置2000通常可以使用计算装置(例如，计算机处理器、存储器、存储装置、输入和输出装置，和可以包括常规计算装置的其他组件的装置；电子通讯装置，如路由器、交换机等；电子信息存储系统，如网络附加存储(NAS)和存储区域网络(SAN))和计算机软件(即，使计算装置以特定方式运行的指令)的组合来实现所需的系统性能。

另一方面，如上所述的自学习装置2000可以安装在持续提供未标记的学习数据的云、物联网设备、图像设备、自动驾驶汽车、机器人等上，如果需要，可以通过定期将检测网络100和深度Q网络200的参数传输到学习装置1000，从学习装置1000接收更新后的深度Q网络200的参数。如上所述，学习装置1000和自学习装置2000在物理上分开且可以相互交换数据，但本发明不限于此，如果没有容量或物理限制，或者如果需要，学习装置1000和自学习装置2000可以作为同一设备操作。

下面将参照图5描述使用根据如上所述的本发明一实施例的自学习装置2000且使用深度Q网络200对基于深度学习的检测网络100执行自监督学习(self-supervisedlearning)的过程。下面将省略可从图2和图3的描述容易理解的部分的详细描述。

参见图5，在如上所述训练深度Q网络200的状态下，当自学习装置2000获得从新的未标记数据库(unlabeled database)中选择的至少一个新的未标记图像(unlabeledimage)时，通过将新的未标记图像输入到检测网络100，可以使检测网络100对新的未标记图像进行目标检测以生成新的目标检测信息。其中，新的未标记图像可以从新的未标记数据库中随机选择。另外，新的未标记数据库可以存储有未标注(annotation)真实数据的新的未标记图像。

即，自学习装置2000将新的未标记图像输入到检测网络100，使检测网络100通过至少一个卷积层对新的未标记图像进行至少一次卷积运算，生成与新的未标记图像对应的新的特征图，通过区域候选网络RPN(Region Proposal Network)参考新的特征图，针对新的未标记图像上多个预测具有第1对象至第k₃对象的候选区域生成多个的感兴趣区域ROI，通过池化层对与新的特征图上的多个新的ROI对应的每个候选区域进行ROI池化，以生成多个与多个新的ROI对应的新的池化特征图，通过至少一个全连接层对新的池化特征图进行第1全连接运算，生成多个与每个新的所述ROI对应的新的回归信息和新的分类信息，参考与每个新的ROI对应的多个新的回归信息和多个新的分类信息，生成针对位于新的未标记图像上的第1对象至第k₃对象的第1新的边界框至第k₃新的边界框与第1新的分类信息至第k₃新的分类信息。此时，第1新的分类信息至第k₃新的分类信息中的每一个可以包括第1新的分类置信度至第k₃分类置信度，并且第1新的边界框至第k₃边界框中的每一个可以包括第1新的回归不确定性至第k₃新的回归不确定性。其中，k₃为1以上的整数，其值可以根据新的未标记图像中包括的对象的数量而变化。

接下来，自学习装置2000可以参考新的目标检测信息生成新的状态集，所述新的状态集包括与针对新的未标记图像中包括的至少一个对象的第1新的边界框至第k₃新的边界框中每一个对应的第1新的分类置信度至第k₃新的分类置信度、第1新的回归不确定性至第k₃新的回归不确定性和第1新的池化特征图至第1新的池化特征图。

据此，自学习装置2000将新的状态集输入到深度Q网络200中，使深度Q网络200对新的状态集进行学习运算以生成新的Q值，所述新的Q值包括对应于新的未标记图像的新的接受分数和新的拒绝分数，可以将argMax函数应用于新的Q值以生成新的动作。

具体地，自学习装置2000使深度Q网络200将至少一个第2全连接运算应用于与针对新的未标记图像中包括的第1对象至第k₃对象的第1新的边界框对应的第1新的分类置信度、第1新的回归不确定性和第1新的池化特征图至与第1新的边界框对应的第k₃新的分类置信度、第k₃新的回归不确定性和第k₃新的池化特征图，可以生成对应于第1新的边界框的第1新的中间接受分数(intermediate acceptance score)和第1新的中间拒绝分数(intermediate rejection score)至对应于第k₃新的边界框的第k₃新的中间接受分数和第k₃新的中间拒绝分数。

其中，自学习装置2000使深度Q网络200将至少一个1x1卷积运算和一个m x m卷积运算应用于第1新的池化特征图至第k₃新的池化特征图以生成第1新的特征值至第k₃新的特征值，然后将至少一个全连接运算应用于第1新的分类置信度至第k₃新的分类置信度、第1新的回归不确定性至第k₃新的回归不确定性和第1新的特征值至第k₃新的特征值，可以生成第1新的中间接受分数至第k₃新的中间接受分数和第1新的中间拒绝分数至第k₃新的中间拒绝分数。如此，使新的状态集中的每个元件，即，第1新的分类置信度至第k₃新的分类置信度、第1新的回归不确定性至第k₃新的回归不确定性和第1新的池化特征图至第k₃新的池化特征图的数据格式相同或相似，然后可以进行第2全连接运算。

接下来，自学习装置2000通过对第1新的中间接受分数至第k₃新的中间接受分数进行平均运算来生成新的接受分数，并且通过对第1新的中间拒绝分数至第k₃新的中间拒绝分数进行平均运算来生成新的拒绝分数，从而可以生成包括新的接受分数和新的拒绝分数的新的Q值。

接下来，自学习装置2000参考通过将argMax函数应用于深度Q网络200的新的Q值来生成的新的动作，当新的动作对应于新的未标记图像的接受(acceptance)时，把将新的目标检测信息作为标签添加到新的未标记图像而获得的新的标记图像作为学习数据添加到学习数据库中，从新的未标记数据库中删除新的未标记图像，可以使用包括在学习数据库中的至少一个学习数据重新训练检测网络。

另一方面，自学习装置2000参考通过将argMax函数应用于新的Q值来生成的新的动作，当新的动作对应于新的未标记图像的拒绝(rejection)时，可以从新的未标记数据库中删除新的未标记图像。

针对如上所述的检测网络100的自监督(self-supervised)学习可以使用以下伪代码来执行。在下面的伪代码中，深度Q网络200表示为Q-Net，检测网络100表示为Detection-Net。根据以下伪代码，每当从新的未标记数据库中获得新的未标记图像时，自学习装置2000可以生成新的状态集、新的Q值和新的动作以训练检测网络100。

另一方面，上述用于检测网络100的自监督学习的学习数据库可以包括深度Q网络的强化学习中用作检测网络100的学习数据的数据，但不限于此，可以为包括新的学习数据的学习数据库，而不包括深度Q网络的强化学习中用作检测网络100的学习数据的数据。

另外，自学习装置2000可以通过使用上述检测网络100或与上述检测网络100不同的检测网络，针对从新的未标记数据库中选择的新的未标记图像，生成新的目标检测信息。即，通过强化学习训练的深度Q网络200可以用于其他检测网络的自监督学习，而不用于深度Q网络200的强化学习中使用的检测网络100。

上述根据本发明的实施例可以以可通过各种计算机组件执行的程序指令的形式来实现并记录在计算机可读记录介质中。所述计算机可读记录介质可以包括单独或组合的程序指令、数据文件、数据结构等。记录在所述计算机可读记录介质中的程序指令可以是为本发明专门设计和配置的，或者可以是计算机软件领域的技术人员已知和可用的。计算机可读记录介质的示例包括诸如硬盘、软盘和磁带的磁性介质，诸如CD-ROM、DVD的光学记录介质，诸如软盘(floptical disk)的磁光介质(magneto-optical media)以及专门配置用于存储和执行程序指令的硬件装置，例如ROM、RAM、闪存等。程序指令的示例不仅包括诸如由编译器生成的那些机器语言代码，而且还包括可以由计算机使用解释器等执行的高级语言代码。所述硬件装置可以配置为作为至少一个软件模块操作以执行根据本发明的处理，反之亦然。

在上文中，已经参考诸如具体组件等的特定事项以及有限的实施例和附图描述了本发明，但这仅有助于更全面地理解本发明，而本发明不限于上述实施例，本发明所属领域的普通技术人员可以根据这些描述设计出各种修改和变化。

因此，本发明的精神不应限于上述实施例，除所附权利要求外，凡与这些权利要求等效或等同的修改，均应包含在本发明的精神范围内。

Claims

1.一种使用深度Q网络(deep Q-network)对基于深度学习的检测网络(detectionnetwork)进行自监督学习(self-supervised learning)的方法，其特征在于，包括：

(a)步骤，在已使用多个存储在学习数据库中的学习数据训练用于检测对象的检测网络的状态下，当从未标记数据库(unlabeled database)中获得至少一个第1未标记图像(unlabeled image)时，学习装置(i)将所述第1未标记图像输入到所述检测网络，使所述检测网络对所述第1未标记图像进行目标检测以生成或支持生成第1目标检测信息，(ii)参考所述第1目标检测信息生成或支持生成第1状态集(state set)，所述第1状态集包括对应于针对包括在所述第1未标记图像中的第1对象的第1_1边界框的第1_1分类置信度(classification confidence)、第1_1回归不确定性(regression uncertainty)和第1_1池化特征图(pooled feature map)至对应于针对包括在所述第1未标记图像中的第k₁对象的第1_k₁边界框的第1_k₁分类置信度、第1_k₁回归不确定性和第1_k₁池化特征图，其中所述k₁为1以上的整数，(iii)将所述第1状态集输入到深度Q网络，使所述深度Q网络对所述第1状态集进行学习运算以生成或支持生成Q值，所述Q值包括对应于所述第1未标记图像的接受分数(acceptance score)和拒绝分数(rejection score)，(iv)将argMax函数应用于所述Q值以生成或支持生成动作(action)；

(b)步骤，所述学习装置(i)参考所述动作，(i-1)当所述动作对应于所述第1未标记图像的接受(acceptance)时，把将所述第1目标检测信息作为标签添加到所述第1未标记图像而获得的标记图像(labeled image)作为学习数据添加到所述学习数据库中，从所述未标记数据库中删除所述第1未标记图像，使用包括在所述学习数据库中的至少一个所述学习数据重新训练所述检测网络，参考通过使用验证数据库测试重新训练的所述检测网络而获得的重新训练的所述检测网络的第1准确度(accuracy)生成或支持生成奖励，(i-2)当所述动作对应于所述第1未标记图像的拒绝(rejection)时，从所述未标记数据库中删除所述第1未标记图像，参考通过使用所述验证数据库测试所述检测网络而获得的所述检测网络的第2准确度生成或支持生成所述奖励，(ii)当从所述未标记数据库中获得至少一个第2未标记图像时，(ii-1)将所述第2未标记图像输入到所述检测网络，使所述检测网络对所述第2未标记图像进行目标检测以生成或支持生成第2目标检测信息，(ii-2)参考所述第2目标检测信息生成或支持生成第2状态集(state set)，所述第2状态集包括对应于针对包括在所述第2未标记图像中的第1对象的第2_1边界框的第2_1分类置信度、第2_1回归不确定性和第2_1池化特征图至对应于针对包括在所述第2未标记图像中的第k₂对象的第2_k₂边界框的第2_k₂分类置信度、第2_k₂回归不确定性和第2_k₂池化特征图，其中所述k₂为1以上的整数，(ii-3)将所述第1状态集、所述动作、所述奖励和所述第2状态集作为转换向量(transitionvector)存储或支持存储在存储器；以及

(c)步骤，所述学习装置通过从所述存储器中采样待用作至少一个学习用转换向量的至少一个特定转换向量来生成或支持生成小批量(minibatch)，使用所述小批量训练所述深度Q网络，以使所述深度Q网络根据所述第1状态集和所述第2状态集输出用于增加所述奖励的动作。

2.根据权利要求1所述的方法，其特征在于，在所述(a)步骤中：

所述学习装置使深度Q网络(i)将至少一个全连接(Fully-Connected)运算应用于与所述第1_1边界框对应的所述第1_1分类置信度、所述第1_1回归不确定性和所述第1_1池化特征图至与所述第1_k₁边界框对应的所述第1_k₁分类置信度、所述第1_k₁回归不确定性和所述第1_k₁池化特征图中的每一个，生成或支持生成对应于所述第1_1边界框的第1中间接受分数(intermediate acceptance score)和第1中间拒绝分数(intermediate rejectionscore)至对应于所述第1_k₁边界框的第k₁中间接受分数和第k₁中间拒绝分数，(ii)通过对所述第1中间接受分数至所述k₁中间接受分数进行平均运算来生成所述接受分数，并且通过对所述第1中间拒绝分数至所述k₁中间拒绝分数进行平均运算来生成所述拒绝分数，生成或支持生成包括所述接受分数和所述拒绝分数的所述Q值。

3.根据权利要求2所述的方法，其特征在于：

所述学习装置使所述深度Q网络将至少一个1x 1卷积运算和一个m x m卷积运算应用于所述第1_1池化特征图至所述第1_k₁池化特征图以生成第1特征值(feature value)至第k₁特征值，将至少一个所述全连接运算应用于所述第1_1分类置信度至所述第1_k₁分类置信度、所述第1_1回归不确定性至所述第1_k₁回归不确定性和所述第1特征值至所述第k₁特征值，生成或支持生成所述第1中间接受分数至所述k₁中间接受分数和所述第1中间拒绝分数至所述k₁中间拒绝分数。

4.根据权利要求1所述的方法，其特征在于：

重复执行所述(a)步骤、所述(b)步骤和所述(c)步骤以生成多个所述转换向量；

在每次迭代的所述(c)步骤中，

所述学习装置通过与所述存储器的所述转换向量的累积量成比例地随机选择待用作所述学习用转换向量的a*n个或2^n个所述特定转换向量来生成至少一个所述小批量，使用各所述小批量训练或支持训练所述深度Q网络，其中所述a和n为1以上的整数，对于每预设的迭代次数，n增加1。

5.根据权利要求1所述的方法，其特征在于：

所述存储器包括重放存储器(replay memory)；

在每次迭代的所述(c)步骤中，

所述学习装置(i)将所述转换向量传输到所述重放存储器，以使所述重放存储器根据循环缓冲器(cyclic buffer)的预设容量用所述转换向量覆写(overwrite)最旧的先前转换向量以进行存储或支持存储，(ii)通过从所述重放存储器中随机采样待用作所述学习用转换向量的所述特定转换向量，生成或支持生成所述小批量。

6.根据权利要求1所述的方法，其特征在于，在所述(a)步骤中：

所述学习装置将所述第1未标记图像输入到所述检测网络，使所述检测网络(i)通过至少一个卷积层对所述第1未标记图像进行至少一次卷积运算，生成或支持生成与所述第1未标记图像对应的第1特征图(feature map)，(ii)通过区域候选网络RPN(Region ProposalNetwork)参考所述第1特征图，针对所述第1未标记图像上多个预测具有所述第1对象至所述第k₁对象的候选区域生成或支持生成多个感兴趣区域ROI(region of interest)，(iii)通过池化层对与所述第1特征图上的多个所述ROI对应的每个所述候选区域进行ROI池化，以生成或支持生成与每个所述ROI对应的每个池化特征图，(iv)通过至少一个全连接(Fully-Connected)层对多个所述池化特征图进行全连接运算，生成或支持生成多个与每个所述ROI对应的回归信息(regression information)和分类信息(classificationinformation)，(v)参考多个与每个所述ROI对应的所述回归信息和所述分类信息，生成或支持生成与位于所述第1未标记图像上的所述第1对象至所述第k₁对象中各对象对应的所述第1_1边界框至所述第1_k₁边界框与所述第1_1分类信息至所述第1_k₁分类信息。

7.一种使用深度Q网络(deep Q-network)对基于深度学习的检测网络(detectionnetwork)进行自监督学习(self-supervised learning)的方法，其特征在于，包括：

(a)步骤，在已使用存储在学习数据库中的学习数据训练用于检测对象的检测网络的状态下，学习装置(I)在从未标记数据库(unlabeled database)中获得至少一个第1未标记图像(unlabeled image)时，(i)将所述第1未标记图像输入到所述检测网络，使所述检测网络对所述第1未标记图像进行目标检测以生成或支持生成第1目标检测信息，(ii)参考所述第1目标检测信息生成或支持生成第1状态集(state set)，所述第1状态集包括对应于针对包括在所述第1未标记图像中的第1对象的第1_1边界框的第1_1分类置信度(classification confidence)、第1_1回归不确定性(regression uncertainty)和第1_1池化特征图(pooled feature map)至对应于针对包括在所述第1未标记图像中的第k₁对象的第1_k₁边界框的第1_k₁分类置信度、第1_k₁回归不确定性和第1_k₁池化特征图，其中所述k₁为1以上的整数，(iii)将所述第1状态集输入到深度Q网络，使所述深度Q网络对所述第1状态集进行学习运算以生成或支持生成Q值，所述Q值包括对应于所述第1未标记图像的接受分数(acceptance score)和拒绝分数(rejection score)，(iv)将argMax函数应用于所述Q值以生成或支持生成动作(action)；(II)(i)参考所述动作，(i-1)当所述动作对应于所述第1未标记图像的接受(acceptance)时，把将所述第1目标检测信息作为标签添加到所述第1未标记图像而获得的标记图像(labeled image)作为学习数据添加到所述学习数据库中，从所述未标记数据库中删除所述第1未标记图像，使用包括在所述学习数据库中的至少一个所述学习数据重新训练所述检测网络，生成或支持生成通过使用验证数据库测试重新训练的所述检测网络而获得的重新训练的所述检测网络的第1准确度作为奖励(reward)，(i-2)当所述动作对应于所述第1未标记图像的拒绝(rejection)时，从所述未标记数据库中删除所述第1未标记图像，生成或支持生成通过使用所述验证数据库测试所述检测网络而获得的所述检测网络的第2准确度作为所述奖励，(ii)当从所述未标记数据库中获得至少一个第2未标记图像时，(ii-1)将所述第2未标记图像输入到所述检测网络，使所述检测网络对所述第2未标记图像进行目标检测以生成或支持生成第2目标检测信息，(ii-2)参考所述第2目标检测信息生成或支持生成第2状态集(state set)，所述第2状态集包括对应于针对包括在所述第2未标记图像中的第1对象的第2_1边界框的第2_1分类置信度、第2_1回归不确定性和第2_1池化特征图至对应于针对包括在所述第2未标记图像中的第k₂对象的第2_k₂边界框的第2_k₂分类置信度、第2_k₂回归不确定性和第2_k₂池化特征图，其中所述k₂为1以上的整数，(ii-3)将所述第1状态集、所述动作、所述奖励和所述第2状态集作为转换向量(transition vector)存储或支持存储在存储器；以及(III)在从所述存储器中采样待用作至少一个学习用转换向量的至少一个特定转换向量来生成或支持生成小批量(minibatch)，使用所述小批量训练或支持训练所述深度Q网络，以使所述深度Q网络根据所述第1状态集和所述第2状态集输出用于增加所述奖励的动作的状态下，自学习装置在获得从新的未标记数据库中选择的至少一个新的未标记图像时，(i)将所述新的未标记图像输入到所述检测网络，使所述检测网络通过对所述新的未标记图像进行目标检测来生成或支持生成新的目标检测信息，(ii)参考所述新的目标检测信息生成或支持生成新的状态集，所述新的状态集包括对应于针对包括在所述新的未标记图像中的第1对象的第1新的边界框的第1新的分类置信度、第1新的回归不确定性和第1新的池化特征图至对应于针对包括在所述新的未标记图像中的第k₃对象的第k₃新的边界框的第k₃新的分类置信度、第k₃新的回归不确定性和第k₃新的池化特征图，其中所述k₃为1以上的整数，(iii)将所述新的状态集输入到深度Q网络中，使所述深度Q网络对所述新的状态集进行学习运算以生成或支持生成新的Q值，所述新的Q值包括对应于所述新的未标记图像的新的接受分数和新拒绝分数，(iv)将argMax函数应用于所述新的Q值以生成或支持生成新的动作；以及

(b)步骤，所述自学习装置参考所述新的动作，(i)当所述新的动作对应于所述新的未标记图像的接受(acceptance)时，把将所述新的目标检测信息作为标签添加到所述新的未标记图像而获得的新的标记图像作为所述学习数据添加到所述学习数据库中，从所述新的未标记数据库中删除所述新的未标记图像，使用包括在所述新的学习数据库中的至少一个所述学习数据重新训练或支持重新训练所述检测网络，(ii)当所述新的动作对应于所述新的未标记图像的拒绝(rejection)时，从所述新的未标记数据库中删除所述新的未标记图像。

8.根据权利要求7所述的方法，其特征在于，在所述(a)步骤中：

所述自学习装置使所述深度Q网络(i)将至少一个全连接(Fully-Connected)运算应用于与所述第1新的边界框对应的所述第1新的分类置信度、所述第1新的回归不确定性和所述第1新的池化特征图至与所述第1新的边界框对应的所述第k₃新的分类置信度、所述第k₃新的回归不确定性和所述第k₃新的池化特征图，生成或支持生成对应于所述第1新的边界框的第1新的中间接受分数(intermediate acceptance score)和第1新的中间拒绝分数(intermediate rejection score)至对应于所述第k₃新的边界框的第k₃新的中间接受分数和第k₃新的中间拒绝分数，(ii)通过对所述第1新的中间接受分数至所述第k₃新的中间接受分数进行平均运算来生成所述新的接受分数，并且通过对所述第1新的中间拒绝分数至所述第k₃新的中间拒绝分数进行平均运算来生成所述新的拒绝分数，生成或支持生成包括所述新的接受分数和所述新的拒绝分数的所述新的Q值。

9.根据权利要求8所述的方法，其特征在于：

所述自学习装置使所述深度Q网络将至少一个1x 1卷积运算和一个m x m卷积运算应用于所述第1新的池化特征图至所述第k₃新的池化特征图以生成第1新的特征值(featurevalue)至第k₃新的特征值，将至少一个所述全连接运算应用于所述第1新的分类置信度至所述第k₃新的分类置信度、所述第1新的回归不确定性至所述第k₃新的回归不确定性和所述第1新的特征值至所述第k₃新的特征值，生成或支持生成所述第1新的中间接受分数至所述第k₃新的中间接受分数和所述第1新的中间拒绝分数至所述第k₃新的中间拒绝分数。

10.根据权利要求7所述的方法，其特征在于，在所述(a)步骤中：

所述自学习装置将所述新的未标记图像输入到所述检测网络，使所述检测网络(i)通过至少一个卷积层对所述新的未标记图像进行至少一次卷积运算，生成或支持生成与所述新的未标记图像对应的新的特征图，(ii)通过区域候选网络RPN(Region ProposalNetwork)参考所述新的特征图，针对所述新的未标记图像上多个预测具有所述第1对象至所述第k₃对象的候选区域生成或支持生成多个新的感兴趣区域ROI(region ofinterest)，(iii)通过池化层对与所述新的特征图上的多个所述新的ROI对应的每个所述候选区域进行ROI池化，以生成或支持生成多个与每个所述新的ROI对应的新的池化特征图，(iv)通过至少一个全连接(Fully-Connected)层对所述新的池化特征图进行全连接运算，生成或支持生成多个与每个所述新的所述ROI对应的新的回归信息(regressioninformation)和新的分类信息(classification information)，(v)参考与每个所述新的ROI对应的多个所述新的回归信息和多个所述新的分类信息，生成或支持生成与位于所述新的未标记图像上的所述第1对象至所述第k₃对象中各对象对应的所述第1新的边界框至所述第k₃新的边界框与第1新的分类信息至第k₃新的分类信息。

11.一种使用深度Q网络(deep Q-network)对基于深度学习的检测网络(detectionnetwork)进行自监督学习(self-supervised learning)的学习装置，其特征在于，包括：

至少一个存储指令的存储器；和

至少一个用于执行所述指令的处理器，

所述处理器执行如下处理：(I)在已使用存储在学习数据库中的学习数据训练用于检测对象的检测网络的状态下，在从未标记数据库(unlabeled database)中获得至少一个第1未标记图像(unlabeled image)时，(i)将所述第1未标记图像输入到所述检测网络，使所述检测网络对所述第1未标记图像进行目标检测以生成或支持生成第1目标检测信息，(ii)参考所述第1目标检测信息生成或支持生成第1状态集(state set)，所述第1状态集包括对应于针对包括在所述第1未标记图像中的第1对象的第1_1边界框的第1_1分类置信度(classification confidence)、第1_1回归不确定性(regression uncertainty)和第1_1池化特征图(pooled feature map)至对应于针对包括在所述第1未标记图像中的第k₁对象的第1_k₁边界框的第1_k₁分类置信度、第1_k₁回归不确定性和第1_k₁池化特征图，其中所述k₁为1以上的整数，(iii)将所述第1状态集输入到深度Q网络，使所述深度Q网络对所述第1状态集进行学习运算以生成或支持生成Q值，所述Q值包括对应于所述第1未标记图像的接受分数(acceptance score)和拒绝分数(rejection score)，(iv)将argMax函数应用于所述Q值以生成或支持生成动作(action)的处理；(II)(i)参考所述动作，(i-1)当所述动作对应于所述第1未标记图像的接受(acceptance)时，把将所述第1目标检测信息作为标签添加到所述第1未标记图像而获得的标记图像(labeled image)作为学习数据添加到所述学习数据库中，从所述未标记数据库中删除所述第1未标记图像，使用包括在所述学习数据库中的至少一个所述学习数据重新训练所述检测网络，生成或支持生成通过使用验证数据库测试重新训练的所述检测网络而获得的重新训练的所述检测网络的第1准确度(accuracy)作为奖励，(i-2)当所述动作对应于所述第1未标记图像的拒绝(rejection)时，从所述未标记数据库中删除所述第1未标记图像，生成或支持生成通过使用所述验证数据库测试所述检测网络而获得的所述检测网络的第2准确度(accuracy)作为所述奖励，(ii)当从所述未标记数据库中获得至少一个第2未标记图像时，(ii-1)将所述第2未标记图像输入到所述检测网络，使所述检测网络对所述第2未标记图像进行目标检测以生成或支持生成第2目标检测信息，(ii-2)参考所述第2目标检测信息生成或支持生成第2状态集(state set)，所述第2状态集包括对应于针对包括在所述第2未标记图像中的第1对象的第2_1边界框的第2_1分类置信度、第2_1回归不确定性和第2_1池化特征图至对应于针对包括在所述第2未标记图像中的第k₂对象的第2_k₂边界框的第2_k₂分类置信度、第2_k₂回归不确定性和第2_k₂池化特征图，其中所述k₂为1以上的整数，(ii-3)将所述第1状态集、所述动作、所述奖励和所述第2状态集作为转换向量(transition vector)存储或支持存储在存储器的处理；以及(III)通过从所述存储器中采样待用作至少一个学习用转换向量的至少一个特定转换向量来生成或支持生成小批量(minibatch)，使用所述小批量训练或支持训练所述深度Q网络，以使所述深度Q网络根据所述第1状态集和所述第2状态集输出用于增加所述奖励的动作的处理。

12.根据权利要求11所述的学习装置，其特征在于，在所述(I)处理中：

所述处理器使深度Q网络(i)将至少一个全连接(Fully-Connected)运算应用于与所述第1_1边界框对应的所述第1_1分类置信度、所述第1_1回归不确定性和所述第1_1池化特征图至与所述第1_k₁边界框对应的所述第1_k₁分类置信度、所述第1_k₁回归不确定性和所述第1_k₁池化特征图中的每一个，生成或支持生成对应于所述第1_1边界框的第1中间接受分数(intermediate acceptance score)和第1中间拒绝分数(intermediate rejectionscore)至对应于所述第1_k₁边界框的第k₁中间接受分数和第k₁中间拒绝分数，(ii)通过对所述第1中间接受分数至所述k₁中间接受分数进行平均运算来生成所述接受分数，并且通过对所述第1中间拒绝分数至所述k₁中间拒绝分数进行平均运算来生成所述拒绝分数，生成或支持生成包括所述接受分数和所述拒绝分数的所述Q值。

13.根据权利要求12所述的学习装置，其特征在于：

所述处理器使所述深度Q网络将至少一个1x 1卷积运算和一个m x m卷积运算应用于所述第1_1池化特征图至所述第1_k₁池化特征图以生成第1特征值(feature value)至第k₁特征值，将至少一个所述全连接运算应用于所述第1_1分类置信度至所述第1_k₁分类置信度、所述第1_1回归不确定性至所述第1_k₁回归不确定性和所述第1特征值至所述第k₁特征值，生成或支持生成所述第1中间接受分数至所述k₁中间接受分数和所述第1中间拒绝分数至所述k₁中间拒绝分数。

14.根据权利要求11所述的学习装置，其特征在于：

重复执行所述(I)处理、所述(II)处理和所述(III)处理以生成多个所述转换向量，

在每次迭代的所述(III)步骤中，

所述处理器通过与所述存储器的所述转换向量的累积量成比例地随机选择待用作所述学习用转换向量的a*n个或2^n个所述特定转换向量来生成至少一个所述小批量，使用各所述小批量训练或支持训练所述深度Q网络，其中所述a和n为1以上的整数，对于每预设的迭代次数，n增加1。

15.根据权利要求11所述的学习装置，其特征在于：

所述存储器包括重放存储器(replay memory)，

在每次迭代的所述(III)步骤中，

所述处理器(i)将所述转换向量传输到所述重放存储器，以使所述重放存储器根据循环缓冲器(cyclic buffer)的预设容量用所述转换向量覆写(overwrite)最旧的先前转换向量以进行存储或支持存储，(ii)通过从所述重放存储器中随机采样待用作所述学习用转换向量的所述特定转换向量，生成或支持生成所述小批量。

16.根据权利要求11所述的学习装置，其特征在于，在所述(I)处理中：

所述处理器将所述第1未标记图像输入到所述检测网络，使所述检测网络(i)通过至少一个卷积层对所述第1未标记图像进行至少一次卷积运算，生成或支持生成与所述第1未标记图像对应的第1特征图(feature map)，(ii)通过区域候选网络RPN(Region ProposalNetwork)参考所述第1特征图，针对所述第1未标记图像上多个预测具有所述第1对象至所述第k₁对象的候选区域生成或支持生成多个感兴趣区域ROI(region of interest)，(iii)通过池化层对与所述第1特征图上的多个所述ROI对应的每个所述候选区域进行ROI池化，以生成或支持生成与每个所述ROI对应的每个池化特征图，(iv)通过至少一个全连接(Fully-Connected)层对多个所述池化特征图进行全连接运算，生成或支持生成多个与每个所述ROI对应的回归信息(regression information)和分类信息(classificationinformation)，(v)参考多个与每个所述ROI对应的所述回归信息和所述分类信息，生成或支持生成与位于所述第1未标记图像上的所述第1对象至所述第k₁对象中各对象对应的所述第1_1边界框至所述第1_k₁边界框与所述第1_1分类信息至所述第1_k₁分类信息。

17.一种使用深度Q网络(deep Q-network)对基于深度学习的检测网络(detectionnetwork)进行自监督学习(self-supervised learning)的自学习装置，其特征在于，包括：

至少一个存储指令的存储器；和

至少一个用于执行所述指令的处理器，

所述处理器执行如下处理：学习装置(I)在已使用存储在学习数据库中的学习数据训练用于检测对象的检测网络的状态下，(i)在从未标记数据库(unlabeled database)中获得至少一个第1未标记图像(unlabeled image)时，(i-1)将所述第1未标记图像输入到所述检测网络，使所述检测网络对所述第1未标记图像进行目标检测以生成或支持生成第1目标检测信息，(i-2)参考所述第1目标检测信息生成或支持生成第1状态集(state set)，所述第1状态集包括对应于针对包括在所述第1未标记图像中的第1对象的第1_1边界框的第1_1分类置信度(classification confidence)、第1_1回归不确定性(regressionuncertainty)和第1_1池化特征图(pooled feature map)至对应于针对包括在所述第1未标记图像中的第k₁对象的第1_k₁边界框的第1_k₁分类置信度、第1_k₁回归不确定性和第1_k₁池化特征图，其中所述k₁为1以上的整数，(i-3)将所述第1状态集输入到深度Q网络，使所述深度Q网络对所述第1状态集进行学习运算以生成或支持生成Q值，所述Q值包括对应于所述第1未标记图像的接受分数(acceptance score)和拒绝分数(rejection score)，(i-4)将argMax函数应用于所述Q值以生成或支持生成动作(action)；(ii)(ii-1)参考所述动作，(1)当所述动作对应于所述第1未标记图像的接受(acceptance)时，把将所述第1目标检测信息作为标签添加到所述第1未标记图像而获得的标记图像(labeled image)作为学习数据添加到所述学习数据库中，从所述未标记数据库中删除所述第1未标记图像，使用包括在所述学习数据库中的至少一个所述学习数据重新训练所述检测网络，生成或支持生成通过使用验证数据库测试重新训练的所述检测网络而获得的重新训练的所述检测网络的第1准确度作为奖励(reward)，(2)当所述动作对应于所述第1未标记图像的拒绝(rejection)时，从所述未标记数据库中删除所述第1未标记图像，生成或支持生成通过使用所述验证数据库测试所述检测网络而获得的所述检测网络的第2准确度作为所述奖励，(ii-2)当从所述未标记数据库中获得至少一个第2未标记图像时，(1)将所述第2未标记图像输入到所述检测网络，使所述检测网络对所述第2未标记图像进行目标检测以生成或支持生成第2目标检测信息，(2)参考所述第2目标检测信息生成或支持生成第2状态集(state set)，所述第2状态集包括对应于针对包括在所述第2未标记图像中的第1对象的第2_1边界框的第2_1分类置信度、第2_1回归不确定性和第2_1池化特征图至对应于针对包括在所述第2未标记图像中的第k₂对象的第2_k₂边界框的第2_k₂分类置信度、第2_k₂回归不确定性和第2_k₂池化特征图，其中所述k₂为1以上的整数，(3)将所述第1状态集、所述动作、所述奖励和所述第2状态集作为转换向量(transition vector)存储或支持存储在存储器；以及(iii)在从所述存储器中采样待用作至少一个学习用转换向量的至少一个特定转换向量来生成或支持生成小批量(minibatch)，使用所述小批量训练或支持训练所述深度Q网络，以使所述深度Q网络根据所述第1状态集和所述第2状态集输出用于增加所述奖励的动作的状态下，在获得从新的未标记数据库中选择的至少一个新的未标记图像时，(i)将所述新的未标记图像输入到所述检测网络，使所述检测网络通过对所述新的未标记图像进行目标检测来生成或支持生成新的目标检测信息，(ii)参考所述新的目标检测信息生成或支持生成新的状态集，所述新的状态集包括对应于针对包括在所述新的未标记图像中的第1对象的第1新的边界框的第1新的分类置信度、第1新的回归不确定性和第1新的池化特征图至对应于针对包括在所述新的未标记图像中的第k₃对象的第k₃新的边界框的第k₃新的分类置信度、第k₃新的回归不确定性和第k₃新的池化特征图，其中所述k₃为1以上的整数，(iii)将所述新的状态集输入到深度Q网络中，使所述深度Q网络对所述新的状态集进行学习运算以生成或支持生成新的Q值，所述新的Q值包括对应于所述新的未标记图像的新的接受分数和新拒绝分数，(iv)将argMax函数应用于所述新的Q值以生成或支持生成新的动作的处理；以及(II)参考所述新的动作，(i)当所述新的动作对应于所述新的未标记图像的接受(acceptance)时，把将所述新的目标检测信息作为标签添加到所述新的未标记图像而获得的新的标记图像作为所述学习数据添加到所述学习数据库中，从所述新的未标记数据库中删除所述新的未标记图像，使用包括在所述新的学习数据库中的至少一个所述学习数据重新训练或支持重新训练所述检测网络，(ii)当所述新的动作对应于所述新的未标记图像的拒绝(rejection)时，从所述新的未标记数据库中删除所述新的未标记图像。

18.根据权利要求17所述的自学习装置，其特征在于，在所述(I)处理中：

所述处理器使所述深度Q网络(i)将至少一个全连接(Fully-Connected)运算应用于与所述第1新的边界框对应的所述第1新的分类置信度、所述第1新的回归不确定性和所述第1新的池化特征图至与所述第1新的边界框对应的所述第k₃新的分类置信度、所述第k₃新的回归不确定性和所述第k₃新的池化特征图，生成或支持生成对应于所述第1新的边界框的第1新的中间接受分数(intermediate acceptance score)和第1新的中间拒绝分数(intermediate rejection score)至对应于所述第k₃新的边界框的第k₃新的中间接受分数和第k₃新的中间拒绝分数，(ii)通过对所述第1新的中间接受分数至所述第k₃新的中间接受分数进行平均运算来生成所述新的接受分数，并且通过对所述第1新的中间拒绝分数至所述第k₃新的中间拒绝分数进行平均运算来生成所述新的拒绝分数，生成或支持生成包括所述新的接受分数和所述新的拒绝分数的所述新的Q值。

19.根据权利要求18所述的自学习装置，其特征在于：

所述处理器使所述深度Q网络将至少一个1x 1卷积运算和一个m x m卷积运算应用于所述第1新的池化特征图至所述第k₃新的池化特征图以生成第1新的特征值(featurevalue)至第k₃新的特征值，将至少一个所述全连接运算应用于所述第1新的分类置信度至所述第k₃新的分类置信度、所述第1新的回归不确定性至所述第k₃新的回归不确定性和所述第1新的特征值至所述第k₃新的特征值，生成或支持生成所述第1新的中间接受分数至所述第k₃新的中间接受分数和所述第1新的中间拒绝分数至所述第k₃新的中间拒绝分数。

20.根据权利要求17所述的自学习装置，其特征在于，在所述(I)处理中：

所述处理器将所述新的未标记图像输入到所述检测网络，使所述检测网络(i)通过至少一个卷积层对所述新的未标记图像进行至少一次卷积运算，生成或支持生成与所述新的未标记图像对应的新的特征图，(ii)通过区域候选网络RPN(Region Proposal Network)参考所述新的特征图，针对所述新的未标记图像上多个预测具有所述第1对象至所述第k₃对象的候选区域生成或支持生成多个新的感兴趣区域ROI(region of interest)，(iii)通过池化层对与所述新的特征图上的多个所述新的ROI对应的每个所述候选区域进行ROI池化，以生成或支持生成多个与每个所述新的ROI对应的新的池化特征图，(iv)通过至少一个全连接(Fully-Connected)层对所述新的池化特征图进行全连接运算，生成或支持生成多个与每个所述新的所述ROI对应的新的回归信息(regression information)和新的分类信息(classification information)，(v)参考与每个所述新的ROI对应的多个所述新的回归信息和多个所述新的分类信息，生成或支持生成与位于所述新的未标记图像上的所述第1对象至所述第k₃对象中各对象对应的所述第1新的边界框至所述第k₃新的边界框与第1新的分类信息至第k₃新的分类信息。