CN113837220A

CN113837220A - 基于在线持续学习的机器人目标识别方法、系统及设备

Info

Publication number: CN113837220A
Application number: CN202110949246.3A
Authority: CN
Inventors: 聂祥丽; 邓致光; 乔红
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2021-08-18
Filing date: 2021-08-18
Publication date: 2021-12-24

Abstract

本发明提供一种基于在线持续学习的机器人目标识别方法、系统及设备，方法通过获取预设数量的未标注的图像样本数据；基于历史深度神经网络模型，计算图像样本数据的伪损失值；根据伪损失值得到查询概率，基于查询概率在图像样本数据中选择信息量大且保持多样性的样本数据进行标注，得到人工标注样本；计算人工标注样本中各类样本在深度特征空间的均值和协方差；在回放缓冲集中选择该轮迭代未出现的类别样本，根据协方差在类别样本中进行采样，得到采样样本；以回放缓冲集中的历史样本、人工标注样本和采样样本作为更新训练集，对历史深度神经网络模型进行训练，得到更新深度神经网络模型，有效提高了机器人在线获取数据并进行持续目标识别的效率。

Description

基于在线持续学习的机器人目标识别方法、系统及设备

技术领域

本发明涉及机器学习与机器人智能感知技术领域，尤其涉及一种基于在线持续学习的机器人目标识别方法、系统及设备。

背景技术

随着机器智能技术的不断发展和进步，机器人的应用越来越广泛。在实际应用中，机器人所处的环境是开放且动态变化的，机器人视觉感知系统会随着时间变化不断获取新的数据，这些新数据中可能包含一些新目标，这要求系统具备终身目标识别的能力，即能在线持续学习新目标且不遗忘已学目标以适应动态变化环境。

目前，机器人目标识别技术大多是离线学习方法，其假定环境是静态的，且其模型不能随数据流动态实时更新，面对不断输入的新数据，模型需要使用所有数据重新离线训练，计算成本巨大。而持续学习技术能从数据流中不断学习新知识、增量更新模型且在只保留小部分历史数据时不会遗忘已学知识。持续学习能有效降低对计算资源的消耗，吸引了越来越多的研究者的关注并提出了多种方法，主要包括基于样本重放的方法、基于正则化的方法和基于参数隔离的方法。

但是，在线持续学习方法都是有监督被动学习模型，即要求学习过程中所有样本的标签已知，然而人工标注大量样本代价高昂，导致机器人在线获取数据并进行持续目标识别的效率相对较低。

发明内容

本发明提供一种基于在线持续学习的机器人目标识别方法、系统及设备，用以解决现有技术中机器人在线获取数据并进行持续目标识别的效率相对较低的缺陷，实现高效地完成在线获取数据并进行持续目标识别的功能。

本发明提供一种基于在线持续学习的机器人目标识别方法，包括：

获取预设数量的未标注的图像样本数据；

基于历史深度神经网络模型，计算所述未标注的图像样本数据的伪损失值；

根据所述伪损失值得到查询概率，基于所述查询概率在所述未标注的图像样本数据中选择信息量大且保持多样性的样本数据进行标注，得到人工标注样本；

计算所述人工标注样本中各类样本在深度特征空间的均值，根据所述均值计算所述人工标注样本中各类样本的协方差；

在回放缓冲集中选择该轮迭代未出现的类别样本，根据所述协方差在所述类别样本中进行采样，得到采样样本；

以所述回放缓冲集中的历史样本、所述人工标注样本和所述采样样本作为更新训练集，对所述历史深度神经网络模型进行训练，得到更新深度神经网络模型。

根据本发明提供的一种基于在线持续学习的机器人目标识别方法，所述基于历史深度神经网络模型，计算所述未标注的图像样本数据的伪损失值，包括：

基于历史深度神经网络模型，预测所述未标注的图像样本数据中每一张图像样本的类别标签和次大得分对应的标签；

根据所述类别标签和所述次大得分对应的标签，通过预设关系计算所述未标注的图像样本数据的伪损失值。

根据本发明提供的一种基于在线持续学习的机器人目标识别方法，所述根据所述伪损失值得到查询概率，包括：

基于预设方式，在所述未标注的图像样本数据中选择目标数量的查询样本数据；

根据所述伪损失值，计算所述查询样本数据的查询概率。

根据本发明提供的一种基于在线持续学习的机器人目标识别方法，所述基于所述查询概率在所述未标注的图像样本数据中选择信息量大且保持多样性的样本数据进行标注，得到人工标注样本，包括：

根据所述查询概率，生成服从伯努利分布的随机变量；

对所述随机变量的数值为1的查询样本数据进行标注，得到人工标注样本。

根据本发明提供的一种基于在线持续学习的机器人目标识别方法，所述在回放缓冲集中选择该轮迭代未出现的类别样本，根据所述协方差在所述类别样本中进行采样，得到采样样本，包括：

在回放缓冲集中选择该轮迭代未出现的类别样本；

以所述类别样本为特征提取函数的中心，根据所述特征提取函数的中心和所述协方差构建多元高斯分布；

通过重参数化方式从所述多元高斯分布中采样，得到采样样本。

根据本发明提供的一种基于在线持续学习的机器人目标识别方法，所述以所述回放缓冲集中的历史样本、所述人工标注样本和所述采样样本作为更新训练集，对所述历史深度神经网络模型进行训练，得到更新深度神经网络模型，包括:

将所述回放缓冲集中的历史样本、所述人工标注样本和所述采样样本进行合并，组成更新训练集；

当所述人工标注样本中包含新类别数据时，则对所述历史深度神经网络模型的最后一层增加与所述新数据中的新类别相同数量的神经元，得到待更新深度神经网络模型；

基于最小化损失函数，通过所述更新训练集对所述待更新深度神经网络模型进行训练，得到更新深度神经网络模型。

根据本发明提供的一种基于在线持续学习的机器人目标识别方法，所述得到更新深度神经网络模型之后，还包括：

通过所述人工标注样本更新所述回放缓冲集中的历史样本。

根据本发明提供的一种基于在线持续学习的机器人目标识别方法，所述通过所述人工标注样本更新所述回放缓冲集中的历史样本，包括：

将所述人工标注样本与所述回放缓冲集中的历史样本进行合并，得到候选集；

初始化所述回放缓冲集，并计算所述回放缓冲集的样本容量；

在所述候选集中选取为所述样本容量预设倍数的更新样本；

计算每一类所述更新样本的损失值；

基于预设规则，根据所述损失值在所述更新样本中选取与所述样本容量相同的更新样本存储于回放缓冲集中，以更新所述回放缓冲集。

本发明还提供一种基于在线持续学习的机器人目标识别系统，包括：

数据获取模块，用于获取预设数量的未标注的图像样本数据；

标签预测模块，用于基于历史深度神经网络模型，计算所述未标注的图像样本数据的伪损失值；

人工标注模块，用于根据所述伪损失值得到查询概率，基于所述查询概率在所述未标注的图像样本数据中选择信息量大且保持多样性的样本数据进行标注，得到人工标注样本；

特征采样模块，用于计算所述人工标注样本中各类样本在深度特征空间的均值，根据所述均值计算所述人工标注样本中各类样本的协方差；在回放缓冲集中选择该轮迭代未出现的类别样本，根据所述协方差在所述类别样本中进行采样，得到采样样本；

模型更新模块，用于以所述回放缓冲集中的历史样本、所述人工标注样本和所述采样样本作为更新训练集，对所述历史深度神经网络模型进行训练，得到更新深度神经网络模型。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述基于在线持续学习的机器人目标识别方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述基于在线持续学习的机器人目标识别方法的步骤。

本发明提供的基于在线持续学习的机器人目标识别方法、系统及设备，方法通过获取预设数量的未标注的图像样本数据；基于历史深度神经网络模型，计算未标注的图像样本数据的伪损失值；根据伪损失值得到查询概率，基于查询概率在未标注的图像样本数据中选择信息量大且保持多样性的样本数据进行标注，得到人工标注样本；计算人工标注样本中各类样本在深度特征空间的均值，根据均值计算人工标注样本中各类样本的协方差；在回放缓冲集中选择该轮迭代未出现的类别样本，根据协方差在类别样本中进行采样，得到采样样本；以回放缓冲集中的历史样本、人工标注样本和采样样本作为更新训练集，对历史深度神经网络模型进行训练，得到更新深度神经网络模型，通过选取兼顾多样性和丰富性的样本进行人工标注，解决了人工标注大量样本代价高昂的问题，且由于通过对任务边界未知的实时数据流进行持续学习，实时的对深度网络模型进行更新，能减小新旧类样本间的数据不平衡，有效克服对已学目标的遗忘，最终实现少量样本标注下的高精度终身目标识别，有效地提高了机器人在线获取数据并进行持续目标识别的效率。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的基于在线持续学习的机器人目标识别方法的流程示意图之一；

图2是本发明实施例提供的基于在线持续学习的机器人目标识别方法的流程示意图之二；

图3是本发明实施例提供的基于在线持续学习的机器人目标识别系统的结构示意图；

图4是本发明实施例提供的电子设备的结构示意图；

图5是本发明实施例提供的基于在线持续学习的机器人目标识别方法的原理示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1-图5描述本发明的基于在线持续学习的机器人目标识别方法、系统及设备。

图1是本发明实施例提供的基于在线持续学习的机器人目标识别方法的流程示意图之一。

如图1所示，本发明实施例提供的一种基于在线持续学习的机器人目标识别方法，包括以下步骤：

101、获取预设数量的未标注的图像样本数据。

具体的，机器人视觉系统在t时刻获取一批未标注的图像样本数据记为：

其中，n_t表示该批数据的总样本数据量。图像样本数据包括从机器人的视觉传感系统收集的可见光图像、红外光图像或基于深度传感器获取的景深图像等。

102、基于历史深度神经网络模型，计算未标注的图像样本数据的伪损失值。

具体的，历史深度神经网络模型f^t-1包括VGG、EfficientNet、ResNet、ResNext、MobileNet中的任何一种。而基于历史深度神经网络模型f^t-1，计算未标注的图像样本数据的伪损失值q_i，包括：基于历史深度神经网络模型，预测未标注的图像样本数据中每一张图像样本的类别标签

和次大得分对应的标签

具体的计算公式如(1)和(2)；

类别标签：

次大得分对应的标签：

然后根据类别标签

和次大得分对应的标签

通过预设关系计算未标注的图像样本数据的伪损失值，如(3)：

伪损失值：

其中，x_i表示当前批数据中的第i个数据i＝1,…,n_t；Y表示类别标签的集合；k是一个变量，取值范围是从1到Y的整数；f_k(x_i)表示当前t时刻样本x_i经过深度网络模型的softmax层后的预测向量的第k个元素的值；

表示预测向量的第

个元素的值，

表示预测向量的第

个元素的值；argmax表示取最大函数值所对应的变量值。

103、根据伪损失值得到查询概率，基于查询概率在未标注的图像样本数据中选择信息量大且保持多样性的样本数据进行标注，得到人工标注样本。

具体的，根据伪损失值q_i得到查询概率，包括：基于预设方式，在未标注的图像样本数据中选择目标数量的查询样本数据，为保证数据的多样性，先从未标注的图像样本数据中按均匀分布随机选择一部分样本，样本选取比例为r；然后通过式(4)，根据伪损失值，计算查询样本数据的查询概率p_i。

其中，δ为非负实数，

为指数函数，q_i为伪损失值，γ为控制指数函数斜率的参数。

然后，基于查询概率在未标注的图像样本数据中选择信息量大且保持多样性的样本数据进行标注，得到人工标注样本，其中人工样本数据为兼顾信息量和多样性的样本数据，具体包括：根据查询概率p_i，生成服从伯努利分布的随机变量Z_i；对随机变量Z_i的数值为1的查询样本数据进行标注，得到人工标注样本，若不是1，则不进行标注。

104、计算人工标注样本中各类样本在深度特征空间的均值，根据均值计算人工标注样本中各类样本的协方差。

具体的，首先计算当前时刻的人工标注样本中属于各个类别的样本的均值

和协方差

计算过程如(5)：

其中，

和

分别表示在未标注的图像样本数据中第c类的样本的均值和协方差，N_c为第c类的样本数，g_θ(·)是神经网络的特征提取函数，θ为特征提取部分的网络参数，上标T表示转置。

然后，使用在人工标注样本上计算的均值

和协方差

更新各类的均值

和协方差矩阵

如果该类别是新类别，则

如果该类别为已见过的旧类别，则

和

更新如(6)和(7)：

其中，N_c为t时刻的未标注的图像样本数据中属于第c类的样本数，M_c为截止到t-1时刻累积的属于第c类的总样本数，下一时刻M_c＝M_c+N_c。

105、在回放缓冲集中选择该轮迭代未出现的类别样本，根据协方差在类别样本中进行采样，得到采样样本。

具体为，为保证采样的语义特征的意义，在回放缓冲集中选择该轮迭代未出现的类别样本x_i；以类别样本为特征提取函数g_θ(x_i)的中心，根据特征提取函数的中心和协方差

构建多元高斯分布

λ为正常数控制协方差尺度，再通过重参数化方式从多元高斯分布中采样，得到n₀个采样样本z_i。而为保证采样的数据可以更新特征层参数，采用重参数化方法采样，先从标准高斯分布N(0,I)中随机采样本ξ，再通过如下公式(8)得到采样样本z_i。

z_i＝g_θ(x_i)+ξλ∑_i (8)

106、以回放缓冲集中的历史样本、人工标注样本和采样样本作为更新训练集，对历史深度神经网络模型进行训练，得到更新深度神经网络模型。

具体为，将回放缓冲集B_t中的历史样本、人工标注样本和采样样本进行合并，组成更新训练集T_t；判断当前批次数据中是否包含新类数据，当人工标注样本中包含新类别数据，且新数据中包含d个新类别时，则对历史深度神经网络模型f^t-1的最后一层增加与新数据中的新类别相同数量的d个神经元，得到待更新深度神经网络模型；若不包含新类别数据，则保持深度神经网络模型的结构不变。

在对历史深度神经网络模型f^t-1进行更新，得到深度神经网络模型f^t之后，基于最小化损失函数L，通过更新训练集T_t对待更新深度神经网络模型进行训练，得到更新深度神经网络模型f^t，更新其结构和参数。其中，最小化损失函数L由两部分组成，第一部分为交叉熵损失函数L_ce，第二部分为基于分类间隔的铰链损失函数L_hin。

第一部分是交叉熵损失函数L_ce，定义为(9)：

其中，C_t是截止到当前时刻的样本总类数；

是示性函数，若y＝y_i，则

等于1，否则等于0；同样地，若y≠y_i，则

等于1，否则等于0；f_y(x_i)是样本x_i经过深度神经网络模型f的softmax后输出的概率预测向量的第y个元素的值，h_y(z_i)是在特征空间采样的样本经过分类层和softmax后输出的概率预测向量的第y个元素的值，定义为

第二部分是基于分类间隔的铰链损失函数，定义为(10)：

其中，y′＝argmax_k≠yf_k(x_i)是最大无关类别，即f(x_i)中除了第y个元素的值外最大的值对应的类别；f_y(x_i)-f_y′(x_i)表示样本x_i在真实类y和最大无关类y′对应的预测值的分类间隔；h_y(z_i)-h_y′(z_i)表示特征样本z_i在真实类y和最大无关类y′对应的预测值的分类间隔；该损失函数有助于减轻相似类之间的混淆。

而具体的损失函数的计算公式则为(11)：

L＝L_ce+βL_hin (11)

本发明实施例提供的基于在线持续学习的机器人目标识别方法，通过获取预设数量的未标注的图像样本数据；基于历史深度神经网络模型，计算未标注的图像样本数据的伪损失值；根据伪损失值得到查询概率，基于查询概率在未标注的图像样本数据中选择信息量大且保持多样性的样本数据进行标注，得到人工标注样本；计算人工标注样本中各类样本在深度特征空间的均值，根据均值计算人工标注样本中各类样本的协方差；在回放缓冲集中选择该轮迭代未出现的类别样本，根据协方差在类别样本中进行采样，得到采样样本；以回放缓冲集中的历史样本、人工标注样本和采样样本作为更新训练集，对历史深度神经网络模型进行训练，得到更新深度神经网络模型，通过选取兼顾多样性和丰富性的样本进行人工标注，解决了人工标注大量样本代价高昂的问题，且由于通过对任务边界未知的实时数据流进行持续学习，实时的对深度网络模型进行更新，能减小新旧类样本间的数据不平衡，有效克服对已学目标的遗忘，最终实现少量样本标注下的高精度终身目标识别，有效地提高了机器人在线获取数据并进行持续目标识别的效率。

图2是本发明实施例提供的基于在线持续学习的机器人目标识别方法的流程示意图之二。

如图2所示，本实施例提供的一种基于在线持续学习的机器人目标识别方法，包括以下步骤：

201、获取预设数量的未标注的图像样本数据。

202、基于历史深度神经网络模型，计算未标注的图像样本数据的伪损失值。

203、根据伪损失值得到查询概率，基于查询概率在未标注的图像样本数据中选择信息量大且保持多样性的样本数据进行标注，得到人工标注样本。

204、计算人工标注样本中各类样本在深度特征空间的均值，根据均值计算人工标注样本中各类样本的协方差。

205、在回放缓冲集中选择该轮迭代未出现的类别样本，根据协方差在类别样本中进行采样，得到采样样本。

206、以回放缓冲集中的历史样本、人工标注样本和采样样本作为更新训练集，对历史深度神经网络模型进行训练，得到更新深度神经网络模型。

其中，关于步骤201-206在上述实施例中的101-106中已经做了详细的说明，因此，在本实施例中不再进行具体阐述。

207、通过人工标注样本更新回放缓冲集中的历史样本。

具体为，将人工标注样本与回放缓冲集B_t中的历史样本进行合并，得到候选集S_t；初始化回放缓冲集B_t，并计算回放缓冲集B_t的样本容量；假设回放缓冲集B_t的最大容量为M，截止到当前时刻的样本总类数为C_t，基于平均的思想可计算每类保存到缓冲集B_t中的样本数为

其中

表示对数据向下取整。在候选集中选取为样本容量预设倍数的更新样本，例如对于候选集S_t中的每一类样本，为保证多样性，先基于均匀分布随机选择2m个样本，计算每一类更新样本的损失值：L_i＝L_ce(x_i,y_i)+βL_hin(x_i,y_i)，基于预设规则，根据损失值在更新样本中选取与样本容量相同的更新样本存储于回放缓冲集中，以更新回放缓冲集。具体的，可以是根据损失函数值从大到小排序，选取前v*m个损失函数值最大的样本存入缓冲集B_t中，其中0≤v≤1；从其余的样本中再基于均匀分布随机选(1-v)*m个样本存入回放缓冲集中，完成对B_t的更新。

进一步的，本发明还包括了在学习过程中通过各个阶段训练集上学得的模型在测试集上计算各类的分类精度，最后用四个度量指标：准确率、前向迁移值、后向迁移值和整体准确率评估算法的有效性。具体来讲，学习过程中的训练-测试精度矩阵如表1所示：

表1

其中，A_i,j表示在第i个任务的训练集上完成训练后在第j个任务的测试集上的精度，N表示学习的总任务数。上述四个度量指标的计算方式如下：

其中，准确率计算为在线学习过程中学得的模型在所有学过类别上的准确率的均值，后向迁移值为模型在不包括当前学习类别的所有学过类别上的准确率的均值，前向迁移值为模型在所有未学过类别上的准确率的均值，整体准确率为模型在所有类别上的准确率的均值。

例如，使用机器人拍摄的真实视觉图像做测试实验，是由D435i传感器获取的可见光RGB-D图像集OpenLORIS-IROS2019。选用该数据集中的不同水平的光照数据集和遮挡数据集，其中光照数据集包括高光、正常光和低光条件下获取的目标图像，遮挡数据集包括对目标无遮挡、25％遮挡和50％遮挡下获取的目标图像，选取其中的36类目标。为评估提出的方法在动态变化环境下的类增量学习能力，将数据集划分为9个任务，任务1-3、4-6、7-9分别对应了高光、正常光和低光或无遮挡、25％遮挡和50％遮挡条件下的目标图像，任务1、4、7属于第1-12类，任务2、5、8属于第13-24类，任务3、6、9属于第25-36类。训练集和测试集样本大约分别为22000和2600。实验中使用的软件：PyTorch 1.7.0，处理器：E5-2698 v4，内存：30.0GB，操作系统：64位Ubuntu 16.04。

实验内容及结果分析：

为评估本发明提出的方法的效果，进行实验对比的方法包括：微调(fine-tuning)方法、iCaRL算法。实验时所有方法使用相同的骨干模型EfficientNet-B0，回放缓冲集容量为1500，每批数据训练5轮，初始化学习率为0.01。对于本方法，参数设置如下：在样本查询比例小于50％时，r等于50％，否则r设置为预期查询比例+10％；数据查询概率的参数γ＝0.01；协方差尺度参数λ＝t/T,t表示当前epoch数，T表示总的epoch数；回放缓冲集中的样本保存数量M＝1500；比例参数v＝0.25。

表1：不同样本查询率下的终身目标识别性能对比结果

表1给出了fine-tuning、iCaRL和本方法在四个指标下的准确率对比结果：本发明提出的方法的终身目标识别结果在大部分指标上要明显好于fine-tuning和iCaRL的结果。另外，根据表1可知，本方法只查询25％的样本标签时学习的模型的结果与查询100％的样本标签的结果相近，本方法在样本查询率为25％时的学习结果对应的准确率、后向迁移和整体准确率都超过了iCaRL查询100％样本标签的学习结果，且两者的前向迁移指标差别不大。从表1可以得出结论，本发明提出的方法可以使用少量标注样本在线持续更新模型以达到较高精度的终身目标识别性能。

本发明可选择少量兼顾多样性和信息丰富性的样本进行人工标注，解决现有技术需标注大量样本代价高昂的问题。可以针对机器人视觉系统实时获取的无标签目标图像，通过深度神经网络预测图像的标签并计算伪损失值，进一步根据伪损失值生成伯努利分布的概率，并基于该概率选择样本进行人工标注，克服了现有技术需标注大量样本做监督学习带来的代价高昂问题，实现了少量样本标注时的高精度目标识别。可以对任务边界未知的实时数据流进行持续学习并且能有效克服对已学目标的遗忘。可对任务边界模糊且未知的实时数据流进行持续学习，解决了现有技术需要明确的任务边界的问题；另外，通过将代表性数据存入缓冲集和对已学目标的特征的统计建模和采样能减小新旧类样本间的数据不平衡，有效克服对已学目标的遗忘。

基于同一总的发明构思，本申请还保护一种基于在线持续学习的机器人目标识别系统。下面对本发明提供的基于在线持续学习的机器人目标识别系统进行描述，下文描述的基于在线持续学习的机器人目标识别系统与上文描述的基于在线持续学习的机器人目标识别方法可相互对应参照。

图3是本发明实施例提供的基于在线持续学习的机器人目标识别系统的结构示意图。

如图3所示，本实施例提供的一种基于在线持续学习的机器人目标识别系统，包括：

数据获取模块31，用于获取预设数量的未标注的图像样本数据；

标签预测模块32，用于基于历史深度神经网络模型，计算未标注的图像样本数据的伪损失值；

人工标注模块33，用于根据伪损失值得到查询概率，基于查询概率在未标注的图像样本数据中选择信息量大且保持多样性的样本数据进行标注，得到人工标注样本；

特征采样模块34，用于计算人工标注样本中各类样本在深度特征空间的均值，根据均值计算人工标注样本中各类样本的协方差；在回放缓冲集中选择该轮迭代未出现的类别样本，根据协方差在类别样本中进行采样，得到采样样本；

模型更新模块35，用于以回放缓冲集中的历史样本、人工标注样本和采样样本作为更新训练集，对历史深度神经网络模型进行训练，得到更新深度神经网络模型。

本发明实施例提供的基于在线持续学习的机器人目标识别系统，通过获取预设数量的未标注的图像样本数据；基于历史深度神经网络模型，计算未标注的图像样本数据的伪损失值；根据伪损失值得到查询概率，基于查询概率在未标注的图像样本数据中选择信息量大且保持多样性的样本数据进行标注，得到人工标注样本；计算人工标注样本中各类样本在深度特征空间的均值，根据均值计算人工标注样本中各类样本的协方差；在回放缓冲集中选择该轮迭代未出现的类别样本，根据协方差在类别样本中进行采样，得到采样样本；以回放缓冲集中的历史样本、人工标注样本和采样样本作为更新训练集，对历史深度神经网络模型进行训练，得到更新深度神经网络模型，通过选取兼顾多样性和丰富性的样本进行人工标注，解决了人工标注大量样本代价高昂的问题，且由于通过对任务边界未知的实时数据流进行持续学习，实时的对深度网络模型进行更新，能减小新旧类样本间的数据不平衡，有效克服对已学目标的遗忘，最终实现少量样本标注下的高精度终身目标识别，有效地提高了机器人在线获取数据并进行持续目标识别的效率。

进一步的，本实施例中的标签预测模块32，具体用于：

基于历史深度神经网络模型，预测未标注的图像样本数据中每一张图像样本的类别标签和次大得分对应的标签；

根据类别标签和次大得分对应的标签，通过预设关系计算未标注的图像样本数据的伪损失值。

进一步的，本实施例中的人工标注模块33，具体用于：

基于预设方式，在未标注的图像样本数据中选择目标数量的查询样本数据；

根据伪损失值，计算查询样本数据的查询概率。

进一步的，本实施例中的人工标注模块33，具体还用于：

根据查询概率，生成服从伯努利分布的随机变量；

对随机变量的数值为1的查询样本数据进行标注，得到人工标注样本。

进一步的，本实施例中的特征采样模块34，具体用于：

在回放缓冲集中选择该轮迭代未出现的类别样本；

以类别样本为特征提取函数的中心，根据特征提取函数的中心和协方差构建多元高斯分布；

通过重参数化方式从多元高斯分布中采样，得到采样样本。

进一步的，本实施例中的模型更新模块35，具体用于：

将回放缓冲集中的历史样本、人工标注样本和采样样本进行合并，组成更新训练集；

当人工标注样本中包含新类别数据时，则对历史深度神经网络模型的最后一层增加与新数据中的新类别相同数量的神经元，得到待更新深度神经网络模型；

基于最小化损失函数，通过更新训练集对待更新深度神经网络模型进行训练，得到更新深度神经网络模型。

进一步的，本实施例中还包括缓冲集更新模块，用于：

通过人工标注样本更新回放缓冲集中的历史样本。

进一步的，本实施例中还包括缓冲集更新模块，具体用于：

将人工标注样本与回放缓冲集中的历史样本进行合并，得到候选集；

初始化回放缓冲集，并计算回放缓冲集的样本容量；

在候选集中选取为样本容量预设倍数的更新样本；

计算每一类更新样本的损失值；

基于预设规则，根据损失值在更新样本中选取与样本容量相同的更新样本存储于回放缓冲集中，以更新回放缓冲集。

图4是本发明实施例提供的电子设备的结构示意图。

如图4所示，该电子设备可以包括：处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440，其中，处理器410，通信接口420，存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令，以执行基于在线持续学习的机器人目标识别方法，该方法包括：获取预设数量的未标注的图像样本数据；基于历史深度神经网络模型，计算未标注的图像样本数据的伪损失值；根据伪损失值得到查询概率，基于查询概率在未标注的图像样本数据中选择信息量大且保持多样性的样本数据进行标注，得到人工标注样本；计算人工标注样本中各类样本在深度特征空间的均值，根据均值计算人工标注样本中各类样本的协方差；在回放缓冲集中选择该轮迭代未出现的类别样本，根据协方差在类别样本中进行采样，得到采样样本；以回放缓冲集中的历史样本、人工标注样本和采样样本作为更新训练集，对历史深度神经网络模型进行训练，得到更新深度神经网络模型。

如图5所示，从获取未标注数据开始到最终的回放缓冲集的更新流程，按照图5所示的箭头指向完成，图5的原理图与图2的流程图相对应，更加清晰、直观地表明基于在线持续学习的机器人目标识别的详细过程。

此外，上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，计算机能够执行上述各方法所提供的基于在线持续学习的机器人目标识别方法，该方法包括：获取预设数量的未标注的图像样本数据；基于历史深度神经网络模型，计算未标注的图像样本数据的伪损失值；根据伪损失值得到查询概率，基于查询概率在未标注的图像样本数据中选择信息量大且保持多样性的样本数据进行标注，得到人工标注样本；计算人工标注样本中各类样本在深度特征空间的均值，根据均值计算人工标注样本中各类样本的协方差；在回放缓冲集中选择该轮迭代未出现的类别样本，根据协方差在类别样本中进行采样，得到采样样本；以回放缓冲集中的历史样本、人工标注样本和采样样本作为更新训练集，对历史深度神经网络模型进行训练，得到更新深度神经网络模型。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的基于在线持续学习的机器人目标识别方法，该方法包括：获取预设数量的未标注的图像样本数据；基于历史深度神经网络模型，计算未标注的图像样本数据的伪损失值；根据伪损失值得到查询概率，基于查询概率在未标注的图像样本数据中选择信息量大且保持多样性的样本数据进行标注，得到人工标注样本；计算人工标注样本中各类样本在深度特征空间的均值，根据均值计算人工标注样本中各类样本的协方差；在回放缓冲集中选择该轮迭代未出现的类别样本，根据协方差在类别样本中进行采样，得到采样样本；以回放缓冲集中的历史样本、人工标注样本和采样样本作为更新训练集，对历史深度神经网络模型进行训练，得到更新深度神经网络模型。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于在线持续学习的机器人目标识别方法，其特征在于，包括：

获取预设数量的未标注的图像样本数据；

2.根据权利要求1所述的基于在线持续学习的机器人目标识别方法，其特征在于，所述基于历史深度神经网络模型，计算所述未标注的图像样本数据的伪损失值，包括：

3.根据权利要求1所述的基于在线持续学习的机器人目标识别方法，其特征在于，所述根据所述伪损失值得到查询概率，包括：

根据所述伪损失值，计算所述查询样本数据的查询概率。

4.根据权利要求3所述的基于在线持续学习的机器人目标识别方法，其特征在于，所述基于所述查询概率在所述未标注的图像样本数据中选择信息量大且保持多样性的样本数据进行标注，得到人工标注样本，包括：

根据所述查询概率，生成服从伯努利分布的随机变量；

5.根据权利要求1所述的基于在线持续学习的机器人目标识别方法，其特征在于，所述在回放缓冲集中选择该轮迭代未出现的类别样本，根据所述协方差在所述类别样本中进行采样，得到采样样本，包括：

在回放缓冲集中选择该轮迭代未出现的类别样本；

6.根据权利要求1所述的基于在线持续学习的机器人目标识别方法，其特征在于，所述以所述回放缓冲集中的历史样本、所述人工标注样本和所述采样样本作为更新训练集，对所述历史深度神经网络模型进行训练，得到更新深度神经网络模型，包括:

7.根据权利要求1所述的基于在线持续学习的机器人目标识别方法，其特征在于，所述得到更新深度神经网络模型之后，还包括：

通过所述人工标注样本更新所述回放缓冲集中的历史样本。

8.根据权利要求7所述的基于在线持续学习的机器人目标识别方法，其特征在于，所述通过所述人工标注样本更新所述回放缓冲集中的历史样本，包括：

在所述候选集中选取为所述样本容量预设倍数的更新样本；

计算每一类所述更新样本的损失值；

9.一种基于在线持续学习的机器人目标识别系统，其特征在于，包括：

10.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至8任一项所述基于在线持续学习的机器人目标识别方法的步骤。