CN108875765A

CN108875765A - 扩充数据集的方法、装置、设备及计算机存储介质

Info

Publication number: CN108875765A
Application number: CN201711135279.4A
Authority: CN
Inventors: 张思朋
Original assignee: Beijing Megvii Technology Co Ltd; Beijing Maigewei Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd; Beijing Maigewei Technology Co Ltd
Priority date: 2017-11-14
Filing date: 2017-11-14
Publication date: 2018-11-23

Abstract

本发明实施例提供了一种扩充数据集的方法、装置、设备及计算机存储介质。该方法包括：基于当前数据集获取行人图像序列；根据所述行人图像序列预测位于所述行人图像序列的时间序列之后的至少一个行人图像；将所述预测的至少一个行人图像添加到所述当前数据集以生成新的数据集。由此可见，本发明实施例能够基于当前数据集生成包括更多数据的新的数据集，从而实现了对数据集的扩充。进一步地，该扩充的数据集可以用于重识别模型，以保证重识别模型的准确性。

Description

扩充数据集的方法、装置、设备及计算机存储介质

技术领域

本发明涉及图像处理领域，更具体地涉及一种扩充数据集的方法、装置、设备及计算机存储介质。

背景技术

行人、车辆等的重识别(re-identification，ReID)，是安防、行人追踪、车辆追踪等众多领域的基础。行人及车辆追踪的效果的一个决定因素是重识别模型的性能，而重识别模型的训练依赖于大量的训练数据，即数据集。若数据集中的数据不足可能会导致模型过拟合，从而无法适应更广泛的应用场景和人群。如果采用人工标注添加相应的数据至数据集，不仅消耗了大量的财力和人力，并且人工标注错误会影响重识别模型的准确性。

发明内容

考虑到上述问题而提出了本发明。本发明提供了一种扩充数据集的方法、装置、设备及计算机存储介质，能够基于当前数据集生成包括更多数据的新的数据集，从而实现了对数据集的扩充。

根据本发明的一方面，提供了一种扩充数据集的方法，所述方法包括：

基于当前数据集获取行人图像序列；

根据所述行人图像序列预测位于所述行人图像序列的时间序列之后的至少一个行人图像；

将所述预测的至少一个行人图像添加到所述当前数据集以生成新的数据集。

在本发明的一个实施例中，所述根据所述行人图像序列预测位于所述行人图像序列的时间序列之后的至少一个行人图像，包括：

将所述行人图像序列中的至少一帧图像输入至训练好的预测网络，得到位于所述行人图像序列的时间序列之后的所述至少一个行人图像。

在本发明的一个实施例中，所述预测网络通过以下方式进行训练：

获取当前层的目标特征，其中所述当前层的目标特征为所述行人图像序列中连续多帧图像的每一帧图像的下一帧图像的实际特征或者所述当前层的目标特征为前一层所确定的目标特征；

将所述行人图像序列中的连续多帧图像作为输入序列，预测所述连续多帧图像的每一帧图像的下一帧图像特征；

计算所述当前层的目标特征与所述预测的下一帧图像特征之间的误差；

根据所述误差确定下一层的目标特征。

在本发明的一个实施例中，所述计算所述当前层的目标特征与所述预测的下一帧图像特征之间的误差，包括：

计算所述误差为：

其中，A_l表示所述当前层的目标特征，表示所述预测的下一帧图像特征，b表示偏置，l表示所述当前层。

在本发明的一个实施例中，所述预测网络的总误差为所述各层的误差的加权和，其中第l层的权重表示为：

L为总层数。

在本发明的一个实施例中，所述基于当前数据集获取行人图像序列，包括：

提取所述当前数据集中的行人图像数据，所述行人图像数据包括由特定采集装置采集的特定人在特定时间段内的图像；

对所述行人图像数据进行预处理操作，得到所述行人图像序列。

在本发明的一个实施例中，所述预处理操作包括以下至少一项：添加随机噪声、翻转、归一化。

在本发明的一个实施例中，所述至少一个行人图像与所述行人图像序列中的图像具有相同的身份标签。

根据本发明的另一方面，提供了一种扩充数据集的装置，所述装置用于实现方面或各个实施例所述方法的步骤，所述装置包括：

获取模块，用于基于当前数据集获取行人图像序列；

预测模块，用于根据所述行人图像序列预测位于所述行人图像序列的时间序列之后的至少一个行人图像；

生成模块，用于将所述预测的至少一个行人图像添加到所述当前数据集以生成新的数据集。

根据本发明的又一方面，提供了一种扩充数据集的设备，包括存储器、处理器及存储在所述存储器上且在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现前述方面及各个示例所述的扩充数据集的方法的步骤。

根据本发明的再一方面，提供了一种计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现前述方面及各个示例所述的扩充数据集的方法的步骤。

由此可见，本发明实施例能够基于当前数据集生成包括更多数据的新的数据集，从而实现了对数据集的扩充。进一步地，该扩充的数据集可以用于重识别模型，以保证重识别模型的准确性。

附图说明

通过结合附图对本发明实施例进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与本发明实施例一起用于解释本发明，并不构成对本发明的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本发明实施例的电子设备的一个示意性框图；

图2是本发明实施例的扩充数据集的方法的一个示意性流程图；

图3是本发明实施例的用于训练预测网络的网络结构的一个示意图；

图4是本发明实施例的按时序展开的网络结构的一个示意图；

图5是本发明实施例的扩充数据集的装置的一个示意性框图。

具体实施方式

为了使得本发明的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。

本发明实施例可以应用于电子设备，图1所示为本发明实施例的电子设备的一个示意性框图。图1所示的电子设备10包括一个或更多个处理器102、一个或更多个存储装置104、输入装置106、输出装置108、图像传感器110以及一个或更多个非图像传感器114，这些组件通过总线系统112和/或其它形式互连。应当注意，图1所示的电子设备10的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

所述处理器102可以包括CPU 1021和GPU 1022或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，例如现场可编程门阵列(Field－Programmable GateArray，FPGA)或进阶精简指令集机器(Advanced RISC(Reduced Instruction SetComputer)Machine，ARM)等，并且处理器102可以控制所述电子设备10中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或更多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器1041和/或非易失性存储器1042。所述易失性存储器1041例如可以包括随机存取存储器(Random Access Memory，RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器1042例如可以包括只读存储器(Read-Only Memory，ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或更多个计算机程序指令，处理器102可以运行所述程序指令，以实现各种期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或更多个。

所述输出装置108可以向外部(例如用户)输出各种信息(例如图像或声音)，并且可以包括显示器、扬声器等中的一个或更多个。

所述图像传感器110可以拍摄用户期望的图像(例如照片、视频等)，并且将所拍摄的图像存储在所述存储装置104中以供其它组件使用。

当注意，图1所示的电子设备10的组件和结构只是示例性的，尽管图1示出的电子设备10包括多个不同的装置，但是根据需要，其中的一些装置可以不是必须的，其中的一些装置的数量可以更多等等，本发明对此不限定。

图2是本发明实施例的扩充数据集的方法的一个示意性流程图。图2所示的方法包括：

S101，基于当前数据集获取行人图像序列。

示例性地，可以提取所述当前数据集中的行人图像数据，所述行人图像数据包括由特定采集装置采集的特定人在特定时间段内的图像；对所述行人图像数据进行预处理操作，得到所述行人图像序列。

具体地，可以按照不同的身份标识、采集装置(如监控摄像头)、采集时间等，将当前数据集进行分段，从而得到多段图像数据。其中每段图像数据均为一个人在一个特定的采集装置头下的特定时间段内的图像序列，其可以按时间顺序排列，可以称为与该一个人对应的行人图像数据。一般地，该行人图像数据可以包含几十帧图像或者几百帧图像，也可以包括其他数量帧的图像。这些帧图像可以基本流畅地表达一个人的连贯动作。

其中，预处理可以包括以下至少一项：添加随机噪声、翻转、归一化。也就是说，可以对行人图像数据中的各帧图像添加随机噪声、翻转、归一化等预处理操作。随机噪声主要指图像空域或者频域的噪声，例如高斯噪声、椒盐噪声等。图像翻转是指将每帧图像在左右方向翻转。这样可以增加行人图像数据中的数据量。归一化是指将每帧图像的像素值从[0,255]归一化到[0,1]，这样能够方便后续神经网络的操作。

可理解，针对每段图像数据，均可以执行图2所示的方法，这样能够分别基于每段图像数据扩充数据集，扩大了数据集的规模。

S102，根据所述行人图像序列预测位于所述行人图像序列的时间序列之后的至少一个行人图像。

示例性地，可以将所述行人图像序列中的至少一帧图像输入至训练好的预测网络，得到位于所述行人图像序列的时间序列之后的所述至少一个行人图像。

其中，预测网络是一种神经网络，其网络参数可以通过反向传播算法优化得到。可以对预测网络进行训练，使得将第0帧至第N帧图像作为预测网络的输入，得到预测网络的输出为第N+1帧至第N+M帧图像。在另一个实施例中，使得第X帧至第N帧图像作为预测网络的输入，得到预测网络的输出为第N+1帧至第N+M帧图像，其中0<X<N。

示例性地，可以通过如下方式训练得到预测网络：获取当前层的目标特征，其中所述当前层的目标特征为所述行人图像序列中连续多帧图像的每一帧图像的下一帧图像的实际特征或者所述当前层的目标特征为前一层所确定的目标特征；将所述行人图像序列中的连续多帧图像作为输入序列，预测所述连续多帧图像的每一帧图像的下一帧图像特征；计算所述当前层的目标特征与所述预测的下一帧图像特征之间的误差；根据所述误差确定下一层的目标特征。

首先结合图3描述训练的网络结构，其每个模块包括4个单元，分别为A单元、R单元、单元和E单元。

A单元：表示输入卷积单元，对于第一层，输入为目标图像；对于更高层，输入为前一层预测误差的卷积特征；

R单元：表示卷积LSTM单元，使用循环神经网络的LSTM单元，提取序列的时序信息，对序列输出进行预测；

单元：表示预测单元，对于R单元预测的特征进行卷积，提取卷积特征；

E单元：表示误差表示单元，为关于A单元与单元之间误差的函数。

下面将结合这4个单元描述训练预测网络的过程：将输入序列输入R单元，预测下一帧图像，并提取该预测的下一帧图像的特征，可以记为将目标图像输入A单元，并提取目标图像的特征作为当前层的目标特征，可以记为A_l。计算与A_l两者之间的误差，可以记为E_l。进而可以将该误差传递到下一层，得到下一层的目标特征A_l+1。

其中，可以采用一层或多层卷积神经网络提取特征，所提取的特征也称为特征向量或特征矢量，其具有宽度W、高度H和通道数C三个维度。

具体地，对输入序列的每一帧图像，取其下一帧图像作为目标图像。假设输入序列为将第0帧图像至第10帧图像，则将第0帧图像至第10帧图像输入R单元。针对该输入序列中的每一帧图像：可以使用一层或者多层卷积神经网络提取其下一帧图像(即目标图像)的特征，记为A_l；而对于输入序列，使用R单元中的LSTM单元，提取时序特征；随后利用提取的时序特征，结合当前输入特征，进行下一帧图像的预测，记为R_l；再用一层或多层卷积层提取预测图像R_l的特征将A_l与比较，得到预测图像与目标图像在该层的误差E_l。将误差E_l传递到下一层，得到下一层的目标特征A_l+1。

作为一例，误差的计算方法可以为：其中，b表示偏置，对于归一化后的图像，b＝1。其中|·|₁表示矩阵1范数。使用这种方法可以将误差单元E的输出减小一半，从而可以有效的减小网络规模，使网络训练和拟合的速度都得以加快。

作为另一例，可以采用传统的误差处理办法，即将与的结果拼接，送入relu层进行激活，从而得到L1误差。

在随后的下一层(l+1层)，可以采用上述类似的过程得到再下一层(l+2层)的目标特征A_l+2，从而进行误差的前向传播。

另外，可以计算网络总误差，即各层的误差的加权和。其中，各层的权重之和为1，且随着层数的增加，权重逐渐减小。其中第l层(l＝0,1,...,L)的权重表示为：

L为总层数。

也就是说，例如，可以取L＝3，即从第0层至第3层(最深层网络)权重逐渐衰减，且权重总和为1。

为了便于理解，针对每一帧图像分别实现上述的过程，即将上述的网络结构按照时序进行展开，从而得到如图4所示的网络结构图。这里的时序即图4中所示的t、t+1。可理解，对于时序t，当l＝0时，R单元的对应输入可以表示为X_t(即第t帧图像)，A单元的对应输入可以表示为X_t+1(即第t+1帧图像)，且单元的对应输出可以表示为Y_t+1(即预测的第t+1帧图像)。另外，图4中的箭头410可以表示信息的流动方向。

由此可见，在结合图3和图4的描述的基础上，可以通过训练得到预测网络。

这样，便可以利用该预测网络预测出行人图像序列的时间序列之后的至少一个图像，如预测出第N+1帧至第N+5帧的5个图像。

S103，将所述预测的至少一个行人图像添加到所述当前数据集以生成新的数据集。

具体地，为S102所得到的至少一个行人图像添加身份标签，并增加至当前数据集从而实现对数据集的扩充。也就是说，新的数据集包括当前数据集中的图像数据以及S102得到的至少一个行人图像的图像数据。

其中，预测得到的至少一个行人图像与行人图像序列中的图像具有相同的身份标签。

这样，在此之后，可以使用该新的数据集进行重识别模型训练，由于训练数据更加丰富，从而可以获得更鲁棒的重识别模型。

图5是本发明实施例的扩充数据集的装置的一个示意性框图。图5所示的装置50包括获取模块510、预测模块520和生成模块530。

获取模块510，用于基于当前数据集获取行人图像序列；

预测模块520，用于根据所述行人图像序列预测位于所述行人图像序列的时间序列之后的至少一个行人图像；

生成模块530，用于将所述预测的至少一个行人图像添加到所述当前数据集以生成新的数据集。

在本发明的一个实施例中，预测模块520可以具体用于：将所述行人图像序列中的至少一帧图像输入至训练好的预测网络，得到位于所述行人图像序列的时间序列之后的所述至少一个行人图像。

在本发明的一个实施例中，还包括训练模块，其中用于使得所述预测网络通过以下方式进行训练：

根据所述误差确定下一层的目标特征。

在本发明的一个实施例中，训练模块中计算的误差为：

L为总层数。

在本发明的一个实施例中，获取模块510可以具体用于：提取所述当前数据集中的行人图像数据，所述行人图像数据包括由特定采集装置采集的特定人在特定时间段内的图像；对所述行人图像数据进行预处理操作，得到所述行人图像序列。

图5所示的装置50能够实现前述图2至图4所示的扩充数据集的方法，为避免重复，这里不再赘述。

另外，本发明实施例还提供了另一种扩充数据集的设备，包括存储器、处理器及存储在所述存储器上且在所述处理器上运行的计算机程序，处理器执行所述程序时实现前述图2至图4所示方法的步骤。

另外，本发明实施例还提供了一种电子设备，该电子设备可以包括图5所示的装置50。该电子设备可以实现前述图2至图4所示的方法。

另外，本发明实施例还提供了一种计算机存储介质，其上存储有计算机程序。当所述计算机程序由处理器执行时，可以实现前述图2至图4所示方法的步骤。例如，该计算机存储介质为计算机可读存储介质。

尽管这里已经参考附图描述了示例实施例，应理解上述示例实施例仅仅是示例性的，并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改，而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该本发明的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如相应的权利要求书所反映的那样，其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域的技术人员可以理解，除了特征之间相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的物品分析设备中的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本发明的具体实施方式或对具体实施方式的说明，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种扩充数据集的方法，其特征在于，所述方法包括：

基于当前数据集获取行人图像序列；

2.根据权利要求1所述的方法，其特征在于，所述根据所述行人图像序列预测位于所述行人图像序列的时间序列之后的至少一个行人图像，包括：

3.根据权利要求2所述的方法，其特征在于，所述预测网络通过以下方式进行训练：

根据所述误差确定下一层的目标特征。

4.根据权利要求3所述的方法，其特征在于，所述计算所述当前层的目标特征与所述预测的下一帧图像特征之间的误差，包括：

计算所述误差为：

5.根据权利要求3所述的方法，其特征在于，所述预测网络的总误差为所述各层的误差的加权和，其中第l层的权重表示为：

L为总层数。

6.根据权利要求1所述的方法，其特征在于，所述基于当前数据集获取行人图像序列，包括：

7.根据权利要求6所述的方法，其特征在于，所述预处理操作包括以下至少一项：添加随机噪声、翻转、归一化。

8.根据权利要求1至7中任一项所述的方法，其特征在于，所述至少一个行人图像与所述行人图像序列中的图像具有相同的身份标签。

9.一种扩充数据集的装置，其特征在于，所述装置用于实现权利要求1至8中任一项所述方法的步骤，所述装置包括：

获取模块，用于基于当前数据集获取行人图像序列；

10.一种扩充数据集的设备，包括存储器、处理器及存储在所述存储器上且在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述方法的步骤。

11.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述方法的步骤。