CN113837272B - 一种自动驾驶长尾数据增强方法 - Google Patents

一种自动驾驶长尾数据增强方法 Download PDF

Info

Publication number
CN113837272B
CN113837272B CN202111115893.0A CN202111115893A CN113837272B CN 113837272 B CN113837272 B CN 113837272B CN 202111115893 A CN202111115893 A CN 202111115893A CN 113837272 B CN113837272 B CN 113837272B
Authority
CN
China
Prior art keywords
training
picture
model
scene
countermeasure network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111115893.0A
Other languages
English (en)
Other versions
CN113837272A (zh
Inventor
李嘉琦
李丰军
周剑光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Automotive Innovation Co Ltd
Original Assignee
China Automotive Innovation Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Automotive Innovation Co Ltd filed Critical China Automotive Innovation Co Ltd
Priority to CN202111115893.0A priority Critical patent/CN113837272B/zh
Publication of CN113837272A publication Critical patent/CN113837272A/zh
Application granted granted Critical
Publication of CN113837272B publication Critical patent/CN113837272B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明公开了一种自动驾驶长尾数据增强方法,包括扩增阶段,所述扩增阶段包括获取场景信息不同的多张训练图片;基于第一生成式对抗网络的训练模型分别对多张训练图片进行编码,得到多个隐变量;选取具有目标车型的至少一张车型图片;根据隐变量与车型图片,基于第二生成式对抗网络的训练模型生成目标车型处于多种不同场景信息下的扩增图片;其中,第一生成式对抗网络和第二生成式对抗网络的训练模型由训练阶段得到;将得到的扩增图片添加到数据集中。本发明通过训练两个生成式对抗网络对长尾数据进行扩增,提升训练模型的性能;并且根据目标车型快速、准确地生成不同场景中车型不变的图像,以实现少量样本扩充,解决数据长尾问题。

Description

一种自动驾驶长尾数据增强方法
技术领域
本发明涉及智能驾驶技术领域,尤其涉及一种自动驾驶长尾数据增强方法。
背景技术
自动驾驶的数据集是自动驾驶领域感知模块的关键要素,有了数据就有了算法的各种应用;然而现今状况下很多数据集有长尾效应的问题出现,所谓的长尾效应是指在训练数据中,一小部分的类别(头部类别)占据了大多数的训练样本,而大部分的类别(尾部类别)只有极少数的训练样本;例如,有一辆新款的车,在采集的过程中出现的频率很低或者某些场景下没有出现这种车型,导致最后算法检测不出这种车型。
而现有技术中,对长尾数据的扩增只是在测试用例层面进行数据扩增,并没有增加训练出来模型的性能;此外,这种扩增方式仅仅只能用于分类模型,在检测任务上并没有实际对生成的图像中车型进行限制,并且由于训练过程中并没有这些生成的图像场景,反而会导致准确率下降。
因此,需要一种自动驾驶长尾数据增强方法,能够生成不同场景中车型不变的图像,以实现少量样本扩充,解决数据长尾问题。
发明内容
针对上述现有技术中存在的问题,本发明提供了一种自动驾驶长尾数据增强方法,能够生成不同场景中车型不变的图像,以实现少量样本扩充,解决数据长尾问题,准确率高,适用范围广泛。所述技术方案如下:
本发明提供了一种自动驾驶长尾数据增强方法,包括扩增阶段,所述扩增阶段包括:
获取场景信息不同的多张训练图片;
基于第一生成式对抗网络的训练模型分别对多张所述训练图片进行编码,得到与所述场景信息对应的多个隐变量;
选取具有目标车型的至少一张车型图片;
根据所述隐变量与所述车型图片,基于第二生成式对抗网络的训练模型生成所述目标车型处于多种不同所述场景信息下的扩增图片;其中,所述第一生成式对抗网络的训练模型和所述第二生成式对抗网络的训练模型由训练阶段得到;
将得到的所述扩增图片添加到数据集中。
进一步地,在所述扩增阶段之前,所述方法还包括训练阶段,所述训练阶段包括:
获取场景信息不同的多张训练图片;
基于第一生成式对抗网络分别对多张所述训练图片进行编码,得到与所述场景信息对应的多个训练隐变量;
选取具有目标车型的至少一张车型图片;
根据所述训练隐变量与所述车型图片,基于第二生成式对抗网络生成所述目标车型处于多种不同所述场景信息下的扩增图片。
进一步地,所述第一生成式对抗网络用于将所述训练图片进行编码得到所述训练隐变量,所述第一生成式对抗网络包括第一生成模型和第一判别模型:
所述第一生成模型用于根据起始隐变量生成场景图片,所述第一判别模型用于判别生成的所述场景图片与获取的所述训练图片的真假;
所述第二生成式对抗网络用于根据所述训练隐变量和所述车型图片生成所述扩增图片,所述第二生成式对抗网络包括第二生成模型和第二判别模型:
所述第二生成模型用于根据所述训练隐变量和所述车型图片生成所述扩增图片,所述第二判别模型用于判别生成的所述扩增图片的车型与选取的所述目标车型是否一致。
进一步地,所述基于第一生成式对抗网络分别对多张所述训练图片进行编码,得到与所述场景信息对应的多个训练隐变量包括:
随机初始化一个起始隐变量;
通过卷积神经网络将所述起始隐变量生成场景图片;
将所述场景图片与所述训练图片进行二分类判别;
若为同一场景,则将所述训练图片中的所述场景信息编码为对应的训练隐变量;
若不为同一场景,则不进行编码。
进一步地,所述通过卷积神经网络将所述起始隐变量生成场景图片包括:
在vgg16结构中将所述起始隐变量反解码,以使得所述卷积神经网络中的卷积层替换为反卷积,生成所述场景图片。
进一步地,所述根据所述训练隐变量与所述车型图片,基于第二生成式对抗网络生成所述目标车型处于多种不同所述场景信息下的扩增图片包括:
将所述车型图片输入编码器,得到特征图;所述特征图中包含所述目标车型的信息;
对所述训练隐变量进行编码,得到与所述训练隐变量对应的编码信息;
将所述编码信息与所述特征图直接相加,得到目标向量;
在解码器中对所述目标向量解码,生成所述扩增图片。
进一步地,所述特征图与所述编码信息的维度一致。
进一步地,所述编码器与所述解码器的基础卷积神经网络为resnet50,至少用于将所述解码器中的卷积层替换为反卷积。
进一步地,在所述根据所述训练隐变量与所述车型图片,基于第二生成式对抗网络生成所述目标车型处于多种不同所述场景信息下的扩增图片之后,所述方法还包括:
对所述扩增图片进行判别;
若所述扩增图片的车型与所述目标车型一致,且所述扩增图片的场景信息与所述训练图片的所述场景信息一致,则所述训练隐变量、所述第一生成式对抗网络的训练模型和所述第二生成式对抗网络的训练模型均训练完成;
将所述训练隐变量作为所述扩增阶段的初始隐变量,进入所述扩增阶段。
进一步地,所述训练阶段的所述扩增图片与所述训练阶段的其中一张所述训练图片相同;所述扩增阶段的所述扩增图片与所述扩增阶段的所述训练图片不同。
实施本发明,具有如下有益效果:
1、本发明将生成式对抗网络应用于自动驾驶的训练集中,通过人为干预选取车型来训练两个生成式对抗网络的训练模型,提升训练模型的性能,并且能够将训练模型直接应用,对更多长尾数据集的车型进行数据扩增,适用范围广泛。
2、通过两个训练完成的生成式对抗网络对长尾数据进行数据扩增,扩增快速,准确性高,能够保证车型相同而场景不同;通过选取不同的目标车型,能够快速、大量地扩增目标车型的仿真数据,针对性地对长尾数据集进行扩增,生成大量仿真数据并入总的数据集中以满足检测任务的需求。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明实施例提供的一种自动驾驶长尾数据增强方法扩增阶段的逻辑结构图;
图2为本发明实施例提供的一种自动驾驶长尾数据增强方法训练阶段的逻辑结构图;
图3为本发明的一个可能的实施方式中训练隐变量的训练方法流程图;
图4为本发明的一个可能的实施方式中卷积神经网络的示意图;
图5为本发明的一个可能的实施方式中扩增图片的生成方法流程图;
图6为本发明的一个可能的实施方式中训练阶段与扩增阶段的过渡方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例,因此不能理解为对本发明的限制。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本发明的实施例能够以除了下述图示或下述描述以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本实施例针对现有技术中,自动驾驶数据集中的长尾问题,提供了一种自动驾驶长尾数据增强方法,包括训练阶段与扩增阶段,其中训练阶段用于将训练模型训练出来,提升训练模型的性能,使得训练模型能够直接应用于扩增阶段,保证扩增的效率和准确性;该自动驾驶长尾数据增强方法可以应用于一种自动驾驶长尾数据增强装置,当出现数据较少的车型或者新的车型时,该自动驾驶长尾数据增强装置开始运行,执行扩增阶段,获取场景信息不同的训练图片用于提取不同的场景信息;之后基于第一生成式对抗网络的训练模型对训练图片进行编码,以得到与场景信息对应的隐变量;然后人为选取具有目标车型的车型图片,根据得到的隐变量和车型图片,基于第二生成式对抗网络的训练模型生成目标车型处于多种不同场景信息下的扩增图片,加入到总的数据集中,以提升长尾数据的数量;其中,两个生成式对抗网络的训练模型都是通过训练阶段训练成熟的,能够大大提升训练模型的性能,保证扩增阶段的快速、准确。
下面对本发明实施例的技术方案进行详细介绍,参考说明书附图1,该方法的扩增阶段包括:
S101,获取场景信息不同的多张训练图片。
S103,基于第一生成式对抗网络的训练模型分别对多张所述训练图片进行编码,得到与所述场景信息对应的多个隐变量。
S105,选取具有目标车型的至少一张车型图片。
S107,根据所述隐变量与所述车型图片,基于第二生成式对抗网络的训练模型生成所述目标车型处于多种不同所述场景信息下的扩增图片;其中,所述第一生成式对抗网络的训练模型和所述第二生成式对抗网络的训练模型由训练阶段得到。
S109,将得到的所述扩增图片添加到数据集中。
其中,S105-S109步骤可以多次进行,每次选取不同的车型图片,能够实现多种目标车型的数据扩增;例如,在一轮扩增过程中,选取A车型为目标车型,则经过S107步骤生成A车型在多种不同场景下的扩增图片,将其添加到数据集中以丰富数据集;而在下一轮扩增过程中,选取B车型为目标车型,则能够将B车型与隐变量结合进行场景迁移,生成B车型在多种不同场景下的扩增图片,将其添加到数据集中以丰富数据集;以此类推,能够快速有效地扩增长尾数据集中的仿真数据,满足检测任务的对数据集的需求。
具体地,参考说明书附图2,该方法的训练阶段包括:
S202,获取场景信息不同的多张训练图片。
可见,S202对应的训练步骤与S101对应的扩增步骤是相对应的,其中训练图片均是搜集已有的图片,形成一个训练图片集;在该训练图片集中,必须包括多种多样的场景信息,以备提取,用于后续与少数车型或者以前没有过的车型进行合成;但训练图片集对训练图片中的车型不做限定,可以为任何已有的车型。
S204,基于第一生成式对抗网络分别对多张所述训练图片进行编码,得到与所述场景信息对应的多个训练隐变量。
该训练步骤与S103的扩增步骤相对应;在该S204步骤中,第一生成式对抗网络能够对训练图片进行判别,通过这一判别来约束是否将训练图片中的场景信息编码进训练隐变量,并且通过这一判别能够不断训练第一生成式对抗网络的训练模型,不断完善训练模型使得训练出来的第一生成式对抗网络的训练模型能够直接应用于S103步骤中,提升扩增阶段的效率与准确性,当获取到新的训练图片时可以直接按照训练模型对训练图片进行编码,得到隐变量;此外,如果得到的隐变量数量已经足够保证扩增的需求,即训练阶段获得的场景信息的数量已经足够多,则在本说明书的一个可能的实施方式中,得到的训练隐变量也能够直接应用到扩增阶段的S105-S109步骤中,即S103-S105步骤在扩增阶段可以省略,进一步提升扩增效率。
S206,选取具有目标车型的至少一张车型图片。
其中,在训练阶段的训练过程中,选取的目标车型为已有的车型,或者已有数据较多的车型,只要能够达到训练目的即可;而在扩增阶段,因为扩增目标是得到新车型在多种场景中的图片,则S105步骤中的目标车型为已有数据中不存在的新车型或者在已有数据集中数据信息很少的车型;并且,S105步骤和S206步骤均为人为干预手段,即车型图片是人为筛选并输入的,则在扩增阶段能够保证目标车型一定是处于长尾数据集中的,针对性强。
S208,根据所述训练隐变量与所述车型图片,基于第二生成式对抗网络生成所述目标车型处于多种不同所述场景信息下的扩增图片。
该训练步骤与S107扩增步骤相对应;其中,第二生成式对抗网络能够对扩增图片进行判别,从而不断训练和完善第二生成式对抗网络的训练模型,保证经过训练模型生成的扩增图片中,车型与目标车型一致,则能够将第二生成式对抗网络的训练模型直接应用于S107步骤中,在一轮扩增过程中,控制车型不变,而生成不同场景的图片,以达到少量样本扩充的目的,保证扩增的准确性,并提升扩增效率。
而需要说明的是,在上述训练阶段中,因为目的是训练并完善训练模型,则经过S208步骤得到的扩增图片中,其车型与场景信息应当与S101步骤中获取的其中一张训练图片中的车型和场景信息相同,即训练阶段的扩增图片与训练阶段的其中一张训练图片车型相同、场景信息相同,才能证明训练阶段训练成功;而扩增阶段的目的是得到长尾数据集中的车型在不同场景下的数据,则扩增阶段最终得到的扩增图片中的车型与扩增阶段S101步骤中获取的训练图片中的车型可以不同。
具体地,如说明书附图3所示,所述基于第一生成式对抗网络分别对多张所述训练图片进行编码,得到与所述场景信息对应的多个训练隐变量,即S204步骤包括:
S301,随机初始化一个起始隐变量。
其中,起始隐变量不采用kaiming随机初始化,而采用标准正太分布去初始化,使得训练阶段在初始训练过程中稳定,保证整个扩增方法的稳定性;优选地,在本说明书的一个可能的实施方式中,该起始隐变量可以选择为128维的隐变量。
S303,通过卷积神经网络将所述起始隐变量生成场景图片。
其中,第一生成式对抗网络作为一种深度学习模型,用于将训练图片进行编码得到训练隐变量,包括第一生成模型和第一判别模型,而第一生成模型用于根据S301步骤中的起始隐变量生成场景图片,之后第一判别模型用于在S305步骤中判别生成的场景图片与获取的训练图片的真假,从而判断是否要对训练图片进行编码。
并且,卷积神经网络(Convolutional Neural Networks,CNN)是深度学习中一种高精度的模型,如说明书附图4所示,为本发明的一个可能的实施方式中卷积神经网络的示意图,则在该步骤中,卷积神经网络采用vgg16结构,将起始隐变量反解码,以使得卷积神经网络中的卷积层替换为反卷积,从而生成场景图片。
在执行反解码生成场景图片后,采用第一生成式对抗网络的损失函数和交叉熵分类损失函数再训练,保证卷积神经网络的性能稳定;其中,第一生成式对抗网络的损失函数如下:
其中,xr为真实图片,在本实施例中可以理解为获取的训练图片;xf为生成图片,在本实施例中可以理解为生成的场景图片;M为样本数量,可以理解为训练图片的数量;D为判别器;
而交叉熵分类损失函数如下:
其中,yi为当前标签值,pi为当前标签值的概率,N也指代样本数量,即训练图片的数量。
S305,将所述场景图片与所述训练图片进行二分类判别。
S307,若为同一场景,则将所述训练图片中的所述场景信息编码为对应的训练隐变量。
S309,若不为同一场景,则不进行编码。
若为同一场景,则二分类判别的输出结果为1,提取训练图片中对应的场景信息,并将该场景信息编码为对应的一个训练隐变量;若不为同一场景,则二分类判别的输出结果为0,不进行编码;即在训练阶段中,所有的训练图片并不一定会被提取场景信息进行编码,而被编码的场景信息一定与训练隐变量一一对应;也就是说,经过判别,假设训练图片集中共有M张训练图片,但仅存在N个场景,且N≤M,那么经过S204步骤的训练,就对这N个场景进行编码,会得到N个训练隐变量,而每个训练隐变量中都对应一种场景信息,则训练出N个训练隐变量就代表了N种不同的场景;但对于一个训练隐变量来说,可以对应多张训练图片,这些训练图片中的车型可以不同,但其中的场景信息必定一致。
具体地,第二生成式对抗网络用于根据训练隐变量和车型图片生成扩增图片,包括第二生成模型和第二判别模型;其中,第二生成模型用于根据训练隐变量和车型图片生成扩增图片,而第二判别模型用于判别生成的扩增图片的车型与选取的目标车型是否一致。
具体地,如说明书附图5所示,S208步骤中,所述根据所述训练隐变量与所述车型图片,基于第二生成式对抗网络生成所述目标车型处于多种不同所述场景信息下的扩增图片包括:
S501,将所述车型图片输入编码器,得到特征图;所述特征图中包含所述目标车型的信息。
S503,对所述训练隐变量进行编码,得到与所述训练隐变量对应的编码信息。
S505,将所述编码信息与所述特征图直接相加,得到目标向量。
其中,通过卷积神经网络的输出通道数来保证特征图与编码信息的维度始终一致,使得特征图和编码信息这两个向量能够直接相加,得到目标向量;并且,对车型图片进行编码得到特征图和对训练隐变量进行编码得到编码信息都是在编码器中进行的,也就是说,在保证目标车型不变的前提下,将特征图中的目标车型信息与不同编码信息中的场景信息进行结合,目标向量中即包括目标车型与不同场景信息结合的信息。
S507,在解码器中对所述目标向量解码,生成所述扩增图片。
其中,编码器与解码器的基础卷积神经网络均为resnet50,该resnet50结构的基础卷积神经网络用于将解码器中的卷积层替换为反卷积,使得目标向量中的信息能够转化为扩增图片,得到目标车型在多种不同场景下的多张扩增图片,完成目标车型的场景转换。
具体地,如说明书附图6所示,在S208步骤之后,即在所述根据所述训练隐变量与所述车型图片,基于第二生成式对抗网络生成所述目标车型处于多种不同所述场景信息下的扩增图片之后,所述方法还包括:
S602,对所述扩增图片进行判别。
若判别结果表明扩增图片中的车型与目标车型之间存在差别,则代表训练失败,训练阶段并没有对车型实现有效约束,即S608步骤之后需要停止或者重新进行训练阶段。
S604,若所述扩增图片的车型与所述目标车型一致,且所述扩增图片的场景信息与所述训练图片的所述场景信息一致,则所述训练隐变量、所述第一生成式对抗网络的训练模型和所述第二生成式对抗网络的训练模型均训练完成。
S606,将所述训练隐变量作为所述扩增阶段的初始隐变量,进入所述扩增阶段。
即经过S604步骤即可认为训练阶段结束,并且训练成功,可以用于扩增阶段,使得实际扩增阶段中,第一生成式对抗网络的训练模型和训练隐变量对场景信息进行约束,而第二生成式对抗网络的训练模型对目标车型进行约束,从而保证在最终的扩增图片中同时对车型和场景进行约束,得到新车型或者少量车型在不同场景下的扩增图片,提供大量长尾数据集的仿真数据以满足检测任务的需求。
通过上述实施例可知,本发明实施例中的自动驾驶长尾数据增强方法具有以下有益效果:
1、本发明将生成式对抗网络应用于自动驾驶的训练集中,通过人为干预选取车型来训练两个生成式对抗网络的训练模型,提升训练模型的性能,并且能够将训练模型直接应用,对更多长尾数据集的车型进行数据扩增,适用范围广泛。
2、通过两个训练完成的生成式对抗网络对长尾数据进行数据扩增,扩增快速,准确性高,能够保证车型相同而场景不同;通过选取不同的目标车型,能够快速、大量地扩增目标车型的仿真数据,针对性地对长尾数据集进行扩增,生成大量仿真数据并入总的数据集中以满足检测任务的需求。
3、本发明采用标准正态分布去初始化起始隐变量,以保证初始的训练阶段能够稳定进行,有利于提升训练模型的稳定性。
与上述本实施例提供的自动驾驶长尾数据增强方法相对应,本发明实施例还提供一种自动驾驶长尾数据增强装置,由于本发明实施例提供的自动驾驶长尾数据增强装置与上述几种实施方式提供的自动驾驶长尾数据增强方法相对应,因此前述自动驾驶长尾数据增强方法的实施方式也适用于本实施例提供的自动驾驶长尾数据增强装置,在本实施例中不再详细描述。
本发明实施例提供的自动驾驶长尾数据增强装置能够实现上述方法实施例中的自动驾驶长尾数据增强方法,该装置可以包括扩增模块,其中扩增模块包括:
获取模块,用于获取场景信息不同的多张训练图片;
隐变量生成模块,用于基于第一生成式对抗网络的训练模型分别对多张所述训练图片进行编码,得到与所述场景信息对应的多个隐变量;
选取输入模块,用于选取具有目标车型的至少一张车型图片;
扩增模块,用于根据所述隐变量与所述车型图片,基于第二生成式对抗网络的训练模型生成所述目标车型处于多种不同所述场景信息下的扩增图片;其中,所述第一生成式对抗网络的训练模型和所述第二生成式对抗网络的训练模型由训练阶段得到;
添加模块,用于将得到的所述扩增图片添加到数据集中。
在一个可能的实施方式中,该装置还可以包括训练模块,该训练模块包括:
训练获取模块,用于获取场景信息不同的多张训练图片;
训练隐变量生成模块,用于基于第一生成式对抗网络分别对多张所述训练图片进行编码,得到与所述场景信息对应的多个训练隐变量;
训练选取输入模块,用于选取具有目标车型的至少一张车型图片;
车型训练模块,用于根据所述训练隐变量与所述车型图片,基于第二生成式对抗网络生成所述目标车型处于多种不同所述场景信息下的扩增图片。
其中,获取模块和训练获取模块可以为共用模块,而选取输入模块和训练选取模块可以为同一个模块。
需要说明的是,上述实施例提供的装置,在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本发明实施例的自动驾驶长尾数据增强装置能够训练两个生成式对抗网络的训练模型,分别对场景信息和车型进行约束,不断完善提升训练模型的性能,使得训练模型能够直接应用于扩增阶段,通过第一生成式对抗网络的训练模型对不同场景信息进行编码得到隐变量,实现对场景信息的控制;通过第二生成式对抗网络的训练模型能够进行场景转换,进一步实现对车型的约束,将以上两个过程的特征进行融合,就能够完成场景迁移的目的,即将目标车型的场景通过以上训练得到的隐变量转换成另一个场景信息下的扩增图片,而目标车型保持不变;则通过输入不同目标车型,也就是新车型或者已有数据较少的车型,就能够实现这些少量车型的数据扩增,生成大量仿真数据,解决数据长尾问题,准确性高。
本发明实施例还提供一种车辆,包括控制器与以上所述的自动驾驶长尾数据增强装置,该自动驾驶长尾数据增强装置由控制器控制,所述控制器包括处理器和存储器,所述存储器中存储有至少一条指令或者至少一段程序,所述至少一条指令或者所述至少一段程序由所述处理器加载并执行以实现上述的自动驾驶长尾数据增强方法。
其中,处理器(或称CPU(Central Processing Unit,中央处理器))为自动驾驶长尾数据增强装置的核心部件,其功能主要是解释存储器指令以及处理各个监测模块或者获取模块所反馈的数据;处理器的结构大致分为运算逻辑部件与寄存器部件等,运算逻辑部件主要进行相关的逻辑计算(如移位操作、逻辑操作、定点或浮点算术运算操作与地址运算等),寄存器部件则用于暂存指令、数据与地址。
存储器为记忆设备,可用于存储软件程序以及模块,处理器通过运行存储在存储器的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、功能所需的应用程序等;存储数据区可存储根据所述装置的使用所创建的数据等;相应地,存储器还可以包括存储器控制器,以提供处理器对存储器的访问。
需要说明的是,上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所描述的仅为本发明的一些实施例而已,并不用于限制本发明,本行业的技术人员应当了解,本发明还会有各种变化和改进,任何依照本发明所做的修改、等同替换和改进都落入本发明所要求的保护的范围内。

Claims (10)

1.一种自动驾驶长尾数据增强方法,其特征在于,包括扩增阶段,所述扩增阶段包括:
获取场景信息不同的多张训练图片;
基于第一生成式对抗网络的训练模型分别对多张所述训练图片进行编码,得到与所述场景信息对应的多个隐变量;所述基于第一生成式对抗网络的训练模型分别对多张所述训练图片进行编码,得到与所述场景信息对应的多个隐变量包括:初始化一个训练隐变量;通过卷积神经网络将所述训练隐变量生成场景图片;将所述场景图片与所述训练图片进行二分类判别;若为同一场景,则将所述训练图片中的所述场景信息编码为对应的隐变量;若不为同一场景,则不进行编码;
选取具有目标车型的至少一张车型图片;
根据所述隐变量与所述车型图片,基于第二生成式对抗网络的训练模型生成所述目标车型处于多种不同所述场景信息下的扩增图片;其中,所述第一生成式对抗网络的训练模型和所述第二生成式对抗网络的训练模型由训练阶段得到;
将得到的所述扩增图片添加到数据集中。
2.根据权利要求1所述的一种自动驾驶长尾数据增强方法,其特征在于,在所述扩增阶段之前,所述方法还包括训练阶段,所述训练阶段包括:
获取场景信息不同的多张训练图片;
基于第一生成式对抗网络分别对多张所述训练图片进行编码,得到与所述场景信息对应的多个训练隐变量;
选取具有目标车型的至少一张车型图片;
根据所述训练隐变量与所述车型图片,基于第二生成式对抗网络生成所述目标车型处于多种不同所述场景信息下的扩增图片。
3.根据权利要求2所述的一种自动驾驶长尾数据增强方法,其特征在于,所述第一生成式对抗网络用于将所述训练图片进行编码得到所述训练隐变量,所述第一生成式对抗网络包括第一生成模型和第一判别模型:
所述第一生成模型用于根据起始隐变量生成场景图片,所述第一判别模型用于判别生成的所述场景图片与获取的所述训练图片的真假;
所述第二生成式对抗网络用于根据所述训练隐变量和所述车型图片生成所述扩增图片,所述第二生成式对抗网络包括第二生成模型和第二判别模型:
所述第二生成模型用于根据所述训练隐变量和所述车型图片生成所述扩增图片,所述第二判别模型用于判别生成的所述扩增图片的车型与选取的所述目标车型是否一致。
4.根据权利要求2所述的一种自动驾驶长尾数据增强方法,其特征在于,所述基于第一生成式对抗网络分别对多张所述训练图片进行编码,得到与所述场景信息对应的多个训练隐变量包括:
随机初始化一个起始隐变量;
通过卷积神经网络将所述起始隐变量生成场景图片;
将所述场景图片与所述训练图片进行二分类判别;
若为同一场景,则将所述训练图片中的所述场景信息编码为对应的训练隐变量;
若不为同一场景,则不进行编码。
5.根据权利要求4所述的一种自动驾驶长尾数据增强方法,其特征在于,所述通过卷积神经网络将所述起始隐变量生成场景图片包括:
在vgg16结构中将所述起始隐变量反解码,以使得所述卷积神经网络中的卷积层替换为反卷积,生成所述场景图片。
6.根据权利要求2所述的一种自动驾驶长尾数据增强方法,其特征在于,所述根据所述训练隐变量与所述车型图片,基于第二生成式对抗网络生成所述目标车型处于多种不同所述场景信息下的扩增图片包括:
将所述车型图片输入编码器,得到特征图;所述特征图中包含所述目标车型的信息;
对所述训练隐变量进行编码,得到与所述训练隐变量对应的编码信息;
将所述编码信息与所述特征图直接相加,得到目标向量;
在解码器中对所述目标向量解码,生成所述扩增图片。
7.根据权利要求6所述的一种自动驾驶长尾数据增强方法,其特征在于,所述特征图与所述编码信息的维度一致。
8.根据权利要求6所述的一种自动驾驶长尾数据增强方法,其特征在于,所述编码器与所述解码器的基础卷积神经网络为resnet50,至少用于将所述解码器中的卷积层替换为反卷积。
9.根据权利要求4所述的一种自动驾驶长尾数据增强方法,其特征在于,在所述根据所述训练隐变量与所述车型图片,基于第二生成式对抗网络生成所述目标车型处于多种不同所述场景信息下的扩增图片之后,所述方法还包括:
对所述扩增图片进行判别;
若所述扩增图片的车型与所述目标车型一致,且所述扩增图片的场景信息与所述训练图片的所述场景信息一致,则所述训练隐变量、所述第一生成式对抗网络的训练模型和所述第二生成式对抗网络的训练模型均训练完成;
将所述训练隐变量作为所述扩增阶段的初始隐变量,进入所述扩增阶段。
10.根据权利要求2所述的一种自动驾驶长尾数据增强方法,其特征在于,所述训练阶段的所述扩增图片与所述训练阶段的其中一张所述训练图片相同;所述扩增阶段的所述扩增图片与所述扩增阶段的所述训练图片不同。
CN202111115893.0A 2021-09-23 2021-09-23 一种自动驾驶长尾数据增强方法 Active CN113837272B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111115893.0A CN113837272B (zh) 2021-09-23 2021-09-23 一种自动驾驶长尾数据增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111115893.0A CN113837272B (zh) 2021-09-23 2021-09-23 一种自动驾驶长尾数据增强方法

Publications (2)

Publication Number Publication Date
CN113837272A CN113837272A (zh) 2021-12-24
CN113837272B true CN113837272B (zh) 2024-03-26

Family

ID=78969438

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111115893.0A Active CN113837272B (zh) 2021-09-23 2021-09-23 一种自动驾驶长尾数据增强方法

Country Status (1)

Country Link
CN (1) CN113837272B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018157862A1 (zh) * 2017-03-02 2018-09-07 腾讯科技(深圳)有限公司 车型的识别方法和装置、存储介质、电子装置
CN109241834A (zh) * 2018-07-27 2019-01-18 中山大学 一种基于隐变量的嵌入的群体行为识别方法
CN110991095A (zh) * 2020-03-05 2020-04-10 北京三快在线科技有限公司 一种车辆行驶决策模型的训练方法及装置
CN112380986A (zh) * 2020-11-13 2021-02-19 华南理工大学 抗复杂街道背景干扰的车型检测方法、系统及存储介质
CN113298913A (zh) * 2021-06-07 2021-08-24 Oppo广东移动通信有限公司 数据增强方法、装置、电子设备及可读存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019018693A2 (en) * 2017-07-19 2019-01-24 Altius Institute For Biomedical Sciences METHODS OF ANALYZING MICROSCOPIC IMAGES USING AUTOMATIC LEARNING
CN111316291B (zh) * 2017-11-03 2023-06-23 西门子股份公司 用生成式对抗神经网络分割和去噪深度图像用于识别应用

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018157862A1 (zh) * 2017-03-02 2018-09-07 腾讯科技(深圳)有限公司 车型的识别方法和装置、存储介质、电子装置
CN109241834A (zh) * 2018-07-27 2019-01-18 中山大学 一种基于隐变量的嵌入的群体行为识别方法
CN110991095A (zh) * 2020-03-05 2020-04-10 北京三快在线科技有限公司 一种车辆行驶决策模型的训练方法及装置
CN112380986A (zh) * 2020-11-13 2021-02-19 华南理工大学 抗复杂街道背景干扰的车型检测方法、系统及存储介质
CN113298913A (zh) * 2021-06-07 2021-08-24 Oppo广东移动通信有限公司 数据增强方法、装置、电子设备及可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Jamie Ray et al..Scenes-objects-actions: A multi-task, multi-label video dataset.《Proceedings of the European Conference on Computer Vision (ECCV)》.2018,第635-651页. *
林椿眄.基于Mask R-CNN(FFM)的城市交通场景多目标检测与分割技术.《工程科技Ⅱ辑》.2019,第18-23页. *

Also Published As

Publication number Publication date
CN113837272A (zh) 2021-12-24

Similar Documents

Publication Publication Date Title
Xiong et al. Learning to generate time-lapse videos using multi-stage dynamic generative adversarial networks
Wang et al. Detect globally, refine locally: A novel approach to saliency detection
US10936911B2 (en) Logo detection
CN109816032B (zh) 基于生成式对抗网络的无偏映射零样本分类方法和装置
CN108537119B (zh) 一种小样本视频识别方法
CN113239869B (zh) 基于关键帧序列和行为信息的两阶段行为识别方法及系统
CN104933420A (zh) 一种场景图像识别方法和场景图像识别设备
CN110363830B (zh) 元素图像生成方法、装置及系统
KR20190125029A (ko) 시계열 적대적인 신경망 기반의 텍스트-비디오 생성 방법 및 장치
CN112669215A (zh) 一种训练文本图像生成模型、文本图像生成的方法和装置
CN112804558A (zh) 视频拆分方法、装置及设备
US20200151458A1 (en) Apparatus and method for video data augmentation
CN112183542A (zh) 基于文本图像的识别方法、装置、设备和介质
CN111783812A (zh) 违禁图像识别方法、装置和计算机可读存储介质
US11361189B2 (en) Image generation method and computing device
CN112416301A (zh) 深度学习模型开发方法及装置、计算机可读存储介质
CN113837272B (zh) 一种自动驾驶长尾数据增强方法
CN111814508B (zh) 一种文字识别方法、系统及设备
CN111539390A (zh) 一种基于Yolov3的小目标图像识别方法、设备和系统
CN115578796A (zh) 一种活体检测模型的训练方法、装置、设备及介质
KR102580131B1 (ko) 순환 생성 적대 네트워크 조건부 생성 적대 네트워크
CN113378722B (zh) 基于3d卷积和多级语义信息融合的行为识别方法及系统
CN111754518B (zh) 图像集合的扩充方法、装置及电子设备
Santoso et al. Learning-based human detection applied to RGB-D images
CN112101154A (zh) 视频分类方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant