CN112712138A - 一种图像处理方法、装置、设备及存储介质 - Google Patents

一种图像处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112712138A
CN112712138A CN202110068384.0A CN202110068384A CN112712138A CN 112712138 A CN112712138 A CN 112712138A CN 202110068384 A CN202110068384 A CN 202110068384A CN 112712138 A CN112712138 A CN 112712138A
Authority
CN
China
Prior art keywords
image
scene
target
sample
target object
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110068384.0A
Other languages
English (en)
Other versions
CN112712138B (zh
Inventor
刘畅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Tencent Cloud Computing Beijing Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110068384.0A priority Critical patent/CN112712138B/zh
Publication of CN112712138A publication Critical patent/CN112712138A/zh
Application granted granted Critical
Publication of CN112712138B publication Critical patent/CN112712138B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本申请实施例提供了一种图像处理方法、装置、设备及存储介质,涉及人工智能技术领域,可应用于自动驾驶场景,该方法具体为:获取场景图像以及包含目标对象的待处理图像,然后提取场景图像的目标场景特征以及提取目标对象的目标对象特征,将目标场景特征与目标对象特征进行融合,获得目标场景迁移图像,目标场景迁移图像为目标对象在场景图像表征的场景下的图像。通过将场景图像中的场景特征与待处理图像包含的目标对象的对象特征进行融合,实现了在保留待处理图像中的目标对象的前提下,替换待处理图像的场景,获得目标对象在新场景下的图像,从而为检测模型迁移至新场景下提供了迁移学习样本,降低了获得新场景下的训练样本的成本。

Description

一种图像处理方法、装置、设备及存储介质
技术领域
本发明实施例涉及人工智能技术领域,尤其涉及一种图像处理方法、装置、设备及存储介质。
背景技术
自动驾驶场景下的检测模型需要大量的图像作为训练样本进行训练,以保证场景覆盖度和检测效果。当算法迁移至新场景下时,往往需要获得新场景下的图像作为训练样本,再对检测模型进行迁移学习,以保证新场景下的适配能力。相关技术通过重新采集新场景下的图像的方式获得训练样本,从而导致获取样本图像的成本高。
发明内容
本申请实施例提供了一种图像处理方法、装置、设备及存储介质,用于降低获取样本图像的成本。
一方面,本申请实施例提供了一种图像处理方法,该方法包括:
获取场景图像以及待处理图像,所述待处理图像包括目标对象;
提取所述场景图像的目标场景特征,以及提取所述目标对象的目标对象特征;
将所述目标场景特征与所述目标对象特征进行融合,获得目标场景迁移图像,所述目标场景迁移图像为所述目标对象在所述场景图像表征的场景下的图像。
一方面,本申请实施例提供了一种数据处理装置,该装置包括:
获取模块,用于获取场景图像以及待处理图像,所述待处理图像包括目标对象;
特征提取模块,用于提取所述场景图像的目标场景特征,以及提取所述目标对象的目标对象特征;
融合模块,用于将所述目标场景特征与所述目标对象特征进行融合,获得目标场景迁移图像,所述目标场景迁移图像为所述目标对象在所述场景图像表征的场景下的图像。
可选地,所述融合模块具体用于:
通过目标样本增强网络中的生成对抗网络,将所述目标场景特征与所述目标对象特征进行融合,获得目标场景迁移图像,所述目标样本增强网络是基于训练样本对初始化的样本增强网络进行多次迭代训练获得的。
可选地,所述特征提取模块具体用于:
通过所述目标样本增强网络中的特征提取网络,提取所述场景图像的图像表征向量,以及提取所述待处理图像的图像表征向量;
通过所述生成对抗网络,从所述场景图像的图像表征向量中,提取所述场景图像的目标场景特征,以及从所述待处理图像的图像表征向量中,提取所述目标对象的目标对象特征。
可选地,还包括第一模型训练模块;
所述目标样本增强网络包括特征提取网络和生成对抗网络,所述第一模型训练模块具体用于:
通过所述特征提取网络,提取第一样本图像的第一图像表征向量和第二样本图像的第二图像表征向量;
通过所述生成对抗网络,基于所述第一图像表征向量和所述第二图像表征向量,生成至少一个预测场景迁移图像,并分别确定所述至少一个预测场景迁移图像为真实图像的概率值;
基于所述生成对抗网络输出的各个概率值,分别对所述特征提取网络和所述生成对抗网络进行参数调整。
可选地,所述特征提取网络包括编码器和编码增强器;
所述第一模型训练模块具体用于:
通过所述编码器,将所述第一样本图像转化为第一特征图,以及将所述第二样本图像转化为第二特征图;
通过所述编码增强器,调整所述第一特征图在通道维度的权重,获得所述第一图像表征向量,以及调整所述第二特征图在通道维度的权重,获得所述第二图像表征向量。
可选地,所述生成对抗网络包括生成器和判别器;
所述第一模型训练模块具体用于:
通过所述生成器,基于所述第一图像表征向量和所述第二图像表征向量,生成至少一预测个场景迁移图像;
通过所述判别器,分别确定所述至少一个预测场景迁移图像为真实图像的概率值。
可选地,所述生成器包括第一子生成器和第二子生成器,所述至少一个预测场景迁移图像包括第一预测场景迁移图像和第二预测场景迁移图像;
所述第一模型训练模块具体用于:
通过所述第一子生成器,从所述第一图像表征向量中,提取所述第一样本图像包含的第一对象的第一对象特征,以及从所述第二图像表征向量中,提取所述第二样本图像的第二场景特征,并将所述第一对象特征和所述第二场景特征进行融合,获得所述第一预测场景迁移图像;
通过所述第二子生成器,从所述第一样本图像的图像表征向量中,提取所述第一样本图像的第一场景特征,以及从所述第二样本图像的图像表征向量中,提取所述第二样本图像包含的第二对象的第二对象特征,并将所述第一场景特征和所述第二对象特征进行融合,确定所述第二预测场景迁移图像。
可选地,所述判别器包括第一子判别器和第二子判别器;
所述第一模型训练模块具体用于:
通过所述第一子判别器,确定所述第一场景迁移预测图像为真实图像的第一概率值;
通过所述第二子判别器,确定所述第二场景迁移预测图像为真实图像的第二概率值。
可选地,所述第一模型训练模块还用于:
通过所述第一子生成器,将所述第一对象特征和所述第一场景特征进行融合,获得第一重构图像;
通过所述第二子生成器,将所述第二对象特征和所述第二场景特征进行融合,获得第二重构图像;
通过所述第一判别器,获得所述第一重构图像为真实图像的第三概率值;
通过所述第二判别器,获得所述第二重构图像为真实图像的第四概率值。
可选地,所述融合模块具体用于:
通过所述第一子生成器或所述第二子生成器,将所述目标场景特征与所述目标对象特征进行融合,获得目标场景迁移图像。
可选地,还包括第二模型训练模块;
所述目标对象包括自动驾驶环境中的目标障碍物,所述待处理图像为所述目标对象在白天场景下的图像,所述目标场景迁移图像为所述目标对象在夜晚场景下的图像;
所述第二模型训练模块具体用于:
将所述目标场景特征与所述目标对象特征进行融合,获得目标场景迁移图像之后,将所述目标障碍物在所述待处理图像中的第一标注信息,作为所述目标障碍物在所述目标场景迁移图像中的第二标注信息;
通过所述待处理图像、所述第一标注信息、所述目标场景迁移图像和所述第二标注信息,训练自动驾驶环境中的障碍检测模型。
一方面,本申请实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述图像处理方法的步骤。
一方面,本申请实施例提供了一种计算机可读存储介质,其存储有可由计算机设备执行的计算机程序,当所述程序在计算机设备上运行时,使得所述计算机设备执行上述图像处理方法的步骤。
本申请实施例中,通过将场景图像中的场景特征与待处理图像包含的目标对象的对象特征进行融合,实现在保留待处理图像中的目标对象的前提下,将待处理图像中的场景替换为场景图像表征的场景,以获得目标对象在场景图像表征的场景下的场景迁移图像,从而提高了图像的多样性,同时也为人工智能技术领域中的模型训练提供了样本扩充思路,即在神经网络模型迁移至新场景时,可以通过获得场景迁移图像来得到新场景下的训练样本,这样就不需要重新采集新场景下的训练样本,从而降低了获得新场景下的训练样本的成本。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种系统架构示意图;
图2为本申请实施例提供的一种图像处理方法的流程示意图;
图3为本申请实施例提供的一种标注信息的示意图;
图4为本申请实施例提供的一种目标样本增强网络的结构示意图;
图5为本申请实施例提供的一种训练目标样本增强网络的方法的流程示意图;
图6为本申请实施例提供的一种目标样本增强网络的结构示意图;
图7为本申请实施例提供的一种编码增强器的处理流程示意图;
图8为本申请实施例提供的一种目标样本增强网络的结构示意图;
图9为本申请实施例提供的一种目标样本增强网络的结构示意图;
图10为本申请实施例提供的一种目标样本增强网络的结构示意图;
图11为本申请实施例提供的一种目标样本增强网络的结构示意图;
图12为本申请实施例提供的一种目标样本增强网络的结构示意图;
图13为本申请实施例提供的一种目标样本增强网络的结构示意图;
图14为本申请实施例提供的一种样本增强方法的流程示意图;
图15为本申请实施例提供的一种图像处理装置的结构示意图;
图16为本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
为了方便理解,下面对本发明实施例中涉及的名词进行解释。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。比如,本申请实施例中采用机器学习技术将场景图像中场景特征与待处理图像中包含的目标对象的对象特征进行融合,获得目标对象在场景图像表征的场景下的场景迁移图像。
自动驾驶技术通常包括高精地图、环境感知、行为决策、路径规划、运动控制等技术,自定驾驶技术有着广泛的应用前景。目标检测技术是自动驾驶应用场景下十分核心的技术之一。自动驾驶中的目标检测主要针对动态障碍物(如车辆、行人)、静态障碍物进行检测(如车道线、杆牌)。在本申请实施例中,基于深度学习获得场景迁移图像后,可以基于场景迁移图像和待处理图像作为训练样本,训练用于目标检测的检测模型,从而减少人工标注的成本。
数据增广技术,针对深度学习技术数据匮乏的特性,有很多前沿技术进行了数据增广方面的研究探索。所谓数据增广,指以现有数据作为基础,采用一定的算法,将现有数据进行扩充的一种方法。根据增广算法的设计不同,可以有多种扩充方法。以图像为例,常见的增广方法包括随机裁剪(random crop)、光照调整(illumination)、翻转(flip)、旋转平移(rotation&translation)、缩放(scale)等等。
数据迁移:指将源数据分布下的数据,迁移至目标数据分布下。
生成对抗网络:(Generative Adversarial Networks,GAN)一种深度学习模型,是近年来复杂分布上无监督学习最具前景的方法之一。模型通过框架中(至少)两个模块:生成器(Generative Model)和判别器(Discriminative Model)的互相博弈学习产生相当好的输出。
下面对本申请实施例的设计思想进行介绍。
自动驾驶场景下的检测模型需要大量的图像作为训练样本进行训练,以保证场景覆盖度和检测效果。当检测模型迁移至新场景下时,往往需要获得新场景下的图像作为训练样本,再对检测模型进行迁移学习,以保证新场景下的适配能力。比如,以白天场景下的车辆图像为训练样本训练获得车辆检测模型。当车辆检测模型迁移至夜晚场景下用于检测夜晚的车辆时,需要获取夜晚场景下的车辆图像为训练样本来对车辆检测模型进行迁移学习,使得车辆检测模型在白天和夜晚都有好的检测效果。相关技术是通过重新采集新场景下的图像的方式获得训练样本,从而导致获取样本的成本高。
考虑到若基于已有的图像转化获得新场景下的样本图像,就不需要重新采集新场景下的图像,从而降低获取样本图像的成本。比如,若已有的图像为白天场景下的车辆图像,将已有的图像中的场景替换为夜晚场景,图像中的车辆保持不变,这样就能获得夜晚场景下的车辆图像。
鉴于此,本申请实施例提供了一种图像处理方法,该方法具体为:获取场景图像以及待处理图像,其中,待处理图像包括目标对象,然后提取场景图像的目标场景特征,以及提取目标对象的目标对象特征,再将目标场景特征与目标对象特征进行融合,获得目标场景迁移图像,其中,目标场景迁移图像为目标对象在场景图像表征的场景下的图像。
本申请实施例中,通过将场景图像中的场景特征与待处理图像包含的目标对象的对象特征进行融合,实现在保留待处理图像中的目标对象的前提下,将待处理图像中的场景替换为场景图像表征的场景,以获得目标对象在场景图像表征的场景下的场景迁移图像,从而提高了图像的多样性,同时也为人工智能技术领域中的模型训练提供了样本扩充思路,即在神经网络模型迁移至新场景时,可以通过获得场景迁移图像来得到新场景下的训练样本,这样就不需要重新采集新场景下的训练样本,从而降低了获得新场景下的训练样本的成本。
可选地,若检测模型需要已标注的图像样本进行训练,比如,以白天场景下的车辆图像为训练样本时,预先标记出了车辆图像中的车辆。当检测模型迁移至新场景下时,则需要获得新场景下的已标注图像作为训练样本,再对检测模型进行迁移学习,以保证新场景下的适配能力。这样不仅需要重新采集新场景下的图像,同时还要对重新采集的图像进行标注,从而导致需要花费大量的标注成本。
鉴于此,本申请实施例中,预先对待处理图像中的待检测对象进行标注,获得待检测对象在待处理图像中的第一标注信息,其中,待检测对象可以是目标对象,也可以是目标对象中的一个或多个子对象。将目标场景特征与目标对象特征进行融合,获得目标场景迁移图像之后,将待检测对象在待处理图像中的第一标注信息,作为待检测对象在目标场景迁移图像中的第二标注信息。然后采用待处理图像、第一标注信息、目标场景迁移图像以及第二标注信息,训练检测模型。
本申请实施例中,在保留待处理图像中的待检测对象的前提下,替换待处理图像的场景,同时将待检测对象在待处理图像中的第一标注信息,作为待检测对象在目标场景迁移图像中的第二标注信息,获得待检测对象在新场景下的带有标注信息的目标场景迁移图像,故神经网络模型迁移至新场景时,可以将获得的带有标注信息的目标场景迁移图像作为新场景下的训练样本,而不需要针对新场景,重新采集新场景下的图像并人工对图像进行标注,从而大大降低了标注成本。
在介绍完本申请实施例的设计思想之后,下面对本申请实施例的技术方案能够适用的应用场景做一些简单介绍,需要说明的是,以下介绍的应用场景仅用于说明本申请实施例而非限定。在具体实施时,可以根据实际需要灵活地应用本申请实施例提供的技术方案。
应用场景一、自动驾驶场景中的障碍物检测。
设定已有样本集合中包括的N张待处理图像,待处理图像为在白天场景下拍摄的道路图像,待处理图像中的目标对象为待处理图像中所有的物体,比如道路、车辆、行人、路灯、路边建筑、花坛等,待检测对象为车辆,预先对待处理图像中的车辆进行标注,获得第一标注信息。场景图像为夜晚场景下拍摄的道路图像。
针对已有样本集合中的每张待处理图像,执行以下步骤:获取场景图像以及包含目标对象的待处理图像,然后提取场景图像的目标场景特征,以及提取目标对象的目标对象特征,再将目标场景特征与目标对象特征进行融合,获得目标场景迁移图像,其中,目标场景迁移图像为目标对象在场景图像表征的场景下的图像。将待检测对象在待处理图像中的第一标注信息,作为待检测对象在目标场景迁移图像中的第二标注信息。
对已有样本集合中的每张待处理图像进行上述处理后,获得目标场景迁移图像集合,实现在不需要重新获取新场景下的图像并人工标注的情况下,对新场景下的图像进行了扩充,从而降低样本扩充的成本。进一步地,通过已有样本集合以及目标场景迁移图像集合,训练自动驾驶场景中的障碍物检测模型,使获得的障碍物检测模型在白天和夜晚检测车辆时都能获得好的检测效果,提升障碍物检测模型的场景泛化能力,同时提升检测障碍物的精度。
应用场景二、安防监控场景中的行人识别。
设定已有样本集合中包括的M张待处理图像,待处理图像为在晴天场景下小区门口的监控图像,待处理图像中的目标对象为待处理图像中所有的物体,比如道路、车辆、行人、保安亭、栅栏道闸等,待检测对象为行人,预先对待处理图像中的行人进行标注,获得第一标注信息。场景图像为阴天场景下拍摄的图像。
针对已有样本集合中的每张待处理图像,执行以下步骤:获取场景图像以及包含目标对象的待处理图像,然后提取场景图像的目标场景特征,以及提取目标对象的目标对象特征,再将目标场景特征与目标对象特征进行融合,获得目标场景迁移图像,其中,目标场景迁移图像为目标对象在场景图像表征的场景下的图像。将待检测对象在待处理图像中的第一标注信息,作为待检测对象在目标场景迁移图像中的第二标注信息。
对已有样本集合中的每张待处理图像进行上述处理后,获得目标场景迁移图像集合,实现在不需要重新获取新场景下的图像并人工标注的情况下,对新场景下的图像进行了扩充,从而降低样本扩充的成本。进一步地,通过已有样本集合以及目标场景迁移图像集合,训练安防监控场景中的行人识别模型,使获得的行人识别模型在晴天和阴天识别行人时都能获得好的识别效果,提升行人识别模型的场景泛化能力,同时提升识别行人的准确性。
应用场景三、替换照片中的场景。
设定待处理图像为用户在白天场景下的自拍照,场景图像为夜晚场景下拍摄的图像,待处理图像中的目标对象为待处理图像中的所有人物。提取场景图像的目标场景特征,以及提取待处理图像中的目标对象的目标对象特征,再将目标场景特征与目标对象特征进行融合,获得目标场景迁移图像,其中,目标场景迁移图像为待处理图像中的所有人物在夜晚场景下的图像。
需要说明的是,本申请实施例中的图像处理方法并不仅限于应用在上述几种应用场景,可以是与图像识别和检测相关的任意场景,对此,本申请不做具体限定。
参考图1,其为本申请实施例提供的图像处理方法的系统架构图。该架构至少包括终端设备101以及服务器102。
终端设备101中可以安装有目标应用,其中,目标应用可以是客户端应用、网页版应用、小程序应用等,目标应用可以用于替换图像中的场景。终端设备101可以包括一个或多个处理器1011、存储器1012、与服务器102交互的I/O接口1013以及显示面板1014等。终端设备101可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。
服务器102可以是目标应用的后台服务器,为目标应用提供相应的服务,服务器102可以包括一个或多个处理器1021、存储器1022以及与终端设备101交互的I/O接口1023等。此外,服务器102还可以配置数据库1024。服务器102可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备101与服务器102可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
本申请实施例中的图像处理方法可以是终端设备101执行,也可以是服务器102执行。
第一种情况,图像处理方法可以是终端设备101执行。
终端设备101获取场景图像以及待处理图像,其中,待处理图像包括目标对象,然后提取场景图像的目标场景特征,以及提取目标对象的目标对象特征,再将目标场景特征与目标对象特征进行融合,获得目标场景迁移图像,其中,目标场景迁移图像为目标对象在场景图像表征的场景下的图像。终端设备101在显示界面中展示目标场景迁移图像。
第二种情况,图像处理方法可以是服务器102执行。
终端设备101获取场景图像以及待处理图像,其中,待处理图像包括目标对象,然后将场景图像和待处理图像发送给服务器102,服务器102提取场景图像的目标场景特征,以及提取目标对象的目标对象特征,再将目标场景特征与目标对象特征进行融合,获得目标场景迁移图像,其中,目标场景迁移图像为目标对象在场景图像表征的场景下的图像。服务器102将目标场景迁移图像发送给终端设备101,终端设备101在显示界面中展示目标场景迁移图像。
基于图1所示的系统架构图,本申请实施例提供了一种图像处理方法的流程,如图2所示,该方法的流程可以由图1所示的终端设备101或服务器102执行,包括以下步骤:
步骤S201,获取场景图像以及待处理图像。
具体地,待处理图像包括目标对象,场景图像为用于表征特定场景的图像,其中,特定场景可以是与天气相关的场景,比如晴天场景、阴天场景、下雨场景、下雪场景等。特定场景也可以是与时间相关的场景,比如白天场景、夜晚场景等。特定场景还可以是与地点相关的场景,比如室内场景、室外场景等。特定场景还可以其他场景,对此,本申请不做具体限定。目标对象可以是待处理图像中的所有或部分物体。
示例性地,设定待处理图像中的目标对象为待处理图像中所有的物体,待处理图像为在白天场景下拍摄的道路图像,待处理图像中包括道路、车辆、行人、路灯以及路边建筑,则道路、车辆、行人、路灯以及路边建筑均为目标对象。
步骤S202,提取场景图像的目标场景特征,以及提取目标对象的目标对象特征。
具体地,场景图像可以是包括物体的图像,也可以是不包括物体的图像,当场景图像中包括与场景无关的物体时,场景图像的目标场景特征可以是场景图像中除该物体以外其他图像信息的特征。
步骤S203,将目标场景特征与目标对象特征进行融合,获得目标场景迁移图像。
具体地,目标场景迁移图像为目标对象在场景图像表征的场景下的图像。
示例性地,设定待处理图像为在白天场景下拍摄的道路图像,待处理图像中的目标对象为行人、路灯以及路边建筑,场景图像为在夜晚场景下拍摄的道路图像,则获得的目标场景迁移图像为待处理图像中的行人、路灯以及路边建筑在夜晚场景下的图像。
本申请实施例中,通过将场景图像中的场景特征与待处理图像包含的目标对象的对象特征进行融合,实现在保留待处理图像中的目标对象的前提下,将待处理图像中的场景替换为场景图像表征的场景,以获得目标对象在场景图像表征的场景下的场景迁移图像,从而提高了图像的多样性,同时也为人工智能技术领域中的模型训练提供了样本扩充思路,即在神经网络模型迁移至新场景时,可以通过获得场景迁移图像来得到新场景下的训练样本,这样就不需要重新采集新场景下的训练样本,从而降低了获得新场景下的训练样本的成本。
可选地,在自动驾驶场景中,设定待处理图像为目标对象在白天场景下的图像,目标场景迁移图像为目标对象在夜晚场景下的图像,目标对象包括自动驾驶环境中的目标障碍物,目标障碍物可以是车辆、行人、路灯等。
将目标场景特征与目标对象特征进行融合,获得目标场景迁移图像之后,将目标障碍物在待处理图像中的第一标注信息,作为目标障碍物在所述目标场景迁移图像中的第二标注信息,然后通过待处理图像、第一标注信息、目标场景迁移图像和第二标注信息,训练自动驾驶环境中的障碍检测模型。
具体实施中,标注信息可以是通过人工标注获得的,也可以是采用图像标注工具标注获得的,比如bbox(bounding box)标注。目标场景迁移图像与待处理图像为同尺寸的图像,并且,待处理图像包含的目标障碍物在目标场景迁移图像中的位置未发生变化,因此,可以直接将目标障碍物在待处理图像中的第一标注信息,作为目标障碍物在目标场景迁移图像中的第二标注信息。
示例性地,如图3所示,待处理图像为白天场景拍摄下的图像,待处理图像包含的目标对象为车辆、信号灯,其中,目标障碍物为车辆。预先人工对待处理图像中的车辆进行标注,获得车辆的标注框301。在获得目标场景迁移图像之后,目标场景迁移图像为待处理图像中包含的车辆、信号灯在夜晚场景下的图像,车辆、信号灯的位置未发生变化,则直接将车辆的标注框301作为目标场景迁移图像中车辆的标注框。
本申请实施例中,基于白天场景下的已标注的样本图像,获得夜晚场景下的已标注的样本图像,实现在不需要重新获取新场景下的图像并人工标注的情况下,对新场景下的图像进行了扩充,从而降低样本扩充以及人工标注的成本。进一步地,通过已有样本集合以及目标场景迁移图像集合,训练自动驾驶场景中的障碍物检测模型,使获得的障碍物检测模型在白天和夜晚检测车辆时都能获得好的检测效果,提升障碍物检测模型的场景泛化能力,同时提升检测障碍物的精度。
可选地,在步骤S202和步骤S203中,通过目标样本增强网络中的特征提取网络,提取场景图像的图像表征向量,以及提取待处理图像的图像表征向量。通过目标样本增强网络中的生成对抗网络,从场景图像的图像表征向量中,提取场景图像的目标场景特征,以及从待处理图像的图像表征向量中,提取目标对象的目标对象特征。通过目标样本增强网络中的生成对抗网络,将目标场景特征与所述目标对象特征进行融合,获得目标场景迁移图像。
具体地,如图4所示,目标样本增强网络包括特征提取网络401和生成对抗网络402,目标样本增强网络是基于训练样本对初始化的样本增强网络进行多次迭代训练获得的,每次迭代过程包括以下步骤,如图5所示:
步骤S501,通过特征提取网络,提取第一样本图像的第一图像表征向量和第二样本图像的第二图像表征向量。
具体实施中,第一样本图像和第二样本图像为不同场景下的图像,第一样本图像包括第一对象,第一对象可以是第一样本图像中的所有或部分物体,第二样本图像中包括第二对象,第二对象可以是第二样本图像中的所有或部分物体。
示例性的,第一场景图像为白天场景下的道路图像,其中,第一场景图像包含的第一对象为车辆R、路灯T、建筑U。第二样本图像为夜晚场景下的道路图像,第二场景图像包含的第二对象为车辆X、路灯Y、红绿灯Z。
步骤S502,通过生成对抗网络,基于第一图像表征向量和第二图像表征向量,生成至少一个预测场景迁移图像,并分别确定至少一个预测场景迁移图像为真实图像的概率值。
具体地,预测场景迁移图像可以是第一样本图像中的第一对象在第二样本图像表征场景下的图像,也可以是第二样本图像中的第二对象在第一样本图像表征场景下的图像。
示例性地,预测场景迁移图像可以是车辆R、路灯T、建筑U在夜晚场景下的图像,也可以是车辆X、路灯Y、红绿灯Z在白天场景下图像。
步骤S503,基于生成对抗网络输出的各个概率值,分别对特征提取网络和生成对抗网络进行参数调整。
具体地,每次迭代训练过程中,判断生成对抗网络输出的各个概率值是否满足预设条件,若是,则训练结束,否则基于生成对抗网络输出的各个概率值,分别对特征提取网络和生成对抗网络进行参数调整,然后进入下一次的迭代训练过程。
本申请实施例中,训练获得的目标样本增强网络学习了样本图像与预测场景迁移图像之间的映射关系,故通过训练获得的目标样本增强网络可以自动基于包含目标对象的待处理图像生成目标对象在新场景下的场景迁移图像,从而增加了图像的多样性,同时在神经网络模型迁移至新场景时可以提供新场景下的训练样本图像,节约了获得新场景下的训练样本的成本。
可选地,在上述步骤S501,特征提取网络包括编码器和编码增强器,具体如图6所示。通过编码器,将第一样本图像转化为第一特征图,以及将第二样本图像转化为第二特征图。通过编码增强器,调整第一特征图在通道维度的权重,获得第一图像表征向量,以及调整第二特征图在通道维度的权重,获得第二图像表征向量。
具体实施中,第一特征图和第二特征图均为采用通道×宽×高(c*h*w)的特征表征形式表征的特征图,编码器是任意可以将样本图像的RGB图像信息编码为c*h*w形式的网络结构。比如,编码器可以是卷积神经网络,具体可以是卷积神经网络中的vgg16,resnet等。
由于c*h*w形式的特征图中,并不是所有信息都对样本增强网络的训练任务有用。于是通过设计编码增强器,学习出在通道维度c上,每个h*w特征图对样本增强网络的训练任务的贡献程度,然后调整通道维度c的权重,从而加强特征图与样本增强网络的训练任务的契合程度。
具体地,以第一特征图举例来说明编码增强器的处理过程,如图7所示,第一特征图为c*h*w形式的特征图,编码增强器先对第一特征图进行均值池化(global averagepooling,gap)操作,获得1*1*c的特征向量v。然后将特征向量v代入以下公式(1),确定通道维度的权重分配向量
Figure BDA0002905058060000171
Fsig=sigmoid(W2*ReLU(W1*v))…………(1)
其中,Fsig为权重分配向量
Figure BDA0002905058060000172
中各个维度的数值,W1和W2为样本增强网络训练过程中需要调整的参数,训练结束后,W1和W2为调整后的固定参数。
之后再将通道维度的权重分配向量
Figure BDA0002905058060000173
与第一特征图进行通道维度相乘,获得第一图像表征向量,即第一样本图像在隐层空间中的图像表征向量。编码增强器对第二特征图像的处理过程与对第一特征图像的处理过程相同,此处不再赘述。
一种可能的实施方式,如图8所示,编码器包括第一子编码器和第二子编码器,编码增强器包括第一子编码增强器和第二子编码增强器。通过第一子编码器,将第一样本图像转化为第一特征图。通过第二子编码器,将第二样本图像转化为第二特征图。通过第一子编码增强器,调整第一特征图在通道维度的权重,获得第一图像表征向量。通过第二子编码增强器,调整第二特征图在通道维度的权重,获得第二图像表征向量。
在训练结束后,可以采用第一子编码器对场景图像进行编码,获得场景图像的特征图,然后采用第一子编码增强器,调整场景图像的特征图在通道维度的权重,获得场景图像的图像表征向量。采用第二子编码器对待处理图像进行编码,获得待处理图像的特征图,然后采用第二子编码增强器,调整待处理图像的特征图在通道维度的权重,获得待处理图像的图像表征向量。也可以采用第一子编码器对待处理图像进行编码,获得待处理图像的特征图,然后采用第一子编码增强器,调整待处理图像的特征图在通道维度的权重,获得待处理图像的图像表征向量。采用第二子编码器对场景图像进行编码,获得场景图像的特征图,然后采用第二子编码增强器,调整场景图像的特征图在通道维度的权重,获得场景图像的图像表征向量。
本申请实施中,在每次迭代训练过程中,通过编码器将样本图像进行编码获得特征图,然后采用编码增强器调整特征图像在通道维度的权重,获得图像表征向量,使获得的图像表征向量不断接近真实图像的图像特征,从而提升生成对抗网络生成的场景迁移图像的真实性。
可选地,在上述步骤S502中,生成对抗网络包括生成器和判别器,具体如图9所示。通过生成器,基于第一图像表征向量和第二图像表征向量,生成至少一个预测场景迁移图像。通过判别器,分别确定至少一个预测场景迁移图像为真实图像的概率值。
具体实施中,生成器中的模块包括卷积模块(Conv)、批量归一化模块(BN)、激励模块(ReLU)、上采样模块(Upsample)等。生成器通过控制上采样模块的步长数量,将第一图像表征向量映射为与第一样本图像同尺寸的预测场景迁移图像,其中,预测场景迁移图像为RGB图像。判别器中的模块包括卷积模块(Conv)、批量归一化模块(BN)、激励模块(ReLU)等。上述至少一个预测场景迁移图像可以是由一个生成器生成的,由多个生成器分别生成的。相应地,在判断上述至少一个预测场景迁移图像为真实图像的概率值时,可以由一个判别器来判断,也可以由多个判别器分别进行判断,对此,本申请不做具体限定。
一种可能的实施方式,如图10所示,生成器包括第一子生成器和第二子生成器,至少一个预测场景迁移图像包括第一预测场景迁移图像和第二预测场景迁移图像。
通过第一子生成器,从第一图像表征向量中,提取第一样本图像包含的第一对象的第一对象特征,以及从第二图像表征向量中,提取第二样本图像的第二场景特征,并将第一对象特征和第二场景特征进行融合,获得第一预测场景迁移图像。
通过第二子生成器,从第一样本图像的图像表征向量中,提取第一样本图像的第一场景特征,以及从第二样本图像的图像表征向量中,提取第二样本图像包含的第二对象的第二对象特征,并将第一场景特征和第二对象特征进行融合,确定第二预测场景迁移图像。
一种可能的实施方式,如图11所示,判别器包括第一子判别器和第二子判别器。
通过第一子判别器,确定第一场景迁移预测图像为真实图像的第一概率值,通过第二子判别器,确定第二场景迁移预测图像为真实图像的第二概率值。
在获得第一概率值和第二概率值之后,基于第一概率值和第二概率值,分别对特征提取网络和生成对抗网络进行参数调整。
本申请实施例中,通过第一子生成器和第二子生成器分别生成第一预测场景迁移图像和第二预测场景迁移图像,然后通过第一子判别器和第二子判别器分别判断第一预测场景迁移图像和第二预测场景迁移图像为真实图像的概率值,由于第一子生成器和第二子生成器为对称关系,第一子判别器和第二子判别器为对称关系,从而保证了样本增强网络在结构上的平衡性,提升了样本增强网络的鲁棒性。另外,训练获得的目标样本增强网络可以生成两种场景迁移图像,便于用户根据需求实现不同样本增广,降低获取样本图像的成本。
可选地,如图12所示,通过第一子生成器,将第一对象特征和第一场景特征进行融合,获得第一重构图像;通过第二子生成器,将第二对象特征和第二场景特征进行融合,获得第二重构图像。通过第一判别器,获得第一重构图像为真实图像的第三概率值;通过第二判别器,获得第二重构图像为真实图像的第四概率值。
具体实施中,通过第一子生成器,从第一图像表征向量中,提取第一样本图像包含的第一对象的第一对象特征,以及从第一图像表征向量中,提取第一样本图像的第一场景特征,然后将第一对象特征和第一场景特征进行融合,获得第一重构图像。
通过第二子生成器,从第二图像表征向量中,提取第二样本图像包含的第二对象的第二对象特征,以及从第二图像表征向量中,提取第二样本图像的第二场景特征,然后将第二对象特征和第二场景特征进行融合,获得第二重构图像。
在获得第一概率值、第二概率值、第三概率值和第四概率值之后,基于第一概率值、第二概率值、第三概率值和第四概率值,分别对特征提取网络和生成对抗网络进行参数调整。
可选地,由于在训练过程中,第一重构图像不断接近第一样本图像,第二重构图像不断接近第二样本图像,而第一场景迁移预测图像不断区别于第一样本图像,第二场景迁移预测图像不断区别于第二样本图像,因此针对第一子生成器输出的第一重构图像和第一场景迁移预测图像,第一子判别器还可以分别判断第一重构图像和第一场景迁移预测图像为第一样本图像的概率值,即确定第一重构图像和第一场景迁移预测图像分别所属的类别,类别具体包括第一样本图像和迁移图像。针对第二子生成器输出的第二重构图像和第二场景迁移预测图像,第二子判别器还可以分别判断第二重构图像和第二场景迁移预测图像为第二样本图像的概率值,即确定第二重构图像和第二场景迁移预测图像分别所属的类别,类别具体包括第二样本图像和迁移图像。
在获得第一概率值、第二概率值、第三概率值、第四概率值、第一重构图像和第一场景迁移预测图像分别为第一样本图像的概率值以及第二重构图像和第二场景迁移预测图像分别为第二样本图像的概率值之后,基于获得的概率值分别对特征提取网络和生成对抗网络进行参数调整。
在训练结束后,可以采用第一子生成器或第二子生成器,从场景图像的图像表征向量中,提取场景图像的目标场景特征,以及从待处理图像的图像表征向量中,提取目标对象的目标对象特征,然后将目标场景特征与目标对象特征进行融合,获得目标场景迁移图像。
本申请实施例中,通过第一子生成器生成第一预测场景迁移图像和第一重构图像,通过第二子生成器生成第二预测场景迁移图像和第二重构图像。通过第一子判别器,判断第一预测场景迁移图像和第一重构图像为真实图像的概率值以及第一预测场景迁移图像和第一重构图像为第一样本图像的概率值。通过第二子判别器,判断第二预测场景迁移图像和第二重构图像为真实图像的概率值以及第二预测场景迁移图像和第二重构图像为第二样本图像的概率值。由于第一子生成器和第二子生成器为对称关系,第一子判别器和第二子判别器为对称关系,从而保证了样本增强网络在结构上的平衡性,提升样本增强网络的鲁棒性。另外,基于判别器输出的多个概率值对样本增强网络进行参数调整,提升了获得的样本增强网络的性能。
为了更好地解释本申请实施例,下面以自动驾驶场景为例,介绍本申请实施例提供的一种图像处理方法。首先介绍图像处理方法中涉及的目标样本增强网络的网络结构以及训练目标样本增强网络的过程,目标样本增强网络的网络结构如图13所示,包括第一子编码器、第二子编码器、第一子编码增强器、第二子编码增强器、第一子生成器、第二子生成器、第一子判别器和第二子判别器。
设定训练样本包括图像A和图像B,其中,图像A为白天场景下拍摄的图像,图像B为夜晚场景下拍摄的图像,目标样本增强网络是基于训练样本对初始化的样本增强网络进行多次迭代训练获得的,每次迭代训练过程如下:
将图像A输入第一子编码器,第一子编码器对图像A进行编码操作,将RGB图像信息编码为c*h*w的特征图表达形式,获得第一特征图。然后将第一特征图输入第一子编码增强器,第一子编码增强器对第一特征图进行特征增强,获得第一图像表征向量,即隐层空间中的图像表征向量ZA
将图像B输入第二子编码器,第二子编码器对图像B进行编码操作,将RGB图像信息编码为c*h*w的特征图表达形式,获得第二特征图。然后将第二特征图输入第二子编码增强器,第二子编码增强器对第二特征图进行特征增强,获得第二图像表征向量,即隐层空间中的图像表征向量ZB
第一子生成器从图像表征向量ZA中,提取图像A包含的第一对象的第一对象特征,以及从图像表征向量ZA中,提取图像A的第一场景特征,并将第一对象特征和第一场景特征进行融合,获得图像AA,图像AA为图像A的重构图像,理想结果是与图像A完全一致。
第一子生成器从图像表征向量ZA中,提取图像A包含的第一对象的第一对象特征,以及从图像表征向量ZB中,提取图像B的第二场景特征,并将第一对象特征和第二场景特征进行融合,获得图像AB,图像AB为图像A包含的第一对象在图像B表征的场景(夜晚)下的图像。
第二子生成器从图像表征向量ZB中,提取图像B包含的第二对象的第二对象特征,以及从图像表征向量ZB中,提取图像B的第二场景特征,并将第二对象特征和第二场景特征进行融合,获得图像BB,图像BB为图像B的重构图像,理想结果是与图像B完全一致。
第二子生成器从图像表征向量ZB中,提取图像B包含的第二对象的第二对象特征,以及从图像表征向量ZA中,提取图像A的第一场景特征,并将第二对象特征和第一场景特征进行融合,获得图像BA,图像BA为图像B包含的第二对象在图像A表征的场景(白天)下的图像。
第一子判别器,分别判断图像AA和图像AB为真实图像的概率值,以及分别判断图像AA和图像AB为图像A的概率值。
第二子判别器,分别判断图像BB和图像BA为真实图像的概率值,以及分别判断图像BB和图像BA为图像A的概率值。
当第一子判断器和第二子判别器输出的概率值满足预设条件时,结束训练,否则基于第一子判断器和第二子判别器输出的概率值,对目标样本增强网络进行参数调整,然后进入下一个迭代训练过程。
在训练获得目标样本增强网络之后,采用目标样本增强网络对自动驾驶场景中的图像样本进行增广,具体如图14所示,包括以下步骤:
设定图像集J为白天场景下的图像数据,其中,图像集J带有标注信息j。图像集K夜晚场景下的图像数据,图像集K中的图像没有标注信息。将图像集J和图像集K输入训练好的目标样本增强网络,获得图像集JK以及图像集JK对应的标注信息jk,其中,图像集JK中的图像为图像集J中各个图像替换为夜晚场景后获得的图像,图像集JK对应的标注信息jk为图像集J带有标注信息j。再基于图像集J和图像集JK,构造出数据增广后的自动驾驶数据集合,之后再将自动驾驶数据集合作为有监督学习网络的输入,便可以达到对该有监督学习进行样本场景增广的目的。
以自动驾驶场景下的车辆检测举例来说,设定图像集J带有的标注信息j为图像中车辆bbox标注,在获取自动驾驶数据集合后,基于自动驾驶数据集合训练车辆检测模型。这样车辆检测模型在白天和夜晚检测车辆时都能获得好的检测效果,提升障碍物检测模型的场景泛化能力,同时提升检测障碍物的精度。另外,不需要人工对夜晚场景下的图像数据进行标注,节约了标注成本。
基于相同的技术构思,本申请实施例提供了一种数据处理装置的结构示意图,如图15所示,该装置1500包括:
获取模块1501,用于获取场景图像以及包含目标对象的待处理图像;
特征提取模块1502,用于提取所述场景图像的目标场景特征,以及提取所述目标对象的目标对象特征;
融合模块1503,用于将所述目标场景特征与所述目标对象特征进行融合,获得目标场景迁移图像,所述目标场景迁移图像为所述目标对象在所述场景图像表征的场景下的图像。
可选地,所述融合模块1503具体用于:
通过目标样本增强网络中的生成对抗网络,将所述目标场景特征与所述目标对象特征进行融合,获得目标场景迁移图像,所述目标样本增强网络是基于训练样本对初始化的样本增强网络进行多次迭代训练获得的。
可选地,所述特征提取模块1502具体用于:
通过所述目标样本增强网络中的特征提取网络,提取所述场景图像的图像表征向量,以及提取所述待处理图像的图像表征向量;
通过所述生成对抗网络,从所述场景图像的图像表征向量中,提取所述场景图像的目标场景特征,以及从所述待处理图像的图像表征向量中,提取所述目标对象的目标对象特征。
可选地,还包括第一模型训练模块1504;
所述目标样本增强网络包括特征提取网络和生成对抗网络,所述第一模型训练模块具体用于:
通过所述特征提取网络,提取第一样本图像的第一图像表征向量和第二样本图像的第二图像表征向量;
通过所述生成对抗网络,基于所述第一图像表征向量和所述第二图像表征向量,生成至少一个预测场景迁移图像,并分别确定所述至少一个预测场景迁移图像为真实图像的概率值;
基于所述生成对抗网络输出的各个概率值,分别对所述特征提取网络和所述生成对抗网络进行参数调整。
可选地,所述特征提取网络包括编码器和编码增强器;
所述第一模型训练模块1504具体用于:
通过所述编码器,将所述第一样本图像转化为第一特征图,以及将所述第二样本图像转化为第二特征图;
通过所述编码增强器,调整所述第一特征图在通道维度的权重,获得所述第一图像表征向量,以及调整所述第二特征图在通道维度的权重,获得所述第二图像表征向量。
可选地,所述生成对抗网络包括生成器和判别器;
所述第一模型训练模块1504具体用于:
通过所述生成器,基于所述第一图像表征向量和所述第二图像表征向量,生成至少一预测个场景迁移图像;
通过所述判别器,分别确定所述至少一个预测场景迁移图像为真实图像的概率值。
可选地,所述生成器包括第一子生成器和第二子生成器,所述至少一个预测场景迁移图像包括第一预测场景迁移图像和第二预测场景迁移图像;
所述第一模型训练模块1504具体用于:
通过所述第一子生成器,从所述第一图像表征向量中,提取所述第一样本图像包含的第一对象的第一对象特征,以及从所述第二图像表征向量中,提取所述第二样本图像的第二场景特征,并将所述第一对象特征和所述第二场景特征进行融合,获得所述第一预测场景迁移图像;
通过所述第二子生成器,从所述第一样本图像的图像表征向量中,提取所述第一样本图像的第一场景特征,以及从所述第二样本图像的图像表征向量中,提取所述第二样本图像包含的第二对象的第二对象特征,并将所述第一场景特征和所述第二对象特征进行融合,确定所述第二预测场景迁移图像。
可选地,所述判别器包括第一子判别器和第二子判别器;
所述第一模型训练模块1504具体用于:
通过所述第一子判别器,确定所述第一场景迁移预测图像为真实图像的第一概率值;
通过所述第二子判别器,确定所述第二场景迁移预测图像为真实图像的第二概率值。
可选地,所述第一模型训练模块1504还用于:
通过所述第一子生成器,将所述第一对象特征和所述第一场景特征进行融合,获得第一重构图像;
通过所述第二子生成器,将所述第二对象特征和所述第二场景特征进行融合,获得第二重构图像;
通过所述第一判别器,获得所述第一重构图像为真实图像的第三概率值;
通过所述第二判别器,获得所述第二重构图像为真实图像的第四概率值。
可选地,所述融合模块1503具体用于:
通过所述第一子生成器或所述第二子生成器,将所述目标场景特征与所述目标对象特征进行融合,获得目标场景迁移图像。
可选地,还包括第二模型训练模块1505;
所述目标对象包括自动驾驶环境中的目标障碍物,所述待处理图像为所述目标对象在白天场景下的图像,所述目标场景迁移图像为所述目标对象在夜晚场景下的图像;
所述第二模型训练模块1505具体用于:
将所述目标场景特征与所述目标对象特征进行融合,获得目标场景迁移图像之后,将所述目标障碍物在所述待处理图像中的第一标注信息,作为所述目标障碍物在所述目标场景迁移图像中的第二标注信息;
通过所述待处理图像、所述第一标注信息、所述目标场景迁移图像和所述第二标注信息,训练自动驾驶环境中的障碍检测模型。
本申请实施例中,通过将场景图像中的场景特征与待处理图像包含的目标对象的对象特征进行融合,实现在保留待处理图像中的目标对象的前提下,将待处理图像中的场景替换为场景图像表征的场景,以获得目标对象在场景图像表征的场景下的场景迁移图像,从而提高了图像的多样性,同时也为人工智能技术领域中的模型训练提供了样本扩充思路,即在神经网络模型迁移至新场景时,可以通过获得场景迁移图像来得到新场景下的训练样本,这样就不需要重新采集新场景下的训练样本,从而降低了获得新场景下的训练样本的成本。另外,实现在不需要重新获取新场景下的图像并人工标注的情况下,对新场景下的图像进行了扩充,从而降低人工标注的成本。进一步地,通过已有样本集合以及目标场景迁移图像集合,训练自动驾驶场景中的障碍物检测模型,使获得的障碍物检测模型在白天和夜晚检测车辆时都能获得好的检测效果,提升障碍物检测模型的场景泛化能力,同时提升检测障碍物的精度。
基于相同的技术构思,本申请实施例提供了一种计算机设备,如图16所示,包括至少一个处理器1601,以及与至少一个处理器连接的存储器1602,本申请实施例中不限定处理器1601与存储器1602之间的具体连接介质,图16中处理器1601和存储器1602之间通过总线连接为例。总线可以分为地址总线、数据总线、控制总线等。
在本申请实施例中,存储器1602存储有可被至少一个处理器1601执行的指令,至少一个处理器1601通过执行存储器1602存储的指令,可以执行前述图像处理方法中所包括的步骤。
其中,处理器1601是计算机设备的控制中心,可以利用各种接口和线路连接计算机设备的各个部分,通过运行或执行存储在存储器1602内的指令以及调用存储在存储器1602内的数据,从而进行图像处理以及样本增广。可选的,处理器1601可包括一个或多个处理单元,处理器1601可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1601中。在一些实施例中,处理器1601和存储器1602可以在同一芯片上实现,在一些实施例中,它们也可以在独立的芯片上分别实现。
处理器1601可以是通用处理器,例如中央处理器(CPU)、数字信号处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器1602作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器1602可以包括至少一种类型的存储介质,例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory,RAM)、静态随机访问存储器(Static Random Access Memory,SRAM)、可编程只读存储器(Programmable Read Only Memory,PROM)、只读存储器(Read Only Memory,ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性存储器、磁盘、光盘等等。存储器1602是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。本申请实施例中的存储器1602还可以是电路或者其它任意能够实现存储功能的装置,用于存储程序指令和/或数据。
基于同一发明构思,本申请实施例提供了一种计算机可读存储介质,其存储有可由计算机设备执行的计算机程序,当程序在计算机设备上运行时,使得计算机设备执行上述图像处理方法的步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (14)

1.一种图像处理方法,其特征在于,包括:
获取场景图像以及待处理图像,所述待处理图像包括目标对象;
提取所述场景图像的目标场景特征,以及提取所述目标对象的目标对象特征;
将所述目标场景特征与所述目标对象特征进行融合,获得目标场景迁移图像,所述目标场景迁移图像为所述目标对象在所述场景图像表征的场景下的图像。
2.如权利要求1所述的方法,其特征在于,所述将所述目标场景特征与所述目标对象特征进行融合,获得目标场景迁移图像,包括:
通过目标样本增强网络中的生成对抗网络,将所述目标场景特征与所述目标对象特征进行融合,获得目标场景迁移图像,所述目标样本增强网络是基于训练样本对初始化的样本增强网络进行多次迭代训练获得的。
3.如权利要求2所述的方法,其特征在于,所述提取所述场景图像的目标场景特征,以及提取所述目标对象的目标对象特征,包括:
通过所述目标样本增强网络中的特征提取网络,提取所述场景图像的图像表征向量,以及提取所述待处理图像的图像表征向量;
通过所述生成对抗网络,从所述场景图像的图像表征向量中,提取所述场景图像的目标场景特征,以及从所述待处理图像的图像表征向量中,提取所述目标对象的目标对象特征。
4.如权利要求2所述的方法,其特征在于,所述目标样本增强网络包括特征提取网络和生成对抗网络,所述目标样本增强网络是采用以下方式训练的:
在每次迭代过程中,包括:
通过所述特征提取网络,提取第一样本图像的第一图像表征向量和第二样本图像的第二图像表征向量;
通过所述生成对抗网络,基于所述第一图像表征向量和所述第二图像表征向量,生成至少一个预测场景迁移图像,并分别确定所述至少一个预测场景迁移图像为真实图像的概率值;
基于所述生成对抗网络输出的各个概率值,分别对所述特征提取网络和所述生成对抗网络进行参数调整。
5.如权利要求4所述的方法,其特征在于,所述特征提取网络包括编码器和编码增强器;
所述通过所述特征提取网络,提取第一样本图像的第一图像表征向量和第二样本图像的第二图像表征向量,包括:
通过所述编码器,将所述第一样本图像转化为第一特征图,以及将所述第二样本图像转化为第二特征图;
通过所述编码增强器,调整所述第一特征图在通道维度的权重,获得所述第一图像表征向量,以及调整所述第二特征图在通道维度的权重,获得所述第二图像表征向量。
6.如权利要求4所述的方法,其特征在于,所述生成对抗网络包括生成器和判别器;
所述通过生成对抗网络,基于所述第一图像表征向量和所述第二图像表征向量,生成至少一个预测场景迁移图像,并分别确定所述至少一个预测场景迁移图像为真实图像的概率值,包括:
通过所述生成器,基于所述第一图像表征向量和所述第二图像表征向量,生成至少一预测个场景迁移图像;
通过所述判别器,分别确定所述至少一个预测场景迁移图像为真实图像的概率值。
7.如权利要求6所述的方法,其特征在于,所述生成器包括第一子生成器和第二子生成器,所述至少一个预测场景迁移图像包括第一预测场景迁移图像和第二预测场景迁移图像;
所述通过所述生成器,基于所述第一图像表征向量和所述第二图像表征向量,生成至少一个预测场景迁移图像,包括:
通过所述第一子生成器,从所述第一图像表征向量中,提取所述第一样本图像包含的第一对象的第一对象特征,以及从所述第二图像表征向量中,提取所述第二样本图像的第二场景特征,并将所述第一对象特征和所述第二场景特征进行融合,获得所述第一预测场景迁移图像;
通过所述第二子生成器,从所述第一样本图像的图像表征向量中,提取所述第一样本图像的第一场景特征,以及从所述第二样本图像的图像表征向量中,提取所述第二样本图像包含的第二对象的第二对象特征,并将所述第一场景特征和所述第二对象特征进行融合,确定所述第二预测场景迁移图像。
8.如权利要求7所述的方法,其特征在于,所述判别器包括第一子判别器和第二子判别器;
所述通过所述判别器,分别确定所述至少一个预测场景迁移图像为真实图像的概率值,包括:
通过所述第一子判别器,确定所述第一场景迁移预测图像为真实图像的第一概率值;
通过所述第二子判别器,确定所述第二场景迁移预测图像为真实图像的第二概率值。
9.如权利要求7所述的方法,其特征在于,还包括:
通过所述第一子生成器,将所述第一对象特征和所述第一场景特征进行融合,获得第一重构图像;
通过所述第二子生成器,将所述第二对象特征和所述第二场景特征进行融合,获得第二重构图像;
通过所述第一判别器,获得所述第一重构图像为真实图像的第三概率值;
通过所述第二判别器,获得所述第二重构图像为真实图像的第四概率值。
10.如权利要求7所述的方法,其特征在于,所述通过目标样本增强网络中的生成对抗网络,将所述目标场景特征与所述目标对象特征进行融合,获得目标场景迁移图像,包括:
通过所述第一子生成器或所述第二子生成器,将所述目标场景特征与所述目标对象特征进行融合,获得目标场景迁移图像。
11.如权利要求1至10任一所述的方法,其特征在于,所述目标对象包括自动驾驶环境中的目标障碍物,所述待处理图像为所述目标对象在白天场景下的图像,所述目标场景迁移图像为所述目标对象在夜晚场景下的图像;
所述将所述目标场景特征与所述目标对象特征进行融合,获得目标场景迁移图像之后,还包括:
将所述目标障碍物在所述待处理图像中的第一标注信息,作为所述目标障碍物在所述目标场景迁移图像中的第二标注信息;
通过所述待处理图像、所述第一标注信息、所述目标场景迁移图像和所述第二标注信息,训练自动驾驶环境中的障碍检测模型。
12.一种图像处理装置,其特征在于,包括:
获取模块,用于获取场景图像以及待处理图像,所述待处理图像包括目标对象;
特征提取模块,用于提取所述场景图像的目标场景特征,以及提取所述目标对象的目标对象特征;
融合模块,用于将所述目标场景特征与所述目标对象特征进行融合,获得目标场景迁移图像,所述目标场景迁移图像为所述目标对象在所述场景图像表征的场景下的图像。
13.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1~11任一权利要求所述方法的步骤。
14.一种计算机可读存储介质,其特征在于,其存储有可由计算机设备执行的计算机程序,当所述程序在计算机设备上运行时,使得所述计算机设备执行权利要求1~11任一所述方法的步骤。
CN202110068384.0A 2021-01-19 2021-01-19 一种图像处理方法、装置、设备及存储介质 Active CN112712138B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110068384.0A CN112712138B (zh) 2021-01-19 2021-01-19 一种图像处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110068384.0A CN112712138B (zh) 2021-01-19 2021-01-19 一种图像处理方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN112712138A true CN112712138A (zh) 2021-04-27
CN112712138B CN112712138B (zh) 2022-05-20

Family

ID=75549317

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110068384.0A Active CN112712138B (zh) 2021-01-19 2021-01-19 一种图像处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112712138B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112633103A (zh) * 2020-12-15 2021-04-09 中国人民解放军海军工程大学 图像处理方法、装置和电子设备
CN113325855A (zh) * 2021-08-02 2021-08-31 北京三快在线科技有限公司 基于迁移场景用于预测障碍物轨迹的模型训练方法
CN113468981A (zh) * 2021-06-10 2021-10-01 的卢技术有限公司 图像处理方法、装置、计算机设备和存储介质
CN113592991A (zh) * 2021-08-03 2021-11-02 北京奇艺世纪科技有限公司 一种基于神经辐射场的图像渲染方法、装置及电子设备
CN113591569A (zh) * 2021-06-28 2021-11-02 北京百度网讯科技有限公司 障碍物检测方法、装置、电子设备以及存储介质
CN113859264A (zh) * 2021-09-17 2021-12-31 阿波罗智联(北京)科技有限公司 车辆控制方法、装置、电子设备及存储介质
CN114997856A (zh) * 2022-06-01 2022-09-02 拉扎斯网络科技(上海)有限公司 样本数据生成及用于自动结算的方法、装置及设备
CN116958766A (zh) * 2023-07-04 2023-10-27 阿里巴巴(中国)有限公司 图像处理方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108710831A (zh) * 2018-04-24 2018-10-26 华南理工大学 一种基于机器视觉的小数据集人脸识别算法
CN108765278A (zh) * 2018-06-05 2018-11-06 Oppo广东移动通信有限公司 一种图像处理方法、移动终端及计算机可读存储介质
CN110503601A (zh) * 2019-08-28 2019-11-26 上海交通大学 基于对抗网络的人脸生成图片替换方法及系统
CN110796239A (zh) * 2019-10-30 2020-02-14 福州大学 一种通道与空间融合感知的深度学习目标检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108710831A (zh) * 2018-04-24 2018-10-26 华南理工大学 一种基于机器视觉的小数据集人脸识别算法
CN108765278A (zh) * 2018-06-05 2018-11-06 Oppo广东移动通信有限公司 一种图像处理方法、移动终端及计算机可读存储介质
CN110503601A (zh) * 2019-08-28 2019-11-26 上海交通大学 基于对抗网络的人脸生成图片替换方法及系统
CN110796239A (zh) * 2019-10-30 2020-02-14 福州大学 一种通道与空间融合感知的深度学习目标检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LEI SUN等: "See clearer at night: towards robust nighttime semantic segmentation through day-night image conversion", 《ARTIFICIAL INTELLIGENCE AND MACHINE LEARNING IN DEFENSE APPLICATIONS》 *
YUVAL NIRKIN等: "FSGAN: Subject Agnostic Face Swapping and Reenactment", 《ICCV2019》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112633103A (zh) * 2020-12-15 2021-04-09 中国人民解放军海军工程大学 图像处理方法、装置和电子设备
CN113468981A (zh) * 2021-06-10 2021-10-01 的卢技术有限公司 图像处理方法、装置、计算机设备和存储介质
CN113591569A (zh) * 2021-06-28 2021-11-02 北京百度网讯科技有限公司 障碍物检测方法、装置、电子设备以及存储介质
CN113325855A (zh) * 2021-08-02 2021-08-31 北京三快在线科技有限公司 基于迁移场景用于预测障碍物轨迹的模型训练方法
CN113325855B (zh) * 2021-08-02 2021-11-30 北京三快在线科技有限公司 基于迁移场景用于预测障碍物轨迹的模型训练方法
CN113592991A (zh) * 2021-08-03 2021-11-02 北京奇艺世纪科技有限公司 一种基于神经辐射场的图像渲染方法、装置及电子设备
CN113592991B (zh) * 2021-08-03 2023-09-05 北京奇艺世纪科技有限公司 一种基于神经辐射场的图像渲染方法、装置及电子设备
CN113859264A (zh) * 2021-09-17 2021-12-31 阿波罗智联(北京)科技有限公司 车辆控制方法、装置、电子设备及存储介质
CN113859264B (zh) * 2021-09-17 2023-12-22 阿波罗智联(北京)科技有限公司 车辆控制方法、装置、电子设备及存储介质
CN114997856A (zh) * 2022-06-01 2022-09-02 拉扎斯网络科技(上海)有限公司 样本数据生成及用于自动结算的方法、装置及设备
CN116958766A (zh) * 2023-07-04 2023-10-27 阿里巴巴(中国)有限公司 图像处理方法
CN116958766B (zh) * 2023-07-04 2024-05-14 阿里巴巴(中国)有限公司 图像处理方法及计算机可读存储介质

Also Published As

Publication number Publication date
CN112712138B (zh) 2022-05-20

Similar Documents

Publication Publication Date Title
CN112712138B (zh) 一种图像处理方法、装置、设备及存储介质
Wang et al. SFNet-N: An improved SFNet algorithm for semantic segmentation of low-light autonomous driving road scenes
CN110111335B (zh) 一种自适应对抗学习的城市交通场景语义分割方法及系统
CN113780296B (zh) 基于多尺度信息融合的遥感图像语义分割方法及系统
CN113902915B (zh) 一种基于低光照复杂道路场景下的语义分割方法及系统
CN110929577A (zh) 一种基于YOLOv3的轻量级框架改进的目标识别方法
CN111191654B (zh) 道路数据生成方法、装置、电子设备及存储介质
CN110728295B (zh) 半监督式的地貌分类模型训练和地貌图构建方法
CN108875555B (zh) 基于神经网络的视频兴趣区域和显著目标提取与定位系统
CN116453121B (zh) 一种车道线识别模型的训练方法及装置
CN112347970A (zh) 一种基于图卷积神经网络的遥感影像地物识别方法
CN112580453A (zh) 一种基于遥感影像和深度学习的土地利用分类方法及系统
CN113706551A (zh) 一种图像分割方法、装置、设备及存储介质
CN115830265A (zh) 一种基于激光雷达的自动驾驶运动障碍物分割方法
CN115018039A (zh) 一种神经网络蒸馏方法、目标检测方法以及装置
CN116740422A (zh) 基于多模态注意力融合技术的遥感图像分类方法及装置
CN104463962A (zh) 基于gps信息视频的三维场景重建方法
CN104008374B (zh) 一种矿井图像中基于条件随机场的矿工检测方法
CN117237660A (zh) 一种基于深度学习特征聚合的点云数据处理和分割方法
Yang et al. A Knowledge Distillation-based Ground Feature Classification Network with Multiscale Feature Fusion in Remote Sensing Images
CN116246147A (zh) 基于跨层特征融合和线性注意力优化的跨物种目标检测方法
CN116259047A (zh) 一种基于改进双向加权特征金字塔的城市树木检测方法
Luo et al. Recognition and Extraction of Blue-roofed Houses in Remote Sensing Images based on Improved Mask-RCNN
Toha et al. DhakaNet: unstructured vehicle detection using limited computational resources
Alirezaie et al. Open GeoSpatial Data as a Source of Ground Truth for Automated Labelling of Satellite Images.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40041572

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20221021

Address after: 35th floor, Tencent building, Keji Zhongyi Road, high tech Zone, Nanshan District, Shenzhen City, Guangdong Province

Patentee after: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd.

Patentee after: TENCENT CLOUD COMPUTING (BEIJING) Co.,Ltd.

Address before: 35th floor, Tencent building, Keji Zhongyi Road, high tech Zone, Nanshan District, Shenzhen City, Guangdong Province

Patentee before: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd.

TR01 Transfer of patent right