CN113674182A - 图像的生成方法及装置 - Google Patents

图像的生成方法及装置 Download PDF

Info

Publication number
CN113674182A
CN113674182A CN202010414293.3A CN202010414293A CN113674182A CN 113674182 A CN113674182 A CN 113674182A CN 202010414293 A CN202010414293 A CN 202010414293A CN 113674182 A CN113674182 A CN 113674182A
Authority
CN
China
Prior art keywords
model
loss function
preset
training
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010414293.3A
Other languages
English (en)
Other versions
CN113674182B (zh
Inventor
段雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Rockwell Technology Co Ltd
Original Assignee
Beijing Rockwell Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Rockwell Technology Co Ltd filed Critical Beijing Rockwell Technology Co Ltd
Priority to CN202010414293.3A priority Critical patent/CN113674182B/zh
Publication of CN113674182A publication Critical patent/CN113674182A/zh
Application granted granted Critical
Publication of CN113674182B publication Critical patent/CN113674182B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种图像的生成方法及装置,涉及图像处理技术领域,其目的在于降低生成特殊驾驶场景下的逼真仿真图像的成本。本发明的方法包括:获取多个样本图像和多个目标仿真图像,并生成每个样本图像对应的语义分割图像和每个目标仿真图像对应的语义分割图像;将多个样本图像和每个样本图像对应的语义分割图像作为训练样本集,对预置模型进行训练,直至预置模型的总损失函数收敛,以获得生成式对抗模型;将每个目标仿真图像对应的语义分割图像输入至生成式对抗模型中,以获得每个目标仿真图像对应的合成仿真图像。本发明适用于生成特殊驾驶场景下的逼真仿真图像的过程中。

Description

图像的生成方法及装置
技术领域
本发明涉及图像处理技术领域,特别是涉及一种图像的生成方法及装置。
背景技术
随着社会的不断发展,人们生活水平的不断提高,人们对汽车的需求与日俱增。伴随着汽车保有量的快速增长,汽车给人们日常生活带来的问题也日益明显,其中,交通安全问题尤为突出。为了有效解决交通安全问题,自动驾驶技术应运而生,汽车基于自动驾驶模型便可实现自动驾驶。为了保证自动驾驶模型的性能,需要预先使用各种驾驶场景下的真实场景图像作为训练样本集对自动驾驶模型进行训练。由于,特殊驾驶场景(如车祸场景、山体滑坡场景等等)下的真实场景图像较为稀缺,因此,需要模拟出特殊驾驶场景下的、逼真的仿真图像,再将逼真的仿真图像作为训练样本集对自动驾驶模型进行训练。
目前,通常是先搭建性能较强的仿真平台,再通过性能较强的仿真平台模拟出逼真的仿真图像。然而,搭建性能较强的仿真平台的投入成本较高;并且,运行性能较强的仿真平台,消耗的资源也比较高,因此,通过搭建性能较强的仿真平台模拟特殊驾驶场景下的逼真仿真图像的成本较高。
发明内容
有鉴于此,本发明提供一种图像的生成方法及装置,主要目的在于降低生成特殊驾驶场景下的逼真仿真图像的成本。
为了达到上述目的,本发明主要提供如下技术方案:
第一方面,本发明提供了一种图像的生成方法,该方法包括:
获取多个样本图像和多个目标仿真图像,并生成每个所述样本图像对应的语义分割图像和每个所述目标仿真图像对应的语义分割图像,其中,所述样本图像为任意驾驶场景下的真实场景图像,所述目标仿真图像为任意特殊驾驶场景下的简易仿真图像;
将多个所述样本图像和每个所述样本图像对应的语义分割图像作为训练样本集,对预置模型进行训练,直至所述预置模型的总损失函数收敛,以获得生成式对抗模型;
将每个所述目标仿真图像对应的语义分割图像输入至所述生成式对抗模型中,以获得每个所述目标仿真图像对应的合成仿真图像。
可选的,所述预置模型包括生成模型和判别模型;所述将多个所述样本图像和每个所述样本图像对应的语义分割图像作为训练样本集,对预置模型进行训练,直至所述预置模型的总损失函数收敛,以获得生成式对抗模型,包括:
基于所述训练样本集对所述预置模型进行迭代训练;其中,
在每轮训练后,判断所述预置模型的总损失函数是否收敛;
若所述总损失函数收敛,则将本轮训练后得到的所述预置模型确定为所述生成式对抗模型;
若所述总损失函数未收敛,则对所述总损失函数进行反向传播处理,并根据经过反向传播处理后的所述总损失函数,对所述生成模型的模型参数和所述判别模型的模型参数进行优化调整,以及基于优化调整后的所述生成模型和所述判别模型进入下一轮训练。
可选的,所述总损失函数包括生成模型损失函数、判别模型损失函数和循环重建损失函数;所述判断所述预置模型的总损失函数是否收敛,包括:
获取所述生成模型损失函数对应的损失值、所述判别模型损失函数对应的损失值和所述循环重建损失函数对应的损失值;
对所述生成模型损失函数对应的损失值、所述判别模型损失函数对应的损失值和所述循环重建损失函数对应的损失值进行求和计算,以获得所述总损失函数对应的总损失值;
判断所述总损失值是否小于预设阈值。
可选的,所述获取多个目标仿真图像,包括:
构建目标仿真场景,并根据预置相机参数设置仿真相机;
通过所述仿真相机采集所述目标仿真场景对应的仿真视频;
从所述仿真视频中提取多个所述目标仿真图像。
可选的,所述生成每个所述样本图像对应的语义分割图像和每个所述目标仿真图像对应的语义分割图像,包括:
通过预置语义分割模型生成每个所述样本图像对应的语义分割图像;
通过所述预置语义分割模型生成每个所述目标仿真图像对应的语义分割图像。
可选的,所述方法还包括:
若所述总损失函数未收敛,则判断当前累计迭代训练时长是否达到预设时长阈值;
若达到所述预设时长阈值,则将本轮训练后得到的所述预置模型确定为所述生成式对抗模型;
若未达到所述预设时长阈值,则进入对所述总损失函数进行反向传播处理,并根据经过反向传播处理后的所述总损失函数,对所述生成模型的模型参数和所述判别模型的模型参数进行优化调整,以及基于优化调整后的所述生成模型和所述判别模型进入下一轮训练的步骤。
可选的,所述方法还包括:
若所述总损失函数未收敛,则判断当前累计迭代训练次数是否达到预设次数阈值;
若达到所述预设次数阈值,则将本轮训练后得到的所述预置模型确定为所述生成式对抗模型;
若未达到所述预设次数阈值,则进入对所述总损失函数进行反向传播处理,并根据经过反向传播处理后的所述总损失函数,对所述生成模型的模型参数和所述判别模型的模型参数进行优化调整,以及基于优化调整后的所述生成模型和所述判别模型进入下一轮训练的步骤。
可选的,所述预置模型为采用预置算法建立的模型,所述预置算法可以但不限于为:cycleGAN算法、vid2vid算法和GigGAN算法中的任意一种。
第二方面,本发明还提供一种图像的生成装置,该装置包括:
获取单元,用于获取多个样本图像和多个目标仿真图像,其中,所述样本图像为任意驾驶场景下的真实场景图像,所述目标仿真图像为任意特殊驾驶场景下的简易仿真图像;
生成单元,用于生成每个所述样本图像对应的语义分割图像和每个所述目标仿真图像对应的语义分割图像;
训练单元,用于将多个所述样本图像和每个所述样本图像对应的语义分割图像作为训练样本集,对预置模型进行训练,直至所述预置模型的总损失函数收敛,以获得生成式对抗模型;
输入单元,用于将每个所述目标仿真图像对应的语义分割图像输入至所述生成式对抗模型中,以获得每个所述目标仿真图像对应的合成仿真图像。
可选的,所述预置模型包括生成模型和判别模型;
所述训练单元,具体用于基于所述训练样本集对所述预置模型进行迭代训练;其中,
在每轮训练后,判断所述预置模型的总损失函数是否收敛;
若所述总损失函数收敛,则将本轮训练后得到的所述预置模型确定为所述生成式对抗模型;
若所述总损失函数未收敛,则对所述总损失函数进行反向传播处理,并根据经过反向传播处理后的所述总损失函数,对所述生成模型的模型参数和所述判别模型的模型参数进行优化调整,以及基于优化调整后的所述生成模型和所述判别模型进入下一轮训练。
可选的,所述总损失函数包括生成模型损失函数、判别模型损失函数和循环重建损失函数;所述训练单元包括:
获取模块,用于获取所述生成模型损失函数对应的损失值、所述判别模型损失函数对应的损失值和所述循环重建损失函数对应的损失值;
计算模块,用于对所述生成模型损失函数对应的损失值、所述判别模型损失函数对应的损失值和所述循环重建损失函数对应的损失值进行求和计算,以获得所述总损失函数对应的总损失值;
第一判断模块,用于判断所述总损失值是否小于预设阈值。
可选的,所述获取单元包括:
构建模块,用于构建目标仿真场景;
设置模块,用于根据预置相机参数设置仿真相机;
采集模块,用于通过所述仿真相机采集所述目标仿真场景对应的仿真视频;
提取模块,用于从所述仿真视频中提取多个所述目标仿真图像。
可选的,所述生成单元包括:
第一生成模块,用于通过预置语义分割模型生成每个所述样本图像对应的语义分割图像;
第二生成模块,用于通过所述预置语义分割模型生成每个所述目标仿真图像对应的语义分割图像。
可选的,所述训练单元还包括:
第二判断模块,用于当所述总损失函数未收敛时,判断当前累计迭代训练时长是否达到预设时长阈值;
第一确定模块,用于当所述当前累计迭代训练时长达到所述预设时长阈值时,将本轮训练后得到的所述预置模型确定为所述生成式对抗模型;
第一进入模块,用于当所述当前累计迭代训练时长未达到所述预设时长阈值时,进入对所述总损失函数进行反向传播处理,并根据经过反向传播处理后的所述总损失函数,对所述生成模型的模型参数和所述判别模型的模型参数进行优化调整,以及基于优化调整后的所述生成模型和所述判别模型进入下一轮训练的步骤。
可选的,所述训练单元还包括:
第三判断模块,用于当所述总损失函数未收敛时,判断当前累计迭代训练次数是否达到预设次数阈值;
第二确定模块,用于当所述当前累计迭代训练次数达到所述预设次数阈值时,将本轮训练后得到的所述预置模型确定为所述生成式对抗模型;
第二进入模块,用于当所述当前累计迭代训练次数未达到所述预设次数阈值时,进入对所述总损失函数进行反向传播处理,并根据经过反向传播处理后的所述总损失函数,对所述生成模型的模型参数和所述判别模型的模型参数进行优化调整,以及基于优化调整后的所述生成模型和所述判别模型进入下一轮训练的步骤。
可选的,所述预置模型为采用预置算法建立的模型,所述预置算法可以但不限于为:cycleGAN算法、vid2vid算法和GigGAN算法中的任意一种。
第三方面,本发明的实施例提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行第一方面所述的图像的生成方法。
第四方面,本发明的实施例提供了一种图像的生成装置,所述装置包括存储介质;及一个或者多个处理器,所述存储介质与所述处理器耦合,所述处理器被配置为执行所述存储介质中存储的程序指令;所述程序指令运行时执行第一方面所述的图像的生成方法。
借由上述技术方案,本发明提供的技术方案至少具有下列优点:
本发明提供一种图像的生成方法及装置,与现有技术中通过搭建性能较强的仿真平台模拟特殊驾驶场景下的逼真仿真图像相比,本发明首先获取多个任意驾驶场景下的真实场景图像(即样本图像)和多个任意特殊驾驶场景下的简易仿真图像(即目标仿真图像),并生成每个样本图像对应的语义分割图像和每个目标仿真图像对应的语义分割图像;然后,将多个样本图像和每个样本图像对应的语义分割图像作为训练样本集,对预置模型进行训练,直至预置模型的总损失函数收敛,从而获得生成式对抗模型;最后,分别将每个目标仿真图像对应的语义分割图像输入至生成式对抗模型中,生成式对抗模型便会输出每个目标仿真图像对应的合成仿真图像,即更加逼真的仿真图像。由于,基于任意驾驶场景下的真实场景图像和真实场景图像对应的语义分割图像训练获得生成式对抗模型的成本较低,获取多个特殊驾驶场景下的简易仿真图像的成本也较低,因此,基于特殊驾驶场景下的简易仿真图像和生成式对抗模型,生成特殊驾驶场景下的逼真仿真图像,可以有效降低成本。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种图像的生成方法流程图;
图2示出了本发明实施例提供的另一种图像的生成方法流程图;
图3示出了本发明实施例提供的一种图像的生成装置的组成框图;
图4示出了本发明实施例提供的另一种图像的生成装置的组成框图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
本发明实施例提供一种图像的生成方法,如图1所示,该方法包括:
101、获取多个样本图像和多个目标仿真图像,并生成每个样本图像对应的语义分割图像和每个目标仿真图像对应的语义分割图像。
其中,样本图像为任意驾驶场景下的真实场景图像,即样本图像可以为特殊驾驶场景下的真实场景图像,也可以为普通驾驶场景下的真实场景图像;其中,特殊驾驶场景可以但不限于为:车祸场景、山体滑坡场景、道路泥石流场景、飓风场景、冰雹场景、暴雨场景等等;其中,目标仿真图像为任意特殊驾驶场景下的简易仿真图像。本发明实施例中,各个步骤中的执行主体为运行在终端设备中的图像生成应用程序,其中,终端设备可以但不限于为:计算机、服务器等等。
在本发明实施例中,图像生成应用程序需要获取多个样本图像和多个目标仿真图像,并生成每个样本图像对应的语义分割图像和每个目标仿真图像对应的语义分割图像,以便后续基于多个样本图像和每个样本图像对应的语义分割图像,训练获得用于生成更加逼真仿真图像的生成式对抗模型,以及基于多个目标仿真图像对应的语义分割图像生成多个更加逼真的仿真图像。
具体的,在本步骤中,图像生成应用程序可以先搭建简易的仿真平台,再通过简易的仿真平台获取多个目标仿真图像。
具体的,在本步骤中,图像生成应用程序可以通过预置语义分割模型生成每个样本图像对应的语义分割图像和每个目标仿真图像对应的语义分割图像,其中,预置语义分割模型为采用预置语义分割算法建立、并训练完成的模型,预置语义分割算法可以但不限于为:deeplab算法、pspnet算法、segnet算法和fcn算法中的任意一种;图像生成应用程序也可以将多个样本图像和多个目标仿真图像进行输出显示,由工作人员对多个样本图像和多个目标仿真图像进行语义分割标注处理,从而得到每个样本图像对应的语义分割图像和每个目标仿真图像对应的语义分割图像,本发明实施例对此不进行具体限定。
102、将多个样本图像和每个样本图像对应的语义分割图像作为训练样本集,对预置模型进行训练,直至预置模型的总损失函数收敛,以获得生成式对抗模型。
其中,预置模型为采用预置算法建立的模型,预置算法可以但不限于为:cycleGAN算法、vid2vid算法和GigGAN算法中的任意一种。
在本发明实施例中,图像生成应用程序在获取得到多个样本图像,并生成每个样本图像对应的语义分割图像后,便可将多个样本图像和每个样本图像对应的语义分割图像作为训练样本集,对预置模型进行训练,直至预置模型的总损失函数收敛,此时,便可将训练完成的预置模型确定为生成式对抗模型。
需要进行说明的是,在实际应用过程中,图像生成应用程序可以在步骤101中获取多个样本图像,并生成每个样本图像对应的语义分割图像的同时,获取多个目标仿真图像,并生成每个目标仿真图像对应的语义分割图像;也可以在训练获得生成式对抗模型后,获取多个目标仿真图像,并生成每个目标仿真图像对应的语义分割图像,本发明实施例对此不进行具体限定。
103、将每个目标仿真图像对应的语义分割图像输入至生成式对抗模型中,以获得每个目标仿真图像对应的合成仿真图像。
在本发明实施例中,图像生成应用程序在获取得到多个目标仿真图像,并生成每个目标仿真图像对应的语义分割图像后,便可分别将每个目标仿真图像对应的语义分割图像输入至步骤102中训练完成的生成式对抗模型中,此时,生成式对抗模型便能输出每个目标仿真图像对应的合成仿真图像(即更加逼真的仿真图像)。
本发明实施例提供一种图像的生成方法,与现有技术中通过搭建性能较强的仿真平台模拟特殊驾驶场景下的逼真仿真图像相比,本发明实施例首先获取多个任意驾驶场景下的真实场景图像(即样本图像)和多个任意特殊驾驶场景下的简易仿真图像(即目标仿真图像),并生成每个样本图像对应的语义分割图像和每个目标仿真图像对应的语义分割图像;然后,将多个样本图像和每个样本图像对应的语义分割图像作为训练样本集,对预置模型进行训练,直至预置模型的总损失函数收敛,从而获得生成式对抗模型;最后,分别将每个目标仿真图像对应的语义分割图像输入至生成式对抗模型中,生成式对抗模型便会输出每个目标仿真图像对应的合成仿真图像,即更加逼真的仿真图像。由于,基于任意驾驶场景下的真实场景图像和真实场景图像对应的语义分割图像训练获得生成式对抗模型的成本较低,获取多个特殊驾驶场景下的简易仿真图像的成本也较低,因此,基于特殊驾驶场景下的简易仿真图像和生成式对抗模型,生成特殊驾驶场景下的逼真仿真图像,可以有效降低成本。
以下为了更加详细地说明,本发明实施例提供了另一种图像的生成方法,具体如图2所示,该方法包括:
201、获取多个样本图像,并生成每个样本图像对应的语义分割图像。
其中,关于步骤201、获取多个样本图像,并生成每个样本图像对应的语义分割图像,可以参考图1对应部分的描述,本发明实施例此处将不再赘述。
202、将多个样本图像和每个样本图像对应的语义分割图像作为训练样本集,对预置模型进行训练,直至预置模型的总损失函数收敛,以获得生成式对抗模型。
其中,预置模型包括生成模型和判别模型。
在本发明实施例中,图像生成应用程序将多个样本图像和每个样本图像对应的语义分割图像作为训练样本集,对预置模型进行训练的过程,即为图像生成应用程序基于由多个样本图像和每个样本图像对应的语义分割图像组成的训练样本集对预置模型进行迭代训练的过程:在每轮训练后,图像生成应用程序判断预置模型的总损失函数是否收敛;若预置模型的总损失函数收敛,则将本轮训练后得到的预置模型确定为生成式对抗模型;若预置模型的总损失函数未收敛,则对预置模型的总损失函数进行反向传播处理,并根据经过反向传播处理后的总损失函数,对预置模型中的生成模型的模型参数和判别模型的模型参数进行优化调整,以及基于优化调整后的预置模型(生成模型和判别模型)进入下一轮训练。其中,对预置模型的总损失函数进行反向传播处理,即为计算总损失函数对应的梯度向量,根据经过反向传播处理后的总损失函数,对预置模型中的生成模型的模型参数和判别模型的模型参数进行优化调整,即为根据总损失函数对应的梯度向量,对生成模型的模型参数和判别模型的模型参数进行优化调整。
具体的,在本步骤中,图像生成应用程序可以采用以下方式判断预置模型的总损失函数是否收敛:
其中,预置模型的总损失函数由生成模型损失函数、判别模型损失函数和循环重建损失函数组成。
首先,图像生成应用程序分别获取生成模型损失函数对应的损失值、判别模型损失函数对应的损失值和循环重建损失函数对应的损失值;其次,图像生成应用程序对生成模型损失函数对应的损失值、判别模型损失函数对应的损失值和循环重建损失函数对应的损失值进行求和计算,从而获得总损失函数对应的总损失值;最后,判断总损失函数对应的总损失值是否小于预设阈值,若是,则可以判定总损失函数收敛;若否,则可以判定总损失函数未收敛。
进一步的,在本发明实施例中,由于,在某些特定情况下,即使是进行大量的迭代训练,预置模型的总损失函数也不会收敛,因此,为了避免预置模型的迭代训练无休止的进行下去,在确定本轮训练后得到的预置模型的总损失函数未收敛时,可以但不限于采用以下两种方式进行处理:
(1)若预置模型的总损失函数未收敛,则判断基于训练样本集迭代训练预置模型的当前累计迭代训练时长是否达到预设时长阈值。
若当前累计迭代训练时长达到预设时长阈值,则说明迭代训练时长已达到要求,此时,可以停止迭代训练,并将本轮训练后得到的预置模型确定为生成式对抗模型。
若当前累计迭代训练时长未达到预设时长阈值,则可以进入对预置模型的总损失函数进行反向传播处理,并根据经过反向传播处理后的总损失函数,对预置模型中的生成模型的模型参数和判别模型的模型参数进行优化调整的步骤。
(2)若预置模型的总损失函数未收敛,则判断基于训练样本集迭代训练预置模型的当前累计迭代训练次数是否达到预设次数阈值。
若当前累计迭代训练次数达到预设次数阈值,则说明迭代训练次数已达到要求,此时,可以停止迭代训练,并将本轮训练后得到的预置模型确定为生成式对抗模型。
若当前累计迭代训练次数未达到预设次数阈值,则可以进入对预置模型的总损失函数进行反向传播处理,并根据经过反向传播处理后的总损失函数,对预置模型中的生成模型的模型参数和判别模型的模型参数进行优化调整的步骤。
203、获取多个目标仿真图像。
在本发明实施例中,图像生成应用程序在训练获得生成式对抗模型后,便需要获取多个目标仿真图像。以下将对图像生成应用程序如何获取多个目标仿真图像进行详细说明。
(1)构建目标仿真场景,并根据预置相机参数设置仿真相机。
其中,目标仿真场景为任意特殊驾驶场景对应的仿真场景。
在本发明实施例中,为了获取多个目标仿真场景,图像生成应用程序首先需要搭建简易的仿真平台,即构建目标仿真场景,并根据预置相机参数设置仿真相机。其中,预置相机参数可以但不限于包括:仿真相机的位置参数、仿真相机的视场角、仿真相机的高度等等;其中,仿真相机的位置参数可以但不限于包括:前视相机,侧视相机,后视相机等,仿真相机的视场角可以但不限包括:广角,长焦等。
(2)通过仿真相机采集目标仿真场景对应的仿真视频,并从仿真视频中提取多个目标仿真图像。
在本发明实施例中,图像生成应用程序在构建目标仿真场景,并设置仿真相机后,便可通过仿真相机采集目标仿真场景对应的仿真视频;由于,采集获得的仿真视频中的任意一帧图像均可作为目标仿真场景对应的特殊驾驶场景下的简易仿真图像,因此,从仿真视频中便可提取获得多个目标仿真图像。
204、生成每个目标仿真图像对应的语义分割图像。
其中,关于步骤204、生成每个目标仿真图像对应的语义分割图像,可以参考图1对应部分的描述,本发明实施例此处将不再赘述。
205、将每个目标仿真图像对应的语义分割图像输入至生成式对抗模型中,以获得每个目标仿真图像对应的合成仿真图像。
具体的,在本步骤中,图像生成应用程序分别将每个目标仿真图像对应的语义分割图像输入至生成式对抗模型中的生成模型中,生成模型便能输出每个目标仿真图像对应的合成仿真图像(即更加逼真的仿真图像)。
为了实现上述目的,根据本发明的另一方面,本发明实施例还提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述所述的图像的生成方法。
为了实现上述目的,根据本发明的另一方面,本发明实施例还提供了一种图像的生成装置,所述装置包括存储介质;及一个或者多个处理器,所述存储介质与所述处理器耦合,所述处理器被配置为执行所述存储介质中存储的程序指令;所述程序指令运行时执行上述所述的图像的生成方法。
进一步的,作为对上述图1及图2所示方法的实现,本发明另一实施例还提供了一种图像的生成装置。该装置实施例与前述方法实施例对应,为便于阅读,本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。该装置应用于降低生成特殊驾驶场景下的逼真仿真图像的成本,具体如图3所示,该装置包括:
获取单元31,用于获取多个样本图像和多个目标仿真图像,其中,所述样本图像为任意驾驶场景下的真实场景图像,所述目标仿真图像为任意特殊驾驶场景下的简易仿真图像;
生成单元32,用于生成每个所述样本图像对应的语义分割图像和每个所述目标仿真图像对应的语义分割图像;
训练单元33,用于将多个所述样本图像和每个所述样本图像对应的语义分割图像作为训练样本集,对预置模型进行训练,直至所述预置模型的总损失函数收敛,以获得生成式对抗模型;
输入单元34,用于将每个所述目标仿真图像对应的语义分割图像输入至所述生成式对抗模型中,以获得每个所述目标仿真图像对应的合成仿真图像。
进一步的,如图4所示,所述预置模型包括生成模型和判别模型;
训练单元33,具体用于基于所述训练样本集对所述预置模型进行迭代训练;其中,
在每轮训练后,判断所述预置模型的总损失函数是否收敛;
若所述总损失函数收敛,则将本轮训练后得到的所述预置模型确定为所述生成式对抗模型;
若所述总损失函数未收敛,则对所述总损失函数进行反向传播处理,并根据经过反向传播处理后的所述总损失函数,对所述生成模型的模型参数和所述判别模型的模型参数进行优化调整,以及基于优化调整后的所述生成模型和所述判别模型进入下一轮训练。
进一步的,如图4所示,所述总损失函数包括生成模型损失函数、判别模型损失函数和循环重建损失函数;训练单元33包括:
获取模块331,用于获取所述生成模型损失函数对应的损失值、所述判别模型损失函数对应的损失值和所述循环重建损失函数对应的损失值;
计算模块332,用于对所述生成模型损失函数对应的损失值、所述判别模型损失函数对应的损失值和所述循环重建损失函数对应的损失值进行求和计算,以获得所述总损失函数对应的总损失值;
第一判断模块333,用于判断所述总损失值是否小于预设阈值。
进一步的,如图4所示,获取单元31包括:
构建模块311,用于构建目标仿真场景;
设置模块312,用于根据预置相机参数设置仿真相机;
采集模块313,用于通过所述仿真相机采集所述目标仿真场景对应的仿真视频;
提取模块314,用于从所述仿真视频中提取多个所述目标仿真图像。
进一步的,如图4所示,生成单元32包括:
第一生成模块321,用于通过预置语义分割模型生成每个所述样本图像对应的语义分割图像;
第二生成模块322,用于通过所述预置语义分割模型生成每个所述目标仿真图像对应的语义分割图像。
进一步的,如图4所示,所述训练单元33还包括:
第二判断模块334,用于当所述总损失函数未收敛时,判断当前累计迭代训练时长是否达到预设时长阈值;
第一确定模块335,用于当所述当前累计迭代训练时长达到所述预设时长阈值时,将本轮训练后得到的所述预置模型确定为所述生成式对抗模型;
第一进入模块336,用于当所述当前累计迭代训练时长未达到所述预设时长阈值时,进入对所述总损失函数进行反向传播处理,并根据经过反向传播处理后的所述总损失函数,对所述生成模型的模型参数和所述判别模型的模型参数进行优化调整,以及基于优化调整后的所述生成模型和所述判别模型进入下一轮训练的步骤。
进一步的,如图4所示,训练单元33还包括:
第三判断模块337,用于当所述总损失函数未收敛时,判断当前累计迭代训练次数是否达到预设次数阈值;
第二确定模块338,用于当所述当前累计迭代训练次数达到所述预设次数阈值时,将本轮训练后得到的所述预置模型确定为所述生成式对抗模型;
第二进入模块339,用于当所述当前累计迭代训练次数未达到所述预设次数阈值时,进入对所述总损失函数进行反向传播处理,并根据经过反向传播处理后的所述总损失函数,对所述生成模型的模型参数和所述判别模型的模型参数进行优化调整,以及基于优化调整后的所述生成模型和所述判别模型进入下一轮训练的步骤。
进一步的,如图4所示,所述预置模型为采用预置算法建立的模型,所述预置算法可以但不限于为:cycleGAN算法、vid2vid算法和GigGAN算法中的任意一种。
本发明实施例提供一种图像的生成方法及装置,与现有技术中通过搭建性能较强的仿真平台模拟特殊驾驶场景下的逼真仿真图像相比,本发明实施例首先获取多个任意驾驶场景下的真实场景图像(即样本图像)和多个任意特殊驾驶场景下的简易仿真图像(即目标仿真图像),并生成每个样本图像对应的语义分割图像和每个目标仿真图像对应的语义分割图像;然后,将多个样本图像和每个样本图像对应的语义分割图像作为训练样本集,对预置模型进行训练,直至预置模型的总损失函数收敛,从而获得生成式对抗模型;最后,分别将每个目标仿真图像对应的语义分割图像输入至生成式对抗模型中,生成式对抗模型便会输出每个目标仿真图像对应的合成仿真图像,即更加逼真的仿真图像。由于,基于任意驾驶场景下的真实场景图像和真实场景图像对应的语义分割图像训练获得生成式对抗模型的成本较低,获取多个特殊驾驶场景下的简易仿真图像的成本也较低,因此,基于特殊驾驶场景下的简易仿真图像和生成式对抗模型,生成特殊驾驶场景下的逼真仿真图像,可以有效降低成本。
所述图像的生成装置包括处理器和存储器,上述获取单元、生成单元、训练单元和输入单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来降低生成特殊驾驶场景下的逼真仿真图像的成本。
本发明实施例提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述所述的图像的生成方法。
存储介质可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例还提供了一种图像的生成装置,所述装置包括存储介质;及一个或者多个处理器,所述存储介质与所述处理器耦合,所述处理器被配置为执行所述存储介质中存储的程序指令;所述程序指令运行时执行上述所述的图像的生成方法。
本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:
获取多个样本图像和多个目标仿真图像,并生成每个所述样本图像对应的语义分割图像和每个所述目标仿真图像对应的语义分割图像,其中,所述样本图像为任意驾驶场景下的真实场景图像,所述目标仿真图像为任意特殊驾驶场景下的简易仿真图像;
将多个所述样本图像和每个所述样本图像对应的语义分割图像作为训练样本集,对预置模型进行训练,直至所述预置模型的总损失函数收敛,以获得生成式对抗模型;
将每个所述目标仿真图像对应的语义分割图像输入至所述生成式对抗模型中,以获得每个所述目标仿真图像对应的合成仿真图像。
进一步的,所述预置模型包括生成模型和判别模型;所述将多个所述样本图像和每个所述样本图像对应的语义分割图像作为训练样本集,对预置模型进行训练,直至所述预置模型的总损失函数收敛,以获得生成式对抗模型,包括:
基于所述训练样本集对所述预置模型进行迭代训练;其中,
在每轮训练后,判断所述预置模型的总损失函数是否收敛;
若所述总损失函数收敛,则将本轮训练后得到的所述预置模型确定为所述生成式对抗模型;
若所述总损失函数未收敛,则对所述总损失函数进行反向传播处理,并根据经过反向传播处理后的所述总损失函数,对所述生成模型的模型参数和所述判别模型的模型参数进行优化调整,以及基于优化调整后的所述生成模型和所述判别模型进入下一轮训练。
进一步的,所述总损失函数包括生成模型损失函数、判别模型损失函数和循环重建损失函数;所述判断所述预置模型的总损失函数是否收敛,包括:
获取所述生成模型损失函数对应的损失值、所述判别模型损失函数对应的损失值和所述循环重建损失函数对应的损失值;
对所述生成模型损失函数对应的损失值、所述判别模型损失函数对应的损失值和所述循环重建损失函数对应的损失值进行求和计算,以获得所述总损失函数对应的总损失值;
判断所述总损失值是否小于预设阈值。
进一步的,所述获取多个目标仿真图像,包括:
构建目标仿真场景,并根据预置相机参数设置仿真相机;
通过所述仿真相机采集所述目标仿真场景对应的仿真视频;
从所述仿真视频中提取多个所述目标仿真图像。
进一步的,所述生成每个所述样本图像对应的语义分割图像和每个所述目标仿真图像对应的语义分割图像,包括:
通过预置语义分割模型生成每个所述样本图像对应的语义分割图像;
通过所述预置语义分割模型生成每个所述目标仿真图像对应的语义分割图像。
进一步的,所述方法还包括:
若所述总损失函数未收敛,则判断当前累计迭代训练时长是否达到预设时长阈值;
若达到所述预设时长阈值,则将本轮训练后得到的所述预置模型确定为所述生成式对抗模型;
若未达到所述预设时长阈值,则进入对所述总损失函数进行反向传播处理,并根据经过反向传播处理后的所述总损失函数,对所述生成模型的模型参数和所述判别模型的模型参数进行优化调整,以及基于优化调整后的所述生成模型和所述判别模型进入下一轮训练的步骤。
进一步的,所述方法还包括:
若所述总损失函数未收敛,则判断当前累计迭代训练次数是否达到预设次数阈值;
若达到所述预设次数阈值,则将本轮训练后得到的所述预置模型确定为所述生成式对抗模型;
若未达到所述预设次数阈值,则进入对所述总损失函数进行反向传播处理,并根据经过反向传播处理后的所述总损失函数,对所述生成模型的模型参数和所述判别模型的模型参数进行优化调整,以及基于优化调整后的所述生成模型和所述判别模型进入下一轮训练的步骤。
进一步的,所述预置模型为采用预置算法建立的模型,所述预置算法可以但不限于为:cycleGAN算法、vid2vid算法和GigGAN算法中的任意一种。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:获取多个样本图像和多个目标仿真图像,并生成每个所述样本图像对应的语义分割图像和每个所述目标仿真图像对应的语义分割图像,其中,所述样本图像为任意驾驶场景下的真实场景图像,所述目标仿真图像为任意特殊驾驶场景下的简易仿真图像;将多个所述样本图像和每个所述样本图像对应的语义分割图像作为训练样本集,对预置模型进行训练,直至所述预置模型的总损失函数收敛,以获得生成式对抗模型;将每个所述目标仿真图像对应的语义分割图像输入至所述生成式对抗模型中,以获得每个所述目标仿真图像对应的合成仿真图像。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (18)

1.一种图像的生成方法,其特征在于,包括:
获取多个样本图像和多个目标仿真图像,并生成每个所述样本图像对应的语义分割图像和每个所述目标仿真图像对应的语义分割图像,其中,所述样本图像为任意驾驶场景下的真实场景图像,所述目标仿真图像为任意特殊驾驶场景下的简易仿真图像;
将多个所述样本图像和每个所述样本图像对应的语义分割图像作为训练样本集,对预置模型进行训练,直至所述预置模型的总损失函数收敛,以获得生成式对抗模型;
将每个所述目标仿真图像对应的语义分割图像输入至所述生成式对抗模型中,以获得每个所述目标仿真图像对应的合成仿真图像。
2.根据权利要求1所述的方法,其特征在于,所述预置模型包括生成模型和判别模型;所述将多个所述样本图像和每个所述样本图像对应的语义分割图像作为训练样本集,对预置模型进行训练,直至所述预置模型的总损失函数收敛,以获得生成式对抗模型,包括:
基于所述训练样本集对所述预置模型进行迭代训练;其中,
在每轮训练后,判断所述预置模型的总损失函数是否收敛;
若所述总损失函数收敛,则将本轮训练后得到的所述预置模型确定为所述生成式对抗模型;
若所述总损失函数未收敛,则对所述总损失函数进行反向传播处理,并根据经过反向传播处理后的所述总损失函数,对所述生成模型的模型参数和所述判别模型的模型参数进行优化调整,以及基于优化调整后的所述生成模型和所述判别模型进入下一轮训练。
3.根据权利要求2所述的方法,其特征在于,所述总损失函数包括生成模型损失函数、判别模型损失函数和循环重建损失函数;所述判断所述预置模型的总损失函数是否收敛,包括:
获取所述生成模型损失函数对应的损失值、所述判别模型损失函数对应的损失值和所述循环重建损失函数对应的损失值;
对所述生成模型损失函数对应的损失值、所述判别模型损失函数对应的损失值和所述循环重建损失函数对应的损失值进行求和计算,以获得所述总损失函数对应的总损失值;
判断所述总损失值是否小于预设阈值。
4.根据权利要求1所述的方法,其特征在于,所述获取多个目标仿真图像,包括:
构建目标仿真场景,并根据预置相机参数设置仿真相机;
通过所述仿真相机采集所述目标仿真场景对应的仿真视频;
从所述仿真视频中提取多个所述目标仿真图像。
5.根据权利要求1所述的方法,其特征在于,所述生成每个所述样本图像对应的语义分割图像和每个所述目标仿真图像对应的语义分割图像,包括:
通过预置语义分割模型生成每个所述样本图像对应的语义分割图像;
通过所述预置语义分割模型生成每个所述目标仿真图像对应的语义分割图像。
6.根据权利要求2所述的方法,其特征在于,所述方法还包括:
若所述总损失函数未收敛,则判断当前累计迭代训练时长是否达到预设时长阈值;
若达到所述预设时长阈值,则将本轮训练后得到的所述预置模型确定为所述生成式对抗模型;
若未达到所述预设时长阈值,则进入对所述总损失函数进行反向传播处理,并根据经过反向传播处理后的所述总损失函数,对所述生成模型的模型参数和所述判别模型的模型参数进行优化调整,以及基于优化调整后的所述生成模型和所述判别模型进入下一轮训练的步骤。
7.根据权利要求2所述的方法,其特征在于,所述方法还包括:
若所述总损失函数未收敛,则判断当前累计迭代训练次数是否达到预设次数阈值;
若达到所述预设次数阈值,则将本轮训练后得到的所述预置模型确定为所述生成式对抗模型;
若未达到所述预设次数阈值,则进入对所述总损失函数进行反向传播处理,并根据经过反向传播处理后的所述总损失函数,对所述生成模型的模型参数和所述判别模型的模型参数进行优化调整,以及基于优化调整后的所述生成模型和所述判别模型进入下一轮训练的步骤。
8.根据权利要求1-7中任一项所述的方法,其特征在于,所述预置模型为采用预置算法建立的模型,所述预置算法可以但不限于为:cycleGAN算法、vid2vid算法和GigGAN算法中的任意一种。
9.一种图像的生成装置,其特征在于,包括:
获取单元,用于获取多个样本图像和多个目标仿真图像,其中,所述样本图像为任意驾驶场景下的真实场景图像,所述目标仿真图像为任意特殊驾驶场景下的简易仿真图像;
生成单元,用于生成每个所述样本图像对应的语义分割图像和每个所述目标仿真图像对应的语义分割图像;
训练单元,用于将多个所述样本图像和每个所述样本图像对应的语义分割图像作为训练样本集,对预置模型进行训练,直至所述预置模型的总损失函数收敛,以获得生成式对抗模型;
输入单元,用于将每个所述目标仿真图像对应的语义分割图像输入至所述生成式对抗模型中,以获得每个所述目标仿真图像对应的合成仿真图像。
10.根据权利要求9所述的装置,其特征在于,所述预置模型包括生成模型和判别模型;
所述训练单元,具体用于基于所述训练样本集对所述预置模型进行迭代训练;其中,
在每轮训练后,判断所述预置模型的总损失函数是否收敛;
若所述总损失函数收敛,则将本轮训练后得到的所述预置模型确定为所述生成式对抗模型;
若所述总损失函数未收敛,则对所述总损失函数进行反向传播处理,并根据经过反向传播处理后的所述总损失函数,对所述生成模型的模型参数和所述判别模型的模型参数进行优化调整,以及基于优化调整后的所述生成模型和所述判别模型进入下一轮训练。
11.根据权利要求10所述的装置,其特征在于,所述总损失函数包括生成模型损失函数、判别模型损失函数和循环重建损失函数;所述训练单元包括:
获取模块,用于获取所述生成模型损失函数对应的损失值、所述判别模型损失函数对应的损失值和所述循环重建损失函数对应的损失值;
计算模块,用于对所述生成模型损失函数对应的损失值、所述判别模型损失函数对应的损失值和所述循环重建损失函数对应的损失值进行求和计算,以获得所述总损失函数对应的总损失值;
第一判断模块,用于判断所述总损失值是否小于预设阈值。
12.根据权利要求9所述的装置,其特征在于,所述获取单元包括:
构建模块,用于构建目标仿真场景;
设置模块,用于根据预置相机参数设置仿真相机;
采集模块,用于通过所述仿真相机采集所述目标仿真场景对应的仿真视频;
提取模块,用于从所述仿真视频中提取多个所述目标仿真图像。
13.根据权利要求9所述的装置,其特征在于,所述生成单元包括:
第一生成模块,用于通过预置语义分割模型生成每个所述样本图像对应的语义分割图像;
第二生成模块,用于通过所述预置语义分割模型生成每个所述目标仿真图像对应的语义分割图像。
14.根据权利要求10所述的装置,其特征在于,所述训练单元还包括:
第二判断模块,用于当所述总损失函数未收敛时,判断当前累计迭代训练时长是否达到预设时长阈值;
第一确定模块,用于当所述当前累计迭代训练时长达到所述预设时长阈值时,将本轮训练后得到的所述预置模型确定为所述生成式对抗模型;
第一进入模块,用于当所述当前累计迭代训练时长未达到所述预设时长阈值时,进入对所述总损失函数进行反向传播处理,并根据经过反向传播处理后的所述总损失函数,对所述生成模型的模型参数和所述判别模型的模型参数进行优化调整,以及基于优化调整后的所述生成模型和所述判别模型进入下一轮训练的步骤。
15.根据权利要求10所述的装置,其特征在于,所述训练单元还包括:
第三判断模块,用于当所述总损失函数未收敛时,判断当前累计迭代训练次数是否达到预设次数阈值;
第二确定模块,用于当所述当前累计迭代训练次数达到所述预设次数阈值时,将本轮训练后得到的所述预置模型确定为所述生成式对抗模型;
第二进入模块,用于当所述当前累计迭代训练次数未达到所述预设次数阈值时,进入对所述总损失函数进行反向传播处理,并根据经过反向传播处理后的所述总损失函数,对所述生成模型的模型参数和所述判别模型的模型参数进行优化调整,以及基于优化调整后的所述生成模型和所述判别模型进入下一轮训练的步骤。
16.根据权利要求9-15中任一项所述的装置,其特征在于,所述预置模型为采用预置算法建立的模型,所述预置算法可以但不限于为:cycleGAN算法、vid2vid算法和GigGAN算法中的任意一种。
17.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至8中任一项所述的图像的生成方法。
18.一种图像的生成装置,其特征在于,所述装置包括存储介质;及一个或者多个处理器,所述存储介质与所述处理器耦合,所述处理器被配置为执行所述存储介质中存储的程序指令;所述程序指令运行时执行权利要求1至8中任一项所述的图像的生成方法。
CN202010414293.3A 2020-05-15 2020-05-15 图像的生成方法及装置 Active CN113674182B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010414293.3A CN113674182B (zh) 2020-05-15 2020-05-15 图像的生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010414293.3A CN113674182B (zh) 2020-05-15 2020-05-15 图像的生成方法及装置

Publications (2)

Publication Number Publication Date
CN113674182A true CN113674182A (zh) 2021-11-19
CN113674182B CN113674182B (zh) 2023-12-05

Family

ID=78537722

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010414293.3A Active CN113674182B (zh) 2020-05-15 2020-05-15 图像的生成方法及装置

Country Status (1)

Country Link
CN (1) CN113674182B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180129912A1 (en) * 2016-11-07 2018-05-10 Nec Laboratories America, Inc. System and Method for Learning Random-Walk Label Propagation for Weakly-Supervised Semantic Segmentation
US20190130220A1 (en) * 2017-10-27 2019-05-02 GM Global Technology Operations LLC Domain adaptation via class-balanced self-training with spatial priors
CN110163048A (zh) * 2018-07-10 2019-08-23 腾讯科技(深圳)有限公司 手部关键点的识别模型训练方法、识别方法及设备
CN110414526A (zh) * 2019-07-31 2019-11-05 达闼科技(北京)有限公司 语义分割网络的训练方法、训练装置、服务器和存储介质
CN110428388A (zh) * 2019-07-11 2019-11-08 阿里巴巴集团控股有限公司 一种图像数据生成方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180129912A1 (en) * 2016-11-07 2018-05-10 Nec Laboratories America, Inc. System and Method for Learning Random-Walk Label Propagation for Weakly-Supervised Semantic Segmentation
US20190130220A1 (en) * 2017-10-27 2019-05-02 GM Global Technology Operations LLC Domain adaptation via class-balanced self-training with spatial priors
CN110163048A (zh) * 2018-07-10 2019-08-23 腾讯科技(深圳)有限公司 手部关键点的识别模型训练方法、识别方法及设备
CN110428388A (zh) * 2019-07-11 2019-11-08 阿里巴巴集团控股有限公司 一种图像数据生成方法及装置
CN110414526A (zh) * 2019-07-31 2019-11-05 达闼科技(北京)有限公司 语义分割网络的训练方法、训练装置、服务器和存储介质

Also Published As

Publication number Publication date
CN113674182B (zh) 2023-12-05

Similar Documents

Publication Publication Date Title
CN109740670B (zh) 视频分类的方法及装置
CN111512344A (zh) 使用增强用生成式对抗神经网络从cad数据生成合成深度图像
CN113518256B (zh) 视频处理方法、装置、电子设备及计算机可读存储介质
US20220172476A1 (en) Video similarity detection method, apparatus, and device
CN111079507B (zh) 一种行为识别方法及装置、计算机装置及可读存储介质
CN111783712A (zh) 一种视频处理方法、装置、设备及介质
CN113570689A (zh) 人像卡通化方法、装置、介质和计算设备
CN115082752A (zh) 基于弱监督的目标检测模型训练方法、装置、设备及介质
CN111833360A (zh) 一种图像处理方法、装置、设备以及计算机可读存储介质
CN114581710A (zh) 图像识别方法、装置、设备、可读存储介质及程序产品
CN110827341A (zh) 一种图片深度估计方法、装置和存储介质
CN114415542A (zh) 自动驾驶仿真系统、方法、服务器及介质
CN113674182B (zh) 图像的生成方法及装置
CN111539390A (zh) 一种基于Yolov3的小目标图像识别方法、设备和系统
CN109543557B (zh) 视频帧的处理方法、装置、设备以及存储介质
CN116152609A (zh) 分布式模型训练方法、系统、装置以及计算机可读介质
EP4199498A1 (en) Site model updating method and system
CN116977484A (zh) 图像脱敏方法、装置、电子设备及存储介质
CN111767630A (zh) 一种应用于智能驾驶的虚拟仿真测试方法及装置
CN115049963A (zh) 视频分类方法、装置、处理器及电子设备
CN110490950B (zh) 图像样本生成方法、装置、计算机设备和存储介质
CN113542866B (zh) 视频处理方法、装置、设备及计算机可读存储介质
Kim Lifelong Learning Architecture of Video Surveillance System
CN116596923B (zh) 基于边缘检测的园林植物识别方法及系统
CN113516615B (zh) 一种样本生成方法、系统、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant