CN112513928A - 训练模型以对有雾图像执行语义分割的方法和系统 - Google Patents

训练模型以对有雾图像执行语义分割的方法和系统 Download PDF

Info

Publication number
CN112513928A
CN112513928A CN201880095853.4A CN201880095853A CN112513928A CN 112513928 A CN112513928 A CN 112513928A CN 201880095853 A CN201880095853 A CN 201880095853A CN 112513928 A CN112513928 A CN 112513928A
Authority
CN
China
Prior art keywords
images
image
semantic segmentation
fog
foggy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201880095853.4A
Other languages
English (en)
Inventor
清水宏明
D·戴
C·萨卡里迪斯
L·V·古尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Europe NV SA
Eidgenoessische Technische Hochschule Zurich ETHZ
Original Assignee
Toyota Motor Europe NV SA
Eidgenoessische Technische Hochschule Zurich ETHZ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Europe NV SA, Eidgenoessische Technische Hochschule Zurich ETHZ filed Critical Toyota Motor Europe NV SA
Publication of CN112513928A publication Critical patent/CN112513928A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Abstract

用于训练要用于图像的语义分割的模型的系统和方法,包括:a‑获得(S01)第一多个有雾图像(101),b‑训练(S02)用于估计雾密度的分类模型,c‑对具有轻雾的第二多个图像(101)进行分类(S03),d‑获得(S04)具有轻雾的第三多个有雾图像(103),e‑使用第三多个有雾图像训练(S05)语义分割模型,f‑将语义分割模型应用(S06)于第二多个有雾图像(102)以获得语义分割(102′),g‑获得(S07)具有浓雾的第四多个有雾图像(104),h‑使用先前获得的有雾图像进行训练(S08)。

Description

训练模型以对有雾图像执行语义分割的方法和系统
技术领域
本发明涉及图像处理领域,并且更具体地涉及其中可能出现雾的图像的语义分割。
背景技术
语义分割是一种用于确定图像中可见(或部分可见)的对象类型的方法。例如,可以通过安装在车辆中的相机来获取图像。该图像的语义分割允许区分其它车辆、行人、行车道等。因此,语义分割对于自动驾驶车辆和其它类型的自动化系统特别有用。
语义分割方法通常使用诸如神经网络或卷积神经网络的模型来执行分割。这些模型必须经过训练。
训练模型通常包括将已知图像输入模型。对于这些图像,预定的语义分割是已知的(操作员可能已经通过注释图像来准备每个图像的预定的语义分割)。然后,考虑到预定的语义分割来评估模型的输出,并且如果模型的输出与图像的预定的语义分割不同,则调节模型的参数。
因此,为了训练语义分割模型,大量的图像和预定的语义分割是必须的。
据观察,不利的天气条件会给驾驶员和自动化系统造成可视性问题。尽管传感器和计算机视觉算法不断改进,但它们通常无法在许多室外条件下工作。这阻止了这些自动化系统的实际使用:无法想像车辆会避开恶劣的天气,并且车辆必须能够在每种可能的天气条件下区分不同的对象。
雾是典型的不利天气的示例,其会根据雾的密度严重降低场景的可见性。
因此,期望用有雾(foggy)图像(在其上出现雾的图像)训练语义分割模型。
然而,获得关于有雾图像(例如,由相机拍摄的有雾图片)的语义分割数据是特别困难且耗时的,特别是在操作员在将有雾图像馈送到模型之前必须手动注释有雾图像的情况下。
为了克服该问题,已经提出了生成合成有雾图像。
实际上,获得语义分割更容易在清晰图像上执行,并且清晰图像的语义分割可以用于训练已经输入了具有合成雾的图像的模型。
现有技术文件“采用合成数据的语义雾景理解(Semantic foggy sceneunderstanding with synthetic data)”(国际计算机视觉杂志International Journalof Computer Vision,Sakaridis,C.,Dai,D.,Van Gool,L.,2018)公开了一种在清晰天气图像上添加合成雾的方法。这些图像然后可以用于训练神经网络。该文件中公开的方案对于呈现浓雾的图像的语义分割是不令人满意的。
本发明的主要目的是提供克服当前可用系统和方法的缺陷的方法和系统。
发明内容
本发明通过提出一种用于训练要被用于图像的语义分割的模型的方法来克服现有技术的一个或多个缺陷,该方法包括:
a-获得具有不同密度(例如,每个图像上的随机雾密度)的合成雾的第一多个有雾图像,
b-使用第一多个有雾图像和相关联的不同密度来训练用于估计雾密度的分类模型,
c-根据图像中的雾密度使用步骤b的分类模型对第二多个图像进行分类,以便获得第二多个有雾图像,其中每个有雾图像具有包括在第一雾密度阈值和第二雾密度阈值之内的雾密度,
d-获得第三多个有雾图像,其中每个有雾图像具有包括在第一雾密度阈值和第二雾密度阈值之内的雾密度的合成雾,
e-使用第三多个有雾图像和第三多个图像的预定义语义分割来训练语义分割模型,
f-将步骤e的语义分割模型应用于第二多个有雾图像,以获得第二多个有雾图像的语义分割,
g-获得第四多个有雾图像,其中每个有雾图像具有包括在第三雾密度阈值和第四雾密度阈值之内的雾密度的合成雾,第三雾密度阈值和第四雾密度阈值二者大于第一雾密度阈值和第二雾密度阈值,
h-使用以下内容训练步骤e的语义分割模型:
-第四多个有雾图像和第四多个有雾图像的预定义语义分割,
-第二多个有雾图像和在步骤f中获得的多个有雾图像的语义分割。
在本申请中,预定义语义分割是可以通过操作员的注释获得的语义分割。因此,当提到预定义语义分割时,这意味着相应的(有雾)图像可以用于训练模型或神经网络。因为操作员可能已经准备了引导语义分割的注释,所以这些注释可能具有很高的质量。
因此,在步骤e中使用预定义语义分割训练模型可以提供对语义分割模型的良好训练。
因为第三和第四雾密度阈值二者大于第一和第二雾密度阈值,所以第一和第二密度阈值可以对应于轻雾或至少比对应于浓雾或至少更浓雾的第三和第四雾密度阈值的雾更轻的雾。
本领域技术人员可以根据应用选择雾密度阈值以区分轻雾和浓雾。
应注意,可以根据在文件“采用合成数据的语义雾景理解”(国际计算机视觉杂志,Sakaridis,C.,Dal,D.,Van Gool,L.,2018)中公开的方法来执行获得已选择雾密度的合成雾的图像。该方法允许使用参数来选择雾的密度:因此,训练步骤b的模型可以使用用于添加合成雾的参数。
第二多个图像的图像不包含合成雾,它们可以是可能包含真实雾的场景的图像。使用步骤b的训练模型,可以仅选择包含真实轻雾的图像。由于已经使用具有合成轻雾的图像的预定义语义分割来训练步骤e的模型,并且由于第二多个有雾图像仅包含具有轻雾的图像,所以在步骤f中获得的语义分割也具有良好的质量。
因此,在步骤h中输入到模型的数据具有良好的质量,并且允许模型适应于对更浓的雾执行语义分割。
另外,应注意合成雾(并且特别是浓密合成雾)可能包含伪影。因此,有趣的是在步骤h中使用真实雾(第二多个有雾图像)调整训练。
根据特定实施例,步骤h包括将来自第二多个有雾图像的图像和来自第四多个有雾图像的图像的混合输入到步骤e的语义分割模型,以便获得要馈送到模型的图像流,其中,图像流包括相比来自第二多个有雾图像的图像而言更大比例的来自第四多个有雾图像的图像。
本发明的发明人观察到,由于第四多个有雾图像的预定义语义分割可以具有良好的质量(例如,因为它们可以在执行该方法之前通过操作员的注释获得),因此优选使用更多数量的来自该多个图像的图像。
根据特定实施例,步骤h包括最小化以下值:
Figure BDA0002910940550000041
其中:
l是第四多个有雾图像中的图像的数量,
xi″是第四多个有雾图像中的索引i的图像,
yi是图像xi″的预定义语义分割,
L(x,y)是x和y的交叉熵损失函数,
Φ″(xi″)是语义分割模型的输出,
μ是第二多个有雾图像中的图像的数量,
Figure BDA0002910940550000042
其中w是预定义权重,
Figure BDA0002910940550000043
是第二多个有雾图像中的图像,以及
Figure BDA0002910940550000044
是在步骤f中获得的图像xi″的语义分割。
在以上方程式中,在图像的每次处理之后计算损失L(x,y),并调整模型的参数以最小化该损失。
通过以可能为1:w(预定义权重,例如等于1/3)的比例混合来自第四多个有雾图像和第二多个有雾图像的图像,该训练最后导致最小化上述方程式:
Figure BDA0002910940550000051
根据特定实施例,在步骤a、d和g中,获得第一、第三或第四多个有雾图像的有雾图像包括:
-获得初始图像的深度图,
-获得初始图像的预定义语义分割,
-制作初始图像的透射率图,其中对于初始图像的每个像素,当深度图中的像素的深度增加时,透射率降低,
-通过考虑图像的预定义语义分割来过滤透射率图,以获得过滤的透射率图,
-使用过滤的透射率图在初始图像上模拟雾的外观以获得有雾图像。
本发明的发明人观察到,通过使用图像的预定义语义分割,透射率图更好地反映了真实的有雾图像(使用相机获取有雾场景的图像而获得的)的透射率。
应注意,在本申请中,(过滤的)透射率图确定可以到达相机(图像的视点)的场景辐射量。透射率图在文件“采用合成数据的语义雾景理解”中被特别公开。透射率图可以具有与图像相同的分辨率:图像的像素具有相关联的透射率值。类似地,深度图也可以具有与图像相同的分辨率。
在深度增加时透射率降低的透射率图的细化提供了雾的第一近似。通过后续的过滤步骤可以改进该第一近似。
应注意,透射率图和辐射率是本领域技术人员已知的术语,并且通过示例的方式在“使用暗通道先验消除单个图像混浊(Single image haze removal using darkchannel prior)”(He,K.,Sun,J.,Tang,X.,IEEE Transactions on Pattern Analysisand Machine Intelligence 33(12)(2011)2341-2353)和“贝叶斯除雾(Bayesiandefogging)”(Nishlno,K.,Kratz,L.,Lombardi,S.,国际计算机视觉杂志98(3)(2012)263-278)中进一步描述。
根据特定实施例,过滤透射率图包括应用双边过滤器。
因此,像素的初始透射率被去噪并增强。
双边过滤允许在保留边缘以及在本发明中单独的语义对象之间的边缘的同时平滑透射率。
根据特定实施例,双边过滤器被定义为:
Figure BDA0002910940550000061
其中:
p和q是初始图像的像素,
N(p)是p的邻,
t(p)是被过滤的透射率图中的像素p的透射率,
Figure BDA0002910940550000062
是透射率图中的像素q的透射率,
Figure BDA0002910940550000063
是空间高斯核,
Figure BDA0002910940550000064
是色域高斯核,
δ是克罗内克函数(Kronecker delta),
μ是预定权重,
h(p)和h(q)分别是像素p和q的语义标记,以及
J(q)和J(p)分别是CIELAB域中的色值。
本发明的发明人观察到,上述方程式可以容易地实现,从而促进本发明的实现。更精确地,可以使用如文件“使用信号处理方法对双边过滤器的快速近似(A fastapproximation of the bilateral filter using a signal processing approach)”中公开的双边网格(国际计算机视觉杂志,巴黎,S.,Durand,F.,2009)。
举例来说,有可能生成两个单独的双边网格,每个网格对应于语义和色域,并且然后分别对每个网格进行操作以通过组合最终结果来执行过滤。因此,使用语义域的3维网格(像素位置和标签)和5维(像素位置和三个颜色分量)代替单个联合的6维网格(其将增加计算时间)。
根据特定实施例,透射率图定义为:
Figure BDA0002910940550000071
其中:
Figure BDA0002910940550000072
是透射率图中的像素q的透射率,
β是衰减系数,以及
l(q)是深度图中的像素q的深度。
该透射率图允许在第一近似中模拟均匀雾。可以选择衰减系数β以根据深度来降低可见度并增加雾的密度。
根据特定实施例,其中,使用过滤的透射率图来模拟初始图像上的雾的外观包括:将每个像素的色值I(x)计算为:
I(x)=R(x)+L(1-t(x))
其中:
x是像素位置,
R(x)是图像的色值,
L(1-t(x))是大气光,以及
t(x)是被过滤的透射率图中的像素x的透射率。
根据特定实施例,使用立体深度(depth-by-stereo)方法和可选的离群值抑制(outlier suppression)方法来获得深度图。
离群值抑制方法可以包括对孔的抑制。
立体深度方法可以包括使用水平间隔开一定距离的两个相机来获取两个图像。
离群值抑制方法可以包括对从立体深度方法获得的深度图中的缺失值的抑制。这些孔是由于因遮挡而导致的初始立体深度方法失败而造成的:在一个相机上可见但在用于立体深度的另一相机中被遮蔽的区域(这导致缺失深度值)。本发明还提出了用于训练要用于图像的语义分割的模型的系统,包括:
模块A,用于获得具有不同密度的合成雾的第一多个有雾图像,
模块B,使用第一多个有雾图像和相关联的不同密度来用于训练用于估计雾密度的分类模型,
模块C,用于根据图像中的雾密度使用模块B的分类模型对第二多个图像进行分类,以便获得第二多个有雾图像,第二多个有雾图像中的每个有雾图像具有包括在第一雾密度阈值和第二雾密度阈值之内的雾密度,
模块D,用于获得第三多个有雾图像,第三多个有雾图像中的每个有雾图像具有包括在第一雾密度阈值和第二雾密度阈值之内的雾密度的合成雾,
模块E,用于使用第三多个有雾图像和第三多个图像的预定义语义分割来训练语义分割模型,
模块F,用于将步骤e的语义分割模型应用于第二多个有雾图像,以获得第二多个有雾图像的语义分割,
模块G,用于获得第四多个有雾图像,每个有雾图像具有包括在第三雾密度阈值和第四雾密度阈值之内的雾密度的合成雾,第三雾密度阈值和第四雾密度阈值二者大于第一雾密度阈值和第二雾密度阈值,
模块H,用于使用以下内容训练步骤e的语义分割模型:
-第四多个有雾图像和第四多个有雾图像的预定义语义分割,
-第二多个有雾图像和由模块F获得的多个有雾图像的语义分割。
该系统可以被配置为执行如上所述的方法的所有实施例。
在一个特定实施例中,上述方法的步骤由计算机程序指令确定。
因此,本发明还涉及计算机程序,在该计算机程序由计算机执行时,该计算机程序用于执行如上描述的方法的步骤。
该程序可以使用任何编程语言,并采用源代码、目标代码或者在源代码和目标代码之间的中间代码的形式,诸如部分编译的形式或者任何其它所需的形式。
本发明还针对计算机可读信息介质,其包含如上描述的计算机程序的指令。
信息介质可以是能够存储程序的任何实体或装置。例如,介质可以包括诸如ROM(例如CD ROM或微电子电路ROM)的存储部件,或例如软盘(软性盘)或硬盘的磁存储部件。
可替代地,信息介质可以是其中结合有程序的集成电路,该电路适于执行所讨论的方法或在其执行中使用。
附图说明
现在将参考附图通过示例的方式描述如何实施本发明,在附图中:
-图1是示例性方法的框图;以及
-图2是示例性系统的示意图。
具体实施方式
在图1中示出了用于训练模型的方法。
最初,该模型可以是神经网络或卷积神经网络,其可以被设想为对图像执行语义分割。然而,最初,该模型还未被训练以对有雾图像执行语义分割。
可以由模型(在完全训练后)处理的图像可以是图像传感器拍摄的照片。多个对象(优选是不同类型的可能重叠或可能不重叠的对象)可在这些图像上是可见的。
例如,图像示出了可能从道路上的车辆(例如在街道中)可见的场景。
在第一步骤S01中,具有不同密度的合成雾的第一多个有雾图像。
可以使用在其上没有雾的多个图像来执行该步骤。
为了在这些图像上具有逼真的合成雾,可以如下将合成雾添加到多个初始图像中的每个初始图像上。
初始图像在RGB图像中。为了执行该方法,针对该图像获得深度图。优选地,使用立体深度方法和离群值抑制方法来获得深度图。换句话说,可以使用两个相机来获取图像,通常是左相机和右相机(要处理的实际图像可以是左图像或右图像)。在深度图上,可以使用已知方法(例如,在“采用合成数据的语义雾景理解”(国际计算机视觉杂志,Sakaridis,C.,Dai,D.,Van Gool,L.,2018)文件中公开的方法)来去除离群值。
另外,为了处理初始图像,提出使用图像的预定义语义分割。图像的该语义分割可能已经通过操作员对图像的每个部分(像素组)进行注释以便指示他们的类型而准备。例如,这导致图像的分割,该分割指示对象是否是车辆、行人、道路、车道等。
分割可以在数学上表示为函数h:
h:P→{1,...,C}
其中:
p是像素位置的离散域,
C是场景(或图像)中语义类(或类型)的总数。
首先,详细说明透射率图。该步骤可以包括使用以下方程式添加“合成雾”:
Figure BDA0002910940550000101
其中:
Figure BDA0002910940550000102
是透射率图中的像素q的透射率,
β是衰减系数,以及
l(q)是深度图中的像素q的深度。
系数β从气象学领域是已知的。实际上,对象的可见性(也以首字母缩略词“MOR:气象光学范围”简称)定义为透射率大于或等于0.05的距相机(或视点)的最大距离。这意味着:
Figure BDA0002910940550000103
因此,可以将衰减系数选择为大于或等于2.996×10-3m-1,该值对应于轻雾。
发明人观察到在该阶段透射率图不令人满意。执行进一步的过滤步骤。
在该步骤中,考虑图像的语义分割。例如,过滤透射率图可包括使用双边过滤器。
这可以使用以下方程式实现:
Figure BDA0002910940550000111
其中:
p和q是图像的像素,
N(p)是p的邻,
t(p)是被过滤的透射率图中的像素p的透射率,
Figure BDA0002910940550000112
是透射率图中的像素q的透射率,
Figure BDA0002910940550000113
是空间高斯核,
Figure BDA0002910940550000114
是色域高斯核,
δ是克罗内克函数,
μ是预定权重,
h(p)和h(q)分别是像素p和q的语义标记,以及
J(q)和J(p)分别是CIELAB域中的色值。
用于参数的典型值可以是:
σs=20
σc=10
μ=5
然后在图像上模拟雾。使用过滤的透射率图来模拟图像上的雾的外观包括:将每个像素的色值I(x)计算为:
J(x)=R(x)+L(1-t(x))
其中:
x是像素位置,
R(x)是图像的色值,
L(1-t(x))是大气光,以及
t(x)是被过滤的透射率图中的像素x的透射率。
应注意,R(x)是在红-绿-蓝空间中具有三个分量的值,每个值都是0到255之间的整数。
优选地,大气光被认为是恒定的,例如大气光是根据图像估计的恒定值。例如,具有最高强度值的像素可以视为大气光。
图像I(x)也以红-绿-蓝空间表示,并且被称为有雾图像。
因此,可以获得第一多个有雾图像100。通过使用针对系数β的各种值,例如大于2.996×10-3m-1的随机值,在图像上可见各种密度的合成雾。
在步骤S02中,使用第一多个有雾图像100来训练用于估计雾密度的模型。该模型被配置为接收图像作为输入,并输出与图像相关联的值(例如,系数β)。
因为第一多个有雾图像中的图像的系数β的值是已知的,所以可以通过使模型的输出与用于生成合成雾的系数β的值之间的差最小化来训练网络。
在步骤S03中,使用在步骤S02中训练的模型对第二多个图像101进行分类。
优选地,第二多个图像101包括包含真实雾的图像。换句话说,这些图像是在室外拍摄的其上可能存在具有不同雾密度的真实雾的照片。
在执行该分类之前,定义了第一雾密度阈值和第二雾密度阈值,使得示出轻雾密度的图像被包括在第一雾密度阈值和第二雾密度阈值之内。
本领域技术人员将能够在步骤S02的模型的输出上确定这些阈值。
使用该模型和两个阈值,可以仅选择第二多个图像101中的具有包括在第一雾密度阈值和第二雾密度阈值之内的雾密度的图像,以获得第二多个有雾图像102。
然后,可以执行步骤S04,其中获得第三多个有雾图像103。可以使用在步骤S01中使用的相同方法来获得该第三多个有雾图像。选择第三多个有雾图像中的图像的雾密度,以便使其包含在第一雾密度阈值和第二雾密度阈值之内。因此,在第三多个有雾图像中,该图像呈现轻雾。
在图中,还表示了第三多个有雾图像中每个图像的语义分割103'。该分割是预定义的,并且可能已在操作员的注释步骤之前获得。
然后在其中训练语义分割模型的步骤S05中使用第三多个有雾图像103和对应的预定义语义分割。
通过以下来执行该训练:将第三多个有雾图像103中的每个图像输入到模型,并将模型的输出与图像的预定义语义分割进行比较以便调节模型的参数并训练模型。
然后,在步骤S06中,第二多个有雾图像102可以被输入到步骤S05的训练模型。对于每个图像,获得语义分割102'。
在步骤S07中,获得第四多个有雾图像104。
可以使用在步骤S01中使用的相同方法来获得第四多个有雾图像。选择第四多个有雾图像中的图像的雾密度,以便使其包含在第三雾密度阈值和第四雾密度阈值之内,第三雾密度阈值和第四雾密度阈值均大于第一雾密度阈值和第二雾密度阈值。
可以选择第三和第四雾密度阈值以便示出浓雾。
在图中,表示了第四多个有雾图像的语义分割104'。这些语义分割可能已用于合成雾的生成。
在最后的步骤S08中,使用以下内容对在步骤S05中训练(或预先训练)的模型进行训练(或进一步训练):
-第四多个有雾图像104和第四多个有雾图像的预定义语义分割104′,
-第二多个有雾图像102和在步骤S06中获得的多个有雾图像的语义分割102′。
步骤S08包括将来自第二多个有雾图像102的图像和来自第四多个有雾图像104的图像的混合输入到步骤S05的语义分割模型,以便获得要被馈送给模型的图像流,其中图像流包括比来自第二多个有雾图像的图像的更大比例的来自第四多个有雾图像的图像。
根据特定实施例,步骤h包括最小化以下值:
Figure BDA0002910940550000131
其中:
l是第四多个有雾图像中的图像的数量,
xi″是第四多个有雾图像中的索引i的图像,
yi是图像xi″的预定义语义分割,
L(x,y)是x和y的交叉熵损失函数,
Φ″(xi″)是语义分割模型的输出,
μ是第二多个有雾图像中的图像的数量,
Figure BDA0002910940550000141
其中w是预定义权重(例如等于1/3),
Figure BDA0002910940550000142
是第二多个有雾图像中的图像,以及
Figure BDA0002910940550000143
是步骤f中获得的图像xi″的语义分割。
应注意,语义分割在具有轻雾的图像上比具有浓雾的图像上更容易执行。因此,如果两个数据源都包含轻雾而不是浓雾,则可以将在合成数据(例如合成雾)上训练的模型推广到真实数据。
同样,浓合成雾和轻真实雾反映了不同且互补的特征:一方面,浓合成雾具有与真实浓雾相似的可见性障碍,但可能包括伪影;另一方面,轻的真实雾采集了雾的真实非均匀且在空间上变化的结构,但是密度不同。
因此,建议将二者都用于训练模型。
参考图1描述的方法的步骤可以通过计算机程序指令来确定。这些指令可以由如图2所示的系统的处理器执行。
在图上,表示了用于训练模型的系统200。该系统200(可以是计算机)包括处理器201和非易失性存储器202。
在非易失性存储器202中,存储了一组指令,并且该组指令包括用以执行用于训练模型的方法的指令,以及更详细地:
-指令203A,以获得具有不同密度的合成雾的第一多个有雾图像,
-指令203B,以使用第一多个有雾图像和相关联的不同密度来训练用于估计雾密度的分类模型,
-指令203C,以根据图像中的雾密度使用指令203B的分类模型对第二多个图像进行分类,以便获得第二多个有雾图像,第二多个有雾图像中的每个有雾图像具有包括在第一雾密度阈值和第二雾密度阈值之内的雾密度,
-指令203D,以获得第三多个有雾图像,第三多个有雾图像中的每个有雾图像具有包括在第一雾密度阈值和第二雾密度阈值之内的雾密度的合成雾,
-指令203E,以使用第三多个有雾图像和第三多个图像的预定义语义分割来训练语义分割模型,
-指令203F,以将指令203E的语义分割模型应用于第二多个有雾图像,以获得第二多个有雾图像的语义分割,
-指令203G,以获得第四多个有雾图像,第四多个有雾图像中的每个有雾图像具有包括在第三雾密度阈值和第四雾密度阈值之内的雾密度的合成雾,第三雾密度阈值和第四雾密度阈值均大于第一雾密度阈值和第二雾密度阈值,
-指令203H,以使用以下内容训练指令203E的语义分割模型:
-第四多个有雾图像和第四多个有雾图像的预定义语义分割,
-第二多个有雾图像和在指令203F中获得的多个有雾图像的语义分割。
指令203A至203H和处理器201分别形成八个模块:
-模块A,用于获得具有不同密度的合成雾的第一多个有雾图像,
-模块B,用于使用第一多个有雾图像和相关联的不同密度来训练用于估计雾密度的分类模型,
-模块C,用于根据图像中的雾密度使用模块B的分类模型对第二多个图像进行分类,以便获得第二多个有雾图像,第二多个有雾图像中的每个有雾图像具有包括在第一雾密度阈值和第二雾密度阈值之内的雾密度,
-模块D,用于获得第三多个有雾图像,第三多个有雾图像中的每个有雾图像具有包括在第一雾密度阈值和第二雾密度阈值之内的雾密度的合成雾,
-模块E,用于使用第三多个有雾图像和第三多个图像的预定义语义分割来训练语义分割模型,
-模块F,用于将步骤e的语义分割模型应用于第二多个有雾图像,以获得第二多个有雾图像的语义分割,
-模块G,用于获得第四多个有雾图像,第四多个有雾图像中的每个有雾图像具有包括在第三雾密度阈值和第四雾密度阈值之内的雾密度的合成雾,第三雾密度阈值和第四雾密度阈值均大于第一雾密度阈值和第二雾密度阈值,
-模块H,用于使用以下内容训练步骤e的语义分割模型:
-第四多个有雾图像和第四多个有雾图像的预定义语义分割,
-第二多个有雾图像和由模块F获得的多个有雾图像的语义分割。
应注意,可以通过使用由与本申请相同的申请人在同一天提交的国际专利申请中公开并且题为“用于处理图像以获得有雾图像的方法和系统”的方法来执行获得具有合成雾的图像,将其整体并入本申请。
尽管上面已经参考某些特定实施例描述了本发明,但是可以理解,本发明不受特定实施例的特殊性的限制。在所附权利要求的范围内,可以在上述实施例中做出许多变化、修改和发展。

Claims (13)

1.一种用于训练要用于图像的语义分割的模型的方法,包括:
a-获得(S01)具有不同密度的合成雾的第一多个有雾图像(101),
b-使用所述第一多个有雾图像和相关联的不同密度来训练(S02)用于估计雾密度的分类模型,
c-根据所述图像中的所述雾密度使用步骤b的所述分类模型对第二多个图像(101)进行分类(S03),以获得第二多个有雾图像(102),所述第二多个有雾图像中的每个有雾图像具有包括在第一雾密度阈值和第二雾密度阈值之内的雾密度,
d-获得(S04)第三多个有雾图像(103),所述第三多个有雾图像中的每个有雾图像具有包括在所述第一雾密度阈值和所述第二雾密度阈值之内的雾密度的合成雾,
e-使用所述第三多个有雾图像和所述第三多个图像的预定义语义分割来训练(S05)语义分割模型,
f-将步骤e的所述语义分割模型应用于(S06)所述第二多个有雾图像(102),以获得所述第二多个有雾图像的语义分割(102′),
g-获得(S07)第四多个有雾图像(104),所述第四多个有雾图像中的每个有雾图像具有包括在第三雾密度阈值和第四雾密度阈值之内的雾密度的合成雾,所述第三雾密度阈值和所述第四雾密度阈值均大于所述第一雾密度阈值和所述第二雾密度阈值,
h-使用以下内容训练(S08)步骤e的所述语义分割模型:
-所述第四多个有雾图像(104)和所述第四多个有雾图像的预定义语义分割(104′),
-所述第二多个有雾图像(102)和在步骤f中获得的所述多个有雾图像的所述语义分割(102′)。
2.根据权利要求1所述的方法,其中,步骤h包括将来自所述第二多个有雾图像的图像和来自所述第四多个有雾图像的图像的混合输入到步骤e的所述语义分割模型,以获得要馈送到所述模型的图像流,其中,所述图像流包括比来自所述第二多个有雾图像中的图像更大比例的来自所述第四多个有雾图像中的图像。
3.根据权利要求1或2所述的方法,其中,步骤h包括最小化以下值:
Figure FDA0002910940540000021
其中:
l是所述第四多个有雾图像中的图像的数量,
xi″是所述第四多个有雾图像中的索引i的图像,
yi是图像xi″的所述预定义语义分割,
L(x,y)是x和y的交叉熵损失函数,
Φ″(xi″)是所述语义分割模型的输出,
μ是所述第二多个有雾图像中的图像的数量,
Figure FDA0002910940540000022
其中w是预定义权重,
Figure FDA0002910940540000023
是所述第二多个有雾图像的图像,以及
Figure FDA0002910940540000024
是在步骤f中获得的图像xi″的所述语义分割。
4.根据权利要求1至3中任一项所述的方法,其中,在步骤a、d和g中,获得用于所述第一、第三或第四多个有雾图像的有雾图像包括:
-获得初始图像的深度图,
-获得所述初始图像的预定义语义分割,
-制作所述初始图像的透射率图,其中对于所述初始图像的每个像素,当所述深度图中的所述像素的所述深度增加时,所述透射率降低,
-通过考虑所述图像的所述预定义语义分割来过滤所述透射率图,以获得过滤的透射率图,
-使用所述过滤的透射率图在所述初始图像上模拟雾的外观以获得所述有雾图像。
5.根据权利要求4所述的方法,其中,过滤所述透射率图包括应用双边过滤器。
6.根据权利要求5所述的方法,其中,所述双边过滤器被定义为:
Figure FDA0002910940540000031
其中:
p和q是所述初始图像的像素,
N(p)是p的邻,
t(p)是所述过滤的透射率图中的像素p的所述透射率,
Figure FDA0002910940540000032
是所述透射率图中的像素q的所述透射率,
Figure FDA0002910940540000033
是空间高斯核,
Figure FDA0002910940540000034
是色域高斯核,
δ是克罗内克函数,
μ是预定权重,
h(p)和h(q)分别是像素p和q的所述语义标记,以及
J(q)和J(p)分别是CIELAB域中的所述色值。
7.根据权利要求4至6中任一项所述的方法,其中,所述透射率图被定义为:
Figure FDA0002910940540000035
其中:
Figure FDA0002910940540000036
是所述透射率图中的像素q的所述透射率,
β是衰减系数,以及
l(q)是所述深度图中的像素q的所述深度。
8.根据权利要求4至7中任一项所述的方法,其中,使用所述过滤的透射率图来模拟所述初始图像上的雾的所述外观包括:将每个像素的所述色值I(x)计算为:
I(x)=R(x)+L(1-t(x))
其中:
x是像素位置,
R(x)是所述图像的所述色值,
L(1-t(x))是所述大气光,以及
t(x)是所述过滤的透射率图中的像素x的所述透射率。
9.根据权利要求4至8中任一项所述的方法,其中,使用立体深度方法和离群值抑制方法来获得所述深度图。
10.一种语义分割方法,包括在图像上使用权利要求1至9中任一项所述的步骤h的模型。
11.一种用于训练要用于图像的语义分割的模型的系统,包括:
模块A,用于获得具有不同密度的合成雾的第一多个有雾图像(100),
模块B,用于使用所述第一多个有雾图像和相关联的不同密度来训练用于估计雾密度的分类模型,
模块C,用于根据所述图像中的所述雾密度使用模块B的所述分类模型对第二多个图像(101)进行分类,以获得第二多个有雾图像(102),所述第二多个有雾图像中的每个有雾图像具有包括在第一雾密度阈值和第二雾密度阈值之内的雾密度,
模块D,用于获得第三多个有雾图像(103),所述第三多个有雾图像中的每个有雾图像具有包括在所述第一雾密度阈值和所述第二雾密度阈值之内的雾密度的合成雾,
模块E,用于使用所述第三多个有雾图像和所述第三多个图像的预定义语义分割(103′)来训练语义分割模型,
模块F,用于将步骤e的所述语义分割模型应用于所述第二多个有雾图像,以获得所述第二多个有雾图像的语义分割(102′),
模块G,用于获得第四多个有雾图像(104),所述第四多个有雾图像中的每个有雾图像具有包括在第三雾密度阈值和第四雾密度阈值之内的雾密度的合成雾,所述第三雾密度阈值和所述第四雾密度阈值均大于所述第一雾密度阈值和所述第二雾密度阈值,
模块H,用于使用以下内容训练步骤e的所述语义分割模型:
-所述第四多个有雾图像(104)和所述第四多个有雾图像的预定义语义分割(104′),
-所述第二多个有雾图像(102)和由模块F获得的所述多个有雾图像的所述语义分割(102′)。
12.一种计算机程序,其包括指令,当所述程序由计算机执行时,所述指令用于执行根据权利要求1至10中任一项所述的方法的步骤。
13.一种由计算机可读且在其上记录有计算机程序的记录介质,所述计算机程序包括用于执行根据权利要求1至10中任一项所述的方法的步骤的指令。
CN201880095853.4A 2018-07-24 2018-07-24 训练模型以对有雾图像执行语义分割的方法和系统 Pending CN112513928A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2018/070074 WO2020020446A1 (en) 2018-07-24 2018-07-24 A method and a system training a model to perform semantic segmentation on foggy images

Publications (1)

Publication Number Publication Date
CN112513928A true CN112513928A (zh) 2021-03-16

Family

ID=63013045

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880095853.4A Pending CN112513928A (zh) 2018-07-24 2018-07-24 训练模型以对有雾图像执行语义分割的方法和系统

Country Status (3)

Country Link
US (1) US11941815B2 (zh)
CN (1) CN112513928A (zh)
WO (1) WO2020020446A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113139922A (zh) * 2021-05-31 2021-07-20 中国科学院长春光学精密机械与物理研究所 图像去雾方法及去雾装置

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11321863B2 (en) * 2019-09-23 2022-05-03 Toyota Research Institute, Inc. Systems and methods for depth estimation using semantic features
US11772656B2 (en) * 2020-07-08 2023-10-03 Ford Global Technologies, Llc Enhanced vehicle operation
CN114691912A (zh) * 2020-12-25 2022-07-01 日本电气株式会社 图像处理的方法、设备和计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013141209A (ja) * 2011-12-30 2013-07-18 Hitachi Ltd 画像霧除去装置及び画像霧除去方法
US20140140619A1 (en) * 2011-08-03 2014-05-22 Sudipta Mukhopadhyay Method and System for Removal of Fog, Mist, or Haze from Images and Videos
CN104134194A (zh) * 2014-07-23 2014-11-05 中国科学院深圳先进技术研究院 图像去雾方法和系统
CN107767353A (zh) * 2017-12-04 2018-03-06 河南工业大学 一种基于清晰度评价的自适应图像去雾方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10019652B2 (en) * 2016-02-23 2018-07-10 Xerox Corporation Generating a virtual world to assess real-world video analysis performance
US10692000B2 (en) * 2017-03-20 2020-06-23 Sap Se Training machine learning models
US20190377981A1 (en) * 2018-06-11 2019-12-12 Venkata Subbarao Veeravasarapu System and Method for Generating Simulated Scenes from Open Map Data for Machine Learning

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140140619A1 (en) * 2011-08-03 2014-05-22 Sudipta Mukhopadhyay Method and System for Removal of Fog, Mist, or Haze from Images and Videos
JP2013141209A (ja) * 2011-12-30 2013-07-18 Hitachi Ltd 画像霧除去装置及び画像霧除去方法
CN104134194A (zh) * 2014-07-23 2014-11-05 中国科学院深圳先进技术研究院 图像去雾方法和系统
CN107767353A (zh) * 2017-12-04 2018-03-06 河南工业大学 一种基于清晰度评价的自适应图像去雾方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SAKARIDIS 等: "Semantic foggy scene understanding with synthetic data", 《INTERNATIONAL JOURNAL OF COMPUTER VISION》, vol. 126, no. 9, 23 March 2018 (2018-03-23), pages 973 - 992 *
胡众义;刘清;郭建明;徐华中;: "一种基于SVM分类的雾图自动检测方法", 计算机仿真, no. 02, 15 February 2015 (2015-02-15), pages 342 - 346 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113139922A (zh) * 2021-05-31 2021-07-20 中国科学院长春光学精密机械与物理研究所 图像去雾方法及去雾装置
CN113139922B (zh) * 2021-05-31 2022-08-02 中国科学院长春光学精密机械与物理研究所 图像去雾方法及去雾装置

Also Published As

Publication number Publication date
WO2020020446A1 (en) 2020-01-30
US20210158098A1 (en) 2021-05-27
US11941815B2 (en) 2024-03-26

Similar Documents

Publication Publication Date Title
CN112513928A (zh) 训练模型以对有雾图像执行语义分割的方法和系统
Negru et al. Exponential contrast restoration in fog conditions for driving assistance
CN108256547B (zh) 生成用于基于机器学习的对象识别系统的训练图像
EP2568438B1 (en) Image defogging method and system
DE102018201054A1 (de) System und Verfahren zur Bilddarstellung durch ein Fahrerassistenzmodul eines Fahrzeugs
CN111091091A (zh) 目标对象重识别特征的提取方法、装置、设备及存储介质
JP2022509034A (ja) ニューラルネットワークを使用した輝点除去
CN110379020B (zh) 一种基于生成对抗网络的激光点云上色方法和装置
CN103186887B (zh) 图像除雾装置和图像除雾方法
CN110544213A (zh) 一种基于全局和局部特征融合的图像去雾方法
CN109509156B (zh) 一种基于生成对抗模型的图像去雾处理方法
WO2020020445A1 (en) A method and a system for processing images to obtain foggy images
CN111179189A (zh) 基于生成对抗网络gan的图像处理方法、装置以及电子设备、存储介质
CN109587392B (zh) 监控设备的调整方法及装置、存储介质、电子装置
Kim et al. Adaptive patch based convolutional neural network for robust dehazing
CN115115611A (zh) 车辆损伤识别方法、装置、电子设备和存储介质
KR101998027B1 (ko) 악천후에서의 도로 객체 검출 기법 학습을 위한 안개 및 비 영상 합성 기법 및 시스템
WO2020239196A1 (en) System and method for training a generative adversarial model generating image samples of different brightness levels
JP2024041895A (ja) モジュール式画像補間方法
CN112489103B (zh) 一种高分辨率深度图获取方法及系统
Trongtirakul et al. Transmission map optimization for single image dehazing
KR20140072980A (ko) 단일 영상을 이용한 hdr 영상 생성 장치 및 방법
CN107301625B (zh) 基于亮度融合网络的图像去雾方法
Negru et al. Exponential image enhancement in daytime fog conditions
CN111028184B (zh) 一种图像增强方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination