CN112837270B

CN112837270B - 一种自带语义注释的道面图像的合成方法和网络模型

Info

Publication number: CN112837270B
Application number: CN202110031424.4A
Authority: CN
Inventors: 费越; 杨辉; 余世杰; 彭辉; 刘天恒; 桂仲成
Original assignee: Chengdu Guimu Robot Co ltd
Current assignee: Chengdu Guimu Robot Co ltd
Priority date: 2021-01-11
Filing date: 2021-01-11
Publication date: 2023-04-07
Anticipated expiration: 2041-01-11
Also published as: CN112837270A

Abstract

本发明公开了一种自带语义注释的道面图像的合成方法，包括：采集获得语义标注图、边缘检测图和明暗棋盘图；构建图像合成的生成器和真假图像判断的鉴别器，所述生成器的输出与鉴别器的输入连接，并构成生成对抗网络模型；将训练集的语义标注图、边缘检测图和明暗棋盘图级联后得到第一图像特征，将第一图像特征输入至生成器内生成第二图像特征，将第一图像特征和第二图像特征级联后得到第三图像特征，将第一图像特征和原始图像级联后得到第四图像特征；将不同分辨率下的第三图像特征和第四图像特征轮流输入至鉴别器内，以区分输入图像是否为合成图像。通过上述方案，本发明具有逻辑简单、高效可靠等优点。

Description

一种自带语义注释的道面图像的合成方法和网络模型

技术领域

本发明涉及道面图像处理技术领域，尤其是一种自带语义注释的道面图像的合成方法和网络模型。

背景技术

随着深度学习技术的飞速发展，基于深度学习的语义分割模型在道面病害自动检测任务中也得到了广泛的应用。这些模型以道面图像作为输入，利用卷积神经网络对图像中每个像素所属类型进行预测(如背景像素、裂缝像素、灌缝像素、修补像素等)。模型的学习方式大多遵循有监督学习的机制，其性能的优劣在某种程度上取决于标注数据量的多寡：基于大量数据训练的模型在实际应用中通常具有较高的泛化性，而基于少量数据训练的模型则往往表现欠佳。

目前，现有技术中的道面图像的语义标注存在以下问题：

第一，标注周期长：单张图像(256×512像素)的精确分割标注可能耗时长达10至20分钟；

第二，标注费用高：单张图像标注价格大约在4元/张，而深度学习需要的图像数据量往往是数十万乃至上百万的量级，要构建专有的道面图像数据库消费巨大；

第三，标注质量欠佳：在标注过程中，容易因为标注人员的主观原因而造成误标、漏标现象；

第四，专业知识门槛高：标注人员大多未接受道面养护知识的相关培训，需要专业人士指点。

由此可见，现有技术中的人工标注的过程十分费时、耗财并且质量无法把控。因此，道面语义标注图像的数量十分有限，这会对有监督深度学习模型的性能产生负面影响。

因此，急需要提出一种逻辑简单、高效可靠的自带语义注释的道面图像的合成方法和网络模型。

发明内容

针对上述问题，本发明的目的在于提供一种自带语义注释的道面图像的合成方法和网络模型，本发明采用的技术方案如下：

一种自带语义注释的道面图像的合成方法，包括以下步骤；

采集获得道面图像，并对道面图像进行标注，得到语义标注图；对道面图像进行边缘检测和平均池化后上采样，得到边缘检测图和明暗棋盘图，将语义标注图、边缘检测图和明暗棋盘图分为训练集和验证集；

构建图像合成的生成器和真假图像判断的鉴别器，所述生成器的输出与鉴别器的输入连接，并构成生成对抗网络模型；

将训练集的语义标注图、边缘检测图和明暗棋盘图级联后得到第一图像特征，将第一图像特征输入至生成器内生成第二图像特征，将第一图像特征和第二图像特征级联后得到第三图像特征，将第一图像特征和原始图像级联后得到第四图像特征；

将不同分辨率下的第三图像特征和第四图像特征轮流输入至鉴别器内，以区分输入图像是否为合成图像；

所述第一图像特征输入至生成器内生成第二图像特征时，最小化对抗生成损失函数和特征匹配损失函数进行参数优化，且将第三图像特征和第四图像特征轮流输入至鉴别器内，并最大化对抗生成损失函数进行参数优化，其表达式为：

L_GAN(G,D)＝Ε_{(x,y)～Pdata(x,y)}log(D(x,y))+Ε_y～Pdata(y)log(1-D(G(y),y))

其中，x表示原始图像，y表示语义标注图、边缘检测图以及明暗棋盘图这三者组成的条件图像；G表示生成器，G(y)表示生成器的输出；D表示鉴别器，D(x,y)、D(G(y),y)表示鉴别器的输出；D_k表示第k个分辨率的鉴别器，Dⁱ表示某一分辨率鉴别器的第i层特征输出，N_i表示某一分辨率鉴别器的第i层特征输出的总元素数量，T表示某一分辨率鉴别器的网络总层数；E_{(x,y)～pdata(x,y)}表示(x,y)服从概率分布pdata(x,y)时的期望，E_y～pdata(y)表示y服从概率分布pdata(y)时的期望；λ表示平衡对抗生成网络的损失函数和特征匹配的损失函数的权值；L_FM是特征匹配损失，L_GAN是生成对抗网络损失，L_total是总损失。

进一步地，所述生成器包括从前至后依次连接并封装的第一编码器、第二编码器、第一解码器、第二解码器和第五卷积层；所述第一编码器为卷积核为4×4、且步长为2的第一卷积层；所述第二编码器为从前至后依次连接并封装、卷积核均为4×4、步长均为2的第二卷积层、第三卷积层和第四卷积层；所述第一解码器为从前至后依次连接并封装、卷积核均为4×4、步长均为2的第一转置卷积层、第二转置卷积层和第三转置卷积层；所述第五卷积层的卷积核为3×3、步长均为1。

优选地，对所述语义标注图、边缘检测图和明暗棋盘图进行下采样并输入至第二卷积层内。

进一步地，对第一卷积层输出和第三转置卷积层的输出进行级联，并采用上采样获得第三图像特征。

优选地，所述第四卷积层与第一转置卷积层之间添加有噪声；所述噪声的形状和第四卷积层输出张量的形状相同。

进一步地，所述鉴别器由两路结构相同、且并行布设的卷积神经网络组成；任一所述卷积神经网络包括从前至后依次连接并封装的第六卷积层、第七卷积层、第八卷积层、第九卷积层和第十卷积层。

优选地，所述第六卷积层、第七卷积层、第八卷积层和第九卷积层的卷积核均为4×4、步长均为2；所述第十卷积层的卷积核均为3×3、步长均为1。

优选地，所述权值λ取值为10。

一种采用自带语义注释的道面图像的合成方法的网络模型，包括从前至后依次连接的生成器和鉴别器；

所述生成器包括从前至后依次连接并封装的第一编码器、第二编码器、第一解码器、第二解码器和第五卷积层；所述第一编码器为第一卷积层；所述第二编码器为从前至后依次连接并封装的第二卷积层、第三卷积层和第四卷积层；所述第一解码器为从前至后依次连接并封装的第一转置卷积层、第二转置卷积层和第三转置卷积层；

所述鉴别器由两路结构相同、且并行布设的卷积神经网络组成；任一所述卷积神经网络包括从前至后依次连接并封装的第六卷积层、第七卷积层、第八卷积层、第九卷积层和第十卷积层。

进一步地，所述第一卷积层、第二卷积层、第三卷积层和第四卷积层的卷积核均为4×4、且步长均为2；所述第五卷积层的卷积核为3×3、步长均为1；所述第六卷积层、第七卷积层、第八卷积层和第九卷积层的卷积核均为4×4、步长均为2；所述第十卷积层的卷积核均为3×3、步长均为1。

与现有技术相比，本发明具有以下有益效果：

(1)本发明巧妙地利用既有的道面语义标注数据与风格迁移技术，随机生成带有语义标注的道面图像，以此来扩充深度学习的训练集并提高模型的泛化性；

(2)本发明巧妙地在第二编码器的输出端增加了噪音，并使用加法操作与第二编码器的输出进行融合，再将融合后的结果作为第二编码器的输入，从而使生成器的输出更具有随机性与多样性，间接地丰富了生成器的输出。

(3)本发明巧妙地采用语义标注图、边缘检测图和明暗棋盘图作为输入，其好处在于，通过在输入端添加额外条件，可以更有效地控制输出端结果。

(4)本发明巧妙地在训练时添加对抗生成网络的损失函数和特征匹配的损失函数，其好处在于，有效地提高生成器合成图像的质量。

(5)本发明对语义标注图、边缘检测图和明暗棋盘图进行下采样，并对第一卷积层的输出与第三转置卷积的输出进行级联；其中，第一卷积层的输出为较低分辨率的图像特征，且第三转置卷积的输出为高分辨率的图像特征，最终获得较高分辨率的图像特征，其好处在于，低分辨率图像特征决定合成图像中对象的大致内容，高分辨率图像特征决定合成图像中的细节质量。

综上所述，本发明具有逻辑简单、高效可靠等优点，在道面图像处理技术领域具有很高的实用价值和推广价值。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需使用的附图作简单介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对保护范围的限定，对于本领域技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明的生成器的结构示意图。

图2为本发明的鉴别器的结构示意图。

图3为本发明的语义标注图、边缘检测图和明暗棋盘图。

图4为本发明的真实图像(左)与合成图像(右)对比图。

具体实施方式

为使本申请的目的、技术方案和优点更为清楚，下面结合附图和实施例对本发明作进一步说明，本发明的实施方式包括但不限于下列实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

实施例

如图1至图4所示，本实施例提供种自带语义注释的道面图像的合成方法和网络模型。需要说明的是，本实施例中所述的“第一”、“第二”等序号用语仅用于区分同类部件，不能理解成对保护范围的特定限定。

在本实施例中，网络模型包括从前至后依次连接的生成器和鉴别器，其中，生成器包括从前至后依次连接并封装的第一编码器、第二编码器、第一解码器、第二解码器和第五卷积层；所述第一编码器为卷积核为4×4、且步长为2的第一卷积层；所述第二编码器为从前至后依次连接并封装、卷积核均为4×4、步长均为2的第二卷积层、第三卷积层和第四卷积层；所述第一解码器为从前至后依次连接并封装、卷积核均为4×4、步长均为2的第一转置卷积层、第二转置卷积层和第三转置卷积层；所述第五卷积层的卷积核为3×3、步长均为1。另外，所述鉴别器由两路结构相同、且并行布设的卷积神经网络组成；任一所述卷积神经网络包括从前至后依次连接并封装的第六卷积层、第七卷积层、第八卷积层、第九卷积层和第十卷积层。优选地，所述第六卷积层、第七卷积层、第八卷积层和第九卷积层的卷积核均为4×4、步长均为2；所述第十卷积层的卷积核均为3×3、步长均为1。

下面详细说明本实施例的自带语义注释的道面图像的合成方法，其包括以下步骤：

第一步，采集获得道面图像，并对道面图像进行标注，得到语义标注图；对道面图像进行边缘检测和平均池化后上采样，得到边缘检测图和明暗棋盘图，将语义标注图、边缘检测图和明暗棋盘图分为训练集和验证集；其中，边缘检测图和明暗棋盘图可以是来自于任意一张原始图像的传统边缘检测结果(本实施例采用Canny算法)，以及任意一张原始图像的做平均池化后进行上采样的结果。

第二步，构建图像合成的生成器和真假图像判断的鉴别器，所述生成器的输出与鉴别器的输入连接，并构成生成对抗网络模型。

第三步，将训练集的语义标注图、边缘检测图和明暗棋盘图级联后得到第一图像特征，将第一图像特征输入至生成器内生成第二图像特征，将第一图像特征和第二图像特征级联后得到第三图像特征，将第一图像特征和原始图像级联后得到第四图像特征；

在本实施例中，当第一图像特征输入至生成器内生成第二图像特征时，最小化对抗生成损失函数和特征匹配损失函数进行参数优化；另外，当第三图像特征和第四图像特征轮流输入至鉴别器内时，并最大化对抗生成损失函数进行参数优化，其表达式为：

L_GAN(G,D)＝Ε_{(x,y)～Pdata(x,y)}log(D(x,y))+Ε_y～Pdata(y)log(1-D(G(y),y))

第四步，将不同分辨率下的第三图像特征和第四图像特征轮流输入至鉴别器内，以区分输入图像是否为合成图像。在本实施例中，当鉴别器输入第三图像特征时，期望鉴别器输出判定值0；当鉴别器输入第四图像特征时，期望鉴别器输出判定值1。

在本实施例中，将网络模型的输出与真实图像(图4左列)相比，合成图像(图4右列)尽可能地保留了语义标注中的道面细节(如裂缝、灌缝等)，同时又能生成不同的路面纹理(如刻槽)，相当于同一张语义标签图可以对应多张图像(包含一张原始的真实图像与多张合成图像)。那么，以裂缝检测任务为例，后续网络模型既可以学习普通道面上的裂缝特征，又可以学习刻槽道面上的裂缝特征，使得所学裂缝特征更具有泛化性。这种利用同一个语义标签生成不同图像的方法，就能变相地扩充了有监督学习机制所需的训练数据集，并借此来提高后续网络模型的泛化能力。

上述实施例仅为本发明的优选实施例，并非对本发明保护范围的限制，但凡采用本发明的设计原理，以及在此基础上进行非创造性劳动而作出的变化，均应属于本发明的保护范围之内。

Claims

1.一种自带语义注释的道面图像的合成方法，其特征在于，包括以下步骤；

L_GAN(G,D)＝Ε_{(x,y)～Pdata(x,y)}log(D(x,y))+Ε_y～Pdata(y)log(1-D(G(y),y))

2.根据权利要求1所述的一种自带语义注释的道面图像的合成方法，其特征在于，所述生成器包括从前至后依次连接并封装的第一编码器、第二编码器、第一解码器、第二解码器和第五卷积层；所述第一编码器为卷积核为4×4、且步长为2的第一卷积层；所述第二编码器为从前至后依次连接并封装、卷积核均为4×4、步长均为2的第二卷积层、第三卷积层和第四卷积层；所述第一解码器为从前至后依次连接并封装、卷积核均为4×4、步长均为2的第一转置卷积层、第二转置卷积层和第三转置卷积层；所述第五卷积层的卷积核为3×3、步长均为1。

3.根据权利要求2所述的一种自带语义注释的道面图像的合成方法，其特征在于，对所述语义标注图、边缘检测图和明暗棋盘图进行下采样并输入至第二卷积层内。

4.根据权利要求2所述的一种自带语义注释的道面图像的合成方法，其特征在于，对第一卷积层输出和第三转置卷积层的输出进行级联，并采用上采样获得第三图像特征。

5.根据权利要求2所述的一种自带语义注释的道面图像的合成方法，其特征在于，所述第四卷积层与第一转置卷积层之间添加有噪声；所述噪声的形状和第四卷积层输出张量的形状相同。

6.根据权利要求1所述的一种自带语义注释的道面图像的合成方法，其特征在于，所述鉴别器由两路结构相同、且并行布设的卷积神经网络组成；任一所述卷积神经网络包括从前至后依次连接并封装的第六卷积层、第七卷积层、第八卷积层、第九卷积层和第十卷积层。

7.根据权利要求6所述的一种自带语义注释的道面图像的合成方法，其特征在于，所述第六卷积层、第七卷积层、第八卷积层和第九卷积层的卷积核均为4×4、步长均为2；所述第十卷积层的卷积核均为3×3、步长均为1。

8.根据权利要求1所述的一种自带语义注释的道面图像的合成方法，其特征在于，所述权值λ取值为10。

9.一种采用权利要求1～8所述的自带语义注释的道面图像的合成方法的网络模型，其特征在于，包括从前至后依次连接的生成器和鉴别器；

10.根据权利要求9所述的一种采用自带语义注释的道面图像的合成方法的网络模型，其特征在于，所述第一卷积层、第二卷积层、第三卷积层和第四卷积层的卷积核均为4×4、且步长均为2；所述第五卷积层的卷积核为3×3、步长均为1；所述第六卷积层、第七卷积层、第八卷积层和第九卷积层的卷积核均为4×4、步长均为2；所述第十卷积层的卷积核均为3×3、步长均为1。