CN115223158A

CN115223158A - 基于自适应扩散先验变分自编码器的车牌图像生成方法及系统

Info

Publication number: CN115223158A
Application number: CN202210836076.2A
Authority: CN
Inventors: 王宁; 郭春生; 应娜; 陈华华
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2022-07-15
Filing date: 2022-07-15
Publication date: 2022-10-21

Abstract

本发明公开了基于自适应扩散先验变分自编码器的车牌图像生成方法及系统，方法包括：S1.收集车牌图像数据集；S2.构造自适应扩散先验的变分自编码器网络，确定构建生成车牌图像的字符类及字符域；S3.将训练数据输入变分自编码器的编码网络，得到后验分布；S4.采样数据并输入扩散模型前向过程中，对扩散时间自适应调整，得到隐变量；S5.将隐变量输入得分网络，得到不同扩散时刻的隐变量的得分；S6.确定目标字符域及目标字符类，并解码得到变分自编码器重构出的图像数据；S7.求解重构损失及先验分布和后验分布的KL散度距离损失，对变分自编码器和扩散模型的参数进行更新训练并进行测试生成图像；S8.保存最优模型权重，用已训练好的模型生成图像数据。

Description

基于自适应扩散先验变分自编码器的车牌图像生成方法及系统

技术领域

本发明属于图像生成技术领域，涉及一种车牌图像的生成方法及系统，具体是一种基于自适应扩散先验变分自编码器的车牌图像生成方法及系统。

背景技术

随着深度学习技术的快速发展，基于神经网络的端到端的车牌识别算法逐渐取代了基于传统机器学习的车牌识别算法。基于神经网络的车牌识别算法具有很多优势，诸如鲁棒性好、准确率高、处理速度快等明显优势，但也存在一些缺点，例如，其需要收集大量的车牌标注样本用于训练，从而造成数据标注的人工成本高、数据质量较差等问题。此外，常规的车牌图像主要是通过摄像机采集得到，再进行标注，但是摄像机采集的车牌图像一般类型较为单一且字符的分布不均匀，导致车牌识别模型训练易偏向常见样本，假如采用这样的车牌图像来训练车牌识别模型，这将会使车牌识别模型的鲁棒性很差。

为了获取满足训练要求的车牌标注数据，需要耗费大量的时间、资金和人力进行收集和标注工作。首先，车牌的种类繁多，包含小型车牌、大型车牌、大型双层车牌，新能源车牌、军牌、双层军牌等，相对罕见的车牌增加了样本收集工作的难度；其次，各省市的车牌内容也存在差异，需要对每个地区进行同样的重复收集。

此外，现有技术提供的方案中，为了提高车牌识别模型的识别率，一般采用的方法是有目的地增加训练数据集，然后通过人工收集训练数据效率低并且数量很有限，而通过软件合成的数据虽然满足数量要求，但合成的数据与真实的数据差异很大，难以用于车牌识别模型的训练。如何高效获取大量的高质量数据成为亟待解决的问题。

发明内容

针对现有技术存在的上述问题，本发明提出了一种基于自适应扩散先验变分自编码器的车牌图像生成方法及系统。

为了实现上述目的，本发明采用以下技术方案：

一种基于自适应扩散先验变分自编码器的车牌图像生成方法，其包括如下步骤：

S1.收集并整理原始的车牌图像数据集；作为优选，可以将其进一步划分为训练集和测试集；

S2.构造自适应扩散先验的变分自编码器网络，包括编码器网络、解码器网络、自适应扩散先验网络，并确定用于构建生成车牌图像的字符类以及字符域，字符类表示车牌图像中字符的字符类别，字符域表示字符在车牌图像中的字符位置；通过变分自编码器网络所提取的图像特征、字符类以及字符域构建并输出生成车牌图像；

S3.将设置好的若干批次的训练数据输入变分自编码器的编码网络中，得到后验分布，其中输入编码网络的样本车牌图像包含有原始字符域以及原始字符类；

S4.从得到的后验分布中采样数据并将其输入扩散模型前向过程中，根据正向采样调节过程，对扩散时间进行自适应调整，使得采样数据在τ～1(0<τ<1))范围内进行自适应扩散，得到加噪后的隐变量；

S5.将加噪后的隐变量输入得分网络中，得到不同扩散时刻的隐变量的得分，即加噪隐变量分布取对数之后的梯度；

S6.确定目标字符域以及目标字符类，并将目标字符域、目标字符类以及后验分布的采样数据输入解码器中解码得到变分自编码器重构出的图像数据，重构出的图像数据包含目标字符域以及目标字符类；

S7.利用编码器的输出采样数据和解码器的重构图像数据，求得重构损失；利用对加噪隐变量分布取对数之后的梯度与得分网络输出求均方误差，可得到先验分布和后验分布的距离损失，并对变分自编码器和扩散模型的参数进行更新训练并进行测试生成图像；

S8.将测试中最优的模型权重进行保存，利用已训练好的模型即可进行无条件生成图像数据。

进一步的，所述步骤S1中，收集并整理各类车牌图像数据集D，并将其按照一定比例划分为训练集D_train和测试集D_test；其中收集的车牌图像的类别包括但不限于以下：不同车型的车牌、不同用途的车牌、不同地区的车牌等。

进一步的，所述步骤S2中，构造的变分自编码器网络中的参数包括网络输入图像尺寸C×H×W，批次大小为B，隐变量维数为D_latent，编码器网络参数为φ，解码器网络参数为ψ，扩散模型网络参数θ，隐变量为Z。

进一步的，所述步骤S3中，将设置好的若干批次的车牌图像的训练数据集输入变分自编码器的编码网络中，其中输入的训练数据包括图像样本X＝{x₁,x₂,…,x_N}，其中x_i为当前批次中第i个样本，i＝1,2,…B。

进一步的，由编码网络输出的数据即为隐变量未加噪前的后验分布，即q_φ(z∣x)。

进一步的，所述步骤S4中，在获取到干净的隐变量之后，就可以根据扩散模型的规则进行对隐变量进行扩散加噪。定义连续时间变量t∈[0,1]的正向扩散过程

假设该扩散过程不是从时刻0开始的，而是从某个τ时刻开始进行扩散，即z_τ是起始变量，z_t是在t时刻的扰动，扩散过程的目的是通过一条马尔科夫链将z_τ逐渐映射到多维正态分布，即

其中，T为扩散总步数，q(z_t∣z_t-1)被定义成和常数β_t有关的高斯分布

I为单位矩阵。令α_t:＝1-β_t，

可以得到：

由上式可以由τ时刻的隐变量经过扰动，得到0～1范围内任意时刻的加噪隐变量。

进一步的，所述步骤S4中，对正向扩散过程进行调整，在一个批次的数据样本中，所有的样本使用相同的步长可能会导致原来可以更快收敛的样本收敛的更慢。由于每个图像的正向扩散过程是独立的，所以对不同的样本采用不同的扩散步长，通过利用KL散度对τ时刻的分布与1时刻的分布之间的距离进行度量，记b批次的τ时刻的KL散度为K L_b，记b+1批次对应的τ时刻的KL散度为K L_b+1：

其中，

表示b批次对应τ时刻的分布，

表示b+1批次对应τ时刻的分布。

进一步的，当K L_b<K L_b+1或K L_b>K L_b+1时，对应的扩散时间更新公式为：

τ^b+1＝τ^b+α·Δτ

上式中，α表示扩散时间更新步长，Δτ表示扩散时间变化量，在τ^b∈(0,1)的变化范围内，Δτ通常取0.01，对τ^b+1时刻进行更新，α的计算方式如下：

上式中，λ表示扩散时间的向前或向后扩散的方向控制位，β表示α随K L_b+1的变化速度。

进一步的，步骤S5中，扩散隐变量的得分为：

其中，s表示得分网络，θ为该网络的参数，得分网络一般由Unet模型参数化。

进一步的，步骤S6中，确定目标字符域以及目标字符类，并将采样得到的数据、目标字符域以及目标字符类送入解码器网络中，进行解码，记解码后的数据分布为p_θ(x∣z)，重构出的图像数据包含目标字符域以及目标字符类。

进一步的，步骤S7中，利用重构损失与先验分布和后验分布的KL散度，可以求得本模型的总损失：

进一步的，上式第三项为后验分布与先验分布的交叉熵项，在扩散框架下，可以得到如下：

其中，上式中，D为常数。

进一步的，根据L(x,φ,θ,ψ)公式，可以训练基于自适应扩散先验的变分自编码器，并迭代更新模型参数，每迭代指定次数，就进行一次图像生成，测试过程如下：

在生成过程中，添加逆向采样调节过程，通过该过程选定一个合适的τ时刻的先验分布，根据该先验，进行采样，并一同将目标字符域、目标字符类输入解码器中进行解码生成图像。

进一步的，在逆向采样过程中，遵循以下公式进行逆向采样：

其中，

是标准的维纳过程，dt是一个无穷小的负的时间步长，

由得分网络给出。

进一步的，根据上述采样公式，从正向扩散过程中的最后更新时刻开始，对τ时刻的隐变量进行采样：

z_τ＝f(z₁,τ)-g²(τ)s_θ(z₁,τ)+g(τ)ò

其中，z₁的分布为：p(z₁)＝N(z₁；0，I)，ò为高斯噪声。

进一步的，可以根据逆向采样过程中τ±Δτ时段的梯度变化，来对逆向扩散步长进行动态调整，定义τ-Δτ时刻的隐变量采样为：

z_τ-Δτ＝f(z_τ，τ-Δτ)-g²(τ-Δτ)s_θ(z_τ，τ-Δτ)+g(τ-Δτ)ò

同时，τ+Δτ时刻的隐变量可根据正向扩散过程获得：

z_τ+Δτ＝f(z_τ，τ+Δτ)+g(z_τ，τ+Δτ)ò

从而就可以计算出τ±Δτ附近的变化量，也即一阶差分量和二阶差分量：

z′_τ＝(z_τ+Δτ-z_τ)/Δτ

z″_τ＝(z_τ+Δτ-2z_τ+z_τ-Δτ)/Δτ²

进一步的，由上述公式，可以计算出混合容忍度，进而来进行时间更新：

δ(z′_τ，z′_τ(prev))＝max(∈_abs，∈_relmax(|z′_τ|，|z′_τ(prev)|))

其中，z′_τ(prev)表示上一次循环迭代计算所获得的z′_τ，由此可以计算出局部误差量：

进一步的，上式计算的是L₂范数，由此可以给出如下的扩散时间更新策略：

其中，θ是安全系数，在本发明中r采用实测值，r∈[0.5，1]。通过上述方法，可以选择一个最优的先验分布，并一同将目标字符域、目标字符类输入解码器中进行解码出图像。

进一步的，经过上述训练的迭代过程，将最优的模型权重保存下来。

本发明还公开了一种基于自适应扩散先验变分自编码器的车牌图像生成系统，其包括如下模块：

数据集制作模块：将摄像头拍摄到的原始车牌图像进行收集和整理，并进一步划分成训练集和测试集；

编码网络模块：将训练集数据输入编码器网络中，对图像数据进行编码，并对编码出的后验分布进行采样，得到隐变量数据；

隐变量扩散模块：将隐变量数据按照扩散模型的规则进行扩散，得到加噪后的隐变量数据；

正向扩散时间调节模块：根据τ时刻分布与1时刻分布的KL散度，对下次迭代的扩散步长进行自适应的调节；

解码网络模块：将编码网络得到的后验分布进行采样之后，连同目标字符域和目标字符类一起输入解码网络进行解码得到重构的图像数据；

训练模块：根据模型的总的损失函数，对网络模型进行端到端的训练；

最优训练权重保留模块：进行测试并保留最优训练权重；

车牌图像生成模块：在该模块中，根据逆向扩散调节过程对逆向扩散时刻进行选择，并将逆向采样到的隐变量输入解码器进行解码，从而得到车牌图像。

与现有技术相比，本发明是基于自适应扩散先验变分自编码器的车牌图像生成方法及系统，能够对现有的车牌生成技术进行更新，采用一种新的技术方案生成车牌图像，能够有效解决现有技术存在的车牌图像单一、车牌识别模型鲁棒性差、人工收集成本高等问题。同时通过使用自适应扩散先验模型，能够根据后验分布自适应调节先验分布的复杂度，更好的生成一个最优的先验分布，通过在正向扩散过程中，使用正向扩散调节过程，使得能够自适应的调节扩散步长，在逆向采样过程中，使用逆向采样调节过程，通过比较某一时段前后的梯度变化，得到一个最优的扩散时刻，最终在此时刻进行采样，并输入解码器中进行解码，得到最终的车牌生成图像。

附图说明

图1是本发明实施例一基于自适应扩散先验变分自编码器的车牌图像生成方法流程图。

图2是本发明实施例一的步骤S13中自适应扩散模型结构图框图。

图3是本发明实施例二基于自适应扩散先验变分自编码器的车牌图像生成系统框图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

本发明的目的是针对现有技术的缺陷，提供了一种基于自适应扩散先验变分自编码器的车牌图像生成方法及系统。

实施例一

本实施例提供了一种基于自适应扩散先验变分自编码器的车牌图像生成方法，其具体实现流程如图1所示，包括如下步骤：

S11.收集并整理原始的车牌图像数据集，并将其进一步划分为训练集和测试集；

S12.构造自适应扩散先验的变分自编码器，包括编码器网络、解码器网络、自适应扩散先验网络，编码器网络和解码器网络采样常规的深度卷积网络实现，自适应扩散先验网络采用扩散模型进行改进实现，并确定用于构建生成车牌图像的字符类以及字符域，字符类表示车牌图像中字符的字符类别，字符域表示字符在车牌图像中的字符位置；通过变分自编码器网络所提取的图像特征、字符类以及字符域构建并输出生成车牌图像；

S13.将设置好的若干批次的训练数据输入变分自编码器的编码器网络中，得到后验分布，其中输入编码网络的样本车牌图像包含有原始字符域以及原始字符类；

S14.从得到的后验分布中采样数据并将其输入扩散模型的前向过程中，如图2所示，根据前向扩散调节过程，对扩散时间进行自适应调整，使得采样数据在τ～1(0<τ<1)范围内进行自适应扩散，得到加噪后的隐变量数据；

S15.将加噪后的隐变量数据输入得分网络中，得到不同扩散时刻的隐变量的得分，即加噪隐变量分布取对数之后的梯度；

S16.确定目标字符域以及目标字符类，并将目标字符域以及目标字符类以及后验分布的采样数据输入解码器中解码得到变分自编码器重构出的图像数据；

S17.利用编码器网络的输出采样数据和解码器的重构图像数据，求得重构损失；利用对加噪隐变量分布取对数之后的梯度与得分网络输出求均方误差，可得到先验分布和后验分布的距离损失，并对变分自编码器和扩散模型的参数进行更新训练并进行测试生成图像；

S18.将模型中最优的模型权重进行保存，利用已经训练好的模型即可进行无条件的车牌图像生成。

本实施例的具体思路：1.收集并整理各类的车牌图像，包括不同车型的车牌、不同用途的车牌等，随后将各类图像按照5:1的比例进行划分，分别为训练集和测试集；2.在训练阶段，需要对数据进行预处理，包括归一化和标准化，以及对图像进行图像大小变换、图像增强等处理；3.将设置好的若干批次的训练数据输入扩散模型的前向过程中，根据设置好的正向采样调节过程，对扩散时间进行自适应调整，使得采样数据在τ～1(0<τ<1)范围内进行自适应扩散，得到加噪后的隐变量；4.将加噪后的隐变量输入得分网络中，得到不同扩散时刻的隐变量的得分，即加噪隐变量分布取对数之后的梯度；5.将后验分布的采样数据、目标字符域以及目标字符类输入解码器中解码得到的变分自编码器重构出的图像数据；6.利用编码器网络的输出采样数据和解码器的重构图像数据，求得重构损失；利用对加噪隐变量分布取对数之后的梯度与得分网络输出求均方误差可得到先验分布与后验分布的距离损失，由此，可以得到模型的总的损失函数，根据该损失函数，可对对变分自编码器和扩散模型的参数进行更新训练并进行测试生成图像；7.每迭代完指定次数的训练集，会利用当前训练阶段的模型权重，在测试集图像中进行测试，测试图像质量最高的网络权重并将其保存下来；8.利用已经训练好的网络权重模型即可进行无条件的车牌图像生成。

本实施例各步骤具体介绍如下：

在步骤S11中，收集并整理各类的车牌图像数据集D，并将其按照5:1的比例将其划分为训练集D_train和测试集D_test。

在步骤S12中，训练集D_train和测试集D_test使用预处理将其进行归一化和标准化，并将其图像大小变换、图像增强如随机裁剪、颜色抖动、水平翻转等，数据增强方式可以根据具体的车牌图像进行参数调整或更改。

在步骤S13中，将设置好的若干批次的训练数据输入变分自编码器的编码器网络中，其中输入编码器网络的训练数据包括图像样本X＝{x₁,x₂,…,x_N}，其中x_i为当前批次中第i个样本，i＝1,2,…B。

在步骤S14中，在得到未加噪的隐变量的后验分布q_φ(z∣x)之后，从该分布中采样数据，并输入扩散模型的前向扩散过程中，有连续时间变量t∈[0,1]的正向扩散过程

并且假设本发明中的扩散开始时刻不是从0开始的，而是从某个τ时刻开始进行扩散的，也即z_τ是起始变量，z_t是在t时刻的扰动，扩散过程的目的就是通过一条马尔科夫链将z_τ逐渐映射到多维正态分布，即：

其中，T是扩散总步数，为使的扩散过程相对简单，定义q(z_t∣z_t-1)为和β_t有关的高斯分布

I为单位矩阵。为得到从某个时刻扩散到另一个时刻的分布，令α_t:＝1-β_t，

那么就可以得到：

在步骤S14中，利用正向扩散调节过程对正向扩散过程中的每一个批次的图像数据扩散时间进行自适应的调整。

在正向扩散调节过程中，所有的样本使用相同的步长可能会导致原本可以更快收敛的样本收敛得更慢。由于每个图像的正向扩散过程是独立的，所以对不同的样本采样不同的扩散步长，通过利用KL散度对τ时刻的分布和1时刻的分布之间的距离进行度量，记b批次的τ时刻的KL散度为K L_b，记b+1批次对应的τ时刻的KL散度为K L_b+1：

其中，

表示b批次对应τ时刻的分布，

表示b+1批次对应τ时刻的分布。

当K L_b<K L_b+1或K L_b>K L_b+1时，对应的扩散时间更新公式为：

τ^b+1＝τ^b+α·Δτ

上式中，λ表示扩散时间的前向或后向扩散的方向控制位，β表示α随K L_b+1的变化速度。

在步骤S15中，可获得扩散隐变量的得分：

在步骤S16中，由采样得到的数据、目标字符域以及目标字符类输入解码器网络中，进行解码，记解码后的数据分布为p_θ(x∣z)。

在步骤S17中，利用重构损失与先验分布和后验分布的KL散度，可以求得本模型的总的损失，如下：

其中，上式中第三项为后验分布与先验分布的交叉熵项，在扩散框架下，可以得到如下：

其中，在上式中，D为常数。

根据L(x,φ,θ,ψ)公式，可以训练基于自适应扩散先验的变分自编码器模型，并迭代更新模型参数，每迭代指定次数，就进行一次图像生成测试，测试过程如下：

在生成过程中，添加逆向采样调节过程，通过该过程选定一个合适的τ时刻的先验分布，根据该先验，进行采样并输入解码器中进行解码生成图像。

在逆向采样过程中，遵循以下公式进行采样：

其中，

是标准的维纳过程，dt是一个无穷小的负的时间步长，

由得分网络给出。

根据上述的采样公式，从正向扩散过程中最后更新时刻开始，对τ时刻的隐变量进行采样：

z_τ＝f(z₁,τ)-g²(τ)s_θ(z₁,τ)+g(τ)ò

其中，z₁的分布为：p(z₁)＝N(z₁；0,I)，ò为高斯噪声。

根据逆向采样过程中τ±Δτ时段的梯度变化，来对逆向扩散步长进行动态调整，由此可以给出τ-Δτ时刻的隐变量采样为：

z_τ-Δτ＝f(z_τ,τ-Δτ)-g²(τ-Δτ)s_θ(z_τ,τ-Δτ)+g(τ-Δτ)ò

同时，τ+Δτ时刻的隐变量可根据正向扩散过程获得：

z_τ+Δτ＝f(z_τ,τ+Δτ)+g(z_τ,τ+Δτ)ò

z′_τ＝(z_τ+Δτ-z_τ)/Δτ

z″_τ＝(z_τ+Δτ-2z_τ+z_τ-Δτ)/Δτ²

由此可以计算出混合容忍度，进而来进行扩散时间的更新：

δ(z′_τ，z′_τ(prer))＝max(∈_abs，∈_relmax(|z′_τ|，|z′_τ(prev)|))

其中，z′_τ(prev)表示上一次循环计算所获得的z′_τ，由此可以计算出局部误差量：

上式计算的是L₂范数，由此可以给出如下的扩散时间更新策略：

其中，θ是安全系数，在本发明中r采用实测值，r∈[0.5，1]。通过上述的方法，可以选择出一个最优的先验分布，并输入解码器中进行解码出图像。

在步骤S18中，将最优的模型权重进行保存。

在步骤S17中，将完整的模型网络结果构建完成之后，扩散模型使用的初始学习率设置为2×10^-4的随机梯度下降优化器进行训练，变分自编码器使用的初始学习率设置为1×10^-4的随机梯度下降优化器进行训练，使用的总的扩散步长数为1000。在训练过程中，每迭代20次训练数据集，就会从测试数据集中随机选择进行测试，并选择常见的图像质量评价指标进行评测。

本实施例提出了一种基于自适应扩散先验变分自编码器的车牌图像生成方法，首先需要收集并整理各类车牌数据集，保证不同车型的车牌、不同用途的车牌等全面、完整，并将其按照指定比例划分成训练集和测试集；其次就是构建网络模型，利用常规的深度卷积网络构造出编码器和解码器，对现有的扩散模型进行改进，添加正向扩散调节过程，对正向扩散时间进行自适应的调整，在逆向采样过程中，通过比较指定时间段中的梯度变化，选择出最优的扩散时刻并进行采样，并将采样结果输入解码器中解码出图像数据。本发明所采用的方法将数据转移到隐空间，可以让模型的训练更具表现力，提高扩散模型的采样速度，生成出更高质量的图像样本。

实施例二

如图3所示，本实施例一种基于自适应扩散先验变分自编码器的车牌图像生成系统，其包括如下模块：

最优训练权重保留模块：进行测试并保留最优训练权重；

数据集制作模块中，收集并整理各类车牌图像，包括不同车型的车牌、不同用途的车牌等，然后整理出车牌图像数据集D，并将按照5:1的比例将其划分为训练集D_train和测试集D_test。

编码网络模块中，在数据输入该模块之前，需要对训练集和测试集进行预处理，其中包括归一化、标准化，并将其图像大小变换、图像增强(如随机裁剪、颜色抖动、水平翻转等)，数据增强方式可以根据具体的车牌图像数据进行参数调整或更改。

常见的编码网络采用深度卷积模块实现，通过编码网络，将数据空间转移到隐空间，记输入编码器网络的训练数据包括图像样本X＝{x₁,x₂,…,x_N}，其中x_i为当前批次中第i个样本，i＝1,2,…B，将编码器网络的输出分布记为q_φ(z∣x)，该分布是隐变量未加噪前的后验分布。

隐变量扩散模块中，需要利用随机微分方程和正向扩散调节模块来实现隐变量的正向扩散。

在连续时间变量t∈[0,1]的正向扩散过程

中，假设在扩散模型中不是从时刻0开始的，而是从某个τ时刻开始进行扩散的，也即z_τ是起始变量，z_t是在t时刻的扰动，扩散过程的目的就是通过一条马尔科夫链将z_τ逐渐映射到多维正态分布，即：

其中，T为扩散总步数，为了将扩散模型进行简化，将q(z_t∣z_t-1)设置为和常数β_t有关的高斯分布

I为单位矩阵，为得到从任一时刻开始，将隐变量扩散到指定时刻，令α_t:＝1-β_t，

可以得到：

正向扩散时间调节模块中，在一批次的数据样本中，所有样本使用相同的步长可能会导致原本可以更快收敛的样本收敛得更慢。由于每个图像的正向扩散过程是独立的，所以对不同的样本采用不同的扩散步长，通过利用KL散度对τ时刻的分布和1时刻的分布之间的距离进行度量，记b批次的τ时刻的KL散度为K L_b，记b+1批次对应的τ时刻的KL散度为KL_b+1：

其中，

表示b批次对应τ时刻的分布，

表示b+1批次对应τ时刻的分布。

当K L_b<K L_b+1(或K L_b>K L_b+1)时，对应的扩散时间更新公式为：

τ^b+1＝τ^b+α·Δτ

上式中，λ表示扩散时间的向前(或向后)扩散的方向控制位，β表示α随K L_b+1的变化速度。

在解码网络模块中，由编码网络输出的后验分布采样后的数据、目标字符域以及目标字符类输入解码器网络中，进行解码，记解码后的数据分布为p_θ(x∣z)。

在模型训练模块中，根据得分网络可以求的扩散隐变量的得分：

利用重构损失与先验分布和后验分布的KL散度，可以求得本模型的总损失：

其中，上式中第三项为后验分布与先验分布的交叉熵，在扩散模型框架下，可以得到如下：

其中，上式中，D为常数。

根据L(x,φ,θ,ψ)公式，可以训练基于自适应扩散先验的变分自编码器模型，并迭代更新模型参数，每迭代20次，就进行一次图像生成测试，测试过程如下：

在图像生成过程中，添加逆向采样调节过程，通过该过程选定一个合适的τ时刻的先验分布，根据该先验分布，进行采样并输入解码器中进行解码生成图像。

在逆向采样过程中，遵循以下公式进行采样：

其中，

是标准的维纳过程，dt是一个无穷小的负的时间步长，

由得分网络给出。

根据上述采样公式，从正向扩散过程中的最后更新时刻开始，对τ时刻的隐变量进行采样：

z_τ＝f(z₁,τ)-g²(τ)s_θ(z₁,τ)+g(τ)ò

其中，z₁的分布为：p(z₁)＝N(z₁；0,I)，ò为高斯噪声。

根据逆向采样过程中τ±Δτ时段的梯度变化，来对逆向扩散步长进行动态调整，定义τ-Δτ时刻的隐变量采样为：

z_τ-Δτ＝f(z_τ,τ-Δτ)-g²(τ-Δτ)s_θ(z_τ,τ-Δτ)+g(τ-Δτ)ò

同时，τ+Δτ时刻的隐变量可根据正向扩散过程获得：

z_τ+Δτ＝f(z_τ,τ+Δτ)+g(z_τ,τ+Δτ)ò

z′_τ＝(z_τ+Δτ-z_τ)/Δτ

z″_τ＝(z_τ+Δτ-2z_τ+z_τΔτ)/Δτ²

由此可以计算出混合容忍度，进而来进行扩散时间的更新：

其中，θ是安全系数，在本发明中，r采用实测值，r∈[0.5，1]。通过上述方法，可以选择出一个最优的先验分布，并输入解码器中进行解码出重构图像。

最优训练权重保留模块中，将完整的模型网络结果构建完成之后，扩散模型使用的初始学习率设置为2×10^-4的随机梯度下降优化器进行训练，变分自编码器使用的初始学习率设置为1×10^-4的随机梯度下降优化器进行训练，使用的总的扩散步长数为1000。在训练过程中，每迭代20次训练数据集，就会从测试数据集中随机选择进行测试，并选择常见的图像质量评价指标进行评测。在测试过程中，就可将最优的模型权重进行保存。

本实施例通过模块化设计，最大程度保证了模型的易用性与灵活性。

与现有技术相比，本发明基于自适应扩散先验变分自编码器的车牌图像生成方法及系统，有效解决了当前车牌识别模型中存在的问题，诸如人工收集的图像质量较差、图像种类不均匀、车牌识别模型鲁棒性较差等，本发明提出了一种基于自适应扩散先验变分自编码器的车牌图像生成方法及系统，通过构建编码网络和解码网络，以及将扩散模型引进来，来得到自适应的先验分布，并对其进行改进，对正向扩散过程进行自适应调整，并且在逆向采样过程中，通过对指定时段进行梯度比较，选择出最优的逆向采样时刻，并输入解码器解码得到最终的生成图像。本发明采用模块化的设计，最大程度地保证了模型的易用性与灵活性。

上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种基于自适应扩散先验变分自编码器的车牌图像生成方法，其特征在于，包括如下步骤：

S1.收集并整理原始的车牌图像数据集；

S2.构造自适应扩散先验的变分自编码器网络，并确定用于构建生成车牌图像的字符类以及字符域；通过变分自编码器网络所提取的图像特征、字符类以及字符域构建并输出生成车牌图像；

S3.将设置好的若干批次的训练数据输入变分自编码器的编码网络中，得到后验分布，其中送进编码网络的样本车牌图像包含有原始字符域以及原始字符类；

S4.从得到的后验分布中采样数据并将其输入扩散模型前向过程中，根据正向采样调节过程，对扩散时间进行自适应调整，使得采样数据在τ～1范围内进行自适应扩散，得到加噪后的隐变量，0<τ<1；

S6.确定目标字符域以及目标字符类，并将目标字符域、目标字符类以及后验分布的采样数据送进解码器中解码得到变分自编码器重构出的图像数据，重构出的图像数据包含目标字符域以及目标字符类；

S7.利用编码器的输出采样数据和解码器的重构图像数据，求得重构损失；利用对加噪隐变量分布取对数之后的梯度与得分网络输出求均方误差，得到先验分布和后验分布的KL散度距离损失，并对变分自编码器和扩散模型的参数进行更新训练并进行测试生成图像；

S8.将测试中最优的模型权重进行保存，利用已训练好的模型生成图像数据。

2.根据权利要求1所述的一种基于自适应扩散先验变分自编码器的车牌图像生成方法，其特征在于，步骤S1中，收集并整理车牌图像数据集D，并将其按比例划分为训练集D_train和测试集D_test。

3.根据权利要求2所述的一种基于自适应扩散先验变分自编码器的车牌图像生成方法，其特征在于，步骤S2中，构造的变分自编码器网络中的参数包括网络输入图像尺寸C×H×W，其中C＝3、H＝136、W＝36，批次大小为B，隐变量维数为D_latent，编码器网络参数为φ，解码器网络参数为ψ，扩散模型网络参数θ，隐变量为Z。

4.根据权利要求3所述的一种基于自适应扩散先验变分自编码器的车牌图像生成方法，其特征在于，步骤S3中，将设置好的若干批次的训练数据输入变分自编码器的编码网络中，其中输入编码器的训练数据包括图像样本X＝{x₁,x₂,…,x_N}，其中x_i为当前批次中第i个样本，i＝1,2,…B。

5.根据权利要求4所述的一种基于自适应扩散先验变分自编码器的车牌图像生成方法，其特征在于，步骤S3中，隐变量未加噪前的后验分布为q_φ(z∣x)。

6.根据权利要求5所述的一种基于自适应扩散先验变分自编码器的车牌图像生成方法，其特征在于，步骤S4具体包括：

S41：定义连续时间变量t∈[0,1]的正向扩散过程