CN115223158A - 基于自适应扩散先验变分自编码器的车牌图像生成方法及系统 - Google Patents

基于自适应扩散先验变分自编码器的车牌图像生成方法及系统 Download PDF

Info

Publication number
CN115223158A
CN115223158A CN202210836076.2A CN202210836076A CN115223158A CN 115223158 A CN115223158 A CN 115223158A CN 202210836076 A CN202210836076 A CN 202210836076A CN 115223158 A CN115223158 A CN 115223158A
Authority
CN
China
Prior art keywords
diffusion
time
encoder
license plate
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210836076.2A
Other languages
English (en)
Inventor
王宁
郭春生
应娜
陈华华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202210836076.2A priority Critical patent/CN115223158A/zh
Publication of CN115223158A publication Critical patent/CN115223158A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/625License plates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了基于自适应扩散先验变分自编码器的车牌图像生成方法及系统,方法包括:S1.收集车牌图像数据集;S2.构造自适应扩散先验的变分自编码器网络,确定构建生成车牌图像的字符类及字符域;S3.将训练数据输入变分自编码器的编码网络,得到后验分布;S4.采样数据并输入扩散模型前向过程中,对扩散时间自适应调整,得到隐变量;S5.将隐变量输入得分网络,得到不同扩散时刻的隐变量的得分;S6.确定目标字符域及目标字符类,并解码得到变分自编码器重构出的图像数据;S7.求解重构损失及先验分布和后验分布的KL散度距离损失,对变分自编码器和扩散模型的参数进行更新训练并进行测试生成图像;S8.保存最优模型权重,用已训练好的模型生成图像数据。

Description

基于自适应扩散先验变分自编码器的车牌图像生成方法及 系统
技术领域
本发明属于图像生成技术领域,涉及一种车牌图像的生成方法及系统,具体是一种基于自适应扩散先验变分自编码器的车牌图像生成方法及系统。
背景技术
随着深度学习技术的快速发展,基于神经网络的端到端的车牌识别算法逐渐取代了基于传统机器学习的车牌识别算法。基于神经网络的车牌识别算法具有很多优势,诸如鲁棒性好、准确率高、处理速度快等明显优势,但也存在一些缺点,例如,其需要收集大量的车牌标注样本用于训练,从而造成数据标注的人工成本高、数据质量较差等问题。此外,常规的车牌图像主要是通过摄像机采集得到,再进行标注,但是摄像机采集的车牌图像一般类型较为单一且字符的分布不均匀,导致车牌识别模型训练易偏向常见样本,假如采用这样的车牌图像来训练车牌识别模型,这将会使车牌识别模型的鲁棒性很差。
为了获取满足训练要求的车牌标注数据,需要耗费大量的时间、资金和人力进行收集和标注工作。首先,车牌的种类繁多,包含小型车牌、大型车牌、大型双层车牌,新能源车牌、军牌、双层军牌等,相对罕见的车牌增加了样本收集工作的难度;其次,各省市的车牌内容也存在差异,需要对每个地区进行同样的重复收集。
此外,现有技术提供的方案中,为了提高车牌识别模型的识别率,一般采用的方法是有目的地增加训练数据集,然后通过人工收集训练数据效率低并且数量很有限,而通过软件合成的数据虽然满足数量要求,但合成的数据与真实的数据差异很大,难以用于车牌识别模型的训练。如何高效获取大量的高质量数据成为亟待解决的问题。
发明内容
针对现有技术存在的上述问题,本发明提出了一种基于自适应扩散先验变分自编码器的车牌图像生成方法及系统。
为了实现上述目的,本发明采用以下技术方案:
一种基于自适应扩散先验变分自编码器的车牌图像生成方法,其包括如下步骤:
S1.收集并整理原始的车牌图像数据集;作为优选,可以将其进一步划分为训练集和测试集;
S2.构造自适应扩散先验的变分自编码器网络,包括编码器网络、解码器网络、自适应扩散先验网络,并确定用于构建生成车牌图像的字符类以及字符域,字符类表示车牌图像中字符的字符类别,字符域表示字符在车牌图像中的字符位置;通过变分自编码器网络所提取的图像特征、字符类以及字符域构建并输出生成车牌图像;
S3.将设置好的若干批次的训练数据输入变分自编码器的编码网络中,得到后验分布,其中输入编码网络的样本车牌图像包含有原始字符域以及原始字符类;
S4.从得到的后验分布中采样数据并将其输入扩散模型前向过程中,根据正向采样调节过程,对扩散时间进行自适应调整,使得采样数据在τ~1(0<τ<1))范围内进行自适应扩散,得到加噪后的隐变量;
S5.将加噪后的隐变量输入得分网络中,得到不同扩散时刻的隐变量的得分,即加噪隐变量分布取对数之后的梯度;
S6.确定目标字符域以及目标字符类,并将目标字符域、目标字符类以及后验分布的采样数据输入解码器中解码得到变分自编码器重构出的图像数据,重构出的图像数据包含目标字符域以及目标字符类;
S7.利用编码器的输出采样数据和解码器的重构图像数据,求得重构损失;利用对加噪隐变量分布取对数之后的梯度与得分网络输出求均方误差,可得到先验分布和后验分布的距离损失,并对变分自编码器和扩散模型的参数进行更新训练并进行测试生成图像;
S8.将测试中最优的模型权重进行保存,利用已训练好的模型即可进行无条件生成图像数据。
进一步的,所述步骤S1中,收集并整理各类车牌图像数据集D,并将其按照一定比例划分为训练集Dtrain和测试集Dtest;其中收集的车牌图像的类别包括但不限于以下:不同车型的车牌、不同用途的车牌、不同地区的车牌等。
进一步的,所述步骤S2中,构造的变分自编码器网络中的参数包括网络输入图像尺寸C×H×W,批次大小为B,隐变量维数为Dlatent,编码器网络参数为φ,解码器网络参数为ψ,扩散模型网络参数θ,隐变量为Z。
进一步的,所述步骤S3中,将设置好的若干批次的车牌图像的训练数据集输入变分自编码器的编码网络中,其中输入的训练数据包括图像样本X={x1,x2,…,xN},其中xi为当前批次中第i个样本,i=1,2,…B。
进一步的,由编码网络输出的数据即为隐变量未加噪前的后验分布,即qφ(z∣x)。
进一步的,所述步骤S4中,在获取到干净的隐变量之后,就可以根据扩散模型的规则进行对隐变量进行扩散加噪。定义连续时间变量t∈[0,1]的正向扩散过程
Figure BDA0003748286330000031
假设该扩散过程不是从时刻0开始的,而是从某个τ时刻开始进行扩散,即zτ是起始变量,zt是在t时刻的扰动,扩散过程的目的是通过一条马尔科夫链将zτ逐渐映射到多维正态分布,即
Figure BDA0003748286330000032
其中,T为扩散总步数,q(zt∣zt-1)被定义成和常数βt有关的高斯分布
Figure BDA0003748286330000033
I为单位矩阵。令αt:=1-βt
Figure BDA0003748286330000034
可以得到:
Figure BDA0003748286330000035
由上式可以由τ时刻的隐变量经过扰动,得到0~1范围内任意时刻的加噪隐变量。
进一步的,所述步骤S4中,对正向扩散过程进行调整,在一个批次的数据样本中,所有的样本使用相同的步长可能会导致原来可以更快收敛的样本收敛的更慢。由于每个图像的正向扩散过程是独立的,所以对不同的样本采用不同的扩散步长,通过利用KL散度对τ时刻的分布与1时刻的分布之间的距离进行度量,记b批次的τ时刻的KL散度为K Lb,记b+1批次对应的τ时刻的KL散度为K Lb+1
Figure BDA0003748286330000036
Figure BDA0003748286330000037
其中,
Figure BDA0003748286330000038
表示b批次对应τ时刻的分布,
Figure BDA0003748286330000039
表示b+1批次对应τ时刻的分布。
进一步的,当K Lb<K Lb+1或K Lb>K Lb+1时,对应的扩散时间更新公式为:
τb+1=τb+α·Δτ
上式中,α表示扩散时间更新步长,Δτ表示扩散时间变化量,在τb∈(0,1)的变化范围内,Δτ通常取0.01,对τb+1时刻进行更新,α的计算方式如下:
Figure BDA00037482863300000310
上式中,λ表示扩散时间的向前或向后扩散的方向控制位,β表示α随K Lb+1的变化速度。
进一步的,步骤S5中,扩散隐变量的得分为:
Figure BDA0003748286330000041
其中,s表示得分网络,θ为该网络的参数,得分网络一般由Unet模型参数化。
进一步的,步骤S6中,确定目标字符域以及目标字符类,并将采样得到的数据、目标字符域以及目标字符类送入解码器网络中,进行解码,记解码后的数据分布为pθ(x∣z),重构出的图像数据包含目标字符域以及目标字符类。
进一步的,步骤S7中,利用重构损失与先验分布和后验分布的KL散度,可以求得本模型的总损失:
Figure BDA0003748286330000042
进一步的,上式第三项为后验分布与先验分布的交叉熵项,在扩散框架下,可以得到如下:
Figure BDA0003748286330000043
其中,上式中,D为常数。
进一步的,根据L(x,φ,θ,ψ)公式,可以训练基于自适应扩散先验的变分自编码器,并迭代更新模型参数,每迭代指定次数,就进行一次图像生成,测试过程如下:
在生成过程中,添加逆向采样调节过程,通过该过程选定一个合适的τ时刻的先验分布,根据该先验,进行采样,并一同将目标字符域、目标字符类输入解码器中进行解码生成图像。
进一步的,在逆向采样过程中,遵循以下公式进行逆向采样:
Figure BDA0003748286330000044
其中,
Figure BDA0003748286330000045
是标准的维纳过程,dt是一个无穷小的负的时间步长,
Figure BDA0003748286330000046
由得分网络给出。
进一步的,根据上述采样公式,从正向扩散过程中的最后更新时刻开始,对τ时刻的隐变量进行采样:
zτ=f(z1,τ)-g2(τ)sθ(z1,τ)+g(τ)ò
其中,z1的分布为:p(z1)=N(z1;0,I),ò为高斯噪声。
进一步的,可以根据逆向采样过程中τ±Δτ时段的梯度变化,来对逆向扩散步长进行动态调整,定义τ-Δτ时刻的隐变量采样为:
zτ-Δτ=f(zτ,τ-Δτ)-g2(τ-Δτ)sθ(zτ,τ-Δτ)+g(τ-Δτ)ò
同时,τ+Δτ时刻的隐变量可根据正向扩散过程获得:
zτ+Δτ=f(zτ,τ+Δτ)+g(zτ,τ+Δτ)ò
从而就可以计算出τ±Δτ附近的变化量,也即一阶差分量和二阶差分量:
z′τ=(zτ+Δτ-zτ)/Δτ
z″τ=(zτ+Δτ-2zτ+zτ-Δτ)/Δτ2
进一步的,由上述公式,可以计算出混合容忍度,进而来进行时间更新:
δ(z′τ,z′τ(prev))=max(∈abs,∈relmax(|z′τ|,|z′τ(prev)|))
其中,z′τ(prev)表示上一次循环迭代计算所获得的z′τ,由此可以计算出局部误差量:
Figure BDA0003748286330000051
进一步的,上式计算的是L2范数,由此可以给出如下的扩散时间更新策略:
Figure BDA0003748286330000052
其中,θ是安全系数,在本发明中r采用实测值,r∈[0.5,1]。通过上述方法,可以选择一个最优的先验分布,并一同将目标字符域、目标字符类输入解码器中进行解码出图像。
进一步的,经过上述训练的迭代过程,将最优的模型权重保存下来。
本发明还公开了一种基于自适应扩散先验变分自编码器的车牌图像生成系统,其包括如下模块:
数据集制作模块:将摄像头拍摄到的原始车牌图像进行收集和整理,并进一步划分成训练集和测试集;
编码网络模块:将训练集数据输入编码器网络中,对图像数据进行编码,并对编码出的后验分布进行采样,得到隐变量数据;
隐变量扩散模块:将隐变量数据按照扩散模型的规则进行扩散,得到加噪后的隐变量数据;
正向扩散时间调节模块:根据τ时刻分布与1时刻分布的KL散度,对下次迭代的扩散步长进行自适应的调节;
解码网络模块:将编码网络得到的后验分布进行采样之后,连同目标字符域和目标字符类一起输入解码网络进行解码得到重构的图像数据;
训练模块:根据模型的总的损失函数,对网络模型进行端到端的训练;
最优训练权重保留模块:进行测试并保留最优训练权重;
车牌图像生成模块:在该模块中,根据逆向扩散调节过程对逆向扩散时刻进行选择,并将逆向采样到的隐变量输入解码器进行解码,从而得到车牌图像。
与现有技术相比,本发明是基于自适应扩散先验变分自编码器的车牌图像生成方法及系统,能够对现有的车牌生成技术进行更新,采用一种新的技术方案生成车牌图像,能够有效解决现有技术存在的车牌图像单一、车牌识别模型鲁棒性差、人工收集成本高等问题。同时通过使用自适应扩散先验模型,能够根据后验分布自适应调节先验分布的复杂度,更好的生成一个最优的先验分布,通过在正向扩散过程中,使用正向扩散调节过程,使得能够自适应的调节扩散步长,在逆向采样过程中,使用逆向采样调节过程,通过比较某一时段前后的梯度变化,得到一个最优的扩散时刻,最终在此时刻进行采样,并输入解码器中进行解码,得到最终的车牌生成图像。
附图说明
图1是本发明实施例一基于自适应扩散先验变分自编码器的车牌图像生成方法流程图。
图2是本发明实施例一的步骤S13中自适应扩散模型结构图框图。
图3是本发明实施例二基于自适应扩散先验变分自编码器的车牌图像生成系统框图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
本发明的目的是针对现有技术的缺陷,提供了一种基于自适应扩散先验变分自编码器的车牌图像生成方法及系统。
实施例一
本实施例提供了一种基于自适应扩散先验变分自编码器的车牌图像生成方法,其具体实现流程如图1所示,包括如下步骤:
S11.收集并整理原始的车牌图像数据集,并将其进一步划分为训练集和测试集;
S12.构造自适应扩散先验的变分自编码器,包括编码器网络、解码器网络、自适应扩散先验网络,编码器网络和解码器网络采样常规的深度卷积网络实现,自适应扩散先验网络采用扩散模型进行改进实现,并确定用于构建生成车牌图像的字符类以及字符域,字符类表示车牌图像中字符的字符类别,字符域表示字符在车牌图像中的字符位置;通过变分自编码器网络所提取的图像特征、字符类以及字符域构建并输出生成车牌图像;
S13.将设置好的若干批次的训练数据输入变分自编码器的编码器网络中,得到后验分布,其中输入编码网络的样本车牌图像包含有原始字符域以及原始字符类;
S14.从得到的后验分布中采样数据并将其输入扩散模型的前向过程中,如图2所示,根据前向扩散调节过程,对扩散时间进行自适应调整,使得采样数据在τ~1(0<τ<1)范围内进行自适应扩散,得到加噪后的隐变量数据;
S15.将加噪后的隐变量数据输入得分网络中,得到不同扩散时刻的隐变量的得分,即加噪隐变量分布取对数之后的梯度;
S16.确定目标字符域以及目标字符类,并将目标字符域以及目标字符类以及后验分布的采样数据输入解码器中解码得到变分自编码器重构出的图像数据;
S17.利用编码器网络的输出采样数据和解码器的重构图像数据,求得重构损失;利用对加噪隐变量分布取对数之后的梯度与得分网络输出求均方误差,可得到先验分布和后验分布的距离损失,并对变分自编码器和扩散模型的参数进行更新训练并进行测试生成图像;
S18.将模型中最优的模型权重进行保存,利用已经训练好的模型即可进行无条件的车牌图像生成。
本实施例的具体思路:1.收集并整理各类的车牌图像,包括不同车型的车牌、不同用途的车牌等,随后将各类图像按照5:1的比例进行划分,分别为训练集和测试集;2.在训练阶段,需要对数据进行预处理,包括归一化和标准化,以及对图像进行图像大小变换、图像增强等处理;3.将设置好的若干批次的训练数据输入扩散模型的前向过程中,根据设置好的正向采样调节过程,对扩散时间进行自适应调整,使得采样数据在τ~1(0<τ<1)范围内进行自适应扩散,得到加噪后的隐变量;4.将加噪后的隐变量输入得分网络中,得到不同扩散时刻的隐变量的得分,即加噪隐变量分布取对数之后的梯度;5.将后验分布的采样数据、目标字符域以及目标字符类输入解码器中解码得到的变分自编码器重构出的图像数据;6.利用编码器网络的输出采样数据和解码器的重构图像数据,求得重构损失;利用对加噪隐变量分布取对数之后的梯度与得分网络输出求均方误差可得到先验分布与后验分布的距离损失,由此,可以得到模型的总的损失函数,根据该损失函数,可对对变分自编码器和扩散模型的参数进行更新训练并进行测试生成图像;7.每迭代完指定次数的训练集,会利用当前训练阶段的模型权重,在测试集图像中进行测试,测试图像质量最高的网络权重并将其保存下来;8.利用已经训练好的网络权重模型即可进行无条件的车牌图像生成。
本实施例各步骤具体介绍如下:
在步骤S11中,收集并整理各类的车牌图像数据集D,并将其按照5:1的比例将其划分为训练集Dtrain和测试集Dtest
在步骤S12中,训练集Dtrain和测试集Dtest使用预处理将其进行归一化和标准化,并将其图像大小变换、图像增强如随机裁剪、颜色抖动、水平翻转等,数据增强方式可以根据具体的车牌图像进行参数调整或更改。
在步骤S13中,将设置好的若干批次的训练数据输入变分自编码器的编码器网络中,其中输入编码器网络的训练数据包括图像样本X={x1,x2,…,xN},其中xi为当前批次中第i个样本,i=1,2,…B。
在步骤S14中,在得到未加噪的隐变量的后验分布qφ(z∣x)之后,从该分布中采样数据,并输入扩散模型的前向扩散过程中,有连续时间变量t∈[0,1]的正向扩散过程
Figure BDA0003748286330000081
并且假设本发明中的扩散开始时刻不是从0开始的,而是从某个τ时刻开始进行扩散的,也即zτ是起始变量,zt是在t时刻的扰动,扩散过程的目的就是通过一条马尔科夫链将zτ逐渐映射到多维正态分布,即:
Figure BDA0003748286330000082
其中,T是扩散总步数,为使的扩散过程相对简单,定义q(zt∣zt-1)为和βt有关的高斯分布
Figure BDA0003748286330000083
I为单位矩阵。为得到从某个时刻扩散到另一个时刻的分布,令αt:=1-βt
Figure BDA0003748286330000084
那么就可以得到:
Figure BDA0003748286330000085
在步骤S14中,利用正向扩散调节过程对正向扩散过程中的每一个批次的图像数据扩散时间进行自适应的调整。
在正向扩散调节过程中,所有的样本使用相同的步长可能会导致原本可以更快收敛的样本收敛得更慢。由于每个图像的正向扩散过程是独立的,所以对不同的样本采样不同的扩散步长,通过利用KL散度对τ时刻的分布和1时刻的分布之间的距离进行度量,记b批次的τ时刻的KL散度为K Lb,记b+1批次对应的τ时刻的KL散度为K Lb+1
Figure BDA0003748286330000091
Figure BDA0003748286330000092
其中,
Figure BDA0003748286330000093
表示b批次对应τ时刻的分布,
Figure BDA0003748286330000094
表示b+1批次对应τ时刻的分布。
当K Lb<K Lb+1或K Lb>K Lb+1时,对应的扩散时间更新公式为:
τb+1=τb+α·Δτ
上式中,α表示扩散时间更新步长,Δτ表示扩散时间变化量,在τb∈(0,1)的变化范围内,Δτ通常取0.01,对τb+1时刻进行更新,α的计算方式如下:
Figure BDA0003748286330000095
上式中,λ表示扩散时间的前向或后向扩散的方向控制位,β表示α随K Lb+1的变化速度。
在步骤S15中,可获得扩散隐变量的得分:
Figure BDA0003748286330000096
其中,s表示得分网络,θ为该网络的参数,得分网络一般由Unet模型参数化。
在步骤S16中,由采样得到的数据、目标字符域以及目标字符类输入解码器网络中,进行解码,记解码后的数据分布为pθ(x∣z)。
在步骤S17中,利用重构损失与先验分布和后验分布的KL散度,可以求得本模型的总的损失,如下:
Figure BDA0003748286330000097
其中,上式中第三项为后验分布与先验分布的交叉熵项,在扩散框架下,可以得到如下:
Figure BDA0003748286330000101
其中,在上式中,D为常数。
根据L(x,φ,θ,ψ)公式,可以训练基于自适应扩散先验的变分自编码器模型,并迭代更新模型参数,每迭代指定次数,就进行一次图像生成测试,测试过程如下:
在生成过程中,添加逆向采样调节过程,通过该过程选定一个合适的τ时刻的先验分布,根据该先验,进行采样并输入解码器中进行解码生成图像。
在逆向采样过程中,遵循以下公式进行采样:
Figure BDA0003748286330000102
其中,
Figure BDA0003748286330000103
是标准的维纳过程,dt是一个无穷小的负的时间步长,
Figure BDA0003748286330000104
由得分网络给出。
根据上述的采样公式,从正向扩散过程中最后更新时刻开始,对τ时刻的隐变量进行采样:
zτ=f(z1,τ)-g2(τ)sθ(z1,τ)+g(τ)ò
其中,z1的分布为:p(z1)=N(z1;0,I),ò为高斯噪声。
根据逆向采样过程中τ±Δτ时段的梯度变化,来对逆向扩散步长进行动态调整,由此可以给出τ-Δτ时刻的隐变量采样为:
zτ-Δτ=f(zτ,τ-Δτ)-g2(τ-Δτ)sθ(zτ,τ-Δτ)+g(τ-Δτ)ò
同时,τ+Δτ时刻的隐变量可根据正向扩散过程获得:
zτ+Δτ=f(zτ,τ+Δτ)+g(zτ,τ+Δτ)ò
从而就可以计算出τ±Δτ附近的变化量,也即一阶差分量和二阶差分量:
z′τ=(zτ+Δτ-zτ)/Δτ
z″τ=(zτ+Δτ-2zτ+zτ-Δτ)/Δτ2
由此可以计算出混合容忍度,进而来进行扩散时间的更新:
δ(z′τ,z′τ(prer))=max(∈abs,∈relmax(|z′τ|,|z′τ(prev)|))
其中,z′τ(prev)表示上一次循环计算所获得的z′τ,由此可以计算出局部误差量:
Figure BDA0003748286330000111
上式计算的是L2范数,由此可以给出如下的扩散时间更新策略:
Figure BDA0003748286330000112
其中,θ是安全系数,在本发明中r采用实测值,r∈[0.5,1]。通过上述的方法,可以选择出一个最优的先验分布,并输入解码器中进行解码出图像。
在步骤S18中,将最优的模型权重进行保存。
在步骤S17中,将完整的模型网络结果构建完成之后,扩散模型使用的初始学习率设置为2×10-4的随机梯度下降优化器进行训练,变分自编码器使用的初始学习率设置为1×10-4的随机梯度下降优化器进行训练,使用的总的扩散步长数为1000。在训练过程中,每迭代20次训练数据集,就会从测试数据集中随机选择进行测试,并选择常见的图像质量评价指标进行评测。
本实施例提出了一种基于自适应扩散先验变分自编码器的车牌图像生成方法,首先需要收集并整理各类车牌数据集,保证不同车型的车牌、不同用途的车牌等全面、完整,并将其按照指定比例划分成训练集和测试集;其次就是构建网络模型,利用常规的深度卷积网络构造出编码器和解码器,对现有的扩散模型进行改进,添加正向扩散调节过程,对正向扩散时间进行自适应的调整,在逆向采样过程中,通过比较指定时间段中的梯度变化,选择出最优的扩散时刻并进行采样,并将采样结果输入解码器中解码出图像数据。本发明所采用的方法将数据转移到隐空间,可以让模型的训练更具表现力,提高扩散模型的采样速度,生成出更高质量的图像样本。
实施例二
如图3所示,本实施例一种基于自适应扩散先验变分自编码器的车牌图像生成系统,其包括如下模块:
数据集制作模块:将摄像头拍摄到的原始车牌图像进行收集和整理,并进一步划分成训练集和测试集;
编码网络模块:将训练集数据输入编码器网络中,对图像数据进行编码,并对编码出的后验分布进行采样,得到隐变量数据;
隐变量扩散模块:将隐变量数据按照扩散模型的规则进行扩散,得到加噪后的隐变量数据;
正向扩散时间调节模块:根据τ时刻分布与1时刻分布的KL散度,对下次迭代的扩散步长进行自适应的调节;
解码网络模块:将编码网络得到的后验分布进行采样之后,连同目标字符域和目标字符类一起输入解码网络进行解码得到重构的图像数据;
训练模块:根据模型的总的损失函数,对网络模型进行端到端的训练;
最优训练权重保留模块:进行测试并保留最优训练权重;
车牌图像生成模块:在该模块中,根据逆向扩散调节过程对逆向扩散时刻进行选择,并将逆向采样到的隐变量输入解码器进行解码,从而得到车牌图像。
数据集制作模块中,收集并整理各类车牌图像,包括不同车型的车牌、不同用途的车牌等,然后整理出车牌图像数据集D,并将按照5:1的比例将其划分为训练集Dtrain和测试集Dtest
编码网络模块中,在数据输入该模块之前,需要对训练集和测试集进行预处理,其中包括归一化、标准化,并将其图像大小变换、图像增强(如随机裁剪、颜色抖动、水平翻转等),数据增强方式可以根据具体的车牌图像数据进行参数调整或更改。
常见的编码网络采用深度卷积模块实现,通过编码网络,将数据空间转移到隐空间,记输入编码器网络的训练数据包括图像样本X={x1,x2,…,xN},其中xi为当前批次中第i个样本,i=1,2,…B,将编码器网络的输出分布记为qφ(z∣x),该分布是隐变量未加噪前的后验分布。
隐变量扩散模块中,需要利用随机微分方程和正向扩散调节模块来实现隐变量的正向扩散。
在连续时间变量t∈[0,1]的正向扩散过程
Figure BDA0003748286330000121
中,假设在扩散模型中不是从时刻0开始的,而是从某个τ时刻开始进行扩散的,也即zτ是起始变量,zt是在t时刻的扰动,扩散过程的目的就是通过一条马尔科夫链将zτ逐渐映射到多维正态分布,即:
Figure BDA0003748286330000122
其中,T为扩散总步数,为了将扩散模型进行简化,将q(zt∣zt-1)设置为和常数βt有关的高斯分布
Figure BDA0003748286330000131
I为单位矩阵,为得到从任一时刻开始,将隐变量扩散到指定时刻,令αt:=1-βt
Figure BDA0003748286330000132
可以得到:
Figure BDA0003748286330000133
正向扩散时间调节模块中,在一批次的数据样本中,所有样本使用相同的步长可能会导致原本可以更快收敛的样本收敛得更慢。由于每个图像的正向扩散过程是独立的,所以对不同的样本采用不同的扩散步长,通过利用KL散度对τ时刻的分布和1时刻的分布之间的距离进行度量,记b批次的τ时刻的KL散度为K Lb,记b+1批次对应的τ时刻的KL散度为KLb+1
Figure BDA0003748286330000134
Figure BDA0003748286330000135
其中,
Figure BDA0003748286330000136
表示b批次对应τ时刻的分布,
Figure BDA0003748286330000137
表示b+1批次对应τ时刻的分布。
当K Lb<K Lb+1(或K Lb>K Lb+1)时,对应的扩散时间更新公式为:
τb+1=τb+α·Δτ
上式中,α表示扩散时间更新步长,Δτ表示扩散时间变化量,在τb∈(0,1)的变化范围内,Δτ通常取0.01,对τb+1时刻进行更新,α的计算方式如下:
Figure BDA0003748286330000138
上式中,λ表示扩散时间的向前(或向后)扩散的方向控制位,β表示α随K Lb+1的变化速度。
在解码网络模块中,由编码网络输出的后验分布采样后的数据、目标字符域以及目标字符类输入解码器网络中,进行解码,记解码后的数据分布为pθ(x∣z)。
在模型训练模块中,根据得分网络可以求的扩散隐变量的得分:
Figure BDA0003748286330000139
其中,s表示得分网络,θ为该网络的参数,得分网络一般由Unet模型参数化。
利用重构损失与先验分布和后验分布的KL散度,可以求得本模型的总损失:
Figure BDA0003748286330000141
其中,上式中第三项为后验分布与先验分布的交叉熵,在扩散模型框架下,可以得到如下:
Figure BDA0003748286330000142
其中,上式中,D为常数。
根据L(x,φ,θ,ψ)公式,可以训练基于自适应扩散先验的变分自编码器模型,并迭代更新模型参数,每迭代20次,就进行一次图像生成测试,测试过程如下:
在图像生成过程中,添加逆向采样调节过程,通过该过程选定一个合适的τ时刻的先验分布,根据该先验分布,进行采样并输入解码器中进行解码生成图像。
在逆向采样过程中,遵循以下公式进行采样:
Figure BDA0003748286330000143
其中,
Figure BDA0003748286330000144
是标准的维纳过程,dt是一个无穷小的负的时间步长,
Figure BDA0003748286330000145
由得分网络给出。
根据上述采样公式,从正向扩散过程中的最后更新时刻开始,对τ时刻的隐变量进行采样:
zτ=f(z1,τ)-g2(τ)sθ(z1,τ)+g(τ)ò
其中,z1的分布为:p(z1)=N(z1;0,I),ò为高斯噪声。
根据逆向采样过程中τ±Δτ时段的梯度变化,来对逆向扩散步长进行动态调整,定义τ-Δτ时刻的隐变量采样为:
zτ-Δτ=f(zτ,τ-Δτ)-g2(τ-Δτ)sθ(zτ,τ-Δτ)+g(τ-Δτ)ò
同时,τ+Δτ时刻的隐变量可根据正向扩散过程获得:
zτ+Δτ=f(zτ,τ+Δτ)+g(zτ,τ+Δτ)ò
从而就可以计算出τ±Δτ附近的变化量,也即一阶差分量和二阶差分量:
z′τ=(zτ+Δτ-zτ)/Δτ
z″τ=(zτ+Δτ-2zτ+zτΔτ)/Δτ2
由此可以计算出混合容忍度,进而来进行扩散时间的更新:
δ(z′τ,z′τ(prev))=max(∈abs,∈relmax(|z′τ|,|z′τ(prev)|))
其中,z′τ(prev)表示上一次循环计算所获得的z′τ,由此可以计算出局部误差量:
Figure BDA0003748286330000151
上式计算的是L2范数,由此可以给出如下的扩散时间更新策略:
Figure BDA0003748286330000152
其中,θ是安全系数,在本发明中,r采用实测值,r∈[0.5,1]。通过上述方法,可以选择出一个最优的先验分布,并输入解码器中进行解码出重构图像。
最优训练权重保留模块中,将完整的模型网络结果构建完成之后,扩散模型使用的初始学习率设置为2×10-4的随机梯度下降优化器进行训练,变分自编码器使用的初始学习率设置为1×10-4的随机梯度下降优化器进行训练,使用的总的扩散步长数为1000。在训练过程中,每迭代20次训练数据集,就会从测试数据集中随机选择进行测试,并选择常见的图像质量评价指标进行评测。在测试过程中,就可将最优的模型权重进行保存。
本实施例通过模块化设计,最大程度保证了模型的易用性与灵活性。
与现有技术相比,本发明基于自适应扩散先验变分自编码器的车牌图像生成方法及系统,有效解决了当前车牌识别模型中存在的问题,诸如人工收集的图像质量较差、图像种类不均匀、车牌识别模型鲁棒性较差等,本发明提出了一种基于自适应扩散先验变分自编码器的车牌图像生成方法及系统,通过构建编码网络和解码网络,以及将扩散模型引进来,来得到自适应的先验分布,并对其进行改进,对正向扩散过程进行自适应调整,并且在逆向采样过程中,通过对指定时段进行梯度比较,选择出最优的逆向采样时刻,并输入解码器解码得到最终的生成图像。本发明采用模块化的设计,最大程度地保证了模型的易用性与灵活性。
上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种基于自适应扩散先验变分自编码器的车牌图像生成方法,其特征在于,包括如下步骤:
S1.收集并整理原始的车牌图像数据集;
S2.构造自适应扩散先验的变分自编码器网络,并确定用于构建生成车牌图像的字符类以及字符域;通过变分自编码器网络所提取的图像特征、字符类以及字符域构建并输出生成车牌图像;
S3.将设置好的若干批次的训练数据输入变分自编码器的编码网络中,得到后验分布,其中送进编码网络的样本车牌图像包含有原始字符域以及原始字符类;
S4.从得到的后验分布中采样数据并将其输入扩散模型前向过程中,根据正向采样调节过程,对扩散时间进行自适应调整,使得采样数据在τ~1范围内进行自适应扩散,得到加噪后的隐变量,0<τ<1;
S5.将加噪后的隐变量输入得分网络中,得到不同扩散时刻的隐变量的得分,即加噪隐变量分布取对数之后的梯度;
S6.确定目标字符域以及目标字符类,并将目标字符域、目标字符类以及后验分布的采样数据送进解码器中解码得到变分自编码器重构出的图像数据,重构出的图像数据包含目标字符域以及目标字符类;
S7.利用编码器的输出采样数据和解码器的重构图像数据,求得重构损失;利用对加噪隐变量分布取对数之后的梯度与得分网络输出求均方误差,得到先验分布和后验分布的KL散度距离损失,并对变分自编码器和扩散模型的参数进行更新训练并进行测试生成图像;
S8.将测试中最优的模型权重进行保存,利用已训练好的模型生成图像数据。
2.根据权利要求1所述的一种基于自适应扩散先验变分自编码器的车牌图像生成方法,其特征在于,步骤S1中,收集并整理车牌图像数据集D,并将其按比例划分为训练集Dtrain和测试集Dtest
3.根据权利要求2所述的一种基于自适应扩散先验变分自编码器的车牌图像生成方法,其特征在于,步骤S2中,构造的变分自编码器网络中的参数包括网络输入图像尺寸C×H×W,其中C=3、H=136、W=36,批次大小为B,隐变量维数为Dlatent,编码器网络参数为φ,解码器网络参数为ψ,扩散模型网络参数θ,隐变量为Z。
4.根据权利要求3所述的一种基于自适应扩散先验变分自编码器的车牌图像生成方法,其特征在于,步骤S3中,将设置好的若干批次的训练数据输入变分自编码器的编码网络中,其中输入编码器的训练数据包括图像样本X={x1,x2,…,xN},其中xi为当前批次中第i个样本,i=1,2,…B。
5.根据权利要求4所述的一种基于自适应扩散先验变分自编码器的车牌图像生成方法,其特征在于,步骤S3中,隐变量未加噪前的后验分布为qφ(z∣x)。
6.根据权利要求5所述的一种基于自适应扩散先验变分自编码器的车牌图像生成方法,其特征在于,步骤S4具体包括:
S41:定义连续时间变量t∈[0,1]的正向扩散过程
Figure FDA0003748286320000021
假设该扩散过程从τ时刻开始进行扩散,τ≠0,即zτ是起始变量,zt是在t时刻的扰动,扩散过程的目的是通过一条马尔科夫链将zτ逐渐映射到多维正态分布,即
Figure FDA0003748286320000022
其中,T为扩散总步数,q(zt∣zt-1)被定义成和常数βt有关的高斯分布
Figure FDA0003748286320000023
I为单位矩阵;令αt:=1-βt
Figure FDA0003748286320000024
得到:
Figure FDA0003748286320000025
上式由τ时刻的隐变量经过扰动,得到0~1范围内任意时刻的加噪隐变量;
S42:正向扩散调节过程
对不同的样本采用不同的扩散步长,通过利用KL散度对τ时刻的分布和1时刻的分布之间的距离进行度量,记b批次的τ时刻的KL散度为K Lb,记b+1批次对应的τ时刻的KL散度为KLb+1
Figure FDA0003748286320000026
Figure FDA0003748286320000027
其中,
Figure FDA0003748286320000028
表示b批次对应τ时刻的分布,
Figure FDA0003748286320000029
表示b+1批次对应τ时刻的分布;
当K Lb<K Lb+1或K Lb>K Lb+1时,对应的扩散时间更新公式为:
τb+1=τb+α·Δτ
上式中,α表示扩散时间更新步长,Δτ表示扩散时间变化量,在τb∈(0,1)的变化范围内,Δτ取0.01,对τb+1时刻进行更新,α的计算方式如下:
Figure FDA0003748286320000031
上式中,λ表示扩散时间的向前或向后扩散的方向控制位,β表示α随K Lb+1的变化速度。
7.根据权利要求6所述的一种基于自适应扩散先验变分自编码器的车牌图像生成方法,其特征在于,步骤S5中,求得扩散隐变量的得分:
Figure FDA0003748286320000032
其中,s表示得分网络,θ为该网络的参数,得分网络由Unet模型参数化。
8.根据权利要求7所述的一种基于自适应扩散先验变分自编码器的车牌图像生成方法,其特征在于,步骤S6中,确定目标字符域以及目标字符类,并将采样得到的数据、目标字符域以及目标字符类输入解码器网络中,进行解码,记解码后的数据分布为pθ(x∣z),重构出的图像数据包含目标字符域以及目标字符类。
9.根据权利要求8所述的一种基于自适应扩散先验变分自编码器的车牌图像生成方法,其特征在于,步骤S7中,利用重构损失与先验分布和后验分布的KL散度,求得本模型的总损失:
Figure FDA0003748286320000033
其中,上式中第三项为后验分布与先验分布的交叉熵项,在扩散模型框架下,得到如下:
Figure FDA0003748286320000034
其中,D为常数;
根据L(x,φ,θ,ψ)公式,训练基于自适应扩散先验的变分自编码器模型,并迭代更新模型参数,每迭代指定次数,就进行一次图像生成测试,测试过程如下:
在生成过程中,添加逆向采样调节过程,通过该过程选定一个合适的τ时刻的先验分布,根据该先验,进行采样并输入解码器中进行解码生成图像;
在逆向采样过程中,遵循以下公式进行采样:
Figure FDA0003748286320000041
其中,
Figure FDA0003748286320000042
是标准的维纳过程,dt是一个无穷小的负的时间步长,
Figure FDA0003748286320000043
由得分网络给出;
根据上述采样公式,从正向扩散过程中的最后更新时刻开始,对τ时刻的隐变量进行采样:
zτ=f(z1,τ)-g2(τ)sθ(z1,τ)+g(τ)ò
其中,z1的分布为:p(z1)=N(z1;0,I),ò为高斯噪声;
根据逆向采样过程中τ±Δτ时段的梯度变化,来对逆向扩散步长进行动态调整,定义τ-Δτ时刻的隐变量采样为:
zτ-Δτ=f(zτ,τ-Δτ)-g2(τ-Δτ)sθ(zτ,τ-Δτ)+g(τ-Δτ)ò
同时,τ+Δτ时刻的隐变量根据正向扩散过程获得:
zτ+Δτ=f(zτ,τ+Δτ)+g(zτ,τ+Δτ)ò
从而计算出τ±Δτ附近的变化量,即一阶差分量和二阶差分量:
z τ=(zτ+Δτ-zτ)/Δτ
z τ =(zτ+Δτ-2zτ+zτ-Δτ)/Δτ2
由此计算出混合容忍度,进而进行时间更新:
δ(z′τ,z′τ(prev))=max(∈abs,∈reimax(|z′τ|,|z′τ(prev)|))
其中,z′τ(prev)表示上一次循环计算所获得的z′τ,由此计算出局部误差量:
Figure FDA0003748286320000044
上式计算的是L2范数,由此给出如下的扩散时间更新策略:
Figure FDA0003748286320000045
其中,θ是安全系数,r采用实测值,r∈[0.5,1]。
10.一种基于自适应扩散先验变分自编码器的车牌图像生成系统,其特征是包括如下模块:
数据集制作模块:将摄像头拍摄到的原始车牌图像进行收集和整理;
编码网络模块:将训练集数据输入编码器网络中,对车牌图像数据进行编码,并对编码出的后验分布进行采样,得到隐变量数据;
隐变量扩散模块:将隐变量数据按照扩散模型的规则进行扩散,得到加噪后的隐变量数据;
正向扩散时间调节模块:根据τ时刻分布与1时刻分布的KL散度,对下次迭代的扩散步长进行自适应的调节;
解码网络模块:将编码网络得到的后验分布进行采样之后,连同目标字符域和目标字符类输入解码网络进行解码得到重构的图像数据;
训练模块:根据模型的总的损失函数,对网络模型进行端到端的训练;
最优训练权重保留模块:进行测试并保留最优训练权重;
车牌图像生成模块:根据逆向扩散调节过程对逆向扩散时刻进行选择,并将逆向采样到的隐变量送进解码器进行解码,从而得到车牌图像。
CN202210836076.2A 2022-07-15 2022-07-15 基于自适应扩散先验变分自编码器的车牌图像生成方法及系统 Pending CN115223158A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210836076.2A CN115223158A (zh) 2022-07-15 2022-07-15 基于自适应扩散先验变分自编码器的车牌图像生成方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210836076.2A CN115223158A (zh) 2022-07-15 2022-07-15 基于自适应扩散先验变分自编码器的车牌图像生成方法及系统

Publications (1)

Publication Number Publication Date
CN115223158A true CN115223158A (zh) 2022-10-21

Family

ID=83611698

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210836076.2A Pending CN115223158A (zh) 2022-07-15 2022-07-15 基于自适应扩散先验变分自编码器的车牌图像生成方法及系统

Country Status (1)

Country Link
CN (1) CN115223158A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116386023A (zh) * 2023-05-29 2023-07-04 松立控股集团股份有限公司 基于时空扩散的高位相机车牌识别方法、系统及电子设备
CN116504069A (zh) * 2023-06-26 2023-07-28 中国市政工程西南设计研究总院有限公司 城市道路网络容量优化方法、装置、设备及可读存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116386023A (zh) * 2023-05-29 2023-07-04 松立控股集团股份有限公司 基于时空扩散的高位相机车牌识别方法、系统及电子设备
CN116386023B (zh) * 2023-05-29 2023-08-25 松立控股集团股份有限公司 基于时空扩散的高位相机车牌识别方法、系统及电子设备
CN116504069A (zh) * 2023-06-26 2023-07-28 中国市政工程西南设计研究总院有限公司 城市道路网络容量优化方法、装置、设备及可读存储介质
CN116504069B (zh) * 2023-06-26 2023-09-05 中国市政工程西南设计研究总院有限公司 城市道路网络容量优化方法、装置、设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN115223158A (zh) 基于自适应扩散先验变分自编码器的车牌图像生成方法及系统
CN110705592B (zh) 分类模型训练方法、装置、设备及计算机可读存储介质
CN109902745A (zh) 一种基于cnn的低精度训练与8位整型量化推理方法
CN107729999A (zh) 考虑矩阵相关性的深度神经网络压缩方法
CN112686817B (zh) 一种基于不确定性估计的图像补全方法
CN114445292A (zh) 一种多阶段渐进式水下图像增强方法
CN112183742A (zh) 基于渐进式量化和Hessian信息的神经网络混合量化方法
CN111861945A (zh) 一种文本引导的图像修复方法和系统
CN111598153B (zh) 数据聚类的处理方法、装置、计算机设备和存储介质
CN116524299A (zh) 一种图像样本生成方法、装置、设备及存储介质
CN114742985A (zh) 一种高光谱特征提取方法、装置及存储介质
Wehenkel et al. Diffusion priors in variational autoencoders
CN115659807A (zh) 一种基于贝叶斯优化模型融合算法对人才表现预测的方法
CN113554047B (zh) 图像处理模型的训练方法、图像处理方法及对应的装置
CN113283577A (zh) 一种基于元学习和生成对抗网络的工业平行数据生成方法
CN115331073A (zh) 一种基于TransUnet架构的影像自监督学习方法
CN117476106B (zh) 一种多类不平衡蛋白质二级结构预测方法和系统
CN117496927B (zh) 基于扩散模型的音乐音色风格转换方法及系统
CN118171702A (zh) 一种基于多模型联合学习的神经网络量化方法
CN117036711A (zh) 一种基于注意力调节的弱监督语义分割方法
CN112084936A (zh) 一种人脸图像预处理方法、装置、设备及存储介质
CN114860939B (zh) 文本分类模型的训练方法、装置、设备和计算机存储介质
CN110781755A (zh) 一种建筑钢筋智能识别计量方法及系统
CN115239967A (zh) 一种基于Trans-CSN生成对抗网络的图像生成方法及装置
CN114332481A (zh) 一种基于非负稀疏自编码器的盲端元提取与光谱解混方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination