CN116385848A - 基于稳定扩散模型的ar显示装置像质提升与智能交互方法 - Google Patents

基于稳定扩散模型的ar显示装置像质提升与智能交互方法 Download PDF

Info

Publication number
CN116385848A
CN116385848A CN202310307222.7A CN202310307222A CN116385848A CN 116385848 A CN116385848 A CN 116385848A CN 202310307222 A CN202310307222 A CN 202310307222A CN 116385848 A CN116385848 A CN 116385848A
Authority
CN
China
Prior art keywords
image
hidden variable
image quality
model
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310307222.7A
Other languages
English (en)
Inventor
李凌霄
马泽忠
姜紫薇
高蕾
蔡欣邑
张馨月
周晓强
赵芫
青霜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Geographic Information And Remote Sensing Application Center (chongqing Surveying And Mapping Product Quality Inspection And Testing Center)
Chongqing University of Technology
Original Assignee
Chongqing Geographic Information And Remote Sensing Application Center (chongqing Surveying And Mapping Product Quality Inspection And Testing Center)
Chongqing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Geographic Information And Remote Sensing Application Center (chongqing Surveying And Mapping Product Quality Inspection And Testing Center), Chongqing University of Technology filed Critical Chongqing Geographic Information And Remote Sensing Application Center (chongqing Surveying And Mapping Product Quality Inspection And Testing Center)
Priority to CN202310307222.7A priority Critical patent/CN116385848A/zh
Publication of CN116385848A publication Critical patent/CN116385848A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Control Of Indicators Other Than Cathode Ray Tubes (AREA)
  • Electroluminescent Light Sources (AREA)
  • Controls And Circuits For Display Device (AREA)

Abstract

本发明具体涉及一种基于稳定扩散模型的AR显示装置像质提升与智能交互方法。像质提升方法包括:将场景图像输入经过训练的像质提升模型中,通过编码器将输入的场景图像转换为隐变量特征,然后通过反向扩散模块中训练好的深度神经网络层按时间节点的逆向顺序对隐变量特征进行反向迭代计算逐层生成降噪隐变量特征,直至得到最终的降噪隐变量特征,最后通过解码器将最终的降噪隐变量特征转换为降噪处理后的像质提升图像。本发明还进一步公开了相应的智能交互方法。本发明能够通过稳定扩散模型实现场景图像的降噪增强以及场景图像与所需交互信息之间的智能融合,且还能够将稳定扩散模型进行本地终端部署以避免不必要的数据远程传输消耗。

Description

基于稳定扩散模型的AR显示装置像质提升与智能交互方法
技术领域
本发明涉及增强现实技术领域,具体涉及一种基于稳定扩散模型的AR显示装置像质提升与智能交互方法。
背景技术
近年来随着人工智能领域和AR(Augmented Reality,增强现实)技术的不断发展,各类AR眼镜产品(显示装置)逐渐开始民用化和商业化。AR技术能够基于现实物理环境来构建虚拟景象,从而带给使用者全新体验,因此应用AR技术的近眼显示装置日益受到关注。
AR技术涉及多类技术领域,发展符合人眼视觉特性的近眼显示技术成为增强现实的技术制高点。近眼显示技术以沉浸感提升与眩晕控制为主要发展趋势,而眩晕控制是其技术难点。从人眼视觉特性看,业界公认的眩晕感主要源自三方面。一是显示画质,二是视觉与其他感官通道的冲突,三是辐辏调节冲突。
显示画质是AR技术的研究重点。如公开号为CN109068125A的中国专利就公开了《一种AR系统》,包括穿戴式显示器及云端服务器;穿戴式显示器与云端服务器相互通信;穿戴式显示器用于采集当前图像信息并将采集到的当前图像信息发送至云端服务器;云端服务器用于将当前图像信息与云端服务器的信息库中的预设信息进行匹配获取当前图像信息对应的目标匹配信息,并发送目标匹配信息至穿戴式显示器;穿戴式显示器还用于显示目标匹配信息。
上述现有方案需要将AR显示装置采集的图像信息发送至云端服务器处理,并由云端服务器将处理后的图像信息回传至AR显示装置进行显示,以此实现AR显示装置的像质提升和智能交互。该方案需建立AR显示装置和云端的网络通信,涉及数据采集、数据传输、数据处理和数据回传等过程。然而,数据传输和数据回传会耗费大量时间,这会导致AR显示装置像质提升和智能交互的效率偏低,延时较大,在网络环境不好时甚至无法正常实施,从而大大影响这类方案的环境适应性和稳定性。因此,如何设计一种能够高效、稳定地提高AR显示装置像质和实时交互性的新方法是目前亟需解决的技术问题。
发明内容
针对上述现有技术的不足,本发明所要解决的技术问题是:如何提供一种基于稳定扩散模型的AR显示装置像质提升与智能交互方法,使得该方法既能够实现对场景图像的降噪增强,也能将场景图像与所需交互信息进行智能融合,并且还能够将算法模型快速进行本地终端部署以避免不必要的数据远程传输,从而提高AR显示装置在像质提升和智能交互过程中的效率和稳定性,保证用户丝滑、流畅的使用体验。
为了解决上述技术问题,本发明采用了如下的技术方案:
基于稳定扩散模型的AR显示装置像质提升方法,包括:
S1:获取场景图像;
S2:将场景图像输入经过训练的像质提升模型中,输出对应的像质提升图像;
像质提升模型包括编码器、前向扩散模块、反向扩散模块和解码器;
模型训练时:首先将训练样本图像作为像质提升模型的输入,利用编码器将样本图像转换为对应的隐变量特征;之后在前向扩散模块中采样T个离散的时间节点,在每个时间节点处随机生成标准高斯噪声,然后根据时间节点的先后顺序依次将各节点处对应的标准高斯噪声逐层添加到隐变量特征上,最终生成T个带噪隐变量特征;反向扩散模块包含T个与前向扩散模块各时间节点一一对应的深度神经网络层,各深度神经网络层用于将反向扩散过程中各节点处的带噪隐变量特征以及该时间节点对应的时间编码特征向量作为输入,并输出对应的预测噪声,进而通过最小化约束神经网络输出的预测噪声和在该时间节点上前向扩散过程添加的标准高斯噪声作为损失函数实现网络训练;最后重复训练T个深度神经网络层直至网络收敛;
模型训练后:首先将场景图像作为像质提升模型的输入;其次通过编码器将输入的场景图像转换为对应的隐变量特征;然后通过反向扩散模块中训练好的T个深度神经网络层按时间节点的逆向顺序对隐变量特征进行反向迭代计算,逐层生成降噪隐变量特征,直至得到最终的降噪隐变量特征;最后通过解码器将最终的降噪隐变量特征转换为降噪处理后的像质提升图像并输出;
S3:将像质提升图像作为对应场景图像的AR处理图像。
优选的,通过如下公式将训练样本图像转换为对应的隐变量特征:
Figure BDA0004147245720000021
式中:
Figure BDA0004147245720000022
表示第k个训练样本图像的隐变量特征;Encode表示编码操作;/>
Figure BDA0004147245720000023
表示第k个训练样本图像。
优选的,通过如下公式生成带噪隐变量特征:
Figure BDA0004147245720000024
其中,
Figure BDA0004147245720000025
Figure BDA0004147245720000031
Figure BDA0004147245720000032
式中:
Figure BDA0004147245720000033
表示第k个训练样本图像在时间节点t处的带噪隐变量特征;/>
Figure BDA0004147245720000034
表示第k个训练样本图像在时间节点t处对应的标准高斯噪声;/>
Figure BDA0004147245720000035
表示第k个训练样本图像的隐变量特征;/>
Figure BDA0004147245720000036
和/>
Figure BDA0004147245720000037
表示第k个训练样本图像在时间节点t处的噪声强度关联参数。
优选的,通过如下公式表示中间系数
Figure BDA0004147245720000038
的智能生成策略:
Figure BDA0004147245720000039
Figure BDA00041472457200000310
式中:T表示时间节点数量;step表示设置的采样步长;st表示与
Figure BDA00041472457200000311
相关的生成扩散系数。
优选的,通过如下公式计算像质提升模型中各个深度神经网络层的损失函数:
Figure BDA00041472457200000312
式中:L′(φ)表示像质提升模型中深度神经网络层的损失函数;
Figure BDA00041472457200000313
表示像质提升模型中与时间节点t对应的深度神经网络层输出的预测噪声;/>
Figure BDA00041472457200000314
表示第k个训练样本图像在时间节点t处的带噪隐变量特征;/>
Figure BDA00041472457200000315
表示第k个训练样本图像在时间节点t处的时间编码特征向量;/>
Figure BDA00041472457200000316
表示第k个训练样本图像在前向扩散过程中对应时间节点t处的标准高斯噪声;φ表示深度神经网络层待优化的参数;/>
Figure BDA00041472457200000317
和/>
Figure BDA00041472457200000318
表示第k个训练样本图像在时间节点t处的噪声强度关联参数/>
Figure BDA00041472457200000319
和/>
Figure BDA00041472457200000320
中的中间系数。
优选的,通过如下公式生成降噪隐变量特征:
Figure BDA00041472457200000321
式中:zt-1表示时间节点t-1处的降噪隐变量特征;εφ(zt,te)表示与时间节点t对应的深度神经网络层输出的预测噪声;zt表示时间节点t处的带噪隐变量特征;αt和βt表示时间节点t处的噪声强度关联参数
Figure BDA0004147245720000041
和/>
Figure BDA0004147245720000042
中的中间系数;ε表示满足标准高斯分布的随机噪声;te表示时间节点t处的时间编码特征向量;
通过如下公式将最终的降噪隐变量特征转换为像质提升图像:
x'=Decode(z0);
式中:x'表示像质提升图像;z0表示最终的降噪隐变量特征;Decode表示解码操作。
本发明还公开了基于稳定扩散模型的AR显示装置智能交互方法,包括:
A1:获取场景图像和用户选择的交互体验模式,并将该交互体验模式转换为对应的文本描述信息;
A2:将场景图像和文本描述信息同时输入经过训练的智能交互模型中,输出融合了文本描述信息的重构交互图像;
智能交互模型包括编码器、前向扩散模块、反向扩散模块和解码器;
模型训练时:首先将训练样本图像和对应交互体验模式的文本描述信息作为智能交互模型的输入,利用编码器将样本图像转换为对应的隐变量特征;之后在前向扩散模块中采样T个离散的时间节点,在每个时间节点处随机生成标准高斯噪声,然后根据时间节点的先后顺序依次将各节点处对应的标准高斯噪声逐层添加到隐变量特征上,最终生成T个带噪隐变量特征;反向扩散模块包含T个与前向扩散模块各时间节点一一对应的深度神经网络层,各深度神经网络层用于将反向扩散过程中各节点处的带噪隐变量特征、该时间节点对应的编码特征向量以及该交互体验模式对应的文本描述信息作为输入,并输出对应的预测噪声,进而通过最小化约束神经网络输出的预测噪声和在该时间节点上前向扩散过程添加的标准高斯噪声作为损失函数实现网络训练;最后重复训练T个深度神经网络层直至网络收敛;
模型训练后:首先将场景图像作为智能交互模型的输入;其次通过编码器将输入的场景图像转换为对应的隐变量特征;然后通过反向扩散模块中训练好的T个深度神经网络层按时间节点的逆向顺序对隐变量特征进行反向迭代计算,逐层生成融合了对应文本描述信息的重构隐变量特征,直至得到最终的重构隐变量特征;最后通过解码器将最终的重构隐变量特征转换为融合了交互体验模式文本信息的重构交互图像并输出;
A3:将重构交互图像作为对应场景图像的AR处理图像。
优选的,通过如下公式表示智能交互模型中深度神经网络层的损失函数:
Figure BDA0004147245720000051
式中:L″(φ)表示智能交互模型中深度神经网络层的损失函数;
Figure BDA0004147245720000052
表示智能交互模型中与时间节点t对应的深度神经网络层输出的预测噪声;/>
Figure BDA0004147245720000053
表示第k个训练样本图像在时间节点t处的带噪隐变量特征;/>
Figure BDA0004147245720000054
表示第k个训练样本图像在时间节点t处的时间编码特征向量;τθ(y)表示文本描述信息的词编码向量;/>
Figure BDA0004147245720000055
表示第k个训练样本图像在时间节点t处的标准高斯噪声;φ表示深度神经网络层待优化的参数。
本发明还公开了基于稳定扩散模型的AR显示装置系统,包括:
显示交互单元,用于显示AR图像;
视频采集单元,用于采集用户视场内的场景图像;
模式选择单元,用于供用户选择显示交互单元待执行的模式,包括像质提升模式和智能交互模式;
综合信息处理单元,用于根据用户选择的显示交互单元待执行的模式,对应的对当前场景图像进行图像去噪或交互体验模式融合,进而将生成的像质提升图像或重构交互图像作为显示交互单元的输出图像进行显示。
优选的,综合信息处理单元包括像质提升模块和智能交互模块;
像质提升模块,用于在显示交互单元待执行的模式为像质提升模式时,通过本发明的像质提升模型对场景图像进行图像去噪并生成对应的像质提升图像,进而将像质提升图像作为显示交互单元的输出图像进行显示;
智能交互模块,用于在显示交互单元待执行的模式为智能交互模式时,通过本发明的智能交互模型将当前场景图像与用户选择的交互体验模式对应的文本描述信息融合并生成对应的重构交互图像,进而将重构交互图像作为显示交互单元的输出图像进行显示。
本发明中基于稳定扩散模型的AR显示装置像质提升与智能交互方法与现有技术相比,具有如下有益效果:
本发明训练像质提升模型时,通过前向扩散的方式在纯净的样本图像上按时间节点的先后顺序依次添加标准高斯噪声用作各层深度神经网络层的训练输入,同时将时间节点的时间编码特征向量作为输入,并将各层深度神经网络层输出的预测噪声和添加的标准高斯噪声作为损失函数进行参数优化,使得训练后的每层深度神经网络层能够实现对应层级的降噪,使得经过训练的稳定扩散模型能够通过训练好的各层深度神经网络层以反向扩散的方式,按时间节点的逆向顺序对输入的隐变量特征进行反向迭代计算逐层去除图像噪声并生成降噪隐变量特征,这种逐层降噪的方式能够更好的消除场景图像中不同来源的噪声,进而能够有效的实现场景图像的图像降噪并提升图像的清晰度,从而能够提高AR显示装置像质提升的有效性,并拓展AR显示装置在雾天或者光线不足等恶劣极端环境下的适用性。
本发明训练智能交互模型时,通过前向扩散的方式在纯净的样本图像上按时间节点的先后顺序依次添加标准高斯噪声用作各层深度神经网络层的训练输入,同时将时间节点的编码特征向量以及交互体验模式的文本描述信息作为深度神经网络层的训练输入,并将各层深度神经网络层输出的预测噪声(含有文本描述信息)和添加的标准高斯噪声作为损失函数进行参数优化,训练后的每层深度神经网络层能够实现对应层级的特征和文本描述信息融合,使得经过训练的智能交互模型能够通过训练好的各层深度神经网络层以反向扩散的方式,按时间节点的逆向顺序对输入的隐变量特征进行反向迭代计算,逐层融合交互体验模式的文本描述信息并生成重构隐变量特征,这种逐层信息融合的方式仅需在仿照上述像质提升模型对应的逐层降噪过程基础上,每次多加入一个文本描述信息作为额外输入就能够实现交互体验模式下文本描述信息和场景图像的智能融合,模型复用性强、可扩展性能好,因此能够有效提高AR显示装置智能交互的体验效果。
本发明在训练和实际应用的过程中,先将原始图像转换为隐变量特征,然后对图像的隐变量特征进行前向扩散和反向扩散。由于隐变量特征的信息量大小比原始图像小很多,这使得本发明能够显著降低图像前向扩散和反向扩散的计算量和处理难度,进而能够实现将稳定扩散模型直接部署在AR显示装置所对应的本地边缘计算终端上,避免了数据通过网络传输造成的延迟和损耗,从而能够进一步提高AR显示装置像质提升和智能交互的数据同步效率,保证了用户更快更好的使用体验。
附图说明
为了使发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步的详细描述,其中:
图1为AR显示装置像质提升和智能交互方法的逻辑框图;
图2为AR显示装置像质提升和智能交互方法的流程图;
图3为隐变量特征前向扩散和反向扩散的过程示意图;
图4和图5为中间系数智能生成策略与原始生成策略的对比示意图;
图6为AR显示装置系统的逻辑框图。
图7为AR显示装置系统的工作流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件能够以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。此外,术语“水平”、“竖直”等术语并不表示要求部件绝对水平或悬垂,而是可以稍微倾斜。例如“水平”仅是指其方向相对“竖直”而言更加水平,并不是表示该结构一定要完全水平,而是可以稍微倾斜。在本发明的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
下面通过具体实施方式进一步详细的说明:
实施例一:
本实施例中公开了一种基于稳定扩散模型的AR显示装置像质提升方法。
如图1和图2所示,基于稳定扩散模型的AR显示装置像质提升方法,包括:
S1:获取场景图像;
S2:将场景图像输入经过训练的像质提升模型(即稳定扩散模型)中,输出对应的像质提升图像;
像质提升模型包括编码器、前向扩散模块、反向扩散模块和解码器;
模型训练时:如图3所示,首先将训练样本图像作为像质提升模型的输入,利用编码器将样本图像转换为对应的隐变量特征;之后在前向扩散模块中采样T个离散的时间节点tk~U({1,...,T}),在每个时间节点处随机生成标准高斯噪声
Figure BDA0004147245720000081
然后根据时间节点的先后顺序依次将各节点处对应的标准高斯噪声逐层添加到隐变量特征上,最终生成T个带噪隐变量特征;反向扩散模块包含T个与前向扩散模块各时间节点一一对应的深度神经网络层,各深度神经网络层用于将反向扩散过程中各节点处的带噪隐变量特征以及该时间节点对应的时间编码特征向量作为输入,并输出对应的预测噪声,进而通过最小化约束神经网络输出的预测噪声和在该时间节点上前向扩散过程添加的标准高斯噪声作为损失函数实现网络训练;最后重复训练T个深度神经网络层直至网络收敛;
本实施例中,对时间节点进行嵌入编码转换为长度固定的时间编码特征向量
Figure BDA0004147245720000082
(此处可调用pytorch深度学习库中的torch.nn.Embedding方法通过一个简单的正余弦编码实现)。
深度神经网络可选用现有常见的Denoising-Unet网络。
模型训练后:首先将场景图像作为像质提升模型的输入;其次通过编码器将输入的场景图像转换为对应的隐变量特征;然后通过反向扩散模块中训练好的T个深度神经网络层按时间节点的逆向顺序对隐变量特征进行反向迭代计算,逐层生成降噪隐变量特征,直至得到最终的降噪隐变量特征;最后通过解码器将最终的降噪隐变量特征转换为降噪处理后的像质提升图像并输出;
S3:将像质提升图像作为对应场景图像的AR处理图像。
本发明训练像质提升模型时,通过前向扩散的方式在纯净的样本图像上按时间节点的先后顺序依次添加标准高斯噪声用作各层深度神经网络层的训练输入,同时将时间节点的时间编码特征向量作为输入,并将各层深度神经网络层输出的预测噪声和添加的标准高斯噪声作为损失函数进行参数优化,使得训练后的每层深度神经网络层能够实现对应层级的降噪,使得经过训练的稳定扩散模型能够通过训练好的各层深度神经网络层以反向扩散的方式,按时间节点的逆向顺序对输入的隐变量特征进行反向迭代计算逐层去除图像噪声并生成降噪隐变量特征,这种逐层降噪的方式能够更好的消除场景图像中不同来源的噪声,进而能够有效的实现场景图像的图像降噪并提升图像的清晰度,从而能够提高AR显示装置像质提升的有效性,并拓展AR显示装置在雾天或者光线不足等恶劣极端环境下的适用性。
本发明在训练和实际应用的过程中,先将原始图像转换为隐变量特征,然后对图像的隐变量特征进行前向扩散和反向扩散,由于隐变量特征的信息量大小比原始图像小很多,这使得本发明能够显著降低图像前向扩散和反向扩散的计算量和处理难度,进而能够实现将像质提升模型(即稳定扩散模型)直接部署在AR显示装置所对应的本地边缘计算终端上,避免了数据通过网络传输造成的延迟和损耗,从而能够进一步提高AR显示装置像质提升的效率,保证了用户更快更好的使用体验。
具体实施过程中,通过如下公式将训练样本图像转换为对应的隐变量特征:
Figure BDA0004147245720000091
式中:
Figure BDA0004147245720000092
表示第k个训练样本图像的隐变量特征;Encode表示编码操作;/>
Figure BDA0004147245720000093
表示第k个训练样本图像。
具体实施过程中,通过如下公式生成带噪隐变量特征:
Figure BDA0004147245720000094
其中,
Figure BDA0004147245720000095
Figure BDA0004147245720000096
Figure BDA0004147245720000097
式中:
Figure BDA0004147245720000098
表示第k个训练样本图像在时间节点t处的带噪隐变量特征;/>
Figure BDA0004147245720000099
表示第k个训练样本图像在时间节点t处对应的标准高斯噪声;/>
Figure BDA00041472457200000910
表示第k个训练样本图像的隐变量特征;/>
Figure BDA00041472457200000911
和/>
Figure BDA00041472457200000912
表示第k个训练样本图像在时间节点t处的噪声强度关联参数。
具体实施过程中,通过如下公式表示中间系数
Figure BDA00041472457200000913
的智能生成策略:
Figure BDA00041472457200000914
Figure BDA00041472457200000915
式中:T表示时间节点数量;step表示设置的采样步长,其值一般为0.008;st表示与
Figure BDA00041472457200000916
相关的生成扩散系数。
利用上式进行计算时限定
Figure BDA00041472457200000917
现有技术一般是将中间系数
Figure BDA00041472457200000918
设置为一个数值从小到大的等差序列,如
Figure BDA00041472457200000919
然后通过上述公式计算前向扩散过程中的/>
Figure BDA00041472457200000920
这种方法虽然简单,但容易造成在前向扩散时靠后的时间节点上添加的噪声过多,导致在反向生成采样的时候这部分图像的贡献度较低,进而导致模型性能受限。
因此,本发明采用一种改进的中间系数智能生成策略,可以使得前向扩散过程中各时刻添加的标准高斯噪声强度更加均匀合理。利用本发明提出的中间系数智能生成策略,如图4所示,可以看出本方法添加的高斯噪声(第二行)比原始扩散模型添加的高斯噪声(第一行)在图像序列中的分布更加均匀,哪怕是序列中靠后时间间隔的带噪图像依然保留了原始图像中的部分特征,因此有利于提高网络模型的训练速度。另外,从图5绘制的折线分布中也可以看到,相比于原始扩散模型的扩散策略(折线),本发明设计改进的扩散策略(虚线)在同样的采样次数下的生成性能指标FID(Frechet Inception Distance score,表示计算真实图像与生成图像在特征层上的距离,值越小代表生成质量越好)更低,由此证明本发明的智能生成策略的性能更好,效率更高。
具体实施过程中,通过如下公式计算像质提升模型中各个深度神经网络层的损失函数:
Figure BDA0004147245720000101
式中:L′(φ)表示像质提升模型中深度神经网络层的损失函数;
Figure BDA0004147245720000102
表示像质提升模型中与时间节点t对应的深度神经网络层输出的预测噪声;/>
Figure BDA0004147245720000103
表示第k个训练样本图像在时间节点t处的带噪隐变量特征;/>
Figure BDA0004147245720000104
表示第k个训练样本图像在时间节点t处的时间编码特征向量;/>
Figure BDA0004147245720000105
表示第k个训练样本图像在前向扩散过程中对应时间节点t处的标准高斯噪声;φ表示深度神经网络层待优化的参数,用于判断深度神经网络层是否收敛;/>
Figure BDA0004147245720000106
和/>
Figure BDA0004147245720000107
表示第k个训练样本图像在时间节点t处的噪声强度关联参数/>
Figure BDA0004147245720000108
和/>
Figure BDA0004147245720000109
中的中间系数。
各层深度神经网络层基于损失函数结合梯度下降法进行迭代最终可以使得网络模型的参数φ收敛。
本发明通过上述损失函数作为像质提升模型中各个深度神经网络层的损失函数,使得训练后的每层深度神经网络层能够实现对应层级的去噪(降噪),进而使得经过训练的像质提升模型能够通过训练好的各层深度神经网络层以反向扩散的方式,按时间节点的逆向顺序对输入的隐变量特征进行反向迭代计算,逐层去除图像噪声并生成降噪隐变量特征,这种逐层降噪的方式能够更好的消除场景图像中不同来源的噪声,进而能够有效的实现场景图像的图像降噪并提升图像的清晰度。
具体实施过程中,通过如下公式生成降噪隐变量特征:
Figure BDA0004147245720000111
式中:zt-1表示时间节点t-1处的降噪隐变量特征;εφ(zt,te)表示与时间节点t对应的深度神经网络层输出的预测噪声;zt表示时间节点t处的带噪隐变量特征;αt和βt表示时间节点t处的噪声强度关联参数
Figure BDA0004147245720000112
和/>
Figure BDA0004147245720000113
中的中间系数;ε表示满足标准高斯分布的随机噪声,其作用是在每次反向迭代中增加扩散过程生成概率分布的随机性,从而使得最终生成的降噪结果具有更好的鲁棒性;te表示时间节点t处的时间编码特征向量;
本发明在降噪隐变量特征的生成公式中添加随机噪声ε,使得能够在每次反向迭代中增加扩散过程生成概率分布的随机性,进而使得最终生成的降噪结果具有更好的鲁棒性,从而能够进一步提高AR显示装置像质提升的有效性。
通过如下公式将最终的降噪隐变量特征转换为像质提升图像:
x'=Decode(z0);
式中:x'表示像质提升图像;z0表示最终的降噪隐变量特征;Decode表示解码操作。
实施例二:
本实施例公开了一种基于稳定扩散模型的AR显示装置智能交互方法。
如图1和图2所示,基于稳定扩散模型的AR显示装置智能交互方法,包括:
A1:获取场景图像和用户选择的交互体验模式,并将交互体验模式转换为对应的文本描述信息;
A2:将场景图像和文本描述信息同时输入经过训练的智能交互模型(即稳定扩散模型)中,输出融合了文本描述信息的重构交互图像;
智能交互模型包括编码器、前向扩散模块、反向扩散模块和解码器;
模型训练时:首先将训练样本图像和对应交互体验模式的文本描述信息作为智能交互模型的输入,利用编码器将样本图像转换为对应的隐变量特征;之后在前向扩散模块中采样T个离散的时间节点,在每个时间节点处随机生成标准高斯噪声,然后根据时间节点的先后顺序依次将各节点处对应的标准高斯噪声逐层添加到隐变量特征上,最终生成T个带噪隐变量特征;反向扩散模块包含T个与前向扩散模块各时间节点一一对应的深度神经网络层,各深度神经网络层用于将反向扩散过程中各节点处的带噪隐变量特征、该时间节点对应的编码特征向量以及该交互体验模式对应的文本描述信息作为输入,并输出对应的预测噪声,进而通过最小化约束神经网络输出的预测噪声和在该时间节点上前向扩散过程添加的标准高斯噪声作为损失函数实现网络训练;最后重复训练T个深度神经网络层直至网络收敛;
本实施例中,对时间节点进行嵌入编码转换为长度固定的时间编码特征向量
Figure BDA0004147245720000121
(此处可调用pytorch深度学习库中的torch.nn.Embedding方法通过一个简单的正余弦编码实现)。
深度神经网络可选用现有常见的Denoising-Unet网络。
交互体验模式的文本描述信息包括卡通人物、自然景观、人文建筑等典型场景的字符串描述。
模型训练后:首先将场景图像作为智能交互模型的输入;其次通过编码器将输入的场景图像转换为对应的隐变量特征;然后通过反向扩散模块中训练好的T个深度神经网络层按时间节点的逆向顺序对隐变量特征进行反向迭代计算,逐层生成融合了对应文本描述信息的重构隐变量特征,直至得到最终的重构隐变量特征;最后通过解码器将最终的重构隐变量特征转换为融合了交互体验模式文本信息的重构交互图像并输出;
A3:将重构交互图像作为对应场景图像的AR处理图像。
本发明训练智能交互模型时,通过前向扩散的方式在纯净的样本图像上按时间节点的先后顺序依次添加标准高斯噪声用作各层深度神经网络层的训练输入,同时将时间节点的编码特征向量以及交互体验模式的文本描述信息作为深度神经网络层的训练输入,并将各层深度神经网络层输出的预测噪声(含有文本描述信息)和添加的标准高斯噪声作为损失函数进行参数优化,训练后的每层深度神经网络层能够实现对应层级的特征和文本描述信息融合,使得经过训练的智能交互模型能够通过训练好的各层深度神经网络层以反向扩散的方式,按时间节点的逆向顺序对输入的隐变量特征进行反向迭代计算,逐层融合交互体验模式的文本描述信息并生成重构隐变量特征,这种逐层信息融合的方式仅需在仿照上述像质提升模型对应的逐层降噪过程基础上,每次多加入一个文本描述信息作为额外输入就能够实现交互体验模式下文本描述信息和场景图像的智能融合,模型复用性强、可扩展性能好,因此能够有效提高AR显示装置智能交互的体验效果。
本发明在训练和实际应用的过程中,先将原始图像转换为隐变量特征,然后对图像的隐变量特征进行前向扩散和反向扩散,由于隐变量特征的信息量大小比原始图像小很多,这使得本发明能够显著降低图像前向扩散和反向扩散的计算量和处理难度,进而能够实现将智能交互模型(即稳定扩散模型)直接部署在AR显示装置所对应的本地边缘计算终端上,避免了数据通过网络传输造成的延迟和损耗,从而能够进一步提高AR显示装置智能交互的数据同步效率,保证了用户更快更好的使用体验。
具体实施过程中,通过如下公式生成带噪隐变量特征:
Figure BDA0004147245720000131
其中,
Figure BDA0004147245720000132
Figure BDA0004147245720000133
Figure BDA0004147245720000134
式中:
Figure BDA0004147245720000135
表示第k个训练样本图像在时间节点t处的带噪隐变量特征;/>
Figure BDA0004147245720000136
表示第k个训练样本图像在时间节点t处对应的标准高斯噪声;/>
Figure BDA0004147245720000137
表示第k个训练样本图像的隐变量特征;/>
Figure BDA0004147245720000138
和/>
Figure BDA0004147245720000139
表示第k个训练样本图像在时间节点t处的噪声强度关联参数。
具体实施过程中,通过如下公式表示中间系数
Figure BDA00041472457200001310
的智能生成策略:
Figure BDA00041472457200001311
Figure BDA00041472457200001312
式中:T表示时间节点数量;step表示设置的采样步长,其值一般为0.008;st表示与
Figure BDA00041472457200001313
相关的生成扩散系数。
利用上式进行计算时限定
Figure BDA00041472457200001314
现有技术一般是将中间系数
Figure BDA00041472457200001315
设置为一个数值从小到大的等差序列,如
Figure BDA00041472457200001316
然后通过上述公式计算前向扩散过程中的/>
Figure BDA00041472457200001317
这种方法虽然简单,但容易造成在前向扩散时靠后的时间节点上添加的噪声过多,导致在反向生成采样的时候这部分图像的贡献度较低,进而导致模型性能受限。
因此,本发明采用一种改进的中间系数智能生成策略,可以使得前向扩散过程中各时刻添加的标准高斯噪声强度更加均匀合理。利用本发明提出的中间系数智能生成策略,如图4所示,可以看出本方法添加的高斯噪声(第二行)比原始扩散模型添加的高斯噪声(第一行)在图像序列中的分布更加均匀,哪怕是序列中靠后时间间隔的带噪图像依然保留了原始图像中的部分特征,因此有利于提高网络模型的训练速度。另外,从图5绘制的折线分布中也可以看到,相比于原始扩散模型的扩散策略(折线),本发明设计改进的扩散策略(虚线)在同样的采样次数下的生成性能指标FID(Frechet Inception Distance score,表示计算真实图像与生成图像在特征层上的距离,值越小代表生成质量越好)更低,由此证明本发明的智能生成策略的性能更好,效率更高。
具体实施过程中,通过如下公式表示智能交互模型中深度神经网络层的损失函数:
Figure BDA0004147245720000141
式中:L″(φ)表示智能交互模型中深度神经网络层的损失函数;
Figure BDA0004147245720000142
表示智能交互模型中与时间节点t对应的深度神经网络层输出的预测噪声;/>
Figure BDA0004147245720000143
表示第k个训练样本图像在时间节点t处的带噪隐变量特征;/>
Figure BDA0004147245720000144
表示第k个训练样本图像在时间节点t处的时间编码特征向量;τθ(y)表示文本描述信息的词编码向量(可以通过调用python机器学习库中tokenizer库进行选择,从而将文本描述信息y转换为词编码向量);/>
Figure BDA0004147245720000145
表示第k个训练样本图像在时间节点t处的标准高斯噪声;φ表示深度神经网络层待优化的参数,用于判断深度神经网络层是否收敛。
本发明通过上述损失函数作为智能交互模型中各个深度神经网络层的损失函数,使得训练后的每层深度神经网络层能够实现对应层级的特征和文本描述信息融合,进而使得经过训练的智能交互模型能够通过训练好的各层深度神经网络层以反向扩散的方式,按时间节点的逆向顺序对输入的隐变量特征进行反向迭代计算,逐层融合交互体验模式的文本描述信息并生成重构隐变量特征,这种逐层融合信息的方式能够更好的实现文本描述信息和场景图像的融合,进而能够有效实现场景图像的智能交互体验。
实施例三:
本实施例公开了一种基于稳定扩散模型的AR显示装置系统。
结合图6和图7所示,基于稳定扩散模型的AR显示装置系统,包括:
眼镜主体结构;
显示交互单元(微型可穿戴显示器),用于显示AR图像;
本实施例中,显示交互单元为一个微型可穿戴的显示器,通过与综合处理单元的外设接口或无线Wifi模块进行连接,可以将处理后的图像进行实时投屏显示,从而作为AR眼镜的最终输出结果。
视频采集单元,用于采集用户视场内的场景图像;
本实施例中,视频采集单元为安装于AR眼镜结构上方的微型摄像头,所述微型摄像头的拍摄方向与用户视场方向平行。
模式选择单元,用于供用户选择显示交互单元待执行的模式,包括像质提升模式和智能交互模式;
本实施例中,模式选择单元为内置于AR眼镜镜框边缘位置上与若干压敏传感器相连接的三个按键,各按键对应的标志符号分别为Enter、Up和Down。通过按键上下切换和点击显示屏上显示的各类功能,可以用于选择切换当前眼镜的功能模式,是像质提升,还是交互感知,或者开启关闭这些功能等。
标志符号为Enter的按键所对应的压敏传感器被长按时,所述AR眼镜进入开机或关机状态;标志符号为Enter的按键所对应的压敏传感器被短按时,所述AR眼镜进入模式确定状态,此时进入或执行当前所选择的功能模式。标志符号为Up的按键所对应的压敏传感器被按压时,显示识别单元会显示当前光标移动到了编号为1的选项框,对应像质提升模式;标志符号为Down的按键所对应的压敏传感器被按压时,显示识别单元会显示当前光标移动到了编号为2的选项框,对应智能交互模式。
综合信息处理单元(基于Jetson系列的边缘计算设备),用于根据用户选择的显示交互单元待执行的模式,对应的对当前场景图像进行图像去噪或交互体验模式融合,进而将生成的像质提升图像或重构交互图像作为显示交互单元的输出图像进行显示。
本实施例中,综合处理单元为集成了微型GPU的边缘计算设备,可以通过自带的外设接口与视频采集单元、模式选择单元以及显示识别单元进行连接,实现数据的同步传递。
综合信息处理单元包括像质提升模块和智能交互模块。
像质提升模块,用于在显示交互单元待执行的模式为像质提升模式时,通过实施例一所述的像质提升模型对场景图像进行图像去噪并生成对应的像质提升图像,进而将像质提升图像作为显示交互单元的输出图像进行显示。
智能交互模块,用于在显示交互单元待执行的模式为智能交互模式时,通过实施例二所述的智能交互模型将当前场景图像与用户选择的交互体验模式对应的文本描述信息融合并生成对应的重构交互图像,进而将重构交互图像作为显示交互单元的输出图像进行显示。
本实施例中,像质提升模型和智能交互模型即为稳定扩散模型。该稳定扩散模型通过训练优化深度神经网络模型的参数,可以直接部署到其它内置GPU的边缘设备(如综合处理单元)上进行加速推理,进而能够极大的提升本发明的方法在各类移动设备/终端上的适用性和应用范围。
本发明的AR显示装置系统能够根据用户选择的模式(包括像质提升模式和智能交互模式),对应的对当前场景图像进行图像去噪或交互体验模式融合,进而将生成的像质提升图像或重构交互图像作为显示交互单元的输出图像进行显示,即能够通过内置高性能GPU的边缘计算设备对基于稳定扩散模型的深度神经网络生成算法进行加速推理,可以在显著提升输出图像视觉效果的同时改善AR眼镜的人机交互性能,进而提升和拓展用户在各类运动、探险和旅行过程中的视觉感知体验。同时,由于稳定扩散模型直接部署在AR显示装置的边缘计算设备上(本地),避免了不必要的数据远程传输,从而能够进一步提高AR显示装置像质提升和智能交互的效率,并保证用户的使用体验。
本发明的综合信息处理单元通过像质提升模块,能够逐层去除图像噪声并生成降噪隐变量特征,这种逐层降噪的方式能够更好的消除场景图像中不同来源的噪声,进而能够有效的实现场景图像的图像降噪并提升图像的清晰度,从而能够提高AR显示装置像质提升的有效性,并拓展AR显示装置在雾天或者光线不足等恶劣极端环境下的适用性。
本发明的综合信息处理单元通过智能交互模块,能够逐层融合交互体验模式的文本描述信息并生成重构隐变量特征,这种逐层融合信息的方式能够更好的实现文本描述信息和场景图像的融合,进而能够有效的实现场景图像和交互体验模式交互,从而能够提高AR显示装置智能交互的有效性。
最后需要说明的是,以上实施例仅用以说明本发明的技术方案而非限制技术方案,本领域的普通技术人员应当理解,那些对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,均应涵盖在本发明的权利要求范围当中。

Claims (10)

1.基于稳定扩散模型的AR显示装置像质提升方法,其特征在于,包括:
S1:获取场景图像;
S2:将场景图像输入经过训练的像质提升模型中,输出对应的像质提升图像;
像质提升模型包括编码器、前向扩散模块、反向扩散模块和解码器;
模型训练时:首先将训练样本图像作为像质提升模型的输入,利用编码器将样本图像转换为对应的隐变量特征;之后在前向扩散模块中采样T个离散的时间节点,在每个时间节点处随机生成标准高斯噪声,然后根据时间节点的先后顺序依次将各节点处对应的标准高斯噪声逐层添加到隐变量特征上,最终生成T个带噪隐变量特征;反向扩散模块包含T个与前向扩散模块各时间节点一一对应的深度神经网络层,各深度神经网络层用于将反向扩散过程中各节点处的带噪隐变量特征以及该时间节点对应的时间编码特征向量作为输入,并输出对应的预测噪声,进而通过最小化约束神经网络输出的预测噪声和在该时间节点上前向扩散过程添加的标准高斯噪声作为损失函数实现网络训练;最后重复训练T个深度神经网络层直至网络收敛;
模型训练后:首先将场景图像作为像质提升模型的输入;其次通过编码器将输入的场景图像转换为对应的隐变量特征;然后通过反向扩散模块中训练好的T个深度神经网络层按时间节点的逆向顺序对隐变量特征进行反向迭代计算,逐层生成降噪隐变量特征,直至得到最终的降噪隐变量特征;最后通过解码器将最终的降噪隐变量特征转换为降噪处理后的像质提升图像并输出;
S3:将像质提升图像作为对应场景图像的AR处理图像。
2.如权利要求1所述的基于稳定扩散模型的AR显示装置像质提升方法,其特征在于,通过如下公式将训练样本图像转换为对应的隐变量特征:
Figure FDA0004147245710000011
式中:
Figure FDA0004147245710000012
表示第k个训练样本图像的隐变量特征;Encode表示编码操作;/>
Figure FDA0004147245710000013
表示第k个训练样本图像。
3.如权利要求1所述的基于稳定扩散模型的AR显示装置像质提升方法,其特征在于,通过如下公式生成带噪隐变量特征:
Figure FDA0004147245710000014
其中,
Figure FDA0004147245710000015
Figure FDA0004147245710000021
Figure FDA0004147245710000022
式中:
Figure FDA0004147245710000023
表示第k个训练样本图像在时间节点t处的带噪隐变量特征;/>
Figure FDA0004147245710000024
表示第k个训练样本图像在时间节点t处对应的标准高斯噪声;/>
Figure FDA0004147245710000025
表示第k个训练样本图像的隐变量特征;
Figure FDA0004147245710000026
和/>
Figure FDA0004147245710000027
表示第k个训练样本图像在时间节点t处的噪声强度关联参数。
4.如权利要求3所述的基于稳定扩散模型的AR显示装置像质提升方法,其特征在于,通过如下公式表示中间系数
Figure FDA0004147245710000028
的智能生成策略:
Figure FDA0004147245710000029
Figure FDA00041472457100000210
式中:T表示时间节点数量;step表示设置的采样步长;st表示与
Figure FDA00041472457100000211
相关的生成扩散系数。
5.如权利要求4所述的基于稳定扩散模型的AR显示装置像质提升方法,其特征在于,通过如下公式计算像质提升模型中各个深度神经网络层的损失函数:
Figure FDA00041472457100000212
式中:L′(φ)表示像质提升模型中深度神经网络层的损失函数;
Figure FDA00041472457100000213
表示像质提升模型中与时间节点t对应的深度神经网络层输出的预测噪声;/>
Figure FDA00041472457100000214
表示第k个训练样本图像在时间节点t处的带噪隐变量特征;/>
Figure FDA00041472457100000215
表示第k个训练样本图像在时间节点t处的时间编码特征向量;/>
Figure FDA00041472457100000216
表示第k个训练样本图像在前向扩散过程中对应时间节点t处的标准高斯噪声;φ表示深度神经网络层待优化的参数;/>
Figure FDA00041472457100000217
和/>
Figure FDA00041472457100000218
表示第k个训练样本图像在时间节点t处的噪声强度关联参数/>
Figure FDA00041472457100000219
和/>
Figure FDA00041472457100000220
中的中间系数。
6.如权利要求1所述的基于稳定扩散模型的AR显示装置像质提升方法,其特征在于,通过如下公式生成降噪隐变量特征:
Figure FDA0004147245710000031
式中:zt-1表示时间节点t-1处的降噪隐变量特征;εφ(zt,te)表示与时间节点t对应的深度神经网络层输出的预测噪声;zt表示时间节点t处的带噪隐变量特征;αt和βt表示时间节点t处的噪声强度关联参数
Figure FDA0004147245710000032
和/>
Figure FDA0004147245710000033
中的中间系数;ε表示满足标准高斯分布的随机噪声;te表示时间节点t处的时间编码特征向量;
通过如下公式将最终的降噪隐变量特征转换为像质提升图像:
x'=Decode(z0);
式中:x'表示像质提升图像;z0表示最终的降噪隐变量特征;Decode表示解码操作。
7.基于稳定扩散模型的AR显示装置智能交互方法,其特征在于,包括:
A1:获取场景图像和用户选择的交互体验模式,并将该交互体验模式转换为对应的文本描述信息;
A2:将场景图像和文本描述信息同时输入经过训练的智能交互模型中,输出融合了文本描述信息的重构交互图像;
智能交互模型包括编码器、前向扩散模块、反向扩散模块和解码器;
模型训练时:首先将训练样本图像和对应交互体验模式的文本描述信息作为智能交互模型的输入,利用编码器将样本图像转换为对应的隐变量特征;之后在前向扩散模块中采样T个离散的时间节点,在每个时间节点处随机生成标准高斯噪声,然后根据时间节点的先后顺序依次将各节点处对应的标准高斯噪声逐层添加到隐变量特征上,最终生成T个带噪隐变量特征;反向扩散模块包含T个与前向扩散模块各时间节点一一对应的深度神经网络层,各深度神经网络层用于将反向扩散过程中各节点处的带噪隐变量特征、该时间节点对应的编码特征向量以及该交互体验模式对应的文本描述信息作为输入,并输出对应的预测噪声,进而通过最小化约束神经网络输出的预测噪声和在该时间节点上前向扩散过程添加的标准高斯噪声作为损失函数实现网络训练;最后重复训练T个深度神经网络层直至网络收敛;
模型训练后:首先将场景图像作为智能交互模型的输入;其次通过编码器将输入的场景图像转换为对应的隐变量特征;然后通过反向扩散模块中训练好的T个深度神经网络层按时间节点的逆向顺序对隐变量特征进行反向迭代计算,逐层生成融合了对应文本描述信息的重构隐变量特征,直至得到最终的重构隐变量特征;最后通过解码器将最终的重构隐变量特征转换为融合了交互体验模式文本信息的重构交互图像并输出;
A3:将重构交互图像作为对应场景图像的AR处理图像。
8.如权利要求7所述的基于稳定扩散模型的AR显示装置智能交互方法,其特征在于,通过如下公式表示智能交互模型中深度神经网络层的损失函数:
Figure FDA0004147245710000041
式中:L″(φ)表示智能交互模型中深度神经网络层的损失函数;
Figure FDA0004147245710000042
表示智能交互模型中与时间节点t对应的深度神经网络层输出的预测噪声;/>
Figure FDA0004147245710000043
表示第k个训练样本图像在时间节点t处的带噪隐变量特征;/>
Figure FDA0004147245710000044
表示第k个训练样本图像在时间节点t处的时间编码特征向量;τθ(y)表示文本描述信息的词编码向量;/>
Figure FDA0004147245710000045
表示第k个训练样本图像在时间节点t处的标准高斯噪声;φ表示深度神经网络层待优化的参数。
9.基于稳定扩散模型的AR显示装置系统,其特征在于,包括:
显示交互单元,用于显示AR图像;
视频采集单元,用于采集用户视场内的场景图像;
模式选择单元,用于供用户选择显示交互单元待执行的模式,包括像质提升模式和智能交互模式;
综合信息处理单元,用于根据用户选择的显示交互单元待执行的模式,对应的对当前场景图像进行图像去噪或交互体验模式融合,进而将生成的像质提升图像或重构交互图像作为显示交互单元的输出图像进行显示。
10.如权利要求9所述的基于稳定扩散模型的AR显示装置系统,其特征在于:综合信息处理单元包括像质提升模块和智能交互模块;
像质提升模块,用于在显示交互单元待执行的模式为像质提升模式时,通过权利要求1所述的像质提升模型对场景图像进行图像去噪并生成对应的像质提升图像,进而将像质提升图像作为显示交互单元的输出图像进行显示;
智能交互模块,用于在显示交互单元待执行的模式为智能交互模式时,通过权利要求7所述的智能交互模型将当前场景图像与用户选择的交互体验模式对应的文本描述信息融合并生成对应的重构交互图像,进而将重构交互图像作为显示交互单元的输出图像进行显示。
CN202310307222.7A 2023-03-27 2023-03-27 基于稳定扩散模型的ar显示装置像质提升与智能交互方法 Pending CN116385848A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310307222.7A CN116385848A (zh) 2023-03-27 2023-03-27 基于稳定扩散模型的ar显示装置像质提升与智能交互方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310307222.7A CN116385848A (zh) 2023-03-27 2023-03-27 基于稳定扩散模型的ar显示装置像质提升与智能交互方法

Publications (1)

Publication Number Publication Date
CN116385848A true CN116385848A (zh) 2023-07-04

Family

ID=86960873

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310307222.7A Pending CN116385848A (zh) 2023-03-27 2023-03-27 基于稳定扩散模型的ar显示装置像质提升与智能交互方法

Country Status (1)

Country Link
CN (1) CN116385848A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116664450A (zh) * 2023-07-26 2023-08-29 国网浙江省电力有限公司信息通信分公司 基于扩散模型的图像增强方法、装置、设备及存储介质
CN116704588A (zh) * 2023-08-03 2023-09-05 腾讯科技(深圳)有限公司 面部图像的替换方法、装置、设备及存储介质
CN117315417A (zh) * 2023-09-04 2023-12-29 浙江大学 一种基于扩散模型的服装样式融合方法和系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116664450A (zh) * 2023-07-26 2023-08-29 国网浙江省电力有限公司信息通信分公司 基于扩散模型的图像增强方法、装置、设备及存储介质
CN116704588A (zh) * 2023-08-03 2023-09-05 腾讯科技(深圳)有限公司 面部图像的替换方法、装置、设备及存储介质
CN116704588B (zh) * 2023-08-03 2023-09-29 腾讯科技(深圳)有限公司 面部图像的替换方法、装置、设备及存储介质
CN117315417A (zh) * 2023-09-04 2023-12-29 浙江大学 一种基于扩散模型的服装样式融合方法和系统
CN117315417B (zh) * 2023-09-04 2024-05-14 浙江大学 一种基于扩散模型的服装样式融合方法和系统

Similar Documents

Publication Publication Date Title
CN116385848A (zh) 基于稳定扩散模型的ar显示装置像质提升与智能交互方法
CN110363716B (zh) 一种基于条件生成对抗网络复合降质图像高质量重建方法
CN111091045A (zh) 一种基于时空注意力机制的手语识别方法
CN111340711A (zh) 一种超分辨率重建方法、装置、设备和存储介质
WO2024051445A1 (zh) 图像生成方法以及相关设备
CN108388900A (zh) 基于多特征融合和时空注意力机制相结合的视频描述方法
CN109308725B (zh) 一种移动端表情趣图生成的系统
CN110503703A (zh) 用于生成图像的方法和装置
CN111901598B (zh) 视频解码与编码的方法、装置、介质及电子设备
CN110120049B (zh) 由单张图像联合估计场景深度与语义的方法
CN112543342A (zh) 虚拟视频直播处理方法及装置、存储介质、电子设备
CN111724400A (zh) 视频自动抠像方法及系统
CN113254684B (zh) 一种内容时效的确定方法、相关装置、设备以及存储介质
CN113362263A (zh) 变换虚拟偶像的形象的方法、设备、介质及程序产品
CN115965840A (zh) 图像风格迁移和模型训练方法、装置、设备和介质
CN112837210A (zh) 一种基于特征图分块的多形变风格人脸漫画自动生成方法
CN115496550A (zh) 文本生成方法以及装置
Hu et al. Unified discrete diffusion for simultaneous vision-language generation
CN112562045B (zh) 生成模型和生成3d动画的方法、装置、设备和存储介质
CN116229311B (zh) 视频处理方法、装置及存储介质
CN112634413A (zh) 生成模型和生成3d动画的方法、装置、设备和存储介质
CN117094365A (zh) 图文生成模型的训练方法、装置、电子设备及介质
CN112101204A (zh) 生成式对抗网络的训练方法、图像处理方法、装置和设备
CN113240780B (zh) 生成动画的方法和装置
CN117011415A (zh) 一种特效文字的生成方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination