CN116665004B - 一种扩展现实图像处理方法、系统、设备及存储介质 - Google Patents

一种扩展现实图像处理方法、系统、设备及存储介质 Download PDF

Info

Publication number
CN116665004B
CN116665004B CN202310950727.5A CN202310950727A CN116665004B CN 116665004 B CN116665004 B CN 116665004B CN 202310950727 A CN202310950727 A CN 202310950727A CN 116665004 B CN116665004 B CN 116665004B
Authority
CN
China
Prior art keywords
image
image frame
augmented reality
pixel
selected image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310950727.5A
Other languages
English (en)
Other versions
CN116665004A (zh
Inventor
张鹏
李世鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Coastal Data Technology Co ltd
Original Assignee
Shenzhen Coastal Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Coastal Data Technology Co ltd filed Critical Shenzhen Coastal Data Technology Co ltd
Priority to CN202310950727.5A priority Critical patent/CN116665004B/zh
Publication of CN116665004A publication Critical patent/CN116665004A/zh
Application granted granted Critical
Publication of CN116665004B publication Critical patent/CN116665004B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/90Dynamic range modification of images or parts thereof
    • G06T5/94Dynamic range modification of images or parts thereof based on local image properties, e.g. for local contrast enhancement
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本申请提供了一种扩展现实图像处理方法、系统、设备及存储介质,首先向原始视频中插入虚拟对象,得到扩展现实原始视频,再将扩展现实原始视频分解,得到RGB差分图像集合,选定第一图像帧作为选定图像帧,根据RGB差分图像集合进行RGB动态预测,得到选定图像帧的预测图像,确定预测图像与选定图像帧的残差特征值,进而得到选定图像帧和预测图像的融合高频系数矩阵,对融合高频系数矩阵进行逆变换得到扩展现实图像,在扩展现实原始视频中采用扩展现实图像替换选定图像帧,重新选择图像帧作为选定图像帧并重复上述步骤,直到扩展现实原始视频中所有图像帧均被替换,得到扩展现实视频,实现了一种增加虚拟对象的场景融合度的扩展现实图像处理方法。

Description

一种扩展现实图像处理方法、系统、设备及存储介质
技术领域
本申请涉及扩展现实技术领域,并且更具体地,涉及一种扩展现实图像处理方法、系统、设备及存储介质。
背景技术
扩展现实(Extended Reality,XR)是虚拟现实、增强现实和混合现实等沉浸式技术的总称,指通过计算机将真实的目标对象与虚拟对象相结合,打造一个可人机交互的虚拟环境,为体验者带来虚拟世界与现实世界之间无缝转换的“沉浸感”的场景融合技术。
现有技术中,往往通过计算机图像软件创建虚拟对象,进而在真实场景的视频中将已制作好的虚拟对象与真实的目标图像合成,叠加视觉效果,完成虚拟现实融合,但虚拟对象通过计算机生成,往往与现实场景的纹理材料匹配度较低,导致虚拟对象与场景的融合度不高,影响扩展现实视频用户的观看体验,因此,如何在扩展现实图像处理过程中增强虚拟对象与场景的融合度成为亟需要解决的问题。
发明内容
本申请提供一种扩展现实图像处理方法、系统、设备及存储介质,以解决虚拟对象与场景的融合度不高,影响扩展现实视频用户的观看体验的技术问题。
本申请采用如下技术方案解决上述技术问题:
第一方面,本申请提供一种扩展现实图像处理方法,该方法可以由网络设备执行,或者,也可以由配置于网络设备中的芯片执行,本申请对此不作限定。
具体的,该方法包括如下步骤:
向原始视频中插入虚拟对象,得到扩展现实原始视频;
根据相邻视频帧之间的RGB差分值将所述扩展现实原始视频分解,得到RGB差分图像集合;
选定所述扩展现实原始视频中的第一图像帧作为选定图像帧,根据所述RGB差分图像集合进行RGB动态预测,得到所述选定图像帧的预测图像,确定所述预测图像与所述选定图像帧的残差特征值;
分别获取所述选定图像帧和所述预测图像的高频系数矩阵,根据所述残差特征值对所述选定图像帧的高频系数矩阵与所述预测图像的高频系数矩阵进行矩阵融合,得到融合高频系数矩阵,进而对所述融合高频系数矩阵进行逆变换得到扩展现实图像;
在所述扩展现实原始视频中采用所述扩展现实图像替换所述选定图像帧;
依照时序将所述扩展现实原始视频中剩余图像帧分别作为选定图像帧,重复上述步骤,直到所述扩展现实原始视频中所有图像帧均被替换完毕,得到扩展现实视频。
结合第一方面,在第一方面的某些实现方式中,向原始视频中插入虚拟对象,得到扩展现实原始视频具体包括:
在原始视频中对目标对象进行跟踪识别,得到目标对象的位置坐标;
通过三维建模工具生成虚拟对象;
根据所述目标对象的位置坐标,将所述虚拟对象与原始视频进行融合叠加,得到融合视频;
将所述融合视频进行输出和渲染,生成扩展对象原始视频。
结合第一方面,在第一方面的某些实现方式中,根据相邻视频帧之间的RGB差分值将所述扩展现实原始视频分解,得到RGB差分图像集合具体包括:
将所述扩展现实原始视频的第一图像帧和第二图像帧视为两个相邻视频帧;
分别确定所述相邻视频帧之间各个像素位置的RGB差分值;
将所述各个像素位置的RGB差分值依照对应的像素位置组合为图像,得到第一图像帧与第二图像帧之间的RGB差分图像;
将所述扩展现实原始视频的第二图像帧和第三图像帧视为两个相邻视频帧,得到第二图像帧与第三图像帧之间的RGB差分图像;
重复上述步骤,直到得到所述扩展现实原始视频中所有相邻视频帧之间的RGB差分图像,将所述扩展现实原始视频中所有相邻视频帧之间的RGB差分图像依据时序组成RGB差分图像集合。
结合第一方面,在第一方面的某些实现方式中,根据所述RGB差分图像集合进行RGB动态预测,得到所述选定图像帧的预测图像具体包括:
将所述扩展现实原始视频中与所述选定图像帧的K个最邻近的图像帧作为预测样本图像集;
获取所述选定图像帧在第一像素位置中的红色通道像素值对应的像素标签;根据所述红色通道像素值的像素标签和所述预测样本图像集,确定所述选定图像帧的预测图像在第一像素位置的红色通道像素值;
获取所述选定图像帧在第一像素位置中的绿色通道像素值对应的像素标签;根据所述绿色通道像素值的像素标签和所述预测样本图像集,确定所述选定图像帧的预测图像在第一像素位置的绿色通道像素值;
获取所述选定图像帧在第一像素位置中的蓝色通道像素值对应的像素标签;根据所述蓝色通道像素值的像素标签和所述预测样本图像集,确定所述选定图像帧的预测图像在第一像素位置的蓝色通道像素值;
根据所述选定图像帧的预测图像在第一像素位置的红、绿、蓝色通道像素值,确定所述选定图像帧的预测图像在第一像素位置上的像素点;
在所述选定图像帧的其他像素位置重复上述步骤,直到确定所述选定图像帧的预测图像的全部像素点,得到所述选定图像帧的预测图像。
结合第一方面,在第一方面的某些实现方式中,确定所述选定图像帧的预测图像在第一像素位置的红色通道像素值具体包括:
确定所述选定图像帧在第一像素位置的红色通道像素值
确定所述预测样本图像集中的图像帧个数
获取所述选定图像帧在第一像素位置中的红色通道像素值对应的像素标签
确定所述预测样本图像集中第个图像帧在第一像素位置的红色通道像素值/>
根据所述选定图像帧在第一像素位置的红色通道像素值、所述预测样本图像集中的图像帧个数/>、所述选定图像帧在第一像素位置中的红色通道像素值对应的像素标签和所述预测样本图像集中第/>个图像帧在第一像素位置的红色通道像素值/>确定所述选定图像帧的预测图像在第一像素位置的红色通道像素值,其中所述选定图像帧的预测图像在第一像素位置的红色通道像素值根据下述公式确定:
其中,为所述选定图像帧的预测图像在第一像素位置的红色通道像素值,/>为所述选定图像帧在第一像素位置的红色通道像素值,/>为所述预测样本图像集中的图像帧个数,/>为所述选定图像帧在第一像素位置中的红色通道像素值对应的像素标签,/>为所述预测样本图像集中第/>个图像帧在第一像素位置的红色通道像素值。
结合第一方面,在第一方面的某些实现方式中,向原始视频中插入虚拟对象之前还包括:通过高清摄像机捕捉目标对象移动,得到目标对象的原始视频。
结合第一方面,在第一方面的某些实现方式中,所述相邻视频帧之间的RGB差分值通过两个相邻视频帧中对应像素位置的像素值相减并取绝对值确定。
第二方面,本申请提供一种扩展现实图像处理系统,所述扩展现实图像处理系统包括有:
虚拟对象插入模块,用于向原始视频中插入虚拟对象,得到扩展现实原始视频;
扩展现实原始视频分解模块,用于根据相邻视频帧之间的RGB差分值将所述扩展现实原始视频分解,得到RGB差分图像集合;
残差特征值确定模块,用于选定所述扩展现实原始视频中的第一图像帧作为选定图像帧,根据所述RGB差分图像集合进行RGB动态预测,得到所述选定图像帧的预测图像,确定所述预测图像与所述选定图像帧的残差特征值;
扩展现实图像确定模块,用于分别获取所述选定图像帧和所述预测图像的高频系数矩阵,根据所述残差特征值对所述选定图像帧的高频系数矩阵与所述预测图像的高频系数矩阵进行矩阵融合,得到融合高频系数矩阵,进而对所述融合高频系数矩阵进行逆变换得到扩展现实图像;
选定图像帧替换模块,用于在所述扩展现实原始视频中采用所述扩展现实图像替换所述选定图像帧;
扩展现实视频输出模块,用于依照时序将所述扩展现实原始视频中剩余图像帧分别作为选定图像帧并采用扩展现实图像进行替换,直到所述扩展现实原始视频中所有图像帧均被替换完毕,得到扩展现实视频。
第三方面,本申请提供一种计算机终端设备,所述计算机终端设备包括存储器和处理器,所述存储器存储有代码,所述处理器被配置为获取所述代码,并执行上述的扩展现实图像处理方法。
第四方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质存储有至少一条计算机程序,所述计算机程序由处理器加载并执行以实现上述扩展现实图像处理方法所执行的操作。
本申请公开的实施例提供的技术方案具有以下有益效果:
本申请提供的一种扩展现实图像处理方法、系统、设备及存储介质中,首先向原始视频中插入虚拟对象,得到扩展现实原始视频,再将扩展现实原始视频分解,得到RGB差分图像集合,选定第一图像帧作为选定图像帧,根据RGB差分图像集合进行RGB动态预测,得到选定图像帧的预测图像,分别确定预测图像和选定图像帧的残差特征值,进而得到选定图像帧和预测图像的融合高频系数矩阵,对融合高频系数矩阵进行逆变换得到扩展现实图像,在扩展现实原始视频中采用扩展现实图像替换选定图像帧,重新选择图像帧作为选定图像帧并重复上述步骤,直到扩展现实原始视频中所有图像帧均被替换,得到扩展现实视频,实现了一种增加虚拟对象的场景融合度的扩展现实图像处理方法。
附图说明
图1是根据本申请一些实施例所示的扩展现实图像处理方法的示例性流程图;
图2是根据本申请一些实施例所示的扩展现实图像处理方法系统的示例性硬件和/或软件的示意图;
图3是根据本申请一些实施例所示的应用扩展现实图像处理方法的计算机终端设备的结构示意图。
具体实施方式
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。参考图1,该图是根据本申请一些实施例所示的扩展现实图像处理方法的示例性流程图,该扩展现实图像处理方法100主要包括如下步骤:
在步骤101,向原始视频中插入虚拟对象,得到扩展现实原始视频。
可选的,在一些实施例中,向原始视频中插入虚拟对象之前还可以包括:通过高清摄像机捕捉目标对象移动,得到目标对象的原始视频。
需要说明的是,扩展现实技术可以通过向原始视频中叠加生成的虚拟对象,得到扩展现实视频,使得视频用户可以与虚拟对象进行互动、体验沉浸式的虚拟场景,从而为视频用户提供更贴合的交互方式和视觉体验。
优选的,在一些实施例中,向原始视频中插入虚拟对象,得到扩展现实原始视频具体包括:
在原始视频中对目标对象进行跟踪识别,得到目标对象的位置坐标,跟踪识别的过程可以通过计算机视觉技术、目标检测算法或深度学习模型实现对目标位置进行识别并跟踪,从而确定需要插入虚拟对象的目标对象位置坐标,并随着目标对象的运动对位置坐标进行实时更新;
生成虚拟对象,具体实现时,可以通过计算机辅助设计软件AutoCAD或其他三维建模工具设计并生成所述虚拟对象;
根据所述目标对象的位置坐标,将所述虚拟对象与原始视频进行融合叠加,得到融合视频,具体实现时,还可以采用姿态估计技术帮助确定虚拟对象在视频中的位置、角度和大小,使其与目标对象正确对齐;
将所述融合视频进行输出和渲染,生成扩展对象原始视频。
在步骤102,根据相邻视频帧之间的RGB差分值将所述扩展现实原始视频分解,得到RGB差分图像集合。
需要说明的是,所述RGB差分值为相邻视频帧之间的像素颜色通道(红、绿、蓝)的差异值,在一些实施例中,根据相邻视频帧之间的RGB差分值将所述扩展现实原始视频分解,得到RGB差分图像集合具体包括:
将所述扩展现实原始视频的第一图像帧和第二图像帧视为两个相邻视频帧;
分别确定所述相邻视频帧之间各个像素位置的RGB差分值;
将所述各个像素位置的RGB差分值依照对应的像素位置组合为图像,得到第一图像帧与第二图像帧之间的RGB差分图像;
将所述扩展现实原始视频的第二图像帧和第三图像帧视为两个相邻视频帧,得到第二图像帧与第三图像帧之间的RGB差分图像;
重复上述步骤,直到得到所述扩展现实原始视频中所有相邻视频帧之间的RGB差分图像,将所述扩展现实原始视频中所有相邻视频帧之间的RGB差分图像依据时序组成RGB差分图像集合。
需要说明的是,具体实现时,所述RGB差分值可以是一个三维向量,所述三维向量中包含了相邻视频帧中对应像素位置的红绿蓝三通道的三个像素值的差分值,所述RGB差分值也可以通过计算机中的减法操作实现,例如将两个相邻视频帧中对应像素位置的像素值相减并取绝对值,可以得到相邻视频帧在对应像素位置上的RGB差分值,进而可以将所述RGB差分值作为RGB差分图像在该像素位置上的RGB像素值,从而得到RGB差分图像。
相邻视频帧之间的RGB差分图像是通过对视频序列中的相邻帧进行像素级别的差异计算得到的图像,其中,对于每个像素位置,计算当前帧与前一帧(或后一帧)在红、绿、蓝三个通道的像素值之间的差异,然后将这些差异值用于生成一个新的图像,即相邻帧之间的RGB差分图像,RGB差分图像应用于后续图像处理,既可用于对虚拟对象与目标对象的运动检测,也可以用于评估所述扩展现实原始视频的视频质量,例如,当所述RGB差分图像的平均像素值过高,表明所述扩展现实原始视频中存在伪影或噪声的概率更大。
在步骤103,选定所述扩展现实原始视频中的第一图像帧作为选定图像帧,根据所述RGB差分图像集合进行RGB动态预测,得到所述选定图像帧的预测图像,确定所述预测图像与所述选定图像帧的残差特征值。
优选的,在一些实施例中,根据所述RGB差分图像集合进行RGB动态预测,得到所述选定图像帧的预测图像具体包括:
将所述扩展现实原始视频中与所述选定图像帧的K个最邻近的图像帧作为预测样本图像集;
获取所述选定图像帧在第一像素位置中的红色通道像素值对应的像素标签;根据所述红色通道像素值的像素标签和所述预测样本图像集,确定所述选定图像帧的预测图像在第一像素位置的红色通道像素值;
获取所述选定图像帧在第一像素位置中的绿色通道像素值对应的像素标签;根据所述绿色通道像素值的像素标签和所述预测样本图像集,确定所述选定图像帧的预测图像在第一像素位置的绿色通道像素值;
获取所述选定图像帧在第一像素位置中的蓝色通道像素值对应的像素标签;根据所述蓝色通道像素值的像素标签和所述预测样本图像集,确定所述选定图像帧的预测图像在第一像素位置的蓝色通道像素值;
根据所述选定图像帧的预测图像在第一像素位置的红、绿、蓝色通道像素值,确定所述选定图像帧的预测图像在第一像素位置上的像素点;
在所述选定图像帧的其他像素位置重复上述步骤,直到确定所述选定图像帧的预测图像的全部像素点,得到所述选定图像帧的预测图像。
需要说明的是,所述第一像素位置可以是所述选定图像帧中第一行第一列的像素点位置,在一些实施例中,可以依照行排列优先方式,继续选择第一行第二列的像素位置,并确定所述选定图像帧的预测图像在第一行第二列的像素位置上的像素点,进而确定所述选定图像帧的预测图像。
所述像素标签用于判断所述选定图像帧在对应像素位置上的像素值于所述预测样本图像集中的各个图像帧在对应像素位置上的像素值的大小关系,在一些实施例中,可以将所述选定图像帧在第一像素位置中的红色通道像素值和所述预测样本图像集中的各个图像帧在第一像素位置中的红色通道像素值依照像素值由大到小进行排序,将所述选定图像帧在第一像素位置中的红色通道像素值的排序序号作为所述选定图像帧在第一像素位置中的红色通道像素值对应的像素标签,所述选定图像帧中其他像素位置中其他颜色通道像素值对应的像素标签可采用相同方式确定,这里不做赘述。
优选的,在一些实施例中,确定所述选定图像帧的预测图像在第一像素位置的红色通道像素值可采用下述方式,即:
确定所述选定图像帧在第一像素位置的红色通道像素值
确定所述预测样本图像集中的图像帧个数
获取所述选定图像帧在第一像素位置中的红色通道像素值对应的像素标签
确定所述预测样本图像集中第个图像帧在第一像素位置的红色通道像素值/>
根据所述选定图像帧在第一像素位置的红色通道像素值、所述预测样本图像集中的图像帧个数/>、所述选定图像帧在第一像素位置中的红色通道像素值对应的像素标签和所述预测样本图像集中第/>个图像帧在第一像素位置的红色通道像素值/>确定所述选定图像帧的预测图像在第一像素位置的红色通道像素值,其中所述选定图像帧的预测图像在第一像素位置的红色通道像素值根据下述公式确定:
其中,为所述选定图像帧的预测图像在第一像素位置的红色通道像素值,/>为所述选定图像帧在第一像素位置的红色通道像素值,/>为所述预测样本图像集中的图像帧个数,/>为所述选定图像帧在第一像素位置中的红色通道像素值对应的像素标签,/>为所述预测样本图像集中第/>个图像帧在第一像素位置的红色通道像素值。
需要说明的是,所述选定图像帧的预测图像的像素值基于对应像素位置的像素标签和所述预测样本图像集确定,所述预测样本图像集为与所述选定图像帧关于时间戳最邻近的K个图像帧组成,因此所述预测图像相较于选定图像帧具有更好的场景融合度,进而可以根据所述预测图像的高频系数矩阵与所述选定图像帧的高频系数矩阵进行矩阵融合,得到融合高频系数矩阵,从而在所述扩展现实原始视频中添加更多的细节信息,增加虚拟对象的场景融合度。
需要说明的是,所述残差特征值依据所述选定图像帧进行RGB动态预测后得到的预测图像与选定图像帧本身的亮度残差确定,该残差特征值反映了所述预测图像与所述选定图像帧之间的偏离程度,当所述残差特征值过大时,需要在对预测图像和选定图像帧的高频系数矩阵进行矩阵融合时,降低所述预测图像在矩阵融合时占有的权重,防止扩展现实图像相对原有的选定图像帧产生过多偏离,在一些实施例中,可以下式方式确定所述预测图像与所述选定图像帧的残差特征值,即:
确定所述选定图像帧中的像素点行数
确定所述选定图像帧中像素点的列数
获取所述预测图像中第行第/>的像素点亮度值/>
获取所述选定图像帧中第行第/>的像素点亮度值/>
获取所述选定图像帧中所有像素点亮度值的平均值
根据所述选定图像帧中的像素点行数、所述选定图像帧中像素点的列数/>、所述预测图像中第/>行第/>的像素点亮度值/>、所述选定图像帧中第/>行第/>的像素点亮度值/>和所述选定图像帧中所有像素点亮度值的平均值/>确定所述预测图像与所述选定图像帧的残差特征值/>,其中预测图像与所述选定图像帧的残差特征值/>根据下述公式确定:
其中,为所述残差特征值,/>为所述选定图像帧中的像素点行数,/>为所述选定图像帧中像素点的列数,/>为预测图像中第/>行第/>的像素点亮度值,/>为所述选定图像帧中第/>行第/>的像素点亮度值,/>为所述选定图像帧中所有像素点亮度值的平均值。
在一些实施例中,所述像素点的亮度值由该亮度点的三通道像素值平均加权融合确定。
在步骤104,分别获取所述选定图像帧和所述预测图像的高频系数矩阵,根据所述残差特征值对所述选定图像帧的高频系数矩阵与所述预测图像的高频系数矩阵进行矩阵融合,得到融合高频系数矩阵,进而对所述融合高频系数矩阵进行逆变换得到扩展现实图像。
可选的,在一些实施例中,可以通过离散小波变换将所述选定图像帧分解为四个子带,分别是低频-低频(Low-Low,LL)子带、低频-高频(Low-Hight,LH)子带、高频-低频(Hight-Low,HL)子带和高频-高频(Hight-Hight,HH)子带,所述LL、LH、HL和HH子带分别含有图像的低频、水平高频、垂直高频和对角线高频信息,其中,LL子带中的低频系数通常包含了较为重要的图像特征,可以对所述LL子带不做处理,而LH、HL和HH子带蕴含图像中较多的细节成分,因此可以调节所述LH、HL和HH子带中的高频系数,从而实现对所述扩展现实视频的图像增强,可以将离散小波变换分解出的LH、HL和HH子带分别作为矩阵中的一行,组成所述选定图像帧的高频系数矩阵,在另外一些实施例中,可采用相同方式获取所述预测图像的高频系数矩阵,这里不再赘述。
优选的,在一些实施例中,由于所述选定图像帧和所述预测图像具有相同的图像像素大小,因此二者的高频系数矩阵为同型矩阵,满足矩阵运算条件,具体实现时,可以由下式对所述选定图像帧的高频系数矩阵与所述预测图像的高频系数矩阵进行矩阵融合,得到融合高频系数矩阵:
其中,为融合高频系数矩阵,/>为所述残差特征值,/>为所述预测图像的高频系数矩阵,/>为所述选定图像帧的高频系数矩阵。
需要说明的是,由于所述融合高频系数矩阵的矩阵行数为3,且每一行矩阵分别代表LH、HL和HH子带,因此,在一些实施例中,可以将所述融合高频系数矩阵中的LH、HL和HH子带提取,并与所述选定图像帧的LL子带共同进行逆离散小波变换,得到扩展现实图像。
需要说明的是,所述预测图像为根据所述选定图像帧的相邻图像帧进行预测得到,因而与所述扩展现实原始视频中的其余图像帧具有更强的自相关性,即所述预测图像相较于扩展现实原始视频中的选定图像帧具有更强的场景融合度,虚拟对象与现实的目标对象在融合时边界处能够获得更强的视觉一致性,因此,对所述选定图像帧与所述预测图像的高频系数矩阵进行矩阵融合,得到融合高频系数矩阵,进而对该融合高频系数矩阵进行逆变换得到扩展现实图像,可以实现调节所述扩展现实原始视频中选定图像帧的高频系数,增强选定图像帧的细节信息,增加最终得到的扩展现实视频的场景融合度的目的。
在步骤105,在所述扩展现实原始视频中采用所述扩展现实图像替换所述选定图像帧。
具体实现时,可以在扩展现实原始视频中抽取所述选定图像帧,并在该选定图像帧的时间戳中插入融合图像,从而实现对所述扩展现实原始视频中选定图像帧的替换。
在步骤106,依照时序将所述扩展现实原始视频中剩余图像帧分别作为选定图像帧,重复上述步骤,直到所述扩展现实原始视频中所有图像帧均被替换完毕,得到扩展现实视频。
可选的,在一些实施例中,由于所述扩展现实视频由所述扩展现实原始视频中的图像帧替换为扩展现实图像得到,因此所述扩展现实视频由扩展现实图像作为图像帧组成,并且所述扩展现实视频与所述扩展现原始视频具有相同的帧数。
另外,本申请的另一方面,在一些实施例中,本申请提供一种扩展现实图像处理系统,参考图2,该图是根据本申请一些实施例所示的一种扩展现实图像处理系统的示例性硬件和/或软件的示意图,该一种扩展现实图像处理系统200包括:虚拟对象插入模块201、扩展现实原始视频分解模块202、残差特征值确定模块203、扩展现实图像确定模块204、选定图像帧替换模块205和扩展现实视频输出模块206,分别说明如下:
虚拟对象插入模块201,在本申请的一些具体的实施例中,虚拟对象插入模块201主要用于向原始视频中插入虚拟对象,得到扩展现实原始视频;
扩展现实原始视频分解模块202,在本申请的一些具体的实施例中,扩展现实原始视频分解模块202主要用于根据相邻视频帧之间的RGB差分值将所述扩展现实原始视频分解,得到RGB差分图像集合;
残差特征值确定模块203,在本申请的一些具体的实施例中,残差特征值确定模块203主要用于选定所述扩展现实原始视频中的第一图像帧作为选定图像帧,根据所述RGB差分图像集合进行RGB动态预测,得到所述选定图像帧的预测图像,确定所述预测图像与所述选定图像帧的残差特征值;
扩展现实图像确定模块204,在本申请的一些具体的实施例中,扩展现实图像确定模块204主要用于分别获取所述选定图像帧和所述预测图像的高频系数矩阵,根据所述残差特征值对所述选定图像帧的高频系数矩阵与所述预测图像的高频系数矩阵进行矩阵融合,得到融合高频系数矩阵,进而对所述融合高频系数矩阵进行逆变换得到扩展现实图像;
选定图像帧替换模块205,在本申请的一些具体的实施例中,选定图像帧替换模块205主要用于在所述扩展现实原始视频中采用所述扩展现实图像替换所述选定图像帧;
扩展现实视频输出模块206,在本申请的一些具体的实施例中,扩展现实视频输出模块206主要用于依照时序将所述扩展现实原始视频中剩余图像帧分别作为选定图像帧并采用扩展现实图像进行替换,直到所述扩展现实原始视频中所有图像帧均被替换完毕,得到扩展现实视频。
另外,本申请还提供一种计算机终端设备,所述计算机终端设备包括存储器和处理器,所述存储器存储有代码,所述处理器被配置为获取所述代码,并执行上述的扩展现实图像处理方法。
在一些实施例中,参考图3,该图是根据本申请一些实施例所示的应用扩展现实图像处理方法的计算机终端设备的结构示意图。上述实施例中的扩展现实图像处理方法可以通过图3所示的计算机终端设备来实现,该计算机终端设备包括至少一个通信总线301、通信接口302、处理器303以及存储器304。
处理器303可以是一个通用中央处理器(central processing unit,CPU)、特定应用集成电路(application-specific integrated circuit,ASIC)或一个或多个用于控制本申请中的扩展现实图像处理方法的执行。
通信总线301可包括一通路,在上述组件之间传送信息。
存储器304可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其它类型的静态存储设备,随机存取存储器(random access memory,RAM)或者可存储信息和指令的其它类型的动态存储设备,也可以是电可擦可编程只读存储器(electricallyerasable programmable read-only memory,EEPROM)、只读光盘(compact disc read-only Memory,CD-ROM)或其它光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘或者其它磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其它介质,但不限于此。存储器304可以是独立存在,通过通信总线301与处理器303相连接。存储器304也可以和处理器303集成在一起。
其中,存储器304用于存储执行本申请方案的程序代码,并由处理器303来控制执行。处理器303用于执行存储器304中存储的程序代码。程序代码中可以包括一个或多个软件模块。上述实施例中残差特征值的确定可以通过处理器303以及存储器304中的程序代码中的一个或多个软件模块实现。
通信接口302,使用任何收发器一类的装置,用于与其它设备或通信网络通信,如以太网,无线接入网(radio access network,RAN),无线局域网(wireless local areanetworks,WLAN)等。
可选地,上述计算机终端设备300还可以包括电源305,用于给实时计算机终端设备中的各种器件或电路提供电源。
在具体实现中,作为一种实施例,计算机终端设备可以包括多个处理器,这些处理器中的每一个可以是一个单核(single-CPU)处理器,也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。
上述的计算机终端设备可以是一个通用计算机终端设备或者是一个专用计算机终端设备。在具体实现中,计算机终端设备可以是台式机、便携式电脑、网络服务器、掌上电脑(personal digital assistant,PDA)、移动手机、平板电脑、无线终端设备、通信设备或者嵌入式设备。本申请实施例不限定计算机终端设备的类型。
另外,在本申请的其他方面还提供一种计算机可读存储介质,所述计算机可读存储介质存储有至少一条计算机程序,所述计算机程序由处理器加载并执行以实现上述扩展现实图像处理方法所执行的操作。
综上,本申请实施例公开的一种扩展现实图像处理方法、系统、设备及存储介质中,首先向原始视频中插入虚拟对象,得到扩展现实原始视频,再将扩展现实原始视频分解,得到RGB差分图像集合,选定第一图像帧作为选定图像帧,根据RGB差分图像集合进行RGB动态预测,得到选定图像帧的预测图像,分别确定预测图像和选定图像帧的残差特征值,进而得到选定图像帧和预测图像的融合高频系数矩阵,对融合高频系数矩阵进行逆变换得到扩展现实图像,在扩展现实原始视频中采用扩展现实图像替换选定图像帧,重新选择图像帧作为选定图像帧并重复上述步骤,直到扩展现实原始视频中所有图像帧均被替换,得到扩展现实视频,实现了一种增加虚拟对象的场景融合度的扩展现实图像处理方法。
以上所述的仅是本申请的实施例,方案中公知的具体技术方案或特性等常识在此未作过多描述。应当指出,对于本领域的技术人员来说,在不脱离本申请技术方案的前提下,还可以作出若干变形和改进,这些也应该视为本申请的保护范围,这些都不会影响本申请实施的效果和专利的实用性。
本申请要求的保护范围应当以其权利要求的内容为准,说明书中的具体实施方式等记载可以用于解释权利要求的内容,显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (9)

1.一种扩展现实图像处理方法,其特征在于,包括如下步骤:
向原始视频中插入虚拟对象,得到扩展现实原始视频;
根据相邻视频帧之间的RGB差分值将所述扩展现实原始视频分解,得到RGB差分图像集合;
选定所述扩展现实原始视频中的第一图像帧作为选定图像帧,根据所述RGB差分图像集合进行RGB动态预测,得到所述选定图像帧的预测图像,确定所述预测图像与所述选定图像帧的残差特征值;
分别获取所述选定图像帧和所述预测图像的高频系数矩阵,根据所述残差特征值对所述选定图像帧的高频系数矩阵与所述预测图像的高频系数矩阵进行矩阵融合,得到融合高频系数矩阵,进而对所述融合高频系数矩阵进行逆变换得到扩展现实图像;
在所述扩展现实原始视频中采用所述扩展现实图像替换所述选定图像帧;
依照时序将所述扩展现实原始视频中剩余图像帧分别作为选定图像帧,重复上述步骤,直到所述扩展现实原始视频中所有图像帧均被替换完毕,得到扩展现实视频;
其中,根据所述RGB差分图像集合进行RGB动态预测,得到所述选定图像帧的预测图像具体包括:
将所述扩展现实原始视频中与所述选定图像帧的K个最邻近的图像帧作为预测样本图像集;
获取所述选定图像帧在第一像素位置中的红色通道像素值对应的像素标签;根据所述红色通道像素值的像素标签和所述预测样本图像集,确定所述选定图像帧的预测图像在第一像素位置的红色通道像素值;
获取所述选定图像帧在第一像素位置中的绿色通道像素值对应的像素标签;根据所述绿色通道像素值的像素标签和所述预测样本图像集,确定所述选定图像帧的预测图像在第一像素位置的绿色通道像素值;
获取所述选定图像帧在第一像素位置中的蓝色通道像素值对应的像素标签; 根据所述蓝色通道像素值的像素标签和所述预测样本图像集,确定所述选定图像帧的预测图像在第一像素位置的蓝色通道像素值;
根据所述选定图像帧的预测图像在第一像素位置的红、绿、蓝色通道像素值,确定所述选定图像帧的预测图像在第一像素位置上的像素点;
在所述选定图像帧的其他像素位置重复上述步骤,直到确定所述选定图像帧的预测图像的全部像素点,得到所述选定图像帧的预测图像。
2.如权利要求1所述的方法,其特征在于,向原始视频中插入虚拟对象,得到扩展现实原始视频具体包括:
在原始视频中对目标对象进行跟踪识别,得到目标对象的位置坐标;
通过三维建模工具生成虚拟对象;
根据所述目标对象的位置坐标,将所述虚拟对象与原始视频进行融合叠加,得到融合视频;
将所述融合视频进行输出和渲染,生成扩展对象原始视频。
3.如权利要求1所述的方法,其特征在于,根据相邻视频帧之间的RGB差分值将所述扩展现实原始视频分解,得到RGB差分图像集合具体包括:
将所述扩展现实原始视频的第一图像帧和第二图像帧视为两个相邻视频帧;
分别确定所述相邻视频帧之间各个像素位置的RGB差分值;
将所述各个像素位置的RGB差分值依照对应的像素位置组合为图像,得到第一图像帧与第二图像帧之间的RGB差分图像;
将所述扩展现实原始视频的第二图像帧和第三图像帧视为两个相邻视频帧,得到第二图像帧与第三图像帧之间的RGB差分图像;
重复上述步骤,直到得到所述扩展现实原始视频中所有相邻视频帧之间的RGB差分图像,将所述扩展现实原始视频中所有相邻视频帧之间的RGB差分图像依据时序组成RGB差分图像集合。
4.如权利要求1所述的方法,其特征在于,确定所述选定图像帧的预测图像在第一像素位置的红色通道像素值具体包括:
确定所述选定图像帧在第一像素位置的红色通道像素值
确定所述预测样本图像集中的图像帧个数
获取所述选定图像帧在第一像素位置中的红色通道像素值对应的像素标签
确定所述预测样本图像集中第个图像帧在第一像素位置的红色通道像素值/>
根据所述选定图像帧在第一像素位置的红色通道像素值、所述预测样本图像集中的图像帧个数/>、所述选定图像帧在第一像素位置中的红色通道像素值对应的像素标签/>和所述预测样本图像集中第/>个图像帧在第一像素位置的红色通道像素值/>确定所述选定图像帧的预测图像在第一像素位置的红色通道像素值,其中所述选定图像帧的预测图像在第一像素位置的红色通道像素值根据下述公式确定:
其中,为所述选定图像帧的预测图像在第一像素位置的红色通道像素值,/>为所述选定图像帧在第一像素位置的红色通道像素值,/>为所述预测样本图像集中的图像帧个数,/>为所述选定图像帧在第一像素位置中的红色通道像素值对应的像素标签,/>为所述预测样本图像集中第/>个图像帧在第一像素位置的红色通道像素值。
5.如权利要求1所述的方法,其特征在于,向原始视频中插入虚拟对象之前还包括:通过高清摄像机捕捉目标对象移动,得到目标对象的原始视频。
6.如权利要求1所述的方法,其特征在于,所述相邻视频帧之间的RGB差分值通过两个相邻视频帧中对应像素位置的像素值相减并取绝对值确定。
7.一种扩展现实图像处理系统,其采用权利要求1所述的方法进行扩展现实图像处理,其特征在于,该扩展现实图像处理系统包括有:
虚拟对象插入模块,用于向原始视频中插入虚拟对象,得到扩展现实原始视频;
扩展现实原始视频分解模块,用于根据相邻视频帧之间的RGB差分值将所述扩展现实原始视频分解,得到RGB差分图像集合;
残差特征值确定模块,用于选定所述扩展现实原始视频中的第一图像帧作为选定图像帧,根据所述RGB差分图像集合进行RGB动态预测,得到所述选定图像帧的预测图像,确定所述预测图像与所述选定图像帧的残差特征值;
扩展现实图像确定模块,用于分别获取所述选定图像帧和所述预测图像的高频系数矩阵,根据所述残差特征值对所述选定图像帧的高频系数矩阵与所述预测图像的高频系数矩阵进行矩阵融合,得到融合高频系数矩阵,进而对所述融合高频系数矩阵进行逆变换得到扩展现实图像;
选定图像帧替换模块,用于在所述扩展现实原始视频中采用所述扩展现实图像替换所述选定图像帧;
扩展现实视频输出模块,用于依照时序将所述扩展现实原始视频中剩余图像帧分别作为选定图像帧并采用扩展现实图像进行替换,直到所述扩展现实原始视频中所有图像帧均被替换完毕,得到扩展现实视频。
8.一种计算机终端设备,其特征在于,所述计算机终端设备包括存储器和处理器,所述存储器存储有代码,所述处理器被配置为获取所述代码,并执行如权利要求1至6任一项所述的扩展现实图像处理方法。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有至少一条计算机程序,其特征在于,所述计算机程序由处理器加载并执行以实现如权利要求1至6任一项所述的扩展现实图像处理方法所执行的操作。
CN202310950727.5A 2023-07-31 2023-07-31 一种扩展现实图像处理方法、系统、设备及存储介质 Active CN116665004B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310950727.5A CN116665004B (zh) 2023-07-31 2023-07-31 一种扩展现实图像处理方法、系统、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310950727.5A CN116665004B (zh) 2023-07-31 2023-07-31 一种扩展现实图像处理方法、系统、设备及存储介质

Publications (2)

Publication Number Publication Date
CN116665004A CN116665004A (zh) 2023-08-29
CN116665004B true CN116665004B (zh) 2023-11-10

Family

ID=87710123

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310950727.5A Active CN116665004B (zh) 2023-07-31 2023-07-31 一种扩展现实图像处理方法、系统、设备及存储介质

Country Status (1)

Country Link
CN (1) CN116665004B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104244021A (zh) * 2013-06-24 2014-12-24 汤姆逊许可公司 在视频内插入虚拟对象的方法及装置
CN107665506A (zh) * 2016-07-29 2018-02-06 成都理想境界科技有限公司 实现增强现实的方法及系统
CN111711824A (zh) * 2020-06-29 2020-09-25 腾讯科技(深圳)有限公司 视频编解码中的环路滤波方法、装置、设备及存储介质
CN112639691A (zh) * 2018-08-30 2021-04-09 斯纳普公司 视频剪辑对象跟踪
CN114374846A (zh) * 2022-01-10 2022-04-19 昭通亮风台信息科技有限公司 视频压缩方法、装置、设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104244021A (zh) * 2013-06-24 2014-12-24 汤姆逊许可公司 在视频内插入虚拟对象的方法及装置
CN107665506A (zh) * 2016-07-29 2018-02-06 成都理想境界科技有限公司 实现增强现实的方法及系统
CN112639691A (zh) * 2018-08-30 2021-04-09 斯纳普公司 视频剪辑对象跟踪
CN111711824A (zh) * 2020-06-29 2020-09-25 腾讯科技(深圳)有限公司 视频编解码中的环路滤波方法、装置、设备及存储介质
CN114374846A (zh) * 2022-01-10 2022-04-19 昭通亮风台信息科技有限公司 视频压缩方法、装置、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Target Detection Based on Wavelet Transform;Guoqing Qiu等;《2018 Chinese Automation Congress (CAC)》;第3930-3933 *
基于目标增强融合的铁路异物侵限检测方法研究;许鑫龙;《中国优秀硕士学位论文全文数据库工程科技Ⅰ辑》(第03期);第B026-83页 *

Also Published As

Publication number Publication date
CN116665004A (zh) 2023-08-29

Similar Documents

Publication Publication Date Title
US9030469B2 (en) Method for generating depth maps from monocular images and systems using the same
US9153032B2 (en) Conversion method and apparatus with depth map generation
US20220222776A1 (en) Multi-Stage Multi-Reference Bootstrapping for Video Super-Resolution
JP2022517444A (ja) 映像フレーム補間のための特徴ピラミッドワーピング
JP7175197B2 (ja) 画像処理方法および装置、記憶媒体、コンピュータ装置
CN111681177B (zh) 视频处理方法及装置、计算机可读存储介质、电子设备
JP6811796B2 (ja) 拡張現実アプリケーションのためのビデオにおけるリアルタイムオーバーレイ配置
JP2015518594A (ja) デジタル画像分析のため空間制約を用いた統合インタラクティブセグメンテーション法
CN109903315A (zh) 用于光流预测的方法、装置、设备以及可读存储介质
CN113556582A (zh) 视频数据处理方法、装置、设备以及存储介质
CN116248955A (zh) 一种基于ai抽帧补帧的vr云渲染图像增强方法
CN113724155A (zh) 用于自监督单目深度估计的自提升学习方法、装置及设备
CN111914938A (zh) 一种基于全卷积二分支网络的图像属性分类识别方法
CN111641822A (zh) 一种重定位立体图像质量评价方法
CN108961268B (zh) 一种显著图计算方法及相关装置
CN116665004B (zh) 一种扩展现实图像处理方法、系统、设备及存储介质
Somraj et al. Temporal view synthesis of dynamic scenes through 3D object motion estimation with multi-plane images
US20150117757A1 (en) Method for processing at least one disparity map, corresponding electronic device and computer program product
CN112132871B (zh) 一种基于特征光流信息的视觉特征点追踪方法、装置、存储介质及终端
US11989820B2 (en) Arbitrary view generation
CN115049572A (zh) 图像处理方法、装置、电子设备和计算机可读存储介质
Imani et al. Three-Stream 3D deep CNN for no-Reference stereoscopic video quality assessment
CN104243950A (zh) 用于将2维内容实时转换为3维内容的方法和设备
CN105243652B (zh) 图像降噪的方法及装置
US20140050401A1 (en) Fast Image Processing for Recognition Objectives System

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant