CN117853377A - 图像处理方法、电子设备及计算机可读存储介质 - Google Patents

图像处理方法、电子设备及计算机可读存储介质 Download PDF

Info

Publication number
CN117853377A
CN117853377A CN202410177507.8A CN202410177507A CN117853377A CN 117853377 A CN117853377 A CN 117853377A CN 202410177507 A CN202410177507 A CN 202410177507A CN 117853377 A CN117853377 A CN 117853377A
Authority
CN
China
Prior art keywords
image
optical flow
video
target video
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410177507.8A
Other languages
English (en)
Other versions
CN117853377B (zh
Inventor
武臻尧
吴馨怡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honor Device Co Ltd
Original Assignee
Honor Device Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honor Device Co Ltd filed Critical Honor Device Co Ltd
Priority to CN202410177507.8A priority Critical patent/CN117853377B/zh
Publication of CN117853377A publication Critical patent/CN117853377A/zh
Application granted granted Critical
Publication of CN117853377B publication Critical patent/CN117853377B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/094Adversarial learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/579Depth or shape recovery from multiple images from motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/7243User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages
    • H04M1/72439User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages for image or video messaging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Signal Processing (AREA)
  • General Business, Economics & Management (AREA)
  • Human Computer Interaction (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及图像处理领域,尤其涉及一种图像处理方法、电子设备及计算机可读存储介质。所述方法包括:获取待处理的第一图像;预测所述第一图像对应的第一光流图,其中,光流图用于表示前后两帧图像之间对应像素的位移;根据所述第一光流图生成光流环,其中,所述光流环包括一组首尾相连的光流图;根据所述光流环生成所述第一图像对应的目标视频。通过上述方法,可以将静态图片动态地展示,从而有效提升了用户对静态图片的欣赏体验度。

Description

图像处理方法、电子设备及计算机可读存储介质
技术领域
本申请涉及图像处理领域,尤其涉及一种图像处理方法、电子设备及计算机可读存储介质。
背景技术
目前,很多电子设备具有拍照功能,电子设备将拍摄的图片或视频存储到相册应用中,用户可以在相册应用中浏览图片或视频。对于视频,可以动态地展示拍摄物体,利于提升用户的欣赏体验度,但其占用的存储空间较大。而对于一些静态图片,虽然其占用的存储空间相对较小,但其无法展示拍摄物体的动感状态,大大降低了用户的欣赏体验度。
发明内容
本申请提供一种图像处理方法、电子设备及计算机可读存储介质,可以将静态图片动态地展示,从而有效提升了用户对静态图片的欣赏体验度。
为达到上述目的,本申请采用如下技术方案:
第一方面,提供一种图像处理方法,所述方法包括:
获取待处理的第一图像;
预测所述第一图像对应的第一光流图,其中,光流图用于表示前后两帧图像之间对应像素的位移;
根据所述第一光流图生成光流环,其中,所述光流环包括一组首尾相连的光流图;
根据所述光流环生成所述第一图像对应的目标视频。
本申请实施例中,第一图像为静态图像。
本申请实施例中,根据图像预测光流图,根据光流图生成光流环,再根据光流环生成目标视频;通过上述方式,可以将静态图片动态地展示,从而有效提升了用户对静态图片的欣赏体验度。其中,光流环包括首位相连的光流图,相当于表示运动对象的循环动作,使得动态展示的过程较为流畅,进一步提升了动态展示效果。
在第一方面的一种实现方式中,所述获取待处理的第一图像,包括:
根据所述预设图库中图像的图像质量,从所述预设图库的图像中确定出所述第一图像。
本申请实施例中,根据图像质量从预设图库中筛选出第一图像,可以过滤掉一些质量较差的图像,减少因图像质量原因导致的动态展示效果较差的情况发生,利于保证后续根据第一图像生成的目标视频的展示效果。
在第一方面的一种实现方式中,所述根据所述预设图库中图像的图像质量,从所述预设图库的图像中确定出所述第一图像,包括:
根据图像参数检测所述预设图库中图像的图像质量是否满足第一预设条件,其中,所述图像参数包括以下至少两种:图像来源、图像中包含文字的数量、图像的模糊程度以及图像对应的质量评分;
将所述预设图库中图像质量满足第一预设条件的图像确定为所述第一图像。
图像来源用于表示图像的获取方式,如屏幕截图、从网页中下载或电子设备拍摄等。一些实现方式中,预设图库中的图像记录有图像来源的信息,可以获取用于记录预设图库中图像的图像来源的信息,以确定图像的图像来源。
图像中包含文字的数量可以通过对图像进行图像识别处理得到。一些实现方式中,可以对预设图库中的图像进行光学字符识别(Optical Character Recognition,OCR)处理,识别出图像中的文字,再统计识别出的文字的数量。需要说明的是,本申请实施例中,对OCR处理的方法不做具体限定。
图像的模糊程度是一项重要的图像降质因素,在图像获取、传输和处理过程中,有可能因素可能造成图像模糊。例如,在拍摄图像时,不正确的聚焦将会产生离焦模糊;景物和相机的相对运动可能会造成运动模糊;图像压缩过程中高帧丢失也会造成图像模糊。一些实现方式中,可以计算预设图库中图像的二阶导图,得到图像的边缘信息;然后计算二阶导图的方差;根据计算出的二阶导图的方差确定图像的模糊程度。另一些实现方式中,可以利用拉普拉斯模版计算图像中所有像素的拉普拉斯梯度值之和,根据该拉普拉斯梯度值之后确定图像的模糊程度。需要说明的是,本申请实施例对图像模糊程度的计算方式不做具体限定。另外,可以根据实际应用的需求计算离焦模糊、运动模糊或边缘模糊等。
可以理解的是,图像的模糊程度和图像的清晰度为两个相关的指标,即模糊程度越高,图像的清晰度越低。因此,本申请实施例中,图像参数也可以包括图像的清晰度。
图像对应的质量评分用于评价图像优劣(如图像失真程度等)。在一些实现方式中,可以训练一个图像质量的打分模型;将预设图库中的图像输入训练后的打分模型中,输出图像的质量评分。需要说明的是,打分模型可以是神经网络,也可以是能够实现图像评分功能的算法模型,本申请实施例对打分模型的结构不做具体限定。
本申请实施例中,每个图像参数有其对应的预设条件。示例性的,对于图像来源,若预设图库中图像P的图像来源为电子设备拍摄,则判定图像P满足图像来源对应的预设条件。对于图像中包含文字的数量,若预设图库中图像P包含文字的数量小于第一阈值,则判定图像P满足图像中包含文字的数量这个图像参数所对应的预设条件。对于图像的模糊程度,若图像P的模糊程度小于第二阈值,则判定图像P满足模糊程度这个图像参数对应的预设条件。若图像P的质量评分大于第三阈值,则判定图像P满足质量评分这个图像参数对应的预设条件。
在第一方面的一种实现方式中,第三图像为所述预设图库中的任意一张图像;
根据图像参数检测所述第三图像的图像质量是否满足第一预设条件的步骤包括:
若所述第三图像的图像来源表示所述第三图像为电子设备拍摄的图像,所述第三图像中包含文字的数量小于第一阈值,所述第三图像的模糊程度小于第二阈值,且所述第三图像对应的质量评分大于第三阈值,则判定所述第三图像的图像质量满足第一预设条件。
本申请实施例中,根据多种图像参数评价预设图库中的图像,能够更准确地反映预设图库中图像的质量,减少因某一种图像参数的计算不准确导致的图像质量评价误差的情况,利于保证后续根据第一图像生成的目标视频的展示效果。
在第一方面的一种实现方式中,所述预测所述第一图像对应的第一光流图,包括:
根据预设的光流生成器预测所述第一图像对应的第一光流图。
一些实现方式中,光流生成器可以是一个训练好的GAN网络中的生成器。
一些训练方式中,可以采用成对图像训练GAN网络。其中,成对图像包括样本图像(如RGB图像)及其对应的真实光流图。示例性的,GAN网络可以包括生成器和判别器。其中,生成器用于生成光流图,判别器用于识别生成器生成的光流图的真假。GAN网络的训练目标是,使生成器尽可能生成接近真实的光流图,而判别器尽可能识别出预测的光流图。具体的,将样本图像输入生成器,输出预测光流图;判别器根据预测光流图和样本图像对应的真实光流图计算损失值;若损失值大于预设阈值,则根据损失值调整生成器和判别器的参数,并继续训练;若损失值小于预设阈值,则训练结束,将当前的生成器作为训练后的光流生成器。
另一些训练方式中,可以采用非成对图像训练GAN网络。其中,非成对图像来自于不同的样本数据集,一个样本数据集中包括图像,另一个样本数据集中包括光流图。示例性的,GAN网络可以包括两个生成器和两个判别器。其中,生成器G1用于将样本数据集Nx中的图像x生成光流图y’,生成器G2用于将样本数据集Ny中的光流图y生成图像x’。判别器D1用于识别输入的图像是真实图像(样本数据集Nx中的图像)还是生成的图像,判别器D2用于识别输入的图像是真实光流图(样本数据集Ny中的图像)还是生成的光流图。具体的,将样本数据集Nx中的图像x输入生成器G1,输出预测的光流图y’;将预测的光流图y’和样本数据集Nx中的光流图y输入判别器D1,输出损失值loss1;将样本数据集Ny中的光流图y输入生成器G2,输出预测的图像x’;将预测的图像x’和样本数据集Nx中的图像x输入判别器D2,输出损失值loss2;将预测的光流图y’输入生成器G2,输出预测的图像x’’;根据预测的图像x’’和图像x计算损失值loss3;根据损失值loss1、损失值loss2和损失值loss3计算总损失值;若总损失值大于预设阈值,则根据总损失值调整GAN网络的网络参数(包括生成器G1、生成器G2、判别器D1和判别器D2的参数),并继续训练,直至总损失值小于预设阈值;若总损失值小于预设阈值,则将当前的GAN网络中的生成器G1确定为光流生成器。
本申请实施例中,利用预设的光流生成器预测光流图,不仅能够提高预测精度,还能够提高预测效率。
在第一方面的一种实现方式中,所述根据预设的光流生成器预测所述第一图像对应的第一光流图,包括:
估计所述第一图像对应的深度信息;
将所述深度信息和所述第一图像输入所述光流生成器,输出所述第一光流图。
通过上述方式,相当于通过图像的深度信息辅助预测光流图,能够更好地体现图像中物体的远近关系,使得预测的光流图中运动物体的边缘更清晰,利于提升后续生成的目标视频的展示效果。
在另一些实现方式中,根据预设的光流生成器预测所述第一图像对应的第一光流图可以包括:对第一图像进行语义分割处理,从第一图像中分割出目标对象;将目标对象的局部图像和第一图像输入到光流生成器,输出第一图像对应的第一光流图。其中,目标对象为运动对象。
通过上述方式,相当于将运动对象分割出来,根据运动对象辅助预测光流图,使得预测的光流图中运动物体的边缘更加清晰,利于提升后续生成的目标视频的展示效果。
在第一方面的一种实现方式中,所述根据所述第一光流图生成光流环,包括:
获取所述第一光流图对应的第一光流值;
根据所述第一光流值进行插值处理,得到小于所述第一光流值的至少一个第二光流值;
生成每个所述第二光流值对应的第二光流图;
根据所述第一光流图和所述第二光流图生成所述光流环。
本申请实施例中,光流生成器可以生成第一光流图对应的第一光流值。还可以根据第一光流图中各个像素的位移计算第一光流值。
其中,插值处理的方式可以为:根据第二光流值的数量,对第一光流值进行均等插值。示例性的,若需要插入一个第二光流值,则该第二光流值O2为O1/2,其中,O1为第一光流值。若需要插入2个第二光流值,则两个第二光流值O2分别为O1/3和2O1/3。通过均等插值的方式,相当于令运动对象的位移更加均匀,从而使生成的目标视频中运动对象的运动更为流畅。
当然,也可以根据第二光流值的数量,对第一光流值进行不均等插值。本申请实施例对此不做具体限定。
在另一种实现方式中,可以通过光流生成器生成多张第一光流图;分别根据每张第一光流图的第一光流值进行插值,得到根据每张第一光流图生成的至少一个第二光流图;根据多张第一光流图、以及根据每张第一光流图生成的至少一个第二光流图生成光流环。其中,每张第一光流图对应运动对象的一种可能的运动姿态(运动方向和运动位移)。
通过上述实现方式,光流环中加入了多个第一光流图,相当于增加了运动对象的多种可能的运动姿态;根据多个第一光流图进行插值,得到两个相邻的第一光流图之间的第二光流图,相当于在运动对象的两种运动姿态之间添加了多个位置,另运动对象的位移更加均匀,从而使生成的目标视频中运动对象的运动更为流畅。
在第一方面的一种实现方式中,所述根据所述光流环生成所述第一图像对应的目标视频,包括:
生成所述光流环中的每个光流图对应的第四图像;
根据所述第一图像和所述第四图像组合生成所述目标视频。
本申请实施例中,可以对光流环中的每个光流图进行仿射变换处理(warp),得到每个光流图对应的第四图像。
本申请实施例中,由于光流环能够表示运动对象的循环运动,因此,根据光流环中的每个光流图生成的第四图像与第一图像组合生成的目标视频,能够动态展示第一图像中运动对象的循环运动,从而实现较好的动态展示效果。
本申请实施例中,生成目标视频的方式为:按照光流环中光流图的顺序,依次将光流图对应的第一图像和第四图像排列,得到目标视频。在目标视频中,第一图像为目标视频的第一帧和最后一帧。
在第一方面的一种实现方式中,所述方法还包括:
对所述目标视频进行视频修复处理,得到处理后的所述目标视频。
一些实现方式中,可以将第四图像输入到训练后的修改模型中,输出处理后的第四图像。其中,修复模型可以为神经网络,如GAN网络。示例性的,修复模型可以基于视频擦除的填充方式来实现视频的修复。具体的,在训练过程,可以将样本视频中随机掩盖掉部分图像,将掩盖后的样本视频输入修复模型中,输出修复视频;根据样本视频和修复视频计算损失值;若损失值大于预设阈值,则根据损失值调整修复模型的模型参数,并继续训练,直至损失值小于预设阈值;若损失值小于预设阈值,则将当前的修复模型确定为训练后的修复模型。
另一种实现方式中,可以将第四图像输入到训练后的扩散模型中,输出处理后的第四图像。示例性的,在训练过程中,将样本视频的分辨率扩大,然后利用扩散模型在扩大处理后的视频上进行填充,得到填充视频;根据填充视频和样本视频计算损失值;若损失值大于预设阈值,则根据损失值调整扩散模型的模型参数,并继续训练,直至损失值小于预设阈值;若损失值小于预设阈值,则将当前的扩散模型确定为训练后的扩散模型。
需要说明的是,本申请实施例中,对视频修复的方式不做具体限定。
通过对目标视频的视频修复处理,修复了根据光流图warp后出现的图像“空洞”,使得修复后的视频的画面更加丰富、自然,利于提升目标视频的观赏效果。
在第一方面的一种实现方式中,所述方法还包括:
若所述目标视频的视频质量满足第二预设条件,则展示所述目标视频;
若所述目标视频的视频质量不满足第二预设条件,则展示所述第一图像。
本申请实施例中,根据目标视频的视频质量确定是否以动态的方式展示第一图像。当根据第一图像生成的目标视频的视频质量较低时,则仍以静态的方式展示第一图像,能够有效减少低质量视频对观赏效果的影响,利于提升用户体验。
在第一方面的一种实现方式中,所述方法还包括:
根据视频参数检测所述目标视频是否满足所述第二预设条件,其中,所述视频参数包括以下至少两种:相邻帧的连续性、视频的质量评分以及每个图像帧的质量评分。
相邻帧的连续性的一种计算方式为:计算相邻帧之间的光流的平均值,根据该平均值确定相邻帧的连续性。
视频的质量评分用于评价视频优劣。在一些实现方式中,可以训练一个视频质量的评分模型;将目标视频输入训练后的评分模型中,输出目标视频的质量评分。需要说明的是,评分模型可以是神经网络,也可以是能够实现视频评分功能的算法模型,本申请实施例对评分模型的结构不做具体限定。
本申请实施例中,每个视频参数有其对应的预设条件。示例性的,对于相邻帧的连续性,若相邻帧的连续性小于第四阈值,则判定目标视频满足相邻帧的连续性对应的预设条件。对于视频的质量评分,若目标视频的质量评分大于第五阈值,则判定目标视频满足视频的质量评分这个视频参数所对应的预设条件。对于每个图像帧的质量评分,若目标视频中每个图像帧的质量评分大于第六阈值,则判定目标视频满足每个图像帧的质量评分这个图像参数对应的预设条件。
在第一方面的一种实现方式中,所述根据视频参数检测所述目标视频是否满足所述第二预设条件,包括:
若所述目标视频的相邻帧的连续性小于第四阈值,所述目标视频的质量评分大于第五阈值,且所述目标视频中每个图像帧的质量评分大于第六阈值,则判定所述目标视频满足所述第二预设条件。
本申请实施例中,根据多种视频参数评价目标视频的视频质量,能够更准确地反映出生成的目标视频的质量,减少因某一种视频参数的计算不准确导致的视频质量评价误差的情况,利于保证图像的动态展示效果。
第二方面,提供一种电子设备,所述电子设备包括:一个或多个处理器,以及存储器;
所述存储器与所述一个或多个处理器耦合,所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令,所述一个或多个处理器调用所述计算机指令以使得所述电子设备执行如第一方面中任一项所述的方法。
第三方面,提供一种芯片系统,所述芯片系统应用于电子设备,所述芯片系统包括一个或多个处理器,所述一个或多个处理器用于调用计算机指令以使得所述电子设备执行如第一方面中任一项所述的方法。
第四方面,提供一种计算机可读存储介质,所述计算机可读存储介质包括指令,当所述指令在电子设备上运行时,使得所述电子设备执行如第一方面中任一项所述的方法。
附图说明
图1是本申请实施例提供的一种电子设备的结构示意图;
图2是本申请实施例提供的图像处理方法的流程示意图;
图3是本申请实施例提供的GAN网络训练过程的示意图;
图4是本申请实施例提供的GAN网络训练过程的示意图;
图5是本申请实施例提供的光流图生成过程的示意图;
图6是本申请实施例提供的光流环的示意图;
图7是本申请实施例提供的光流环的示意图;
图8是本申请实施例提供的光流环的示意图;
图9是本申请实施例提供的图像处理流程的示意图;
图10是本申请实施例提供的相册应用的界面示意图;
图11是本申请实施例提供的图像动态展示的场景示意图;
图12是本申请另一实施例提供的图像动态展示的场景示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本申请实施例中,“一个或多个”是指一个、两个或两个以上;“和/或”,描述关联对象的关联关系,表示可以存在三种关系;例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B的情况,其中A、B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”、“第四”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
目前,很多电子设备具有拍照功能,电子设备将拍摄的图片或视频存储到相册应用中,用户可以在相册应用中浏览图片或视频。对于视频,可以动态地展示拍摄物体,利于提升用户的欣赏体验度,但其占用的存储空间较大。而对于一些静态图片,虽然其占用的存储空间相对较小,但其无法展示拍摄物体的动感状态,大大降低了用户的欣赏体验度。
基于此,本申请实施例提供了一种图像处理方法。本申请实施例中,可以将静态图片动态地展示,从而有效提升了用户对静态图片的欣赏体验度。
本申请实施例提供的图像处理方法,可以应用在具有显示功能的电子设备中。电子设备包括终端设备,终端设备也可以称为终端(terminal)、用户设备(user equipment,UE)、移动台(mobile station,MS)、移动终端(mobile terminal,MT)等。终端设备可以是手机(mobile phone)、智能电视、穿戴式设备、平板电脑(Pad)、智慧屏、带无线收发功能的电脑、虚拟现实(virtual reality,VR)终端设备、增强现实(augmented reality,AR)终端设备、工业控制(industrial control)中的无线终端、无人驾驶(self-driving)中的无线终端、远程手术(remote medical surgery)中的无线终端、智能电网(smart grid)中的无线终端、运输安全(transportation safety)中的无线终端、智慧城市(smart city)中的无线终端、智慧家庭(smart home)中的无线终端等等。本申请的实施例对电子设备所采用的具体技术和具体设备形态不做限定。
参见图1,为本申请实施例提供的一种电子设备的结构示意图。电子设备100可以包括处理器110,外部存储器接口120,内部存储器121,通用串行总线(universal serialbus,USB)接口130,充电管理模块140,电源管理模块141,电池142,天线1,天线2,移动通信模块150,无线通信模块160,音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,传感器模块180,按键190,马达191,指示器192,摄像头193,显示屏194,以及用户标识模块(subscriber identification module,SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A,陀螺仪传感器180B,磁传感器180D,加速度传感器180E,距离传感器180F,接近光传感器180G,指纹传感器180H,触摸传感器180K,环境光传感器180L等。
可以理解的是,本申请实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中,电子设备100可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,存储器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。例如,处理器110用于执行本申请实施例中的图像处理方法。
其中,控制器可以是电子设备100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
处理器110中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据,可从存储器中直接调用。避免了重复存取,减少了处理器110的等待时间,因而提高了系统的效率。
外部存储器120一般指外存储器,在本申请实施例中,外部存储器是指除电子设备的内存及处理器的高速缓存以外的储存器,该储存器一般为非易失性存储器。
内部存储器121,也可以称为“内存”,可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。内部存储器121可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统,至少一个功能所需的应用程序(比如声音播放功能,图像播放功能等)等。
显示屏194用于显示图像,视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display,LCD),有机发光二极管(organic light-emittingdiode,OLED),有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的,AMOLED),柔性发光二极管(flex light-emittingdiode,FLED),Miniled,MicroLed,Micro-OLED,量子点发光二极管(quantum dot lightemitting diodes,QLED)等。在一些实施例中,电子设备100可以包括1个或N个显示屏194,N为大于1的正整数。在一些实施例中,电子设备100通过显示屏194显示用户界面。
电子设备100通过GPU,显示屏194,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏194和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器110可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
电子设备100可以通过ISP,摄像头193,视频编解码器,GPU,显示屏194以及应用处理器等实现拍摄功能。
摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device,CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,CMOS)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB,YUV等格式的图像信号。在一些实施例中,电子设备100可以包括1个或N个摄像头193,N为大于1的正整数。示例性的,摄像头193用于捕获用户注视显示屏194的图像。
电子设备100还包括各类传感器,可以将各种不同的物理信号转换为电信号。示例性的,压力传感器180A用于感受压力信号,可以将压力信号转换成电信号。陀螺仪传感器180B可以用于确定电子设备100的运动姿态。气压传感器180C用于测量气压。磁传感器180D包括霍尔传感器。加速度传感器180E可检测电子设备100在各个方向上(一般为三轴)加速度的大小。距离传感器180F,用于测量距离。电子设备100可以通过红外或激光测量距离。接近光传感器180G可以包括例如发光二极管(LED)和光检测器,例如光电二极管。环境光传感器180L用于感知环境光亮度。电子设备100可以根据感知的环境光亮度自适应调节显示屏194亮度。指纹传感器180H用于采集指纹。电子设备100可以利用采集的指纹特性实现指纹解锁,访问应用锁,指纹拍照,指纹接听来电等。温度传感器180J用于检测温度。在一些实施例中,电子设备100利用温度传感器180J检测的温度,执行温度处理策略。骨传导传感器180M可以获取振动信号。
触摸传感器180K,也称“触控面板”。触摸传感器180K可以设置于显示屏194,由触摸传感器180K与显示屏194组成触摸屏,也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器,以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中,触摸传感器180K也可以设置于电子设备100的表面,与显示屏194所处的位置不同。
示例性的,在本申请实施例中,触摸传感器180K可以检测用户对应用程序的图标的点击操作,并将检测到的点击操作传递给应用处理器,确定该点击操作用于启动或运行该应用程序,进而执行该应用程序的运行操作。
电子设备100的无线通信功能可以通过天线1,天线2,移动通信模块150,无线通信模块160,调制解调处理器以及基带处理器等实现。
电子设备100可以通过音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,以及应用处理器等实现音频功能。例如音乐播放,录音等。
以上是以电子设备100为例对本申请实施例作出的具体说明。应该理解的是,本申请实施例示意的结构并不构成对电子设备100的具体限定。电子设备100可以具有比图中所示的更多的或者更少的部件,可以组合两个或多个的部件,或者可以具有不同的部件配置。图中所示出的各种部件可以在包括一个或多个信号处理和/或专用集成电路在内的硬件、软件、或硬件和软件的组合中实现。
下面介绍本申请实施例提供的图像处理方法。
参见图2,是本申请实施例提供的图像处理方法的流程示意图。作为示例而非限定,如图2所示,图像处理方法可以包括以下步骤:
S201,获取待处理的第一图像。
本申请实施例中,第一图像为静态图像。
一些应用场景中,电子设备可以为手机,相应的,可以从手机的相册应用(或称图库应用)中获取静态图像,作为待处理的第一图像。
在一些实施例中,步骤S201可以包括:从预设图库中筛选出第一图像。具体的,可以判断预设图库中的素材的图像格式;根据图像格式筛选出第一图像。示例性的,若预设图库中素材A的图像格式为bmp、png或jpg等,则表示素材A为静态图像;若素材A的图像格式为mp4、avi或3gp等,则表示素材A为视频。
本申请实施例中,预设图库用于存储和/或展示图像。例如,对于手机,预设图库可以是手机中的相册应用(或图库应用)。再例如,预设图库可以是用于存储图像的第三方数据库。手机通过与预设图库通信,从预设图库获取图像,并通过手机的显示屏显示获取的图像。
在一些实施例中,步骤S201可以包括:根据所述预设图库中图像的图像质量,从所述预设图库的图像中确定出所述第一图像。
本申请实施例中,根据图像质量从预设图库中筛选出第一图像,可以过滤掉一些质量较差的图像,减少因图像质量原因导致的动态展示效果较差的情况发生,利于保证后续根据第一图像生成的目标视频的展示效果。
在一些实施例中,根据图像质量筛选第一图像的步骤可以包括:
根据图像参数检测所述预设图库中图像的图像质量是否满足第一预设条件;将所述预设图库中图像质量满足第一预设条件的图像确定为所述第一图像。
本申请实施例中,所述图像参数包括以下至少一种:图像来源、图像中包含文字的数量、图像的模糊程度以及图像对应的质量评分。
图像来源用于表示图像的获取方式,如屏幕截图、从网页中下载或电子设备拍摄等。一些实现方式中,预设图库中的图像记录有图像来源的信息,可以获取用于记录预设图库中图像的图像来源的信息,以确定图像的图像来源。
图像中包含文字的数量可以通过对图像进行图像识别处理得到。一些实现方式中,可以对预设图库中的图像进行光学字符识别(Optical Character Recognition,OCR)处理,识别出图像中的文字,再统计识别出的文字的数量。需要说明的是,本申请实施例中,对OCR处理的方法不做具体限定。
图像的模糊程度是一项重要的图像降质因素,在图像获取、传输和处理过程中,有可能因素可能造成图像模糊。例如,在拍摄图像时,不正确的聚焦将会产生离焦模糊;景物和相机的相对运动可能会造成运动模糊;图像压缩过程中高帧丢失也会造成图像模糊。一些实现方式中,可以计算预设图库中图像的二阶导图,得到图像的边缘信息;然后计算二阶导图的方差;根据计算出的二阶导图的方差确定图像的模糊程度。另一些实现方式中,可以利用拉普拉斯模版计算图像中所有像素的拉普拉斯梯度值之和,根据该拉普拉斯梯度值之后确定图像的模糊程度。需要说明的是,本申请实施例对图像模糊程度的计算方式不做具体限定。另外,可以根据实际应用的需求计算离焦模糊、运动模糊或边缘模糊等。
可以理解的是,图像的模糊程度和图像的清晰度为两个相关的指标,即模糊程度越高,图像的清晰度越低。因此,本申请实施例中,图像参数也可以包括图像的清晰度。
图像对应的质量评分用于评价图像优劣(如图像失真程度等)。在一些实现方式中,可以训练一个图像质量的打分模型;将预设图库中的图像输入训练后的打分模型中,输出图像的质量评分。需要说明的是,打分模型可以是神经网络,也可以是能够实现图像评分功能的算法模型,本申请实施例对打分模型的结构不做具体限定。
本申请实施例中,每个图像参数有其对应的预设条件。示例性的,对于图像来源,若预设图库中图像P的图像来源为电子设备拍摄,则判定图像P满足图像来源对应的预设条件。对于图像中包含文字的数量,若预设图库中图像P包含文字的数量小于第一阈值,则判定图像P满足图像中包含文字的数量这个图像参数所对应的预设条件。对于图像的模糊程度,若图像P的模糊程度小于第二阈值,则判定图像P满足模糊程度这个图像参数对应的预设条件。若图像P的质量评分大于第三阈值,则判定图像P满足质量评分这个图像参数对应的预设条件。
作为一种实现方式,若仅采用一种图像参数,则根据图像参数检测预设图库中图像的图像质量是否满足第一预设条件可以包括:判断第三图像是否满足所采用的图像参数对应的预设条件;若第三图像满足所采用的图像参数对应的预设条件,则判定第三图像满足第一预设条件。其中,第三图像是预设图库中的任意一张图像。
作为另一种实现方式,若采用多种图像参数,则根据图像参数检测预设图库中图像的图像质量是否满足第一预设条件可以包括:分别判断第三图像是否满足每种图像参数对应的预设条件;若第三图像满足每种图像参数对应的预设条件,则判定第三图像满足第一预设条件。示例性的,若采用的图像参数包括图像来源、图像中包含文字的数量、图像的模糊程度以及图像对应的质量评分,相应的,根据图像参数检测预设图库中图像的图像质量是否满足第一预设条件可以包括:若第三图像的图像来源表示第三图像为电子设备拍摄的图像,第三图像中包含文字的数量小于第一阈值,第三图像的模糊程度小于第二阈值,且第三图像对应的质量评分大于第三阈值,则判定第三图像的图像质量满足第一预设条件。
本申请实施例中,根据多种图像参数评价预设图库中的图像,能够更准确地反映预设图库中图像的质量,减少因某一种图像参数的计算不准确导致的图像质量评价误差的情况,利于保证后续根据第一图像生成的目标视频的展示效果。
S202,预测所述第一图像对应的第一光流图。
本申请实施例中,光流图用于表示前后两帧图像之间对应像素的位移。
在一些实施例中,步骤S202可以包括:根据预设的光流生成器预测所述第一图像对应的第一光流图。
本申请实施例中,光流生成器可以是神经网络。一些实现方式中,光流生成器可以是一个训练好的GAN网络中的生成器。
一些训练方式中,可以采用成对图像训练GAN网络。其中,成对图像包括样本图像(如RGB图像)及其对应的真实光流图。
示例性的,参见图3,是本申请实施例提供的GAN网络训练过程的示意图。作为示例而非限定,如图3所示,GAN网络可以包括生成器和判别器。其中,生成器用于生成光流图,判别器用于识别生成器生成的光流图的真假。GAN网络的训练目标是,使生成器尽可能生成接近真实的光流图,而判别器尽可能识别出预测的光流图。
具体的,将样本图像输入生成器,输出预测光流图;判别器根据预测光流图和样本图像对应的真实光流图计算损失值;若损失值大于预设阈值,则根据损失值调整生成器和判别器的参数,并继续训练;若损失值小于预设阈值,则训练结束,将当前的生成器作为训练后的光流生成器。
另一些训练方式中,可以采用非成对图像训练GAN网络。其中,非成对图像来自于不同的样本数据集,一个样本数据集中包括图像,另一个样本数据集中包括光流图。
示例性的,参见图4,是本申请实施例提供的GAN网络训练过程的示意图。作为示例而非限定,如图4所示,GAN网络可以包括两个生成器和两个判别器。其中,生成器G1用于将样本数据集Nx中的图像x生成光流图y’,生成器G2用于将样本数据集Ny中的光流图y生成图像x’。判别器D1用于识别输入的图像是真实图像(样本数据集Nx中的图像)还是生成的图像,判别器D2用于识别输入的图像是真实光流图(样本数据集Ny中的图像)还是生成的光流图。
具体的,将样本数据集Nx中的图像x输入生成器G1,输出预测的光流图y’;将预测的光流图y’和样本数据集Nx中的光流图y输入判别器D1,输出损失值loss1;将样本数据集Ny中的光流图y输入生成器G2,输出预测的图像x’;将预测的图像x’和样本数据集Nx中的图像x输入判别器D2,输出损失值loss2;将预测的光流图y’输入生成器G2,输出预测的图像x’’;根据预测的图像x’’和图像x计算损失值loss3;根据损失值loss1、损失值loss2和损失值loss3计算总损失值;若总损失值大于预设阈值,则根据总损失值调整GAN网络的网络参数(包括生成器G1、生成器G2、判别器D1和判别器D2的参数),并继续训练,直至总损失值小于预设阈值;若总损失值小于预设阈值,则将当前的GAN网络中的生成器G1确定为光流生成器。
当然,也可以将预测的图像x’输入生成器G1,输出预测的光流图y’’;根据预测的光流图y’’和光流图y计算损失值loss3。
需要说明的是,光流生成器还可以是能够根据图像生成光流图的算法模型,本申请实施例对光流生成器不做具体限定。
在一些实现方式中,根据预设的光流生成器预测所述第一图像对应的第一光流图的步骤可以包括:将第一图像输入光流生成器,输出第一图像对应的第一光流图。
在另一些实现方式中,根据预设的光流生成器预测所述第一图像对应的第一光流图可以包括:估计第一图像对应的深度信息;将所述深度信息和第一图像输入光流生成器,输出第一图像对应的第一光流图。
示例性的,参见图5,是本申请实施例提供的光流图生成过程的示意图。作为示例而非限定,如图5所示,深度估计器的输出端连接光流生成器的输入端。将第一图像输入深度估计器,输出第一图像对应的深度信息;将第一图像对应的深度信息和第一图像输入光流生成器,输出第一图像对应的第一光流图。
其中,深度估计器可以是一个训练好的神经网络。在训练过程中,获取样本图像及其对应的实际深度信息;将样本图像输入深度估计器,得到估计深度信息(图像中的像素与相机之间的距离);根据样本图像对应的实际深度信息和估计深度信息计算损失值;若计算出的损失值大于预设阈值,则根据计算出的损失值调整深度估计器的参数,并继续训练,直至损失值小于或等于预设阈值;若计算出的损失值小于或等于预设阈值,则将当前的深度估计器确定为训练后的深度估计器。
需要说明的是,深度估计器还可以是一个能够实现估计图像的深度值的算法模型。本申请实施例对深度估计器不做具体限定。
通过上述方式,相当于通过图像的深度信息辅助预测光流图,能够更好地体现图像中物体的远近关系,使得预测的光流图中运动物体的边缘更清晰,利于提升后续生成的目标视频的展示效果。
在另一些实现方式中,根据预设的光流生成器预测所述第一图像对应的第一光流图可以包括:对第一图像进行语义分割处理,从第一图像中分割出目标对象;将目标对象的局部图像和第一图像输入到光流生成器,输出第一图像对应的第一光流图。其中,目标对象为运动对象。
通过上述方式,相当于将运动对象分割出来,根据运动对象辅助预测光流图,使得预测的光流图中运动物体的边缘更加清晰,利于提升后续生成的目标视频的展示效果。
一些应用场景中,无法较为准确地识别出图像的深度信息,或者无法准确地从图像中分割出运动物体。为了提高光流图的预测效果,可以理解的是,在一些实现方式中,可以综合考虑图像的深度信息和分割出的运动对象。具体的,将第一图像输入深度估计器,输出第一图像的深度信息;对第一图像进行语义分割处理,从第一图像中分割出目标对象;将第一图像的深度信息、目标对象的局部图像和第一图像输入到光流生成器中,输出第一图像对应的第一光流图。
需要说明的是,除第一图像的深度信息和第一图像中运动对象的局部图像外,还可以添加其他信息,辅助光流生成器预测光流图,本申请实施例对此不做具体限定。
S203,根据所述第一光流图生成光流环。
本申请实施例中,所述光流环包括一组首尾相连的光流图。换言之,光流环可以表示运动对象在循环动作过程中相邻两帧图像之间像素的位移。
一种实现方式中,步骤S203可以包括:根据光流值为0时的光流图和第一光流图生成光流环。其中,在运动对象开始运动的起始帧,对应的光流值为0。
示例性的,参见图6,是本申请实施例提供的光流环的示意图。如图6所示为第一图像60对应的光流环。光流环中的第一帧61为光流值为0时的光流图,光流环中的第二帧62为第一光流图,光流环中的第三帧64为光流值为0时的光流图。图6所示的光流环,相当于图像中的运动对象从起始位置运动到第一光流图对应的位置,再从第一光流图对应的位置运动回起始位置。可见,图6所示的光流环表征了运动对象的循环动作过程。
另一种实现方式中,步骤S203可以包括:获取第一光流图对应的第一光流值;根据所述第一光流值进行插值处理,得到小于第一光流值的至少一个第二光流值;生成每个第二光流值对应的第二光流图;根据第一光流图和第二光流图生成光流环。
本申请实施例中,光流生成器可以生成第一光流图对应的第一光流值。还可以根据第一光流图中各个像素的位移计算第一光流值。
其中,插值处理的方式可以为:根据第二光流值的数量,对第一光流值进行均等插值。示例性的,若需要插入一个第二光流值,则该第二光流值O2为O1/2,其中,O1为第一光流值。若需要插入2个第二光流值,则两个第二光流值O2分别为O1/3和2O1/3。通过均等插值的方式,相当于令运动对象的位移更加均匀,从而使生成的目标视频中运动对象的运动更为流畅。
当然,也可以根据第二光流值的数量,对第一光流值进行不均等插值。本申请实施例对此不做具体限定。
示例性的,参见图7,是本申请实施例提供的光流环的示意图。如图7所示,光流环中的第一帧71为光流值为0时的光流图,光流环中的第二帧72为第二光流图,光流环中的第三帧73为第一光流图,光流环中的第四帧74为第二光流图,光流环中的第五帧75为光流值为0时的光流图。图7所示的光流环,相当于图像中的运动对象从起始位置运动到第二光流图对应的位置,再由第二光流图对应的位置运动到第一光流图对应的位置,再从第一光流图对应的位置运动回第二光流图对应的位置,最后从第二光流图对应的位置运动回起始位置。可见,图7所示的光流环表征了运动对象的循环动作过程。
与图6相比,图7所示的光流环中加入了第二光流图,相当于在起始位置和第一光流图对应的位置之间添加了多个位置,令运动对象的位移更加均匀,从而使生成的目标视频中运动对象的运动更为流畅。
在另一种实现方式中,可以通过光流生成器生成多张第一光流图;分别根据每张第一光流图的第一光流值进行插值,得到根据每张第一光流图生成的至少一个第二光流图;根据多张第一光流图、以及根据每张第一光流图生成的至少一个第二光流图生成光流环。其中,每张第一光流图对应运动对象的一种可能的运动姿态(运动方向和运动位移)。
示例性的,参见图8,是本申请实施例提供的光流环的示意图。如图8所示,光流环中的第一帧81为光流值为0时的光流图,光流环中第三帧83和第五帧85为通过光流生成器生成的两张不同的第一光流图,光流环中的第二帧82和第八帧88为根据第三帧83的第一光流图进行插值处理得到的第二光流图,光流环中的第四帧84和第六帧86为根据第五帧85的第一光流图和第三帧83的第一光流图进行插值处理得到的第二光流图。例如,第四帧84的第二光流图的第二光流值为第五帧85的第一光流图对应的第一光流值与第三帧83的第一光流图对应的第一光流值的平均值。图8所示的光流环,相当于图像中的运动对象在起始位置、第五帧85的第一光流图对应的位置之间往复运动。
与图7相比,图8所示的光流环中加入了多个第一光流图,相当于增加了运动对象的多种可能的运动姿态;根据多个第一光流图进行插值,得到两个相邻的第一光流图之间的第二光流图,相当于在运动对象的两种运动姿态之间添加了多个位置,另运动对象的位移更加均匀,从而使生成的目标视频中运动对象的运动更为流畅。
S204,根据所述光流环生成所述第一图像对应的目标视频。
在一些实施例中,步骤S204可以包括:生成所述光流环中的每个光流图对应的第四图像;根据所述第一图像和所述第四图像组合生成所述目标视频。
本申请实施例中,可以对光流环中的每个光流图进行仿射变换处理(warp),得到每个光流图对应的第四图像。
示例性的,以图6所示的光流环为例,对第一光流图62进行warping的方式为:计算第一光流图62与光流环中第一帧61的光流图之间对应像素的位移;根据计算出的像素的位移更新第一图像中对应像素的坐标,得到第一光流图62对应的第四图像。例如,计算得到第一图像中第一行第一列的像素的位移为右移1个像素坐标,则将第一图像中第一行第一列的像素点右移1个像素坐标,即第四图像中第一行第二列的像素点为第一图像中第一行第一列的像素点。
本申请实施例中,生成目标视频的方式为:按照光流环中光流图的顺序,依次将光流图对应的第一图像和第四图像排列,得到目标视频。在目标视频中,第一图像为目标视频的第一帧和最后一帧。
从上述warp的方式可以看出,warp处理后得到的第四图像中可能存在“空洞”。如上述示例中,由于第一图像中第一行第一列的像素点右移1个像素坐标,第四图像中的第一行第一列的像素位置为空,产生“空洞”。这使得生成的第四图像的视觉效果较差。
为了解决上述问题,在一些实施例中,对所述目标视频进行视频修复处理,得到处理后的所述目标视频。
一些实现方式中,可以将第四图像输入到训练后的修改模型中,输出处理后的第四图像。其中,修复模型可以为神经网络,如GAN网络。示例性的,修复模型可以基于视频擦除的填充方式来实现视频的修复。具体的,在训练过程,可以将样本视频中随机掩盖掉部分图像,将掩盖后的样本视频输入修复模型中,输出修复视频;根据样本视频和修复视频计算损失值;若损失值大于预设阈值,则根据损失值调整修复模型的模型参数,并继续训练,直至损失值小于预设阈值;若损失值小于预设阈值,则将当前的修复模型确定为训练后的修复模型。
另一种实现方式中,可以将第四图像输入到训练后的扩散模型中,输出处理后的第四图像。示例性的,在训练过程中,将样本视频的分辨率扩大,然后利用扩散模型在扩大处理后的视频上进行填充,得到填充视频;根据填充视频和样本视频计算损失值;若损失值大于预设阈值,则根据损失值调整扩散模型的模型参数,并继续训练,直至损失值小于预设阈值;若损失值小于预设阈值,则将当前的扩散模型确定为训练后的扩散模型。
需要说明的是,本申请实施例中,对视频修复的方式不做具体限定。
通过对目标视频的视频修复处理,修复了根据光流图warp后出现的图像“空洞”,使得修复后的视频的画面更加丰富、自然,利于提升目标视频的观赏效果。
在一些实施例中,所述方法还包括:
若所述目标视频的视频质量满足第二预设条件,则展示所述目标视频;
若所述目标视频的视频质量不满足第二预设条件,则展示所述第一图像。
一些实现方式中,若目标视频的视频质量满足第二预设条件,电子设备存储目标视频,并在需要展示第一图像时,播放第一图像对应的目标视频,以实现对第一图像的动态展示。若目标视频的视频质量不满足第二预设条件,则删除已生成的目标视频,并仍以静态的方式展示第一图像。
本申请实施例中,根据目标视频的视频质量确定是否以动态的方式展示第一图像。当根据第一图像生成的目标视频的视频质量较低时,则仍以静态的方式展示第一图像,能够有效减少低质量视频对观赏效果的影响,利于提升用户体验。
一些实现方式中,根据视频参数检测所述目标视频是否满足所述第二预设条件。其中,所述视频参数包括以下至少一种:相邻帧的连续性、视频的质量评分以及每个图像帧的质量评分。
相邻帧的连续性的一种计算方式为:计算相邻帧之间的光流的平均值,根据该平均值确定相邻帧的连续性。
视频的质量评分用于评价视频优劣。在一些实现方式中,可以训练一个视频质量的评分模型;将目标视频输入训练后的评分模型中,输出目标视频的质量评分。需要说明的是,评分模型可以是神经网络,也可以是能够实现视频评分功能的算法模型,本申请实施例对评分模型的结构不做具体限定。
每个图像帧的质量评分用于评价图像帧的图像优劣,可以采用前述实施例获取第一图像的过程中图像对应的质量评分的方式。
本申请实施例中,每个视频参数有其对应的预设条件。示例性的,对于相邻帧的连续性,若相邻帧的连续性小于第四阈值,则判定目标视频满足相邻帧的连续性对应的预设条件。对于视频的质量评分,若目标视频的质量评分大于第五阈值,则判定目标视频满足视频的质量评分这个视频参数所对应的预设条件。对于每个图像帧的质量评分,若目标视频中每个图像帧的质量评分大于第六阈值,则判定目标视频满足每个图像帧的质量评分这个图像参数对应的预设条件。
作为一种实现方式,若仅采用一种视频参数,则根据视频参数检测目标视频的视频质量是否满足第二预设条件可以包括:判断目标视频是否满足所采用的视频参数对应的预设条件;若目标视频满足所采用的视频参数对应的预设条件,则判定目标视频的视频质量满足第二预设条件。
作为另一种实现方式,若采用多种视频参数,则根据视频参数检测目标视频的视频质量是否满足第二预设条件可以包括:分别判断目标视频是否满足每种视频参数对应的预设条件;若目标视频满足每种视频参数对应的预设条件,则判定目标视频的视频质量满足第二预设条件。示例性的,若采用的视频参数包括相邻帧的连续性、视频的质量评分以及每个图像帧的质量评分。相应的,若所述目标视频的相邻帧的连续性小于第四阈值,所述目标视频的质量评分大于第五阈值,且所述目标视频中每个图像帧的质量评分大于第六阈值,则判定所述目标视频满足所述第二预设条件。
本申请实施例中,根据多种视频参数评价目标视频的视频质量,能够更准确地反映出生成的目标视频的质量,减少因某一种视频参数的计算不准确导致的视频质量评价误差的情况,利于保证图像的动态展示效果。
示例性的,参见图9,是本申请实施例提供的图像处理流程的示意图。作为示例而非限定,如图9所示,图像处理流程可以包括以下步骤:
S901,从预设图库的图像中确定出第一图像。
步骤S901与步骤S201相同,具体可参见步骤S201实施例中的描述。
S902,生成第一图像对应的目标视频。
S903,对目标视频进行修复处理。
S904,检测目标视频的视频质量是否满足第二预设条件。
S905,若视频质量满足第二预设条件,则展示目标视频。
S906,若视频质量不满足第二预设条件,则展示第一图像。
步骤S902-S906的实现方式可参见步骤S202-S204实施例中的描述,在此不再赘述。
本申请实施例中,根据图像预测光流图,根据光流图生成用于表示运动对象循环动作的光流环,通过上述方式,可以将静态图片动态地展示,从而有效提升了用户对静态图片的欣赏体验度;另外,由于光流环表示运动对象的循环动作,使得动态展示的过程较为流畅,进一步提升了动态展示效果。本申请实施例中,通过对预设图库中的图像进行筛选,能够过滤掉质量较低的图像,利于提升后续生成的目标视频的展示效果。在生成目标视频后,对目标视频进行视频修复,修复了根据光流图warp后出现的图像“空洞”,使得修复后的视频的画面更加丰富、自然,利于提升目标视频的观赏效果。另外,在生成目标视频后,评价目标视频的视频质量,当目标视频的视频质量较低时,则仍以静态的方式展示第一图像,能够有效减少低质量视频对观赏效果的影响,利于提升用户体验。
一些应用场景中,可以通过特殊形式展示目标视频。以手机中的相册应用为例,参见图10,是本申请实施例提供的相册应用的界面示意图。如图10中的(a)所示的相册应用的浏览界面中,图像1001的展示面积大于其他不能被动态展示的图像的展示面积,其中,图像1001为第一图像,即能够被动态展示的图像。如图10中的(b)所示的相册应用的浏览界面中,图像1002具有边框,而其他不能被动态展示的图像不具有边框,其中,图像1002为第一图像。
需要说明的是,实际应用中,还可以以其他形式展示第一图像,以供用户区分相册中能够被动态展示的图像以及不能被动态展示的图像。
作为动态展示的一个示例,参见图11,是本申请实施例提供的图像动态展示的场景示意图。如图11中的(a)所示的相册应用的浏览界面中,显示有图像1101,图像1101为能够被动态展示的图像(第一图像)。当用户操作图像1101(如点击或长按),响应于该用户操作,手机显示如图11中的(b)-(d)所示的界面。如图11中的(b)、(c)和(d)所示,手机播放图像1101对应的目标视频1102(即动态展示图像1101)。
作为动态展示的另一个示例,参见图12,是本申请另一实施例提供的图像动态展示的场景示意图。如图12中的(a)所示的相册应用的浏览界面中,图像1201为能够被动态展示的图像。当用户滑动浏览界面,响应于该用户操作,手机监测图像1201的位置;若图像1201移动到预设位置(如屏幕中间区域),如图12中的(b)-(d)所示,则播放图像1201对应的目标视频1202。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
本申请实施例还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时可实现上述各个方法实施例中的步骤。
本申请实施例还提供了一种计算机程序产品,当计算机程序产品在电子设备上运行时,使得电子设备可实现上述各个方法实施例中的步骤。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质至少可以包括:能够将计算机程序代码携带到第一设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质。例如U 盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
本申请实施例还提供了一种芯片系统,芯片系统包括处理器,处理器与存储器耦合,处理器执行存储器中存储的计算机程序,以实现本申请任一方法实施例的步骤。芯片系统可以为单个芯片,或者多个芯片组成的芯片模组。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。最后应说明的是:以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何在本申请揭露的技术范围内的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (15)

1.一种图像处理方法,其特征在于,包括:
获取待处理的第一图像;
预测所述第一图像对应的第一光流图,其中,光流图用于表示前后两帧图像之间对应像素的位移;
根据所述第一光流图生成光流环,其中,所述光流环包括一组首尾相连的光流图;
根据所述光流环生成所述第一图像对应的目标视频。
2.根据权利要求1所述的方法,其特征在于,所述获取待处理的第一图像,包括:
根据预设图库中图像的图像质量,从所述预设图库的图像中确定出所述第一图像。
3.根据权利要求2所述的方法,其特征在于,所述根据预设图库中图像的图像质量,从所述预设图库的图像中确定出所述第一图像,包括:
根据图像参数检测所述预设图库中图像的图像质量是否满足第一预设条件,其中,所述图像参数包括以下至少两种:图像来源、图像中包含文字的数量、图像的模糊程度以及图像对应的质量评分;
将所述预设图库中图像质量满足第一预设条件的图像确定为所述第一图像。
4.根据权利要求3所述的方法,其特征在于,第三图像为所述预设图库中的任意一张图像;
根据图像参数检测所述第三图像的图像质量是否满足第一预设条件的步骤包括:
若所述第三图像的图像来源表示所述第三图像为电子设备拍摄的图像,所述第三图像中包含文字的数量小于第一阈值,所述第三图像的模糊程度小于第二阈值,且所述第三图像对应的质量评分大于第三阈值,则判定所述第三图像的图像质量满足第一预设条件。
5.根据权利要求1所述的方法,其特征在于,所述预测所述第一图像对应的第一光流图,包括:
根据预设的光流生成器预测所述第一图像对应的第一光流图。
6.根据权利要求5所述的方法,其特征在于,所述根据预设的光流生成器预测所述第一图像对应的第一光流图,包括:
估计所述第一图像对应的深度信息;
将所述深度信息和所述第一图像输入所述光流生成器,输出所述第一光流图。
7.根据权利要求1所述的方法,其特征在于,所述根据所述第一光流图生成光流环,包括:
获取所述第一光流图对应的第一光流值;
根据所述第一光流值进行插值处理,得到小于所述第一光流值的至少一个第二光流值;
生成每个所述第二光流值对应的第二光流图;
根据所述第一光流图和所述第二光流图生成所述光流环。
8.根据权利要求1所述的方法,其特征在于,所述根据所述光流环生成所述第一图像对应的目标视频,包括:
生成所述光流环中的每个光流图对应的第四图像;
根据所述第一图像和所述第四图像组合生成所述目标视频。
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对所述目标视频进行视频修复处理,得到处理后的所述目标视频。
10.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若所述目标视频的视频质量满足第二预设条件,则展示所述目标视频;
若所述目标视频的视频质量不满足第二预设条件,则展示所述第一图像。
11.根据权利要求10所述的方法,其特征在于,所述方法还包括:
根据视频参数检测所述目标视频是否满足所述第二预设条件,其中,所述视频参数包括以下至少两种:相邻帧的连续性、视频的质量评分以及每个图像帧的质量评分。
12.根据权利要求11所述的方法,其特征在于,所述根据视频参数检测所述目标视频是否满足所述第二预设条件,包括:
若所述目标视频的相邻帧的连续性小于第四阈值,所述目标视频的质量评分大于第五阈值,且所述目标视频中每个图像帧的质量评分大于第六阈值,则判定所述目标视频满足所述第二预设条件。
13.一种电子设备,其特征在于,所述电子设备包括:一个或多个处理器,以及存储器;
所述存储器与所述一个或多个处理器耦合,所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令,所述一个或多个处理器调用所述计算机指令以使得所述电子设备执行如权利要求1至12中任一项所述的方法。
14.一种芯片系统,其特征在于,所述芯片系统应用于电子设备,所述芯片系统包括一个或多个处理器,所述一个或多个处理器用于调用计算机指令以使得所述电子设备执行如权利要求1至12中任一项所述的方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括指令,当所述指令在电子设备上运行时,使得所述电子设备执行如权利要求1至12中任一项所述的方法。
CN202410177507.8A 2024-02-08 2024-02-08 图像处理方法、电子设备及计算机可读存储介质 Active CN117853377B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410177507.8A CN117853377B (zh) 2024-02-08 2024-02-08 图像处理方法、电子设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410177507.8A CN117853377B (zh) 2024-02-08 2024-02-08 图像处理方法、电子设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN117853377A true CN117853377A (zh) 2024-04-09
CN117853377B CN117853377B (zh) 2024-09-20

Family

ID=90536365

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410177507.8A Active CN117853377B (zh) 2024-02-08 2024-02-08 图像处理方法、电子设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN117853377B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110158507A1 (en) * 2009-12-28 2011-06-30 Tsinghua University Method for vision field computing
CN108881952A (zh) * 2018-07-02 2018-11-23 上海商汤智能科技有限公司 视频生成方法及装置、电子设备和存储介质
CN111970562A (zh) * 2020-08-17 2020-11-20 Oppo广东移动通信有限公司 视频处理方法、视频处理装置、存储介质与电子设备
CN112686908A (zh) * 2020-12-25 2021-04-20 北京达佳互联信息技术有限公司 图像处理方法、信息展示方法、电子设备及存储介质
CN113115097A (zh) * 2021-03-30 2021-07-13 北京达佳互联信息技术有限公司 视频播放方法、装置、电子设备和存储介质
US20230245328A1 (en) * 2022-02-02 2023-08-03 Samsung Electronics Co., Ltd. Multi-frame optical flow network with lossless pyramid micro-architecture
CN117041664A (zh) * 2023-08-07 2023-11-10 Oppo广东移动通信有限公司 数字人视频生成方法、装置、电子设备及存储介质
CN117336526A (zh) * 2023-09-28 2024-01-02 Oppo广东移动通信有限公司 视频生成方法、装置、存储介质及电子设备
US20240005587A1 (en) * 2022-07-01 2024-01-04 Adobe Inc. Machine learning based controllable animation of still images

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110158507A1 (en) * 2009-12-28 2011-06-30 Tsinghua University Method for vision field computing
CN108881952A (zh) * 2018-07-02 2018-11-23 上海商汤智能科技有限公司 视频生成方法及装置、电子设备和存储介质
CN111970562A (zh) * 2020-08-17 2020-11-20 Oppo广东移动通信有限公司 视频处理方法、视频处理装置、存储介质与电子设备
CN112686908A (zh) * 2020-12-25 2021-04-20 北京达佳互联信息技术有限公司 图像处理方法、信息展示方法、电子设备及存储介质
CN113115097A (zh) * 2021-03-30 2021-07-13 北京达佳互联信息技术有限公司 视频播放方法、装置、电子设备和存储介质
US20230245328A1 (en) * 2022-02-02 2023-08-03 Samsung Electronics Co., Ltd. Multi-frame optical flow network with lossless pyramid micro-architecture
US20240005587A1 (en) * 2022-07-01 2024-01-04 Adobe Inc. Machine learning based controllable animation of still images
CN117041664A (zh) * 2023-08-07 2023-11-10 Oppo广东移动通信有限公司 数字人视频生成方法、装置、电子设备及存储介质
CN117336526A (zh) * 2023-09-28 2024-01-02 Oppo广东移动通信有限公司 视频生成方法、装置、存储介质及电子设备

Also Published As

Publication number Publication date
CN117853377B (zh) 2024-09-20

Similar Documents

Publication Publication Date Title
CN113810587B (zh) 一种图像处理方法及装置
CN111225150B (zh) 插帧处理方法及相关产品
CN114419073B (zh) 一种运动模糊生成方法、装置和终端设备
CN113706414B (zh) 视频优化模型的训练方法和电子设备
CN115061770B (zh) 显示动态壁纸的方法和电子设备
CN116048244B (zh) 一种注视点估计方法及相关设备
CN112258404A (zh) 图像处理方法、装置、电子设备和存储介质
CN114511041A (zh) 模型训练方法、图像处理方法、装置、设备和存储介质
CN116916151B (zh) 拍摄方法、电子设备和存储介质
CN115150542B (zh) 一种视频防抖方法及相关设备
US9323981B2 (en) Face component extraction apparatus, face component extraction method and recording medium in which program for face component extraction method is stored
CN117853377B (zh) 图像处理方法、电子设备及计算机可读存储介质
CN117132515A (zh) 一种图像处理方法及电子设备
WO2023001110A1 (zh) 神经网络训练方法、装置及电子设备
CN114399622A (zh) 图像处理方法和相关装置
CN117095319A (zh) 一种目标定位方法、系统和电子设备
CN115580690A (zh) 图像处理的方法和电子设备
CN114341650A (zh) 事件检测方法、装置、可移动平台及计算机可读存储介质
JP2011135227A (ja) 被写体追跡装置及びその制御方法
CN117036206B (zh) 一种确定图像锯齿化程度的方法及相关电子设备
CN116091572B (zh) 获取图像深度信息的方法、电子设备及存储介质
CN117710697B (zh) 对象检测方法、电子设备、存储介质及程序产品
CN116708931B (zh) 图像处理方法及电子设备
CN114827706B (zh) 图像处理的方法、计算机程序产品、电子设备及存储介质
CN111353929A (zh) 图像处理方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant