CN116670706A - 计算机实现的方法、装置和计算机程序产品 - Google Patents

计算机实现的方法、装置和计算机程序产品 Download PDF

Info

Publication number
CN116670706A
CN116670706A CN202180004271.2A CN202180004271A CN116670706A CN 116670706 A CN116670706 A CN 116670706A CN 202180004271 A CN202180004271 A CN 202180004271A CN 116670706 A CN116670706 A CN 116670706A
Authority
CN
China
Prior art keywords
image
images
resolution
feature
eye
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180004271.2A
Other languages
English (en)
Inventor
朱丹
陈冠男
刘瀚文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BOE Technology Group Co Ltd
Original Assignee
BOE Technology Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BOE Technology Group Co Ltd filed Critical BOE Technology Group Co Ltd
Publication of CN116670706A publication Critical patent/CN116670706A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/44Morphing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)
  • Editing Of Facsimile Originals (AREA)

Abstract

提供了一种计算机实现的方法。该计算机实现的方法包括将低分辨率图像和多个高分辨率图像输入到特征提取器中;其中,所述低分辨率图像和所述多个高分辨率图像包括具有目标对象的图像;通过所述特征提取器获得所述低分辨率图像的特征图和所述多个高分辨率图像各自对应的特征图;比较所述低分辨率图像的特征图和所述多个高分辨率图像各自对应的特征图之间的相似度;选定所述多个高分辨率图像各自对应的特征图中与所述低分辨率图像的特征图最相似的一个或多个特征图;将所选定的特征图输入到生成器中,以输出修复图像;对所述低分辨率图像进行预处理图像增强,以生成增强图像;以及将所述修复图像与所述增强图像融合。

Description

计算机实现的方法、装置和计算机程序产品
技术领域
本发明涉及显示技术,更具体地,涉及一种计算机实现的方法、装置和计算机程序产品。
背景技术
机器学习和神经网络已经针对各种目的用于分析图像。神经网络是包括多个隐藏层的网络。多个隐藏层中的各个层包括多个神经元(例如,节点)。多个隐藏层中的各个层中的多个神经元与多个隐藏层中的相邻层中的多个神经元连接。神经元之间的连接具有不同的权重。神经网络具有模仿生物神经网络的结构。神经网络可以使用非确定性方式解决问题。
发明内容
一方面,本公开提供了一种计算机实现的方法,包括:将低分辨率图像和多个高分辨率图像输入到特征提取器中,所述低分辨率图像和所述多个高分辨率图像包括具有目标对象的图像;通过所述特征提取器获得所述低分辨率图像的特征图和所述多个高分辨率图像各自对应的特征图;比较所述低分辨率图像的特征图和所述多个高分辨率图像各自对应的特征图之间的相似度;选定所述多个高分辨率图像各自对应的特征图中与所述低分辨率图像的特征图最相似的一个或多个特征图;将所选定的特征图输入到生成器中,以输出修复图像;对所述低分辨率图像进行预处理图像增强,以生成增强图像;以及将所述修复图像与所述增强图像融合。
可选地,所述低分辨率图像是面部图像,所述目标物体是人物的面部。
可选地,所述低分辨率图像和所述多个高分辨率图像是视频中的图像帧的面部图像。
可选地,所述计算机实现的方法还包括建立包括所述多个高分辨率图像的第一数据库和包括与所述多个高分辨率图像相关联的多个图像参数的第二数据库,具体包括:接收视频的多个图像帧;确定所述多个图像帧中的各个图像帧中是否存在至少一个目标对象,所述各个图像帧中的目标对象的数量和目标对象在所述各个图像帧中的位置;以及,当所述目标对象存在于相应的图像帧中时,确定所述目标对象的目标图像的分辨率。
可选地,所述计算机实现的方法还包括:将各个图像帧的编号、各个图像帧中是否存在至少一个目标对象、所述各个图像帧中的目标对象的数量、目标对象在所述各个图像帧中的位置和目标标识符存储在所述第二数据库中。
可选地,所述计算机实现的方法还包括:对其中存在至少一个目标对象的各个图像帧执行目标识别;以及将分辨率大于阈值分辨率的一个或多个目标图像和与所述目标对象相关联的目标标识符存储在所述第一数据库中,所述多个高分辨率图像包括所述一个或多个目标图像。
可选地,所述计算机实现的方法还包括:计算所述低分辨率图像的特征图和所述多个高分辨率图像各自对应的特征图之间的相似度得分;其中,基于与所述低分辨率图像的特征图最相似的一个或多个所选定的特征图的相似度得分与所述低分辨率图像的特征图的相似度得分之间的差低于阈值,选定所述一个或多个特征图。
可选地,所述特征提取器包括:第一级联层,其被配置为级联所述低分辨率图像和所述多个高分辨率图像;串联连接的多个卷积层;以及一个或多个全连接层;其中,所述特征提取器被配置为从所述一个或多个全连接层中的最后一个全连接层输出所述低分辨率图像的相似度得分和所述多个高分辨率图像的相似度得分,并且被配置为从所述多个卷积层中的中间卷积层输出所述低分辨率图像和所述多个高分辨率图像的特征图。
可选地,将所选定的特征图输入到生成器中以输出修复图像包括:将所述一个或多个所选定的特征图排列组合以获得融合特征图;从所述融合特征图中提取特征;以及将来自所述融合特征图的所述特征重组到所述修复图像中。
可选地,所述生成器包括:第二级联层,其被配置为将所述一个或多个所选定的特征图排列组合,以获得融合特征图;尺寸调整层,其连接到所述第二级联层,并被配置为将所述融合特征图重采样为具有固定尺寸;串联布置的多个编码模块,其中第一级所述编码模块输入所述固定尺寸的所述融合特征图;串联布置的多个解码模块以及所述多个编码模块中的各个编码模块与所述多个解码模块中的相应一个解码模块之间的至少一个级联;其中,通过所述多个编码模块中的各个编码模块与所述多个解码模块中的相应一个解码模块之间的所述至少一个级联,将所述多个编码模块中的所述各个编码模块的输出和所述多个解码模块中的所述各个解码模块的前一级解码模块的输出级联,作为所述多个解码模块中的所述各个解码模块的输入。
可选地,所述多个解码模块的数量与所述多个编码模块的数量之间的差与图像分辨率从所述低分辨率图像到所述修复图像增加的倍数相关。
可选地,所述多个编码模块中的各个编码模块包括卷积层、连接到所述卷积层的修正线性单元、以及串联布置的多个残差块;以及所述多个解码模块中的各个解码模块包括串联布置的如下部件:多个残差块、反卷积层或像素重排层、连接到所述反卷积层或所述像素重排层的修正线性单元、以及连接到所述修正线性单元的卷积层。
可选地,将所述修复图像与所述增强图像融合包括:构造掩模,所述掩模具有与各个目标图像对应的目标区域和在所述目标区域外部的背景区域;以及对所述掩模执行滤波处理以生成滤波后的掩模,所述滤波后的掩模具有与所述各个目标图像对应的目标部分和在所述目标部分外部的背景部分。
可选地,将所述修复图像与所述增强图像融合包括:根据GMtarget×Itarget+(1-GMtarget)×Isr生成融合图像;其中,GMtarget代表所述滤波后的掩模的所述目标部分;Itarget代表所述修复图像;以及Isr代表通过对所述低分辨率图像进行预处理图像增强而生成的所述增强图像。
可选地,所述计算机实现的方法还包括:基于生成器损失函数和鉴别器损失函数中的至少一者,使用反馈循环训练所述生成器;其中,所述生成器被配置为将所述修复图像输出到损失函数计算器和鉴别器,所述鉴别器被配置为确定所述修复图像为真或为假;所述损失函数计算器被配置为基于所述修复图像计算生成器损失函数和鉴别器损失函数;所述反馈循环被配置为基于所述生成器损失函数和所述鉴别器损失函数,交互训练所述生成器和所述鉴别器;以及所述反馈循环包括用于优化所述生成器的参数的第一反馈循环和用于优化所述鉴别器的参数的第二反馈循环。
所述生成器损失函数被配置为计算内容损失、第一生成对抗网络损失、加权L1损失和眼睛区域损失中的一个或多个;其中,所述内容损失表示为:
其中,Lcontent代表内容损失,C1为标准化结果的常数;Pl代表以所述低分辨率图像作为输入从所述损失函数计算器的第l层输出的特征图;以及Fl代表以所述修复图像作为输入从所述损失函数计算器的第l层输出的特征图;
所述第一生成对抗网络损失表示为:
LG=-Ex~Pdata(x)[logD(x)]-Ez~Pz(z)[1-LogD(G(z)]],
其中,LG代表第一生成对抗网络损失;z代表所述生成器的输入;Pz代表所述生成器的输入组;x代表真实样本,Pdata代表一组真实样本;D(x)代表将所述真实样本输入到所述鉴别器后获得的结果;G(z)代表所述生成器的输出结果;Ex~Pdata(x)代表从真实样本组对x采样,并对任意x执行后续操作;Ez~Pz(z)代表从所述输入组Pz对z采样,并对任意z执行后续操作;
所述加权L1损失表示为
L1=w1×(abs(Ri-Rg))+w2×(abs(Gi-Gg))+w3×(abs(Bi-Bg)),
其中,Ri、Gi和Bi分别代表来自所述生成器的所述修复图像的R、G和B通道;Rg、Gg和Bg分别代表参考图像的R、G和B通道;w1、w2和w3分别代表权重;
所述眼睛区域损失表示为
Leye=Lcontent(Oeye,Geye)+Lcontent(Oeye[:,0:0.5w],Oeye[:,0.5w:w])+Lcontent(Geye[:,0:0.5w],Geye[:,0.5w:w]),
其中,Oeye代表所述修复图像的全部眼睛区域;Geye代表所述参考图像的全部眼睛区域;Lcontent(Oeye,Geye)代表所述参考图像和所述修复图像之间的内容损失;假设所述修复图像的全部眼睛区域的宽度值从左侧的0向右侧的w增加,则Oeye[:,0:0.5w]代表所述修复图像的全部眼睛区域的左半部,Oeye[:,0.5w:w]代表所述修复图像的全部眼睛区域的右半部;假设所述参考图像的全部眼睛区域的宽度值从左侧的0向右侧的w增加,则Geye[:,0:0.5w]代表所述参考图像的全部眼睛区域的左半部,Geye[:,0.5w:w]代表所述参考图像的全部眼睛区域的右半部;Lcontent(Oeye[:,0:0.5w],Oeye[:,0.5w:w])代表所述修复图像的全部眼睛区域的左半部和右半部之间的内容损失;Lcontent(Geye[:,0:0.5w],Geye[:,0.5w:w])代表所述参考图像的全部眼睛区域的左半部和右半部之间的内容损失。
可选地,所述鉴别器损失函数被配置为计算第二对抗网络损失;
其中,所述第二生成对抗网络损失表示为
LD=-Ex~Pdata(x)[logD(x)]-Ez~Pz(z)[1-LogD(G(z)]];
其中,LD代表第二生成对抗网络损失;z代表所述生成器的输入;Pz代表所述生成器的输入组;x代表真实样本,Pdata代表一组真实样本;D(x)代表将所述真实样本输入到所述鉴别器后获得的结果;G(z)代表所述生成器的输出结果;Ex~Pdata(x)代表从真实样本组对x采样,并对任意x执行后续操作;Ez~Pz(z)代表从所述输入组Pz对z采样,并对任意z执行后续操作。
可选地,所述计算机实现的方法还包括:基于生成器损失函数和鉴别器损失函数中的至少一者,使用反馈循环预训练所述生成器;其中,使用多对高分辨率参考图像和低分辨率参考图像预训练所述生成器;其中,所述多对高分辨率参考图像和低分辨率参考图像中的多个低分辨率参考图像由所述多对高分辨率参考图像和低分辨率参考图像中的多个高分辨率参考图像生成,具体包括:对所述多个高分辨率参考图像进行下采样,以生成多个经下采样的参考图像;对所述多个经下采样的参考图像执行高斯模糊,以生成多个经下采样和模糊处理的参考图像;以及将压缩噪声应用于所述多个经下采样和模糊处理的参考图像,从而生成所述多个低分辨率参考图像。
另一方面,本公开提供了一种装置,包括:一个或多个存储器;以及一个或多个处理器;其中,所述一个或多个存储器和所述一个或多个处理器彼此连接;以及所述一个或多个存储器存储用于控制所述一个或多个处理器以执行以下操作的计算机可执行指令:将低分辨率图像和多个高分辨率图像输入到特征提取器中,所述低分辨率图像和所述多个高分辨率图像包括具有目标对象的图像;通过所述特征提取器获得所述低分辨率图像的特征图和所述多个高分辨率图像各自对应的特征图;比较所述低分辨率图像的特征图和所述多个高分辨率图像各自对应的特征图之间的相似度;选定所述多个高分辨率图像各自对应的特征图中与所述低分辨率图像的特征图最相似的一个或多个特征图;将所选定的特征图输入到生成器中,以输出修复图像;对所述低分辨率图像进行预处理图像增强,以生成增强图像;以及将所述修复图像与所述增强图像融合。
另一方面,本公开提供一种计算机程序产品,包括其上具有计算机可读指令的非暂时性有形计算机可读介质,所述计算机可读指令可由处理器执行以使所述处理器执行以下操作:将低分辨率图像和多个高分辨率图像输入到特征提取器中,所述低分辨率图像和所述多个高分辨率图像包括具有目标对象的图像;通过所述特征提取器获得所述低分辨率图像的特征图和所述多个高分辨率图像各自对应的特征图;比较所述低分辨率图像的特征图和所述多个高分辨率图像各自对应的特征图之间的相似度;选定所述多个高分辨率图像各自对应的特征图中与所述低分辨率图像的特征图最相似的一个或多个特征图;将所选定的特征图输入到生成器中,以输出修复图像;对所述低分辨率图像进行预处理图像增强,以生成增强图像;以及将所述修复图像与所述增强图像融合。
附图说明
根据各种公开的实施例,以下附图仅是用于说明目的的示例,并且不旨在限制本发明的范围。
图1示出了根据本公开的一些实施例中的计算机实现的方法。
图2示出了根据本公开的一些实施例中的建立包括多个高分辨率图像的第一数据库和包括与多个高分辨率图像相关联的多个图像参数的第二数据库的过程。
图3示出了根据本公开的一些实施例中的计算相似度得分和修复图像的过程。
图4示出了根据本公开的一些实施例中的特征提取器的结构。
图5是示出根据本公开的一些实施例中的生成器的结构的示意图。
图6是示出根据本公开的一些实施例中的多个编码模块中的各个编码模块的结构的示意图。
图7是示出根据本公开的一些实施例中的多个解码模块中的各个解码模块的结构的示意图。
图8是示出根据本公开的一些实施例中的多个残差块中的各个残差块的结构的示意图。
图9示出了根据本公开的一些实施例中的将修复图像与增强图像融合(morph)的过程。
图10是示出根据本公开的一些实施例中的用于实现计算机实现的方法的装置的结构的示意图。
图11是根据本公开的一些实施例中的装置的结构的示意图。
具体实施方式
现在将参考以下实施例更具体地描述本公开。应当注意,本文中呈现的一些实施例的以下描述仅用于说明和描述的目的。其不是穷举的或限于所公开的精确形式。
本公开尤其提供了一种计算机实现的方法、装置和计算机程序产品,其基本上消除了由于相关技术的限制和缺点而导致的一个或多个问题。一方面,本公开提供了一种计算机实现的方法。在一些实施例中,所述计算机实现的方法包括:将低分辨率图像和多个高分辨率图像输入到特征提取器中,所述低分辨率图像和所述多个高分辨率图像包括具有目标对象的图像;通过所述特征提取器获得所述低分辨率图像的特征图和所述多个高分辨率图像各自对应的特征图;比较所述低分辨率图像的特征图和所述多个高分辨率图像各自对应的特征图之间的相似度;选定所述多个高分辨率图像各自对应的特征图中与所述低分辨率图像的特征图最相似的一个或多个特征图;将所选定的特征图输入到生成器中以输出修复图像;对所述低分辨率图像进行预处理图像增强,以生成增强图像;以及将所述修复图像与所述增强图像融合。
如本文所使用的,术语“卷积神经网络”是指深度前馈人工神经网络。可选地,卷积神经网络包括多个卷积层、多个上采样层和多个下采样层。例如,多个卷积层中的各个卷积层可以处理图像。上采样层和下采样层可以将输入图像的尺寸改变为与特定卷积层相对应的尺寸。上采样层或下采样层的输出可以接着由对应尺寸的卷积层处理。这使得卷积层能够添加或提取其尺寸与输入图像的尺寸不同的特征。
如本文所使用的,术语“卷积核”指的是在卷积处理中使用的二维矩阵。可选地,二维矩阵中的多个项目中的各个项目具有特定值。
如本文所使用的,术语“卷积”是指处理图像的过程。卷积核用于卷积。由于输入图像的每个像素具有值,卷积核开始于输入图像的一个像素,并循序地在输入图像中的每个像素上移动。在卷积核的每个位置处,卷积核基于卷积核的尺度与图像上的几个像素重叠。在卷积核的位置处,将几个重叠像素中的一个像素的值乘以卷积核的相应一个值以获得几个重叠像素中的一个像素的相乘值。随后,将重叠像素的所有相乘值相加,以获得与卷积核在输入图像上的位置相对应的和。通过在输入图像的每个像素上移动卷积核,收集并输出与卷积核的所有位置相对应的所有和,以形成输出图像。在一个示例中,卷积可以使用不同的卷积核提取输入图像的不同特征。在另一示例中,卷积处理可以使用不同的卷积核将更多特征添加到输入图像。
如本文所使用的,术语“卷积层”是指卷积神经网络中的层。卷积层用于对输入图像执行卷积以获得输出图像。可选地,使用不同的卷积核对同一输入图像执行不同的卷积。可选地,使用不同的卷积核对同一输入图像的不同部分执行卷积。可选地,使用不同的卷积核对不同的输入图像执行卷积,例如,在卷积层中输入多个图像,使用各个卷积核对多个图像中的图像执行卷积。可选地,根据输入图像的不同情况使用不同的卷积核。
如本文所使用的,术语“激活层(active layer)”是指卷积神经网络中的层。激活层可以对从卷积层输出的输出信号执行非线性映射。在激活层中可以使用各种功能。适于在激活层中采用的函数的示例包括但不限于:修正线性单元(ReLU)函数、S形(sigmoid)函数和双曲正切函数(例如,tanh函数)。在一个示例中,激活层不包括在卷积层中。在另一示例中,卷积层包括激活层。
在一些实施例中,卷积层是卷积神经网络的核心层。在卷积层中,神经元与紧邻的卷积层中的一些神经元连接。可选地,卷积层将多个卷积核应用于输入图像以从输入图像提取多个特征。卷积层可以从输入图像提取一种类型的特征。可选地,初始化的卷积核是随机分数矩阵。在卷积神经网络的预训练过程中,卷积核通过学习获得合理的值。
可选地,通过将卷积核应用于输入图像而获得的结果被称为特征图。多个特征图的数量与多个卷积核的数量相当。多个特征图中的各个特征图对应于多个卷积核中的相应卷积核。
可选地,所述多个特征图中的各个特征图由矩形布置的神经元形成。多个特征图中的各个特征图的神经元共享多个卷积核中的各个卷积核。
可选地,卷积神经网络具有多个卷积层。从多个卷积层中的各个卷积层输出的特征图被输入到多个卷积层中的下游卷积层中。多个卷积层中的下游卷积层处理从多个卷积层中的各个卷积层输出的特征图,并且输出多个特征图中的下游特征图。
在一些实施例中,下采样层位于两个相邻卷积层之间。在一个示例中,池化层被用于减小输入图像的尺寸以简化计算复杂度并减少过拟合现象。在另一示例中,池化层可以压缩输入图像的特征并且提取输入图像的主要特征。可选地,池化层减小特征图中的各个特征图的尺寸,但是不改变特征图的数量。例如,通过6×6滤波器对尺寸为12×12的输入图像进行采样,随后,6×6滤波器输出尺寸为2×2的输出图像,这意味着尺寸为12×12的输入图像的144个像素被划分为四个部分,144个像素的四个部分中的每个部分具有36个像素。在使用6×6滤波器的池化处理之后,将各部分中的36个像素组合成1个像素,并且所生成的输出图像具有2×2的尺寸。
如本文所使用的,术语“池化”是指一种类型的下采样。各种方法可以用于池化。适于池化的方法的示例包括但不限于最大池化、avg池化、抽取(decimation)和解复用输出(demuxout)。如本文所使用的,术语“下采样”是指提取输入图像的特征且输出具有较小尺寸的输出图像的处理。如本文所使用的,术语“上采样”是指将更多信息添加到输入图像并输出具有更大尺寸的输出图像的处理。
图1示出了根据本公开的一些实施例中的计算机实现的方法。参考图1,在一些实施例中,计算机实现的方法包括:将低分辨率图像和多个高分辨率图像输入到特征提取器中,所述低分辨率图像和所述多个高分辨率图像包括具有目标对象的图像;通过所述特征提取器获得所述低分辨率图像的特征图和所述多个高分辨率图像各自对应的特征图;比较所述低分辨率图像的特征图和所述多个高分辨率图像各自对应的特征图之间的相似度;选定所述多个高分辨率图像各自对应的特征图中与所述低分辨率图像的特征图最相似的一个或多个特征图;将所选定的特征图输入到生成器中以输出修复图像;对所述低分辨率图像进行预处理图像增强,以生成增强图像;以及将所述修复图像与所述增强图像融合。
在一个示例中,低分辨率图像是低分辨率面部图像,目标对象是人物(subject)的面部。在另一示例中,低分辨率图像是视频中的图像帧中的低分辨率面部图像。在另一示例中,低分辨率图像和多个高分辨率图像是视频中的图像帧中的面部图像。在一个具体示例中,本方法用于改善视频中的面部图像的质量。该方法包括:检测视频中的图像帧中的面部图像;确定在视频中的图像帧中检测到的面部图像的图像分辨率;对分辨率相对较高的面部图像执行面部识别;以及将这些面部图像存储在面部图像数据库中。该方法还可以包括:获得面部图像参数并且将面部图像参数存储在面部图像参数数据库中。面部图像参数的示例包括:图像帧的编号;在图像帧中是否存在面部图像;面部图像的图像分辨率;以及面部图像的位置。基于面部图像数据库和面部图像参数数据库,可以将图像帧分为至少三个类别。类别包括第一类别、第二类别和第三类别。在第一类别中,在图像帧中没有检测到面部图像。在第二类别中,在图像帧中检测到一个或多个面部图像;并且一个或多个面部图像具有相对高的图像分辨率。在第三类别中,在图像帧中检测到一个或多个面部图像;然而,一个或多个面部图像具有相对低的图像分辨率。在该具体示例中,该方法包括:基于面部图像数据库、面部图像参数数据库和图像增强模型,增强第三类别中的一个或多个面部图像的图像分辨率,以获得修复图像。然后,将修复图像与通过进行预处理图像增强而生成的增强图像融合。使用本计算机实现的方法,视频和电影中的低分辨率面部图像可以被恢复为高分辨率面部图像,从而显著地增强用户体验。
在一些实施例中,计算机实现的方法包括:建立包括多个高分辨率图像的第一数据库和包括与多个高分辨率图像相关联的多个图像参数的第二数据库。图2示出了根据本公开的一些实施例中的建立包括多个高分辨率图像的第一数据库和包括与多个高分辨率图像相关联的多个图像参数的第二数据库的处理。参考图2,在一些实施例中,建立第一数据库DB1和第二数据库DB2的步骤包括:接收视频的多个图像帧;对多个图像帧的编号计数。将编号存储在第二数据库DB2中。
在一些实施例中,建立第一数据库DB1和第二数据库DB2的步骤还包括:在各个图像帧中执行目标图像检测。具体地,该步骤包括:确定在多个图像帧中的各个图像帧中是否存在目标对象。可选地,对各个图像帧的编号计数并且确定各个图像帧中是否存在目标对象可以在同一步骤中执行。例如,每当该方法确定在各个图像帧中是否存在目标对象时,该方法还对各个图像帧的编号计数,并将编号存储在第二数据库DB2中。
可选地,当在相应的图像帧中没有检测到目标对象时,分配值0,表示在相应的图像帧中不存在目标对象。将该值存储在第二数据库DB2中。
可选地,当在相应的图像帧中检测到n个目标对象时,n≥1,分配值n,表示在相应的图像帧中检测到n个目标对象。将值n存储在第二数据库DB2中。
在一些实施例中,建立第一数据库DB1和第二数据库DB2的步骤还包括:确定目标对象在各个图像帧中的位置。将目标对象的位置存储在第二数据库DB2中。
在一个示例中,当在相应的图像帧中未检测到目标对象时,为与目标对象的位置对应的信息分配值-1。
在另一示例中,当在相应的图像帧中检测到至少一个目标对象时,目标对象的位置被表示为[xc,yc,w,h],其中[xc,yc]代表目标对象的中心点的坐标,[w,h]代表包含在相应的图像帧中检测到的目标对象的矩形目标对象区域的宽度和长度。
在另一示例中,当在相应的图像帧中检测到n个目标对象时,目标对象的位置被表示为[xc1,yc1,w1,h1]、[xc2,yc2,w2,h2]、...、[xcn,ycn,wn,hn],其中[xc1,yc1]、[xc2,yc2]、...、[xcn,ycn]代表n个目标对象的中心点的坐标,[w1,h1]、[w2,h2]、...、[wn,hn]代表分别包含在相应的图像帧中检测到的n个目标对象的矩形目标对象区域的宽度和长度。
在一些实施例中,建立第一数据库DB1和第二数据库DB2的步骤还包括:当目标对象存在于相应的图像帧中时,确定具有目标对象的图像的分辨率。当检测到一个以上的目标对象时,分别确定具有目标对象的图像的分辨率。
在一个示例中,当在相应的图像帧中没有检测到目标对象时,为与具有目标对象的图像的分辨率相对应的信息分配值-1。
在另一示例中,在相应的图像帧中检测到至少一个目标对象,各个目标图像的分辨率可以由例如1到k的数字表示,其中,k>1,k表示最高分辨率,1表示最低分辨率。在一个具体示例中,k=5。将表示各个目标图像的分辨率的值存储在第二数据库DB2中。可以使用值t表示阈值分辨率。当相应的目标图像的分辨率具有大于t的值时,该相应的目标图像可被分类为高分辨率图像。当相应的目标图像的分辨率具有小于等于t的值,并且不是-1时,该相应的目标图像可被分类为低分辨率图像。在一个具体示例中,k=5,并且t=3。
在一些实施例中,建立第一数据库DB1和第二数据库DB2的步骤还包括:当存在目标对象时,对视频中的多个图像帧执行目标识别。当目标对象被识别为与特定人物相关联时,提供目标标识符,并且用目标标识符标记目标图像。可选地,将分辨率大于阈值分辨率的一个或多个目标图像和与目标对象相关联的目标标识符存储在第一数据库DB1中。分辨率大于阈值分辨率的一个或多个目标图像是多个高分辨率图像的部分。
在一个示例中,第一数据库DB1包括用于人物1的文件夹。当分辨率大于阈值分辨率的一个或多个目标图像被识别为人物1的目标图像时,将它们存储在第一数据库DB1中的用于人物1的文件夹中。
可选地,分辨率小于等于阈值分辨率的一个或多个目标图像被识别为与特定人物相关联,提供目标标识符。将关于与分辨率小于等于阈值分辨率的一个或多个目标图像相关联的目标标识符的信息存储在第二数据库DB2中。然而,分辨率小于等于阈值分辨率的一个或多个目标图像不存储在第一数据库DB1中。
表1:存储在第二数据库中的数据
表1示出了存储在第二数据库中的数据的示例。如表1所示,在第二数据库中存储了各个图像帧的编号、各个图像帧中是否存在目标对象、各个图像帧中目标对象的数量、各个图像帧中目标对象的位置以及目标标识符。表示各个图像帧中是否存在目标对象的值为0,是指在相应的图像帧中未检测到目标对象。表示各个图像帧中是否存在目标对象的值为3,是指在相应的图像帧中检测到总共三个目标对象。目标对象在各个图像帧中的位置的值为-1,是指在相应的图像帧中未检测到目标对象。分辨率的值为-1,是指在相应的图像帧中没有检测到目标对象。分辨率的值为[1,4,4,2],是指在编号为2的图像帧中分别检测到的四个目标对象的分辨率。分辨率的值为[1,4,2],是指在编号为3的图像帧中分别检测到的三个目标对象的分辨率。较大的值(例如,4)比较小的值(例如,1)具有更高的分辨率。目标标识符的值为-1,是指在各个图像帧中没有检测到目标对象。值[1,2,3,4]是指在编号为2的图像帧中分别检测和识别的四个目标对象的目标标识符。值[1,3,5]是指在编号为3的图像帧中分别检测和识别的三个目标对象的目标标识符。
各种模型可以用于目标图像检测。目标图像检测模型的示例包括yolov5模型、resnet18模型、R-CNN模型和mobilenet模型。
各种模型可以用于确定图像分辨率。图像分辨率确定模型的示例包括resnet18模型、mobilenet模型、inception v3模型和SSR_Net模型。
各种模型可以用于执行目标识别。目标识别模型的示例包括DeepFace网络、DeepID网络、FaceNet网络。
在一些实施例中,第一数据库可以包括从包括公共源的各种源获得的高分辨率目标图像。
在一些实施例中,多个高分辨率图像包括具有不同表情和/或从不同角度拍摄的同一人物的目标图像。
在一些实施例中,计算机实现的方法还包括:计算低分辨率图像的特征图和多个高分辨率图像各自对应的特征图之间的相似度得分。可选地,一个或多个所选定的特征图的相似度得分与低分辨率图像的特征图的相似度得分之间的差低于阈值。将相对于低分辨率图像的特征图的相似度得分的差低于阈值的一个或更多个所选定的高分辨率图像视为与低分辨率图像最相似的高分辨率图像。
图3示出了根据本公开的一些实施例中的计算相似度得分和修复图像的过程。参考图3,特征提取器被配置为计算相似度得分。在一个示例中,低分辨率图像f具有相似度得分s,并且多个高分辨率图像f1,f2,...,fn具有相似度得分s1,s2,...,sn。通过将相似度得分s1,s2,...,sn与相似度得分s进行比较,将m个所选定的高分辨率图像选定为相对于低分辨率图像的特征图的相似度得分的差低于阈值的高分辨率图像。特征提取器被配置为提取多个高分辨率图像的特征图。可以获得m个所选高分辨率图像的特征图[F1,F2,...,Fm]。
在一个具体示例中,相似度得分可以用数字表示,例如1到p,其中,p>1,p表示最高相似度,1表示最低相似度。
各种模型可以用于目标图像检测。目标图像检测模型的示例包括VGG模型、yolov5模型、resnet18模型、R-CNN模型和mobilenet模型。
在一些实施例中,特征提取器包括第一级联层、多个卷积层以及一个或多个全连接层。图4示出了根据本公开的一些实施例中的特征提取器的结构。参考图4,在一些实施例中,特征提取器包括:第一级联层,其被配置为级联(concatenate)低分辨率图像和多个高分辨率图像;串联连接的多个卷积层;第一全连接层;以及第二全连接层。特征提取器的输出包括相似度得分s,其包括低分辨率图像的相似度得分和多个高分辨率图像的相似度得分。
在一个示例中,多个卷积层包括:第一卷积层,其具有32个内核,内核的核大小为5×5,步长(stride)为2,且内核包括ReLu函数;第二卷积层,其具有64个内核,内核的核大小为5×5,步长为1,且内核包括ReLu函数;第三卷积层,其具有128个内核,内核的核大小为5×5,步长为2,且内核包括ReLu函数;第四卷积层,其具有128个内核,内核的核大小为5×5,步长为1,且内核包括ReLu函数;第五卷积层,其具有128个内核,内核的核大小为5×5,步长为2,且内核包括ReLu函数;第六卷积层,其具有128个内核,内核的核大小为5×5,步长为1,且内核包括ReLu函数;以及第七卷积层,其具有128个内核,内核的核大小为5×5,步长为2,且内核包括ReLu函数。
在一些实施例中,从第二全连接层输出相似度得分s。
在一些实施例中,从中间卷积层,例如从图4中的第四卷积层,输出低分辨率图像和多个高分辨率图像的特征图。
再次参考图3,在一些实施例中,计算机实现的方法还包括:将所选定的特征图(例如,m个所选定的高分辨率图像的特征图,[F1,F2,...,Fm])输入到生成器中以输出修复图像。
图5是示出根据本公开的一些实施例中的生成器的结构的示意图。参考图5,在一些实施例中,生成器包括第二级联层、连接到第二级联层的尺寸调整层、串联排列的多个编码模块EN、串联排列的多个解码模块DN、以及多个编码模块EN中的各个编码模块与多个解码模块DN中的相应一个解码模块之间的至少一个级联。可选地,通过多个编码模块EN中的各个编码模块与多个解码模块DN中的相应一个解码模块之间的至少一个级联,将多个编码模块EN中的各个编码模块的输出和多个解码模块DN中的各个解码模块的前一级解码模块的输出级联,作为多个解码模块EN中的各个解码模块的输入。
可选地,第二级联层被配置为将m个所选定的高分辨率图像的特征图[F1,F2,...,Fm]排列组合以获得融合特征图。可选地,尺寸调整层被配置为将融合特征图重采样为具有固定尺寸。例如,融合特征图具有(B,C×m,H,W)的尺寸,尺寸调整层被配置为将融合特征图重采样为具有(B,C,H,W)的尺寸。
在一些实施例中,多个解码模块DN的数量大于多个编码模块EN的数量。可选地,多个解码模块DN的数量和多个编码模块EN的数量之间的差Δ与图像分辨率从低分辨率图像到修复图像增加的倍数E相关。可选地,E=2Δ。例如,当Δ=1时,从低分辨率图像到修复图像,图像分辨率加倍。当Δ=2时,修复图像的图像分辨率是低分辨率图像的图像分辨率的四倍。
图6是示出根据本公开的一些实施例中的多个编码模块中的各个编码模块的结构的示意图。参考图6,在一些实施例中,多个编码模块EN中的各个编码模块包括卷积层、连接到卷积层的修正线性单元ReLu、以及串联布置的多个残差块RB。可选地,卷积层是下采样卷积层,例如,2×下采样卷积层。
图7是示出根据本公开的一些实施例中的多个解码模块中的各个解码模块的结构的示意图。参考图7,在一些实施例中,多个解码模块DN中的各个解码模块包括串联布置的如下部件:多个残差块RB、反卷积层或像素混洗(pixel shuffle)层、连接到反卷积层或像素重排层的修正线性单元ReLu、以及连接到修正线性单元ReLu的卷积层。
图8是示出根据本公开的一些实施例中的多个残差块中的各个残差块的结构的示意图。参考图8,多个第二残差块RB中的各个第二残差块包括多个卷积层和用于执行恒等映射(identity mapping)的一个或多个跳跃连接(skip connection)。
在一些实施例中,将修复图像与增强图像融合包括:生成掩模。图9示出了根据本公开的一些实施例中的将修复图像与增强图像融合的处理。参考图9,构造掩模M,使其具有与各个目标图像(例如,面部图像)对应的目标区域TA和在目标区域TA外部的背景区域BA。在一个示例中,背景区域BA中的像素可被分配值0,而目标区域TA中的像素可被分配值1。
在一些实施例中,将修复图像与增强图像融合还包括:对掩模M执行滤波处理以生成滤波后的掩模GM。可选地,滤波处理是高斯滤波处理。在一个示例中,高斯滤波处理是高斯模糊滤波处理。滤波后的掩模GM被构造为具有与各个目标图像(例如,面部图像)对应的目标部分GMtarget和在目标部分GMtarget外部的背景部分GMB。
在一些实施例中,将修复图像与增强图像融合还包括:生成融合图像。可选地,可以根据GMtarget×Itarget+(1-GMtarget)×Isr生成融合图像,其中,GMtarget代表滤波后的掩模GM的目标部分,Itarget代表修复图像,Isr代表通过对低分辨率图像进行预处理图像增强而生成的增强图像。预处理图像增强技术的示例包括DUF网络、EDVR网络、RFDN网络和Unet网络。预处理图像增强还可以用于增强其中不存在目标对象的图像帧。
在一个具体示例中,高斯滤波处理使用动态滤波器内核,其核长度为在当前图像帧中的所有目标区域的所有边中的目标区域的最长边的1/5至1/4。使用高斯滤波处理的目的是使融合图像的边缘柔和,避免分割的边缘。
在一些实施例中,计算机实现的方法还包括:基于生成器损失函数和鉴别器损失函数中的至少一者,使用反馈循环训练生成器。图10是示出了根据本公开的一些实施例中的用于实现计算机实现的方法的装置的结构的示意图。参考图10,在一些实施例中,用于实现计算机实现的方法的装置包括生成器G、损失函数计算器C、鉴别器D和反馈循环F。生成器G被配置为接收低分辨率图像作为输入,并将高分辨率图像(例如,修复图像)输出到损失函数计算器C。
在一些实施例中,生成器G还将高分辨率图像(例如,修复图像)输出到鉴别器D。鉴别器D被配置为接收高分辨率图像,并且确定高分辨率图像为真或为假。
在一些实施例中,鉴别器D还被配置为接收参考图像(例如,高分辨率实际图像,例如,“真实样本”),并确定高分辨率图像为真或为假。
在一些实施例中,损失函数计算器C基于高分辨率图像计算生成器损失函数和鉴别器损失函数。反馈循环F被配置为基于生成器损失函数和鉴别器损失函数,交互训练生成器G和鉴别器D。反馈循环F包括用于优化生成器G的参数的第一反馈循环Fg;以及用于优化鉴别器D的参数的第二反馈循环Fd。
在一些实施例中,生成器损失函数被配置为计算内容损失、第一生成对抗网络(GAN)损失、加权L1损失和眼睛区域损失(eye area loss)中的一个或多个。在一些实施例中,鉴别器损失函数被配置为计算第二GAN损失。
在一些实施例中,该方法包括计算内容损失。在损失函数计算器中,每个卷积层的输出是输入图像的一个特征。假设某个卷积层具有Nl个卷积核,其输出包含Nl个特征图像,并且假设每个特征图像的尺寸为Ml(特征图像的宽度×长度)。则l层的输出可以存储在矩阵中;其中,Fl代表由第l层中的第i个卷积核输出的特征图像中的第j个位置的值。
在一些实施例中,内容损失可以表示为:
其中,Lcontent代表内容损失,C1为标准化结果的常数;Pl代表以原始图像(例如,低分辨率图像)作为输入从损失函数计算器的第l层输出的特征图;以及Fl代表以生成的图像(例如修复图像)作为输入从损失函数计算器的第l层输出的特征图。
在一些实施例中,第一GAN损失可表示为:
LG=-Ex~Pdata(x)[logD(x)]-Ez~Pz(z)[1-LogD(G(z)]]。
在一些实施例中,第二GAN损失可表示为:
LD=-Ex~Pdata(x)[logD(x)]-Ez~Pz(z)[1-LogD(G(z)]]。
可选地,LG代表第一GAN损失;LD代表第二GAN损失;z代表生成器的输入;Pz代表生成器的输入组;x代表真实样本,Pdata代表一组真实样本;D(x)代表将真实样本输入到鉴别器后获得的结果;G(z)代表生成器的输出结果;Ex~Pdata(x)代表从真实样本组对x采样,并对任意x执行后续操作;Ez~Pz(z)代表从输入组Pz对z采样,并对任意z执行后续操作。
在一些实施例中,加权L1损失可表示为:
L1=w1×(abs(Ri-Rg))+w2×(abs(Gi-Gg))+w3×(abs(Bi-Bg)),
其中,Ri、Gi和Bi分别代表生成器的输出图像(例如,修复图像)的R、G和B通道;Rg、Gg和Bg分别代表参考图像(例如,高分辨率的高质量图像)的R、G和B通道;w1、w2和w3分别代表权重。在一个具体示例中,w1=0.299,w2=0.587,w3=0.114。
在一些实施例中,眼睛区域损失用于改善修复图像的真实性,特别是修复图像中的眼睛图像的真实性和对称性。在一个示例中,眼睛区域的长度和宽度分别被定义为h和w。在一些实施例中,眼睛区域损失可以表示为:
Leye=Lcontent(Oeye,Geye)+Lcontent(Oeye[:,0:0.5w],Oeye[:,0.5w:w])+Lcontent(Geye[:,0:0.5w],Geye[:,0.5w:w]),
其中,Oeye代表生成器的输出图像(例如,修复图像)的全部眼睛区域;Geye代表参考图像的全部眼睛区域;Lcontent(Oeye,Geye)代表参考图像和生成器的输出图像之间的内容损失。假设生成器的输出图像的全部眼睛区域的宽度值从左侧的0向右侧的w增加,则Oeye[:,0:0.5w]代表生成器的输出图像的全部眼睛区域的左半部,Oeye[:,0.5w:w]代表生成器的输出图像的全部眼睛区域的右半部。假设参考图像的全部眼睛区域的宽度值从左侧的0向右侧的w增加,则Geye[:,0:0.5w]代表参考图像的全部眼睛区域的左半部,Geye[:,0.5w:w]代表参考图像的全部眼睛区域的右半部。Lcontent(Oeye[:,0:0.5w],Oeye[:,0.5w:w])代表生成器的输出图像的全部眼睛区域的左半部和右半部之间的内容损失;Lcontent(Geye[:,0:0.5w],Geye[:,0.5w:w])代表参考图像的全部眼睛区域的左半部和右半部之间的内容损失。
在一些实施例中,计算机实现的方法还包括:基于生成器损失函数和鉴别器损失函数中的至少一者,使用反馈循环预训练生成器。可选地,使用多对高分辨率参考图像和低分辨率参考图像,预训练所述生成器。可选地,存储在第一数据库(图2中的DB1)中的多个高分辨率图像被用作多个对中的多个高分辨率参考图像。可选地,使用多个高分辨率参考图像(例如,存储在第一数据库中的多个高分辨率图像),生成多个对中的多个低分辨率参考图像。
在一些实施例中,使用多个高分辨率参考图像生成多个低分辨率参考图像包括:对多个高分辨率参考图像进行下采样。可选地,下采样可以是2×下采样处理、3×下采样处理、4×下采样处理等。
在一些实施例中,使用多个高分辨率参考图像生成多个低分辨率参考图像还包括:对多个高分辨率参考图像执行高斯模糊。
在一些实施例中,使用多个高分辨率参考图像生成多个低分辨率参考图像还包括:将压缩噪声应用于多个高分辨率参考图像。
在一些实施例中,使用多个高分辨率参考图像生成多个低分辨率参考图像包括:对多个高分辨率参考图像进行下采样,以生成多个经下采样的参考图像;对多个经下采样的参考图像执行高斯模糊并应用压缩噪声,从而生成多个低分辨率参考图像。在一个示例中,该处理可以由inx=JPEG{Gauss[DownSample(GT)]}表示,其中inx代表多个对中的多个低分辨率参考图像;GT代表多个对中的多个高分辨率参考图像;DownSample代表下采样算子;Gauss代表高斯模糊算子;JPEG代表JPEG压缩算子。
另一方面,本公开提供了一种装置。图11是根据本公开的一些实施例中的装置的结构的示意图。参考图11,在一些实施例中,该装置包括:中央处理单元(CPU),其被配置为根据存储在ROM或RAM中的计算机可执行指令执行动作。可选地,计算机系统所需的数据和程序存储在RAM中。可选地,CPU、ROM和RAM通过总线彼此电连接。可选地,输入/输出接口电连接到总线。
在一些实施例中,该装置包括:一个或多个存储器;以及一个或多个处理器,其中,所述一个或多个存储器和所述一个或多个处理器彼此连接。在一些实施例中,所述一个或多个存储器存储用于控制所述一个或多个处理器以执行以下操作的计算机可执行指令:将低分辨率图像和多个高分辨率图像输入到特征提取器中,所述低分辨率图像和所述多个高分辨率图像包括具有目标对象的图像;通过所述特征提取器获得所述低分辨率图像的特征图和所述多个高分辨率图像各自对应的特征图;比较所述低分辨率图像的特征图和所述多个高分辨率图像各自对应的特征图之间的相似度;选定所述多个高分辨率图像各自对应的特征图中与所述低分辨率图像的特征图最相似的一个或多个特征图;将所选定的特征图输入到生成器中以输出修复图像;对所述低分辨率图像进行预处理图像增强,以生成增强图像;以及将所述修复图像与所述增强图像融合。
另一方面,本公开提供了一种计算机程序产品,包括其上具有计算机可读指令的非瞬态有形计算机可读介质。在一些实施例中,所述计算机可读指令可由处理器执行以使所述处理器执行以下操作:将低分辨率图像和多个高分辨率图像输入到特征提取器中,所述低分辨率图像和所述多个高分辨率图像包括具有目标对象的图像;通过所述特征提取器获得所述低分辨率图像的特征图和所述多个高分辨率图像各自对应的特征图;比较所述低分辨率图像的特征图和所述多个高分辨率图像各自对应的特征图之间的相似度;选定所述多个高分辨率图像各自对应的特征图中与所述低分辨率图像的特征图最相似的一个或多个特征图;将所选定的特征图输入到生成器中以输出修复图像;对所述低分辨率图像进行预处理图像增强,以生成增强图像;以及将所述修复图像与所述增强图像融合。
结合本文所公开的配置而描述的各种说明性的神经网络、层、单元、通道、块和其他操作可实施为电子硬件、计算机软件或两者的组合。这些神经网络、层、单元、通道、块和其他操作可以用被设计成产生本文公开的配置的通用处理器、数字信号处理器(DSP)、ASIC或ASSP、FPGA或其它可编程逻辑器件、分立门或晶体管逻辑、分立硬件组件或它们的任何组合来实现或执行。例如,这样的配置可以至少部分地被实现为硬连线电路、实现为被制造到专用集成电路中的电路配置、或者实现为被加载到非易失性存储中的固件程序、或者作为机器可读代码从数据存储介质加载或加载到数据存储介质中的软件程序,这样的代码是可由诸如通用处理器或其他数字信号处理单元的逻辑元件阵列执行的指令。通用处理器可以是微处理器,但在替代方案中,处理器可以是任何常规处理器、控制器、微控制器或状态机。处理器也可以实现为计算装置的组合,例如DSP和微处理器的组合、多个微处理器、一个或多个微处理器与DSP内核的结合、或者任何其它这种配置。软件模块可以驻留在非暂时性存储介质中,例如RAM(随机存取存储器)、ROM(只读存储器)、非易失性RAM(NVRAM),例如闪存RAM、可擦除可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)、寄存器、硬盘、可移动磁盘或CD-ROM;或者以本领域已知的任何其它形式的存储介质。说明性存储介质耦合到处理器,使得处理器可从存储介质读取信息和将信息写入到存储介质。在替代方案中,存储介质可与处理器成一体式。处理器和存储介质可以驻留在ASIC中。ASIC可以驻留在用户终端中。在替代方案中,处理器和存储介质可作为分立组件驻留于用户终端中。
为了说明和描述的目的,已经给出了本发明的实施例的上述描述。其不是穷举的,也不是要将本发明限制为所公开的精确形式或示例性实施例。因此,前面的描述应当被认为是说明性的而不是限制性的。显然,许多修改和变化对于本领域技术人员将是显而易见的。选择和描述实施例是为了解释本发明的原理及其最佳模式实际应用,从而使得本领域技术人员能够理解本发明的各种实施例以及适合于所考虑的特定使用或实现的各种修改。本发明的范围旨在由所附权利要求及其等价物来限定,其中除非另有说明,否则所有术语都意味着其最广泛的合理意义。因此,术语“本发明(the invention、the presentinvention)”等不一定将权利要求范围限制为特定实施例,并且对本发明的示例性实施例的引用不意味着对本发明的限制,并且不应推断出这样的限制。本发明仅由所附权利要求的精神和范围来限定。此外,这些权利要求可能涉及使用“第一”、“第二”等,随后是名词或元素。这些术语应当被理解为命名法,并且不应当被解释为对由这些命名法所修改的元件的数量进行限制,除非已经给出了特定的数量。所描述的任何优点和益处可能不适用于本发明的所有实施例。应当理解,在不脱离由所附权利要求限定的本发明的范围的情况下,本领域技术人员可以对所描述的实施例进行改变。此外,本公开中的元件和组件都不是要贡献给公众,无论该元件或组件是否在所附权利要求中明确叙述。

Claims (20)

1.一种计算机实现的方法,包括:
将低分辨率图像和多个高分辨率图像输入到特征提取器中;其中,所述低分辨率图像和所述多个高分辨率图像包括具有目标对象的图像;
通过所述特征提取器获得所述低分辨率图像的特征图和所述多个高分辨率图像各自对应的特征图;
比较所述低分辨率图像的特征图和所述多个高分辨率图像各自对应的特征图之间的相似度;
选定所述多个高分辨率图像各自对应的特征图中与所述低分辨率图像的特征图最相似的一个或多个特征图;
将所选定的特征图输入到生成器中,以输出修复图像;
对所述低分辨率图像进行预处理图像增强,以生成增强图像;以及
将所述修复图像与所述增强图像融合。
2.根据权利要求1所述的计算机实现的方法,其中,所述低分辨率图像是面部图像,所述目标对象是人物的面部。
3.根据权利要求1所述的计算机实现的方法,其中,所述低分辨率图像和所述多个高分辨率图像是视频中的图像帧的面部图像。
4.根据权利要求1所述的计算机实现的方法,还包括建立包括所述多个高分辨率图像的第一数据库和包括与所述多个高分辨率图像相关联的多个图像参数的第二数据库,具体包括:接收视频的多个图像帧;
确定所述多个图像帧中的各个图像帧中是否存在至少一个目标对象,所述各个图像帧中的目标对象的数量和目标对象在所述各个图像帧中的位置;以及
当所述目标对象存在于相应的图像帧中时,确定所述目标对象的目标图像的分辨率。
5.根据权利要求4所述的计算机实现的方法,还包括:将所述各个图像帧的编号、所述各个图像帧中是否存在至少一个目标对象、所述各个图像帧中的目标对象的所述数量、目标对象在所述各个图像帧中的所述位置和目标标识符存储在所述第二数据库中。
6.根据权利要求4所述的计算机实现的方法,还包括:对其中存在至少一个目标对象的各个图像帧执行目标识别;以及
将分辨率大于阈值分辨率的一个或多个目标图像和与所述目标对象相关联的目标标识符存储在所述第一数据库中,所述多个高分辨率图像包括所述一个或多个目标图像。
7.根据权利要求1至6中任一项所述的计算机实现的方法,还包括:计算所述低分辨率图像的特征图和所述多个高分辨率图像各自对应的的特征图之间的相似度得分;
其中,基于与所述低分辨率图像的特征图最相似的一个或多个所选定的特征图的相似度得分与所述低分辨率图像的特征图的相似度得分之间的差低于阈值,选定所述一个或多个特征图。
8.根据权利要求7所述的计算机实现的方法,其中,所述特征提取器包括:
第一级联层,其被配置为级联所述低分辨率图像和所述多个高分辨率图像;
串联连接的多个卷积层;以及
一个或多个全连接层;
其中,所述特征提取器被配置为从所述一个或多个全连接层中的最后一个全连接层输出所述低分辨率图像的相似度得分和所述多个高分辨率图像的相似度得分,并且被配置为从所述多个卷积层中的中间卷积层输出所述低分辨率图像和所述多个高分辨率图像的特征图。
9.根据权利要求1至8中任一项所述的计算机实现的方法,其中,将所选定的特征图输入到生成器中以输出修复图像包括:
将所述一个或多个所选定的特征图排列组合,以获得融合特征图;
从所述融合特征图中提取特征;以及
将来自所述融合特征图的所述特征重组到所述修复图像中。
10.根据权利要求9所述的计算机实现的方法,其中,所述生成器包括:
第二级联层,其被配置为将所述一个或多个所选定特征图排列组合,以获得融合特征图;
尺寸调整层,其连接到所述第二级联层,并被配置为将所述融合特征图重采样为具有固定尺寸;
串联布置的多个编码模块,其中第一级所述编码模块输入所述固定尺寸的所述融合特征图;
串联布置的多个解码模块以及
所述多个编码模块中的各个编码模块与所述多个解码模块中的相应一个解码模块之间的至少一个级联;
其中,通过所述多个编码模块中的各个编码模块与所述多个解码模块中的相应一个解码模块之间的所述至少一个级联,将所述多个编码模块中的所述各个编码模块的输出和所述多个解码模块中的所述各个解码模块的前一级解码模块的输出级联,作为所述多个解码模块中的所述各个解码模块的输入。
11.根据权利要求10所述的计算机实现的方法,其中,所述多个解码模块的数量与所述多个编码模块的数量之间的差与图像分辨率从所述低分辨率图像到所述修复图像增加的倍数相关。
12.根据权利要求10所述的计算机实现的方法,其中,所述多个编码模块中的各个编码模块包括卷积层、连接到所述卷积层的修正线性单元、以及串联布置的多个残差块;以及
所述多个解码模块中的各个解码模块包括串联布置的如下部件:多个残差块、反卷积层或像素重排层、连接到所述反卷积层或所述像素重排层的修正线性单元、以及连接到所述修正线性单元的卷积层。
13.根据权利要求1至9中任一项所述的计算机实现的方法,其中,将所述修复图像与所述增强图像融合包括:
构造掩模,所述掩模具有与各个目标图像对应的目标区域和在所述目标区域外部的背景区域;以及
对所述掩模执行滤波处理以生成滤波后的掩模,所述滤波后的掩模具有与所述各个目标图像对应的目标部分和在所述目标部分外部的背景部分。
14.根据权利要求13所述的计算机实现的方法,其中,将所述修复图像与所述增强图像融合包括:根据GMtarget×Itarget+(1-GMtarget)×Isr生成融合图像;
其中,GMtarget代表所述滤波后的掩模的所述目标部分;
Itarget代表所述修复图像;以及
Isr代表通过对所述低分辨率图像进行预处理图像增强而生成的所述增强图像。
15.根据权利要求1至10中任一项所述的计算机实现的方法,还包括:基于生成器损失函数和鉴别器损失函数中的至少一者,使用反馈循环训练所述生成器;
其中,所述生成器被配置为将所述修复图像输出到损失函数计算器和鉴别器,所述鉴别器被配置为确定所述修复图像为真或为假;
所述损失函数计算器被配置为基于所述修复图像,计算生成器损失函数和鉴别器损失函数;
所述反馈循环被配置为基于所述生成器损失函数和所述鉴别器损失函数,交互训练所述生成器和所述鉴别器;以及
所述反馈循环包括用于优化所述生成器的参数的第一反馈循环和用于优化所述鉴别器的参数的第二反馈循环。
16.根据权利要求15所述的计算机实现的方法,其中,所述生成器损失函数被配置为计算内容损失、第一生成对抗网络损失、加权L1损失和眼睛区域损失中的一个或多个;
其中,所述内容损失表示为:
其中,Lcontent代表内容损失,C1为标准化结果的常数;Pl代表以所述低分辨率图像作为输入从所述损失函数计算器的第l层输出的特征图;以及Fl代表以所述修复图像作为输入从所述损失函数计算器的第l层输出的特征图;
所述第一生成对抗网络损失表示为:
LG=-Ex~Pdata(x)[logD(x)]-Ez~Pz(z)[1-LogD(G(z)]],
其中,LG代表第一生成对抗网络损失;z代表所述生成器的输入;Pz代表所述生成器的输入组;x代表真实样本,Pdata代表一组真实样本;D(x)代表将所述真实样本输入到所述鉴别器后获得的结果;G(z)代表所述生成器的输出结果;Ex~Pdata(x)代表从真实样本组对x采样,并对任意x执行后续操作;Ez~Pz(z)代表从所述输入组Pz对z采样,并对任意z执行后续操作;
所述加权L1损失表示为
L1=w1×(abs(Ri-Rg))+w2×(abs(Gi-Gg))+w3×(abs(Bi-Bg)),
其中,Ri、Gi和Bi分别代表来自所述生成器的所述修复图像的R、G和B通道;Rg、Gg和Bg分别代表参考图像的R、G和B通道;w1、w2和w3分别代表权重;
所述眼睛区域损失表示为
Leye=Lcontent(Oeye,Geye)+Lcontent(Oeye[:,0:0.5w],Oeye[:,0.5w:w])+Lcontent(Geye[:,0:0.5w],Geye[:,0.5w:w]),
其中,Oeye代表所述修复图像的全部眼睛区域;Geye代表所述参考图像的全部眼睛区域;Lcontent(Oeye,Geye)代表所述参考图像和所述修复图像之间的内容损失;假设所述修复图像的全部眼睛区域的宽度值从左侧的0向右侧的w增加,则Oeye[:,0:0.5w]代表所述修复图像的全部眼睛区域的左半部,Oeye[:,0.5w:w]代表所述修复图像的全部眼睛区域的右半部;假设所述参考图像的全部眼睛区域的宽度值从左侧的0向右侧的w增加,则Geye[:,0:0.5w]代表所述参考图像的全部眼睛区域的左半部,Geye[:,0.5w:w]代表所述参考图像的全部眼睛区域的右半部;Lcontent(Oeye[:,0:0.5w],Oeye[:,0.5w:w])代表所述修复图像的全部眼睛区域的左半部和右半部之间的内容损失;Lcontent(Geye[:,0:0.5w],Geye[:,0.5w:w])代表所述参考图像的全部眼睛区域的左半部和右半部之间的内容损失。
17.根据权利要求15所述的计算机实现的方法,其中,所述鉴别器损失函数被配置为计算第二生成对抗网络损失;
其中,所述第二生成对抗网络损失表示为
LD=-Ex~Pdata(x)[logD(x)]-Ez~Pz(z)[1-LogD(G(z)]];
其中,LD代表第二生成对抗网络损失;z代表所述生成器的输入;Pz代表所述生成器的输入组;x代表真实样本,Pdata代表一组真实样本;D(x)代表将所述真实样本输入到所述鉴别器后获得的结果;G(z)代表所述生成器的输出结果;Ex~Pdata(x)代表从真实样本组对x采样,并对任意x执行后续操作;Ez~Pz(z)代表从所述输入组Pz对z采样,并对任意z执行后续操作。
18.根据权利要求1至17中任一项所述的计算机实现的方法,还包括:基于生成器损失函数和鉴别器损失函数中的至少一者,使用反馈循环来预训练所述生成器;
其中,使用多对高分辨率参考图像和低分辨率参考图像来预训练所述生成器;
其中,所述多对高分辨率参考图像和低分辨率参考图像中的多个低分辨率参考图像由所述多对高分辨率参考图像和低分辨率参考图像中的多个高分辨率参考图像生成,具体包括:
对所述多个高分辨率参考图像进行下采样,以生成多个经下采样的参考图像;
对所述多个经下采样的参考图像执行高斯模糊,以生成多个经下采样和模糊处理的参考图像;以及
将压缩噪声应用于所述多个经下采样和模糊处理的参考图像,从而生成所述多个低分辨率参考图像。
19.一种装置,包括:
一个或多个存储器;以及
一个或多个处理器;
其中,所述一个或多个存储器和所述一个或多个处理器彼此连接;以及
所述一个或多个存储器存储用于控制所述一个或多个处理器以执行以下操作的计算机可执行指令:
将低分辨率图像和多个高分辨率图像输入到特征提取器中,所述低分辨率图像和所述多个高分辨率图像包括具有目标对象的图像;
通过所述特征提取器获得所述低分辨率图像的特征图和所述多个高分辨率图像各自对应的特征图;
比较所述低分辨率图像的特征图和所述多个高分辨率图像各自对应的特征图之间的相似度;
选定所述多个高分辨率图像各自对应的特征图中与所述低分辨率图像的特征图最相似的一个或多个特征图;
将所选定的特征图输入到生成器中,以输出修复图像;
对所述低分辨率图像进行预处理图像增强,以生成增强图像;以及
将所述修复图像与所述增强图像融合。
20.一种计算机程序产品,包括其上具有计算机可读指令的非暂时性有形计算机可读介质,所述计算机可读指令可由处理器执行以使所述处理器执行以下操作:
将低分辨率图像和多个高分辨率图像输入到特征提取器中,所述低分辨率图像和所述多个高分辨率图像包括具有目标对象的图像;
通过所述特征提取器获得所述低分辨率图像的特征图和所述多个高分辨率图像各自对应的特征图;
比较所述低分辨率图像的特征图和所述多个高分辨率图像各自对应的特征图之间的相似度;
选定所述多个高分辨率图像各自对应的特征图中与所述低分辨率图像的特征图最相似的一个或多个特征图;
将所选定的特征图输入到生成器中,以输出修复图像;
对所述低分辨率图像进行预处理图像增强,以生成增强图像;以及
将所述修复图像与所述增强图像融合。
CN202180004271.2A 2021-12-28 2021-12-28 计算机实现的方法、装置和计算机程序产品 Pending CN116670706A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2021/141884 WO2023122927A1 (en) 2021-12-28 2021-12-28 Computer-implemented method, apparatus, and computer-program product

Publications (1)

Publication Number Publication Date
CN116670706A true CN116670706A (zh) 2023-08-29

Family

ID=86996866

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180004271.2A Pending CN116670706A (zh) 2021-12-28 2021-12-28 计算机实现的方法、装置和计算机程序产品

Country Status (3)

Country Link
US (1) US20240202983A1 (zh)
CN (1) CN116670706A (zh)
WO (1) WO2023122927A1 (zh)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109858479B (zh) * 2018-07-10 2022-11-18 上海其高电子科技有限公司 基于图像配准的机动车违法鸣笛抓拍系统
CN110223231A (zh) * 2019-06-06 2019-09-10 天津工业大学 一种含噪图像的快速超分辨重建算法
CN112446826A (zh) * 2019-09-03 2021-03-05 联咏科技股份有限公司 用于图像超分辨率、图像增强及模型训练的方法及装置
CN113139907B (zh) * 2021-05-18 2023-02-14 广东奥普特科技股份有限公司 视觉分辨率增强的生成方法、系统、装置及存储介质

Also Published As

Publication number Publication date
WO2023122927A1 (en) 2023-07-06
US20240202983A1 (en) 2024-06-20

Similar Documents

Publication Publication Date Title
CN109493350B (zh) 人像分割方法及装置
CN109871781B (zh) 基于多模态3d卷积神经网络的动态手势识别方法及系统
CN109829506B (zh) 图像处理方法、装置、电子设备和计算机存储介质
CN111104962A (zh) 图像的语义分割方法、装置、电子设备及可读存储介质
US20210233214A1 (en) Neural network for enhancing original image, and computer-implemented method for enhancing original image using neural network
CN109816659B (zh) 图像分割方法、装置及系统
CN110245621B (zh) 人脸识别装置及图像处理方法、特征提取模型、存储介质
US11900563B2 (en) Computer-implemented method, apparatus, and computer-program product
WO2021022543A1 (en) Computer-implemented method, computer-implemented diagnosis method, apparatus for classifying image, and computer-program product
JP6830742B2 (ja) 画素に基づく画像セグメンテーション用のプログラム
CN109948441B (zh) 模型训练、图像处理方法、装置、电子设备及计算机可读存储介质
CN115631112B (zh) 一种基于深度学习的建筑轮廓矫正方法及装置
CN114511798B (zh) 基于transformer的驾驶员分心检测方法及装置
CN113011253B (zh) 基于ResNeXt网络的人脸表情识别方法、装置、设备及存储介质
CN114529982A (zh) 基于流式注意力的轻量级人体姿态估计方法及系统
CN110807463B (zh) 图像分割方法、装置、计算机设备和存储介质
CN114359638A (zh) 图像的残差胶囊网络分类模型、分类方法、设备及存储介质
WO2021217919A1 (zh) 人脸动作单元识别方法、装置、电子设备及存储介质
CN111340139B (zh) 一种图像内容复杂度的判别方法及装置
CN116670706A (zh) 计算机实现的方法、装置和计算机程序产品
CN113688783B (zh) 人脸特征提取方法、低分辨率人脸识别方法及设备
CN113344110B (zh) 一种基于超分辨率重建的模糊图像分类方法
US20230401679A1 (en) Computer-implemented image-processing method, image-enhancing convolutional neural network, and computer product
WO2022133874A1 (zh) 图像处理方法及设备、计算机可读存储介质
CN113688715A (zh) 面部表情识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination