CN117475165A - 用于处理图像的计算系统、方法、设备和存储介质 - Google Patents

用于处理图像的计算系统、方法、设备和存储介质 Download PDF

Info

Publication number
CN117475165A
CN117475165A CN202210851223.3A CN202210851223A CN117475165A CN 117475165 A CN117475165 A CN 117475165A CN 202210851223 A CN202210851223 A CN 202210851223A CN 117475165 A CN117475165 A CN 117475165A
Authority
CN
China
Prior art keywords
feature map
convolution
resolution
units
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210851223.3A
Other languages
English (en)
Inventor
吴捷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zitiao Network Technology Co Ltd
Original Assignee
Beijing Zitiao Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zitiao Network Technology Co Ltd filed Critical Beijing Zitiao Network Technology Co Ltd
Priority to CN202210851223.3A priority Critical patent/CN117475165A/zh
Publication of CN117475165A publication Critical patent/CN117475165A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Processing (AREA)

Abstract

根据本公开的实施例,提供了用于处理图像的计算系统、方法、设备和存储介质。该系统包括一个或多个处理器;以及一个或多个非暂时性计算机可读介质,其共同存储图像处理模型。图像处理模型包括至少一个混合操作单元,混合操作单元包括:注意力模块,被配置为应用注意力机制,基于由查询信息、键信息和值信息共享的权重,根据第一特征图生成加权特征图,第一特征图是基于输入图像得到的;第一卷积模块,被配置为基于加权特征图生成第一卷积特征图;以及特征融合模块,被配置为基于第一卷积特征图和第一特征图,生成第二特征图,其中第二特征图用于生成处理结果。由此,可以在保持高的图像处理效率的同时,实现优异的图像处理性能。

Description

用于处理图像的计算系统、方法、设备和存储介质
技术领域
本公开的示例实施例总体涉及计算机领域,特别地涉及用于处理图像的计算系统、方法、设备和计算机可读存储介质。
背景技术
在计算机视觉(CV)领域中,基于人工智能的各种图像处理技术已经得到显著发展,并且具有广泛应用。计算机视觉可以应用于多种不同的图像处理任务,诸如图像分类、图像分割、图像生成等等。在一些图像处理任务中,可能要进行像素级别的数据处理,从而需要较大的计算量。
发明内容
在本公开的第一方面,提供了一种用于处理图像的计算系统。该系统包括一个或多个处理器;以及一个或多个非暂时性计算机可读介质,其共同存储图像处理模型。图像处理模型被配置为处理输入图像以生成处理结果。图像处理模型包括至少一个混合操作单元,混合操作单元包括:注意力模块,被配置为应用注意力机制,基于由查询(query)信息、键(key)信息和值(value)信息共享的权重,根据第一特征图生成加权特征图,其中第一特征图是基于输入图像得到的;第一卷积模块,被配置为基于加权特征图生成第一卷积特征图;以及特征融合模块,被配置为基于第一卷积特征图和第一特征图,生成第二特征图,其中第二特征图用于生成处理结果。
在本公开的第二方面,提供了一种处理图像的方法。该方法包括:基于第一特征图和由查询信息、键信息和值信息共享的权重,根据混合操作单元中的注意力子单元生成加权特征图。第一特征图是基于输入图像得到的。注意力子单元包括由查询信息、键信息和值信息共享的线性映射层。该方法还包括:通过对加权特征图执行卷积操作,根据混合操作单元中的第一卷积子单元生成第一卷积特征图。该方法进一步包括:基于第一卷积特征图和第一特征图,生成针对输入图像的处理结果。
在本公开的第三方面,提供了一种电子设备。该设备包括至少一个处理单元;以及至少一个存储器,至少一个存储器被耦合到至少一个处理单元并且存储用于由至少一个处理单元执行的指令。指令在由至少一个处理单元执行时使电子设备执行第二方面的方法。
在本公开的第四方面,提供了一种计算机可读存储介质。该计算机可读存储介质上存储有计算机程序,计算机程序可由处理器执行以实现第二方面的方法。
应当理解,本发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键特征或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的描述而变得容易理解。
附图说明
结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标记表示相同或相似的元素,其中:
图1示出了本公开的实施例能够在其中实现的示例环境的示意图;
图2示出了根据本公开的一些实施例的混合操作单元的一个示例的示意图;
图3示出了根据本公开的一些实施例的混合操作单元的另一个示例的示意图;
图4示出了根据本公开的一些实施例的图像生成模型的示意图;
图5示出了根据本公开的一些实施例的生成图像的过程的流程图;
图6示出了根据本公开的一些实施例的用于处理图像的装置的框图;
图7示出了根据本公开的一些实施例的用于处理图像的计算系统的框图;以及
图8示出了能够实施本公开的多个实施例的设备的框图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中示出了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反,提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
在本公开的实施例的描述中,术语“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“一些实施例”应当理解为“至少一些实施例”。下文还可能包括其他明确的和隐含的定义。
如本文中所使用的,术语“模型”可以从训练数据中学习到相应的输入与输出之间的关联,从而在训练完成后可以针对给定的输入,生成对应的输出。模型的生成可以基于机器学习技术。深度学习是一种机器学习算法,通过使用多层处理单元来处理输入和提供相应输出。在本文中,“模型”也可以被称为“机器学习模型”、“机器学习网络”或“网络”,这些术语在本文中可互换地使用。一个模型又可以包括不同类型的处理单元或网络。
如本文中所使用的,“单元”、“操作单元”或“子单元”可以由任何合适结构的机器学习模型或网络组成。如本文中所使用的,一组元素、元素组或类似表述可以包括一个或多个这样的元素。例如,“卷积单元组”可以包括一个或多个卷积单元。
如前文所简要提及的,CV技术已经应用于各种图像处理任务。随着CV技术的发展,在各种领域中对图像处理任务有着广泛的需求。例如,用户可以通过内容共享类应用来发布图像。这样的图像可能是由安装有内容共享类应用的终端设备(例如,移动设备)生成。又如,可以对终端设备所拍摄的图像中的对象进行识别和分类。通常期望终端设备能以高的计算效率提供优异的图像处理结果(例如,提供效果好的生成图像),以提升用户体验。然而,这种图像处理任务通常要求较大的计算量。
常规上,图像处理模型基于卷积神经网络(CNN)。例如,目前已经提出了生成对抗网络(GAN)用于像素级别的图像生成任务。GAN基本由CNN构成,网络大且参数多。考虑到终端设备(例如,移动电话)有限的计算能力,这样的图像处理模型难以快速地向用户提供优异的图像处理结果。这给图像处理模型在终端的部署带来了挑战。另一方面,应用注意力机制的变换器(Transformer)已经在诸如图像分类、分割、检测等图像处理任务中取得了优于CNN的效果。
本公开的实施例提出了一种用于处理图像的方案。根据本公开的各种实施例,使用包括轻量化的注意力子单元和卷积子单元的混合操作单元来处理图像的特征图。混合操作单元包括串联排列的注意力子单元和至少一个卷积子单元。在注意力子单元中,使用共享的线性映射层来计算查询信息、键信息和值信息。
注意力机制能够捕获特征的全局关联,而卷积能够捕获局部信息。将注意力与卷积相结合可以提高图像处理的效果。另一方面,利用共享的线性映射层可以降低注意力子单元的计算量。因此,本公开的实施例可以实现轻量化的图像处理模型。这种轻量化的图像处理模型可以在保持高的图像处理效率的同时,实现优异的图像处理性能。这种轻量化的图像处理模型特别适合于部署在终端设备处。
在一些实施例中,卷积子单元对特征图执行深度可分离卷积,即执行深度卷积和逐点卷积。利用深度可分离卷积可以大大降低卷积子单元的计算量,这可以进一步提高图像处理效率。
示例环境
图1示出了本公开的实施例能够在其中实现的示例环境100的示意图。在环境100中,计算设备110中部署有图像处理模型120,也简称为模型120。图像处理模型120被配置为在图像处理任务中基于输入图像101来生成处理结果102。在被应用于图像处理任务之前,图像处理模型120已经利用训练数据被训练。
图像处理任务可以包括但不限于图像分类任务、图像分割任务、图像生成任务、目标检测任务等等。例如,在图像处理模型120用于图像分类任务的情况下,处理结果102可以是输入图像101中的对象的分类。又如,在图像处理模型120用于图像生成任务的情况下,处理结果102可以包括输出图像。图像生成任务可以包括从输入图像101到输出图像的各种转换任务。
在输入图像101被馈送到图像处理模型120后,图像处理模型120生成和处理各种特征图,以生成处理结果102。在图1的示例中,图像处理模型120包括混合操作单元130,其接收基于输入图像101而得到的第一特征图131,并且生成第二特征图132。第二特征图132进一步用于生成处理结果102。混合操作单元130包括串联排列的注意力子单元和至少一个卷积子单元。术语“串联排列”是指一系列的单元按顺序依次排列,并且前一单元的输出作为下一个单元的输入
在环境100中,计算设备110可以是任意类型的具有计算能力的设备,包括终端设备或服务端设备。终端设备可以是任意类型的移动终端、固定终端或便携式终端,包括移动手机、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、媒体计算机、多媒体平板、个人通信系统(PCS)设备、个人导航设备、个人数字助理(PDA)、音频/视频播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或者前述各项的任意组合,包括这些设备的配件和外设或者其任意组合。
应当理解,仅出于示例性的目的描述环境100的结构和功能,而不暗示对于本公开的范围的任何限制。
示例混合操作单元
混合操作单元130包括串联排列的注意力子单元和至少一个卷积子单元。混合操作单元130基于第一特征图131生成第二特征图132。图2示出了根据本公开的一些实施例的混合操作单元130的一个示例。在图2的示例中,混合操作单元130总体上包括串联排列的注意力子单元230和第一卷积子单元210。
注意力子单元230基于第一特征图131生成加权特征图201。注意力子单元230被配置为应用注意力机制,基于由查询信息、键信息和值信息共享的权重,根据第一特征图131生成加权特征图201。具体来说,注意力子单元230可以从第一特征图131中提取特征的全局相关性,并生成利用全局相关性加权的加权特征图201。
在本公开的各种实施例中,注意力子单元230包括由查询信息、键信息和值信息共享的线性映射层。换言之,在基于第一特征图131计算查询信息、键信息和值信息时所使用的权重矩阵是相同的。用X来表示第一特征图131,用Q、K、V分别表示查询信息、键信息和值信息。分别通过式(1)至(3)来计算查询信息Q、键信息K和值信息V:
Q=XWq (1)
K=XWk (2)
V=XWv (3)其中Wq、Wk和Wv分别是用于计算查询信息、键信息和值信息的权值矩阵。对于注意力子单元230而言,Wq=Wk=Wv
利用共享的线性映射层,可以简化Q、K、V的计算,这实现了轻量化的自注意力(self attention)。以此方式,可以更好地平衡性能和计算开销。这种共享的线性映射层有利于混合操作单元130在终端设备的部署。
加权特征图201被输入到第一卷积子单元210。第一卷积子单元210基于加权特征图201生成第一卷积特征图202。在一些实施例中,第一卷积子单元210可以被配置为对接收到的特征图执行深度可分离卷积,即依次执行深度卷积和逐点卷积。也即,通过对第一特征图131执行深度卷积和逐点卷积,而生成加权特征图201。
深度可分离卷积是一种轻量化的卷积操作,其包括深度卷积和逐点卷积。深度卷积是指在不改变特征图的深度的情况下,对每一通道进行卷积操作。深度卷积所得到的输出特征图与输入特征图通道数目一致。逐点卷积是指1×1卷积。利用逐点卷积可以改变特征图的通道数目。作为示例,第一卷积子单元210可以被实现为或包括MobileNet V1、MobileNet V2、MobileNet V3,等等。
在已经利用注意力子单元230捕获了全局信息的情况下,利用第一卷积子单元210可以补充局部信息。另一方面,执行深度可分离卷积的第一卷积子单元210是轻量化的网络。以此方式,可以节省计算开销、提高计算效率,进一步有利于混合操作单元130在终端设备的部署。
混合操作单元130进一步基于第一卷积特征图202和第一特征图131来生成第二特征图132。第一卷积特征图202已经融合了特征的全局相关性和局部相关性。结合第一卷积特征图202和最初输入的第一特征图131来生成第二特征图202可以加强信息聚合。这种信息聚合有利于提高混合操作单元的性能。
在一些实施例中,可以将第一卷积特征图202与第一特征图131相加作为第二特征图132。通过相加的方式来结合第一卷积特征图202和第一特征图131,可以加强信息聚合而不显著增加计算开销。
在一些实施例中,混合操作单元130还可以包括附加的子单元来进一步处理第一卷积特征图202和第一特征图131。图3示出了根据本公开的一些实施例的混合操作单元130的另一示例。图3中与图2具有相同附图标记的元素是相同的,因此不再重复对其的描述。
在图3的示例中,将第一卷积特征图202和第一特征图131组合成混合特征图303。在一些实施例中,可以将第一卷积特征图202与第一特征图131相加作为混合特征图303。通过相加的方式可以实现信息聚合而不显著降低计算效率。
混合特征图303被输入到第二卷积子单元320。第二卷积子单元320基于混合特征图303生成第二卷积特征图304。与第一卷积子单元210类似,在一些实施例中,第二卷积子单元320可以被配置为对接收到的特征图执行深度可分离卷积,即执行深度卷积和逐点卷积。例如,第二卷积子单元320可以被实现为或包括MobileNet V1、MobileNet V2、MobileNet V3,等等。
在获得第二卷积特征图304之后,可以将第二卷积特征图304与混合特征图303组合成第二特征图132,作为混合操作单元130的输出。混合特征图303融合了第一卷积特征图202和最初输入的第一特征图131。进一步将第二卷积特征图304与混合特征图303融合,可以进一步加强信息聚合,从而有利于进一步提高混合操作单元的性能。
在一些实施例中,可以将第一卷积特征图202与第一特征图131相加作为第二特征图132。通过相加的方式来结合第一卷积特征图202和第一特征图131,可以加强信息聚合而不显著增加计算开销。
在图2和图3所示的混合操作单元130中,注意力子单元230实现了轻量化的自注意力。这样的混合操作单元130可以视为轻量化的Transformer,其中用轻量化的自注意力替代了常规的自注意力或多头注意力。进一步地,在卷积子单元被配置为执行深度可分离卷积的实施例中,用轻量化的深度可分离卷积替代了常规Transformer中的多层感知(MLP)。
除了计算效率高之外,深度可分离卷积比MLP具有更大的感受野。在常规的Transformer架构(例如,Vision Transformer架构)中,MLP侧重于通过线性层提取单通道信息,而空间维度的信息交互主要在自注意力部分进行。在本公开实施例的混合操作单元130中,将逐点卷积和深度卷积的输出串联起来,可以得到空间和通道的多维度信息。因此,根据本公开的实施例的混合操作单元130能够平衡计算效率和模型性能。
除了注意力子单元230、第一卷积子单元210、第二卷积子单元320之外,混合操作单元130还可以包括其他的层或子单元,例如归一化层和激活函数层。归一化层和激活函数层可以被连接在注意力子单元230、第一卷积子单元210、第二卷积子单元320中的任一或每个子单元之后。备选地,归一化层和激活函数层可以被实现在注意力子单元230、第一卷积子单元210、第二卷积子单元320中。
在一些实施例中,归一化层可以是批归一化(BN)层。与常规Transformer中所使用的层归一化相比,批归一化层的效率更高,更适合在终端设备上部署。备选地或附加地,在一些实施例中,激活函数层可以是修正线性单元(ReLU)激活函数层。在常规的Transformer中,使用高斯误差线性单元(GeLU)激活函数。与GeLU激活函数相比,ReLU激活函数更为轻量,这进一步有利于计算效率的提高。
示例图像处理模型
包括混合操作单元130的图像处理模型120可以用于各种图像处理任务。在图像生成任务中,需要将输入图像101转换成输出图像。一些像素级别的图像生成任务通常要求较大的计算量。目前已经提出了GAN以用于这些像素级别的图像生成任务。常规上,GAN基本由CNN构成,网络大且参数多。这对模型的部署,特别是在终端设备的部署来说并不友好。
在一些实施例中,图像处理模型120可以被实现为图4中所示的用于图像生成任务的图像生成模型400,也简称为模型400。图像生成任务可以包括从输入图像101到输出图像450的各种转换任务。图像生成任务可以包括但不限于图像修复、图像风格迁移、条件图像生成、虚拟换装等。作为示例,图4中示出了图像修复任务。输入图像101包含污迹405,这使得输入图像101中的植物不完整。图像生成模型400对输入图像101进行了修复。该植物在输出图像450中是完整且清晰的。应当理解,图4中所示出的输入图像101和输出图像450仅是示例性的,而无意限制本公开的范围。图像生成模型400可以应用于任何类型的图像处理任务。
总体上,图像生成模型400包括第一卷积单元组410、第二卷积单元组420和串联排列的混合操作单元组430。第一卷积单元组410靠近图像生成模型400的输入端,并且可以包括一个或多个卷积单元。在一些实施例中,第一卷积单元组410可以包括串联排列的多个卷积单元。例如,在图4的示例中,第一卷积单元组410包括串联排列的卷积单元401-1、401-2、401-3,其也统称为或单独称为卷积单元401。卷积单元401(例如,卷积块)可以具有任何合适的结构来执行卷积操作。
第一卷积单元组410接收具有初始分辨率的输入图像101,并且基于输入图像101生成具有第一分辨率的特征图451。第一分辨率小于初始分辨率。也即,第一卷积单元组410对输入图像101进行下采样,以生成特征图451。
在图4的示例中,第一卷积单元组410中的第一个卷积单元401-1从输入图像101中提取特征,并生成特征图。在第一个卷积单元401-1之后的其余卷积单元对前一卷积单元生成的特征图执行卷积操作,生成新的特征图,直到第一卷积单元组410中的最后一个卷积单元401-3生成特征图451。
尽管在图4中示出了第一卷积单元组410中的第一个卷积单元401-1即对输入图像101进行下采样,但这仅是示例性而无意限制本公开的范围。在一些实施例中,第一卷积单元组中靠近输入端的一个或多个卷积单元可以不对输入图像进行下采样。备选地,在一些实施例中,模型400可以包括在第一卷积单元组410之前的操作单元,第一卷积单元组410接收该操作单元输出的特征图。
此外,尽管图4示出了第一卷积单元组410包括串联排列的三个卷积单元,但这仅是示例性的。在本公开的实施例中,第一卷积单元组可以包括任何合适数目的卷积单元。另外,第一卷积单元组可以包括不改变特征图分辨率的卷积单元。
混合操作单元组430位于图像生成模型400的中间部分,并且被配置为应用注意力机制和卷积操作。混合操作单元组430可以包括一个或多个混合操作单元。在一些实施例中,混合操作单元组430可以包括串联排列的多个混合操作单元。在图4的示例中,混合操作单元组430包括串联排列的混合操作单元403-1、403-2、403-3、403-4、403-5、403-6,其也统称或单独称为混合操作单元403。混合操作单元组430接收第一卷积单元组410所生成的特征图451,并且基于特征图451生成具有第四分辨率的特征图452。
在图4的示例中,第一个混合操作单元403-1接收从第一卷积单元组410输出的特征图451,并对特征图451进行应用注意力和卷积操作从而生成新的特征图。在第一个混合操作单元403-1之后的其余混合操作单元对前一混合操作单元生成的特征图应用注意力和卷积操作,生成新的特征图,直到最后一个混合操作单元403-6生成特征图452。
尽管图4中示出每个混合操作单元均对特征图进行上采样或下采样,但这仅是示例性的。混合操作单元组可以包括不改变特征图分辨率的混合操作单元。此外,尽管图4示出了混合操作单元组430包括串联排列的六个卷积单元,但这仅是示例性的。在本公开的实施例中,混合操作单元组可以包括任何合适数目的混合操作单元。
混合操作单元403包括实现注意力机制的注意力子单元和执行卷积操作的卷积子单元。混合操作单元组430中的一个或多个混合单元可以被实现为图2或图3中所示的混合操作单元130。在一些实施例中,每个混合操作单元430被实现为混合操作单元130。换言之,每个混合操作单元430均包括轻量化的注意力子单元和轻量化的卷积子单元。
作为示例,在混合操作单元403-1被实现为混合操作单元130的情况下,特征图451是第一特征图131,并且由混合操作单元403-1生成的特征图是第二特征图132。又如,在混合操作单元403-6被实现为混合操作单元130的情况下,由混合操作单元403-5生成的特征图是第一特征图131,并且特征图452是第二特征图132。
第二卷积单元组420靠近图像生成模型400的输出端,并且可以包括一个或多个卷积单元。在一些实施例中,第二卷积单元组420可以包括串联排列的多个卷积单元。在图4的示例中,第二卷积单元组420包括串联排列的卷积单元402-1、402-2、402-3,其也统称为或单独称为卷积单元402。卷积单元402可以具有任何合适的结构来执行卷积操作。
第二卷积单元组420接收具有第四分辨率的特征图452,并且基于特征图452生成具有目标分辨率的输出图像450。目标分辨率大于第四分辨率。也即,第二卷积单元组420对特征图进行上采样,以生成具有目标分辨率的输出图像450。取决于具体的图像生成任务,初始分辨率与目标分辨率可以相同或不同。
在图4的示例中,第二卷积单元组420中的第一个卷积单元402-1对特征图452执行卷积操作,并生成特征图。在第一个卷积单元402-1之后的其余卷积单元对前一卷积单元生成的特征图执行卷积操作,生成新的特征图,直到第二卷积单元组420中的最后一个卷积单元402-3生成输出图像450。
尽管图4示出了第二卷积单元组420包括串联排列的三个卷积单元,但这仅是示例性的。在本公开的实施例中,第二卷积单元组可以包括任何合适数目的卷积单元。另外,第二卷积单元组可以包括不改变特征图分辨率的卷积单元。
总体而言,图像生成模型400可以是如图4所示的先下采样再上采样的网络。从输入端到输出端,所处理的特征图的分辨率先逐渐减小再逐渐增大。在靠近输入端和输出端的分辨率大的部分使用卷积单元,在中间分辨率小的部分使用注意力和卷积的混合操作单元。因此,在阶段(stage)级别,图像生成模型400由卷积单元和混合操作单元组成。同时,在块(block)级别,混合操作单元由注意力子单元和卷积子单元组成。
诸如Transformer的注意力单元比诸如CNN的卷积单元更强大,但计算效率更低,因为注意力单元旨在构建特征之间的全局关联,而卷积只捕获局部信息。通过统计在不同分辨率下的计算密度(计算量/延时),可以发现注意力单元在分辨率大的时候效率极低,在分辨率低的时候计算效率可以和卷积单元持平。此外,随着分辨率的降低,注意力单元和卷积单元之间的效率差距减小。
因此,在分辨率小的层引入注意力单元可以平衡图像生成的效果和效率。这样既可以保持高的计算效率,又可以实现比纯卷积网络更好的图像生成效果。
在一些实施例中,卷积单元401和卷积单元402可以被配置为对输入的特征图执行深度可分离卷积,即执行深度卷积和逐点卷积。在这种实施例中,卷积单元401和卷积单元402是深度可分离卷积单元。例如,卷积单元401和卷积单元402可以被实现为或包括MobileNet V1、MobileNet V2、MobileNet V3,等等。利用深度可分离卷积,可以使模型400更为轻量,减小计算开销。以此方式,图像生成模型400在终端设备(例如,移动设备)可以具有卓越的性能,并且是部署友好的。
在一些实施例中,特征图451的第一分辨率可以等于特征图452的第四分辨率。在这种实施例中,对于小于第一分辨率的特征图,注意力单元可以具有与卷积单元基本相同或高于卷积单元的计算效率。以此方式,可以实现计算效率和生成效果之间的平衡。
以上描述了图像生成模型400的总体结构。应当理解,该总体结构是示例性的。在一些实施例中,第一卷积单元组410可以被替换为第一特征生成模块或者被包括在第一特征生成模块中。该第一特征生成模块被配置为基于输入图像101进行下采样,生成特征图451。备选地或附加地,在一些实施例中,第二卷积单元组420可以被替换为第二特征生成模块或者被包括在第二特征生成模块中。该第二特征生成模块被配置为基于特征图452进行上采样,生成具有目标分辨率的输出图像450。可以以任何合适的网络来实现第一特征生成模块和第二特征生成模块。此外,可以以多种合适的方式细化图像生成模型400不同部分的结构。
在一些实施例中,第一卷积单元组410可以具有分辨率逐渐减小的结构。具体地,由第一卷积单元组410中的卷积单元401输出的特征图的分辨率可以按照卷积单元串联排列的顺序依次减小到第一分辨率。在图4中,由卷积单元401-2生成的特征图的分辨率小于由卷积单元401-1生成的特征图的分辨率。由卷积单元402-3生成的特征图的分辨率(即,第一分辨率)小于由卷积单元401-2生成的特征图的分辨率。
相应地,第二卷积单元组420可以具有分辨率逐渐增大的结构。具体地,由第二卷积单元组420中的卷积单元402输出的特征图的分辨率可以按照卷积单元串联排列的顺序依次增大到目标分辨率。在图4中,由卷积单元402-2生成的特征图的分辨率大于由卷积单元402-1生成的特征图的分辨率。由卷积单元402-3生成的输出图像的分辨率(即,目标分辨率)大于由卷积单元402-2生成的特征图的分辨率。
在一些实施例中,混合操作单元组430可以具有先下采样再上采样的结构。具体地,混合操作单元组430可以包括用于下采样的第一混合操作单元分组和用于上采样的第二混合操作单元分组。诸如图4所示,第一混合操作单元分组包括混合操作单元403-1、403-2、403-3,并且可以基于特征图451生成具有第三分辨率的特征图453。第三分辨率小于第一分辨率和第四分辨率。第二混合操作单元分组包括混合操作单元403-4、403-5、403-6,并且可以基于特征图453生成特征图452。
在一些实施例中,第一混合操作单元分组中的混合操作单元403-1、403-2、403-3可以具有分辨率逐渐减小的结构。具体地,由第一混合操作单元分组中的混合操作单元403-1、403-2、403-3输出的特征图的分辨率可以按照混合操作单元串联排列的顺序依次减小到第三分辨率。在图4中,由混合操作单元403-2生成的特征图的分辨率小于由混合操作单元403-1生成的特征图的分辨率。由混合操作单元403-3生成的特征图的分辨率(即,第三分辨率)小于由混合操作单元403-2生成的特征图的分辨率。
相应地,第二混合操作单元分组中的混合操作单元403-4、403-5、403-6可以具有分辨率逐渐增大的结构。具体地,由第二混合操作单元分组中的混合操作单元403-4、403-5、403-6输出的特征图的分辨率可以按照混合操作单元串联排列的顺序依次增大到第四分辨率。在图2中,由混合操作单元403-5生成的特征图的分辨率大于由混合操作单元403-4生成的特征图的分辨率。由混合操作单元403-6生成的特征图452的分辨率(即,第四分辨率)大于由混合操作单元403-5生成的特征图的分辨率。
在一些实施例中,图像生成模型400可以是基于GAN而得到的。在这种实施例中,图像生成模型400是GAN中的生成器。在模型训练中,使用对应的鉴别模型来训练图像生成模型400。可以采用标准的二元交叉熵函数来优化图像生成模型400的参数。具体的损失函数定义可以取决于模型所应用于的图像生成任务。
示例过程
图5示出了根据本公开的一些实施例的处理图像的过程500的流程图。过程500可以在计算设备110处实现。为便于讨论,将参考图1至图4来描述过程500。
在框510,计算设备110基于第一特征图131和由查询信息、键信息和值信息共享的权重,根据混合操作单元130中的注意力子单元230,生成加权特征图201。第一特征图131是基于输入图像101得到的。注意力子单元230包括由查询信息、键信息和值信息共享的线性映射层。即,在注意力子单元230中,Wq=Wk=Wv
在框520,计算设备110通过对加权特征图201执行卷积操作,根据混合操作单元130中的第一卷积子单元210生成第一卷积特征图202。在一些实施例中,第一卷积子单元210可以被配置为对输入到第一卷积子单元的特征图执行深度卷积和逐点卷积。即,第一卷积子单元210所执行的卷积操作是深度可分离卷积。
在框530,计算设备110基于第一卷积特征图202和第一特征图131,生成针对输入图像101的处理结果102。在图像生成任务中,处理结果102包括输出图像。
在一些实施例中,计算设备110可以基于第一卷积特征图202和第一特征图201,根据混合操作单元130生成第二特征图132。计算设备110可以基于第二特征图132生成针对输入图像101的处理结果102。
在一些实施例中,混合操作单元130被包括在GAN的生成器中,并且处理结果针对输入图像的输出图像。
在一些实施例中,混合操作单元130还包括第二卷积子单元320。为了生成第二特征图132,可以将第一卷积特征图202和第一特征图131组合成混合特征图303。可以基于混合特征图303,根据混合操作单元130中的第二卷积子单元320,生成第二卷积特征图304。可以将第二卷积特征图304和混合特征图303组合成第二特征图132。
在一些实施例中,可以将第一卷积特征图202和第一特征图131相加作为混合特征图303。可以将第二卷积特征图304和混合特征图303相加作为第二特征图132。
在一些实施例中,第二卷积子单元320可以被配置为对输入到第二卷积子单元的特征图执行深度卷积和逐点卷积。即,第二卷积子单元320所执行的卷积操作是深度可分离卷积。
在一些实施例中,混合操作单元130还包括以下至少一项:批归一化层,ReLU激活函数层。
在一些实施例中,混合操作单元130可以被实现在图像生成模型中。例如,可以用混合操作单元130来实现混合操作单元403-1。在这种实施例中,计算设备110可以基于具有初始分辨率的输入图像101,根据第一卷积单元组430,生成具有第一分辨率的第一特征图131。第一分辨率小于初始分辨率。也即,第一特征图131可以是图4中的特征图451。
在一些实施例中,计算设备110可以基于第二特征图132,根据混合操作单元组,生成具有第四分辨率的第四特征图。混合操作单元组包括至少一个混合操作单元。混合操作单元组例如是串联排列的混合操作单元403-2至403-6,第四特征图例如是特征图452。计算设备110可以基于第四特征图,根据第二卷积单元组420,生成具有目标分辨率的输出图像450。目标分辨率大于第四分辨率。
在一些实施例中,第一卷积单元组410和第二卷积单元组420中的卷积单元被配置为对输入到卷积单元的特征图执行深度卷积和逐点卷积。也即,由第一卷积单元组410和第二卷积单元组420执行的卷积操作可以是深度可分离卷积。
在一些实施例中,第一卷积单元组410包括串联排列的多个卷积单元,并且由第一卷积单元组410中的各个卷积单元输出的特征图的分辨率按照卷积单元的串联排列顺序依次减小到第一分辨率。第二卷积单元组420包括串联排列的多个卷积单元,并且由第二卷积单元组420中的各个卷积单元输出的特征图的分辨率按照卷积单元的串联排列顺序依次增大到目标分辨率。
示例装置、计算系统和设备
图6示出了根据本公开的某些实施例的用于处理图像的装置600的示意性结构框图。装置600可以被实现为或者被包括在计算设备110中。装置600中的各个模块/组件可以由硬件、软件、固件或者它们的任意组合来实现。
如图所示,装置600包括注意力模块610,被配置为基于第一特征图和由查询信息、键信息和值信息共享的权重,根据混合操作单元中的注意力子单元生成加权特征图,第一特征图是基于输入图像得到的。装置600还包括第一卷积模块620,被配置为通过对加权特征图执行卷积操作,根据混合操作单元中的第一卷积子单元生成第一卷积特征图。装置600还包括结果生成模块630,被配置为基于第一卷积特征图和第一特征图,生成针对输入图像的处理结果。。
在一些实施例中,结果生成模块630包括:特征融合模块,被配置为基于第一卷积特征图和第一特征图,根据混合操作单元生成第二特征图;以及特征图处理模块,被配置为基于第二特征图生成针对输入图像的处理结果。
在一些实施例中,特征融合模块包括:第一组合模块,被配置为将第一卷积特征图和第一特征图组合成混合特征图;第二卷积模块,被配置为基于混合特征图,根据混合操作单元中的第二卷积子单元,生成第二卷积特征图;以及第二组合模块,被配置为将第二卷积特征图和混合特征图组合成第二特征图。
在一些实施例中,第一组合模块进一步被配置为:将第一卷积特征图和第一特征图相加作为混合特征图,并且其中第二组合模块进一步被配置为:将第二卷积特征图和混合特征图相加作为第二特征图。
在一些实施例中,装置600还包括:输入端模块,被配置为基于具有初始分辨率的输入图像,根据第一卷积单元组,生成具有第一分辨率的第一特征图,第一分辨率小于初始分辨率。
在一些实施例中,结果生成模块640包括:中间模块,被配置为基于第二特征图,根据混合操作单元组,生成具有第四分辨率的第四特征图,混合操作单元组包括至少一个混合操作单元;以及输出端模块,被配置为基于第四特征图,根据第二卷积单元组,生成具有目标分辨率的输出图像作为处理结果,目标分辨率大于第四分辨率。
在一些实施例中,第一卷积单元组和第二卷积单元组中的卷积单元被配置为对输入到卷积单元的特征图执行深度卷积和逐点卷积。
在一些实施例中,第一卷积单元组包括串联排列的多个卷积单元,并且由第一卷积单元组中的各个卷积单元输出的特征图的分辨率按照卷积单元的串联排列顺序依次减小到第一分辨率,并且第二卷积单元组包括串联排列的多个卷积单元,并且由第二卷积单元组中串联排列的各个卷积单元输出的特征图的分辨率按照卷积单元的串联排列顺序依次增大到目标分辨率。
在一些实施例中,混合操作单元还包括以下至少一项:批归一化层,修正线性单元激活函数层。
在一些实施例中,混合操作单元被包括在生成对抗网络的生成器中,并且处理结果包括针对输入图像的输出图像。
在一些实施例中,第一卷积子单元和第二卷积子单元中的至少一者被配置为对输入到卷积子单元的特征图执行深度卷积和逐点卷积。
图7示出了根据本公开的一些实施例的用于处理图像的计算系统700的示意性结构框图。计算系统700可以被实现为或者被包括在计算设备110中。
如图7所示,计算系统700一个或多个处理器710以及一个或多个非暂时性计算机可读介质720。一个或多个非暂时性计算机可读介质720共同存储图像处理模型730。图像处理模型830被配置为处理输入图像以生成处理结果。图像处理模型730包括至少一个混合操作单元750。图像处理模型730例如是图像处理模型120。
混合操作单元750包括注意力模块751,被配置为应用注意力机制,基于由查询信息、键信息和值信息共享的权重,根据第一特征图生成加权特征图,其中第一特征图是基于输入图像得到的。混合操作单元750还包括第一卷积模块752,被配置为基于加权特征图生成第一卷积特征图。混合操作单元750还包括特征融合模块753,被配置为基于第一卷积特征图和第一特征图,生成第二特征图,其中第二特征图用于生成处理结果。混合操作单元750例如是混合操作单元130。
在一些实施例中,特征融合模块包括:第一组合模块,被配置为将第一卷积特征图和第一特征图组合成混合特征图;第二卷积模块,被配置为基于混合特征图生成第二卷积特征图;以及第二组合模块,被配置为将第二卷积特征图和混合特征图组合成第二特征图。
在一些实施例中,第一组合模块进一步被配置为:将第一卷积特征图和第一特征图相加作为混合特征图,并且其中第二组合模块进一步被配置为:将第二卷积特征图和混合特征图相加作为第二特征图。
在一些实施例中,计算系统700还包括:输入端模块,包括第一卷积单元组(例如,第一卷积单元组410),第一卷积单元组包括至少一个卷积单元。输入端模块被配置为基于具有初始分辨率的输入图像生成具有第一分辨率的第一特征图,第一分辨率小于初始分辨率。
在一些实施例中,混合操作单元750被包括在混合操作模块中。混合操作模块被进一步配置为基于第一特征图生成具有第三分辨率的第三特征图,并基于第三特征图生成具有第四分辨率的第四特征图,其中第三分辨率小于第四分辨率。在这种实施例中,混合操作单元750例如是混合操作单元430-1,并且第一特征图例如是特征图451,第三特征图例如是特征图453,第四特征图例如是特征图452。
在一些实施例中,计算系统700还包括:输出端模块,包括第二卷积单元组(例如,第二卷积单元组420),第二卷积单元组包括至少一个卷积单元。输出端模块被配置为基于具有第二分辨率的第二特征图,生成具有目标分辨率的输出图像作为处理结果,其中目标分辨率大于第二分辨率。在这种实施例中,混合操作单元750例如是混合操作单元430-6,并且第二特征图例如是特征图452,并且第二分辨率等于上文描述的第四分辨率。
在一些实施例中,第一卷积单元组和第二卷积单元组中的卷积单元被配置为对输入到卷积单元的特征图执行深度卷积和逐点卷积。
在一些实施例中,第一卷积单元组包括串联排列的多个卷积单元,并且由第一卷积单元组的各个卷积单元输出的特征图的分辨率按照卷积单元的串联排列顺序依次减小到第一分辨率。在一些实施例中,第二卷积单元组包括串联排列的多个卷积单元,并且由第二卷积单元组中的各个卷积单元输出的特征图的分辨率按照卷积单元的串联排列顺序依次增大到目标分辨率。
在一些实施例中,第一卷积模块752和第二卷积模块中的至少一者被配置为对输入的特征图执行深度卷积和逐点卷积。
图8示出了示出了其中可以实施本公开的一个或多个实施例的计算设备800的框图。应当理解,图8所示出的计算设备800仅仅是示例性的,而不应当构成对本文所描述的实施例的功能和范围的任何限制。图8所示出的计算设备800可以用于实现图1的计算设备110。
如图8所示,计算设备800是通用计算设备的形式。计算设备800的组件可以包括但不限于一个或多个处理器或处理单元810、存储器820、存储设备830、一个或多个通信单元840、一个或多个输入设备850以及一个或多个输出设备860。处理单元810可以是实际或虚拟处理器并且能够根据存储器820中存储的程序来执行各种处理。在多处理器系统中,多个处理单元并行执行计算机可执行指令,以提高计算设备800的并行处理能力。
计算设备800通常包括多个计算机存储介质。这样的介质可以是计算设备800可访问的任何可以获取的介质,包括但不限于易失性和非易失性介质、可拆卸和不可拆卸介质。存储器820可以是易失性存储器(例如寄存器、高速缓存、随机访问存储器(RAM))、非易失性存储器(例如,只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪存)或它们的某种组合。存储设备830可以是可拆卸或不可拆卸的介质,并且可以包括机器可读介质,诸如闪存驱动、磁盘或者任何其他介质,其可以能够用于存储信息和/或数据(例如用于训练的训练数据)并且可以在计算设备800内被访问。
计算设备800可以进一步包括另外的可拆卸/不可拆卸、易失性/非易失性存储介质。尽管未在图8中示出,可以提供用于从可拆卸、非易失性磁盘(例如“软盘”)进行读取或写入的磁盘驱动和用于从可拆卸、非易失性光盘进行读取或写入的光盘驱动。在这些情况中,每个驱动可以由一个或多个数据介质接口被连接至总线(未示出)。存储器820可以包括计算机程序产品825,其具有一个或多个程序模块,这些程序模块被配置为执行本公开的各种实施例的各种方法或动作。
通信单元840实现通过通信介质与其他计算设备进行通信。附加地,计算设备800的组件的功能可以以单个计算集群或多个计算机器来实现,这些计算机器能够通过通信连接进行通信。因此,计算设备800可以使用与一个或多个其他服务器、网络个人计算机(PC)或者另一个网络节点的逻辑连接来在联网环境中进行操作。
输入设备850可以是一个或多个输入设备,例如鼠标、键盘、追踪球等。输出设备860可以是一个或多个输出设备,例如显示器、扬声器、打印机等。计算设备800还可以根据需要通过通信单元840与一个或多个外部设备(未示出)进行通信,外部设备诸如存储设备、显示设备等,与一个或多个使得用户与计算设备800交互的设备进行通信,或者与使得计算设备800与一个或多个其他计算设备通信的任何设备(例如,网卡、调制解调器等)进行通信。这样的通信可以经由输入/输出(I/O)接口(未示出)来执行。
根据本公开的示例性实现方式,提供了一种计算机可读存储介质,其上存储有计算机可执行指令,其中计算机可执行指令被处理器执行以实现上文描述的方法。根据本公开的示例性实现方式,还提供了一种计算机程序产品,计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括计算机可执行指令,而计算机可执行指令被处理器执行以实现上文描述的方法。
这里参照根据本公开实现的方法、装置、设备和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理单元,从而生产出一种机器,使得这些指令在通过计算机或其他可编程数据处理装置的处理单元执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上,使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其他可编程数据处理装置、或其他设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实现的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本公开的各实现,上述说明是示例性的,并非穷尽性的,并且也不限于所公开的各实现。在不偏离所说明的各实现的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实现的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其他普通技术人员能理解本文公开的各个实现方式。

Claims (20)

1.一种用于处理图像的计算系统,包括:
一个或多个处理器;以及
一个或多个非暂时性计算机可读介质,其共同存储:
图像处理模型,所述图像处理模型被配置为处理输入图像以生成处理结果,所述图像处理模型包括至少一个混合操作单元,所述混合操作单元包括:
注意力模块,被配置为应用注意力机制,基于由查询信息、键信息和值信息共享的权重,根据第一特征图生成加权特征图,其中所述第一特征图是基于所述输入图像得到的;
第一卷积模块,被配置为基于所述加权特征图生成第一卷积特征图;以及
特征融合模块,被配置为基于所述第一卷积特征图和所述第一特征图,生成第二特征图,其中所述第二特征图用于生成所述处理结果。
2.根据权利要求1所述的计算系统,其中所述特征融合模块包括:
第一组合模块,被配置为将所述第一卷积特征图和所述第一特征图组合成混合特征图;
第二卷积模块,被配置为基于所述混合特征图生成第二卷积特征图;以及
第二组合模块,被配置为将所述第二卷积特征图和所述混合特征图组合成所述第二特征图。
3.根据权利要求2所述的计算系统,其中所述第一组合模块进一步被配置为:将所述第一卷积特征图和所述第一特征图相加作为所述混合特征图,并且
其中所述第二组合模块进一步被配置为:将所述第二卷积特征图和所述混合特征图相加作为所述第二特征图。
4.根据权利要求1所述的计算系统,还包括:
输入端模块,包括第一卷积单元组,所述第一卷积单元组包括至少一个卷积单元,并且所述输入端模块被配置为基于具有初始分辨率的所述输入图像生成具有第一分辨率的所述第一特征图,所述第一分辨率小于所述初始分辨率。
5.根据权利要求4所述的计算系统,其中所述混合操作单元被包括在混合操作模块中,并且所述混合操作模块被进一步配置为基于所述第一特征图生成具有第三分辨率的第三特征图,并基于所述第三特征图生成具有第四分辨率的第四特征图,其中所述第三分辨率小于所述第四分辨率。
6.根据权利要求1所述的计算系统,还包括:
输出端模块,包括第二卷积单元组,所述第二卷积单元组包括至少一个卷积单元,并且所述输出端模块被配置为基于具有第二分辨率的所述第二特征图,生成具有目标分辨率的输出图像作为所述处理结果,其中所述目标分辨率大于所述第二分辨率。
7.根据权利要求6所述的计算系统,其中所述第一卷积单元组和所述第二卷积单元组中的卷积单元被配置为对输入到所述卷积单元的特征图执行深度卷积和逐点卷积。
8.根据权利要求4所述的计算系统,其中所述第一卷积单元组包括串联排列的多个卷积单元,并且由所述第一卷积单元组的各个卷积单元输出的特征图的分辨率按照卷积单元的串联排列顺序依次减小到所述第一分辨率。
9.根据权利要求6所述的计算系统,其中所述第二卷积单元组包括串联排列的多个卷积单元,并且由所述第二卷积单元组中的各个卷积单元输出的特征图的分辨率按照卷积单元的串联排列顺序依次增大到所述目标分辨率。
10.根据权利要求2所述的计算系统,其中所述第一卷积模块和所述第二卷积模块中的至少一者被配置为对输入的特征图执行深度卷积和逐点卷积。
11.一种处理图像的方法,包括:
基于第一特征图和由查询信息、键信息和值信息共享的权重,根据混合操作单元中的注意力子单元生成加权特征图,所述第一特征图是基于输入图像得到的;
通过对所述加权特征图执行卷积操作,根据混合操作单元中的第一卷积子单元生成第一卷积特征图;以及
基于所述第一卷积特征图和所述第一特征图,生成针对所述输入图像的处理结果。
12.根据权利要求11所述的方法,其中基于所述第一卷积特征图和所述第一特征图生成针对所述输入图像的处理结果包括:8
基于所述第一卷积特征图和所述第一特征图,根据所述混合操作单元生成第二特征图;以及
基于所述第二特征图生成针对所述输入图像的处理结果。
13.根据权利要求12所述的方法,其中生成所述第二特征图包括:
将所述第一卷积特征图和所述第一特征图组合成混合特征图;
基于所述混合特征图,根据所述混合操作单元中的第二卷积子单元,生成第二卷积特征图;以及
将所述第二卷积特征图和所述混合特征图组合成所述第二特征图。
14.根据权利要求13所述的方法,其中将所述第一卷积特征图和所述第一特征图组合成所述混合特征图包括:
将所述第一卷积特征图和所述第一特征图相加作为所述混合特征图,并且
其中将所述第二卷积特征图和所述混合特征图组合成所述第二特征图包括:
将所述第二卷积特征图和所述混合特征图相加作为所述第二特征图。
15.根据权利要求2所述的方法,还包括:
基于具有初始分辨率的所述输入图像,根据第一卷积单元组,生成具有第一分辨率的所述第一特征图,所述第一分辨率小于所述初始分辨率。
16.根据权利要求15所述的方法,其中生成所述处理结果包括:
基于所述第二特征图,根据混合操作单元组,生成具有第四分辨率的第四特征图,所述混合操作单元组包括至少一个所述混合操作单元;以及
基于所述第四特征图,根据第二卷积单元组,生成具有目标分辨率的输出图像作为所述处理结果,所述目标分辨率大于所述第四分辨率。
17.根据权利要求16所述的方法,其中所述第一卷积单元组包括串联排列的多个所述卷积单元,并且由所述第一卷积单元组中的各个卷积单元输出的特征图的分辨率按照卷积单元的串联排列顺序依次减小到所述第一分辨率,并且
其中所述第二卷积单元组包括串联排列的多个所述卷积单元,并且由所述第二卷积单元组中的各个卷积单元输出的特征图的分辨率按照卷积单元的串联排列顺序依次增大到所述目标分辨率。
18.根据权利要求13所述的方法,其中所述第一卷积子单元和所述第二卷积子单元中的至少一者被配置为对输入到卷积子单元的特征图执行深度卷积和逐点卷积。
19.一种电子设备,包括:
至少一个处理单元;以及
至少一个存储器,所述至少一个存储器被耦合到所述至少一个处理单元并且存储用于由所述至少一个处理单元执行的指令,所述指令在由所述至少一个处理单元执行时使所述电子设备执行根据权利要求11至18中任一项所述的方法。
20.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序可由处理器执行以实现根据权利要求11至18中任一项所述的方法。
CN202210851223.3A 2022-07-19 2022-07-19 用于处理图像的计算系统、方法、设备和存储介质 Pending CN117475165A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210851223.3A CN117475165A (zh) 2022-07-19 2022-07-19 用于处理图像的计算系统、方法、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210851223.3A CN117475165A (zh) 2022-07-19 2022-07-19 用于处理图像的计算系统、方法、设备和存储介质

Publications (1)

Publication Number Publication Date
CN117475165A true CN117475165A (zh) 2024-01-30

Family

ID=89631671

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210851223.3A Pending CN117475165A (zh) 2022-07-19 2022-07-19 用于处理图像的计算系统、方法、设备和存储介质

Country Status (1)

Country Link
CN (1) CN117475165A (zh)

Similar Documents

Publication Publication Date Title
US11609968B2 (en) Image recognition method, apparatus, electronic device and storage medium
Li et al. Low-latency video semantic segmentation
US11307864B2 (en) Data processing apparatus and method
US20210224125A1 (en) Operation Accelerator, Processing Method, and Related Device
Zhao et al. Synthesizing informative training samples with gan
US11538244B2 (en) Extraction of spatial-temporal feature representation
US10582250B2 (en) Integrated video codec and inference engine
CN112001914A (zh) 深度图像补全的方法和装置
US20220083857A1 (en) Convolutional neural network operation method and device
CN108140144B (zh) 一种对神经网络模型进行训练的方法、装置及电子设备
US11714921B2 (en) Image processing method with ash code on local feature vectors, image processing device and storage medium
CN110889416B (zh) 一种基于级联改良网络的显著性物体检测方法
CN110489428B (zh) 多维稀疏矩阵压缩方法、解压缩方法、装置、设备及介质
CN113344794B (zh) 一种图像处理方法、装置、计算机设备及存储介质
WO2022166258A1 (zh) 行为识别方法、装置、终端设备及计算机可读存储介质
US11276249B2 (en) Method and system for video action classification by mixing 2D and 3D features
WO2021147276A1 (zh) 数据处理方法、装置及芯片、电子设备、存储介质
EP4285314A1 (en) Simultaneously correcting image degradations of multiple types in an image of a face
Wang et al. Osffnet: Omni-stage feature fusion network for lightweight image super-resolution
Dohi et al. Deep-pipelined FPGA implementation of ellipse estimation for eye tracking
CN117475165A (zh) 用于处理图像的计算系统、方法、设备和存储介质
CN115293252A (zh) 信息分类的方法、装置、设备和介质
US20210224632A1 (en) Methods, devices, chips, electronic apparatuses, and storage media for processing data
CN115731111A (zh) 图像数据处理装置及方法、电子设备
CN109003223B (zh) 图片处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination