CN116704200A - 图像特征提取、图像降噪方法及相关装置 - Google Patents
图像特征提取、图像降噪方法及相关装置 Download PDFInfo
- Publication number
- CN116704200A CN116704200A CN202310716776.2A CN202310716776A CN116704200A CN 116704200 A CN116704200 A CN 116704200A CN 202310716776 A CN202310716776 A CN 202310716776A CN 116704200 A CN116704200 A CN 116704200A
- Authority
- CN
- China
- Prior art keywords
- window
- matrix
- feature
- matrixes
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 106
- 230000009467 reduction Effects 0.000 title claims abstract description 103
- 238000000034 method Methods 0.000 title claims abstract description 97
- 230000007246 mechanism Effects 0.000 claims abstract description 95
- 239000011159 matrix material Substances 0.000 claims description 499
- 230000006798 recombination Effects 0.000 claims description 41
- 238000005215 recombination Methods 0.000 claims description 41
- 238000004590 computer program Methods 0.000 claims description 14
- 238000005192 partition Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 abstract description 32
- 238000012545 processing Methods 0.000 abstract description 22
- 230000000750 progressive effect Effects 0.000 abstract description 7
- 238000012549 training Methods 0.000 description 49
- 230000008569 process Effects 0.000 description 28
- 239000000523 sample Substances 0.000 description 19
- 238000010586 diagram Methods 0.000 description 18
- 230000006870 function Effects 0.000 description 12
- 230000002093 peripheral effect Effects 0.000 description 10
- 238000013135 deep learning Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 8
- 230000004913 activation Effects 0.000 description 6
- 230000008901 benefit Effects 0.000 description 6
- 230000008521 reorganization Effects 0.000 description 6
- 238000005070 sampling Methods 0.000 description 6
- 238000007634 remodeling Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000007667 floating Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000000903 blocking effect Effects 0.000 description 2
- 239000000919 ceramic Substances 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000033001 locomotion Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000010409 thin film Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/30—Noise filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20172—Image enhancement details
- G06T2207/20192—Edge enhancement; Edge preservation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Processing (AREA)
Abstract
本申请公开了一种图像特征提取、图像降噪方法及相关装置,属于图像处理技术领域。本申请能够从较大局部感受野和全局感受野的递进角度加强特征局部区域以及全域信息的联系,使得自注意力机制的特征提取方法在降低计算复杂度的同时依然能够捕获长距离的像素依赖关系,在基于像素级的图像降噪任务中能够很好地去除图像噪声,并且能最大限度地保留图像的细节信息。
Description
技术领域
本申请涉及图像处理技术领域,特别涉及一种图像特征提取、图像降噪方法及相关装置。
背景技术
高分辨率的图像能够保存丰富的细节信息,从视觉上给人更加清晰直观地呈现。将高分辨率的图像应用于诸如目标检测、目标分割等计算机视觉任务中,能够获得更好的识别效果。然而图像在获取和传输过程中,受图像传感器的自身特性以及传输介质等因素的影响,会在图像中引入大量的噪声,使得图像的细节信息被破坏。而带有噪声的图像在计算机视觉任务中获得的效果往往较差。所以如何有效去除噪声并尽可能地保留细节信息,获得高质量的图像尤为重要。
发明内容
本申请提供了一种图像特征提取、图像降噪方法及相关装置,可以解决相关技术的问题。所述技术方案如下:
一方面,提供了一种图像特征提取方法,所述方法包括:
对待提取特征的目标图像的三维矩阵进行划分得到多个第一窗口矩阵,每个第一窗口矩阵对应多个像素;
基于所述多个第一窗口矩阵采用自注意力机制确定窗内特征矩阵,所述窗内特征矩阵指示所述多个第一窗口矩阵中同一窗口矩阵对应的像素相关性;
对所述窗内特征矩阵进行划分得到多个第二窗口矩阵,每个第二窗口矩阵对应多个像素,相同位置的第一窗口矩阵和第二窗口矩阵的像素对应;
基于所述多个第二窗口矩阵采用自注意力机制确定窗间特征矩阵,所述窗间特征矩阵指示所述多个第二窗口矩阵中不同窗口矩阵对应的像素相关性;
基于所述目标图像的三维矩阵和所述窗间特征矩阵确定所述目标图像的特征矩阵。
另一方面,提供了一种图像降噪方法,所述方法包括:
将待降噪的目标图像输入至已训练的图像降噪模型,所述图像降噪模型包括采用自注意力机制的特征提取模块;
通过所述特征提取模块对输入矩阵进行特征提取得到输出矩阵,所述输入矩阵是指基于所述目标图像确定的输入至所述特征提取模块的矩阵;
其中,所述特征提取模块的特征提取过程包括:对所述输入矩阵进行划分得到多个第一窗口矩阵,每个第一窗口矩阵对应多个像素;基于所述多个第一窗口矩阵采用自注意力机制确定窗内特征矩阵,所述窗内特征矩阵指示所述多个第一窗口矩阵中同一窗口矩阵对应的像素相关性;对所述窗内特征矩阵进行划分得到多个第二窗口矩阵,每个第二窗口矩阵对应多个像素,相同位置的第一窗口矩阵和第二窗口矩阵的像素对应;基于所述多个第二窗口矩阵采用自注意力机制确定窗间特征矩阵,所述窗间特征矩阵指示所述多个第二窗口矩阵中不同窗口矩阵对应的像素相关性;基于所述输入矩阵和所述窗间特征矩阵确定所述输出矩阵;
基于所述输出矩阵确定所述图像降噪模型输出的降噪后的目标图像。
另一方面,提供了一种图像特征提取装置,所述装置包括:
第一划分模块,用于对待提取特征的目标图像的三维矩阵进行划分得到多个第一窗口矩阵,每个第一窗口矩阵对应多个像素;
窗内特征确定模块,用于基于所述多个第一窗口矩阵采用自注意力机制确定窗内特征矩阵,所述窗内特征矩阵指示所述多个第一窗口矩阵中同一窗口矩阵对应的像素相关性;
第二划分模块,用于对所述窗内特征矩阵进行划分得到多个第二窗口矩阵,每个第二窗口矩阵对应多个像素,相同位置的第一窗口矩阵和第二窗口矩阵的像素对应;
窗间特征确定模块,用于基于所述多个第二窗口矩阵采用自注意力机制确定窗间特征矩阵,所述窗间特征矩阵指示所述多个第二窗口矩阵中不同窗口矩阵对应的像素相关性;
图像特征确定模块,用于基于所述目标图像的三维矩阵和所述窗间特征矩阵确定所述目标图像的特征矩阵。
另一方面,提供了一种图像降噪装置,所述装置包括:
图像输入模块,用于将待降噪的目标图像输入至已训练的图像降噪模型,所述图像降噪模型包括采用自注意力机制的特征提取模块;
特征提取模块,用于通过所述特征提取模块对输入矩阵进行特征提取得到输出矩阵,所述输入矩阵是指基于所述目标图像确定的输入至所述特征提取模块的矩阵;
其中,所述特征提取模块的特征提取过程包括:对所述输入矩阵进行划分得到多个第一窗口矩阵,每个第一窗口矩阵对应多个像素;基于所述多个第一窗口矩阵采用自注意力机制确定窗内特征矩阵,所述窗内特征矩阵指示所述多个第一窗口矩阵中同一窗口矩阵对应的像素相关性;对所述窗内特征矩阵进行划分得到多个第二窗口矩阵,每个第二窗口矩阵对应多个像素,相同位置的第一窗口矩阵和第二窗口矩阵的像素对应;基于所述多个第二窗口矩阵采用自注意力机制确定窗间特征矩阵,所述窗间特征矩阵指示所述多个第二窗口矩阵中不同窗口矩阵对应的像素相关性;基于所述输入矩阵和所述窗间特征矩阵确定所述输出矩阵;
图像输出模块,用于基于所述输出矩阵确定所述图像降噪模型输出的降噪后的目标图像。
另一方面,提供了一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器用于存放计算机程序,所述处理器用于执行所述存储器上所存放的计算机程序,以实现上述第一方面或第二方面所述方法的步骤。
另一方面,提供了一种计算机可读存储介质,所述存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面或第二方面所述方法的步骤。
另一方面,提供了一种包含指令的计算机程序产品,当所述指令在计算机上运行时,使得计算机执行上述第一方面或第二方面所述方法的步骤。
本申请提供的技术方案至少可以带来以下有益效果:
在本申请实施例中,通过对目标图像的三维矩阵进行划分得到多个第一窗口矩阵,从而确定每个第一窗口矩阵内像素的相似性,这样,能够获得较大的局部图像感受野,即获得像素的长距离依赖关系,同时还可以简化计算复杂度。而且,通过对窗内特征矩阵进行划分得到多个第二窗口矩阵,从而确定不同第二窗口矩阵间像素的相似性,这样,能够一定程度上获得图像的全局感受野,使得窗口间的信息得到充分交流,进一步获得更长距离的像素依赖关系。也就是说,本申请实施例提供的方法除降低计算复杂度外,还能够从较大局部感受野和全局感受野的递进角度加强特征局部区域以及全域信息的联系,使得自注意力机制的特征提取方法依然能够捕获长距离的像素依赖关系,在基于像素级的图像降噪任务中能够很好地去除图像噪声,并且能最大限度地保留图像的细节信息。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种确定二维矩阵QKV的示意图;
图2是本申请实施例提供的一种自注意力机制的原理示意图;
图3是本申请实施例提供的一种自注意力机制应用到图像特征提取上的流程示意图;
图4是本申请实施例提供的一种图像特征提取方法的流程图;
图5是本申请实施例提供的一种确定窗内特征矩阵的示意图;
图6是本申请实施例提供的一种确定窗间特征矩阵的示意图;
图7是本申请实施例提供的一种改进的采用注意力机制的特征提取模块的示意图;
图8是本申请实施例提供的一种图像降噪方法的流程图;
图9是本申请实施例提供的一种图像降噪模型的结构示意图;
图10是本申请实施例提供的一种升维模块和下采样模块的结构示意图;
图11是本申请实施例提供的一种上采样模块的结构示意图;
图12是本申请实施例提供的一种图像降噪模型的训练过程示意图;
图13是本申请实施例提供的一种图像特征提取装置的结构示意图;
图14是本申请实施例提供的一种图像降噪装置的结构示意图;
图15是本申请实施例提供的一种终端的结构示意图;
图16是本申请实施例提供的一种服务器的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
随着传感器和数字图像处理技术的发展,获取高分辨图像的方式变得更加便捷和多样,如智能手机、数码相机、车载摄像头、监控探头等。高分辨率的图像能够保存丰富的细节信息,从视觉上给人更加清晰直观地呈现。将高分辨率的图像应用于诸如目标检测、目标分割等计算机视觉任务中,能获得更好的识别效果。然而图像在获取和传输过程中,受图像传感器的自身特性、传输介质、记录设备等因素的影响,会在图像中引入大量的噪声,使得图像的细节信息被破坏。而带有噪声的图像在计算机视觉任务中获得的效果往往较差。所以如何有效去除噪声并尽可能地保留细节信息,从而获得高质量的图像尤为重要。
目前的图像降噪技术主要有基于传统的图像降噪方法和基于深度学习的图像降噪方法。传统的图像降噪方法根据信号域可以分为三类,第一类为空间域方法,主要在图像空间域对像素进行处理,第二类为频域方法,主要在图像频率域对像素进行处理,第三类为变换域方法,主要在变换域对图像系数进行修正处理,然后经过逆变换得到最终处理后的空域图像。
随着处理器计算能力和深度学习理论的高速发展,基于深度学习的图像降噪方法作为一种新型的图像降噪技术已成为热点。与传统的图像降噪方法相比,基于深度学习的图像降噪方法具有图像更清晰,时间更短等优点。尽管基于深度学习的图像降噪方法能够取得更好的效果,但这类方法仍然存在一些不足,比如深度学习网络中的特征提取方式很难在获取图像大感受野(指深度学习网络中每一层的输出矩阵中的元素在该层的输入矩阵中映射的区域大小)和简化计算复杂度方面做到很好的平衡。由于图像降噪是基于像素级的视觉任务,一般对语义细节要求较高,这就需要对图像形成稠密的语义上下文信息,获得长距离的像素依赖关系,从而达到更好的降噪效果。而做到这点,很重要一方面依赖深度学习网络中的特征提取机制能够捕获足够大的图像感受野。但在深度学习视觉领域,比较流行的图像特征提取方式,如卷积计算和自注意力机制(Self-Attention),它们在获取图像大感受野的同时,往往会引入大量的参数和计算量。
卷积计算是利用卷积核,即权重矩阵,让它逐步在输入矩阵上“扫描”,卷积核“滑动”的同时,计算权重矩阵和扫描所得的数据矩阵的乘积,然后把结果汇总成一个输出像素。卷积核会在其经过的所有位置上都重复以上操作,直到把输入矩阵转换为另一个新的特征矩阵。卷积核具有参数共享、稀疏连接的优点,由其参与构建的卷积神经网络,与传统机器学习方法相比具有强大的特征学习和特征表达能力,并且在计算机视觉领域都取得了显著的效果。但缺点是获取的图像感受野有限,无法有效捕获长距离的像素依赖关系。它能通过增大卷积核尺寸或堆叠小尺寸卷积核,来获取更大的图像感受野。但同时会引入大量参数,网络复杂度随之增大,不利于部署在内存和算力有限的移动终端设备上,开展实时图像降噪任务;或者利用空洞卷积在不做池化损失信息的情况下,加大感受野,让每个卷积的输出包含较大范围的图像信息。但若膨胀系数设置不合理,则会造成输出特征的网格效应。
Transformer模型最开始应用在自然语言处理领域,其有效解决了RNN(RecurrentNeural Network,循环神经网络)模型记忆长度有限且无法并行化的问题。最近,人们开创性地将Transformer模型跨领域地应用到计算机视觉任务中并取得了不错的成果。Transformer模型的核心是自注意力机制,其擅长捕捉数据或特征的内部相关性。相比于卷积核获得的是图像局部感受野,自注意力机制通过计算图像任意两两像素之间的相似性,建立图像全局像素的依赖关系,获得的是图像全局感受野,并且参数也更少。因此,基于自注意力机制的神经网络降噪方法往往能有效去除噪声,并最大限度地保留图像的细节信息。但缺点也是因为获取的感受野是整个图像的大小,特别是对于大尺寸输入矩阵,其计算复杂度随空间分辨率呈二次增长,且存在大量信息的冗余。这对于内存和算力有限的移动终端设备,很难在其上部署,并开展高分辨率图像实时降噪等视觉任务。
由于自注意力机制在获取图像大感受野上相比卷积核具有较大的优势,本申请实施例基于以上背景,提出一种改进的采用自注意力机制的特征提取方法。该方法能够获取较大图像感受野,捕获像素长距离的依赖关系;同时大大简化其计算复杂度。并且以改进的采用自注意力机制的特征提取模块为子模块,重新构建基于编码器和解码器结构的轻量化高分辨率图像降噪网络模型。
为了便于理解,在对本申请实施例提供的方法进行详细地解释说明之前,先对自注意力机制以及采用自注意力机制的图像特征提取进行介绍。
1、自注意力机制的介绍
自注意力机制的本质思想是一个寻址的过程,主要分为如下三步。
(1)假设送入自注意力机制的二维输入矩阵为X,输入矩阵X经线性变换得到三个不同的二维矩阵Q、K、V。
其中,请参考图1,输入矩阵X与矩阵WQ相乘,得到矩阵Q,输入矩阵X与矩阵WK相乘,得到矩阵K,输入矩阵X与矩阵WV相乘,得到矩阵V。其中矩阵WQ、WK、WV都是可学习的参数,主要是为了提升模型的拟合能力。
(2)将矩阵Q和矩阵K进行相似度计算得到相似度权重矩阵,这里的相似度运算通常用点积运算。接着使用softmax((归一化指数)函数对相似度权重矩阵进行归一化,以得到归一化后的矩阵,该归一化后的矩阵可以表征矩阵V的权重分布。
其中,矩阵Q和矩阵K的点积运算可以理解为矩阵Q乘以矩阵K的转置。第(2)步的实现过程可以通过如下公式(1)来表示:
在上述公式(1)中,S为归一化后的矩阵,dk为输入矩阵X的列数,除以是因为进行点积运算后的数值较大,导致通过softmax后梯度变的很小,所以通过除以/>来进行缩放。
(3)将归一化后的矩阵与矩阵V相乘,得到自注意力机制的输出矩阵。
其中,归一化后的矩阵与矩阵V的相乘,可以理解为矩阵V的权重和矩阵V的值进行加权求和。上述计算过程可以通过如下公式(2)或者图2来表示。
自注意力机制可以很好地处理序列数据,可以实现序列数据的全依赖,但是自注意力机制的运算量很大。
2、采用自注意力机制的图像特征提取的介绍
自注意机制的本质是计算图像自身任意两两像素的相似度,从而获得长距离的像素依赖关系,即距离较远的两个像素之间的相似度。将其应用于图像降噪,可以有效去除噪声的同时,更好地保留图像的细节和突出边缘信息。
由于自然语言处理的语言数据是序列化的,而计算机视觉中处理的图像数据是三维的,所以需要通过维度重塑的方法将图像的三维矩阵转化为二维矩阵,进而将自注意力机制应用到图像特征提取上。请参考图3,该实现过程主要可以分为如下几步。
(1)假设待提取特征的图像的三维矩阵为XH×W×C,该三维矩阵的高度为H,宽度为W,深度为C。对该三维矩阵进行维度重塑后得到二维矩阵X(HW)×C,将维度重塑后的二维矩阵X(HW)×C分别与二维矩阵WQ C×C、WK C×C、WV C×C进行乘法操作,得到对应的二维矩阵Q(HW)×C、K(HW)×C、V(HW)×C。
对该三维矩阵进行维度重塑是指将该三维矩阵中所有像素对应的元素拼接得到一个二维矩阵,该二维矩阵的行数为图像的像素数量H×W,该二维矩阵的列数为深度C。该深度C也可以称为通道数C。
在维度重塑过程中,将该三维矩阵按照逐行的方式进行拼接,即,将该三维矩阵中第一行的第一个像素对应的元素值拼接至二维矩阵的第一行,将该三维矩阵中第一行的第二个像素对应的元素值拼接至二维矩阵的第二行,按照同样的方式,将该三维矩阵中第一行的其他像素对应的元素值拼接后,接下来对该三维矩阵中第二行的像素对应的元素值进行拼接,直至将所有像素对应的元素值拼接完成。当然,还可以将该三维矩阵按照逐列的方式进行拼接。
上述是以逐行或逐列的方式为例进行介绍,实际应用中,还可以通过其他的方式进行拼接。接下来以逐行拼接的方式为例进行介绍。
其中,二维矩阵WQ C×C、WK C×C、WV C×C均为事先确定的参数矩阵,而且上述确定二维矩阵Q(HW)×C、K(HW)×C、V(HW)×C的方法可以通过如下公式来表示:
根据上述公式(3)可知,生成Q(HW)×C的计算量为(HW)×C×C。同理,生成K(HW)×C和V(HW)×C的计算量均为(HW)×C×C,那么这一过程的总计算量为:
Ω1=(HW×C×C)×3=3HWC2 (4)
(2)对图像中的像素进行两两相似度计算,即点积运算。
首先对二维矩阵K(HW)×C进行转置,得到二维矩阵KC×(HW)。然后将二维矩阵Q(HW)×C与二维矩阵KC×(HW)进行矩阵相乘,即计算任意两两像素的相似度,得到像素相似度权重矩阵A(HW)×(HW),也就是说,像素相似度权重矩阵A(HW)×(HW)中每一行的元素为其中一个像素与其他各个像素之间的相似度,计算公式如下:
Q(HW)×C×KC×(HW)=A(HW)×(HW) (5)
接着将像素相似度权重矩阵A(HW)×(HW)除以dk=C。然后对除以/>后得到的矩阵的每一行单独进行softmax归一化处理,以得到像素相似度概率矩阵M(HW)×(HW)。像素相似度概率矩阵M(HW)×(HW)中第i行的所有值表示第i个像素依次同所有像素(包括第i个像素自身)的相似度概率,i∈[1,H*W]。此处忽略除以/>以及softmax的计算量,则这一过程的总计算量为:
Ω2=HW×C×HW=(HW)2C (6)
(3)将像素相似度概率矩阵M(HW)×(HW)与二维矩阵V(HW)×C进行矩阵乘法操作,得到二维矩阵O(HW)×C。最后对二维矩阵O(HW)×C进行维度重塑,得到最终的输出矩阵FH×W×C。
其中,像素相似度概率矩阵M(HW)×(HW)与二维矩阵V(HW)×C进行矩阵乘法操作可以通过如下公式来表示:
M(HW)×(HW)×V(HW)×C=O(HW)×C (7)
这一过程是将像素相似度概率值同对应位置的像素值进行加权求和,最终得到每个位置的输出像素值。其计算量为:
Ω3=HW×HW×C=(HW)2C (8)
需要说明的是,步骤(3)中的维度重塑为步骤(1)中的维度重塑的逆过程。也就是说,在步骤(1)通过逐行的方式进行维度重塑的情况下,步骤(3)也通过逐行的方式进行步骤(1)的逆过程。在步骤(1)通过逐列的方式进行维度重塑的情况下,步骤(3)也通过逐列的方式进行步骤(1)的逆过程。
以上三步为自注意力机制应用在图像特征提取上的计算过程,其总的计算量为3HWC2+2(HW)2C,计算公式如下:
ΩS=Ω1+Ω2+Ω3=3HWC2+(HW)2C+(HW)2C=3HWC2+2(HW)2C (9)
通过上述过程可以看出,自注意力机制是对图像的全局像素(即HW个像素)进行特征提取,获得的是全局感受野,这样有利于捕获长距离的像素依赖关系。应用于对噪声图像的特征提取,能够获得更好的去噪效果,并尽可能地保留图像的细节信息。但由公式(9)可知,自注意力机制的计算复杂度是随空间分辨率(H*W)呈二次增长,对于尺寸较大的高分辨率图像的特征提取,则计算量巨大;并且任意两两像素之间的相似度重复计算也会造成大量信息冗余。因此自注意力机制不能很好地在获取大感受野和简化计算复杂度上保持一个均衡。
接下来对本申请实施例提供的图像特征提取方法和图像降噪方法进行详细介绍。本申请实施例的执行主体可以为计算机设备,该计算机设备可以为终端,也可以为服务器。
其中,终端可以是任何一种可与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互的电子产品,例如PC(Personal Computer,个人计算机)、手机、智能手机、PDA(Personal Digital Assistant,个人数字助手)、可穿戴设备、掌上电脑PPC(Pocket PC)、平板电脑、智能车机、智能电视、智能音箱等。
服务器可以是一台独立的服务器,也可以是由多台物理服务器组成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器,或者是一个云计算服务中心。
本领域技术人员应能理解上述终端和服务器仅为举例,其他现有的或今后可能出现的终端或服务器如可适用于本申请实施例,也应包含在本申请实施例保护范围以内,并在此以引用方式包含于此。
需要说明的是,本申请实施例描述的应用场景以及执行主体是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着新应用场景的出现和执行主体的演变,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
请参考图4,图4是本申请实施例提供的一种图像特征提取方法的流程图。该方法包括如下几个步骤。
步骤401:对待提取特征的目标图像的三维矩阵进行划分得到多个第一窗口矩阵,每个第一窗口矩阵对应多个像素。
在一些实施例中,按照第一划分尺寸对目标图像的三维矩阵进行划分得到多个第一窗口矩阵。其中,目标图像的三维矩阵包括高度、宽度和深度三个维度,第一划分尺寸包括高度方向的划分尺寸和宽度方向的划分尺寸,通过第一划分尺寸对目标图像的三维矩阵进行划分之后,得到的每个第一窗口矩阵也为三维矩阵,而且每个第一窗口矩阵也包括高度、宽度和深度三个维度。
在一些实施例中,第一划分尺寸包括的高度方向的划分尺寸与宽度方向的划分尺寸相同。实际应用中,该三维矩阵的高度方向的划分尺寸与宽度方向的划分尺寸也可以不同。
而且,该三维矩阵的高度可以为高度方向的划分尺寸的倍数,该三维矩阵的宽度可以为宽度方向的划分尺寸的倍数。当然,在另一些实施例中,该三维矩阵的高度也可以不为高度方向的划分尺寸的倍数,和/或,该三维矩阵的宽度不为宽度方向的划分尺寸的倍数,本申请实施例对此不做限定。
在该三维矩阵的高度为高度方向的划分尺寸的倍数且该三维矩阵的宽度为宽度方向的划分尺寸的倍数的情况下,按照第一划分尺寸对目标图像的三维矩阵进行划分得到的每个第一窗口矩阵的大小相同。在该三维矩阵的高度不为高度方向的划分尺寸的倍数,和/或,该三维矩阵的宽度不为宽度方向的划分尺寸的倍数的情况下,按照第一划分尺寸对目标图像的三维矩阵进行划分之后,可能存在部分第一窗口矩阵的尺寸较小的情况下,此时,对这部分第一窗口矩阵进行补零填充,从而保证填充后的每个第一窗口矩阵的大小相同,便于后续的计算。
示例地,请参考图5,假设目标图像的三维矩阵为XH×W×C,该三维矩阵的高度为H,宽度为W,深度为C。第一划分尺寸为(S,S),按照第一划分尺寸对该三维矩阵进行划分后,得到的每个第一窗口矩阵的大小为S×S×C,该多个第一窗口矩阵的数量为(HW/S2)。也就是说,按照第一划分尺寸对该三维矩阵进行划分后得到(HW/S2)个第一窗口矩阵RS×S×C。
步骤402:基于该多个第一窗口矩阵采用自注意力机制确定窗内特征矩阵,窗内特征矩阵指示该多个第一窗口矩阵中同一窗口矩阵对应的像素相关性。
在一些实施例中,可以通过如下步骤(1)-(5)确定窗内特征矩阵。
(1)对于每个第一窗口矩阵,对该第一窗口矩阵进行划分得到多个块矩阵,每个块矩阵对应L个像素,L为大于1的整数且小于第一窗口矩阵对应的多个像素的数量。
也就是说,每个第一窗口矩阵都可以被划分为多个块矩阵,每个块矩阵对应的像素数量小于每个第一窗口矩阵对应的像素数量。基于每个第一窗口矩阵对应的多个块矩阵,按照下述步骤(2)-(4)确定每个第一窗口矩阵对应的特征矩阵,从而得到每个第一窗口矩阵对应的特征矩阵。
在一些实施例中,按照第二划分尺寸对每个第一窗口矩阵进行划分,得到每个第一窗口矩阵对应的多个块矩阵,第二划分尺寸小于第一划分尺寸。
其中,第二划分尺寸包括高度方向的划分尺寸和宽度方向的划分尺寸,第二划分尺寸包括的高度方向的划分尺寸小于第一划分尺寸包括的高度方向的划分尺寸,第二划分尺寸包括的宽度方向的划分尺寸小于第一划分尺寸包括的宽度方向的划分尺寸。通过第二划分尺寸对每个第一窗口矩阵进行划分之后,得到的每个块矩阵也为三维矩阵,而且每个块矩阵也包括高度、宽度和深度三个维度。
在一些实施例中,第二划分尺寸包括的高度方向的划分尺寸与宽度方向的划分尺寸相同。实际应用中,第二划分尺寸包括的高度方向的划分尺寸与宽度方向的划分尺寸也可以不同。
而且,第一窗口矩阵的高度可以为第二划分尺寸包括的高度方向的划分尺寸的倍数,第一窗口矩阵的宽度可以为第二划分尺寸包括的宽度方向的划分尺寸的倍数。当然,在另一些实施例中,第一窗口矩阵的高度也可以不为第二划分尺寸包括的高度方向的划分尺寸的倍数,和/或,第一窗口矩阵的宽度不为第二划分尺寸包括的宽度方向的划分尺寸的倍数。
在第一窗口矩阵的高度为第二划分尺寸包括的高度方向的划分尺寸的倍数且第一窗口矩阵的宽度为第二划分尺寸包括的宽度方向的划分尺寸的倍数的情况下,按照第二划分尺寸对第一窗口矩阵进行划分得到的每个块矩阵的大小相同。在第一窗口矩阵的高度不为第二划分尺寸包括的高度方向的划分尺寸的倍数,和/或,第一窗口矩阵的宽度不为第二划分尺寸包括的宽度方向的划分尺寸的倍数的情况下,按照第二划分尺寸对第一窗口矩阵进行划分之后,可能存在部分块矩阵的尺寸较小的情况下,此时,可以对这部分块矩阵进行补零填充,从而保证填充后的每个块矩阵的大小相同,便于后续的计算。
示例地,请继续参考图5,假设第二划分尺寸为(P,P),按照第一划分尺寸(S,S)对该三维矩阵进行划分得到(HW/S2)个窗口矩阵RS×S×C之后,对于每个窗口矩阵RS×S×C,按照第二划分尺寸(P,P)对窗口矩阵RS×S×C进行划分得到(S2/P2)个块矩阵UP×P×C。图5以左上角的窗口矩阵RS×S×C为例进行示意性说明。
(2)将该多个块矩阵中相同位置的元素进行重组得到L个重组矩阵。
由于该多个块矩阵的大小相同,因此,可以将该多个块矩阵中相同位置的元素重组到一个矩阵中,从而得到L个重组矩阵。每个重组矩阵也为三维矩阵,而且每个重组矩阵也包括高度、宽度和深度三个维度。
示例地,请继续参考图5,图5中左上角的窗口矩阵RS×S×C划分后得到多个块矩阵UP ×P×C,将该多个块矩阵UP×P×C中相同位置的元素进行重组得到L个重组矩阵,L等于P2,重组矩阵可以记为B(S/P)×(S/P)×C。同理,对所有的第一窗口矩阵进行相同的操作后,总共获得(HW/S2)×P2个重组矩阵。
(3)采用自注意力机制确定该L个重组矩阵分别对应的特征矩阵。
在一些实施例中,可以按照图3所示的自注意力机制,确定该L个重组矩阵中每个重组矩阵对应的特征矩阵。也即是,将每个重组矩阵作为图3所示自注意力机制的输入矩阵,经过图3所示的方法进行处理后,将图3所示的自注意力机制的最终输出矩阵作为每个重组矩阵对应的特征矩阵。
(4)将该L个重组矩阵对应的特征矩阵进行元素位置还原得到该第一窗口矩阵对应的特征矩阵。
在确定出该L个重组矩阵分别对应的特征矩阵之后,按照重组的逆过程,将该L个重组矩阵对应的特征矩阵进行元素位置还原,得到该第一窗口矩阵对应的特征矩阵。
(5)将该多个第一窗口矩阵对应的特征矩阵进行组合得到窗内特征矩阵。
按照上述相同的方法,对该多个第一窗口矩阵中其他第一窗口矩阵进行处理后,可以得到该多个第一窗口矩阵中每个第一窗口矩阵对应的特征矩阵,然后,将该多个第一窗口矩阵对应的特征矩阵,按照步骤401中划分的逆过程进行组合,以得到窗内特征矩阵。
示例地,请继续参考图5,在通过自注意力机制确定出每个第一窗口矩阵对应的特征矩阵之后,将该多个第一窗口矩阵对应的特征矩阵进行组合,得到窗内特征矩阵YH×W×C。该窗内特征矩阵也为三维矩阵,而且该窗内特征矩阵对应的像素数量与目标图像的三维矩阵对应的像素数量相同,且一一对应。
以图5为例,结合上述公式(9),上述步骤401-402的计算量为:
对比上述公式(9)和公式(10)可以看出,上述步骤401-402的处理过程能够使像素特征提取的计算量大大降低,其计算复杂度不再随空间分辨率呈二次增长。通过上述步骤401将目标图像的三维矩阵划分为多个较大的第一窗口矩阵后,通过步骤402对这些第一窗口矩阵中同一窗口矩阵进行特征提取,这样可以保留自注意力机制获取图像大感受野的优势,并且加强了窗口内部特征的联系。由于相邻像素具有一定的相似性,彼此之间可以不用进行相似计算,所以通过步骤402提取第一窗口矩阵的特征时,将第一窗口矩阵划分为多个块矩阵,进而将该多个块矩阵中相同位置的元素进行重组,可以保证各个重组矩阵包括不同位置的块矩阵中的元素,也即是,同一个重组矩阵对应多个不相邻的像素,这样,通过自注意力机制提取重组矩阵的特征时,能够确定不相邻像素之间的相似性,避免确定相邻像素之间的相似性,大大减少了自注意力机制的冗余信息。也就是说,通过将步骤401和步骤402进行结合,能够在获得图像大感受野的情况下,大大减小送入自注意力机制的输入矩阵的尺寸大小(即由H×W×C变成(S/P)×(S/P)×C),大大降低了自注意力机制的计算量。
由于上述步骤401-402的过程主要是确定窗口内像素的相似性,目的是为了继续获得图像大感受野,获得像素长距离依赖关系的同时,简化计算复杂度。但只按照上述过程进行特征提取,会使得像素之间的联系只局限在各自的窗口内,而无法确定窗口间的像素之间的联系。因此,为了进一步加强窗口间的像素联系,通过如下步骤403-404确定窗间特征矩阵。
步骤403:对窗内特征矩阵进行划分得到多个第二窗口矩阵,每个第二窗口矩阵对应多个像素,相同位置的第一窗口矩阵和第二窗口矩阵的像素对应。
在一些实施例中,按照第一划分尺寸对窗内特征矩阵进行划分得到多个第二窗口矩阵。
由于窗内特征矩阵也为三维矩阵,包括高度、宽度和深度三个维度,第一划分尺寸包括高度方向的划分尺寸和宽度方向的划分尺寸,所以,通过第一划分尺寸对窗内特征矩阵进行划分之后,得到的每个第二窗口矩阵也为三维矩阵,而且每个第二窗口矩阵也包括高度、宽度和深度三个维度。
在一些实施例中,该窗内特征矩阵的高度可以为第一划分尺寸包括的高度方向的划分尺寸的倍数,该窗内特征矩阵的宽度可以为第一划分尺寸包括的宽度方向的划分尺寸的倍数。当然,在另一些实施例中,该窗内特征矩阵的高度也可以不为第一划分尺寸包括的高度方向的划分尺寸的倍数,和/或,该窗内特征矩阵的宽度不为第一划分尺寸包括的宽度方向的划分尺寸的倍数,本申请实施例对此不做限定。
在该窗内特征矩阵的高度为第一划分尺寸包括的高度方向的划分尺寸的倍数且该窗内特征矩阵的宽度为第一划分尺寸包括的宽度方向的划分尺寸的倍数的情况下,按照第一划分尺寸对窗内特征矩阵进行划分得到的每个第二窗口矩阵的大小相同。在该窗内特征矩阵的高度不为第一划分尺寸包括的高度方向的划分尺寸的倍数,和/或,该窗内特征矩阵的宽度不为第一划分尺寸包括的宽度方向的划分尺寸的倍数的情况下,按照第一划分尺寸对窗内特征矩阵进行划分之后,可能存在部分第二窗口矩阵的尺寸较小的情况下,此时,可以对这部分第二窗口矩阵进行补零填充,从而保证填充后的每个第二窗口矩阵的大小相同,便于后续的计算。
由于该窗内特征矩阵对应的像素数量与目标图像的三维矩阵对应的像素数量相同,而且一一对应,所以,如果按照第一划分尺寸对目标图像的三维矩阵进行划分之后无需补零填充,那么按照第一划分尺寸对该窗内特征矩阵进行划分之后也无需补零填充,如果按照第一划分尺寸对目标图像的三维矩阵进行划分之后需要补零填充,那么按照第一划分尺寸对该窗内特征矩阵进行划分之后也需要补零填充。
由于该窗内特征矩阵对应的像素数量与目标图像的三维矩阵对应的像素数量相同,且一一对应,所以,按照相同的划分方式,对目标图像的三维矩阵进行划分得到的多个第一窗口矩阵的数量,与对该窗内特征矩阵进行划分得到的多个第二窗口矩阵的数量相同,而且相同位置的第一窗口矩阵和第二窗口矩阵的像素对应。
示例地,请参考图6,窗内特征矩阵为YH×W×C,第一划分尺寸为(S,S),按照第一划分尺寸对窗内特征矩阵进行划分后,得到的每个第二窗口矩阵的大小为S×S×C,该多个第二窗口矩阵的数量为(HW/S2)。也就是说,按照第一划分尺寸对该窗内特征矩阵进行划分后得到(HW/S2)个第二窗口矩阵RS×S×C。
步骤404:基于该多个第二窗口矩阵采用自注意力机制确定窗间特征矩阵,窗间特征矩阵指示该多个第二窗口矩阵中不同窗口矩阵对应的像素相关性。
在一些实施例中,可以通过如下步骤(1)-(3)确定窗间特征矩阵。
(1)将该多个第二窗口矩阵中相同位置的元素进行重组得到N个重组矩阵,N为上述多个像素的数量,N为大于1的整数。
由于该多个第二窗口矩阵的大小相同,因此,可以将该多个第二窗口矩阵中相同位置的元素重组到一个矩阵中,从而得到N个重组矩阵。每个重组矩阵也为三维矩阵,而且每个重组矩阵也包括高度、宽度和深度三个维度。
示例地,请继续参考图6,将划分得到的多个窗口矩阵RS×S×C中相同位置的元素进行重组得到N个重组矩阵,N等于S2,重组矩阵可以记为B(H/S)×(W/S)×C。
(2)采用自注意力机制确定该N个重组矩阵分别对应的特征矩阵。
在一些实施例中,可以按照图3所示的自注意力机制,确定该N个重组矩阵中每个重组矩阵对应的特征矩阵。也即是,将每个重组矩阵作为图3所示自注意力机制的输入矩阵,经过图3所示的方法进行处理后,将图3所示的自注意力机制的最终输出矩阵作为每个重组矩阵对应的特征矩阵。
(3)将该N个重组矩阵对应的特征矩阵进行元素位置还原得到每个第二窗口矩阵对应的特征矩阵。
在确定出该N个重组矩阵分别对应的特征矩阵之后,按照重组的逆过程,将该N个重组矩阵对应的特征矩阵进行元素位置还原,得到每个第二窗口矩阵对应的特征矩阵。
(4)将该多个第二窗口矩阵对应的特征矩阵进行组合得到窗间特征矩阵。
在确定出该多个第二窗口矩阵中每个第二窗口矩阵对应的特征矩阵之后,将该多个第二窗口矩阵对应的特征矩阵,按照步骤403中划分的逆过程进行组合,得到窗间特征矩阵。
示例地,请继续参考图6,在通过自注意力机制确定出每个第二窗口矩阵对应的特征矩阵之后,将该多个第二窗口矩阵对应的特征矩阵进行组合,得到窗间特征矩阵EH×W×C。该窗间特征矩阵也为三维矩阵,而且该窗间特征矩阵对应的像素数量与目标图像的三维矩阵对应的像素数量相同,且一一对应。
以图6为例,结合上述公式(9),上述步骤403-404的计算量为:
对比上述公式(9)和公式(11)可以看出,上述步骤403-404的处理过程能够使像素特征提取的计算量大大降低。而且,在上述步骤403中,按照与目标图像的三维矩阵相同的划分尺寸对窗内特征矩阵进行划分,可以在减少冗余信息的同时,充分确定窗口间像素的相似性,避免因窗内特征矩阵的划分尺寸小于目标图像的三维矩阵的划分尺寸,而导致确定窗间像素相似性的过程中又重复确定窗内像素的相似性以产生冗余信息较多的问题,还可以避免因窗口特征矩阵的划分尺寸大于目标图像的三维矩阵的划分尺寸,而导致部分窗间像素的相似性不能被确定出的问题。
通过上述步骤403-404来确定窗间像素的相似性,在一定程度上能够捕获全局感受野,使得像素能够获得更长距离的依赖关系。其中,感受野越大,像素能够获得的依赖关系的距离越大,感受野越小,像素能够获得的依赖关系的距离越小。
步骤405:基于目标图像的三维矩阵和该窗间特征矩阵确定目标图像的特征矩阵。
在一些实施例中,将目标图像的三维矩阵与窗间特征矩阵相加得到目标图像的特征矩阵。
上述步骤401-402的过程可以通过基于二次分块的特征提取模块来实现,上述步骤403-404的过程可以通过基于一次分块的特征提取模块来实现,上述步骤405的过程可以通过矩阵相加模块来实现。为了便于描述,将基于二次分块的特征提取模块称为A模块、将基于一次分块的特征提取模块称为B模块,将A模块、B模块和矩阵相加模块级联得到E模块。A模块是基于窗口内信息的特征提取,获得的是图像较大的局部感受野,使得局部区域内的上下文信息得到充分交流,像素也能获得较长距离的依赖关系,B模块是基于窗口间信息的特征提取,一定程度上获得的是图像全局感受野,使得窗口间的信息得到充分交流,使得像素进一步获得更长距离的依赖关系。E模块则从获得丰富的语义上下文信息和降低计算复杂度角度出发,利用A模块和B模块的优势,互补A模块和B模块中的不足,将A模块和B模块进行级联,即A模块的输出作为B模块的输入,并将目标图像的三维矩阵与B模块的输出矩阵进行矩阵相加操作,得到最终改进的采用自注意力机制的特征提取模块,如图7所示。整个过程的计算量为A模块和B模块的计算量之和,计算公式如下:
ΩE=ΩA+ΩB=6HWC2+2(S/P)2HWC+2(HW/S)2C (12)
假设H=1024,W=1024,C=16,S=64,P=32,则本申请实施例提供的方法与图3所示方法的计算量差值为:
TFLOPs(Tera floating point operations,万亿次浮点运算)可以用来衡量算法、模型的复杂度,1TFLOPs代表一万亿次(10^12)浮点运算。
对于高分辨率图像的特征提取,从两者的计算量差值可以看出,本申请实施例改进的特征提取方法大大简化了计算复杂度。E模块除降低计算复杂度外,其从较大局部感受野和全局感受野的递进角度加强了特征局部区域以及全域信息的联系,使得改进的自注意力机制的特征提取方法依然能够捕获长距离的像素依赖关系。将其应用于基于像素级的图像降噪任务,能够很好地去除图像噪声,并且能最大限度地保留图像的细节信息。
在本申请实施例中,通过对目标图像的三维矩阵进行划分得到多个第一窗口矩阵,从而确定每个第一窗口矩阵内像素的相似性,这样,能够获得较大的局部图像感受野,即获得像素的长距离依赖关系,同时还可以简化计算复杂度。而且,通过对窗内特征矩阵进行划分得到多个第二窗口矩阵,从而确定不同第二窗口矩阵间像素的相似性,这样,能够一定程度上获得图像的全局感受野,使得窗口间的信息得到充分交流,进一步获得更长距离的像素依赖关系。也就是说,本申请实施例提供的方法除降低计算复杂度外,还能够从较大局部感受野和全局感受野的递进角度加强特征局部区域以及全域信息的联系,使得自注意力机制的特征提取方法依然能够捕获长距离的像素依赖关系。
请参考图8,图8是本申请实施例提供的一种图像降噪方法的流程图。该方法包括如下几个步骤。
步骤801:将待降噪的目标图像输入至已训练的图像降噪模型,该图像降噪模型包括采用自注意力机制的特征提取模块。
待降噪的目标图像与上述图4实施例中待提取特征的目标图像可以为同一图像,也可以为不同的图像,本申请实施例对此不做限定。
该图像降噪模型包括的采用自注意力机制的特征提取模块可以为本申请实施例改进的采用自注意力机制的特征提取模块。该图像降噪模型的结构如图9所示。该图像降噪模型主要包括编码器单元、跨层连接单元以及解码器单元,编码器单元负责对目标图像进行特征提取,跨层连接单元负责将编码器单元的浅层输出特征和解码器单元中对应深层的输出特征在通道维度上进行拼接,实现多尺度融合,解码器单元负责对编码器输出的编码特征图进行解码。
其中,编码器单元包括划分参数不同的多个特征提取模块,解码器单元包括划分参数不同的多个特征提取模块,该划分参数包括用于对输入矩阵进行划分的尺寸以及对窗内特征矩阵进行划分的尺寸。也就是说,编码器单元包括的多个特征提取模块用于对输入矩阵进行划分的尺寸不同,编码器单元包括的多个特征提取模块用于对窗内特征矩阵进行划分的尺寸也不同,解码器单元包括的多个特征提取模块用于对输入矩阵进行划分的尺寸不同,解码器单元包括的多个特征提取模块用于对窗内特征矩阵进行划分的尺寸也不同。
示例地,编码器单元包括升维模块、E模块1、下采样模块1、E模块2、下采样模块2、E模块3。升维模块和下采样模块的结构如图10所示,均由卷积核大小为3*3,卷积核个数为16的卷积层和激活层级联组成,该激活层可以为ReLU函数的激活层,还可以为其他函数的激活层。不同的是下采样模块中的卷积核按步幅(Stride)大小为2进行卷积操作,即输入特征经过下采样模块后得到的输出特征的高和宽均减半,升维模块中的卷积核按步幅大小为1进行卷积操作,即输入特征经过升维模块后得到的输出特征的高和宽不变。E模块即为本申请实施例提出的改进的采用自注意力机制的特征提取模块。
解码器单元依次包括上采样模块1、降维模块1、E模块4、上采样模块2、降维模块2、E模块5、降维模块3。每个上采样模块均采用双线性插值,如图11所示。输入特征经过上采样模块后,得到的输出特征的高和宽增大一倍;降维模块如图10所示,其中降维模块1和降维模块2均由卷积核大小为1*1,卷积核个数为16的卷积层和激活层级联组成;降维模块3由卷积核大小为1*1,卷积核个数为4的卷积层和激活层级联组成;E模块即为本申请实施例提出的改进的采用自注意力机制的特征提取模块。
上述图像降噪模型涉及的E模块中第一划分尺寸包括的高度方向的划分尺寸和宽度方向的划分尺寸相同,第二划分尺寸包括的高度方向的划分尺寸和宽度方向的划分尺寸相同。将第一划分尺寸记为(S,S),将第二划分尺寸记为(P,P),该图像降噪模型中不同的E模块涉及的S和P的大小如下述表1所示;
表1
E模块 | S | P |
E模块1 | 64 | 32 |
E模块2 | 32 | 16 |
E模块3 | 16 | 8 |
E模块4 | 32 | 16 |
E模块5 | 64 | 32 |
上述图9-图11所示的结构是一种示例,实际应用中还可以采用其他的结构。同理,上述表1的尺寸是一种示例,实际应用中还可以采用其他的尺寸,本申请实施例对此不做限定。
本申请实施例提供的图像降噪模型可以包括至少一个采用自注意力机制的特征提取模块,接下来以其中一个特征提取模块为例进行介绍。
步骤802:通过该特征提取模块对输入矩阵进行特征提取得到输出矩阵,该输入矩阵是指基于目标图像确定的输入至该特征提取模块的矩阵。
其中,该特征提取模块的特征提取过程包括:对该输入矩阵进行划分得到多个第一窗口矩阵,每个第一窗口矩阵对应多个像素;基于该多个第一窗口矩阵采用自注意力机制确定窗内特征矩阵,窗内特征矩阵指示该多个第一窗口矩阵中同一窗口矩阵对应的像素相关性;对窗内特征矩阵进行划分得到多个第二窗口矩阵,每个第二窗口矩阵对应多个像素,相同位置的第一窗口矩阵和第二窗口矩阵的像素对应;基于该多个第二窗口矩阵采用自注意力机制确定窗间特征矩阵,窗间特征矩阵指示该多个第二窗口矩阵中不同窗口矩阵对应的像素相关性;基于该输入矩阵和该窗间特征矩阵确定输出矩阵。
在一些实施例中,基于该多个第一窗口矩阵采用自注意力机制确定窗内特征矩阵,包括:对于每个第一窗口矩阵,对该第一窗口矩阵进行划分得到多个块矩阵,每个块矩阵对应G个像素,G为大于1的整数且小于第一窗口矩阵对应的多个像素的数量;将该多个块矩阵中相同位置的元素进行重组得到G个重组矩阵;采用自注意力机制确定该G个重组矩阵分别对应的特征矩阵;将该G个重组矩阵对应的特征矩阵进行元素位置还原得到该第一窗口矩阵对应的特征矩阵;将该多个第一窗口矩阵对应的特征矩阵进行组合得到窗内特征矩阵。
在一些实施例中,基于该多个第二窗口矩阵采用自注意力机制确定窗间特征矩阵,包括:将该多个第二窗口矩阵中相同位置的元素进行重组得到T个重组矩阵,T为第二窗口矩阵对应的多个像素的数量,T为大于1的整数;采用自注意力机制确定该T个重组矩阵分别对应的特征矩阵;将该T个重组矩阵对应的特征矩阵进行元素位置还原得到每个第二窗口矩阵对应的特征矩阵,将该多个第二窗口矩阵对应的特征矩阵进行组合得到窗间特征矩阵。
在一些实施例中,基于该输入矩阵和该窗间特征矩阵确定输出矩阵,包括:将输入矩阵与该窗间特征矩阵相加得到输出矩阵。
需要说明的是,通过该特征提取模块对输入矩阵进行特征提取得到输出矩阵的实现过程与上述图4实施例的过程类似,详细实现过程可以参考上述图4实施例中的相关描述。另外,由于本申请实施例采用的第一划分尺寸和第二划分尺寸可能与上述图4实施例中采用的尺寸不同,本申请实施例中划分得到的每个块矩阵对应的像素数量与上述图4实施例中划分得到的每个块矩阵对应的像素数量可能不同,本申请实施例中划分得到的第二窗口矩阵对应的像素数量可能与上述图4实施例中划分得到的第二窗口矩阵对应的像素数量不同,所以本申请实施例通过G来表示块矩阵对应的像素数量,通过T来表示第二窗口矩阵对应的像素数量。
步骤803:基于输出矩阵确定图像降噪模型输出的降噪后的目标图像。
该输出矩阵经过后续其他模块的处理,最终得到图像降噪模型输出的降噪后的目标图像。
上述图像降噪模型是指已训练的图像降噪模型,本申请实施例还可以对待训练的图像降噪模型进行训练,得到已训练的图像降噪模型。示例地,获取训练数据集,该训练数据集包括多组训练样本,每组训练样本包括一张带有噪声的样本图像和对应的一张无噪声的样本图像;基于该多组训练样本,对待训练的图像降噪模型进行训练,得到已训练的图像降噪模型。
在一些实施例中,可以通过同一拍摄设备连续拍摄同一场景的多帧图像,将该多帧图像中相同位置的像素值进行加权平均,得到一张无噪声的样本图像,然后,从该多帧图像中随机选择一帧图像作为带有噪声的样本图像,这样,即可得到一组训练样本。按照相同的方式,能够确定出多组训练样本。
在另一些实施例中,为了提升训练样本的丰富性,按照上述方法获取到多组训练样本之后,还可以对该多组训练样本进行数据增强,以增加训练样本的数量。示例地,对每组训练样本进行旋转、镜像、翻转、裁剪等操作,从而得到更多组训练样本。
为了提升模型的训练速度及适应图像降噪模型的输入图像尺寸,还可以将该多组训练样本进行裁剪。示例地,可以将该多组训练样本裁剪成512*512的图像块。需要说明的是,上述512*512的尺寸只是一种示例,实际应用中,可以根据计算机设备的算力来确定裁剪尺寸。
在一些实施例中,基于该多组训练样本,对待训练的图像降噪模型进行训练的实现过程包括:从该多组训练样本中选择第i批次的训练样本,将第i批次的训练样本中带有噪声的样本图像输入至第i-1批次更新后的图像降噪模型,以得到该图像降噪模型输出的预测样本图像,基于第i批次的训练样本中无噪声的样本图像和对应的预测样本图像确定第i批次的损失值,基于第i批次的损失值进行反向传播来更新第i-1批次更新后的图像降噪模型的参数,得到第i批次更新后的图像降噪模型,如果第i批次更新后的图像降噪模型未收敛,则令i=i+1,返回从该多组训练样本中选择第i批次的训练样本,如果第i批次更新后的图像降噪模型已收敛,则将第i批次更新后的图像降噪模型确定为已训练的图像降噪模型。
需要说明的是,第i批次的训练样本为该多组训练样本中的部分训练样本,不同批次的训练样本不同。在i=1的情况下,第i-1批次更新后的图像降噪模型为待训练的图像降噪模型。
另外,确定第i批次更新后的图像降噪模型是否收敛的方式包括多种,示例地,可以确定第i批次的损失值与第i-1批次的损失值之间的差值是否小于最小化阈值,如果该差值小于最小化阈值,可以确定第i批次更新后的图像降噪模型收敛,否则,确定第i批次更新后的图像降噪模型未收敛。或者,确定第i批次更新后的图像降噪模型的更新次数,如果该更新次数达到次数阈值,则确定第i批次更新后的图像降噪模型收敛,否则,确定第i批次更新后的图像降噪模型未收敛。
上述最小化阈值和次数阈值是事先设置的,而且在不同的情况下,还可以按照不同的需求进行调整。
在本申请实施例中,可以通过L1范数损失(L1_Loss)作为损失函数来确定第i批次的损失值,该损失函数的计算公式如下:
其中,在上述公式中,L1_Loss是指第i批次的损失值,h(xj)是指第i批次的训练样本中第j个训练样本对应的预测样本图像,yj是指第j个训练样本中的无噪声的样本图像,m为第i批次的训练样本的数量。
本申请实施例将一个批次的训练样本综合起来确定一个损失值,通过该损失值来调整图像降噪模型的参数,并不是一组训练样本确定一个损失值,这样可以提高模型训练的拟合度。
示例地,通过相机拍摄共获得500对大小为1080×1920的噪声图和无噪声图。对这500对图像进行旋转、镜像、翻转,得到2500对大小为1080×1920的图像,接着对2500对图像进行裁剪操作,按间隔步长为(200,200)、大小为512×512对图片进行分块,最终获得60000对大小为512×512的图像,并作为训练数据集。每个批次的训练样本为16对大小为512×512的图像。噪声图通过图像降噪模型后输出预测图,并将该预测图与对应的无噪声图进行损失计算,然后通过该损失反向传播来更新模型参数。图像降噪模型在训练数据集上共训练500次,即遍历整个训练数据集500次结束,并保存模型参数,并将最终得到的模型确定为已训练的图像降噪模型。训练流程如图12所示。
在本申请实施例中,通过对目标图像的三维矩阵进行划分得到多个第一窗口矩阵,从而确定每个第一窗口矩阵内像素的相似性,这样,能够获得较大的局部图像感受野,即获得像素的长距离依赖关系,同时还可以简化计算复杂度。而且,通过对窗内特征矩阵进行划分得到多个第二窗口矩阵,从而确定不同第二窗口矩阵间像素的相似性,这样,能够一定程度上获得图像的全局感受野,使得窗口间的信息得到充分交流,进一步获得更长距离的像素依赖关系。也就是说,本申请实施例提供的方法除降低计算复杂度外,还能够从较大局部感受野和全局感受野的递进角度加强特征局部区域以及全域信息的联系,使得自注意力机制的特征提取方法依然能够捕获长距离的像素依赖关系,在基于像素级的图像降噪任务中能够很好地去除图像噪声,并且能最大限度地保留图像的细节信息。
图13是本申请实施例提供的一种图像特征提取装置的结构示意图,该装置可以由软件、硬件或者两者的结合实现成为计算机设备的部分或者全部。请参考图13,该装置包括:第一划分模块1301、窗内特征确定模块1302、第二划分模块1303、窗间特征确定模块1304和图像特征确定模块1305。
第一划分模块1301,用于对待提取特征的目标图像的三维矩阵进行划分得到多个第一窗口矩阵,每个第一窗口矩阵对应多个像素;
窗内特征确定模块1302,用于基于该多个第一窗口矩阵采用自注意力机制确定窗内特征矩阵,该窗内特征矩阵指示该多个第一窗口矩阵中同一窗口矩阵对应的像素相关性;
第二划分模块1303,用于对该窗内特征矩阵进行划分得到多个第二窗口矩阵,每个第二窗口矩阵对应多个像素,相同位置的第一窗口矩阵和第二窗口矩阵的像素对应;
窗间特征确定模块1304,用于基于该多个第二窗口矩阵采用自注意力机制确定窗间特征矩阵,该窗间特征矩阵指示该多个第二窗口矩阵中不同窗口矩阵对应的像素相关性;
图像特征确定模块1305,用于基于目标图像的三维矩阵和该窗间特征矩阵确定目标图像的特征矩阵。
可选地,窗内特征确定模块1302具体用于:
对于每个第一窗口矩阵,对第一窗口矩阵进行划分得到多个块矩阵,每个块矩阵对应L个像素,L为大于1的整数且小于多个像素的数量;
将多个块矩阵中相同位置的元素进行重组得到L个重组矩阵;
采用自注意力机制确定L个重组矩阵分别对应的特征矩阵;
将L个重组矩阵对应的特征矩阵进行元素位置还原得到第一窗口矩阵对应的特征矩阵;
将多个第一窗口矩阵对应的特征矩阵进行组合得到窗内特征矩阵。
可选地,窗间特征确定模块1304具体用于:
将多个第二窗口矩阵中相同位置的元素进行重组得到N个重组矩阵,N为多个像素的数量,N为大于1的整数;
采用自注意力机制确定N个重组矩阵分别对应的特征矩阵;
将N个重组矩阵对应的特征矩阵进行元素位置还原得到每个第二窗口矩阵对应的特征矩阵;
将多个第二窗口矩阵对应的特征矩阵进行组合得到窗间特征矩阵。
可选地,图像特征确定模块1305具体用于:
将目标图像的三维矩阵与窗间特征矩阵相加得到目标图像的特征矩阵。
在本申请实施例中,通过对目标图像的三维矩阵进行划分得到多个第一窗口矩阵,从而确定每个第一窗口矩阵内像素的相似性,这样,能够获得较大的局部图像感受野,即获得像素的长距离依赖关系,同时还可以简化计算复杂度。而且,通过对窗内特征矩阵进行划分得到多个第二窗口矩阵,从而确定不同第二窗口矩阵间像素的相似性,这样,能够一定程度上获得图像的全局感受野,使得窗口间的信息得到充分交流,进一步获得更长距离的像素依赖关系。也就是说,本申请实施例提供的方法除降低计算复杂度外,还能够从较大局部感受野和全局感受野的递进角度加强特征局部区域以及全域信息的联系,使得自注意力机制的特征提取方法依然能够捕获长距离的像素依赖关系。
图14是本申请实施例提供的一种图像降噪装置的结构示意图,该装置可以由软件、硬件或者两者的结合实现成为计算机设备的部分或者全部。请参考图14,该装置包括:图像输入模块1401、特征提取模块1402和图像输出模块1403。
图像输入模块1401,用于将待降噪的目标图像输入至已训练的图像降噪模型,图像降噪模型包括采用自注意力机制的特征提取模块;
特征提取模块1402,用于对输入矩阵进行特征提取得到输出矩阵,输入矩阵是指基于目标图像确定的输入至特征提取模块的矩阵;
其中,特征提取模块的特征提取过程包括:对输入矩阵进行划分得到多个第一窗口矩阵,每个第一窗口矩阵对应多个像素;基于多个第一窗口矩阵采用自注意力机制确定窗内特征矩阵,窗内特征矩阵指示多个第一窗口矩阵中同一窗口矩阵对应的像素相关性;对窗内特征矩阵进行划分得到多个第二窗口矩阵,每个第二窗口矩阵对应多个像素,相同位置的第一窗口矩阵和第二窗口矩阵的像素对应;基于多个第二窗口矩阵采用自注意力机制确定窗间特征矩阵,窗间特征矩阵指示多个第二窗口矩阵中不同窗口矩阵对应的像素相关性;基于该输入矩阵和该窗间特征矩阵确定输出矩阵;
图像输出模块1403,用于基于输出矩阵确定图像降噪模型输出的降噪后的目标图像。
可选地,特征提取模块1402具体用于:
对于每个第一窗口矩阵,对第一窗口矩阵进行划分得到多个块矩阵,每个块矩阵对应G个像素,G为大于1的整数且小于多个像素的数量;
将多个块矩阵中相同位置的元素进行重组得到G个重组矩阵;
采用自注意力机制确定G个重组矩阵分别对应的特征矩阵;
将G个重组矩阵对应的特征矩阵进行元素位置还原得到第一窗口矩阵对应的特征矩阵;
将多个第一窗口矩阵对应的特征矩阵进行组合得到窗内特征矩阵。
可选地,特征提取模块1402具体用于:
将多个第二窗口矩阵中相同位置的元素进行重组得到T个重组矩阵,T为多个像素的数量,T为大于1的整数;
采用自注意力机制确定T个重组矩阵分别对应的特征矩阵;
将T个重组矩阵对应的特征矩阵进行元素位置还原得到每个第二窗口矩阵对应的特征矩阵;
将多个第二窗口矩阵对应的特征矩阵进行组合得到窗间特征矩阵。
可选地,特征提取模块1402具体用于:将输入矩阵与窗间特征矩阵相加得到输出矩阵。
可选地,该装置还包括:
数据集获取模块,用于获取训练数据集,训练数据集包括多组训练样本,每组训练样本包括一张带有噪声的样本图像和对应的一张无噪声的样本图像;
模型训练模块,用于基于多组训练样本,对待训练的图像降噪模型进行训练,得到已训练的图像降噪模型。
可选地,该图像降噪模型包括编码器单元、跨层连接单元和解码器单元;该编码器单元包括划分参数不同的多个特征提取模块,该解码器单元包括划分参数不同的多个特征提取模块,该划分参数包括用于对输入矩阵进行划分的尺寸以及对窗内特征矩阵进行划分的尺寸。
在本申请实施例中,通过对目标图像的三维矩阵进行划分得到多个第一窗口矩阵,从而确定每个第一窗口矩阵内像素的相似性,这样,能够获得较大的局部图像感受野,即获得像素的长距离依赖关系,同时还可以简化计算复杂度。而且,通过对窗内特征矩阵进行划分得到多个第二窗口矩阵,从而确定不同第二窗口矩阵间像素的相似性,这样,能够一定程度上获得图像的全局感受野,使得窗口间的信息得到充分交流,进一步获得更长距离的像素依赖关系。也就是说,本申请实施例提供的方法除降低计算复杂度外,还能够从较大局部感受野和全局感受野的递进角度加强特征局部区域以及全域信息的联系,使得自注意力机制的特征提取方法依然能够捕获长距离的像素依赖关系,在基于像素级的图像降噪任务中能够很好地去除图像噪声,并且能最大限度地保留图像的细节信息。
需要说明的是:上述实施例提供的装置在实现对应的功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图15是本申请实施例提供的一种终端1500的结构框图。该终端1500可以是便携式移动终端,比如:智能手机、平板电脑、MP3播放器(Moving Picture Experts Group AudioLayer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts GroupAudio Layer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端1500还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,终端1500包括有:处理器1501和存储器1502。
处理器1501可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器1501可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1501也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器1501可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器1501还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器1502包括一个或多个计算机可读存储介质,该计算机可读存储介质是非暂态的。存储器1502还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器1502中的非暂态的计算机可读存储介质用于存储至少一个指令,用于被处理器1501所执行以实现本申请中方法实施例提供的方法。
在一些实施例中,终端1500还包括:外围设备接口1503和至少一个外围设备。处理器1501、存储器1502和外围设备接口1503之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1503相连。外围设备包括:射频电路1504、触摸显示屏1505、摄像头1506、音频电路1507、定位组件1508和电源1509中的至少一种。
外围设备接口1503可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器1501和存储器1502。在一些实施例中,处理器1501、存储器1502和外围设备接口1503被集成在同一芯片或电路板上;在一些其他实施例中,处理器1501、存储器1502和外围设备接口1503中的任意一个或两个可以在单独的芯片或电路板上实现。
射频电路1504用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路1504通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1504将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路1504包括天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1504通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路1504还包括NFC(Near Field Communication,近距离无线通信)有关的电路。
显示屏1505用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1505是触摸显示屏时,显示屏1505还具有采集在显示屏1505的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1501进行处理。此时,显示屏1505还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏1505可以为一个,设置终端1500的前面板;在另一些实施例中,显示屏1505可以为至少两个,分别设置在终端1500的不同表面或呈折叠设计;在再一些实施例中,显示屏1505可以是柔性显示屏,设置在终端1500的弯曲表面上或折叠面上。甚至,显示屏1505还可以设置成非矩形的不规则图形,也即异形屏。显示屏1505可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件1506用于采集图像或视频。可选地,摄像头组件1506包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件1506还包括闪光灯。闪光灯是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,用于不同色温下的光线补偿。
音频电路1507可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器1501进行处理,或者输入至射频电路1504以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端1500的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1501或射频电路1504的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路1507还包括耳机插孔。
定位组件1508用于定位终端1500的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。定位组件1508可以是基于美国的GPS(GlobalPositioning System,全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。
电源1509用于为终端1500中的各个组件进行供电。电源1509可以是交流电、直流电、一次性电池或可充电电池。当电源1509包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。
本领域技术人员可以理解,图15中示出的结构并不构成对终端1500的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
图16是本申请实施例提供的一种服务器的结构示意图。服务器1600包括中央处理单元(CPU)1601、包括随机存取存储器(RAM)1602和只读存储器(ROM)1603的系统存储器1604,以及连接系统存储器1604和中央处理单元1601的系统总线1605。服务器1600还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)1606,和用于存储操作系统1613、应用程序1614和其他程序模块1615的大容量存储设备1607。
基本输入/输出系统1606包括有用于显示信息的显示器1608和用于用户输入信息的诸如鼠标、键盘之类的输入设备1609。其中显示器1608和输入设备1609都通过连接到系统总线1605的输入输出控制器1610连接到中央处理单元1601。基本输入/输出系统1606还可以包括输入输出控制器1610以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器1610还提供输出到显示屏、打印机或其他类型的输出设备。
大容量存储设备1607通过连接到系统总线1605的大容量存储控制器(未示出)连接到中央处理单元1601。大容量存储设备1607及其相关联的计算机可读介质为服务器1600提供非易失性存储。也就是说,大容量存储设备1607可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。
不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术,CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1604和大容量存储设备1607可以统称为存储器。
根据本申请的各种实施例,服务器1600还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1600可以通过连接在系统总线1605上的网络接口单元1611连接到网络1612,或者说,也可以使用网络接口单元1611来连接到其他类型的网络或远程计算机系统(未示出)。上述存储器还包括一个或者一个以上的程序,一个或者一个以上程序存储于存储器中,被配置由CPU执行。
在一些实施例中,还提供了一种计算机可读存储介质,该存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述实施例中方法的步骤。例如,所述计算机可读存储介质可以是ROM、RAM、CD-ROM、磁带、软盘和光数据存储设备等。值得注意的是,本申请实施例提到的计算机可读存储介质可以为非易失性存储介质,换句话说,可以是非瞬时性存储介质。
应当理解的是,实现上述实施例的全部或部分步骤可以通过软件、硬件、固件或者其任意结合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。所述计算机指令可以存储在上述计算机可读存储介质中。也即是,在一些实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述所述方法的步骤。
应当理解的是,本文提及的“至少一个”是指一个或多个,“多个”是指两个或两个以上。在本申请实施例的描述中,除非另有说明,“/”表示或的意思,例如,A/B可以表示A或B;本文中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,为了便于清楚描述本申请实施例的技术方案,在本申请的实施例中,采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定,并且“第一”、“第二”等字样也并不限定一定不同。
需要说明的是,本申请实施例所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号,均为经用户授权或者经过各方充分授权的,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
以上所述为本申请提供的实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (11)
1.一种图像特征提取方法,其特征在于,所述方法包括:
对待提取特征的目标图像的三维矩阵进行划分得到多个第一窗口矩阵,每个第一窗口矩阵对应多个像素;
基于所述多个第一窗口矩阵采用自注意力机制确定窗内特征矩阵,所述窗内特征矩阵指示所述多个第一窗口矩阵中同一窗口矩阵对应的像素相关性;
对所述窗内特征矩阵进行划分得到多个第二窗口矩阵,每个第二窗口矩阵对应多个像素,相同位置的第一窗口矩阵和第二窗口矩阵的像素对应;
基于所述多个第二窗口矩阵采用自注意力机制确定窗间特征矩阵,所述窗间特征矩阵指示所述多个第二窗口矩阵中不同窗口矩阵对应的像素相关性;
基于所述目标图像的三维矩阵和所述窗间特征矩阵确定所述目标图像的特征矩阵。
2.如权利要求1所述的方法,其特征在于,所述基于所述多个第一窗口矩阵采用自注意力机制确定窗内特征矩阵,包括:
对于所述每个第一窗口矩阵,对所述第一窗口矩阵进行划分得到多个块矩阵,每个块矩阵对应L个像素,L为大于1的整数且小于所述多个像素的数量;
将所述多个块矩阵中相同位置的元素进行重组得到L个重组矩阵;
采用所述自注意力机制确定所述L个重组矩阵分别对应的特征矩阵;
将所述L个重组矩阵对应的特征矩阵进行元素位置还原得到所述第一窗口矩阵对应的特征矩阵;
将所述多个第一窗口矩阵对应的特征矩阵进行组合得到所述窗内特征矩阵。
3.如权利要求1或2所述的方法,其特征在于,所述基于所述多个第二窗口矩阵采用自注意力机制确定窗间特征矩阵,包括:
将所述多个第二窗口矩阵中相同位置的元素进行重组得到N个重组矩阵,N为所述多个像素的数量,N为大于1的整数;
采用所述自注意力机制确定所述N个重组矩阵分别对应的特征矩阵;
将所述N个重组矩阵对应的特征矩阵进行元素位置还原得到所述每个第二窗口矩阵对应的特征矩阵;
将所述多个第二窗口矩阵对应的特征矩阵进行组合得到所述窗间特征矩阵。
4.如权利要求1所述的方法,其特征在于,所述基于所述目标图像的三维矩阵和所述窗间特征矩阵确定所述目标图像的特征矩阵,包括:
将所述目标图像的三维矩阵与所述窗间特征矩阵相加得到所述目标图像的特征矩阵。
5.一种图像降噪方法,其特征在于,所述方法包括:
将待降噪的目标图像输入至已训练的图像降噪模型,所述图像降噪模型包括采用自注意力机制的特征提取模块;
通过所述特征提取模块对输入矩阵进行特征提取得到输出矩阵,所述输入矩阵是指基于所述目标图像确定的输入至所述特征提取模块的矩阵;
其中,所述特征提取模块的特征提取过程包括:对所述输入矩阵进行划分得到多个第一窗口矩阵,每个第一窗口矩阵对应多个像素;基于所述多个第一窗口矩阵采用自注意力机制确定窗内特征矩阵,所述窗内特征矩阵指示所述多个第一窗口矩阵中同一窗口矩阵对应的像素相关性;对所述窗内特征矩阵进行划分得到多个第二窗口矩阵,每个第二窗口矩阵对应多个像素,相同位置的第一窗口矩阵和第二窗口矩阵的像素对应;基于所述多个第二窗口矩阵采用自注意力机制确定窗间特征矩阵,所述窗间特征矩阵指示所述多个第二窗口矩阵中不同窗口矩阵对应的像素相关性;基于所述输入矩阵和所述窗间特征矩阵确定所述输出矩阵;
基于所述输出矩阵确定所述图像降噪模型输出的降噪后的目标图像。
6.如权利要求5所述的方法,其特征在于,所述图像降噪模型包括编码器单元、跨层连接单元和解码器单元;
所述编码器单元包括划分参数不同的多个所述特征提取模块,所述解码器单元包括划分参数不同的多个所述特征提取模块,所述划分参数包括用于对所述输入矩阵进行划分的尺寸以及对所述窗内特征矩阵进行划分的尺寸。
7.一种图像特征提取装置,其特征在于,所述装置包括:
第一划分模块,用于对待提取特征的目标图像的三维矩阵进行划分得到多个第一窗口矩阵,每个第一窗口矩阵对应多个像素;
窗内特征确定模块,用于基于所述多个第一窗口矩阵采用自注意力机制确定窗内特征矩阵,所述窗内特征矩阵指示所述多个第一窗口矩阵中同一窗口矩阵对应的像素相关性;
第二划分模块,用于对所述窗内特征矩阵进行划分得到多个第二窗口矩阵,每个第二窗口矩阵对应多个像素,相同位置的第一窗口矩阵和第二窗口矩阵的像素对应;
窗间特征确定模块,用于基于所述多个第二窗口矩阵采用自注意力机制确定窗间特征矩阵,所述窗间特征矩阵指示所述多个第二窗口矩阵中不同窗口矩阵对应的像素相关性;
图像特征确定模块,用于基于所述目标图像的三维矩阵和所述窗间特征矩阵确定所述目标图像的特征矩阵。
8.一种图像降噪装置,其特征在于,所述装置包括:
图像输入模块,用于将待降噪的目标图像输入至已训练的图像降噪模型,所述图像降噪模型包括采用自注意力机制的特征提取模块;
特征提取模块,用于对输入矩阵进行特征提取得到输出矩阵,所述输入矩阵是指基于所述目标图像确定的输入至所述特征提取模块的矩阵;
其中,所述特征提取模块的特征提取过程包括:对所述输入矩阵进行划分得到多个第一窗口矩阵,每个第一窗口矩阵对应多个像素;基于所述多个第一窗口矩阵采用自注意力机制确定窗内特征矩阵,所述窗内特征矩阵指示所述多个第一窗口矩阵中同一窗口矩阵对应的像素相关性;对所述窗内特征矩阵进行划分得到多个第二窗口矩阵,每个第二窗口矩阵对应多个像素,相同位置的第一窗口矩阵和第二窗口矩阵的像素对应;基于所述多个第二窗口矩阵采用自注意力机制确定窗间特征矩阵,所述窗间特征矩阵指示所述多个第二窗口矩阵中不同窗口矩阵对应的像素相关性;基于所述窗间特征矩阵确定所述输出矩阵;
图像输出模块,用于基于所述输出矩阵确定所述图像降噪模型输出的降噪后的目标图像。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器用于存放计算机程序,所述处理器用于执行所述存储器上所存放的计算机程序,以实现上述权利要求1-6任一所述方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-6任一所述方法的步骤。
11.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序包括指令,当所述指令在计算机上运行时,使得所述计算机执行权利要求1-6任一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310716776.2A CN116704200A (zh) | 2023-06-16 | 2023-06-16 | 图像特征提取、图像降噪方法及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310716776.2A CN116704200A (zh) | 2023-06-16 | 2023-06-16 | 图像特征提取、图像降噪方法及相关装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116704200A true CN116704200A (zh) | 2023-09-05 |
Family
ID=87823619
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310716776.2A Pending CN116704200A (zh) | 2023-06-16 | 2023-06-16 | 图像特征提取、图像降噪方法及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116704200A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117274107A (zh) * | 2023-11-03 | 2023-12-22 | 深圳市瓴鹰智能科技有限公司 | 低照度场景下端到端色彩及细节增强方法、装置及设备 |
-
2023
- 2023-06-16 CN CN202310716776.2A patent/CN116704200A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117274107A (zh) * | 2023-11-03 | 2023-12-22 | 深圳市瓴鹰智能科技有限公司 | 低照度场景下端到端色彩及细节增强方法、装置及设备 |
CN117274107B (zh) * | 2023-11-03 | 2024-03-15 | 深圳市瓴鹰智能科技有限公司 | 低照度场景下端到端色彩及细节增强方法、装置及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110149541B (zh) | 视频推荐方法、装置、计算机设备及存储介质 | |
CN110473137B (zh) | 图像处理方法和装置 | |
US9704254B2 (en) | Stereo image matching by shape preserving filtering of a cost volume in a phase domain | |
CN110189246B (zh) | 图像风格化生成方法、装置及电子设备 | |
CN111062981B (zh) | 图像处理方法、装置及存储介质 | |
CN111860485B (zh) | 图像识别模型的训练方法、图像的识别方法、装置、设备 | |
CN110263909A (zh) | 图像识别方法及装置 | |
CN110060286B (zh) | 一种单目深度估计方法 | |
CN112990053B (zh) | 图像处理方法、装置、设备及存储介质 | |
CN111931877A (zh) | 目标检测方法、装置、设备及存储介质 | |
WO2023202285A1 (zh) | 图像处理方法、装置、计算机设备及存储介质 | |
CN112115900B (zh) | 图像处理方法、装置、设备及存储介质 | |
CN111091845A (zh) | 音频处理方法、装置、终端设备及计算机存储介质 | |
CN116704200A (zh) | 图像特征提取、图像降噪方法及相关装置 | |
CN114519667A (zh) | 一种图像超分辨率重建方法及系统 | |
CN116402679A (zh) | 一种轻量级红外超分辨率自适应重建方法 | |
CN110211017B (zh) | 图像处理方法、装置及电子设备 | |
CN114677350A (zh) | 连接点提取方法、装置、计算机设备及存储介质 | |
CN113642359B (zh) | 人脸图像生成方法、装置、电子设备及存储介质 | |
CN110197459B (zh) | 图像风格化生成方法、装置及电子设备 | |
CN111063017B (zh) | 一种光照估计方法及装置 | |
CN117218507A (zh) | 图像处理模型训练方法、图像处理方法、装置及电子设备 | |
CN116486009A (zh) | 单目三维人体重建方法、装置以及电子设备 | |
CN114049473A (zh) | 图像处理方法及装置 | |
CN114419517A (zh) | 视频帧处理方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |