CN114049255A

CN114049255A - 图像处理方法及其装置、存算一体芯片和电子设备

Info

Publication number: CN114049255A
Application number: CN202111312707.2A
Authority: CN
Inventors: 成凯华
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2021-11-08
Filing date: 2021-11-08
Publication date: 2022-02-15

Abstract

本申请实施例涉及一种图像处理方法及其装置、存算一体芯片和电子设备，所述图像处理方法，包括：对待处理图像进行分块以获取N个初始图像块，所述N为大于1的整数；分别对各所述初始图像块进行投影，以分别获取各所述初始图像块对应的M个图像特征向量，所述M为大于1的整数；根据预设规则将M×N个所述图像特征向量传输至存算阵列，以使所述存算阵列对接收到的所述图像特征向量进行矩阵乘加运算，以获取N个与对应初始图像块一一对应的融合特征向量；根据N个所述融合特征向量进行重建以生成目标图像。

Description

图像处理方法及其装置、存算一体芯片和电子设备

技术领域

本申请实施例涉及图像技术领域，特别是涉及一种图像处理方法及其装置、存算一体芯片和电子设备。

背景技术

超分技术是手机拍照后处理阶段提升图像分辨率的重要手段，但是，传统的超分算法在提升清晰度和锐度的同时，难以避免加强噪声或者是在降噪的过程中牺牲掉图像的细节。因此，可以通过人工智能超分辨率(Artificial Intelligenc e Super Resolution，AISR)改善上述问题，但是AISR所需处理的数据量较大，从而导致AISR的处理速度难以满足人们的需求。

发明内容

本申请实施例提供了一种图像处理方法及其装置、存算一体芯片和电子设备，可以提高图像处理方法的运算速度。

一种图像处理方法，包括：

对待处理图像进行分块以获取N个初始图像块，所述N为大于1的整数；

分别对各所述初始图像块进行投影，以分别获取各所述初始图像块对应的M个图像特征向量，所述M为大于1的整数；

根据预设规则将M×N个所述图像特征向量传输至存算阵列，以使所述存算阵列对接收到的所述图像特征向量进行矩阵乘加运算，以获取N个与对应初始图像块一一对应的融合特征向量；

根据N个所述融合特征向量进行重建以生成目标图像。

一种存算一体芯片，包括：

处理模块，用于对待处理图像进行分块以获取N个初始图像块，分别对各所述初始图像块进行投影，以分别获取各所述初始图像块对应的M个图像特征向量，根据预设规则将M×N个所述图像特征向量传输至存算阵列，所述N和M均为大于1的整数；

存算阵列，与所述处理模块连接，存算阵列包括多个存算单元，所述存算阵列用于对获取到的所述图像特征向量进行矩阵乘加运算；

其中，所述处理模块还用于将运算结果作为对应初始图像块的融合特征向量，并根据多个所述融合特征向量进行重建以生成目标图像。

一种图像处理装置，包括：

分块模块，用于对待处理图像进行分块以获取N个初始图像块，所述N为大于1的整数；

投影模块，用于分别对各所述初始图像块进行投影，以分别获取各所述初始图像块对应的M个图像特征向量，所述M为大于1的整数；

向量传输模块，用于根据预设规则将M×N个所述图像特征向量传输至存算阵列，以使所述存算阵列对接收到的所述图像特征向量进行矩阵乘加运算，以获取N个与对应初始图像块一一对应的融合特征向量；

重建模块，用于根据N个所述融合特征向量进行重建以生成目标图像。

一种电子设备，包括如上述的存算一体芯片。

上述图像处理方法及其装置、存算一体芯片和电子设备，所述图像处理方法，包括：对待处理图像进行分块以获取N个初始图像块，所述N为大于1的整数；分别对各所述初始图像块进行投影，以分别获取各所述初始图像块对应的M个图像特征向量，所述M为大于1的整数；根据预设规则将M×N个所述图像特征向量传输至存算阵列，以使所述存算阵列对接收到的所述图像特征向量进行矩阵乘加运算，以获取N个与对应初始图像块一一对应的融合特征向量；根据N个所述融合特征向量进行重建以生成目标图像。在本申请实施例中，通过存算阵列实现矩阵乘加运算，则处理器生成需要进行矩阵乘加运算的数据后，直接将该数据存储至存算阵列，处理器发出命令即可控制存算阵列进行后续运算，从而大大减少了搬运数据的时间，从而提供了一种运算速度较快的图像处理方法。

附图说明

为了更清楚地说明本申请实施例或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一实施例的的图像处理方法的流程图之一；

图2为一实施例的分块操作的示意图；

图3为一实施例的图像处理方法的流程图之二；

图4为步骤304至步骤308对应的模块结构框图；

图5为一实施例的第i个所述初始图像块对应的所述注意力权重矩阵的获取方式的流程图；

图6为一实施例的多个第二存算器件的结构示意图；

图7为一实施例的第i个所述初始图像块对应的所述融合特征向量的获取方式的流程图；

图8为一实施例的多个第一存算器件的结构示意图；

图9为一实施例的根据多个所述融合特征向量进行重建以生成目标图像的流程图；

图10为一实施例的分块操作的示意图；

图11为一实施例的高效Transformer结构的示意图；

图12为一实施例的存算一体芯片的结构示意图；

图13为一实施例的存算阵列的结构示意图；

图14为一实施例的图像处理装置的结构框图。

具体实施方式

为了便于理解本申请实施例，下面将参照相关附图对本申请实施例进行更全面的描述。附图中给出了本申请实施例的首选实施例。但是，本申请实施例可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本申请实施例的公开内容更加透彻全面。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请实施例的技术领域的技术人员通常理解的含义相同。本文中在本申请实施例的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请实施例。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。

在本申请实施例的描述中，需要理解的是，术语“上”、“下”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方法或位置关系，仅是为了便于描述本申请实施例和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请实施例的限制。

可以理解，本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件，但这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说，在不脱离本申请的范围的情况下，可以将第一初始图像块称为第二初始图像块，且类似地，可将第二初始图像块称为第一初始图像块。第一初始图像块和第二初始图像块两者都是初始图像块，但其不是同一初始图像块。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。在本申请的描述中，“若干”的含义是至少一个，例如一个，两个等，除非另有明确具体的限定。

本申请实施例提供了一种图像处理方法，具体是一种AISR的图像处理方法。其中，人工智能(AI)是指可模仿人类智能来执行任务，并基于收集的信息对自身进行迭代式改进的系统和机器。也即，人工智能就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。本申请实施例的图像处理方法应用于处理器，处理器可以是但不限于CPU、GPU等具有数据处理功能的器件。上述处理器与存算阵列连接，以通过存算阵列实现图像处理方法中的矩阵乘加运算的步骤。其中，存算阵列是指利用存储器进行数据处理的阵列结构，存算阵列可以是但不限于忆阻器阵列、相变存储器(Phase Change Memory，PCM)阵列、静态随机存取存储器(Static Random-Access Memory，SRAM)阵列、动态随机存取存储器(Dynamic Random Access Memory，DRAM)阵列、快闪存储器(Flash)阵列等，不同的存储器件因为物理特性不同，完成计算逻辑的方式也不同，本实施例不做具体限定。

图1为一实施例的图像处理方法的流程图之一，参考图1，在本实施例中，图像处理方法包括步骤102至步骤108。

步骤102，对待处理图像进行分块以获取N个初始图像块，所述N为大于1的整数。

其中，待处理图像可以是任意一个图像。例如，待处理图像可以是电子设备上的摄像头采集到的图像。当然，在可能的实现方式中，待处理图像也可以不是终端上的摄像头采集到的图像，而是从网络中实时获取到的图像或者是截图，本实施例对此不作限定。分块可以通过unfold函数实现，图2为一实施例的分块操作的示意图，参考图2，待处理图像可以包括多个通道，例如图2实施例中待处理图像包括三个通道，通过分块，可以从一个待处理图像中，提取出滑动的局部区域块，从而将图像拆分为多个小片(patch)，即初始图像块。示例性地，若待处理图像包括192*192个像素，则可以通过分块，根据待处理图像获取16个初始图像块，其中每个初始图像块分别包括48*48个像素。

可选地，若为了避免分块获得的初始图像块过多，则可以使每个初始图像块包括较多数量的像素，以降低后续数据处理的数量。若为了使超分辨率处理后生成的目标图像的过渡更加自然、图像更加清晰，则可以使每个初始图像块包括较少数量的像素，以实现更加精准的处理。但可以理解的是，本申请实施例根据不同初始图像块之间的相似度进行超分辨率处理，因此，也应当避免每个初始图像块中的像素数量过少，以防止不同初始图像块的匹配和比较结果的错误。

进一步地，可以获取每个初始图像块对应的Embedding，Embedding中文直译为嵌入。简单来说，Embedding是指向量映射，即，用向量来表示实体，在本实施例中，可以理解为通过向量表示对应的初始图像块，且Embedding携带了了对应的初始图像块的特征信息。通过获取每个初始图像块对应的Embedding，可以便于后续步骤中进行基于初始图像块的运算和分析。

步骤104，分别对各所述初始图像块进行投影，以分别获取各所述初始图像块对应的M个图像特征向量，所述M为大于1的整数。

其中，为了获取图像的全局信息，可以对每个初始图像块分别进行投影，以得到每个初始图像块的M个图像特征向量。通过不同的投影方式，可以获取初始图像块在不同维度或不同细节上的特征，从而实现对待处理图像的准确分析。即，可以通过M种不同的投影方式，获取第i个初始图像块对应的M个图像特征向量。其中，i为小于或等于初始图像块的总数量的正整数。可选地，确定第i个初始图像块的图像特征向量的方式可以是线性投影，也可以是非线性投影，本实施例不做限定。

步骤106，根据预设规则将M×N个所述图像特征向量传输至存算阵列，以使所述存算阵列对接收到的所述图像特征向量进行矩阵乘加运算，以获取N个与对应初始图像块一一对应的融合特征向量。

其中，待处理图像共划分为N个初始图像块，每个初始图像块分别包括M个图像特征向量，因此，通过前述处理步骤共生成M×N个所述图像特征向量。在单图像超分辨率(Single Image Super Resolution，SISR)中，待处理图像内相似的初始图像块可以相互作为参考，通过注意力机制可以获取第i个初始图像块与各初始图像块之间的相似程度，从而可以根据其他的初始图像块来恢复第i个图像块的纹理细节。本步骤中的矩阵乘加运算即可作为上述互相参考的具体实现方式，从而实现对图像细节的精准处理。

步骤108，根据N个所述融合特征向量进行重建以生成目标图像。

其中，进行重建可以包括拼接、融合、上采样等多个处理方式中的至少一个，本实施例不做限定。在本实施例中，第i个初始图像块对应的融合特征向量即是包含了第i个初始图像块自身的属性和其他图像块的属性的综合运算结果，从而可以在不损失第i个初始图像块的主体特征的前提下，对第i个初始图像块的细节特征进行补充，进而提供一种细节更多的图像块。基于更多细节的图像块，通过重建，即可获得分辨率更高的目标图像。

可以理解的是，在相关技术中，信息蒸馏网络(Information Multi-distillation Network，IMDN)等都包括大量的通道分离(channel split)和连接(concat)操作。因此，数据需要频繁地通过内存I/O接口进行搬运，而数据搬运的速度往往不及计算的速度，所以上述大量的数据搬运过程大大限制了AISR的处理速度。具体地，处理器生成需要进行矩阵乘加运算的数据并存储在存储器后，需要再次从存储器获取需要进行矩阵乘加运算的数据回传至处理器，才能进行后续的矩阵乘加运算，从而导致数据搬运所需的时间较长。

在本实施例中，提出了一种新的图像处理方法，无需大量的通道分离和连接操作，从而可以大大减少需要传输的数据量。而且，本实施例通过存算阵列实现矩阵乘加运算，则处理器生成需要进行矩阵乘加运算的数据后，直接将该数据存储至存算阵列，处理器发出命令即可控制存算阵列进行后续运算，从而大大减少了搬运数据的时间，还可以减少存算阵列输出的数据的模数转换的时间，从而提供了一种运算速度较快的图像处理方法。

图3为一实施例的图像处理方法的流程图之二，参考图3，在本实施例中，图像处理方法包括步骤302至步骤310。

具体地，本实施例的步骤302与图1实施例的步骤102相同，步骤310与图1实施例的步骤108相同，此处不再进行赘述。图1实施例的步骤104包括本实施例的步骤304，图1中的步骤106包括本实施例的步骤306至步骤308。

步骤304，基于三个不同的投影矩阵分别对各所述初始图像块进行投影，以分别获取各所述初始图像块对应的第一特征向量Q、第二特征向量K和第三特征向量V。具体地，图4为步骤304至步骤308对应的模块结构框图，参考图4，Q、K、V分别代表将初始图像块线性投影之后获得的三个矩阵，分别代表着查询(query)、键(key)和值(value)。具体地，Q为初始图像块经过第一投影矩阵进行线性投影获得的第一特征向量Q，K为初始图像块经过第二投影矩阵进行线性投影获得的第二特征向量K，V为初始图像块经过第三投影矩阵进行线性投影获得的第三特征向量V。其中，第一投影矩阵、第二投影矩阵和第三投影矩阵不同，且第一投影矩阵、第二投影矩阵和第三投影矩阵的具体数值可以通过训练获得。而且，各初始图像块采用相同的第一投影矩阵、相同的第二投影矩阵和相同的第三投影矩阵，从而可以获取不同初始图像块在对应维度下的相似程度。

可选地，在一些实施例中，可以通过多头的投影矩阵分别对各所述初始图像块进行投影，以实现多头注意力(Multi-Head Attention)机制的图像处理。具体地，以两头为例，对同一个初始化图像块投影后，可以获得对应的两个第一特征向量Q(Q1、Q2)、两个第二特征向量K(K1、K2)和第三特征向量V(V1、V2)，从而获取每个初始图像块的更多细节，即，进行更加准确的图像处理。可以理解的是，每个头的数据处理方式均相同，本实施例不做赘述。

步骤306，将N个所述第一特征向量Q和N个所述第二特征向量K分别传输至所述存算阵列进行矩阵乘加运算，以分别获取各所述初始图像块对应的注意力权重矩阵。

具体地，第一特征向量Q和第二特征向量K均为一维向量，因此，第一特征向量Q和第二特征向量K的进行乘加运算后的结果为一个数值，该数值即反映了两个初始图像块之间的相似程度。其中，两个初始图像块之间的相似程度越高，乘加运算后的结果数值就越趋近于1。将第i个初始图像块的第一特征向量Q分别与各初始图像块的第二特征向量K进行矩阵乘加运算后，可以分别获得对应的N个数值，且各数值分别反映了第i个初始图像块与各初始图像块之间的相似程度。

示例性地，以三个初始图像块，每个特征向量分别包括四个特征值为例，则第一个初始图像块的第一特征向量Q为[q11,q12,q13,q14]，第一个初始图像块的第二特征向量K为[k11,k12,k13,k14]，第二个初始图像块的第二特征向量K为[k21,k22,k23,k24]，第三个初始图像块的第二特征向量K为[k31,k32,k33,k34]，则第一个初始图像块的第一特征向量Q与第一个初始图像块的第二特征向量K的矩阵乘加运算结果为q11*k11+q12*k12+q13*k13+q14*k14，第一个初始图像块的第一特征向量Q与第二个初始图像块的第二特征向量K的矩阵乘加运算结果为q11*k21+q12*k22+q13*k23+q14*k24，第一个初始图像块的第一特征向量Q与第三个初始图像块的第二特征向量K的矩阵乘加运算结果为q11*k31+q12*k32+q13*k33+q14*k34，从而可以根据q11*k11+q12*k12+q13*k13+q14*k14、q11*k21+q12*k22+q13*k23+q14*k24和q11*k31+q12*k32+q13*k33+q14*k34共同确定第一个初始图像块对应的注意力权重矩阵。即，基于上述N个数值共同形成的注意力权重矩阵可以获取待处理图像中相似图像块之间的关系，即，反映该第i个初始图像块与待处理图像中各初始图像块之间的全局关系，从而使超分辨率处理有更多的参考。需要说明的是，可以直接将q11*k11+q12*k12+q13*k13+q14*k14、q11*k21+q12*k22+q13*k23+q14*k24和q11*k31+q12*k32+q13*k33+q14*k34作为注意力权重矩阵中的多个注意力权重值，也可以对q11*k11+q12*k12+q13*k13+q14*k14、q11*k21+q12*k22+q13*k23+q14*k24和q11*k31+q12*k32+q13*k33+q14*k34进行其他数据处理，并将数据处理后的数据作为注意力权重矩阵中的多个注意力权重值，本实施例不做限定。

步骤308，分别将各所述初始图像块对应的所述注意力权重矩阵和所述第三特征向量V传输至所述存算阵列进行矩阵乘加运算，以获取N个与对应初始图像块一一对应的融合特征向量。

具体地，获得不同初始图像块之间的相似程度之后，注意力权重矩阵与第三特征向量V之间的矩阵乘加运算就可以看作是对第三特征向量V进行加权求和，以作为新的融合特征向量。示例性地，承前述以三个初始图像块，每个特征向量分别包括四个特征值为例，则第一个初始图像块的第三特征向量V为[v11,v12,v13,v14]，第二个初始图像块的第三特征向量V为[v21,v22,v23,v24]，第三个初始图像块的第三特征向量V为[v31,v32,v33,v34]，结合前一步骤生成的第一个初始图像块对应的注意力权重矩阵，可以确定第一初始图像块对应的融合特征向量为[v11(q11*k11+q12*k12+q13*k13+q14*k14)+v21(q11*k21+q12*k22+q13*k23+q14*k24)+v31(q11*k31+q12*k32+q13*k33+q14*k34),v12(q11*k11+q12*k12+q13*k13+q14*k14)+v22(q11*k21+q12*k22+q13*k23+q14*k24)+v32(q11*k31+q12*k32+q13*k33+q14*k34),v13(q11*k11+q12*k12+q13*k13+q14*k14)+v23(q11*k21+q12*k22+q13*k23+q14*k24)+v33(q11*k31+q12*k32+q13*k33+q14*k34),v14(q11*k11+q12*k12+q13*k13+q14*k14)+v24(q11*k21+q12*k22+q13*k23+q14*k24)+v34(q11*k31+q12*k32+q13*k33+q14*k34)]，可以理解的是，相似程度越大的初始图像块占有正大的注意力权重，因此在计算时，基于注意力权重进行加权，可以准确地通过相似的初始图像块中的特征补偿当前初始图像块中的细节，并减少非相似的初始图像块对当前初始图像块的影响。以上步骤306至步骤308即对应于图4中的点积注意力的处理过程。

在本实施例中，针对每一个初始图像块，都计算了它与待处理图像中所有初始图像块的相似程度，然后基于该相似程度和图像特征向量得到融合特征向量作为该初始图像块的特征表达。基于以上策略，可以有效避免利用局部信息进行判断，从而解决了图像超分辨率处理结果易受到局部噪声影响的问题，提高了图像超分辨率处理的准确性。

进一步地，继续参考图4，在其中一个实施例中，可以使用成对设置的缩减(Reduction)和扩张(Expansion)操作来减少参数的数量。具体地，在可以在对初始图像块进行线性投影前，先通过缩减操作减少通道数量，从而减少线性投影和点积注意力运算过程中所需要处理的数据量，例如可以将具有四通道的初始图像块缩减为三通道。相应地，在完成矩阵乘法运算并获取融合特征向量O后，可以再进行扩张操作以恢复原有的通道数量，例如可以将具有三通道的图像处理结果扩张为四通道，从而提高后续图像处理操作的准确性。其中，缩减和扩张的通道数量可以根据点积注意力的运算能力确定。

在其中一个实施例中，可以通过特征拆分模块(Feature Split Module，FSM)将第一特征向量Q、第二特征向量K和第三特征向量V分别拆分为等长的s段。示例性地，以第一特征向量Q为例，若第一特征向量Q为[q11,q12,q1,q14,q15,q16,q17,q18,q19]，则可以拆分为3个子特征向量，分别为Q1[q11,q12,q13]、Q2[q14,q15,q16]和Q3[q17,q18,q19]，第二特征向量K和第三特征向量V的拆分方式相似。可以理解的是，若第一特征向量Q包括9个特征值，则第一特征向量Q与同样包括9个特征值的第二特征向量K进行矩阵乘法操作时，需要一次完成9个参数与9个参数之间的乘加运算，若将第一特征向量Q和第二特征向量K均拆分为只包括3个特征值，仅需要一次完成3个参数与3个参数之间的乘加运算，从而大大减小了每次运算的运算量。可以理解的是，拆分后每段的长度可以根据存算阵列的尺寸确定，存算阵列的尺寸越大，可以一次性支持越多参数的乘加运算。需要说明的是，上述分段方式仅用于示例性说明，而不用于限定本申请的保护范围，拆分后每段的长度可以远大于3。相应地，基于上述拆分操作，生成的融合特征向量也包括多段，分别为O1、O2和O3，则需要通过连接(concat)操作对多段数据进行处理，从而生成最终的融合特征向量O。

图5为一实施例的第i个所述初始图像块对应的所述注意力权重矩阵的获取方式的流程图，参考图5，在其中一个实施例中，第i个所述初始图像块对应的所述注意力权重矩阵的获取方式包括步骤502至步骤504。

步骤502，获取第i个所述初始图像块的第一特征向量Q分别与各所述初始图像块的第二特征向量K的第一点积和。

其中，1≤n≤N，且所述n为整数。具体地，所述存算阵列包括至少m个第二存算器件，所述第一特征向量Q包括m个第一特征值，所述第二特征向量K包括m个第二特征值，所述m≥2，且m为整数。可以通过下述步骤获取第i个所述初始图像块对应的多个第一点积和的方式，获取方式包括步骤5022至步骤5026。图6为一实施例的多个第二存算器件的结构示意图，结合参考图5和图6。

步骤5022，将第i个所述初始图像块的m个第一特征值分别一一对应存储至m个第二存算器件。

具体地，存算阵列可以包括至少一行，即，存算阵列包括至少一条字线，且每条字线上连接有m个第二存算器件，且连接至同一字线的多个第二存算器件用于存储同一初始图像块的第一特征向量Q。示例性地，仍以前述三个初始图像块，每个特征向量分别包括四个特征值为例，第一个初始图像块的第一特征向量Q为[q11,q12,q13,q14]，上述四个特征值q11、q12、q13和q14分别一一对应存储至连接至位于第一行的四个第二存算器件，第二个初始图像块的第一特征向量Q为[q21,q22,q23,q24]，上述四个特征值q21、q22、q23和q24分别一一对应存储至连接至位于第二行的四个第二存算器件，第三个初始图像块的第一特征向量Q为[q31,q32,q33,q34]，上述四个特征值q31、q32、q33和q34分别一一对应存储至连接至位于第三行的四个第二存算器件。通过上述阵列式的存储方式，可以一次对多个初始图像块进行矩阵乘加运算，从而提高运算速度。可以理解的是，当存算阵列的尺寸较小时，可以相应设置较少行的第二存算器件，本实施例不做限定。

步骤5024，分别将各所述初始图像块的m个第二特征向量K一一对应传输至m个所述第二存算器件。

具体地，同一初始图像块的第二特征向量K中的多个特征值分别一一对应传输至多条位线BL。示例性地，仍以前述三个初始图像块，每个特征向量分别包括四个特征值为例，第一个初始图像块的第二特征向量K为[k11,k12,k13,k14]，第二个初始图像块的第二特征向量K为[k21,k22,k23,k24]，第三个初始图像块的第二特征向量K为[k31,k32,k33,k34]，不同初始图像块的第二特征向量K可以分时输入至存算阵列，例如可以在第一时刻输入[k11,k12,k13,k14]，在第二时刻输入[k21,k22,k23,k24]，并在第三时刻输入[k31,k32,k33,k34]。

步骤5026，根据所述存算阵列输出的信号获取第i个所述初始图像块对应的第一点积和。

具体地，基于上述结构和数据输入方式，可以由存算阵列的数据线SL输出矩阵乘加运算的结果。示例性地，数据线SL1在第一时刻输出第一个初始图像块的第一特征向量Q与第一个初始图像块的第二特征向量K的矩阵乘加运算结果为q11*k11+q12*k12+q13*k13+q14*k14，数据线SL1在第二时刻输出第一个初始图像块的第一特征向量Q与第二个初始图像块的第二特征向量K的矩阵乘加运算结果为q11*k21+q12*k22+q13*k23+q14*k24，数据线SL1在第三时刻输出第一个初始图像块的第一特征向量Q与第三个初始图像块的第二特征向量K的矩阵乘加运算结果为q11*k31+q12*k32+q13*k33+q14*k34。

步骤504，对第i个所述初始图像块的N个所述第一点积和进行归一化，并根据归一化后的所述第一点积和获取第i个所述初始图像块的注意力权重矩阵。

其中，归一化是将需要处理的数据在通过某种算法经过处理后，限制将其限定在需要的一定的范围内。数据归一化处理是数据挖掘的一项基础工作，不同评价指标往往具有不同的量纲和量纲单位，这样的情况会影响到数据分析的结果，为了消除指标之间的量纲影响，需要对数据进行归一化处理，解决数据指标之间的可比性问题。

在本实施例中，通过归一化操作可以避免注意力权重值超范围，造成后续运算结果的错误，并避免收敛速度过慢的问题。而且，基于具体的存算阵列，处理器可以在获取第一特征向量Q后，直接将第一特征向量Q中的各特征值分别存储至第二存算器件，然后再依次获取各初始图像块的第二特征向量K，并分时逐步发送到存算阵列的位线上，以使存算阵列进行相应的运算，可以有效减少需要在处理器和存算阵列之间传输的数据量，从而既可以避免数据传输路径上的数据拥堵，又可以提高生成注意力权重矩阵的速度。

在其中一个实施例中，继续参考图4，所述对第i个所述初始图像块的N个所述第一点积和进行归一化，包括依次进行的最值归一化(Scale)和指数函数归一化(Softmax)。具体地，对第i个所述初始图像块的N个所述第一点积和进行最值归一化，对所述最值归一化后的N个所述第一点积和进行指数函数归一化。其中，最值归一化是指基于多个数据中的最大值和最小值，对全部数据进行等比例的放大或缩小。指数函数归一化是指将一个含任意实数的向量z“压缩”到另一个实向量σ(z)中，使得每一个元素的范围都在(0,1)之间，并且所有元素的和为1。该函数多于多分类问题中。指数函数归一化能够将差距大的数据距离拉得更大，因此，在本实施例中，通过最值归一化和指数函数归一化，既可以获取较佳的数据结果范围，又可以对关键部分的数据进行精准的呈现。

在其中一个实施例中，所述存算阵列包括至少N个第一存算器件，所述注意力权重矩阵包括N个所述注意力权重值，图7为一实施例的第i个所述初始图像块对应的所述融合特征向量的获取方式的流程图，参考图7，第i个所述初始图像块对应的融合特征向量的获取方式包括步骤702至706。图8为一实施例的多个第一存算器件的结构示意图，结合参考图7和图8。

步骤702，将第i个所述初始图像块的N个注意力权重值分别一一对应存储至N个所述第一存算器件。

具体地，存算阵列可以包括至少一行，即，存算阵列包括至少一条字线，且每条字线上连接有N个第一存算器件，且连接至同一字线的多个第一存算器件用于存储同一初始图像块的注意力权重矩阵。示例性地，仍以前述三个初始图像块，每个特征向量分别包括四个特征值为例，第一个初始图像块的注意力权重矩阵包括三个权重值，分别为q11*k11+q12*k12+q13*k13+q14*k14、q11*k21+q12*k22+q13*k23+q14*k24和q11*k31+q12*k32+q13*k33+q14*k34，上述三个注意力权重值分别一一对应存储至连接至位于第一行的三个第一存算器件。第二个初始图像块的注意力权重矩阵包括三个权重值，分别为q21*k11+q22*k12+q23*k13+q24*k14、q21*k21+q22*k22+q23*k23+q24*k24和q21*k31+q22*k32+q23*k33+q24*k34，上述三个注意力权重值分别一一对应存储至连接至位于第二行的三个第一存算器件。通过上述阵列式的存储方式，可以一次对多个初始图像块进行矩阵乘加运算，从而提高运算速度。可以理解的是，当存算阵列的尺寸较小时，可以相应设置较少行的第一存算器件，本实施例不做限定。

步骤704，分别将N个所述初始图像块的第三特征向量V一一对应传输至N个所述第一存算器件。

具体地，同一初始图像块的第三特征向量V中的多个特征值传输至同一条位线BL(图8中仅示出了每个第三特征向量V中的第一个特征值)。同一初始图像块的第三特征向量V中的多个特征值可以分时输入至存算阵列，例如可以在第一时刻输入v11至第一位线BL1，在第二时刻输入v12至第一位线BL1，在第三时刻输入v13至第一位线BL1，并在第四时刻输入v14至第一位线BL1。

步骤706，根据所述存算阵列输出的信号获取第i个所述初始图像块的所述融合特征向量。

具体地，基于上述结构和数据输入方式，可以由存算阵列的数据线SL输出矩阵乘加运算的结果。示例性地，数据线SL1在第一时刻输出第一个初始图像块的注意力权重矩阵与第一个初始图像块的第三特征向量V的矩阵乘加运算结果为v11(q11*k11+q12*k12+q13*k13+q14*k14)+v21(q11*k21+q12*k22+q13*k23+q14*k24)+v31(q11*k31+q12*k32+q13*k33+q14*k34)，数据线SL2在第一时刻输出第二个初始图像块的注意力权重矩阵与第二个初始图像块的第三特征向量V的矩阵乘加运算结果为v11(q21*k11+q22*k12+q23*k13+q24*k14)+v21(q21*k21+q22*k22+q23*k23+q24*k24)+v31(q21*k31+q22*k32+q23*k33+q24*k34)。

图9为一实施例的根据多个所述融合特征向量进行重建以生成目标图像的流程图，参考图9，在本实施例中，所述根据多个所述融合特征向量进行重建以生成目标图像，包括步骤902至步骤908。

步骤902，根据各所述融合特征向量分别生成对应的融合图像块。其中，融合的方式可以根据需要设置，例如可以是拼接或者加权相加的至少一种。

步骤904，通过多层感知机分别对各所述融合图像块进行处理以生成感知图像块。其中，将拼接获得的结果输入到多层感知机(Multilayer Perceptron，MLP)模型，以混合两种不同的异质特征(heterogeneous features)。可选地，感知机模型可以为三层感知机。

步骤906，对多个所述感知图像块进行折叠以获取感知图像。其中，图10为一实施例的分块操作的示意图，参考图10，可以通过fold函数将多个小片(patch)折叠为整体的感知图像。

步骤908，对所述感知图像进行上采样，以获取所述目标图像。具体地，可以通过双线性插值、转置卷积、上采样(unsampling)、上池化(unpooling)和亚像素卷积(sub-pixelconvolution，PixelShuffle)等算法实现上采样，本实施例不做限定。

在本实施例中，通过上述向量转化为图像块、再将图像块转化为图像的一系列操作，可以对图像块进行复原，从而生成能够输出的图像。而且，结合上采样操作，可以进一步提升图像的分辨率，从而获得目标分辨率的目标图像。

图11为一实施例的高效Transformer结构的示意图，参考图11，所述分别对各所述初始图像块进行投影前，还包括：分别对各所述初始图像块进行层归一化；和/或通过多层感知机分别对各所述融合图像块进行处理以生成感知图像块前，还包括：分别对各所述感知图像块进行层归一化。其中，层归一化(Layer Normalization)是指取同一个样本的不同通道做归一化。具体地，层归一化的计算过程如以下三个公式所示：

其中，H是Reduction或者是MLP中第l层的节点数，a^l是这一层的输入向量，

是这一层经过normalization后的输入向量，μ和σ分别是这层统计出来的均值和方差。在图11所示的实施例中，高效Transformer结构进行了两次层归一化，以实现最佳的层归一化效果。

进一步地，继续参考图11，多头注意力单元和多层感知机单元通过残差网络(Residual Networks，ResNets)连接，且多层感知机单元输出时也通过残差网络连接。可以理解的是，随着层数的增多，训练集上的效果会存在退化问题(degradation problem)，原因是随着网络越来越深，训练变得原来越难，网络的优化变得越来越难。虽然理论上来讲，越深的网络，效果应该更好，但是实际上，由于训练难度，过深的网络会产生退化问题，效果反而不如相对较浅的网络。在本实施例中，残差网络可以有效抑制上述退化问题，从而提高图像的生成效果。

在其中一个实施例中，所述存算阵列包括多个忆阻器，所述对待处理图像进行分块以获取N个初始图像块前，还包括基于所述存算阵列通过卷积运算对所述待处理图像进行浅层特征提取，以获取浅层特征图像。其中，浅层特征提取的感受野较小，因此能够利用更多的细粒度特征信息，而且此时每个像素点对应的感受野重叠区域也较小，从而可以保证了浅层特征提取网络能捕获更多细节。相应地，所述对待处理图像进行分块以获取N个初始图像块，包括对所述浅层特征图像进行分块以获取N个所述初始图像块。在本实施例中，基于浅层特征和高效Transformer结构提取的深层特征，可以实现对于图像更加精准的超分辨率处理。

在其中一个实施例中，所述对所述感知图像进行上采样前，还包括基于所述存算阵列通过卷积运算对所述感知图像进行通道融合。在本实施例中，通过通道融合可以减少通道数量，并从融合特征中提取有效信息。而且，通过将通道融合操作设置在上采样前，可以有效减小上采样过程中的处理压力。进一步地，可以对所述浅层特征图像和通道融合后的所述感知图像进行求和，以实现一种残差网络结构，以抑制前述训练退化问题，从而提高图像的生成效果。相应地，所述对所述感知图像进行上采样，包括对求和获得的图像进行上采样。其中，上述通道融合和浅层特征提取均可通过卷积运算实现，而上述卷积运算也可以基于存算阵列实现。在一些实施例中，也可以通过前述的高效Transformer结构实现前述通道融合和/或浅层特征提取，本实施例不做限定。

在其中一个实施例中，可以通过子像素卷积实现上述上采样操作。其中，子像素卷积(PixelShuffle)的具体方式包括：接收低分辨率输入图像，通过卷积先得到r²个通道的特征图(特征图大小和输入低分辨率图像一致)，然后通过周期筛选(Periodic Shuffing)的方法得到高分辨率的图像，其中r为上采样因子(Upscaling Factor)，也就是图像的扩大倍率。所述存算阵列包括多个忆阻器，所述对所述感知图像进行上采样，包括基于所述存算阵列对所述感知图像进行子像素卷积的上采样。

应该理解的是，虽然各流程图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，各流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

本申请实施例还提供了一种存算一体芯片，图12为一实施例的存算一体芯片的结构示意图，参考图12，存算一体芯片包括处理模块和存算阵列。

其中，处理模块用于对待处理图像进行分块以获取N个初始图像块，分别对各所述初始图像块进行投影，以分别获取各所述初始图像块对应的M个图像特征向量，根据预设规则将M×N个所述图像特征向量传输至存算阵列，所述N和M均为大于1的整数。存算阵列与所述处理模块连接，存算阵列包括多个存算单元，所述存算阵列用于对获取到的所述图像特征向量进行矩阵乘加运算。其中，所述处理模块还用于将运算结果作为对应初始图像块的融合特征向量，并根据多个所述融合特征向量进行重建以生成目标图像。在实施例中，通过存算阵列实现矩阵乘加运算，则处理器生成需要进行矩阵乘加运算的数据后，直接将该数据存储至存算阵列，处理器发出命令即可控制存算阵列进行后续运算，从而大大减少了搬运数据的时间，还可以减少存算阵列输出的数据的模数转换的时间，从而提供了一种运算速度较快的存算一体芯片。

图13为一实施例的存算阵列的结构示意图，参考图13，在本实施例中，所述存算阵列还包括多条字线WL、多条位线BL和多条数据线SL，所述存算单元包括忆阻器和开关晶体管。其中，所述忆阻器分别与所述位线BL、所述开关晶体管的第一极连接，所述开关晶体管的控制极与所述字线WL连接，所述开关晶体管的第二极与所述数据线SL连接。位于同一行的多个所述开关晶体管连接至同一所述字线WL、且连接至同一所述数据线SL，位于同一列的多个所述忆阻器连接至同一所述位线BL。

本申请实施例还提供一种图像处理装置，图14为一实施例的图像处理装置的结构框图，参考图14，图像处理装置包括分块模块1402、投影模块1404、向量传输模块1406和重建模块1408。分块模块1402用于对待处理图像进行分块以获取N个初始图像块，所述N为大于1的整数。投影模块1404用于分别对各所述初始图像块进行投影，以分别获取各所述初始图像块对应的M个图像特征向量，所述M为大于1的整数。向量传输模块1406用于根据预设规则将M×N个所述图像特征向量传输至存算阵列，以使所述存算阵列对接收到的所述图像特征向量进行矩阵乘加运算，以获取N个与对应初始图像块一一对应的融合特征向量。重建模块1408用于根据N个所述融合特征向量进行重建以生成目标图像。在本实施例中，通过存算阵列实现矩阵乘加运算，则处理器生成需要进行矩阵乘加运算的数据后，直接将该数据存储至存算阵列，处理器发出命令即可控制存算阵列进行后续运算，从而大大减少了搬运数据的时间，从而提供了一种运算速度较快的图像处理装置。

上述图像处理装置中各个模块的划分仅用于举例说明，在其他实施例中，可将图像处理装置按照需要划分为不同的模块，以完成上述图像处理装置的全部或部分功能。关于图像处理装置的具体限定可以参见上文中对于图像处理方法的限定，在此不再赘述。上述图像处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

本申请实施例还提供了一种电子设备，包括如上述的存算一体芯片。该电子设备可以是手机、平板电脑、PDA(Personal Digital Assistant，个人数字助理)、POS(Point ofSales，销售终端)、车载电脑、穿戴式设备等任意终端设备。在本实施例中，基于前述的存算一体芯片，提供了一种图像处理速度较快的电子设备。

本申请实施例还提供了一种计算机可读存储介质。一个或多个包含计算机可执行指令的非易失性计算机可读存储介质，当所述计算机可执行指令被一个或多个处理器执行时，使得所述处理器执行图像处理方法的步骤。

一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行图像处理方法。

本申请所使用的对存储器、存储、数据库或其它介质的任何引用可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)，它用作外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDR SDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlin第二特征向量K)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请实施例的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请实施例构思的前提下，还可以做出若干变形和改进，这些都属于本申请实施例的保护范围。因此，本申请实施例专利的保护范围应以所附权利要求为准。

Claims

1.一种图像处理方法，其特征在于，包括：

根据N个所述融合特征向量进行重建以生成目标图像。

2.根据权利要求1所述的图像处理方法，其特征在于，所述分别对各所述初始图像块进行投影，以分别获取各所述初始图像块对应的M个图像特征向量，包括：

基于三个不同的投影矩阵分别对各所述初始图像块进行投影，以分别获取各所述初始图像块对应的第一特征向量、第二特征向量和第三特征向量；

所述根据预设规则将M×N个所述图像特征向量传输至存算阵列，以使所述存算阵列对多个所述图像特征向量进行矩阵乘加运算，以获取N个与对应初始图像块一一对应的融合特征向量，包括：

将N个所述第一特征向量和N个所述第二特征向量分别传输至所述存算阵列进行矩阵乘加运算，以分别获取各所述初始图像块对应的注意力权重矩阵；

分别将各所述初始图像块对应的所述注意力权重矩阵和所述第三特征向量传输至所述存算阵列进行矩阵乘加运算，以获取N个与对应初始图像块一一对应的融合特征向量。

3.根据权利要求2所述的图像处理方法，其特征在于，所述存算阵列包括至少N个第一存算器件，所述注意力权重矩阵包括N个所述注意力权重值，第i个所述初始图像块对应的融合特征向量的获取方式，包括：

将第i个所述初始图像块的N个注意力权重值分别一一对应存储至N个所述第一存算器件；

分别将N个所述初始图像块的第三特征向量一一对应传输至N个所述第一存算器件；

根据所述存算阵列输出的信号获取第i个所述初始图像块的所述融合特征向量。

4.根据权利要求2所述的图像处理方法，其特征在于，第i个所述初始图像块对应的所述注意力权重矩阵的获取方式，包括：

获取第i个所述初始图像块的第一特征向量分别与各所述初始图像块的第二特征向量的第一点积和，1≤n≤N，且所述n为整数；

对第i个所述初始图像块的N个所述第一点积和进行归一化，并根据归一化后的所述第一点积和获取第i个所述初始图像块的注意力权重矩阵。

5.根据权利要求4所述的图像处理方法，其特征在于，所述存算阵列包括至少m个第二存算器件，所述第一特征向量包括m个第一特征值，所述第二特征向量包括m个第二特征值，所述m≥2，且m为整数，第i个所述初始图像块对应的多个第一点积和的获取方式，包括：

将第i个所述初始图像块的m个第一特征值分别一一对应存储至m个第二存算器件；

分别将各所述初始图像块的m个第二特征向量一一对应传输至m个所述第二存算器件；

根据所述存算阵列输出的信号获取第i个所述初始图像块对应的第一点积和。

6.根据权利要求4所述的图像处理方法，其特征在于，所述对第i个所述初始图像块的N个所述第一点积和进行归一化，包括：

对第i个所述初始图像块的N个所述第一点积和进行最值归一化；

对所述最值归一化后的N个所述第一点积和进行指数函数归一化。

7.根据权利要求1所述的图像处理方法，其特征在于，所述根据多个所述融合特征向量进行重建以生成目标图像，包括：

根据各所述融合特征向量分别生成对应的融合图像块；

通过多层感知机分别对各所述融合图像块进行处理以生成感知图像块；

对多个所述感知图像块进行折叠以获取感知图像；

对所述感知图像进行上采样，以获取所述目标图像。

8.根据权利要求7所述的图像处理方法，其特征在于，所述存算阵列包括多个忆阻器，所述对待处理图像进行分块以获取N个初始图像块前，还包括：

基于所述存算阵列通过卷积运算对所述待处理图像进行浅层特征提取，以获取浅层特征图像；

所述对待处理图像进行分块以获取N个初始图像块，包括：

对所述浅层特征图像进行分块以获取N个所述初始图像块。

9.根据权利要求8所述的图像处理方法，其特征在于，所述对所述感知图像进行上采样前，还包括：

基于所述存算阵列通过卷积运算对所述感知图像进行通道融合；

对所述浅层特征图像和通道融合后的所述感知图像进行求和；

所述对所述感知图像进行上采样，包括：

对求和获得的图像进行上采样。

10.根据权利要求7所述的图像处理方法，其特征在于，所述存算阵列包括多个忆阻器，所述对所述感知图像进行上采样，包括：

基于所述存算阵列对所述感知图像进行子像素卷积。

11.根据权利要求7所述的图像处理方法，其特征在于，所述分别对各所述初始图像块进行投影前，还包括：分别对各所述初始图像块进行层归一化；和/或

通过多层感知机分别对各所述融合图像块进行处理以生成感知图像块前，还包括：分别对各所述感知图像块进行层归一化。

12.一种存算一体芯片，其特征在于，包括：

13.根据权利要求12所述的存算一体芯片，其特征在于，所述存算阵列还包括多条字线、多条位线和多条数据线，所述存算单元包括忆阻器和开关晶体管；其中，

所述忆阻器分别与所述位线、所述开关晶体管的第一极连接，所述开关晶体管的控制极与所述字线连接，所述开关晶体管的第二极与所述数据线连接；

位于同一行的多个所述开关晶体管连接至同一所述字线、且连接至同一所述数据线，位于同一列的多个所述忆阻器连接至同一所述位线。

14.一种图像处理装置，其特征在于，包括：

15.一种电子设备，其特征在于，包括如权利要求12或13所述的存算一体芯片。