CN115797715B

CN115797715B - 一种量子视觉mlp处理系统及存储介质

Info

Publication number: CN115797715B
Application number: CN202211583636.4A
Authority: CN
Inventors: 罗引; 蒋永余; 王俊艳; 王璋盛; 曹家; 王磊
Original assignee: Beijing Zhongke Wenge Technology Co ltd
Current assignee: Beijing Zhongke Wenge Technology Co ltd
Priority date: 2022-12-09
Filing date: 2022-12-09
Publication date: 2023-06-23
Anticipated expiration: 2042-12-09
Also published as: CN115797715A

Abstract

本发明提供了一种量子视觉MLP处理系统及存储介质，所述系统包括n个量子视觉MLP处理模块、处理器和存储有一段计算机程序的存储器，所述量子视觉处理模块包括n个依次连接的量子视觉MLP处理单元，当所述处理器执行一段计算机程序时，实现如下步骤：获取目标图像对应的图像块初始特征向量，将图像块初始化特征向量输入量子视觉MLP处理模块，以获得该目标图像的最终图像聚合特征和最终图像块特征；本发明提出的量子视觉MLP处理系统，一方面使得图像块的特征充分考虑了其语义内容，更利于图像块的聚合，另一方面，其包含了较少的归纳偏差，具有较高的适应性。

Description

一种量子视觉MLP处理系统及存储介质

技术领域

本发明涉及视觉任务处理领域，特别是涉及一种量子视觉MLP处理系统及存储介质。

背景技术

在计算机视觉中，卷积神经网络(CNNs)长期以来一直是主流的体系结构。最近的工作对Transformer模型提出了挑战，标准Transformer模型也可以很好地处理各种计算机视觉任务，如图像分类、目标检测和语义分割。考虑到视觉Transformer中自注意模块的高度复杂性，只堆叠多层感知器(MLPs)这种更简单的结构引起了人们的关注。

但是，视觉MLP体系结构的性能仍然不如SOTATransformer和CNN体系结构，其瓶颈之一在于其聚合不同tokens的方式，即使用全连接层的固定权重混合不同标记。现有的视觉MLP模型用固定的权重聚合不同的tokens，对来自不同输入图像的tokens使用相同的权重，忽略了不同tokens的语义信息差异，可能无法很好地对所有输入图像的tokens进行聚合，导致现有的视觉MLP体系结构对图像分类、目标检测和语义分割等各种视觉下游任务上表现不好。如何更好地表示tokens，以使得根据tokens新的表示进而提高如图片分类、图片情感分析、图片检索等下游任务的识别效果，是本领域技术人员需要解决的技术问题。

发明内容

针对上述技术问题，本发明采用的技术方案为：一种量子视觉MLP处理系统及存储介质，所述系统包括量子视觉处理模块、处理器和存储有一段计算机程序的存储器，其中，所述量子视觉处理模块包括n个依次连接的量子视觉MLP处理单元B₁，B₂，…，B_j，…，B_n，第j个量子视觉MLP处理单元B_j包括图像块特征提取MLP子单元C_j、图像块特征融合MLP子单元T_j和酉变换子单元UM_j，j的取值范围是1到n，当所述处理器执行一段计算机程序时，实现如下步骤：

S100，获取目标图像对应的图像块初始特征向量A＝{A₁，A₂，…，A_r，…，A_s}，A_r是目标图像中第r个图像块对应的图像块初始特征向量，r的取值范围是1到s，s是目标图像中图像块的数。

S200，将所述图像块初始特征向量A输入所述量子视觉处理模块，以获得该目标图像的最终图像聚合特征TF和最终图像块特征TO，其中，所述最终图像聚合特征TF为量子视觉MLP处理单元B_n输出的目标图像聚合特征Fρ_n，最终图像块特征TO为量子视觉MLP处理单元B_n输出的目标图像块特征向量O_n。

其中，S200中，量子视觉MLP处理单元B_j执行如下步骤：

S210，获取与量子视觉MLP处理单元B_j连接的前一量子视觉MLP处理单元B_j-1输出的目标图像块特征向量O_j-1＝{O_j-1,1，O_j-1,2，…，O_j-1,r，…，O_j-1,s}和目标酉矩阵U_j-1，且，当j＝1时，量子视觉MLP处理单元B₁获取的目标图像块特征O₀为图像块初始特征向量A，目标酉矩阵U₀是随机初始化的一个酉矩阵；当j≠1时，O_j-1,r为A_r在量子视觉MLP处理单元B_j-1中相应输出的目标图像块特征向量。

S220，图像块特征提取MLP子单元C_j基于所述目标图像块特征向量O_j-1，获取第一图像块复数特征向量Z_j＝{Z_j1，Z_j2，…，Z_jr，…，Z_js}，其中，Z_jr为对应于O_j-1,r的第一图像块复数特征向量。

S230，图像块特征融合MLP子单元T_j基于第一图像块复数特征向量Z_j，输出与所述量子视觉MLP处理单元B_j对应的目标图像块特征向量O_j＝{O_j1，O_j2，…，O_jr，…，O_js}和中间图像聚合特征ρ_j，其中，O_jr是经所述图像块特征融合MLP子单元T_j处理得到的对应于A_r的目标图像块特征向量。

S240，酉矩阵子单元UM_j基于中间图像聚合特征ρ_j和量子视觉MLP处理单元B_j-1输出的目标酉矩阵U_j-1，输出与所述量子视觉MLP处理单元B_j对应的目标酉矩阵U_j和目标图像聚合特征Fρ_j。

本发明至少具有以下有益效果：本发明构建了量子视觉MLP处理系统，所述量子视觉MLP处理系统包括n个依次连接的量子视觉MLP处理单元，每个量子视觉MLP处理单元包括图像块特征提取MLP子单元、图像块特征融合MLP子单元和酉变换子单元，使用量子视觉MLP处理系统对目标图像进行处理，获取目标图像的最终图像聚合特征和最终图像块特征，每个视觉MLP处理单元接收上一个视觉MLP处理单元输出的目标图像块特征向量和目标酉矩阵，目标图像块特征向量通过图像块特征提取MLP子单元和图像块特征融合MLP子单元，输出该量子视觉MLP处理单元对应的目标图像块特征和中间图像聚合特征，中间图像聚合特征和目标酉矩阵输入到酉变换子单元，输出该量子视觉MLP处理单元对应的目标酉矩阵和目标图像聚合特征；本发明提出的量子视觉MLP处理系统，使用了channel-mixing的MLP和token-mixing的MLP两种类型的MLP块进行交替堆叠，使得量子视觉MLP处理系统包含较少的归纳偏差，本发明改进了图像块表示方式，并根据图像块的语义动态聚合，解决了现有技术中使用固定权重聚合不同图像块的问题，更加注重了不同图像块的语义信息差异，更好地聚合了图像块，具有应用于更多样化任务的潜力。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种量子视觉MLP处理系统及存储介质执行所述计算机程序时实现的方法流程图；

图2为本发明另一实施例提供的一种量子视觉MLP处理系统及存储介质执行所述计算机程序时实现的方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种量子视觉MLP处理系统及存储介质，所述系统包括量子视觉处理模块、处理器和存储有一段计算机程序的存储器，其中，所述量子视觉处理模块包括n个依次连接的量子视觉MLP处理单元B₁，B₂，…，B_j，…，B_n，第j个量子视觉MLP处理单元B_j包括图像块特征提取MLP子单元C_j、图像块特征融合MLP子单元T_j和酉变换子单元UM_j，j的取值范围是1到n，当所述处理器执行一段计算机程序时，如图1所示，实现如下步骤：

S100，获取目标图像对应的图像块初始特征向量A＝{A₁，A₂，…，A_r，…，A_s}，A_r是目标图像中第r个图像块对应的图像块初始特征向量，r的取值范围是1到s，s是目标图像中图像块的数量。

具体地，S100中获取目标图像对应的图像块初始特征向量A包括：

S101，将目标图像划分为s个图像块。

S102，获取s个图像块对应的图像块初始特征向量A＝{A₁，A₂，…，A_r，…，A_s}。

具体地，图像块初始特征向量A_r可以通过Resent图像编码模型获取。

进一步地，本领域技术人员知晓，通过Resnet图像块初始特征向量A_r为非复数形式。

进一步地，本领域技术人员知晓，现有技术中任何一种获取图像块初始特征向量的方法均属于本发明保护范围。

具体的，图2为本申请另一实施例公开的量子视觉MLP处理系统在执行计算机程序时实现的方法，如图2所示，S200中，量子视觉MLP处理单元B_j执行如下步骤：

具体地，S220包括如下步骤：

S221，获取第一图像块复数特征向量Z_jr的振幅部分Z0_jr＝Channel-FC(O_j-1,r，W^c)，其中，Channel-FC为channel-mixing的第一MLP，W^c为可训练参数。

具体地，第一图像块复数特征向量Z_jr通过channel-mmixing的第一MLP获取，其中，channel-mixing的第一MLP由全连接层和激活函数组成，用于转换每个图像块的特征。

S222，获取第一图像块复数特征向量Z_jr的相位部分θ_jr＝Θ(O_j-1,r，W^θ)，其中，估计模块Θ为channel-mixing的第二MLP，W^θ为可训练参数。

具体地，所述估计模块Θ用于获取每个图像块的特定属性。

S223，获取第一图像块复数特征向量Z_jr＝|Z0_jr|cosθ_jr+i|Z0_jr|sinθ_jr，其中，i为虚数单位。

具体地，振幅部分|Z0_jr|表示目标图像第r个图像块的语义内容。

基于此，本申请将目标图像的图像块表示为了一个具有振幅和相位的波，使用了复数特征表示图像块，将目标图像表示为了复数特征表示的图像块的集合，并使用channel-mixing的第一MLP和第二MLP获取第一图像块复数特征向量的振幅部分和相位部分，因此本发明引入了复数特征表示目标图像的图像块。

具体地，S230包括如下步骤：

S231，构建量子概率系统Ψ_jr

其中，W^t _j、Wⁱ _j为可训练参数。

具体地，

可以理解为，为了融合图像块间的相互作用包括振幅和相位特征，在本发明中将第一图像块复数特征向量看作是定义在向量空间的量子系统，本发明使用了一个token-mixing的MLP构建量子概率系统，token-mixing的MLP由全连接层和激活函数组成，用于聚合不同图像块的特征，在本发明中定义为Token-FC(Z_jr，W^t _j，Wⁱ _j)，相位θ_jr根据图像块的语义内容确定。

S232，获取目标图像对应的中间图像聚合特征

具体地，所述中间图像聚合特征ρ_j表示为目标图像的聚合特征。

S233，基于中间图像聚合特征ρ_j，获取第一图像块复数特征向量Z_jr对应于目标图像块特征向量O_jr，从而获取目标图像块特征向量O_j＝{O_j1，O_j2，…，O_jr，…，O_js}，其中，

量子测量算子/>

是对中间图像聚合特征ρ_j的归一化计算，Tr(·)为求迹运算。

基于此，本发明基于第一图像块复数特征向量组成量子概率系统，通过量子测量观测经特征融合后的目标图像块特征向量，图像块特征提取MLP子单元和图像块特征融合MLP子单元引入了不同图像块的语义内容，能很好地对所有目标图像的图像块进行动态聚合。

具体地，S240包括以下步骤：

S241，获取与所述量子视觉MLP处理单元B_j对应的目标图像聚合特征

S242，获取与所述量子视觉MLP处理单元B_j对应的目标酉矩阵

具体地，目标酉矩阵U_j满足

其中，U^H _j是U_j的共轭转置矩阵，I是单位矩阵。

基于上述内容，酉变换子单元可以将低层的量子概率系统信息传到高层，同时了保留初始可观测量的信息分布，保留了低层的图像块聚合特征。

综上，本发明构建了量子视觉MLP处理系统，所述量子视觉MLP处理系统包括n个依次连接的量子视觉MLP处理单元，每个量子视觉MLP处理单元包括图像块特征提取MLP子单元、图像块特征融合MLP子单元和酉变换子单元，使用量子视觉MLP处理系统对目标图像进行处理，获取目标图像的最终图像聚合特征和最终图像块特征，每个视觉MLP处理单元接收上一个视觉MLP处理单元输出的目标图像块特征向量和目标酉矩阵，目标图像块特征向量通过图像块特征提取MLP子单元和图像块特征融合MLP子单元，输出该量子视觉MLP处理单元对应的目标图像块特征和中间图像聚合特征，中间图像聚合特征和目标酉矩阵输入到酉变换子单元，输出该量子视觉MLP处理单元对应的目标酉矩阵和目标图像聚合特征；本发明提出的量子视觉MLP处理系统，使用了channel-mixing的MLP和token-mixing的MLP两种类型的MLP块进行交替堆叠，使得量子视觉MLP处理系统包含较少的归纳偏差，本发明改进了图像块表示方式，并根据图像块的语义动态聚合，解决了现有技术中使用固定权重聚合不同图像块的问题，更加注重了不同图像块的语义信息差异，更好地聚合了图像块，具有应用于更多样化任务的潜力。

虽然已经通过示例对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本发明的范围。本领域的技术人员还应理解，可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明开的范围由所附权利要求来限定。

Claims

1.一种量子视觉MLP处理系统，其特征在于，所述系统包括量子视觉处理模块、处理器和存储有一段计算机程序的存储器，其中，所述量子视觉处理模块包括n个依次连接的量子视觉MLP处理单元B₁，B₂，…，B_j，…，B_n，第j个量子视觉MLP处理单元B_j包括图像块特征提取MLP子单元C_j、图像块特征融合MLP子单元T_j和酉变换子单元UM_j，j的取值范围是1到n，当所述处理器执行一段计算机程序时，实现如下步骤：

S100，获取目标图像对应的图像块初始特征向量A＝{A₁，A₂，…，A_r，…，A_s}，A_r是目标图像中第r个图像块对应的图像块初始特征向量，r的取值范围是1到s，s是目标图像中图像块的数量；

S200，将所述图像块初始特征向量A输入所述量子视觉处理模块，以获得该目标图像的最终图像聚合特征TF和最终图像块特征TO，其中，所述最终图像聚合特征TF为量子视觉MLP处理单元B_n输出的目标图像聚合特征Fρ_n，所述最终图像块特征TO为量子视觉MLP处理单元B_n输出的目标图像块特征向量O_n；

其中，S200中，量子视觉MLP处理单元B_j执行如下步骤：

S210，获取与量子视觉MLP处理单元B_j连接的前一量子视觉MLP处理单元B_j-1输出的目标图像块特征向量O_j-1＝{O_j-1,1，O_j-1,2，…，O_j-1,r，…，O_j-1,s}和目标酉矩阵U_j-1，且，当j＝1时，量子视觉MLP处理单元B₁获取的目标图像块特征O₀为图像块初始特征向量A，目标酉矩阵U₀是随机初始化的一个酉矩阵；当j≠1时，O_j-1,r为A_r在量子视觉MLP处理单元B_j-1中相应输出的目标图像块特征向量；

S220，图像块特征提取MLP子单元C_j基于所述目标图像块特征向量O_j-1，获取第一图像块复数特征向量Z_j＝{Z_j1，Z_j2，…，Z_jr，…，Z_js}，其中，Z_jr为对应于O_j-1,r的第一图像块复数特征向量；

S230，图像块特征融合MLP子单元T_j基于第一图像块复数特征向量Z_j，输出与所述量子视觉MLP处理单元B_j对应的目标图像块特征向量O_j＝{O_j1，O_j2，…，O_jr，…，O_js}和中间图像聚合特征ρ_j，其中，O_jr是经所述图像块特征融合MLP子单元T_j处理得到的对应于A_r的目标图像块特征向量；

S240，酉变换子单元UM_j基于中间图像聚合特征ρ_j和量子视觉MLP处理单元B_j-1输出的目标酉矩阵U_j-1，输出与所述量子视觉MLP处理单元B_j对应的目标酉矩阵U_j和目标图像聚合特征Fρ_j；

其中，S220包括如下步骤：

S221，获取第一图像块复数特征向量Z_jr的振幅部分Z0_jr＝Channel-FC(O_j-1,r，W^c)，其中，Channel-FC为channel-mixing的第一MLP，W^c为可训练参数；

S222，获取第一图像块复数特征向量Z_jr的相位部分θ_jr＝Θ(O_j-1,r，W^θ)，其中，估计模块Θ为channel-mixing的第二MLP，W^θ为可训练参数；

S223，获取第一图像块复数特征向量Z_jr＝|Z0_jr|cosθ_jr+i|Z0_jr|sinθ_jr，其中，i为虚数单位；

其中，S230包括如下步骤：

S231，构建量子概率系统Ψ_jr；

其中，W^t _j、Wⁱ _j为可训练参数；

S232，获取目标图像对应的中间图像聚合特征

是对中间图像聚合特征ρ_j的归一化计算，Tr(·)为求迹运算。

2.根据权利要求1所述的系统，其特征在于，S240具体包括：

S242，获取与所述量子视觉MLP处理单元B_j对应的目标酉矩阵

3.根据权利要求1所述的系统，其特征在于，S100中获取目标图像对应的图像块初始特征向量A包括：

S101，将目标图像划分为s个图像块；

4.根据权利要求1所述的系统，其特征在于，目标酉矩阵U_j满足：

其中，U^H _j是U_j的共轭转置矩阵，I是单位矩阵。

5.根据权利要求3所述的系统，其特征在于，图像块初始特征向量A_r通过Resent图像编码模型获取。

6.一种非瞬时性计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1～5中任意一项。