CN115982629A

CN115982629A - 一种基于语义引导的特征选择的图像描述方法

Info

Publication number: CN115982629A
Application number: CN202310098344.XA
Authority: CN
Inventors: 孙晓帅; 李毅男; 纪荣嵘; 纪家沂
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2023-02-10
Filing date: 2023-02-10
Publication date: 2023-04-18

Abstract

一种基于语义引导的特征选择的图像描述方法，涉及人工智能技术。针对使用网格特征的方法导致的特征零散化的缺点，步骤：1)采用卷积神经网络提取图像的网格特征；2)使用传统的自注意力编码器强化图像的网格特征；3)将步骤2)提取的网格特征通过空间关系和通道关系可感知的特征挑选层进行特征挑选；4)将步骤3)挑选得到的图像网格特征进行平均池化操作得到全局特征；5)对步骤4)的得到的全局特征进行多标签分类，判断图像中的物体是否出现在对应的描述语句中；6)将步骤4)输出的视觉特征输入到解码器中，生成图像的描述语句；7)结合分类损失和图像描述生成损失定义损失函数。充分利用文本概念，将细粒度的语义知识纳入选择过程。

Description

一种基于语义引导的特征选择的图像描述方法

技术领域

本发明涉及人工智能领域中的图像自动描述，特别是涉及基于图片用自然语言对图像客观内容进行描述的一种基于语义引导的特征选择的图像描述方法。

背景技术

图像自动描述(Image Captioning)是近年来人工智能界提出的一个机器终极智能任务，旨在为给定的图像自动生成自然语言描述，在人工智能界和多媒体界引起广泛的兴趣。

随着人工智能技术尤其是计算机视觉技术的发展，完成目标分类、目标检测、语义分割和实例分割等任务已经不能满足人们的生产需求，且随着互联网和短视频的发展，对如何自动客观的对视觉内容进行自动描述有迫切的需求。和检测及分割等任务不同，图像自动描述要将图像中的物体、属性、物体间的关系以及相应的场景等用自然准确，人类可以理解的语言进行整体而客观的描述，该任务是计算机视觉理解乃至人工智能发展的重要方向之一，被视为人工智能的一个重要标志。

较早的图像自动描述方法主要采用基于检索的方法和基于模板的方法实现。近年来受自然语言处理发展的影响，开始使用基于编码器-解码器框架的方法，通常采用预训练好的卷积神经网络(CNN)的变体作为图像编码器，同时使用递归神经网络(RNN)作为解码器。并引入注意力机制以及以强化学习为基础的目标函数，使得该任务取得极大的进展。

Xu等人^[1]首次在图像描述任务中引入注意力机制，以在每个单词的生成步骤中专注于生成这个单词最相关的区域。Lu等人^[2]开发自适应的注意方法来判断在每个单词的解码生成步骤中，是依赖视觉特征还是语言的前文。Rennie等人^[3]将强化学习技术引入到图像描述任务中，极大的提升图像描述方法的性能。最近，Anderson等人^[4]还提出自上而下和自下而上的两个注意力技术，先用目标检测器提取图像中最显著的区域，在基于这些图像的区域特征来找到每个单词最相关的显着区域来进行单词的解码生成。Huang等人^[5]则首次引入自然语言处理中的transformer模型到图像描述任务中，Pan等人^[6]和Cornia^[7]等人都使用Transformer模型来代替递归神经网络并取得最好的性能。此外，Liu等人^[8][9]和Li等人^[10]使用Transformer来集成视觉信息和外部标记器提供的语义概念来完成图像描述任务。Luo等人^[11]使用网格特征包含信息全面的特性，来和区域特征进行互补以提升图像描述的准确性。zhang等人^[12]更进一步，只使用网格特征，并使用位置编码和语言模型来强化网格特征之间的关联以提升图像描述的性能。

然而，在这些针对图像描述任务的模型中，尤其是使用网格特征的模型中，因为网格特征的信息全面性所带来的信息冗杂和零碎性等缺点仍然没有被考虑进来。

参考文献：

[1].Xu,K.；Ba,J.；Kiros,R.；Cho,K.；Courville,A.；Salakhudinov,R.；Zemel,R.；and Bengio,Y.2015.Show,attend and tell:Neural image caption generationwith visual attention.In ICML.

[2].Lu,J.；Xiong,C.；Parikh,D.；and Socher,R.2017.Knowing when to look:Adaptive attention via a visual sentinel for image captioning.In CVPR.

[3].Steven J Rennie,Etienne Marcheret,Youssef Mroueh,JerretRoss,andVaibhava Goel.2017.Self-critical sequence training forimage captioning.InCVPR.

[4].Anderson,P.；He,X.；Buehler,C.；Teney,D.；Johnson,M.；Gould,S.；andZhang,L.2018.Bottom-up and top-down attention for image captioning and visualquestion answering.In CVPR.

[5].Huang,L.；Wang,W.；Chen,J.；andWei,X.-Y.2019.Attention on Attentionfor Image Captioning.In ICCV.

[6].Yingwei Pan,Ting Yao,Yehao Li,and Tao Mei.2020.X-linear attentionnetworks for image captioning.In CVPR.

[7].Cornia,M.；Stefanini,M.；Baraldi,L.；and Cucchiara,R.2020.Meshed-Memory Transformer for Image Captioning.In CVPR.

[8].Fenglin Liu,Yuanxin Liu,Xuancheng Ren,Xiaodong He,and XuSun.2019.Aligning visual regions and textual concepts forsemantic-groundedimage representations.In NeurIPS.

[9].Fenglin Liu,Xian Wu,Shen Ge,Xiaoyu Zhang,Wei Fan,and YuexianZou.2020.Bridging the gap between vision and language domains for improvedimage captioning.In ACMMM.

[10].Guang Li,Linchao Zhu,Ping Liu,and YiYang.2019.Entangledtransformer for image captioning.In ICCV.

[11].Yunpeng Luo,Jiayi Ji,Xiaoshuai Sun,Liujuan Cao,Yongjian Wu,Feiyue Huang,Chia-Wen Lin and Rongrong Ji.2021.Dual-Level CollaborativeTransformer for Image Captioning.InAAAI

[12].Xuying Zhang,Xiaoshuai Sun,Yunpeng Luo,Jiayi Ji,Yiyi Zhou,Yongjian Wu,Feiyue Huang and Rongrong Ji.2021.Rstnet:Captioning with adaptiveattention on visual and non-visual words,”.InCVPR

发明内容

本发明的目的在于提供一种基于语义引导的特征选择的图像描述方法，针对使用网格特征的图像描述方法在被网格特征信息带来的噪声特征和特征零散问题，提出通过一个空间信息可感知和通道信息可感知模块进行特征挑选，同时使用一个多标签分类任务来判断该特征时候包含对应标签文本来进行语义引导的监督，从而提高生成的描述语句的准确性。

本发明包括以下步骤：

1)采用卷积神经网络提取待描述图像的网格特征V＝{v₁,v₂,...,v_N}，其中，v_i∈R^d，i＝1,2,...,N,d为各个特征向量的维度，N为网格特征的数量；

2)采用自注意力层和前馈神经网络层构成的编码器层强化待描述的图像的网格特征，得到编码器最后一层的输出

其中，L是编码器的层数；

3)将步骤2)强化得到的网格特征送入空间关系和通道关系可感知的特征挑选层进行特征挑选；

4)将步骤3)得到的网格特征输入到解码器中，生成图像的描述语句；

5)与步骤4)同时进行，将步骤3)得到的网格特征进行平均池化得到全局特征，并对其进行多标签分类，判断其是否含有对应语句中的单词来对特征进行语义引导；

6)根据步骤4)生成图像的描述语句和步骤5)多标签分类计算得到的损失定义损失函数。

在步骤1)中，所述卷积神经网络的训练方法是：采用Faster-RCNN框架中的深度卷积残差网络骨干部分，首先采用端到端的方法在经典目标检测数据集PASCAL VOC2007中进行训练，然后在多模态数据集Visual Genome上进一步训练微调网络参数。

在步骤2)中，所述采用自注意力层和前馈神经网络层构成的编码器层强化待描述的图像的网格特征的具体过程为：将网格特征V输入到编码器的自注意力层为：

针对给定的索引Q，键K，以及值V，

MultiHead(Q,K,V)＝Concat(H₁,...,H_h)W^o,

H_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V),

其中，Q是一个具有n_q个索引向量的矩阵，K和V分别是具有n_k个键向量和值向量的矩阵，这些向量的维度都相同，softmax函数为归一化指数函数，

是网络的投影矩阵，d为模型的隐藏维度，h是多头注意力的头的数量。

在步骤2)中，所述自注意力层和前馈神经网络层构成的编码器层为：

针对给定的输入特征

FFN(x)＝max(0,xW₁+b₁)W₂+b₂,

X^l+1＝LayerNorm(O^l+1+FFN(O^l+1)),

X^l+1＝EnLayer(X^l)

其中，l是第l层编码器层，

都为前馈神经网络的投影矩阵和偏置。d为模型的隐藏维度，LayerNorm是层归一化操作，这几部分联合起来，一起构成EnLayer层。

在步骤3)中，将步骤2)强化过的网格特征送入空间关系可感知的特征挑选层，即：

f_θs(x_i)＝ReLU(BN(W_θsx_i)),

f_φs(x_j)＝ReLU(BN(W_φsx_j)),

r_i,j＝f_θs(x_i)^Tf_φs(x_j),

r_i＝[R_s(i,:),R_s(:,i)]

f_ψs(r_i)＝ReLU(W_ψsr_i),

α_i＝Sigmoid(W₂ReLU(W₁u_i)),

其中，X为步骤2)强化的网格特征，ReLU是激活函数，BN是批归一化，Sigmoid是激活函数，W_θs，W_φs，

W_ψs为线性变换参数矩阵，

是网格特征相关性的矩阵，r_i,j表示x_i和x_j的相似度得分。r_i是将xi自己相关的第i行和其他网格特征关注xi的第i列的得分的拼接，α_i是x_i的重要性得分对x_i进行加权，SRS全称为Spatial Relation-AwareSelection，即空间关系可感知的选择，

是最终得到的经空间关系挑选的网格特征。

在步骤3)中，所述将步骤2)强化过的网格特征送入通道关系可感知的特征挑选层，即：

f_θc(x_i)＝ReLU(BN(W_θcx_i)),

f_φc(x_j)＝ReLU(BN(W_φcx_j)),

r_i,j＝f_θc(x_i)^Tf_φc(x_j),

r_i＝[R_c(i,:),R_c(:,i)]

f_ψc(r_i)＝ReLU(W_ψcr_i),

α_i＝Sigmoid(W₂ReLU(W₁u_i)),

其中，X为步骤2)强化的网格特征，ReLU是激活函数，BN是批归一化，Sigmoid是激活函数，W_θc，W_φc，

W_ψc为线性变换参数矩阵，

是网格特征相关性的矩阵，C是通道数，r_i,j表示x_i和x_j的通道相似度得分；r_i是将xi自己相关的第i行和其他网格特征关注xi的第i列的得分的拼接，α_i是x_i的重要性得分对x_i加权，CRS全称为Channel Relation-AwareSelection，即通道关系可感知的选择，

是最终得到的经通道关系挑选的网格特征。

在步骤3)中，所述将步骤2)强化得到的网格特征送入空间关系和通道关系可感知的特征挑选层，整体流程为：

V⁰＝W_vV,

V^L＝Encoder(V⁰),

V^f＝CRS(SRS(V^L)),

其中，V⁰是卷积网络提取出的图像网格特征，W_v是嵌入层参数，Encoder是由L层EnLayer构成的整个编码器，V^f是最终得到的经过空间关系感知和通道关系感知挑选的网格特征。

在步骤4)中，将步骤3)得到的网格特征输入到解码器中，生成图像的描述语句，定义生成句子的损失函数，具体流程为：

首先假设t为句子序列的第t个词，w_t表示t时刻输入的词所对应的的词向量，由此得到解码器的词向量输入矩阵为：

W_t-1＝(w₀,w₁,...,w_t-1),

与编码器相同，解码器也是由L层相同的结构组成，我们定义第l+1的输入为

输出为

该层的过程定义如下：

V_g＝(V^L；g_F),

其中，W_y为待训练的参数矩阵，将隐含状态映射到词汇表。对于预测的句子Y_T＝{y₀，…，y_T}而言，生成整个句子的概率由每个词的概率累乘得到，即：

其中，T为句子长度；通过监督学习和强化学习两个阶段对模型进行训练；在监督学习阶段，采用交叉熵，对于给定的目标句子

而言，其损失函数定义为：

在强化学习阶段，采用强化学习进行训练，其损失函数的梯度定义为：

其中，

是beamsearch采样的第i个句子，b＝(∑_ir(Yⁱ))/k作为基线值。

在步骤5)中，所述将步骤3)得到的网格特征进行平均池化得到全局特征，并对其进行多标签分类，判断其是否含有对应语句中的单词来对特征进行语义引导，具体流程为：

其中，pooling是平均池化层，Sigmoid是激活函数，W_c是投影矩阵，z＝[z₁,z₂,...,z_M]是标签向量，当第j个单词出现在对应的标签文本中，z_j＝1，反之z_j＝0。p_c＝[p_c1,p_c2,...,p_cM]是预测出的每个单词出现在图像中的概率，M是整个单词表的大小。

在步骤6)中，所述根据步骤4)生成图像的描述语句和步骤5)多标签分类计算得到的损失定义损失函数，具体流程为：

L＝L(θ)+λL_s,

其中，L(θ)是图像描述的损失，L_s是多标签分类的损失，θ是编码器解码器参数的统称。

本发明的优点如下：

通过本发明所提出的方案能够获得一个基于语义引导的特征选择的图像描述方法，包括一个关系感知特征选择模块和一个细粒度语义引导策略模块。其中，关系感知特征选择(RAS)模块可以捕捉到网格特征之间更详细的互动，以选择突出的视觉信息并抑制背景信息，细粒度语义指导(FSG)策略通过端到端的多任务学习明确指导选择过程。它充分利用文本概念，将细粒度的语义知识纳入选择过程。在业界公认的基线数据集MS COCO上的实验评估表明，所提出的基于语义引导的特征选择的图像描述方法取得最先进的性能。

附图说明

图1是本发明基于语义引导的特征挑选的图像描述方法的流程图。

图2是不同的图像描述模型生成的句子对比图。其中，Transformer是对比的模型，它是一种经典的图像描述基线方法。

具体实施方式

以下将结合附图，对本发明进行详细说明。

本发明包括以下步骤：

1)采用卷积神经网络提取待描述图像的网格特征V＝{v₁,v₂,...,v_N}，其中v_i∈R^d，i＝1,2,...,N,d为各个特征向量的维度，N为网格特征的数量；

其中，L是编码器的层数；

3)将步骤2)强化得到的网格特征送入空间关系和通道关系可感知的特征挑选层进行特征挑选。

5)和步骤4)同时进行，将步骤3)得到的网格特征进行平均池化得到全局特征，并对其进行多标签分类，判断其是否含有对应语句中的单词来对特征进行语义引导。

本发明上述整体流程的流程图如图1所示。

具体的每个模块如下：

1、深度卷积特征抽取与描述数据预处理

对所有训练数据中的文本内容进行去停用词处理，并将所有英文词汇进行小写化；然后对文本内容按空格进行分词，得到10201个单词，对数据集描述中出现次数小于五的单词进行剔除，使用“<UNK>”进行替代，同时加入开始符“<BOS>”和结束符“<END>”分别在描述句子的开头和结尾。

先使用预训练好的目标检测器提取36个固定的候选区或将图像分成7×7的特征区域，并使用残差深度卷积网络提出各个候选区相对应的特征

其中，v_i∈R^d，i＝1,2,...,N，d为各个特征向量的维度，k为50，d为2048。首先，查询图像和待检索图像库的图像特征抽取的形式化描述为：对于训练集中的每幅图像提取d维的特征，得到一个d×n的原始视觉特征矩阵X＝[x₁,x₂,...,x_n]∈R^d×n,其中，n表示训练集中的训练样本个数，x_i为矩阵X第i列表示样本集合中第i个维度为d的特征向量。

对训练数据中的所有标签数据进行单词统计，只取出现次数排名前1000的名词动词形容词，从每个图像描述训练样本进行对应的单词抽取得到多标签分类的监督信号。

2、特征强化编码器网络：

使用特征强化编码器网络，对输入的图像特征和语义概念特征进行强化编码。针对给定的索引Q，键K，以及值V，

MultiHead(Q,K,V)＝Concat(H₁,...,H_h)W^o,

H_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V),

针对给定的输入特征

FFN(x)＝max(0,xW₁+b₁)W₂+b₂,

X^l+1＝LayerNorm(O^l+1+FFN(O^l+1)),

X^l+1＝EnLayer(X^l)

其中，l是第l层编码器层，

都为前馈神经网络的投影矩阵和偏置。d为模型的隐藏维度，LayerNorm是层归一化操作，这几部分联合起来，一起构成EnLayer层。L层EnLayer层堆叠起来，构成整个编码器网络。

3、关系可感知的特征挑选网络

3.1、空间关系可感知的特征挑选层，即：

f_θs(x_i)＝ReLU(BN(W_θsx_i)),

f_φs(x_j)＝ReLU(BN(W_φsx_j)),

r_i,j＝f_θs(x_i)^Tf_φs(x_j),

r_i＝[R_s(i,:),R_s(:,i)]

f_ψs(r_i)＝ReLU(W_ψsr_i),

α_i＝Sigmoid(W₂ReLU(W₁u_i)),

其中，X输入的网格特征，ReLU是激活函数，BN是批归一化，Sigmoid是激活函数，W_θs，W_φs，

W_ψs为线性变换参数矩阵，

是网格特征相关性的矩阵，r_i,j表示x_i和x_j的相似度得分。r_i是将xi自己相关的第i行和其他网格特征关注xi的第i列的得分的拼接，α_i是x_i的重要性得分对x_i进行加权，SRS全称为Spatial Relation-Aware Selection，即空间关系可感知的选择，

是最终得到的经空间关系挑选的网格特征。

3.2、通道关系可感知的特征挑选层，即：

f_θc(x_i)＝ReLU(BN(W_θcx_i)),

f_φc(x_j)＝ReLU(BN(W_φcx_j)),

r_i,j＝f_θc(x_i)^Tf_φc(x_j),

r_i＝[R_c(i,:),R_c(:,i)]

f_ψc(r_i)＝ReLU(W_ψcr_i),

α_i＝Sigmoid(W₂ReLU(W₁u_i)),

其中，X为输入的网格特征，ReLU是激活函数，BN是批归一化，Sigmoid是激活函数，W_θc，W_φc，

W_ψc为线性变换参数矩阵，

是网格特征相关性的矩阵，C是通道数，r_i,j表示x_i和x_j的通道相似度得分。r_i是将xi自己相关的第i行和其他网格特征关注xi的第i列的得分的拼接，α_i是x_i的重要性得分对x_i进行加权，CRS全称为Channel Relation-AwareSelection，即通道关系可感知的选择，

是最终得到的经通道关系挑选的网格特征。

3.3、关系可感知的特征挑选网络

上述空间关系和通道关系可感知的特征挑选层结合起来，即为关系可感知的特征挑选网络，即：

V⁰＝W_vV,

V^L＝Encoder(V⁰),

V^f＝CRS(SRS(V^L)),

其中，V⁰是卷积网络提取出的图像网格特征，W_v是嵌入层参数，Encoder是由L层EnLayer构成的整个编码器，V^f是最终得到的经过空间关系感知和通道关系感知挑选得到的网格特征。

4、描述语句的生成和对应的损失函数：

W_t-1＝(w₀,w₁,...,w_t-1),

与编码器相同，解码器也是由L层相同的结构组成，定义第l+1的输入为

输出为

该层的过程定义如下：

V_g＝(V^L；g_F),

而言，其损失函数定义为：

其中，

是beamsearch采样的第i个句子，b＝(∑_ir(Y_i))/k作为基线值。

5、细粒度语义引导的多标签分类

将得到的网格特征进行平均池化得到全局特征，并对其进行多标签分类，判断其是否含有对应语句中的单词来对特征进行语义引导，即：

6、整体损失函数

根据生成图像的描述语句损失和多标签分类计算得到的损失定义损失函数，即：

L＝L(θ)+λL_s,

其中，L(θ)是图像描述的损失，L_s是多标签分类的损失，θ是编码器解码器参数的统称，整体流程由图1所示。

具体实验结果：为验证本发明提出的方法的可行性和先进性，在通用的评估图像描述方法的数据集MSCOCO进行模型的评估。其中和最新图像自动描述方法的量化比较如表1所示，

表1

从表1可以看到，在多种评估指标上以及不同的图像特征上，本发明所提出的方法在所有的指标上都具有很高的优势。此外，如图2所示，通过可视化输入图像所生成的文本描述(示例给出的描述为英文，中文描述自动生成过程同理)，可以看到由于本发明的方法采用特征挑选和语义引导，和没有使用的方法(Transformer)相比，其在图像描述上取得很明显的增强，可以准确的描述图像中所含有的各类信息，并组合成合理的自然语言。对比的基线方法，则容易忽略不显眼的物体或和背景信息混杂，生成错误的描述语句，而本发明的方法则解决网格特征信息冗杂零碎带来的问题，可以生成质量更高的描述语句。

以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.一种基于语义引导的特征选择的图像描述方法，其特征在于包括以下步骤：

其中，L是编码器的层数；

5)将步骤3)得到的网格特征进行平均池化得到全局特征，并对其进行多标签分类，判断其是否含有对应语句中的单词来对特征进行语义引导；

2.如权利要求1所述一种基于语义引导的特征选择的图像描述方法，其特征在于在步骤1)中，所述卷积神经网络的训练方法是：采用Faster-RCNN框架中的深度卷积残差网络骨干部分，首先采用端到端的方法在经典目标检测数据集PASCALVOC2007中进行训练，然后在多模态数据集Visual Genome上进一步训练微调网络参数。

3.如权利要求1所述一种基于语义引导的特征选择的图像描述方法，其特征在于在步骤2)中，所述采用自注意力层和前馈神经网络层构成的编码器层强化待描述的图像的网格特征的具体过程为：将网格特征V输入到编码器的自注意力层为：

针对给定的索引Q，键K，以及值V，

MultiHead(Q,K,V)＝Concat(H₁,...,H_h)W^o,

H_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V),

4.如权利要求1所述一种基于语义引导的特征选择的图像描述方法，其特征在于在步骤2)中，所述自注意力层和前馈神经网络层构成的编码器层为：

针对给定的输入特征

FFN(x)＝max(0,xW₁+b₁)W₂+b₂,

X^l+1＝LayerNorm(O^l+1+FFN(O^l+1)),

X^l+1＝EnLayer(X^l)

其中，l是第l层编码器层，

都为前馈神经网络的投影矩阵和偏置；d为模型的隐藏维度，LayerNorm是层归一化操作，这几部分联合起来，一起构成EnLayer层。

5.如权利要求1所述一种基于语义引导的特征选择的图像描述方法，其特征在于在步骤3)中，将步骤2)强化过的网格特征送入空间关系可感知的特征挑选层，即：

f_θs(x_i)＝ReLU(BN(W_θsx_i)),

f_φs(x_j)＝ReLU(BN(W_φsx_j)),

r_i,j＝f_θs(x_i)^Tf_φs(x_j),

r_i＝[R_s(i,:),R_s(:,i)]

f_ψs(r_i)＝ReLU(W_ψsr_i),

α_i＝Sigmoid(W₂ReLU(W₁u_i)),

W_ψs为线性变换参数矩阵，

是网格特征相关性的矩阵，r_i,j表示x_i和x_j的相似度得分；r_i是将xi自己相关的第i行和其他网格特征关注xi的第i列的得分的拼接，α_i是x_i的重要性得分对x_i进行加权，SRS全称为Spatial Relation-Aware Selection，即空间关系可感知的选择，

是最终得到的经空间关系挑选的网格特征。

6.如权利要求1所述一种基于语义引导的特征挑选的图像描述方法，其特征在于在步骤3)中，将步骤2)强化过的网格特征送入通道关系可感知的特征挑选层，即：

f_θc(x_i)＝ReLU(BN(W_θcx_i)),

f_φc(x_j)＝ReLU(BN(W_φcx_j)),

r_i,j＝f_θc(x_i)^Tf_φc(x_j),

r_i＝[R_c(i,:),R_c(:,i)]

f_ψc(r_i)＝ReLU(W_ψcr_i),

α_i＝Sigmoid(W₂ReLU(W₁u_i)),

W_ψc为线性变换参数矩阵，

是网格特征相关性的矩阵，C是通道数，r_i,j表示x_i和x_j的通道相似度得分；r_i是将xi自己相关的第i行和其他网格特征关注xi的第i列的得分的拼接，α_i是x_i的重要性得分对x_i进行加权，CRS全称为Channel Relation-AwareSelection，即通道关系可感知的选择，