CN115761757A

CN115761757A - 基于解耦特征引导的多模态文本页面分类方法

Info

Publication number: CN115761757A
Application number: CN202211374707.XA
Authority: CN
Inventors: 柯逍; 许培荣
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2022-11-04
Filing date: 2022-11-04
Publication date: 2023-03-07

Abstract

本发明涉及一种基于解耦特征引导的多模态文本页面分类方法，包括以下步骤：获取电子文本页面数据构建训练集，并基于训练集训练双流的端到端Transformer编码网络，所述双流的端到端Transformer编码网络包括视觉特征提取器、语言特征提取器和跨模态融合编码器；将待分类的电子文本页面的文本数据输入语言特征提取器获得深层语言特征；将待分类的电子文本页面的图像数据输入视觉特征提取器获得深层视觉特征；将得到的深层语言特征和深层视觉特征共同输入跨模态融合编码器获得多模态特征，并用于分类网络进行分类。本发明能够有效地通过多模态方法对电子文本页面进行准确分类。

Description

基于解耦特征引导的多模态文本页面分类方法

技术领域

本发明涉及模式识别与计算机视觉领域，具体涉及一种基于解耦特征引导的多模态文本页面分类方法。

背景技术

近些年来，随着平板电脑、手机等智能设备大量普及，电子文本页面逐渐成为最重要的信息媒介之一。电子文本页面上显示的各种信息格式、种类、来源都不同，使得单一模态方法难以有效对综合特征进行分析。此外，当下现实场景中的文档图像分类任务是最接近电子文本页面分类相似的视觉任务，但电子文本页面图像包括了文档的种类且不限于此，前人在文档图像分类任务上同样通过提取文档中文本采用多模态方法进行分类，但目前关于电子文本页面相关的研究很少。

尽管计算机视觉技术已经取得很大进步，在电子文本页面场景中还面临着许多挑战，如单一模态特征缺少信息相关性和互补性，模型学习图像细节特征代价问题等。

发明内容

有鉴于此，本发明的目的在于提供一种基于解耦特征引导的多模态文本页面分类方法，能够有效地通过多模态方法对电子文本页面进行准确分类。

为实现上述目的，本发明采用如下技术方案：

一种基于解耦特征引导的多模态文本页面分类方法，包括以下步骤：

获取电子文本页面数据构建训练集，并基于训练集训练双流的端到端Transformer编码网络，所述双流的端到端Transformer编码网络包括视觉特征提取器、语言特征提取器和跨模态融合编码器；

将待分类的电子文本页面的文本数据输入语言特征提取器获得深层语言特征；

将待分类的电子文本页面的图像数据输入视觉特征提取器获得深层视觉特征；

将得到的深层语言特征和深层视觉特征共同输入跨模态融合编码器获得多模态特征，并用于分类网络进行分类。

进一步的，所述电子文本页面数据包括经济、军事、体育、美食、科技、旅游类别的电子文本页面图像和文本数据。

进一步的，所述语言特征提取器包括第二解耦表征网络模块和语言编码器；所述语言特征提取器处理数据的方法，具体如下：

将待分类的电子文本页面的文本数据先输入第二解耦表征网络模块,得到浅层语言特征E_head和剩余文本特征E_tail；

然后将浅层语言特征E_head通过10层Transformer结构的语言编码器网络进一步提取文本特征得到深层语言特征F_t。

进一步的，设Text＝{t₁,t₂,…,t_M}为通过分词处理的文本数据序列，t_j表示第j个文本描述符，并将其分为头部文本T_head和剩余文本T_tail；

采用大规模预训练Bert编码文本语言特征；将文本序列嵌入到语言特征空间

具体过程表示为：

其中Bert(·)为预训练Bert权重，

为待嵌入的文本序列，

分别为依照Bert处理的方法在嵌入过程中添加嵌入向量的位置和语义类型；

采用S22中文本嵌入方法分别将头部文本T_head和剩余文本T_tail共享同一份Bert权重嵌入特征空间得到

为浅层语言特征，

为剩余文本特征；

将剩余特征和浅层语言特征分别输入引导对齐模块和语言编码模块进行处理。

进一步的，所述视觉特征提取器包括第一解耦表征网络模块、引导对齐模块和视觉编码器；所述视觉特征提取器处理数据的方法，具体如下：

待分类的电子文本页面的图像数据通过第一解耦表征网络模块处理,解耦得到形状特征f_shape、颜色特征f_hsv和像素特征f_gray；

将得到的形状特征f_shape、颜色特征f_hsv、像素特征f_gray和S22中得到的剩余文本特征E_tail输入引导对齐模块进行引导对齐得到浅层视觉特征E_v；

将浅层视觉特征E_v输入视觉编码器进行加工，进一步提取视觉特征得到深层视觉特征F_v；其中对常规的视觉编码器中的自注意力层进行替换，采用加入高斯核函数生成mask的Transformer自注意力层，通过该高斯注意力GAttn(·)得到更加关注中心区域的视觉模态特征，其计算公式如下：

其中μ_r,μ_l,σ为超参数，μ_r,μ_l表示高斯函数均值，σ表示高斯函数标准差，W_q,W_k,W_θ分别为自注意力机制中Q值，K值和为高斯权重设置的可学习权重参数，r,l为特征点在特征图中的位置索引，T为矩阵转置符号。

进一步的，设I＝{x₁,x₂,…,x_N}为从网络获取电子文本页面图像训练集，x_i为第i张图像，对文本页面图像进行分片操作得到图像片段序列X_i＝Patch(x_i)，Patch(·)为一个卷积核大小为32×64，步长为(32，64)的卷积核；并将图像片段序列X_i通道信息去掉，作为二维图像像素特征序列f_gray；

对图像x_i通过不同大小的高斯核G(·)处理图像，并得到高斯差分金字塔DOG(·)；采用SIFT方法在高斯差分金字塔中提取图像极值特征点描述符keypints，并采用主成分分析法PCA(·)获得128维特征值SIFT_val和特征向量SIFT_vec；将该特征值序列输入一层全连接网络提取为特定长度的一维图像形状特征序列f_shape，其计算公式如下：

DOG(x_i,σ)＝(G(x_i,i*σ)-G(x_i,σ))*x_i

SIFT_val,SIFT_vec＝PCA(keypints{(x_i,y_i)|∈DOG(I_k,σ)},128)

f_shape＝w_sp·SIFT_val+b_sp

其中σ为高斯模糊系数，W_sp,b_sp为全连接层权重；

通过提取图像x_i的HSV特征，将该特征值序列通过一层全连接网络映射为特定长度的一维颜色特征序列f_hsv，其计算公式如下：

HSV＝CalcHist(H+S+V)

f_hsv＝w_hsv·HSV+b_hsv

其中H,S,V分别表示图像色调、饱和度、明度，CalcHist(·)表示颜色直方图统计函数，w_hsv,b_hsv为全连接层权重；

将形状特征、颜色特征和像素特征共同输入引导对齐模块进行处理，通过解耦的特征进行引导融合替代传统视觉特征。

进一步的，分别通过MLP将形状特征f_shape、颜色特征f_hsv、像素特征f_gray嵌入特征空间，使像素特征空间受到形状和颜色特征空间的引导，得到特征空间E₁表示为：

E₁＝γ₁*LN(W_g·f_gray)+γ₂*LN(W_sh·f_shape)+γ₃*LN(W_c·f_hsv)

其中W_g,W_sh,W_C分别表示MLP权重，γ₁,γ₂,γ₃分别是f_gray，f_shape和f_hsv特征加权超参数，LN(·)表示一个LayerNorm归一化层；

将剩余文本特征E_tail通过1×1通道卷积实现与视觉特征E₁维度对齐，并与E₁拼接输入一个自注意力层进行语义对齐得到浅层视觉特征Ev替代已有的合并特征，其计算公式如下：

E_v＝selfAttn([E₁,Conv_1x1(E_tail)])

其中selfAttn(·)为标准自注意力模块，Conv_1x1(·)表示1×1通道卷积；

将浅层视觉特征E_v输入视觉编码器进行加工。

进一步的，所述跨模态融合编码器处理数据的方法，具体如下：

将得到的深层语言特征F_t和深层视觉特征F_v共同输入跨模态融合编码器，通过6层交叉注意力编码提取跨模态特征F_x；

将跨模态特征F_x输入分类头网络进行分类；分类头网络通过维度大小为三层全连接层组成，并通过Mish激活函数和BatchNorm归一化层连接两层全连接，分类头最终通过softmax输出维度为类别数的预测序列，表示第i个电子文本页面样本对应各个类别的预测概率，通过选择最高概率的类别作为该样本的分类结果。

进一步的，所述训练双流的端到端Transformer编码网络，具体包括

(1)：获取电子文本页面数据构建训练集；

(2)：将视觉模态特征F_v和语言模态特征F_t通过infoNCE loss计算模态间损失L_CM，将形状特征f_shape和颜色特征f_hsv用于计算模态内损失L_IM，其计算公式如下：

其中F_i,F_i'表示第i张图片下两种特征，F'表示所有图片特征F_i'的集合，F'_id表示F'中第id个特征，sim(·)为两个特征序列相似度计算函数，F_v,F_t分别表示当前图片下视觉模态特征和语言模态特征，

分别表示所有图片视觉模态特征和语言模态特征的集合，f_shape,f_hsv分别表示当前图片下形状特征和颜色特征，

分别为所有图片形状特征和颜色特征的集合，e为自然指数；

(3)：将分类头输出的分类概率使用交叉熵损失函数计算预测得到的分类概率与真实概率之间的差异并得到损失值L_BCE，并通过与模态间损失L_CM和模态内损失L_IM加权计算整个网络的损失Loss＝αL_BCE+βL_CM+γL_IM，其中α,β,γ为超参数；然后利用梯度下降与反向传播算法更新网络参数，完成双流的端到端Transformer编码网络训练。

本发明与现有技术相比具有以下有益效果：

1、本发明能够有效地对电子文本页面中综合特征进行分析，提升了分类的准确率。通过结合自监督对比损失衡量两个模态间编码器的特征空间差异度和视觉模态内形状特征和颜色特征差异度，通过损失优化拉近模态间特征距离，并使形状特征和颜色特征总是往相近的方向引导视觉特征，能够在模型训练过程中逐渐增强约束，提高特征的泛化性。

2、本发明针对模型学习电子文本页面图像细节特征代价问题，提出解耦表征模块，通过解耦特征强关联性，减小特征维度并保留有效特征。结合视觉特征优化方法提出多模态Transformer电子文本页面分类方法。多模态方法通过结合不同角度信息，克服单一模态特征缺少不同模态间对应关系，难以辨别困难样本的问题。

3、本发明针对文本区域在视觉特征归纳时缺少图像细节信息的问题，提出引导表征模块融合形状特征、颜色特征和像素特征，增强图像特征对图像区域的定性理解和对文本分布的定量理解，增强多模态模型在视觉部分的学习能力，使得电子文本页面图像中视觉实体轮廓辨别力大幅增强。

4、本发明针对难以将电子文本页面场景中大量文本与视觉特征进行模态间特征融合的问题，在引导表征模块中与共用Bert权重的剩余文本特征提前对齐，解决视觉特征缺少文本语义的问题，使视觉编码器具有关键文本感知特性，使Bert上的优化同时受到文本特征和视觉特征的影响，提升从视觉上理解文本含义的能力。

5、本发明在视觉Transfomer编码其中采用高斯注意力提取视觉模态特征，提高模型对图像中心区域的关注度，有效的提升分类效果。在训练时随机生成拟合高斯分布的视觉特征掩码，达到数据增强的效果，丰富数据多样性以增加模型鲁棒性。

附图说明

图1是本发明方法流程图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

请参照图1，本发明提供一种基于解耦特征引导的多模态文本页面分类方法，包括以下步骤：(步骤S2、S3可以同时进行)

步骤S1：通过多模态电子文本页面图像和文本训练集训练双流的端到端Transformer编码网络并通过已训练网络并推理电子文本页面类别，用于检测用户浏览电子文本页面的类型；

在本实施例中，步骤S1具体包括以下步骤：

步骤S11：从网络上获取分类包括经济、军事、体育、美食、科技、旅游等类别的电子文本页面图像和文本数据训练集，用于端到端多模态Transformer编码网络训练；

优选地，端到端多模态Transformer编码网络训练具体包括一下步骤：

步骤S111：从网络上获取多模态电子文本页面训练集；

步骤S112：将S34中得到的视觉模态特征F_v和S23中得到的语言模态特征F_t通过infoNCE loss计算模态间损失L_CM，将S312和S313得到的形状特征f_shape和颜色特征f_hsv用于计算模态内损失L_IM，其计算公式如下：

分别为所有图片形状特征和颜色特征的集合，e为自然指数；

步骤S113：将分类头输出的分类概率使用交叉熵损失函数计算预测得到的分类概率与真实概率之间的差异并得到损失值L_BCE，并通过与模态间损失L_CM和模态内损失L_IM加权计算整个网络的损失Loss＝αL_BCE+βL_CM+γL_IM，其中α,β,γ为超参数；然后利用梯度下降与反向传播算法更新网络参数，完成神经网络训练。

步骤S12：S11中双流的端到端Transformer编码网络将由视觉特征提取器、语言特征提取器和跨模态融合编码器三大主要模块组成，并连接分类头完成端到端数据输出；

步骤S13：将待分类的电子文本页面图像和文本信息输入S11中训练后的端到端多模态Transformer编码网络，输出电子文本页面每个类别对应的分类概率，将概率最高的类别作为网络推理的分类结果，用于检测用户浏览电子文本页面的类型。

步骤S2：基于S1中的网络架构，将S1中采集的电子文本页面文本输入语言特征提取器获得深层语言特征。

在本实施例中，步骤S2具体包括以下步骤：

步骤S21：与通用的文本特征编码神经网络不同，S12中语言特征提取器结构主要由第二解耦表征网络模块和语言编码器组成；

步骤S22：将S11中采集的电子文本页面文本先输入第二解耦表征网络模块替代传统的文本截断预处理方法,得到浅层语言特征E_head和剩余文本特征E_tail；

优选地，步骤S22具体包括以下步骤：

步骤S221：设Text＝{t₁,t₂,…,t_M}为通过分词处理的文本数据序列，t_j表示第j个文本描述符，并将其分为头部文本T_head和剩余文本T_tail；

步骤S222：采用大规模预训练Bert编码文本语言特征；将文本序列嵌入到语言特征空间

具体过程表示为：

其中Bert(·)为预训练Bert权重，

为待嵌入的文本序列，

步骤S223：采用S22中文本嵌入方法分别将头部文本T_head和剩余文本T_tail共享同一份Bert权重嵌入特征空间得到

为浅层语言特征，

为剩余文本特征；

步骤S224：将剩余特征和浅层语言特征分别输入引导对齐模块和语言编码模块进行处理。

步骤S23：将S21得到的浅层语言特征E_head通过10层Transformer结构的语言编码器网络进一步提取文本特征得到深层语言特征F_t。

步骤S3：基于S1中的网络架构，将S1中采集的电子文本页面图像输入视觉特征提取器获得深层视觉特征；

在本实施例中，步骤S3具体包括一下步骤：

步骤S31：S12中视觉特征提取器结构主要由第一解耦表征网络模块、引导对齐模块和视觉编码器组成；

步骤S32：不同于传统的多模态方法中简单的视觉特征提取，将S11中采集的电子文本页面图像先通过第一解耦表征网络模块处理,解耦得到形状特征f_shape、颜色特征f_hsv和像素特征f_gray；

步骤S33：将S31得到的形状特征f_shape、颜色特征f_hsv、像素特征f_gray和S22中得到的剩余文本特征E_tail输入引导对齐模块进行引导对齐得到浅层视觉特征E_v，与传统方法相比丰富了视觉模态特征；

步骤S34：将浅层视觉特征E_v输入视觉编码器进行加工，进一步提取视觉特征得到深层视觉特征F_v；其中对常规的视觉编码器中的自注意力层进行替换，采用加入高斯核函数生成mask的Transformer自注意力层，通过该高斯注意力GAttn(·)得到更加关注中心区域的视觉模态特征，其计算公式如下：

其中μ_r,μ_l,σ为超参数，μ_r,μ_l表示高斯函数均值，σ表示高斯函数标准差，W_q,W_k,W_θ分别为自注意力机制中Q值，K值和为高斯权重设置的可学习权重参数，r,l为特征点在特征图中的位置索引，T为矩阵转置符号；

步骤S4：基于S1中的网络架构，将S2和S3得到的深层语言特征和深层视觉特征共同输入跨模态融合编码器获得多模态特征，并用于分类网络进行分类；

在本实施例中，步骤S4具体包括以下步骤：

步骤S41：基于S1中的网络架构，将S23得到的深层语言特征F_t和S34得到的深层视觉特征F_v共同输入跨模态融合编码器，通过6层交叉注意力编码提取跨模态特征F_x；

步骤S42：将S41中跨模态特征F_x输入分类头网络进行分类；分类头网络通过维度大小为三层全连接层组成，并通过Mish激活函数和BatchNorm归一化层连接两层全连接，分类头最终通过softmax输出维度为类别数的预测序列，表示第i个电子文本页面样本对应各个类别的预测概率，通过选择最高概率的类别作为该样本的分类结果。

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种基于解耦特征引导的多模态文本页面分类方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于解耦特征引导的多模态文本页面分类方法，其特征在于，所述电子文本页面数据包括经济、军事、体育、美食、科技、旅游类别的电子文本页面图像和文本数据。

3.根据权利要求1所述的基于解耦特征引导的多模态文本页面分类方法，其特征在于，所述语言特征提取器包括第二解耦表征网络模块和语言编码器；所述语言特征提取器处理数据的方法，具体如下：

将待分类的电子文本页面的文本数据先输入第二解耦表征网络模块，得到浅层语言特征E_head和剩余文本特征E_tail；

4.根据权利要求3所述的基于解耦特征引导的多模态文本页面分类方法，其特征在于，设Text＝{t₁，t₂，...，t_M}为通过分词处理的文本数据序列，t_j表示第j个文本描述符，并将其分为头部文本T_head和剩余文本T_tail；

具体过程表示为：

其中Bert(·)为预训练Bert权重，

为待嵌入的文本序列，

为浅层语言特征，

为剩余文本特征；

5.根据权利要求1所述的基于解耦特征引导的多模态文本页面分类方法，其特征在于，所述视觉特征提取器包括第一解耦表征网络模块、引导对齐模块和视觉编码器；所述视觉特征提取器处理数据的方法，具体如下：

待分类的电子文本页面的图像数据通过第一解耦表征网络模块处理，解耦得到形状特征f_shape、颜色特征f_hsv和像素特征f_gray；

其中μ_r，μ_l，σ为超参数，μ_r，μ_l表示高斯函数均值，σ表示高斯函数标准差，W_q，W_k，W_θ分别为自注意力机制中Q值，K值和为高斯权重设置的可学习权重参数，r，l为特征点在特征图中的位置索引，T为矩阵转置符号。

6.根据权利要求5所述的基于解耦特征引导的多模态文本页面分类方法，其特征在于，设I＝{x₁，x₂，...，x_N}为从网络获取电子文本页面图像训练集，x_i为第i张图像，对文本页面图像进行分片操作得到图像片段序列X_i＝Patch(x_i)，Patch(·)为一个卷积核大小为32×64，步长为(32，64)的卷积核；并将图像片段序列X_i通道信息去掉，作为二维图像像素特征序列f_gray；

DOG(x_i，σ)＝(G(x_i，i*σ)-G(x_i，σ))*x_i

SIFT_val，SIFT_vec＝PCA(keypints{(x_i，y_i)|∈DOG(I_k，σ)}，128)

f_shape＝w_sp·SIFT_val+b_sp

其中σ为高斯模糊系数，w_sp，b_sp为全连接层权重；

HSV＝CalcHist(H+S+V)

f_hsv＝w_hsv·HSV+b_hsv

其中H，S，V分别表示图像色调、饱和度、明度，CalcHist(·)表示颜色直方图统计函数，w_hsv，b_hsv为全连接层权重；

7.根据权利要求6所述的基于解耦特征引导的多模态文本页面分类方法，其特征在于，分别通过MLP将形状特征f_shape、颜色特征f_hsv、像素特征f_gray嵌入特征空间，使像素特征空间受到形状和颜色特征空间的引导，得到特征空间E₁表示为：

E₁＝γ₁*LN(W_g·f_gray)+γ₂*LN(W_sh·f_shape)+γ₃*LN(W_c·f_hsv)

其中W_g，W_sh，W_C分别表示MLP权重，γ₁，γ₂，γ₃分别是f_gray，f_shape和f_hsv特征加权超参数，LN(·)表示一个LayerNorm归一化层；

E_v＝selfAttn([E₁，Conv_1x1(E_tail)])

将浅层视觉特征E_v输入视觉编码器进行加工。

8.根据权利要求1所述的基于解耦特征引导的多模态文本页面分类方法，其特征在于，所述跨模态融合编码器处理数据的方法，具体如下：

9.根据权利要求1所述的基于解耦特征引导的多模态文本页面分类方法，其特征在于，所述训练双流的端到端Transformer编码网络，具体包括

(1)：获取电子文本页面数据构建训练集；

其中F_i，F_i′表示第i张图片下两种特征，F′表示所有图片特征F_i′的集合，F′_id表示F′中第id个特征，sim(·)为两个特征序列相似度计算函数，F_v，F_t分别表示当前图片下视觉模态特征和语言模态特征，

分别表示所有图片视觉模态特征和语言模态特征的集合，f_shape，f_hsv分别表示当前图片下形状特征和颜色特征，

分别为所有图片形状特征和颜色特征的集合，e为自然指数；

(3)：将分类头输出的分类概率使用交叉熵损失函数计算预测得到的分类概率与真实概率之间的差异并得到损失值L_BCE，并通过与模态间损失L_CM和模态内损失L_IM加权计算整个网络的损失Loss＝αL_BCE+βL_CM+γL_IM，其中α，β，γ为超参数；然后利用梯度下降与反向传播算法更新网络参数，完成双流的端到端Transformer编码网络训练。