CN115761757A - 基于解耦特征引导的多模态文本页面分类方法 - Google Patents

基于解耦特征引导的多模态文本页面分类方法 Download PDF

Info

Publication number
CN115761757A
CN115761757A CN202211374707.XA CN202211374707A CN115761757A CN 115761757 A CN115761757 A CN 115761757A CN 202211374707 A CN202211374707 A CN 202211374707A CN 115761757 A CN115761757 A CN 115761757A
Authority
CN
China
Prior art keywords
feature
modal
visual
text
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211374707.XA
Other languages
English (en)
Inventor
柯逍
许培荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN202211374707.XA priority Critical patent/CN115761757A/zh
Publication of CN115761757A publication Critical patent/CN115761757A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Image Analysis (AREA)

Abstract

本发明涉及一种基于解耦特征引导的多模态文本页面分类方法,包括以下步骤:获取电子文本页面数据构建训练集,并基于训练集训练双流的端到端Transformer编码网络,所述双流的端到端Transformer编码网络包括视觉特征提取器、语言特征提取器和跨模态融合编码器;将待分类的电子文本页面的文本数据输入语言特征提取器获得深层语言特征;将待分类的电子文本页面的图像数据输入视觉特征提取器获得深层视觉特征;将得到的深层语言特征和深层视觉特征共同输入跨模态融合编码器获得多模态特征,并用于分类网络进行分类。本发明能够有效地通过多模态方法对电子文本页面进行准确分类。

Description

基于解耦特征引导的多模态文本页面分类方法
技术领域
本发明涉及模式识别与计算机视觉领域,具体涉及一种基于解耦特征引导的多模态文本页面分类方法。
背景技术
近些年来,随着平板电脑、手机等智能设备大量普及,电子文本页面逐渐成为最重要的信息媒介之一。电子文本页面上显示的各种信息格式、种类、来源都不同,使得单一模态方法难以有效对综合特征进行分析。此外,当下现实场景中的文档图像分类任务是最接近电子文本页面分类相似的视觉任务,但电子文本页面图像包括了文档的种类且不限于此,前人在文档图像分类任务上同样通过提取文档中文本采用多模态方法进行分类,但目前关于电子文本页面相关的研究很少。
尽管计算机视觉技术已经取得很大进步,在电子文本页面场景中还面临着许多挑战,如单一模态特征缺少信息相关性和互补性,模型学习图像细节特征代价问题等。
发明内容
有鉴于此,本发明的目的在于提供一种基于解耦特征引导的多模态文本页面分类方法,能够有效地通过多模态方法对电子文本页面进行准确分类。
为实现上述目的,本发明采用如下技术方案:
一种基于解耦特征引导的多模态文本页面分类方法,包括以下步骤:
获取电子文本页面数据构建训练集,并基于训练集训练双流的端到端Transformer编码网络,所述双流的端到端Transformer编码网络包括视觉特征提取器、语言特征提取器和跨模态融合编码器;
将待分类的电子文本页面的文本数据输入语言特征提取器获得深层语言特征;
将待分类的电子文本页面的图像数据输入视觉特征提取器获得深层视觉特征;
将得到的深层语言特征和深层视觉特征共同输入跨模态融合编码器获得多模态特征,并用于分类网络进行分类。
进一步的,所述电子文本页面数据包括经济、军事、体育、美食、科技、旅游类别的电子文本页面图像和文本数据。
进一步的,所述语言特征提取器包括第二解耦表征网络模块和语言编码器;所述语言特征提取器处理数据的方法,具体如下:
将待分类的电子文本页面的文本数据先输入第二解耦表征网络模块,得到浅层语言特征Ehead和剩余文本特征Etail
然后将浅层语言特征Ehead通过10层Transformer结构的语言编码器网络进一步提取文本特征得到深层语言特征Ft
进一步的,设Text={t1,t2,…,tM}为通过分词处理的文本数据序列,tj表示第j个文本描述符,并将其分为头部文本Thead和剩余文本Ttail
采用大规模预训练Bert编码文本语言特征;将文本序列嵌入到语言特征空间
Figure BDA0003926152350000031
具体过程表示为:
Figure BDA0003926152350000032
其中Bert(·)为预训练Bert权重,
Figure BDA0003926152350000033
为待嵌入的文本序列,
Figure BDA0003926152350000034
分别为依照Bert处理的方法在嵌入过程中添加嵌入向量的位置和语义类型;
采用S22中文本嵌入方法分别将头部文本Thead和剩余文本Ttail共享同一份Bert权重嵌入特征空间得到
Figure BDA0003926152350000035
Figure BDA0003926152350000036
为浅层语言特征,
Figure BDA0003926152350000037
为剩余文本特征;
将剩余特征和浅层语言特征分别输入引导对齐模块和语言编码模块进行处理。
进一步的,所述视觉特征提取器包括第一解耦表征网络模块、引导对齐模块和视觉编码器;所述视觉特征提取器处理数据的方法,具体如下:
待分类的电子文本页面的图像数据通过第一解耦表征网络模块处理,解耦得到形状特征fshape、颜色特征fhsv和像素特征fgray
将得到的形状特征fshape、颜色特征fhsv、像素特征fgray和S22中得到的剩余文本特征Etail输入引导对齐模块进行引导对齐得到浅层视觉特征Ev
将浅层视觉特征Ev输入视觉编码器进行加工,进一步提取视觉特征得到深层视觉特征Fv;其中对常规的视觉编码器中的自注意力层进行替换,采用加入高斯核函数生成mask的Transformer自注意力层,通过该高斯注意力GAttn(·)得到更加关注中心区域的视觉模态特征,其计算公式如下:
Figure BDA0003926152350000041
其中μrl,σ为超参数,μrl表示高斯函数均值,σ表示高斯函数标准差,Wq,Wk,Wθ分别为自注意力机制中Q值,K值和为高斯权重设置的可学习权重参数,r,l为特征点在特征图中的位置索引,T为矩阵转置符号。
进一步的,设I={x1,x2,…,xN}为从网络获取电子文本页面图像训练集,xi为第i张图像,对文本页面图像进行分片操作得到图像片段序列Xi=Patch(xi),Patch(·)为一个卷积核大小为32×64,步长为(32,64)的卷积核;并将图像片段序列Xi通道信息去掉,作为二维图像像素特征序列fgray
对图像xi通过不同大小的高斯核G(·)处理图像,并得到高斯差分金字塔DOG(·);采用SIFT方法在高斯差分金字塔中提取图像极值特征点描述符keypints,并采用主成分分析法PCA(·)获得128维特征值SIFTval和特征向量SIFTvec;将该特征值序列输入一层全连接网络提取为特定长度的一维图像形状特征序列fshape,其计算公式如下:
DOG(xi,σ)=(G(xi,i*σ)-G(xi,σ))*xi
SIFTval,SIFTvec=PCA(keypints{(xi,yi)|∈DOG(Ik,σ)},128)
fshape=wsp·SIFTval+bsp
其中σ为高斯模糊系数,Wsp,bsp为全连接层权重;
通过提取图像xi的HSV特征,将该特征值序列通过一层全连接网络映射为特定长度的一维颜色特征序列fhsv,其计算公式如下:
HSV=CalcHist(H+S+V)
fhsv=whsv·HSV+bhsv
其中H,S,V分别表示图像色调、饱和度、明度,CalcHist(·)表示颜色直方图统计函数,whsv,bhsv为全连接层权重;
将形状特征、颜色特征和像素特征共同输入引导对齐模块进行处理,通过解耦的特征进行引导融合替代传统视觉特征。
进一步的,分别通过MLP将形状特征fshape、颜色特征fhsv、像素特征fgray嵌入特征空间,使像素特征空间受到形状和颜色特征空间的引导,得到特征空间E1表示为:
E1=γ1*LN(Wg·fgray)+γ2*LN(Wsh·fshape)+γ3*LN(Wc·fhsv)
其中Wg,Wsh,WC分别表示MLP权重,γ123分别是fgray,fshape和fhsv特征加权超参数,LN(·)表示一个LayerNorm归一化层;
将剩余文本特征Etail通过1×1通道卷积实现与视觉特征E1维度对齐,并与E1拼接输入一个自注意力层进行语义对齐得到浅层视觉特征Ev替代已有的合并特征,其计算公式如下:
Ev=selfAttn([E1,Conv1x1(Etail)])
其中selfAttn(·)为标准自注意力模块,Conv1x1(·)表示1×1通道卷积;
将浅层视觉特征Ev输入视觉编码器进行加工。
进一步的,所述跨模态融合编码器处理数据的方法,具体如下:
将得到的深层语言特征Ft和深层视觉特征Fv共同输入跨模态融合编码器,通过6层交叉注意力编码提取跨模态特征Fx
将跨模态特征Fx输入分类头网络进行分类;分类头网络通过维度大小为三层全连接层组成,并通过Mish激活函数和BatchNorm归一化层连接两层全连接,分类头最终通过softmax输出维度为类别数的预测序列,表示第i个电子文本页面样本对应各个类别的预测概率,通过选择最高概率的类别作为该样本的分类结果。
进一步的,所述训练双流的端到端Transformer编码网络,具体包括
(1):获取电子文本页面数据构建训练集;
(2):将视觉模态特征Fv和语言模态特征Ft通过infoNCE loss计算模态间损失LCM,将形状特征fshape和颜色特征fhsv用于计算模态内损失LIM,其计算公式如下:
Figure BDA0003926152350000061
Figure BDA0003926152350000062
Figure BDA0003926152350000063
其中Fi,Fi'表示第i张图片下两种特征,F'表示所有图片特征Fi'的集合,F'id表示F'中第id个特征,sim(·)为两个特征序列相似度计算函数,Fv,Ft分别表示当前图片下视觉模态特征和语言模态特征,
Figure BDA0003926152350000071
分别表示所有图片视觉模态特征和语言模态特征的集合,fshape,fhsv分别表示当前图片下形状特征和颜色特征,
Figure BDA0003926152350000072
分别为所有图片形状特征和颜色特征的集合,e为自然指数;
(3):将分类头输出的分类概率使用交叉熵损失函数计算预测得到的分类概率与真实概率之间的差异并得到损失值LBCE,并通过与模态间损失LCM和模态内损失LIM加权计算整个网络的损失Loss=αLBCE+βLCM+γLIM,其中α,β,γ为超参数;然后利用梯度下降与反向传播算法更新网络参数,完成双流的端到端Transformer编码网络训练。
本发明与现有技术相比具有以下有益效果:
1、本发明能够有效地对电子文本页面中综合特征进行分析,提升了分类的准确率。通过结合自监督对比损失衡量两个模态间编码器的特征空间差异度和视觉模态内形状特征和颜色特征差异度,通过损失优化拉近模态间特征距离,并使形状特征和颜色特征总是往相近的方向引导视觉特征,能够在模型训练过程中逐渐增强约束,提高特征的泛化性。
2、本发明针对模型学习电子文本页面图像细节特征代价问题,提出解耦表征模块,通过解耦特征强关联性,减小特征维度并保留有效特征。结合视觉特征优化方法提出多模态Transformer电子文本页面分类方法。多模态方法通过结合不同角度信息,克服单一模态特征缺少不同模态间对应关系,难以辨别困难样本的问题。
3、本发明针对文本区域在视觉特征归纳时缺少图像细节信息的问题,提出引导表征模块融合形状特征、颜色特征和像素特征,增强图像特征对图像区域的定性理解和对文本分布的定量理解,增强多模态模型在视觉部分的学习能力,使得电子文本页面图像中视觉实体轮廓辨别力大幅增强。
4、本发明针对难以将电子文本页面场景中大量文本与视觉特征进行模态间特征融合的问题,在引导表征模块中与共用Bert权重的剩余文本特征提前对齐,解决视觉特征缺少文本语义的问题,使视觉编码器具有关键文本感知特性,使Bert上的优化同时受到文本特征和视觉特征的影响,提升从视觉上理解文本含义的能力。
5、本发明在视觉Transfomer编码其中采用高斯注意力提取视觉模态特征,提高模型对图像中心区域的关注度,有效的提升分类效果。在训练时随机生成拟合高斯分布的视觉特征掩码,达到数据增强的效果,丰富数据多样性以增加模型鲁棒性。
附图说明
图1是本发明方法流程图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
请参照图1,本发明提供一种基于解耦特征引导的多模态文本页面分类方法,包括以下步骤:(步骤S2、S3可以同时进行)
步骤S1:通过多模态电子文本页面图像和文本训练集训练双流的端到端Transformer编码网络并通过已训练网络并推理电子文本页面类别,用于检测用户浏览电子文本页面的类型;
在本实施例中,步骤S1具体包括以下步骤:
步骤S11:从网络上获取分类包括经济、军事、体育、美食、科技、旅游等类别的电子文本页面图像和文本数据训练集,用于端到端多模态Transformer编码网络训练;
优选地,端到端多模态Transformer编码网络训练具体包括一下步骤:
步骤S111:从网络上获取多模态电子文本页面训练集;
步骤S112:将S34中得到的视觉模态特征Fv和S23中得到的语言模态特征Ft通过infoNCE loss计算模态间损失LCM,将S312和S313得到的形状特征fshape和颜色特征fhsv用于计算模态内损失LIM,其计算公式如下:
Figure BDA0003926152350000091
Figure BDA0003926152350000092
Figure BDA0003926152350000093
其中Fi,Fi'表示第i张图片下两种特征,F'表示所有图片特征Fi'的集合,F'id表示F'中第id个特征,sim(·)为两个特征序列相似度计算函数,Fv,Ft分别表示当前图片下视觉模态特征和语言模态特征,
Figure BDA0003926152350000094
分别表示所有图片视觉模态特征和语言模态特征的集合,fshape,fhsv分别表示当前图片下形状特征和颜色特征,
Figure BDA0003926152350000101
分别为所有图片形状特征和颜色特征的集合,e为自然指数;
步骤S113:将分类头输出的分类概率使用交叉熵损失函数计算预测得到的分类概率与真实概率之间的差异并得到损失值LBCE,并通过与模态间损失LCM和模态内损失LIM加权计算整个网络的损失Loss=αLBCE+βLCM+γLIM,其中α,β,γ为超参数;然后利用梯度下降与反向传播算法更新网络参数,完成神经网络训练。
步骤S12:S11中双流的端到端Transformer编码网络将由视觉特征提取器、语言特征提取器和跨模态融合编码器三大主要模块组成,并连接分类头完成端到端数据输出;
步骤S13:将待分类的电子文本页面图像和文本信息输入S11中训练后的端到端多模态Transformer编码网络,输出电子文本页面每个类别对应的分类概率,将概率最高的类别作为网络推理的分类结果,用于检测用户浏览电子文本页面的类型。
步骤S2:基于S1中的网络架构,将S1中采集的电子文本页面文本输入语言特征提取器获得深层语言特征。
在本实施例中,步骤S2具体包括以下步骤:
步骤S21:与通用的文本特征编码神经网络不同,S12中语言特征提取器结构主要由第二解耦表征网络模块和语言编码器组成;
步骤S22:将S11中采集的电子文本页面文本先输入第二解耦表征网络模块替代传统的文本截断预处理方法,得到浅层语言特征Ehead和剩余文本特征Etail
优选地,步骤S22具体包括以下步骤:
步骤S221:设Text={t1,t2,…,tM}为通过分词处理的文本数据序列,tj表示第j个文本描述符,并将其分为头部文本Thead和剩余文本Ttail
步骤S222:采用大规模预训练Bert编码文本语言特征;将文本序列嵌入到语言特征空间
Figure BDA0003926152350000111
具体过程表示为:
Figure BDA0003926152350000112
其中Bert(·)为预训练Bert权重,
Figure BDA0003926152350000113
为待嵌入的文本序列,
Figure BDA0003926152350000114
分别为依照Bert处理的方法在嵌入过程中添加嵌入向量的位置和语义类型;
步骤S223:采用S22中文本嵌入方法分别将头部文本Thead和剩余文本Ttail共享同一份Bert权重嵌入特征空间得到
Figure BDA0003926152350000115
Figure BDA0003926152350000116
为浅层语言特征,
Figure BDA0003926152350000117
Figure BDA0003926152350000118
为剩余文本特征;
步骤S224:将剩余特征和浅层语言特征分别输入引导对齐模块和语言编码模块进行处理。
步骤S23:将S21得到的浅层语言特征Ehead通过10层Transformer结构的语言编码器网络进一步提取文本特征得到深层语言特征Ft
步骤S3:基于S1中的网络架构,将S1中采集的电子文本页面图像输入视觉特征提取器获得深层视觉特征;
在本实施例中,步骤S3具体包括一下步骤:
步骤S31:S12中视觉特征提取器结构主要由第一解耦表征网络模块、引导对齐模块和视觉编码器组成;
步骤S32:不同于传统的多模态方法中简单的视觉特征提取,将S11中采集的电子文本页面图像先通过第一解耦表征网络模块处理,解耦得到形状特征fshape、颜色特征fhsv和像素特征fgray
步骤S33:将S31得到的形状特征fshape、颜色特征fhsv、像素特征fgray和S22中得到的剩余文本特征Etail输入引导对齐模块进行引导对齐得到浅层视觉特征Ev,与传统方法相比丰富了视觉模态特征;
步骤S34:将浅层视觉特征Ev输入视觉编码器进行加工,进一步提取视觉特征得到深层视觉特征Fv;其中对常规的视觉编码器中的自注意力层进行替换,采用加入高斯核函数生成mask的Transformer自注意力层,通过该高斯注意力GAttn(·)得到更加关注中心区域的视觉模态特征,其计算公式如下:
Figure BDA0003926152350000121
其中μrl,σ为超参数,μrl表示高斯函数均值,σ表示高斯函数标准差,Wq,Wk,Wθ分别为自注意力机制中Q值,K值和为高斯权重设置的可学习权重参数,r,l为特征点在特征图中的位置索引,T为矩阵转置符号;
步骤S4:基于S1中的网络架构,将S2和S3得到的深层语言特征和深层视觉特征共同输入跨模态融合编码器获得多模态特征,并用于分类网络进行分类;
在本实施例中,步骤S4具体包括以下步骤:
步骤S41:基于S1中的网络架构,将S23得到的深层语言特征Ft和S34得到的深层视觉特征Fv共同输入跨模态融合编码器,通过6层交叉注意力编码提取跨模态特征Fx
步骤S42:将S41中跨模态特征Fx输入分类头网络进行分类;分类头网络通过维度大小为三层全连接层组成,并通过Mish激活函数和BatchNorm归一化层连接两层全连接,分类头最终通过softmax输出维度为类别数的预测序列,表示第i个电子文本页面样本对应各个类别的预测概率,通过选择最高概率的类别作为该样本的分类结果。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。

Claims (9)

1.一种基于解耦特征引导的多模态文本页面分类方法,其特征在于,包括以下步骤:
获取电子文本页面数据构建训练集,并基于训练集训练双流的端到端Transformer编码网络,所述双流的端到端Transformer编码网络包括视觉特征提取器、语言特征提取器和跨模态融合编码器;
将待分类的电子文本页面的文本数据输入语言特征提取器获得深层语言特征;
将待分类的电子文本页面的图像数据输入视觉特征提取器获得深层视觉特征;
将得到的深层语言特征和深层视觉特征共同输入跨模态融合编码器获得多模态特征,并用于分类网络进行分类。
2.根据权利要求1所述的基于解耦特征引导的多模态文本页面分类方法,其特征在于,所述电子文本页面数据包括经济、军事、体育、美食、科技、旅游类别的电子文本页面图像和文本数据。
3.根据权利要求1所述的基于解耦特征引导的多模态文本页面分类方法,其特征在于,所述语言特征提取器包括第二解耦表征网络模块和语言编码器;所述语言特征提取器处理数据的方法,具体如下:
将待分类的电子文本页面的文本数据先输入第二解耦表征网络模块,得到浅层语言特征Ehead和剩余文本特征Etail
然后将浅层语言特征Ehead通过10层Transformer结构的语言编码器网络进一步提取文本特征得到深层语言特征Ft
4.根据权利要求3所述的基于解耦特征引导的多模态文本页面分类方法,其特征在于,设Text={t1,t2,...,tM}为通过分词处理的文本数据序列,tj表示第j个文本描述符,并将其分为头部文本Thead和剩余文本Ttail
采用大规模预训练Bert编码文本语言特征;将文本序列嵌入到语言特征空间
Figure FDA0003926152340000021
具体过程表示为:
Figure FDA0003926152340000022
其中Bert(·)为预训练Bert权重,
Figure FDA0003926152340000023
为待嵌入的文本序列,
Figure FDA0003926152340000024
分别为依照Bert处理的方法在嵌入过程中添加嵌入向量的位置和语义类型;
采用S22中文本嵌入方法分别将头部文本Thead和剩余文本Ttail共享同一份Bert权重嵌入特征空间得到
Figure FDA0003926152340000025
Figure FDA0003926152340000026
为浅层语言特征,
Figure FDA0003926152340000027
为剩余文本特征;
将剩余特征和浅层语言特征分别输入引导对齐模块和语言编码模块进行处理。
5.根据权利要求1所述的基于解耦特征引导的多模态文本页面分类方法,其特征在于,所述视觉特征提取器包括第一解耦表征网络模块、引导对齐模块和视觉编码器;所述视觉特征提取器处理数据的方法,具体如下:
待分类的电子文本页面的图像数据通过第一解耦表征网络模块处理,解耦得到形状特征fshape、颜色特征fhsv和像素特征fgray
将得到的形状特征fshape、颜色特征fhsv、像素特征fgray和S22中得到的剩余文本特征Etail输入引导对齐模块进行引导对齐得到浅层视觉特征Ev
将浅层视觉特征Ev输入视觉编码器进行加工,进一步提取视觉特征得到深层视觉特征Fv;其中对常规的视觉编码器中的自注意力层进行替换,采用加入高斯核函数生成mask的Transformer自注意力层,通过该高斯注意力GAttn(·)得到更加关注中心区域的视觉模态特征,其计算公式如下:
Figure FDA0003926152340000031
其中μr,μl,σ为超参数,μr,μl表示高斯函数均值,σ表示高斯函数标准差,Wq,Wk,Wθ分别为自注意力机制中Q值,K值和为高斯权重设置的可学习权重参数,r,l为特征点在特征图中的位置索引,T为矩阵转置符号。
6.根据权利要求5所述的基于解耦特征引导的多模态文本页面分类方法,其特征在于,设I={x1,x2,...,xN}为从网络获取电子文本页面图像训练集,xi为第i张图像,对文本页面图像进行分片操作得到图像片段序列Xi=Patch(xi),Patch(·)为一个卷积核大小为32×64,步长为(32,64)的卷积核;并将图像片段序列Xi通道信息去掉,作为二维图像像素特征序列fgray
对图像xi通过不同大小的高斯核G(·)处理图像,并得到高斯差分金字塔DOG(·);采用SIFT方法在高斯差分金字塔中提取图像极值特征点描述符keypints,并采用主成分分析法PCA(·)获得128维特征值SIFTval和特征向量SIFTvec;将该特征值序列输入一层全连接网络提取为特定长度的一维图像形状特征序列fshape,其计算公式如下:
DOG(xi,σ)=(G(xi,i*σ)-G(xi,σ))*xi
SIFTval,SIFTvec=PCA(keypints{(xi,yi)|∈DOG(Ik,σ)},128)
fshape=wsp·SIFTval+bsp
其中σ为高斯模糊系数,wsp,bsp为全连接层权重;
通过提取图像xi的HSV特征,将该特征值序列通过一层全连接网络映射为特定长度的一维颜色特征序列fhsv,其计算公式如下:
HSV=CalcHist(H+S+V)
fhsv=whsv·HSV+bhsv
其中H,S,V分别表示图像色调、饱和度、明度,CalcHist(·)表示颜色直方图统计函数,whsv,bhsv为全连接层权重;
将形状特征、颜色特征和像素特征共同输入引导对齐模块进行处理,通过解耦的特征进行引导融合替代传统视觉特征。
7.根据权利要求6所述的基于解耦特征引导的多模态文本页面分类方法,其特征在于,分别通过MLP将形状特征fshape、颜色特征fhsv、像素特征fgray嵌入特征空间,使像素特征空间受到形状和颜色特征空间的引导,得到特征空间E1表示为:
E1=γ1*LN(Wg·fgray)+γ2*LN(Wsh·fshape)+γ3*LN(Wc·fhsv)
其中Wg,Wsh,WC分别表示MLP权重,γ1,γ2,γ3分别是fgray,fshape和fhsv特征加权超参数,LN(·)表示一个LayerNorm归一化层;
将剩余文本特征Etail通过1×1通道卷积实现与视觉特征E1维度对齐,并与E1拼接输入一个自注意力层进行语义对齐得到浅层视觉特征Ev替代已有的合并特征,其计算公式如下:
Ev=selfAttn([E1,Conv1x1(Etail)])
其中selfAttn(·)为标准自注意力模块,Conv1x1(·)表示1×1通道卷积;
将浅层视觉特征Ev输入视觉编码器进行加工。
8.根据权利要求1所述的基于解耦特征引导的多模态文本页面分类方法,其特征在于,所述跨模态融合编码器处理数据的方法,具体如下:
将得到的深层语言特征Ft和深层视觉特征Fv共同输入跨模态融合编码器,通过6层交叉注意力编码提取跨模态特征Fx
将跨模态特征Fx输入分类头网络进行分类;分类头网络通过维度大小为三层全连接层组成,并通过Mish激活函数和BatchNorm归一化层连接两层全连接,分类头最终通过softmax输出维度为类别数的预测序列,表示第i个电子文本页面样本对应各个类别的预测概率,通过选择最高概率的类别作为该样本的分类结果。
9.根据权利要求1所述的基于解耦特征引导的多模态文本页面分类方法,其特征在于,所述训练双流的端到端Transformer编码网络,具体包括
(1):获取电子文本页面数据构建训练集;
(2):将视觉模态特征Fv和语言模态特征Ft通过infoNCE loss计算模态间损失LCM,将形状特征fshape和颜色特征fhsv用于计算模态内损失LIM,其计算公式如下:
Figure FDA0003926152340000061
Figure FDA0003926152340000062
Figure FDA0003926152340000063
其中Fi,Fi′表示第i张图片下两种特征,F′表示所有图片特征Fi′的集合,F′id表示F′中第id个特征,sim(·)为两个特征序列相似度计算函数,Fv,Ft分别表示当前图片下视觉模态特征和语言模态特征,
Figure FDA0003926152340000064
分别表示所有图片视觉模态特征和语言模态特征的集合,fshape,fhsv分别表示当前图片下形状特征和颜色特征,
Figure FDA0003926152340000065
分别为所有图片形状特征和颜色特征的集合,e为自然指数;
(3):将分类头输出的分类概率使用交叉熵损失函数计算预测得到的分类概率与真实概率之间的差异并得到损失值LBCE,并通过与模态间损失LCM和模态内损失LIM加权计算整个网络的损失Loss=αLBCE+βLCM+γLIM,其中α,β,γ为超参数;然后利用梯度下降与反向传播算法更新网络参数,完成双流的端到端Transformer编码网络训练。
CN202211374707.XA 2022-11-04 2022-11-04 基于解耦特征引导的多模态文本页面分类方法 Pending CN115761757A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211374707.XA CN115761757A (zh) 2022-11-04 2022-11-04 基于解耦特征引导的多模态文本页面分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211374707.XA CN115761757A (zh) 2022-11-04 2022-11-04 基于解耦特征引导的多模态文本页面分类方法

Publications (1)

Publication Number Publication Date
CN115761757A true CN115761757A (zh) 2023-03-07

Family

ID=85356233

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211374707.XA Pending CN115761757A (zh) 2022-11-04 2022-11-04 基于解耦特征引导的多模态文本页面分类方法

Country Status (1)

Country Link
CN (1) CN115761757A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116611896A (zh) * 2023-07-19 2023-08-18 山东省人工智能研究院 基于属性驱动解耦表征学习的多模态推荐方法
CN116701637A (zh) * 2023-06-29 2023-09-05 中南大学 一种基于clip的零样本文本分类方法、系统及介质
CN116861361A (zh) * 2023-06-27 2023-10-10 河海大学 一种基于图像-文本多模态融合的大坝形变评估方法
CN116993976A (zh) * 2023-07-17 2023-11-03 中国科学院自动化研究所 引用图像分割模型训练方法及引用图像分割方法
CN117876651A (zh) * 2024-03-13 2024-04-12 浪潮电子信息产业股份有限公司 视觉定位方法、装置、设备及介质

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116861361A (zh) * 2023-06-27 2023-10-10 河海大学 一种基于图像-文本多模态融合的大坝形变评估方法
CN116861361B (zh) * 2023-06-27 2024-05-03 河海大学 一种基于图像-文本多模态融合的大坝形变评估方法
CN116701637A (zh) * 2023-06-29 2023-09-05 中南大学 一种基于clip的零样本文本分类方法、系统及介质
CN116701637B (zh) * 2023-06-29 2024-03-08 中南大学 一种基于clip的零样本文本分类方法、系统及介质
CN116993976A (zh) * 2023-07-17 2023-11-03 中国科学院自动化研究所 引用图像分割模型训练方法及引用图像分割方法
CN116611896A (zh) * 2023-07-19 2023-08-18 山东省人工智能研究院 基于属性驱动解耦表征学习的多模态推荐方法
CN116611896B (zh) * 2023-07-19 2023-10-24 山东省人工智能研究院 基于属性驱动解耦表征学习的多模态推荐方法
CN117876651A (zh) * 2024-03-13 2024-04-12 浪潮电子信息产业股份有限公司 视觉定位方法、装置、设备及介质
CN117876651B (zh) * 2024-03-13 2024-05-24 浪潮电子信息产业股份有限公司 视觉定位方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
Unar et al. A decisive content based image retrieval approach for feature fusion in visual and textual images
CN113220919B (zh) 一种大坝缺陷图像文本跨模态检索方法及模型
CN115761757A (zh) 基于解耦特征引导的多模态文本页面分类方法
CN112766158B (zh) 基于多任务级联式人脸遮挡表情识别方法
CN111898736B (zh) 基于属性感知的高效行人重识别方法
CN109165563B (zh) 行人再识别方法和装置、电子设备、存储介质、程序产品
CN111444960A (zh) 基于多模态数据输入的皮肤病图像分类系统
CN114936623B (zh) 一种融合多模态数据的方面级情感分析方法
CN113298151A (zh) 一种基于多级特征融合的遥感图像语义描述方法
CN114973222B (zh) 基于显式监督注意力机制的场景文本识别方法
Tereikovskyi et al. The method of semantic image segmentation using neural networks
CN114022793A (zh) 一种基于孪生网络的光学遥感图像变化检测方法
CN112507800A (zh) 一种基于通道注意力机制和轻型卷积神经网络的行人多属性协同识别方法
CN115563327A (zh) 基于Transformer网络选择性蒸馏的零样本跨模态检索方法
CN114201592A (zh) 面向医学图像诊断的视觉问答方法
Xiao et al. An extended attention mechanism for scene text recognition
Nahar et al. A robust model for translating arabic sign language into spoken arabic using deep learning
CN116935411A (zh) 一种基于字符分解和重构的部首级古文字识别方法
CN114944002B (zh) 文本描述辅助的姿势感知的人脸表情识别方法
CN116758355A (zh) 图像分类方法和装置、电子设备及存储介质
CN113887504B (zh) 强泛化性的遥感图像目标识别方法
WO2023134085A1 (zh) 问题答案的预测方法、预测装置、电子设备、存储介质
CN115546553A (zh) 一种基于动态特征抽取和属性修正的零样本分类方法
Ramesh Babu et al. A novel framework design for semantic based image retrieval as a cyber forensic tool
CN116958615A (zh) 图片识别方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination