CN112949622B - 融合文本与图像的双模态性格分类方法及装置 - Google Patents

融合文本与图像的双模态性格分类方法及装置 Download PDF

Info

Publication number
CN112949622B
CN112949622B CN202110376917.1A CN202110376917A CN112949622B CN 112949622 B CN112949622 B CN 112949622B CN 202110376917 A CN202110376917 A CN 202110376917A CN 112949622 B CN112949622 B CN 112949622B
Authority
CN
China
Prior art keywords
image
network
text
feature extraction
aligned
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110376917.1A
Other languages
English (en)
Other versions
CN112949622A (zh
Inventor
王晶晶
高晓雅
李寿山
周国栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN202110376917.1A priority Critical patent/CN112949622B/zh
Publication of CN112949622A publication Critical patent/CN112949622A/zh
Application granted granted Critical
Publication of CN112949622B publication Critical patent/CN112949622B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及一种融合文本与图像的双模态性格分类方法及装置,属于人工智能技术领域,该方法包括:将文本数据和图像数据输入预先训练的性格分类网络,得到性格分类结果;性格分类网络包括特征提取网络、对比视觉注意力网络和对比感知解码网络;特征提取网络中的文本特征提取分支用于提取文本数据的词嵌入向量、图像特征提取分支用于提取图像数据的图像区域向量;对比视觉注意力网络中的基础视觉注意力分支用于提取与文本数据对齐的图像对象,并计算对齐的视觉表示、逆视觉注意力分支用于提取与文本数据不对齐的图像对象,并计算不对齐的视觉表示;对比感知解码网络用于进行性格类别的预测;缓解了分类性能不佳和无法捕捉认知差异信息的问题。

Description

融合文本与图像的双模态性格分类方法及装置
【技术领域】
本申请涉及一种融合文本与图像的双模态性格分类方法及装置,属于人工智能技术领域。
【背景技术】
性格是一个人对待现实的长期稳定的态度,一般在社会生活实践中逐渐形成。性格具有复杂的静态结构,主要由态度特征、意志特征、情绪特征和理智特征四个部分组成,它们彼此关联又相互制约。态度特征指个体如何处理对社会、集体、工作、劳动、他人及自身等各方面的关系的特征,例如诚实、热爱祖国、有责任心、勤劳等等。意志特征指个体对自身行为自觉地进行调整的特征,例如勇敢、果断、理性、计划性强等。情绪特征指个体的情绪对他人活动的影响以及对自身情绪的控制能力,良好的情绪特征体现在情绪稳定、善于控制,不良的情绪特征体现在情绪波动大、控制力薄弱。理智特征指个体在认知活动中显露的特征,例如在认知活动中的依存性和独立性,现实性和创造性等等。
性格具有丰富性和动态性,性格的静态结构表明了个体性格的各种特征并非是一成不变的机械组合,它会在不同的时间和不同的场合通过语言、动作等行为方式表现出不同的侧面。例如,一个在工作和学习中认真负责、理性固执的人在生活中则表现出感性温柔的一面。
目前性格的分类体系十分多样,常见的有向性分类体系(内倾型、外倾型)、FPA性格色彩体系(红、黄、蓝、绿)、大五人格体系(神经质,外倾性,经验开放性、宜人性、认真性)、霍兰德性格体系(社会型、企业型、常规型、现实型、研究型、艺术型)、九型人格体系(完美型、成就型、助人型、思想型、感觉型、活跃型、忠诚型、和平型、领袖型)等。
然而,目前的性格分析任务致力于通过构建回归模型预测个体的大五人格分值,在现实生活中,这种粗粒度且抽象的大五人格体系在工业应用领域存在局限性,例如无法设计出能表现出幽默性格的机器人。
【发明内容】
由于目前的性格分析任务致力于通过构建回归模型预测个体的大五人格分值,在现实生活中,这种粗粒度且抽象的五大人格体系在工业应用领域存在局限性,例如无法设计出能表现出幽默性格的机器人。因此,本申请将性格分析拓展到一个具体且细粒度的性格分类场景中,即给定一幅图片,根据个体对图片的具有性格导向的描述来判断此个体的实时性格倾向(如“浪漫”、“幽默”等),由于不同性格的个体观察同一幅图像会给出不同的具有性格导向描述,受此认知差异现象的启发,本申请提供了一种基于对比视觉注意力机制的融合文本与图像的双模态性格分类方法—语言指导的对比视觉注意力方法(Language-guided Contrastive Visual Attention,L-CVA)。本申请提供如下技术方案:
第一方面,提供一种融合文本与图像的双模态性格分类方法,所述方法包括:
获取图像数据和用于描述所述图像数据的文本数据;
将所述文本数据和所述图像数据输入预先训练的性格分类网络,得到性格分类结果;
其中,所述性格分类网络从前至后依次包括特征提取网络、对比视觉注意力网络和对比感知解码网络;
所述特征提取网络包括:文本特征提取分支和图像特征提取分支,所述文本特征提取分支用于提取所述文本数据的词嵌入向量;所述图像特征提取分支用于提取所述图像数据的图像区域向量;
所述对比视觉注意力网络包括:基础视觉注意力分支和逆视觉注意力分支,所述基础视觉注意力分支用于提取与所述文本数据对齐的图像对象,并计算对齐的视觉表示;所述逆视觉注意力分支用于提取与所述文本数据不对齐的图像对象,并计算不对齐的视觉表示;
所述对比感知解码网络用于融合所述词嵌入向量、所述对齐的视觉表示和所述不对齐的视觉表示进行性格类别的预测。
可选地,所述文本特征提取分支基于BERT-base模型对所述文本数据进行编码。
可选地,所述图像特征提取分支基于Faster R-CNN提取图像区域。
可选地,所述基础视觉注意力分支包括h个第一注意力头;
第i个第一注意力头的计算公式如下,所述i为小于或等于h的正整数:
Figure GDA0004233391940000031
Q=XWQ
Figure GDA0004233391940000032
K=OWK
Figure GDA0004233391940000033
V=OWV
Figure GDA0004233391940000034
其中,X表示所述词嵌入向量,O标识所述图像区域向量,Q表示查询输入,K表示键输入,V表示值输入,
Figure GDA0004233391940000035
是折扣因子;
将h个第一注意力头的输出拼接后得到:
Figure GDA0004233391940000036
其中,
Figure GDA0004233391940000037
为可训练的权重矩阵,/>
Figure GDA00042333919400000311
是拼接操作,h为正整数;
所述对齐的视觉表示通过下式表示:
Rb=PL(LN(X+FFN(LN(X+selfAtt(X,O)))))
其中,LN(·)表示层归一化函数,FFN(·)表示前馈网络,PL(·)表示平均池化操作。
可选地,所述逆视觉注意力分支包括k个第二注意力头;
第j个第二注意力头的计算公式如下,所述j为小于或等于k的正整数:
Figure GDA0004233391940000038
Q=XWQ
Figure GDA0004233391940000039
K=OWK
Figure GDA00042333919400000310
V=OWV
Figure GDA0004233391940000041
其中,X表示所述词嵌入向量,O标识所述图像区域向量,Q表查询输入,K表示键输入,V表示值输入,
Figure GDA0004233391940000042
是折扣因子,/>
Figure GDA0004233391940000043
是值全为1的单位矩阵,I-softmax(·)操作用计算相反的注意力权重,/>
Figure GDA0004233391940000044
用于归一化m个对象的相反注意力权重;
不对齐的视觉表示通过下式表示:
Rc=PL(LN(X+FFN(LN(X+oppoAtt(X,O)))));
其中,LN(·)表示层归一化函数,FFN(·)表示前馈网络,PL(·)表示平均池化操作。
可选地,所述对比感知解码网络基于所述词嵌入向量中的文本句子级表示、所述对齐的视觉表示和所述不对齐的视觉表示,使用两个softmax函数计算实际标签yi的预测概率值。
可选地,所述预测概率值的计算公式如下:
Figure GDA0004233391940000048
Figure GDA0004233391940000049
其中,
Figure GDA0004233391940000045
表示权重矩阵,/>
Figure GDA0004233391940000046
和/>
Figure GDA0004233391940000047
是偏置矩阵,Rt表示文本句子级表示,pb(yi|Pi)表示利用对齐的视觉表示Rb计算出的实际标签yi的预测概率值,pc(yi|Pi)表示利用不对齐的视觉表示Rc计算出的实际标签yi的预测概率值。
可选地,所述性格分类网络基于预先设置的损失函数计算得到,所述损失函数包括第一部分、第二部分和第三部分;
所述第一部分用于利用对齐的视觉表示Rb最大化正确标签yi的预测概率pb(yi|Pi);
所述第二部分用于利用不对齐的视觉表示Rc最小化正确标签yi的预测概率pc(yi|Pi);
所述第三部分为具有排序感知的损失函数,所述第三部分用于提高正确标签预测概率的同时降低前J个预测概率值最大的错误标签预测概率。
可选地,所述损失函数通过下式表示:
Figure GDA0004233391940000051
其中,yi是第i个“文本-图像”对Pi的正确标签,
Figure GDA0004233391940000052
是第i个“文本-图像”对Pi=(Ti,Ii)的错误标签中预测概率值第j大的错误标签;M是用于训练的“文本-图像”对的个数;δ是L2正则化因子,θ代表所有可训练参数。
第二方面,提供一种融合文本与图像的双模态性格分类装置,所述装置包括:
数据获取模块,用于获取图像数据和用于描述所述图像数据的文本数据;
性格分类模块,用于将所述文本数据和所述图像数据输入预先训练的性格分类网络,得到性格分类结果;
其中,所述性格分类网络从前至后依次包括特征提取网络、对比视觉注意力网络和对比感知解码网络;
所述特征提取网络包括:文本特征提取分支和图像特征提取分支,所述文本特征提取分支用于提取所述文本数据的词嵌入向量;所述图像特征提取分支用于提取所述图像数据的图像区域向量;
所述对比视觉注意力网络包括:基础视觉注意力分支和逆视觉注意力分支,所述基础视觉注意力分支用于提取与所述文本数据对齐的图像对象,并计算对齐的视觉表示;所述逆视觉注意力分支用于提取与所述文本数据不对齐的图像对象,并计算不对齐的视觉表示;
所述对比感知解码网络用于融合所述词嵌入向量、所述对齐的视觉表示和所述不对齐的视觉表示进行性格类别的预测。
与现有技术相比,本申请至少具有如下有益效果:通过获取图像数据和用于描述图像数据的文本数据;将文本数据和图像数据输入预先训练的性格分类网络,得到性格分类结果;其中,性格分类网络从前至后依次包括特征提取网络、对比视觉注意力网络和对比感知解码网络;特征提取网络包括:文本特征提取分支和图像特征提取分支,文本特征提取分支用于提取文本数据的词嵌入向量;图像特征提取分支用于提取图像数据的图像区域向量;对比视觉注意力网络包括:基础视觉注意力分支和逆视觉注意力分支,基础视觉注意力分支用于提取与文本数据对齐的图像对象,并计算对齐的视觉表示;逆视觉注意力分支用于提取与文本数据不对齐的图像对象,并计算不对齐的视觉表示;对比感知解码网络用于融合词嵌入向量、对齐的视觉表示和不对齐的视觉表示进行性格类别的预测;可以解决粗粒度且抽象的五大人格体系在工业应用领域存在局限性的问题;本申请可以更加适用于细粒度场景下的性格分类任务;输入原始文本与图像后,通过特征提取模块分别得到对应的特征向量,之后在对比视觉注意力模块中提取图像中与文本信息对齐及不对齐的视觉表示,最后通过对比感知解码模块学习对比性视觉信息,有效地缓解了性格类别数量较大导致分类性能不佳的问题,以及有效地解决了传统性格分类方法无法捕捉认知差异信息的问题。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,并可依照说明书的内容予以实施,以下以本申请的较佳实施例并配合附图详细说明如后。
【附图说明】
图1是本申请一个实施例提供的融合文本与图像的双模态性格分类方法的流程图;
图2是本申请一个实施例提供的性格分网络的结构示意图;
图3是本申请一个实施例提供的预训练BERT模型的结构图;
图4是本申请一个实施例提供的预训练Faster R-CNN网络的结构图;
图5是本申请一个实施例提供的融合文本与图像的双模态性格分类装置的框图。
【具体实施方式】
下面结合附图和实施例,对本申请的具体实施方式作进一步详细描述。以下实施例用于说明本申请,但不用来限制本申请的范围。
首先,对本申请涉及的若干名词进行介绍。
双向Transformer的Encoder(Bidirectional Encoder Representation fromTransformers,BERT):是一种文本预训练模型,是目前自然语言处理(Natural LanguageProcessing,NLP)领域任务涵盖范围最广的模型,并在各种任务上取得了非常卓越的效果。BERT的网络架构使用的是多层Transformer结构,其最大的特点是抛弃了传统的循环神经网络(Recurrent Neural Network,RNN)和卷积神经网络(Convolutional NeuralNetworks,CNN),通过注意力(Attention)机制将任意位置的两个单词的距离转换成1,有效地解决了NLP中棘手的长期依赖问题。BERT是一个多任务模型,由两个自监督任务组成,分别是掩码语言模型(Masked Language Model,MLM)和下一句预测(Next SentencePrediction,NSP)。在经过大量语料上预训练完BERT之后,便可以使用预训练好的模型应用到NLP的各个任务中了。
Faster R-CNN:是计算机视觉领域中应用最为广泛的目标检测模型之一。与R-CNN不同,Faster R-CNN使用神经网络生成候选检测框代替了通过规则等生成候选框的方法。具体而言,Faster R-CNN主要由三个部分组成:
(1)卷积层:利用VGG16或ResNet101等卷积网络提取整张图片的特征,输出下采样后的特征图。
(2)候选检测框生成网络:用于在特征图上生成尺寸不同的候选检测框。
(3)RoI池化网络与分类网络:首先将大小不同的候选框转换为固定尺寸的区域特征,其次利用此特征分类和回归,输出候选框所属类别以及候选框在图像中的精确位置(四个顶点的坐标值)。
现有的性格体系均是对性格的粗粒度划分与概括,而本申请的研究重点是如何根据文本和图像信息自动、快速地推理分析个体的实时性格倾向,例如,浪漫、理性。该任务将心理学与自然语言处理相结合,为自然语言处理与其他领域学科交叉的研究提供了有力支持。
由于融合文本与图像的双模态性格分类是受认知心理学中的认知差异现象驱动的,即不同性格的个体在观察同一幅图像时倾向于关注图像的不同部分(如,不同的图像对象)并基于此观察给出相应的描述。除了根据语言捕捉认知差异信息,本申请认为对比性视觉信息(即,关注某些特定图像区域而不是其余图像区域的认知行为)是另一种十分重要的认知差异信息,且能进一步帮助性格分类。因此,本申请将致力于捕捉认知差异信息用于双模态性格分类并设计了一种基于文本和图像的双模态性格分类系统。具体而言,给定图像以及个体对此图像的描述,首先利用系统特征提取模块中的两个预训练模型(比如:BERT和Faster R-CNN)分别提取文本和图像目标检测对象特征。其次,利用系统对比视觉注意力模块提取图像中与语言对齐及不对齐的对象特征并分别计算对齐及不对齐的视觉表示。最后,将文本表示、对齐的视觉表示、不对齐的视觉表示输入系统的对比感知解码模块,对齐的视觉表示用于最大化正确性格标签的预测概率,而不对齐视觉表示用于最小化正确性格标签的预测概率,以此帮助模型学习对比性视觉信息。
可选地,本申请以各个实施例提供的融合文本与图像的双模态性格分类方法用于电子设备中为例进行说明,该电子设备为终端或服务器,终端可以为手机、计算机、平板电脑、可穿戴式设备等,本实施例不对电子设备的设备类型作限定。
图1是本申请一个实施例提供的融合文本与图像的双模态性格分类方法的流程图。该方法至少包括以下几个步骤:
步骤101,获取图像数据和用于描述图像数据的文本数据。
由于不同性格的人观看一张图像数据的注意力不同,因此,得到的描述信息(即文本数据)也不同,因此,可以根据文本数据结合图像数据预测出该文本数据对应的人的性格分类。
可选地,文本数据可以是电子设备显示图像数据后,通过人机交互接口获取到的;或者是其它设备发送的,本实施例不对文本数据的获取方式作限定。
步骤102,将文本数据和图像数据输入预先训练的性格分类网络,得到性格分类结果。
其中,参考图2,性格分类网络从前至后依次包括特征提取网络、对比视觉注意力网络和对比感知解码网络。下面对这三个网络分别进行介绍。
特征提取网络包括:文本特征提取分支和图像特征提取分支,文本特征提取分支用于提取文本数据的词嵌入向量;图像特征提取分支用于提取图像数据的图像区域向量;
文本特征提取分支基于BERT-base模型对文本数据进行编码。BERT-base模型的网络结构参考图3所示。
具体地,首先使用文本特征提取分支中BERT-base模型自带的WordPiece处理句子S得到词序列S={s1,s2,...,sn}(其中n是词的个数),其次分别在词序列S的开头和结尾加上BERT的特殊标记词“[CLS]”和“[SEP]”后送入嵌入层得到词嵌入向量(wordembeddings),位置嵌入向量(positionalembeddings)和段嵌入向量(segmentembeddings),最后将三类向量相加送入多层双向深度自注意力变换层得到最终的词嵌入向量X=[x1,x2,...,xn],
Figure GDA0004233391940000091
图像特征提取分支基于Faster R-CNN提取图像区域。Faster R-CNN的网络结构参考图4所示。
具体地,本实施例使用基于ResNet101的目标检测模型FasterR-CNN提取图像Ii中的对象作为图像区域的基本单位,其中每个对象的置信度大于0.6。在实际实现时,置信度也可以为其它数值,而实施例不对置信度的取值作限定。本实施例提取ResNet模型分类层的前一层输出作为每个对象的特征,对象序列标记为V=[v1,v2,...,vm],其中
Figure GDA0004233391940000092
m为对象个数。然后,使用全连接层对对象特征进行降维处理,最终的对象向量标记为O=[o1,o2,...,om],其中oi=ReLU(Wovi)且/>
Figure GDA0004233391940000093
这里,/>
Figure GDA0004233391940000094
是可训练的参数。
对比视觉注意力网络包括:基础视觉注意力分支和逆视觉注意力分支,基础视觉注意力分支用于提取与文本数据对齐的图像对象,并计算对齐的视觉表示;逆视觉注意力分支用于提取与文本数据不对齐的图像对象,并计算不对齐的视觉表示。
给定输入词嵌入向量X和对象向量O,我们定义基础视觉注意力的查询输入(Queries)为Q=XWQ,键输入(Keys)为K=OWK,值输入(Values)为V=OWV,其中
Figure GDA0004233391940000101
和/>
Figure GDA0004233391940000102
为可训练的参数。
基础视觉注意力分支包括h个第一注意力头;h的取值可以为8,在实际实现时,h的取值也可以为其它数值,本实施例不对h的取值作限定。
第i个第一注意力头的计算公式如下,i为小于或等于h的正整数:
Figure GDA0004233391940000103
Q=XWQ
Figure GDA0004233391940000104
K=OWK
Figure GDA0004233391940000105
V=OWV
Figure GDA0004233391940000106
其中,X表示词嵌入向量,O标识图像区域向量,Q表示查询输入,K表示键输入,V表示值输入,
Figure GDA0004233391940000107
是折扣因子;
将h个第一注意力头的输出拼接后得到:
Figure GDA0004233391940000108
其中,
Figure GDA0004233391940000109
为可训练的权重矩阵,/>
Figure GDA00042333919400001010
是拼接操作,h为正整数;
本实施例中,使用残差前馈层和池化操作计算对齐的视觉表示
Figure GDA00042333919400001011
具体地,对齐的视觉表示通过下式表示:
Rb=PL(LN(X+FFN(LN(X+selfAtt(X,O)))))
其中,LN(·)表示层归一化函数,FFN(·)表示前馈网络,PL(·)表示平均池化操作。
给定输入词嵌入向量X和对象向量O,我们定义逆视觉注意力的查询输入(Queries),键输入(Keys)和值输入(Values)同基础视觉注意力一样。
逆视觉注意力分支包括k个第二注意力头。可选地,k的取值可以为8,在实际实现时,k的取值也可以为其它数值,本实施例不对k的取值作限定。
第j个第二注意力头的计算公式如下,j为小于或等于k的正整数:
Figure GDA00042333919400001012
Q=XWQ
Figure GDA0004233391940000111
K=OWK
Figure GDA0004233391940000112
V=OWV
Figure GDA0004233391940000113
其中,X表示词嵌入向量,O标识图像区域向量,Q表查询输入,K表示键输入,V表示值输入,
Figure GDA0004233391940000114
是折扣因子,/>
Figure GDA0004233391940000115
是值全为1的单位矩阵,I-softmax(·)操作用计算相反的注意力权重,/>
Figure GDA0004233391940000116
用于归一化m个对象的相反注意力权重;
不对齐的视觉表示通过下式表示:
Rc=PL(LN(X+FFN(LN(X+oppoAtt(X,O)))));
其中,LN(·)表示层归一化函数,FFN(·)表示前馈网络,PL(·)表示平均池化操作。
可选地,逆视觉注意力网络与基础视觉注意力网络共享网络参数。
对比感知解码网络用于融合词嵌入向量、对齐的视觉表示和不对齐的视觉表示进行性格类别的预测。
对比感知解码网络基于词嵌入向量中的文本句子级表示、对齐的视觉表示和不对齐的视觉表示,使用两个softmax函数计算实际标签yi的预测概率值。
预测概率值的计算公式如下:
Figure GDA0004233391940000117
Figure GDA0004233391940000118
其中,
Figure GDA0004233391940000119
表示权重矩阵,/>
Figure GDA00042333919400001110
和/>
Figure GDA00042333919400001111
是偏置矩阵,Rt表示文本句子级表示,pb(yi|Pi)表示利用对齐的视觉表示Rb计算出的实际标签yi的预测概率值,pc(yi|Pi)表示利用不对齐的视觉表示Rc计算出的实际标签yi的预测概率值。
性格分类网络基于预先设置的损失函数计算得到,损失函数包括第一部分、第二部分和第三部分。
为了捕捉对比性视觉信息将上述两项预测概率值的公式作为对比感知损失函数的第一部分和第二部分。
第一部分用于利用对齐的视觉表示Rb最大化正确标签yi的预测概率pb(yi|Pi);第二部分用于利用不对齐的视觉表示Rc最小化正确标签yi的预测概率pc(yi|Pi)。
此外,为了缓解性格类别数量大(如215类)导致分类性能不佳的问题,对比感知解码网络加入了具有排序感知的损失函数作为对比感知损失函数公式的第三部分,旨在提高正确标签预测概率的同时降低前J个预测概率值最大的错误标签预测概率。换句话说,第三部分为具有排序感知的损失函数,第三部分用于提高正确标签预测概率的同时降低前J个预测概率值最大的错误标签预测概率。
可选地,性格推理任务的损失函数通过下式表示:
Figure GDA0004233391940000121
其中,yi是第i个“文本-图像”对Pi的正确标签,
Figure GDA0004233391940000122
是第i个“文本-图像”对Pi=(Ti,Ii)的错误标签中预测概率值第j大的错误标签;M是用于训练的“文本-图像”对的个数;δ是L2正则化因子,θ代表所有可训练参数。
本实施例中,J的取值可以为5,在实际实现时,J的取值也可以为其它值,本实施例不对J的取值作限定。
相关说明参见上述实施例,本实施例在此不再赘述。
综上所述,本实施例提供的融合文本与图像的双模态性格分类方法,通过获取图像数据和用于描述图像数据的文本数据;将文本数据和图像数据输入预先训练的性格分类网络,得到性格分类结果;其中,性格分类网络从前至后依次包括特征提取网络、对比视觉注意力网络和对比感知解码网络;特征提取网络包括:文本特征提取分支和图像特征提取分支,文本特征提取分支用于提取文本数据的词嵌入向量;图像特征提取分支用于提取图像数据的图像区域向量;对比视觉注意力网络包括:基础视觉注意力分支和逆视觉注意力分支,基础视觉注意力分支用于提取与文本数据对齐的图像对象,并计算对齐的视觉表示;逆视觉注意力分支用于提取与文本数据不对齐的图像对象,并计算不对齐的视觉表示;对比感知解码网络用于融合词嵌入向量、对齐的视觉表示和不对齐的视觉表示进行性格类别的预测;可以解决粗粒度且抽象的五大人格体系在工业应用领域存在局限性的问题;本申请可以更加适用于细粒度场景下的性格分类任务;输入原始文本与图像后,通过特征提取模块分别得到对应的特征向量,之后在对比视觉注意力模块中提取图像中与文本信息对齐及不对齐的视觉表示,最后通过对比感知解码模块学习对比性视觉信息,有效地缓解了性格类别数量较大导致分类性能不佳的问题,以及有效地解决了传统性格分类方法无法捕捉认知差异信息的问题。
如下表1展示了所提出方法与其他先进性格分类方法(T:文本单模态性格分类方法,I:图像单模态性格分类方法,T&I:文本和图像双模态性格分类方法)在personality-captions数据集测试集上的准确率及宏平均F1值比较。由于数据集性格类别数量大且存在含义相似的性格会导致top-1结果偏低,本文还统计了top-5、top-10、top-15、top-20、top-25的准确率及宏平均F1值,以进行更全面的对比,top-n表示模型预测某一样本的前n个概率最大的标签中包含样本真实标签,则此样本视为预测正确。
表1
Figure GDA0004233391940000131
Figure GDA0004233391940000141
从表1可以看出所提出的L-CVA方法表现超过了现有的其他先进性格分类方法,这验证了该方法的有效性。
本实例中,对所提出的基于对比视觉注意力机制的融合文本与图像的双模态性格分类方法在公开数据集personality-captions上进行性格分类研究。通过上述方法得到输出分类结果,利用测试集分类准确率及宏平均F1值进行性能评估。性格分类性能对比如表1所示。可以看出,L-CVA方法的识别准确率要高于现有的其他先进性格分类方法,达到了当前最先进的水平。这说明现有性格分类方法在图像特征的学习以及文本与图像信息的融合过程中存在较大优化空间,合适的损失函数以及注意力机制的运用能很大程度上改善性格分类的性能表现。同时,所提出的L-CVA方法可较容易地移植到其他相似任务中(如抑郁症识别,焦躁症识别均存在着认知差异现象),因此这也意味着本文提出的算法在实际工程应用中具有很大的优势。
图5是本申请一个实施例提供的融合文本与图像的双模态性格分类装置的框图。该装置至少包括以下几个模块:数据获取模块510和性格分类模块520。
数据获取模块510,用于获取图像数据和用于描述所述图像数据的文本数据;
性格分类模块520,用于将所述文本数据和所述图像数据输入预先训练的性格分类网络,得到性格分类结果;
其中,所述性格分类网络从前至后依次包括特征提取网络、对比视觉注意力网络和对比感知解码网络;
所述特征提取网络包括:文本特征提取分支和图像特征提取分支,所述文本特征提取分支用于提取所述文本数据的词嵌入向量;所述图像特征提取分支用于提取所述图像数据的图像区域向量;
所述对比视觉注意力网络包括:基础视觉注意力分支和逆视觉注意力分支,所述基础视觉注意力分支用于提取与所述文本数据对齐的图像对象,并计算对齐的视觉表示;所述逆视觉注意力分支用于提取与所述文本数据不对齐的图像对象,并计算不对齐的视觉表示;
所述对比感知解码网络用于融合所述词嵌入向量、所述对齐的视觉表示和所述不对齐的视觉表示进行性格类别的预测。
相关细节参考上述实施例。
需要说明的是:上述实施例中提供的融合文本与图像的双模态性格分类装置在进行融合文本与图像的双模态性格分类时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将融合文本与图像的双模态性格分类装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的融合文本与图像的双模态性格分类装置与融合文本与图像的双模态性格分类方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
可选地,本申请还提供有一种计算机可读存储介质,所述计算机可读存储介质中存储有程序,所述程序由处理器加载并执行以实现上述方法实施例的融合文本与图像的双模态性格分类方法。
可选地,本申请还提供有一种计算机产品,该计算机产品包括计算机可读存储介质,所述计算机可读存储介质中存储有程序,所述程序由处理器加载并执行以实现上述方法实施例的融合文本与图像的双模态性格分类方法。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种融合文本与图像的双模态性格分类方法,其特征在于,所述方法包括:
获取图像数据和用于描述所述图像数据的文本数据;
将所述文本数据和所述图像数据输入预先训练的性格分类网络,得到性格分类结果;
其中,所述性格分类网络从前至后依次包括特征提取网络、对比视觉注意力网络和对比感知解码网络;
所述特征提取网络包括:文本特征提取分支和图像特征提取分支,所述文本特征提取分支用于提取所述文本数据的词嵌入向量;所述图像特征提取分支用于提取所述图像数据的图像区域向量;
所述对比视觉注意力网络包括:基础视觉注意力分支和逆视觉注意力分支,所述基础视觉注意力分支用于提取与所述文本数据对齐的图像对象,并计算对齐的视觉表示;所述逆视觉注意力分支用于提取与所述文本数据不对齐的图像对象,并计算不对齐的视觉表示;
所述对比感知解码网络用于融合所述词嵌入向量、所述对齐的视觉表示和所述不对齐的视觉表示进行性格类别的预测。
2.根据权利要求1所述的方法,其特征在于,所述文本特征提取分支基于BERT-base模型对所述文本数据进行编码。
3.根据权利要求1所述的方法,其特征在于,所述图像特征提取分支基于Faster R-CNN提取图像区域。
4.根据权利要求1所述的方法,其特征在于,所述基础视觉注意力分支包括h个第一注意力头;
第i个第一注意力头的计算公式如下,所述i为小于或等于h的正整数:
Figure FDA0004233391920000011
Q=XWQ
Figure FDA0004233391920000021
K=OWK
Figure FDA0004233391920000022
V=OWV
Figure FDA0004233391920000023
其中,X表示所述词嵌入向量,O标识所述图像区域向量,Q表示查询输入,K表示键输入,V表示值输入,
Figure FDA0004233391920000024
是折扣因子;
将h个第一注意力头的输出拼接后得到:
Figure FDA0004233391920000025
其中,
Figure FDA0004233391920000026
为可训练的权重矩阵,/>
Figure FDA0004233391920000027
是拼接操作,h为正整数;
所述对齐的视觉表示通过下式表示:
Rb=PL(LN(X+FFN(LN(X+selfAtt(X,O)))))
其中,LN(·)表示层归一化函数,FFN(·)表示前馈网络,PL(·)表示平均池化操作。
5.根据权利要求1所述的方法,其特征在于,所述逆视觉注意力分支包括k个第二注意力头;
第j个第二注意力头的计算公式如下,所述j为小于或等于k的正整数:
Figure FDA0004233391920000028
Q=XWQ
Figure FDA0004233391920000029
K=OWK
Figure FDA00042333919200000210
V=OWV
Figure FDA00042333919200000211
其中,X表示所述词嵌入向量,O标识所述图像区域向量,Q表查询输入,K表示键输入,V表示值输入,
Figure FDA00042333919200000212
是折扣因子,/>
Figure FDA00042333919200000213
是值全为1的单位矩阵,I-softmax(·)操作用计算相反的注意力权重,/>
Figure FDA0004233391920000031
用于归一化m个对象的相反注意力权重;
不对齐的视觉表示通过下式表示:
Rc=PL(LN(X+FFN(LN(X+oppoAtt(X,O)))));
其中,LN(·)表示层归一化函数,FFN(·)表示前馈网络,PL(·)表示平均池化操作。
6.根据权利要求1所述的方法,其特征在于,所述对比感知解码网络基于所述词嵌入向量中的文本句子级表示、所述对齐的视觉表示和所述不对齐的视觉表示,使用两个softmax函数计算实际标签yi的预测概率值。
7.根据权利要求6所述的方法,其特征在于,所述预测概率值的计算公式如下:
Figure FDA0004233391920000035
Figure FDA0004233391920000036
其中,
Figure FDA0004233391920000032
表示权重矩阵,/>
Figure FDA0004233391920000033
和/>
Figure FDA0004233391920000034
是偏置矩阵,Rt表示文本句子级表示,pb(yi|Pi)表示利用对齐的视觉表示Rb计算出的实际标签yi的预测概率值,pc(yi|Pi)表示利用不对齐的视觉表示Rc计算出的实际标签yi的预测概率值。
8.根据权利要求7所述的方法,其特征在于,所述性格分类网络基于预先设置的损失函数计算得到,所述损失函数包括第一部分、第二部分和第三部分;
所述第一部分用于利用对齐的视觉表示Rb最大化正确标签yi的预测概率pb(yi|Pi);
所述第二部分用于利用不对齐的视觉表示Rc最小化正确标签yi的预测概率pc(yi|Pi);
所述第三部分为具有排序感知的损失函数,所述第三部分用于提高正确标签预测概率的同时降低前J个预测概率值最大的错误标签预测概率。
9.根据权利要求8所述的方法,其特征在于,所述损失函数通过下式表示:
Figure FDA0004233391920000041
其中,yi是第i个“文本-图像”对Pi的正确标签,
Figure FDA0004233391920000042
是第i个“文本-图像”对Pi=(Ti,Ii)的错误标签中预测概率值第j大的错误标签;M是用于训练的“文本-图像”对的个数;δ是L2正则化因子,θ代表所有可训练参数。
10.一种融合文本与图像的双模态性格分类装置,其特征在于,所述装置包括:
数据获取模块,用于获取图像数据和用于描述所述图像数据的文本数据;
性格分类模块,用于将所述文本数据和所述图像数据输入预先训练的性格分类网络,得到性格分类结果;
其中,所述性格分类网络从前至后依次包括特征提取网络、对比视觉注意力网络和对比感知解码网络;
所述特征提取网络包括:文本特征提取分支和图像特征提取分支,所述文本特征提取分支用于提取所述文本数据的词嵌入向量;所述图像特征提取分支用于提取所述图像数据的图像区域向量;
所述对比视觉注意力网络包括:基础视觉注意力分支和逆视觉注意力分支,所述基础视觉注意力分支用于提取与所述文本数据对齐的图像对象,并计算对齐的视觉表示;所述逆视觉注意力分支用于提取与所述文本数据不对齐的图像对象,并计算不对齐的视觉表示;
所述对比感知解码网络用于融合所述词嵌入向量、所述对齐的视觉表示和所述不对齐的视觉表示进行性格类别的预测。
CN202110376917.1A 2021-04-08 2021-04-08 融合文本与图像的双模态性格分类方法及装置 Active CN112949622B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110376917.1A CN112949622B (zh) 2021-04-08 2021-04-08 融合文本与图像的双模态性格分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110376917.1A CN112949622B (zh) 2021-04-08 2021-04-08 融合文本与图像的双模态性格分类方法及装置

Publications (2)

Publication Number Publication Date
CN112949622A CN112949622A (zh) 2021-06-11
CN112949622B true CN112949622B (zh) 2023-06-27

Family

ID=76231105

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110376917.1A Active CN112949622B (zh) 2021-04-08 2021-04-08 融合文本与图像的双模态性格分类方法及装置

Country Status (1)

Country Link
CN (1) CN112949622B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113239926B (zh) * 2021-06-17 2022-10-25 北京邮电大学 基于对抗的多模态虚假信息检测模型系统
CN113705725B (zh) * 2021-09-15 2022-03-25 中国矿业大学 一种基于多模态信息融合的用户人格特征预测方法和装置
CN113837102B (zh) * 2021-09-26 2024-05-10 广州华多网络科技有限公司 图文融合分类方法及其装置、设备、介质、产品
CN114494782B (zh) * 2022-01-26 2023-08-08 北京百度网讯科技有限公司 图像处理方法、模型训练方法、相关装置及电子设备
CN114626441A (zh) * 2022-02-23 2022-06-14 苏州大学 基于视觉对比注意力的隐式多模态匹配方法及系统
CN115146743B (zh) * 2022-08-31 2022-12-16 平安银行股份有限公司 性格识别模型的训练方法、性格识别方法、装置及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107704169A (zh) * 2017-09-26 2018-02-16 北京光年无限科技有限公司 虚拟人的状态管理方法和系统
CN110111399A (zh) * 2019-04-24 2019-08-09 上海理工大学 一种基于视觉注意力的图像文本生成方法
CN110196930A (zh) * 2019-05-22 2019-09-03 山东大学 一种多模态客服自动回复方法及系统
CN110555337A (zh) * 2018-05-30 2019-12-10 腾讯科技(深圳)有限公司 一种指示对象的检测方法、装置以及相关设备
CN111967224A (zh) * 2020-08-18 2020-11-20 深圳市欢太科技有限公司 对话文本的处理方法、装置、电子设备及存储介质
CN112559683A (zh) * 2020-12-11 2021-03-26 苏州元启创人工智能科技有限公司 基于多模态数据及多交互记忆网络的方面级情感分析方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107704169A (zh) * 2017-09-26 2018-02-16 北京光年无限科技有限公司 虚拟人的状态管理方法和系统
CN110555337A (zh) * 2018-05-30 2019-12-10 腾讯科技(深圳)有限公司 一种指示对象的检测方法、装置以及相关设备
CN110111399A (zh) * 2019-04-24 2019-08-09 上海理工大学 一种基于视觉注意力的图像文本生成方法
CN110196930A (zh) * 2019-05-22 2019-09-03 山东大学 一种多模态客服自动回复方法及系统
CN111967224A (zh) * 2020-08-18 2020-11-20 深圳市欢太科技有限公司 对话文本的处理方法、装置、电子设备及存储介质
CN112559683A (zh) * 2020-12-11 2021-03-26 苏州元启创人工智能科技有限公司 基于多模态数据及多交互记忆网络的方面级情感分析方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"Recent trends in deep learning based personality detection";yash mehta etal.;《Springer》;第1-25页 *
"基于多任务学习的正逆向情绪分值回归方法";高晓雅 等;《郑州大学学报( 理学版)》;第52卷(第1期);第60-65页 *
"基于社交网络的性格分析与预测";熊龙;《郑州大学学报(理学版)》;第1-5章 *

Also Published As

Publication number Publication date
CN112949622A (zh) 2021-06-11

Similar Documents

Publication Publication Date Title
CN112949622B (zh) 融合文本与图像的双模态性格分类方法及装置
Zellers et al. From recognition to cognition: Visual commonsense reasoning
CN113761153B (zh) 基于图片的问答处理方法、装置、可读介质及电子设备
CN113792177A (zh) 基于知识引导深度注意力网络的场景文字视觉问答方法
CN111949824A (zh) 基于语义对齐的视觉问答方法和系统、存储介质
Lu Application of wireless network and machine learning algorithm in entrepreneurship education of remote intelligent classroom
CN111723667A (zh) 基于人体关节点坐标的智慧灯杆人群行为识别方法和装置
CN113743544A (zh) 一种跨模态神经网络构建方法、行人检索方法及系统
Zhang et al. Teaching chinese sign language with a smartphone
CN114724224A (zh) 一种用于医疗护理机器人的多模态情感识别方法
Khurram et al. Dense-captionnet: a sentence generation architecture for fine-grained description of image semantics
Thiruthuvanathan et al. Engagement Detection through Facial Emotional Recognition Using a Shallow Residual Convolutional Neural Networks.
An et al. Research on safety helmet detection algorithm based on improved YOLOv5s
Nie Research on facial expression recognition of robot based on CNN convolution neural network
Shao et al. TAMNet: two attention modules-based network on facial expression recognition under uncertainty
Yang et al. An overview of multimodal fusion learning
Panda et al. Feedback through emotion extraction using logistic regression and CNN
CN116403608A (zh) 基于多标签纠正和时空协同融合的语音情感识别方法
Leng et al. An automated object detection method for the attention of classroom and conference participants
CN116704198A (zh) 一种基于多模态信息引导的知识增强视觉问答方法
Mishra et al. Environment descriptor for the visually impaired
Chu et al. End-to-End Recurrent Cross-Modality Attention for Video Dialogue
Nunes Deep emotion recognition through upper body movements and facial expression
Rawat et al. Indian Sign Language Recognition System for Interrogative Words Using Deep Learning
Wang et al. TASTA: Text‐Assisted Spatial and Temporal Attention Network for Video Question Answering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant