CN115115868B - 一种基于三元组的多模态协同场景识别方法 - Google Patents

一种基于三元组的多模态协同场景识别方法 Download PDF

Info

Publication number
CN115115868B
CN115115868B CN202210386333.7A CN202210386333A CN115115868B CN 115115868 B CN115115868 B CN 115115868B CN 202210386333 A CN202210386333 A CN 202210386333A CN 115115868 B CN115115868 B CN 115115868B
Authority
CN
China
Prior art keywords
scene
target
picture
text
detector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210386333.7A
Other languages
English (en)
Other versions
CN115115868A (zh
Inventor
朱世强
李特
操晓春
赵博文
李京知
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
Zhejiang Lab
Original Assignee
Institute of Information Engineering of CAS
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS, Zhejiang Lab filed Critical Institute of Information Engineering of CAS
Priority to CN202210386333.7A priority Critical patent/CN115115868B/zh
Publication of CN115115868A publication Critical patent/CN115115868A/zh
Application granted granted Critical
Publication of CN115115868B publication Critical patent/CN115115868B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • G06V10/765Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于三元组的多模态协同场景识别方法,涉及深度学习下的计算机视觉与自然语言处理领域,针对单模态识别方法在复杂场景中体现出的局限性,提出为每个样本匹配一个由图像、文本型摘要和实例信息三种模态的标注数据构成的三元组,分别进行三个分支的神经网络学习训练,通过综合考量多种模态下的特征信息,在不引入额外数据收集成本的情况下提升场景识别的准确率。

Description

一种基于三元组的多模态协同场景识别方法
技术领域
本发明涉及深度学习下的计算机视觉与自然语言处理领域,更具体地说,涉及深度学习下的图像分类、文本分类及目标检测模型训练方法的优化与三种模态下特征信息的集成学习。
背景技术
图像与文本是人类从外界获取信息的重要载体,深度神经网络因其强大的表征能力被广泛应用于图像与文本的理解。相对于传统的手工特征提取,卷积神经网络的提出降低了人为干预对特征客观性的影响,更加注重数据潜在的规律,而深度神经网络在解决了梯度消失与性能回退后,在计算机视觉、自然语言处理、语音识别等多个领域大放异彩。
图像分类旨在根据图像的语义信息对不同类别的图像进行区分,是计算机视觉的核心任务,对于图像所处场景的推断起到全局指导的作用,以ResNet为代表的残差网络系列是近年来图像分类的常用工具,这一过程所提取到的特征还可作为三元组中实例(Instance)标注的辅助信息。文本分类与图像分类的目的相似,主要目的都是从数据中提取能区分各个类别的强有力表征,只是输入数据的形式不同,且面临文本序列不定长的问题,通常使用带有双向Transformer的Bert系列网络作为预训练模型。
现有的图像场景识别技术的不足在于,未充分利用图像语义信息的分类算法需要收集大量的数据来训练深度神经网络,应用于数据有限的场景识别(即对于给定的图像数据推断事件发生时所处的环境)时效果较差。
发明内容
本发明的目的是提出一种基于三元组的多模态协同场景识别方法,通过构建由图像、文本型摘要和实例信息构成的三元组型样本,通过三个分支学习和集成,能够在不引入额外数据收集成本的情况下提升场景识别的准确率。
为达到上述目的,本发明采用以下技术方案:
一种基于三元组的多模态协同场景识别方法,包括以下步骤:
对于作为初始训练数据的图片,为该图片标注对应的文本型摘要和实例信息,该文本型摘要是对该图片整体的文字描述,该实例信息是对该图片所包含的实体的表述,由该图片、文本型摘要和实例信息三种模态数据构建成三元组型训练样本;
将该训练样本输入到三个分支的神经网络中,对该训练样本的三种模态数据与场景类别的对应关系进行训练,该三个分支的神经网络包括基于ResNet改进的网络ResNeSt、基于Bert改进的模型ALBert和目标分类器;通过ResNeSt对训练样本中的图片进行处理,提取特征图,根据该特征图识别场景类型;通过ALBert对训练样本中的文本型摘要进行处理,识别场景类型;通过目标检测器对训练样本中的实例信息进行处理,识别出目标区域并从原图中裁剪出来并进行扁平化处理,将扁平化处理后的特征串联拼接成一个整合向量,根据该整合向量识别场景类型;将上述三个分支得到的识别结果进行融合,得到最终的预测结果;
对于待识别场景的图片,获取由该图片及其文本型摘要和实例信息构成的三元组型数据,将该数据输入到训练好的所述三个分支的神经网络中,识别出场景类别。
进一步地,ResNeSt含有注意力机制。
进一步地,ResNeSt采用Pytorch框架自带的Albumentations库进行数据增强,该数据增强包括随机擦除、色彩通道随机调换、随机对比度以及自适应直方图均衡。
进一步地,采用Adam优化器对ResNeSt的网络参数进行更新,并结合历史梯度和历史梯度平方来使ResNeSt自适应调整学习率。
进一步地,对文本型摘要进行标注的方法有并列的两种:一种是人工标注得到文本型摘要;另一种是使用图像字幕生成模型生成图像的描述字幕作为预标注,再人工修正后得到文本型摘要。
进一步地,目标检测器利用MSCOCO基准数据集预训练得到,目标检测器的骨干网络为不含有全连接层的图像分类网络。
进一步地,目标检测器选用基于Anchor的检测器,其中,如果目标种类少于一数值,而且形状固定,则使用Anchor-based检测器;如果目标种类多于一数值,而且形状大小不一并且远近皆有,则使用Anchor-free检测器。
进一步地,如果目标检测器裁剪出的目标区域的尺寸差异大于一数值,则先进行Pooling操作统一尺寸,再送入Flatten层进行扁平化操作,得到一维化的特征向量。
进一步地,目标检测器采用循环神经网络来训练整合向量与场景类别的对应关系。
进一步地,对识别结果进行融合的方法为:首先将图像和文本的各自特征向量提取出来,然后对于所述识别结果使用01向量结构构造目标的实例信息的特征向量,最后将上述三个向量拼接成一个向量后输入到一个两层的神经网络中进行特征融合。
本发明在模型训练阶段以图像为主体信息,构建图像本身、图像对应的文本摘要以及图像所包含的实例信息等三种模态结合而成的训练样本,其对应真值为场景的类别。三元组中,每种模态担任不同的特征提取任务,实现同一样本的多样性表达,在分别进行相应领域下的模型训练与优化后将三个分支的学习成果进行集成。本发明利用多模态表示学习技术,能够将多个模态数据所蕴含的语义信息数值化为实值向量;利用多模态融合技术,能够整合不同模态间的模型与特征;利用协同学习技术,能够将信息富集的模态上学习的知识迁移到信息匮乏的模态,使得各个模态的学习互相辅助。本发明可以用于数据有限的识别场景情况,在无需引入额外数据收集与存储的成本下,扩充深度神经网络可学习的模态范围,可以提升预测准确率,并可以根据模型学习的情况调控人工在文本摘要与实例标注生成中的参与程度,摘要描述越详细,越有利于建立图片、文本与场景类别真值三者之间的联系。
附图说明
图1为本发明实施例的一种基于三元组的多模态协同场景识别流程示意图。
具体实施方式
为使本发明的上述特征和优点能更明显易懂,下文特举实施例,并配合所附图作详细说明如下。
本实施例提供一种基于三元组的多模态协同场景识别方法,如图1所示,其包括三元组型训练样本的构建,三种模态数据与样本真值(场景类别)的对应关系的训练,以及对三个学习分支成果的融合。具体步骤说明如下:
S1:构建三元组型训练样本
对于一幅图片,其三元组型样本为由图片、文本型摘要、实例信息共同构成,共同对应场景类别真值。三元组型训练样本是由图片、标注的文本型摘要和标注的实例信息共同构成。具体而言,传统多模态学习的样本通常自带多种模态的描述数据,例如一段视频中往往会同时包含文字、视觉和听觉信息,而本发明与之不同之处在于,初始训练数据仅有图片的图像数据,即使深度神经网络能够采集到深层的语义信息,但可解释性降低的同时,完全无法进行人为的补充指导,即无法正向干预。因此,对于单一模态的图像数据,本实施例通过人为构造其他模态的标注数据,包括用于描述图片的文本型摘要和描述图片内有哪些人或物的实例信息。其中,文本型摘要既可以选用人工标注方式(可以理解为人为的信息补充),也可以使用图像字幕生成模型生成字幕作为预标注,再人工修正后即可作为训练标注,进一步节约人力成本。同理,实例信息的标注也可选用人工标注或对目标检测模型生成的结果修正。由此,对于一幅图像数据,训练样本由单一图像模态扩充为三种模态,这样的三元组样本能对图像数据进行直接描述和间接描述,包含了全局信息与局部信息。
S2:通过三个分支分别训练三种模态数据与样本真值(场景类别)的对应关系
图像模态与文本型摘要模态数据与场景类别的关系发现均可参照现有的图像分类与文本分类方法,而实例信息与场景类别的关系则是本发明的一个核心要点。针对不同的模态,首先要通过不同类型的神经网络进行处理。
对于原始的图像模态数据,本实施例使用一种基于ResNet改进的网络ResNeSt进行图像特征的提取,得到特征图。该网络结构由于加入了注意力机制,可以使得网络对于图像的关键区域更加重视。根据特征图对图像进行分类(即场景识别),得到图像分类的概率分布,将概率最大的一项作为分类结果(即场景识别结果)。为了增强该网络图像分类的鲁棒性,采用Pytorch框架自带的Albumentations库进行数据增强,包括随机擦除、色彩通道随机调换、随机对比度、自适应直方图均衡等,模拟自然场景中图像数据可能存在的变化。在参数更新部分采用Adam优化器,结合历史梯度和历史梯度平方来自适应调整学习率,有助于目标函数收敛。
对于文本型摘要模态数据,本实施例采用基于Bert改进的轻量化模型ALBert进行处理,轻量化模型减少参数量,也就意味着降低算力要求、训练难度与训练时间,同时也能在数据量较少情况下抑制过拟合。模型所能达到的效果上限取决于文本数据的质量,由于场景识别本身需要场景的体现具有一定的辨识度,若时间与人力资源较为充裕则可以对初始图片给出较为详尽的描述,即除了直观的人与物的外观描述外,还可以给出如人物职业、物体型号这样带有人类主观定义的信息等。如果想要采用先生成预标注再人工修正的方式,可以使用开源的Image Caption工具,对当前图片生成描述字幕,人工审核时对其中的错误、被遗漏的信息进行修正补充即可快速地生成摘要文本。
对于实例信息模态数据,实例信息即图片所包含的目标信息,其生成可以通过利用MSCOCO基准数据集预训练得到的目标检测器实现,目标检测器的骨干网络可以直接使用图片分类阶段中的模型,去掉全连接层即可。目标检测器可以选择单阶段或双阶段,具体参照实际使用情况中可用的算力情况以及目标特征,是否采用基于Anchor的检测器则要参照场景所包含的目标特点,如果目标种类较少且形状固定则可以采用Anchor-based检测器,若目标种类较多,形状大小不一,且远近皆有,则更推荐使用Anchor-free检测器。一幅图像只对应一个场景类别,但通常会包含多个实例,对于每一个实例,通过不含全连接层的图像分类网络可将目标区域从原图中裁剪出来,若尺寸差异较大则先进行Pooling操作统一尺寸,再送入Flatten层进行扁平化操作,将特征向量一维化,获取所有实例目标的扁平向量后进行串联拼接,也就是将所有实例整合至一个向量中以便与场景类别真值对应。同时考虑到图像中由于实例数量不确定导致的向量不定长问题,采用循环神经网络来训练实例整合向量与真值的对应关系。
S3:对三个分支的预测结果进行融合
在学习初期,三元组所对应的三个分支各自进行学习训练,待ResNeSt、ALBert、目标检测器调优至预期结果后即可进行分支的融合,因为各分支给出的场景预测结果可能并不完全相同,因此可以将多个结果进行融合,得到三元组型训练样本的最终预测结果。融合方式采用特征向量组合的方式进行,具体过程为:首先将图像和文本的分类特征向量提取出来,对于目标检测的检测结果使用01向量结构构造目标实例的特征向量,将上述三个向量拼接成一个向量后输入一个两层的神经网络中进行特征融合获得最终的结果。
实验验证:
本实验使用与图像特征提取相同的ResNest101作为对照模型,以及以引入文字、图像二元组组成的模型ResNest101+ALbert,以及中国发明专利CN110046656A公开的一种基于深度学习的多模态场景识别方法作为进一步对照,与本发明提出的方法(ResNest101+Albert+Instance)进行比较。模型训练在包含12228个样本的训练集中,并在包含1275个样本的测试集中验证最终效果,实验结果如表1所示。
表1不同融合策略测试结果
由上述表1可知,在本实验中,本发明基于三元组进行的图像场景识别准确率显然要好于对照模型ResNest101,也好于基于二元组的ResNest101+ALbert和CN110046656A所公开的方法。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种基于三元组的多模态协同场景识别方法,其特征在于,包括以下步骤:
对于作为初始训练数据的图片,为该图片标注对应的文本型摘要和实例信息,该文本型摘要是对该图片整体的文字描述,该实例信息是对该图片所包含的实体的表述,由该图片、文本型摘要和实例信息三种模态数据构建成三元组型训练样本;
将该训练样本输入到三个分支的神经网络中,对该训练样本的三种模态数据与场景类别的对应关系进行训练,该三个分支的神经网络包括基于ResNet改进的网络ResNeSt、基于Bert改进的模型ALBert和目标分类器;通过ResNeSt对训练样本中的图片进行处理,提取特征图,根据该特征图识别场景类型;通过ALBert对训练样本中的文本型摘要进行处理,识别场景类型;通过目标检测器对训练样本中的实例信息进行处理,识别出目标区域并从原图中裁剪出来并进行扁平化处理,将扁平化处理后的特征串联拼接成一个整合向量,根据该整合向量识别场景类型;将上述三个分支得到的识别结果进行融合,得到最终的预测结果;
对于待识别场景的图片,获取由该图片及其文本型摘要和实例信息构成的三元组型数据,将该数据输入到训练好的所述三个分支的神经网络中,识别出场景类别。
2.如权利要求1所述的方法,其特征在于,ResNeSt含有注意力机制。
3.如权利要求1所述的方法,其特征在于,ResNeSt采用Pytorch框架自带的Albumentations库进行数据增强,该数据增强包括随机擦除、色彩通道随机调换、随机对比度以及自适应直方图均衡。
4.如权利要求1所述的方法,其特征在于,采用Adam优化器对ResNeSt的网络参数进行更新,并结合历史梯度和历史梯度平方来使ResNeSt自适应调整学习率。
5.如权利要求1所述的方法,其特征在于,对文本型摘要进行标注的方法有并列的两种:一种是人工标注得到文本型摘要;另一种是使用图像字幕生成模型生成图像的描述字幕作为预标注,再人工修正后得到文本型摘要。
6.如权利要求1所述的方法,其特征在于,目标检测器利用MSCOCO基准数据集预训练得到,目标检测器的骨干网络为不含有全连接层的图像分类网络。
7.如权利要求1所述的方法,其特征在于,目标检测器选用基于Anchor的检测器,其中,如果目标种类少于一数值,而且形状固定,则使用Anchor-based检测器;如果目标种类多于一数值,而且形状大小不一并且远近皆有,则使用Anchor-free检测器。
8.如权利要求1所述的方法,其特征在于,如果目标检测器裁剪出的目标区域的尺寸差异大于一数值,则先进行Pooling操作统一尺寸,再送入Flatten层进行扁平化操作,得到一维化的特征向量。
9.如权利要求1所述的方法,其特征在于,目标检测器采用循环神经网络来训练整合向量与场景类别的对应关系。
10.如权利要求1所述的方法,其特征在于,对识别结果进行融合的方法为:首先将图像和文本的各自特征向量提取出来,然后对于所述识别结果使用01向量结构构造目标的实例信息的特征向量,最后将上述三个向量拼接成一个向量后输入到一个两层的神经网络中进行特征融合。
CN202210386333.7A 2022-04-13 2022-04-13 一种基于三元组的多模态协同场景识别方法 Active CN115115868B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210386333.7A CN115115868B (zh) 2022-04-13 2022-04-13 一种基于三元组的多模态协同场景识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210386333.7A CN115115868B (zh) 2022-04-13 2022-04-13 一种基于三元组的多模态协同场景识别方法

Publications (2)

Publication Number Publication Date
CN115115868A CN115115868A (zh) 2022-09-27
CN115115868B true CN115115868B (zh) 2024-05-07

Family

ID=83324774

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210386333.7A Active CN115115868B (zh) 2022-04-13 2022-04-13 一种基于三元组的多模态协同场景识别方法

Country Status (1)

Country Link
CN (1) CN115115868B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018137358A1 (zh) * 2017-01-24 2018-08-02 北京大学 基于深度度量学习的目标精确检索方法
CN110046656A (zh) * 2019-03-28 2019-07-23 南京邮电大学 基于深度学习的多模态场景识别方法
CN114067143A (zh) * 2021-11-24 2022-02-18 西安烽火软件科技有限公司 一种基于双子网络的车辆重识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018137358A1 (zh) * 2017-01-24 2018-08-02 北京大学 基于深度度量学习的目标精确检索方法
CN110046656A (zh) * 2019-03-28 2019-07-23 南京邮电大学 基于深度学习的多模态场景识别方法
CN114067143A (zh) * 2021-11-24 2022-02-18 西安烽火软件科技有限公司 一种基于双子网络的车辆重识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于多模态特征表示学习的行人重识别研究;陈子晗;中国优秀硕士论文电子期刊网;20220315;全文 *
基于新型三元卷积神经网络的行人再辨识算法;朱建清;曾焕强;杜永兆;雷震;郑力新;蔡灿辉;;电子与信息学报;20180415(第04期);全文 *

Also Published As

Publication number Publication date
CN115115868A (zh) 2022-09-27

Similar Documents

Publication Publication Date Title
CN110909673B (zh) 一种基于自然语言描述的行人再识别方法
EP3989104A1 (en) Facial feature extraction model training method and apparatus, facial feature extraction method and apparatus, device, and storage medium
CN113076994B (zh) 一种开集域自适应图像分类方法及系统
CN109190561B (zh) 一种视频播放中的人脸识别方法及系统
CN112819065B (zh) 基于多重聚类信息的无监督行人难样本挖掘方法和系统
CN109255289B (zh) 一种基于统一式生成模型的跨衰老人脸识别方法
CN111832511A (zh) 一种增强样本数据的无监督行人重识别方法
CN112036447A (zh) 零样本目标检测系统及可学习语义和固定语义融合方法
CN112818951A (zh) 一种票证识别的方法
CN111797814A (zh) 基于通道融合和分类器对抗的无监督跨域动作识别方法
CN117149944B (zh) 一种基于宽时间范畴的多模态情境情感识别方法及系统
Bilkhu et al. Attention is all you need for videos: Self-attention based video summarization using universal transformers
CN113283438A (zh) 基于多源显著性和时空榜样适配的弱监督视频目标分割方法
CN115129934A (zh) 一种多模态视频理解方法
CN114782997A (zh) 基于多损失注意力自适应网络的行人重识别方法及系统
CN111507467A (zh) 神经网络模型的训练方法、装置、计算机设备及存储介质
CN109522865A (zh) 一种基于深度神经网络的特征加权融合人脸识别方法
CN115115868B (zh) 一种基于三元组的多模态协同场景识别方法
CN112560668A (zh) 一种基于场景先验知识的人体行为识别方法
CN113159071B (zh) 一种跨模态图像-文本关联异常检测方法
CN115690566A (zh) 一种基于深度迁移聚类学习的深海动物新物种识别方法
CN112633264B (zh) 一种车辆属性识别方法、装置、电子设备及存储介质
CN114565804A (zh) 一种nlp模型训练识别系统
CN114067356A (zh) 基于联合局部引导与属性聚类的行人重识别方法
CN116311275B (zh) 一种基于seq2seq语言模型的文字识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant