CN115115868B

CN115115868B - 一种基于三元组的多模态协同场景识别方法

Info

Publication number: CN115115868B
Application number: CN202210386333.7A
Authority: CN
Inventors: 朱世强; 李特; 操晓春; 赵博文; 李京知
Original assignee: Institute of Information Engineering of CAS; Zhejiang Lab
Current assignee: Institute of Information Engineering of CAS; Zhejiang Lab
Priority date: 2022-04-13
Filing date: 2022-04-13
Publication date: 2024-05-07
Anticipated expiration: 2042-04-13
Also published as: CN115115868A

Abstract

本发明公开了一种基于三元组的多模态协同场景识别方法，涉及深度学习下的计算机视觉与自然语言处理领域，针对单模态识别方法在复杂场景中体现出的局限性，提出为每个样本匹配一个由图像、文本型摘要和实例信息三种模态的标注数据构成的三元组，分别进行三个分支的神经网络学习训练，通过综合考量多种模态下的特征信息，在不引入额外数据收集成本的情况下提升场景识别的准确率。

Description

一种基于三元组的多模态协同场景识别方法

技术领域

本发明涉及深度学习下的计算机视觉与自然语言处理领域，更具体地说，涉及深度学习下的图像分类、文本分类及目标检测模型训练方法的优化与三种模态下特征信息的集成学习。

背景技术

图像与文本是人类从外界获取信息的重要载体，深度神经网络因其强大的表征能力被广泛应用于图像与文本的理解。相对于传统的手工特征提取，卷积神经网络的提出降低了人为干预对特征客观性的影响，更加注重数据潜在的规律，而深度神经网络在解决了梯度消失与性能回退后，在计算机视觉、自然语言处理、语音识别等多个领域大放异彩。

图像分类旨在根据图像的语义信息对不同类别的图像进行区分，是计算机视觉的核心任务，对于图像所处场景的推断起到全局指导的作用，以ResNet为代表的残差网络系列是近年来图像分类的常用工具，这一过程所提取到的特征还可作为三元组中实例(Instance)标注的辅助信息。文本分类与图像分类的目的相似，主要目的都是从数据中提取能区分各个类别的强有力表征，只是输入数据的形式不同，且面临文本序列不定长的问题，通常使用带有双向Transformer的Bert系列网络作为预训练模型。

现有的图像场景识别技术的不足在于，未充分利用图像语义信息的分类算法需要收集大量的数据来训练深度神经网络，应用于数据有限的场景识别(即对于给定的图像数据推断事件发生时所处的环境)时效果较差。

发明内容

本发明的目的是提出一种基于三元组的多模态协同场景识别方法，通过构建由图像、文本型摘要和实例信息构成的三元组型样本，通过三个分支学习和集成，能够在不引入额外数据收集成本的情况下提升场景识别的准确率。

为达到上述目的，本发明采用以下技术方案：

一种基于三元组的多模态协同场景识别方法，包括以下步骤：

对于作为初始训练数据的图片，为该图片标注对应的文本型摘要和实例信息，该文本型摘要是对该图片整体的文字描述，该实例信息是对该图片所包含的实体的表述，由该图片、文本型摘要和实例信息三种模态数据构建成三元组型训练样本；

将该训练样本输入到三个分支的神经网络中，对该训练样本的三种模态数据与场景类别的对应关系进行训练，该三个分支的神经网络包括基于ResNet改进的网络ResNeSt、基于Bert改进的模型ALBert和目标分类器；通过ResNeSt对训练样本中的图片进行处理，提取特征图，根据该特征图识别场景类型；通过ALBert对训练样本中的文本型摘要进行处理，识别场景类型；通过目标检测器对训练样本中的实例信息进行处理，识别出目标区域并从原图中裁剪出来并进行扁平化处理，将扁平化处理后的特征串联拼接成一个整合向量，根据该整合向量识别场景类型；将上述三个分支得到的识别结果进行融合，得到最终的预测结果；

对于待识别场景的图片，获取由该图片及其文本型摘要和实例信息构成的三元组型数据，将该数据输入到训练好的所述三个分支的神经网络中，识别出场景类别。

进一步地，ResNeSt含有注意力机制。

进一步地，ResNeSt采用Pytorch框架自带的Albumentations库进行数据增强，该数据增强包括随机擦除、色彩通道随机调换、随机对比度以及自适应直方图均衡。

进一步地，采用Adam优化器对ResNeSt的网络参数进行更新，并结合历史梯度和历史梯度平方来使ResNeSt自适应调整学习率。

进一步地，对文本型摘要进行标注的方法有并列的两种：一种是人工标注得到文本型摘要；另一种是使用图像字幕生成模型生成图像的描述字幕作为预标注，再人工修正后得到文本型摘要。

进一步地，目标检测器利用MSCOCO基准数据集预训练得到，目标检测器的骨干网络为不含有全连接层的图像分类网络。

进一步地，目标检测器选用基于Anchor的检测器，其中，如果目标种类少于一数值，而且形状固定，则使用Anchor-based检测器；如果目标种类多于一数值，而且形状大小不一并且远近皆有，则使用Anchor-free检测器。

进一步地，如果目标检测器裁剪出的目标区域的尺寸差异大于一数值，则先进行Pooling操作统一尺寸，再送入Flatten层进行扁平化操作，得到一维化的特征向量。

进一步地，目标检测器采用循环神经网络来训练整合向量与场景类别的对应关系。

进一步地，对识别结果进行融合的方法为：首先将图像和文本的各自特征向量提取出来，然后对于所述识别结果使用01向量结构构造目标的实例信息的特征向量，最后将上述三个向量拼接成一个向量后输入到一个两层的神经网络中进行特征融合。

本发明在模型训练阶段以图像为主体信息，构建图像本身、图像对应的文本摘要以及图像所包含的实例信息等三种模态结合而成的训练样本，其对应真值为场景的类别。三元组中，每种模态担任不同的特征提取任务，实现同一样本的多样性表达，在分别进行相应领域下的模型训练与优化后将三个分支的学习成果进行集成。本发明利用多模态表示学习技术，能够将多个模态数据所蕴含的语义信息数值化为实值向量；利用多模态融合技术，能够整合不同模态间的模型与特征；利用协同学习技术，能够将信息富集的模态上学习的知识迁移到信息匮乏的模态，使得各个模态的学习互相辅助。本发明可以用于数据有限的识别场景情况，在无需引入额外数据收集与存储的成本下，扩充深度神经网络可学习的模态范围，可以提升预测准确率，并可以根据模型学习的情况调控人工在文本摘要与实例标注生成中的参与程度，摘要描述越详细，越有利于建立图片、文本与场景类别真值三者之间的联系。

附图说明

图1为本发明实施例的一种基于三元组的多模态协同场景识别流程示意图。

具体实施方式

为使本发明的上述特征和优点能更明显易懂，下文特举实施例，并配合所附图作详细说明如下。

本实施例提供一种基于三元组的多模态协同场景识别方法，如图1所示，其包括三元组型训练样本的构建，三种模态数据与样本真值(场景类别)的对应关系的训练，以及对三个学习分支成果的融合。具体步骤说明如下：

S1：构建三元组型训练样本

对于一幅图片，其三元组型样本为由图片、文本型摘要、实例信息共同构成，共同对应场景类别真值。三元组型训练样本是由图片、标注的文本型摘要和标注的实例信息共同构成。具体而言，传统多模态学习的样本通常自带多种模态的描述数据，例如一段视频中往往会同时包含文字、视觉和听觉信息，而本发明与之不同之处在于，初始训练数据仅有图片的图像数据，即使深度神经网络能够采集到深层的语义信息，但可解释性降低的同时，完全无法进行人为的补充指导，即无法正向干预。因此，对于单一模态的图像数据，本实施例通过人为构造其他模态的标注数据，包括用于描述图片的文本型摘要和描述图片内有哪些人或物的实例信息。其中，文本型摘要既可以选用人工标注方式(可以理解为人为的信息补充)，也可以使用图像字幕生成模型生成字幕作为预标注，再人工修正后即可作为训练标注，进一步节约人力成本。同理，实例信息的标注也可选用人工标注或对目标检测模型生成的结果修正。由此，对于一幅图像数据，训练样本由单一图像模态扩充为三种模态，这样的三元组样本能对图像数据进行直接描述和间接描述，包含了全局信息与局部信息。

S2：通过三个分支分别训练三种模态数据与样本真值(场景类别)的对应关系

图像模态与文本型摘要模态数据与场景类别的关系发现均可参照现有的图像分类与文本分类方法，而实例信息与场景类别的关系则是本发明的一个核心要点。针对不同的模态，首先要通过不同类型的神经网络进行处理。

对于原始的图像模态数据，本实施例使用一种基于ResNet改进的网络ResNeSt进行图像特征的提取，得到特征图。该网络结构由于加入了注意力机制，可以使得网络对于图像的关键区域更加重视。根据特征图对图像进行分类(即场景识别)，得到图像分类的概率分布，将概率最大的一项作为分类结果(即场景识别结果)。为了增强该网络图像分类的鲁棒性，采用Pytorch框架自带的Albumentations库进行数据增强，包括随机擦除、色彩通道随机调换、随机对比度、自适应直方图均衡等，模拟自然场景中图像数据可能存在的变化。在参数更新部分采用Adam优化器，结合历史梯度和历史梯度平方来自适应调整学习率，有助于目标函数收敛。

对于文本型摘要模态数据，本实施例采用基于Bert改进的轻量化模型ALBert进行处理，轻量化模型减少参数量，也就意味着降低算力要求、训练难度与训练时间，同时也能在数据量较少情况下抑制过拟合。模型所能达到的效果上限取决于文本数据的质量，由于场景识别本身需要场景的体现具有一定的辨识度，若时间与人力资源较为充裕则可以对初始图片给出较为详尽的描述，即除了直观的人与物的外观描述外，还可以给出如人物职业、物体型号这样带有人类主观定义的信息等。如果想要采用先生成预标注再人工修正的方式，可以使用开源的Image Caption工具，对当前图片生成描述字幕，人工审核时对其中的错误、被遗漏的信息进行修正补充即可快速地生成摘要文本。

对于实例信息模态数据，实例信息即图片所包含的目标信息，其生成可以通过利用MSCOCO基准数据集预训练得到的目标检测器实现，目标检测器的骨干网络可以直接使用图片分类阶段中的模型，去掉全连接层即可。目标检测器可以选择单阶段或双阶段，具体参照实际使用情况中可用的算力情况以及目标特征，是否采用基于Anchor的检测器则要参照场景所包含的目标特点，如果目标种类较少且形状固定则可以采用Anchor-based检测器，若目标种类较多，形状大小不一，且远近皆有，则更推荐使用Anchor-free检测器。一幅图像只对应一个场景类别，但通常会包含多个实例，对于每一个实例，通过不含全连接层的图像分类网络可将目标区域从原图中裁剪出来，若尺寸差异较大则先进行Pooling操作统一尺寸，再送入Flatten层进行扁平化操作，将特征向量一维化，获取所有实例目标的扁平向量后进行串联拼接，也就是将所有实例整合至一个向量中以便与场景类别真值对应。同时考虑到图像中由于实例数量不确定导致的向量不定长问题，采用循环神经网络来训练实例整合向量与真值的对应关系。

S3：对三个分支的预测结果进行融合

在学习初期，三元组所对应的三个分支各自进行学习训练，待ResNeSt、ALBert、目标检测器调优至预期结果后即可进行分支的融合，因为各分支给出的场景预测结果可能并不完全相同，因此可以将多个结果进行融合，得到三元组型训练样本的最终预测结果。融合方式采用特征向量组合的方式进行，具体过程为：首先将图像和文本的分类特征向量提取出来，对于目标检测的检测结果使用01向量结构构造目标实例的特征向量，将上述三个向量拼接成一个向量后输入一个两层的神经网络中进行特征融合获得最终的结果。

实验验证：

本实验使用与图像特征提取相同的ResNest101作为对照模型，以及以引入文字、图像二元组组成的模型ResNest101+ALbert，以及中国发明专利CN110046656A公开的一种基于深度学习的多模态场景识别方法作为进一步对照，与本发明提出的方法(ResNest101+Albert+Instance)进行比较。模型训练在包含12228个样本的训练集中，并在包含1275个样本的测试集中验证最终效果，实验结果如表1所示。

表1不同融合策略测试结果

由上述表1可知，在本实验中，本发明基于三元组进行的图像场景识别准确率显然要好于对照模型ResNest101，也好于基于二元组的ResNest101+ALbert和CN110046656A所公开的方法。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于三元组的多模态协同场景识别方法，其特征在于，包括以下步骤：

2.如权利要求1所述的方法，其特征在于，ResNeSt含有注意力机制。

3.如权利要求1所述的方法，其特征在于，ResNeSt采用Pytorch框架自带的Albumentations库进行数据增强，该数据增强包括随机擦除、色彩通道随机调换、随机对比度以及自适应直方图均衡。

4.如权利要求1所述的方法，其特征在于，采用Adam优化器对ResNeSt的网络参数进行更新，并结合历史梯度和历史梯度平方来使ResNeSt自适应调整学习率。

5.如权利要求1所述的方法，其特征在于，对文本型摘要进行标注的方法有并列的两种：一种是人工标注得到文本型摘要；另一种是使用图像字幕生成模型生成图像的描述字幕作为预标注，再人工修正后得到文本型摘要。

6.如权利要求1所述的方法，其特征在于，目标检测器利用MSCOCO基准数据集预训练得到，目标检测器的骨干网络为不含有全连接层的图像分类网络。

7.如权利要求1所述的方法，其特征在于，目标检测器选用基于Anchor的检测器，其中，如果目标种类少于一数值，而且形状固定，则使用Anchor-based检测器；如果目标种类多于一数值，而且形状大小不一并且远近皆有，则使用Anchor-free检测器。

8.如权利要求1所述的方法，其特征在于，如果目标检测器裁剪出的目标区域的尺寸差异大于一数值，则先进行Pooling操作统一尺寸，再送入Flatten层进行扁平化操作，得到一维化的特征向量。

9.如权利要求1所述的方法，其特征在于，目标检测器采用循环神经网络来训练整合向量与场景类别的对应关系。

10.如权利要求1所述的方法，其特征在于，对识别结果进行融合的方法为：首先将图像和文本的各自特征向量提取出来，然后对于所述识别结果使用01向量结构构造目标的实例信息的特征向量，最后将上述三个向量拼接成一个向量后输入到一个两层的神经网络中进行特征融合。