CN117350926B

CN117350926B - 一种基于目标权重的多模态数据增强方法

Info

Publication number: CN117350926B
Application number: CN202311642069.XA
Authority: CN
Inventors: 赵洪博; 王广彪; 吕书畅; 李博; 周正; 常青; 冯文全
Original assignee: Hefei Innovation Research Institute of Beihang University
Current assignee: Hefei Innovation Research Institute of Beihang University
Priority date: 2023-12-04
Filing date: 2023-12-04
Publication date: 2024-02-13
Anticipated expiration: 2043-12-04
Also published as: CN117350926A

Abstract

本发明公开了一种基于目标权重的多模态数据增强方法，首先随机获取多对待融合图文对和对应的目标标注文件；将多对待融合图文对中的图像均缩放到统一尺寸，并同步调整对应目标标注文件中各目标的位置信息；遍历每张图像中的目标，每个目标生成一个对应的距离加权权重矩阵，然后根据每个目标的距离加权权重矩阵对多张待融合图像进行权重矩阵的归一化后，根据归一化后的权重矩阵进行图像融合，形成融合图像；最后将多对待融合图文对中的文本进行多种组合排序，得到多个融合文本，将每个融合文本均与融合图像进行组合，从而形成多对融合图文对。本发明具有不破坏多模态数据语义关系、数据多样性强、方法简单易用等优点。

Description

一种基于目标权重的多模态数据增强方法

技术领域

本发明涉及视觉语言技术领域，具体是一种基于目标权重的多模态数据增强方法。

背景技术

深度学习作为一种机器学习方法，使用神经网络模型来从数据中提取特征并做出决策。深度学习的主要特点之一是它对大规模数据的需求，通常需要大量标记的数据来进行有效的训练。在实际数据采集时，往往很难覆盖所有场景；同时，大量的数据采集和标注需要高昂的成本。针对这一问题，数据增强的概念被提出，数据增强是一种用于增加训练数据数量和多样性的技术。它的基本思想是通过对原始数据进行一系列变换和扩展，生成新的训练样本，从而帮助模型更好地泛化到未见过的数据。数据增强技术通常应用于计算机视觉任务，如图像分类和目标检测，以及自然语言处理任务，如文本分类和情感分析。常见数据增强操作包括随机旋转、翻转和缩放图像，添加噪声或扭曲，随机剪裁/拼接图像；对文本数据进行同义词替换、删除或添加单词等。

多模态数据包含图像、文本等类型的数据，广泛应用在视觉定位（VisualGrounding）、图像描述生成（Image Captioning）、视觉问答（Visual Question Answering，VQA）、图像-文本匹配（Image-Text Matching）、跨模态生成（Cross-Modal Generation）等任务中。然而在多模态数据之间存在一定的关联性，在图像、文本单模态中使用的数据增强方法往往会破坏多模态数据语义之间的对应性。例如，在视觉定位任务中，文本描述为“左侧的狗”，而如果使用随机翻转数据增强，图像中目标的位置会被变换，导致与文本语义不对应，导致训练数据错误，影响模型性能。针对这一情况，现在可用的数据增强手段较少，一般仅仅进行图像的尺寸变化。论文【MixGen: A New Multi-Modal Data Augmentation】提出了一种“将图像加权求和、文本拼接”的方法，但这种方法在图像融合过程中没有考虑目标区域的特殊性，在一定程度上引入了噪声。

综上所述，现有的多模态数据增强的方法存在数据增强方法较为单一、无法满足模型泛化需求的缺点。

发明内容

本发明要解决的技术问题是提供一种基于目标权重的多模态数据增强方法，具有不破坏多模态数据语义关系、数据多样性强、方法简单易用等优点。

本发明的技术方案为：

一种基于目标权重的多模态数据增强方法，具体包括有以下步骤：

（1）、随机获取多对待融合图文对和与每对图文对对应的目标标注文件；

（2）、将多对待融合图文对中的图像尺寸均缩放到统一尺寸，然后根据每张缩放后的图像对对应目标标注文件中各目标的位置信息进行同步调整；

（3）、遍历每张图像中的目标，每个目标生成一个对应的距离加权权重矩阵，然后根据每张图像中每个目标的距离加权权重矩阵对多张待融合图像进行权重矩阵的归一化，得到多张待融合图像归一化后的权重矩阵，最后根据归一化后的权重矩阵进行图像融合，形成融合图像；

（4）、将多对待融合图文对中的文本进行多种组合排序，得到多个融合文本，将每个融合文本均与融合图像进行组合，从而形成多对融合图文对。

所述的目标标注文件包括有对应图像中所有目标的位置信息，具体包括有目标边界的形状、目标边界像素点的坐标信息、目标的尺寸信息和倾斜角度信息。

所述的图像尺寸的缩放方法选用最近邻插值法、双线性插值法或双三次插值法。

所述的每个目标生成一个对应的距离加权权重矩阵；具体见下式（1）和式（2）：

（1），

（2）；

式（1）和式（2）中，为图像的尺寸；/>代表目标/>在图像中覆盖的区域；代表图像/>中第i行第j列的像素；/>为超参数，取值为不小于1的浮点数；/>为不小于1的正整数，距离目标越近的像素点，其/>取值越小。

所述的的取值方法为：以目标的边界开始顺次向外膨胀，将与边界处像素点紧邻的目标区域外像素点记为/>，像素点/>对应的/>为1，与像素点/>紧邻的目标区域外像素点记为/>，像素点/>对应的/>为2，依次类推，与/>紧邻的目标区域外像素点记为/>，像素点/>对应的/>为/>。

所述的根据每张图像中每个目标的距离加权权重矩阵对多张待融合图像进行权重矩阵的归一化，得到多张待融合图像归一化后的权重矩阵，权重矩阵归一化的公式见下式（3）：

（3）；

式（3）中，为多张待融合图像归一化后的权重矩阵，/>为每张图像中目标的个数，/>为待融合图像的图像个数。

所述的根据归一化后的权重矩阵进行图像融合，计算公式见下式（4）：

（4）；

式（4）中，为融合后的融合图像，/>为每张待融合图像。

所述的将多对待融合图文对中的文本进行多种组合排序，得到多个融合文本的具体方式为：将多个待融合文本均作为第一段表述，然后针对每个第一段表述，除了第一段表述外的其它待融合文本作为后几段表述并随机排列于第一段表述后面，相邻段表述之间采用分隔符号分隔开，从而组成一个融合文本，即针对多个第一段表述，最后形成了多个融合文本。

本发明的优点：

（1）、本发明采用基于目标的距离加权权重矩阵进行图像融合，在不破坏多模态数据语义关系的同时，减少图像融合过程中与目标无关的噪声，增强了图像融合的质量。

（2）、本发明的文本融合将多个待融合文本采用随机组合排序的方式生成多个融合文本，在增加文本描述多样性的同时，保证融合后文本描述的差异性。

综上所述，本发明具有不破坏视语多模态数据语义关系、数据多样性强、方法简单易用等优点。

附图说明

图1是本发明的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

见图1，一种基于目标权重的多模态数据增强方法，具体包括有以下步骤：

（1）、随机获取对待融合图文对和与每对图文对对应的目标标注文件；图文对记为/>，其中/>；/>为图文对中的每张待融合图像，/>为图文对中的每个待融合文本；目标标注文件的格式为txt、xml或json等，目标标注文件包括有对应图像中所有目标的位置信息，具体包括有目标边界的形状（如矩形框、多边形等）、目标边界像素点的坐标信息（如左上角坐标、右下角坐标、中心点坐标、多边形框多点坐标）、目标的尺寸信息（长宽）和倾斜角度信息等；

（2）、将多对待融合图文对中的图像尺寸采用最近邻插值法、双线性插值法或双三次插值法缩放到统一尺寸，然后根据每张缩放后的图像对对应目标标注文件中各目标的位置信息进行同步调整；经缩放后的图像尺寸为，其中，/>代表图像宽度（横轴方向），代表图像的高度（纵轴方向）；

（3）、遍历每张图像中的目标，每个目标生成一个对应的距离加权权重矩阵；具体见下式（1）和式（2）：

（1），

（2）；

式（1）和式（2）中，代表目标/>在图像中覆盖的区域；/>代表图像/>中第i行第j列的像素；/>为超参数，取值为不小于1的浮点数；/>为不小于1的正整数，距离目标越近的像素点，其/>取值越小；/>的取值方法为：以目标的边界开始顺次向外膨胀，将与边界处像素点紧邻的目标区域外像素点记为/>，像素点/>对应的/>为1，与像素点/>紧邻的目标区域外像素点记为/>，像素点/>对应的/>为2，依次类推，与/>紧邻的目标区域外像素点记为/>，像素点/>对应的/>为/>；

然后根据每张图像中每个目标的距离加权权重矩阵对多张待融合图像进行权重矩阵的归一化，得到多张待融合图像归一化后的权重矩阵，权重矩阵归一化的公式见下式（3）：

（3）；

式（3）中，为多张待融合图像归一化后的权重矩阵，/>为每张图像中目标的个数，/>为待融合图像的图像个数；

最后根据归一化后的权重矩阵进行图像融合，形成融合图像；其中，图像融合的计算公式见下式（4）：

（4）；

式（4）中，为融合后的融合图像，/>为每张待融合图像；

（4）、将个待融合文本/> (/>)均作为第一段表述，然后针对每个第一段表述，除了第一段表述外的其它/>个待融合文本作为后/>段表述并随机排列于第一段表述后面，相邻段表述之间采用句号分隔开，从而组成一个融合文本，即针对/>个第一段表述，最后形成了/>个融合文本，最后将每个融合文本均与融合图像进行组合，从而形成/>对融合图文对，即完成多模态数据增强。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于目标权重的多模态数据增强方法，其特征在于：具体包括有以下步骤：

每个目标生成一个对应的距离加权权重矩阵；具体见下式（1）和式（2）：

（1），

（2）；

式（1）和式（2）中，为图像的尺寸；/>代表目标/>在图像中覆盖的区域；代表图像/>中第i行第j列的像素；/>为超参数，取值为不小于1的浮点数；/>为不小于1的正整数，距离目标越近的像素点，其/>取值越小；

的取值方法为：以目标的边界开始顺次向外膨胀，将与边界处像素点紧邻的目标区域外像素点记为/>，像素点/>对应的/>为1，与像素点/>紧邻的目标区域外像素点记为/>，像素点/>对应的/>为2，依次类推，与/>紧邻的目标区域外像素点记为/>，像素点/>对应的/>为/>；

根据每张图像中每个目标的距离加权权重矩阵对多张待融合图像进行权重矩阵的归一化，得到多张待融合图像归一化后的权重矩阵，权重矩阵归一化的公式见下式（3）：

（3）；

根据归一化后的权重矩阵进行图像融合，计算公式见下式（4）：

（4）；

式（4）中，为融合后的融合图像，/>为每张待融合图像；

2.根据权利要求1所述的一种基于目标权重的多模态数据增强方法，其特征在于：所述的目标标注文件包括有对应图像中所有目标的位置信息，具体包括有目标边界的形状、目标边界像素点的坐标信息、目标的尺寸信息和倾斜角度信息。

3.根据权利要求1所述的一种基于目标权重的多模态数据增强方法，其特征在于：所述的图像尺寸的缩放方法选用最近邻插值法、双线性插值法或双三次插值法。

4.根据权利要求1所述的一种基于目标权重的多模态数据增强方法，其特征在于：所述的将多对待融合图文对中的文本进行多种组合排序，得到多个融合文本的具体方式为：将多个待融合文本均作为第一段表述，然后针对每个第一段表述，除了第一段表述外的其它待融合文本作为后几段表述并随机排列于第一段表述后面，相邻段表述之间采用分隔符号分隔开，从而组成一个融合文本，即针对多个第一段表述，最后形成了多个融合文本。