CN116049367A

CN116049367A - 一种基于无监督知识增强的视觉-语言预训练方法及装置

Info

Publication number: CN116049367A
Application number: CN202310043498.9A
Authority: CN
Inventors: 苏海波; 苏萌; 刘译璟; 赵群; 杜晓梦
Original assignee: Beijing Percent Technology Group Co ltd
Current assignee: Beijing Percent Technology Group Co ltd
Priority date: 2023-01-29
Filing date: 2023-01-29
Publication date: 2023-05-02

Abstract

本发明涉及多模态机器学习领域，提供了一种基于无监督知识增强的视觉‑语言预训练方法及装置。目的在于在于克服上述问题，使得视觉‑语言预训练模型适用于通用领域，且不需要进行编码、挑选和融入，模型简单有效，训练时间大幅度缩短。主要方案包括对互联网现有的大量图片和文本进行收集，得到大量无标注的包含图片和文本的多模态数据；对得到的大规模多模态数据集进行无监督训练，得到知识标注模块；将得到的知识标注模块与原有的视觉‑语言预训练模型进行联合训练，得到最终完整的视觉‑语言预训练模块；使用视觉常识推理任务提高的测试集对得到的视觉‑语言模块进行测试，得到最终的预训练模型。

Description

一种基于无监督知识增强的视觉-语言预训练方法及装置

技术领域

本发明涉及多模态机器学习领域，提供了一种基于无监督知识增强的视觉-语言预训练方法及装置。

背景技术

百度的ERNIE-ViL是现有的知识增强的多模态预训练模型。其实施步骤可被概括如下:

(1)百度的ERNIE-ViL预训练任务可以被简单概括为:视觉问答。简单来说，视觉问答可以看成是看图问答。输入给模型的是图片和有关该图片的一些问题，模型被要求给出问题的答案。由于输入是图片（视觉模态），输出是问题（文本模态），所以该任务是典型的多模态预训练任务。

(2)目前主流的公开的视觉-语言预训练数据集，如：COCO。COCO 是一个大型、丰富的物体检测、分割和描述数据集。数据集以场景理解为目标,主要从复杂的日常场景中截取,图像中的目标通过精确的分割进行位置标定,含 91 个常见对象类别,其中 82 类有超过 5 000 个标签实例,共含 32. 8 万幅图像和 250 万个标签实例。

(3)视觉-语言预训练技术的目标是让人工智能学习视觉-语言模态之间的语义对齐，通俗来说，就是让人工智能更准确地描述出场景中的内容。为了实现该目标，百度标注了（物体、属性、关系）的大规模知识数据集。由于百度预训练任务希望找出物体之间的（属性、关系），而事物之间的关系和属性纷繁复杂，因此新标注的数据集样本数量需大于COCO数据集样本数量，即：样本数量至少需要是百万级别，需要耗费大量标注人力与金钱成本。

(4)在标注的（物体、属性、关系）的大规模知识数据集的基础上，百度的ERNIE-Vil需要将结构化的知识数据集中的知识转化成模型能够理解的知识向量。

(5)由于知识数据集非常庞大，所以一个样本对应的知识可能不止一个。因此，在将知识转换为知识向量后，需要从中挑选一个最适合该样本的知识向量。

(6)其次，模型送入最后挑选的知识向量，进行训练。由于训练前需要进行知识向量编码、知识向量挑选、知识向量融入三大步，再加上知识数据集规模非常大，所以训练需要花费较长的时间和计算资源。

(7)最后，将训练得到的模型进行测试，挑选出有着最好测试结果的关键点模型，作为预训练最后输出的模型。

目前现有技术存在的缺陷如下：

(1)百度视觉问答的领域与标注的大规模知识数据集的领域密切相关，可能不能进行通用场景的视觉问答；

(2)大规模知识数据集的标注成本较高，需要花费大量人力与物力。

(3)由于知识数据集规模较大，所以模型训练需要花费很多时间（需要进行知识向量生成、知识向量挑选、知识向量融入）。

发明内容

本发明的目的在于在于克服上述问题，使得视觉-语言预训练模型适用于通用领域，且不需要进行编码、挑选和融入，模型简单有效，训练时间大幅度缩短。

为了实现上述目的本发明采用以下技术手段：

一种基于无监督知识增强的视觉-语言预训练方法，无需标注且模型适配通用领域,包括以下步骤：

步骤1：对互联网现有的大量图片和文本进行收集，得到大量无标注的包含图片和文本的多模态数据；

步骤2 对步骤1得到的大规模多模态数据集进行无监督训练，得到知识标注模块；

步骤3：将步骤2得到的知识标注模块与原有的视觉-语言预训练模型进行联合训练，得到最终完整的视觉-语言预训练模块；

步骤4：使用视觉常识推理任务提高的测试集对步骤3得到的视觉-语言模块进行测试，得到最终的预训练模型。

上述技术方案中，其特征在于无需标注且适配通用领域。步骤1具体包括以下步骤：

步骤1.1：对视觉-语言预训练进行数据评估，得到完成预训练需要的数据量大小；

步骤1.2 对互联网进行图片、文本以及带文本的图片的三类数据进行统计，得到收录上述三种数据最多的若干个网站；

步骤1.3 对步骤1.2网站中的数据进行爬取，得到爬取后的数据；

步骤1.4 对爬取后的数据进行数据总量统计并与步骤1.1预估的数据量进行对比，得到一个决定：

若爬取得到的数据量大于预估数据量，则完成步骤1；若爬取得到的数据量小于预估数据量，则重复1.2-1.4，直至满足预估数据量。

上述技术方案中，其特征在于无需标注且适配通用领域。步骤2具体包括以下步骤：

步骤2.1：对步骤1得到的数据进行分类，得到纯图片、纯文本、带文本的图片的样本比例；

步骤2.2 由步骤1可知，训练数据包含各个领域，是通用领域的数据，模型训练后能得到一个适配多个领域的多模态预训练模型；

步骤2.3 对步骤2.2得到的多模态预训练模型首先进行目标检测预训练，即模型训练的目标是为了用方框分隔出图片中各个物体；

步骤2.4 由于训练数据中包含带文字的图片，在2.3的基础上，进行跨模态的训练，例如：模型输入图片，输出其对应的名称，最终将2.3，2.4训练得到的模块命名为——知识标注模块。

上述技术方案中，步骤3 具体包括以下步骤：

步骤3.1：从步骤1中挑选出一些不作为训练集的图片，送入步骤2得到的知识标注模块，检查知识标注模块是否能分隔出图片中的物体以及标注物体之间的关系；

步骤3.2：对视觉常识推理任务进行建模，得到多模态预训练模型；

步骤3.3：对步骤3.2得到的预训练模型与知识标注模块进行联合学习训练（模型训练的损失函数值等于两个模块各自的损失函数值的权重和），直至得到最终完整的多模态预训练模型。

步骤3.4：输入图片，得到知识标注模块的输出，即：图片中各个分隔物体的名称（一个或多个语言词汇），和预训练模型的输出，即：关于输入图片的初始回答。

步骤3.5：将知识标注模块输出的词输入到预训练模型中，对解码概率进行调整。由于在解码时，预训练模型会先计算词表中所有词被输出的概率，所以输入的词通过放大k倍原先解码概率的方法来提高这些词被预训练模块输出的概率。

步骤3.6：基于步骤3.5调整后各个词输出的概率，对步骤3.4中得到的初始回答进行再生成，得到改良后的回答。

上述技术方案中，步骤4 具体包括以下步骤：

步骤4.1：对华盛顿大学和艾伦人工智能研究所的研究者联合创建了一个数据集进行获取，得到该数据集；

步骤4.2 对步骤3得到的预训练模型在步骤4.1得到的测试集上进行测试，反复迭代，直至得到拥有最好测试结果的预训练模型。

本发明还提供了一种基于无监督知识增强的视觉-语言预训练装置，包括以下模块：

数据获取模块：对互联网现有的大量图片和文本进行收集，得到大量无标注的包含图片和文本的多模态数据；

知识标注模块：对数据获取模块得到的大规模多模态数据集进行无监督训练，得到知识标注模块；

联合训练模块：将得到的知识标注模块与原有的视觉-语言预训练模型进行联合训练，得到最终完整的视觉-语言预训练模块；

测试模块：使用视觉常识推理任务提高的测试集对得到的视觉-语言模块进行测试，得到最终的预训练模型。

上述装置中，数据获取模块具体包括以下步骤：

步骤1.2 ：对互联网进行图片、文本以及带文本的图片的三类数据进行统计，得到收录上述三种数据最多的若干个网站；

步骤1.3 ：对步骤1.2网站中的数据进行爬取，得到爬取后的数据；

步骤1.4 ：对爬取后的数据进行数据总量统计并与步骤1.1预估的数据量进行对比，得到一个决定：

上述装置中，知识标注模块具体包括以下步骤：

步骤2.1：对得到的数据进行分类，得到纯图片、纯文本、带文本的图片的样本比例；

步骤2.2 ：训练数据包含各个领域，是通用领域的数据，模型训练后能得到一个适配多个领域的多模态预训练模型；

步骤2.3 ：对步骤2.2得到的多模态预训练模型首先进行目标检测预训练，使其用方框分隔出图片中的各个物体；

步骤2.4 由于训练数据中包含带文字的图片，在2.3的基础上，进行跨模态的训练，得到能够对步骤2.3中可分隔出的各个物体进行名称标识的知识标注模块。

上述装置中，联合训练模块具体包括以下步骤：

步骤3.1：挑选出一些不作为训练集的图片，送入步骤2得到的知识标注模块，检查知识标注模块是否能正确识别物体以及输出物体的名称；

步骤3.2：对视觉常识推理任务进行建模，得到预训练模型；

步骤3.3：对步骤3.2得到的预训练模型与知识标注模块进行联合学习训练，得到最后的基于知识增强的视觉-语言预训练模型；

步骤3.4：输入图片，得到知识标注模块的输出，即：图片中各个分隔物体的名称，和预训练模型的输出，即：关于输入图片的初始回答；

步骤3.5：将知识标注模块输出的词输入到预训练模型中，对解码概率进行调整，由于在解码时，预训练模型会先计算词表中所有词被输出的概率，所以输入的词通过放大k倍原先解码概率的方法来提高这些词被预训练模块输出的概率；

上述装置中，测试模块具体包括以下步骤：

因为本发明采用上述技术方案，因此具备以下有益效果：

(1)由于本方案提出的预训练使用的数据集来自于互联网，包含各个领域，所以该预训练模型具备解决通用领域的视觉问答的能力。

(2)本方案采用无监督训练的方式，不需要进行人工标注，节省了大量人力、物力和财力。

(3)本方案步骤2得到了知识标注模块，得到了知识的隐式表示，不需要进行知识编码、知识挑选和知识融入，模型简单有效，训练时间大幅度缩短。

附图说明

图1为本发明预训练流程图；

图2为百度ERNIE-ViL预训练流程图。

具体实施方式

以下将对本发明的实施例给出详细的说明。尽管本发明将结合一些具体实施方式进行阐述和说明，但需要注意的是本发明并不仅仅只局限于这些实施方式。相反，对本发明进行的修改或者等同替换，均应涵盖在本发明的权利要求范围当中。

另外，为了更好的说明本发明，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员将理解，没有这些具体细节，本发明同样可以实施。

本发明提供了一种基于无监督知识增强的视觉-语言预训练方法，包括以下步骤：

步骤4：使用公共测试集对步骤3得到的模型进行测试，得到最终的模型。

上述技术方案中，步骤1具体包括以下步骤：

上述技术方案中，步骤2具体包括以下步骤：

步骤2.4 在步骤2.3的基础上，通过分隔出的物体是否重叠，确定物体间是否存在关系，最终将2.3，2.4训练得到的模块命名为——知识标注模块。

上述技术方案中，步骤3 具体包括以下步骤：

步骤3.1：从步骤1中挑选出一些不作为训练集的图片，送入步骤2得到的知识标注模块，检查知识标注模块是否能正确识别物体以及输出物体的名称；

步骤3.2：对视觉常识推理任务进行建模，得到预训练模型；

步骤3.3：对步骤3.2得到的预训练模型与知识标注模块进行联合学习训练，得到最后的基于知识增强的视觉-语言预训练模型。

步骤3.5：将知识标注模块输出的词输入到预训练模型中，对解码概率进行调整，由于在解码时，预训练模型会先计算词表中所有词被输出的概率，所以输入的词通过放大k倍原先解码概率的方法来提高这些词被预训练模块输出的概率。

上述技术方案中，步骤4 具体包括以下步骤：

上述装置中，数据获取模块具体包括以下步骤：

上述装置中，知识标注模块具体包括以下步骤：

上述装置中，联合训练模块具体包括以下步骤：

步骤3.2：对视觉常识推理任务进行建模，得到预训练模型；

上述装置中，测试模块具体包括以下步骤：

Claims

1.一种基于无监督知识增强的视觉-语言预训练方法，其特征在于,包括以下步骤：

步骤2 ：对步骤1得到的大规模多模态数据集进行无监督训练，得到知识标注模块；

2.根据权利要求1所述的一种基于无监督知识增强的视觉-语言预训练方法，其特征在于：步骤1具体包括以下步骤：

3.根据权利要求1所述的一种基于无监督知识增强的视觉-语言预训练方法，其特征在于：步骤2具体包括以下步骤：

4.根据权利要求1所述的一种基于无监督知识增强的视觉-语言预训练方法，其特征在于：步骤3 具体包括以下步骤：

步骤3.2：对视觉常识推理任务进行建模，得到预训练模型；

5.根据权利要求1所述的一种基于无监督知识增强的视觉-语言预训练方法，其特征在于：步骤4 具体包括以下步骤：

6.一种基于无监督知识增强的视觉-语言预训练装置，其特征在于,包括以下模块：

7.根据权利要求6所述的一种基于无监督知识增强的视觉-语言预训练装置，其特征在于：数据获取模块具体包括以下步骤：

8.根据权利要求6所述的一种基于无监督知识增强的视觉-语言预训练装置，其特征在于：知识标注模块具体包括以下步骤：

9.根据权利要求6所述的一种基于无监督知识增强的视觉-语言预训练装置，其特征在于：联合训练模块具体包括以下步骤：

步骤3.2：对视觉常识推理任务进行建模，得到预训练模型；

10.根据权利要求6所述的一种基于无监督知识增强的视觉-语言预训练装置，其特征在于：测试模块具体包括以下步骤：