CN115601553B

CN115601553B - 一种基于多层级图片描述数据的视觉模型预训练方法

Info

Publication number: CN115601553B
Application number: CN202211278249.XA
Authority: CN
Inventors: 赵天成; 陆骁鹏; 蒋轲磊; 刘全; 张璐; 刘鹏
Original assignee: Honglong Technology Hangzhou Co ltd; Hangzhou Linker Technology Co ltd
Current assignee: Honglong Technology Hangzhou Co ltd; Hangzhou Linker Technology Co ltd
Priority date: 2022-08-15
Filing date: 2022-10-19
Publication date: 2023-08-18
Anticipated expiration: 2042-10-19
Also published as: CN115601553A

Abstract

本发明公开了一种基于多层级图片描述数据的视觉模型预训练算法。该方法的过程为：首先通过图片级别文字描述数据进行图级的视觉语言预训练，然后再在第一步的基础上，利用区域级别文字描述数据进行第二阶段预训练。最后上述两步反向传播训练后，获得的视觉模块可以直接被应用到各类视觉识别任务当中，并且可以抽取图片任意区域语义特征的特征抽取模型。本方面能够对各种机器视觉任务提供基础特征平台，例如图片分类，目标检测、语义分割等，提高这些任务的识别精准度。

Description

一种基于多层级图片描述数据的视觉模型预训练方法

技术领域

本发明涉及图片识别和机器学习领域，尤其是涉及多模态大规模预训练的方法，主要应用于适用于图片分类，目标检测等图像识别领域，可显著提高图像识别的准确率和小样本学习效率。

背景技术

视觉模型预训练是提高图像识别准确率的一种常见手段，传统视觉模型预训练基于大规模图片分类数据集（例如ImageNet），但是基于图片分类的预训练方法具有如下局限性:（1）图片分类数据只关注全图信息，而不会关注到区域信息；（2）最大的图片分类数据集只关于物体类型，并且物体类型数量有限（比如1000），无法让视觉模型在预训练阶段学到更加细致的语义信息，例如物体的颜色、关系、动作等。

发明内容

本发明主要是解决现有技术所存在的关注面有限、难以获取更为细致的语义信息等的技术问题，提供一种可显著提高图像识别的准确率和小样本学习效率的基于多层级图片描述数据的视觉模型预训练方法。

本发明针对上述技术问题主要是通过下述技术方案得以解决的：一种基于多层级图片描述数据的视觉模型预训练方法，所述视觉模型包括视觉编码器V、文本编码器L和池化模块P，所述预训练方法包括至少一轮图片级别预训练和至少一轮区域级别预训练，所述图片级别预训练为：

S101、随机从图片描述数据库中选择一批图片以及和图片配对的文字描述，被选择的图片数量为B；

S102、利用视觉编码器V对所选图片进行编码，得到{v_i_1,v_i_2,...,v_i_B}，v_i_1为第1张图片的编码输出，v_i_2为第2张图片的编码输出，以此类推；

S103、利用池化模块P对{v_i_1,v_i_2,...,v_i_B}进行特征抽取，抽取的区域范围为全图坐标（0,0:W,H)，W和H分别是图片的宽度和高度,得到{f_i_1,f_i_2,...,f_i_B}，f_i_1是第1张图片抽取到的特征，f_i_2是第2张图片抽取到的特征，以此类推；

S104、利用文本编码器L对所有和图片配对的文字描述进行编码，得到{f_t_1,f_t_2,...,f_t_B}，f_t_1为第1张图片的文字描述的编码输出，f_t_2为第2张图片的文字描述的编码输出，以此类推；

S105、利用以下公式计算损失函数，最大化匹配文字和图片的特征的概率：

最终的损失函数为（L₁+L₂）/2，α为预设参数，优选值为0.07；

图片级别预训练在迭代数量到最大目标数量时结束，最大目标数量可以自行设置，一般可选100万次迭代。

作为优选，所述区域级别预训练为：

S201、随机从图片描述数据库中选择一批图片以及和所选图片配对的文字描述，批次大小为B’；

S202、利用视觉编码器V对所选批次中的图片进行编码，得到{v’_i_1,v’_i_2,...,v’_i_B’}，v’_i_1为第1张图片的编码输出，v’_i_2为第2张图片的编码输出，以此类推；

S203、对每个图片区域的坐标信息添加噪音，进行数据增强；

S204、利用池化模块P对{v’_i_1,v’_i_2,...,v’_i_B’}进行特征抽取，抽取的区域范围为每张图片的每个区域坐标，得到{f’_i_1,f’_i_2,...,f’_i_Z}，Z为B’张图片的区域总数；例如一共10张图片，每张图均为5个区域（每张图片的区域数量不一定相同），此时Z为10*5=50。

S205、利用文本编码器对配对文字进行编码，得到{f’_t_1,f’_t_2,...，f’_t_Z}；

S206、利用以下公式计算损失函数，最大化匹配文字和图片的特征的概率：

最终的损失函数为（L’₁+L’₂）/2，α’为预设参数，α’的优选值为0.07；

区域级别预训练在迭代数量到最大目标数量时结束，区域级别预训练的迭代次数也为预设值，优选为100万次。

作为优选，所述步骤S203具体为：

随机从-5%到5%选择噪音大小，然后对区域矩型坐标的长度和宽度按照所选的噪音进行变形，保持区域矩型的中心坐标点不变。

作为优选，所述图片级别预训练和区域级别预训练穿插进行。例如图片级别训练迭代一共100万次，区域级别训练迭代100万次，这两个100万次在进行中是穿插进行，随机进行若干次图片级别训练迭代，再随机进行若干次区域级别训练迭代，再随机进行若干次图片级别训练迭代，再随机进行若干次区域级别训练迭代，不断重复，直至两种训练的迭代次数均达到目标值。

作为优选，所述视觉编码器V为先通过CNN卷积神经网络主干或视觉Transformer主干在每个输出层生成较低分辨率的视觉特征图f_i∈R^C×H×W，然后利用特征金字塔网络从上到下聚合信息，输出一组视觉特征图{P2,P3,P4,P5}；

所述文本编码器L对输入的句子t进行编码，并输出一组包含上下文信息的词嵌入向量，即{t1,t2,...,tk}=f_t(w1,w2,...,wk)∈R^K×d，其中d是上下文词嵌入维度大小；

所述池化模块P采用区域特征池化机制完成特征抽取。

作为优选，所述池化模块P采用ROIAlign池化方式。

作为优选，所述图片描述数据库中用于图片级别预训练的每个图片都至少配有1句文字描述；用于区域级别预训练的每个图片都包含若干个区域，每个区域至少配有1句文字描述。

训练后，获得的视觉模块可以直接被应用到各类视觉识别任务当中，并且可以抽取图片任意区域语义特征的特征抽取模型。本方案能够对各种机器视觉任务提供基础特征平台，例如图片分类，目标检测、语义分割等，提高这些任务的识别精准度。

附图说明

图1是本发明的一种图片级别预训练方法流程图；

图2是本发明的一种区域级别预训练方法流程图。

具体实施方式

下面通过实施例，并结合附图，对本发明的技术方案作进一步具体的说明。

实施例：

1. 数据描述：

a)图片文字描述数据：

i.每个图片至少配有1句的文字描述；

ii. 定义每个图片为i，配对的文字描述为t；

b)区域文字描述数据：

i.每个图片会有N个区域信息（方框坐标x,y,w,h）；

ii. 每个区域至少配有1个文字描述；

iii. 定义图片i的区域为i_1,...i_N；

iv. 定义对应的文字描述为rt_1,...,rt_N；

2. 模型定义：

a)视觉编码模块：从初始图像i∈R^3×H0×W0（具有3个颜色通道）开始，让视觉编码器V成为传统的CNN卷积神经网络主干（例如ResNet50）或视觉Transformer主干（例如SwinTransformer）生成较低分辨率的视觉特征图f_i∈R^C×H×W在每个输出层。然后利用特征金字塔网络（FPN）从上到下聚合信息，输出一组视觉特征图{P2,P3,P4,P5}。

b)文本编码器（文字编码模块）：t∈R^K×V是一个由K个单词组成自然语言描述。然后让文本编码器L是一个Transformer模型，它对于输入的句子t进行编码，并输出一组包含上下文信息的词嵌入向量，即{t1,t2,...,tk}=f_t(w1,w2,...,wk)∈R^K×d，其中d是上下文词嵌入维度大小。注意，优选采用已经完成预训练的文本编码器，比如BERT，Roberta等。

c)区域特征池化模块：P可以采用任意区域特征池化机制，例如优选ROIAlign，具体步骤如下：

i.假如原图800x800，视觉特征图为25x25xH，H为特征大小；

ii. 假设输入候选框bbox大小为665x665，那么在特征图的大小为665/32=20.78；

iii. 假设pooled_w=7,pooled_h=7,即pooler输出7x7的池化后特征图，所以将特征图20.79x20.78分割为49个同等大小的区域，每个区域大小为20.78/7=2.97；

iv. 假设采样点为4，即每个2.97x2.97的区域里平分4份，每一份取中心点位置，采用双线性插值法计算，会得到4个像素点，最后取4个像素值最大值作为这个小区域的像素值，如此类推，得到49个像素值，成为7x7的特征图；

v. ROIAlign出处如下：He, Kaiming, et al. "Mask r-cnn." Proceedings ofthe IEEE international conference on computer vision. 2017. APA

3. 图片级别预训练：

a)如图1所示，训练步骤如下：

i.随机从图片描述数据库中随机选择一批图片和他们配对的文字描述，批次大小B一般为100～10000之间。

ii. 利用V对于所有批次中的图片进行编码，得到{v_i_1,...,v_i_B}。

iii. 利用池化模块P对于{v_i_1,...,v_i_B}进行特征抽取,抽取的区域范围为全图坐标（0,0,W,H)，W和H是图片大小,得到{f_i_1,...,f_i_B}；

iv. 利用文本编码器L对于所有配对文字t进行编码，得到{f_t_1,...,f_t_B}。

v.利用如下函数计算损失函数，最大化匹配文字和图片特征的概率：

1.

2.

3.最终优化的损失函数为（L₁+L₂）/2，α一般为0.07；

4.训练迭代数量到最大目标数量结束，比如为100万次迭代。

4. 区域级别预训练：

a)如图2所示，训练步骤如下：

i.随机从图片描述数据库中随机选择一批图片和他们配对的文字描述，批次大小B一般为32～1000之间。

ii. 利用V对于所有批次中的图片进行编码，得到{v’_i_1,...,v’_i_B}。

iii. 对于每个图片区域的坐标信息添加噪音，进行数据增强。具体方法是随机从-5%到5%选择噪音大小，然后对区域矩型坐标的长宽进行变形，保持区域矩型的中心坐标点不变。

iv. 利用池化模块P对于{v’_i_1,...,v’_i_B}进行特征抽取，抽取的区域范围为每个图片配对区域坐标，假设B个图片一共有Z个区域，得到{f’_i_1,...,f’_i_Z}

v.利用文本编码器L对于所有配对文字t进行编码，得到{f’_t_1,...,f’_t_Z}。

vi. 利用如下函数计算损失函数，最大化匹配文字和图片特征的概率：

1.

2.

3. 最终优化的损失函数为（L’₁+L’₂）/2，α’一般为0.07

4.训练迭代数量到最大目标数量结束，比如为100万次迭代。

注意！图片训练迭代可以和区域训练进行穿插，不一定为串联关系。

5. 模型应用：

a)根据如上两个步骤之后，我们获得了V，P和L三个模块。V，P模块是众多视觉应用模型的核心组成部分，例如：Faster-RCNN，Mask-RCNN等著名目标检测、实例分割模型，在V和P的基础上添加额外检测模块即可使用。具体流程如下：

b)选择任务类型，例如目标检测。

c)根据任务类型，在V和P的基础上添加额外模块，比如Faster-RCNN需要额外的RPN模块。

d)准备应用具体的训练数据，比如目标检测训练数据。

e)让模型载入预训练好的V和P参数，作为参数初始化。

对模型进行训练，得到具体应用模型。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

尽管本文较多地使用了视觉编码器、文本编码器等术语，但并不排除使用其它术语的可能性。使用这些术语仅仅是为了更方便地描述和解释本发明的本质；把它们解释成任何一种附加的限制都是与本发明精神相违背的。

Claims

1.一种基于多层级图片描述数据的视觉模型预训练方法，其特征在于，所述视觉模型包括视觉编码器V、文本编码器L和池化模块P，所述预训练方法包括至少一轮图片级别预训练和至少一轮区域级别预训练，所述图片级别预训练为：

最终的损失函数为(L₁+L₂)/2，α为预设参数；

图片级别预训练在迭代数量到最大目标数量时结束。

2.根据权利要求1所述的一种基于多层级图片描述数据的视觉模型预训练方法，其特征在于，所述区域级别预训练为：

S202、利用视觉编码器V对所选批次中的图片进行编码，得到{v’_i_1,v’_i_2,...，v’_i_B’}，v’_i_1为第1张图片的编码输出，v’_i_2为第2张图片的编码输出，以此类推；

S203、对每张图片的每个图片区域的坐标信息添加噪音，进行数据增强；

S204、利用池化模块P对{v’_i_1,v’_i_2,...,v’_i_B’}进行特征抽取，抽取的区域范围为每张图片的每个区域坐标，得到{f’_i_1,f’_i_2,...,f’_i_Z}，Z为B’张图片的区域总数；

S205、利用文本编码器对配对文字进行编码，得到{f’_t_1,f’_t_2,...,f’_t_Z}；

最终的损失函数为(L’₁+L’₂)/2，α’为预设参数；

区域级别预训练在迭代数量到最大目标数量时结束。

3.根据权利要求2所述的一种基于多层级图片描述数据的视觉模型预训练方法，其特征在于，所述步骤S203具体为：

随机从-5%到5%选择噪音大小，然后对区域矩型坐标的长宽进行变形，保持区域矩型的中心坐标点不变。

4.根据权利要求1或2所述的一种基于多层级图片描述数据的视觉模型预训练方法，其特征在于，所述图片级别预训练和区域级别预训练穿插进行。

5.根据权利要求1所述的一种基于多层级图片描述数据的视觉模型预训练方法，其特征在于，所述视觉编码器V为先通过CNN卷积神经网络主干或视觉Transformer主干在每个输出层生成较低分辨率的视觉特征图f_i∈R^C×H×W，然后利用特征金字塔网络从上到下聚合信息，输出一组视觉特征图{P2,P3,P4,P5}；

所述文本编码器L对输入的句子t进行编码，并输出一组包含上下文信息的词嵌入向量，即{t1,t2,...,tk}=f_t(w1,w2,...,wk)∈R^K×d，其中d是上下文词嵌入维度大小；K是组成自然语言描述的单词个数；

所述池化模块P采用区域特征池化机制完成特征抽取。

6.根据权利要求5所述的一种基于多层级图片描述数据的视觉模型预训练方法，其特征在于，所述池化模块P采用ROIAlign池化方式。

7.根据权利要求1或2所述的一种基于多层级图片描述数据的视觉模型预训练方法，其特征在于，所述图片描述数据库中用于图片级别预训练的每个图片都至少配有1句文字描述；用于区域级别预训练的每个图片都包含若干个区域，每个区域至少配有1句文字描述。