CN114418032A

CN114418032A - 一种基于自协调对比学习的五模态商品预训练方法及检索系统

Info

Publication number: CN114418032A
Application number: CN202210164795.4A
Authority: CN
Inventors: 董晓; 詹巽霖; 吴洋鑫; 梁小丹
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2022-02-22
Filing date: 2022-02-22
Publication date: 2022-04-29

Abstract

本发明公开了一种基于自协调对比学习的五模态商品预训练方法及检索系统，其中方法如下：S1：根据不同模态数据构建相应的模态特征编码提取器；S2：结合模态特征编码提取器提取的各个模态数据的特征编码、位置编码和分段编码，学习不同模态数据的嵌入表示；S3：构建自协调对比学习的多模态预训练模型；S4：将带有遮挡部分特征的不同模态数据利用模态特征编码提取器，学习得到嵌入表示输入到步骤S3的多模态预训练模型进行自监督训练，将各个模态数据进行高层语义融合，并使用自协调对比学习方法不断纠正模态间的关联性，在学习过程中恢复出所对应位置的特征。本发明实现具有高泛化性、高可用性，高准确性的组合商品检索系统。

Description

一种基于自协调对比学习的五模态商品预训练方法及检索系统

技术领域

本发明涉及大规模商品技术领域，更具体的，涉及一种基于自协调对比学习的五模态商品预训练方法及检索系统。

背景技术

互联网技术的发展使得在线购物平台迅速扩展，由于其便捷性在线购物平台得到越来越多人的青睐。在在线购物平台中，商品种类的丰富度和用户的购物需求随着时间的推移逐步增加。鉴于线上商品具有多样性，更多的商品以多种模态的形式所展示，即一种模块可以通过商品展示图、商品描述、商品参数、及商品直播进行相关属性的描述。因此如何使用这些更多模态信息的数据，使其服务于大规模商品检索成为了一个主要的研究问题。并且在数据大规模情形下及缺乏标签标注的真实场景下，如何进行大规模商品检索是一个具有实用价值但尚未解决的问题。

大规模多模态商品检索在电商领域具有较高的实用价值和应用前景。第一，有利于提高商品搜索精度，帮助线上用户搜索更加准确和具体的商品；第二，可用于构建电商知识图谱，挖掘商品关系；第三，通过多模态融合检索获取到的匹配商品可用于商品推荐，提升购物平台推荐效果。

但是在商品检索领域，现有方法都是对单一模态的数据进行训练并提取其特征，如一个文本或者图片，然后在根据检索库中以存储数据的特征进行匹配搜索。然而在电商领域，图片、文本、表格、视频及音频等模态数据广泛存在于每一个商品样本中，由于缺乏对多个模态数据的充分利用，当前这种检索方式大大限制了检索效果的有效提升。更重要的是，现有的模型重点关注相对简单的情况，即图片级别的检索，图片级别的检索无法判断这些商品所具有的属性特征，而更多模态的数据可以提供除图像纹理描述以外的商品信息，如商品的颜色、产地、材质等。单模态数据检索的方式在大规模真实场景数据集时缺乏泛化性。

发明内容

本发明为了解决以上现有技术的商品检索主要依靠单模态数据以及图片级别检索导致的低准确性的问题，提供了一种基于自协调对比学习的五模态商品预训练方法及检索系统，实现具有高泛化性、高可用性，高准确性的组合商品检索系统。

为实现上述本发明目的，采用的技术方案如下：

一种基于自协调对比学习的五模态商品预训练方法，所述的方法包括步骤如下：

S1：根据不同模态数据构建相应的模态特征编码提取器；

S2：结合模态特征编码提取器提取的各个模态数据的特征编码、位置编码和分段编码，学习不同模态数据的嵌入表示；

S3：构建自协调对比学习的多模态预训练模型；

S4：将带有遮挡部分特征的不同模态数据利用模态特征编码提取器，学习得到嵌入表示输入到步骤S3的多模态预训练模型进行自监督训练，将各个模态数据进行高层语义融合，并使用自协调对比学习方法不断纠正模态间的关联性，在学习过程中恢复出所对应位置的特征。

优选地，所述的模态数据包括图像、文本、表格、视频、音频五种模态数据；

使用bottom-up-attention网络作为模态特征编码提取器获得图像的边界框及其坐标位置的特征；

使用word-piece作为模态特征编码提取器获得文本的不同token间的关系特征；

使用实体word-piece作为模态特征编码提取器获得表格模态数据的编码表示，具体将每一行数据拼接在一起后，获取不同token间的关系特征；

使用S3D网络作为模态特征编码提取器获得视频中具有时空特性的视频表示；

使用MFCC作为模态特征编码提取器获得音频模态数据的编码表示。

进一步地，步骤S2，具体学习不同模态数据的嵌入表示如下：

对于bottom-up-attention网络输出的边界框及边界框特征，使用5维向量计算每个边界框的位置信息包括边界框的左上角坐标、右下角坐标及边界框占整个图像的大小比例，将这5维向量传入线性全连接层得到位置编码；使用0作为分段信息传入线性全连接层得到分段编码；将边界框特征传入线性全连接层得到边界框特征的编码；将位置编码、分段编码及特征编码相加，得到图像模态的嵌入表示；

对于文本序列，使用递增的自然数序列表示它们的位置信息，传入线性全连接层得到位置编码；使用1作为分段信息传入线性全连接层得到分段编码；将文本传入线性全连接层得到文本的特征编码；最后将位置编码、分段编码及特征编码相加，得到文本的嵌入表示；

对于表格序列，通过堆叠同一行的表格数据，共享与文本序列一样的编码器，使用递增的自然数序列表示它们的位置信息，传入线性全连接层得到位置编码；使用1作为分段信息传入线性全连接层得到分段编码；将表格传入线性全连接层得到表格的特征编码；最后将位置编码、分段编码及特征编码相加，得到表格的嵌入表示；

对于视频数据，首先采用S3D网络提取具有时空特征的视频嵌入特征，根据视频嵌入特征采用自然数序列表示它们的位置信息，将不同帧的顺序关系进行传入，并将该数据作用于线性全连接层得到位置编码；使用1作为分段信息传入线性全连接层得到分段编码；将视频特征序列传入线性全连接层得到文本的特征编码；最后将位置编码、分段编码及特征编码相加，得到视频数据的嵌入表示；

对于音频数据，采用MFCC提取音频数据的频域特征，对于每一个音频特征，采用自然数序列表示它们的位置信息，将不同帧的顺序关系进行传入，并将该数据作用于线性全连接层得到位置编码；使用1作为分段信息传入线性全连接层得到分段编码；将视频特征序列传入线性全连接层得到音频的特征编码；最后将位置编码、分段编码及特征编码相加，得到音频数据的嵌入表示。

再进一步地，所述的多模态预训练模型包括

对于每种模态数据分别构建不同模态数据间的Transformer对比学习模块，用于学习不同模态数据间的语义对齐；

获取语义对齐的公共多头自注意力网络，用于提取五种模态数据间全面融合的检索特征，其中所述的公共多头自注意力网络的输入长度是每种模态数据堆叠的特征长度。

再进一步地，所述的公共多头自注意力网络对文本、图像、表格、视频及音频特征进行拼接，使用Q和K计算每个向量关注所有特征的权重，再乘以V得到五种模态数据的共同的特征表示，其中Q、K、V由五个模态数据拼接后的特征得到。

再进一步地，所述的公共多头自注意力网络重复迭代训练H次。

再进一步地，步骤S4，所述的自监督训练具体如下：

通过遮掩各个模态数据中的部分特征，将带有遮掩部分特征的模态数据输入到多模态预训练模型，多模态预训练模型在训练过程中学习恢复被遮掩的特征，以此提取一个具有模态数据的特征表示；

使用对比学习的损失函数来训练多模态预训练模型，对于成对的图像和文本对，训练过程中缩短其距离；对于不成对的图片文本对，训练过程中拉大其距离，以此学习到具有区分度的图文特征。

再进一步地，将用于训练的商品数据的图像、文本、表格、视频、音频中的一种或几种模态数据输入到多模态预训练模型进行训练，并将训练提取的检索特征存放于检索库中。

再进一步地，对于待需查询的商品样本数据，先通过步骤S1、S2处理后，再输入步骤S4训练好的多模态预训练模型，分别提取每种模态信息单独的的检索特征、和全部或部分模态融合后的模态特征，计算商品所查询特征与单品特征相似度，选取最相近的单品作为结果返回。

一种基于自协调对比学习的五模态商品预训练方法的检索系统，包括

模态特征编码提取器，用于提取的各个模态数据的特征编码、位置编码和分段编码，并学习不同模态数据的嵌入表示；

多模态预训练模型模块，用于实现自监督训练，将各个模态数据进行高层语义融合，并使用自协调对比学习方法不断纠正模态间的关联性，在学习过程中恢复出所对应位置的特征。

本发明的有益效果如下：

1.与基于标注信息的图像检索方法相对，本发明的自协调对比学习的方式进行训练，仅采用不同模态数据间的语义对齐关系，并且在多模态预训练模型训练过程中利用自学习的语义对齐信息对进一步约束多模态对比学习及不同的遮掩任务。因此具有较强的扩展性及泛化性，易于学习一个更加判定性的特征表示，提上了商品检索的效果。

2.与单一模态的信息检索系统相比，本发明采用多种模态数据的信息，能够有效利用不同模态数据信息间的补充信息，将五种模态数据特征进行融合，通过提取不同模态数据简单融合特征，可弥补了单一模态数据语义信息不完整的问题。

3.相比于大多数多模态预训练模型仅使用图文两种模态进行训练，本发明使用采用五种模态信息进行自协调对比学习训练，解决了双模态训练过程中高层语义不足的问题，同时采用自协调对比学习方式在多模态数据对比学习过程中利用高层语义约束对不同模态的对比学习及任务无法的掩码任务提供了重要的模态引导，提高了多模态预训练模型的特征表示效果，有利于提高大规模商品检索的准确性。

附图说明

图1是实施例1所述的五模态商品预训练方法的流程图。

图2是实施例1所述的多模态预训练模型的网络示意图。

图3是实施例2所述的检索系统的结构框图。

具体实施方式

下面结合附图和具体实施方式对本发明做详细描述。

实施例1

如图1所示，一种基于自协调对比学习的五模态商品预训练方法，所述的方法包括步骤如下：

S1：根据不同模态数据构建相应的模态特征编码提取器；

在一个具体的实施例中，所述的模态数据包括图像、文本、表格、视频、音频五种模态数据；

在本实施例中，对于每个商品(I,T,Tab,V,A)由图像I、对应的标题文本T、商品表格Tab、商品视频V以及商品音频A组成，对于每一个商品相应的模态数据分别采用bottom-up-attention网络、word-piece字编码、word-piece实体编码、S3D网络及MFCC频域作为模态特征编码提取器分别提取其对应特征编码可表示为

S2：结合模态特征编码提取器提取的各个模态数据的特征编码、位置编码和分段编码，学习不同模态数据的嵌入表示。

在一个具体的实施例中，步骤S2，具体学习不同模态数据的嵌入表示如下：

对于bottom-up-attention网络输出的边界框

及边界框特征F＝(f₀,f₁,f₂,…,f_m)，通过计算每个框与整张图像的面积占比，构建一个5维向量

使用5维向量，计算每个边界框的位置信息包括边界框的左上角坐标、右下角坐标及边界框占整个图像的大小比例，将这5维向量传入线性全连接层得到位置编码E_p，其计算公式如下为：

其中w₁和b₁是全连接层的参数。使用0作为分段信息传入线性全连接层得到分段编码E_s，其计算公式为：

其中w₁和b₁是全连接层的参数。将边界框特征传入线性全连接层得到边界框特征的编码E_f，其计算公式为：

其中w₁和b₁是全连接层的参数；将位置编码、分段编码及特征编码相加，得到图像模态的嵌入表示E₁＝E_p+E_s+E_f，也表示为E_Ii＝(e₀,e₁,e₂,…,e_m)。

同理，对于文本序列，使用递增的自然数序列表示它们的位置信息，传入线性全连接层得到位置编码；使用1作为分段信息传入线性全连接层得到分段编码；将文本传入线性全连接层得到文本的特征编码；最后将位置编码、分段编码及特征编码相加，得到文本的嵌入表示E_Ti＝(e₀,e₁,e₂,…,e_m)；

同理，对于表格序列，堆叠同一行的表格数据，并共享与文本数据相同的编码器，使用递增的自然数序列表示它们的位置信息，传入线性全连接层得到位置编码；使用1作为分段信息传入线性全连接层得到分段编码；将表格传入线性全连接层得到表格的特征编码；最后将位置编码、分段编码及特征编码相加，得到表格的嵌入表示E_tabi＝(e₀,e₁,e₂,…,e_m)；

同理，对于视频数据，首先采用S3D网络提取具有时空特征的视频嵌入特征，根据视频嵌入特征采用自然数序列表示它们的位置信息，将不同帧的顺序关系进行传入，并将该数据作用于线性全连接层得到位置编码；使用1作为分段信息传入线性全连接层得到分段编码；将视频特征序列传入线性全连接层得到时频的特征编码；最后将位置编码、分段编码及特征编码相加，得到视频数据的嵌入表示E_vi＝(e₀,e₁,e₂,…,e_m)；

同理，对于音频数据，采用MFCC提取音频数据的频域特征，对于每一个音频特征，采用自然数序列表示它们的位置信息，将不同帧的顺序关系进行传入，并将该数据作用于线性全连接层得到位置编码；使用1作为分段信息传入线性全连接层得到分段编码；将音频特征序列传入线性全连接层得到音频的特征编码；最后将位置编码、分段编码及特征编码相加，得到音频数据的嵌入表示E_ai＝(e₀,e₁,e₂,…,e_m)。

S3：如图2所示，构建自协调对比学习的多模态预训练模型；

在一个具体的实施例中，所述的多模态预训练模型包括

所述的公共多头自注意力网络对文本、图像、表格、视频及音频特征进行拼接，使用Q和K计算每个向量关注所有特征的权重，再乘以V得到五种模态数据的共同的特征表示，其中Q、K、V由五个模态数据拼接后的特征得到。对于每一种模态数据，所述的公共多头自注意力网络使用多头注意力机制计算对于这五种模态数据所有特征的关注权重，以此得到全面融合后的各个模态数据的特征，所述的公共多头自注意力网络重复迭代训练H次。

S4：将带有遮挡部分特征的不同模态数据利用模态特征编码提取器，学习得到嵌入表示输入到步骤S3的多模态预训练模型进行自监督训练，将各个模态数据进行高层语义融合，并使用自协调对比学习方法不断纠正模态间的关联性，减少模态噪声的影响，在学习过程中恢复出所对应位置的特征。

在一个具体的实施例中，步骤S4，所述的自监督训练具体如下：

通过遮掩标题文本中的词，将带有遮掩词的文本序列输入到多模态预训练模型，多模态预训练模型在训练过程中学习恢复被遮掩的词，以此提取一个具有文本信息的特征表示。

通过遮掩图片中的边界框特征，将带有遮掩的图像框特征序列输入到多模态预训练模型，多模态预训练模型在训练过程中学习恢复被遮掩的边界框特征，以此提取一个具有视觉信息的特征表示。

通过遮掩表格中的实体词，将带有遮掩的表格文本序列输入到多模态预训练模型，多模态预训练模型在训练过程中学习恢复被遮掩的实体词特征，以此提取一个结构化表格信息的特征表示。

通过遮掩视频中的时序嵌入特征，将带有遮掩的时序特征序列输入到多模态预训练模型，多模态预训练模型在训练过程中学习恢复被遮掩的时序序列特征，以此提取一个具有空间视觉信息的特征表示。

通过遮掩音频数据中的频域特征，将带有遮掩的音频频域序列输入到多模态预训练模型，多模态预训练模型在训练过程中学习恢复被遮掩的频域序列特征，以此提取一个具有视觉信息的特征表示。

具体地，以文本模态为例，通过学习预测一个argmax＝Softmax(E_t)使得该位置的预测的字典token的与原有的token一致，以达到模型具有一定的特征判定能力。

本实施例使用模态特征编码提取器分别将图像、文本、表格、视频及音频五种模态进行编码特征提取；再利用多模态预训练模型充分融合各个模态的特征编码、位置编码和分段编码及编码特征表示，作为多模态预训练模型的输入；多模态预训练模型使用二种网络层提取图像、文本、表格、视频音频及其相互融合的检索特征。

在一个具体的实施例中，将用于训练的商品数据的图像、文本、表格、视频、音频中的一种或几种模态数据输入到多模态预训练模型进行训练，并将训练提取的检索特征存放于检索库中。

在一个具体的实施例中，对于待需查询的商品样本数据，先通过步骤S1、S2处理后，再输入步骤S4训练好的多模态预训练模型，分别提取每种模态信息单独的的检索特征、和全部或部分模态融合后的模态特征，计算商品所查询特征与单品特征相似度，选取最相近的单品作为结果返回。

所述的商品所查询特征与单品特征相似度按照Cosine距离计算，Cosine距离越小，相似度越大；并按相似度从大到小排序获得查询返回的最为匹配的检索样本。

实施例2

如图3所示，一种基于自协调对比学习的五模态商品预训练方法的检索系统，包括

其中所述的多模态预训练模型模块包括Transformer对比学习模块、公共多头自注意力网络模块；

所述的Transformer对比学习模块，用于学习不同模态数据间的语义对齐；

所述的公共多头自注意力网络模块，用于提取五种模态数据间全面融合的检索特征，其中所述的公共多头自注意力网络的输入长度是每种模态数据堆叠的特征长度。

实施例3

一种计算机可读存储介质，其上存储有计算机程序，所述的计算机程序被处理器执行时，实现的方法步骤如下：

S1：根据不同模态数据构建相应的模态特征编码提取器；

S3：构建自协调对比学习的多模态预训练模型；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于自协调对比学习的五模态商品预训练方法，其特征在于：所述的方法包括步骤如下：

S1：根据不同模态数据构建相应的模态特征编码提取器；

S3：构建自协调对比学习的多模态预训练模型；

2.根据权利要求1所述的基于自协调对比学习的五模态商品预训练方法，其特征在于：所述的模态数据包括图像、文本、表格、视频、音频五种模态数据；

3.根据权利要求2所述的基于自协调对比学习的五模态商品预训练方法，其特征在于：步骤S2，具体学习不同模态数据的嵌入表示如下：

对于视频数据，首先采用S3D网络提取具有时空特征的视频嵌入特征，根据视频嵌入特征采用自然数序列表示它们的位置信息，将不同帧的顺序关系进行传入，并将该数据作用于线性全连接层得到位置编码；使用1作为分段信息传入线性全连接层得到分段编码；将视频特征序列传入线性全连接层得到时频的特征编码；最后将位置编码、分段编码及特征编码相加，得到视频数据的嵌入表示；

4.根据权利要求3所述的基于自协调对比学习的五模态商品预训练方法，其特征在于：所述的多模态预训练模型包括

5.根据权利要求4所述的基于自协调对比学习的五模态商品预训练方法，其特征在于：所述的公共多头自注意力网络对文本、图像、表格、视频及音频特征进行拼接，使用Q和K计算每个向量关注所有特征的权重，再乘以V得到五种模态数据的共同的特征表示，其中Q、K、V由五个模态数据拼接后的特征得到。

6.根据权利要求5所述的基于自协调对比学习的五模态商品预训练方法，其特征在于：所述的公共多头自注意力网络重复迭代训练H次。

7.根据权利要求6所述的基于自协调对比学习的五模态商品预训练方法，其特征在于：步骤S4，所述的自监督训练具体如下：

8.根据权利要求1～7任一项所述的基于自协调对比学习的五模态商品预训练方法，其特征在于：将用于训练的商品数据的图像、文本、表格、视频、音频中的一种或几种模态数据输入到多模态预训练模型进行训练，并将训练提取的检索特征存放于检索库中。

9.根据权利要求8所述的基于自协调对比学习的五模态商品预训练方法，其特征在于：对于待需查询的商品样本数据，先通过步骤S1、S2处理后，再输入步骤S4训练好的多模态预训练模型，分别提取每种模态信息单独的的检索特征、和全部或部分模态融合后的模态特征，计算商品所查询特征与单品特征相似度，选取最相近的单品作为结果返回。

10.一种基于权利要求9所述的基于自协调对比学习的五模态商品预训练方法的检索系统，其特征在于：包括