CN114445201A

CN114445201A - 一种基于多模态预训练模型的组合商品检索方法及系统

Info

Publication number: CN114445201A
Application number: CN202210143468.0A
Authority: CN
Inventors: 詹巽霖; 吴洋鑫; 董晓; 梁小丹
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2022-02-16
Filing date: 2022-02-16
Publication date: 2022-05-06

Abstract

本发明公开了一种基于多模态预训练模型的组合商品检索方法及系统，其中方法包括步骤如下：将商品图像划分为单品图像和组合品图像；训练一个组合商品图像检测器；获取并结合组合商品图像中文本模态和图片模块的特征编码、位置编码和分段编码，学习嵌入表示，并输入构建好的多模态预训练模型；通过商品检测器提取的边界框和边界框特征作为图像特征，结合文本特征，输入多模态预训练模型进行自监督训练；采用多模态预训练模型提取单品图像的图片模态和文本模态的检索特征，并存放于检索库中；多模态预训练模型根据组合品图像中每个目标商品的边界框及边界框特征，提取图文融合的检索特征，计算组合品特征与检索库中单品特征的预先距离作为商品相似度，选取最相似的单品作为结果返回。

Description

一种基于多模态预训练模型的组合商品检索方法及系统

技术领域

本发明涉及商品检索技术领域，更具体的，涉及一种基于多模态预训练模型的组合商品检索方法及系统。

背景技术

互联网技术的发展使得在线电商平台迅速扩展，由于其便捷性，电商平台得到越来越多人的青睐。电商领域商品种类的丰富度和用户的购物需求极大增加。线上商品具有多样性，更多商品以套装的形式呈现，即多个不同的商品组合在一个套装商品中。同时，用户在浏览一个套装商品的时候，可能需要查询该套装对应的单品，以便进行价格比对或者单独购买。在数据规模大及缺乏标注的真实场景下，如何进行多模态的组合商品检索是一个具有实用价值但尚未解决的问题。

组合商品检索在电商领域具有较高的实用价值和应用前景。第一，有利于提高商品搜索精度，帮助线上用户搜索更加准确和具体的商品；第二，可用于构建电商知识图谱，挖掘商品关系；第三，通过组合商品检索得到的商品关系可用于商品推荐，提升购物平台推荐效果。

但是在商品检索领域，现有方法都是输入单一模态的数据，比如一个文本或者图片，然后在检索库中进行匹配搜索。然而在电商领域，图片和文本都广泛存在于检索库中，由于缺乏对多个模态数据的充分利用，当前这种检索方式大大限制了真实的使用场景。更重要的是，现有的方法主要关注在相对简单的情况，比如图片级别的检索，图片级别的检索不会判断商品图片中是否有多个物体以及对这些物体进行区分，而实例级别的商品检索在于检索回组合商品中的所有单品，这种检索方式目前并没有被探索过。此外，之前的方法都依赖标注信息来训练，这种方式在大规模真实场景数据集时缺乏泛化性。

发明内容

本发明为了解决目前商品检索依靠单模态数据以及图片级别检索导致的准确性低下的问题，提供了一种基于多模态预训练模型的组合商品检索方法及系统，其具有高泛化性、高可用性，高准确性的优点。

为实现上述本发明目的，采用的技术方案如下：

一种基于多模态预训练模型的组合商品检索方法，所述的方法包括步骤如下：

S1：将商品图像划分为单品图像和组合品图像，其中所述的单品图像表示只有一个商品，组合品图像表示包括多个独立商品；

S2：训练一个组合商品图像检测器，用于检测组合商品图像中的每个独立商品；

S3：获取并结合组合商品图像中文本模态和图片模块的特征编码、位置编码和分段编码，由此学习嵌入表示；

S4：构建多模态预训练模型，将学习到的嵌入表示作为多模态预训练模型的输入；

S5：通过商品检测器提取的边界框和边界框特征作为图像特征，结合文本特征，输入到多模态预训练模型进行自监督训练；

S6：将单品图像的图片模态和文本模态输入到多模态预训练模型提取检索特征，并将检索特征存放于检索库中；

S7：提取组合品图像中每个目标商品的边界框及边界框特征，输入步骤S5训练好的多模态预训练模型，提取图文融合的检索特征，计算组合品特征与检索库中单品特征的余弦距离作为特征相似度，选取最相似的单品作为结果返回。

优选地，步骤S1，采用基于规则的方法划分为单品图像和组合品图像，将存在“套装”、“组合”、“组套”、“件套”商品标题的商品图像划分为组合品图像，否则划分为单品图像。

进一步地，采用数据增强的方法训练组合商品图像检测器，具体如下：

先计算单品图像中的颜色面积占比，选择白色面积占比大于60％的图像作为白底图，使用GrabCut分割方法获取单品图像的前景，再选取自然图像作为背景，使用“复制、粘贴”的方式将多个前景目标和背景图像合成一张带有边界框标注的图片；

根据前景目标粘贴于背景图像的位置，选取前景目标的边界框坐标作为图像检测器训练的边界框标注，使用前景和背景两个类别，训练一个组合商品图像检测器，以此检测组合商品中的每个独立商品。

再进一步地，对于图片模态数据采用bottom-up-attention网络提取主要目标框及其坐标位置的特征。

再进一步地，对于bottom-up-attention网络输出的图像框及框特征，使用5维向量计算每个框的位置信息包括框的左上角坐标、右下角坐标及框占整个图像的大小比例，将这5维向量传入线性全连接层得到位置编码；使用0作为分段信息传入线性全连接层得到分段编码；将框特征传入线性全连接层得到框特征的编码；最后将位置编码、分段编码及特征编码相加，得到图片模态的嵌入表示。

再进一步地，对于文本模态数据使用Bert网络来提取其不同token间的关系特征。

再进一步地，对于文本序列，使用递增的自然数序列表示他们的位置信息，传入线性全连接层得到位置编码；使用1作为分段信息传入线性全连接层得到分段编码；将文本传入线性全连接层得到文本的特征编码；最后将位置编码、分段编码及特征编码相加，得到文本的嵌入表示。

再进一步地，所述的多模态预训练模型使用三种Transformer网络层提取图片和文本相互融合的检索特征，包括：

文本-视觉Transformer网络，用于根据输入的图片嵌入表示、文本嵌入表示提取文本的浅层特征和图片的浅层特征；

交叉Transformer网络，用于根据图片的线层特征和文本的线层特征实现图片模态和文本模态相互关联，得到两个模态相互关联之后的特征；

公共Transformer网络，用于提取文本和图片全面融合的图片特征。

再进一步地，步骤S5，所述的自监督训练具体如下：

通过遮掩标题文本中的词，将带有遮掩词的文本序列输入到训练好的多模态预训练模型，在训练过程中学习恢复被遮掩的词，以此提取一个具有文本信息的特征表示；

通过遮掩图片中的边界框特征，将带有遮掩的图片框特征序列输入到多模态预训练模型，在训练过程中学习恢复被遮掩的边界框特征，以此提取一个具有视觉信息的特征表示；

使用对比学习的损失函数来训练网络，对于成对的图片和文本对，训练过程中缩短其距离；对于不成对的图片文本对，训练过程中拉大其距离，以此学习到具有区分度的图文特征。

一种基于所述的多模态预训练模型的组合商品检索方法的系统，所述的系统包括样本构造模块、图像检测器训练模块、学习嵌入表示模块、多模态预训练模型模块、单品特征提取模块、组合品特征提取模块；其中，

所述的样本构造模块，用于将商品图像划分为单品图像和组合品图像；

所述的图像检测器训练模块，用于训练一个用于检测组合商品图像中的每个独立商品的图像检测器；

所述的学习嵌入表示模块，用于获取并结合组合商品图像中文本模态和图片模块的特征编码、位置编码和分段编码，学习嵌入表示；

所述的多模态预训练模型模块，用于构建多模态预训练模型，并将通过商品检测器提取的边界框和边界框特征作为图像特征，结合文本特征，输入到多模态预训练模型进行自监督训练；

所述的单品特征提取模块，用于将单品图像的图片模态和文本模态输入到多模态预训练模型提取检索特征，并将检索特征存放于检索库中；

所述的组合品特征提取模块，用于将提取组合品图像中每个目标商品的边界框及边界框特征输入多模态预训练模型，根据获得图文融合的检索特征，计算组合品特征与检索库中单品特征的余弦距离作为商品相似度，选取最相似的单品作为结果返回。

本发明的有益效果如下：

相比于监督学习的图像检索方法，本发明使用自监督学习的方式进行训练，仅仅依赖天然存在的图片和标题信息而不依赖任何人工标注的类别信息。因此容易扩展到大规模的数据上，学习到一个更加判定的特征表示，确保实现高质量的实例级别商品检索任务，具有较强的泛化性。

相比于只使用单一模态的信息进行检索，本发明使用图片和文本两个模态的信息，能够有效利用两个模态之间的信息相互补充，将图片特征和文本特征进行融合，提取更加有区分度的图文检索特征，弥补了单一模态信息不全的问题。

相比于大多数多模态预训练模型使用已训练好的自然图像检测器提取图像特征进行训练，本发明使用数据增强的方式训练一个商品图像的目标检测器，解决了自然图像和商品图像数据具有数据分布差异的问题，避免多模态预训练模型受到上游检测器影响的问题，提高了多模态预训练模型的特征表示效果，有利于提高组合商品检索的准确性。

附图说明

图1是实施例1所述的组合商品检索方法的步骤流程图。

图2是实施例1所述的组合商品检索方法的网络框架示意图。

图3是实施例2所述的组合商品检索系统的框架示意图。

具体实施方式

下面结合附图和具体实施方式对本发明做详细描述。

实施例1

如图1所示，一种基于多模态预训练模型的组合商品检索方法，所述的方法包括步骤如下：

S7：提取组合品图像中每个目标商品的边界框及边界框特征，输入步骤S5训练好的多模态预训练模型，提取图文融合的检索特征，计算组合品特征与检索库中单品特征的余弦距离作为商品相似度，选取最相似的单品作为结果返回。

在一个具体的实施例中，步骤S1，对于所有的商品数据，采用基于规则的方法划分为单品图像和组合品图像，将存在“套装”、“组合”、“组套”、“件套”商品标题的商品图像划分为组合品图像，否则划分为单品图像。

具体地，每个商品(I,T)由图片I和对应的标题T组成，根据商品标题是否存在“套装”、“组合”、“组套”、“件套”等词语将商品划分为组合商品集和单品集，单品集中的每个样本只包含一个商品，记为

组合商品集中的每个样本包含多个商品，记为

在一个具体的实施例中，采用数据增强的方法训练组合商品图像检测器，具体如下：

在一个具体的实施例中，对于图片模态数据采用bottom-up-attention网络提取主要目标框及其坐标位置的特征。

在一个具体的实施例中，对于bottom-up-attention网络输出的图像框B＝(b₀,b₁,b₂,…,b_K)及框特征F＝(f₀,f₁,f₂,…,f_K)作为图像特征输入I＝((b₀,f₀),(b₁,f₁),(b₂,f₂),…,(b_K,f_K))，使用5维向量计算每个框的位置信息包括框的左上角坐标、右下角坐标及框占整个图像的大小比例，将这5维向量传入线性全连接层得到位置编码；使用0作为分段信息传入线性全连接层得到分段编码；将框特征传入线性全连接层得到框特征的编码；最后将位置编码、分段编码及特征编码相加，得到图片模态的嵌入表示E_img。

具体地，如图2所示，将边界框特征F经过全连接层得到框特征的编码

其计算公式为：

其中，w₁和b₁是全连接层的参数，σ是激活函数。

根据bottom-up-attention网络提取的边界框

计算每个框与整张图片的面积占比，构建一个5维向量

经过全连接层输出位置编码向量

其计算公式为：

其中w₂和b₂是全连接层的参数，σ是激活函数。

将整数0作为图像模态的分段信息S_img经过全连接层得到分段编码向量

其计算公式为：

其中w₃和b₃是全连接层的参数，σ是激活函数。

将特征编码向量、位置编码向量和分段编码向量相加得到图片模态的嵌入表示E_img，

在一个具体的实施例中，对于商品标题T＝(t₀,t₁,t₂,…,t_L)，也即文本模态数据使用Bert网络来提取其不同token间的关系特征。

在一个具体的实施例中，对于文本序列，使用递增的自然数序列表示他们的位置信息，传入线性全连接层得到位置编码；使用1作为分段信息传入线性全连接层得到分段编码；将文本传入线性全连接层得到文本的特征编码；最后将位置编码、分段编码及特征编码相加，得到文本的嵌入表示E_txt。具体如下：

将商品标题T经过嵌入层得到特征编码向量

其计算公式为：

其中，w₄和b₄是全连接层的参数，σ是激活函数。

将标题中单词的位置信息(自然数顺序)P经过全连接层得到位置编码向量

其计算公式为：

其中w₅和b₅是全连接层的参数，σ是激活函数。

将整数1作为文本模态的分段信息S_txt经过全连接层得到分段编码向量

其计算公式为：

其中w₆和b₆是全连接层的参数，σ是激活函数。

将特征编码向量、位置编码向量和分段编码向量相加得到文本模态的嵌入表示E_txt，

在一个具体的实施例中，将图片嵌入表示E_img和文本嵌入表示E_txt入到多模态预训练模型，提取图像和文本相互融合的检索特征H。所述的多模态预训练模型使用三种Transformer网络层提取图片和文本相互融合的检索特征，包括：

文本-视觉Transformer网络，用于根据输入的图片嵌入表示、文本嵌入表示提取文本和图片的浅层特征；具体如下：

首先使用图片Transformer和文本Transformer分别对图片嵌入表示E_img和文本嵌入特征E_txt进行编码，得到图片模态和文本模态各自的线层特征

和

图片Transformer和文本Transformer各有四层，每层的计算公式为：

其中，t-1和t是Transformer层编号；LN是LayerNorm层，进行特征归一化；MLP是全连接层；MSA是多头注意力层，其计算公式如下：

Head_i＝Attention(HW_i ^Q,HW_i ^K,HW_i ^V)

MSA(H)＝Concat(Head₁,...,Head_h)W^O。

所述的文本-视觉Transformer网络层重复进行L＝4次，再传入下一种网络。

交叉Transformer网络，用于根据图片的线层特征

和文本的线层特征

实现图片模态和文本模态相互关联，得到两个模态相互关联之后的特征

和

具体地，所述的交叉Transformer网络包括两个独立的交叉多头自注意力网络，通过交换图片模态和文本模态中的Q和K来实现；对于文本，交叉Transformer网络计算对图片的关注权重，以此得到交叉注意后的文本特征；对于图像，交叉Transformer网络计算对文本的关注权重，以此得到交叉注意后的图片特征；该层重复进行M＝4次，再传入下一种网络；具体

其计算公式如下：

其中，CMSA是跨模态交叉多头注意力网络，其计算公式如下：

cMSA(H_img,H_txt)＝Concat(Head₁(H_img,H_txt),…,Head_n(H_img,H_txt))

CMSA(H_txt,H_img)＝Concat(Head₁(H_txt,H_img),…,Head_n(H_txt,H_img))

Head_i(H_img,H_txt)＝Attention(H_imgW_i ^Q,H_txtW_i ^K,H_txtW_i ^V)

Head_i(H_txt,H_img)＝Attention(H_txtW_i ^Q,H_imgW_i ^K,H_imgW_i ^V)

公共Transformer网络，用于提取文本和图片全面融合的图片特征；在公共Transformer网络中，文本特征和图片特征进行拼接，使用Q和K计算每个向量关注所有特征的权重，再乘以V得到文本的特征表示和图片的特征表示，其中Q、K、V由两个模态拼接后的特征得到；对于文本，使用多头注意力机制计算对于文本和图片两个模态所有特征的关注权重，以此得到全面融合后的文本特征；对于图片，使用多头注意力机制计算对于图片和文本两个模态所有特征的关注权重，以此得到全面融合后的图片特征；该层重复迭代H＝4次。具体如下：

从交叉Transformer网络出来的图片特征

和文本特征

传入公共Transformer中，进行图片和文本更加全面的相互关注，即图片模态中的每块区域关注其他区域的特征以及所有文字的特征，文本模态中的每个字关注其他字的特征以及所有图片的特征。其计算公式如下：

在一个具体的实施例中，步骤S5，所述的自监督训练具体如下：

具体地，使用三种预训练任务来训练上述的多模态预训练模型，包括文本遮掩任务，图像区域遮掩任务和跨模态对比学习任务。

具体而言，对于每个图片文本对(I,T)，I＝{I_1,I_2,,I₃,,…,I_K,}，T＝{T_1,T_2,,T₃,,…,T_L,}文本遮掩任务是将输入的单词以15％的概率替换成“[MASK]”，多模态预训练模型根据剩下的单词以及图片来预测该遮掩的单词，其损失函数为：

图片区域遮掩任务是将输入的图片框特征以15％的概率替换成0向量，所述的多模态预训练模型根据剩下的图片区域以及句子单词来预测该遮掩的图片区域特征，其损失函数为：

除了不同模态特征的学习之外，所述的多模态预训练模型需要保证不同输入模态之间的一致性以便学习到图文之间的对应关系，因此使用跨模态对比学习任务来对齐图片模态和文本模态。对于一个训练批中的N个图片文本对，共有2N个数据。对于每个样本，将对应的另一个模态数据视为正样本对，将剩下样本视为负样本对。对于输入的图文对((I_i,T_i))，文本Transformer和图像Transformer输出的每对图文特征

其损失函数为：

其中，sim(u,v)＝u^Tv/||u||||v||用于计算图文对u和v之间的相似度，τ是温度调节参数，

是一个二元指标，当且仅当i！＝j时返回1。该对比损失函数会使得成对的图文向量拉近，而不成对的图文向量拉远。

实施例2

基于实施例1所述的多模态预训练模型的组合商品检索方法，本实施例还提供了一种多模态预训练模型的组合商品检索系统，所述的系统包括样本构造模块、图像检测器训练模块、学习嵌入表示模块、多模态预训练模型模块、单品特征提取模块、组合品特征提取模块；其中，

在一个具体的实施例中，所述的多模态预训练模型模块还包括

文本-视觉Transformer网络模块，用于提取文本和图片的浅层特征，使用Q₁和K₁计算关注权重，再乘以V₁得到文本的特征表示和图片的特征表示，其中Q₁、K₁、V₁来自图片和文本自身模态；

交叉Transformer网络模块，用于提取文本和图片相互关注的特征；所述的交叉Transformer网络包括两个独立的交叉多头自注意力网络，通过交换图片模态和文本模态中的Q₁和K₁来实现；对于文本，交叉Transformer网络计算对图片的关注权重，以此得到交叉注意后的文本特征；对于图像，交叉Transformer网络计算对文本的关注权重，以此得到交叉注意后的图片特征；

公共Transformer网络模块，用于提取文本和图片全面融合的特征，在公共Transformer网络中，文本特征和图片特征进行拼接，使用Q₂和K₂计算每个向量关注所有特征的权重，再乘以V₂得到文本的特征表示和图片的特征表示，其中Q₂、K₂、V₂由两个模态拼接后的特征得到；对于文本，使用多头注意力机制计算对于文本和图片两个模态所有特征的关注权重，以此得到全面融合后的文本特征；对于图片，使用多头注意力机制计算对于图片和文本两个模态所有特征的关注权重，以此得到全面融合后的图片特征。

实施例3

一种计算机系统，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述的处理器执行所述的计算机程序时，实现的方法步骤如下：

实施例4

一种计算机可读存储介质，其上存储有计算机程序，所述的计算机程序被处理器执行时，实现的方法步骤如下：

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于多模态预训练模型的组合商品检索方法，其特征在于：所述的方法包括步骤如下：

2.根据权利要求1所述的基于多模态预训练模型的组合商品检索方法，其特征在于：步骤S1，采用基于规则的方法划分为单品图像和组合品图像，将存在“套装”、“组合”、“组套”、“件套”商品标题的商品图像划分为组合品图像，否则划分为单品图像。

3.根据权利要求2所述的基于多模态预训练模型的组合商品检索方法，其特征在于：采用数据增强的方法训练组合商品图像检测器，具体如下：

4.根据权利要求3所述的基于多模态预训练模型的组合商品检索方法，其特征在于：对于图片模态数据采用bottom-up-attention网络提取主要目标框及其坐标位置的特征。

5.根据权利要求4所述的基于多模态预训练模型的组合商品检索方法，其特征在于：对于bottom-up-attention网络输出的图像框及框特征，使用5维向量计算每个框的位置信息包括框的左上角坐标、右下角坐标及框占整个图像的大小比例，将这5维向量传入线性全连接层得到位置编码；使用0作为分段信息传入线性全连接层得到分段编码；将框特征传入线性全连接层得到框特征的编码；最后将位置编码、分段编码及特征编码相加，得到图片模态的嵌入表示。

6.根据权利要求4所述的基于多模态预训练模型的组合商品检索方法，其特征在于：对于文本模态数据使用Bert网络来提取其不同token间的关系特征。

7.根据权利要求6所述的基于多模态预训练模型的组合商品检索方法，其特征在于：对于文本序列，使用递增的自然数序列表示他们的位置信息，传入线性全连接层得到位置编码；使用1作为分段信息传入线性全连接层得到分段编码；将文本传入线性全连接层得到文本的特征编码；最后将位置编码、分段编码及特征编码相加，得到文本的嵌入表示。

8.根据权利要求6所述的基于多模态预训练模型的组合商品检索方法，其特征在于：所述的多模态预训练模型使用三种Transformer网络层提取图片和文本相互融合的检索特征，包括：

交叉Transformer网络，根据图片的线层特征和文本的线层特征实现图片模态和文本模态相互关联，得到两个模态相互关联之后的特征；

9.根据权利要求6所述的基于多模态预训练模型的组合商品检索方法，其特征在于：步骤S5，所述的自监督训练具体如下：

10.一种基于权利要求1～9任一项所述的多模态预训练模型的组合商品检索方法的系统，其特征在于：所述的系统包括样本构造模块、图像检测器训练模块、学习嵌入表示模块、多模态预训练模型模块、单品特征提取模块、组合品特征提取模块；其中，