CN114418032A - 一种基于自协调对比学习的五模态商品预训练方法及检索系统 - Google Patents

一种基于自协调对比学习的五模态商品预训练方法及检索系统 Download PDF

Info

Publication number
CN114418032A
CN114418032A CN202210164795.4A CN202210164795A CN114418032A CN 114418032 A CN114418032 A CN 114418032A CN 202210164795 A CN202210164795 A CN 202210164795A CN 114418032 A CN114418032 A CN 114418032A
Authority
CN
China
Prior art keywords
modal
data
self
training
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210164795.4A
Other languages
English (en)
Inventor
董晓
詹巽霖
吴洋鑫
梁小丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202210164795.4A priority Critical patent/CN114418032A/zh
Publication of CN114418032A publication Critical patent/CN114418032A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0641Shopping interfaces
    • G06Q30/0643Graphical representation of items or shoppers

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Development Economics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Library & Information Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于自协调对比学习的五模态商品预训练方法及检索系统,其中方法如下:S1:根据不同模态数据构建相应的模态特征编码提取器;S2:结合模态特征编码提取器提取的各个模态数据的特征编码、位置编码和分段编码,学习不同模态数据的嵌入表示;S3:构建自协调对比学习的多模态预训练模型;S4:将带有遮挡部分特征的不同模态数据利用模态特征编码提取器,学习得到嵌入表示输入到步骤S3的多模态预训练模型进行自监督训练,将各个模态数据进行高层语义融合,并使用自协调对比学习方法不断纠正模态间的关联性,在学习过程中恢复出所对应位置的特征。本发明实现具有高泛化性、高可用性,高准确性的组合商品检索系统。

Description

一种基于自协调对比学习的五模态商品预训练方法及检索 系统
技术领域
本发明涉及大规模商品技术领域,更具体的,涉及一种基于自协调对比学习的五模态商品预训练方法及检索系统。
背景技术
互联网技术的发展使得在线购物平台迅速扩展,由于其便捷性在线购物平台得到越来越多人的青睐。在在线购物平台中,商品种类的丰富度和用户的购物需求随着时间的推移逐步增加。鉴于线上商品具有多样性,更多的商品以多种模态的形式所展示,即一种模块可以通过商品展示图、商品描述、商品参数、及商品直播进行相关属性的描述。因此如何使用这些更多模态信息的数据,使其服务于大规模商品检索成为了一个主要的研究问题。并且在数据大规模情形下及缺乏标签标注的真实场景下,如何进行大规模商品检索是一个具有实用价值但尚未解决的问题。
大规模多模态商品检索在电商领域具有较高的实用价值和应用前景。第一,有利于提高商品搜索精度,帮助线上用户搜索更加准确和具体的商品;第二,可用于构建电商知识图谱,挖掘商品关系;第三,通过多模态融合检索获取到的匹配商品可用于商品推荐,提升购物平台推荐效果。
但是在商品检索领域,现有方法都是对单一模态的数据进行训练并提取其特征,如一个文本或者图片,然后在根据检索库中以存储数据的特征进行匹配搜索。然而在电商领域,图片、文本、表格、视频及音频等模态数据广泛存在于每一个商品样本中,由于缺乏对多个模态数据的充分利用,当前这种检索方式大大限制了检索效果的有效提升。更重要的是,现有的模型重点关注相对简单的情况,即图片级别的检索,图片级别的检索无法判断这些商品所具有的属性特征,而更多模态的数据可以提供除图像纹理描述以外的商品信息,如商品的颜色、产地、材质等。单模态数据检索的方式在大规模真实场景数据集时缺乏泛化性。
发明内容
本发明为了解决以上现有技术的商品检索主要依靠单模态数据以及图片级别检索导致的低准确性的问题,提供了一种基于自协调对比学习的五模态商品预训练方法及检索系统,实现具有高泛化性、高可用性,高准确性的组合商品检索系统。
为实现上述本发明目的,采用的技术方案如下:
一种基于自协调对比学习的五模态商品预训练方法,所述的方法包括步骤如下:
S1:根据不同模态数据构建相应的模态特征编码提取器;
S2:结合模态特征编码提取器提取的各个模态数据的特征编码、位置编码和分段编码,学习不同模态数据的嵌入表示;
S3:构建自协调对比学习的多模态预训练模型;
S4:将带有遮挡部分特征的不同模态数据利用模态特征编码提取器,学习得到嵌入表示输入到步骤S3的多模态预训练模型进行自监督训练,将各个模态数据进行高层语义融合,并使用自协调对比学习方法不断纠正模态间的关联性,在学习过程中恢复出所对应位置的特征。
优选地,所述的模态数据包括图像、文本、表格、视频、音频五种模态数据;
使用bottom-up-attention网络作为模态特征编码提取器获得图像的边界框及其坐标位置的特征;
使用word-piece作为模态特征编码提取器获得文本的不同token间的关系特征;
使用实体word-piece作为模态特征编码提取器获得表格模态数据的编码表示,具体将每一行数据拼接在一起后,获取不同token间的关系特征;
使用S3D网络作为模态特征编码提取器获得视频中具有时空特性的视频表示;
使用MFCC作为模态特征编码提取器获得音频模态数据的编码表示。
进一步地,步骤S2,具体学习不同模态数据的嵌入表示如下:
对于bottom-up-attention网络输出的边界框及边界框特征,使用5维向量计算每个边界框的位置信息包括边界框的左上角坐标、右下角坐标及边界框占整个图像的大小比例,将这5维向量传入线性全连接层得到位置编码;使用0作为分段信息传入线性全连接层得到分段编码;将边界框特征传入线性全连接层得到边界框特征的编码;将位置编码、分段编码及特征编码相加,得到图像模态的嵌入表示;
对于文本序列,使用递增的自然数序列表示它们的位置信息,传入线性全连接层得到位置编码;使用1作为分段信息传入线性全连接层得到分段编码;将文本传入线性全连接层得到文本的特征编码;最后将位置编码、分段编码及特征编码相加,得到文本的嵌入表示;
对于表格序列,通过堆叠同一行的表格数据,共享与文本序列一样的编码器,使用递增的自然数序列表示它们的位置信息,传入线性全连接层得到位置编码;使用1作为分段信息传入线性全连接层得到分段编码;将表格传入线性全连接层得到表格的特征编码;最后将位置编码、分段编码及特征编码相加,得到表格的嵌入表示;
对于视频数据,首先采用S3D网络提取具有时空特征的视频嵌入特征,根据视频嵌入特征采用自然数序列表示它们的位置信息,将不同帧的顺序关系进行传入,并将该数据作用于线性全连接层得到位置编码;使用1作为分段信息传入线性全连接层得到分段编码;将视频特征序列传入线性全连接层得到文本的特征编码;最后将位置编码、分段编码及特征编码相加,得到视频数据的嵌入表示;
对于音频数据,采用MFCC提取音频数据的频域特征,对于每一个音频特征,采用自然数序列表示它们的位置信息,将不同帧的顺序关系进行传入,并将该数据作用于线性全连接层得到位置编码;使用1作为分段信息传入线性全连接层得到分段编码;将视频特征序列传入线性全连接层得到音频的特征编码;最后将位置编码、分段编码及特征编码相加,得到音频数据的嵌入表示。
再进一步地,所述的多模态预训练模型包括
对于每种模态数据分别构建不同模态数据间的Transformer对比学习模块,用于学习不同模态数据间的语义对齐;
获取语义对齐的公共多头自注意力网络,用于提取五种模态数据间全面融合的检索特征,其中所述的公共多头自注意力网络的输入长度是每种模态数据堆叠的特征长度。
再进一步地,所述的公共多头自注意力网络对文本、图像、表格、视频及音频特征进行拼接,使用Q和K计算每个向量关注所有特征的权重,再乘以V得到五种模态数据的共同的特征表示,其中Q、K、V由五个模态数据拼接后的特征得到。
再进一步地,所述的公共多头自注意力网络重复迭代训练H次。
再进一步地,步骤S4,所述的自监督训练具体如下:
通过遮掩各个模态数据中的部分特征,将带有遮掩部分特征的模态数据输入到多模态预训练模型,多模态预训练模型在训练过程中学习恢复被遮掩的特征,以此提取一个具有模态数据的特征表示;
使用对比学习的损失函数来训练多模态预训练模型,对于成对的图像和文本对,训练过程中缩短其距离;对于不成对的图片文本对,训练过程中拉大其距离,以此学习到具有区分度的图文特征。
再进一步地,将用于训练的商品数据的图像、文本、表格、视频、音频中的一种或几种模态数据输入到多模态预训练模型进行训练,并将训练提取的检索特征存放于检索库中。
再进一步地,对于待需查询的商品样本数据,先通过步骤S1、S2处理后,再输入步骤S4训练好的多模态预训练模型,分别提取每种模态信息单独的的检索特征、和全部或部分模态融合后的模态特征,计算商品所查询特征与单品特征相似度,选取最相近的单品作为结果返回。
一种基于自协调对比学习的五模态商品预训练方法的检索系统,包括
模态特征编码提取器,用于提取的各个模态数据的特征编码、位置编码和分段编码,并学习不同模态数据的嵌入表示;
多模态预训练模型模块,用于实现自监督训练,将各个模态数据进行高层语义融合,并使用自协调对比学习方法不断纠正模态间的关联性,在学习过程中恢复出所对应位置的特征。
本发明的有益效果如下:
1.与基于标注信息的图像检索方法相对,本发明的自协调对比学习的方式进行训练,仅采用不同模态数据间的语义对齐关系,并且在多模态预训练模型训练过程中利用自学习的语义对齐信息对进一步约束多模态对比学习及不同的遮掩任务。因此具有较强的扩展性及泛化性,易于学习一个更加判定性的特征表示,提上了商品检索的效果。
2.与单一模态的信息检索系统相比,本发明采用多种模态数据的信息,能够有效利用不同模态数据信息间的补充信息,将五种模态数据特征进行融合,通过提取不同模态数据简单融合特征,可弥补了单一模态数据语义信息不完整的问题。
3.相比于大多数多模态预训练模型仅使用图文两种模态进行训练,本发明使用采用五种模态信息进行自协调对比学习训练,解决了双模态训练过程中高层语义不足的问题,同时采用自协调对比学习方式在多模态数据对比学习过程中利用高层语义约束对不同模态的对比学习及任务无法的掩码任务提供了重要的模态引导,提高了多模态预训练模型的特征表示效果,有利于提高大规模商品检索的准确性。
附图说明
图1是实施例1所述的五模态商品预训练方法的流程图。
图2是实施例1所述的多模态预训练模型的网络示意图。
图3是实施例2所述的检索系统的结构框图。
具体实施方式
下面结合附图和具体实施方式对本发明做详细描述。
实施例1
如图1所示,一种基于自协调对比学习的五模态商品预训练方法,所述的方法包括步骤如下:
S1:根据不同模态数据构建相应的模态特征编码提取器;
在一个具体的实施例中,所述的模态数据包括图像、文本、表格、视频、音频五种模态数据;
使用bottom-up-attention网络作为模态特征编码提取器获得图像的边界框及其坐标位置的特征;
使用word-piece作为模态特征编码提取器获得文本的不同token间的关系特征;
使用实体word-piece作为模态特征编码提取器获得表格模态数据的编码表示,具体将每一行数据拼接在一起后,获取不同token间的关系特征;
使用S3D网络作为模态特征编码提取器获得视频中具有时空特性的视频表示;
使用MFCC作为模态特征编码提取器获得音频模态数据的编码表示。
在本实施例中,对于每个商品(I,T,Tab,V,A)由图像I、对应的标题文本T、商品表格Tab、商品视频V以及商品音频A组成,对于每一个商品相应的模态数据分别采用bottom-up-attention网络、word-piece字编码、word-piece实体编码、S3D网络及MFCC频域作为模态特征编码提取器分别提取其对应特征编码可表示为
Figure BDA0003515631550000061
S2:结合模态特征编码提取器提取的各个模态数据的特征编码、位置编码和分段编码,学习不同模态数据的嵌入表示。
在一个具体的实施例中,步骤S2,具体学习不同模态数据的嵌入表示如下:
对于bottom-up-attention网络输出的边界框
Figure BDA0003515631550000062
及边界框特征F=(f0,f1,f2,…,fm),通过计算每个框与整张图像的面积占比,构建一个5维向量
Figure BDA0003515631550000063
使用5维向量,计算每个边界框的位置信息包括边界框的左上角坐标、右下角坐标及边界框占整个图像的大小比例,将这5维向量传入线性全连接层得到位置编码Ep,其计算公式如下为:
Figure BDA0003515631550000064
其中w1和b1是全连接层的参数。使用0作为分段信息传入线性全连接层得到分段编码Es,其计算公式为:
Figure BDA0003515631550000065
其中w1和b1是全连接层的参数。将边界框特征传入线性全连接层得到边界框特征的编码Ef,其计算公式为:
Figure BDA0003515631550000066
其中w1和b1是全连接层的参数;将位置编码、分段编码及特征编码相加,得到图像模态的嵌入表示E1=Ep+Es+Ef,也表示为EIi=(e0,e1,e2,…,em)。
同理,对于文本序列,使用递增的自然数序列表示它们的位置信息,传入线性全连接层得到位置编码;使用1作为分段信息传入线性全连接层得到分段编码;将文本传入线性全连接层得到文本的特征编码;最后将位置编码、分段编码及特征编码相加,得到文本的嵌入表示ETi=(e0,e1,e2,…,em);
同理,对于表格序列,堆叠同一行的表格数据,并共享与文本数据相同的编码器,使用递增的自然数序列表示它们的位置信息,传入线性全连接层得到位置编码;使用1作为分段信息传入线性全连接层得到分段编码;将表格传入线性全连接层得到表格的特征编码;最后将位置编码、分段编码及特征编码相加,得到表格的嵌入表示Etabi=(e0,e1,e2,…,em);
同理,对于视频数据,首先采用S3D网络提取具有时空特征的视频嵌入特征,根据视频嵌入特征采用自然数序列表示它们的位置信息,将不同帧的顺序关系进行传入,并将该数据作用于线性全连接层得到位置编码;使用1作为分段信息传入线性全连接层得到分段编码;将视频特征序列传入线性全连接层得到时频的特征编码;最后将位置编码、分段编码及特征编码相加,得到视频数据的嵌入表示Evi=(e0,e1,e2,…,em);
同理,对于音频数据,采用MFCC提取音频数据的频域特征,对于每一个音频特征,采用自然数序列表示它们的位置信息,将不同帧的顺序关系进行传入,并将该数据作用于线性全连接层得到位置编码;使用1作为分段信息传入线性全连接层得到分段编码;将音频特征序列传入线性全连接层得到音频的特征编码;最后将位置编码、分段编码及特征编码相加,得到音频数据的嵌入表示Eai=(e0,e1,e2,…,em)。
S3:如图2所示,构建自协调对比学习的多模态预训练模型;
在一个具体的实施例中,所述的多模态预训练模型包括
对于每种模态数据分别构建不同模态数据间的Transformer对比学习模块,用于学习不同模态数据间的语义对齐;
获取语义对齐的公共多头自注意力网络,用于提取五种模态数据间全面融合的检索特征,其中所述的公共多头自注意力网络的输入长度是每种模态数据堆叠的特征长度。
所述的公共多头自注意力网络对文本、图像、表格、视频及音频特征进行拼接,使用Q和K计算每个向量关注所有特征的权重,再乘以V得到五种模态数据的共同的特征表示,其中Q、K、V由五个模态数据拼接后的特征得到。对于每一种模态数据,所述的公共多头自注意力网络使用多头注意力机制计算对于这五种模态数据所有特征的关注权重,以此得到全面融合后的各个模态数据的特征,所述的公共多头自注意力网络重复迭代训练H次。
S4:将带有遮挡部分特征的不同模态数据利用模态特征编码提取器,学习得到嵌入表示输入到步骤S3的多模态预训练模型进行自监督训练,将各个模态数据进行高层语义融合,并使用自协调对比学习方法不断纠正模态间的关联性,减少模态噪声的影响,在学习过程中恢复出所对应位置的特征。
在一个具体的实施例中,步骤S4,所述的自监督训练具体如下:
通过遮掩标题文本中的词,将带有遮掩词的文本序列输入到多模态预训练模型,多模态预训练模型在训练过程中学习恢复被遮掩的词,以此提取一个具有文本信息的特征表示。
通过遮掩图片中的边界框特征,将带有遮掩的图像框特征序列输入到多模态预训练模型,多模态预训练模型在训练过程中学习恢复被遮掩的边界框特征,以此提取一个具有视觉信息的特征表示。
通过遮掩表格中的实体词,将带有遮掩的表格文本序列输入到多模态预训练模型,多模态预训练模型在训练过程中学习恢复被遮掩的实体词特征,以此提取一个结构化表格信息的特征表示。
通过遮掩视频中的时序嵌入特征,将带有遮掩的时序特征序列输入到多模态预训练模型,多模态预训练模型在训练过程中学习恢复被遮掩的时序序列特征,以此提取一个具有空间视觉信息的特征表示。
通过遮掩音频数据中的频域特征,将带有遮掩的音频频域序列输入到多模态预训练模型,多模态预训练模型在训练过程中学习恢复被遮掩的频域序列特征,以此提取一个具有视觉信息的特征表示。
使用对比学习的损失函数来训练多模态预训练模型,对于成对的图像和文本对,训练过程中缩短其距离;对于不成对的图片文本对,训练过程中拉大其距离,以此学习到具有区分度的图文特征。
具体地,以文本模态为例,通过学习预测一个argmax=Softmax(Et)使得该位置的预测的字典token的与原有的token一致,以达到模型具有一定的特征判定能力。
本实施例使用模态特征编码提取器分别将图像、文本、表格、视频及音频五种模态进行编码特征提取;再利用多模态预训练模型充分融合各个模态的特征编码、位置编码和分段编码及编码特征表示,作为多模态预训练模型的输入;多模态预训练模型使用二种网络层提取图像、文本、表格、视频音频及其相互融合的检索特征。
在一个具体的实施例中,将用于训练的商品数据的图像、文本、表格、视频、音频中的一种或几种模态数据输入到多模态预训练模型进行训练,并将训练提取的检索特征存放于检索库中。
在一个具体的实施例中,对于待需查询的商品样本数据,先通过步骤S1、S2处理后,再输入步骤S4训练好的多模态预训练模型,分别提取每种模态信息单独的的检索特征、和全部或部分模态融合后的模态特征,计算商品所查询特征与单品特征相似度,选取最相近的单品作为结果返回。
所述的商品所查询特征与单品特征相似度按照Cosine距离计算,Cosine距离越小,相似度越大;并按相似度从大到小排序获得查询返回的最为匹配的检索样本。
实施例2
如图3所示,一种基于自协调对比学习的五模态商品预训练方法的检索系统,包括
模态特征编码提取器,用于提取的各个模态数据的特征编码、位置编码和分段编码,并学习不同模态数据的嵌入表示;
多模态预训练模型模块,用于实现自监督训练,将各个模态数据进行高层语义融合,并使用自协调对比学习方法不断纠正模态间的关联性,在学习过程中恢复出所对应位置的特征。
其中所述的多模态预训练模型模块包括Transformer对比学习模块、公共多头自注意力网络模块;
所述的Transformer对比学习模块,用于学习不同模态数据间的语义对齐;
所述的公共多头自注意力网络模块,用于提取五种模态数据间全面融合的检索特征,其中所述的公共多头自注意力网络的输入长度是每种模态数据堆叠的特征长度。
实施例3
一种计算机可读存储介质,其上存储有计算机程序,所述的计算机程序被处理器执行时,实现的方法步骤如下:
S1:根据不同模态数据构建相应的模态特征编码提取器;
S2:结合模态特征编码提取器提取的各个模态数据的特征编码、位置编码和分段编码,学习不同模态数据的嵌入表示;
S3:构建自协调对比学习的多模态预训练模型;
S4:将带有遮挡部分特征的不同模态数据利用模态特征编码提取器,学习得到嵌入表示输入到步骤S3的多模态预训练模型进行自监督训练,将各个模态数据进行高层语义融合,并使用自协调对比学习方法不断纠正模态间的关联性,在学习过程中恢复出所对应位置的特征。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.一种基于自协调对比学习的五模态商品预训练方法,其特征在于:所述的方法包括步骤如下:
S1:根据不同模态数据构建相应的模态特征编码提取器;
S2:结合模态特征编码提取器提取的各个模态数据的特征编码、位置编码和分段编码,学习不同模态数据的嵌入表示;
S3:构建自协调对比学习的多模态预训练模型;
S4:将带有遮挡部分特征的不同模态数据利用模态特征编码提取器,学习得到嵌入表示输入到步骤S3的多模态预训练模型进行自监督训练,将各个模态数据进行高层语义融合,并使用自协调对比学习方法不断纠正模态间的关联性,在学习过程中恢复出所对应位置的特征。
2.根据权利要求1所述的基于自协调对比学习的五模态商品预训练方法,其特征在于:所述的模态数据包括图像、文本、表格、视频、音频五种模态数据;
使用bottom-up-attention网络作为模态特征编码提取器获得图像的边界框及其坐标位置的特征;
使用word-piece作为模态特征编码提取器获得文本的不同token间的关系特征;
使用实体word-piece作为模态特征编码提取器获得表格模态数据的编码表示,具体将每一行数据拼接在一起后,获取不同token间的关系特征;
使用S3D网络作为模态特征编码提取器获得视频中具有时空特性的视频表示;
使用MFCC作为模态特征编码提取器获得音频模态数据的编码表示。
3.根据权利要求2所述的基于自协调对比学习的五模态商品预训练方法,其特征在于:步骤S2,具体学习不同模态数据的嵌入表示如下:
对于bottom-up-attention网络输出的边界框及边界框特征,使用5维向量计算每个边界框的位置信息包括边界框的左上角坐标、右下角坐标及边界框占整个图像的大小比例,将这5维向量传入线性全连接层得到位置编码;使用0作为分段信息传入线性全连接层得到分段编码;将边界框特征传入线性全连接层得到边界框特征的编码;将位置编码、分段编码及特征编码相加,得到图像模态的嵌入表示;
对于文本序列,使用递增的自然数序列表示它们的位置信息,传入线性全连接层得到位置编码;使用1作为分段信息传入线性全连接层得到分段编码;将文本传入线性全连接层得到文本的特征编码;最后将位置编码、分段编码及特征编码相加,得到文本的嵌入表示;
对于表格序列,通过堆叠同一行的表格数据,共享与文本序列一样的编码器,使用递增的自然数序列表示它们的位置信息,传入线性全连接层得到位置编码;使用1作为分段信息传入线性全连接层得到分段编码;将表格传入线性全连接层得到表格的特征编码;最后将位置编码、分段编码及特征编码相加,得到表格的嵌入表示;
对于视频数据,首先采用S3D网络提取具有时空特征的视频嵌入特征,根据视频嵌入特征采用自然数序列表示它们的位置信息,将不同帧的顺序关系进行传入,并将该数据作用于线性全连接层得到位置编码;使用1作为分段信息传入线性全连接层得到分段编码;将视频特征序列传入线性全连接层得到时频的特征编码;最后将位置编码、分段编码及特征编码相加,得到视频数据的嵌入表示;
对于音频数据,采用MFCC提取音频数据的频域特征,对于每一个音频特征,采用自然数序列表示它们的位置信息,将不同帧的顺序关系进行传入,并将该数据作用于线性全连接层得到位置编码;使用1作为分段信息传入线性全连接层得到分段编码;将视频特征序列传入线性全连接层得到音频的特征编码;最后将位置编码、分段编码及特征编码相加,得到音频数据的嵌入表示。
4.根据权利要求3所述的基于自协调对比学习的五模态商品预训练方法,其特征在于:所述的多模态预训练模型包括
对于每种模态数据分别构建不同模态数据间的Transformer对比学习模块,用于学习不同模态数据间的语义对齐;
获取语义对齐的公共多头自注意力网络,用于提取五种模态数据间全面融合的检索特征,其中所述的公共多头自注意力网络的输入长度是每种模态数据堆叠的特征长度。
5.根据权利要求4所述的基于自协调对比学习的五模态商品预训练方法,其特征在于:所述的公共多头自注意力网络对文本、图像、表格、视频及音频特征进行拼接,使用Q和K计算每个向量关注所有特征的权重,再乘以V得到五种模态数据的共同的特征表示,其中Q、K、V由五个模态数据拼接后的特征得到。
6.根据权利要求5所述的基于自协调对比学习的五模态商品预训练方法,其特征在于:所述的公共多头自注意力网络重复迭代训练H次。
7.根据权利要求6所述的基于自协调对比学习的五模态商品预训练方法,其特征在于:步骤S4,所述的自监督训练具体如下:
通过遮掩各个模态数据中的部分特征,将带有遮掩部分特征的模态数据输入到多模态预训练模型,多模态预训练模型在训练过程中学习恢复被遮掩的特征,以此提取一个具有模态数据的特征表示;
使用对比学习的损失函数来训练多模态预训练模型,对于成对的图像和文本对,训练过程中缩短其距离;对于不成对的图片文本对,训练过程中拉大其距离,以此学习到具有区分度的图文特征。
8.根据权利要求1~7任一项所述的基于自协调对比学习的五模态商品预训练方法,其特征在于:将用于训练的商品数据的图像、文本、表格、视频、音频中的一种或几种模态数据输入到多模态预训练模型进行训练,并将训练提取的检索特征存放于检索库中。
9.根据权利要求8所述的基于自协调对比学习的五模态商品预训练方法,其特征在于:对于待需查询的商品样本数据,先通过步骤S1、S2处理后,再输入步骤S4训练好的多模态预训练模型,分别提取每种模态信息单独的的检索特征、和全部或部分模态融合后的模态特征,计算商品所查询特征与单品特征相似度,选取最相近的单品作为结果返回。
10.一种基于权利要求9所述的基于自协调对比学习的五模态商品预训练方法的检索系统,其特征在于:包括
模态特征编码提取器,用于提取的各个模态数据的特征编码、位置编码和分段编码,并学习不同模态数据的嵌入表示;
多模态预训练模型模块,用于实现自监督训练,将各个模态数据进行高层语义融合,并使用自协调对比学习方法不断纠正模态间的关联性,在学习过程中恢复出所对应位置的特征。
CN202210164795.4A 2022-02-22 2022-02-22 一种基于自协调对比学习的五模态商品预训练方法及检索系统 Pending CN114418032A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210164795.4A CN114418032A (zh) 2022-02-22 2022-02-22 一种基于自协调对比学习的五模态商品预训练方法及检索系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210164795.4A CN114418032A (zh) 2022-02-22 2022-02-22 一种基于自协调对比学习的五模态商品预训练方法及检索系统

Publications (1)

Publication Number Publication Date
CN114418032A true CN114418032A (zh) 2022-04-29

Family

ID=81261218

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210164795.4A Pending CN114418032A (zh) 2022-02-22 2022-02-22 一种基于自协调对比学习的五模态商品预训练方法及检索系统

Country Status (1)

Country Link
CN (1) CN114418032A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115063606A (zh) * 2022-08-16 2022-09-16 有米科技股份有限公司 基于多模态数据的交互训练方法及装置
CN115860102A (zh) * 2023-02-10 2023-03-28 北京百度网讯科技有限公司 一种自动驾驶感知模型的预训练方法、装置、设备和介质
CN115909358A (zh) * 2022-07-27 2023-04-04 广州市玄武无线科技股份有限公司 商品规格识别方法、装置、终端设备及计算机存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115909358A (zh) * 2022-07-27 2023-04-04 广州市玄武无线科技股份有限公司 商品规格识别方法、装置、终端设备及计算机存储介质
CN115909358B (zh) * 2022-07-27 2024-02-13 广州市玄武无线科技股份有限公司 商品规格识别方法、装置、终端设备及计算机存储介质
CN115063606A (zh) * 2022-08-16 2022-09-16 有米科技股份有限公司 基于多模态数据的交互训练方法及装置
CN115063606B (zh) * 2022-08-16 2022-12-16 有米科技股份有限公司 基于多模态数据的交互训练方法及装置
CN115860102A (zh) * 2023-02-10 2023-03-28 北京百度网讯科技有限公司 一种自动驾驶感知模型的预训练方法、装置、设备和介质
CN115860102B (zh) * 2023-02-10 2023-05-23 北京百度网讯科技有限公司 一种自动驾驶感知模型的预训练方法、装置、设备和介质

Similar Documents

Publication Publication Date Title
WO2021223567A1 (zh) 内容处理方法、装置、计算机设备和存储介质
CN111488931B (zh) 文章质量评估方法、文章推荐方法及其对应的装置
CN114418032A (zh) 一种基于自协调对比学习的五模态商品预训练方法及检索系统
CN111263238B (zh) 基于人工智能的生成视频评论的方法及设备
CN114840705B (zh) 一种基于多模态预训练模型的组合商品检索方法及系统
CN113297370B (zh) 基于多交互注意力的端到端多模态问答方法及系统
CN114445201A (zh) 一种基于多模态预训练模型的组合商品检索方法及系统
CN113239159B (zh) 基于关系推理网络的视频和文本的跨模态检索方法
CN112738556A (zh) 视频处理方法及装置
CN110599592A (zh) 一种基于文本的三维室内场景重建方法
CN115359383A (zh) 跨模态特征提取、检索以及模型的训练方法、装置及介质
CN116611024A (zh) 一种基于事实和情感对立性的多模态反讽检测方法
CN116561305A (zh) 基于多模态和transformer的假新闻检测方法
CN115146100A (zh) 一种基于反事实推理的跨模态检索模型、方法及计算机设备
CN111651635A (zh) 一种基于自然语言描述的视频检索方法
CN117765450B (zh) 一种视频语言理解方法、装置、设备及可读存储介质
CN116955707A (zh) 内容标签的确定方法、装置、设备、介质及程序产品
CN115964560A (zh) 基于多模态预训练模型的资讯推荐方法及设备
CN118051630A (zh) 一种基于多模态共识感知和动量对比的图文检索系统及其方法
CN116704398A (zh) 一种全方位、多信息融合的短视频价值评估方法
CN110851629A (zh) 一种图像检索的方法
CN116186312A (zh) 用于数据敏感信息发现模型的多模态数据增强方法
CN116955599A (zh) 一种类目确定的方法、相关装置、设备以及存储介质
CN110969187B (zh) 一种图谱迁移的语义分析方法
CN117746441B (zh) 一种视觉语言理解方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination