CN114445201A - 一种基于多模态预训练模型的组合商品检索方法及系统 - Google Patents

一种基于多模态预训练模型的组合商品检索方法及系统 Download PDF

Info

Publication number
CN114445201A
CN114445201A CN202210143468.0A CN202210143468A CN114445201A CN 114445201 A CN114445201 A CN 114445201A CN 202210143468 A CN202210143468 A CN 202210143468A CN 114445201 A CN114445201 A CN 114445201A
Authority
CN
China
Prior art keywords
image
commodity
text
training model
combined
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210143468.0A
Other languages
English (en)
Inventor
詹巽霖
吴洋鑫
董晓
梁小丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202210143468.0A priority Critical patent/CN114445201A/zh
Publication of CN114445201A publication Critical patent/CN114445201A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Library & Information Science (AREA)
  • Business, Economics & Management (AREA)
  • Evolutionary Computation (AREA)
  • Finance (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Accounting & Taxation (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Development Economics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多模态预训练模型的组合商品检索方法及系统,其中方法包括步骤如下:将商品图像划分为单品图像和组合品图像;训练一个组合商品图像检测器;获取并结合组合商品图像中文本模态和图片模块的特征编码、位置编码和分段编码,学习嵌入表示,并输入构建好的多模态预训练模型;通过商品检测器提取的边界框和边界框特征作为图像特征,结合文本特征,输入多模态预训练模型进行自监督训练;采用多模态预训练模型提取单品图像的图片模态和文本模态的检索特征,并存放于检索库中;多模态预训练模型根据组合品图像中每个目标商品的边界框及边界框特征,提取图文融合的检索特征,计算组合品特征与检索库中单品特征的预先距离作为商品相似度,选取最相似的单品作为结果返回。

Description

一种基于多模态预训练模型的组合商品检索方法及系统
技术领域
本发明涉及商品检索技术领域,更具体的,涉及一种基于多模态预训练模型的组合商品检索方法及系统。
背景技术
互联网技术的发展使得在线电商平台迅速扩展,由于其便捷性,电商平台得到越来越多人的青睐。电商领域商品种类的丰富度和用户的购物需求极大增加。线上商品具有多样性,更多商品以套装的形式呈现,即多个不同的商品组合在一个套装商品中。同时,用户在浏览一个套装商品的时候,可能需要查询该套装对应的单品,以便进行价格比对或者单独购买。在数据规模大及缺乏标注的真实场景下,如何进行多模态的组合商品检索是一个具有实用价值但尚未解决的问题。
组合商品检索在电商领域具有较高的实用价值和应用前景。第一,有利于提高商品搜索精度,帮助线上用户搜索更加准确和具体的商品;第二,可用于构建电商知识图谱,挖掘商品关系;第三,通过组合商品检索得到的商品关系可用于商品推荐,提升购物平台推荐效果。
但是在商品检索领域,现有方法都是输入单一模态的数据,比如一个文本或者图片,然后在检索库中进行匹配搜索。然而在电商领域,图片和文本都广泛存在于检索库中,由于缺乏对多个模态数据的充分利用,当前这种检索方式大大限制了真实的使用场景。更重要的是,现有的方法主要关注在相对简单的情况,比如图片级别的检索,图片级别的检索不会判断商品图片中是否有多个物体以及对这些物体进行区分,而实例级别的商品检索在于检索回组合商品中的所有单品,这种检索方式目前并没有被探索过。此外,之前的方法都依赖标注信息来训练,这种方式在大规模真实场景数据集时缺乏泛化性。
发明内容
本发明为了解决目前商品检索依靠单模态数据以及图片级别检索导致的准确性低下的问题,提供了一种基于多模态预训练模型的组合商品检索方法及系统,其具有高泛化性、高可用性,高准确性的优点。
为实现上述本发明目的,采用的技术方案如下:
一种基于多模态预训练模型的组合商品检索方法,所述的方法包括步骤如下:
S1:将商品图像划分为单品图像和组合品图像,其中所述的单品图像表示只有一个商品,组合品图像表示包括多个独立商品;
S2:训练一个组合商品图像检测器,用于检测组合商品图像中的每个独立商品;
S3:获取并结合组合商品图像中文本模态和图片模块的特征编码、位置编码和分段编码,由此学习嵌入表示;
S4:构建多模态预训练模型,将学习到的嵌入表示作为多模态预训练模型的输入;
S5:通过商品检测器提取的边界框和边界框特征作为图像特征,结合文本特征,输入到多模态预训练模型进行自监督训练;
S6:将单品图像的图片模态和文本模态输入到多模态预训练模型提取检索特征,并将检索特征存放于检索库中;
S7:提取组合品图像中每个目标商品的边界框及边界框特征,输入步骤S5训练好的多模态预训练模型,提取图文融合的检索特征,计算组合品特征与检索库中单品特征的余弦距离作为特征相似度,选取最相似的单品作为结果返回。
优选地,步骤S1,采用基于规则的方法划分为单品图像和组合品图像,将存在“套装”、“组合”、“组套”、“件套”商品标题的商品图像划分为组合品图像,否则划分为单品图像。
进一步地,采用数据增强的方法训练组合商品图像检测器,具体如下:
先计算单品图像中的颜色面积占比,选择白色面积占比大于60%的图像作为白底图,使用GrabCut分割方法获取单品图像的前景,再选取自然图像作为背景,使用“复制、粘贴”的方式将多个前景目标和背景图像合成一张带有边界框标注的图片;
根据前景目标粘贴于背景图像的位置,选取前景目标的边界框坐标作为图像检测器训练的边界框标注,使用前景和背景两个类别,训练一个组合商品图像检测器,以此检测组合商品中的每个独立商品。
再进一步地,对于图片模态数据采用bottom-up-attention网络提取主要目标框及其坐标位置的特征。
再进一步地,对于bottom-up-attention网络输出的图像框及框特征,使用5维向量计算每个框的位置信息包括框的左上角坐标、右下角坐标及框占整个图像的大小比例,将这5维向量传入线性全连接层得到位置编码;使用0作为分段信息传入线性全连接层得到分段编码;将框特征传入线性全连接层得到框特征的编码;最后将位置编码、分段编码及特征编码相加,得到图片模态的嵌入表示。
再进一步地,对于文本模态数据使用Bert网络来提取其不同token间的关系特征。
再进一步地,对于文本序列,使用递增的自然数序列表示他们的位置信息,传入线性全连接层得到位置编码;使用1作为分段信息传入线性全连接层得到分段编码;将文本传入线性全连接层得到文本的特征编码;最后将位置编码、分段编码及特征编码相加,得到文本的嵌入表示。
再进一步地,所述的多模态预训练模型使用三种Transformer网络层提取图片和文本相互融合的检索特征,包括:
文本-视觉Transformer网络,用于根据输入的图片嵌入表示、文本嵌入表示提取文本的浅层特征和图片的浅层特征;
交叉Transformer网络,用于根据图片的线层特征和文本的线层特征实现图片模态和文本模态相互关联,得到两个模态相互关联之后的特征;
公共Transformer网络,用于提取文本和图片全面融合的图片特征。
再进一步地,步骤S5,所述的自监督训练具体如下:
通过遮掩标题文本中的词,将带有遮掩词的文本序列输入到训练好的多模态预训练模型,在训练过程中学习恢复被遮掩的词,以此提取一个具有文本信息的特征表示;
通过遮掩图片中的边界框特征,将带有遮掩的图片框特征序列输入到多模态预训练模型,在训练过程中学习恢复被遮掩的边界框特征,以此提取一个具有视觉信息的特征表示;
使用对比学习的损失函数来训练网络,对于成对的图片和文本对,训练过程中缩短其距离;对于不成对的图片文本对,训练过程中拉大其距离,以此学习到具有区分度的图文特征。
一种基于所述的多模态预训练模型的组合商品检索方法的系统,所述的系统包括样本构造模块、图像检测器训练模块、学习嵌入表示模块、多模态预训练模型模块、单品特征提取模块、组合品特征提取模块;其中,
所述的样本构造模块,用于将商品图像划分为单品图像和组合品图像;
所述的图像检测器训练模块,用于训练一个用于检测组合商品图像中的每个独立商品的图像检测器;
所述的学习嵌入表示模块,用于获取并结合组合商品图像中文本模态和图片模块的特征编码、位置编码和分段编码,学习嵌入表示;
所述的多模态预训练模型模块,用于构建多模态预训练模型,并将通过商品检测器提取的边界框和边界框特征作为图像特征,结合文本特征,输入到多模态预训练模型进行自监督训练;
所述的单品特征提取模块,用于将单品图像的图片模态和文本模态输入到多模态预训练模型提取检索特征,并将检索特征存放于检索库中;
所述的组合品特征提取模块,用于将提取组合品图像中每个目标商品的边界框及边界框特征输入多模态预训练模型,根据获得图文融合的检索特征,计算组合品特征与检索库中单品特征的余弦距离作为商品相似度,选取最相似的单品作为结果返回。
本发明的有益效果如下:
相比于监督学习的图像检索方法,本发明使用自监督学习的方式进行训练,仅仅依赖天然存在的图片和标题信息而不依赖任何人工标注的类别信息。因此容易扩展到大规模的数据上,学习到一个更加判定的特征表示,确保实现高质量的实例级别商品检索任务,具有较强的泛化性。
相比于只使用单一模态的信息进行检索,本发明使用图片和文本两个模态的信息,能够有效利用两个模态之间的信息相互补充,将图片特征和文本特征进行融合,提取更加有区分度的图文检索特征,弥补了单一模态信息不全的问题。
相比于大多数多模态预训练模型使用已训练好的自然图像检测器提取图像特征进行训练,本发明使用数据增强的方式训练一个商品图像的目标检测器,解决了自然图像和商品图像数据具有数据分布差异的问题,避免多模态预训练模型受到上游检测器影响的问题,提高了多模态预训练模型的特征表示效果,有利于提高组合商品检索的准确性。
附图说明
图1是实施例1所述的组合商品检索方法的步骤流程图。
图2是实施例1所述的组合商品检索方法的网络框架示意图。
图3是实施例2所述的组合商品检索系统的框架示意图。
具体实施方式
下面结合附图和具体实施方式对本发明做详细描述。
实施例1
如图1所示,一种基于多模态预训练模型的组合商品检索方法,所述的方法包括步骤如下:
S1:将商品图像划分为单品图像和组合品图像,其中所述的单品图像表示只有一个商品,组合品图像表示包括多个独立商品;
S2:训练一个组合商品图像检测器,用于检测组合商品图像中的每个独立商品;
S3:获取并结合组合商品图像中文本模态和图片模块的特征编码、位置编码和分段编码,由此学习嵌入表示;
S4:构建多模态预训练模型,将学习到的嵌入表示作为多模态预训练模型的输入;
S5:通过商品检测器提取的边界框和边界框特征作为图像特征,结合文本特征,输入到多模态预训练模型进行自监督训练;
S6:将单品图像的图片模态和文本模态输入到多模态预训练模型提取检索特征,并将检索特征存放于检索库中;
S7:提取组合品图像中每个目标商品的边界框及边界框特征,输入步骤S5训练好的多模态预训练模型,提取图文融合的检索特征,计算组合品特征与检索库中单品特征的余弦距离作为商品相似度,选取最相似的单品作为结果返回。
在一个具体的实施例中,步骤S1,对于所有的商品数据,采用基于规则的方法划分为单品图像和组合品图像,将存在“套装”、“组合”、“组套”、“件套”商品标题的商品图像划分为组合品图像,否则划分为单品图像。
具体地,每个商品(I,T)由图片I和对应的标题T组成,根据商品标题是否存在“套装”、“组合”、“组套”、“件套”等词语将商品划分为组合商品集和单品集,单品集中的每个样本只包含一个商品,记为
Figure BDA0003507653230000051
组合商品集中的每个样本包含多个商品,记为
Figure BDA0003507653230000052
在一个具体的实施例中,采用数据增强的方法训练组合商品图像检测器,具体如下:
先计算单品图像中的颜色面积占比,选择白色面积占比大于60%的图像作为白底图,使用GrabCut分割方法获取单品图像的前景,再选取自然图像作为背景,使用“复制、粘贴”的方式将多个前景目标和背景图像合成一张带有边界框标注的图片;
根据前景目标粘贴于背景图像的位置,选取前景目标的边界框坐标作为图像检测器训练的边界框标注,使用前景和背景两个类别,训练一个组合商品图像检测器,以此检测组合商品中的每个独立商品。
在一个具体的实施例中,对于图片模态数据采用bottom-up-attention网络提取主要目标框及其坐标位置的特征。
在一个具体的实施例中,对于bottom-up-attention网络输出的图像框B=(b0,b1,b2,…,bK)及框特征F=(f0,f1,f2,…,fK)作为图像特征输入I=((b0,f0),(b1,f1),(b2,f2),…,(bK,fK)),使用5维向量计算每个框的位置信息包括框的左上角坐标、右下角坐标及框占整个图像的大小比例,将这5维向量传入线性全连接层得到位置编码;使用0作为分段信息传入线性全连接层得到分段编码;将框特征传入线性全连接层得到框特征的编码;最后将位置编码、分段编码及特征编码相加,得到图片模态的嵌入表示Eimg
具体地,如图2所示,将边界框特征F经过全连接层得到框特征的编码
Figure BDA0003507653230000061
其计算公式为:
Figure BDA0003507653230000062
其中,w1和b1是全连接层的参数,σ是激活函数。
根据bottom-up-attention网络提取的边界框
Figure BDA0003507653230000063
计算每个框与整张图片的面积占比,构建一个5维向量
Figure BDA0003507653230000064
经过全连接层输出位置编码向量
Figure BDA0003507653230000065
其计算公式为:
Figure BDA0003507653230000066
其中w2和b2是全连接层的参数,σ是激活函数。
将整数0作为图像模态的分段信息Simg经过全连接层得到分段编码向量
Figure BDA0003507653230000067
其计算公式为:
Figure BDA0003507653230000068
其中w3和b3是全连接层的参数,σ是激活函数。
将特征编码向量、位置编码向量和分段编码向量相加得到图片模态的嵌入表示Eimg
Figure BDA0003507653230000069
在一个具体的实施例中,对于商品标题T=(t0,t1,t2,…,tL),也即文本模态数据使用Bert网络来提取其不同token间的关系特征。
在一个具体的实施例中,对于文本序列,使用递增的自然数序列表示他们的位置信息,传入线性全连接层得到位置编码;使用1作为分段信息传入线性全连接层得到分段编码;将文本传入线性全连接层得到文本的特征编码;最后将位置编码、分段编码及特征编码相加,得到文本的嵌入表示Etxt。具体如下:
将商品标题T经过嵌入层得到特征编码向量
Figure BDA0003507653230000071
其计算公式为:
Figure BDA0003507653230000072
其中,w4和b4是全连接层的参数,σ是激活函数。
将标题中单词的位置信息(自然数顺序)P经过全连接层得到位置编码向量
Figure BDA0003507653230000073
其计算公式为:
Figure BDA0003507653230000074
其中w5和b5是全连接层的参数,σ是激活函数。
将整数1作为文本模态的分段信息Stxt经过全连接层得到分段编码向量
Figure BDA0003507653230000075
其计算公式为:
Figure BDA0003507653230000076
其中w6和b6是全连接层的参数,σ是激活函数。
将特征编码向量、位置编码向量和分段编码向量相加得到文本模态的嵌入表示Etxt
Figure BDA0003507653230000077
在一个具体的实施例中,将图片嵌入表示Eimg和文本嵌入表示Etxt入到多模态预训练模型,提取图像和文本相互融合的检索特征H。所述的多模态预训练模型使用三种Transformer网络层提取图片和文本相互融合的检索特征,包括:
文本-视觉Transformer网络,用于根据输入的图片嵌入表示、文本嵌入表示提取文本和图片的浅层特征;具体如下:
首先使用图片Transformer和文本Transformer分别对图片嵌入表示Eimg和文本嵌入特征Etxt进行编码,得到图片模态和文本模态各自的线层特征
Figure BDA0003507653230000078
Figure BDA0003507653230000079
图片Transformer和文本Transformer各有四层,每层的计算公式为:
Figure BDA00035076532300000710
Figure BDA00035076532300000711
Figure BDA00035076532300000712
Figure BDA00035076532300000713
其中,t-1和t是Transformer层编号;LN是LayerNorm层,进行特征归一化;MLP是全连接层;MSA是多头注意力层,其计算公式如下:
Figure BDA0003507653230000081
Headi=Attention(HWi Q,HWi K,HWi V)
MSA(H)=Concat(Head1,...,Headh)WO
所述的文本-视觉Transformer网络层重复进行L=4次,再传入下一种网络。
交叉Transformer网络,用于根据图片的线层特征
Figure BDA0003507653230000082
和文本的线层特征
Figure BDA0003507653230000083
实现图片模态和文本模态相互关联,得到两个模态相互关联之后的特征
Figure BDA0003507653230000084
Figure BDA0003507653230000085
具体地,所述的交叉Transformer网络包括两个独立的交叉多头自注意力网络,通过交换图片模态和文本模态中的Q和K来实现;对于文本,交叉Transformer网络计算对图片的关注权重,以此得到交叉注意后的文本特征;对于图像,交叉Transformer网络计算对文本的关注权重,以此得到交叉注意后的图片特征;该层重复进行M=4次,再传入下一种网络;具体
其计算公式如下:
Figure BDA0003507653230000086
Figure BDA0003507653230000087
Figure BDA0003507653230000088
Figure BDA0003507653230000089
其中,CMSA是跨模态交叉多头注意力网络,其计算公式如下:
cMSA(Himg,Htxt)=Concat(Head1(Himg,Htxt),…,Headn(Himg,Htxt))
CMSA(Htxt,Himg)=Concat(Head1(Htxt,Himg),…,Headn(Htxt,Himg))
Headi(Himg,Htxt)=Attention(HimgWi Q,HtxtWi K,HtxtWi V)
Headi(Htxt,Himg)=Attention(HtxtWi Q,HimgWi K,HimgWi V)
公共Transformer网络,用于提取文本和图片全面融合的图片特征;在公共Transformer网络中,文本特征和图片特征进行拼接,使用Q和K计算每个向量关注所有特征的权重,再乘以V得到文本的特征表示和图片的特征表示,其中Q、K、V由两个模态拼接后的特征得到;对于文本,使用多头注意力机制计算对于文本和图片两个模态所有特征的关注权重,以此得到全面融合后的文本特征;对于图片,使用多头注意力机制计算对于图片和文本两个模态所有特征的关注权重,以此得到全面融合后的图片特征;该层重复迭代H=4次。具体如下:
从交叉Transformer网络出来的图片特征
Figure BDA00035076532300000810
和文本特征
Figure BDA00035076532300000811
传入公共Transformer中,进行图片和文本更加全面的相互关注,即图片模态中的每块区域关注其他区域的特征以及所有文字的特征,文本模态中的每个字关注其他字的特征以及所有图片的特征。其计算公式如下:
Figure BDA0003507653230000091
Figure BDA0003507653230000092
Figure BDA0003507653230000093
在一个具体的实施例中,步骤S5,所述的自监督训练具体如下:
通过遮掩标题文本中的词,将带有遮掩词的文本序列输入到训练好的多模态预训练模型,在训练过程中学习恢复被遮掩的词,以此提取一个具有文本信息的特征表示;
通过遮掩图片中的边界框特征,将带有遮掩的图片框特征序列输入到多模态预训练模型,在训练过程中学习恢复被遮掩的边界框特征,以此提取一个具有视觉信息的特征表示;
使用对比学习的损失函数来训练网络,对于成对的图片和文本对,训练过程中缩短其距离;对于不成对的图片文本对,训练过程中拉大其距离,以此学习到具有区分度的图文特征。
具体地,使用三种预训练任务来训练上述的多模态预训练模型,包括文本遮掩任务,图像区域遮掩任务和跨模态对比学习任务。
具体而言,对于每个图片文本对(I,T),I={I1,I2,,I3,,…,IK,},T={T1,T2,,T3,,…,TL,}文本遮掩任务是将输入的单词以15%的概率替换成“[MASK]”,多模态预训练模型根据剩下的单词以及图片来预测该遮掩的单词,其损失函数为:
Figure BDA0003507653230000094
图片区域遮掩任务是将输入的图片框特征以15%的概率替换成0向量,所述的多模态预训练模型根据剩下的图片区域以及句子单词来预测该遮掩的图片区域特征,其损失函数为:
Figure BDA0003507653230000095
除了不同模态特征的学习之外,所述的多模态预训练模型需要保证不同输入模态之间的一致性以便学习到图文之间的对应关系,因此使用跨模态对比学习任务来对齐图片模态和文本模态。对于一个训练批中的N个图片文本对,共有2N个数据。对于每个样本,将对应的另一个模态数据视为正样本对,将剩下样本视为负样本对。对于输入的图文对((Ii,Ti)),文本Transformer和图像Transformer输出的每对图文特征
Figure BDA0003507653230000101
其损失函数为:
Figure BDA0003507653230000102
其中,sim(u,v)=uTv/||u||||v||用于计算图文对u和v之间的相似度,τ是温度调节参数,
Figure BDA0003507653230000103
是一个二元指标,当且仅当i!=j时返回1。该对比损失函数会使得成对的图文向量拉近,而不成对的图文向量拉远。
实施例2
基于实施例1所述的多模态预训练模型的组合商品检索方法,本实施例还提供了一种多模态预训练模型的组合商品检索系统,所述的系统包括样本构造模块、图像检测器训练模块、学习嵌入表示模块、多模态预训练模型模块、单品特征提取模块、组合品特征提取模块;其中,
所述的样本构造模块,用于将商品图像划分为单品图像和组合品图像;
所述的图像检测器训练模块,用于训练一个用于检测组合商品图像中的每个独立商品的图像检测器;
所述的学习嵌入表示模块,用于获取并结合组合商品图像中文本模态和图片模块的特征编码、位置编码和分段编码,学习嵌入表示;
所述的多模态预训练模型模块,用于构建多模态预训练模型,并将通过商品检测器提取的边界框和边界框特征作为图像特征,结合文本特征,输入到多模态预训练模型进行自监督训练;
所述的单品特征提取模块,用于将单品图像的图片模态和文本模态输入到多模态预训练模型提取检索特征,并将检索特征存放于检索库中;
所述的组合品特征提取模块,用于将提取组合品图像中每个目标商品的边界框及边界框特征输入多模态预训练模型,根据获得图文融合的检索特征,计算组合品特征与检索库中单品特征的余弦距离作为商品相似度,选取最相似的单品作为结果返回。
在一个具体的实施例中,所述的多模态预训练模型模块还包括
文本-视觉Transformer网络模块,用于提取文本和图片的浅层特征,使用Q1和K1计算关注权重,再乘以V1得到文本的特征表示和图片的特征表示,其中Q1、K1、V1来自图片和文本自身模态;
交叉Transformer网络模块,用于提取文本和图片相互关注的特征;所述的交叉Transformer网络包括两个独立的交叉多头自注意力网络,通过交换图片模态和文本模态中的Q1和K1来实现;对于文本,交叉Transformer网络计算对图片的关注权重,以此得到交叉注意后的文本特征;对于图像,交叉Transformer网络计算对文本的关注权重,以此得到交叉注意后的图片特征;
公共Transformer网络模块,用于提取文本和图片全面融合的特征,在公共Transformer网络中,文本特征和图片特征进行拼接,使用Q2和K2计算每个向量关注所有特征的权重,再乘以V2得到文本的特征表示和图片的特征表示,其中Q2、K2、V2由两个模态拼接后的特征得到;对于文本,使用多头注意力机制计算对于文本和图片两个模态所有特征的关注权重,以此得到全面融合后的文本特征;对于图片,使用多头注意力机制计算对于图片和文本两个模态所有特征的关注权重,以此得到全面融合后的图片特征。
实施例3
一种计算机系统,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述的处理器执行所述的计算机程序时,实现的方法步骤如下:
S1:将商品图像划分为单品图像和组合品图像,其中所述的单品图像表示只有一个商品,组合品图像表示包括多个独立商品;
S2:训练一个组合商品图像检测器,用于检测组合商品图像中的每个独立商品;
S3:获取并结合组合商品图像中文本模态和图片模块的特征编码、位置编码和分段编码,由此学习嵌入表示;
S4:构建多模态预训练模型,将学习到的嵌入表示作为多模态预训练模型的输入;
S5:通过商品检测器提取的边界框和边界框特征作为图像特征,结合文本特征,输入到多模态预训练模型进行自监督训练;
S6:将单品图像的图片模态和文本模态输入到多模态预训练模型提取检索特征,并将检索特征存放于检索库中;
S7:提取组合品图像中每个目标商品的边界框及边界框特征,输入步骤S5训练好的多模态预训练模型,提取图文融合的检索特征,计算组合品特征与检索库中单品特征的余弦距离作为商品相似度,选取最相似的单品作为结果返回。
实施例4
一种计算机可读存储介质,其上存储有计算机程序,所述的计算机程序被处理器执行时,实现的方法步骤如下:
S1:将商品图像划分为单品图像和组合品图像,其中所述的单品图像表示只有一个商品,组合品图像表示包括多个独立商品;
S2:训练一个组合商品图像检测器,用于检测组合商品图像中的每个独立商品;
S3:获取并结合组合商品图像中文本模态和图片模块的特征编码、位置编码和分段编码,由此学习嵌入表示;
S4:构建多模态预训练模型,将学习到的嵌入表示作为多模态预训练模型的输入;
S5:通过商品检测器提取的边界框和边界框特征作为图像特征,结合文本特征,输入到多模态预训练模型进行自监督训练;
S6:将单品图像的图片模态和文本模态输入到多模态预训练模型提取检索特征,并将检索特征存放于检索库中;
S7:提取组合品图像中每个目标商品的边界框及边界框特征,输入步骤S5训练好的多模态预训练模型,提取图文融合的检索特征,计算组合品特征与检索库中单品特征的余弦距离作为商品相似度,选取最相似的单品作为结果返回。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.一种基于多模态预训练模型的组合商品检索方法,其特征在于:所述的方法包括步骤如下:
S1:将商品图像划分为单品图像和组合品图像,其中所述的单品图像表示只有一个商品,组合品图像表示包括多个独立商品;
S2:训练一个组合商品图像检测器,用于检测组合商品图像中的每个独立商品;
S3:获取并结合组合商品图像中文本模态和图片模块的特征编码、位置编码和分段编码,由此学习嵌入表示;
S4:构建多模态预训练模型,将学习到的嵌入表示作为多模态预训练模型的输入;
S5:通过商品检测器提取的边界框和边界框特征作为图像特征,结合文本特征,输入到多模态预训练模型进行自监督训练;
S6:将单品图像的图片模态和文本模态输入到多模态预训练模型提取检索特征,并将检索特征存放于检索库中;
S7:提取组合品图像中每个目标商品的边界框及边界框特征,输入步骤S5训练好的多模态预训练模型,提取图文融合的检索特征,计算组合品特征与检索库中单品特征的余弦距离作为商品相似度,选取最相似的单品作为结果返回。
2.根据权利要求1所述的基于多模态预训练模型的组合商品检索方法,其特征在于:步骤S1,采用基于规则的方法划分为单品图像和组合品图像,将存在“套装”、“组合”、“组套”、“件套”商品标题的商品图像划分为组合品图像,否则划分为单品图像。
3.根据权利要求2所述的基于多模态预训练模型的组合商品检索方法,其特征在于:采用数据增强的方法训练组合商品图像检测器,具体如下:
先计算单品图像中的颜色面积占比,选择白色面积占比大于60%的图像作为白底图,使用GrabCut分割方法获取单品图像的前景,再选取自然图像作为背景,使用“复制、粘贴”的方式将多个前景目标和背景图像合成一张带有边界框标注的图片;
根据前景目标粘贴于背景图像的位置,选取前景目标的边界框坐标作为图像检测器训练的边界框标注,使用前景和背景两个类别,训练一个组合商品图像检测器,以此检测组合商品中的每个独立商品。
4.根据权利要求3所述的基于多模态预训练模型的组合商品检索方法,其特征在于:对于图片模态数据采用bottom-up-attention网络提取主要目标框及其坐标位置的特征。
5.根据权利要求4所述的基于多模态预训练模型的组合商品检索方法,其特征在于:对于bottom-up-attention网络输出的图像框及框特征,使用5维向量计算每个框的位置信息包括框的左上角坐标、右下角坐标及框占整个图像的大小比例,将这5维向量传入线性全连接层得到位置编码;使用0作为分段信息传入线性全连接层得到分段编码;将框特征传入线性全连接层得到框特征的编码;最后将位置编码、分段编码及特征编码相加,得到图片模态的嵌入表示。
6.根据权利要求4所述的基于多模态预训练模型的组合商品检索方法,其特征在于:对于文本模态数据使用Bert网络来提取其不同token间的关系特征。
7.根据权利要求6所述的基于多模态预训练模型的组合商品检索方法,其特征在于:对于文本序列,使用递增的自然数序列表示他们的位置信息,传入线性全连接层得到位置编码;使用1作为分段信息传入线性全连接层得到分段编码;将文本传入线性全连接层得到文本的特征编码;最后将位置编码、分段编码及特征编码相加,得到文本的嵌入表示。
8.根据权利要求6所述的基于多模态预训练模型的组合商品检索方法,其特征在于:所述的多模态预训练模型使用三种Transformer网络层提取图片和文本相互融合的检索特征,包括:
文本-视觉Transformer网络,用于根据输入的图片嵌入表示、文本嵌入表示提取文本的浅层特征和图片的浅层特征;
交叉Transformer网络,根据图片的线层特征和文本的线层特征实现图片模态和文本模态相互关联,得到两个模态相互关联之后的特征;
公共Transformer网络,用于提取文本和图片全面融合的图片特征。
9.根据权利要求6所述的基于多模态预训练模型的组合商品检索方法,其特征在于:步骤S5,所述的自监督训练具体如下:
通过遮掩标题文本中的词,将带有遮掩词的文本序列输入到训练好的多模态预训练模型,在训练过程中学习恢复被遮掩的词,以此提取一个具有文本信息的特征表示;
通过遮掩图片中的边界框特征,将带有遮掩的图片框特征序列输入到多模态预训练模型,在训练过程中学习恢复被遮掩的边界框特征,以此提取一个具有视觉信息的特征表示;
使用对比学习的损失函数来训练网络,对于成对的图片和文本对,训练过程中缩短其距离;对于不成对的图片文本对,训练过程中拉大其距离,以此学习到具有区分度的图文特征。
10.一种基于权利要求1~9任一项所述的多模态预训练模型的组合商品检索方法的系统,其特征在于:所述的系统包括样本构造模块、图像检测器训练模块、学习嵌入表示模块、多模态预训练模型模块、单品特征提取模块、组合品特征提取模块;其中,
所述的样本构造模块,用于将商品图像划分为单品图像和组合品图像;
所述的图像检测器训练模块,用于训练一个用于检测组合商品图像中的每个独立商品的图像检测器;
所述的学习嵌入表示模块,用于获取并结合组合商品图像中文本模态和图片模块的特征编码、位置编码和分段编码,学习嵌入表示;
所述的多模态预训练模型模块,用于构建多模态预训练模型,并将通过商品检测器提取的边界框和边界框特征作为图像特征,结合文本特征,输入到多模态预训练模型进行自监督训练;
所述的单品特征提取模块,用于将单品图像的图片模态和文本模态输入到多模态预训练模型提取检索特征,并将检索特征存放于检索库中;
所述的组合品特征提取模块,用于将提取组合品图像中每个目标商品的边界框及边界框特征输入多模态预训练模型,根据获得图文融合的检索特征,计算组合品特征与检索库中单品特征的余弦距离作为商品相似度,选取最相似的单品作为结果返回。
CN202210143468.0A 2022-02-16 2022-02-16 一种基于多模态预训练模型的组合商品检索方法及系统 Pending CN114445201A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210143468.0A CN114445201A (zh) 2022-02-16 2022-02-16 一种基于多模态预训练模型的组合商品检索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210143468.0A CN114445201A (zh) 2022-02-16 2022-02-16 一种基于多模态预训练模型的组合商品检索方法及系统

Publications (1)

Publication Number Publication Date
CN114445201A true CN114445201A (zh) 2022-05-06

Family

ID=81372927

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210143468.0A Pending CN114445201A (zh) 2022-02-16 2022-02-16 一种基于多模态预训练模型的组合商品检索方法及系统

Country Status (1)

Country Link
CN (1) CN114445201A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114723843A (zh) * 2022-06-01 2022-07-08 广东时谛智能科技有限公司 多模态融合生成虚拟服装方法、装置、设备及存储介质
CN115100472A (zh) * 2022-06-20 2022-09-23 北京达佳互联信息技术有限公司 展示对象识别模型的训练方法、装置和电子设备
CN115100582A (zh) * 2022-08-25 2022-09-23 有米科技股份有限公司 基于多模态数据的模型训练方法及装置
CN115546590A (zh) * 2022-12-05 2022-12-30 杭州联汇科技股份有限公司 一种基于多模态预训练持续学习的目标检测优化方法
CN115909358A (zh) * 2022-07-27 2023-04-04 广州市玄武无线科技股份有限公司 商品规格识别方法、装置、终端设备及计算机存储介质
CN116662599A (zh) * 2023-07-28 2023-08-29 知呱呱(天津)大数据技术有限公司 一种基于对比学习算法的多模态商标检索方法及系统
CN117151826A (zh) * 2023-09-13 2023-12-01 广州数说故事信息科技有限公司 多模态电商商品对齐方法、装置、电子设备及存储介质

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114723843A (zh) * 2022-06-01 2022-07-08 广东时谛智能科技有限公司 多模态融合生成虚拟服装方法、装置、设备及存储介质
CN115100472A (zh) * 2022-06-20 2022-09-23 北京达佳互联信息技术有限公司 展示对象识别模型的训练方法、装置和电子设备
CN115909358A (zh) * 2022-07-27 2023-04-04 广州市玄武无线科技股份有限公司 商品规格识别方法、装置、终端设备及计算机存储介质
CN115909358B (zh) * 2022-07-27 2024-02-13 广州市玄武无线科技股份有限公司 商品规格识别方法、装置、终端设备及计算机存储介质
CN115100582A (zh) * 2022-08-25 2022-09-23 有米科技股份有限公司 基于多模态数据的模型训练方法及装置
CN115100582B (zh) * 2022-08-25 2022-12-02 有米科技股份有限公司 基于多模态数据的模型训练方法及装置
CN115546590A (zh) * 2022-12-05 2022-12-30 杭州联汇科技股份有限公司 一种基于多模态预训练持续学习的目标检测优化方法
CN116662599A (zh) * 2023-07-28 2023-08-29 知呱呱(天津)大数据技术有限公司 一种基于对比学习算法的多模态商标检索方法及系统
CN117151826A (zh) * 2023-09-13 2023-12-01 广州数说故事信息科技有限公司 多模态电商商品对齐方法、装置、电子设备及存储介质
CN117151826B (zh) * 2023-09-13 2024-05-28 广州数说故事信息科技有限公司 多模态电商商品对齐方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN114445201A (zh) 一种基于多模态预训练模型的组合商品检索方法及系统
CN114840705B (zh) 一种基于多模态预训练模型的组合商品检索方法及系统
CN111488931B (zh) 文章质量评估方法、文章推荐方法及其对应的装置
CN109726718B (zh) 一种基于关系正则化的视觉场景图生成系统及方法
CN111985239A (zh) 实体识别方法、装置、电子设备及存储介质
CN113011186B (zh) 命名实体识别方法、装置、设备及计算机可读存储介质
CN114936623B (zh) 一种融合多模态数据的方面级情感分析方法
CN115115913A (zh) 一种数据处理方法、装置、电子设备及存储介质
CN115017358B (zh) 一种多模态交互的跨模态检索方法及系统
CN114495129B (zh) 文字检测模型预训练方法以及装置
CN114612767B (zh) 一种基于场景图的图像理解与表达方法、系统与存储介质
CN114418032A (zh) 一种基于自协调对比学习的五模态商品预训练方法及检索系统
CN110968775A (zh) 商品属性生成模型的训练方法及生成、搜索方法和系统
CN116402063A (zh) 多模态讽刺识别方法、装置、设备以及存储介质
Li et al. Clothes image caption generation with attribute detection and visual attention model
CN113868459A (zh) 模型训练方法、跨模态表征方法、无监督图像文本匹配方法及装置
CN115827954A (zh) 动态加权的跨模态融合网络检索方法、系统、电子设备
CN114639109A (zh) 一种图像处理方法、装置、电子设备和存储介质
CN113642602A (zh) 一种基于全局与局部标签关系的多标签图像分类方法
CN115640418B (zh) 基于残差语义一致性跨域多视角目标网站检索方法及装置
Wang et al. Inductive zero-shot image annotation via embedding graph
CN116955599A (zh) 一种类目确定的方法、相关装置、设备以及存储介质
CN110969187B (zh) 一种图谱迁移的语义分析方法
CN111259176B (zh) 融合有监督信息的基于矩阵分解的跨模态哈希检索方法
Wu Art Product Recognition Model Design and Construction of VR Model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination