CN114445201A - 一种基于多模态预训练模型的组合商品检索方法及系统 - Google Patents
一种基于多模态预训练模型的组合商品检索方法及系统 Download PDFInfo
- Publication number
- CN114445201A CN114445201A CN202210143468.0A CN202210143468A CN114445201A CN 114445201 A CN114445201 A CN 114445201A CN 202210143468 A CN202210143468 A CN 202210143468A CN 114445201 A CN114445201 A CN 114445201A
- Authority
- CN
- China
- Prior art keywords
- image
- commodity
- text
- training model
- combined
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 134
- 238000000034 method Methods 0.000 title claims abstract description 61
- 230000004927 fusion Effects 0.000 claims abstract description 17
- 239000000284 extract Substances 0.000 claims abstract description 5
- 239000013598 vector Substances 0.000 claims description 23
- 230000011218 segmentation Effects 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 12
- 238000010276 construction Methods 0.000 claims description 6
- 230000000052 comparative effect Effects 0.000 claims description 3
- 238000004904 shortening Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 230000000007 visual effect Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 description 10
- 230000004913 activation Effects 0.000 description 6
- 230000000873 masking effect Effects 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/5866—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Library & Information Science (AREA)
- Business, Economics & Management (AREA)
- Evolutionary Computation (AREA)
- Finance (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Accounting & Taxation (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Development Economics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于多模态预训练模型的组合商品检索方法及系统,其中方法包括步骤如下:将商品图像划分为单品图像和组合品图像;训练一个组合商品图像检测器;获取并结合组合商品图像中文本模态和图片模块的特征编码、位置编码和分段编码,学习嵌入表示,并输入构建好的多模态预训练模型;通过商品检测器提取的边界框和边界框特征作为图像特征,结合文本特征,输入多模态预训练模型进行自监督训练;采用多模态预训练模型提取单品图像的图片模态和文本模态的检索特征,并存放于检索库中;多模态预训练模型根据组合品图像中每个目标商品的边界框及边界框特征,提取图文融合的检索特征,计算组合品特征与检索库中单品特征的预先距离作为商品相似度,选取最相似的单品作为结果返回。
Description
技术领域
本发明涉及商品检索技术领域,更具体的,涉及一种基于多模态预训练模型的组合商品检索方法及系统。
背景技术
互联网技术的发展使得在线电商平台迅速扩展,由于其便捷性,电商平台得到越来越多人的青睐。电商领域商品种类的丰富度和用户的购物需求极大增加。线上商品具有多样性,更多商品以套装的形式呈现,即多个不同的商品组合在一个套装商品中。同时,用户在浏览一个套装商品的时候,可能需要查询该套装对应的单品,以便进行价格比对或者单独购买。在数据规模大及缺乏标注的真实场景下,如何进行多模态的组合商品检索是一个具有实用价值但尚未解决的问题。
组合商品检索在电商领域具有较高的实用价值和应用前景。第一,有利于提高商品搜索精度,帮助线上用户搜索更加准确和具体的商品;第二,可用于构建电商知识图谱,挖掘商品关系;第三,通过组合商品检索得到的商品关系可用于商品推荐,提升购物平台推荐效果。
但是在商品检索领域,现有方法都是输入单一模态的数据,比如一个文本或者图片,然后在检索库中进行匹配搜索。然而在电商领域,图片和文本都广泛存在于检索库中,由于缺乏对多个模态数据的充分利用,当前这种检索方式大大限制了真实的使用场景。更重要的是,现有的方法主要关注在相对简单的情况,比如图片级别的检索,图片级别的检索不会判断商品图片中是否有多个物体以及对这些物体进行区分,而实例级别的商品检索在于检索回组合商品中的所有单品,这种检索方式目前并没有被探索过。此外,之前的方法都依赖标注信息来训练,这种方式在大规模真实场景数据集时缺乏泛化性。
发明内容
本发明为了解决目前商品检索依靠单模态数据以及图片级别检索导致的准确性低下的问题,提供了一种基于多模态预训练模型的组合商品检索方法及系统,其具有高泛化性、高可用性,高准确性的优点。
为实现上述本发明目的,采用的技术方案如下:
一种基于多模态预训练模型的组合商品检索方法,所述的方法包括步骤如下:
S1:将商品图像划分为单品图像和组合品图像,其中所述的单品图像表示只有一个商品,组合品图像表示包括多个独立商品;
S2:训练一个组合商品图像检测器,用于检测组合商品图像中的每个独立商品;
S3:获取并结合组合商品图像中文本模态和图片模块的特征编码、位置编码和分段编码,由此学习嵌入表示;
S4:构建多模态预训练模型,将学习到的嵌入表示作为多模态预训练模型的输入;
S5:通过商品检测器提取的边界框和边界框特征作为图像特征,结合文本特征,输入到多模态预训练模型进行自监督训练;
S6:将单品图像的图片模态和文本模态输入到多模态预训练模型提取检索特征,并将检索特征存放于检索库中;
S7:提取组合品图像中每个目标商品的边界框及边界框特征,输入步骤S5训练好的多模态预训练模型,提取图文融合的检索特征,计算组合品特征与检索库中单品特征的余弦距离作为特征相似度,选取最相似的单品作为结果返回。
优选地,步骤S1,采用基于规则的方法划分为单品图像和组合品图像,将存在“套装”、“组合”、“组套”、“件套”商品标题的商品图像划分为组合品图像,否则划分为单品图像。
进一步地,采用数据增强的方法训练组合商品图像检测器,具体如下:
先计算单品图像中的颜色面积占比,选择白色面积占比大于60%的图像作为白底图,使用GrabCut分割方法获取单品图像的前景,再选取自然图像作为背景,使用“复制、粘贴”的方式将多个前景目标和背景图像合成一张带有边界框标注的图片;
根据前景目标粘贴于背景图像的位置,选取前景目标的边界框坐标作为图像检测器训练的边界框标注,使用前景和背景两个类别,训练一个组合商品图像检测器,以此检测组合商品中的每个独立商品。
再进一步地,对于图片模态数据采用bottom-up-attention网络提取主要目标框及其坐标位置的特征。
再进一步地,对于bottom-up-attention网络输出的图像框及框特征,使用5维向量计算每个框的位置信息包括框的左上角坐标、右下角坐标及框占整个图像的大小比例,将这5维向量传入线性全连接层得到位置编码;使用0作为分段信息传入线性全连接层得到分段编码;将框特征传入线性全连接层得到框特征的编码;最后将位置编码、分段编码及特征编码相加,得到图片模态的嵌入表示。
再进一步地,对于文本模态数据使用Bert网络来提取其不同token间的关系特征。
再进一步地,对于文本序列,使用递增的自然数序列表示他们的位置信息,传入线性全连接层得到位置编码;使用1作为分段信息传入线性全连接层得到分段编码;将文本传入线性全连接层得到文本的特征编码;最后将位置编码、分段编码及特征编码相加,得到文本的嵌入表示。
再进一步地,所述的多模态预训练模型使用三种Transformer网络层提取图片和文本相互融合的检索特征,包括:
文本-视觉Transformer网络,用于根据输入的图片嵌入表示、文本嵌入表示提取文本的浅层特征和图片的浅层特征;
交叉Transformer网络,用于根据图片的线层特征和文本的线层特征实现图片模态和文本模态相互关联,得到两个模态相互关联之后的特征;
公共Transformer网络,用于提取文本和图片全面融合的图片特征。
再进一步地,步骤S5,所述的自监督训练具体如下:
通过遮掩标题文本中的词,将带有遮掩词的文本序列输入到训练好的多模态预训练模型,在训练过程中学习恢复被遮掩的词,以此提取一个具有文本信息的特征表示;
通过遮掩图片中的边界框特征,将带有遮掩的图片框特征序列输入到多模态预训练模型,在训练过程中学习恢复被遮掩的边界框特征,以此提取一个具有视觉信息的特征表示;
使用对比学习的损失函数来训练网络,对于成对的图片和文本对,训练过程中缩短其距离;对于不成对的图片文本对,训练过程中拉大其距离,以此学习到具有区分度的图文特征。
一种基于所述的多模态预训练模型的组合商品检索方法的系统,所述的系统包括样本构造模块、图像检测器训练模块、学习嵌入表示模块、多模态预训练模型模块、单品特征提取模块、组合品特征提取模块;其中,
所述的样本构造模块,用于将商品图像划分为单品图像和组合品图像;
所述的图像检测器训练模块,用于训练一个用于检测组合商品图像中的每个独立商品的图像检测器;
所述的学习嵌入表示模块,用于获取并结合组合商品图像中文本模态和图片模块的特征编码、位置编码和分段编码,学习嵌入表示;
所述的多模态预训练模型模块,用于构建多模态预训练模型,并将通过商品检测器提取的边界框和边界框特征作为图像特征,结合文本特征,输入到多模态预训练模型进行自监督训练;
所述的单品特征提取模块,用于将单品图像的图片模态和文本模态输入到多模态预训练模型提取检索特征,并将检索特征存放于检索库中;
所述的组合品特征提取模块,用于将提取组合品图像中每个目标商品的边界框及边界框特征输入多模态预训练模型,根据获得图文融合的检索特征,计算组合品特征与检索库中单品特征的余弦距离作为商品相似度,选取最相似的单品作为结果返回。
本发明的有益效果如下:
相比于监督学习的图像检索方法,本发明使用自监督学习的方式进行训练,仅仅依赖天然存在的图片和标题信息而不依赖任何人工标注的类别信息。因此容易扩展到大规模的数据上,学习到一个更加判定的特征表示,确保实现高质量的实例级别商品检索任务,具有较强的泛化性。
相比于只使用单一模态的信息进行检索,本发明使用图片和文本两个模态的信息,能够有效利用两个模态之间的信息相互补充,将图片特征和文本特征进行融合,提取更加有区分度的图文检索特征,弥补了单一模态信息不全的问题。
相比于大多数多模态预训练模型使用已训练好的自然图像检测器提取图像特征进行训练,本发明使用数据增强的方式训练一个商品图像的目标检测器,解决了自然图像和商品图像数据具有数据分布差异的问题,避免多模态预训练模型受到上游检测器影响的问题,提高了多模态预训练模型的特征表示效果,有利于提高组合商品检索的准确性。
附图说明
图1是实施例1所述的组合商品检索方法的步骤流程图。
图2是实施例1所述的组合商品检索方法的网络框架示意图。
图3是实施例2所述的组合商品检索系统的框架示意图。
具体实施方式
下面结合附图和具体实施方式对本发明做详细描述。
实施例1
如图1所示,一种基于多模态预训练模型的组合商品检索方法,所述的方法包括步骤如下:
S1:将商品图像划分为单品图像和组合品图像,其中所述的单品图像表示只有一个商品,组合品图像表示包括多个独立商品;
S2:训练一个组合商品图像检测器,用于检测组合商品图像中的每个独立商品;
S3:获取并结合组合商品图像中文本模态和图片模块的特征编码、位置编码和分段编码,由此学习嵌入表示;
S4:构建多模态预训练模型,将学习到的嵌入表示作为多模态预训练模型的输入;
S5:通过商品检测器提取的边界框和边界框特征作为图像特征,结合文本特征,输入到多模态预训练模型进行自监督训练;
S6:将单品图像的图片模态和文本模态输入到多模态预训练模型提取检索特征,并将检索特征存放于检索库中;
S7:提取组合品图像中每个目标商品的边界框及边界框特征,输入步骤S5训练好的多模态预训练模型,提取图文融合的检索特征,计算组合品特征与检索库中单品特征的余弦距离作为商品相似度,选取最相似的单品作为结果返回。
在一个具体的实施例中,步骤S1,对于所有的商品数据,采用基于规则的方法划分为单品图像和组合品图像,将存在“套装”、“组合”、“组套”、“件套”商品标题的商品图像划分为组合品图像,否则划分为单品图像。
具体地,每个商品(I,T)由图片I和对应的标题T组成,根据商品标题是否存在“套装”、“组合”、“组套”、“件套”等词语将商品划分为组合商品集和单品集,单品集中的每个样本只包含一个商品,记为组合商品集中的每个样本包含多个商品,记为
在一个具体的实施例中,采用数据增强的方法训练组合商品图像检测器,具体如下:
先计算单品图像中的颜色面积占比,选择白色面积占比大于60%的图像作为白底图,使用GrabCut分割方法获取单品图像的前景,再选取自然图像作为背景,使用“复制、粘贴”的方式将多个前景目标和背景图像合成一张带有边界框标注的图片;
根据前景目标粘贴于背景图像的位置,选取前景目标的边界框坐标作为图像检测器训练的边界框标注,使用前景和背景两个类别,训练一个组合商品图像检测器,以此检测组合商品中的每个独立商品。
在一个具体的实施例中,对于图片模态数据采用bottom-up-attention网络提取主要目标框及其坐标位置的特征。
在一个具体的实施例中,对于bottom-up-attention网络输出的图像框B=(b0,b1,b2,…,bK)及框特征F=(f0,f1,f2,…,fK)作为图像特征输入I=((b0,f0),(b1,f1),(b2,f2),…,(bK,fK)),使用5维向量计算每个框的位置信息包括框的左上角坐标、右下角坐标及框占整个图像的大小比例,将这5维向量传入线性全连接层得到位置编码;使用0作为分段信息传入线性全连接层得到分段编码;将框特征传入线性全连接层得到框特征的编码;最后将位置编码、分段编码及特征编码相加,得到图片模态的嵌入表示Eimg。
在一个具体的实施例中,对于商品标题T=(t0,t1,t2,…,tL),也即文本模态数据使用Bert网络来提取其不同token间的关系特征。
在一个具体的实施例中,对于文本序列,使用递增的自然数序列表示他们的位置信息,传入线性全连接层得到位置编码;使用1作为分段信息传入线性全连接层得到分段编码;将文本传入线性全连接层得到文本的特征编码;最后将位置编码、分段编码及特征编码相加,得到文本的嵌入表示Etxt。具体如下:
在一个具体的实施例中,将图片嵌入表示Eimg和文本嵌入表示Etxt入到多模态预训练模型,提取图像和文本相互融合的检索特征H。所述的多模态预训练模型使用三种Transformer网络层提取图片和文本相互融合的检索特征,包括:
文本-视觉Transformer网络,用于根据输入的图片嵌入表示、文本嵌入表示提取文本和图片的浅层特征;具体如下:
首先使用图片Transformer和文本Transformer分别对图片嵌入表示Eimg和文本嵌入特征Etxt进行编码,得到图片模态和文本模态各自的线层特征和图片Transformer和文本Transformer各有四层,每层的计算公式为:
其中,t-1和t是Transformer层编号;LN是LayerNorm层,进行特征归一化;MLP是全连接层;MSA是多头注意力层,其计算公式如下:
Headi=Attention(HWi Q,HWi K,HWi V)
MSA(H)=Concat(Head1,...,Headh)WO。
所述的文本-视觉Transformer网络层重复进行L=4次,再传入下一种网络。
交叉Transformer网络,用于根据图片的线层特征和文本的线层特征实现图片模态和文本模态相互关联,得到两个模态相互关联之后的特征和具体地,所述的交叉Transformer网络包括两个独立的交叉多头自注意力网络,通过交换图片模态和文本模态中的Q和K来实现;对于文本,交叉Transformer网络计算对图片的关注权重,以此得到交叉注意后的文本特征;对于图像,交叉Transformer网络计算对文本的关注权重,以此得到交叉注意后的图片特征;该层重复进行M=4次,再传入下一种网络;具体
其计算公式如下:
其中,CMSA是跨模态交叉多头注意力网络,其计算公式如下:
cMSA(Himg,Htxt)=Concat(Head1(Himg,Htxt),…,Headn(Himg,Htxt))
CMSA(Htxt,Himg)=Concat(Head1(Htxt,Himg),…,Headn(Htxt,Himg))
Headi(Himg,Htxt)=Attention(HimgWi Q,HtxtWi K,HtxtWi V)
Headi(Htxt,Himg)=Attention(HtxtWi Q,HimgWi K,HimgWi V)
公共Transformer网络,用于提取文本和图片全面融合的图片特征;在公共Transformer网络中,文本特征和图片特征进行拼接,使用Q和K计算每个向量关注所有特征的权重,再乘以V得到文本的特征表示和图片的特征表示,其中Q、K、V由两个模态拼接后的特征得到;对于文本,使用多头注意力机制计算对于文本和图片两个模态所有特征的关注权重,以此得到全面融合后的文本特征;对于图片,使用多头注意力机制计算对于图片和文本两个模态所有特征的关注权重,以此得到全面融合后的图片特征;该层重复迭代H=4次。具体如下:
从交叉Transformer网络出来的图片特征和文本特征传入公共Transformer中,进行图片和文本更加全面的相互关注,即图片模态中的每块区域关注其他区域的特征以及所有文字的特征,文本模态中的每个字关注其他字的特征以及所有图片的特征。其计算公式如下:
在一个具体的实施例中,步骤S5,所述的自监督训练具体如下:
通过遮掩标题文本中的词,将带有遮掩词的文本序列输入到训练好的多模态预训练模型,在训练过程中学习恢复被遮掩的词,以此提取一个具有文本信息的特征表示;
通过遮掩图片中的边界框特征,将带有遮掩的图片框特征序列输入到多模态预训练模型,在训练过程中学习恢复被遮掩的边界框特征,以此提取一个具有视觉信息的特征表示;
使用对比学习的损失函数来训练网络,对于成对的图片和文本对,训练过程中缩短其距离;对于不成对的图片文本对,训练过程中拉大其距离,以此学习到具有区分度的图文特征。
具体地,使用三种预训练任务来训练上述的多模态预训练模型,包括文本遮掩任务,图像区域遮掩任务和跨模态对比学习任务。
具体而言,对于每个图片文本对(I,T),I={I1,I2,,I3,,…,IK,},T={T1,T2,,T3,,…,TL,}文本遮掩任务是将输入的单词以15%的概率替换成“[MASK]”,多模态预训练模型根据剩下的单词以及图片来预测该遮掩的单词,其损失函数为:
图片区域遮掩任务是将输入的图片框特征以15%的概率替换成0向量,所述的多模态预训练模型根据剩下的图片区域以及句子单词来预测该遮掩的图片区域特征,其损失函数为:
除了不同模态特征的学习之外,所述的多模态预训练模型需要保证不同输入模态之间的一致性以便学习到图文之间的对应关系,因此使用跨模态对比学习任务来对齐图片模态和文本模态。对于一个训练批中的N个图片文本对,共有2N个数据。对于每个样本,将对应的另一个模态数据视为正样本对,将剩下样本视为负样本对。对于输入的图文对((Ii,Ti)),文本Transformer和图像Transformer输出的每对图文特征其损失函数为:
其中,sim(u,v)=uTv/||u||||v||用于计算图文对u和v之间的相似度,τ是温度调节参数,是一个二元指标,当且仅当i!=j时返回1。该对比损失函数会使得成对的图文向量拉近,而不成对的图文向量拉远。
实施例2
基于实施例1所述的多模态预训练模型的组合商品检索方法,本实施例还提供了一种多模态预训练模型的组合商品检索系统,所述的系统包括样本构造模块、图像检测器训练模块、学习嵌入表示模块、多模态预训练模型模块、单品特征提取模块、组合品特征提取模块;其中,
所述的样本构造模块,用于将商品图像划分为单品图像和组合品图像;
所述的图像检测器训练模块,用于训练一个用于检测组合商品图像中的每个独立商品的图像检测器;
所述的学习嵌入表示模块,用于获取并结合组合商品图像中文本模态和图片模块的特征编码、位置编码和分段编码,学习嵌入表示;
所述的多模态预训练模型模块,用于构建多模态预训练模型,并将通过商品检测器提取的边界框和边界框特征作为图像特征,结合文本特征,输入到多模态预训练模型进行自监督训练;
所述的单品特征提取模块,用于将单品图像的图片模态和文本模态输入到多模态预训练模型提取检索特征,并将检索特征存放于检索库中;
所述的组合品特征提取模块,用于将提取组合品图像中每个目标商品的边界框及边界框特征输入多模态预训练模型,根据获得图文融合的检索特征,计算组合品特征与检索库中单品特征的余弦距离作为商品相似度,选取最相似的单品作为结果返回。
在一个具体的实施例中,所述的多模态预训练模型模块还包括
文本-视觉Transformer网络模块,用于提取文本和图片的浅层特征,使用Q1和K1计算关注权重,再乘以V1得到文本的特征表示和图片的特征表示,其中Q1、K1、V1来自图片和文本自身模态;
交叉Transformer网络模块,用于提取文本和图片相互关注的特征;所述的交叉Transformer网络包括两个独立的交叉多头自注意力网络,通过交换图片模态和文本模态中的Q1和K1来实现;对于文本,交叉Transformer网络计算对图片的关注权重,以此得到交叉注意后的文本特征;对于图像,交叉Transformer网络计算对文本的关注权重,以此得到交叉注意后的图片特征;
公共Transformer网络模块,用于提取文本和图片全面融合的特征,在公共Transformer网络中,文本特征和图片特征进行拼接,使用Q2和K2计算每个向量关注所有特征的权重,再乘以V2得到文本的特征表示和图片的特征表示,其中Q2、K2、V2由两个模态拼接后的特征得到;对于文本,使用多头注意力机制计算对于文本和图片两个模态所有特征的关注权重,以此得到全面融合后的文本特征;对于图片,使用多头注意力机制计算对于图片和文本两个模态所有特征的关注权重,以此得到全面融合后的图片特征。
实施例3
一种计算机系统,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述的处理器执行所述的计算机程序时,实现的方法步骤如下:
S1:将商品图像划分为单品图像和组合品图像,其中所述的单品图像表示只有一个商品,组合品图像表示包括多个独立商品;
S2:训练一个组合商品图像检测器,用于检测组合商品图像中的每个独立商品;
S3:获取并结合组合商品图像中文本模态和图片模块的特征编码、位置编码和分段编码,由此学习嵌入表示;
S4:构建多模态预训练模型,将学习到的嵌入表示作为多模态预训练模型的输入;
S5:通过商品检测器提取的边界框和边界框特征作为图像特征,结合文本特征,输入到多模态预训练模型进行自监督训练;
S6:将单品图像的图片模态和文本模态输入到多模态预训练模型提取检索特征,并将检索特征存放于检索库中;
S7:提取组合品图像中每个目标商品的边界框及边界框特征,输入步骤S5训练好的多模态预训练模型,提取图文融合的检索特征,计算组合品特征与检索库中单品特征的余弦距离作为商品相似度,选取最相似的单品作为结果返回。
实施例4
一种计算机可读存储介质,其上存储有计算机程序,所述的计算机程序被处理器执行时,实现的方法步骤如下:
S1:将商品图像划分为单品图像和组合品图像,其中所述的单品图像表示只有一个商品,组合品图像表示包括多个独立商品;
S2:训练一个组合商品图像检测器,用于检测组合商品图像中的每个独立商品;
S3:获取并结合组合商品图像中文本模态和图片模块的特征编码、位置编码和分段编码,由此学习嵌入表示;
S4:构建多模态预训练模型,将学习到的嵌入表示作为多模态预训练模型的输入;
S5:通过商品检测器提取的边界框和边界框特征作为图像特征,结合文本特征,输入到多模态预训练模型进行自监督训练;
S6:将单品图像的图片模态和文本模态输入到多模态预训练模型提取检索特征,并将检索特征存放于检索库中;
S7:提取组合品图像中每个目标商品的边界框及边界框特征,输入步骤S5训练好的多模态预训练模型,提取图文融合的检索特征,计算组合品特征与检索库中单品特征的余弦距离作为商品相似度,选取最相似的单品作为结果返回。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (10)
1.一种基于多模态预训练模型的组合商品检索方法,其特征在于:所述的方法包括步骤如下:
S1:将商品图像划分为单品图像和组合品图像,其中所述的单品图像表示只有一个商品,组合品图像表示包括多个独立商品;
S2:训练一个组合商品图像检测器,用于检测组合商品图像中的每个独立商品;
S3:获取并结合组合商品图像中文本模态和图片模块的特征编码、位置编码和分段编码,由此学习嵌入表示;
S4:构建多模态预训练模型,将学习到的嵌入表示作为多模态预训练模型的输入;
S5:通过商品检测器提取的边界框和边界框特征作为图像特征,结合文本特征,输入到多模态预训练模型进行自监督训练;
S6:将单品图像的图片模态和文本模态输入到多模态预训练模型提取检索特征,并将检索特征存放于检索库中;
S7:提取组合品图像中每个目标商品的边界框及边界框特征,输入步骤S5训练好的多模态预训练模型,提取图文融合的检索特征,计算组合品特征与检索库中单品特征的余弦距离作为商品相似度,选取最相似的单品作为结果返回。
2.根据权利要求1所述的基于多模态预训练模型的组合商品检索方法,其特征在于:步骤S1,采用基于规则的方法划分为单品图像和组合品图像,将存在“套装”、“组合”、“组套”、“件套”商品标题的商品图像划分为组合品图像,否则划分为单品图像。
3.根据权利要求2所述的基于多模态预训练模型的组合商品检索方法,其特征在于:采用数据增强的方法训练组合商品图像检测器,具体如下:
先计算单品图像中的颜色面积占比,选择白色面积占比大于60%的图像作为白底图,使用GrabCut分割方法获取单品图像的前景,再选取自然图像作为背景,使用“复制、粘贴”的方式将多个前景目标和背景图像合成一张带有边界框标注的图片;
根据前景目标粘贴于背景图像的位置,选取前景目标的边界框坐标作为图像检测器训练的边界框标注,使用前景和背景两个类别,训练一个组合商品图像检测器,以此检测组合商品中的每个独立商品。
4.根据权利要求3所述的基于多模态预训练模型的组合商品检索方法,其特征在于:对于图片模态数据采用bottom-up-attention网络提取主要目标框及其坐标位置的特征。
5.根据权利要求4所述的基于多模态预训练模型的组合商品检索方法,其特征在于:对于bottom-up-attention网络输出的图像框及框特征,使用5维向量计算每个框的位置信息包括框的左上角坐标、右下角坐标及框占整个图像的大小比例,将这5维向量传入线性全连接层得到位置编码;使用0作为分段信息传入线性全连接层得到分段编码;将框特征传入线性全连接层得到框特征的编码;最后将位置编码、分段编码及特征编码相加,得到图片模态的嵌入表示。
6.根据权利要求4所述的基于多模态预训练模型的组合商品检索方法,其特征在于:对于文本模态数据使用Bert网络来提取其不同token间的关系特征。
7.根据权利要求6所述的基于多模态预训练模型的组合商品检索方法,其特征在于:对于文本序列,使用递增的自然数序列表示他们的位置信息,传入线性全连接层得到位置编码;使用1作为分段信息传入线性全连接层得到分段编码;将文本传入线性全连接层得到文本的特征编码;最后将位置编码、分段编码及特征编码相加,得到文本的嵌入表示。
8.根据权利要求6所述的基于多模态预训练模型的组合商品检索方法,其特征在于:所述的多模态预训练模型使用三种Transformer网络层提取图片和文本相互融合的检索特征,包括:
文本-视觉Transformer网络,用于根据输入的图片嵌入表示、文本嵌入表示提取文本的浅层特征和图片的浅层特征;
交叉Transformer网络,根据图片的线层特征和文本的线层特征实现图片模态和文本模态相互关联,得到两个模态相互关联之后的特征;
公共Transformer网络,用于提取文本和图片全面融合的图片特征。
9.根据权利要求6所述的基于多模态预训练模型的组合商品检索方法,其特征在于:步骤S5,所述的自监督训练具体如下:
通过遮掩标题文本中的词,将带有遮掩词的文本序列输入到训练好的多模态预训练模型,在训练过程中学习恢复被遮掩的词,以此提取一个具有文本信息的特征表示;
通过遮掩图片中的边界框特征,将带有遮掩的图片框特征序列输入到多模态预训练模型,在训练过程中学习恢复被遮掩的边界框特征,以此提取一个具有视觉信息的特征表示;
使用对比学习的损失函数来训练网络,对于成对的图片和文本对,训练过程中缩短其距离;对于不成对的图片文本对,训练过程中拉大其距离,以此学习到具有区分度的图文特征。
10.一种基于权利要求1~9任一项所述的多模态预训练模型的组合商品检索方法的系统,其特征在于:所述的系统包括样本构造模块、图像检测器训练模块、学习嵌入表示模块、多模态预训练模型模块、单品特征提取模块、组合品特征提取模块;其中,
所述的样本构造模块,用于将商品图像划分为单品图像和组合品图像;
所述的图像检测器训练模块,用于训练一个用于检测组合商品图像中的每个独立商品的图像检测器;
所述的学习嵌入表示模块,用于获取并结合组合商品图像中文本模态和图片模块的特征编码、位置编码和分段编码,学习嵌入表示;
所述的多模态预训练模型模块,用于构建多模态预训练模型,并将通过商品检测器提取的边界框和边界框特征作为图像特征,结合文本特征,输入到多模态预训练模型进行自监督训练;
所述的单品特征提取模块,用于将单品图像的图片模态和文本模态输入到多模态预训练模型提取检索特征,并将检索特征存放于检索库中;
所述的组合品特征提取模块,用于将提取组合品图像中每个目标商品的边界框及边界框特征输入多模态预训练模型,根据获得图文融合的检索特征,计算组合品特征与检索库中单品特征的余弦距离作为商品相似度,选取最相似的单品作为结果返回。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210143468.0A CN114445201A (zh) | 2022-02-16 | 2022-02-16 | 一种基于多模态预训练模型的组合商品检索方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210143468.0A CN114445201A (zh) | 2022-02-16 | 2022-02-16 | 一种基于多模态预训练模型的组合商品检索方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114445201A true CN114445201A (zh) | 2022-05-06 |
Family
ID=81372927
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210143468.0A Pending CN114445201A (zh) | 2022-02-16 | 2022-02-16 | 一种基于多模态预训练模型的组合商品检索方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114445201A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114723843A (zh) * | 2022-06-01 | 2022-07-08 | 广东时谛智能科技有限公司 | 多模态融合生成虚拟服装方法、装置、设备及存储介质 |
CN115100472A (zh) * | 2022-06-20 | 2022-09-23 | 北京达佳互联信息技术有限公司 | 展示对象识别模型的训练方法、装置和电子设备 |
CN115100582A (zh) * | 2022-08-25 | 2022-09-23 | 有米科技股份有限公司 | 基于多模态数据的模型训练方法及装置 |
CN115546590A (zh) * | 2022-12-05 | 2022-12-30 | 杭州联汇科技股份有限公司 | 一种基于多模态预训练持续学习的目标检测优化方法 |
CN115909358A (zh) * | 2022-07-27 | 2023-04-04 | 广州市玄武无线科技股份有限公司 | 商品规格识别方法、装置、终端设备及计算机存储介质 |
CN116662599A (zh) * | 2023-07-28 | 2023-08-29 | 知呱呱(天津)大数据技术有限公司 | 一种基于对比学习算法的多模态商标检索方法及系统 |
CN117151826A (zh) * | 2023-09-13 | 2023-12-01 | 广州数说故事信息科技有限公司 | 多模态电商商品对齐方法、装置、电子设备及存储介质 |
-
2022
- 2022-02-16 CN CN202210143468.0A patent/CN114445201A/zh active Pending
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114723843A (zh) * | 2022-06-01 | 2022-07-08 | 广东时谛智能科技有限公司 | 多模态融合生成虚拟服装方法、装置、设备及存储介质 |
CN115100472A (zh) * | 2022-06-20 | 2022-09-23 | 北京达佳互联信息技术有限公司 | 展示对象识别模型的训练方法、装置和电子设备 |
CN115909358A (zh) * | 2022-07-27 | 2023-04-04 | 广州市玄武无线科技股份有限公司 | 商品规格识别方法、装置、终端设备及计算机存储介质 |
CN115909358B (zh) * | 2022-07-27 | 2024-02-13 | 广州市玄武无线科技股份有限公司 | 商品规格识别方法、装置、终端设备及计算机存储介质 |
CN115100582A (zh) * | 2022-08-25 | 2022-09-23 | 有米科技股份有限公司 | 基于多模态数据的模型训练方法及装置 |
CN115100582B (zh) * | 2022-08-25 | 2022-12-02 | 有米科技股份有限公司 | 基于多模态数据的模型训练方法及装置 |
CN115546590A (zh) * | 2022-12-05 | 2022-12-30 | 杭州联汇科技股份有限公司 | 一种基于多模态预训练持续学习的目标检测优化方法 |
CN116662599A (zh) * | 2023-07-28 | 2023-08-29 | 知呱呱(天津)大数据技术有限公司 | 一种基于对比学习算法的多模态商标检索方法及系统 |
CN117151826A (zh) * | 2023-09-13 | 2023-12-01 | 广州数说故事信息科技有限公司 | 多模态电商商品对齐方法、装置、电子设备及存储介质 |
CN117151826B (zh) * | 2023-09-13 | 2024-05-28 | 广州数说故事信息科技有限公司 | 多模态电商商品对齐方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114445201A (zh) | 一种基于多模态预训练模型的组合商品检索方法及系统 | |
CN114840705B (zh) | 一种基于多模态预训练模型的组合商品检索方法及系统 | |
CN111488931B (zh) | 文章质量评估方法、文章推荐方法及其对应的装置 | |
CN109726718B (zh) | 一种基于关系正则化的视觉场景图生成系统及方法 | |
CN111985239A (zh) | 实体识别方法、装置、电子设备及存储介质 | |
CN113011186B (zh) | 命名实体识别方法、装置、设备及计算机可读存储介质 | |
CN114936623B (zh) | 一种融合多模态数据的方面级情感分析方法 | |
CN115115913A (zh) | 一种数据处理方法、装置、电子设备及存储介质 | |
CN115017358B (zh) | 一种多模态交互的跨模态检索方法及系统 | |
CN114495129B (zh) | 文字检测模型预训练方法以及装置 | |
CN114612767B (zh) | 一种基于场景图的图像理解与表达方法、系统与存储介质 | |
CN114418032A (zh) | 一种基于自协调对比学习的五模态商品预训练方法及检索系统 | |
CN110968775A (zh) | 商品属性生成模型的训练方法及生成、搜索方法和系统 | |
CN116402063A (zh) | 多模态讽刺识别方法、装置、设备以及存储介质 | |
Li et al. | Clothes image caption generation with attribute detection and visual attention model | |
CN113868459A (zh) | 模型训练方法、跨模态表征方法、无监督图像文本匹配方法及装置 | |
CN115827954A (zh) | 动态加权的跨模态融合网络检索方法、系统、电子设备 | |
CN114639109A (zh) | 一种图像处理方法、装置、电子设备和存储介质 | |
CN113642602A (zh) | 一种基于全局与局部标签关系的多标签图像分类方法 | |
CN115640418B (zh) | 基于残差语义一致性跨域多视角目标网站检索方法及装置 | |
Wang et al. | Inductive zero-shot image annotation via embedding graph | |
CN116955599A (zh) | 一种类目确定的方法、相关装置、设备以及存储介质 | |
CN110969187B (zh) | 一种图谱迁移的语义分析方法 | |
CN111259176B (zh) | 融合有监督信息的基于矩阵分解的跨模态哈希检索方法 | |
Wu | Art Product Recognition Model Design and Construction of VR Model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |