CN108829847B - 基于翻译的多模态建模方法及其在商品检索中的应用 - Google Patents
基于翻译的多模态建模方法及其在商品检索中的应用 Download PDFInfo
- Publication number
- CN108829847B CN108829847B CN201810636653.7A CN201810636653A CN108829847B CN 108829847 B CN108829847 B CN 108829847B CN 201810636653 A CN201810636653 A CN 201810636653A CN 108829847 B CN108829847 B CN 108829847B
- Authority
- CN
- China
- Prior art keywords
- commodity
- representation
- visual
- implicit
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000013519 translation Methods 0.000 title claims abstract description 26
- 230000000007 visual effect Effects 0.000 claims abstract description 147
- 239000013598 vector Substances 0.000 claims abstract description 62
- 238000013507 mapping Methods 0.000 claims abstract description 12
- 239000011159 matrix material Substances 0.000 claims abstract description 12
- 238000006243 chemical reaction Methods 0.000 claims abstract description 7
- 230000002596 correlated effect Effects 0.000 claims description 45
- 239000013604 expression vector Substances 0.000 claims description 20
- 238000005070 sampling Methods 0.000 claims description 10
- 230000000875 corresponding effect Effects 0.000 claims description 8
- 230000003993 interaction Effects 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 4
- 238000012552 review Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 230000006872 improvement Effects 0.000 description 14
- 238000012549 training Methods 0.000 description 6
- 238000012360 testing method Methods 0.000 description 5
- 230000004927 fusion Effects 0.000 description 4
- 238000004590 computer program Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了基于翻译的多模态建模方法及其在商品检索中的应用,包括:对所有商品构建正相关数据集和负相关数据集;建立多模态特征空间,于多模态特征空间得到每个商品最终的视觉特征的隐含表示和文本特征的隐含表示;将每个商品最终的视觉特征的隐含表示和文本特征的隐含表示进行融合,得到每个商品的融合后的隐含表示;基于翻译模型的转换矩阵将隐含表示映射到隐空间中,得到映射后的每个商品的隐表示向量;将新查询文本利用基于翻译模型的转换矩阵映射到隐空间中,计算新查询文本对应的商品的隐表示向量与每个商品的隐表示向量之间的距离;将距离按照从小到大排序,将排序靠前的设定个商品作为商品检索结果输出。
Description
技术领域
本发明涉及基于多模态购物偏好的商品检索方法及系统。
背景技术
伴随着电子商务的蓬勃发展,人们购买商品的方式得到了极大地改变。网购的方便性使电子商务用户可以通过仅仅动几下手指就可以买到大部分他们想要的商品。通常来说,当前的商品检索引擎(由天猫,京东等电子商务网站提供)要求用户通过文本查询表述他们的购物需求,然后按照相关程度返回一个排序好的商品列表。这些返回给用户的结果不仅包括每个商品的文本信息(例如品牌,价格,描述等),还有视觉信息(即每个商品的图片)。
为了买到心仪的商品,用户会在给定的信息基础上仔细查看列表中的每个商品,这是需要花费大量时间的。为了提升用户体验和忠诚度,对需要返回给用户的商品,不仅能与当前的查询相关,还要能从不同方面(视觉和质量要求等)匹配用户的购物偏好。
然而,设计这样一个搜索引擎是困难的,原因在于:
一方面,用户提交的查询太短或者表述不清楚,导致无法准确传达用户的购物需求;
另一方面,即使是对同一个查询,由于不同用户在不同方面的购物偏好不一致,最后的选择通常也是有差异的。
有鉴于此,考虑用户在商品检索中的购物偏好,即个性化的商品检索,在提升搜索引擎商品检索性能中扮演了很重要的角色。
传统的商品检索方法仅关注查询与商品的简单匹配而没有利用用户的购物偏好。实际上,每个用户在网购时的购物习惯可能是很不一样的。所以,有学者首先将个性化引入商品检索算法中,他们通过把用户的个人喜好投影到查询和商品的共同隐空间中来为用户当前提交的查询返回合适的商品结果。在电商网站中,文本的评论在一些方面描述了商品的一些特点,所以可以反映用户在这些方面中的一些偏好。例如,用户在一些方面,包括材料、大小、穿着是否舒适、是否值得买,会写出自己的评价。
然而,其他可以直接从商品图片中观测出的方面却很少在用户评论中提及,如喜爱的风格、颜色等。结果就是,仅仅依赖文本的用户评价为商品检索建模只能获得用户的部分偏好而忽视了他们的视觉方面的偏好。对很多商品,如衣服和鞋子来说,视觉上的外观特征会极大地影响用户最终的购买行为。例如,一个用户喜欢方领的衬衫,他/她不会购买某个圆领衬衫即使它能满足用户的其他要求(如品牌,价格,质量)。
在本发明中,我们希望设计一个个性化的商品检索系统,可以同时结合用户在文本和视觉模态上的购物偏好。为了设计这样一种方法,需要解决以下两个问题:一是如何为多模态的用户购物偏好建模;二是给定用户的一个文本查询,如何度量商品与查询和用户多模态购物偏好之间的关系。但是,按部就班地解决以上问题不是个很好的选择。例如,一个典型的序列化的方法为:
(1)用多模态的属性来表征商品;
(2)在用户购买商品记录的基础上提取用户的多模态购物偏好;
(3)分别度量“查询与商品之间的关系”和“商品与用户购物偏好之间的关系”,最后用再排序的方法将其结合得到最后的商品排序列表。
但是上述的方法存在两个问题:
一方面,用上述方法得到的多模态特征空间不是围绕排序建立的;
另一方面,分别度量查询和商品以及商品和用户的关系不能完全获取用户,查询与商品三者之间的复杂关系。所以,设计一个统一的方法建立一个多模态特征空间并进行商品排序是一个很有挑战性的问题。
发明内容
为了解决现有技术的不足,本发明提供了基于多模态购物偏好的商品检索方法及系统,其能够将用户在文本和视觉两方面模态的购物偏好结合起来,从而大幅提高商品检索的准确率。
作为本发明的第一方面,提供了基于多模态购物偏好的商品检索方法;
基于翻译的多模态建模方法,包括:
步骤(1):对所有商品构建正相关数据集和负相关数据集;
步骤(2):建立多模态特征空间,包括:建立视觉特征空间和建立文本特征空间;基于多模态特征空间得到每个商品最终的视觉特征的隐含表示和文本特征的隐含表示;
步骤(3):将每个商品最终的视觉特征的隐含表示和文本特征的隐含表示进行融合,得到每个商品的融合后的隐含表示;将每个商品融合后的隐含表示输入到全连接神经网络进行视觉特征和文本特征的交互,将交互结果、用户唯一标识和用户查询文本分别利用基于翻译模型的转换矩阵映射到隐空间中,得到映射后的每个商品的隐表示向量、用户唯一标识表示向量和用户查询文本表示向量;
步骤(4):将用户新查询文本和新查询文本对应的新查询用户唯一标识分别利用基于翻译模型的转换矩阵映射到隐空间中,得到映射后的新查询用户唯一标识表示向量和用户新查询文本表示向量;基于映射后的新查询用户唯一标识表示向量和用户新查询文本表示向量,得到新查询文本对应的商品的隐表示向量;计算新查询文本对应的商品的隐表示向量与步骤(3)中每个商品的隐表示向量之间的距离;将距离按照从小到大排序,将排序靠前的设定个商品作为商品检索结果输出。
作为本发明的进一步改进,
所述正相关数据集,包括:商品图片和商品评论;所述商品是指:所有用户在查看完当前商品后,同时查看的同类型的其他所有商品;和所有用户在购买当前商品前,查看的同类型的其他所有商品;
所述负相关数据集,包括:与当前商品类型相同,但是不在正相关数据集中商品。
作为本发明的进一步改进,所述建立视觉特征空间的具体步骤为:
获取当前商品视觉特征的隐含表示;
获取与当前商品正相关的正相关商品视觉特征的隐含表示;
获取与当前商品负相关的负相关商品视觉特征的隐含表示;
对得到的当前商品的视觉特征隐含表示、正相关商品的视觉特征隐含表示、负相关商品的视觉特征隐含表示,加以约束;对约束进行求解,得到当前商品最终的视觉特征的隐含表示;同理,得到每个商品最终的视觉特征的隐含表示。
作为本发明的进一步改进,所述建立文本特征空间的具体步骤为:
获取当前商品文本特征的隐含表示;
获取与当前商品正相关的正相关商品文本特征的隐含表示;
获取与当前商品负相关的负相关商品文本特征的隐含表示;
对得到的当前商品的文本特征隐含表示、正相关商品的文本特征隐含表示、负相关商品的文本特征隐含表示,加以约束;对约束进行求解,得到当前商品最终的文本特征的隐含表示;同理,得到每个商品最终的文本特征的隐含表示。
作为本发明的进一步改进,所述获取当前商品视觉特征的隐含表示的具体步骤为:
对当前商品,从当前商品图片中获取当前商品的视觉特征;
利用自编码器的编码器学习当前商品视觉特征的兼容性空间,得到当前商品视觉特征的隐含表示;
利用自编码器的解码器将当前商品视觉特征的隐含表示解码为当前商品视觉重建向量,使得当前商品视觉重建向量与当前商品视觉特征的隐含表示一致。
作为本发明的进一步改进,所述获取与当前商品正相关的正相关商品视觉特征的隐含表示的具体步骤为:
从当前商品的正相关数据集随机采样一个正相关商品,从正相关商品图片中获取正相关商品的视觉特征;
利用自编码器的编码器学习正相关商品视觉特征的兼容性空间,得到正相关商品视觉特征的隐含表示;
利用自编码器的解码器将正相关商品视觉特征的隐含表示解码为正相关商品视觉重建向量,使得正相关商品视觉重建向量与正相关商品视觉特征的隐含表示一致。
作为本发明的进一步改进,所述获取与当前商品负相关的负相关商品视觉特征的隐含表示的具体步骤为:
从当前商品的负相关数据集随机采样一个负相关商品,从负相关商品图片中获取负相关商品的视觉特征;
利用自编码器的编码器学习负相关商品视觉特征的兼容性空间,得到负相关商品视觉特征的隐含表示;
利用自编码器的解码器将负相关商品视觉特征的隐含表示解码为负相关商品视觉重建向量,使得负相关商品视觉重建向量与负相关商品视觉特征的隐含表示一致。
作为本发明的进一步改进,所述得到当前商品最终的视觉特征的隐含表示的具体步骤为:
对得到的当前商品的视觉特征隐含表示p、正相关商品的视觉特征隐含表示p+、负相关商品的视觉特征隐含表示p-,加以约束:
当前商品的视觉特征隐含表示与正相关商品的视觉特征隐含表示之间的距离d(p,p+)小于当前商品的视觉特征隐含表示与负相关商品的视觉特征隐含表示之间的距离d(p,p-):
最后,对约束进行求解,得到当前商品最终的视觉特征的隐含表示。
作为本发明的进一步改进,获取当前商品文本特征的隐含表示的具体步骤为:
对当前商品,从当前商品的商品评论中获取当前商品的文本特征;
利用自编码器的编码器学习当前商品文本特征的兼容性空间,得到当前商品文本特征的隐含表示;
利用自编码器的解码器将当前商品文本特征的隐含表示解码为当前商品文本重建向量,使得当前商品文本重建向量与当前商品文本特征的隐含表示一致。
作为本发明的进一步改进,获取与当前商品正相关的正相关商品文本特征的隐含表示的具体步骤为:
从当前商品的正相关数据集随机采样一个正相关商品,从正相关商品的商品评论中获取正相关商品的文本特征;
利用自编码器的编码器学习正相关商品文本特征的兼容性空间,得到正相关商品文本特征的隐含表示;
利用自编码器的解码器将正相关商品文本特征的隐含表示解码为正相关商品文本重建向量,使得正相关商品文本重建向量与正相关商品文本特征的隐含表示一致。
作为本发明的进一步改进,获取与当前商品负相关的负相关商品文本特征的隐含表示的具体步骤为:
从当前商品的负相关数据集随机采样一个负相关商品,从负相关商品的商品评论中获取负相关商品的文本特征;
利用自编码器的编码器学习负相关商品文本特征的兼容性空间,得到负相关商品文本特征的隐含表示;
利用自编码器的解码器将负相关商品文本特征的隐含表示解码为负相关商品文本重建向量,使得负相关商品文本重建向量与负相关商品文本特征的隐含表示一致。
作为本发明的进一步改进,得到当前商品最终的文本特征的隐含表示的具体步骤为:
对得到的当前商品的文本特征隐含表示m、正相关商品的文本特征隐含表示m+、负相关商品的文本特征隐含表示m-,加以约束:
当前商品的文本特征隐含表示与正相关商品的文本特征隐含表示之间的距离d(m,m+)小于当前商品的文本特征隐含表示与负相关商品的文本特征隐含表示之间的距离d(m,m-):
最后,对约束进行求解,得到当前商品最终的文本特征的隐含表示。
作为本发明的进一步改进,得到映射后的每个商品的隐表示向量、用户唯一标识表示向量和用户查询文本表示向量的具体步骤为:
将用户唯一标识表示用户查询文本表示和商品的隐表示向量cT,分别作为输入向量x输入到X=φ(WTx+bT),得到三元组的表示(u,q,e),即将用户唯一标识、用户查询文本和商品的隐表示映射到同一空间中;
e=φ(WTcT+bT);
其中,WT为转换矩阵,bT为偏置,φ为非线性激活函数;(u+q)-e≤θ,θ为设定阈值;u为映射后的用户唯一标识表示向量;q为映射后的用户查询文本的表示向量;e为映射后的商品隐表示向量。
作为本发明的进一步改进,所述步骤(4)的具体步骤为:
基于映射后的新查询用户唯一标识表示向量u’和用户新查询文本表示向量q’,计算映射后的商品隐表示向量:e′=u′+q′;
计算映射后的商品隐表示e′与步骤(3)的每一件商品的隐表示e之间的距离;
将距离按照从小到大排序,将排序靠前的设定个商品输出。
作为本发明的第二方面,提供了基于翻译的多模态建模系统;
基于多模态购物偏好的商品检索系统,包括:存储器、处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成上述任一方法所述的步骤。
作为本发明的第三方面,提供了一种计算机可读存储介质;
一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令被处理器运行时,完成上述任一方法所述的步骤。
与现有技术相比,本发明的有益效果是:
(1)本方法可以有效地将商品视觉的特征与文本的特征结合起来,从而可以优化个性化的商品检索结果。
(2)缓解了数据的稀疏性问题,可以使返回的排序结果更加合理。
(3)本方法可以提高个性化商品检索的准确度,从而在一定程度上为电子商务网站保留更多的用户和提高收入。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1是本发明的流程图。
具体实施方式
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
当前的商品检索方法大多都忽视了用户对商品的视觉偏好。在本发明中,我们提出了一种基于多模态的个性化商品检索方法。此方法不仅可以为当前用户的文本查询返回相关的产品,还可以匹配用户文本模态和视觉模态的购物偏好。为了实现这个目标,我们首先利用“查看后购买”和“同时查看”的商品集合来构建视觉和文本隐空间,在这个空间中,商品的视觉和语义相似度可以得到最大程度的保持。所述“同时查看”,是指,用户在浏览了一件商品后,也同时浏览了同类型的其他商品。
之后我们提出了一种基于翻译模型的检索模型来一方面在预训练学到的视觉和文本空间的基础上重新学习一个多模态的隐空间,另一方面将用户,查询和商品映射到这个空间上。这样,当用户提交一个新查询时,我们可以通过一种匹配关系将所有商品与当前的用户期望商品表示做匹配,选择最优的商品返回给用户。
作为本发明的第一个实施例,提供了基于多模态购物偏好的商品检索方法;
基于多模态购物偏好的商品检索方法,包括:训练阶段和测试阶段;
其中,训练阶段,包括:
步骤(1):对所有商品构建正相关数据集和负相关数据集;
所述正相关数据集,包括:商品图片和商品评论;所述商品是指:所有用户在查看完当前商品后,同时查看的同类型的其他所有商品;和所有用户在购买当前商品前,查看的同类型的其他所有商品;
所述负相关数据集,包括:与当前商品类型相同,但是不在正相关数据集中商品;
步骤(2):多模态特征空间建立:
步骤(21):视觉特征空间建立:
对当前商品,从当前商品图片中获取当前商品的视觉特征;
利用自编码器的编码器学习当前商品视觉特征的兼容性空间,得到当前商品视觉特征的隐含表示;
利用自编码器的解码器将当前商品视觉特征的隐含表示解码为当前商品视觉重建向量,使得当前商品视觉重建向量与当前商品视觉特征的隐含表示一致;
从当前商品的正相关数据集随机采样一个正相关商品,从正相关商品图片中获取正相关商品的视觉特征;
利用自编码器的编码器学习正相关商品视觉特征的兼容性空间,得到正相关商品视觉特征的隐含表示;
利用自编码器的解码器将正相关商品视觉特征的隐含表示解码为正相关商品视觉重建向量,使得正相关商品视觉重建向量与正相关商品视觉特征的隐含表示一致;
同理,从当前商品的负相关数据集随机采样一个负相关商品,从负相关商品图片中获取负相关商品的视觉特征;
利用自编码器的编码器学习负相关商品视觉特征的兼容性空间,得到负相关商品视觉特征的隐含表示;
利用自编码器的解码器将负相关商品视觉特征的隐含表示解码为负相关商品视觉重建向量,使得负相关商品视觉重建向量与负相关商品视觉特征的隐含表示一致;
对得到的当前商品的视觉特征隐含表示p、正相关商品的视觉特征隐含表示p+、负相关商品的视觉特征隐含表示p-,加以约束:
当前商品的视觉特征隐含表示与正相关商品的视觉特征隐含表示之间的距离d(p,p+)小于当前商品的视觉特征隐含表示与负相关商品的视觉特征隐含表示之间的距离d(p,p-):
d(p,p+)<d(p,p-);
其中,d为欧式距离或余弦距离;
最后,对约束进行求解,得到当前商品最终的视觉特征的隐含表示;
同理,得到所有商品最终的视觉特征的隐含表示;
步骤(22):文本特征空间建立:
对当前商品,从当前商品的商品评论中获取当前商品的文本特征;
利用自编码器的编码器学习当前商品文本特征的兼容性空间,得到当前商品文本特征的隐含表示;
利用自编码器的解码器将当前商品文本特征的隐含表示解码为当前商品文本重建向量,使得当前商品文本重建向量与当前商品文本特征的隐含表示一致;
从当前商品的正相关数据集随机采样一个正相关商品,从正相关商品的商品评论中获取正相关商品的文本特征;
利用自编码器的编码器学习正相关商品文本特征的兼容性空间,得到正相关商品文本特征的隐含表示;
利用自编码器的解码器将正相关商品文本特征的隐含表示解码为正相关商品文本重建向量,使得正相关商品文本重建向量与正相关商品文本特征的隐含表示一致;
同理,从当前商品的负相关数据集随机采样一个负相关商品,从负相关商品的商品评论中获取负相关商品的文本特征;
利用自编码器的编码器学习负相关商品文本特征的兼容性空间,得到负相关商品文本特征的隐含表示;
利用自编码器的解码器将负相关商品文本特征的隐含表示解码为负相关商品文本重建向量,使得负相关商品文本重建向量与负相关商品文本特征的隐含表示一致;
对得到的当前商品的文本特征隐含表示m、正相关商品的文本特征隐含表示m+、负相关商品的文本特征隐含表示m-,加以约束:
当前商品的文本特征隐含表示与正相关商品的文本特征隐含表示之间的距离d(m,m+)小于当前商品的文本特征隐含表示与负相关商品的文本特征隐含表示之间的距离d(m,m-):
d(m,m+)<d(m,m-);
其中,d为欧式距离或余弦距离;
最后,对约束进行求解,得到当前商品最终的文本特征的隐含表示;
同理,得到所有商品最终的文本特征的隐含表示;
步骤(3):多模态融合:将每个商品最终的视觉特征的隐含表示和文本特征的隐含表示进行融合,得到每个商品的融合后的隐含表示;将融合后的隐含表示输入到全连接神经网络进行视觉特征和文本特征的交互,最后得到商品的隐表示向量cT;
将用户唯一标识表示用户查询文本表示和商品的隐表示向量cT,分别作为输入向量x输入到X=φ(WTx+bT),得到三元组的表示(u,q,e),即将用户唯一标识、用户查询文本和商品的隐表示映射到同一空间中;
e=φ(WTcT+bT);
其中,WT为转换矩阵,bT为偏置,φ为非线性激活函数;(u+q)-e≤θ,θ为设定阈值;u为映射后的用户唯一标识表示;q为映射后的用户查询文本的表示;e为映射后的商品隐表示;
其中,测试阶段,包括:
计算测试阶段映射后的商品隐表示:e′=u′+q′;
计算测试阶段映射后的商品隐表示e′与训练阶段每一件商品的隐表示e之间的距离;
将距离按照从小到大排序,将排序靠前的设定个商品输出。
作为本发明的第二个实施例,提供了基于多模态购物偏好的商品检索系统;
基于多模态购物偏好的商品检索系统,包括:存储器、处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成上述任一方法所述的步骤。
作为本发明的第三个实施例,提供了一种计算机可读存储介质;
一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令被处理器运行时,完成上述任一方法所述的步骤。
本发明所采用的技术方案包括如下步骤:
1)多模态特征空间预建立:为了得到一个完善的多模态特征空间模型,我们需要大量的用户、查询与商品对,而实际中这些数据是非常稀疏的。因此,在大量的同时查看(also_view)和查看后购买(buy_after_viewing)特征数据帮助下,我们可以重新建立一个多模态特征空间,因为这两种情况下的商品可认为是可替代的或紧密相关的。之后,我们可以重新建立一个视觉特征空间,在这个新的空间表示中,商品之间的视觉相似度得到最大程度的保持;类似的,一个文本特征空间也可以依此建立。
2)基于翻译模型模型Translation-based的多模态融合:完成预训练阶段后,两种模态的特征数据可以重新融合、交互并提炼,形成对商品的新的表征。对一个用户和其提出的查询则当前用户的目标商品表示当给定一个用户真实对应购买的商品和一个随机采样的负样本商品时,我们希望目标商品与真实购买商品的距离小于其与负样本的距离。完成训练后在测试阶段,我们可以对所有的商品与当前用户的期望商品表示求距离,取最小的前10(或20)个商品返回给用户。
如图1所示,本发明包括如下步骤:
1)多模态特征空间预建立。
为了建立一个可以保持视觉和语义相似度的特征空间,我们需要利用好“同时查看”和“查看后购买”的商品集合。在这些集合中的商品通常具有很高的视觉和语义相似度,我们采用了最新的自编码器神经网络来学习这个特征空间,其被证明了在很多隐空间学习问题中的有效性。
自编码器有两个部分:编码器和解码器。前者可以为输入重新学得一个表示而后者可以重现这个表示。在当前任务中,我们对每个候选商品,都从它对应的“同时查看”和“查看后购买”的相关商品集合中选择一个正相关的商品,再从其它商品中选择一个负相关的商品,我们希望用自编码器学得商品的一个新的表示,这个新的表示需要满足候选商品与正相关商品的距离小于与负相关商品的距离,并且可以在最大程度上保持商品之间的视觉和语义相似度。
我们同时对视觉和文本空间都做相同的处理,从而得到了一个较为合理和完备的新的视觉空间和文本空间。
2)基于翻译模型的多模态融合。
(2.1)多模态特征融合:这部分的作用是将之前得到的两种特征融合在一起,即c0=[pv;pt],其中pv为视觉特征,pt为文本特征。然后利用一个多层的全连接神经网络获得视觉和文本特征的交互cT。在得到融合后的特征后,我们利用一个基于翻译模型的转换矩阵将其投影到一个隐空间中,得到商品在这个空间中的表示,e=φ(WTcT+bT)。
(2.3)比较学习:通过用户与查询的表示的相加u+q,我们可以得到用户期望购买的商品表示e′,为了学到一个更好的隐表示,我们随机采样没有被当前用户通过当前查询购买的商品作为负样例,并且希望用户期望购买的商品表示与正样例的距离小于负样例,即d(e′,e+)<d(e′,e-),其中e+为正商品表示,e-为负商品表示,为d()距离函数,如欧式距离,余弦距离等。
3)在模型训练结束后,对每个用户提交的新查询,我们首先对用户的唯一标识表示映射到“基于翻译”的空间中,再对当前的查询也投影到这个空间中,对所有的商品隐表示,首先将视觉特征和文本特征融合并交互,同样地,也投影到这个空间中。计算得到所有商品的相关分数,之后对此分数作排序,排序最高的前10(或者20)个商品返回给用户。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (9)
1.基于翻译的多模态建模方法,其特征是,包括:
步骤(1):对所有商品构建正相关数据集和负相关数据集;
步骤(2):建立多模态特征空间,包括:建立视觉特征空间和建立文本特征空间;基于多模态特征空间得到每个商品最终的视觉特征的隐含表示和文本特征的隐含表示;
步骤(3):将每个商品最终的视觉特征的隐含表示和文本特征的隐含表示进行融合,得到每个商品的融合后的隐含表示;将每个商品融合后的隐含表示输入到全连接神经网络进行视觉特征和文本特征的交互,将交互结果、用户唯一标识和用户查询文本分别利用基于翻译模型的转换矩阵映射到隐空间中,得到映射后的每个商品的隐表示向量、用户唯一标识表示向量和用户查询文本表示向量;
步骤(4):将用户新查询文本和新查询文本对应的新查询用户唯一标识分别利用基于翻译模型的转换矩阵映射到隐空间中,得到映射后的新查询用户唯一标识表示向量和用户新查询文本表示向量;基于映射后的新查询用户唯一标识表示向量和用户新查询文本表示向量,得到新查询文本对应的商品的隐表示向量;计算新查询文本对应的商品的隐表示向量与步骤(3)中每个商品的隐表示向量之间的距离;将距离按照从小到大排序,将排序靠前的设定个商品作为商品检索结果输出;
2.如权利要求1所述的基于翻译的多模态建模方法,其特征是,
所述正相关数据集,包括:商品图片和商品评论;所述商品是指:所有用户在查看完当前商品后,同时查看的同类型的其他所有商品;和所有用户在购买当前商品前,查看的同类型的其他所有商品;
所述负相关数据集,包括:与当前商品类型相同,但是不在正相关数据集中商品。
3.如权利要求1所述的基于翻译的多模态建模方法,其特征是,
所述建立视觉特征空间的具体步骤为:
获取当前商品视觉特征的隐含表示;
获取与当前商品正相关的正相关商品视觉特征的隐含表示;
获取与当前商品负相关的负相关商品视觉特征的隐含表示;
对得到的当前商品的视觉特征隐含表示、正相关商品的视觉特征隐含表示、负相关商品的视觉特征隐含表示,加以约束;对约束进行求解,得到当前商品最终的视觉特征的隐含表示;同理,得到每个商品最终的视觉特征的隐含表示。
4.如权利要求1所述的基于翻译的多模态建模方法,其特征是,
所述建立文本特征空间的具体步骤为:
获取当前商品文本特征的隐含表示;
获取与当前商品正相关的正相关商品文本特征的隐含表示;
获取与当前商品负相关的负相关商品文本特征的隐含表示;
对得到的当前商品的文本特征隐含表示、正相关商品的文本特征隐含表示、负相关商品的文本特征隐含表示,加以约束;对约束进行求解,得到当前商品最终的文本特征的隐含表示;同理,得到每个商品最终的文本特征的隐含表示。
5.如权利要求3所述的基于翻译的多模态建模方法,其特征是,
所述获取当前商品视觉特征的隐含表示的具体步骤为:
对当前商品,从当前商品图片中获取当前商品的视觉特征;
利用自编码器的编码器学习当前商品视觉特征的兼容性空间,得到当前商品视觉特征的隐含表示;
利用自编码器的解码器将当前商品视觉特征的隐含表示解码为当前商品视觉重建向量,使得当前商品视觉重建向量与当前商品视觉特征的隐含表示一致;
或者,
所述获取与当前商品正相关的正相关商品视觉特征的隐含表示的具体步骤为:
从当前商品的正相关数据集随机采样一个正相关商品,从正相关商品图片中获取正相关商品的视觉特征;
利用自编码器的编码器学习正相关商品视觉特征的兼容性空间,得到正相关商品视觉特征的隐含表示;
利用自编码器的解码器将正相关商品视觉特征的隐含表示解码为正相关商品视觉重建向量,使得正相关商品视觉重建向量与正相关商品视觉特征的隐含表示一致;
或者,
所述获取与当前商品负相关的负相关商品视觉特征的隐含表示的具体步骤为:
从当前商品的负相关数据集随机采样一个负相关商品,从负相关商品图片中获取负相关商品的视觉特征;
利用自编码器的编码器学习负相关商品视觉特征的兼容性空间,得到负相关商品视觉特征的隐含表示;
利用自编码器的解码器将负相关商品视觉特征的隐含表示解码为负相关商品视觉重建向量,使得负相关商品视觉重建向量与负相关商品视觉特征的隐含表示一致。
6.如权利要求3所述的基于翻译的多模态建模方法,其特征是,
所述得到当前商品最终的视觉特征的隐含表示的具体步骤为:
对得到的当前商品的视觉特征隐含表示p、正相关商品的视觉特征隐含表示p+、负相关商品的视觉特征隐含表示p-,加以约束:
当前商品的视觉特征隐含表示与正相关商品的视觉特征隐含表示之间的距离d(p,p+)小于当前商品的视觉特征隐含表示与负相关商品的视觉特征隐含表示之间的距离d(p,p-):
最后,对约束进行求解,得到当前商品最终的视觉特征的隐含表示。
8.基于翻译的多模态建模系统,其特征是,包括:存储器、处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成权利要求1-7任一所述方法的步骤。
9.一种计算机可读存储介质,其特征是,其上存储有计算机指令,所述计算机指令被处理器运行时,完成权利要求1-7任一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810636653.7A CN108829847B (zh) | 2018-06-20 | 2018-06-20 | 基于翻译的多模态建模方法及其在商品检索中的应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810636653.7A CN108829847B (zh) | 2018-06-20 | 2018-06-20 | 基于翻译的多模态建模方法及其在商品检索中的应用 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108829847A CN108829847A (zh) | 2018-11-16 |
CN108829847B true CN108829847B (zh) | 2020-11-17 |
Family
ID=64142782
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810636653.7A Active CN108829847B (zh) | 2018-06-20 | 2018-06-20 | 基于翻译的多模态建模方法及其在商品检索中的应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108829847B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI696082B (zh) * | 2019-02-22 | 2020-06-11 | 國立高雄大學 | 大數據之資料擷取方法及系統 |
CN110321473B (zh) * | 2019-05-21 | 2021-05-25 | 山东省计算中心(国家超级计算济南中心) | 基于多模态注意力的多样性偏好信息推送方法、系统、介质及设备 |
CN112148964B (zh) * | 2019-06-29 | 2022-11-18 | 阿里巴巴集团控股有限公司 | 信息处理、推荐方法、系统及设备 |
CN110851629A (zh) * | 2019-10-14 | 2020-02-28 | 信阳农林学院 | 一种图像检索的方法 |
CN113761342A (zh) * | 2021-01-21 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 信息推送方法、装置和计算机可读存储介质 |
CN113297475B (zh) * | 2021-03-26 | 2024-10-22 | 淘宝(中国)软件有限公司 | 商品对象信息搜索方法、装置及电子设备 |
CN113742573B (zh) * | 2021-08-03 | 2023-11-14 | 深圳Tcl新技术有限公司 | 一种多媒体资源搜索方法、装置、计算机设备和存储介质 |
CN117474019B (zh) * | 2023-12-27 | 2024-05-24 | 天津大学 | 一种视觉引导的目标端未来语境翻译方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103559191A (zh) * | 2013-09-10 | 2014-02-05 | 浙江大学 | 基于隐空间学习和双向排序学习的跨媒体排序方法 |
CN104298749A (zh) * | 2014-10-14 | 2015-01-21 | 杭州淘淘搜科技有限公司 | 一种图像视觉和文本语义融合商品检索方法 |
CN104899253A (zh) * | 2015-05-13 | 2015-09-09 | 复旦大学 | 面向社会图像的跨模态图像-标签相关度学习方法 |
CN106909946A (zh) * | 2017-03-02 | 2017-06-30 | 深圳明创自控技术有限公司 | 一种多模态融合的商品分类系统 |
CN107870992A (zh) * | 2017-10-27 | 2018-04-03 | 上海交通大学 | 基于多通道主题模型的可编辑服装图像搜索方法 |
CN108062421A (zh) * | 2018-01-09 | 2018-05-22 | 焦点科技股份有限公司 | 一种大规模图片多尺度语义检索方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9424598B1 (en) * | 2013-12-02 | 2016-08-23 | A9.Com, Inc. | Visual search in a controlled shopping environment |
-
2018
- 2018-06-20 CN CN201810636653.7A patent/CN108829847B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103559191A (zh) * | 2013-09-10 | 2014-02-05 | 浙江大学 | 基于隐空间学习和双向排序学习的跨媒体排序方法 |
CN104298749A (zh) * | 2014-10-14 | 2015-01-21 | 杭州淘淘搜科技有限公司 | 一种图像视觉和文本语义融合商品检索方法 |
CN104899253A (zh) * | 2015-05-13 | 2015-09-09 | 复旦大学 | 面向社会图像的跨模态图像-标签相关度学习方法 |
CN106909946A (zh) * | 2017-03-02 | 2017-06-30 | 深圳明创自控技术有限公司 | 一种多模态融合的商品分类系统 |
CN107870992A (zh) * | 2017-10-27 | 2018-04-03 | 上海交通大学 | 基于多通道主题模型的可编辑服装图像搜索方法 |
CN108062421A (zh) * | 2018-01-09 | 2018-05-22 | 焦点科技股份有限公司 | 一种大规模图片多尺度语义检索方法 |
Non-Patent Citations (2)
Title |
---|
Multi-modal Preference Modeling for Product Search;Yangyang Guo等;《26th ACM Multimedia Conference(MM)》;20181026;1865-1873 * |
基于深度学习的跨模态检索研究;冯方向;《中国博士学位论文全文数据库 信息科技辑》;20160315(第03期);I140-36 * |
Also Published As
Publication number | Publication date |
---|---|
CN108829847A (zh) | 2018-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108829847B (zh) | 基于翻译的多模态建模方法及其在商品检索中的应用 | |
CN112313697B (zh) | 用于生成描述角度增强的可解释的基于描述的推荐的系统和方法 | |
Deldjoo et al. | A review of modern fashion recommender systems | |
US20190362233A1 (en) | Methods and apparatus for detecting, filtering, and identifying objects in streaming video | |
KR20210098884A (ko) | 사용자의 체형 및 구매 이력을 이용하여 패션 아이템 추천 서비스를 제공하는 방법 | |
JP2016181196A (ja) | 情報処理装置、情報処理方法およびプログラム | |
CN109584006B (zh) | 一种基于深度匹配模型的跨平台商品匹配方法 | |
CN110321473B (zh) | 基于多模态注意力的多样性偏好信息推送方法、系统、介质及设备 | |
CN110909536A (zh) | 用于自动生成产品的文章的系统和方法 | |
CN112612973A (zh) | 结合知识图谱的个性化智能服装搭配推荐方法 | |
Mohammadi et al. | Smart fashion: a review of AI applications in the Fashion & Apparel Industry | |
CN113744019A (zh) | 一种商品推荐方法、装置、设备及存储介质 | |
KR20200140588A (ko) | 이미지 기반 제품 매매 서비스 제공 시스템 및 방법 | |
CN113191858A (zh) | 基于图片搜索的商品展示方法及装置 | |
Wadikar et al. | Book recommendation platform using deep learning | |
Liu et al. | A clothing recommendation dataset for online shopping | |
KR20220039697A (ko) | 코디네이션 패션 아이템을 추천하는 방법 | |
CN114898192A (zh) | 模型训练方法、预测方法、设备、存储介质及程序产品 | |
CN110851694B (zh) | 基于用户记忆网络和树形结构的深度模型的个性化推荐系统 | |
KR20220019737A (ko) | 패션 상품 추천 방법, 장치 및 컴퓨터 프로그램 | |
Vartak et al. | CHIC: a combination-based recommendation system | |
CN115641179A (zh) | 信息推送方法、装置及电子设备 | |
US11941681B2 (en) | System, method, and computer program product for determining compatibility between items in images | |
JP2012194691A (ja) | 識別器の再学習方法、再学習のためのプログラム、及び画像認識装置 | |
KR102378072B1 (ko) | 코디네이션 패션 아이템을 추천하는 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |