CN114936901A - 基于跨模态语义推理与融合的视觉感知推荐方法及系统 - Google Patents
基于跨模态语义推理与融合的视觉感知推荐方法及系统 Download PDFInfo
- Publication number
- CN114936901A CN114936901A CN202210558907.4A CN202210558907A CN114936901A CN 114936901 A CN114936901 A CN 114936901A CN 202210558907 A CN202210558907 A CN 202210558907A CN 114936901 A CN114936901 A CN 114936901A
- Authority
- CN
- China
- Prior art keywords
- commodity
- semantic
- representation
- characterization
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 230000004927 fusion Effects 0.000 title claims abstract description 52
- 230000016776 visual perception Effects 0.000 title claims abstract description 34
- 230000000007 visual effect Effects 0.000 claims abstract description 84
- 238000012512 characterization method Methods 0.000 claims abstract description 74
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 59
- 230000007246 mechanism Effects 0.000 claims abstract description 23
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 11
- 230000003993 interaction Effects 0.000 claims description 26
- 239000013598 vector Substances 0.000 claims description 20
- 238000013507 mapping Methods 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 14
- 230000008447 perception Effects 0.000 claims description 11
- 238000003860 storage Methods 0.000 claims description 10
- 230000009133 cooperative interaction Effects 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000005457 optimization Methods 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 7
- 230000000295 complement effect Effects 0.000 abstract description 5
- 230000002452 interceptive effect Effects 0.000 abstract description 2
- 238000001914 filtration Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 9
- 238000012549 training Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000007500 overflow downdraw method Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000002679 ablation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013400 design of experiment Methods 0.000 description 1
- 230000037213 diet Effects 0.000 description 1
- 235000005911 diet Nutrition 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000004438 eyesight Effects 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/5866—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Library & Information Science (AREA)
- Business, Economics & Management (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Mathematics (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Algebra (AREA)
- Development Economics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于推荐技术领域,提供了一种基于跨模态语义推理与融合的视觉感知推荐方法及系统,包括基于用户和商品的交互信息学习用户协同表征和商品协同表征;提取商品图像的统一嵌入表征,基于双向门控机制的异构表征对齐算法学习视觉偏好表征;提取商品图像的统一嵌入表征,基于双向门控机制的异构表征对齐算法和商品文本描述学习图像语义表征;基于图像语义表征通过图卷积生成语义偏好表征;将用户协同表征、商品协同表征、视觉偏好表征以及语义偏好表征进行融合,计算用户对商品的偏好得分,基于用户对商品的偏好得分为用户推荐商品;本发明实现多模态异构表征之间冗余信息与互补信息的权衡。
Description
技术领域
本发明属于推荐技术领域,具体涉及一种基于跨模态语义推理与融合的视觉感知推荐方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
推荐算法作为人工智能中的经典算法,能够为平台企业提供精准的用户分析,满足用户高效率的服务需求。例如,用户使用饮食推荐系统来快速筛选自己喜爱的食品;使用视频推荐系统寻找特定类型的影片。传统的推荐系统普遍利用用户与商品之间的交互信息来学习用户的偏好,并为用户推荐类似的商品。近年来,随着多媒体数据的广泛可用,推荐算法开始使用图像数据进行商品的内容表征,并形成了融合视觉感知的推荐算法。然而,由于互联网图像内容多样、质量不一,现有算法的性能普遍受限于视觉特征的学习,因此,亟需鲁棒的视觉表征方法进行用户的视觉偏好建模。
现有的视觉感知推荐方法主要分为两类。一类是基于预提取特征的方法,通常使用从预训练的物品分类模型(如VGG19,ResNet18)中提取的视觉特征来完成推荐任务,而这些特征主要是对物品类别或其包含的视觉内容进行编码,很难将其与用户的个人偏好联系起来。这也导致了在向不同偏好的用户推荐物品时视觉推荐算法准确性的下降。另一类则是端到端的方法,实时提取图像特征,并根据模型的推荐效果来更新模型,这样通常比基于预提取特征的方法获得更好的模型性能。然而,近期研究发现视觉特征的学习模型需要面对语义与协同信息抽取的权衡,即体现商品间视觉内容上的相似性或单个用户交互商品间视觉元素上的共性。因此,亟需新的方法进行语义层面的商品内容表征,运用特征融合策略实现语义与协同信息层面的多角度特征互补,从而提升推荐模型的性能。
发明内容
为了解决上述问题,本发明提出了一种基于跨模态语义推理与融合的视觉感知推荐方法及系统,本发明通过引入图像的文本描述作为先验知识,使用双向门控机制(DGM)实现图像信息从视觉空间向语义空间的映射,提出图卷积语义过滤算法(GSF)进行用户感知的语义表征学习,通过协同、视觉、语义等多模态特征的融合构成商品的统一表征,进而提升传统视觉感知推荐算法的性能。
根据一些实施例,本发明的第一方案提供了一种基于跨模态语义推理与融合的视觉感知推荐方法,采用如下技术方案:
基于跨模态语义推理与融合的视觉感知推荐方法,包括:
基于用户和商品的交互信息学习用户协同表征和商品协同表征;
提取商品图像的统一嵌入表征,基于双向门控机制的异构表征对齐算法学习视觉偏好表征;
提取商品图像的统一嵌入表征,基于双向门控机制的异构表征对齐算法和商品文本描述学习图像语义表征;基于图像语义表征通过图卷积生成语义偏好表征;
将用户协同表征、商品协同表征、视觉偏好表征以及语义偏好表征进行融合,计算用户对商品的偏好得分,基于用户对商品的偏好得分为用户推荐商品。
进一步地,基于用户和商品的交互信息学习用户协同表征和商品协同表征,包括:
根据随机采样出的用户索引u和商品索引i从用户嵌入矩阵embu(.)和商品交互矩阵embi(.)分别学习用户协同表征pu和商品协同表征ci,表示为:
pu=embu(u)
ci=embi(i)。
进一步地,提取商品图像的统一嵌入表征,基于双向门控机制的异构表征对齐算法学习视觉偏好表征,包括:
通过视觉编码器抽取商品图像的统一嵌入表征;
基于商品图像的统一嵌入表征,通过任务感知门控将其映射为视觉偏好表征;
通过梯度正则门控约束其优化过程,得到最终的视觉偏好表征。
进一步地,所述基于商品图像的统一嵌入表征,通过任务感知门控将其映射为视觉偏好表征,包括:
任务感知门控在商品图像的统一嵌入表征vi的基础上引入了可自学习的门控嵌入向量gr和用户表征pu;
映射到图像视觉偏好的特征空间,得到视觉偏好特征,具体如下:
qi=θ(||vi⊙δ(concat(pu,vi,gr))||2)
进一步地,所述提取商品图像的统一嵌入表征,基于双向门控机制的异构表征对齐算法和商品文本描述学习图像语义表征,包括:
通过视觉编码器抽取商品图像的统一嵌入表征;
基于商品图像的统一嵌入表征,通过语义任务门控将其映射为图像语义表征;
将商品文本描述的语义知识融入图像语义表征中,得到最终的图像语义表征。
进一步地,所述基于商品图像的统一嵌入表征,通过语义任务门控将其映射为图像语义表征,包括:
Ii=||vi⊙δ(concat(vi,gp))||2
进一步地,所述将商品文本描述的语义知识融入图像语义表征中,得到最终的图像语义表征,包括:
通过将商品文本描述融合到图像语义表征中来增强模型对于图像语义的表征能力,其定义为:
其中,gpkf表示一个可学习的嵌入向量,⊙表示向量间的点乘操作,ReLU(.)表示ReLU激活函数。
根据一些实施例,本发明的第二方案提供了一种基于跨模态语义推理与融合的视觉感知推荐系统,采用如下技术方案:
基于跨模态语义推理与融合的视觉感知推荐系统,包括:
协同交互表征学习模块,被配置为基于用户和商品的交互信息学习用户协同表征和商品协同表征;
视觉表征学习模块,被配置为提取商品图像的统一嵌入表征,基于双向门控机制的异构表征对齐算法学习视觉偏好表征;
语义表征学习模块,被配置为提取商品图像的统一嵌入表征,基于双向门控机制的异构表征对齐算法和商品文本描述学习图像语义表征;基于图像语义表征通过图卷积生成语义偏好表征;
多模态表征融合与推荐模块,被配置为将用户协同表征、商品协同表征、视觉偏好表征以及语义偏好表征进行融合,计算用户对商品的偏好得分,基于用户对商品的偏好得分为用户推荐商品。
根据一些实施例,本发明的第三方案提供了一种计算机可读存储介质。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一个方面所述的基于跨模态语义推理与融合的视觉感知推荐方法中的步骤。
根据一些实施例,本发明的第四方案提供了一种计算机设备。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述第一个方面所述的基于跨模态语义推理与融合的视觉感知推荐方法中的步骤。
与现有技术相比,本发明的有益效果为:
本发明引入图像标注与用户交互信息作为先验知识,指导商品内容特征从视觉空间向语义空间的映射,运用特征融合策略实现协同、视觉及语义等多角度特征的互补,从而提升推荐模型的性能。面向异构模态特征映射问题,采用基于双向门控机制(DGM)的异构表征对齐算法,增强跨模态表征的判别力及模型训练的稳定性;针对语义信息推理的错误预测问题,提出多源知识融合的图卷积语义过滤算法(GSF),使用用户交互信息及商品语义元素相关性等先验知识进行语义加权,学习稳定的商品高阶语义表征。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1是本发明实施例所述的基于跨模态语义推理与融合的视觉感知推荐方法的流程图;
图2是本发明实施例所述的基于跨模态语义推理与融合的视觉感知推荐方法的基本结构图;
图3是本发明实施例所述的多源知识融合的图卷积语义过滤算法流程图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例一
如图1所示,本实施例提供了一种基于跨模态语义推理与融合的视觉感知推荐方法,本实施例以该方法应用于服务器进行举例说明,可以理解的是,该方法也可以应用于终端,还可以应用于包括终端和服务器和系统,并通过终端和服务器的交互实现。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务器、云通信、中间件服务、域名服务、安全服务CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。本实施例中,该方法包括以下步骤:
步骤S1:基于用户和商品的交互信息学习用户协同表征和商品协同表征;
步骤S2:提取商品图像的统一嵌入表征,基于双向门控机制的异构表征对齐算法学习视觉偏好表征;
步骤S3:提取商品图像的统一嵌入表征,基于双向门控机制的异构表征对齐算法和商品文本描述学习图像语义表征;基于图像语义表征通过图卷积生成语义偏好表征;
步骤S4:将用户协同表征、商品协同表征、视觉偏好表征以及语义偏好表征进行融合,计算用户对商品的偏好得分,基于用户对商品的偏好得分为用户推荐商品。
如图2所示,基于跨模态语义推理与融合的视觉感知推荐方法(CSR-Net),包括三个模块,具体包括:
1、协同交互表征学习模块,基于用户和商品的交互信息学习用户协同表征pu和商品协同表征ci;
也就是说,跨模态内容表征学习模块包括视觉表征学习模块和语义表征学习模块;
3、多模态表征融合模块,融合前述表征,通过商品内容表征的增强使得推荐任务从多角度聚焦于用户的偏好信息,从而实现对于传统视觉感知推荐的补足。
步骤S1:基于用户和商品的交互信息学习用户协同表征和商品协同表征,具体包括:
协同交互表征学习模块
如图2所示,CSR-Net的协同交互表征学习模块与传统协同过滤推荐算法相似,根据随机采样出的用户索引u和商品索引i从用户嵌入矩阵embu(.)和商品交互矩阵embi(.)分别学习用户协同表征pu和商品协同表征ci,可表示为:
pu=embu(u) (1)
ci=embi(i) (2)
步骤S2:提取商品图像的统一嵌入表征,基于双向门控机制的异构表征对齐算法学习视觉偏好表征;
视觉表征学习模块
如图2所示,CSR-Net在视觉表征学习模块中生成视觉偏好表征qi,来对协同表征进行补足。如图2所示,CSR-Net通过视觉编码器ε(·)抽取商品图像f的统一嵌入表征通过任务感知门控将其映射为视觉偏好表征并通过梯度正则门控约束其优化过程,其总体计算公式可以表示为:
下面描述视觉表征学习算法的整体技术流程。
任务感知门控
图像视觉表征和图像语义表征所聚焦的图像特征之间存在显著异构性,很难从统一嵌入表征vi直接映射得到,因此CSR-Net提出了任务感知门控的策略,通过任务门控控制视觉信息的传递。
qi=θ(||vi⊙δ(concat(pu,vi,gr))||2 )(4)
梯度正则门控
跨模态内容表示学习需要学习用户的多模态偏好信息,视觉编码器在对图像进行统一嵌入编码时存在视觉信息和语义信息的权衡,仅对于两个损失进行简单融合来优化可能会导致异构表征提取的崩溃。为了解决该问题,CSR-Net提出了梯度感知门控对损失进行正则约束。
在反向传播过程中,CSR-Net通过一个梯度门来融合两个异构表征传递回来的梯度,使得视觉编码器权衡统一嵌入特征中视觉偏好表征和图像语义表征。梯度门基于深度Q网络(DQN)的方式实现[33],DQN在商品推荐模型训练的每个批次下选择s(t)作为的权重,然后通过推荐模型反馈得到的 进行对DQN的选择惩罚,其损失函数定义为:
步骤S3:提取商品图像的统一嵌入表征,基于双向门控机制的异构表征对齐算法和商品文本描述学习图像语义表征;基于图像语义表征通过图卷积生成语义偏好表征,具体包括:
语义表征学习模块
如图2所示,除了视觉偏好表征qi之外,CSR-Net基于双向门机制进行语义推理,从统一嵌入表征中学习图像语义表征;随后面向先验知识进行语义融合,将商品文本描述的语义知识融入图像语义表征中;最后基于图卷积算子进行语义信息过滤,从图像语义表征中学习语义偏好表征,进而补足用户的多模态偏好表征。
基于DGM的语义推理
Ii=||vi⊙δ(concat(vi,gp))||2(6)
面向先验知识的语义融合
为实现图像语义表征的增强,CSR-Net还通过先验语义表征的融合来增强模型对于图像语义的表征能力,其定义为:
其中gpkf表示一个可学习的嵌入向量,⊙表示向量间的点乘操作,ReLU(.)表示ReLU激活函数。
基于多源知识融合的语义信息过滤
通过初步试验,我们发现语义信息的加入能显著提升传统协同过滤推荐算法或面向视觉感知的推荐算法的推荐性能,现有多模态推荐研究普遍依靠数据集的模态丰富性,在语义信息噪音过多或不可用时表现效果不佳。
为了在解决上述问题的同时保留更有信息量的语义表征,CSR-Net通过语义加权模块的多种方式实现语义标签预测结果到语义偏好表征si的映射,包括平均权重的图卷积、面向语义预测的图卷积、面向知识图谱的图卷积和面向用户感知的图卷积。其中面向用户感知的图卷积是指基于用户与各个语义元素之间的交互关系来设置各语义元素对应的融合权重,该加权方法引申于“用户更偏向于曾与其交互更多的语义元素”这一假设,定义如下:
其中ei,表示预测的语义表征,表示用户u与语义标签n之间的交互关系,σ(.)表示跨域特征映射层,wn表示用户感知下语义标签n的自学习权重变量,βu和βn分别表示对用户u和语义标签n的偏置项,si表示面向用户感知的语义偏好表征。
除了面向用户感知的图卷积外,面向平均权重的图卷积是一种最基础的图像语义表征融合方法,即各类语义共享同一权重;面向预测权重的图卷积是指基于预测的概率设置各类语义的融合权重;面向知识图谱的图卷积则是通过语义标签之间的交叉关系设置各类语义的融合权重。
步骤S4:将用户协同表征、商品协同表征、视觉偏好表征以及语义偏好表征进行融合,计算用户对商品的偏好得分,基于用户对商品的偏好得分为用户推荐商品,具体包括:
多模态表征融合与推荐模块
CSR-Net是一个通用的异构跨模态特征融合学习框架,可以纳入任何协同过滤推荐算法。为了便于计算和评估,我们选择了贝叶斯个性化排名-矩阵分解算法(BPR-MF)和视觉贝叶斯个性化排名算法(VBPR)作为本研究的主干,它们以嵌入向量的形式表述每个用户和商品,核心思想在于将用户对商品的偏好分数估计为他们嵌入向量的内积[31]。除了传统协同过滤算法所需的用户表征pu和协同表征ci之外,多模态表征融合模块还接收了视觉偏好表征qi和语义偏好表征si进行商品推荐。其中多模态表征的融合操作可表示为:
训练策略
多模态表征推荐基于贝叶斯个性化排序算法(BPR)进行优化,它假定观察到的互动应该比未观察到的互动排名更高,将隐式反馈中用户对观察到的与未观察到的商品之间偏好分数的差值最大化,其目标函数为:
实验
实验设计
表1数据集的统计信息
数据集 | 用户个数 | 商品个数 | 交互个数 | 语义元素类别 | 稀疏度 |
Allrecipes | 68,768 | 45,630 | 1,093,845 | 2,736 | 99.97% |
Amazon_CDs | 67,282 | 40,314 | 752,724 | 467 | 99.97% |
数据集
我们在两个真实世界中的数据集上进行了全部实验,其中Allrecipes是由Gao等人构建的;其次,我们从Amazon原始数据集中提取了Amazon_CDs以满足任务的需要。在表1中展示了这两个数据集的统计数据,这两个数据集都遵循Allrecipes中使用的数据划分方法,其中训练集包括最早的60%交互数据,测试集包括每个用户最新30%的交互数据,其余10%作为验证集。
评估标准
本实施例采用了五种评价指标来评估推荐的性能,其中包括准确率(P)、召回率(R)、平衡F分数(F)、归一化折损累计增益(NDCG)和接受者操作特性曲线下面积(AUC)。测试过程从数据集中随机选择500个负样本(与用户不存在交互的样本)和所有正样本(与用户存在交互的样本)组成每个用户的排名列表。P@k、R@k、F@k和NDCG@k计算所有抽样项目中正样本在Top-k排名项目中的表现,而AUC衡量的是推荐器推荐的正样本排名高于随机选择的负样本的概率。为了降低随机负采样的随机性,我们采用了五折交叉验证的方法来评估模型的推荐效果,即重复五次测试过程并将其平均值作为最终的推荐效果。
实施细节
基于ResNet18在商品推荐和语义预测中的高效率和高性能表现,CSR-Net将其作为视觉编码器进行统一嵌入表征的抽取,其维度为512。多模态融合推荐模型由Adagrad优化器优化,其学习率从0.0001至0.5挑选,DQN模型和语义预测模型由Adam优化器进行优化,其学习率设置为0.00001至0.005,和的比例从1:1到1:0.001取得。多模态表征的维度和批大小均从{32,64,128,256}中择优选择,每完成两个时期的训练,两个优化器的学习率都乘以0.1。
性能比较
在本节中,本实施例采用BPR-MF,BPR-MF(Image/Semantics),VBPR,HAFR-non-i,AMR,VECF,PiNet作为性能比较的基线算法,为了公平比较,所有算法都使用相同的视觉编码器来提取视觉特征。对于每个算法,我们对它们的超参数进行了微调,以获得它们在实验中的最佳性能。
表2 CSR-Net与现有算法在Amazon_CDs和Allrecipes数据集上的性能比较
从表2可以观察到以下几点:
视觉信息和语义信息都可以提升BPR-MF算法的性能,与BPR-MF(Image)相比,BPR-MF(Semantics)在Amazon_CDs数据集上获得了8.4%的效果提升,这证明了语义信息在协同过滤推荐中的重要性。
VECF和HAFR-non-i算法的表现通常优于AMR和VBPR算法,这主要是因为它们使用了注意力模块来学习用户感知的视觉特征。
除我们的方法外,PiNet在两个数据集的各个性能指标上都优于其他算法,原因是PiNet基于商品的语义元素信息约束了视觉编码器的训练过程,从而学习更有效的内容表征。
CSR-Net在所有性能指标上都优于现有算法。这验证了CSR-Net能够通过融合用户表征、协同表征和用户多模态偏好信息来提升现有协同过滤推荐模型的推荐性能。
CSR-Net在Amazon_CDs数据集上获得了更高的效果提升,这是由于该数据集语义元素类别较少,语义信息更具表征性,同时证明了语义信息在多模态推荐领域中的重要作用。
消融实验
语义过滤算法的评估
表3在Amazon_CDs和Allrecipes数据集中CSR-Net的语义过滤算法不同语义加权模块的P@10表现。Base:面向视觉感知的PiNet推荐模型;AW:面向平均权重的图卷积;PW:面向语义预测的图卷积;KW:面向知识图谱的图卷积;
UW:面向用户感知的图卷积。
本节评估了CSR-Net中语义过滤算法的多种加权方法对于推荐准确度的影响。如表3所示,与较为随机的“AW”、“PW”不同的是,“KW”基于知识图谱帮助模型精准过滤噪音,更重要的是,CSR-Net加入了用户感知信息“UW”,通过先验的用户历史偏好信息优化噪音信息的过滤过程,使得PiNet获得了最大程度的推荐性能提升。
多模态表征融合算法的评估
本节对多模态表征融合方法的工作机制进行了分析。表4分别显示了多个模态的表征之间互相融合的性能,我们发现无论“S”是替换“C”还是“V”,都能提升模型的推荐效果,这证明了语义偏好表征在多模态推荐领域的重要作用。
而
表4多模态表征融合方法在Amazon_CDs和Allrecipes数据集中的P@10表现。C:协同交互表征;V:视觉偏好表征;S:语义偏好表征。
在Allrecipes数据集中CSR-Net(MF)在“V+S”条件下取得了比“C+S”条件下的性能下降,可能是由于其基线算法所用的视觉嵌入难以完全表示其视觉聚焦内容,针对该问题,本文将协同交互表征、视觉偏好表征和语义偏好表征共同融合,引导CSR-Net从多角度聚焦于用户的偏好信息,从而提升现有推荐算法的推荐性能。
以上实施例的有益效果为:
本实施例提出了一种跨模态表征推理算法CSR-Net,基于图像的文本描述信息的先验知识将商品的图像信息从视觉空间跨模态映射至语义空间,并通过面向用户感知的图卷积算子过滤语义信息中的噪音,最终结合多模态表征融合方法实现多模态异构表征之间冗余信息与互补信息的权衡。实验结果表明,语义偏好信息的跨模态推理引入能够从多角度增强对用户偏好的表征能力,使得CSR-Net在视觉感知推荐方面优于现有方法。
实施例二
本实施例提供了一种基于跨模态语义推理与融合的视觉感知推荐系统,包括:
协同交互表征学习模块,被配置为基于用户和商品的交互信息学习用户协同表征和商品协同表征;
视觉表征学习模块,被配置为提取商品图像的统一嵌入表征,基于双向门控机制的异构表征对齐算法学习视觉偏好表征;
语义表征学习模块,被配置为提取商品图像的统一嵌入表征,基于双向门控机制的异构表征对齐算法和商品文本描述学习图像语义表征;基于图像语义表征通过图卷积生成语义偏好表征;
多模态表征融合与推荐模块,被配置为将用户协同表征、商品协同表征、视觉偏好表征以及语义偏好表征进行融合,计算用户对商品的偏好得分,基于用户对商品的偏好得分为用户推荐商品。
上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
上述实施例中对各个实施例的描述各有侧重,某个实施例中没有详述的部分可以参见其他实施例的相关描述。
所提出的系统,可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的,例如上述模块的划分,仅仅为一种逻辑功能划分,实际实现时,可以有另外的划分方式,例如多个模块可以结合或者可以集成到另外一个系统,或一些特征可以忽略,或不执行。
实施例三
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例一所述的基于跨模态语义推理与融合的视觉感知推荐方法中的步骤。
实施例四
本实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述实施例一所述的基于跨模态语义推理与融合的视觉感知推荐方法中的步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
Claims (10)
1.基于跨模态语义推理与融合的视觉感知推荐方法,其特征在于,包括:
基于用户和商品的交互信息学习用户协同表征和商品协同表征;
提取商品图像的统一嵌入表征,基于双向门控机制的异构表征对齐算法学习视觉偏好表征;
提取商品图像的统一嵌入表征,基于双向门控机制的异构表征对齐算法和商品文本描述学习图像语义表征;基于图像语义表征通过图卷积生成语义偏好表征;
将用户协同表征、商品协同表征、视觉偏好表征以及语义偏好表征进行融合,计算用户对商品的偏好得分,基于用户对商品的偏好得分为用户推荐商品。
2.如权利要求1所述的基于跨模态语义推理与融合的视觉感知推荐方法,其特征在于,基于用户和商品的交互信息学习用户协同表征和商品协同表征,包括:
根据随机采样出的用户索引u和商品索引i从用户嵌入矩阵embu(.)和商品交互矩阵embi(.)分别学习用户协同表征pu和商品协同表征ci,表示为:
pu=embu(u)
ci=embi(i)。
3.如权利要求1所述的基于跨模态语义推理与融合的视觉感知推荐方法,其特征在于,提取商品图像的统一嵌入表征,基于双向门控机制的异构表征对齐算法学习视觉偏好表征,包括:
通过视觉编码器抽取商品图像的统一嵌入表征;
基于商品图像的统一嵌入表征,通过任务感知门控将其映射为视觉偏好表征;
通过梯度正则门控约束其优化过程,得到最终的视觉偏好表征。
4.如权利要求3所述的基于跨模态语义推理与融合的视觉感知推荐方法,其特征在于,所述基于商品图像的统一嵌入表征,通过任务感知门控将其映射为视觉偏好表征,包括:
任务感知门控在商品图像的统一嵌入表征vi的基础上引入了可自学习的门控嵌入向量gr和用户表征pu;
映射到图像视觉偏好的特征空间,得到视觉偏好特征,具体如下:
qi=θ(||vi⊙δ(concat(pu,vi,gr))||2)
其中,concat(·)表示拼接操作,⊙表示点乘操作,||.||2表示l2正则化方法,θ(.)表示两层全连接网络,每层后接一个LeakyReLU激活函数,qi表示视觉表示学习模块学习到的视觉偏好表征。
5.如权利要求1所述的基于跨模态语义推理与融合的视觉感知推荐方法,其特征在于,所述提取商品图像的统一嵌入表征,基于双向门控机制的异构表征对齐算法和商品文本描述学习图像语义表征,包括:
通过视觉编码器抽取商品图像的统一嵌入表征;
基于商品图像的统一嵌入表征,通过语义任务门控将其映射为图像语义表征;
将商品文本描述的语义知识融入图像语义表征中,得到最终的图像语义表征。
8.基于跨模态语义推理与融合的视觉感知推荐系统,其特征在于,包括:
协同交互表征学习模块,被配置为基于用户和商品的交互信息学习用户协同表征和商品协同表征;
视觉表征学习模块,被配置为提取商品图像的统一嵌入表征,基于双向门控机制的异构表征对齐算法学习视觉偏好表征;
语义表征学习模块,被配置为提取商品图像的统一嵌入表征,基于双向门控机制的异构表征对齐算法和商品文本描述学习图像语义表征;基于图像语义表征通过图卷积生成语义偏好表征;
多模态表征融合与推荐模块,被配置为将用户协同表征、商品协同表征、视觉偏好表征以及语义偏好表征进行融合,计算用户对商品的偏好得分,基于用户对商品的偏好得分为用户推荐商品。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一项所述的基于跨模态语义推理与融合的视觉感知推荐方法中的步骤。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一项所述的基于跨模态语义推理与融合的视觉感知推荐方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210558907.4A CN114936901B (zh) | 2022-05-21 | 2022-05-21 | 基于跨模态语义推理与融合的视觉感知推荐方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210558907.4A CN114936901B (zh) | 2022-05-21 | 2022-05-21 | 基于跨模态语义推理与融合的视觉感知推荐方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114936901A true CN114936901A (zh) | 2022-08-23 |
CN114936901B CN114936901B (zh) | 2024-05-28 |
Family
ID=82865526
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210558907.4A Active CN114936901B (zh) | 2022-05-21 | 2022-05-21 | 基于跨模态语义推理与融合的视觉感知推荐方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114936901B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116433800A (zh) * | 2023-06-14 | 2023-07-14 | 中国科学技术大学 | 基于社交场景用户偏好与文本联合指导的图像生成方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112200317A (zh) * | 2020-09-28 | 2021-01-08 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 多模态知识图谱构建方法 |
CN113010656A (zh) * | 2021-03-18 | 2021-06-22 | 广东工业大学 | 一种基于多模态融合和结构性控制的视觉问答方法 |
CN113159892A (zh) * | 2021-04-24 | 2021-07-23 | 桂林电子科技大学 | 一种基于多模态商品特征融合的商品推荐方法 |
-
2022
- 2022-05-21 CN CN202210558907.4A patent/CN114936901B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112200317A (zh) * | 2020-09-28 | 2021-01-08 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 多模态知识图谱构建方法 |
CN113010656A (zh) * | 2021-03-18 | 2021-06-22 | 广东工业大学 | 一种基于多模态融合和结构性控制的视觉问答方法 |
CN113159892A (zh) * | 2021-04-24 | 2021-07-23 | 桂林电子科技大学 | 一种基于多模态商品特征融合的商品推荐方法 |
Non-Patent Citations (3)
Title |
---|
JIAXUAN CHEN 等: "CSR-Net: Learning Adaptive Context Structure Representation for Robust Feature Correspondence", 《TRANSACTIONS ON IMAGE PROCESSING》, 15 April 2022 (2022-04-15) * |
孙广路: "基于用户社交信息和搭配知识融合的服饰推荐算法研究", 《中国优秀博士学位论文全文数据库》, 30 November 2018 (2018-11-30) * |
朱涛: "基于深度协同过滤与多模态分析的旅游景点推荐系统研究", 《中国优秀硕士学位论文全文数据库》, 31 March 2020 (2020-03-31) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116433800A (zh) * | 2023-06-14 | 2023-07-14 | 中国科学技术大学 | 基于社交场景用户偏好与文本联合指导的图像生成方法 |
CN116433800B (zh) * | 2023-06-14 | 2023-10-20 | 中国科学技术大学 | 基于社交场景用户偏好与文本联合指导的图像生成方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114936901B (zh) | 2024-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022041979A1 (zh) | 一种信息推荐模型的训练方法和相关装置 | |
Cheng et al. | MMALFM: Explainable recommendation by leveraging reviews and images | |
CN111611472B (zh) | 一种基于图卷积神经网络的捆绑推荐方法及系统 | |
CN110162693B (zh) | 一种信息推荐的方法以及服务器 | |
CN112232925A (zh) | 一种融合知识图谱对商品进行个性化推荐的方法 | |
CN113256367B (zh) | 用户行为历史数据的商品推荐方法、系统、设备及介质 | |
Quinto | Next-generation machine learning with spark: Covers XGBoost, LightGBM, Spark NLP, distributed deep learning with keras, and more | |
US20220253722A1 (en) | Recommendation system with adaptive thresholds for neighborhood selection | |
CN113761388B (zh) | 一种推荐方法、装置、电子设备及存储介质 | |
CN112257841A (zh) | 图神经网络中的数据处理方法、装置、设备及存储介质 | |
CN113918834B (zh) | 融合社交关系的图卷积协同过滤推荐方法 | |
Patro et al. | Knowledge-based preference learning model for recommender system using adaptive neuro-fuzzy inference system | |
US20230308360A1 (en) | Methods and systems for dynamic re-clustering of nodes in computer networks using machine learning models | |
CN114898156A (zh) | 基于跨模态语义表征学习和融合的图像分类方法及系统 | |
Cao et al. | Web API recommendation via combining graph attention representation and deep factorization machines quality prediction | |
CN115410199A (zh) | 图像内容检索方法、装置、设备及存储介质 | |
CN115238191A (zh) | 对象推荐方法以及装置 | |
CN117252665B (zh) | 业务推荐方法、装置、电子设备及存储介质 | |
CN114936901A (zh) | 基于跨模态语义推理与融合的视觉感知推荐方法及系统 | |
US20240037133A1 (en) | Method and apparatus for recommending cold start object, computer device, and storage medium | |
Babeetha et al. | An enhanced kernel weighted collaborative recommended system to alleviate sparsity | |
CN117056609A (zh) | 一种基于多层聚合增强对比学习的会话推荐方法 | |
CN117034963A (zh) | 模型训练方法、翻译方法、预估方法、推荐方法及装置 | |
Zeng et al. | User Personalized Recommendation Algorithm Based on GRU Network Model in Social Networks | |
CN114238752B (zh) | 物品推荐方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |