CN114519138A - 一种基于他域表征转移的用户冷启动方法 - Google Patents

一种基于他域表征转移的用户冷启动方法 Download PDF

Info

Publication number
CN114519138A
CN114519138A CN202111654926.9A CN202111654926A CN114519138A CN 114519138 A CN114519138 A CN 114519138A CN 202111654926 A CN202111654926 A CN 202111654926A CN 114519138 A CN114519138 A CN 114519138A
Authority
CN
China
Prior art keywords
user
characterization
scene
source
representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111654926.9A
Other languages
English (en)
Inventor
韩弘炀
傅剑文
陈心童
章建森
周文彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianyi Electronic Commerce Co Ltd
Original Assignee
Tianyi Electronic Commerce Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianyi Electronic Commerce Co Ltd filed Critical Tianyi Electronic Commerce Co Ltd
Priority to CN202111654926.9A priority Critical patent/CN114519138A/zh
Publication of CN114519138A publication Critical patent/CN114519138A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于他域表征转移的用户冷启动方法,它涉及推荐系统技术领域。对用户目标与来源场景下曝光和点击数据进行采集,对不同场景进行推荐模型预训练,获取不同场景用户交集,得到表征,构建来源域用户embedding;利用目标场景已训练物料结合来源场景的用户embedding进行深度学习模型训练,获取将来源场景用户embedding转化为目标场景用户embedding的结构与参数;获取来源场景有行为用户的embedding,利用表征利用他域表征转移模型将此类用户在目标场景进行推荐。本发明既获取用户个性化的表征,又能够将不同场景下用户表征进行区分,能够准确有效地利用其他场景的信息对用户进行推荐。

Description

一种基于他域表征转移的用户冷启动方法
技术领域
本发明涉及的是推荐系统技术领域,具体涉及一种基于他域表征转移的用户冷启动方法。
背景技术
千人千面形式的个性化推荐已在众多生活场景中发挥作用,不断智能化地满足用户各方面的喜好,其准确捕捉用户兴趣的来源就是用户大量的交互数据。然而在很多场景下,用户是否有交互行为仍然遵循着二八原则,如何对用户进行较为准确的冷启动推荐是推荐场景下的重要环节。目前推荐冷启动方法存在以下问题:
(1)传统冷启动方法大多使用热度或标签结合热度的方式,以群体特征替代个体特征,弱化用户个性化的学习,使得用户推荐效果较为相似,缺失了用户的个性,对用户推荐效果不够准确;
(2)少量场景利用用户在其他场景下用户的表征直接替换当前场景用户表征,虽可以对用户进行冷启动,但未将表征在同一空间中表示,没有考虑不同场景下模型生成的表征差异。
(3)场景间物料类型差异大,无法使用其他场景交互的物料信息。
为了解决上述问题,开发一种基于他域表征转移的用户冷启动方法尤为必要。
发明内容
针对现有技术上存在的不足,本发明目的是在于提供一种基于他域表征转移的用户冷启动方法,利用学习用户表征转移的方式,既获取用户个性化的表征,又能够将不同场景下用户表征进行区分,从而能够准确、有效地利用其他场景的信息对用户进行推荐,易于推广使用。
为了实现上述目的,本发明是通过如下的技术方案来实现:一种基于他域表征转移的用户冷启动方法,其步骤为:
(1)采集模块:利用流技术对用户目标与来源场景下曝光和点击行为数据进行采集、存储;
(2)预训练模块:对各场景单独进行预学习训练,对于两个不同场景进行推荐模型预训练,分别获取其用户、物料等embedding;
(3)模型训练模块:他域表征转移模型训练,获取不同场景用户交集及相应embedding和行为记录,使用多层神经网络+平均池化的形式得到类似attention后的表征,丰富用户表征的刻画学习,并与用户embedding拼接后接多层神经网络构建来源域用户embedding;利用目标场景已训练的物料及其他embedding结合来源场景的用户embedding进行深度学习模型训练,获取将来源场景用户embedding转化为目标场景用户embedding的结构与参数;
(4)冷启动模块:获取来源场景有行为用户的embedding,利用表征利用他域表征转移模型预测当前场景结果,将此类用户在目标场景进行推荐。
作为优选,所述的步骤(1)的具体步骤为:利用流技术对用户目标与来源场景下曝光和点击数据进行采集,并存储至hive中,分别记为tablet和tables;数据采集技术及存储形式包括但不限于以上所述方式。
作为优选,所述的步骤(2)的具体步骤为:对于hive中的tablet与tables分别进行用户、物料、上下文等特征构建,对于每条样本,曝光样本label记为0,点击样本label记为1,将目标场景样本与来源场景样本分别存储于hive表St与Ss中;分别对目标场景与来源场景进行推荐模型构建,生成目标场景下用户集{Ut}用户i表征
Figure BDA0003445504080000021
物料表征
Figure BDA0003445504080000022
与其他表征
Figure BDA0003445504080000031
生成来源场景下用户集{Us}用户j表征
Figure BDA0003445504080000032
物料表征
Figure BDA0003445504080000033
与其他表征
Figure BDA0003445504080000034
作为优选,所述的步骤(3)的具体步骤为:①获取目标场景与来源场景有行为的用户交集{Ut∩Us}并获取该交集下用户p在预训练后的目标场景表征
Figure BDA0003445504080000035
及来源场景表征
Figure BDA0003445504080000036
②获取Ss中用户p的样本对应用户表征
Figure BDA0003445504080000037
与交互物料表征序列
Figure BDA0003445504080000038
③生成用户交互物料序列类注意力机制表征
Figure BDA0003445504080000039
其中g(·)为多层神经网络:
Figure BDA00034455040800000310
④生成补充交互信息的来源场景用户表征
Figure BDA00034455040800000311
Figure BDA00034455040800000312
其中h(·)为多层神经网络,输出维度与目标场景用户表征一致;
⑤获取St中用户p的样本对应物料表征
Figure BDA00034455040800000313
与其他表征
Figure BDA00034455040800000314
拼接来源场景用户表征
Figure BDA00034455040800000315
经过神经网络训练模型,获取他域用户表征转移的结构和参数h(·),用户表征
Figure BDA00034455040800000316
可视为来源场景用户表征转移至目标场景后的用户表征。
作为优选,所述的步骤(4)的具体步骤为:①对于仅有来源场景行为的用户通过训练模块获取其用户表征
Figure BDA00034455040800000317
对于既有来源场景行为又有目标场景行为的用户使用池化获取其用户表征
Figure BDA00034455040800000318
②利用上述用户表征输入目标场景预训练的模型获取用户p推荐结果,并将结果存储于hive中。
本发明的有益效果:本方法通过其他场景用户交互物料类注意力机制表征获取用户兴趣,避免了因场景间物料类型差异大无法使用其他场景交互的物料信息。同时利用学习用户表征转移的方式既获取用户个性化的表征,又能够将不同场景下用户表征进行区分,从而能够准确、有效地利用其他场景的信息对用户进行推荐,应用前景广阔。
附图说明
下面结合附图和具体实施方式来详细说明本发明;
图1为本发明利用他域表征转移算法训练示意图;
图2为本发明的实施流程图。
具体实施方式
为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本发明。
参照图1-2,本具体实施方式采用以下技术方案:一种基于他域表征转移的用户冷启动方法,其步骤为:
(1)采集模块:利用流技术对用户目标与来源场景下曝光和点击行为数据进行采集、存储。
具体地:利用流技术对用户目标与来源场景下曝光和点击数据进行采集,并存储至hive中,分别记为tablet和tables;数据采集技术及存储形式包括但不限于以上所述方式。
(2)预训练模块:对各场景单独进行预学习训练,对于两个不同场景进行推荐模型预训练,分别获取其用户、物料等embedding;
对于hive中的tablet与tables分别进行用户、物料、上下文等特征构建,对于每条样本,曝光样本label记为0,点击样本label记为1,将目标场景样本与来源场景样本分别存储于hive表St与Ss中;分别对目标场景与来源场景进行推荐模型构建,生成目标场景下用户集{Ut}用户i表征
Figure BDA0003445504080000041
物料表征
Figure BDA0003445504080000042
与其他表征
Figure BDA0003445504080000043
生成来源场景下用户集{Us}用户j表征
Figure BDA0003445504080000051
物料表征
Figure BDA0003445504080000052
与其他表征
Figure BDA0003445504080000053
(3)模型训练模块:他域表征转移模型训练,获取不同场景用户交集及相应embedding和行为记录,使用多层神经网络+平均池化的形式得到类似attention后的表征,丰富用户表征的刻画学习,并与用户embedding拼接后接多层神经网络构建来源域用户embedding;利用目标场景已训练的物料及其他embedding结合来源场景的用户embedding进行深度学习模型训练,获取将来源场景用户embedding转化为目标场景用户embedding的结构与参数;
①获取目标场景与来源场景有行为的用户交集{Ut∩Us}并获取该交集下用户p在预训练后的目标场景表征
Figure BDA0003445504080000054
及来源场景表征
Figure BDA0003445504080000055
②获取Ss中用户p的样本对应用户表征
Figure BDA0003445504080000056
与交互物料表征序列
Figure BDA0003445504080000057
③生成用户交互物料序列类注意力机制表征
Figure BDA0003445504080000058
其中g(·)为多层神经网络:
Figure BDA0003445504080000059
④生成补充交互信息的来源场景用户表征
Figure BDA00034455040800000510
Figure BDA00034455040800000511
其中h(·)为多层神经网络,输出维度与目标场景用户表征一致;
⑤获取St中用户p的样本对应物料表征
Figure BDA00034455040800000512
与其他表征
Figure BDA00034455040800000513
拼接来源场景用户表征
Figure BDA00034455040800000514
经过神经网络训练模型,获取他域用户表征转移的结构和参数h(·),用户表征
Figure BDA00034455040800000515
可视为来源场景用户表征转移至目标场景后的用户表征。
(4)冷启动模块:获取来源场景有行为用户的embedding,利用表征利用他域表征转移模型预测当前场景结果,将此类用户在目标场景进行推荐。
①对于仅有来源场景行为的用户通过训练模块获取其用户表征
Figure BDA0003445504080000061
对于既有来源场景行为又有目标场景行为的用户使用池化获取其用户表征
Figure BDA0003445504080000062
②利用上述用户表征输入目标场景预训练的模型获取用户p推荐结果,并将结果存储于hive中。
本具体实施方式通过其他场景用户交互物料类注意力机制表征获取不同物料类型场景下用户兴趣,利用其他场景下物料交互信息作为补充,提取更多用户信息,补充表征信息,避免了因场景间物料类型差异大无法使用其他场景交互的物料信息。同时利用学习用户表征转移的方式将用户在其他场景的表征转化为当前场景的表征,既获取用户个性化的表征,又能够学习到不同场景下表征的区别,将不同场景下用户表征进行区分,针对场景进行个性化表征,从而能够准确、有效地利用其他场景的信息对用户进行推荐。
本具体实施方式能够使用其他场景用户表征转换为当前场景较为准确的用户表征,从而能对当前场景无行为的用户进行推荐,并补充用户在其他场景的交互信息,能够通过利用不同场景下不同物料类型的交互行为得到更为准确的推荐结果,该方法应用场景广阔,可节省用户当前场景信息获取的人力、资源开销,同时根据不同用户不同场景进行精细化排序,实现用户转化最大化,具有广阔的市场应用前景。
实施例1:一种基于他域表征转移的用户冷启动方法,其步骤为:
①利用流技术对用户目标与来源场景下曝光和点击数据进行采集并存储至hive中分别记为tablet和tables
②对于hive中的tablet与tables分别进行用户、物料、上下文等特征构建,对于每条样本,曝光样本label记为0,点击样本label记为1,将目标场景样本与来源场景样本分别存储于hive表St与Ss中。
③分别对目标场景与来源场景进行推荐模型构建,生成目标场景下用户集{Ut}用户i表征
Figure BDA0003445504080000071
物料表征
Figure BDA0003445504080000072
与其他表征
Figure BDA0003445504080000073
生成来源场景下用户集{Us}用户j表征
Figure BDA0003445504080000074
物料表征
Figure BDA0003445504080000075
与其他表征
Figure BDA0003445504080000076
④获取目标场景与来源场景有行为的用户交集{Ut∩Us}并获取该交集下用户p在预训练后的目标场景表征
Figure BDA0003445504080000077
及来源场景表征
Figure BDA0003445504080000078
⑤获取Ss中用户p的样本对应用户表征
Figure BDA0003445504080000079
与交互物料表征序列
Figure BDA00034455040800000710
⑥生成用户交互物料序列类注意力机制表征
Figure BDA00034455040800000711
⑦生成补充交互信息的来源场景用户表征
Figure BDA00034455040800000712
⑧获取St中用户p的样本对应物料表征
Figure BDA00034455040800000713
与其他表征
Figure BDA00034455040800000714
拼接来源场景用户表征
Figure BDA00034455040800000715
经过神经网络训练模型,获取他域用户表征转移的结构和参数h(·)。
⑨对于仅有来源场景行为的用户通过训练模块获取其用户表征
Figure BDA00034455040800000716
对于既有来源场景行为又有目标场景行为的用户使用池化获取其用户表征
Figure BDA00034455040800000717
经验取α=0.7。
⑩利用上述用户表征输入目标场景预训练的模型获取用户p推荐结果,并将结果存储于hive中。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (5)

1.一种基于他域表征转移的用户冷启动方法,其特征在于,其步骤为:
(1)采集模块:利用流技术对用户目标与来源场景下曝光和点击行为数据进行采集、存储;
(2)预训练模块:对各场景单独进行预学习训练,对于两个不同场景进行推荐模型预训练,分别获取其用户、物料embedding;
(3)模型训练模块:他域表征转移模型训练,获取不同场景用户交集及相应embedding和行为记录,使用多层神经网络+平均池化的形式得到类似attention后的表征,并与用户embedding拼接后接多层神经网络构建来源域用户embedding;利用目标场景已训练的物料及其他embedding结合来源场景的用户embedding进行深度学习模型训练,获取将来源场景用户embedding转化为目标场景用户embedding的结构与参数;
(4)冷启动模块:获取来源场景有行为用户的embedding,利用表征利用他域表征转移模型预测当前场景结果,将此类用户在目标场景进行推荐。
2.根据权利要求1所述的一种基于他域表征转移的用户冷启动方法,其特征在于,所述的步骤(1)的具体步骤为:利用流技术对用户目标与来源场景下曝光和点击数据进行采集,并存储至hive中,分别记为tablet和tables
3.根据权利要求1所述的一种基于他域表征转移的用户冷启动方法,其特征在于,所述的步骤(2)的具体步骤为:对于hive中的tablet与tables分别进行用户、物料、上下文特征构建,对于每条样本,曝光样本label记为0,点击样本label记为1,将目标场景样本与来源场景样本分别存储于hive表St与Ss中;分别对目标场景与来源场景进行推荐模型构建,生成目标场景下用户集{Ut}用户i表征
Figure FDA0003445504070000021
物料表征
Figure FDA0003445504070000022
与其他表征
Figure FDA0003445504070000023
生成来源场景下用户集{Us}用户j表征
Figure FDA0003445504070000024
物料表征
Figure FDA0003445504070000025
与其他表征
Figure FDA0003445504070000026
4.根据权利要求1所述的一种基于他域表征转移的用户冷启动方法,其特征在于,所述的步骤(3)的具体步骤为:
①获取目标场景与来源场景有行为的用户交集{Ut∩Us}并获取该交集下用户p在预训练后的目标场景表征
Figure FDA0003445504070000027
及来源场景表征
Figure FDA0003445504070000028
②获取Ss中用户p的样本对应用户表征
Figure FDA0003445504070000029
与交互物料表征序列
Figure FDA00034455040700000210
③生成用户交互物料序列类注意力机制表征
Figure FDA00034455040700000211
其中g(·)为多层神经网络:
Figure FDA00034455040700000212
④生成补充交互信息的来源场景用户表征
Figure FDA00034455040700000213
Figure FDA00034455040700000214
其中h(·)为多层神经网络,输出维度与目标场景用户表征一致;
⑤获取St中用户p的样本对应物料表征
Figure FDA00034455040700000215
与其他表征
Figure FDA00034455040700000216
拼接来源场景用户表征
Figure FDA00034455040700000217
经过神经网络训练模型,获取他域用户表征转移的结构和参数h(·),用户表征
Figure FDA00034455040700000218
视为来源场景用户表征转移至目标场景后的用户表征。
5.根据权利要求1所述的一种基于他域表征转移的用户冷启动方法,其特征在于,所述的步骤(4)的具体步骤为:
①对于仅有来源场景行为的用户通过训练模块获取其用户表征
Figure FDA00034455040700000219
对于既有来源场景行为又有目标场景行为的用户使用池化获取其用户表征
Figure FDA00034455040700000220
②利用上述用户表征输入目标场景预训练的模型获取用户p推荐结果,并将结果存储于hive中。
CN202111654926.9A 2021-12-30 2021-12-30 一种基于他域表征转移的用户冷启动方法 Pending CN114519138A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111654926.9A CN114519138A (zh) 2021-12-30 2021-12-30 一种基于他域表征转移的用户冷启动方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111654926.9A CN114519138A (zh) 2021-12-30 2021-12-30 一种基于他域表征转移的用户冷启动方法

Publications (1)

Publication Number Publication Date
CN114519138A true CN114519138A (zh) 2022-05-20

Family

ID=81596998

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111654926.9A Pending CN114519138A (zh) 2021-12-30 2021-12-30 一种基于他域表征转移的用户冷启动方法

Country Status (1)

Country Link
CN (1) CN114519138A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117422526A (zh) * 2023-11-15 2024-01-19 哈尔滨工业大学 一种基于提示的用户跨域冷启动方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117422526A (zh) * 2023-11-15 2024-01-19 哈尔滨工业大学 一种基于提示的用户跨域冷启动方法

Similar Documents

Publication Publication Date Title
CN110263217A (zh) 一种视频片段标签识别方法及装置
Pan et al. Image aesthetic assessment assisted by attributes through adversarial learning
WO2019056628A1 (zh) 关注点文案的生成
CN116561347B (zh) 基于用户学习画像分析的题目推荐方法及系统
CN116541538B (zh) 基于大数据的智慧学习知识点挖掘方法及系统
Wang et al. Attention-based CNN for personalized course recommendations for MOOC learners
US9129216B1 (en) System, method and apparatus for computer aided association of relevant images with text
CN114567815B (zh) 一种基于预训练的慕课自适应学习系统构建方法和装置
CN110852047A (zh) 一种文本配乐方法、装置、以及计算机存储介质
WO2021114587A1 (zh) 家居图像描述生成方法、装置、系统及存储介质
CN116935170A (zh) 视频处理模型的处理方法、装置、计算机设备和存储介质
CN114519138A (zh) 一种基于他域表征转移的用户冷启动方法
CN116595438A (zh) 图片创作方法、装置、设备及存储介质
CN115035341A (zh) 一种自动选择学生模型结构的图像识别知识蒸馏方法
CN114580517A (zh) 一种图像识别模型的确定方法及装置
CN113627162A (zh) 一种基于文本风格迁移技术的文字美化方法
CN111626058B (zh) 基于cr2神经网络的图像-文本双编码实现方法及系统
CN116932892A (zh) 一种基于用户长短期兴趣的个性化音乐推荐方法
Bennett Chapter Thirteen. Popular Music, Cultural Memory And Everyday Aesthetics
CN114528323A (zh) 一种基于多场景数据融合推荐的方法
Abreu et al. A bimodal learning approach to assist multi-sensory effects synchronization
CN109299805A (zh) 一种基于人工智能的在线教育课程请求处理方法
Sra et al. Deepspace: Mood-based image texture generation for virtual reality from music
CN117093733A (zh) 媒体分类模型的训练方法、媒体数据分类方法和装置
CN110659382B (zh) 基于异构信息网络表示学习技术的混合音乐推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication