CN114528323A - 一种基于多场景数据融合推荐的方法 - Google Patents

一种基于多场景数据融合推荐的方法 Download PDF

Info

Publication number
CN114528323A
CN114528323A CN202111669757.6A CN202111669757A CN114528323A CN 114528323 A CN114528323 A CN 114528323A CN 202111669757 A CN202111669757 A CN 202111669757A CN 114528323 A CN114528323 A CN 114528323A
Authority
CN
China
Prior art keywords
scene
user
data
scenes
recommendation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111669757.6A
Other languages
English (en)
Inventor
韩弘炀
傅剑文
陈心童
章建森
周文彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianyi Electronic Commerce Co Ltd
Original Assignee
Tianyi Electronic Commerce Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianyi Electronic Commerce Co Ltd filed Critical Tianyi Electronic Commerce Co Ltd
Priority to CN202111669757.6A priority Critical patent/CN114528323A/zh
Publication of CN114528323A publication Critical patent/CN114528323A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于多场景数据融合推荐的方法,包括以下:(1)采集模块:利用流技术对用户在第i场景下的曝光和点击数据进行采集并存储至hive中记为tablei;应当指出的是,数据采集技术及存储形式包括但不限于以上方式。本专利针对推荐系统中多场景推荐,提出一种基于多场景数据融合推荐的方法,补充了其他场景中的用户交互信息,既丰富了样本又补充了用户真实近期交互物料,能够使用更为丰富的数据进行建模。通过提取用户、物料、场景相关信息建模,利用单个模型充分学习用户在不同场景下对物料的兴趣表征,使得同一用户在不同场景对同样的物料有不同的展示顺序,能够在节省消耗的同时利用简单的模型得到准确的推荐结果。

Description

一种基于多场景数据融合推荐的方法
技术领域
本发明涉及推荐系统领域,特别涉及一种基于多场景数据融合推荐的方法。
背景技术
传统多场景推荐模型都是每个场景构建一个模型,这样缺失了用户在其他场景的交互行为以及用户实际近期交互行为,使得在某些场景下对用户推荐效果不够准确。尽管少量场景使用了此类交互信息,但仅在于增加样本,并未考虑不同场景下用户的兴趣偏好存在差异;
千人千面形式的个性化推荐已在众多生活中的场景发挥其作用,不断智能化地满足用户各方面的喜好,其准确捕捉用户兴趣的来源就是用户大量的交互数据。如何利用好用户的交互数据是推荐系统中的重要环节。目前推荐系统的使用大多都是每个场景构建一个模型,这样无可避免的缺失了用户在其他场景对同样物料行为的交互信息。即使少量场景使用了此类交互信息,也仅在于增加样本,并未考虑不同场景下用户的兴趣偏好存在差异;
针对这一实际背景,本方案提出了一种基于多场景数据融合推荐的方法,既能够利用多个场景中的用户交互信息,又考虑了用户在不同场景下偏好的差异,还能够对于多个场景仅使用单个模型得到每个场景更为准确的推荐结果,节约人力物力资源消耗的同时又简化了模型。
发明内容
本发明要解决的技术问题是克服现有技术的缺陷,提供一种基于多场景数据融合推荐的方法。
本发明提供了如下的技术方案:
本发明提供一种基于多场景数据融合推荐的方法,包括以下:
(1)采集模块:
利用流技术对用户在第i场景下的曝光和点击数据进行采集并存储至hive中记为tablei;应当指出的是,数据采集技术及存储形式包括但不限于以上方式;
(2)数据融合模块:
对于hive中的所有tablei进行样本合并,丰富用户对物料的交互行为,并在样本维度上拼接用户、物料、场景等相关补充特征及回溯样本生成日期前t日用户点击的场景&物料sequence,对于每条样本,曝光样本label记为0,点击样本label记为1,最终存储至hive中记为tableall
(3)模型训练模块:
a.对于用户近t日点击的场景&物料sequence,将场景和物料的embedding进行concat得到向量序列{Vi},并将其与样本中场景与物料concat后的embedding V进行attention操作(函数f),得到对当前样本场景&物料sequence的表征A;
Figure BDA0003449323500000021
b.利用attention后的结果A,与用户embedding U共同输入一个多层深度网络(函数g),有效生成用户在不同场景下对不同物料的兴趣偏好表征B;
B=g(A,B);
c.使用用户在不同场景下对不同物料的兴趣偏好表征concat非场景特征的其他特征embedding形成向量Xin输入一个多层深度网络进行训练,其损失函数为:
Figure BDA0003449323500000022
(4)多场景推荐模块:
a.对于每个场景j用SQL取其场景及召回算法对用户召回的物料相应的特征及其补充特征,并根据近t日所有表tablei取该用户的场景&物料sequence;
b.利用训练好的模型对结果进行预测,每个场景j生成一个推荐结果表resultj储存在hive中。
与现有技术相比,本发明的有益效果如下:
本专利针对推荐系统中多场景推荐,提出一种基于多场景数据融合推荐的方法,补充了其他场景中的用户交互信息,既丰富了样本又补充了用户真实近期交互物料,能够使用更为丰富的数据进行建模。通过提取用户、物料、场景相关信息建模,利用单个模型充分学习用户在不同场景下对物料的兴趣表征,使得同一用户在不同场景对同样的物料有不同的展示顺序,能够在节省消耗的同时利用简单的模型得到准确的推荐结果。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明算法融合多场景数据推荐算法训练及推断示意图;
图2是本发明的实施流程图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。其中附图中相同的标号全部指的是相同的部件。
实施例1
如图1-2,本发明提供一种基于多场景数据融合推荐的方法,包括以下:
(1)采集模块:
利用流技术对用户在第i场景下的曝光和点击数据进行采集并存储至hive中记为tablei;应当指出的是,数据采集技术及存储形式包括但不限于以上方式;
(2)数据融合模块:
对于hive中的所有tablei进行样本合并,丰富用户对物料的交互行为,并在样本维度上拼接用户、物料、场景等相关补充特征及回溯样本生成日期前t日用户点击的场景&物料sequence,对于每条样本,曝光样本label记为0,点击样本label记为1,最终存储至hive中记为tableall
(3)模型训练模块:
a.对于用户近t日点击的场景&物料sequence,将场景和物料的embedding进行concat得到向量序列{Vi},并将其与样本中场景与物料concat后的embedding V进行attention操作(函数f),得到对当前样本场景&物料sequence的表征A;
Figure BDA0003449323500000041
b.利用attention后的结果A,与用户embedding U共同输入一个多层深度网络(函数g),有效生成用户在不同场景下对不同物料的兴趣偏好表征B;
B=g(A,B);
c.使用用户在不同场景下对不同物料的兴趣偏好表征concat非场景特征的其他特征embedding形成向量Xin输入一个多层深度网络进行训练,其损失函数为:
Figure BDA0003449323500000042
(4)多场景推荐模块:
a.对于每个场景j用SQL取其场景及召回算法对用户召回的物料相应的特征及其补充特征,并根据近t日所有表tablei取该用户的场景&物料sequence;
b.利用训练好的模型对结果进行预测,每个场景j生成一个推荐结果表resultj储存在hive中。
进一步的,示例如下:
1.利用流技术对用户在第i场景下的曝光和点击数据进行采集并存储至hive中记为tablei
2.对于hive中的所有tablei进行样本合并,并在样本维度上拼接用户、物料、场景等相关补充特征及回溯样本生成日期前t日用户点击的场景&物料sequence,对于每条样本,曝光样本label记为0,点击样本label记为1,最终存储至hive中记为tableall
3.将每条样本场景&物料sequence转化为场景和物料embedding拼接后的sequence,并与该条样本中场景与物料拼接后的embedding进行attention操作得到表征A。
4.使用多层深度网络及表征A和用户embeddingU生成用户在不同场景下对不同物料的兴趣偏好表征B。
5.使用表征B拼接非场景特征的其他特征embedding输入多层深度网络进行模型学习。
6.对于每个场景j用SQL取其场景及召回算法对用户召回的物料相应的特征及其补充特征,并根据近t日所有表tablei取该用户的场景&物料sequence。
7.利用训练好的模型对结果进行预测,每个场景j生成一个推荐结果表resultj储存在hive中并将结果推至hbase。
8.用户登录后进入场景j,通过接口调用hbase结果将其顺序展示至前端。
本发明技术要点如下:
1.本发明提出了利用多场景数据进行单模型建模的方法对多场景进行推荐结果输出,能够在获取更准确的结果基础上避免对场景单独建模,降低资源消耗;
2.提出了多场景数据补充的方法,利用不同场景间用户对同类物料交互行为丰富该用户样本及信息,能够提取更多用户偏好信息;
3.提出了用户、场景、物料表征学习的方法,利用多场景数据充分捕捉用户在不同场景下对不同物料的兴趣表征,能够有效提升模型准确性。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (1)

1.一种基于多场景数据融合推荐的方法,其特征在于,包括以下:
(1)采集模块:
利用流技术对用户在第i场景下的曝光和点击数据进行采集并存储至hive中记为tablei;应当指出的是,数据采集技术及存储形式包括但不限于以上方式;
(2)数据融合模块:
对于hive中的所有tablei进行样本合并,丰富用户对物料的交互行为,并在样本维度上拼接用户、物料、场景等相关补充特征及回溯样本生成日期前t日用户点击的场景&物料sequence,对于每条样本,曝光样本label记为0,点击样本label记为1,最终存储至hive中记为tableall
(3)模型训练模块:
a.对于用户近t日点击的场景&物料sequence,将场景和物料的embedding进行concat得到向量序列{Vi},并将其与样本中场景与物料concat后的embedding V进行attention操作(函数f),得到对当前样本场景&物料sequence的表征A;
Figure FDA0003449323490000011
b.利用attention后的结果A,与用户embedding U共同输入一个多层深度网络(函数g),有效生成用户在不同场景下对不同物料的兴趣偏好表征B;
B=g(A,B);
c.使用用户在不同场景下对不同物料的兴趣偏好表征concat非场景特征的其他特征embedding形成向量Xin输入一个多层深度网络进行训练,其损失函数为:
Figure FDA0003449323490000021
(4)多场景推荐模块:
a.对于每个场景j用SQL取其场景及召回算法对用户召回的物料相应的特征及其补充特征,并根据近t日所有表tablei取该用户的场景&物料sequence;
b.利用训练好的模型对结果进行预测,每个场景j生成一个推荐结果表resultj储存在hive中。
CN202111669757.6A 2021-12-30 2021-12-30 一种基于多场景数据融合推荐的方法 Pending CN114528323A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111669757.6A CN114528323A (zh) 2021-12-30 2021-12-30 一种基于多场景数据融合推荐的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111669757.6A CN114528323A (zh) 2021-12-30 2021-12-30 一种基于多场景数据融合推荐的方法

Publications (1)

Publication Number Publication Date
CN114528323A true CN114528323A (zh) 2022-05-24

Family

ID=81620100

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111669757.6A Pending CN114528323A (zh) 2021-12-30 2021-12-30 一种基于多场景数据融合推荐的方法

Country Status (1)

Country Link
CN (1) CN114528323A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024002167A1 (zh) * 2022-06-30 2024-01-04 华为技术有限公司 一种操作预测方法及相关装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024002167A1 (zh) * 2022-06-30 2024-01-04 华为技术有限公司 一种操作预测方法及相关装置

Similar Documents

Publication Publication Date Title
CN110020437A (zh) 一种视频和弹幕相结合的情感分析及可视化方法
JP2019114222A (ja) 撮像システム、学習装置、および撮像装置
CN111079532A (zh) 一种基于文本自编码器的视频内容描述方法
JP7412847B2 (ja) 画像処理方法、画像処理装置、サーバ、及びコンピュータプログラム
CN111723784B (zh) 一种风险视频识别方法、装置和电子设备
CN111460979A (zh) 一种基于多层时空框架的关键镜头视频摘要方法
CN111723295B (zh) 一种内容分发方法、装置和存储介质
CN111753133A (zh) 视频分类方法、装置及存储介质
CN112364168A (zh) 一种基于多属性信息融合的舆情分类方法
WO2022262098A1 (zh) 一种基于图神经网络的视频情感语义分析方法
CN111626058B (zh) 基于cr2神经网络的图像-文本双编码实现方法及系统
CN111324773A (zh) 一种背景音乐构建方法、装置、电子设备和存储介质
CN114528323A (zh) 一种基于多场景数据融合推荐的方法
CN115909390B (zh) 低俗内容识别方法、装置、计算机设备以及存储介质
CN112995690A (zh) 直播内容品类识别方法、装置、电子设备和可读存储介质
CN118193846A (zh) 基于大数据的高校学生信息化管理系统及方法
CN117933393A (zh) 一种无监督小样本内容创作模型训练方法及系统
Liu et al. Kangaroo: A powerful video-language model supporting long-context video input
CN113569068A (zh) 描述内容生成方法、视觉内容的编码、解码方法、装置
CN117609548A (zh) 基于预训练模型的视频多模态目标要素抽取与视频摘要合成方法及系统
KR20100070952A (ko) 멀티미디어 콘텐츠 관리 시스템
CN116450635A (zh) 基于人工智能的数据清理方法和系统
CN114519138A (zh) 一种基于他域表征转移的用户冷启动方法
CN114972841A (zh) 基于知识蒸馏的视频多线索社交关系抽取方法及装置
CN115866355A (zh) 一种基于图像识别的视频自动生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination