CN111709810A - 基于推荐模型的对象推荐方法及装置 - Google Patents

基于推荐模型的对象推荐方法及装置 Download PDF

Info

Publication number
CN111709810A
CN111709810A CN202010556449.1A CN202010556449A CN111709810A CN 111709810 A CN111709810 A CN 111709810A CN 202010556449 A CN202010556449 A CN 202010556449A CN 111709810 A CN111709810 A CN 111709810A
Authority
CN
China
Prior art keywords
recommended
features
user
model
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010556449.1A
Other languages
English (en)
Inventor
刘志煌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Cloud Computing Beijing Co Ltd
Original Assignee
Tencent Cloud Computing Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Cloud Computing Beijing Co Ltd filed Critical Tencent Cloud Computing Beijing Co Ltd
Priority to CN202010556449.1A priority Critical patent/CN111709810A/zh
Publication of CN111709810A publication Critical patent/CN111709810A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于推荐模型的对象推荐方法及装置,方法包括:通过特征提取模型,分别对待推荐用户的用户数据及待推荐对象的对象数据进行特征提取,得到对应的待推荐用户特征及待推荐对象特征;通过深度特征模型,对待推荐用户特征及待推荐对象特征的组合特征进行深度特征提取,得到对应的深度特征;通过模式挖掘模型,对待推荐用户特征进行频繁序列模式挖掘,得到对应待推荐用户的频繁序列模式的加权特征;通过预测模型,将深度特征与加权特征进行融合,得到对应待推荐用户的融合特征,并基于融合特征进行转化率预测,得到预测结果;当预测结果表征待推荐用户的转化率值超过概率阈值时,将待推荐对象推荐给待推荐用户。

Description

基于推荐模型的对象推荐方法及装置
技术领域
本发明涉及人工智能技术的自然语言处理技术,尤其涉及一种基于推荐模型的对象推荐方法及装置。
背景技术
自然语言处理(Nature Language Processing,NLP)是人工智能领域中的一个重要方向,能够实现人与计算机之间用自然语言进行有效通信,通常包括文本处理、语义理解、机器翻译等技术。推荐系统是自然语言处理领域的重要应用之一,可自动联系用户和推荐对象,能够在信息过载的环境中帮助用户发现令他们感兴趣的信息,也能将信息推送给对它们感兴趣的用户。
随着线上消费模式的崛起和电商平台的快速发展,更精确地了解用户的个性化需求,个性化推荐成为各电商平台竞争实力的体现,因此,个性化推荐模型的建立成为商家了解用户消费需求、抢占市场先机、提高交易额的重要战略。此外,精准挖掘用户的行为习惯,基于用户特点个性化提供其需要或可能偏好的物品,对于各种权益推荐、广告投放等应用也有重大意义。
然而,相关技术对于如何高效并准确地进行对象推荐尚无有效的方案。
发明内容
本发明实施例提供一种基于推荐模型的对象推荐方法及装置,能够提高对象推荐的精准度。
本发明实施例的技术方案是这样实现的:
本发明实施例提供一种基于推荐模型的对象推荐方法,所述推荐模型包括:特征提取模型、深度特征模型、模式挖掘模型及预测模型,所述方法包括:
通过所述特征提取模型,分别对待推荐用户的用户数据及待推荐对象的对象数据进行特征提取,得到对应的待推荐用户特征及待推荐对象特征;
通过所述深度特征模型,对所述待推荐用户特征及待推荐对象特征的组合特征进行深度特征提取,得到对应的深度特征;
通过所述模式挖掘模型,对所述待推荐用户特征进行频繁序列模式挖掘,得到对应所述待推荐用户的频繁序列模式的加权特征;
通过所述预测模型,将所述深度特征与所述加权特征进行融合,得到对应所述待推荐用户的融合特征,并基于所述融合特征进行转化率预测,得到预测结果;
当所述预测结果表征所述待推荐用户的转化率值超过概率阈值时,将所述待推荐对象推荐给所述待推荐用户。
本发明实施例提供一种基于推荐模型的推荐装置,所述推荐模型包括:特征提取模型、深度特征模型、模式挖掘模型及预测模型,所述装置包括:
第一特征提取模块,用于通过所述特征提取模型,分别对待推荐用户的用户数据及待推荐对象的对象数据进行特征提取,得到对应的待推荐用户特征及待推荐对象特征;
第二特征提取模块,用于通过所述深度特征模型,对所述待推荐用户特征及待推荐对象特征的组合特征进行深度特征提取,得到对应的深度特征;
特征确定模块,用于通过所述模式挖掘模型,对所述待推荐用户特征进行频繁序列模式挖掘,得到对应所述待推荐用户的频繁序列模式的加权特征;
特征预测模块,用于通过所述预测模型,将所述深度特征与所述加权特征进行融合,得到对应所述待推荐用户的融合特征,并基于所述融合特征进行转化率预测,得到预测结果;
对象推荐模块,用于当所述预测结果表征所述待推荐用户的转化率值超过概率阈值时,将所述待推荐对象推荐给所述待推荐用户。
上述方案中,所述通过所述特征提取模型,分别对待推荐用户的用户数据及待推荐对象的对象数据进行特征提取之前,所述装置还包括推荐模型训练模块,
所述推荐模型训练模块,用于通过所述特征提取模型,对标注有转化率的推荐对象样本进行特征提取,得到所述推荐对象样本对应的用户特征及推荐对象特征;
通过所述深度特征模型,对所述用户特征及推荐对象特征的组合特征进行深度特征提取,得到对应的深度特征;
通过所述模式挖掘模型,对所述用户特征进行频繁序列模式挖掘,得到对应所述推荐对象样本的频繁序列模式的加权特征;
通过所述预测模型,将所述深度特征与所述加权特征进行融合,得到对应所述推荐对象样本的融合特征,并基于所述融合特征进行转化率预测,得到预测结果;
获取所述预测结果与标注的所述转化率之间的差异,并基于所述差异,更新所述推荐模型的模型参数。
上述方案中,所述特征提取模型包括用于对所述待推荐用户的用户数据及待推荐对象的对象数据进行特征提取的特征提取层和特征拼接层,所述通过所述深度特征模型,对所述待推荐用户特征及待推荐对象特征的组合特征进行深度特征提取之前,
所述第一特征提取模块,还用于通过所述特征拼接层,对所述待推荐用户特征及所述待推荐对象特征进行拼接,得到对应所述待推荐用户及所述待推荐对象的组合特征。
上述方案中,所述通过所述深度特征模型,对所述待推荐用户特征及待推荐对象特征的组合特征进行深度特征提取之前,所述装置还包括深度特征训练模块,
所述深度特征训练模块,用于获取标注有目标深度特征的组合特征样本,所述组合特征样本包括对应转化用户的正样本和未转化用户的负样本;
对所述组合特征样本进行特征提取,得到所述组合特征样本对应的用户特征及推荐对象特征;
将所述用户特征及推荐对象特征的组合特征输入至所述深度特征模型中,对所述组合特征样本的组合特征进行深度特征提取,得到对应的预测深度特征;
获取所述目标深度特征与所述预测深度特征的差异,并基于所述差异更新所述深度特征模型的模型参数。
上述方案中,所述对所述待推荐用户特征及待推荐对象特征的组合特征进行深度特征提取之前,所述装置还包括预处理模块,
所述预处理模块,用于对所述组合特征进行以下至少之一的预处理操作,以将预处理操作之后的组合特征确定为所述用户特征及推荐对象特征的组合特征:
确定所述组合特征的特征值的缺失数量、以及对应所述组合特征的相同特征值的数量,并将所述缺失数量超过缺失值阈值或所述数量超过相同数量阈值的组合特征进行过滤,得到过滤后的组合特征;
对所述组合特征的特征值进行异常检测,当检测结果表征所述特征值为异常值时,将所述特征值替换成填充特征值,得到包含填充特征值的组合特征;
对所述组合特征进行衍生处理,得到衍生后的组合特征;
将所述组合特征中的连续型特征对应的特征值进行离散处理,得到离散型特征,并将所述离散处理后得到的离散型特征及所述组合特征中的离散型特征,作为对应所述组合推荐对象样本的组合特征。
上述方案中,所述特征确定模块,还用于对所述待推荐用户特征进行频繁序列模式挖掘,得到对应所述待推荐用户的多个频繁序列模式;
将各所述频繁序列模式在所述待推荐用户对应的行为序列模式集中的频次占比,确定为相应的所述频繁序列模式的权重,所述行为序列模式集包括至少两种行为序列模式;
基于所述权重,对各所述频繁序列模式的行为序列编码特征进行加权,得到对应所述待推荐用户的频繁序列模式的加权特征。
上述方案中,所述特征确定模块,还用于基于所述待推荐用户特征,确定对应所述待推荐用户的行为序列模式集,所述行为序列模式集包括至少两个行为序列模式,所述行为序列模式由对应所述序列样本的多个行为编码特征组合得到;
在所述行为序列模式中,多次选取行为编码特征,并将每次选取的行为编码特征进行组合,获得对应所述行为序列模式的多个不同的行为序列子模式;
其中,每次选取的行为编码特征中均包含归属于不同待推荐用户的行为训练模式中的行为编码特征;
从所述多个不同的行为序列子模式中,选取在所述行为序列模式集中出现频率超过频率阈值的行为序列子模式,并将选取的所述行为序列子模式确定为频繁序列模式。
上述方案中,所述特征确定模块,还用于选取单位长度为一的一项行为序列模式前缀,并确定对应于所述一项行为序列模式前缀的投影数据集;
当所述对应于一项行为序列模式前缀的投影数据集不为空时,将出现频率超过所述频率阈值的一项行为序列模式前缀确定为频繁一项特征编码序列;
在所述频繁一项行为序列模式的基础上,依次递增选取的行为序列模式前缀的单位长度,以获得n项行为序列模式前缀;
确定对应于所述n项行为序列模式前缀的投影数据集;
当对应于所述n项行为序列模式前缀的投影数据集为空、且所述n项行为序列模式前缀的出现频率超过所述频率阈值时,将所述n项行为序列模式前缀确定为所述频繁序列模式;
其中,n是取值逐渐递增的自然数,取值范围满足2≤n≤K,K是序列集合中长度最大的行为序列子模式中所包含的行为编码特征的数量。
上述方案中,所述特征确定模块,还用于对所述待推荐用户特征进行频繁序列模式挖掘,得到挖掘长度最长的前缀所对应的频繁序列模式;
将所述频繁序列模式在所述待推荐用户对应的行为序列模式集中的频次占比,确定为所述频繁序列模式的权重,所述行为序列模式集包括至少两种行为序列模式;
基于所述权重,对所述频繁序列模式的行为序列编码特征进行加权,确定为对应所述待推荐用户的频繁序列模式的加权特征。
本发明实施例提供一种电子设备,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本发明实施例提供的方法。
本发明实施例提供一种计算机可读存储介质,存储有可执行指令,用于引起处理器执行时,实现本发明实施例提供的方法。
本发明实施例具有以下有益效果:
通过深度特征模型对用户特征及推荐对象特征进行深度学习,得到用户与推荐对象特征中更有利于对用户的转化率进行预测的深度特征;通过对用户特征进行频繁序列挖掘,得到用户的频繁序列模式加权特征,能够挖掘到用户群体在行为序列模式上的共性特征,解决了相关技术构建特征比较粗糙的问题;结合深度特征及加权特征,对用户的转化率进行预测,提高了用户转化率预测的准确度,进而提高基于预测得到的用户转换概率进行对象推荐的准确度。
附图说明
图1为本发明实施例提供的基于推荐模型的对象推荐系统的一个可选的架构示意图;
图2为本发明实施例提供的电子设备的一个可选的结构示意图;
图3为本发明实施例提供的基于推荐模型的对象推荐方法的一个可选的流程示意图;
图4为本发明实施例提供的基于推荐模型的推荐方法的数据流走向图;
图5为本发明实施例提供的确定加权特征的方法的一个可选的流程示意图;
图6为本发明实施例提供的确定加权特征的方法的一个可选的流程示意图;
图7为本发明实施例提供的基于推荐模型的对象推荐方法的一个可选的流程示意图;
图8为本发明实施例提供的对象推荐方法示意图;
图9为本发明实施例提供的基于推荐模型的对象推荐装置的一个可选的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,所描述的实施例不应视为对本发明的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二\第三…”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三…”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本发明实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的,不是旨在限制本发明。
对本发明实施例进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。
1)推荐系统,根据用户的信息需求、兴趣等,将用户感兴趣的信息、产品等推荐给用户的个性化信息推荐系统。
2)推荐对象,又称物品(Item),比如新闻、帖子、书籍、购物物品、广告等。
3)转化率,指示在一个统计周期内完成转化行为的次数占总点击次数的比率,如淘宝转化率为所有到达淘宝店铺并产生购买行为的人数和所有到达淘宝店铺的人数的比率,又如注册用户转化率为通过新闻、广告等媒介吸引前来的用户转化成为注册用户的比率、登录用户转化率为由已注册的用户转化成为登录用户的比率、付费用户转化率为在已注册已登录的用户中,成功支付第一笔费用的用户的比率。
4)序列模式,是指给定一个由不同序列组成的集合,其中,每个序列由不同的元素按顺序有序排列,每个元素由不同项目组成,同时给定一个最小支持度阈值,序列模式挖掘就是找出所有的频繁序列模式,即该子序列在序列集中的出现频率不低于最小支持度阈值。
5)神经网络模型的参数,在神经网络模型的训练过程中自动更新或自行学习所获得的参数,包括有特征权重、偏置等。
业务场景个性化推荐系统在电商平台、广告投放等领域具有广泛的应用场景,如对电商平台用户画像构建、个性化推荐、目标用户投放等应用领域具有较高的应用价值。相关技术中,进行业务场景的主流推荐系统构建方法包括:基于人口统计学的推荐、基于内容的推荐、基于协调过滤算法的推荐,下面分别介绍这些具体方法。
1)基于人工统计学的推荐,根据用户基本信息发现用户的相关程度,从而把相似用户喜爱的其他物品(即待推荐对象)推荐给当前用户。该方法通常用于推荐系统的冷启动阶段,不需要历史数据根据用户的属性建模。
2)基于内容的推荐,根据物品属性进行建模,使用物品本身的相似度进行推荐,并通过对物品属性维度的增加,提高推荐精度和效果。
3)基于协调过滤的推荐,协同过滤分为基于用户的协同过滤和基于物品的协同过滤,在实际实施时,可以通过关联算法、聚类算法、分类算法、回归算法、矩阵分解、图模型等来完成协同过滤。
其中,虽然基于用户的协同过滤的方法也考虑了用户之间的相似度,但该方法与基于人口统计学的推荐算法不同之处在于如何计算用户的相似度,基于人口统计学的推荐是基于用户的基本信息计算用户的相似度,基于用户的协调过滤的推荐主要基于用户的历史偏好数据计算用户的相似度。基于物品的协同过滤算法与基于内容的推荐虽然同是基于物品相似度的推荐算法,但区别之处在于,基于内容的推荐算法是根据物品本身的属性信息的相似度进行推荐,而基于物品的协同过滤算法是基于用户的历史偏好得到的物品之间的相似度进行推荐。
上述方法在应用过程中,存在以下技术问题:
1)基于人工统计学的推荐,仅是基于用户的基础画像特征,构造的特征比较粗糙,不能反映出用户群体的共性,效果难以达到需求,只适合简单的推荐,同时很多已成规模的系统产品不存在冷启动问题,这种算法与其他算法相比差异明显。
2)基于内容的推荐,只考虑物品本身属性之间的相似度,同时属性有限,需要用户的物品历史数据,泛化到新用户较难,即基于内容的推荐模型的泛化能力较弱。
3)基于协调过滤的推荐,由于根据各个用户的历史偏好信息进行推荐,与物品的内容属性无关;而处于冷启动阶段的新物品缺乏相应的用户历史偏好信息,因此无法对处于冷启动阶段的新物品进行推荐,导致基于协调过滤的推荐模型的推荐精准度和泛化能力均较低。同时,矩阵分解方法需要有较多真实评分值,否则会导致分解模型输入非常稀疏,难以准确地进行预测,使得基于推荐模型的推荐准确度进一步降低。
鉴于此,本发明实施例提供一种基于推荐模型的对象推荐方法及装置,以至少解决相关技术中的上述问题,接下来分别进行说明。
参见图1,图1为本发明实施例提供的基于推荐模型的对象推荐系统100的一个可选的架构示意图,为实现支撑一个示例性应用,终端400(示例性示出了终端400-1和终端400-2)通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合,使用无线链路实现数据传输。
在实际应用中,终端400可以为智能手机、平板电脑、笔记本电脑等各种类型的用户终端,还可以为台式计算机、游戏机、电视机或者这些数据处理设备中任意两个或多个的组合;服务器200既可以为单独配置的支持各种业务的一个服务器,亦可以配置为一个服务器集群,还可以为云服务器等。
在实际应用中,终端上设置有客户端,如新闻客户端、淘宝客户端等;示例性地,终端400-1位于待推荐对象的发布侧,终端400-2位于待推荐用户侧(即待推荐对象的接收侧),当用户打开终端400-1的客户端发布一条待推荐对象时,例如,淘宝商家发布一个商品、广告商投放一条广告等,终端400-1用于生成并发送携带待推荐对象的对象数据的推荐请求至服务器200。
服务器200,用于获取待推荐对象的对象数据及待推荐用户的用户数据,通过训练好的推荐模型中的特征提取模型,分别对待推荐用户的用户数据及待推荐对象的对象数据进行特征提取,得到对应的待推荐用户特征及待推荐对象特征;通过训练好的推荐模型中的深度特征模型,对待推荐用户特征及待推荐对象特征的组合特征进行深度特征提取,得到对应的深度特征;通过训练好的推荐模型中的模式挖掘模型,对待推荐用户特征进行频繁序列模式挖掘,得到对应待推荐用户的频繁序列模式的加权特征;通过训练好的推荐模型中的预测模型,将深度特征与加权特征进行融合,得到对应待推荐用户的融合特征,并基于融合特征进行转化率预测,得到预测结果;当预测结果表征待推荐用户的转化率值超过概率阈值时,将待推荐对象推荐给终端400-2,以将待推荐对象推荐给待推荐用户。
本发明实施例提供的基于推荐模型的对象推荐方法可广泛应用于电商平台、推荐系统、广告投放等领域,例如在淘宝等电商平台,通过根据用户行为习惯进行用户行为的频繁序列模式挖掘,对高区分度特征加权聚类,即得到频繁序列模式的加权特征,从而给用户进行个性化推荐偏好物品,能够促进平台提高交易额;在广告投放场景中,对广告相关物品行为偏好相似的目标用户进行定向投放,能够在使收入成本比达到最大化。除此以外,与个性化推荐系统构建相关的场景都属于本发明实施例的潜在应用场景。
接下来对本发明实施例提供的用于实施基于推荐模型的对象推荐方法的电子设备进行说明,参见图2,图2为本发明实施例提供的电子设备500的一个可选的结构示意图,在实际应用中,电子设备500可以为图1中的终端或服务器,下面以电子设备为图1所示的服务器200为例,对实施本发明实施例的电子设备进行说明。图2所示的电子设备500包括:至少一个处理器510、存储器550、至少一个网络接口520和用户接口530。业务数据的传输设备500中的各个组件通过总线系统540耦合在一起。可理解,总线系统540用于实现这些组件之间的连接通信。总线系统540除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统540。
处理器510可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
用户接口530包括使得能够呈现媒体内容的一个或多个输出装置531,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口530还包括一个或多个输入装置532,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。
存储器550可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器550可选地包括在物理位置上远离处理器510的一个或多个存储设备。
存储器550包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(RAM,Random Access Memory)。本发明实施例描述的存储器550旨在包括任意适合类型的存储器。
在一些实施例中,存储器550能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统551,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块552,用于经由一个或多个(有线或无线)网络接口520到达其他计算设备,示例性的网络接口520包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等;
呈现模块553,用于经由一个或多个与用户接口530相关联的输出装置531(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作外围设备和显示内容和信息的用户接口);
输入处理模块554,用于对一个或多个来自一个或多个输入装置532之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
在一些实施例中,本发明实施例提供的基于推荐模型的对象推荐装置可以采用软件方式实现,图2示出了存储在存储器550中的基于推荐模型的对象推荐装置555,其可以是程序和插件等形式的软件,包括以下软件模块:第一特征提取模块5551、第二特征提取模块5552、特征确定模块5553、特征预测模块5554和对象推荐模块5555,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。
将在下文中说明各个模块的功能。
在另一些实施例中,本发明实施例提供的基于推荐模型的对象推荐装置可以采用硬件方式实现,作为示例,本发明实施例提供的基于推荐模型的对象推荐装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本发明实施例提供的基于推荐模型的对象推荐方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable LogicDevice)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件。
接下来对本发明实施例的基于推荐模型的对象推荐方法进行说明,在实际实施时,本发明实施例提供的基于推荐模型的对象推荐方法可由服务器或终端单独实施,还可由服务器及终端协同实施,下面以由服务器实施为例进行说明。
参见图3-4,图3为本发明实施例提供的基于推荐模型的对象推荐方法的一个可选的流程示意图,图4为本发明实施例提供的基于推荐模型的推荐方法的数据流走向图,如图4所示,本发明实施例提供的推荐模型包括:特征提取模型、深度特征模型、模式挖掘模型、预测模型,将结合图3和图4示出的步骤进行说明。
步骤101:服务器通过特征提取模型,分别对待推荐用户的用户数据及待推荐对象的对象数据进行特征提取,得到待推荐用户对应的用户特征及待推荐对象的对应的待推荐对象特征。
这里,在实际应用中,终端上设置有客户端,如新闻客户端、淘宝客户端等;当位于待推荐对象的发布侧的用户打开客户端发布一条待推荐对象时,例如,淘宝商家发布一个商品、广告商投放一条广告等,终端生成并发送携带待推荐对象的对象数据的推荐请求至服务器。
服务器接收到待推荐对象的对象数据,及获取待推荐用户的用户数据,并基于训练好的推荐模型中的特征提取模型分别对对象数据及用户数据进行特征提取,得到对应的对象特征及用户特征;然后对对象特征及用户特征进行拼接,得到对应的组合特征。
在实际应用中,所述通过所述特征提取模型,分别对待推荐用户的用户数据及待推荐对象的对象数据进行特征提取之前,服务器可通过如下方式对推荐模型进行训练:
通过特征提取模型,对标注有转化率的推荐对象样本进行特征提取,得到所述推荐对象样本对应的用户特征及推荐对象特征;通过深度特征模型,对用户特征及推荐对象特征的组合特征进行深度特征提取,得到对应的深度特征;通过模式挖掘模型,对用户特征进行频繁序列模式挖掘,得到对应推荐对象样本的频繁序列模式的加权特征;通过预测模型,将深度特征与加权特征进行融合,得到对应推荐对象样本的融合特征,并基于融合特征进行转化率预测,得到预测结果;获取预测结果与标注的转化率之间的差异,并基于差异,更新推荐模型的模型参数。
这里,推荐对象样本对应的用户特征包括用户基础属性特征如年龄、性别、学历、所处城市等级等特征,用户消费特征如支付总笔数、总金额、某时间段内(24小时内、一周内、一个月内、半年内)支付笔数分布、支付金额分布、笔均金额等特征,用户行为特征如浏览时长、页面点击次数等特征。推荐对象特征包括推荐对象基础属性特征如推荐对象类别、推荐对象价格、推荐对象品牌、推荐对象购买评分、推荐对象评论情感等特征,推荐对象消费特征如推荐对象被购买次数、被点击浏览次数、添加购物车次数、同类推荐对象被购买次数等特征。
在实际实施时,在获取的推荐对象样本的用户数据和推荐对象数据中,提取用户基础属性数据、用户消费数据和用户行为数据等用户数据,以及推荐对象基础属性数据和推荐对象消费数据等推荐对象数据,并通过特征提取模型对提取的用户数据和推荐对象数据进行特征提取,得到对应的用户特征及推荐对象特征。
在一些实施例中,特征提取模型包括用于对推荐对象样本进行特征提取的特征提取层和特征拼接层,服务器可通过特征拼接层,对用户特征及推荐对象特征进行拼接,得到对应推荐对象样本的组合特征。如此,通过将用户特征及推荐对象特征拼接组合构造<用户,推荐对象>组合特征。
在实际实施时,可根据预测结果与标注的转化率之间的差异,确定推荐模型的损失函数的值;当损失函数的值达到预设阈值时,基于推荐模型的损失函数的值确定相应的误差信号;将误差信号在推荐模型中反向传播,并在传播的过程中更新推荐模型的各个层的模型参数。
这里,对反向传播进行说明,将推荐对象样本数据输入到神经网络模型的输入层,经过隐藏层,最后达到输出层并输出结果,这是神经网络模型的前向传播过程,由于神经网络模型的输出结果与实际结果有误差,则计算输出结果与实际值之间的误差,并将该误差从输出层向隐藏层反向传播,直至传播到输入层,在反向传播的过程中,根据误差调整模型参数的值;不断迭代上述过程,直至收敛。
步骤102:通过深度特征模型,对待推荐用户特征及待推荐对象特征的组合特征进行深度特征提取,得到对应的深度特征。
在一些实施例中,在通过深度特征模型对待推荐用户特征及待推荐对象特征的组合特征进行深度特征提取之前,或在训练推荐模型过程中通过深度特征模型,对用户特征及推荐对象特征的组合特征进行深度特征提取之前,服务器可通过如下方式训练得到深度特征模型:
获取标注有目标深度特征的组合特征样本,其中,组合特征样本包括对应转化用户的正样本和未转化用户的负样本;对组合特征样本进行特征提取,得到组合特征样本对应的用户特征及推荐对象特征;将用户特征及推荐对象特征的组合特征输入至深度特征模型中,对组合特征样本的组合特征进行深度特征提取,得到对应的预测深度特征;获取目标深度特征与预测深度特征的差异,并基于差异更新深度特征模型的模型参数。
在实际实施时,可根据目标深度特征与预测深度特征之间的差异,确定深度特征模型的损失函数的值;当损失函数的值达到预设阈值时,基于深度特征模型的损失函数的值确定相应的误差信号;将误差信号在深度特征模型中反向传播,并在传播的过程中更新深度特征模型的各个层的模型参数。
在一些实施例中,服务器构建的组合特征样本包括对应转化用户的正样本和未转化用户的负样本,如将高价值的转化用户作为正样本,该业务场景的流失的未转化用户作为负样本。当正负样本不平衡时,可采用随机欠采样、随机过采样、基于聚类的过采样等技术来解决正负样本不平衡问题,当然还可采用其他能够平衡正负样本的技术,本发明并不具体限定。
在一些实施例中,在训练推荐模型的过程中将推荐对象样本的用户特征及推荐对象特征的组合特征进行深度特征提取之前,或在训练深度特征模型过程时将组合特征样本的用户特征及推荐对象特征的组合特征输入至深度特征模型中之前,或在对象推荐过程中将待推荐用户特征及待推荐对象特征的组合特征进行深度特征提取之前,服务器还可对组合特征进行以下至少之一的预处理操作,以将预处理操作之后的组合特征确定为对应推荐对象样本或组合特征样本或待推荐用户和对推荐对象的组合特征:
确定组合特征的特征值的缺失数量、以及对应组合特征的相同特征值的数量,并将缺失数量超过缺失值阈值或数量超过相同数量阈值的组合特征进行过滤,得到过滤后的组合特征;
对组合特征的特征值进行异常检测,当检测结果表征特征值为异常值时,将特征值替换成填充特征值,得到包含填充特征值的组合特征;
对组合特征进行衍生处理,得到衍生后的组合特征;
将组合特征中的连续型特征对应的特征值进行离散处理,得到离散型特征,并将离散处理后得到的离散型特征及组合特征中的离散型特征进行独热编码,并把得到的编码特征作为对应的组合特征。
这里,缺失值阈值a=b×G,G∈[0,1],其中,b为样本数据量,G为缺失值过滤系数,缺失值过滤系数越小,过滤门槛越高,过滤后特征的数量越少、且过滤后特征所对应的特征值更完整。相同数量阈值c=d×M,M∈[0,1],其中,d为样本数据量,M为相同数量过滤系数。若某个特征的取值(即特征值)90%都是一样的、或者所有取值都是一样的,则该特征称为单值特征,需要将单值特征进行过滤。因为对应于用户特征的相同特征值的数量越大,对于后续筛选强相关特征用处越小,所以需要将其过滤。
这里,对特征值为异常值的组合特征的特征值进行舍弃替换,即舍弃对应于组合特征的异常特征值,例如,根据特征分布,舍弃特征取值太大的异常值或排在前0.0001的异常值;针对舍弃后的特征进行特征值填充,例如,连续型特征中对应缺失的特征取值用均值填充,离散型特征中对应缺失的特征取值用常数填充。
作为示例,离散处理可以是分箱操作,包括等距分箱操作和等频分箱操作,例如,年龄特征是连续型特征,将年龄特征对应的特征值等频分箱操作后离散型年龄特征为{18-25,26-30,31-35,36-40,41-45,46-50,51-60,60以上};某时间段内(24小时内、一周内、一个月内、半年内)支付笔数分布特征是连续性特征,将某时间段内(24小时内、一周内、一个月内、半年内)支付笔数分布特征对应的特征值等距分箱操作后离散型某时间段内(24小时内、一周内、一个月内、半年内)内支付笔数分布特征为{0-10,11-20,21-30,31-40,41-50,51-60,61-70,70以上};性别特征是离散型特征,因此无需对性别特征进行离散处理。
在实际实施时,对组合特征进行衍生处理的过程包括以下至少之一:将多个组合特征中的单一变量进行基础转换;将多个组合特征中的多变量进行组合,如特征平方、特征加减等。
需要说明的是,上述对组合特征的预处理操作,既可用于训练深度特征模型的组合训练样本的组合特征进行预处理,也适用于针对用于训练推荐模型的推荐对象样本的组合特征的预处理操作,还适用于针对用于进行对象推荐时的待推荐对象和待推荐用户的组合特征进行预处理。
本发明实施例中,对组合特征进行过滤和填充,能够更好地构建组合特征的强相关特征,可以提高后续基于强相关的组合特征训练得到深度特征模型预测更有利于对用户的转化率进行预测的深度特征的准确性;通过对组合特征进行衍生处理,不仅可以提高组合特征的数量,还可以提高特征之间的粘性,从而可以避免训练获得的深度特征模型及推荐模型出现欠拟合和过拟合的问题;将连续型特征对应的特征值进行离散处理后再进行编码处理,可以减小深度特征模型和推荐模型的时间和空间开销,并且可以提高推荐模型对样本的分类聚类能力和抗噪声能力,并且离散型特征相对于连续型特征更易理解,更加接近知识层面的表述,从而克服用户数据中隐藏的缺陷,使基于推荐模型的对象推荐结果更加稳定。
步骤103:通过模式挖掘模型,对待推荐用户特征进行频繁序列模式挖掘,得到对应待推荐用户的频繁序列模式的加权特征。
在一些实施例中,参见图5,图5为本发明实施例提供的确定加权特征的方法的一个可选的流程示意图,图3示出的步骤103可通过如图5所示的步骤1031-1033来实现:
步骤1031:对待推荐用户特征进行频繁序列模式挖掘,得到对应待推荐用户的多个频繁序列模式。
在一些实施例中,服务器可通过如下方式对用户特征进行频繁序列模式挖掘,得到对应待推荐用户的多个频繁序列模式:
基于用户特征,确定对应待推荐用户的行为序列模式集,行为序列模式集包括至少两个行为序列模式,行为序列模式由对应所述序列样本的多个行为编码特征组合得到;在行为序列模式中,多次选取行为编码特征,并将每次选取的行为编码特征进行组合,获得对应行为序列模式的多个不同的行为序列子模式;其中,每次选取的行为编码特征中均包含归属于不同待推荐对象的行为训练模式中的行为编码特征;从多个不同的行为序列子模式中,选取在行为序列模式集中出现频率超过频率阈值的行为序列子模式,并将选取的行为序列子模式确定为频繁序列模式。
在一些实施例中,服务器可通过如下方式在多个不同的行为序列子模式形成的序列集合中,选取出现频率超过频率阈值的行为序列子模式,以作为频繁序列模式:
在序列集合中,选取单位长度为一的一项行为序列模式前缀,并确定对应于一项行为序列模式前缀的投影数据集;当对应于一项行为序列模式前缀的投影数据集不为空时,将出现频率超过频率阈值的一项行为序列模式前缀确定为频繁一项特征编码序列;在频繁一项行为序列模式的基础上,依次递增选取的行为序列模式前缀的单位长度,以获得n项行为序列模式前缀;确定对应于n项行为序列模式前缀的投影数据集;当对应于n项行为序列模式前缀的投影数据集为空、且n项行为序列模式前缀的出现频率超过所述频率阈值时,将n项行为序列模式前缀确定为所述频繁序列模式;其中,n是取值逐渐递增的自然数,取值范围满足2≤n≤K,K是序列集合中长度最大的行为序列子模式中所包含的行为编码特征的数量。
这里,频率阈值或称最小支持度阈值,最小支持度阈值为min_sup=e×f,其中,e为高转化率用户样本(即正样本)数量,f为最小支持率,最小支持率f可根据高转化率用户样本集的数量进行调整,当样本集的数量越大时,最小支持率越大。
接下来将分别以用户在产品上进行点击浏览留下来的序列信息形成的行为序列模式,及从其他渠道达到转化的一系列行为轨迹而形成的行为序列模式为例进行说明。
对于用户在产品上进行点击浏览留下来的序列信息形成的行为序列模式,举例来说,用户小明通过在A页面点击a button进入到B页面,然后浏览一段时间后又点击bbutton进入到C页面;用户小李通过在A页面点击a button进入到B页面,然后浏览一段时间后又点击c button返回到A页面;那么用户小明的浏览序列可标记为:AaBbC,用户小李的浏览序列可标记为:AaBcA,其中,行为序列模式中的序列信息是分先后顺序的,因此,能够基于序列模式挖掘算法挖掘其中蕴含的频繁序列模式,这部分频繁序列模式代表了不同用户之间共有的行为习惯。
下面,以最小支持度阈值(即频率阈值)是0.5为例,说明挖掘出满足频率阈值的频繁序列模式的具体过程。首先,从长度为1的前缀开始挖掘行为序列模式,搜索对应的投影数据库,得到长度为1的前缀对应的投影数据集(即对应后缀),如表1所示,满足最小支持度阈值的一项前缀A、一项前缀a、一项前缀B所对应后缀均不为空,则可知表1中一项(即长度为1)频繁序列模式为<A>、<a>和<B>。
表1
Figure BDA0002544476370000191
然后,在一项前缀的基础上,递归的挖掘长度为2的前缀对应的频繁序列模式,以此类推,一直递归到不能挖掘到更长的前缀挖掘为止,满足最小支持度阈值的二项前缀和对应后缀如表2所示,表2中二项(即长度为2)的频繁序列模式为<Aa>和<aB>。
表2
Figure BDA0002544476370000201
同样地,满足最小支持度阈值的三项前缀和对应后缀如表3所示,表3中三项(即长度为3)的频繁序列模式为<AaB>。
表3
Figure BDA0002544476370000202
至此,挖掘得到的用户小明和用户小李的频繁序列模式为:<A>、<a>、<B>、<Aa>、<aB>和<AaB>,即用户小明与用户小李之间拥有上述共有的行为习惯。
对于用户从其他渠道达到转化的一系列行为轨迹而形成的行为序列模式,行为轨迹由行为标签构成序列信息,行为标签分类包括但不限于如表4所示标签,可根据实际应用场景和行为类别细化进行定义标记。
表4
行为标签 行为编码
购买行为 h
添加购物车行为 g
收藏行为 f
评论行为 e
搜索行为 d
登录行为 c
注册行为 b
浏览行为 a
这里,在实际实施时,服务器从待推荐用户的用户特征中,提取由多个用户行为标签特征构成的用户行为特征;基于行为标签特征与行为编码特征间的映射关系,确定各行为标签特征对应的行为编码特征;将各行为编码特征进行组合,得到对应待推荐用户的行为序列模式。
以购物平台产品举例来说,用户小明通过渠道进入该平台,然后进行注册和登录,在页面浏览一段时间后点击进入查看物品详情页,浏览一段时间后点击收藏按钮收藏物品,然后点击添加购物车购买物品,那么该用户的行为序列模式为:bcafgh。
用户小李通过渠道进入该平台,然后进行注册和登录,在页面浏览一段时间后点击搜索特定商品,浏览后添加购物车,并且付款购买,购买后又添加收藏,那么该用户的行为序列模式为:bcdaghf。
仍以最小支持度阈值(即频率阈值)是0.5为例,说明挖掘出满足频率阈值的频繁序列模式的具体过程。首先,从长度为1的前缀开始挖掘行为序列模式,得到如表5所示的满足最小支持度阈值的一项前缀与其对应后缀,可知,表5中一项(即长度为1)频繁序列模式为<b>、<c>、<a>、<g>和<h>。
表5
Figure BDA0002544476370000211
然后,在一项前缀的基础上,递归的挖掘长度为2的前缀对应的频繁序列模式,以此类推,一直递归到不能挖掘到更长的前缀挖掘为止,如满足最小支持度阈值的二项前缀和对应后缀如表6所示,表6中二项(即长度为2)的频繁序列模式为<bc>、<ca>、<ag>和<gh>。
表6
Figure BDA0002544476370000221
同样地,满足最小支持度阈值的三项前缀和对应后缀如表7所示,表7中三项(即长度为3)的频繁序列模式为<bca>、<cag>和<agh>。
表7
Figure BDA0002544476370000222
同样地,满足最小支持度阈值的四项前缀和对应后缀如表8所示,表8中四项(即长度为4)的频繁序列模式为<bcag>和<cagh>。
表8
Figure BDA0002544476370000223
同样地,满足最小支持度阈值的五项前缀和对应后缀如表9所示,表9中五项(即长度为5)的频繁序列模式为<bcagh>。
表9
Figure BDA0002544476370000224
至此,挖掘得到的用户小明和用户小李的频繁序列模式为:<b>、<c>、<a>、<g>、<h>、<bc>、<ca>、<ag>、<gh>、<bca>、<cag>、<agh>、<bcag>、<cagh>和<bcagh>,即用户小明与用户小李之间拥有上述共有的行为习惯。
步骤1032:将各频繁序列模式在待推荐用户对应的行为序列模式集中的频次占比,确定为相应的频繁序列模式的权重。
其中,行为序列模式集包括至少两种行为序列模式。
在一些实施例中,当从用户行为序列和用户浏览序列挖掘转化频繁序列模式(即用户共同行为模式)后,在建模方法上更加关注这频繁序列模式的行为编码特征,对这部分特征进行特殊处理,如对该部分特征进行重复构建等,使模型学习更倾向于这部分特征,或将该部分特征进行数值变换,扩大数值范围确保比其他特征的数值范围更大,或初始化特征权重将频繁序列模式的行为序列特征进行加权,得到加权特征。
这里,将各频繁训练模式在行为序列模式集中出现的概率值确定为相应的频繁训练模式的权重,权重越大,表征对应的频繁序列模式越能代表用户的共同习惯。
步骤1033:基于权重,对各频繁序列模式的行为序列编码特征进行加权,得到对应待推荐用户的频繁序列模式的加权特征。
如此,以加权特征作为用户共同习惯的强特征,使模型的学习更倾向于这部分特征,有利于提高基于训练得到的推荐模型预测用户转换率的准确度。
在一些实施例中,参见图6,图6为本发明实施例提供的确定加权特征的方法的一个可选的流程示意图,图3示出的步骤103可通过如图6所示的步骤1034-1036来实现:
步骤1034:对用户特征进行频繁序列模式挖掘,得到挖掘长度最长的前缀所对应的频繁序列模式;
步骤1035:将频繁序列模式在待推荐用户对应的行为序列模式集中的频次占比,确定为频繁序列模式的权重。
其中,行为序列模式集包括至少两种行为序列模式;
步骤1036:基于权重,对频繁序列模式的行为序列编码特征进行加权,确定为对应待推荐用户的频繁序列模式的加权特征。
由于对频繁序列模式的挖掘是在满足设置的最小支持度阈值的基础上实施的,挖掘长度最长的频繁序列模式中的行为编码特征涵盖了挖掘长度较短的频繁序列模式中的行为编码特征,如五项的频繁序列模式<bcagh>中的行为编码特征,涵盖了四项的频繁序列模式<bcag>,因此,挖掘长度最长的频繁序列模式最能代表用户的行为习惯,故可将挖掘长度最长的频繁序列模式在待推荐用户对应的行为序列模式集中的频次占比,确定为对应该待推荐用户的频繁序列模式的权重,并以该权重对该挖掘长度最长的频繁序列模式的行为序列编码特征进行加权,确定为对应待推荐用户的频繁序列模式的加权特征。如此,能够挖掘到用户群体在行为序列模式上的共性特征,解决了相关技术构建特征比较粗糙的问题。
步骤104:通过预测模型,将深度特征与加权特征进行融合,得到对应待推荐用户的融合特征,并基于融合特征进行转化率预测,得到预测结果。
在一些实施例中,预测模型包括特征融合层和特征预测层,在实际实施时,通过特征融合层,对深度特征与加权特征进行融合处理,得到对应待推荐用户的融合特征,通过特征预测层,对得到的融合特征进行转化率预测,得到预测结果。
在一些实施例中,预测模型为全连接神经网络,包括输入层、隐藏层及输出层,在实际实施时,服务器将获取的深度特征与加权特征的融合特征输入至输入层,以通过输入层传递至隐藏层,通过隐藏层,调用激活函数得到对应融合特征的隐层特征,通过输出层,对得到的隐层特征进行转化率预测,得到预测结果。
步骤105:当预测结果表征待推荐用户的转化率值超过概率阈值时,将待推荐对象推荐给待推荐用户。
这里,待推荐用户的转化率值超过概率阈值,表征待推荐用户对待推荐对象的实际转化可能性比较大,将待推荐对象推荐给该待推荐用户,满足了待推荐用户的需求,提高了推荐的精准度。例如,在电商购物平台,若设置的概率阈值为80%,用户A对于商品B的转化率为85%时,则表征用户A实际购买商品B的概率比较大,将商品B推荐给用户A,提高了商品的实际转化率。
通过上述方式,通过训练得到的深度特征模型对用户特征及推荐对象特征进行深度学习,得到用户与推荐对象特征中更有利于对用户的转化率进行预测的深度特征;通过对用户特征进行频繁序列挖掘,得到用户的频繁序列模式加权特征,能够挖掘到用户群体在行为序列模式上的共性特征,解决了相关技术构建特征比较粗糙的问题;结合深度特征及加权特征,对用户的转化率进行预测,提高了用户转化率预测的准确度,进而提高基于预测得到的用户转换概率进行对象推荐的准确度,还提高了推荐模型的泛化能力。
下面,将说明本发明实施例在一个实际的应用场景中的示例性应用。
随着线上消费模式的崛起和电商平台的快速发展,更精确地了解用户的个性化需求,个性化推荐成为各电商平台竞争实力的体现,因此,个性化推荐模型的建立成为商家了解用户消费需求、抢占市场先机、提高交易额的重要战略。除此之外,精准挖掘用户的行为习惯,基于用户特点个性化提供其需要或可能偏好的物品,对于各种权益推荐、广告投放等应用也有重大意义。
业务场景个性化推荐系统在电商平台、广告投放等领域具有广泛的应用场景,如对电商平台用户画像构建、个性化推荐、目标用户投放等应用领域具有较高的应用价值。相关技术中,进行业务场景的主流推荐系统构建方法包括:基于人口统计学的推荐、基于内容的推荐、基于协调过滤算法的推荐,然而针此类方法在应用过程中,存在以下技术问题:
1)基于人工统计学的推荐,仅是基于用户的基础画像特征,构造的特征比较粗糙,不能反映出用户群体的共性,效果难以达到需求,只适合简单的推荐,同时很多已成规模的系统产品不存在冷启动问题,这种算法与其他算法相比差异明显。
2)基于内容的推荐,只考虑物品本身属性之间的相似度,同时属性有限,需要用户的物品历史数据,泛化到新用户较难,即基于内容的推荐模型的泛化能力较弱。
3)基于协调过滤的推荐,由于根据各个用户的历史偏好信息进行推荐,与物品的内容属性无关;而处于冷启动阶段的新物品缺乏相应的用户历史偏好信息,因此无法对处于冷启动阶段的新物品进行推荐,导致基于协调过滤的推荐模型的推荐精准度和泛化能力均较低。同时,矩阵分解方法需要有较多真实评分值,否则会导致分解模型输入非常稀疏,难以准确地进行预测,使得基于推荐模型的推荐准确度进一步降低。
鉴于以上方法存在的问题,本发明实施例提供一种基于推荐模型的对象推荐方法及装置,本发明实施例相比于相关技术至少存在以下优势:
1)本发明实施例通过构建实际转化用户样本库,基于前缀投影的序列模式挖掘(Prefixspan)算法挖掘用户自身属性和行为序列模式,发现转化用户群体在行为序列模式上共有的特性,能够挖掘转化用户更深度的共同属性并重点关注该部分特征,更好地构建转化用户行为特征。
2)本发明实施例通过对强特征(即频繁序列模式的加权特征)进行集成处理,以及特征值数值范围变换等,使强特征在应用中发挥更大的作用,解决了相关技术中没有更好地对用户特征进行重要性评估和强特征分析处理;将深度特征模型输出的深度特征及强特征进行融合,能够提高推荐模型推荐的准确度;同时,构建深度特征模型学习用户物品(即推荐对象)的深度特征,确保推荐模型从更广维度进行决策,融合这两部分特征对用户进行推荐,可以提高推荐模型的推荐效果。
3)本发明实施例提供的基于转化用户行为序列模式进行强特征处理,同时结合深度模型特征进行特征融合分类的用户推荐系统构建方法,提高了推荐模型的泛化能力。
参见图7,图7为本发明实施例提供的基于推荐模型的对象推荐方法的一个可选的流程示意图,本发明实施例提供的推荐模型包括:特征提取模型、深度特征模型、模式挖掘模型、预测模型,将结合图7示出的步骤进行说明。
步骤201:通过特征提取模型提取用户特征及物品特征,并构建推荐对象样本。
这里,推荐对象样本对应的用户特征包括用户基础属性特征如年龄、性别、学历、所处城市等级等特征,用户消费特征如支付总笔数、总金额、某时间段内(24小时内、一周内、一个月内、半年内)支付笔数分布、支付金额分布、笔均金额等特征,用户行为特征如浏览时长、页面点击次数等特征。物品特征包括物品基础属性特征如物品类别、物品价格、物品品牌、物品购买评分、物品评论情感等特征,物品消费特征如物品被购买次数、被点击浏览次数、添加购物车次数、同类物品被购买次数等特征。
通过两部分特征拼接组合构造<用户,物品>组合特征,并进行数据预处理,处理步骤具体包括:
1)舍弃缺失值过多的特征:设定缺失值过滤阈值=样本数据量*G,G∈[0,1],G可设置为0.4,当某特征数据(即上述的特征值或特征取值)缺失的数量超过该阈值时,过滤该特征,同时删除单值特征。
2)进行异常值(即上述的异常特征值)处理:根据特征分布,舍弃特征取值太大或排在前0.0001(即万分之一)的异常值。
3)缺失值处理:连续型特征的缺失值用均值填充,离散型特征的缺失值用常数填充作为单独的类别。
4)特征衍生:通过特征变换、特征平方、特征加减进行特征组合和衍生。
5)特征处理:连续型特征进行分箱离散化(分箱方法可根据用户特征字段在各区间的分布占比进行分箱,即等频分箱操作),将分箱离散化后的连续型特征和离散型特征进行类型编码。
将业务场景中有实际转化的用户作为高价值用户,高价值用户的定义包括购买过会员、积分高有兑换过积分、历史交易金额大的用户,将这部分用户作为正样本,用于构建高价值用户样本库;同时,将该业务场景的流失用户作为负样本;如此,构建的推荐对象样本标注有转换概率,包括对应转化用户的正样本和未转化用户的负样本。
步骤202:通过深度特征模型学习用户物品的深度特征。
这里,基于步骤201进行用户特征及物品特征的构建和特征处理,得到每个用户与物品对的组合特征,搭建卷积神经网络(CNN,Convolutional Neural Networks)或长短期记忆网络(LSTM,Long Short-Term Memory)深度学习模型(即深度特征模型)学习用户物品的组合特征对应的深度特征。
这里,采用上述构建的推荐对象样本,使用抽样算法如欠采样算法来平衡正负样本的数量,对深度特征模型进行训练,得到训练好的深度特征模型。在实际应用中,将待推荐用户特征与待推荐物品特征的组合特征输入至训练好的深度特征模型,可得到组合特征对应的深度特征。
步骤203:通过模式挖掘模型,对用户特征进行频繁序列模式挖掘,得到用户的频繁序列模式。
这里,基于Prefixspan算法挖掘用户行为序列模式,发现从触达到转化有共同习惯/浏览习惯的用户群体。基于Prefixspan算法挖掘用户行为轨迹中满足最小支持度阈值的各个长度的频繁序列模式。同时,使用多最小支持度策略,最小支持度的计算方法如公式(1)所示。
min_sup=a×n (1)
其中,n为推荐对象样本数量,a为最小支持率,最小支持率参数根据推荐对象样本的数量进行调整。同时,本发明实施例运用了一种“滚雪球”的方法和思路,即每一轮挖掘都设置较高的支持度,保证行为序列模式挖掘的准确性,通过多轮迭代挖掘提高序列模式挖掘的查全率。
序列模式挖掘算法的具体过程如下:
(1)找出单位长度为1的用户行为序列前缀和对应投影数据集;
(2)统计用户行为序列前缀出现频率,并将支持度高于最小支持度阈值的前缀添加到数据集,获取频繁一项集行为序列模式(即一项的频繁序列模式);
(3)对所有长度为i且满足最小支持度要求的前缀递归挖掘:
1)挖掘前缀的投影数据集,如果投影数据为空集合,则返回递归;
2)统计对应投影数据集中各项的最小支持度,将满足最小支持度阈值的各单项与当前缀合并,得到新前缀,若不满足最小支持度阈值则递归返回;
3)令i=i+1,前缀为合并单项后的各个新前缀,分别递归执行第(3)步;
(4)返回该用户行为序列集中所有的频繁序列模式。
通过上述方式,可从用户行为序列和用户浏览序列挖掘得到用户的共同行为模式(即频繁序列模式)。
步骤204:通过模式挖掘模型,对用户的频繁序列模式特征进行支持度加权,得到频繁序列模式的加权特征。
通过步骤203挖掘得到的用户的频繁序列模式反映了用户的共同习惯,可在构建推荐模型时更关注这部分加权特征,并对这部分特征进行特殊处理,特殊处理的步骤如下:
1)对强特征特殊变换,包括将重要的特征重复构建,使推荐模型学习倾向于这部分特征;
2)将重要特征进行数值变换,扩大数值范围确保比其他特征的数值范围更大;
3)初始化特征权重将特征进行加权,权重设置为各字段类型对应的频次占比,如最小支持度阈值设置为0.5,若某个字段的各种类型值的频次占比都小于该最小支持度,则将该字段剔除,若字段类型“收藏行为f”出现的频次占比为0.7,那么该字段类型加权权重为0.7;字段类型“浏览序列AaBcA”出现频次占比为0.56,那么该字段类型加权权重为0.56。基于该权重对序列模式特征进行加权,序列模式原始特征即根据上述挖掘的用户行为序列编码特征,数值化表示后进行加权。
步骤205:通过预测模型,对深度特征和加权特征进行融合分类和场景推荐。
在实际应用中,预测模型可包括特征融合层和特征预测层,通过特征融合层将上述得到的深度特征和加权特征进行融合,得到融合特征;在实际应用中,特征预测层包括为全连接层和特征分类层(即分类器),在实际实施时,服务器将获取的深度特征与加权特征的融合特征输入至全连接层,以通过全连接层,调用激活函数得到对应融合特征的隐层特征,通过特征分类层,对得到的隐层特征进行转化率预测,得到预测结果。
这里,可获取预测结果与标注的转化率之间的差异,并基于差异更新推荐模型的模型参数,以完成基于推荐模型的对象推荐。
当利用训练好的推荐模型进行物品推荐时,参见图8,图8为本发明实施例提供的对象推荐方法示意图,如图8所示,将待推荐物品的物品数据和待推荐用户的用户数据输入至训练好的推荐模型中,得到用户物品组合特征及序列模式加权特征,并将用户物品组合特征经CNN或LTSM的深度特征模型得到对应的深度特征,然后将深度特征及加权特征进行特征融合,得到对应的融合特征,将融合特征经全连接层得到对应融合特征的隐层特征,通过分类器,对得到的隐层特征进行转化率预测,得到预测结果,当预测结果表征待推荐用户的转化率值超过概率阈值时,将待推荐物品推荐给待推荐用户,即转化可能性越大的用户越值得推荐。
下面说明软件模块的示例性结构,在一些实施例中,参见图9,图9为本发明实施例提供的基于推荐模型的对象推荐装置555的一个可选的结构示意图,推荐模型包括:特征提取模型、深度特征模型、模式挖掘模型及预测模型,所述装置555包括:
第一特征提取模块5551,用于通过所述特征提取模型,分别对待推荐用户的用户数据及待推荐对象的对象数据进行特征提取,得到所述待推荐用户对应的用户特征及所述待推荐对象的对应的待推荐对象特征;
第二特征提取模块5552,用于通过所述深度特征模型,对所述用户特征及待推荐对象特征的组合特征进行深度特征提取,得到对应的深度特征;
特征确定模块5553,用于通过所述模式挖掘模型,对所述用户特征进行频繁序列模式挖掘,得到对应所述待推荐用户的频繁序列模式的加权特征;
特征预测模块5554,用于通过所述预测模型,将所述深度特征与所述加权特征进行融合,得到对应所述待推荐用户的融合特征,并基于所述融合特征进行转化率预测,得到预测结果;
对象推荐模块5555,用于当所述预测结果表征所述待推荐用户的转化率值超过概率阈值时,将所述待推荐对象推荐给所述待推荐用户;
在一些实施例中,所述通过所述特征提取模型,分别对待推荐用户的用户数据及待推荐对象的对象数据进行特征提取之前,所述装置还包括推荐模型训练模块,
所述推荐模型训练模块,用于通过所述特征提取模型,对标注有转化率的推荐对象样本进行特征提取,得到所述推荐对象样本对应的用户特征及推荐对象特征;
通过所述深度特征模型,对所述用户特征及推荐对象特征的组合特征进行深度特征提取,得到对应的深度特征;
通过所述模式挖掘模型,对所述用户特征进行频繁序列模式挖掘,得到对应所述推荐对象样本的频繁序列模式的加权特征;
通过所述预测模型,将所述深度特征与所述加权特征进行融合,得到对应所述推荐对象样本的融合特征,并基于所述融合特征进行转化率预测,得到预测结果;
获取所述预测结果与标注的所述转化率之间的差异,并基于所述差异,更新所述推荐模型的模型参数。
在一些实施例中,所述特征提取模型包括用于对所述待推荐用户的用户数据及待推荐对象的对象数据进行特征提取的特征提取层和特征拼接层,所述通过所述深度特征模型,对所述待推荐用户特征及待推荐对象特征的组合特征进行深度特征提取之前,
所述第一特征提取模块,还用于通过所述特征拼接层,对所述待推荐用户特征及所述待推荐对象特征进行拼接,得到对应所述待推荐用户及所述待推荐对象的组合特征。
在一些实施例中,所述通过所述深度特征模型,对所述待推荐用户特征及待推荐对象特征的组合特征进行深度特征提取之前,所述装置还包括深度特征训练模块,
所述深度特征训练模块,用于获取标注有目标深度特征的组合特征样本,所述组合特征样本包括对应转化用户的正样本和未转化用户的负样本;
对所述组合特征样本进行特征提取,得到所述组合特征样本对应的用户特征及推荐对象特征;
将所述用户特征及推荐对象特征的组合特征输入至所述深度特征模型中,对所述组合特征样本的组合特征进行深度特征提取,得到对应的预测深度特征;
获取所述目标深度特征与所述预测深度特征的差异,并基于所述差异更新所述深度特征模型的模型参数。
在一些实施例中,所述对所述待推荐用户特征及待推荐对象特征的组合特征进行深度特征提取之前,所述装置还包括预处理模块,
所述预处理模块,用于对所述组合特征进行以下至少之一的预处理操作,以将预处理操作之后的组合特征确定为所述用户特征及推荐对象特征的组合特征:
确定所述组合特征的特征值的缺失数量、以及对应所述组合特征的相同特征值的数量,并将所述缺失数量超过缺失值阈值或所述数量超过相同数量阈值的组合特征进行过滤,得到过滤后的组合特征;
对所述组合特征的特征值进行异常检测,当检测结果表征所述特征值为异常值时,将所述特征值替换成填充特征值,得到包含填充特征值的组合特征;
对所述组合特征进行衍生处理,得到衍生后的组合特征;
将所述组合特征中的连续型特征对应的特征值进行离散处理,得到离散型特征,并将所述离散处理后得到的离散型特征及所述组合特征中的离散型特征,作为对应所述组合推荐对象样本的组合特征。
在一些实施例中,所述特征确定模块,还用于对所述待推荐用户特征进行频繁序列模式挖掘,得到对应所述待推荐用户的多个频繁序列模式;
将各所述频繁序列模式在所述待推荐用户对应的行为序列模式集中的频次占比,确定为相应的所述频繁序列模式的权重,所述行为序列模式集包括至少两种行为序列模式;
基于所述权重,对各所述频繁序列模式的行为序列编码特征进行加权,得到对应所述待推荐用户的频繁序列模式的加权特征。
在一些实施例中,所述特征确定模块,还用于基于所述待推荐用户特征,确定对应所述待推荐用户的行为序列模式集,所述行为序列模式集包括至少两个行为序列模式,所述行为序列模式由对应所述序列样本的多个行为编码特征组合得到;
在所述行为序列模式中,多次选取行为编码特征,并将每次选取的行为编码特征进行组合,获得对应所述行为序列模式的多个不同的行为序列子模式;
其中,每次选取的行为编码特征中均包含归属于不同待推荐用户的行为训练模式中的行为编码特征;
从所述多个不同的行为序列子模式中,选取在所述行为序列模式集中出现频率超过频率阈值的行为序列子模式,并将选取的所述行为序列子模式确定为频繁序列模式。
在一些实施例中,所述特征确定模块,还用于选取单位长度为一的一项行为序列模式前缀,并确定对应于所述一项行为序列模式前缀的投影数据集;
当所述对应于一项行为序列模式前缀的投影数据集不为空时,将出现频率超过所述频率阈值的一项行为序列模式前缀确定为频繁一项特征编码序列;
在所述频繁一项行为序列模式的基础上,依次递增选取的行为序列模式前缀的单位长度,以获得n项行为序列模式前缀;
确定对应于所述n项行为序列模式前缀的投影数据集;
当对应于所述n项行为序列模式前缀的投影数据集为空、且所述n项行为序列模式前缀的出现频率超过所述频率阈值时,将所述n项行为序列模式前缀确定为所述频繁序列模式;
其中,n是取值逐渐递增的自然数,取值范围满足2≤n≤K,K是序列集合中长度最大的行为序列子模式中所包含的行为编码特征的数量。
在一些实施例中,所述特征确定模块,还用于对所述待推荐用户特征进行频繁序列模式挖掘,得到挖掘长度最长的前缀所对应的频繁序列模式;
将所述频繁序列模式在所述待推荐用户对应的行为序列模式集中的频次占比,确定为所述频繁序列模式的权重,所述行为序列模式集包括至少两种行为序列模式;
基于所述权重,对所述频繁序列模式的行为序列编码特征进行加权,确定为对应所述待推荐用户的频繁序列模式的加权特征。
本发明实施例提供一种电子设备,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本发明实施例提供的方法。
本发明实施例提供一种计算机可读存储介质,存储有可执行指令,用于引起处理器执行时,实现本发明实施例提供的方法。
在一些实施例中,存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
综上所述,本发明实施例具有以下有益效果:
1)通过对用户特征进行频繁序列挖掘,得到用户的频繁序列模式加权特征,能够挖掘到用户群体在行为序列模式上的共性特征,解决了相关技术构建特征比较粗糙的问题;
2)通过深度特征模型对用户特征及推荐对象特征进行深度学习,得到用户与推荐对象特征中更有利于对用户的转化率进行预测的深度特征;结合深度特征及加权特征,对用户的转化率进行预测,提高了用户转化率预测的准确度,进而基于预测得到的用户转换概率进行对象推荐,不仅提高了基于推荐模型推荐对象的准确度,还提高了推荐模型的泛化能力。
3)对组合特征进行过滤和填充,能够更好地构建组合特征的强相关特征,可以提高后续基于强相关的组合特征训练得到深度特征模型预测更有利于对用户的转化率进行预测的深度特征的准确性;
4)通过对组合特征进行衍生处理,不仅可以提高组合特征的数量,还可以提高特征之间的粘性,从而可以避免训练获得的深度特征模型及推荐模型出现欠拟合和过拟合的问题;
5)将连续型特征对应的特征值进行离散处理后再进行编码处理,可以减小深度特征模型和推荐模型的时间和空间开销,并且可以提高推荐模型对样本的分类聚类能力和抗噪声能力,并且离散型特征相对于连续型特征更易理解,更加接近知识层面的表述,从而克服用户数据中隐藏的缺陷,使得基于推荐模型的对象推荐结果更加稳定。
以上所述,仅为本发明的实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本发明的保护范围之内。

Claims (10)

1.一种基于推荐模型的对象推荐方法,其特征在于,所述推荐模型包括:特征提取模型、深度特征模型、模式挖掘模型及预测模型,所述方法包括:
通过所述特征提取模型,分别对待推荐用户的用户数据及待推荐对象的对象数据进行特征提取,得到对应的待推荐用户特征及待推荐对象特征;
通过所述深度特征模型,对所述待推荐用户特征及待推荐对象特征的组合特征进行深度特征提取,得到对应的深度特征;
通过所述模式挖掘模型,对所述待推荐用户特征进行频繁序列模式挖掘,得到对应所述待推荐用户的频繁序列模式的加权特征;
通过所述预测模型,将所述深度特征与所述加权特征进行融合,得到对应所述待推荐用户的融合特征,并基于所述融合特征进行转化率预测,得到预测结果;
当所述预测结果表征所述待推荐用户的转化率值超过概率阈值时,将所述待推荐对象推荐给所述待推荐用户。
2.如权利要求1所述的方法,其特征在于,所述通过所述特征提取模型,分别对待推荐用户的用户数据及待推荐对象的对象数据进行特征提取之前,所述方法还包括:
通过所述特征提取模型,对标注有转化率的推荐对象样本进行特征提取,得到所述推荐对象样本对应的用户特征及推荐对象特征;
通过所述深度特征模型,对所述用户特征及推荐对象特征的组合特征进行深度特征提取,得到对应的深度特征;
通过所述模式挖掘模型,对所述用户特征进行频繁序列模式挖掘,得到对应所述推荐对象样本的频繁序列模式的加权特征;
通过所述预测模型,将所述深度特征与所述加权特征进行融合,得到对应所述推荐对象样本的融合特征,并基于所述融合特征进行转化率预测,得到预测结果;
获取所述预测结果与标注的所述转化率之间的差异,并基于所述差异,更新所述推荐模型的模型参数。
3.如权利要求1所述的方法,其特征在于,所述特征提取模型包括用于对所述待推荐用户的用户数据及待推荐对象的对象数据进行特征提取的特征提取层和特征拼接层,
所述通过所述深度特征模型,对所述待推荐用户特征及待推荐对象特征的组合特征进行深度特征提取之前,所述方法还包括:
通过所述特征拼接层,对所述待推荐用户特征及所述待推荐对象特征进行拼接,得到对应所述待推荐用户及所述待推荐对象的组合特征。
4.如权利要求1所述的方法,其特征在于,所述通过所述深度特征模型,对所述待推荐用户特征及待推荐对象特征的组合特征进行深度特征提取之前,所述方法还包括:
获取标注有目标深度特征的组合特征样本,所述组合特征样本包括对应转化用户的正样本和未转化用户的负样本;
对所述组合特征样本进行特征提取,得到所述组合特征样本对应的用户特征及推荐对象特征;
将所述用户特征及推荐对象特征的组合特征输入至所述深度特征模型中,对所述组合特征样本的组合特征进行深度特征提取,得到对应的预测深度特征;
获取所述目标深度特征与所述预测深度特征的差异,并基于所述差异更新所述深度特征模型的模型参数。
5.如权利要求1所述的方法,其特征在于,所述对所述待推荐用户特征及待推荐对象特征的组合特征进行深度特征提取之前,所述方法还包括:
对所述组合特征进行以下至少之一的预处理操作,以将预处理操作之后的组合特征确定为所述待推荐用户特征及待推荐对象特征的组合特征:
确定所述组合特征的特征值的缺失数量、以及对应所述组合特征的相同特征值的数量,并将所述缺失数量超过缺失值阈值或所述数量超过相同数量阈值的组合特征进行过滤,得到过滤后的组合特征;
对所述组合特征的特征值进行异常检测,当检测结果表征所述特征值为异常值时,将所述特征值替换成填充特征值,得到包含填充特征值的组合特征;
对所述组合特征进行衍生处理,得到衍生后的组合特征;
将所述组合特征中的连续型特征对应的特征值进行离散处理,得到离散型特征,并将所述离散处理后得到的离散型特征及所述组合特征中的离散型特征,作为对应的组合特征。
6.如权利要求1所述的方法,其特征在于,所述对所述待推荐用户特征进行频繁序列模式挖掘,得到对应所述待推荐用户的频繁序列模式的加权特征,包括:
对所述待推荐用户特征进行频繁序列模式挖掘,得到对应所述待推荐用户的多个频繁序列模式;
将各所述频繁序列模式在所述待推荐用户对应的行为序列模式集中的频次占比,确定为相应的所述频繁序列模式的权重,所述行为序列模式集包括至少两种行为序列模式;
基于所述权重,对各所述频繁序列模式的行为序列编码特征进行加权,得到对应所述待推荐用户的频繁序列模式的加权特征。
7.如权利要求6所述的方法,其特征在于,所述对所述待推荐用户特征进行频繁序列模式挖掘,得到对应所述待推荐用户的多个频繁序列模式,包括:
基于所述待推荐用户特征,确定对应所述待推荐用户的行为序列模式集,所述行为序列模式集包括至少两个行为序列模式,所述行为序列模式由对应所述序列样本的多个行为编码特征组合得到;
在所述行为序列模式中,多次选取行为编码特征,并将每次选取的行为编码特征进行组合,获得对应所述行为序列模式的多个不同的行为序列子模式;
其中,每次选取的行为编码特征中均包含归属于不同待推荐用户的行为训练模式中的行为编码特征;
从所述多个不同的行为序列子模式中,选取在所述行为序列模式集中出现频率超过频率阈值的行为序列子模式,并将选取的所述行为序列子模式确定为频繁序列模式。
8.如权利要求7所述的方法,其特征在于,选取在所述行为序列模式集中出现频率超过频率阈值的行为序列子模式,并将选取的所述行为序列子模式确定为频繁序列模式,包括:
选取单位长度为一的一项行为序列模式前缀,并确定对应于所述一项行为序列模式前缀的投影数据集;
当所述对应于一项行为序列模式前缀的投影数据集不为空时,将出现频率超过所述频率阈值的一项行为序列模式前缀确定为频繁一项特征编码序列;
在所述频繁一项行为序列模式的基础上,依次递增选取的行为序列模式前缀的单位长度,以获得n项行为序列模式前缀;
确定对应于所述n项行为序列模式前缀的投影数据集;
当对应于所述n项行为序列模式前缀的投影数据集为空、且所述n项行为序列模式前缀的出现频率超过所述频率阈值时,将所述n项行为序列模式前缀确定为所述频繁序列模式;
其中,n是取值逐渐递增的自然数,取值范围满足2≤n≤K,K是序列集合中长度最大的行为序列子模式中所包含的行为编码特征的数量。
9.如权利要求1所述的方法,其特征在于,所述对所述待推荐用户特征进行频繁序列模式挖掘,得到对应所述待推荐对象的频繁序列模式的加权特征,包括:
对所述待推荐用户特征进行频繁序列模式挖掘,得到挖掘长度最长的前缀所对应的频繁序列模式;
将所述频繁序列模式在所述待推荐用户对应的行为序列模式集中的频次占比,确定为所述频繁序列模式的权重,所述行为序列模式集包括至少两种行为序列模式;
基于所述权重,对所述频繁序列模式的行为序列编码特征进行加权,确定为对应所述待推荐用户的频繁序列模式的加权特征。
10.一种基于推荐模型的推荐装置,其特征在于,所述推荐模型包括:特征提取模型、深度特征模型、模式挖掘模型及预测模型,所述装置包括:
第一特征提取模块,用于通过所述特征提取模型,分别对待推荐用户的用户数据及待推荐对象的对象数据进行特征提取,得到所述待推荐用户对应的用户特征及所述待推荐对象的对应的待推荐对象特征;
第二特征提取模块,用于通过所述深度特征模型,对所述用户特征及待推荐对象特征的组合特征进行深度特征提取,得到对应的深度特征;
特征确定模块,用于通过所述模式挖掘模型,对所述用户特征进行频繁序列模式挖掘,得到对应所述待推荐用户的频繁序列模式的加权特征;
特征预测模块,用于通过所述预测模型,将所述深度特征与所述加权特征进行融合,得到对应所述待推荐用户的融合特征,并基于所述融合特征进行转化率预测,得到预测结果;
推荐模块,用于当所述预测结果表征所述待推荐用户的转化率值超过概率阈值时,将所述待推荐对象推荐给所述待推荐用户。
CN202010556449.1A 2020-06-17 2020-06-17 基于推荐模型的对象推荐方法及装置 Pending CN111709810A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010556449.1A CN111709810A (zh) 2020-06-17 2020-06-17 基于推荐模型的对象推荐方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010556449.1A CN111709810A (zh) 2020-06-17 2020-06-17 基于推荐模型的对象推荐方法及装置

Publications (1)

Publication Number Publication Date
CN111709810A true CN111709810A (zh) 2020-09-25

Family

ID=72541181

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010556449.1A Pending CN111709810A (zh) 2020-06-17 2020-06-17 基于推荐模型的对象推荐方法及装置

Country Status (1)

Country Link
CN (1) CN111709810A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112107866A (zh) * 2020-09-28 2020-12-22 腾讯科技(深圳)有限公司 用户行为数据处理方法、装置、设备及存储介质
CN112395499A (zh) * 2020-11-03 2021-02-23 腾讯科技(深圳)有限公司 信息推荐方法及装置、电子设备、存储介质
CN112507216A (zh) * 2020-12-01 2021-03-16 北京奇艺世纪科技有限公司 一种数据对象推荐方法、装置、设备和存储介质
CN112862007A (zh) * 2021-03-29 2021-05-28 山东大学 基于用户兴趣编辑的商品序列推荐方法及系统
CN113327133A (zh) * 2021-06-15 2021-08-31 北京百度网讯科技有限公司 数据推荐方法、数据推荐装置、电子设备及可读存储介质
CN113378067A (zh) * 2021-07-13 2021-09-10 深圳前海微众银行股份有限公司 基于用户挖掘的消息推荐方法、设备、介质及程序产品
CN113610582A (zh) * 2021-08-16 2021-11-05 脸萌有限公司 广告推荐方法、装置、存储介质及电子设备
CN113807469A (zh) * 2021-11-16 2021-12-17 中国科学院理化技术研究所 一种多能源用户价值预测方法、装置、存储介质和设备
CN114117235A (zh) * 2021-12-07 2022-03-01 绥化市纯互联网商务有限公司 采用人工智能分析的电商内容推送方法及电商大数据系统
CN115909591A (zh) * 2023-01-06 2023-04-04 北京国旺盛源智能终端科技有限公司 一种基于积分兑换柜的货物售卖管理方法、系统、设备
WO2023227012A1 (zh) * 2022-05-26 2023-11-30 卡奥斯工业智能研究院(青岛)有限公司 产品数据处理方法、装置及存储介质

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112107866A (zh) * 2020-09-28 2020-12-22 腾讯科技(深圳)有限公司 用户行为数据处理方法、装置、设备及存储介质
CN112395499B (zh) * 2020-11-03 2022-08-12 腾讯科技(深圳)有限公司 信息推荐方法及装置、电子设备、存储介质
CN112395499A (zh) * 2020-11-03 2021-02-23 腾讯科技(深圳)有限公司 信息推荐方法及装置、电子设备、存储介质
CN112507216A (zh) * 2020-12-01 2021-03-16 北京奇艺世纪科技有限公司 一种数据对象推荐方法、装置、设备和存储介质
CN112862007A (zh) * 2021-03-29 2021-05-28 山东大学 基于用户兴趣编辑的商品序列推荐方法及系统
CN113327133A (zh) * 2021-06-15 2021-08-31 北京百度网讯科技有限公司 数据推荐方法、数据推荐装置、电子设备及可读存储介质
CN113378067A (zh) * 2021-07-13 2021-09-10 深圳前海微众银行股份有限公司 基于用户挖掘的消息推荐方法、设备、介质及程序产品
CN113610582A (zh) * 2021-08-16 2021-11-05 脸萌有限公司 广告推荐方法、装置、存储介质及电子设备
CN113807469A (zh) * 2021-11-16 2021-12-17 中国科学院理化技术研究所 一种多能源用户价值预测方法、装置、存储介质和设备
CN114117235A (zh) * 2021-12-07 2022-03-01 绥化市纯互联网商务有限公司 采用人工智能分析的电商内容推送方法及电商大数据系统
WO2023227012A1 (zh) * 2022-05-26 2023-11-30 卡奥斯工业智能研究院(青岛)有限公司 产品数据处理方法、装置及存储介质
CN115909591A (zh) * 2023-01-06 2023-04-04 北京国旺盛源智能终端科技有限公司 一种基于积分兑换柜的货物售卖管理方法、系统、设备
CN115909591B (zh) * 2023-01-06 2023-05-05 北京国旺盛源智能终端科技有限公司 一种基于积分兑换柜的货物售卖管理方法、系统、设备

Similar Documents

Publication Publication Date Title
CN111709810A (zh) 基于推荐模型的对象推荐方法及装置
CN112182412B (zh) 用于推荐体检项目的方法、计算设备和计算机存储介质
CN110837598B (zh) 信息推荐方法、装置、设备及存储介质
KR101871747B1 (ko) 유사성향 기반 사용자-관광상품 추천 방법 및 시스템
CN102737333B (zh) 用于计算用户和要约到微小细分的匹配的顺序引擎
CN111461841B (zh) 物品推荐方法、装置、服务器及存储介质
CN102737334B (zh) 微细分定义系统
CN113626719A (zh) 信息推荐方法、装置、设备、存储介质及计算机程序产品
Sılahtaroğlu et al. Analysis and prediction of Ε-customers' behavior by mining clickstream data
CN106327227A (zh) 一种信息推荐系统及信息推荐方法
KR102122608B1 (ko) 블록체인 간편결제 플랫폼 기반 o2o 소비패턴 맞춤형 상점 노출 서비스 제공 방법
Wei et al. Web 2.0 Recommendation service by multi-collaborative filtering trust network algorithm
CN113256367B (zh) 用户行为历史数据的商品推荐方法、系统、设备及介质
CN111400613A (zh) 物品推荐方法、装置、介质及计算机设备
CN113505311B (zh) 一种可根据“潜在语义空间”的旅游景点交互推荐方法
CN112150227A (zh) 商品推荐方法、系统、设备及介质
CN111429161A (zh) 特征提取方法、特征提取装置、存储介质及电子设备
Sun et al. Leveraging friend and group information to improve social recommender system
KR20130033506A (ko) 아이템 추천 방법 및 장치
Yu et al. NGPR: A comprehensive personalized point-of-interest recommendation method based on heterogeneous graphs
CN111784384B (zh) 支付业务数据处理方法、装置、设备及系统
CN111460300B (zh) 网络内容推送方法、装置及存储介质
Tsafarakis et al. Applications of MCDA in Marketing and e-Commerce
CN116109354A (zh) 内容推荐方法、装置、设备、存储介质及计算机程序产品
Agarwal et al. Binarized spiking neural networks optimized with Nomadic People Optimization-based sentiment analysis for social product recommendation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination