CN111611488A - 基于人工智能的信息推荐方法、装置、电子设备 - Google Patents

基于人工智能的信息推荐方法、装置、电子设备 Download PDF

Info

Publication number
CN111611488A
CN111611488A CN202010435593.XA CN202010435593A CN111611488A CN 111611488 A CN111611488 A CN 111611488A CN 202010435593 A CN202010435593 A CN 202010435593A CN 111611488 A CN111611488 A CN 111611488A
Authority
CN
China
Prior art keywords
information
feature
features
logistic regression
click rate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010435593.XA
Other languages
English (en)
Other versions
CN111611488B (zh
Inventor
张晗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010435593.XA priority Critical patent/CN111611488B/zh
Publication of CN111611488A publication Critical patent/CN111611488A/zh
Application granted granted Critical
Publication of CN111611488B publication Critical patent/CN111611488B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Abstract

本发明提供了一种基于人工智能的信息推荐方法、装置、电子设备及计算机可读存储介质;方法包括:获取第一信息集合中每个信息的逻辑回归特征;基于所述第一信息集合中每个信息的逻辑回归特征,预测对应的第一点击率,并从所述第一点击率的降序排序结果中选取排序在前的多个信息,以形成第二信息集合;基于所述第二信息集合中每个信息的多个逻辑回归特征、以及所述多个逻辑回归特征之间的关联关系,预测对应的第二点击率,并基于所述第二点击率的降序排序结果执行推荐操作。通过本发明,能够减少特征工程复杂度并提高推荐响应速度。

Description

基于人工智能的信息推荐方法、装置、电子设备
技术领域
本发明涉及人工智能技术,尤其涉及一种基于人工智能的信息推荐方法、装置、电子设备及计算机可读存储介质。
背景技术
人工智能(AI,Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统。
信息推荐是人工智能的重要应用,推荐系统中的排序模块通常是基于机器学习模型预测点击率并排序,将评分高的作为优先推荐的对象。相关技术中为了提高为机器学习模型的点击率预测精度进行了各种努力,例如在特征工程阶段构建大量的特征数据以使机器学习模型进行充分学习,特征数据的匮乏将影响点击率预测精度进而影响信息推荐的精度。
从而,特征数据的匮乏与信息推荐的精度之间的矛盾成为相关技术中难以解决的技术问题。
发明内容
本发明实施例提供一种基于人工智能的信息推荐方法、装置、电子设备及计算机可读存储介质,能够以复用的特征数据进行精确地点击率预测,从而保证信息推荐的精度。
本发明实施例的技术方案是这样实现的:
本发明实施例提供一种基于人工智能的信息推荐方法,包括:
获取第一信息集合中每个信息的逻辑回归特征;
基于所述第一信息集合中每个信息的逻辑回归特征,预测对应的第一点击率,并
从所述第一点击率的降序排序结果中选取排序在前的多个信息,以形成第二信息集合;
基于所述第二信息集合中每个信息的多个逻辑回归特征、以及所述多个逻辑回归特征之间的关联关系,预测对应的第二点击率,并基于所述第二点击率的降序排序结果执行推荐操作。
本发明实施例提供一种基于人工智能的信息推荐装置,包括:
特征获取模块,用于获取第一信息集合中每个信息的逻辑回归特征;
第一点击率预测模块,用于基于所述第一信息集合中每个信息的逻辑回归特征,预测对应的第一点击率,并
从所述第一点击率的降序排序结果中选取排序在前的多个信息,以形成第二信息集合;
推荐模块,用于基于所述第二信息集合中每个信息的多个逻辑回归特征、以及所述多个逻辑回归特征之间的关联关系,预测对应的第二点击率,并基于所述第二点击率的降序排序结果执行推荐操作。
在上述方案中,所述特征获取模块,还用于:
针对所述第一信息集合中的每个信息执行以下处理:
从逻辑回归模型的特征数据库中,查询与所述信息的特征数据对应的逻辑回归特征;其中,所述逻辑回归模型用于基于所述逻辑回归特征预测所述信息的第一点击率;
当所述信息的特征数据是对应所述逻辑回归模型的特征数据,且从所述逻辑回归模型的特征数据库中未查询到所述特征数据时,将所述特征数据的特征值转化为特征索引,并将所述特征索引进行哈希处理,得到特征索引编码;
将所述特征数据的特征名称进行哈希处理得到特征名称编码,并将所述特征名称编码以及所述特征索引编码进行组合,得到所述信息的逻辑回归特征。
在上述方案中,所述推荐模块,还用于:
针对所述第二信息集合中每个信息执行以下处理:
将所述信息的多个逻辑回归特征进行不同方式地组合,其中,每次所述组合所使用的逻辑回归特征部分不同或完全不同,以形成所述信息的多个组合特征;
以所述信息的每个所述组合特征的点击率影响因子为权重参数,将所述信息的每个所述组合特征加权求和处理,得到所述信息的第二点击率;
其中,所述组合特征的点击率影响因子是所述组合特征所包括的逻辑回归特征的点击率关联影响因子的乘积。
在上述方案中,所述推荐模块,还用于:
针对所述第二信息集合中的每个信息执行以下处理:
获取所述信息的附加特征,且所述附加特征与点击用户相关;
将所述信息的多个逻辑回归特征、以及多个附加特征进行不同方式地组合,其中,每次所述组合使用所述逻辑回归特征和/或所述附加特征,且每次组合使用的所述逻辑回归特征和/或所述附加特征部分不同或完全不同,以形成所述信息的多个组合特征;
基于所述信息的每个所述组合特征的权重参数,将所述信息的每个所述组合特征加权求和处理,得到所述信息的第二点击率;
其中,所述组合特征的权重参数是所述组合特征所包括的逻辑回归特征和/ 或所述附加特征的点击率关联影响因子的乘积。
在上述方案中,其特征在于,所述信息的附加特征的类型包括一阶特征和多阶特征;所述推荐模块,还用于:
获取所述信息的点击用户的多个维度的用户特征,并将每个所述维度的用户特征作为所述一阶特征;
通过以下组合方式至少之一得到所述多阶特征:
将所述点击用户的至少一个维度的用户特征与所述信息的至少一个维度相关的特征组合;将所述点击用户的至少一个维度的用户特征与环境相关的至少一个维度的特征组合。
在上述方案中,所述推荐模块,还用于:执行以下至少之一:
将至少两个不同的所述逻辑回归特征进行相乘处理,将得到的相乘结果作为对应的组合特征;
将至少一个所述逻辑回归特征和至少一个所述附加特征进行相乘处理,将得到的相乘结果作为对应的组合特征;
将至少两个不同的所述附加特征进行相乘处理,将得到的相乘结果作为对应的组合特征。
在上述方案中,所述所述推荐模块,还用于:
以所述信息的每个所述组合特征的点击率影响因子为权重参数,对所述信息的每个所述组合特征进行加权求和处理,得到第一加权求和结果;
以所述多个逻辑回归特征以及所述多个附加特征分别对应的点击率影响因子为权重参数,对所述多个逻辑回归特征以及所述多个附加特征进行加权求和处理,得到第二加权求和结果;
将所述第一加权求和结果和所述第二加权求和结果的加和进行偏置处理,得到所述信息的第二点击率。
在上述方案中,所述第一点击率预测模块,还用于:
针对所述第一信息集合中的每个信息执行以下处理:
以所述信息的多个所述逻辑回归特征分别对应的点击率影响因子为权重,对多个所述逻辑回归特征进行加权求和处理;
对加权求和处理结果进行偏置处理,得到对应所述信息的第一点击率。
在上述方案中,所述第一点击率预测模块,还用于:
将所述第一信息集合中第一点击率最高的信息转移到第二信息集合,以作为所述第二信息集合中的首个信息;
当所述第二信息集合中的信息的数目小于信息数目阈值时,针对所述第一信息集合中第一点击率最高的信息,执行以下处理:
确定所述第一信息集合中第一点击率最高的信息与所述首个信息之间的语义距离;
当所述语义距离大于语义距离阈值时,将所述第一点击率最高的信息从所述第一信息集合转移到所述第二信息集合,并更新为所述第二信息集合中的首个信息。
在上述方案中,所述第二点击率的预测是通过调用因子分解机模型实现的;所述装置还包括:训练模块,用于在获取第一信息集合中每个信息的逻辑回归特征之前:
将窗口时间内的点击日志、展示日志以及特征日志合并成推荐日志,并从所述推荐日志中获取信息样本以及对应的真实第二点击率;
对所获取的信息样本的多个逻辑回归特征以及多个附加特征进行基于特征频次的过滤处理,得到对应所述信息样本的训练特征;
将所述信息样本的训练特征,在所述因子分解机模型中进行正向传播,并在所述因子分解机模型中进行反向传播,以基于所述真实第二点击率更新所述因子分解机模型的点击率影响因子和点击率关联影响因子。
在上述方案中,所述训练模块,还用于:
确定所述多个逻辑回归特征以及所述多个附加特征的对应的特征频次;
将特征频次超过特征频次阈值的特征转移至正式特征集合,将所述正式特征集合中包括的训练特征作为所述信息样本的训练特征;
当特征频次不超过所述特征频次阈值的特征转移至淘汰特征集合;
当所述正式特征集合的累积未更新时长超出时长阈值内,将所述正式特征池的中的特征从所述正式特征集合转移至所述淘汰特征集合。
在上述方案中,所述训练模块,还用于:
初始化所述因子分解机模型,并执行以下处理:
将每个所述信息样本的训练特征在所述因子分解机模型的各个层中进行正向传播,以得到对应所述信息样本的预测的第二点击率;
初始化包括所述信息样本的训练特征以及对应所述信息样本的预测的第二点击率的损失函数;
确定所述信息样本的预测的第二点击率和所述真实第二点击率之间的误差,并根据所述损失函数在所述因子分解机模型中反向传播所述误差,以
确定所述损失函数取得最小值时所述因子分解机模型的变化值,并基于所述变化值更新所述因子分解机模型的点击率影响因子和点击率关联影响因子。
本发明实施例提供一种电子设备,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本发明实施例提供的基于人工智能的信息推荐方法。
本发明实施例提供一种计算机可读存储介质,存储有可执行指令,用于被处理器执行时,实现本发明实施例提供的基于人工智能的信息推荐方法。
本发明实施例具有以下有益效果:
将逻辑回归特征用于第一点击率预测,并在进行第二点击率的预测时复用同样的特征以及对应的关联关系,减少了不同阶段预测中所需要进行多次特征工程所带来的工作量,从而实现了特征数据的复用,分阶段点击率预测的方式,相比于对大量信息进行一次性点击率效率更高,且第二点击率预测时引入关联关系作为影响因素,从而基于第一点击率和第二点击率能够对信息进行全面的排序,保证了信息推荐精度。
附图说明
图1是本发明实施例提供的基于人工智能的信息推荐系统的架构示意图;
图2是本发明实施例提供的应用基于人工智能的信息推荐方法的服务器20 0的结构示意图;
图3A是本发明实施例提供的基于人工智能的信息推荐方法的整体模型结构图;
图3B是本发明实施例提供的基于人工智能的信息推荐方法的逻辑回归模型结构示意图;
图3C是本发明实施例提供的基于人工智能的信息推荐方法的因子分解机模型结构示意图;
图4A-4E是本发明实施例提供的基于人工智能的信息推荐方法的流程示意图;
图5是本发明实施例提供的基于人工智能的信息推荐方法的产品示意图;
图6是本发明实施例提供的基于人工智能的信息推荐方法的整体架构图;
图7是本发明实施例提供的基于人工智能的信息推荐方法的整体框架图;
图8是本发明实施例提供的基于人工智能的信息推荐方法中特征工程体系示意图;
图9是本发明实施例提供的基于人工智能的信息推荐方法的离线训练架构图;
图10是本发明实施例提供的基于人工智能的信息推荐方法的特征管理示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,所描述的实施例不应视为对本发明的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本发明实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的,不是旨在限制本发明。
对本发明实施例进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。
1)单特征,又称为一阶特征,是信息的任意一个维度的特征,例如用户维度的职业,环境维度的访问时间,信息维度的文章样式等。
2)组合特征,也称为交叉特征或高阶特征(其中阶数表示所组合的单特征的数量),由两个或两个以上的单特征组合形成。例如,用户维度的职业与环境维度的访问时间组合形成二阶特征,当然,组合特征与组合特征/单特征也可以组合为新的组合特征。
3)逻辑回归特征,是基于逻辑回归模型预测信息的点击率(本文中也称为第一点击率)时所使用的特征,包括单特征和组合特征。
4)附加特征,用于基于信息的逻辑回归特征调用因子分解机(FM, FactorizationMachine)模型预测信息的点击率(本文中也称为第二点击率)时所使用的特征,用于在预测信息的第二点击率时作为信息的逻辑回归特征的补充,包括单特征和组合特征。
以信息推荐系统为看点推荐系统为例,个性化推荐的点击率预估中使用的是逻辑回归(LR,Logistic Regression)模型,并且逻辑回归(LR,Logistic Regression)模型已经取得了工业上的运用,LR模型是解决工业规模问题最流行的算法,在工业应用上,如果需要分类的数据拥有很多有意义的特征,每个特征都对最后的分类结果有或多或少的影响,那么一种方案是将这些特征线性加权,一起参与到决策过程中,即为LR模型,其主要有如下优点:
1、适合需要得到一个分类概率的场景,输出值落到0-1之间,具有概率意义;2、计算代价低,容易理解实现,模型结构清晰,时间、内存需求上高效,可用于分布式数据,可用较少数据来处理大型数据;3、参数代表每个特征对点击率预测的影响,可解释性强;4、解决过拟合的方法很多,例如采取L1、L2 正则化的方式。
其主要有如下缺点:1、泛化能力弱,无法进行特征的自动交叉,需要手工指定大量的交叉特征;2、数据特征有缺失时表现效果并不好,本质上是一个线性的分类器,所以处理不好特征之间相关的情况;3、准确率并不是很高,因为其形式简单,非常类似线性模型,很难去拟合数据的真实分布;4、随着特征的不断深入,提升空间越来越小;从下面表1可以看出,日特征数从10亿提升至 50亿的时候样本排序能力的指标AUC提升了1%,日特征数从50亿提升至100 亿的时候,样本排序能力的指标AUC只提升了0.5%。
日特征数目 10亿 50亿 100亿
样本排序能力 0.740 0.750 0.755
表1逻辑回归模型样本排序能力随日特征量变化表
逻辑回归模型存在的泛化能力弱、需要大量手工特征工程、拟合准确率低等问题等问题,因子分解机模型能够建模点击率预估,将离散特征向量化,使得特征进行自动交叉,提升了模型的泛化能力和拟合能力,有效的解决了高维数据特征组合的稀疏问题,提升了预测精度和计算效率,但是在发明实施例中发现训练因子分解机模型的过程需要进行大量的特征工程,以及应用因子分解机模型的过程中,通过因子分解机模型对大量的召回信息进行一次性点击率预测需要耗费较长时间。
为解决上述技术问题,本发明实施例提供了一种基于人工智能的信息推荐方法,基于LR模型以及FM模型的文章排序方法,例如,在一些实施例中,通过使用FM模型建模点击率预估,将离散特征向量化使得特征进行自动交叉,提升了模型的泛化能力和拟合能力,有效的解决了高维数据特征组合的稀疏问题,提升了预测精度和计算效率,通过将逻辑回归特征复用于第一点击率预测以及第二点击率预测,从而减少了不同阶段预测中所需要进行重复特征工程所带来的工作量,从而减轻了开发者负担,通过进行分阶段点击率预测的方式,相比于对大量信息进行一次性点击率预测需要耗费较长时间,减少了推荐响应时间。
首先通过LR模型对召回的文章(第一信息集合中的信息)进行第一点击率预测,将所有召回文章进行降序排序以及头部信息转移,以形成第二信息集合,接着通过FM模型对第二信息集合中的信息进行第二点击率预测,然后基于第二点击率对第二信息集合中的信息进行降序排序,以按照降序排序结果执行推荐操作。
本发明实施例提供一种基于人工智能的信息推荐方法、装置、电子设备和计算机可读存储介质,能够实现减少特征工程复杂度并提高推荐响应速度的技术效果,下面说明本发明实施例提供的电子设备的示例性应用,本发明实施例提供的电子设备可以实施为服务器。下面,将说明设备实施为服务器时示例性应用。
参见图1,图1是本发明实施例提供的基于人工智能的信息推荐系统的架构示意图,这里的信息推荐系统可以用于支撑各种信息的推荐场景,例如对新闻进行推荐的应用场景,对商品进行推荐的应用场景、对视频进行推荐的应用场景等等,根据应用场景不同,信息可以为新闻、实际商品、视频文章、图文等等,在用户使用客户端的过程中,终端400将收集到的用户针对信息的互动行为上报至服务器200,作为训练样本数据以及对应于该用户的用户画像和用户特征,训练样本数据是来自于各个终端上报的不同用户的行为数据,基于这些行为数据进行LR模型的训练,用户画像和用户特征是对应某一用户的终端所反馈得到的,LR模型基于用户特征、信息特征以及环境特征,预测信息的第一点击率,将所有召回文章进行第一点击率的降序排序以及头部信息转移,以形成第二信息集合,这里的头部信息可以为第一信息集合中排序靠前的200条信息,这里头部信息的数目可以为第二信息集合的信息数目,或者是第一信息集合的信息数目与转移比例的乘积,接着通过FM模型预测第二信息集合中信息的第二点击率,然后基于第二点击率对第二信息集合中的信息进行降序排序,按照降序排序结果执行推荐操作。
下面介绍信息推荐系统的具体架构,终端400通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合,响应于接收到终端400的推荐信息请求,服务器200中的特征获取模块2551获取信息数据库500 中信息的逻辑回归特征,服务器200中的第一点击率预测模块2552使用LR模型预测信息的第一点击率,并对第一信息集合中的信息进行基于第一点击率的降序排序,并将头部信息转移至第二信息集合,通过推荐模块2553调用因子分解机模型预测第二信息集合中的信息的第二点击率并进行第二点击率的降序排序,以推荐给用户,并在用户所使用的终端400上呈现,包含信息曝光和点击率等数据的日志将被实时上报到推荐系统,作为生成用户实时特征以及信息实时特征的训练样本,来训练LR模型以及FM模型。
参见图2,图2是本发明实施例提供的应用基于人工智能的信息推荐方法的服务器200的结构示意图,图2所示的服务器200包括:至少一个处理器21 0、存储器250和至少一个网络接口220。服务器200中的各个组件通过总线系统240耦合在一起。可理解,总线系统240用于实现这些组件之间的连接通信。总线系统240除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统240。
处理器210可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
存储器250可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器250可选地包括在物理位置上远离处理器210的一个或多个存储设备。
存储器250包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(RAM,Random Access Memory)。本发明实施例描述的存储器250旨在包括任意适合类型的存储器。
在一些实施例中,存储器250能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统251,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块252,用于经由一个或多个(有线或无线)网络接口220到达其他计算设备,示例性的网络接口220包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等。
在一些实施例中,本发明实施例提供的基于人工智能的信息推荐装置可以采用软件方式实现,图2示出了存储在存储器250中的基于人工智能的信息推荐装置255,包括了信息推荐系统的多个模块,模块可以是程序和插件等形式的软件,包括以下软件模块:特征获取模块2551、第一点击率预测模块2552、推荐模块2553以及训练模块2554,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分,将在下文中说明各个模块的功能。
将结合本发明实施例提供的信息推荐系统的示例性应用和实施,说明本发明实施例提供的基于人工智能的信息推荐方法,这里的信息推荐系统包括训练阶段以及应用阶段,首先对本发明实施例提供的基于人工智能的信息推荐方法中所使用的模型以及各模型所进行的训练进行说明。
在本发明实施例提供的信息推荐系统中涉及到两个需要进行训练的模型,分别是LR模型以及FM模型。
参见图3A,图3A是本发明实施例提供的基于人工智能的信息推荐方法的整体模型结构图,整体模型中包括LR模型以及FM模型,首先,针对于第一信息集合中的每个信息,LR模型接收与信息相关的用户数据、信息数据以及环境数据,预测第一信息集合中每个信息的第一点击率,接着通过FM模型对从第一点击率的降序排序结果中选取的排序在前的多个信息进行点击率预测,得到每个信息的第二点击率,这里所选取的排序在前的多个信息组成第二信息集合,同样的,FM模型基于与第二信息集合中信息相关的用户数据、信息数据以及环境数据,预测第二信息集合中每个信息的第二点击率,最后从FM模型中输出每个信息的第二点击率,从而根据第二点击率的降序排序结果对第二信息集合执行推荐操作。
参见图3B,图3B是本发明实施例提供的基于人工智能的信息推荐方法的逻辑回归模型结构示意图,LR模型包括特征获取层,用于获取各种类型的稀疏特征(视频标签、用户年龄等等),还包括逻辑回归层,用于对获取的各种类型的稀疏特征进行线性逻辑回归处理,这里的线性逻辑回归处理可以是线性加和处理,也可以是对线性加和结果代入逻辑回归函数,相关技术中的批量算法无法有效地处理超大规模的数据集和在线数据流,FTRL(Follow-the-regularize d-Leader)算法在处理诸如逻辑回归之类的带非光滑正则化项的凸优化问题上性能非常出色,因此采用FTRL算法进行训练迭代。
参见图3C,图3C是本发明实施例提供的基于人工智能的信息推荐方法的 FM模型结构示意图,FM模型包含了稀疏特征层、稠密表示层、因子分解机层、输出单元,图3B-3C中的圆点表示神经元,字段i、字段j和字段m(field i、 field j和field m)代表不同的特征类别,例如性别特征与年龄特征采用不同的字段表示,连线有虚线和实线的区别,虚线箭头表示权重为1,实线连接线表示存在需要进行训练的权重。加权处理(Addition)即为普通的线性加权相加,点积操作(Inner Product)即为因子分解机的二阶项隐向量两两相乘的部分,通过因子分解机的输出单元中的Sigmoid激活函数得到输出结果。在训练过程中,主要对以下参数进行更新,因子分解机中对应各个特征的点击率影响因子,各个特征的隐向量(点击率关联影响因子),需要说明的是在更新因子分解机的参数时,不需要训练组合特征的权重,因为需要组合特征的两个样本值同时有值时才能使组合特征的权重得到训练,但是组合特征样本较少,这样的训练方式很难使组合特征的权重得到充分训练,通过因子分解机,可以使用隐向量 v来表达每个输入的特征值,标记为v,并且通过两个特征的v求内积,其结果可以等同于组合特征的权重,通过隐向量v表示特征的方式优点是,组合特征不需要保证两个特征均有值才能使v得到训练,每个包含有值特征x的样本,都能使之对应的隐向量v得到训练。
在一些实施例中,第二点击率的预测是通过调用因子分解机模型实现的;因子分解机模型的训练过程如下,将窗口时间内的点击日志、展示日志以及特征日志合并成推荐日志,并从推荐日志中获取信息样本以及对应的真实第二点击率;对所获取的信息样本的多个逻辑回归特征以及多个附加特征进行基于特征频次的过滤处理,得到对应信息样本的训练特征;将信息样本的训练特征,在因子分解机模型中进行正向传播,并在因子分解机模型中进行反向传播,以基于真实第二点击率更新因子分解机模型的点击率影响因子以及点击率关联影响因子。
在一些实施例中,通过调用因子分解机模型进行第二点击率预测,因子分解机模型的训练采取随机梯度下降的方式,因子分解机模型公式具有可导的特性,可以用不同的损失函数来训练FM模型,因子分解机模型的参数值可以按照线性时间复杂度计算出来,因子分解机模型的目标函数如公式(1):
Figure RE-GDA0002540906450000141
其中,v的值由模型训练本身产生,分量vi的点积就是两个特征的融合参数, x为特征,y为计算得到的点击率,w为特征的点击率影响因子,为了简化计算,降低计算复杂度,可以对二阶项做简化处理,如公式(2)所示:
Figure RE-GDA0002540906450000142
经过上述变化之后,二次项部分的时间复杂度从O(kn2)变成了O(kn),因此FM模型可以在线性时间内对新样本进行求导,经过上述分解后,因子分解机模型也可使用随机梯度下降法进行求解,参见公式(3):
Figure RE-GDA0002540906450000143
从上式可知,vj,f的训练只需要样本xi的特征非0即可,故而适用于稀疏数据,隐向量vi是特征xi的低维稠密表达,其长度远远小于特征维度N。因子分解机模型学到的隐向量可以看作是特征的嵌入压缩表示,把离散特征转化为稠密特征。
在一些实施例中,上述对所获取的信息样本的多个逻辑回归特征以及多个附加特征进行基于特征频次的过滤处理,得到对应信息样本的训练特征,可以通过以下技术方案实现:确定多个逻辑回归特征以及多个附加特征的对应的特征频次;将特征频次超过特征频次阈值的特征转移至正式特征集合,将正式特征集合中包括的训练特征作为信息样本的训练特征;还可以实施以下技术方案,当特征频次不超过特征频次阈值的特征转移至淘汰特征集合;当正式特征集合的累积未更新时长超出时长阈值内,将正式特征池的中的特征从正式特征集合转移至淘汰特征集合。
作为示例,多个逻辑回归特征以及多个附加特征首先进入候选特征集合,根据特征频次进行特征准入的判断,例如,这里的特征频次可以为100,则出现了100次及以上的特征才能进入正式特征集合,只有正式特征集合中的特征被作为训练特征,用于进行因子分解机模型训练,在需要导出模型时,将最近一段时间内没有更新的特征进行过期处理,转移到淘汰特征集合,这里的最近一段时间即为时长阈值,通过上述方式对模型的大小进行了有效的控制,例如,在一些实施例中,仅保留头部2亿个特征,控制离线模型8G-9G,离线训练得到的因子分解机模型每60分钟导出一次并推送线上环境,同时将训练的二进制文件存储到分布式存储系统上,供异常恢复使用。
由于在发明实施例中发现一天内所收集的数据中91.6%的特征只出现了10 次以下,特征频次非常低,有些特征已经长时间未被更新,直接将这部分特征拿来做训练,也会很影响模型训练的效果,其次由于使用的是在线学习方式,获取到源源不断的特征作为训练样本,导致模型越来越大,而在线的机器内存是有限的,因此,通过上述特征管理方案可以进行低频特征过滤以及过期特征过滤,从而既可以节省空间以使得训练得到的因子分解机模型更稳定又可以实现因子分解机模型的压缩,以提升模型的计算速度以及计算精度。
在一些实施例中,上述将信息样本的训练特征,在因子分解机模型中进行正向传播,可以通过以下技术方案实现:初始化因子分解机模型,并执行以下处理:将每个信息样本的训练特征在因子分解机模型的各个层中进行正向传播,以得到对应信息样本的预测的第二点击率;上述在因子分解机模型中进行反向传播,以基于真实第二点击率更新因子分解机模型的点击率影响因子以及点击率关联影响因子,可以通过以下技术方案实现:初始化包括信息样本的训练特征以及对应信息样本的预测的第二点击率的损失函数;确定信息样本的预测的第二点击率和真实第二点击率之间的误差,并根据损失函数在因子分解机模型中反向传播误差,以确定损失函数取得最小值时因子分解机模型的变化值,并基于变化值更新因子分解机模型的点击率影响因子和点击率关联影响因子。
作为示例,因子分解机模型中所涉及到的正向传播以及反向传播,所经过的层包括稀疏特征层、稠密表示层、因子分解机层以及输出单元,稀疏特征层的特征为稀疏特征,稠密表示层输出的是稀疏特征的向量化表示,因子分解机层接收稀疏特征层的稀疏特征x以及稠密表示层输出的特征的向量化表示v,稀疏特征指的是该特征向量中非零值的数目远小于特征向量的维度(长度),这里可以设定一个稀疏特征阈值,即特征向量中非零值的数目小于稀疏特征阈值的特征向量为稀疏特征,当特征数量比较大的时候,稀疏特征会很长,对于一旦模型更加复杂,计算的复杂度就会增长到机器无法承受的程度,同时,由于特征向量中不同维度之间是完全无关的,这就会导致特征向量无法描述信息间的相似性,从而导致模型的泛化能力较差,因此需要通过稠密表示层对稀疏特征进行基于隐向量的压缩处理,得到与多个特征类型分别对应的稠密向量化表示,将稀疏特征压缩为稠密特征进行处理,降低了模型计算的复杂度,这里的稠密特征指的是上述稀疏特征的向量化表示,稠密特征指的是零数值的数目小于稠密特征阈值的特征,并且稠密特征中的不同维度可以具有相关性,从而可以基于稠密特征描述信息间的相关性,导致模型具有较强的泛化能力。
接下来对本发明实施例提供的基于人工智能的信息推荐方法中模型的应用进行说明。参见图4A,图4A是本发明实施例提供的基于人工智能的信息推荐方法的流程示意图,将结合图4A示出的步骤101-105进行说明。
在步骤101中,服务器获取第一信息集合中每个信息的多个逻辑回归特征。
作为示例,这里的逻辑回归特征可以是用户特征、信息特征以及环境特征,用户特征是与用户相关的单特征或者组合特征,这里的单特征可以为用户年龄、用户职业,这里的组合特征可以是用户不同维度的组合特征,还可以是既与用户相关又与信息相关的组合特征,用于供逻辑回归模型预测信息的第一点击率。
基于图4A,参见图4B,图4B是本发明实施例提供的基于人工智能的信息推荐方法的流程示意图,步骤101中获取第一信息集合中每个信息的多个逻辑回归特征可以通过步骤1011-1013实现,将结合图4B示出的步骤1011-1013进行说明。
针对第一信息集合中的每个信息执行以下步骤1011-1013。
在步骤1011中,从逻辑回归模型的特征数据库中,查询与信息的特征数据对应的逻辑回归特征;其中,逻辑回归模型用于基于逻辑回归特征预测信息的第一点击率。
在一些实施例中,逻辑回归模型的特征数据库中存储有各种特征编码,尤其是对于那些固定的特征,例如用户设备的操作系统、网络制式等等这些相对固定的特征数据,对于这些特征数据,可以直接在特征数据库中查询对应的特征编码,而不需要再执行特征编码过程,有利于提高特征获取速率,进而减少推荐响应时间。
在步骤1012中,当信息的特征数据是对应逻辑回归模型的特征数据,且从逻辑回归模型的特征数据库中未查询到特征数据时,将特征数据的特征值转化为特征索引,并将特征索引进行哈希处理,得到特征索引编码。
在一些实施例中,对于特征数据库中未查询到的特征数据,需要计算特征数据对应的索引,并对索引进行编码,在机器学习处理过程中,为了方便相关算法的实现,经常需要把标签数据(一般是字符串)转化成整数索引,或是在计算结束后将整数索引还原为相应的标签,转换器可以把一列类别属性特征(或标签)进行编码,使其数值化,索引的范围从0开始,该过程可以使得相应的特征索引化,使得某些无法接受类别型特征的算法可以使用,并提高诸如决策树等机器学习算法的效率,如果输入的是数值型数据,可以把它转化成字符型数据后,再对其进行编码。
这里在计算特征索引时,单特征(一阶特征)有一个输入值,交叉特征(多阶特征)有多个输入值,根据输入的一个或者多个值计算该特征的索引,以单特征为例,输入一般为uint64_t、float类型,例如一级分类、二级分类、标签等,是uint64_t类型,此时特征索引y=xuint64_t;例如点击率、转发率等,是 float类型,此时特征索引y=xfloat*10000;以交叉特征为例,输入为多个参数,首先通过上述方式得到各个单特征的索引,记为x1、x2,采用质数连乘的方式进行多个特征的连接得到y=x1*13131+x2,将特征索引哈希取低48位得到,即为hash(feature-value)&0xFFFFFFFFFFFF。
在步骤1013中,将特征数据的特征名称进行哈希处理得到特征名称编码,并将特征名称编码以及特征索引编码进行组合,得到信息的逻辑回归特征并存储到逻辑回归模型的特征数据库中。
在一些实施例中,这里的特征名称实际上表征了特征类别,例如特征的属性,可以将特征映射到64位哈希空间,使用64位哈希空间的前16位表示特征类别,并使用后48位表示特征索引,将特征名称字符串哈希取低16位即可得到特征类别值:y=hash(feature-name)&0xFFFF。
在一些实施例中,在特征处理中可以利用笛卡尔乘积的方法来构造组合特征,会使得特征数量爆炸式增长,比如一个可以取N个不同值的类别特征,与一个可以取M个不同值的类别特征做笛卡尔乘积,就能构造出N*M个组合特征,如果把用户账号看成一个类别特征,那么它可以取的值的数量就等于用户数,乘积产生组合特征后,就能产生庞大的特征集,从而通过哈希算法对特征进行编码处理,输入任意长度的数据,经过哈希算法处理后输出一个定长的数据,如果是一个数据集,经过哈希算法处理后得到新数据集,然后将新数据与原始数据进行一一映射就得到了哈希表,哈希表的好处是当原始数据较大时,可以用哈希算法处理得到定长的哈希值,那么这个值相对原始数据要小得多,从而可以用这个较小的数据集来做索引,达到快速查找的目的。
在一些实施例中,在从逻辑回归模型的特征数据库中,查询与信息的特征数据对应的逻辑回归特征之前,还可以执行以下技术方案,接收推荐信息请求,并获取推荐信息请求的用户账号;获取用户账号的点击历史信息以及展示历史信息;在用户画像数据库中查询对应点击历史信息和展示历史信息的用户画像,以结合其他数据作为对应逻辑回归特征的特征数据;其中,用户画像包括与根据点击历史信息和展示历史信息确定的用户账号在不同维度下的兴趣,这里的其他数据可以是与待推荐的信息本身相关的数据,还可以是与用户相关的数据,还可以是与环境相关的数据,例如访问设备、访问网络以及访问时间。
参见图8,图8是本发明实施例提供的基于人工智能的信息推荐方法中特征工程体系示意图,特征工程体系中包括有新闻特征(信息特征)、用户特征以及环境特征,新闻特征可以有账号体系相关的特征,例如,账号身份及媒体来源,文章样式等等,内容理解相关的特征,例如,分类主题,标签实体,展示表现相关的特征,例如,点击曝光,收藏评论,以及新闻质量相关的特征,例如,质量得分,低俗时效,用户特征可以有图像特征,例如,标签、实体,人口学特征,例如,性别年龄、执业,短期兴趣特征,例如,短期点击率,短期点击行为,外网兴趣特征,例如,快报,浏览器等等,环境特征可以为访问相关的特征,例如访问时间、访问地域以及访问设备等等。
在步骤102中,服务器调用逻辑回归模型,以基于第一信息集合中每个信息的多个逻辑回归特征,预测对应第一信息集合中每个信息的第一点击率。
这里,将调用逻辑回归模型对第一信息集合中的每个信息进行第一点击率预测,从而获得头部信息,推荐系统的召回得到的信息数目量较大,通常通过第一点击率预测的方式对召回得到的信息进行第一次筛选,保留第一点击率从高到低排序靠前的多个信息作为头部信息,并对头部信息进行基于第二点击率的预测以及排序,以将得到的信息进行多样化展示以及推荐。
基于图4A,参见图4C,图4C是本发明实施例提供的基于人工智能的信息推荐方法的流程示意图,步骤102中基于第一信息集合中每个信息的多个逻辑回归特征,预测对应第一信息集合中每个信息的第一点击率可以通过步骤1021 -1022实现,将结合图4C示出的步骤1021-1022进行说明。
针对第一信息集合中的每个信息执行以下步骤1021-1022。
在步骤1021中,以信息的多个逻辑回归特征分别对应的点击率影响因子为权重,对多个逻辑回归特征进行加权求和处理。
在步骤1022中,对加权求和处理结果进行偏置处理,得到对应信息的第一点击率。
在一些实施例中,这里的逻辑回归模型可以是线性模型或者线性模型与逻辑回归方程结合的模型,对于线性模型而言,则是对各个特征进行线性组合即可得到第一点击率,参见公式(4):
Figure RE-GDA0002540906450000201
这里的w0为偏置处理的偏置量,这里的wi为各个逻辑回归特征xi分别对应的点击率影响因子。
在一些实施例中,还可以在上述方法的基础上将线性组合代入到逻辑回归方程(5)中,如此,将特征的线性组合作为自变量,由于自变量的取值范围是负无穷到正无穷,因此,使用逻辑回归方程将自变量映射到(0,1)上,将代入逻辑回归方程后得到的结果作为第一点击率:
Figure RE-GDA0002540906450000202
其中,这里的z为公式(4)示出的特征的线性组合,特征的线性组合,这里的g为第一点击率。
通过逻辑回归模型对召回的信息进行初次筛选得到头部信息,这里采取逻辑回归模型的原因在于,节省对大量召回信息进行点击率预测的计算时间,使得后续仅需要对头部信息进行第二点击率预测,这样既能够保证预测精度也能保证预测效率。
在步骤103中,服务器从第一点击率的降序排序结果中选取排序在前的多个信息,以形成第二信息集合。
在一些实施例中,步骤103中从第一点击率的降序排序结果中选取排序在前的多个信息,以形成第二信息集合,可以通过以下技术方案实现,将第一信息集合中第一点击率最高的信息转移到第二信息集合,以作为第二信息集合中的首个信息;当第二信息集合中的信息的数目小于信息数目阈值时,针对第一信息集合中第一点击率最高的信息,执行以下处理:确定第一信息集合中第一点击率最高的信息与首个信息之间的语义距离;当语义距离大于语义距离阈值时,将第一点击率最高的信息从第一信息集合转移到第二信息集合,并更新为第二信息集合中的首个信息。
在一些实施例中,将信息进行转移的过程可以仅是基于第一点击率进行转移,例如,针对召回得到了10000条信息,分别进行第一点击率预测,得到对应的第一点击率,接着将这10000条信息按照点击率从高往低排列,可以选取点击率排在前序位置的200条信息作为头部信息,将这些信息转移到第二信息集合,这里第一信息集合和第二信息集合中信息的数目可以根据实际需求进行设定,这里将信息数目阈值作为第二信息集合中信息的数目的最小值。
在一些实施例中,当第二信息集合中的候选推荐信息的数目小于信息数目阈值时,这里的去重功能数目阈值为第二信息集合中的信息数目,即为进行去重处理后需要得到的信息的数目,第二信息集合中的信息的数目小于信息数目阈值,意味着第二信息集合中的信息数目没有达到预先设定的数值,即还需要继续对第一信息集合进行去重处理。
在一些实施例中,这里的语义距离是基于两个信息各自的语义特征获得的,这里的语义特征可以是候选推荐信息的隐语义向量,候选推荐信息的隐语义向量格式为[a1,a2,a3,…,an],ai是浮点数,候选推荐信息的隐语义向量长度是在矩阵分解或基于深度神经网络的推荐算法训练时进行指定,将信息的隐语义向量同步到服务器,存储在服务器内存的哈希表中,从而在混排时可以使用信息的标识在哈希表中快速查询对应的隐语义向量。
在一些实施例中,语义距离大于语义距离阈值表征两个信息之间的相似度较低,意味着两个信息可以是属于不同的一级兴趣、不同的二级兴趣或者是不同的标签,这里点击率最高的信息是当前第一信息集合中的信息,当语义距离大于语义距离阈值时,服务器将点击率最高的信息从第一信息集合中删除,添加到第二信息集合中,更新为第二信息集合中的首个信息,继续将第一信息集合中的点击率最高的信息与刚刚更新到第二信息集合的首个信息进行语义距离确定,以从第一信息集合中,继续筛选出与上一个转移到第二信息集合中的信息不相似的信息,转移到第二信息集合,这里的相似以及不相似是通过语义距离阈值来界定的,当两个信息之间的语义距离大于语义距离阈值时,确定两个信息属于不相似的信息,当两个信息之间的语义距离不大于语义距离阈值时,确定两个信息属于相似的信息。
在步骤104中,服务器调用因子分解机模型,以基于第二信息集合中每个信息的多个逻辑回归特征、以及多个逻辑回归特征之间的关联关系,预测对应第二信息集合中每个信息的第二点击率。
作为示例,进行第二点击率预测的方式包括两种,一种是仅对逻辑回归特征进行复用,调用因子分解机模型对信息进行第二点击率预测,另一种是获取除了逻辑回归特征之外的附加特征,并调用因子分解机模型,基于附加特征以及逻辑回归特征对信息进行第二点击率预测。
基于图4A,参见图4D,图4D是本发明实施例提供的基于人工智能的信息推荐方法的流程示意图,步骤104中基于第二信息集合中每个信息的多个逻辑回归特征、以及多个逻辑回归特征之间的关联关系,预测对应第二信息集合中每个信息的第二点击率可以通过步骤1041-1042实现,将结合图4D示出的步骤1041-1042进行说明。
针对第二信息集合中每个信息执行以下步骤1041-1042:
在步骤1041中,将信息的多个逻辑回归特征进行不同方式地组合,其中,每次组合所使用的逻辑回归特征部分不同或完全不同,以形成信息的多个组合特征。
作为示例,这里的每次组合所使用的逻辑回归特征部分相同指的是,逻辑回归特征x1可以和逻辑回归特征x2组合,形成组合特征x12,逻辑回归特征x1可以和逻辑回归特征x3组合,形成组合特征x13,这里的所涉及到的两次组合中所使用的逻辑回归特征部分不同,但是均是与逻辑回归特征x1组成组合特征,这里的每次组合所使用的逻辑回归特征完全不同指的是,逻辑回归特征x1可以和逻辑回归特征x2组合,形成组合特征x12,逻辑回归特征x3可以和逻辑回归特征x4组合,形成组合特征x34,这里的所涉及到的两次组合中所使用的逻辑回归特征完全不同。
在一些实施例中,因子分解机模型是在线性模型的计算公式里加入二阶特征组合得到,任意两个特征进行两两组合,可以将这些组合出的特征看作一个新特征,加入线性模型中,而组合特征的权重和一阶特征权重一样,在训练阶段学习获得,通过在线性模型中整合二阶交叉特征,得到如下的模型,参见公式(6):
Figure RE-GDA0002540906450000231
在步骤1042中,以信息的每个组合特征的点击率影响因子为权重参数,将信息的每个组合特征加权求和处理,得到信息的第二点击率;其中,组合特征的点击率影响因子是组合特征所包括的逻辑回归特征的点击率关联影响因子的乘积。
在一些实施例中,对组合特征建模,带来泛化能力比较弱的问题,尤其是在大规模稀疏特征存在的场景下,满足交叉项不为0的样本将非常少,有些特征本来就是稀疏的,很多样本在该特征上是无值的,有些是由于收集该特征成本过大或者由于监管、隐私等原因无法收集到,当训练样本不足时,很容易导致参数wij训练不充分而不准确,最终影响模型的效果,特别是对于数据非常稀疏的业务场景来说,标的物是海量的,每个用户只对很少的标的物有操作,因此特征稀疏,很多特征之间的交叉是缺少训练数据支撑的,但是借助矩阵分解的思路,对二阶交叉特征的系数进行调整,让系数不再是独立无关的,从而减少模型独立系数的数量,解决由于数据稀疏导致无法训练出参数的问题,参见改进后的模型公式(7):
Figure RE-GDA0002540906450000241
其中,v的值由模型训练本身产生,分量vi的点积就是两个特征的融合参数, vi即为上述的点击率关联影响因子,xi即为上述的参与到第二点击率预测的逻辑回归特征。
在一些实施例中,组合的方式可以是特征的向量表示的点乘,即特征的点击率关联影响因子的点乘,作为“以信息的每个组合特征的点击率影响因子为权重参数,将信息的每个组合特征加权求和处理,得到信息的第二点击率”的替代方案,从而克服在大规模稀疏特征存在的场景下泛化能力比较弱的问题。
在一些实施例中,获取特征集合中每个特征的向量化表示,这里的向量化表示即特征的点击率关联影响因子,通过对因子分解机模型进行训练得到,各个特征的向量化表示的点积能够表征对应特征之间的关联关系,为了简化计算,对上述公式(7)进行了化简得到了公式(8):
Figure RE-GDA0002540906450000242
xi为信息的逻辑回归特征或者附加特征,vi为xi的向量化表示,f为vi的维度, y为公式(7)中的二阶项输出。
在一些实施例中,步骤104中基于第二信息集合中每个信息的多个逻辑回归特征、以及多个逻辑回归特征之间的关联关系,预测对应第二信息集合中每个信息的第二点击率可以通过以下技术方案实现,针对第二信息集合中的每个信息执行以下处理:获取信息的附加特征,且附加特征与点击用户相关;将信息的多个逻辑回归特征、以及多个附加特征进行不同方式地组合,其中,每次组合使用逻辑回归特征和/或附加特征,且每次组合使用的逻辑回归特征和/或附加特征部分不同或完全不同,以形成信息的多个组合特征;基于信息的每个组合特征的权重参数,将信息的每个组合特征加权求和处理,得到信息的第二点击率;其中,组合特征的权重参数是组合特征所包括的逻辑回归特征和/或附加特征的点击率关联影响因子的乘积。
作为示例,信息的附加特征的类型包括一阶特征和多阶特征;上述获取信息的附加特征,可以通过以下技术方案实现,获取信息的点击用户的多个维度的用户特征,并将每个维度的用户特征作为一阶特征;通过以下组合方式至少之一得到多阶特征:将点击用户的至少一个维度的用户特征与信息的至少一个维度相关的特征组合;将点击用户的至少一个维度的用户特征与环境相关的至少一个维度的特征组合。
其中,附加特征是逻辑回归特征的补充,由于在发明实施例中发现逻辑回归特征中的特征类型大部分属于二阶特征或者三阶特征,那么在二阶特征和三阶特征的基础上再进行特征交叉,并不能取得较好的测试效果,因此,如果使用附加特征对逻辑回归特征进行补充,从而使各类型特征分布均衡,就能够准确基于各类型特征全面预测点击率。
这里的附加特征可以是用户相关的特征,例如可以是单特征(一阶特征),也可以是组合特征(二阶特征等高阶特征),构建属于单特征的附加特征的方式可以为:分别获取每个维度的用户特征,例如,用户年龄、用户性别,这些均属于用户特征,且属于单特征,还可以通过以下组合方式至少之一构建属于多阶特征的附加特征:将点击用户的至少一个维度的用户特征与信息的至少一个维度相关的特征组合例如,用户年龄与信息来源组合得到的特征,将点击用户的至少一个维度的用户特征与环境相关的至少一个维度的特征组合,例如,用户年龄与用户设备组合得到的特征,还可以是多个维度的用户特征,例如,用户兴趣与用户年龄组合得到的特征。
在一些实施例中,上述将信息的多个逻辑回归特征、以及多个附加特征进行不同方式地组合,可以通过以下至少之一的方案实现:将至少两个不同的逻辑回归特征进行相乘处理,将得到的相乘结果作为对应的组合特征;将至少一个逻辑回归特征和至少一个附加特征进行相乘处理,将得到的相乘结果作为对应的组合特征;将至少两个不同的附加特征进行相乘处理,将得到的相乘结果作为对应的组合特征。
在一些实施例中,上述实施例记载的方案与步骤1041-1042所记载的技术方案类似,区别仅在于需要进行组合的特征除了逻辑回归特征之外,还包括附加特征,这样各类型类型的分布均衡,从而能够准确基于各类型特征全面预测点击率。
在一些实施例中,上述基于信息的每个组合特征的权重参数,将信息的每个组合特征加权求和处理,得到信息的第二点击率,可以通过以下技术方案实现,以信息的每个组合特征的点击率影响因子为权重参数,对信息的每个组合特征进行加权求和处理,得到第一加权求和结果;以多个逻辑回归特征以及多个附加特征分别对应的点击率影响因子为权重参数,对多个逻辑回归特征以及多个附加特征进行加权求和处理,得到第二加权求和结果;将第一加权求和结果和第二加权求和结果的加和进行偏置处理,得到信息的第二点击率。
这里,以每个逻辑回归特征的点击率影响因子为权重参数,对信息的每个逻辑回归特征进行加权求和处理,将信息的每个逻辑回归特征的加权求和处理结果、与信息的每个组合特征的加权求和结果相加,作为信息的第二点击率,通过在点击率的预测中引入线性部分,兼顾了特征对第二点击率的影响、以及特征之间的关系对第二点击率的影响,提升预测的精度。
在步骤105中,服务器基于第二点击率的降序排序结果执行推荐操作。
在一些实施例中,可以直接将降序排序结果推送至用户的终端按照点击率的高低顺序进行呈现;或者,将降序排序结果中排序靠前的若干个信息推送至用户的终端按照点击率的高低顺序进行呈现;又或者,对降序排序结果进行如上文所述的多样性处理。
参见图4E,图4E是本发明实施例提供的基于人工智能的信息推荐方法的交互流程图,在步骤201中,服务器接收终端上报的用户日志,在步骤202中,服务器生成对应的训练样本并训练逻辑回归模型以及因子分解机模型,在步骤203中,服务器接收终端发送的推荐信息请求,在步骤204中,服务器从信息数据库中筛选出与用户相关的信息,形成第一信息集合,在步骤205中,服务器使用逻辑回归模型对信息进行第一点击率预测和以及降序排序,在步骤206 中,服务器从第一点击率的降序排序结果中选取排序在前的多个信息,以形成第二信息集合,在步骤207中,服务器对第二信息集合中的信息进行第二点击率预测和降序排序处理,在步骤208中,服务器基于降序排序处理结果执行推荐操作,在步骤209中,服务器在用户所使用的终端上呈现经过两次排序得到的信息。
下面,将说明本发明实施例提供的基于人工智能的信息推荐方法在一个实际的应用场景中的示例性应用。
使用基于人工智能的信息推荐方法的应用程序可以是一款构建在移动终端上的内容分发平台,或者可以是内置于移动终端的其他应用程序,通过深入挖掘用户兴趣,引入优质内容,将优质的内容以个性化的方式推荐给用户,主要包含图文、视频、图集等不同类型的文章,其中,视频推荐是看点推荐的重要组成部分,如图5所示,图5是本发明实施例提供的基于人工智能的信息推荐方法的产品示意图,图5中左侧场景为产品的主信息流界面,主信息流界面展示有图文、视频、图集等不同类型的文章,点击视频文章会进入一拖三场景,如图5中右侧所示,展示有与主信息流中被点击的视频文章相关的一系列视频,视频文章推荐通常占到了整个产品每天的分发总量的75%以上。
视频文章推荐主要包含离线训练和在线应用两个部分,如图6所示,图6 是本发明实施例提供的基于人工智能的信息推荐方法的整体架构图,架构中的离线部分主要包含用户行为收集、用户画像计算和点击率(CTR,Click-Throu gh Rate)预测模型训练计算三个部分,用户行为收集主要包含点击、展示曝光、点赞、观看时长等,用户画像计算则主要根据用户行为计算用户在标签、分类等不同维度下的兴趣,这里的用户画像可以是标签兴趣、视频分类等等,标签兴趣可以是“湖人”、“皇马”等等,各个用户画像后的数据表征不同用户画像在整个信息特征中的影响权重或者重要程度,CTR预测模型则主要根据用户行为和用户画像进行特征抽取和模型训练,在线部分主要包括候选召回部分、排序打分部分和多样性展示三个部分,候选召回部分主要根据用户行为和用户画像进行文章召回,排序打分部分则根据离线训练好的模型进行特征抽取和点击率预测打分,多样性展示则是在排序打分的基础上结合多样性模型进行最后文章的展示
本发明实施例提供的基于人工智能的信息推荐方法使用因子分解机模型建模第二点击率预测模型,使用逻辑回归模型建模第一点击率预测模型,两个模型结构的对比如图3B-3C所示。
逻辑回归模型的目标函数为hθ(x)=g(θTx),其中的激活函数定义为:
Figure RE-GDA0002540906450000281
LR模型是一个被Sigmoid激活函数(逻辑方程)所归一化后的线性回归模型,这个模型是将特征的线性组合作为自变量,由于自变量的取值范围是负无穷到正无穷,因此,使用逻辑方程(或称作sigmoid函数)将自变量映射到(0,1)上,在远离0的地方函数的值会很快接近0或者1,激活函数的导数为g′(z)=g(z)(1-g(z)),逻辑回归模型的单样本目标函数为:
Figure RE-GDA0002540906450000282
x为输入的特征,θ为需要求取的参数,故而针对n 个样本的似然函数为:
Figure RE-GDA0002540906450000283
进一步取对数有:
Figure RE-GDA0002540906450000284
联立上述公式,链式求导可得
Figure RE-GDA0002540906450000285
则其模型参数的更新公式(9)为:
Figure RE-GDA0002540906450000286
从上述公式(6)中可以发现,逻辑回归模型是一个偏记忆的模型,对于出现过的特征学习一个权重,对于没有出现过的特征,没有办法学习权重;同时也难以获得特征组合,可以在基本线性模型的基础上引入交叉项,来实现非线性分类,直接将特征两两组合引入模型,参见公式(10):
Figure RE-GDA0002540906450000291
从上面式子中很容易看出,组合特征部分的参数共有
Figure RE-GDA0002540906450000292
个,对于样本中未出现交互的特征分量,不能对相应的参数进行估计,即在数据普遍稀疏的实际应用场景下,二次项系数的训练是很困难的,因为每个参数wij都需要存在大量xi和xj都非0的样本,由于数据本来就比较稀疏,因此满足xi和xj都非0的样本会很少,训练样本的不足,很容易导致最终的wij估计不准确,最终影响最终模型的性能,因此为每一个特征xi引入一个分量vi,通过
Figure RE-GDA0002540906450000293
求解wij,即为因子分解机模型建模第二点击率预估模型,其最大的特点是对稀疏数据有很好的学习能力,解决逻辑回顾模型的泛化问题。
因子分解机模型的目标函数如下,参见公式(11):
Figure RE-GDA0002540906450000294
其中,v的值由模型训练本身产生,分量vi的点积就是两个特征的融合参数,为了简化计算,可以对二阶项做如下简化处理,得到公式(12):
Figure RE-GDA0002540906450000295
经过上述变化之后,二次项部分的时间复杂度从O(kn2)变成了O(kn),因此FM模型可以在线性时间内对新样本进行求导,经过上述分解后,因子分解机模型也可使用随机梯度下降法进行求解,参见公式(13):
Figure RE-GDA0002540906450000296
从上式可知,vj,f的训练只需要样本xi的特征非0即可,故而适用于稀疏数据,隐向量vi是特征xi的低维稠密表达,其长度远远小于特征维度N。因子分解机模型学到的隐向量可以看作是特征的嵌入压缩表示,把离散特征转化为稠密特征。
参见图7,图7是本发明实施例提供的基于人工智能的信息推荐方法的整体框架图,主要包括在线和离线两个部分,在线部分包括资源适配、特征抽取和打分排序三个步骤:资源适配,主要处理用户画像信息和行为信息;特征抽取,主要包括特征设计、特征索引和特征编码三个方面;打分排序,主要根据抽取特征和CTR预测模型进行点击率分数的计算,离线部分主要为模型训练,根据合并好的日志进行特征的抽取,进而进行模型的训练。
在资源适配阶段,资源主要包含用户画像信息和用户行为信息,用户画像信息主要包含用户视频标签画像、视频一级分类画像、视频二级分类画像、图文标签画像、图文一级分类画像、图文二级分类画像等等;用户行为信息为用户的点击历史和展示历史,点击历史为用户最近多天的点击信息,包含所有类型的图文、视频等等,以一次点击为单位进行存储,展示历史为用户最近多天的展示信息,以一刷为单位存储,一刷为一次请求,一刷一般包含10篇图文、视频文章,通过点击信息以及展示信息中的文章分别查询正排,以获取其相应的文章信息,文章信息中包括有标签等用户画像。
在特征抽取阶段,若直接将逻辑回归模型特征直接用于因子分解机模型,发现AUC稳定低于逻辑回归模型,参见图8,图8是本发明实施例提供的基于人工智能的信息推荐方法中特征工程体系示意图,经过统计发现逻辑回归模型特征中的88%的特征都是二阶、三阶或者更高阶特征;12%的一阶特征中也主要是文章测的属性特征和统计特征,描述用户兴趣的画像特征基本都是以与文章信息交叉的形式存在,单特征非常少,在特征设计时,为了增强用户兴趣的表示,提升上述逻辑回归模型特征与用户兴趣的关联程度,在保留已有逻辑回归特征的基础上,新增了15类用户相关的特征,如下表2所示,平均每条样本增加53个特征。
Figure RE-GDA0002540906450000301
Figure RE-GDA0002540906450000311
表2因子分解机模型的新增特征
计算特征索引时,单特征(一阶特征)有一个输入值,交叉特征(多阶特征)有多个输入值,根据输入的一个或者多个值计算该特征的索引,以单特征为例,输入一般为uint64_t、float类型,例如一级分类、二级分类、标签等,是uint64_t类型,此时特征索引y=xuint64_t;例如点击率、转发率等,是float 类型,此时特征索引y=xfloat*10000;以交叉特征为例,输入为多个参数,以2个参数为例,首先各个特征通过单特征的方式得到各自的索引,记为x1、x2,采用质数连乘的方式进行多个特征的连接:y=x1*13131+x2,输入为多个参数时以此类推。
本发明实施例提供的基于人工智能的信息推荐方法将特征映射到64位哈希空间,使用64位哈希空间的前16位表示特征类别,将特征名称字符串哈希取低16位即可得到特征类别值:y=hash(feature_name)&0xFFFF<<48+;后48位表示特征索引,将特征值哈希取低48位得到,即为 feature_value&0xFFFFFFFFFFFF。
在线部分根据特征和模型进行前馈计算,本发明实施例提供的基于人工智能的信息推荐方法在线首先使用逻辑回归模型进行基于第一点击率的降序排序,针对头部的200文章使用因子分解机模型进行基于第二点击率的降序排序,将耗时控制在50ms以内,以控制推荐响应时间,本发明实施例提供的基于人工智能的信息推荐方法使用谷歌dense_map结构存储每个特征的wi和vi,以空间换时间,相比C++标准库的unordered_map结构,降低了约2/3的查找耗时,在线内存占用增加1倍,这里的在线计算即为因子分解机模型的前馈计算,如公式(14)所示:
Figure RE-GDA0002540906450000321
上述计算可在O(kn)时间复杂度内完成,在线使用C++实现其中算子即可。
离线模型训练主要包含日志合并、特征抽取和模型训练三个部分,参见图 9,图9是本发明实施例提供的基于人工智能的信息推荐方法的离线训练架构图,日志合并主要是根据点击日志、展示日志、在线特征日志,将一次请求的信息聚合在一起,合并日志过程可以依据曝光日志进行,即为在曝光日志到达时等候15分钟的时间内,认为一次展示内的所有点击都会在15分钟之内发生,若超时未收到点击操作,则认为没有点击操作,最后将合并好的日志写到分布式消息系统,由于上述日志合并步骤合并了在线特征日志,故而接下来的特征抽取则主要是根据是否接收到针对信息的点击操作,将特征预置为正样本或者负样本,正负样本混合在一起,随机抽取99%作为训练样本,剩余1%为测试样本,训练样本和测试样本分别写到kafka上,以供模型训练以及测使用。
本发明实施例提供的基于人工智能的信息推荐方法使用特征抽取到的全部训练样本进行模型训练,可以采用各种机器学习框架(例如DIFACTO)进行模型训练,例如,在一些实施例中,一方面采用的嵌入压缩embedding的维度为 8,每个minibatch读取5000条样本,由于在线流式训练,数据只处理一遍,因此需要快速收敛,且需要保持稳定,同时防止过拟合问题,因此针对embeddin g的部分,增加dropout处理,以0.25的概率随机丢弃以增加模型的鲁棒性,另一方面采用动态特征管理,由于这里使用的是动态哈希特征,维度高变化快,而且稀疏,经过统计发现一天的数据中91.6%的特征只出现了10次以下,频次非常低,直接将这部分特征拿来做训练,也会很影响模型训练的效果。其次由于使用的是在线学习方式,获取到源源不断的特征作为训练样本,模型越来越大,而在线的机器内存是有限的,具体实践中,离线模型到10G,在线内存会到50G,为了解决上述问题,可以进行低频特征过滤,分布式哈希表存储特征频次,过滤超低频特征,既可以节省空间让模型更稳定又可以进行模型压缩,通过候选特征集合、正式特征集合、淘汰特征集合的三级管理实现特征的动态增删,参见图10,图10是本发明实施例提供的基于人工智能的信息推荐方法的特征管理示意图,例如,在一些实施例中,特征首先进入候选特征集合,根据频次进行特征准入的判断,达到100次频次限制的才能进入正式特征集合,进行相应的训练,在需要导出模型的时候,综合根据参数的L1模,即为wi,进行模型的压缩,并将最近3周没有更新的特征进行过期处理。通过上述方式对模型的大小进行了有效的控制,例如,在一些实施例中具体而言,仅保留头部2亿个特征,控制离线模型8G-9G,离线训练得到的因子分解机模型每60 分钟导出一次并推送线上环境,同时将训练的二进制文件存储到分布式存储系统上,供异常恢复使用。
参见下表,表3和表4是本发明实施例提供的视频核心指标以及大盘核心指标,本发明实施例提供的基于人工智能的信息推荐方法应用于视频推荐产品中,离线AUC相比逻辑回归模型提升2%以上,视频点击率提升5.19%,视频总播放量提升2.71%,视频播放时长提升4.12%,看点时长提升1.45%,广义日活提升0.11%,这些指标具有显著性提高。
Figure RE-GDA0002540906450000331
Figure RE-GDA0002540906450000341
表3本发明实施例提供的视频核心指标
Figure RE-GDA0002540906450000342
Figure RE-GDA0002540906450000351
表4本发明实施例提供的大盘核心指标
下面继续说明本发明实施例提供的基于人工智能的信息推荐装置255的实施为软件模块的示例性结构,在一些实施例中,如图2所示,存储在存储器25 0的基于人工智能的信息推荐装置255中的软件模块可以包括:特征获取模块2 551,用于获取第一信息集合中每个信息的逻辑回归特征;第一点击率预测模块 2552,用于基于所述第一信息集合中每个信息的逻辑回归特征,预测对应的第一点击率,并从所述第一点击率的降序排序结果中选取排序在前的多个信息,以形成第二信息集合;推荐模块2553,用于基于所述第二信息集合中每个信息的多个逻辑回归特征、以及所述多个逻辑回归特征之间的关联关系,预测对应的第二点击率,并基于所述第二点击率的降序排序结果执行推荐操作。
在上述方案中,所述特征获取模块2551,还用于:针对所述第一信息集合中的每个信息执行以下处理:从逻辑回归模型的特征数据库中,查询与所述信息的特征数据对应的逻辑回归特征;其中,所述逻辑回归模型用于基于所述逻辑回归特征预测所述信息的第一点击率;当所述信息的特征数据是对应所述逻辑回归模型的特征数据,且从所述逻辑回归模型的特征数据库中未查询到所述特征数据时,将所述特征数据的特征值转化为特征索引,并将所述特征索引进行哈希处理,得到特征索引编码;将所述特征数据的特征名称进行哈希处理得到特征名称编码,并将所述特征名称编码以及所述特征索引编码进行组合,得到所述信息的逻辑回归特征。
在上述方案中,所述推荐模块2553,还用于:针对所述第二信息集合中每个信息执行以下处理:将所述信息的多个逻辑回归特征进行不同方式地组合,其中,每次所述组合所使用的逻辑回归特征部分不同或完全不同,以形成所述信息的多个组合特征;以所述信息的每个所述组合特征的点击率影响因子为权重参数,将所述信息的每个所述组合特征加权求和处理,得到所述信息的第二点击率;其中,所述组合特征的点击率影响因子是所述组合特征所包括的逻辑回归特征的点击率关联影响因子的乘积。
在上述方案中,所述推荐模块2553,还用于:针对所述第二信息集合中的每个信息执行以下处理:获取所述信息的附加特征,且所述附加特征与点击用户相关;将所述信息的多个逻辑回归特征、以及多个附加特征进行不同方式地组合,其中,每次所述组合使用所述逻辑回归特征和/或所述附加特征,且每次组合使用的所述逻辑回归特征和/或所述附加特征部分不同或完全不同,以形成所述信息的多个组合特征;基于所述信息的每个所述组合特征的权重参数,将所述信息的每个所述组合特征加权求和处理,得到所述信息的第二点击率;其中,所述组合特征的权重参数是所述组合特征所包括的逻辑回归特征和/或所述附加特征的点击率关联影响因子的乘积。
在上述方案中,所述信息的附加特征的类型包括一阶特征和多阶特征;所述推荐模块2553,还用于:获取所述信息的点击用户的多个维度的用户特征,并将每个所述维度的用户特征作为所述一阶特征;通过以下组合方式至少之一得到所述多阶特征:将所述点击用户的至少一个维度的用户特征与所述信息的至少一个维度相关的特征组合;将所述点击用户的至少一个维度的用户特征与环境相关的至少一个维度的特征组合。
在上述方案中,所述推荐模块2553,还用于执行以下至少之一:将至少两个不同的所述逻辑回归特征进行相乘处理,将得到的相乘结果作为对应的组合特征;将至少一个所述逻辑回归特征和至少一个所述附加特征进行相乘处理,将得到的相乘结果作为对应的组合特征;将至少两个不同的所述附加特征进行相乘处理,将得到的相乘结果作为对应的组合特征。
在上述方案中,所述所述推荐模块2553,还用于:以所述信息的每个所述组合特征的点击率影响因子为权重参数,对所述信息的每个所述组合特征进行加权求和处理,得到第一加权求和结果;以所述多个逻辑回归特征以及所述多个附加特征分别对应的点击率影响因子为权重参数,对所述多个逻辑回归特征以及所述多个附加特征进行加权求和处理,得到第二加权求和结果;将所述第一加权求和结果和所述第二加权求和结果的加和进行偏置处理,得到所述信息的第二点击率。
在上述方案中,所述第一点击率预测模块2552,还用于:针对所述第一信息集合中的每个信息执行以下处理:以所述信息的多个所述逻辑回归特征分别对应的点击率影响因子为权重,对多个所述逻辑回归特征进行加权求和处理;对加权求和处理结果进行偏置处理,得到对应所述信息的第一点击率。
在上述方案中,所述第一点击率预测模块2552,还用于:将所述第一信息集合中第一点击率最高的信息转移到第二信息集合,以作为所述第二信息集合中的首个信息;当所述第二信息集合中的信息的数目小于信息数目阈值时,针对所述第一信息集合中第一点击率最高的信息,执行以下处理:确定所述第一信息集合中第一点击率最高的信息与所述首个信息之间的语义距离;当所述语义距离大于语义距离阈值时,将所述第一点击率最高的信息从所述第一信息集合转移到所述第二信息集合,并更新为所述第二信息集合中的首个信息。
在上述方案中,所述第二点击率的预测是通过调用因子分解机模型实现的;所述装置255还包括:训练模块2554,用于在获取第一信息集合中每个信息的逻辑回归特征之前:将窗口时间内的点击日志、展示日志以及特征日志合并成推荐日志,并从所述推荐日志中获取信息样本以及对应的真实第二点击率;对所获取的信息样本的多个逻辑回归特征以及多个附加特征进行基于特征频次的过滤处理,得到对应所述信息样本的训练特征;将所述信息样本的训练特征,在所述因子分解机模型中进行正向传播,并在所述因子分解机模型中进行反向传播,以基于所述真实第二点击率更新所述因子分解机模型的点击率影响因子和点击率关联影响因子。
在上述方案中,所述训练模块2554,还用于:确定所述多个逻辑回归特征以及所述多个附加特征的对应的特征频次;将特征频次超过特征频次阈值的特征转移至正式特征集合,将所述正式特征集合中包括的训练特征作为所述信息样本的训练特征;当特征频次不超过所述特征频次阈值的特征转移至淘汰特征集合;当所述正式特征集合的累积未更新时长超出时长阈值内,将所述正式特征池的中的特征从所述正式特征集合转移至所述淘汰特征集合。
在上述方案中,所述训练模块2554,还用于:初始化所述因子分解机模型,并执行以下处理:将每个所述信息样本的训练特征在所述因子分解机模型的各个层中进行正向传播,以得到对应所述信息样本的预测的第二点击率;初始化包括所述信息样本的训练特征以及对应所述信息样本的预测的第二点击率的损失函数;确定所述信息样本的预测的第二点击率和所述真实第二点击率之间的误差,并根据所述损失函数在所述因子分解机模型中反向传播所述误差,以确定所述损失函数取得最小值时所述因子分解机模型的变化值,并基于所述变化值更新所述因子分解机模型的点击率影响因子和点击率关联影响因子。
需要说明的是,本发明实施例装置的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果,因此不做赘述。对于本发明实施例提供的基于人工智能的信息推荐装置中未尽的技术细节,可以根据图4A-4E任一附图的说明而理解。
本发明实施例提供一种存储有可执行指令的计算机可读存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本发明实施例提供的基于人工智能的信息推荐方法,例如,如图4A-4E示出的基于人工智能的信息推荐方法。
在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EP ROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
综上,通过本发明实施例对第一次排序中对应各个信息的特征进行关联融合处理,使得对应各个信息的关联特征不仅表征各自信息,还能够表征该信息与其他信息的关联度,从而使得基于该关联特征所进行的第二次排序是考虑到全局信息的影响,使得推荐结果更加符合用户兴趣;通过对信息进行多样性处理,使得推荐结果能够对兴趣点广泛覆盖,从而实现了细粒度的精确推荐。
以上,仅为本发明的实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本发明的保护范围之内。

Claims (15)

1.一种基于人工智能的信息推荐方法,其特征在于,所述方法包括:
获取第一信息集合中每个信息的逻辑回归特征;
基于所述第一信息集合中每个信息的逻辑回归特征,预测对应的第一点击率,并
从所述第一点击率的降序排序结果中选取排序在前的多个信息,以形成第二信息集合;
基于所述第二信息集合中每个信息的多个逻辑回归特征、以及所述多个逻辑回归特征之间的关联关系,预测对应的第二点击率,并
基于所述第二点击率的降序排序结果执行推荐操作。
2.根据权利要求1所述的方法,其特征在于,所述获取第一信息集合中每个信息的逻辑回归特征,包括:
针对所述第一信息集合中的每个信息执行以下处理:
从逻辑回归模型的特征数据库中,查询与所述信息的特征数据对应的逻辑回归特征;其中,所述逻辑回归模型用于基于所述逻辑回归特征预测所述信息的第一点击率;
当所述信息的特征数据是对应所述逻辑回归模型的特征数据,且从所述逻辑回归模型的特征数据库中未查询到所述特征数据时,将所述特征数据的特征值转化为特征索引,并将所述特征索引进行哈希处理,得到特征索引编码;
将所述特征数据的特征名称进行哈希处理得到特征名称编码,并将所述特征名称编码以及所述特征索引编码进行组合,得到所述信息的逻辑回归特征。
3.根据权利要求1所述的方法,其特征在于,所述基于所述第二信息集合中每个信息的多个逻辑回归特征、以及所述多个逻辑回归特征之间的关联关系,预测对应的第二点击率,包括:
针对所述第二信息集合中每个信息执行以下处理:
将所述信息的多个逻辑回归特征进行不同方式地组合,其中,每次所述组合所使用的逻辑回归特征部分不同或完全不同,以形成所述信息的多个组合特征;
以所述信息的每个所述组合特征的点击率影响因子为权重参数,将所述信息的每个所述组合特征加权求和处理,得到所述信息的第二点击率;
其中,所述组合特征的点击率影响因子是所述组合特征所包括的逻辑回归特征的点击率关联影响因子的乘积。
4.根据权利要求1所述的方法,其特征在于,所述基于所述第二信息集合中每个信息的多个逻辑回归特征、以及所述多个逻辑回归特征之间的关联关系,预测对应的第二点击率,包括:
针对所述第二信息集合中的每个信息执行以下处理:
获取所述信息的附加特征,且所述附加特征与点击用户相关;
将所述信息的多个逻辑回归特征、以及多个附加特征进行不同方式地组合;
其中,每次所述组合使用所述逻辑回归特征和/或所述附加特征,且每次组合使用的所述逻辑回归特征和/或所述附加特征部分不同或完全不同,以形成所述信息的多个组合特征;
基于所述信息的每个所述组合特征的权重参数,将所述信息的每个所述组合特征加权求和处理,得到所述信息的第二点击率;
其中,所述组合特征的权重参数是所述组合特征所包括的逻辑回归特征和/或所述附加特征的点击率关联影响因子的乘积。
5.根据权利要求4所述的方法,其特征在于,
所述信息的附加特征的类型包括一阶特征和多阶特征;
所述获取所述信息的附加特征,包括:
获取所述信息的点击用户的多个维度的用户特征,并将每个所述维度的用户特征作为所述一阶特征;
通过以下组合方式至少之一得到所述多阶特征:
将所述点击用户的至少一个维度的用户特征与所述信息的至少一个维度相关的特征组合;将所述点击用户的至少一个维度的用户特征与环境相关的至少一个维度的特征组合。
6.根据权利要求4所述的方法,其特征在于,将所述信息的多个逻辑回归特征、以及多个附加特征进行不同方式地组合,包括:
执行以下操作至少之一:
将至少两个不同的所述逻辑回归特征进行相乘处理,将得到的相乘结果作为对应的组合特征;
将至少一个所述逻辑回归特征和至少一个所述附加特征进行相乘处理,将得到的相乘结果作为对应的组合特征;
将至少两个不同的所述附加特征进行相乘处理,将得到的相乘结果作为对应的组合特征。
7.根据权利要求4所述的方法,其特征在于,所述基于所述信息的每个所述组合特征的权重参数,将所述信息的每个所述组合特征加权求和处理,得到所述信息的第二点击率,包括:
以所述信息的每个所述组合特征的点击率影响因子为权重参数,对所述信息的每个所述组合特征进行加权求和处理,得到第一加权求和结果;
以所述多个逻辑回归特征以及所述多个附加特征分别对应的点击率影响因子为权重参数,对所述多个逻辑回归特征以及所述多个附加特征进行加权求和处理,得到第二加权求和结果;
将所述第一加权求和结果和所述第二加权求和结果的加和进行偏置处理,得到所述信息的第二点击率。
8.根据权利要求1所述的方法,其特征在于,所述基于所述第一信息集合中每个信息的逻辑回归特征,预测对应的第一点击率,包括:
针对所述第一信息集合中的每个信息执行以下处理:
以所述信息的多个所述逻辑回归特征分别对应的点击率影响因子为权重,对多个所述逻辑回归特征进行加权求和处理;
对加权求和处理结果进行偏置处理,得到对应所述信息的第一点击率。
9.根据权利要求1所述的方法,其特征在于,所述从所述第一点击率的降序排序结果中选取排序在前的多个信息,以形成第二信息集合,包括:
将所述第一信息集合中第一点击率最高的信息转移到第二信息集合,以作为所述第二信息集合中的首个信息;
当所述第二信息集合中的信息的数目小于信息数目阈值时,针对所述第一信息集合中第一点击率最高的信息,执行以下处理:
确定所述第一信息集合中第一点击率最高的信息与所述首个信息之间的语义距离;
当所述语义距离大于语义距离阈值时,将所述第一点击率最高的信息从所述第一信息集合转移到所述第二信息集合,并更新为所述第二信息集合中的首个信息。
10.根据权利要求1所述的方法,其特征在于,
所述第二点击率的预测是通过调用因子分解机模型实现的;
在获取第一信息集合中每个信息的逻辑回归特征之前,所述方法还包括:
将窗口时间内的点击日志、展示日志以及特征日志合并成推荐日志,并从所述推荐日志中获取信息样本以及对应的真实第二点击率;
对所获取的信息样本的多个逻辑回归特征以及多个附加特征进行基于特征频次的过滤处理,得到对应所述信息样本的训练特征;
将所述信息样本的训练特征,在所述因子分解机模型中进行正向传播,并在所述因子分解机模型中进行反向传播,以基于所述真实第二点击率更新所述因子分解机模型的点击率影响因子和点击率关联影响因子。
11.根据权利要求10所述的方法,其特征在于,
所述对所获取的信息样本的多个逻辑回归特征以及多个附加特征进行基于特征频次的过滤处理,得到对应所述信息样本的训练特征,包括:
确定所述多个逻辑回归特征以及所述多个附加特征的对应的特征频次;
将特征频次超过特征频次阈值的特征转移至正式特征集合,将所述正式特征集合中包括的训练特征作为所述信息样本的训练特征;
所述方法还包括:
当特征频次不超过所述特征频次阈值的特征转移至淘汰特征集合;
当所述正式特征集合的累积未更新时长超出时长阈值内,将所述正式特征池的中的特征从所述正式特征集合转移至所述淘汰特征集合。
12.根据权利要求10所述的方法,其特征在于,
所述将所述信息样本的训练特征,在所述因子分解机模型中进行正向传播,包括:
初始化所述因子分解机模型,并执行以下处理:
将每个所述信息样本的训练特征在所述因子分解机模型的各个层中进行正向传播,以得到对应所述信息样本的预测的第二点击率;
所述在所述因子分解机模型中进行反向传播,以基于所述真实第二点击率更新所述因子分解机模型的点击率影响因子和点击率关联影响因子,包括:
初始化包括所述信息样本的训练特征以及对应所述信息样本的预测的第二点击率的损失函数;
确定所述信息样本的预测的第二点击率和所述真实第二点击率之间的误差,并根据所述损失函数在所述因子分解机模型中反向传播所述误差,以
确定所述损失函数取得最小值时所述因子分解机模型的变化值,并基于所述变化值更新所述因子分解机模型的点击率影响因子和点击率关联影响因子。
13.一种基于人工智能的信息推荐装置,其特征在于,所述装置包括:
特征获取模块,用于获取第一信息集合中每个信息的逻辑回归特征;
第一点击率预测模块,用于基于所述第一信息集合中每个信息的逻辑回归特征,预测对应的第一点击率,并
从所述第一点击率的降序排序结果中选取排序在前的多个信息,以形成第二信息集合;
推荐模块,用于基于所述第二信息集合中每个信息的多个逻辑回归特征、以及所述多个逻辑回归特征之间的关联关系,预测对应的第二点击率,并基于所述第二点击率的降序排序结果执行推荐操作。
14.一种电子设备,其特征在于,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至12任一项所述的基于人工智能的信息推荐方法。
15.一种计算机可读存储介质,其特征在于,存储有可执行指令,用于被处理器执行时,实现权利要求1至12任一项所述的基于人工智能的信息推荐方法。
CN202010435593.XA 2020-05-21 2020-05-21 基于人工智能的信息推荐方法、装置、电子设备 Active CN111611488B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010435593.XA CN111611488B (zh) 2020-05-21 2020-05-21 基于人工智能的信息推荐方法、装置、电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010435593.XA CN111611488B (zh) 2020-05-21 2020-05-21 基于人工智能的信息推荐方法、装置、电子设备

Publications (2)

Publication Number Publication Date
CN111611488A true CN111611488A (zh) 2020-09-01
CN111611488B CN111611488B (zh) 2022-09-30

Family

ID=72199801

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010435593.XA Active CN111611488B (zh) 2020-05-21 2020-05-21 基于人工智能的信息推荐方法、装置、电子设备

Country Status (1)

Country Link
CN (1) CN111611488B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112785390A (zh) * 2021-02-02 2021-05-11 微民保险代理有限公司 推荐处理方法、装置、终端设备以及存储介质
CN113313545A (zh) * 2021-04-19 2021-08-27 深圳市竹芒信息技术有限公司 信息推荐方法、装置、计算机设备和存储介质
CN113961518A (zh) * 2021-09-08 2022-01-21 北京百度网讯科技有限公司 日志的可视化展示方法、装置、电子设备及存储介质
CN114491283A (zh) * 2022-04-02 2022-05-13 浙江口碑网络技术有限公司 对象推荐方法、装置及电子设备
CN116091000A (zh) * 2023-02-14 2023-05-09 深圳市万特网络科技有限公司 一种基于oa系统的资源智能化管理系统及方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230386584A1 (en) * 2022-05-27 2023-11-30 Sandisk Technologies Llc Systems and methods of correcting errors in unmatched memory devices

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109359247A (zh) * 2018-12-07 2019-02-19 广州市百果园信息技术有限公司 内容推送方法及存储介质、计算机设备
CN109992710A (zh) * 2019-02-13 2019-07-09 网易传媒科技(北京)有限公司 点击率预估方法、系统、介质和计算设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109359247A (zh) * 2018-12-07 2019-02-19 广州市百果园信息技术有限公司 内容推送方法及存储介质、计算机设备
CN109992710A (zh) * 2019-02-13 2019-07-09 网易传媒科技(北京)有限公司 点击率预估方法、系统、介质和计算设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
武泽群: "面向电子商务网站的在线广告系统的设计与实现", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
马雅从: "基于特征组合的展示广告点击率预估模型研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112785390A (zh) * 2021-02-02 2021-05-11 微民保险代理有限公司 推荐处理方法、装置、终端设备以及存储介质
CN112785390B (zh) * 2021-02-02 2024-02-09 微民保险代理有限公司 推荐处理方法、装置、终端设备以及存储介质
CN113313545A (zh) * 2021-04-19 2021-08-27 深圳市竹芒信息技术有限公司 信息推荐方法、装置、计算机设备和存储介质
CN113313545B (zh) * 2021-04-19 2024-04-23 深圳市竹芒信息技术有限公司 信息推荐方法、装置、计算机设备和存储介质
CN113961518A (zh) * 2021-09-08 2022-01-21 北京百度网讯科技有限公司 日志的可视化展示方法、装置、电子设备及存储介质
CN113961518B (zh) * 2021-09-08 2022-09-23 北京百度网讯科技有限公司 日志的可视化展示方法、装置、电子设备及存储介质
CN114491283A (zh) * 2022-04-02 2022-05-13 浙江口碑网络技术有限公司 对象推荐方法、装置及电子设备
CN114491283B (zh) * 2022-04-02 2022-07-22 浙江口碑网络技术有限公司 对象推荐方法、装置及电子设备
CN116091000A (zh) * 2023-02-14 2023-05-09 深圳市万特网络科技有限公司 一种基于oa系统的资源智能化管理系统及方法
CN116091000B (zh) * 2023-02-14 2023-12-08 宁波紫熙物联科技有限公司 一种基于oa系统的资源智能化管理系统及方法

Also Published As

Publication number Publication date
CN111611488B (zh) 2022-09-30

Similar Documents

Publication Publication Date Title
CN111339433B (zh) 基于人工智能的信息推荐方法、装置、电子设备
CN107423442B (zh) 基于用户画像行为分析的应用推荐方法及系统,储存介质及计算机设备
CN111611488B (zh) 基于人工智能的信息推荐方法、装置、电子设备
CN111291266B (zh) 基于人工智能的推荐方法、装置、电子设备及存储介质
US20210150372A1 (en) Training method and system for decision tree model, storage medium, and prediction method
CN111797321B (zh) 一种面向不同场景的个性化知识推荐方法及系统
CN111475730A (zh) 基于人工智能的信息推荐方法、装置、电子设备
CN111538912A (zh) 内容推荐方法、装置、设备及可读存储介质
CN112307762B (zh) 搜索结果的排序方法及装置、存储介质、电子装置
CN113626719A (zh) 信息推荐方法、装置、设备、存储介质及计算机程序产品
CN113536097B (zh) 基于自动特征分组的推荐方法及装置
CN112800326B (zh) 一种改进的多任务学习与知识图谱结合的Ripp-MKR推荐方法
CN111967971A (zh) 银行客户数据处理方法及装置
CN112749330B (zh) 信息推送方法、装置、计算机设备和存储介质
CN111428133A (zh) 基于人工智能的推荐方法、装置、电子设备及存储介质
CN116910357A (zh) 一种数据处理方法及相关装置
WO2023087933A1 (zh) 内容推荐方法、装置、设备、存储介质及程序产品
CN113051468B (zh) 一种基于知识图谱和强化学习的电影推荐方法及系统
CN115809339A (zh) 跨领域推荐方法、系统、设备及存储介质
CN111984842B (zh) 银行客户数据处理方法及装置
CN114996435A (zh) 基于人工智能的信息推荐方法、装置、设备及存储介质
CN115858911A (zh) 信息推荐方法、装置、电子设备及计算机可读存储介质
CN113360772A (zh) 一种可解释性推荐模型训练方法与装置
CN114996561B (zh) 一种基于人工智能的信息推荐方法及装置
CN111291904B (zh) 偏好预测方法、装置及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant