CN115660783A - 模型训练方法、商品推荐方法、装置、设备及介质 - Google Patents
模型训练方法、商品推荐方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN115660783A CN115660783A CN202211382541.6A CN202211382541A CN115660783A CN 115660783 A CN115660783 A CN 115660783A CN 202211382541 A CN202211382541 A CN 202211382541A CN 115660783 A CN115660783 A CN 115660783A
- Authority
- CN
- China
- Prior art keywords
- user
- sample
- vector
- feature vector
- commodities
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种模型训练方法、商品推荐方法、装置、设备及介质。该方法包括:获取初始样本数据集;根据初始样本数据集,获取第一样本数据集;所述第一样本数据集中每个第一样本用户的样本数据包括:基于初始样本数据得到的第一样本用户的特征向量,以及,第一样本用户的标签向量;所述特征向量用于表征所述第一样本用户的短期意图特征,以及,长期偏好特征;利用第一样本数据集对初始模型进行训练,得到训练好的第一预测模型;然后通过该第一预测模型预测目标用户的商品偏好向量;根据该商品偏好向量,从目标应用的商品中确定待推荐商品;向目标用户的终端设备推送待推荐商品的商品信息。本申请的方法,提高了商品推荐的准确性。
Description
技术领域
本申请涉及商品推荐技术,尤其涉及一种模型训练方法、商品推荐方法、装置、设备及介质。
背景技术
通过推荐引擎对目标应用中用户感兴趣的商品进行推荐,以帮助用户更高效的找到自己所需的商品,降低信息过载,是在信息爆发的当今社会中常用的方法。
现有技术中,推荐引擎设置有多个模型,不同模型用于基于不同维度的用户数据进行商品推荐,导致上述商品推荐方法存在推荐准确度较低的问题。
发明内容
本申请提供一种模型训练方法、商品推荐方法、装置、设备及介质,用以解决推荐引擎推荐商品准确性较差的问题。
第一方面,本申请提供一种模型训练方法,所述方法包括:
获取初始样本数据集,所述初始样本数据集中每个第一样本用户的初始样本数据包括:所述第一样本用户的基础数据、所述第一样本用户的互联网使用数据;
根据所述初始样本数据集,获取第一样本数据集,所述第一样本数据集中每个第一样本用户的样本数据包括:基于所述初始样本数据得到的所述第一样本用户的特征向量,以及,所述第一样本用户的标签向量;所述特征向量用于表征所述第一样本用户的短期意图特征,以及,长期偏好特征,所述第一样本用户的标签向量用于表征目标应用的K类商品中所述第一样本用户偏好的商品类别,所述K为大于或等于2的整数;
利用所述第一样本数据集对初始模型进行训练,得到训练好的第一预测模型,所述第一预测模型用于根据目标用户的特征向量,获取所述目标用户商品偏好向量,所述偏好向量用于表征所述目标用户在所述目标应用的K类商品中偏好的商品类别。
可选的,所述根据所述初始第一样本数据集,获取第一样本数据集,包括:
针对每个所述第一样本用户的初始样本数据,执行如下操作:
根据所述第一样本用户的互联网使用数据中互联网的浏览行为数据,构建所述第一样本用户的短期意图特征向量;
若所述第一样本用户的互联网使用数据中包括目标类别的应用的浏览内容数据,则根据所述目标类别的应用的浏览内容数据,构建所述第一样本用户针对K类商品的第一长期偏好特征向量,并将第一预设特征向量作为所述第一样本用户针对K类商品的第二长期偏好特征向量,所述目标类别的应用包括:所述目标应用;
若所述第一样本用户的互联网使用数据中不包括所述目标类别的应用的浏览内容数据,则根据所述第一样本用户的基础数据,构建所述第一样本用户针对K类商品的第二长期偏好特征向量,并将预设第二特征向量作为所述第一样本用户针对K类商品的第一长期偏好特征向量;
根据所述第一样本用户的短期意图特征向量、第一长期偏好特征向量、第二长期偏好特征向量,构建所述第一样本用户的特征向量;
获取每个所述第一样本用户的标签向量,并根据每个所述第一样本用户的特征向量,以及,每个所述第一样本用户的标签向量,构建所述第一样本数据集。
可选的,所述根据所述第一样本用户的互联网使用数据中互联网的浏览行为数据,构建所述第一样本用户的短期意图特征向量,包括:
根据所述第一样本用户的互联网使用数据中互联网的浏览行为数据,获取所述第一样本用户针对多类应用中的每类应用在不同时间滑窗内的短期意图特征,以及,所述第一样本用户针对每类应用的每个子类应用在不同时间滑窗内的短期意图特征;
根据所述第一样本用户针对每类应用在不同时间滑窗内的短期意图特征,以及,所述第一样本用户针对每类应用的每个子类应用在不同时间滑窗内的短期意图特征,构建所述第一样本用户的短期意图特征向量。
可选的,所述根据所述目标类别的应用的浏览内容数据,构建所述第一样本用户针对K类商品的第一长期偏好特征向量,包括:
根据所有第一样本用户针对所述目标类别的应用的浏览内容数据,获取全量商品向量矩阵,所述全量商品向量矩阵包括所有第一样本用户在所述目标类别的应用上浏览过的所有商品的向量;
对所述全量商品向量矩阵进行聚类,得到K类商品的分类结果;
根据所述第一样本用户针对所述目标类别的应用的浏览内容数据,以及,所述分类结果,获取所述第一样本用户的第一长期偏好特征向量。
可选的,所述根据所有第一样本用户针对所述目标类别的应用的浏览内容数据,获取所述全量商品向量矩阵,包括:
根据各所述第一样本用户针对所述目标类别的应用的浏览内容数据,获取各所述第一样本用户的浏览特征向量;所述浏览特征向量用于表征所述第一样本用户浏览过的商品;
根据各所述第一样本用户的浏览特征向量,获取浏览特征向量矩阵;所述浏览特征向量矩阵包括所有用户的浏览特征向量;
利用所述浏览特征向量矩阵,获取所述全量商品向量矩阵。
可选的,所述根据所述第一样本用户针对所述目标类别的应用的浏览内容数据,以及,所述分类结果,获取所述第一样本用户的第一长期偏好特征向量,包括:
根据所述第一样本用户针对所述目标类别的应用的浏览内容数据,以及,所述分类结果,获取所述第一样本用户针对K类商品中每类商品的浏览概率;
根据所述第一样本用户针对K类商品中每类商品的浏览概率,得到所述第一样本用户的第一长期偏好特征向量。
可选的,所述根据所述第一样本用户的基础数据,构建所述第一样本用户针对K类商品的第二长期偏好特征向量,包括:
对所述全量商品向量矩阵进行聚类处理,得到K类商品的中心向量矩阵;
根据所述第一样本用户的基础数据,获取所述第一样本用户的基础数据向量;
将所述第一样本用户的基础数据向量,以及,所述中心向量矩阵输入至预先训练好的第二预测模型,得到所述第一样本用户针对K类商品的预测评分;所述第二预测模型为采用第二样本数据集训练得到的,所述第二样本数据集中每个第二样本用户的样本数据包括:第二样本用户的基础数据向量、第二样本用户的商品向量矩阵,以及,所述第二样本用户对商品的评分向量;所述第二样本用户的商品向量矩阵包括所述第二样本用户在所述目标类别的应用上浏览过的所有商品的向量;
根据所述第一样本用户针对K类商品的预测评分,得到所述第一样本用户的第二长期偏好特征向量。
可选的,所述根据所述第一样本用户的短期意图特征向量、第一长期偏好特征向量、第二长期偏好特征向量,构建所述第一样本用户的特征向量,包括:
根据所有第一样本用户的第一长期偏好特征向量,获取所述第一样本用户针对K类商品的每类商品的第一偏好分位点;
根据所有所述第一样本用户的第二长期偏好特征向量,获取所述第一样本用户针对K类商品的每类商品的第二偏好分位点;
将所述样本用户针对K类商品的每类商品的第一偏好分位点,与,第一长期偏好特征向量对应的置信因子相乘,得到所述第一长期偏好特征向量对应的第一融合特征向量;
将所述第一样本用户针对K类商品的每类商品的第二偏好分位点,与,第二长期偏好特征向量对应的置信因子相乘,得到所述第二长期偏好特征向量对应的第二融合特征向量;
将所述第一样本用户的短期意图特征向量、第一融合特征向量、第二融合特征向量进行向量融合,得到所述第一样本用户的特征向量。
第二方面,本申请提供一种商品推荐方法,所述方法包括:
获取目标用户的特征向量,所述特征向量用于表征所述目标用户的短期意图特征,以及,长期偏好特征;
将所述目标用户的特征向量输入至采用如权利要求1-8任一项所述的方法训练得到的第一预测模型,得到所述目标用户的商品偏好向量,所述偏好向量用于表征所述目标用户在目标应用的K类商品中偏好的商品类别;
根据所述目标用户商品偏好向量,从所述目标应用的商品中确定待推荐商品;
向所述目标用户的终端设备推送所述待推荐商品的商品信息。
可选的,所述根据所述目标用户商品偏好向量,从所述目标应用的商品中确定待推荐商品,包括:
根据所述目标用户商品偏好向量,从所述目标应用的商品中确定n个候选商品向量,所述n为大于或等于2的整数,所述n个候选商品均属于所述偏好的商品类别;
根据n个候选商品向量,以及,K类商品的中心向量矩阵,获取候选商品的相似度矩阵;所述候选商品的相似度矩阵包括:每个候选商品与每类商品的相似度;
根据所述目标用户商品偏好向量,以及,所述候选商品的相似度矩阵,获取所述目标用户针对n个候选商品的偏好得分向量;
根据所述目标用户针对n个候选商品的偏好得分向量,从n个候选商品中确定待推荐商品。
可选的,所述获取目标用户的特征向量,包括:从数据库中获取存储的所述目标用户的特征向量;
所述方法还包括:
根据第一更新周期,更新基于所述目标用户针对互联网的浏览行为数据得到的短期意图特征向量,并利用更新后的目标用户的短期意图特征向量,更新所述数据库中存储的所述目标用户的特征向量;所述短期意图特征向量用于表征所述目标用户的短期意图特征;
和/或
根据第二更新周期,更新基于所述目标用户针对所述目标应用的浏览内容数据得到的针对K类商品的第一长期偏好特征向量,或,基于所述目标用户的基础数据得到的针对K类商品的第二长期偏好特征向量,并利用更新后的目标用户的第一长期偏好特征向量或第二长期偏好特征向量,更新所述数据库中存储的所述目标用户的特征向量;其中,所述第二更新周期大于所述第一更新周期,所述第一长期偏好特征向量和第二长期偏好特征向量均用于表征所述目标用户的长期偏好特征。
第三方面,本申请提供一种模型训练装置,所述装置包括:
第一获取模块,用于获取初始样本数据集,所述初始样本数据集中每个第一样本用户的初始样本数据包括:所述第一样本用户的基础数据、所述第一样本用户的互联网使用数据;
第二获取模块,用于根据所述初始样本数据集,获取第一样本数据集,所述第一样本数据集中每个第一样本用户的样本数据包括:基于所述初始样本数据得到的所述第一样本用户的特征向量,以及,所述第一样本用户的标签向量;所述特征向量用于表征所述第一样本用户的短期意图特征,以及,长期偏好特征,所述第一样本用户的标签向量用于表征目标应用的K类商品中所述第一样本用户偏好的商品类别,所述K为大于或等于2的整数;
训练模块,用于利用所述第一样本数据集对初始模型进行训练,得到训练好的第一预测模型,所述第一预测模型用于根据目标用户的特征向量,获取所述目标用户商品偏好向量,所述偏好向量用于表征所述目标用户在所述目标应用的K类商品中偏好的商品类别。
第四方面,本申请提供一种商品推荐装置,所述装置包括:
获取模块,用于获取目标用户的特征向量,所述特征向量用于表征所述目标用户的短期意图特征,以及,长期偏好特征;
输入模块,用于将所述目标用户的特征向量输入至采用如权利要求1-8任一项所述的方法训练得到的第一预测模型,得到所述目标用户的商品偏好向量,所述偏好向量用于表征所述目标用户在目标应用的K类商品中偏好的商品类别;
确定模块,用于根据所述目标用户商品偏好向量,从所述目标应用的商品中确定待推荐商品;
推送模块,用于向所述目标用户的终端设备推送所述待推荐商品的商品信息。
第五方面,本申请提供一种电子设备,包括:处理器,以及与所述处理器通信连接的存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,以实现第一方面任一项所述的模型训练方法,和/或,实现第二方面任一项所述的商品推荐方法。
第六方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现第一方面任一项所述的模型训练方法,和/或,实现第二方面任一项所述的商品推荐方法。
第七方面,本申请提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时用于实现第一方面任一项所述的模型训练方法,和/或,实现第二方面任一项所述的商品推荐方法。
本申请提供的模型训练方法、商品推荐方法、装置、设备及介质,通过将不同维度的用户数据共同用于构建特征向量,同时所构建的特征向量表征用户的短期意图特征和长期偏好特征,然后,基于该构建的特征向量实现商品推荐。通过上述方法,实现了对用户感兴趣的商品的精准推荐。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1为本申请提供的一种商品推荐方法应用场景示意图;
图2为本申请提供的第一种模型训练方法的流程示意图;
图3为本申请提供的第二种模型训练方法的流程示意图;
图4为本申请提供的第三种模型训练方法的流程示意图;
图5为本申请提供的第四种模型训练方法的流程示意图;
图6为本申请提供的第五种模型训练方法的流程示意图;
图7为本申请提供的第一种商品推荐方法的流程示意图;
图8为本申请提供的第二种商品推荐方法的流程示意图;
图9为本申请提供的一种模型训练装置的结构示意图;
图10为本申请提供的一种商品推荐装置的结构示意图;
图11为本申请提供的一种电子设备的结构示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
本申请涉及的目标应用可以是任一购物类应用(application,APP)。
图1为本申请提供的一种商品推荐方法应用场景示意图。如图1所示,推荐引擎可以部署在目标应用的后端服务器中,也可以是部署在独立于目标应用的后端服务器之外的设备或平台上,通过目标应用的后端服务器进行商品推荐。图1是以推荐引擎部署在目标应用的后端服务器中为例的示意图。
用户终端通过APP获取用户的数据,然后将该数据传输至推荐引擎。然后,推荐引擎根据该用户数据获得用户感兴趣的待推荐商品,通过后端服务器输出至用户终端,通过APP显示供用户浏览查看,这样可以节省用户在海量商品中挑选自己所需商品需要耗费的时间。
用户的数据有多个维度,例如用户的基础数据(例如用户姓名、年龄、性别等)、互联网浏览内容数据(用户浏览的商品种类)等。
现有技术中,推荐引擎部署有根据不同的数据维度进行商品推荐的模型,用于预测用户的商品偏好。以用户数据包括3个维度的数据为例,则推荐引擎需部署有3个商品推荐模型。
当需要进行商品推荐时,推荐引擎利用所获取的用户数据的维度对应的商品推荐模型,使用该用户数据预测用户感兴趣的商品,以进行商品推荐。
然而,上述商品推荐的方式,存在推荐准确度低的问题。
发明人研究发现,现有技术中根据不同的数据维度分别建模,然后基于该模型采用对应的维度数据进行商品推荐的方式,每次只能基于单一维度的用户数据进行商品推荐。然而,单一维度的用户数据的数据量较小,无法精准反应用户的商品偏好情况,进而导致最终的推荐结果不够精准。
虽然,现有技术中也有方案提出使用多维度的用户数据进行商品推荐。但是,现有技术的方案仅是将全量的用户数据输入商品推荐模型中,并未对不同维度的数据所能体现的用户商品偏好特征实现精准的把控,导致商品推荐模型进行用户偏好商品预测时,存在信息损失,进而导致推荐准确度低的问题。
有鉴于此,本申请提供一种商品推荐方法,根据多种不同维度的数据建立特征向量,且根据数据维度的不同,将用于构建特征向量的特征值分为短期意图特征和长期偏好特征。采用上述特征向量进行模型训练,使得推荐引擎可以通过上述训练好的商品推荐模型实现用户所偏好的商品的精准推荐。此外,通过推荐引擎基于一个模型进行商品推荐,则推荐引擎只需要配置一个模型即可,减少内存占用,释放更多内存用户进行商品推荐的计算,可以加快计算速率。再者,现有技术在采用模型进行商品推荐之前需要先对数据维度进行判断,而当采用本申请提供的商品推荐方法进行商品推荐时节省了进行数据维度判断所需的时间,进一步加快了商品推荐速度。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
本申请包括模型训练方法和利用训练好的模型进行商品推荐两部分,下面首先对如何进行模型训练进行介绍。需要说明的是,本申请提供的模型训练方法的执行主体可以是用户终端,例如手机、平板等;也可以是其他电子设备,例如服务器;还可以是部署在云端的电子设备,例如部署在云端的服务器;本申请不对执行主体进行限定。
下面以执行主体为电子设备为例对如何进行模型训练进行说明,图2为本申请提供的第一种模型训练方法的流程示意图,如图2所示,包括以下步骤:
S101、获取初始样本数据集。
上述初始样本数据集包括第一样本用户的初始样本数据。初始样本数据集中每个第一样本用户的初始样本数据包括:第一样本用户的基础数据、第一样本用户的互联网使用数据。
上述基础数据用于表征第一样本用户的基础信息,例如可以是第一样本用户的年龄、性别、工作、居住地省份城市、反映经济水平的特征(如居住地房价、话费、机型)、工作性质特征(如是否差旅人士、是否加班人士)中的一项或者多项,本申请不对基础数据所包括的内容进行限定。
上述互联网使用数据可以仅包括互联网的浏览行为数据,也可以既包括互联网行为数据也包括互联网内容数据。互联网行为数据可以用于表征第一样本用户浏览APP的情况,例如可以是第一样本用户浏览不同种类的APP的次数、流量消耗情况、时间等中的一项或多项。互联网内容数据可以用于表征第一样本用户浏览APP中具体内容的数据,例如可以是浏览APP中商品的种类、顺序、次数、点赞次数、收藏次数、购买次数等中的一项或多项,本申请不对其进行限定。
作为一种可能的实现方式,上述初始样本数据集例如可以是移动通信系统进行搜集后,存储至移动通信系统的数据库中的。在该实现方式下,上述第一样本用户可以是拥有基础数据和互联网使用数据且同意移动通信系统获取其初始样本数据的用户。或者,上述初始样本数据集可以是线下抽样部分用户,对其终端进行数据采集得到的。
S102、根据初始样本数据集,获取第一样本数据集。
上述第一样本数据集中每个第一样本用户的样本数据包括:基于初始样本数据得到的第一样本用户的特征向量,以及,第一样本用户的标签向量。
上述特征向量用于表征第一样本用户的短期意图特征,以及,长期偏好特征。示例性的,上述特征向量可以包括短期意图特征,以及,长期偏好特征;或者,上述特征向量可以包括短期意图特征,以及,长期偏好特征经加工后获得特征向量。本申请不对特征向量表征第一样本用户的短期意图特征,以及,长期偏好特征的方式进行限定。
上述短期意图特征用于表征第一样本用户短期的商品偏好情况。该短期意图特征例如可以是第一样本用户浏览应用的次数,或,所消耗的流量值,本申请不对其进行限定。
上述长期偏好特征用于表征第一样本用户长期的商品偏好情况。该长期偏好特征例如可以是第一样本用户浏览商品的次数,或者,浏览商品的次数占其所浏览的全部商品的次数的概率,本申请不对其进行限定。
作为一种可能的实现方式,电子设备根据第一样本用户的互联网的浏览行为数据构建短期意图特征;判断第一样本用户的互联网使用数据中是否包括互联网的浏览内容数据,若包括,则根据互联网内容数据构建长期偏好特征;若不包括,则根据第一样本用户的基础数据构建长期偏好特征。
作为另一种可能的实现方式,电子设备根据第一样本用户的互联网的浏览行为数据构建短期意图特征;当第一样本用户的互联网使用数据中包括互联网浏览内容数据时,采用互联网浏览内容数据和基础数据构建长期偏好特征;当第一样本用户的互联网使用数据中不包括互联网浏览内容数据时,采用基础数据构建长期偏好特征。
上述第一样本用户的标签向量用于表征第一样本用户目标应用的K类商品中第一样本用户偏好的商品类别,其中,K为大于或等于2的整数。上述K类商品可以是通过聚类的方式将目标应用的中的全部商品分成K类而获得的。
上述标签向量可以包括K个元素,每个元素对应K类商品中的一类商品,该元素的取值用于表征第一样本用户对该类商品是否偏好。示例性的,当上述K值为7,用“1”表征第一样本用户偏好该类商品,用“0”表征第一样本用户不偏好该类商品,则上述标签向量例如可以是[1,0,0,0,1,1,0],该标签向量表征第一样本用户偏好第1、5、6类商品,而不偏好其他类别的商品。
作为一种可能的实现方式,电子设备根据第一样本用户的互联网数据中的互联网浏览内容数据,判断第一样本用户对K类商品中的任一类商品是否偏好,进而获取标签向量。示例性的,互联网浏览内容数据中包括第一样本用户对商品的点赞、收藏、购买等情况中的一种或多种,若第一样本用户对其所浏览的商品点赞、收藏,或者,购买,则判断第一样本用户偏好该商品所在的类别;若第一样本用户对其所浏览某一类的商品均未点赞、收藏,或者,购买,则判断第一样本用户不偏好该类商品。
作为另一种可能的实现方式,电子设备可以获取预先标定的第一样本用户的标签向量。本申请不对该预先标定的方式进行限定。例如,通过问卷调查的方式,对第一样本用户对K类商品中的任一种商品是否偏好进行调查,进而获取第一样本用户的标签向量。
S103、利用第一样本数据集对初始模型进行训练,得到训练好的第一预测模型。
第一预测模型用于根据目标用户的特征向量,获取目标用户商品偏好向量。该第一预测模型可以是任意分类模型,例如K最邻近结点(K-Nearest Neighbor,KNN)算法、支持向量机(Support Vector Machine,SVM)算法等。本申请不对模型的种类进行限制。模型训练过程中的损失函数例如可以是交叉熵函数,本申请不对损失函数的种类进行限制。该第一预测模型也可以称为是商品推荐模型。
上述偏好向量可以包括K个元素,每个元素对应K类商品中的一类商品,该元素的取值用于表征第一样本用户对该类商品的偏好程度,每个元素的取值越高表明目标用户对该类商品的偏好程度越高。示例性的,当上述K值为7,则偏好向量可以是[0.5,0.2,0.7,0,0.3,0.8,0.6]。本步骤中,电子设备以第一样本用户的特征向量作为输入,第一样本用户的标签向量作为输出对初始模型进行训练,直至损失函数达到收敛,即可获得训练好的第一预测模型。
本实施例中,将不同维度的第一样本用户的数据共同用于第一样本数据集中第一样本用户的特征向量的构建,而非仅采用一个维度的数据构建第一样本用户的特征向量。一方面,上述方法考虑到了不同维度的数据均可以表征第一样本用户对商品的偏好情况,因此将不同维度的数据均用于进行模型训练,使得用于进行模型训练的数据量大,有助于更好的通过模型建立第一样本用户的特征向量和其对商品的偏好情况的之间的关联关系,便于后续更加精准的进行商品推荐。
另一方面,第一样本用户的特征向量包括短期意图特征和长期偏好特征。通过上述方法,可以在将特征向量送入模型进行训练之前,即明确出两种特征,避免在仅以来模型进行机器学习时,而造成信息的损失,可以进一步提高商品推荐的精准度。
再一方面,通过推荐引擎基于一个模型进行商品推荐,则推荐引擎只需要配置一个模型即可,减少内存占用,释放更多内存用户进行商品推荐的计算,可以加快计算速率。
又一方面,现有技术在采用模型进行商品推荐之前需要先对数据维度进行判断,而当采用本申请提供的商品推荐方法进行商品推荐时节省了进行数据维度判断所需的时间,进一步加快了商品推荐速度。
下面对如何根据初始样本数据集,获取第一样本数据集,即上述实施例中的步骤S102进行说明。图3为本申请提供的第二种模型训练方法的流程示意图,如图3所示,步骤S102可以包括如下步骤:
针对每个第一样本用户的初始样本数据,执行如下操作:
S201、根据第一样本用户的互联网使用数据中互联网的浏览行为数据,构建第一样本用户的短期意图特征向量。
上述短期意图特征向量包括第一样本用户的短期意图特征,用于表征第一样本用户的短期的商品偏好情况。作为一种可能的实现方式,以第一样本用户在第一历史时长内的针对其所使用的每个APP的互联网的浏览行为数据作为特征值,构建第一样本用户的短期意图特征向量。上述第一历史时长可以是在获取第一样本用户互联网的浏览行为数据时前1个月、2个月,本申请不对其进行限定。示例性的,在此实现方式下,第一样本用户的短期意图特征向量可以是Ug,i=[D1,3,D2,3…Dn,3],其中D1,3表示第一样本用户在3天内针对APP1的短期意图特征,以此类推。
作为另一种可能的实现方式,按照如下步骤构建第一样本用户的短期意图特征向量:
S2011、根据第一样本用户的互联网使用数据中互联网的浏览行为数据,获取第一样本用户针对多类应用中的每类应用在不同时间滑窗内的短期意图特征,以及,第一样本用户针对每类应用的每个子类应用在不同时间滑窗内的短期意图特征。
本步骤中,预先将APP划分成不同的类,作为一级分类,例如汽车类APP、通信类APP、电商类APP、金融类APP等。然后将上述划分的每类APP再细分成不同的子类,作为二级分类,例如通信类APP可以分为邮件通信类APP、短信通信类APP、语音通信类APP等子类APP;汽车类APP可以分为二手车类APP、新车类APP、汽车养护类APP等。本申请不对每类APP及其子类APP的划分方式进行限定,本领域技术人员可以根据实际情况设定。
上述不同时间滑窗例如可以是3天、7天、30天,本申请不对其进行限定。
上述短期意图特征用于表征第一样本用户浏览应用的情况,可以是第一样本用户浏览每类应用,或,每个子类应用的次数;也可以是第一样本用户浏览每类应用,或者,每个子类应用所消耗的流量值,本申请不对其进行限定,本领域技术人员可以根据实际情况进行设定。
作为一种可能的实现方式,电子设备按照预设的APP分类对第一样本用户的互联网使用数据中互联网的浏览行为数据进行加工处理。示例性的,将第一样本用户浏览的属于同一APP分类或子类的APP的浏览行为数据(如浏览每个APP的次数、消耗的流量数)按照不同时间滑窗进行加和处理,获取第一样本用户针对多类应用中的每类应用在不同时间滑窗内的短期意图特征,以及,第一样本用户针对每类应用的每个子类应用在不同时间滑窗内的短期意图特征。示例性,第一样本用户针对汽车类应用的二手车子类应用在时间滑窗为3天时的短期意图特征为15,表征第一样本用户在3天内浏览属于二手车子类的所有应用的次数为15次。
S2012、根据第一样本用户针对每类应用在不同时间滑窗内的短期意图特征,以及,第一样本用户针对每类应用的每个子类应用在不同时间滑窗内的短期意图特征,构建第一样本用户的短期意图特征向量。
将上述第一样本用户针对每类应用在不同时间滑窗内的短期意图特征,以及,第一样本用户针对每类应用的每个子类应用在不同时间滑窗内的短期意图特征作为第一样本用户的短期意图特征向量的特征值,融合后即可获得第一样本用户的短期意图特征向量。
示例性的,第一样本用户的短期意图特征向量例如可以如下所示:
其中L表征一级分类应用,l表征二级分类应用,即每类应用的子类。La,3表示第一样本用户Ui在一级a类APP中3天内的短期意图特征,Lp,30表示第一样本用户Ui在一级p类APP中30天内的期意图特征,表示第一样本用户Ui在一级a类所包括的二级c子类APP中3天内的短期意图特征,表示第一样本用户Ui在一级b类所包括的二级q子类APP中30天内的短期意图特征,以此类推。
S202、判断第一样本用户的互联网使用数据中是否包括目标类别应用的浏览内容数据。
上述目标类别应用包括目标应用。上述目标类别应用可以是采用上述实施例中的对应用的分类方式划分出的一级分类中的一类应用,也可以是二级分类中的子类中的一类应用,还可以是采用其他应用分类方式确定的类别中的一类应用,本申请不对其进行限定。
第一样本用户基于自身对商品的偏好来对目标类别的应用进行浏览而产生对应的浏览内容数据,因此,相较于第一样本用户的基础数据,目标类别应用的浏览内容数据能更加直观的反应用户对商品的偏好。虽然第一样本用户的基础数据无法直观的反应用户对商品的偏好,但是基础数据往往和第一样本用户的商品偏好相关联,可以一定程度上反应第一样本用户的商品偏好。
当第一样本用户的互联网使用数据中包括目标类别应用的浏览内容数据时,基于该浏览内容数据即可实现对第一样本用户的偏好商品的预测,而无需再使用基础数据,这样可以避免算力资源的浪费;当第一样本用户的互联网使用数据中不包括目标类别应用的浏览内容数据时,可以采用基础数据对用于预测第一样本用户的偏好商品的模型进行训练,以在一定程度上弥补浏览内容数据缺失时,数据维度过于单一,造成准确性较低的问题。
基于以上内容,需要对第一样本用户的互联网使用数据中是否包括目标类别应用的浏览内容数据进行判断,以采用不同的方式创建特征向量。
若第一样本用户的互联网使用数据中包括目标类别的应用的浏览内容数据,则执行步骤S203。
若第一样本用户的互联网使用数据中不包括目标类别的应用的浏览内容数据,则执行步骤S204。
需要说明的是,步骤S201和步骤S202执行顺序不分先后。
S203、根据目标类别的应用的浏览内容数据,构建第一样本用户针对K类商品的第一长期偏好特征向量,并将第一预设特征向量作为第一样本用户针对K类商品的第二长期偏好特征向量。
上述第一长期偏好特征向量用于表征第一样本用户对K类商品的偏好情况。
上述第二长期偏好特征为根据第一样本用户的基础数据构建的,用于表征第一样本用户对K类商品的偏好情况。
第一预设特征向量用于对第一样本用户的特征向量中的第二长期偏好特征向量进行补位处理,而不表征第一样本用户的商品偏好情况。示例性的,第一预设特征向量可以是[0,0,0,0,0,0,0],其中商品类别数量K为7。本申请不对第一预设特征向量的设定方式进行限定。
作为一种可能的实现方式,电子设备对所有第一样本用户浏览的目标类别的应用的商品进行分类(例如可以根据性能、外形特点等进行分类),得到K类商品。然后根据目标类别的应用的浏览内容数据获取第一样本用户分别针对K类商品的浏览次数,作为长期偏好特征,并将该长期偏好特征作为第一长期偏好特征向量的特征值,构建第一长期偏好特征向量。
作为另一种可能的实现方式,电子设备根据所有第一样本用户针对目标类别的应用的浏览内容数据,获取全量商品向量矩阵;接着对全量商品向量矩阵进行聚类,得到K类商品的分类结果。然后根据第一样本用户针对目标类别的应用的浏览内容数据,以及,上述分类结果,获取第一样本用户的第一长期偏好特征向量。
S204、根据第一样本用户的基础数据,构建第一样本用户针对K类商品的第二长期偏好特征向量,并将预设第二特征向量作为第一样本用户针对K类商品的第一长期偏好特征向量。
上述第二预设特征向量用于对第一样本用户的第一长期偏好特征向量进行补位处理,而不表征第一样本用户的商品偏好情况。示例性的,第二预设特征向量可以是[0,0,0,0,0,0,0],其中商品类别数量K为7。本申请不对第二预设特征向量的设定方式进行限定。
第一预设特征向量和第二预设特征向量可以相同也可以不同,本申请不对其进行限定。
作为一种可能的实现方式,根据第一样本用户的基础数据建立基础数据向量;然后将基础数据向量作为输入,输入至预先训练好的模型中,获得第一样本用户针对K类商品的第二长期偏好特征向量,并将预设第二特征向量作为第一样本用户针对K类商品的第一长期偏好特征向量。
上述预先训练好的模型为以模型训练用户的基础数据向量作为输入,模型训练用户的标签向量作为输出,训练获得的。
上述模型训练用户可以是拥有基础数据且同意被获取上述基础数据以及模型训练用户的标签向量的用户。上述的同意被获取上述基础数据以及模型训练用户的标签向量的用户,例如可以是专门召集的签署了同意被获取上述
基础数据以及模型训练用户的标签向量相关协议的用户,或者可以是在使用互联网应用时同意该互联网应用获取并使用其基础数据以及模型训练用户的标签向量的用户。
作为另一种可能的实现方式,电子设备根据所有第一样本用户针对目标类别的应用的浏览内容数据,获取全量商品向量矩阵;然后对全量商品向量矩阵进行聚类处理,得到K类商品的中心向量矩阵;根据第一样本用户的基础数据,获取第一样本用户的基础数据向量;根据第一样本用户的基础数据向量,以及,上述中心向量矩阵得到第一样本用户的第二长期偏好特征向量,并将预设第二特征向量作为第一样本用户针对K类商品的第一长期偏好特征向量。
S205、根据第一样本用户的短期意图特征向量、第一长期偏好特征向量、第二长期偏好特征向量,构建第一样本用户的特征向量。
作为一种可能的实现方式,电子设备以第一样本用户的短期意图特征向量中的短期意图特征,以及,第一长期偏好特征向量和第二长期偏好特征向量的长期偏好特征,作为第一样本用户的特征向量的特征值,来构建第一样本用户的特征向量。
作为另一种可能的实现方式,电子设备根据所有第一样本用户的第一长期偏好特征向量,获取样本用户针对K类商品的每类商品的第一偏好分位点;根据所有第一样本用户的第二长期偏好特征向量,获取样本用户针对K类商品的每类商品的第二偏好分位点;然后,根据第一样本用户的短期意图特征向量、第一偏好分位点、第二偏好分位点构建第一样本用户的特征向量。S206、获取每个第一样本用户的标签向量,并根据每个第一样本用户的特征向量,以及,每个第一样本用户的标签向量,构建第一样本数据集。
本步骤中,每个第一样本用户的标签向量的获取方式同于上述实施例中步骤S102中标签向量的获取方式,在此不再赘述。
第一样本数据集包括所有第一样本用户的样本数据;每个第一样本用户的样本数据包括:该第一样本用户的特征向量,以及,该第一样本用户的标签向量。
本实施例中,一方面,根据第一样本用户的短期意图特征向量、第一长期偏好特征向量、第二长期偏好特征向量,构建第一样本用户的特征向量,这样该特征向量表征第一样本用户的短期意图特征和长期偏好特征,相较于现有技术中通过模型直接对所获取的用户数据进行学习,事先明确短期意图特征和长期偏好特征可以避免模型未通过学习明确上述两个特征,可以避免信息丢失,提高后期商品推荐预测的准确性。
另一方面,根据互联网的浏览行为数据,构建第一样本用户的短期意图特征向量;根据互联网浏览内容数据构建第一长期偏好特征向量,根据基础数据构建第二长期偏好特征向量。互联网浏览行为数据具有变化快的特点,可以体现用户的短期意图特征;虽然用户浏览的互联网内容数据也会发生变化,但是互联网内容数据中往往可以体现出用户长期的偏好特征,例如用户可能长时间内都喜欢蓝色的商品、较低价位的商品等。
通过上述方法,准确的根据不同数据的特点建立对应的特征向量,有助于更好的体现用户的商品偏好情况,以更好基于所建立的特征向量,更好地进行商品推荐。
再一方面,对第一样本用户的互联网使用数据中包括目标类别的应用的浏览内容数据进行判断,若包括,则根据上述浏览内容数据构建特征向量,而不采用基础数进行特征向量的构建;若不包括,则根据基础数据构建特征向量。通过上述方法在保证特征向量能较为精准的反应第一样本用户的商品偏好情况的同时,避免浪费过多算力资源。
下面分别通过不同的实施例对如何构建第一长期偏好特征向量和第二长期偏好特征向量进行说明。
图4为本申请提供的第三种模型训练方法的流程示意图,如图4所示,下面对如何根据目标类别的应用的浏览内容数据,构建第一样本用户针对K类商品的第一长期偏好特征向量,即上述实施例中步骤S203进行说明,可以包括如下步骤:
S301、根据所有第一样本用户针对目标类别的应用的浏览内容数据,获取全量商品向量矩阵。
全量商品向量矩阵包括所有第一样本用户在目标类别的应用上浏览过的所有商品的向量。
示例性的,上述全量商品向量矩阵例如可以如下所示:
其中,表示用于表征商品c1的k维向量,表示用于表征商品c1的第一个维度的向量值,每个商品都由k维向量表示。该k值可以是预设的用于获取全量神品向量矩阵的模型的超参,例如可以是4、8、16等,本申请不对其进行限定,本领域技术人员可以根据实际设定。
作为一种可能的实现方式,根据所有第一样本用户针对目标类别的应用的浏览内容数据,获取所有第一样本用户浏览的全部商品;然后根据第一样本用户浏览的全部商品采用汉语语言模型(Chinese Language Model,CLM)的方式获取全量商品向量,进而构建全量商品向量矩阵。
作为另一种可能的实现方式,按照如下步骤实现根据所有第一样本用户针对目标类别的应用的浏览内容数据,获取全量商品向量矩阵:
S3011、根据各第一样本用户针对目标类别的应用的浏览内容数据,获取各第一样本用户的浏览特征向量。
浏览特征向量用于表征第一样本用户浏览过的商品。
作为一种可能的实现方式,各第一样本用户的浏览特征向量可以是Ud,i=[c1,i,c2,i…cn,i]。其中,c1,i,c2,i…cn,i为浏览特征向量所包括的特征值。c1,i表示第一样本用户Ui浏览的商品c1。c1,i,c2,i…cn,i是按照第一样本用户实际浏览顺序排列的。上述浏览特征向量的特征值可以是所浏览的商品的标识,根据该标识可以明确唯一的商品。该标识例如可以是商品的名称、预设的商品编号,本申请不对其进行限定。
需要说明的是,在根据第一样本用户的浏览内容数数据,构建第一样本用户的浏览特征向量时,第一样本用户浏览的商品可以重复计数。示例性的第一样本用户在浏览完商品c1之后,浏览了商品c2,接着又浏览了商品c1,此时上述第一样本用户的浏览特征向量可以是Ud,i=[c1,i,c2,i,c1,i…cn,i]。
S3012、根据各第一样本用户的浏览特征向量,获取浏览特征向量矩阵。
浏览特征向量矩阵包括所有用户的浏览特征向量。
作为一种可能的实现方式,将所有第一样本用户的浏览特征向量汇集到一起,构成浏览特征向量矩阵。示例性的,若各第一样本用户的浏览特征向量是基于上述步骤S3011中实现方式获得的Ud,i,则浏览特征向量矩阵可以如下所示:
其中,cm,j表示第一样本用户Uj所浏览的商品cm,以此类推。需要说明的是,不同第一样本用户浏览的商品的数量,或,种类,或,顺序可以相同也可以不同。例如,上述浏览特征向量矩阵中,第一样本用户Ui浏览的第一个商品为和第一样本用户Uj浏览的第一个商品均为c1,两者浏览的第一个商品相同。第一样本用户Ui浏览的第二个商品为c2,第一样本用户Uj浏览的第二个商品为c3,两者浏览的第二个商品不同。第一样本用户Ui共浏览了n个商品,第一样本用户共浏览了m个商品,该n和m的值可以相同也可以不同,本申请不对其进行限定。
S3013、利用浏览特征向量矩阵,获取全量商品向量矩阵。
上述全量商品即所有第一样本用户浏览的所有商品。全量商品向量矩阵包括全量商品中每个商品的向量。
作为一种可能的实现方式,将上述步骤中获得的浏览特征向量矩阵Wd,U输入word2vec中的Skip-gram模型或连续词袋(Continuous Bag-of-Words,CBOW)模型,获取全量商品向量矩阵。具体实现方式可以参照现有技术,在此不再赘述。
示例性的,全量商品向量矩阵例如可以如上述步骤S301所示,在此不再赘述。需要说明的是,在全量商品向量矩阵中,商品相似度越高则商品的向量距离越近。
本步骤中,通过word2vec中的Skip-gram模型或CBOW模型得到全量商品的向量矩阵,然后再在后续步骤中对该全量商品向量矩阵进行聚类。通过上述方法可以较好的衡量商品之间的语义信息,减少信息丢失,保留商品的相似度信息,使后续聚类结果更加准确合理。
S302、对全量商品向量矩阵进行聚类,得到K类商品的分类结果。
上述聚类可以是通过K-MEANS算法、K-MEDOIDS算法、CLARANS算法等中的任一个算法完成的,也可以采取其他聚类方式,本申请不对其进行限定。具体的,采用上述聚类算法进行聚类的实现方法可以参照现有技术,在此不再赘述。
本步骤中,通过对全量商品向量矩阵进行聚类,使相似度较高的商品被归为一类,最终将表征全量商品的全量商品向量分为K类,得到K类商品系列。
示例性的,当采用K-MEANS算法进行聚类时,首先确定K个分类的中心向量,然后,基于K个分类的中心向量,将全量商品分为K类,得到K类商品。
上述K类商品的分类结果例如可以是t=[t1,t2…tK],其中t1表示K类商品中的t1类别。每个商品都对应一个类别,一个类别中可以包括一个或者多个商品。示例性的,可能存在以下映射关系:DC={c1:t1,c2:t1,…cm:tK},其中c1:t1表示商品c1属于t1类别,cm:tK表示商品cm属于tK类别,以此类推。
S303、根据第一样本用户针对目标类别的应用的浏览内容数据,以及,分类结果,获取第一样本用户的第一长期偏好特征向量。
作为一种可能的实现方式,计算第一样本用户针对K类商品中每类商品浏览的商品的数量,然后将该浏览的每类商品的数量作为第一样本用户的第一长期偏好特征向量的长期偏好特征,构建第一长期偏好特征向量。
作为另一种可能的实现方式,按照如下步骤获取第一样本用户的第一长期偏好特征向量:
S3031、根据第一样本用户针对目标类别的应用的浏览内容数据,以及,分类结果,获取第一样本用户针对K类商品中每类商品的浏览概率。
作为一种可能的实现方式,分别以第一样本用户浏览K类商品中每类商品的次数作为分子,以第一样本用户浏览K类商品的总次数作为分母,获取第一样本用户针对K类商品中每类商品的浏览概率。例如,第一样本用户Ui针对t1类商品的浏览概率为其中,表示第一样本用户Ui浏览t1类中商品的次数,表示用户Ui浏览K类商品的总次数。示例性的,t1类商品共包括2种商品,c1和c2,第一样本用户Ui浏览商品c1共5次,浏览商品c2共4次,第一样本用户Ui浏览K类商品的总次数为50次,则第一样本用户Ui针对t1类商品的浏览概率为9/50。
作为另一种可能的实现方式,分别以第一样本用户浏览的商品中属于每类的商品的数量作为分子,以第一样本用户浏览的所有商品的数量作为分母,获取第一样本用户针对K类商品中每类商品的浏览概率。
S3032、根据第一样本用户针对K类商品中每类商品的浏览概率,得到第一样本用户的第一长期偏好特征向量。
本步骤中,将第一样本用户针对K类商品中每类商品的浏览概率作为第一长期偏好特征向量的长期偏好特征,融合后得到第一样本用户的第一长期偏好特征向量。示例性的,第一样本用户的第一长期偏好特征向量可以是:
通过上述方法,将第一样本用户针对K类商品中每类商品的浏览概率作为长期偏好特征,构建第一长期偏好特征向量,这样可以据此直观的反映出第一样本用户针对每类商品的偏好情况。
本实施例中,首先获取了全量商品的向量矩阵,然后根据该全量商品的向量矩阵对全量商品的向量进行聚类,得到了K类。然后根据浏览内容数据和分类结果,构建第一长期偏好特征向量。通过上述方法将全量商品分为K类,然后再获取第一样本用户针对K类商品的偏好情况,后续再进行推荐时即可根据用户针对K类商品的偏好情况,推荐用户偏好的类别的商品。由于同一类别内的商品相似性高,因此可以实现商品的精准推荐。
下面对如何根据第一样本用户的基础数据,构建第一样本用户针对K类商品的第二长期偏好特征向量,即上述实施例中步骤S204进行说明。图5为本申请提供的第四种模型训练方法的流程示意图,如图5所示,包括如下步骤:
S401、对全量商品向量矩阵进行聚类处理,得到K类商品的中心向量矩阵。
如上述实施例所述,在对全量商品的向量矩阵进行聚类处理的过程中,需要先选取K类商品的中心向量。本步骤中,将K类商品的中心向量融合后,构成K类商品的中心向量矩阵。
示例性的,K类商品的中心向量矩阵可以如下所示:
S402、根据第一样本用户的基础数据,获取第一样本用户的基础数据向量;
上述第一样本用户的基础数据向量用于表征第一样本用户的基础数据。第一样本用户的基础数据向量包括n个元素,每个元素对应第一样本用户的一项基础数据。本申请不对n的数值进行限定。
作为一种可能的实现方式,第一样本用户的基础数据向量可以为bi=[b1,i,b2,i…bn,i],其中,bn,i即用于表征第一样本用户Ui的第n项基础数据的元素,以此类推。上述每个元素可以是基础数据本身,例如“年龄”特征对应的向量值即第一样本用户的年龄,例如“36”,“居住地房价”特征的向量值可以是“20000”;也可以是采用预设的方式表示的第一样本用户的基础数据,例如采用不同数字表征第一样本用户居住地省市城镇,例如用“101”表示北京。本申请不对第一样本用户的基础数据向量的构建方式进行限定。
S403、将第一样本用户的基础数据向量,以及,中心向量矩阵输入至预先训练好的第二预测模型,得到第一样本用户针对K类商品的预测评分。
上述第二预测模型可以是深度神经网络(Deep Neural Networks,DNN)算法,或者其他分类模型,本申请不对其进行限制。该第二预测模型为采用第二样本数据集训练得到的,该第二样本数据集中每个第二样本用户的样本数据包括:第二样本用户的基础数据向量、第二样本用户的商品向量矩阵,以及,第二样本用户对商品的评分向量。
上述第二样本用户可以是拥有基础数据和互联网使用数据且同意被获取第二样本用户的样本数据的用户。上述的同意被获取第二样本用户的样本数据的用户,例如可以是专门召集的签署了同意被获取上述样本数据相关协议的用户,或者可以是在使用互联网应用时同意该互联网应用获取并使用其使用信息以获取样本数据的用户。
第二样本用户的基础数据向量的获取方式同于第一样本用户,在此不再赘述。
第二样本用户的商品向量矩阵包括第二样本用户在目标类别的应用上浏览过的所有商品的向量。作为一种可能的实现方式,从上述实施例中获得的全量商品向量矩阵中挑选出第二样本用户在目标类别的应用上浏览过的所有商品的向量,构成第二样本用户的商品向量矩阵。
示例性的,第二样本用户的商品向量矩阵可以如下所示:
第二样本用户对商品的评分向量包括第二样本用户对其在目标类别的应用上浏览过的所有商品的评分。示例性的,第二样本用户对商品的评分向量可以是其中表示用户Ui对c1商品的评分。该评分可以是根据第二样本用户对目标类别的应用上浏览过的所有的商品的浏览次数、收藏情况、加入购物车的情况等获得的。示例性的,第二样本用户收藏该商品1次则对该商品记1分,加入购物车1次则记2分,依此计算第二样本用户对其在目标类别的应用上浏览过的每个商品的评分。本申请不对商品的评分方式进行限定。
将上述第二样本用户的基础数据向量和商品向量矩阵作为输入,第二样本用户对商品的评分向量作为输出,对第二预测模型进行训练,直至该第二预测模型达到收敛,即可获得训练好的第二预测模型。
需要说明的是,上述第二预测模型是通过线下训练获得的。当电子设备根据第一样本用户的基础数据向量,以及,中心向量矩阵获取第一样本用户针对K类商品的预测评分时,可直接采用上述线下训练完成的第二预测模型,以实现上述预测评分的获取。本步骤中,以上述中心向量矩阵中的每个中心向量代表其所在的商品类别,进而通过将第一样本用户的基础数据向量和中心向量矩阵输入至第二预测模型中,以获得第一样本用户针对K类商品的预测评分。
S404、根据第一样本用户针对K类商品的预测评分,得到第一样本用户的第二长期偏好特征向量。
第一样本用户的第二长期偏好特征向量可以如下所示:
其中,即第一样本用户Ui对1类商品的评分,即第一样本用户Ui对所有类别商品的评分的总和。本步骤中,以第一样本用户对每类商品的评分作为分子,以第一样本用户对所有类别商品的评分的总和作为分母,获得第一样本用户对每类商品的评分占比,例如将第一样本用户对每类商品的评分占比作为第二长期偏好特征向量的特征值,即可得到如上的第一样本用户的第二长期偏好特征向量。
本实施例中,首先获取K类商品的中心向量矩阵,然后将构建的第一样本用户的基础数据向量和上述中心向量矩阵输入第二预测模型,即可得到第一样本用户针对K类商品的预测评分。最后基于该预测评分构建第一样本用户的第二长期偏好特征向量。由于上述第二预测模型是以第二样本用户的基础数据以及浏览内容数据作为输入,以第二样本用户对其所浏览商品的评分作为输出进行训练而获得的,因此基于第二预测模型,以第一样本用户的基础数据以及K类商品的中心向量矩阵作为输入,可以准确的获得第一样本用户对K类商品的评分。进一步的,基于上述第一样本用户对K类商品的评分所获得的第一样本用户的第二长期偏好特征向量即可以准确的表征第一样本用户对K类商品的偏好情况。
下面对根据第一样本用户的短期意图特征向量、第一长期偏好特征向量、第二长期偏好特征向量,构建第一样本用户的特征向量的方法进行说明。图6为本申请提供的第五种模型训练方法的流程示意图,如图6所示,可以包括以下步骤:
S501、根据所有第一样本用户的第一长期偏好特征向量,获取第一样本用户针对K类商品的每类商品的第一偏好分位点。
作为一种可能的实现方式,针对K类商品中任一类商品,判断所有第一样本用户的第一长期偏好特征向量是否是根据互联网浏览内容数据构建的。
若是,则将该第一样本用户的第一长期偏好特征向量针对该类商品的长期偏好特征按照从小到大的顺序排列,以最小的长期偏好特征作为0%,最大的长期偏好特征作为100%。采用分位点函数获取第一样本用户针对该类商品的长期偏好特征的分位点作为第一偏好分位点。若否,则以第二预设特征向量的特征值作为第一样本用户针对K类商品的每类商品的第二偏好分位点。采用上述方式,获取第一样本用户针对K类商品中每类商品的第一偏好分位点。
示例性的,以上述实施例中的针对每类商品的浏览概率作为长期偏好特征,共有10个第一样本用户的第一长期偏好特征向量为根据互联网浏览内容数据构建的。将10个第一样本用户的第一长期偏好特征向量中针对t1类商品的浏览概率特征按照从小到大的顺序排列。若第一样本用户Ui的浏览概率排在第6的位置,则其第一偏好分位点为60%,依此类推。
S502、根据所有第一样本用户的第二长期偏好特征向量,获取第一样本用户针对K类商品的每类商品的第二偏好分位点。
参照上述步骤S501获取第一样本用户针对K类商品的每类商品的第二偏好分位点。作为一种可能的实现方式,针对K类商品中任一类商品,判断所有第一样本用户的第二长期偏好特征向量是否是根据基础数据构建的。
若是,则将该第一样本用户的第二长期偏好特征向量针对该类商品的长期偏好特征按照从小到大的顺序排列,以最小的长期偏好特征作为0%,最大的长期偏好特征作为100%。采用分位点函数获取第一样本用户针对该类商品的长期偏好特征的分位点作为第二偏好分位点。若否,则以第一预设特征向量的特征值作为第一样本用户针对K类商品的每类商品的第二偏好分位点。采用上述方式,获取第一样本用户针对K类商品中每类商品的第二偏好分位点。
S503、将样本用户针对K类商品的每类商品的第一偏好分位点,与,第一长期偏好特征向量对应的置信因子相乘,得到第一长期偏好特征向量对应的第一融合特征向量。
上述第一长期偏好特征向量对应的置信因子为预设的超参,因为不同特征与第一样本用户对商品的偏好情况的相关度不同,因此采用上述置信因子调整第一长期偏好特征在用于构建第一样本用户的特征向量时所占的比重。
作为一种可能的实现方式,将第一样本用户针对K类商品的每类商品的第一偏好分位点,与,第一长期偏好特征向量对应的置信因子相乘后所得的值作为第一融合特征向量的特征值,构建第一融合特征向量。
示例性的,第一融合特征向量例如可以如下所示:
S504、将第一样本用户针对K类商品的每类商品的第二偏好分位点,与,第二长期偏好特征向量对应的置信因子相乘,得到第二长期偏好特征向量对应的第二融合特征向量。
类似上述第一长期偏好特征向量对应的置信因子,上述第二长期偏好特征向量对应的置信因子为预设的超参,用于调整第二长期偏好特征在用于构建第一样本用户的特征向量时所占的比重。
上述第一长期偏好特征向量对应的置信因子和第二长期偏好特征向量对应的置信因子,相加为1。示例性的,第一长期偏好特征向量对应的置信因子可以为0.3,第二长期偏好特征向量对应的置信因子可以为0.7。本申请不对上述两个置信因子的值进行限定,本领域技术人员可以根据实际情况确定。
作为一种可能的实现方式,将第一样本用户针对K类商品的每类商品的第二偏好分位点,与,第二长期偏好特征向量对应的置信因子相乘后所得的值作为第二融合特征向量的特征值,构建第二融合特征向量。
示例性的,第二融合特征向量例如可以如下所示:
S505、将第一样本用户的短期意图特征向量、第一融合特征向量、第二融合特征向量进行向量融合,得到第一样本用户的特征向量。
作为一种可能的实现方式,以第一样本用户的短期意图特征向量的特征值、第一融合特征向量的特征值、第二融合特征向量的特征值作为第一样本用户的特征向量的特征值,构建上述特征向量。
示例性的,第一样本用户的特征向量可以如下所示:
有的用户,虽然其针对某一类别的商品的偏好程度相较于该用户针对其他类别的商品的偏好程度低,但是,相较于其他用户,其针对该类商品投入的关注度是较高的。示例性的,一共有10类商品,a用户针对h类别的商品的浏览概率为0.05,相较于a用户浏览的其他类别的商品的浏览概率(例如是0.1、0.2),针对h类别的商品的浏览概率是较低的。然而,其他用户针对h类别的商品的浏览概率平均为0.01。那么就表明,h类别的商品本身为冷门商品,a用户针对该冷门商品有0.05的浏览概率,相较于其他用户明显较高,表明a用户对该冷门商品是较感兴趣的。
基于以上内容,本实施例通过将当前正在进行特征向量构建的第一样本用户针对K类商品的长期偏好特征同其他第一样本用户的长期偏好特征进行对比,当前正在进行特征向量构建的第一样本用户的长期偏好特征的偏好分位点,用于构建特征向量。这样可以消除商品冷热门情况对商品推荐准确性的影响,使推荐结果更加精准。
此外采用不同的置信因子对第一长期特征向量和第二长期特征向量进行处理,考虑到了不同维度数据对第一样本用户偏好情况表征能力的区别。最后,将上述经过处理的特征向量进行融合,构成了表征不同维度数据的特征向量,用于对应的模型训练,可以使训练后的模型能更加精准的根据用户的多种维度的数据,而实现对用户感兴趣的商品的更加精准的推荐。
上述实施例对如何对模型进行训练进行说明,下面通过具体实施例,对如何基于训练好的模型对用户进行商品推荐进行说明。
本申请提供的商品推荐方法的执行主体可以是推荐引擎,推荐引擎可以部署在用户终端上,例如手机、平板等;也可以部署在其他电子设备上,例如服务器;还可以是部署在云端的电子设备上,例如部署在云端的服务器上,本申请不对其进行限定。
图7为本申请提供的第一种商品推荐方法的流程示意图,如图7所示,包括如下步骤:
S601、获取目标用户的特征向量。
上述目标用户可以是拥有基础数据和互联网使用数据且同意被获取基础数据和互联网使用数据且需要被提供商品推荐服务的用户。上述同意被获取基础数据和互联网使用数据的用户,例如可以是专门召集的签署了同意被获取基础数据和互联网使用数据相关协议的用户,或者可以是在使用互联网应用时同意该互联网应用获取并使用其使用基础数据和互联网使用数据的用户,本申请不对其进行限定。
上述需要被提供推荐服务的用户可以是使用目标应用进行商品浏览的用户。
上述特征向量用于表征目标用户的短期意图特征,以及,长期偏好特征。该特征向量的构建方式类似于上述实施例中第一样本用户的特征向量的构建方式,在此不再赘述。作为一种可能的实现方式,目标用户的特征向量存储在数据库中,从数据库中获取存储的目标用户的特征向量。
S602、将目标用户的特征向量输入至采用如上述实施例任一项的方法训练得到的第一预测模型,得到目标用户的商品偏好向量。
上述偏好向量用于表征目标用户在目标应用的K类商品中偏好的商品类别。示例性的,上述商品偏好向量可以是其中,偏好向量中的每个向量值用于表征目标用户对K类商品中每类商品的偏好程度,例如表征目标用户Vi对K类商品的偏好程度。偏好向量中的每个向量值数值越高表明目标用户对该类商品的偏好程度越高。
需要说明的是,在推荐引擎采用训练好的模型进商品推荐时,目标应用的商品分类结果同于在模型训练阶段对目标类别的应用的模型的分类结果。
S603、根据目标用户商品偏好向量,从目标应用的商品中确定待推荐商品。
上述待推荐商品即目标用户更可能感兴趣的商品。由于目标用户商品偏好向量可以表征出目标用户对商品的偏好情况,基于此,可以从目标应用的商品中确定待推荐商品。
作为一种可能的实现方式,根据目标用户商品偏好向量,从K类商品中按照被偏好程度从大到小的顺序挑选出N个商品类别,然后从该前N个商品类别中的每个商品类别中按照被收藏数从多到少的顺序挑选出前n个商品作为待推荐商品。
上述N可以是1、2、5,本申请不对其进行限定。
上述n可以是1、2、5,本申请不对其进行限定。
作为另一种可能的实现方式,根据目标用户的商品偏好向量,从目标应用的商品中确定n个候选商品向量,然后根据n个候选商品向量,以及,K类商品的中心向量矩阵确定待推荐商品。
S604、向目标用户的终端设备推送待推荐商品的商品信息。
上述终端设备可以是手机、平板等,本申请不对其进行限定。
作为一种可能的实现方式,将存储在数据库中的待推荐商品的商品信息推荐至目标用户的终端设备,并在目标应用的操作界面中显示,供用户浏览。
本实施例中,基于训练好的模型,采用目标用户的特征向量,对目标用户的商品偏好向量进行预测,并基于该预测结果,确定目标应用的商品中的待推荐商品,并将该待推荐商品推荐给用户。上述第一预测模型是以第一样本用户的特征向量作为输入,以第一样本用户的标签向量作为输出训练而得。因此通过上述第一预测模型可以准确预测目标用户对K类商品的偏好情况。通过上述方法,基于多种维度的数据构建特征向量,并基于该特征向量进行商品推荐,使得最终的推荐结果更加精准。
下面对如何根据目标用户商品偏好向量,从目标应用的商品中确定待推荐商品,即上述实施例中步骤S603进行阐明。图8为本申请提供的第二种商品推荐方法的流程示意图,如图8所示,具体包括如下步骤:
S701、根据目标用户的商品偏好向量,从目标应用的商品中确定n个候选商品向量。
上述n为大于或等于2的整数,上述n个候选商品均属于偏好的商品类别。
作为一种可能的实现方式,挑选出商品偏好向量中特征值较大的前N个商品类别。然后从目标应用的前N个商品类别中共确定n个候选商品。
上述从目标应用的前N个商品类别中确定出n个候选商品可以是随机从前N个商品类别的商品中挑选出n个候选商品;也可以是从目标应用的前N个商品类别中,挑选出点赞数最多的前n个商品作为候选商品,本申请不对从目标应用的前N个商品类别中挑选出n个候选商品的方法进行限定。
上述候选商品向量即将每个候选商品用向量的形式表征所得到。作为一种可能的实现方式,从上述实施例中得到的全量商品向量矩阵中挑选出n个候选商品对应的候选商品向量。
示例性的,候选商品c1的向量可以是其中,表征第二样本用户浏览商品cm的向量,表示用于表征商品c1的k个维度的特征值中第1个维度的特征值。S702、根据n个候选商品向量,以及,K类商品的中心向量矩阵,获取候选商品的相似度矩阵。
候选商品的相似度矩阵包括:每个候选商品与每类商品的相似度。
上述K类商品的中心向量矩阵即上述实施例中获得的K类商品中每类商品的中心向量构成的中心向量矩阵。
本步骤中,计算n个候选商品向量,和,K类商品的中心向量矩阵中每个中心向量的相似度,获得候选商品的相似度矩阵。向量的相似度采用向量之间的距离表示,距离越近则表明向量的相似度越高。
示例性的,候选商品的相似度矩阵可以是:
其中,Sprod1,1,Sprod1,2…Sprod1,K表示候选商品1和K类商品的相似度向量,Sprod1,1表示候选商品1和1类商品的相似度,以此类推。
上述计算n个候选商品向量,和,K类商品的中心向量矩阵中每个中心向量的相似度的方法可以是基于欧式距离或者皮尔逊相似度系数计算获得的,也可以基于其他相似度计算方法计算获得的,本申请不对其进行限定。
S703、根据目标用户商品偏好向量,以及,候选商品的相似度矩阵,获取目标用户针对n个候选商品的偏好得分向量。
本步骤中,计算目标用户商品偏好向量和候选商品的相似度矩阵中每个商品和对K类商品的相似度向量的相似度,然后根据上述相似度,获取目标用户针对n个候选商品的偏好得分向量。
上述计算目标用户商品偏好向量和候选商品的相似度矩阵中每个商品和对K类商品的相似度向量的相似度的方法可以是基于欧式距离或者皮尔逊相似度系数计算获得的,也可以基于其他相似度计算方法计算获得的,本申请不对其进行限定。
上述根据上述相似度,获取目标用户针对n个候选商品的偏好得分向量可以是通过取上述相似度计算结果的倒数实现的,也可以是通过其他方法实现的,本申请不对其进行限制。
S704、根据目标用户针对n个候选商品的偏好得分向量,从n个候选商品中确定待推荐商品。
作为一种可能的实现方式,将目标用户针对n个候选商品的偏好得分向量中的向量值按照从高到低的顺序排列,然后取前z个候选商品作为待推荐商品。
上述z的值可以是1、3、5,本申请不对其进行限定。
本实施例中,先根据目标用户商品偏好向量,从目标应用的商品中确定n个候选商品向量,以便于后续的从n个候选商品向量中确定待推荐商品。通过上述方法可以收敛待推荐商品的范围,减少后续确定待推荐商品时的运算量。
后续的,根据n个候选商品向量,以及,K类商品的中心向量矩阵,获取n个候选商品向量和K类商品中每个中心向量的相似度,以构成相似度矩阵。然后根据目标用户商品偏好向量,以及,候选商品的相似度矩阵,获取目标用户针对n个候选商品的偏好得分向量,进而从n个候选商品中确定待推荐商品。通过上述方法进一步的从n个候选商品中筛选出用户更为感兴趣的商品作为待推荐商品,进一步提高了商品推荐的准确性。
上述实施例对如何进行模型训练,以及,如何进行商品推荐进行了说明,下面对在进行商品推荐时,如何对用于进行商品推荐的特征向量进行更新做出说明。目标用户的兴趣偏好从长期来看是会发生改变,但是往往在一段时间内是较为稳定的。因此对于用于表征用户兴趣偏好的特征向量,根据特征向量的特点采用周期性更新的方式,既可以保证特征向量可以准确的反应用户的兴趣偏好,又能够减少算力资源的浪费。
可选的,上述实施例中,可以采用第一更新周期,和/或,第二更新周期对目标用户的特征向量进行更新,其中第二更新周期大于第一更新周期,即存在如下3种更新方式:
方式1:
根据第一更新周期,更新基于目标用户针对互联网的浏览行为数据得到的短期意图特征向量,并利用更新后的目标用户的短期意图特征向量,更新数据库中存储的目标用户的特征向量。
上述第一更新周期可以是1周、2周、一个月,本申请不对其进行限定。
在本方式下,由于短期意图特征变化较快,因此可以按照第一更新周期,对短期意图特征向量进行更新,以确保数据能准确反应目标用户的兴趣偏好。更新结束后,在该周期内,若需要进行目标用户的偏好向量的预测,则根据此次更新后的短期意图特征向量构建目标用户的特征向量,以完成偏好向量的预测。
在本实现方式下,不限定第一长期偏好特征向量和第二长期偏好特征向量的更新方式,其可以采用第一更新周期进行更新,也可以采用其他更新方式进行更新。
通过上述方式,当目标用户的特征向量中的所有特征值均采用第一更新周期进行更新时,则可以更为准确的反映目标用户当前在被进行性商品推荐时的兴趣偏好,进而就可以更为精准的根据上述特征向量进行商品推荐。
方式2:
根据第二更新周期,更新基于目标用户针对目标应用的浏览内容数据得到的针对K类商品的第一长期偏好特征向量,或,基于目标用户的基础数据得到的针对K类商品的第二长期偏好特征向量,并利用更新后的目标用户的第一长期偏好特征向量或第二长期偏好特征向量,更新数据库中存储的目标用户的特征向量。
用户的长期偏好特征往往较为稳定,在短时间内不会发生改变,因此基于用户长期偏好特征构建的长期偏好特征向量往往在短时间内需要进行变更。此外,由于有的目标用户第一长期偏好特征向量是根据互联网浏览内容数据构建的,第二长期偏好特征向量为采用第一预设特征向量构建的,此时若进行特征向量的更新,则只需要更新第一长期偏好特征向量,而无需更新第二长期偏好特征向量;有的目标用户第一长期偏好特征向量为根据第二预设特征向量构建的,第二长期偏好特征向量为根据基础数据构建的,此时若进行特征向量的更新,则只需要更新第二长期偏好特征向量,而无需更新第一长期偏好特征向量。
基于以上内容,在本方式下,可以按照第二更新周期,对第一长期偏好特征向量,或,第二长期偏好向量进行更新。更新结束后,在该周期内,若需要进行目标用户的偏好向量的预测,则根据此次更新后的第一长期偏好特征向量,或,第二长期偏好向量构建目标用户的特征向量,以完成偏好向量的预测。
在本实现方式下,不限定短期意图特征向量的更新方式,其可以采用第一更新周期进行更新,也可以采用其他更新方式进行更新。
当执行本申请商品推荐方法的电子设备算力较差时,可以采用第二更新周期对构建特征限量的特征值进行更新,这样即可以在保证一定的准确度的同时,节省算力资源。
方式3:
同时采用方式1和方式2对目标用户的特征向量进行更新。
在本方式下,采用第一更新周期对短期意图特征进行更新,采用第二更新周期对长期意图特征进行更新。如上述实施例,长期偏好特征往往是较为稳定的,而短期意图特征相对来说变化更为频繁。因此采用大于第一更新周期的第一更新周期对短期意图特征进行更新,这样可以在保证商品推荐精准度的同时,减少计算量,节约算力资源。
图9为本申请提供的一种模型训练装置的结构示意图。如图9所示,该模型训练装置包括:第一获取模块11、第二获取模块12、训练模块13。
第一获取模块11,用于获取初始样本数据集,所述初始样本数据集中每个第一样本用户的初始样本数据包括:所述第一样本用户的基础数据、所述第一样本用户的互联网使用数据;
第二获取模块12,用于根据所述初始样本数据集,获取第一样本数据集,所述第一样本数据集中每个第一样本用户的样本数据包括:基于所述初始样本数据得到的所述第一样本用户的特征向量,以及,所述第一样本用户的标签向量;所述特征向量用于表征所述第一样本用户的短期意图特征,以及,长期偏好特征,所述第一样本用户的标签向量用于表征目标应用的K类商品中所述第一样本用户偏好的商品类别,所述K为大于或等于2的整数;
训练模块13,用于利用所述第一样本数据集对初始模型进行训练,得到训练好的第一预测模型,所述第一预测模型用于根据目标用户的特征向量,获取所述目标用户商品偏好向量,所述偏好向量用于表征所述目标用户在所述目标应用的K类商品中偏好的商品类别。
作为一种可能的实现方式,第二获取模块12,具体用于针对每个所述第一样本用户的初始样本数据,执行如下操作:根据所述第一样本用户的互联网使用数据中互联网的浏览行为数据,构建所述第一样本用户的短期意图特征向量;若所述第一样本用户的互联网使用数据中包括目标类别的应用的浏览内容数据,则根据所述目标类别的应用的浏览内容数据,构建所述第一样本用户针对K类商品的第一长期偏好特征向量,并将第一预设特征向量作为所述第一样本用户针对K类商品的第二长期偏好特征向量;若所述第一样本用户的互联网使用数据中不包括所述目标类别的应用的浏览内容数据,则根据所述第一样本用户的基础数据,构建所述第一样本用户针对K类商品的第二长期偏好特征向量,并将预设第二特征向量作为所述第一样本用户针对K类商品的第一长期偏好特征向量;根据所述第一样本用户的短期意图特征向量、第一长期偏好特征向量、第二长期偏好特征向量,构建所述第一样本用户的特征向量;获取每个所述第一样本用户的标签向量,并根据每个所述第一样本用户的特征向量,以及,每个所述第一样本用户的标签向量,构建所述第一样本数据集。所述目标类别的应用包括:所述目标应用。
作为一种可能的实现方式,第二获取模块12,具体用于根据所述第一样本用户的互联网使用数据中互联网的浏览行为数据,获取所述第一样本用户针对多类应用中的每类应用在不同时间滑窗内的短期意图特征,以及,所述第一样本用户针对每类应用的每个子类应用在不同时间滑窗内的短期意图特征;根据所述第一样本用户针对每类应用在不同时间滑窗内的短期意图特征,以及,所述第一样本用户针对每类应用的每个子类应用在不同时间滑窗内的短期意图特征,构建所述第一样本用户的短期意图特征向量。
作为一种可能的实现方式,第二获取模块12,具体用于根据所有第一样本用户针对所述目标类别的应用的浏览内容数据,获取全量商品向量矩阵;对所述全量商品向量矩阵进行聚类,得到K类商品的分类结果;根据所述第一样本用户针对所述目标类别的应用的浏览内容数据,以及,所述分类结果,获取所述第一样本用户的第一长期偏好特征向量。所述全量商品向量矩阵包括所有第一样本用户在所述目标类别的应用上浏览过的所有商品的向量
作为一种可能的实现方式,第二获取模块12,具体用于根据各所述第一样本用户针对所述目标类别的应用的浏览内容数据,获取各所述第一样本用户的浏览特征向量;所述浏览特征向量用于表征所述第一样本用户浏览过的商品;根据各所述第一样本用户的浏览特征向量,获取浏览特征向量矩阵;利用所述浏览特征向量矩阵,获取所述全量商品向量矩阵。所述浏览特征向量矩阵包括所有用户的浏览特征向量。
作为一种可能的实现方式,第二获取模块12,具体用于根据所述第一样本用户针对所述目标类别的应用的浏览内容数据,以及,所述分类结果,获取所述第一样本用户针对K类商品中每类商品的浏览概率;根据所述第一样本用户针对K类商品中每类商品的浏览概率,得到所述第一样本用户的第一长期偏好特征向量。
作为一种可能的实现方式,第二获取模块12,具体用于对所述全量商品向量矩阵进行聚类处理,得到K类商品的中心向量矩阵;根据所述第一样本用户的基础数据,获取所述第一样本用户的基础数据向量;将所述第一样本用户的基础数据向量,以及,所述中心向量矩阵输入至预先训练好的第二预测模型,得到所述第一样本用户针对K类商品的预测评分;根据所述第一样本用户针对K类商品的预测评分,得到所述第一样本用户的第二长期偏好特征向量。所述第二预测模型为采用第二样本数据集训练得到的,所述第二样本数据集中每个第二样本用户的样本数据包括:第二样本用户的基础数据向量、第二样本用户的商品向量矩阵,以及,所述第二样本用户对商品的评分向量;所述第二样本用户的商品向量矩阵包括所述第二样本用户在所述目标类别的应用上浏览过的所有商品的向量。
作为一种可能的实现方式,第二获取模块12,具体用于根据所有第一样本用户的第一长期偏好特征向量,获取所述第一样本用户针对K类商品的每类商品的第一偏好分位点;根据所有所述第一样本用户的第二长期偏好特征向量,获取所述第一样本用户针对K类商品的每类商品的第二偏好分位点;将所述样本用户针对K类商品的每类商品的第一偏好分位点,与,第一长期偏好特征向量对应的置信因子相乘,得到所述第一长期偏好特征向量对应的第一融合特征向量;将所述第一样本用户针对K类商品的每类商品的第二偏好分位点,与,第二长期偏好特征向量对应的置信因子相乘,得到所述第二长期偏好特征向量对应的第二融合特征向量;将所述第一样本用户的短期意图特征向量、第一融合特征向量、第二融合特征向量进行向量融合,得到所述第一样本用户的特征向量。
本申请实施例提供的模型训练装置,可以执行上述方法实施例中的模型训练方法,其实现原理和技术效果类似,在此不再赘述。
图10为本申请提供的一种商品推荐装置的结构示意图。如图10所示,该商品推荐装置包括:第三获取模块21、输入模块22、确定模块23、推送模块24。可选地,该商品推荐装置例如还可以包括下述模块:更新模块25。
获取模块21,用于获取目标用户的特征向量,所述特征向量用于表征所述目标用户的短期意图特征,以及,长期偏好特征;
输入模块22,用于将所述目标用户的特征向量输入至采用如上述实施例任一项所述的方法训练得到的第一预测模型,得到所述目标用户的商品偏好向量,所述偏好向量用于表征所述目标用户在目标应用的K类商品中偏好的商品类别;
确定模块23,用于根据所述目标用户商品偏好向量,从所述目标应用的商品中确定待推荐商品;
推送模块24,用于向所述目标用户的终端设备推送所述待推荐商品的商品信息。
作为一种可能的实现方式,确定模块23,具体用于根据所述目标用户商品偏好向量,从所述目标应用的商品中确定n个候选商品向量;根据n个候选商品向量,以及,K类商品的中心向量矩阵,获取候选商品的相似度矩阵;根据所述目标用户商品偏好向量,以及,所述候选商品的相似度矩阵,获取所述目标用户针对n个候选商品的偏好得分向量;根据所述目标用户针对n个候选商品的偏好得分向量,从n个候选商品中确定待推荐商品。所述n为大于或等于2的整数,所述n个候选商品均属于所述偏好的商品类别;所述候选商品的相似度矩阵包括:每个候选商品与每类商品的相似度。
作为一种可能的实现方式,获取模块21,具体用于从数据库中获取存储的所述目标用户的特征向量。
作为一种可能的实现方式,更新模块25,用于根据第一更新周期,更新基于所述目标用户针对互联网的浏览行为数据得到的短期意图特征向量,并利用更新后的目标用户的短期意图特征向量,更新所述数据库中存储的所述目标用户的特征向量;所述短期意图特征向量用于表征所述目标用户的短期意图特征;
和/或
更新模块25,还用于根据第二更新周期,更新基于所述目标用户针对所述目标应用的浏览内容数据得到的针对K类商品的第一长期偏好特征向量,或,基于所述目标用户的基础数据得到的针对K类商品的第二长期偏好特征向量,并利用更新后的目标用户的第一长期偏好特征向量或第二长期偏好特征向量,更新所述数据库中存储的所述目标用户的特征向量;其中,所述第二更新周期大于所述第一更新周期,所述第一长期偏好特征向量和第二长期偏好特征向量均用于表征所述目标用户的长期偏好特征。
本申请实施例提供的商品推荐装置,可以执行上述方法实施例中的商品推荐方法,其实现原理和技术效果类似,在此不再赘述。
需要说明的是,上述图9和图10所示的各模块的划分仅是一种示意,本申请对各模块的划分,以及,各模块的命名并不进行限定。
图11为本申请提供的一种电子设备的结构示意图。如图11所示,该电子设备110可以包括:至少一个处理器111、存储器112。
存储器112,用于存储程序。具体地,程序可以包括程序代码,程序代码包括计算机操作指令。
存储器112可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
处理器111用于执行存储器112存储的计算机执行指令,以实现前述方法实施例所描述的模型训练方法,和/或,商品推荐方法。其中,处理器111可能是一个中央处理器(Central Processing Unit,简称为CPU),或者是特定集成电路(Application SpecificIntegrated Circuit,简称为ASIC),或者是被配置成实施本申请实施例的一个或多个集成电路。
该电子设备110还可以包括通信接口113,以通过通信接口113可以与外部设备进行通信交互,外部设备例如可以是用户终端(例如,手机、平板)。在具体实现上,如果通信接口113、存储器112和处理器111独立实现,则通信接口113、存储器112和处理器111可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(Industry StandardArchitecture,简称为ISA)总线、外部设备互连(Peripheral Component,简称为PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture,简称为EISA)总线等。总线可以分为地址总线、数据总线、控制总线等,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果通信接口113、存储器112和处理器111集成在一块芯片上实现,则通信接口113、存储器112和处理器111可以通过内部接口完成通信。
本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random AccessMemory)、磁盘或者光盘等各种可以存储程序代码的介质,具体的,该计算机可读存储介质中存储有程序指令,程序指令用于上述实施例中模型训练方法,和/或,商品推荐的方法。
本申请还提供一种程序产品,该程序产品包括执行指令,该执行指令存储在可读存储介质中。计算设备的至少一个处理器可以从可读存储介质读取该执行指令,至少一个处理器执行该执行指令使得电子设备实施上述的各种实施方式提供的模型训练方法,和/或,商品推荐。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求书指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。
Claims (15)
1.一种模型训练方法,其特征在于,所述方法包括:
获取初始样本数据集,所述初始样本数据集中每个第一样本用户的初始样本数据包括:所述第一样本用户的基础数据、所述第一样本用户的互联网使用数据;
根据所述初始样本数据集,获取第一样本数据集,所述第一样本数据集中每个第一样本用户的样本数据包括:基于所述初始样本数据得到的所述第一样本用户的特征向量,以及,所述第一样本用户的标签向量;所述特征向量用于表征所述第一样本用户的短期意图特征,以及,长期偏好特征,所述第一样本用户的标签向量用于表征目标应用的K类商品中所述第一样本用户偏好的商品类别,所述K为大于或等于2的整数;
利用所述第一样本数据集对初始模型进行训练,得到训练好的第一预测模型,所述第一预测模型用于根据目标用户的特征向量,获取所述目标用户商品偏好向量,所述偏好向量用于表征所述目标用户在所述目标应用的K类商品中偏好的商品类别。
2.根据权利要求1所述的方法,其特征在于,所述根据所述初始第一样本数据集,获取第一样本数据集,包括:
针对每个所述第一样本用户的初始样本数据,执行如下操作:
根据所述第一样本用户的互联网使用数据中互联网的浏览行为数据,构建所述第一样本用户的短期意图特征向量;
若所述第一样本用户的互联网使用数据中包括目标类别的应用的浏览内容数据,则根据所述目标类别的应用的浏览内容数据,构建所述第一样本用户针对K类商品的第一长期偏好特征向量,并将第一预设特征向量作为所述第一样本用户针对K类商品的第二长期偏好特征向量,所述目标类别的应用包括:所述目标应用;
若所述第一样本用户的互联网使用数据中不包括所述目标类别的应用的浏览内容数据,则根据所述第一样本用户的基础数据,构建所述第一样本用户针对K类商品的第二长期偏好特征向量,并将预设第二特征向量作为所述第一样本用户针对K类商品的第一长期偏好特征向量;
根据所述第一样本用户的短期意图特征向量、第一长期偏好特征向量、第二长期偏好特征向量,构建所述第一样本用户的特征向量;
获取每个所述第一样本用户的标签向量,并根据每个所述第一样本用户的特征向量,以及,每个所述第一样本用户的标签向量,构建所述第一样本数据集。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第一样本用户的互联网使用数据中互联网的浏览行为数据,构建所述第一样本用户的短期意图特征向量,包括:
根据所述第一样本用户的互联网使用数据中互联网的浏览行为数据,获取所述第一样本用户针对多类应用中的每类应用在不同时间滑窗内的短期意图特征,以及,所述第一样本用户针对每类应用的每个子类应用在不同时间滑窗内的短期意图特征;
根据所述第一样本用户针对每类应用在不同时间滑窗内的短期意图特征,以及,所述第一样本用户针对每类应用的每个子类应用在不同时间滑窗内的短期意图特征,构建所述第一样本用户的短期意图特征向量。
4.根据权利要求2或3所述的方法,其特征在于,所述根据所述目标类别的应用的浏览内容数据,构建所述第一样本用户针对K类商品的第一长期偏好特征向量,包括:
根据所有第一样本用户针对所述目标类别的应用的浏览内容数据,获取全量商品向量矩阵,所述全量商品向量矩阵包括所有第一样本用户在所述目标类别的应用上浏览过的所有商品的向量;
对所述全量商品向量矩阵进行聚类,得到K类商品的分类结果;
根据所述第一样本用户针对所述目标类别的应用的浏览内容数据,以及,所述分类结果,获取所述第一样本用户的第一长期偏好特征向量。
5.根据权利要求4所述的方法,其特征在于,所述根据所有第一样本用户针对所述目标类别的应用的浏览内容数据,获取所述全量商品向量矩阵,包括:
根据各所述第一样本用户针对所述目标类别的应用的浏览内容数据,获取各所述第一样本用户的浏览特征向量;所述浏览特征向量用于表征所述第一样本用户浏览过的商品;
根据各所述第一样本用户的浏览特征向量,获取浏览特征向量矩阵;所述浏览特征向量矩阵包括所有用户的浏览特征向量;
利用所述浏览特征向量矩阵,获取所述全量商品向量矩阵。
6.根据权利要求5所述的方法,其特征在于,所述根据所述第一样本用户针对所述目标类别的应用的浏览内容数据,以及,所述分类结果,获取所述第一样本用户的第一长期偏好特征向量,包括:
根据所述第一样本用户针对所述目标类别的应用的浏览内容数据,以及,所述分类结果,获取所述第一样本用户针对K类商品中每类商品的浏览概率;
根据所述第一样本用户针对K类商品中每类商品的浏览概率,得到所述第一样本用户的第一长期偏好特征向量。
7.根据权利要求6所述的方法,其特征在于,所述根据所述第一样本用户的基础数据,构建所述第一样本用户针对K类商品的第二长期偏好特征向量,包括:
对所述全量商品向量矩阵进行聚类处理,得到K类商品的中心向量矩阵;
根据所述第一样本用户的基础数据,获取所述第一样本用户的基础数据向量;
将所述第一样本用户的基础数据向量,以及,所述中心向量矩阵输入至预先训练好的第二预测模型,得到所述第一样本用户针对K类商品的预测评分;所述第二预测模型为采用第二样本数据集训练得到的,所述第二样本数据集中每个第二样本用户的样本数据包括:第二样本用户的基础数据向量、第二样本用户的商品向量矩阵,以及,所述第二样本用户对商品的评分向量;所述第二样本用户的商品向量矩阵包括所述第二样本用户在所述目标类别的应用上浏览过的所有商品的向量;
根据所述第一样本用户针对K类商品的预测评分,得到所述第一样本用户的第二长期偏好特征向量。
8.根据权利要求7所述的方法,其特征在于,所述根据所述第一样本用户的短期意图特征向量、第一长期偏好特征向量、第二长期偏好特征向量,构建所述第一样本用户的特征向量,包括:
根据所有第一样本用户的第一长期偏好特征向量,获取所述第一样本用户针对K类商品的每类商品的第一偏好分位点;
根据所有所述第一样本用户的第二长期偏好特征向量,获取所述第一样本用户针对K类商品的每类商品的第二偏好分位点;
将所述样本用户针对K类商品的每类商品的第一偏好分位点,与,第一长期偏好特征向量对应的置信因子相乘,得到所述第一长期偏好特征向量对应的第一融合特征向量;
将所述第一样本用户针对K类商品的每类商品的第二偏好分位点,与,第二长期偏好特征向量对应的置信因子相乘,得到所述第二长期偏好特征向量对应的第二融合特征向量;
将所述第一样本用户的短期意图特征向量、第一融合特征向量、第二融合特征向量进行向量融合,得到所述第一样本用户的特征向量。
9.一种商品推荐方法,其特征在于,所述方法包括:
获取目标用户的特征向量,所述特征向量用于表征所述目标用户的短期意图特征,以及,长期偏好特征;
将所述目标用户的特征向量输入至采用如权利要求1-8任一项所述的方法训练得到的第一预测模型,得到所述目标用户的商品偏好向量,所述偏好向量用于表征所述目标用户在目标应用的K类商品中偏好的商品类别;
根据所述目标用户商品偏好向量,从所述目标应用的商品中确定待推荐商品;
向所述目标用户的终端设备推送所述待推荐商品的商品信息。
10.根据权利要求9所述的方法,其特征在于,所述根据所述目标用户商品偏好向量,从所述目标应用的商品中确定待推荐商品,包括:
根据所述目标用户商品偏好向量,从所述目标应用的商品中确定n个候选商品向量,所述n为大于或等于2的整数,所述n个候选商品均属于所述偏好的商品类别;
根据n个候选商品向量,以及,K类商品的中心向量矩阵,获取候选商品的相似度矩阵;所述候选商品的相似度矩阵包括:每个候选商品与每类商品的相似度;
根据所述目标用户商品偏好向量,以及,所述候选商品的相似度矩阵,获取所述目标用户针对n个候选商品的偏好得分向量;
根据所述目标用户针对n个候选商品的偏好得分向量,从n个候选商品中确定待推荐商品。
11.根据权利要求9或10所述的方法,其特征在于,所述获取目标用户的特征向量,包括:从数据库中获取存储的所述目标用户的特征向量;
所述方法还包括:
根据第一更新周期,更新基于所述目标用户针对互联网的浏览行为数据得到的短期意图特征向量,并利用更新后的目标用户的短期意图特征向量,更新所述数据库中存储的所述目标用户的特征向量;所述短期意图特征向量用于表征所述目标用户的短期意图特征;
和/或
根据第二更新周期,更新基于所述目标用户针对所述目标应用的浏览内容数据得到的针对K类商品的第一长期偏好特征向量,或,基于所述目标用户的基础数据得到的针对K类商品的第二长期偏好特征向量,并利用更新后的目标用户的第一长期偏好特征向量或第二长期偏好特征向量,更新所述数据库中存储的所述目标用户的特征向量;其中,所述第二更新周期大于所述第一更新周期,所述第一长期偏好特征向量和第二长期偏好特征向量均用于表征所述目标用户的长期偏好特征。
12.一种模型训练装置,其特征在于,所述装置包括:
第一获取模块,用于获取初始样本数据集,所述初始样本数据集中每个第一样本用户的初始样本数据包括:所述第一样本用户的基础数据、所述第一样本用户的互联网使用数据;
第二获取模块,用于根据所述初始样本数据集,获取第一样本数据集,所述第一样本数据集中每个第一样本用户的样本数据包括:基于所述初始样本数据得到的所述第一样本用户的特征向量,以及,所述第一样本用户的标签向量;所述特征向量用于表征所述第一样本用户的短期意图特征,以及,长期偏好特征,所述第一样本用户的标签向量用于表征目标应用的K类商品中所述第一样本用户偏好的商品类别,所述K为大于或等于2的整数;
训练模块,用于利用所述第一样本数据集对初始模型进行训练,得到训练好的第一预测模型,所述第一预测模型用于根据目标用户的特征向量,获取所述目标用户商品偏好向量,所述偏好向量用于表征所述目标用户在所述目标应用的K类商品中偏好的商品类别。
13.一种商品推荐装置,其特征在于,所述装置包括:
获取模块,用于获取目标用户的特征向量,所述特征向量用于表征所述目标用户的短期意图特征,以及,长期偏好特征;
输入模块,用于将所述目标用户的特征向量输入至采用如权利要求1-8任一项所述的方法训练得到的第一预测模型,得到所述目标用户的商品偏好向量,所述偏好向量用于表征所述目标用户在目标应用的K类商品中偏好的商品类别;
确定模块,用于根据所述目标用户商品偏好向量,从所述目标应用的商品中确定待推荐商品;
推送模块,用于向所述目标用户的终端设备推送所述待推荐商品的商品信息。
14.一种电子设备,其特征在于,包括:处理器,以及与所述处理器通信连接的存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,以实现如权利要求1-11中任一项所述的方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至11任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211382541.6A CN115660783A (zh) | 2022-11-07 | 2022-11-07 | 模型训练方法、商品推荐方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211382541.6A CN115660783A (zh) | 2022-11-07 | 2022-11-07 | 模型训练方法、商品推荐方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115660783A true CN115660783A (zh) | 2023-01-31 |
Family
ID=85015384
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211382541.6A Pending CN115660783A (zh) | 2022-11-07 | 2022-11-07 | 模型训练方法、商品推荐方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115660783A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116501978A (zh) * | 2023-06-28 | 2023-07-28 | 杭州金智塔科技有限公司 | 基于隐私保护机器遗忘算法的推荐模型生成方法及装置 |
-
2022
- 2022-11-07 CN CN202211382541.6A patent/CN115660783A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116501978A (zh) * | 2023-06-28 | 2023-07-28 | 杭州金智塔科技有限公司 | 基于隐私保护机器遗忘算法的推荐模型生成方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108229590B (zh) | 一种获取多标签用户画像的方法和装置 | |
WO2018041168A1 (zh) | 信息推送方法、存储介质和服务器 | |
WO2021081962A1 (zh) | 推荐模型的训练方法、推荐方法、装置及计算机可读介质 | |
US7853599B2 (en) | Feature selection for ranking | |
CN110020128B (zh) | 一种搜索结果排序方法及装置 | |
WO2023011382A1 (zh) | 推荐方法、推荐模型训练方法及相关产品 | |
CN112070577A (zh) | 一种商品推荐方法、系统、设备及介质 | |
CN111797320B (zh) | 数据处理方法、装置、设备及存储介质 | |
CN111310032B (zh) | 资源推荐方法、装置、计算机设备及可读存储介质 | |
US20230031522A1 (en) | Recommendation method and apparatus based on automatic feature grouping | |
CN110909222A (zh) | 基于聚类的用户画像建立方法、装置、介质及电子设备 | |
CN110532351A (zh) | 推荐词展示方法、装置、设备及计算机可读存储介质 | |
US11966933B2 (en) | System and method for correlating and enhancing data obtained from distributed sources in a network of distributed computer systems | |
CN110647683A (zh) | 一种信息推荐方法、装置 | |
CN111429161B (zh) | 特征提取方法、特征提取装置、存储介质及电子设备 | |
CN112598472A (zh) | 产品推荐方法、装置、系统、介质和程序产品 | |
CN111309815A (zh) | 一种关系图谱的处理方法、装置和电子设备 | |
CN112883265A (zh) | 信息推荐方法、装置、服务器及计算机可读存储介质 | |
CN115660783A (zh) | 模型训练方法、商品推荐方法、装置、设备及介质 | |
CN109146606B (zh) | 一种品牌推荐方法、电子设备、存储介质及系统 | |
US20230099627A1 (en) | Machine learning model for predicting an action | |
CN113424207B (zh) | 高效地训练可理解模型的系统和方法 | |
Chen et al. | Data-driven product configuration improvement and product line restructuring with text mining and multitask learning | |
Huang et al. | Improved collaborative filtering personalized recommendation algorithm based on k-means clustering and weighted similarity on the reduced item space | |
CN113761084A (zh) | 一种poi搜索排序模型训练方法、排序装置与方法及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |