CN105335491B

CN105335491B - 基于用户点击行为来向用户推荐图书的方法和系统

Info

Publication number: CN105335491B
Application number: CN201510684976.XA
Authority: CN
Inventors: 廖建新; 应文佳; 李曲; 王超芸; 彭刚
Original assignee: Hangzhou Dongxin Beiyou Information Technology Co Ltd
Current assignee: Hangzhou Dongxin Beiyou Information Technology Co Ltd
Priority date: 2015-10-20
Filing date: 2015-10-20
Publication date: 2018-11-09
Anticipated expiration: 2035-10-20
Also published as: CN105335491A

Abstract

一种基于用户点击行为来向用户推荐图书的方法和系统，方法包括：选取若干位用户构成样本用户集，并为样本用户集中每位用户选取多本其点击和未点击过的推荐图书；抽取样本用户集中每位用户和其点击、未点击过的推荐图书之间的关联特征值，然后根据用户和推荐图书之间的关联特征值训练生成logistic分类模型；逐一将目标用户和新推荐图书之间的关联特征值输入logistic分类模型从而得到目标用户点击新推荐图书的概率，并根据所述概率向目标用户选择新推荐图书。本发明属于数据业务领域，能基于用户对图书的点击行为来对用户的个性化图书偏好进行预测，从而提高推荐点击率和提升推荐效果。

Description

基于用户点击行为来向用户推荐图书的方法和系统

技术领域

本发明涉及一种基于用户点击行为来向用户推荐图书的方法和系统，属于数据业务领域。

背景技术

在移动阅读日益发展并为广大用户逐渐接受的当下，准确把握移动终端用户的阅读偏好、快速将符合用户喜好的信息以直线距离推送到用户面前显得尤为重要。而在图书推荐领域中，用户通常会从大量的推荐图书中选择点击符合其偏好的图书来浏览和阅读，因此，通过对用户的图书点击行为进行分析，可以有效预测出用户对图书的个性化偏好，从而向用户推荐符合其偏好的图书。

专利申请CN 201210436266.1(申请名称：推荐网络信息的方法和系统，申请日：2012-11-05，申请人：腾讯科技(深圳)有限公司)提供了一种推荐网络信息的方法和系统。所述方法包括：根据网络信息的点击次数对网络平台中的网络信息进行划分得到信息集合和对应的评级；对信息集合中的网络信息进行特征抽取得到浏览行为特征，并根据所述浏览行为特征训练得到所述信息集合对应的分类模型；将更新的网络信息输入分类模型得到所属的信息集合；根据所述更新的网络信息所属的信息集合对应的评级进行所述更新的网络信息的推荐。该技术方案主要根据网络信息的点击次数和浏览行为来向用户推荐网络信息，并不涉及到基于用户点击行为来实现用户对图书的个性化偏好预测。

因此，如何基于用户对图书的点击行为来对用户的个性化图书偏好进行预测，从而提高推荐点击率和提升推荐效果，仍是一个未解决的技术问题。

发明内容

有鉴于此，本发明的目的是提供一种基于用户点击行为来向用户推荐图书的方法和系统，能基于用户对图书的点击行为来对用户的个性化图书偏好进行预测，从而提高推荐点击率和提升推荐效果。

为了达到上述目的，本发明提供了一种基于用户点击行为来向用户推荐图书的方法，包括有：

步骤一、选取若干位用户构成样本用户集，并为样本用户集中每位用户选取多本其点击和未点击过的推荐图书；

步骤二、抽取样本用户集中每位用户和其点击、未点击过的推荐图书之间的关联特征值，然后根据用户和推荐图书之间的关联特征值训练生成logistic分类模型，所述logistic分类模型训练所使用的输入数据是样本用户集中每位用户和其点击、未点击过的推荐图书之间的关联特征值，输出数据是用户点击推荐图书的概率；

步骤三、逐一将目标用户和新推荐图书之间的关联特征值输入logistic分类模型从而得到目标用户点击新推荐图书的概率，并根据所述概率向目标用户选择新推荐图书，

当用户和推荐图书之间的关联特征值包括有推荐图书的用户相似图书历史行为、用户相似图书和推荐图书的相似度时，还包括有：

步骤A1、提取推荐图书的所有关键字，将推荐图书的所有关键字的个数记为n；

步骤A2、构建推荐图书的用户相似图书集，所述用户相似图书集初始化为空，然后从用户的阅读历史记录中提取一本用户阅读过的历史图书；

步骤A3、统计提取的历史图书所包含的推荐图书的关键字或与关键字相似的词语个数k，并计算所述历史图书和推荐图书的相似度：然后判断所述相似度是否大于相似度阈值，如果是，则将所述历史图书作为相似图书保存到推荐图书的用户相似图书集中，然后继续下一步；如果否，则继续下一步；

步骤A4、判断是否已从用户的阅读历史记录中提取完所有用户阅读过的历史图书，如果是，则继续下一步；如果否，则继续从用户的阅读历史记录中提取下一本用户阅读过的历史图书，然后转向步骤A3；

步骤A5、从用户的阅读历史记录中读取用户相似图书集中所有相似图书对应的用户历史行为和阅读时间，并按照阅读时间、和用户历史行为的优先级对所有相似图书进行排序，最后从用户相似图书集中挑选出一本阅读时间最近、且用户历史行为的优先级最高的相似图书，所挑选出的相似图书对应的用户历史行为即是推荐图书的用户相似图书历史行为，所挑选出的相似图书和推荐图书的相似度即是用户相似图书和推荐图书的相似度。

为了达到上述目的，本发明还提供了一种基于用户点击行为来向用户推荐图书的系统，包括有：

样本构建装置，用于选取若干位用户构成样本用户集，并为样本用户集中每位用户选取多本其点击和未点击过的推荐图书；

分类模型训练装置，用于抽取样本用户集中每位用户和其点击、未点击过的推荐图书之间的关联特征值，然后根据用户和推荐图书之间的关联特征值训练生成logistic分类模型，所述logistic分类模型训练所使用的输入数据是样本用户集中每位用户和其点击、未点击过的推荐图书之间的关联特征值，输出数据是用户点击推荐图书的概率；

图书推荐装置，用于逐一将目标用户和新推荐图书之间的关联特征值输入logistic分类模型从而得到目标用户点击新推荐图书的概率，并根据所述概率向目标用户选择新推荐图书，

当用户和推荐图书之间的关联特征值包括推荐图书的用户相似图书历史行为、用户相似图书和推荐图书的相似度时，分类模型训练装置中进一步包括有：

相似度计算单元，用于提取推荐图书的所有关键字，将推荐图书的所有关键字的个数记为n，统计历史图书所包含的推荐图书的关键字或与关键字相似的词语个数k，并计算历史图书和推荐图书的相似度：

相似图书集构建单元，用于构建推荐图书的用户相似图书集，所述用户相似图书集初始化为空，然后从用户的阅读历史记录中逐一提取每一本用户阅读过的历史图书，通过相似度计算单元来计算推荐图书和所提取的历史图书的相似度，当相似度大于相似度阈值时，则将所提取的历史图书作为相似图书保存到推荐图书的用户相似图书集中；

相似图书历史行为计算单元，用于从用户的阅读历史记录中读取用户相似图书集中所有相似图书对应的用户历史行为和阅读时间，并按照阅读时间、和用户历史行为的优先级对所有相似图书进行排序，最后从用户相似图书集中挑选出一本阅读时间最近、且用户历史行为的优先级最高的相似图书，所挑选出的相似图书对应的用户历史行为即是推荐图书的用户相似图书历史行为，所挑选出的相似图书和推荐图书的相似度即是用户相似图书和推荐图书的相似度。

与现有技术相比，本发明的有益效果是：本发明可以根据用户对现有推荐图书的点击和未点击行为，训练生成logistic分类模型，然后通过logistic分类模型计算得到目标用户点击新推荐图书的概率，从而有效提高推荐点击率和提升推荐效果；通过用户相似图书历史行为、相似度等关联特征值的计算，可以对用户的个性化图书偏好进行更精准的分析和预测。

附图说明

图1是本发明一种基于用户点击行为来向用户推荐图书的方法的流程图。

图2是推荐图书的用户相似图书历史行为、用户相似图书和推荐图书的相似度的具体计算流程图。

图3是本发明一种基于用户点击行为来向用户推荐图书的系统的组成结构示意图。

图4是分类模型训练装置的组成结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明作进一步的详细描述。

如图1所示，本发明一种基于用户点击行为来向用户推荐图书的方法，包括有：

步骤三、逐一将目标用户和新推荐图书之间的关联特征值输入logistic分类模型从而得到目标用户点击新推荐图书的概率，并根据所述概率向目标用户选择新推荐图书。

步骤一中，为样本用户集中每位用户选取多本其点击和未点击过的推荐图书，还可以进一步包括有：

步骤11、选取用户最新日期的图书推荐列表，并将用户最新日期的图书推荐列表中用户点击过的推荐图书按照点击时间进行排序，从而为用户挑选出多本点击时间最近的推荐图书；

步骤12、采用skip-above(即跳略法)方式，即从用户点击的item(即图书)位置以上的展现图书中随机选取多本用户未点击过的推荐图书。值得一提的是，步骤11和步骤12中所选取的点击和未点击过的推荐图书数量相同时，本发明所取得的技术效果最佳。

步骤二和步骤三中，用户和推荐图书之间的关联特征值可以是图书推荐次数、用户换单次数、推荐率、历史图书数量、推荐图书的作家是否是名家、用户名家偏好值、推荐图书是否含有用户喜欢的字眼、用户雅标题倾向率、推荐图书雅俗分类、推荐图书的用户相似图书历史行为、用户相似图书和推荐图书的相似度等。其中，图书推荐次数是向用户推荐图书的次数；用户换单次数是用户的图书推荐列表在一段时期内的变化次数；推荐率是图书推荐次数和换单次数的比值；历史图书数量是用户阅读过的图书数量；图书推荐次数、用户换单次数、推荐率、历史图书数量、推荐图书的作家是否是名家、用户名家偏好值、推荐图书是否含有用户喜欢的字眼、用户雅标题倾向率、推荐图书雅俗分类这些值可以从用户的阅读历史记录、以及推荐图书的属性库中获取。如图2所示，推荐图书的用户相似图书历史行为、用户相似图书和推荐图书的相似度的计算过程可以进一步如下：

步骤A1、提取推荐图书的所有关键字，将推荐图书的所有关键字的个数记为n；图书网站编辑可从推荐图书中挑选若干具有代表性的词语作为每本推荐图书的关键字；

步骤A3、统计提取的历史图书所包含的推荐图书的关键字或与关键字相似的词语个数k，并计算所述历史图书和推荐图书的相似度：然后判断所述相似度是否大于相似度阈值？如果是，则将所述历史图书作为相似图书保存到推荐图书的用户相似图书集中，然后继续下一步；如果否，则继续下一步，其中，相似度阈值可根据业务实际需要而设定；

步骤A4、判断是否已从用户的阅读历史记录中提取完所有用户阅读过的历史图书？如果是，则继续下一步；如果否，则继续从用户的阅读历史记录中提取下一本用户阅读过的历史图书，然后转向步骤A3；

图书对应的用户历史行为可以包括有：浏览、开始阅读、深度长期阅读、弃读。根据对用户点击行为的影响程度，可以将用户历史行为按优先级从高到低的次序进行排序为：浏览>开始阅读>深度长期阅读>弃读。例如，当用户对推荐图书包括有浏览和开始阅读两种用户历史行为时，由于浏览对用户点击的影响力大于开始阅读，因此，可以选取浏览作为用户历史行为。

步骤二和步骤三中，还可以将用户和推荐图书之间的关联特征值设置不同类型的变量，其中分类特征值设定为因子型变量，数值特征值设定为数值型变量，如下表所示，例如，推荐图书的用户相似图书历史行为分别是浏览、开始阅读、深度长期阅读、弃读、无时，其值分别设置为1、2、3、4、0。

步骤二中，对于logistic分类模型所使用的训练样本来说，输出数据是样本用户集中每位用户点击推荐图书概率，其值为1或0，即当推荐图书是用户点击过的推荐图书时，其值为1；当推荐图书是用户未点击过的推荐图书时，其值为0。这样，步骤三中，进一步包括有：判断目标用户点击新推荐图书的概率是否大于或等于点击概率阈值，如果是，则将所述新推荐图书写入用户的图书推荐列表中，所述点击概率阈值可以根据实际情况而设定，例如取值为0.5。

如图3所示，本发明一种基于用户点击行为来向用户推荐图书的系统，包括有：

图书推荐装置，用于逐一将目标用户和新推荐图书之间的关联特征值输入logistic分类模型从而得到目标用户点击新推荐图书的概率，并根据所述概率向目标用户选择新推荐图书。

所述样本构建装置还可以进一步包括有：

点击图书选取单元，用于选取用户最新日期的图书推荐列表，并将用户最新日期的图书推荐列表中用户点击过的推荐图书按照点击时间进行排序，从而为用户挑选出多本点击时间最近的推荐图书；

未点击图书选取单元，用于采用skip-above(即跳略法)方式，即从用户点击的item(即图书)位置以上的展现图书中随机选取多本用户未点击过的推荐图书。

在分类模型训练装置中，用户和推荐图书之间的关联特征值可以是图书推荐次数、用户换单次数、推荐率、历史图书数量、推荐图书的作家是否是名家、用户名家偏好值、推荐图书是否含有用户喜欢的字眼、用户雅标题倾向率、推荐图书雅俗分类、推荐图书的用户相似图书历史行为、用户相似图书和推荐图书的相似度等。其中，图书推荐次数是向用户推荐图书的次数，用户换单次数是用户的图书推荐列表在一段时期内的变化次数，推荐率是图书推荐次数和换单次数的比值，历史图书数量是用户阅读过的图书数量，图书推荐次数、用户换单次数、推荐率、历史图书数量、推荐图书的作家是否是名家、用户名家偏好值、推荐图书是否含有用户喜欢的字眼、用户雅标题倾向率、推荐图书雅俗分类这些值可以从用户的阅读历史记录、以及推荐图书的属性库中获取。如图4所示，分类模型训练装置中还可以进一步包括有：

相似图书集构建单元，用于构建推荐图书的用户相似图书集，所述用户相似图书集初始化为空，然后从用户的阅读历史记录中逐一提取每一本用户阅读过的历史图书，通过相似度计算单元来计算推荐图书和所提取的历史图书的相似度，当相似度大于相似度阈值时，则将所提取的历史图书作为相似图书保存到推荐图书的用户相似图书集中，相似度阈值可根据业务实际需要而设定；

值得一提的是，图书对应的用户历史行为可以包括有：浏览、开始阅读、深度长期阅读、弃读。根据对用户点击行为的影响程度，可以将用户历史行为按优先级从高到低的次序进行排序为：浏览>开始阅读>深度长期阅读>弃读。例如，当用户对推荐图书包括有浏览和开始阅读两种用户历史行为时，由于浏览对用户点击的影响力大于开始阅读，因此，可以选取浏览作为用户历史行为。

对于分类模型训练装置来说，logistic分类模型的训练样本的输出数据是样本用户集中每位用户点击推荐图书概率，其值为1或0，即当推荐图书是用户点击过的推荐图书时，其值为1；当推荐图书是用户未点击过的推荐图书时，其值为0。这样，图书推荐装置还可以进一步包括有：

点击概率判断单元，用于判断目标用户点击新推荐图书的概率是否大于或等于点击概率阈值，如果是，则将所述新推荐图书写入用户的图书推荐列表中，所述点击概率阈值的值可以根据实际情况而定，例如取值为0.5。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种基于用户点击行为来向用户推荐图书的方法，其特征在于，包括有：

2.根据权利要求1所述的方法，其特征在于，步骤一中，为样本用户集中每位用户选取多本其点击和未点击过的推荐图书，进一步包括有：

步骤12、采用skip-above方式，即从用户点击的item位置以上的展现图书中随机选取多本用户未点击过的推荐图书。

3.根据权利要求1所述的方法，其特征在于，步骤二和步骤三中，用户和推荐图书之间的关联特征值包括但不限于：图书推荐次数、用户换单次数、推荐率、历史图书数量、推荐图书的作家是否是名家、用户名家偏好值、推荐图书是否含有用户喜欢的字眼、用户雅标题倾向率、推荐图书雅俗分类、推荐图书的用户相似图书历史行为、用户相似图书和推荐图书的相似度。

4.根据权利要求1所述的方法，其特征在于，图书对应的用户历史行为包括有：浏览、开始阅读、深度长期阅读、弃读，且将用户历史行为按优先级从高到低的次序进行排序为：浏览>开始阅读>深度长期阅读>弃读。

5.根据权利要求1所述的方法，其特征在于，步骤二中，对于logistic分类模型所使用的训练样本来说，输出数据是样本用户集中每位用户点击推荐图书概率，其值为1或0，即当推荐图书是用户点击过的推荐图书时，其值为1；当推荐图书是用户未点击过的推荐图书时，其值为0，步骤三中，进一步包括有：

判断目标用户点击新推荐图书的概率是否大于或等于点击概率阈值，如果是，则将所述新推荐图书写入用户的图书推荐列表中。

6.一种基于用户点击行为来向用户推荐图书的系统，其特征在于，包括有：

7.根据权利要求6所述的系统，其特征在于，样本构建装置进一步包括有：

未点击图书选取单元，用于采用skip-above方式，即从用户点击的item位置以上的展现图书中随机选取多本用户未点击过的推荐图书。

8.根据权利要求6所述的系统，其特征在于，在分类模型训练装置中，用户和推荐图书之间的关联特征值包括但不限于：图书推荐次数、用户换单次数、推荐率、历史图书数量、推荐图书的作家是否是名家、用户名家偏好值、推荐图书是否含有用户喜欢的字眼、用户雅标题倾向率、推荐图书雅俗分类、推荐图书的用户相似图书历史行为、用户相似图书和推荐图书的相似度。

9.根据权利要求6所述的系统，其特征在于，图书对应的用户历史行为包括有：浏览、开始阅读、深度长期阅读、弃读，且将用户历史行为按优先级从高到低的次序进行排序为：浏览>开始阅读>深度长期阅读>弃读。

10.根据权利要求6所述的系统，其特征在于，对于分类模型训练装置来说，logistic分类模型的训练样本的输出数据是样本用户集中每位用户点击推荐图书概率，其值为1或0，即当推荐图书是用户点击过的推荐图书时，其值为1；当推荐图书是用户未点击过的推荐图书时，其值为0，图书推荐装置进一步包括有：

点击概率判断单元，用于判断目标用户点击新推荐图书的概率是否大于或等于点击概率阈值，如果是，则将所述新推荐图书写入用户的图书推荐列表中。