CN106777139A

CN106777139A - 基于阅读时间的用户阅读偏好统计的个性化推送方法

Info

Publication number: CN106777139A
Application number: CN201611175971.5A
Authority: CN
Inventors: 徐俊; 项倩红; 朱书苗; 徐育忠; 余永海
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2016-12-19
Filing date: 2016-12-19
Publication date: 2017-05-31

Abstract

一种基于阅读时间的用户阅读偏好统计的个性化推送方法，包括以下步骤：步骤1：建立电子读物平均阅读时间的计算标准；步骤2：对用户的阅读行为进行判断；步骤3：用户平均阅读速度的建立；步骤4：用户单一文章阅读时间的计算；步骤5：根据用户实际阅读时间和平均阅读时间判断阅读完整度；步骤6：根据用户阅读完整度建立用户偏好程度；步骤7：对用户偏好向量和文章内容特征向量进行匹配相似运算，得出用户对未阅读文章的兴趣评价值，可将兴趣评价值较高的一系列文章推荐给用户。本发明主要根据用户对文章的阅读时间和文本信息来判断用户的偏好程度，从而向用户推荐其所感兴趣的文章。

Description

基于阅读时间的用户阅读偏好统计的个性化推送方法

技术领域

本发明属于电子读物技术领域，尤其涉及一种手机端电子读物基于阅读时间的偏好统计方法，并提出个性化推送方案。

背景技术

互联网是人们进行资源共享活动最有效的工具。然而在信息爆炸的今天，困扰人们的不再是有没有自己所想获取的信息，而是如何高校、精确地找到所需要的信息。个性化的信息推荐技术作为信息过滤的手段是解决当前信息过载问题的有效方法。

当前，学术界就用户的行为兴趣来实现个性化已经有所研究。邢玲等人提出了根据用户的浏览内容和浏览时间建立用户的兴趣模型的表示和更新机制，从而根据兴趣模型给用户进行推送；蒲彬等人基于用户的社交信号来对用户实现个性化新闻推荐。专利申请号为：CN104111820A，发明名称为一种为电子读物添加阅读时间的方法和装置的中国发明专利，介绍了如何根据用户的行为来统计用户的实际阅读时间和平均阅读时间。准确地建立用户阅读偏好模型对于提高用户的信息获取效率具有极其重要的意义。

发明内容

为了克服已有推送方式的用户信息获取效率较低的不足，本发明提供了一种有效提高用户信息获取效率的基于阅读时间的用户阅读偏好统计的个性化推送方法。本发明主要根据用户对文章的阅读时间和文本信息来判断用户的偏好程度，从而向用户推荐其所感兴趣的文章。

本发明解决其技术问题所采用的技术方案是：

一种基于阅读时间的用户阅读偏好统计的个性化推送方法，包括以下步骤：

步骤1：建立电子读物平均阅读时间的计算标准；

步骤2：对用户的阅读行为进行判断；

步骤3：用户平均阅读速度的建立；

步骤4：用户单一文章阅读时间的计算；

步骤5：根据用户实际阅读时间和平均阅读时间判断阅读完整度；

步骤6：根据用户阅读完整度建立用户偏好程度；

步骤7：对用户偏好向量和文章内容特征向量进行匹配相似运算，得出用户对未阅读文章的兴趣评价值，可将兴趣评价值较高的一系列文章推荐给用户。

进一步，所述个性化推送方法还包括以下步骤：

步骤8：根据不同用户的阅读偏好建立用户间的相似模型，将相似度较高的用户所阅读的部分文章进行相互推送。

再进一步，所述个性化推送方法还包括以下步骤：

步骤9：将热门新闻、短期的爆炸性新闻推荐给用户。

更进一步，所述步骤1中，电子读物平均阅读时间计算方法包括如下步骤：

1.1)统计电子读物中不同语言分别对应的字数以及其它媒体文件的总播放时长；

1.2)给定不同语言的平均阅读速度；

1.3)依据不同语言的字数和相应的平均阅读速度计算出此语言的阅读时间；

1.4)对各种不同语言的阅读时间和媒体文件的播放时长计算出该文章的总阅读时间。

所述步骤3中，用户平均阅读速度的建立过程如下：首先给定一个初始状态，即先给定一个平均阅读速度保存至其平均速度列表中，该平均速度列表中保存有不同语言的平均速度初始状态值，并记录用户不同语言的实际阅读速度，用实际阅读速度对其初始平均阅读速度进行实时矫正训练，并保存在平均速度列表中作为用户的平均阅读速度。

所述步骤4中，用户单一文章阅读时间的计算：电子读物不同语言对应的字数和用户不同语言的平均阅读速度的比值即为用户不同语言的阅读时间，对不同语言的阅读时间和媒体文件的播放时长求和即为用户单一文章的平均阅读时间；

T＝T₁+T₂+…+T_N+T_a+T_b＝M₁/V₁+M₂/V₂+…+

M_N/V_N+T_a+T_b (1)

其中，T为用户单一文章的平均阅读时间；T₁，T₂…T_N分别为用户对不同语言的阅读时间；T_a,T_b分别表示媒体文件总的播放时长和图片的阅读时间；M₁，M₂…M_N分别表示不同语言的总字数；V₁，V₂…V_N分别表示用户对不同语言的平均阅读速度；

所述步骤5中，用户单一文章阅读完整度的判定：用户完成点击、拖动到底、退出三个步骤并且其阅读时间满足相应的阈值时表明是完整阅读，否则被认为是未完整阅读；根据步骤4中用户单一文章阅读时间的计算，再结合用户对该文章的实际阅读时间确定阅读完整度，定义单一文章的实际阅读时间和平均阅读时间的比值为阅读完整度：即

α＝a/b (2)

其中，α为阅读完整度，a表示用户单一文章的实际阅读时间，b表示平均阅读时间。

所述步骤6中，根据步骤5中所得阅读完整度，建立用户偏好度，用户偏好度度量值与阅读完整度密切相关，建立如下算法：

其中，α_min0表示阅读时间比设定的阈值，当阅读时间小于α_min0时用户的偏好度为0；α_min1和α_max1之间是用户偏好度为1的情况下设定的阅读时间比上下阈值，即可认为用户对此文章十分感兴趣；在α_min0和α_min1之间其偏好度满足如上的函数关系；当阅读时间比大于α_max1时说明用户的阅读时间过长。

所述步骤7中，根据阅读完整度建立的用户偏好度和关键字等来建立用户偏好模型，个性化地向用户推荐感兴趣但又从未浏览过的文章。对于一篇新的文章，可先根据其内容转换为内容特征向量，再与用户偏好模型进行匹配运算得出相似度，由相似度得到用户对未阅读文章的兴趣评价值；从而将兴趣评价值较高的一系列文章推荐给用户。

所述步骤7的过程如下：

用户在进行阅读文章的过程中会根据文章的内容和步骤6中所述的偏好度转化为用户的偏好向量，用如下公式来计算：

其中，ω(t,d)表示关键词t在文本d中出现的权重；tf(t,d)表示关键词t在文本d中出现的频率；N为样本出现的总次数；N_t表示所有样本中t出现的文本数；在步骤6中引入的用户偏好度后，文章的用户偏好向量表示为:

I＝{(t₁,ω₁),(t₂,ω₂),…,(t_m,ω_m),f(α)} (5)

对此偏好向量进行扩展，其不仅包含文章的内容信息，还携带着用户的阅读行为，用户的兴趣模型表征形式如下：

其中，n为兴趣向量的个数，m为每个兴趣向量所包含的维数。

再引入偏好矩阵I来刻画任意两个偏好向量的相似度，并找出最大相似度S_max，运用夹角余弦法来计算相似度，公式如下：

其中，V_s，V_r为偏好矩阵I中两个兴趣向量；sim(V_s,V_r)为V_s，V_r的相似度；ω_ri和ω_sj分别为V_s，V_r中特征词t_ri、t_sj所对应的权值；

对于新的文章，其内容特征向量表示为：

V_new＝((t₁,ω₁),(t₂,ω₂),…,(t_m,ω_m)) (8)

最后通过如下评价得出用户对未阅读文章的兴趣评价值为：

其中，V_i表示用户兴趣模型中第i个兴趣向量对应的内容特征向量；f(α_i)为兴趣向量V_i对应的偏好度；sim(V_i,V_new)为未阅读文章与兴趣向量V_i之间的相似度；

由此得出用户对未阅读文章的兴趣评价值，从而将兴趣评价值较高的一系列文章推荐给用户。

在所述步骤8中，通过计算用户间的相似度，将与其相似度较高的用户所阅读的系列文章推荐给对方，从而扩展并发掘用户的潜在兴趣，过程如下：

其中a和b分别表示两个不同的用户，w_k表示某一文本关键词k对应的权重，V_ak,V_bk分别表示用户a和b对该文本的兴趣向量；

针对用户b所阅读的文本k建立用户a与b之间的相似度，如果相似度高，就把用户b所阅读过的，并且用户a对其相似度较高的文章推荐给用户a。

本发明的有益效果主要表现在：基于阅读时间的偏好统计方法通过阅读时间、阅读完整度、偏好程度等计算，能够得出用户对未阅读文章的感兴趣程度，从而将其最感兴趣的文章推荐给用户，或者实现兴趣相似度较高的用户间相互推送，真正地实现个性化推荐。

附图说明

图1是基于阅读时间的用户阅读偏好统计方法实现流程图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1，一种基于阅读时间的用户阅读偏好统计的个性化推送方法，包括以下步骤：

步骤1：建立电子读物平均阅读时间的计算标准；

步骤2：对用户的阅读行为进行判断；

步骤3：用户平均阅读速度的建立；

步骤4：用户单一文章阅读时间的计算；

步骤6：根据用户阅读完整度建立用户偏好程度；

步骤9：将热门新闻、短期的爆炸性新闻推荐给用户。

进一步，所述步骤1中，电子读物平均阅读时间计算方法包括如下步骤：

1.2)给定不同语言的平均阅读速度；

其中，上述方法中的媒体文件具体可包括视频文件、音频文件等。

再进一步，所述步骤2中，文章的阅读行为分为点击、拖动和退出三大类，一个完整的阅读上述三种阅读行为缺一不可。

所述步骤4中，用户单一文章阅读时间的计算：电子读物不同语言对应的字数和用户不同语言的平均阅读速度的比值即为用户不同语言的阅读时间，对不同语言的阅读时间和媒体文件的播放时长求和即为用户单一文章的平均阅读时间。

T＝T₁+T₂+…+T_N+T_a+T_b＝M₁/V₁+M₂/V₂+…+

M_N/V_N+T_a+T_b (1)

其中，T为用户单一文章的平均阅读时间；T₁，T₂…T_N分别为用户对不同语言的阅读时间；T_a,T_b分别表示媒体文件总的播放时长和图片的阅读时间；M₁，M₂…M_N分别表示不同语言的总字数；V1，V₂…V_N分别表示用户对不同语言的平均阅读速度。

所述步骤5中，用户单一文章阅读完整度的判定：用户完成点击、拖动到底、退出三个步骤并且其阅读时间满足相应的阈值时表明是完整阅读，否则被认为是未完整阅读。

为了更精确地量化阅读的完整性，引入完整度这一概念。根据步骤4中用户单一文章阅读时间的计算，再结合用户对该文章的实际阅读时间确定阅读完整度，定义单一文章的实际阅读时间和平均阅读时间的比值为阅读完整度：即

α＝a/b (2)

其中，α为阅读完整度，a表示用户单一文章的实际阅读时间，b表示平均阅读时间；

其中，α_min0表示阅读时间比设定的阈值，当阅读时间小于α_min0时用户的偏好度为0；α_min1和α_max1之间是用户偏好度为1的情况下设定的阅读时间比上下阈值，即可认为用户对此文章十分感兴趣；在α_min0和α_min1之间其偏好度满足如上的函数关系；当阅读时间比大于α_max1时说明用户的阅读时间过长，此行为已无法准确的量化用户的偏好度。

该用户偏好度量化方法中当阅读时间比大于α_max1时，可能用户面临其它情况没有处于阅读状态而导致阅读时间过长，从而此时的阅读时间并没有实际意义。

过程如下：

用户在进行阅读文章的过程中会根据文章的内容和步骤6中所述的偏好度转化为用户的偏好向量。本发明用如下公式来计算：

其中，ω(t,d)表示关键词t在文本d中出现的权重；tf(t,d)表示关键词t在文本d中出现的频率；N为样本出现的总次数；N_t表示所有样本中t出现的文本数。在步骤6中引入的用户偏好度后，文章的用户偏好向量可表示为:

I＝{(t₁,ω₁),(t₂,ω₂),…,(t_m,ω_m),f(α)} (5)

对此偏好向量进行扩展，其不仅包含文章的内容信息，还携带着用户的阅读行为。用户的兴趣模型表征形式如下：

其中，V_s，V_r为偏好矩阵I中两个兴趣向量；sim(V_s,V_r)为V_s，V_r的相似度；ω_ri和ω_sj分别为V_s，V_r中特征词t_ri、t_sj所对应的权值。

对于新的文章，其内容特征向量可表示为：

V_new＝((t₁,ω₁),(t₂,ω₂),…,(t_m,ω_m)) (8)

最后通过如下评价得出用户对未阅读文章的兴趣评价值为：

其中，V_i表示用户兴趣模型中第i个兴趣向量对应的内容特征向量；f(α_i)为兴趣向量V_i对应的偏好度；sim(V_i,V_new)为未阅读文章与兴趣向量V_i之间的相似度。

所述步骤7中，所建立的根据阅读时间来建立用户的兴趣评价值，并将评价值较高的文章推荐给用户，此方法的弊端是推荐的文章范围很狭窄，只能推荐用户过去感兴趣的文章，而不能发掘用户的潜在兴趣。故在步骤8中，为了发掘用户潜在的兴趣，我们可以通过计算用户间的相似度(我们认为相似度较高的用户间有相同的兴趣爱好)，将与其相似度较高的的用户所阅读的系列文章推荐给对方，从而扩展并发掘用户的潜在兴趣。

具体过程如下：

其中a和b分别表示两个不同的用户，w_k表示某一文本关键词k对应的权重，V_ak,V_bk分别表示用户a和b对该文本的兴趣向量。

针对用户b所阅读的文本k建立用户a与b之间的相似度，如果相似度高，就可以把用户b所阅读过的，并且用户a对其相似度较高的文章推荐给用户a。从而实现用户之间的相互推送，发掘具有相似偏好用户间的阅读兴趣来拓展用户的阅读兴趣。

以上8个步骤都是基于用户的阅读特征(历史行为和兴趣信息等)所建立的个性化推荐技术，但是对于一些时效性很强的文体(如新闻)，只通过用户的历史行为兴趣进行推荐往往会使用户遗漏很多有用信息。故在步骤9中，我们不仅要考虑用户的个人兴趣，还要兼顾公众兴趣，从而发掘用户的潜在兴趣。将大众兴趣、爆炸性的信息每天给用户推荐一定数量的文章。

综上所述，本发明提出的基于用户阅读时间的阅读偏好统计的个性化推送方法。通过对用户平均阅读时间和实际阅读时间的计算，得出用户的阅读完整度，从而根据阅读完整度转化为用户的偏好程度，由用户的偏好程度和未阅读文本的特征向量进行匹配相似运算，从而将兴趣评价值较高的文章推荐给用户。在此基础上还给用户推荐与其具有相似兴趣的用户所阅读的文章、热门文章等，从而避免仅仅根据用户的历史行为进行推送所带来的兴趣狭隘等问题。本发明可以有效地为用户提供其感兴趣的一类文章，从而减小筛选信息所带来的浪费。

Claims

1.一种基于阅读时间的用户阅读偏好统计的个性化推送方法，其特征在于：包括以下步骤：

步骤1：建立电子读物平均阅读时间的计算标准；

步骤2：对用户的阅读行为进行判断；

步骤3：用户平均阅读速度的建立；

步骤4：用户单一文章阅读时间的计算；

步骤6：根据用户阅读完整度建立用户偏好程度；

2.如权利要求1所述的一种基于阅读时间的用户阅读偏好统计的个性化推送方法，其特征在于：所述个性化推送方法还包括以下步骤：

3.如权利要求2所述的一种基于阅读时间的用户阅读偏好统计的个性化推送方法，其特征在于：所述个性化推送方法还包括以下步骤：

步骤9：将热门新闻、短期的爆炸性新闻推荐给用户。

4.如权利要求1～3之一所述的一种基于阅读时间的用户阅读偏好统计的个性化推送方法，其特征在于：所述步骤1中，电子读物平均阅读时间计算方法包括如下步骤：

1.2)给定不同语言的平均阅读速度；

5.如权利要求1～3之一所述的一种基于阅读时间的用户阅读偏好统计的个性化推送方法，其特征在于：所述步骤3中，用户平均阅读速度的建立过程如下：首先给定一个初始状态，即先给定一个平均阅读速度保存至其平均速度列表中，该平均速度列表中保存有不同语言的平均速度初始状态值，并记录用户不同语言的实际阅读速度，用实际阅读速度对其初始平均阅读速度进行实时矫正训练，并保存在平均速度列表中作为用户的平均阅读速度。

6.如权利要求1～3之一所述的一种基于阅读时间的用户阅读偏好统计的个性化推送方法，其特征在于：所述步骤4中，用户单一文章阅读时间的计算：电子读物不同语言对应的字数和用户不同语言的平均阅读速度的比值即为用户不同语言的阅读时间，对不同语言的阅读时间和媒体文件的播放时长求和即为用户单一文章的平均阅读时间；

T＝T₁+T₂+…+T_N+T_a+T_b＝M₁/V₁+M₂/V₂+…+M_N/V_N+T_a+T_b (1)

其中，T为用户单一文章的平均阅读时间；T₁，T₂…T_N分别为用户对不同语言的阅读时间；T_a,T_b分别表示媒体文件总的播放时长和图片阅读所需要的时间；M₁，M₂…M_N分别表示不同语言的总字数；V₁，V₂…V_N分别表示用户对不同语言的平均阅读速度；

α＝a/b (2)

7.如权利要求6所述的一种基于阅读时间的用户阅读偏好统计的个性化推送方法，其特征在于：所述步骤6中，根据步骤5中所得阅读完整度，建立用户偏好度，用户偏好度度量值与阅读完整度密切相关，建立如下算法：

8.如权利要求1～3之一所述的一种基于阅读时间的用户阅读偏好统计的个性化推送方法，其特征在于：所述步骤7中，根据阅读完整度建立的用户偏好度和关键字等来建立用户偏好模型，个性化地向用户推荐感兴趣但又从未浏览过的文章。对于一篇新的文章，可先根据其内容转换为内容特征向量，再与用户偏好模型进行匹配运算得出相似度，由相似度得到用户对未阅读文章的兴趣评价值；从而将兴趣评价值较高的一系列文章推荐给用户。

9.如权利要求8所述的一种基于阅读时间的用户阅读偏好统计的个性化推送方法，其特征在于：所述步骤7的过程如下：

I＝{(t₁,ω₁),(t₂,ω₂),…,(t_m,ω_m),f(α)} (5)

对于新的文章，其内容特征向量表示为：

V_new＝((t₁,ω₁),(t₂,ω₂),…,(t_m,ω_m)) (8)

最后通过如下评价得出用户对未阅读文章的兴趣评价值为：

10.如权利要求2或3所述的一种基于阅读时间的用户阅读偏好统计的个性化推送方法，其特征在于：在所述步骤8中，通过计算用户间的相似度，将与其相似度较高的用户所阅读的系列文章推荐给对方，从而扩展并发掘用户的潜在兴趣，过程如下：