CN108491417B

CN108491417B - 一种基于用户访问行为的群体偏好上下文重构方法

Info

Publication number: CN108491417B
Application number: CN201810114535.XA
Authority: CN
Inventors: 江昊; 谢菁; 黄国豪; 羿舒文; 曾园园
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2018-02-05
Filing date: 2018-02-05
Publication date: 2021-12-03
Anticipated expiration: 2038-02-05
Also published as: CN108491417A

Abstract

本发明公开了一种基于用户访问行为的群体偏好上下文重构方法，计算用户热点对基站的影响以及用户热时对时隙的影响；构建用户中心点特征；通过中心点特征以及内容向量计算关联矩阵；通过中心点特征以及关联矩阵计算效用向量并进一步构建中心点向量；通过新用户的效用向量以及中心点向量计算欧式距离向量，通过欧式距离向量计算群体上下文偏好向量；新用户继续到来更新群体上下文偏好向量并作为历史数据。与现有技术相比，本发明能重构群体偏好上下文并具有较强的适用性。

Description

一种基于用户访问行为的群体偏好上下文重构方法

技术领域

本发明涉及移动互联网技术领域，特别涉及一种基于用户访问行为的群体偏好上下文重构方法。

背景技术

互联网由人创造目的为了方便人的生活，所以互联网更多是的为人类服务。随着5G时代的到来，移动互联网在人类的生活中扮演了必不可少的角色。随着移动互联网的迅速发展，移动数据流量的需求量也增长的越来越快，移动流量需求量的激增加重了无线接入网中回程链路带宽的消耗。人类行为的分析，研究人类行为的时空统计规律，是流量卸载，构建5G社会研究的热点问题。

人类行为学算起来不过有百年的历史，但对它的研究却分布在各个领域。由于人类自身的复杂性和多样性，每一个领域也都面临着巨大的挑战。随着大数据时代，移动互联网的飞速发展，用户上网行为的大量数据变得更易于获取和分析，导致统计分析用户在某时间空间内表现出的相似行为也变得更加的容易。

用户上网行为的时间特性是用户多次发生上网行为在时间上表现出的统计规律，同理可以定义用户上网行为的空间特性。用户上网行为的时间特性和空间特性统称为时空特性。对用户上网行文的时空特性进行统计分析，可以发现用户的行为具有高度的可预测性，使网络服务商可以更有效的利用分配网络资源。但尽管用户上网行为的时空信息被广泛的用于人类行为学的分析，它们在预测用户兴趣偏好中的重要性还没有完全体现。

移动互联网中，传统的用户的上下文信息可以定义为与用户行为相关的因素，例如用户年龄，用户的性别，用户的收入等。这些因素都可能潜在的影响用户的上网行为。在移动互联网的研究中，用户的上下文信息开始逐渐的走进研究者的视野，上下文无关的应用算法与上下文有关的应用算法比较起来缺少了适用性，并且对用户上下文信息的直接统计学习是非常单一的。

所以在本发明中，我们对用户的访问行为的时间和空间特性进行了联合分析，并根据用户上网的大量数据统计用户访问的行为，并根据用户对URL的偏好程度重构了群体偏好上下文。

发明内容

为了解决现有技术存在的问题，提出了一种基于用户访问的中心行为重构群体偏好上下文的方法。

本发明所采用的技术方案是一种基于用户访问行为的群体偏好上下文重构方法，具体步骤如下：

步骤1：根据历史一周用户基站访问量数据构建用户基站访问量矩阵，根据用户基站访问量矩阵构建用户热点访问量矩阵，根据历史一周用户时隙访问量数据构建用户时隙访问量矩阵，根据用户时隙访问量矩阵构建用户热时访问量矩阵，通过热点访问量矩阵计算用户热点中心信息增益，通过热时访问量矩阵计算用户热时中心信息增益，通过用户热点中心信息增益计算用户热点对访问基站的影响，通过用户热时中心信息增益计算用户热时对访问时隙的影响；

步骤2：根据URL类型划分用户兴趣的偏好，通过历史一周用户基站访问量数据得到热点的兴趣偏好以及热时的兴趣偏好，结合热点对访问基站的影响以及用户热时对访问时隙的影响构建用户中心点特征；

步骤3：通过用户中心点特征、内容向量以及用户中心点特征对内容向量的偏好程度计算关联矩阵；

步骤4：通过k-means聚类算法对用户效用向量进行分类，并根据偏好以及偏好类的对象构建中心点向量；

步骤5：通过新用户效用向量以及中心点向量计算新用户的欧式距离向量，通过新用户的欧式距离向量构建群体上下文偏好向量；

步骤6：新用户继续到来进一步更新群体上下文偏好向量并作为将来时刻的历史数据；

作为优选，步骤1中所述根据历史一周用户基站访问量数据构建用户基站访问量矩阵为：

其中，N_us为用户数量，N_sta为总基站数量，

为用户i在基站n_sta一周访问量之和，i∈[1 N_us]，n_sta∈[1 N_sta]；

步骤1中所述根据用户基站访问量矩阵构建用户热点访问量矩阵为将用户基站访问量矩阵S的行向量根据

大小按降序排列，选择前m个基站作为用户i的热点，构建用户热点访问量矩阵：

其中，N_us为用户数量，m为热点数量，

为用户i在基站

(等效于热点n_m)一周访问量之和，

步骤1中所述根据历史一周用户时隙访问量数据构建用户时隙访问量矩阵为：

其中，N_us为用户数量，将1天划分成的24个时隙，以小时为单位，N_ti为一天划分时隙数量，

为用户i在时隙n_ti一周访问量之和，n_ti∈[1 N_ti]；

步骤1中所述根据用户时隙访问量矩阵构建用户热时访问量矩阵为将用户基站访问量矩阵T的行向量根据

大小按降序排列，选择前n个基站作为用户i的热时，构建用户热时访问量矩阵：

其中，N_us为用户数量，n为热时数量，

为用户i在时隙

(等效于热时n_n)一周访问量之和，

步骤1中所述用户热点中心信息增益为：

其中，N_old为用户访问过的基站总数，

为用户i在热点n_m的访问量，

为用户i在所有访问基站的平均访问量,这里

步骤1中所述用户热时中心信息增益为：

其中，N_t为用户一周访问过的时隙总数，这里不同日期内的相同时隙计为同一时隙，N_t∈[1N_ti]，

为用户i在热时n_n的访问量，

为用户i在所有访问时隙的平均访问量，这里

步骤1中所述用户热点对访问基站的影响为：

其中,dist(n_sta,n_m)为基站n_sta与用户i的热点n_m之间的欧氏距离，i∈[1 N_us]，n_sta∈[1 N_sta]，n_m∈[1 n_base]；

步骤1中所述用户热时对访问时隙的影响为：

其中，inter(n_ti,n_n)为时隙n_ti与用户i的热时n_n之间的时间间隔，i∈[1 N_us]，n_ti∈[1 N_ti]，n_n∈[1 n_time]；

作为优选，步骤2中所述根据URL类型划分用户兴趣的偏好为h类，步骤2中所述热点的兴趣偏好为：

步骤2中所述热时的兴趣偏好为：

步骤2中所述用户中心点特征为：

其中，i为用户序号，i∈[1N_us]，

至

为步骤1中所述用户i热点对访问基站的影响，

至

为步骤1中所述用户i热时对访问时隙的影响；

作为优选，步骤3中所述用户中心点特征对内容向量的偏好程度为：

其中，x_i为步骤2中所述用户中心点特征，i为用户序号，i∈[1 N_us]，W为关联矩阵，z_j为步骤2中用户兴趣的偏好的子类内容向量，j为子类内容向量序号，j∈[1 N_e]，可以从步骤1中所述基站获得；

用户中心点特征x_i对内容z_j的真实偏好为r_ij，r_ij与s_ij服从均值为0，方差为σ²的正态分布：

步骤3中所述计算关联矩阵为关联矩阵W的每个元素服从均值为0，方差为ζ²的正态分布，由贝叶斯公式可得后验概率为：

p(s_ij|r_ij)＝p(r_ij|s_ij)*p(W)

通过求解最大后验概率的方法，可求解出关联矩阵W；

作为优选，步骤4中所述用户效用向量为：

其中，x_i为步骤2中所述用户中心点特征，i为用户序号，i∈[1 N_us]，W为步骤3所述关联矩阵；

步骤4中所述k-means聚类算法对效用向量进行分类为N_p个偏好类

，偏好类个数N_p由轮廓系数α决定；

将偏好类

o∈[1，N_p]中所有对象的均值作为偏好类C_o的中心点X_o：

步骤4中所述中心点向量为：

作为优选，步骤5中所述新用户r的欧式距离向量为：

其中，根据所述步骤4构建新用户r的效用向量为

r∈[1，q]，r为新用户的序号，q为新用户的数量，X为步骤4中所述中心点向量；

步骤5中所述群体上下文偏好向量为：

其中，新用户r的欧式距离向量为Z_r，r∈[1，q]，r为新用户的序号，q为新用户的数量。

与现有技术相比，本发明能重构群体偏好上下文并具有较强的适用性。

附图说明

图1：为本发明实施例的方法流程图；

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

请见图1，是本发明实施例的方法流程图。本发明提供了一种基于用户访问行为的群体偏好上下文重构方法，包括以下步骤：

步骤1中所述根据历史一周用户基站访问量数据构建用户基站访问量矩阵为：

其中，N_us＝251688为用户数量，N_sta＝2542为总基站数量，

为用户i在基站n_sta一周访问量之和，i∈[1N_us]，n_sta∈[1N_sta]；

其中，N_us为用户数量，m为热点数量，

为用户i在基站

(等效于热点n_m)一周访问量之和，

其中，N_us＝251688为用户数量，N_ti＝24为一天划分时隙数量，

为用户i在时隙n_ti一周访问量之和，n_ti∈[1N_ti]；

步骤1中所述根据用户时隙访问量矩阵构建用户热时访问量矩阵为将用户时隙访问量矩阵T的行向量根据

大小按降序排列，选择前n个时隙作为用户i的热时，构建用户热时访问量矩阵：

其中，N_us＝251688为用户数量，N_ti＝24为一天划分时隙数量，n为热时数量，

为用户i在时隙

(等效于热时n_n)一周访问量之和，

步骤1中所述用户热点中心信息增益为：

其中，N_old为用户访问过的基站总数，N_old∈[1N_sta]，N_sta＝2542为总基站数量，

为用户i在热点n_m的访问量，

为用户i在所有访问基站的平均访问量,这里

步骤1中所述用户热时中心信息增益为：

其中，N_t为用户一周访问过的时隙总数，这里不同日期内的相同时隙计为同一时隙，N_t∈[1N_ti]，N_ti＝24为一天划分时隙数量，

为用户i在热时n_n的访问量，

为用户i在所有访问时隙的平均访问量，这里

步骤1中所述用户热点对访问基站的影响为：

其中,dist(n_sta,n_m)为基站n_sta与用户i的热点n_m之间的欧氏距离，i∈[1N_us]，n_sta∈[1N_sta]，n_m∈[1n_base]，N_us＝251688为用户数量，N_sta＝2542为总基站数量；

步骤1中所述用户热时对访问时隙的影响为：

其中，inter(n_ti,n_n)为时隙n_ti与用户i的热时n_n之间的时间间隔，i∈[1 N_us]，n_ti∈[1 N_ti]，n_n∈[1 n_time]，N_us＝251688为用户数量，N_ti＝24为一天划分时隙数量；

步骤2中所述根据URL类型划分用户兴趣的偏好为h＝18类，步骤2中所述热点的兴趣偏好为：

步骤2中所述热时的兴趣偏好为：

步骤2中所述用户中心点特征为：

其中，i为用户序号，i∈[1 N_us]，N_us＝251688为用户数，

至

为步骤1中所述用户i热点对访问基站的影响，

至

为步骤1中所述用户i热时对访问时隙的影响；

步骤3中所述用户中心点特征对内容向量的偏好程度为：

其中，x_i为步骤2中所述用户中心点特征，i为用户序号，i∈[1 N_us]，N_us＝251688为用户数，W为关联矩阵，z_j为步骤2中用户兴趣的偏好的子类内容向量，j为子类内容向量序号，j∈[1 N_e]，N_e＝215可以从步骤1中所述基站获得；

p(s_ij|r_ij)＝p(r_ij|s_ij)*p(W)

通过求解最大后验概率的方法，可求解出关联矩阵W；

步骤4中所述用户效用向量为：

其中，x_i为步骤2中所述用户中心点特征，i为用户序号，i∈[1N_us]，W为步骤3所述关联矩阵；

偏好类个数N_p＝4由轮廓系数α＝0.724决定；

将偏好类

o∈[1，N_p]中所有对象的均值作为偏好类C_o的中心点X_o：

步骤4中所述中心点向量为：

步骤5中所述新用户r的欧式距离向量为：

其中，根据所述步骤4构建新用户r的效用向量为

r∈[1，q]，r为新用户的序号，q＝8579为新用户的数量，X为步骤4中所述中心点向量；

步骤5中所述群体上下文偏好向量为：

其中，新用户r的欧式距离向量为Z_r，r∈[1，q]，r为新用户的序号，q＝8579为新用户的数量，N_p＝4为偏好类个数；

步骤6：新用户继续到来进一步更新群体上下文偏好向量并作为将来时刻的历史数据。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于用户访问行为的群体偏好上下文重构方法，其特征在于，包括以下步骤：

步骤5中所述新用户的欧式距离向量为：

其中，根据所述步骤4构建新用户r的效用向量为

2.根据权利要求1所述的基于用户访问行为的群体偏好上下文重构方法，其特征在于，步骤1中所述根据历史一周用户基站访问量数据构建用户基站访问量矩阵为：

其中，N_us为用户数量，N_sta为总基站数量，

为用户i在基站n_sta一周访问量之和，i∈[1,N_us]，n_sta∈[1,N_sta]；

步骤1中所述根据用户基站访问量矩阵构建用户热点访问量矩阵为将用户基站热点访问量矩阵S的行向量根据

其中，N_us为用户数量，m为热点数量，

为用户i在基站

一周访问量之和，i∈[1 N_us]，

n_m∈[1 n_base]；

为用户i在时隙n_ti一周访问量之和，n_ti∈[1,N_ti]；

步骤1中所述根据用户时隙访问量矩阵构建用户热时访问量矩阵为将用户基站热时访问量矩阵T的行向量根据

其中，N_us为用户数量，n为热时数量，

为用户i在时隙

一周访问量之和，i∈[1 N_us]，

n_n∈[1 n_time]；

步骤1中所述用户热点中心信息增益为：

其中，N_old为用户访问过的基站总数，N_old∈[1,N_sta]，

为用户i在热点n_m的访问量，

为用户i在所有访问基站的平均访问量,这里

步骤1中所述用户热时中心信息增益为：

其中，N_t为用户一周访问过的时隙总数，这里不同日期内的相同时隙计为同一时隙，N_t∈[1,N_ti]，

为用户i在热时n_n的访问量，

为用户i在所有访问时隙的平均访问量，这里

步骤1中所述用户热点对访问基站的影响为：

其中，dist(n_sta,n_m)为基站n_sta与用户i的热点n_m之间的欧氏距离，

i∈[1,N_us]，n_sta∈[1,N_sta]，n_m∈[1,_base]；

步骤1中所述用户热时对访问时隙的影响为：

其中，inter(n_ti,n_n)为时隙n_ti与用户i的热时n_n之间的时间间隔，i∈[1,N_us]，n_ti∈[1,N_ti]，n_n∈[1,n_time]；

步骤2中所述根据URL类型划分用户兴趣的偏好为h类，步骤2中所述热点的兴趣偏好为：

步骤2中所述热时的兴趣偏好为：

步骤2中所述用户中心点特征为：

其中，i为用户序号，i∈[1,N_us]，

至

为步骤1中所述用户i热点对访问基站的影响，

至

为步骤1中所述用户i热时对访问时隙的影响；

步骤3中所述用户中心点特征对内容向量的偏好程度为：

s_ij＝x_i ^TWz_j

其中，x_i为步骤2中所述用户中心点特征，i为用户序号，i∈[1,N_us]，W为关联矩阵，z_j为步骤2中用户兴趣的偏好的子类内容向量，j为子类内容向量序号，j∈[1,N_e]，可以从步骤1中所述基站获得，N_e表达基站子类内容的总数；

用户中心点特征x_i对用户兴趣的偏好的子类内容向量z_j的真实偏好为r_ij，r_ij与s_ij服从均值为0，方差为σ²的正态分布：

步骤3中所述计算关联矩阵为关联矩阵W的每个元素服从均值为0，方差为

的正态分布，由贝叶斯公式可得后验概率为：

p(s_ij|r_ij)＝p(r_ij|s_ij)*p(W)

通过求解最大后验概率的方法，可求解出关联矩阵W；

步骤4中所述用户效用向量为：

其中，x_i为步骤2中所述用户中心点特征，i为用户序号，i∈[1,N_us]，W为步骤3所述关联矩阵；

偏好类个数N_p由轮廓系数α决定；

将偏好类

o∈[1，N_p]中所有对象的均值作为偏好类C_o的中心点X_o：

步骤4中所述中心点向量为：