CN106991496B

CN106991496B - 一种面向移动社交环境的用户行为分层关联预测方法

Info

Publication number: CN106991496B
Application number: CN201710195205.3A
Authority: CN
Inventors: 张晖; 王敏; 杨龙祥; 朱洪波
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2017-03-29
Filing date: 2017-03-29
Publication date: 2020-06-30
Anticipated expiration: 2037-03-29
Also published as: CN106991496A

Abstract

本发明公开了一种面向移动社交环境的用户行为分层关联预测方法，该方法首先根据目标用户的不同社会属性，获取多个社交群体，对每一个社交群体，根据肯德尔相关系数及交互度获得一个最优的关联用户；其次，将目标用户以及各群体中的最优关联用户分别与自身做关联分析；最后，采用基于最小二乘法的加权方法对各关联分析结果加权融合获得最终的预测结果。本发明考虑到用户的社会属性，对其关联用户划分成不同的社交群体。对移动社交网络的中用户行为进行预测，可有效地提高预测的准确性，适用于用户业务推荐。

Description

一种面向移动社交环境的用户行为分层关联预测方法

技术领域

本发明涉及一种面向移动社交环境的用户行为分层关联预测方法，属于无线通信技术领域。

背景技术

移动社交网络的蓬勃发展已经成为全球范围的社会现象，用户的规模也在不断扩大。由此，可以看出，用户对移动社交网络的关注度日益增加，且移动社交网络正逐渐影响着用户的生活方式。移动社交网络的一个最大的特征就是以用户为中心，而用户又是多个社会角色的复杂体，所以在移动社交网络中的用户具有多样性。用户根据好友关系、相同的兴趣爱好等建立起不同的用户群，不同群体的用户业务行为之间存在相关性。

移动社交网络给人类生活带来了巨大的改变，而且，随着移动社交网络的用户数逐渐增长，用户对业务的需求也越来越多。如何从众多的业务中找出用户感兴趣的内容，已经成为越来越多研究者关注的话题。为了从海量用户行为数据中挖掘出有价值的信息应用于商业领域，有关用户行为分析和预测技术的研究如雨后春笋般涌现出来。在现有的基于移动社交网络的用户行为分析和预测模型中，大部分方法都是建立在同一群体内考虑单个用户及其关联用户的行为历史，而关于群体因素却少有探究。

在马克思哲学中，人的本质是一切社会关系的总和，社会属性是其本质属性。而用户往往具有多个不同的社会属性，如，性别、年龄、学历与职业等，移动社交环境中的用户根据这些属性在各种社交平台上组成互不干扰的社交群体。用户和社交群体之间的关系反映出用户的多个层面的规律，通过社交群体的规律特性，亦反映出用户具有多个群体特性的规律。在任何一个群体中，用户之间通过长期的互动交流，都会产生一个互动和影响机制，同时也相应地带来了群体效应。因此，针对多群体的研究应运而生。对不同的群体分类研究，分析群体的属性特征及其行为规律，从而为目标用户的行为预测提供依据。而且，随着时间的推移，用户的社会属性也会越来越复杂，在此场景下，以用户为中心，提供高质量、个性化的业务已成为未来发展的趋势。

考虑到用户的群体属性，综合利用目标用户自身的行为样本和各群体最优关联用户的行为样本，以实现对目标用户业务行为的预测。通过在每一个群体中选出一个与目标用户最相关的用户来代表目标用户相应社会属性，然后将目标用户以及各群体最优关联用户分别与自身做关联分析，每一个关联分析结果都反映了目标用户仅受到相应社会属性影响而产生的行为。这样，每个群均可找到相应的最具代表性用户，将他们综合起来就能反映目标用户本身，综合他们的行为预测结果，即可实现目标用户行为预测。

发明内容

本发明所要解决的技术问题是提供一种面向移动社交环境的用户行为分层关联预测方法，该方法考虑到用户的社会属性，对其关联用户划分成不同的社交群体。对移动社交网络的中用户行为进行预测，可有效地提高预测的准确性，适用于用户业务推荐。

本发明首先根据目标用户的不同社会属性，获取多个社交群体，对每一个社交群体，根据肯德尔相关系数及交互度获得一个最优的关联用户。其次，将目标用户以及各群体中的最优关联用户分别与自身做关联分析。最后，采用基于最小二乘法的加权方法对各关联分析结果加权融合获得最终的预测结果。

本发明为解决上述技术问题采用以下技术方案：

本发明提供一种面向移动社交环境的用户行为分层关联预测方法，包括以下具体步骤：

步骤1，根据目标用户的不同社会属性，将其关联用户划分为若干社交群体；

步骤2，根据肯德尔相关系数及交互度，获取目标用户在每个社交群体中的一个最优关联用户；

步骤3，采用基于编码的二维Apriori方法，将目标用户以及各群体内最优关联用户分别与自身进行关联分析；

步骤4，采用基于最小二乘法的最优加权融合方法，将步骤3得到的各关联分析结果进行融合，得到预测结果；

步骤5，根据步骤4得到的预测结果分析目标用户当前的业务行为，对目标用户下一时刻的业务行为进行预测。

作为本发明的进一步优化方案，上述步骤2中目标用户在某一社交群体中的最优关联用户U^*为：

U^*＝argmaxG_(m,u)

其中，G_(m,u)＝τ(P_m,P_u)×IR_(m,u)，

τ(P_m,P_u)表示P_m与P_u之间的肯德尔相关系数，P_m表示目标用户m在一段时间内产生的业务类型序列，P_u表示在同一段时间内目标用户m的某一社交群体中任一用户u产生的业务类型序列，P_m与P_u均按照时间顺序排列，且P_m与P_u的长度相同，Y表示P_m与P_u的长度，C表示P_m与P_u中业务类型相同的元素数目，D表示P_m与P_u中业务类型不相同的元素数目，Y₁表示P_m中重复的业务类型的数目，Y₂表示P_u中重复的业务类型的数目； IR_(m,u)＝log(1+γ₁CH_(m,u)+γ₂TR_(m,u)+γ₃CM_(m,u))，IR_(m,u)表示目标用户m与用户u之间的交互度，CH_(m,u),TR_(m,u),CM_(m,u)分别表示建立在目标用户m与用户u之间聊天、转发以及评论行为上的交互程度，γ₁,γ₂,γ₃分别表示CH_(m,u),TR_(m,u),CM_(m,u)所占的权重。

作为本发明的进一步优化方案，上述步骤3中采用基于编码的二维Apriori方法，将目标用户以及各群体内最优关联用户分别与自身进行关联分析，具体为：

在每个预测周期内，目标用户基于自身的当前行为，进行关联规则的挖掘，得到以目标用户自身的当前行为为起点的2项频繁关联规则；各群体的最优关联用户基于自身行为，进行关联规则的挖掘，分别得到以目标用户的当前行为为起点的2项频繁关联规则。

作为本发明的进一步优化方案，上述频繁关联规则中的项与项之间是有时间顺序的。

作为本发明的进一步优化方案，上述步骤4中第n个预测周期的预测结果为：

CONF(n)＝{CONF(n,1),CONF(n,2),...,CONF(n,L)}'

其中，CONF(n,j)＝ω₀*CON₀(n,j)+ω₁*CON₁(n,j)+...ω_M*CON_M(n,j)，ω₀,ω₁,....,ω_M均表示权值，j＝1,2,…,L，L表示业务状态总数，{·}'表示逆矩阵，CON_i(n,j)表示第n个预测周期内由目标用户第i个社交群体中的最优关联用户得到的目标用户当前行为到第j个业务状态的条件概率，i＝0,1,2,…,M，M表示社交群体数目，i＝0时表示由目标用户本身得到的目标用户当前行为到第j个业务状态的条件概率。

作为本发明的进一步优化方案，上述权值ω₀,ω₁,....,ω_M的求解方法为：

1)建立最小二乘法优化模型：

argmin(ED²(1)+ED²(2)+...+ED²(N))

st.ω₀+ω₁+...+ω_M＝1

ω_i＞＝0

其中，ED(n)表示第n个预测周期内预测结果和实际结果之间的欧式距离，

P(n,J)＝1， P(n,i)＝0,i≠J，J表示第n个预测周期内目标用户的实际行为状态，n＝1,2,…,N，N表示预测周期总数；

2)求解1)中的最小二乘法优化模型，即可得到最优权值ω₀,ω₁,....,ω_M。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

1、本发明提出基于肯德尔相关系数及交互度获得各群体的最优关联用户，有利于提高预测模型的准确性；

2、本发明采用了基于编码的二维Apriori方法实现用户行为的关联分析，克服了传统 Apriori方法的效率瓶颈问题，有利于提高预测模型的效率；

3、本发明根据最小二乘法的优化模型获得最终的权值，将关联分析结果进行融合。从而有效提高预测方法的准确性；

4、本发明产生的一种新颖的面向移动社交环境的用户行为分层关联预测方法非常简单而易于实现，具有很好的应用前景。

附图说明

图1为移动社交环境的场景图。

图2为面向移动社交环境的用户行为分层关联预测方法流程图。

具体实施方式

下面结合附图以及具体实施例对本发明的技术方案做进一步的详细说明：

本发明提出了一种新颖的面向移动社交环境的用户行为分层关联预测方法，根据用户不同的社会属性，获取多个社交群体，采用关联分析方法实现用户行为分析，为用户提供准确的联合业务推荐。

本发明主要包括三个内容：一是群体最优关联用户的获取，由肯德尔相关系数与交互度共同得到；二是是用户行为的关联分析，利用基于编码的二维Apriori方法实现用户业务行为的关联分析；三是采用基于最小二乘法的最优加权融合方法将关联分析结果融合在一起，预测目标用户下一时刻的业务行为。

一、群体最优关联用户

根据肯德尔相关系数及交互度获得各群体中一个最优的关联用户，其中，各群体是基于目标用户不同社会属性获得的若干个相互正交的社交群体。利用肯德尔相关系数可以较好地表示目标用户与各群体中其他用户的关联关系。结合各用户与目标用户的交互度，基本可以确定一个最优的关联用户来代表目标用户的某个社会属性。

在移动社交环境下，目标用户根据不同的社会属性组成相互独立的社交群体，场景图如图1所示，且已经假定社交群体集为SCS＝{SC₁,SC₂,...,SC_M}，M表示社交群体数目。由于各社交群体中每个用户对目标用户具有不同的重要程度，故合理地选择出能够代表社交群体规律的最优的关联用户显得尤为重要。

肯德尔相关检验是一种通过计算相关系数测试两个随机变量的统计依赖性的非参数假设检验。利用肯德尔相关系数可以较好地表示目标用户与各群体中其他用户的关联关系。再结合各用户与目标用户的交互度，基本可以确定一个最优的关联用户来代表群体用户的行为规律。

假设在Q·T时间段内以周期划分，目标用户m产生的业务类型序列为P_m，对任一社交群体中任一用户u产生的业务类型序列为P_u。其中，P_m与P_u是按照时间顺序排列的，且两者的序列总数相同，记为Y。由于目标用户与各关联用户产生的业务类型序列为随机变量，因此，本发明通过计算目标用户与各关联用户的业务类型序列之间的肯德尔相关系数来量化每一个关联用户的重要性。

两个随机变量P_m与P_u之间的肯德尔相关系数的计算如公式(1)所示：

式(1)中，τ(P_m,P_u)∈[-1,1]，当目标用户m和用户u在Q·T时间段内产生的业务类型序列一致时，τ(P_m,P_u)＝1；当目标用户m和用户u在Q·T时间段内产生的业务类型序列相反时，τ(P_m,P_u)＝-1；当目标用户m和用户u在Q·T时间段内产生的业务类型序列相互独立时，τ(P_m,P_u)＝0。C表示P_m与P_u中业务类型相同的元素数目，D表示P_m与P_u中业务类型不相同的元素数目，Y₁表示P_m中重复的业务类型的数目，Y₂表示P_u中重复的业务类型的数目。

其中，Y₁的计算公式为：

其中，t表示拥有重复业务类型的元素种类，X_k表示t个业务类型中第k个业务类型所占的数量。Y₂的计算方法与Y₁相同。

虽然肯德尔相关系数可以较好地表示目标用户与各群体用户之间的关联关系，但是仅仅根据肯德尔相关系数选出来的关联用户并不能完全代表每个群体的属性。每个群体中可能会存在一些相关性特别高但很少与目标用户交互的关联用户，忽略这部分用户获得的群体最优关联用户并不是最优的。因此，需要将目标用户与各群体用户之间的交互度纳入考虑范围之内。

移动社交环境中，用户交互的范围较广，包括聊天、浏览、转发、点赞、评论等。掌握用户之间的交互程度对于获得各群体最优关联用户非常重要。本发明中，重点关注三种典型的社交交互行为：聊天、转发以及评论。而在用户的交互行为中，三种行为方式的权重各不相同。一般来说，聊天是发生在认识的人或者熟人之间，这种行为用户使用的频率最高且最占时长，因此其最能反映用户之间的交互程度，应该设置较大的权重。而评论行为一般发生在与用户有直接社交关系的用户之间，评论其他用户发表的言论，用户使用的频率适中，应该设置一个中等的权重。最后是转发行为，该行为可以发生在具有非之间社交关系的用户之间，对用户之间的交互程度影响最小，所以应占一个较小的权重。

结合上述三种交互行为及其各自的权重可以获得目标用户与用户u之间的交互度公式，其计算如公式(3)所示：

IR_(m,u)＝log(1+γ₁CH_(m,u)+γ₂TR_(m,u)+γ₃CM_(m,u)) (3)

其中，CH_(m,u),TR_(m,u),CM_(m,u)分别是建立在目标用户m与用户u之间聊天、转发以及评论行为上的交互程度，γ₁,γ₂,γ₃分别是CH_(m,u),TR_(m,u),CM_(m,u)所占权重。

三种交互行为的交互程度计算如下所示：

其中，NUM_CH_(m,u)代表目标用户m与用户u之间内的聊天次数，NUM_TR_(m,u)代表用户u转发目标用户m发表的言论的次数，NUM_CM_(m,u)代表用户u评论目标用户m发表的言论的次数。为了与肯德尔相关系数相对应，这些数据均是在Q·T时间段获得的。

二、用户行为的关联分析方法

设业务状态集合为Ω＝{w₁,w₂...,w_L}，共L个业务状态类型，例如语音聊天、视频点播、网页浏览和在线游戏等。在各群体中的最优关联用户找到后，采用基于编码的二维Apriori 方法实现用户行为分析。在每个预测周期内，一方面，目标用户自身基于当前的行为，进行关联规则的挖掘，得到所有以当前行为为起点的2项频繁关联规则。另一方面，各群体的最优关联用户，也是基于自身行为，进行关联规则的挖掘，得到所有以目标用户的当前行为为起点的2项频繁关联规则。其中，挖掘出的关联规则中项与项之间是有时间顺序的。

假设在某个预测周期内，目标用户的业务行为数据如表1所示。

表1目标用户的业务行为数据表

记录号	当前时刻用户业务状态	下一时刻用户业务状态
			1	Ω<sub>1</sub>	Ω<sub>2</sub>
2	Ω<sub>2</sub>	Ω<sub>3</sub>
			3	Ω<sub>4</sub>	Ω<sub>5</sub>
4	Ω<sub>3</sub>	Ω<sub>6</sub>
			5	Ω<sub>1</sub>	Ω<sub>2</sub>
6	Ω<sub>2</sub>	Ω<sub>3</sub>
			7	Ω<sub>1</sub>	Ω<sub>2</sub>

根据支持度大于相应的阈值，获得频繁2项集，再根据用户业务行为的时间顺序获得频繁规律规则，并计算其相应的置信度。如表1获得的频繁关联规则为

这样置信度，就表示相应的条件概率。

三、基于最小二乘法的最优加权融合方法

已经假定社交群体集为SCS＝{SC₁,SC₂,...,SC_M}，对于SC_i获得的最优关联用户表示为 U_i ^*(n)，n表示第n个预测周期。设CON_i(n,x)，CON表示置信度(条件概率)，x表示某个行为状态。CON_i(n,x)表示第n个预测周期内由第i个社交群体中的最优关联用户得到由目标用户当前行为到第x行为状态的条件概率。那么， CON_i(n)＝{CON_i(n,1),CON_i(n,2),...,CON_i(n,L)}'表示第n个预测周期内第i个社交群体内的最优关联用户的预测结果，L表示业务状态数，如果某个频繁规则没有某个状态，则相应置信度为0。特别地，当i＝0时，相应地表示目标用户本身的预测结果(即U₀表示目标用户)。

对于第n个预测周期内的所有用户的预测结果矩阵如下所示：

CON(n)＝{CON₀(n),CON₁(n),...,CON_M(n)} (5)

采用加权融合的方法，可得最终的预测结果：

CONF(n)＝{CONF(n,1),CONF(n,2),...,CONF(n,L)}' (6)

其中，CONF(n,j)＝ω₀*CON₀(n,j)+ω₁*CON₁(n,j)+...ω_M*CON_M(n,j)，1≤j≤L，ω₀,ω₁,....,ω_M均表示权值。

假设第n个预测周期内相应的目标用户的实际行为状态为J，那么相应最佳的预测结果 (即实际发生结果)为：

P(n)＝{P(n,1),P(n,2),...,P(n,L)}' (7)

其中，P(n,J)＝1,P(n,i)＝0,i≠J。

由预测结果和实际结果，可得两者直接的差值为：

其中，ED(n)实为两者之间的欧式距离。

那么对于N个预测周期，就有N个上述距离值，将上述欧式距离值取平方求和，就是N 个统计周期的预测结果的准确性度量。进而，可以采用最小二乘法，建立优化模型：

求解上述最小二乘法优化模型，即可得到相应最优权值。

上述最小二乘优化模型求解方法为：

首先，证明该优化模型为凸优化模型，目标函数为：

仅需考察F_n,i(ω₀,ω₁,ω₂,...ω_M)，对其求偏导可得：

由此可以推导出任意的二阶偏导数均大于0，则F_n,i为(ω₀,ω₁,...,ω_M)的凸函数。对于

F_n,i为凸函数，那么，由求和凸性不变可知，

仍为(ω₀,ω₁,...,ω_M)的凸函数。由于约束条件

均为线性(等式或不等式)条件，线性空间必为凸集，故，模型为凸优化模式，可得全局最小解。

其次，由凸优化模型，可用拉格朗日乘数法(该方法为KKT条件的线性化特例)求解。原模型可松弛约束到目标函数，得：

求

得：

其中，

[·]^-1表示矩阵求逆。

若ω_m≥0则为最佳解，若有一个或多个ω_m＜0，则令ω_m＝0，然后再次求解上述模型直到所有ω_m≥0为止。将所得到的ω_m代入公式(6)即可得到最终的预测结果。

本发明即面向移动社交环境的的用户行为分层关联预测方法具体的流程图如图2所示，实现过程如下：

第一步，通过肯德尔相关系数及群体用户交互度获得各群体内最优关联用户。

第二步：采用基于编码的二维Apriori方法将目标用户以及各群体内最优关联用户分别与自身进行关联分析。

第三步：采用基于最小二乘法的最优加权融合方法将各关联分析结果融合获得最终的预测结果。

第四步：由融合结果分析目标用户当前的业务行为，预测其下一时刻的业务行为。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种面向移动社交环境的用户行为分层关联预测方法，其特征在于，包括以下具体步骤：

步骤2，根据肯德尔相关系数及交互度，获取目标用户在每个社交群体中的一个最优关联用户；目标用户在某一社交群体中的最优关联用户U^*为：

U^*＝argmaxG_(m,u)

其中，G_(m,u)＝τ(P_m,P_u)×IR_(m,u)，

τ(P_m,P_u)表示P_m与P_u之间的肯德尔相关系数，P_m表示目标用户m在一段时间内产生的业务类型序列，P_u表示在同一段时间内目标用户m的某一社交群体中任一用户u产生的业务类型序列，P_m与P_u均按照时间顺序排列，且P_m与P_u的长度相同，Y表示P_m与P_u的长度，C表示P_m与P_u中业务类型相同的元素数目，D表示P_m与P_u中业务类型不相同的元素数目，Y₁表示P_m中重复的业务类型的数目，Y₂表示P_u中重复的业务类型的数目；IR_(m,u)＝log(1+γ₁CH_(m,u)+γ₂TR_(m,u)+γ₃CM_(m,u))，IR_(m,u)表示目标用户m与用户u之间的交互度，CH_(m,u),TR_(m,u),CM_(m,u)分别表示建立在目标用户m与用户u之间聊天、转发以及评论行为上的交互程度，γ₁,γ₂,γ₃分别表示CH_(m,u),TR_(m,u),CM_(m,u)所占的权重；

步骤3，采用基于编码的二维Apriori方法，将目标用户以及各群体内最优关联用户分别与自身进行关联分析；具体为：

在每个预测周期内，目标用户基于自身的当前行为，进行关联规则的挖掘，得到以目标用户自身的当前行为为起点的2项频繁关联规则；各群体的最优关联用户基于自身行为，进行关联规则的挖掘，分别得到以目标用户的当前行为为起点的2项频繁关联规则

步骤4，采用基于最小二乘法的最优加权融合方法，将步骤3得到的各关联分析结果进行融合，得到预测结果；第n个预测周期的预测结果为：

CONF(n)＝{CONF(n,1),CONF(n,2),...,CONF(n,L)}'

其中，CONF(n,j)＝ω₀*CON₀(n,j)+ω₁*CON₁(n,j)+...ω_M*CON_M(n,j)，ω₀,ω₁,....,ω_M均表示权值，j＝1,2,…,L，L表示业务状态总数，

表示逆矩阵，CON_i(n,j)表示第n个预测周期内由目标用户第i个社交群体中的最优关联用户得到的目标用户当前行为到第j个业务状态的条件概率，i＝0,1,2,…,M，M表示社交群体数目，i＝0时表示由目标用户本身得到的目标用户当前行为到第j个业务状态的条件概率；

权值ω₀,ω₁,....,ω_M的求解方法为：

1)建立最小二乘法优化模型：

argmin(ED²(1)+ED²(2)+...+ED²(N))

st.ω₀+ω₁+...+ω_M＝1

ω_i＞＝0

P(n,J)＝1，P(n,i)＝0,i≠J，J表示第n个预测周期内目标用户的实际行为状态，n＝1,2,…,N，N表示预测周期总数；

2)求解1)中的最小二乘法优化模型，即可得到最优权值ω₀,ω₁,....,ω_M

2.根据权利要求1所述的一种面向移动社交环境的用户行为分层关联预测方法，其特征在于，所述频繁关联规则中的项与项之间是有时间顺序的。