CN108133296B

CN108133296B - 基于活动的社交网络下的一种结合环境数据的活动出席预测方法

Info

Publication number: CN108133296B
Application number: CN201810044755.XA
Authority: CN
Inventors: 姜文君; 张继锋; 任德盛
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2018-01-17
Filing date: 2018-01-17
Publication date: 2021-09-07
Anticipated expiration: 2038-01-17
Also published as: CN108133296A

Abstract

本发明公开了一种基于活动的社交网络下的一种结合环境数据的活动出席预测方法，将所有活动分为室内室外两类，并考虑环境数据对以上两种活动的不同影响方式，结合出席成本、季节性影响等因素，构建相应的特征向量，然后结合机器学习相关算法进行活动人数的预测。本专利以活动举办者的角度，研究活动出席的可能性，这样可以提高举办活动的人气、效果等，对举办组织的维持也有很大帮助，同时也可以帮助组织者吸引更多的用户，扩大自身的影响力。

Description

基于活动的社交网络下的一种结合环境数据的活动出席预测方法

技术领域

本发明涉及一种基于活动的社交网络下的一种结合环境数据的活动出席预测方法，属于社交网络分析技术领域。

背景内容

在基于活动的社交网络中，现有的预测活动出席率的技术中考虑了活动本身的相关属性，例如举办地点、举办时间、活动内容、社会影响等，其中有的技术是比较前后活动之间在上述这些方面的相似性；有的技术则是将上述各方面因素与活动出席人数的关系进行量化，综合了大数据分析和机器学习技术构建预测方案，可以使预测的准确度达到一个客观的效果。现有技术方案如图1所示。现有的技术由于没有考虑到活动自身某些特定的因素(例如持续时间，出席成本)，同时没有良好的结合相关外因，对某些特定类型的活动进行出席预测的效果不是很好。

名词解释：决策树(Decision Tree)模型：是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。

发明内容

本发明克服现有技术存在的不足，本发明公开了一种基于活动的社交网络下的一种结合环境数据的活动出席预测方法。将所有活动分为室内室外两类，并考虑环境数据对以上两种活动的不同影响方式，结合出席成本、季节性影响等因素，构建相应的特征向量，然后结合机器学习相关算法进行活动人数的预测。本专利以活动举办者的角度，研究活动出席的可能性，这样可以提高举办活动的人气、效果等，对举办组织的维持也有很大帮助，同时也可以帮助组织者吸引更多的用户，扩大自身的影响力。

为解决上述技术问题，本发明所采用的技术方案为：

一种基于活动的社交网络下结合环境数据的活动出席预测方法，包括如下步骤：

步骤一：收集客户参加活动的历史数据；

步骤二、将活动分为户外活动和室内活动；确定天气数据、出席成本和活动时间分别对客户的户外活动和室内活动出席率的影响；

步骤三、对于室外活动，将天气数据按照出现频率进行量化，天气数据包括晴、雨、阴、多云、雪，确定天气数据对活动出席率的影响；

步骤四、对于室内活动，根据温度和湿度计算天气舒适度指数，确定天气舒适度指数对活动出席率的影响；对于室内活动计算出用户对活动的兴趣度与活动距离对用户出席率影响的权重之比；衡量用户对活动的兴趣度与活动距离对出席概率的影响程度；

步骤五、确定客户的活动出席成本，所述活动出席成本包括时间成本和经济成本；

步骤六、确定客户参加活动的季节性偏好；

步骤七、综合上述步骤，构建每个客户参加活动的概率模型，汇总得到活动最终出席率的预测模型。

进一步的改进，所述步骤三中，天气数据按照出现频率进行量化的方法为：

Weather(e)＝n-index(e)

Weather(e)表示活动e的天气方面的因素，Weather(e)越大，说明某种天气出现次数越多。n表示天气的种类总数。index(e)表示活动e举办时的天气进行量化后的数字，其范围是0-n,活动e举办时出现次数最多的天气用数字0表示，出现第二多的用1表示，依此类推。

进一步的改进，所述步骤四中对室内活动天气数据的处理方法为：首先计算天气数据的舒适度指数DI：DI＝T-(0.55-0.55f)(T -58)；其中DI表示舒适度指数，T表示日平均温度，f表示相对湿度；然后计算在理想舒适度指数64.5下，用户兴趣度与用户-活动距离对出席影响的权重之比β；再计算出在不同舒适度指数用户兴趣度与用户-活动距离对出席影响的权重之比：

进一步的改进，所述步骤五中确定客户的活动出席成本的处理方法为：

活动出席成本包括时间成本和经济成本；时间成本的确定方法为：

其中Time_Cost(e_i)表示客户参加活动e_i的时间成本，Ce_i表示与 e_i同类的活动集合，Dt(e_i)代表活动e_i的持续时间；Avg(Dt(e))表示与e_i同属为一类别的活动的平均持续时间；Dt(e)表示和e_i同类别的所有活动持续时间之和；

确定经济成本的计算公式为：

其中，e为所有和活动e_i同属为一类别的活动，Cost(e_i)代表活动 e_i的花费；Eco_Cost(e_i)表示客户参加活动e_i的经济成本；Cost(e) 表示和e_i同类别的所有活动的花费之和；Ce_i表示与e_i同类的活动集合。

进一步的改进，所述步骤六中确定客户参加活动的季节性偏好的处理方法为：

计算公式如下：

Import_season(ei)＝D(season(e_i)，season(u)) (4)

其中Season(e_i)为活动的常办季节向量，对同类活动的举办季节进行统计，得到同类活动在每个季节所举行的次数，按次数从大到小对季节编码进行排序，得到一个四维向量Season(e_i)；

Season(u)为用户的季节偏好，对上述所有同类活动中某个用户参加的活动的举办季节进行统计，得到上述某个用户在每个季节参加活动的次数，按次数从大到小对季节编码进行排序，得到一个四维向量 Season(u)；

然后，计算Season(e_i)与Season(u)的欧氏距离得到客户参加活动的季节性偏好Import_season(e_i)，Import_season(e_i)值越小，表明该活动越符合上述某个用户的季节偏好。

进一步的改进，所述步骤七中构建每个客户参加活动的概率模型步骤如下：

7.1)标注点的搭建：根据户外活动、室内活动、天气数据、出席成本季节偏好性进行特征向量，即标注点的搭建，搭建方法如下：。若某一个活动为e₀；参加活动e₀的用户集为U_e0，人数为N个，分别设为u₁,u₂,u₃,u₄……u_N；

用户i与活动之间的距离为D(u_i,e₀),i∈(1,N),u为距离标识，u_i表示用户i的距离标识；那么活动e₀的“距离”变量D(e₀)为：

D(e₀)＝D(u_i,e₀) (5)

用户i的兴趣度为用户i参加的活动中，和e₀同类别的活动与活动总数之比I_i；那么整个活动的参加用户兴趣度为：

I(e₀)＝I_i (6)

则活动E的时间成本为：Time_Cost(e₀)、经济成本为Eco_Cost(e₀)、季节性偏好为：Import_season(e₀)；然后分为以下两种情况：

1)对于室内活动：天气因素是通过改变权重来影响活动出席的，

因此构建标注点形式的特征向量：

(label,(y₁*I(e₀),

y₂*D(e₀),y₃*Time_Cost(e₀),y₄*Eco_Cost(e₀),y₅*Import_season(e₀)))

y₁,y₂,y₃,y₄,y₅为各因素的权重，y₁,y₂,y₃,y₄,y₅的比值为: β:lg(|DI-64.5|+10):0.5:0.5:0.5

2)对于室外活动：天气因素是直接影响活动出席的，因此构建标注点形式的特征向量：

(label，(y₁*I(e₀)，

y₂*D(e₀)，y₃*Time_Cost(e₀)，y₄*Eco_Cost(e₀)，y₅*Import_season(e₀)，y₆*Weather( e₀)))

y₁，y₂，y₃，y₄，y₅，y₆为各因素的权重，具体比值为：

β∶1∶0.5∶0.5∶0.5∶2

其中标注点中的label值为1即为该用户参加了该活动，0即为该用户没有参加该活动

7.2)训练样本的选取：对于属于同一类的活动建立正样本集P 和负样本集：首先提取两个阈值T₁，T₂来协助选择负样本集，T₁的计算方法为：

T₁＝min(I₁，I₂，I₃，…I_N) (7)

即某同一类活动T₁值为参加这类活动的用户的兴趣度的最小值；I_i代表第i个用户参加e₀活动的用户的兴趣度；

T₂的计算方法为：

T₂＝max(D(u₁，e₀)，D(u₂，e₀)，D(u₃，e₀)...D(u_N，e₀)) (8)

即某类活动的T₂值为参加这类活动的用户与活动的距离最大值；

对于负样本集的构造，首先从没有参加活动E的所有用户中确定负样本候选集，确定负样本候选集U_候选的方法为：

负样本集Neg＝Sample(U_候选) (10)；

Train_dataset＝正样本P+负样本N (11)

公式(9)中u表示未参加活动e₀的用户，

表示参加活动e₀的用户集合；选择兴趣度大于阈值T₁和/或距离小于阈值T₂的未参加活动的用户作为候选的负样本用户集，通过随机抽样的方法抽取和正样本数量相等的负样本用户，将这些用户按照步骤7.1)建立特征向量，其中标注点中的label值为0；正样本集和负样本集包含的样本相同；将正负样本整合至一起得到训练样本集train_dataset；

7.3)分类器的建立：训练样本集构建完成后，采用决策树中的 gbdt决策树分类算法结合训练样本构建分类器模型，公式如下：

model_predict＝f_gdbt(train_dataset) (12)

f_gdbt()指gdbt决策树算法函数，model_predict为算法输出的模型；

6.4)测试样本的选取：模型训练完成后，进行预测，选取测试样本，若有待预测人数的未来活动e′，选择测试样本test_userset的方法如下：

C_e′是指和e′属于同类的所有活动的集合；

u∈C_e′是指参加过与活动e′同类活动的用户u，e_c代表和活动e′同类别的活动，从用户u中选择兴趣度大于T₂或者距离小于T₁的用户作为候选测试样本用户集；然后测试样本集test_predict构建方法如下：

test_predict＝labelpoint(test_userset，e′) (14)

labelpoint表示()步骤7.1表示的标注点构建方法；

将测试样本用户集与待预测活动e′按照步骤7.1构建特征向量，然后将其构建好的特征向量作为输入代入到决策树模型中，如下式所示，

output_predict＝model_gdbt(test_predict) (15)

output_predict为输出结果集合，其中包含着每位候选用户的活动预测情况；model_gdbt()表示决策树模型；

计算得到预测会出席的人数，计算方法如下所示：

output_label＝1代表预测结果中label值为1，即预测结果为出席活动，将这样的用户数量进行相加而得未来活动e、的出席人数。本发明测试样本就是在一定条件下筛选出来的，我们有理由相信筛选出来的就是全部可能会出席的候选人，以这个测试样本去预测得到的出席人数即为实际的出席人数。

附图说明

图1为现有的活动出席预测方法图；

图2为活动出席成本组成与构建示意图；

图3为活动分类与环境影响的示意图。

图4为季节性因素的处理的示意图。

图5为活动出席预测完整过程示意图

具体实施方式

本专利完整的技术方案如图5所示。

我们的技术主要有以下创新点：

1.考虑到天气数据这外在因素对活动本身，以及用户本身的影响。

2.将活动按户外和室内分类，进行考虑。

3.新增加一个特征：出席成本。其中包括“时间成本”和“经济成本”。

4.我们考虑了活动持续时间这一因素。

一.天气数据影响活动与活动分类

不同的天气对活动的举办影响很大，与此同时，不同的活动受天气影响的程度也不同。因此本次的实验首先将活动按照类别分类，分为户外活动和室内活动，即设置一个变量is_insides.其值有0 和1这两个选择，0代表为户外活动；1代表为室内活动。下表为常见的室内户外活动分类

户外活动类	室内活动类
		户外/冒险	电影
环保/环境	健身
		室外摄影	文化/写作
汽车/自行车	时尚/服装
		运动	女性

然后，我们将天气对两类活动的影响也分类，将天气对户外活动的影响称作直接影响；将天气对室内活动的影响作为间接影响。

直接影响：对于户外活动来说，天气数据尤为重要，天气好坏是用户是否参加一个户外活动的很大的因素。因此对于这种直接影响，我们直接将天气数据放入特征向量中。接下来的重点便为数据数字化，具体方法为：按照字符出现的频率高低，对字符进行量化排序，例如气候变量中“晴”出现的次数最多，便将其编号为“0”，依次顺序编号。

间接影响：对于室内活动来说，天气数据对其的影响仍不小。经过研究，我们发现，其是通过改变其它因素对活动出席影响的权重来间接影响的。具体描述如下。我们首先给出一个天气指数来对天气的好坏进行一个评定，我们从活动本身提取出两个关键的因素：用户兴趣度以及活动距离。用户兴趣度即为用户对某一类活动的热衷程度，活动距离为活动地点和用户住址之间的距离。在理想状况下，用户兴趣影响出席的权重是要高于活动距离的。而天气恰恰影响着两者的权重比例关系：当天气比较差时，用户往往对一些距离比较远的活动不感兴趣了。基于此，我们的方法如下：

首先，我们要给天气数据进行一个好坏的定义，即舒适度指数。舒适度指数是描述气温和湿度对人体的综合影响指标之一，它表征人体在某种温、湿度条件下对该空气环境感觉舒适的程度，用气温和相对湿度的不同组合来表示。通过调查，我们利用已有方法将舒适度指数计算公式定义为：

DI＝T-(0.55-0.55f)(T-58)

其中DI为舒适度指数，T为平均温度，f为相对湿度。DI的取值范围一般在0-90之间，值越高或者越低，人体都会感到不舒适，其中 DI＝59-70时，人体最为舒适。

在此基础上，本专利引入一个用户兴趣度与用户与活动距离对出席影响的权重比值β，其比值的意义在于衡量两种因素对出席影响的程度大小，比值大于1说明用户兴趣度相较与用户距离更影响用户出席的概率。因此，在理想情况下，β大于1；不过当我们将天气情况结合考虑过后，发现天气情况是通过改变β的值来影响活动出席的，其比值变为：：

二.出席成本的构建

本专利定义了一个新的潜在变量：出席成本。每个用户在参加一个活动之前，都会考虑自己出席这个活动的成本。我们将出席成本细分为几类：

1.时间成本：用户出席一个活动的时间成本主要取决于其在活动上需要花费的时间，即活动的持续时间。用户参加活动的时间越长，其时间成本越大。与此同时，由于活动的类型不同，持续时间也会不一样。例如一次写作交流可能持续一个小时；一次观影活动持续二到三个小时；而一次演唱会得持续时间可能更长。因此，我们采用一种时间占比的方法来判定某个活动持续时间长短，即用户所花费的时间成本大小。计算公式如下：

其中e为所有和e_i同属为一类别的活动，Dt(e_i)代表活动e_i的持续时间。时间成本即该活动持续时间与该类活动平均持续时间之比。

2.经济成本：通过对线下活动的调查，我们发现大部分的线下活动都会有相应的花费。小到野餐聚会，大到演唱会等，都有一定的花费。经济成本和时间成本一样，同样不能统一考虑。跟时间成本一样，我们仍然用占比的方法来判定其花销。

公式:

其中e为所有和e_i同属为一类别的活动，Cost(e_i)代表活动e_i的花费。时间成本即该活动的花费与该类活动平均花费之比。

三.季节性的影响

活动的出席还会受到季节的影响。针对于季节性的研究，我们首先将时间按照季节性进行一个基本分类，具体为：12月-2月：冬季，编码为4；3月-5月：春季，编码为1；6月-8月：夏季，编码为2； 9月-11月：秋季，编码为3；然后我们要对某类活动的常办季节与用户的季节偏好进行匹配，以此来作为季节因素的变量。计算方法如下：

Import_season(e_i)＝D(season(e_i),season(u))；

Season(e_i)：其为活动的常办季节向量，通过对同类活动的举办季节进行统计，得到该类活动在每个季节所举行的次数，按次数从大到小对季节编码进行排序，得到一个四维向量。

Season(u):该向量为用户的季节偏好，对用户参加的所有活动所在季节进行统计得到用户在每个季节参加活动的次数，按次数从大到小对季节编码进行排序，得到一个四维向量。

然后计算两者的欧氏距离得到Import_season。该值越小，说明该活动越符合用户的季节偏好。

上述实例仅是本发明的一个具体实施方式，对其的简单变换、替换等也均在发明的保护范围内。

Claims

1.一种基于活动的社交网络下结合环境数据的活动出席预测方法，其特征在于，包括如下步骤：

步骤一：收集客户参加活动的历史数据；

步骤二：将活动分为户外活动和室内活动；确定天气数据、出席成本和活动时间分别对客户的户外活动和室内活动出席率的影响；

步骤三：对于室外活动，将天气数据按照出现频率进行量化，天气数据包括晴、雨、阴、多云、雪，确定天气数据对活动出席率的影响；

步骤四：对于室内活动，根据温度和湿度计算天气舒适度指数，确定天气舒适度指数对活动出席率的影响；对于室内活动计算出用户对活动的兴趣度与活动距离对用户出席率影响的权重之比；衡量用户对活动的兴趣度与活动距离对出席概率的影响程度；

步骤五：确定客户的活动出席成本，所述活动出席成本包括时间成本和经济成本；

步骤六：确定客户参加活动的季节性偏好；

步骤七：综合步骤一到步骤六，构建每个客户参加活动的概率模型，汇总得到活动最终出席率的预测模型；

所述步骤七中构建每个客户参加活动的概率模型步骤如下：

7.1)标注点的搭建：根据户外活动、室内活动、天气数据、出席成本季节偏好性进行特征向量，即标注点的搭建，搭建方法如下：若某一个活动为e₀；参加活动e₀的用户集为U_e0，人数为N个，分别设为u₁，u₂，u₃，u₄……u_N；

用户i与活动之间的距离为D(u_i,e₀)，i∈(1，N)，u为距离标识，u_i表示用户i的距离标识；那么活动e₀的距离变量D(e₀)为：

D(e₀)＝D(u_i，e₀) (1)；

I(e₀)＝I_i (2)；

因此构建标注点形式的特征向量：

(label，(y₁*I(e₀)，y₂*D(e₀)，y₃*Time_Cost(e₀)，y₄*Eco_Cost(e₀)，y₅*Import_season(e₀)))；

y₁，y₂，y₃，y₄，y₅为各因素的权重，y₁，y₂，y₃，y₄，y₅的比值为:β:lg(|DI-64.5|+10):0.5:0.5:0.5；

其中，β表示在理想舒适度指数64.5下，用户兴趣度与用户-活动距离对出席影响的权重之比，DI表示舒适度指数；

(label，(y₁*I(e₀)，y₂*D(e₀)，y₃*Time_Cost(e₀)，y₄*Eco_Cost(e₀)，y₅*Import_season(e₀)，y₆*Weather(e₀)))；

β∶1∶0.5∶0.5∶0.5∶2；

其中标注点中的label值为1即为该用户参加了该活动，0即为该用户没有参加该活动；

7.2)训练样本的选取：对于属于同一类的活动建立正样本集P和负样本集Neg：首先提取两个阈值T₁，T₂来协助选择负样本集Neg，T₁的计算方法为：

T₁＝min(I₁，I₂，I₃，…I_N) (3)

T₂的计算方法为：

T₂＝max(D(u₁，e₀)，D(u₂，e₀)，D(u₃，e₀)...D(u_N，e₀)) (4)

对于负样本集Neg的构造，首先从没有参加活动E的所有用户中确定负样本候选集，确定负样本候选集U_候选的方法为：

负样本集Neg＝Sample(U_候选) (6)；

Train_dataset＝正样本集P+负样本集Neg (7)

公式(5)中u表示未参加活动e₀的用户，

表示参加活动e₀的用户集合；选择兴趣度大于阈值T₁和/或距离小于阈值T₂的未参加活动的用户作为候选的负样本用户集，通过随机抽样的方法抽取和正样本P数量相等的负样本用户，将这些用户按照步骤7.1)建立特征向量，其中标注点中的label值为0；正样本集P和负样本集Neg包含的样本相同；将正负样本集整合至一起得到训练样本集Train_dataset；

7.3)分类器的建立：训练样本集构建完成后，采用决策树中的gbdt决策树分类算法结合训练样本构建分类器模型，公式如下：

Model_predict＝f_gdbt(Train_dataset) (8)

f_gdbt()指gdbt决策树算法函数，Model_predict为算法输出的模型；

7.4)测试样本的选取：模型训练完成后，进行预测，选取测试样本，若有待预测人数的未来活动e′，选择测试样本test_userset的方法如下：

C_e′是指和e′属于同类的所有活动的集合；

u∈C_e′是指参加过与活动e′同类活动的用户u，e_c代表和活动e′同类别的活动，

表示参加过和活动e′同类别的活动的用户，从用户u中选择兴趣度大于T₂或者距离小于T₁的用户作为候选测试样本用户集；然后测试样本集test_predict构建方法如下：

test_predict＝labelpoint(test_userset，e′) (10)

labelpoint()表示步骤7.1表示的标注点构建方法；

output_predict＝model_gdbt(test_predict) (11)

计算得到预测会出席的人数，计算方法如下所示：

output_label＝1代表预测结果中label值为1，即预测的用户出席活动，

表示将预测结果为出席活动的用户数量进行累加，以得到出席未来活动e′的出席人数N_predict；

所述步骤三中，天气数据按照出现频率进行量化的方法为：

Weather(e)＝n-index(e)

Weather(e)表示活动e的天气方面的因素，Weather(e)越大，说明某种天气出现次数越多；n表示天气的种类总数；index(e)表示活动e举办时的天气进行量化后的数字，活动e举办时出现次数最多的天气用数字0表示，出现第二多的用1表示，依此类推，出现次数最少的天气用数字n-1表示，index(e)的取值范围是0-n；

所述步骤四中对室内活动天气数据的处理方法为：

首先计算天气数据的舒适度指数DI：DI＝T-(0.55-0.55f)(T-58)；其中DI表示舒适度指数，T表示日平均温度，f表示相对湿度；然后计算在理想舒适度指数64.5下，用户兴趣度与用户-活动距离对出席影响的权重之比β；再计算出在不同舒适度指数用户兴趣度与用户-活动距离对出席影响的权重之比：

2.如权利要求1所述的基于活动的社交网络下结合环境数据的活动出席预测方法，其特征在于，所述步骤五中确定客户的活动出席成本的处理方法为：

其中Time_Cost(e_i)表示客户参加活动e_i的时间成本，Ce_i表示与ei同类别的活动集合，Dt(e_i)代表活动e_i的持续时间；Avg(Dt(e))表示与e_i同属为一类别的活动的平均持续时间；Dt(e)表示和e_i同类别的所有活动持续时间之和；

确定经济成本的计算公式为：

其中，e为所有和活动e_i同属为一类别的活动，Cost(e_i)代表活动e_i的花费；Eco_Cost(e_i)表示客户参加活动e_i的经济成本；Cost(e)表示和e_i同类别的所有活动的花费之和；Ce_i表示与e_i同类的活动集合。

3.如权利要求1所述的基于活动的社交网络下结合环境数据的活动出席预测方法，其特征在于，所述步骤六中确定客户参加活动的季节性偏好的处理方法为：

计算公式如下：

Import_season(e_i)＝D(Season(e_i)，Season(u)) (16)

Season(u)为用户的季节偏好，对上述所有同类活动中某个用户参加的活动的举办季节进行统计，得到上述某个用户在每个季节参加活动的次数，按次数从大到小对季节编码进行排序，得到一个四维向量Season(u)；