CN105224681B

CN105224681B - 基于家庭工作地上下文环境的用户需求获取方法及系统

Info

Publication number: CN105224681B
Application number: CN201510698615.0A
Authority: CN
Inventors: 江昊; 周晨; 陈艳秋; 羿舒文; 李倩; 周娴
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2015-10-23
Filing date: 2015-10-23
Publication date: 2018-07-27
Anticipated expiration: 2035-10-23
Also published as: CN105224681A

Abstract

本发明提供一种基于家庭工作地上下文环境的用户需求获取方法及系统，包括基于移动网络运营商的数据集，获取移动用户网络使用信息；进行数据清洗，排除异常的用户上网记录；从用户上网记录中提取保留与用户兴趣相关的属性；进行用户兴趣空间发现；利用夹挤定理进行家庭工作地位置发现；进行数据整合及数据降维；利用随机森林进行模型训练，进行分类。本发明利用来自移动网络运营商的由用户网络使用详细信息构成的数据集，基于家庭工作地位置发现及其上下文环境，提出一个新技术方案来挖掘用户需求与兴趣，方便高效。

Description

基于家庭工作地上下文环境的用户需求获取方法及系统

技术领域

本发明涉及移动互联网大数据技术领域，特别涉及一种基于家庭工作地上下文环境的用户需求获取技术方案。

背景技术

随着移动互联网的迅速发展与普及，移动用户持续增长且更加依赖网络，信息超载也越来越严重。目前移动互联网面临着大量内容需求、高昂维护费用、移动控制等挑战，而移动用户兴趣的准确获取对于解决以上问题尤为重要，在工业界和学术界引起了广泛的研究。现有的信息探测技术可以获取大量移动网络用户的UDRs(Usage Detail Records，使用详细记录)，这为基于数据驱动的用户兴趣获取的研究提供了数据来源。

在有线网络中，多种技术可被用于用户需求的采集，例如信息检索、数据挖掘、复杂网络等。移动互联网因融合了用户移动性，对用户兴趣的分析也涌现了新的方法，例如整合了用户、时间、空间、行为四个方面的非参数贝叶斯模型，用户旅游行为与旅游偏好的关联分析等。然而，移动互联网为用户需求分析也带来了挑战。移动互联网永远在线和覆盖范围广的特性使得用户可以随时随地接入移动互联网，人们对移动互联网的访问已突破时空限制。这些随时随地的访问行为增加了用户网络使用信息的复杂度，严重降低了用户兴趣获取的准确率。因此，探索新的方法高效且准确地获取用户兴趣便尤为重要。

发明内容

本发明针对上述问题，提出了一种基于家庭工作地上下文环境的用户需求获取技术方案，结合用户家庭和工作地的上下文环境信息进行用户兴趣识别。

本发明的技术方案提供一种基于家庭工作地上下文环境的用户需求获取方法，包括以下步骤，

步骤1，基于移动网络运营商的数据集，获取移动用户网络使用信息，得到初始的用户上网记录；

步骤2，进行数据清洗，从步骤1所得初始的用户上网记录中排除异常的用户上网记录；

步骤3.根据步骤2清洗结果，从用户上网记录中提取与用户兴趣相关的属性；

步骤4.进行用户兴趣空间发现，包括根据访问用户数量和访问时长分别对网站进行排序并确定候选网站，然后依据候选网站的社会属性与相似性进行聚类，并对分类后网站做标签化处理，得到用户兴趣空间；

步骤5.利用夹挤定理进行家庭工作地位置发现，并获取相应家庭工作地上下文信息；所述利用夹挤定理进行家庭工作地位置发现，包括根据用户在每天的第一条上网记录、最后一条上网记录中出现频率最高的位置的中点，确定用户家庭位置，根据用户在工作日的上午、下午的上网记录中出现频率最高的位置的中点，确定用户工作地位置；

步骤6.进行数据整合，将同一用户的用户上网记录和相应的家庭工作地上下文信息进行整合，扩展与用户兴趣相关的属性，将家庭工作地上下文信息内容加入用户上网记录；

步骤7.利用主成分分析方法，对步骤6整合后所得用户上网记录进行数据降维；

步骤8.利用随机森林进行模型训练，包括对每棵树，从训练集中有放回地随机选取样本，作为树的训练集；对树中的每个节点，从用户上网记录的所有属性中无放回地随机选取几个属性，寻找分类效果最好的一维特征，并据此对该节点上的样本进行分类；

步骤9.利用步骤8的训练结果对待测试的用户上网记录进行分类，得到预测结果。

而且，步骤5中，确定用户家庭位置的方式包括如下子步骤，

步骤5.1.1，随机选取数据集中一个用户为当前处理用户user，并进行初始化，包括令变量user_ID＝1，day_num＝观察时段中的天数，user_num＝用户数；

步骤5.1.2，初始化列表1为空，列表2为空；

步骤5.1.3，选择数据集中观测时段的第一天作为当前处理日day，并令day_ID＝1；

步骤5.1.4，提取user在day内第一条上网记录的位置坐标，并将此位置加入列表1；

步骤5.1.5，提取user在day内最后一条上网记录的位置坐标，并将此位置加入列表2；

步骤5.1.6，令day_ID＝day_ID+1，且将day更新为当前day的下一天；

步骤5.1.7，判断day_ID<＝day_num是否成立，若成立，则返回步骤5.1.4，若不成立，则进入步骤5.1.8；

步骤5.1.8，选择列表1、列表2中出现频率最高的位置坐标，分别记为location1、location2；

步骤5.1.9，计算用户user的家庭位置坐标为0.5×(Location1+location2)；

步骤5.1.10，令user_ID＝user_ID+1，且将user更新为数据集中某一个从未被访问过的用户；

步骤5.1.11，判断user_ID<＝user_num是否成立，若成立，则返回步骤5.1.2，若不成立，则结束进程。

而且，步骤5中，确定用户工作地位置的方式包括如下子步骤，

步骤5.2.1，随机选取数据集中一个用户为当前处理用户user，并进行初始化，包括令变量user_ID＝1，day_num＝观察时段中的天数，user_num＝用户数；

步骤5.2.2，初始化列表1为空，列表2为空；

步骤5.2.3，选择数据集中观测时段的第一天作为当前处理日day，并令day_ID＝1；

步骤5.2.4，判断day是否为周末，是则进入步骤5.2.7，否则进入步骤5.2.5；

步骤5.2.5，提取在day的上午工作时间段[9:00，12:00)，user的上网记录出现频率最高的位置坐标，并加入列表1；

步骤5.2.6，提取在day的下午工作时间段[12:00，17:00]，user的上网记录出现频率最高的位置坐标，并加入列表2；

步骤5.2.7，令day_ID＝day_ID+1，且将day更新为当前day的下一天；

步骤5.2.8，判断day_ID<＝day_num是否成立，若成立，则返回步骤5.2.4，若不成立，则进入步骤5.2.9；

步骤5.2.9，选择列表1、列表2中出现频率最高的位置坐标，分别记为location1、location2；

步骤5.2.10，计算用户user的工作地位置坐标为0.5×(Location1+location2)；

步骤5.2.11，令user_ID＝user_ID+1，且将当前user更新为数据集中某一个从未被访问过的用户；

步骤5.2.12，判断user_ID<＝user_num是否成立，若成立，则返回步骤5.2.2，若不成立，则结束进程。

而且，步骤7实现方式包括如下子步骤，

步骤7.1，设具备p维特征的n条用户上网记录构成n×p维矩阵X_n×p，矩阵X_n×p中的元素记为x_ij，1≤i≤n,1≤j≤p；对X_n×p进行减均值和方差归一化处理，包括对矩阵X_n×p的每一列特征，分别求其均值和标准差，并对元素x_ij进行替换如下，

其中，u_j、σ_j分别为第j列特征的均值、标准差；

步骤7.2，计算当前的矩阵X_n×p的协方差矩阵R_p×p，其中元素r_ab表示矩阵X_n×p中第a列数据x_a和第b列数据x_b之间的协方差cov(x_a,x_b)，r_ab＝r_ba，a,b＝1,2,3,...,p；

步骤7.3，解特征方程|λI-R_p×p|＝0，λ为待求的特征值，I为单位向量，求得特征值λ₁≥λ₂≥λ₃≥…≥λ_p≥0，以及特征值λ_d相应的正交化单位特征向量e_d，1≤d≤p，其中e_df表示e_d的第f个分量，1≤f≤p；

步骤7.4，计算主成分贡献率如下，

其中，d＝1,2,3,...,p，k＝1,2,3,...,p；

步骤7.5，根据累计贡献率选择主成分的数量s，所述累计贡献率计算如下，

其中，m＝1,2,3,...,s，k＝1,2,3,...,p，G(s)为前s个主成分的累计贡献率；

步骤7.6，对当前的矩阵X_n×p中第w列特征x_w，记e_vw表示正交化单位特征向量e_v的第w个分量，计算x_w在各个主成分F_v上的载荷l_vw：

l_vw＝(λ_v)^0.5e_vw(1≤v≤s,1≤w≤p)；

其中，v＝1,2,3,...,s，w＝1,2,3,...,p；

步骤7.7，由λ_v对应的列向量l_v＝(l_v1,l_v2,l_v3,…,l_vp)^T构成映射矩阵M_p×s＝(l₁,l₂,l₃,…l_s)；

步骤7.8，当前的矩阵X_n×p与映射矩阵M_p×s相乘，得到降维后的用户上网信息Y_n×s。

而且，步骤8实现方式包括如下子步骤，

步骤8.1，输入训练集S，设训练集中每条上网记录的特征维数为F；

步骤8.2，确定全局参数，包括使用到的树的数量t，每棵树的深度d，树中每个节点使用到的特征数量f；

步骤8.3，从第i棵树开始训练，并初始化i＝0；

步骤8.4，令i＝i+1；

步骤8.5，判断i<＝t是否成立，若成立，则进入步骤8.6，否则，结束进程；

步骤8.6，从i的j节点开始训练，j初始化为i的根节点；

步骤8.7，从训练集S中有放回地随机抽样，构成节点j的训练样本；

步骤8.8，判断j是否具备步骤8.2所确定的终止条件，若不具备，则进入步骤8.9，若具备，则将当前节点j设置为叶子节点，且该叶子节点的预测输出为当前节点j样本集合中数量最多的那一类，然后进入步骤8.14；

步骤8.9，从F个特征中无放回地选取随机选取f维特征；

步骤8.10，从f维特征中取分类效果最好的一维特征及阈值th，设其为第k维特征；

步骤8.11，取p为此时节点j上未被判断过的任一样本；

步骤8.12，判断p的第k维特征是否小于th，若小于，则将p归入j的左节点，否则，将p归入j的右节点；

步骤8.13，判断树i的节点j上所有样本是否均已被划分入j的子节点，若是，则转至步骤8.14，否则，转至步骤8.11，取下一个此时节点j上未被判断过的任一样本为p；

步骤8.14，判断i的所有节点是否都被训练过或标记为叶子节点，若是，则转至步骤8.4，否则，进入步骤8.15；

步骤8.15，将j更新为i上未被训练过的节点，并转至步骤8.8。

而且，步骤9中，以精确率、召回率和F1-score作为评价指标，进行模型验证与性能评估，包括首先执行以下子步骤，

步骤9.1，从测试集中取一个用户上网记录，并与步骤7得到的映射矩阵M_p×s相乘，得到降维后的用户上网记录T；

步骤9.2，从第i棵树开始，初始化i＝0，令list＝空集；

步骤9.3，令i＝i+1；

步骤9.4，判断i<＝t是否成立，若成立，则进入步骤9.5，否则，选择list中出现比例最高的类别作为T的最终预测值，并进入步骤9.10；

步骤9.5，将j初始化为i的根节点；

步骤9.6，判断j是否为叶子节点，若是，则输出j的预测值，并将此预测值加入list，转至步骤9.3，否则，转至步骤9.7；

步骤9.7，判断T中与j相对应的特征的数值小于阈值th是否成立，若成立，则转至步骤9.8，否则转至步骤9.9；

步骤9.8，进入j的左节点，并将j更新为j的左节点，转至步骤9.6；

步骤9.9，进入j的右节点，并将j更新为j的右节点，转至步骤9.6；

步骤9.10，判断测试集中用户上网记录是否均被判断且仅被判断了一次，若是，则结束进程，否则，跳转至步骤9.1，直至测试集中所有数据都被预测且仅被预测一次；

最后，根据测试集中所有用户上网记录的真实兴趣和预测兴趣，计算分类结果的精确率、召回率和F1-score。

而且，设测试集中真实兴趣标签值为1,2,…N，对于标签值为i的用户兴趣，其精确率P_i、召回率R_i、F值F1_i分别为：

其中，A_i、T_i分别代表兴趣标签值为i的上网记录数量、兴趣标签值为i且预测标签值也为i的上网记录的数量，1≤i≤N,n＝1,2,3,...,N。

本发明还提供一种基于家庭工作地上下文环境的用户需求获取系统，包括以下模块，

初始数据采集模块，用于基于移动网络运营商的数据集，获取移动用户网络使用信息，得到初始的用户上网记录；

数据过滤模块，用于进行数据清洗，从初始数据采集模块所得初始的用户上网记录中排除异常的用户上网记录；

特征提取模块，用于根据数据过滤模块的清洗结果，从用户上网记录中提取保留与用户兴趣相关的属性；

用户兴趣空间提取模块，用于进行用户兴趣空间发现，包括根据访问用户和访问时长分别对网站进行排序并确定候选网站，然后依据候选网站的社会属性与相似性进行聚类，并对分类后网站做标签化处理，得到用户兴趣空间；

位置发现模块，用于利用夹挤定理进行家庭工作地位置发现，并获取相应家庭工作地上下文信息；所述利用夹挤定理进行家庭工作地位置发现，包括根据用户在每天的第一条上网记录、最后一条上网记录中出现频率最高的位置的中点，确定用户家庭位置，根据用户在工作日的上午、下午的上网记录中出现频率最高的位置的中点，确定用户工作地位置；

数据整合模块，用于将同一用户的用户上网记录和相应的家庭工作地上下文信息进行整合，扩展与用户兴趣相关的属性，将家庭工作地上下文信息内容加入用户上网记录；

数据降维模块，用于利用主成分分析方法，对数据整合模块所得用户上网记录进行数据降维；

训练模块，用于利用随机森林进行模型训练，包括对每棵树，从训练集中有放回地随机选取样本，作为树的训练集；对树中的每个节点，从用户上网记录的所有属性中无放回地随机选取几个属性，寻找分类效果最好的一维特征，并据此对该节点上的样本进行分类；

分类模块，用于利用训练模块的训练结果对待测试的用户上网记录进行分类，得到预测结果。

本发明的有益效果是：利用来自移动网络运营商的由用户网络使用详细信息构成的数据集，基于家庭工作地位置发现及其上下文环境，提出一个新方法来挖掘用户需求与兴趣，对深入理解用户行为模式、精准营销、提供基于兴趣感知与需求感知的个性化服务和主动服务具有重要的技术支撑作用，同时对提升用户体验、推进以用户为中心的商业模式、缓解网络信息过载、优化通信资源分配等具有现实意义和价值。

附图说明

图1是本发明实施例的流程图；

图2是本发明实施例提供的基于夹挤定理的家庭位置发现的实现流程图；

图3是本发明实施例提供的基于夹挤定理的工作地位置发现的实现流程图；

图4是本发明实施例提供的基于主成分分析的数据降维的实现流程图；

图5是本发明实施例提供的基于随机森林的模型训练的实现流程图；

图6是本发明实施例提供的基于随机森林的模型测试的实现流程图。

具体实施方式

下面结合附图及实施例，对本发明作进一步详细的描述。

本发明考虑到，尽管移动互联网允许用户随时随地接入网络，但人类移动行为研究显示，用户在家和工作地附近逗留的时间较长，倾向于在访问过的地点附近活动，且用户所访问过的地点可以形成几个空间聚类。同时，在对网络访问的需求强度方面，存在家>工作地>其他地点的现象。因此，可以断定，家和工作地对于用户兴趣的形成和演进具有重要影响。

基于此，引入家和工作地探测技术，获取用户家和工作地的上下文环境信息，并将其用于用户兴趣获取的研究，以期提高用户兴趣识别的准确率。

参见图1，实施例的流程包括以下步骤：

步骤1.基于移动网络运营商的数据集，获取移动用户网络使用详细信息UDRs，其中包含了用户上网行为的诸多属性，如用户号码、URL(Uniform Resource Locator，统一资源定位符)、流量消耗、IP地址(Internet Protocol Address)、上网时间、基站编号；

实施例中，用户的网络使用情况是以在时间和空间维度连续性较好的UDRs来体现的，被基站检测到的用户上网行为以上网记录的形式呈现出来：[用户电话号码，上网时间，基站位置，数据包，……]，表明了用户上网的上下文信息和网络访问情况，其中用户电话号码是经过加密处理的。本步骤得到初始的用户上网记录。

步骤2.数据清洗，从步骤1所得初始的用户上网记录中排除掉异常的用户上网记录：为保证高质量的挖掘结果，需进行数据清洗，排除掉关键字段缺失、关键字段数值异常、重复的用户上网记录，以得到高质量的数据；

有些上网记录的关键字段缺失，这会对后续的数据分析造成干扰，故具体实施时，可以按照属性将上网记录分割为诸多字段，通过计算每条记录的字段数量、统计不同记录同一字段的数值分布情况、比较不同记录间字段数值的差异来分别剔除数据残缺、数值异常、重复的无效上网记录。

步骤3.根据步骤2清洗结果，从用户上网记录中提取保留与用户兴趣相关的属性，包括用户电话号码、上网起始时间、上网位置、URL、上下行流量，其他无关的属性可不用考虑；

本步骤提取可能对用户上网兴趣具备较大影响的字段信息，后续作为训练数据的部分特征。可以提取对用户兴趣关联程度较大的特征，不考虑无关属性，后续进行数据整合时可以在步骤3所得到的特征基础上进行挖掘；用户上网记录的属性很多，提取出对后续分析有用的特征，可以降低计算复杂度和空间复杂度。实施例中，提取后的用户上网记录具备形式：[用户电话号码，上网起始时间，上网结束时间，寻呼区域的LAC(location AreaCode，位置区码)，移动终端的Cell-ID(蜂窝小区的识别码)，URL，上行流量，下行流量]。

步骤4.用户兴趣空间发现：从URL中提取网站信息，进行网站识别，再根据访问用户数量和访问时长分别对网站进行排序，综合考虑保真度和复杂度，选取在访问用户数量和访问时长方面排名均为前k％的网站作为候选网站，然后依据候选网站的社会属性与相似性对其进行聚类，并对分类后的网站做标签化处理，得到用户兴趣空间；

具体来说，从URL获取网站信息，之后对同一网站的访问人数和访问时间进行统计，发现仅有20％的网站被80％的用户访问。根据访问人数和访问时间来衡量网站的受欢迎程度，并据此对网站进行排序，选取在访问用户数量和访问时长方面排名均为前k％的网站作为用户可能感兴趣的候选网站。具体实施时，k值可根据实际情况进行选取，用户可自行预设k值。之后，根据网站的社会属性与相似性，对候选网站进行分类。为将无数值意义的网站信息转化为有数值意义的数据信息，用数字对分类后的网站做标签化处理，即得到用户兴趣空间。

步骤4包括如下步骤：

步骤4.1，从URL中提取网站信息，并进行网站识别与归类；

步骤4.2，统计归类后的网站的访问人数数量和访问时长，并分别据此对网站进行排序，发现仅有极少数网站被绝大部分用户访问；

步骤4.3，综合考虑保真度和复杂度，并结合数据集中网站访问情况，选取网站访问人数数量和访问时间排名均为前k％的网站作为候选网站，实施例选择k＝6；

步骤4.4，依据网站的社会属性和相似性，对候选网站进行聚类，得到资讯、社区、生活、娱乐、购物、数码、搜索、广告、阅读、软件、其他共11类用户访问兴趣，即为用户兴趣空间；

步骤4.5，为便于后续建模，对用户兴趣空间中兴趣类别进行标签化处理，即用数字标签对用户兴趣进行标注与区别，例如资讯、社区、生活、娱乐、购物、数码、搜索、广告、阅读、软件、其他类分别被标注为1、2、3、…、11。

步骤5.利用夹挤定理进行家庭工作地位置发现，并据此获取家庭工作地上下文信息；

基于夹挤定理，并根据不同时段内上网位置出现的频率，来推断用户家庭工作地位置。基于的假设为：用户在每天的第一条上网记录、最后一条上网记录中出现频率最高的位置的中点，即被认为是用户家庭位置；用户在工作日的上午、下午的上网记录中出现频率最高的位置的中点，即被认为是用户工作地位置。

所述的步骤5主要包括以下步骤：

步骤5.1，用户家庭位置发现；

步骤5.2，用户工作地位置发现；

步骤5.3，用户家庭工作地上下文信息获取。

其中，参见图2，步骤5.1包括以下步骤：

步骤5.1.2，初始化列表1为空，列表2为空，即令令

步骤5.1.4，提取user在day内第一条上网记录的位置坐标(经度，纬度)，并将此位置加入列表1；

步骤5.1.5，提取user在day内最后一条上网记录的位置坐标(经度，纬度)，并将此位置加入列表2；

步骤5.1.6，令day_ID＝day_ID+1，且将day更新为当前day的下一天，即next day；

步骤5.1.7，判断day_ID<＝day_num是否成立，若成立，则返回步骤5.1.4，重复步骤5.1.4至5.1.7，若不成立，则进入步骤5.1.8，进行后续步骤；

步骤5.1.9，因location1和location2位置较接近，球面坐标与平面坐标间的误差可忽略，所以可取location1和location2的均值，作为用户user的家庭位置坐标，即计算user的home位置＝0.5×(Location1+location2)；

步骤5.1.10，令user_ID＝user_ID+1，且将当前user更新为下一个用户，即数据集中某一个从未被访问过的用户；

步骤5.1.11，判断user_ID<＝user_num是否成立，若成立，则返回步骤5.1.2，重复步骤5.1.2至5.1.11，若不成立，则结束进程。

参见图3，步骤5.2包括如下步骤：

步骤5.2.2，初始化列表1为空，列表2为空，即令令

步骤5.2.4，判断day是否为周末，即是否属于集合{Saturday，Sunday}，若day为周末，则进入步骤5.2.7，若day为非周末时间，则进入步骤5.2.5，依次进行后续步骤；

步骤5.2.5，提取在day的上午工作时间段[9:00，12:00)，user的上网记录出现频率最高的位置坐标(经度，维度)，并将此位置加入列表1；

步骤5.2.6，提取在day的下午工作时间段[12:00，17:00]，user的上网记录出现频率最高的位置坐标(经度，维度)，并将此位置加入列表2；具体实施时，上午工作时间段和下午工作时间段可以根据具体地区情况调整；

步骤5.2.7，令day_ID＝day_ID+1，且将day更新为当前day的下一天，即next day；

步骤5.2.8，判断day_ID<＝day_num是否成立，若成立，则返回步骤5.2.4，重复步骤5.2.4至5.2.8，若不成立，则进入步骤5.2.9，进行后续步骤；

步骤5.2.10，取location1和location2的均值，作为用户user的工作地位置坐标，即计算user的work位置＝0.5×(Location1+location2)；

步骤5.2.11，令user_ID＝user_ID+1，且将当前user更新为下一个用户，即数据集中某一个从未被访问过的用户；

步骤5.2.12，判断user_ID<＝user_num是否成立，若成立，则返回步骤5.2.2，重复步骤5.2.2至5.2.12，若不成立，则结束进程。

步骤5.3，用户家庭工作地上下文信息获取：根据步骤5.1和步骤5.2得到的用户家庭工作地位置信息，汇集同一用户的上网记录，并计算此用户的家庭工作地上下文环境信息，以丰富用户家庭工作地文本信息。本实施例中将家庭工作地上下文信息描述为用户在家庭、工作地、其他位置的上网时长及所占比例，用户在家庭、工作地、其他位置的上行流量及所占比例，用户在家庭、工作地、其他位置的下行流量及所占比例，用户上网位置与家庭位置之间距离的中位数和平均数，用户上网位置与工作地位置之间距离的中位数和平均数。同时，还会求取用户其他属性，如用户单次上网持续时长的中位数和平均数，用户相邻两次上网行为的时间间隔的中位数和平均数。

步骤6.数据整合，将同一用户的上网记录和家庭工作地上下文信息进行整合，扩展用户上网行为属性，得到更丰富的用户上网行为记录；

将从步骤3提取到的用户上网记录属性与由步骤5所得到的用户家庭工作地上下文信息整合到一起，即将用户的家庭工作地相关信息加入到此用户的上网记录之后。即根据步骤3的用户上网记录[用户电话号码，上网起始时间，上网结束时间，寻呼区域的LAC，移动终端的CELL_ID，URL，上行流量，下行流量]，整合后的用户上网记录具备形式：[用户电话号码，上网起始时间，上网结束时间，寻呼区域的LAC，移动终端的CELL_ID，URL，上行流量，下行流量，家庭位置，工作地位置，家庭工作地上下文信息，用户单次上网时长的中位数，用户单次上网时长的平均数，用户相邻两次上网行为的时间间隔的中位数，用户相邻两次上网行为的时间间隔的平均数]。

步骤7.数据降维，考虑到数据冗余与计算复杂度，对经过数据整合后的用户上网记录进行降维处理；

利用主成分分析方法，设法将原来众多的具有一定相关性的用户上网行为属性指标精减为一组个数较少的互不相关的综合指标，来最大程度地反映原上网记录所代表的信息，并确保新指标之间相互无关，也即信息不重叠。

参见图4，所述的步骤7包括以下步骤：

步骤7.1，设具备p维特征的n条用户上网记录构成n×p维矩阵X_n×p，矩阵X_n×p中的元素记为x_ij(1≤i≤n,1≤j≤p)。对X_n×p进行减均值和方差归一化处理：对矩阵X_n×p的每一列特征，分别求其均值和标准差，并对元素x_ij进行替换，也即其中u_j、σ_j分别为第j列特征的均值、标准差；

步骤7.2，计算当前归一化处理后的矩阵X_n×p的协方差矩阵R_p×p，其元素r_ab(a,b＝1,2,3,...,p)表示X_n×p中第a列数据x_a和第b列数据x_b之间的协方差cov(x_a,x_b)，r_ab＝r_ba；

步骤7.3，解特征方程|λI-R_p×p|＝0，λ为待求的特征值，I为单位向量，求得特征值λ₁≥λ₂≥λ₃≥…≥λ_p≥0，以及特征值λ_d(1≤d≤p)相应的正交化单位特征向量e_d，其中e_df表示e_d的第f(1≤f≤p)个分量；

步骤7.4，前s个较大的特征值可反映前s个主成分对应的方差值的大小。主成分的方差贡献率，也即信息贡献率，可用来反映信息量的大小。计算主成分贡献率如下：

其中，λ_k(k＝1,2,3,...,p)表示λ₁、λ₂、λ₃、...、λ_p。

步骤7.5，选择主成分的数量s是通过累计方差(信息)贡献率G(s)来确定的。累计贡献率G(s)计算公式为：

其中，m＝1,2,3,...,s，k＝1,2,3,...,p；

一般取累计贡献率G(s)达85％—95％的特征值所对应的主成分，因为认为累计贡献率大于85％时已足够反映原来的信息了，此时对应的s就是抽取的前s个主成分；具体流程可设计为，先令s＝1，计算相应G(s)值，判断是否大于等于90％，是则确定当前的s取值为主成分个数，进入步骤7.6，否则令s＝s+1，然后返回计算相应G(s)值，直到G(s)大于等于预设的阈值，例如90％；

步骤7.6，主成分载荷反映主成分F_v(v＝1,2,3,…,s)与归一化处理后的矩阵X_n×p中第w列特征x_w(w＝1,2,3,…,p)之间的相互关联程度。计算x_w在各个主成分F_v上的载荷l_vw：

l_vw＝(λ_v)^0.5e_vw(1≤v≤s,1≤w≤p)；

其中，e_vw表示e_v的第w个分量，即由步骤7.3得到的相应正交化单位特征向量；

步骤7.7，由λ_v(1≤v≤s)对应的列向量l_v＝(l_v1,l_v2,l_v3,…,l_vp)^T构成映射矩阵M_p×s＝(l₁,l₂,l₃,…l_s)；

步骤7.8，当前的矩阵X_n×p与映射矩阵M_p×s的相乘，即得到降维后的用户上网信息Y_n×s，也即Y_n×s＝X_n×p·M_p×s。

步骤8.利用随机森林进行模型训练；

选取鲁棒性与分类性能都较好的随机森林作为训练的模型。对每棵树，从训练集中有放回地随机选取样本，作为树的训练集；对树中的每个节点，从上网记录的诸多属性中无放回地随机选取几个属性，寻找分类效果最好的一维特征，并据此对该节点上的样本进行分类。

参见图5，所述的步骤8包括以下步骤：

步骤8.1，输入训练集，具体实施时可预先给定训练集S，设训练集中每条上网记录的特征维数为F，F即等于步骤7中所得的s；

步骤8.2，确定全局参数：使用到的树的数量t，每棵树的深度d，树中每个节点使用到的特征数量f，f<<F，具体实施时，t、d、f的数值可由本领域技术人员自行根据实际情况进行选择或预设。同时，确定节点的终止条件：节点上最少样本数s，节点上最少的信息增益m；

步骤8.3，从第i棵树开始训练，并初始化i＝0；

步骤8.4，令i＝i+1，即i更新为i+1；

步骤8.5，判断i<＝t是否成立，若成立，则进入步骤8.6，进行后续步骤，否则，结束进程；

步骤8.6，从i的j节点开始训练，j初始化为i的根节点；

步骤8.7，用现有技术中的Bagging方法从S中有放回地随机抽样，构成节点j的训练样本；

步骤8.8，判断j是否具备步骤8.2所确定的终止条件，若不具备，则转至步骤8.9，若具备，则将当前节点j设置为叶子节点，且该叶子节点的预测输出为当前节点j样本集合中数量最多的那一类，然后转至步骤8.14；

步骤8.9，从F个特征中无放回地选取随机选取f维特征；

步骤8.10，从f维特征中寻找分类效果最好的一维特征(设其为第k维特征)及其阈值th；具体实施时，本领域技术人员可根据实际情况自行预设节点分裂属性的选择策略，比如选择信息增益值较小的属性及其相对应的阈值。

步骤8.11，取p为此时节点j上未被判断过的任一样本；

步骤8.14，判断i的所有节点是否都被训练过或标记为叶子节点，若是，则转至步骤8.4，否则，转至步骤8.15；

步骤8.15，将j更新为i上未被训练过的节点，并转至步骤8.8。

步骤9.以精确率、召回率和F1-score作为评价指标，进行模型验证与性能评估。

前述步骤8会训练出包含t棵树的随机森林。对于测试集中的每条上网记录，均用这t棵树对其进行分类和预测，并将t棵树分类结果中出现频率最高的类别作为此条上网记录的预测兴趣。再根据所有测试数据的预测结果，计算兴趣发现的精确率、召回率和F1-score。

参见图6，所述的步骤9包括以下步骤：

步骤9.1，从测试集中取一个用户上网记录，并将此上网记录与步骤7得到的映射矩阵M_p×s相乘，得到降维后的用户上网记录T；

步骤9.2，从第i棵树开始，初始化i＝0，list＝空集；

步骤9.3，令i＝i+1，即i更新为i+1；

步骤9.4，判断i<＝t(t值来自步骤8)是否成立，若成立，则进入步骤9.5，进行后续步骤，否则，选择list中出现比例最高的类别作为T的最终预测值，并进入步骤9.10；

步骤9.5，将j初始化为i的根节点；

步骤9.7，判断T中与j相对应的特征的数值<阈值th是否成立，若成立，则转至步骤9.8，否则转至步骤9.9；阈值th可由步骤8得到；

步骤9.10，判断测试集中用户上网记录是否均被判断且仅被判断了一次，若是，则结束进程，否则，跳转至步骤9.1，重复步骤9.1至步骤9.11，直至测试集中所有数据都被预测且仅被预测一次；

最后，可以根据测试集中所有用户上网记录的真实兴趣和预测兴趣，计算分类结果的精确率、召回率和F1-score(F1分数)。

精确率＝提取出的正确信息条数/提取出的信息条数，用于评估系统的查准率；召回率＝提取出的正确信息条数/样本中的信息条数，用户评估系统的查全率；两者数值在0与1之间，越接近于1，说明查准率或查全率越高。

F值是精确率与召回率的加权调和平均，常见的为F1。F1-score＝精确率×召回率×2/(精确率+召回率)。F值综合了精确率和召回率，可以反映系统的整体性能。当F1-score值较大时，说明系统较为有效。

设测试集中真实兴趣标签值为1,2,…,N，对于标签值为i的用户兴趣，其精确率P_i、召回率R_i、F值F1_i分别为：

例如，假设测试集中真实兴趣标签值为1,2,3,…,11的上网记录的数量分别为T₁,T₂,T₃,…,T₁₁，预测兴趣的标签值为1,2,3,…,11且与真实兴趣一致的上网记录的数量分别为A₁,A₂,A₃,…,A₁₁，则对于标签值为i(1≤i≤11)的用户兴趣，其精确率P_i、召回率R_i、F值F1_i分别为：

其中，i＝1,2,3,...,11，n＝1,2,3,...,11。

具体实施时，以上流程可采用计算机软件技术实现自动运行，也可以采用模块化方式提供相应系统。实施例还提供一种基于家庭工作地上下文环境的用户需求获取系统，包括以下模块，

各模块实现可参见相应步骤，本发明不予赘述。

本文中所描述的具体实施例仅是对本发明作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种修改或补充或采用类似的方式替代，例如网站分类、数据降维的方法可由本领域技术人员自行根据具体情况选取，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于家庭工作地上下文环境的用户需求获取方法，其特征在于：包括以下步骤，

步骤3.根据步骤2清洗结果，从用户上网记录中提取保留与用户兴趣相关的属性；

2.根据权利要求1所述基于家庭工作地上下文环境的用户需求获取方法，其特征在于：步骤5中，确定用户家庭位置的方式包括如下子步骤，

步骤5.1.2，初始化列表1为空，列表2为空；

步骤5.1.6，令day_ID＝day_ID+1，且将day更新为当前day的下一天；

3.根据权利要求1所述基于家庭工作地上下文环境的用户需求获取方法，其特征在于：步骤5中，确定用户工作地位置的方式包括如下子步骤，

步骤5.2.2，初始化列表1为空，列表2为空；

步骤5.2.7，令day_ID＝day_ID+1，且将day更新为当前day的下一天；

4.根据权利要求1或2或3所述基于家庭工作地上下文环境的用户需求获取方法，其特征在于：步骤7实现方式包括如下子步骤，

其中，u_j、σ_j分别为第j列特征的均值、标准差；

步骤7.3，解特征方程|λI-R_p×p|＝0，λ为待求的特征值，I为单位向量，求得特征值λ₁≥λ₂≥λ₃≥…≥λ_p≥0，以及特征值λ_d相应的正交化单位特征向量e_d，1≤d≤p，e_df表示e_d的第f个分量，1≤f≤p；

步骤7.4，计算主成分贡献率如下，

其中，d＝1,2,3,...,p，k＝1,2,3,...,p；

l_vw＝(λ_v)^0.5e_vw(1≤v≤s,1≤w≤p)；

其中，v＝1,2,3,...,s，w＝1,2,3,...,p；

5.根据权利要求4所述基于家庭工作地上下文环境的用户需求获取方法，其特征在于：步骤8实现方式包括如下子步骤，

步骤8.2，确定全局参数，包括使用到的树的数量t，每棵树的深度d，树中每个节点使用到的特征数量f；确定节点的终止条件；

步骤8.3，从第i棵树开始训练，并初始化i＝0；

步骤8.4，令i＝i+1；

步骤8.6，从i的j节点开始训练，j初始化为i的根节点；

步骤8.9，从F个特征中无放回地选取随机选取f维特征；

步骤8.11，取p为此时节点j上未被判断过的任一样本；

步骤8.15，将j更新为i上未被训练过的节点，并转至步骤8.8。

6.根据权利要求5所述基于家庭工作地上下文环境的用户需求获取方法，其特征在于：步骤9中，以精确率、召回率和F1-score作为评价指标，进行模型验证与性能评估，包括首先执行以下子步骤，

步骤9.2，从第i棵树开始，初始化i＝0，令list＝空集；

步骤9.3，令i＝i+1；

步骤9.5，将j初始化为i的根节点；

7.根据权利要求6所述基于家庭工作地上下文环境的用户需求获取方法，其特征在于：设测试集中真实兴趣标签值为1,2,…N，对于标签值为i的用户兴趣，其精确率P_i、召回率R_i、F值F1_i分别为：

8.一种基于家庭工作地上下文环境的用户需求获取系统，其特征在于：包括以下模块，