CN110879856B

CN110879856B - 一种基于多特征融合的社交群体分类方法及系统

Info

Publication number: CN110879856B
Application number: CN201911180128.XA
Authority: CN
Inventors: 李扬曦; 佟玲玲; 井雅琪; 曹亚男; 任博雅; 胡燕林; 时磊; 段东圣; 刘权
Original assignee: Institute of Information Engineering of CAS; National Computer Network and Information Security Management Center
Current assignee: Institute of Information Engineering of CAS; National Computer Network and Information Security Management Center
Priority date: 2019-11-27
Filing date: 2019-11-27
Publication date: 2022-08-05
Anticipated expiration: 2039-11-27
Also published as: CN110879856A

Abstract

本发明公开了一种基于多特征融合的社交群体分类方法及系统。本方法为：1)对一目标社交群体的数据集，对该数据集中各用户的轨迹数据进行预处理，去除噪声并对缺失位置信息进行插值；2)使用频繁序列挖掘算法从各用户轨迹数据中挖掘对应用户的轨迹模式，再将用户的轨迹模式看作时序序列，采用LSTM对该时间序列进行编码，得到用户的轨迹编码；3)根据所述社交关系生成一图网络，将所述社交关系投影到低维空间，学习得到各用户的嵌入表示；4)将每一用户的轨迹编码和对应用户的嵌入表示结合输入softmax层，确定各用户的类别，实现对该目标社交群体的分类。本发明大大提升了群体分类的精度。

Description

一种基于多特征融合的社交群体分类方法及系统

技术领域

本发明属于数据挖掘-分类-群体分类技术领域，涉及一种基于多特征融合的社交群体分类方法及系统。

背景技术

分类方法的目的是根据数据集的特点构造一个分类函数或分类模型(也常称作分类器)，该模型能把未知类别的样本映射到给定的类别当中。通常，利用机器学习得到的分类器可以表示为分类规则形式、决策树形式或数学公式形式；利用深度学习得到的分类器则主要利用CNN、RNN等神经网络结构寻找概率最大的标签值。

目前已有的基于社交网络的群体分类方法，大多利用已有的分类模型，以社交的关系和属性等社交网络用户特性作为特征来实现。然而，在上述方法中，用户轨迹、网络行为等同样能够反映社交属性的特征往往被忽略。

虽然上述分类方法在群体分类问题中取得了一定的成绩，但是此类方法需要使用包含特定形式特征值的数据集，这导致用户轨迹、网络行为等不规则特征难以参与进分类过程中，或特征信息有一定的缺失。在群体分类问题中，这类不规则特征对分类结果具有重要的参考价值，对不规则特征的忽略可能导致分类结果的准确性降低。

发明内容

为了缓解上述问题，本发明提出一种基于多特征融合的群体分类方法及系统。该方法引入社交关系和轨迹信息，将上述特征抽样建模，并使用Node2Vec和RNN将其投影到低维空间。基于上述模型生成的特征表示，利用深度学习模型进行分类，从而提升群体分类的精度，为信息推送提供技术支持，即可以根据群体的分类结果进行信息推送，分别为不同的用户推送不同的信息。

以上的技术问题是通过下列技术方案解决的：

一种基于多特征融合的群体分类方法，所述分类过程如下：

步骤1，对给定的数据集进行混洗，划分为训练集、验证集和测试集；同时，对用户轨迹数据进行预处理，去除噪声数据，并对缺失位置信息进行插值。其中，数据集为一个用户群的社交关系及该用户群中各用户的轨迹信息。社交关系包括不同用户之间的一对一连接关系，轨迹信息包括多个时间点的位置点坐标。

步骤2，使用频繁序列挖掘算法和LSTM网络将个体的轨迹模式进行编码。

步骤3，将该用户群的社交关系建模成图网络，利用Node2vec将社交关系投影到低维空间，学习用户的嵌入表示。

步骤4，将轨迹编码和用户的嵌入表示结合，利用softmax对轨迹模式进行分类。

步骤5，将一待分类数据集的各用户轨迹编码和各用户的嵌入表示输入到训练好的分类器中，对该待分类数据集进行分类。

上述群体分类步骤如图1。

所述步骤1中，对数据进行预处理过程如下：

步骤1.1，分析轨迹数据，根据轨迹数据中轨迹点的采样间距，定义合适的时间片，并将轨迹点与时间片一一对应。

步骤1.2，将较短时间内出现频繁远距离波动的轨迹点去除。该步骤可分为以下几个部分：

步骤1.2.1，对于每个时间片，将这个时间片的数据(即轨迹点)按用户的唯一标识符分组；

步骤1.2.2，计算该时间片所有数据的中心位置；

步骤1.2.3，分析时间片的分组结果，如果同一组中含有多于一条位置数据，则计算该组所有位置信息与1.2.2所得中心位置的距离，保留离中心位置最近的一条数据。距离计算公式如下：

其中，

代表点A和点B之间的距离，R代表地球半径，A_lot、A_lot、B_lot、B_lat分别代表点A和点B的经纬度。

步骤1.2.4，对所有保留下来的数据，重新计算其中心位置。每个分组代表一个用户，每个用户在同一时间只有一条位置数据保留。每一组结束步骤1.2.3之后即可更新中心位置。

步骤1.3，对于某一时间片缺失的轨迹点，如果时间片前后相邻时间均存在位置点(即轨迹点)，则根据相邻时间位置点进行插值，插值位置为前后时间片位置点的中心，得到该缺失的轨迹点。

步骤1.4，将数据集中的用户唯一标识进行混洗，并按比例切分成训练集、验证集和测试集。

所述步骤2将个体的轨迹模式进行编码，包含频繁序列挖掘和LSTM编码两个部分。其中，使用频繁序列挖掘算法挖掘个体的轨迹模式，再将用户的轨迹模式看作时序序列，采用LSTM对该序列进行编码。

频繁序列挖掘算法步骤如下：

步骤2.1.1，对预处理之后的轨迹数据进行两层循环遍历，找出所有的频繁项，频繁项即轨迹数据中某一段轨迹片段的出现次数大于设定阈值(此处设为3)，则该轨迹片段称为频繁项。

步骤2.1.2，过滤得到的频繁项：过滤长度小于2的频繁项；对两频繁项重叠部分达80％以上的，过滤较短的频繁项；自身内部循环的频繁项，则只留下最长的部分(类似A-B-C-B-C-B-C的轨迹段，A、B、C均为位置坐标，则保留其中的A-B-C)。

使用LSTM对轨迹模式进行编码的步骤如下：

步骤2.2.1，将每个用户的轨迹模式建模成一个固定长度为T的时序序列。序列的第i个单元代表该用户在第i个时间片的位置信息，每一位置信息可表示为一个二维向量，其每一维分别代表该位置的经度和纬度。

步骤2.2.2，将步骤2.2.1所得时序序列的最早一个时间片设为t₁。

步骤2.2.3，搭建长度为T的LSTM网络，设置隐状态维度为50维。将序列中的向量按时间顺序输入LSTM网络中，每个向量都作为一个LSTM单元的输入。

步骤2.2.4，取最后一个时刻输出的隐状态作为轨迹模式编码。

所述步骤3编码个体间的社交关系，将社交网络的拓扑结构进行降维表示。其具体步骤如下：

步骤3.1，将社交关系建模成图网络，图中的每个节点代表一个个体，每条边代表两个个体间存在的社交关系。其中，边的权值代表个体间社交关系的紧密度。

步骤3.2，采用有偏随机游走获取每个节点的近邻序列。

步骤3.2.1，在图网络中采样得到初始点v₀。

步骤3.2.2，从v₀开始，随机选择其邻居作为序列的下一个节点。在抽样过程中，给定当前顶点v，访问下一个顶点x的概率为

其中，π_vx是顶点v和顶点x之间的未归一化转移概率，E为图网络中边的集合，Z是归一化常数。

步骤3.2.3，重复步骤3.2.2，直到得到长度为L的近邻序列。

步骤3.3，使用步骤3.2得到的顶点近邻序列，用word2vec模型学习顶点的embedding向量，即用户的嵌入表示。

所述步骤4可分为以下步骤：

步骤4.1，将步骤2得到的轨迹模式编码和步骤3得到的用户的嵌入表示拼接，得到一个100维向量。

步骤4.2，将该向量通过一个softmax层，设置softmax层输出维度为2。取概率最大的类别为最终标签。

本发明还提供一种基于多特征融合的社交群体分类系统，其特征在于，包括数据预处理模块、轨迹模式生成模块、轨迹编码模块、嵌入表示学习模块和分类模块；其中，

数据预处理模块，用于对目标社交群体的数据集中各用户的轨迹数据进行预处理，去除噪声并对缺失位置信息进行插值；其中，该数据集包括该目标社交群体的社交关系及该目标社交群体中各用户的轨迹信息；

轨迹模式生成模块，用于使用频繁序列挖掘算法从各用户轨迹数据中挖掘对应用户的轨迹模式；

轨迹编码模块，用于将用户的轨迹模式看作时序序列，采用LSTM对该时间序列进行编码，得到用户的轨迹编码；

嵌入表示学习模块，用于根据所述社交关系生成一图网络，将所述社交关系投影到低维空间，学习得到各用户的嵌入表示；

分类模块，用于将每一用户的轨迹编码和对应用户的嵌入表示结合输入softmax层，确定各用户的类别，实现对该目标社交群体的分类。

与现有技术相比，本发明的积极效果为：

1、提出了基于多特征融合的群体分类方法：将社交数据与轨迹数据相融合，利用个体的轨迹和社交特性扩充特征的维度，使个体分类更能体现用户的社会特性。

2、利用LSTM、Node2Vec等已有算法有效地编码不规则特征，深入挖掘数据中的隐藏信息。

本发明将多种无法直接向量化的不规则特征编码，再输入分类器中进行分类，能解决现有群体分类方法特征单一、不规则特征难以引入的问题，从而提升群体分类的精度。相比于传统的分类器，本发明提取到了更多的特征信息，大大提升了群体分类的精度，为信息推送提供技术支持，即可以根据群体的分类结果进行信息推送，分别为不同的用户推送不同的信息。

附图说明

图1为一种基于多特征融合的群体分类方法。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下参照附图，对本发明作进一步详细说明。

本发明基于一轨迹模式挖掘项目中不同群体的轨迹和社交数据构建数据集，其中包含个体约5000人，轨迹、社交信息均为对应个体的真实数据。

步骤1，数据预处理。

步骤1.1，根据观察，本数据集中，位置点的采样间隔约为1小时。将时间片设为1小时，并将位置点和时间片对应。

步骤1.2，对于同一时间片，假如存在同一用户的多个位置点，则判断这些位置点的地理位置远近程度。当1小时内有两个以上距离较远的位置点时，取更接近中心点的位置；如果与中心点距离相同，则删除该用户在这一时间片的位置信息。

步骤1.3，如果用户在某一时间片内的位置信息缺失，则查看前后两小时内该用户是否存在位置信息。若存在，则取前后两小时位置的中间值作为这一时间片的位置信息。

步骤1.4，按7：2：1的比例将数据切分为训练集、验证集和测试集。

步骤2，挖掘步骤1中得到的数据，得到频繁项，并对频繁项进行编码。

步骤3，编码用户的社交关系。

步骤3.1，将社交网络建模成图网络。对于个体A和个体B，A和B分别被看作图网络中的节点。如果A和B具有通联关系，即A直接与B进行过一对一交流，则在A和B节点之间连接一条边。将不同个体交流的次数和时长划为几个区间，并为边赋不同权值。

步骤3.2和步骤3.3如上文所示。

步骤4，softmax分类。

步骤4.1，将步骤2得到的轨迹模式编码和步骤3得到的社交关系编码拼接并通过softmax层，取概率最大的标签作为最终分类标签。

为了比较本发明(简称MFC)相较于现有模型的优缺点，现采用基础SVM分类模型，以社交关系中的通联次数、轨迹中位置区划出现次数作为特征，记录两个模型对人群进行分类的准确率和召回率。实验结果如表1所示：

表1为模型结果对比

系统	准确率	召回率
			MFC	0.955	0.909
SVM	0.831	0.866

实验结果表明，使用编码后的轨迹模式和社交关系进行分类后，在准确率、召回率上均有一定的提升。

尽管为说明目的公开了本发明的具体内容、实施算法以及附图，其目的在于帮助理解本发明的内容并据以实施，但是本领域的技术人员可以理解：在不脱离本发明及所附的权利要求的精神和范围内，各种替换、变化和修改都是可能的。本发明不应局限于本说明书最佳实施例和附图所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种基于多特征融合的社交群体分类方法，其步骤包括：

1)对一目标社交群体的数据集，对该数据集中各用户的轨迹数据进行预处理，去除噪声并对缺失位置信息进行插值；其中，该数据集包括该目标社交群体的社交关系及该目标社交群体中各用户的轨迹信息；

2)使用频繁序列挖掘算法从各用户轨迹数据中挖掘对应用户的轨迹模式，再将用户的轨迹模式看作时序序列，采用LSTM对该时序序列进行编码，得到用户的轨迹编码；

3)根据所述社交关系生成一图网络，将所述社交关系投影到低维空间，学习得到各用户的嵌入表示；

4)将每一用户的轨迹编码和对应用户的嵌入表示结合输入softmax层，确定各用户的类别，实现对该目标社交群体的分类。

2.如权利要求1所述的方法，其特征在于，对该数据集中的用户轨迹数据进行预处理的方法为：

11)根据轨迹数据中轨迹点的采样间距设置时间片长度，将轨迹点与时间片一一对应；

12)对于每个时间片，将该时间片的数据按用户的唯一标识符分组；然后计算该时间片所有数据的中心位置；

13)根据时间片的分组结果进行数据过滤，如果同一组中含有多于一条位置数据，则计算该组所有位置信息与所述中心位置的距离，保留离所述中心位置最近的一条数据；

14)根据步骤13)过滤后保留的数据更新所述中心位置；

15)对于某一时间片缺失的轨迹点，如果该时间片前后相邻时间均存在轨迹点，则根据相邻时间的轨迹点进行插值，得到该缺失的轨迹点。

3.如权利要求1所述的方法，其特征在于，使用频繁序列挖掘算法挖掘所述轨迹模式的方法为：首先采用频繁序列挖掘算法对预处理之后的用户u的轨迹数据进行两层循环遍历，找出所有的频繁项；其中频繁项是指轨迹数据中出现次数大于设定阈值的轨迹片段；然后过滤得到的频繁项：过滤长度小于设定长度的频繁项，如果两频繁项重叠部分达设定比例以上则过滤掉其中较短的频繁项，如果频繁项存在自身内部循环则只留下内部循环中最长的部分；最后将过滤后得到的频繁项作为该用户u的轨迹模式。

4.如权利要求3所述的方法，其特征在于，得到用户的轨迹编码的方法为：首先将用户u的轨迹模式建模成一个固定长度为T的时序序列；该时序序列的第i个单元代表该用户u在第i个时间片的位置信息，该时序序列的最早一个时间片设为t₁；然后搭建长度为T的LSTM网络，设置隐状态维度为N维，将该时序序列中的向量按时间顺序输入该LSTM网络中；然后取最后一个时刻输出的隐状态作为该用户u的轨迹编码。

5.如权利要求1所述的方法，其特征在于，学习得到各用户的嵌入表示的方法为：

31)将社交关系建模成图网络，图中的每个节点代表一个个体，每条边代表两个个体间存在的社交关系；

32)采用有偏随机游走获取每个顶点的长度为L的近邻序列；

33)根据顶点的近邻接序列，用word2vec模型学习得到顶点的embedding向量作为对应用户的嵌入表示。

6.一种基于多特征融合的社交群体分类系统，其特征在于，包括数据预处理模块、轨迹模式生成模块、轨迹编码模块、嵌入表示学习模块和分类模块；其中，

轨迹编码模块，用于将用户的轨迹模式看作时序序列，采用LSTM对该时序序列进行编码，得到用户的轨迹编码；

7.如权利要求6所述的系统，其特征在于，所述数据预处理模块首先根据轨迹数据中轨迹点的采样间距设置时间片长度，将轨迹点与时间片一一对应；然后对于每个时间片，将该时间片的数据按用户的唯一标识符分组；然后计算该时间片所有数据的中心位置；然后根据时间片的分组结果进行数据过滤，如果同一组中含有多于一条位置数据，则计算该组所有位置信息与所述中心位置的距离，保留离所述中心位置最近的一条数据；然后根据过滤后保留的数据更新所述中心位置；然后对于某一时间片缺失的轨迹点，如果该时间片前后相邻时间均存在轨迹点，则根据相邻时间的轨迹点进行插值，得到该缺失的轨迹点。

8.如权利要求6所述的系统，其特征在于，所述轨迹模式生成模块首先采用频繁序列挖掘算法对预处理之后的用户u的轨迹数据进行两层循环遍历，找出所有的频繁项；其中频繁项是指轨迹数据中出现次数大于设定阈值的轨迹片段；然后过滤得到的频繁项：过滤长度小于设定长度的频繁项，如果两频繁项重叠部分达设定比例以上则过滤掉其中较短的频繁项，如果频繁项存在自身内部循环则只留下内部循环中最长的部分；最后将过滤后得到的频繁项作为该用户u的轨迹模式。

9.如权利要求8所述的系统，其特征在于，所述轨迹编码首先将用户u的轨迹模式建模成一个固定长度为T的时序序列；该时序序列的第i个单元代表该用户u在第i个时间片的位置信息，该时序序列的最早一个时间片设为t₁；然后搭建长度为T的LSTM网络，设置隐状态维度为N维，将该时序序列中的向量按时间顺序输入该LSTM网络中；然后取最后一个时刻输出的隐状态作为该用户u的轨迹编码。

10.如权利要求6所述的系统，其特征在于，所述嵌入表示学习模块首先将社交关系建模成图网络，图中的每个节点代表一个个体，每条边代表两个个体间存在的社交关系；然后采用有偏随机游走获取每个顶点的长度为L的近邻序列；然后根据顶点的近邻接序列，用word2vec模型学习得到顶点的embedding向量作为对应用户的嵌入表示。