CN103812872A

CN103812872A - 一种基于混合狄利克雷过程的网络水军行为检测方法及系统

Info

Publication number: CN103812872A
Application number: CN201410073426.XA
Authority: CN
Inventors: 李丹; 李倩; 牛温佳; 管洋洋; 黄超; 孙卫强; 胡玥; 郭莉
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2014-02-28
Filing date: 2014-02-28
Publication date: 2014-05-21
Anticipated expiration: 2034-02-28
Also published as: CN103812872B

Abstract

本发明涉及一种基于混合狄利克雷过程的网络水军行为检测方法及系统，其方法为，采集包括用户行为特征和内容特征的原始数据，并对每个维度的原始数据进行量化表示构成用户的历史行为向量，构成待聚类用户数据集；对待聚类用户数据集中的历史行为向量进行聚类，得到至少一个分类用户行为集合；将所有分类用户行为集合中的数据进行转换，对转换后的数据中具有相同用户标识的数据合并，得到序列数据库；模式挖掘模块对序列数据库进行序列模式挖掘，得到分别对应每个分类用户行为集合的至少一个事务序列模式；水军判断模块比较每个事务序列模式，就可以判断出哪个分类用户行为集合是水军账号。本发明很容易分辨出哪一类属于水军账号。

Description

一种基于混合狄利克雷过程的网络水军行为检测方法及系统

技术领域

本发明涉及网络安全领域，尤其涉及一种基于混合狄利克雷过程的网络水军行为检测方法及系统。

背景技术

社交网络的流行升温和迅猛发展不仅带来了信息传播技术的根本性变革，而且正一步一步改变着人们的生产和生活方式、人际交往以及思维方式，对社会生活的各个领域和人类自身的生存与发展产生了广泛而深刻的影响。目前，社交网络含盖以人类社交为核心的所有网络服务形式，从历史维度来看，它将是一个推动互联网向现实世界无限靠近的关键力量。

在社交网络迅速发展的同时，它所带来的安全问题也越来越突出，其中以来源于“网络水军”的安全问题最为常见。“网络水军”是受雇于网络公关公司，针对特定主题进行发回帖造势的网络用户，据相关机构调查，我国从事网络营销活动的推手已达数百万人，受雇于商业组织的“网络水军”日趋规模化、公开化、集团利益化。从“7.23”动车事故天价赔偿事件到秦火火事件，从“封杀王老吉营销策划方案”到猫扑的“虐猫女事件”再到“蒙牛陷害门”丑闻，可以说，“网络水军”已经触碰到了法律的底线，甚至有一部分“网络水军”在国外别有用心的机构操纵之下，在国内各大论坛发布攻击信息、造谣言论和挑拨语言，制造矛盾，进行恶意的网络文化渗透，危害国家安全。可见，对“网络水军”进行监管已经刻不容缓。

对网络水军的监管可以通过两种方式：一种是针对每个帖子进行判断，对水军贴进行删帖处理；另一种是针对每个用户行为进行判断，对水军用户封号删帖，甚至追究其法律责任。前一种方式需要对水军贴的特征有客观的、统一的描述，然而中国数亿网民的发帖习惯各不相同，很难找到统一的标准来鉴别水军贴，因此这种方式只用于屏蔽敏感词汇，而对通用水军识别场景不适用。现有的水军识别多采用第二种方式，即通过用户行为判断论坛用户是否水军。

一种普遍的识别方式是对用户行为进行横向比较，从而发现“网络水军”的行为规律，制定识别方案。现有的“网络水军”发现一般采用决策树、KNN、神经网络等算法，这几种算法设计过程中，需要依据历史经验设定关键参数的值，用于体现用户行为的每个方面对判定结果影响程度的不同，这种方式带有很大的主观性，严重影响了算法的判定准确率。

发明内容

本发明所要解决的技术问题是针对现有技术的不足，提供基于混合狄利克雷过程的网络水军行为检测方法及系统。

本发明解决上述技术问题的技术方案如下：一种基于混合狄利克雷过程的网络水军行为检测方法，包括如下步骤：

步骤1：原始数据采集模块采集包括用户行为特征和内容特征的原始数据，并对每个维度的原始数据进行量化表示，量化后的原始数据构成用户的历史行为向量，所有用户的历史行为向量集合在一起构成待聚类用户数据集；

步骤2：聚类模块对待聚类用户数据集中的历史行为向量采用狄利克雷过程混合模型进行聚类，得到至少一个分类用户行为集合；

步骤3：转换合并模块将一个分类用户行为集合中的数据进行转换，对转换后的数据中具有相同用户标识的数据合并，将具有相同用户标识的数据按时间排序，得到事务集序列；

步骤4：判断模块判断是否还有未转换的分类用户行为集合；如果有，执行步骤3；否则，得到一个事务集序列构成的序列数据库；

步骤5：模式挖掘模块对序列数据库进行序列模式挖掘，得到分别对应每个分类用户行为集合的至少一个事务序列模式；

步骤6：水军判断模块比较每个事务序列模式，得到对应分类用户行为集合，通过比较每个分类用户行为集合的用户行为就可以判断出主哪一类是水军账号。

本发明的有益效果是：本发明首先用混合DP模型对没有分类的样本数据集合进行聚类，聚类分析是通过Gibbs采样算法，反复从条件分布中采样并更新模型参数，估计数据的聚类结果。其中，Gibbs采样法属马尔可夫链蒙特卡罗方法(Markov Chain Monte Carlo,MCMC)，是替代精确推理的近似推理方法。和其它MCMC算法一样，Gibbs采样法产生一条马尔可夫链，经过足够次数的采样后，该马尔可夫链可以达到稳态。当经过多次迭代以后，聚类效果比较明显，然后利用序列模式挖掘算法得到每一个类的频繁行为序列，分析这些频繁行为序列得到用户行为，由于“网络水军”的用户行为主要集中在发帖，所以可以很容易分辨出哪一类属于水军账号，这样就可以实现对“网络水军”的识别了。

在上述技术方案的基础上，本发明还可以做如下改进。

进一步，步骤2中的具体包括以下步骤：

步骤2.1：聚类模块接收待聚类用户数据集中的历史行为向量，构造Dirichlet狄利克雷过程混合模型；

步骤2.2：采用Collapsed Gibbs采样算法对Dirichlet狄利克雷过程混合模型中的模型参数进行不断更新，得到数据集的聚类结果；

步骤2.3：判断聚类效果是否明显；如果是，继续执行步骤3；否则，执行步骤2.2。

进一步，所述步骤5具体包括以下步骤：

步骤5.1：扫描序列数据库，根据预设的最小支持阈值min_sup挖掘出频繁项集，并将所述频繁项集映射为简单符号，所述简单符号简单可识别，可以选择字母或连续的数字等来表示；

步骤5.2：将序列数据库中的每个事务集序列转换成所包含的频繁项集的格式，并采用步骤5.1所述的简单符号表示；

步骤5.3：对变换后的序列数据库中的数据选取适合的挖掘算法进行序列模式挖掘得到至少一个事务序列模式；

步骤5.4：对所述事务序列模式优化处理，得到分别对应每个分类用户行为集合的至少一个事务序列模式。

进一步，所述步骤5.3中根据数据的特点和挖掘的要求等选择挖掘算法进行序列模式挖掘。

进一步，所述步骤5.4中对事务序列模式的优化处理包括，删除没有应用价值的事务序列模式，归纳、整理、分类事务序列模式。

本发明解决上述技术问题的技术方案如下：一种基于混合狄利克雷过程的网络水军行为检测系统，包括：原始数据采集模块、聚类模块、转换合并模块、判断模块、模式挖掘模块和水军判断模块；

所述原始数据采集模块采集包括用户行为特征和内容特征的原始数据，并对每个维度的原始数据进行量化表示，量化后的原始数据构成用户的历史行为向量，所有用户的历史行为向量集合在一起构成待聚类用户数据集；

所述聚类模块对待聚类用户数据集中的历史行为向量采用狄利克雷过程混合模型进行聚类，得到至少一个分类用户行为集合；

所述转换合并模块将一个分类用户行为集合中的数据进行转换，对转换后的数据中具有相同用户标识的数据合并，将具有相同用户标识的数据按时间排序，得到事务集序列；

所述判断模块判断是否还有未转换的分类用户行为集合；如果有，返回转换合并模块；否则，得到一个事务集序列构成的序列数据库并将所述序列数据库发送到模式挖掘模块；

所述模式挖掘模块对序列数据库进行序列模式挖掘，得到分别对应每个分类的事务序列模式；

所述水军判断模块比较每个事务序列模式，得到每个分类用户行为集合的用户行为，通过比较每个分类的用户行为就可以判断哪一类是水军账号。

在上述技术方案的基础上，本发明还可以做如下改进。

进一步，所述聚类模块包括模型构造模块和采样聚类模块；

所述模型构造模块接收待聚类用户数据集中的历史行为向量，构造Dirichlet狄利克雷过程混合模型；

所述采样聚类模块采用Collapsed Gibbs采样算法对Dirichlet狄利克雷过程混合模型中的模型参数进行不断更新，得到数据集的聚类结果。

进一步，所述模式挖掘模块包括扫描映射模块、数据转换模块、模式挖掘模块和优化处理模块；

所述扫描映射模块扫描序列数据库，根据预设的最小支持阈值min_sup挖掘出频繁项集，并将所述频繁项集映射为简单符号，所述简单符号简单可识别，可以选择字母或连续的数字等来表示；

所述数据转换模块将序列数据库中的每个事务集序列转换成所包含的频繁项集的格式，并采用上述简单符号表示；

所述模式挖掘模块对变换后的序列数据库中的数据选取适合的挖掘算法进行序列模式挖掘得到至少一个事务序列模式；

所述优化处理模块对所述事务序列模式优化处理，得到分别对应每个分类用户行为集合的至少一个事务序列模式。

进一步，所述模式挖掘模块中根据数据的特点和挖掘的要求等选择挖掘算法进行序列模式挖掘。

进一步，所述优化处理模块中对事务序列模式的优化处理包括，删除没有应用价值的事务序列模式，归纳、整理、分类事务序列模式。

本发明针对现有算法的不足，结合狄利克雷过程混合模型（DPMM）和序列模式挖掘算法对“网络水军”进行识别。DP是一种非参数贝叶斯模型，用于建立混合模型时的类别数目无需人工指定，根据观测数据自动优化模型的结构，使模型的分布参数随着观测数据进行调整。而序列模式挖掘方法可以提取用户行为的频繁序列，分析用户行为特征。这方法能够有效地提取出用户访问的序规则，使得分析结果更加准确。本专利首先建立用户历史行为向量表征用户历史行为，然后通过建立Dirichlet过程无限混合模型对数据开展聚类分析，得出模型中各参数的后验分布，利用Gibbs采样法估计出模型中各参数及数据中潜在的聚类数，最后利用序列模式挖掘算法分析每一类的用户行为，由于“网络水军”在社交网络上的行为主要是发帖，这样就可以很容易识别出哪一类属于“网络水军”，即实现了“网络水军”的识别。

附图说明

图1为本发明所述一种基于行为特征与内容特征融合的水军识别方法流程图；

图2为本发明所述步骤7的具体实现流程图；

图3为本发明所述一种基于行为特征与内容特征融合的水军识别系统结构框图；

图4为Dirichlet狄利克雷过程混合模型示意图；

图5为聚类个数K的直方图。

附图中，各标号所代表的部件列表如下：

1、原始数据采集模块，2、聚类模块，3、转换合并模块，4、判断模块，5、模式挖掘模块，6、水军判断模块，21、模型构造模块，22、采样聚类模块，51、扫描映射模块，52、数据转换模块，53、模式挖掘模块，54、优化处理模块。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

如图1所示，一种基于行为特征与内容特征融合的水军识别方法，包括如下步骤：

一种基于混合狄利克雷过程的网络水军行为检测方法，包括如下步骤：

步骤2：聚类模块接收待聚类用户数据集中的历史行为向量，构造Dirichlet狄利克雷过程混合模型；

步骤3：采用Collapsed Gibbs采样算法对Dirichlet狄利克雷过程混合模型中的模型参数进行不断更新，得到数据集的聚类结果；

步骤4：判断聚类效果是否明显；如果是，继续执行步骤5；否则，执行步骤3；

步骤5：转换合并模块将一个分类用户行为集合中的数据进行转换，对转换后的数据中具有相同用户标识的数据合并，将具有相同用户标识的数据按时间排序，得到事务集序列；

步骤6：判断模块判断是否还有未转换的分类用户行为集合；如果有，执行步骤5；否则，得到一个事务集序列构成的序列数据库；

步骤7：模式挖掘模块对序列数据库进行序列模式挖掘，得到分别对应每个分类的至少一个事务序列模式；

步骤8：水军判断模块比较每个事务序列模式，得到对应分类用户行为集合，通过比较每个分类用户行为集合的用户行为就可以判断出哪一类是水军账号。

如图2所示，所述步骤7具体包括以下步骤：

步骤7.1：扫描序列数据库，根据预设的最小支持阈值min_sup挖掘出频繁项集，并将所述频繁项集映射为简单符号，所述简单符号简单可识别，可以选择字母或连续的数字等来表示；

步骤7.2：将序列数据库中的每个事务集序列转换成所包含的频繁项集的格式，并采用步骤7.1所述的简单符号表示；

步骤7.3：对变换后的序列数据库中的数据选取适合的挖掘算法进行序列模式挖掘得到至少一个事务序列模式；

步骤7.4：对所述事务序列模式优化处理，得到分别对应每个分类用户行为集合的一系列事务序列模式。

所述步骤7.3中根据数据的特点和挖掘的要求等选择挖掘算法进行序列模式挖掘。

所述步骤7.4中对事务序列模式的优化处理包括，删除没有应用价值的事务序列模式，归纳、整理、分类事务序列模式。

如图3所示，一种基于混合狄利克雷过程的网络水军行为检测系统，包括：原始数据采集模块1、聚类模块2、转换合并模块3、判断模块4、模式挖掘模块5和水军判断模块6；

所述原始数据采集模块1采集包括用户行为特征和内容特征的原始数据，并对每个维度的原始数据进行量化表示构成用户的历史行为向量，所有用户的历史行为向量集合在一起构成待聚类用户数据集；

所述聚类模块2对待聚类用户数据集中的历史行为向量采用狄利克雷过程混合模型进行聚类，得到至少一个分类用户行为集合；

所述转换合并模块3将一个分类用户行为集合中的数据进行转换，对转换后的数据中具有相同用户标识的数据合并，将具有相同用户标识的数据按时间排序，得到事务集序列；

所述判断模块4判断是否还有未转换的分类用户行为集合；如果有，返回转换合并模块3；否则，得到一个事务集序列构成的序列数据库并将所述序列数据库发送到模式挖掘模块5；

所述模式挖掘模块5对序列数据库进行序列模式挖掘，得到分别对应每个分类用户行为集合的至少一个事务序列模式；

所述水军判断模块6比较每个事务序列模式，得到每个分类用户行为集合的主要用户行为，通过比较每个分类的用户行为就可以判断出哪一类是水军账号。

所述聚类模块2包括模型构造模块21和采样聚类模块22；

所述模型构造模块21接收待聚类用户数据集中的历史行为向量，构造Dirichlet狄利克雷过程混合模型；

所述采样聚类模块22采用Collapsed Gibbs采样算法对Dirichlet狄利克雷过程混合模型中的模型参数进行不断更新，得到数据集的聚类结果。

所述模式挖掘模块5包括扫描映射模块51、数据转换模块52、模式挖掘模块53和优化处理模块54；

所述扫描映射模块51扫描序列数据库，根据预设的最小支持阈值min_sup挖掘出频繁项集，并将所述频繁项集映射为简单符号，所述简单符号简单可识别，可以选择字母或连续的数字等来表示；

所述数据转换模块52将序列数据库中的每个事务集序列转换成所包含的频繁项集的格式，并采用上述简单符号表示；

所述模式挖掘模块53对变换后的序列数据库中的数据选取适合的挖掘算法进行序列模式挖掘得到至少一个事务序列模式；

所述优化处理模块54对所述事务序列模式优化处理，得到分别对应每个分类用户行为集合的至少一个事务序列模式。

所述模式挖掘模块53中根据数据的特点和挖掘的要求等选择挖掘算法进行序列模式挖掘。

所述优化处理模块54中对事务序列模式的优化处理包括，删除没有应用价值的事务序列模式，归纳、整理、分类事务序列模式。

1.水军账号特征向量表示框架

在网络论坛中，一个用户包含有很多方面的信息，比如用户名、密码、注册时间、登录次数、最近登录时间、浏览历史记录、发帖记录、回帖记录、朋友圈、浏览历史记录、收藏帖子记录、登录IP记录等等。而正常网民和水军在一些信息维度上是有明显差异的，比如，正常网民的用户名一般是有特定含义的，所以用户名长度一般在4-12个英文字符之间，而水军为了操作简单，经常会使用一个或两个英文字符的用户名；正常网民在论坛所构建的环境中会有相应的朋友圈，构成一个小型的社交网络，而网络水军只以发帖为目的，几乎不会存在社交圈。

根据上述研究，本专利提出网络论坛用户历史行为多属性描述框架，用向量对用户历史行为进行描述，从而为用户历史行为量化表示及狄利克雷过程混合模型聚类分析奠定基础。网络论坛用户历史行为多属性描述框架如表1所示。

属性名	说明	详情
			PostRate	发帖数	发帖数/总贴数
SurfingFrequency	浏览帖子时间	浏览帖子时间/在线时长
			FansNumber	粉丝数	粉丝数
ConsiderNumber	关注数	关注数

表1网络论坛用户历史行为多属性描述框架

对狄利克雷过程需要数字化的数据集合，因此本专利依照上述网络论坛用户历史行为多属性描述框架，对用户的历史行为进行量化表示。例如，某用户A的历史行为向量则为[20篇/20篇，6小时/89小时，20个，3个]。

2.基于狄利克雷混合过程的水军账号识别方法

1)狄利克雷过程混合模型

Dirichlet过程基于Dirichlet分布生成，作为分布上的分布，是Dirichlet分布在连续空间上的扩展。通常，Dirichlet过程表示为

G～DP(α,G₀) （1）

式中：G₀是基分布；α（α＞0）是集中度参数，表示G逼近G₀的程度；Ｇ表示基于Ｄirichlet过程在基分布和集中度参数基础上产生的某随机分布，α越大，越接近G₀。假设η₁,...,η_n是服从分布G的独立同分布的随机观测变量，

是其观测到的K个不同取值，那么新的随机观测变量η_n+1的预测条件分布具有以下形式：

p (η_{n + 1} = η^{*} | η_{1}, . . ., η_{n}, α_{0}, H_{0}) = \frac{1}{n + α_{0}} Σ_{k = 1}^{K} N_{k} δ (η^{*}, η_{k}^{*}) + \frac{α_{0}}{n + α_{0}} H_{0} (η^{*}) - - - (2)

其中，N_k是指序列η₁,...,η_n中其值等于

的个数。

从（2）式可以看出Dirichlet过程表现了良好的聚类性质，其将具有相同值的数据聚为一类，但是如果两组数据不相等，不管它们是多么具有相似性，利用Dirichlet过程均无法实现聚类，这大大限制了其应用。为此，人们引入Dirichlet过程混合模型。

用X＝{x₁,..,,x_N}表示待聚类的数据集合，Ｎ表示数据中包含的样本个数，x_i＝{x_i1,x_i2,...,x_iG}表示第ｉ个样本，x_ig表示第ｉ个样本的第g个特征值，各样本间相互独立。基于有限模型的聚类算法认为，Ｘ由Ｋ个成分正态模型混合而成（Ｋ已知）。为求解Ｋ，定义一隐变量s＝{s₁,...,s_N}，s_i∈{1,2,...,K}表示样本的聚类标签，s_i＝k表示第i个样本经过聚类分析后属于第ｋ类。用ｐ(·)表示模型中各成分的分布，各自遵照不同的分布参数θ_k，μ_k表示第ｋ个成分模型的均值，表示方差。π_k作为聚类的后验估计，表示模型中第ｋ个成分的混合系数，并满足π_k≥0，ｋ＝｛1，2，…，,Ｋ｝并且

假设Θ＝{π₁,π_,2,...,π_k;θ₁,θ₂,...,θ_K}，则Θ即表示了该有限混合模型中的未知参数，，从而可以建立如式（3）所示的有限正态混合模型。

p (x_{i} | Θ) = Σ_{k = 1}^{k} π_{k} p (x_{i} | θ_{k}), p (x_{i} | θ_{k}) = N (x_{i}; μ_{k}, σ_{k}^{2}) - - - (3)

而若假设Θ＝{π₁,π_,2,...,π_k;θ₁,θ₂,...,θ_K}，则Θ表示的是无限混合模型中的各未知参数，由于模型中的聚类数k未知，无限混合模型假设其趋近无穷大。基于高维数据，本文建立Dirichlet无限正态混合模型如式（4）所示。

x_{i} ~ p (x_{i} | θ_{s_{i}}) (i = 1,2, . . ., N), θ_{i} ~ G, G ~ DP (α, G_{0}) - - - (4)

Dirichlet过程混合模型的有向图模型表示如图4所示，在本文所有的有向图中，空心圆表示变量，阴影圆表示可观测量，圆角矩形表示参数或者基本分布，而矩形框表示迭代循环，矩形框右下角的数字表示循环的次数。

利用Dirichlet过程混合模型能够实现数据聚类和分布参数估计，在Dirichlet过程混合模型中，目前实现数据的聚类分析有两种途径：一种是近年来发展的，利用变分推断近似计算数据的概率分布，从而实现聚类分析或分布参数估计；另外一种方式是通过Gibbs采样算法，循环采样估计数据的聚类结果。

目前在利用Dirichlet过程作为先验分布的非参数贝叶斯模型中，主要是利用Gibbs采样算法，这种方式比变分推断可行性强，一般不需要作近似处理，仅仅需要对一系列条件概率分布进行循环采样。变分推断计算速度快，但是得到有效变分推断算法比较困难。因此。本专利主要以Gibbs采样算法为实现方式。

2)狄利克雷过程混合模型的采样

数据集合服从Dirichlet过程混合模型为X＝{x₁,...,x_N}，由于观测数据是可交换的，即条件独立的，在对观测数据进行聚类分析时，不考虑观测数据的出现顺序。实现聚类分析的目的是得到每个数据的聚类标签s_i约定：当文中的某一变量的上角标或下角标有符号“\”时，比如S_\i表示对应的变量集中移出下角标对应的变量，即S_\i是将s_i从s＝{s₁,...,s_N}中移出后由剩余的数据组成的数据集。在给定其他数据的指示因子S_\i的情况下,根据贝叶斯公式知关于s_i的条件分布为

p(s_i|x₁,...,x_N,S_\i,λ,α₀)∝p(s_i|S_\i,α₀)p(x_i|s₁,...,s_N,X_\i,λ) （5）

式(8)中，等号右边第1项可以用Dirichlet过程中的CRP表示，由于各个观测量之间是可交换的，可以把第i个观测数据视为最后一个观测量，如果S_\i已有K个类别，每一类中观测数据的个数为

，第一项为

z_{i} | Z_{\ i}, α ~ Σ_{k}^{K} \frac{N_{k}^{\ i}}{N - 1 + α} δ (z_{i}, k) + \frac{α}{N - 1 + α} δ (z_{i}, \overset{&OverBar;}{k})

若第i个观测数据的指示因子为s_i=k，则有

\begin{matrix} p (x_{i} | s_{i} = k, X_{\ i}, λ) = p (x_{i} | {x_{i} | s_{j} = k, j &NotEqual; i}, λ) = \\ \frac{{&Integral;}_{Θ} f (x_{i} | θ) \underset{s_{j} = k, j &NotEqual; i}{Π} f (x_{j} | θ) g (θ | γ) dθ}{{&Integral;}_{Θ} \underset{s_{j = k}, j &NotEqual; i}{Π} f (x_{j} | θ) g (θ | λ) dθ} \end{matrix} - - - (6)

若为一新类别，则有

p (x_{i} | s_{i} = \overset{&OverBar;}{k}, X_{\ i}, λ) = p (x_{i} | λ) = {&Integral;}_{Θ} p (x_{i} | θ) g (θ | λ) dθ - - - (7)

因此，

\begin{matrix} p (s_{i} | x_{i}, . . ., x_{N}, S_{\ i}, λ, α) &Proportional; Σ_{k}^{K} \frac{N_{k}^{\ i}}{N - 1 + α} \times \\ p (x_{i} | {x_{j} | s_{j} = k, j &NotEqual; i}, λ) δ (s_{i}, k) \\ + \frac{α}{N - 1 + α} {&Integral;}_{Θ} p (x_{i} | θ) g (θ | λ) dθδ (s_{i}, \overset{&OverBar;}{k}) \end{matrix} - - - (8)

结合式（6）～（8），可以得到Dirichlet过程混合模型的Gibbs采样算法。采样算法中，用S^(t)描述第t次循环采样时观测数据的分类结果，K^(t)表示此时的聚类个数，输入第(t-1)时的采样结果S^(t-1)，K^(t-1)，α^(t-1)按照以下过程采样：

1)将N个观测数据随机排序，σ(i)，i=1,…N。

2)令α＝α^(t-1)，S=S^(t-1)，每一个数据i^{∈(σ(1),...,σ(N))}，对s_i进行采样。

a）现有的K个聚类，对每一个聚类计算该观测数据的似然估计f_k(x_i)＝p(x_i|s_i＝k,X_\i,λ)和

f_{\overset{&OverBar;}{k}} (x_{i}) = p (x_{i} | s_{i} = \overset{&OverBar;}{k}, X_{\ i}, λ);

b）对s_i依据以下分布进行采样：

p (s_{i} | x_{1}, . . ., x_{N}, S_{\ i}, λ, α) ~ \frac{1}{S_{i}} (Σ_{k}^{K} N_{k}^{\ i} f_{k} (x_{i}) δ (s_{i}, k) + α f_{\overset{&OverBar;}{k}} (x_{i}) δ (s_{i}, \overset{&OverBar;}{k}))

其中

是第k类内已有的数据量。如果则

则增1。

3)检查各个类内的观测数据量，如果某一类的观测数据总数为0，则将该类移除，同时将聚类总数K减1。

4)若初始时参数采样于α～Γ（a,b），更新参数，采样关系如下：

α^(t)～p(α|K,N,a,b)

上述算法过程就是常用的Collapsed Gibbs采样算法，其将不需要的变量积分掉，只对我们关心的变量进行采样。用CRP来描述上述算法如下：随机选取一位顾客，按照公式(14)关系，为其分配餐桌，如果顾客选择新的餐桌，则为餐厅新增一张桌子，并将桌子个数增1。为所有的顾客分配餐桌后，检查是否有餐桌没有顾客就座，如果有，则将该餐桌先从餐厅中移出，并将就座的桌子总数减1。

假设构造一组包含K=5个成分模型、N=150个样本的模拟水军数据集，模拟数据集是基于一个四维正态混合模型产生。模型中各混合成分的权重π＝{0.18,0.10,0.18，0.25,0.39}，对应的各正态成分模型的均值由正态先验分布随机产生：μ₁={19.7,6.5,5.6,28.6}，μ₂={1.2,7.2,21.6,20.6}，μ₃={7.4,0.2,1.1,1.0}，μ₄={24.9,26.4,14.8,4.6}，μ₅={20.4,9.2,9.2,1.1}，对应的各成分正态混合模型的方差由Inverse Wishart分布随机产生：

σ_{1}^{2} = {3.5,7.9,4.7,3.4}, σ_{2}^{2} = {6.4,4.8,4.7,1.7}, σ_{3}^{2} = {2.8,3.4,3.7,7.4},

σ_{4}^{2} = {9.0,6.1,4.8,2.1}, σ_{5}^{2} = {9.0,4.3,5.9,6.1} .

建立Dirichlet过程无限混合模型对该模拟数据展开聚类分析经过200次Collapsed Gibbs采样估计出模型中的参数。通过Collapsed Gibbs采样不断更新参数α，最终可以看到对上述模拟数据通过Dirichlet过程无限混合模型聚类分析估计出数据中潜在的聚类数为5完全符合产生该模拟数据集的模型参数，聚类直方图如图5所示。

实验结果表明，DPMM用于聚类分析时，无需预先指定类别数，而是根据观测数据自动计算目前所需的类别数，并以概率方式允许将来的新数据出现时产生新的类别。由此可知，狄利克雷过程混合模型的聚类算法具有很好的聚类效果，具有较强灵活性和鲁棒性。

3)利用序列模式挖掘算法判断水军账号

通过狄利克雷过程混合模型我们能够得到很好的聚类结果，但是我们不能分辨出哪一个类是属于水军账号，所以我们应该找出一种有效的分辨方法去识别水军账号。本专利中我们应用序列模式挖掘算法找到每一个类最频繁事务序列，从每一个序列中用户的行为去判别水军账号。

1.序列模式挖掘模块流程

序列模式挖掘是在给定一个序列数据库以及最小支持度min_sup的条件下，找出所有满足最小支持度的序列。每个这样的序列称为一个序列模式。其中，支持度是指序列数据库DT中包含序列S的数量占总数量的比重。

序列模式挖掘模块流程如下所示：

Step1以用户标识及行为发生时间为关键字进行排序，将用户行为事务集数据转换为序列数据库D。

Step2扫描D，然后根据指定的最小支持度阈值min_sup挖掘出频繁项集，并映射为一些简单可识别的符号(比如选择字母或连续的数字来表示)。

Step3将D中的每个序列转换成它所包含的频繁项集的格式，并用映射符号表示。

过程：

If(D中序列中包含给定频繁集)Then

转换序列

Else频繁项集序列符号化

EndIf

Step4对经过变换处理后的数据采用适合的挖掘算法进行序列模式挖掘。在挑选挖掘算法时要根据数据的特点、挖掘的要求等选择。

Step5模式优化

过程：模式优化主要是对经过序列模式挖掘后产生的一系列序列模式的处理，删除没有应用价值的序列模式，归纳、整理、分类序列模式。经过优化，最终保留下来的就是所求的序列模式。

2.社交网络用户行为序列模式描述

把社交网络中的聚类得到的最终类别记为I_k（1<=k<=K），每类用户的行为集合记为I_k＝{i₁,i₂,...,i_n}，I中的项目i_j(1<=j<=n)是社交网络用户使用的各种功能应用。设X为用户行为事务，记为<ID,U_ID,s,time>，其中ID为事务标识编号，U_ID为用户标识编号，s为某个时间用户使用的社交应用的集合，称为事务集；time是事务发生时间(可以是某个时刻、某天、某周等)。序列S=＜s₁,s₂,...,s_n＞为用户使用社交应用事务集序列，S中的所有事务具有相同的用户标识编号U_ID，并且事务按时间顺序排列。通过对用户浏览行为的事务数据进行转换，把用户标识相同的记录合并，将具有相同用户标识的浏览行为事务按时间排序，得到事务集序列，进而得到一个序列数据库。在这个序列数据库上实现序列模式挖掘。社交网络用户行为序列模式挖掘的任务，就是从用户使用的社交应用事务序列中，找出用户最感兴趣的频繁事务序列模式。

3.序列模式挖掘算法

选择GSP算法完成挖掘过程，该算法的核心思想是：基于频繁项集的所有非空子集都是频繁的性质，通过逐层搜索、生成并检测候选集的方法进行序列模式挖掘。GSP算法的主要过程如下：

输入：根据频繁项集转换后序列数据库，最小支持度min_sup。

输出：序列模式的集合

1 L₁={large1-sequences};

2 For(k=2;L_k≠1;k++)DO BEGIN

3 C_k=GSPgenerate(L_K-1);

4 For each sequences in the database DT DO

5 Increment the count of all candidates in Ck that are containedin s;

6 End For

7 L_K=Candidates i n Ck with minimum support;

8 End For;

9 Return∪_kL_k;

指定最小支持度阈值min_sup，扫描序列数据库,得到频繁项集并将其映射。利用以上算法，得到每个类别的满足条件的序列模式。通过分析每个类别的序列模式，会发现有的类别喜欢听歌、上传照片，有的类别喜欢与别人互动，而只有其中一个类别只专注于发帖，发帖时间集中在一段时间，去观察这个类别的发帖内容，你会发现内容都是关于某一个话题的。通过比较每个类别序列模式，得到每个类别的用户行为，我们就可以判断出哪一个类别是水军账号。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于混合狄利克雷过程的网络水军行为检测方法，其特征在于，包括如下步骤：

步骤4：判断模块判断是否还有未转换的数据；如果有，执行步骤3；否则，得到一个事务集序列构成的序列数据库；

步骤6：水军判断模块比较每个事务序列模式，得到对应分类用户行为集合，通过比较每个分类用户行为集合的用户行为就可以判断出哪一类是水军账号。

2.根据权利要求1所述的一种基于混合狄利克雷过程的网络水军行为检测方法，其特征在于，步骤2中的具体包括以下步骤：

步骤2.1：聚类模块接收待聚类用户的历史行为向量数据集，并构造Dirichlet狄利克雷过程混合模型；

3.根据权利要求1或2所述的一种基于混合狄利克雷过程的网络水军行为检测方法，其特征在于，所述步骤5具体包括以下步骤：

步骤5.1：扫描序列数据库，根据预设的最小支持阈值min_sup挖掘出频繁项集，并将所述频繁项集映射为简单符号；

步骤5.3：对变换后的序列数据库中的数据选取适合的挖掘算法进行序列模式挖掘得到每个分类的一系列事务序列模式；

4.根据权利要求3所述的一种基于混合狄利克雷过程的网络水军行为检测方法，其特征在于，所述步骤5.3中根据数据的特点和挖掘的要求选择挖掘算法进行序列模式挖掘。

5.根据权利要求3所述的一种基于混合狄利克雷过程的网络水军行为检测方法，其特征在于，所述步骤5.4中对事务序列模式的优化处理包括，删除没有应用价值的事务序列模式，归纳、整理、分类事务序列模式。

6.一种基于混合狄利克雷过程的网络水军行为检测系统，其特征在于，包括：原始数据采集模块、聚类模块、转换合并模块、判断模块、模式挖掘模块和水军判断模块；

所述转换合并模块将一个分类用户行为集合中的数据进行转换，对转换后的数据中具有相同用户标识的数据合并，将具有相同用户标识的数据按时间排序，得到事务集序列；所述判断模块判断是否还有未转换的分类用户行为集合；如果有，返回转换合并模块；否则，得到一个事务集序列构成的序列数据库并将所述序列数据库发送到模式挖掘模块；

所述模式挖掘模块对序列数据库进行序列模式挖掘，得到分别对应每个分类用户行为集合的至少一个事务序列模式；

所述水军判断模块比较每个事务序列模式，得到每个分类用户行为集合的用户行为，通过比较每个分类的用户行为就可以判断出哪个类别是水军账号。

7.根据权利要求6所述的一种基于混合狄利克雷过程的网络水军行为检测系统，其特征在于，所述聚类模块包括模型构造模块和采样聚类模块；

8.根据权利要求6或7所述的一种基于混合狄利克雷过程的网络水军行为检测系统，其特征在于，所述模式挖掘模块包括扫描映射模块、数据转换模块、模式挖掘模块和优化处理模块；

所述扫描映射模块扫描序列数据库，根据预设的最小支持阈值min_sup挖掘出频繁项集，并将所述频繁项集映射为简单符号；

9.根据权利要求8所述的一种基于混合狄利克雷过程的网络水军行为检测系统，其特征在于，所述模式挖掘模块中根据数据的特点和挖掘的要求选择挖掘算法进行序列模式挖掘。

10.根据权利要求8所述的一种基于混合狄利克雷过程的网络水军行为检测系统，其特征在于，所述优化处理模块中对事务序列模式的优化处理包括，删除没有应用价值的事务序列模式，归纳、整理、分类事务序列模式。