CN103745002B - 一种基于行为特征与内容特征融合的水军识别方法及系统 - Google Patents
一种基于行为特征与内容特征融合的水军识别方法及系统 Download PDFInfo
- Publication number
- CN103745002B CN103745002B CN201410035139.XA CN201410035139A CN103745002B CN 103745002 B CN103745002 B CN 103745002B CN 201410035139 A CN201410035139 A CN 201410035139A CN 103745002 B CN103745002 B CN 103745002B
- Authority
- CN
- China
- Prior art keywords
- behavior
- dimension
- content characteristic
- feature
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Complex Calculations (AREA)
Abstract
本发明涉及一种基于行为特征与内容特征融合的水军识别方法及系统,其方法为,采集包括用户行为特征和内容特征的原始数据;利用马尔可夫链蒙特卡罗随机模型进行行为特征维度和内容特征维度的融合,组成用户特征向量;利用用户特征向量进行DBN模型训练,得到DBN模型;对DBN模型进行检测,判断检测结果是否达到预定标准,如果是则结束;否则根据检测结果生成相应的调节命令,分别调节特征融合阶段和DBN模型训练阶段的相关参数;在DBN训练过程中根据识别准确率不断优化行为特征与内容特征的比例分配,具体特征的选取,以及对DBN模型训练过程中迭代次数的调整,达到较优的训练效果,最终提高识别准确率和识别方法的自适应性。
Description
技术领域
本发明涉及网络安全领域,尤其涉及一种基于行为特征与内容特征融合的水军识别方法及系统。
背景技术
网络空间(Cyber Space)已成为继陆、海、空、天四维空间之外的人类活动第五维空间,网络空间的安全会直接影响国家安全和社会发展。近年来,网络安全形势日益严峻,其中很大一部分威胁来源于随时随地影响网络社会秩序的“网络水军”(Hidden PaidPosters/Internet Water Army)。-“网络水军”泛指为牟利而在网络上发布倾向性评论的专职或兼职团体,他们通过绑架舆论和干扰民意以达到某种商业或其他目的,从蒙牛陷害门,陆川电影《王的盛宴》影评事件,到秦火火造谣事件,都折射出“网络水军”的恶劣影响。政府从法律制定和执法力度层面都加大了对网络水军的打击力度,IT业界和学术界也对网络水军的识别技术进行了深入的研究。
现有的水军识别多采用机器学习的方法,分析已知分类用户的Profile信息、历史行为、发帖内容等,从中训练出水军用户的识别模型,进而对未知用户信息进行分类,判定哪些用户最可能是“网络水军”。当前常用于分类问题的机器学习算法包括贝叶斯网络、支持向量机(SVM)、KNN、神经网络等。本专利属于基于神经网络DBN(Deep Belief Network,深度信任网络)的水军识别方法。
然而在DBN训练过程中,主要面临两个方面的问题:第一,水军特征主要分为行为特征和内容特征,而且每类特征的选择并没有统一的准则。一般认为,综合考虑行为特征和内容特征的训练模型,应该对水军的刻画有着更好的效果。但如何进行融合,具体选择那些行为特征和选择那些内容特征加入到训练模型,目前缺乏有效的选择准则和融合方法。第二,DBN模型训练前需要确定输入特征的维度,且训练过程中不能改变具体选取的特征。然而,随着水军的变化,特征也是变化的,因此人工指定特征维度进行学习,是无法有效刻画特征变化和实现识别方法的动态适配。因此,如何摒弃人工特征的选择,用不断反馈调节的方式在特征选择上进行调节和优化,决定使用哪些维度,而放弃哪些维度,需要研究有效地非人工选择的自动特征融合选取。
发明内容
本发明所要解决的技术问题是针对现有技术的不足,提供一种基于行为特征和内容特征融合的水军识别方法及系统。
本发明解决上述技术问题的技术方案如下:一种基于行为特征与内容特征融合的水军识别方法,包括如下步骤:
步骤1:原始数据采集模块采集包括用户行为特征和内容特征的原始数据,并对每个维度的原始数据进行量化表示;
步骤2:特征融合模块利用马尔可夫链蒙特卡罗随机模型进行用户行为特征维度和内容特征维度的融合,组成用户特征向量;
步骤3:DBN模型训练模块利用用户特征向量进行DBN模型训练,得到DBN模型;
步骤4:协同反馈模块对DBN模型进行检测,判断检测结果是否达到预定标准,如果是则执行步骤6;否则根据检测结果生成相应的调节命令,分别发送给特征融合模块和DBN模型训练模块;
步骤5:特征融合模块和DBN模型训练模块根据调节命令调节自身相关参数,进一步进行特征融合的DBN模型训练,返回步骤4;
步骤6:结束执行过程。
本发明的有益效果是:本发明利用了马尔可夫链蒙特卡罗随机模型作为用户特征维度的随机选择模型,并引入反馈调节机制,在DBN训练过程中根据识别准确率不断优化行为特征与内容特征的比例分配,具体行为特征和内容特征的选取,以及对DBN模型训练过程中迭代次数的调整,达到较优的训练效果,最终提高识别准确率和识别方法的自适应性。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,步骤2中的具体实现为:
步骤2.1:设定用户特征总维度为K;
步骤2.2:根据用户特征总维度数K,利用直接抽样法确定用户特征总维度中行为特征维度与内容特征维度的融合比例;
步骤2.3:根据行为特征维度与内容特征维度的融合比例,利用MCMC的Gibbs采样模拟联合正态分布的采样过程,分别确定具体选取的行为特征和内容特征,组成用户特征向量。
进一步,步骤3的具体实现为:
步骤3.1:DBN模型训练模块根据用户特征向量利用逐层无监督贪婪学习法进行DBN模型的预训练;
步骤3.2:按照BP神经网络的训练方式进行DBN模型的误差反向传播训练,经过预定迭代次数L的模型训练后,得到DBN模型。
进一步,步骤4的具体实现为:
步骤4.1:协同反馈模块检测DBN模型是否收敛,如果是则执行步骤4.2;否则执行步骤4.3;
步骤4.2:检测DBN模型是否达到预定的识别准确率阈值,如果是则执行步骤4.4;否则执行步骤4.3;
步骤4.3:向特征融合模块发送调节行为特征维度和内容特征维度的融合情况的命令,向DBN模型训练模块发送增加模型训练的迭代次数阈值的命令;
步骤4.4:结束执行过程。
进一步,步骤2.2的具体实现为:
步骤2.2.1:生成一个[0,1]之间的随机数作为参数p,参数p代表行为特征维度在用户特征总维度中所占比例;
步骤2.2.2:初始化用于记录迭代次数的计数器的初始值k=0;
步骤2.2.3:生成一个[0,1]之间的随机数q,并与参数p进行比较,
当q<p时,选取一个内容特征维度,内容特征维度数加1,
当q>p时,选取一个行为特征维度,行为特征维度数加1;
步骤2.2.4:k值增加1,判断是否k>=K,其中K代表用户特征总维度数,如果是则统计待选入用户特征向量的行为特征和内容特征的个数,分别记录为A和B,结束采样过程;否则返回步骤2.2.3。
进一步,步骤2.3中确定具体选取哪些行为特征的实现过程为:
步骤2.3.1A:设定转移次数阈值为T,初始化转移次数t=0;
步骤2.3.2A:统计采集的原始数据中行为特征的个数,记录为M,生成M个[0,1]之间的随机数作为初始状态x(0)=[x1(0),x2(0),…xi(0)...xM(0)];
步骤2.3.3A:转移次数t每增加1,对每个变量xi(t),i∈{1,2...,M},按以下由联合概率分布得到的条件概率分布公式进行如下计算:
P(xi(t+1)|x1(t+1),x2(t+1),…xi-1(0),xi+1(t)...xM(t))
其中,联合概率分布的均值为X;
步骤2.3.4A:判断是否t<T,如果是则返回步骤2.3.3A,否则得到P(T)=[P(x1(T)),P(x2(T)),…P(xi(T)),...P(xM(T))];
步骤2.3.5A:根据步骤2.2.4中计算的待选入用户特征向量的行为特征个数A,选取前A个对应概率P(xi(T))最大的行为特征作为选入用户特征向量的行为特征。
进一步,步骤2.3中确定具体选取哪些内容特征的实现过程为:
步骤2.3.1B:设定转移次数阈值为T,初始化转移次数t=0;
步骤2.3.2B:统计采集的原始数据中内容特征的个数,记录为N,生成N个[0,1]之间的随机数作为初始状态y(0)=[y1(0),y2(0),…yj(0)...yN(0)];
步骤2.3.3B:转移次数t每增加1,对每个变量,j∈{1,2...,N},按以下条件概率对其采样:
P(yi(t+1)|y1(t+1),y2(t+1),…yj-1(0),yj+1(t)...yN(t))
步骤2.3.4B:判断是否t<T,如果是则返回步骤2.3.3B,否则得到P(T)=[P(y1(T)),P(y2(T)),…P(yj(T)),...P(yN(T))];
步骤2.3.5B:根据步骤2.2.4中计算的待选入用户特征向量的内容特征个数B,选取前B个对应概率P(yj(T))最大的内容特征作为选入用户特征向量的内容特征。
进一步,步骤5的具体实现为:特征融合模块根据调节命令采用固定因变量的方法调节与行为特征维度和内容特征维度比例分配相关的参数P,以及与具体行为特征和内容特征选取相关的联合正态分布的均值X;DBN训练模块根据调节命令增加模型训练的迭代次数阈值L。
本发明解决上述技术问题的技术方案如下:一种基于行为特征与内容特征融合的水军识别方法的系统,包括原始数据采集模块、特征融合模块、DBN模型训练模块和协同反馈模块;
所述原始数据采集模块,其用于采集包括用户行为特征和内容特征的原始数据,并对每个维度的原始数据进行量化表示;
所述特征融合模块,其用于利用马尔可夫链蒙特卡罗随机模型进行用户行为特征维度和内容特征维度的融合,组成用户特征向量,还用于根据调节命令调节自身相关参数,进一步进行特征融合;
所述DBN模型训练模块,其用于利用用户特征向量进行DBN模型训练,还用于根据调节命令调节自身相关参数,进一步进行DBN模型训练;
所述协同反馈模块,其用于对DBN模型进行检测,判断检测结果是否达到预定标准,如果是则结束执行过程;否则根据检测结果生成相应的调节命令,分别发送给特征融合模块和DBN模型训练模块。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,所述特征融合模块包括维度比例分配单元和具体特征选取单元;
所述维度比例分配单元,其用于根据用户特征总维度数K,利用直接抽样法确定用户特征总维度中行为特征维度与内容特征维度的融合比例;
所述具体特征选取单元,其用于根据行为特征维度与内容特征维度的融合比例,利用MCMC的Gibbs采样模拟联合正态分布的采样过程,确定具体选取的行为特征和内容特征,组成用户特征向量。
附图说明
图1为本发明所述一种基于行为特征与内容特征融合的水军识别方法流程图;
图2为本发明所述步骤4的具体实现流程图;
图3为本发明所述步骤2.2的具体实现流程图;
图4为本发明所述步骤2.3的具体实现流程图;
图5为本发明所述一种基于行为特征与内容特征融合的水军识别系统框图;
图6为本发明所述特征融合模块结构示意图。
附图中,各标号所代表的部件列表如下:
1、原始数据采集模块,2、特征融合模块,3、DBN模型训练模块,4协同反馈模块,201、维度比例分配单元,202、具体特征选取单元。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
如图1所示,一种基于行为特征与内容特征融合的水军识别方法,包括如下步骤:
步骤1:原始数据采集模块采集包括用户行为特征和内容特征的原始数据,并对每个维度的原始数据进行量化表示;
步骤2:特征融合模块利用马尔可夫链蒙特卡罗随机模型进行用户行为特征维度和内容特征维度的融合,组成用户特征向量;
步骤3:DBN模型训练模块利用用户特征向量进行DBN模型训练,得到DBN模型;
步骤4:协同反馈模块对DBN模型进行检测,判断检测结果是否达到预定标准,如果是则执行步骤6;否则根据检测结果生成相应的调节命令,分别发送给特征融合模块和DBN模型训练模块;
步骤5:特征融合模块和DBN模型训练模块根据调节命令调节自身相关参数,进一步进行特征融合的DBN模型训练,返回步骤4;
步骤6:结束执行过程。
其中,步骤2中的具体实现为:
步骤2.1:设定用户特征总维度为K;
步骤2.2:根据用户特征总维度数K,利用直接抽样法确定用户特征总维度中行为特征维度与内容特征维度的融合比例;
步骤2.3:根据行为特征维度与内容特征维度的融合比例,利用MCMC的Gibbs采样模拟联合正态分布的采样过程,分别确定具体选取的行为特征和内容特征,组成用户特征向量。
其中,步骤3的具体实现为:
步骤3.1:DBN模型训练模块根据用户特征向量利用逐层无监督贪婪学习法进行DBN模型的预训练;
步骤3.2:按照BP神经网络的训练方式进行DBN模型的误差反向传播训练,经过预定迭代次数L的RBM运算后,得到DBN模型。
如图2所示,步骤4的具体实现为:
步骤4.1:协同反馈模块检测DBN模型是否收敛,如果是则执行步骤4.2;否则执行步骤4.3;
步骤4.2:检测DBN模型是否达到预定的识别准确率阈值,如果是则执行步骤4.4;否则执行步骤4.3;
步骤4.3:向特征融合模块发送调节行为特征维度和内容特征维度的融合情况的命令,向DBN模型训练模块发送增加模型训练的迭代次数的命令;
步骤4.4:结束执行过程。
步骤5的具体实现为:特征融合模块根据调节命令采用固定因变量的方法进行行为特征维度和内容特征维度融合比例的调整,以及具体行为特征和内容特征选取的调整;DBN训练模块根据调节命令增加模型训练的迭代次数。
如图3所示,步骤2.2的具体实现为:
步骤2.2.1:生成一个[0,1]之间的随机数作为参数p,参数p代表行为特征维度在用户特征总维度中所占比例;
步骤2.2.2:初始化用于记录迭代次数的计数器的初始值k=0;
步骤2.2.3:生成一个[0,1]之间的随机数q,并与参数p进行比较,
当q<p时,选取一个内容特征维度,内容特征维度数加1,
当q>p时,选取一个行为特征维度,行为特征维度数加1;
步骤2.2.4:k值增加1,判断是否k>=K,其中K代表用户特征总维度数,如果是则统计待选入用户特征向量的行为特征和内容特征的个数,分别记录为A和B,结束采样过程;否则返回步骤2.2.3。
假设设定的用户特征总维度数K=8,随机生成的参数p=0.4,经过8次上述过程的迭代得到待入选的行为特征的个数A=3,内容特征的个数B=5,则在后续的具体特征选取过程中要选取3个行为特征和5个内容特征。
如图4所示,步骤2.3中确定具体选取哪些行为特征的实现过程为:
步骤2.3.1A:设定转移次数阈值为T,初始化转移次数t=0;
步骤2.3.2A:统计采集的原始数据中行为特征的个数,记录为M,生成M个[0,1]之间的随机数作为初始状态x(0)=[x1(0),x2(0),…xi(0)...xM(0)];
步骤2.3.3A:转移次数t每增加1,对每个变量xi(t),i∈{1,2...,M},按以下由联合概率分布得到的条件概率分布公式进行如下计算:
P(xi(t+1)|x1(t+1),x2(t+1),…xi-1(0),xi+1(t)...xM(t))
其中,联合概率分布的均值为X;
步骤2.3.4A:判断是否t<T,如果是则返回步骤2.3.3A,否则得到P(T)=[P(x1(T)),P(x2(T)),…P(xi(T)),...P(xM(T))];
步骤2.3.5A:根据步骤2.2.4中计算的待选入用户特征向量的行为特征个数A,选取前A个对应概率P(xi(T))最大的行为特征作为选入用户特征向量的行为特征。
步骤2.3中确定具体选取哪些内容特征的实现过程参见上述实现过程。
比如,如果上步中采集的原始数据中行为特征维度共5个,步骤2.2.4中计算出的待加入用户特征向量的行为特征维度为2个,则首先要随机生成[0,1]之间的5个数,本实施例中x0(0)=[0.2,0.3,0.4,0.5,0.6];t=0时,根据Pxi(t+1)=[x1(t+1),x2(t+1),…xi-1(0),xi+1(t)...xM(t)]依次得到Px1(1)、Px2(1)、Px3(1)、Px4(1)、Px5(1),假设计算得到Pxi(1)=[0.5,0.6,0.2,0.8,0.1]。依次循环,直到达到预定转移次数,本实施例中T=50,计算得到Pxi(50),假设计算得到Pxi(50)=[0.6,0.2,0.5,0.8,0.9],则选取对应最大概率的两个行为特征加入用户特征向量。
步骤5的具体实现为:特征融合模块根据调节命令采用固定因变量的方法调节与行为特征维度和内容特征维度比例分配相关的参数P,以及与具体行为特征和内容特征选取相关的联合正态分布的均值X;DBN训练模块根据调节命令增加模型训练的迭代次数阈值L。
其中,对于特征融合模块2内相关参数的调整,本专利利用固定因变量的方法,对行为特征与内容特征比例分配,以及具体特征选取这两个过程进行调节,即,调节过程中,先固定一个变量,比如,固定变量p,调节变量X,找到X的某个值X’使得DBN模型收敛性及判别准确率较好,再固定变量X,调节p,进一步优化DBN模型的性能,直到模型达到设定的判别准确率阈值。
对于DBN训练模块3中相关参数的调整,采用增加模型训练的迭代次数阈值L的方式进行。
如图5所示,一种实现基于行为特征与内容特征融合的水军识别方法的系统,包括原始数据采集模块1、特征融合模块2、DBN模型训练模块3和协同反馈模块4;
所述原始数据采集模块1,其用于采集包括用户行为特征和内容特征的原始数据,并对每个维度的原始数据进行量化表示;
所述特征融合模块2,其用于利用马尔可夫链蒙特卡罗随机模型进行用户行为特征维度和内容特征维度的融合,组成用户特征向量,还用于根据调节命令调节自身相关参数,进一步进行特征融合;
所述DBN模型训练模块3,其用于利用用户特征向量进行DBN模型训练,还用于根据调节命令调节自身相关参数,进一步进行DBN模型训练;
所述协同反馈模块4,其用于对DBN模型进行检测,判断检测结果是否达到预定标准,如果是则结束执行过程;否则根据检测结果生成相应的调节命令,分别发送给特征融合模块和DBN模型训练模块。
如图6所示,所述特征融合模块2包括维度比例分配单元201和具体特征选取单元202;
所述维度比例分配单元201,其用于根据用户特征总维度数K,利用直接抽样法确定用户特征总维度中行为特征维度与内容特征维度的融合比例;
所述具体特征选取单元202,其用于根据行为特征维度与内容特征维度的融合比例,利用MCMC的Gibbs采样模拟联合正态分布的采样过程,确定具体选取的行为特征和内容特征,组成用户特征向量。
下面进一步介绍系统中的各个模块。
1原始数据采集模块
现有的用户描述信息从对象上分为两类:行为特征信息和内容特征信息。前者主要通过建模对主体相关的注册、社交、转发与评论等操作进行刻画,常用的行为特征信息包括用户注册时间、历次登陆时间、用户名、密码、登陆IP、浏览历史记录、发帖历史记录、回帖历史记录、论坛好友记录、粉丝记录、关注用户记录等;后者更强调从发帖内容本身入手,刻画语言特征统计,常用的发贴内容信息包括发帖内容本身、发帖内容中的关键词、发帖内容的自相似性、发帖内容长度等。本专利分别提取用户的行为特征和内容特征信息,并据此提出用户信息多维度描述框架。本实施例中,用户行为特征多维度描述框架框架结构如表1所示,用户内容特征多维度描述框架框架结构如表2所示。
表1
表2
通过用户信息多维度描述框架,可以将用户的行为特征和内容特征信息转化为数字形式,从而实现用户信息的量化表示。
2特征融合模块
所述特征融合模块为基于MCMC(Markov chain Monte Carlo,马尔可夫链蒙特卡罗方法)实现的,该特征融合模块基于马尔可夫链蒙特卡罗随机模型在行为和内容特征中选取适当维度刻画用户信息。
近年来,随着随机化模型的流行,使用蒙特卡罗方法(Monte Carlo Method)辅助机器学习过程的研究越来越多,MCMC就是其中最典型的应用。MCMC的基本思想是利用马尔可夫链对样本集合进行随机采样,即产生指定分布下的样本。算法依据是从系统任意状态(或随机变量的任意取值)出发,模拟马尔可夫过程,不断进行状态转移,根据马尔可夫链的性质,在经过足够的转移次数之后,所处的状态即符合目标分布,这时,该状态就可以作为一个采集到的样本,即产生了指定分布上的采样。
MCMC算法的关键是设计合理的状态转移过程,即合理的采样算法。
Gibbs采样(Gibbs Sampling)是最简单、应用最广泛的MCMC采样方法,它应用在系统具有多个变量,并且对于变量间的条件分布我们能够直接采样的情况下。Gibbs采样中状态转移总是能够实行,具备很快的收敛速度。
本专利中,用MCMC过程Gibbs采样分别对用户行为特征维度和用户内容特征维度进行采样,可确定刻画用户信息的合理的用户特征维度。
具体包括一些维度比例分配和具体特征选取。
1)行为特征维度与内容特征维度比例分配
本专利中用户特征维度由用户行为特征维度和内容特征维度组成,显然的,应该存在一种最佳的分配比例(比如用户特征向量中,行为特征维度所占比例为p,内容特征向量所在比例为1-p,即该比例分配符合基于概率p的伯努利分布),使得基于行为特征向量和内容特征向量构成的用户特征向量能在有限维度内最佳描述用户特性。因此,本专利使用直接抽样法对用户特征维度中行为特征维度与内容特征维度比例分配进行随机采样。
由于该采样应尽量模拟参数为p的伯努利分布,而在训练初始时期,该参数p是未知的,因此本专利先随机生成一个[0,1]之间的数值作为参数p,之后可以根据协同反馈模块中的协同调节机制对该参数进行调整。
直接抽样法是一个常用方法,对连续性和离散型的随机变量均有效。假定用户行为特征维度所占比例服从参数为p的伯努利分布,本装置采用直接抽样法确定用户行为特征维度和内容特征维度比例分配。即确定用户特征向量中行为特征维度和内容特征维度各自包括几个维度。
2)基于MCMC的具体行为特征和内容特征的选取
显然的,众多用户行为特征维度/内容特征维度中,每个维度用户信息对最后识别结果的影响程度不同(比如用户好友数比用户每次登出时间具有更高的判别效力),各维度的影响程度联合分布基本上可假设为呈正态分布,即x-Nn(X,B),其中,B表示联合正态分布的协方差阵,X表示联合正态分布的均值。本专利通过MCMC的Gibbs采样模拟联合正态分布的采样过程,从而选取用户行为特征维度组成用户特征向量,参与后续异常分析。
在正态分布中,只要确定均值X、协方差阵B三个参数,就可以唯一确定一个正态分布,而协方差阵B只是影响正态分布变量取值的离散程度,对分布的整体趋势影响不大。因此,本专利先随机选取X、B两个参数,进而通过MCMC选取用户行为特征维度组成用户特征向量进行后续DBN模型训练,并用DBN模型的识别准确率反馈调节参数X。
本专利使用Gibbs采样算法模拟符合联合正态分布的随机游走,从而完成对用户行为特征各维度的采样过程。对于任一行为特征xi(内容特征yj),我们计算联合正态分布的条件概率,Pxi(t+1)=[x1(t+1),x2(t+1),…xi-1(0),xi+1(t)...xM(t)]。根据试验验证,Gibbs采样的状态转移次数设定为50即可达到对联合正态分布的均衡采样,因此本专利设定Gibbs采样的转移次数为50。
经过上述采样过程,可以得到一组符合指定联合正态分布规律的采样值,该采样值表征了用户行为特征每个维度是否被加入用户特征向量的评价值。参考上步得到的用户行为特征维度占用户特征向量维度比例以及随机采样得到的评价值排序,可以确定选取哪些用户行为特征维度作为用户特征维度。类似于上述行为特征维度选取过程,可以对用户内容特征维度进行同样的选取,从而得到应该加入用户特征维度的用户内容特征维度。至此,就完成了用户特征维度的选取过程,该特征维度是根据Gibbs随机采样方法融合原有用户行为特征维度和内容特征维度得来的。
3基于DNB模型的网络水军识别
DBN(Deep Belief Network,深度信任网络)模型是深度神经网络的一种,是由多层随机变量节点组成的概率生成模型。基本DBN模型由两层RBM(Restricted BoltzmannMachines,受限玻尔兹曼机)和一层BP神经网络(Back Propagation Neural Network)组成,DBN模型的训练过程分为两个阶段:预训练阶段和微调阶段。
预训练阶段采用逐层无监督贪婪学习的方法来训练模型中的两层RBM,预训练之后,就可以将整个网络等价为BP神经网络,可以按照正常BP神经网络的训练方式对该网络进行误差反向传播训练,经过预定迭代次数L的模型训练后,得到DBN模型,这个过程被称作微调。
4基于工作流的协同反馈机制
在模型训练过程中,各个模块参数设置的不同可能会给后续模块的输出带来影响,进而影响最后得到DBN模型的判别准确率。比如,特征向量维度比例分配阶段,如果比例分配不合适,可能造成用户特征向量中,有用维度所占比例过低,会导致RMB训练过程不收敛;具体特征选取阶段,如果联合正态分布参数设置不合适,尤其是联合正态分布的均值X设置不合适,会导致选取的维度对最终判定没有贡献,使得后续RMB训练过程不收敛;RBM训练过程中最大迭代次数L的选择如果过低,会使得RBM网络训练不成熟,进而导致DBN模型陷入局部最优,不能达到预期的判别准确率。
本专利中的多层协同模块根据上述参数之间的关联关系,借鉴了工作流的思想,定义了最终得到DBN模型向特征融合模块和DBN模型训练模块的反馈流程,从而根据DBN模型的收敛性和判别准确率反向调整特征融合模块中的代表行为特征所占比例的参数p和联合正态分布均值X,以及DBN模型训练模块中的在微调阶段的最大迭代次数L,改善最终得到DBN模型的性能。
本专利结合了其中的串联模型、选择模型和循环模型,定义了基于工作流的多层协同机制。根据之前的描述,可以确定工作流中包括的3个串联模型,分别是:用户原始数据采集模块完成数据采集后,进入特征融合模块、特征融合模块完成特征融合后,进入DBN模型训练模块、DBN模型训练模块完成模型训练之后,进入协同反馈模块,协同反馈模块设置2个判断条件,分别是:DBN模型是否收敛、DBN模型是否达到判别准确率阈值。其中,若第一个判断条件成立,则继续判断第二个条件是否成立,若两个判断条件均成立,则流程结束,只要其中一个条件不成立则需要执行的是“增加模型训练迭代次数阈值L、调节用户特征向量维度”。
在上述工作流中,“调节用户特征向量维度”过程包含对“用户行为特征与内容特征维度比例分配”和“用户行为特征与内容特征维度选取”两个过程的调整。其中,对“用户行为特征与内容特征维度比例分配”过程,主要调节的是直接抽样法中的代表行为特征在用户特征向量中所占比例的伯努利分布参数p;“用户行为特征与内容特征维度选取”过程中主要调节的是联合正态分布的均值X。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种基于行为特征与内容特征融合的水军识别方法,其特征在于,包括如下步骤:
步骤1:原始数据采集模块采集包括用户行为特征和内容特征的原始数据,并对每个维度的原始数据进行量化表示;
步骤2:特征融合模块利用马尔可夫链蒙特卡罗随机模型进行用户行为特征维度和内容特征维度的融合,组成用户特征向量;
步骤2中的具体实现为:
步骤2.1:设定用户特征总维度为K;
步骤2.2:根据用户特征总维度数K,利用直接抽样法确定用户特征总维度中行为特征维度与内容特征维度的融合比例;
步骤2.3:根据行为特征维度与内容特征维度的融合比例,利用MCMC的Gibbs采样模拟联合正态分布的采样过程,分别确定具体选取的行为特征和内容特征,组成用户特征向量;
步骤3:DBN模型训练模块利用用户特征向量进行DBN模型训练,得到DBN模型;
步骤4:协同反馈模块对DBN模型进行检测,判断检测结果是否达到预定标准,如果是则执行步骤6;否则根据检测结果生成相应的调节命令,分别发送给特征融合模块和DBN模型训练模块;
步骤5:特征融合模块和DBN模型训练模块根据调节命令调节自身相关参数,进一步进行特征融合的DBN模型训练,返回步骤4;
步骤6:结束执行过程。
2.根据权利要求1所述一种基于行为特征与内容特征融合的水军识别方法,其特征在于,步骤3的具体实现为:
步骤3.1:DBN模型训练模块根据用户特征向量利用逐层无监督贪婪学习法进行DBN模型的预训练;
步骤3.2:按照BP神经网络的训练方式进行DBN模型的误差反向传播训练,经过预定迭代次数L的模型训练后,得到DBN模型。
3.根据权利要求1所述一种基于行为特征与内容特征融合的水军识别方法,其特征在于,步骤4的具体实现为:
步骤4.1:协同反馈模块检测DBN模型是否收敛,如果是则执行步骤4.2;否则执行步骤4.3;
步骤4.2:检测DBN模型是否达到预定的识别准确率阈值,如果是则执行步骤4.4;否则执行步骤4.3;
步骤4.3:向特征融合模块发送调节行为特征维度和内容特征维度的融合情况的命令,向DBN模型训练模块发送增加模型训练的迭代次数阈值的命令;
步骤4.4:结束执行过程。
4.根据权利要求1所述一种基于行为特征与内容特征融合的水军识别方法,其特征在于,步骤2.2的具体实现为:
步骤2.2.1:生成一个[0,1]之间的随机数作为参数p,参数p代表行为特征维度在用户特征总维度中所占比例;
步骤2.2.2:初始化用于记录迭代次数的计数器的初始值k=0;
步骤2.2.3:生成一个[0,1]之间的随机数q,并与参数p进行比较,
当q<p时,选取一个内容特征维度,内容特征维度数加1,
当q>p时,选取一个行为特征维度,行为特征维度数加1;
步骤2.2.4:k值增加1,判断是否k>=K,其中K代表用户特征总维度数,如果是则统计待选入用户特征向量的行为特征和内容特征的个数,分别记录为A和B,结束采样过程;否则返回步骤2.2.3。
5.根据权利要求4所述一种基于行为特征与内容特征融合的水军识别方法,其特征在于,步骤2.3中确定具体选取哪些行为特征的实现过程为:
步骤2.3.1A:设定转移次数阈值为T,初始化转移次数t=0;
步骤2.3.2A:统计采集的原始数据中行为特征的个数,记录为M,生成M个[0,1]之间的随机数作为初始状态x(0)=[x1(0),x2(0),…xi(0)...xM(0)];
步骤2.3.3A:转移次数t每增加1,对每个变量xi(t),i∈{1,2...,M},按以下由联合概率分布得到的条件概率分布公式进行如下计算:
P(xi(t+1)|x1(t+1),x2(t+1),…xi-1(0),xi+1(t)...xM(t))
其中,联合概率分布的均值为X;
步骤2.3.4A:判断是否t<T,如果是则返回步骤2.3.3A,否则得到P(T)=[P(x1(T)),P(x2(T)),…P(xi(T)),...P(xM(T))];
步骤2.3.5A:根据步骤2.2.4中计算的待选入用户特征向量的行为特征个数A,选取前A个对应概率P(xi(T))最大的行为特征作为选入用户特征向量的行为特征。
6.根据权利要求4所述一种基于行为特征与内容特征融合的水军识别方法,其特征在于,步骤2.3中确定具体选取哪些内容特征的实现过程为:
步骤2.3.1B:设定转移次数阈值为T,初始化转移次数t=0;
步骤2.3.2B:统计采集的原始数据中内容特征的个数,记录为N,生成N个[0,1]之间的随机数作为初始状态y(0)=[y1(0),y2(0),…yj(0)...yN(0)];
步骤2.3.3B:转移次数t每增加1,对每个变量,j∈{1,2...,N},按以下条件概率对其采样:
P(yi(t+1)|y1(t+1),y2(t+1),…yj-1(0),yj+1(t)...yN(t))
步骤2.3.4B:判断是否t<T,如果是则返回步骤2.3.3B,否则得到P(T)=[P(y1(T)),P(y2(T)),…P(yj(T)),...P(yN(T))];
步骤2.3.5B:根据步骤2.2.4中计算的待选入用户特征向量的内容特征个数B,选取前B个对应概率P(yj(T))最大的内容特征作为选入用户特征向量的内容特征。
7.根据权利要求6所述一种基于行为特征与内容特征融合的水军识别方法,其特征在于,步骤5的具体实现为:特征融合模块根据调节命令采用固定因变量的方法调节与行为特征维度和内容特征维度比例分配相关的参数P,以及与具体行为特征和内容特征选取相关的联合正态分布的均值X;DBN训练模块根据调节命令增加模型训练的迭代次数阈值L。
8.一种实现权利要求1-7中任一所述基于行为特征与内容特征融合的水军识别方法的系统,其特征在于,包括原始数据采集模块、特征融合模块、DBN模型训练模块和协同反馈模块;
所述原始数据采集模块,其用于采集包括用户行为特征和内容特征的原始数据,并对每个维度的原始数据进行量化表示;
所述特征融合模块,其用于利用马尔可夫链蒙特卡罗随机模型进行用户行为特征维度和内容特征维度的融合,组成用户特征向量,还用于根据调节命令调节自身相关参数,进一步进行特征融合;
所述DBN模型训练模块,其用于利用用户特征向量进行DBN模型训练,还用于根据调节命令调节自身相关参数,进一步进行DBN模型训练;
所述协同反馈模块,其用于对DBN模型进行检测,判断检测结果是否达到预定标准,如果是则结束执行过程;否则根据检测结果生成相应的调节命令,分别发送给特征融合模块和DBN模型训练模块。
9.根据权利要求8所述一种基于行为特征与内容特征融合的水军识别系统,其特征在于,所述特征融合模块包括维度比例分配单元和具体特征选取单元;
所述维度比例分配单元,其用于根据用户特征总维度数K,利用直接抽样法确定用户特征总维度中行为特征维度与内容特征维度的融合比例;
所述具体特征选取单元,其用于根据行为特征维度与内容特征维度的融合比例,利用MCMC的Gibbs采样模拟联合正态分布的采样过程,确定具体选取的行为特征和内容特征,组成用户特征向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410035139.XA CN103745002B (zh) | 2014-01-24 | 2014-01-24 | 一种基于行为特征与内容特征融合的水军识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410035139.XA CN103745002B (zh) | 2014-01-24 | 2014-01-24 | 一种基于行为特征与内容特征融合的水军识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103745002A CN103745002A (zh) | 2014-04-23 |
CN103745002B true CN103745002B (zh) | 2017-01-18 |
Family
ID=50502020
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410035139.XA Active CN103745002B (zh) | 2014-01-24 | 2014-01-24 | 一种基于行为特征与内容特征融合的水军识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103745002B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104182621B (zh) * | 2014-08-08 | 2017-06-13 | 同济大学 | 基于深度信念网络的adhd判别分析方法 |
CN105740327B (zh) * | 2016-01-22 | 2019-04-19 | 天津中科智能识别产业技术研究院有限公司 | 一种基于用户偏好的自适应采样方法 |
CN109241379A (zh) * | 2017-07-11 | 2019-01-18 | 北京交通大学 | 一种跨模态检测网络水军的方法 |
CN109034246B (zh) * | 2018-07-27 | 2021-04-16 | 中国矿业大学(北京) | 一种路基含水状态的确定方法及确定系统 |
CN111353001B (zh) * | 2018-12-24 | 2023-08-18 | 杭州海康威视数字技术股份有限公司 | 对用户进行分类的方法和装置 |
CN110047490A (zh) * | 2019-03-12 | 2019-07-23 | 平安科技(深圳)有限公司 | 声纹识别方法、装置、设备以及计算机可读存储介质 |
CN110110079B (zh) * | 2019-03-21 | 2021-06-08 | 中国人民解放军战略支援部队信息工程大学 | 一种社交网络垃圾用户检测方法 |
CN110297990A (zh) * | 2019-05-23 | 2019-10-01 | 东南大学 | 众包营销微博与水军的联合检测方法及系统 |
CN110727763B (zh) * | 2019-10-09 | 2022-10-14 | 南京邮电大学 | 一种社交媒体传播中的特殊族群识别方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102523202A (zh) * | 2011-12-01 | 2012-06-27 | 华北电力大学 | 钓鱼网页的深度学习智能检测方法 |
CN102629904A (zh) * | 2012-02-24 | 2012-08-08 | 安徽博约信息科技有限责任公司 | 一种网络水军的探测与判定方法 |
CN103198161A (zh) * | 2013-04-28 | 2013-07-10 | 中国科学院计算技术研究所 | 微博水军识别方法与设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8972253B2 (en) * | 2010-09-15 | 2015-03-03 | Microsoft Technology Licensing, Llc | Deep belief network for large vocabulary continuous speech recognition |
-
2014
- 2014-01-24 CN CN201410035139.XA patent/CN103745002B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102523202A (zh) * | 2011-12-01 | 2012-06-27 | 华北电力大学 | 钓鱼网页的深度学习智能检测方法 |
CN102629904A (zh) * | 2012-02-24 | 2012-08-08 | 安徽博约信息科技有限责任公司 | 一种网络水军的探测与判定方法 |
CN103198161A (zh) * | 2013-04-28 | 2013-07-10 | 中国科学院计算技术研究所 | 微博水军识别方法与设备 |
Non-Patent Citations (4)
Title |
---|
A fast learning algorithm for deep belief nets;Geoffrey E. Hinton等;《Neural Computation 2006》;20060701;第18卷(第7期);第1527-1554页 * |
基于Deep Belief Nets 的中文名实体关系抽取;陈宇等;《软件学报》;20121015;第23卷(第10期);摘要、第2574页第2段、第2576页第2.1节第1-2段、第2578页第2.3节第1-2段、第2579页第2.4节第1-2段 * |
网络水军的识别和防范;刘秋文;《新闻前哨》;20120615;第37-38页 * |
面向微博的概率图水军识别模型;韩忠明等;《计算机研究与发展》;20131215;第182页第3节第1段、第183页第3.1节第1段、第184页第4.1节第1-3段 * |
Also Published As
Publication number | Publication date |
---|---|
CN103745002A (zh) | 2014-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103745002B (zh) | 一种基于行为特征与内容特征融合的水军识别方法及系统 | |
CN107368752B (zh) | 一种基于生成式对抗网络的深度差分隐私保护方法 | |
He et al. | A novel multimodal-sequential approach based on multi-view features for network intrusion detection | |
TWI784941B (zh) | 一種多重抽樣模型訓練方法及裝置 | |
US11062199B2 (en) | Fraudulent transaction detection method based on sequence wide and deep learning | |
CN108769993A (zh) | 基于生成对抗网络的通信网络异常用户检测方法 | |
CN108881196A (zh) | 基于深度生成模型的半监督入侵检测方法 | |
CN109034034A (zh) | 一种基于强化学习算法优化卷积神经网络的静脉识别方法 | |
CN106453293A (zh) | 一种基于改进bpnn的网络安全态势预测方法 | |
CN106777402B (zh) | 一种基于稀疏神经网络的图像检索文本方法 | |
CN112087442B (zh) | 基于注意力机制的时序相关网络入侵检测方法 | |
CN108076060A (zh) | 基于动态k-means聚类的神经网络态势预测方法 | |
CN103391317B (zh) | 一种系统技术成熟度评估方法和装置 | |
CN103795592B (zh) | 网络水军的检测方法及装置 | |
CN109543939A (zh) | 一种绿色建材产品认证风险评价模型构建的方法 | |
CN106874355A (zh) | 同时融入社交关系和用户相似度的协同过滤方法 | |
CN106529574A (zh) | 基于稀疏自动编码器和支持向量机的图像分类方法 | |
CN108052968A (zh) | 一种qsfla-svm的感知入侵检测方法 | |
CN113111349B (zh) | 基于热力图、逆向工程和模型剪枝的后门攻击防御方法 | |
CN113901448B (zh) | 基于卷积神经网络和轻量级梯度提升机的入侵检测方法 | |
CN105760649A (zh) | 一种面向大数据的可信度量方法 | |
CN110309907A (zh) | 一种基于去跟踪自编码器的动态缺失值填补方法 | |
CN109800517A (zh) | 一种改进的磁流变阻尼器逆向建模方法 | |
CN110446112A (zh) | 基于双向LSTM-Attention的IPTV用户体验预测方法 | |
CN111104975A (zh) | 一种基于广度学习的信用评估模型 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |