CN104063516A - 基于分布式矩阵分解特征提取的社交网络垃圾过滤方法 - Google Patents

基于分布式矩阵分解特征提取的社交网络垃圾过滤方法 Download PDF

Info

Publication number
CN104063516A
CN104063516A CN201410332642.1A CN201410332642A CN104063516A CN 104063516 A CN104063516 A CN 104063516A CN 201410332642 A CN201410332642 A CN 201410332642A CN 104063516 A CN104063516 A CN 104063516A
Authority
CN
China
Prior art keywords
matrix
social networks
user
distributed
mapreduce
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410332642.1A
Other languages
English (en)
Other versions
CN104063516B (zh
Inventor
郑相涵
陈国龙
李园园
索文平
郭文忠
於志勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN201410332642.1A priority Critical patent/CN104063516B/zh
Publication of CN104063516A publication Critical patent/CN104063516A/zh
Application granted granted Critical
Publication of CN104063516B publication Critical patent/CN104063516B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Processing Of Solid Wastes (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及网络垃圾过滤技术领域,特别涉及一种基于分布式矩阵分解特征提取的社交网络垃圾过滤方法,包括以下步骤:步骤S1:构造社交网络用户-属性矩阵;步骤S2:基于分布式矩阵分解对所述社交网络用户-属性矩阵进行特征提取;步骤S3:对潜在特征向量进行分类,判断是否为社交网络垃圾。该方法有利于高效地过滤社交网络中的垃圾数据。

Description

基于分布式矩阵分解特征提取的社交网络垃圾过滤方法
技术领域
本发明涉及网络垃圾过滤技术领域,特别涉及一种基于分布式矩阵分解特征提取的社交网络垃圾过滤方法。
背景技术
目前,社交网络已经在人们的生活中扮演着重要的角色并对人们的信息获得、思考和生活产生不可低估的影响。通过社交网络,用户可以通过聊天室进行交流,创建个人主页来分享喜爱的信息,与朋友保持更加直接的联系,创建大交际圈并可寻找失去联络的朋友们,关注查看其他人的主页和分享等。然而,社交网络中的数据具有真假并存性、海量性、快速传播性、数量无界性等。由于数据的真假并存性与海量性,导致社交网络存在有大量的不可靠内容,例如欺诈性广告、仇恨言论、虚假新闻等,这些内容缺乏实际价值,然而却可能对随后的社交数据挖掘、用户行为分析、资源推荐精度产生负面影响,在这种背景下,社交网络的垃圾过滤已经成为一个亟待解决的问题。
发明内容
本发明的目的在于提供一种基于分布式矩阵分解特征提取的社交网络垃圾过滤方法,该方法有利于高效地过滤社交网络中的垃圾数据。
为实现上述目的,本发明的技术方案是:一种基于分布式矩阵分解特征提取的社交网络垃圾过滤方法,包括以下步骤:
步骤S1:构造社交网络用户-属性矩阵;
步骤S2:基于分布式矩阵分解对所述社交网络用户-属性矩阵进行特征提取;
步骤S3:对潜在特征向量进行分类,判断是否为社交网络垃圾。
进一步的,在步骤S1中,社交网络用户-属性矩阵的构造方法如下:
假设有n个用户,m个属性,则社交网络用户-属性矩阵构造为已知社交网络中n个用户集合 和m个属性集合A ij 表示用户u i 对属性v j 的度量值,由此构造社交网络用户-属性矩阵AR n×m
所述社交网络用户-属性矩阵是稀疏矩阵。
进一步的,在步骤S2中,对所述社交网络用户-属性矩阵进行特征提取的方法如下:
假定存在用户特征矩阵WR n×K 和属性特征矩阵HR K×m ,其中K = {1, …, k, …, K}为特征数;则社交网络用户-属性矩阵A中的任意元素A ij 可以近似由W i H j 得到,即A ij W i H j ,因此可得:
采用分布式矩阵分解算法将分解问题转换为最优化问题求解,选择目标函数:
上式即为优化目标的代价函数;
W的任一元素求导,有:
采用随机梯度下降法进行分布式矩阵分解,其迭代格式为:
其中,.*是矩阵对应元素之间的运算;
W按行分块,对H按列分块,具体格式如下:
H更新过程拆分为三个部分,分别为:(1)X=W T A,(2)Y=W T WH,(3);结合分块方案,通过适当的MapReduce过程求解各个部分;
同理,将W更新过程拆分为三个部分,分别为:(1)X=AH T ,(2)Y=WHH T ,(3);结合分块方案,通过适当的MapReduce过程求解各个部分。
进一步的,通过MapReduce过程求解H更新过程各个部分的方法如下:
(1)X=W T A的MapReduce过程
X按列分块,对Xjx j 有:
上式表示Xjx j 是以为基的A中第j列非0元素的线性组合;对Xjx j 的求解,通过两步MapReduce实现:
Map-I:
输入<i, j, A ij >和<i, w i >,输出,即把每个i及其相应的w i 、相应的所有jA ij 分发到云平台中的同一个节点上,经过Map过程,云平台中的同一个节点得到每个i及其相应的
Reduce-I:
输入,输出,即每个i及其相应的经Reduce过程得到每个j及其相对应的
Map-II:
输入,输出,即把相同j及其相对应的指派到云平台中的同一个节点上,得到每个j及其对应的形式;
Reduce-II:
输入,输出,即
(2)Y=W T WH的MapReduce过程
先计算C=W T W,再计算Y=CH
首先,对C求解有:
C=W T W的MapReduce求解,通过一个MapReduce过程完成:
Map-III:
输入<i, w i >,输出,即把每个i及其相应的w i 、相应的所有jA ij 分发到云平台中的同一个节点上,经过Map过程,云平台中的同一个节点得到每个i及其相应的
Reduce-III:
输入,输出
其次,对Y=CH的求解,同样对Y按列分块,有:
y j = Ch j
此处通过MapReduce求解,通过一个Map即可:
Map-IV:
输入<j, h j >,输出<j, y j >;
y j = Ch j
(3)的MapReduce过程
H的更新也按列分块进行,则H的第jh j 为:
该步通过一个MapReduce过程达到并行:
Map-V
输入<j, h j >、<j, x j >、<j, y j >,输出<j,{h j , x j , y j }>;
Reduce-V
输入<j,{h j , x j , y j }>,输出,即
进一步的,通过分布式矩阵分解计算后,W是潜在社交用户特征矩阵;采用矩阵分解的二分类方法,即在矩阵分解过程中将潜在特征矩阵定义为二维空间,SPAM和非SPAM分别对应于二维空间中的一维,通过分解,取二维中比较高的值作为分类的类别。
本发明的有益效果是提出了一种基于分布式矩阵分解特征提取的社交网络垃圾过滤方法,该方法面向社交网络数据,着眼于社交垃圾的潜在行为特征,使用分布式矩阵分解技术解决了在大数据环境下进行高效社交垃圾过滤的问题,具有很强的实用性和广阔的应用前景。
附图说明
图1是本发明实施例的实现流程图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步的详细说明。
本发明基于分布式矩阵分解特征提取的社交网络垃圾过滤方法,如图1所示,包括以下步骤:
步骤S1:构造社交网络用户-属性矩阵。社交网络用户-属性矩阵的构造方法如下:
假设有n个用户,m个属性,则社交网络用户-属性矩阵构造为已知社交网络中n个用户集合和m个属性集合A ij 表示用户u i 对属性v j 的度量值,由此构造社交网络用户-属性矩阵AR n×m
由于在社交网络中,属性是多种多样的,而每个用户通常只是带有很少的属性,因此所述社交网络用户-属性矩阵是稀疏矩阵。
步骤S2:基于分布式矩阵分解对所述社交网络用户-属性矩阵进行特征提取。对所述社交网络用户-属性矩阵进行特征提取的方法如下:
假定存在用户特征矩阵WR n×K 和属性特征矩阵HR K×m ,其中K = {1, …, k, …, K}为特征数;则社交网络用户-属性矩阵A中的任意元素A ij 可以近似由W i H j 得到,即A ij W i H j ,因此可得:
此时通过分解就可以达到特征提取的目的。由于分解的形式不唯一(即存在多个满足条件的WH),而在海量社交数据的情况下,分解在单机情况下很难完成,因此需要构造分布式矩阵分解的计算方法。
采用分布式矩阵分解算法将分解问题转换为最优化问题求解,选择目标函数:
上式即为优化目标的代价函数,这里构造的是一个最小优化问题;
W的任一元素求导,有:
采用交替最小二乘法,其迭代格式为:
采用随机梯度下降法进行分布式矩阵分解,其迭代格式为:
其中,.*是矩阵对应元素之间的运算;
以下通过随机梯度下降法说明分布式矩阵分解的实现:
为了便于设计合理的MapReduce过程,需要先对WH进行合理分块。合理的分块方案对于整个计算过程能否并行、并行的程度和计算容量、性能都有重要的影响。
最终经分析发现W按行分块、H按列分块有利于设计MapReduce过程;对W按行分块,对H按列分块,具体格式如下:
H更新过程拆分为三个部分,分别为:(1)X=W T A,(2)Y=W T WH,(3);结合分块方案,通过适当的MapReduce过程求解各个部分;
同理,将W更新过程拆分为三个部分,分别为:(1)X=AH T ,(2)Y=WHH T ,(3);结合分块方案,通过适当的MapReduce过程求解各个部分。
通过MapReduce过程求解H更新过程各个部分的方法如下:
(1)X=W T A的MapReduce过程
为了设计合理的MapReduce求解X k×n =W T A,此处同样对X进行分块;经分析发现X按列分块有利于设计MapReduce过程;对X按列分块,对Xjx j 有:
上式表示Xjx j 是以为基的A中第j列非0元素的线性组合;对Xjx j 的求解,通过两步MapReduce实现:
Map-I:
输入<i, j, A ij >和<i, w i >,输出,即把每个i及其相应的w i 、相应的所有jA ij 分发到云平台中的同一个节点上,经过Map过程,云平台中的同一个节点得到每个i及其相应的
Reduce-I:
输入,输出,即每个i及其相应的经Reduce过程得到每个j及其相对应的
Map-II:
输入,输出,即把相同j及其相对应的指派到云平台中的同一个节点上,得到每个j及其对应的形式;
Reduce-II:
输入,输出,即
(2)Y=W T WH的MapReduce过程
考虑到WH的乘积是m×n维的大矩阵,直接很容易造成内存溢出,因此Y k×n 的计算应为Y=(W T W)H,即先计算C=W T W,再计算Y=CH
首先,对C求解有:
C=W T W的MapReduce求解,通过一个MapReduce过程完成:
Map-III:
输入<i, w i >,输出,即把每个i及其相应的w i 、相应的所有jA ij 分发到云平台中的同一个节点上,经过Map过程,云平台中的同一个节点得到每个i及其相应的
Reduce-III:
输入,输出
其次,对Y=CH的求解,同样对Y按列分块,有:
y j = Ch j
此处通过MapReduce求解,通过一个Map即可:
Map-IV:
输入<j, h j >,输出<j, y j >;
y j = Ch j
(3)的MapReduce过程
H的更新也按列分块进行,则H的第jh j 为:
该步通过一个MapReduce过程达到并行:
Map-V
输入<j, h j >、<j, x j >、<j, y j >,输出<j,{h j , x j , y j }>;
Reduce-V
输入<j,{h j , x j , y j }>,输出,即
步骤S3:对潜在特征向量进行分类,判断是否为社交网络垃圾。
通过分布式矩阵分解计算后,W是潜在社交用户特征矩阵;由于分类结果类别为两类:SPAM或非SPAM,因此,采用矩阵分解的二分类方法,即在矩阵分解过程中将潜在特征矩阵定义为二维空间,SPAM和非SPAM分别对应于二维空间中的一维,通过分解,取二维中比较高的值作为分类的类别。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。

Claims (5)

1.一种基于分布式矩阵分解特征提取的社交网络垃圾过滤方法,其特征在于,包括以下步骤:
步骤S1:构造社交网络用户-属性矩阵;
步骤S2:基于分布式矩阵分解对所述社交网络用户-属性矩阵进行特征提取;
步骤S3:对潜在特征向量进行分类,判断是否为社交网络垃圾。
2.根据权利要求1所述的基于分布式矩阵分解特征提取的社交网络垃圾过滤方法,其特征在于,在步骤S1中,社交网络用户-属性矩阵的构造方法如下:
假设有n个用户,m个属性,则社交网络用户-属性矩阵构造为已知社交网络中n个用户集合 和m个属性集合A ij 表示用户u i 对属性v j 的度量值,由此构造社交网络用户-属性矩阵AR n×m
所述社交网络用户-属性矩阵是稀疏矩阵。
3.根据权利要求2所述的基于分布式矩阵分解特征提取的社交网络垃圾过滤方法,其特征在于,在步骤S2中,对所述社交网络用户-属性矩阵进行特征提取的方法如下:
假定存在用户特征矩阵WR n×K 和属性特征矩阵HR K×m ,其中K = {1, …, k, …, K}为特征数;则社交网络用户-属性矩阵A中的任意元素A ij 可以近似由W i H j 得到,即A ij W i H j ,因此可得:
采用分布式矩阵分解算法将分解问题转换为最优化问题求解,选择目标函数:
上式即为优化目标的代价函数;
W的任一元素求导,有:
采用随机梯度下降法进行分布式矩阵分解,其迭代格式为:
其中,.*是矩阵对应元素之间的运算;
W按行分块,对H按列分块,具体格式如下:
H更新过程拆分为三个部分,分别为:(1)X=W T A,(2)Y=W T WH,(3);结合分块方案,通过适当的MapReduce过程求解各个部分;
同理,将W更新过程拆分为三个部分,分别为:(1)X=AH T ,(2)Y=WHH T ,(3);结合分块方案,通过适当的MapReduce过程求解各个部分。
4.根据权利要求3所述的基于分布式矩阵分解特征提取的社交网络垃圾过滤方法,其特征在于,通过MapReduce过程求解H更新过程各个部分的方法如下:
(1)X=W T A的MapReduce过程
X按列分块,对Xjx j 有:
上式表示Xjx j 是以为基的A中第j列非0元素的线性组合;对Xjx j 的求解,通过两步MapReduce实现:
Map-I:
输入<i, j, A ij >和<i, w i >,输出,即把每个i及其相应的w i 、相应的所有jA ij 分发到云平台中的同一个节点上,经过Map过程,云平台中的同一个节点得到每个i及其相应的
Reduce-I:
输入,输出,即每个i及其相应的经Reduce过程得到每个j及其相对应的
Map-II:
输入,输出,即把相同j及其相对应的指派到云平台中的同一个节点上,得到每个j及其对应的形式;
Reduce-II:
输入,输出,即
(2)Y=W T WH的MapReduce过程
先计算C=W T W,再计算Y=CH
首先,对C求解有:
C=W T W的MapReduce求解,通过一个MapReduce过程完成:
Map-III:
输入<i, w i >,输出,即把每个i及其相应的w i 、相应的所有jA ij 分发到云平台中的同一个节点上,经过Map过程,云平台中的同一个节点得到每个i及其相应的
Reduce-III:
输入,输出
其次,对Y=CH的求解,同样对Y按列分块,有:
y j = Ch j
此处通过MapReduce求解,通过一个Map即可:
Map-IV:
输入<j, h j >,输出<j, y j >;
y j = Ch j
(3)的MapReduce过程
H的更新也按列分块进行,则H的第jh j 为:
该步通过一个MapReduce过程达到并行:
Map-V
输入<j, h j >、<j, x j >、<j, y j >,输出<j,{h j , x j , y j }>;
Reduce-V
输入<j,{h j , x j , y j }>,输出,即
5.根据权利要求4所述的基于分布式矩阵分解特征提取的社交网络垃圾过滤方法,其特征在于,通过分布式矩阵分解计算后,W是潜在社交用户特征矩阵;采用矩阵分解的二分类方法,即在矩阵分解过程中将潜在特征矩阵定义为二维空间,SPAM和非SPAM分别对应于二维空间中的一维,通过分解,取二维中比较高的值作为分类的类别。
CN201410332642.1A 2014-07-14 2014-07-14 基于分布式矩阵分解特征提取的社交网络垃圾过滤方法 Active CN104063516B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410332642.1A CN104063516B (zh) 2014-07-14 2014-07-14 基于分布式矩阵分解特征提取的社交网络垃圾过滤方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410332642.1A CN104063516B (zh) 2014-07-14 2014-07-14 基于分布式矩阵分解特征提取的社交网络垃圾过滤方法

Publications (2)

Publication Number Publication Date
CN104063516A true CN104063516A (zh) 2014-09-24
CN104063516B CN104063516B (zh) 2017-06-06

Family

ID=51551230

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410332642.1A Active CN104063516B (zh) 2014-07-14 2014-07-14 基于分布式矩阵分解特征提取的社交网络垃圾过滤方法

Country Status (1)

Country Link
CN (1) CN104063516B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105975440A (zh) * 2016-05-05 2016-09-28 浙江理工大学 一种基于图计算模型的矩阵分解并行化方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050033708A1 (en) * 2000-11-16 2005-02-10 Microsoft Corporation Methods and systems for computing singular value decompositions of matrices and low rank approximations of matrices
CN1967536A (zh) * 2006-11-16 2007-05-23 华中科技大学 基于区域的多特征融合及多级反馈的潜伏语义图像检索方法
CN101923545A (zh) * 2009-06-15 2010-12-22 北京百分通联传媒技术有限公司 一种个性化信息推荐的方法
CN103023977A (zh) * 2012-11-19 2013-04-03 华南理工大学 基于位置信息的推荐系统及推荐方法
CN103106616A (zh) * 2013-02-27 2013-05-15 中国科学院自动化研究所 基于资源整合与信息传播特征的社区发现及演化方法
CN103294812A (zh) * 2013-06-06 2013-09-11 浙江大学 一种基于混合模型的商品推荐方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050033708A1 (en) * 2000-11-16 2005-02-10 Microsoft Corporation Methods and systems for computing singular value decompositions of matrices and low rank approximations of matrices
CN1967536A (zh) * 2006-11-16 2007-05-23 华中科技大学 基于区域的多特征融合及多级反馈的潜伏语义图像检索方法
CN101923545A (zh) * 2009-06-15 2010-12-22 北京百分通联传媒技术有限公司 一种个性化信息推荐的方法
CN103023977A (zh) * 2012-11-19 2013-04-03 华南理工大学 基于位置信息的推荐系统及推荐方法
CN103106616A (zh) * 2013-02-27 2013-05-15 中国科学院自动化研究所 基于资源整合与信息传播特征的社区发现及演化方法
CN103294812A (zh) * 2013-06-06 2013-09-11 浙江大学 一种基于混合模型的商品推荐方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105975440A (zh) * 2016-05-05 2016-09-28 浙江理工大学 一种基于图计算模型的矩阵分解并行化方法

Also Published As

Publication number Publication date
CN104063516B (zh) 2017-06-06

Similar Documents

Publication Publication Date Title
Dong et al. Inferring user demographics and social strategies in mobile social networks
Ribeiro et al. Sampling directed graphs with random walks
US8713151B2 (en) Configuration method and system of complex network and configuration and management module of server resources
CN102810113A (zh) 一种针对复杂网络的混合型聚类方法
CN104077280A (zh) 社区发现并行化方法和系统、主节点和运算节点设备
Xia et al. Effectively identifying the influential spreaders in large-scale social networks
CN106203494A (zh) 一种基于内存计算的并行化聚类方法
CN103838831A (zh) 一种基于社区划分的在线社交网络海量数据存储方法
CN103500168A (zh) 一种基于拓扑势的重叠复杂网络社区发现方法及系统
Sun et al. Matrix based community evolution events detection in online social networks
Jiang et al. Dynamic community detection based on game theory in social networks
CN103744933A (zh) 一种基于并行化模块度优化的社区发现方法
CN112069416A (zh) 基于社区发现的跨社交网络用户身份识别方法
Behera et al. An efficient modularity based algorithm for community detection in social network
CN109472712A (zh) 一种基于结构特征强化的高效马尔可夫随机场社团发现方法
CN111178678B (zh) 基于社团影响力的网络节点重要性评估方法
CN104063516A (zh) 基于分布式矩阵分解特征提取的社交网络垃圾过滤方法
CN104504266A (zh) 基于最短路径和密度聚类的图分割方法
Liu et al. Community detection in location-based social networks: An entropy-based approach
Sharma et al. Community mining in signed social networks-an automated approach
Sawai Exploring a new small-world network for real-world applications
Wu et al. Link prediction based on random forest in signed social networks
CN103051476A (zh) 基于拓扑分析的网络社区发现方法
Ji et al. Effective spreading from multiple leaders identified by percolation in social networks
Kumar et al. A review on community detection algorithms in social networks

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant