CN104063516A - 基于分布式矩阵分解特征提取的社交网络垃圾过滤方法 - Google Patents
基于分布式矩阵分解特征提取的社交网络垃圾过滤方法 Download PDFInfo
- Publication number
- CN104063516A CN104063516A CN201410332642.1A CN201410332642A CN104063516A CN 104063516 A CN104063516 A CN 104063516A CN 201410332642 A CN201410332642 A CN 201410332642A CN 104063516 A CN104063516 A CN 104063516A
- Authority
- CN
- China
- Prior art keywords
- matrix
- social networks
- user
- distributed
- mapreduce
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Processing Of Solid Wastes (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及网络垃圾过滤技术领域,特别涉及一种基于分布式矩阵分解特征提取的社交网络垃圾过滤方法,包括以下步骤:步骤S1:构造社交网络用户-属性矩阵;步骤S2:基于分布式矩阵分解对所述社交网络用户-属性矩阵进行特征提取;步骤S3:对潜在特征向量进行分类,判断是否为社交网络垃圾。该方法有利于高效地过滤社交网络中的垃圾数据。
Description
技术领域
本发明涉及网络垃圾过滤技术领域,特别涉及一种基于分布式矩阵分解特征提取的社交网络垃圾过滤方法。
背景技术
目前,社交网络已经在人们的生活中扮演着重要的角色并对人们的信息获得、思考和生活产生不可低估的影响。通过社交网络,用户可以通过聊天室进行交流,创建个人主页来分享喜爱的信息,与朋友保持更加直接的联系,创建大交际圈并可寻找失去联络的朋友们,关注查看其他人的主页和分享等。然而,社交网络中的数据具有真假并存性、海量性、快速传播性、数量无界性等。由于数据的真假并存性与海量性,导致社交网络存在有大量的不可靠内容,例如欺诈性广告、仇恨言论、虚假新闻等,这些内容缺乏实际价值,然而却可能对随后的社交数据挖掘、用户行为分析、资源推荐精度产生负面影响,在这种背景下,社交网络的垃圾过滤已经成为一个亟待解决的问题。
发明内容
本发明的目的在于提供一种基于分布式矩阵分解特征提取的社交网络垃圾过滤方法,该方法有利于高效地过滤社交网络中的垃圾数据。
为实现上述目的,本发明的技术方案是:一种基于分布式矩阵分解特征提取的社交网络垃圾过滤方法,包括以下步骤:
步骤S1:构造社交网络用户-属性矩阵;
步骤S2:基于分布式矩阵分解对所述社交网络用户-属性矩阵进行特征提取;
步骤S3:对潜在特征向量进行分类,判断是否为社交网络垃圾。
进一步的,在步骤S1中,社交网络用户-属性矩阵的构造方法如下:
假设有n个用户,m个属性,则社交网络用户-属性矩阵构造为已知社交网络中n个用户集合 和m个属性集合,A ij 表示用户u i 对属性v j 的度量值,由此构造社交网络用户-属性矩阵A∈R n×m :
所述社交网络用户-属性矩阵是稀疏矩阵。
进一步的,在步骤S2中,对所述社交网络用户-属性矩阵进行特征提取的方法如下:
假定存在用户特征矩阵W∈R n×K 和属性特征矩阵H∈R K×m ,其中K = {1, …, k, …, K}为特征数;则社交网络用户-属性矩阵A中的任意元素A ij 可以近似由W i H j 得到,即A ij ≈W i H j ,因此可得:
采用分布式矩阵分解算法将分解问题转换为最优化问题求解,选择目标函数:
上式即为优化目标的代价函数;
对W的任一元素求导,有:
采用随机梯度下降法进行分布式矩阵分解,其迭代格式为:
其中,.*是矩阵对应元素之间的运算;
对W按行分块,对H按列分块,具体格式如下:
将H更新过程拆分为三个部分,分别为:(1)X=W T A,(2)Y=W T WH,(3);结合分块方案,通过适当的MapReduce过程求解各个部分;
同理,将W更新过程拆分为三个部分,分别为:(1)X=AH T ,(2)Y=WHH T ,(3);结合分块方案,通过适当的MapReduce过程求解各个部分。
进一步的,通过MapReduce过程求解H更新过程各个部分的方法如下:
(1)X=W T A的MapReduce过程
对X按列分块,对X第j列x j 有:
上式表示X第j列x j 是以为基的A中第j列非0元素的线性组合;对X第j列x j 的求解,通过两步MapReduce实现:
Map-I:
输入<i, j, A ij >和<i, w i >,输出,即把每个i及其相应的w i 、相应的所有j,A ij 分发到云平台中的同一个节点上,经过Map过程,云平台中的同一个节点得到每个i及其相应的;
Reduce-I:
输入,输出,即每个i及其相应的经Reduce过程得到每个j及其相对应的;
Map-II:
输入,输出,即把相同j及其相对应的指派到云平台中的同一个节点上,得到每个j及其对应的形式;
Reduce-II:
输入,输出,即;
(2)Y=W T WH的MapReduce过程
先计算C=W T W,再计算Y=CH;
首先,对C求解有:
对C=W T W的MapReduce求解,通过一个MapReduce过程完成:
Map-III:
输入<i, w i >,输出,即把每个i及其相应的w i 、相应的所有j,A ij 分发到云平台中的同一个节点上,经过Map过程,云平台中的同一个节点得到每个i及其相应的;
Reduce-III:
输入,输出;
其次,对Y=CH的求解,同样对Y按列分块,有:
y j = Ch j
此处通过MapReduce求解,通过一个Map即可:
Map-IV:
输入<j, h j >,输出<j, y j >;
即y j = Ch j
(3)的MapReduce过程
对H的更新也按列分块进行,则H的第j列h j 为:
该步通过一个MapReduce过程达到并行:
Map-V
输入<j, h j >、<j, x j >、<j, y j >,输出<j,{h j , x j , y j }>;
Reduce-V
输入<j,{h j , x j , y j }>,输出,即 。
进一步的,通过分布式矩阵分解计算后,W是潜在社交用户特征矩阵;采用矩阵分解的二分类方法,即在矩阵分解过程中将潜在特征矩阵定义为二维空间,SPAM和非SPAM分别对应于二维空间中的一维,通过分解,取二维中比较高的值作为分类的类别。
本发明的有益效果是提出了一种基于分布式矩阵分解特征提取的社交网络垃圾过滤方法,该方法面向社交网络数据,着眼于社交垃圾的潜在行为特征,使用分布式矩阵分解技术解决了在大数据环境下进行高效社交垃圾过滤的问题,具有很强的实用性和广阔的应用前景。
附图说明
图1是本发明实施例的实现流程图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步的详细说明。
本发明基于分布式矩阵分解特征提取的社交网络垃圾过滤方法,如图1所示,包括以下步骤:
步骤S1:构造社交网络用户-属性矩阵。社交网络用户-属性矩阵的构造方法如下:
假设有n个用户,m个属性,则社交网络用户-属性矩阵构造为已知社交网络中n个用户集合和m个属性集合,A ij 表示用户u i 对属性v j 的度量值,由此构造社交网络用户-属性矩阵A∈R n×m :
由于在社交网络中,属性是多种多样的,而每个用户通常只是带有很少的属性,因此所述社交网络用户-属性矩阵是稀疏矩阵。
步骤S2:基于分布式矩阵分解对所述社交网络用户-属性矩阵进行特征提取。对所述社交网络用户-属性矩阵进行特征提取的方法如下:
假定存在用户特征矩阵W∈R n×K 和属性特征矩阵H∈R K×m ,其中K = {1, …, k, …, K}为特征数;则社交网络用户-属性矩阵A中的任意元素A ij 可以近似由W i H j 得到,即A ij ≈W i H j ,因此可得:
此时通过分解就可以达到特征提取的目的。由于分解的形式不唯一(即存在多个满足条件的W和H),而在海量社交数据的情况下,分解在单机情况下很难完成,因此需要构造分布式矩阵分解的计算方法。
采用分布式矩阵分解算法将分解问题转换为最优化问题求解,选择目标函数:
上式即为优化目标的代价函数,这里构造的是一个最小优化问题;
对W的任一元素求导,有:
采用交替最小二乘法,其迭代格式为:
采用随机梯度下降法进行分布式矩阵分解,其迭代格式为:
其中,.*是矩阵对应元素之间的运算;
以下通过随机梯度下降法说明分布式矩阵分解的实现:
为了便于设计合理的MapReduce过程,需要先对W和H进行合理分块。合理的分块方案对于整个计算过程能否并行、并行的程度和计算容量、性能都有重要的影响。
最终经分析发现W按行分块、H按列分块有利于设计MapReduce过程;对W按行分块,对H按列分块,具体格式如下:
将H更新过程拆分为三个部分,分别为:(1)X=W T A,(2)Y=W T WH,(3);结合分块方案,通过适当的MapReduce过程求解各个部分;
同理,将W更新过程拆分为三个部分,分别为:(1)X=AH T ,(2)Y=WHH T ,(3);结合分块方案,通过适当的MapReduce过程求解各个部分。
通过MapReduce过程求解H更新过程各个部分的方法如下:
(1)X=W T A的MapReduce过程
为了设计合理的MapReduce求解X k×n =W T A,此处同样对X进行分块;经分析发现X按列分块有利于设计MapReduce过程;对X按列分块,对X第j列x j 有:
上式表示X第j列x j 是以为基的A中第j列非0元素的线性组合;对X第j列x j 的求解,通过两步MapReduce实现:
Map-I:
输入<i, j, A ij >和<i, w i >,输出,即把每个i及其相应的w i 、相应的所有j,A ij 分发到云平台中的同一个节点上,经过Map过程,云平台中的同一个节点得到每个i及其相应的;
Reduce-I:
输入,输出,即每个i及其相应的经Reduce过程得到每个j及其相对应的;
Map-II:
输入,输出,即把相同j及其相对应的指派到云平台中的同一个节点上,得到每个j及其对应的形式;
Reduce-II:
输入,输出,即;
(2)Y=W T WH的MapReduce过程
考虑到WH的乘积是m×n维的大矩阵,直接很容易造成内存溢出,因此Y k×n 的计算应为Y=(W T W)H,即先计算C=W T W,再计算Y=CH;
首先,对C求解有:
对C=W T W的MapReduce求解,通过一个MapReduce过程完成:
Map-III:
输入<i, w i >,输出,即把每个i及其相应的w i 、相应的所有j,A ij 分发到云平台中的同一个节点上,经过Map过程,云平台中的同一个节点得到每个i及其相应的;
Reduce-III:
输入,输出;
其次,对Y=CH的求解,同样对Y按列分块,有:
y j = Ch j
此处通过MapReduce求解,通过一个Map即可:
Map-IV:
输入<j, h j >,输出<j, y j >;
即y j = Ch j
(3)的MapReduce过程
对H的更新也按列分块进行,则H的第j列h j 为:
该步通过一个MapReduce过程达到并行:
Map-V
输入<j, h j >、<j, x j >、<j, y j >,输出<j,{h j , x j , y j }>;
Reduce-V
输入<j,{h j , x j , y j }>,输出,即 。
步骤S3:对潜在特征向量进行分类,判断是否为社交网络垃圾。
通过分布式矩阵分解计算后,W是潜在社交用户特征矩阵;由于分类结果类别为两类:SPAM或非SPAM,因此,采用矩阵分解的二分类方法,即在矩阵分解过程中将潜在特征矩阵定义为二维空间,SPAM和非SPAM分别对应于二维空间中的一维,通过分解,取二维中比较高的值作为分类的类别。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。
Claims (5)
1.一种基于分布式矩阵分解特征提取的社交网络垃圾过滤方法,其特征在于,包括以下步骤:
步骤S1:构造社交网络用户-属性矩阵;
步骤S2:基于分布式矩阵分解对所述社交网络用户-属性矩阵进行特征提取;
步骤S3:对潜在特征向量进行分类,判断是否为社交网络垃圾。
2.根据权利要求1所述的基于分布式矩阵分解特征提取的社交网络垃圾过滤方法,其特征在于,在步骤S1中,社交网络用户-属性矩阵的构造方法如下:
假设有n个用户,m个属性,则社交网络用户-属性矩阵构造为已知社交网络中n个用户集合 和m个属性集合,A ij 表示用户u i 对属性v j 的度量值,由此构造社交网络用户-属性矩阵A∈R n×m :
所述社交网络用户-属性矩阵是稀疏矩阵。
3.根据权利要求2所述的基于分布式矩阵分解特征提取的社交网络垃圾过滤方法,其特征在于,在步骤S2中,对所述社交网络用户-属性矩阵进行特征提取的方法如下:
假定存在用户特征矩阵W∈R n×K 和属性特征矩阵H∈R K×m ,其中K = {1, …, k, …, K}为特征数;则社交网络用户-属性矩阵A中的任意元素A ij 可以近似由W i H j 得到,即A ij ≈W i H j ,因此可得:
采用分布式矩阵分解算法将分解问题转换为最优化问题求解,选择目标函数:
上式即为优化目标的代价函数;
对W的任一元素求导,有:
采用随机梯度下降法进行分布式矩阵分解,其迭代格式为:
其中,.*是矩阵对应元素之间的运算;
对W按行分块,对H按列分块,具体格式如下:
将H更新过程拆分为三个部分,分别为:(1)X=W T A,(2)Y=W T WH,(3);结合分块方案,通过适当的MapReduce过程求解各个部分;
同理,将W更新过程拆分为三个部分,分别为:(1)X=AH T ,(2)Y=WHH T ,(3);结合分块方案,通过适当的MapReduce过程求解各个部分。
4.根据权利要求3所述的基于分布式矩阵分解特征提取的社交网络垃圾过滤方法,其特征在于,通过MapReduce过程求解H更新过程各个部分的方法如下:
(1)X=W T A的MapReduce过程
对X按列分块,对X第j列x j 有:
上式表示X第j列x j 是以为基的A中第j列非0元素的线性组合;对X第j列x j 的求解,通过两步MapReduce实现:
Map-I:
输入<i, j, A ij >和<i, w i >,输出,即把每个i及其相应的w i 、相应的所有j,A ij 分发到云平台中的同一个节点上,经过Map过程,云平台中的同一个节点得到每个i及其相应的;
Reduce-I:
输入,输出,即每个i及其相应的经Reduce过程得到每个j及其相对应的;
Map-II:
输入,输出,即把相同j及其相对应的指派到云平台中的同一个节点上,得到每个j及其对应的形式;
Reduce-II:
输入,输出,即;
(2)Y=W T WH的MapReduce过程
先计算C=W T W,再计算Y=CH;
首先,对C求解有:
对C=W T W的MapReduce求解,通过一个MapReduce过程完成:
Map-III:
输入<i, w i >,输出,即把每个i及其相应的w i 、相应的所有j,A ij 分发到云平台中的同一个节点上,经过Map过程,云平台中的同一个节点得到每个i及其相应的;
Reduce-III:
输入,输出;
其次,对Y=CH的求解,同样对Y按列分块,有:
y j = Ch j
此处通过MapReduce求解,通过一个Map即可:
Map-IV:
输入<j, h j >,输出<j, y j >;
即y j = Ch j
(3)的MapReduce过程
对H的更新也按列分块进行,则H的第j列h j 为:
该步通过一个MapReduce过程达到并行:
Map-V
输入<j, h j >、<j, x j >、<j, y j >,输出<j,{h j , x j , y j }>;
Reduce-V
输入<j,{h j , x j , y j }>,输出,即 。
5.根据权利要求4所述的基于分布式矩阵分解特征提取的社交网络垃圾过滤方法,其特征在于,通过分布式矩阵分解计算后,W是潜在社交用户特征矩阵;采用矩阵分解的二分类方法,即在矩阵分解过程中将潜在特征矩阵定义为二维空间,SPAM和非SPAM分别对应于二维空间中的一维,通过分解,取二维中比较高的值作为分类的类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410332642.1A CN104063516B (zh) | 2014-07-14 | 2014-07-14 | 基于分布式矩阵分解特征提取的社交网络垃圾过滤方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410332642.1A CN104063516B (zh) | 2014-07-14 | 2014-07-14 | 基于分布式矩阵分解特征提取的社交网络垃圾过滤方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104063516A true CN104063516A (zh) | 2014-09-24 |
CN104063516B CN104063516B (zh) | 2017-06-06 |
Family
ID=51551230
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410332642.1A Active CN104063516B (zh) | 2014-07-14 | 2014-07-14 | 基于分布式矩阵分解特征提取的社交网络垃圾过滤方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104063516B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105975440A (zh) * | 2016-05-05 | 2016-09-28 | 浙江理工大学 | 一种基于图计算模型的矩阵分解并行化方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050033708A1 (en) * | 2000-11-16 | 2005-02-10 | Microsoft Corporation | Methods and systems for computing singular value decompositions of matrices and low rank approximations of matrices |
CN1967536A (zh) * | 2006-11-16 | 2007-05-23 | 华中科技大学 | 基于区域的多特征融合及多级反馈的潜伏语义图像检索方法 |
CN101923545A (zh) * | 2009-06-15 | 2010-12-22 | 北京百分通联传媒技术有限公司 | 一种个性化信息推荐的方法 |
CN103023977A (zh) * | 2012-11-19 | 2013-04-03 | 华南理工大学 | 基于位置信息的推荐系统及推荐方法 |
CN103106616A (zh) * | 2013-02-27 | 2013-05-15 | 中国科学院自动化研究所 | 基于资源整合与信息传播特征的社区发现及演化方法 |
CN103294812A (zh) * | 2013-06-06 | 2013-09-11 | 浙江大学 | 一种基于混合模型的商品推荐方法 |
-
2014
- 2014-07-14 CN CN201410332642.1A patent/CN104063516B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050033708A1 (en) * | 2000-11-16 | 2005-02-10 | Microsoft Corporation | Methods and systems for computing singular value decompositions of matrices and low rank approximations of matrices |
CN1967536A (zh) * | 2006-11-16 | 2007-05-23 | 华中科技大学 | 基于区域的多特征融合及多级反馈的潜伏语义图像检索方法 |
CN101923545A (zh) * | 2009-06-15 | 2010-12-22 | 北京百分通联传媒技术有限公司 | 一种个性化信息推荐的方法 |
CN103023977A (zh) * | 2012-11-19 | 2013-04-03 | 华南理工大学 | 基于位置信息的推荐系统及推荐方法 |
CN103106616A (zh) * | 2013-02-27 | 2013-05-15 | 中国科学院自动化研究所 | 基于资源整合与信息传播特征的社区发现及演化方法 |
CN103294812A (zh) * | 2013-06-06 | 2013-09-11 | 浙江大学 | 一种基于混合模型的商品推荐方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105975440A (zh) * | 2016-05-05 | 2016-09-28 | 浙江理工大学 | 一种基于图计算模型的矩阵分解并行化方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104063516B (zh) | 2017-06-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Dong et al. | Inferring user demographics and social strategies in mobile social networks | |
Ribeiro et al. | Sampling directed graphs with random walks | |
US8713151B2 (en) | Configuration method and system of complex network and configuration and management module of server resources | |
CN102810113A (zh) | 一种针对复杂网络的混合型聚类方法 | |
CN104077280A (zh) | 社区发现并行化方法和系统、主节点和运算节点设备 | |
Xia et al. | Effectively identifying the influential spreaders in large-scale social networks | |
CN106203494A (zh) | 一种基于内存计算的并行化聚类方法 | |
CN103838831A (zh) | 一种基于社区划分的在线社交网络海量数据存储方法 | |
CN103500168A (zh) | 一种基于拓扑势的重叠复杂网络社区发现方法及系统 | |
Sun et al. | Matrix based community evolution events detection in online social networks | |
Jiang et al. | Dynamic community detection based on game theory in social networks | |
CN103744933A (zh) | 一种基于并行化模块度优化的社区发现方法 | |
CN112069416A (zh) | 基于社区发现的跨社交网络用户身份识别方法 | |
Behera et al. | An efficient modularity based algorithm for community detection in social network | |
CN109472712A (zh) | 一种基于结构特征强化的高效马尔可夫随机场社团发现方法 | |
CN111178678B (zh) | 基于社团影响力的网络节点重要性评估方法 | |
CN104063516A (zh) | 基于分布式矩阵分解特征提取的社交网络垃圾过滤方法 | |
CN104504266A (zh) | 基于最短路径和密度聚类的图分割方法 | |
Liu et al. | Community detection in location-based social networks: An entropy-based approach | |
Sharma et al. | Community mining in signed social networks-an automated approach | |
Sawai | Exploring a new small-world network for real-world applications | |
Wu et al. | Link prediction based on random forest in signed social networks | |
CN103051476A (zh) | 基于拓扑分析的网络社区发现方法 | |
Ji et al. | Effective spreading from multiple leaders identified by percolation in social networks | |
Kumar et al. | A review on community detection algorithms in social networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |