CN104518930B - 一种面向微博的异常用户和消息同时检测方法 - Google Patents
一种面向微博的异常用户和消息同时检测方法 Download PDFInfo
- Publication number
- CN104518930B CN104518930B CN201510012386.2A CN201510012386A CN104518930B CN 104518930 B CN104518930 B CN 104518930B CN 201510012386 A CN201510012386 A CN 201510012386A CN 104518930 B CN104518930 B CN 104518930B
- Authority
- CN
- China
- Prior art keywords
- message
- user
- matrix
- interaction
- heterogeneous
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 47
- 238000001514 detection method Methods 0.000 title claims abstract description 35
- 239000011159 matrix material Substances 0.000 claims abstract description 53
- 230000003993 interaction Effects 0.000 claims abstract description 39
- 230000002452 interceptive effect Effects 0.000 claims abstract description 33
- 244000046052 Phaseolus vulgaris Species 0.000 claims description 6
- 235000010627 Phaseolus vulgaris Nutrition 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 4
- 238000000034 method Methods 0.000 abstract description 21
- 244000097202 Rathbunia alamosensis Species 0.000 description 5
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 4
- 230000005856 abnormality Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000004744 fabric Substances 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000002844 melting Methods 0.000 description 1
- 230000008018 melting Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000001568 sexual effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于互联网信息安全管理领域,具体涉及一种面向微博的异常用户和消息同时检测方法。本发明包括:(1)数据预处理;(2)交互提取及建模;(3)基于同质交互的异质交互矩阵度量学习;(4)异质交互矩阵三分解;(5)基于先验知识的异常用户和消息识别。本发明从用户和消息两类实体出发,对两类实体产生的同质交互和异质交互进行建模,提出了面向微博的异常用户和消息的同时检测方法。在该方法中,针对异质交互矩阵,采用非负矩阵三分解的方法能够同时给出用户和消息的划分指示矩阵,提高了检测的效率。
Description
技术领域
本发明属于互联网信息安全管理领域,具体涉及一种面向微博的异常用户和消息同时检测方法。
背景技术
随着Twitter的快速流行,我国的新浪微博、腾讯微博等快速崛起。我国的微博用户超过3个亿,每天发布的大量的微博消息。微博已经深入融入到人民的生活当中。
微博具有快速的消息推送机制,使得消息在微博平台中快速传播,产生巨大的影响力。国内外有大量的研究针对Twitter进行,而新浪微博作为国内最流行的微博平台,其发布的内容主题、用户行为等与Twitter差别较大,因此国内需要进一步对其进行深入研究。
新浪微博平台中每天有大量的活跃用户和消息内容。然而,微博成为日常的社交平台的同时,平台本身、政府等对安全管理的难度逐渐增大。一些用户为了特定的目的,发布大量的异常消息。例如微博中包含大量的营销账号、僵尸粉丝等,他们经常发布大量的广告消息、促销活动消息等。一些用户为了特定的目的,通过水军、营销账号等集体推动某些消息快速广泛传播,获取巨大利益等。如何检测异常的用户和消息是微博安全管理急需解决的问题之一。
目前针对异常用户的检测,提出了一些检测算法。主要从用户的特征属性、用户发布消息的内容属性和行为属性方面进行研究,很少涉及异常单条消息的检测。传统的异常检测方法在检测异常用户和消息时,通常单独进行处理。但是,随着异常用户的智能性越来越高,很多异常的用户很难检测,异常消息就更难检测。针对异常消息检测时,大多数都是基于以下假设进行研究:异常用户发布的消息为异常消息,正常用户发布的消息为正常消息。显然该假设针对智能异常用户已经失效。例如异常用户为了逃避新浪微博本身的检测,通常情况下发布大量的正常消息,而只有在特定的情况下才发布异常消息。
在异常用户的智能性越来越高的背景下,我们抓住微博中用户和消息两类最重要的实体,从交互行为分析出发,提出了一种面向微博的异常用户和消息同时检测方法。
发明内容
本发明的目的在于提供一种提高异常检测准确率的面向微博的异常用户和消息同时检测方法。
本发明的目的是这样实现的:
面向微博的异常用户和消息同时检测方法,包括以下步骤:
(1)数据预处理;
(2)交互提取及建模;
(3)基于同质交互的异质交互矩阵度量学习;
(4)异质交互矩阵三分解;
(5)基于先验知识的异常用户和消息识别。
数据预处理的步骤为:
(1.1)用户消息排序及数据选择,根据用户发布消息时间对消息进行排序,选择用户最新的消息作为实验数据集;
(1.2)用户特征形式化和消息内容形式化:将用户的粉丝数和关注数形式化为一个特征向量,将消息内容中的链接、图片、标签、提及等形式化为消息内容属性向量。
交互提取及建模的步骤为:
(2.1)交互提取,分别提取同质交互:关注和转发,异质交互:评论、发布、提及;
(2.2)交互关系建模,将提取的交互关系采用二部图进行建模。
基于同质交互的异构交互矩阵度量学习的步骤为:
(3.1)用户相似性和相异性关系度量,根据用户特征向量计算用户的异常值,在此基础上,计算任意两个用户之间的相似性和相异性值,构建用户的相似性和相异性矩阵;
(3.2)消息相似性和相异性关系度量,根据消息属性向量计算消息的异常值,并结合用户的异常值,计算任意两条消息之间的相似性和相异性值,构建消息的相似性和相异性矩阵;
(3.3)关系距离度量学习,在距离度量学习的基础上,通过用户和消息的相似性和相异性矩阵学习新的异质交互矩阵。
异质交互矩阵三分解为非负矩阵三分解,采用乘法更新迭代求解。
基于先验知识的异常用户和消息识别的步骤为:
(5.1)基于先验知识的异常用户识别,根据用户的异常值是否超过阈值作为先验知识指导,结合用户划分指示矩阵得到最终的异常用户检测;
(5.2)基于先验知识的异常消息识别,根据消息的异常值是否超过阈值作为先验知识指导,结合消息划分指示矩阵得到最终的异常消息检测。
本发明的有益效果在于:
1)本发明从用户和消息两类实体出发,对两类实体产生的同质交互和异质交互进行建模,提出了面向微博的异常用户和消息的同时检测方法。在该方法中,针对异质交互矩阵,采用非负矩阵三分解的方法能够同时给出用户和消息的划分指示矩阵,提高了检测的效率。
2)本发明在度量用户和消息的相似性和相异性交互基础上,通过距离度量学习,将同质交互融合到异质交互矩阵中,进一步提高了检测方法的准确率。
附图说明
图1系统检测流程图。
图2用户-消息交互示意图。
图3用户-消息二部图模型。
具体实施方式
下面结合附图对本发明做进一步描述。
鉴于现有的异常检测方法通常从用户的特征属性、内容属性和行为属性方面进行研究,但是异常用户的智能性越来越高,传统的方法的准确率越来越低。在该背景下,本发明提出了一种面向微博的异常用户和消息同时检测方法。该方法中放弃“异常用户发布的消息为异常消息,正常用户发布的消息为正常消息”的假设。而是抓住微博平台中最重要的两类实体:用户和消息,重点分析两类实体产生的交互关系。通过对用户和消息之间的同质交互和异质交互进行建模,采用非负矩阵三分解的方法实现异常用户和消息的同时检测。在该方法中,通过用户和消息的相似性和相异性度量,将同质交互融合到异质交互矩阵中,进而提高了异常检测的准确率。
本发明的整体检测流程如图1所示,具体分为五个步骤。
步骤A:数据预处理;
步骤B:交互提取及建模;
步骤C:基于同质交互的异构交互矩阵度量学习;
步骤D:异质交互矩阵三分解;
步骤E:基于先验知识的异常用户和消息识别。
所述步骤A包括些下列步骤:
步骤A1,用户消息排序及数据选择,根据用户发布消息时间对消息进行排序,选择用户最新的消息作为实验数据集;
步骤A2,用户特征形式化和消息内容形式化。将用户的粉丝数和关注数形式化为一个特征向量。将消息内容中的链接、图片、标签、提及等形式化为消息内容属性向量。
所述步骤B包括些下列步骤:
步骤B1,交互关系提取,分别提取同质交互:关注和转发,异质交互:评论、发布、提及;
步骤B2,交互建模,将提取的交互关系采用二部图进行建模。
所述步骤C包括些下列步骤:
步骤C1,用户相似性和相异性关系度量,根据用户特征向量计算用户的异常值。在此基础上,计算任意两个用户之间的相似性和相异性值,构建用户的相似性和相异性矩阵;
步骤C2,消息相似性和相异性关系度量,根据消息属性向量计算消息的异常值,并结合用户的异常值,计算任意两条消息之间的相似性和相异性值,构建消息的相似性和相异性矩阵;
步骤C3,关系距离度量学习。在距离度量学习的基础上,通过用户和消息的相似性和相异性矩阵学习新的异质关系矩阵。
所述步骤D包括些下列步骤:
步骤D1,非负矩阵三分解,采用乘法更新迭代求解;
所述步骤E包括些下列步骤:
步骤E1,基于先验知识的异常用户识别。根据用户的异常值是否超过阈值作为先验知识指导,结合用户划分指示矩阵得到最终的异常用户检测。
步骤E2,基于先验知识的异常消息识别。根据消息的异常值是否超过阈值作为先验知识指导,结合消息划分指示矩阵得到最终的异常消息检测。
为了完成本发明,针对微博的异常用户和消息同时检测进行如下实施,并给出具体的实施例。
(一)本发明中抽取用户最近一页的微博消息和用户属性信息。首先对微博消息按照发布时间序进行排序,并选择最新的20条微博消息。然后对于每一个用户,提取其对应的特征属性:粉丝数、关注数、用户昵称。
针对预处理好的微博数据,主要考虑用户和消息两类实体,抽取实体产生的交互关系,主要考虑两类交互:同质交互和异质交互。同质交互就是用户与用户之间的交互、消息与消息之间的交互,包括用户之间的关注关系、消息之间的转发关系。异质交互指两类实体之间的交互,包括用户发布消息、用户回复消息、消息中提及用户。抽取两类实体产生的交互示意图如图2所示,为了能够后续叙述方便,P代表发布消息,F代表关注关系,M代表提及交互,C代表评论交互,R代表转发交互。
在提取两类实体产生的交互基础上,本发明中通过二部图进行建模,模型如图3所示。将同质交互和异质交互都建模在用户-消息二部图模型中,这样方便处理。
下面将针对二部图中的交互进行定量度量,用户与消息之间的交互矩阵B定义如下:
为了充分考虑用户和消息本身的属性,首先计算用户和消息的异常向量FU和FT。根据用户的粉丝数和关注数定义用户Ua的异常值如公式2所示。根据消息内容中包含的链接等定义消息Tx的异常值如公式3所示。
其中为用户Ua的粉丝数,为用户Ua的关注数。
其中分别为消息内容中链接数、提及数、图片数、标签数。
同质交互主要包括两类:用户之间的交互和消息之间的交互。每一类交互分别按照相似性和相异性交互,因此共计包括四类交互的度量。对于任意两个用户Ua和Ub之间的相似性交互相异性交互其计算分别如公式4和5所示。
其中α为用户异常值对应的阈值,超过该阈值的被直接认为是异常用户。
对于任意两条消息Tx和Ty之间的相似性交互相异性交互其计算分别如公式6和7所示。
其中α为用户异常值对应的阈值,β为消息异常值对应的阈值,超过阈值则认为是异常的。
(二)用户-消息二部图通常采用矩阵进行表示,但是矩阵的稀疏性对分解算法的影响较大。为了进一步降低矩阵的稀疏度,将同质交互融合到异构关系矩阵中。对于上述计算得到的本发明中通过距离度量学习LU和LT实现同质交互的融合,其目标函数QU,QT如下:
在上述优化求解的过程中,通过距离度量LU和LT学习新的交互矩阵
(三)针对新的交互矩阵采用非负矩阵三分解算法实现,其对应的目标函数为Q:
其中PU,PM,S分别为用户划分指示矩阵、消息划分指示矩阵和关联矩阵。
该目标函数对应的求解方法很多,在本发明中采用基于乘法的迭代更新求解方法实现求解。最后根据用户和消息的异常值是否超过阈值作为先验知识指导,结合用户和消息划分指示矩阵得到最终的异常用户和消息检测。
(四)实验验证
为了验证本发明的有效性,我们搭建了典型应用环境。首先收集微博数据集,其中用户包括两类:一类是正常用户,采用随机抓取方式,共收集66283个用户;一类是异常用户,为了标注方便,直接在淘宝上购买的用户1000个,经过新浪微博本身的平台过滤之后还有778个异常用户。每个用户收集其最新一页的微博消息,经过预处理后,得到正常消息1819568,异常消息942325。
1)用户消息数目选取实验
在做异常用户识别的过程中,如果用户的消息数目选择过多,则将影响本发明算法的执行效率。在确保异常用户识别准确率的前提下,选择合适的消息数目能够提高执行效率。通过实验分析可知,每个用户选择最新的10-20条消息就可以较好的判定。
2)准确性对比实验
为了对比本发明同时识别异常用户和异常消息的准确率,实验中采用F1值作为定量的对比指标。从本方法的实验结果分析可知,检测正常用户、消息的准确率要比检测异常用户、消息的准确率都要高。在检测消息的准确率比检测用户的准确率要低一些,这主要是用户的属性就基本能够识别,但是消息内容属性很难准确识别消息的异常情况。
实验中选择基于非负矩阵分解(NMF)的方法、基于SVM的方法进行对比分析。对比实验结果表明本方法的在识别用户和消息的准确率上都优于其他方法,本方法的F1值比基于NMF的方法要高0.2以上,比基于SVM的方法也要高0,05以上。这主要是本方法中在考虑用户属性、消息内容属性的基础上,重点考虑了交互关系。在二部图的基础上,将同质关系通过距离度量学习融合到异质交互矩阵中,这样能够进一步提高异常用户和消息检测的准确率。
Claims (2)
1.一种面向微博的异常用户和消息同时检测方法,其特征在于,包括以下步骤:
(1)数据预处理;
(2)交互提取及建模;
(3)基于同质交互的异质交互矩阵度量学习;
(4)异质交互矩阵三分解;
(5)基于先验知识的异常用户和消息识别;
所述交互提取及建模的步骤为:
(2.1)交互提取,分别提取同质交互:关注和转发,异质交互:评论、发布、提及;
(2.2)交互关系建模,将提取的交互关系采用二部图进行建模;
所述基于同质交互的异质交互矩阵度量学习的步骤为:
(3.1)用户相似性和相异性关系度量,根据用户特征向量计算用户的异常值,在此基础上,计算任意两个用户之间的相似性和相异性值,构建用户的相似性和相异性矩阵;
(3.2)消息相似性和相异性关系度量,根据消息属性向量计算消息的异常值,并结合用户的异常值,计算任意两条消息之间的相似性和相异性值,构建消息的相似性和相异性矩阵;
(3.3)关系距离度量学习,在距离度量学习的基础上,通过用户和消息的相似性和相异性矩阵学习新的异质交互矩阵;
所述异质交互矩阵三分解为非负矩阵三分解,采用乘法更新迭代求解;
所述基于先验知识的异常用户和消息识别的步骤为:
(5.1)基于先验知识的异常用户识别,根据用户的异常值是否超过阈值作为先验知识指导,结合用户划分指示矩阵得到最终的异常用户检测;
(5.2)基于先验知识的异常消息识别,根据消息的异常值是否超过阈值作为先验知识指导,结合消息划分指示矩阵得到最终的异常消息检测。
2.根据权利要求1所述的一种面向微博的异常用户和消息同时检测方法,其特征在于,所述数据预处理的步骤为:
(1.1)用户消息排序及数据选择,根据用户发布消息时间对消息进行排序,选择用户最新的消息作为实验数据集;
(1.2)用户特征形式化和消息内容形式化:将用户的粉丝数和关注数形式化为一个特征向量,将消息内容中的链接、图片、标签、提及等形式化为消息内容属性向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510012386.2A CN104518930B (zh) | 2015-01-09 | 2015-01-09 | 一种面向微博的异常用户和消息同时检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510012386.2A CN104518930B (zh) | 2015-01-09 | 2015-01-09 | 一种面向微博的异常用户和消息同时检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104518930A CN104518930A (zh) | 2015-04-15 |
CN104518930B true CN104518930B (zh) | 2017-11-21 |
Family
ID=52793695
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510012386.2A Expired - Fee Related CN104518930B (zh) | 2015-01-09 | 2015-01-09 | 一种面向微博的异常用户和消息同时检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104518930B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105005594B (zh) * | 2015-06-29 | 2018-07-13 | 嘉兴慧康智能科技有限公司 | 异常微博用户识别方法 |
CN108985815A (zh) * | 2018-06-06 | 2018-12-11 | 阿里巴巴集团控股有限公司 | 一种用户识别方法、装置及设备 |
CN109587523B (zh) * | 2018-11-30 | 2021-05-28 | 武汉斗鱼网络科技有限公司 | 一种虚假关注的识别方法以及相关设备 |
CN109905399B (zh) * | 2019-03-14 | 2021-06-01 | 哈尔滨工程大学 | 一种基于自我网络结构演化的社交媒体个体异常用户检测方法 |
CN111259962B (zh) * | 2020-01-17 | 2023-06-20 | 中南大学 | 一种针对时序社交数据的Sybil账号检测方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010144618A1 (en) * | 2009-06-09 | 2010-12-16 | Ebh Enterprises Inc. | Methods, apparatus and software for analyzing the content of micro-blog messages |
CN103150374A (zh) * | 2013-03-11 | 2013-06-12 | 中国科学院信息工程研究所 | 一种识别微博异常用户的方法和系统 |
CN103700018A (zh) * | 2013-12-16 | 2014-04-02 | 华中科技大学 | 一种移动社会网络中的人群划分方法 |
CN104166726A (zh) * | 2014-08-26 | 2014-11-26 | 哈尔滨工程大学 | 一种面向微博文本流的突发关键词检测方法 |
-
2015
- 2015-01-09 CN CN201510012386.2A patent/CN104518930B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010144618A1 (en) * | 2009-06-09 | 2010-12-16 | Ebh Enterprises Inc. | Methods, apparatus and software for analyzing the content of micro-blog messages |
CN103150374A (zh) * | 2013-03-11 | 2013-06-12 | 中国科学院信息工程研究所 | 一种识别微博异常用户的方法和系统 |
CN103700018A (zh) * | 2013-12-16 | 2014-04-02 | 华中科技大学 | 一种移动社会网络中的人群划分方法 |
CN104166726A (zh) * | 2014-08-26 | 2014-11-26 | 哈尔滨工程大学 | 一种面向微博文本流的突发关键词检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104518930A (zh) | 2015-04-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104518930B (zh) | 一种面向微博的异常用户和消息同时检测方法 | |
CN104899267B (zh) | 一种社交网站账号相似度的综合数据挖掘方法 | |
Li et al. | Uncovering the overlapping community structure of complex networks by maximal cliques | |
WO2017157203A1 (zh) | 一种分布式环境下监督学习算法的基准测试方法和装置 | |
CN104573130B (zh) | 基于群体计算的实体解析方法及装置 | |
Zhao et al. | A new clustering method and its application in social networks | |
CN105874753A (zh) | 用于社交数据网络用户行为细分的系统和方法 | |
CN105337987B (zh) | 一种网络用户身份认证方法及系统 | |
CN108230016B (zh) | 一种农产品市场价格传递分析方法及分析装置 | |
CN109117781A (zh) | 多属性识别模型的建立方法、装置及多属性识别方法 | |
Cui et al. | Detecting community structure via the maximal sub-graphs and belonging degrees in complex networks | |
CN108062477A (zh) | 基于侧信道分析的硬件木马检测方法 | |
CN110009430A (zh) | 作弊用户检测方法、电子设备及计算机可读存储介质 | |
CN110457481A (zh) | 一种分类模型训练的方法、装置、设备以及存储介质 | |
CN102314520A (zh) | 基于统计回溯定位的网页正文提取方法和装置 | |
CN108830630B (zh) | 一种虚假消息的识别方法及其设备 | |
CN104268289B (zh) | 链接url的失效检测方法和装置 | |
CN112487208A (zh) | 一种网络安全数据关联分析方法、装置、设备及存储介质 | |
CN106227743B (zh) | 广告目标群体触达比率评估方法及装置 | |
CN104636454B (zh) | 一种面向大规模异构数据的联合聚类方法 | |
CN104077524B (zh) | 用于病毒鉴定的训练方法和病毒鉴定方法及装置 | |
CN107493275A (zh) | 异构网络安全日志信息的自适应提取和分析方法及系统 | |
Zhang et al. | The community detection algorithm based on the node clustering coefficient and the edge clustering coefficient | |
Qin et al. | Malaria cell detection using evolutionary convolutional deep networks | |
CN106844743B (zh) | 维吾尔语文本的情感分类方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20171121 |