CN103198161A - 微博水军识别方法与设备 - Google Patents
微博水军识别方法与设备 Download PDFInfo
- Publication number
- CN103198161A CN103198161A CN2013101543763A CN201310154376A CN103198161A CN 103198161 A CN103198161 A CN 103198161A CN 2013101543763 A CN2013101543763 A CN 2013101543763A CN 201310154376 A CN201310154376 A CN 201310154376A CN 103198161 A CN103198161 A CN 103198161A
- Authority
- CN
- China
- Prior art keywords
- user
- microblogging
- comment
- waterborne troops
- cost
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
本发明提供用于微博平台的水军识别方法及设备,包括单个用户水军识别和一条微博的转发、评论用户水军识别。单个用户的识别过程为,对于待识别的微博用户,基于从微博平台采集的与该微博用户相关的信息评估该用户在微博平台上的成本;然后根据该用户在微博平台上的成本来判断该用户是否为水军。一条微博的转发、评论用户的识别过程主要基于单个用户水军识别,但是对评论用户增加了基于用户评论相似性进行识别的方法。该方法能有效地识别微博平台中的水军用户。而且基于用户评论的相似性的识别,更能能够有效识别团伙水军。
Description
技术领域
本发明涉及网络数据分析,尤其涉及识别微博平台中水军的方法。
背景技术
微博作为一种新的社交媒体普及率越来越高。微博这一平台为大众提供了信息发布与获取的共享平台,用户可以随时随地记录和分享学习、工作、生活的各个方面。内容发布的便利性、及时性、丰富性,信息传播的便捷性、时效性、扩展性,为用户信息获取、信息传播、营销等提供了很好的平台,这也促使更多的个人用户、企业用户,甚至是政府部门和政府官员加入到这个平台中来,而他们的加入进一步丰富了系统的用户和内容,微博平台的价值日益凸显。正是这个平台的巨大价值使得很多的用户花费很多时间和精力来提高自己在这个平台的影响力或者充分利用这个平台提供的资源。然而也有一些用户,既包括个人用户、企业用户,也包括一些政府或者组织的用户雇佣水军来达到自己特定的目的。而且微博上用户的行为较之其它平台也更加的复杂,如有的用户是一个正常用户但是可能临时被雇佣来为某用户的微博造势,对该微博进行转发或者评论。由于微博平台作为一种新的社交网络出现的时间还不长,水军问题还没有得到应有的重视,还缺乏有效的水军识别方法。
微博水军有两种,一种是指由机器人或者真正的人操纵的账号,这些账号用来给系统中某用户增加粉丝(俗称僵尸粉),另一种是指由机器算法操纵或者由其它的用户来操纵为他人转发评论造势的微博账户。
在微博平台中一些用户尤其是名人用户,其影响力或者在系统中被推荐给其它用户的概率、或者在系统中曝光的频率,与其粉丝的数量有很大的关系,与其微博在平台中被转发和评论的次数也有很大的关系。因此一些用户就通过购买水军为其粉丝、通过雇佣水军对其微博进行转发和评论的方式来增加个人在平台的影响力或者排名。通过判定一个用户是否是水军,可以识别系统中用户的粉丝中真实用户的数量,从而可以帮助判定一个用户的真正的影响力,从而在系统的用户推荐等部分做出更合理的判断。
用户为了增加自己在平台的影响力而雇佣水军为其粉丝或者转发评论其微博对平台系统产生了一些负面的影响。还有两种情况可能比这种情况对系统的影响更大,甚至有时候误导平台的用户。一种情况是系统中的用户,包括个人用户、企业用户、组织等,发布了一条微博,然后雇佣水军对该微博进行转发和评论,从而达到某种宣传或者炒作的效果。另一种情况是雇佣水军对竞争对手的微博进行恶意评论,诋毁竞争对手,或者制造一些虚假信息雇佣水军来进行转发、评论来欺骗或者煽动群众。这两种情况对系统中的用户来讲,有可能被一些虚假信息蒙蔽或者对假信息信以为真,对微博平台来讲有可能需要更多地存储、计算等资源,甚至影响到平台上用户的体验造成用户的流失,对社会来讲有可能舆论会受到微博平台的影响,从而影响更多的人。
传统的网络水军识别的方法主要针对论坛、博客等平台来进行,而且大部分是根据用户的帖子的内容如情感性倾向等来进行。而微博平台与其它的很多平台相比有很大的不同之处,首先用户在微博上的信息更加公开化,其次用户微博的内容被限制为140个字符采用传统的语义分析的方法行不通,最后微博水军的定义更加模糊,用户可能只是在某条微博的转发评论中表现出水军的性质。因此,亟需一种在微博平台中进行水军识别的方法。
发明内容
因此,本发明的目的在于克服上述现有技术的缺陷,提供针对单个用户的微博水军识别方法以及针对一条微博的转发和评论情况对转发用户和评论用户进行水军识别的方法。
本发明的目的是通过以下技术方案实现的:
一方面,本发明提供了一种针对单个用户的微博水军识别方法,该方法包括:
步骤1)对于待识别的微博用户,基于从微博平台采集的与该微博用户相关的信息评估该用户在微博平台上的成本;
步骤2)根据该用户在微博平台上的成本来判断该用户是否为水军;
其中,与微博用户相关的信息包括该微博用户在微博平台中的注册行为及相关信息、该微博用户在微博平台上的社交行为及相关信息,该微博用户在微博平台中的发布微博、转发微博、评论微博行为及相关信息。
上述方法中,用户在微博平台上的成本可包括管理成本、曝光成本、社交成本和/或微博成本;用户的管理成本表示该用户在微博平台中花费的时间和精力;用户的曝光成本表示用户暴露在微博平台中的信息的透明程度;用户的社交成本表示用户在微博平台中的人脉资源信息;微博成本表示用户在平台中发布信息、转发信息等所花费的成本。
上述方法中,所述管理成本可以以用户账号中的收藏数量、用户等级、用户账号中标签的数量、和/或用户账号的注册时长来表征。
上述方法中,所述曝光成本可以以用户账号中地理位置信息、用户账号中自我描述的信息、用户账号链接信息和/或用户账号认证信息来表征。
上述方法中,所述社交成本可以以用户的粉丝数量、用户的关注数量、用户的互粉数量和/或与其它用户的交互比率来表征,其中,与其它用户的交互比率为N1/N2,N1为用户评论或回复其它用户的微博的数量,而N2为被该用户评论或者回复的用户数量。
上述方法中,所述微博成本可以以用户发布的微博数量与粉丝数量的比率、用户发布微博的规律性、发布微博与转发微博的比率和/或转发其它用户的比率来表征,其中用户发布微博的规律性以用户最近的几个周期的方差来表征。
上述方法中,还可包括确定用于评估用户在微博平台中的成本的用户属性的步骤,以及所述步骤1)可包括:对于待识别的微博用户,从微博平台采集所确定的用户属性信息;基于所采集的用户属性信息评估该用户在微博平台上的成本。
又一方面,本发明还提供了一种微博水军识别方法,包括:
步骤1)对于待处理的微博,获取与转发该微博的用户相关的信息、和/或与评论该微博的用户相关的信息以及用户评论的内容;
步骤2)采用上述针对单个用户的微博水军方法对转发该微博的用户和/或评论该微博的用户进行水军识别。
其中,所述步骤2)还可包括:如果判断转发该微博的用户不是水军,则比较该用户转发该微博的次数与预定的转发次数阈值的大小,如果用户转发该微博的次数大于等于该转发次数阈值那么判定用户是水军。
所述步骤2)还可包括:
如果判断评论该微博的用户不是水军,则比较该用户评论该微博的次数与预定的评论次数阈值的大小,如果用户评论该微博的次数大于等于该评论次数阈值那么判定用户是水军。
又一方面,本发明还提供了一种微博水军识别方法,该方法包括:
步骤1)对于待处理的微博,获取与评论该微博的用户相关的信息以及用户评论的内容;
步骤2)基于用户评论相似性来判断评论该微博的用户是否为水军。
其中,所述步骤2)可包括:
步骤a)统计评论该微博的各个用户对该微博的评论次数和评论内容;
步骤b)根据用户评论内容的相似度对评论进行分组;
步骤c)对于每个分组判断其是否为水军分组,如果某个分组被判定为水军分组,那么该组所有的评论对应的用户都被看作水军。
其中,所述步骤b)可包括:
对于该微博的每条评论进行如下处理:
计算该评论与其它所有评论的相似性,找出该评论与其它评论的相似性最大值;
判断该相似性最大值是否大于等于预定的相似性阈值,如果是,则将该评论加入到与该相似性最大值所对应的评论所在的分组。
其中,所述步骤c)可包括:
步骤c1)对于每个分组内评论所属的用户,采用如上述的针对单个用户的微博水军识别方法来判断该用户是否为水军;
步骤c2)计算该分组内的水军用户所占的比例,该比例等于该分组内被判定为水军的用户的数量与该分组内评论所属的用户总数的比值;
步骤c3)如果该分组中水军的比例超过了设定的阈值,则判定该分组为水军分组,该水军分组内的所有用户都被判定为水军。
其中,所述步骤c3)还可包括:
如果该分组中水军的比例小于设定的阈值,则将该分组中未判为水军的每个用户按照评论次数与预定的评论次数阈值作比较,如果大于等于评论次数阈值,则判定该用户为水军,否则判定该用户不是水军,然后重新计算该分组内的水军用户所占比例,并将该比例与设定的阈值进行比较,如果超过了设定的阈值,则判定该分组为水军分组,该水军分组内的所有用户都被判定为水军。
又一方面,本发明还提供了一种针对单个用户的微博水军识别设备,该设备包括:用户成本计算装置,其对于待识别的微博用户,基于从微博平台采集的与该微博用户相关的信息评估该用户在微博平台上的成本;和
单用户水军判别装置,其根据该用户在微博平台上的成本来判断该用户是否为水军;其中,与微博用户相关的信息包括该微博用户在微博平台中的注册行为及相关信息、该微博用户在微博平台上的社交行为及相关信息,该微博用户在微博平台中的发布微博、转发微博、评论微博行为及相关信息。
又一个方面,本发明还提供了一种微博水军识别设备,该设备包括:
信息获取装置,用于对于待处理的微博,获取与转发该微博的用户相关的信息、和/或与评论该微博的用户相关的信息以及用户评论的内容;
上述的针对单个用户的微博水军识别设备,用于对转发该微博的用户和/或评论该微博的用户进行水军识别。
又一方面,本发明还提供了一种微博水军识别设备,该设备包括:
信息获取装置,其对于待处理的微博,获取与评论该微博的用户相关的信息以及用户评论的内容;
判别装置,其基于用户评论相似性来判断评论该微博的用户是否为水军。其中,所述判别装置可被配置为执行:统计评论该微博的各个用户对该微博的评论次数和评论内容;根据用户评论内容的相似度对评论进行分组;对于每个分组判断其是否为水军分组,如果某个分组被判定为水军分组,那么该组所有的评论对应的用户都被看作水军。
与现有技术相比,本发明的优点在于:
提供了用于识别微博平台中的水军的行之有效的方法,针对微博平台中水军用户出现的两种场景:作为独立用户出现和针对一条微博的转发、评论出现两种,分别提供了相应的识别方法。此外,针对评论用户的水军识别,提出针对用户评论的相似性来进行,对水军尤其是团伙水军能够有效识别。
附图说明
以下参照附图对本发明实施例作进一步说明,其中:
图1为根据本发明实施例的微博水军识别方法的流程示意图;
图2为根据本发明一个实施例的微博水军识别设备对单用户进行识别的过程示意图;
图3为根据本发明一个实施例的微博水军识别设备对转发和评论微博的用户进行识别的过程示意图;
图4为根据本发明又一个实施例的微博水军识别设备对转发用户进行水军识别的过程示意图;
图5为根据本发明又一个实施例的微博水军识别设备对评论用户进行水军识别的过程示意图;
图6为根据本发明又一个实施例的微博水军识别设备基于单个用户水军识别方法对评论用户进行水军识别的过程示意图;
图7为根据本发明又一个实施例的微博水军识别设备基于评论相似性的对评论用户进行水军识别的过程示意图;
图8为根据本发明又一个实施例的微博水军识别设备的操作流程示意图;
图9为根据本发明又一个实施例的水军用户和正常用户在微博平台上的成本对比示意图。
具体实施方式
为了使本发明的目的,技术方案及优点更加清楚明白,以下结合附图通过具体实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在本发明的一个实施例中,提供了一种在微博平台中单用户水军识别的方法,该方法针对单个用户,利用该用户在微博平台(下文中有时也简称为平台)上的成本来判断该用户是否为水军。用于评估用户在微博平台上的成本的相关信息可包括用户在微博平台中的注册行为及相关信息、用户在微博平台上的社交行为及相关信息,用户在微博平台中的发布微博、转发微博、评论微博等行为及相关信息。该方法主要包括以下步骤:步骤1,对于待识别的微博用户,根据在微博平台中采集的与该用户相关的信息,评估该用户在微博平台中的成本;步骤2,根据该用户在微博平台的成本来判断该用户是否为水军。例如将该用户在微博平台中的成本与水军判定阈值相比较,如果大于水军判定阈值,则判定该用户不是水军;如果小于水军判定阈值,则判定该用户为水军。在一个实施例中,用户在微博平台中的成本可包括管理成本、曝光成本、社交成本、微博成本等等。
(1)用户的管理成本
用户的管理成本表示该用户在微博平台中花费的时间、精力等,管理成本可以用户账号中的收藏数量、用户等级、用户账号中标签的数量、用户账号的注册时长等来表征(这些统称为管理成本特征)。
(2)用户的曝光成本
用户的曝光成本表示用户暴露在微博平台中的信息的透明程度,反映了用户对微博平台的信任与热爱,曝光成本可以用户账号中地理位置信息、用户账号中自我描述的信息、用户账号链接信息、用户账号认证信息等来表征(这些统称为曝光成本特征)。
(3)用户的社交成本
用户的社交成本表示用户在微博平台中的人脉资源等信息,一定程度上反映着用户在现实中的社交关系,代表着用户愿意在该微博平台中花费多大精力和时间等信息,社交成本可以粉丝数量、用户的关注数量、用户的互粉数量、与其它用户的交互比率(可简称为交互比率)等来表征(这些统称为社交成本特征)。其中,与其它用户的交互比率为N1/N2,N1为用户评论或回复其它用户的微博的数量,而N2为被该用户评论或者回复的用户数量。
(4)用户的微博成本
微博成本表示用户在平台中发布信息、转发信息等所花费的成本,微博成本可以用户发布的微博数量与粉丝数量的比率(可简称为微博粉丝比)、用户发布微博的规律性、发布微博与转发微博的比率、转发其它用户的比率等来表征(这些统称为微博成本特征)。其中,用户发布微博的规律性可以以用户最近的N个周期的方差来表征,例如,以时间T为周期,计算用户发布微博的数量,之后计算用户最近的N个周期内发布微博的数量的方差。举例来说:用户最近5个周期发布的微博数量分别为(3,6,1,5,0),那么该用户在最近5个周期的方差为3.4,那么就用3.4代表用户发布微博的规律性。用户转发其它用户的比率为N1/N2,N1为用户的转发微博数,N2为用户转发微博所属的用户数。也就是说,N1为用户转发其它用户的微博数量,那么用户转发的这些微博可能有多条属于同一个用户发表的,统计用户转发的这些微博中的独立用户数量即N2。
上述的用户的管理成本特征、曝光成本特征、社交成本特征、微博成本特征可以通过表1所示的属性索引表和表2所示的用户特征表来描述。
表1
属性索引 | 属性名称 | 属性权重 |
1 | 注册时长 | 0.05 |
2 | 收藏数量 | 0.10 |
... | ... | ... |
表2
用户ID | 属性索引1 | 属性索引2 | 属性索引3 | 属性索引4 | ... |
表1记录的是可以从微博平台中采集与用户相关的哪些属性信息,以及每个属性的权重。表2所示的用户特征表中属性索引对应表1属性索引表中的属性索引,其中存储的内容是对应属性的值或者是用户是否有对应的属性。
例如,表3所示的一个属性索引表实例,其中包括16个属性。
属性索引 | 届性名称 | 属性权重 |
1 | 注册时长 | w1 |
2 | 收藏数量 | w2 |
3 | 用户等级 | w3 |
4 | 标签数量 | w4 |
5 | 地理位置信息 | w5 |
6 | 自我描述信息 | w6 |
7 | 链接信息 | w7 |
8 | 认证信息 | w8 |
9 | 粉丝数量 | w9 |
10 | 关注数量 | w10 |
11 | 互粉数量 | w11 |
12 | 交互比率 | w12 |
13 | 微博粉丝比 | w13 |
14 | 发布微博规律性 | w14 |
15 | 发布微博与转发微博比率 | w15 |
16 | 转发用户比 | w16 |
表4所示的是与表3的属性索引表实例对应的一个用户特征表的示例。该用户的标识符(即用户ID)为111111。
表4
用户ID | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 |
111111 | 315360 | 10 | 7 | 6 | 0 | 0 | 1 | 1 | 1000 | 200 | 150 | 3.6 | 5.5 | 10.2 | 0.2 | 1.5 |
如表4所示,第一列对应用户的ID,从第二列到最后一列分别对应用户在相应属性索引对应的属性上的取值,如第二列对应用户在属性索引为1的属性上的值,本例中对应用户的注册时长,最后一列对应属性索引为16的属性上的值,本例中为转发用户比。有的属性值为0或1,如在属性是否认证上的取值,如果用户为认证用户那么该属性取值为1,否则该属性取值为0;在属性地理位置信息上的取值,如果用户在注册时地理位置信息既包括省份信息也包括城市信息那么该属性值为1,否则该属性值为0;在属性自我描述信息上的取值,如果用户信息中有自我描述信息那么该属性取值为1,否则该属性取值为0;在属性链接信息上的取值,如果用户注册信息中包含链接信息如自己的博客地址、个人主页等则该属性取值为1,否则该属性取值为0。有的属性值是不限于0或1的整数,如在属性粉丝数上的值,还有的属性值为浮点数如在属性转发用户比上的取值。就表4而言,该用户ID为111111的用户,其注册时长为315360,表示用户注册时间到当前时间所经历的毫秒数;收藏数量为10,用户等级为3,标签数量为6,地理位置信息为0,自我描述信息为0,链接信息为1,认证信息为0,粉丝数量为1000,关注数量为200,互粉数量为150,交互比率为3.6,微博粉丝比为5.5,发布微博规律性为10.2,发布微博与转发微博比为0.2,转发用户比为1.5。
另外,设置各个属性的权重的方法可以是根据采集的微博和用户数据的统计特征直接指定,也可以将各个属性的权重设置为相等,但最终要对属性的权重进行归一化处理,即各个属性的权重之和为1。在又一示例中,也可通过层次分析法(analytic hierarchy process)来确定用户成本特征属性的权重,以上述的16个用户成本特征属性为例,具体过程如下:
1)首先建立水军识别指标评价体系的结构模型
水军识别指标评价体系的结构模型如表5所示,包括了目标层、准则层、指标层三层。
表5
2)构造判断矩阵并赋值
根据水军识别指标评价体系的结构模型,来构建判断矩阵。由于该评价体现共包含了16个用户成本特征属性,因此所构建的判断矩阵为16x16的矩阵,矩阵中每个元素反映两个用户成本特征属性两两比较哪个重要,重要多少,按照所定义的重要性标度含义表(如表6所示)对重要性程度按1-9赋值。例如“收藏数量”相比“地理位置信息”十分重要,则可以将判断矩阵中位于“收藏数量”所在行,“地理位置信息”所在列的元素标注为8;又例如,“收藏数量”相比“关注数量”稍重要,则可以将判断矩阵中位于“收藏数量”所在行,“关注数量”所在列的元素标注为3。
表6
重要性标度 | 含义 |
1 | 表示两个元素相比,具有同等重要性 |
3 | 表示两个元素相比,前者比后者稍重要 |
5 | 表示两个元素相比,前者比后者明显重要 |
7 | 表示两个元素相比,前者比后者十分重要 |
9 | 表示两个元素相比,前者比后者绝对重要 |
2,4,6,8 | 表示上述判断的中间值 |
基于上述水军识别指标评价体系的结构模型和判断矩阵,使用yaahp层次分析法软件进行计算,可得到这16个用户成本特征属性的权重如表7所示。
属性 | 权重 |
用户等级 | 0.2811 |
收藏数量 | 0.1988 |
标签数量 | 0.1037 |
注册时长 | 0.0359 |
交互比率 | 0.0886 |
互粉数量 | 0.0598 |
粉丝数量 | 0.0176 |
关注数量 | 0.0061 |
转发用户比 | 0.0754 |
微博粉丝比 | 0.0496 |
发布转发比 | 0.0192 |
微博规律性 | 0.0113 |
链接信息 | 0.0331 |
认证信息 | 0.0133 |
自我描述信息 | 0.0041 |
地理位置信息 | 0.0024 |
下面结合属性索引表和用户特征表来介绍用户在微博平台中各成本值的计算方式:
(1)用户的管理成本计算如下:
①用户的收藏数量对应的成本。如果用户的收藏数>=收藏数阈值,那么用户的收藏数量对应的成本值=属性收藏数量对应的权重值;否则用户的收藏数量对应的成本值=属性收藏数量对应的权重值*(收藏数/收藏数阈值)。在当前阶段水军用户一般没有收藏,因此,该收藏数阈值可以设置为0。
②用户的等级对应的成本。如果用户在平台中的等级>=等级阈值,那么用户等级对应的成本值=属性用户等级对应的权重;否则用户等级对应的成本值=属性用户等级对应的权重*(用户等级/等级阈值)。用户等级阈值的设置可以通过统计水军样本的等级来设定,比如将等级阈值设定为至少比水军样本中80%的用户等级高的值。
③用户账号中标签的数量对应的成本。如果用户的标签数量>=标签数量阈值,那么用户的标签数量对应的成本值=属性标签数量对应的权重;否则用户的标签数量对应的成本值=属性标签数量对应的权重*(标签数量/标签数量阈值)。标签数量的阈值可以通过计算系统中用户的平均标签数量来取得。
④用户账号的注册时长对应的成本。如果用户的注册时长>=注册时长阈值,那么用户的注册时长对应的成本值=属性注册时长对应的权重;否则户的注册时长对应的成本值=属性注册时长对应的权重*(注册时长/注册时长阈值)。注册时长阈值的设定也可以通过计算一定数量用户注册时长的平均值来取得。
(2)用户的曝光成本计算如下:
①用户账号地理信息对应的成本。如果用户的地理信息比较详细,那么用户的地理信息的成本值=属性地理位置信息对应的权重;否则用户的地理信息的成本值=0。
②用户账号中自我描述信息对应的成本。如果用户账号中有自我描述信息,那么用户自我描述信息对应的成本值=属性用户自我描述信息对应的权重;否则用户自我描述信息对应的成本值=0。
③用户账号中链接信息对应的成本。如果用户账号中有链接信息,那么用户对应的连接成本值=属性用户的连接信息对应的权重;否则用户对应的连接成本值=0。
④用户账号认证信息对应的成本。如果用户账号经过认证,那么用户的认证信息对应的成本值=属性用户认证信息对应的权重;否则用户的认证信息对应的成本值=0。
(3)用户的社交成本计算如下:
①用户的粉丝数量对应的成本。如果用户的粉丝数量>=粉丝数量阈值,那么用户的粉丝数量对应的成本值=属性粉丝数量对应的权重;否则用户的粉丝数量对应的成本值=属性粉丝数量对应的权重*(用户的粉丝数量/粉丝数量阈值)。粉丝数量阈值可以通过计算系统中用户粉丝的平均数来取得。
②用户的关注数量对应的成本。如果用户的关注数量<=关注数量阈值,那么用户的关注数量对应的成本值=属性关注数量对应的权重;否则用户的关注数量对应的成本值=属性关注数量对应的权重*(关注数量阈值/用户的关注数量)。关注数量阈值可以通过计算系统中用户关注数量的平均值来取得。
③用户的互粉数量对应的成本。如果用户的互粉数量<=互粉数量阈值,那么用户的互粉数量对应的成本值=属性互粉数量对应的权重;否则用户的互粉数量对应的成本值=属性互粉数量对应的权重*(互粉数量阈值/用户的互粉数量)。互粉数量阈值可以通过计算系统中用户互粉数量的平均值来取得。
④与其它用户的交互比率对应的成本。设用户评论或回复其它用户的微博的数量为N1,而被该用户评论或者回复的用户数量为N2,那么N1/N2就是用户与其它用户交互的比率。如果用户的交互比率>=交互比率阈值,那么用户的交会比率对应的成本值=属性交互比率对应的权重;否则用户的交会比率对应的成本值=属性交互比率对应的权重*(交互比率/交互比率阈值)。交互比率的阈值可以计算水军样本的交互比率来获得。
(4)用户的微博成本计算如下:
①用户的微博粉丝比对应的成本。微博粉丝比是指发布的微博数量与粉丝数量的比率。如果微博粉丝比下限阈值<=用户的微博数量与粉丝数量的比率<=微博粉丝比上限阈值,那么用户的微博粉丝比对应的成本值=属性微博粉丝比对应的权重。否则,如果微博粉丝比>=微博粉丝比上限则用户的微博粉丝比对应的成本值=属性微博粉丝比对应的权重*(微博粉丝比上限阈值/微博粉丝比),否则用户的微博粉丝比对应的成本值=属性微博粉丝比对应的权重*(微博粉丝比/微博粉丝比下限阈值)。其中,微博粉丝比上限阈值与下限阈值可以通过计算水军样本的微博粉丝比来获得。
②用户发布微博的规律性对应的成本。以时间T为周期,计算用户发布微博的数量,之后计算用户最近的N个周期的方差来表征用户发布微博的规律性。如果用户发布微博的规律性>=规律性阈值,那么用户发布微博的规律性对应的成本值=属性发布微博的规律性对应的权重。否则用户发布微博的规律性对应的成本值=属性发布微博的规律性对应的权重*(用户发布微博的规律性/规律性阈值)。其中,用户发布微博的规律性阈值可以通过计算水军样本发布微博的规律性来获得。
③用户发布微博与转发微博的比率对应的成本。如果用户发布微博的数量为N1,转发微博的数量为N2,那么用户发布微博与转发微博的比率为N1/N2。如果用户发布微博与转发微博的比率>=发布转发比阈值,那么用户发布微博与转发微博比率对应的成本值=属性发布微博与转发微博的比率对应的权重。否则用户发布微博与转发微博比率对应的成本值=属性发布微博与转发微博的比率对应的权重*(用户发布微博与转发微博的比率/发布转发比阈值)。发布转发比阈值可以通过计算水军样本的发布转发比来获得。
④用户转发其它用户的比率对应的成本。用户的转发微博数为N1,用户转发微博所属的用户数为N2,那么用户转发其它用户的比率为N1/N2。如果用户转发其它用户的比率>=转发用户比阈值,那么用户转发其它用户的比率对应的成本值=属性转发其它用户的比率对应的权重。否则用户转发其它用户的比率对应的成本值=属性转发其它用户的比率对应的权重*(用户发布微博与转发微博的比率/微博转发比阈值)。微博转发比阈值可以通过计算水军样本的微博转发比来获得。
在计算上述各用户特征对应的成本值之后,对各成本值求和,将各用户特征对应的成本值的总和作为用户在微博平台上的成本。
然后,在步骤2,根据该用户在微博平台的成本来判断该用户是否为水军。
例如,可以将该用户在微博平台上的成本与预先设定的水军判定阈值进行比较,如果用户在微博平台上的成本小于该水军判定阈值那么判定用户为水军,否则判定用户不是水军。其中,该水军判定阈值可以通过已标注的样本数据的统计来确定。例如,可以对于已知为水军的用户,采集这些用户的相关信息作为样本数据,根据上述的成本计算方法,计算这些用户在微博平台的成本。可以得到一系列的水军用户在微博平台的成本值,进而可以确定水军用户的成本值的大概的取值范围。这样,可以基于该取值范围来确定水军判定阈值。例如,可将该取值范围的平均数作为水军判定阈值。如果将水军判定阈值设置较大,则判定的尺度比较严格;如果设置较小,则判定尺度比较宽松,这可以根据实际系统或用户需求来确定。
应理解,上文仅是以管理成本、曝光成本、社交成本、微博成本来举例说明如何计算用户在微博平台中的成本,而不是对其进行任何限制。用户在微博平台中的成本可以包括上述成本的任一组合或者也可以包括其它类型的成本。上述用于计算各种属性对应成本值的方法也仅是举例说明的目的而非对其进行限制。本领域技术人员可以根据实际需求对其做出各种改变或变型。
在又一个实施例中,该方法可以包括步骤0)确定用于评估用户在微博平台中的成本的用户属性;步骤1)对于待识别的微博用户,在微博平台中采集的与该用户相关的用户属性信息,并计算该用户在微博平台中的成本;步骤2)根据该用户在微博平台的成本来判断该用户是否为水军。例如可以首先通过读取配置文件来获得由用户或系统管理员定义的将要用于评估用户在微博平台中的成本的各种用户属性;然后,对于待识别的微博用户,在微博平台中采集的与该用户相关的上述用户属性信息,并计算该用户在微博平台中的成本。
在上文介绍的是针对某个用户的水军识别方法。如在背景技术中所提到的,在微博平台中,有些用户可能只是在某条微博的转发和评论中表现出水军的性质。
在本发明的又一个实施例中,还提供了一种在微博平台中针对一条给定微博,对其转发和评论用户进行水军识别的方法。与上文所述的针对单个用户进行水军识别的方法相比,针对一条微博的转发评论用户进行水军的识别需要考虑的因素更多,比如一个用户是正常用户但是因为利益问题而参与到了某次转发评论即在这次的识别中应视为水军的情况。该方法包括:步骤1)对于待处理的微博,获取转发该微博的用户(可简称为转发用户)的信息和/或评论该微博的用户(可简称为评论用户)的信息以及用户评论的内容;步骤2)对于转发该微博的用户和/或评论该微博的用户进行水军识别。
在步骤2)对于该微博的转发用户进行水军识别包括以下步骤:
(1)统计各个转发用户转发该微博的次数;
(2)对于转发该微博的每个用户利用上文所述的单用户水军识别方法判断该用户是否为水军,如果利用该方法判断该转发用户不是水军,则比较该用户转发该微博的次数与预定的转发次数阈值的大小,如果用户转发该微博的次数大于等于转发次数阈值那么判定用户是水军;如果该用户转发该微博的次数小于设定的用户转发次数阈值则判定该用户不是水军。其中,与水军判断阈值类型,该转发次数阈值也可以通过已标注的样本数据的统计来确定。可以根据实际系统或用户需求来改变转发次数阈值。
此外,为了度量或评价该微博的重要性或价值,可以计算该微博的转发用户中的水军比例,该比例等于被判定为水军的转发用户的数量与该微博的所有转发用户数的比值。
在步骤2)对于该微博的评论用户进行水军识别。
在一个实施例中,可以利用上文所述的单用户水军识别方法判断该评论用户是否为水军,包括:
(1)统计各个评论用户对该微博的评论次数;
(2)对于评论该微博的每个用户,利用上文所述的单用户水军识别方法判断该用户是否为水军,如果利用该方法判断该评论用户不是水军,则比较该用户评论该微博的次数与评论次数阈值的大小,如果用户评论该微博的次数大于等于评论次数阈值那么判定用户是水军;如果该用户评论该微博的次数小于设定的用户评论次数阈值则判定该用户不是水军。其中,与水军判断阈值类型,该评论次数阈值也可以通过已标注的样本数据的统计来确定。可以根据实际系统或用户需求来改变评论次数阈值。
此外,为了度量或评价该微博的重要性或价值,可以计算该微博的评论用户中的水军比例,该比例为被判定为水军的评论用户的数量与该微博的所有评论用户数的比值。
在又一个实施例中,可以采用基于用户评论相似性来对评论用户进行水军识别的方法,该方法主要包括以下步骤:步骤a)统计各个评论用户对该微博的评论次数和评论内容;步骤b)根据用户评论的内容的相似度对评论进行分组;步骤c)基于分组对用户进行判断,如果某个分组被判定为水军分组,那么该组所有的用户都被看作水军。
更具体地,在步骤a),统计各个评论用户对该微博的评论次数和评论内容。所统计的内容例如可以存储在如表5所示的评论索引表中:
表5
评论索引 | 评论内容 | 用户ID |
a | 大家好 | 111111 |
b | 大家早上好 | 222222 |
在步骤b)根据用户评论的内容的相似度对评论进行分组。首先,可以对评论内容进行分词处理,例如对于表5所示的评论索引表中的每条评论内容进行分词,得到如表6所示的关键词索引表。
表6
关键词 | 评论索引 |
大家 | a |
大家 | b |
好 | a |
好 | b |
早上 | b |
接着,可以利用Jaccard系数、Dice系数等来表征相似度的大小。对每条评论依次进行处理,计算该评论与其它所有评论的相似性,找出相似性最大值及对应的评论。
以表5中的两条评论a和b为例,要计算评论索引为a与评论索引为b的两条评论的相似性,首先从表6中取出评论索引为a和评论索引为b的关键词集合Ca与Cb,,然后计算它们的Jaccard系数作为这两条评论a和b的相似性。评论a和b相同的关键词有两个,而a和b所包含的关键词共有3个,所以a和b的相似性为2/3。
然后,类似地,通过上述方法计算出评论a与其它所有评论的相似性,从而可以得到该评论a与其它评论的相似性最大值,并判断相似性最大值是否大于等于预定的相似性阈值,如果是,则将该评论加入到与其有最大相似性的评论所在的分组。
在步骤c)对于每个分组判断是否为水军分组,如果某个分组被判定为水军分组,那么该组所有的评论对应的用户都被看作水军。
将分组判定为水军分组的方法有两种,第一种是基于单个用户的水军识别方法计算该分组内的水军用户所占的比例,如果该分组中水军的比例超过了设定的阈值,则判定该分组为水军分组;否则对该分组中未判为水军的每个评论用户按照评论次数作进一步处理,判断该用户的评论次数是否大于等于评论次数阈值,如果是则判定该用户为水军,否则判定该用户不是水军,然后重新计算该分组内的水军用户所占比例,并将该比例与设定的阈值进行比较,如果超过了设定的阈值,则判定该分组为水军分组,该水军分组内的所有用户都被判定为水军。
另外一种方法则是根据分组内所包含的评论的数量来进行,如果分组中评论的数量超过了预定的分组评论数阈值,那么就判定该分组为水军分组。
根据本发明的又一个实施例,还提供一种微博水军识别设备。该设备包括:用户成本计算装置,其对于待识别的微博用户,基于从微博平台采集的与该微博用户相关的信息评估该用户在微博平台上的成本;以及单用户水军判别装置,采用上述所述的方法根据该用户在微博平台上的成本来判断该用户是否为水军。其中,与微博用户相关的信息包括该微博用户在微博平台中的注册行为及相关信息、该微博用户在微博平台上的社交行为及相关信息,该微博用户在微博平台中的发布微博、转发微博、评论微博行为及相关信息等等。如上文所提到的,用户的成本特征是指表征了用户在平台中花费的时间和精力等信息的属性。如上文所述,可以将这些成本划分为管理成本、曝光成本、社交成本、微博成本等。用户在微博平台上的成本特征可以通过例如上文所述的表1属性索引表和表2用户特征表来描述,其中属性索引表中所记录的属性索引项及其权重可以由系统管理员或用户确定的配置信息获得。
上述设备中还可以包括采集装置,该采集装置可以根据配置信息设定的采集规则通过通信网络向相应的微博平台请求相应的数据,并将采集的数据提交给用户成本计算装置进行处理。其中,配置信息可以对采集策略,信息预处理规则、水军识别的方式与方法、用户账号的成本特征及各特征的权重、水军判定标准等进行设置。采集策略包括采集哪个微博平台的数据,采集哪些数据等。信息预处理规则包括注册时长的计算规则(以毫秒计还是以天计)、地理信息的转换规则(转换为整形还是布尔型)等。水军识别的方式与方法中的识别方式包括单个用户水军识别、针对一条微博的转发评论用户进行水军识别,针对单个用户的水军识别法方法是基于用户在平台上的成本,针对一条微博的转发评论中的水军识别方法则包括基于单个用户进行识别的方法、基于用户评论相似性的方法。水军判定标准设置包括用户成本阈值的设置、评论分组时的相似性阈值设置等。
图2给出了根据本发明一个实施例的微博水军识别设备对单个用户进行识别的操作流程示意图。首先对于待识别的微博用户,根据配置信息配置及该用户的用户标识采集该用户的信息及该用户发布的微博的信息。接着,可以通过读取配置文档来构建属性索引表,比如这里配置的属性包括用户的注册时长、收藏数量、标签数量等16个重要的属性,如表3所示。并根据用户信息及用户的微博信息和属性索引表构建用户特征表如表4所示。然后,根据属性索引表和用户特征表计算用户在微博平台上的各成本值,并对各成本值求和,将该总和作为用户在微博平台上的成本。然后,例如可以通过读取配置文档,获取水军判定阈值。比较所计算出的用户在平台中的成本值与水军判定阈值的大小,如果用户的成本值小于水军判定阈值那么判定用户为水军,否则判定用户不是水军。还可以通过存储设备对该判定结果进行存储。
在本发明的又一个实施例中,所述采集装置还可以对于待处理的微博,获取转发该微博的用户相关的信息、和/或评论该微博的用户相关的信息以及用户评论的内容;并且该设备可以用于对转发该微博的用户和/或评论该微博的用户进行水军识别。
图3给出了根据本发明一个实施例的微博水军识别设备操作流程示意图。该设备可以针对一条给定微博对其转发和评论用户进行水军识别对于给定一条待处理的微博标识,根据给定的微博及配置信息中关于采集策略的设定,采集该微博的转发和评论用户的信息以及用户的评论内容。基于所采集的转发和评论用户信息以及用户的评论内容。分别对该微博的转发用户进行水军的识别以及对评论用户进行水军识别。
图4给出了根据本发明一个实施例的对转发用户进行水军识别的过程示意图。读取配置信息,根据配置信息的设置来设定转发次数阈值,当用户转发该微博的次数超过该设定阈值时判定用户为水军用户,此外将初始转发用户中的水军数量置为0。统计各个用户对该微博的转发次数,并在统计过程中过滤掉重复用户。对统计转发次数后的用户依次进行处理。判断转发用户是否处理完毕,如果没有处理完毕,则取出一条未处理用户的数据,利用上文所述的单个用户水军识别的方法对该用户进行水军识别,如果是水军则转发用户水军数量加1,如果利用该方法判断用户不是水军,则比较用户转发该微博的次数与转发次数阈值的大小,如果用户转发该微博的次数大于等于转发次数阈值那么判定用户是水军,将转发用户水军数量加1,如果用户转发次数小于设定的用户转发次数阈值则判定该用户不是水军,继续判断转发用户是否处理完毕,如果处理完毕则根据转发用户的数量和识别出的转发用户中的水军数量来计算转发用户中的水军比例。
图5给出了根据本发明一个实施例的对评论用户进行水军识别的过程示意图。首先读取配置信息,获取配置信息中设定的对评论用户水军识别方法。如果识别方法为基于单个用户进行水军判别方法进行水军的识别,那么就利用上文所述的单个用户水军识别的方法对评论用户进行水军识别,否则如果是基于用户评论相似性判别方法进行水军识别那么就利用上文所述的基于用户评论相似性的方法对评论用户进行水军的识别。
图6给出了根据本发明一个实施例的基于单个用户水军识别方法对评论用户进行水军识别的过程示意图。首先读取配置信息,根据配置信息的设置来设定评论次数阈值,当用户评论该微博的次数超过该设定阈值时判定用户为水军用户,此外将初始评论用户中的水军数量置为0。统计各个用户对该微博的评论次数,并在统计过程中过滤掉重复用户。对统计评论次数后的用户依次进行处理。判断评论用户是否处理完毕,如果没有处理完毕,则取出一条未处理评论用户的数据,利用单个用户水军识别的方法对该用户进行水军判别,如果是水军则评论用户水军数量加1,如果利用该方法判断用户不是水军,则比较用户评论微博的次数与评论次数阈值的大小,如果用户评论该微博的次数大于等于评论次数阈值那么判定用户是水军,将转发用户水军数量加1,如果用户评论次数小于设定的用户评论次数阈值则判定该用户不是水军,继续判断评论用户是否处理完毕,如果处理完毕则根据评论用户的数量和识别出的评论用户中的水军数量来计算评论用户中的水军比例。
图7给出了根据本发明一个实施例的基于评论相似性的对评论用户进行水军识别的过程示意图。读取配置信息,根据配置信息设置相似性阈值,用户根据评论次数被判定为水军的评论次数阈值,分组判定方法及对应的阈值,同时评论用户水军数量初始化为0,并将每条评论初始化为一个分组。统计评论用户对给定微博的评论次数。根据用户的评论信息构建评论索引表,如表5所示。根据评论索引表,对评论进行分词处理构建关键词索引表,如表6所示。对每条评论依次进行处理判断评论是否处理完毕,如果没有处理完毕,则取出一条未处理的评论,计算该评论与其它所有评论的相似性,找出相似性最大值及对应的评论。然后判断相似性最大值是否大于等于相似性阈值,如果满足则将该评论加入到与其有最大相似性的评论所在的分组。
如果评论处理完毕,则得到评论分组信息及每个用户的评论次数信息,对分组进行处理,判断分组是否处理完毕,如果分组还没有处理完毕,则判断,对该分组的判定方法是否是基于分组内的评论的数量,如果是那么就判断该分组内评论的数量是否大于分组评论数阈值,如果满足那么将该组的用户判定为水军,该组的用户数量加入到评论用户水军数量中去,如果不满足则继续判断分组是否处理完毕。如果判定方法不是按照分组内评论数量来判定,那么判断判定方法是否是基于分组内用户水军比例,如果是那么按照上文所述的单个用户水军识别方法计算该分组水军用户比例,判断该分组水军用户比例是否大于等于分组内水军比例阈值,如果满足则将该组的用户判定为水军,该组的用户数量加入到评论用户水军数量中去,否则进行判断分组是否处理完毕。如果分组处理完毕,则对未判为水军的评论用户按照评论次数作进一步处理,判断评论用户是否处理完毕,如果没有处理完毕取出一个为未被判定为水军的评论用户,判断该用户的评论次数是否大于等于评论次数阈值,如果满足则判定该用户为水军,评论用户水军数量加1,否则判定该用户不是水军,继续判断未判为水军的评论用户是否处理完毕。如果处理完毕则按照评论用户数及评论用户水军数量计算评论用户中的水军比例。
图8给出了根据本发明又一个实施例的微博水军识别设备的操作流程示意图。该设备可以为用户提供选择接口,使用户可以选择是使用上文所述的单个用户水军识别方法还是采用上文所述的对微博的转发、评论用户水军识别的方法。
在本发明的又一个实施例中,提供了一种微博水军识别设备,该设备包括:信息采集装置,其对于待处理的微博,获取与评论该微博的用户相关的信息以及用户评论的内容;以及判别装置,其基于上文所述的用户评论相似性来判断评论该微博的用户是否为水军。所述判别装置被配置为执行下列步骤:统计评论该微博的各个用户对该微博的评论次数和评论内容;根据用户评论内容的相似度对评论进行分组;对于每个分组判断其是否为水军分组,如果某个分组被判定为水军分组,那么该组所有的评论对应的用户都被看作水军。
为了验证本发明提出的上述方法和设备的效果,发明人还进行了下列实验:针对单个用户水军识别,数据的采集过程为如下,例如在电子商务、娱乐、新闻记者、体育、科技领域分别设定一个初始用户。然后爬取这些用户的所有微博和微博的转发用户信息,把这些转发用户加入到用户集中。之后是一个递归的采集过程,递归采集用户集中未处理用户的粉丝。最终采集的数据集中有用户5068276名。
接下来构建一个标注集。标注集包括一定数量的水军用户和一定数量的正常用户。标注时需要考虑的因素包括水军识别方法中提到的管理成本、曝光成本、微博成本、社交成本。最终标注的数据集中包含正常用户10000个、水军用户12596。
有了标注集后,在标注集中随机取出4000个水军用户,按照上文所述的计算用户成本的方法计算这些用户在微博平台中的成本。取出的水军用户成本值最大值为0.58,最小值为0.04,这些水军用户成本的平均值为0.06。
为了与水军用户对比,还从标注集中随机选取4000名正常用户,计算其在微博平台中的成本值,成本值最大值为0.80,最小值为0.11,这些正常用户成本的平均值为0.57,如附图9所示,可以看到水军用户在平台中的成本值和正常用户在平台上的成本值有着显著地差异。因此,可以将上文所述的水军判定阈值设置为上述的水军用户成本的平均值。
为了更好地确定上文所述的识别方法中的水军判定阈值,还可以从剩余的标注集中随机取出4000名水军用户和1404名正常用户,初始的水军判定阈值设为上面计算出的水军用户成本值的平均值,然后计算上文所述的识别方法的召回率和准确率。然后将阈值不断增加并观察召回率和准确率的变化情况,得到表7所示的结果。可以看到随着水军判定阈值的增加,召回率不断提高,准确率在初始时也是不断提高,但是当到达一定值的时候准确率会随着水军判定阈值的升高而降低,召回率与准确率之和也是先增加后减少,当判定阈值为0.25时召回率与准确率之和取得最大值,也即表7中序号为20所对应的条目。
表7
序号 | 召回率 | 准确率 | 综合 | 序号 | 召回率 | 准确率 | 综合 |
1 | 0.82475 | 0.999697 | 1.824447 | 28 | 0.996 | 0.967225 | 1.963225 |
2 | 0.82525 | 0.999687 | 1.824947 | 29 | 0.99675 | 0.963509 | 1.960259 |
3 | 0.8255 | 0.999697 | 1.825197 | 30 | 0.99725 | 0.957743 | 1.954993 |
4 | 0.8265 | 0.999698 | 1.826198 | 31 | 0.99725 | 0.992711 | 1.949961 |
5 | 0.93375 | 0.999732 | 1.933482 | 32 | 0.99725 | 0.948858 | 1.946108 |
6 | 0.93475 | 0.999465 | 1.934215 | 33 | 0.99725 | 0.944813 | 1.942053 |
7 | 0.93525 | 0.999466 | 1.934716 | 34 | 0.9975 | 0.941704 | 1.939204 |
8 | 0.93625 | 0.999466 | 1.935716 | 35 | 0.998 | 0.935771 | 1.933771 |
9 | 0.944 | 0.999471 | 1.943471 | 36 | 0.99825 | 0.927742 | 1.925992 |
10 | 0.966 | 0.999224 | 1.965224 | 37 | 0.99825 | 0.922171 | 1.920421 |
11 | 0.9675 | 0.998967 | 1.966467 | 38 | 0.99825 | 0.918565 | 1.916815 |
12 | 0.968 | 0.998968 | 1.966968 | 39 | 0.9985 | 0.914377 | 1.912877 |
13 | 0.96875 | 0.99794 | 1.96669 | 40 | 0.9985 | 0.906285 | 1.904785 |
14 | 0.9755 | 0.997699 | 1.973199 | 41 | 0.9985 | 0.899347 | 1.897847 |
15 | 0.98225 | 0.996702 | 1.978952 | 42 | 0.9985 | 0.893312 | 1.891812 |
16 | 0.98375 | 0.995698 | 1.979448 | 43 | 0.99875 | 0.886596 | 1.885346 |
17 | 0.984 | 0.994698 | 1.978693 | 44 | 0.99875 | 0.879191 | 1.877931 |
18 | 0.985 | 0.993695 | 1.978695 | 45 | 0.99875 | 0.872843 | 1.871593 |
19 | 0.987 | 0.993208 | 1.980208 | 46 | 0.999 | 0.86531 | 1.86431 |
20 | 0.9905 | 0.991492 | 1.981992 | 47 | 0.99925 | 0.857541 | 1.856791 |
21 | 0.99175 | 0.986325 | 1.978705 | 48 | 0.99925 | 0.849341 | 1.848591 |
22 | 0.99225 | 0.982689 | 1.974919 | 49 | 0.9995 | 0.88974 | 1.83924 |
23 | 0.9925 | 0.980247 | 1.972747 | 50 | 0.9995 | 0.831531 | 1.831031 |
24 | 0.99425 | 0.978352 | 1.972602 | 51 | 0.99975 | 0.82115 | 1.8209 |
25 | 0.99475 | 0.974767 | 1.969517 | 52 | 0.99975 | 0.813466 | 1.813216 |
26 | 0.995 | 0.971443 | 1.966443 | 53 | 0.99975 | 0.808532 | 1.808282 |
27 | 0.99575 | 0.968253 | 1.963908 |
然后,将水军判定阈值设为能够使得召回率和准确率最大化的一项,即水军判定阈值为0.25,此时水军用户判定阈值对应的召回率为99.0%,准确率为99.1%。为了验证该水军判定阈值的有效性和正确性,将标注集中剩下的4596个水军用户和4596个正常用户中进行实验,并使用准确率和召回率对结果进行评价。在这9192个用户中被判为水军的用户共有4658,其中正常水军数量为4564,因此召回率为99.3%,准确率为98.0%,这说明根据上文所述的微博水军识别方法能有效地识别微博中的水军用户。
虽然本发明已经通过优选实施例进行了描述,然而本发明并非局限于这里所描述的实施例,在不脱离本发明范围的情况下还包括所作出的各种改变以及变化。
Claims (20)
1.一种微博水军识别方法,该方法包括:
步骤1)对于待识别的微博用户,基于从微博平台采集的与该微博用户相关的信息评估该用户在微博平台上的成本;
步骤2)根据该用户在微博平台上的成本来判断该用户是否为水军;
其中,与微博用户相关的信息包括该微博用户在微博平台中的注册行为及相关信息、该微博用户在微博平台上的社交行为及相关信息,该微博用户在微博平台中的发布微博、转发微博、评论微博行为及相关信息。
2.根据权利要求1所述的方法,其中,用户在微博平台上的成本包括管理成本、曝光成本、社交成本和/或微博成本;
用户的管理成本表示该用户在微博平台中花费的时间和精力;用户的曝光成本表示用户暴露在微博平台中的信息的透明程度;用户的社交成本表示用户在微博平台中的人脉资源信息;微博成本表示用户在平台中发布信息、转发信息等所花费的成本。
3.根据权利要求2所述的方法,所述管理成本以用户账号中的收藏数量、用户等级、用户账号中标签的数量、和/或用户账号的注册时长来表征。
4.根据权利要求2所述的方法,所述曝光成本以用户账号中地理位置信息、用户账号中自我描述的信息、用户账号链接信息和/或用户账号认证信息来表征。
5.根据权利要求2所述的方法,所述社交成本以用户的粉丝数量、用户的关注数量、用户的互粉数量和/或与其它用户的交互比率来表征,其中,与其它用户的交互比率为N1/N2,N1为用户评论或回复其它用户的微博的数量,而N2为被该用户评论或者回复的用户数量。
6.根据权利要求2所述的方法,所述微博成本以用户发布的微博数量与粉丝数量的比率、用户发布微博的规律性、发布微博与转发微博的比率和/或转发其它用户的比率来表征,其中用户发布微博的规律性以用户最近的几个周期的方差来表征。
7.根据权利要求1所述的方法,还包括确定用于评估用户在微博平台中的成本的用户属性的步骤,以及所述步骤1)包括:
对于待识别的微博用户,从微博平台采集所确定的用户属性信息;
基于所采集的用户属性信息评估该用户在微博平台上的成本。
8.一种微博水军识别方法,该方法包括:
步骤1)对于待处理的微博,获取与转发该微博的用户相关的信息、和/或与评论该微博的用户相关的信息以及用户评论的内容;
步骤2)采用如权利要求1-7任一项所述的方法对转发该微博的用户和/或评论该微博的用户进行水军识别。
9.根据权利要求8所述的方法,所述步骤2)还包括:
如果采用如权利要求1-7任一项所述的方法判断转发该微博的用户不是水军,则比较该用户转发该微博的次数与预定的转发次数阈值的大小,如果用户转发该微博的次数大于等于该转发次数阈值那么判定用户是水军。
10.根据权利要求8所述的方法,所述步骤2)还包括:
如果采用如权利要求1-7任一项所述的方法判断评论该微博的用户不是水军,则比较该用户评论该微博的次数与预定的评论次数阈值的大小,如果用户评论该微博的次数大于等于该评论次数阈值那么判定用户是水军。
11.一种微博水军识别方法,该方法包括:
步骤1)对于待处理的微博,获取与评论该微博的用户相关的信息以及用户评论的内容;
步骤2)基于用户评论相似性来判断评论该微博的用户是否为水军。
12.根据权利要求11所述的方法,所述步骤2)包括:
步骤a)统计评论该微博的各个用户对该微博的评论次数和评论内容;
步骤b)根据用户评论内容的相似度对评论进行分组;
步骤c)对于每个分组判断其是否为水军分组,如果某个分组被判定为水军分组,那么该组所有的评论对应的用户都被看作水军。
13.根据权利要求12所述的方法,所述步骤b)包括:
对于该微博的每条评论进行如下处理:
计算该评论与其它所有评论的相似性,找出该评论与其它评论的相似性最大值;
判断该相似性最大值是否大于等于预定的相似性阈值,如果是,则将该评论加入到与该相似性最大值所对应的评论所在的分组。
14.根据权利要求12所述的方法,所述步骤c)包括:
步骤c1)对于每个分组内评论所属的用户,采用如权利要求1-7任一项所述的方法来判断该用户是否为水军;
步骤c2)计算该分组内的水军用户所占的比例,该比例等于该分组内被判定为水军的用户的数量与该分组内评论所属的用户总数的比值;
步骤c3)如果该分组中水军的比例超过了设定的阈值,则判定该分组为水军分组,该水军分组内的所有用户都被判定为水军。
15.根据权利要求14所述的方法,所述步骤c3)还包括:
如果该分组中水军的比例小于设定的阈值,则将该分组中未判为水军的每个用户按照评论次数与预定的评论次数阈值作比较,如果大于等于评论次数阈值,则判定该用户为水军,否则判定该用户不是水军,然后重新计算该分组内的水军用户所占比例,并将该比例与设定的阈值进行比较,如果超过了设定的阈值,则判定该分组为水军分组,该水军分组内的所有用户都被判定为水军。
16.一种微博水军识别设备,该设备包括:
用户成本计算装置,其对于待识别的微博用户,基于从微博平台采集的与该微博用户相关的信息评估该用户在微博平台上的成本;
单用户水军判别装置,其根据该用户在微博平台上的成本来判断该用户是否为水军;
其中,与微博用户相关的信息包括该微博用户在微博平台中的注册行为及相关信息、该微博用户在微博平台上的社交行为及相关信息,该微博用户在微博平台中的发布微博、转发微博、评论微博行为及相关信息。
17.根据权利要求16所述的设备,其中,用户在微博平台上的成本包括管理成本、曝光成本、社交成本和/或微博成本;
用户的管理成本表示该用户在微博平台中花费的时间和精力;用户的曝光成本表示用户暴露在微博平台中的信息的透明程度;用户的社交成本表示用户在微博平台中的人脉资源信息;微博成本表示用户在平台中发布信息、转发信息等所花费的成本。
18.一种微博水军识别设备,该设备包括:
信息获取装置,用于对于待处理的微博,获取与转发该微博的用户相关的信息、和/或与评论该微博的用户相关的信息以及用户评论的内容;
如权利要求16或17的设备,用于对转发该微博的用户和/或评论该微博的用户进行水军识别。
19.一种微博水军识别设备,该设备包括:
信息获取装置,其对于待处理的微博,获取与评论该微博的用户相关的信息以及用户评论的内容;
判别装置,其基于用户评论相似性来判断评论该微博的用户是否为水军。
20.根据权利要求19所述的设备,所述判别装置被配置为执行:
统计评论该微博的各个用户对该微博的评论次数和评论内容;
根据用户评论内容的相似度对评论进行分组;
对于每个分组判断其是否为水军分组,如果某个分组被判定为水军分组,那么该组所有的评论对应的用户都被看作水军。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310154376.3A CN103198161B (zh) | 2013-04-28 | 2013-04-28 | 微博水军识别方法与设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310154376.3A CN103198161B (zh) | 2013-04-28 | 2013-04-28 | 微博水军识别方法与设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103198161A true CN103198161A (zh) | 2013-07-10 |
CN103198161B CN103198161B (zh) | 2018-09-07 |
Family
ID=48720718
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310154376.3A Active CN103198161B (zh) | 2013-04-28 | 2013-04-28 | 微博水军识别方法与设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103198161B (zh) |
Cited By (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103617235A (zh) * | 2013-11-26 | 2014-03-05 | 中国科学院信息工程研究所 | 一种基于粒子群算法的网络水军账号识别方法及系统 |
CN103745002A (zh) * | 2014-01-24 | 2014-04-23 | 中国科学院信息工程研究所 | 一种基于行为特征与内容特征融合的水军识别方法及系统 |
CN103795592A (zh) * | 2014-01-21 | 2014-05-14 | 中国科学院信息工程研究所 | 网络水军的检测方法及装置 |
CN103905532A (zh) * | 2014-03-13 | 2014-07-02 | 微梦创科网络科技(中国)有限公司 | 微博营销账号的识别方法及系统 |
CN104484359A (zh) * | 2014-12-02 | 2015-04-01 | 北京锐安科技有限公司 | 一种基于社交图谱的舆情分析方法及装置 |
CN104915848A (zh) * | 2015-05-16 | 2015-09-16 | 成都数联铭品科技有限公司 | 基于评价内容识别的虚假评价判断系统 |
CN104933191A (zh) * | 2015-07-09 | 2015-09-23 | 广东欧珀移动通信有限公司 | 一种基于贝叶斯算法的垃圾评论识别方法、系统及终端 |
CN105630801A (zh) * | 2014-10-30 | 2016-06-01 | 国际商业机器公司 | 用于检测偏离用户的方法和装置 |
CN106127535A (zh) * | 2016-08-24 | 2016-11-16 | 四川众缆科技有限公司 | 基于移动终端的广告推送系统及方法 |
CN106294744A (zh) * | 2016-08-11 | 2017-01-04 | 上海动云信息科技有限公司 | 兴趣识别方法及系统 |
CN106780060A (zh) * | 2016-11-30 | 2017-05-31 | 华南师范大学 | 基于信息熵的地方协商社交网络用户身份判别方法和装置 |
CN103577543B (zh) * | 2013-10-10 | 2017-06-16 | 北京智谷睿拓技术服务有限公司 | 应用程序的排名欺诈检测方法和排名欺诈检测系统 |
CN107332931A (zh) * | 2017-08-07 | 2017-11-07 | 合肥工业大学 | 机器型论坛水军的识别方法及装置 |
CN107563820A (zh) * | 2017-09-19 | 2018-01-09 | 精硕科技(北京)股份有限公司 | 微博表现的评估方法与装置 |
CN107659647A (zh) * | 2017-09-26 | 2018-02-02 | 精硕科技(北京)股份有限公司 | 水帖识别方法和装置 |
CN107766329A (zh) * | 2017-10-23 | 2018-03-06 | 广东欧珀移动通信有限公司 | 黑名单配置方法及装置 |
CN107895010A (zh) * | 2017-11-13 | 2018-04-10 | 华东师范大学 | 一种基于网络点赞检测网络水军的方法 |
CN108280560A (zh) * | 2017-01-06 | 2018-07-13 | 广州市动景计算机科技有限公司 | 一种对象评价防刷方法及装置 |
CN109558555A (zh) * | 2018-08-20 | 2019-04-02 | 湖北大学 | 基于人工免疫危险理论的微博水军检测方法及检测系统 |
CN109559245A (zh) * | 2017-09-26 | 2019-04-02 | 北京国双科技有限公司 | 一种识别特定用户的方法及装置 |
CN109670542A (zh) * | 2018-12-11 | 2019-04-23 | 田刚 | 一种基于评论外部信息的虚假评论检测方法 |
CN109993529A (zh) * | 2019-03-29 | 2019-07-09 | 北京金山安全软件有限公司 | 去中心化应用程序的评测方法、装置及电子设备 |
CN110134876A (zh) * | 2019-01-29 | 2019-08-16 | 国家计算机网络与信息安全管理中心 | 一种基于群智传感器的网络空间群体性事件感知与检测方法 |
CN110689382A (zh) * | 2019-10-11 | 2020-01-14 | 精硕科技(北京)股份有限公司 | 一种信息处理的方法、装置、计算机存储介质及终端 |
CN110727763A (zh) * | 2019-10-09 | 2020-01-24 | 南京邮电大学 | 一种社交媒体传播中的特殊族群识别方法 |
CN110795658A (zh) * | 2019-09-25 | 2020-02-14 | 北京三快在线科技有限公司 | 用户评分方法、装置、电子设备及计算机存储介质 |
CN111191037A (zh) * | 2020-01-06 | 2020-05-22 | 新华网股份有限公司 | 基于新闻评论的网络水军识别方法和装置 |
CN111198992A (zh) * | 2020-01-07 | 2020-05-26 | 精硕科技(北京)股份有限公司 | 母婴人群的识别方法、识别装置、电子设备及存储介质 |
CN111368131A (zh) * | 2020-03-06 | 2020-07-03 | 咪咕音乐有限公司 | 用户关系识别方法、装置、电子设备及存储介质 |
CN112559845A (zh) * | 2020-12-23 | 2021-03-26 | 北京清博大数据科技有限公司 | 一种非典型性媒体账号的身份与动机识别方法及系统 |
CN113806616A (zh) * | 2021-08-16 | 2021-12-17 | 北京智慧星光信息技术有限公司 | 微博用户识别方法、系统、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006035164A1 (fr) * | 2004-09-28 | 2006-04-06 | Ketady Inc. | Systeme et procede interactif intelligent de gestion d'information |
US20110010374A1 (en) * | 2008-06-26 | 2011-01-13 | Alibaba Group Holding Limited | Filtering Information Using Targeted Filtering Schemes |
CN102571484A (zh) * | 2011-12-14 | 2012-07-11 | 上海交通大学 | 一种检测网络水军以及找到网络水军的方法 |
CN102880636A (zh) * | 2012-08-03 | 2013-01-16 | 深圳证券信息有限公司 | 不良信息检测方法及服务端 |
-
2013
- 2013-04-28 CN CN201310154376.3A patent/CN103198161B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006035164A1 (fr) * | 2004-09-28 | 2006-04-06 | Ketady Inc. | Systeme et procede interactif intelligent de gestion d'information |
US20110010374A1 (en) * | 2008-06-26 | 2011-01-13 | Alibaba Group Holding Limited | Filtering Information Using Targeted Filtering Schemes |
CN102571484A (zh) * | 2011-12-14 | 2012-07-11 | 上海交通大学 | 一种检测网络水军以及找到网络水军的方法 |
CN102880636A (zh) * | 2012-08-03 | 2013-01-16 | 深圳证券信息有限公司 | 不良信息检测方法及服务端 |
Non-Patent Citations (2)
Title |
---|
匿名: "社交网络——新一代数据挖掘的金矿", 《BLOG.CSDN.NET/WANG_JING_2008/ARTICLE/DETAILS/7925365》, 30 August 2012 (2012-08-30), pages 1 - 5 * |
陈宇: ""网络水军"泛滥与网络舆情监测的完善", 《青年记者》, no. 15, 31 May 2011 (2011-05-31), pages 69 - 70 * |
Cited By (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103577543B (zh) * | 2013-10-10 | 2017-06-16 | 北京智谷睿拓技术服务有限公司 | 应用程序的排名欺诈检测方法和排名欺诈检测系统 |
CN103617235A (zh) * | 2013-11-26 | 2014-03-05 | 中国科学院信息工程研究所 | 一种基于粒子群算法的网络水军账号识别方法及系统 |
CN103617235B (zh) * | 2013-11-26 | 2017-01-25 | 中国科学院信息工程研究所 | 一种基于粒子群算法的网络水军账号识别方法及系统 |
CN103795592B (zh) * | 2014-01-21 | 2017-01-25 | 中国科学院信息工程研究所 | 网络水军的检测方法及装置 |
CN103795592A (zh) * | 2014-01-21 | 2014-05-14 | 中国科学院信息工程研究所 | 网络水军的检测方法及装置 |
CN103745002A (zh) * | 2014-01-24 | 2014-04-23 | 中国科学院信息工程研究所 | 一种基于行为特征与内容特征融合的水军识别方法及系统 |
CN103745002B (zh) * | 2014-01-24 | 2017-01-18 | 中国科学院信息工程研究所 | 一种基于行为特征与内容特征融合的水军识别方法及系统 |
CN103905532A (zh) * | 2014-03-13 | 2014-07-02 | 微梦创科网络科技(中国)有限公司 | 微博营销账号的识别方法及系统 |
CN103905532B (zh) * | 2014-03-13 | 2017-11-03 | 微梦创科网络科技(中国)有限公司 | 微博营销账号的识别方法及系统 |
CN105630801A (zh) * | 2014-10-30 | 2016-06-01 | 国际商业机器公司 | 用于检测偏离用户的方法和装置 |
CN104484359A (zh) * | 2014-12-02 | 2015-04-01 | 北京锐安科技有限公司 | 一种基于社交图谱的舆情分析方法及装置 |
CN104915848A (zh) * | 2015-05-16 | 2015-09-16 | 成都数联铭品科技有限公司 | 基于评价内容识别的虚假评价判断系统 |
CN104933191A (zh) * | 2015-07-09 | 2015-09-23 | 广东欧珀移动通信有限公司 | 一种基于贝叶斯算法的垃圾评论识别方法、系统及终端 |
CN106294744A (zh) * | 2016-08-11 | 2017-01-04 | 上海动云信息科技有限公司 | 兴趣识别方法及系统 |
CN106127535A (zh) * | 2016-08-24 | 2016-11-16 | 四川众缆科技有限公司 | 基于移动终端的广告推送系统及方法 |
CN106780060A (zh) * | 2016-11-30 | 2017-05-31 | 华南师范大学 | 基于信息熵的地方协商社交网络用户身份判别方法和装置 |
CN108280560A (zh) * | 2017-01-06 | 2018-07-13 | 广州市动景计算机科技有限公司 | 一种对象评价防刷方法及装置 |
CN107332931A (zh) * | 2017-08-07 | 2017-11-07 | 合肥工业大学 | 机器型论坛水军的识别方法及装置 |
CN107563820A (zh) * | 2017-09-19 | 2018-01-09 | 精硕科技(北京)股份有限公司 | 微博表现的评估方法与装置 |
CN107659647A (zh) * | 2017-09-26 | 2018-02-02 | 精硕科技(北京)股份有限公司 | 水帖识别方法和装置 |
CN109559245B (zh) * | 2017-09-26 | 2022-02-25 | 北京国双科技有限公司 | 一种识别特定用户的方法及装置 |
CN109559245A (zh) * | 2017-09-26 | 2019-04-02 | 北京国双科技有限公司 | 一种识别特定用户的方法及装置 |
CN107766329A (zh) * | 2017-10-23 | 2018-03-06 | 广东欧珀移动通信有限公司 | 黑名单配置方法及装置 |
CN107766329B (zh) * | 2017-10-23 | 2021-08-06 | Oppo广东移动通信有限公司 | 黑名单配置方法及装置 |
CN107895010A (zh) * | 2017-11-13 | 2018-04-10 | 华东师范大学 | 一种基于网络点赞检测网络水军的方法 |
CN109558555A (zh) * | 2018-08-20 | 2019-04-02 | 湖北大学 | 基于人工免疫危险理论的微博水军检测方法及检测系统 |
CN109670542A (zh) * | 2018-12-11 | 2019-04-23 | 田刚 | 一种基于评论外部信息的虚假评论检测方法 |
CN110134876A (zh) * | 2019-01-29 | 2019-08-16 | 国家计算机网络与信息安全管理中心 | 一种基于群智传感器的网络空间群体性事件感知与检测方法 |
CN109993529B (zh) * | 2019-03-29 | 2021-06-04 | 北京乐蜜科技有限责任公司 | 去中心化应用程序的评测方法、装置及电子设备 |
CN109993529A (zh) * | 2019-03-29 | 2019-07-09 | 北京金山安全软件有限公司 | 去中心化应用程序的评测方法、装置及电子设备 |
CN110795658A (zh) * | 2019-09-25 | 2020-02-14 | 北京三快在线科技有限公司 | 用户评分方法、装置、电子设备及计算机存储介质 |
CN110727763A (zh) * | 2019-10-09 | 2020-01-24 | 南京邮电大学 | 一种社交媒体传播中的特殊族群识别方法 |
CN110727763B (zh) * | 2019-10-09 | 2022-10-14 | 南京邮电大学 | 一种社交媒体传播中的特殊族群识别方法 |
CN110689382A (zh) * | 2019-10-11 | 2020-01-14 | 精硕科技(北京)股份有限公司 | 一种信息处理的方法、装置、计算机存储介质及终端 |
CN111191037A (zh) * | 2020-01-06 | 2020-05-22 | 新华网股份有限公司 | 基于新闻评论的网络水军识别方法和装置 |
CN111191037B (zh) * | 2020-01-06 | 2023-11-24 | 新华网股份有限公司 | 基于新闻评论的网络水军识别方法和装置 |
CN111198992A (zh) * | 2020-01-07 | 2020-05-26 | 精硕科技(北京)股份有限公司 | 母婴人群的识别方法、识别装置、电子设备及存储介质 |
CN111368131A (zh) * | 2020-03-06 | 2020-07-03 | 咪咕音乐有限公司 | 用户关系识别方法、装置、电子设备及存储介质 |
CN111368131B (zh) * | 2020-03-06 | 2023-08-18 | 咪咕音乐有限公司 | 用户关系识别方法、装置、电子设备及存储介质 |
CN112559845A (zh) * | 2020-12-23 | 2021-03-26 | 北京清博大数据科技有限公司 | 一种非典型性媒体账号的身份与动机识别方法及系统 |
CN113806616A (zh) * | 2021-08-16 | 2021-12-17 | 北京智慧星光信息技术有限公司 | 微博用户识别方法、系统、电子设备及存储介质 |
CN113806616B (zh) * | 2021-08-16 | 2023-08-22 | 北京智慧星光信息技术有限公司 | 微博用户识别方法、系统、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN103198161B (zh) | 2018-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103198161A (zh) | 微博水军识别方法与设备 | |
Nettleton | Data mining of social networks represented as graphs | |
CN103150374B (zh) | 一种识别微博异常用户的方法和系统 | |
Wang et al. | Using humans as sensors: an estimation-theoretic perspective | |
CN107146089A (zh) | 一种刷单识别方法及装置,电子设备 | |
Cheng et al. | Who is the barbecue king of texas? A geo-spatial approach to finding local experts on twitter | |
CN104834668A (zh) | 基于知识库的职位推荐系统 | |
CN103617235B (zh) | 一种基于粒子群算法的网络水军账号识别方法及系统 | |
US20080195609A1 (en) | Method and System for Generating a Population Representative of a Set of Users of a Communication Network | |
CN109522475A (zh) | 一种基于用户历史消费数据的商家推荐方法 | |
CN105554704A (zh) | 推荐系统中基于假轨迹的位置隐私保护方法 | |
CN104866586A (zh) | 用于计算社会媒体中信息传播节点重要性的方法及系统 | |
CN103970747B (zh) | 网络侧计算机对搜索结果进行排序的数据处理方法 | |
CN102081774A (zh) | 养卡识别方法及系统 | |
Wan et al. | Information propagation model based on hybrid social factors of opportunity, trust and motivation | |
CN107153656A (zh) | 一种信息搜索方法和装置 | |
CN107862556A (zh) | 一种vip广告的投放方法和系统 | |
CN110046174A (zh) | 一种基于大数据的人口迁移分析方法和系统 | |
CN104778388A (zh) | 一种两个不同平台下同一用户识别方法及系统 | |
CN102664744A (zh) | 网络消息通信中群发推荐的方法 | |
CN109636682A (zh) | 一种教学资源自动收集系统 | |
Mead | Requirements prioritization introduction | |
CN105978729A (zh) | 一种基于用户上网日志及位置的手机信息推送系统及方法 | |
CN112560105A (zh) | 保护多方数据隐私的联合建模方法及装置 | |
CN110781497B (zh) | 网页链接的检测方法及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |