CN103905532B - 微博营销账号的识别方法及系统 - Google Patents

微博营销账号的识别方法及系统 Download PDF

Info

Publication number
CN103905532B
CN103905532B CN201410093704.8A CN201410093704A CN103905532B CN 103905532 B CN103905532 B CN 103905532B CN 201410093704 A CN201410093704 A CN 201410093704A CN 103905532 B CN103905532 B CN 103905532B
Authority
CN
China
Prior art keywords
account
microblog
microblog account
microblogging
address
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410093704.8A
Other languages
English (en)
Other versions
CN103905532A (zh
Inventor
冯术葵
庄宝玉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Weimeng Chuangke Network Technology China Co Ltd
Original Assignee
Weimeng Chuangke Network Technology China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Weimeng Chuangke Network Technology China Co Ltd filed Critical Weimeng Chuangke Network Technology China Co Ltd
Priority to CN201410093704.8A priority Critical patent/CN103905532B/zh
Publication of CN103905532A publication Critical patent/CN103905532A/zh
Application granted granted Critical
Publication of CN103905532B publication Critical patent/CN103905532B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种微博营销账号的识别方法及系统,所述方法包括:获取群体微博账号中每个微博账号登录时所使用的IP地址;对于每个获取的IP地址,统计登录时使用该IP地址的微博账号的数量;若统计出的数量大于第一阈值,则将登录时使用该IP地址的微博账号的疑似度增加第一步长值;将疑似度大于设定值的微博账号识别为微博营销账号。所述系统包括:第一行为特征统计模块和微博营销账号识别模块。应用本发明,可以提高微博营销账号的识别准确率。

Description

微博营销账号的识别方法及系统
技术领域
本发明涉及互联网技术,尤其涉及一种微博营销账号的识别方法及系统。
背景技术
微博是一种基于用户关系信息分享、传播以及获取的平台。其凭借内容发布的便捷性、信息传播的即时性、信息内容的丰富性等特点赢得了数以亿计的用户。与此同时,无论是企业、团体还是个人都发现了微博平台潜藏的巨大商业价值。为了实现利益诉求,他们通过多种营销手段获得影响力从而牟利。其中,通过微博营销账号(又称,微博水军)进行宣传和炒作来实现营销目标是目前常用的方法。然而,这种方法具有趋利性,往往对竞争对手的微博进行恶意评论、诋毁,或者发布虚假信息,严重损害了他人利益。因此,有效的识别微博账号对净化微博平台环境大有裨益。
目前,一种识别微博营销账号的方法主要通过对账号属性和发布的博文内容进行判断。具体地,账号属性,即账号注册时的信息,包括:用户名、昵称、年龄、签名、爱好等等。结合账号属性和发布的博文内容,将具有异常属性和发布异常博文的账号归为微博营销账号。然而,由于微博营销账号多数具有隐藏性,注册信息的填写与正常用户的微博账号并无明显差异,仅通过账号属性很难识别出微博营销账号。进一步,微博营销账号各自发布的广告微博内容不同,形式多样,凭借抽取的单个微博账号发布的微博内容,从个体角度进行识别容易对账号造成误判。
此外,现有技术中还存在一种识别微博营销账号的方法。该方法针对微博账号转发微博、评论微博、关注粉丝等行为制定出行为标准,提取单个待识别微博账号的上述行为与行为标准进行比较,如果该行为超出行为标准,则将该账号认定为微博营销账号。
然而,上述方法仅适用于识别传统意义的微博营销账号。对于目前出现的具有模拟正常微博账号的转发微博、评论微博、关注粉丝等行为、反识别特征的微博营销账号,则难以识别出来。也就是说,采用该方法对单个微博账号进行识别判断,具有模拟正常微博账号行为的微博营销账号容易被误判成正常微博账号。因此有必要提供能够一种具有更高识别准确率的微博营销账号的识别方法及系统。
发明内容
本发明实施例提供了一种微博营销账号的识别方法及系统,用以提高微博营销账号的识别准确率。
根据本发明的一个方面,提供了一种微博营销账号的识别方法,包括:
获取群体微博账号中每个微博账号登录时所使用的IP地址;
对于每个获取的IP地址,统计登录时使用该IP地址的微博账号的数量;若统计出的数量大于第一阈值,则将登录时使用该IP地址的微博账号的疑似度增加第一步长值;
将疑似度大于设定值的微博账号识别为微博营销账号。
在所述将疑似度大于设定值的微博账号识别为微博营销账号之前,还包括:
对于每个微博账号,获取该微博账号的行为日志并进行分析:统计该行为日志中记录的调用接口的次数;若统计出的调用接口的次数大于第二阈值,则将该微博账号的疑似度增加第二步长值。
在所述获取该微博账号的行为日志并进行分析时,还包括:
若该行为日志中记录有登录、投放广告记录,但没有广告曝光量的记录,则将该微博账号的疑似度增加第三步长值。
在所述将疑似度大于设定值的微博账号识别为微博营销账号之前,还包括:
对于每个微博账号,分别计算该微博账号的博文操作行为特征向量到各样本微博营销账号的博文操作行为特征向量的距离,并将计算出的距离的平均值作为第一距离;并分别计算该微博账号的博文操作行为特征向量到各样本非微博营销账号的博文操作行为特征向量的距离,并将计算出的距离的平均值作为第二距离;若所述第一距离小于所述第二距离,则将该微博账号划分成疑似微博营销账号;否则,将该微博账号划分成非微博营销账号;
对于每个划分成疑似微博营销账号的微博账号,统计该微博账号的行为日志中关注微博营销账号的数量,若统计出的关注微博营销账号的数量大于第三阈值,则将该微博账号的疑似度增加第四步长值。
在所述将疑似度大于设定值的微博账号识别为微博营销账号之前,还包括:
若统计出的登录时使用的IP地址位于同一网段的微博账号的数量大于第四阈值,则将登录时使用的IP地址位于该网段的微博账号的疑似度增加第五步长值。
在所述将疑似度大于设定值的微博账号识别为微博营销账号之前,还包括:
获取登录群体微博账号中每个微博账号所使用的客户端的浏览器中的记录标记Cookies;进而统计出该Cookies中包含的微博账号的数量;若统计出的数量大于第五阈值,则将该Cookies中包含的微博账号的疑似度增加第六步长值。
根据本发明的另一个方面,还提供了一种微博营销账号的识别方法,包括:
获取群体微博账号中每个微博账号登录时所使用的互联网协议IP地址;
对于每个获取的IP地址,统计登录时使用该IP地址的微博账号的数量;若统计出的数量大于第一阈值,则将登录时使用该IP地址的微博账号识别为微博营销账号。
根据本发明的另一个方面,还提供了一种微博营销账号的识别系统,包括:
第一行为特征统计模块,用于获取群体微博账号中每个微博账号登录时所使用的IP地址;对于每个获取的IP地址,统计登录时使用该IP地址的微博账号的数量;若统计出的数量大于第一阈值,则将登录时使用该IP地址的微博账号的疑似度增加第一步长值;
微博营销账号识别模块,用于将疑似度大于设定值的微博账号识别为微博营销账号。
所述系统还包括:如下模块之一,或如下模块的任意组合:
第二行为特征统计模块,用于对于每个微博账号,获取该微博账号的行为日志并进行分析:统计该行为日志中记录的调用接口的次数;若统计出的调用接口的次数大于第二阈值,则将该微博账号的疑似度增加第二步长值;
第三行为特征统计模块,用于对于每个微博账号,获取该微博账号的行为日志并进行分析:若该行为日志中记录有登录、投放广告记录,但没有广告曝光量的记录,则将该微博账号的疑似度增加第三步长值;
第四行为特征统计模块,用于对于每个微博账号,分别计算该微博账号的博文操作行为特征向量到各样本微博营销账号的博文操作行为特征向量的距离,并将计算出的距离的平均值作为第一距离;以及分别计算该微博账号的博文操作行为特征向量到各样本非微博营销账号的博文操作行为特征向量距离,并将计算出的距离的平均值作为第二距离;若所述第一距离小于所述第二距离,则将该微博账号划分成疑似微博营销账号;否则,将该微博账号划分成非微博营销账号;对于每个划分成疑似微博营销账号的微博账号,统计该微博账号的行为日志中关注微博营销账号的数量,若统计出的关注微博营销账号的数量大于第三阈值,则将该微博账号的疑似度增加第四步长值;
第五行为特征统计模块,用于获取群体微博账号中每个微博账号登录时所使用的IP地址;若统计出的登录时使用的IP地址位于同一网段的微博账号的数量大于第四阈值,则将登录时使用的IP地址位于该网段的微博账号的疑似度增加第五步长值;
第六行为特征统计模块,用于获取登录群体微博账号中每个微博账号所使用的客户端的浏览器中的记录标记Cookies;进而统计出该Cookies中包含的微博账号的数量;若统计出的数量大于第五阈值,则将该Cookies中包含的微博账号的疑似度增加第六步长值。
根据本发明的另一个方面,还提供了一种微博营销账号的识别系统,包括:
IP地址获取模块,用于获取群体微博账号中每个微博账号登录时所使用的IP地址;
微博营销账号识别模块,用于对于所述IP地址获取模块获取的每个IP地址,统计登录时使用该IP地址的微博账号的数量;若统计出的数量大于第一阈值,则将登录时使用该IP地址的微博账号识别为微博营销账号。
本发明提供的技术方案中,根据微博营销账号的IP聚集性特征,对群体微博账号进行微博营销账号进行识别:若登录时使用相同IP地址的微博账号的数量大于第一阈值,则将登录时使用相同IP地址的微博账号识别为微博营销账号。这样,即使有的微博营销账号模拟正常微博账号发布、转发博文的行为,但通过发现微博账号具有IP地址聚集性特征,则可据此识别出微博营销账号;以提高微博营销账号的识别准确率。
附图说明
图1为本发明实施例提供的微博营销账号的识别方法的流程示意图;
图2为本发明实施例提供的微博营销账号的识别系统的结构示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图并举出优选实施例,对本发明进一步详细说明。然而,需要说明的是,说明书中列出的许多细节仅仅是为了使读者对本发明的一个或多个方面有一个透彻的理解,即便没有这些特定的细节也可以实现本发明的这些方面。
本申请使用的“模块”、“系统”等术语旨在包括与计算机相关的实体,例如但不限于硬件、固件、软硬件组合、软件或者执行中的软件。例如,模块可以是,但并不仅限于:处理器上运行的进程、处理器、对象、可执行程序、执行的线程、程序和/或计算机。举例来说,计算设备上运行的应用程序和此计算设备都可以是模块。一个或多个模块可以位于执行中的一个进程和/或线程内。
本发明的发明人发现,对单个微博账号的行为进行分析具有局限性,如果对群体账号的行为特征进行统计,则可以从中发现模拟正常微博账号行为的微博营销账号:对群体微博账号的登录IP(Internet Protocol,互联网协议)地址进行统计,若登录时使用相同IP地址的微博账号的数量大于第一阈值,则将登录时使用相同IP地址的微博账号的识别为微博营销账号。事实上,发明人发现,非微博营销账号的私密性较强,通常不会与其他人的微博账号共同使用同一计算机,具有相同的IP地址;而使用微博营销账号进行营销的人员,其微博私密性较差,通常并不介意多人使用的多个微博营销账号在同一计算机上登录;因此,即使有的微博营销账号模拟正常微博账号发布、转发博文的行为,但通过发现微博账号的IP聚集性特征(使用同一IP地址登录数量大于第一阈值),则可据此识别出微博营销账号;以提高微博营销账号的识别准确率。
此外,发明人还发现,微博营销账号模拟正常微博账号发布、转发博文的行为时,其通常还具有调用接口的行为特征,而非微博营销账号通常不具有调用接口的行为特征;或者,微博营销账号模拟正常微博账号投放广告的行为时,其通常还具有无广告曝光量的行为特征,而非微博营销账号通常不具有无广告曝光量的行为特征;或者,微博营销账号模拟正常微博账号关注其它微博账号的行为时,其通常还具有关注微博营销账号的行为特征;而非微博营销账号通常不具有关注微博营销账号的行为特征。因此,为更进一步提高微博营销账号的识别准确率,还可以综合考虑上述行为特征对微博营销账号进行识别:若发现该微博账号具有大于设置值个上述行为特征,则可以据此将该微博账号作为识别出的微博营销账号。这样,以模拟正常微博账号行为的微博营销账号的多种行为特征作为识别依据,不仅能够识别出模拟正常微博账号行为的微博营销账号,而且,相比仅凭借IP聚集性进行识别,识别的准确率更高。
下面结合附图详细说明本发明的技术方案。
本发明实施例提供的微博营销账号的识别具体方法,流程如图1所示,包括如下步骤:
S101:获取群体微博账号中每个微博账号登录时所使用的IP地址。
本步骤中,对于群体微博账号中每个微博账号,获取该微博账号登录时所使用的IP地址,也就是登录该微博账号时所使用的客户端的IP地址。
S102:统计出登录时使用相同IP地址的微博账号的数量;若该数量超过第一阈值,则将登录时使用相同IP地址的微博账号的疑似度增加第一步长值。
本步骤中,对于每个获取的IP地址,确定出登录时使用该IP地址的微博账号,进而统计确定出的微博账号的数量。若统计出的数量大于第一阈值,则将登录时使用该IP地址的微博账号的疑似度增加第一步长值(例如,第一步长值等于1)。其中,本领域技术人员可以根据经验对第一阈值和第一步长值进行设定。
例如,待识别的微博账号中,账号ID(Identification,身份识别号码):2809798682,账号名称:在路上嘉儿素娜;账号ID:2803422050,账号名称:草摩夹;账号ID:2805696821,账号名称:琪琪的微博账号的登录IP地址相同,若此时第一阈值为2,则分别将上述三个微博账号的疑似度增加第一步长值。
事实上,还可以确定出登录时使用IP地址在同一网段的微博账号,进而统计确定出的微博账号的数量;若统计出的数量大于第四阈值,同样可以将登录时使用IP地址在同一网段的微博账号的疑似度增加第五步长值。其中,本领域技术人员可以根据经验对第四阈值和第五步长值进行设定。
此外,对于群体微博账号中每个微博账号,还可以获取登录该微博账号所使用的客户端中浏览器的Cookies(记录标记),进而统计出该Cookies中包含的微博账号的数量。若统计出的数量大于第五阈值,则将该Cookies包含的微博账号的疑似度增加第六步长值。其中,本领域技术人员可以根据经验对第五阈值和第六步长值进行设定。
S103:获取群体微博账号中每个微博账号的行为日志。
更优地,还可在本步骤中对于群体微博账号中每个微博账号,获取该微博账号的行为日志。其中,行为日志中记录中该微博账号的登录情况、调用接口情况、广告投放情况、广告曝光量情况,以及关注微博营销账号情况。
S104:对于群体微博账号中每个微博账号,若该微博账号的行为日志中有登录、投放广告记录,但没有广告曝光量记录,则将该待识别微博账号的疑似度增加第三步长值。
更优地,还可在本步骤中对于正常微博账号,在用户通过该账号观看广告时,在该账号的行为日志中记录中广告投放情况,相应地也记录有广告曝光量情况。因此,若该微博账号的行为日志中有登录、投放广告记录,但没有广告曝光量记录,则将该待识别微博账号的疑似度增加第三步长值。其中,本领域技术人员可以根据经验对第三步长值进行设定。
S105:对于群体微博账号中每个微博账号,统计该微博账号的行为日志中记录的调用接口的次数,若该次数小于第二阈值,则将该微博账号的疑似度增加第二步长值。
更优地,还可在本步骤中,对于群体微博账号中每个微博账号,统计该微博账号的行为日志中记录的调用接口的次数。若统计出的该微博账号的行为日志中调用接口的次数小于第二阈值,则将该微博账号的疑似度增加第二步长值。其中,第二阈值具体可以为各样本非微博营销账号的行为日志中记录的调用接口的次数的平均值。其中,本领域技术人员可以根据经验对第二步长值进行设定。
S106:将群体微博账号进行分类,对于每个划分成疑似微博营销账号的微博账号,统计该微博账号的行为日志中关注微博营销账号的数量,若该数量大于第三阈值,则将该微博账号的疑似度增加第四步长值。
更优地,还可在本步骤中,利用K-means(K均值聚类)算法,对于群体微博账号中的每个微博账号,分别计算该微博账号的博文操作行为特征向量到各样本微博营销账号的博文操作行为特征向量的距离,并将计算出的上述距离的平均值作为第一距离。同时,分别计算该微博账号的博文操作行为特征向量到各样本非微博营销账号的博文操作行为特征向量的距离,并将计算出的距离的平均值作为第二距离;若计算出的第一距离小于计算出的第二距离,则将该微博账号划分成疑似微博营销账号;否则,将该微博账号划分成非微博营销账号。其中,微博账号的博文操作行为特征向量中的向量元素包括:微博账号月发布博文的次数、微博账号月转发博文的次数、微博账号月评论博文的次数组成。
对于每个划分成疑似微博营销账号的微博账号,根据步骤S103获取的该微博账号的行为日志,统计出该行为日志中关注微博营销账号的数量,若统计出的关注微博营销账号的数量大于第三阈值,则将该划分成疑似营销账号的微博账号的疑似度增加第四步长值。其中,本领域技术人员可以根据经验对第三阈值和第四步长值进行设定。
事实上,通过K-means聚类算法将群体微博账号划分成疑似微博营销账号或非微博营销账号后,划分成疑似微博营销账号的微博账号中有很有可能存在误判的账号,因此,需要根据关注微博营销账号数量对划分成疑似微博营销账号的微博账号进行进一步筛查,以提高利用K-means聚类算法对群体微博账号进行分类的准确性。
S107:将疑似度大于设定值的微博账号识别为微博营销账号。
本步骤中,对于群体微博账号中每个微博账号,统计出该微博账号的疑似度,若该微博账号的疑似度大于设定值,则将该识别微博账号识别为微博营销账号,并将其加入微博营销账号库中,更新该微博营销账号库。其中,较优地,设定值具体可以为2,或者是本领域技术人员根据经验设置的其它整数值。
事实上,统计出登录时使用相同IP地址的微博账号的数量大于第一阈值后,便将登录时使用相同IP地址的微博账号且数量大于第一阈值的微博账号识别为微博营销账号。但是为了进一步提高销账号的识别准确率,可以继续后续的方法步骤:综合考虑微博营销账号的其它行为特征,将疑似度大于设定值的微博账号识别为微博营销账号。其中,上述第一、二、三、四、五、六步长值可以为相同值,也可以为不同值。并且上述方法步骤104-106的执行顺序不分先后,可以依次执行,也可以同时执行。
本发明实施例提供的一种微博营销账号识别系统的内部结构,如图2所示,包括:第一行为特征统计模块201和微博营销账号识别模块202。
第一行为特征统计模块201用于获取群体微博账号中每个微博账号登录时所使用的IP地址;对于每个获取的IP地址,统计登录时使用该IP地址的微博账号的数量;若统计出的数量大于第一阈值,则将登录时使用该IP地址的微博账号的疑似度增加第一步长值。
微博营销账号识别模块202用于将疑似度大于设定值的微博账号识别为微博营销账号。
进一步,本发明实施例提供的一种微博营销账号识别系统还包括如下模块之一,或如下模块的任意组合:第二行为特征统计模块203、第三行为特征统计模块204、第四行为特征统计模块205、第五行为特征统计模块206、第六行为特征统计模块207;
其中,第二行为特征统计模块203用于对于每个微博账号,获取该微博账号的行为日志并进行分析:统计该行为日志中记录的调用接口的次数;若统计出的调用接口的次数大于第二阈值,则将该微博账号的疑似度增加第二步长值。
第三行为特征统计模块204用于对于每个微博账号,获取该微博账号的行为日志并进行分析:若该行为日志中记录有登录、投放广告记录,但没有广告曝光量的记录,则将该微博账号的疑似度增加第三步长值。
第四行为特征统计模块205用于对于每个微博账号,分别计算该微博账号的博文操作行为特征向量到各样本微博营销账号的博文操作行为特征向量的距离,并将计算出的距离的平均值作为第一距离;以及分别计算该微博账号的博文操作行为特征向量到各样本非微博营销账号的博文操作行为特征向量距离,并将计算出的距离的平均值作为第二距离;若第一距离小于第二距离,则将该微博账号划分成疑似微博营销账号;否则,将该微博账号划分成非微博营销账号;对于每个划分成疑似微博营销账号的微博账号,统计该微博账号的行为日志中关注微博营销账号的数量,若统计出的关注微博营销账号的数量大于第三阈值,则将该微博账号的疑似度增加第四步长值。
第五行为特征统计模块206用于获取群体微博账号中每个微博账号登录时所使用的IP地址;若统计出的登录时使用的IP地址位于同一网段的微博账号的数量大于第四阈值,则将登录时使用的IP地址位于该网段的微博账号的疑似度增加第五步长值。
第六行为特征统计模块207用于获取登录群体微博账号中每个微博账号所使用的客户端的浏览器中的记录标记Cookies;进而统计出该Cookies中包含的微博账号的数量;若统计出的数量大于第五阈值,则将该Cookies中包含的微博账号的疑似度增加第六步长值。
此外,本发明实施例提供的另一种微博营销账号识别系统的内部结构,可以包括:IP地址获取模块和微博营销账号识别模块;
其中,IP地址获取模块用于获取群体微博账号中每个微博账号登录时所使用的IP地址。
微博营销账号识别模块用于对于IP地址获取模块获取的每个IP地址,统计登录时使用该IP地址的微博账号的数量;若统计出的数量大于第一阈值,则将登录时使用该IP地址的微博账号识别为微博营销账号。
本发明的技术方案中,根据微博营销账号的IP聚集性特征,对群体微博账号进行微博营销账号进行识别:若登录时使用相同IP地址的微博账号的数量大于第一阈值,则将登录时使用相同IP地址的微博账号识别为微博营销账号。这样,即使有的微博营销账号模拟正常微博账号发布、转发博文的行为,但通过发现微博账号具有IP地址聚集性特征,则可据此识别出微博营销账号;以提高微博营销账号的识别准确率。
更优地,为了提高微博营销账号识别的准确性,还可以综合考虑微博营销账号调用接口性、无广告曝光量、关注微博营销账号等其它行为特征,对群体微博账号进行微博营销账号的识别:若发现微博账号具有大于设置值个上述行为特征,则可以据此识别出微博营销账号。这样,以模拟正常微博账号行为的微博营销账号的多种行为特征为识别依据,不仅能够识别出模拟正常微博账号行为的微博营销账号,而且,相比仅凭借IP聚集性进行识别,识别的准确率更高。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读取存储介质中,如:ROM/RAM、磁碟、光盘等。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (15)

1.一种微博营销账号的识别方法,其特征在于,包括:
获取群体微博账号中每个微博账号登录时所使用的互联网协议IP地址;
对于每个获取的IP地址,统计登录时使用该IP地址的微博账号的数量;若统计出的数量大于第一阈值,则将登录时使用该IP地址的微博账号的疑似度增加第一步长值;
对于每个微博账号,获取该微博账号的行为日志并进行分析:统计该行为日志中记录的调用接口的次数;若统计出的调用接口的次数大于第二阈值,则将该微博账号的疑似度增加第二步长值;
将疑似度大于设定值的微博账号识别为微博营销账号。
2.如权利要求1所述的方法,其特征在于,在所述获取该微博账号的行为日志并进行分析时,还包括:
若该行为日志中记录有登录、投放广告记录,但没有广告曝光量的记录,则将该微博账号的疑似度增加第三步长值。
3.如权利要求1或2所述的方法,其特征在于,在所述将疑似度大于设定值的微博账号识别为微博营销账号之前,还包括:
对于每个微博账号,利用K均值聚类K-means算法分别计算该微博账号的博文操作行为特征向量到各样本微博营销账号的博文操作行为特征向量的距离,并将计算出的距离的平均值作为第一距离;并分别计算该微博账号的博文操作行为特征向量到各样本非微博营销账号的博文操作行为特征向量的距离,并将计算出的距离的平均值作为第二距离;若所述第一距离小于所述第二距离,则将该微博账号划分成疑似微博营销账号;否则,将该微博账号划分成非微博营销账号;
对于每个划分成疑似微博营销账号的微博账号,统计该微博账号的行为日志中关注微博营销账号的数量,若统计出的关注微博营销账号的数量大于第三阈值,则将该微博账号的疑似度增加第四步长值。
4.如权利要求1或2所述的方法,其特征在于,在所述将疑似度大于设定值的微博账号识别为微博营销账号之前,还包括:
若统计出的登录时使用的IP地址位于同一网段的微博账号的数量大于第四阈值,则将登录时使用的IP地址位于该网段的微博账号的疑似度增加第五步长值。
5.如权利要求1或2所述的方法,其特征在于,在所述将疑似度大于设定值的微博账号识别为微博营销账号之前,还包括:
获取登录群体微博账号中每个微博账号所使用的客户端的浏览器中的记录标记Cookies;进而统计出该Cookies中包含的微博账号的数量;若统计出的数量大于第五阈值,则将该Cookies中包含的微博账号的疑似度增加第六步长值。
6.一种微博营销账号的识别方法,其特征在于,包括:
获取群体微博账号中每个微博账号登录时所使用的互联网协议IP地址;
对于每个获取的IP地址,统计登录时使用该IP地址的微博账号的数量;若统计出的数量大于第一阈值,则将登录时使用该IP地址的微博账号的疑似度增加第一步长值;
对于每个微博账号,获取该微博账号的行为日志并进行分析:若该行为日志中记录有登录、投放广告记录,但没有广告曝光量的记录,则将该微博账号的疑似度增加第三步长值;
将疑似度大于设定值的微博账号识别为微博营销账号。
7.一种微博营销账号的识别方法,其特征在于,包括:
获取群体微博账号中每个微博账号登录时所使用的互联网协议IP地址;
对于每个获取的IP地址,统计登录时使用该IP地址的微博账号的数量;若统计出的数量大于第一阈值,则将登录时使用该IP地址的微博账号的疑似度增加第一步长值;
对于每个微博账号,利用K均值聚类K-means算法分别计算该微博账号的博文操作行为特征向量到各样本微博营销账号的博文操作行为特征向量的距离,并将计算出的距离的平均值作为第一距离;并分别计算该微博账号的博文操作行为特征向量到各样本非微博营销账号的博文操作行为特征向量的距离,并将计算出的距离的平均值作为第二距离;若所述第一距离小于所述第二距离,则将该微博账号划分成疑似微博营销账号;否则,将该微博账号划分成非微博营销账号;
对于每个划分成疑似微博营销账号的微博账号,统计该微博账号的行为日志中关注微博营销账号的数量,若统计出的关注微博营销账号的数量大于第三阈值,则将该微博账号的疑似度增加第四步长值;
将疑似度大于设定值的微博账号识别为微博营销账号。
8.一种微博营销账号的识别方法,其特征在于,包括:
获取群体微博账号中每个微博账号登录时所使用的互联网协议IP地址;
对于每个获取的IP地址,统计登录时使用该IP地址的微博账号的数量;若统计出的数量大于第一阈值,则将登录时使用该IP地址的微博账号的疑似度增加第一步长值;
若统计出的登录时使用的IP地址位于同一网段的微博账号的数量大于第四阈值,则将登录时使用的IP地址位于该网段的微博账号的疑似度增加第五步长值;
将疑似度大于设定值的微博账号识别为微博营销账号。
9.一种微博营销账号的识别方法,其特征在于,包括:
获取群体微博账号中每个微博账号登录时所使用的互联网协议IP地址;
对于每个获取的IP地址,统计登录时使用该IP地址的微博账号的数量;若统计出的数量大于第一阈值,则将登录时使用该IP地址的微博账号的疑似度增加第一步长值;
获取登录群体微博账号中每个微博账号所使用的客户端的浏览器中的记录标记Cookies;进而统计出该Cookies中包含的微博账号的数量;若统计出的数量大于第五阈值,则将该Cookies中包含的微博账号的疑似度增加第六步长值;
将疑似度大于设定值的微博账号识别为微博营销账号。
10.一种微博营销账号识别系统,其特征在于,包括:
第一行为特征统计模块,用于获取群体微博账号中每个微博账号登录时所使用的IP地址;对于每个获取的IP地址,统计登录时使用该IP地址的微博账号的数量;若统计出的数量大于第一阈值,则将登录时使用该IP地址的微博账号的疑似度增加第一步长值;
第二行为特征统计模块,用于对于每个微博账号,获取该微博账号的行为日志并进行分析:统计该行为日志中记录的调用接口的次数;若统计出的调用接口的次数大于第二阈值,则将该微博账号的疑似度增加第二步长值;
微博营销账号识别模块,用于将疑似度大于设定值的微博账号识别为微博营销账号。
11.如权利要求10所述的系统,其特征在于,还包括:如下模块之一,或如下模块的任意组合:
第三行为特征统计模块,用于对于每个微博账号,获取该微博账号的行为日志并进行分析:若该行为日志中记录有登录、投放广告记录,但没有广告曝光量的记录,则将该微博账号的疑似度增加第三步长值;
第四行为特征统计模块,用于对于每个微博账号,利用K均值聚类K-means算法分别计算该微博账号的博文操作行为特征向量到各样本微博营销账号的博文操作行为特征向量的距离,并将计算出的距离的平均值作为第一距离;以及分别计算该微博账号的博文操作行为特征向量到各样本非微博营销账号的博文操作行为特征向量距离,并将计算出的距离的平均值作为第二距离;若所述第一距离小于所述第二距离,则将该微博账号划分成疑似微博营销账号;否则,将该微博账号划分成非微博营销账号;对于每个划分成疑似微博营销账号的微博账号,统计该微博账号的行为日志中关注微博营销账号的数量,若统计出的关注微博营销账号的数量大于第三阈值,则将该微博账号的疑似度增加第四步长值;
第五行为特征统计模块,用于获取群体微博账号中每个微博账号登录时所使用的IP地址;若统计出的登录时使用的IP地址位于同一网段的微博账号的数量大于第四阈值,则将登录时使用的IP地址位于该网段的微博账号的疑似度增加第五步长值;
第六行为特征统计模块,用于获取登录群体微博账号中每个微博账号所使用的客户端的浏览器中的记录标记Cookies;进而统计出该Cookies中包含的微博账号的数量;若统计出的数量大于第五阈值,则将该Cookies中包含的微博账号的疑似度增加第六步长值。
12.一种微博营销账号识别系统,其特征在于,包括:
第一行为特征统计模块,用于获取群体微博账号中每个微博账号登录时所使用的IP地址;对于每个获取的IP地址,统计登录时使用该IP地址的微博账号的数量;若统计出的数量大于第一阈值,则将登录时使用该IP地址的微博账号的疑似度增加第一步长值;
第三行为特征统计模块,用于对于每个微博账号,获取该微博账号的行为日志并进行分析:若该行为日志中记录有登录、投放广告记录,但没有广告曝光量的记录,则将该微博账号的疑似度增加第三步长值;
微博营销账号识别模块,用于将疑似度大于设定值的微博账号识别为微博营销账号。
13.一种微博营销账号识别系统,其特征在于,包括:
第一行为特征统计模块,用于获取群体微博账号中每个微博账号登录时所使用的IP地址;对于每个获取的IP地址,统计登录时使用该IP地址的微博账号的数量;若统计出的数量大于第一阈值,则将登录时使用该IP地址的微博账号的疑似度增加第一步长值;
第四行为特征统计模块,用于对于每个微博账号,利用K均值聚类K-means算法分别计算该微博账号的博文操作行为特征向量到各样本微博营销账号的博文操作行为特征向量的距离,并将计算出的距离的平均值作为第一距离;以及分别计算该微博账号的博文操作行为特征向量到各样本非微博营销账号的博文操作行为特征向量距离,并将计算出的距离的平均值作为第二距离;若所述第一距离小于所述第二距离,则将该微博账号划分成疑似微博营销账号;否则,将该微博账号划分成非微博营销账号;对于每个划分成疑似微博营销账号的微博账号,统计该微博账号的行为日志中关注微博营销账号的数量,若统计出的关注微博营销账号的数量大于第三阈值,则将该微博账号的疑似度增加第四步长值;
微博营销账号识别模块,用于将疑似度大于设定值的微博账号识别为微博营销账号。
14.一种微博营销账号识别系统,其特征在于,包括:
第一行为特征统计模块,用于获取群体微博账号中每个微博账号登录时所使用的IP地址;对于每个获取的IP地址,统计登录时使用该IP地址的微博账号的数量;若统计出的数量大于第一阈值,则将登录时使用该IP地址的微博账号的疑似度增加第一步长值;
第五行为特征统计模块,用于获取群体微博账号中每个微博账号登录时所使用的IP地址;若统计出的登录时使用的IP地址位于同一网段的微博账号的数量大于第四阈值,则将登录时使用的IP地址位于该网段的微博账号的疑似度增加第五步长值;
微博营销账号识别模块,用于将疑似度大于设定值的微博账号识别为微博营销账号。
15.一种微博营销账号识别系统,其特征在于,包括:
第一行为特征统计模块,用于获取群体微博账号中每个微博账号登录时所使用的IP地址;对于每个获取的IP地址,统计登录时使用该IP地址的微博账号的数量;若统计出的数量大于第一阈值,则将登录时使用该IP地址的微博账号的疑似度增加第一步长值;
第六行为特征统计模块,用于获取登录群体微博账号中每个微博账号所使用的客户端的浏览器中的记录标记Cookies;进而统计出该Cookies中包含的微博账号的数量;若统计出的数量大于第五阈值,则将该Cookies中包含的微博账号的疑似度增加第六步长值;
微博营销账号识别模块,用于将疑似度大于设定值的微博账号识别为微博营销账号。
CN201410093704.8A 2014-03-13 2014-03-13 微博营销账号的识别方法及系统 Active CN103905532B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410093704.8A CN103905532B (zh) 2014-03-13 2014-03-13 微博营销账号的识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410093704.8A CN103905532B (zh) 2014-03-13 2014-03-13 微博营销账号的识别方法及系统

Publications (2)

Publication Number Publication Date
CN103905532A CN103905532A (zh) 2014-07-02
CN103905532B true CN103905532B (zh) 2017-11-03

Family

ID=50996687

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410093704.8A Active CN103905532B (zh) 2014-03-13 2014-03-13 微博营销账号的识别方法及系统

Country Status (1)

Country Link
CN (1) CN103905532B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104091280A (zh) * 2014-07-21 2014-10-08 吴晨 一种智能网络营销系统
CN105574038B (zh) * 2014-10-16 2019-03-01 阿里巴巴集团控股有限公司 基于反识别渲染的文本内容识别率测试方法及装置
CN111371761B (zh) * 2014-12-04 2022-10-18 创新先进技术有限公司 一种基于风险识别的信息处理方法及装置
CN105791335B (zh) * 2014-12-17 2019-10-01 阿里巴巴集团控股有限公司 一种信息处理方法及装置
CN105791255B (zh) * 2014-12-23 2020-03-13 阿里巴巴集团控股有限公司 基于账户聚类的计算机风险识别方法及其系统
CN105808988B (zh) * 2014-12-31 2020-07-03 阿里巴巴集团控股有限公司 一种识别异常账户的方法及装置
CN106469179A (zh) * 2015-08-21 2017-03-01 阿里巴巴集团控股有限公司 一种信息监控方法及装置
CN106953832B (zh) * 2016-01-07 2020-04-07 福建天晴数码有限公司 处理网游可疑账号的方法及系统
CN107483381B (zh) * 2016-06-07 2021-10-15 中兴通讯股份有限公司 关联账户的监控方法及装置
CN107135195B (zh) * 2017-02-20 2018-06-08 平安科技(深圳)有限公司 异常用户账号的检测方法和装置
CN108052543B (zh) * 2017-11-23 2021-02-26 北京工业大学 一种基于图分析聚类的微博相似账号检测方法
CN111507377B (zh) * 2020-03-24 2023-08-11 微梦创科网络科技(中国)有限公司 一种养号帐号批量识别方法及装置
CN112559845A (zh) * 2020-12-23 2021-03-26 北京清博大数据科技有限公司 一种非典型性媒体账号的身份与动机识别方法及系统
CN114996561B (zh) * 2021-03-02 2024-03-29 腾讯科技(深圳)有限公司 一种基于人工智能的信息推荐方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102571484A (zh) * 2011-12-14 2012-07-11 上海交通大学 一种检测网络水军以及找到网络水军的方法
CN103150374A (zh) * 2013-03-11 2013-06-12 中国科学院信息工程研究所 一种识别微博异常用户的方法和系统
CN103198161A (zh) * 2013-04-28 2013-07-10 中国科学院计算技术研究所 微博水军识别方法与设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102571484A (zh) * 2011-12-14 2012-07-11 上海交通大学 一种检测网络水军以及找到网络水军的方法
CN103150374A (zh) * 2013-03-11 2013-06-12 中国科学院信息工程研究所 一种识别微博异常用户的方法和系统
CN103198161A (zh) * 2013-04-28 2013-07-10 中国科学院计算技术研究所 微博水军识别方法与设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
""网络水军"泛滥与网络舆情监测的完善";陈宇;《青年记者》;20110530;正文第2节 *
"网络水军:微博营销中的"灰色阴影"";张筱筠 等;《新闻界》;20120115;第1-12页,第38页 *

Also Published As

Publication number Publication date
CN103905532A (zh) 2014-07-02

Similar Documents

Publication Publication Date Title
CN103905532B (zh) 微博营销账号的识别方法及系统
US20200226186A1 (en) System and method for analyzing user device information
CN108737535B (zh) 一种消息推送方法、存储介质和服务器
CN106126558B (zh) 一种舆情监控方法及装置
CN106355431B (zh) 作弊流量检测方法、装置及终端
CN106886518B (zh) 一种微博账号分类的方法
WO2017202336A1 (zh) 广告反作弊方法,装置及存储介质
US10270785B2 (en) Method and apparatus for identifying malicious account
CN103353920B (zh) 基于社交网络推荐游戏的方法和装置
CN106453357A (zh) 一种网络购票异常行为的识别方法、系统及设备
CN103970752B (zh) 独立访问者数量估算方法和系统
CN110706026A (zh) 一种异常用户的识别方法、识别装置及可读存储介质
CN107358075A (zh) 一种基于层次聚类的虚假用户检测方法
CN105095411B (zh) 一种基于app质量的app排名预测方法及系统
EP2836911A2 (en) Network virtual user risk control method and system
CN104951542A (zh) 识别社交短文本类别的方法、分类模型训练方法及装置
CN110134876B (zh) 一种基于群智传感器的网络空间群体性事件感知与检测方法
KR101937458B1 (ko) 사용자 영향력 계산 방법
van Zwol et al. Prediction of favourite photos using social, visual, and textual signals
KR102083624B1 (ko) 관심대상 분석 시스템 및 그 방법, 그리고 이에 적용되는 장치
CN109274639A (zh) 开放平台异常数据访问的识别方法和装置
Fei et al. Opinion Spam Detection in Social Networks
CN109493146A (zh) 广告投放方法及装置
CN103577505A (zh) 媒体文件的兴趣度预测方法和系统
CN106610994A (zh) 点击路径的统计方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant