CN110457558A - 网络水军的识别方法及装置、存储介质和处理器 - Google Patents

网络水军的识别方法及装置、存储介质和处理器 Download PDF

Info

Publication number
CN110457558A
CN110457558A CN201910703466.0A CN201910703466A CN110457558A CN 110457558 A CN110457558 A CN 110457558A CN 201910703466 A CN201910703466 A CN 201910703466A CN 110457558 A CN110457558 A CN 110457558A
Authority
CN
China
Prior art keywords
text data
network
network navy
navy
data information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910703466.0A
Other languages
English (en)
Inventor
齐中祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Womin Hi-Tech (beijing) Co Ltd
Original Assignee
Womin Hi-Tech (beijing) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Womin Hi-Tech (beijing) Co Ltd filed Critical Womin Hi-Tech (beijing) Co Ltd
Priority to CN201910703466.0A priority Critical patent/CN110457558A/zh
Publication of CN110457558A publication Critical patent/CN110457558A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Abstract

本申请公开了一种网络水军的识别方法及装置、存储介质和处理器。该方法包括:从互联网中抓取预设时间段内与目标关键词相关的文本数据信息;将文本数据信息输入至网络水军识别模型,其中,其中,网络水军识别模型为使用多组历史文本数据通过机器学习训练出的,多组历史文本数据中的每组历史文本数据均包括:历史文本数据信息和历史文本数据信息中标识出的网络水军的特征;从网络水军识别模型的输出结果中识别文本数据信息中是否存在网络水军的参与。通过本申请,解决了相关技术中难以对网络水军进行识别的技术问题。

Description

网络水军的识别方法及装置、存储介质和处理器
技术领域
本申请涉及互联网信息处理技术领域,具体而言,涉及一种网络水军的识别方法及装置、存储介质和处理器。
背景技术
随着互联网时代的到来,出现了网络水军,巨大的用户群与潜在的商机,使虚假意见和垃圾信息被广泛地制造和传播,该类危害的源头即俗称网络水军。例如,许多热门事件背后,都隐藏着大量网络水军。
广义上的网络水军是指基于利益或价值观认同等理由,受特定组织或个人的驱使,协同参与特定网络议题或事件的评论、转发、点赞等网络行为的一组账户。网络水军具有以下特征:四性特征:网络水军具有组织性、被动性、协同性、群体性特征。目标相同:网络水军进行危害行为的目标大多都是获得经济利益或扭转价值观以造成网络影响。数量巨大:网络水军为达到其目的,造成网络影响,必然会大量利用水军软件机器人或傀儡账号。行为异常:因其不正常动机,网络水军的行为模式显著异于正常用户。网络水军的常用操作技术和手法:网络水军的攻击特征,在最短的时间内,让消息爆炸性地传播,是网络水军的主要操作目的。以微博为例,现代网络水军攻击形式,往往高度贴合现有社交媒体的功能和技术。目前来看,常用的攻击方式有:①转发、点赞:为某条微博疯狂转发、点赞,让转发数和点赞数快速上升,形成微博上的热门。②热门评论:在某条热门评论下面,不停的盖楼、点赞,让该热门评论被系统置顶,同时评论本身盖楼内容都含有水军有意发布的内容。③热门话题:通过众多账号转发,让话题上热门排行榜,然后在热门话题下面发布一些水军言论。④热搜:不停的搜索某些关键字,然后这些关键字上热搜榜,并且扩大影响范围。⑤粉丝红包等:利用有限的金钱,通过发红包的方式将话题转发扩散,非常隐蔽。
随着互联网发展,进入Web 2.0以用户为中心的时代,通过网络应用进行信息交换的模式兴起。网络社区、电商网站、社交网站、博客、Wiki、社会媒体等逐渐流行,开放的平台形成了以兴趣为聚合点的用户社群,使得具有极高价值的用户信息在网络上不断累积。与此同时,以妨害商业利益和扰乱网络秩序为目的,制造宣传垃圾观点的网络水军在社交网络中开始泛滥。
新一代网络水军,较之以往有很大不同:其目标范围更广,危害影响更大;关注点不再局限于产生目标内容,而更多地转向了目标用户本身。他们结合社交媒体的特点,大量使用傀儡账号,并形成了具有一定组织性和规模的团体,行为具有高度隐蔽性。此阶段的水军识别起来便更加困难。身处信息爆炸的时代,如果不能及时对水军做出识别,就极有可能引发恶劣的舆论影响。
针对相关技术中难以对网络水军进行识别的技术问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种网络水军的识别方法及装置、存储介质和处理器,以解决相关技术中难以对网络水军进行识别的技术问题。
为了实现上述目的,根据本申请的一个方面,提供了一种网络水军的识别方法。该方法包括:从互联网中抓取预设时间段内与目标关键词相关的文本数据信息;将所述文本数据信息输入至网络水军识别模型,其中,其中,所述网络水军识别模型为使用多组历史文本数据通过机器学习训练出的,所述多组历史文本数据中的每组历史文本数据均包括:历史文本数据信息和所述历史文本数据信息中标识出的网络水军的特征;从所述网络水军识别模型的输出结果中识别所述文本数据信息中是否存在网络水军的参与。
进一步地,在将所述文本数据信息输入至网络水军识别模型之前,所述方法还包括:采用基于网络关系特征对所述多组历史文本数据的每组历史文本数据进行标识网络水军的特征;或者,采用将文本数据信息的内容特征与文本数据信息中的用户特征匹配,以对所述多组历史文本数据的每组历史文本数据进行标识网络水军的特征;或者,采用人工提取网络水军的特征与群体特征识别对所述多组历史文本数据的每组历史文本数据进行标识网络水军的特征。
进一步地,采用人工提取网络水军的特征与群体特征识别对所述多组历史文本数据的每组历史文本数据进行标识网络水军的特征包括:从历史文本数据信息中的社交账号数据中抓取异常账号信息;采用人工基于异常账号信息对所述多组历史文本数据的每组历史文本数据进行标识网络水军的特征。
进一步地,从历史文本数据信息中的社交账号数据中抓取异常账号信息之后,所述方法还包括:对所述异常账号信息下的转发的内容进行识别;若所述异常账号信息下的转发的内容高于所述异常账号信息下的原创内容,则将所述异常账号信息的特征标识为网络水军的特征。
进一步地,从历史文本数据信息中的社交账号数据中抓取异常账号信息之后,所述方法还包括:对所述异常账号信息下的转发的内容进行情绪特征识别;若从所述异常账号信息下的转发的内容中识别出的情绪特征为负面情绪的内容高于正面情绪的内容,则将所述异常账号信息的特征标识为网络水军的特征。
进一步地,在将所述文本数据信息输入至网络水军识别模型之前,所述方法还包括:从所述文本数据信息中识别出网络水军的源头;对所述网络水军的源头相关的社交媒体关联性进行挖掘,以对每组历史文本数据进行标识网络水军的特征。
进一步地,在从所述网络水军识别模型的输出结果中识别所述文本数据信息中是否存在网络水军的参与之后,所述方法还包括:若识别出的所述文本数据信息中存在网络水军的参与,则将所述文本数据信息中可疑的网络水军的网络地址发送至目标地址。
进一步地,在从所述网络水军识别模型的输出结果中识别所述文本数据信息中是否存在网络水军的参与之后,所述方法还包括:若识别出的所述文本数据信息中存在网络水军的参与,则确定所述文本数据信息中被所述网络水军的干预程度;基于所述文本数据信息中被所述网络水军的干预程度,预测与目标关键词对应的事件的舆情态势;基于所述舆情态势,触发预警信息。
为了实现上述目的,根据本申请的另一方面,提供了一种网络水军的识别装置。该装置包括:抓取单元,用于从互联网中抓取预设时间段内与目标关键词相关的文本数据信息;输入单元,用于将所述文本数据信息输入至网络水军识别模型,其中,其中,所述网络水军识别模型为使用多组历史文本数据通过机器学习训练出的,所述多组历史文本数据中的每组历史文本数据均包括:历史文本数据信息和所述历史文本数据信息中标识出的网络水军的特征;第一识别单元,用于从所述网络水军识别模型的输出结果中识别所述文本数据信息中是否存在网络水军的参与。
为了实现上述目的,根据本申请的另一方面,提供了一种存储介质,所述存储介质包括存储的程序,其中,所述程序执行上述任意一项所述的网络水军的识别方法。
为了实现上述目的,根据本申请的另一方面,提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述任意一项所述的网络水军的识别方法。
通过本申请,采用以下步骤:从互联网中抓取预设时间段内与目标关键词相关的文本数据信息;将文本数据信息输入至网络水军识别模型,其中,其中,网络水军识别模型为使用多组历史文本数据通过机器学习训练出的,多组历史文本数据中的每组历史文本数据均包括:历史文本数据信息和历史文本数据信息中标识出的网络水军的特征;从网络水军识别模型的输出结果中识别文本数据信息中是否存在网络水军的参与,解决了相关技术中难以对网络水军进行识别的技术问题。通过预先训练的网络水军识别模型,识别出文本数据信息中国是否存在网络水军的参与,进而达到了能够文本数据信息中的网络水军进行识别的效果。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例提供的网络水军的识别方法的流程图;以及
图2是根据本申请实施例提供的网络水军的识别装置的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
下面结合优选的实施步骤对本发明进行说明,图1是根据本申请实施例提供的网络水军的识别方法的流程图,如图1所示,该方法包括如下步骤:
步骤S101,从互联网中抓取预设时间段内与目标关键词相关的文本数据信息。
例如,预设时间段为近一周内,目标关键词为“3Q大战”,从互联网中获取近一周内与“3Q大战”相关的文本数据信息。
步骤S102,将文本数据信息输入至网络水军识别模型,其中,其中,网络水军识别模型为使用多组历史文本数据通过机器学习训练出的,多组历史文本数据中的每组历史文本数据均包括:历史文本数据信息和历史文本数据信息中标识出的网络水军的特征。
上述的网络水军识别模型为预先采用机器学习对样本数据进行学习生成的模型,用于识别文本数据信息中是否存在网络水军的特征。
可选地,在本申请实施例提供的网络水军的识别方法中,在将文本数据信息输入至网络水军识别模型之前,该方法还包括:采用基于网络关系特征对多组历史文本数据的每组历史文本数据进行标识网络水军的特征;或者,采用将文本数据信息的内容特征与文本数据信息中的用户特征匹配,以对多组历史文本数据的每组历史文本数据进行标识网络水军的特征;或者,采用人工提取网络水军的特征与群体特征识别对多组历史文本数据的每组历史文本数据进行标识网络水军的特征。
在上述方案中,在将文本数据信息输入至网络水军识别模型之前,预先采用机器学习对样本数据进行学习,生成网络水军识别模型。样本数据中可以为历史文本数据,样本数据中至少包括:历史文本数据信息以及对历史文本数据信息中标识出的网络水军的特征,在对样本数据进行学习之前,需要标识出网络水军的特征。在本申请中,可以采用以下三种技术手段标识网络水军的特征。
第一种,采用基于网络关系特征对多组历史文本数据的每组历史文本数据进行标识网络水军的特征,具体地,Web 2.0社交网络与真实世界中人们的交往圈子十分相似,社会关系网络结构相对固定,并能维持一定的稳定性。与正常用户相比,社交网络中的网络水军难以形成正常的社会关系,其关系网络结构较为特殊。通常情况下,水军账号的“粉丝关注比”极不平衡,多是关注数量极大,粉丝数却寥寥无几。此外,由于社交用户间的关系相对稳定,可以认为同标定的网络水军有好友或粉丝关系的用户有很大可能也是网络水军。由于这种交往稳定性的存在,使得社会关系不会随着网络水军日益“精湛”的躲避技术而轻易变化,因此,利用社交网络中的用户的网络关系特征能够很好的区分何识别社交网络领域水军。在本申请中,利用网络水军自身具有高度聚集性以及与普通用户关系稀疏性等网络关系特征,能够标识出文本数据中社交领域的网络水军。
第二种,采用将文本数据信息的内容特征与文本数据信息中的用户特征匹配,以对多组历史文本数据的每组历史文本数据进行标识网络水军的特征。也即,用内容特征与用户特征做匹配识别网络水军的特征。从文本数据信息中的内容上识别网络水军的特征,可以基于网络水军的文本特点可以帮助快速地追踪到网络水军的特征和动作。
例如,互联网上存在的大量虚假评论具有高度重复性和相似性,例如某这条帖子,一夜之间在百度上多出级几千条,这么高的重复率完全与正常的传播规律脱轨:如果是一个毫无价值、网民又不会关心的话题,突然在一天甚至几个小时的时间内铺天盖地地出现在各大网络论坛,而且几乎没人点击、没人回复,除非是网站编辑发布,多数情况下这种帖子出自网络水军之手。
网络水军的出现通常伴随着利益的博弈,因此他们发布的内容经常带有明显的文本倾向性,可以之为识别的突破口。例如,在诸多新兴应用中,被侵蚀最为严重的实属电商领域。日常生活中,人们在购买商品时,会习惯性参考他人的评价来判断某家产品的好坏。商家便利用这一心理,雇佣大量网络水军为店铺刷五星好评,并发布虚假评论影响用户的购买决定,最终实现商业目的。另外,在浏览论坛的过程中,经常能看到有人灌水。这些文本具有一些共同的特点,包括大量重复使用无实义的形容词、语言多有重叠等等,因此可以通过对文本数据信息中的大量异常评论的统计,利用统计学理论寻找异常评论识别网络水军的特征,大大提高了效率和准确性。
第三种,采用人工提取网络水军的特征与群体特征识别对多组历史文本数据的每组历史文本数据进行标识网络水军的特征。
但随着网络环境日趋复杂化和用户辨别力的增强,一般的普通网民都能轻而易举地识别重复发帖的网络水军的特征。面对这一现状,网络水军也积极改变策略,钻研出更加多样化的传播策略,“伪装”效果也在逐步增强,行为表现模式正朝着正常用户的行为一步步靠近。在这样的情况下,为了更好地应对新生代网络水军,对其进行文本分析时需结合对用户特征的研究。这类方法包含了两个方向:一是基于用户行为特征的网络水军识别研究,二是基于用户关系特征的网络水军识别研究。
通过人工标定的种子网络水军传播的低可信度信息作为线索,分析这些信息的传播路径及互动情况来发现其他网络水军。如果传播低可信度信息的用户集合中有一部分固定用户,则可以判定这部分用户是高度疑似的网络水军。也可以利用朴素贝叶斯和神经网络模型,通过大量标注的网络水军内容信息及其关联信息,可发现网络水军的一些典型特征,然后根据这些典型特征来识别网络水军。比如,通过设置粉丝关注比、平均发布微博数、互相关注数、综合质量评价、收藏数和阳光信用这6个特征属性来设计微博网络水军识别分类器,并基于贝叶斯模型和遗传智能优化算法实现网络水军的识别。
可选地,在本申请实施例提供的网络水军的识别方法中,采用人工提取网络水军的特征与群体特征识别对多组历史文本数据的每组历史文本数据进行标识网络水军的特征包括:从历史文本数据信息中的社交账号数据中抓取异常账号信息;采用人工基于异常账号信息对多组历史文本数据的每组历史文本数据进行标识网络水军的特征。
例如,异常账户具有以下特点:通过带有权威性和独立性的账号迷惑网民;重复注册大量带有权威性和独立性的账号以大量高频输出信息;同一条内容被分享的次数与被点赞的次数几乎一样;分享和点赞的用户相似度较高;分享和点赞的用户中,带有权威性迷惑性的账号名称居多;分享和点赞的操作时间点、操作顺序高度重叠。基于以上特点,通过沃德社会气象台从历史文本数据信息中的社交账号数据中抓取提炼异常账号信息;然后采用人工基于异常账号信息对多组历史文本数据的每组历史文本数据进行标识网络水军的特征。
可选地,在本申请实施例提供的网络水军的识别方法中,从历史文本数据信息中的社交账号数据中抓取异常账号信息之后,该方法还包括:对异常账号信息下的转发的内容进行识别;若异常账号信息下的转发的内容高于异常账号信息下的原创内容,则将异常账号信息的特征标识为网络水军的特征。
在上述方案中,若异常账号信息下的转发的内容高于异常账号信息下的原创内容,则认为该账户为可疑网络水军账户,将该账户信息标识为网络水军的特征。
可选地,在本申请实施例提供的网络水军的识别方法中,从历史文本数据信息中的社交账号数据中抓取异常账号信息之后,该方法还包括:对异常账号信息下的转发的内容进行情绪特征识别;若从异常账号信息下的转发的内容中识别出的情绪特征为负面情绪的内容高于正面情绪的内容,则将异常账号信息的特征标识为网络水军的特征。
通过数据统计发现,负面情绪(例如,愤怒)是网络上传播最快的情绪,网络水军往往通过散布负面情绪来达到传播信息的目的,采用情绪分析技术通过对异常账号信息下的转发的内容进行情绪特征识别,可以识别出可疑的网络水军,将转发的内容为负面情绪高于正面情绪的异常账号信息的特征标识为网络水军的特征。
可选地,在本申请实施例提供的网络水军的识别方法中,在将文本数据信息输入至网络水军识别模型之前,该方法还包括:从文本数据信息中识别出网络水军的源头;对网络水军的源头相关的社交媒体关联性进行挖掘,以对每组历史文本数据进行标识网络水军的特征。
在上述方案中,通过从文本数据信息中对种子水军(网络水军的源头)的识别,对种子水军的社交媒体关联性(点赞,转发层级)进行深度挖掘,可对网络水军团体关系进行整体识别,从而对每组历史文本数据标识出网络水军的特征。
步骤S103,从网络水军识别模型的输出结果中识别文本数据信息中是否存在网络水军的参与。
本申请实施例提供的网络水军的识别方法,通过从互联网中抓取预设时间段内与目标关键词相关的文本数据信息;将文本数据信息输入至网络水军识别模型,其中,其中,网络水军识别模型为使用多组历史文本数据通过机器学习训练出的,多组历史文本数据中的每组历史文本数据均包括:历史文本数据信息和历史文本数据信息中标识出的网络水军的特征;从网络水军识别模型的输出结果中识别文本数据信息中是否存在网络水军的参与,解决了相关技术中难以对网络水军进行识别的技术问题。通过预先训练的网络水军识别模型,识别出文本数据信息中国是否存在网络水军的参与,进而达到了能够文本数据信息中的网络水军进行识别的效果。
可选地,在本申请实施例提供的网络水军的识别方法中,在从网络水军识别模型的输出结果中识别文本数据信息中是否存在网络水军的参与之后,该方法还包括:若识别出的文本数据信息中存在网络水军的参与,则将文本数据信息中可疑的网络水军的网络地址发送至目标地址。
在上述方案中,若识别出的文本数据信息中存在网络水军的参与,则将文本数据信息中可疑的网络水军的网络地址发送至目标地址,以便有需求用户可以从目标地址中去获取到可疑的网络水军的网络地址,去分析网络水军的真实对象。
可选地,在本申请实施例提供的网络水军的识别方法中,在从网络水军识别模型的输出结果中识别文本数据信息中是否存在网络水军的参与之后,该方法还包括:若识别出的文本数据信息中存在网络水军的参与,则确定文本数据信息中被网络水军的干预程度;基于文本数据信息中被网络水军的干预程度,预测与目标关键词对应的事件的舆情态势;基于舆情态势,触发预警信息。
在上述方案中,针对文本数据信息中事件的整体态势特征,可跟踪并分析不同事件被水军干预的程度。通过对大量事件的历史数据进行挖掘分析,可进行模型训练,以预判当前发生的事件的后续态势,触发预警信息,并根据一定的预设规则,调整预警级别。
通过本申请实施例提供的一种网络水军的识别方法,可依据事态发展或监控实时性的需求,弹性部署监控节点,从而在整个过程中可低成本的进行实时网络水军的监控。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例还提供了一种网络水军的识别装置,需要说明的是,本申请实施例的网络水军的识别装置可以用于执行本申请实施例所提供的用于网络水军的识别方法。以下对本申请实施例提供的网络水军的识别装置进行介绍。
图2是根据本申请实施例的网络水军的识别装置的示意图。如图2所示,该装置包括:抓取单元201,输入单元202和第一识别单元203。
具体地,抓取单元201,用于从互联网中抓取预设时间段内与目标关键词相关的文本数据信息;
输入单元202,用于将文本数据信息输入至网络水军识别模型,其中,其中,网络水军识别模型为使用多组历史文本数据通过机器学习训练出的,多组历史文本数据中的每组历史文本数据均包括:历史文本数据信息和历史文本数据信息中标识出的网络水军的特征;
第一识别单元203,用于从网络水军识别模型的输出结果中识别文本数据信息中是否存在网络水军的参与。
本申请实施例提供的网络水军的识别装置,通过抓取单元201从互联网中抓取预设时间段内与目标关键词相关的文本数据信息;输入单元202将文本数据信息输入至网络水军识别模型,其中,其中,网络水军识别模型为使用多组历史文本数据通过机器学习训练出的,多组历史文本数据中的每组历史文本数据均包括:历史文本数据信息和历史文本数据信息中标识出的网络水军的特征;第一识别单元203从网络水军识别模型的输出结果中识别文本数据信息中是否存在网络水军的参与,解决了相关技术中难以对网络水军进行识别的技术问题,通过预先训练的网络水军识别模型,识别出文本数据信息中国是否存在网络水军的参与,进而达到了能够文本数据信息中的网络水军进行识别的效果。
可选地,在本申请实施例提供的网络水军的识别装置中,该装置还包括:第一标识单元,用于在将文本数据信息输入至网络水军识别模型之前,采用基于网络关系特征对多组历史文本数据的每组历史文本数据进行标识网络水军的特征;或者,第二标识单元,用于采用将文本数据信息的内容特征与文本数据信息中的用户特征匹配,以对多组历史文本数据的每组历史文本数据进行标识网络水军的特征;或者,第三标识单元,用于采用人工提取网络水军的特征与群体特征识别对多组历史文本数据的每组历史文本数据进行标识网络水军的特征。
可选地,在本申请实施例提供的网络水军的识别装置中,第三标识单元包括:抓取模块,用于从历史文本数据信息中的社交账号数据中抓取异常账号信息;标识模块,用于采用人工基于异常账号信息对多组历史文本数据的每组历史文本数据进行标识网络水军的特征。
可选地,在本申请实施例提供的网络水军的识别装置中,该装置还包括:第二识别单元,用于从历史文本数据信息中的社交账号数据中抓取异常账号信息之后,对异常账号信息下的转发的内容进行识别;第四标识单元,用于在异常账号信息下的转发的内容高于异常账号信息下的原创内容的情况下,则将异常账号信息的特征标识为网络水军的特征。
可选地,在本申请实施例提供的网络水军的识别装置中,该装置还包括:第三识别单元,用于在从历史文本数据信息中的社交账号数据中抓取异常账号信息之后,对异常账号信息下的转发的内容进行情绪特征识别;第五标识单元,用于若从异常账号信息下的转发的内容中识别出的情绪特征为负面情绪的内容高于正面情绪的内容,则将异常账号信息的特征标识为网络水军的特征。
可选地,在本申请实施例提供的网络水军的识别装置中,该装置还包括:第四识别单元,用于在将文本数据信息输入至网络水军识别模型之前,从文本数据信息中识别出网络水军的源头;第六标识单元,用于对网络水军的源头相关的社交媒体关联性进行挖掘,以对每组历史文本数据进行标识网络水军的特征。
可选地,在本申请实施例提供的网络水军的识别装置中,该装置还包括:发送单元,用于在从网络水军识别模型的输出结果中识别文本数据信息中是否存在网络水军的参与之后,若识别出的文本数据信息中存在网络水军的参与,则将文本数据信息中可疑的网络水军的网络地址发送至目标地址。
可选地,在本申请实施例提供的网络水军的识别装置中,该装置还包括:确定单元,用于在从网络水军识别模型的输出结果中识别文本数据信息中是否存在网络水军的参与之后,若识别出的文本数据信息中存在网络水军的参与,则确定文本数据信息中被网络水军的干预程度;预测单元,用于基于文本数据信息中被网络水军的干预程度,预测与目标关键词对应的事件的舆情态势;触发单元,用于基于舆情态势,触发预警信息。
所述网络水军的识别装置包括处理器和存储器,上述抓取单元201,输入单元202和第一识别单元203等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来识别网络水军。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述网络水军的识别方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述网络水军的识别方法。
本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:从互联网中抓取预设时间段内与目标关键词相关的文本数据信息;将所述文本数据信息输入至网络水军识别模型,其中,其中,所述网络水军识别模型为使用多组历史文本数据通过机器学习训练出的,所述多组历史文本数据中的每组历史文本数据均包括:历史文本数据信息和所述历史文本数据信息中标识出的网络水军的特征;从所述网络水军识别模型的输出结果中识别所述文本数据信息中是否存在网络水军的参与。
处理器执行程序时还实现以下步骤:在将所述文本数据信息输入至网络水军识别模型之前,所述方法还包括:采用基于网络关系特征对所述多组历史文本数据的每组历史文本数据进行标识网络水军的特征;或者,采用将文本数据信息的内容特征与文本数据信息中的用户特征匹配,以对所述多组历史文本数据的每组历史文本数据进行标识网络水军的特征;或者,采用人工提取网络水军的特征与群体特征识别对所述多组历史文本数据的每组历史文本数据进行标识网络水军的特征。
处理器执行程序时还实现以下步骤:采用人工提取网络水军的特征与群体特征识别对所述多组历史文本数据的每组历史文本数据进行标识网络水军的特征包括:从历史文本数据信息中的社交账号数据中抓取异常账号信息;采用人工基于异常账号信息对所述多组历史文本数据的每组历史文本数据进行标识网络水军的特征。
处理器执行程序时还实现以下步骤:从历史文本数据信息中的社交账号数据中抓取异常账号信息之后,所述方法还包括:对所述异常账号信息下的转发的内容进行识别;若所述异常账号信息下的转发的内容高于所述异常账号信息下的原创内容,则将所述异常账号信息的特征标识为网络水军的特征。
处理器执行程序时还实现以下步骤:从历史文本数据信息中的社交账号数据中抓取异常账号信息之后,所述方法还包括:对所述异常账号信息下的转发的内容进行情绪特征识别;若从所述异常账号信息下的转发的内容中识别出的情绪特征为负面情绪的内容高于正面情绪的内容,则将所述异常账号信息的特征标识为网络水军的特征。
处理器执行程序时还实现以下步骤:在将所述文本数据信息输入至网络水军识别模型之前,所述方法还包括:从所述文本数据信息中识别出网络水军的源头;对所述网络水军的源头相关的社交媒体关联性进行挖掘,以对每组历史文本数据进行标识网络水军的特征。
处理器执行程序时还实现以下步骤:在从所述网络水军识别模型的输出结果中识别所述文本数据信息中是否存在网络水军的参与之后,所述方法还包括:若识别出的所述文本数据信息中存在网络水军的参与,则将所述文本数据信息中可疑的网络水军的网络地址发送至目标地址。
处理器执行程序时还实现以下步骤:在从所述网络水军识别模型的输出结果中识别所述文本数据信息中是否存在网络水军的参与之后,所述方法还包括:若识别出的所述文本数据信息中存在网络水军的参与,则确定所述文本数据信息中被所述网络水军的干预程度;基于所述文本数据信息中被所述网络水军的干预程度,预测与目标关键词对应的事件的舆情态势;基于所述舆情态势,触发预警信息。本文中的设备可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:从互联网中抓取预设时间段内与目标关键词相关的文本数据信息;将所述文本数据信息输入至网络水军识别模型,其中,其中,所述网络水军识别模型为使用多组历史文本数据通过机器学习训练出的,所述多组历史文本数据中的每组历史文本数据均包括:历史文本数据信息和所述历史文本数据信息中标识出的网络水军的特征;从所述网络水军识别模型的输出结果中识别所述文本数据信息中是否存在网络水军的参与。
还适于执行初始化有如下方法步骤的程序:在将所述文本数据信息输入至网络水军识别模型之前,所述方法还包括:采用基于网络关系特征对所述多组历史文本数据的每组历史文本数据进行标识网络水军的特征;或者,采用将文本数据信息的内容特征与文本数据信息中的用户特征匹配,以对所述多组历史文本数据的每组历史文本数据进行标识网络水军的特征;或者,采用人工提取网络水军的特征与群体特征识别对所述多组历史文本数据的每组历史文本数据进行标识网络水军的特征。
还适于执行初始化有如下方法步骤的程序:采用人工提取网络水军的特征与群体特征识别对所述多组历史文本数据的每组历史文本数据进行标识网络水军的特征包括:从历史文本数据信息中的社交账号数据中抓取异常账号信息;采用人工基于异常账号信息对所述多组历史文本数据的每组历史文本数据进行标识网络水军的特征。
还适于执行初始化有如下方法步骤的程序:从历史文本数据信息中的社交账号数据中抓取异常账号信息之后,所述方法还包括:对所述异常账号信息下的转发的内容进行识别;若所述异常账号信息下的转发的内容高于所述异常账号信息下的原创内容,则将所述异常账号信息的特征标识为网络水军的特征。
还适于执行初始化有如下方法步骤的程序:从历史文本数据信息中的社交账号数据中抓取异常账号信息之后,所述方法还包括:对所述异常账号信息下的转发的内容进行情绪特征识别;若从所述异常账号信息下的转发的内容中识别出的情绪特征为负面情绪的内容高于正面情绪的内容,则将所述异常账号信息的特征标识为网络水军的特征。
还适于执行初始化有如下方法步骤的程序:在将所述文本数据信息输入至网络水军识别模型之前,所述方法还包括:从所述文本数据信息中识别出网络水军的源头;对所述网络水军的源头相关的社交媒体关联性进行挖掘,以对每组历史文本数据进行标识网络水军的特征。
还适于执行初始化有如下方法步骤的程序:在从所述网络水军识别模型的输出结果中识别所述文本数据信息中是否存在网络水军的参与之后,所述方法还包括:若识别出的所述文本数据信息中存在网络水军的参与,则将所述文本数据信息中可疑的网络水军的网络地址发送至目标地址。
还适于执行初始化有如下方法步骤的程序:在从所述网络水军识别模型的输出结果中识别所述文本数据信息中是否存在网络水军的参与之后,所述方法还包括:若识别出的所述文本数据信息中存在网络水军的参与,则确定所述文本数据信息中被所述网络水军的干预程度;基于所述文本数据信息中被所述网络水军的干预程度,预测与目标关键词对应的事件的舆情态势;基于所述舆情态势,触发预警信息。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (11)

1.一种网络水军的识别方法,其特征在于,包括:
从互联网中抓取预设时间段内与目标关键词相关的文本数据信息;
将所述文本数据信息输入至网络水军识别模型,其中,其中,所述网络水军识别模型为使用多组历史文本数据通过机器学习训练出的,所述多组历史文本数据中的每组历史文本数据均包括:历史文本数据信息和所述历史文本数据信息中标识出的网络水军的特征;
从所述网络水军识别模型的输出结果中识别所述文本数据信息中是否存在网络水军的参与。
2.根据权利要求1所述的方法,其特征在于,在将所述文本数据信息输入至网络水军识别模型之前,所述方法还包括:
采用基于网络关系特征对所述多组历史文本数据的每组历史文本数据进行标识网络水军的特征;或者,
采用将文本数据信息的内容特征与文本数据信息中的用户特征匹配,以对所述多组历史文本数据的每组历史文本数据进行标识网络水军的特征;或者,
采用人工提取网络水军的特征与群体特征识别对所述多组历史文本数据的每组历史文本数据进行标识网络水军的特征。
3.根据权利要求2所述的方法,其特征在于,采用人工提取网络水军的特征与群体特征识别对所述多组历史文本数据的每组历史文本数据进行标识网络水军的特征包括:
从历史文本数据信息中的社交账号数据中抓取异常账号信息;
采用人工基于异常账号信息对所述多组历史文本数据的每组历史文本数据进行标识网络水军的特征。
4.根据权利要求3所述的方法,其特征在于,从历史文本数据信息中的社交账号数据中抓取异常账号信息之后,所述方法还包括:
对所述异常账号信息下的转发的内容进行识别;
若所述异常账号信息下的转发的内容高于所述异常账号信息下的原创内容,则将所述异常账号信息的特征标识为网络水军的特征。
5.根据权利要求4所述的方法,其特征在于,从历史文本数据信息中的社交账号数据中抓取异常账号信息之后,所述方法还包括:
对所述异常账号信息下的转发的内容进行情绪特征识别;
若从所述异常账号信息下的转发的内容中识别出的情绪特征为负面情绪的内容高于正面情绪的内容,则将所述异常账号信息的特征标识为网络水军的特征。
6.根据权利要求1所述的方法,其特征在于,在将所述文本数据信息输入至网络水军识别模型之前,所述方法还包括:
从所述文本数据信息中识别出网络水军的源头;
对所述网络水军的源头相关的社交媒体关联性进行挖掘,以对每组历史文本数据进行标识网络水军的特征。
7.根据权利要求1所述的方法,其特征在于,在从所述网络水军识别模型的输出结果中识别所述文本数据信息中是否存在网络水军的参与之后,所述方法还包括:
若识别出的所述文本数据信息中存在网络水军的参与,则将所述文本数据信息中可疑的网络水军的网络地址发送至目标地址。
8.根据权利要求1所述的方法,其特征在于,在从所述网络水军识别模型的输出结果中识别所述文本数据信息中是否存在网络水军的参与之后,所述方法还包括:
若识别出的所述文本数据信息中存在网络水军的参与,则确定所述文本数据信息中被所述网络水军的干预程度;
基于所述文本数据信息中被所述网络水军的干预程度,预测与目标关键词对应的事件的舆情态势;
基于所述舆情态势,触发预警信息。
9.一种网络水军的识别装置,其特征在于,包括:
抓取单元,用于从互联网中抓取预设时间段内与目标关键词相关的文本数据信息;
输入单元,用于将所述文本数据信息输入至网络水军识别模型,其中,其中,所述网络水军识别模型为使用多组历史文本数据通过机器学习训练出的,所述多组历史文本数据中的每组历史文本数据均包括:历史文本数据信息和所述历史文本数据信息中标识出的网络水军的特征;
第一识别单元,用于从所述网络水军识别模型的输出结果中识别所述文本数据信息中是否存在网络水军的参与。
10.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序执行权利要求1至8中任意一项所述的网络水军的识别方法。
11.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至8中任意一项所述的网络水军的识别方法。
CN201910703466.0A 2019-07-31 2019-07-31 网络水军的识别方法及装置、存储介质和处理器 Pending CN110457558A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910703466.0A CN110457558A (zh) 2019-07-31 2019-07-31 网络水军的识别方法及装置、存储介质和处理器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910703466.0A CN110457558A (zh) 2019-07-31 2019-07-31 网络水军的识别方法及装置、存储介质和处理器

Publications (1)

Publication Number Publication Date
CN110457558A true CN110457558A (zh) 2019-11-15

Family

ID=68484341

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910703466.0A Pending CN110457558A (zh) 2019-07-31 2019-07-31 网络水军的识别方法及装置、存储介质和处理器

Country Status (1)

Country Link
CN (1) CN110457558A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111414496A (zh) * 2020-03-27 2020-07-14 腾讯科技(深圳)有限公司 基于人工智能的多媒体文件的检测方法和装置
CN112541548A (zh) * 2020-12-14 2021-03-23 百果园技术(新加坡)有限公司 关系网络的生成方法、装置、计算机设备及存储介质
CN113591464A (zh) * 2021-07-28 2021-11-02 百度在线网络技术(北京)有限公司 变体文本检测方法、模型训练方法、装置及电子设备
WO2022021400A1 (zh) * 2020-07-31 2022-02-03 深圳齐心集团股份有限公司 一种电商评论鉴别标记系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104573017A (zh) * 2015-01-09 2015-04-29 北京网智天元科技股份有限公司 识别网络水军团体的方法及系统
CN106940732A (zh) * 2016-05-30 2017-07-11 国家计算机网络与信息安全管理中心 一种面向微博的疑似水军发现方法
US20190034522A1 (en) * 2017-07-25 2019-01-31 Samsung Sds Co., Ltd. Method for providing chatting service with chatbot assisted by human counselor
CN110032859A (zh) * 2018-12-25 2019-07-19 阿里巴巴集团控股有限公司 异常帐户鉴别方法与装置及介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104573017A (zh) * 2015-01-09 2015-04-29 北京网智天元科技股份有限公司 识别网络水军团体的方法及系统
CN106940732A (zh) * 2016-05-30 2017-07-11 国家计算机网络与信息安全管理中心 一种面向微博的疑似水军发现方法
US20190034522A1 (en) * 2017-07-25 2019-01-31 Samsung Sds Co., Ltd. Method for providing chatting service with chatbot assisted by human counselor
CN110032859A (zh) * 2018-12-25 2019-07-19 阿里巴巴集团控股有限公司 异常帐户鉴别方法与装置及介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111414496A (zh) * 2020-03-27 2020-07-14 腾讯科技(深圳)有限公司 基于人工智能的多媒体文件的检测方法和装置
CN111414496B (zh) * 2020-03-27 2023-04-07 腾讯科技(深圳)有限公司 基于人工智能的多媒体文件的检测方法和装置
WO2022021400A1 (zh) * 2020-07-31 2022-02-03 深圳齐心集团股份有限公司 一种电商评论鉴别标记系统
CN112541548A (zh) * 2020-12-14 2021-03-23 百果园技术(新加坡)有限公司 关系网络的生成方法、装置、计算机设备及存储介质
CN113591464A (zh) * 2021-07-28 2021-11-02 百度在线网络技术(北京)有限公司 变体文本检测方法、模型训练方法、装置及电子设备
CN113591464B (zh) * 2021-07-28 2022-06-10 百度在线网络技术(北京)有限公司 变体文本检测方法、模型训练方法、装置及电子设备

Similar Documents

Publication Publication Date Title
Salminen et al. Creating and detecting fake reviews of online products
CN110457558A (zh) 网络水军的识别方法及装置、存储介质和处理器
Wang et al. Detecting review spammer groups via bipartite graph projection
Shen et al. Interest-matching information propagation in multiple online social networks
Bajaj et al. A novel user-based spam review detection
Kretinin et al. When the going gets tough, the tweets get going! an exploratory analysis of tweets sentiments in the stock market
CN107679069A (zh) 基于新闻数据及相关评论信息的一种特定群体发现方法
Aslam et al. A survey on opinion spam detection methods
Tehlan et al. A spam detection mechamism in social media using soft computing
Sohrabi et al. Topic modeling and classification of cyberspace papers using text mining
Perez-Castro et al. Efficiency of automatic text generators for online review content generation
CN105302844B (zh) 互联网监测方法、装置及系统
Ojha et al. Use of machine learning in forensics and computer security
Zhao et al. Detecting fake reviews via dynamic multimode network
Yu et al. Sockpuppet detection in social network based on adaptive multi-source features
Gadek et al. AI techniques to analyse a social network on text, user and group level: application on Galaxy2
CN103746880B (zh) 互联网变量测试方法和装置
GİRGİN et al. From past to present: Spam detection and identifying opinion leaders in social networks
Thanikkal et al. A novel approach to improve spam detection using SDS algorithm
Feng et al. Crowdturfing Detection in Online Review System: A Graph-Based Modeling
Kaur et al. Techniques to extract topical experts in twitter: a survey
MP et al. Evidence aggregation based spam detection in e-commerce social network
Difaizi et al. URL Based Malicious Activity Detection Using Machine Learning
Sumedha et al. SARPS: Sentiment analysis of review (s) posted on social network
Anaswara et al. An efficient approach for spammer detection on Twitter and their behavior analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191115

RJ01 Rejection of invention patent application after publication