CN109829089B - 基于关联图谱的社交网络用户异常检测方法和系统 - Google Patents
基于关联图谱的社交网络用户异常检测方法和系统 Download PDFInfo
- Publication number
- CN109829089B CN109829089B CN201811516557.5A CN201811516557A CN109829089B CN 109829089 B CN109829089 B CN 109829089B CN 201811516557 A CN201811516557 A CN 201811516557A CN 109829089 B CN109829089 B CN 109829089B
- Authority
- CN
- China
- Prior art keywords
- event
- user
- social data
- users
- social
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Abstract
本发明涉及一种基于关联图谱的社交网络用户异常检测方法和系统,针对现有事件可视化展示技术的不足以及事件、用户、事件主题等多种实体关联性较弱不易于进行用户异常检测,提出一种基于微博平台的事件可视化方法以及事件、用户、事件主题等多种实体构建异构关联网络图谱进行用户异常检测;在不缺失事件信息的同时,让使用者更加全面、深入地了解整个事件的发展演变过程,并根据已有的异构关联网络图谱更加直观的进行用户异常检测。
Description
技术领域
本发明涉及社交网络传播中网络事件的异构网络图谱及用户异常检测领域,并特别涉及一种基于关联图谱的社交网络用户异常检测方法和系统。
背景技术
随着互联网的飞速发展,近年来各种社交媒体应运而生,常见的有Facebook、Twitter、新浪微博、人人网。其中以Twitter、新浪微博为代表的微博平台以其开放的信息分享及传播特性成为当前热门的互联网应用。
微博,即微博客(Microblog)的简称,用户可以在平台上随时随地发布140字以内的文字、图片、视频等信息。微博具有原创性、时效性、碎片性、重复性等特点。在微博平台当中,使用者可以搜索查看自己感兴趣的话题,浏览话题相关的内容并参与话题内容的讨论;随着微博的受欢迎程度越来越高,使用的人也越来越多;各种各样的需求也层出不穷,吸引着广大的科技工作者开始对其的研究,此时它的不足也暴露无遗了。一是,由于在微博平台当中,充斥着大量关于某一个事件的相关微博,同时因为微博的短文本特性,这带来了发布信息碎片化、难理解等问题。发布信息参差不齐在微博平台是一个十分显著的现象。正是因为上述的各种原因,使得使用者很难在短时间内快速了解一个事件的发展动态,造成使用者交互体验较差。二是,传统的方法都是单一的描述事件与用户、用户与用户、事件与主题之间的关系,这种描述也只是展示一个事件中有哪些用户参与了该事件,一个用户的关注用户列表与粉丝用户列表,以及一个事件随着时间的发展,产生了多个主题;这样逐个的分析实体之间的关系,信息比较单一,多种实体之间联系不够紧密,可利用的信息与价值大打折扣。
在现有微博事件可视化的技术当中,一般简单对事件相关的微博按时间进行排序,将最近时间段内的微博展示给使用者。也有按微博的热度进行排序,将热门的微博展示给使用者。另外还有方法通过选择一定时间范围内的微博进行时间或者热度排序的展示。以上这些展示方法均为对原始微博内容的直接展示,具有多方面的不足之处。第一,由于网络信息量呈爆炸式增长,传统的对原始微博进行可视化展示的方法很难让使用者快速的获取事件相关的信息内容。第二,由于微博的短文本特性,微博发布信息质量参差不齐,微博口语化的问题使得使用者很难快速理解微博的内容,而要从微博文本中挖掘关于事件的重要信息更是大海捞针。
在事件可视化方法当中,有一类是对事件的所有文本信息,进行关键词抽取,然后对抽取的关键词通过一个词云来展示。这种方式,可以让我们从主要的关键词当中了解事件主要的话题,但是我们并不能对事件的各个子事件及事件的发展演变有一个直观的了解。
另外一些可视化的方式通过抽取事件当中的人物、地点、事件摘要句,将他们作为事件发展的节点信息,以他们之间的关联关系为边,对事件进行可视化的展示。但是这种基于人物、地点、事件摘要句的可视化展示方式对于微博事件来说具有很大的局限性,因为微博不像正式的新闻报道具有规范的人物、地点、组织机构等信息,所以从微博中很难获取这些信息。因此这种可视化方式对于微博来说具有很大的局限性。
在对事件进行分析时,除了想知道整个事件的发展过程,有时还想了解参与该事件的用户,他们还参与了哪些事件,以及整个事件集合中,事件与事件之间是否又存在着某种关联亦或能通过用户、主题等其他实体而进行关联构建出一个包括用户、事件、事件主题等多种实体的异构关联网络图谱,进而基于该异构关联网络图谱直观地进行用户异常检测,并对异常用户之后的行为轨迹进行预测与跟踪。
发明内容
本发明主要针对现有事件可视化展示技术的不足以及事件、用户、事件主题等多种实体关联性较弱不易于进行用户异常检测,提出一种基于微博平台的事件可视化方法以及事件、用户、事件主题等多种实体构建异构关联网络图谱进行用户异常检测;在不缺失事件信息的同时,让使用者更加全面、深入地了解整个事件的发展演变过程,并根据已有的异构关联网络图谱更加直观的进行用户异常检测。
具体地说,本发明公开了一种基于关联图谱的社交网络用户异常检测方法,其中包括
步骤1、获取关键词,提取社交网络平台中具有该关键词的多个社交数据,集合该社交数据作为与该关键词对应的事件存入事件数据库,根据该社交数据的发布者的基本信息,建立用户数据库,根据该社交数据的转发链、评论链,建立事件传播数据库;
步骤2、对事件对应的社交数据进行聚类处理,得到该事件的子主题,按时间顺序集合该子主题,得到在时间上连续的事件聚类子集;
步骤3、获取事件数据库中参与社交数据发布的用户作为发布用户,根据该发布用户与事件的关联,构建事件与发布用户的第一关联图谱;根据用户数据库中用户间的关注关系,构建用户间的第二关联图谱;根据该事件聚类子集,构建事件与子主题的第三关联图谱;根据社交数据的转发评论关系,构建该发布用户和其转发用户、评论用户的第四关联图谱;
步骤4、映射发布用户与事件的联系,并统计发布用户发布的事件,得到所有的发布用户其曾发布的所有事件的数据集合,根据该数据集合构建事件与事件的第五关联图谱,通过整合该第一关联图谱至该第五关联图谱,得到包含用户、事件、子主题的异构关联网络图谱;
步骤5、根据该异构关联网络图谱和预设的关注度阈值、转发阈值、评论阈值,判断该微博平台中的每个用户是否存在异常。
该基于关联图谱的社交网络用户异常检测方法,其中该步骤2还包括:对该子主题对应的社交数据,进行关键词抽取,得到该子主题的关键词集合,并整理该关键词集合,得到词云,词云间共有的词语具有相同的颜色、位置和旋转方式,并根据词云中词语的逆文档频率,为词语分配透明度。
该基于关联图谱的社交网络用户异常检测方法,其中该步骤2中聚类处理包括:取事件对应的第一个社交数据作为初始的一个聚类结果,在之后的每一步当中,都将社交数据划分到与其最相似的聚类结果中;
其中,相似度sim(d,c)′计算采用如下公式度量:
其中,m代表时间上在社交数据d之前的社交数据数量,i表示聚类c中与社交数据d相距最近的社交数据在时间窗口当中的位置。
该基于关联图谱的社交网络用户异常检测方法,其中该步骤1包括:对事件数据库中的社交数据进行预处理,该预处理包括:将字数小于预设阈值的社交数据过滤,以及过社交数据中的非文本格式化的内容信息。
该基于关联图谱的社交网络用户异常检测方法,其中该聚类处理为层次聚类或单遍聚类。
本发明还公开了一种基于关联图谱的社交网络用户异常检测系统,其中包括
数据库构建模块,用于获取关键词,提取社交网络平台中具有该关键词的多个社交数据,集合该社交数据作为与该关键词对应的事件存入事件数据库,根据该社交数据的发布者的基本信息,建立用户数据库,根据该社交数据的转发链、评论链,建立事件传播数据库;
聚类模块,用于对事件对应的社交数据进行聚类处理,得到该事件的子主题,按时间顺序集合该子主题,得到在时间上连续的事件聚类子集;
图谱构建模块,用于获取事件数据库中参与社交数据发布的用户作为发布用户,根据该发布用户与事件的关联,构建事件与发布用户的第一关联图谱;根据用户数据库中用户间的关注关系,构建用户间的第二关联图谱;根据该事件聚类子集,构建事件与子主题的第三关联图谱;根据社交数据的转发评论关系,构建该发布用户和其转发用户、评论用户的第四关联图谱,映射发布用户与事件的联系,并统计发布用户发布的事件,得到所有的发布用户其曾发布的所有事件的数据集合,根据该数据集合构建事件与事件的第五关联图谱,通过整合该第一关联图谱至该第五关联图谱,得到包含用户、事件、子主题的异构关联网络图谱;
异常判断模块,根据该异构关联网络图谱和预设的关注度阈值、转发阈值、评论阈值,判断该微博平台中的每个用户是否存在异常。
该基于关联图谱的社交网络用户异常检测系统,其中该聚类模块还包括:对该子主题对应的社交数据,进行关键词抽取,得到该子主题的关键词集合,并整理该关键词集合,得到词云,词云间共有的词语具有相同的颜色、位置和旋转方式,并根据词云中词语的逆文档频率,为词语分配透明度。
该基于关联图谱的社交网络用户异常检测系统,其中该聚类模块中聚类处理包括:取事件对应的第一个社交数据作为初始的一个聚类结果,在之后的每一步当中,都将社交数据划分到与其最相似的聚类结果中;
其中,相似度sim(d,c)′计算采用如下公式度量:
其中,m代表时间上在社交数据d之前的社交数据数量,i表示聚类c中与社交数据d相距最近的社交数据在时间窗口当中的位置。
该基于关联图谱的社交网络用户异常检测系统,其中该数据库构建模块包括:对事件数据库中的社交数据进行预处理,该预处理包括:将字数小于预设阈值的社交数据过滤,以及过社交数据中的非文本格式化的内容信息。
该基于关联图谱的社交网络用户异常检测系统,其中该聚类处理为层次聚类或单遍聚类。
本发明的技术进步包括:
1.通过获取网络新闻的事件集合数据并通过数据预处理及事件聚类,可以比较全面的获取事件相关的子事件。
2.通过可视化的事件展示效果,我们可以对事件所讨论的内容有个全面的了解,快速从中获取事件的话题。
3.通过事件以时间为纵轴的可视化展示效果,我们可以看出事件的演变发展过程。
4.通过多组词云的可视化效果,我们可以通过词云之间共现词及孤立词的关系,进行文档之间的对比。
5.通过对某个词云进行观察,可以详细了解子事件话题的内容。
6.通过对用户、事件、事件主题构建异构关联网络图谱,使用户、事件、事件主题3种实体之间的关联更加紧密,更便于直观的进行用户异常检测,进而可以对异常用户的行为进行预测与跟踪。
附图说明
图1为基于新浪微博平台的数据抓取流程;
图2为基于新浪微博平台的事件可视化方法流程;
图3为组合词云可视化展示流程图;
图4为事件的可视化展示示例;
图5为异构关联网络图谱。
具体实施方式
具体地说,本发明公开了一种基于关联图谱的社交网络用户异常检测方法,其中包括
步骤1、获取关键词,提取社交网络平台中具有该关键词的多个社交数据,集合该社交数据作为与该关键词对应的事件存入事件数据库,根据该社交数据的发布者的基本信息,建立用户数据库,根据该社交数据的转发链、评论链,建立事件传播数据库;
步骤2、对事件对应的社交数据进行聚类处理,得到该事件的子主题,按时间顺序集合该子主题,得到在时间上连续的事件聚类子集;
步骤3、获取事件数据库中参与社交数据发布的用户作为发布用户,根据该发布用户与事件的关联,构建事件与发布用户的第一关联图谱;根据用户数据库中用户间的关注关系,构建用户间的第二关联图谱;根据该事件聚类子集,构建事件与子主题的第三关联图谱;根据社交数据的转发评论关系,构建该发布用户和其转发用户、评论用户的第四关联图谱;
步骤4、映射发布用户与事件的联系,并统计发布用户发布的事件,得到所有的发布用户其曾发布的所有事件的数据集合,根据该数据集合构建事件与事件的第五关联图谱,通过整合该第一关联图谱至该第五关联图谱,得到包含用户、事件、子主题的异构关联网络图谱;
步骤5、根据该异构关联网络图谱和预设的关注度阈值、转发阈值、评论阈值,判断该微博平台中的每个用户是否存在异常。
为让本发明的上述特征和效果能阐述的更明确易懂,下文特举实施例,并配合说明书附图作详细说明如下。
为了使发明的目的、技术方案效果阐述地更加清楚,下面结合实施例,对发明做出详细的说明。图1表示了新浪微博平台的数据抓取的流程,图2表示了事件可视化的流程,包括以下步骤:
步骤S1、模拟登陆微博平台:
由于本发明是针对微博平台的新闻事件进行可视化展示与构建异构关联网络图谱,所以在爬取大量的微博平台中的数据之前,需要模拟用户登陆微博网站的过程。
在模拟登陆新浪微博平台这一过程当中,人工注册一批微博账户,利用这些账户信息构成模拟登陆的用户信息表。在进行模拟登陆时,首先向微博的站点发送登陆页面的请求链接,利用本地的注册用户信息表,就可以向站点提供登陆所需的用户名、密码、加密方式等参数,实现用户的模拟登陆操作。
由于微博平台对用户在一定时间范围内的操作具有访问次数的限制,过度频繁的访问可能会造成账户封锁的现象。所以当一个用户登陆成功之后,在用户访问的页面次数超过一定次数时,就从本地的用户信息表中选择另外一个用户进行模拟登陆操作。
步骤S2、爬取新浪微博平台中的微博数据:
当模拟用户登陆成功后,通过微博爬虫爬取数据,基于人工预设的热点关键词采集特定时间内的相关微博数据并作为一个事件集存入缓存并建立事件数据库,持续采集针对不同的热点关键词的相关微博数据;针对缓存中的事件集数据,首先解析其中的微博发布者链接访问其主页,通过特定的模板匹配抽取用户(微博发布者)的基本信息,以及用户关注信息和粉丝信息并建立参与用户数据库;接着解析事件集数据中的微博链接访问微博页面,通过特定的模板匹配抽取微博的转发链、评论链并建立事件传播数据库。
步骤S3、根据事件关键词检索事件微博:
一个事件通常由关键词和时间两部分组成。通过在一定时间范围内进行筛选,可以通过微博平台获取到指定时间范围内的微博。在本步骤中,可以通过使用者输入的事件关键词从数据库中获取整个事件的微博信息。
步骤S4、微博信息预处理:
在本步骤中对微博信息进行预处理,得到待分析的数据集。具体的处理包括如下几部分:
对数据集当中的短文本进行过滤处理,即将字数小于某个阈值的微博过滤。
过滤掉数据集当中影响力较小、冷门的微博。微博热度Heat按下式进行计算:
其中retweets代表微博转发数量,comments代表微博的评论数。
过滤微博中的表情符号、网页链接地址等非文本格式化的内容信息。
对微博中特有的“@用户名”进行过滤处理。
根据微博的时间信息进行排序处理,得到时间上连续的微博集合。
步骤S5、微博事件聚类:
在这个步骤中,我们对排序好的微博数据集进行聚类处理,得到在时间上连续的聚类子集。为了使各个聚类子集能代表一类的话题,可以采用层次聚类算法或者单遍聚类算法(Single-Pass Clustering),同时为了使聚类事件在时间上保持一定的连续性,本发明取数据集中的第一条微博作为初始的一个聚类,在之后的每一步当中,都将文档划分到与他最相似的聚类结果当中,如果该文档与当前所有的文档的相似度都小于设定的阈值,则将他作为一个新的聚类。其中文档相似度计算采用如下公式度量:
其中,m代表时间上在文档d之前的文档的数量,i表示聚类c中与文档d相距最近的文档在时间窗口当中的位置。通过上述方式的计算,文档距离聚类的时间越近,其相似度就越高。在计算文档的相似度时,我们对文档建立向量空间模型,采用归一化的TF-IDF计算每个词的权重,公式如下:
其中W是前述公式中d和c(用向量表示)的各个维度的值的计算方法。
步骤S6、子事件数据集关键词抽取:
通过对所有相关的微博进行聚类处理,我们得到在时间上具有一定连续性的子数据集合,其中每个子数据集合代表该事件一个子话题。我们通过对各个子事件进行微博的关键词抽取,就可以得到需要进行词云可视化展示的候选关键词集合。本发明通过如下的方式进行关键词抽取。
首先我们对文档集合的每一篇文档进行分词处理,得到处理后的单词集合。为了使词语的语义信息更加丰富,我们采用维基百科词条及网络热词两个词典对原始单词集合进行短语合并,得到意义更加丰富的词语集合。在上述短语合并过程中,我们采用基于最大匹配的算法对原始单词集合进行处理。衡量每个词语的权重:
wt=tft×dft×|T|
tft和dft分别代表词频和文档频次。为了突出热门微博中的词语,我们一个词语出现的权重融入微博热度的信息,将微博的热度作为词语出现一次的权重,这样选出来的词语更加具有意义。基于长词相对短词有更丰富的语义信息,所以我们引入词语长度项,让长词的权重相对增大。
需要注意的是,wi,是说步骤S5中聚类时候衡量相似度,每个词会计算权重,而wt,是说步骤S6中提取重要关键词,关键词的重要性靠wt权重衡量。
步骤S7、基于组合词云的事件可视化:
一种简单的生成组合词云的方式是采用标签云技术,对事件中的每一个子事件生成一个词云,但是这种方式产生的词云在可视化上并不好,因为即使两个话题讨论的内容很相似,他们的词云也会非常不同。因此,在进行组合词云展示的时候,我们需要对产生的词云进行优化处理,以达到如下的目标:
出现在多个词云当中的词语赋予相同的颜色、位置、旋转方式,使它们在可视化效果上保持属性的一致性,方便读者快速浏览找到话题之间的共性。
以词语的idf(逆文档频率)来控制单词的透明度,使得在多个词云中共同出现的词语赋予较高的透明度,而使文档频率低的词语赋予较低的透明度。通过这种方式来突出各个词云当中独特的词语而淡化多文档出现的高频词语,从而使读者很快的掌握话题所讨论的内容。
图3给出了组合词云可视化展示流程图。
事件可视化展示:
以时间为纵坐标,将聚类结果通过文本信息和组合词云的方式展示出来,以此展现
该特定事件的演变过程,同时让读者在快速掌握事件话题的同时了解各个子事件的细节内容。
图4给出了事件可视化展示的一个具体实施方式。整个可视化图以一根时间轴贯穿,左边的原点代表每一个时间结点。在时间轴的右边分为两列展示框,一个为子事件微博聚类结果展示框,另一个为子事件的词云。实施例中以事件“深圳暴雨”为例,取其中的三个子事件进行可视化展示:第一个为深圳暴雨造成路面积水给人们出行带来不便;第二个为深圳暴雨不能阻挡深圳人买房;第三个为深圳暴雨由红色预警降为黄色。我们首先可以从整体上看出事件在一段时间内的发展趋势,通过观察三个词云,我们可以看出“深圳”、“暴雨”等词在三个词云中都出现,说明各个子事件有共同的话题特性。由于他们出现的文档频率较高,所以被赋予了较高的透明度。
从另外一个方面,我们可以看出各个词云具有代表性的词语,他们通常在本数据集合中出现的频率高而在其他数据子集中出现较低或者不出现。比如词云一中的“积水”、“出行”、词云二中的“买房”、“开盘”、词云三中的“全市”、“预警”等词语。由于他们的低文档频率,他们往往具有较低的透明度,从而在词云中更加突显。从这些词语读者可以快速的了解各个话题谈论的主要内容。通过观察一个词在其它词云中相同的位置是否出现可以对比两个文档话题之间的差异现象。
该实例体现了本发明所提供的事件可视化展现方法的特点,可以协助读者快速、全面的了解事件的主要内容及随事件演变的过程,同时也可以使读者通过子事件词云之间的对比快速了解事件之间的差异。
步骤S8、构建异构关联网络图谱,检测异常用户:
首先,从数据库中获取网络新闻的事件集合,每个事件中有许多用户参与,将这些参与用户与事件直接建立关联,构建事件与用户的关联图谱。
其次,获取网络新闻的参与用户集合,每个参与用户包含了许多其关注的用户,粉丝用户,直接将参与用户与其关注用户、粉丝用户建立关联,构建用户与用户的关联图谱。
接着,根据事件子主题挖掘的结果,构建事件与主题的关联图谱;再者,获取网络新闻的传播集合,根据微博与用户一一对应的原则,微博中的转发链、评论链就可以描述成参与用户(发布事件的用户)与其他用户存在着转发关系、评论关系,此时可构建参与用户与其转发用户、评论用户的关联图谱;此时用户与事件、事件与主题、用户与用户都已存在着关联,但只能得出以某个事件为中心向外扩散的单个事件、用户、主题的关联网络图谱,无法描述事件与事件之间的关系。
最后,通过对网络新闻事件集合数据中的参与用户分析,逐一映射参与用户与事件的联系,并统计相同的参与用户其参与的事件,得到所有的参与用户其曾参与的所有事件的数据集合,这样通过中间的参与用户,构建出事件与事件的关联图谱,并最终构建一个包含用户、事件、事件主题3重实体的异构关联网络图谱。其中中间的参与用户指的是参与过不同事件的那些用户,把不同事件联系起来。
图5给出了事件、用户、事件主题构成的异构关联网络图谱。从图中,可以直观地对异常行为的用户进行检测,针对事件1,可以发现该事件中存在参与用户被大量的用户进行转发、评论,因此该参与用户是存在异常的;针对参与用户4为中心的社交关系圈,可以发现,该用户关注着大量的用户以及被大量的用户关注,因此该用户也是存在异常的;针对参与用户2和参与用户3,他们参与的事件数量很少,因此也是存在着异常。
根据异构关联网络图谱检测这些异常的用户后,我们可对他们的之后的行为轨迹进行跟踪,并针对这些总机预测其之后的行为走向。
以下为与上述方法实施例对应的系统实施例,本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在上述实施方式中。
本发明还公开了一种基于关联图谱的社交网络用户异常检测系统,其中包括
数据库构建模块,用于获取关键词,提取社交网络平台中具有该关键词的多个社交数据,集合该社交数据作为与该关键词对应的事件存入事件数据库,根据该社交数据的发布者的基本信息,建立用户数据库,根据该社交数据的转发链、评论链,建立事件传播数据库;
聚类模块,用于对事件对应的社交数据进行聚类处理,得到该事件的子主题,按时间顺序集合该子主题,得到在时间上连续的事件聚类子集;
图谱构建模块,用于获取事件数据库中参与社交数据发布的用户作为发布用户,根据该发布用户与事件的关联,构建事件与发布用户的第一关联图谱;根据用户数据库中用户间的关注关系,构建用户间的第二关联图谱;根据该事件聚类子集,构建事件与子主题的第三关联图谱;根据社交数据的转发评论关系,构建该发布用户和其转发用户、评论用户的第四关联图谱,映射发布用户与事件的联系,并统计发布用户发布的事件,得到所有的发布用户其曾发布的所有事件的数据集合,根据该数据集合构建事件与事件的第五关联图谱,通过整合该第一关联图谱至该第五关联图谱,得到包含用户、事件、子主题的异构关联网络图谱;
异常判断模块,根据该异构关联网络图谱和预设的关注度阈值、转发阈值、评论阈值,判断该微博平台中的每个用户是否存在异常。
该基于关联图谱的社交网络用户异常检测系统,其中该聚类模块还包括:对该子主题对应的社交数据,进行关键词抽取,得到该子主题的关键词集合,并整理该关键词集合,得到词云,词云间共有的词语具有相同的颜色、位置和旋转方式,并根据词云中词语的逆文档频率,为词语分配透明度。
该基于关联图谱的社交网络用户异常检测系统,其中该聚类模块中聚类处理包括:取事件对应的第一个社交数据作为初始的一个聚类结果,在之后的每一步当中,都将社交数据划分到与其最相似的聚类结果中;
其中,相似度sim(d,c)′计算采用如下公式度量:
其中,m代表时间上在社交数据d之前的社交数据数量,i表示聚类c中与社交数据d相距最近的社交数据在时间窗口当中的位置。
该基于关联图谱的社交网络用户异常检测系统,其中该数据库构建模块包括:对事件数据库中的社交数据进行预处理,该预处理包括:将字数小于预设阈值的社交数据过滤,以及过社交数据中的非文本格式化的内容信息。
该基于关联图谱的社交网络用户异常检测系统,其中该聚类处理为层次聚类或单遍聚类。
综上所述,本发明的主要发明点包括:
1、基于社交网络爬虫技术对微博平台中的异构数据进行爬取。首先,通过热点关键词在微博平台中对特定时间内的相关微博信息进行爬取,构成网络新闻的事件集合。其次,通过微博的发布者链接访问用户主页,通过模板匹配的技术抽取社交用户的基本信息,以及用户的关注信息和粉丝信息,构成网络新闻的参与用户集合。最后,通过微博链接访问微博页面获取微博的转发链和评论链,构成网络新闻的传播集合。基于热点关键词的微博信息爬虫技术并对微博发布者的链接以及微博链接采用匹配技术进行特定信息抽取,能够得到热点更高、信息更全面的异构数据。
2、网络事件的微博清洗与子主题挖掘。基于文本长度、微博热度、表情符号、网页链接地址、非文本内容、提及的用户(前缀为@)等多维特征,训练微博质量评价模型,按照质量评分过滤质量低的微博内容。基于过滤后的高质量微博,按时间进行排序,针对微博提取文本特征、社交特征等,进行基于时间维度的单遍聚类处理,得到一组数据子集,每一个子集代表事件的某一个子主题,即子事件。通过采用微博质量评价模型的过滤技术,可以得到高质量,对事情影响更大,更有意义的微博信息。
通过对事件的微博数据集进行基于时间维度的聚类,得到的事件聚类子集具有时间维度的信息,这些数据子集在既可以代表事件的某个话题,也可以从总体上看出事件的发展演变过程。
3、基于子事件的关键词抽取。对事件的每个子事件数据集合,进行多文档的关键词抽取,从一个数据子集的所有微博中抽取出代表整个子集的一个关键词集合。通过关键词抽取技术,可以从一组微博中抽取出代表性的微博关键词,一组事件的关键词可以让我们对微博内容有个直观的了解。
4、利用组合词云对事件进行可视化展示。对事件的每一个子事件数据集分别产生一个词云,在对所有的词云进行可视化展示的过程当中,我们做如下处理:出现在多个词云当中的词语赋予较高的透明度,在文档中出现较低的词语给予较低的透明度。使得越能代表一个文档集合的词语更加突出。多个词云都出现的词语,在可视化的显示过程当中让他们在颜色、位置信息上保持一致。通过控制多个词云当中相同词语的颜色、位置信息,使得他们在组合词云的可视化显示过程中具有高度的一致性,使得用户可以很方便的通过组合词云看出整个事件的主要话题,以及各个子事件当中的话题,并可以很方便的对各个子事件进行对比分析。
5、基于网络事件构建异构关联网络图谱。首先,针对网络新闻的事件集合数据,直接构建出参与用户与事件之间的关联图谱;其次,针对网络新闻的参与用户集合数据,直接构建出参与用户与其关注用户、粉丝用户之间的关联图谱;接着,针对事件的子主题挖掘结果,构建事件与其主题之间的关联图谱;再者,针对网络新闻的传播集合,构建单个事件中参与用户与其转发用户、评论用户拥有转发关系的关联图谱;最后,针对网络新闻的事件集合数据中的参与用户分析,统计其曾参与的所有事件,构建出参与用户中的事件之间的关联图谱;最终形成一个用户与用户、事件与事件、事件与用户、事件与主题这样完整的异构关联网络图谱。通过构建异构关联网络图谱,使事件、用户、主题3种实体之间的整体联系更加紧密,更加得易于观察,也能更方便地观测出某些异常用户。
6、基于网络新闻的关联网络图谱,检测用户的行为是否异常。首先,针对某个事件观测参与用户是否与其他用户存在大量的转发关系;其次,针对某个社交关系圈直观的观测参与用户是否大量关注其他用户亦或被其他大量用户关注;最后,针对某个用户观测其参与事件的数量是否极少。通过关联网络图谱,我们能够很直观地观测一些存在异常行为的、与可能存在异常行为的用户,进而可以对其之后的行为轨迹进行预测与跟踪。
Claims (10)
1.一种基于关联图谱的社交网络用户异常检测方法,其特征在于,包括
步骤1、获取关键词,提取社交网络平台中具有该关键词的多个社交数据,集合该社交数据作为与该关键词对应的事件存入事件数据库,根据该社交数据的发布者的基本信息,建立用户数据库,根据该社交数据的转发链、评论链,建立事件传播数据库;
步骤2、对事件对应的社交数据进行聚类处理,得到该事件的子主题,按时间顺序集合该子主题,得到在时间上连续的事件聚类子集;
步骤3、获取事件数据库中参与社交数据发布的用户作为发布用户,根据该发布用户与事件的关联,构建事件与发布用户的第一关联图谱;根据用户数据库中用户间的关注关系,构建用户间的第二关联图谱;根据该事件聚类子集,构建事件与子主题的第三关联图谱;根据社交数据的转发评论关系,构建该发布用户和其转发用户、评论用户的第四关联图谱;
步骤4、映射发布用户与事件的联系,并统计发布用户发布的事件,得到所有的发布用户其曾发布的所有事件的数据集合,根据该数据集合构建事件与事件的第五关联图谱,通过整合该第一关联图谱至该第五关联图谱,得到包含用户、事件、子主题的异构关联网络图谱;
步骤5、根据该异构关联网络图谱和预设的关注度阈值、转发阈值、评论阈值,判断该社交网络平台中的每个用户是否存在异常。
2.如权利要求1所述的基于关联图谱的社交网络用户异常检测方法,其特征在于,该步骤2还包括:对该子主题对应的社交数据,进行关键词抽取,得到该子主题的关键词集合,并整理该关键词集合,得到词云,词云间共有的词语具有相同的颜色、位置和旋转方式,并根据词云中词语的逆文档频率,为词语分配透明度。
4.如权利要求1所述的基于关联图谱的社交网络用户异常检测方法,其特征在于,该步骤1包括:对事件数据库中的社交数据进行预处理,该预处理包括:将字数小于预设阈值的社交数据过滤,以及过滤社交数据中的非文本格式化的内容信息。
5.如权利要求1所述的基于关联图谱的社交网络用户异常检测方法,其特征在于,该聚类处理为层次聚类或单遍聚类。
6.一种基于关联图谱的社交网络用户异常检测系统,其特征在于,包括数据库构建模块,用于获取关键词,提取社交网络平台中具有该关键词的多个社交数据,集合该社交数据作为与该关键词对应的事件存入事件数据库,根据该社交数据的发布者的基本信息,建立用户数据库,根据该社交数据的转发链、评论链,建立事件传播数据库;
聚类模块,用于对事件对应的社交数据进行聚类处理,得到该事件的子主题,按时间顺序集合该子主题,得到在时间上连续的事件聚类子集;
图谱构建模块,用于获取事件数据库中参与社交数据发布的用户作为发布用户,根据该发布用户与事件的关联,构建事件与发布用户的第一关联图谱;根据用户数据库中用户间的关注关系,构建用户间的第二关联图谱;根据该事件聚类子集,构建事件与子主题的第三关联图谱;根据社交数据的转发评论关系,构建该发布用户和其转发用户、评论用户的第四关联图谱,映射发布用户与事件的联系,并统计发布用户发布的事件,得到所有的发布用户其曾发布的所有事件的数据集合,根据该数据集合构建事件与事件的第五关联图谱,通过整合该第一关联图谱至该第五关联图谱,得到包含用户、事件、子主题的异构关联网络图谱;
异常判断模块,根据该异构关联网络图谱和预设的关注度阈值、转发阈值、评论阈值,判断该社交网络平台中的每个用户是否存在异常。
7.如权利要求6所述的基于关联图谱的社交网络用户异常检测系统,其特征在于,该聚类模块还包括:对该子主题对应的社交数据,进行关键词抽取,得到该子主题的关键词集合,并整理该关键词集合,得到词云,词云间共有的词语具有相同的颜色、位置和旋转方式,并根据词云中词语的逆文档频率,为词语分配透明度。
9.如权利要求6所述的基于关联图谱的社交网络用户异常检测系统,其特征在于,该数据库构建模块包括:对事件数据库中的社交数据进行预处理,该预处理包括:将字数小于预设阈值的社交数据过滤,以及过滤社交数据中的非文本格式化的内容信息。
10.如权利要求6所述的基于关联图谱的社交网络用户异常检测系统,其特征在于,该聚类处理为层次聚类或单遍聚类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811516557.5A CN109829089B (zh) | 2018-12-12 | 2018-12-12 | 基于关联图谱的社交网络用户异常检测方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811516557.5A CN109829089B (zh) | 2018-12-12 | 2018-12-12 | 基于关联图谱的社交网络用户异常检测方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109829089A CN109829089A (zh) | 2019-05-31 |
CN109829089B true CN109829089B (zh) | 2021-03-05 |
Family
ID=66858787
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811516557.5A Active CN109829089B (zh) | 2018-12-12 | 2018-12-12 | 基于关联图谱的社交网络用户异常检测方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109829089B (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110209820B (zh) * | 2019-06-05 | 2023-06-06 | 腾讯科技(深圳)有限公司 | 用户标识检测方法、装置及存储介质 |
CN110245243B (zh) * | 2019-06-20 | 2022-02-01 | 北京百度网讯科技有限公司 | 新闻检索的方法和装置、电子设备、计算机可读介质 |
CN112311719B (zh) * | 2019-07-24 | 2023-04-18 | 阿里巴巴集团控股有限公司 | 数据处理方法、设备、系统及存储介质 |
CN110515986B (zh) * | 2019-08-27 | 2023-01-06 | 腾讯科技(深圳)有限公司 | 一种社交网络图的处理方法、装置及存储介质 |
CN111047453A (zh) * | 2019-12-04 | 2020-04-21 | 兰州交通大学 | 基于高阶张量分解大规模社交网络社区的检测方法及装置 |
CN111915086A (zh) * | 2020-08-06 | 2020-11-10 | 上海连尚网络科技有限公司 | 异常用户预测方法和设备 |
CN111966978A (zh) * | 2020-08-20 | 2020-11-20 | 咪咕文化科技有限公司 | 异常用户的确定方法、电子设备和存储介质 |
CN112148979B (zh) * | 2020-09-27 | 2023-08-01 | 北京百度网讯科技有限公司 | 事件关联用户的识别方法、装置、电子设备和存储介质 |
CN112507185B (zh) * | 2020-10-22 | 2022-08-19 | 复旦大学 | 用户肖像的确定方法和装置 |
CN112597269A (zh) * | 2020-12-25 | 2021-04-02 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 流式数据事件文本专题及检测系统 |
CN112819230A (zh) * | 2021-02-04 | 2021-05-18 | 北京建筑大学 | 一种基于打卡数据的用户打卡地点预测方法及装置 |
CN113656686A (zh) * | 2021-07-26 | 2021-11-16 | 深圳市中元产教融合科技有限公司 | 一种基于产教融合的任务报告的生成方法及服务系统 |
CN113868508B (zh) * | 2021-09-23 | 2022-09-27 | 北京百度网讯科技有限公司 | 写作素材查询方法、装置、电子设备和存储介质 |
CN115688024B (zh) * | 2022-09-27 | 2023-05-30 | 哈尔滨工程大学 | 基于用户内容特征和行为特征的网络异常用户预测方法 |
CN116501876B (zh) * | 2023-05-06 | 2023-12-08 | 中译语通科技(陕西)有限公司 | 用于云端协同数字化服务的大数据跟踪方法及ai系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7856411B2 (en) * | 2006-03-21 | 2010-12-21 | 21St Century Technologies, Inc. | Social network aware pattern detection |
CN104572757A (zh) * | 2013-10-24 | 2015-04-29 | 中兴通讯股份有限公司 | 微博群体处理方法及装置 |
CN105264560A (zh) * | 2013-03-18 | 2016-01-20 | 索尼公司 | 基于社交图谱的推荐系统、设备和方法 |
CN106339948A (zh) * | 2016-08-26 | 2017-01-18 | 微梦创科网络科技(中国)有限公司 | 一种基于社交网络的关联用户的挖掘方法及装置 |
-
2018
- 2018-12-12 CN CN201811516557.5A patent/CN109829089B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7856411B2 (en) * | 2006-03-21 | 2010-12-21 | 21St Century Technologies, Inc. | Social network aware pattern detection |
CN105264560A (zh) * | 2013-03-18 | 2016-01-20 | 索尼公司 | 基于社交图谱的推荐系统、设备和方法 |
CN104572757A (zh) * | 2013-10-24 | 2015-04-29 | 中兴通讯股份有限公司 | 微博群体处理方法及装置 |
CN106339948A (zh) * | 2016-08-26 | 2017-01-18 | 微梦创科网络科技(中国)有限公司 | 一种基于社交网络的关联用户的挖掘方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN109829089A (zh) | 2019-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109829089B (zh) | 基于关联图谱的社交网络用户异常检测方法和系统 | |
CN109145216B (zh) | 网络舆情监控方法、装置及存储介质 | |
CN105824959B (zh) | 舆情监控方法及系统 | |
US9881059B2 (en) | Systems and methods for suggesting headlines | |
CN107544988B (zh) | 一种获取舆情数据的方法和装置 | |
Mirani et al. | Sentiment analysis of isis related tweets using absolute location | |
Hou et al. | Newsminer: Multifaceted news analysis for event search | |
Alami et al. | Cybercrime profiling: Text mining techniques to detect and predict criminal activities in microblog posts | |
CN113378565B (zh) | 多源数据融合的事件分析方法、装置、设备及存储介质 | |
CN104965823A (zh) | 一种基于大数据的观点抽取方法 | |
CN110532480B (zh) | 一种用于人读威胁情报推荐的知识图谱构建方法及威胁情报推荐方法 | |
CN104050243B (zh) | 一种将搜索与社交相结合的网络搜索方法及其系统 | |
CN111506831A (zh) | 一种协同过滤的推荐模块、方法、电子设备及存储介质 | |
US11423439B2 (en) | Expert search thread invitation engine | |
Wegrzyn-Wolska et al. | Tweets mining for French presidential election | |
CN110851562A (zh) | 一种信息获取方法和系统、设备及存储介质 | |
Thelwall et al. | Do new research issues attract more citations? A comparison between 25 Scopus subject categories | |
Sharma et al. | Fake news detection using deep learning | |
Hamroun et al. | Large scale microblogging intentions analysis with pattern based approach | |
Akkineni et al. | Online crowds opinion-mining it to analyze current trend: A review | |
Wu et al. | Typical opinions mining based on Douban film comments in animated movies | |
Al-Dyani et al. | Challenges of event detection from social media streams | |
Van Le et al. | A content-based approach for user profile modeling and matching on social networks | |
Yu et al. | A lightweight sentiment analysis method | |
Ohbe et al. | Developing a sentiment polarity visualization system for local event information analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20190722 Address after: 100080 Haidian District, Zhongguancun Academy of Sciences, South Road, No. 6, No. Applicant after: Institute of Computing Technology, Chinese Academy of Sciences Applicant after: State Computer Network and Information Safety Management Center Address before: 100080 Haidian District, Zhongguancun Academy of Sciences, South Road, No. 6, No. Applicant before: Institute of Computing Technology, Chinese Academy of Sciences |
|
GR01 | Patent grant | ||
GR01 | Patent grant |