CN109145109B - 基于社交网络的用户群体消息传播异常分析方法及装置 - Google Patents
基于社交网络的用户群体消息传播异常分析方法及装置 Download PDFInfo
- Publication number
- CN109145109B CN109145109B CN201710464424.7A CN201710464424A CN109145109B CN 109145109 B CN109145109 B CN 109145109B CN 201710464424 A CN201710464424 A CN 201710464424A CN 109145109 B CN109145109 B CN 109145109B
- Authority
- CN
- China
- Prior art keywords
- information
- time
- holiday
- user group
- message
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000004458 analytical method Methods 0.000 title claims description 26
- 230000002159 abnormal effect Effects 0.000 claims abstract description 36
- 238000000605 extraction Methods 0.000 claims abstract description 36
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 28
- 238000000034 method Methods 0.000 claims abstract description 19
- 238000012545 processing Methods 0.000 claims description 8
- 230000001932 seasonal effect Effects 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims 1
- 230000000694 effects Effects 0.000 description 3
- 230000007480 spreading Effects 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 2
- 238000009792 diffusion process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008450 motivation Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012300 Sequence Analysis Methods 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000012958 reprocessing Methods 0.000 description 1
- 230000000284 resting effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于社交网络的用户群体消息传播异常分析方法和装置,包括:获取在线社交网络中用户群体的历史聊天记录,根据预先设定的时间跨度,获取历史聊天记录在时间跨度内用户群体中所有用户所发布的消息,作为消息集合;对于消息集合,根据预先设定的时间范围统计用户群体在每个时间范围内所发布的消息总数;基于时序相关性的特征提取法,对每个消息总数的特征进行提取,并将提取结果集合为样本集合;根据消息总数并采用聚类算法为样本集合对样本集合进行聚类,生成异常样本;根据异常样本判定其所在的用户群体存在消息传播异常。由此本发明能够应对数据涌发现象,同时算法直观简单,准确率更高,且本发明应用场景广泛。
Description
技术领域
本发明涉及社交媒体及大数据技术领域,特别涉及一种基于社交网络的用户群体消息传播异常分析方法及装置。
背景技术
近年来社交网络、社会媒体、电子商务等社会化网络化在线服务快速发展,人们积累下了大量的大规模用户社交网络消息数据。新浪微博注册用户数超过6亿,微博个体组成了很多基于具有共同兴趣且具有一定规模的群体。这些群体会经常发布微博消息,面向网络大数据的业务部门和基于网络大数据的业务系统也收集和积累下了海量的微博消息数据。针对微博群体消息的存储、组织、分析和处理,已经成为深度分析和有效利用微博消息数据的技术瓶颈和业务关键。
针对近期快速发展的诸如Twitter、新浪微博等社会化媒体,研究人员围绕链路预测、影响力分析、信息传播、信息推荐等方面展开了相应的研究,典型的工作有:Yang et al验证了用户群体兴趣网络和关系网络的高度相关性,提出了一种整合用户群体兴趣网络和关系网络的算法框架,该算法同时在兴趣定位和用户群体关系预测这两个任务上取得了更好的效果,Meeder et al、在Twitter的场景下提出了一种有效的根据当前网络结构及用户创建时间预测关系建立时间的算法,对于网络群体消息的演化有了进一步的认识。Romeroet al对Twitter上hashtag中的不同话题的传播行为进行了深入的研究。Bakshy et al通过事件传播树的大小度量影响力,提出了基于回归树模型的影响力预测算法并分析了不同特征对于预测结果的影响,Wu et al将Twitter上的用户进行分类,统计并分析了不同类别之间用户的关系,消息传播等特征。
信息扩散的涌现性(Emergence ofinformation dissemination):在以微博客、社交网络、博客、网络论坛等在线交互为主要服务模式的在线社会关系网络中,信息的传播不同于传统报纸、广播、电视等媒体,其中的任意个体、群体既可以制作发布信息,也可以通过标签、评论、回复、修改、转发等操作实现信息的再加工与再传播,强交互性和强演化特性是在线社会关系网络中信息传播的一个明显特征。这种强交互性和强演化性使得在线社会关系网络中的大量信息以流的方式进行迅速传播和扩散,信息的传播时刻处在一种从内容分布到影响力覆盖的非稳定涌现状态,现有研究手段难以应对信息扩散规律的有效建模和信息传播影响力的客观度量。
目前在线社会关系网络(社交网络)是一个多维度的复杂系统,网络内部的子系统之间相互影响与相互作用频繁。在该系统中,用户群体行为一般都具有逐渐积累到一夕爆发的特点,而这样的积累并不是线性的,不是可以用简单迭加解决的,往往是一系列小的变化,每一个都不足以对整体系统造成影响,但当达到某个临界状态时,整个系统出现临界相变,我们称之为涌现现象。社会信息网络中多源异构的网络信息在不同层次上相互作用,使整个网络所表现的性质不能用分系统的性质进行叠加,整体系统涌现的性质也不能用各个子系统分而治之的办法描述和解决。传统的模型和分析方法无法研究这样的系统。
针对上述涌现现象的相关问题,本发明通过调研基于时序分析的算子(AutoRegression)、时序对数自相关预测算法(Szabo&Huberman)、SpikeM算法、流行度分类预测算法、聚类算法等,从中总结出能够从结构多样性、时序相关性、聚类算法多个角度选择高精度、高可扩展性的用户群体消息传播异常分析算法来实现对消息传播异常的发现。
发明内容
为了解决上述技术问题,本发明的目的是为了解决线社会关系网络的消息传播问题,提出了一种基于在线社会关系网络的消息传播异常发现方法及装置。
具体地说,本发明公开了一种基于社交网络的用户群体消息传播异常分析方法,其中包括:
步骤1、获取在线社交网络中用户群体的历史聊天记录,其中该用户群体包含多名用户,该历史聊天记录包含多条信息记录;根据预先设定的时间跨度,获取该历史聊天记录在该时间跨度内该用户群体中所有用户所发布的消息,作为消息集合;
步骤2、对于该消息集合,根据预先设定的时间范围统计该用户群体在每个该时间范围内所发布的消息总数;
步骤3、对每个该消息总数的特征进行提取,并将提取结果集合为样本集合;
步骤4、根据该消息总数,采用基于密度的聚类算法为该样本集合中的每个样本分配样本类别,遍历每种样本类别下的样本数,并将该样本数小于预设阈值的样本类别下的样本判定为该异常样本;
步骤5、根据该异常样本判定其所在的该用户群体存在消息传播异常。
该基于社交网络的用户群体消息传播异常分析方法,其中该步骤1包括:
步骤12、根据该用户群体的编号和已知的个体库,将该用户群体中所有的用户集合,作为个体集合;
步骤13、根据该个体集合,从该在线社交网络的消息库中获取该用户群体在该时间跨度内发布的消息集合,作为该消息集合。
该基于社交网络的用户群体消息传播异常分析方法,其中该步骤2包括:采用分布式并行计算法,统计在每个该时间范围内所发布的该消息总数。
该基于社交网络的用户群体消息传播异常分析方法,其中步骤3中该特征包括:周末特征、节假日特征、纪念日特征、法定调休日特征、季节特征、工作时间特征和休息时间特征,具体判断过程包括:
步骤31、统计该时间跨度内的节假日日期信息,作为节日库,统计该时间跨度内的纪念日信息,作为纪念日库,其中该纪念日信息包括宗教节日,该节假日日期信息包括法定假期与法定调休日期;
步骤32、取各该时间范围中最新的一条信息记录,称为最新记录,并获取该最新记录中的日期信息和时间信息;
步骤33、根据日历判断该日期信息是否为于周末,若是则该信息记录具有周末特征;
步骤34、根据该节日库,判断该日期信息是否为法定节假日,若是则该信息记录具有节假日特征;
步骤35、根据该纪念日库,判断该日期信息是否为纪念日,若是则该信息记录具有纪念日特征;
步骤36、根据该节日库,判断该日期信息是否为法定调休日,若是则该信息记录具有法定调休日特征;
步骤37、根据该日期信息中的月份,获取当前该信息记录所处的季节特征;
步骤38、判断该时间信息是否为工作时间,若是则该信息记录具有工作时间特征,否则该信息记录具有休息时间特征。
该基于社交网络的用户群体消息传播异常分析方法,其中该步骤3的特征进行提取采用基于时序相关性的特征提取法。
本发明还提出了一种基于社交网络的用户群体消息传播异常分析装置,其中包括:
获取模块,用于获取在线社交网络中用户群体的历史聊天记录,其中该用户群体包含多名用户,该历史聊天记录包含多条信息记录;根据预先设定的时间跨度,获取该历史聊天记录在该时间跨度内该用户群体中所有用户所发布的消息,作为消息集合;
统计模块,用于对于该消息集合,根据预先设定的时间范围统计该用户群体在每个该时间范围内所发布的消息总数;
特征提取模块,用于对每个该消息总数的特征进行提取,并将提取结果集合为样本集合;
聚类模块,用于根据该消息总数,采用聚类算法为该样本集合中的每个样本分配样本类别,遍历每种样本类别下的样本数,并将该样本数小于预设阈值的样本类别下的样本判定为该异常样本;
异常传播判定模块,用于根据该异常样本判定其所在的该用户群体存在消息传播异常。
该基于社交网络的用户群体消息传播异常分析装置,其中该获取模块包括:
集合模块,用于根据该用户群体的编号和已知的个体库,将该用户群体中所有的用户集合,作为个体集合,并根据该个体集合,从该在线社交网络的消息库中获取该用户群体在该时间跨度内发布的消息集合,作为该消息集合。
该基于社交网络的用户群体消息传播异常分析装置,其中该统计模块包括:采用分布式并行计算法,统计在每个该时间范围内所发布的该消息总数。
该基于社交网络的用户群体消息传播异常分析装置,其中特征提取模块中该特征包括:周末特征、节假日特征、纪念日特征、法定调休日特征、季节特征、工作时间特征和休息时间特征,具体判断过程涉及:
信息统计模块,用于统计该时间跨度内的节假日日期信息,作为节日库,统计该时间跨度内的纪念日信息,作为纪念日库,其中该纪念日信息包括宗教节日,该节假日日期信息包括法定假期与法定调休日期;
时间获取模块,用于取各该时间范围中最新的一条信息记录,称为最新记录,并获取该最新记录中的日期信息和时间信息;
判断模块,用于根据日历判断该日期信息是否为于周末,若是则该信息记录具有周末特征;根据该节日库,判断该日期信息是否为法定节假日,若是则该信息记录具有节假日特征;根据该纪念日库,判断该日期信息是否为纪念日,若是则该信息记录具有纪念日特征;根据该节日库,判断该日期信息是否为法定调休日,若是则该信息记录具有法定调休日特征;根据该日期信息中的月份,获取当前该信息记录所处的季节特征;判断该时间信息是否为工作时间,若是则该信息记录具有工作时间特征,否则该信息记录具有休息时间特征。
该基于社交网络的用户群体消息传播异常分析装置,其中该特征提取模块的特征进行提取采用基于时序相关性的特征提取法。
本发明具有的技术效果包括:
1、能够应对数据涌发现象;
2、算法直观简单,准确率更高;
3、形式灵活,可以应用到其他应用场景。
附图说明
图1为本发明整体流程图;
图2为本发明步骤1的流程图;
图3为本发明步骤2的流程图;
图4为本发明步骤3的流程图;
图5为本发明步骤4的流程图。
具体实施方式
为让本发明的上述特征和效果能阐述的更明确易懂,下文特举实施例,并配合说明书附图作详细说明如下。
如图1所示,本发明采用的步骤包括:
步骤1、获取在线社交网络中用户群体的历史聊天记录,其中该用户群体包含多名用户,该历史聊天记录包含多条信息记录;根据预先设定的时间跨度,获取该历史聊天记录在该时间跨度内该用户群体中所有用户所发布的消息,作为消息集合,具体为对于一个在线社交网络中的用户群体C,根据预先设定的时间跨度,获取该用户群体历史上该时间跨度时间内,例如时间["0,T"]内,该用户群体中所有用户所发布的消息集合M,其中时间长度T单位为小时且大于两小时;
步骤2、对于该整体消息集合,根据预先设定的时间范围统计该用户群体在每个该时间范围内所发布的消息总数,具体包括对于获取的消息集合M,根据预先设定的时间范围统计该用户群体在每个该时间范围内所发布的消息总数S;
步骤3、基于时序相关性的特征提取法,对每个该消息总数的特征进行提取,并将提取结果集合为样本集合。采用基于时序相关性的特征提取方法对消息总数S进行特征提取,例如根据样本的时间信息,获取该样本:是否为周末,是否为节假日,是否为纪念日,是否为法定调休日,是否为工作时间,是否为休息时间,所处季节,当前小时数来构造特征值,生成样本集合T;
其中上述周末、节假日、纪念日、法定调休日、工作时间、休息时间这类词都属于关键词,由于消息的发布是受消息发布人有无发布消息的动机和消息发布的时间的影响为最大,因此定义这类词来生成样本,其中纪念日体现了发布消息的动机,其他样本体现了消息发布的时间。
步骤4、根据该消息总数,采用聚类算法为该样本集合中的每个样本分配样本类别,遍历每种样本类别下的样本数,并将该样本数小于预设阈值的样本类别下的样本判定为该异常样本。对样本集合采用基于密度的聚类算法,通过聚类算法,可以将具有相同特性的样本归类为同一种类型的样本,将每一种类型定义为一个分类,如果某个样本未归类到任何一个分类,则认为该样本为异常点,通过聚类算法后会找到所有的这些异常样本,将不属于任何群体的点视为离群点,将聚类算法产生的异常样本视为离群点样本,收集聚类算法产生的所有离群点样本,在本实施例中该预设阈值为1;
步骤5、根据该异常样本判定其所在的该用户群体存在消息传播异常。
其中如图2所示,步骤1进一步还包括,对于一个群体C,获取其历史上较长一段时间["0,T"]内,每个用户所发布的消息信息M:
输入:[群体ID:group_id,时间范围:{start_time,end_time}]
输出:[群体中所有用户所发布的消息集合:group_message_sequence]
步骤11、验证输入数据的格式,若验证不通过直接返回失败信息,其中输入数据为群体的编号和时间范围,编号和时间范围是由装置或算法的使用者提供;
步骤12、根据该用户群体的编号和已知的个体库,将该用户群体中所有的用户集合,作为个体集合。根据该用户群体的编号(group_id)从个体库中获取该用户群体所包含的所有个体集合,记为item_sequence,其中该个体库即为社交网络上所有用户的集合;
步骤13、根据该个体集合,从该在线社交网络的消息库中获取该用户群体在该时间跨度内发布的消息集合,作为该消息集合。根据步骤12得到的个体集合,从微博消息库中获取所有个体在时间范围{start_time,end_time}内发布的消息集合group_message_sequence,其中该消息库可根据实际情况进行选择,例如若该用户群体的社交网络为微博,则该消息库为微博消息库,若该用户群体的社交网络为微信,则该消息库为微信消息库,以此类推;
步骤14、将得到的消息集合group_message_sequence与该group_id一同返回。
其中如图3所示,步骤2进一步包括,采用分布式并行计算法,统计在每个该时间范围内所发布的该消息总数。根据获取到的消息集合group_message_sequence,统计该群体在每个小时内所发布的消息总数S:
输入:[群体消息集合:group_message_sequence,时间范围:{start_time,end_time}]
输出:[群体在每个小时内发布的消息数集合:hour_message_count_sequence]
步骤21、根据预设的时间范围{start_time,end_time},具体在本实施中该时间范围为一小时,即按照一个小时为单位,获取该时间段内所有的小时集合hour_sequence;
步骤22、针对群体消息集合group_message_sequence,采用分布式并行计算算法并按照小时(粒度)集合hour_sequence进行汇总,汇总每个小时内的消息个数;
步骤23、汇总完每个的消息个数,记为hour_message_count_sequence即该消息数集合,并返回。
其中如图4所示,步骤3中该特征包括:周末特征、节假日特征、纪念日特征、法定调休日特征、季节特征、工作时间特征和休息时间特征。对于消息数集合hour_message_count_sequence,根据是否:周末、节假日、纪念日、加班、工作时间、休息时间、季节、小时数来构造特征,并生成样本集合sample_sequence,:
输入:[消息数集合:hour_message_count_sequence,本年度节假日集合:holiday_sequence]
输出:[样本集合:sample_sequence]
步骤31、统计该时间跨度内的节假日日期信息,作为节日库,统计该时间跨度内的纪念日信息,作为纪念日库,其中该纪念日信息包括宗教节日,该节假日日期信息包括法定假期与法定调休日期,并遍历各消息总数,取各消息数集合中最新一条记录,做如下处理:
步骤32、取各该时间范围中最新的一条信息记录,称为最新记录,并获取该最新记录中的日期信息和时间信息。获取该记录中的日期信息和时间信息,对于获取到的日期信息和时间信息,以此做如下处理:
步骤33、根据日历判断该日期信息是否为于周末,若是则该信息记录具有周末特征,例如判断该日期信息是否属于周末,若是则周末特征为1,否则周末特征为0;
步骤34、根据该节日库,判断该日期信息是否为法定节假日,若是则该信息记录具有节假日特征。根据该节日库,判断该日期信息是否属于法定节假日,若是则节假日特征为1,否则节假日特征为0;
步骤35、根据该纪念日库,判断该日期信息是否为纪念日,若是则该信息记录具有纪念日特征。判断该日期信息是否为纪念日,若是则纪念日特征为1,否则纪念日特征为0,其中纪念日是指发生过重大事情值得纪念的日子,例如不放假的节日、各宗教的节日等,因此需构建纪念日库,纪念日库属于节假日库;
步骤36、根据该节日库,判断该日期信息是否为法定调休日,若是则该信息记录具有法定调休日特征。判断该日期信息是否为法定调休日,若是则法定调休日特征为1,否则法定调休日特征为0,其中法定调休日,由于放假调休导致的周末正常上班的日期为法定调休日,法定调休日位于节假日库中;
步骤37、根据该日期信息中的月份,获取当前该信息记录所处的季节特征。判断该日期信息所处的季节,以one-hot的方式表示,其中One-Hot编码也叫独热编码,又称一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候,其中只有一位有效;
步骤38、判断该时间信息是否为工作时间,若是则该信息记录具有工作时间特征,否则该信息记录具有休息时间特征。判断该时间信息是否为工作时间,若是则工作时间特征为1,否则工作时间特征为0,其中工作时间可根据具体情况进行设定,本实施例的工作时间为9:00至18:00;
判断该时间信息是否为休息时间,若是则休息时间特征为1,否则休息时间为0,其中休息时间是指除工作时间以外的时间,本实施例的休息时间即为18:00至9:00;
步骤39、将该时间信息的小时数以one-hot的方式表示;
步骤311、统计步骤33~39构造该记录的特征,对于每个样本信息,获取该样本信息的日期和时间信息,对于日期信息,获取周几信息,进而判断是否是周末,然后在节假日库和纪念日库中进行查询,判断是否为节假日、法定调休日和纪念日,根据日期中的月份来获取季节信息,然后根据时间信息来获取是否为工作时间和休息时间,同时获取具体的小时数;
步骤312、判断是否完全遍历各消息总数,若是继续下一步,否则转步骤32;
步骤313、输出该样本集合sample_sequence,其中该样本集合指:对于每个消息,根据步骤311获取该消息的特征值,将所有消息的特征值集合看做是样本集合。
其中如图5所示,步骤4还包括,根据获取的样本集合sample_sequence,对样本开始进行聚类分析:
输入:[sample_sequence]
输出:[异常点集合]
步骤41、获取样本集合sample_sequence;
步骤42、聚类模块接收样本集合,并采用基于密度的聚类算法为该样本集合中的每个样本分配样本类别,本发明使用者可根据需要选取聚类距离阈值L;
步骤43、遍历每种样本类别下的样本数,并将该样本数为1的样本类别下的样本判定为该异常样本,该异常样本在聚类算法中即为离群点,收集该离群点作为异常点集合,返回该异常点集合。
以下为与上述方法实施例对应的系统实施例,本实施系统可与上述实施方式互相配合实施。上述施方式中提到的相关技术细节在本实施系统中依然有效,为了减少重复,这里不再赘述。相应地,本实施系统中提到的相关技术细节也可应用在上述实施方式中。
本发明还提出了一种基于社交网络的用户群体消息传播异常分析装置,其中包括:
获取模块,用于获取在线社交网络中用户群体的历史聊天记录,其中该用户群体包含多名用户,该历史聊天记录包含多条信息记录;根据预先设定的时间跨度,获取该历史聊天记录在该时间跨度内该用户群体中所有用户所发布的消息,作为消息集合;
统计模块,用于对于该消息集合,根据预先设定的时间范围统计该用户群体在每个该时间范围内所发布的消息总数;
特征提取模块,用于对每个该消息总数的特征进行提取,并将提取结果集合为样本集合;
聚类模块,用于根据该消息总数,采用聚类算法为该样本集合中的每个样本分配样本类别,遍历每种样本类别下的样本数,并将该样本数小于预设阈值的样本类别下的样本判定为该异常样本;
异常传播判定模块,用于根据该异常样本判定其所在的该用户群体存在消息传播异常。
该基于社交网络的用户群体消息传播异常分析装置,其中该获取模块包括:
集合模块,用于根据该用户群体的编号和已知的个体库,将该用户群体中所有的用户集合,作为个体集合,并根据该个体集合,从该在线社交网络的消息库中获取该用户群体在该时间跨度内发布的消息集合,作为该消息集合。
该基于社交网络的用户群体消息传播异常分析装置,其中该统计模块包括:采用分布式并行计算法,统计在每个该时间范围内所发布的该消息总数。
该基于社交网络的用户群体消息传播异常分析装置,其中特征提取模块中该特征包括:周末特征、节假日特征、纪念日特征、法定调休日特征、季节特征、工作时间特征和休息时间特征,具体判断过程涉及:
信息统计模块,用于统计该时间跨度内的节假日日期信息,作为节日库,统计该时间跨度内的纪念日信息,作为纪念日库,其中该纪念日信息包括宗教节日,该节假日日期信息包括法定假期与法定调休日期;
时间获取模块,用于取各该时间范围中最新的一条信息记录,称为最新记录,并获取该最新记录中的日期信息和时间信息;
判断模块,用于根据日历判断该日期信息是否为于周末,若是则该信息记录具有周末特征;根据该节日库,判断该日期信息是否为法定节假日,若是则该信息记录具有节假日特征;根据该纪念日库,判断该日期信息是否为纪念日,若是则该信息记录具有纪念日特征;根据该节日库,判断该日期信息是否为法定调休日,若是则该信息记录具有法定调休日特征;根据该日期信息中的月份,获取当前该信息记录所处的季节特征;判断该时间信息是否为工作时间,若是则该信息记录具有工作时间特征,否则该信息记录具有休息时间特征。
该基于社交网络的用户群体消息传播异常分析装置,其中该特征提取模块的特征进行提取采用基于时序相关性的特征提取法。
虽然本发明以上述实施例公开,但具体实施例仅用以解释本发明,并不用于限定本发明,任何本技术领域技术人员,在不脱离本发明的构思和范围内,可作一些的变更和完善,故本发明的权利保护范围以权利要求书为准。
Claims (10)
1.一种基于社交网络的用户群体消息传播异常分析方法,其特征在于,包括:
步骤1、获取在线社交网络中多个用户群体的历史聊天记录,其中该用户群体包含多名用户,该历史聊天记录包含多条信息记录;根据预先设定的时间跨度,获取该历史聊天记录在该时间跨度内该用户群体中所有用户所发布的消息,作为消息集合;
步骤2、对于该消息集合,根据预先设定的时间范围统计该用户群体在每个该时间范围内所发布的消息总数,并提取各时间范围中最新一条信息记录的时间特征;
步骤3、集合各时间范围的消息总数和时间特征作为该时间范围的提取结果,以所有时间范围的提取结果作为样本,构建样本集合;
步骤4、采用聚类算法为该样本集合中的每个样本分配样本类别,遍历每种样本类别下的样本数,并将该样本数小于预设阈值的样本类别下的样本判定为异常样本;
步骤5、根据该异常样本判定其所在的该用户群体存在消息传播异常。
2.如权利要求1所述的基于社交网络的用户群体消息传播异常分析方法,其特征在于,该步骤1包括:
步骤12、根据该用户群体的编号和已知的个体库,将该用户群体中所有的用户集合,作为个体集合;
步骤13、根据该个体集合,从该在线社交网络的消息库中获取该用户群体在该时间跨度内发布的消息集合,作为该消息集合。
3.如权利要求1所述的基于社交网络的用户群体消息传播异常分析方法,其特征在于,该步骤2包括:采用分布式并行计算法,统计在每个该时间范围内所发布的该消息总数。
4.如权利要求1所述的基于社交网络的用户群体消息传播异常分析方法,其特征在于,步骤3中该特征包括:周末特征、节假日特征、纪念日特征、法定调休日特征、季节特征、工作时间特征和休息时间特征,具体判断过程包括:
步骤31、统计该时间跨度内的节假日日期信息,作为节日库,统计该时间跨度内的纪念日信息,作为纪念日库,其中该纪念日信息包括宗教节日,该节假日日期信息包括法定假期与法定调休日期;
步骤32、取各该时间范围中最新的一条信息记录,称为最新记录,并获取该最新记录中的日期信息和时间信息;
步骤33、根据日历判断该日期信息是否为于周末,若是则该信息记录具有周末特征;
步骤34、根据该节日库,判断该日期信息是否为法定节假日,若是则该信息记录具有节假日特征;
步骤35、根据该纪念日库,判断该日期信息是否为纪念日,若是则该信息记录具有纪念日特征;
步骤36、根据该节日库,判断该日期信息是否为法定调休日,若是则该信息记录具有法定调休日特征;
步骤37、根据该日期信息中的月份,获取当前该信息记录所处的季节特征;
步骤38、判断该时间信息是否为工作时间,若是则该信息记录具有工作时间特征,否则该信息记录具有休息时间特征。
5.如权利要求1所述的基于社交网络的用户群体消息传播异常分析方法,其特征在于,该步骤3的特征进行提取采用基于时序相关性的特征提取法。
6.一种基于社交网络的用户群体消息传播异常分析装置,其特征在于,包括:
获取模块,用于获取在线社交网络中多个用户群体的历史聊天记录,其中该用户群体包含多名用户,该历史聊天记录包含多条信息记录;根据预先设定的时间跨度,获取该历史聊天记录在该时间跨度内该用户群体中所有用户所发布的消息,作为消息集合;
统计模块,用于对于该消息集合,根据预先设定的时间范围统计该用户群体在每个该时间范围内所发布的消息总数,并提取各时间范围中最新一条信息记录的时间特征;
特征提取模块,用于集合各时间范围的消息总数和时间特征作为该时间范围的提取结果,以所有时间范围的提取结果作为样本,构建样本集合;
聚类模块,用于通过聚类算法为该样本集合中的每个样本分配样本类别,遍历每种样本类别下的样本数,并将该样本数小于预设阈值的样本类别下的样本判定为异常样本;
异常传播判定模块,用于根据该异常样本判定其所在的该用户群体存在消息传播异常。
7.如权利要求6所述的基于社交网络的用户群体消息传播异常分析装置,其特征在于,该获取模块包括:
集合模块,用于根据该用户群体的编号和已知的个体库,将该用户群体中所有的用户集合,作为个体集合,并根据该个体集合,从该在线社交网络的消息库中获取该用户群体在该时间跨度内发布的消息集合,作为该消息集合。
8.如权利要求6所述的基于社交网络的用户群体消息传播异常分析装置,其特征在于,该统计模块包括:采用分布式并行计算法,统计在每个该时间范围内所发布的该消息总数。
9.如权利要求6所述的基于社交网络的用户群体消息传播异常分析装置,其特征在于,特征提取模块中该特征包括:周末特征、节假日特征、纪念日特征、法定调休日特征、季节特征、工作时间特征和休息时间特征,具体判断过程涉及:
信息统计模块,用于统计该时间跨度内的节假日日期信息,作为节日库,统计该时间跨度内的纪念日信息,作为纪念日库,其中该纪念日信息包括宗教节日,该节假日日期信息包括法定假期与法定调休日期;
时间获取模块,用于取各该时间范围中最新的一条信息记录,称为最新记录,并获取该最新记录中的日期信息和时间信息;
判断模块,用于根据日历判断该日期信息是否为于周末,若是则该信息记录具有周末特征;根据该节日库,判断该日期信息是否为法定节假日,若是则该信息记录具有节假日特征;根据该纪念日库,判断该日期信息是否为纪念日,若是则该信息记录具有纪念日特征;根据该节日库,判断该日期信息是否为法定调休日,若是则该信息记录具有法定调休日特征;根据该日期信息中的月份,获取当前该信息记录所处的季节特征;判断该时间信息是否为工作时间,若是则该信息记录具有工作时间特征,否则该信息记录具有休息时间特征。
10.如权利要求6所述的基于社交网络的用户群体消息传播异常分析装置,其特征在于,该特征提取模块的特征进行提取采用基于时序相关性的特征提取法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710464424.7A CN109145109B (zh) | 2017-06-19 | 2017-06-19 | 基于社交网络的用户群体消息传播异常分析方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710464424.7A CN109145109B (zh) | 2017-06-19 | 2017-06-19 | 基于社交网络的用户群体消息传播异常分析方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109145109A CN109145109A (zh) | 2019-01-04 |
CN109145109B true CN109145109B (zh) | 2022-06-03 |
Family
ID=64804433
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710464424.7A Expired - Fee Related CN109145109B (zh) | 2017-06-19 | 2017-06-19 | 基于社交网络的用户群体消息传播异常分析方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109145109B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108111399B (zh) * | 2017-12-27 | 2021-06-04 | Oppo广东移动通信有限公司 | 消息处理的方法、装置、终端及存储介质 |
CN110009519B (zh) * | 2019-01-29 | 2023-04-07 | 上海七印信息科技有限公司 | 一种基于区块链社交平台的社群检测方法 |
CN114463142B (zh) * | 2022-02-17 | 2024-06-28 | 石河子大学 | 一种网络群体用户行为影响预测系统及方法 |
CN116049695B (zh) * | 2022-12-20 | 2023-07-04 | 中国科学院空天信息创新研究院 | 跨社交网络的群体感知与立场分析方法、系统和电子设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103150374A (zh) * | 2013-03-11 | 2013-06-12 | 中国科学院信息工程研究所 | 一种识别微博异常用户的方法和系统 |
CN103795612A (zh) * | 2014-01-15 | 2014-05-14 | 五八同城信息技术有限公司 | 即时通讯中的垃圾和违法信息检测方法 |
CN103853841A (zh) * | 2014-03-19 | 2014-06-11 | 北京邮电大学 | 一种社交网用户异常行为的分析方法 |
CN105630885A (zh) * | 2015-12-18 | 2016-06-01 | 国网福建省电力有限公司泉州供电公司 | 一种用电异常检测方法及系统 |
CN105740667A (zh) * | 2014-12-10 | 2016-07-06 | 阿里巴巴集团控股有限公司 | 一种基于用户行为的信息识别方法及装置 |
CN106503859A (zh) * | 2016-10-28 | 2017-03-15 | 国家计算机网络与信息安全管理中心 | 一种基于在线社会关系网络的消息传播预测方法及装置 |
CN106789292A (zh) * | 2016-12-29 | 2017-05-31 | 东方网力科技股份有限公司 | 一种异常行为监控方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160034562A1 (en) * | 2014-07-30 | 2016-02-04 | Anthony Malcolm-Dacosta | Method and system for organizing messages and reporting statistics for messages in a social network |
-
2017
- 2017-06-19 CN CN201710464424.7A patent/CN109145109B/zh not_active Expired - Fee Related
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103150374A (zh) * | 2013-03-11 | 2013-06-12 | 中国科学院信息工程研究所 | 一种识别微博异常用户的方法和系统 |
CN103795612A (zh) * | 2014-01-15 | 2014-05-14 | 五八同城信息技术有限公司 | 即时通讯中的垃圾和违法信息检测方法 |
CN103853841A (zh) * | 2014-03-19 | 2014-06-11 | 北京邮电大学 | 一种社交网用户异常行为的分析方法 |
CN105740667A (zh) * | 2014-12-10 | 2016-07-06 | 阿里巴巴集团控股有限公司 | 一种基于用户行为的信息识别方法及装置 |
CN105630885A (zh) * | 2015-12-18 | 2016-06-01 | 国网福建省电力有限公司泉州供电公司 | 一种用电异常检测方法及系统 |
CN106503859A (zh) * | 2016-10-28 | 2017-03-15 | 国家计算机网络与信息安全管理中心 | 一种基于在线社会关系网络的消息传播预测方法及装置 |
CN106789292A (zh) * | 2016-12-29 | 2017-05-31 | 东方网力科技股份有限公司 | 一种异常行为监控方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN109145109A (zh) | 2019-01-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gaffney et al. | Caveat emptor, computational social science: Large-scale missing data in a widely-published Reddit corpus | |
CN109145109B (zh) | 基于社交网络的用户群体消息传播异常分析方法及装置 | |
Peling et al. | Implementation of Data Mining To Predict Period of Students Study Using Naive Bayes Algorithm | |
CN106649831B (zh) | 一种数据过滤方法及装置 | |
CN112632405B (zh) | 一种推荐方法、装置、设备及存储介质 | |
Morbey et al. | The application of a novel ‘rising activity, multi-level mixed effects, indicator emphasis’(RAMMIE) method for syndromic surveillance in England | |
CN103793484A (zh) | 分类信息网站中的基于机器学习的欺诈行为识别系统 | |
CN109961165B (zh) | 件量预测方法、装置、设备及其存储介质 | |
CN105556554A (zh) | 多个设备相关性 | |
CN107945050B (zh) | 一种用电客户类型的识别与标识方法、装置及中央服务器 | |
Lerman et al. | Using stochastic models to describe and predict social dynamics of web users | |
CN106528850B (zh) | 基于机器学习聚类算法的门禁数据异常检测方法 | |
CN102402594A (zh) | 一种富媒体个性化推荐方法 | |
CN112860808A (zh) | 基于数据标签的用户画像分析方法、装置、介质和设备 | |
CN117971606A (zh) | 基于ElasticSearch的日志管理系统及方法 | |
CN110737691B (zh) | 用于处理访问行为数据的方法和装置 | |
Žunić et al. | Application of Big Data and text mining methods and technologies in modern business analyzing social networks data about traffic tracking | |
Weiß | Fully observed INAR (1) processes | |
EP3018620A1 (en) | Characterising user behaviour | |
CN115470279A (zh) | 基于企业数据的数源转换方法、装置、设备及介质 | |
CN113505172B (zh) | 数据处理方法、装置、电子设备及可读存储介质 | |
US20160078032A1 (en) | Method of on-line media scoring | |
CN114595473A (zh) | 访问数据处理方法和装置、电子设备、计算机可读介质 | |
CN111507397B (zh) | 一种异常数据的分析方法及装置 | |
CN113886690A (zh) | 基于用户行为的影片推荐方法、装置、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220603 |