CN110727763B - 一种社交媒体传播中的特殊族群识别方法 - Google Patents

一种社交媒体传播中的特殊族群识别方法 Download PDF

Info

Publication number
CN110727763B
CN110727763B CN201910952849.1A CN201910952849A CN110727763B CN 110727763 B CN110727763 B CN 110727763B CN 201910952849 A CN201910952849 A CN 201910952849A CN 110727763 B CN110727763 B CN 110727763B
Authority
CN
China
Prior art keywords
comment
information
event
user
special
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910952849.1A
Other languages
English (en)
Other versions
CN110727763A (zh
Inventor
林晓勇
孙慧
吕珺
刘明杰
胡贤斌
魏启宇
彭敏鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN201910952849.1A priority Critical patent/CN110727763B/zh
Publication of CN110727763A publication Critical patent/CN110727763A/zh
Application granted granted Critical
Publication of CN110727763B publication Critical patent/CN110727763B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/285Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种社交媒体传播中的特殊族群识别方法,包括从社交媒体的事件中获取符合预设规则的特定事件;抓取特定事件半衰期内的信息,其中信息包括评论信息及相应的评论用户信息;基于特殊族群的多维度特征,对评论信息和评论用户信息进行多特征降维处理,获得评论用户识别信息集;对评论用户识别信息集进行分类处理,获取评论用户中的特殊族群。本发明实现了社交媒体传播中的特殊族群识别。

Description

一种社交媒体传播中的特殊族群识别方法
技术领域
本发明涉及一种社交媒体传播中的特殊族群识别方法,属于移动社交网络和大数据挖掘领域。
背景技术
社交媒体是社交与媒体的高度整合,指的是互联网上基于用户社会关系的内容生产和交换平台。社交媒体的快速发展使得社会生活进入高度信息化,而社会生活的高度信息化,一方面使得社交媒体这一平台作为客户端承载了海量蕴含价值的大数据,另一方面也使得垃圾信息被广泛地制造与传播,而这类垃圾信息已严重扰乱了社会秩序与网络环境,这类垃圾信息的源头为特殊族群,即常说的“网络水军”。为了维护社交网络环境的稳定,急需对特殊族群进行识别,从而为后续的治理提供基础。
发明内容
本发明提供了一种社交媒体传播中的特殊族群识别方法,解决了背景技术中披露的问题。
为了解决上述技术问题,本发明所采用的技术方案是:
一种社交媒体传播中的特殊族群识别方法,包括:
从社交媒体的事件中获取符合预设规则的特定事件;
抓取特定事件半衰期内的信息,其中信息包括评论信息及相应的评论用户信息;
基于特殊族群的多维度特征,对评论信息和评论用户信息进行多特征降维处理,获得评论用户识别信息集;
对评论用户识别信息集进行分类处理,获取评论用户中的特殊族群。
预设规则为:
事件的异常度小于阈值并且事件带有预设性质标签,则该事件为特定事件。
异常度的计算公式为:
Figure GDA0003747454160000021
其中,W为异常度,Tn、Cn、Ln和Sn分别为事件的转发数、评论数、点赞数和搜索量。
信息抓取的过程为:
抓取事件信息和关联的评论信息;
根据事件信息中的发起人ID,抓取发起人信息;
根据评论信息中的评论用户ID,抓取评论用户信息。
获得评论用户识别信息集的过程为:
对特殊族群进行不同维度特征分析;
根据特殊族群特征,对评论信息和评论用户信息进行降维处理,计算评论用户不同维度的特征值;
将满足特征值预设要求的评论信息和相应的评论用户信息作为评论用户识别信息,构建评论用户识别信息集。
特殊族群特征包括关注比特征、活跃度特征、关注度特征和契合度特征;
评论用户关注比为:
评论用户粉丝数与评论用户关注数之比;
评论用户活跃度计算公式为:
Figure GDA0003747454160000022
其中,DOA为评论用户活跃度,Nre为评论用户距事件发生时间为止一个月的原创微博数,Ntot为评论用户总的微博数,Tm为评论用户账号建立的月数;
评论用户关注度计算公式为:
Figure GDA0003747454160000031
其中,Focus为评论用户关注度,Tevent、Tcom、Ncom分别为事件发生时间、评论用户首次评论事件时间以及评论用户对于事件评论置顶的次数;
评论用户契合度计算公式为:
Figure GDA0003747454160000032
其中,r为评论用户评论内容与事件内容的契合度,R为发帖文本矩阵,R中的元素为特定事件中提取的关键词,P为回帖文本矩阵,P中的元素为评论内容中提取的关键词。
将评论用户识别信息集输入三级并行集成分类器,获取评论用户中的特殊族群。
三级并行集成分类器构建过程为:
采用自助采样法从评论用户识别信息集中获得多个不同信息集;
将信息集输入多个分类器,计算各分类器对不同信息集的判别准确率;
根据分类器对不同信息集的判别准确率波动,计算各分类器的稳定性;
将稳定性作为主要关键字,判别准确率作为次要关键字,选择最优的三种分类器构建三级并行集成分类器。
响应于三级并行集成分类器中所有分类器均判定评论用户为特殊族群,则该评论用户为特殊族群。
一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行社交媒体传播中的特殊族群识别方法。
本发明所达到的有益效果:本发明抓取特定事件的评论信息及相应的评论用户信息,针对性的基于特殊族群的多维度特征,对评论信息和评论用户信息进行多特征降维处理,获得优化后的评论用户识别信息,最后通过分类处理获得特殊族群,实现了社交媒体传播中的特殊族群识别。
附图说明
图1为本发明的总流程图;
图2为特定事件选取流程;
图3为列表关系图;
图4为t-Data获取流程;
图5为分类器选取;
图6为分类流程。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
实施例1
一种社交媒体传播中的特殊族群识别方法,包括以下步骤:
步骤1,从社交媒体的事件中获取符合预设规则的特定事件。
社交媒体事件可分为热点事件和非热点事件,网络水军往往是对热点事件进行评论,因此可直接从社交媒体的热点事件中获取特定事件,这样可提高识别方法的效率。
预设规则为人为规定的筛选规则,例如:可根据事件转发数量进行筛选、根据评论数进行筛选、根据点赞数进行筛选、根据搜索量进行筛选、根据事件的内容进行筛选(如:娱乐事件、军事事件等)等,这些规则需要根据实际情况货需求而定。
步骤2,进行特定事件热度变化曲线监测,抓取特定事件半衰期内的信息,其中信息包括事件信息、发起人信息、评论信息及相应的评论用户信息。
半衰期是指事件热度随时间衰减速度,将萌芽期、酝酿期、发酵期、爆发期整个事件周期作为事件的半衰期,对于半衰期内的信息进行抓取。
步骤3,基于特殊族群的多维度特征,对评论信息和评论用户信息进行多特征降维处理,获得评论用户识别信息集。
从不同的维度分析特殊族群,即进行网络水军多维度分析,获取特殊族群不同维度的特征,其中这些维度可以是评论用户名、活跃度、契合度等等,这种特殊族群的特征分析,提高了识别方法的针对性。
步骤4,对评论用户识别信息集进行分类处理,获取评论用户中的特殊族群。
通过分类器对评论用户识别信息集中的信息进行分类,从而可以识别出评论用户中的特殊族群、普通用户和疑似特殊族群。
上述方法抓取特定事件的评论信息及相应的评论用户信息,针对性的基于特殊族群的多维度特征,对评论信息和评论用户信息进行多特征降维处理,获得优化后的评论用户识别信息,最后通过分类处理获得特殊族群,实现了社交媒体传播中的特殊族群识别,为后续的社交媒体治理提供基础。
实施例2
一种社交媒体传播中的特殊族群识别方法,在实施例1的基础上增加了具体的预设规则,具体如下:
将异常度和事件性质作为筛选的指标,即事件的异常度小于阈值并且事件带有预设性质标签,则该事件为特定事件;其中,事件的异常度可根据转发数、评论数、点赞数和搜索量求取,预设性质标签即事件性质标签,如:需要获取的特定事件为娱乐事件,那么需要判断事件是否带有娱乐性质标签。
实施例3
一种社交媒体传播中的特殊族群识别方法,在实施例2的基础上增加了异常度的计算公式,具体如下:
Figure GDA0003747454160000061
其中,W为异常度,Tn、Cn、Ln和Sn分别为事件的转发数、评论数、点赞数和搜索量。
如图2所示,因此特定事件的预设规则可用下式表示:
Figure GDA0003747454160000062
Figure GDA0003747454160000063
其中,
Figure GDA0003747454160000064
为异常度阈值。
实施例4
一种社交媒体传播中的特殊族群识别方法,在实施例1的基础上增加了信息抓取的过程,具体如下:
21)抓取事件信息和关联的评论信息。
抓取的事件信息包括事件ID、事件发起人ID、事件创建时间、事件内容、转发数、评论数、点赞数。由于事件ID直接与评论用户ID关联,因此可抓取关联的评论信息,包括评论用户ID、评论内容、评论时间、评论点赞数、评论回复数。
22)根据事件信息中的发起人ID,抓取发起人信息,包括用户ID、昵称、会员等级、注册时间、粉丝数、关注数、发帖内容。
23)根据评论信息中的评论用户ID,抓取评论用户信息,包括用户ID、昵称、会员等级、注册时间、粉丝数、关注数、发帖内容。
如图3所示,ID可作为唯一表示,因此上述抓取的信息分别以事件ID、事件发起人ID和评论用户ID建立事件信息表(Event_info)、评论信息表(Comments_info)、事件发起人信息表(Promoter_info)和评论用户信息表(Commentators_info),其中,Event_info和Comments_info以事件ID作为Key值,Promoter_info以事件发起人ID作为Key值,并且与Event_info关联,Commentators_info以评论用户ID作为Key值,并且与Comments_info关联。
将Commentators_info和Comments_info记录联合,建立新的信息表,TCommentators_info列表,该表中的信息为后续识别用的信息,由于信息量较大,因此在存入列表之前需要对信息进行清洗处理,具体如下:
A)对信息进行熟悉与摸底,确定信息中是否存在无效信息、错误信息等;
B)对于无效信息、错误信息等明显质量问题进行特征提取,主要特征为过多字段值为空或超出可解释范围,将此类特征信息进行删除,从而完成清洗。
实施例5
一种社交媒体传播中的特殊族群识别方法,在实施例1的基础上增加了获得评论用户识别信息集的过程,具体如下:
31)对特殊族群进行不同维度特征分析。
32)根据特殊族群特征,对评论信息和评论用户信息进行降维处理,计算评论用户不同维度的特征值。
评论信息和评论用户信息为实施例4中TCommentators_info列表中的信息,即列表中的经过清洗的有效字段。
33)将满足特征值预设要求的评论信息和相应的评论用户信息作为评论用户识别信息,构建评论用户识别信息集(t-Data)。
实施例6
一种社交媒体传播中的特殊族群识别方法,在实施例5的基础上增加了特殊族群特征类别和各特征值的计算。
经过对特殊族群分析,可获得的特征包括用户名特征、关注比特征、活跃度特征、关注度特征和契合度特征。
用户名特征指的是传统的网络水军为了实现更加高效的创建大量与已注册用户名不同的账号,其所创建的用户名会有极高的文字重复性,而在其后添加的数字上随机,从而实现整体用户名的不可重复性。但是,随着特殊族群的演变,这一特征在新型特殊族群分析中已不再具有实际意义,因此这里一般不考虑。
关注比是评论用户粉丝数与评论用户关注数之比,特殊族群因其在事件评论中获益,其关注数极多而粉丝数极少,因此其关注比相对于普通用户较低。
活跃度是指在特定事件发生前一个月内评论用户在网络中的活跃频率,计算公式如下:
Figure GDA0003747454160000081
其中,DOA为评论用户活跃度,Nre为评论用户距事件发生时间为止一个月的原创微博数,Ntot为评论用户总的微博数,Tm为评论用户账号建立的月数。
特殊族群的主要任务是对事件转发、置顶、评论,而原创性内容极少且发帖数高,因此其活跃度相对于普通用户较低。
关注度是指评论用户对于事件的关注程度,主要体现在两个方面:一是在事件发生后对于事件的及时评论、置顶与回复,二是在短时间内对于同一事件的回复、评论置顶的次数。计算公式如下:
Figure GDA0003747454160000091
其中,Focus为评论用户关注度,Tevent、Tcom、Ncom分别为事件发生时间、评论用户首次评论事件时间以及评论用户对于事件评论置顶的次数。
普通用户对于事件会保持观望的态度,不会投入过多的关注度,而特殊族群的任务是增加特定事件热度,因此其对特定事件的关注度较高。
契合度是指评论用户的评论内容与事件内容的契合程度,具体计算过程为:
A1)对特定事件内容进行关键词提取,主要包括去除语气词、助词,提取能代列表事件主题的名词等,生成发帖文本矩阵R。
B1)对特定事件的评论内容(TCommentators_info列表中的)进行关键词提取,主要包括去除语气词、助词,提取能代列表评论主题的名词等,生成回帖文本矩阵P。
C1)通过计算R与P的余弦相似性得到契合度,具体公式如下:
Figure GDA0003747454160000092
其中,R为发帖文本矩阵,R中的元素为特定事件中提取的关键词,P为回帖文本矩阵,P中的元素为评论内容中提取的关键词,r为评论用户评论内容与事件内容的契合度,r的取值范围为[0,1],r越趋近于1,契合度越高,其契合度特征在于特殊族群为了实现短时间内的快速增热度,会忽视事件本事的内容属性直接评论,因此其契合度较低。
将特殊族群的特征分解到不同维度,然后就不同维度做出分析,得出特殊族群具有关注比较低、活跃度较低、关注度较高、契合度较低四大特征。
实施例7
一种社交媒体传播中的特殊族群识别方法,包括以下步骤:
步骤1,从社交媒体的事件中获取符合预设规则的特定事件。
社交媒体事件可分为热点事件和非热点事件,网络水军往往是对热点事件进行评论,因此可直接从社交媒体的热点事件中获取特定事件,这样可提高识别方法的效率。
预设规则为人为规定的筛选规则,例如:可根据事件转发数量进行筛选、根据评论数进行筛选、根据点赞数进行筛选、根据搜索量进行筛选、根据事件的内容进行筛选(如:娱乐事件、军事事件等)等,这些规则需要根据实际情况货需求而定。
步骤2,进行特定事件热度变化曲线监测,抓取特定事件半衰期内的信息,其中信息包括事件信息、发起人信息、评论信息及相应的评论用户信息。
半衰期是指事件热度随时间衰减速度,将萌芽期、酝酿期、发酵期、爆发期整个事件周期作为事件的半衰期,对于半衰期内的信息进行抓取。
步骤3,基于特殊族群的多维度特征,对评论信息和评论用户信息进行多特征降维处理,获得评论用户识别信息集。
从不同的维度分析特殊族群,即进行网络水军多维度分析,获取特殊族群不同维度的特征,其中这些维度可以是评论用户名、活跃度、契合度等等,这种特殊族群的特征分析,提高了识别方法的针对性。
步骤4,将评论用户识别信息集输入三级并行集成分类器,获取评论用户中的特殊族群。
通过三级并行集成分类器对评论用户识别信息集中的信息进行分类,从而可以识别出评论用户中的特殊族群、普通用户和疑似特殊族群。
实施例8
一种社交媒体传播中的特殊族群识别方法,在实施例7的基础上增加了三级并行集成分类器具体构建。
如图5所示,三级并行集成分类器由三个分类器组成,具体构建过程如下:
41)将评论用户识别信息集中的部分信息(一般为50%)进行人工标注,采用自助采样法从评论用户识别信息集中获得多个不同信息集。
自助采样法是指在样本集中随机取出n个样本作为样本集F1,再将n个样本放回初始样本集,使得该样本下次仍有可能被取出,这样重复操作N次,得到N个不同样本集F1、F2、…、FN
42)将信息集输入多个分类器,计算各分类器对不同信息集的判别准确率。
步骤42中采用的分类器为常见的分类器,包括C4.5决策树、神经网络、支持向量机、贝叶斯分类器、随机森林等,分别记录不同分类器在不同信息集的判别准确率。
43)根据分类器对不同信息集的判别准确率波动,计算各分类器的稳定性,具体公式为:
Figure GDA0003747454160000111
其中,α2为总体方差,X为分类器在不同信息集中的判别准确率,μ为判别准确率均值,N为信息集数量,以α2作为稳定性度量,α2越小稳定性越佳。
44)将稳定性作为主要关键字,判别准确率作为次要关键字,选择最优的三种分类器C1、C2、C3构建三级并行集成分类器。
采用上述的三级并行集成分类器,可有效提高特殊族群识别的准确度。
实施例9
一种社交媒体传播中的特殊族群识别方法,在实施例7的基础上增加三级并行集成分类器分类过程,具体如图6:
评论用户识别信息集分别输入各分类器进行分类,分类器C1分类结果为特殊族群A1与非特殊族群B1,分类器C2分类结果为特殊族群A2与非特殊族群B2,分类器C3分类结果为特殊族群A3与非特殊族群B3;
分类结果采用并联结合策略,响应于所有分类器均判定评论用户为特殊族群,则该评论用户为特殊族群,响应于所有分类器均判定评论用户为普通用户,则该评论用户为普通用户,其余用户为疑似特殊族群。
实施例10
如图1所示,一种社交媒体传播中的特殊族群识别方法,包括以下步骤:
步骤1,从社交媒体的事件中获取符合预设规则的特定事件。
社交媒体事件可分为热点事件和非热点事件,网络水军往往是对热点事件进行评论,因此可直接从社交媒体的热点事件中获取特定事件,这样可提高识别方法的效率。
预设规则为人为规定的筛选规则,例如:可根据事件转发数量进行筛选、根据评论数进行筛选、根据点赞数进行筛选、根据搜索量进行筛选、根据事件的内容进行筛选(如:娱乐事件、军事事件等)等,这些规则需要根据实际情况货需求而定。
这里的预设规则将异常度和事件性质作为筛选的指标,即事件的异常度小于阈值并且事件带有预设性质标签,则该事件为特定事件;其中,事件的异常度可根据转发数、评论数、点赞数和搜索量求取,预设性质标签即事件性质标签,如:需要获取的特定事件为娱乐事件,那么需要判断事件是否带有娱乐性质标签。
异常度的计算公式,具体如下:
Figure GDA0003747454160000131
其中,W为异常度,Tn、Cn、Ln和Sn分别为事件的转发数、评论数、点赞数和搜索量。
如图2所示,因此特定事件的预设规则可用下式表示:
Figure GDA0003747454160000132
Figure GDA0003747454160000133
其中,
Figure GDA0003747454160000134
为异常度阈值。
步骤2,进行特定事件热度变化曲线监测,抓取特定事件半衰期内的信息,其中信息包括事件信息、发起人信息、评论信息及相应的评论用户信息。
半衰期是指事件热度随时间衰减速度,将萌芽期、酝酿期、发酵期、爆发期整个事件周期作为事件的半衰期,对于半衰期内的信息进行抓取。
信息抓取的过程,具体如下:
21)抓取事件信息和关联的评论信息。
抓取的事件信息包括事件ID、事件发起人ID、事件创建时间、事件内容、转发数、评论数、点赞数。由于事件ID直接与评论用户ID关联,因此可抓取关联的评论信息,包括评论用户ID、评论内容、评论时间、评论点赞数、评论回复数。
22)根据事件信息中的发起人ID,抓取发起人信息,包括用户ID、昵称、会员等级、注册时间、粉丝数、关注数、发帖内容。
23)根据评论信息中的评论用户ID,抓取评论用户信息,包括用户ID、昵称、会员等级、注册时间、粉丝数、关注数、发帖内容。
如图3所示,ID可作为唯一表示,因此上述抓取的信息分别以事件ID、事件发起人ID和评论用户ID建立事件信息表(Event_info)、评论信息表(Comments_info)、事件发起人信息表(Promoter_info)和评论用户信息表(Commentators_info),其中,Event_info和Comments_info以事件ID作为Key值,Promoter_info以事件发起人ID作为Key值,并且与Event_info关联,Commentators_info以评论用户ID作为Key值,并且与Comments_info关联。
将Commentators_info和Comments_info记录联合,建立新的信息表,TCommentators_info列表,该表中的信息为后续识别用的信息,由于信息量较大,因此在存入列表之前需要对信息进行清洗处理,具体如下:
A)对信息进行熟悉与摸底,确定信息中是否存在无效信息、错误信息等;
B)对于无效信息、错误信息等明显质量问题进行特征提取,主要特征为过多字段值为空或超出可解释范围,将此类特征信息进行删除,从而完成清洗。
步骤3,基于特殊族群的多维度特征,对评论信息和评论用户信息进行多特征降维处理,获得评论用户识别信息集。
从不同的维度分析特殊族群,即进行网络水军多维度分析,获取特殊族群不同维度的特征,其中这些维度可以是评论用户名、活跃度、契合度等等,这种特殊族群的特征分析,提高了识别方法的针对性。
如图4所示,获得评论用户识别信息集的过程,具体如下:
31)对特殊族群进行不同维度特征分析。
经过对特殊族群分析,可获得的特征包括用户名特征、关注比特征、活跃度特征、关注度特征和契合度特征。
用户名特征指的是传统的网络水军为了实现更加高效的创建大量与已注册用户名不同的账号,其所创建的用户名会有极高的文字重复性,而在其后添加的数字上随机,从而实现整体用户名的不可重复性。但是,随着特殊族群的演变,这一特征在新型特殊族群分析中已不再具有实际意义,因此这里一般不考虑。
关注比是评论用户粉丝数与评论用户关注数之比,特殊族群因其在事件评论中获益,其关注数极多而粉丝数极少,因此其关注比相对于普通用户较低。
活跃度是指在特定事件发生前一个月内评论用户在网络中的活跃频率,计算公式如下:
Figure GDA0003747454160000151
其中,DOA为评论用户活跃度,Nre为评论用户距事件发生时间为止一个月的原创微博数,Ntot为评论用户总的微博数,Tm为评论用户账号建立的月数。
特殊族群的主要任务是对事件转发、置顶、评论,而原创性内容极少且发帖数高,因此其活跃度相对于普通用户较低。
关注度是指评论用户对于事件的关注程度,主要体现在两个方面:一是在事件发生后对于事件的及时评论、置顶与回复,二是在短时间内对于同一事件的回复、评论置顶的次数。计算公式如下:
Figure GDA0003747454160000161
其中,Focus为评论用户关注度,Tevent、Tcom、Ncom分别为事件发生时间、评论用户首次评论事件时间以及评论用户对于事件评论置顶的次数。
普通用户对于事件会保持观望的态度,不会投入过多的关注度,而特殊族群的任务是增加特定事件热度,因此其对特定事件的关注度较高。
契合度是指评论用户的评论内容与事件内容的契合程度,具体计算过程为:
A1)对特定事件内容进行关键词提取,主要包括去除语气词、助词,提取能代列表事件主题的名词等,生成发帖文本矩阵R。
B1)对特定事件的评论内容(TCommentators_info列表中的)进行关键词提取,主要包括去除语气词、助词,提取能代列表评论主题的名词等,生成回帖文本矩阵P。
C1)通过计算R与P的余弦相似性得到契合度,具体公式如下:
Figure GDA0003747454160000162
其中,R为发帖文本矩阵,R中的元素为特定事件中提取的关键词,P为回帖文本矩阵,P中的元素为评论内容中提取的关键词,r为评论用户评论内容与事件内容的契合度,r的取值范围为[0,1],r越趋近于1,契合度越高,其契合度特征在于特殊族群为了实现短时间内的快速增热度,会忽视事件本事的内容属性直接评论,因此其契合度较低。
将特殊族群的特征分解到不同维度,然后就不同维度做出分析,得出特殊族群具有关注比较低、活跃度较低、关注度较高、契合度较低四大特征。
32)根据特殊族群特征,对评论信息和评论用户信息进行降维处理,计算评论用户不同维度的特征值。
评论信息和评论用户信息为实施例4中TCommentators_info列表中的信息,即列表中的经过清洗的有效字段。
33)将满足特征值预设要求的评论信息和相应的评论用户信息作为评论用户识别信息,构建评论用户识别信息集。
步骤4,将评论用户识别信息集输入三级并行集成分类器,获取评论用户中的特殊族群。
通过三级并行集成分类器对评论用户识别信息集中的信息进行分类,从而可以识别出评论用户中的特殊族群、普通用户和疑似特殊族群。
如图5所示,三级并行集成分类器由三个分类器组成,具体构建过程如下:
41)将评论用户识别信息集中的部分信息(一般为50%)进行人工标注,采用自助采样法从评论用户识别信息集中获得多个不同信息集。
自助采样法是指在样本集中随机取出n个样本作为样本集F1,再将n个样本放回初始样本集,使得该样本下次仍有可能被取出,这样重复操作N次,得到N个不同样本集F1、F2、…、FN
42)将信息集输入多个分类器,计算各分类器对不同信息集的判别准确率。
步骤42中采用的分类器为常见的分类器,包括C4.5决策树、神经网络、支持向量机、贝叶斯分类器、随机森林等,分别记录不同分类器在不同信息集的判别准确率。
43)根据分类器对不同信息集的判别准确率波动,计算各分类器的稳定性,具体公式为:
Figure GDA0003747454160000181
其中,α2为总体方差,X为分类器在不同信息集中的判别准确率,μ为判别准确率均值,N为信息集数量,以α2作为稳定性度量,α2越小稳定性越佳。
44)将稳定性作为主要关键字,判别准确率作为次要关键字,选择最优的三种分类器C1、C2、C3构建三级并行集成分类器。
采用上述的三级并行集成分类器,可有效提高特殊族群识别的准确度。
如图6所示,评论用户识别信息集分别输入各分类器进行分类,评论用户识别信息集分别输入各分类器进行分类,分类器C1分类结果为特殊族群A1与非特殊族群B1,分类器C2分类结果为特殊族群A2与非特殊族群B2,分类器C3分类结果为特殊族群A3与非特殊族群B3;分类结果采用并联结合策略,响应于所有分类器均判定评论用户为特殊族群,则该评论用户为特殊族群,响应于所有分类器均判定评论用户为普通用户,则该评论用户为普通用户,其余用户为疑似特殊族群。
上述方法抓取特定事件的评论信息及相应的评论用户信息,针对性的基于特殊族群的多维度特征,对评论信息和评论用户信息进行多特征降维处理,获得优化后的评论用户识别信息,最后通过分类处理获得特殊族群,实现了社交媒体传播中的特殊族群识别,为后续的社交媒体治理提供基础。
实施例11
一种社交媒体传播中的特殊族群识别系统,包括:
特定事件获取模块:从社交媒体的事件中获取符合预设规则的特定事件;
抓取模块:抓取特定事件半衰期内的信息,其中信息包括评论信息及相应的评论用户信息;
信息集获取模块:基于特殊族群的多维度特征,对评论信息和评论用户信息进行多特征降维处理,获得评论用户识别信息集;
识别模块:对评论用户识别信息集进行分类处理,获取评论用户中的特殊族群。
一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备社交媒体传播中的特殊族群识别方法。
一种计算设备,包括一个或多个处理器、存储器以及一个或多个程序,其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行社交媒体传播中的特殊族群识别方法的指令。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上仅为本发明的实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均包含在申请待批的本发明的权利要求范围之内。

Claims (6)

1.一种社交媒体传播中的特殊族群识别方法,其特征在于,包括:
从社交媒体的事件中获取符合预设规则的特定事件;其中,预设规则为:事件的异常度小于阈值并且事件带有预设性质标签,则该事件为特定事件;异常度的计算公式为:
Figure FDA0003747454150000011
W为异常度,Tn、Cn、Ln和Sn分别为事件的转发数、评论数、点赞数和搜索量;
抓取特定事件半衰期内的信息,其中信息包括评论信息及相应的评论用户信息;
基于特殊族群的多维度特征,对评论信息和评论用户信息进行多特征降维处理,获得评论用户识别信息集;
对评论用户识别信息集进行分类处理,获取评论用户中的特殊族群,过程为:
对特殊族群进行不同维度特征分析;
根据特殊族群特征,对评论信息和评论用户信息进行降维处理,计算评论用户不同维度的特征值,其中,特殊族群特征包括关注比特征、活跃度特征、关注度特征和契合度特征;
评论用户关注比为:
评论用户粉丝数与评论用户关注数之比;
评论用户活跃度计算公式为:
Figure FDA0003747454150000012
其中,DOA为评论用户活跃度,Nre为评论用户距事件发生时间为止一个月的原创微博数,Ntot为评论用户总的微博数,Tm为评论用户账号建立的月数;
评论用户关注度计算公式为:
Figure FDA0003747454150000021
其中,Focus为评论用户关注度,Tevent、Tcom、Ncom分别为事件发生时间、评论用户首次评论事件时间以及评论用户对于事件评论置顶的次数;
评论用户契合度计算公式为:
Figure FDA0003747454150000022
其中,r为评论用户评论内容与事件内容的契合度,R为发帖文本矩阵,R中的元素为特定事件中提取的关键词,P为回帖文本矩阵,P中的元素为评论内容中提取的关键词;
将满足特征值预设要求的评论信息和相应的评论用户信息作为评论用户识别信息,构建评论用户识别信息集。
2.根据权利要求1所述的一种社交媒体传播中的特殊族群识别方法,其特征在于,信息抓取的过程为:
抓取事件信息和关联的评论信息;
根据事件信息中的发起人ID,抓取发起人信息;
根据评论信息中的评论用户ID,抓取评论用户信息。
3.根据权利要求1所述的一种社交媒体传播中的特殊族群识别方法,其特征在于,将评论用户识别信息集输入三级并行集成分类器,获取评论用户中的特殊族群。
4.根据权利要求3所述的一种社交媒体传播中的特殊族群识别方法,其特征在于,三级并行集成分类器构建过程为:
采用自助采样法从评论用户识别信息集中获得多个不同信息集;
将信息集输入多个分类器,计算各分类器对不同信息集的判别准确率;
根据分类器对不同信息集的判别准确率波动,计算各分类器的稳定性;
将稳定性作为主要关键字,判别准确率作为次要关键字,选择最优的三种分类器构建三级并行集成分类器。
5.根据权利要求3所述的一种社交媒体传播中的特殊族群识别方法,其特征在于,响应于三级并行集成分类器中所有分类器均判定评论用户为特殊族群,则该评论用户为特殊族群。
6.一种存储一个或多个程序的计算机可读存储介质,其特征在于,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行根据权利要求1至5所述的方法中的任一方法。
CN201910952849.1A 2019-10-09 2019-10-09 一种社交媒体传播中的特殊族群识别方法 Active CN110727763B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910952849.1A CN110727763B (zh) 2019-10-09 2019-10-09 一种社交媒体传播中的特殊族群识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910952849.1A CN110727763B (zh) 2019-10-09 2019-10-09 一种社交媒体传播中的特殊族群识别方法

Publications (2)

Publication Number Publication Date
CN110727763A CN110727763A (zh) 2020-01-24
CN110727763B true CN110727763B (zh) 2022-10-14

Family

ID=69220881

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910952849.1A Active CN110727763B (zh) 2019-10-09 2019-10-09 一种社交媒体传播中的特殊族群识别方法

Country Status (1)

Country Link
CN (1) CN110727763B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103198161A (zh) * 2013-04-28 2013-07-10 中国科学院计算技术研究所 微博水军识别方法与设备
CN103745002A (zh) * 2014-01-24 2014-04-23 中国科学院信息工程研究所 一种基于行为特征与内容特征融合的水军识别方法及系统
CN105608194A (zh) * 2015-12-24 2016-05-25 成都陌云科技有限公司 社交媒体中用于主体特征分析的方法
CN106940732A (zh) * 2016-05-30 2017-07-11 国家计算机网络与信息安全管理中心 一种面向微博的疑似水军发现方法
CN107544961A (zh) * 2017-08-29 2018-01-05 中国地质大学(武汉) 一种社交媒体评论的情感分析方法、设备及其存储设备
CN107679069A (zh) * 2017-08-18 2018-02-09 国家计算机网络与信息安全管理中心 基于新闻数据及相关评论信息的一种特定群体发现方法
CN107895010A (zh) * 2017-11-13 2018-04-10 华东师范大学 一种基于网络点赞检测网络水军的方法
CN109213858A (zh) * 2017-06-19 2019-01-15 中国科学院信息工程研究所 一种网络水军的自动识别方法及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103198161A (zh) * 2013-04-28 2013-07-10 中国科学院计算技术研究所 微博水军识别方法与设备
CN103745002A (zh) * 2014-01-24 2014-04-23 中国科学院信息工程研究所 一种基于行为特征与内容特征融合的水军识别方法及系统
CN105608194A (zh) * 2015-12-24 2016-05-25 成都陌云科技有限公司 社交媒体中用于主体特征分析的方法
CN106940732A (zh) * 2016-05-30 2017-07-11 国家计算机网络与信息安全管理中心 一种面向微博的疑似水军发现方法
CN109213858A (zh) * 2017-06-19 2019-01-15 中国科学院信息工程研究所 一种网络水军的自动识别方法及系统
CN107679069A (zh) * 2017-08-18 2018-02-09 国家计算机网络与信息安全管理中心 基于新闻数据及相关评论信息的一种特定群体发现方法
CN107544961A (zh) * 2017-08-29 2018-01-05 中国地质大学(武汉) 一种社交媒体评论的情感分析方法、设备及其存储设备
CN107895010A (zh) * 2017-11-13 2018-04-10 华东师范大学 一种基于网络点赞检测网络水军的方法

Also Published As

Publication number Publication date
CN110727763A (zh) 2020-01-24

Similar Documents

Publication Publication Date Title
Guzman et al. A needle in a haystack: What do twitter users say about software?
US10546006B2 (en) Method and system for hybrid information query
Wang et al. Detecting rumor patterns in streaming social media
US9183293B2 (en) Systems and methods for scalable topic detection in social media
Sarabadani et al. Building automated vandalism detection tools for Wikidata
CN106557558B (zh) 一种数据分析方法及装置
Perdana et al. Combining likes-retweet analysis and naive bayes classifier within twitter for sentiment analysis
CN110990683B (zh) 一种基于地域与情感特征的微博谣言集成识别方法及装置
US20130006996A1 (en) Clustering E-Mails Using Collaborative Information
CN113051291A (zh) 工单信息的处理方法、装置、设备及存储介质
Bykau et al. Fine-grained controversy detection in Wikipedia
CN111611464A (zh) 一种基于大数据的舆情监测平台
Ting et al. Content matters: A study of hate groups detection based on social networks analysis and web mining
Sha et al. Matching user accounts across social networks based on users message
CN112132368A (zh) 信息处理方法以及装置、计算设备、存储介质
CN102508918A (zh) 一种搜索方法及系统
CN112581037B (zh) 一种多维度人才评价的背景调查方法及其系统
CN113505117A (zh) 基于数据指标的数据质量评估方法、装置、设备及介质
CN113205442A (zh) 基于区块链的电子政务数据反馈管理方法及装置
Edwards et al. Sampling labelled profile data for identity resolution
CN110727763B (zh) 一种社交媒体传播中的特殊族群识别方法
Du et al. Identifying high-impact opioid products and key sellers in dark net marketplaces: An interpretable text analytics approach
Molik et al. Combining natural language processing and metabarcoding to reveal pathogen-environment associations
Chicaiza et al. Contribution of deep-learning techniques toward fighting CoViD-19: a bibliometric analysis of scholarly production during 2020
Özyirmidokuz et al. Analyzing customer complaints: a web text mining application

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant