CN112365356B - 社交网络中基于多视图融合的用户审计方法 - Google Patents
社交网络中基于多视图融合的用户审计方法 Download PDFInfo
- Publication number
- CN112365356B CN112365356B CN202011165375.5A CN202011165375A CN112365356B CN 112365356 B CN112365356 B CN 112365356B CN 202011165375 A CN202011165375 A CN 202011165375A CN 112365356 B CN112365356 B CN 112365356B
- Authority
- CN
- China
- Prior art keywords
- user
- fusion
- community
- coefficient
- view
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 37
- 238000000034 method Methods 0.000 title claims abstract description 28
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 14
- 230000006399 behavior Effects 0.000 claims abstract description 9
- 239000011159 matrix material Substances 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 abstract description 5
- 238000012512 characterization method Methods 0.000 abstract description 2
- 230000007547 defect Effects 0.000 abstract description 2
- 230000010485 coping Effects 0.000 abstract 1
- 230000006870 function Effects 0.000 description 8
- 238000001514 detection method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000006855 networking Effects 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 101100261000 Caenorhabditis elegans top-3 gene Proteins 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000003997 social interaction Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Business, Economics & Management (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种社交网络中基于多视图融合的用户审计方法。该方法重点包括特征提取和多视图融合两个阶段。首先,设计综合多视图信息的用户表征策略,分别构建用户行为、社交关系、文章内容三个视图对用户进行表征。针对现有方法未充分考虑用户粉丝及用户在社交网络中所处环境的不足,引入粉丝比率、粉丝平均双向连接率、基于社区的双向连接率、基于社区的集群系数等新特征。然后,构建基于线性加权函数的多视图融合决策模型,将来自各视图的分类结果进行线性加权融合,并通过最小化近似误差求得最优融合系数进而得到最终分类结果。与现有技术相比,本发明能够有效检测垃圾用户,有更高精确率和F1值,且在应对不平衡数据时表现出更强的稳定性。
Description
技术领域
本发明涉及社交网络安全领域,具体地说是一种社交网络中基于多视图融合的用户审计方法。
背景技术
在社交网络中,包括社交网站的社交网络系统能够使其用户(诸如个人或组织)与其交互,且用户通过其彼此交互。随着用户的输入,社交网络系统可以创建和储存与用户相关的用户配置文件。用户配置文件可包括用户的个人统计信息、通信渠道信息以及个人行为信息等。随着用户的使用,社交网络系统还可以创建和储存该用户与社交网络上的其他用户之间的关系记录,并且为促进两个用户或多个用户之间的社交提供服务(例如点赞、评论、话题、发私信等)。
微博等社交网络平台一方面给人们的生活带来便利,同时也给垃圾用户提供了良好的发展环境。社交网络上垃圾用户利用微博发布大量垃圾信息或请求,甚至涉及恶意URL链接、虚假广告、网络钓鱼、欺诈、色情等内容,给用户的财产安全带来巨大的隐患。此外,无用信息占据网络资源,消耗了大量的网络负载。垃圾用户检测作为社交网络环境维护中的基本任务有助于消除微博垃圾用户所带来的负面影响,维护社交网络的安全,改善用户的使用体验。
微博垃圾用户检测可以转化为分类问题,即基于分类的垃圾用户识别。其中,需要提取用户的各方面特征,特征提取的完整及合理程度直接影响识别的结果。当前,对于在线社交网络上的用户进行表征应考虑以下几个方面:基于用户配置文件相关的账号基本信息(包括账号注册日期、个人简介等)、基于用户使用行为相关的信息、基于用户间社交关系的信息、基于用户发布微博内容的信息。
集成学习(ensemble learning)是一种分类器融合方法,有时也被称为多分类器系统(multi-classifier system),其一般结构为:先产生一组“个体学习器”,再用某种策略将它们结合起来。集成学习在分类任务的很多领域已经得到了广泛的应用,并且取得了很好的效果,但目前基于集成学习思想的微博垃圾用户检测方法还不是很成熟。
发明内容
本发明的目的就是提供一种社交网络中基于多视图融合的用户审计方法,通过该方法对社交网络中的用户进行审计,以检测出非正常的垃圾用户,该方法具有识别准确率高、适用性强的优点。
本发明是这样实现的:本发明的方法中,利用了一种综合多视图信息的用户表征策略和基于线性加权函数的融合决策模型。该方法重点包括两个阶段:第一阶段:特征提取;第二阶段:多视图融合决策。该方法包含以下内容:
1.一种综合多视图信息的用户表征策略
在本发明的第一阶段中,提供了一种完整且有效的特征构造方法,以对社交网络(例如微博)上的用户进行表征,即图1中的“特征提取”。本发明构建了一种基于多视图的用户表征策略,用于对用户的特点进行更加全面的描述。具体是:分别构建用户行为、社交关系、微博内容三个视图对用户进行表征。本阶段针对现有方法未充分考虑用户粉丝及用户在社交网络中所处环境的不足,引入粉丝比率、粉丝平均双向连接率、基于社区的双向连接率、基于社区的集群系数等新特征。
2.多视图融合决策,用于垃圾用户识别
在本发明的第二阶段中,在集成学习思想的基础上提出了一种基于线性加权函数的多视图融合决策模型。该部分采用第一部分的输出作为各基分类器的输入,利用来自不同视图的数据分别训练出一个基分类器,然后将来自各视图的分类结果进行线性加权融合,通过最小化近似误差求得最优融合系数进而得到最终的分类结果。其中融合模型的学习方法见公式(14-17)。上述决策方法在结合不同视图信息的基础上保证了融合策略能够随着垃圾用户所用策略的变化而及时更新。
附图说明
图1是本发明的整体框架图。
图2是本发明中社交网络示意图。
图3是本发明中特征“内容标签相似度”的计算流程图。
具体实施方式
本发明实施例中以微博用户为例进行说明,通过本发明的方法对微博用户进行审计,以检测出非正常的垃圾用户。
本发明中,将微博垃圾用户检测问题看作二分类问题,设P为微博中与用户有关的信息全集,P=PS∪PN,其中,PS为微博中垃圾用户的信息集合,PN为微博中良性用户的信息集合。设p为微博中的一条用户信息,目标函数为φ(p):p→{0,1}(p∈P),其中,为二分函数,微博垃圾用户检测的过程就是检测信息p是否属于PS。
如图1所示,本发明所提供的社交网络中基于多视图融合的用户审计方法包含三个阶段。
1.第一阶段:特征提取
该部分的流程图见图1中的“特征提取”。通过研究现有文献的观点,结合近几年垃圾用户特征的变化,选取了13个特征,其中包括6个新定义的特征(粉丝比率、粉丝平均双向连接率、基于社区的双向连接率、基于社区的集群系数、阳光信用、内容标签相似度)和7个在现有方法中广泛使用并证明有效的特征(发博间隔标准差、转发比率、双向连接率、集群系数、平均标签数、平均URL数、单一提及率)。特征集由来自三个视图(分别为用户行为视图、社交关系视图和微博内容视图(在其他非微博的社交网络中,“微博内容视图”可写作“文章内容视图”))的四类特征构成:即基于用户行为的特征、基于微博内容的特征、基于社交关系的交互特征和社区特征。
1.1基于用户行为的特征
1.1.1发博间隔标准差(MTISD):
在其他非微博的社交网络中,该特征可以称为“发文间隔标准差”。下面相同,凡是涉及到微博的地方,对于非微博的社交网络,可以对相应“微博”进行替换。
1.1.2转发比率(RR):
衡量用户已发布的微博中转发微博所占比例的特征RR可由公式(3)表示,其中R(u)表示观测时间内用户转发微博的数量。
1.1.3阳光信用(SC):
微博将用户“阳光信用”等级由低到高分为五个级别,本发明中将“阳光信用”等级由低到高映射为1-5的整数值。
1.2基于社交关系的特征
将社交网络中用户之间的关注和被关注关系构造成有向图G={V,E},顶点集V对应用户集U,vi∈V对应社交用户ui∈U,边集E对应用户间的关系,eij∈E表示ui是uj的粉丝。
1.2.1粉丝比率(FR):
FR可由公式(4)表示,其中UF代表用户u的粉丝集合,UL代表用户u关注的人的集合。
1.2.2双向连接率(BR):
BR可由公式(5)表示:
1.2.3粉丝平均双向连接率(FABR):
FABR由公式(6)表示,其中uv代表用户u的粉丝集合中的一个用户。
其中,R(uv)表示用户uv在观测时间内转发微博的数量。
1.2.4集群系数(CC):
在社交网络图中一个顶点vi的邻域Ni被定义为Ni={vj:eij∈E∪eji∈E}。假定ki是用户在社交网络图中所对应的顶点vi的出入度之和,则用户的集群系数CC可由公式(7)表示:
在有向图中(边是带箭头的图),一个顶点的出度是从其出发的有向边的条数,入度是箭头指向其的有向边的条数。
1.2.5基于社区的双向连接率(CBBR):
CBBR可由公式(8)表示,其中m表示用户所在社区的个数,如图2所示,图2中示出了两个社区C1和C2,用户D既在社区C1中,也在社区C2中。|Ci|表示第i个社区中的成员总数,BR(Ci(j))表示用户所在的第i个社区的第j个成员的BR值。
1.2.6基于社区的集群系数(CBCC):
CBCC可由公式(9)表示,其中m为用户所在社区的个数,CCi为第i个社区的集群系数。
1.3基于微博内容的特征
1.3.1平均标签数(AT):
AT可由公式(10)表示,其中N(u)表示在观测时间段内用户发布微博的总数,T(u)表示所发微博中使用标签的总数。
在微博中,标签一般是通过“#”来标识。
1.3.2内容标签相似度(CTS):
CTS可由公式(11)表示,其中MTi用于衡量用户发布的第i条微博的内容与这条微博中所添加标签的相似程度,结合图3,CTS的具体计算方法如下:
Step1:提取每条微博文本中的主题标签t1,t2,...,tn,n为标签数。
Step2:利用典型的概率主题模型LDA计算每条微博文本中排名前三(Top3)的3个主题词w1、w2、w3及其对应的概率值p1、p2、p3。
Step4:计算内容标签相似度
1.3.3平均URL数(AURL):
AURL由公式(12)表示,其中U(u)表示用户在观测时间内发布的微博中使用URL链接的总数。
1.3.4单一提及率(OM):
OM可由如公式(13)表示,其中M(u)表示在观测时间内所发微博中使用提及符(一般由@标识)的总数,O(u)表示只被提及过一次的用户的数量。OM值越接近1证明该用户为垃圾用户的嫌疑越大。
在其他非微博的社交网络中,该基于微博内容的特征可写作“基于文章内容的特征”。
本发明综合多视图信息可以提取用户的上述13个特征,这13个特征的数据汇总到一起,构成一个数据集X,X为一个矩阵,矩阵的行数即为用户数量,矩阵的列数为13,分别对应上述13个特征信息。因此,数据集X中的一行即对应一个用户的相关信息。
2.第二阶段:多视图融合决策
该步骤的流程图见图1中的“多视图融合决策模型”。
本发明所提供的多视图融合决策模型,即获取一个基于融合的分类策略,融合过程形式化为一个线性加权求和函数,参数为融合系数向量θ=[θ1,θ2,θ3],其中θv表示从第v个视图得到的决策与最终决策的相关性。将数据集X分成X1和X2两部分,采用交叉验证的方法获取数据集X在第v个视图下的全部用户的预测值Y(v)(v=1,2,3),其真实值Y0已知。对应每一个视图,根据数据集X可训练得到一个基分类器。本发明根据数据集X可获得三个基分类器。将来自不同视图的结果进行线性加权求和得到最终的分类结果用于近似真实值Y0。通过最小化Yp与真实值Y0的误差来求得最优融合系数向量θ。θ的具体求解过程如下:
则θ的求解问题转化为
argθmin L(θ) (16)
于是式(16)可转化为
用正则方程法对式(17)中的θ求解,得到最优融合系数向量θ=(PTP+λI)-1PTY0,其中I为恒等矩阵,λ是维持PTP+λI可逆的折中参数。
3.第三阶段:利用第二阶段得到的基于融合的分类策略,对用户进行审计。审计前首先要提取用户的上述13个特征。
Claims (1)
1.一种社交网络中基于多视图融合的用户审计方法,其特征是,包括三个阶段:
第一阶段:特征提取;从用户的用户行为、社交关系和文章内容这三个视图中提取13个特征,所提取的13个特征分别为:发文间隔标准差、转发比率、阳光信用、粉丝比率、双向连接率、粉丝平均双向连接率、集群系数、基于社区的双向连接率、基于社区的集群系数、平均标签数、内容标签相似度、平均URL数和单一提及率;其中,基于用户行为的特征包括发文间隔标准差、转发比率和阳光信用,基于社交关系的特征包括粉丝比率、双向连接率、粉丝平均双向连接率、集群系数、基于社区的双向连接率和基于社区的集群系数,基于文章内容的特征包括平均标签数、内容标签相似度、平均URL数和单一提及率;所提取的13个特征构成一个数据集X,数据集X是一个行数为n、列数为13的矩阵;行数n对应用户数,列数13对应13个特征;
第二阶段:多视图融合;根据数据集X针对每一视图分别训练一个基分类器,利用线性加权函数将来自每一视图的分类结果进行线性加权融合,并通过最小化近似误差求得最优融合系数,进而得到最终的分类结果;
第三阶段:利用最终的分类结果对用户进行审计,审计前首先要提取用户的13个特征;
粉丝比率由如下公式计算:
其中,UF代表用户u的粉丝集合,UL代表用户u关注的人的集合;
粉丝平均双向连接率由如下公式计算:
其中,UF代表用户u的粉丝集合,uv代表用户u的粉丝集合中的一个用户,R(uv)表示用户uv在观测时间内转发文章的数量;
基于社区的双向连接率由如下公式计算:
其中,m为用户所在社区的个数,|Ci|表示第i个社区中的用户总数,BR(Ci(j))表示用户所在的第i个社区的第j个成员的双向连接率;
基于社区的集群系数由如下公式计算:
其中,m为用户所在社区的个数,CCi为第i个社区的集群系数;
阳光信用由整数1-5来表示,整数1-5分别对应阳光信用等级由低到高的五个级别;
内容标签相似度的计算过程如下:
a、提取每篇文章中的主题标签t1,t2,...,tn,n为标签数;
b、利用概率主题模型LDA计算每篇文章中排名前三的3个主题词w1、w2、w3及其对应的概率值p1、p2、p3;
d、依据如下公式计算内容标签相似度
其中,N(u)表示在观测时间段内用户发布文章的总数;
最优融合系数θ的计算方法如下:
b、定义基于融合的函数,以获取最终的分类结果:
d、最优融合系数θ的求解转化为
argθminL(θ)
e、用正则方程法对步骤d中的θ求解,得到最优融合系数θ=(PTP+λI)-1PTY0。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011165375.5A CN112365356B (zh) | 2020-10-27 | 2020-10-27 | 社交网络中基于多视图融合的用户审计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011165375.5A CN112365356B (zh) | 2020-10-27 | 2020-10-27 | 社交网络中基于多视图融合的用户审计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112365356A CN112365356A (zh) | 2021-02-12 |
CN112365356B true CN112365356B (zh) | 2022-04-12 |
Family
ID=74512262
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011165375.5A Active CN112365356B (zh) | 2020-10-27 | 2020-10-27 | 社交网络中基于多视图融合的用户审计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112365356B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115062223B (zh) * | 2022-06-24 | 2024-02-13 | 摘星社信息科技(浙江)股份有限公司 | 社交大数据平台垃圾广告用户精准识别方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106294590A (zh) * | 2016-07-29 | 2017-01-04 | 重庆邮电大学 | 一种基于半监督学习的社交网络垃圾用户过滤方法 |
CN109949176A (zh) * | 2019-03-28 | 2019-06-28 | 南京邮电大学 | 一种基于图嵌入的社交网络中异常用户检测方法 |
-
2020
- 2020-10-27 CN CN202011165375.5A patent/CN112365356B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106294590A (zh) * | 2016-07-29 | 2017-01-04 | 重庆邮电大学 | 一种基于半监督学习的社交网络垃圾用户过滤方法 |
CN109949176A (zh) * | 2019-03-28 | 2019-06-28 | 南京邮电大学 | 一种基于图嵌入的社交网络中异常用户检测方法 |
Non-Patent Citations (2)
Title |
---|
Spammer detection and fake user identification on social net- works;MASOOD F等;《IEEE Access》;20190522;全文 * |
针对行为特征的社交网络异常用户检测方法;王 鹏;《计算机应用》;20171220;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112365356A (zh) | 2021-02-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhuang et al. | An intelligent anti-phishing strategy model for phishing website detection | |
CN112053221A (zh) | 一种基于知识图谱的互联网金融团伙欺诈行为检测方法 | |
WO2021088499A1 (zh) | 一种基于动态网络表征的发票虚开识别方法及系统 | |
CN102004764A (zh) | 互联网不良信息检测方法以及系统 | |
CN109785064A (zh) | 一种基于多源信息融合的移动电子商务推荐方法和系统 | |
CN103488689B (zh) | 基于聚类的邮件分类方法和系统 | |
CN109889436A (zh) | 一种社交网络中垃圾邮件发送者的发现方法 | |
CN112053222A (zh) | 一种基于知识图谱的互联网金融团伙欺诈行为检测方法 | |
Ramalingaiah et al. | Twitter bot detection using supervised machine learning | |
CN112528163A (zh) | 一种基于图卷积网络的社交平台用户职业预测方法 | |
Durmuşoğlu | Using Google trends data to assess public understanding on the environmental risks | |
CN112365356B (zh) | 社交网络中基于多视图融合的用户审计方法 | |
Chen et al. | DEA models for identifying critical performance measures | |
Bahri et al. | A sketch-based naive bayes algorithms for evolving data streams | |
CN115187066A (zh) | 风险识别方法、装置、电子设备及存储介质 | |
Mbunge et al. | Deep learning and machine learning techniques for analyzing travelers' online reviews: a review | |
US9165053B2 (en) | Multi-source contextual information item grouping for document analysis | |
Lin et al. | Ensemble learning for threat classification in network intrusion detection on a security monitoring system for renewable energy | |
CN114937298A (zh) | 一种基于特征解耦的微表情识别方法 | |
Zhong et al. | Predicting Traffic Casualties Using Support Vector Machines with Heuristic Algorithms: A Study Based on Collision Data of Urban Roads | |
Younis | Opinion mining on web-based communities using optimised clustering algorithms | |
Chiraratanasopha et al. | Detecting fraud job recruitment using features reflecting from real-world knowledge of fraud | |
CN114860903A (zh) | 一种面向网络安全领域的事件抽取、分类和融合方法 | |
CN114493224A (zh) | 企业可持续发展程度评价方法和装置 | |
CN114529762A (zh) | 基于ds证据理论融合的社交网络异常用户检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |