CN115062223A

CN115062223A - 社交大数据平台垃圾广告用户精准识别方法

Info

Publication number: CN115062223A
Application number: CN202210727250.XA
Authority: CN
Inventors: 汪志刚
Original assignee: Individual
Current assignee: Zhexing Society Information Technology Zhejiang Co ltd
Priority date: 2022-06-24
Filing date: 2022-06-24
Publication date: 2022-09-16
Anticipated expiration: 2042-06-24
Also published as: CN115062223B

Abstract

针对社交网络中的垃圾广告用户日趋猖獗，向正常用户发布大量的垃圾信息，严重影响人们的用户体验和社交平台的健康发展，本申请创造性的提出社交大数据平台垃圾广告用户精准识别方法，挖掘用户的内容特征和行为特征，提出基于用户的自核心网络结构特征进行垃圾用户识别的方法，提出若干新的网络结构特征用于社交网络垃圾广告用户识别问题，将强化多视图学习应用到社交网络垃圾广告用户识别问题中，在构建用户内容行为特征视图和自核心网络结构特征视图基础上，通过联合训练方法利用无标注数据提高模型的泛化能力,减少对标注数据集的依赖，并缓解单视图学习能力不足的问题，对社交网络中垃圾广告进行甄别与处理简洁快速，准确性高。

Description

社交大数据平台垃圾广告用户精准识别方法

技术领域

本申请涉及一种微信微博垃圾广告用户识别方法，特别涉及一种社交大数据平台垃圾广告用户精准识别方法，属于社交网络用户识别技术领域。

背景技术

社交网络如微博、微信、Facebook、Twitter、知乎等，已经成为人们共享和交流信息的重要平台。然而，社交媒体中蕴含大量商机，导致其中有挥之不去的利益链条：段子与心灵鸡汤泛滥、硬广告、软广告、代购、僵尸粉、刷粉、恶意@转发和评论等垃圾信息充斥在各个社交网络中，严重影响用户的使用体验和社交平台的健康发展。社交网络垃圾用户是指通过社交网络服务,发布垃圾信息的账户，这些垃圾广告用户通过社交网络搜索工具，针对某些人群如普通粉丝或者关注者推送垃圾信息,这些垃圾信息可能嵌入有害信息或包含导向其他产品网站的链接，旨在出售若干商品。对社交网络中垃圾广告用户及垃圾信息进行甄别与处理成为亟待解决的问题。

现有技术基于内容特征和基于行为特征的垃圾广告用户识别方法是针对用户以及用户产生的内容、用户的行为进行分析。然而随着垃圾广告用户的演变，会有意躲避若干典型的检测方法如行为与内容方面，这就导致其内容不再具有显著的特征，其表面的行为也越来越趋向于正常用户。社交网络中垃圾广告用户容易控制自己的行为与内容来躲避检测，但局部的整体网络结构是群体性的行为构成，个人不易伪造，基于网络结构特征识别垃圾广告用户是当前垃圾广告用户识别研究的一个热点。

综上，现有技术的社交大数据平台垃圾广告用户识别仍然存在若干问题和缺陷，本申请解决的问题和关键技术难点包括：

(1)当前社交网络如微博、微信已成为人们共享和交流信息的重要平台，但社交网络中的垃圾广告用户随其爆炸性增长也变得日趋猖獗，他们向正常用户发布大量的垃圾信息，严重影响人们的用户体验和社交平台的健康发展，亟待对社交网络中垃圾广告用户进行识别处理。现有技术缺少挖掘用户的内容特征和行为特征，无法构建用户的特征向量判断一个用户是否是垃圾广告用户。现有技术中人工标注是监督机器学习方法的一个难题,标注数据集的大小直接影响模型的泛化能力，仅使用用户网络结构特征进行识别的方法存在模型学习能力不足的问题,复杂的网络互动行为和多变的网络结构也给垃圾广告用户识别问题带来很大的挑战，现有技术无法准确高效的识别社交平台垃圾广告用户及其行为，造成垃圾信息充斥在各个社交网络中，严重影响用户的使用体验和社交平台的健康发展。

(2)现有技术社交网络中垃圾广告用户识别很大程度上依赖人工标注的数据集，社交网络发展迅速，规模巨大，人工标注数据集代价高、数量少，这制约着模型的泛化能力。社交网络垃圾广告用户识别中，存在大量的无标注的数据，现有技术无法从这些大量的无标注数据获取若干有价值的信息，缺少辅助人工标注的数据集从而获取更多、更深层次的知识提高模型的泛化能力，缺少基于用户的自核心网络结构特征进行垃圾用户识别的方法，无法构建用户的自核心网络，缺少对整个网络从社会学和信息传播动力学的角度考虑，缺少可靠有效的网络结构特征用于社交网络垃圾广告用户识别，无法突破人工标记的瓶颈，对人工标注数据的依赖严重，造成社交平台垃圾广告用户识别步骤繁琐，准确性差。

(3)现有技术的网络结构特征着重从拓扑结构分析，把社交网络当作一般的复杂网络分析，这就忽视了社交网络的特殊性，社交网络结点是社会中的人，也有各种各样的社会属性，现有技术缺少结合社会学和信息传播动力学对社交网络结构进行分析和特征提取，缺少将强化多视图学习应用到社交网络垃圾广告用户识别问题中，无法通过联合训练方法利用无标注数据提高模型的泛化能力,对标注数据集的依赖严重，存在单视图学习能力不足的问题。此外，基于网络结构特征进行识别，当用户的网络结构提供的信息不充足时，面临着结构特征单视图学习能力不足问题，无法有效阻止异常用户通过社交网络服务发布垃圾信息，这些垃圾信息可能嵌入有害信息或包含导向其他产品网站的链接，对社交网络中垃圾广告用户及垃圾信息进行高效甄别与处理成为亟待解决的问题。

(4)当前垃圾广告用户也在快速演化，他们通过掩饰自己的行为和内容，躲避检测。现有技术基于用户内容信息构造特征就容易被躲避,现在垃圾广告用户也大多有看上去很正常的简介信息,发社交文本内容也不全是垃圾信息，偶尔也会发若干普通用户发的东西，这种熟悉现在识别规则并且有意避免被检测的垃圾广告用户，就很难仅根据其发布的内容对其准确的判别。垃圾广告用户的这些躲避策略可能使现有技术得到的结果不准确。社交网络的复杂化和新用户的大量增加，新型的垃圾广告用户行为变得更加隐秘,会有意躲避若干典型的检测方法，导致其内容不再具有显著特征，其表面行为也越来越趋向于正常用户。社交网络中垃圾广告用户容易控制自己的行为与内容来躲避检测，基于内容结构特征进行识别的方法对新型垃圾广告用户不断下降，一方面，亟需探寻基于内容与行为之外新的鲁棒性更好的特征，更全面的分析社交网络中的垃圾广告用户，另一方面，面对单独使用行为与内容特征有时不能识别垃圾广告用户的情况,亟需利用用户更多的信息如结构特征进行联合学习。

发明内容

本申请提出一种基于强化学习的垃圾广告用户识别方法,有效解决社交网络中垃圾广告用户发布垃圾信息，传播虚假信息，扰乱网络环境的问题。构建与用户最密切相关的自核心网络，并从社会学和信息传播动力学角度分析网络结构，提出若干具有高区分度的新的结构特征，缓解人工标注瓶颈造成的泛化性能差和单视图学习时的能力不足问题,提出了基于不同视图的联合训练模型,此模型可以利用大量的无标记样本提高模型泛化能力，有效减少对有标注数据集的依赖，弥补只使用结构特征或内容特征识别模型学习能力不足的问题，进而更高效的对社交网络中的垃圾广告用户进行识别。本申请在理论和实践中提高垃圾广告用户识别的能力，实践高效精准的垃圾广告用户识别方法，为创造良好的网络环境发挥重要作用。

为实现以上技术效果，本申请所采用的技术方案如下：

社交大数据平台垃圾广告用户精准识别方法，一是首次提出利用用户自核心网络整体的网络结构特征进行社交网络中垃圾用户识别，通过对用户的自核心网络整体性的特征提取，间接表示用户的身份属性，从社区性和信息传播动力学的角度衡量用户的整个自核心网络，提取若干鲁棒性好、对用户代表性强的网络结构特征；二是首次提出把多视图学习的联合训练方法应用到社交网络垃圾广告用户识别问题中，构造两个用户视图的方法，即用户自身特征视图和用户局部网络结构特征视图,对这两个视图使用联合训练，利用大量未标注样本提高基分类器性能，减少对有标注样本的依赖，缓解只使用网络结构特征造成的学习能力不足问题，使用较少人工标记样本建立一个稳定性好、泛化能力强及识别效率高的垃圾广告用户识别模型；

步骤1：基于内容特征的垃圾广告用户识别，包括：内容URL率及近似度、话题标签率及原创率、关注数、粉丝数及用户权威度、简介特征，挖掘用户的内容特征，据此构建用户的内容特征向量；

步骤2：基于行为特征的垃圾广告用户识别，包括：转发率及评论率、发文时间规律及社交文本源特征，挖掘用户的行为特征，构建用户的行为特征向量判断一个用户是否是垃圾广告用户；

步骤3：基于自核心网络结构特征的垃圾广告用户网络结构特征，包括：优势簇聚集因子、平均聚集因子及平均路径长度、模块度及图密度、中心性特征，首先构建用户的自核心网络，然后对整个网络从社会学和信息传播动力学的角度考虑，提出若干新的网络结构特征用于社交网络垃圾广告用户识别；

步骤4：不同用户展现联合训练的垃圾广告用户识别，包括：基于不同用户展现的内容行为特征视图、未标注样本分布不平衡问题处理、改进的联合训练算法，在构建两个独立性强异质性好的用户内容行为特征视图和自核心网络结构特征视图基础上，通过联合训练方法利用无标注数据提高模型泛化能力,减少对标注数据集的依赖，缓解单视图学习能力不足问题。

进一步的，内容URL率及近似度：

(1)内容URL率定义为：

其中N(i)是含有的URL总数,N是用户的总的社交文本文本数，f(i)是第i条社交文本中含有的URL数；

(2)文本内容近似度：根据编辑距离计算一个用户发送社交文本的近似度，内容近似度特征TextSimRate定义为：

其中，N代表用户的社交文本总数，L(i,j)代表第i条和第j条有编辑距离算出的近似度。整个分子表示每两条社交文本都做一下近似度比较，然后把近似度累加求和，因为每个用户发布的社交文本数量不同，所以最后除以用户的社交文本总数N。

进一步的，话题标签率及原创率：

(1)话题标签率：计算用户带有话题标签的社交文本数占总社交文本数的比例，作为识别垃圾广告用户的一种特征，用户话题标签率TopicRate定义如下：

其中t(i)是用户社交文本集中第i条社交文本来含有的话题标签数,N为一个用户的总的社交文本数；

(2)原创率定义如下：

其中o(i)是用户社交文本集中第i条文本来自转发的量,来自转发则为1否则记为0，N为一个用户的总的社交文本数。

进一步的，定义用户权威度：

用户权威度Auty、关注数N(friend)、粉丝数N(follow)代表用户在社交网络中的属性；

转发率及评论率：

(1)用户提及率MRate定义如下：

其中m(i)是用户社交文本及中第i条社交文本所拥有的提及(@)量，N为一个用户的总的社交文本数；

(2)用户转发率RepostRate定义如下：

其中r(i)是用户社交文本集中第i条社交文本所拥有的被转发的量,N为一个用户的总的社交文本数。

进一步的，发文时间规律及社交文本源特征：

(1)发文时间规律特征：采用一定间隔时间内发送社交文本的数量占发布的总社交文本数的比例,作为发布社交文本时间模式特征，计算用户每天发布的社交文本中,一分钟内、两分钟内、五分钟内、十五分钟内、一小时内、二小时内、六小时内、二十四小时内、二十四小时以上发布的社交文本数量,然后累加每天的各个时间段内发布的社交文本数量，并分别除以用户的总社交文本数，得到一系列用户行为习惯的特征；

(2)社交文本源丰富度特征：采用一组词汇丰富度函数，量化文本中词汇的多样性，刻画用户社交文本发布来源的多样性，使用下面四种丰富度计算函数：

H＝V(1，T) 式9

其中T作为总的社交文本源数,V(T)表示一个用户发布的所有社交文本中出现的不同的社交文本来源数，v代表出现的社交文本源中最高频次，V(m,T)在一个用户所有社交文本源中出现m次。

进一步的，平均聚集因子及平均路径长度：

(1)平均聚集因子：平均聚集因子c，一个结点u的相邻结点是所有和u直接相连的结点的集合，如果u相邻结点中的每个结点都连接到u相邻结点的其他结点，u的相邻结点完全，并且其聚类因子为1，如果u的相邻结点没有结点互相连接，这个结点的聚类因子将为0，对于整个网络通过计算所有局部值c_i(i＝1,2,…,n)的平均值得到整个网络的全局平均聚集因子如下式所示：

(2)平均路径长度：衡量信息在网络中流动的效率，为所有结点对之间距离的平均值,描述网络中结点间的平均分离程度，即网络有多小，d(i,j)表示结点i和结点j之间的最短路径长度，对整个网络平均路径长度APL定义如下：

n表示结点数量。

进一步的，中心性特征：

(1)度中心性：基于社交文本,在有向图G＝(V，E)中，度中心性计算方法是：

其中|V|是图结点数，

和

分别是i结点的入度(声望)和出度(合群性)，max_jd_j是对一个结点的度中心性做归一化处理以便不同的网络之间中心性具有可比性，对一个用户的自核心网络中每个结点都计算度中心性然后加和平均，以量化整个网络的度中心性特征。

(2)特征向量中心性：结合无相图中的相邻结点的重要性来量化中心性，计算个人中心网络整个网络的特征向量中心性,具体计算个人中心网络中的每个结点的特征向量中心性然后累加求平均，特征向量中心性计算方法如下：

其中，图的邻接矩阵A表示相邻结点。设c_ev(i)表示结点i的特征向量中心性,它是关于其相邻结点的函数,λ是矩阵A对应的特征值；

(3)中间中心性：计算其它结点连接中通过结点v的最短路径的数目：

其中G(E,V)是一个网络，σ_st是从结点s到结点t最短路径的数目，σ_st(v_i)是最短路径中有通过结点v_i的最短路径数目，度量的是结点(v_i)在结点s到结点t路径中的作用,对其进行归一化处理,然后累加求平均得到量化整个网络的中间中心性特征BC(G)；

(4)接近中心性：与网络中其它结点之间有最小的平均最短路径。其计算方法如下：

其中，

是结点v_i到其他结点之间的最短路径的平均值，这个值越小，此结点中心性就越高与其他结点就越接近。

进一步的，基于不同用户展现的内容行为特征视图：根据用户发布的社交文本内容、历史行为、个人简介这些有用户发起或者直接创造的信息提取特征向量，并组合构成用户的自身特征视图，采用本申请基于行为与内容的垃圾广告用户特征提取方法；

以用户的关注列表和交互行为创建用户的自核心网络结构特征视图，步骤如下：

第一步，关注自核心网络构建：首先提取每个用户的关注列表，构成一个以用户为中心的星型网络，然后检查任意两两用户之间是否存在关注关系，如果存在则在他们之间添加一条边，不存在则不做任何处理，最终每个用户都有自己的一个关注自核心网络；

第二步，交互自核心网络构建：交互关系依据用户在发布社交文本和转发社交文本中与其他用户的互动进行提取。首先提取用户发布过的所有社交文本的主动提及和转发提及的所有的用户名集合，得到每个用户的以自己为中心的星型交互网络，然后检查任意两两用户之间是否存在过关注或者交互行为，存在则在他们之间添加一条边，不存在则不做任何处理，最终每个用户都有自己的一个交互自核心网络；

第三步，结构特征值的计算：度量用户自核心网络的结构特性和传播特性,使用复杂网络开源计算包NetWorkX计算基于自核心网络结构特征的垃圾广告用户网络全部结构特征。

进一步的，未标注样本分布不平衡问题处理：在数据分布具有明显不平衡的垃圾广告用户识别问题上，本申请提出既考虑有标注的数据分布又考虑大量的无标注的数据的分布信息的方法，具体包括：

第1步：对有标注的样本简单计算正负类别比例；

第2步：对无标注的样本使用简单K-Means聚类算法把无标注样本聚为两类,计算这两类的比例；

第3步：对第1步、第2步中得到的分布情况进行算术平均数计算，从而得到更可靠的数据分布信息；

本申请提出动态调整置信度和添加的比例来避免联合训练过程中快速持续恶化，具体做法是：设置最低置信度，每次迭代中选择前K个未标注样本添加到有标注中，只要基学习器性能没有持续多次下降,则正常迭代直到完成指定迭代次数或使用尽未标注样本；否则根据最低置信度过滤前K个，当候选不足时对K进行减半直到退化到K等于有标注样本中正负类最小的比例数。

进一步的，改进的联合训练算法：

步骤一：初始化每个视图上有标记的训练集；

步骤二：在各个视图上使用有标记的样本进行训练,测试基分类器的性能指标并记录下来,检查如果性能出现连续多次下降则改变加入样本的数量，并调整选择TopK的置信度；

步骤三：对选出的置信度高的无标记样本生成伪标记正负例。

步骤四：除去未标记样本集中已经选择的样本；

步骤五：扩充有标记的训练集进行下一次迭代；

步骤六：得到两个联合训练后的基分类器。

改进的联合训练算法,使用简单K-means聚类方法对未标注数据集正负例分布做一个预测然后和已知的有标注数据集中的正负比例做调和平均,既考虑少量有标记样本中正负例的分布比例，又考虑大量无标记数据集中的正反例比例，改进标准的联合训练中假设两个数据集分布一致从而限制分类模型泛化能力的问题，此外，通过动态调整联合训练迭代中的置信度和添加的比例来避免联合训练过程中快速持续恶化，提高联合训练的计算效率。

与现有技术相比，本申请的创新点和优势在于：

第一，本申请提出一种基于强化学习的垃圾广告用户识别方法,有效解决社交网络中垃圾广告用户发布垃圾信息，传播虚假信息，扰乱网络环境的问题。构建了与用户最密切相关的自核心网络，并从社会学和信息传播动力学角度分析网络结构，提出了若干具有高区分度的新的结构特征。为了缓解人工标注瓶颈造成的泛化性能差和单视图学习时的能力不足问题,将多视图强化学习应用到社交网络垃圾广告用户识别问题中,提出了基于不同视图的联合训练模型,此模型可以利用大量的无标记样本提高模型泛化能力，有效减少对有标注数据集的依赖，弥补只使用结构特征或内容特征识别模型学习能力不足的问题，进而更高效的对社交网络中的垃圾广告用户进行识别。本申请在理论和实践中提高垃圾广告用户识别的能力，实践高效精准的垃圾广告用户识别方法，为创造良好的网络环境发挥重要作用。

第二，针对社交网络中的垃圾广告用户日趋猖獗，向正常用户发布大量的垃圾信息，严重影响人们的用户体验和社交平台的健康发展，本申请创造性的提出社交大数据平台垃圾广告用户精准识别方法，挖掘用户的内容特征和行为特征，据此构建用户的特征向量判断一个用户是否是垃圾广告用户，提出基于用户的自核心网络结构特征进行垃圾用户识别的方法，首先构建用户的自核心网络，然后对整个网络从社会学和信息传播动力学的角度考虑，提出若干新的网络结构特征用于社交网络垃圾广告用户识别问题，将强化多视图学习应用到社交网络垃圾广告用户识别问题中，在构建两个独立性强、异质性好的用户内容行为特征视图和自核心网络结构特征视图基础上，通过联合训练方法利用无标注数据提高模型的泛化能力,有效减少对标注数据集的依赖，并缓解单视图学习能力不足的问题，对社交网络中垃圾广告用户及垃圾信息进行甄别与处理简洁快速，准确性高。

第三，本申请首次提出利用用户自核心网络整体的网络结构特征进行社交网络中垃圾用户识别，通过对用户的自核心网络整体性的特征提取，间接表示用户的身份属性。从社区性和信息传播动力学的角度衡量用户的整个自核心网络，首次提出若干鲁棒性好、对用户代表性强的网络结构特征。在真实的社交文本数据集上进行实验，提取了用户的关注自核心网络和交互自核心网络，分析并计算提出的用户网络结构特征向量，实验证明本申请提出的特征在数量少的情况下依然表现出很好的识别性能，准确高效的识别社交平台垃圾广告用户及其行为，有效阻止垃圾信息充斥在各个社交网络中，改善用户使用体验，促进社交平台的健康发展。

第四，针对有监督学习面临的人工标记瓶颈和只使用网络结构特征模型学习能力不足两个问题，本申请首次提出把多视图强化学习的联合训练方法应用到社交网络垃圾广告用户识别问题中，提出构造两个用户视图的方法，即用户自身特征视图和用户局部网络结构特征视图,对这两个视图使用联合训练，利用大量未标注样本显著的提高了基分类器的性能，有效减少了对有标注样本的依赖，有效缓解了只使用网络结构特征造成的学习能力不足问题。达到了使用较少人工标记样本建立一个稳定性好、泛化能力强及识别效率高的垃圾广告用户识别模型，基于强化学习的社交网络垃圾广告用户识别方法具有较好的应用价值，能够高效准确的对垃圾广告用户进行识别和处理，改善用户使用体验,净化社交网络环境。

附图说明

图1是基于行为与内容的垃圾广告用户特征提取方法流程图。

图2是主路式双密度计的大循环灌浆方法示意图。

图3是不同比例的有标注样本和无标注样本联合训练后的分类结果图。

图4是联合训练中每次迭代得到的基学习器总体分类效果的性能变化图。

具体实施方式

下面结合附图，对本申请提供的社交大数据平台垃圾广告用户精准识别方法的技术方案进行进一步的描述，使本领域的技术人员能够更好的理解本申请并能够予以实施。

社交网络如微博、微信，已经成为人们共享和交流信息的重要平台。社交网络中的垃圾广告用户随其爆炸性增长也变得日趋猖獗。他们向正常用户发布大量的垃圾信息，严重影响人们的用户体验和社交平台的健康发展。因此，对社交网络中垃圾广告用户进行识别已成为亟待解决的问题。

人工标注是有监督机器学习方法的一个难题,标注数据集的大小直接影响模型的泛化能力。使用网络结构特征进行垃圾广告用户识别具有稳定性好、不易伪造的特征但仅使用用户网络结构特征进行识别的方法存在模型学习能力不足的问题,此外，复杂的网络互动行为和多变的网络结构给垃圾广告用户识别问题带来很大的挑战。

针对以上问题,本申请提出：

1.研究用户的传播行为与内容特征。挖掘用户的内容特征和行为特征，据此构建用户的特征向量判断一个用户是否是垃圾广告用户。

2.研究用户的社交网络结构。提出基于用户的自核心网络结构特征进行垃圾用户识别的方法。该方法首先构建用户的自核心网络，然后对整个网络从社会学和信息传播动力学的角度考虑，提出若干新的网络结构特征用于社交网络垃圾广告用户识别问题。

3.将强化多视图学习应用到社交网络垃圾广告用户识别问题中，在构建两个独立性强、异质性好的用户内容行为特征视图和自核心网络结构特征视图基础上，提出通过联合训练方法利用无标注数据提高模型的泛化能力,有效减少对标注数据集的依赖，并缓解单视图学习能力不足的问题。

本申请基于强化学习进行垃圾广告用户识别，使用联合训练方法把内容和结构信息结合起来，有效克服单结构特征视图学习能力不足的问题，并且减少模型对人工标注数据的依赖。在真实的社交文本数据集上进行的实验验证了本申请提出方法的有效性和可行性。

一、基于内容特征的垃圾广告用户识别

通过自然语言处理的手段，识别垃圾广告用户产生的显著特征，包括：链接信息、文本内容近似度、话题标签、原创性、用户权威度、用户简介信息特征。

(一)内容URL率及近似度

(1)内容URL率

URL指向典型的包括指向电商广告、恶意软件下载、钓鱼网站，垃圾广告用户通过嵌入URL是其达到目的的一种典型方式。也有些用户为了骗取点击，使得其中的内容与链接的内容并不一致，而正常用户极少具有这种行为。URL率作为一个易于分析，易于获取的特征，社交文本为了节约字数、方便计算、监控和过滤，用户把社交文本链接都转为短链接，但若干用户可能有意或者无意并不这样做，所以除正则计算短链接，还匹配计算“www.”标签的URL。另外，每个符号在一条社交文本中只计算一次，即用户社交文本中如果出现几个URL也只计算一次，定义内容URL率为：

其中N(i)是含有的URL总数,N是用户的总的社交文本数，f(i)是第i条社交文本中含有的URL数。

(2)文本内容近似度

正常用户日常发的社交文本不会出现大量重复内容，而垃圾广告用户则不然，他们推送广告或其他垃圾信息，这种明确的目的性导致他们的社交文本经常会重复发送某些内容。另外，垃圾广告用户也会由机器人发布大量由内容模板产生的内容，这些内容重复率高,可作为识别垃圾广告用户的有效特征。本申请根据编辑距离计算一个用户发送社交文本的近似度，内容近似度特征TextSimRate定义为：

(二)话题标签率及原创率

(1)话题标签率

微博可以以#话题#作为一条社交文本的开始,标签代表了这条社交文本相关的主题、兴趣。话题标签还有助于对相关话题计算检索。垃圾广告用户会利用热门话题标签，他们惯用手段是将热门标签插入到与自己毫不相干的社交文本中,使其发布的信息能更大范围、更迅速的传播。计算用户带有话题标签的社交文本数占总社交文本数的比例，作为识别垃圾广告用户的一种特征，用户话题标签率TopicRate定义如下：

其中t(i)是用户社交文本集中第i条社交文本来含有的话题标签数,N为一个用户的总的社交文本数。

(2)原创率

正常用户发布社交文本可能有原创也有转发,而垃圾广告用户由于某种目的可能集团转发某些社交文本比较多，而原创的信息很小。基于这点，用户的原创社交文本的比例也可以作为一个有效的特征，原创率OriRate定义如下：

(三)关注数、粉丝数及用户权威度

垃圾广告用户通常会关注大量的正常用户，一方面为了有所谓的“回粉”从而增加自己的粉丝量，另一方面便于向关注的用户推送信息如私信、主动@提及。大多数用户对这种关注是不理会的，这就导致垃圾广告用户可能有异常的关注、粉丝数量。定义用户权威度：

用户权威度Auty、关注数N(friend)、粉丝数N(follow)代表用户在社交网络中的属性。

(四)简介特征

基于profile信息提取以下作为特征：用户名长度UNameLen、简介中是否含有URL链接IfProfileURL、用户年龄Age。

二、基于行为特征的垃圾广告用户识别

分析垃圾广告用户的典型行为，定义其特征，特征包括：社交文本发布行为特征、社交文本来源特征、社交文本转发率、社交文本评论率。

(一)转发率及评论率

(1)用户提及率

社交文本用户可以主动提及(即@XXX)的形式进行交流，而这种提及是不需要任何的限制条件任何人都可以主动提及任何的用户，而收到@的用户则会在个人消息中心收到一份提醒信息。因为一般很少有用户去关注它们，这是垃圾广告用户提高扩散信息效率的方式之一,所以为了提高效率以达到他们某种目的，垃圾广告用户经常会随机@别人。用户提及率MRate定义如下：

其中m(i)是用户社交文本及中第i条社交文本所拥有的提及(@)量，N为一个用户的总的社交文本数。

(2)用户转发率

社交文本是个社交交流的场所，普通用户一般都会有好友、粉丝等各种关系，这些关系中就会产生若干互动比如评论彼此的微博,转发彼此的微博，私信等形式进行互动达到社交的目的。然而，垃圾广告用户由于其产生的信息多位垃圾信息，普通用户一般是不会转发或评论他们的微博，所以研究显示评论率也可以作为甄别垃圾广告用户的一个有效特征。用户转发率RepostRate定义如下：

(二)发文时间规律及社交文本源特征

(1)发文时间规律特征

社交文本不仅是信息获取的平台，也是用户制作内容、发布、分享、传播的平台，用户可以在任意时间、地点创建内容分享生活、发表观点。用户创建内容并进行传播、交流是社交平台的内容。用户创建内容除了内容本身属性外，这也是一种用户行为例如，何时创建、创建什么、创建动机、创建偏好等。其中创建时间反应的就是用户行为习惯。通过分析时间序列，对用户的行为进行建模用来识别垃圾广告用户，已有若干研究证明了其可行性、有效性。若干垃圾广告用户发送社交文本出现一分钟内发布几十条社交文本、固定时间间隔发布、定时发布等，这些现象就明显有机器人发布的嫌疑。

本申请采用一定间隔时间内发送社交文本的数量占发布的总社交文本数的比例,作为发布社交文本时间模式特征，计算用户每天发布的社交文本中,一分钟内、两分钟内、五分钟内、十五分钟内、一小时内、二小时内、六小时内、二十四小时内、二十四小时以上发布的社交文本数量,然后累加每天的各个时间段内发布的社交文本数量，并分别除以用户的总社交文本数，得到一系列用户行为习惯的特征。

(2)社交文本源丰富度特征

正常用户的发布来源相对固定，用户一般有固定的发布来源如来自手机客户端、网页登陆，正常用户来源相对固定一是因为正常用户一般有相对固定的行为习惯，手机也不可能很频繁的更换，所以用户社交文本的发布来源相对固定。但垃圾广告用户一种是机器发布其社交文本源特征非常单一,一种是来自各接口的分享转发，其社交文本源种类非常多。

采用一组词汇丰富度函数，量化文本中词汇的多样性，刻画用户社交文本发布来源的多样性，使用下面四种丰富度计算函数：

H＝V(1，T) 式9

三、基于自核心网络结构特征的垃圾广告用户网络结构特征

在社交网络中基于结构特征进行垃圾广告用户识别面临着、两个问题，一个是如何构建用户的网络，另一个是针对网络结构提取什么样的结构特征。对社交网络特征的提取考虑其社会性和信息传播性而不是仅限于对网络结构计算特征表示,结合社会学和传播动力学进行特征提取更能反应一个网络信息传播的特征，间接反映用户的属性。

社交网络中用户的网络拓扑结构是用户在社交活动中的历史痕迹，典型特征是用户无法掩盖，网络结构具有丰富信息，体现用户的信息传播能力和影响力，也反应用户处在一个什么样的局部网络环境中。现有技术是把用户的网络结构看作一个图，从计算的角度关注图结构特征，并且以用户为中心对其进行特征抽取，以用户为中心进行特征提取其显著优点是与用户密切相关，但也存在问题，比如提取的特征稳定性差，用户的网络结构通常会变化，这就造成模型稳定性差。用户的社交网络，既有部分社会关系在网络中的抽象，又有社交关系在网络中新的发展，天然有社会学和传播学的特性，本申请基于用户自核心网络整体性，从社区结构性，传播动力学的角度，针对社交网络结构提出新的结构特征，通过对用户最密切的相邻网络即自核心网络整体上的分析提取描述这个网络的特征，间接对用户进行网络结构层面上的表达。

(一)优势簇聚集因子

只考虑结点度排名靠前的结点连接程度，反映社交网络的拓扑层次性,描述核心层、核心结点的连接情况，描述网络整体的情况，一个图G＝(V,E)代表一个复杂网络，V＞k代表度大于k的结点的集合,N＞k表示度大于k的结点数，E＞k表示这些结点之间的边数，优势簇聚集因子RCC定义如下：

RCC清楚反应度大于k的结点之间的联系的紧密程度，在本申请设置每个用户个人中心网络的平均度为k。

(二)平均聚集因子及平均路径长度

(1)平均聚集因子

平均聚集因子c，一个结点u的相邻结点是所有和u直接相连的结点的集合，如果u相邻结点中的每个结点都连接到u相邻结点的其他结点，u的相邻结点完全，并且其聚类因子为1，如果u的相邻结点没有结点互相连接，这个结点的聚类因子将为0，对于整个网络通过计算所有局部值c_i(i＝1,2,…,n)的平均值得到整个网络的全局平均聚集因子如下式所示：

(2)平均路径长度

衡量信息在网络中流动的效率，为所有结点对之间距离的平均值,描述网络中结点间的平均分离程度，即网络有多小，d(i,j)表示结点i和结点j之间的最短路径长度，对整个网络平均路径长度APL定义如下：

n表示结点数量。

(三)模块度及图密度

(1)模块度

模块度表示所有被划分到同一个社区的边所占的比例，再减除掉完全随机情况时被划分到同一个社区的边所占的比例，一个网络模块度的最大值依赖于同类结点的数量和度,当所有的结点都连接在同一个类上时模块度最大，模块度越大，社区结构越明显，模块度计算方法如下：

其中一个图G被一个成员变量随机划分为两个社区,如果结点v属于1社区,m_v＝1，如果结点u属于结点2，m_u＝-1，E是图G中边的总数，D为图密度，网络的邻接矩阵表示为A，A_vu＝0表示v和u之间没有边，A_vu＝1表示有边。

(2)图密度

一个网络或图稀疏还是稠密，反应其中结点间联系的紧密程度，图密度定义如下：

其中，E是图G中边的总数，V是结点的总数。在无向图中最大的边的数量是1/2(|v|(|V|-1)),这时图密度达到最大为1(此时是完全图)。

(四)中心性特征

网络中心性定义了网络中一个结点的重要性，本申请采用以下四种度量方案，以便定量分析网络的交互模式，志趣相投的用户。

(1)度中心性

基于社交文本,在有向图G＝(V，E)中，度中心性计算方法是：

其中|V|是图结点数，

和

(2)特征向量中心性

结合无相图中的相邻结点(有向图中的输入相邻结点)的重要性来量化中心性，计算个人中心网络整个网络的特征向量中心性,具体计算个人中心网络中的每个结点的特征向量中心性然后累加求平均，特征向量中心性计算方法如下：

其中，图的邻接矩阵A表示相邻结点。设c_ev(i)表示结点i的特征向量中心性,它是关于其相邻结点的函数,λ是矩阵A对应的特征值。

(3)中间中心性

度量考虑结点在连接其它结点时的重要性，其计算方法是计算其它结点连接中通过结点v的最短路径的数目：

其中G(E,V)是一个网络，σ_st是从结点s到结点t最短路径的数目，σ_st(v_i)是最短路径中有通过结点v_i的最短路径数目，度量的是结点(v_i)在结点s到结点t路径中的作用,对其进行归一化处理,然后累加求平均得到量化整个网络的中间中心性特征BC(G)。

(4)接近中心性

与网络中其它结点之间有最小的平均最短路径。其计算方法如下：

其中，

四、不同用户展现联合训练的垃圾广告用户识别

单视图学习如仅利用网络结构特征进行垃圾广告用户识别容易受到用户信息不够，导致模型学习能力不足的问题，另外，社交网络数据量巨大，有监督学习严重依赖人工标注的样本集的大小，这限制了模型的及时更新和泛化性能,可以利用大量无标注数据缓解这点。本申请将社交网络垃圾广告用户识别问题中的这两个突出问题进行分析,提出使用多视图的协调训练方法进行垃圾广告用户识别。

(一)基于不同用户展现的内容行为特征视图

根据用户在社交网络中创建的内容和行为提取特征例如发过的社交文本、历史行为计算、以及提供的个人简介信息，用户的行为与内容是由用户创建或者发起和用户的关系最密切,但也正是由用户自己创建和发起，随着垃圾广告用户规避检测的意识越来越强，他们首先选择的规避手段就是经常改变自己发布的内容和混淆自己典型的行为轨迹。

本申请根据用户发布的社交文本内容、历史行为、个人简介这些有用户发起或者直接创造的信息提取特征向量，并组合构成用户的自身特征视图，采用本申请基于行为与内容的垃圾广告用户特征提取方法，整个流程如图1所示。

第二步，交互自核心网络构建：交互关系依据用户在发布社交文本和转发社交文本中与其他用户的互动进行提取。首先提取用户发布过的所有社交文本的主动提及(即“@”)和转发提及(即“//@”)的所有的用户名集合(在社交文本中用户名和用户ID一样都是唯一的)，得到每个用户的以自己为中心的星型交互网络，然后检查任意两两用户之间是否存在过关注或者交互行为，存在则在他们之间添加一条边，不存在则不做任何处理，最终每个用户都有自己的一个交互自核心网络；

(二)未标注样本分布不平衡问题处理

不平衡的数据集是指已知有标注的数据集的正负样例的数量比例失衡，而大量未标注的数据集正负样例分布未知。在模型假设不符合真实分布或未标注数据的分布和有标注数据的分布有较大差异时进行强化学习有可能反而导致效果下降。可能限制分类模型的泛化能力。考虑到，人工标注有额外先验知识的加入，对任务数据的真实分布的估计是有一定可信性,然而除非有足够的先验知识能对任务数据分布做出准确判断,否则有标注的数据获取代价高,一般来说相对于大量无标记样本其量太小,基于有标注的模型估计的分布未必符合数据真实的分布。另一方面，大量的未标注的样本也是提供了若干数据真实的分布信息。基于这种思考，在数据分布具有明显不平衡的垃圾广告用户识别问题上，本申请提出既考虑有标注的数据分布又考虑大量的无标注的数据的分布信息的方法，具体包括：

第1步：对有标注的样本简单计算正负类别比例；

第3步：对第1步、第2步中得到的分布情况进行算术平均数计算，从而得到更可靠的数据分布信息。

社交网络垃圾广告用户识别问题中，处理的是不平衡数据集,其中存在正反样例比例失衡问题。以上处理可以缓解标准的联合训练算法中假设这两个数据集中正反比例一致,导致的限制模型泛化能力的问题。

另一个问题,如果初始基学习器性能很差，随着迭代的进行往往出现置信度最高的若干可信度已经很低,这时依然选择固定数目的样本添加到有标注集合中进行迭代，就容易造成随着训练不断进行，自动标记的噪声不断积累，造成不但使不能提高性能反而负作用越来越大。

(三)改进的联合训练算法

为了缓解社交网络垃圾广告用户识别问题中人工标注样本瓶颈和仅使用网络结构特征进行垃圾广告用户识别时，模型学习能力不足导致分类效果差这两个问题，改进联合训练算法，即把基于用户自身内容行为的特征视图和本申请提出的自核心网络结构特征视图结合起来，解决仅使用网络结构特征学习能力不足问题。把少量的有人工标注的样本和大量无标注样本结合起来，以缓解人工标注瓶颈，减少对有标注数据集的依赖，提高模型的泛化性能。

考虑样本分布不平衡问题和迭代训练中可能出现的噪声积累造成训练失败的问题,本申请对经典的联合训练算法进行相应的改进,改进的联合训练算法如图2所示。算法描述为：

步骤一：图2的1至5行，初始化每个视图上有标记的训练集；

步骤二：图2的7至13行，在各个视图上使用有标记的样本进行训练,测试基分类器的性能指标并记录下来,检查如果性能出现连续多次下降则改变加入样本的数量，并调整选择TopK的置信度；

步骤三：图2的10至11行，对选出的置信度高的无标记样本生成伪标记正负例。

步骤四：图2的第12行，除去未标记样本集中已经选择的样本；

步骤五：图2的17至19行，扩充有标记的训练集进行下一次迭代；

步骤六：得到两个联合训练后的基分类器。

改进的联合训练算法,使用简单K-means聚类方法对未标注数据集正负例分布做一个预测然后和已知的有标注数据集中的正负比例做调和平均,既考虑少量有标记样本中正负例的分布比例，又考虑大量无标记数据集中的正反例比例，改进标准的联合训练中假设两个数据集分布一致从而限制分类模型泛化能力的问题。此外，通过动态调整联合训练迭代中的置信度和添加的比例来避免联合训练过程中快速持续恶化，提高联合训练的计算效率。

五、实验结果与分析

为了仿真进行社交网络中垃圾广告用户的强化学习，对原数据集进行以下处理：首先，为了使得实验结果具有纵向的可比性，采用预留法，其次原训练集则分为两个部分，随机选用其中的若干作为有标注的样本，其余的作为无标注的样本，具体的划分比根据实验目的的不同进行不同的划分。

实验目的：验证大量的无标记样本能否显著提高模型的泛化性能，单使用结构特征学习能力不足问题，补充文本内容行为特征能否缓解这种不足。

实验参数设置：(1)L20+U1000表示有标记的样本数是20个，总的无标记的样本数为1000个，其它表示类同。(2)测试数据集同本申请所有实验采用的数据集大小600个样例。(3)逻辑回归分类器使用Weka软件实现，并采用其默认参数设置。

为了验证垃圾广告用户识别问题中基于双视图的联合训练方法,用户自身特征视图和自核心网络结构特征视图分类效果进行了多组实验。联合训练算法在不同比例的D_l和D_u上的分类结果，其中分类模型的评估指标使用F1值，横坐标联合训练中迭代的次数,第0次代表初始有标注的样本训练得到的模型在测试集上的测试效果，后面依次是联合训练迭代中训练的模型在测试数据集上的测试效果。

图3显示了不同比例的有标注样本和无标注样本使用联合训练后的分类结果，其中分类器使用逻辑回归，第一行表示参与实验的有标注样本数和无标注的样本数，最后一列是使用所有的有标注样本进行训练所能达到的最好效果。从本次实验结果可以得到以下结论：

1)有标记样本数据集的大小，会对模型的泛化性能产生很大的影响，当有标记样本较少时，对整个任务其提供的信息不充分，导致模型学习能力不足在测试数据集上分类效果差。如当有标记样本为20个时，内容特征和结构特征在测试数据集上的F1值分别为0.848和0.510，而当有标记样本数是100个时，内容和结构特征在测试数据集上的F1值分别为0.861和0.780。

2)使用联合训练方法，可以利用无标注样本显著提高分类模型的泛化性能，尤其在复杂任务中有标注样本提供信息严重不足时，效果更明显。在.L20+U1000、L20+U4000、L100+U1000、L100+U4000实验中仅有少量有标注样本时，训练后的模型分类效果较差尤其是结构特征视图学习能力严重不足，随着无标注样本的逐渐加入到训练模型中两个视图的性能都在逐渐得到提高。迭代最后最好的结果同使用大量有标注样本学习的结果已经非常接近，使用L20+U4000进行强化学习self__view的性能提高了10.2％达到0.950(而使用4843个有标记样本的学习的结果是0.958)，EgoNet_view的分类性能提高了43.7％达到0.882(而使用4843个有标记样本的学习的结果是0.914)，证明本申请提出的使用强化学习对垃圾用户进行识别的方法具有很好的效果。

3)无标注数据集的大小同样会影响强化学习中的效果。从本实验可以看出，无标注样本的数量以及迭代的次数都会影响训练过程中的性能，当任务不够复杂时，总体上看，只要无标注的样本子集足够的多，能提供充分的信息，基分类器收敛的结果，所能达到的最高的性能几乎是一致的，但当任务越复杂分类模型需要的信息就越多，此时无标注数据样本的多少影响就会变得非常显著。

4)结合使用内容特征视图能弥补结构特征单视图学习能力不足的问题。图4显示了联合训练中每次迭代得到的基学习器使用Stacking集成后在测试数据集上的总体分类效果的性能变化。可以看出随着两个基学习器性能逐渐提高，Stacking集成后整体的识别性能也在震荡中上升，甚至在最高点逼进了使用大量有标注样本进行训练模型时的性能。

总结以上的分析,本次实验使用联合训练方法利用少量有标注样本和大量无标注样本，使得结构特征和内容特征识别垃圾广告用户的F1值分别提高了10.2％和43.7％,符合前面的分析，验证了本申请提出的方法的有效性。

Claims

1.社交大数据平台垃圾广告用户精准识别方法，其特征在于，一是首次提出利用用户自核心网络整体的网络结构特征进行社交网络中垃圾用户识别，通过对用户的自核心网络整体性的特征提取，间接表示用户的身份属性，从社区性和信息传播动力学的角度衡量用户的整个自核心网络，提取若干鲁棒性好、对用户代表性强的网络结构特征；二是首次提出把多视图学习的联合训练方法应用到社交网络垃圾广告用户识别问题中，构造两个用户视图的方法，即用户自身特征视图和用户局部网络结构特征视图,对这两个视图使用联合训练，利用大量未标注样本提高基分类器性能，减少对有标注样本的依赖，缓解只使用网络结构特征造成的学习能力不足问题，使用较少人工标记样本建立一个稳定性好、泛化能力强及识别效率高的垃圾广告用户识别模型；

2.根据权利要求1所述社交大数据平台垃圾广告用户精准识别方法，其特征在于，内容URL率及近似度：

(1)内容URL率定义为：

其中，N代表用户的社交文本总数，L(i,j)代表第i条和第j条有编辑距离算出的近似度，整个分子表示每两条社交文本都做近似度比较，然后把近似度累加求和，最后除以用户的社交文本总数N。

3.根据权利要求1所述社交大数据平台垃圾广告用户精准识别方法，其特征在于，话题标签率及原创率：

(2)原创率定义如下：

4.根据权利要求1所述社交大数据平台垃圾广告用户精准识别方法，其特征在于，定义用户权威度：

转发率及评论率：

(1)用户提及率MRate定义如下：

(2)用户转发率RepostRate定义如下：

5.根据权利要求1所述社交大数据平台垃圾广告用户精准识别方法，其特征在于，发文时间规律及社交文本源特征：

H＝V(1,T) 式9

6.根据权利要求1所述社交大数据平台垃圾广告用户精准识别方法，其特征在于，平均聚集因子及平均路径长度：

n表示结点数量。

7.根据权利要求1所述社交大数据平台垃圾广告用户精准识别方法，其特征在于，中心性特征：

其中|V|是图结点数，

和

分别是i结点的入度(声望)和出度(合群性)，max_jd_j是对一个结点的度中心性做归一化处理以便不同的网络之间中心性具有可比性，对一个用户的自核心网络中每个结点都计算度中心性然后加和平均，以量化整个网络的度中心性特征；

其中，图的邻接矩阵A表示相邻结点，设c_ev(i)表示结点i的特征向量中心性,它是关于其相邻结点的函数,λ是矩阵A对应的特征值；

(4)接近中心性：与网络中其它结点之间有最小的平均最短路径，计算方法如下：

其中，

8.根据权利要求1所述社交大数据平台垃圾广告用户精准识别方法，其特征在于，基于不同用户展现的内容行为特征视图：根据用户发布的社交文本内容、历史行为、个人简介这些有用户发起或者直接创造的信息提取特征向量，并组合构成用户的自身特征视图，采用本申请基于行为与内容的垃圾广告用户特征提取方法；

第二步，交互自核心网络构建：交互关系依据用户在发布社交文本和转发社交文本中与其他用户的互动进行提取，首先提取用户发布过的所有社交文本的主动提及和转发提及的所有的用户名集合，得到每个用户的以自己为中心的星型交互网络，然后检查任意两两用户之间是否存在过关注或者交互行为，存在则在他们之间添加一条边，不存在则不做任何处理，最终每个用户都有自己的一个交互自核心网络；

9.根据权利要求1所述社交大数据平台垃圾广告用户精准识别方法，其特征在于，未标注样本分布不平衡问题处理：在数据分布具有明显不平衡的垃圾广告用户识别问题上，本申请提出既考虑有标注的数据分布又考虑大量的无标注的数据的分布信息的方法，具体包括：

第1步：对有标注的样本简单计算正负类别比例；

10.根据权利要求1所述社交大数据平台垃圾广告用户精准识别方法，其特征在于，改进的联合训练算法：

步骤一：初始化每个视图上有标记的训练集；

步骤三：对选出的置信度高的无标记样本生成伪标记正负例；

步骤四：除去未标记样本集中已经选择的样本；

步骤五：扩充有标记的训练集进行下一次迭代；

步骤六：得到两个联合训练后的基分类器；