CN111917601A

CN111917601A - 虚假流量识别方法及用户品牌价值的量化计算方法

Info

Publication number: CN111917601A
Application number: CN202010604793.3A
Authority: CN
Inventors: 吕琳媛; 周方; 马大路
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-06-29
Filing date: 2020-06-29
Publication date: 2020-11-10
Anticipated expiration: 2040-06-29
Also published as: CN111917601B

Abstract

本发明公开了一种虚假流量识别方法及用户品牌价值的量化计算方法，涉及互联网技术领域。其中虚假流量识别方法定义了社交网络中用户的影响力和易被影响特性，通过爬取整个社交网络中一时间段内用户间的交互数据，根据该时间段内用户间的交互数据计算用户的影响力和易被影响特性，据此标记出虚假用户，识别出虚假流量，整个过程耗时短，且能精准有效的识别虚假用户。在虚假流量识别的基础上，能够计算出社交网络中用户的品牌价值，便于广告主精准的寻找具有高品牌价值的宣传用户。

Description

虚假流量识别方法及用户品牌价值的量化计算方法

技术领域

本发明涉及互联网技术领域，具体而言，涉及一种虚假流量识别方法及用户品牌价值的量化计算方法。

背景技术

随着大数据时代的来临，海量的社交网络数据迎面而来。但是在这海量的数据中，有很多数据都是虚假的，它们是由网络机器人产生的，据报道，在2019年，网络上的流量有超过40％都是由网络机器人产生，虚假流量的存在有着其相关的产业，但是其存在已经给整个社交网络带来了很大的困扰，虚假流量的存在会扰乱正常的广告投放，若能够有效的识别网络中的虚假流量，则可以正确的衡量社交网络中用户的品牌价值，传统的寻找网络中高品牌价值用户的方法主要依赖用户之间的交互强度，以微博应用为例，某个用户发了一条微博，该微博的转发，点赞，以及评论量都非常多，传统的寻找高品牌价值用户的方法则认为该用户具有较高的品牌价值。但仅依赖于这些宏观的数据往往是不够精确的，因为在与该用户交互的许多用户中，可能存在一些虚假流量，而虚假流量对于广告主的产品是不会有购买兴趣的，对广告主来说，其面临的一个问题是在寻找宣传者的过程中，如何有效的识别那些数据夸大的宣传者，若不能有效识别，则可能会以高价格投放广告，但是其所带来的宣传收益达不到预期。因此，基于社交网络结构和用户之间行为数据的方法识别网络中的虚假流量并寻找高品牌价值用户具有其现实研究需求。

目前，虚假流量的识别方法一般是将用户交互数据作为输入，对多个机器学习模型进行训练，首先对多个机器学习模型进行训练，当训练数据过大时，非常的耗时，若训练数据过小，则会导致不能有效识别虚假用户，其次，对于用户数据中的用户信息部分，随着刷流量产业的兴起，越来越多高级的虚假用户(网络机器人)都会通过修改用户信息伪装成正常用户，若将用户信息作为识别虚假用户的输入，可能会导致识别准确率降低。

发明内容

本发明在于提供一种虚假流量识别方法及用户品牌价值的量化计算方法，其能够缓解上述问题。

为了缓解上述的问题，本发明采取的技术方案如下：

第一方面，本发明提供了一种虚假流量识别方法，所述方法包括：

S1、爬取整个社交网络中一时间段内用户间的交互数据；

S2、根据该时间段内用户间的交互数据构建社交网络G(V,E)，其中V代表网络中用户的集合，E代表网络中有向边的集合；

S3、根据社交网络G(V,E)中用户间的交互数据，计算社交网络G(V,E)连边之间的权重；

S4、根据社交网络G(V,E)连边之间的权重，计算用户对所有邻居节点的影响能力，以及用户被所有邻居节点影响的程度；

S5、定义用户的影响力和易被影响特性，其中，影响力指的是社交网络G(V,E)中某用户影响其它用户的能力，易被影响特性指的是社交网络G(V,E)中某用户易被其它用户影响的程度，根据社交网络G(V,E)的结构、用户对所有邻居节点的影响能力以及用户被所有邻居节点影响的程度，迭代计算出社交网络G(V,E)中所有用户的影响力和易被影响特性；

S6、确定第一筛选阈值和第二筛选阈值，将易被影响特性高于第一筛选阈值且影响力低于第二筛选阈值的用户标记为虚假用户，将虚假用户的交互流量识别为虚假流量。

本技术方案的技术效果是：社交网络中，虚假用户的存在是为了收益，而其收益的来源正是来源于与用户之间的交互，但是其行为模式与正常用户之间存在着差异，因此本发明首创性的提出了用户的影响力以及易被影响特性，并使用用户间的交互数据作为输入，还原了用户的影响力和易被影响特性，以此来识别虚假流量，整个过程耗时短，且能精准有效的识别虚假用户。

进一步地，所述步骤S1中，用户间的交互数据包括转发、点赞以及评论三种类型的交互数据。

本技术方案的技术效果是：该三种类型涵盖了目前常见社交网络中的具有代表性的主要交互类型。

进一步地，所述步骤S2中，有向边的构造过程如下：设社交网络G(V,E)中具有用户j和用户i，则当存在从用户j到用户i的交互行为时，则有向边构建为(i,j)。

进一步地，所述步骤S3中，社交网络G(V,E)连边之间的权重的计算方法如下：

对于有向边(i,j)，设用户i发布了m条信息，从用户j到用户i的交互行为有n次，则权重

进一步地，所述步骤S4中，

用户i对所有邻居节点的影响能力F_i的计算公式为：

用户i被所有邻居节点影响的程度G_i的计算公式为：

其中，N_out(i)表示所有交互用户i的用户集合，N_in(i)表示用户i交互的所有用户的集合，j表示用户i的邻居节点所对应的用户。

本技术方案的技术效果是：充分考虑了目标用户对其相邻用户的影响，以及相邻用户对该目标用户的影响。

进一步地，所述步骤S5中，用户的影响力和易被影响特性的迭代计算方法如下：

选择非零常数m₀作为用户i的影响力I_i和易被影响特性S_i的初始值；

将非零常数m₀代入公式，

以及

开始进行迭代计算，当

且

时，停止迭代，输出得到所有用户的影响力和易被影响特性，其中，

表示第n+1次迭代计算后用户i的影响力，

表示第n+1次迭代计算后，用户i的易被影响特性，1≤i≤N,N是社交网络G(V,E)中的用户总数。

本技术方案的技术效果是：当算法迭代趋于稳定，前后两次结果相差非常小时，才结束迭代过程，能很好的降低数值误差对结果造成的影响。

进一步地，所述步骤S6中，第一筛选阈值和第二筛选阈值的确定方法如下：

a1、根据所有用户的影响力计算社交网络G(V,E)中的平均影响力

以及影响力的标准差σ_I；

a2、根据所有用户的易被影响特性计算社交网络G(V,E)中的平均易被影响特性

以及易被影响特性的标准差σ_s；

a3、将

作为所述第一筛选阈值，将

作为所述第二筛选阈值。

本技术方案的技术效果是：所设置的第一筛选阈值能用于去除掉网络中的虚假用户，但并不是所有高易被影响特性的用户都是虚假用户，故同时设置了第二筛选阈值来进一步筛选虚假用户，进而达到有效筛选虚假用户的效果。

第二方面，本发明提供了一种根据上述虚假流量识别方法得到的用户品牌价值的量化计算方法，该方法采用了公式(7)计算用户的量化品牌价值：

其中，P_i表示用户i的量化品牌价值，k′_i·I_i表示用户i的直接影响力，

表示用户i的间接影响力，k′_i表示筛选后得到的非虚假用户数量，N_i表示筛选后得到的非虚假用户集合，j表示N_i中除用户i的其它某用户。

本技术方案的技术效果是：能为广告主精准的寻找具有高品牌价值的宣传用户。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举本发明实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是本发明实施例虚假流量识别方法的流程图；

图2是本发明实施例社交网络G(V,E)的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

请参照图1和图2，本实施例在微博社交网络中对本发明所述虚假流量识别方法进行验证，具体如下：

S1、爬取整个微博社交网络中[t₀,t₁]时间段内用户间的交互数据，其中包括转发、点赞以及评论这三种类型的交互数据。

S2、根据[t₀,t₁]时间段内用户间的交互数据构建社交网络G(V,E)，其中V代表社交网络中用户的集合，E代表社交网络中有向边的集合。

在本实施例中，社交网络G(V,E)中有向边的构造过程如下：设社交网络G(V,E)中具有用户j和用户i，则用户j至少交互(转发/点赞/评论)了一次用户i时，即从用户j到用户i之间至少存在一次交互行为时，则构建有向边(i,j)。

S3、根据社交网络G(V,E)中用户间的交互数据，计算社交网络G(V,E)连边之间的权重。

在本实施例中，对于有向边(i,j)，其权重

的构造过程如下：

在[t₀,t₁]时间段内，设用户i发布了m条信息，从用户j到用户i的交互(转发/点赞/评论)行为有n次，则权重

S4、根据社交网络G(V,E)连边之间的权重，计算用户对所有邻居节点的影响能力，以及用户被所有邻居节点影响的程度。

在本实施例中，对于用户i，根据权重

计算用户i对所有邻居节点的影响能力F_i，如公式(1)所示：

根据权重

计算用户i被所有邻居节点影响的程度G_i，如公式(2)所示：

S5、定义用户的影响力和易被影响特性，其中，影响力指的是社交网络G(V,E)中某用户影响其它用户的能力，易被影响特性指的是社交网络G(V,E)中某用户易被其它用户影响的程度，根据社交网络G(V,E)的结构、用户对所有邻居节点的影响能力以及用户被所有邻居节点影响的程度，迭代计算出社交网络G(V,E)中所有用户的影响力和易被影响特性。

在本实施例中，用户的影响力和易被影响特性的迭代计算方法如下：

选择非零常数m₀作为用户i的影响力I_i和易被影响特性S_i的初始值，即

将非零常数m₀代入公式，

以及

开始进行迭代计算，当

且

表示第n+1次迭代计算后用户i的影响力，

在本实施例中，由于F_i、G_i、N_out(i)和N_in(i)均已求出，因此能够通过迭代公式(3)计算出社交网络G(V,E)中所有用户的影响力，通过迭代公式(4)计算出社交网络G(V,E)中所有用户的易被影响特性。

在本实施例中，公式(3)和(4)的迭代收敛性已经得到了证明，该证明指的是理论收敛证明，当满足条件：

时，公式(3)和(4)收敛，其中m₀指的是影响力和易被影响特性的初始值，N指的是网络中用户的数量。

在本实施例中，公式(3)和(4)的推导过程如下：

对于属于集合V的用户i，其影响其它用户的概率(即权重)为：

即用户i的影响力I_i乘以集合V中的其它某用户j的易被影响特性，定义公式(5)：

将公式(5)中的两个式子移项后得到公式(6)：

再将公式(6)中的两个式子相互迭代后，即可得到公式(3)和(4)。

S6、确定第一筛选阈值和第二筛选阈值，将易被影响特性高于第一筛选阈值且影响力低于第二筛选阈值的用户标记为虚假用户，将虚假用户的交互流量识别为虚假流量，即虚假用户所进行的转发、点赞和评论均属于虚假流量。

在微博社交网络中，存在大量的虚假流量，虚假流量指的是由网络机器人参与而产生的流量，如何识别这些虚假流量是一个重要的问题，虚假用户(网络机器人)具有如下特征，虚假用户总是在网络中转发、点赞、评论各种微博，评论内容都是固定格式且不易被他人理解，同时，它们的微博并不易被别的人群所转发、点赞或评论。对应我们技术方案中的用户影响力和易被影响特性，可知虚假用户具有高易被影响特性和低影响力。故我们需要对这些虚假用户进行标记筛选识别。

在本实施例中，第一筛选阈值和第二筛选阈值的确定方法如下：

a1、根据所有用户的影响力计算社交网络G(V,E)中所有用户的平均影响力

以及影响力的标准差σ_I；

a2、根据所有用户的易被影响特性计算社交网络G(V,E)中所有用户的平均易被影响特性

以及易被影响特性的标准差σ_s；

a3、将

作为所述第一筛选阈值，将

作为所述第二筛选阈值。

实施例2

本实施例提供了一种根据实施例1的虚假流量识别方法得到的用户品牌价值的量化计算方法，该方法采用了公式(7)计算用户的量化品牌价值：

表示用户i的间接影响力，k′_i表示筛选后得到的非虚假用户数量，即实施例1中的社交网络中，所识别出的虚假用户以外的其它用户数量，N_i表示筛选后得到的非虚假用户集合，j表示N_i中除用户i的其它某用户。

设k_i表示在时间范围[t₀,t₁]内对用户i所发布的内容进行转发、点赞、评论的所有用户的数量，但是在所有转发、点赞、评论用户i的用户中，可能存在虚假流量的行为，故我们使用了实施例1中对用户的筛选结果，筛选出虚假用户后，社交网络G(V,E)中剩下用户数量为k′_i，将它们的集合记为N_i，类似地，计算集合N_i中用户的影响力I_j与筛选过后的转发该用户的所有用户数量k′_j的乘积，并对集合N_i中的所有用户求和，即可得

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。