CN111917601A - 虚假流量识别方法及用户品牌价值的量化计算方法 - Google Patents
虚假流量识别方法及用户品牌价值的量化计算方法 Download PDFInfo
- Publication number
- CN111917601A CN111917601A CN202010604793.3A CN202010604793A CN111917601A CN 111917601 A CN111917601 A CN 111917601A CN 202010604793 A CN202010604793 A CN 202010604793A CN 111917601 A CN111917601 A CN 111917601A
- Authority
- CN
- China
- Prior art keywords
- user
- users
- influence
- social network
- false
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/06—Generation of reports
- H04L43/062—Generation of reports related to network traffic
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/04—Processing captured monitoring data, e.g. for logfile generation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种虚假流量识别方法及用户品牌价值的量化计算方法,涉及互联网技术领域。其中虚假流量识别方法定义了社交网络中用户的影响力和易被影响特性,通过爬取整个社交网络中一时间段内用户间的交互数据,根据该时间段内用户间的交互数据计算用户的影响力和易被影响特性,据此标记出虚假用户,识别出虚假流量,整个过程耗时短,且能精准有效的识别虚假用户。在虚假流量识别的基础上,能够计算出社交网络中用户的品牌价值,便于广告主精准的寻找具有高品牌价值的宣传用户。
Description
技术领域
本发明涉及互联网技术领域,具体而言,涉及一种虚假流量识别方法及用户品牌价值的量化计算方法。
背景技术
随着大数据时代的来临,海量的社交网络数据迎面而来。但是在这海量的数据中,有很多数据都是虚假的,它们是由网络机器人产生的,据报道,在2019年,网络上的流量有超过40%都是由网络机器人产生,虚假流量的存在有着其相关的产业,但是其存在已经给整个社交网络带来了很大的困扰,虚假流量的存在会扰乱正常的广告投放,若能够有效的识别网络中的虚假流量,则可以正确的衡量社交网络中用户的品牌价值,传统的寻找网络中高品牌价值用户的方法主要依赖用户之间的交互强度,以微博应用为例,某个用户发了一条微博,该微博的转发,点赞,以及评论量都非常多,传统的寻找高品牌价值用户的方法则认为该用户具有较高的品牌价值。但仅依赖于这些宏观的数据往往是不够精确的,因为在与该用户交互的许多用户中,可能存在一些虚假流量,而虚假流量对于广告主的产品是不会有购买兴趣的,对广告主来说,其面临的一个问题是在寻找宣传者的过程中,如何有效的识别那些数据夸大的宣传者,若不能有效识别,则可能会以高价格投放广告,但是其所带来的宣传收益达不到预期。因此,基于社交网络结构和用户之间行为数据的方法识别网络中的虚假流量并寻找高品牌价值用户具有其现实研究需求。
目前,虚假流量的识别方法一般是将用户交互数据作为输入,对多个机器学习模型进行训练,首先对多个机器学习模型进行训练,当训练数据过大时,非常的耗时,若训练数据过小,则会导致不能有效识别虚假用户,其次,对于用户数据中的用户信息部分,随着刷流量产业的兴起,越来越多高级的虚假用户(网络机器人)都会通过修改用户信息伪装成正常用户,若将用户信息作为识别虚假用户的输入,可能会导致识别准确率降低。
发明内容
本发明在于提供一种虚假流量识别方法及用户品牌价值的量化计算方法,其能够缓解上述问题。
为了缓解上述的问题,本发明采取的技术方案如下:
第一方面,本发明提供了一种虚假流量识别方法,所述方法包括:
S1、爬取整个社交网络中一时间段内用户间的交互数据;
S2、根据该时间段内用户间的交互数据构建社交网络G(V,E),其中V代表网络中用户的集合,E代表网络中有向边的集合;
S3、根据社交网络G(V,E)中用户间的交互数据,计算社交网络G(V,E)连边之间的权重;
S4、根据社交网络G(V,E)连边之间的权重,计算用户对所有邻居节点的影响能力,以及用户被所有邻居节点影响的程度;
S5、定义用户的影响力和易被影响特性,其中,影响力指的是社交网络G(V,E)中某用户影响其它用户的能力,易被影响特性指的是社交网络G(V,E)中某用户易被其它用户影响的程度,根据社交网络G(V,E)的结构、用户对所有邻居节点的影响能力以及用户被所有邻居节点影响的程度,迭代计算出社交网络G(V,E)中所有用户的影响力和易被影响特性;
S6、确定第一筛选阈值和第二筛选阈值,将易被影响特性高于第一筛选阈值且影响力低于第二筛选阈值的用户标记为虚假用户,将虚假用户的交互流量识别为虚假流量。
本技术方案的技术效果是:社交网络中,虚假用户的存在是为了收益,而其收益的来源正是来源于与用户之间的交互,但是其行为模式与正常用户之间存在着差异,因此本发明首创性的提出了用户的影响力以及易被影响特性,并使用用户间的交互数据作为输入,还原了用户的影响力和易被影响特性,以此来识别虚假流量,整个过程耗时短,且能精准有效的识别虚假用户。
进一步地,所述步骤S1中,用户间的交互数据包括转发、点赞以及评论三种类型的交互数据。
本技术方案的技术效果是:该三种类型涵盖了目前常见社交网络中的具有代表性的主要交互类型。
进一步地,所述步骤S2中,有向边的构造过程如下:设社交网络G(V,E)中具有用户j和用户i,则当存在从用户j到用户i的交互行为时,则有向边构建为(i,j)。
进一步地,所述步骤S3中,社交网络G(V,E)连边之间的权重的计算方法如下:
进一步地,所述步骤S4中,
用户i对所有邻居节点的影响能力Fi的计算公式为:
用户i被所有邻居节点影响的程度Gi的计算公式为:
其中,Nout(i)表示所有交互用户i的用户集合,Nin(i)表示用户i交互的所有用户的集合,j表示用户i的邻居节点所对应的用户。
本技术方案的技术效果是:充分考虑了目标用户对其相邻用户的影响,以及相邻用户对该目标用户的影响。
进一步地,所述步骤S5中,用户的影响力和易被影响特性的迭代计算方法如下:
选择非零常数m0作为用户i的影响力Ii和易被影响特性Si的初始值;
将非零常数m0代入公式,
以及
开始进行迭代计算,当且时,停止迭代,输出得到所有用户的影响力和易被影响特性,其中,表示第n+1次迭代计算后用户i的影响力,表示第n+1次迭代计算后,用户i的易被影响特性,1≤i≤N,N是社交网络G(V,E)中的用户总数。
本技术方案的技术效果是:当算法迭代趋于稳定,前后两次结果相差非常小时,才结束迭代过程,能很好的降低数值误差对结果造成的影响。
进一步地,所述步骤S6中,第一筛选阈值和第二筛选阈值的确定方法如下:
本技术方案的技术效果是:所设置的第一筛选阈值能用于去除掉网络中的虚假用户,但并不是所有高易被影响特性的用户都是虚假用户,故同时设置了第二筛选阈值来进一步筛选虚假用户,进而达到有效筛选虚假用户的效果。
第二方面,本发明提供了一种根据上述虚假流量识别方法得到的用户品牌价值的量化计算方法,该方法采用了公式(7)计算用户的量化品牌价值:
其中,Pi表示用户i的量化品牌价值,k′i·Ii表示用户i的直接影响力,表示用户i的间接影响力,k′i表示筛选后得到的非虚假用户数量,Ni表示筛选后得到的非虚假用户集合,j表示Ni中除用户i的其它某用户。
本技术方案的技术效果是:能为广告主精准的寻找具有高品牌价值的宣传用户。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举本发明实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本发明实施例虚假流量识别方法的流程图;
图2是本发明实施例社交网络G(V,E)的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
请参照图1和图2,本实施例在微博社交网络中对本发明所述虚假流量识别方法进行验证,具体如下:
S1、爬取整个微博社交网络中[t0,t1]时间段内用户间的交互数据,其中包括转发、点赞以及评论这三种类型的交互数据。
S2、根据[t0,t1]时间段内用户间的交互数据构建社交网络G(V,E),其中V代表社交网络中用户的集合,E代表社交网络中有向边的集合。
在本实施例中,社交网络G(V,E)中有向边的构造过程如下:设社交网络G(V,E)中具有用户j和用户i,则用户j至少交互(转发/点赞/评论)了一次用户i时,即从用户j到用户i之间至少存在一次交互行为时,则构建有向边(i,j)。
S3、根据社交网络G(V,E)中用户间的交互数据,计算社交网络G(V,E)连边之间的权重。
S4、根据社交网络G(V,E)连边之间的权重,计算用户对所有邻居节点的影响能力,以及用户被所有邻居节点影响的程度。
其中,Nout(i)表示所有交互用户i的用户集合,Nin(i)表示用户i交互的所有用户的集合,j表示用户i的邻居节点所对应的用户。
S5、定义用户的影响力和易被影响特性,其中,影响力指的是社交网络G(V,E)中某用户影响其它用户的能力,易被影响特性指的是社交网络G(V,E)中某用户易被其它用户影响的程度,根据社交网络G(V,E)的结构、用户对所有邻居节点的影响能力以及用户被所有邻居节点影响的程度,迭代计算出社交网络G(V,E)中所有用户的影响力和易被影响特性。
在本实施例中,用户的影响力和易被影响特性的迭代计算方法如下:
将非零常数m0代入公式,
以及
开始进行迭代计算,当且时,停止迭代,输出得到所有用户的影响力和易被影响特性,其中,表示第n+1次迭代计算后用户i的影响力,表示第n+1次迭代计算后,用户i的易被影响特性,1≤i≤N,N是社交网络G(V,E)中的用户总数。
在本实施例中,由于Fi、Gi、Nout(i)和Nin(i)均已求出,因此能够通过迭代公式(3)计算出社交网络G(V,E)中所有用户的影响力,通过迭代公式(4)计算出社交网络G(V,E)中所有用户的易被影响特性。
在本实施例中,公式(3)和(4)的推导过程如下:
将公式(5)中的两个式子移项后得到公式(6):
再将公式(6)中的两个式子相互迭代后,即可得到公式(3)和(4)。
S6、确定第一筛选阈值和第二筛选阈值,将易被影响特性高于第一筛选阈值且影响力低于第二筛选阈值的用户标记为虚假用户,将虚假用户的交互流量识别为虚假流量,即虚假用户所进行的转发、点赞和评论均属于虚假流量。
在微博社交网络中,存在大量的虚假流量,虚假流量指的是由网络机器人参与而产生的流量,如何识别这些虚假流量是一个重要的问题,虚假用户(网络机器人)具有如下特征,虚假用户总是在网络中转发、点赞、评论各种微博,评论内容都是固定格式且不易被他人理解,同时,它们的微博并不易被别的人群所转发、点赞或评论。对应我们技术方案中的用户影响力和易被影响特性,可知虚假用户具有高易被影响特性和低影响力。故我们需要对这些虚假用户进行标记筛选识别。
在本实施例中,第一筛选阈值和第二筛选阈值的确定方法如下:
实施例2
本实施例提供了一种根据实施例1的虚假流量识别方法得到的用户品牌价值的量化计算方法,该方法采用了公式(7)计算用户的量化品牌价值:
其中,Pi表示用户i的量化品牌价值,k′i·Ii表示用户i的直接影响力,表示用户i的间接影响力,k′i表示筛选后得到的非虚假用户数量,即实施例1中的社交网络中,所识别出的虚假用户以外的其它用户数量,Ni表示筛选后得到的非虚假用户集合,j表示Ni中除用户i的其它某用户。
设ki表示在时间范围[t0,t1]内对用户i所发布的内容进行转发、点赞、评论的所有用户的数量,但是在所有转发、点赞、评论用户i的用户中,可能存在虚假流量的行为,故我们使用了实施例1中对用户的筛选结果,筛选出虚假用户后,社交网络G(V,E)中剩下用户数量为k′i,将它们的集合记为Ni,类似地,计算集合Ni中用户的影响力Ij与筛选过后的转发该用户的所有用户数量k′j的乘积,并对集合Ni中的所有用户求和,即可得
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种虚假流量识别方法,其特征在于,所述方法包括:
S1、爬取整个社交网络中一时间段内用户间的交互数据;
S2、根据该时间段内用户间的交互数据构建社交网络G(V,E),其中V代表网络中用户的集合,E代表网络中有向边的集合;
S3、根据社交网络G(V,E)中用户间的交互数据,计算社交网络G(V,E)连边之间的权重;
S4、根据社交网络G(V,E)连边之间的权重,计算用户对所有邻居节点的影响能力,以及用户被所有邻居节点影响的程度;
S5、定义用户的影响力和易被影响特性,其中,影响力指的是社交网络G(V,E)中某用户影响其它用户的能力,易被影响特性指的是社交网络G(V,E)中某用户易被其它用户影响的程度,根据社交网络G(V,E)的结构、用户对所有邻居节点的影响能力以及用户被所有邻居节点影响的程度,迭代计算出社交网络G(V,E)中所有用户的影响力和易被影响特性;
S6、确定第一筛选阈值和第二筛选阈值,将易被影响特性高于第一筛选阈值且影响力低于第二筛选阈值的用户标记为虚假用户,将虚假用户的交互流量识别为虚假流量。
2.根据权利要求1所述的虚假流量识别方法,其特征在于,所述步骤S1中,用户间的交互数据包括转发、点赞以及评论三种类型的交互数据。
3.根据权利要求2所述的虚假流量识别方法,其特征在于,所述步骤S2中,有向边的构造过程如下:设社交网络G(V,E)中具有用户j和用户i,则当存在从用户j到用户i的交互行为时,则有向边构建为(i,j)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010604793.3A CN111917601B (zh) | 2020-06-29 | 2020-06-29 | 虚假流量识别方法及用户品牌价值的量化计算方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010604793.3A CN111917601B (zh) | 2020-06-29 | 2020-06-29 | 虚假流量识别方法及用户品牌价值的量化计算方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111917601A true CN111917601A (zh) | 2020-11-10 |
CN111917601B CN111917601B (zh) | 2021-09-28 |
Family
ID=73226773
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010604793.3A Active CN111917601B (zh) | 2020-06-29 | 2020-06-29 | 虚假流量识别方法及用户品牌价值的量化计算方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111917601B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116208512A (zh) * | 2023-03-07 | 2023-06-02 | 武汉精阅数字传媒科技有限公司 | 一种隐性交互行为的流量正向影响分析方法 |
CN118229353A (zh) * | 2024-02-19 | 2024-06-21 | 淮安金宁广告传媒有限公司 | 一种互联网广告服务方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103279887A (zh) * | 2013-04-26 | 2013-09-04 | 华东师范大学 | 一种基于信息理论的微博传播可视化分析方法与系统 |
CN109905399A (zh) * | 2019-03-14 | 2019-06-18 | 哈尔滨工程大学 | 一种基于自我网络结构演化的社交媒体个体异常用户检测方法 |
CN110175851A (zh) * | 2019-02-28 | 2019-08-27 | 腾讯科技(深圳)有限公司 | 一种作弊行为检测方法及装置 |
CN110191110A (zh) * | 2019-05-20 | 2019-08-30 | 山西大学 | 基于网络表示学习的社交网络异常账户检测方法及系统 |
CN110990716A (zh) * | 2019-11-19 | 2020-04-10 | 浙江工业大学 | 基于影响力最大化的抑制虚假消息传播方法 |
-
2020
- 2020-06-29 CN CN202010604793.3A patent/CN111917601B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103279887A (zh) * | 2013-04-26 | 2013-09-04 | 华东师范大学 | 一种基于信息理论的微博传播可视化分析方法与系统 |
CN110175851A (zh) * | 2019-02-28 | 2019-08-27 | 腾讯科技(深圳)有限公司 | 一种作弊行为检测方法及装置 |
CN109905399A (zh) * | 2019-03-14 | 2019-06-18 | 哈尔滨工程大学 | 一种基于自我网络结构演化的社交媒体个体异常用户检测方法 |
CN110191110A (zh) * | 2019-05-20 | 2019-08-30 | 山西大学 | 基于网络表示学习的社交网络异常账户检测方法及系统 |
CN110990716A (zh) * | 2019-11-19 | 2020-04-10 | 浙江工业大学 | 基于影响力最大化的抑制虚假消息传播方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116208512A (zh) * | 2023-03-07 | 2023-06-02 | 武汉精阅数字传媒科技有限公司 | 一种隐性交互行为的流量正向影响分析方法 |
CN116208512B (zh) * | 2023-03-07 | 2023-10-17 | 杭州元媒科技有限公司 | 一种隐性交互行为的流量正向影响分析方法 |
CN118229353A (zh) * | 2024-02-19 | 2024-06-21 | 淮安金宁广告传媒有限公司 | 一种互联网广告服务方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111917601B (zh) | 2021-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11790396B2 (en) | Preservation of scores of the quality of traffic to network sites across clients and over time | |
Ray et al. | Prediction of infectious disease epidemics via weighted density ensembles | |
CN104965890B (zh) | 广告推荐的方法和装置 | |
US11580447B1 (en) | Shared per content provider prediction models | |
CN106997549A (zh) | 一种广告信息的推送方法及系统 | |
Yeo et al. | Predicting online purchase conversion for retargeting | |
CN111917601B (zh) | 虚假流量识别方法及用户品牌价值的量化计算方法 | |
CN110110201B (zh) | 一种内容推荐方法和系统 | |
Lipyanina et al. | Decision tree based targeting model of customer interaction with business page. | |
CN108053050A (zh) | 点击率预估方法、装置、计算设备及存储介质 | |
Farrokhvar et al. | Predictive models for charitable giving using machine learning techniques | |
CN111191099B (zh) | 一种基于社交媒体的用户活动类型识别方法 | |
CN109190040B (zh) | 基于协同演化的个性化推荐方法及装置 | |
CN111935513B (zh) | 一种面向家庭用户的网络电视节目推荐方法及装置 | |
CN112149352A (zh) | 一种结合gbdt自动特征工程对营销活动点击的预测方法 | |
US20150046217A1 (en) | Computing Social Influenceability of Products and Social Influencers | |
Nikolopoulos | Forecasting with quantitative methods: The impact of special events in time series | |
CN117216376A (zh) | 一种基于深度图神经网络的公平感知推荐系统及推荐方法 | |
Tang et al. | The impact of Instagram marketing on sale in the fashion industry | |
Al Jaeed et al. | The effect of social media influencers’ trustworthiness and expertise on online purchase intentions of Saudi consumers and the mediating role of attitude | |
JP2016006583A (ja) | ソーシャルネットワークサービスにおけるノイズ投稿の分類方法およびシステム | |
CN105894387A (zh) | 一种预测在线社交网络用户行为的方法 | |
He et al. | A probabilistic, mechanism-indepedent outlier detection method for online experimentation | |
Beranek et al. | E-commerce network with price comparator sites | |
CN114596109A (zh) | 推荐信息的确定方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |