CN116541259A - 基于屏幕操作特征的流量作弊识别方法及装置 - Google Patents
基于屏幕操作特征的流量作弊识别方法及装置 Download PDFInfo
- Publication number
- CN116541259A CN116541259A CN202310507083.2A CN202310507083A CN116541259A CN 116541259 A CN116541259 A CN 116541259A CN 202310507083 A CN202310507083 A CN 202310507083A CN 116541259 A CN116541259 A CN 116541259A
- Authority
- CN
- China
- Prior art keywords
- behavior
- same
- judging
- index value
- abnormal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 230000002159 abnormal effect Effects 0.000 claims abstract description 76
- 230000009471 action Effects 0.000 claims abstract description 19
- 230000006399 behavior Effects 0.000 claims description 140
- 230000005856 abnormality Effects 0.000 claims description 32
- 239000004973 liquid crystal related substance Substances 0.000 claims description 10
- 238000004891 communication Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000005206 flow analysis Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 3
- 230000003542 behavioural effect Effects 0.000 description 6
- 230000008901 benefit Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001680 brushing effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3438—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment monitoring of user actions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Physics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Computer Hardware Design (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Computational Biology (AREA)
- Algebra (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Alarm Systems (AREA)
Abstract
本申请提供了基于屏幕操作特征的流量作弊识别方法及装置,选取滑动距离、点击坐标、新闻浏览时长、视频观看时长和行为时间间隔作为行为数据的多个观测维度,每个观测维度对应有至少两个指标,通过采集用户每次浏览新闻或观看视频时对应的多个维度的行为数据,计算其对应指标的指标值,根据指标值确定是否存在异常指标,根据异常指标的个数综合判定是否为作弊流量。本发明可以根据屏幕点击、滑动等行为的衍生特征,识别用户的流量是否为使用自动阅读脚本产生的作弊流量。本发明通过多维度的行为数据的特征来判定作弊流量,能够提高作弊流量识别的准确性。
Description
技术领域
本发明涉及流量监控技术领域,尤其涉及一种基于屏幕操作特征的流量作弊识别方法。
背景技术
流量作弊也叫刷量,是指通过作弊脚本模仿正常用户针对特定网站或网页进行持续大量的访问,不断刷新提高该网站或网页的数据流量,从而借机牟取不法利益。例如,在手机中植入一个脚本程序,使用脚本去替代人工、模拟人工去全自动化阅读,脚本自动完成签到、自动浏览新闻或观看视频、自动跳转。
目前针对流量作弊的监测与识别,大多通过监测在网页页面上发生的点击操作来确定这些操作是否为流量作弊操作,从而确定出是否发生流量作弊。但随着流量作弊手段的越来越丰富,作弊脚本已经可以将点击操作模拟到越来越贴近于用户的实际操作,故单纯通过分析点击操作已经越来越难以准确地确定是否发生流量作弊。
发明内容
本发明的目的在于提供一种基于屏幕操作特征的流量作弊识别方法,通过屏幕点击、滑动等多种行为的衍生特征,更准确地识别自动阅读脚本作弊,以解决上述技术背景中提出的问题。
为实现上述目的,本发明采用以下技术方案:
第一个方面,本发明提供了一种基于屏幕操作特征的流量作弊识别方法,包括:
在用户终端加载显示网页页面后,获取设定时间段内对象在网页页面的行为数据,并从所述行为数据中获取每个行为的发生次数,行为数据包括滑动距离、点击坐标、新闻浏览时长、视频观看时长和行为时间间隔;
计算每个行为数据对应指标的指标值;
对各指标值进行分析,确定异常指标值的个数;
根据异常指标值的个数,判定该用户终端的流量是否为使用自动阅读脚本产生的作弊流量;
其中,所述行为数据对应的指标包括滑动距离相同的滑动次数占比、滑动距离的变异系数、点击坐标相同的点击次数占比、点击坐标的变异系数、浏览时长相同的新闻条数占比、浏览时长的变异系数、观看时长相同的视频条数占比、观看时长的变异系数、行为时间间隔相同的次数占比、行为时间间隔的变异系数中的一种或几种的组合。
在一种优选实施例中,所述对各指标值进行分析,确定异常指标值的个数,包括如下步骤:
每个指标对应有预设阈值;
将每个指标值与其对应的预设阈值分别进行比较,确定该指标值是否异常;
统计所有指标值异常的个数。
在一种优选实施例中,所述根据异常指标值的个数,判定该用户终端的流量为使用自动阅读脚本产生的作弊流量,包括如下步骤:
将异常指标值的个数与异常阈值进行比较,若异常指标值的个数大于或等于该异常阈值,则确定该用户终端的行为是流量作弊操作,反之,则确定该用户终端的行为不是流量作弊操作;或者,
计算异常指标值的个数在指标总个数中的占比,若占比大于或等于预设比例阈值,则确定该用户终端的行为是流量作弊操作,反之,则确定该用户终端的行为不是流量作弊操作。
在一种优选实施例中,所述行为数据为滑动距离时,所述方法包括如下步骤:
确定当日滑动距离相同的滑动次数在当日总滑动次数的占比,得到所述滑动距离相同的滑动次数占比;
判断所述滑动距离相同的滑动次数占比是否大于或等于第一预设阈值,若是,则判定为异常指标值,反之,则判定为正常指标值;
和/或
确定当日滑动距离标准差在当日滑动距离平均值的占比,得到所述滑动距离的变异系数;
判断所述滑动距离的变异系数是否小于第二预设阈值,若是,则判定为异常指标值,反之,则判定为正常指标值。
在一种优选实施例中,所述行为数据为点击坐标时,所述方法包括如下步骤:
确定当日点击坐标相同的点击次数在当日总点击次数的占比,得到所述点击坐标相同的点击次数占比;
判断所述点击坐标相同的点击次数占比是否大于或等于第三预设阈值,若是,则判定为异常指标值,反之,则判定为正常指标值;
和/或
确定当日点击X轴坐标标准差在当日点击X轴坐标平均值的占比,得到点击坐标于X轴的变异系数;
判断所述点击坐标于X轴的变异系数是否小于第四预设阈值,若是,则判定为异常指标值,反之,则判定为正常指标值;
和/或
确定当日点击Y轴坐标标准差在当日点击Y轴坐标平均值的占比,得到点击坐标于Y轴的变异系数;
判断所述点击坐标于Y轴的变异系数是否小于第五预设阈值,若是,则判定为异常指标值,反之,则判定为正常指标值。
在一种优选实施例中,所述行为数据为新闻浏览时长时,所述方法包括如下步骤:
确定当日点浏览时长相同的新闻条数在当日总浏览新闻条数的占比,得到所述浏览时长相同的新闻条数占比;
判断所述浏览时长相同的新闻条数占比是否大于或等于第六预设阈值,若是,则判定为异常指标值,反之,则判定为正常指标值;
和/或
确定当日每条新闻浏览时长标准差在当日每条新闻平均浏览时长的占比,得到浏览时长的变异系数;
判断所述浏览时长的变异系数是否小于第七预设阈值,若是,则判定为异常指标值,反之,则判定为正常指标值。
在一种优选实施例中,所述行为数据为视频观看时长时,所述方法包括如下步骤:
确定当日点观看时长相同的视频条数在当日总观看视频条数的占比,得到所述观看时长相同的视频条数占比;
判断所述观看时长相同的视频条数占比是否大于或等于第八预设阈值,若是,则判定为异常指标值,反之,则判定为正常指标值;
和/或
确定当日每条视频观看时长标准差在当日每条视频平均观看时长的占比,得到观看时长的变异系数;
判断所述观看时长的变异系数是否小于第九预设阈值,若是,则判定为异常指标值,反之,则判定为正常指标值。
在一种优选实施例中,所述行为数据为行为时间间隔时,所述方法包括如下步骤:
确定当日行为时间间隔相同的次数在当日总行为次数减1中的占比,得到所述行为时间间隔相同的次数占比;
判断所述行为时间间隔相同的次数占比是否大于或等于第十预设阈值,若是,则判定为异常指标值,反之,则判定为正常指标值;
和/或
确定当日行为时间间隔标准差在当日行为时间间隔平均值的占比,得到行为时间间隔的变异系数;
判断所述行为时间间隔的变异系数是否小于第十一预设阈值,若是,则判定为异常指标值,反之,则判定为正常指标值。
在一种优选实施例中,所述方法包括:
计算滑动距离对应的指标:滑动距离相同的滑动次数占比、滑动距离的变异系数,若滑动距离相同的滑动次数占比>=0.8,则判定为异常指标值,若滑动距离的变异系数<0.05,则判定为异常指标值;
计算点击坐标对应的指标:点击坐标相同的点击次数占比、点击坐标于X轴的变异系数、点击坐标于Y轴的变异系数,若点击坐标相同的点击次数占比>=0.7,则判定为异常指标值,若点击坐标于X轴的变异系数<0.1,则判定为异常指标值,若点击坐标于Y轴的变异系数<0.1,则判定为异常指标值;
计算新闻浏览时长对应的指标:浏览时长相同的新闻条数占比、浏览时长的变异系数,若浏览时长相同的新闻条数占比>=0.7,则判定为异常指标值,若浏览时长的变异系数<0.1,则判定为异常指标值;
计算视频观看时长对应的指标:观看时长相同的视频条数占比、观看时长的变异系数,若观看时长相同的视频条数占比>=0.7,则判定为异常指标值,若观看时长的变异系数<0.1,则判定为异常指标值;
计算行为时间间隔对应的指标:行为时间间隔相同的次数占比、行为时间间隔的变异系数,若行为时间间隔相同的次数占比>=0.6,则判定为异常指标值,若行为时间间隔的变异系数<0.15,则判定为异常指标值;
统计上述计算的11项指标中异常项的个数,若异常项的个数>=3,则判定该用户的流量为作弊流量。
第二个方面,本发明提供了一种基于屏幕操作特征的流量作弊识别装置,包括:
行为数据采集模块,被配置为在用户终端加载显示网页页面后,获取设定时间段内对象在网页页面的行为数据,并从所述行为数据中获取每个行为的发生次数,行为数据包括滑动距离、点击坐标、新闻浏览时长、视频观看时长和行为时间间隔;
指标值计算模块,被配置为计算每个行为数据对应指标的指标值;
异常判定模块,被配置为对各指标值进行分析,确定异常指标值的个数;
作弊流量分析模块,被配置为根据异常指标值的个数,判定该用户终端的流量是否为使用自动阅读脚本产生的作弊流量;
其中,所述行为数据对应的指标包括滑动距离相同的滑动次数占比、滑动距离的变异系数、点击坐标相同的点击次数占比、点击坐标的变异系数、浏览时长相同的新闻条数占比、浏览时长的变异系数、观看时长相同的视频条数占比、观看时长的变异系数、行为时间间隔相同的次数占比、行为时间间隔的变异系数中的一种或几种的组合。
第三个方面,本发明还提供一种电子设备,包括:通信接口,存储器,以及与所述存储器和所述通信接口连接的处理器;其中,
所述通信接口,用于在用户终端加载显示出网页页面后,获取对象于设定时间段内在网页页面的行为数据;
所述存储器,用于存储程序;
所述处理器,用于通过运行所述程序分析所述行为数据,以执行如第一方面或第一方面的任一种可能的实现方式所述的流量作弊识别方法。
与现有技术相比,本发明的技术方案具有以下有益效果:
本发明选取滑动距离、点击坐标、新闻浏览时长、视频观看时长和行为时间间隔作为行为数据的多个观测维度,每个观测维度对应有至少两个指标,通过采集用户每次浏览新闻或观看视频时对应的多个维度的行为数据,计算其对应指标的指标值,根据指标值确定是否存在异常指标,根据异常指标的个数综合判定是否为作弊流量。本发明可以根据屏幕点击、滑动等行为的衍生特征,识别用户的流量是否为使用自动阅读脚本产生的作弊流量。本发明通过多维度的行为数据的特征来判定作弊流量,能够提高作弊流量识别的准确性。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的一种基于屏幕操作特征的流量作弊识别方法的流程图;
图2是本发明实施例中关于滑动距离的一种应用场景示例图;
图3是本发明实施例的一种基于屏幕操作特征的流量作弊识别装置的结构示意图;
图4是本发明实施例的一种电子设备的结构示意图。
具体实施方式
为了使本发明的上述以及其他特征和优点更加清楚,下面结合附图进一步描述本发明。应当理解,本文给出的具体实施例是出于向本领域技术人员解释的目的,仅是示例性的,而非限制性的。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
实施例1
如背景技术中所述,现有技术中由于作弊手段的多样性,以及作弊手法的不断更新,从海量数据中准确提取用户使用自动阅读脚本产生的作弊流量非常困难。
本发明实施例可以根据屏幕点击、滑动等行为的衍生特征,有效识别自动阅读脚本产生的流量作弊。
为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
图1为一种基于屏幕操作特征的流量作弊识别方法的流程图。
如图1所示,所述流量作弊识别方法可以包括以下步骤:
步骤S1:在用户终端加载显示网页页面后,获取设定时间段内对象在网页页面的行为数据,并从所述行为数据中获取每个行为的发生次数,行为数据包括滑动距离、点击坐标、新闻浏览时长、视频观看时长和行为时间间隔。
本实施例中,该流量作弊的识别方法可以由电子设备执行,电子设备可以是用户终端。一般来说,访问流量是通过用户与用户终端的人机交互产生的。
行为数据是在用户每次浏览新闻或观看视频时采集得到的。采集的行为数据可以是设定时间段内的数据,也可以是指定的数据。例如可以是,将用户过去一天的行为数据作为待检测数据,也可以是,将用户当日的行为数据作为待检测数据。
上述的滑动距离,是采集到的用户每次在电子设备的屏幕上滑动的距离。
上述的电子坐标,是采集到的用户每次点击电子设备的屏幕的坐标。
上述的新闻浏览时长,是采集到的用户通过电子设备浏览每条新闻的时长。
上述的视频观看时长,是采集到的用户通过电子设备观看每条视频的时长。
上述的行为时间间隔,是根据采集到的用户每次点击、滑动行为的触发时间,计算两两行为之间的时间间隔(或简称行为间隔)。
其中,所述行为数据对应的指标包括:滑动距离相同的滑动次数占比、滑动距离的变异系数、点击坐标相同的点击次数占比、点击坐标的变异系数、浏览时长相同的新闻条数占比、浏览时长的变异系数、观看时长相同的视频条数占比、观看时长的变异系数、行为时间间隔相同的次数占比、行为时间间隔的变异系数中的一种或几种的组合。
步骤S2:计算每个行为数据对应指标的指标值,并判定是否存在异常。
由上述行为数据衍生的各指标的计算方法以及判定方法具体如下:
滑动距离:
根据采集到的用户每次滑动的距离计算如下指标:
1)滑动距离相同的滑动次数占比:用户当日滑动距离相同的滑动次数/用户当日总滑动次数。
异常判定方式:滑动距离相同的滑动次数占比>=0.8。
具体的,确定当日滑动距离相同的滑动次数在当日总滑动次数的占比,得到所述滑动距离相同的滑动次数占比;然后判断所述滑动距离相同的滑动次数占比是否大于或等于0.8(第一预设阈值),若是,则判定为异常指标值,反之,则判定为正常指标值。
本实施例中,所述滑动距离,是指滑动轨迹的起点和终点之间的距离。通过分析各滑动轨迹的起点和终点之间的距离,可以确定出起点和终点之间的距离相同的滑动轨迹,其中,若两个滑动轨迹的起点和终点之间的距离相同,则表示两个滑动轨迹相同。
举例来说,如图2所示,假如电子设备采集到三次滑动操作,第一次的滑动轨迹是从A1点滑动到B1点,那么电子设备可以获取到A1点在网页页面上的坐标(x1,y1)以及获取到B1点在网页页面上的坐标(x2,y2);第二次的滑动轨迹是从A2点滑动到B2点,那么电子设备可以获取到A2点在网页页面上的坐标(x3,y3)以及获取到B2点在网页页面上的坐标(x4,y4);第三次的滑动轨迹是从A3点滑动到B3点,那么电子设备可以获取到A3点在网页页面上的坐标(x5,y5)以及获取到B3点在网页页面上的坐标(x6,y6)。
进一步地,电子设备可以计算出A1(x1,y1)与B1(x2,y2)之间的距离为L1,计算出A2(x3,y3)与B2(x4,y4)之间的距离也为L1,以及还计算出A3(x5,y5)与B3(x5,y5)之间的距离也为L1。那么,电子设备可以确定出这三次滑动操作的起点终点距离都相同。也就是说,这三次滑动操作的位置虽然各不相同,但由于这三次滑动操作的起点终点距离都相同,故这三次滑动操作可以认为是滑动轨迹相同的滑动操作。
进一步的,在确定出用户当日滑动距离相同的滑动操作的输入次数后,可以根据滑动距离相同的滑动操作的输入次数和用户当日滑动操作的总次数,来计算滑动距离相同的滑动次数占比,通过滑动距离相同的滑动次数占比与第一预设阈值的大小关系比较,判定是否存在异常,以作为后续确定作弊流量的依据。用户当日滑动距离相同的滑动次数越多,说明流量作弊的可能性越大。
2)滑动距离的变异系数:用户当日滑动距离标准差/用户当日滑动距离平均值。
异常判定方式:滑动距离的异系数<0.05。
变异系数又称离散系数,是测度数据变异程度的相对统计量,用于比较平均数不同的两个或多个样本数据的变异程度,是标准差与其平均值之比。变异系数主要用于比较不同组别数据的离散程度。当进行两个或多个样本数据变异程度的比较时,如果计量单位与平均数相同时,可以直接利用标准差来比较;如果计量单位或平均数不同时,比较其变异程度就不能直接采用标准差,而采用变异系数来比较。通常,变异系数越小,说明数据的变异程度越小;反之,变异系数越大,说明数据的变异程度越大。
变异系数是一组数据的标准差与其相应的均值之比,其计算公式为:
Vσ=σ/μ
其中,Vσ为变异系数,σ为标准差,μ为数学期望或平均数。变异系数只在平均值不为零时有意义,而且一般适用于平均值大于零的情况。
本实施例中,将变异系数也作为行为数据的衍生指标,纳入异常判定中,可以作为后续确定作弊流量的依据。
用户当日滑动操作所产生的滑动距离的变异系数越小,流量作弊的可能性越大。
具体的,确定当日滑动距离标准差在当日滑动距离平均值的占比,得到所述滑动距离的变异系数;然后判断所述滑动距离的变异系数是否小于0.05(第二预设阈值),若是,则判定为异常指标值,反之,则判定为正常指标值。
点击坐标:
根据采集到的用户每次点击屏幕的坐标计算如下指标:
3)点击坐标相同的点击次数占比:用户当日点击坐标相同的点击次数/用户当日总点击次数。
异常判定方式:点击坐标相同的点击次数占比>=0.7。
可以理解的是,真实用户由于手掌大小存在差异,且握持终端的姿势也存在差异,在点击屏幕信息时会点击到不同的位置,而自动阅读脚本由于是伪造的点击位置,对于信息的具体内容并没有感知,对于新闻或视频的点击位置并不存在差异。因此,本申请实施例选择将每次点击的点击坐标作为识别作弊流量的依据。用户当日点击位置相同的点击次数越多,说明流量作弊的可能性越大。
具体的,确定当日点击坐标相同的点击次数在当日总点击次数的占比,得到所述点击坐标相同的点击次数占比;然后判断所述点击坐标相同的点击次数占比是否大于或等于0.7(第三预设阈值),若是,则判定为异常指标值,反之,则判定为正常指标值。
4)点击坐标的变异系数(X轴):用户当日点击X轴坐标标准差/用户当日点击X轴坐标平均值。
异常判定方式:点击坐标变异系数(X轴)<0.1。
具体的,确定当日点击X轴坐标标准差在当日点击X轴坐标平均值的占比,得到点击坐标于X轴的变异系数;然后判断所述点击坐标于X轴的变异系数是否小于0.1(第四预设阈值),若是,则判定为异常指标值,反之,则判定为正常指标值。
5)点击坐标的变异系数(Y轴):用户当日点击Y轴坐标标准差/用户当日点击Y轴坐标平均值。
异常判定方式:点击坐标变异系数(Y轴)<0.1。
具体的,确定当日点击Y轴坐标标准差在当日点击Y轴坐标平均值的占比,得到点击坐标于Y轴的变异系数;然后判断所述点击坐标于Y轴的变异系数是否小于0.1(第五预设阈值),若是,则判定为异常指标值,反之,则判定为正常指标值。
新闻浏览时长:
根据采集到的用户浏览每条新闻的时长计算如下指标:
6)浏览时长相同的新闻条数占比:用户当日浏览时长相同的新闻条数/用户当日总浏览新闻条数。
异常判定方式:浏览时长相同的新闻条数占比>=0.7。
具体的,确定当日浏览时长相同的新闻条数在当日总浏览新闻条数的占比,得到所述浏览时长相同的新闻条数占比;然后判断所述浏览时长相同的新闻条数占比是否大于或等于0.7(第六预设阈值),若是,则判定为异常指标值,反之,则判定为正常指标值。
可以理解的是,真实用户浏览相同新闻的浏览时长存在差异,而自动阅读脚本由于是伪造的阅读,对新闻的具体内容并没有感知,对于新闻的浏览时长不存在差异。因此,本申请实施例选择将用户浏览每条新闻的时长作为识别作弊流量的依据。用户当日浏览时长相同的新闻条数越多,说明流量作弊的可能性越大。
7)浏览时长的变异系数:用户当日每条新闻浏览时长标准差/用户当日每条新闻平均浏览时长。
异常判定方式:浏览时长变异系数<0.1。
具体的,确定当日每条新闻浏览时长标准差在当日每条新闻平均浏览时长的占比,得到浏览时长的变异系数;然后判断所述浏览时长的变异系数是否小于0.1(第七预设阈值),若是,则判定为异常指标值,反之,则判定为正常指标值。
视频观看时长:
根据采集到的用户观看每条视频的时长计算如下指标:
8)观看时长相同的视频条数占比:用户当日观看时长相同的视频条数/用户当日总观看视频条数。
异常判定方式:观看时长相同的视频条数占比>=0.7。
具体的,确定当日点观看时长相同的视频条数在当日总观看视频条数的占比,得到所述观看时长相同的视频条数占比;然后判断所述观看时长相同的视频条数占比是否大于或等于0.7(第八预设阈值),若是,则判定为异常指标值,反之,则判定为正常指标值。
可以理解的是,真实用户观看相同新闻的观看时长存在差异,而自动阅读脚本由于是伪造的阅读,对视频的具体内容并没有感知,对于视频的观看时长不存在差异。因此,本申请实施例选择将用户观看每条视频的时长作为识别作弊流量的依据。用户当日观看时长相同的视频条数越多,说明流量作弊的可能性越大。
9)观看时长的变异系数:用户当日每条视频观看时长标准差/用户当日每条视频平均观看时长。
异常判定方式:观看时长变异系数<0.1。
具体的,确定当日每条视频观看时长标准差在当日每条视频平均观看时长的占比,得到观看时长的变异系数;然后判断所述观看时长的变异系数是否小于0.1(第九预设阈值),若是,则判定为异常指标值,反之,则判定为正常指标值。
行为时间间隔:
根据采集到的用户每次点击、滑动行为的触发时间,计算两两行为之间的时间间隔(以下称为行为时间间隔,或简称行为间隔),并利用行为间隔计算如下指标:
10)行为间隔相同的次数占比:用户当日行为间隔相同的次数/(用户当日总行为次数-1)。
异常判定方式:行为间隔相同的次数占比>=0.6。
具体的,确定当日行为时间间隔相同的次数在当日总行为次数减1中的占比,得到所述行为时间间隔相同的次数占比;然后判断所述行为时间间隔相同的次数占比是否大于或等于0.6(第十预设阈值),若是,则判定为异常指标值,反之,则判定为正常指标值;
11)行为间隔的变异系数:用户当日行为间隔标准差/用户当日行为间隔平均值。
异常判定方式:行为间隔变异系数<0.15。
具体的,确定当日行为时间间隔标准差在当日行为时间间隔平均值的占比,得到行为时间间隔的变异系数;然后判断所述行为时间间隔的变异系数是否小于0.15(第十一预设阈值),若是,则判定为异常指标值,反之,则判定为正常指标值。
步骤S3:计算上述各指标中异常指标值的个数。
步骤S4:根据异常指标值的个数,综合判定该用户终端的流量是否为使用自动阅读脚本产生的作弊流量。
具体的,步骤S4包括如下步骤:
将异常指标值的个数与异常阈值进行比较,若异常指标值的个数大于或等于该异常阈值,则确定该用户终端的行为是流量作弊操作,反之,则确定该用户终端的行为不是流量作弊操作;或者,
计算异常指标值的个数在指标总个数中的占比,若占比大于或等于预设比例阈值,则确定该用户终端的行为是流量作弊操作,反之,则确定该用户终端的行为不是流量作弊操作。
本实施例中,当上述11项行为指标中异常项>=3时,则判定该用户的流量为使用自动阅读脚本产生的作弊流量。
为了进一步阐述本发明技术方案,以下示例性地给出一具体实施例,以便于全面理解本技术。
经行为数据采集和对应指标的计算,用户各项行为指标如下:
1)滑动距离相同的滑动次数占比:0.15;判定结果:正常。
2)滑动距离的变异系数:0.31;判定结果:正常。
3)点击坐标相同的点击次数占比:0.83;判定结果:异常。
4)点击坐标的变异系数(X轴):0.09;判定结果:异常。
5)点击坐标的变异系数(Y轴):0.08;判定结果:异常。
6)浏览时长相同的新闻条数占比:0.88;判定结果:异常。
7)浏览时长的变异系数:0.04;判定结果:异常。
8)观看时长相同的视频条数占比:0.08;判定结果:正常。
9)观看时长的变异系数:0.33;判定结果:正常。
10)行为间隔相同的次数占比:0.11;判定结果:正常。
11)行为间隔的变异系数:0.29;判定结果:正常。
综合以上指标,该用户11项指标中异常项为5,大于等于3,故判定该用户的流量为使用自动阅读脚本产生的作弊流量。
实施例2
另一方面,本发明还提供了一种基于屏幕操作特征的流量作弊识别装置,如图3所示,具体包括:行为数据采集模块100、指标值计算模块200、异常判定模块300和作弊流量分析模块400。
行为数据采集模块100,被配置为在用户终端加载显示网页页面后,获取设定时间段内对象在网页页面的行为数据,并从所述行为数据中获取每个行为的发生次数,行为数据包括滑动距离、点击坐标、新闻浏览时长、视频观看时长和行为时间间隔。
指标值计算模块200,被配置为计算每个行为数据对应指标的指标值。
异常判定模块300,被配置为对各指标值进行分析,确定异常指标值的个数。
作弊流量分析模块400,被配置为根据异常指标值的个数,判定该用户终端的流量是否为使用自动阅读脚本产生的作弊流量。
其中,所述行为数据对应的指标包括:滑动距离相同的滑动次数占比、滑动距离的变异系数、点击坐标相同的点击次数占比、点击坐标的变异系数、浏览时长相同的新闻条数占比、浏览时长的变异系数、观看时长相同的视频条数占比、观看时长的变异系数、行为时间间隔相同的次数占比、行为时间间隔的变异系数中的一种或几种的组合。
本实施例提供的装置,可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,本实施例此处不再赘述。
实施例3
参阅图4,基于同一发明构思,本发明实施例中还提供一种电子设备10,该电子设备10可以包括连接到网络的通信接口11、用于执行程序指令的一个或多个处理器12、总线13和不同形式的存储器14,例如,磁盘、ROM、或RAM,或其任意组合。示例性地,计算机平台还可以包括存储在ROM、RAM、或其他类型的非暂时性存储介质、或其任意组合中的程序指令。
通信接口11,用于在用户终端加载显示出网页页面后,获取对象于设定时间段内在网页页面的行为数据,存储器14用于存储程序,处理器12用于调用并运行存储器14中的程序分析所述行为数据,以执行前述的流量作弊识别方法。
需要说明的是,本申请涉及的电子设备包括但不限于是:移动终端(手机、智能手机、PAD、笔记本电脑等等)、固定终端(计算机)。
综上所述,本发明实施例提供了一种基于屏幕操作特征的流量作弊识别方法、装置及电子设备。由于用户的行为操作是具备复杂度和随机性的操作,作弊脚本难以将行为操作模拟到贴近用户的真实操作。因此通过采集用户每次浏览新闻或观看视频时对应的多个维度的行为数据,计算其对应指标的指标值,根据指标值确定是否存在异常指标,根据异常指标的个数综合判定是否为作弊流量,可以有效地鉴别行为操作是用户的真实操作还是流量作弊操作,从而可以更准确地确定用户的流量是否为使用自动阅读脚本产生的作弊流量。
以上对本发明的具体实施例进行了详细描述,但其只是作为范例,本发明并不限制于以上描述的具体实施例。对于本领域技术人员而言,任何对本发明进行的等同修改和替代也都在本发明的范畴之中。因此,在不脱离本发明的精神和范围下所作的均等变换和修改,都应涵盖在本发明的范围内。
Claims (8)
1.基于屏幕操作特征的流量作弊识别方法,其特征在于,包括:
在用户终端加载显示网页页面后,获取设定时间段内对象在网页页面的行为数据,并从所述行为数据中获取每个行为的发生次数,行为数据包括滑动距离、点击坐标、新闻浏览时长、视频观看时长和行为时间间隔;
基于各行为数据分别生成多个衍生指标,其中,滑动距离的衍生指标包括滑动距离相同的滑动次数占比、滑动距离的变异系数,点击坐标的衍生指标包括点击坐标相同的点击次数占比、点击坐标的变异系数,新闻浏览时长的衍生指标包括浏览时长相同的新闻条数占比、浏览时长的变异系数,视频观看时长的衍生指标包括观看时长相同的视频条数占比、观看时长的变异系数,行为时间间隔的衍生指标包括行为时间间隔相同的次数占比、行为时间间隔的变异系数;
计算每个行为数据对应的衍生指标的指标值;
每个衍生指标对应有预设阈值,将每个衍生指标的指标值与其对应的预设阈值分别进行比较,确定该指标值是否异常;
统计所有指标值异常的个数,确定异常指标值的总个数;
将异常指标值的总个数与异常阈值进行比较,若异常指标值的总个数大于或等于该异常阈值,则确定该用户终端的行为是流量作弊操作,反之,则确定该用户终端的行为不是流量作弊操作;或者,
计算异常指标值的总个数在指标总个数中的占比,若占比大于或等于预设比例阈值,则确定该用户终端的行为是流量作弊操作,反之,则确定该用户终端的行为不是流量作弊操作。
2.根据权利要求1所述的基于屏幕操作特征的流量作弊识别方法,其特征在于,所述行为数据为滑动距离时,所述方法包括如下步骤:
确定当日滑动距离相同的滑动次数在当日总滑动次数的占比,得到所述滑动距离相同的滑动次数占比;
判断所述滑动距离相同的滑动次数占比是否大于或等于第一预设阈值,若是,则判定为异常指标值,反之,则判定为正常指标值;
以及
确定当日滑动距离标准差在当日滑动距离平均值的占比,得到所述滑动距离的变异系数;
判断所述滑动距离的变异系数是否小于第二预设阈值,若是,则判定为异常指标值,反之,则判定为正常指标值。
3.根据权利要求1所述的基于屏幕操作特征的流量作弊识别方法,其特征在于,所述行为数据为点击坐标时,所述方法包括如下步骤:
确定当日点击坐标相同的点击次数在当日总点击次数的占比,得到所述点击坐标相同的点击次数占比;
判断所述点击坐标相同的点击次数占比是否大于或等于第三预设阈值,若是,则判定为异常指标值,反之,则判定为正常指标值;
以及
确定当日点击X轴坐标标准差在当日点击X轴坐标平均值的占比,得到点击坐标于X轴的变异系数;
判断所述点击坐标于X轴的变异系数是否小于第四预设阈值,若是,则判定为异常指标值,反之,则判定为正常指标值;
以及
确定当日点击Y轴坐标标准差在当日点击Y轴坐标平均值的占比,得到点击坐标于Y轴的变异系数;
判断所述点击坐标于Y轴的变异系数是否小于第五预设阈值,若是,则判定为异常指标值,反之,则判定为正常指标值。
4.根据权利要求1所述的基于屏幕操作特征的流量作弊识别方法,其特征在于,所述行为数据为新闻浏览时长时,所述方法包括如下步骤:
确定当日点浏览时长相同的新闻条数在当日总浏览新闻条数的占比,得到所述浏览时长相同的新闻条数占比;
判断所述浏览时长相同的新闻条数占比是否大于或等于第六预设阈值,若是,则判定为异常指标值,反之,则判定为正常指标值;
以及
确定当日每条新闻浏览时长标准差在当日每条新闻平均浏览时长的占比,得到浏览时长的变异系数;
判断所述浏览时长的变异系数是否小于第七预设阈值,若是,则判定为异常指标值,反之,则判定为正常指标值。
5.根据权利要求1所述的基于屏幕操作特征的流量作弊识别方法,其特征在于,所述行为数据为视频观看时长时,所述方法包括如下步骤:
确定当日点观看时长相同的视频条数在当日总观看视频条数的占比,得到所述观看时长相同的视频条数占比;
判断所述观看时长相同的视频条数占比是否大于或等于第八预设阈值,若是,则判定为异常指标值,反之,则判定为正常指标值;
以及
确定当日每条视频观看时长标准差在当日每条视频平均观看时长的占比,得到观看时长的变异系数;
判断所述观看时长的变异系数是否小于第九预设阈值,若是,则判定为异常指标值,反之,则判定为正常指标值。
6.根据权利要求1所述的基于屏幕操作特征的流量作弊识别方法,其特征在于,所述行为数据为行为时间间隔时,所述方法包括如下步骤:
确定当日行为时间间隔相同的次数在当日总行为次数减1中的占比,得到所述行为时间间隔相同的次数占比;
判断所述行为时间间隔相同的次数占比是否大于或等于第十预设阈值,若是,则判定为异常指标值,反之,则判定为正常指标值;
以及
确定当日行为时间间隔标准差在当日行为时间间隔平均值的占比,得到行为时间间隔的变异系数;
判断所述行为时间间隔的变异系数是否小于第十一预设阈值,若是,则判定为异常指标值,反之,则判定为正常指标值。
7.基于屏幕操作特征的流量作弊识别装置,其特征在于,包括:
行为数据采集模块,被配置为在用户终端加载显示网页页面后,获取设定时间段内对象在网页页面的行为数据,并从所述行为数据中获取每个行为的发生次数,行为数据包括滑动距离、点击坐标、新闻浏览时长、视频观看时长和行为时间间隔;
指标值计算模块,被配置为计算每个行为数据对应的衍生指标的指标值;其中,滑动距离的衍生指标包括滑动距离相同的滑动次数占比、滑动距离的变异系数,点击坐标的衍生指标包括点击坐标相同的点击次数占比、点击坐标的变异系数,新闻浏览时长的衍生指标包括浏览时长相同的新闻条数占比、浏览时长的变异系数,视频观看时长的衍生指标包括观看时长相同的视频条数占比、观看时长的变异系数,行为时间间隔的衍生指标包括行为时间间隔相同的次数占比、行为时间间隔的变异系数;
异常判定模块,被配置为将每个衍生指标的指标值与其对应的预设阈值分别进行比较,确定该指标值是否异常,以及统计所有指标值异常的个数,确定异常指标值的总个数;
作弊流量分析模块,被配置为将异常指标值的总个数与异常阈值进行比较,若异常指标值的总个数大于或等于该异常阈值,则确定该用户终端的行为是流量作弊操作,反之,则确定该用户终端的行为不是流量作弊操作;或者,计算异常指标值的总个数在指标总个数中的占比,若占比大于或等于预设比例阈值,则确定该用户终端的行为是流量作弊操作,反之,则确定该用户终端的行为不是流量作弊操作。
8.一种电子设备,其特征在于,包括:通信接口,存储器,以及与所述存储器和所述通信接口连接的处理器;其中,
所述通信接口,用于在用户终端加载显示出网页页面后,获取对象于设定时间段内在网页页面的行为数据;
所述存储器,用于存储程序;
所述处理器,用于通过运行所述程序分析所述行为数据,以执行如权利要求1~6任一项所述的基于屏幕操作特征的流量作弊识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310507083.2A CN116541259A (zh) | 2023-05-05 | 2023-05-05 | 基于屏幕操作特征的流量作弊识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310507083.2A CN116541259A (zh) | 2023-05-05 | 2023-05-05 | 基于屏幕操作特征的流量作弊识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116541259A true CN116541259A (zh) | 2023-08-04 |
Family
ID=87443054
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310507083.2A Pending CN116541259A (zh) | 2023-05-05 | 2023-05-05 | 基于屏幕操作特征的流量作弊识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116541259A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117834995A (zh) * | 2024-01-05 | 2024-04-05 | 北京无忧创想信息技术有限公司 | 用于在线学习的视频防刷方法、系统、电子设备及介质 |
-
2023
- 2023-05-05 CN CN202310507083.2A patent/CN116541259A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117834995A (zh) * | 2024-01-05 | 2024-04-05 | 北京无忧创想信息技术有限公司 | 用于在线学习的视频防刷方法、系统、电子设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107391538B (zh) | 点击数据采集、处理和展示方法、装置、设备及存储介质 | |
CN110442511B (zh) | 可视化埋点测试方法及装置 | |
CN105868256A (zh) | 处理用户行为数据的方法和系统 | |
CN106202101B (zh) | 广告识别方法及装置 | |
CN106295382B (zh) | 一种信息风险防控方法及装置 | |
CN104348810B (zh) | 被盗帐号的检测方法、装置及系统 | |
CN111314173B (zh) | 监控信息异常的定位方法、装置、计算机设备及存储介质 | |
CN107809762B (zh) | 利用大数据与设备指纹的养卡识别的安全风险控制方法 | |
CN116541259A (zh) | 基于屏幕操作特征的流量作弊识别方法及装置 | |
CN105094569B (zh) | 一种信息提示方法、装置及电子设备 | |
CN108170830B (zh) | 群组事件数据可视化方法及系统 | |
CN111556070A (zh) | 网页异常访问检测方法及装置 | |
CN108845914A (zh) | 性能测试报告的生成方法、电子装置及可读存储介质 | |
CN109308589B (zh) | 电网自动化数据质量监测方法、存储介质、终端设备和系统 | |
CN112633573A (zh) | 活跃状态的预测方法以及活跃度阈值的确定方法 | |
CN104699798A (zh) | 样本数据的处理方法和装置 | |
CN110659188B (zh) | 页面画像数据处理方法、装置、计算机设备和存储介质 | |
CN116015842A (zh) | 一种基于用户访问行为的网络攻击检测方法 | |
CN105429792A (zh) | 用户行为流量获取方法及装置、用户行为分析方法及系统 | |
CN109299000A (zh) | 一种网页响应测试方法、计算机可读存储介质及终端设备 | |
CN116051185B (zh) | 广告位数据的异常检测与筛选方法 | |
CN115618151A (zh) | 一种基于机器学习的web前端监控方法、系统、装置及介质 | |
CN110569906A (zh) | 数据处理方法、数据处理装置及计算机可读存储介质 | |
CN106708705A (zh) | 终端后台进程监控方法和系统 | |
EP1622309A2 (en) | Method and system for treating events and data uniformly |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |