CN116541746A - 流量识别方法、装置、设备及介质 - Google Patents
流量识别方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN116541746A CN116541746A CN202310454877.7A CN202310454877A CN116541746A CN 116541746 A CN116541746 A CN 116541746A CN 202310454877 A CN202310454877 A CN 202310454877A CN 116541746 A CN116541746 A CN 116541746A
- Authority
- CN
- China
- Prior art keywords
- data
- dimension
- multimedia data
- multimedia
- dimensions
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 230000006399 behavior Effects 0.000 claims description 104
- 238000007476 Maximum Likelihood Methods 0.000 claims description 16
- 238000005070 sampling Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 9
- 230000000694 effects Effects 0.000 description 9
- 239000013598 vector Substances 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 238000001514 detection method Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000005856 abnormality Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000009545 invasion Effects 0.000 description 3
- 230000002411 adverse Effects 0.000 description 2
- 230000001680 brushing effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000009257 reactivity Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了一种流量识别方法、装置、设备及介质。本公开通过基于目标时间段内的多媒体播放数据,获取在目标时间段内被播放的多个多媒体数据的播放特征数据,对于任一多媒体数据,播放特征数据用于指示在目标时间段内播放过多媒体数据的用户账号在多个维度上的行为特征数据;对于多个维度中的任一维度,基于多个多媒体数据在该维度上所对应的行为特征数据,确定该维度所对应的信息熵;基于多个多媒体数据在多个维度上分别对应的信息熵,对多个多媒体数据进行流量识别,以识别出多个多媒体数据的流量中的无效流量,以实现对网络产品中的虚假流量识别。
Description
技术领域
本公开的实施方式涉及计算机技术领域,更具体地,本公开的实施方式涉及一种流量识别方法、装置、设备及介质。
背景技术
本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
随着互联网经济的繁荣和数字经济时代的到来,流量逐步成为了衡量网络产品市场反应度的一种重要指标。所谓“刷流量”,是指某个网络平台、网络服务提供方通过不正当的或非法的手段或技术提高某产品或服务在互联网平台上的浏览量、销售额、分享次数、粉丝人数、或用虚假的账户提供虚假评论和信息等的行为。例如,通过模拟器软件,将一台硬件设备伪造成数目众多的虚拟听歌设备,再通过群控软件控制多个虚拟听歌设备分别登录不同的账号,实现用一台设备模拟出不同的账号和设备的听歌数据,以达到批量刷播的目的。
相关技术中,真实的流量可以反映用户习惯和用户偏好,可以辅助网络产品的后续开发过程,而虚假的流量非但无法反映用户习惯和用户偏好,而且会干扰网络产品的正常业务环境,造成众多不良影响。因此,亟需一种流量识别方法,来识别网络产品中的虚假流量。
发明内容
在本上下文中,本公开的实施方式期望提供一种流量识别方法、装置、设备及介质,以对网络产品中的虚假流量进行识别。
在本公开实施方式的第一方面中,提供了一种流量识别方法,该方法包括:
基于目标时间段内的多媒体播放数据,获取在目标时间段内被播放的多个多媒体数据的播放特征数据,对于任一多媒体数据,播放特征数据用于指示在目标时间段内播放过多媒体数据的用户账号在多个维度上的行为特征数据;
对于多个维度中的第一维度,基于多个多媒体数据在第一维度上所对应的行为特征数据,确定第一维度所对应的信息熵,第一维度为多个维度中的任一维度;
基于多个多媒体数据在多个维度上分别对应的信息熵,对多个多媒体数据进行流量识别,以识别出多个多媒体数据的流量中的无效流量。
在本公开的一些实施例中,基于目标时间段内的多媒体播放数据,获取在目标时间段内被播放的多个多媒体数据的播放特征数据,包括:
基于目标时间段内的多媒体播放数据,获取在目标时间段内播放过多媒体数据的多个用户账号在多个维度上的行为特征数据;
基于多个用户账号在多个维度上的行为特征数据,获取多个多媒体数据的播放特征数据。
在本公开的一些实施例中,维度包括多媒体数据播放数量、播放完播率和播放时长中的至少一项。
在本公开的一些实施例中,基于多个多媒体数据在第一维度上所对应的行为特征数据,确定第一维度所对应的信息熵,包括下述任一项:
在第一维度所对应的行为特征数据为离散型数据的情况下,基于第一维度所对应的行为特征数据的数量以及第一维度所对应的各个行为特征数据的取值,确定第一维度所对应的信息熵。
在第一维度所对应的行为特征数据为连续性数据的情况下,基于第一维度所对应的行为特征数据的维数、第一维度所对应的行为特征数据的数量以及各个预设采样点与目标采样点之间的欧拉距离,确定第一维度所对应的信息熵。
在本公开的一些实施例中,基于多个多媒体数据在多个维度上分别对应的信息熵,对多个多媒体数据进行流量识别,以识别出多个多媒体数据的流量中的无效流量,包括:
对于任一多媒体数据,将多媒体数据在各个维度上分别对应的信息熵与对应维度的预设阈值进行比较;
在任一维度所对应的信息熵小于对应维度的预设阈值的情况下,确定多媒体数据的流量中存在无效流量。
在本公开的一些实施例中,基于多个多媒体数据在多个维度上分别对应的信息熵,对多个多媒体数据进行流量识别,以识别出多个多媒体数据的流量中的无效流量之后,该方法还包括:
对于存在无效流量的目标多媒体数据,基于目标多媒体数据中目标维度所对应的播放特征数据,确定目标维度所对应的最大似然特征值,以得到多个维度分别对应的最大似然特征值,目标维度为信息熵小于对应维度的预设阈值的维度;
基于在目标时间段内播放过多媒体数据的多个用户账号在多个维度上的行为特征数据以及多个维度分别对应的最大似然特征值,确定多个用户账号中的问题账号。
在本公开实施方式的第二方面中,提供了一种流量识别装置,该装置包括:
获取模块,用于基于目标时间段内的多媒体播放数据,获取在目标时间段内被播放的多个多媒体数据的播放特征数据,对于任一多媒体数据,播放特征数据用于指示在目标时间段内播放过多媒体数据的用户账号在多个维度上的行为特征数据;
确定模块,用于对于多个维度中的第一维度,基于多个多媒体数据在第一维度上所对应的行为特征数据,确定第一维度所对应的信息熵,第一维度为多个维度中的任一维度;
识别模块,用于基于多个多媒体数据在多个维度上分别对应的信息熵,对多个多媒体数据进行流量识别,以识别出多个多媒体数据的流量中的无效流量。
在本公开实施方式的第三方面中,提供了一种计算设备,计算设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,处理器执行程序时实现上述第一方面以及第一方面的任意实施例所提供的流量识别方法所执行的操作。
在本公开实施方式的第四方面中,提供了一种计算机可读存储介质,计算机可读存储介质上存储有程序,程序被处理器执行如上述第一方面以及第一方面的任意实施例所提供的流量识别方法所执行的操作。
在本公开实施方式的第五方面中,提供了一种计算机程序产品,计算机程序产品包括计算机程序,程序被处理器执行时实现如上述第一方面以及第一方面的任意实施例所提供的流量识别方法所执行的操作。
本公开通过基于目标时间段内的多媒体播放数据,获取在目标时间段内被播放的多个多媒体数据的播放特征数据,对于任一多媒体数据,播放特征数据用于指示在目标时间段内播放过多媒体数据的用户账号在多个维度上的行为特征数据;对于多个维度中的任一维度,基于多个多媒体数据在该维度上所对应的行为特征数据,确定该维度所对应的信息熵;基于多个多媒体数据在多个维度上分别对应的信息熵,对多个多媒体数据进行流量识别,以识别出多个多媒体数据的流量中的无效流量,以实现对网络产品中的虚假流量识别。
附图说明
通过参考附图阅读下文的详细描述,本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本公开的若干实施方式,其中:
图1是本公开根据一示例性实施例示出的一种流量识别方法的流程图;
图2是本公开根据一示例性实施例示出的一种流量识别方法的流程图;
图3是本公开根据一示例性实施例示出的一种流量识别装置的框图;
图4是本公开根据一示例性实施例示出的一种计算机可读存储介质的示意图;
图5是本公开根据一示例性实施例示出的一种计算设备的结构示意图;
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开,而并非以任何方式限制本公开的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域技术人员知道,本公开的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
为便于理解,首先对与本公开相关的技术术语进行介绍。
设备模拟器(Emulator):一种用软件可以将硬件模拟成其他设备环境的软件工具。
信息熵(Information Entropy,IE):信息论中由香农提出的一个概念,信息熵的值是信息量量化的指标。
异常检测方法(Anomaly Detection,AD):通过数据挖掘手段识别数据中的异常点,常见的异常检测方法有基于密度的异常检测、时序异常检测等。
在介绍了与本公开相关的技术术语之后,下面从多个方面,对本公开所提供的流量识别方法进行详细说明。
发明概述
本发明人发现,目前各类软件的流量安全都面临着不同程度的虚假流量影响,诸如“刷流量”这种欺诈行为产生的虚假流量会严重干扰软件的正常业务环境,造成众多不良影响。
因此,识别软件流量中的虚假流量,对于维持软件的正常业务环境至关重要。但是,软件每天所产生的流量的数据规模庞大,这给虚假流量的识别带来了巨大的困难,对于大规模数据的场景,如何在对用户无干扰的情况下实现虚假流量的识别是一个亟待解决的问题。
针对上述需求,本公开提出一种在大规模数据的场景下,基于群体账号在软件中的行为数据计算各个用户账号的行为信息熵,以基于所计算出的各个用户账号的行为信息熵来判断各个用户账号在软件中的行为是否单一,进而判断各个用户账号在软件中的行为是否是欺诈行为,以实现对虚假流量的识别。
应用场景概述
本公开所提供的流量识别方法,可以用于对多种软件中的虚假流量进行识别。例如,可以通过本公开所提供的流量识别方法,对多媒体播放软件中的虚假流量进行识别,以识别出多媒体播放软件中存在欺诈行为的虚假播放流量。
上述流量识别方法可以由计算设备执行,计算设备可以为服务器,如一台服务器、多台服务器、服务器集群、云计算平台等,可选地,计算设备还可以为其他类型的设备,本公开对计算设备的设备类型不加以限定。
需要注意的是,上述应用场景仅是为了便于理解本公开的精神和原理而示出,本公开的实施方式在此方面不受任何限制。相反,本公开的实施方式可以应用于适用的任何场景。
示例性方法
下面结合上述有关应用场景的介绍,来对本公开所提供的流量识别方法进行详细介绍。
参见图1,图1是本公开根据一示例性实施例示出的一种流量识别方法的流程图,如图1所示,该方法包括:
S101、基于目标时间段内的多媒体播放数据,获取在目标时间段内被播放的多个多媒体数据的播放特征数据,对于任一多媒体数据,播放特征数据用于指示在目标时间段内播放过多媒体数据的用户账号在多个维度上的行为特征数据。
其中,目标时间段可以为任意时间段。例如,相关技术人员可以设置每隔预设时长进行一次流量识别,则目标时间段可以为当前时刻之前预设时长所对应的时间段,预设时长可以为任意时长;或者,相关技术人员可以直接设置需要进行流量识别的起止时间,通过起止时间即可指示目标时间段,可选地,目标时间段还可以为其他类型,本公开对此不加以限定。
在目标时间段内,可能有多个用户账号进行过多媒体数据的播放,并且,每个用户账号可能播放了不止一个多媒体数据,每个被播放的多媒体数据都有对应的多媒体播放数据,从而可以基于在目标时间段内被播放过的多媒体数据所对应的多媒体播放数据,来获取在目标时间段内被播放的多个多媒体数据的播放特征数据。
可选地,多媒体数据可以为视频数据、音频数据,等等,本公开对多媒体数据的具体类型不加以限定。
S102、对于多个维度中的第一维度,基于多个多媒体数据在第一维度上所对应的行为特征数据,确定第一维度所对应的信息熵,第一维度为多个维度中的任一维度。
需要说明的是,对于行为特征数据所对应的多个维度,每个维度都可以得到一个对应的信息熵,从而可以得到多个信息熵,一个信息熵对应于行为特征数据的一个维度。
S103、基于多个多媒体数据在多个维度上分别对应的信息熵,对多个多媒体数据进行流量识别,以识别出多个多媒体数据的流量中的无效流量。
通过确定行为特征数据的每个维度对应的信息熵,以便可以基于某个多媒体数据在任一维度上的一条播放特征数据以及该维度所对应的信息熵,来判断该多媒体数据的这条播放特征数据所对应的流量是否为虚假流量。
通过本公开所提供的方案,仅依靠用于指示用户账号的播放行为特征的行为特征数据,即可实现对虚假流量的识别,无需使用用户账号的其他静态数据(如账号设备信息、账号历史行为画像特征等),具有高鲁棒性、高便利性、高准确性、高实用性、低成本、账号零侵扰等优点。
在介绍了本公开的基本实现过程之后,下面对本公开的各种非限制性实施方式进行介绍。
在一些实施例中,对于步骤S101,在基于目标时间段内的多媒体播放数据,获取在目标时间段内被播放的多个多媒体数据的播放特征数据时,可以通过如下步骤实现:
S1011、基于目标时间段内的多媒体播放数据,获取在目标时间段内播放过多媒体数据的多个用户账号在多个维度上的行为特征数据。
其中,多媒体播放数据可以是日志数据。以多媒体播放数据为日志数据为例,多媒体播放数据可以记录有不同时刻被播放的多媒体数据的数据标识、播放该多媒体数据的用户账号、以及该用户账号在多个维度上的行为特征数据。
可选地,多个维度可以包括多媒体数据播放数量(也即是该用户账号在目标时间段内播放过的多媒体数据的数量)、播放时长、播放完播率,等等,本公开对具体包括哪几种维度不加以限定。
需要说明的是,在所获取到的多媒体播放数据中,不同多媒体数据、不同用户账号所对应的数据都是混杂在一起的,因而,可以以用户账号作为分组维度,将属于同一个用户账号的多媒体播放数据划分为一组,以将所获取到的多媒体播放数据划分为多组,同组多媒体播放数据对应于同一用户账号,而不同组的多媒体播放数据所对应的用户账号不同。
可选地,对于在目标时间段内发生过多媒体数据播放行为的用户账号,可以采用列表来对该用户账号在目标时间段内播放过的多媒体数据的数据标识进行存储,并且,可以基于列表中的多个多媒体数据所对应的多媒体播放数据,确定该用户账号在多个维度的行为特征数据。
例如,若目标时间段内有M个用户账号,每个用户账号有N个维度的行为特征数据,这N个维度可以包括多媒体数据播放数量、播放时长、播放完播率等。对用户账号i(1≤i≤M),其播放过的多媒体数据列表可以记为Si={s1,s2,…,sq},其中,q为用户账号i在目标时间段内播放过的多媒体数据数量,基于列表Si中的多媒体数据所对应的多媒体播放数据,即可确定出用N维特征向量Xi={x1,x2,…,xN}表示的用户账号i的行为特征数据。
S1012、基于多个用户账号在多个维度上的行为特征数据,获取多个多媒体数据的播放特征数据。
需要说明的是,对于目标时间段内被播放过的每个多媒体数据,可以获取每个多媒体数据对应的用户账号集合,对于任一多媒体数据,该多媒体数据对应的用户账号集合中存储有在目标时间段内播放过该多媒体数据的多个用户账号,而每个用户账号的行为特征数据均已通过步骤S1011获取到了,则可以将在目标时间段内播放过该多媒体数据的多个用户账号的行为特征数据组成集合,以得到该多媒体数据对应的播放特征数据。
例如,若目标时间段内被播放过的多媒体数据有P个,则对于多媒体数据j(1≤j≤P),可以获取在目标时间段内播放过多媒体数据j的用户账号所组成的用户账号集合,该用户账号集合中所包括的用户账号的行为特征数据即可组成多媒体数据j所对应的行为特征集合(也即是多媒体数据j的播放特征数据)。
在采用N维特征向量表示用户账号的行为特征数据的情况下,对于目标时间段内被t个用户账号播放过的多媒体数据j,多媒体数据j的播放特征数据由用于表示这t个用户账号的行为特征数据的向量组成,多媒体数据j的播放特征数据可以记为Yj={X1,X2,…,Xt},其中,X1,X2,…,Xt均为N维的特征向量。
需要说明的是,可以看出,通过上述过程所获取到的播放特征数据也是对应于多个维度的,并且,播放特征数据所对应的维度与组成该播放特征数据的行为特征数据所对应的维度一致,或者说,播放特征数据由多个维度的行为特征数据组成。
在通过上述过程获取到各个多媒体数据的播放特征数据之后,对于播放特征数据所对应的多个维度中的任一维度(称为第一维度),即可通过步骤S102,基于多个多媒体数据在第一维度上所对应的行为特征数据,确定第一维度所对应的信息熵。
需要说明的是,仍参见步骤S1012中的示例,多媒体数据j在目标时间段内的播放特征数据Yj(Yj={X1,X2,…,Xt})是一个含有t个向量的集合,其中,Xe(1≤e≤t)是在目标时间段内播放过多媒体数据j的一个用户账号在目标时间段内的行为特征数据,行为特征数据Xe是一个N维的特征向量。
则,对于每个维度d(1≤d≤N),都可以对应于一个数目为t的样本集合{x1,d,x2,d,…,xe,d,…,xt,d},其中,xe,d(1≤e≤t,1≤d≤N)是Yj中向量Xe的第d个特征值。
需要说明的是,对于多媒体数据j在每个维度对应的样本集合,该样本集合中包括的均是在目标时间段内播放过多媒体数据j的用户账号在该维度的行为特征数据值,一般而言,可以通过计算某个维度所对应的信息熵的方式,来计算多个用户账号在该维度的播放行为所包含的信息量的大小。
但是,需要注意的是,特征数据可以为离散型数据或连续型数据,例如,多媒体数据的播放次数记为离散型数据,用户账号的完播率即为连续型数据,而计算离散型数据的信息熵和连续型数据的信息熵的方式有所不同,因而,下面分别对第一维度所对应的行为特征数据为离散型数据、以及第一维度所对应的行为特征数据为连续型数据这两种情况下计算信息熵的过程进行介绍:
在一种可能的实现方式中,在第一维度所对应的行为特征数据为离散型数据的情况下,基于第一维度所对应的行为特征数据的数量以及第一维度所对应的各个行为特征数据的取值,确定第一维度所对应的信息熵。
例如,可以基于如下公式(1)和公式(2),来在第一维度所对应的行为特征数据为离散型数据的情况下,实现第一维度所对应的信息熵的确定:
P(xi)=N(xi)/N (2)
其中,H(X)表示第一维度所对应的信息熵,N表示第一维度所对应的行为特征数据的数量,N(xi)表示取值为xi的行为特征数据的数量,P(xi)表示取值为xi的行为特征数据的数量在第一维度所对应的行为特征数据的数量中的占比,I表示在目标时间段内播放过多媒体数据的用户账号集合。
在另一种可能的实现方式中,在第一维度所对应的行为特征数据为连续性数据的情况下,基于第一维度所对应的行为特征数据的维数、第一维度所对应的行为特征数据的数量以及各个预设采样点与目标采样点之间的欧拉距离,确定第一维度所对应的信息熵。
例如,可以基于如下公式(3),来在第一维度所对应的行为特征数据为连续型数据的情况下,实现第一维度所对应的信息熵的确定:
其中,H(X)表示第一维度所对应的信息熵,N表示第一维度所对应的行为特征数据的数量,k可以为根据实际技术需求预先设置好的正整数值,是Digamma函数,εi是取值为xi的行为特征数据(也即是目标采样点)与其第k个邻居(也即是与目标采样点之间间隔采样点数为k-1的采用,记为预设采样点)之间的欧拉距离,D为行为特征数据的维数。需要说明的是,/>τ为Gamma函数。
在通过上述过程获取到各个维度所对应的信息熵之后,即可通过步骤S103,基于多个多媒体数据在多个维度上分别对应的信息熵,对多个多媒体数据进行流量识别,以识别出多个多媒体数据的流量中的无效流量。
在一些实施例中,上述步骤S103可以通过如下步骤实现:
S1031、对于任一多媒体数据,将多媒体数据在各个维度上分别对应的信息熵与对应维度的预设阈值进行比较。
需要说明的是,不同维度所对应的预设阈值可以不同,各个维度所对应的预设阈值的具体取值可以由技术人员根据实际技术需求确定,本公开对各个维度所对应的预设阈值的具体取值不加以限定。
S1032、在任一维度所对应的信息熵小于对应维度的预设阈值的情况下,确定多媒体数据的流量中存在无效流量。
需要说明的是,当某一个维度所对应的信息熵小于对应维度的预设阈值时,则说明该多媒体数据的流量在该维度存在高度一致性,播放过该多媒体数据歌曲的用户账号的播放行为特征在此维度存在群体性质,从而即可认为给多媒体播放数据的流量中存在虚假流量,这部分虚假流量也即是无效流量。
可选地,在通过步骤S103,基于多个多媒体数据在多个维度上分别对应的信息熵,对多个多媒体数据进行流量识别,以识别出多个多媒体数据的流量中的无效流量之后,还可以包括如下步骤:
S104、对于存在无效流量的目标多媒体数据,基于目标多媒体数据中目标维度所对应的播放特征数据,确定目标维度所对应的最大似然特征值,以得到多个维度分别对应的最大似然特征值,目标维度为信息熵小于对应维度的预设阈值的维度。
需要说明的是,对于存在无效流量的目标多媒体数据,可以对其信息熵小于对应预设阈值的目标维度的最大似然值进行存储,以实现对至少一个目标维度的最大似然值的收集,以便可以基于至少一个目标维度的最大似然值形成欺诈行为模板,可选地,欺诈行为模板可以记为A={s1:f1,s2:f2,...,so:fo},其中,对于欺诈行为模板中的任意一项a(1≤a≤o),sa是目标多媒体数据的数据标识,fa是目标多媒体数据具有一致性的目标维度所对应的最大似然特征值。
S105、基于在目标时间段内播放过多媒体数据的多个用户账号在多个维度上的行为特征数据以及多个维度分别对应的最大似然特征值,确定多个用户账号中的问题账号。
需要说明的是,对于用户账号i,其特征向量Xi为一个N维的特征向量,用户账号i在目标时间段内播放过的多媒体数据所组成的列表Si中包括O首歌,则可以获取用户账号i的播放行为模板Bi,其中,Bi={s1:x1,s1:x2,...,s1:xN,…,so:x1,so:x2,...,so:xN},Bi是包括N*O个元素的集合。
可选地,在获取到用户账号i存在欺诈行为的播放行为模板Bi之后,即可将用户账号i的播放行为模板Bi和欺诈行为模板A求交集,当交集中的元素数目超过预先设置好的阈值时,即可确定用户账号i是欺诈行为的来源账号,从而即可将其标记为欺诈账号(也即是问题账号)。
通过对问题账号进行标记,以便后续可以对问题账号在软件中的行为进行重点关注,以保证软件的流量安全。
上述各个实施例所提供的流量识别方法可以参见图2,图2是本公开根据一示例性实施例示出的一种流量识别方法的流程图,如图2所示,可以基于目标时间段内的多媒体播放数据获取各个用户账号的行为特征数据,从而基于各个用户账号的行为特征数据获取各个多媒体数据的播放特征数据,以计算每个维度所对应的信息熵,进而基于计算出的信息熵进行无效流量识别。进一步地,还可以在识别出无效流量之后进行问题账号的圈定,以识别出多个用户账号中的问题账号,从而输出存在无效流量的目标多媒体数据和圈定出的问题账号,以辅助技术人员维护流量安全。
本公开所提供的流量识别方法,通过计算歌曲播放行为的特征信息熵,信息熵可以用于衡量歌曲播放行为的信息量大小。信息熵的值越小,则表明用户账号的播放行为具有高度的一致性越高,用户账号的播放行为存在群体性质可能性也越高;而且,当信息熵小于预设阈值时,则可以认定用户账号的播放行为具有高度的一致性和群体性,具有流量欺诈的嫌疑。通过本公开所提供的方案,只需依赖多媒体播放数据即可实现流量识别,无需更多的数据或信息,使得本公开所提供的方案具有高鲁棒性、高便利性、高准确性、高实用性、低成本、账号零侵扰等优点。
另外,本公开还提出了一种圈定问题账号的方式,通过对比某个用户账号的播放行为特征值和存在无效流量的目标多媒体数据的最大似然特征值之间的重合性,以判断某个账号是否存在欺诈行为,从而实现对问题账号的识别。通过本公开所提供的方案,只需依赖多媒体播放数据即可实现问题账号的识别,无需更多的数据或信息,使得本公开所提供的方案具有高鲁棒性、高便利性、高准确性、高实用性、低成本、账号零侵扰等优点。
示例性装置
另外,本公开还提供了一种流量识别装置,参见图3,图3是本公开根据一示例性实施例示出的一种流量识别装置的框图,如图3所示,该装置包括:
获取模块301,用于基于目标时间段内的多媒体播放数据,获取在目标时间段内被播放的多个多媒体数据的播放特征数据,对于任一多媒体数据,播放特征数据用于指示在目标时间段内播放过多媒体数据的用户账号在多个维度上的行为特征数据;
确定模块302,用于对于多个维度中的第一维度,基于多个多媒体数据在第一维度上所对应的行为特征数据,确定第一维度所对应的信息熵,第一维度为多个维度中的任一维度;
识别模块303,用于基于多个多媒体数据在多个维度上分别对应的信息熵,对多个多媒体数据进行流量识别,以识别出多个多媒体数据的流量中的无效流量。
在本公开的一些实施例中,获取模块301,在用于基于目标时间段内的多媒体播放数据,获取在目标时间段内被播放的多个多媒体数据的播放特征数据时,用于:
基于目标时间段内的多媒体播放数据,获取在目标时间段内播放过多媒体数据的多个用户账号在多个维度上的行为特征数据;
基于多个用户账号在多个维度上的行为特征数据,获取多个多媒体数据的播放特征数据。
在本公开的一些实施例中,维度包括多媒体数据播放数量、播放完播率和播放时长中的至少一项。
在本公开的一些实施例中,确定模块302,在用于基于多个多媒体数据在第一维度上所对应的行为特征数据,确定第一维度所对应的信息熵时,用于下述任一项:
在第一维度所对应的行为特征数据为离散型数据的情况下,基于第一维度所对应的行为特征数据的数量以及第一维度所对应的各个行为特征数据的取值,确定第一维度所对应的信息熵。
在第一维度所对应的行为特征数据为连续性数据的情况下,基于第一维度所对应的行为特征数据的维数、第一维度所对应的行为特征数据的数量以及各个预设采样点与目标采样点之间的欧拉距离,确定第一维度所对应的信息熵。
在本公开的一些实施例中,识别模块303,在用于基于多个多媒体数据在多个维度上分别对应的信息熵,对多个多媒体数据进行流量识别,以识别出多个多媒体数据的流量中的无效流量时,用于:
对于任一多媒体数据,将多媒体数据在各个维度上分别对应的信息熵与对应维度的预设阈值进行比较;
在任一维度所对应的信息熵小于对应维度的预设阈值的情况下,确定多媒体数据的流量中存在无效流量。
在本公开的一些实施例中,确定模块302,还用于对于存在无效流量的目标多媒体数据,基于目标多媒体数据中目标维度所对应的播放特征数据,确定目标维度所对应的最大似然特征值,以得到多个维度分别对应的最大似然特征值,目标维度为信息熵小于对应维度的预设阈值的维度;
确定模块302,还用于基于在目标时间段内播放过多媒体数据的多个用户账号在多个维度上的行为特征数据以及多个维度分别对应的最大似然特征值,确定多个用户账号中的问题账号。
应当注意,尽管在上文详细描述中提及了流量识别装置的若干模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之,上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。
示例性介质
本公开实施例还提供了一种计算机可读存储介质。图4是本公开根据一示例性实施例示出的一种计算机可读存储介质的示意图,如图4所示,该存储介质上存储有计算机程序401,该计算机程序401被处理器执行时可以执行本公开任一实施例所提供的流量识别方法。
示例性设备
本公开实施例还提供了一种计算设备,该计算设备可以包括存储器、处理器,该存储器用于存储可在处理器上运行的计算机指令,该处理器用于在执行该计算机指令时实现本公开任一实施例所提供的流量识别方法。参见图5,图5是本公开根据一示例性实施例示出的一种计算设备的结构示意图,该计算设备500可以包括但不限于:处理器510、存储器520、连接不同系统组件(包括存储器520和处理器510)的总线530。
其中,存储器520存储有计算机指令,该计算机指令可以被处理器510执行,使得处理器510能够执行本公开任一实施例所提供的流量识别方法。存储器520可以包括随机存取存储单元RAM521、高速缓存存储单元522和/或只读存储单元ROM523。该存储器520还可以包括:具有一组程序模块524的程序工具525,该程序模块524包括但不限于:操作系统、一个或多个应用程序、其他程序模块和程序数据,这些程序模块一种或多种组合可以包含网络环境的实现。
总线530例如可以包括数据总线、地址总线和控制总线等。该计算设备500还可以通过I/O接口540与外部设备550通信,该外部设备550例如可以是键盘、蓝牙设备等。该计算设备500还可以通过网络适配器560与一个或多个网络通信,例如,该网络可以是局域网、广域网、公共网络等。如图5所示,该网络适配器560还可以通过总线530与计算设备500的其他模块进行通信。
示例性产品
本公开实施例还提供了一种计算机程序产品,该计算机程序产品包括计算机程序,程序被计算设备500的处理器510执行时,可以实现本公开任一实施例所提供的流量识别方法。
此外,尽管在附图中以特定顺序描述了本公开方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本公开的精神和原理,但是应该理解,本公开并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。
Claims (10)
1.一种流量识别方法,其特征在于,所述方法包括:
基于目标时间段内的多媒体播放数据,获取在所述目标时间段内被播放的多个多媒体数据的播放特征数据,对于任一多媒体数据,所述播放特征数据用于指示在所述目标时间段内播放过所述多媒体数据的用户账号在多个维度上的行为特征数据;
对于所述多个维度中的第一维度,基于所述多个多媒体数据在所述第一维度上所对应的行为特征数据,确定所述第一维度所对应的信息熵,所述第一维度为所述多个维度中的任一维度;
基于所述多个多媒体数据在所述多个维度上分别对应的信息熵,对所述多个多媒体数据进行流量识别,以识别出所述多个多媒体数据的流量中的无效流量。
2.根据权利要求1所述的方法,其特征在于,所述基于目标时间段内的多媒体播放数据,获取在所述目标时间段内被播放的多个多媒体数据的播放特征数据,包括:
基于所述目标时间段内的多媒体播放数据,获取在所述目标时间段内播放过多媒体数据的多个用户账号在多个维度上的行为特征数据;
基于所述多个用户账号在多个维度上的行为特征数据,获取所述多个多媒体数据的播放特征数据。
3.根据权利要求1或2所述的方法,其特征在于,所述维度包括多媒体数据播放数量、播放完播率和播放时长中的至少一项。
4.根据权利要求1所述的方法,其特征在于,所述基于所述多个多媒体数据在所述第一维度上所对应的行为特征数据,确定所述第一维度所对应的信息熵,包括下述任一项:
在所述第一维度所对应的行为特征数据为离散型数据的情况下,基于所述第一维度所对应的行为特征数据的数量以及所述第一维度所对应的各个行为特征数据的取值,确定所述第一维度所对应的信息熵;
在所述第一维度所对应的行为特征数据为连续性数据的情况下,基于所述第一维度所对应的行为特征数据的维数、所述第一维度所对应的行为特征数据的数量以及各个预设采样点与目标采样点之间的欧拉距离,确定所述第一维度所对应的信息熵。
5.根据权利要求1所述的方法,其特征在于,所述基于所述多个多媒体数据在所述多个维度上分别对应的信息熵,对所述多个多媒体数据进行流量识别,以识别出所述多个多媒体数据的流量中的无效流量,包括:
对于任一多媒体数据,将所述多媒体数据在各个维度上分别对应的信息熵与对应维度的预设阈值进行比较;
在任一维度所对应的信息熵小于对应维度的预设阈值的情况下,确定所述多媒体数据的流量中存在无效流量。
6.根据权利要求5所述的方法,其特征在于,所述基于所述多个多媒体数据在所述多个维度上分别对应的信息熵,对所述多个多媒体数据进行流量识别,以识别出所述多个多媒体数据的流量中的无效流量之后,所述方法还包括:
对于存在无效流量的目标多媒体数据,基于所述目标多媒体数据中目标维度所对应的播放特征数据,确定所述目标维度所对应的最大似然特征值,以得到多个维度分别对应的最大似然特征值,所述目标维度为信息熵小于对应维度的预设阈值的维度;
基于在所述目标时间段内播放过多媒体数据的多个用户账号在多个维度上的行为特征数据以及所述多个维度分别对应的最大似然特征值,确定所述多个用户账号中的问题账号。
7.一种流量识别装置,其特征在于,所述装置包括:
获取模块,用于基于目标时间段内的多媒体播放数据,获取在所述目标时间段内被播放的多个多媒体数据的播放特征数据,对于任一多媒体数据,所述播放特征数据用于指示在所述目标时间段内播放过所述多媒体数据的用户账号在多个维度上的行为特征数据;
确定模块,用于对于所述多个维度中的第一维度,基于所述多个多媒体数据在所述第一维度上所对应的行为特征数据,确定所述第一维度所对应的信息熵,所述第一维度为所述多个维度中的任一维度;
识别模块,用于基于所述多个多媒体数据在所述多个维度上分别对应的信息熵,对所述多个多媒体数据进行流量识别,以识别出所述多个多媒体数据的流量中的无效流量。
8.根据权利要求7所述的装置,其特征在于,所述获取模块,在用于基于目标时间段内的多媒体播放数据,获取在所述目标时间段内被播放的多个多媒体数据的播放特征数据时,用于:
基于所述目标时间段内的多媒体播放数据,获取在所述目标时间段内播放过多媒体数据的多个用户账号在多个维度上的行为特征数据;
基于所述多个用户账号在多个维度上的行为特征数据,获取所述多个多媒体数据的播放特征数据。
9.一种计算设备,其特征在于,所述计算设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现如权利要求1至6中任一项所述的流量识别方法所执行的操作。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有程序,所述程序被处理器执行如权利要求1至6中任一项所述的流量识别方法所执行的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310454877.7A CN116541746A (zh) | 2023-04-21 | 2023-04-21 | 流量识别方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310454877.7A CN116541746A (zh) | 2023-04-21 | 2023-04-21 | 流量识别方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116541746A true CN116541746A (zh) | 2023-08-04 |
Family
ID=87446275
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310454877.7A Pending CN116541746A (zh) | 2023-04-21 | 2023-04-21 | 流量识别方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116541746A (zh) |
-
2023
- 2023-04-21 CN CN202310454877.7A patent/CN116541746A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110992169A (zh) | 一种风险评估方法、装置、服务器及存储介质 | |
CN106294105A (zh) | 刷量工具检测方法和装置 | |
CN112990294B (zh) | 行为判别模型的训练方法、装置、电子设备及存储介质 | |
CN112131322B (zh) | 时间序列分类方法及装置 | |
CN104778123A (zh) | 一种检测系统性能的方法及装置 | |
CN110119340A (zh) | 异常监测方法、装置、电子设备和存储介质 | |
CN111125658A (zh) | 识别欺诈用户的方法、装置、服务器和存储介质 | |
CN109711849B (zh) | 以太坊地址画像生成方法、装置、电子设备及存储介质 | |
CN109408361A (zh) | Monkey测试复原方法、装置、电子设备及计算机可读存储介质 | |
CN112003834A (zh) | 异常行为检测方法和装置 | |
CN115034596A (zh) | 一种风险传导预测方法、装置、设备和介质 | |
CN113822693A (zh) | 用户购买力评价值的生成方法、装置、设备及存储介质 | |
CN116541746A (zh) | 流量识别方法、装置、设备及介质 | |
CN115345600A (zh) | 一种rpa流程的生成方法和装置 | |
CN113225325B (zh) | 一种ip黑名单确定方法、装置、设备及存储介质 | |
CN109522451B (zh) | 重复视频检测方法和装置 | |
CN111859985B (zh) | Ai客服模型测试方法、装置、电子设备及存储介质 | |
CN114169451A (zh) | 行为数据分类处理方法、装置、设备及存储介质 | |
CN112651764B (zh) | 一种目标用户识别方法、装置、设备和存储介质 | |
CN111127057B (zh) | 一种多维用户画像恢复方法 | |
CN113723436A (zh) | 数据的处理方法、装置、计算机设备和存储介质 | |
CN113760696A (zh) | 一种程序问题定位方法、装置、电子设备和存储介质 | |
CN110719506A (zh) | 用户对视频的兴趣度确定方法、装置、服务器及存储介质 | |
CN110399243B (zh) | 蓝屏原因确定方法、系统、计算机可读介质及电子设备 | |
CN112100056B (zh) | 应用评估方法、系统、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |