CN114742572A - 异常流量的识别方法和装置、存储介质、电子装置 - Google Patents
异常流量的识别方法和装置、存储介质、电子装置 Download PDFInfo
- Publication number
- CN114742572A CN114742572A CN202210189201.5A CN202210189201A CN114742572A CN 114742572 A CN114742572 A CN 114742572A CN 202210189201 A CN202210189201 A CN 202210189201A CN 114742572 A CN114742572 A CN 114742572A
- Authority
- CN
- China
- Prior art keywords
- data
- traffic
- identified
- advertisement
- advertisement traffic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0248—Avoiding fraud
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Security & Cryptography (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Business, Economics & Management (AREA)
- Molecular Biology (AREA)
- Signal Processing (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Hardware Design (AREA)
- Computer Networks & Wireless Communication (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种异常流量的识别方法和装置、存储介质、电子装置。其中,该方法包括:获取目标广告流量,目标广告流量为待识别异常的广告流量;对目标广告流量进行预处理,得到待识别数据,预处理用于将目标广告流量处理为符合预设要求的待识别数据;利用特征提取模型对待识别数据进行特征提取,得到待识别数据的数据特征;调用异常流量检测模型,利用待识别数据的数据特征确定目标广告流量是否为异常流量。本申请解决了相关技术中进行异常检测的效率较低的技术问题。
Description
技术领域
本申请涉及互联网领域,具体而言,涉及一种异常流量的识别方法和装置、存储介质、电子装置。
背景技术
近年来,随着移动互联网的不断发展和普及,将品牌和产品与消费者紧密相连的互联网广告,这一形式越来越收到广告主的亲赖,数字营销市场的整体规模也迅速扩大,而与网络广告市场繁荣相伴相生的广告欺诈问题已经成为营销广告的顽疾,如何防止互联网的广告欺诈行为也成为了广告主关心的大事之一。广告黑产为了非法获利,通过各种技术操作绕过各种资源限制、提高访问频率,通过脚本、模拟器、群控、借助域名和App变造及众包流量等做法制造大量无效流量,广告欺诈行为日益猖獗。
目前大多的异常流量检测方法采用基于规则的方法,专家通过对常见的异常流量进行分类,并对每个异常类别进行归纳总结,得到识别每个异常类别的规则,然后通过这些规则在众多流量中去识别与过滤规则内的异常流量。面对不断迭代更新的欺诈行为,这种方法的泛化性不足,且需要人工参与(如每次发生迭代后需要更新规则,将规则生效等),规则阈值的选取会很大程度地影响异常流量检测的精度。
针对上述由于人工参与引起的效率较低的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种异常流量的识别方法和装置、存储介质、电子装置,以至少解决相关技术中进行异常检测的效率较低的技术问题。
根据本申请实施例的一个方面,提供了一种异常流量的识别方法,包括:获取目标广告流量,目标广告流量为待识别异常的广告流量;对目标广告流量进行预处理,得到待识别数据,其中,预处理用于将目标广告流量处理为符合预设要求的待识别数据;利用特征提取模型对待识别数据进行特征提取,得到待识别数据的数据特征;调用异常流量检测模型,利用待识别数据的数据特征确定目标广告流量是否为异常流量。
可选地,调用异常流量检测模型,利用待识别数据的数据特征确定目标广告流量是否为异常流量,包括:获取异常流量检测模型,其中,异常流量检测模型是基于图卷积神经网络和类原型向量的半监督网络进行训练得到的;调用异常流量检测模型,利用保存的特征映射层参数与类原型向量对待识别数据的数据特征进行识别,以确定目标广告流量是否为异常流量。
可选地,获取异常流量检测模型,包括:获取原始广告流量,其中,原始广告流量为用于训练的广告流量;对原始广告流量进行预处理,以将原始广告流量处理为符合预设要求的广告流量样本;对广告流量样本进行特征提取和特征组合统计,以得到特征提取模型;构建基于图卷积神经网络和类原型向量的半监督网络模型,并利用广告流量样本的数据特征对半监督网络模型进行训练,得到异常流量检测模型。
可选地,构建基于图卷积神经网络和类原型向量的半监督网络模型,包括:构建图卷积神经网络GCN:以每个广告流量样本作为图卷积神经网络GCN中的一个节点,若两个节点的广告流量样本的用户标识相同,则建立两个节点之间的边并将两个节点之间的关联权重设为1;若两个节点的广告流量样本的用户标识不相同,则不建立两个节点之间的边并将两个节点之间的关联权重设为0;构建基于图卷积神经网络GCN与类原型向量的半监督网络模型。
可选地,构建基于图卷积神经网络GCN与类原型向量的半监督网络模型,包括构建包括如下网络的半监督网络模型:输入层,输入层的输入包括广告流量样本的数据特征的数据集;图卷积层,图卷积层用于对数据集进行卷积,得到伪标记概率矩阵;特征映射层,特征映射层用于进行数据特征的映射,以聚合同一类别的数据特征的投影向量、疏远不同类别的数据特征的投影向量;类贡献度层,类贡献度层用于确定样本对于构建的类原型向量的贡献度,其中,样本在特征空间的投影向量距离类原型向量越近则贡献度越大;原型向量层,原型向量层用于确定类原型向量;分类器层,分类器层用于确定样本所属类别和属于该类别的概率。
可选地,广告流量样本包括含有标记的流量样本和未标记的流量样本。
可选地,对原始广告流量进行预处理,包括以下至少之一:对原始广告流量进行数据对齐;对原始广告流量进行数据类型转换;对原始广告流量进行数据编码;对原始广告流量进行缺失值填补;对原始广告流量进行去重处理;对原始广告流量进行数据分桶处理;对原始广告流量进行特征标准化处理。
根据本申请实施例的另一方面,还提供了一种异常流量的识别装置,包括:获取单元,用于获取目标广告流量,其中,目标广告流量为待识别异常的广告流量;预处理单元,用于对目标广告流量进行预处理,得到待识别数据,其中,预处理用于将目标广告流量处理为符合预设要求的待识别数据;特征提取单元,用于利用特征提取模型对待识别数据进行特征提取,得到待识别数据的数据特征;识别单元,用于调用异常流量检测模型,利用待识别数据的数据特征确定目标广告流量是否为异常流量。
根据本申请实施例的另一方面,还提供了一种存储介质,该存储介质包括存储的程序,程序运行时执行上述的方法。
根据本申请实施例的另一方面,还提供了一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器通过计算机程序执行上述的方法。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方法中任一实施例的步骤。
本申请可用于EIP产品中支持数据能力(如数据挖掘),在本申请实施例中,获取目标广告流量,目标广告流量为待识别异常的广告流量;对目标广告流量进行预处理,得到待识别数据,预处理用于将目标广告流量处理为符合预设要求的待识别数据;利用特征提取模型对待识别数据进行特征提取,得到待识别数据的数据特征;调用异常流量检测模型,利用待识别数据的数据特征确定目标广告流量是否为异常流量,采用人工智能技术可以实现广告流量异常的快速检测,且半监督模型可以大幅降低对样本的要求,可以解决相关技术中进行异常检测的效率较低的技术问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的异常流量的识别方法的硬件环境的示意图;
图2是根据本申请实施例的一种可选的异常流量的识别方法的流程图;
图3是根据本申请实施例的一种可选的异常流量的识别方案的示意图;
图4是根据本申请实施例的一种可选的异常流量的识别装置的示意图;以及,
图5是根据本申请实施例的一种终端的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本申请实施例的一方面,提供了一种异常流量的识别方法的方法实施例。
可选地,在本实施例中,上述异常流量的识别方法可以应用于如图1所示的由终端101和服务器103所构成的硬件环境中。如图1所示,服务器103通过网络与终端101进行连接,可用于为终端或终端上安装的客户端提供服务(如游戏服务、应用服务等),可在服务器上或独立于服务器设置数据库105,用于为服务器103提供数据存储服务,上述网络包括但不限于:广域网、城域网或局域网,终端101并不限定于PC、手机、平板电脑等。本申请实施例的异常流量的识别方法可以由服务器103来执行,也可以由终端101来执行,还可以是由服务器103和终端101共同执行。其中,终端101执行本申请实施例的异常流量的识别方法也可以是由安装在其上的客户端来执行。
图2是根据本申请实施例的一种可选的异常流量的识别方法的流程图,如图2所示,该方法可以包括以下步骤:
步骤S202,构造并训练异常流量检测模型。
步骤S2022,获取原始广告流量,原始广告流量为用于训练的广告流量,此处的广告流量可以是正常访问产生的流程或者广告黑产采用一些非正常手段访问广告产生的流量。
步骤S2024,对原始广告流量进行预处理,以将原始广告流量处理为符合预设要求的广告流量样本。
需要说明的是,若原始广告流量已经打有标签(标记是否为异常流量),则此处的预处理为保留标签,若没有标签,则可以在预处理时为部分流量打上标签,相当于,得到的广告流量样本包括含有标记的流量样本和未标记的流量样本。
可选地,对原始广告流量进行预处理,包括以下至少之一:对原始广告流量进行数据对齐,以保证输入的数据长度一致;对原始广告流量进行数据类型转换;对原始广告流量进行数据编码;对原始广告流量进行缺失值填补;对原始广告流量进行去重处理;对原始广告流量进行数据分桶处理;对原始广告流量进行特征标准化处理。
步骤S2026,对广告流量样本进行特征提取和特征组合统计,以得到特征提取模型。
对广告流量数据构建特征提取模型时,由于监测系统采集的流量数据变量较多,各变量之间存在冗余,因此需要对流量数据变量进行特征提取,主要包括统计特征组合以及基于深度学习模型的自动特征提取。
步骤S2028,构建基于图卷积神经网络和类原型向量的半监督网络模型,并利用广告流量样本的数据特征对半监督网络模型进行训练,得到异常流量检测模型。
可选地,构建基于图卷积神经网络和类原型向量的半监督网络模型,可以通过如下方式实现:
1)构建图卷积神经网络GCN:以每个广告流量样本作为图卷积神经网络GCN中的一个节点,若两个节点的广告流量样本的用户标识相同,则建立两个节点之间的边并将两个节点之间的关联权重设为1;若两个节点的广告流量样本的用户标识不相同,则不建立两个节点之间的边并将两个节点之间的关联权重设为0;
2)构建基于图卷积神经网络GCN与类原型向量的半监督网络模型。包括如下网络的半监督网络模型:
输入层,输入层的输入包括广告流量样本的数据特征的数据集;图卷积层,图卷积层用于对数据集进行卷积,得到伪标记概率矩阵;特征映射层,特征映射层用于进行数据特征的映射,以聚合同一类别的数据特征的投影向量、疏远不同类别的数据特征的投影向量;类贡献度层,类贡献度层用于确定样本对于构建的类原型向量的贡献度,其中,样本在特征空间的投影向量距离类原型向量越近则贡献度越大;原型向量层,原型向量层用于确定类原型向量;分类器层,分类器层用于确定样本所属类别和属于该类别的概率。
在完成模型的构建和训练后,即可按照下述步骤利用模型进行异常流量的监控:
步骤S204,获取目标广告流量,目标广告流量为待识别异常的广告流量。
步骤S206,对目标广告流量进行预处理,得到待识别数据,预处理用于将目标广告流量处理为符合预设要求的待识别数据,具体的预处理参考上文描述。
步骤S208,利用特征提取模型对待识别数据进行特征提取,得到待识别数据的数据特征,主要包括:提取通用特征和统计特征组合。
步骤S210,调用异常流量检测模型,利用待识别数据的数据特征确定目标广告流量是否为异常流量,异常流量检测模型是采用半监督学习方法训练得到的。采用半监督学习方法训练,对于数据样本的要求大大降低,实用性大大增强。
为了预防层出不穷的广告欺诈形式,可以将人工智能技术应用到广告营销行业的广告流量异常检测中。基于人工智能技术的广告流量异常检测的主要流程为:数据采集、特征工程、基于机器学习算法的预测,如采用有监督机器学习模型,将异常流量检测问题转化为分类问题,然后通过挖掘输入数据与流量样本标签之前的关系,实现广告流量反欺诈,然而,为了获得高精度的检测性能,有监督学习模型往往需要数量充足有类别标签的数据集进行训练,这在实际的广告行业中是很难得到满足的。在实际广告流量监测中,尽管每天会产生海量的广告流量数据,但有类别标签的数据样本非常有限,取而代之的是,大多数流量数据为无类别标签数据,而且流量类别标签的标注也会耗费大量的人力物力,且标注质量难以判断。因此,在实际业务场景中,仅依赖一个有监督模型进行广告流量的异常检测往往很难实现。
通过本申请的技术方案,获取目标广告流量,目标广告流量为待识别异常的广告流量;对目标广告流量进行预处理,得到待识别数据,预处理用于将目标广告流量处理为符合预设要求的待识别数据;利用特征提取模型对待识别数据进行特征提取,得到待识别数据的数据特征;调用异常流量检测模型,利用待识别数据的数据特征确定目标广告流量是否为异常流量,采用人工智能技术可以实现广告流量异常的快速检测,且半监督模型可以大幅降低对样本的要求,可以解决相关技术中进行异常检测的效率较低的技术问题。
在本申请的技术方案中,提出了一种基于半监督图卷积类原型网络的广告异常流量检测方法,该方法通过构建广告流量数据间的图结构模型,采用图卷积网络对广告流量数据之间的邻近关系进行学习与挖掘,充分利用无标签数据信息,同时考虑数据无标签数据对于分类器贡献度的影响,采用类原型向量分类方法,对异常流量检测分类器进行训练。
作为一种可选的实施例,下文结合图3的具体实施方式进一步详述本申请的技术方案:
步骤1,对广告流量数据进行预处理。
对广告流量数据进行预处理,由于监测系统的限制,实际所采集的广告流量数据往往具有缺失性、噪声性、多变量性、异构性等特点,因此,在进行分析之前首先要对其进行预处理,主要包括数据对齐、数据类型转换、数据编码、缺失值填补、去重、数据分桶、特征标准化处理等。
步骤2,对广告流量数据构建特征提取模型。
对广告流量数据构建特征提取模型,由于监测系统采集的流量数据变量较多,各变量之间存在冗余,因此需要对流量数据变量进行特征提取,主要包括统计特征组合以及基于深度学习模型的自动特征提取。
基于深度学习模型的自动特征提取,采用由深度学习模型构建的自动编码器,如卷积自编码器、稀疏自动编码器等对标准化的数据在潜在空间进行特征映射,并通过无监督学习方法对自动编码器进行训练,提取降维后的通用抽象特征数据集
基于图的半监督学习(GBSSL)算法,可基于图模型内的邻接关系将有标记数据样本的标记传播给无标记样本,具有扎实的数学基础、准确性高、计算速度快、避免了数据源的浪费且所需的人工成本较低,半监督学习算法适用于工业场景中。
半监督图卷积网络是可通过对弱标签数据集构建图结构模型,然后对图结构数据进行图卷积计算,以处理图内数据的邻域信息,再通过分层传播规则实现数据邻域信息的传播,从而对数据集内样本(有标记数据、无标记数据、测试数据)进行伪标记得到标签概率矩阵。在网络模型训练过程中,通过最小化有标记数据节点的交叉熵损失函数,来实现少量有标记数据样本下高精度分类的过程。
步骤3,构建与训练基于半监督图卷积类原型网络的异常流量检测模型。
构建与训练基于半监督图卷积类原型网络的异常流量检测模型。具体步骤如下:
步骤3.1,构建图模型G,以第i个流量数据样本点Xi为图模型G的节点Vi;以样本点Xi与Xj之间的用户ID是否相同构造图模型G的边Eij,若相同,则Xi与Xj之间连一条边,权重aij=1,否则不连边,aij=0;按样本编号的顺序构成G的邻接矩阵A∈RN*N,N为数据集内所有样本的个数,基于式(2-1)至(2-4)计算拉普拉斯近似矩阵
步骤3.2,构建基于GCN与类原型向量的半监督学习模型,该模型主要包括输入层、图卷积层、特征映射层、类贡献度层、原型向量层以及分类器层。
其中,H1为第一层图卷积层的输出,W1与W2分别为第一层图卷积层与第二层图卷积层的权重。
(3)特征映射层对输入数据基于式(2-7)进行特征映射,聚合后同一类别的数据投影向量,疏远不同类别的数据投影向量:
φ(x)=ReLU(xWφ+bφ); (2-7)
其中,Wφ与bφ分别为特征映射层的权重和偏置。
(4)类贡献度层基于样本在特征空间的投影向量距离类原型向量越近贡献度越大、同时伪标记概率值的方差越大可靠性越高的原则,假设mij为样本xi对于构建样本类别ck原型向量的贡献度,var(zi)为图卷积层生成的样本xi的伪标记概率向量的方差,wz为var(zi)所占的权重,sik表示在高维空间,样本距离原型的距离,wk与bk为对sik高维映射的权重与偏置,ws为sik所占的权重,bm为类贡献度层的偏置,σ为sigmoid激活函数,基于式(2-8)和(2-9)计算样本xi对于构建样本类别ck原型向量的贡献度mik:
mik=σ(var(zi)wz+σ(sikwk+bk)ws+bm), (2-8)
原型是指样本空间中具有代表性的点,根据近邻类均值规则,将样本从样本空间投影到合适的特征空间,可以使同类样本的特征向量距离更近,异类样本的特征向量距离更远,从而通过计算同类样本特征向量的均值,得到该群样本所属类别的中心,即原型向量。在进行分类任务时,可以通过样本数据在特征空间的特征向量到每个类原型向量的距离与Sigmoid计算,可以得到样本所属类别的概率与所属类别。在进行分类训练时,类原型向量都会随特征表示的变化而自动更新,从而使分类器对特征表示的更改具有较强的鲁棒性。因此,基于类原型向量的分类算法受到关注并被应用与样本数量较少的情景中,如小样本学习、增量学习等。
(6):分类器层基于式(2-11),以特征空间内的类原型与有标记数据特征向量为输入,计算有标记数据集内样本所属类别ck的概率:
训练时以式(2-12)为该网络的损失函数L:
通过最小化L,优化该模型,最终保存优化后的特征映射层参数与类原型向量,用于新流量的异常检测。
步骤4,基于类原型向量对新流量数据进行异常检测。
新广告流量数据的异常检测。该部分的流程主要为:新流量数据预处理;数据通用抽象特征提取;基于保存的特征映射层参数与类原型向量对新采集的流量进行识别。
在本申请的技术方案中,构建了一种半监督图卷积原型网络,提出了一种基于半监督图卷积原型网络的广告异常流量检测方法,通过数据间的相似性,来实现数据标签的传播,同时计算得到广告流量正常、异常的类原型向量,实现对广告流量的异常检测以及重复使用。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
根据本申请实施例的另一个方面,还提供了一种用于实施上述异常流量的识别方法的异常流量的识别装置。图4是根据本申请实施例的一种可选的异常流量的识别装置的示意图,如图4所示,该装置可以包括:
获取单元41,用于获取目标广告流量,其中,所述目标广告流量为待识别异常的广告流量;预处理单元43,用于对所述目标广告流量进行预处理,得到待识别数据,其中,所述预处理用于将所述目标广告流量处理为符合预设要求的所述待识别数据;特征提取单元45,用于利用特征提取模型对所述待识别数据进行特征提取,得到所述待识别数据的数据特征;识别单元47,用于调用异常流量检测模型,利用所述待识别数据的数据特征确定所述目标广告流量是否为异常流量。
通过上述模块,获取目标广告流量,所述目标广告流量为待识别异常的广告流量;对所述目标广告流量进行预处理,得到待识别数据,所述预处理用于将所述目标广告流量处理为符合预设要求的所述待识别数据;利用特征提取模型对所述待识别数据进行特征提取,得到所述待识别数据的数据特征;调用异常流量检测模型,利用所述待识别数据的数据特征确定所述目标广告流量是否为异常流量,采用人工智能技术可以实现广告流量异常的快速检测,且半监督模型可以大幅降低对样本的要求,可以解决相关技术中进行异常检测的效率较低的技术问题。
可选地,本申请的装置还可包括:预训练单元,用于获取异常流量检测模型,其中,所述异常流量检测模型是基于图卷积神经网络和类原型向量的半监督网络进行训练得到的;识别单元,还用于调用所述异常流量检测模型,利用保存的特征映射层参数与类原型向量对所述待识别数据的数据特征进行识别,以确定所述目标广告流量是否为异常流量。
可选地,预训练单元还用于:获取原始广告流量,其中,所述原始广告流量为用于训练的广告流量;对所述原始广告流量进行预处理,以将所述原始广告流量处理为符合预设要求的广告流量样本;对所述广告流量样本进行特征提取和特征组合统计,以得到所述特征提取模型;构建基于图卷积神经网络和类原型向量的半监督网络模型,并利用所述广告流量样本的数据特征对所述半监督网络模型进行训练,得到所述异常流量检测模型。
可选地,预训练单元还用于构建图卷积神经网络GCN:以每个所述广告流量样本作为所述图卷积神经网络GCN中的一个节点,若两个节点的所述广告流量样本的用户标识相同,则建立所述两个节点之间的边并将所述两个节点之间的关联权重设为1;若所述两个节点的所述广告流量样本的用户标识不相同,则不建立所述两个节点之间的边并将所述两个节点之间的关联权重设为0;构建基于所述图卷积神经网络GCN与类原型向量的所述半监督网络模型。
可选地,预训练单元还用于构建包括如下网络的所述半监督网络模型:输入层,所述输入层的输入包括所述广告流量样本的数据特征的数据集;图卷积层,所述图卷积层用于对所述数据集进行卷积,得到伪标记概率矩阵;特征映射层,所述特征映射层用于进行数据特征的映射,以聚合同一类别的数据特征的投影向量、疏远不同类别的数据特征的投影向量;类贡献度层,所述类贡献度层用于确定样本对于构建的类原型向量的贡献度,其中,样本在特征空间的投影向量距离类原型向量越近则贡献度越大;原型向量层,所述原型向量层用于确定类原型向量;分类器层,所述分类器层用于确定样本所属类别和属于该类别的概率。
可选地,所述广告流量样本包括含有标记的流量样本和未标记的流量样本。
可选地,预处理单元还用于:对所述原始广告流量进行数据对齐;对所述原始广告流量进行数据类型转换;对所述原始广告流量进行数据编码;对所述原始广告流量进行缺失值填补;对所述原始广告流量进行去重处理;对所述原始广告流量进行数据分桶处理;对所述原始广告流量进行特征标准化处理。
此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在如图1所示的硬件环境中,可以通过软件实现,也可以通过硬件实现,其中,硬件环境包括网络环境。
根据本申请实施例的另一个方面,还提供了一种用于实施上述异常流量的识别方法的服务器或终端。
图5是根据本申请实施例的一种终端的结构框图,如图5所示,该终端可以包括:一个或多个(图中仅示出一个)处理器501、存储器503、以及传输装置505,如图5所示,该终端还可以包括输入输出设备507。
其中,存储器503可用于存储软件程序以及模块,如本申请实施例中的异常流量的识别方法和装置对应的程序指令/模块,处理器501通过运行存储在存储器503内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的异常流量的识别方法。存储器503可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器503可进一步包括相对于处理器501远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
上述的传输装置505用于经由一个网络接收或者发送数据,还可以用于处理器与存储器之间的数据传输。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置505包括一个网络适配器(Network Interface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置505为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
其中,具体地,存储器503用于存储应用程序。
处理器501可以通过传输装置505调用存储器503存储的应用程序,以执行下述步骤:
获取目标广告流量,其中,所述目标广告流量为待识别异常的广告流量;对所述目标广告流量进行预处理,得到待识别数据,其中,所述预处理用于将所述目标广告流量处理为符合预设要求的所述待识别数据;利用特征提取模型对所述待识别数据进行特征提取,得到所述待识别数据的数据特征;调用异常流量检测模型,利用所述待识别数据的数据特征确定所述目标广告流量是否为异常流量。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
本领域普通技术人员可以理解,图5所示的结构仅为示意,终端可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile InternetDevices,MID)、PAD等终端设备。图5其并不对上述电子装置的结构造成限定。例如,终端还可包括比图5中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图5所示不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
本申请的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于执行异常流量的识别方法的程序代码。
可选地,在本实施例中,上述存储介质可以位于上述实施例所示的网络中的多个网络设备中的至少一个网络设备上。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:
获取目标广告流量,其中,所述目标广告流量为待识别异常的广告流量;对所述目标广告流量进行预处理,得到待识别数据,其中,所述预处理用于将所述目标广告流量处理为符合预设要求的所述待识别数据;利用特征提取模型对所述待识别数据进行特征提取,得到所述待识别数据的数据特征;调用异常流量检测模型,利用所述待识别数据的数据特征确定所述目标广告流量是否为异常流量。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (10)
1.一种异常流量的识别方法,其特征在于,包括:
获取目标广告流量,其中,所述目标广告流量为待识别异常的广告流量;
对所述目标广告流量进行预处理,得到待识别数据,其中,所述预处理用于将所述目标广告流量处理为符合预设要求的所述待识别数据;
利用特征提取模型对所述待识别数据进行特征提取,得到所述待识别数据的数据特征;
调用异常流量检测模型,利用所述待识别数据的数据特征确定所述目标广告流量是否为异常流量,其中,所述异常流量检测模型是采用半监督学习方法训练得到的。
2.根据权利要求1所述的方法,其特征在于,调用异常流量检测模型,利用所述待识别数据的数据特征确定所述目标广告流量是否为异常流量,包括:
获取所述异常流量检测模型,其中,所述异常流量检测模型是基于图卷积神经网络和类原型向量的半监督网络进行训练得到的;
调用所述异常流量检测模型,利用保存的特征映射层参数与类原型向量对所述待识别数据的数据特征进行识别,以确定所述目标广告流量是否为异常流量。
3.根据权利要求2所述的方法,其特征在于,获取异常流量检测模型,包括:
获取原始广告流量,其中,所述原始广告流量为用于训练的广告流量;
对所述原始广告流量进行预处理,以将所述原始广告流量处理为符合预设要求的广告流量样本;
对所述广告流量样本进行特征提取和特征组合统计,以得到所述特征提取模型;
构建基于图卷积神经网络和类原型向量的半监督网络模型,并利用所述广告流量样本的数据特征对所述半监督网络模型进行训练,得到所述异常流量检测模型。
4.根据权利要求3所述的方法,其特征在于,构建基于图卷积神经网络和类原型向量的半监督网络模型,包括:
构建图卷积神经网络GCN:以每个所述广告流量样本作为所述图卷积神经网络GCN中的一个节点,若两个节点的所述广告流量样本的用户标识相同,则建立所述两个节点之间的边并将所述两个节点之间的关联权重设为1;若所述两个节点的所述广告流量样本的用户标识不相同,则不建立所述两个节点之间的边并将所述两个节点之间的关联权重设为0;
构建基于所述图卷积神经网络GCN与类原型向量的所述半监督网络模型。
5.根据权利要求4所述的方法,其特征在于,构建基于所述图卷积神经网络GCN与类原型向量的所述半监督网络模型,包括构建包括如下网络的所述半监督网络模型:
输入层,所述输入层的输入包括所述广告流量样本的数据特征的数据集;
图卷积层,所述图卷积层用于对所述数据集进行卷积,得到伪标记概率矩阵;
特征映射层,所述特征映射层用于进行数据特征的映射,以聚合同一类别的数据特征的投影向量、疏远不同类别的数据特征的投影向量;
类贡献度层,所述类贡献度层用于确定样本对于构建的类原型向量的贡献度,其中,样本在特征空间的投影向量距离类原型向量越近则贡献度越大;
原型向量层,所述原型向量层用于确定类原型向量;
分类器层,所述分类器层用于确定样本所属类别和属于该类别的概率。
6.根据权利要求4所述的方法,其特征在于,
所述广告流量样本包括含有标记的流量样本和未标记的流量样本。
7.根据权利要求3所述的方法,其特征在于,对所述原始广告流量进行预处理,包括以下至少之一:
对所述原始广告流量进行数据对齐;
对所述原始广告流量进行数据类型转换;
对所述原始广告流量进行数据编码;
对所述原始广告流量进行缺失值填补;
对所述原始广告流量进行去重处理;
对所述原始广告流量进行数据分桶处理;
对所述原始广告流量进行特征标准化处理。
8.一种异常流量的识别装置,其特征在于,包括:
获取单元,用于获取目标广告流量,其中,所述目标广告流量为待识别异常的广告流量;
预处理单元,用于对所述目标广告流量进行预处理,得到待识别数据,其中,所述预处理用于将所述目标广告流量处理为符合预设要求的所述待识别数据;
特征提取单元,用于利用特征提取模型对所述待识别数据进行特征提取,得到所述待识别数据的数据特征;
识别单元,用于调用异常流量检测模型,利用所述待识别数据的数据特征确定所述目标广告流量是否为异常流量,其中,所述异常流量检测模型是采用半监督学习方法训练得到的。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序运行时执行上述权利要求1至7任一项中所述的方法。
10.一种电子装置,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器通过所述计算机程序执行上述权利要求1至7任一项中所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210189201.5A CN114742572A (zh) | 2022-02-28 | 2022-02-28 | 异常流量的识别方法和装置、存储介质、电子装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210189201.5A CN114742572A (zh) | 2022-02-28 | 2022-02-28 | 异常流量的识别方法和装置、存储介质、电子装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114742572A true CN114742572A (zh) | 2022-07-12 |
Family
ID=82274890
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210189201.5A Pending CN114742572A (zh) | 2022-02-28 | 2022-02-28 | 异常流量的识别方法和装置、存储介质、电子装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114742572A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024096814A1 (en) * | 2022-11-01 | 2024-05-10 | Grabtaxi Holdings Pte. Ltd. | Method for detecting fraudulent users in a marketplace system |
-
2022
- 2022-02-28 CN CN202210189201.5A patent/CN114742572A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024096814A1 (en) * | 2022-11-01 | 2024-05-10 | Grabtaxi Holdings Pte. Ltd. | Method for detecting fraudulent users in a marketplace system |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108427708B (zh) | 数据处理方法、装置、存储介质和电子装置 | |
CN111476315B (zh) | 一种基于统计相关性与图卷积技术的图像多标签识别方法 | |
CN112700056B (zh) | 复杂网络链路预测方法、装置、电子设备及介质 | |
CN106997549A (zh) | 一种广告信息的推送方法及系统 | |
CN111177367B (zh) | 案件分类方法、分类模型训练方法及相关产品 | |
CN111931809A (zh) | 数据的处理方法、装置、存储介质及电子设备 | |
CN111090807A (zh) | 一种基于知识图谱的用户识别方法及装置 | |
CN117061322A (zh) | 物联网流量池管理方法及系统 | |
CN114782161A (zh) | 识别风险用户的方法、装置、存储介质及电子装置 | |
CN110659997B (zh) | 数据聚类识别方法、装置、计算机系统及可读存储介质 | |
CN115049397A (zh) | 识别社交网络中的风险账户的方法及装置 | |
CN116402352A (zh) | 一种企业风险预测方法、装置、电子设备及介质 | |
CN112069249A (zh) | 知识图谱关系挖掘方法、装置、计算机设备及存储介质 | |
CN114742572A (zh) | 异常流量的识别方法和装置、存储介质、电子装置 | |
CN106294406A (zh) | 一种用于处理应用访问数据的方法与设备 | |
CN107644268B (zh) | 一种基于多特征的开源软件项目孵化状态预测方法 | |
CN115115369A (zh) | 数据处理方法、装置、设备及存储介质 | |
CN115473718A (zh) | 一种基于行为关联挖掘的业务数据异常识别方法及装置 | |
CN114726876A (zh) | 一种数据检测方法、装置、设备和存储介质 | |
CN114329099A (zh) | 重叠社区识别方法、装置、设备、存储介质及程序产品 | |
CN113505369A (zh) | 一种时空感知的用户风险识别模型训练的方法及装置 | |
CN113821418A (zh) | 故障跟因分析方法及装置、存储介质和电子设备 | |
CN110929118A (zh) | 网络数据处理方法、设备、装置、介质 | |
CN116050508B (zh) | 神经网络训练方法以及装置 | |
CN115550014B (zh) | 应用程序防护方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |