CN113572752B

CN113572752B - 异常流量的检测方法和装置、电子设备、存储介质

Info

Publication number: CN113572752B
Application number: CN202110819811.4A
Authority: CN
Inventors: 王硕; 李霞; 杨康; 王同乐
Original assignee: Shanghai Minglue Artificial Intelligence Group Co Ltd
Current assignee: Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority date: 2021-07-20
Filing date: 2021-07-20
Publication date: 2023-11-07
Anticipated expiration: 2041-07-20
Also published as: CN113572752A

Abstract

本申请涉及一种异常流量的检测方法和装置、电子设备、存储介质，该方法包括：获取目标网络设备的流量序列，流量序列中按照时间顺序保存有目标网络设备对广告业务的访问行为所产生的多个流量数据；根据流量序列构建多个时段中每个时段的时段网络，时段网络中的每个节点用于表示目标网络设备在一个访问时刻对广告业务的访问行为，边用于表示两个节点所表示的访问行为之间的关联关系；从多个时段网络中提取网络特征和时序特征；根据时段网络的网络特征和时序特征，获取检测结果，检测结果用于表示目标网络设备是否异常。本申请解决了相关技术中由于检测模型依赖技术经验而造成的对异常流量的检测不够准确的技术问题。

Description

异常流量的检测方法和装置、电子设备、存储介质

技术领域

本申请涉及计算机领域，尤其涉及一种异常流量的检测方法和装置、电子设备、存储介质。

背景技术

广告流量欺诈发展快速，其目的是通过浏览、点击或下载广告，使广告发布者获利或给广告主造成损失。近年来，随着智能手机的飞速普及，大多数广告业务都将重点转向了移动平台。如今，移动平台上的应用内广告是广告欺诈的核心聚集地。恶意用户或团体通过浏览、点击、或下载等方式对广告发动攻击，人为地提高特定广告的曝光率、点击率、下载率、转化率等。现有工业界往往会共享IP的黑名单或用户ID的黑名单，但黑名单往往是随时间变化的，在受到激励时，某IP或用户ID会发展成为黑名单，当激励消失时，黑名单有可能会发展成为正常用户。

相关技术中的异常流量检测方法大多基于专家规则和机器学习预测模型。基于专家规则的方法依靠业务经验和专家规则定义相关的规则模板进行过滤，强烈依赖专家规则和业务背景，且黑产行业的作弊规则千遍万化，不同领域的流量作弊方法各异，作弊方式层出不穷，使得基于专家规则的方法泛化性和鲁棒性能不理想。基于机器学习预测模型的方法减轻了对技术人员的业务背景需求，不需要很强的背景知识构建业务规则，但其特征工程的构建对最终模型的优劣至关重要，技术人员特征构建往往依赖技术经验，且无法依据模型预测结果的性能进而调整模型性能。通过基于专家规则或机器学习的方法获得异常流量，通过分析异常流量表现而形成IP或用户ID的黑名单，在行业公司内共享，但这种方案对于临时受到激励的用户而言，其欺诈的属性并不是一直存在的，用户或IP在激励性异常情况下，其欺诈的属性会发生改变，需要对流量进行实时检测，以实时获取准确的黑白名单。基于专家规则或机器学习获得异常流量的方法，往往依赖技术经验，泛化性和鲁棒性不理想，无法对广告流量的异常情况进行准确检测。

针对相关技术中由于检测模型依赖技术经验而造成的对异常流量的检测不够准确的技术问题，目前尚未提出有效的解决方案。

发明内容

本申请提供了一种异常流量的检测方法和装置、电子设备、存储介质，以至少解决相关技术中由于检测模型依赖技术经验而造成的对异常流量的检测不够准确的技术问题。

根据本申请实施例的一个方面，提供了一种异常流量的检测方法，包括：获取目标网络设备的流量序列，其中，流量序列中按照时间顺序保存有目标网络设备对广告业务的访问行为所产生的多个流量数据；根据流量序列构建多个时段中每个时段的时段网络，其中，时段网络包括多个节点和节点之间的边，每个节点用于表示目标网络设备在一个访问时刻对广告业务的访问行为，两个节点之间的边用于表示两个节点所表示的访问行为之间的关联关系；从多个时段网络中提取网络特征和时序特征，其中，网络特征用于通过向量的形式表示时段网络的内部特征；根据时段网络的网络特征和时序特征，获取检测结果，其中，检测结果用于表示目标网络设备是否异常。

根据本申请实施例的另一方面，还提供了一种异常流量的检测装置，包括：获取模块，用于获取目标网络设备的流量序列，其中，流量序列中按照时间顺序保存有目标网络设备对广告业务的访问行为所产生的多个流量数据；构建模块，用于根据流量序列构建多个时段中每个时段的时段网络，其中，时段网络包括多个节点和节点之间的边，每个节点用于表示目标网络设备在一个访问时刻对广告业务的访问行为，两个节点之间的边用于表示两个节点所表示的访问行为之间的关联关系；提取模块，用于从多个时段网络中提取网络特征和时序特征，其中，网络特征用于通过向量的形式表示时段网络的内部特征；检测模块，用于根据时段网络的网络特征和时序特征，获取检测结果，其中，检测结果用于表示目标网络设备是否异常。

根据本申请实施例的另一方面，还提供了一种存储介质，该存储介质包括存储的程序，程序运行时执行上述的方法。

根据本申请实施例的另一方面，还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器通过计算机程序执行上述的方法。

本方案可以应用于营销智能技术领域用于进行预测与优化，在本申请实施例中，采用获取目标网络设备的流量序列，根据流量序列构建多个时段中每个时段的时段网络，从多个时段网络中提取网络特征和时序特征，根据时段网络的网络特征和时序特征，获取检测结果的方式，通过构建时段网络并基于网络特征和时序特征获取检测结果，达到了检测异常流量的目的，从而实现了动态感知异常流量的技术效果，进而解决了相关技术中由于检测模型依赖技术经验而造成的对异常流量的检测不够准确的技术问题。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是根据本申请实施例的异常流量的检测方法的硬件环境的示意图；

图2是根据本申请实施例的一种异常流量的检测方法的流程图；

图3是根据本申请实施例的一种异常流量的检测模型的示意图；

图4是根据本申请实施例的一种异常流量的检测装置的示意图；以及，

图5是根据本申请实施例的一种终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本申请实施例的一方面，提供了一种异常流量的检测方法实施例。

可选地，在本实施例中，上述异常流量的检测方法可以应用于如图1所示的由终端101和服务器103所构成的硬件环境中。如图1所示，服务器103通过网络与终端101进行连接，可用于为终端或终端上安装的客户端提供服务(如游戏服务、应用服务等)，可在服务器上或独立于服务器设置数据库，用于为服务器103提供数据存储服务，上述网络包括但不限于：广域网、城域网或局域网，终端101并不限定于PC、手机、平板电脑等。本申请实施例的异常流量的检测方法可以由服务器103来执行，也可以由终端101来执行，还可以是由服务器103和终端101共同执行。其中，终端101执行本申请实施例的异常流量的检测方法也可以是由安装在其上的客户端来执行。后续以在服务器上执行本申请实施例的一种异常流量的检测方法为例进行说明。

图2是根据本申请实施例的一种异常流量的检测方法的流程图，如图2所示，该方法可以包括以下步骤：

步骤S202，服务器获取目标网络设备的流量序列，流量序列中按照时间顺序保存有目标网络设备对广告业务的访问行为所产生的多个流量数据；

步骤S204，服务器根据流量序列构建多个时段中每个时段的时段网络，时段网络包括多个节点和节点之间的边，每个节点用于表示目标网络设备在一个访问时刻对广告业务的访问行为，两个节点之间的边用于表示两个节点所表示的访问行为之间的关联关系；

步骤S206，服务器从多个时段网络中提取网络特征和时序特征，网络特征用于通过向量的形式表示时段网络的内部特征；

步骤S208，服务器根据时段网络的网络特征和时序特征，获取检测结果，检测结果用于表示目标网络设备是否异常。

上述异常流量是指恶意用户或团体为提高特定广告的曝光率、点击率、下载率、转化率等，通过浏览、点击、或下载等方式对广告发动攻击而产生的流量。

本方案可以但不限于应用于广告欺诈、流量作弊和其他网络风险的检测。

通过上述步骤S202至步骤S208，通过为流量数据构建时段网络并基于时段网络的网络特征和时序特征获取检测结果，在利用每个流量数据本身的特征的基础上，能够利用多个流量数据在各时段内的特征变化以及在各个时段上的时序特征来识别出异常流量，能够检测出相关技术中无法检测到的异常情况，从而提升了异常检测的准确度，实现了动态感知异常流量的技术效果，进而解决了相关技术中由于检测模型依赖技术经验而造成的对异常流量的检测不够准确的技术问题。

在步骤S202提供的技术方案中，为了检测广告流量数据是否为网络设备正常访问产生的流量，服务器获取目标网络设备的流量序列，流量序列中按照时间顺序保存有目标网络设备对广告业务的访问行为所产生的多个流量数据。

上述网络设备是指产生流量数据的对象所对应的物理实体，目标网络设备是指待检测的流量数据所对应的物理实体。

作为一种可选地实施例，服务器获取目标网络设备的流量序列，包括：服务器获取广告业务的流量日志，其中，流量日志中保存有多个网络设备对广告业务的访问行为所产生的流量数据，多个网络设备包括目标网络设备；从流量日志中提取目标网络设备的流量序列。

可选地，在本实施例中，服务器通过广告流量监测系统获取各用户游览触点的回传日志信息，得到广告业务的流量日志。

可选地，在本实施例中，服务器从流量日志中提取目标网络设备的流量序列，包括：服务器获取流量日志中所有数据的来源IP地址；服务器从所有流量数据中获取来源IP地址不在IP地址集合内的第一流量数据，其中，IP地址集合中保存有预设的需要过滤的公有IP地址；为了降低数据噪声，服务器从所有第一流量数据中获取不存在关键字段缺失的第二流量数据，其中，关键字段缺失包括第一流量数据中不存在关键字段或关键字段的数据为无效数据，关键字段的数据为时段网络需要使用的属性数据；为了统一数据格式、使数据更完备，对所有第二流量数据进行字段缺失值的填充，得到第三流量数据，其中，任意两个第三流量数据的数据长度相同；利用所有第三流量数据中与目标网络设备匹配的流量数据，构建目标网络设备的流量序列，其中，与目标网络设备匹配的流量数据包括所携带的IP地址与目标网络设备的IP地址相同或所携带的用户帐号与目标网络设备上使用的用户帐号相同。IP地址(Internet Protocol Address)是指互联网协议地址，又译为网际协议地址，是互联网协议提供的一种统一的地址格式，它为互联网上的每一个网络和每一台主机分配一个逻辑地址。

例如，IP地址集合中包括所有的公有IP地址，公有IP地址的范围是：0.0.0.1～9.255.255.255；11.0.0.0～126.255.255.255；128.0.0.0～172.15.255.255；172.32.0.0～191.255.255.255；192.0.0.0～192.167.255.255；192.169.0.0～223.169.255.255。服务器从所有流量数据中删除来源IP地址在IP地址集合内的数据，得到第一流量数据。服务器可以从第一流量数据中解析出多个字段，如网络设备的UUID、机型、操作系统、语言、网络设备访问的广告、访问广告时使用的应用等。如果在构建时段网络时以“访问的广告”作为关联不同节点所需要使用的属性，则“访问的广告”是第一流量数据中的关键字段，当“访问的广告”字段中数据缺失或者为其他无效数据时，删除这个流量数据，并对其他非关键字段的数据进行缺失值填充，得到第三流量数据。缺失值的填充方法有多种，包括但不限于：(1)选取某个固定值(如：0)填充缺失值；(2)对每一列的缺失值，填充当列的均值；(3)对每一列的缺失值，填充当列的中位数；(4)对每一列的缺失值，填充当列的众数；(5)对每一条数据的缺失值，填充其上下条数据的值。第三流量数据中可能包含多个网络设备产生的流量数据，可以用流量数据中的来源IP地址或“用户ID”字段区分不同的网络设备。当以IP地址区分不同的网络设备时，以每个IP地址对应的流量数据作为一个目标网络设备的流量数据，从而得到目标网络设备的流量序列。

在步骤S204提供的技术方案中，为了建立流量数据之间的关系以更好地识别异常流量，服务器根据流量序列构建多个时段中每个时段的时段网络，时段网络包括多个节点和节点之间的边，每个节点用于表示目标网络设备在一个访问时刻对广告业务的访问行为，两个节点之间的边用于表示两个节点所表示的访问行为之间的关联关系。

时段网络通过图(graph)这种数据格式来描述每个时段中的流量数据，图包括节点和边，图中的节点表示网络中的个体，边表示个体之间的连接关系。

可选地，在本实施例中，根据流量序列构建多个时段中每个时段的时段网络，包括按照如下方式构建每个时段的时段网络：确定当前时段的起始时间和结束时间；查找流量序列中时间戳不早于起始时间且距离起始时间最近的第四流量数据、时间戳不晚于结束时间且距离起始时间最近的第五流量数据；服务器将第四流量数据、第五流量数据、以及流量序列中位于第四流量数据与第五流量数据的第六流量数据，作为当前时段的时段流量数据，来构建当前时段的时段网络，当前时段的时段网络中的节点数量与时段流量数据的数据个数相同。

例如，从流量序列中的UUID字段中获取时间戳，得知流量序列中包含2020年1月1日这一天内的流量数据，时间戳的起止时间为00:00——24:00。UUID(Universally UniqueIdentifier)是通用唯一识别码，由以下几部分的组合：(1)当前日期和时间，UUID的第一个部分与时间有关，如果你在生成一个UUID之后，过几秒又生成一个UUID，则第一个部分不同，其余相同；(2)时钟序列；(3)全局唯一的IEEE机器识别号，如果有网卡，从网卡MAC地址获得，没有网卡以其他方式获得。如果以每个小时为一个时段，则第一个时段的起始时间和结束时间为00:00——01:00，以时间戳在这一范围内的流量数据作为当前时段的时段流量数据，来构建当前时段的时段网络。

可选地，在本实施例中，服务器将第四流量数据、第五流量数据、以及流量序列中位于第四流量数据与第五流量数据的第六流量数据，作为当前时段的时段流量数据，来构建当前时段的时段网络，包括：服务器利用每个节点的时段流量数据的关键字段的内容确定节点的节点属性；通过对比两个节点的节点属性，创建用于表示两个节点之间关联关系的边，其中，关联关系包括访问广告业务所使用的应用是否相同、访问的广告业务是否相同、所访问广告业务的广告主是否相同、所访问广告业务的业务类型是否相同以及所访问广告业务的广告主领域是否相同。

例如，为方便描述，以每个UUID代表一个流量数据，若两个UUID在同一个时段内，使用了同一个媒体，则其关系类型为MediaType，若两个UUID在同一个时段内，访问了同一个广告主的广告，则其关系类型为AdvertiserType，若两个UUID在同一个时段内，使用了同一个媒体且访问了同一个广告主的广告，则其关系类型为AllType。由于异常的流量往往会存在媒体和广告主层面的聚集造假情况，为了尽可能精准描述流量特征，构建上述两种形式的关系类型。节点属性包括用户访问时的地理位置个数、操作系统类别数、手机型号数、IDFA和IMEI涉及的个数等。边的属性包括关系类别、广告主的领域等。

在步骤S206提供的技术方案中，服务器从多个时段网络中提取网络特征和时序特征，其中，网络特征用于通过向量的形式表示时段网络的内部特征。

可选地，在本实施例中，服务器从多个时段网络中提取网络特征和时序特征，包括：服务器将时段网络输入到图卷积神经网络中，通过图卷积神经网络提取用于表示时段网络的网络特征的第一向量；服务器将多个时段网络的第一向量按照时间顺序输入到长短时记忆神经网络中，通过长短时记忆神经网络提取多个时段网络在多个时段内的时序特征，并生成表示网络特征与时序特征的第二向量。图卷积神经网络(GCN)是一种能对图数据进行深度学习的方法，主要应用于拓扑结构数据，如社交网络、推荐系统、交通网络等，这些数据的特点是具有无序的连接关系，利用图结构和节点特征信息对图的信息扩散过程进行建模，取得了良好的效果。长短时记忆神经网络(LSTM)是一种时间递归神经网络(RNN)，主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题，相比普通的RNN，LSTM能够在更长的序列中有更好的表现。

例如，从流量序列中的UUID字段中获取时间戳，得知流量序列中包含2020年1月1日这一天内的流量数据，以每个小时为一个时段，将这一天内的24个时段网络分别输入图卷积神经网络，建模时段网络的结构特征及属性特征，学习每个时段内的节点及节点间的关系，得到表示时段网络的网络特征的第一向量。然后将24个时段网络的第一向量按照时间顺序输入到长短时记忆神经网络中，建模时段的时序特征，学习时段网络间的时间序列特征，得到第二向量。

在步骤S208提供的技术方案中，服务器根据时段网络的网络特征和时序特征，获取检测结果，其中，检测结果用于表示目标网络设备是否异常。

作为一种可选的实施例，服务器根据时段网络的网络特征和时序特征，获取检测结果包括：服务器采用注意力机制为每个第二向量分配注意力系数，得到多个时段内每个时段网络的第三向量；通过全连接层将第三向量映射到样本空间，得到检测结果。注意力机制(Attention Mechanism)是一种可以在机器学习模型中嵌入的特殊结构，用来自动学习和计算输入数据对输出数据的贡献大小，，通过注意力机制为显著的时段特征分配较大的权重，聚焦显著改变的时段特征，从而可以更好的挖掘欺诈信息。全连接层(FullyConnected Layers)，在卷积神经网络中起到“分类器”的作用,通过全连接层，输出流量异常与否的检测结果，从全局判断目标网络设备是否应加入黑名单。

例如，根据本申请实施例，可以构建一种异常流量的检测模型，检测模型的示意图如图3所示，将根据目标网络设备的流量序列构建的多个时段网络作为图卷积神经网络(GCN)的输入，将GCN的输出结果输入到长短时记忆神经网络(LSTM)中，再经过注意力机制和全连接层得到检测结果，即目标网络设备产生的流量是否异常。

本方案针对基于专家规则的方法依赖业务经验和专家判断的不足，以及基于传统机器学习的方法特征工程构建复杂且无法建模流量间的关系，及动态的感知时序变化的问题，在异常流量检测的过程中，通过时段网络的构建及图卷积神经网络的表示学习，能够有效学习节点间的关联关系，通过长短时记忆神经网络能够动态有效的建模时间序列特征，提高异常流量模型识别性能，通过注意力机制聚焦显著改变的时段，可以更好地挖掘欺诈信息，达到了检测异常流量的目的，从而实现了动态感知异常流量的技术效果，进而解决了相关技术中由于检测模型依赖技术经验而造成的对异常流量的检测不够准确的技术问题。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

根据本申请实施例的另一个方面，还提供了一种用于实施上述异常流量的检测方法的异常流量的检测装置。图4是根据本申请实施例的一种异常流量的检测装置的示意图，如图4所示，该装置可以包括获取模块42、构建模块44、提取模块46、检测模块48：

获取模块42，用于获取目标网络设备的流量序列，其中，流量序列中按照时间顺序保存有目标网络设备对广告业务的访问行为所产生的多个流量数据；

构建模块44，用于根据流量序列构建多个时段中每个时段的时段网络，其中，时段网络包括多个节点和节点之间的边，每个节点用于表示目标网络设备在一个访问时刻对广告业务的访问行为，两个节点之间的边用于表示两个节点所表示的访问行为之间的关联关系；

提取模块46，用于从多个时段网络中提取网络特征和时序特征，其中，网络特征用于通过向量的形式表示时段网络的内部特征；

检测模块48，用于根据时段网络的网络特征和时序特征，获取检测结果，其中，检测结果用于表示目标网络设备是否异常。

需要说明的是，该实施例中的获取模块42可以用于执行本申请实施例中的步骤S202，该实施例中的构建模块44可以用于执行本申请实施例中的步骤S204，该实施例中的提取模块46可以用于执行本申请实施例中的步骤S206，该实施例中的检测模块48可以用于执行本申请实施例中的步骤S208。

此处需要说明的是，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在如图1所示的硬件环境中，可以通过软件实现，也可以通过硬件实现。

通过上述模块，达到了检测异常流量的目的，从而实现了动态感知异常流量的技术效果，解决了相关技术中由于检测模型依赖技术经验而造成的对异常流量的检测不够准确的技术问题。

作为一种可选的实施例，获取模块42包括获取单元和提取单元：获取单元，用于获取广告业务的流量日志，其中，流量日志中保存有多个网络设备对广告业务的访问行为所产生的流量数据，多个网络设备包括目标网络设备；提取单元，用于从流量日志中提取目标网络设备的流量序列。

可选地，提取单元还用于：获取流量日志中所有数据的来源IP地址；从所有流量数据中获取来源IP地址不在IP地址集合内的第一流量数据，其中，IP地址集合中保存有预设的需要过滤的公有IP地址；从所有第一流量数据中获取不存在关键字段缺失的第二流量数据，其中，关键字段缺失包括第一流量数据中不存在关键字段或关键字段的数据为无效数据，关键字段的数据为时段网络需要使用的属性数据；对所有第二流量数据进行字段缺失值的填充，得到第三流量数据，其中，任意两个第三流量数据的数据长度相同；利用所有第三流量数据中与目标网络设备匹配的流量数据，构建目标网络设备的流量序列，其中，与目标网络设备匹配的流量数据包括所携带的IP地址与目标网络设备的IP地址相同或所携带的用户帐号与目标网络设备上使用的用户帐号相同。

作为一种可选的实施例，构建模块44包括确定单元、查找单元和构建单元：确定单元，用于确定当前时段的起始时间和结束时间；查找单元，用于查找流量序列中时间戳不早于起始时间且距离起始时间最近的第四流量数据、时间戳不晚于结束时间且距离起始时间最近的第五流量数据；构建单元，用于将第四流量数据、第五流量数据、以及流量序列中位于第四流量数据与第五流量数据的第六流量数据，作为当前时段的时段流量数据，来构建当前时段的时段网络，当前时段的时段网络中的节点数量与时段流量数据的数据个数相同。

可选地，构建单元还用于：利用每个节点的时段流量数据的关键字段的内容确定节点的节点属性；通过对比两个节点的节点属性，创建用于表示两个节点之间关联关系的边，其中，关联关系包括访问广告业务所使用的应用是否相同、访问的广告业务是否相同、所访问广告业务的广告主是否相同、所访问广告业务的业务类型是否相同以及所访问广告业务的广告主领域是否相同。

作为一种可选的实施例，提取模块46包括网络特征提取单元和时序特征提取单元：网络特征提取单元，用于将时段网络输入到图卷积神经网络中，通过图卷积神经网络提取用于表示时段网络的网络特征的第一向量；时序特征提取单元，用于将多个时段网络的第一向量按照时间顺序输入到长短时记忆神经网络中，通过长短时记忆神经网络提取多个时段网络在多个时段内的时序特征，并生成表示网络特征与时序特征的第二向量。

作为一种可选的实施例，检测模块48包括分配单元和映射单元：分配单元，用于采用注意力机制为每个第二向量分配注意力系数，得到多个时段内每个时段网络的第三向量；映射单元，通过全连接层将第三向量映射到样本空间，得到检测结果。

此处需要说明的是，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在如图1所示的硬件环境中，可以通过软件实现，也可以通过硬件实现，其中，硬件环境包括网络环境。

根据本申请实施例的另一个方面，还提供了一种用于实施上述异常流量的检测方法的服务器或终端。

图5是根据本申请实施例的一种终端的结构框图，如图5所示，该终端可以包括：一个或多个(图5中仅示出一个)处理器501、存储器503、以及传输装置505，如图5所示，该终端还可以包括输入输出设备507。

其中，存储器503可用于存储软件程序以及模块，如本申请实施例中的异常流量的检测方法和装置对应的程序指令/模块，处理器501通过运行存储在存储器503内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的异常流量的检测方法。存储器503可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器503可进一步包括相对于处理器501远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

上述的传输装置505用于经由一个网络接收或者发送数据，还可以用于处理器与存储器之间的数据传输。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置505包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置505为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

其中，具体地，存储器503用于存储应用程序。

处理器501可以通过传输装置505调用存储器503存储的应用程序，以执行下述步骤：获取目标网络设备的流量序列，其中，流量序列中按照时间顺序保存有目标网络设备对广告业务的访问行为所产生的多个流量数据；根据流量序列构建多个时段中每个时段的时段网络，其中，时段网络包括多个节点和节点之间的边，每个节点用于表示目标网络设备在一个访问时刻对广告业务的访问行为，两个节点之间的边用于表示两个节点所表示的访问行为之间的关联关系；从多个时段网络中提取网络特征和时序特征，其中，网络特征用于通过向量的形式表示时段网络的内部特征；根据时段网络的网络特征和时序特征，获取检测结果，其中，检测结果用于表示目标网络设备是否异常。

采用本申请实施例，提供了一种异常流量的检测的方案。通过构建时段网络并基于网络特征和时序特征获取检测结果，达到了检测异常流量的目的，从而实现了动态感知异常流量的技术效果，进而解决了相关技术中由于检测模型依赖技术经验而造成的对异常流量的检测不够准确的技术问题。

可选地，本实施例中的具体示例可以参考上述实施例中所描述的示例，本实施例在此不再赘述。

本领域普通技术人员可以理解，图5所示的结构仅为示意，终端可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile InternetDevices，MID)、PAD等终端设备。图5其并不对上述电子设备的结构造成限定。例如，终端还可包括比图5中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图5所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

本申请的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于执行上述异常流量的检测方法的程序代码。

可选地，在本实施例中，上述存储介质可以位于上述实施例所示的网络中的多个网络设备中的至少一个网络设备上。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取目标网络设备的流量序列，其中，流量序列中按照时间顺序保存有目标网络设备对广告业务的访问行为所产生的多个流量数据；根据流量序列构建多个时段中每个时段的时段网络，其中，时段网络包括多个节点和节点之间的边，每个节点用于表示目标网络设备在一个访问时刻对广告业务的访问行为，两个节点之间的边用于表示两个节点所表示的访问行为之间的关联关系；从多个时段网络中提取网络特征和时序特征，其中，网络特征用于通过向量的形式表示时段网络的内部特征；根据时段网络的网络特征和时序特征，获取检测结果，其中，检测结果用于表示目标网络设备是否异常。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种异常流量的检测方法，其特征在于，包括：

获取目标网络设备的流量序列，其中，所述流量序列中按照时间顺序保存有所述目标网络设备对广告业务的访问行为所产生的多个流量数据；

根据所述流量序列构建多个时段中每个时段的时段网络，其中，所述时段网络包括多个节点和节点之间的边，每个节点用于表示所述目标网络设备在一个访问时刻对广告业务的访问行为，两个节点之间的边用于表示所述两个节点所表示的访问行为之间的关联关系，所述关联关系包括访问广告业务所使用的应用是否相同、访问的广告业务是否相同、所访问广告业务的广告主是否相同、所访问广告业务的业务类型是否相同以及所访问广告业务的广告主领域是否相同；

从多个所述时段网络中提取网络特征和时序特征，其中，所述网络特征用于通过向量的形式表示所述时段网络的内部特征，所述时序特征用于指示所述时段网络间的时间序列特征，生成表示所述网络特征与所述时序特征的第二向量；

采用注意力机制为每个所述第二向量分配注意力系数，得到多个时段内每个所述时段网络的第三向量；通过全连接层将所述第三向量映射到样本空间，得到输出流量异常与否的检测结果，其中，所述检测结果用于表示所述目标网络设备是否异常。

2.根据权利要求1所述的方法，其特征在于，获取目标网络设备的流量序列，包括：

获取所述广告业务的流量日志，其中，所述流量日志中保存有多个网络设备对所述广告业务的访问行为所产生的流量数据，所述多个网络设备包括所述目标网络设备；

从所述流量日志中提取所述目标网络设备的流量序列。

3.根据权利要求2所述的方法，其特征在于，从所述流量日志中提取所述目标网络设备的流量序列，包括：

获取所述流量日志中所有数据的来源IP地址；

从所有流量数据中获取来源IP地址不在IP地址集合内的第一流量数据，其中，所述IP地址集合中保存有预设的需要过滤的公有IP地址；

从所有第一流量数据中获取不存在关键字段缺失的第二流量数据，其中，所述关键字段缺失包括所述第一流量数据中不存在关键字段或关键字段的数据为无效数据，所述关键字段的数据为所述时段网络需要使用的属性数据；

对所有所述第二流量数据进行字段缺失值的填充，得到第三流量数据，其中，任意两个所述第三流量数据的数据长度相同；

利用所有所述第三流量数据中与所述目标网络设备匹配的流量数据，构建所述目标网络设备的流量序列，其中，与所述目标网络设备匹配的流量数据表示所携带的IP地址与所述目标网络设备的IP地址相同或所携带的用户帐号与所述目标网络设备上使用的用户帐号相同。

4.根据权利要求1所述的方法，其特征在于，根据所述流量序列构建多个时段中每个时段的时段网络，包括按照如下方式构建每个时段的时段网络：

确定当前时段的起始时间和结束时间；

查找所述流量序列中时间戳不早于所述起始时间且距离所述起始时间最近的第四流量数据、时间戳不晚于所述结束时间且距离所述结束时间最近的第五流量数据；

将所述第四流量数据、所述第五流量数据、以及所述流量序列中位于所述第四流量数据与所述第五流量数据的第六流量数据，作为所述当前时段的时段流量数据，来构建所述当前时段的时段网络，所述当前时段的时段网络中的节点数量与所述时段流量数据的数据个数相同。

5.根据权利要求4所述的方法，其特征在于，将所述第四流量数据、所述第五流量数据、以及所述流量序列中位于所述第四流量数据与所述第五流量数据的第六流量数据，作为所述当前时段的时段流量数据，来构建所述当前时段的时段网络，包括：

利用每个节点的所述时段流量数据的关键字段的内容确定节点的节点属性；

通过对比两个节点的节点属性，创建用于表示所述两个节点之间关联关系的边。

6.根据权利要求1所述的方法，其特征在于，所述生成表示所述网络特征与所述时序特征的第二向量，包括：

将所述时段网络输入到图卷积神经网络中，通过所述图卷积神经网络提取用于表示所述时段网络的网络特征的第一向量；

将多个所述时段网络的所述第一向量按照时间顺序输入到长短时记忆神经网络中，通过所述长短时记忆神经网络提取多个所述时段网络在多个时段内的时序特征，并生成表示所述网络特征与所述时序特征的第二向量。

7.一种异常流量的检测装置，其特征在于，所述装置包括：

获取模块，用于获取目标网络设备的流量序列，其中，所述流量序列中按照时间顺序保存有所述目标网络设备对广告业务的访问行为所产生的多个流量数据；

构建模块，用于根据所述流量序列构建多个时段中每个时段的时段网络，其中，所述时段网络包括多个节点和节点之间的边，每个节点用于表示所述目标网络设备在一个访问时刻对广告业务的访问行为，两个节点之间的边用于表示所述两个节点所表示的访问行为之间的关联关系，所述关联关系包括访问广告业务所使用的应用是否相同、访问的广告业务是否相同、所访问广告业务的广告主是否相同、所访问广告业务的业务类型是否相同以及所访问广告业务的广告主领域是否相同；

提取模块，用于从多个所述时段网络中提取网络特征和时序特征，其中，所述网络特征用于通过向量的形式表示所述时段网络的内部特征，所述时序特征用于指示所述时段网络间的时间序列特征，生成表示所述网络特征与所述时序特征的第二向量；

检测模块，用于采用注意力机制为每个所述第二向量分配注意力系数，得到多个时段内每个所述时段网络的第三向量；通过全连接层将所述第三向量映射到样本空间，得到输出流量异常与否的检测结果，其中，所述检测结果用于表示所述目标网络设备是否异常。

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器通过所述计算机程序执行上述权利要求1至6任一项中所述的方法。

9.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，所述程序被处理器运行时执行上述权利要求1至6任一项中所述的方法。