CN113709125A - 一种异常流量的确定方法、装置、存储介质及电子设备 - Google Patents
一种异常流量的确定方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN113709125A CN113709125A CN202110948512.0A CN202110948512A CN113709125A CN 113709125 A CN113709125 A CN 113709125A CN 202110948512 A CN202110948512 A CN 202110948512A CN 113709125 A CN113709125 A CN 113709125A
- Authority
- CN
- China
- Prior art keywords
- flow
- sample
- detected
- basic field
- frequency information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请提供了一种异常流量的识别方法、装置、存储介质及电子设备,其中,识别方法包括:获取流量日志;针对流量日志中每条待检测流量提取基础字段,以及统计基础字段中目标字段在待检测流量中的频次信息;利用预先训练好的识别模型对频次信息和基础字段进行计算,以确定待检测流量是否为异常流量。本申请利用预先训练好的识别模型对目标字段在待检测流量中的频次信息以及基础字段进行计算,以确定待检测流量是否为异常流量,并具体设置识别模型包含多个子模型,以克服应用场景对单模型的限制,通过多个子模型相互弥补各自的缺陷,大大提高了识别异常流量的准确率。
Description
技术领域
本申请涉及网络流量分析技术领域,特别涉及一种异常流量的识别方法、装置、存储介质及电子设备。
背景技术
近年来,我国网民数量和互联网的普及率逐年增加,截止到2020年12月,我国网民数量增加至近十亿,网络广告市场前景一片大好。随着网络广告市场的蓬勃发展,广告欺诈、虚假流量也营运而生,具体地,面向客户的产品其通常的运转模式是:买量、留存、变现。买量往往花费巨大的成本去获取新用户,快速获得用户的增长和品牌推广,从而带动广告变现,巨大的利润吸引了大量的黑产投入作弊伪造虚假流量的大军,以此骗取广告主投放的广告投入,不仅仅为广告主造成了巨大的经济损失,也严重影响了广告平台的形象与交付质量,破坏了移动互联网市场的良性发展。随着上述情况的发展,广告欺诈、虚假流量、广告作弊黑灰产、用户数据滥用和隐私信息泄露等问题也逐步显现,全球范围内各个国家对信息安全与隐私保护相关问题也越来越重视,为了进行严格的规范与引导,纷纷颁布了相关法律法规,同时,也开始了与广告流量黑产的抗争。
现有广告反作弊技术可归纳为以下三类方法:
1、基于规则统计与黑名单过滤的方法,该方法通过历史积累的黑名单,统计分布等信息进行规则的判断与过滤,但黑名单具有较大的局限性,一旦更新不及时,便会导致准确率大幅下降。2、基于有监督的方法,该方法将异常流量检测看作二分类问题,采用机器学习或神经网络的方法进行有监督的分类;3、基于无监督的方法,该方法将异常流量检测看作聚类问题,采用机器学习或神经网络的方法进行无监督的学习,将远离聚类簇中心的点作为异常点,或将密度较低的点作为异常点。但由于单模型自身的适用范围及各自缺陷,导致2和3类基于单模型来识别异常流量准确率仍较低。
发明内容
有鉴于此,本申请实施例提出了一种异常流量的识别方法、装置、存储介质及电子设备,用以解决现有技术中识别异常流量的准确率较低的问题。
第一方面,本申请实施例提供了一种异常流量的识别方法,其中,包括:
获取流量日志;
针对所述流量日志中每条待检测流量提取基础字段,以及统计所述基础字段中目标字段在所述待检测流量中的频次信息;
利用预先训练好的识别模型对所述频次信息和所述基础字段进行计算,以确定所述待检测流量是否为异常流量。
在一种可能的实施方式中,所述针对所述流量日志中每条待检测流量提取基础字段,以及统计所述基础字段中目标字段的频次信息,包括:
基于所述识别模型对应的预设字段,从所述待检测流量中提取所述基础字段;
按照预设规则,从所述基础字段中筛选出所述目标字段;
统计所述目标字段在所述待检测流量中的频次信息。
在一种可能的实施方式中,所述频次信息至少包括所述目标字段的出现频次、不同所述目标字段之间的共现频率以及不同所述目标字段之间的多项式。
在一种可能的实施方式中,所述利用预先训练好的识别模型对所述频次信息和所述基础字段进行计算,以确定所述待检测流量是否为异常流量,包括:
将所述频次信息和所述基础字段进行向量化,得到特征向量;
将所述特征向量输入至所述识别模型,得到所述识别模型输出的计算结果;
基于所述计算结果确定所述待检测流量是否为异常流量。
在一种可能的实施方式中,识别方法还包括训练所述识别模型的步骤:
获取多个流量样本,每个所述流量样本携带有身份标签,所述身份标签标识所述流量样本为正常流量或异常流量;
针对每个所述流量样本,提取基础字段样本,以及统计所述基础字段样本中目标字段样本在所述流量样本中的频次信息样本;
将所述基础字段样本以及所述频次信息转换为样本向量输入至待训练的识别模型中,以使所述待训练的识别模型对所述样本向量进行计算得到实际结果;
计算所述实际结果与理论结果之间的误差值;其中,所述理论结果为所述流量样本的身份标签;
在所述误差值大于预设阈值的情况下,调整所述待训练的识别模型的参数,直至所述误差值小于或等于所述预设阈值。
在一种可能的实施方式中,所述待训练的识别模型对所述样本向量进行计算得到实际结果,包括:
将所述样本向量分别输入多个子模型中,得到多个子结果;
基于每个所述子模型的权重以及每个所述子模型对应的子结果,计算每类子结果的权重和;
将所述权重和最大的子结果作为所述待训练的识别模型计算得到的实际结果。
第二方面,本申请实施例还提供了一种异常流量的识别装置,其中,包括:
获取模块,其配置地获取流量日志;
提取模块,其配置地针对所述流量日志中每条待检测流量提取基础字段,以及统计所述基础字段中目标字段在所述待检测流量中的频次信息;
确定模块,其配置地利用预先训练好的识别模型对所述频次信息和所述基础字段进行计算,以确定所述待检测流量是否为异常流量。
在一种可能的实施方式中,识别装置还包括训练模块,其配置地:
获取多个流量样本,每个所述流量样本携带有身份标签,所述身份标签标识所述流量样本为正常流量或异常流量;
针对每个所述流量样本,提取基础字段样本,以及统计所述基础字段样本中目标字段样本在所述流量样本中的频次信息样本;
将所述基础字段样本以及所述频次信息转换为样本向量输入至待训练的识别模型中,以使所述待训练的识别模型对所述样本向量进行计算得到实际结果;
计算所述实际结果与理论结果之间的误差值;其中,所述理论结果为所述流量样本的身份标签;
在所述误差值大于预设阈值的情况下,调整所述待训练的识别模型的参数,直至所述误差值小于或等于所述预设阈值。
第三方面,本申请实施例还提供了一种存储介质,其中,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如下步骤:
获取流量日志;
针对所述流量日志中每条待检测流量提取基础字段,以及统计所述基础字段中目标字段在所述待检测流量中的频次信息;
利用预先训练好的识别模型对所述频次信息和所述基础字段进行计算,以确定所述待检测流量是否为异常流量。
第四方面,本申请实施例还提供了一种电子设备,其中,包括:处理器和存储器,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如下步骤:
获取流量日志;
针对所述流量日志中每条待检测流量提取基础字段,以及统计所述基础字段中目标字段在所述待检测流量中的频次信息;
利用预先训练好的识别模型对所述频次信息和所述基础字段进行计算,以确定所述待检测流量是否为异常流量。
本申请实施例利用预先训练好的识别模型对目标字段在待检测流量中的频次信息以及基础字段进行计算,以确定待检测流量是否为异常流量,并具体设置识别模型包含多个子模型,以克服应用场景对单模型的限制,通过多个子模型相互弥补各自的缺陷,大大提高了识别异常流量的准确率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请所提供的一种异常流量的确定方法的流程图;
图2示出了本申请所提供的一种异常流量的确定方法中提取基础字段,以及统计基础字段中目标字段在待检测流量中的频次信息的流程图;
图3示出了本申请所提供的一种异常流量的确定方法中训练识别模型的流程图;
图4示出了本申请所提供的一种异常流量的确定方法中待训练的识别模型对样本向量进行计算得到实际结果的流程图;
图5示出了本申请所提供的一种异常流量的确定装置的结构示意图;
图6示出了本申请所提供的一种电子设备的结构示意图。
具体实施方式
为了使得本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例的附图,对本申请实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于所描述的本申请的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
除非另外定义,本申请使用的技术术语或者科学术语应当为本申请所属领域内具有一般技能的人士所理解的通常意义。本申请中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
为了保持本申请实施例的以下说明清楚且简明,本申请省略了已知功能和已知部件的详细说明。
如图1所示,为本申请第一方面提供的异常流量的识别方法的流程图,其中,具体步骤包括S101-S103。
S101,获取流量日志。
基于电子设备中本地存储的运行日志中提取流量日志,其中,流量日志至少包括时间戳,源IP,目的IP,源端口,目的端口,进出流量以及服务质量(Qos)等。
S102,针对流量日志中每条待检测流量提取基础字段,以及统计基础字段中目标字段在待检测流量中的频次信息。
在具体实施中,获取到流量日志之后,对流量日志中的每条待检测流量进行预处理,例如缺失值处理,对缺失值进行填充或删除,填充类型包括平均值填充、最大值填充、最小值填充、众数填充,其中,确定Nan或者“”(空字符串)为缺失值;还可以进行数据标准化,对数据进行归一化处理,以消除字段与字段之间的量纲影响,使所有字征处于同一量级下,具有可比性;当然,还可以进行数据清理等,本申请实施例不再过多赘述。
进一步地,针对流量日志中每条待检测流量提取基础字段,例如目的IP、电子设备的ID号、URL等。在提取到基础字段之后,确定基础字段中的目标字段,并统计基础字段中目标字段在待检测流量中的频次信息。
进一步地,图2示出了针对流量日志中每条待检测流量提取基础字段,以及统计基础字段中目标字段在待检测流量中的频次信息的流程图,具体步骤包括S201-S203。
S201,基于识别模型对应的预设字段,从待检测流量中提取基础字段。
S202,按照预设规则,从基础字段中筛选出目标字段。
S203,统计目标字段在待检测流量中的频次信息。
可选地,识别模型预先设置有对应的预设字段,该预设字段可以为基于历史流量确定的。在实际应用中,便直接基于预设字段从待检测流量中提取基础字段。
进一步地,按照预设规则,从基础字段中筛选出目标字段。其中,该预设规则可以是根据实际需求确定的,例如,选取标识IP地址的基础字段作为目标字段,选取标识ID号的基础字段作为目标字段等。
在确定目标字段之后,统计目标字段在待检测流量中的频次信息。本申请实施例中的频次信息至少包括目标字段的出现频次、不同目标字段之间的共现频率以及不同目标字段之间的多项式。其中,多项式的规则如下,针对字段x,若字段x的特征为(x1,x2),则其多项式特征为(1,x1,x2,x1x2)。
S103,利用预先训练好的识别模型对频次信息和基础字段进行计算,以确定待检测流量是否为异常流量。
在具体实施中,将频次信息和基础字段进行向量化,得到特征向量,之后,将特征向量输入至识别模型,得到识别模型输出的计算结果,进而基于计算结果确定待检测流量是否为异常流量。
其中,计算结果可以是数字0或1,0表示该待检测流量为异常流量,1表示该待检测流量为正常流量。当然,还可以用不同的字母作为计算结果,只要能够分别表示异常流量和正常流量即可。
如图3所示,本申请实施例还提供了训练识别模型的方法流程图,其中,具体步骤包括S301-S305。
S301,获取多个流量样本,每个流量样本携带有身份标签,身份标签标识流量样本为正常流量或异常流量。
S302,针对每个流量样本,提取基础字段样本,以及统计基础字段样本中目标字段样本在流量样本中的频次信息样本。
S303,将基础字段样本以及频次信息转换为样本向量输入至待训练的识别模型中,以使待训练的识别模型对样本向量进行计算得到实际结果。
S304,计算实际结果与理论结果之间的误差值;其中,理论结果为流量样本的身份标签。
S305,在误差值大于预设阈值的情况下,调整待训练的识别模型的参数,直至误差值小于或等于预设阈值。
这里,流量样本为历史流量,并且,已经知晓其是否为异常流量。在具体实施中,将流量样本为正常流量或异常流量作为身份标签设置在流量样本上,也即每个流量样本携带有身份标签,身份标签标识流量样本为正常流量或异常流量。也就是说,本申请实施例中用于识别模型训练的多个流量样本包括正常流量和异常流量。
可选地,针对流量样本也可以进行预处理,以确保后续模型训练的准确性,并且,预处理的方式与上述相同,在此便不做过多赘述。之后,针对每个流量样本,提取基础字段样本,以及统计基础字段样本中目标字段样本在流量样本中的频次信息样本,同样地,频次信息样本至少包括目标字段样本的出现频次、不同目标字段样本之间的共现频率以及不同目标字段样本之间的多项式。
将基础字段样本以及频次信息转换为样本向量输入至待训练的识别模型中,以使待训练的识别模型对样本向量进行计算得到实际结果;之后,计算实际结果与理论结果之间的误差值;其中,误差值为基于多个流量样本对应的实际结果和理论结果计算得到的,例如,本轮训练有10个流量样本,实际结果和理论结果相同的有8个流量样本,此时,误差值为2。这里,理论结果即为流量样本的身份标签。
在计算得到实际结果与理论结果之间的误差值之后,将误差值与预设阈值进行对比,若误差值大于预设阈值,表示待训练的识别模型的准确度仍较低,则调整待训练的识别模型的参数,并利用调整完参数的待训练的识别模型进行下一轮训练,直至误差值小于或等于预设阈值,确定完成训练。
进一步地,图4示出了待训练的识别模型对样本向量进行计算得到实际结果的方法流程图,具体步骤包括S401-S403。
S401,将样本向量分别输入多个子模型中,得到多个子结果。
S402,基于每个子模型的权重以及每个子模型对应的子结果,计算每类子结果的权重和。
S403,将权重和最大的子结果作为待训练的识别模型计算得到的实际结果。
在本申请实施例中,设置待训练的识别模型包括多个子模型,例如GBDT、catboost、RandomForest、MLP等。当然,在上述误差值大于预设阈值的情况下,调整的参数包括子模型的参数。
待训练的识别模型在接收到样本向量之后,将样本向量分别输入多个子模型中,以使每个子模型均对样本向量进行计算,进而得到多个子结果;之后,基于每个子模型的权重以及每个子模型对应的子结果,计算每类子结果的权重和,将权重和最大的子结果作为待训练的识别模型计算得到的实际结果。其中,每个子模型的权重为预先配置好的,其根据每个子模型适用范围、自身特性等进行配置。
例如,四个子模型输出的结果有两个类别,分别为0,1;四个子模型的权重分别为0.2,0.3,0.4,0.1。四个模型的预测结果分别为0,1,1,0。经计算得到0的预测值为0.2+0.1=0.3,1的预测值为0.3+0.4=0.7,最终预测结果为max(0.30,0.70)=0.70。因此,识别模型最后预测的类别为1。
本申请实施例利用预先训练好的识别模型对目标字段在待检测流量中的频次信息以及基础字段进行计算,以确定待检测流量是否为异常流量,并具体设置识别模型包含多个子模型,以克服应用场景对单模型的限制,通过多个子模型相互弥补各自的缺陷,大大提高了识别异常流量的准确率。
基于同一发明构思,本申请的第二方面还提供了一种异常流量的确定方法对应的异常流量的确定装置,由于本申请中的异常流量的确定装置解决问题的原理与本申请上述异常流量的确定方法相似,因此异常流量的确定装置的实施可以参见方法的实施,重复之处不再赘述。
图5示出了本申请实施例提供的异常流量的确定装置的示意图,具体包括:
获取模块501,其配置地获取流量日志;
提取模块502,其配置地针对所述流量日志中每条待检测流量提取基础字段,以及统计所述基础字段中目标字段在所述待检测流量中的频次信息;
确定模块503,其配置地利用预先训练好的识别模型对所述频次信息和所述基础字段进行计算,以确定所述待检测流量是否为异常流量。
在又一实施例中,所述提取模块502具体配置为:
基于所述识别模型对应的预设字段,从所述待检测流量中提取所述基础字段;
按照预设规则,从所述基础字段中筛选出所述目标字段;
统计所述目标字段在所述待检测流量中的频次信息。
在又一实施例中,所述频次信息至少包括所述目标字段的出现频次、不同所述目标字段之间的共现频率以及不同所述目标字段之间的多项式。
在又一实施例中,所述确定模块503具体配置为:
将所述频次信息和所述基础字段进行向量化,得到特征向量;
将所述特征向量输入至所述识别模型,得到所述识别模型输出的计算结果;
基于所述计算结果确定所述待检测流量是否为异常流量。
在又一实施例中,异常流量的确定装置还包括训练模块504,其配置地:
获取多个流量样本,每个所述流量样本携带有身份标签,所述身份标签标识所述流量样本为正常流量或异常流量;
针对每个所述流量样本,提取基础字段样本,以及统计所述基础字段样本中目标字段样本在所述流量样本中的频次信息样本;
将所述基础字段样本以及所述频次信息转换为样本向量输入至待训练的识别模型中,以使所述待训练的识别模型对所述样本向量进行计算得到实际结果;
计算所述实际结果与理论结果之间的误差值;其中,所述理论结果为所述流量样本的身份标签;
在所述误差值大于预设阈值的情况下,调整所述待训练的识别模型的参数,直至所述误差值小于或等于所述预设阈值。
在又一实施例中,所述训练模块504在使所述待训练的识别模型对所述样本向量进行计算得到实际结果时,包括:
将所述样本向量分别输入多个子模型中,得到多个子结果;
基于每个所述子模型的权重以及每个所述子模型对应的子结果,计算每类子结果的权重和;
将所述权重和最大的子结果作为所述待训练的识别模型计算得到的实际结果。
本申请实施例利用预先训练好的识别模型对目标字段在待检测流量中的频次信息以及基础字段进行计算,以确定待检测流量是否为异常流量,并具体设置识别模型包含多个子模型,以克服应用场景对单模型的限制,通过多个子模型相互弥补各自的缺陷,大大提高了识别异常流量的准确率。
本申请实施例提供了一种存储介质,该存储介质为计算机可读介质,存储有计算机程序,该计算机程序被处理器执行时实现本申请任意实施例提供的方法,包括如下步骤S11至S13:
S11,获取流量日志;
S12,针对所述流量日志中每条待检测流量提取基础字段,以及统计所述基础字段中目标字段在所述待检测流量中的频次信息;
利用预先训练好的识别模型对所述频次信息和所述基础字段进行计算,以确定所述待检测流量是否为异常流量;
S13,利用预先训练好的分类模型对所述人脸图像进行计算,得到所述人脸图像对应的类型序列。
计算机程序被处理器执行针对所述流量日志中每条待检测流量提取基础字段,以及统计所述基础字段中目标字段的频次信息时,具体被处理器执行如下步骤:基于所述识别模型对应的预设字段,从所述待检测流量中提取所述基础字段;按照预设规则,从所述基础字段中筛选出所述目标字段;统计所述目标字段在所述待检测流量中的频次信息。
计算机程序被处理器执行利用预先训练好的识别模型对所述频次信息和所述基础字段进行计算,以确定所述待检测流量是否为异常流量时,还被处理器执行如下步骤:将所述频次信息和所述基础字段进行向量化,得到特征向量;将所述特征向量输入至所述识别模型,得到所述识别模型输出的计算结果;基于所述计算结果确定所述待检测流量是否为异常流量。
计算机程序被处理器执行识别方法时,还被处理器执行如下步骤:获取多个流量样本,每个所述流量样本携带有身份标签,所述身份标签标识所述流量样本为正常流量或异常流量;针对每个所述流量样本,提取基础字段样本,以及统计所述基础字段样本中目标字段样本在所述流量样本中的频次信息样本;将所述基础字段样本以及所述频次信息转换为样本向量输入至待训练的识别模型中,以使所述待训练的识别模型对所述样本向量进行计算得到实际结果;计算所述实际结果与理论结果之间的误差值;其中,所述理论结果为所述流量样本的身份标签;在所述误差值大于预设阈值的情况下,调整所述待训练的识别模型的参数,直至所述误差值小于或等于所述预设阈值。
计算机程序被处理器执行所述待训练的识别模型对所述样本向量进行计算得到实际结果时,还被处理器执行如下步骤:将所述样本向量分别输入多个子模型中,得到多个子结果;基于每个所述子模型的权重以及每个所述子模型对应的子结果,计算每类子结果的权重和;将所述权重和最大的子结果作为所述待训练的识别模型计算得到的实际结果。
本申请实施例利用预先训练好的识别模型对目标字段在待检测流量中的频次信息以及基础字段进行计算,以确定待检测流量是否为异常流量,并具体设置识别模型包含多个子模型,以克服应用场景对单模型的限制,通过多个子模型相互弥补各自的缺陷,大大提高了识别异常流量的准确率。
本申请实施例提供了一种电子设备,该电子设备的结构示意图可以如图6所示,至少包括存储器601和处理器602,存储器601上存储有计算机程序,处理器602在执行存储器601上的计算机程序时实现本申请任意实施例提供的方法。示例性的,电子设备计算机程序步骤如下S21至S23:
S21,获取流量日志;
S22,针对所述流量日志中每条待检测流量提取基础字段,以及统计所述基础字段中目标字段在所述待检测流量中的频次信息;
S23,利用预先训练好的识别模型对所述频次信息和所述基础字段进行计算,以确定所述待检测流量是否为异常流量。
处理器在执行存储器上存储的针对所述流量日志中每条待检测流量提取基础字段,以及统计所述基础字段中目标字段的频次信息时,还执行如下计算机程序:基于所述识别模型对应的预设字段,从所述待检测流量中提取所述基础字段;按照预设规则,从所述基础字段中筛选出所述目标字段;统计所述目标字段在所述待检测流量中的频次信息。
处理器在执行存储器上存储的利用预先训练好的识别模型对所述频次信息和所述基础字段进行计算,以确定所述待检测流量是否为异常流量时,还执行如下计算机程序:将所述频次信息和所述基础字段进行向量化,得到特征向量;将所述特征向量输入至所述识别模型,得到所述识别模型输出的计算结果;基于所述计算结果确定所述待检测流量是否为异常流量。
处理器在执行存储器上存储的识别方法时,还执行如下计算机程序:获取多个流量样本,每个所述流量样本携带有身份标签,所述身份标签标识所述流量样本为正常流量或异常流量;针对每个所述流量样本,提取基础字段样本,以及统计所述基础字段样本中目标字段样本在所述流量样本中的频次信息样本;将所述基础字段样本以及所述频次信息转换为样本向量输入至待训练的识别模型中,以使所述待训练的识别模型对所述样本向量进行计算得到实际结果;计算所述实际结果与理论结果之间的误差值;其中,所述理论结果为所述流量样本的身份标签;在所述误差值大于预设阈值的情况下,调整所述待训练的识别模型的参数,直至所述误差值小于或等于所述预设阈值。
处理器在执行存储器上存储的所述待训练的识别模型对所述样本向量进行计算得到实际结果时,还执行如下计算机程序:将所述样本向量分别输入多个子模型中,得到多个子结果;基于每个所述子模型的权重以及每个所述子模型对应的子结果,计算每类子结果的权重和;将所述权重和最大的子结果作为所述待训练的识别模型计算得到的实际结果。
本申请实施例利用预先训练好的识别模型对目标字段在待检测流量中的频次信息以及基础字段进行计算,以确定待检测流量是否为异常流量,并具体设置识别模型包含多个子模型,以克服应用场景对单模型的限制,通过多个子模型相互弥补各自的缺陷,大大提高了识别异常流量的准确率。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。可选地,在本实施例中,处理器根据存储介质中已存储的程序代码执行上述实施例记载的方法步骤。可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
此外,尽管已经在本文中描述了示例性实施例,其范围包括任何和所有基于本申请的具有等同元件、修改、省略、组合(例如,各种实施例交叉的方案)、改编或改变的实施例。权利要求书中的元件将被基于权利要求中采用的语言宽泛地解释,并不限于在本说明书中或本申请的实施期间所描述的示例,其示例将被解释为非排他性的。因此,本说明书和示例旨在仅被认为是示例,真正的范围和精神由以下权利要求以及其等同物的全部范围所指示。
以上描述旨在是说明性的而不是限制性的。例如,上述示例(或其一个或更多方案)可以彼此组合使用。例如本领域普通技术人员在阅读上述描述时可以使用其它实施例。另外,在上述具体实施方式中,各种特征可以被分组在一起以简单化本申请。这不应解释为一种不要求保护的公开的特征对于任一权利要求是必要的意图。相反,本申请的主题可以少于特定的公开的实施例的全部特征。从而,以下权利要求书作为示例或实施例在此并入具体实施方式中,其中每个权利要求独立地作为单独的实施例,并且考虑这些实施例可以以各种组合或排列彼此组合。本申请的范围应参照所附权利要求以及这些权利要求赋权的等同形式的全部范围来确定。
以上对本申请多个实施例进行了详细说明,但本申请不限于这些具体的实施例,本领域技术人员在本申请构思的基础上,能够做出多种变型和修改实施例,这些变型和修改都应落入本申请所要求保护的范围之内。
Claims (10)
1.一种异常流量的识别方法,其特征在于,包括:
获取流量日志;
针对所述流量日志中每条待检测流量提取基础字段,以及统计所述基础字段中目标字段在所述待检测流量中的频次信息;
利用预先训练好的识别模型对所述频次信息和所述基础字段进行计算,以确定所述待检测流量是否为异常流量。
2.根据权利要求1所述的识别方法,其特征在于,所述针对所述流量日志中每条待检测流量提取基础字段,以及统计所述基础字段中目标字段的频次信息,包括:
基于所述识别模型对应的预设字段,从所述待检测流量中提取所述基础字段;
按照预设规则,从所述基础字段中筛选出所述目标字段;
统计所述目标字段在所述待检测流量中的频次信息。
3.根据权利要求1所述的识别方法,其特征在于,所述频次信息至少包括所述目标字段的出现频次、不同所述目标字段之间的共现频率以及不同所述目标字段之间的多项式。
4.根据权利要求1所述的识别方法,其特征在于,所述利用预先训练好的识别模型对所述频次信息和所述基础字段进行计算,以确定所述待检测流量是否为异常流量,包括:
将所述频次信息和所述基础字段进行向量化,得到特征向量;
将所述特征向量输入至所述识别模型,得到所述识别模型输出的计算结果;
基于所述计算结果确定所述待检测流量是否为异常流量。
5.根据权利要求1所述的识别方法,其特征在于,还包括训练所述识别模型的步骤:
获取多个流量样本,每个所述流量样本携带有身份标签,所述身份标签标识所述流量样本为正常流量或异常流量;
针对每个所述流量样本,提取基础字段样本,以及统计所述基础字段样本中目标字段样本在所述流量样本中的频次信息样本;
将所述基础字段样本以及所述频次信息转换为样本向量输入至待训练的识别模型中,以使所述待训练的识别模型对所述样本向量进行计算得到实际结果;
计算所述实际结果与理论结果之间的误差值;其中,所述理论结果为所述流量样本的身份标签;
在所述误差值大于预设阈值的情况下,调整所述待训练的识别模型的参数,直至所述误差值小于或等于所述预设阈值。
6.根据权利要求5所述的识别方法,其特征在于,所述待训练的识别模型对所述样本向量进行计算得到实际结果,包括:
将所述样本向量分别输入多个子模型中,得到多个子结果;
基于每个所述子模型的权重以及每个所述子模型对应的子结果,计算每类子结果的权重和;
将所述权重和最大的子结果作为所述待训练的识别模型计算得到的实际结果。
7.一种异常流量的识别装置,其特征在于,包括:
获取模块,其配置地获取流量日志;
提取模块,其配置地针对所述流量日志中每条待检测流量提取基础字段,以及统计所述基础字段中目标字段在所述待检测流量中的频次信息;
确定模块,其配置地利用预先训练好的识别模型对所述频次信息和所述基础字段进行计算,以确定所述待检测流量是否为异常流量。
8.根据权利要求7所述的识别装置,其特征在于,还包括训练模块,其配置地:
获取多个流量样本,每个所述流量样本携带有身份标签,所述身份标签标识所述流量样本为正常流量或异常流量;
针对每个所述流量样本,提取基础字段样本,以及统计所述基础字段样本中目标字段样本在所述流量样本中的频次信息样本;
将所述基础字段样本以及所述频次信息转换为样本向量输入至待训练的识别模型中,以使所述待训练的识别模型对所述样本向量进行计算得到实际结果;
计算所述实际结果与理论结果之间的误差值;其中,所述理论结果为所述流量样本的身份标签;
在所述误差值大于预设阈值的情况下,调整所述待训练的识别模型的参数,直至所述误差值小于或等于所述预设阈值。
9.一种存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如下步骤:
获取流量日志;
针对所述流量日志中每条待检测流量提取基础字段,以及统计所述基础字段中目标字段在所述待检测流量中的频次信息;
利用预先训练好的识别模型对所述频次信息和所述基础字段进行计算,以确定所述待检测流量是否为异常流量。
10.一种电子设备,其特征在于,包括:处理器和存储器,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如下步骤:
获取流量日志;
针对所述流量日志中每条待检测流量提取基础字段,以及统计所述基础字段中目标字段在所述待检测流量中的频次信息;
利用预先训练好的识别模型对所述频次信息和所述基础字段进行计算,以确定所述待检测流量是否为异常流量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110948512.0A CN113709125A (zh) | 2021-08-18 | 2021-08-18 | 一种异常流量的确定方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110948512.0A CN113709125A (zh) | 2021-08-18 | 2021-08-18 | 一种异常流量的确定方法、装置、存储介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113709125A true CN113709125A (zh) | 2021-11-26 |
Family
ID=78653243
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110948512.0A Pending CN113709125A (zh) | 2021-08-18 | 2021-08-18 | 一种异常流量的确定方法、装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113709125A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114257553A (zh) * | 2021-12-21 | 2022-03-29 | 科大讯飞股份有限公司 | 流量检测方法、装置、电子设备和存储介质 |
CN114928560A (zh) * | 2022-05-16 | 2022-08-19 | 珠海市鸿瑞信息技术股份有限公司 | 基于大数据的网络流量和设备日志协同管理系统及方法 |
WO2024007615A1 (zh) * | 2022-07-05 | 2024-01-11 | 华为云计算技术有限公司 | 模型训练方法、装置及相关设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104580173A (zh) * | 2014-12-25 | 2015-04-29 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种sdn异常检测与阻截方法及系统 |
CN105956010A (zh) * | 2016-04-20 | 2016-09-21 | 浙江大学 | 基于分布式表征和局部排序的分布式信息检索集合选择方法 |
CN106131071A (zh) * | 2016-08-26 | 2016-11-16 | 北京奇虎科技有限公司 | 一种Web异常检测方法和装置 |
CN111651590A (zh) * | 2019-02-15 | 2020-09-11 | 北京京东尚科信息技术有限公司 | 数据处理方法、装置、电子设备及存储介质 |
CN111858242A (zh) * | 2020-07-10 | 2020-10-30 | 苏州浪潮智能科技有限公司 | 一种系统日志异常检测方法、装置及电子设备和存储介质 |
US20210073618A1 (en) * | 2019-09-11 | 2021-03-11 | Intuit Inc. | System and method for detecting anomalies utilizing a plurality of neural network models |
CN112688897A (zh) * | 2019-10-17 | 2021-04-20 | 北京观成科技有限公司 | 一种流量识别的方法、装置、存储介质及电子设备 |
CN112732871A (zh) * | 2021-01-12 | 2021-04-30 | 上海畅圣计算机科技有限公司 | 一种机器人催收获取客户意向标签的多标签分类方法 |
CN113255334A (zh) * | 2021-05-20 | 2021-08-13 | 北京明略昭辉科技有限公司 | 一种计算字向量方法、系统、电子设备及存储介质 |
-
2021
- 2021-08-18 CN CN202110948512.0A patent/CN113709125A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104580173A (zh) * | 2014-12-25 | 2015-04-29 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种sdn异常检测与阻截方法及系统 |
CN105956010A (zh) * | 2016-04-20 | 2016-09-21 | 浙江大学 | 基于分布式表征和局部排序的分布式信息检索集合选择方法 |
CN106131071A (zh) * | 2016-08-26 | 2016-11-16 | 北京奇虎科技有限公司 | 一种Web异常检测方法和装置 |
CN111651590A (zh) * | 2019-02-15 | 2020-09-11 | 北京京东尚科信息技术有限公司 | 数据处理方法、装置、电子设备及存储介质 |
US20210073618A1 (en) * | 2019-09-11 | 2021-03-11 | Intuit Inc. | System and method for detecting anomalies utilizing a plurality of neural network models |
CN112688897A (zh) * | 2019-10-17 | 2021-04-20 | 北京观成科技有限公司 | 一种流量识别的方法、装置、存储介质及电子设备 |
CN111858242A (zh) * | 2020-07-10 | 2020-10-30 | 苏州浪潮智能科技有限公司 | 一种系统日志异常检测方法、装置及电子设备和存储介质 |
CN112732871A (zh) * | 2021-01-12 | 2021-04-30 | 上海畅圣计算机科技有限公司 | 一种机器人催收获取客户意向标签的多标签分类方法 |
CN113255334A (zh) * | 2021-05-20 | 2021-08-13 | 北京明略昭辉科技有限公司 | 一种计算字向量方法、系统、电子设备及存储介质 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114257553A (zh) * | 2021-12-21 | 2022-03-29 | 科大讯飞股份有限公司 | 流量检测方法、装置、电子设备和存储介质 |
CN114257553B (zh) * | 2021-12-21 | 2024-06-07 | 科大讯飞股份有限公司 | 流量检测方法、装置、电子设备和存储介质 |
CN114928560A (zh) * | 2022-05-16 | 2022-08-19 | 珠海市鸿瑞信息技术股份有限公司 | 基于大数据的网络流量和设备日志协同管理系统及方法 |
CN114928560B (zh) * | 2022-05-16 | 2023-01-31 | 珠海市鸿瑞信息技术股份有限公司 | 基于大数据的网络流量和设备日志协同管理系统及方法 |
WO2024007615A1 (zh) * | 2022-07-05 | 2024-01-11 | 华为云计算技术有限公司 | 模型训练方法、装置及相关设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113709125A (zh) | 一种异常流量的确定方法、装置、存储介质及电子设备 | |
CN108090433B (zh) | 人脸识别方法及装置、存储介质、处理器 | |
CN109583468B (zh) | 训练样本获取方法,样本预测方法及对应装置 | |
EP4099217A1 (en) | Image processing model training method and apparatus, device, and storage medium | |
CN109657600B (zh) | 一种视频区域移除篡改检测方法和装置 | |
CN112866486B (zh) | 一种基于多源特征的诈骗电话识别方法、系统及设备 | |
CN111696080B (zh) | 一种基于静态纹理的人脸欺诈检测方法、系统及存储介质 | |
CN110119980A (zh) | 一种用于信贷的反欺诈方法、装置、系统和记录介质 | |
CN110675252A (zh) | 风险评估方法、装置、电子设备及存储介质 | |
CN115660262B (zh) | 一种基于数据库应用的工程智慧质检方法、系统及介质 | |
CN111221960A (zh) | 文本检测方法、相似度计算方法、模型训练方法及装置 | |
CN114202336A (zh) | 一种金融场景下的风险行为监测方法及系统 | |
CN114841526A (zh) | 一种高风险用户的检测方法、计算设备及可读存储介质 | |
CN114332602A (zh) | 一种智能货柜的商品识别方法 | |
CN114841705B (zh) | 一种基于场景识别的反欺诈监测方法 | |
CN112001785A (zh) | 一种基于图像识别的网贷欺诈识别方法及系统 | |
CN112818150B (zh) | 一种图片内容审核方法、装置、设备和介质 | |
CN110570301B (zh) | 风险识别方法、装置、设备及介质 | |
CN113095313A (zh) | 文本字符串的识别方法、装置和服务器 | |
CN111666957A (zh) | 图像真实性的识别方法及装置 | |
CN111382628A (zh) | 同行判定方法及相关产品 | |
CN117496201B (zh) | 一种用于电子烟、雾化器和电池杆的识别方法 | |
CN117217830B (zh) | 一种广告刷单监控识别方法、系统及可读存储介质 | |
CN113591829B (zh) | 字符识别方法、装置、设备及存储介质 | |
CN115953239B (zh) | 一种基于多频流网络模型的面审视频场景评估方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |