CN112765324A - 一种概念漂移检测方法及装置 - Google Patents

一种概念漂移检测方法及装置 Download PDF

Info

Publication number
CN112765324A
CN112765324A CN202110101772.4A CN202110101772A CN112765324A CN 112765324 A CN112765324 A CN 112765324A CN 202110101772 A CN202110101772 A CN 202110101772A CN 112765324 A CN112765324 A CN 112765324A
Authority
CN
China
Prior art keywords
detected
data
word segmentation
segmentation vector
flow
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110101772.4A
Other languages
English (en)
Other versions
CN112765324B (zh
Inventor
徐小雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Hongwei Technology Co Ltd
Original Assignee
Sichuan Hongwei Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Hongwei Technology Co Ltd filed Critical Sichuan Hongwei Technology Co Ltd
Priority to CN202110101772.4A priority Critical patent/CN112765324B/zh
Publication of CN112765324A publication Critical patent/CN112765324A/zh
Application granted granted Critical
Publication of CN112765324B publication Critical patent/CN112765324B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Computer Hardware Design (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供一种概念漂移检测方法及装置,应用于流量检测,其中,在概念漂移检测方法中,电子设备获取待检测流量数据以及用于对比的参考流量数据,并分别将待检测流量数据转换为待检测分词向量以及将参考流量数据转换为参考分词向量,以根据待检测分词向量与参考分词向量之间的相似度检测当前流量是否存在概念漂移,从而可以在存在概念漂移时对异常流量检测模型进行更新,因此可以解决基于机器学习的异常检测方法在检测过程中出现的准确率下降和误报率上升的问题。

Description

一种概念漂移检测方法及装置
技术领域
本申请涉及流量检测领域,具体而言,涉及一种概念漂移检测方法及装置。
背景技术
随着机器学习的发展,机器学习在异常网络流量检测领域的应用逐渐增加,并且能够准确的检查出流量中存在的新型未知攻击。但是,由于流式数据表现出的概念漂移问题,即数据的样式、含义、内容等会随着时间产生变化,从而使得在采用机器学习的方法进行实时网络异常检测时,会出现准确率随时间下降、误报率不断增加的情况。
发明内容
本申请实施例的目的在于提供一种概念漂移检测方法及装置,用以解决基于机器学习的异常检测方法在检测过程中出现的准确率下降和误报率上升的问题。的技术问题。
为了实现上述目的,本申请实施例所提供的技术方案如下所示:
第一方面,本申请实施例提供一种概念漂移检测方法,包括:获取待检测流量数据以及参考流量数据;其中,所述参考流量数据为异常流量检测模型刚部署后采集的历史流量,所述待检测流量数据与所述参考流量数据的流量条数相同;对所述待检测流量数据以及所述参考流量数据进行字段提取,得到所述待检测流量数据对应的待检测字段以及所述参考流量数据对应的参考字段;利用预先创建好的词表将所述待检测字段转换为待检测分词向量,以及利用所述预先创建好的词表将所述参考字段转换为参考分词向量;判断所述待检测分词向量与所述参考分词向量是否相似;若所述待检测分词向量与所述参考分词向量不相似,则确定所述待检测流量数据对应的流量存在概念漂移,以对所述异常流量检测模型进行更新。在上述方案中,电子设备获取待检测流量数据以及用于对比的参考流量数据,并分别将待检测流量数据转换为待检测分词向量以及将参考流量数据转换为参考分词向量,以根据待检测分词向量与参考分词向量之间的相似度检测当前流量是否存在概念漂移,从而可以在存在概念漂移时对异常流量检测模型进行更新,因此可以解决基于机器学习的异常检测方法在检测过程中出现的准确率下降和误报率上升的问题。
在本申请的可选实施例中,所述待检测流量数据为当前时间之前的实时流量。在上述方案中,可以对实时的待检测数据进行概念漂移检测,以及时对异常流量检测模型进行更新。
在本申请的可选实施例中,所述对所述待检测流量数据以及所述参考流量数据进行字段提取,包括:根据流量的协议类型对所述待检测流量数据以及所述参考流量数据进行字段提取。
在本申请的可选实施例中,所述利用预先创建好的词表将所述参考字段转换为参考分词向量,包括:利用所述预先创建好的词表对所述参考字段进行分词,得到分词后的词语;将所述分词后的词语转换为所述预先创建好的词表中对应的数字,形成所述待检测分词向量。在上述方案中,可以利用预先创建好的词表将参考字段转换为参考分词向量,从而可以利用参考分词向量进行运算,既方便又可以降低运算量。
在本申请的可选实施例中,所述利用预先创建好的词表将所述待检测字段转换为待检测分词向量,包括:利用所述预先创建好的词表对所述待检测字段进行分词,得到分词后的词语;将所述分词后的词语转换为所述预先创建好的词表中对应的数字,形成所述参考分词向量。在上述方案中,可以利用预先创建好的词表将待检测字段转换为待检测分词向量,从而可以利用待检测分词向量进行运算,既方便又可以降低运算量。
在本申请的可选实施例中,所述判断所述待检测分词向量与所述参考分词向量是否相似,包括:利用如下公式计算所述待检测分词向量的数据分布与所述参考分词向量的数据分布在希尔伯特空间中的距离:
Figure BDA0002914851230000031
其中,MMD2[F,p,q]为所述距离,μp为所述参考分词向量的数据分布均值,μq为所述待检测分词向量的数据分布均值,Η为希尔伯特空间,ε为预设距离阈值;判断所述距离是否大于所述预设距离阈值;其中,所述距离大于所述预设距离阈值表征所述待检测分词向量与所述参考分词向量不相似。在上述方案中,可以利用希尔伯特空间计算待检测分词向量与参考分词向量之间的相似度,以判断当前流量是否存在概念漂移,从而可以在存在概念漂移时对异常流量检测模型进行更新,因此可以解决基于机器学习的异常检测方法在检测过程中出现的准确率下降和误报率上升的问题。
在本申请的可选实施例中,在所述计算所述待检测分词向量与所述参考分词向量的相似度之前,所述方法还包括:对所述待检测分词向量以及所述参考分词向量进行降维,得到降维后的待检测分词向量以及降维后的参考分词向量。在上述方案中,在计算待检测分词向量与参考分词向量的相似度之前,可以对待检测分词向量以及参考分词向量进行PCA降维,从而在压缩数据的同时让信息损失最小化。
在本申请的可选实施例中,在所述获取待检测流量数据以及参考流量数据之前,所述方法还包括:获取多条流量对应的历史数据;对所述历史数据进行字段提取,得到所述历史数据对应的字段数据;将所述字段数据中的未出现字符、加密数据、小写字母、大写字母、符号、数字以及高频词语按照预设顺序加入新建的词表中;对所述新建的词表中的词进行赋值,得到所述预先创建好的词表。在上述方案中,可以预先基于历史数据构建对应的词表,从而可以利用预先构建好的词表将参考字段转换为参考分词向量以及将待检测字段转换为待检测分词向量,以利用参考分词向量进行运算,既方便又可以降低运算量。
在本申请的可选实施例中,在所述将所述字段数据中的未出现字符、加密数据、小写字母、大写字母、符号、数字以及高频词语按照预设顺序加入新建的词表中之前,所述方法还包括:剔除所述字段数据中的加密数据;对剔除所述加密数据后的字段数据按照符号进行分词,得到分词后的词语;统计所述分词后的词语的出现频率;将所述出现频率符合预设频率规则的词语确定为所述高频词语。在上述方案中,可以将字段数据中的高频词语添加至词表中,从而在利用预先构建好的词表将参考字段转换为参考分词向量以及将待检测字段转换为待检测分词向量的过程中,可以直接对高频词语进行转换,从而可以降低运算量。
第二方面,本申请实施例提供一种概念漂移检测装置,包括:第一获取模块,用于获取待检测流量数据以及参考流量数据;其中,所述参考流量数据为异常流量检测模型刚部署后采集的历史流量,所述待检测流量数据与所述参考流量数据的流量条数相同;第一提取模块,用于对所述待检测流量数据以及所述参考流量数据进行字段提取,得到所述待检测流量数据对应的待检测字段以及所述参考流量数据对应的参考字段;转换模块,用于利用预先创建好的词表将所述待检测字段转换为待检测分词向量,以及利用所述预先创建好的词表将所述参考字段转换为参考分词向量;判断模块,用于判断所述待检测分词向量与所述参考分词向量是否相似;第一确定模块,用于若所述待检测分词向量与所述参考分词向量不相似,则确定所述待检测流量数据对应的流量存在概念漂移,以对所述异常流量检测模型进行更新。在上述方案中,电子设备获取待检测流量数据以及用于对比的参考流量数据,并分别将待检测流量数据转换为待检测分词向量以及将参考流量数据转换为参考分词向量,以根据待检测分词向量与参考分词向量之间的相似度检测当前流量是否存在概念漂移,从而可以在存在概念漂移时对异常流量检测模型进行更新,因此可以解决基于机器学习的异常检测方法在检测过程中出现的准确率下降和误报率上升的问题。
在本申请的可选实施例中,所述待检测流量数据为当前时间之前的实时流量。在上述方案中,可以对实时的待检测数据进行概念漂移检测,以及时对异常流量检测模型进行更新。
在本申请的可选实施例中,所述第一提取模块还用于:根据流量的协议类型对所述待检测流量数据以及所述参考流量数据进行字段提取。
在本申请的可选实施例中,所述转换模块还用于:利用所述预先创建好的词表对所述参考字段进行分词,得到分词后的词语;将所述分词后的词语转换为所述预先创建好的词表中对应的数字,形成所述待检测分词向量。在上述方案中,可以利用预先创建好的词表将参考字段转换为参考分词向量,从而可以利用参考分词向量进行运算,既方便又可以降低运算量。
在本申请的可选实施例中,所述转换模块还用于:利用所述预先创建好的词表对所述待检测字段进行分词,得到分词后的词语;将所述分词后的词语转换为所述预先创建好的词表中对应的数字,形成所述参考分词向量。在上述方案中,可以利用预先创建好的词表将待检测字段转换为待检测分词向量,从而可以利用待检测分词向量进行运算,既方便又可以降低运算量。
在本申请的可选实施例中,所述判断模块还用于:利用如下公式计算所述待检测分词向量的数据分布与所述参考分词向量的数据分布在希尔伯特空间中的距离:
Figure BDA0002914851230000051
其中,MMD2[F,p,q]为所述距离,μp为所述参考分词向量的数据分布均值,μq为所述待检测分词向量的数据分布均值,Η为希尔伯特空间,ε为预设距离阈值;判断所述距离是否大于所述预设距离阈值;其中,所述距离大于所述预设距离阈值表征所述待检测分词向量与所述参考分词向量不相似。在上述方案中,可以利用希尔伯特空间计算待检测分词向量与参考分词向量之间的相似度,以判断当前流量是否存在概念漂移,从而可以在存在概念漂移时对异常流量检测模型进行更新,因此可以解决基于机器学习的异常检测方法在检测过程中出现的准确率下降和误报率上升的问题。
在本申请的可选实施例中,所述概念漂移检测装置还包括:降维模块,用于对所述待检测分词向量以及所述参考分词向量进行降维,得到降维后的待检测分词向量以及降维后的参考分词向量。在上述方案中,在计算待检测分词向量与参考分词向量的相似度之前,可以对待检测分词向量以及参考分词向量进行PCA降维,从而在压缩数据的同时让信息损失最小化。
在本申请的可选实施例中,所述概念漂移检测装置还包括:第二获取模块,用于获取多条流量对应的历史数据;第二提取模块,用于对所述历史数据进行字段提取,得到所述历史数据对应的字段数据;加入模块,用于将所述字段数据中的未出现字符、加密数据、小写字母、大写字母、符号、数字以及高频词语按照预设顺序加入新建的词表中;赋值模块,用于对所述新建的词表中的词进行赋值,得到所述预先创建好的词表。在上述方案中,可以预先基于历史数据构建对应的词表,从而可以利用预先构建好的词表将参考字段转换为参考分词向量以及将待检测字段转换为待检测分词向量,以利用参考分词向量进行运算,既方便又可以降低运算量。
在本申请的可选实施例中,所述概念漂移检测装置还包括:剔除模块,用于剔除所述字段数据中的加密数据;分词模块,用于对剔除所述加密数据后的字段数据按照符号进行分词,得到分词后的词语;统计模块,用于统计所述分词后的词语的出现频率;第二确定模块,用于将所述出现频率符合预设频率规则的词语确定为所述高频词语。在上述方案中,可以将字段数据中的高频词语添加至词表中,从而在利用预先构建好的词表将参考字段转换为参考分词向量以及将待检测字段转换为待检测分词向量的过程中,可以直接对高频词语进行转换,从而可以降低运算量。
第三方面,本申请实施例提供一种电子设备,包括:处理器、存储器和总线;所述处理器和所述存储器通过所述总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如第一方面中的概念漂移检测方法。
第四方面,本申请实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如第一方面中的概念漂移检测方法。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举本申请实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种词表创建方法的流程图;
图2为本申请实施例提供的一种概念漂移检测方法的流程图;
图3为本申请实施例提供的一种概念漂移检测装置的结构框图;
图4为本申请实施例提供的一种电子设备的结构框图。
具体实施方式
概念漂移,是指随着时间推移,目标变量以不可预见的方式发生着变化,导致未来数据分布与已有数据分布不一致。因此,在进行异常流量检测的过程中,由于存在概念漂移的现象,会导致检测的准确率随时间下降、误报率不断增加。
基于上述分析,本申请实施例提供一种概念漂移检测方法,在该方法中,首先针对流量进行词表的创建,然后利用预先创建好的词表对待检测流量数据以及参考流量数据进行处理,以计算处理后的待检测流量数据以及参考流量数据之间的相似度,并基于相似度判断当前是否存在概念漂移。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
在介绍本申请实施例提供的方法之前,首先说明,本申请实施例提供的方法可以被电子设备执行,这里的电子设备是指具有执行计算机程序功能的设备终端或者服务器,其中,服务器是指通过网络提供计算服务的设备。
接下来介绍本申请实施例提供的创建词表的方法。
请参照图1,图1为本申请实施例提供的一种词表创建方法的流程图,该方法可以包括如下步骤:
步骤S101:获取多条流量对应的历史数据。
步骤S102:对历史数据进行字段提取,得到历史数据对应的字段数据。
步骤S103:将字段数据中的未出现字符、加密数据、小写字母、大写字母、符号、数字以及高频词语按照预设顺序加入新建的词表中。
步骤S104:对新建的词表中的词进行赋值,得到预先创建好的词表。
具体的,需要说明的是,本申请实施例对流量的类型、流量对应的历史数据、多条流量的含义以及电子设备获取历史数据的方式均不作具体的限定,本领域技术人员可以根据实际情况进行合适的调整。
其中,流量是指需要进行异常流量检测的网络流量数据,例如:流量可以为超文本传输协议(Hyper Text Transfer Protocol,HTTP)下的流量;或者,流量可以为文件传输协议(File Transfer Protocol,FTP)下的流量等。
流量对应的历史数据,可以包括流量数据本身、与流量相关的日志数据等。
多条流量可以指所有流量,也可以指在一段时间内的所有流量,还可以指所有流量中随机的多条流量等。
电子设备获取历史数据的方式可以为接收外部设备发送的历史数据,也可以为读取云端存储的历史数据等。
电子设备在获取到多条流量对应的历史数据之后,可以对历史数据进行字段提取,得到对应的字段数据。其中,由于不同协议对应的流量中的数据不同,因此,针对不同协议类型对应的流量,其提取的字段也存在不同。也就是说,可以根据流量的协议类型对历史数据进行字段提取。
以HTTP协议下的流量为例,电子设备从历史数据中提取的字段可以包括:请求方式、完整的请求统一资源定位符(Uniform Resource Locator,URL)、请求版本、主机、用户代理、客户端、客户端接受编码(Accept-encoding)、客户端接收语言(Accept-language)、Refer、内容类型、内容长度、Cookie值等。
可以理解的是,上述提取的字段仅为本申请实施例提供的针对HTTP协议下的流量的示例,针对HTTP协议下的流量以及其他协议下的流量还可以提取其他类型的字段,本申请实施例对此不作具体的限定,本领域技术人员可以根据实际情况进行合适的选择。
电子设备在得到字段数据之后,可以基于上述字段数据创建词表。创建的方式如下:首先,使用机械式分词法构建的分词表对上述字段数据进行分词,得到字段数据中的未出现字符、加密数据、小写字母、大写字母、符号以及数字;然后,使用基于统计的分词方法对上述字段数据进行分词,得到字段数据中的高频词语;再然后,将上述字段数据中的未出现字符、加密数据、小写字母、大写字母、符号、数字以及高频词语按照预设顺序加入新建的词表中;最后,对新建的词表中的词进行赋值,得到预先创建好的词表。
下面依次对上述基于字段数据创建词表的步骤进行详细的介绍。
首先,使用机械式分词法构建的分词表对上述字段数据进行分词,得到字段数据中的未出现字符、加密数据、小写字母、大写字母、符号以及数字。其中,字段数据中的未出现字符可以表示为<UNK>,指在上述字段数据中一次都没有出现过的字符;加密数据可以表示为<ENCRYPT>,指在上述字段数据中进行加密了的数据,针对该类型数据,由于无法得知具体内容,因此可以直接划分为加密数据;小写字母包括a至z共26个字母;大写字母包括A至Z共26个字母;符号包括#、¥、%、/等标点符号;数字包括0-9共10个数字。
然后,使用基于统计的分词方法对上述字段数据进行分词,得到字段数据中的高频词语。其中,该步骤具体可以包括与如下步骤:
第一步,剔除字段数据中的加密数据。
第二步,对剔除加密数据后的字段数据按照符号进行分词,得到分词后的词语。
第三步,统计分词后的词语的出现频率。
第四步,将出现频率符合预设频率规则的词语确定为高频词语。
由于无法得知加密数据中的具体内容,因此在对字段数据进行分词之前,可以先剔除字段数据中的加密数据。然后,按照符号(例如:#、¥、%、/等)对剩余字段数据进行分词。举例来说,SESSION_ID可以拆分为SESSION、_、ID三个词语。
作为一种实施方式,在得到分词的词语之后,可以进一步的去掉拆分后的数据中的停止词,并将词根或词缀相同的词转换成同一个词代替,得到处理后的词语。可以理解的是,该步骤可以根据实际情况考虑是否需要执行。
得到分词后的词语之后,可以统计每个词语出现的频率,并判断每个词语出现的频率是否符合预设频率规则。作为一种实施方式,预设频率规则可以为:若出现的频率大于一个预设阈值,则确定为高频词语;作为另一种实施方式,预设频率规则可以为若出现的频率在一个预设范围之内,则确定为高频词语。本申请实施例对此不作具体的限定。
因此,可以将字段数据中的高频词语添加至词表中,从而在利用预先构建好的词表将参考字段转换为参考分词向量以及将待检测字段转换为待检测分词向量的过程中,可以直接对高频词语进行转换,从而可以降低运算量。
再然后,将上述字段数据中的未出现字符、加密数据、小写字母、大写字母、符号、数字以及高频词语按照预设顺序加入新建的词表中。其中,本申请实施例对预设顺序不作具体的限定,举例来说,预设顺序可以为:字段数据中的未出现字符、加密数据、小写字母、大写字母、符号、数字、高频词语等顺序。
最后,对新建的词表中的词进行赋值,得到预先创建好的词表。
需要说明的是,在上述实施方式中,是先确定的高频词语,再将高频词语与其他字符一起加入新建的词表中;作为另一种实施方式,可以先将字段数据中的未出现字符、加密数据、小写字母、大写字母、符号、数字按照预设顺序加入新建的词表中,然后确定高频词语之后再将高频词语加入上述词表中,本申请实施例对此不作具体的限定。
此外,加入词表中的字符除了上述字段数据中的未出现字符、加密数据、小写字母、大写字母、符号、数字以及高频词语外,还可以包括其他字符。举例来说,可以包括填充字符,其中,填充字符可以表示为<PAD>,用于在数据长度不足时进行数据的填充等。本申请实施例对此同样不作具体的限定。
因此,作为一种实施方式,可以先将字段数据中的<PAD>、<UNK>、<ENCRYPT>、小写字母a到z、大写字母A到Z、所有符号和数字0-9按照上述顺序加入到新建的词表中;然后将字段数据按照符号进行拆分,将拆分后的数据去掉停止词,将词根或词缀相同的词转换成同一个词代替;然后统计拆分后每个词语的出现频率,去掉出现频率过低以及出现频率过高的词,将剩余的高频词语加入到词表中;最终得到词汇量为M的词表,并将词表中的词,按照顺序,从0至M分别赋予数字编号,得到预先创建好的词表{′<PAD>′:0,′<UNK>′:1,′<ENCRYPT>′:2,′<a>′:3……}。
在上述方案中,可以预先基于历史数据构建对应的词表,从而可以利用预先构建好的词表将参考字段转换为参考分词向量以及将待检测字段转换为待检测分词向量,以利用参考分词向量进行运算,既方便又可以降低运算量。
介绍完本申请实施例提供的创建词表的方法之后,接下来介绍本申请实施例提供的概念漂移检测方法。
请参照图2,图2为本申请实施例提供的一种概念漂移检测方法的流程图,该方法可以包括如下步骤:
步骤S201:获取待检测流量数据以及参考流量数据。
步骤S202:对待检测流量数据以及参考流量数据进行字段提取,得到待检测流量数据对应的待检测字段以及参考流量数据对应的参考字段。
步骤S203:利用预先创建好的词表将待检测字段转换为待检测分词向量,以及利用预先创建好的词表将参考字段转换为参考分词向量。
步骤S204:判断待检测分词向量与参考分词向量是否相似。
步骤S205:若待检测分词向量与参考分词向量不相似,则确定待检测流量数据对应的流量存在概念漂移,以对异常流量检测模型进行更新。
具体的,待检测流量数据可以为当前时间之前的实时流量,也可以为任意时间的流量;参考流量数据为异常流量检测模型刚部署后采集的历史流量。其中,异常流量检测模型刚部署时,流量基本没有发生概率漂移,此时异常流量检测模型的检测结果的准确度较高,因此,可以利用此时的流量作为参考流量数据。
作为一种实施方式,当前时间为t,当前流量数据为Xt,使用大小为m的固定窗口获取当前时间t的前m条流量,得到的待检测流量数据q={Xt-m+1,Xt-m+2,…,Xt};使用同样大小为m的滑动窗口记录自异常流量检测模型部署开始的前m条流量,得到参考流量数据p={X0,X1,X2,…,Xm-1}。
其中,获取待检测流量数据以及参考流量数据的方式、对待检测流量数据以及参考流量数据进行字段提取的方式与上述实施例中获取多条流量对应的历史数据的方式、根据流量的协议类型对历史数据进行字段提取的方式类似,此处不再赘述。
然后,电子设备可以利用上述实施例中预先创建好的词表将字段数据转换为分词向量。其中,将参考字段转换为参考分词向量的步骤具体可以包括如下步骤:
利用预先创建好的词表对参考字段进行分词,得到分词后的词语。
将分词后的词语转换为预先创建好的词表中对应的数字,形成待检测分词向量。
类似的,将待检测字段转换为待检测分词向量的步骤具体可以包括如下步骤:
利用预先创建好的词表对待检测字段进行分词,得到分词后的词语。
将分词后的词语转换为预先创建好的词表中对应的数字,形成参考分词向量。
也就是说,可以使用分词器根据词表中的词语,对每条数据进行拆分,并将拆分的词转换为词表中对应的数字,形成分词向量。例如,Xt使用分词器转换为{Xt,1,Xt,2,Xt,3,…,Xt,i},其中,i为分词向量的最长长度。作为一种实施方式,如果分词向量的长度超过i,则可以删除超出部分;如果分词向量的长度少于i则可以通过添加数字0来补充长度。这样,得到的参考分词向量与待检测分词向量的数据维度为(m-1)×i。
作为另一种实施方式,可以对待检测分词向量以及参考分词向量进行降维,得到降维后的待检测分词向量以及降维后的参考分词向量,然后再计算待检测分词向量以及参考分词向量之间的相似度。例如:可以使用PCA降维方法对上述数据进行降维,将每条数据的维度压缩到100,得到降维后的待检测分词向量以及降维后的参考分词向量的数据维度为(m-1)×100。
因此,在计算待检测分词向量与参考分词向量的相似度之前,可以对待检测分词向量以及参考分词向量进行PCA降维,从而在压缩数据的同时让信息损失最小化。
接下来可以判断待检测分词向量与参考分词向量是否相似。其中,判断待检测分词向量与参考分词向量是否相似的方式有多种,例如:利用希尔伯特空间计算待检测分词向量的数据分布均值与参考分词向量的数据分布均值之间的距离,距离越大,相似度越低;或者,利用欧几里得距离计算待检测分词向量与参考分词向量之间的相似度;或者,利用皮尔逊相关系数计算待检测分词向量与参考分词向量之间的相似度等,本申请实施例对此不作具体的限定。
举例来说,可以使用最大平均差异和二样本测定来检测参考分词向量的数据分布和待检测分词向量的数据分布在希尔伯特空间H中的距离是否小于预设距离阈值ε,也就是说,可以利用如下公式计算相似度:
MMD2[F,p,q]=||μpq||H 2≤ε。
其中,MMD2[F,p,q]为参考分词向量的数据分布均值和待检测分词向量的数据分布均值在希尔伯特空间H中的距离,μp为参考分词向量的数据分布均值,μq为待检测分词向量的数据分布均值,Η为希尔伯特空间,ε为预设相似度阈值。
因此,可以利用希尔伯特空间计算待检测分词向量与参考分词向量之间的相似度,以判断当前流量是否存在概念漂移,从而可以在存在概念漂移时对异常流量检测模型进行更新,因此可以解决基于机器学习的异常检测方法在检测过程中出现的准确率下降和误报率上升的问题。
可以理解的是,在检测到概念漂移之后,可以输出提示信息并记录流量对应的时间戳,以便知晓检测到概念漂移的时间点。作为一种实施方式,在检测到概念漂移之后,可以先使用最近的少量数据对异常流量检测模型的部分结构进行微调和部署,然后在流量低峰期时对异常流量检测模型进行重新训练,以实现异常流量检测模型的更新,并将更新后的异常流量检测模型重新进行部署。
综上所述,电子设备获取待检测流量数据以及用于对比的参考流量数据,并分别将待检测流量数据转换为待检测分词向量以及将参考流量数据转换为参考分词向量,以根据待检测分词向量与参考分词向量之间的相似度检测当前流量是否存在概念漂移,从而可以在存在概念漂移时对异常流量检测模型进行更新,因此可以解决基于机器学习的异常检测方法在检测过程中出现的准确率下降和误报率上升的问题。
请参照图3,图3为本申请实施例提供的一种概念漂移检测装置的结构框图,该概念漂移检测装置300可以包括:第一获取模块301,用于获取待检测流量数据以及参考流量数据;其中,所述参考流量数据为异常流量检测模型刚部署后采集的历史流量,所述待检测流量数据与所述参考流量数据的流量条数相同;第一提取模块302,用于对所述待检测流量数据以及所述参考流量数据进行字段提取,得到所述待检测流量数据对应的待检测字段以及所述参考流量数据对应的参考字段;转换模块303,用于利用预先创建好的词表将所述待检测字段转换为待检测分词向量,以及利用所述预先创建好的词表将所述参考字段转换为参考分词向量;判断模块304,用于判断所述待检测分词向量与所述参考分词向量是否相似;第一确定模块305,用于若所述待检测分词向量与所述参考分词向量不相似,则确定所述待检测流量数据对应的流量存在概念漂移,以对所述异常流量检测模型进行更新。
在本申请实施例中,电子设备获取待检测流量数据以及用于对比的参考流量数据,并分别将待检测流量数据转换为待检测分词向量以及将参考流量数据转换为参考分词向量,以根据待检测分词向量与参考分词向量之间的相似度检测当前流量是否存在概念漂移,从而可以在存在概念漂移时对异常流量检测模型进行更新,因此可以解决基于机器学习的异常检测方法在检测过程中出现的准确率下降和误报率上升的问题。
进一步的,所述待检测流量数据为当前时间之前的实时流量。
在本申请实施例中,可以对实时的待检测数据进行概念漂移检测,以及时对异常流量检测模型进行更新。
进一步的,所述第一提取模块302还用于:根据流量的协议类型对所述待检测流量数据以及所述参考流量数据进行字段提取。
进一步的,所述转换模块303还用于:利用所述预先创建好的词表对所述参考字段进行分词,得到分词后的词语;将所述分词后的词语转换为所述预先创建好的词表中对应的数字,形成所述待检测分词向量。
在本申请实施例中,可以利用预先创建好的词表将参考字段转换为参考分词向量,从而可以利用参考分词向量进行运算,既方便又可以降低运算量。
进一步的,所述转换模块303还用于:利用所述预先创建好的词表对所述待检测字段进行分词,得到分词后的词语;将所述分词后的词语转换为所述预先创建好的词表中对应的数字,形成所述参考分词向量。
在本申请实施例中,可以利用预先创建好的词表将待检测字段转换为待检测分词向量,从而可以利用待检测分词向量进行运算,既方便又可以降低运算量。
进一步的,所述判断模块304还用于:利用如下公式计算所述待检测分词向量的数据分布与所述参考分词向量的数据分布在希尔伯特空间中的距离:
Figure BDA0002914851230000171
其中,FMD2[F,p,q]为所述距离,μp为所述参考分词向量的数据分布均值,μq为所述待检测分词向量的数据分布均值,Η为希尔伯特空间,ε为预设距离阈值;判断所述距离是否大于所述预设距离阈值;其中,所述距离大于所述预设距离阈值表征所述待检测分词向量与所述参考分词向量不相似。
在本申请实施例中,可以利用希尔伯特空间计算待检测分词向量与参考分词向量之间的相似度,以判断当前流量是否存在概念漂移,从而可以在存在概念漂移时对异常流量检测模型进行更新,因此可以解决基于机器学习的异常检测方法在检测过程中出现的准确率下降和误报率上升的问题。
进一步的,所述概念漂移检测装置300还包括:降维模块,用于对所述待检测分词向量以及所述参考分词向量进行降维,得到降维后的待检测分词向量以及降维后的参考分词向量。
在本申请实施例中,在计算待检测分词向量与参考分词向量的相似度之前,可以对待检测分词向量以及参考分词向量进行PCA降维,从而在压缩数据的同时让信息损失最小化。
进一步的,所述概念漂移检测装置300还包括:第二获取模块,用于获取多条流量对应的历史数据;第二提取模块,用于根据所述流量的协议类型对所述历史数据进行字段提取,得到所述历史数据对应的字段数据;加入模块,用于将所述字段数据中的未出现字符、加密数据、小写字母、大写字母、符号、数字以及高频词语按照预设顺序加入新建的词表中;赋值模块,用于对所述新建的词表中的词进行赋值,得到所述预先创建好的词表。
在本申请实施例中,可以预先基于历史数据构建对应的词表,从而可以利用预先构建好的词表将参考字段转换为参考分词向量以及将待检测字段转换为待检测分词向量,以利用参考分词向量进行运算,既方便又可以降低运算量。
进一步的,所述概念漂移检测装置300还包括:剔除模块,用于剔除所述字段数据中的加密数据;分词模块,用于对剔除所述加密数据后的字段数据按照符号进行分词,得到分词后的词语;统计模块,用于统计所述分词后的词语的出现频率;第二确定模块,用于将所述出现频率符合预设频率规则的词语确定为所述高频词语。
在本申请实施例中,可以将字段数据中的高频词语添加至词表中,从而在利用预先构建好的词表将参考字段转换为参考分词向量以及将待检测字段转换为待检测分词向量的过程中,可以直接对高频词语进行转换,从而可以降低运算量。
请参照图4,图4为本申请实施例提供的一种电子设备的结构框图,该电子设备400包括:至少一个处理器401,至少一个通信接口402,至少一个存储器403和至少一个通信总线404。其中,通信总线404用于实现这些组件直接的连接通信,通信接口402用于与其他节点设备进行信令或数据的通信,存储器403存储有处理器401可执行的机器可读指令。当电子设备400运行时,处理器401与存储器403之间通过通信总线404通信,机器可读指令被处理器401调用时执行上述概念漂移检测方法。
例如,本申请实施例的处理器401通过通信总线404从存储器403读取计算机程序并执行该计算机程序可以实现如下方法:步骤S101:获取多条流量对应的历史数据。步骤S102:对历史数据进行字段提取,得到历史数据对应的字段数据。步骤S103:将字段数据中的未出现字符、加密数据、小写字母、大写字母、符号、数字以及高频词语按照预设顺序加入新建的词表中。步骤S104:对新建的词表中的词进行赋值,得到预先创建好的词表。在一些示例中,处理器401还可以执行如下步骤:步骤S201:获取待检测流量数据以及参考流量数据。步骤S202:对待检测流量数据以及参考流量数据进行字段提取,得到待检测流量数据对应的待检测字段以及参考流量数据对应的参考字段。步骤S203:利用预先创建好的词表将待检测字段转换为待检测分词向量,以及利用预先创建好的词表将参考字段转换为参考分词向量。步骤S204:判断待检测分词向量与参考分词向量是否相似。步骤S205:若待检测分词向量与参考分词向量不相似,则确定待检测流量数据对应的流量存在概念漂移,以对异常流量检测模型进行更新。
处理器401可以是一种集成电路芯片,具有信号处理能力。上述处理器401可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(Digital Signal Processing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。其可以实现或者执行本申请实施例中公开的各种方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器403可以包括但不限于随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。
可以理解,图4所示的结构仅为示意,电子设备400还可包括比图4中所示更多或者更少的组件,或者具有与图4所示不同的配置。图4中所示的各组件可以采用硬件、软件或其组合实现。于本申请实施例中,电子设备400可以是,但不限于台式机、笔记本电脑、智能手机、智能穿戴设备、车载设备等实体设备,还可以是虚拟机等虚拟设备。另外,电子设备400也不一定是单台设备,还可以是多台设备的组合,例如服务器集群,等等。
本申请实施例还提供一种计算机程序产品,包括存储在非暂态计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,计算机能够执行上述实施例中概念漂移检测方法的步骤,例如包括:获取待检测流量数据以及参考流量数据;其中,所述参考流量数据为异常流量检测模型刚部署后采集的历史流量,所述待检测流量数据与所述参考流量数据的流量条数相同;对所述待检测流量数据以及所述参考流量数据进行字段提取,得到所述待检测流量数据对应的待检测字段以及所述参考流量数据对应的参考字段;利用预先创建好的词表将所述待检测字段转换为待检测分词向量,以及利用所述预先创建好的词表将所述参考字段转换为参考分词向量;判断所述待检测分词向量与所述参考分词向量是否相似;若所述待检测分词向量与所述参考分词向量不相似,则确定所述待检测流量数据对应的流量存在概念漂移,以对所述异常流量检测模型进行更新。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
再者,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种概念漂移检测方法,其特征在于,包括:
获取待检测流量数据以及参考流量数据;其中,所述参考流量数据为异常流量检测模型刚部署后采集的历史流量,所述待检测流量数据与所述参考流量数据的流量条数相同;
对所述待检测流量数据以及所述参考流量数据进行字段提取,得到所述待检测流量数据对应的待检测字段以及所述参考流量数据对应的参考字段;
利用预先创建好的词表将所述待检测字段转换为待检测分词向量,以及利用所述预先创建好的词表将所述参考字段转换为参考分词向量;
判断所述待检测分词向量与所述参考分词向量是否相似;
若所述待检测分词向量与所述参考分词向量不相似,则确定所述待检测流量数据对应的流量存在概念漂移,以对所述异常流量检测模型进行更新。
2.根据权利要求1所述的概念漂移检测方法,其特征在于,所述待检测流量数据为当前时间之前的实时流量。
3.根据权利要求1所述的概念漂移检测方法,其特征在于,所述对所述待检测流量数据以及所述参考流量数据进行字段提取,包括:
根据流量的协议类型对所述待检测流量数据以及所述参考流量数据进行字段提取。
4.根据权利要求1-3任一项所述的概念漂移检测方法,其特征在于,所述判断所述待检测分词向量与所述参考分词向量是否相似,包括:
利用如下公式计算所述待检测分词向量的数据分布与所述参考分词向量的数据分布在希尔伯特空间中的距离:
Figure FDA0002914851220000011
其中,MMD2[F,p,q]为所述距离,μp为所述参考分词向量的数据分布均值,μq为所述待检测分词向量的数据分布均值,Η为希尔伯特空间,ε为预设距离阈值;
判断所述距离是否大于所述预设距离阈值;其中,所述距离大于所述预设距离阈值表征所述待检测分词向量与所述参考分词向量不相似。
5.根据权利要求1-3任一项所述的概念漂移检测方法,其特征在于,在所述计算所述待检测分词向量与所述参考分词向量的相似度之前,所述方法还包括:
对所述待检测分词向量以及所述参考分词向量进行降维,得到降维后的待检测分词向量以及降维后的参考分词向量。
6.根据权利要求1所述的概念漂移检测方法,其特征在于,在所述获取待检测流量数据以及参考流量数据之前,所述方法还包括:
获取多条流量对应的历史数据;
对所述历史数据进行字段提取,得到所述历史数据对应的字段数据;
将所述字段数据中的未出现字符、加密数据、小写字母、大写字母、符号、数字以及高频词语按照预设顺序加入新建的词表中;
对所述新建的词表中的词进行赋值,得到所述预先创建好的词表。
7.根据权利要求6所述的概念漂移检测方法,其特征在于,在所述将所述字段数据中的未出现字符、加密数据、小写字母、大写字母、符号、数字以及高频词语按照预设顺序加入新建的词表中之前,所述方法还包括:
剔除所述字段数据中的加密数据;
对剔除所述加密数据后的字段数据按照符号进行分词,得到分词后的词语;
统计所述分词后的词语的出现频率;
将所述出现频率符合预设频率规则的词语确定为所述高频词语。
8.一种概念漂移检测装置,其特征在于,包括:
第一获取模块,用于获取待检测流量数据以及参考流量数据;其中,所述参考流量数据为异常流量检测模型刚部署后采集的历史流量,所述待检测流量数据与所述参考流量数据的流量条数相同;
第一提取模块,用于对所述待检测流量数据以及所述参考流量数据进行字段提取,得到所述待检测流量数据对应的待检测字段以及所述参考流量数据对应的参考字段;
转换模块,用于利用预先创建好的词表将所述待检测字段转换为待检测分词向量,以及利用所述预先创建好的词表将所述参考字段转换为参考分词向量;
判断模块,用于判断所述待检测分词向量与所述参考分词向量是否相似;
第一确定模块,用于若所述待检测分词向量与所述参考分词向量不相似,则确定所述待检测流量数据对应的流量存在概念漂移,以对所述异常流量检测模型进行更新。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线;
所述处理器和所述存储器通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1-7任一项所述的概念漂移检测方法。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令被计算机运行时,使所述计算机执行如权利要求1-6任一项所述的概念漂移检测方法。
CN202110101772.4A 2021-01-25 2021-01-25 一种概念漂移检测方法及装置 Active CN112765324B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110101772.4A CN112765324B (zh) 2021-01-25 2021-01-25 一种概念漂移检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110101772.4A CN112765324B (zh) 2021-01-25 2021-01-25 一种概念漂移检测方法及装置

Publications (2)

Publication Number Publication Date
CN112765324A true CN112765324A (zh) 2021-05-07
CN112765324B CN112765324B (zh) 2022-12-23

Family

ID=75707445

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110101772.4A Active CN112765324B (zh) 2021-01-25 2021-01-25 一种概念漂移检测方法及装置

Country Status (1)

Country Link
CN (1) CN112765324B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113418632A (zh) * 2021-05-20 2021-09-21 南昌大学 一种油浸式变压器油温预测的概念漂移检测方法
CN114079579A (zh) * 2021-10-21 2022-02-22 北京天融信网络安全技术有限公司 一种恶意加密流量检测方法及装置
CN114422450A (zh) * 2022-01-21 2022-04-29 中国人民解放军国防科技大学 基于多源网络流量数据的网络流量分析方法和装置

Citations (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008052583A1 (en) * 2006-11-02 2008-05-08 Nokia Siemens Networks Gmbh & Co. Kg Monitoring method and apparatus of processing of a data stream with high rate/flow
CN101753377A (zh) * 2009-12-29 2010-06-23 吉林大学 一种p2p_botnet实时检测方法及系统
US20100318882A1 (en) * 2007-12-11 2010-12-16 Thales Method and Module for Correcting Transmission Errors in a Datastream
US20160219069A1 (en) * 2013-09-30 2016-07-28 Orange Method for detecting anomalies in network traffic
US20170103340A1 (en) * 2015-10-09 2017-04-13 Fair Isaac Corporation Method for Real-Time Enhancement of a Predictive Algorithm by a Novel Measurement of Concept Drift Using Algorithmically-Generated Features
CN107358019A (zh) * 2017-05-25 2017-11-17 上海交通大学医学院附属瑞金医院 适用于概念漂移的医疗方案的推荐系统及方法
WO2017203262A2 (en) * 2016-05-25 2017-11-30 Metail Limited Method and system for predicting garment attributes using deep learning
CN108170695A (zh) * 2016-12-07 2018-06-15 信阳师范学院 一个基于信息熵的数据流自适应集成分类方法
CN109284606A (zh) * 2018-09-04 2019-01-29 中国人民解放军陆军工程大学 基于经验特征与卷积神经网络的数据流异常检测系统
CN109343952A (zh) * 2018-08-22 2019-02-15 东软集团股份有限公司 贝叶斯网络确定方法、装置、存储介质和电子设备
US20190163817A1 (en) * 2017-11-29 2019-05-30 Oracle International Corporation Approaches for large-scale classification and semantic text summarization
CN109960729A (zh) * 2019-03-28 2019-07-02 国家计算机网络与信息安全管理中心 Http恶意流量的检测方法及系统
CN110008388A (zh) * 2019-03-27 2019-07-12 东北大学 一种基于决策树的流数据分类方法
CN110445726A (zh) * 2019-08-16 2019-11-12 山东浪潮人工智能研究院有限公司 一种基于信息熵的自适应网络流概念漂移检测方法
US20200007566A1 (en) * 2016-12-29 2020-01-02 NSFOCUS Information Technology Co., Ltd. Network traffic anomaly detection method and apparatus
CN110728142A (zh) * 2019-09-09 2020-01-24 上海凯京信达科技集团有限公司 一种流水文件识别方法、装置及计算机存储介质、电子设备
CN111144459A (zh) * 2019-12-16 2020-05-12 重庆邮电大学 一种类不平衡的网络流量分类方法、装置及计算机设备
CN111143413A (zh) * 2019-12-26 2020-05-12 太原科技大学 基于数据流概念漂移的异常检测方法
US20200210520A1 (en) * 2018-12-26 2020-07-02 Nokia Solutions And Networks Oy Determination of field types in tabular data
CN111556057A (zh) * 2020-04-29 2020-08-18 绿盟科技集团股份有限公司 一种流量异常检测方法、装置、电子设备及存储介质
CN111626351A (zh) * 2020-05-26 2020-09-04 清华大学 一种用于获取数据分布的概念漂移量的方法和系统
US20200285737A1 (en) * 2019-03-05 2020-09-10 Microsoft Technology Licensing, Llc Dynamic cybersecurity detection of sequence anomalies
US20200285997A1 (en) * 2019-03-04 2020-09-10 Iocurrents, Inc. Near real-time detection and classification of machine anomalies using machine learning and artificial intelligence
CN111797122A (zh) * 2020-05-28 2020-10-20 浙江大学 高维重现概念漂移流数据的变化趋势预测方法及装置

Patent Citations (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008052583A1 (en) * 2006-11-02 2008-05-08 Nokia Siemens Networks Gmbh & Co. Kg Monitoring method and apparatus of processing of a data stream with high rate/flow
US20100318882A1 (en) * 2007-12-11 2010-12-16 Thales Method and Module for Correcting Transmission Errors in a Datastream
CN101753377A (zh) * 2009-12-29 2010-06-23 吉林大学 一种p2p_botnet实时检测方法及系统
US20160219069A1 (en) * 2013-09-30 2016-07-28 Orange Method for detecting anomalies in network traffic
US20170103340A1 (en) * 2015-10-09 2017-04-13 Fair Isaac Corporation Method for Real-Time Enhancement of a Predictive Algorithm by a Novel Measurement of Concept Drift Using Algorithmically-Generated Features
WO2017203262A2 (en) * 2016-05-25 2017-11-30 Metail Limited Method and system for predicting garment attributes using deep learning
CN108170695A (zh) * 2016-12-07 2018-06-15 信阳师范学院 一个基于信息熵的数据流自适应集成分类方法
US20200007566A1 (en) * 2016-12-29 2020-01-02 NSFOCUS Information Technology Co., Ltd. Network traffic anomaly detection method and apparatus
CN107358019A (zh) * 2017-05-25 2017-11-17 上海交通大学医学院附属瑞金医院 适用于概念漂移的医疗方案的推荐系统及方法
US20190163817A1 (en) * 2017-11-29 2019-05-30 Oracle International Corporation Approaches for large-scale classification and semantic text summarization
CN109343952A (zh) * 2018-08-22 2019-02-15 东软集团股份有限公司 贝叶斯网络确定方法、装置、存储介质和电子设备
CN109284606A (zh) * 2018-09-04 2019-01-29 中国人民解放军陆军工程大学 基于经验特征与卷积神经网络的数据流异常检测系统
US20200210520A1 (en) * 2018-12-26 2020-07-02 Nokia Solutions And Networks Oy Determination of field types in tabular data
US20200285997A1 (en) * 2019-03-04 2020-09-10 Iocurrents, Inc. Near real-time detection and classification of machine anomalies using machine learning and artificial intelligence
US20200285737A1 (en) * 2019-03-05 2020-09-10 Microsoft Technology Licensing, Llc Dynamic cybersecurity detection of sequence anomalies
CN110008388A (zh) * 2019-03-27 2019-07-12 东北大学 一种基于决策树的流数据分类方法
CN109960729A (zh) * 2019-03-28 2019-07-02 国家计算机网络与信息安全管理中心 Http恶意流量的检测方法及系统
CN110445726A (zh) * 2019-08-16 2019-11-12 山东浪潮人工智能研究院有限公司 一种基于信息熵的自适应网络流概念漂移检测方法
CN110728142A (zh) * 2019-09-09 2020-01-24 上海凯京信达科技集团有限公司 一种流水文件识别方法、装置及计算机存储介质、电子设备
CN111144459A (zh) * 2019-12-16 2020-05-12 重庆邮电大学 一种类不平衡的网络流量分类方法、装置及计算机设备
CN111143413A (zh) * 2019-12-26 2020-05-12 太原科技大学 基于数据流概念漂移的异常检测方法
CN111556057A (zh) * 2020-04-29 2020-08-18 绿盟科技集团股份有限公司 一种流量异常检测方法、装置、电子设备及存储介质
CN111626351A (zh) * 2020-05-26 2020-09-04 清华大学 一种用于获取数据分布的概念漂移量的方法和系统
CN111797122A (zh) * 2020-05-28 2020-10-20 浙江大学 高维重现概念漂移流数据的变化趋势预测方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
刘三民等: "具有概念漂移的P2P网络流量识别研究", 《系统工程与电子技术》 *
孙娜: "基于概念漂移检测算法的数据流分类模型", 《计算机工程与设计》 *
张玉红等: "一种抗噪的概念漂移数据流分类方法", 《中国科学技术大学学报》 *
王军等: "面向概念漂移的数据流分类研究分析", 《绵阳师范学院学报》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113418632A (zh) * 2021-05-20 2021-09-21 南昌大学 一种油浸式变压器油温预测的概念漂移检测方法
CN113418632B (zh) * 2021-05-20 2024-02-09 南昌大学 一种油浸式变压器油温预测的概念漂移检测方法
CN114079579A (zh) * 2021-10-21 2022-02-22 北京天融信网络安全技术有限公司 一种恶意加密流量检测方法及装置
CN114079579B (zh) * 2021-10-21 2024-03-15 北京天融信网络安全技术有限公司 一种恶意加密流量检测方法及装置
CN114422450A (zh) * 2022-01-21 2022-04-29 中国人民解放军国防科技大学 基于多源网络流量数据的网络流量分析方法和装置
CN114422450B (zh) * 2022-01-21 2024-01-19 中国人民解放军国防科技大学 基于多源网络流量数据的网络流量分析方法和装置

Also Published As

Publication number Publication date
CN112765324B (zh) 2022-12-23

Similar Documents

Publication Publication Date Title
CN112765324B (zh) 一种概念漂移检测方法及装置
WO2019169928A1 (zh) 一种流量检测方法和流量检测设备
CN106649831B (zh) 一种数据过滤方法及装置
CN114281781A (zh) 一种数据处理方法以及数据处理设备
CN112527649A (zh) 一种测试用例的生成方法和装置
CN109918498B (zh) 一种问题入库方法和装置
EP3684025B1 (en) Web page request identification
CN112769612A (zh) 一种告警事件去误报方法及装置
CN112800919A (zh) 一种检测目标类型视频方法、装置、设备以及存储介质
CN114444619A (zh) 样本生成方法、训练方法、数据处理方法以及电子设备
CN111368697A (zh) 一种信息识别方法和装置
WO2022078218A1 (zh) 对抗样本的生成方法及装置、电子设备和可读存储介质
CN114817651A (zh) 数据存储方法、数据查询方法、装置和设备
CN116309963B (zh) 一种图像的批量标注方法、装置、电子设备及存储介质
CN111177084A (zh) 一种文件分类方法、装置、计算机设备及存储介质
CN115098548B (zh) 一种数据决策方法、系统及云平台
WO2016127858A1 (zh) 网页入侵脚本特征的识别方法及设备
CN114124913B (zh) 一种网络资产变化监控的方法、装置及电子设备
CN114330280A (zh) 敏感数据识别方法及装置
CN115442091A (zh) 一种基于网络安全的即时通讯应用行为识别方法和系统
CN114629707A (zh) 一种乱码检测方法、装置及电子设备和存储介质
CN113472654B (zh) 一种网络流量数据转发方法、装置、设备及介质
CN113434792B (zh) 网络地址匹配模型的训练方法和网络地址匹配方法
CN110929512A (zh) 一种数据增强方法和装置
CN116805926B (zh) 网络业务类型识别模型训练方法、网络业务类型识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant