CN113762377A - 网络流量识别方法、装置、设备及存储介质 - Google Patents

网络流量识别方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113762377A
CN113762377A CN202111025221.0A CN202111025221A CN113762377A CN 113762377 A CN113762377 A CN 113762377A CN 202111025221 A CN202111025221 A CN 202111025221A CN 113762377 A CN113762377 A CN 113762377A
Authority
CN
China
Prior art keywords
network
network flow
identified
object type
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111025221.0A
Other languages
English (en)
Other versions
CN113762377B (zh
Inventor
郑开发
史帅
尚程
傅强
梁彧
蔡琳
杨满智
王杰
田野
金红
陈晓光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Hengan Jiaxin Safety Technology Co ltd
Original Assignee
Beijing Hengan Jiaxin Safety Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Hengan Jiaxin Safety Technology Co ltd filed Critical Beijing Hengan Jiaxin Safety Technology Co ltd
Priority to CN202111025221.0A priority Critical patent/CN113762377B/zh
Publication of CN113762377A publication Critical patent/CN113762377A/zh
Application granted granted Critical
Publication of CN113762377B publication Critical patent/CN113762377B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computing Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Hardware Design (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请实施例公开了一种网络流量识别方法、装置、设备及存储介质,所述方法包括:获取网络侧生成的待识别网络流;根据预设特征集合,确定所述待识别网络流的标准特征向量;基于预先训练好的网络流量识别模型,根据所述标准特征向量,确定所述待识别网络流的对象类型;其中,所述网络流量识别模型根据预先标定好对象类型的样本标准特征向量进行训练得到;通过上述技术方案,将待识别网络流转化为标准的高维度特征向量之后,再将其输入至网络流量识别模型中进行识别,提高了对网络流量识别的准确度。

Description

网络流量识别方法、装置、设备及存储介质
技术领域
本申请实施例涉及网络技术领域,尤其涉及一种网络流量识别方法、装置、设备及存储介质。
背景技术
网络流量识别旨在识别网络流量所属的网络应用或者协议,进而及时发现和处理网络故障以及安全漏洞等,提高网络服务质量和保障网络空间安全。
目前,常见的基于机器学习的网络流量识别方式存在两个主要缺陷:一是在训练数据方面,大部分的网络流量识别算法基于开源数据集进行训练,这会导致很多国内应用网络流量被误报,影响识别的最终结果;二是将网络流量转化为图像识别的方式,由于对网络流量的原始特征进行了转化,在实际检测时,会出现漏报的情况,影响识别的准确率。
因此,针对现有技术中存在的问题,亟待进行改善。
发明内容
本申请提供一种网络流量识别方法、装置、设备及存储介质,以提高对网络流量识别的准确度。
第一方面,本申请实施例提供了一种网络流量识别方法,该方法包括:
获取网络侧生成的待识别网络流;
根据预设特征集合,确定所述待识别网络流的标准特征向量;
基于预先训练好的网络流量识别模型,根据所述标准特征向量,确定所述待识别网络流的对象类型;
其中,所述网络流量识别模型根据预先标定好对象类型的样本标准特征向量进行训练得到。
第二方面,本申请实施例还提供了一种网络流量识别装置,该装置包括:
网络流获取模块,用于获取网络侧生成的待识别网络流;
特征向量确定模块,用于根据预设特征集合,确定所述待识别网络流的标准特征向量;
网络流识别模块,用于基于预先训练好的网络流量识别模型,根据所述标准特征向量,确定所述待识别网络流的对象类型;其中,所述网络流量识别模型根据预先标定好对象类型的样本标准特征向量进行训练得到。
第三方面,本申请实施例还提供了一种电子设备,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面实施例所提供的任意一种网络流量识别方法。
第四方面,本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面实施例所提供的任意一种网络流量识别方法。
本申请实施例通过获取网络侧生成的待识别网络流;根据预设特征集合,确定所述待识别网络流的标准特征向量;基于预先训练好的网络流量识别模型,根据所述标准特征向量,确定所述待识别网络流的对象类型;其中,所述网络流量识别模型根据预先标定好对象类型的样本标准特征向量进行训练得到。通过上述技术方案,将待识别网络流转化为标准的高维度特征向量之后,再将其输入至预先训练好的网络流量识别模型中进行识别,网络流量识别模型可以自动输出待识别网络流的对象类型,提高了对网络流量识别的准确度。
附图说明
图1是本申请实施例一提供的一种网络流量识别方法的流程图;
图2是本申请实施例二提供的一种网络流量识别方法的流程图;
图3是本申请实施例三提供的一种网络流量识别方法的流程图;
图4是本申请实施例四提供的一种网络流量识别装置的示意图;
图5是本申请实施例五提供的一种电子设备的示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部结构。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
实施例一
图1为本申请实施例一提供的一种网络流量识别方法的流程图。本申请实施例可适用于对网络侧生成的待识别网络流进行识别的情况。该方法可以由一种网络流量识别装置来执行,该装置可以由软件和/或硬件的方式实现,并具体配置于电子设备中,该电子设备可以是移动终端或固定终端。
参见图1,本申请实施例提供的网络流量识别方法,包括:
S110、获取网络侧生成的待识别网络流。
其中,待识别网络流是待识别网络流对象的统称,待识别网络流的数量可以包括至少一个或多个。
可以理解的是,网络中在进行数据通信时,应用层在网络中产生的持续的数据帧就称之为网络流。
典型地,在预设时间段内如1小时或一天等,所获取的网络侧生成的待识别网络流可以是海量的,如可以获取网页、应用等网络侧生成的待识别网络流。
本实施例中,可以通过预设的网络抓包工具获取网络侧生成的待识别网络流。例如,可以利用Wireshark(网络封包分析软件)和Netflow(网络监测工具)等网络抓包工具在网络流数据包经过的地方完成流量采集。
S120、根据预设特征集合,确定待识别网络流的标准特征向量。
其中,预设特征集合可以根据网络侧生成的待识别网络流的属性特征进行选取,具体可以从已有的多个属性特征中选择出一些特定属性特征,以实现对待识别网络流的有效识别。
本实施例中,可以根据实际情况确定预设特征集合,如可以根据经验值确定预设特征集合。预设特征集合实际上是字符串集合,预设特征集合中的每个特征是由不定长字符串组成,如可以将预设特征集表示为{string1,string2,string3,…,stringN},其中,字符串stringN表示第N个网络流的特征。
可选地,可以对历史待识别网络流和网络流量特征词进行特征提取,得到所述预设特征集合。
具体地,对网络流量特征词进行特征提取,得到常见指纹特征集合;以及对历史待识别网络流进行特征提取,得到非常见指纹特征集合;将常见指纹特征集合和非常见指纹特征集合进行合并,得到预设特征集合。
其中,网络流量特征词也即网络流特征词典库,是基于常用的网络流量特征进行归纳形成的特征词典库。例如,常用的网络流量特征包括包长信息、协议信息、端口流量信息和标志位信息等这些基本特征信息。
本实施例中,可以根据实际情况从网络流量特征词中选出部分特征,得到常见指纹特征集合;以及,可以采用预设指纹特征提取方法,对历史待识别网络流进行特征提取,得到非常见指纹特征集合。
其中,预设指纹特征提取方法可以是AutoSig算法(Automatically GeneratingSignatures for Applications,自动协议指纹挖掘算法)。AutoSig算法可以自动发现从输入报文的某个固定位置起始以出现概率高于设定概率阈值的一个连续的字符串,来获得流媒体的确定性特征,从而可以自动地挖掘历史待识别网络流的确定性特征,不需要人工的参与。
本实施例中,标准特征向量的维数与预设特征集合中的特征数量有关,标准特征向量的维数与预设特征集合中的特征数量相同,而预设特征集合中的特征数量可以根据实际需求(包括识别的精度和识别的效率)进行确定。
如下表中的表1所示,表1示例性给出了包括N个字符串特征的预设特征集合。
表1:
Figure BDA0003243104280000061
其中,表1示例性给出的字符串特征,不应构成本实施例的限定,具体的字符串特征可根据实际情况进行设置。
可以理解的是,为了全面、准确地确定预设特征集合,可以将常见指纹特征集合和非常见指纹特征集合进行合并,得到预设特征集合,从而使得根据预设特征集合,确定的待识别网络流的标准特征向量更加准确。
本实施例中,根据预设特征集合,对待识别网络流进行转化,转化后得到的标准特征向量有如下特征:不同的应用流量向量的特征不同;不同的协议流量向量的特征不同;相似的应用(协议)流量向量具备相似的特征;加密流量一定程度上也具备相似的特征。
S130、基于预先训练好的网络流量识别模型,根据标准特征向量,确定待识别网络流的对象类型;其中,网络流量识别模型根据预先标定好对象类型的样本标准特征向量进行训练得到。
其中,网络流量识别模型可以是基于机器学习的网络流量识别模型,如网络流量识别模型可以是BP神经网络(Back Propagation Network,反向传播神经网络)模型。
待识别网络流的对象类型也即为应用+协议的组合,不同的应用可以使用不同的协议,同一个应用也可以使用不同的协议。
具体地,确定待识别网络流的应用就是识别网络流量所属的应用程序,如应用程序可以是Skype(即时通讯软件)、YouTube(视频软件)和BitTorrent(文件分发软件)等应用。其中,这些应用的网络流量还可以进一步精细化分类,如Skype可以分为即时消息、语音通话、视频通话和文件传输等网络流量;协议识别就是识别网络流量传输所采用的协议,如可以是FTP协议(File Transfer Protocol,文件传输协议)、HTTP协议(HypertextTransfer Protocol,超文本传输协议)和VoIP协议(Session Initiation Protocol,会话初始协议)等。
本实施例中,要实现网络流量识别,就需要建立一个映射关系,使得每一条网络流量都有与之对应的网络应用软件或协议。因此,可以通过预先标定好对象类型的样本标准特征向量,采用监督学习的方法,对网络流量识别模型进行训练。
可以理解的是,基于机器学习的网络流量识别模型,无需事先确定输入输出之间映射关系的数学方程,仅通过自身的训练,学习某种规则,在给定输入值时得到最接近期望输出值的结果。
需要说明的是,将待识别网络流转化为高维特征向量,基于机器学习的网络流量识别模型,对网络流进行识别的方法,既可以分析非加密流量,也可以识别加密流量。
本申请实施例通过获取网络侧生成的待识别网络流;根据预设特征集合,确定所述待识别网络流的标准特征向量;基于预先训练好的网络流量识别模型,根据所述标准特征向量,确定所述待识别网络流的对象类型;其中,所述网络流量识别模型根据预先标定好对象类型的样本标准特征向量进行训练得到。通过上述技术方案,将待识别网络流转化为标准的高维度特征向量之后,再将其输入至预先训练好的网络流量识别模型中进行识别,网络流量识别模型可以自动输出待识别网络流的对象类型,提高了对网络流量识别的准确度。
实施例二
图2为本申请实施例二提供的一种网络流量识别方法的流程图,本实施例是在上述实施例的基础上,对上述方案的优化。
进一步地,将操作“根据预设特征集合,确定所述待识别网络流的标准特征向量”,细化为“对所述待识别网络流进行拆分,得到所述待识别网络流的待识别字节数据;采用字符串模糊匹配算法,判断所述待识别字节数据中是否存在所述预设特征集合中的预设特征;根据判断结果,确定所述待识别网络流的标准特征向量”,以明确标准特征向量的确定过程。
其中与上述实施例相同或相应的术语的解释在此不再赘述。
参见图2,本实施例提供的网络流量识别方法,包括:
S210、获取网络侧生成的待识别网络流。
S220、对待识别网络流进行拆分,得到待识别网络流的待识别字节数据。
本实施例中,待识别网络流具有鲜明的层次化特征,待识别网络流自下而上由流量字节、数据包和网络流构成。
因此,在待识别网络流转化为标准特征向量之前,可以结合网络流量的层次化特征,对待识别网络流进行拆分,根据预设截取规则,从待识别网络流中截取出部分待识别字节数据,每一个待识别字节数据中包括一组双方通信的重要字节数据。
其中,预设截取规则可以是截取待识别网络流中最重要的25个字节数据或者最重要的100个字节数据等。
或者可选地,为了便于实施,可以直接截取待识别网络流净载荷的前m个字节作为待识别字节数据。在截取的过程中,若网络流字节数据不足m个,则可以默认补充0。
S230、采用字符串模糊匹配算法,判断待识别字节数据中是否存在预设特征集合中的预设特征。
本实施例中,预设特征集合中的预设特征表示一种网络流的特征或衍生特征,因为在不同的网络环境中,同一种特征可能字符串局部略微不同,所以在特征匹配的时候是基于字符串模糊匹配的方式实现,即使特征字符串的局部模式略微不同,但是依旧归结于同一种预设特征。
S240、根据判断结果,确定待识别网络流的标准特征向量。
可选地,所述根据判断结果,确定所述待识别网络流的标准特征向量,包括:针对所述预设特征集合中的每一预设特征,若所述待识别字节数据中存在该预设特征,则将所述标准特征向量中该预设特征对应元素设置为第一预设数值;若所述待识别字节数据中不存在该预设特征,则将所述标准特征向量中该预设特征对应元素设置为第二预设数值。
其中,第一预设数值与第二预设数值不同。例如,第一预设数值可以表示为1,第二预设数值可以表示为0。1表示对应向量位的特征在网络流中有出现,0表示对应向量位的特征没在网络流中未出现。
例如,以待识别字节数据“....PPsteamxx000111/...\0x00\0x02\0x01\0x00\0x00\0x00\0x0b\0x00\0x2a\0x01\0x0b01x...”为例,继续参见上述表1中示例性给出的预设特征集合,特征String1和StringN在上述待识别字节数据中出现了1次,则待识别字节数据对应的待识别网络流的标准特征向量为{1,0,…,1}。
本实施例中,根据不同的待识别网络流,可以确定出多个不同的标准特征向量。
可以理解的是,根据第一预设数值和第二预设数值,可以将每一个待识别网络流对应的标准特征向量表示为N维0-1向量的形式。
可选地,为了提高对标准特征向量表示的准确度,还可以在确定待识别字节数据中存在该预设特征之后,进一步统计该预设特征在待识别字节数据中出现的次数;根据统计结果,将标准特征向量中该预设特征对应元素设置为该预设特征出现的次数。
可以理解的是,针对预设特征集合中的每一预设特征,可以将该预设特征在待识别字节数据中出现的次数,作为标准特征向量中该预设特征对应点位处的数值,使得标准特征向量的确定更加准确。
或者可选地,在一些实施例中,还可以根据待识别网络流中各预设特征出现的先后顺序,来确定待识别网络流的标准特征向量。
例如,继续以上述待识别字节数据“....PPsteamxx000111/...\0x00\0x02\0x01\0x00\0x00\0x00\0x0b\0x00\0x2a\0x01\0x0b01x...”为例,虽然特征String1和StringN在上述待识别字节数据中出现了1次,若上述待识别字节数据中String1和StringN出现的先后顺序不一样,则会对应两个不同的待识别字节数据,相应的,就会生成两个不同的标准特征向量。
可以理解的是,通过将该预设特征在待识别字节数据中出现的先后顺序考虑进来,可以使得标准特征向量的确定更加准确。
S250、基于预先训练好的网络流量识别模型,根据标准特征向量,确定待识别网络流的对象类型;其中,网络流量识别模型根据预先标定好对象类型的样本标准特征向量进行训练得到。
本申请实施例在上述实施例的基础上,对标准特征向量的确定过程进行了明确,通过对所述待识别网络流进行拆分,得到所述待识别网络流的待识别字节数据;采用字符串模糊匹配算法,判断所述待识别字节数据中是否存在所述预设特征集合中的预设特征;根据判断结果,确定所述待识别网络流的标准特征向量。通过上述技术方案,根据网络流量的层次化特征,在将待识别网络流拆分为待识别字节数据之后,对待识别字节数据进行转化,将其转化为反应流量特征的高维特征向量,之后再将高维特征向量输入至网络流量识别模型中进行识别,提高了对网络流量识别的准确度。
实施例三
图3为本申请实施例三提供的一种网络流量识别方法的流程图,本实施例是在上述实施例的基础上,对上述方案的优化。
进一步地,将操作“基于预先训练好的网络流量识别模型,根据所述标准特征向量,确定所述待识别网络流的对象类型”,细化为“对所述标准特征向量进行聚类分析,得到类别簇;将所述类别簇的聚类中心对应的中心标准特征向量输入至预先训练好的网络流量识别模型,得到所述中心标准特征向量的中心对象类型;根据所述中心对象类型,确定所述类别簇对应的至少一个非中心标准特征数据的对象类型”,以明确待识别网络流的对象类型的确定过程。
其中与上述实施例相同或相应的术语的解释在此不再赘述。
参见图3,本实施例提供的网络流量识别方法,包括:
S310、获取网络侧生成的待识别网络流。
S320、根据预设特征集合,确定待识别网络流的标准特征向量。
S330、对标准特征向量进行聚类分析,得到类别簇。
其中,聚类分析是指是把相似的标准特征向量通过静态分类的方法分成不同的组别或者更多的子集,也即得到不同的类别簇,在同一个类别簇中的标准特征向量都有相似的一些属性,如空间距离属性等。
可以理解的是,通过对标准特征向量进行聚类分析,可以找出各标准特征向量内在的群组关系。
本实施例中,类别簇的数目为至少一个,类别簇的数目与聚类中心数量相同。其中,聚类中心数量可以进行预先进行确定,如可以根据经验值进行确定。
可选地,可以采用预设聚类分析算法,对标准特征向量进行聚类分析。其中,预设聚类分析算法可以是随机搜索聚类算法、平衡迭代削减聚类算法或K-Means算法(K-MeansClustering Algorithm,K均值聚类算法)等。
可以理解的是,可以结合实际需求,采取合适的聚类分析算法,对标准特征向量进行聚类分析,以实现对标准特征向量的合理分组。
S340、将类别簇的聚类中心对应的中心标准特征向量输入至预先训练好的网络流量识别模型,得到中心标准特征向量的中心对象类型;其中,网络流量识别模型根据预先标定好对象类型的样本标准特征向量进行训练得到。
本实施例中,通过将类别簇的聚类中心对应的中心标准特征向量输入至预先训练好的网络流量识别模型,可以直接得到中心标准特征向量的中心对象类型。
可以理解的是,位于类别簇的聚类中心对应的中心标准特征向量可以认为具有较高区分度的特征向量,通过对聚类中心对应的中心标准特征向量进行识别,可以提高识别的准确度。
可选地,所述网络流量识别模型可以基于以下方式确定:对所述样本标准特征向量进行聚类,得到至少一个样本类别簇;将所述样本类别簇的聚类中心的对象类型标签作为所述样本簇中各样本标准特征向量的标定对象类型;根据各所述样本标准特征向量和所述样本标准特征向量对应的标定对象类型,调整预先构建的网络流量识别模型的待训练参数;其中,所述待训练参数包括网络参数和聚类中心数量参数。
其中,标定对象类型也即样本标准特征向量的预测对象类型。
本实施例中,所述样本类别簇的聚类中心的对象类型标签基于以下方式确定:将样本类别簇的聚类中心对应的中心标准特征向量输入至预先构建的网络流量识别模型,得到样本类别簇的聚类中心的对象类型标签。
可选地,当聚类分析所采用的算法为K-Means算法时,聚类中心数量参数也即K-Means算法的K参数大小;当网络流量识别模型为BP神经网络模型时,网络参数包括网络权值、网络阈值、网络偏重和网络学习率等网络参数。
可以理解的是,在基于样本标准特征向量进行模型训练时,可以根据各样本标准特征向量和样本标准特征向量对应的标定对象类型,对网络流量识别模型的网络参数和聚类中心数量参数进行共同训练和调整,相当于构建聚类分析+网络流量识别模型。
本实施例中,所述根据各所述样本标准特征向量和所述样本标准特征向量对应的标定对象类型,调整预先构建的网络流量识别模型的待训练参数,包括:根据各所述样本标准特征向量,确定各所述样本标准特征向量的实际对象类型;根据各所述样本标准特征向量的标定对象类型及其对应的实际对象类型,基于预设评价函数,调整预先构建的网络流量识别模型的待训练参数。
其中,预设评价函数也即网络流量识别模型的损失函数,该损失函数可以根据网络流识别的查准率、查全率和准确率等评价指标进行构建。
典型地,为了对流量识别结果进行全面的综合评价,可以根据查准率、查全率和准确率以及对应的预设权重值来构建预设评价函数。其中,查准率、查全率和准确率的权重值可以相同也可以不同,具体可以根据识别需求设置各评价指标的指标权重。
S350、根据中心对象类型,确定类别簇对应的至少一个非中心标准特征数据的对象类型。
本实施例中,根据中心对象类型,可以确定类别簇对应的部分或者全部非中心标准特征数据的对象类型。
可选地,可以计算聚类中心对应的中心标准特征向量与类别簇中各非中心标准特征数据的距离值(如欧几里得距离值等);根据所述距离值和预设距离阈值,从类别簇中选取候选非中心标准特征向量;根据所述中心对象类型,将所述中心对象类型作为所述候选非中心标准特征向量的对象类型。
其中,预设距离阈值可以根据实际需求进行设置。本实施例中,可以将距离值和预设距离阈值进行比较,从类别簇中选取与聚类中心距离较近的候选非中心标准特征向量。
可以理解的是,可以通过预设距离阈值,可以对类别簇中的非中心标准特征数据进行筛选,从中选取出与聚类中心距离较近的候选非中心标准特征向量,候选非中心标准特征向量与中心标准特征向量的特征相似,可以直接将中心对象类型作为候选非中心标准特征向量的对象类型。
可选地,在根据所述距离值和预设距离阈值,从类别簇中选取候选非中心标准特征向量之后,还可以包括:根据候选非中心标准特征向量,确定类别簇中剩余的非中心标准特征向量;将剩余的非中心标准特征向量输入至预先训练好的网络流量识别模型,得到剩余的非中心标准特征向量的中心对象类型。
可以理解的是,剩余的非中心标准特征向量与中心标准特征向量的特征相差过大,如果直接简单地将中心对象类型作为类别簇中各非中心标准特征向量的对象类型,可能会导致网络流量识别存在不准确的情况。因此,对于剩余的非中心标准特征向量,可以通过预先训练好的网络流量识别模型来确定对象类型。
可选地,为了简化网络流量的识别过程,所述根据所述中心对象类型,确定所述类别簇对应的至少一个非中心标准特征数据的对象类型,包括:将所述中心对象类型作为所述类别簇中各非中心标准特征向量的对象类型。
可以理解的是,在确定出中心标准特征向量的中心对象类型之后,在满足网络流量识别精度的情况下,为了简化识别过程,提高识别的效率,可以直接将中心对象类型作为类别簇中各非中心标准特征向量的对象类型,避免了将所有的标准特征向量都输入至预先训练好的网络流量识别模型进行识别,导致识别效率较低。
本申请实施例在上述实施例的基础上,对待识别网络流的对象类型的确定过程进行了明确,通过对所述标准特征向量进行聚类分析,得到类别簇;将所述类别簇的聚类中心对应的中心标准特征向量输入至预先训练好的网络流量识别模型,得到所述中心标准特征向量的中心对象类型;根据所述中心对象类型,确定所述类别簇对应的至少一个非中心标准特征数据的对象类型。通过上述技术方案,基于聚类分析得到各标准特征向量的聚类中心,根据网络流量识别模型对聚类中心对应的中心标准特征向量的识别结果,确定类别簇中非中心标准特征数据的对象类型,实现了对待识别网络流的识别,在兼顾识别准确率的同时,提高了对待识别网络流的识别效率。
实施例四
图4是本申请实施例四提供的一种网络流量识别装置的结构示意图。参见图4,本申请实施例提供的一种网络流量识别装置,该装置包括:网络流获取模块410、特征向量确定模块420和网络流识别模块430。
网络流获取模块410,用于获取网络侧生成的待识别网络流;
特征向量确定模块420,用于根据预设特征集合,确定所述待识别网络流的标准特征向量;
网络流识别模块430,用于基于预先训练好的网络流量识别模型,根据所述标准特征向量,确定所述待识别网络流的对象类型;其中,所述网络流量识别模型根据预先标定好对象类型的样本标准特征向量进行训练得到。
本申请实施例通过获取网络侧生成的待识别网络流;根据预设特征集合,确定所述待识别网络流的标准特征向量;基于预先训练好的网络流量识别模型,根据所述标准特征向量,确定所述待识别网络流的对象类型;其中,所述网络流量识别模型根据预先标定好对象类型的样本标准特征向量进行训练得到。通过上述技术方案,将待识别网络流转化为标准的高维度特征向量之后,再将其输入至预先训练好的网络流量识别模型中进行识别,网络流量识别模型可以自动输出待识别网络流的对象类型,提高了对网络流量识别的准确度。
进一步地,所述特征向量确定模块420,包括:
网络流拆分子模块,用于对所述待识别网络流进行拆分,得到所述待识别网络流的待识别字节数据;
模糊匹配子模块,用于采用字符串模糊匹配算法,判断所述待识别字节数据中是否存在所述预设特征集合中的预设特征;
特征向量确定子模块,用于根据判断结果,确定所述待识别网络流的标准特征向量。
进一步地,所述特征向量确定子模块,包括:
特征向量确定单元,用于针对所述预设特征集合中的每一预设特征,若所述待识别字节数据中存在该预设特征,则将所述标准特征向量中该预设特征对应元素设置为第一预设数值;若所述待识别字节数据中不存在该预设特征,则将所述标准特征向量中该预设特征对应元素设置为第二预设数值。
进一步地,所述网络流识别模块430,包括:
聚类分析子模块,用于对所述标准特征向量进行聚类分析,得到类别簇;
聚类中心识别子模块,用于将所述类别簇的聚类中心对应的中心标准特征向量输入至预先训练好的网络流量识别模型,得到所述中心标准特征向量的中心对象类型;
非聚类中心识别子模块,用于根据所述中心对象类型,确定所述类别簇对应的至少一个非中心标准特征数据的对象类型。
进一步地,所述非聚类中心识别子模块,包括:
非聚类中心识别单元,用于将所述中心对象类型作为所述类别簇中各非中心标准特征向量的对象类型。
进一步地,所述装置还包括模型训练子模块,所述模型训练子模块包括:
样本聚类分析单元,用于对所述样本标准特征向量进行聚类,得到至少一个样本类别簇;
样本对象类型确定单元,用于将所述样本类别簇的聚类中心的对象类型标签作为所述样本簇中各样本标准特征向量的标定对象类型;
待训练参数调整单元,用于根据各所述样本标准特征向量和所述样本标准特征向量对应的标定对象类型,调整预先构建的网络流量识别模型的待训练参数;其中,所述待训练参数包括网络参数和聚类中心数量参数。
进一步地,所述装置还包括:
特征集合确定子模块,用于对历史待识别网络流和网络流量特征词进行特征提取,得到所述预设特征集合。
本申请实施例所提供的网络流量识别装置可执行本申请任意实施例所提供的网络流量识别方法,具备执行方法相应的功能模块和有益效果。
实施例五
图5是本申请实施例五提供的一种电子设备的结构图。图5示出了适于用来实现本申请实施方式的示例性电子设备512的框图。图5显示的电子设备512仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图5所示,电子设备512以通用计算设备的形式表现。电子设备512的组件可以包括但不限于:一个或者多个处理器或者处理单元516,系统存储器528,连接不同系统组件(包括系统存储器528和处理单元516)的总线518。
总线518表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MCA)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
电子设备512典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备512访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器528可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)530和/或高速缓存存储器532。电子设备512可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统534可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线518相连。系统存储器528可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。
具有一组(至少一个)程序模块542的程序/实用工具540,可以存储在例如系统存储器528中,这样的程序模块542包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块542通常执行本申请所描述的实施例中的功能和/或方法。
电子设备512也可以与一个或多个外部设备514(例如键盘、指向设备、显示器524等)通信,还可与一个或者多个使得用户能与该电子设备512交互的设备通信,和/或与使得该电子设备512能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口522进行。并且,电子设备512还可以通过网络适配器520与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器520通过总线518与电子设备512的其它模块通信。应当明白,尽管图5中未示出,可以结合电子设备512使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元516通过运行存储在系统存储器528中的多个程序中其他程序的至少一个,从而执行各种功能应用以及数据处理,例如实现本申请实施例所提供的任意一种网络流量识别方法。
实施例六
本申请实施例六还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本申请任一实施例所提供的一种网络流量识别方法,该方法包括:获取网络侧生成的待识别网络流;根据预设特征集合,确定所述待识别网络流的标准特征向量;基于预先训练好的网络流量识别模型,根据所述标准特征向量,确定所述待识别网络流的对象类型;其中,所述网络流量识别模型根据预先标定好对象类型的样本标准特征向量进行训练得到。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本申请可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
值得注意的是,上述网络流量识别装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。
注意,上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解,本申请不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此,虽然通过以上实施例对本申请进行了较为详细的说明,但是本申请不仅仅限于以上实施例,在不脱离本申请构思的情况下,还可以包括更多其他等效实施例,而本申请的范围由所附的权利要求范围决定。

Claims (10)

1.一种网络流量识别方法,其特征在于,包括:
获取网络侧生成的待识别网络流;
根据预设特征集合,确定所述待识别网络流的标准特征向量;
基于预先训练好的网络流量识别模型,根据所述标准特征向量,确定所述待识别网络流的对象类型;
其中,所述网络流量识别模型根据预先标定好对象类型的样本标准特征向量进行训练得到。
2.根据权利要求1所述的方法,其特征在于,所述根据预设特征集合,确定所述待识别网络流的标准特征向量,包括:
对所述待识别网络流进行拆分,得到所述待识别网络流的待识别字节数据;
采用字符串模糊匹配算法,判断所述待识别字节数据中是否存在所述预设特征集合中的预设特征;
根据判断结果,确定所述待识别网络流的标准特征向量。
3.根据权利要求2所述的方法,其特征在于,所述根据判断结果,确定所述待识别网络流的标准特征向量,包括:
针对所述预设特征集合中的每一预设特征,若所述待识别字节数据中存在该预设特征,则将所述标准特征向量中该预设特征对应元素设置为第一预设数值;
若所述待识别字节数据中不存在该预设特征,则将所述标准特征向量中该预设特征对应元素设置为第二预设数值。
4.根据权利要求1所述的方法,其特征在于,基于预先训练好的网络流量识别模型,根据所述标准特征向量,确定所述待识别网络流的对象类型,包括:
对所述标准特征向量进行聚类分析,得到类别簇;
将所述类别簇的聚类中心对应的中心标准特征向量输入至预先训练好的网络流量识别模型,得到所述中心标准特征向量的中心对象类型;
根据所述中心对象类型,确定所述类别簇对应的至少一个非中心标准特征数据的对象类型。
5.根据权利要求4所述的方法,其特征在于,所述根据所述中心对象类型,确定所述类别簇对应的至少一个非中心标准特征数据的对象类型,包括:
将所述中心对象类型作为所述类别簇中各非中心标准特征向量的对象类型。
6.根据权利要求4所述的方法,其特征在于,所述网络流量识别模型基于以下方式确定:
对所述样本标准特征向量进行聚类,得到至少一个样本类别簇;
将所述样本类别簇的聚类中心的对象类型标签作为所述样本簇中各样本标准特征向量的标定对象类型;
根据各所述样本标准特征向量和所述样本标准特征向量对应的标定对象类型,调整预先构建的网络流量识别模型的待训练参数;
其中,所述待训练参数包括网络参数和聚类中心数量参数。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对历史待识别网络流和网络流量特征词进行特征提取,得到所述预设特征集合。
8.一种网络流量识别装置,其特征在于,包括:
网络流获取模块,用于获取网络侧生成的待识别网络流;
特征向量确定模块,用于根据预设特征集合,确定所述待识别网络流的标准特征向量;
网络流识别模块,用于基于预先训练好的网络流量识别模型,根据所述标准特征向量,确定所述待识别网络流的对象类型;其中,所述网络流量识别模型根据预先标定好对象类型的样本标准特征向量进行训练得到。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一项所述的一种网络流量识别方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一项所述的一种网络流量识别方法。
CN202111025221.0A 2021-09-02 2021-09-02 网络流量识别方法、装置、设备及存储介质 Active CN113762377B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111025221.0A CN113762377B (zh) 2021-09-02 2021-09-02 网络流量识别方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111025221.0A CN113762377B (zh) 2021-09-02 2021-09-02 网络流量识别方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN113762377A true CN113762377A (zh) 2021-12-07
CN113762377B CN113762377B (zh) 2024-03-08

Family

ID=78792672

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111025221.0A Active CN113762377B (zh) 2021-09-02 2021-09-02 网络流量识别方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113762377B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114172728A (zh) * 2021-12-08 2022-03-11 恒安嘉新(北京)科技股份公司 一种网络流量的识别方法、装置、设备及介质
CN114978593A (zh) * 2022-04-15 2022-08-30 中国科学院信息工程研究所 基于图匹配的不同网络环境的加密流量分类方法及系统
CN115499383A (zh) * 2022-07-29 2022-12-20 天翼云科技有限公司 一种流量识别方法、装置、电子设备及存储介质
CN116743672A (zh) * 2023-06-08 2023-09-12 新分享科技服务(深圳)有限公司 基于人工智能的流量分发方法、系统、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200053104A1 (en) * 2017-03-28 2020-02-13 British Telecommunications Public Limited Company Initialization vector identification for encrypted malware traffic detection
CN111131069A (zh) * 2019-11-25 2020-05-08 北京理工大学 一种基于深度学习策略的异常加密流量检测与分类方法
US20200311265A1 (en) * 2019-03-26 2020-10-01 Proofpoint, Inc. Uniform Resource Locator Classifier and Visual Comparison Platform for Malicious Site Detection
CN112235434A (zh) * 2020-10-16 2021-01-15 重庆理工大学 融合k-means及其胶囊网络的DGA网络域名检测识别系统
CN112235264A (zh) * 2020-09-28 2021-01-15 国家计算机网络与信息安全管理中心 一种基于深度迁移学习的网络流量识别方法及装置
CN113206850A (zh) * 2021-04-30 2021-08-03 北京恒安嘉新安全技术有限公司 恶意样本的报文信息获取方法、装置、设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200053104A1 (en) * 2017-03-28 2020-02-13 British Telecommunications Public Limited Company Initialization vector identification for encrypted malware traffic detection
US20200311265A1 (en) * 2019-03-26 2020-10-01 Proofpoint, Inc. Uniform Resource Locator Classifier and Visual Comparison Platform for Malicious Site Detection
CN111131069A (zh) * 2019-11-25 2020-05-08 北京理工大学 一种基于深度学习策略的异常加密流量检测与分类方法
CN112235264A (zh) * 2020-09-28 2021-01-15 国家计算机网络与信息安全管理中心 一种基于深度迁移学习的网络流量识别方法及装置
CN112235434A (zh) * 2020-10-16 2021-01-15 重庆理工大学 融合k-means及其胶囊网络的DGA网络域名检测识别系统
CN113206850A (zh) * 2021-04-30 2021-08-03 北京恒安嘉新安全技术有限公司 恶意样本的报文信息获取方法、装置、设备及存储介质

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
JINGJING ZHAO等: "Network traffic classification for data fusion:A Survey", 《INFORMATION FUSION》, pages 22 - 47 *
MIMURA, M等: "A practical experiment of the HTTP-Based RAT detection method in proxy server logs", 《ASIA JOINT CONFERENCE ON INFORMATION SECURITY》, pages 31 - 37 *
冯文博等: "网络协议识别技术综述", 《计算机应用》, pages 3 *
曹成宏: "面向比特流的链路层未知协议分析技术研究", 《中国优秀硕士学位论文全文数据库工程科技II辑》, pages 042 - 1330 *
沈亮等: "面向移动应用识别的结构化特征提取方法", 《计算机应用》, pages 1 *
黄璇丽等: "基于深度学习的网络流时空特征自动提取方法", 《集成技术》, pages 60 - 69 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114172728A (zh) * 2021-12-08 2022-03-11 恒安嘉新(北京)科技股份公司 一种网络流量的识别方法、装置、设备及介质
CN114172728B (zh) * 2021-12-08 2024-04-26 恒安嘉新(北京)科技股份公司 一种网络流量的识别方法、装置、设备及介质
CN114978593A (zh) * 2022-04-15 2022-08-30 中国科学院信息工程研究所 基于图匹配的不同网络环境的加密流量分类方法及系统
CN114978593B (zh) * 2022-04-15 2023-03-10 中国科学院信息工程研究所 基于图匹配的不同网络环境的加密流量分类方法及系统
CN115499383A (zh) * 2022-07-29 2022-12-20 天翼云科技有限公司 一种流量识别方法、装置、电子设备及存储介质
CN116743672A (zh) * 2023-06-08 2023-09-12 新分享科技服务(深圳)有限公司 基于人工智能的流量分发方法、系统、设备及存储介质

Also Published As

Publication number Publication date
CN113762377B (zh) 2024-03-08

Similar Documents

Publication Publication Date Title
CN113762377B (zh) 网络流量识别方法、装置、设备及存储介质
WO2019153581A1 (zh) 异常接口检测方法、装置、计算机设备和存储介质
WO2020253350A1 (zh) 网络内容发布的审核方法、装置、计算机设备及存储介质
WO2021068831A1 (zh) 一种业务告警方法、设备及存储介质
CN108717408B (zh) 一种敏感词实时监控方法、电子设备、存储介质及系统
US20210124983A1 (en) Device and method for anomaly detection on an input stream of events
CN111339297B (zh) 网络资产异常检测方法、系统、介质和设备
WO2020207167A1 (zh) 文本分类方法、装置、设备及计算机可读存储介质
CN109284371B (zh) 反欺诈方法、电子装置及计算机可读存储介质
CN109525508B (zh) 基于流量相似性比对的加密流识别方法、装置及存储介质
WO2023056723A1 (zh) 故障诊断的方法、装置、电子设备及存储介质
CN111177360B (zh) 一种基于云上用户日志的自适应过滤方法及装置
CN111444072A (zh) 客户端的异常识别方法、装置、计算机设备和存储介质
WO2023207557A1 (zh) 评估业务预测模型鲁棒性的方法、装置及计算设备
CN111767538A (zh) 一种基于相关信息熵的工控入侵检测系统特征选择方法
WO2023093100A1 (zh) 一种api网关异常调用识别的方法、装置、设备及产品
CN111800389A (zh) 基于贝叶斯网络的港口网络入侵检测方法
Aziz et al. Cluster Analysis-Based Approach Features Selection on Machine Learning for Detecting Intrusion.
CN111444362A (zh) 恶意图片拦截方法、装置、设备和存储介质
CN112199388A (zh) 陌电识别方法、装置、电子设备及存储介质
WO2024000822A1 (zh) 文本分类标注样本的异常检测方法、装置、设备及介质
CN116127400A (zh) 基于异构计算的敏感数据识别系统、方法及存储介质
US20220182434A1 (en) Automated caching and tabling layer for finding and swapping media content
CN113612777B (zh) 训练方法、流量分级方法、装置、电子设备以及存储介质
CN111368864A (zh) 识别方法、可用性评估方法及装置、电子设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant