CN109905328B - 数据流的识别方法和装置 - Google Patents

数据流的识别方法和装置 Download PDF

Info

Publication number
CN109905328B
CN109905328B CN201711292369.4A CN201711292369A CN109905328B CN 109905328 B CN109905328 B CN 109905328B CN 201711292369 A CN201711292369 A CN 201711292369A CN 109905328 B CN109905328 B CN 109905328B
Authority
CN
China
Prior art keywords
attribute information
transmission attribute
message
sequence
feature matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711292369.4A
Other languages
English (en)
Other versions
CN109905328A (zh
Inventor
何珂
陈志堂
邵云峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201711292369.4A priority Critical patent/CN109905328B/zh
Priority to EP18886127.2A priority patent/EP3716547B1/en
Priority to PCT/CN2018/112086 priority patent/WO2019109754A1/zh
Publication of CN109905328A publication Critical patent/CN109905328A/zh
Priority to US16/894,425 priority patent/US11665100B2/en
Application granted granted Critical
Publication of CN109905328B publication Critical patent/CN109905328B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2483Traffic characterised by specific attributes, e.g. priority or QoS involving identification of individual flows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/33Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/94Hardware or software architectures specially adapted for image or video understanding
    • G06V10/95Hardware or software architectures specially adapted for image or video understanding structured as a network, e.g. client-server architectures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2441Traffic characterised by specific attributes, e.g. priority or QoS relying on flow classification, e.g. using integrated services [IntServ]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/22Parsing or analysis of headers

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computer Security & Cryptography (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请提供了一种数据流的识别方法和装置,属于互联网技术领域。该方法包括:获取目标数据流中连续N个报文的报文传输属性信息;根据所述连续N个报文的报文传输属性信息,生成所述连续N个报文的报文传输属性信息的特征图像;将所述特征图像,输入预先训练的图像分类模型,得到所述目标数据流对应的目标应用程序标识。通过本申请,可以提高识别数据流对应的应用程序标识的准确性。

Description

数据流的识别方法和装置
技术领域
本申请涉及互联网技术领域,特别涉及一种数据流的识别方法和装置。
背景技术
随着互联网技术的发展,越来越多的应用程序可以通过网络传输数据,网络中时时刻刻都在传输海量的数据流。服务器可以给不同应用程序提供不同的优先级,便于对网络中的数据流进行管理,因此,服务器需要识别数据流对应的应用程序标识。
不同的应用程序的需要传输的内容不尽相同,因此,在设置特征库时,可以对每种应用程序的多个数据流进行分析总结,提取每种应用程序对应的特征字段,进而,可以将特征字段与应用程序标识的对应关系,存储在特征库中。当服务器接收到数据流时,可以通过深度报文解析的方法,对数据流中报文的有效载荷字段与特征库中存储的特征字段进行逐字段匹配,找到相匹配的特征字段,进而可以得到该特征字段对应的应用程序标识,即识别出该数据流对应的应用程序标识。
在实现本申请的过程中,发明人发现现有技术至少存在以下问题:
为了保护用户的隐私,越来越多的应用程序会对数据流中报文的有效载荷字段进行加密,使得有效载荷字段存在一定的随机性,服务器在解析同一种应用程序的不同有效载荷字段时,可能得到不同的特征字段,并且,得到的特征字段可能与特征库中该应用程序标识对应的特征字段也不相同,从而,导致识别数据流对应的应用程序标识的准确性较低。
发明内容
为了解决现有技术中识别数据流对应的应用程序标识的准确性较低的问题,本发明实施例提供了一种数据流的识别方法和装置。所述技术方案如下:
第一方面,提供了一种数据流的识别方法,该方法包括:获取目标数据流中连续N个报文的报文传输属性信息,其中N为大于1的正整数;根据连续N个报文的报文传输属性信息,生成连续N个报文的报文传输属性信息的特征图像;将特征图像,输入预先训练的图像分类模型,得到目标数据流对应的目标应用程序标识。
本发明实施例所示的方案,当服务器接收到目标数据流时,可以根据数据流中报文的报文传输属性信息,识别得到目标数据流对应的目标程序标识。具体的,每当服务器开始接收目标数据流时,可以提取接收到的前N个连续的报文的报文传输属性信息,而不是直接使用报文的有效载荷字段。然后,可以根据报文传输属性信息生成特征图像,进而可以通过预先训练的图像分类模型,对特征图像进行识别,得到目标数据流对应的目标应用程序标识。这样,在报文的有效载荷字段存在加密或者使用私有应用层协议的情况下,服务器根据报文传输属性信息而不是有效载荷字段,对数据流的应用程序标识进行识别,可以避免对报文的有效载荷字段进行解析,从而,提高识别数据流对应的应用程序标识的准确性。
在一种可能的实现方式中,每个报文的报文传输属性信息包括至少一个类型的报文传输属性信息;根据连续N个报文的报文传输属性信息,生成连续N个报文的报文传输属性信息对应的特征图像,包括:在连续N个报文的报文传输属性信息中,将相同类型的报文传输属性信息按照报文到达时间顺序组成序列,得到至少一个类型的传输属性信息序列;确定至少一个类型的传输属性信息序列中每个类型的传输属性信息序列对应的静态行为特征矩阵与动态行为特征矩阵,其中,静态行为特征矩阵是用于描述传输属性信息序列的边缘概率分布p(Ij)的特征矩阵,动态行为特征矩阵是用于描述传输属性信息序列的条件概率分布p(Ij+1|Ij)的特征矩阵,Ij为连续N个报文中的任一报文在传输属性信息序列中对应的报文传输属性信息,Ij+1为任一报文的下一个报文在传输属性信息序列中对应的报文传输属性信息;将静态行为特征矩阵与动态行为特征矩阵,作为连续N个报文的报文传输属性信息的特征图像。
本发明实施例所示的方案,服务器获取到的报文传输属性信息可以有多种类型,并且可以分别生成每种类型对应的传输属性信息序列,然后根据传输属性信息序列的概率分布信息生成特征图像。采用每种报文传输属性信息的概率分布信息来描述数据流的特征,不依赖于人工设计的特征,泛化能力更强,可以更加准确地描述数据流。
在一种可能的实现方式中,每个报文的报文传输属性信息包括以下类型的报文传输属性信息中的一种或多种:报文长度、报文到达时间间隔、报文上下行属性。
本发明实施例所示的方案,报文传输属性信息可以是报文长度、报文到达时间间隔、报文上下行属性,用于描述数据流的行为信息,不需要解析报文的有效载荷字段,因此即使数据流存在加密或者使用私有应用层协议的情况,也可以保证识别数据流对应的应用程序标识的准确性,避免侵犯用户的隐私。
在一种可能的实现方式中,确定至少一个类型的传输属性信息序列中每个类型的传输属性信息序列对应的静态行为特征矩阵与动态行为特征矩阵,包括:对于至少一个类型的传输属性信息序列{I1,I2,…,Ij,…,In+1}中的每个传输属性信息序列,获取传输属性信息序列的第一子序列{I1,I2,…,Ij,…,In}、第二子序列{I2,I3,…,Ij,…,In+1},通过预设的映射函数φ(Ij),将第一子序列与第二子序列映射到高维特征空间,得到第一子序列对应的第一高维特征矩阵Φ=[φ(I1),φ(I2),…,φ(Ij),…,φ(In)]、第二子序列对应的第二高维特征矩阵Φ+=[φ(I2),φ(I3),…,φ(Ij),…,φ(In+1)],其中,n+1为传输属性信息序列的序列长度;根据第一高维特征矩阵与公式
Figure BDA0001499627040000021
确定传输属性信息序列对应的静态行为特征矩阵,其中,
Figure BDA0001499627040000022
为静态行为特征矩阵,ΦT为第一高维特征矩阵的转置,n为第一子序列的序列长度;根据第一高维特征矩阵、第二高维特征矩阵与公式
Figure BDA0001499627040000023
确定传输属性信息序列对应的动态行为特征矩阵,其中,
Figure BDA0001499627040000024
为动态行为特征矩阵,λ为正则项系数,I为单位矩阵。
本发明实施例所示的方案,将传输属性信息序列的第一子序列与第二子序列通过预设的映射函数φ(Ij),映射到高维特征空间,分别得到第一高维特征矩阵Φ与第二高维特征矩阵Φ+。然后,将第一高维特征矩阵Φ输入上述公式(1),计算得到矩阵
Figure BDA0001499627040000025
即可得到对应的静态行为特征矩阵,自然地,可以将静态行为特征矩阵描述为一张静态行为特征图像。同理,将第一高维特征矩阵Φ与第二高维特征矩阵Φ+输入上述公式(2),计算得到矩阵
Figure BDA0001499627040000026
即可得到对应的动态行为特征矩阵,自然地,可以将动态行为特征矩阵描述为一张动态行为特征图像。每个类型的传输属性信息序列可以分别得到一张静态行为特征图像和一张动态行为特征图像,如果有M个类型,则可以得到2×M张图像,即可以得到特征图像的2×M个通道的图像。
在一种可能的实现方式中,图像分类模型由卷积神经网络构成;将特征图像输入图像分类模型时,还将辅助识别信息从图像分类模型的全连接层输入;其中,辅助识别信息至少包括以下一种或多种:连续N个报文的报文传输属性信息、目标数据流对应的后台服务器的网络协议IP地址、后台服务器的端口标识。
本发明实施例所示的方案,在通过图像分类模型进行识别的过程中,可以将后台服务器的IP地址以及端口标识归一化后输入第一个全连接层,同时,还可以将上述连续N个报文的报文传输属性信息输入第一个全连接层,输入的报文属性信息也可以由传输属性信息序列代替。由于连续N个报文的报文传输属性信息、后台服务器对应的IP地址以及端口标识也能够描述不同应用程序之间的差异,因此,将上述信息从全连接层输入,可以提高识别数据流对应的应用程序标识的准确性。
第二方面,提供了一种数据流的识别装置,该装置包括至少一个模块,该至少一个模块用于实现上述第一方面所提供的数据流的识别方法。
第三方面,提供了一种服务器,该服务器包括接收器、处理器,处理器被配置为执行存储器中存储的指令;处理器通过执行指令来实现上述第一方面所提供的数据流的识别方法。
第四方面,提供了计算机可读存储介质,包括指令,当计算机可读存储介质在服务器上运行时,使得服务器执行上述第一方面的方法。
第五方面,提供了一种包含指令的计算机程序产品,当计算机程序产品在服务器上运行时,使得服务器执行上述第一方面的方法。
本发明实施例提供的技术方案带来的有益效果是:
本发明实施例中,服务器当开始接收一条目标数据流时,可以获取目标数据流中连续N个报文的报文传输属性信息,然后根据连续N个报文的报文传输属性信息,生成连续N个报文的报文传输属性信息的特征图像,将特征图像,输入预先训练的图像分类模型,得到目标数据流对应的目标应用程序标识。这样,在报文的有效载荷字段存在加密或者使用私有应用层协议的情况下,根据报文传输属性信息对应用程序标识进行识别,可以避免对报文的有效载荷字段进行解析,从而,提高识别数据流对应的应用程序标识的准确性。
附图说明
图1是本发明实施例提供的一种服务器的结构示意图;
图2是本发明实施例提供的一种识别数据流的方法流程图;
图3是本发明实施例提供的一种识别数据流的模块示意图;
图4是本发明实施例提供的一种报文传输属性信息的示意图;
图5是本发明实施例提供的一种不同应用程序的报文长度序列对应的静态行为特征图像;
图6是本发明实施例提供的一种识别数据流的装置结构示意图;
图7是本发明实施例提供的一种识别数据流的装置结构示意图。
具体实施方式
本发明实施例提供了一种数据流的识别方法,该方法可以由需要识别数据流对应的应用程序标识的服务器实现。该服务器可以采集到各个应用程序的数据流,或者可以接收到网关或其它的数据流采集处采集的各个应用程序的数据流。为了防止解析报文的有效载荷字段而导致识别数据流对应的应用程序标识的准确性较低,在识别数据流对应的应用程序标识的过程中,服务器可以获取数据流中的前N个报文的报文传输属性信息,不对报文的有效载荷字段进行解析,然后根据连续N个报文的报文传输属性信息生成对应的特征图像,进而可以将特征图像输入预先训练的图像分类模型,输出即可得到数据流对应的应用程序标识。
服务器可以包括处理器110、发射器120、接收器130,接收器130和发射器120可以分别与处理器110连接,如图1所示。接收器130可以用于接收消息或数据,即可以接收各个应用程序的数据流,发射器120和接收器130可以是网卡,发射器120可以用于发送消息或数据。处理器110可以是服务器的控制中心,利用各种接口和线路连接整个服务器的各个部分,如接收器130和发射器120等。在本发明中,处理器110可以是CPU(Central ProcessingUnit,中央处理器),可以用于识别数据流对应的应用程序标识的相关处理,可选的,处理器110可以包括一个或多个处理单元;处理器110可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统,调制解调处理器主要处理无线通信。处理器110还可以是数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件等。服务器还可以包括存储器140,存储器140可用于存储软件程序以及模块,处理器110通过读取存储在存储器的软件代码以及模块,从而执行服务器的各种功能应用以及数据处理。
下面将结合具体实施方式,对图2所示的识别数据流的方法流程图以及图3所示的识别数据流的模块示意图,进行详细的说明,内容可以如下:
步骤201,获取目标数据流中连续N个报文的报文传输属性信息。
其中,N为大于1的正整数。每个报文的报文传输属性信息包括至少一个类型的报文传输属性信息,报文传输属性信息的类型可以有以下一种或多种:报文长度、报文到达时间间隔、报文上下行属性。报文传输属性信息还可以有其他的类型,此处不作限定。报文传输属性信息用于描述数据流的行为信息,不需要解析报文的有效载荷字段,因此即使数据流存在加密或者使用私有应用层协议的情况,也可以保证识别数据流对应的应用程序标识的准确性,避免侵犯用户的隐私。
在实施中,数据流可以采用五元组进行标记,其中,五元组是指在通信网络中,源IP(Internet Protocol,网络协议)地址、源端口标识、目的IP地址、目的端口标识和传输层协议这五个量组成的一个集合。一条数据流中可以包含有上下行的多个报文,每个报文又会包含有报文头、有效载荷字段等信息。服务器可以接收到各个应用程序在网络中传输的数据流,每当开始接收一条数据流时,可以将接收到的前N个连续的报文输入报文传输属性信息提取模块301。N的取值可以根据需要进行预先设置,本实施例以N为10为例,即提取一条数据流中的前10个连续的报文。这样,只使用前几个报文的报文传输属性信息,不需要等待数据流传输完成才进行识别,可以更快速地完成数据流识别,提高识别的效率,实现在线的数据流识别。
报文传输属性信息提取模块301可以输出每个报文的报文传输属性信息,例如,可以输出每个报文的报文长度sj、每个报文到达时间间隔Δtj、报文的上下行属性dj,报文传输属性信息可以用于表示数据流的行为信息。其中,dj∈{0,1},“0”可以表示上行报文,“1”可以表示下行报文。报文到达时间间隔可以是,接收到报文的时间与接收到上一个报文的时间之间的间隔。
可选的,服务器可以在连续N个报文的报文传输属性信息中,将相同类型的报文传输属性信息按照报文到达时间顺序组成序列,得到至少一个类型的传输属性信息序列。
如图4所示的报文传输属性信息的示意图,相同类型的报文传输属性信息可以按照报文到达时间顺序组成序列,即可以得到报文长度序列、报文到达时间间隔序列、报文上下行属性序列。以N为10为例,上述各个序列可以如表1所示:
表1传输属性信息序列
报文长度序列 {s<sub>1</sub>,s<sub>2</sub>,s<sub>3</sub>,s<sub>4</sub>,s<sub>5</sub>,s<sub>6</sub>,s<sub>7</sub>,s<sub>8</sub>,s<sub>9</sub>}
报文到达时间间隔序列 {Δt<sub>1</sub>,Δt<sub>2</sub>,Δt<sub>3</sub>,Δt<sub>4</sub>,Δt<sub>5</sub>,Δt<sub>6</sub>,Δt<sub>7</sub>,Δt<sub>8</sub>,Δt<sub>9</sub>}
报文上下行属性序列 {d<sub>1</sub>,d<sub>2</sub>,d<sub>3</sub>,d<sub>4</sub>,d<sub>5</sub>,d<sub>6</sub>,d<sub>7</sub>,d<sub>8</sub>,d<sub>9</sub>}
步骤202,根据连续N个报文的报文传输属性信息,生成连续N个报文的报文传输属性信息的特征图像。
在实施中,服务器可以将连续N个报文的报文传输属性信息输入图像生成模块302,其中,可以根据每个报文的报文传输属性信息来描述数据流的特征,可以是采用粗粒度的统计量进行描述,例如报文长度的均值、方差等,也可以是根据每种报文传输属性信息的概率分布信息来描述数据流的特征。上述数据流的特征可以是特征矩阵的形式,自然地,可以用图像来表示特征矩阵,即得到连续N个报文的报文传输属性信息对应的特征图像,也即输出得到该数据流对应的特征图像。经过实验验证可以得知,采用每种报文传输属性信息的概率分布信息来描述数据流的特征相比于采用粗粒度的统计量进行描述,不依赖于人工设计的特征,泛化能力更强,可以更加准确地描述数据流,因此,本方案主要采用每种报文传输属性信息的分布信息来描述数据流的特征,具体过程可以如下:
可选的,服务器可以采用采用静态行为特征矩阵描述每种报文传输属性信息的边缘概率分布,采用动态行为特征矩阵描述前后两个报文的关系,即描述条件概率分布。具体的,在上述过程中得到每种类型的传输属性信息序列后,服务器可以确定至少一个类型的传输属性信息序列中每个类型的传输属性信息序列对应的静态行为特征矩阵与动态行为特征矩阵,将静态行为特征矩阵与动态行为特征矩阵,作为连续N个报文的报文传输属性信息的特征图像。
其中,静态行为特征矩阵是用于描述传输属性信息序列的边缘概率分布p(Ij)的特征矩阵,动态行为特征矩阵是用于描述传输属性信息序列的条件概率分布p(Ij+1|Ij)的特征矩阵,Ij为连续N个报文中的任一报文在传输属性信息序列中对应的报文传输属性信息,Ij+1为任一报文的下一个报文在传输属性信息序列中对应的报文传输属性信息。
在实施中,对于至少一个类型的传输属性信息序列{I1,I2,…,Ij,…,In+1}中的每个传输属性信息序列,获取传输属性信息序列的第一子序列{I1,I2,…,Ij,…,In}、第二子序列{I2,I3,…,Ij,…,In+1},通过预设的映射函数φ(Ij),将第一子序列与第二子序列映射到高维特征空间,得到第一子序列对应的第一高维特征矩阵Φ=[φ(I1),φ(I2),…,φ(Ij),…,φ(In)]、第二子序列对应的第二高维特征矩阵Φ+=[φ(I2),φ(I3),…,φ(Ij),…,φ(In+1)],其中,n+1为传输属性信息序列的序列长度。
传输属性信息序列{I1,I2,…,Ij,…,In+1}可以是上述任一传输属性信息序列,即可以是报文长度序列、报文到达时间间隔序列或报文上下行属性序列。以提取一条数据流中的前10个连续的报文为例,即此处n+1=10,预设的映射函数φ(Ij)可以是傅里叶级数展开,则将第一子序列映射到高维特征空间后,得到对应的第一高维特征矩阵为:
Figure BDA0001499627040000061
其中,ωi(i=1,2,…,k)为从正态分布采样出来的k个随机数。
同理,可以得到第二子序列对应的第二高维特征矩阵:
Figure BDA0001499627040000062
根据第一高维特征矩阵与公式(1),确定传输属性信息序列对应的静态行为特征矩阵:
Figure BDA0001499627040000063
其中,
Figure BDA0001499627040000064
为静态行为特征矩阵,ΦT为第一高维特征矩阵的转置,n为第一子序列的序列长度。
即将上述第一高维特征矩阵Φ输入上述公式(1),计算得到矩阵
Figure BDA0001499627040000065
即可得到对应的静态行为特征矩阵,自然地,可以将静态行为特征矩阵描述为一张静态行为特征图像。
根据第一高维特征矩阵、第二高维特征矩阵与公式(2),确定传输属性信息序列对应的动态行为特征矩阵:
Figure BDA0001499627040000066
其中,
Figure BDA0001499627040000067
为动态行为特征矩阵,λ为正则项系数,I为单位矩阵。
即将上述第一高维特征矩阵Φ与第二高维特征矩阵Φ+输入上述公式(2),计算得到矩阵
Figure BDA0001499627040000068
即可得到对应的动态行为特征矩阵,自然地,可以将动态行为特征矩阵描述为一张动态行为特征图像。
每个类型的传输属性信息序列可以分别得到一张静态行为特征图像和一张动态行为特征图像,如果有M个类型,则可以得到2×M张图像,即可以得到特征图像的2×M个通道的图像。例如,传输属性信息序列至少有3个类型:报文长度序列、报文到达时间间隔序列、报文上下行属性序列,则可以得到6个通道的特征图像。不同应用程序的报文长度序列对应的静态行为特征图像如图5所示,可以看出,同一个应用程序对应的不同数据流生成的特征图像,拥有相似的纹理,而不同的应用程序对应的特征图像在局部特征上有所差异。
上述生成特征图像的过程可以采用高斯混合模型、核密度估计以及再生核希尔伯特空间嵌入等方法,此处不作限定。
步骤203,将特征图像,输入预先训练的图像分类模型,得到目标数据流对应的目标应用程序标识。
在实施中,为了使用图像分类模型对特征图像进行识别,可以利用已知对应的应用程序标识的多个数据流,并将应用程序标识作为标签,对图像分类模型进行训练,得到训练完成后的图像分类模型。具体的,可以利用Adam优化器(Adaptive Moment Estimation优化器,自适应矩估计优化器)来控制学习速率,使用多分类交叉熵作为损失函数,此处不作限定。
进而,服务器可以将上述特征图像输入预先训练的图像分类模型,对特征图像的局部特征进行提取并分类,输出得到数据流对应的应用程序标识。该图像分类模型与图3中图像分类模块303相对应。
可选的,图像分类模型可以由卷积神经网络构成。
对于图像分类模型为卷积神经网络的情况,服务器在将特征图像输入所述图像分类模型时,还可以将辅助识别信息从图像分类模型的全连接层输入。
其中,辅助识别信息至少包括以下一种或多种:连续N个报文的报文传输属性信息、数据流对应的后台服务器的网络协议IP地址、后台服务器的端口标识。
在实施中,服务器可以在数据流对应的五元组标记中,确定后台服务器对应的IP地址以及端口标识,其中,该后台服务器是为对应的应用程序提供业务处理的服务器。图像分类模型可以是卷积神经网络,则可以分为卷积层、最大池化层、全连接层,对于卷积神经网络的网络结构(如网络层数、卷积核大小等)此处不作限定。进而,在通过图像分类模型进行识别的过程中,可以将后台服务器的IP地址以及端口标识归一化后输入第一个全连接层,同时,还可以将上述连续N个报文的报文传输属性信息输入第一个全连接层,输入的报文属性信息也可以由上述传输属性信息序列代替。由于连续N个报文的报文传输属性信息、后台服务器对应的IP地址以及端口标识也能够描述不同应用程序之间的差异,因此,将上述信息从全连接层输入,可以提高识别数据流对应的应用程序标识的准确性。
识别出每一条数据流对应的应用程序标识后,服务器可以保证优先级较高的应用程序进行优先传输,也可以将识别结果发送给通信运营商进行准确的流量计费,还可以帮助研究人员分析网络上各个应用程序流量的分布,此处不作限定。
为了验证本方案的有效性,利用5种具体的应用程序的数据流进行了实验,实验数据如下表2,总数据流的数量超过23万条。
表2实验数据
应用程序 Instagram Skype Facebook WeChat YouTube 总计
流数量 26687 97834 43863 53991 60913 238288
在实验验证的过程中,对每一条数据流,利用上述数据流的传输属性信息序列生成特征向量Fr={Δt1,Δt2,...,Δt9,s1,s2,...,s9,d1,d2,...,d9,ip},其中,ip为数据流对应的后台服务器的IP地址。另外,很多算法认为统计量更具有代表性,因此也可以使用连续N个报文的报文传输属性信息的统计量构成特征向量Fs={mean_pkt,std_packet,...,ip},其中,Fs中的每个元素分别表示:报文长度的均值、方差、最大值、最小值;报文时间间隔的均值、方差、最大值、最小值;报文上下行的比例;后台服务器的IP地址。
实验利用下列4种分类算法与本方案进行对比:SVM(Support Vector Machine,支持向量机)、MLP(Multi-Layer Perception,多层感知机)、NB(Naive Bayes,朴素贝叶斯)、DT(Decision Tree,决策树)。分别将每条数据流对应的特征向量Fr与Fs通过上述4中分类算法,对数据流的应用程序标识进行识别,根据识别的结果与每条数据流实际对应的应用程序标识,计算每种分类算法的准确率。同时,利用上述表2中的实验数据,通过本方案提供的数据流的识别方法,对数据流的应用程序标识进行识别,并计算本方案的准确率。实验结果如下表3、表4所示:
表3四种分类算法的实验结果
SVM MLP NB DT
F<sub>r</sub> 76.93% 51.43% 41.06% 54.96%
F<sub>s</sub> 63.57% 51.02% 41.66% 47.18%
表4本方案的实验结果
本方案
88.42%
从实验结果中可以看出,无论是将特征向量Fr作为输入通过不同的算法得到的准确率,还是将特征向量Fs作为输入通过不同的算法得到的准确率,都低于本方案的准确率。因此,对于识别数据流对应的应用程序标识,本方案是确实能够提高准确率的。
本发明实施例中,服务器当开始接收一条目标数据流时,可以获取目标数据流中连续N个报文的报文传输属性信息,然后根据连续N个报文的报文传输属性信息,生成连续N个报文的报文传输属性信息的特征图像,将特征图像,输入预先训练的图像分类模型,得到目标数据流对应的目标应用程序标识。这样,在报文的有效载荷字段存在加密或者使用私有应用层协议的情况下,根据报文传输属性信息对应用程序标识进行识别,可以避免对报文的有效载荷字段进行解析,从而,提高识别数据流对应的应用程序标识的准确性。
基于相同的技术构思,本发明实施例还提供了一种数据流的识别装置,该装置可以是上述服务器,如图6所示,该装置包括:
获取模块610,用于获取目标数据流中连续N个报文的报文传输属性信息,其中N为大于1的正整数,具体可以实现上述步骤201中的获取功能,以及其他隐含步骤;
生成模块620,用于根据所述连续N个报文的报文传输属性信息,生成所述连续N个报文的报文传输属性信息的特征图像,具体可以实现上述步骤202中的生成功能,以及其他隐含步骤;
分类模块630,用于将所述特征图像,输入预先训练的图像分类模型,得到所述目标数据流对应的目标应用程序标识,具体可以实现上述步骤203中的分类功能,以及其他隐含步骤。
可选的,每个报文的报文传输属性信息包括至少一个类型的报文传输属性信息;
所述生成模块620用于:
在所述连续N个报文的报文传输属性信息中,将相同类型的报文传输属性信息按照报文到达时间顺序组成序列,得到至少一个类型的传输属性信息序列;
确定所述至少一个类型的传输属性信息序列中每个类型的传输属性信息序列对应的静态行为特征矩阵与动态行为特征矩阵,其中,所述静态行为特征矩阵是用于描述所述传输属性信息序列的边缘概率分布p(Ij)的特征矩阵,所述动态行为特征矩阵是用于描述所述传输属性信息序列的条件概率分布p(Ij+1|Ij)的特征矩阵,Ij为所述连续N个报文中的任一报文在所述传输属性信息序列中对应的报文传输属性信息,Ij+1为所述任一报文的下一个报文在所述传输属性信息序列中对应的报文传输属性信息;
将所述静态行为特征矩阵与所述动态行为特征矩阵,作为所述连续N个报文的报文传输属性信息的特征图像。
可选的,每个报文的报文传输属性信息包括以下类型的报文传输属性信息中的一种或多种:报文长度、报文到达时间间隔、报文上下行属性。
可选的,所述生成模块620用于:
对于所述至少一个类型的传输属性信息序列{I1,I2,…,Ij,…,In+1}中的每个传输属性信息序列,获取所述传输属性信息序列的第一子序列{I1,I2,…,Ij,…,In}、第二子序列{I2,I3,…,Ij,…,In+1},通过预设的映射函数φ(Ij),将所述第一子序列与所述第二子序列映射到高维特征空间,得到所述第一子序列对应的第一高维特征矩阵Φ=[φ(I1),φ(I2),…,φ(Ij),…,φ(In)]、所述第二子序列对应的第二高维特征矩阵Φ+=[φ(I2),φ(I3),…,φ(Ij),…,φ(In+1)],其中,n+1为所述传输属性信息序列的序列长度;
根据所述第一高维特征矩阵与公式
Figure BDA0001499627040000091
确定所述传输属性信息序列对应的静态行为特征矩阵,其中,
Figure BDA0001499627040000092
为所述静态行为特征矩阵,ΦT为所述第一高维特征矩阵的转置,n为所述第一子序列的序列长度;
根据所述第一高维特征矩阵、所述第二高维特征矩阵与公式
Figure BDA0001499627040000093
确定所述传输属性信息序列对应的动态行为特征矩阵,其中,
Figure BDA0001499627040000094
为所述动态行为特征矩阵,λ为正则项系数,I为单位矩阵。
可选的,所述图像分类模型由卷积神经网络构成;
如图7所示,所述装置还包括:
输入模块640,用于将所述特征图像输入所述图像分类模型时,还将辅助识别信息从所述图像分类模型的全连接层输入;
其中,所述辅助识别信息至少包括以下一种或多种:所述连续N个报文的报文传输属性信息、所述目标数据流对应的后台服务器的网络协议IP地址、所述后台服务器的端口标识。
需要说明的是,上述获取模块610可以由接收器实现,生成模块620可以由处理器实现,分类模块630可以由处理器实现,输入模块640可以由处理器实现。
本发明实施例中,服务器当开始接收一条目标数据流时,可以获取目标数据流中连续N个报文的报文传输属性信息,然后根据连续N个报文的报文传输属性信息,生成连续N个报文的报文传输属性信息的特征图像,将特征图像,输入预先训练的图像分类模型,得到目标数据流对应的目标应用程序标识。这样,在报文的有效载荷字段存在加密或者使用私有应用层协议的情况下,根据报文传输属性信息对应用程序标识进行识别,可以避免对报文的有效载荷字段进行解析,从而,提高识别数据流对应的应用程序标识的准确性。
需要说明的是:上述实施例提供的数据流的识别装置在识别数据流对应的应用程序标识时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将服务器的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的数据流的识别装置与数据流的识别方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现,当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令,在主机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴光缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是主机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(如软盘、硬盘和磁带等),也可以是光介质(如数字视盘(Digital Video Disk,DVD)等),或者半导体介质(如固态硬盘等)。
以上所述仅为本申请的一个实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (13)

1.一种数据流的识别方法,其特征在于,所述方法包括:
获取目标数据流中连续N个报文的报文传输属性信息,其中,每个报文的报文传输属性信息包括以下类型的报文传输属性信息中的一种或多种:报文长度、报文到达时间间隔、报文上下行属性,N为大于1的正整数;
根据所述连续N个报文的报文传输属性信息的概率分布信息,生成所述连续N个报文的报文传输属性信息的特征图像;
将所述特征图像,输入预先训练的图像分类模型,得到所述目标数据流对应的目标应用程序标识。
2.根据权利要求1所述的方法,其特征在于,每个报文的报文传输属性信息包括至少一个类型的报文传输属性信息;
所述根据所述连续N个报文的报文传输属性信息的概率分布信息,生成所述连续N个报文的报文传输属性信息的特征图像,包括:
在所述连续N个报文的报文传输属性信息中,将相同类型的报文传输属性信息按照报文到达时间顺序组成序列,得到至少一个类型的传输属性信息序列;
确定所述至少一个类型的传输属性信息序列中每个类型的传输属性信息序列对应的静态行为特征矩阵与动态行为特征矩阵,其中,所述静态行为特征矩阵是用于描述所述传输属性信息序列的边缘概率分布p(Ij)的特征矩阵,所述动态行为特征矩阵是用于描述所述传输属性信息序列的条件概率分布p(Ij+1|Ij)的特征矩阵,Ij为所述连续N个报文中的任一报文在所述传输属性信息序列中对应的报文传输属性信息,Ij+1为所述任一报文的下一个报文在所述传输属性信息序列中对应的报文传输属性信息;
将所述静态行为特征矩阵与所述动态行为特征矩阵,作为所述连续N个报文的报文传输属性信息的特征图像。
3.根据权利要求2所述的方法,其特征在于,所述确定所述至少一个类型的传输属性信息序列中每个类型的传输属性信息序列对应的静态行为特征矩阵与动态行为特征矩阵,包括:
对于所述至少一个类型的传输属性信息序列{I1,I2,…,Ij,…,In+1}中的每个传输属性信息序列,获取所述传输属性信息序列的第一子序列{I1,I2,…,Ij,…,In}、第二子序列{I2,I3,…,Ij,…,In+1},通过预设的映射函数φ(Ij),将所述第一子序列与所述第二子序列映射到高维特征空间,得到所述第一子序列对应的第一高维特征矩阵Φ=[φ(I1),φ(I2),…,φ(Ij),…,φ(In)]、所述第二子序列对应的第二高维特征矩阵Φ+=[φ(I2),φ(I3),…,φ(Ij),…,φ(In+1)],其中,n+1为所述传输属性信息序列的序列长度;
根据所述第一高维特征矩阵与公式
Figure FDA0002879740510000011
确定所述传输属性信息序列对应的静态行为特征矩阵,其中,
Figure FDA0002879740510000012
为所述静态行为特征矩阵,ΦT为所述第一高维特征矩阵的转置,n为所述第一子序列的序列长度;
根据所述第一高维特征矩阵、所述第二高维特征矩阵与公式
Figure FDA0002879740510000013
确定所述传输属性信息序列对应的动态行为特征矩阵,其中,
Figure FDA0002879740510000014
为所述动态行为特征矩阵,λ为正则项系数,I为单位矩阵。
4.根据权利要求1所述的方法,其特征在于,所述图像分类模型由卷积神经网络构成;
所述方法还包括:
将所述特征图像输入所述图像分类模型时,还将辅助识别信息从所述图像分类模型的全连接层输入;
其中,所述辅助识别信息至少包括以下一种或多种:所述连续N个报文的报文传输属性信息、所述目标数据流对应的后台服务器的网络协议IP地址、所述后台服务器的端口标识。
5.一种数据流的识别装置,其特征在于,所述装置包括:
获取模块,用于获取目标数据流中连续N个报文的报文传输属性信息,其中,每个报文的报文传输属性信息包括以下类型的报文传输属性信息中的一种或多种:报文长度、报文到达时间间隔、报文上下行属性,N为大于1的正整数;
生成模块,用于根据所述连续N个报文的报文传输属性信息的概率分布信息,生成所述连续N个报文的报文传输属性信息的特征图像;
分类模块,用于将所述特征图像,输入预先训练的图像分类模型,得到所述目标数据流对应的目标应用程序标识。
6.根据权利要求5所述的装置,其特征在于,每个报文的报文传输属性信息包括至少一个类型的报文传输属性信息;
所述生成模块用于:
在所述连续N个报文的报文传输属性信息中,将相同类型的报文传输属性信息按照报文到达时间顺序组成序列,得到至少一个类型的传输属性信息序列;
确定所述至少一个类型的传输属性信息序列中每个类型的传输属性信息序列对应的静态行为特征矩阵与动态行为特征矩阵,其中,所述静态行为特征矩阵是用于描述所述传输属性信息序列的边缘概率分布p(Ij)的特征矩阵,所述动态行为特征矩阵是用于描述所述传输属性信息序列的条件概率分布p(Ij+1|Ij)的特征矩阵,Ij为所述连续N个报文中的任一报文在所述传输属性信息序列中对应的报文传输属性信息,Ij+1为所述任一报文的下一个报文在所述传输属性信息序列中对应的报文传输属性信息;
将所述静态行为特征矩阵与所述动态行为特征矩阵,作为所述连续N个报文的报文传输属性信息的特征图像。
7.根据权利要求6所述的装置,其特征在于,所述生成模块用于:
对于所述至少一个类型的传输属性信息序列{I1,I2,…,Ij,…,In+1}中的每个传输属性信息序列,获取所述传输属性信息序列的第一子序列{I1,I2,…,Ij,…,In}、第二子序列{I2,I3,…,Ij,…,In+1},通过预设的映射函数φ(Ij),将所述第一子序列与所述第二子序列映射到高维特征空间,得到所述第一子序列对应的第一高维特征矩阵Φ=[φ(I1),φ(I2),…,φ(Ij),…,φ(In)]、所述第二子序列对应的第二高维特征矩阵Φ+=[φ(I2),φ(I3),…,φ(Ij),…,φ(In+1)],其中,n+1为所述传输属性信息序列的序列长度;
根据所述第一高维特征矩阵与公式
Figure FDA0002879740510000021
确定所述传输属性信息序列对应的静态行为特征矩阵,其中,
Figure FDA0002879740510000022
为所述静态行为特征矩阵,ΦT为所述第一高维特征矩阵的转置,n为所述第一子序列的序列长度;
根据所述第一高维特征矩阵、所述第二高维特征矩阵与公式
Figure FDA0002879740510000031
确定所述传输属性信息序列对应的动态行为特征矩阵,其中,
Figure FDA0002879740510000032
为所述动态行为特征矩阵,λ为正则项系数,I为单位矩阵。
8.根据权利要求5所述的装置,其特征在于,所述图像分类模型由卷积神经网络构成;
所述装置还包括:
输入模块,用于将所述特征图像输入所述图像分类模型时,还将辅助识别信息从所述图像分类模型的全连接层输入;
其中,所述辅助识别信息至少包括以下一种或多种:所述连续N个报文的报文传输属性信息、所述目标数据流对应的后台服务器的网络协议IP地址、所述后台服务器的端口标识。
9.一种服务器,其特征在于,所述服务器包括接收器、处理器,其中:
所述接收器,用于获取目标数据流中连续N个报文的报文传输属性信息,其中,每个报文的报文传输属性信息包括以下类型的报文传输属性信息中的一种或多种:报文长度、报文到达时间间隔、报文上下行属性,N为大于1的正整数;
所述处理器,用于根据所述连续N个报文的报文传输属性信息的概率分布信息,生成所述连续N个报文的报文传输属性信息的特征图像;将所述特征图像,输入预先训练的图像分类模型,得到所述目标数据流对应的目标应用程序标识。
10.根据权利要求9所述的服务器,其特征在于,每个报文的报文传输属性信息包括至少一个类型的报文传输属性信息;
所述处理器,用于在所述连续N个报文的报文传输属性信息中,将相同类型的报文传输属性信息按照报文到达时间顺序组成序列,得到至少一个类型的传输属性信息序列;确定所述至少一个类型的传输属性信息序列中每个类型的传输属性信息序列对应的静态行为特征矩阵与动态行为特征矩阵,其中,所述静态行为特征矩阵是用于描述所述传输属性信息序列的边缘概率分布p(Ij)的特征矩阵,所述动态行为特征矩阵是用于描述所述传输属性信息序列的条件概率分布p(Ij+1|Ij)的特征矩阵,Ij为所述连续N个报文中的任一报文在所述传输属性信息序列中对应的报文传输属性信息,Ij+1为所述任一报文的下一个报文在所述传输属性信息序列中对应的报文传输属性信息;将所述静态行为特征矩阵与所述动态行为特征矩阵,作为所述连续N个报文的报文传输属性信息的特征图像。
11.根据权利要求10所述的服务器,其特征在于,所述处理器用于:
对于所述至少一个类型的传输属性信息序列{I1,I2,…,Ij,…,In+1}中的每个传输属性信息序列,获取所述传输属性信息序列的第一子序列{I1,I2,…,Ij,…,In}、第二子序列{I2,I3,…,Ij,…,In+1},通过预设的映射函数φ(Ij),将所述第一子序列与所述第二子序列映射到高维特征空间,得到所述第一子序列对应的第一高维特征矩阵Φ=[φ(I1),φ(I2),…,φ(Ij),…,φ(In)]、所述第二子序列对应的第二高维特征矩阵Φ+=[φ(I2),φ(I3),…,φ(Ij),…,φ(In+1)],其中,n+1为所述传输属性信息序列的序列长度;
根据所述第一高维特征矩阵与公式
Figure FDA0002879740510000033
确定所述传输属性信息序列对应的静态行为特征矩阵,其中,
Figure FDA0002879740510000034
为所述静态行为特征矩阵,ΦT为所述第一高维特征矩阵的转置,n为所述第一子序列的序列长度;
根据所述第一高维特征矩阵、所述第二高维特征矩阵与公式
Figure FDA0002879740510000041
确定所述传输属性信息序列对应的动态行为特征矩阵,其中,
Figure FDA0002879740510000042
为所述动态行为特征矩阵,λ为正则项系数,I为单位矩阵。
12.根据权利要求9所述的服务器,其特征在于,所述图像分类模型由卷积神经网络构成;
所述处理器还用于:
将所述特征图像输入所述图像分类模型时,还将辅助识别信息从所述图像分类模型的全连接层输入;
其中,所述辅助识别信息至少包括以下一种或多种:所述连续N个报文的报文传输属性信息、所述目标数据流对应的后台服务器的网络协议IP地址、所述后台服务器的端口标识。
13.一种计算机可读存储介质,其特征在于,包括指令,当所述计算机可读存储介质在服务器上运行时,使得所述服务器执行所述权利要求1-4中任一权利要求所述的方法。
CN201711292369.4A 2017-12-08 2017-12-08 数据流的识别方法和装置 Active CN109905328B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201711292369.4A CN109905328B (zh) 2017-12-08 2017-12-08 数据流的识别方法和装置
EP18886127.2A EP3716547B1 (en) 2017-12-08 2018-10-26 Data stream recognition method and apparatus
PCT/CN2018/112086 WO2019109754A1 (zh) 2017-12-08 2018-10-26 数据流的识别方法和装置
US16/894,425 US11665100B2 (en) 2017-12-08 2020-06-05 Data stream identification method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711292369.4A CN109905328B (zh) 2017-12-08 2017-12-08 数据流的识别方法和装置

Publications (2)

Publication Number Publication Date
CN109905328A CN109905328A (zh) 2019-06-18
CN109905328B true CN109905328B (zh) 2021-06-01

Family

ID=66750364

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711292369.4A Active CN109905328B (zh) 2017-12-08 2017-12-08 数据流的识别方法和装置

Country Status (4)

Country Link
US (1) US11665100B2 (zh)
EP (1) EP3716547B1 (zh)
CN (1) CN109905328B (zh)
WO (1) WO2019109754A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022083509A1 (zh) * 2020-10-19 2022-04-28 华为技术有限公司 一种数据流识别方法以及装置
CN114840521B (zh) * 2022-04-22 2023-03-21 北京友友天宇系统技术有限公司 数据库的权限管理和数据保护方法、装置、设备和存储介质
CN114936007A (zh) * 2022-06-02 2022-08-23 三星(中国)半导体有限公司 存储数据的方法和装置
CN114757304B (zh) * 2022-06-10 2022-09-09 北京芯盾时代科技有限公司 一种数据识别方法、装置、设备及存储介质
CN116405611A (zh) * 2023-06-07 2023-07-07 建信金融科技有限责任公司 一种图像上传方法、系统、装置、设备及介质
CN117097577B (zh) * 2023-10-20 2024-01-09 鹏城实验室 加密报文数据流分类方法、系统、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102315974A (zh) * 2011-10-17 2012-01-11 北京邮电大学 基于层次化特征分析的tcp、udp流量在线识别方法和装置
CN105740903A (zh) * 2016-01-29 2016-07-06 北京大学 多属性识别方法及装置
CN105871832A (zh) * 2016-03-29 2016-08-17 北京理工大学 一种基于协议属性的网络应用加密流量识别方法及其装置
WO2017152883A1 (zh) * 2016-03-11 2017-09-14 华为技术有限公司 一种协同流的识别方法、系统以及使用该方法的服务器
CN107222369A (zh) * 2017-07-07 2017-09-29 北京小米移动软件有限公司 应用程序的识别方法、装置、交换装置和存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4717533B2 (ja) 2005-07-06 2011-07-06 株式会社 日立ディスプレイズ 表示装置
KR20130101647A (ko) * 2012-02-22 2013-09-16 경북대학교 산학협력단 트래픽 분류 장치 및 방법, 트래픽 분류 프로그램 구축 장치 및 방법, 컴퓨터로 판독 가능한 기록매체
US9324022B2 (en) * 2014-03-04 2016-04-26 Signal/Sense, Inc. Classifying data with deep learning neural records incrementally refined through expert input
CN104184723B (zh) * 2014-07-28 2018-05-29 华为技术有限公司 一种应用程序识别方法、装置和网络设备
CN105528638B (zh) 2016-01-22 2018-04-24 沈阳工业大学 灰色关联分析法确定卷积神经网络隐层特征图个数的方法
CN106203499A (zh) 2016-07-07 2016-12-07 青岛大学 一种基于深度cnn的安全带检测方法
CN107864168B (zh) 2016-09-22 2021-05-18 华为技术有限公司 一种网络数据流分类的方法及系统
CN106682569A (zh) 2016-09-28 2017-05-17 天津工业大学 一种基于卷积神经网络的快速交通标识牌识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102315974A (zh) * 2011-10-17 2012-01-11 北京邮电大学 基于层次化特征分析的tcp、udp流量在线识别方法和装置
CN105740903A (zh) * 2016-01-29 2016-07-06 北京大学 多属性识别方法及装置
WO2017152883A1 (zh) * 2016-03-11 2017-09-14 华为技术有限公司 一种协同流的识别方法、系统以及使用该方法的服务器
CN105871832A (zh) * 2016-03-29 2016-08-17 北京理工大学 一种基于协议属性的网络应用加密流量识别方法及其装置
CN107222369A (zh) * 2017-07-07 2017-09-29 北京小米移动软件有限公司 应用程序的识别方法、装置、交换装置和存储介质

Also Published As

Publication number Publication date
WO2019109754A1 (zh) 2019-06-13
CN109905328A (zh) 2019-06-18
US20200302216A1 (en) 2020-09-24
EP3716547B1 (en) 2023-03-29
US11665100B2 (en) 2023-05-30
EP3716547A4 (en) 2020-12-16
EP3716547A1 (en) 2020-09-30

Similar Documents

Publication Publication Date Title
CN109905328B (zh) 数据流的识别方法和装置
US20210385236A1 (en) System and method for the automated detection and prediction of online threats
EP3407562B1 (en) Coflow recognition method and system, and server using method
US9462008B2 (en) Identifying threats based on hierarchical classification
WO2019169928A1 (zh) 一种流量检测方法和流量检测设备
Cheng et al. MATEC: A lightweight neural network for online encrypted traffic classification
Li et al. Traffic identification of mobile apps based on variational autoencoder network
CN112765324B (zh) 一种概念漂移检测方法及装置
Shim et al. Application traffic classification using payload size sequence signature
EP3942740A1 (en) System and method for de-anonymizing actions and messages on networks
CN112861894A (zh) 一种数据流分类方法、装置及系统
CN112633353B (zh) 基于包长概率分布与k近邻算法的物联网设备识别方法
CN110602059B (zh) 一种精准复原tls协议加密传输数据明文长度指纹的方法
CN114978593B (zh) 基于图匹配的不同网络环境的加密流量分类方法及系统
CN109299365A (zh) 一种基于数据流的异常用户检索系统
Zhang et al. Triplet Network and Unsupervised Clustering Based Zero-Shot Radio Frequency Fingerprint Identification With Extremely Small Sample Size
CN112564928A (zh) 服务分类方法及设备、互联网系统
Hernandez-Jaimes et al. A Machine Learning approach for anomaly detection on the Internet of Things based on Locality-Sensitive Hashing
EP4075727A1 (en) System and method for identifying services with which encrypted traffic is exchanged
US11941626B2 (en) System and method for associating a cryptocurrency address to a user
CN114866301B (zh) 基于直推图的加密流量识别与分类方法及系统
WO2022143483A1 (zh) 确定数据流标签的方法、装置以及相关设备
Ni et al. An Unknown Protocol Clustering Analysis Method Based on Spectral Clustering
WO2024065185A1 (zh) 设备分类方法、装置、电子设备及计算机可读存储介质
LI et al. Automatic protocol format signature construction algorithm based on discrete series protocol message

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant