CN104102687A - 加密网络隧道内的Web业务的标识和分类的方法和系统 - Google Patents

加密网络隧道内的Web业务的标识和分类的方法和系统 Download PDF

Info

Publication number
CN104102687A
CN104102687A CN201410146871.4A CN201410146871A CN104102687A CN 104102687 A CN104102687 A CN 104102687A CN 201410146871 A CN201410146871 A CN 201410146871A CN 104102687 A CN104102687 A CN 104102687A
Authority
CN
China
Prior art keywords
encrypted data
pattern
packet
grouping
training corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410146871.4A
Other languages
English (en)
Other versions
CN104102687B (zh
Inventor
M·克里斯托多雷斯库
胡欣
D·L·沙勒斯
R·赛勒
M·菲斯多克林
王挺
A·M·怀特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN104102687A publication Critical patent/CN104102687A/zh
Application granted granted Critical
Publication of CN104102687B publication Critical patent/CN104102687B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/147Network analysis or design for predicting network behaviour
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/04Processing captured monitoring data, e.g. for logfile generation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0876Network utilisation, e.g. volume of load or congestion level
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/02Network architectures or network communication protocols for network security for separating internal from external traffic, e.g. firewalls
    • H04L63/029Firewall traversal, e.g. tunnelling or, creating pinholes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]

Abstract

本发明涉及一种加密网络隧道内的Web业务的标识和分类的方法和系统。一种方法包括分析未加密数据分组的网络业务以便检测分组业务、时间和大小模式。将所检测的分组、时间和大小业务模式与所述未加密数据分组的至少一分组目的地和分组源相关联,以便创建训练语料库和从所述训练语料库构建的模型中的至少一个。将所述语料库和所述模型中的所述至少一个存储在存储设备中。观察已加密数据分组的分组业务、时间和大小模式。将所述已加密数据分组的所观察的分组业务、时间和大小模式与所述训练语料库和所述模型中的至少一个相比较,以便针对预测网络主机和预测路径信息中的至少一个,对所述已加密数据分组进行分类。

Description

加密网络隧道内的Web业务的标识和分类的方法和系统
技术领域
本发明一般地涉及加密,具体地说,涉及加密网络隧道内部的网络业务的标识和分类。 
背景技术
经由加密连接作为隧道的Web业务对于标准网络入侵和分析工具而言“不可见”。因此,需要一种方法和系统对加密隧道内部的Web业务进行标识和分类。 
发明内容
根据本原理的一个方面,提供一种方法。所述方法包括分析未加密数据分组的网络业务以便检测其中的分组业务模式、分组时间模式和分组大小模式。所述方法还包括将所检测的分组业务模式、所检测的分组时间模式和所检测的分组大小模式与所述未加密数据分组的至少一分组目的地和分组源相关联,以便创建训练语料库和从所述训练语料库构建的模型中的至少一个。所述方法还包括将所述训练语料库和所述模型中的所述至少一个存储在存储设备中。所述方法还包括观察已加密数据分组的分组业务模式、分组时间模式和分组大小模式。所述方法此外包括将所述已加密数据分组的所观察的分组业务模式、所观察的分组时间模式和所观察的分组大小模式与所述训练语料库和所述模型中的至少一个相比较,以便针对用于所述已加密数据分组的预测网络主机和预测路径信息中的至少一个,对所述已加密数据分组进行分类。 
根据本原理的另一个方面,提供一种系统。所述系统包括特性提取器, 其用于分析未加密数据分组的网络业务以便检测其中的分组业务模式、分组时间模式和分组大小模式。所述系统还包括建模引擎,其用于将所检测的分组业务模式、所检测的分组时间模式和所检测的分组大小模式与所述未加密数据分组的至少一分组目的地和分组源相关联,以便创建训练语料库和从所述训练语料库构建的模型中的至少一个。所述系统还包括存储器,其用于存储所述训练语料库和所述模型中的所述至少一个。所述特性提取器观察已加密数据分组的分组业务模式、分组时间模式和分组大小模式。所述系统另外包括预测引擎,其用于将所述已加密数据分组的所观察的分组业务模式、所观察的分组时间模式和所观察的分组大小模式与所述训练语料库和所述模型中的至少一个相比较,以便针对用于所述已加密数据分组的预测网络主机和预测路径信息中的至少一个,对所述已加密数据分组进行分类。 
从以下将结合附图阅读的对本发明的示例性实施例的详细说明,本发明的这些和其它特性和优点将变得显而易见。 
附图说明
本公开将参考以下附图,在以下对优选实施例的详细说明中提供详细信息,这些附图是: 
图1示出根据本发明的一个实施例的可以应用本发明的示例性处理系统100; 
图2示出根据本发明的一个实施例的用于对加密网络隧道内部的Web业务进行标识和分类的示例性系统200; 
图3示出根据本发明的一个实施例的用于对加密网络隧道内部的Web业务进行标识和分类的示例性方法300;以及 
图4示出根据本发明的一个实施例的用于建立网络业务模型以便对加密网络隧道内部的Web业务进行标识和分类的示例性方法400。 
具体实施方式
本发明涉及加密网络隧道内部的Web业务的标识和分类。 
在一个实施例中,本发明标识经由加密连接访问的网站名称。 
在一个实施例中,本发明使用来自被动观察的网络业务的数据,标识从相同网站发送和接收的分组。本发明不需要加密连接中使用的加密密钥的知识。能够被动观察业务可实现集中过滤加密Web业务。在没有本发明的情况下,需要安装单独的过滤器以便在加密Web业务之前检查和过滤客户端设备上的Web业务,这是破坏用户体验的不可伸缩的解决方案。 
所属技术领域的技术人员知道,本发明的各个方面可以实现为系统、方法或计算机程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。此外,本发明的各个方面还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。 
可以采用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是—但不限于—电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。 
计算机可读的信号介质可以包括例如在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括—但不限于—电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令 执行系统、装置或者器件使用或者与其结合使用的程序。 
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括—但不限于—无线、有线、光缆、RF等等,或者上述的任意合适的组合。 
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的各个方面的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。 
下面将参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。 
也可以把这些计算机程序指令存储在计算机可读介质中,这些指令使得计算机、其它可编程数据处理装置、或其它设备以特定方式工作,从而,存储在计算机可读介质中的指令就产生出包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的指令的制造品(article of manufacture)。 
也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机或其它可编程装 置上执行的指令提供实现流程图和/或框图中的一个或多个方框中规定的功能/动作的过程。 
附图中的流程图和框图显示了根据本发明的不同实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。 
本说明书中对本发明的“一个实施例”或“一实施例”以及它们的其它变型的引用指结合该实施例描述的特定特性、结构、特征等被包括在本发明的至少一个实施例中。因此,本说明书的各种位置中出现的短语“在一个实施例中”或“在一实施例中”以及任何其它变型不一定都指同一实施例。 
应该理解,使用以下“/”、“和/或”以及“至少一个”(例如,在“A/B”、“A和/或B”以及“A和B中的至少一个”的情况下)中的任意一个都旨在包含仅选择第一列出的选项(A),或者仅选择第二列出的选项(B),或者选择两个选项(A和B)。作为进一步实例,在“A、B和/或C”以及“A、B和C中的至少一个”的情况下,此类措词旨在包含仅选择第一列出的选项(A),或者仅选择第二列出的选项(B),或者仅选择第三列出的选项(C),或者仅选择第一和第二列出的选项(A和B),或者仅选择第一和第三列出的选项(A和C),或者仅选择第二和第三列出的选项(B和C),或者选择所有三个选项(A和B和C)。这可以扩展到列出的多个项目,如所属技术领域和相关技术领域的普通技术人员很容易地显而易见的那样。 
图1示出根据本发明的一个实施例的可以应用本发明的示例性处理系统100。处理系统100包括至少一个处理器(CPU)104,其在操作上经由系统总线102连接到其它组件。高速缓存106、只读存储器(ROM)108、随机存取存储器(RAM)110、输入/输出(I/O)适配器120、声音适配器130、网络适配器140、用户接口适配器150和显示适配器160在操作上连接到系统总线102。 
第一存储设备122和第二存储设备124在操作上通过I/O适配器120连接到系统总线102。存储设备122和124可以是磁盘存储设备(例如,磁盘或光盘存储设备)、固态磁设备等中的任何一个。存储设备122和124可以是相同类型的存储设备或者不同类型的存储设备。 
扬声器132在操作上通过声音适配器130连接到系统总线102。 
收发器142在操作上通过网络适配器140连接到系统总线102。 
第一用户输入设备152、第二用户输入设备154和第三用户输入设备156在操作上通过用户接口适配器150连接到系统总线102。用户输入设备152、154和156可以是以下任何一个:键盘、鼠标、小键盘、图像捕获设备、运动传感设备、麦克风、结合至少两个上述设备的功能的设备等。当然,也可以使用其它类型的输入设备,同时保持本发明的精神。用户输入设备152和154可以是相同类型的用户输入设备或者不同类型的用户输入设备。用户输入设备152和154用于向系统100输入信息以及从系统100输出信息。 
显示设备162在操作上通过显示适配器160连接到系统总线102。当然,处理系统100还可以包括其它元件(未示出),如所属技术领域的技术人员很容易构想的,并且可以省略某些元件。例如,可以在处理系统100中包括各种其它输入设备和/或输出设备,具体取决于处理系统100的特定实现,如所属技术领域的普通技术人员很容易理解的。例如,可以使用各种类型的无线和/或有线输入和/或输出设备。此外,也可以使用采用各种配置的其它处理器、控制器、存储器等,如所属技术领域的普通技术人员很容易理解的。给予了在此提供的本发明的教导后,所属技术领域的普通 技术人员很容易构想处理系统100的这些和其它变型。 
此外,应该理解,下面针对图2描述的系统200是用于实现本发明的相应实施例的系统。可以在系统200的一个或多个元件中实现处理系统100的部分或全部。 
此外,应该理解,处理系统100可以执行在此描述的方法的至少一部分,例如包括图3的方法300的至少一部分和/或图4的方法400的至少一部分。同样,可以使用系统200的部分或全部执行图3的方法300的至少一部分和/或图4的方法400的至少一部分。 
图2示出根据本发明的一个实施例的用于对加密网络隧道内部的Web业务进行标识和分类的示例性系统200。系统200包括网络分流器(tap)212、网络数据存储系统214、特性提取器216、建模引擎218、预测引擎252和分析引擎254。 
在一个实施例中,系统200可以被视为包括训练阶段210和预测阶段250。在此实施例中,训练阶段210涉及和/或另外包括网络分流器212和/或网络数据存储系统214、特性提取器216和建模引擎218。即,训练阶段可以包括网络分流器212和网络数据存储系统214之一或两者,具体取决于使用预先存储的网络业务还是实时网络业务构建训练语料库。如果使用实时网络业务构建语料库,则特性提取器216还可以提取在此描述的标签。在此实施例中,预测阶段250包括网络分流器212、特性提取器216、预测引擎252和分析引擎254。网络分流器212连接到网络以便允许监视实时网络业务。网络数据存储系统214存储网络业务。网络数据存储系统214也可以存储所存储的网络业务的主机标签和路径标签。网络存储系统214可以为建模引擎218提供所存储的网络业务的标签集合。原则上,网络数据存储系统214可以存储原始网络数据(在这种情况下,应用特性提取器216以便提取相关特性和标签)和/或可以存储网络数据“汇总”(在这种情况下,先前已提取主机/路径标签甚至相关特性,因此可以直接传递到建模引擎218,从而绕过特性提取器216)。在后一种情况下,也可以将预测引擎252直接应用于所存储的网络数据。 
特性提取器216从所存储的网络业务中提取特性(例如,分组大小、时间和方向)以便为此提供特性集合。特性提取器216也可以从监视的(即,实时)网络业务中提取加密后特性(例如,分组大小、时间和方向)以便为此提供特性集合。特性提取器216也可以例如在使用实时网络业务构建训练语料库时提取标签;在这种情况下,网络数据存储系统214不必提供标签,因为将由特性提取器216提供标签。建模引擎218训练模型以便基于特性实例的标签集合对特性实例进行分类。在一个实施例中,所述模型是随机森林模型。 
预测引擎252将模型应用于新数据(例如,实时已加密的网络业务)和/或已存储的数据(例如,已存储的网络业务)以便为此输出预测。即,针对HTTP请求/响应对的每个特性集合(例如,加密后特性和/或未加密特性),预测引擎252应用在训练阶段中训练的模型以便提供预测标签集合。 
分析引擎254分析预测标签集合,以便为每个HTTP请求/响应对提供预测主机名称和预测路径信息。 
图3示出根据本发明的一个实施例的用于对加密网络隧道内部的Web业务进行标识和分类的示例性方法300。在步骤310,在一时间段内监视未加密数据分组的网络业务。在步骤320,分析未加密数据分组的网络业务以便检测其中的分组业务模式、分组时间模式和分组大小模式。 
在步骤330,将所检测的分组业务模式、所检测的分组时间模式和所检测的分组大小模式与未加密数据分组的至少一分组目的地和分组源相关联,以便创建至少一个训练语料库。在一个实施例中,也可以将所检测的分组业务模式、所检测的分组时间模式和所检测的分组大小模式与分组内容相关联。 
在步骤340,观察已加密数据分组的分组业务模式、分组时间模式和分组大小模式。 
在步骤350,将已加密数据分组的所观察的分组业务模式、所观察的分组时间模式和所观察的分组大小模式与训练语料库相比较,以便提供用 于已加密数据分组的预测网络主机和预测路径信息中的至少一个。尽管针对实时网络业务描述步骤350,但应该理解,也可以(或取代)针对已存储的网络业务(例如,所检测的分组业务模式、所检测的分组时间模式和所检测的分组大小模式)进行预测。 
图4示出根据本发明的一个实施例的用于建立网络业务模型以便对已加密网络隧道内部的Web业务进行标识和分类的示例性方法400。 
在步骤410,接收特性集合和标签集合对。 
在步骤420,学习/更新分类模型。 
在步骤430,选择最佳模型。例如,可以基于特定预定准则选择最佳模型。 
在步骤440,将模型导出到预测阶段。 
网络安全和取证分析的一个弱点是已加密的流。因为从网络监视器的观点看,通常隐藏包括在这些流中的数据,所以无法将许多标准网络安全、分析和取证技术应用于已加密业务。但是,因为网络通信必然是复杂系统,所以通常以各种边信道的形式(具体地说,通过个体分组的时间、大小和方向)泄露有关已加密连接的信息。我们建议了从这些边信道获得相关信息以进行安全分析的技术。取决于应用加密的网络层,也可以获得连接端点、路由、大小和持续时间信息。但是,在一个实施例中,建议了仅从在最低级别获得的特性(例如,分组大小、时间和方向)来获得相关信息的技术,以便提供可能的最广泛适用性。应该理解,本发明并不限于上述特定信息类型,因此也可以使用其它信息类型,同时保持本发明的精神。 
建议了数据驱动方法以便获得有关通过加密通道传输的HTTP业务的相关信息。具体地说,该信息包括HTTP连接定向到的网络主机(例如,“www.IBM.com”)以及请求的特定资源的路径(例如,“/bluepages/employee.php”)。为了针对已加密连接获得该信息,首先从纯文本HTTP连接(训练语料库)提取相关信息和相关特性(分组大小、时间和方向)。然后构建模型,所述模型基于所提取的特性(可以改变它们以便模拟已加密连接的特性,例如,通过人为填充分组大小),从个体 HTTP请求/响应对预测主机和路径信息。最后,使用模型预测用于先前看不见的已加密连接的主机和路径信息。尽管针对已加密数据进行描述,但应该理解,本原理也很容易适用于未加密数据,因此可以预测用于先前看不见的未加密连接的主机和路径信息,同时保持本原理的精神。因此,尽管将模型描述为使用已加密数据来构建/训练,但也可以使用未加密数据构建/训练模型。给予了在此提供的本原理的教导后,所属技术领域的普通技术人员很容易构想本原理的这些和其它变型,同时保持本原理的精神。 
我们的方法是通用的,因为它不依赖于上述特性的特定子集,也不依赖于特定建模技术。但是,出于示例和清晰的目的,在一个实施例中,建议使用以下特性: 
*在每个方向,前n个(n=5)分组的大小; 
*在每个方向和两个方向,总的分组大小;以及 
*在每个方向和两个方向,总的分组数量。 
但是,应该理解,本发明的各实施例并不仅限于上述特性,因此也可以使用其它特性,同时保持本发明的精神。 
对于建模部分,本发明的一个实施例包括使用随机森林这一标准机器学习技术。具体地说,建议使用多标签分类方案,其中每个标签是特定资源路径的前缀或完整域名(具有或没有顶级域(TLD))的后缀。可以针对各种多标签分类度量通过交叉验证或重新取样来优化模型,这些分类度量包括每实例精确度、召回率、准确性和/或F得分,以及每标签微平均或宏平均精确度、召回率、准确性和/或F得分。因此,在一个实施例中,每个示例实例可以具有多个标签。此外,在一个实施例中,可以考虑通过包括子域和资源路径生成的标签。 
我们的方法包括两个通用阶段。第一阶段是训练阶段,其中收集标记数据并且使用该数据将HTTP请求/响应对进行建模。在一个实施例中,特性提取器首先从网络业务(实时或先前存储的)中提取加密后特性(分组大小、时间和方向)和标签信息(主机和资源路径)。然后将这些标记的实例(即,特性集合和标签集合对)发送到建模引擎。 
特性提取器或建模引擎可以基于一组分隔字符(例如,用于主机名称的“.”字符,或者用于资源路径的“/”、“”和“&”字符),将路径和/或主机名称拆分成组件标签,并且可以将结果标签集合限于特定数量的主机名称和/或路径标签。 
建模引擎训练模型以便基于实例的标签集合对实例进行分类。对于随机森林模型,这包括学习多个决策树。对于每个树,学习者选择用于学习的随机训练数据子集和随机训练实例子集。这些树统称为随机森林。可以使用不同参数学习多个随机森林(参数包括决策树的数量以及每个树使用的特性数量)。然后针对预测阶段使用“最佳”随机森林,其中通过多标签分类度量(如上所述)确定“最佳”。 
预测阶段包括将在建模阶段生成的模型应用于新数据,并且将该应用的结果传递到分析引擎。预测引擎针对个体HTTP请求/响应对,接受特性(分组大小、时间和方向)形式的输入。对于每个特性集合,预测引擎应用在训练阶段训练的模型以便预测标签集合,将该标签集合传递到分析引擎。对于随机森林模型,这包括将每个个体决策树应用于每个特性集合,并且对输出每个标签集合的树的数量进行计数。提供树输出次数最多的集合作为输出标签。代替主标签或除了主标签之外,预测引擎可以传递可能标签的排序和/或从实值权重到可能标签的映射(例如,概率估计或原始投票计数)。 
随机森林分类的输出通常是具有最高数量的“投票”的标签,其中组成森林的每个个体树为单个潜在标签提供单个投票。因此,随机森林也可以输出潜在标签列表,这些标签按照针对每个标签接收的投票数量进行排序。可以规范化这些投票计数,以便提供给定标签的似然估计(概率)。 
备选地,个体决策树可以指定权重,所述权重指示对于特定实例,树在标签(或整个标签集合)中的置信度。可以针对森林中的每个树(以多种不同方式)聚合这些权重,以便如果给出实例,则为每个潜在标签提供全局置信度值和/或似然估计。 
应该理解,本原理并不限于使用随机森林,因此根据本原理,也可以 使用其它机器学习技术,同时保持本原理的精神。即,应该理解,尽管针对使用随机森林(多个)描述本原理的一个或多个实施例,但可以使用这种和/或其它机器学习技术以便训练模型并且从模型获得预测,同时保持本原理的精神。 
已描述了一种系统和方法的优选实施例(它们旨在是示例性的而非限制性的),应该注意,所属技术领域的技术人员可以根据上述教导做出修改和变型。因此,应该理解,可以在公开的特定实施例中进行更改,这些更改在所附权利要求中概述的本发明的范围内。以专利法要求的细节和特殊性如此描述本发明的各个方面之后,在所附权利要求中给出证书专利要求保护和希望保护的事物。 

Claims (20)

1.一种方法,包括:
分析未加密数据分组的网络业务以便检测其中的分组业务模式、分组时间模式和分组大小模式;
将所检测的分组业务模式、所检测的分组时间模式和所检测的分组大小模式与所述未加密数据分组的至少一分组目的地和分组源相关联,以便创建训练语料库和从所述训练语料库构建的模型中的至少一个;
将所述训练语料库和所述模型中的所述至少一个存储在存储设备中;
观察已加密数据分组的分组业务模式、分组时间模式和分组大小模式;以及
将所述已加密数据分组的所观察的分组业务模式、所观察的分组时间模式和所观察的分组大小模式与所述训练语料库和所述模型中的至少一个相比较,以便针对用于所述已加密数据分组的预测网络主机和预测路径信息中的至少一个,对所述已加密数据分组进行分类。
2.根据权利要求1的方法,还包括改变所检测的分组业务模式、所检测的分组时间模式和所检测的分组大小模式以便模拟已加密数据的对应特性。
3.根据权利要求1的方法,其中使用至少一个随机森林创建所述训练语料库和所述模型中的所述至少一个。
4.根据权利要求3的方法,其中使用针对所述至少一个随机森林的多标签分类方案创建所述训练语料库和所述模型中的所述至少一个,其中每个标签是特定资源路径的前缀或域名的后缀。
5.根据权利要求3的方法,其中所述至少一个随机森林包括多个随机森林,每个随机森林均具有分别与之关联的不同参数,所述方法还包括基于预定准则从所述多个随机森林中选择最佳随机森林,并且其中使用所述最佳随机森林提供用于所述已加密数据分组的所述预测主机名称和所述预测路径信息中的所述至少一个。
6.根据权利要求1的方法,其中除了所述已加密数据分组的所观察的分组业务模式、所观察的分组时间模式和所观察的分组大小模式之外,所述观察步骤还观察所述已加密数据分组的其它网络业务特性,并且所述比较步骤还将所述已加密数据分组的所述其它网络业务特性与所述训练语料库和所述模型中的所述至少一个相比较,以便针对用于所述已加密数据分组的所述预测网络主机和所述预测路径信息中的所述至少一个,对所述已加密数据分组进行分类。
7.根据权利要求1的方法,其中基于包括在所述已加密数据分组中的多个输入超文本传输协议请求和响应对中的每个对的可能标签的排序,确定所述预测网络主机和所述预测路径信息中的所述至少一个。
8.根据权利要求1的方法,其中基于实值权重到包括在所述已加密数据分组中的多个输入超文本传输协议请求和响应对中的每个对的可能标签的映射,确定所述预测网络主机和所述预测路径信息中的所述至少一个。
9.根据权利要求1的方法,其中所述关联步骤考虑所述未加密数据分组的子域和资源路径。
10.根据权利要求1的方法,其中在没有与所述已加密数据分组对应的加密密钥的任何知识的情况下执行所述方法。
11.根据权利要求1的方法,其中在包括计算机可读程序的计算机可读介质上实现所述方法,其中所述计算机可读程序在计算机上执行时,导致所述计算机执行权利要求1的步骤。
12.一种系统,包括:
特性提取器,其用于分析未加密数据分组的网络业务以便检测其中的分组业务模式、分组时间模式和分组大小模式;
建模引擎,其用于将所检测的分组业务模式、所检测的分组时间模式和所检测的分组大小模式与所述未加密数据分组的至少一分组目的地和分组源相关联,以便创建训练语料库和从所述训练语料库构建的模型中的至少一个;以及
存储器,其用于存储所述训练语料库和所述模型中的所述至少一个,
其中所述特性提取器观察已加密数据分组的分组业务模式、分组时间模式和分组大小模式,并且
其中所述系统还包括预测引擎,其用于将所述已加密数据分组的所观察的分组业务模式、所观察的分组时间模式和所观察的分组大小模式与所述训练语料库和所述模型中的至少一个相比较,以便针对用于所述已加密数据分组的预测网络主机和预测路径信息中的至少一个,对所述已加密数据分组进行分类。
13.根据权利要求12的系统,其中改变所检测的分组业务模式、所检测的分组时间模式和所检测的分组大小模式以便模拟已加密数据的对应特性。
14.根据权利要求12的系统,其中使用至少一个随机森林创建所述训练语料库和所述模型中的所述至少一个。
15.根据权利要求14的系统,其中使用针对所述至少一个随机森林的多标签分类方案创建所述训练语料库和所述模型中的所述至少一个,其中每个标签是特定资源路径的前缀或域名的后缀。
16.根据权利要求14的系统,其中所述至少一个随机森林包括多个随机森林,每个随机森林均具有分别与之关联的不同参数,所述方法还包括基于预定准则从所述多个随机森林中选择最佳随机森林,并且其中使用所述最佳随机森林提供用于所述已加密数据分组的所述预测主机名称和所述预测路径信息中的所述至少一个。
17.根据权利要求16的系统,其中所述预定准则包括选择所述多个随机森林中针对给定标签具有最多投票数量的任何一个随机森林作为所述最佳随机森林。
18.根据权利要求12的系统,其中基于包括在所述已加密数据分组中的多个输入超文本传输协议请求和响应对中的每个对的可能标签的排序,确定所述预测网络主机和所述预测路径信息中的所述至少一个。
19.根据权利要求12的系统,其中基于实值权重到包括在所述已加密数据分组中的多个输入超文本传输协议请求和响应对中的每个对的可能标签的映射,确定所述预测网络主机和所述预测路径信息中的所述至少一个。
20.根据权利要求12的系统,其中所述建模引擎在执行所述关联时,考虑所述未加密数据分组的子域和资源路径。
CN201410146871.4A 2013-04-15 2014-04-14 加密网络隧道内的Web业务的标识和分类的方法和系统 Active CN104102687B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US13/862,601 2013-04-15
US13/862,601 US9106536B2 (en) 2013-04-15 2013-04-15 Identification and classification of web traffic inside encrypted network tunnels

Publications (2)

Publication Number Publication Date
CN104102687A true CN104102687A (zh) 2014-10-15
CN104102687B CN104102687B (zh) 2017-08-18

Family

ID=51670842

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410146871.4A Active CN104102687B (zh) 2013-04-15 2014-04-14 加密网络隧道内的Web业务的标识和分类的方法和系统

Country Status (2)

Country Link
US (5) US9106536B2 (zh)
CN (1) CN104102687B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008721A (zh) * 2019-03-25 2019-07-12 中南大学 一种远程大数据储存系统

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9722918B2 (en) 2013-03-15 2017-08-01 A10 Networks, Inc. System and method for customizing the identification of application or content type
WO2014176461A1 (en) 2013-04-25 2014-10-30 A10 Networks, Inc. Systems and methods for network access control
US9906422B2 (en) 2014-05-16 2018-02-27 A10 Networks, Inc. Distributed system to determine a server's health
US9621575B1 (en) 2014-12-29 2017-04-11 A10 Networks, Inc. Context aware threat protection
WO2016115319A1 (en) * 2015-01-15 2016-07-21 The University Of North Carolina At Chapel Hill Methods, systems, and computer readable media for generating and using a web page classification model
US10599844B2 (en) * 2015-05-12 2020-03-24 Webroot, Inc. Automatic threat detection of executable files based on static data analysis
US10070328B2 (en) * 2015-08-20 2018-09-04 International Business Mahcines Corporation Predictive network traffic management
US9787581B2 (en) * 2015-09-21 2017-10-10 A10 Networks, Inc. Secure data flow open information analytics
CN105577660B (zh) * 2015-12-22 2019-03-08 国家电网公司 基于随机森林的dga域名检测方法
US9917856B2 (en) 2015-12-23 2018-03-13 Centripetal Networks, Inc. Rule-based network-threat detection for encrypted communications
US10885466B2 (en) * 2016-05-12 2021-01-05 Nec Corporation Method for performing user profiling from encrypted network traffic flows
US20170364794A1 (en) * 2016-06-20 2017-12-21 Telefonaktiebolaget Lm Ericsson (Publ) Method for classifying the payload of encrypted traffic flows
US10812348B2 (en) 2016-07-15 2020-10-20 A10 Networks, Inc. Automatic capture of network data for a detected anomaly
US10341118B2 (en) 2016-08-01 2019-07-02 A10 Networks, Inc. SSL gateway with integrated hardware security module
US10298604B2 (en) 2016-09-05 2019-05-21 Cisco Technology, Inc. Smart home security system
US10382562B2 (en) 2016-11-04 2019-08-13 A10 Networks, Inc. Verification of server certificates using hash codes
US10250475B2 (en) 2016-12-08 2019-04-02 A10 Networks, Inc. Measurement of application response delay time
US10397270B2 (en) 2017-01-04 2019-08-27 A10 Networks, Inc. Dynamic session rate limiter
US10757161B2 (en) * 2017-01-09 2020-08-25 Citrix Systems, Inc. Learning technique for QoS based classification and prioritization of SAAS applications
US10187377B2 (en) 2017-02-08 2019-01-22 A10 Networks, Inc. Caching network generated security certificates
WO2018160136A1 (en) * 2017-03-02 2018-09-07 Singapore University Of Technology And Design Method and apparatus for determining an identity of an unknown internet-of-things (iot) device in a communication network
US10536268B2 (en) * 2017-08-31 2020-01-14 Cisco Technology, Inc. Passive decryption on encrypted traffic to generate more accurate machine learning training data
EP3454506B1 (en) * 2017-09-07 2020-03-04 Nokia Solutions and Networks Oy Method and device for monitoring a telecommunication network
US10170304B1 (en) 2017-10-25 2019-01-01 Globalfoundries Inc. Self-aligned nanotube structures
US11838330B2 (en) 2017-12-20 2023-12-05 King Fahd University Of Petroleum And Minerals Selective information extraction from network traffic traces both encrypted and non-encrypted
CN109993195B (zh) * 2017-12-31 2024-04-12 国民技术股份有限公司 一种侧信息处理方法及装置、终端及计算机可读存储介质
US10986001B2 (en) * 2018-01-25 2021-04-20 Nokia Solutions And Networks Oy System and method for quality of service detection of encrypted packet flows
US10694221B2 (en) 2018-03-06 2020-06-23 At&T Intellectual Property I, L.P. Method for intelligent buffering for over the top (OTT) video delivery
US11429891B2 (en) 2018-03-07 2022-08-30 At&T Intellectual Property I, L.P. Method to identify video applications from encrypted over-the-top (OTT) data
CN108833360B (zh) * 2018-05-23 2019-11-08 四川大学 一种基于机器学习的恶意加密流量识别方法
US11233703B2 (en) 2018-11-20 2022-01-25 Cisco Technology, Inc. Extending encrypted traffic analytics with traffic flow data
CN109639481B (zh) * 2018-12-11 2020-10-27 深圳先进技术研究院 一种基于深度学习的网络流量分类方法、系统及电子设备
CN110011931B (zh) * 2019-01-25 2020-10-16 中国科学院信息工程研究所 一种加密流量类别检测方法及系统
CN110493081B (zh) * 2019-08-20 2021-04-20 网易(杭州)网络有限公司 游戏客户端的网络流量确定方法、装置、设备及存储介质
CN111224940B (zh) * 2019-11-15 2021-03-09 中国科学院信息工程研究所 一种嵌套在加密隧道中的匿名服务流量关联识别方法及系统
GB2593180A (en) * 2020-03-17 2021-09-22 Univ Court Univ Of Edinburgh A distributed network traffic data decomposition method
US20210303984A1 (en) * 2020-03-24 2021-09-30 Fortinet, Inc. Machine-learning based approach for classification of encrypted network traffic
US11323290B2 (en) 2020-03-25 2022-05-03 Juniper Networks, Inc. Establishing a network micro-tunnel within a network tunnel
CN114765634B (zh) * 2021-01-13 2023-12-12 腾讯科技(深圳)有限公司 网络协议识别方法、装置、电子设备及可读存储介质
CN113141375A (zh) * 2021-05-08 2021-07-20 国网新疆电力有限公司喀什供电公司 一种网络安全监控的方法、装置、存储介质及服务器
EP4152725A1 (en) * 2021-09-17 2023-03-22 Sandvine Corporation System and method for classifying tunneled network traffic
US20230135485A1 (en) * 2021-10-29 2023-05-04 Hewlett Packard Enterprise Development Lp Assigning outlier-related classifications to traffic flows across multiple time windows
CN114615007B (zh) * 2022-01-13 2023-05-23 中国科学院信息工程研究所 一种基于随机森林的隧道混合流量分类方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521226A (zh) * 2010-09-29 2012-06-27 微软公司 比较并选择数据净化服务提供者
US8224905B2 (en) * 2006-12-06 2012-07-17 Microsoft Corporation Spam filtration utilizing sender activity data
US8402540B2 (en) * 2000-09-25 2013-03-19 Crossbeam Systems, Inc. Systems and methods for processing data flows

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7324447B1 (en) 2002-09-30 2008-01-29 Packeteer, Inc. Methods, apparatuses and systems facilitating concurrent classification and control of tunneled and non-tunneled network traffic
US7447768B2 (en) 2005-01-19 2008-11-04 Facetime Communications, Inc. Categorizing, classifying, and identifying network flows using network and host components
US7653186B2 (en) 2006-05-26 2010-01-26 Aeris Communications, Inc. System and method for event communication correlation
WO2008085857A2 (en) 2007-01-04 2008-07-17 Children's Hospital Medical Center Processing text with domain-specific spreading activation methods
EP2053783A1 (en) 2007-10-26 2009-04-29 Nokia Siemens Networks Oy Method and system for identifying VoIP traffic in networks
US8140421B1 (en) 2008-01-09 2012-03-20 Zillow, Inc. Automatically determining a current value for a home
US8539221B2 (en) 2009-03-27 2013-09-17 Guavus, Inc. Method and system for identifying an application type of encrypted traffic
US8726005B2 (en) 2009-12-10 2014-05-13 George Mason Intellectual Properties, Inc. Website matching based on network traffic
US8694779B2 (en) 2010-08-13 2014-04-08 Bmc Software, Inc. Monitoring based on client perspective
US8848068B2 (en) * 2012-05-08 2014-09-30 Oulun Yliopisto Automated recognition algorithm for detecting facial expressions

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8402540B2 (en) * 2000-09-25 2013-03-19 Crossbeam Systems, Inc. Systems and methods for processing data flows
US8224905B2 (en) * 2006-12-06 2012-07-17 Microsoft Corporation Spam filtration utilizing sender activity data
CN102521226A (zh) * 2010-09-29 2012-06-27 微软公司 比较并选择数据净化服务提供者

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008721A (zh) * 2019-03-25 2019-07-12 中南大学 一种远程大数据储存系统

Also Published As

Publication number Publication date
US20140310517A1 (en) 2014-10-16
US9100309B2 (en) 2015-08-04
CN104102687B (zh) 2017-08-18
US20160358083A1 (en) 2016-12-08
US10410127B2 (en) 2019-09-10
US20150295805A1 (en) 2015-10-15
US20180060745A1 (en) 2018-03-01
US9491078B2 (en) 2016-11-08
US9922287B2 (en) 2018-03-20
US20140310396A1 (en) 2014-10-16
US9106536B2 (en) 2015-08-11

Similar Documents

Publication Publication Date Title
CN104102687A (zh) 加密网络隧道内的Web业务的标识和分类的方法和系统
US11301778B2 (en) Method and system for training and validating machine learning in network environments
US10154051B2 (en) Automatic detection of network threats based on modeling sequential behavior in network traffic
Fu et al. Service usage classification with encrypted internet traffic in mobile messaging apps
CN109104441A (zh) 一种基于深度学习的加密恶意流量的检测系统和方法
CN106716958A (zh) 横向移动检测
CN105938531B (zh) 识别恶意网络基础设施
CN109525508A (zh) 基于流量相似性比对的加密流识别方法、装置及存储介质
CN111586046A (zh) 一种结合威胁情报和机器学习的网络流量分析方法及系统
CN111224946A (zh) 一种基于监督式学习的tls加密恶意流量检测方法及装置
CN113704328B (zh) 基于人工智能的用户行为大数据挖掘方法及系统
CN112069242B (zh) 基于大数据和云计算的数据处理方法及大数据服务平台
CN113672654B (zh) 数据查询方法、装置、计算机设备和存储介质
CN113704772B (zh) 基于用户行为大数据挖掘的安全防护处理方法及系统
Ren et al. App identification based on encrypted multi-smartphone sources traffic fingerprints
CN111784360B (zh) 一种基于网络链接回溯的反欺诈预测方法及系统
WO2021248707A1 (zh) 一种操作的验证方法和装置
CN113452810B (zh) 一种流量分类方法、装置、设备和介质
Huang et al. Acquiring data traffic for sustainable IoT and smart devices using machine learning algorithm
CN113794731B (zh) 识别基于cdn流量伪装攻击的方法、装置、设备和介质
CN107122359A (zh) 数据实时跟踪可视化处理方法及装置
TWI667587B (zh) 資訊安全防護方法
CN109615418A (zh) 一种两融账户客户的挖掘方法
CN110599206A (zh) 物品质量认证方法及装置、存储介质、电子设备
JP2023551267A (ja) セキュリティデータ処理装置、セキュリティデータ処理方法及びセキュリティデータを処理するプログラムを格納するコンピュータ読み取り可能な格納媒体

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant