CN109327404B - 基于朴素贝叶斯分类算法的p2p预测方法及系统、服务器及介质 - Google Patents

基于朴素贝叶斯分类算法的p2p预测方法及系统、服务器及介质 Download PDF

Info

Publication number
CN109327404B
CN109327404B CN201811155397.6A CN201811155397A CN109327404B CN 109327404 B CN109327404 B CN 109327404B CN 201811155397 A CN201811155397 A CN 201811155397A CN 109327404 B CN109327404 B CN 109327404B
Authority
CN
China
Prior art keywords
session
network
network packet
type
attributes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811155397.6A
Other languages
English (en)
Other versions
CN109327404A (zh
Inventor
刘小伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Sipuling Technology Co Ltd
Original Assignee
Wuhan Sipuling Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Sipuling Technology Co Ltd filed Critical Wuhan Sipuling Technology Co Ltd
Priority to CN201811155397.6A priority Critical patent/CN109327404B/zh
Publication of CN109327404A publication Critical patent/CN109327404A/zh
Application granted granted Critical
Publication of CN109327404B publication Critical patent/CN109327404B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2441Traffic characterised by specific attributes, e.g. priority or QoS relying on flow classification, e.g. using integrated services [IntServ]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/147Network analysis or design for predicting network behaviour
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/104Peer-to-peer [P2P] networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开一种基于朴素贝叶斯分类算法的P2P预测方法及系统、服务器及介质,其对网络包特征及属性进行五类划分,并定义特征属性的权重值;当网络包到达防火墙时建立网络会话,根据网络会话的五元组信息判断其传输层协议是否为TCP或UDP类型;并在判断网络会话的传输层协议为TCP或UDP类型时,统计网络包的五类特征属性,根据朴素贝叶斯分类算法将网络会话的分类概率与样本库分类概率的比较,判断该网络会话是否为P2P连接类型;从而能够提前预测网络包是否为P2P类型,从而对P2P流进行有效控制,减少P2P的高流量对防火墙设备的影响。

Description

基于朴素贝叶斯分类算法的P2P预测方法及系统、服务器及 介质
技术领域
本发明涉及计算机网络安全技术领域,具体涉及一种基于朴素贝叶斯分类算法的P2P预测方法及系统、服务器及介质。
背景技术
随着互联网(尤其是移动互联网)的飞速发展,基于P2P技术的高清视频、高速下载、直播等软件应运而生,迅速飞涨的P2P流量给防火墙设备的性能带了巨大的压力。
目前基于网络端口号、特征码、DPI的技术能够识别出P2P网络包从而进行流量控制,但是识别率不高,也存在误识别率;另外这些方法是建立在一定数量的P2P网络包通过防火墙设备基础之上,当发起的P2P会话连接较多时,仍然会给防火墙设备带来一定的流量冲击。
发明内容
有鉴于此,本发明提供一种能够能够提前预测网络包是否为P2P类型,从而对P2P流进行有效控制,减少P2P的高流量对防火墙设备影响的基于朴素贝叶斯分类算法的P2P预测方法及系统、服务器及介质。
一种基于朴素贝叶斯分类算法的P2P预测方法,所述基于朴素贝叶斯分类算法的P2P预测方法包括以下步骤:
S1、对网络包特征及属性进行五类划分,并定义特征属性的权重值;
S2、当网络包到达防火墙时建立网络会话,根据网络会话的五元组信息判断其传输层协议是否为TCP或UDP类型;
S3、在判断网络会话的传输层协议为TCP或UDP类型时,统计网络包的五类特征属性,根据朴素贝叶斯分类算法将网络会话的分类概率与样本库分类概率的比较,判断该网络会话是否为P2P连接类型。
一种基于朴素贝叶斯分类算法的P2P预测系统,所述基于朴素贝叶斯分类算法的P2P预测系统包括以下功能模块:
权重划分定义模块,用于对网络包特征及属性进行五类划分,并定义特征属性的权重值;
五元组信息判断模块,用于当网络包到达防火墙时建立网络会话,根据网络会话的五元组信息判断其传输层协议是否为TCP或UDP类型;
朴素贝叶斯判断模块,用于在判断网络会话的传输层协议为TCP或UDP类型时,统计网络包的五类特征属性,根据朴素贝叶斯分类算法将网络会话的分类概率与样本库分类概率的比较,判断该网络会话是否为P2P连接类型。
一种服务器,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于朴素贝叶斯分类算法的P2P预测方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述基于朴素贝叶斯分类算法的P2P预测方法的步骤。
本发明所述基于朴素贝叶斯分类算法的P2P预测方法及系统、服务器及介质,其将网络包分为几类特征,特征之间相互独立,根据特征分类利用大量的P2P网络包和非P2P网络包数据建立输入为到达防火墙设备的网络包、输出为该包是否为P2P网络包判断结果的模型,从而将到达防火墙的网络包与特征分类进行匹配,以朴素贝叶斯算法为依据判断其是否为P2P网络包。本发明所述基于朴素贝叶斯分类算法的P2P预测方法能够提前预测网络包是否为P2P类型,从而对P2P流进行有效控制,减少P2P的高流量对防火墙设备的影响,同时也可以作为P2P识别的一种参考。
附图说明
图1是本发明的基于朴素贝叶斯分类算法的P2P预测方法的流程框图;
图2是本发明的基于朴素贝叶斯分类算法的P2P预测方法的步骤流程图;
图3是本发明的基于朴素贝叶斯分类算法的P2P预测系统的结构框图;
图4是本发明的服务器的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明,应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1和图2所示,本发明实施例提供一种基于朴素贝叶斯分类算法的P2P预测方法,所述基于朴素贝叶斯分类算法的P2P预测方法包括以下步骤:
S1、对网络包特征及属性进行五类划分,并定义特征属性的权重值。
所述网络包特征及属性的五类划分包括特征划分以及与特征对应的属性划分,具体划分如表1:
表1
Figure BDA0001818833840000031
所述特征属性对应的权重值如表2:
表2
Figure BDA0001818833840000032
Figure BDA0001818833840000041
S2、当网络包到达防火墙时建立网络会话,根据网络会话的五元组信息判断其传输层协议是否为TCP或UDP类型。
而在根据网络会话的五元组信息判断其传输层协议是否为TCP或UDP类型之前,需要判断建立的网络会话是否已经存在相应记录。
具体的,当用户上行的网络包到达防火墙设备时建立网络会话,首先判断内存的哈希列表中是否已存在该网络会话的相应记录,即记录该网络会话的五元组信息,并通过五元组信息计算该网络会话的哈希索引,遍历哈希列表中是否存在计算得到的哈希索引,如果存在,则判断内存的哈希列表中存在该网络会话的相应记录;反之,如果不存在,则判断内存的哈希列表中不存在该网络会话的相应记录。
如果内存的哈希列表中不存在该网络会话的相应记录,则需要判断该网络会话是否为P2P连接类型,即根据获取的该网络会话的五元组信息,判断其传输层协议是否为TCP或UDP类型,并继续进行步骤S3的判断。
如果内存的哈希列表中已存在该网络会话的相应记录,则进一步判断样本库中是否存在该网络会话的P2P连接类型,如果存在,则表明该网络会话的P2P连接类型在之前就已经判断过了,直接提取样本库中的该网络会话的P2P连接类型即可,如果不存在,则亦需要重新判断该网络会话的P2P连接类型,即根据获取的该网络会话的五元组信息,判断其传输层协议是否为TCP或UDP类型,并继续进行步骤S3的判断。
S3、在判断网络会话的传输层协议为TCP或UDP类型时,统计网络包的五类特征属性,根据朴素贝叶斯分类算法将网络会话的分类概率与样本库分类概率的比较,判断该网络会话是否为P2P连接类型。
具体的,当判断网络会话的传输层协议为TCP或UDP类型时,根据表2统计网络包的五类特征属性,然后根据朴素贝叶斯分类算法计算得到网络会话的分类概率,所述朴素贝叶斯分类算法具体如下:
P0=P(C0|Sx1Dx2Px3Nx4Yx5)=P(C0)*P(Sx1|C0)*P(Dx2|C0)*P(Px3|C0)*P(Nx4|C0)*P(Yx5|C0)/{P(Sx1)*P(Dx2)*P(Px3)*P(Nx4)*P(Yx5)}
P1=P(C1|Sx1Dx2Px3Nx4Yx5)=P(C1)*P(Sx1|C1)*P(Dx2|C1)*P(Px3|C1)*P(Nx4|C1)*P(Yx5|C1)/{P(Sx1)*P(Dx2)*P(Px3)*P(Nx4)*P(Yx5)}
P=P1/(P1+P0)
其中,
P(C0):样本库中的会话属于“非P2P”类型的概率;
P(C1):样本库中的会话属于“P2P”类型的概率;
Sx1,Dx2,Px3,Nx4,Yx5:分别代表五类特征对应的具体属性类型;
P(Sx1|C0):样本库中会话属于“非P2P”时,发生事件的Sx1(对应S0,S1,S2中的一个事件)概率;
P(C0|Sx1Dx2Px3Nx4Yx5):该会话属于“非P2P”类型的概率;
P(C1|Sx1Dx2Px3Nx4Yx5):该会话属于“P2P”类型的概率;
P为网络会话的分类概率。
比较P与P(C1)的大小,若P>P(C1),则该网络会话识别为P2P连接类型,反之若P<P(C1),则该网络会话识别为非P2P连接类型。
在完成判断该网络会话是否为P2P连接类型之后,将该网络包的五类特征属性以及该网络会话类型作为新的样本数据加入到样本库中,从而不断更新和完善样本库,为朴素贝叶斯分类算法提供基于实际应用环境的样本模型,提高预测的准确率。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
本发明所述基于朴素贝叶斯分类算法的P2P预测方法,其将网络包分为几类特征,特征之间相互独立,根据特征分类利用大量的P2P网络包和非P2P网络包数据建立输入为到达防火墙设备的网络包、输出为该包是否为P2P网络包判断结果的模型,从而将到达防火墙的网络包与特征分类进行匹配,以朴素贝叶斯算法为依据判断其是否为P2P网络包。本发明所述基于朴素贝叶斯分类算法的P2P预测方法能够提前预测网络包是否为P2P类型,从而对P2P流进行有效控制,减少P2P的高流量对防火墙设备的影响,同时也可以作为P2P识别的一种参考。
上面主要描述了一种基于朴素贝叶斯分类算法的P2P预测方法,下面将对一种基于朴素贝叶斯分类算法的P2P预测系统进行详细描述。
图3示出了本发明实施例提供一种基于朴素贝叶斯分类算法的P2P预测系统的一个实施例模块框图。如图3所示,所述一种基于朴素贝叶斯分类算法的P2P预测系统,所述基于朴素贝叶斯分类算法的P2P预测系统包括以下功能模块:
权重划分定义模块10,用于对网络包特征及属性进行五类划分,并定义特征属性的权重值;
五元组信息判断模块20,用于当网络包到达防火墙时建立网络会话,根据网络会话的五元组信息判断其传输层协议是否为TCP或UDP类型;
朴素贝叶斯判断模块30,用于在判断网络会话的传输层协议为TCP或UDP类型时,统计网络包的五类特征属性,根据朴素贝叶斯分类算法将网络会话的分类概率与样本库分类概率的比较,判断该网络会话是否为P2P连接类型。
图4是本发明一实施例提供的基于朴素贝叶斯分类算法的P2P预测方法的服务器结构的示意图。所述服务器为提供计算服务器的设备,通常指具有较高计算能力,通过网络提供给多个用户使用的计算机。如图4所示,该实施例的服务器4包括:存储器41、处理器42以及系统总线43,所述存储器41包括存储其上的可运行的程序411,本领域技术人员可以理解,图4中示出的终端设备结构并不构成对终端设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图4对终端设备的各个构成部件进行具体的介绍:
存储器41可用于存储软件程序以及模块,处理器42通过运行存储在存储器41的软件程序以及模块,从而执行终端的各种功能应用以及数据处理。存储器41可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据终端的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器41可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
在存储器41上包含基于智能指针的动态配置更新方法的可运行程序411,所述可运行程序411可以被分割成一个或多个模块/单元,所述一个或多个模块/单元被存储在所述存储器41中,并由处理器42执行,以完成通知的传递并获取通知实现过程,所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序411在所述服务器4中的执行过程。例如,所述计算机程序411可以被分割为获取模块、比对模块、拼接模块和发送模块。
处理器42是服务器的控制中心,利用各种接口和线路连接整个终端设备的各个部分,通过运行或执行存储在存储器41内的软件程序和/或模块,以及调用存储在存储器41内的数据,执行终端的各种功能和处理数据,从而对终端进行整体监控。可选的,处理器42可包括一个或多个处理单元;优选的,处理器42可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器42中。
系统总线43是用来连接计算机内部各功能部件,可以传送数据信息、地址信息、控制信息,其种类可以是例如PCI总线、ISA总线、VESA总线等。处理器42的指令通过总线传递至存储器41,存储器41反馈数据给处理器42,系统总线43负责处理器42与存储器41之间的数据、指令交互。当然系统总线43还可以接入其他设备,例如网络接口、显示设备等。
所述服务器应至少包括CPU、芯片组、内存、磁盘系统等,其他构成部件在此不再赘述。
在本发明实施例中,该终端所包括的处理器42执行的可运行程序具体为:一种基于朴素贝叶斯分类算法的P2P预测方法,所述基于朴素贝叶斯分类算法的P2P预测方法包括如下步骤:
步骤1.用户上行的网络包到达防火墙设备,建立网络会话,进入步骤2;
步骤2.判断该网络会话记录是否已存在,如果不存在,进入步骤3;如果存在,进入步骤9;
步骤3.记录该网络会话的五元组信息,进入步骤4;
步骤4.判断该网络会话的传输层协议是否为TCP或UDP类型,如果是,则进入步骤5,如果不是,则进入步骤10;
步骤5.统计网络包的五类特征属性,进入步骤6;
步骤6.根据朴素贝叶斯分类算法计算网络会话的分类概率P,与该会话属于“P2P”类型的概率P(C1),进入步骤7;
步骤7.比较P与P(C1)的大小,若P>P(C1),则该网络会话标记为P2P类型,反之若P<P(C1),则该网络会话标记为非P2P类型,进入步骤8;
步骤8.将该网络包的五类特征属性以及该网络会话类型作为新的样本数据加入到样本库中,进入步骤10;
步骤9.判断样本库中是否存在该网络会话的P2P连接类型,如果存在,则进入步骤10;如果不存在,则进入步骤4;
步骤10:结束。
以上装置实施例与方法实施例是一一对应的,装置实施例简略之处,参见方法实施例即可。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能性一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应超过本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机储存器、内存、只读存储器、电可编程ROM、电可檫除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其他形式的存储介质中。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

Claims (8)

1.一种基于朴素贝叶斯分类算法的P2P预测方法,其特征在于,所述基于朴素贝叶斯分类算法的P2P预测方法包括以下步骤:
S1、对网络包特征及属性进行五类划分,并定义特征属性的权重值;
S2、当网络包到达防火墙时建立网络会话,根据网络会话的五元组信息判断其传输层协议是否为TCP或UDP类型;
S3、在判断网络会话的传输层协议为TCP或UDP类型时,统计网络包的五类特征属性,根据朴素贝叶斯分类算法将网络会话的分类概率与样本库分类概率的比较,判断该网络会话是否为P2P连接类型;
所述网络包特征及属性的五类划分包括特征划分以及与特征对应的属性划分,具体划分如下:
第一特征划分:该用户所有会话五元组信息中,与该网络包的目的端口不同,源端口相同的会话个数;该特征对应的属性划分为:当会话个数为0时,当会话个数为1-2时,当会话个数大于等于3个时;
第二特征划分:网络包的目的端口;该特征对应的属性划分为:当网络包的目的端口为常用端口时、当网络包的目的端口为端口号0~1023时、当网络包的目的端口为端口号1024~8099时、当网络包的目的端口为端口号8100~65535时;
第三特征划分:网络包的协议类型;该特征对应的属性划分为:当网络包的协议类型为TCP时、当网络包的协议类型为UDP时;
第四特征划分:网络包到达时前3秒内的新建立的会话数;该特征对应的属性划分为:当新建立的会话次数为0~1次时,当新建立的会话次数为2~9次时,当新建立的会话次数为大于等于10次时;
第五特征划分:该用户是否连接已存在P2P会话;该特征对应的属性划分为:当该用户没有连接已存在P2P会话时、当该用户连接已存在P2P会话时;
所述朴素贝叶斯分类算法具体如下:
P0=P(C0|Sx1Dx2Px3Nx4Yx5)=P(C0)*P(Sx1|C0)*P(Dx2|C0)*P(Px3|C0)*P(Nx4|C0)*P(Yx5|C0)/{P(Sx1)*P(Dx2)*P(Px3)*P(Nx4)*P(Yx5)}
P1=P(C1|Sx1Dx2Px3Nx4Yx5)=P(C1)*P(Sx1|C1)*P(Dx2|C1)*P(Px3|C1)*P(Nx4|C1)*P(Yx5|C1)/{P(Sx1)*P(Dx2)*P(Px3)*P(Nx4)*P(Yx5)}
P=P1/(P1+P0)
其中,
P(C0):样本库中的会话属于“非P2P”类型的概率;
P(C1):样本库中的会话属于“P2P”类型的概率;
Sx1,Dx2,Px3,Nx4,Yx5:分别代表五类特征对应的具体属性类型;
P(Sx1|C0):样本库中会话属于“非P2P”时,发生事件的Sx1(对应S0,S1,S2中的一个事件)概率;
P(C0|Sx1Dx2Px3Nx4Yx5):该会话属于“非P2P”类型的概率;
P(C1|Sx1Dx2Px3Nx4Yx5):该会话属于“P2P”类型的概率;
P为网络会话的分类概率。
2.根据权利要求1所述基于朴素贝叶斯分类算法的P2P预测方法,其特征在于,在根据网络会话的五元组信息判断其传输层协议是否为TCP或UDP类型之前,需要判断建立的网络会话是否已经存在相应记录。
3.根据权利要求2所述基于朴素贝叶斯分类算法的P2P预测方法,其特征在于,在完成判断该网络会话是否为P2P连接类型之后,将该网络包的五类特征属性以及该网络会话类型写入样本库中。
4.根据权利要求3所述基于朴素贝叶斯分类算法的P2P预测方法,其特征在于,对于已经存在记录却没有写入样本库中的网络会话,需要重新判断该网络会话是否为P2P连接类型。
5.根据权利要求1所述基于朴素贝叶斯分类算法的P2P预测方法,其特征在于,所述根据朴素贝叶斯分类算法将网络会话的分类概率与样本库分类概率的比较,判断该网络会话是否为P2P连接类型具体包括:
比较P与P(C1)的大小,若P>P(C1),则该网络会话识别为P2P连接类型,反之若P<P(C1),则该网络会话识别为非P2P连接类型。
6.一种基于朴素贝叶斯分类算法的P2P预测系统,其特征在于,所述基于朴素贝叶斯分类算法的P2P预测系统包括以下功能模块:
权重划分定义模块,用于对网络包特征及属性进行五类划分,并定义特征属性的权重值;
五元组信息判断模块,用于当网络包到达防火墙时建立网络会话,根据网络会话的五元组信息判断其传输层协议是否为TCP或UDP类型;
朴素贝叶斯判断模块,用于在判断网络会话的传输层协议为TCP或UDP类型时,统计网络包的五类特征属性,根据朴素贝叶斯分类算法将网络会话的分类概率与样本库分类概率的比较,判断该网络会话是否为P2P连接类型;
所述网络包特征及属性的五类划分包括特征划分以及与特征对应的属性划分,具体划分如下:
第一特征划分:该用户所有会话五元组信息中,与该网络包的目的端口不同,源端口相同的会话个数;该特征对应的属性划分为:当会话个数为0时,当会话个数为1-2时,当会话个数大于等于3个时;
第二特征划分:网络包的目的端口;该特征对应的属性划分为:当网络包的目的端口为常用端口时、当网络包的目的端口为端口号0~1023时、当网络包的目的端口为端口号1024~8099时、当网络包的目的端口为端口号8100~65535时;
第三特征划分:网络包的协议类型;该特征对应的属性划分为:当网络包的协议类型为TCP时、当网络包的协议类型为UDP时;
第四特征划分:网络包到达时前3秒内的新建立的会话数;该特征对应的属性划分为:当新建立的会话次数为0~1次时,当新建立的会话次数为2~9次时,当新建立的会话次数为大于等于10次时;
第五特征划分:该用户是否连接已存在P2P会话;该特征对应的属性划分为:当该用户没有连接已存在P2P会话时、当该用户连接已存在P2P会话时;
所述朴素贝叶斯分类算法具体如下:
P0=P(C0|Sx1Dx2Px3Nx4Yx5)=P(C0)*P(Sx1|C0)*P(Dx2|C0)*P(Px3|C0)*P(Nx4|C0)*P(Yx5|C0)/{P(Sx1)*P(Dx2)*P(Px3)*P(Nx4)*P(Yx5)}
P1=P(C1|Sx1Dx2Px3Nx4Yx5)=P(C1)*P(Sx1|C1)*P(Dx2|C1)*P(Px3|C1)*P(Nx4|C1)*P(Yx5|C1)/{P(Sx1)*P(Dx2)*P(Px3)*P(Nx4)*P(Yx5)}
P=P1/(P1+P0)
其中,
P(C0):样本库中的会话属于“非P2P”类型的概率;
P(C1):样本库中的会话属于“P2P”类型的概率;
Sx1,Dx2,Px3,Nx4,Yx5:分别代表五类特征对应的具体属性类型;
P(Sx1|C0):样本库中会话属于“非P2P”时,发生事件的Sx1(对应S0,S1,S2中的一个事件)概率;
P(C0|Sx1Dx2Px3Nx4Yx5):该会话属于“非P2P”类型的概率;
P(C1|Sx1Dx2Px3Nx4Yx5):该会话属于“P2P”类型的概率;
P为网络会话的分类概率。
7.一种服务器,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述基于朴素贝叶斯分类算法的P2P预测方法的步骤。
8.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述基于朴素贝叶斯分类算法的P2P预测方法的步骤。
CN201811155397.6A 2018-09-30 2018-09-30 基于朴素贝叶斯分类算法的p2p预测方法及系统、服务器及介质 Active CN109327404B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811155397.6A CN109327404B (zh) 2018-09-30 2018-09-30 基于朴素贝叶斯分类算法的p2p预测方法及系统、服务器及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811155397.6A CN109327404B (zh) 2018-09-30 2018-09-30 基于朴素贝叶斯分类算法的p2p预测方法及系统、服务器及介质

Publications (2)

Publication Number Publication Date
CN109327404A CN109327404A (zh) 2019-02-12
CN109327404B true CN109327404B (zh) 2022-06-07

Family

ID=65265008

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811155397.6A Active CN109327404B (zh) 2018-09-30 2018-09-30 基于朴素贝叶斯分类算法的p2p预测方法及系统、服务器及介质

Country Status (1)

Country Link
CN (1) CN109327404B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109951327B (zh) * 2019-03-05 2021-08-20 南京信息职业技术学院 一种基于贝叶斯混合模型的网络故障数据合成方法
CN111432396B (zh) * 2020-03-09 2023-02-21 安徽继远软件有限公司 保障NB-IoT可靠性的eSIM卡网络的配置方法、系统及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102098346A (zh) * 2011-02-23 2011-06-15 北京邮电大学 一种在未知流量中识别p2p流媒体流量的方法
CN102833255A (zh) * 2012-08-31 2012-12-19 电子科技大学 基于时频分析的Skype语音流提取方法
CN103118078A (zh) * 2013-01-16 2013-05-22 周亚建 P2p流量的识别方法和设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8311956B2 (en) * 2009-08-11 2012-11-13 At&T Intellectual Property I, L.P. Scalable traffic classifier and classifier training system
US20180174066A1 (en) * 2016-12-21 2018-06-21 Wipro Limited System and method for predicting state of a project for a stakeholder

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102098346A (zh) * 2011-02-23 2011-06-15 北京邮电大学 一种在未知流量中识别p2p流媒体流量的方法
CN102833255A (zh) * 2012-08-31 2012-12-19 电子科技大学 基于时频分析的Skype语音流提取方法
CN103118078A (zh) * 2013-01-16 2013-05-22 周亚建 P2p流量的识别方法和设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于贝叶斯理论的网络流量分类研究;邱密;《中国优秀硕士学位论文全文数据库》;20091231;第1-40页 *
基于贝叶斯网络的Peer-to-Peer识别方法;李君等;《应用科学学报》;20090331;第27卷(第2期);全文 *

Also Published As

Publication number Publication date
CN109327404A (zh) 2019-02-12

Similar Documents

Publication Publication Date Title
CN106982230B (zh) 一种流量检测方法及系统
CN110138745B (zh) 基于数据流序列的异常主机检测方法、装置、设备及介质
CN107360032B (zh) 一种网络流识别方法及电子设备
WO2014177023A1 (zh) 业务类型确定方法和装置
CN109327404B (zh) 基于朴素贝叶斯分类算法的p2p预测方法及系统、服务器及介质
US10623450B2 (en) Access to data on a remote device
CN110944016B (zh) DDoS攻击检测方法、装置、网络设备及存储介质
CN112350956B (zh) 一种网络流量识别方法、装置、设备及机器可读存储介质
CN106776039A (zh) 一种数据处理方法及装置
CN115955347A (zh) 一种入侵防御规则处理方法、装置、设备及介质
CN114363212A (zh) 一种设备检测方法、装置、设备和存储介质
CN111405007B (zh) Tcp会话管理方法、装置、存储介质及电子设备
CN114972827A (zh) 资产识别方法、装置、设备及计算机可读存储介质
CN106817364B (zh) 一种暴力破解的检测方法及装置
CN113824797B (zh) 一种授课资源自适应同步方法及装置
CN113452714B (zh) 主机聚类方法及装置
CN114328619A (zh) 多要素数据匹配方法及装置
CN114567613A (zh) 一种真实ip识别方法、装置、电子设备及存储介质
CN113014555A (zh) 一种攻击事件的确定方法、装置、电子设备和存储介质
CN112532610A (zh) 一种基于tcp分段的入侵防御检测方法及装置
CN115396128A (zh) 恶意流量检测方法、装置、存储介质及电子设备
CN117424764B (zh) 系统资源访问请求信息处理方法、装置、电子设备和介质
CN110752958A (zh) 用户行为分析方法、装置、设备及存储介质
CN112202686B (zh) 一种差分流量控制的自适应接入识别方法及终端设备
CN113630385B (zh) 一种sdn网络下dos攻击防控方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant