CN102984076B - 流量业务类型识别方法和装置 - Google Patents
流量业务类型识别方法和装置 Download PDFInfo
- Publication number
- CN102984076B CN102984076B CN201210509385.5A CN201210509385A CN102984076B CN 102984076 B CN102984076 B CN 102984076B CN 201210509385 A CN201210509385 A CN 201210509385A CN 102984076 B CN102984076 B CN 102984076B
- Authority
- CN
- China
- Prior art keywords
- type
- service
- service data
- actual flow
- prior knowledge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 239000000284 extract Substances 0.000 claims abstract description 15
- 238000005516 engineering process Methods 0.000 claims description 42
- 230000000977 initiatory effect Effects 0.000 claims description 9
- 238000001514 detection method Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 5
- 238000012163 sequencing technique Methods 0.000 description 6
- 230000007547 defect Effects 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 241000219104 Cucurbitaceae Species 0.000 description 1
- 241001269238 Data Species 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Landscapes
- Telephonic Communication Services (AREA)
Abstract
本发明提供一种流量业务类型识别方法和装置。抽取用户的第一实际流量业务类型数据和第二实际流量业务类型数据;根据所述第一实际流量业务类型数据和马尔科夫模型,计算先验知识参数;根据所述第二实际流量业务类型数据和所述先验知识参数,计算先验知识影响因数;识别当前流量业务,获得至少一个业务类型的初步概率;根据所述业务类型的初步概率、所述先验知识参数和所述先验知识影响因数,获得至少一个业务类型的最终概率;以所述最终概率最大的业务类型作为当前流量业务的业务类型。采用本发明提供的流量业务类型识别方法和装置,能够提高流量业务类型识别的准确性。
Description
技术领域
本发明涉及通信技术,尤其涉及一种流量业务类型识别方法和装置。
背景技术
在互联网领域的多种应用中,均需要对流量业务的业务类型进行识别。目前,流量业务类型识别技术包括:深度包检测(Deep Packet Inspection,简称DPI)技术和深度流检测(Deep Flow Inspection,简称DFI)技术。
DPI是目前网络流量识别的主要方法。DPI基于深度包检测,通过对网络数据包的应用层数据进行内容检测,识别出各种应用层的协议。DFI基于数据流特征,通过分析会话连接流的数据包长度、连接速度、传输字节量、包与包之间的间隔等数据流特征,并与预先建立好的流量模型对比,实现应用层协议的识别。
现有的DPI和DFI等流量业务类型识别方式仅通过分析当前业务的数据包或当前数据流的特征进行业务类型的识别,流量业务类型识别结果存在一定错误。
发明内容
本发明的第一个方面是提供一种流量业务类型识别方法,用以解决现有技术中的缺陷,提高流量业务类型识别的准确性。
本发明的另一个方面是提供一种流量业务类型识别装置,用以解决现有技术中的缺陷,提高流量业务类型识别的准确性。
本发明的第一个方面是提供一种流量业务类型识别方法,包括:
抽取用户的第一实际流量业务类型数据和第二实际流量业务类型数据;
根据所述第一实际流量业务类型数据和马尔科夫模型,计算先验知识参数;
根据所述第二实际流量业务类型数据和所述先验知识参数,计算先验知识影响因数;
识别当前流量业务,获得至少一个业务类型的初步概率;
根据所述业务类型的初步概率、所述先验知识参数和所述先验知识影响因数,获得至少一个业务类型的最终概率;
以所述最终概率最大的业务类型作为当前流量业务的业务类型。
如上所述的方法,其中,所述根据所述第一实际流量业务类型数据和马尔科夫模型,计算先验知识参数包括:
根据P(α)=r*/N,r*=(r+1)(nr+1/nr),计算先验知识参数,其中,P(α)为先验知识参数,r为业务类型对应的组合的出现数量,nr为出现数量为r的全部组合的数量,nr+1为出现数量为r+1的全部组合的数量。
如上所述的方法,其中,所述根据所述第二实际流量业务类型数据和所述先验知识参数,计算先验知识影响因数包括:
采用通用业务类型识别技术识别所述第二实际流量业务类型数据对应的流量业务,获得至少一个业务类型的初步概率;
根据所述初步概率、所述先验知识参数和所述先验知识影响因数的猜想值,按照f(X)=P(X)+a·P(α),获得所述第二实际流量业务类型数据对应的流量业务的业务类型的识别结果,其中,f(X)为所述第二实际流量业务类型数据对应的流量业务的业务类型的识别结果,P(X)为所述初步概率,a为所述先验知识影响因数的猜想值,P(α)所述先验知识参数,根据所述第二实际流量业务类型数据对应的流量业务的业务类型的识别结果,与所述第二实际流量业务类型数据,调整所述先验知识影响因数的猜想值,以识别结果的准确率最高的猜想值作为计算获得的先验知识影响因数。
如上所述的方法,其中,所述抽取用户的第一实际流量业务类型数据和第二实际流量业务类型数据包括:针对不同的用户类型,抽取每一用户类型的用户的第一实际流量业务类型数据和第二实际流量业务类型数据;
所述根据所述第一实际流量业务类型数据和马尔科夫模型,计算先验知识参数包括:分别根据所述不同用户类型的用户的第一实际流量业务类型数据,计算不同用户类型对应的先验知识参数;
所述根据所述第二实际流量业务类型数据和所述先验知识参数,计算先验知识影响因数包括:分别根据所述不同用户类型的用户的第二实际流量业务类型数据和相应用户类型对应的先验知识参数,计算不同用户类型对应的先验知识影响因数;
所述根据所述业务类型的初步概率、所述先验知识参数和所述先验知识影响因数,获得至少一个业务类型的最终概率之前,还包括:根据发起当前流量业务的用户对应的用户类型,选择相同用户类型对应的初步概率、相同用户类型对应的先验知识参数和相同用户类型对应的先验知识影响因数。
如上所述的方法,其中,所述识别当前流量业务,获得至少一个业务类型的初步概率包括:
采用深度包检测DPI技术或深度流检测DFI技术识别当前流量业务,获得至少一个业务类型的初步概率。
本发明的另一个方面是提供一种流量业务类型识别装置,包括:
抽取单元,用于抽取用户的第一实际流量业务类型数据和第二实际流量业务类型数据;
第一计算单元,用于根据所述第一实际流量业务类型数据和马尔科夫模型,计算先验知识参数;
第二计算单元,用于根据所述第二实际流量业务类型数据和所述先验知识参数,计算先验知识影响因数;
第一识别单元,用于识别当前流量业务,获得至少一个业务类型的初步概率;
第二识别单元,用于根据所述业务类型的初步概率、所述先验知识参数和所述先验知识影响因数,获得至少一个业务类型的最终概率;
判断单元,用于以所述最终概率最大的业务类型作为当前流量业务的业务类型。
如上所述的装置,其中,所述第一计算单元具体用于根据P(α)=r*/N,r*=(r+1)(nr+1/nr),计算先验知识参数,其中,P(α)为先验知识参数,r为业务类型对应的组合的出现数量,nr为出现数量为r的全部组合的数量,nr+1为出现数量为r+1的全部组合的数量。
如上所述的装置,其中,所述第二计算单元具体用于采用通用业务类型识别技术识别所述第二实际流量业务类型数据对应的流量业务,获得至少一个业务类型的初步概率,根据所述初步概率、所述先验知识参数和所述先验知识影响因数的猜想值,按照f(X)=P(X)+a·P(α),获得所述第二实际流量业务类型数据对应的流量业务的业务类型的识别结果,其中,f(X)为所述第二实际流量业务类型数据对应的流量业务的业务类型的识别结果,P(X)为所述初步概率,a为所述先验知识影响因数的猜想值,P(α)所述先验知识参数,根据所述第二实际流量业务类型数据对应的流量业务的业务类型的识别结果,与所述第二实际流量业务类型数据,调整所述先验知识影响因数的猜想值,以识别结果的准确率最高的猜想值作为计算获得的先验知识影响因数。
如上所述的装置,其中,所述抽取单元具体用于针对不同的用户类型,抽取每一个用户类型的用户的实际流量业务类型数据;
所述第一计算单元具体用于分别根据所述不同用户类型的用户的第一实际流量业务类型数据,计算不同用户类型对应的先验知识参数;
所述第二计算单元具体用于分别根据所述不同用户类型的用户的第二实际流量业务类型数据和相应用户类型对应的先验知识参数,计算不同用户类型对应的先验知识影响因数;
所述装置还包括:识别参数选择单元,用于根据发起当前流量业务的用户对应的用户类型,选择相同用户类型对应的初步概率、相同用户类型对应的先验知识参数和相同用户类型对应的先验知识影响因数并发送给所述第二识别单元。
如上所述的装置,其中,所述第一识别单元具体用于采用深度包检测DPI技术或深度流检测DFI技术识别当前流量业务,获得至少一个业务类型的初步概率。
由上述发明内容可见,通过抽取用户的第一实际流量业务类型数据和第二实际流量业务类型数据,根据所述第一实际流量业务类型数据和马尔科夫模型,计算先验知识参数,并根据所述第二实际流量业务类型数据和所述先验知识参数,计算先验知识影响因数,在进行业务类型识别时,先采用通用业务类型识别技术识别当前流量业务,获得至少一个业务类型的初步概率,再根据所述业务类型的初步概率、所述先验知识参数和所述先验知识影响因数,获得至少一个业务类型的最终概率,以所述最终概率最大的业务类型作为当前流量业务的业务类型。在进行流量业务识别的过程中,通过采用马尔科夫模型与通用业务类型识别技术结合,从而在计算业务类型的概率时,在根据数据包或数据流的特征等因素计算业务类型概率的基础上,还采用马尔科夫模型将与各个业务类型之间的先后顺序规律相关的概率因素结合进来,与仅根据数据包或数据流的特征进行识别的现有技术相比,流量业务类型识别的准确性更高。
附图说明
图1为本发明实施例一的流量业务类型识别方法的流程图;
图2为本发明实施例二的流量业务类型识别方法的流程图;
图3为本发明实施例三的流量业务类型识别装置的结构示意图。
具体实施方式
在实际中,用户在使用流量业务时,有可能存在一定的使用习惯,导致业务类型出现的先后顺序具有一定规律。例如:用户习惯于在每天固定时间开启即时通信业务,然后进行网页浏览,然后发送邮件,则导致网页浏览业务类型出现在即时通信业务类型之后的概率大于其出现在其它业务类型之后的概率,邮件业务类型出现在网页浏览业务类型之后的概率大于其出现在其它业务类型之后的概率。在本发明实施例中,采用n-1阶马尔科夫模型来描述业务类型的先后顺序规律,其中,n-1为马尔科夫模型的阶数。根据马尔科夫模型理论,第n个业务类型的概率只与前面的n-1个业务类型有关。
图1为本发明实施例一的流量业务类型识别方法的流程图。如图1所示,该方法包括如下过程。
步骤101:抽取用户的第一实际流量业务类型数据和第二实际流量业务类型数据。
步骤102:根据所述第一实际流量业务类型数据和马尔科夫模型,计算先验知识参数。
步骤103:根据所述第二实际流量业务类型数据和所述先验知识参数,计算先验知识影响因数。
步骤104:识别当前流量业务,获得至少一个业务类型的初步概率。
步骤105:根据所述业务类型的初步概率、所述先验知识参数和所述先验知识影响因数,获得至少一个业务类型的最终概率。
步骤106:以所述最终概率最大的业务类型作为当前流量业务的业务类型。
在本发明实施例一中,通过抽取用户的第一实际流量业务类型数据和第二实际流量业务类型数据,根据所述第一实际流量业务类型数据和马尔科夫模型,计算先验知识参数,并根据所述第二实际流量业务类型数据和所述先验知识参数,计算先验知识影响因数,在进行业务类型识别时,先采用通用业务类型识别技术识别当前流量业务,获得至少一个业务类型的初步概率,再根据所述业务类型的初步概率、所述先验知识参数和所述先验知识影响因数,获得至少一个业务类型的最终概率,以所述最终概率最大的业务类型作为当前流量业务的业务类型。在进行流量业务识别的过程中,通过采用马尔科夫模型与通用业务类型识别技术结合,从而在计算业务类型的概率时,在根据数据包或数据流的特征等因素计算业务类型概率的基础上,还采用马尔科夫模型将与各个业务类型之间的先后顺序规律相关的概率因素结合进来,与仅根据数据包或数据流的特征进行识别的现有技术相比,流量业务类型识别的准确性更高。
图2为本发明实施例二的流量业务类型识别方法的流程图。如图2所示,方法包括如下过程。
步骤201:抽取用户的第一实际流量业务类型数据和第二实际流量业务类型数据。
在本步骤中,在本发明实施例中,在对当前流量业务进行识别之前,先建立马尔科夫模型,即先验知识模型。该模型用于辅助通用的业务类型识别技术,因此,该模型使用的业务类型应与通用的业务类型一致。例如:将移动业务类型分为以下8类:邮件、网页浏览、即时通信(简称IM)、流媒体、网络电话(简称VOIP)、彩信、文件传输、点对点业务(简称P2P)。
为建立上述模型,首先需要抽取用户的第一实际流量业务类型数据和第二实际流量类型数据,将第一实际流量业务类型数据作为训练数据生成马尔科夫模型的先验知识参数,将第二实际流量业务类型数据作为训练数据生成马尔科夫模型的先验知识影响因数根据先验知识参数和先验知识影响因数建立马尔科夫模型。
第一实际流量业务类型数据和第二实际流量业务类型数据均为根据用户的实际使用记录获得的数据,均准确记录了用户的流量业务的业务类型,在本发明实施例中,对第一实际流量业务类型数据和第二实际流量业务类型数据的表现形式和抽取方式均不做限制。
例如:在抽取第一实际流量业务类型数据时,抽取实际记录中的多个用户一天的业务使用情况,作为第一实际流量业务类型数据,抽取结果参见表1。表1为用户的第一实际流量业务类型数据表。
表1.用户的第一实际流量业务类型数据表
例如,在抽取第二实际流量业务类型数据时,使用若干手机卡或者上网卡,在终端设备上进行各种流量业务类型的操作,记录所使用的业务类型、使用时间等信息,根据记录的使用时间等信息,在运营商的上网记录查询系统中查询对应的手机卡或者上网卡的上网记录,为每条上网记录添加业务类型标签。在一种实现方式中,抽取第二实际流量业务类型数据的步骤也可以在执行完下述步骤202之后执行。
不同用户的上网使用习惯不同,所使用的网络业务类型也不同,因此在抽取训练数据时,要涵盖不同类型的用户,训练数据量在可允许的范围内越大越好。
在步骤201之后,根据所述第一实际流量业务类型数据和马尔科夫模型,计算先验知识参数,该过程可以包括如下步骤202。
步骤202:根据马尔科夫模型,计算先验知识参数。
在本步骤中,根据马尔科夫模型,计算先验知识参数。根据马尔科夫模型,可以根据P(α)=r*/N,r*=(r+1)(nr+1/nr),计算先验知识参数,其中,P(α)为先验知识参数,r为业务类型对应的组合的出现数量,nr为出现数量为r的全部组合的数量,nr+1为出现数量为r+1的全部组合的数量。
以下对马尔科夫模型的理论进行简要介绍。以Wi表示移动互联网流量所使用的第i个业务类型,以S=W1,W2,…,WK表示业务类型序列。业务类型序列的概率可以表示为:
P(S)=P(W1,W2,…,Wk)=P(W1)P(W2|W1)…P(Wk|W1,W2,…,Wk-1)
其中,i=1,…k,k为业务类型总数。上式中的参数过多,采用n-1阶马尔科夫模型来近似。n-1阶马尔科夫模型有一个有限的历史假设:当前业务类型出现的概率仅仅与前面出现的n-1个业务类型相关,因此,上式可以近似为:
其中,n-1为马尔科夫模型的阶数。
如果业务类型的数量为k个,那么根据n-1阶马尔科夫模型,计算的先验知识参数的数量为kn个。例如,以上文提到的业务类型的数量为8个,以15阶马尔科夫模型为例,先验知识的参数的数量为2.8×1014个。
采用抽取的第一实际流量业务类型数据作为训练数据,通过训练获得该模型中的先验知识参数。以当前业务类型与前面出现的n-1个业务类型中的任意一个或几个进行组合,以每一种组合情况作为一个业务类型组合。在训练模型时,由于获取的训练数据在分布上会有一定的局限性,许多业务类型组合很可能不会出现在训练数据中,则未出现的业务类型组合的概率为零,即存在数据稀疏问题,而且随着业务类型数量和模型阶数的提升,模型的状态转移空间呈指数式增长,数据的稀疏问题也就会变得越来越严重。
可以使用古德-图灵(Good-Touring)平滑估计算法解决数据稀疏问题。首先,计算r*=(r+1)(nr+1/nr),其中,r为业务类型对应的组合的出现数量,nr为出现数量为r的全部组合的数量,nr+1为出现数量为r+1的全部组合的数量。通过这个模型,以α表示某个业务类型组合,为了得到业务类型组合的产生概率,对该业务类型组合的出现次数做归一化表达,即:P(α)=r*/N,其中,N为全部业务类型组合的数量,
以下仅以具有3个业务类型的2阶马尔科夫模型为例,该3个业务类型以即时通信(IM)、邮件(Email)和P2P为例。采用2阶马尔科夫模型,得到27个先验知识参数,如下:
P(IM|Email,P2P),P(IM|Email,IM),P(IM|Email,Email),
P(IM|IM,Email),P(IM|IM,P2P),P(IM|IM,IM),
P(IM|P2P,Email),P(IM|P2P,IM),P(IM|P2P,P2P),
P(Email|Email,P2P),P(Email|Email,IM),P(Email|Email,Email),
P(Email|IM,Email),P(Email|IM,P2P),P(Email|IM,IM),
P(Email|P2P,Email),P(Email|P2P,IM),P(Email|P2P,P2P),
P(P2P|Email,P2P),P(P2P|Email,IM),P(P2P|Email,Email),
P(P2P|IM,Email),P(P2P|IM,P2P),P(P2P|IM,IM),
P(P2P|P2P,Email),P(P2P|P2P,IM),P(P2P|P2P,P2P),
预先计算并存储上述27个先验知识参数,以供实际对当前流量业务进行识别时使用。
在步骤202之后,根据所述第二实际流量业务类型数据和所述先验知识参数,计算先验知识影响因数,该过程可以包括如下步骤203和步骤204。
步骤203:采用通用业务类型识别技术识别所述第二实际流量业务类型数据对应的流量业务,获得至少一个业务类型的初步概率。
在本步骤中,采用通用业务类型识别技术识别所述第二实际流量业务类型数据对应的流量业务,获得至少一个业务类型的初步概率。本发明实施例中对采用的通用业务类型识别技术不做限制,任何可以对流量业务进行业务类型识别的技术均可采用,例如:DPI技术、DFI技术等等。在本发明实施例中,采用上述通用业务类型识别技术,识别第二实际流量业务类型数据对应的流量业务,获得至少一个业务类型的初步概率。
步骤204:根据所述初步概率、所述第二实际流量业务类型数据、所述先验知识参数,计算所述先验知识影响因数。
在本步骤中,根据所述初步概率、所述第二实际流量业务类型数据、所述先验知识参数,计算所述先验知识影响因数。第一步:根据所述初步概率、所述先验知识参数和所述先验知识影响因数的猜想值,对实际流量业务类型数据对应的流量业务进行识别,获得业务类型的识别结果。具体地,对于一个流量业务,可以按照公式f(X)=P(X)+a·P(α)计算该流量业务可能属于每种业务类型的概率,以f(X)最大的业务类型作为识别结果。在上式中,对于一个业务类型,f(X)为该业务类型的概率,P(X)为该业务类型的初步概率,a为先验知识影响因数,在本步骤计算时,采用先验知识影响因数的猜想值,P(α)为先验知识参数。第二步:由于实际流量业务类型数据为业务类型的实际结果,因此,在获得业务类型的识别结果之后,根据业务类型的识别结果和业务类型的实际结果,调整所述先验知识影响因数的猜想值,采用多个流量业务的识别结果与实际结果进行反复调整,以识别结果的准确率最高的猜想值作为计算获得的先验知识影响因数。
在执行完步骤201中步骤204之后,完成了马尔科夫模型的建立,获得了马尔科夫模型中的先验知识参数和先验知识影响因数。接下来,可以采用上述模型结合通用业务类型识别技术,对待识别的当前流量业务进行业务类型识别,该识别过程可以包括以下步骤205至步骤207。
步骤205:采用通用业务类型识别技术识别当前流量业务,获得至少一个业务类型的初步概率。
在本步骤中,采用通用业务类型识别技术识别当前流量业务,获得至少一个业务类型的初步概率。本发明实施例中对采用的通用业务类型识别技术不做限制,任何可以对流量业务进行业务类型识别的技术均可采用,例如:DPI技术、DFI技术等等。在本发明实施例中,采用上述通用业务类型识别技术,识别当前流量业务,获得至少一个业务类型的初步概率。
仍以具有3个业务类型的情况为例,该3个业务类型以即时通信(IM)、邮件(Email)和P2P为例。例如:采用通用业务类型识别技术,例如采用DPI技术,识别当前流量业务,分别获得上述3个业务类型的初步概率:
P(P2P)=0.3
P(IM)=0.3
P(Email)=0.4
如果按照现有技术,仅采用通用业务类型识别技术,则根据上述初步概率,当前业务的业务类型识别结果为Email。在本发明实施例中,在获得业务类型的初步概率之后,并不直接根据初步概率得到当前业务的业务类型识别结果,而是继续执行步骤206。
步骤206:根据所述业务类型的初步概率、所述先验知识参数和所述先验知识影响因数,获得至少一个业务类型的最终概率。
在本步骤中,根据所述业务类型的初步概率、所述先验知识参数和所述先验知识影响因数,按照公式F(X)=P(X)+a·P(α),计算获得至少一个业务类型的最终概率,其中,对于一个业务类型,F(X)为该业务类型的最终概率,P(X)为该业务类型的初步概率,a为先验知识影响因数,P(α)先验知识参数。
仍以上述具有3个业务类型的情况为例,在步骤205中获得上述3个业务类型的初步概率之后,继续分别计算上述3个业务类型的最终概率,包括:
以a=0.3,P(P2P|IM,P2P)=0.5,P(IM|IM,P2P)=0.2,P(Email|IM,P2P)=0.3为例,
F(P2P)=P(P2P)+a·P(P2P|IM,P2P)=0.3+0.6·0.5=0.6
F(IM)=P(IM)+a·P(IM|IM,P2P)=0.3+0.6·0.2=0.42
F(Email)=P(Email)+a·P(Email|IM,P2P)=0.4+0.6·0.3=0.58
步骤207:以所述最终概率最大的业务类型作为当前流量业务的业务类型。
在本步骤中,根据最终概率判断流量业务的业务类型,以最终概率最大的业务类型作为当前流量业务的业务类型。仍以上述具有3个业务类型的情况为例,根据步骤206中获得的上述3个业务类型的最终概率,最终概率最大的业务类型为P2P业务,则判断当前流量业务的业务类型为P2P业务。由此可见,本发明实施例通过结合马尔科夫模型的先验知识,能够纠正通用业务识别技术的识别错误。
在本发明实施例二中,在进行流量业务识别的过程中,通过采用马尔科夫模型与通用业务类型识别技术结合,从而在计算业务类型的概率时,在根据数据包或数据流的特征等因素计算业务类型概率的基础上,还采用马尔科夫模型将与各个业务类型之间的先后顺序规律相关的概率因素结合进来,与仅根据数据包或数据流的特征进行识别的现有技术相比,流量业务类型识别的准确性更高。
并且,在上述本发明实施一和本发明实施例二的技术方案的基础上,进一步地,可以针对不同类型的用户获得不通的马尔科夫模型,在对当前流量业务进行业务类型识别时,根据发起当前流量业务的用户对应的用户类型,选择相同类型的马尔科夫模型进行识别。具体地,在上述本发明实施例一的步骤101或本发明实施例二的步骤201中,针对不同用户类型,抽取每一用户类型的用户的第一实际流量业务类型数据和第二实际流量业务类型数据。在上述本发明实施例一的步骤102或本发明实施例二的步骤202中,分别根据所述不同用户类型的用户的第一实际流量业务类型数据,计算不同用户类型对应的先验知识参数。在上述本发明实施例一的步骤103或本发明实施例二的步骤203至步骤204中,分别根据所述不同用户类型的用户的第二实际流量业务类型数据和相应用户类型对应的先验知识参数,计算不同用户类型对应的先验知识影响因数。在上述本发明实施例一的步骤105或本发明实施例二的步骤206之前,先根据发起当前流量业务的用户对应的用户类型,选择相同用户类型对应的初步概率、相同用户类型对应的先验知识参数和相同用户类型对应的先验知识影响因数,然后再执行本发明实施例一的步骤105或本发明实施例二的步骤206,从而实现采用与根据不同的用户类型,采用不同的马尔科夫模型进行业务类型识别。根据网络使用习惯,可以将用户分为5种用户类型,包括:商务人士、微博达人、即时通信爱好者、网页浏览爱好者、普通用户。针对这5类不同的用户分别抽取不同的训练数据,训练得到5个不同的马尔科夫模型,即先验知识模型。在对当前流量业务进行业务类型识别的时候,根据发起当前流量业务的用户的类型,例如,发起当前流量业务的用户属于商务人士、微博达人、即时通信爱好者、网页浏览爱好者或普通用户,根据不同的用户类型,使用对应的先验知识模型,从而进一步地提高业务类型识别的准确性。
图3为本发明实施例三的流量业务类型识别装置的结构示意图。如图3所示,该装置中包括:抽取单元31、第一计算单元32、第二计算单元33、第一识别单元34、第二识别单元35和判断单元36。
其中,抽取单元31用于抽取用户的第一实际流量业务类型数据和第二实际流量业务类型数据。
第一计算单元32用于根据所述第一实际流量业务类型数据和马尔科夫模型,计算先验知识参数。
第二计算单元33用于根据所述第二实际流量业务类型数据和所述先验知识参数,计算先验知识影响因数。
第一识别单元34用于采用通用业务类型识别技术识别当前流量业务,获得至少一个业务类型的初步概率。
第二识别单元35用于根据所述业务类型的初步概率、所述先验知识参数和所述先验知识影响因数,获得至少一个业务类型的最终概率。
判断单元36用于以所述最终概率最大的业务类型作为当前流量业务的业务类型。
在上述技术方案的基础上,具体地,第一计算单元32具体用于根据P(α)=r*/N,r*=(r+1)(nr+1/nr),计算先验知识参数,其中,P(α)为先验知识参数,r为业务类型对应的组合的出现数量,nr为出现数量为r的全部组合的数量,nr+1为出现数量为r+1的全部组合的数量。
在上述技术方案的基础上,具体地,第二计算单元33具体用于采用通用业务类型识别技术识别所述第二实际流量业务类型数据对应的流量业务,获得至少一个业务类型的初步概率,根据所述初步概率、所述先验知识参数和所述先验知识影响因数的猜想值,按照f(X)=P(X)+a·P(α),获得所述第二实际流量业务类型数据对应的流量业务的业务类型的识别结果,其中,f(X)为所述第二实际流量业务类型数据对应的流量业务的业务类型的识别结果,P(X)为所述初步概率,a为所述先验知识影响因数的猜想值,P(α)所述先验知识参数,根据所述第二实际流量业务类型数据对应的流量业务的业务类型的识别结果,与所述第二实际流量业务类型数据,调整所述先验知识影响因数的猜想值,以识别结果的准确率最高的猜想值作为计算获得的先验知识影响因数。
在上述技术方案的基础上,具体地,所述抽取单元31具体用于针对不同用户类型,抽取每一个用户类型的用户的第一实际流量业务类型数据和第二实际流量业务类型数据。相应地,所述第一计算单元32具体用于分别根据所述不同用户类型的用户的第一实际流量业务类型数据,计算不同用户类型对应的先验知识参数。相应地,所述第二计算单元33具体用于分别根据所述不同用户类型的用户的第二实际流量业务类型数据和相应用户类型对应的先验知识参数,计算不同用户类型对应的先验知识影响因数;相应地,所述装置还包括:识别参数选择单元37,用于根据发起当前流量业务的用户对应的用户类型,选择相同用户类型对应的初步概率、相同用户类型对应的先验知识参数和相同用户类型对应的先验知识影响因数并发送给所述第二识别单元35。
在本发明实施例三中,通过抽取单元抽取用户的第一实际流量业务类型数据和第二实际流量业务类型数据,第一计算单元根据所述第一实际流量业务类型数据和马尔科夫模型,计算先验知识参数,并且第二计算单元根据所述第二实际流量业务类型数据和所述先验知识参数,计算先验知识影响因数。在进行业务类型识别时,先由第一识别单元采用通用业务类型识别技术识别当前流量业务,获得至少一个业务类型的初步概率,再由第二识别单元根据所述业务类型的初步概率、所述先验知识参数和所述先验知识影响因数,获得至少一个业务类型的最终概率,判断单元以所述最终概率最大的业务类型作为当前流量业务的业务类型。在进行流量业务识别的过程中,通过采用马尔科夫模型与通用业务类型识别技术结合,从而在计算业务类型的概率时,在根据数据包或数据流的特征等因素计算业务类型概率的基础上,还采用马尔科夫模型将与各个业务类型之间的先后顺序规律相关的概率因素结合进来,与仅根据数据包或数据流的特征进行识别的现有技术相比,流量业务类型识别的准确性更高。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (6)
1.一种流量业务类型识别方法,其特征在于,包括:
抽取用户的第一实际流量业务类型数据和第二实际流量业务类型数据;
根据所述第一实际流量业务类型数据和马尔科夫模型,计算先验知识参数;
根据所述第二实际流量业务类型数据和所述先验知识参数,计算先验知识影响因数;
识别当前流量业务,获得至少一个业务类型的初步概率;
根据所述业务类型的初步概率、所述先验知识参数和所述先验知识影响因数,获得至少一个业务类型的最终概率;
以所述最终概率最大的业务类型作为当前流量业务的业务类型;
其中,所述根据所述第一实际流量业务类型数据和马尔科夫模型,计算先验知识参数包括:
根据P(α)=r*/N,r*=(r+1)(nr+1/nr),计算先验知识参数,其中,P(α)为先验知识参数,r为业务类型对应的组合的出现数量,nr为出现数量为r的全部组合的数量,nr+1为出现数量为r+1的全部组合的数量;
所述根据所述第二实际流量业务类型数据和所述先验知识参数,计算先验知识影响因数包括:
采用通用业务类型识别技术识别所述第二实际流量业务类型数据对应的流量业务,获得至少一个业务类型的初步概率;
根据所述初步概率、所述先验知识参数和所述先验知识影响因数的猜想值,按照f(X)=P(X)+a·P(α),获得所述第二实际流量业务类型数据对应的流量业务的业务类型的识别结果,其中,f(X)为所述第二实际流量业务类型数据对应的流量业务的业务类型的识别结果,P(X)为所述初步概率,a为所述先验知识影响因数的猜想值,P(α)所述先验知识参数,根据所述第二实际流量业务类型数据对应的流量业务的业务类型的识别结果,与所述第二实际流量业务类型数据,调整所述先验知识影响因数的猜想值,以识别结果的准确率最高的猜想值作为计算获得的先验知识影响因数。
2.根据权利要求1所述的方法,其特征在于,
所述抽取用户的第一实际流量业务类型数据和第二实际流量业务类型数据包括:针对不同的用户类型,抽取每一用户类型的用户的第一实际流量业务类型数据和第二实际流量业务类型数据;
所述根据所述第一实际流量业务类型数据和马尔科夫模型,计算先验知识参数包括:分别根据所述不同用户类型的用户的第一实际流量业务类型数据,计算不同用户类型对应的先验知识参数;
所述根据所述第二实际流量业务类型数据和所述先验知识参数,计算先验知识影响因数包括:分别根据所述不同用户类型的用户的第二实际流量业务类型数据和相应用户类型对应的先验知识参数,计算不同用户类型对应的先验知识影响因数;
所述根据所述业务类型的初步概率、所述先验知识参数和所述先验知识影响因数,获得至少一个业务类型的最终概率之前,还包括:根据发起当前流量业务的用户对应的用户类型,选择相同用户类型对应的初步概率、相同用户类型对应的先验知识参数和相同用户类型对应的先验知识影响因数。
3.根据权利要求1所述的方法,其特征在于,所述识别当前流量业务,获得至少一个业务类型的初步概率包括:
采用深度包检测DPI技术或深度流检测DFI技术识别当前流量业务,获得至少一个业务类型的初步概率。
4.一种流量业务类型识别装置,其特征在于,包括:
抽取单元,用于抽取用户的第一实际流量业务类型数据和第二实际流量业务类型数据;
第一计算单元,用于根据所述第一实际流量业务类型数据和马尔科夫模型,计算先验知识参数;
第二计算单元,用于根据所述第二实际流量业务类型数据和所述先验知识参数,计算先验知识影响因数;
第一识别单元,用于识别当前流量业务,获得至少一个业务类型的初步概率;
第二识别单元,用于根据所述业务类型的初步概率、所述先验知识参数和所述先验知识影响因数,获得至少一个业务类型的最终概率;
判断单元,用于以所述最终概率最大的业务类型作为当前流量业务的业务类型;
其中,所述第一计算单元具体用于根据P(α)=r*/N,r*=(r+1)(nr+1/nr),计算先验知识参数,其中,P(α)为先验知识参数,r为业务类型对应的组合的出现数量,nr为出现数量为r的全部组合的数量,nr+1为出现数量为r+1的全部组合的数量;
所述第二计算单元具体用于采用通用业务类型识别技术识别所述第二实际流量业务类型数据对应的流量业务,获得至少一个业务类型的初步概率,根据所述初步概率、所述先验知识参数和所述先验知识影响因数的猜想值,按照f(X)=P(X)+a·P(α),获得所述第二实际流量业务类型数据对应的流量业务的业务类型的识别结果,其中,f(X)为所述第二实际流量业务类型数据对应的流量业务的业务类型的识别结果,P(X)为所述初步概率,a为所述先验知识影响因数的猜想值,P(α)所述先验知识参数,根据所述第二实际流量业务类型数据对应的流量业务的业务类型的识别结果,与所述第二实际流量业务类型数据,调整所述先验知识影响因数的猜想值,以识别结果的准确率最高的猜想值作为计算获得的先验知识影响因数。
5.根据权利要求4所述的装置,其特征在于,
所述抽取单元具体用于针对不同的用户类型,抽取每一个用户类型的用户的实际流量业务类型数据;
所述第一计算单元具体用于分别根据所述不同用户类型的用户的第一实际流量业务类型数据,计算不同用户类型对应的先验知识参数;
所述第二计算单元具体用于分别根据所述不同用户类型的用户的第二实际流量业务类型数据和相应用户类型对应的先验知识参数,计算不同用户类型对应的先验知识影响因数;
所述装置还包括:识别参数选择单元,用于根据发起当前流量业务的用户对应的用户类型,选择相同用户类型对应的初步概率、相同用户类型对应的先验知识参数和相同用户类型对应的先验知识影响因数并发送给所述第二识别单元。
6.根据权利要求4所述的装置,其特征在于,
所述第一识别单元具体用于采用深度包检测DPI技术或深度流检测DFI技术识别当前流量业务,获得至少一个业务类型的初步概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210509385.5A CN102984076B (zh) | 2012-12-03 | 2012-12-03 | 流量业务类型识别方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210509385.5A CN102984076B (zh) | 2012-12-03 | 2012-12-03 | 流量业务类型识别方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102984076A CN102984076A (zh) | 2013-03-20 |
CN102984076B true CN102984076B (zh) | 2015-08-26 |
Family
ID=47857834
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210509385.5A Active CN102984076B (zh) | 2012-12-03 | 2012-12-03 | 流量业务类型识别方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102984076B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103281158B (zh) * | 2013-05-13 | 2016-01-06 | 昊优明镝(天津)科技有限公司 | 深度网络通信粒度检测方法及其检测设备 |
CN107819646A (zh) * | 2017-10-23 | 2018-03-20 | 国网冀北电力有限公司信息通信分公司 | 一种分布式传输的网络流量分类系统和方法 |
CN108183834B (zh) * | 2017-12-04 | 2019-05-21 | 中国联合网络通信集团有限公司 | 一种基于dfi和dpi的网络流量管控方法及管控系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101345704A (zh) * | 2008-08-15 | 2009-01-14 | 南京邮电大学 | 基于支持向量机的对等网络流量检测方法 |
CN101841440A (zh) * | 2010-04-30 | 2010-09-22 | 南京邮电大学 | 基于支持向量机与深层包检测的对等网络流量识别方法 |
WO2011114060A2 (fr) * | 2010-03-17 | 2011-09-22 | Thales | Procédé d'identification d'un protocole à l'origine d'un flux de données |
-
2012
- 2012-12-03 CN CN201210509385.5A patent/CN102984076B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101345704A (zh) * | 2008-08-15 | 2009-01-14 | 南京邮电大学 | 基于支持向量机的对等网络流量检测方法 |
WO2011114060A2 (fr) * | 2010-03-17 | 2011-09-22 | Thales | Procédé d'identification d'un protocole à l'origine d'un flux de données |
CN101841440A (zh) * | 2010-04-30 | 2010-09-22 | 南京邮电大学 | 基于支持向量机与深层包检测的对等网络流量识别方法 |
Non-Patent Citations (2)
Title |
---|
"基于隐马尔可夫模型的协议识别技术";何中阳 等;《信息工程大学学报》;20111031;全文 * |
"基于隐马尔科夫模型的P2P流识别技术";许博 等;《通信学报》;20120630;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN102984076A (zh) | 2013-03-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103117903B (zh) | 上网流量异常检测方法及装置 | |
CN100499938C (zh) | 短消息拆分提示方法及装置 | |
CN103188139B (zh) | 一种推荐朋友的信息展示方法和装置 | |
CN103501374A (zh) | 电话簿排序方法及装置、终端 | |
CN103580919B (zh) | 一种利用邮件服务器日志进行邮件用户标记的方法与系统 | |
CN110689084B (zh) | 一种异常用户识别方法及装置 | |
CN111667316B (zh) | 一种业务处理方法、装置及系统 | |
CN102984076B (zh) | 流量业务类型识别方法和装置 | |
CN107294974A (zh) | 识别目标团伙的方法和装置 | |
CN104052714A (zh) | 多媒体信息的推送方法及服务器 | |
CN104123324A (zh) | 一种未读消息的定位获取方法及装置 | |
CN105630849A (zh) | 表情图像推荐系统及其方法 | |
CN105989107A (zh) | 一种应用推荐方法及装置 | |
CN106411683B (zh) | 一种关键社交信息的确定方法及装置 | |
CN110913354A (zh) | 短信分类方法、装置及电子设备 | |
CN110689357B (zh) | 基于机器学习的用于在线客服的工单生成方法 | |
CN103905507A (zh) | 一种业务信息推荐系统及业务信息推荐方法 | |
CN112765364A (zh) | 群聊会话排序方法、装置、存储介质和电子设备 | |
CN109783805A (zh) | 一种网络社区用户识别方法及装置 | |
CN107784511A (zh) | 一种用户流失预测方法及装置 | |
CN113904943B (zh) | 账号检测方法、装置、电子设备和存储介质 | |
CN113055751B (zh) | 数据处理方法、装置、电子设备和存储介质 | |
CN106358220A (zh) | 异常联系人信息的检测方法、装置及系统 | |
CN110222297B (zh) | 一种标签用户的识别方法以及相关设备 | |
CN104796435A (zh) | 一种消息推送方法及服务器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |