CN109272005B - 一种识别规则的生成方法、装置和深度包检测设备 - Google Patents

一种识别规则的生成方法、装置和深度包检测设备 Download PDF

Info

Publication number
CN109272005B
CN109272005B CN201710581733.2A CN201710581733A CN109272005B CN 109272005 B CN109272005 B CN 109272005B CN 201710581733 A CN201710581733 A CN 201710581733A CN 109272005 B CN109272005 B CN 109272005B
Authority
CN
China
Prior art keywords
user agent
agent vector
word frequency
identification rule
statistical result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710581733.2A
Other languages
English (en)
Other versions
CN109272005A (zh
Inventor
周岩
杨晓
吕喆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Communications Ltd Research Institute
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Communications Ltd Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Communications Ltd Research Institute filed Critical China Mobile Communications Group Co Ltd
Priority to CN201710581733.2A priority Critical patent/CN109272005B/zh
Publication of CN109272005A publication Critical patent/CN109272005A/zh
Application granted granted Critical
Publication of CN109272005B publication Critical patent/CN109272005B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/22Parsing or analysis of headers

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Security & Cryptography (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Character Discrimination (AREA)

Abstract

本发明实施例涉及一种识别规则的生成方法、装置和深度包检测设备,该生成方法包括:提取出用户代理字符串信息;根据所述用户代理字符串信息,确定用户代理向量特征;对每个用户代理向量特征进行词频值统计,再按照用户代理向量特征的词频值进行排序,得到统计结果;根据所述统计结果生成识别规则,所述识别规则包括无效的用户代理向量特征的识别规则和/或有效的用户代理向量特征的识别规则。

Description

一种识别规则的生成方法、装置和深度包检测设备
技术领域
本发明实施例涉及通信技术领域,具体涉及一种识别规则的生成方法、装置和深度包检测设备。
背景技术
随着移动互联网的快速发展,运营商能够获取愈来愈海量的包流量数据。深度包检测技术(Deep Packet Inspection,DPI)的地位在运营商中逐步上升。DPI是一种基于应用层的流量监测和控制技术,当包数据经过支持DPI技术的设备时,该设备通过读入包的数据对OSI(Open System Interconnect,开放式系统互联)网络七层协议进行解析,从而获取有价值的信息,如:应用业务识别,网络流量控制等。
DPI业务识别技术通过解析实际网络中流量包,分析IP地址、端口、负载数据等信息,为每一个包进行业务类别的预测,如图1所示。
DPI业务识别目前较为流行的方式是通过人工梳理出各个应用协议的规则库,保存在数据库中。当待预测数据包输入后,直接在规律库中进行匹配,得到最终的业务识别信息。
然而,随着海量应用的出现,人工提取特征效率越来越低下。运营商开始通过统计方法和机器学习来自动提取DPI业务规则,从效率和准确率上取得了有效的提升,基本已替代人工梳理规则库的方式。如图2所示。
针对DPI业务识别方案,目前可实施的大多数是基于可解协议进行的,HTTP协议占90%以上,所以HTTP协议的数据包的业务识别准确率尤为重要。常用方式之一为根据五元组信息对数据包进行业务识别,该五元组信息包括:源IP、目的IP、源端口、目的端口和协议类型。
然而由于目前应用的爆炸式增长,使得服务器地址和端口一直在不断变化,根据已有数据的五元组信息作为特征,并不能完全识别新的数据包的五元组特征,导致匹配失败。
发明内容
本发明实施例的一个目的在于提供一种识别规则的生成方法、装置和深度包检测设备,解决基于数据包的五元组信息进行业务识别造成的覆盖范围较小以及准确性较差的问题。
依据本发明的第一个方面,提供了一种识别规则的生成方法,所述生成方法包括:
提取出用户代理字符串信息;
根据所述用户代理字符串信息,确定用户代理向量特征;
对每个用户代理向量特征进行词频值统计,再按照用户代理向量特征的词频值进行排序,得到统计结果;
根据所述统计结果生成识别规则,所述识别规则包括无效的用户代理向量特征的识别规则和/或有效的用户代理向量特征的识别规则。
可选地,对每个用户代理向量特征进行词频值统计,再按照用户代理向量特征的词频值进行排序,得到统计结果,包括:
对每个用户代理向量特征进行词频值统计;
删除词频值小于词频阈值的用户代理向量特征;
按照词频值由高至低对多个用户代理向量特征进行排序,得到统计结果。
可选地,根据所述统计结果生成识别规则,所述识别规则包括无效的用户代理向量特征的识别规则和/或有效的用户代理向量特征的识别规则,包括:
根据所述统计结果中相邻两个用户代理向量特征的词频值,依次计算所述统计结果中每个用户代理向量特征的差分变化率;
确定最大的差分变化率对应的第一用户代理向量特征;
确定所述第一用户代理向量特征在所述统计结果的排序位置;
将所述统计结果中排在所述第一用户代理向量特征之前的所有用户代理向量特征组成无效的用户代理向量特征库;
根据所述无效的用户代理向量特征库,生成无效的用户代理向量特征的识别规则和/或有效的用户代理向量特征的识别规则。
可选地,根据所述统计结果中相邻两个用户代理向量特征的词频值,依次计算所述统计结果中每个用户代理向量特征的差分变化率,包括:
根据以下公式,依次计算所述统计结果中每个用户代理向量特征的差分变化率;
Figure BDA0001352477330000031
Figure BDA0001352477330000032
表示第n个用户代理向量特征的差分变化率,n大于等于1;
countn表示相邻两个用户代理向量特征的词频值中大的词频值;
countn+1表示相邻两个用户代理向量特征的词频值中小的词频值。
可选地,所述根据所述用户代理字符串信息,确定用户代理向量特征,包括:
根据预定的分隔字符对所述用户代理字符串信息进行分隔,得到多个独立的词;
从所述多个独立的词中删除预定的干扰字符,生成用户代理向量特征。
依据本发明实施例的第二个方面,还提供了一种识别规则的生成装置,所述生成装置包括:
提取模块,用于提取出用户代理字符串信息;
确定模块,用于根据所述用户代理字符串信息,确定用户代理向量特征;
排序模块,用于对每个用户代理向量特征进行词频值统计,再按照用户代理向量特征的词频值进行排序,得到统计结果;
规则生成模块,用于根据所述统计结果生成识别规则,所述识别规则包括无效的用户代理向量特征的识别规则和/或有效的用户代理向量特征的识别规则。
可选地,所述排序模块包括:
统计单元,用于对每个用户代理向量特征进行词频值统计;
删除单元,用于删除词频值小于词频阈值的用户代理向量特征;
排序单元,用于按照词频值由高至低对多个用户代理向量特征进行排序,得到统计结果。
可选地,所述规则生成模块包括:
计算单元,用于根据所述统计结果中相邻两个用户代理向量特征的词频值,依次计算所述统计结果中每个用户代理向量特征的差分变化率;
第一确定单元,用于确定最大的差分变化率对应的第一用户代理向量特征;
第二确定单元,用于确定所述第一用户代理向量特征在所述统计结果的排序位置;
特征库组成单元,用于将所述统计结果中排在所述第一用户代理向量特征之前的所有用户代理向量特征组成无效的用户代理向量特征库;
规则生成单元,用于根据所述无效的用户代理向量特征库,生成无效的用户代理向量特征的识别规则和/或有效的用户代理向量特征的识别规则。
依据本发明实施例的第三个方面,还提供了一种深度包检测设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述的识别规则的生成方法中的步骤。
依据本发明实施例的第四个方面,还提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的识别规则的生成方法中的步骤。
在本发明实施例中,首先,Http协议在现网数据协议中站主导地位,由于该协议的透明性,可以很准确地提取出数据包特征。User-Agent作为里面的一个重要字段,能过提取出有效的规律信息,帮助进行业务识别,能够提高识别的覆盖率和准确率。
其次,通过统计User-Agent向量特征的出现次数,能够完全自动的区分出其中的无效的User-Agent向量特征的和有效的User-Agent向量特征的,完全不需要人工参与,解放了人力,提高了效率以及准确率。
再次,相比机器学习等业务识别算法,本发明实施例生成的识别规则不需要耗时的训练过程,处理速率高效。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为网络流量包数据的示意图;
图2为根据DPI规则库的业务识别流程图;
图3为HTTP协议参考示意图;
图4为本发明的一个实施例中的识别规则的生成方法的流程图;
图5为User-Agent字段示意图;
图6为图4中步骤404的流程图;
图7为本发明又一个实施例中的识别规则的生成方法的流程图;
图8为统计User-Agent向量特征的词频值排序的示意图
图9为本发明的一个实施例中的识别规则的生成装置的结构图;
图10为本发明的一个实施例中深度包检测设备的结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
现有的网络协议中,HTTP(HyperText Transfer Protocol,超文本传输协议)占了绝大多数比重。由于该协议的固定性、可解性,可以根据协议字段来进行特征抽取,包括Host(主机)信息,User-Agent(用户代理)信息等,如图3所示。本发明实施例基于User-Agent生成DPI业务识别的规则,能够提高识别的覆盖率和准确率。
参见图4,图中示出了一个实施例中的识别规则的生成方法的流程,具体步骤如下:
步骤401、提取出用户代理字符串信息;
上述用户代理字符串信息也可以称为User-Agent,User-Agent是Http协议中的一部分,属于头域的组成部分,User-Agent也简称UA。例如User-Agent可以表示:访问网站时所使用的浏览器类型、操作系统及版本、CPU类型、浏览器渲染引擎、浏览器语言、浏览器插件等信息的标识。浏览器UA字符串在每次HTTP请求时发送到服务器。浏览器UA字符串的标准格式为:浏览器标识(操作系统标识;加密等级标识;浏览器语言),渲染引擎标识,版本信息。
例如:Mozilla/MozillaVersion(Platform;Encryption;OS-or-CPU;Language;PrereleaseVersion)Gecko/GeckoVersion ApplicationProduct/ApplicationProductVersion,参见图5。
步骤402、根据所述用户代理字符串信息,确定用户代理向量特征;
可选地,在步骤402中,首先根据预定的分隔字符对所述用户代理字符串信息进行分隔,得到多个独立的词;再从所述多个独立的词中删除预定的干扰字符,生成用户代理向量特征。例如针对可以解析到User-Agent,进行字符串切割、正则表达式过滤等预处理操作,转换成特征向量进行表述。
结合上述例子,特征向量为[Mozilla,Platform,Encryption,OS-or-CPU,Language,PrereleaseVersion,Gecko,ApplicationProduct]。
步骤403、对每个用户代理向量特征进行词频值统计,再按照用户代理向量特征的词频值进行排序,得到统计结果;
词频值用于表示用户代理向量特征出现的频率,用户代理向量特征的词频值越大,表示该用户代理向量特征出现的次数越多。
可选地,在步骤403中,对每个用户代理向量特征进行词频值统计;删除词频值小于词频阈值的用户代理向量特征;按照词频值由高至低对多个用户代理向量特征进行排序,得到统计结果。
需要说明的是,上述词频阈值可以根据具体情况设置,在本实施例中并不该词频阈值的具体范围。
步骤404、根据所述统计结果生成识别规则,所述识别规则包括无效的用户代理向量特征的识别规则和/或有效的用户代理向量特征的识别规则。
结合上述例子,对全部的User-Agent字符串信息进行筛选、统计、组合,删除掉经常出现的浏览器信息、操作系统标示、加密方式、版本信息。最终自动生成无效的User-Agent特征向量规则库,辅助进行业务识别。
可选地,参见图6,步骤404包括:
步骤4041、根据所述统计结果中相邻两个用户代理向量特征的词频值,依次计算所述统计结果中每个用户代理向量特征的差分变化率;
可选地,根据以下公式,依次计算所述统计结果中每个用户代理向量特征的差分变化率;
Figure BDA0001352477330000071
Figure BDA0001352477330000072
表示第n个用户代理向量特征的差分变化率,n大于等于1;
countn表示相邻两个用户代理向量特征的词频值中大的词频值;
countn+1表示相邻两个用户代理向量特征的词频值中小的词频值。
步骤4042、确定最大的差分变化率对应的第一用户代理向量特征;
步骤4043、确定所述第一用户代理向量特征在所述统计结果的排序位置;
步骤4044、将所述统计结果中排在所述第一用户代理向量特征之前的所有用户代理向量特征组成无效的用户代理向量特征库;
步骤4045、根据所述无效的用户代理向量特征库,生成无效的用户代理向量特征的识别规则和/或有效的用户代理向量特征的识别规则。
实践证明,User-Agent字段包含有效信息,并能够有效地提升规则库的覆盖率和准确率。通过本发明实施例生成的识别规则不受五元组快速更新变化的影响,直接从协议载荷层面,进行规则的提取。更加高效,并且通过自动划分,能够有效的滤除掉User-Agent中无效的字符串信息。
在本发明实施例中,首先,Http协议在现网数据协议中站主导地位,由于该协议的透明性,可以很准确地提取出数据包特征。User-Agent作为里面的一个重要字段,能过提取出有效的规律信息,帮助进行业务识别。
其次,通过统计User-Agent向量特征的出现次数,能够完全自动的区分出其中的无效的User-Agent向量特征的和有效的User-Agent向量特征的,完全不需要人工参与,解放了人力,提高了效率以及准确率。
再次,相比机器学习等业务识别算法,本发明实施例生成的识别规则不需要耗时的训练过程,处理速率高效。
参见图7,图中示出了另一个实施例的识别规则的生成方法的流程,具体步骤如下:
步骤701、获取海量训练数据;
例如:通过部署爬虫系统(包括app(应用程序)自动下载、自动安装、自动删除等)和自动点击模块,并在后台截取每个业务实际的数据包,抓取有效的数据信息,当作训练数据集合使用。训练数据集带有业务类别的标签。
步骤702、对训练数据预处理,提取出User-Agent字符串信息;
由于User-Agent仅出现在Http协议中,故需要进行数据包解析,包括五元组信息,有效载荷信息从而过滤掉非Http协议数据包(例如80端口或8080端口信息)。解析Http协议,提取出User-Agent字符串信息。
步骤703、对User-Agent字符串信息进行向量化,得到User-Agent向量特征;
首先对User-Agent字符串信息以“空格”进行切分,分割成一些独立的词,其次过滤掉“括号”、“斜杠”和数字等干扰字符,然后去除重复的User-Agent向量特征。
步骤704、对所有User-Agent向量特征进行统计,自动生成无效的User-Agent向量特征的规则库。
将所有的User-Agent向量特征放在一起,并进行词频值统计,自动分为无效的User-Agent向量特征和有效的User-Agent向量特征。
app1:[Mozilla,Windows,NT,en-US,Gecko,Netscape6]
app2:[Mozilla,Platform,Encryption,OS,Language,AppleWebKit,Safari]
……
appN:[MicroMessage,Client]
无效的User-Agent向量特征,即在训练数据集中出现次数过多的特征,可认为它们在很多不同业务的HTTP数据包中均有出现,无法作为区分数据包的特征。
在本实施例中,可以通过TF-IDF算法,来计算出IDF(逆词频)很高的User-Agent向量特征,作为无效的User-Agent向量特征。
优选地,通过差分梯度搜索算法对所有User-Agent向量特征进行统计,自动生成无效的User-Agent向量特征的规则库。算法流程如下:
全部进行词频值统计后,删除出现频次小于词频阈值的User-Agent向量特征。
将User-Agent向量特征的词频值由高至低进行排序,如图8所示。
将排序后的User-Agent向量特征依次计算差分变化率,即:
Figure BDA0001352477330000091
以前三个词为例:
Figure BDA0001352477330000092
Figure BDA0001352477330000093
待所有数据都计算完毕后,找出▽最大的一个User-Agent向量特征,在这个User-Agent向量特征之前的User-Agent向量特征出现频率较高,它们组成了无效特征规则库。数学表达如下:
Figure BDA0001352477330000094
其中:
Figure BDA0001352477330000095
N为全部特征个数,n为规则的检索值。
根据生成好的User-Agent过滤规则库,重新遍历包数据,过滤掉无效特征,剩余特征即为有效特征,并作为一条规则。
在本发明实施例中,首先,Http协议在现网数据协议中站主导地位,由于该协议的透明性,可以很准确地提取出数据包特征。User-Agent作为里面的一个重要字段,能过提取出有效的规律信息,帮助进行业务识别。
其次,通过统计User-Agent向量特征的出现次数,能够完全自动的区分出其中的无效的User-Agent向量特征的和有效的User-Agent向量特征的,完全不需要人工参与,解放了人力,提高了效率以及准确率。
再次,相比机器学习等业务识别算法,本发明实施例生成的识别规则不需要耗时的训练过程,处理速率高效。
参见图9,图中示出了一个实施例的识别规则的生成装置的结构,该生成装置900包括:
提取模块901,用于提取出用户代理字符串信息;
确定模块902,用于根据所述用户代理字符串信息,确定用户代理向量特征;
排序模块903,用于对每个用户代理向量特征进行词频值统计,再按照用户代理向量特征的词频值进行排序,得到统计结果;
规则生成模块904,用于根据所述统计结果生成识别规则,所述识别规则包括无效的用户代理向量特征的识别规则和/或有效的用户代理向量特征的识别规则。
可选地,继续参见图9,排序模块903包括:
统计单元9031,用于对每个用户代理向量特征进行词频值统计;
删除单元9032,用于删除词频值小于词频阈值的用户代理向量特征;
排序单元9033,用于按照词频值由高至低对多个用户代理向量特征进行排序,得到统计结果。
可选地,继续参见图9,所述规则生成模块904包括:
计算单元9041,用于根据所述统计结果中相邻两个用户代理向量特征的词频值,依次计算所述统计结果中每个用户代理向量特征的差分变化率;
第一确定单元9042,用于确定最大的差分变化率对应的第一用户代理向量特征;
第二确定单元9043,用于确定所述第一用户代理向量特征在所述统计结果的排序位置;
特征库组成单元9044,用于将所述统计结果中排在所述第一用户代理向量特征之前的所有用户代理向量特征组成无效的用户代理向量特征库;
规则生成单元9045,用于根据所述无效的用户代理向量特征库,生成无效的用户代理向量特征的识别规则和/或有效的用户代理向量特征的识别规则。
可选地,在本实施例中,计算单元9041根据以下公式,依次计算所述统计结果中每个用户代理向量特征的差分变化率;
Figure BDA0001352477330000101
Figure BDA0001352477330000102
表示第n个用户代理向量特征的差分变化率,n大于等于1;
countn表示相邻两个用户代理向量特征的词频值中大的词频值;
countn+1表示相邻两个用户代理向量特征的词频值中小的词频值。
可选地,确定模块902进一步用于:根据预定的分隔字符对所述用户代理字符串信息进行分隔,得到多个独立的词;从所述多个独立的词中删除预定的干扰字符,生成用户代理向量特征。
在本发明实施例中,首先,Http协议在现网数据协议中站主导地位,由于该协议的透明性,可以很准确地提取出数据包特征。User-Agent作为里面的一个重要字段,能过提取出有效的规律信息,帮助进行业务识别。
其次,通过统计User-Agent向量特征的出现次数,能够完全自动的区分出其中的无效的User-Agent向量特征的和有效的User-Agent向量特征的,完全不需要人工参与,解放了人力,提高了效率以及准确率。
再次,相比机器学习等业务识别算法,本发明实施例生成的识别规则不需要耗时的训练过程,处理速率高效。
请参阅图10,图10是本发明实施例应用的深度包检测设备的结构图,能够实现识别规则的生成方法的细节,并达到相同的效果。如图10所示,网络侧设备1000包括:处理器1001、收发机1002、存储器1003、用户接口1004和总线接口,其中:
在本发明实施例中,网络侧设备1000还包括:存储在存储器上1003并可在处理器1001上运行的计算机程序,计算机程序被处理器1001、执行时实现如下步骤:提取出用户代理字符串信息;根据所述用户代理字符串信息,确定用户代理向量特征;对每个用户代理向量特征进行词频值统计,再按照用户代理向量特征的词频值进行排序,得到统计结果;根据所述统计结果生成识别规则,所述识别规则包括无效的用户代理向量特征的识别规则和/或有效的用户代理向量特征的识别规则。
在图10中,总线架构可以包括任意数量的互联的总线和桥,具体由处理器1001代表的一个或多个处理器和存储器1003代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口提供接口。收发机1002可以是多个元件,即包括发送机和接收机,提供用于在传输介质上与各种其他装置通信的单元。针对不同的用户设备,用户接口1004还可以是能够外接内接需要设备的接口,连接的设备包括但不限于小键盘、显示器、扬声器、麦克风、操纵杆等。
处理器1001负责管理总线架构和通常的处理,存储器1003可以存储处理器1001在执行操作时所使用的数据。
可选的,计算机程序被处理器1003执行时还可实现如下步骤:对每个用户代理向量特征进行词频值统计;删除词频值小于词频阈值的用户代理向量特征;按照词频值由高至低对多个用户代理向量特征进行排序,得到统计结果。
可选的,计算机程序被处理器1003执行时还可实现如下步骤:根据所述统计结果中相邻两个用户代理向量特征的词频值,依次计算所述统计结果中每个用户代理向量特征的差分变化率;确定最大的差分变化率对应的第一用户代理向量特征;确定所述第一用户代理向量特征在所述统计结果的排序位置;将所述统计结果中排在所述第一用户代理向量特征之前的所有用户代理向量特征组成无效的用户代理向量特征库;
根据所述无效的用户代理向量特征库,生成无效的用户代理向量特征的识别规则和/或有效的用户代理向量特征的识别规则。
可选的,计算机程序被处理器1003执行时还可实现如下步骤:根据以下公式,依次计算所述统计结果中每个用户代理向量特征的差分变化率;
Figure BDA0001352477330000121
Figure BDA0001352477330000122
表示第n个用户代理向量特征的差分变化率,n大于等于1;
countn表示相邻两个用户代理向量特征的词频值中大的词频值;
countn+1表示相邻两个用户代理向量特征的词频值中小的词频值。
可选的,计算机程序被处理器1003执行时还可实现如下步骤:
根据预定的分隔字符对所述用户代理字符串信息进行分隔,得到多个独立的词;从所述多个独立的词中删除预定的干扰字符,生成用户代理向量特征。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如识别规则的生成方法中的步骤。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以保存在一个计算机可读取保存介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品保存在一个保存介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的保存介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以保存程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (8)

1.一种识别规则的生成方法,其特征在于,所述生成方法包括:
提取出用户代理字符串信息;
根据所述用户代理字符串信息,确定用户代理向量特征;
对每个用户代理向量特征进行词频值统计,再按照用户代理向量特征的词频值进行排序,得到统计结果;
根据所述统计结果生成识别规则,所述识别规则包括无效的用户代理向量特征的识别规则和/或有效的用户代理向量特征的识别规则,包括:根据所述统计结果中相邻两个用户代理向量特征的词频值,依次计算所述统计结果中每个用户代理向量特征的差分变化率;确定最大的差分变化率对应的第一用户代理向量特征;确定所述第一用户代理向量特征在所述统计结果的排序位置;将所述统计结果中排在所述第一用户代理向量特征之前的所有用户代理向量特征组成无效的用户代理向量特征库;根据所述无效的用户代理向量特征库,生成无效的用户代理向量特征的识别规则和/或有效的用户代理向量特征的识别规则。
2.根据权利要求1所述的生成方法,其特征在于,对每个用户代理向量特征进行词频值统计,再按照用户代理向量特征的词频值进行排序,得到统计结果,包括:
对每个用户代理向量特征进行词频值统计;
删除词频值小于词频阈值的用户代理向量特征;
按照词频值由高至低对多个用户代理向量特征进行排序,得到统计结果。
3.根据权利要求1所述的生成方法,其特征在于,根据所述统计结果中相邻两个用户代理向量特征的词频值,依次计算所述统计结果中每个用户代理向量特征的差分变化率,包括:
根据以下公式,依次计算所述统计结果中每个用户代理向量特征的差分变化率;
Figure FDA0002458158170000011
Figure FDA0002458158170000012
表示第n个用户代理向量特征的差分变化率,n大于等于1;
countn表示相邻两个用户代理向量特征的词频值中大的词频值;
countn+1表示相邻两个用户代理向量特征的词频值中小的词频值。
4.根据权利要求1所述的生成方法,其特征在于,所述根据所述用户代理字符串信息,确定用户代理向量特征,包括:
根据预定的分隔字符对所述用户代理字符串信息进行分隔,得到多个独立的词;
从所述多个独立的词中删除预定的干扰字符,生成用户代理向量特征。
5.一种识别规则的生成装置,其特征在于,所述生成装置包括:
提取模块,用于提取出用户代理字符串信息;
确定模块,用于根据所述用户代理字符串信息,确定用户代理向量特征;
排序模块,用于对每个用户代理向量特征进行词频值统计,再按照用户代理向量特征的词频值进行排序,得到统计结果;
规则生成模块,用于根据所述统计结果生成识别规则,所述识别规则包括无效的用户代理向量特征的识别规则和/或有效的用户代理向量特征的识别规则;
规则生成模块包括:
计算单元,用于根据所述统计结果中相邻两个用户代理向量特征的词频值,依次计算所述统计结果中每个用户代理向量特征的差分变化率;
第一确定单元,用于确定最大的差分变化率对应的第一用户代理向量特征;
第二确定单元,用于确定所述第一用户代理向量特征在所述统计结果的排序位置;
特征库组成单元,用于将所述统计结果中排在所述第一用户代理向量特征之前的所有用户代理向量特征组成无效的用户代理向量特征库;
规则生成单元,用于根据所述无效的用户代理向量特征库,生成无效的用户代理向量特征的识别规则和/或有效的用户代理向量特征的识别规则。
6.根据权利要求5所述的生成装置,其特征在于,所述排序模块包括:
统计单元,用于对每个用户代理向量特征进行词频值统计;
删除单元,用于删除词频值小于词频阈值的用户代理向量特征;
排序单元,用于按照词频值由高至低对多个用户代理向量特征进行排序,得到统计结果。
7.一种深度包检测设备,其特征在于,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1~权利要求4任一项所述的识别规则的生成方法中的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1~权利要求4任一项所述的识别规则的生成方法中的步骤。
CN201710581733.2A 2017-07-17 2017-07-17 一种识别规则的生成方法、装置和深度包检测设备 Active CN109272005B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710581733.2A CN109272005B (zh) 2017-07-17 2017-07-17 一种识别规则的生成方法、装置和深度包检测设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710581733.2A CN109272005B (zh) 2017-07-17 2017-07-17 一种识别规则的生成方法、装置和深度包检测设备

Publications (2)

Publication Number Publication Date
CN109272005A CN109272005A (zh) 2019-01-25
CN109272005B true CN109272005B (zh) 2020-08-28

Family

ID=65147915

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710581733.2A Active CN109272005B (zh) 2017-07-17 2017-07-17 一种识别规则的生成方法、装置和深度包检测设备

Country Status (1)

Country Link
CN (1) CN109272005B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111211995B (zh) * 2019-12-19 2022-03-08 北京浩瀚深度信息技术股份有限公司 一种字符串匹配库获取网络流量业务分析方法及装置
CN113905411B (zh) * 2021-10-28 2023-05-02 中国联合网络通信集团有限公司 深度包检测识别规则的检测方法、装置、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101183988A (zh) * 2007-11-19 2008-05-21 华为技术有限公司 一种识别报文对应的业务类型的方法及其装置
CN101365190A (zh) * 2007-08-08 2009-02-11 上海亿动信息技术有限公司 手机终端的用户手机信息字符串的检索匹配方法和装置
CN101605126A (zh) * 2008-06-11 2009-12-16 中国科学院计算技术研究所 一种多协议数据分类识别的方法和系统
CN102045363A (zh) * 2010-12-31 2011-05-04 成都市华为赛门铁克科技有限公司 网络流量特征识别规则的建立方法、识别控制方法及装置
CN102682132A (zh) * 2012-05-18 2012-09-19 合一网络技术(北京)有限公司 一种基于词频、播放量和创建时间检索信息的方法及系统
CN103020213A (zh) * 2012-12-07 2013-04-03 福建亿榕信息技术有限公司 具有明显类别划分的非结构化电子文档的检索方法和系统
CN103873356A (zh) * 2012-12-11 2014-06-18 中国电信股份有限公司 基于家庭网关的应用识别方法、系统和家庭网关

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160191549A1 (en) * 2014-10-09 2016-06-30 Glimmerglass Networks, Inc. Rich metadata-based network security monitoring and analysis

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101365190A (zh) * 2007-08-08 2009-02-11 上海亿动信息技术有限公司 手机终端的用户手机信息字符串的检索匹配方法和装置
CN101183988A (zh) * 2007-11-19 2008-05-21 华为技术有限公司 一种识别报文对应的业务类型的方法及其装置
CN101605126A (zh) * 2008-06-11 2009-12-16 中国科学院计算技术研究所 一种多协议数据分类识别的方法和系统
CN102045363A (zh) * 2010-12-31 2011-05-04 成都市华为赛门铁克科技有限公司 网络流量特征识别规则的建立方法、识别控制方法及装置
CN102682132A (zh) * 2012-05-18 2012-09-19 合一网络技术(北京)有限公司 一种基于词频、播放量和创建时间检索信息的方法及系统
CN103020213A (zh) * 2012-12-07 2013-04-03 福建亿榕信息技术有限公司 具有明显类别划分的非结构化电子文档的检索方法和系统
CN103873356A (zh) * 2012-12-11 2014-06-18 中国电信股份有限公司 基于家庭网关的应用识别方法、系统和家庭网关

Also Published As

Publication number Publication date
CN109272005A (zh) 2019-01-25

Similar Documents

Publication Publication Date Title
CN111865815B (zh) 一种基于联邦学习的流量分类方法及系统
CN108337652B (zh) 一种检测流量欺诈的方法及装置
CN105574030B (zh) 一种信息搜索方法及装置
CN113938308B (zh) 应用集群安全防护系统、方法、电子设备及存储介质
US20170289283A1 (en) Automated dpi process
CN111953552B (zh) 数据流的分类方法和报文转发设备
CN108234233B (zh) 日志处理方法及装置
US20230092159A1 (en) Label guided unsupervised learning based network-level application signature generation
US8782092B2 (en) Method and apparatus for streaming netflow data analysis
CN109272005B (zh) 一种识别规则的生成方法、装置和深度包检测设备
EP3009942A1 (en) Social contact message monitoring method and device
US10419351B1 (en) System and method for extracting signatures from controlled execution of applications and application codes retrieved from an application source
CN112822121A (zh) 流量识别方法、流量确定方法、知识图谱建立方法
EP3379772B1 (en) Analysis method, analysis device, and analysis program
CN116738369A (zh) 一种流量数据的分类方法、装置、设备及存储介质
CN111163184B (zh) 一种报文特征的提取方法和装置
CA3022435A1 (en) Adaptive event aggregation
CN115470399A (zh) 一种基于大数据的id打通方法、装置、设备和存储介质
CN104125105B (zh) 对互联网应用场所分类的方法和装置
CN109840535B (zh) 实现地形分类的方法和装置
CN113326178A (zh) 一种异常账号传播方法、装置、电子设备和存储介质
CN112989432B (zh) 文件签名提取方法和装置
CN116886637B (zh) 一种基于图积分的单特征加密流检测方法及系统
CN110162969A (zh) 一种流量的分析方法和装置
CN116708356B (zh) Ip特征库生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant