CN107967488B - 一种服务器的分类方法及分类系统 - Google Patents

一种服务器的分类方法及分类系统 Download PDF

Info

Publication number
CN107967488B
CN107967488B CN201711218716.9A CN201711218716A CN107967488B CN 107967488 B CN107967488 B CN 107967488B CN 201711218716 A CN201711218716 A CN 201711218716A CN 107967488 B CN107967488 B CN 107967488B
Authority
CN
China
Prior art keywords
server
target
access data
vector
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201711218716.9A
Other languages
English (en)
Other versions
CN107967488A (zh
Inventor
陈迅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Aijieyun Technology Co ltd
Original Assignee
Wangsu Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wangsu Science and Technology Co Ltd filed Critical Wangsu Science and Technology Co Ltd
Priority to CN201711218716.9A priority Critical patent/CN107967488B/zh
Publication of CN107967488A publication Critical patent/CN107967488A/zh
Application granted granted Critical
Publication of CN107967488B publication Critical patent/CN107967488B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种服务器的分类方法及分类系统,其中,所述方法包括:获取训练样本集,所述训练样本集中包括训练服务器对应的特征向量样本,所述特征向量样本根据所述训练服务器的访问数据确定,所述特征向量样本与所述训练服务器所属的服务器类型相关联;利用所述训练样本集对预设分类器进行训练,以使得训练后的预设分类器对输入的特征向量样本处理得到的分类结果与所述输入的特征向量样本关联的服务器类型一致;获取目标服务器的访问数据,并基于所述访问数据构建所述目标服务器的目标特征向量;将所述目标特征向量输入所述训练后的预设分类器中,得到所述目标服务器对应的分类结果。本申请提供的技术方案,能够提高服务器分类的效率和准确度。

Description

一种服务器的分类方法及分类系统
技术领域
本发明涉及互联网技术领域,特别涉及一种服务器的分类方法及分类系统。
背景技术
随着国际互联网规模的日渐增大,在互联网中为用户提供各种网络服务的服务器的数量也在不断增长。通常而言,服务器在提供网络服务时往往会有侧重点。例如,有些服务器主要提供HTTP服务,有些服务器主要提供FTP服务,而有些服务器主要提供电子邮件服务。当前,可以将互联网中的服务器进行分类,然后可以按照服务器所属的类别,对服务器产生的网络流量有针对性地进行处理。例如,对于主要提供HTTP服务的服务器而言,可以优先处理HTTP服务对应的网络流量,而对于FTP服务对应的网络流量可以暂缓处理。这样,通过将服务器进行分类,可以提高服务器的服务质量,从而改善互联网用户的使用体验。
目前,可以通过识别服务器产生的网络流量的类型,来对服务器进行分类。识别网络流量的类型时,一方面可以通过端口号对网络流量进行识别。比如,80端口上一般传输HTTP服务的网络流量,而21端口一般是传输ftp服务的网络流量。该方法简单易行,但由于现在越来越多的服务采用非标准端口,因此通过端口号对网络流量进行识别时,最终会影响服务器分类的准确度。另一方面可以通过特定关键字或者正则表达式对网络流量进行匹配,从而对网络流量的类型进行识别。例如,FTP服务对应的网络流量中通常会具备FTP协议的标准字段,通过对该标准字段的识别,从而可以获知当前的网络流量是否对应着FTP服务。然而,这类方法常常要消耗更多资源对网络流量进行匹配,同时,这类方法对加密的网络流量通常无法处理,从而会降低服务器分类的效率。
发明内容
本申请的目的在于提供一种服务器的分类方法及分类系统,能够提高服务器分类的效率和准确度。
为实现上述目的,本申请一方面提供服务器的分类方法,所述方法包括:获取训练样本集,所述训练样本集中包括训练服务器对应的特征向量样本,所述特征向量样本根据所述训练服务器的访问数据确定,所述特征向量样本与所述训练服务器所属的服务器类型相关联;利用所述训练样本集对预设分类器进行训练,以使得训练后的预设分类器对输入的特征向量样本处理得到的分类结果与所述输入的特征向量样本关联的服务器类型一致;获取目标服务器的访问数据,并基于所述访问数据构建所述目标服务器的目标特征向量;将所述目标特征向量输入所述训练后的预设分类器中,得到所述目标服务器对应的分类结果。
为实现上述目的,本申请另一方面还提供一种服务器的分类系统,所述系统包括训练样本集获取单元、训练单元、向量构建单元以及预测单元,其中:所述训练样本集获取单元,用于获取训练样本集,所述训练样本集中包括训练服务器对应的特征向量样本,所述特征向量样本根据所述训练服务器的访问数据确定,所述特征向量样本与所述训练服务器所属的服务器类型相关联;所述训练单元,用于利用所述训练样本集对预设分类器进行训练,以使得训练后的预设分类器对输入的特征向量样本处理得到的分类结果与所述输入的特征向量样本关联的服务器类型一致;所述向量构建单元,用于获取目标服务器的访问数据,并基于所述访问数据构建所述目标服务器的目标特征向量;所述预测单元,用于将所述目标特征向量输入所述训练后的预设分类器中,得到所述目标服务器对应的分类结果。
由上可见,本申请提供的技术方案,可以针对服务器的访问数据进行全面地分析。具体地,首先可以建立训练样本集,该训练样本集中的特征向量样本可以是基于服务器的访问数据分析得到的。在实际应用中,通过该访问数据可以分析得到服务器经常使用的端口号以及各个端口号的使用比例,还可以分析得到各个连接的上下行流量,还可以分析得到各个连接的持续时间,还可以分析得到各个连接对应的时延,还可以分析得到各个连接使用的传输层协议,还可以分析得到连接异常结束的状态,还可以分析得到单位时间内与服务器建立的连接的数量,还可以分析得到单位时间内连接至服务器的客户端的数量,还可以分析得到连接数对应的频率点。在本申请中,可以基于上述的一个或者多个分析结果构建已经确定所属类型的服务器对应的特征向量样本。在构建得到特征向量样本后,便可以通过特征向量样本对预设分类器进行训练,从而使得训练后的预设分类器能够准确地对训练样本集中的各个特征向量样本进行分类。后续在针对未知类型的目标服务器时,通常可以通过上述的方式构建出该目标服务器对应的目标特征向量。将该目标特征向量输入到训练后的预设分类器中,便可以得到所述目标服务器对应的分类结果。由上可见,在训练得到预设分类器后,只需要构建出目标服务器的目标特征向量,便可以快捷地得到目标服务器对应的分类结果。此外,在训练阶段可以采用大量的数据对预设分类器进行训练,从而可以使得后续为未知类型的服务器进行分类时,能够具备较高的准确度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一中服务器的分类方法流程图;
图2是本发明实施例二中服务器的分类系统的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
实施例一
本申请提供一种服务器的分类方法,请参阅图1,所述方法可以包括以下步骤。
S1:获取训练样本集,所述训练样本集中包括训练服务器对应的特征向量样本,所述特征向量样本根据所述训练服务器的访问数据确定,所述特征向量样本与所述训练服务器所属的服务器类型相关联。
在本实施方式中,可以通过机器学习的方法来对服务器进行分类。具体地,首先可以获取训练样本集,所述训练样本集可以作为预设分类器的训练材料。所述训练样本集中可以包括多个特征向量样本,这些特征向量样本可以是针对不同服务器的访问数据进行分析得到的。为了使得训练的效果比较完备,在构建所述训练样本集时,可以获取各种类型的服务器对应的访问数据。例如,可以获取主要提供HTTP服务的服务器对应的访问数据,还可以获取主要提供FTP服务的服务器对应的访问数据,还可以获取主要提供电子邮件服务的服务器对应的访问数据。
在本实施方式中,在获取服务器的访问数据时,可以在传输层记录与服务器建立的连接,并采集所述连接上产生的访问数据。所述连接可以是由客户端发起,并在服务器应答之后,在该客户端和服务器之间建立的。在连接建立之后,客户端便可以与服务器通过该连接进行数据交互。到达服务器的访问数据通常会根据访问数据采用的协议,而由服务器的各个端口进行接收。
在本实施方式中,在获取到服务器的访问数据后,便可以基于该访问数据构建服务器的特征向量。本申请可以对服务器在接收访问数据时的行为特征进行全面考量,预先确定访问数据中可提炼出的一个或者多个特征。提炼出的这些特征可以作为特征向量中的向量分量,那么基于所述访问数据,确定所述向量分量的特征值之后,便可以通过所述向量分量的特征值构成所述特征向量。例如,提炼出的特征可以包括服务器最常被访问的两个端口号以及这两个端口号分别对应的使用比例。那么该特征向量便可以表示为(最常被访问的端口号A,端口号A对应的使用比例,最常被访问的端口号B,端口号B对应的使用比例)。由上述例子可见,该特征向量中可以具备4个向量分量,如果确定了这4个向量分量的特征值,便可以得到对应的特征向量。例如,所述特征向量可以是(80,0.8,21,0.2),其中,80表示80号端口,0.8表示80号端口的使用比例为80%,21表示21号端口,0.2表示21号端口的使用比例为20%。当然,在实际应用过程中,所述特征向量中还可以包括更多的向量分量,也就是说,从访问数据中提炼的特征可以更多,从而可以更全面地表示服务器在接收访问数据时的行为特征。这样,最终得到的特征向量也能更加准确地代表对应的服务器。
在一个实施方式中,从访问数据中提炼出的特征可以与服务器的端口号相关。具体地,可以根据所述访问数据,统计所述服务器被访问的端口号以及各个所述端口号的被访问次数。此后,可以按照被访问次数从大到小的顺序对各个所述端口号进行排序,并筛选出排名前N的N个目标端口号,其中,N为大于或者等于1的整数。例如,可以筛选出被访问次数最多的2个目标端口号,这2个目标端口号便可以作为该服务器最常被访问的端口号。然后,可以确定所述目标端口号的被访问次数在各个所述端口号的被访问次数的总和中的比值。例如,其中一个目标端口号的被访问次数为80次,而访问数据中各个端口号的被访问次数的总和为100次,那么该目标端口号对应的比值便可以是0.8。在本实施方式中,当得到所述N个目标端口号以及各个所述目标端口号对应的比值后,便可以将所述N个目标端口号以及各个所述目标端口号对应的比值作为向量分量的特征值。各个向量分量的排列顺序可以是预先指定的,例如,所述特征向量中的向量分量可以按照下述的排列方式:
(目标端口号A,端口号A的比值,目标端口号B,端口号B的比值,…..,目标端口号X,端口号X的比值)
其中,目标端口号可以按照被访问次数从多到少的顺序依次排列。
在另一个实施方式中,从访问数据中提炼出的特征可以与服务器的上下行流量相关。具体地,可以从所述访问数据中读取与所述服务器建立的各条连接的上行流量和下行流量。所述上行流量可以是客户端通过连接上传的数据量,所述下行流量则可以是客户端通过连接下载的数据量。由于与服务器建立的连接可能有很多条,那么便可以得到多个上行流量和多个下行流量。这样,基于读取的所述上行流量和下行流量,可以分别确定上行流量统计值和下行流量统计值;其中,所述上行流量统计值中包括上行流量最大值、上行流量最小值、上行流量平均值、上行流量中位数、上行流量标准差中的至少一种;所述下行流量统计值中包括下行流量最大值、下行流量最小值、下行流量平均值、下行流量中位数、下行流量标准差中的至少一种。在实际应用中,例如可以分别确定上行流量和下行流量各自对应的上述的5种数值。这样,可以将所述上行流量统计值和下行流量统计值作为向量分量的特征值。假设上行流量统计值和下行流量统计值均各自包括5个数值,那么最终便可以得到10个向量分量。这个10个向量分量的排列顺序也可以是预先指定的。
在本实施方式中,还可以确定更多个向量分量。具体地,可以从读取的所述上行流量和所述下行流量中分别筛选出数值最大的前M个目标上行流量和前M个目标下行流量,并统计各个所述目标上行流量和目标下行流量分别在上行总流量和下行总流量中的比值;其中,M为大于或者等于1的整数。然后,可以将各个所述目标上行流量、各个所述目标下行流量、各个所述目标上行流量对应的比值以及各个所述目标下行流量对应的比值作为向量分量的特征值。这样便可以得到更多个向量分量。
在另一个实施方式中,从访问数据中提炼出的特征可以与服务器的连接持续时间相关。具体地,可以从所述访问数据中读取与所述服务器建立的各条连接的持续时间。所述持续时间可以通过建立连接的时间和结束连接的时间来确定。由于与服务器建立的连接数量较多,那么确定的持续时间也可以较多。那么可以基于读取的所述持续时间,确定持续时间统计值;其中,所述持续时间统计值中包括持续时间最大值、持续时间最小值、持续时间平均值、持续时间中位数、持续时间标准差中的至少一种。最终,可以将所述持续时间统计值作为向量分量的特征值。在实际应用中,可以计算上述的5种数值,那么最终便可以得到5个向量分量。
在另一个实施方式中,从所述访问数据中提炼出的特征可以与服务器的时延相关。具体地,可以根据所述访问数据,确定与所述服务器建立的各条连接的时延。在确定各条连接的时延时,一方面可以根据每条连接中各个数据包的传输时间戳,从而得到各个数据包对应的传输时延。然后可以计算各个数据包的传输时延的平均值,从而得到每条连接对应的平均时延。此外,为了简化运算,还可以根据所述连接中指定数据包的传输时间戳,确定所述指定数据包的传输时延,并将所述指定数据包的传输时延作为所述连接的时延。所述指定数据包例如可以是每条连接的第一个数据包。在计算得到每条连接的时延后,便可以计算所述时延对应的时延统计值,所述时延统计值包括时延最大值、时延最小值、时延平均值、时延中位数、时延标准差中的至少一种。最终,可以将所述时延统计值作为向量分量的特征值。在实际应用场景中,可以计算上述的5个与时延相关联的统计数值,最终便可以得到5个向量分量。
在另一个实施方式中,从访问数据中提炼出的特征还可以与服务器的传输层协议相关。具体地,可以从所述访问数据中读取与所述服务器建立的各条连接所使用的传输层协议并统计各个所述传输层协议的使用次数。然后可以统计各个所述传输层协议的使用次数在总的使用次数中所占的比值。最终,可以将各个所述传输层协议对应的比值作为向量分量的特征值。在实际应用中,可以针对传输层常用的协议进行统计。例如可以针对TCP协议、UDP协议进行统计。
在另一个实施方式中,从访问数据中提炼出的特征还可以与服务器的连接结束状态相关。当连接由于非正常原因结束时,服务器通常会向客户端反馈一个错误代码。该错误代码便可以表征连接的异常结束状态。具体地,可以根据所述访问数据,统计与所述服务器建立的各个连接的异常结束状态并统计各个所述异常结束状态对应的出现次数。然后可以计算各个所述异常结束状态的出现次数在总的出现次数中所占的比值。最终,可以将各个所述异常结束状态对应的比值作为向量分量的特征值。在本实施方式中,可以针对常见的几个异常结束状态进行统计。例如,可以针对端口没有打开、端口连接超时等异常结束状态进行统计。最终统计出的比值可以按照预先指定的顺序,在特征向量中进行排列。所述预先指定的顺序例如可以是(端口没有打开的情况,端口连接超时的情况)这样的排列顺序。
在另一个实施方式中,从访问数据中提炼出的特征还可以与服务器的连接数量相关。具体地,可以根据所述访问数据统计在单位时间内与所述服务器建立的连接的数量,并将所述连接的数量作为向量分量的特征值。所述单位时间可以是在实际应用时预先指定的时间。例如,所述单位时间可以是1小时。
在另一个实施方式中,从访问数据中提炼出的特征还可以与服务器连接的客户端的数量相关。具体地,可以根据所述访问数据统计在单位时间内与所述服务器建立连接的客户端的数量,并将所述客户端的数量作为向量分量的特征值。所述客户端可以通过访问数据中的源IP地址来确定。来自同一个源IP地址的连接便可以视为同一个客户端。
在另一个实施方式中,从访问数据中提炼出的特征还可以与服务器的连接对应的频率点相关。具体地,可以根据所述访问数据,每隔单位时间统计一次与所述目标服务器建立的连接的数量。例如,可以每隔1小时,统计一次这个小时内与服务器建立的连接的数量。这样便可以得到统计的多个连接数量。在实际应用场景中,某些连接可能是具备周期性的。例如,客户端与服务器之间发送的心跳数据包,其对应的连接便可以是具备周期性的。而在建立有效连接的同时,可能会有无效连接或者错误连接形成干扰,从时间域可能无法准确地辨别出连接的周期。此时,可以对统计的各个所述连接的数量进行傅里叶变换,从而将时间域的信息转换至频率域中。在频率域中,每个频率点的强度大小可以表示该频率点对应着周期值的可能性。此时,可以选取傅里叶变换的结果中强度最大的K个频率点;其中,K为大于或者等于1的整数,然后可以将选取的所述K个频率点作为向量分量的特征值。当然,还可以将频率点的倒数作为向量分量的特征值。这样,通过傅里叶变换的方式,便可以得到服务器与客户端进行数据交互过程中,建立连接的周期值。
在本实施方式中,训练样本集中的各个特征向量样本便可以基于上述的方式进行确定。在实际应用中,可以采用上述向量分量的一个或者组合,当然,为了更加准确地表示服务器的行为特征,也可以采用上述的所有的向量分量来构建特征向量样本。
在本实施方式中,特征向量样本对应的服务器可以作为训练服务器,所述训练服务器可以是已经确定了所属类型的服务器。例如,所述训练服务器可以是主要提供HTTP服务的服务器。这样,所述特征向量样本可以与所述训练服务器所属的服务器类型进行关联。
S3:利用所述训练样本集对预设分类器进行训练,以使得训练后的预设分类器对输入的特征向量样本处理得到的分类结果与所述输入的特征向量样本关联的服务器类型一致。
在本实施方式中,在获取了训练样本集后,便可以利用所述训练样本集对预设分类器进行训练。所述预设分类器可以是现有的分类器。例如,所述预设分类器可以是K-近邻分类器、朴素贝叶斯分类器、支持向量机分类器、决策树分类器等。在训练时,可以将特征向量样本输入预设分类器中,预设分类器从而可以输出一个概率向量。该概率向量中可以具备多个概率值,每个概率值则表示属于某一种服务器类型的概率。最终,可以将最大的概率值对应的服务器类型作为根据输入的特征向量样本预测得到的服务器类型。在训练初期,预测得到的服务器类型可能与输入的特征向量样本实际的关联的服务器类型并不一致。此时则需要对分类器进行多次校正,直至训练后的预设分类器对输入的特征向量样本处理得到的分类结果与所述输入的特征向量样本关联的服务器类型一致。输入所述预设分类器的特征向量样本的数量越多,所述预设分类器后续对输入的特征向量的预测结果则会越准确。
S5:获取目标服务器的访问数据,并基于所述访问数据构建所述目标服务器的目标特征向量。
S7:将所述目标特征向量输入所述训练后的预设分类器中,得到所述目标服务器对应的分类结果。
在本实施方式中,在训练完预设分类器后,便可以利用该预设分类器对未知类型的服务器对应的特征向量进行预测,从而可以对未知类型的服务器进行分类。具体地,针对待分类的目标服务器,可以按照步骤S1中的描述,获取其访问数据,并基于访问数据构建目标服务器对应的目标特征向量。然后便可以将所述目标特征向量输入所述训练后的预设分类器中,从而可以得到对应的概率向量。最终,可以将最大的概率值对应的服务器类型作为所述目标服务器对应的分类结果。
实施例二
请参阅图2,本申请还提供一种服务器的分类系统,所述系统包括训练样本集获取单元、训练单元、向量构建单元以及预测单元,其中:
所述训练样本集获取单元,用于获取训练样本集,所述训练样本集中包括训练服务器对应的特征向量样本,所述特征向量样本根据所述训练服务器的访问数据确定,所述特征向量样本与所述训练服务器所属的服务器类型相关联;
所述训练单元,用于利用所述训练样本集对预设分类器进行训练,以使得训练后的预设分类器对输入的特征向量样本处理得到的分类结果与所述输入的特征向量样本关联的服务器类型一致;
所述向量构建单元,用于获取目标服务器的访问数据,并基于所述访问数据构建所述目标服务器的目标特征向量;
所述预测单元,用于将所述目标特征向量输入所述训练后的预设分类器中,得到所述目标服务器对应的分类结果。
在本实施方式中,所述向量构建单元包括:
向量分量确定模块,用于预先确定所述目标特征向量中包含的向量分量;
特征值确定模块,用于基于所述访问数据,确定所述向量分量的特征值,并通过所述向量分量的特征值构成所述目标特征向量。
本实施方式提供的分类系统,可以与上述分类方法的实施方式对照解释,并可以实现上述方法实施方式的技术效果,这里便不再赘述。
由上可见,本申请提供的技术方案,可以针对服务器的访问数据进行全面地分析。具体地,首先可以建立训练样本集,该训练样本集中的特征向量样本可以是基于服务器的访问数据分析得到的。在实际应用中,通过该访问数据可以分析得到服务器经常使用的端口号以及各个端口号的使用比例,还可以分析得到各个连接的上下行流量,还可以分析得到各个连接的持续时间,还可以分析得到各个连接对应的时延,还可以分析得到各个连接使用的传输层协议,还可以分析得到连接异常结束的状态,还可以分析得到单位时间内与服务器建立的连接的数量,还可以分析得到单位时间内连接至服务器的客户端的数量,还可以分析得到连接数对应的频率点。在本申请中,可以基于上述的一个或者多个分析结果构建已经确定所属类型的服务器对应的特征向量样本。在构建得到特征向量样本后,便可以通过特征向量样本对预设分类器进行训练,从而使得训练后的预设分类器能够准确地对训练样本集中的各个特征向量样本进行分类。后续在针对未知类型的目标服务器时,通常可以通过上述的方式构建出该目标服务器对应的目标特征向量。将该目标特征向量输入到训练后的预设分类器中,便可以得到所述目标服务器对应的分类结果。由上可见,在训练得到预设分类器后,只需要构建出目标服务器的目标特征向量,便可以快捷地得到目标服务器对应的分类结果。此外,在训练阶段可以采用大量的数据对预设分类器进行训练,从而可以使得后续为未知类型的服务器进行分类时,能够具备较高的准确度。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本说明书中的各个实施方式均采用递进的方式描述,各个实施方式之间相同相似的部分互相参见即可,每个实施方式重点说明的都是与其他实施方式的不同之处。尤其,针对分类系统的实施方式来说,均可以参照前述方法的实施方式的介绍对照解释。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (16)

1.一种服务器的分类方法,其特征在于,所述方法包括:
获取训练样本集,所述训练样本集中包括训练服务器对应的特征向量样本,所述特征向量样本根据所述训练服务器的访问数据确定,所述特征向量样本与所述训练服务器所属的服务器类型相关联;其中,所述特征向量样本中包括所述训练服务器的频率点特征,所述频率点特征通过对单位时间内统计的连接数量进行傅里叶变换得到;
利用所述训练样本集对预设分类器进行训练,以使得训练后的预设分类器对输入的特征向量样本处理得到的分类结果与所述输入的特征向量样本关联的服务器类型一致;
获取目标服务器的访问数据,并基于所述访问数据构建所述目标服务器的目标特征向量;
将所述目标特征向量输入所述训练后的预设分类器中,得到所述目标服务器对应的分类结果。
2.根据权利要求1所述的方法,其特征在于,获取目标服务器的访问数据包括:
在传输层记录与所述目标服务器建立的连接,并采集所述连接上产生的访问数据。
3.根据权利要求1所述的方法,其特征在于,基于所述访问数据构建所述目标服务器的目标特征向量包括:
预先确定所述目标特征向量中包含的向量分量;
基于所述访问数据,确定所述向量分量的特征值,并通过所述向量分量的特征值构成所述目标特征向量。
4.根据权利要求3所述的方法,其特征在于,基于所述访问数据,确定所述向量分量的特征值包括:
根据所述访问数据,统计所述目标服务器被访问的端口号以及各个所述端口号的被访问次数;
按照被访问次数从大到小的顺序对各个所述端口号进行排序,并筛选出排名前N的N个目标端口号;其中,N为大于或者等于1的整数;
确定所述目标端口号的被访问次数在各个所述端口号的被访问次数的总和中的比值;
将所述N个目标端口号以及各个所述目标端口号对应的比值作为向量分量的特征值。
5.根据权利要求3所述的方法,其特征在于,基于所述访问数据,确定所述向量分量的特征值包括:
从所述访问数据中读取与所述目标服务器建立的各条连接的上行流量和下行流量;
基于读取的所述上行流量和下行流量,分别确定上行流量统计值和下行流量统计值;其中,所述上行流量统计值中包括上行流量最大值、上行流量最小值、上行流量平均值、上行流量中位数、上行流量标准差中的至少一种;所述下行流量统计值中包括下行流量最大值、下行流量最小值、下行流量平均值、下行流量中位数、下行流量标准差中的至少一种;
将所述上行流量统计值和下行流量统计值作为向量分量的特征值。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
从读取的所述上行流量和所述下行流量中分别筛选出数值最大的前M个目标上行流量和前M个目标下行流量,并统计各个所述目标上行流量和目标下行流量分别在上行总流量和下行总流量中的比值;其中,M为大于或者等于1的整数;
将各个所述目标上行流量、各个所述目标下行流量、各个所述目标上行流量在上行总流量中的比值以及各个所述目标下行流量在下行总流量中的比值作为向量分量的特征值。
7.根据权利要求3所述的方法,其特征在于,基于所述访问数据,确定所述向量分量的特征值包括:
从所述访问数据中读取与所述目标服务器建立的各条连接的持续时间;
基于读取的所述持续时间,确定持续时间统计值;其中,所述持续时间统计值中包括持续时间最大值、持续时间最小值、持续时间平均值、持续时间中位数、持续时间标准差中的至少一种;
将所述持续时间统计值作为向量分量的特征值。
8.根据权利要求3所述的方法,其特征在于,基于所述访问数据,确定所述向量分量的特征值包括:
根据所述访问数据,确定与所述目标服务器建立的各条连接的时延;
计算所述时延对应的时延统计值,所述时延统计值包括时延最大值、时延最小值、时延平均值、时延中位数、时延标准差中的至少一种;
将所述时延统计值作为向量分量的特征值。
9.根据权利要求8所述的方法,其特征在于,确定与所述目标服务器建立的各条连接的时延包括:
根据所述连接中指定数据包的传输时间戳,确定所述指定数据包的传输时延,并将所述指定数据包的传输时延作为所述连接的时延。
10.根据权利要求3所述的方法,其特征在于,基于所述访问数据,确定所述向量分量的特征值包括:
从所述访问数据中读取与所述目标服务器建立的各条连接所使用的传输层协议并统计各个所述传输层协议的使用次数;
统计各个所述传输层协议的使用次数在总的使用次数中所占的比值;
将各个所述传输层协议对应的比值作为向量分量的特征值。
11.根据权利要求3所述的方法,其特征在于,基于所述访问数据,确定所述向量分量的特征值包括:
根据所述访问数据,统计与所述目标服务器建立的各个连接的异常结束状态并统计各个所述异常结束状态对应的出现次数;
计算各个所述异常结束状态的出现次数在总的出现次数中所占的比值;
将各个所述异常结束状态对应的比值作为向量分量的特征值。
12.权利要求3所述的方法,其特征在于,基于所述访问数据,确定所述向量分量的特征值包括:
根据所述访问数据统计在单位时间内与所述目标服务器建立的连接的数量,并将所述连接的数量作为向量分量的特征值。
13.权利要求3所述的方法,其特征在于,基于所述访问数据,确定所述向量分量的特征值包括:
根据所述访问数据统计在单位时间内与所述目标服务器建立连接的客户端的数量,并将所述客户端的数量作为向量分量的特征值。
14.权利要求3所述的方法,其特征在于,基于所述访问数据,确定所述向量分量的特征值包括:
根据所述访问数据,每隔单位时间统计一次与所述目标服务器建立的连接的数量;
对统计的各个所述连接的数量进行傅里叶变换,并选取傅里叶变换的结果中强度最大的K个频率点;其中,K为大于或者等于1的整数;
将选取的所述K个频率点作为向量分量的特征值。
15.一种服务器的分类系统,其特征在于,所述系统包括训练样本集获取单元、训练单元、向量构建单元以及预测单元,其中:
所述训练样本集获取单元,用于获取训练样本集,所述训练样本集中包括训练服务器对应的特征向量样本,所述特征向量样本根据所述训练服务器的访问数据确定,所述特征向量样本与所述训练服务器所属的服务器类型相关联;其中,所述特征向量样本中包括所述训练服务器的频率点特征,所述频率点特征通过对单位时间内统计的连接数量进行傅里叶变换得到;
所述训练单元,用于利用所述训练样本集对预设分类器进行训练,以使得训练后的预设分类器对输入的特征向量样本处理得到的分类结果与所述输入的特征向量样本关联的服务器类型一致;
所述向量构建单元,用于获取目标服务器的访问数据,并基于所述访问数据构建所述目标服务器的目标特征向量;
所述预测单元,用于将所述目标特征向量输入所述训练后的预设分类器中,得到所述目标服务器对应的分类结果。
16.根据权利要求15所述的系统,其特征在于,所述向量构建单元包括:
向量分量确定模块,用于预先确定所述目标特征向量中包含的向量分量;
特征值确定模块,用于基于所述访问数据,确定所述向量分量的特征值,并通过所述向量分量的特征值构成所述目标特征向量。
CN201711218716.9A 2017-11-28 2017-11-28 一种服务器的分类方法及分类系统 Expired - Fee Related CN107967488B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711218716.9A CN107967488B (zh) 2017-11-28 2017-11-28 一种服务器的分类方法及分类系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711218716.9A CN107967488B (zh) 2017-11-28 2017-11-28 一种服务器的分类方法及分类系统

Publications (2)

Publication Number Publication Date
CN107967488A CN107967488A (zh) 2018-04-27
CN107967488B true CN107967488B (zh) 2020-06-23

Family

ID=61998110

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711218716.9A Expired - Fee Related CN107967488B (zh) 2017-11-28 2017-11-28 一种服务器的分类方法及分类系统

Country Status (1)

Country Link
CN (1) CN107967488B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109818782A (zh) * 2018-12-31 2019-05-28 南京红柑桔信息技术有限公司 一种对服务器进行分类的方法
CN110414229B (zh) * 2019-03-29 2023-12-12 腾讯科技(深圳)有限公司 操作命令检测方法、装置、计算机设备及存储介质
CN111835681B (zh) * 2019-04-19 2023-08-04 北京京东尚科信息技术有限公司 一种大规模流量异常主机检测方法和装置
CN111881287B (zh) * 2019-09-10 2021-08-17 马上消费金融股份有限公司 一种分类模糊性分析方法及装置
CN111324518B (zh) * 2020-02-03 2024-05-03 中国银联股份有限公司 一种应用关联的方法及装置
US11323342B1 (en) 2020-10-29 2022-05-03 Red Hat, Inc. Host auto role classifier
CN113239968A (zh) * 2021-04-15 2021-08-10 国家计算机网络与信息安全管理中心 实现服务器分类的方法、装置、计算机存储介质及终端

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103297427A (zh) * 2013-05-21 2013-09-11 中国科学院信息工程研究所 一种未知网络协议识别方法及系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103297427A (zh) * 2013-05-21 2013-09-11 中国科学院信息工程研究所 一种未知网络协议识别方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于流特征的P2P流量监测方法研究;姜伟;《中国优秀硕士学位论文全文数据库信息科技辑》;20120715(第03期);第I139-129页 *

Also Published As

Publication number Publication date
CN107967488A (zh) 2018-04-27

Similar Documents

Publication Publication Date Title
CN107967488B (zh) 一种服务器的分类方法及分类系统
US9769190B2 (en) Methods and apparatus to identify malicious activity in a network
Shafiq et al. A machine learning approach for feature selection traffic classification using security analysis
CN108234247B (zh) 一种检测网络质量的方法和系统
CN110213227B (zh) 一种网络数据流检测方法及装置
Vlăduţu et al. Internet traffic classification based on flows' statistical properties with machine learning
US10027739B1 (en) Performance-based content delivery
Bujlow et al. A method for classification of network traffic based on C5. 0 Machine Learning Algorithm
WO2022001918A1 (zh) 构建预测模型的方法、装置、计算设备和存储介质
CN112953961B (zh) 配电房物联网中设备类型识别方法
CN113128626A (zh) 基于一维卷积神经网络模型的多媒体流细分类方法
Oršolić et al. In-network qoe and kpi monitoring of mobile youtube traffic: Insights for encrypted ios flows
CN111277451B (zh) 一种业务评估方法、装置、终端设备和介质
US11882045B2 (en) System and method for classifying network devices
CN111368858B (zh) 用户满意度评估方法及装置
CN116723313A (zh) 基于机器学习评测quic视频体验质量的方法、系统及介质
EP3018620A1 (en) Characterising user behaviour
CN108307231B (zh) 基于遗传算法的网络视频流特征选择与分类方法
Lv et al. Network encrypted traffic classification based on secondary voting enhanced random forest
JP6866322B2 (ja) アクセス元分類装置、アクセス元分類方法及びプログラム
Obasi et al. An experimental study of different machine and deep learning techniques for classification of encrypted network traffic
CN104125105A (zh) 对互联网应用场所分类的方法和装置
CN115396319B (zh) 数据流分片方法、装置、设备及存储介质
Lee et al. Session-based classification of internet applications in 3G wireless networks
US20230064755A1 (en) Data processing method and apparatus

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210819

Address after: 518000 b1-1302, building B, Kexing Science Park, No. 15, Keyuan Road, Science Park community, Yuehai street, Nanshan District, Shenzhen, Guangdong

Patentee after: Shenzhen aijieyun Technology Co.,Ltd.

Address before: 5 / F, building a, Guangqi Cultural Plaza, 2899 Xietu Road, Xuhui District, Shanghai, 200030

Patentee before: WANGSU SCIENCE & TECHNOLOGY Co.,Ltd.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200623