CN112001443A - 网络行为数据的监控方法、装置、存储介质及电子设备 - Google Patents

网络行为数据的监控方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN112001443A
CN112001443A CN202010860054.0A CN202010860054A CN112001443A CN 112001443 A CN112001443 A CN 112001443A CN 202010860054 A CN202010860054 A CN 202010860054A CN 112001443 A CN112001443 A CN 112001443A
Authority
CN
China
Prior art keywords
data
network behavior
behavior data
network
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010860054.0A
Other languages
English (en)
Inventor
黄健
卢鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Westone Information Industry Inc
Original Assignee
Chengdu Westone Information Industry Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Westone Information Industry Inc filed Critical Chengdu Westone Information Industry Inc
Priority to CN202010860054.0A priority Critical patent/CN112001443A/zh
Publication of CN112001443A publication Critical patent/CN112001443A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/302Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3072Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本公开涉及一种网络行为数据的监控方法、装置、存储介质及电子设备,本方案在对用户网络行为数据进行监控时,需要采集目标网络内各个终端的网络行为数据,从而实现了从整体上全面的对网络内的流量进行监控;并且,本方案中进行异常数据分析的目标数据模型,可以通过对历史特征数据进行训练得到,随着历史数据的增多,可通过训练的方式不断的完善目标数据模型,提高目标模型识别异常数据的准确率,进而实现更准确更快速得到网络行为数据的监控结果。

Description

网络行为数据的监控方法、装置、存储介质及电子设备
技术领域
本公开涉及行为数据分析技术领域,具体地,涉及一种用户网络行为数据的监控方法、装置、计算机可读存储介质及电子设备。
背景技术
随着互联网技术的发展,互联网的创新和应用日新月异,网络不仅改变了人们的日常生活,同时也改变着现代企业的运营模式和生存状况。无论是互联网企业,还是传统的制造、服务、金融行业等等,都离不开企业网来维持企业的正常运转和收益。企业员工可以在企业网下高效的完成工作,互相交流。企业管理者同样可以利用企业网更好的管理企业员工,提高管理效率。
用户网络行为是指用户使用互联网进行的各种各样的活动,随着互联网业务变得越来越五花八门,用户的网络行为也变得多种多样,导致海量的网络访问数据不断产生。企业迫切的需要高效、精确、科学的分析这些数据,研究员工使用网络的主要目的和行为,以便合理分配网络资源,发现员工利用网络进行与工作无关的内容,提升工作效率。在相关技术中,通过在员工的办公电脑上强制安装监控代理软件,通过该软件来监控员工的上网行为,通过预置的监控策略以及网址黑白名单等,来判断用户是否进行了与工作无关网络行为,通过事件上报的方式将异常行为报告给监控平台。
但是基于事件上报的方案需要在企业内所有联网终端强制安装监控代理软件,这种方式通常需要行政的手段来保证100%的安装率,容易出现遗漏。且公司规模越大安装成本越大,安装效率低,软件经常需要升级等。通过预置规则的方式来监控,不具有启发式的自主监控能力,需不断的更新规则、黑白名单来适应新的监控需求,具有一定的滞后性。
因此,如何及时有效的监控用户的网络行为数据,是本领域技术人员需要解决的问题。
发明内容
本公开的目的是提供一种用户网络行为数据的监控方法、装置、计算机可读存储介质及电子设备,以实现及时有效的监控用户的网络行为数据。
为了实现上述目的,本公开提供一种用户网络行为数据的监控方法,包括:
采集目标网络内各个终端的网络行为数据;
识别每个网络行为数据的业务类型;
根据每个网络行为数据的业务类型,提取与每个网络行为数据对应的特征数据;
通过与每个业务类型对应的目标数据模型对每个业务类型的特征数据进行分析,得到每个特征数据中的异常数据;
根据每个特征数据的异常数据,确定每个网络行为数据的监控结果。
可选地,所述采集所述目标网络内各个终端的网络行为数据,包括:
通过所述目标网络的汇聚交换机的镜像端口,采集所述目标网络内各个终端的网络行为数据。
可选地,所述提取与每个网络行为数据对应的特征数据之后,还包括:
将所述特征数据作为历史特征数据存储至特征数据库;
判断上一次训练所述目标模型的时间至当前时间的时间间隔,是否大于预定时长阈值;
若大于所述预定时长阈值,则对所述特征数据库内存储的未训练的历史特征数据,通过机器学习算法对所述目标数据模型进行训练。
可选地,所述识别每个网络行为数据的业务类型,包括:
调用DPI流分析引擎对每个网络行为数据的报文进行分析,确定每个网络行为数据的目标特征值;
将每个网络行为数据的目标特征值与DPI特征库内存储的与不同业务类型对应的特征值进行匹配,确定每个网络行为数据的业务类型。
可选地,若所述DPI特征库内存储的与不同业务类型对应的特征值,均与所述目标特征值不匹配,则所述监控方法还包括:
通过DFI流分析引擎将与所述目标特征值对应的网络行为数据输入分类模型,确定与所述目标特征值对应的网络行为数据的业务类型;其中,所述分类模型为对样本数据采用机器学习分类算法进行训练所形成的。
可选地,所述确定每个网络行为数据的监控结果之后,还包括:
生成与所述监控结果对应的告警信息,并进行提示。
可选地,所述识别每个网络行为数据的业务类型之后,还包括:
根据各个终端的网络行为数据的业务类型,生成所述目标网络的多维分析报告;所述多维分析报告包括在各终端维度下,和/或,各部门维度下,和/或,各区域维度下的:各业务类型的流量使用占用比信息、流量分布情况信息、流量高峰和低谷时间段信息。
本公开还提供一种用户网络行为数据的监控装置,包括:
数据采集模块,用于采集所述目标网络内各个终端的网络行为数据;
业务类型识别模块,用于识别每个网络行为数据的业务类型;
特征数据提取模块,用于根据每个网络行为数据的业务类型,提取与每个网络行为数据对应的特征数据;
分析模块,用于通过与每个业务类型对应的目标数据模型对每个业务类型的特征数据进行分析,得到每个特征数据中的异常数据;
监控结果确定模块,用于根据每个特征数据的异常数据,确定每个网络行为数据的监控结果。
本公开还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述的监控方法的步骤。
本公开还提供一种电子设备,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现上述的监控方法的步骤。
通过上述技术方案可以看出,本方案提供的一种用户网络行为数据的监控方法,在对用户网络行为数据进行监控时,需要采集目标网络内各个终端的网络行为数据,从而实现了从整体上全面的对网络内的流量进行监控;并且,本方案中进行异常数据分析的目标数据模型,可以通过对历史特征数据进行训练得到,随着历史数据的增多,可通过训练的方式不断的完善目标数据模型,提高目标模型识别异常数据的准确率,进而实现更准确更快速得到网络行为数据的监控结果。
本公开同时还提供了一种用户网络行为数据的监控装置、计算机可读存储介质及电子设备,同样能实现上述技术效果,在此不再赘述。并且,本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1是根据一示例性实施例示出的一种用户网络行为数据的监控方法的流程示意图;
图2是根据一示例性实施例示出的一种监控网络行为数据的网络结构图;
图3是根据另一示例性实施例示出的一种用户网络行为数据的监控方法的流程示意图;
图4是根据一示例性实施例示出的一种监控网络行为数据的系统架构图;
图5是根据另一示例性实施例示出的一种用户网络行为数据的监控方法的流程示意图;
图6是根据另一示例性实施例示出的一种用户网络行为数据的监控方法的流程示意图;
图7是根据一示例性实施例示出的一种用户网络行为数据的监控装置10的结构示意图;
图8是根据一示例性实施例示出的一种电子设备20的框图。
具体实施方式
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
本公开提供了一种用户网络行为数据的监控方法、装置、计算机可读存储介质及电子设备,以实现及时有效的监控用户的网络行为数据。
图1是根据一示例性实施例示出的一种用户网络行为数据的监控方法的流程示意图,如图1所述,所述方法包括:
S101、采集目标网络内各个终端的网络行为数据;
在本实施例中,目标网络是指需要分析用户网络行为数据的网络,例如:若对企业内用户进行网络行为数据的监控,此时的目标网络便为企业网;相应的,该目标网络内的各个终端,可以理解为企业中的各个员工所使用的主机,而各个终端的网络行为数据,可以理解为企业中的各个员工通过使用自己的主机执行网页浏览、文件传输、邮件收发等等操作时所生成的网络交互数据。
需要说明的是,在本实施例中,对于S101中采集目标网络的网络行为数据的方法有很多种,例如:可以通过协议采集SNMP/RMON(Simple Network Management Protocol,简单网络管理协议/Remote Network Monitoring,远端网络监控系统)方式采集,或者基于嗅探包的方式采集,或者基于流Flow的方式采集等等,在本实施例中并不具体限定,只要能实现流量采集功能便可。
可以理解的是,本方案收集到目标网络的网络行为数据后,首先需要利用过滤规则对数据进行过滤、净化、消噪等处理,删除不关心的无关信息,例如:根据预定义的过滤规则对报文长度超长或超时返回的空报文等流量进行过滤,或者,对符合预定协议的数据进行过滤等等,通过这种过滤流量的方式,可以确保本系统能够更加有效的对数据进行监控;该过滤规则可以根据业务类型户应用场景的不同进行预定义。
S102、识别每个网络行为数据的业务类型;
由于用户通过终端所执行操作的业务类型不同,会生成与不同业务类型对应的网络行为数据,而对于不同业务类型的网络行为数据,会具有不同的特征数据,并且在后文中进行异常数据检测的目标数据模型也是不同的。因此在本实施例中,在提取特征数据之前,需要对网络行为数据进行分析,识别该网络行为数据的业务类型。该业务类型可以为:网页浏览业务类型、文件传输业务类型、邮件收发业务类型、IM(Instant Message)即时通信业务类型、P2P(Peer-to-Peer)对等业务类型、流媒体业务类型等等。
在识别网络行为数据的业务类型时,可根据不同业务类型的数据特点进行识别,例如:对于P2P业务类型的网络报文长度通常在130~220字节这个范围内,连接速率一般在20~84kbit/s之间,且会话持续时间较长,因此在对网络行为数据进行业务类型的识别时,可以根据网络行为数据中的报文中是否存在报文长度、连接速率、连接时长等信息,如果存在,则判定该网络行为数据的业务类型为P2P业务类型。
S103、根据每个网络行为数据的业务类型,提取与每个网络行为数据对应的特征数据;
通过S102识别网络行为数据的业务类型后,需要根据该业务类型提取对应的特征数据,该特征数据的类型会根据业务类型的不同而不同,例如网络行为数据为P2P业务类型时,提取的特征数据的类型可以为报文大小、连接速率、会话时长等特征,对应的特征数据则为报文大小数据、连接速率数据、会话时长数据等。
可以理解的是,可预先设定与不同业务类型对应的特征提取规则,该特征提取规则中设定了与业务类型对应的待提取特征之间的对应关系,每个业务类型可与多个特征存在对应关系,通过该特征提取规则,便可在网络行为数据的业务类型确定后,从网络行为数据中提取对应的特征数据,以便对该网络行为数据进行流量分析。
S104、通过与每个业务类型对应的目标数据模型对每个业务类型的特征数据进行分析,得到每个特征数据中的异常数据;
S105、根据每个特征数据的异常数据,确定每个网络行为数据的监控结果。
在本实施例中,不同业务类型的特征数据可通过不同业务类型的数据模型进行处理,该目标数据模型是根据对应的历史特征数据训练得到的。所述历史特征数据是指在当前时刻之前的特征数据,例如在S103中得到的特征数据是在1月1日得到的特征数据,在两天后,即对于1月3日来说,1月1日得到的特征数据便是历史特征数据,而该目标数据模型便是通过对历史特征数据进行训练后生成的。
对于比较特殊的情况,例如:在初始情况下没有通过S103得到的特征数据,这时可通过对训练数据的学习,形成训练后的数据模型,通过该模型对新采集到的流量数据进行识别,判断是否存在异常数据。通过训练数据得到训练后的数据模型的过程可以包括:获取一定数量的与不同业务类型对应的历史网络行为数据,分别提取不同业务类型的特征数据后,利用机器学习算法对各业务类型的历史网络行为数据的特征数据进行聚类学习,训练出与各个业务类型对应的特征基线值,从而形成与不同业务类型对应的数据模型。
可以看出,对于本方案中的数据模型,可一直持续的将新的网络行为数据的特征数据代入该数据模型,从而识别出新的网络行为数据是否存在异常数据;也就是说,本方案对数据模型的训练过程,是长期的持续的过程,通过新网络行为数据的不断加入,不断的更新数据模型,从而使得数据模型更加稳定,识别率更高。
在S104中调用目标数据模型对特征数据进行分析时,由于该目标数据模型中记载了不同特征的特征基线值,也就是对于不同特征来说的正常的特征值范围。所以通过目标数据模型,便可分析出特征数据中的异常数据;例如:业务类型为P2P业务类型,特征数据为:报文长度150字节,目标数据模型中的的特征基线值为220字节,可以看出,特征数据中的报文长度小于220字节,说明不是异常数据;如果特征数据为:报文长度500字节,那么便超过特征基线值,所以该报文长度150字节变为异常数据。
确定网络行为数据中存在异常数据后,需要生成监控结果;可以理解的是,由于本方案是对目标网络内所有终端的网络行为数据进行监控,因此该监控结果中,可以存在与该网络行为数据对应的目标终端的标识信息,从而确定存在异常数据的网络行为数据具体是哪个终端的交互数据;进而,该监控结果还可以包括该网络行为数据的异常数据、业务类型、交互时间等信息,还可以包括目标终端所对应的员工的具体身份信息,例如,使用目标终端的用户名字、部门名称等等;也就是说,该监控结果中所包含信息的内容可根据实际情况进行自定义设定。
综上可以看出,本方案在对用户网络行为数据进行监控时,需要采集目标网络内各个终端的网络行为数据,从而实现了从整体上全面的对网络内的流量进行监控;并且,本方案中进行异常数据分析的目标数据模型,可以通过对历史特征数据进行训练得到,随着历史数据的增多,可通过训练的方式不断的完善目标数据模型,提高目标模型识别异常数据的准确率,进而实现更准确更快速得到网络行为数据的监控结果。
基于上述实施例,在本实施例中,S101中采集所述目标网络内各个终端的网络行为数据,可以包括:
通过所述目标网络的汇聚交换机的镜像端口,采集所述目标网络内各个终端的网络行为数据。
参见图2,为根据一示例性实施例示出的一种监控网络行为数据的网络结构图,参加图2,网络行为分析系统与汇聚交换机相连,该网络行为分析系统即为本方案的执行主体,也就是说,在本实施例中,采用旁路监听的模式,将网络行为分析系统部署在企业网出口汇聚交换机旁,通过汇聚交换机上的镜像端口来获取企业网进出口的全部流量,也即本方案中的网络行为数据;通过这种方式,不会对原有企业网络产生任何影响,并且,该方式与通过协议采集、基于嗅探包等方式相比,本方案通过镜像口获取的是完整的进出口流量,不会出现获取信息不完整、支持的网络协议不全、受网络设备是否支持等因素的限制。
基于上述任意实施例,在本实施例中,执行S103提取与每个网络行为数据对应的特征数据之后,还可以包括:将所述特征数据作为历史特征数据存储至特征数据库。
可以理解的是,对于每次监控时提取的特征数据,可作为历史特征数据存储至特征数据库,以便通过特征数据库中的历史特征数据对数据模型进行训练,不断完善目标模型。在本实施例中,提供两种对目标模型的训练方式:
方式一:
将所述特征数据作为历史特征数据存储至特征数据库之后,还包括:
判断所述特征数据库内存储的未训练的历史特征数据的数量是否大于预定数量阈值;若大于所述预定数量阈值,则对所述特征数据库内存储的未训练的历史特征数据,通过机器学习算法对所述目标数据模型进行训练。
方式二:
将所述特征数据作为历史特征数据存储至特征数据库之后,还包括:
判断上一次训练所述目标模型的时间至当前时间的时间间隔,是否大于预定时长阈值;若大于所述预定时长阈值,则对所述特征数据库内存储的未训练的历史特征数据,通过机器学习算法对所述目标数据模型进行训练。
在方式一中,设定了预定数量阈值,也即:将特征数据存储至特征数据库后,需要检测特征数据库中存储的未训练的历史特征数据的数量是否大于预定阈值,如果大于预定阈值,则说明特征数据库中存储了较多的未训练的特征数据,这时可利用特征数据库内存储的未训练的历史特征数据,通过机器学习算法对目标数据模型进行训练;在方式二中,设定了预定时长阈值,当检测到上一次训练目标模型至当前的时间间隔超过预定时长阈值,则需要对目标模型进行训练。
在上述两种方式中,训练目标数据模型的条件不同,一个是以特征数据的数量来确定,另一个是以时间来确定,不管是使用哪种方式,对目标数据模型训练的机器学习算法可以采用降维、聚类等机器学习算法,在此并不具体限定。当然,上述两种方式可以结合,也就是说,正常情况下,默认是以时间为周期,进行周期性对数据模型进行训练,也即方式二中,每次检测到未训练的时长超过该预定时长阈值后,便对数据模型进行训练;在这个过程中,如果某一段时间突发性的生成大量的特征数据,这时便可通过方式一检测到,从而及时的对数据模型进行训练。
方式一和方式二中的预定数量阈值和预定时长阈值可根据实际情况进行调整,该调整方式可通过管理员进行调整,也可以是系统分析后自动调整,并通知管理员;系统分析后自动调整可以适用于多种情况,在此列举一种情况进行说明:使用两种方式结合对数据模型训练时,如果在连续多次检测到未训练的特征数据超过预定数量阈值,则说明目标网络可能存在终端增多的情况,所以特征数据的数量才会持续性一直超过预定数量阈值,这时可自动减小预定时长阈值。
可以看出,在本实施例中,通过对上述两种方式可以周期性的对历史特征数据进行重新学习,不断完善数据模型,使得数据模型具有自适应能力,随着系统运行时间越长,数据模型将越加趋于稳定,识别准确率也会越高。
基于上述任意实施例,在本实施例中,公开了一种具体的用户网络行为数据的监控方法的流程示意图;参见图3,图3是根据另一示例性实施例示出的一种用户网络行为数据的监控方法的流程示意图,所述方法包括:
S201、采集目标网络内各个终端的网络行为数据;
S202、调用DPI流分析引擎对每个网络行为数据的报文进行分析,确定每个网络行为数据的目标特征值;
S203、判断所述目标特征值与DPI特征库内存储的与不同业务类型对应的特征值是否匹配;若匹配,则执行S204;若不匹配,则执行S205;
S204、根据目标特征值确定网络行为数据的业务类型,并执行S206;
S205、通过DFI流分析引擎将与目标特征值对应的网络行为数据输入分类模型,确定与目标特征值对应的网络行为数据的业务类型,并执行S206;其中,所述分类模型为对样本数据采用机器学习分类算法进行训练所形成的;
S206、根据每个网络行为数据的业务类型,提取与每个网络行为数据对应的特征数据;
S207、通过与每个业务类型对应的目标数据模型对每个业务类型的特征数据进行分析,得到每个特征数据中的异常数据;并根据每个特征数据的异常数据,确定每个网络行为数据的监控结果;
S208、生成与监控结果对应的告警信息,并进行提示。
在本实施例中,识别网络行为数据的业务类型时,可通过DPI(Deep PacketInspection,深度报文检测)和DFI(Deep/Dynamic Flow Inspection,深度/动态流检测)这两种技术对用户的网络行为数据进行识别、分类;参见图4,图4是根据一示例性实施例示出的一种监控网络行为数据的系统架构图,在图4中,Flume(日志收集系统)集群通过Flume集群汇聚网络行为数据,并根据预定义的过滤规则对网络行为数据进行过滤,经Flume集群处理后的数据导入Kafka分布式缓存集群中,供DPI/DFI流分析引擎获取数据流进行业务类型的识别;Flume集群和Kafka集群属于数据汇聚层。
在本实施例中,采集到网络行为数据,首先需要调用DPI流分析引擎对网络行为数据的报文进行分析,确定网络行为数据的目标特征值,再与DPI特征库中存储的各类业务的报文特征值进行匹配,识别业务类型;通过DPI技术识别的业务类型,由于DPI特征库中存储特征值为预先存储的已经确定与各个业务类型对应的特征值,因此通过DPI技术识别的特征值较为准确;但是如果目标特征值与DPI特征库内存储的特征值不匹配,这时可使用DFI技术,也就是通过DFI流分析引擎将从Kafka集群获取到的网络行为数据代入分类模型进行业务类型的识别;该分类模型可对样本数据采用机器学习分类算法进行训练形成,因此在使用的过程中,可不断通过训练数据对分类模型进行训练,从而可直线识别DPI未知类型的数据。可以看出,通过两种技术的优势互补,具有识别准确率更高,识别范围更广的特点。
为了提高业务类型的识别速率,在本实施例中,还可以同时调用DPI流分析引擎和DFI流分析引擎分别对网络行为数据进行识别,得到DPI识别结果和DFI识别结果,参见图4,图4中的协同分析、特征提取模块,主要实现的就是根据DPI/DFI流分析引擎对业务类型识别的分析结果进行综合判断,得到最终的识别结果,并对不同的业务数据流提取相应的特征数据,存入特征数据库(Hbase)。其中,综合判断是指DPI识别结果和DFI识别结果一致时,取一致的识别结果作为网络行为数据的业务类型;如果不一致,且在DPI识别结果中存在有效的识别结果时,例如:DPI识别结果不为空时,将DPI识别结果作为网络行为数据的业务类型;如果DPI识别结果不存在有效的识别结果,例如:DPI识别结果为空时,则将DFI识别结果作为网络行为数据的业务类型。
参见图4,在本实施例中业务层除了上述提及的DPI流分析引擎、DPI特征库、DFI流分析引擎、特征数据库以及协同分析、特征提取模块之外,还可以包括:Machine Learning机器学习算法库,用来提供各种聚类、分类、降维等机器学习算法的实现;分布式计算引擎Spark,通过Spark定时、周期性的对特征数据库中存放的所有历史特征数据利用机器学习算法进行训练,生成数据模型,供实时流处理引擎Spark Streaming实时分析数据流使用;实时流处理引擎Spark Streaming,采用机器学习训练生成的数据模型对各业务类型的数据流进行匹配,识别是否存在异常值。如有异常则生成告警信息发到告警模块。
参见图4,在本实施例中的系统框架还包括应用层,可以包括:告警管理,用来管理系统产生的告警信息,通过UI(User Interface,用户界面)进行显示,提醒管理员出现异常数据;任务管理,管理分析任务,该分析人物为对网络行为数据分析监控的任务;MySQL(关系型数据库管理系统)用来存放告警数据及任务数据;该任务数据执行对网络行为数据分析的相关控制数据,例如预定时长阈值、预定数量阈值等等。
可以看出,本实施例识别网络行为数据的业务类型时,可通过DPI和DFI这两种技术对用户的网络行为数据进行识别、分类,通过这两种技术的优势互补,具有识别准确率更高,识别范围更广的特点。
基于上述任意实施例,在本实施例中,公开了一种具体的用户网络行为数据的监控方法的流程示意图;参见图5,图5是根据另一示例性实施例示出的一种用户网络行为数据的监控方法的流程示意图,所述方法包括:
S301、采集目标网络内各个终端的网络行为数据;
S302、识别每个网络行为数据的业务类型;
S303、根据每个网络行为数据的业务类型,提取与每个网络行为数据对应的特征数据;
S304、通过与每个业务类型对应的目标数据模型对每个业务类型的特征数据进行分析,得到每个特征数据中的异常数据;并根据每个特征数据的异常数据,确定每个网络行为数据的监控结果;
S305、根据各个终端的网络行为数据的业务类型,生成所述目标网络的多维分析报告;所述多维分析报告包括在各终端维度下,和/或,各部门维度下,和/或,各区域维度下的:各业务类型的流量使用占用比信息、流量分布情况信息、流量高峰和低谷时间段信息。
在本实施例中,通过全面的监控企业网的所有进出口数据流量,可以生成多维分析报告,该多维分析报告的数据可以通过多维度的形式来展现,例如:在各个终端的维度下展示,和/或,在各部门的维度下展示,和/或,在各区域维度下进行展示,该区域是指物理上的区域;多维分析报告的展示内容可以为各业务类型的流量使用占用比信息、流量分布情况信息、流量高峰和低谷时间段信息等信息;多维分析报告的展示的形式可以为图表、报表的形式,当然,本实施例仅以上述实施例对所谓分析报告为例进行说明,并不局限于此。
可以看出,通过该多维分析报告,可从整网的角度反应企业网流量的分类、分布、使用率等状态信息,使企业管理者能直观的查看各业务类型的流量的使用占比、分布情况、流量的高峰和低谷出现的时间段,能够以个人、部门、区域等多维度来分析网络流量,为企业管理者做网络优化、合理分配网络资源提供数据支撑。
参见图6,图6是根据另一示例性实施例示出的一种用户网络行为数据的监控方法的流程示意图,该图能从整体上体现监控方法的流程,包括:
S1.通过汇聚交换机上的镜像端口获取企业网进出口的全部流量数据,并根据过滤规则对流量数据进行过滤、净化、消噪处理。
S2.对过滤的无关信息进行丢弃。
S3.对满足过滤条件的数据流使用DPI/DFI技术识别其所属的业务类型。
S4.对分类后的业务流数据分布提取关键特征值。
S5.将特征值存入特征数据库。
S6.获取机器学习训练后的数据模型。
S7.将新采集到的数据流的特征数据代入训练好的模型中。
S8.判断新采集到的数据流是否存在异常。
S9.如果没有异常则流程结束。
S10.如果有异常,则产生告警,告警信息存入数据库。
S11.将告警信息进行界面呈现,通知系统管理员。
S12.结束流程。
S13.定时周期性的从特征数据库中获取所有历史特征数据,并通过机器学习算法对其进行训练,更新数据模型。
S14.将模型持久化后供S6使用。
可以看出,本方案通过汇聚交换机上的镜像端口获取企业网进出口的全部流量数据,实现了对待监控数据的完整获取,不会有遗漏信息,部署简单,企业网只需要部署一套系统即可;监控对员工透明,不影响员工办公;并且,结合DP和DFI两种技术对用户的网络业务数据流进行识别、分类,两种技术优势互补,具有识别准确率更高,识别范围更广的特点,且DFI技术可利用机器学习分类算法,对同一业务类型的新软件所产生的流量进行自动识别。
并且,本方案利用机器学习技术定时对所有历史特征数据进行重新学习,不断完善数据模型,使得数据模型具有自适应能力,从而实现提高监控识别率及准确率,能够自我学习、进化,对新型业务能够自动识别;进而,本方案监控的维度更全面,不仅能对个人的网络行为进行监控,还能对整网的运行状态、流量分类、分布等情况全面掌握,利于企业管理者对网络进行优化、协调网络资源分配等。
图7是根据一示例性实施例示出的一种用户网络行为数据的监控装置10的结构示意图。图7中,所述监控装置包括:
数据采集模块11,用于采集所述目标网络内各个终端的网络行为数据;
业务类型识别模块12,用于识别每个网络行为数据的业务类型;
特征数据提取模块13,用于根据每个网络行为数据的业务类型,提取与每个网络行为数据对应的特征数据;
分析模块14,用于通过与每个业务类型对应的目标数据模型对每个业务类型的特征数据进行分析,得到每个特征数据中的异常数据;
监控结果确定模块15,用于根据每个特征数据的异常数据,确定每个网络行为数据的监控结果。
可选的,所述数据采集模块包括:
流量采集单元,用于通过所述目标网络的汇聚交换机的镜像端口,采集所述目标网络内各个终端的网络行为数据。
可选的,本公开还包括:
存储模块,用于将所述特征数据作为历史特征数据存储至特征数据库;
第一判断模块,用于判断所述特征数据库内存储的未训练的历史特征数据的数量是否大于预定数量阈值;
第一目标数据模型训练模块,用于在所述特征数据库内存储的未训练的历史特征数据的数量大于所述预定数量阈值时,对所述特征数据库内存储的未训练的历史特征数据,通过机器学习算法对所述目标数据模型进行训练;
第二判断模块,用于判断上一次训练所述目标模型的时间至当前时间的时间间隔,是否大于预定时长阈值;
第二目标数据模型训练模块,用于在上一次训练所述目标模型的时间至当前时间的时间间隔大于所述预定时长阈值时,对所述特征数据库内存储的未训练的历史特征数据,通过机器学习算法对所述目标数据模型进行训练。
可选的,所述业务类型识别模块包括:
报文分析单元,用于调用DPI流分析引擎对每个网络行为数据的报文进行分析,确定每个网络行为数据的目标特征值;
特征匹配单元,用于将每个网络行为数据的目标特征值与DPI特征库内存储的与不同业务类型对应的特征值进行匹配,确定每个网络行为数据的业务类型。
可选的,所述业务类型识别模块还包括:
业务类型确定单元,用于通过DFI流分析引擎将与所述目标特征值对应的网络行为数据输入分类模型,确定与所述目标特征值对应的网络行为数据的业务类型;其中,所述分类模型为对样本数据采用机器学习分类算法进行训练所形成的。
可选的,本公开还包括:
告警信息生成模块,用于生成与所述监控结果对应的告警信息;
提示模块,用于将所述告警信息进行提示。
可选的,本公开还包括:
多维分析报告生成模块,用于根据各个终端的网络行为数据的业务类型,生成所述目标网络的多维分析报告;所述多维分析报告包括在各终端维度下,和/或,各部门维度下,和/或,各区域维度下的:各业务类型的流量使用占用比信息、流量分布情况信息、流量高峰和低谷时间段信息。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图8是根据一示例性实施例示出的一种电子设备20的框图。例如,电子设备20可以被提供为一服务器。参照图8,电子设备20包括处理器21,其数量可以为一个或多个,以及存储器22,用于存储可由处理器21执行的计算机程序。存储器22中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理器21可以被配置为执行该计算机程序,以执行上述的用户网络行为数据的监控方法。
另外,电子设备20还可以包括电源组件23和通信组件24,该电源组件23可以被配置为执行电子设备20的电源管理,该通信组件24可以被配置为实现电子设备20的通信,例如,有线或无线通信。此外,该电子设备20还可以包括输入/输出(I/O)接口25。电子设备20可以操作基于存储在存储器22的操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM等等。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的用户网络行为数据的监控方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器22,上述程序指令可由电子设备20的处理器21执行以完成上述的用户网络行为数据的监控方法。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。

Claims (10)

1.一种用户网络行为数据的监控方法,其特征在于,包括:
采集目标网络内各个终端的网络行为数据;
识别每个网络行为数据的业务类型;
根据每个网络行为数据的业务类型,提取与每个网络行为数据对应的特征数据;
通过与每个业务类型对应的目标数据模型对每个业务类型的特征数据进行分析,得到每个特征数据中的异常数据;
根据每个特征数据的异常数据,确定每个网络行为数据的监控结果。
2.根据权利要求1所述的监控方法,其特征在于,所述采集所述目标网络内各个终端的网络行为数据,包括:
通过所述目标网络的汇聚交换机的镜像端口,采集所述目标网络内各个终端的网络行为数据。
3.根据权利要求1所述的监控方法,其特征在于,所述提取与每个网络行为数据对应的特征数据之后,还包括:
将所述特征数据作为历史特征数据存储至特征数据库;
判断上一次训练所述目标模型的时间至当前时间的时间间隔,是否大于预定时长阈值;
若大于所述预定时长阈值,则对所述特征数据库内存储的未训练的历史特征数据,通过机器学习算法对所述目标数据模型进行训练。
4.根据权利要求1所述的监控方法,其特征在于,所述识别每个网络行为数据的业务类型,包括:
调用DPI流分析引擎对每个网络行为数据的报文进行分析,确定每个网络行为数据的目标特征值;
将每个网络行为数据的目标特征值与DPI特征库内存储的与不同业务类型对应的特征值进行匹配,确定每个网络行为数据的业务类型。
5.根据权利要求4所述的监控方法,其特征在于,若所述DPI特征库内存储的与不同业务类型对应的特征值,均与所述目标特征值不匹配,则所述监控方法还包括:
通过DFI流分析引擎将与所述目标特征值对应的网络行为数据输入分类模型,确定与所述目标特征值对应的网络行为数据的业务类型;其中,所述分类模型为对样本数据采用机器学习分类算法进行训练所形成的。
6.根据权利要求1至5中任意一项所述的监控方法,其特征在于,所述确定每个网络行为数据的监控结果之后,还包括:
生成与所述监控结果对应的告警信息,并进行提示。
7.根据权利要求1至5中任意一项所述的监控方法,其特征在于,所述识别每个网络行为数据的业务类型之后,还包括:
根据各个终端的网络行为数据的业务类型,生成所述目标网络的多维分析报告;所述多维分析报告包括在各终端维度下,和/或,各部门维度下,和/或,各区域维度下的:各业务类型的流量使用占用比信息、流量分布情况信息、流量高峰和低谷时间段信息。
8.一种用户网络行为数据的监控装置,其特征在于,包括:
数据采集模块,用于采集所述目标网络内各个终端的网络行为数据;
业务类型识别模块,用于识别每个网络行为数据的业务类型;
特征数据提取模块,用于根据每个网络行为数据的业务类型,提取与每个网络行为数据对应的特征数据;
分析模块,用于通过与每个业务类型对应的目标数据模型对每个业务类型的特征数据进行分析,得到每个特征数据中的异常数据;
监控结果确定模块,用于根据每个特征数据的异常数据,确定每个网络行为数据的监控结果。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-7中任一项所述的监控方法的步骤。
10.一种电子设备,其特征在于,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1-7中任一项所述的监控方法的步骤。
CN202010860054.0A 2020-08-24 2020-08-24 网络行为数据的监控方法、装置、存储介质及电子设备 Pending CN112001443A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010860054.0A CN112001443A (zh) 2020-08-24 2020-08-24 网络行为数据的监控方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010860054.0A CN112001443A (zh) 2020-08-24 2020-08-24 网络行为数据的监控方法、装置、存储介质及电子设备

Publications (1)

Publication Number Publication Date
CN112001443A true CN112001443A (zh) 2020-11-27

Family

ID=73471656

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010860054.0A Pending CN112001443A (zh) 2020-08-24 2020-08-24 网络行为数据的监控方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN112001443A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112291276A (zh) * 2020-12-28 2021-01-29 金锐同创(北京)科技股份有限公司 流量报警方法、装置及电子设备
CN113392151A (zh) * 2021-07-07 2021-09-14 上海软中信息技术有限公司 一种实现数据挖掘的系统、方法、装置及存储介质
CN114500050A (zh) * 2022-01-26 2022-05-13 亚信科技(成都)有限公司 一种数据状态检测方法、装置和存储介质
CN115426198A (zh) * 2022-11-01 2022-12-02 杭州安恒信息技术股份有限公司 一种情报信息处理方法、装置、设备及存储介质
CN116185672A (zh) * 2023-04-28 2023-05-30 北京亿赛通科技发展有限责任公司 一种数据监控方法、装置及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102176698A (zh) * 2010-12-20 2011-09-07 北京邮电大学 一种基于迁移学习的用户异常行为检测方法
CN102821002A (zh) * 2011-06-09 2012-12-12 中国移动通信集团河南有限公司信阳分公司 网络流量异常检测方法和系统
CN106453355A (zh) * 2016-10-25 2017-02-22 东软集团股份有限公司 数据分析方法及装置
CN106790193A (zh) * 2016-12-30 2017-05-31 山石网科通信技术有限公司 基于主机网络行为的异常检测方法和装置
CN107360118A (zh) * 2016-05-09 2017-11-17 中国移动通信集团四川有限公司 一种高级持续威胁攻击防护方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102176698A (zh) * 2010-12-20 2011-09-07 北京邮电大学 一种基于迁移学习的用户异常行为检测方法
CN102821002A (zh) * 2011-06-09 2012-12-12 中国移动通信集团河南有限公司信阳分公司 网络流量异常检测方法和系统
CN107360118A (zh) * 2016-05-09 2017-11-17 中国移动通信集团四川有限公司 一种高级持续威胁攻击防护方法及装置
CN106453355A (zh) * 2016-10-25 2017-02-22 东软集团股份有限公司 数据分析方法及装置
CN106790193A (zh) * 2016-12-30 2017-05-31 山石网科通信技术有限公司 基于主机网络行为的异常检测方法和装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112291276A (zh) * 2020-12-28 2021-01-29 金锐同创(北京)科技股份有限公司 流量报警方法、装置及电子设备
CN112291276B (zh) * 2020-12-28 2021-03-23 金锐同创(北京)科技股份有限公司 流量报警方法、装置及电子设备
CN113392151A (zh) * 2021-07-07 2021-09-14 上海软中信息技术有限公司 一种实现数据挖掘的系统、方法、装置及存储介质
CN114500050A (zh) * 2022-01-26 2022-05-13 亚信科技(成都)有限公司 一种数据状态检测方法、装置和存储介质
CN114500050B (zh) * 2022-01-26 2024-03-15 亚信科技(成都)有限公司 一种数据状态检测方法、装置和存储介质
CN115426198A (zh) * 2022-11-01 2022-12-02 杭州安恒信息技术股份有限公司 一种情报信息处理方法、装置、设备及存储介质
CN115426198B (zh) * 2022-11-01 2023-03-24 杭州安恒信息技术股份有限公司 一种情报信息处理方法、装置、设备及存储介质
CN116185672A (zh) * 2023-04-28 2023-05-30 北京亿赛通科技发展有限责任公司 一种数据监控方法、装置及存储介质
CN116185672B (zh) * 2023-04-28 2023-08-22 北京亿赛通科技发展有限责任公司 一种数据监控方法、装置及存储介质

Similar Documents

Publication Publication Date Title
CN112001443A (zh) 网络行为数据的监控方法、装置、存储介质及电子设备
CN110493348B (zh) 一种基于物联网的智能监控报警系统
CN109271793B (zh) 物联网云平台设备类别识别方法及系统
CN105159964B (zh) 一种日志监控方法及系统
CN113176978B (zh) 基于日志文件的监控方法、系统、设备及可读存储介质
US11042525B2 (en) Extracting and labeling custom information from log messages
CN102447570A (zh) 一种基于健康度分析的监控装置及方法
US9961047B2 (en) Network security management
CN109218321A (zh) 一种网络入侵检测方法及系统
CN109104438A (zh) 一种窄带物联网中的僵尸网络预警方法及装置
CN116594857A (zh) 一种基于人工智能的办公软件智能交互管理平台
CN111754241A (zh) 一种用户行为感知方法、装置、设备及介质
CN109800133A (zh) 一种统一监控告警的方法、一站式监控告警平台及系统
CN106375295A (zh) 数据存储监控方法
CN107465652B (zh) 一种操作行为检测方法、服务器及系统
CN115269438A (zh) 针对图像处理算法的自动化测试方法及装置
CN109493251B (zh) 一种电力无线公网监控系统
CN110968479A (zh) 一种针对应用程序的业务级全链路监控方法及服务器
CN111651760B (zh) 一种设备安全状态综合分析的方法及计算机可读存储介质
CN110677271B (zh) 基于elk的大数据告警方法、装置、设备及存储介质
CN112565228A (zh) 一种客户端网络分析方法及装置
CN103812676A (zh) 一种实现日志数据实时关联装置及方法
KR101973728B1 (ko) 통합 보안 이상징후 모니터링 시스템
CN108289035B (zh) 一种直观的网络及业务系统运行状态展现方法及系统
Kaur et al. Madam ID for intrusion detection using data mining

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination