网络数据的处理方法、装置、计算机设备和存储介质
技术领域
本发明涉及网络行为数据处理技术领域,尤其涉及一种网络数据的处理方法、装置、计算机设备和存储介质。
背景技术
近年来,全世界不断发生网络安全事件,网络安全问题日益突出。随着相关数据量呈爆炸式增长的趋势,网络攻击模式也越来越复杂多变,在防御方面,目前针对已知威胁的发现和处置游刃有余,而面对未知威胁往往办法不多,大多需要依靠安全人员的经验和已有工具或产品来分析,而这些方式已经无法满足业界需求。
同时,人工智能技术飞速发展,机器学习及其分支深度学习技术在计算机视觉、语音识别和自然语言处理等领域取得了巨大突破。学术界和工业界越来越多的人开始利用人工智能技术尝试解决网络安全中的问题。人工智能可凭借自动化、智能化及大规模运算能力等优势,快速检测百万、千万甚至上亿次事件,以发现安全威胁。
然而,在实际的研究或应用过程中发现,网络数据与传统人工智能领域的数据表现形式差异很大,在数据结构方面,传统数据多为文本、图像、语音或视频等,多为非结构化数据,而网络数据更多是结构化数据;在数据表示方面,一篇文本足以表示某个主题的新闻,一幅完整的图像可表示相对完整的画面及其中的人、物及动作,这种“所读、所见或所闻即所得”的表示方法是千百年来人类进化的产物,但如何表示网络数据,对后续的建模和分析更为有利,并没有标准答案。
因此,提供一种网络数据的处理方法、装置、计算机设备和存储介质,实现一种标准化的网络数据表示,以适用于人工智能对网络威胁的识别,成为本领域亟需解决的技术问题。
发明内容
本发明的目的是提供一种网络数据的处理方法、装置、计算机设备和存储介质,用于解决现有技术中的上述技术问题。
一方面,为实现上述目的,本发明提供了一种网络数据的处理方法。
该网络数据的处理方法包括:获取网络数据;提取网络数据中第一端的行为数据,其中,行为数据包括第二端和行为属性,行为属性为第一端与第二端之间产生的网络行为的属性;将第二端映射为预设模板图像中点的位置坐标,将行为属性映射为点的形态属性;以及在位置坐标处显示形态属性的点,得到行为数据对应的图像点。
进一步地,行为数据还包括网络行为的行为时间,网络数据包括由多条行为数据构成的行为数据组,在行为数据组中,行为时间满足预设关联关系的两条行为数据对应的图像点互为关联点,网络数据的处理方法还包括:在关联点之间显示连接线。
进一步地,关联点为行为时间相邻的两条行为数据对应的图像点。
进一步地,连接线为向量,向量的方向表征关联点对应的行为时间的先后。
进一步地,在关联点之间显示连接线的步骤之前,网络数据的处理方法还包括:统计行为数据组对应的相同关联点的数量;将数量映射为线的形态属性;在关联点之间显示连接线的步骤包括:在关联点之间按照线的形态属性显示连接线。
进一步地,在提取网络数据中第一端的行为数据的步骤之后,网络数据的处理方法还包括:根据行为数据得到第一表,其中,第一表包括多条第一数据记录,第一数据记录对应一条行为数据,第一数据记录包括设置行为时间的第一列、设置第二端的第二列和设置行为属性的第三列;将第一表转化为第二表,其中,第二表包括多条第二数据记录,第二数据记录对应行为时间满足预设关联关系的两条行为数据,两条行为数据为第一行为数据和第二行为数据,第二数据记录包括设置第一行为数据中第二端的第一列、设置第二行为数据中第二端的第二列、设置第一行为数据中行为属性的第三列以及设置第二行为数据中行为属性的第四列;其中,将第二端映射为预设模板图像中点的位置坐标,将行为属性映射为点的形态属性的步骤包括:将第二表中的第一列和第二列批量映射为位置坐标,将第二表中第三列和第四列批量映射为形态属性,以得到第三表;在位置坐标处显示形态属性的点,得到行为数据对应的图像点,在关联点之间显示连接线的步骤包括:根据第三表中第一列的第i个元素和第三列的第i个元素得到第一图像点,根据第三表中第二列的第i个元素和第四列的第i个元素得到第二图像点,在第一图像点和第二图像点之间显示连接线。
进一步地,在提取网络数据中第一端的行为数据的步骤之后,网络数据的处理方法还包括:根据行为数据得到第一表,其中,第一表包括多条第一数据记录,第一数据记录对应一条行为数据,第一数据记录包括设置行为时间的第一列、设置第二端的第二列和设置行为属性的第三列;将第一表转化为第二表,其中,第二表包括多条第二数据记录,第二数据记录对应行为时间满足预设关联关系的两条行为数据,两条行为数据为第一行为数据和第二行为数据,第二数据记录包括设置第一行为数据中第二端的第一列、设置第二行为数据中第二端的第二列、设置第一行为数据中行为属性的第三列、设置第二行为数据中行为属性的第四列和设置数量的第五列;其中,将第二端映射为预设模板图像中点的位置坐标,将行为属性映射为点的形态属性,将数量映射为线的形态属性的步骤包括:将第二表中的第一列和第二列批量映射为位置坐标,将第二表中第三列和第四列批量映射为点的形态属性,将第二表中第五列批量映射为线的形态属性,以得到第三表;在位置坐标处显示形态属性的点,得到行为数据对应的图像点,在关联点之间按照线的形态属性显示连接线的步骤包括:根据第三表中第一列的第i个元素和第三列的第i个元素得到第一图像点,根据第三表中第二列的第i个元素和第四列的第i个元素得到第二图像点,在第一图像点和第二图像点之间按照第五列的第i个元素显示连接线。
进一步地,线的形态属性包括线的形状、粗细和/或颜色。
进一步地,点的形态属性包括点的形状、大小和/或颜色。
进一步地,第一端为网络行为的发起端,第二端为网络行为的接收端。
进一步地,将第二端映射为预设模板图像中点的位置坐标的步骤包括:在预设模板图像中预设多个点的位置坐标;通过按序分配、随机分配或最远距离分配,将预设多个点的位置坐标分配一个端标识,建立位置坐标与端标识之间的一一对应的第一映射关系;根据第二端的端标识和第一映射关系,确定第二端对应的位置坐标。
进一步地,预设模板图像为具有多个像素的图片,点包括若干个像素,位置坐标根据像素的位置确定,点的形态属性根据像素的RGB值确定。
进一步地,同一个点的各像素的RGB值相同,不同点包括的像素的数量相同。
进一步地,各点在图片上均匀设置。
进一步地,预设模板图像为具有n*n个像素的图片,其中,n=(2k-1)*m,点为包括m个像素,相邻的点之间间隔m个像素。
进一步地,将行为属性映射为点的形态属性的步骤包括:确定行为属性的编号i;确定像素的RGB值范围,其中,像素的R值的范围为0~r,像素的G值的范围为0~g,像素的B值的范围为0~b;采用以下公式计算编号i对应的十六进制数
其中,
表示向下取整,c表示行为属性的种类数量,HEX()表示将二进制数转为十六进制数;以及将十六进制数x的每两位数转换为十进制数得到像素的RGB值。
进一步地,将数量映射为线的形态属性的步骤包括:将数量由十进制数转换为十六进制数;将十六进制数的每两位转为十进制数,得到线对应的RGB值。
一方面,为实现上述目的,本发明提供了一种网络数据的处理装置。
该网络数据的处理装置包括:获取模块,用于获取网络数据;提取模块,用于提取网络数据中第一端的行为数据,其中,行为数据包括第二端和行为属性,行为属性为第一端与第二端之间产生的网络行为的属性;映射模块,用于将第二端映射为预设模板图像中点的位置坐标,将行为属性映射为点的形态属性;以及显示模块,用于在位置坐标处显示形态属性的点,得到行为数据对应的图像点。
为实现上述目的,本发明还提供一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述方法的步骤。
为实现上述目的,本发明还提供计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
本发明提供的网络数据的处理方法、装置、计算机设备和存储介质,获取网络数据进行行为数据的提取,提取到网络发起端的行为数据,该行为数据包括网络行为的接收端以及网络行为的行为属性,然后将接收端映射为预设模板图像中的点的位置坐标,将行为属性映射为点的形态属性,通过在位置坐标出显示该形态属性的点,得到行为数据对应的图像点,实现了网络行为的图像化,也即结构化数据向非结构化数据的转变,在对网络行为进行后续处理时,包括安全威胁的识别等,可基于人工智能处理图像的方式进行处理。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本发明实施例一提供的网络数据的处理方法的流程图;
图2为本发明实施例二提供的网络数据表示子系统的工作流程图;
图3为本发明实施例二提供的预设模板图像的示意图;
图4至图5为本发明实施例二提供的网络数据处理为图像的效果图;
图6为本发明实施例三提供的网络数据的处理装置的框图
图7为本发明实施例四提供的计算机设备的硬件结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供了一种网络数据的处理方法、装置、计算机设备和存储介质,通过该网络数据的处理方法,能够将网络数据中表征网络行为的数据图像化,也即,将结构化的行为数据映射为行为图像,实现标准化的网络数据标识,从而能够以人工智能技术处理图像的方式对行为图像进行处理,实现网络威胁的识别。具体地,在获取到网络数据进行处理时,提取网络数据中第一端的行为数据,该行为数据对应第一端发起的一次网络行为,包括第二端和行为属性,其中,第二端为网络行为的接收端,行为属性为该网络行为的属性;提取上述行为数据后,将行为数据映射为预设模板图像中的一个点,其中,将行为数据的第二端映射为预设模板图像中点的位置坐标,将行为数据的行为属性映射为点的形态属性,然后在位置坐标处显示形态属性的点,得到行为数据对应的图像点,不同的行为数据对应不同的图像点,实现了行为数据的图像化。
关于本发明提供的网络数据的处理方法、装置、计算机设备和存储介质的具体实施例,将在下文中详细描述。
实施例一
本发明实施例一提供了一种网络数据的处理方法,通过该处理方法,能够将网络数据中表征网络行为的行为数据图像化,也即将结构化数据转化为非结构化的图像数据,实现了一种标准化的网络数据表示,有利于通过人工智能技术实现威胁识别,具体地,图1为本发明实施例一提供的网络数据的处理方法的流程图,如图1所示,该实施例提供的网络数据的处理方法包括如下的步骤S101至步骤S104。
步骤S101:获取网络数据。
其中,网络数据包括网络流量数据以及网络日志数据,凡是包括两端之间网络行为的数据均为本发明中所述的网络数据。具体地,可通过抓包、读取日志等方式获取网络数据。
步骤S102:提取网络数据中第一端的行为数据。
其中,行为数据包括第二端和行为属性,行为属性为第一端与第二端之间产生的网络行为的属性。需要说明的是,该处的行为数据包括的第二端实质上是能够唯一标识第二端的标识数据,例如,当第二端为一个实体设备时,该处行为数据包括的第二端实质上是能够唯一标识该实体设备的标识数据,例如计算机的mac地址、ip地址等;当第二端为一个虚拟端时,例如账号、邮箱等,该处行为数据包括的第二端是指账号信息或邮箱信息等。
在读取到网络数据后,对网络数据中表征网络行为的数据进行提取,具体可以边获取网络数据边实时进行行为数据的提取。网络行为是指在通信网络中,由第一端向第二端发起的网络行为,行为数据包括网路行为的接收端,具体可以为接收端的标识、编号、地址等可以唯一标识接收端的信息,在本发明中,将网络行为的发起端定义为第一端,网络行为的接收端定义为第二端,行为属性为网络行为的属性。
步骤S103:将第二端映射为预设模板图像中点的位置坐标,将行为属性映射为点的形态属性。
通过上述步骤S102在提取到行为数据后,在该步骤S103中,对行为数据按照预设的映射规则映射到预设模板图像中,也即将网络行为图像化。
具体地,映射规则包括在第二端(本申请中是指标识第二端的信息)与预设模板图像的点的位置坐标之间建立的映射关系,通过该映射关系,将第二端映射为预设模板图像中点的位置坐标,需要说明是,该处的位置坐标可以为在一种坐标系中标识点位置的数据,例如直角坐标系中通过横纵坐标标识点位置的数据,又如极坐标系中通过极角和极径标识点位置的数据;也可以为通过序号等标识点位置的数据,例如通过图像中像素的序号标识点位置的数据等,本申请对此并不进行限定,所有能够在图像中标识出点位置的数据均属于本申请中的位置坐标,以实现通过在预设模板图像中不同位置的点来表征不同第二端的目的。
映射规则还包括在行为属性与预设模板图像的点的形态属性之间建立的映射关系,通过该映射关系,将行为属性映射为预设模板图像中点的形态属性,需要说明是,该处的行为属性可以为网络行为的单个属性,例如网络连接的连接方式,也可以为网络行为的多个属性的组合,例如网络连接的连接方式和数据传输协议的组合,该处的点的形态属性可以为点的大小、形状和/或颜色,也可以为点的其他参数,所有能够在图像中体现出点的差异的特性均属于本申请的点的形态属性,以实现通过在预设模板图像中点的不同形态属性来表征不同行为属性的目的。
步骤S104:在位置坐标处显示形态属性的点,得到行为数据对应的图像点。
通过上述步骤S103将行为数据映射为图像中的特征后,在该步骤S103中,将图像特征显化,从而在预设模板图像中得到与行为数据对应的图像点。将网络数据中提取出的针对第一端的所有行为数据均采用上述的步骤,在同一张图像中得到对应的图像点后,该图像即成为能够表征第一端的网络数据的图像,实现了网络数据的图像化。可选地,针对一段时间内的网络数据,当网络数据包括多个发起端的数据时,可将不同发起端对应的行为数据映射为不同图像,将同一发起端对应的行为数据映射为同一图像,每一图像表征该端时间内一个发起端发起的网络行为,通过对该图像的人工智能处理,能够实现对网络行为的人工智能处理。
综上所述,在该实施例提供的网络数据的处理方法中,获取网络数据进行行为数据的提取,提取到网络发起端的行为数据,该行为数据包括网络行为的接收端以及网络行为的行为属性,然后将接收端映射为预设模板图像中的点的位置坐标,将行为属性映射为点的形态属性,通过在位置坐标出显示该形态属性的点,得到行为数据对应的图像点,实现了网络行为的图像化,也即结构化数据向非结构化数据的转变,在对网络行为进行后续处理时,包括安全威胁的识别等,可基于人工智能处理图像的方式进行处理。
可选地,在一种实施例中,行为数据还包括网络行为的行为时间,网络数据包括由多条行为数据构成的行为数据组,在行为数据组中,行为时间满足预设关联关系的两条行为数据对应的图像点互为关联点,网络数据的处理方法还包括:在关联点之间显示连接线。
具体地,行为数据组包括多条行为数据,每条行为数据对应一个网络行为,行为数据组表征的一个发起端在一段时间内发起的多个网络行为的数据。可根据实际需要预设基于行为时间的关联关系,在该行为数据组中,将行为时间满足预设关联关系的两条行为数据对应的图像点互为关联点,例如,将间隔时间满足预设时长的两条行为数据对应的图像点互为关联点,又如,将相邻的两条行为数据对应的图像点互为关联点,通过在关联点之间显示连接线,实现上述关联关系的图像化,也即,通过图像信息体现哪些网络行为之间满足关联关系。
采用该实施例提供的网络数据的处理方法,提取的行为数据包括行为时间,基于此,将行为时间满足关联关系的网络行为通过在网络行为对应的图像点,也即关联点之间设置的连接线体现,进而能够通过图像体现网络行为的关联关系,进而能够通过处理图像的方式来实现对网络行为关联关系的处理。
可选地,在一种实施例中,关联点为行为时间相邻的两条行为数据对应的图像点。
采用该实施例提供的网络数据的处理方法,将关联点定义为行为时间相邻的两条行为数据对应的图像点,关联点之间的连接线能够表征出哪些网络行为是相邻的网络行为,一方面,增加了图像表示网络行为信息的量,另一方面,对于一些安全威胁,相邻的网络行为之间具有特定的特征,因此,通过处理具有相邻网络行为表征的图像,能够实现对这类型安全威胁的处理。
可选地,在一种实施例中,连接线为向量,向量的方向表征关联点对应的行为时间的先后。
采用该实施例提供的网络数据的处理方法,对于行为时间相邻的两条行为数据对应的图像点,不仅在两个图像点(也即关联点)之间显示连接线,而且将连接线设置为具有方向的线,也即将连接线设置为向量,通过向量的方向来表征行为时间的先后,从而当图像为体现多个网络行为的图像时,能够通过图像表征出网络行为发起端发起的网络行为的路径,也即图像表征出网络行为链,表征出系列行为的先后关系,从而在通过人工智能进行图像的处理时,能够基于正常行为的图像学习到正常的行为上下关系,进一步基于异常的行为上下关系来识别异常行为。
可选地,在一种实施例中,在关联点之间显示连接线的步骤之前,网络数据的处理方法还包括:统计行为数据组对应的相同关联点的数量;将数量映射为线的形态属性;在关联点之间显示连接线的步骤包括:在关联点之间按照线的形态属性显示连接线。
具体地,将关联点表征的两条行为数据作为一个行为数据单元,当行为数据组对应有相同关联点时,也即行为数据组中包括相同的行为数据单元,在该实施例提供的网络数据的处理方法中,针对某一关联点,对行为数据组中该关联点表征的行为数据单元的数量进行统计,如果行为数据组中包括N个此行为数据单元,则该关联点的数量为N。预先设置数量与线的形态属性之间的映射关系,在确定一个关联点的数量后,基于该映射关系可将确定的数量映射为线的形态属性,然后在关联点之间显示连接线时,按照映射到的线的形态属性来设置。该处的线的形态属性可以为线的形状、粗细和/或颜色,也可以为线的其他参数,所有能够在图像中体现出线的差异的特性均属于本申请的线的形态属性,以实现通过在预设模板图像中线的不同形态属性来表征关联点数量的目的。
采用该实施例提供的网络数据的处理方法,将关联点的数量映射为关联点之间连接线的形态属性,从而关联点之间的连接线在表征出哪些网络行为之间满足关联关系的同时,还能够表征出这些网络行为的多少,增加了图像表示网络行为信息的量。
可选地,在一种实施例中,在提取网络数据中第一端的行为数据的步骤之后,网络数据的处理方法还包括:根据行为数据得到第一表,其中,第一表包括多条第一数据记录,第一数据记录对应一条行为数据,第一数据记录包括设置行为时间的第一列、设置第二端的第二列和设置行为属性的第三列;将第一表转化为第二表,其中,第二表包括多条第二数据记录,第二数据记录对应行为时间满足预设关联关系的两条行为数据,两条行为数据为第一行为数据和第二行为数据,第二数据记录包括设置第一行为数据中第二端的第一列、设置第二行为数据中第二端的第二列、设置第一行为数据中行为属性的第三列以及设置第二行为数据中行为属性的第四列;其中,将第二端映射为预设模板图像中点的位置坐标,将行为属性映射为点的形态属性的步骤包括:将第二表中的第一列和第二列批量映射为位置坐标,将第二表中第三列和第四列批量映射为形态属性,以得到第三表。在位置坐标处显示形态属性的点,得到行为数据对应的图像点,在关联点之间显示连接线的步骤包括:根据第三表中第一列的第i个元素和第三列的第i个元素得到第一图像点,根据第三表中第二列的第i个元素和第四列的第i个元素得到第二图像点,在第一图像点和第二图像点之间显示连接线。
在该实施例提供的网络数据的处理方法中,提取到行为数据后,将行为数据填入预设的表格,形成第一表,将每一条行为数据作为第一表中的一个数据记录;然后对第一表进行处理形成第二表,将关联点对应的两条行为数据作为第二表中的一个数据记录;然后在进行行为数据的映射时,将第二表中的数据进行批量处理,形成第三表,在显示图像时,对第三表的图像数据(包括点的位置坐标、点的形态属性以及关联点)进行批量处理,因此,采用该实施例提供的网络数据的处理方法,能够提升网络数据图像化的处理速度。
可选地,在一种实施例中,在提取网络数据中第一端的行为数据的步骤之后,网络数据的处理方法还包括:根据行为数据得到第一表,其中,第一表包括多条第一数据记录,第一数据记录对应一条行为数据,第一数据记录包括设置行为时间的第一列、设置第二端的第二列和设置行为属性的第三列;将第一表转化为第二表,其中,第二表包括多条第二数据记录,第二数据记录对应行为时间满足预设关联关系的两条行为数据,两条行为数据为第一行为数据和第二行为数据,第二数据记录包括设置第一行为数据中第二端的第一列、设置第二行为数据中第二端的第二列、设置第一行为数据中行为属性的第三列、设置第二行为数据中行为属性的第四列和设置数量的第五列;其中,将第二端映射为预设模板图像中点的位置坐标,将行为属性映射为点的形态属性,将数量映射为线的形态属性的步骤包括:将第二表中的第一列和第二列批量映射为位置坐标,将第二表中第三列和第四列批量映射为点的形态属性,将第二表中第五列批量映射为线的形态属性,以得到第三表;在位置坐标处显示形态属性的点,得到行为数据对应的图像点,在关联点之间按照线的形态属性显示连接线的步骤包括:根据第三表中第一列的第i个元素和第三列的第i个元素得到第一图像点,根据第三表中第二列的第i个元素和第四列的第i个元素得到第二图像点,在第一图像点和第二图像点之间按照第五列的第i个元素显示连接线。
在该实施例提供的网络数据的处理方法中,提取到行为数据后,将行为数据填入预设的表格,形成第一表,将每一条行为数据作为第一表中的一个数据记录;然后对第一表进行处理形成第二表,将关联点对应的两条行为数据作为第二表中的一个数据记录;然后在进行行为数据的映射时,将第二表中的数据进行批量处理,形成第三表,在显示图像时,对第三表的图像数据(包括点的位置坐标、点的形态属性、关联点以及关联点之间的连接线的形态属性)进行批量处理,因此,采用该实施例提供的网络数据的处理方法,能够提升网络数据图像化的处理速度。
可选地,在一种实施例中,将第二端映射为预设模板图像中点的位置坐标的步骤包括:在预设模板图像中预设多个点的位置坐标;通过按序分配、随机分配或最远距离分配,将预设多个点的位置坐标分配一个端标识,建立位置坐标与端标识之间的一一对应的第一映射关系;根据第二端的端标识和第一映射关系,确定第二端对应的位置坐标。
具体地,在预设模板图像中预设多个点的位置坐标时,可以随机设置多个点,也可以按照一定规律设置多个点;在将预设模板图像中的点与第二端之间建立映射关系时,可以按序将点的位置坐标分配给一个端标识,针对多个第二端,将各个第二端的端标识进行排序,然后按照在某一方向上的顺序将每个点分配给一个端标识,或者将每个点随机分配给一个端标识,或者也可以将一个点分配给一个端标识后,再计算确定一个与该点距离最远的点,将该距离最远的点分配给下一个端标识,以此类推,直到所有的端标识都对应有一个点,形成位置坐标与端标识之间的一一对应的第一映射关系,在将一个确定的第二端映射为预设模板图像中点的位置坐标时,在第一映射关系中查找该第二端的端标识所对应的位置坐标,即可得到第二端对应的位置坐标。
可选地,在一种实施例中,预设模板图像为具有多个像素的图片,一个点包括若干个像素,位置坐标根据像素的位置确定,点的形态属性根据像素的RGB值确定。
具体地,点的位置坐标可以为该点所包括的一个像素的位置坐标,或者也可以为一个像素的序号等。点的形态属性为点的颜色,具体根据像素的RGB值确定,采用该实施例提供的网络数据的处理方法,点的位置坐标和形态属性均可以根据图片中的像素确定,从而可以通过对像素的分析来进行网络行为的分析。
可选地,在一种实施例中,同一个点的各像素的RGB值相同,使得一个点整体的颜色均匀,有利于图像识别和图像处理,进而有利于网络行为的识别和处理,且在设置行为属性与点的形态属性的映射关系时,点的形态属性简化为一个RGB值,映射关系简单。
可选地,在一种实施例中,不同点包括的像素的数量相同,也即不同点的大小相同,有利于图像识别和图像处理,进而有利于网络行为的识别和处理。
可选地,在一种实施例中,各点在图片上均匀设置,也即各相邻的点之间的距离相等。
可选地,在一种实施例中,预设模板图像为具有n*n个像素的图片,其中,n=(2k-1)*m,点为包括m个像素,相邻的点之间间隔m个像素。
具体地,在该预设模板图像中,可设置k*k个点,也即对应k*k中第二端,因此,可基于第二端的数量,设置合适的n、k和m的值。
可选地,在一种实施例中,将行为属性映射为点的形态属性的步骤包括:确定行为属性的编号i;确定像素的RGB值范围,其中,像素的R值的范围为0~r,像素的G值的范围为0~g,像素的B值的范围为0~b;采用以下公式计算编号i对应的十六进制数
其中,
表示向下取整,c表示行为属性的种类数量,HEX()表示将二进制数转为十六进制数;以及将十六进制数x的每两位数转换为十进制数得到像素的RGB值。
具体地,对于所有行为数据中不同种类的行为属性进行编号,并且确定像素的RGB值范围,该RGB值范围为预设图像模板上可显示的RGB值的范围,则r*g*b为预设图像模板上可显示的颜色种类数量,去除预设图像模板的一种背景颜色,r*g*b-1为预设图像模板上可显示的点的颜色种类数量,也即预设图像模板上可表征的行为属性的种类数量,c为实际行为属性的种类数量,通过公式
的计算,得到编号为i的行为属性对应的十六进制数,将该十六进制数中每两位数转换为十进制数,即可得到像素的RGB值,实现了行为属性向点的形态属性的映射。
可选地,在一种实施例中,将数量映射为线的形态属性的步骤包括:将数量由十进制数转换为十六进制数;将十六进制数的每两位转为十进制数,得到线对应的RGB值。
具体地,将一种关联点的数量(前述行为数据单元的数量)映射为线的形态属性时,将数量映射为线对应的RGB值,也即线的颜色。
采用该实施例提供的网络数据的处理方法,点的形态属性和线的形态属性均为像素的RGB值,因此在进行图像识别时,基于像素RGB值的识别能够同时识别到行为属性和关联点的数量。
实施例二
本发明实施例二提供了一种优选地网络数据的处理方法,与上述实施例一中的相同的技术特征和技术效果可相互参考。在该实施例中,网络数据的处理方法通过一种网络数据表示子系统实现,具体地,图2为本发明实施例二提供的网络数据表示子系统的工作流程图,如图2所示,该实施例提供的网络数据表示子系统包括数据处理模块和行为表示模块。
数据处理模块的输入为原始网络数据,该原始网络数据可以为原始网络流量或日志数据,凡是包含由来源方(发起端)到目的方(接收端)的网络行为的数据都在本发明涉及的技术范围内。来源方是网络行为的发起方,例如:源IP、服务器账号、员工编号、邮箱等。目的方是行为的接收方,例如:目的IP、主机名、数据库、业务系统、邮箱等。网络行为包含但不限于连接、登录、查询、写入、发邮件等涉及数据交互的动作。
数据处理模块在对原始网络数据进行处理时,执行的是网络数据的处理方法中行为数据的提取和处理等步骤,主要步骤包括抽取数据、统计并做规范化处理。首先从原始网络数据中抽取每一个来源方的行为序列,该行为序列也即行为数据组,行为数据组中的行为数据可包括:日期、时间、来源方、目的方,还可包括登录方式、协议、端口等附加的行为属性。行为属性可以是一种,也可以是多种。在该实施例中,以TCP连接的网络行为举例,来源方位来源IP,目的方为目的IP,行为属性为连接协议,实际场景中也可以根据需求定义不同的目的方和行为属性。以某一来源方(如客户端IP10.70.1.11)为例,抽取的数据和生成的序列如表1所示:
表1数据抽取样例
关于上表1,是指IP为10.70.1.11的客户端在2019-01-01 00:08:00通过HTTP方式访问了目的IP10.11.11.5,在2019-01-01 00:09:30通过SSH方式访问了目的IP10.11.11.6……以此类推。
随后,对表1中的数据进行统计和归并。对于每两次相邻的网络行为,按时间先后,将时间早者的目的方记为前一目的方,将时间晚者的目的方记为后一目的方,并记下各自的行为属性。还应记下观测时间范围内(如1天)的四元组(前一目的方,后一目的方,前一属性,后一属性)出现的次数。注意,为便于表述和实际的效果,下文观测时间范围的最小单位为1天,但在实际使用时,该取值可大于或小于1天。
数据处理模块的输出为处理后的数据,格式如表2所示:
表2数据统计并处理后数据样例
行为表示模块的输入为数据处理模块的输出结果,如上表2所示样例。行为表示模块在进行行为表示时,具体包括如下的步骤:
定义一张n*n(n=(2k-1)*8,k为正整数)的图片(也即预设模板图像),颜色范围为RGB=(255,255,255)。用直径为8像素的圆点表示目的方,此方法可表示k*k个目的方,如图3所示。每个圆点与目的方的对应关系可以有不同设定方式,如:按序分配、随机分配或最远距离分配或其他通过数学计算得到的分配方式,其中,按序分配包括按照从左至右或从上至下的顺序分配,或者按照蛇形顺序分配,或者按照回形顺序分配等。如图3所示,用圆点的颜色表示行为属性,因为除去图片背景色RGB=(255,255,255)外,可用的R、G、B值最多可表示256*256*256-1=16777215种不同属性。先为行为属性编号,再将点的颜色映射到各个行为属性,方法是取
表示向下取整,c表示行为属性的种类个数,i表示当前行为属性的编号,HEX()表示将二进制数转为十六进制数。再取x的每两位数十六进制数转为十进制,对应为R、G、B值。对行为属性的编号并赋予颜色的样例如表3所示(假设属性的种类个数为50,即样例中共有50种不同的协议)。
表3对属性编号并赋予颜色样例
前后两个目的方的跳转关系(也即上文中的关联关系)用两个圆点(也即关联点)之间的连接线表示,线的RGB值表示出现次数(也即关联点的数量)。将十进制的出现次数转为十六进制数,取该十六进制数的每两位转为十进制分别为R、G、B的值。次数与颜色的映射关系如表4所示。若次数大于16777214,均用RGB=(255,255,254)表示。
表4出现次数与线颜色的映射关系
出现次数 |
次数的十六进制 |
线颜色(RGB) |
1 |
1 |
(0,0,1) |
2 |
2 |
(0,0,2) |
3 |
3 |
(0,0,3) |
…… |
|
|
10000 |
2710 |
(0,39,16) |
10001 |
2711 |
(0,39,17) |
10002 |
2712 |
(0,39,18) |
…… |
|
|
16777214 |
FFFFFE |
(255,255,254) |
依上述方法步骤,每个来源方(如IP或人)在每个观测时间范围(如1天)的行为可以用一张图片来表示。依然以表1和表2的行为数据为例,其转化后的效果图如图4所示,需要说明的是,图4中的10.11.11.5等IP信息和网格线只是为了便于说明,实际图片中并不包括IP信息和网格线本身。
每个来源方(如IP或人)在多个观测时间范围(如多天)的行为可以表示为多张图片的集合,具体效果图如图5所示。
多个来源方(如IP或人)在多个观测时间范围(如多天)的行为可以表示为多组多张图片的集合。
进一步地,在基于上述网络数据标识子系统,实现网络数据的处理方法,得到行为图像数据后,可将其输入至异常行为检测子系统,通过不同异常行为检测模块进行异常行为的检测。
实施例三
对应于上述实施例一,本发明实施例三提供了一种网络数据的处理装置,相关技术特征和技术效果可参考上述,此处不再赘述。图6为本发明实施例三提供的网络数据的处理装置的框图,如图6所示,该装置包括:获取模块301、提取模块302、映射模块303和显示模块304。
其中,获取模块301用于获取网络数据;提取模块302用于提取网络数据中第一端的行为数据,其中,行为数据包括第二端和行为属性,行为属性为第一端与第二端之间产生的网络行为的属性;映射模块303用于将第二端映射为预设模板图像中点的位置坐标,将行为属性映射为点的形态属性;以及显示模块304用于在位置坐标处显示形态属性的点,得到行为数据对应的图像点。
可选地,在一种实施例中,行为数据还包括网络行为的行为时间,网络数据包括由多条行为数据构成的行为数据组,在行为数据组中,行为时间满足预设关联关系的两条行为数据对应的图像点互为关联点,显示模块还用于在关联点之间显示连接线。
可选地,在一种实施例中,关联点为行为时间相邻的两条行为数据对应的图像点。
可选地,在一种实施例中,连接线为向量,向量的方向表征关联点对应的行为时间的先后。
可选地,在一种实施例中,网络数据的处理方法还包括第一处理模块,用于在显示模块关联点之间显示连接线之前,统计行为数据组对应的相同关联点的数量,将数量映射为线的形态属性;其中,显示模块在关联点之间显示连接线时,具体执行的步骤包括:在关联点之间按照线的形态属性显示连接线。
可选地,在一种实施例中,网络数据的处理装置还包括第二处理模块,用于在提取模块提取网络数据中第一端的行为数据之后,根据行为数据得到第一表,其中,第一表包括多条第一数据记录,第一数据记录对应一条行为数据,第一数据记录包括设置行为时间的第一列、设置第二端的第二列和设置行为属性的第三列;还用于将第一表转化为第二表,其中,第二表包括多条第二数据记录,第二数据记录对应行为时间满足预设关联关系的两条行为数据,两条行为数据为第一行为数据和第二行为数据,第二数据记录包括设置第一行为数据中第二端的第一列、设置第二行为数据中第二端的第二列、设置第一行为数据中行为属性的第三列以及设置第二行为数据中行为属性的第四列。
其中,映射模块在将第二端映射为预设模板图像中点的位置坐标,将行为属性映射为点的形态属性时,具体执行的步骤包括:将第二表中的第一列和第二列批量映射为位置坐标,将第二表中第三列和第四列批量映射为形态属性,以得到第三表。
显示模块在执行位置坐标处显示形态属性的点,得到行为数据对应的图像点,在关联点之间显示连接线时,具体执行的步骤包括:根据第三表中第一列的第i个元素和第三列的第i个元素得到第一图像点,根据第三表中第二列的第i个元素和第四列的第i个元素得到第二图像点,在第一图像点和第二图像点之间显示连接线。
可选地,在一种实施例中,网络数据的处理装置还包括第三处理模块,用于在提取模块提取网络数据中第一端的行为数据之后,根据行为数据得到第一表,其中,第一表包括多条第一数据记录,第一数据记录对应一条行为数据,第一数据记录包括设置行为时间的第一列、设置第二端的第二列和设置行为属性的第三列;还用于将第一表转化为第二表,其中,第二表包括多条第二数据记录,第二数据记录对应行为时间满足预设关联关系的两条行为数据,两条行为数据为第一行为数据和第二行为数据,第二数据记录包括设置第一行为数据中第二端的第一列、设置第二行为数据中第二端的第二列、设置第一行为数据中行为属性的第三列、设置第二行为数据中行为属性的第四列和设置数量的第五列。
其中,映射模块在将第二端映射为预设模板图像中点的位置坐标,将行为属性映射为点的形态属性时,具体执行的步骤包括:将第二表中的第一列和第二列批量映射为位置坐标,将第二表中第三列和第四列批量映射为点的形态属性,将第二表中第五列批量映射为线的形态属性,以得到第三表。
显示模块在执行位置坐标处显示形态属性的点,得到行为数据对应的图像点,在关联点之间显示连接线时,具体执行的步骤包括:根据第三表中第一列的第i个元素和第三列的第i个元素得到第一图像点,根据第三表中第二列的第i个元素和第四列的第i个元素得到第二图像点,在第一图像点和第二图像点之间按照第五列的第i个元素显示连接线。
可选地,在一种实施例中,线的形态属性包括线的形状、粗细和/或颜色。
可选地,在一种实施例中,点的形态属性包括点的形状、大小和/或颜色。
可选地,在一种实施例中,第一端为网络行为的发起端,第二端为网络行为的接收端。
可选地,在一种实施例中,映射模块在将第二端映射为预设模板图像中点的位置坐标时,具体执行的步骤包括:在预设模板图像中预设多个点的位置坐标;通过按序分配、随机分配或最远距离分配,将预设多个点的位置坐标分配一个端标识,建立位置坐标与端标识之间的一一对应的第一映射关系;根据第二端的端标识和第一映射关系,确定第二端对应的位置坐标。
可选地,在一种实施例中,预设模板图像为具有多个像素的图片,点包括若干个像素,位置坐标根据像素的位置确定,点的形态属性根据像素的RGB值确定。
可选地,在一种实施例中,同一个点的各像素的RGB值相同,不同点包括的像素的数量相同。
可选地,在一种实施例中,各点在图片上均匀设置。
可选地,在一种实施例中,预设模板图像为具有n*n个像素的图片,其中,n=(2k-1)*m,点为包括m个像素,相邻的点之间间隔m个像素。
可选地,在一种实施例中,映射模块在将行为属性映射为点的形态属性时,具体执行的步骤包括:确定行为属性的编号i;确定像素的RGB值范围,其中,像素的R值的范围为0~r,像素的G值的范围为0~g,像素的B值的范围为0~b;采用以下公式计算编号i对应的十六进制数
其中,
表示向下取整,c表示行为属性的种类数量,HEX()表示将二进制数转为十六进制数;以及将十六进制数x的每两位数转换为十进制数得到像素的RGB值。
可选地,在一种实施例中,映射模块在将数量映射为线的形态属性时,具体执行的步骤包括:将数量由十进制数转换为十六进制数;将十六进制数的每两位转为十进制数,得到线对应的RGB值。
实施例四
本实施例四还提供一种计算机设备,如可以执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。如图7所示,本实施例的计算机设备01至少包括但不限于:可通过系统总线相互通信连接的存储器011、处理器012,如图7所示。需要指出的是,图7仅示出了具有组件存储器011和处理器012的计算机设备01,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
本实施例中,存储器011(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器011可以是计算机设备01的内部存储单元,例如该计算机设备01的硬盘或内存。在另一些实施例中,存储器011也可以是计算机设备01的外部存储设备,例如该计算机设备01上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器011还可以既包括计算机设备01的内部存储单元也包括其外部存储设备。本实施例中,存储器011通常用于存储安装于计算机设备01的操作系统和各类应用软件,例如实施例三的网络数据的处理装置的程序代码等。此外,存储器011还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器012在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器012通常用于控制计算机设备01的总体操作。本实施例中,处理器012用于运行存储器011中存储的程序代码或者处理数据,例如网络数据的处理方法等。
实施例五
本实施例五还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储网络数据的处理装置,被处理器执行时实现实施例一的网络数据的处理方法。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。