CN110046297A - 运维违规操作的识别方法、装置和存储介质 - Google Patents

运维违规操作的识别方法、装置和存储介质 Download PDF

Info

Publication number
CN110046297A
CN110046297A CN201910244244.7A CN201910244244A CN110046297A CN 110046297 A CN110046297 A CN 110046297A CN 201910244244 A CN201910244244 A CN 201910244244A CN 110046297 A CN110046297 A CN 110046297A
Authority
CN
China
Prior art keywords
session
cluster
data collection
sessions
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910244244.7A
Other languages
English (en)
Other versions
CN110046297B (zh
Inventor
方建生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Shiyuan Electronics Thecnology Co Ltd
Original Assignee
Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Shiyuan Electronics Thecnology Co Ltd filed Critical Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority to CN201910244244.7A priority Critical patent/CN110046297B/zh
Publication of CN110046297A publication Critical patent/CN110046297A/zh
Application granted granted Critical
Publication of CN110046297B publication Critical patent/CN110046297B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请公开了一种运维违规操作的方法、装置和存储介质,根据会话的会话特征向量信息对采集到的多个会话进行聚类得到多个簇类,将簇类中会话数量小于数量阈值的簇类中的会话识别为异常会话,由此确定异常会话对应的运维操作属于违规操作,解决了现有技术中人工判别违规操作效率低下的问题,可以提高识别违规操作的效率,提高安全审计的自动化水平。

Description

运维违规操作的识别方法、装置和存储介质
技术领域
本申请涉及安全运维领域,尤其涉及一种运维违规操作的识别方法、装置和存储介质。
背景技术
随着互联网信息技术的迅速发展,各类信息系统及网络产品层出不穷。尤其是在大中型的实体机构中,快速建设的IT系统正从以前传统封闭的业务系统向大型关键业务系统扩展,所涉及的应用类型也日趋增加。
IT系统的广泛应用是一柄双刃剑,一方面带来了规范、便捷、高效的办公流程和业务模式,一方面也引发了对IT系统的安全性问题,以及内部运维的防御难、控制难、追溯难等问题。这些问题威胁着信息中心的安全。如:内部业务数据被篡改、泄露、窃取;恶意传播病毒、在服务器访问非法网站、误操作,重要服务器上乱操作等。
在目前的安全控制方案中,对于违规操作的实时告警和事后追溯,运维安全审计系统会操作日志审计人员审查,在实际场景中,用户的相关操作的大部分是安全的,如果审计人员通过运维安全审计系统提供的操作日志去发现用户的违规操作,实时监控和事后追溯效率低下。
发明内容
为解决现有技术中人工进行运维管理效率低下的问题,本申请提供一种异常会话的识别方法和装置,可以通过无监督学习的方式自动识别异常会话,从而提高运维操作的工作效率。
第一方面,本申请提供了一种异常会话的识别方法,包括:采集多个会话各种对应的操作数据集,操作数据集包括界面操作视频和运维访问记录,根据操作数据集生成多个会话各自对应的特征向量,根据特征向量使用聚类算法将多个会话进行聚类,得到K个簇类,每个簇类包含一个或多个会话,统计各个簇类中包含的会话数量,将会话数量少于数量阈值的簇类中的会话识别为异常会话。
在一种可能的设计中,根据操作数据集生成多个会话各自对应的会话特征向量,包括:提取界面操作视频中的关键帧生成序列图像集;基于卷积神经网络CNN生成序列图像集的视觉特征向量,对视觉特征向量进行对齐处理,根据对齐处理后的视觉特征向量和运维会话记录生成会话的会话特征向量。
其中,多个会话各自对应一个会话特征向量,会话特征向量包括视觉特征向量和根据运维会话记录生成的文本特征向量,对齐处理是确保各个会话的视觉特征向量的维度是相等的。
在一种可能的设计中,提取界面操作视频中的关键帧生成序列图像集,包括:
采用遍历的方式从界面操作视频中提取一个当前视频帧,比较当前视频帧和上一视频帧之间的像素强度差,若像素强度差大于像素强度阈值,将当前帧作为关键帧,直到界面操作视频中所有的视频帧遍历完成。
在一种可能的设计中,采集多个会话各自对应的操作数据集,包括:根据预设的时间周期采集多个会话各自对应的操作数据集。时间周期的长短可根据需要来进行设置,例如:设置1分钟、5分钟或10分钟等,操作数据集包括结构化数据和非结构化数据,结构化数据包括运维会话记录,非结构化数据包括界面操作视频。
在一种可能的设计中,运维会话记录包括会话标识、用户标识、会话时长、会话开始时间、会话结束时间和会话协议类型中的一种或多种。
第二方面,本申请提供了一种运维违规操作的识别装置,包括:
采集单元,用于采集多个会话各自对应的操作数据集;其中,所述操作数据集包括界面操作视频和运维访问记录;
生成单元,用于根据操作数据集生成所述多个会话各自对应的会话特征向量;
聚类单元,用于根据会话特征向量使用聚类算法将所述多个会话进行聚类,得到K个簇类;其中,每个簇类包含一个或多个会话;
识别单元,用于将会话数量少于数量阈值的簇类中的会话识别为异常会话。
在一种可能的设计中,所述生成单元包括:
提取子单元,用于提取界面操作视频中的关键帧生成序列图像集;
第一生成子单元,用于基于卷积神经网络CNN生成序列图像集的视觉特征向量;
对齐子单元,用于对视觉特征向量进行对齐处理;
第二生成子单元,用于根据对齐处理后的视觉特征向量和运维会话记录生成会话的会话特征向量。
在一种可能的设计中,所述提取子单元具体用于:
采用遍历的方式从界面操作视频中提取一个当前视频帧;
比较所述当前视频帧和上一视频帧的像素强度差值;
若所述像素强度差值大于像素强度阈值,将所述当前帧作为关键帧。
在一种可能的设计中,所述采集单元具体用于:
根据预设的时间周期采集多个会话各自对应的操作数据集。
在一种可能的设计中,所述运维会话记录包括:会话标识、用户标识、会话时长、会话开始时间、会话结束时间和会话协议类型中的一种或多种。
本申请又一方面提供了一种运维违规操作的识别装置(简称装置),可以实现上述第一方面的运维违规操作的识别方法。例如所述装置可以是芯片或者服务器,服务器可以是单台服务器,也可以是由多台服务器组成的服务器集群。可以通过软件、硬件、或者通过硬件执行相应的软件实现上述方法。
在一种可能的实现方式中,所述装置的结构中包括处理器、存储器;所述处理器被配置为支持所述装置执行上述识别方法中相应的功能。存储器用于与处理器耦合,其保存所述装置必要的程序(指令)和/或数据。可选的,所述装置还可以包括通信接口用于支持所述装置与其他网元之间的通信。
在另一种可能的实现方式中,所述装置,可以包括执行上述方法中相应动作的单元模块。
在又一种可能的实现方式中,包括处理器和收发装置,所述处理器与所述收发装置耦合,所述处理器用于执行计算机程序或指令,以控制所述收发装置进行信息的接收和发送;当所述处理器执行所述计算机程序或指令时,所述处理器还用于实现上述方法。其中,所述收发装置可以为收发器、收发电路或输入输出接口。当所述通信装置为芯片时,所述收发装置为收发电路或输入输出接口。
当所述装置为芯片时,发送单元可以是输出单元,比如输出电路或者通信接口;接收单元可以是输入单元,比如输入电路或者通信接口。
本申请又一方面提供了一种装置,该装置包括:存储器和处理器;其中,所述存储器中存储一组程序代码,且所述处理器用于调用所述存储器中存储的程序代码,执行各方面所述的方法。
本申请的又一方面提了供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。
本申请的又一方面提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。
实施本申请的实施例,根据会话的会话特征向量信息对采集到的多个会话进行聚类得到多个簇类,将簇类中会话数量小于数量阈值的簇类中的会话识别为异常会话,由此确定异常会话对应的运维操作属于违规操作,解决了现有技术中人工判别违规操作效率低下的问题,可以提高识别违规操作的效率,提高安全审计的自动化水平。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种运维系统的结构示意图;
图2是本申请实施例提供的一种运维违规操作的识别方法的流程示意图;
图3A是本申请实施例提供的一种运维违规操作的识别方法的另一流程示意图;
图3B是本申请实施例提供的卷积神经网络的原理示意图;
图4是本申请实施例提供的一种装置的另一结构示意图;
图5是本申请实施例提供的一种装置的另一结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
参见图1,为本申请实施例提供的一种运维系统的架构图,运维系统包括运维安全审计系统(HAC)、终端设备和至少一个服务设备,服务设备可以是主机、服务器、网络设备、安全设备,其中,服务设备可以是Windows主机、Unix服务器、基于web管理平台的设备、路由设备、交换机等。运维人员通过终端设备对计算机网络中的服务设备进行运维操作,运维操作包括但不限于:产品发布、产品下线、数据库更新、数据库恢复、服务器扩容、服务器下线、服务器迁移等。如图1所示的例子,图1中的运维系统包括:HAC、服务设备12、服务设备13、服务设备14和服务设备15,HAC通过总线20分别与服务设备12~服务设备15进行连接,服务设备12~服务设备15上产生的操作数据都会经过HAC。
HAC在运维人员和服务设备之间起到堡垒机的作用,运维人员所有访问服务设备的操作都要通过运维安全审计系统,HAC就可以记录下所有会话的操作数据,操作数据包括运维人员通过终端设备访问服务设备时,终端设备的图形界面操作视频,以及运维访问记录,运维访问记录包括:用户标识、用户类型、会话标识、会话时长、会话开始时间、会话结束时间、会话协议类型中的一种或多种,HAC提供的运维协议包括但不限于:telnet、FTP(FileTransfer Protocol,文件传输协议)、SSH(Secure Shell,安全外壳协议)、SFTP(SecureFile Transfer Protocol,安全文件传送协议)、RDP(Remote Desktop Protocol,远程桌面协议)、Xwindows、VNC(Virtual Network Console,虚拟网络控制台)和AS400中的任意一种,
其中,本申请的HAC可以是单台服务器,也可以是由多个服务器组成的服务器集群,本申请实施例不作限制。
其中,终端设备表示具有图形界面显示功能的终端,终端设备包括但不限于:手机、平板电脑、电视机、智能可穿戴设备、笔记本电脑、个人电脑等。
参见图2,图2是本申请实施例提供的一种运维违规操作的识别方法的流程示意图,在本申请实施例中,所述方法包括:
S201、采集多个会话各自对应的操作数据集。
具体的,会话表示用户与服务设备之间交互的过程,用户类型包括但不限于开发人员、内部运维人员、外部运维人员和管理人员。用户可以通过一个具有图形界面的终端设备与一个或多个服务设备之间进行运维操作,运维操作包括但不限于:数据库管理、灾难恢复、扩容、流量调度、服务器迁移、产品发布或产品下线等。例如:用户通过终端设备上打开浏览器,访问一个站点,在站点内点击多个超链接对应的资源,然后关闭浏览器,整个过程称为一个会话。又例如:通过终端设备登录数据库执行删除数据的操作,然后退出登录数据库,整个过程称为一个会话。操作数据集表示会话过程中产生的相关数据的集合,操作数据集包括结构化数据和非结构化数据,结构化数据包括运维访问记录,非结构化数据包括界面操作视频,本申请实施例中,操作数据集包括界面操作视频和运维访问数据,界面操作视频表示会话过程中终端设备的用户界面变化的视频,运维访问记录表示会话过程中生成访问记录,例如:运维访问记录包括用户标识、用户类型、会话ID、会话开始时间和会话结束时间中的一种或多种。运维安全审计系统可以采集预设时长内多个会话各自对应的操作数据集,例如:服务器周期性的采集生成的多个会话各自对应的操作数据集。
S202、根据操作数据集生成多个会话各自对应的会话特征向量。
具体的,每个会话对应一个会话特征向量,会话特征向量使用多个维度来表示会话,各个会话的会话特征向量的维度是相同的。其中,会话特征向量包括根据界面操作视频生成的视觉特征向量和根据运维会话记录生成的文本特征向量,各个会话的视觉特征向量和文本特征向量的维度数相同的。
S203、根据会话特征向量使用聚类算法将多个会话进行聚类,得到K个簇类。
具体的,聚类算法用于将相似的对象归为一类,不相似的对象归为不同类,对于任意一个对象来说,该对象仅能归为一个类。本申请实施例中的簇类即表示一个类,聚类算法包括但不限于:K-Means聚类、均值偏移聚类、基于密度的聚类、用高斯混合模型(GMM)的最大期望(EM)聚类、凝聚的层次聚类、图团体检测(Graph Community Detection,GCD)中的任意一种。K为大于等于2的整数,各个簇类中包含只是一个会话。
S204、将会话数量小于数量阈值的簇类中的会话识别为异常会话。
具体的,运维安全审计系统中预存储或预配置有数量阈值,运维安全审计系统统计K个簇类中会话的数量,将簇类中会话数量小于数量阈值的簇类中的会话确定为异常会话,将会话对应的操作为违规操作。其中,运维安全审计系统可以在终端设备上显示包括m个簇类对应的簇标识信息的图形界面,然后将会话数量小于数量阈值的簇标识信息进行标记,便于用户在图形界面上识别出异常会话。
实施上述的实施例,根据会话的会话特征向量信息对采集到的多个会话进行聚类得到多个簇类,将簇类中会话数量小于数量阈值的簇类中的会话识别为异常会话,由此确定异常会话对应的运维操作属于违规操作,解决了现有技术中人工判别违规操作效率低下的问题,可以提高识别违规操作的效率,提高安全审计的自动化水平。
参见图3A,为本申请实施例提供的一种运维违规操作的识别方法的另一流程示意图,在本申请实施例中,所述方法包括:
S301、采集预设时长内多个会话各自对应的界面操作视频和运维访问记录。
具体的,运维安全审计系统预存储或预配置有预设时长,预设时长可以根据需要进行设置,预设时长设置得越短,对异常会话进行阻断的实时性就越高,预设时长的具体值本申请不作限制,可以根据需要进行设置。运维安全审计系统采集预设时长内产生的多个会话各种对应的界面操作视频和运维访问记录,会话表示用户与服务设备之间交互的过程,用户包括但不限于开发人员、内部运维人员、外部运维人员和管理人员。用户可以通过一个具有图形界面的终端设备与一个或多个服务器设备之间进行运维操作,运维操作的类型包括但不限于:数据库管理、灾难恢复、扩容、流量调度、服务器迁移、产品发布和产品下线等。例如:用户通过终端设备登录数据库进行数据库的更新,更新的过程称为一个会话。计算机网络可以为多用户系统,运维安全设计系统在预设时长内可以采集到多个会话各自对应的操作数据集,操作数据集包括结构化数据和非结构化数据,本申请中,结构化数据包括运维会话记录,非结构化数据包括界面操作视频,界面操作视频可以终端设备采集的,发送给运维安全审计系统的。
S302、提取界面操作视频中的关键帧生成序列图像集。
具体的,界面操作视频实际由多个视频帧组成的,关键帧表示界面操作视频中信息量大的图像,序列图像集中包括一个或多个关键帧。对于每个会话的界面操作视频来说,提取界面操作视频中的关键帧生成序列图像集。
其中,运维安全审计系统提取界面操作视频中的关键帧生成序列图像集的方法包括:
在一种可能的实施方式中,提取界面操作视频中的关键帧生成序列图像集,包括:采用遍历的方式从界面操作视频中提取一个当前视频帧,比较当前视频帧和上一视频帧的像素强度差值,若像素强度差值大于像素强度阈值,将当前帧作为关键帧。
具体的,像素强度值又称为像素的灰度值,像素强度阈值为预存储或预配置的值。
举例来说,界面操作视频中的图像帧为:f1、f2、…、fn,依次将图像帧f2的像素强度和图像帧f1的像素强度进行对比得到像素强度差值,若像素强度差值大于像素强度阈值,将图像帧f2作为关键帧;将图像帧f3的像素强度和图像帧f2的像素强度进行对比得到像素强度差值,若像素强度差值大于像素强度阈值,将图像帧f3作为关键帧,依次类推,直到图像帧fn。然后根据所有得到的关键帧生成序列图像集。采用上述的方法进行处理得到多个会话各自对应的序列图像集。
在一种可能的实施方式中,运维安全审计系统可以基于聚类方法来提取界面操作视频关键帧,假设界面操作界面视频包含n个图像帧,n为大于1的整数,界面操作视频可以表示为Si={Fi1,Fi2,L Fin},Fi1表示界面操作视频中的首个图像帧,Fin为界面操作视频中的最后一个图像帧,预定义一个阈值δ控制簇类的密度。计算当前图像帧Fii与当前的聚类中心之间的相似度,如果计算得到的相似度小于δ,标识当前图像帧与聚类中心之间的距离较大,因此当前图像帧不能加入到该簇类中。如果当前图像帧与当前所有的聚类中心之间的相似度均小于δ,则当前图像帧形成一个新的簇类,否则将当前图像帧加入到与之相似度最大的簇类中,使该图像帧与该簇类的聚类中心之间的距离最小。通过上面的方法将界面操作视频包含的n个图像帧分别归类到不同聚类后,从每个簇类中提取距离聚类中心最近的图像帧作为该簇类的代表图像帧,所有簇类的代表图像帧组成界面操作视频的图像序列集。
S303、基于卷积神经网络提取序列图像集的视觉特征向量。
具体的,卷积神经网络是一种前馈神经网络,其人工神经元可以响应一部分覆盖范围内的周围单元。卷积神经网络由一个或多个卷积层和顶端的全连接层组成,同时也包括关联权重的池化层(pooling layer)。与其他深度学习结构相比,卷积神经网络在图像和语音识别方法能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网络、卷积神经网络需要考量的参数更少。
例如:卷积神经网络的运算过程参见图3B所示,输入为28*28像素的图像,经过卷积、特征匹配和二次采样后得到图像的视觉特征向量,将序列图像集中各个图像的视觉特征向量得到序列图像集的视觉特征向量。其中,本申请选择CNN(Convolutional NeuralNetworks,卷积神经网络)最后一个全连接层的输出作为每一张图像的特征,经典CNN结果,最后输出分类结构,输入一张图像,最后会输出分类结构,这里只提取图像的高阶特征,假设全连接层有1000个神经元,则每一张图像将统一由这1000维的向量来表示,每个维度的值都是浮点数。
S304、对视觉特征向量进行特征对齐处理。
具体的,不同的会话对应不同的序列图像集,通过CNN提取每一张图像的视觉特征维度特征对齐用于将每个会话的序列图像集的时间特征进行对齐,是每个序列图像集的维度数量相同。例如:序列图像集中每个图像具有1000维的视觉特征,会话A的序列图像集中有10张图像,则会话A对应的序列图像集总共有10000维,会话B对应的序列图像集有20张序列图像集,会话B对应的序列图像集总共有20000维,会话A和会话B的维护是不一致的。服务器对会话A和会话B执行特征对齐处理,是会话A和会话A的视觉特征的维度是相同的,维度相同表示维度类型相同和维度数量相同两个方面。
在一种可能的实施方式中,运维安全审计系统可以通过embedding对齐会话的特征向量,词嵌入的算法的基本原理为:给出一个单词序列,将单词序列中的单词集构成一个高维空间,通过嵌入将高维空间嵌入到低维空间。相应的,本申请可以将会话看成一个句子,会话对应的序列图像集合看成序列单词,然后执行映射操作得到特征对齐的视觉特征,词嵌入算法的具体过程可参照现有技术的描述,此处不再赘述。
S305、将对齐处理后的视觉特征和运维会话记录生成会话的会话特征向量。
具体的,会话的特征向量包括数据特征向量和根据运维会话记录生成的文本特征向量,每个会话的特征的维度是相同的,特征的维度相同包括特征数量相同和特征类型相同。
S306、根据会话特征向量使用聚类算法将多个会话分为K个簇类。
具体的,聚类算法用于根据分类对象的特征向量将待分类对象划分为不同的簇类,同一个簇类中各个会话的相似度值大于相似度值,不同簇类中的会话之间的相似度值不大于相似度阈值,计算会话的特征向量之间的相似度值可以使用两个向量之间的距离来表示,两个向量之间的距离越大,表示两个对象之间的相似度越低,两个对象之间的距离越小,表示两个对象之间的相似度越高。在本申请实施例中,两个向量之间的距离包括但不限于:欧式距离、杰卡德(Jaccard)相似系数、余弦相似度、相对熵(K-L距离)中的任意一种。
S307、将会话数量小于数量阈值的簇类中的会话识别为异常会话。
具体的,运维安全审计系统预存储或预配置有数量阈值,数量阈值的大小本申请不作限制,运维安全审计系统依次遍历每个簇类中会话的数量,在聚类中会话的数量小于数量阈值的情况下,将该聚类进行标记,标记的聚类中的会话识别为异常会话。运维安全审计系统可以显示包括标记的图形界面,然后在图形界面中标记。
举例来说,会话A为使用VNC协议登录运维服务器进行文件下载,会话B为使用RDP协议登录运维服务器进行数据库删除。
运维安全审计系统在完成聚类后,用户可以通过人工审计的方法对聚类进行分析,对各个簇类中的会话重新进行划分,后续对会话进行聚类时可以使用人工审计后的聚类模型进行聚类,以提高聚类的准确度。
S308、输出异常报告,其中异常包括包括所述异常会话的标识信息。
具体的,异常包括包括异常会话的标识信息、用户标识、用户类型、会话标识、会话时长、会话开始时间、会话结束时间、会话协议类型中的一种或多种。
实施本申请的实施例,根据会话的会话特征向量信息对采集到的多个会话进行聚类得到多个簇类,将簇类中会话数量小于数量阈值的簇类中的会话识别为异常会话,由此确定异常会话对应的运维操作属于违规操作,解决了现有技术中人工判别违规操作效率低下的问题,可以提高识别违规操作的效率,提高安全审计的自动化水平。
上述图2详细阐述了本申请实施例的一种运维违规操作的识别方法、装置和存储介质。
请参见图4,图4是本申请实施例提供的一种装置的结构示意图,该装置4可以包括采集单元401、生成单元402、聚类单元403和识别单元404。
采集单元401,用于采集多个会话各自对应的操作数据集;其中,所述操作数据集包括界面操作视频和运维访问记录。
生成单元402,用于根据操作数据集生成所述多个会话各自对应的会话特征向量。
聚类单元403,用于根据会话特征向量使用聚类算法将所述多个会话进行聚类,得到K个簇类;其中,每个簇类包含一个或多个会话。
识别单元404,用于将会话数量少于数量阈值的簇类中的会话识别为异常会话。
可选的,所述生成单元402包括:
提取子单元,用于提取界面操作视频中的关键帧生成序列图像集;
第一生成子单元,用于基于卷积神经网络CNN生成序列图像集的视觉特征向量;
对齐子单元,用于对视觉特征向量进行对齐处理;
第二生成子单元,用于根据对齐处理后的视觉特征向量和运维会话记录生成会话的会话特征向量。
可选的,所述提取子单元具体用于:
采用遍历的方式从界面操作视频中提取一个当前视频帧;
比较所述当前视频帧和上一视频帧的像素强度差值;
若所述像素强度差值大于像素强度阈值,将所述当前帧作为关键帧。
可选的,所述采集单元401具体用于:
根据预设的时间周期采集多个会话各自对应的操作数据集。
装置4可以是服务器,例如:运维安全审计系统,所述装置4也可以为实现相关功能的现场可编程门阵列(field-programmable gate array,FPGA),专用集成芯片,系统芯片(system on chip,SoC),中央处理器(central processor unit,CPU),网络处理器(network processor,NP),数字信号处理电路,微控制器(micro controller unit,MCU),还可以采用可编程控制器(programmable logic device,PLD)或其他集成芯片。
本申请实施例和图3A的方法实施例基于同一构思,其带来的技术效果也相同,具体过程可参照图3A的方法实施例的描述,此处不再赘述。
图5为本申请实施例提供的一种装置结构示意图,以下简称装置5,装置5可以集成于前述的运维安全审计系统中,如图5所示,该装置包括:存储器502、处理器501以及收发器503。
存储器502可以是独立的物理单元,与处理器501、收发器503可以通过总线连接。存储器502、处理器501、收发器503也可以集成在一起,通过硬件实现等。
存储器502用于存储实现以上方法实施例,或者装置实施例各个模块的程序,处理器501调用该程序,执行以上方法实施例的操作。
可选地,当上述实施例的运维违规操作的识别方法中的部分或全部通过软件实现时,装置也可以只包括处理器。用于存储程序的存储器位于装置之外,处理器通过电路/电线与存储器连接,用于读取并执行存储器中存储的程序。
处理器可以是中央处理器(central processing unit,CPU),网络处理器(network processor,NP)或者CPU和NP的组合。
处理器还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(application-specific integrated circuit,ASIC),可编程逻辑器件(programmablelogic device,PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(complexprogrammable logic device,CPLD),现场可编程逻辑门阵列(field-programmable gatearray,FPGA),通用阵列逻辑(generic array logic,GAL)或其任意组合。
存储器可以包括易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储器也可以包括非易失性存储器(non-volatilememory),例如快闪存储器(flash memory),硬盘(hard disk drive,HDD)或固态硬盘(solid-state drive,SSD);存储器还可以包括上述种类的存储器的组合。
上述实施例中,发送单元或发射器执行上述各个方法实施例发送的步骤,接收单元或接收器执行上述各个方法实施例接收的步骤,其它步骤由其他模块或处理器执行。发送单元和接收单元可以组成收发单元,接收器和发射器可以组成收发器。
本申请实施例还提供了一种计算机存储介质,存储有计算机程序,该计算机程序用于执行上述实施例提供的运维违规操作的识别方法。
本申请实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例提供的运维违规操作的识别方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

Claims (11)

1.一种运维违规操作的识别方法,其特征在于,包括:
采集多个会话各自对应的操作数据集;其中,所述操作数据集包括界面操作视频和运维访问记录;
根据操作数据集生成所述多个会话各自对应的会话特征向量;
根据会话特征向量使用聚类算法将所述多个会话进行聚类,得到K个簇类;其中,每个簇类包含一个或多个会话,K为大于1的整数;
将会话数量少于数量阈值的簇类中的会话识别为异常会话。
2.根据权利要求1所述的方法,其特征在于,所述根据操作数据集生成多个会话各自对应的会话特征向量,包括:
提取界面操作视频中的关键帧生成序列图像集;
基于卷积神经网络CNN生成序列图像集的视觉特征向量;
对视觉特征向量进行对齐处理;
根据对齐处理后的视觉特征向量和运维会话记录生成会话的会话特征向量。
3.根据要求2所述的方法,其特征在于,所述提取界面操作视频中的关键帧生成序列图像集,包括:
遍历地从界面操作视频中提取一个当前视频帧;
比较所述当前视频帧和上一视频帧的像素强度差值;
若所述像素强度差值大于像素强度阈值,将所述当前帧作为关键帧。
4.根据权利要求3所述的方法,其特征在于,所述采集多个会话各自对应的操作数据集,包括:
根据预设的时间周期采集多个会话各自对应的操作数据集。
5.根据权利要求1至4任意一项所述的方法,其特征在于,所述运维会话记录包括:会话标识、用户标识、会话时长、会话开始时间、会话结束时间和会话协议类型中的一种或多种。
6.一种运维违规操作的识别装置,其特征在于,包括:
采集单元,用于采集多个会话各自对应的操作数据集;其中,所述操作数据集包括界面操作视频和运维访问记录;
生成单元,用于根据操作数据集生成所述多个会话各自对应的会话特征向量;
聚类单元,用于根据会话特征向量使用聚类算法将所述多个会话进行聚类,得到K个簇类;其中,每个簇类包含一个或多个会话,K为大于1的整数;
识别单元,用于将会话数量少于数量阈值的簇类中的会话识别为异常会话。
7.根据权利要求6所述的装置,其特征在于,所述生成单元包括:
提取子单元,用于提取界面操作视频中的关键帧生成序列图像集;
第一生成子单元,用于基于卷积神经网络CNN生成序列图像集的视觉特征向量;
对齐子单元,用于对视觉特征向量进行对齐处理;
第二生成子单元,用于根据对齐处理后的视觉特征向量和运维会话记录生成会话的会话特征向量。
8.根据要求7所述的装置,其特征在于,所述提取子单元具体用于:
遍历地从界面操作视频中提取一个当前视频帧;
比较所述当前视频帧和上一视频帧的像素强度差值;
若所述像素强度差值大于像素强度阈值,将所述当前帧作为关键帧。
9.根据权利要求6或7所述的装置,其特征在于,所述采集单元具体用于:
根据预设的时间周期采集多个会话各自对应的操作数据集。
10.一种装置,其特征在于,包括处理器和存储器,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器用于调用所述程序指令,执行如权利要求1-5任一项所述的方法。
11.一种计算机可读存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-5任一项所述的方法。
CN201910244244.7A 2019-03-28 2019-03-28 运维违规操作的识别方法、装置和存储介质 Active CN110046297B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910244244.7A CN110046297B (zh) 2019-03-28 2019-03-28 运维违规操作的识别方法、装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910244244.7A CN110046297B (zh) 2019-03-28 2019-03-28 运维违规操作的识别方法、装置和存储介质

Publications (2)

Publication Number Publication Date
CN110046297A true CN110046297A (zh) 2019-07-23
CN110046297B CN110046297B (zh) 2023-04-07

Family

ID=67275474

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910244244.7A Active CN110046297B (zh) 2019-03-28 2019-03-28 运维违规操作的识别方法、装置和存储介质

Country Status (1)

Country Link
CN (1) CN110046297B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110597719A (zh) * 2019-09-05 2019-12-20 腾讯科技(深圳)有限公司 一种用于适配测试的图像聚类方法、装置及介质
CN113538846A (zh) * 2021-07-13 2021-10-22 北京国基科技股份有限公司 一种港机司机操作异常行为分析报警方法及系统
CN113592349A (zh) * 2021-08-11 2021-11-02 中国环境监测总站 一种环境监测数据的智能监控系统及方法
CN114300146A (zh) * 2022-01-11 2022-04-08 大理楠诺互联网科技有限公司 一种应用于智慧医疗的用户信息安全处理方法及系统
CN116112265A (zh) * 2023-02-13 2023-05-12 山东云天安全技术有限公司 一种异常会话的确定方法、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001073602A2 (en) * 2000-03-28 2001-10-04 Starlab Nv/Sa Clustering and examining large data sets
CN106446015A (zh) * 2016-08-29 2017-02-22 北京工业大学 一种基于用户行为偏好的视频内容访问预测与推荐方法
CN108206813A (zh) * 2016-12-19 2018-06-26 中国移动通信集团山西有限公司 基于k均值聚类算法的安全审计方法、装置及服务器
CN108809745A (zh) * 2017-05-02 2018-11-13 中国移动通信集团重庆有限公司 一种用户异常行为检测方法、装置及系统
CN108920690A (zh) * 2018-07-13 2018-11-30 北京朋创天地科技有限公司 可视化网络安全审计方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001073602A2 (en) * 2000-03-28 2001-10-04 Starlab Nv/Sa Clustering and examining large data sets
CN106446015A (zh) * 2016-08-29 2017-02-22 北京工业大学 一种基于用户行为偏好的视频内容访问预测与推荐方法
CN108206813A (zh) * 2016-12-19 2018-06-26 中国移动通信集团山西有限公司 基于k均值聚类算法的安全审计方法、装置及服务器
CN108809745A (zh) * 2017-05-02 2018-11-13 中国移动通信集团重庆有限公司 一种用户异常行为检测方法、装置及系统
CN108920690A (zh) * 2018-07-13 2018-11-30 北京朋创天地科技有限公司 可视化网络安全审计方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
史兴键等: "基于优化聚类算法的安全审计模型", 《计算机工程与应用》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110597719A (zh) * 2019-09-05 2019-12-20 腾讯科技(深圳)有限公司 一种用于适配测试的图像聚类方法、装置及介质
CN110597719B (zh) * 2019-09-05 2021-06-15 腾讯科技(深圳)有限公司 一种用于适配测试的图像聚类方法、装置及介质
CN113538846A (zh) * 2021-07-13 2021-10-22 北京国基科技股份有限公司 一种港机司机操作异常行为分析报警方法及系统
CN113592349A (zh) * 2021-08-11 2021-11-02 中国环境监测总站 一种环境监测数据的智能监控系统及方法
CN114300146A (zh) * 2022-01-11 2022-04-08 大理楠诺互联网科技有限公司 一种应用于智慧医疗的用户信息安全处理方法及系统
CN116112265A (zh) * 2023-02-13 2023-05-12 山东云天安全技术有限公司 一种异常会话的确定方法、电子设备及存储介质
CN116112265B (zh) * 2023-02-13 2023-07-28 山东云天安全技术有限公司 一种异常会话的确定方法、电子设备及存储介质

Also Published As

Publication number Publication date
CN110046297B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
Wang et al. SaliencyGAN: Deep learning semisupervised salient object detection in the fog of IoT
CN110046297A (zh) 运维违规操作的识别方法、装置和存储介质
CN112540832B (zh) 一种基于知识图谱的云原生系统故障分析方法
EP4030348A1 (en) Neural network training method, data processing method, and related apparatuses
CN110532996A (zh) 视频分类的方法、信息处理的方法以及服务器
CN108427939A (zh) 模型生成方法和装置
CN111275784B (zh) 生成图像的方法和装置
CN108491267B (zh) 用于生成信息的方法和装置
CN114330312A (zh) 标题文本处理方法、装置、存储介质和程序
CN112132197A (zh) 模型训练、图像处理方法、装置、计算机设备和存储介质
CN115511501A (zh) 一种数据处理方法、计算机设备以及可读存储介质
CN109919244A (zh) 用于生成场景识别模型的方法和装置
CN110138745A (zh) 基于数据流序列的异常主机检测方法、装置、设备及介质
CN108985954A (zh) 一种建立各标识的关联关系的方法以及相关设备
Liu et al. 3d action recognition using data visualization and convolutional neural networks
KR20230132350A (ko) 연합 감지 모델 트레이닝, 연합 감지 방법, 장치, 설비 및 매체
CN108229680A (zh) 神经网络系统、遥感图像识别方法、装置、设备及介质
CN110536118A (zh) 一种数据获取方法、装置、以及计算机存储介质
CN113762034A (zh) 视频分类方法和装置、存储介质及电子设备
CN116467607B (zh) 信息匹配方法和存储介质
CN115168609A (zh) 一种文本匹配方法、装置、计算机设备和存储介质
CN113378723B (zh) 一种基于深度残差网络的输变电线路隐患自动安全识别系统
CN106156256A (zh) 一种用户信息分类透传方法及系统
Sun et al. Image steganalysis based on convolutional neural network and feature selection
CN113452810A (zh) 一种流量分类方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant