CN113835919B - 数据处理方法、服务器及存储介质 - Google Patents

数据处理方法、服务器及存储介质 Download PDF

Info

Publication number
CN113835919B
CN113835919B CN202111131284.4A CN202111131284A CN113835919B CN 113835919 B CN113835919 B CN 113835919B CN 202111131284 A CN202111131284 A CN 202111131284A CN 113835919 B CN113835919 B CN 113835919B
Authority
CN
China
Prior art keywords
frequent item
original
abnormal
sets
item set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111131284.4A
Other languages
English (en)
Other versions
CN113835919A (zh
Inventor
周莉
关泰璐
于林涛
靳蒲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Group Co Ltd
Unicom Big Data Co Ltd
Original Assignee
China United Network Communications Group Co Ltd
Unicom Big Data Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Group Co Ltd, Unicom Big Data Co Ltd filed Critical China United Network Communications Group Co Ltd
Priority to CN202111131284.4A priority Critical patent/CN113835919B/zh
Publication of CN113835919A publication Critical patent/CN113835919A/zh
Application granted granted Critical
Publication of CN113835919B publication Critical patent/CN113835919B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6227Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Biomedical Technology (AREA)
  • Fuzzy Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供一种数据处理方法、服务器及存储介质,通过获取各账户对堡垒机的操作指标集,根据被执行次数对各账户的堡垒机的操作指标集进行频繁项提取,以获得多个原始频繁项集和每个原始频繁项集的支持度。根据目标操作对多项原始频繁项集进行拆分以获得二项频繁项集,根据原始频繁项集的支持度计算二项频繁项集的支持度,并根据二项频繁项集的支持度确定目标操作与其他操作之间关联度。其中,多项原始频繁项集是包含至少两个操作的原始频繁项集,操作指标集包括各操作被执行次数,实现利用二项频繁项集的关联度对异常操作结果的溯源,从而提高异常操作的处理效率,降低异常操作造成的风险。

Description

数据处理方法、服务器及存储介质
技术领域
本申请涉及计算机数据安全技术领域,尤其涉及一种数据处理方法、服务器及存储介质。
背景技术
计算机数据安全技术是指对计算机数据处理系统中数据管理的安全保护,降低数据在网络传输和交换的过程中产生的增加、修改、丢失和泄露等异常操作的次数和风险。
计算机数据处理是通过运维人员、数据分析人员和各类平台的运营人员登录堡垒机,并利用堡垒机登录各类主机,进行对应的数据库查询、运维和数据修改等操作实现对应的数据处理。操作人员对堡垒机的操作数据和对主机的登录数据会存储在堡垒机日志中。异常操作的溯源是指对堡垒机日志进行查询,找到实施异常操作的操作人员与异常原因。
然而,查询堡垒机日志获得的异常操作原因具有多样性,不能明确发现异常操作与异常结果的对应关系。并且堡垒机对易导致数据异常的异常操作无法实现有效规避,在数据操作过程中存在较高的风险。
发明内容
本申请提供一种数据处理方法、服务器及存储介质,用以解决堡垒机内易导致异常结果的异常操作的溯源与规避问题。
第一方面,本申请提供一种数据处理方法,包括:
获取各账户对堡垒机的操作指标集;其中,操作指标集包括各操作被执行次数;
根据被执行次数对各账户的堡垒机的操作指标集进行频繁项提取,以获得多个原始频繁项集和每个原始频繁项集的支持度;
根据目标操作对多项原始频繁项集进行拆分以获得二项频繁项集;其中,多项原始频繁项集是包含至少两个操作的原始频繁项集;
根据原始频繁项集的支持度计算二项频繁项集的支持度,并根据二项频繁项集的支持度确定目标操作与其他操作之间关联度。
在上述技术方案中,服务器对记录各账户对堡垒机操作的堡垒机日志进行处理,获得各账户的操作指标集。通过对操作指标集进行频繁项集提取和对应支持度计算,确定具有关联性的操作集合。通过对包含目标操作的频繁项集进行拆分得到多个二项频繁项集及其对应的支持度,得到目标操作与其他操作间的关联度,通过对多个二项频繁项集的关联度的比较,确定对目标操作影响最大的操作,从而在后续出现目标操作时能够直接确定导致目标操作的原因,提高处理目标操作的效率,降低目标操作造成的风险。
可选地,操作的类型包括异常结果、异常时间以及异常过程;
根据原始频繁项集的支持度计算二项频繁项集的支持度,具体包括:
根据原始频繁项集内属于异常时间的操作类型的数量、属于异常过程的操作类型的数量以及原始频繁项集的支持度获得原始频繁项集的平均支持度;
根据原始频繁项集的平均支持度和原始频繁项集与二项频繁项集之间关系计算二项频繁项集的支持度;
其中,二项频繁项集中的一项操作类型属于异常结果,另一项操作类型属于异常时间或者异常过程。
可选地,根据原始频繁项集的平均支持度和原始频繁项集与二项频繁项集之间关系计算二项频繁项集的支持度,具体包括:
根据如下公式计算二项频繁项集的支持度:
Figure GDA0004193674270000021
其中,
Figure GDA0004193674270000022
表示指标集(Ak,Au)对应的二项频繁项集的支持度,Au表示异常结果指标项,Ak表示其他异常事件指标项,/>
Figure GDA0004193674270000023
表示第i个原始频繁项集的平均支持度,fi,k表示第i个原始频繁项集与第k个二项频繁项集之间的关系,N表示原始频繁项集的数量。
可选地,当第i个原始频繁项集包含第k个二项频繁项集内所有操作,fi,k=1;当第i个原始频繁项集不包含第k个二项频繁项集内操作,fi,k=0。
可选地,根据原始频繁项集内属于异常时间的操作类型的数量、属于异常过程的操作类型的数量以及原始频繁项集的支持度获得原始频繁项集的平均支持度,具体包括:
根据如下公式计算原始频繁项集的平均支持度:
Figure GDA0004193674270000031
其中,
Figure GDA0004193674270000032
表示第j个原始频繁项集的平均支持度,Sj表示第j个原始频繁项集的支持度,/>
Figure GDA0004193674270000033
表示第j个原始频繁项集内属于异常时间的操作类型的数量,/>
Figure GDA0004193674270000034
表示第j个原始频繁项集内属于异常过程的操作类型的数量。
可选地,根据目标操作对多项原始频繁项集进行拆分以获得二项频繁项集,具体包括:
选择支持度大于支持度阈值的原始频繁项集进行拆分,获得二项频繁项集。
可选地,目标操作包括:文件下载操作、文件传输操作以及公网连接操作中一种或多种组合。
在上述技术方案中,通过对所有每组频繁项集中的非目标操作进行平均支持度求解,得到每组频繁项集中非目标操作对目标操作的平均影响程度。在所有频繁项集中通过频繁项集与二项集的关系得到二项集的支持度,从而在大数据范围内统计每项非目标操作对每项目标操作的影响,提高了关联度计算的准确性。
可选地,方法还包括:
获取具有异常操作的堡垒机日志;
根据目标操作与其他操作之间关联度确定异常操作的危险度;
当异常操作的危险度满足危险操作条件时,对异常操作进行处理。
第二方面,本申请提供一种服务器,包括:存储器,处理器;
存储器;用于存储处理器可执行的计算机指令;
其中,处理器在执行计算机指令时用于实现第一方面涉及的数据处理方法。
第三方面,本申请提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机指令,计算机指令被处理器执行时用于实现第一方面涉及的数据处理方法。
本申请提供的数据处理方法、服务器及存储介质,通过获取各账户对堡垒机的操作指标集,对各账户的堡垒机的操作指标集进行频繁项提取,以获得多个原始频繁项集和每个原始频繁项集的支持度。根据目标操作对多项原始频繁项集进行拆分以获得二项频繁项集,根据原始频繁项集的支持度计算二项频繁项集的支持度,并根据二项频繁项集的支持度确定目标操作与其他操作之间关联度。其中,多项原始频繁项集是包含至少两个操作的原始频繁项集,操作指标集包括各操作被执行次数,实现利用二项频繁项集的关联度对异常操作结果的溯源,从而提高异常操作的处理效率,降低异常操作造成的风险。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1为本申请提供的数据处理系统结构图;
图2为本申请根据一示例性实施例提供的数据处理方法的流程示意图;
图3为本申请根据一实施例提供的数据处理方法的流程示意图;
图4为本申请根据另一实施例提供的数据处理方法的流程示意图;
图5为本申请根据另一实施例提供的数据处理方法的流程示意图;
图6为本申请另一实施例提供的服务器的结构示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
计算机数据安全技术是指对计算机数据处理系统中数据管理的安全保护,降低数据在网络传输和交换的过程中产生的增加、修改、丢失和泄露等异常操作的次数和风险。
计算机数据处理是通过运维人员、数据分析人员和各类平台的运营人员登录堡垒机,并利用堡垒机登录各类主机,进行对应的数据库查询、运维和数据修改等操作实现对应的数据处理。操作人员对堡垒机的操作数据和对主机的登录数据会存储在堡垒机日志中。异常操作的溯源是指对堡垒机日志进行查询,找到实施异常操作的操作人员与异常原因。
然而,查询堡垒机日志获得的异常操作原因具有多样性,不能明确发现异常操作与异常结果的对应关系,因此堡垒机对易导致数据异常的异常操作无法实现有效规避,在数据操作过程中存在较高的风险。
针对上述技术问题,本申请实施例提供一种数据处理方法、服务器及存储介质,旨在解决用户在终端通过堡垒机访问主机出现异常结果时提高异常操作处理的效率问题。本申请的技术构思是:服务器将多账户登录的堡垒机日志进行信息提取获得操作指标集,利用关联规则挖掘算法分析操作指标集中的异常操作与其他操作的关系从而确定具有高关联度的操作,再次出现异常操作时,对异常操作按照关联度进行处理,从而提高处理效率,降低风险。
图1为本申请提供的数据处理系统结构图,如图1所示,包括终端设备10、堡垒机11、目标主机12和服务器13,其中,服务器13包括处理器131和显示单元132。
终端设备10以用户账号的形式登录堡垒机11,并通过远程操控堡垒机11登录目标主机12,从而实现对目标主机12中的数据的操作并生成对应的堡垒机日志,其中,终端通过堡垒机对目标主机的操作包括:数据库查询、服务器运维、数据修改。
服务器13中的处理器131收集多种日志,包括堡垒机中生成的堡垒机日志、主机中生成的主机日志。在本申请中,服务器对堡垒机日志进行分析。更具体地,处理器本地存储有映射表,处理器对获取的堡垒机日志进行日志字段提取,并根据字段信息查询映射表得到对应的分析结果。处理器将分析结果通过传输系统传送给显示单元132。此外,对于分析结果显示为异常的堡垒机日志,服务器与该堡垒机日志中字段信息对应的终端进行确认,并对确认信息中不符合操作权限和操作规则的终端进行堡垒机访问限制操作,并发送警告消息和堡垒机访问限制操作消息,减少风险操作。
图2为本申请根据一示例性实施例提供的数据处理方法的流程示意图。如图2所示,本申请提供的数据处理方法,包括:
S201、服务器获取各账户对堡垒机的操作指标集。
更具体地,操作指标集是指对堡垒机日志进行字段提取得到的字段信息的集合,其中,操作指标集包括各操作被执行的次数。
更具体地,堡垒机日志包括用户通过终端远程登录堡垒机的账户信息和用户利用终端通过堡垒机对目标主机进行操作信息。
更具体地,一个账户对应一条操作指标集;
更具体地,服务器获取的操作指标集是一段时间内获取的多个账户的操作指标集的集合,其中,多账户的操作指标集中不包含具体的账户信息。
S202、服务器根据被执行次数对各账户的堡垒机的操作指标集进行频繁项提取,以获得多个原始频繁项集和每个原始频繁项集的支持度。
更具体地,被执行次数是从步骤S201获取的。
更具体地,频繁项是指操作指标集中频繁出现的子项。
更具体地,原始频繁项集是指包含一个或多个频繁项的集合,一个原始频繁项集对应一个支持度,支持度可以表示该集合频繁出现的频率,其中,支持度是通过对被执行次数统计获取的。
更具体地,多个原始频繁项集是指在操作指标集中获得的所有原始频繁项集,其中,获取的原始频繁项集的个数至少为两个。例如:一个具有13项指标的集合具有多个频繁项集,其频繁项集的项数为2项、5项和7项,项数为2的频繁项集被称为原始二项频繁项集,项数为5的频繁项集被称为原始五项频繁项集,项数为7的频繁项集被称为原始七项频繁项集,所有的原始二项频繁项集、原始五项频繁项集和原始七项频繁项集组成该集合的所有原始频繁项集。
更具体地,服务器进行频繁项提取的操作指标集是指步骤S201中获取的操作指标集。
S203、服务器根据目标操作对多项原始频繁项集进行拆分以获得二项频繁项集。
更具体地,多项原始频繁项集是包含至少两个操作的原始频繁项集。二项频繁项集是只包含两个操作的频繁项集。
更具体地,目标操作是指处理器对频繁项集进行分析时的必要分析操作。例如:操作集合中包括结果、方式、媒介、目的,要分析结果与其他操作的关系,则结果为目标操作。
更具体地,处理器根据目标操作对多项原始频繁项集进行拆分以获得二项频繁项集是指将包含有目标操作的多项原始项集进行拆分,得到的频繁项集全为二项频繁项集,该二项频繁项集中一项为目标操作,另一项为其他操作。
S204、服务器根据原始频繁项集的支持度计算二项频繁项集的支持度,并根据二项频繁项集的支持度确定目标操作与其他操作之间关联度。
更具体地,二项频繁项集的支持度是指该二项频繁项集在操作指标集中的出现的频繁程度。服务器根据原始频繁项集中包含的各个操作指标、原始频繁项集的支持度及拆分后得到的二项频繁项集间的关系得到二项频繁项集的支持度。
更具体地,目标操作与其他操作之间关联度是指目标操作与其他操作之间关联程度,与包含目标操作与其他操作的二项频繁项集的支持度成正比,即二项频繁项集的支持度越大,目标操作与其他操作之间关联程度越高。
在上述技术方案中,服务器通过对堡垒机的日志进行处理,得到频繁项集及其支持度,通过对包含目标操作的频繁项集进行平均支持度的求取和二项频繁项集的拆分,得到包含目标操作的二项频繁项集的支持度,从而得到目标操作与其他操作两项之间的关联度,在出现异常操作时,有针对性地解决其关联的操作,提高异常操作的处理效率,降低异常操作造成的风险。
图3为本申请根据一实施例提供的数据处理方法的流程示意图,该数据处理方法的执行主体为处理器。如图3所示,本申请提供的数据处理方法,包括:
S301、根据原始频繁项集内属于异常时间的操作类型的数量、属于异常过程的操作类型的数量以及原始频繁项集的支持度获得原始频繁项集的平均支持度。
更具体地,操作类型包括异常结果、异常时间以及异常过程。其中,异常结果包括但不限于文件下载、文件传输和公网连接;异常时间包括但不限于非工作时间操作、周末操作和节假日登录;异常操作过程包括但不限于操作主机数过多、操作账号数过多、执行chmod777、高危操作数量、SSH跳转、密码修改、根账号登录其他主机等指标;
更具体地,本步骤中的原始频繁项集是从步骤S202中获取的。
更具体地,平均支持度是利用原始频繁项集的支持度及属于异常时间的操作类型的数量、属于异常过程的操作类型的数量获得支持度在除异常结果外的每个异常操作的平均支持度。平均支持度的计算公式如下:
Figure GDA0004193674270000081
其中,
Figure GDA0004193674270000082
表示第j个原始频繁项集的平均支持度,Sj表示第j个原始频繁项集的支持度,/>
Figure GDA0004193674270000083
表示第j个原始频繁项集内属于异常时间的操作类型的数量,/>
Figure GDA0004193674270000084
表示第j个原始频繁项集内属于异常过程的操作类型的数量。例如:某一频繁项集可以表示为(A1,A4,A5,A9),其中,A1属于异常结果,A4和A5属于异常操作时间,A9属于异常操作过程,支持度为150,对应上式可得:Sj=150,/>
Figure GDA0004193674270000085
即后面三种操作中每种操作导致A1这一异常操作的支持度是50。
S302、根据目标操作对多项原始频繁项集进行拆分以获得二项频繁项集。
更具体地,目标操作包括:文件下载操作、文件传输操作以及公网连接操作中一种或多种组合。
更具体地,进行拆分为二项频繁项集的原始频繁项集的支持度需要大于支持度阈值。其中,利用支持度阈值筛选原始频繁项集使得被拆分的频繁项集中不存在较低支持度的频繁项集,从而限制二项频繁项集的求取范围,提高寻找到异常操作中异常结果与其他操作之间的关联度的效率。
更具体地,根据目标操作对多项原始频繁项集进行拆分以获得二项频繁项集是指被拆分的原始频繁项集还需要满足该频繁项集包含属于目标操作的频繁项,拆分后的二项频繁项集中包括两项频繁项,分别为目标操作和其他操作。
S303、根据原始频繁项集的平均支持度和原始频繁项集与二项频繁项集之间关系计算二项频繁项集的支持度。
更具体地,二项频繁项集中的一项操作类型属于异常结果,另一项操作类型属于异常时间或者异常过程。在一实施例中,目标操作为异常结果。
更具体地,本步骤中的平均支持度是从步骤S301中获取的平均支持度,原始频繁项集是从步骤S302中获取的通过支持度阈值筛选后得到的原始频繁项集,二项频繁项集是从步骤S302中获取的二项频繁项集。
更具体地,二项频繁项集的支持度为包含二项频繁项集中的两项频繁项的所有原始频繁项集对应的平均支持度之和,其求取公式如下计算:
Figure GDA0004193674270000091
其中,
Figure GDA0004193674270000092
表示指标集(Aj,Au)对应的二项频繁项集的支持度,Au表示异常结果指标项,Ak表示其他异常事件指标项,/>
Figure GDA0004193674270000093
表示第i个原始频繁项集的平均支持度,fi,k表示第i个原始频繁项集与第k个二项频繁项集之间的关系,N表示原始频繁项集的数量。
更具体地,当第i个原始频繁项集包含第k个二项频繁项集内所有操作,fi,k=1;当第i个原始频繁项集不包含第k个二项频繁项集内操作,fi,k=0。
更具体地,二项频繁项集的支持度表示为二项频繁项集中包含的目标操作与其他操作间的关联度,表示其他操作对目标操作的影响程度。其中,支持度越大,关联度越高。
更具体地,根据所有二项频繁项集生成所有异常结果与异常时间和异常过程之间的关联度,并生成映射表。
在上述技术方案中,通过对多个用户获取的原始频繁项集中非目标操作的平均支持度求解,得到每组频繁项集中非目标操作对目标操作的平均影响程度。在所有频繁项集中通过频繁项集与二项集的关系得到二项集的支持度,从而在大数据范围内统计每项非目标操作对每项目标操作的影响,提高了关联度计算的准确性。此外,将获取的操作集合及其关联度统计在映射表中,提高了查找与目标操作相关联的其他操作的效率。
图4为本申请根据另一实施例提供的数据处理方法的流程示意图,该数据处理方法的执行主体为服务器。如图4所示,本申请提供的数据处理方法,包括:
S401、获取具有异常操作的堡垒机日志。
更具体地,服务器获取的堡垒机日志已在上述步骤S201中详细说明,此处不再赘述。
S402、根据目标操作与其他操作之间关联度确定异常操作的危险度。
更具体地,服务器对异常操作生成的堡垒机日志进行字段提取,获取操作信息,该信息是表示出现操作结果的操作信息。
更具体地,将该操作信息在已经储存于服务器内的映射表中进行查询,得到与该操作信息相关的其他操作的关联度,通过比较关联度大小筛选出关联度较大的一个/多个其他操作,并根据其他操作对应的支持度确定请求操作的危险度。其中,其他操作的支持度越高,目标操作与其他操作的关联度越高,危险度也就越高。
更具体地,本步骤中使用的映射表是从步骤S303获取的。
S403、判断异常操作的危险度是否满足危险操作条件。
更具体地,危险操作条件是指当前账号的操作不符合权限和当前帐号的操作内容不符合预设规定。
更具体地,判断请求操作的危险度是否满足危险操作条件是指依照步骤S402中获取的高危险度的关联操作是否满足危险操作条件。
更具体地,判断危险度的过程包括对产生异常操作结果的操作权限确定和与异常操作结果相关联的内容的规范性确认。
更具体地,当高危险度的关联操作满足危险操作条件时,即该关联操作超出权限和/或操作内容不符合规范,进入步骤S404。否则,返回步骤S401,服务器获取和处理下一条具有异常操作的堡垒机日志。
S404、处理异常操作。
更具体地,处理异常操作是指当导致异常操作结果的操作超出权限或者与异常操作结果相关联的内容不符合规范性时,对产生异常操作的账户进行警告,对该操作进行权限限制。
在上述技术方案中,服务器在接收到具有异常操作结果的堡垒机日志时,对该日志进行字段提取,并将其在储存关联度的映射表中进行查询,当映射表中查询得到的关联操作具有权限不足或者关联内容不规范时,对产生该异常操作的账户进行警告与权限限制处理,提高异常操作处理效率,降低异常操作的风险。
图5为本申请根据另一实施例提供的数据处理方法的流程示意图,该数据处理方法的执行主体为处理器。如图5所示,本申请提供的数据处理方法,包括:
S501、堡垒机日志采集和字段提取。
更具体地,堡垒机日志中包含实际操作账号信息和操作信息。其中,操作信息中包含操作时间、操作详情、源互联网协议地址(Internet Protocol Address,简称:IP地址)、系统账号和用户账号。
更具体地,字段提取是指通过预设的正则表达式提取堡垒机日志中的操作数据,获取字段对应的内容。
更具体地,对获取的字段数据进行归一化处理,获得符合预设的解析目标格式的字段数据。其中,对字段数据的归一化操作包括但不限于:字段内字节长度计算、字段内容组合和字段内容部分提取。
S502、建立多用户组成的操作指标集。
更具体地,多用户的操作指标集包括用户对每个操作被执行次数的统计。例如:操作指标集中包含的操作指标为文件下载、文件传输、周末登录、节假日登录、SSH跳转和操作账号数过多,用户A在一段时间内进行文件下载2次、文件传输3次、节假日登录5次,则用户A对应的操作指标集为(2,3,0,5,0,0),用户B在一段时间内进行文件传输4次,SSH跳转3次,操作账号数过多1次,则用户B对应的操作指标集为(0,4,0,0,3,1),则用户A和用户B组成的多用户操作指标集为((1,4),(2,4),(1,2,4),(2,5),(2,6),(2,5,6))。
S503、使用关联规则挖掘算法得到第一频繁项集和支持度。
更具体地,关联规则挖掘算法是一种基于规则的算法,该算法利用一些度量指标来分辨数据库中存在的强规则,从而在数据库中发现感兴趣的关系。关联规则挖掘算法包括频繁项集产生(Frequent Itemset Generation)和规则的产生(Rule Generation),其中频繁项集产生是指发现满足最小支持度阈值的所有项集,规则的产生是指从频繁项集中提取所有高置信度的规则。在一实施例中,关联规则挖掘算法可以是Apriori算法。
更具体地,在通过关联规则挖掘算法得到第一频繁项集后,对第一频繁项集进行支持度求取,其中,支持度的解释已在上述步骤S202中详细说明,此处不再赘述。
S504、筛选第一频繁项集得到大于预设支持度阈值的第二频繁项集。
更具体地,将第一频繁项集的支持度与预设支持度阈值进行比较,保留支持度大于预设支持度阈值的频繁项集组成第二频繁项集。
S505、筛选第二频繁项集得到包含异常操作结果的第三频繁项集。
更具体地,以异常操作结果为目标操作,将第二频繁项集中包含目标操作的频繁项集保留下来组成第三频繁项集,作为研究异常操作结果与异常操作时间和异常操作过程间关系的基础。
S506、将第三频繁项集拆分成两项集。
更具体地,对第三频繁项集进行拆分的标准是将属于异常操作结果的项与其他异常操作的项进行两两组合,得到一个/多个两项集。例如:一个频繁项集A中包括(A1,A2,A4,A6),其中,A1和A2属于异常操作结果,A4属于异常操作时间,A6属于异常操作过程,A4和A6属于其他异常操作,频繁项集A拆分得到的两项集为:(A1,A4),(A1,A6),(A2,A4),(A2,A6)。
S507、计算两项集支持度。
更具体地,计算两项集的支持度包括计算多项频繁项集的平均支持度和两项集的支持度。其中,多项频繁项集是指步骤S506中的第三频繁项集,两项集是指步骤S506中的两项集。平均支持度的求取已在上述步骤S301中详细说明,两项集支持度的求取已在上述步骤S303中详细说明,此处不再赘述。
更具体地,在获得两项集支持度后,得到两项集内两项操作的关联性,在后续出现相同异常操作结果时对相关联的操作进行状态确定,从而有针对性地中断异常操作,降低风险。
在上述技术方案中,通过关联挖掘算法对多个堡垒机日志中提取的指标操作集进行频繁项集和支持度的获取,并通过支持度阈值和异常操作结果对频繁项集进行筛选,得到具有高支持度的与异常操作结果有关的频繁项集,缩小了数据处理范围,提高了处理效率。对筛选后得到的频繁项集进行拆分得到两项集并计算其支持度,获得具有高关联度的操作集合,从而确定与异常操作结果相关的操作,有利于后续异常操作结果的溯源。
如图6所示,本申请一实施例提供一种服务器600,服务器600包括存储器601和处理器602。
其中,存储器601用于存储处理器可执行的计算机指令;
处理器602在执行计算机指令时实现上述实施例中数据处理方法中的各个步骤。具体可以参见前述数据处理方法实施例中的相关描述。
可选地,上述存储器601既可以是独立的,也可以跟处理器602集成在一起。当存储器601独立设置时,该服务器还包括总线,用于连接存储器601和处理器602。
本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机指令,当处理器执行计算机指令时,实现上述实施例中数据处理方法中的各个步骤。
本申请实施例还提供一种计算机程序产品,包括计算机指令,该计算机指令被处理器执行时实现上述实施例中数据处理方法中的各个步骤。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求书指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。

Claims (7)

1.一种数据处理方法,其特征在于,所述方法应用于服务器,所述方法包括:
获取各账户对堡垒机的操作指标集;其中,操作指标集包括各操作被执行次数;
根据所述被执行次数对所述各账户的所述堡垒机的操作指标集进行频繁项提取,以获得多个原始频繁项集和每个原始频繁项集的支持度;
根据目标操作对多项原始频繁项集进行拆分以获得二项频繁项集;其中,所述多项原始频繁项集是包含至少两个操作的原始频繁项集;
根据所述原始频繁项集的支持度计算所述二项频繁项集的支持度,并根据所述二项频繁项集的支持度确定所述目标操作与其他操作之间关联度;
所述操作的类型包括异常结果、异常时间以及异常过程;根据所述原始频繁项集的支持度计算所述二项频繁项集的支持度,具体包括:
根据所述原始频繁项集内属于异常时间的操作类型的数量、属于异常过程的操作类型的数量以及所述原始频繁项集的支持度获得所述原始频繁项集的平均支持度;
根据所述原始频繁项集的平均支持度和所述原始频繁项集与所述二项频繁项集之间关系计算所述二项频繁项集的支持度;
其中,所述二项频繁项集中的一项操作类型属于所述异常结果,另一项操作类型属于所述异常时间或者所述异常过程;
根据所述原始频繁项集的平均支持度和所述原始频繁项集与所述二项频繁项集之间关系计算所述二项频繁项集的支持度,具体包括:
根据如下公式计算所述二项频繁项集的支持度:
Figure FDA0004193674260000011
其中,
Figure FDA0004193674260000012
表示指标集(Ak,Au)对应的二项频繁项集的支持度,Au表示异常结果指标项,Ak表示其他异常事件指标项,/>
Figure FDA0004193674260000013
表示第i个原始频繁项集的平均支持度,fi,k表示第i个原始频繁项集与第k个二项频繁项集之间的关系,N表示原始频繁项集的数量;
当所述第i个原始频繁项集包含第k个二项频繁项集内所有操作,fi,k=1;当所述第i个原始频繁项集不包含第k个二项频繁项集内操作,fi,k=0。
2.根据权利要求1所述的数据处理方法,其特征在于,根据所述原始频繁项集内属于异常时间的操作类型的数量、属于异常过程的操作类型的数量以及所述原始频繁项集的支持度获得所述原始频繁项集的平均支持度,具体包括:
根据如下公式计算所述原始频繁项集的平均支持度:
Figure FDA0004193674260000021
其中,
Figure FDA0004193674260000022
表示第j个原始频繁项集的平均支持度,Sj表示第j个原始频繁项集的支持度,ntj表示第j个原始频繁项集内属于异常时间的操作类型的数量,/>
Figure FDA0004193674260000023
表示第j个原始频繁项集内属于异常过程的操作类型的数量。
3.根据权利要求1所述的数据处理方法,其特征在于,根据目标操作对多项原始频繁项集进行拆分以获得二项频繁项集,具体包括:
选择支持度大于支持度阈值的原始频繁项集进行拆分,获得所述二项频繁项集。
4.根据权利要求1至3中任意一项所述的数据处理方法,其特征在于,所述目标操作包括:文件下载操作、文件传输操作以及公网连接操作中一种或多种组合。
5.根据权利要求1至3中任意一项所述的数据处理方法,其特征在于,所述方法还包括:
获取具有异常操作的堡垒机日志;
根据所述目标操作与其他操作之间关联度确定所述异常操作的危险度;
当所述异常操作的危险度满足危险操作条件时,对异常操作进行处理。
6.一种服务器,其特征在于,包括:存储器,处理器;
存储器;用于存储所述处理器可执行的计算机指令;
其中,所述处理器在执行所述计算机指令时用于实现如权利要求1至5中任意一项所述的数据处理方法。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机指令,所述计算机指令被处理器执行时用于实现如权利要求1至5中任意一项所述的数据处理方法。
CN202111131284.4A 2021-09-26 2021-09-26 数据处理方法、服务器及存储介质 Active CN113835919B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111131284.4A CN113835919B (zh) 2021-09-26 2021-09-26 数据处理方法、服务器及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111131284.4A CN113835919B (zh) 2021-09-26 2021-09-26 数据处理方法、服务器及存储介质

Publications (2)

Publication Number Publication Date
CN113835919A CN113835919A (zh) 2021-12-24
CN113835919B true CN113835919B (zh) 2023-06-13

Family

ID=78970211

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111131284.4A Active CN113835919B (zh) 2021-09-26 2021-09-26 数据处理方法、服务器及存储介质

Country Status (1)

Country Link
CN (1) CN113835919B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104361036A (zh) * 2014-10-29 2015-02-18 国家电网公司 告警事件关联规则挖掘方法
CN105512322A (zh) * 2015-12-18 2016-04-20 中国农业银行股份有限公司 频繁项集的生成方法及装置
CN108055281A (zh) * 2017-12-27 2018-05-18 百度在线网络技术(北京)有限公司 账户异常检测方法、装置、服务器及存储介质
CN108345959A (zh) * 2018-01-11 2018-07-31 佛山市顺德区中山大学研究院 一种基于移动互联网技术的小区门禁报警预测方法
CN112667827A (zh) * 2020-12-23 2021-04-16 北京奇艺世纪科技有限公司 一种数据异常分析方法、装置、电子设备及存储介质
CN112818226A (zh) * 2021-01-28 2021-05-18 和美(深圳)信息技术股份有限公司 数据处理方法、推荐方法、装置、电子设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104361036A (zh) * 2014-10-29 2015-02-18 国家电网公司 告警事件关联规则挖掘方法
CN105512322A (zh) * 2015-12-18 2016-04-20 中国农业银行股份有限公司 频繁项集的生成方法及装置
CN108055281A (zh) * 2017-12-27 2018-05-18 百度在线网络技术(北京)有限公司 账户异常检测方法、装置、服务器及存储介质
CN108345959A (zh) * 2018-01-11 2018-07-31 佛山市顺德区中山大学研究院 一种基于移动互联网技术的小区门禁报警预测方法
CN112667827A (zh) * 2020-12-23 2021-04-16 北京奇艺世纪科技有限公司 一种数据异常分析方法、装置、电子设备及存储介质
CN112818226A (zh) * 2021-01-28 2021-05-18 和美(深圳)信息技术股份有限公司 数据处理方法、推荐方法、装置、电子设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
关联规则在WAP增值业务日志挖掘中的应用;程其江;吕述望;;计算机应用(第S1期);第163-165页 *
用垂直数据格式构建FP增长树的算法;李洪波;周莉;张吉赞;;计算机工程与应用(第08期);第161-164页 *

Also Published As

Publication number Publication date
CN113835919A (zh) 2021-12-24

Similar Documents

Publication Publication Date Title
US12081682B2 (en) Method for determining main chain of blockchain, device, and storage medium
CN110324313B (zh) 基于蜜罐系统的恶意用户的识别方法及相关设备
US8498995B1 (en) Optimizing data retrieval during event data query processing
US20060074902A1 (en) Forming intent-based clusters and employing same by search
CN108460278A (zh) 一种威胁情报处理方法及装置
JP6408395B2 (ja) ブラックリストの管理方法
CN111475105B (zh) 监控数据存储方法、设备、服务器及存储介质
CN104937605A (zh) 攻击分析系统、协作装置、攻击分析协作方法和程序
WO2021012509A1 (zh) 一种异常账号检测方法、装置及计算机存储介质
CN111885086B (zh) 恶意软件心跳检测方法、装置、设备及可读存储介质
CN104579773A (zh) 域名系统分析方法及装置
CN112491784A (zh) Web网站的请求处理方法及装置、计算机可读存储介质
US11157492B2 (en) Generic scheduling
CN110795756A (zh) 一种数据脱敏方法、装置、计算机设备及计算机可读存储介质
CN110062380A (zh) 一种移动应用系统的连接访问请求安全检测方法
CN110071934B (zh) 用于网络异常检测的局部敏感性计数摘要方法及系统
CN113190839A (zh) 一种基于SQL注入的web攻击防护方法及系统
CN112668005A (zh) webshell文件的检测方法及装置
CN114595481A (zh) 一种应答数据的处理方法、装置、设备和存储介质
CN113835919B (zh) 数据处理方法、服务器及存储介质
CN110798353A (zh) 基于行为特征大数据分析的网络行为风险感知及防御方法
CN117688555A (zh) 数据库的控制方法、装置、终端设备以及存储介质
KR20200066428A (ko) 행위 기반 룰 처리 장치 및 그 처리 방법
CN116723002B (zh) 基于态势感知的电力报告智能加密方法
CN110287049B (zh) 数据处理方法、装置和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant