CN108667678A - 一种基于大数据的运维日志安全检测方法及装置 - Google Patents

一种基于大数据的运维日志安全检测方法及装置 Download PDF

Info

Publication number
CN108667678A
CN108667678A CN201710198277.3A CN201710198277A CN108667678A CN 108667678 A CN108667678 A CN 108667678A CN 201710198277 A CN201710198277 A CN 201710198277A CN 108667678 A CN108667678 A CN 108667678A
Authority
CN
China
Prior art keywords
daily record
rule
condition code
participle
different
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710198277.3A
Other languages
English (en)
Inventor
李伟霄
韩萌
王巍
王敬忠
邓洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Group Design Institute Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Group Design Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Group Design Institute Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201710198277.3A priority Critical patent/CN108667678A/zh
Publication of CN108667678A publication Critical patent/CN108667678A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/04Processing captured monitoring data, e.g. for logfile generation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/28Restricting access to network management systems or functions, e.g. using authorisation function to access network configuration
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Mathematical Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于大数据的运维日志安全检测方法及装置,所述方法包括:获取多条日志,对每条日志进行分词并提取出关键分词,并得到所述日志的特征码;从不同维度提取所述日志的特征码得到不同类型的特征码集合,根据所述特征码集合及预设阈值合成不同的安全规则,以生成安全规则库;根据所述安全规则库中的安全规则,采用RETE算法对所述多条日志进行规则匹配;根据规则匹配结果对所述多条日志进行分类存储,建立基于规则分类的key‑value存储结构体,并通过所述结构体对应的分词‑规则结构进行索引及日志关联。本发明通过基于大数据的数据驱动的方法来完成审计策略的智能适配,达到快速进行安全日志检索、检测系统运维安全性的目的。

Description

一种基于大数据的运维日志安全检测方法及装置
技术领域
本发明涉及大数据安全分析技术领域,尤其涉及一种基于大数据的运维日志安全检测方法及装置。
背景技术
目前针对运维日志的安全检查方式都是基于关系型数据库的,通过关系型数据库存储人员的运维日志管理系统,在系统实施的前期阶段日志量不大的情况下,通过优化数据库等方式可以达到千万级日志中查询响应时间小于2分钟。但是随着系统的建设,日志系统越来越庞大,数据量向着TB、PB级靠拢,原来的一个千万级日志的查询通常会出现10分钟以上的等待,这是业务所不能忍受的,因此现有的技术只能解决小规模日志数据量的问题,并且只能通过管理员凭经验进行审计安全策略的设置,无法适配业务的快速增长变化。
现有的关系型数据库虽然在业务关系和数据逻辑关系方面比较有优势,但是对于目前规模越来越庞大的运维日志,数据库在处理运维日志时,特别是在查询性能以及分析能力方面严重欠缺。
发明内容
针对现有技术的缺陷,本发明提供了一种基于大数据的运维日志安全检测方法及装置,能够解决现有技术中数据库在处理规模越来越庞大的运维日志时,查询性能以及分析能力严重欠缺的问题。
第一方面,本发明提供了一种基于大数据的运维日志安全检测方法,所述方法包括:
获取多条日志,对每条日志进行分词并提取出关键分词,根据所述关键分词得到所述日志的特征码;
从不同维度提取所述日志的特征码,得到不同类型的特征码集合,根据所述特征码集合及预设阈值合成不同的安全规则,以生成安全规则库;
根据所述安全规则库中的安全规则,采用RETE算法对所述多条日志进行规则匹配;
根据规则匹配结果对所述多条日志进行分类存储,建立基于规则分类的key-value存储结构体,并通过所述结构体对应的分词-规则结构进行索引及日志关联。
可选地,所述对每条日志进行分词并提取出关键分词,根据所述关键分词得到所述日志的特征码,包括:
针对每条日志,采用分词器进行分词并提取出关键分词;
计算得到每个关键分词的权重,并将所述关键分词的权重进行哈希计算,得到所述日志的哈希特征值。
可选地,所述计算得到每个关键分词的权重,包括:
采用TF-IDF权重法计算得到每个关键分词的权重。
可选地,所述从不同维度提取所述日志的特征码,得到不同类型及不同粒度的特征码集合,根据所述特征码集合及预设阈值合成不同的安全规则,以形成安全规则库,包括:
根据日志的分类和分词,从不同维度提取所述日志的特征,获得不同类型及不同粒度的特征码集合;
根据不同类型及不同粒度的特征码集合,及预设阈值组合成不同类型的安全规则;
校正所述不同类型的安全规则,以生成安全规则库;
其中,所述不同类型的安全规则包括:验证规则、计算规则、决策规则及生成规则。
可选地,所述根据所述安全规则库中的安全规则,采用RETE算法对所述多条日志进行规则匹配,包括:
根据所述安全规则库中的安全规则,生成推理网络;
将多条日志对应的数据传递到所述推理网络进行筛选,以进行规则匹配。
第二方面,本发明提供了一种基于大数据的运维日志安全检测装置,所述装置包括:
特征码计算单元,用于获取多条日志,对每条日志进行分词并提取出关键分词,根据所述关键分词得到所述日志的特征码;
规则库生成单元,用于从不同维度提取所述日志的特征码,得到不同类型的特征码集合,根据所述特征码集合及预设阈值合成不同的安全规则,以生成安全规则库;
规则匹配单元,用于根据所述安全规则库中的安全规则,采用RETE算法对所述多条日志进行规则匹配;
日志检索单元,用于根据规则匹配结果对所述多条日志进行分类存储,建立基于规则分类的key-value存储结构体,并通过所述结构体对应的分词-规则结构进行索引及日志关联。
可选地,所述特征码计算单元,具体用于:
针对每条日志,采用分词器进行分词并提取出关键分词;
计算得到每个关键分词的权重,并将所述关键分词的权重进行哈希计算,得到所述日志的哈希特征值。
可选地,所述特征码计算单元,进一步用于:
采用TF-IDF权重法计算得到每个关键分词的权重。
可选地,所述规则库生成单元,具体用于:
根据日志的分类和分词,从不同维度提取所述日志的特征,获得不同类型及不同粒度的特征码集合;
根据不同类型及不同粒度的特征码集合,及预设阈值组合成不同类型的安全规则;
校正所述不同类型的安全规则,以生成安全规则库;
其中,所述不同类型的安全规则包括:验证规则、计算规则、决策规则及生成规则。
可选地,所述规则匹配单元,具体用于:
根据所述安全规则库中的安全规则,生成推理网络;
将多条日志对应的数据传递到所述推理网络进行筛选,以进行规则匹配。
由上述技术方案可知,本发明提供一种基于大数据的运维日志安全检测方法及装置,获取多条日志,并对每条日志进行分词并提取出关键分词,根据所述关键分词得到所述日志的特征码;从不同维度提取所述日志的特征码,得到不同类型的特征码集合,根据所述特征码集合及预设阈值合成不同的安全规则,以生成安全规则库;根据所述安全规则库中的安全规则,采用RETE算法对所述多条日志进行规则匹配;根据规则匹配结果对所述多条日志进行分类存储,建立基于规则分类的key-value存储结构体,并通过分词-规则结构进行索引及日志关联,最终实现审计快速定位,实现日志的快速检索和问题定位。如此,本发明通过数据驱动的方式,找到基于用户运维操作和业务维度量度的安全规则,通过日志自身生成的规则来判断日志自身的安全操作,从而提升安全检测中大数据驱动智能化审计能力;同时采用分步式的计算框架和索引能力,能够快速定位并跟踪到原始日志,解决了在数据库模式下,海量检索无法承载的瓶颈问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些图获得其他的附图。
图1是本发明一实施例提供的一种基于大数据的运维日志安全检测方法的流程示意图;
图2是本发明另一实施例提供的规则服务引擎的工作流程示意图;
图3是本发明另一实施例提供的日志检索服务的工作流程示意图;
图4是本发明一实施例提供的一种基于大数据的运维日志安全检测装置的结构示意图;
图5是本发明一实施例提供的一种服务器的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明一实施例中的一种基于大数据的运维日志安全检测方法的流程示意图,如图1所示,所述方法包括如下步骤:
S1:获取多条日志,对每条日志进行分词并提取出关键分词,根据所述关键分词得到所述日志的特征码。
具体来说,日志特征码计算其实就是一个降维的过程,通过对日志进行分词后提取关键意义词汇(即关键分词),然后将关键分词根据其权重进行哈希计算,从而得到日志的哈希特征值作为日志的特征码。而对于获取的多条日志,则根据本步骤可获得每条日志的特征码。
需要说明的是,能够通过分词的粒度来调整特征码精确度,通过这样的方式来发现并标注日志的特征和特性
S2:从不同维度提取所述日志的特征码,得到不同类型的特征码集合,根据所述特征码集合及预设阈值合成不同的安全规则,以生成安全规则库。
具体来说,根据日志的分类和分词从不同维度提取日志的特征码,可得到不同类型的特征码集合。例如以人为维度进行提取时,会产生基于用户和用户组的运维日志特征码集合,以应用为维度进行提取时,能得到基于应用类型的日志特征码集合。进一步根据不同类型的特征码集合,配以不同预设阈值可得到不同的安全规则。
S3:根据所述安全规则库中的安全规则,采用RETE算法对所述多条日志进行规则匹配。
具体来说,将安全规则库中的安全规则加载至预设的规则服务引擎中,以采用RETE算法实现规则匹配,通过形成一个RETE网络进行模式匹配。其中,如图2所示,规则服务引擎由三部分构成,即:模式匹配器、议程管理中心、执行引擎。模式匹配器决定选择执行哪个规则,何时执行规则;议程管理中心负责管理模式匹配器挑选出来的规则的执行次序;执行引擎负责执行规则和其他动作。
本步骤采用RETE算法实现规则匹配,通过形成一个RETE网络进行模式匹配,利用基于规则的系统的两个特征,即时间冗余性(Temporal redundancy)和结构相似性(structural similarity),提高系统模式匹配效率。
S4:根据规则匹配结果对所述多条日志进行分类存储,建立基于规则分类的key-value存储结构体,并通过所述结构体对应的分词-规则结构进行索引及日志关联。
具体来说,本步骤中将规则服务引擎分析后的审计日志按照规则的触发机制进行分类存储,建立基于规则分类的key-value存储结构体。由于日志对应的关键分词已知,则根据所述基于规则分类的key-value存储结构体可建立分词-规则结构,再通过建立的成对分词-规则结构及日志查询的关键词进行日志关联和快速索引,最终实现审计快速定位,实现日志的快速检索和问题定位。
其中,日志检索工作流程具体如图3所示:客户端进行日志查询时,将查询条件发送至大数据平台的Solr组件,根据查询条件在Solr中建立索引;Solr组件根据分词索引向客户端返回符合条件的RowKey,客户端根据RowKey在HBase中查询原始日志,HBase则根据RowKey和建立的基于规则分类的key-value存储结构体返回相应地原始日志作为检索结果。如此,本步骤采用一种能够结合分词索引和Key-Value键值对组合式存储机制的服务,利用大数据平台自身的solr和Hbase组件能够很好的实现基于分词技术的索引存储,并能提供高速的检索服务。
本实施例中,通过获取多条日志,并对每条日志进行分词并提取出关键分词,根据所述关键分词得到所述日志的特征码;从不同维度提取所述日志的特征码,得到不同类型的特征码集合,根据所述特征码集合及预设阈值合成不同的安全规则,以生成安全规则库;根据所述安全规则库中的安全规则,采用RETE算法对所述多条日志进行规则匹配;根据规则匹配结果对所述多条日志进行分类存储,建立基于规则分类的key-value存储结构体,并通过分词-规则结构进行索引及日志关联,最终实现审计快速定位,实现日志的快速检索和问题定位。如此,本实施例通过数据驱动的方式,找到基于用户运维操作和业务维度量度的安全规则,通过日志自身生成的规则来判断日志自身的安全操作,从而提升安全检测中大数据驱动智能化审计能力;同时采用分步式的计算框架和索引能力,能够快速定位并跟踪到原始日志,解决了在数据库模式下,海量检索无法承载的瓶颈问题。
在本发明的一个可选实施例中,上述步骤S1,具体包括如下子步骤:
S11:针对每条日志,采用分词器进行分词并提取出关键分词。
具体来说,针对每一条日志,可调用如IKAnalyzer,HanLP等第三方分词器进行分词,分词器实现了许多种分词算法,支持:英文字母、数字、中文词汇等分词处理,兼容韩文、日文字符等。
需要说明的是,可根据不同日志类型选择不同分词算法和分词粒度,达到准确高效的日志分词。
S12:计算得到每个关键分词的权重,并将所述关键分词的权重进行哈希计算,得到所述日志的哈希特征值。
具体来说,对文本分词后,接下来需要对分词后的每个term(即每个分词)计算一个权重,重要的term应该给与更高的权重。如在本实施例中采用TF-IDF权重法计算得到每个关键分词的权重,用以评估分词对于一条日志重要程度。
具体地,TF-IDF权重法包括两个因素:
1)分词w在日志d中的词频tf(Term Frequency),即分词w在日志d中出现次数count(w,d)和日志d中总日志数size(d)的比值:
tf(w,d)=count(w,d)/size(d) (1)
2)分词w在整个日志集合中的逆向文档频率idf(Inverse Document Frequency),即相关日志总数n与分词w所出现日志数docs(w,D)比值的对数:
idf=log(n/docs(w,D)) (2)
进一步地,将词频tf和逆向文档频率idf相乘即可得到每个关键分词的权重。TF-IDF模型根据tf和idf为每一个日志d和由关键分词w[1]…w[k]组成的查询串q计算一个权值,将权值设置为1-5等5个级别的权重。
进一步地,进行哈希降维过程,通过hash算法把每个词变成hash值,通过hash函数计算各个特征向量(分词)的hash值,hash值为二进制数01组成的n-bit签名。这样我们的分词就变成了一串串数字,在hash值的基础上,给所有特征向量进行加权,即W=Hash*weight,且遇到1则hash值和权值正相乘,遇到0则hash值和权值负相乘。比如W(bill)=100101*4(权重)=4-4-4 4-4 4。将上述各个特征向量的加权结果累加,变成只有一个序列串。对于n-bit签名的累加结果,如果大于0则置1,否则置0,从而得到该日志的simhash值,即日志的特征码。
在本发明的一个可选实施例中,上述步骤S2,具体包括如下步骤:
S21:根据日志的分类和分词,从不同维度提取所述日志的特征,获得不同类型及不同粒度的特征码集合。
S22:根据不同类型及不同粒度的特征码集合,及预设阈值组合成不同类型的安全规则。
S23:校正所述不同类型的安全规则,以生成安全规则库。
其中,所述不同类型的安全规则包括:验证规则、计算规则、决策规则及生成规则。
具体来说,规则库管理其实就是将用户审计策略和业务审计策略进行管理,包括用户审计策略业务审计策略的配置修改,也能够根据操作的语义建立时间维度,顺序维度,阈值,空域等维度组合的审计规则,将这些规则放入特定的规则引擎当中,实现离线审计分析。而安全规则很复杂,在各种不同的数据流中源源不断产生各种类型的事件。需要对这些业务事件进行复杂的计算,如过滤、关联、聚合等,同时还需要考虑这些也是事件出现的时间序列。最终才能产生有意义的事件,或触发业务流程。同时,这些计算的规则还会经常变化。
本实施例中,根据日志的分类和分词进行不同维度提取,以人为维度进行提取时,会产生基于用户和用户组的运维日志特征码集合,以应用为维度进行提取时,能得到基于应用类型的日志特征码集合,我们将不同类型、不同粒度的特征码集合称之为特征轨迹,配以阈值将组合成不同的安全规则。安全规则通常可分为如表1所示的几种类型:
表1安全规则的类型
进一步地,可通过人工干预的方式校正不同类型的规则,从而形成安全规则库,以将对规则加载到规则引擎中作为后续行为的判别依据,实现智能化的安全检测功能。
在本发明的一个可选实施例中,上述步骤S3,具体包括如下步骤:
S31:根据所述安全规则库中的安全规则,生成推理网络。
S32:将多条日志对应的数据传递到所述推理网络进行筛选,以进行规则匹配。
具体来说,RETE算法可以分为两部分:规则编译(rule compilation)和运行时执行(runtime execution)。规则编译是指根据规则集生成推理网络的过程,运行时执行指将数据送入推理网络进行筛选的过程。RETE推理网络的生成过程:从规则集{规则1,规则2……..}中拿出一条来,根据一定算法,变成RETE推理网络的节点,不断循环将所有规则都处理完,RETE推理网络就生成了。运行时执行是当一个应用引用了一个对象后,引擎将数据传递到ROOTNODE(节点)处,并向下传播,当对象匹配一个节点的条件,节点就将其记录在相应内存中,这样带来的好处是计算过程快速,性能高,唯一需要的就是大量的内存支持。
图4是本发明一实施例中的一种基于大数据的运维日志安全检测装置的结构示意图,如图4所示,所述装置包括:特征码计算单元401、规则库生成单元402、规则匹配单元403及日志检索单元404。其中:
特征码计算单元401用于获取多条日志,对每条日志进行分词并提取出关键分词,根据所述关键分词得到所述日志的特征码。规则库生成单元402用于从不同维度提取所述日志的特征码,得到不同类型的特征码集合,根据所述特征码集合及预设阈值合成不同的安全规则,以生成安全规则库;规则匹配单元403用于根据所述安全规则库中的安全规则,采用RETE算法对所述多条日志进行规则匹配;日志检索单元404用于根据规则匹配结果对所述多条日志进行分类存储,建立基于规则分类的key-value存储结构体,并通过所述结构体对应的分词-规则结构进行索引及日志关联。
由此可见,本实施例通过特征码计算单元401获取多条日志,并对每条日志进行分词并提取出关键分词,根据所述关键分词得到所述日志的特征码;规则库生成单元402从不同维度提取所述日志的特征码,得到不同类型的特征码集合,根据所述特征码集合及预设阈值合成不同的安全规则,以生成安全规则库;规则匹配单元403根据所述安全规则库中的安全规则,采用RETE算法对所述多条日志进行规则匹配;日志检索单元404根据规则匹配结果对所述多条日志进行分类存储,建立基于规则分类的key-value存储结构体,并通过分词-规则结构进行索引及日志关联,最终实现审计快速定位,实现日志的快速检索和问题定位。如此,本实施例通过数据驱动的方式,找到基于用户运维操作和业务维度量度的安全规则,通过日志自身生成的规则来判断日志自身的安全操作,从而提升安全检测中大数据驱动智能化审计能力;同时采用分步式的计算框架和索引能力,能够快速定位并跟踪到原始日志,解决了在数据库模式下,海量检索无法承载的瓶颈问题
在本发明的一个可选实施例中,所述特征码计算单元401,具体用于:
针对每条日志,采用分词器进行分词并提取出关键分词;
计算得到每个关键分词的权重,并将所述关键分词的权重进行哈希计算,得到所述日志的哈希特征值。
具体地,所述特征码计算单元401,进一步用于:
采用TF-IDF权重法计算得到每个关键分词的权重。
在本发明的一个可选实施例中,所述规则库生成单元402,具体用于:
根据日志的分类和分词,从不同维度提取所述日志的特征,获得不同类型及不同粒度的特征码集合;
根据不同类型及不同粒度的特征码集合,及预设阈值组合成不同类型的安全规则;
校正所述不同类型的安全规则,以生成安全规则库;
其中,所述不同类型的安全规则包括:验证规则、计算规则、决策规则及生成规则。
在本发明的一个可选实施例中,所述规则匹配单元403,具体用于:
根据所述安全规则库中的安全规则,生成推理网络;
将多条日志对应的数据传递到所述推理网络进行筛选,以进行规则匹配。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
图5是本发明一实施例中的一种服务器的结构框图。
参照图5,所述服务器,包括:处理器(processor)501、存储器(memory)502、通信接口(Communications Interface)503和总线504;其中,
所述处理器501、存储器502、通信接口503通过所述总线504完成相互间的通信;
所述通信接口503用于所述服务器与客户端之间的信息传输;
所述处理器501用于调用所述存储器502中的程序指令,以执行上述各方法实施例所提供的方法,例如包括:获取多条日志,对每条日志进行分词并提取出关键分词,根据所述关键分词得到所述日志的特征码;从不同维度提取所述日志的特征码,得到不同类型的特征码集合,根据所述特征码集合及预设阈值合成不同的安全规则,以生成安全规则库;根据所述安全规则库中的安全规则,采用RETE算法对所述多条日志进行规则匹配;根据规则匹配结果对所述多条日志进行分类存储,建立基于规则分类的key-value存储结构体,并通过所述结构体对应的分词-规则结构进行索引及日志关联。
本发明一实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:获取多条日志,对每条日志进行分词并提取出关键分词,根据所述关键分词得到所述日志的特征码;从不同维度提取所述日志的特征码,得到不同类型的特征码集合,根据所述特征码集合及预设阈值合成不同的安全规则,以生成安全规则库;根据所述安全规则库中的安全规则,采用RETE算法对所述多条日志进行规则匹配;根据规则匹配结果对所述多条日志进行分类存储,建立基于规则分类的key-value存储结构体,并通过所述结构体对应的分词-规则结构进行索引及日志关联。
本发明一实施例公开一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法,例如包括:获取多条日志,对每条日志进行分词并提取出关键分词,根据所述关键分词得到所述日志的特征码;从不同维度提取所述日志的特征码,得到不同类型的特征码集合,根据所述特征码集合及预设阈值合成不同的安全规则,以生成安全规则库;根据所述安全规则库中的安全规则,采用RETE算法对所述多条日志进行规则匹配;根据规则匹配结果对所述多条日志进行分类存储,建立基于规则分类的key-value存储结构体,并通过所述结构体对应的分词-规则结构进行索引及日志关联。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的显示装置的测试设备等实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于大数据的运维日志安全检测方法,其特征在于,所述方法包括:
获取多条日志,对每条日志进行分词并提取出关键分词,根据所述关键分词得到所述日志的特征码;
从不同维度提取所述日志的特征码,得到不同类型的特征码集合,根据所述特征码集合及预设阈值合成不同的安全规则,以生成安全规则库;
根据所述安全规则库中的安全规则,采用RETE算法对所述多条日志进行规则匹配;
根据规则匹配结果对所述多条日志进行分类存储,建立基于规则分类的key-value存储结构体,并通过所述结构体对应的分词-规则结构进行索引及日志关联。
2.根据权利要求1所述的方法,其特征在于,所述对每条日志进行分词并提取出关键分词,根据所述关键分词得到所述日志的特征码,包括:
针对每条日志,采用分词器进行分词并提取出关键分词;
计算得到每个关键分词的权重,并将所述关键分词的权重进行哈希计算,得到所述日志的哈希特征值。
3.根据权利要求2所述的方法,其特征在于,所述计算得到每个关键分词的权重,包括:
采用TF-IDF权重法计算得到每个关键分词的权重。
4.根据权利要求1所述的方法,其特征在于,所述从不同维度提取所述日志的特征码,得到不同类型及不同粒度的特征码集合,根据所述特征码集合及预设阈值合成不同的安全规则,以形成安全规则库,包括:
根据日志的分类和分词,从不同维度提取所述日志的特征,获得不同类型及不同粒度的特征码集合;
根据不同类型及不同粒度的特征码集合,及预设阈值组合成不同类型的安全规则;
校正所述不同类型的安全规则,以生成安全规则库;
其中,所述不同类型的安全规则包括:验证规则、计算规则、决策规则及生成规则。
5.根据权利要求1所述的方法,其特征在于,所述根据所述安全规则库中的安全规则,采用RETE算法对所述多条日志进行规则匹配,包括:
根据所述安全规则库中的安全规则,生成推理网络;
将多条日志对应的数据传递到所述推理网络进行筛选,以进行规则匹配。
6.一种基于大数据的运维日志安全检测装置,其特征在于,所述装置包括:
特征码计算单元,用于获取多条日志,对每条日志进行分词并提取出关键分词,根据所述关键分词得到所述日志的特征码;
规则库生成单元,用于从不同维度提取所述日志的特征码,得到不同类型的特征码集合,根据所述特征码集合及预设阈值合成不同的安全规则,以生成安全规则库;
规则匹配单元,用于根据所述安全规则库中的安全规则,采用RETE算法对所述多条日志进行规则匹配;
日志检索单元,用于根据规则匹配结果对所述多条日志进行分类存储,建立基于规则分类的key-value存储结构体,并通过所述结构体对应的分词-规则结构进行索引及日志关联。
7.根据权利要求6所述的装置,其特征在于,所述特征码计算单元,具体用于:
针对每条日志,采用分词器进行分词并提取出关键分词;
计算得到每个关键分词的权重,并将所述关键分词的权重进行哈希计算,得到所述日志的哈希特征值。
8.根据权利要求7所述的装置,其特征在于,所述特征码计算单元,进一步用于:
采用TF-IDF权重法计算得到每个关键分词的权重。
9.根据权利要求6所述的装置,其特征在于,所述规则库生成单元,具体用于:
根据日志的分类和分词,从不同维度提取所述日志的特征,获得不同类型及不同粒度的特征码集合;
根据不同类型及不同粒度的特征码集合,及预设阈值组合成不同类型的安全规则;
校正所述不同类型的安全规则,以生成安全规则库;
其中,所述不同类型的安全规则包括:验证规则、计算规则、决策规则及生成规则。
10.根据权利要求6所述的装置,其特征在于,所述规则匹配单元,具体用于:
根据所述安全规则库中的安全规则,生成推理网络;
将多条日志对应的数据传递到所述推理网络进行筛选,以进行规则匹配。
CN201710198277.3A 2017-03-29 2017-03-29 一种基于大数据的运维日志安全检测方法及装置 Pending CN108667678A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710198277.3A CN108667678A (zh) 2017-03-29 2017-03-29 一种基于大数据的运维日志安全检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710198277.3A CN108667678A (zh) 2017-03-29 2017-03-29 一种基于大数据的运维日志安全检测方法及装置

Publications (1)

Publication Number Publication Date
CN108667678A true CN108667678A (zh) 2018-10-16

Family

ID=63786843

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710198277.3A Pending CN108667678A (zh) 2017-03-29 2017-03-29 一种基于大数据的运维日志安全检测方法及装置

Country Status (1)

Country Link
CN (1) CN108667678A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109726272A (zh) * 2018-12-20 2019-05-07 杭州数梦工场科技有限公司 审计规则推荐方法及装置
CN109933973A (zh) * 2019-01-24 2019-06-25 平安科技(深圳)有限公司 密码校验方法、装置、计算机设备及存储介质
CN111078538A (zh) * 2019-11-29 2020-04-28 杭州安恒信息技术股份有限公司 基于jmh的规则自动化测试的方法
CN111368534A (zh) * 2018-12-25 2020-07-03 中国移动通信集团浙江有限公司 一种应用日志降噪方法及装置
CN112487085A (zh) * 2020-11-12 2021-03-12 苏州浪潮智能科技有限公司 一种多平台数据映射方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103824069A (zh) * 2014-03-19 2014-05-28 北京邮电大学 一种基于多主机日志关联的入侵检测方法
CN104156439A (zh) * 2014-08-12 2014-11-19 华北电力大学句容研究中心 一种远程运维智能审计的方法
US9426211B2 (en) * 2013-08-23 2016-08-23 Cisco Technology, Inc. Scaling event processing in a network environment

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9426211B2 (en) * 2013-08-23 2016-08-23 Cisco Technology, Inc. Scaling event processing in a network environment
CN103824069A (zh) * 2014-03-19 2014-05-28 北京邮电大学 一种基于多主机日志关联的入侵检测方法
CN104156439A (zh) * 2014-08-12 2014-11-19 华北电力大学句容研究中心 一种远程运维智能审计的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
孟庆翔: "基于HBase的日志异常分析与相关算法研究", 《CNKI中国优秀硕士学位论文全文数据库》 *
李伟霄: "大数据分析驱动的安全管理平台建设研究", 《互联网天地》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109726272A (zh) * 2018-12-20 2019-05-07 杭州数梦工场科技有限公司 审计规则推荐方法及装置
CN111368534A (zh) * 2018-12-25 2020-07-03 中国移动通信集团浙江有限公司 一种应用日志降噪方法及装置
CN109933973A (zh) * 2019-01-24 2019-06-25 平安科技(深圳)有限公司 密码校验方法、装置、计算机设备及存储介质
CN109933973B (zh) * 2019-01-24 2024-01-19 平安科技(深圳)有限公司 密码校验方法、装置、计算机设备及存储介质
CN111078538A (zh) * 2019-11-29 2020-04-28 杭州安恒信息技术股份有限公司 基于jmh的规则自动化测试的方法
CN111078538B (zh) * 2019-11-29 2023-06-20 杭州安恒信息技术股份有限公司 基于jmh的规则自动化测试的方法
CN112487085A (zh) * 2020-11-12 2021-03-12 苏州浪潮智能科技有限公司 一种多平台数据映射方法及装置

Similar Documents

Publication Publication Date Title
US11494648B2 (en) Method and system for detecting fake news based on multi-task learning model
Yu et al. Attention-based convolutional approach for misinformation identification from massive and noisy microblog posts
Pacheco et al. Uncovering coordinated networks on social media
Khan et al. Multi-gcn: Graph convolutional networks for multi-view networks, with applications to global poverty
CN106021362B (zh) 查询式的图片特征表示的生成、图片搜索方法和装置
CN108667678A (zh) 一种基于大数据的运维日志安全检测方法及装置
Sculley et al. Detecting adversarial advertisements in the wild
Tang et al. A deep learning-based framework for phishing website detection
CN104573130B (zh) 基于群体计算的实体解析方法及装置
Muhammad et al. Stacked autoencoder-based intrusion detection system to combat financial fraudulent
Ceschin et al. The need for speed: An analysis of brazilian malware classifiers
Mohammad et al. A comparison of machine learning techniques for file system forensics analysis
CN109471944A (zh) 文本分类模型的训练方法、装置及可读存储介质
CN107844533A (zh) 一种智能问答系统及分析方法
Halibas et al. Determining the intervening effects of exploratory data analysis and feature engineering in telecoms customer churn modelling
CN110457481A (zh) 一种分类模型训练的方法、装置、设备以及存储介质
CN109933660A (zh) 面向自然语言形式的基于讲义和Stack Overflow的API信息检索方法
CN108804564A (zh) 金融产品的组合推荐方法及终端设备
CN111143838A (zh) 数据库用户异常行为检测方法
CN108961019A (zh) 一种用户账户的检测方法和装置
CN112699375A (zh) 基于网络嵌入相似性的区块链智能合约安全漏洞检测方法
Nazah et al. An unsupervised model for identifying and characterizing dark web forums
Borkar et al. Real or fake identity deception of social media accounts using recurrent neural network
Renström et al. Fraud Detection on Unlabeled Data with Unsupervised Machine Learning
Yeom et al. Detail analysis on machine learning based malicious network traffic classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181016