CN111045847A - 事件审计方法、装置、终端设备以及存储介质 - Google Patents

事件审计方法、装置、终端设备以及存储介质 Download PDF

Info

Publication number
CN111045847A
CN111045847A CN201911321421.3A CN201911321421A CN111045847A CN 111045847 A CN111045847 A CN 111045847A CN 201911321421 A CN201911321421 A CN 201911321421A CN 111045847 A CN111045847 A CN 111045847A
Authority
CN
China
Prior art keywords
event
test set
model
classification model
training set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911321421.3A
Other languages
English (en)
Other versions
CN111045847B (zh
Inventor
李永双
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Oppo Mobile Telecommunications Corp Ltd
Original Assignee
Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Oppo Mobile Telecommunications Corp Ltd filed Critical Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority to CN201911321421.3A priority Critical patent/CN111045847B/zh
Publication of CN111045847A publication Critical patent/CN111045847A/zh
Application granted granted Critical
Publication of CN111045847B publication Critical patent/CN111045847B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0775Content or structure details of the error report, e.g. specific table structure, specific error fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种事件审计方法、装置、终端设备以及存储介质,其方法包括:获取预设的样本数据,所述样本数据包括各类事件日志构成的训练集和测试集;通过预先基于所述样本数据中的训练集和测试集创建的TF‑IDF模型并结合多种机器学习算法构建融合分类模型;根据所述融合分类模型对所述测试集中的事件日志进行风险等级评估。本发明方案通过TF‑IDF模型并结合多种机器学习算法,对事件日志进行风险级别评估,智能识别出海量安全事件日志中的高风险事件,大大提升了事件日志的识别准确率,减少了高风险事件的误报数量,减轻了审计人员的工作负担,提高了审计效率,同时也提升了审计的准确率。

Description

事件审计方法、装置、终端设备以及存储介质
技术领域
本发明涉及信息处理技术领域,尤其涉及一种事件审计方法、装置、终端设备以及存储介质。
背景技术
信息安全审计方法通常是基于特定的规则识别敏感事件的日志,并配合朴素贝叶斯分类模型,对告警事件进行筛选,过滤掉低可疑的告警事件后通过安全预警平台展示给审计人员进行人工审计。
现有技术方案通过朴素贝叶斯分类模型对告警事件进行分类筛选,由于模型单一,朴素贝叶斯模型的缺点也会被放大。理论上,朴素贝叶斯模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此,在朴素贝叶斯模型给定输出类别的情况下,假设属性之间相互独立,这个假设在实际应用中往往是不成立的,在属性个数比较多或者属性之间相关性较大时,分类效果不好。因此,在使用朴素贝叶斯分类模型筛选之后,仍然需要审计人员人工对告警事件进行审计,由此增加了审计人员的工作量,造成工作效率下降。
发明内容
本发明的主要目的在于提供一种事件审计方法、装置、终端设备以及存储介质,旨在减少审计人员的工作量,提升工作效率及事件日志的识别准确率。
为实现上述目的,本发明提供一种事件审计方法,包括:
获取预设的样本数据,所述样本数据包括各类事件日志构成的训练集和测试集;
通过预先基于所述样本数据中的训练集和测试集创建的TF-IDF模型并结合多种机器学习算法构建融合分类模型;
根据所述融合分类模型对所述测试集中的事件日志进行风险等级评估。
可选地,所述事件审计方法还包括:
将风险等级评估的高风险事件推送至触发相应事件的用户。
可选地,所述事件审计方法还包括:
接收所述用户针对所述相应事件的反馈信息。
可选地,所述通过预先基于所述样本数据中的训练集和测试集创建的TF-IDF模型并结合多种机器学习算法构建融合分类模型的步骤包括:
通过预先基于所述样本数据中的训练集和测试集创建的TF-IDF模型训练多种分类模型;
通过训练好的多种分类模型分别计算所述测试集的分类准确率;
根据各个分类模型计算得到的测试集的准确率设定每个分类模型的权重;
根据每个分类模型的权重构建融合分类模型。
可选地,所述根据所述融合分类模型对所述测试集中的事件日志进行风险等级评估的步骤包括:
提取所述融合分类模型中各个分类器的权重;
使用各个分类器的权重为所述测试集打分,并将得到的各个分类器的打分数值进行求和,得到融合分类模型的打分结果;
将所述融合分类模型的打分结果与预先设定的风险阈值进行比较;
当所述融合分类模型的打分结果大于预先设定的风险阈值时,判定测试集的事件被识别为高风险事件,否则识别为低风险事件。
可选地,所述获取预设的样本数据的步骤之前还包括:
构建事件日志数据库,收集各类事件日志存储至所述事件日志数据库;
对所述事件日志数据库中的每一条事件日志进行打标签处理,所述标签包括:高风险事件标签和低风险事件标签;
将打标签处理后的数据组成样本数据;
将所述样本数据分成训练集和测试集。
可选地,所述通过预先基于所述样本数据中的训练集和测试集创建的TF-IDF模型并结合多种机器学习算法构建融合分类模型的步骤之前还包括:
基于所述样本数据中的训练集和测试集创建TF-IDF模型,具体包括:
对所述训练集进行预处理;
对预处理后的训练集进行语言类型识别;
根据识别的语言类型,使用对应的词库对所述训练集中的事件日志进行分词,对分词后的训练集进行训练及向量转换,对测试集进行向量转换得到TF-IDF模型。
可选地,所述对分词后的训练集进行训练及向量转换,对测试集进行向量转换得到TF-IDF模型的步骤包括:
导入开源库中的文本特征提取库中的TF-IDF向量生成器类,创建TF-IDF向量生成器对象;
使用创建的TF-IDF向量生成器对象对分词后的训练集进行训练及向量转换;
使用创建的TF-IDF向量生成器对象对所述测试集进行向量转换;
将训练集训练好的模型,以及训练集和测试集转换成向量后的数据保存,得到TF-IDF模型。
可选地,所述对所述训练集进行预处理包括:
过滤掉所述训练集中事件日志的无语义符号,以及对事件日志进行英文字母大小写脱敏。
可选地,所述方法还包括:
收集误报数据,对所述误报数据进行误差分析;
根据误差分析结果更新所述融合分类模型及对应的词库。
此外,本发明实施例还提出一种事件审计装置,所述事件审计装置包括:
获取模块,用于获取预设的样本数据,所述样本数据包括各类事件日志构成的训练集和测试集;
构建模块,用于通过预先基于所述样本数据中的训练集和测试集创建的TF-IDF模型并结合多种机器学习算法构建融合分类模型;
评估模块,用于根据所述融合分类模型对所述测试集中的事件日志进行风险等级评估。
此外,本发明实施例还提出一种终端设备,所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的事件审计程序,所述事件审计程序被所述处理器执行时实现如上所述的事件审计方法的步骤。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有事件审计程序,所述事件审计程序被处理器执行时实现如上所述的事件审计方法的步骤。
本发明实施例提出的事件审计方法、装置、终端设备以及存储介质,通过获取预设的样本数据,所述样本数据包括各类事件日志构成的训练集和测试集;通过预先基于所述样本数据中的训练集和测试集创建的TF-IDF模型并结合多种机器学习算法构建融合分类模型;根据所述融合分类模型对所述测试集中的事件日志进行风险等级评估。由此,通过TF-IDF模型并结合多种机器学习算法,对事件日志进行风险级别评估,智能识别出海量安全事件日志中的高风险事件,大大提升了事件日志的识别准确率,减少了高风险事件的误报数量,减轻了审计人员的工作负担,提高了审计效率,同时也提升了审计的准确率,为各大公司内部的各种泄密事件、违规操作事件等信息安全事件的审计工作提供了很大的帮助。此外,将高风险等级的安全事件自动下发给用户进行确认,审计人员无需对原始日志进行审计,只需要核对用户返回的信息即可,从而进一步减轻了审计人员的工作量;而且为了提升机器学习的准确度,本发明方案还收集大量私有词组,组成私有词库,大大提高了涉及敏感信息的高风险事件的准确度。
附图说明
图1为本发明事件审计装置所属终端设备的功能模块示意图;
图2为本发明事件审计方法一示例性实施例的流程示意图;
图3为本发明事件审计方法另一示例性实施例的流程示意图;
图4为本发明事件审计方法再一示例性实施例的流程示意图;
图5为本发明事件审计方法又一示例性实施例的流程示意图;
图6为本发明事件审计方法又一示例性实施例的流程示意图;
图7为本发明事件审计方法实施例的细化流程示意图;
图8为本发明事件审计方法又一示例性实施例的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例的主要解决方案是:通过获取预设的样本数据,所述样本数据包括各类事件日志构成的训练集和测试集;通过预先基于所述样本数据中的训练集和测试集创建的TF-IDF模型并结合多种机器学习算法构建融合分类模型;根据所述融合分类模型对所述测试集中的事件日志进行风险等级评估。由此,通过TF-IDF模型并结合多种机器学习算法,对事件日志进行风险级别评估,智能识别出海量安全事件日志中的高风险事件,大大提升了事件日志的识别准确率,减少了高风险事件的误报数量,减轻了审计人员的工作负担,提高了审计效率,同时也提升了审计的准确率,为各大公司内部的各种泄密事件、违规操作事件等信息安全事件的审计工作提供了很大的帮助。此外,将高风险等级的安全事件自动下发给用户进行确认,审计人员无需对原始日志进行审计,只需要核对用户返回的信息即可,从而进一步减轻了审计人员的工作量;而且为了提升机器学习的准确度,本发明方案还收集大量私有词组,组成私有词库,大大提高了涉及敏感信息的高风险事件的准确度。
本发明实施例方案涉及的技术术语包括:
机器学习:机器学习是一门多学科交叉专业,涵盖概率论知识、统计学知识、近似理论知识和复杂算法知识,使用计算机作为工具并致力于真实实时的模拟人类学习方式,将现有内容进行知识结构划分来有效提高学习效率。
TF-IDF:(term frequency–inverse document frequency,词频-逆文本频率)是一种用于信息检索与数据挖掘的常用加权技术,是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。
TF-IDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。其中,TF意为词频(Term Frequency),IDF意为逆向文件频率(Inverse DocumentFrequency)。TF表示词条在文档d中出现的频率。IDF的主要思想是:如果包含词条t的文档数n越少,IDF越大,则说明词条t具有很好的类别区分能力。如果某一类文档C中包含词条t的文档数为m,而其它类包含t的文档总数为k,显然所有包含t的文档数n=m+k,当m大的时候,n也大,按照IDF公式得到的IDF的值会小,就说明该词条t类别区分能力不强。但是实际上,如果一个词条在一个类的文档中频繁出现,则说明该词条能够很好代表这个类的文本的特征,这样的词条应该给它们赋予较高的权重,并选来作为该类文本的特征词以区别与其它类文档。在一份给定的文件里,词频(term frequency,TF)指的是某一个给定的词语在该文件中出现的频率。这个数字是对词数(term count)的归一化,以防止它偏向长的文件(同一个词语在长文件里可能会比短文件有更高的词数,而不管该词语重要与否)。
本发明实施例考虑到,相关技术中,信息安全事件审计方案通常是基于特定的规则识别敏感事件的日志,每当触发指定规则便会产生高风险告警。由于安全事件的日志数量庞大,各业务场景不同,很难提取到一个通用的行之有效的规则去识别所有的事件是否可疑,是否存在信息泄露的风险。因此会产生海量告警,这些告警之中的绝大多数都是误报,审计人员每天需要从海量告警信息中找出可疑事件,这大大增加了审计人员的工作难度,造成工作效率下降,虽然有方案通过朴素贝叶斯分类模型对告警事件进行分类筛选,但是,由于模型单一,在使用朴素贝叶斯分类模型筛选之后,仍然需要审计人员人工对告警事件进行审计,由此增加了审计人员的工作量,造成工作效率下降。
基于此,本发明实施例提出一种解决方案,通过TF-IDF模型并结合多种机器学习算法,对事件日志进行风险级别评估,以减少审计人员的工作量,提升审计工作效率及事件日志的识别准确率。
具体地,参照图1,图1为本发明事件审计装置所属终端设备的功能模块示意图。该事件审计装置可以为独立于终端设备的、能够进行数据处理的装置,其可以通过硬件或软件的形式承载于终端设备上。该终端设备可以为手机、平板电脑等智能移动终端,还可以固定终端。
在本实施例中,该事件审计装置所属终端至少包括输出模块110、第一处理器120、第一存储器130以及第一通信模块140。
第一存储器130中存储有第一操作系统以及事件审计程序,事件审计装置可以将事件日志数据库、样本数据、分类模型以及阈值参数等存储于该第一存储器130中;输出模块110可为显示屏、扬声器等,显示屏可以输出显示各分类模型的结果信息、测试集的准确率、风险等级评估的高风险事件,以及用户针对相应事件的反馈等信息。第一通信模块140可以包括WIFI模块、移动通信模块以及蓝牙模块等,通过第一通信模块140与外部设备或服务器进行通信。
其中,第一存储器130中的事件审计程序被处理器执行时实现以下步骤:
获取预设的样本数据,所述样本数据包括各类事件日志构成的训练集和测试集;
通过预先基于所述样本数据中的训练集和测试集创建的TF-IDF模型并结合多种机器学习算法构建融合分类模型;
根据所述融合分类模型对所述测试集中的事件日志进行风险等级评估。
进一步地,第一存储器130中的事件审计程序被处理器执行时还实现以下步骤:
将风险等级评估的高风险事件推送至触发相应事件的用户。
进一步地,第一存储器130中的事件审计程序被处理器执行时还实现以下步骤:
接收所述用户针对所述相应事件的反馈信息。
进一步地,第一存储器130中的事件审计程序被处理器执行时还实现以下步骤:
通过预先基于所述样本数据中的训练集和测试集创建的TF-IDF模型训练多种分类模型;
通过训练好的多种分类模型分别计算所述测试集的分类准确率;
根据各个分类模型计算得到的测试集的准确率设定每个分类模型的权重;
根据每个分类模型的权重构建融合分类模型。
进一步地,第一存储器130中的事件审计程序被处理器执行时还实现以下步骤:
提取所述融合分类模型中各个分类器的权重;
使用各个分类器的权重为所述测试集打分,并将得到的各个分类器的打分数值进行求和,得到融合分类模型的打分结果;
将所述融合分类模型的打分结果与预先设定的风险阈值进行比较;
当所述融合分类模型的打分结果大于预先设定的风险阈值时,判定测试集的事件被识别为高风险事件,否则识别为低风险事件。
进一步地,第一存储器130中的事件审计程序被处理器执行时还实现以下步骤:
构建事件日志数据库,收集各类事件日志存储至所述事件日志数据库;
对所述事件日志数据库中的每一条事件日志进行打标签处理,所述标签包括:高风险事件标签和低风险事件标签;
将打标签处理后的数据组成样本数据;
将所述样本数据分成训练集和测试集。
进一步地,第一存储器130中的事件审计程序被处理器执行时还实现以下步骤:
基于所述样本数据中的训练集和测试集创建TF-IDF模型,具体包括:
对所述训练集进行预处理;
对预处理后的训练集进行语言类型识别;
根据识别的语言类型,使用对应的词库对所述训练集中的事件日志进行分词,对分词后的训练集进行训练及向量转换,对测试集进行向量转换得到TF-IDF模型。
进一步地,第一存储器130中的事件审计程序被处理器执行时还实现以下步骤:
导入开源库中的文本特征提取库中的TF-IDF向量生成器类,创建TF-IDF向量生成器对象;
使用创建的TF-IDF向量生成器对象对分词后的训练集进行训练及向量转换;
使用创建的TF-IDF向量生成器对象对所述测试集进行向量转换;
将训练集训练好的模型,以及训练集和测试集转换成向量后的数据保存,得到TF-IDF模型。
进一步地,第一存储器130中的事件审计程序被处理器执行时还实现以下步骤:
过滤掉所述训练集中事件日志的无语义符号,以及对事件日志进行英文字母大小写脱敏。
进一步地,第一存储器130中的事件审计程序被处理器执行时还实现以下步骤:
收集误报数据,对所述误报数据进行误差分析;
根据误差分析结果更新所述融合分类模型及对应的词库。
本实施例通过上述方案,具体通过获取预设的样本数据,所述样本数据包括各类事件日志构成的训练集和测试集;通过预先基于所述样本数据中的训练集和测试集创建的TF-IDF模型并结合多种机器学习算法构建融合分类模型;根据所述融合分类模型对所述测试集中的事件日志进行风险等级评估。由此,通过TF-IDF模型并结合多种机器学习算法,对事件日志进行风险级别评估,智能识别出海量安全事件日志中的高风险事件,大大提升了事件日志的识别准确率,减少了高风险事件的误报数量,减轻了审计人员的工作负担,提高了审计效率,同时也提升了审计的准确率,为各大公司内部的各种泄密事件、违规操作事件等信息安全事件的审计工作提供了很大的帮助。此外,将高风险等级的安全事件自动下发给用户进行确认,审计人员无需对原始日志进行审计,只需要核对用户返回的信息即可,从而进一步减轻了审计人员的工作量;而且为了提升机器学习的准确度,本发明方案还收集大量私有词组,组成私有词库,大大提高了涉及敏感信息的高风险事件的准确度。
基于上述终端设备架构但不限于上述终端设备架构,提出本发明方法实施例。
参照图2,图2为本发明事件审计方法一示例性实施例的流程示意图。该实施例提出的事件审计方法包括:
步骤S101,获取预设的样本数据,所述样本数据包括各类事件日志构成的训练集和测试集;
本实施例方法的执行主体可以为一种事件审计装置,也可以为一种终端设备,本实施例以事件审计装置进行举例,但并不对此构成限定。
其中,样本数据可以通过收集各场景下的各类事件日志而获得,该场景包括但不限于日志管理平台的安全事件识别,还可以对内部的邮件日志进行敏感信息的检查(比如对公司内部违规邮件的监测识别)、垃圾邮件的检测,对IM(即时通讯)聊天工具的日志进行敏感信息检测,敏感词过滤等。数据的来源可以是各场景下的本地数据库,也可以是外部服务器,比如云服务器等。
可以构建一个多平台安全日志数据库,将收集的安全事件日志存储,并由审计人员对每一条安全事件日志数据进行打标签处理,将其中的高风险事件打标签为“1”,低风险事件打标签为“0”。打完标签的数据组成机器学习的样本数据,并将样本数据分成训练集和测试集。
其中,对样本数据的分类,可以采用随机方式,也可以按照一定的规则分类,本实施例对此不作限定。
步骤S102,通过预先基于所述样本数据中的训练集和测试集创建的TF-IDF模型并结合多种机器学习算法构建融合分类模型;
本实施例预先基于所述样本数据中的训练集和测试集创建有TF-IDF模型。通过该TF-IDF模型可以得到数据集的TF-IDF向量,进而可以通过TF-IDF模型并结合多种机器学习算法构建融合分类模型,以便根据所述融合分类模型对所述测试集中的事件日志进行风险等级评估。
具体地,通过预先基于所述样本数据中的训练集和测试集创建的TF-IDF模型并结合多种机器学习算法构建融合分类模型的步骤可以包括:
首先,通过预先基于所述样本数据中的训练集和测试集创建的TF-IDF模型并结合多种机器学习算法训练多种分类模型,该分类模型包括但不限于adaboost分类模型、xgboost分类模型、随机森林分类模型、支持向量机分类模型、逻辑回归分类模型、神经网络分类模型、梯度下降分类模型等;
然后,通过训练好的多种分类模型分别计算所述测试集的分类准确率;
然后,根据各个分类模型计算得到的测试集的准确率设定每个分类模型的权重;
最后,根据每个分类模型的权重构建融合分类模型,即在融合分类模型中,包括设定有相应权重的各个分类模型,每个分类模型可以根据其相应的权重对数据集中的事件日志进行打分。
步骤S103,根据所述融合分类模型对所述测试集中的事件日志进行风险等级评估。
具体地,在获取到设定有相应权重的各个分类模型构建的融合分类模型后,提取所述融合分类模型中各个分类器的权重;针对测试集中的每一条事件日志,使用各个分类器的权重为所述测试集中的每一条事件日志打分,并将得到的各个分类器的打分数值进行求和,得到融合分类模型的打分结果,作为安全事件风险评估的标准。
然后,将所述融合分类模型的打分结果与预先设定的风险阈值进行比较;当所述融合分类模型的打分结果大于预先设定的风险阈值时,判定测试集的事件被识别为高风险事件,否则识别为低风险事件。
其中,预先设定的风险阈值可以根据实际情况或经验进行合理设定。
本实施例通过上述方案,具体通过获取预设的样本数据,所述样本数据包括各类事件日志构成的训练集和测试集;通过预先基于所述样本数据中的训练集和测试集创建的TF-IDF模型并结合多种机器学习算法构建融合分类模型;根据所述融合分类模型对所述测试集中的事件日志进行风险等级评估。由此,通过TF-IDF模型并结合多种机器学习算法,对事件日志进行风险级别评估,智能识别出海量安全事件日志中的高风险事件,大大提升了事件日志的识别准确率,减少了高风险事件的误报数量,减轻了审计人员的工作负担,提高了审计效率,同时也提升了审计的准确率,为各大公司内部的各种泄密事件、违规操作事件等信息安全事件的审计工作提供了很大的帮助。
参照图3,图3为本发明事件审计方法另一示例性实施例的流程示意图。该实施例基于上述图2所示的实施例,在上述步骤S103,根据所述融合分类模型对所述测试集中的事件日志进行风险等级评估之后,所述事件审计方法还包括:
步骤S104,将风险等级评估的高风险事件推送至触发相应事件的用户。
相比上述图2所示的实施例,本实施例还包括将高风险事件推送至触发相应事件的用户的方案。
具体地,为了避免高风险事件的误判,在本实施例中,在根据所述融合分类模型对所述测试集中的事件日志进行风险等级评估之后,将风险等级评估结果为高风险的事件推送至触发相应事件的用户,供用户对此高风险事件进行确认。
其中,作为一种实施方式,可以将高风险事件以邮件的形式定时推送给触发相应安全事件的用户,并可以在推送邮件中要求用户进行反馈。
用户在收到推送的邮件后,需要对此事件进行反馈,最后可以由审计人员对此事件进行人工核对。
本实施例通过上述方案,具体通过获取预设的样本数据,所述样本数据包括各类事件日志构成的训练集和测试集;通过预先基于所述样本数据中的训练集和测试集创建的TF-IDF模型并结合多种机器学习算法构建融合分类模型;根据所述融合分类模型对所述测试集中的事件日志进行风险等级评估。由此,通过TF-IDF模型并结合多种机器学习算法,对事件日志进行风险级别评估,智能识别出海量安全事件日志中的高风险事件,大大提升了事件日志的识别准确率,减少了高风险事件的误报数量,减轻了审计人员的工作负担,提高了审计效率,同时也提升了审计的准确率,为各大公司内部的各种泄密事件、违规操作事件等信息安全事件的审计工作提供了很大的帮助。此外,将高风险等级的安全事件自动下发给用户进行确认,审计人员无需对原始日志进行审计,只需要核对用户返回的信息即可,从而进一步减轻了审计人员的工作量。
参照图4,图4为本发明事件审计方法再一示例性实施例的流程示意图。该实施例基于上述图3所示的实施例,在上述步骤S104,将风险等级评估的高风险事件推送至触发相应事件的用户之后,所述事件审计方法还包括:
步骤S105,接收所述用户针对所述相应事件的反馈信息。
相比上述图3所示的实施例,本实施例还包括接收所述用户针对所述相应事件的反馈信息的方案。
具体地,本实施例中,将高风险事件以邮件的形式定时推送给触发相应安全事件的用户,并在推送邮件中要求用户进行反馈。用户在收到推送的邮件后,对此事件进行反馈,并将反馈信息反馈给审计人员或者事件审计装置所在数据处理平台,可以由审计人员对此事件进行人工核对。
本实施例通过上述方案,具体通过获取预设的样本数据,所述样本数据包括各类事件日志构成的训练集和测试集;通过预先基于所述样本数据中的训练集和测试集创建的TF-IDF模型并结合多种机器学习算法构建融合分类模型;根据所述融合分类模型对所述测试集中的事件日志进行风险等级评估。由此,通过TF-IDF模型并结合多种机器学习算法,对事件日志进行风险级别评估,智能识别出海量安全事件日志中的高风险事件,大大提升了事件日志的识别准确率,减少了高风险事件的误报数量,减轻了审计人员的工作负担,提高了审计效率,同时也提升了审计的准确率,为各大公司内部的各种泄密事件、违规操作事件等信息安全事件的审计工作提供了很大的帮助。此外,将高风险等级的安全事件自动下发给用户进行确认,审计人员无需对原始日志进行审计,只需要核对用户返回的信息即可,从而进一步减轻了审计人员的工作量。
参照图5,图5为本发明事件审计方法又一示例性实施例的流程示意图。该实施例基于上述图4所示的实施例,在上述步骤S101,获取预设的样本数据,所述样本数据包括各类事件日志构成的训练集和测试集之前还包括:
步骤S1001,构建事件日志数据库,收集各类事件日志存储至所述事件日志数据库;
步骤S1002,对所述事件日志数据库中的每一条事件日志进行打标签处理,所述标签包括:高风险事件标签和低风险事件标签;
步骤S1003,将打标签处理后的数据组成样本数据;
步骤S1004,将所述样本数据分成训练集和测试集。
相比上述图4所示的实施例,本实施例还包括构建事件日志数据库并提取样本数据的方案。
具体地,可以构建一个多平台安全日志数据库,将收集的安全事件日志存储,并由审计人员对每一条安全事件日志数据进行打标签处理,将其中的高风险事件打标签为“1”,低风险事件打标签为“0”。打完标签的数据组成机器学习的样本数据,并将样本数据随机分成训练集和测试集。
其中,收集的各类事件日志的场景包括但不限于日志管理平台的安全事件识别,还可以对内部的邮件日志进行敏感信息的检查(比如对公司内部违规邮件的监测识别)、垃圾邮件的检测,对IM(即时通讯)聊天工具的日志进行敏感信息检测,敏感词过滤等。数据的来源可以是各场景下的本地数据库,也可以是外部服务器,比如云服务器等。
此外,对样本数据的分类,可以采用随机方式,也可以按照一定的规则分类,本实施例对此不作限定。
例如,可以使用sklearn.model_selection模块中的train_test_split方法将样本数据按照一定的比例随机分成训练集和测试集,并将划分好的数据集进行保存,可以保存在本地磁盘,也可以保存在外部设备,代码如下:
样本训练集数据:x_train=np.load('x_train_data.npy');
样本测试集数据:x_test=np.load('x_test_data.npy');
标签训练集数据:y_train=np.load('y_train_data.npy');
标签测试集数据:y_test=np.load('y_test_data.npy')。
本实施例通过上述方案,具体通过构建事件日志数据库并提取样本数据,所述样本数据包括各类事件日志构成的训练集和测试集;通过预先基于所述样本数据中的训练集和测试集创建的TF-IDF模型并结合多种机器学习算法构建融合分类模型;根据所述融合分类模型对所述测试集中的事件日志进行风险等级评估。由此,通过TF-IDF模型并结合多种机器学习算法,对事件日志进行风险级别评估,智能识别出海量安全事件日志中的高风险事件,大大提升了事件日志的识别准确率,减少了高风险事件的误报数量,减轻了审计人员的工作负担,提高了审计效率,同时也提升了审计的准确率,为各大公司内部的各种泄密事件、违规操作事件等信息安全事件的审计工作提供了很大的帮助。此外,将高风险等级的安全事件自动下发给用户进行确认,审计人员无需对原始日志进行审计,只需要核对用户返回的信息即可,从而进一步减轻了审计人员的工作量;而且为了提升机器学习的准确度,本发明方案还收集大量私有词组,组成私有词库,大大提高了涉及敏感信息的高风险事件的准确度。
参照图6,图6为本发明事件审计方法又一示例性实施例的流程示意图。该实施例基于上述图5所示的实施例,在上述步骤S102,通过预先基于所述样本数据中的训练集和测试集创建的TF-IDF模型并结合多种机器学习算法构建融合分类模型之前还包括:
步骤S1021,基于所述样本数据中的训练集和测试集创建TF-IDF模型。
相比上述图5所示的实施例,本实施例还包括创建TF-IDF模型的方案。
具体地,在创建TF-IDF模型时,基于所述样本数据中的训练集和测试集来创建TF-IDF模型。
首先,对所述训练集进行预处理,其中预处理包括:过滤掉所述训练集中事件日志的无语义符号,以及对事件日志进行英文字母大小写脱敏。
例如,选取训练集中的事件日志数据,使用str.lower()方法将英文字符串中的大写字母转为小写,实现英文字母大小写脱敏。使用str.replace()方法将字符串中的停顿词、空格、标点、数学符号、特殊符号等无语义符号过滤掉。
然后,对预处理后的训练集进行语言类型识别,具体可以使用开源库langid对数据进行语言类型识别。
然后,根据识别的不同语言类型,使用对应的词库对所述训练集中的事件日志进行分词。具体分词方法如下:
若数据为中文文本,则可以使用开源库jieba对数据进行分词,加载本地搭建的私有中文词库,能更好的识别出各业务场景下的专有名词和涉及机密信息的敏感词。
若数据为英文文本,则可以使用wordninja开源库对数据进行分词,加载本地私有英文词库,能更好的识别出各业务场景下的专有名词和涉及机密信息的敏感词。
若数据为中文拼音、阿拉伯数字等,则可以使用本地加载的私有汉语拼音词库,对数据进行分词,能更好的识别出各业务场景下的专有名词和涉及机密信息的敏感词。
最后,对分词后的训练集进行训练及向量转换,对测试集进行向量转换得到TF-IDF模型。
具体地,所述对分词后的训练集进行训练及向量转换,对测试集进行向量转换得到TF-IDF模型的步骤可以包括:
导入开源库中的文本特征提取库中的TF-IDF向量生成器类,创建TF-IDF向量生成器对象;
使用创建的TF-IDF向量生成器对象对分词后的训练集进行训练及向量转换,得到训练集训练好的模型以及训练集转换成向量后的数据;
使用创建的TF-IDF向量生成器对象对所述测试集进行向量转换,得到测试集转换成向量后的数据;
将训练集训练好的模型,以及训练集和测试集转换成向量后的数据保存,得到TF-IDF模型。
举例如下:
训练词频-逆文件频率(TF-IDF)模型,使得每一条安全事件日志都能转化为一个稀疏的TF-IDF向量,从而实现特征提取。具体方法如下:
首先,导入开源库sklearn之中的文本特征提取库中的TF-IDF向量生成器类,代码如下:from sklearn.feature_extraction.text import TfidfVectorizer。
然后,创建TF-IDF向量生成器对象,选择模型参数ngram_range(1,3),代码如下:tf_vectorizer=TfidfVectorizer(ngram_range=(1,3));
然后,使用上一步中创建的向量生成器对象对训练集样本数据进行训练和向量转换,代码如下:x_train_tfidf=tf_vectorizer.fit_transform(x_train);
使用上述创建的向量生成器对象,对测试集样本数据进行向量转换:x_test_tfidf=tf_vectorizer.transform(x_test);
最后,将训练集训练好的模型和训练集、测试集转换成向量后的数据保存到本地,TF-IDF模型训练完成。代码如下:
joblib.dump(tf_vectorizer.fit(x_train),'tfidf_feaure.pkl',compress=3)np.save('train_tfidf.npy',x_train_tfidf.toarray())
np.save('test_tfidf.npy',x_test_tfidf.toarray())。
进一步地,可以通过上述创建的TF-IDF模型并结合多种机器学习算法训练多种分类器模型,具体方法如下:
以七个分类器进行举例:
将上述训练好的训练集TF-IDF向量数据和训练集标签数据喂给adaboost分类器,训练adaboost分类模型,并持久化保存模型,代码如下:
AdaBoostClassifier().fit(train_tfidf,y_train);
joblib.dump(AdaBoostClassifier,'ada_tfidf_model.pkl',compress=3);
将上述训练好的训练集TF-IDF向量数据和训练集标签数据喂给xgboost分类器,训练xgboost分类模型,并持久化保存模型,代码如下:
XGBoostClassifier().fit(train_tfidf,y_train);
joblib.dump(XGBoostClassifier,'xg_tfidf_model.pkl',compress=3);
将上述训练好的训练集TF-IDF向量数据和训练集标签数据喂给随机森林分类器,训练随机森林分类模型,并持久化保存模型,代码如下:
RandomForestClassifier().fit(train_tfidf,y_train);
joblib.dump(RandomForestClassifier,'rf_tfidf_model.pkl',compress=3);
将上述训练好的训练集TF-IDF向量数据和训练集标签数据喂给支持向量机分类器,训练支持向量机分类模型,并持久化保存模型,代码如下:
SVC().fit(train_tfidf,y_train);
joblib.dump(SVC,'svc_tfidf_model.pkl',compress=3);
将上述训练好的训练集TF-IDF向量数据和训练集标签数据喂给逻辑回归分类器,训练逻辑回归分类模型,并持久化保存模型,代码如下:
LogisticRegression().fit(train_tfidf,y_train);
joblib.dump(LogisticRegression,'lr_tfidf_model.pkl',compress=3);
将上述训练好的训练集TF-IDF向量数据和训练集标签数据喂给神经网路分类器,训练神经网络分类模型,并持久化保存模型,代码如下:
MLPClassifier().fit(train_tfidf,y_train);
joblib.dump(MLPClassifier,'mlp_tfidf_model.pkl',compress=3);
将上述训练好的训练集TF-IDF向量数据和训练集标签数据喂给梯度下降分类器,训练梯度下降分类模型,并持久化保存模型,代码如下:
SGDClassifier().fit(train_tfidf,y_train);
joblib.dump(SGDClassifier,'sgd_tfidf_model.pkl',compress=3);
之后,就可以使用上述训练好的七个分类模型分别计算测试集中各条事件日志的分类准确率,代码如下:
Result=Classifier.score(test_tfidf,y_test)。
最后,通过各个分类模型计算得到的测试集数据的准确率来设定每个分类模型的权重,使用设定后的权重为测试集数据打分,并将得到的七个分类器的打分数值进行求和,得到融合分类模型的打分值,作为安全事件风险评估的标准。当融合分类模型打分的分数结果result>设定阈值lamda时,事件被识别为高风险事件,否则识别为低风险事件。
本实施例的细化流程可以参照图7所示。
本实施例通过上述方案,具体通过构建事件日志数据库并提取样本数据,所述样本数据包括各类事件日志构成的训练集和测试集;基于所述样本数据中的训练集和测试集创建TF-IDF模型,通过基于所述样本数据中的训练集和测试集创建的TF-IDF模型并结合多种机器学习算法构建融合分类模型;根据所述融合分类模型对所述测试集中的事件日志进行风险等级评估。由此,通过TF-IDF模型并结合多种机器学习算法,对事件日志进行风险级别评估,智能识别出海量安全事件日志中的高风险事件,大大提升了事件日志的识别准确率,减少了高风险事件的误报数量,减轻了审计人员的工作负担,提高了审计效率,同时也提升了审计的准确率,为各大公司内部的各种泄密事件、违规操作事件等信息安全事件的审计工作提供了很大的帮助。此外,将高风险等级的安全事件自动下发给用户进行确认,审计人员无需对原始日志进行审计,只需要核对用户返回的信息即可,从而进一步减轻了审计人员的工作量;而且为了提升机器学习的准确度,本发明方案还收集大量私有词组,组成私有词库,大大提高了涉及敏感信息的高风险事件的准确度。
参照图8,图8为本发明事件审计方法又一示例性实施例的流程示意图。该实施例基于上述图6所示的实施例,在上述步骤S105,接收所述用户针对所述相应事件的反馈信息之后,所述方法还包括:
步骤S106,收集误报数据,对所述误报数据进行误差分析;
步骤S107,根据误差分析结果更新所述融合分类模型及对应的词库。
为了提高测试集数据的审计准确性,提高融合分类模型的准确度,可以根据测试集的准确率,获取误报数据;对所述误报数据进行误差分析;根据误差分析结果更新所述融合分类模型及对应的词库。
本实施例通过上述方案,具体通过获取预设的样本数据,所述样本数据包括各类事件日志构成的训练集和测试集;通过预先基于所述样本数据中的训练集和测试集创建的TF-IDF模型并结合多种机器学习算法构建融合分类模型;根据所述融合分类模型对所述测试集中的事件日志进行风险等级评估。由此,通过TF-IDF模型并结合多种机器学习算法,对事件日志进行风险级别评估,智能识别出海量安全事件日志中的高风险事件,大大提升了事件日志的识别准确率,减少了高风险事件的误报数量,减轻了审计人员的工作负担,提高了审计效率,同时也提升了审计的准确率,为各大公司内部的各种泄密事件、违规操作事件等信息安全事件的审计工作提供了很大的帮助。此外,将高风险等级的安全事件自动下发给用户进行确认,审计人员无需对原始日志进行审计,只需要核对用户返回的信息即可,从而进一步减轻了审计人员的工作量;而且为了提升机器学习的准确度,本发明方案还收集大量私有词组,组成私有词库,大大提高了涉及敏感信息的高风险事件的准确度。
本发明实施例方案可以运用在各种安全预警平台上,通过测试,上述七种分类模型的测试集准确率可达到90.5%,如下表1所示:
表1测试集数据准确率统计表
Figure BDA0002324132980000191
从上表1中可以看出,七种分类模型的分类准确率较高,且相差不大,因此,可以将这七种模型设置大小相同的权重,对打分结果求和,得到最终的融合分类模型。融合分类模型可以规避单一分类模型的缺点和局限性,具有更好的健壮性。
经过融合模型的智能审计之后,将识别成高风险的事件直接推送给用户进行确认和反馈,这样避免了审计人员对海量安全日志的审计工作,审计人员只需要核对用户的反馈信息即可,大大提升工作效率。
本发明实施例方案可以对各个安全场景下的安全事件日志进行“智能审计”,识别出海量事件日志数据中的高风险事件。不仅可以应用在安全预警平台的安全事件识别,还可以对内部的邮件日志进行垃圾邮件的检测,对IM聊天工具的日志进行敏感信息检测,敏感词过滤等。
此外,本发明实施例还提出一种事件审计装置,所述事件审计装置包括:
获取模块,用于获取预设的样本数据,所述样本数据包括各类事件日志构成的训练集和测试集;
构建模块,用于通过预先基于所述样本数据中的训练集和测试集创建的TF-IDF模型并结合多种机器学习算法构建融合分类模型;
评估模块,用于根据所述融合分类模型对所述测试集中的事件日志进行风险等级评估。
本实施例事件审计的原理及实施过程,请参照上述各实施例,在此不再赘述。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有事件审计程序,所述事件审计程序被处理器执行时实现如上述实施例所述的事件审计方法的步骤。
由于本事件审计程序被处理器执行时,采用了前述所有实施例的全部技术方案,因此至少具有前述所有实施例的全部技术方案所带来的所有有益效果,在此不再一一赘述。
相比现有技术,本发明实施例提出的事件审计方法、装置、终端设备以及存储介质,通过获取预设的样本数据,所述样本数据包括各类事件日志构成的训练集和测试集;通过预先基于所述样本数据中的训练集和测试集创建的TF-IDF模型并结合多种机器学习算法构建融合分类模型;根据所述融合分类模型对所述测试集中的事件日志进行风险等级评估。由此,通过TF-IDF模型并结合多种机器学习算法,对事件日志进行风险级别评估,智能识别出海量安全事件日志中的高风险事件,大大提升了事件日志的识别准确率,减少了高风险事件的误报数量,减轻了审计人员的工作负担,提高了审计效率,同时也提升了审计的准确率,为各大公司内部的各种泄密事件、违规操作事件等信息安全事件的审计工作提供了很大的帮助。此外,将高风险等级的安全事件自动下发给用户进行确认,审计人员无需对原始日志进行审计,只需要核对用户返回的信息即可,从而进一步减轻了审计人员的工作量;而且为了提升机器学习的准确度,本发明方案还收集大量私有词组,组成私有词库,大大提高了涉及敏感信息的高风险事件的准确度。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,被控终端,或者网络设备等)执行本发明每个实施例的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (13)

1.一种事件审计方法,其特征在于,包括:
获取预设的样本数据,所述样本数据包括各类事件日志构成的训练集和测试集;
通过预先基于所述样本数据中的训练集和测试集创建的TF-IDF模型并结合多种机器学习算法构建融合分类模型;
根据所述融合分类模型对所述测试集中的事件日志进行风险等级评估。
2.根据权利要求1所述的事件审计方法,其特征在于,所述事件审计方法还包括:
将风险等级评估的高风险事件推送至触发相应事件的用户。
3.根据权利要求2所述的事件审计方法,其特征在于,所述事件审计方法还包括:
接收所述用户针对所述相应事件的反馈信息。
4.根据权利要求1所述的事件审计方法,其特征在于,所述通过预先基于所述样本数据中的训练集和测试集创建的TF-IDF模型并结合多种机器学习算法构建融合分类模型的步骤包括:
通过预先基于所述样本数据中的训练集和测试集创建的TF-IDF模型训练多种分类模型;
通过训练好的多种分类模型分别计算所述测试集的分类准确率;
根据各个分类模型计算得到的测试集的准确率设定每个分类模型的权重;
根据每个分类模型的权重构建融合分类模型。
5.根据权利要求4所述的事件审计方法,其特征在于,所述根据所述融合分类模型对所述测试集中的事件日志进行风险等级评估的步骤包括:
提取所述融合分类模型中各个分类器的权重;
使用各个分类器的权重为所述测试集打分,并将得到的各个分类器的打分数值进行求和,得到融合分类模型的打分结果;
将所述融合分类模型的打分结果与预先设定的风险阈值进行比较;
当所述融合分类模型的打分结果大于预先设定的风险阈值时,判定测试集的事件被识别为高风险事件,否则识别为低风险事件。
6.根据权利要求1所述的事件审计方法,其特征在于,所述获取预设的样本数据的步骤之前还包括:
构建事件日志数据库,收集各类事件日志存储至所述事件日志数据库;
对所述事件日志数据库中的每一条事件日志进行打标签处理,所述标签包括:高风险事件标签和低风险事件标签;
将打标签处理后的数据组成样本数据;
将所述样本数据分成训练集和测试集。
7.根据权利要求6所述的事件审计方法,其特征在于,所述通过预先基于所述样本数据中的训练集和测试集创建的TF-IDF模型并结合多种机器学习算法构建融合分类模型的步骤之前还包括:
基于所述样本数据中的训练集和测试集创建TF-IDF模型,具体包括:
对所述训练集进行预处理;
对预处理后的训练集进行语言类型识别;
根据识别的语言类型,使用对应的词库对所述训练集中的事件日志进行分词,对分词后的训练集进行训练及向量转换,对测试集进行向量转换得到TF-IDF模型。
8.根据权利要求7所述的事件审计方法,其特征在于,所述对分词后的训练集进行训练及向量转换,对测试集进行向量转换得到TF-IDF模型的步骤包括:
导入开源库中的文本特征提取库中的TF-IDF向量生成器类,创建TF-IDF向量生成器对象;
使用创建的TF-IDF向量生成器对象对分词后的训练集进行训练及向量转换;
使用创建的TF-IDF向量生成器对象对所述测试集进行向量转换;
将训练集训练好的模型,以及训练集和测试集转换成向量后的数据保存,得到TF-IDF模型。
9.根据权利要求7所述的事件审计方法,其特征在于,所述对所述训练集进行预处理包括:
过滤掉所述训练集中事件日志的无语义符号,以及对事件日志进行英文字母大小写脱敏。
10.根据权利要求8所述的事件审计方法,其特征在于,所述方法还包括:
收集误报数据,对所述误报数据进行误差分析;
根据误差分析结果更新所述融合分类模型及对应的词库。
11.一种事件审计装置,其特征在于,所述事件审计装置包括:
获取模块,用于获取预设的样本数据,所述样本数据包括各类事件日志构成的训练集和测试集;
构建模块,用于通过预先基于所述样本数据中的训练集和测试集创建的TF-IDF模型并结合多种机器学习算法构建融合分类模型;
评估模块,用于根据所述融合分类模型对所述测试集中的事件日志进行风险等级评估。
12.一种终端设备,其特征在于,所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的事件审计程序,所述事件审计程序被所述处理器执行时实现如权利要求1-10中任一项所述的事件审计方法的步骤。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有事件审计程序,所述事件审计程序被处理器执行时实现如权利要求1-10中任一项所述的事件审计方法的步骤。
CN201911321421.3A 2019-12-18 2019-12-18 事件审计方法、装置、终端设备以及存储介质 Active CN111045847B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911321421.3A CN111045847B (zh) 2019-12-18 2019-12-18 事件审计方法、装置、终端设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911321421.3A CN111045847B (zh) 2019-12-18 2019-12-18 事件审计方法、装置、终端设备以及存储介质

Publications (2)

Publication Number Publication Date
CN111045847A true CN111045847A (zh) 2020-04-21
CN111045847B CN111045847B (zh) 2023-07-21

Family

ID=70238150

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911321421.3A Active CN111045847B (zh) 2019-12-18 2019-12-18 事件审计方法、装置、终端设备以及存储介质

Country Status (1)

Country Link
CN (1) CN111045847B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111581500A (zh) * 2020-04-24 2020-08-25 贵州力创科技发展有限公司 一种面向网络舆情的数据分布式定向存储方法和装置
CN111722720A (zh) * 2020-06-22 2020-09-29 芯盟科技有限公司 人机交互方法、装置及终端
CN112163423A (zh) * 2020-09-29 2021-01-01 东北大学 一种检察案件办理工作量计算方法及系统
CN112486788A (zh) * 2020-11-18 2021-03-12 中信银行股份有限公司 一种工作量评估方法、装置、电子设备和可读存储介质
CN112636957A (zh) * 2020-12-11 2021-04-09 微医云(杭州)控股有限公司 基于日志的预警方法、装置、服务器及存储介质
CN112699090A (zh) * 2020-12-23 2021-04-23 北京北信源软件股份有限公司 日志审计方法、装置、电子设备及存储介质
CN113657461A (zh) * 2021-07-28 2021-11-16 北京宝兰德软件股份有限公司 基于文本分类的日志异常检测方法、系统、设备及介质
CN114338248A (zh) * 2022-03-15 2022-04-12 北京大学 基于机器学习的用户异常行为检测方法及装置
CN114374561A (zh) * 2022-01-13 2022-04-19 潍坊学院 一种网络安全状态评估方法、装置及可存储介质
CN116992034A (zh) * 2023-09-26 2023-11-03 之江实验室 一种智能事件打标方法、装置及存储介质
CN117896136A (zh) * 2024-01-09 2024-04-16 北京中睿天下信息技术有限公司 一种敏感文件明文传输风险预警处置方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070226160A1 (en) * 2006-03-22 2007-09-27 Sony Corporation Method and system for transitioning from a case-based classifier system to a rule-based classifier system
CN108280021A (zh) * 2018-01-25 2018-07-13 郑州云海信息技术有限公司 一种基于机器学习的日志等级分析方法
CN108427669A (zh) * 2018-02-27 2018-08-21 华青融天(北京)技术股份有限公司 异常行为监控方法和系统
CN108573031A (zh) * 2018-03-26 2018-09-25 上海万行信息科技有限公司 一种基于内容的投诉分类方法和系统
CN109472462A (zh) * 2018-10-18 2019-03-15 中山大学 一种基于多模型堆栈融合的项目风险评级方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070226160A1 (en) * 2006-03-22 2007-09-27 Sony Corporation Method and system for transitioning from a case-based classifier system to a rule-based classifier system
CN108280021A (zh) * 2018-01-25 2018-07-13 郑州云海信息技术有限公司 一种基于机器学习的日志等级分析方法
CN108427669A (zh) * 2018-02-27 2018-08-21 华青融天(北京)技术股份有限公司 异常行为监控方法和系统
CN108573031A (zh) * 2018-03-26 2018-09-25 上海万行信息科技有限公司 一种基于内容的投诉分类方法和系统
CN109472462A (zh) * 2018-10-18 2019-03-15 中山大学 一种基于多模型堆栈融合的项目风险评级方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李惠富: "多类型分类器融合的文本分类方法研究" *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111581500A (zh) * 2020-04-24 2020-08-25 贵州力创科技发展有限公司 一种面向网络舆情的数据分布式定向存储方法和装置
CN111722720A (zh) * 2020-06-22 2020-09-29 芯盟科技有限公司 人机交互方法、装置及终端
CN112163423B (zh) * 2020-09-29 2023-08-29 东北大学 一种检察案件办理工作量计算方法及系统
CN112163423A (zh) * 2020-09-29 2021-01-01 东北大学 一种检察案件办理工作量计算方法及系统
CN112486788A (zh) * 2020-11-18 2021-03-12 中信银行股份有限公司 一种工作量评估方法、装置、电子设备和可读存储介质
CN112486788B (zh) * 2020-11-18 2024-04-30 中信银行股份有限公司 一种工作量评估方法、装置、电子设备和可读存储介质
CN112636957A (zh) * 2020-12-11 2021-04-09 微医云(杭州)控股有限公司 基于日志的预警方法、装置、服务器及存储介质
CN112636957B (zh) * 2020-12-11 2023-02-21 微医云(杭州)控股有限公司 基于日志的预警方法、装置、服务器及存储介质
CN112699090A (zh) * 2020-12-23 2021-04-23 北京北信源软件股份有限公司 日志审计方法、装置、电子设备及存储介质
CN112699090B (zh) * 2020-12-23 2024-05-14 北京北信源软件股份有限公司 日志审计方法、装置、电子设备及存储介质
CN113657461A (zh) * 2021-07-28 2021-11-16 北京宝兰德软件股份有限公司 基于文本分类的日志异常检测方法、系统、设备及介质
CN114374561A (zh) * 2022-01-13 2022-04-19 潍坊学院 一种网络安全状态评估方法、装置及可存储介质
CN114374561B (zh) * 2022-01-13 2023-10-24 潍坊学院 一种网络安全状态评估方法、装置及可存储介质
CN114338248B (zh) * 2022-03-15 2022-08-05 北京大学 基于机器学习的用户异常行为检测方法及装置
CN114338248A (zh) * 2022-03-15 2022-04-12 北京大学 基于机器学习的用户异常行为检测方法及装置
CN116992034A (zh) * 2023-09-26 2023-11-03 之江实验室 一种智能事件打标方法、装置及存储介质
CN116992034B (zh) * 2023-09-26 2023-12-22 之江实验室 一种智能事件打标方法、装置及存储介质
CN117896136A (zh) * 2024-01-09 2024-04-16 北京中睿天下信息技术有限公司 一种敏感文件明文传输风险预警处置方法及系统

Also Published As

Publication number Publication date
CN111045847B (zh) 2023-07-21

Similar Documents

Publication Publication Date Title
CN111045847B (zh) 事件审计方法、装置、终端设备以及存储介质
CN104217160A (zh) 一种中文钓鱼网站检测方法及系统
WO2016177069A1 (zh) 一种管理方法、装置、垃圾短信监控系统及计算机存储介质
CN113254643B (zh) 文本分类方法、装置、电子设备和
US8560466B2 (en) Method and arrangement for automatic charset detection
CN113011889B (zh) 账号异常识别方法、系统、装置、设备及介质
CN112989332B (zh) 一种异常用户行为检测方法和装置
CN110889451B (zh) 事件审计方法、装置、终端设备以及存储介质
CN115048464A (zh) 用户操作行为数据的检测方法、装置及电子设备
CN113450147A (zh) 基于决策树的产品匹配方法、装置、设备及存储介质
CN112765003A (zh) 一种基于app行为日志的风险预测方法
Sharaff et al. Towards classification of email through selection of informative features
CN116865994A (zh) 一种基于大数据的网络数据安全预测方法
US11934556B2 (en) Identifying sensitive content in electronic files
KR20170060958A (ko) 금융 사기 방지 방법 및 시스템
CN109582743B (zh) 一种针对恐怖袭击事件的数据挖掘系统
Hosseinpour et al. An ensemble learning approach for sms spam detection
Indarapu et al. Comparative analysis of machine learning algorithms to detect fake news
CN109918638B (zh) 一种网络数据监测方法
Khritankov et al. Discovering text reuse in large collections of documents: A study of theses in history sciences
Maveli Edinburghnlp at wnut-2020 task 2: Leveraging transformers with generalized augmentation for identifying informativeness in covid-19 tweets
CN113343699B (zh) 日志安全风险的监测方法、装置、电子设备及介质
CN115994531A (zh) 一种多维度文本综合辨识方法
CN115619245A (zh) 一种基于数据降维方法的画像构建和分类方法及系统
CN114817518A (zh) 基于大数据档案识别的证照办理方法、系统及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant