CN109726272A - 审计规则推荐方法及装置 - Google Patents

审计规则推荐方法及装置 Download PDF

Info

Publication number
CN109726272A
CN109726272A CN201811561671.XA CN201811561671A CN109726272A CN 109726272 A CN109726272 A CN 109726272A CN 201811561671 A CN201811561671 A CN 201811561671A CN 109726272 A CN109726272 A CN 109726272A
Authority
CN
China
Prior art keywords
keyword
candidate word
idf
specified
audit regulation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811561671.XA
Other languages
English (en)
Inventor
肖峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dt Dream Technology Co Ltd
Original Assignee
Hangzhou Dt Dream Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dt Dream Technology Co Ltd filed Critical Hangzhou Dt Dream Technology Co Ltd
Priority to CN201811561671.XA priority Critical patent/CN109726272A/zh
Publication of CN109726272A publication Critical patent/CN109726272A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供一种审计规则推荐方法及装置,所述方法包括:获取日志信息;从所述日志信息中确定至少一个用于配置指定审计规则的关键词,所述指定审计规则包括字符串匹配规则;将各个所述关键词推荐给审计规则配置装置,以使所述审计规则配置装置根据所述关键词配置所述指定审计规则。因此,本公开降低了审计规则配置的难度,还提高了审计规则配置的合理性,也避免了人工配置审计规则时可能造成的遗漏。

Description

审计规则推荐方法及装置
技术领域
本公开涉及计算机通信技术领域,尤其涉及一种审计规则推荐方法及装置。
背景技术
在企业信息系统或者互联网服务系统中,日志系统是一个非常重要的功能组成部分,它可以记录系统产生的所有行为,并按照某种规范表达出来。
现有技术中,对于采集到的日志,进行范式化处理后,可能存入指定存储区域中。并且,为了识别异常的日志,还可以再创建一些审计规则,比如:正则表达式、字符串匹配、阈值比较等方式,对指定存储区域中的数据进行匹配,如果日志匹配,则会上报审计事件,如果审计事件满足一定的告警条件,则发送邮件或短信告警。
但是,审计规则通常需要对业务非常熟悉的人员才能进行合理的配置,配置难度大,配置审计规则的时候可能会遗漏一些审计规则,不能捕获系统中的异常日志,从而隐藏一些系统风险。
发明内容
为克服相关技术中存在的问题,本公开提供了信息查询方法及装置。
根据本公开实施例的第一方面,提供一种审计规则推荐方法,所述方法包括:
获取日志信息;
从所述日志信息中确定至少一个用于配置指定审计规则的关键词,所述指定审计规则包括字符串匹配规则;
将各个所述关键词推荐给审计规则配置装置,以使所述审计规则配置装置根据所述关键词配置所述指定审计规则。
可选地,所述从所述日志信息中确定至少一个用于配置指定审计规则的关键词,包括:
使用词频-逆文档频率TF-IDF算法从所述日志信息中确定所述关键词。
可选地,所述使用词频-逆文档频率TF-IDF算法从所述日志信息中确定所述关键词,包括:
对所述日志信息进行分词,得到至少一个用于确定所述关键词的候选词;
计算各个所述候选词的TF-IDF;
根据各个所述候选词的TF-IDF确定所述关键词。
可选地,所述计算各个所述候选词的TF-IDF,包括:
根据所述候选词在所述日志信息中的出现次数和所述日志信息的总词数,计算所述候选词的词频TF;
根据设定语料库的文档总数和所述设定语料库中包括所述候选词在的文档数,计算所述候选词的逆文档频率IDF;
根据所述候选词的TF和所述候选词的IDF,计算所述候选词的TF-IDF。
可选地,所述根据各个所述候选词的TF-IDF确定所述关键词,包括:
按照TF-IDF值的大小对各个所述候选词的TF-IDF进行排序;
从TF-IDF值最大的所述候选词开始,依次选取指定数量个所述候选词,并将选出的所述候选词确定为所述关键词。
可选地,所述根据各个所述候选词的TF-IDF确定所述关键词,包括:
比较所述候选词的TF-IDF是否大于指定TF-IDF阈值;
若是,则将所述候选词确定为所述关键词;
若否,则将所述候选词不确定为所述关键词。
可选地,所述方法还包括:
从设定语料库中确定至少一个与所述关键词达到指定相关条件的相关词;
将各个所述相关词推荐给所述审计规则配置装置,以使所述审计规则配置装置根据所述相关词配置所述指定审计规则。
可选地,所述指定相关条件包括相关度最高或所述相关度大于指定相关度阈值;所述相关词中包括所述关键词的近义词和/或所述关键词的反义词。
可选地,所述从设定语料库中确定至少一个与所述关键词达到指定相关条件的相关词,包括:
按照设定算法从设定语料库中确定至少一个与所述关键词达到指定相关条件的相关词,所述设定算法包括用来产生词向量的相关模型word2vec算法或频繁项集挖掘算法。
根据本公开实施例的第二方面,提供一种审计规则推荐装置,所述装置包括:
获取模块,被配置为获取日志信息;
第一确定模块,被配置为从所述日志信息中确定至少一个用于配置指定审计规则的关键词,所述指定审计规则包括字符串匹配规则;
第一推荐模块,被配置为将各个所述关键词推荐给审计规则配置装置,以使所述审计规则配置装置根据所述关键词配置所述指定审计规则。
可选地,所述第一确定模块包括:
第一确定子模块,被配置为使用词频-逆文档频率TF-IDF算法从所述日志信息中确定所述关键词。
可选地,所述第一确定子模块包括:
分词子模块,被配置为对所述日志信息进行分词,得到至少一个用于确定所述关键词的候选词;
第一计算子模块,被配置为计算各个所述候选词的TF-IDF;
第二确定子模块,被配置为根据各个所述候选词的TF-IDF确定所述关键词。
可选地,所述第一计算子模块包括:
第二计算子模块,被配置为根据所述候选词在所述日志信息中的出现次数和所述日志信息的总词数,计算所述候选词的词频TF;
第三计算子模块,被配置为根据设定语料库的文档总数和所述设定语料库中包括所述候选词在的文档数,计算所述候选词的逆文档频率IDF;
第四计算子模块,被配置为根据所述候选词的TF和所述候选词的IDF,计算所述候选词的TF-IDF。
可选地,所述第二确定子模块包括:
排序子模块,被配置为按照TF-IDF值的大小对各个所述候选词的TF-IDF进行排序;
选取子模块,被配置为从TF-IDF值最大的所述候选词开始,依次选取指定数量个所述候选词,并将选出的所述候选词确定为所述关键词。
可选地,所述第二确定子模块包括:
比较子模块,被配置为比较所述候选词的TF-IDF是否大于指定TF-IDF阈值;
第一处理子模块,被配置为若所述比较子模块的比较结果为是,则将所述候选词确定为所述关键词;
第二处理子模块,被配置为若所述比较子模块的比较结果为否,则将所述候选词不确定为所述关键词。
可选地,所述装置还包括:
第二确定模块,被配置为从设定语料库中确定至少一个与所述关键词达到指定相关条件的相关词;
第二推荐模块,被配置为将各个所述相关词推荐给所述审计规则配置装置,以使所述审计规则配置装置根据所述相关词配置所述指定审计规则。
可选地,所述指定相关条件包括相关度最高或所述相关度大于指定相关度阈值;所述相关词中包括所述关键词的近义词和/或所述关键词的反义词。
可选地,所述第二确定模块包括:
第三确定子模块,被配置为按照设定算法从设定语料库中确定至少一个与所述关键词达到指定相关条件的相关词,所述设定算法包括用来产生词向量的相关模型word2vec算法或频繁项集挖掘算法。
根据本公开实施例的第三方面,提供一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现上述第一方面提供的审计规则推荐方法。
根据本公开实施例的第四方面,提供一种审计规则推荐装置,所述装置包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取日志信息;
从所述日志信息中确定至少一个用于配置指定审计规则的关键词,所述指定审计规则为字符串匹配;
将各个所述关键词推荐给审计规则配置装置,以使所述审计规则配置装置根据所述关键词配置所述指定审计规则。
根据本公开实施例的第五方面,提供一种日志系统,包括上述第二方面所述的审计规则推荐装置,并用于执行上述第一方面所述的审计规则推荐方法。
本公开的实施例提供的技术方案可以包括以下有益效果:
本公开中的审计规则推荐装置可以通过获取日志信息,并从日志信息中确定至少一个用于配置指定审计规则的关键词,该指定审计规则包括字符串匹配规则,以及将各个关键词推荐给审计规则配置装置,这样审计规则配置装置可以根据推荐的关键词配置指定审计规则,从而降低了审计规则配置的难度,还提高了审计规则配置的合理性,也避免了人工配置审计规则时可能造成的遗漏。
本公开中的审计规则推荐装置还可以使用TF-IDF算法从日志信息中确定至少一个用于配置指定审计规则的关键词,即先对日志信息进行分词,得到至少一个用于确定关键词的候选词,再计算各个候选词的TF-IDF,以及根据各个候选词的TF-IDF确定关键词,从而提高了确定关键词的准确性和效率。
本公开中的审计规则推荐装置还可以从设定语料库中确定至少一个与关键词达到指定相关条件的相关词,并将各个相关词推荐给审计规则配置装置,这样审计规则配置装置可以根据推荐的相关词配置指定审计规则,从而扩展了审计规则配置方式,提高了审计规则配置的实用性。尤其是,在从设定语料库中确定至少一个与关键词达到指定相关条件的相关词时,可以按照用来产生词向量的相关模型(word2vec)算法或频繁项集挖掘算法,从而丰富了确定相关词的实现方式,还提高了确定相关词的效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
图1是根据一示例性实施例示出的一种日志系统的示意图;
图2是根据一示例性实施例示出的一种审计规则推荐方法流程图;
图3是根据一示例性实施例示出的另一种审计规则推荐方法流程图;
图4是根据一示例性实施例示出的另一种审计规则推荐方法流程图;
图5是根据一示例性实施例示出的一种审计规则推荐装置框图;
图6是根据一示例性实施例示出的另一种审计规则推荐装置框图;
图7是根据一示例性实施例示出的另一种审计规则推荐装置框图;
图8是根据一示例性实施例示出的另一种审计规则推荐装置框图;
图9是根据一示例性实施例示出的另一种审计规则推荐装置框图;
图10是根据一示例性实施例示出的另一种审计规则推荐装置框图;
图11是根据一示例性实施例示出的另一种审计规则推荐装置框图;
图12是根据一示例性实施例示出的另一种审计规则推荐装置框图;
图13是根据一示例性实施例示出的一种用于审计规则推荐装置的一结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在本公开使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本公开可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本公开范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
图1是根据一示例性实施例示出的一种日志系统的示意图。如图1所示,该日志系统中可以包括:日志采集单元11、日志传输单元12、日志存储单元13、日志检索单元14、日志审计单元15和日志告警单元16。
日志采集单元11用于对日志进行采集。其中,该日志采集单元可以通过安装探针的方式将日志发送到指定的日志传输单元;也可以使用Syslog协议将日志发送到指定的日志传输单元,该Syslog协议是在IP(Internet Protocol,网络之间互连的协议)网络中转发系统日志信息的标准协议。
日志传输单元12用于收到采集的日志后,对日志进行范式化处理后,将日志发送到日志存储单元。
日志存储单元13使用Elasticsearch存储,收到日志后,按日期创建日志索引,将日志存入Elasticsearch的索引中。其中,Elasticsearch是一个搜索开源软件,它提供了一个分布式多用户能力的全文搜索引擎。
日志检索单元14用于访问Elasticsearch的API(Application ProgrammingInterface,应用程序编程接口),将查询到的日志信息进行可视化展示。
日志审计单元15用于启动定时器,轮询访问Elasticsearch的API,查询最新的日志,根据配置的审计规则,捕获匹配符合审计规则的日志,上报审计事件给运维人员分析。
日志告警单元16用于将符合告警条件的审计事件通过邮件、钉钉方式发送给告警联系人。
另外,上述日志审计单元15中可以包括:审计规则配置装置1501、日志轮询装置1502、告警联系人配置装置1503和审计规则推荐装置1504。
审计规则配置装置1501用于配置审计规则;
日志轮询装置1502用于日志轮询。
告警联系人配置装置1503用于配置告警联系人。
审计规则推荐装置1504用于向审计规则配置装置1501推荐审计规则。具体为:获取日志检索单元14查询到的日志信息,并从这些日志信息中确定至少一个用于配置指定审计规则的关键词,所述指定审计规则包括字符串匹配规则;将各个所述关键词推荐给审计规则配置装置1501,以使审计规则配置装置1501根据所述关键词配置所述指定审计规则。比如:审计规则配置装置1501可以直接将这些关键词配置为审计规则中匹配字符串的规则。
因此,本公开中的日志系统增添了审计规则推荐功能,即能够自动为运维人员推荐一些关键词,这样可以帮助运维人员进行审计规则的配置,还避免了运维人员在审计规则配置时由于粗心或考虑不周全、而可能造成的遗漏。
下面结合附图对本公开审计规则推荐的实施例进行详细描述。
如图2所示,图2是本公开根据一示例性实施例示出的一种审计规则推荐方法流程图,该方法可以用于图1所示的日志系统,如图1所示,该审计规则推荐方法可以包括以下步骤210-230:
在步骤210中,获取日志信息。
本公开实施例中,日志信息可以指的是每次查询结果中的前若干条日志,比如:100条日志。
在步骤220中,从日志信息中确定至少一个用于配置指定审计规则的关键词,该指定审计规则包括字符串匹配规则。
本公开实施例中,可以按照预设的算法自动从日志信息中确定至少一个用于配置指定审计规则的关键词。
在一实施例中,在执行步骤220时,可以使用TF-IDF(Term Frequency–InverseDocument Frequency,词频-逆文档频率)算法从日志信息中确定至少一个用于配置指定审计规则的关键词。
在步骤230中,将各个关键词推荐给审计规则配置装置,以使审计规则配置装置根据关键词配置指定审计规则。
本公开实施例中,审计规则配置装置接收到推荐的各个关键词后,可以将这些关键词作为参考进行指定审计规则的配置,也可以直接将这些关键词直接作为指定审计规则。
另外,执行完上述步骤230后,运维人员重复设置不同的搜索条件进行日志检索,然后执行上述210-230步骤,从而可以得到新的关键词。比如:第一次搜索条件是:搜索7天内,包含有“error”字符串的日志;第二次搜索条件是,搜索2018-11-29~2018-11-30时间范围内,主机地址是”10.0.0.2”,包含有“login”字符串的日志。
由上述实施例可见,通过获取日志信息,并从日志信息中确定至少一个用于配置指定审计规则的关键词,该指定审计规则包括字符串匹配规则,以及将各个关键词推荐给审计规则配置装置,这样审计规则配置装置可以根据推荐的关键词配置指定审计规则,从而降低了审计规则配置的难度,还提高了审计规则配置的合理性,也避免了人工配置审计规则时可能造成的遗漏。
如图3所示,图3是本公开根据一示例性实施例示出的另一种审计规则推荐流程图,该方法可以用于图1所示的日志系统,并建立在图2所示方法的基础上,在使用TF-IDF算法从日志信息中确定至少一个用于配置指定审计规则的关键词时,可以包括以下步骤310-330:
在步骤310中,对日志信息进行分词,得到至少一个用于确定关键词的候选词。
本公开实施例中,用于确定关键词的候选词不包括一些最常用的停用词(StopWords),比如:is、are等。
在步骤320中,计算各个候选词的TF-IDF。
本公开实施例中,计算TF-IDF的方法有很多,可以包括但不限于以下实现方式:
(1-1)根据所述候选词在所述日志信息中的出现次数和所述日志信息的总词数,计算所述候选词的TF(Term Frequency,词频);(1-2)根据设定语料库的文档总数和所述设定语料库中包括所述候选词在的文档数,计算所述候选词的IDF(Inverse DocumentFrequency,逆文档频率);(1-3)根据所述候选词的TF和所述候选词的IDF,计算所述候选词的TF-IDF。
上述(1-1)中的TF,其计算过程可以如公式1所示,该公式(1)如下:
TF=N1/N2………………………………………………………………公式(1)
其中,N1为候选词在所述日志信息中的出现次数,N2为日志信息的总词数。
上述(1-2)中的IDF,其计算过程可以如公式3所示,该公式(3)如下:
IDF=log(N3/N4+1)…………………………………………………公式(2)
其中,N3为设定语料库的文档总数,N4为设定语料库中包括所述候选词在的文档数。另外,这里的设定语言库可以为人民日报的语料库。
上述(1-3)中的TF-IDF,其计算过程可以如公式3所示,该公式(3)如下:
TF-IDF=TF×IDF………………………………………………………公式(3)
在步骤330中,根据各个候选词的TF-IDF确定关键词。
本公开实施例中,确定关键词的方法有很多,可以包括但不限于以下两种:
第一种:(2-1)按照TF-IDF值的大小对各个所述候选词的TF-IDF进行排序;(2-2)从TF-IDF值最大的所述候选词开始,依次选取指定数量个所述候选词,并将选出的所述候选词确定为所述关键词。
比如:按照从大到小的顺序对各个所述候选词的TF-IDF进行排序,将最前面的3个TF-IDF对应的候选词确定为关键词。
又比如:按照从小到大的顺序对各个所述候选词的TF-IDF进行排序,将最后面的3个TF-IDF对应的候选词确定为关键词。
第二种:(3-1)比较所述候选词的TF-IDF是否大于指定TF-IDF阈值;(3-2)若是,则将所述候选词确定为所述关键词;(3-3)若否,则将所述候选词不确定为所述关键词。
上述第一种方法是选取TF-IDF较大的候选词并作为关键词;第二种方法需要提前根据实际情况设置指定TF-IDF阈值的大小,然后将大于该指定TF-IDF阈值的TF-IDF对应的候选词作为关键词。
由上述实施例可见,可以使用TF-IDF算法从日志信息中确定至少一个用于配置指定审计规则的关键词,即先对日志信息进行分词,得到至少一个用于确定关键词的候选词,再计算各个候选词的TF-IDF,以及根据各个候选词的TF-IDF确定关键词,从而提高了确定关键词的准确性和效率。
如图4所示,图4是本公开根据一示例性实施例示出的另一种审计规则推荐流程图,该方法可以用于图1所示的日志系统,并建立在图2所示方法的基础上,该审计规则推荐还可以包括以下步骤410-420:
在步骤410中,从设定语料库中确定至少一个与关键词达到指定相关条件的相关词。
本公开实施例中,可以根据实际情况提前设置指定相关条件。
在一实施例中,所述指定相关条件包括相关度最高或所述相关度大于指定相关度阈值。若指定相关条件为相关度最高,则只能从设定语料库中选取与关键词的相关度最高的词语作为相关词;若指定相关条件为相关度大于指定相关度阈值,则可以提前根据实际情况设置指定相关度阈值的大小,并将与关键词的相关度大于该指定相关度阈值的所有词语作为相关词。
在一实施例中,本公开中的相关词中可以包括所述关键词的近义词和/或所述关键词的反义词。
在一实施例中,在执行步骤410时,可以按照预设算法自动从设定语料库中确定至少一个与关键词达到指定相关条件的相关词。这里的设定语言库可以为人民日报的语料库。并且,这里的预设算法可以包括用来产生词向量的相关模型(word2vec)算法或频繁项集挖掘算法。
在步骤420中,将各个相关词推荐给审计规则配置装置,以使审计规则配置装置根据相关词配置指定审计规则。
本公开实施例中,审计规则配置装置接收到推荐的各个相关词后,可以将这些相关词作为参考进行指定审计规则的配置,也可以直接将这些相关词直接作为指定审计规则。
由上述实施例可见,可以从设定语料库中确定至少一个与关键词达到指定相关条件的相关词,并将各个相关词推荐给审计规则配置装置,这样审计规则配置装置可以根据推荐的相关词配置指定审计规则,从而扩展了审计规则配置方式,提高了审计规则配置的实用性。尤其是,在从设定语料库中确定至少一个与关键词达到指定相关条件的相关词时,可以按照用来产生词向量的相关模型(word2vec)算法或频繁项集挖掘算法,从而丰富了确定相关词的实现方式,还提高了确定相关词的效率。
与前述审计规则推荐方法实施例相对应,本公开还提供了审计规则推荐装置的实施例。
如图5所示,图5是本公开根据一示例性实施例示出的一种审计规则推荐装置的框图,所述装置可以应用可以用于图1所示的日志系统,并用于执行图2所示的审计规则推荐方法,所述装置可以包括:
获取模块51,被配置为获取日志信息;
第一确定模块52,被配置为从所述日志信息中确定至少一个用于配置指定审计规则的关键词,所述指定审计规则包括字符串匹配规则;
第一推荐模块53,被配置为将各个所述关键词推荐给审计规则配置装置,以使所述审计规则配置装置根据所述关键词配置所述指定审计规则。
由上述实施例可见,通过获取日志信息,并从日志信息中确定至少一个用于配置指定审计规则的关键词,该指定审计规则包括字符串匹配规则,以及将各个关键词推荐给审计规则配置装置,这样审计规则配置装置可以根据推荐的关键词配置指定审计规则,从而降低了审计规则配置的难度,还提高了审计规则配置的合理性,也避免了人工配置审计规则时可能造成的遗漏。
在一实施例中,建立在图5所示装置的基础上,如图6所示,所述第一确定模块52可以包括:
第一确定子模块61,被配置为使用词频-逆文档频率TF-IDF算法从所述日志信息中确定所述关键词。
在一实施例中,建立在图6所示装置的基础上,如图7所示,所述第一确定子模块61可以包括:
分词子模块71,被配置为对所述日志信息进行分词,得到至少一个用于确定所述关键词的候选词;
第一计算子模块72,被配置为计算各个所述候选词的TF-IDF;
第二确定子模块73,被配置为根据各个所述候选词的TF-IDF确定所述关键词。
在一实施例中,建立在图7所示装置的基础上,如图8所示,所述第一计算子模块72可以包括:
第二计算子模块81,被配置为根据所述候选词在所述日志信息中的出现次数和所述日志信息的总词数,计算所述候选词的词频TF;
第三计算子模块82,被配置为根据设定语料库的文档总数和所述设定语料库中包括所述候选词在的文档数,计算所述候选词的逆文档频率IDF;
第四计算子模块83,被配置为根据所述候选词的TF和所述候选词的IDF,计算所述候选词的TF-IDF。
在一实施例中,建立在图7所示装置的基础上,如图9所示,所述第二确定子模块73可以包括:
排序子模块91,被配置为按照TF-IDF值的大小对各个所述候选词的TF-IDF进行排序;
选取子模块92,被配置为从TF-IDF值最大的所述候选词开始,依次选取指定数量个所述候选词,并将选出的所述候选词确定为所述关键词。
在一实施例中,建立在图7所示装置的基础上,如图10所示,所述第二确定子模块73可以包括:
比较子模块101,被配置为比较所述候选词的TF-IDF是否大于指定TF-IDF阈值;
第一处理子模块102,被配置为若所述比较子模块的比较结果为是,则将所述候选词确定为所述关键词;
第二处理子模块103,被配置为若所述比较子模块的比较结果为否,则将所述候选词不确定为所述关键词。
由上述实施例可见,可以使用TF-IDF算法从日志信息中确定至少一个用于配置指定审计规则的关键词,即先对日志信息进行分词,得到至少一个用于确定关键词的候选词,再计算各个候选词的TF-IDF,以及根据各个候选词的TF-IDF确定关键词,从而提高了确定关键词的准确性和效率。
在一实施例中,建立在图5所示装置的基础上,如图11所示,所述装置还可以包括:
第二确定模块111,被配置为从设定语料库中确定至少一个与所述关键词达到指定相关条件的相关词;
第二推荐模块112,被配置为将各个所述相关词推荐给所述审计规则配置装置,以使所述审计规则配置装置根据所述相关词配置所述指定审计规则。
在一实施例中,建立在图11所示装置的基础上,所述指定相关条件包括相关度最高或所述相关度大于指定相关度阈值;所述相关词中包括所述关键词的近义词和/或所述关键词的反义词。
在一实施例中,建立在图11所示装置的基础上,如图12所示,所述第二确定模块111可以包括:
第三确定子模块121,被配置为按照设定算法从设定语料库中确定至少一个与所述关键词达到指定相关条件的相关词,所述设定算法包括用来产生词向量的相关模型word2vec算法或频繁项集挖掘算法。
由上述实施例可见,可以从设定语料库中确定至少一个与关键词达到指定相关条件的相关词,并将各个相关词推荐给审计规则配置装置,这样审计规则配置装置可以根据推荐的相关词配置指定审计规则,从而扩展了审计规则配置方式,提高了审计规则配置的实用性。尤其是,在从设定语料库中确定至少一个与关键词达到指定相关条件的相关词时,可以按照用来产生词向量的相关模型(word2vec)算法或频繁项集挖掘算法,从而丰富了确定相关词的实现方式,还提高了确定相关词的效率。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本公开还提供了一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行如图2至图4中任一所示的审计规则推荐方法。
本公开还提供了一种审计规则推荐装置,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取日志信息;
从所述日志信息中确定至少一个用于配置指定审计规则的关键词,所述指定审计规则为字符串匹配;
将各个所述关键词推荐给审计规则配置装置,以使所述审计规则配置装置根据所述关键词配置所述指定审计规则。
如图13所示,图13是根据一示例性实施例示出的一种用于审计规则推荐装置1300的一结构示意图。参照图13,装置1300包括处理组件1322,其进一步包括一个或多个处理器,以及由1316所代表的存储器资源,用于存储可由处理组件1322的执行的指令,例如应用程序。1316中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件1322被配置为执行指令,以执行如图2至图4任一项所述的审计规则推荐方法。
装置1300还可以包括一个电源组件1326被配置为执行装置1300的电源管理,一个有线或无线网络接口1350被配置为将装置1300连接到网络,和一个输入输出(I/O)接口1358。装置1300可以操作基于存储在存储器1316的操作系统,例如Windows ServerTM,MacOS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
本公开还提供了一种日志系统,包括上述图5至图11任一所述的审计规则推荐装置,并用于执行上述权利要求图2至图4任一项所述的审计规则推荐方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (21)

1.一种审计规则推荐方法,其特征在于,所述方法包括:
获取日志信息;
从所述日志信息中确定至少一个用于配置指定审计规则的关键词,所述指定审计规则包括字符串匹配规则;
将各个所述关键词推荐给审计规则配置装置,以使所述审计规则配置装置根据所述关键词配置所述指定审计规则。
2.根据权利要求1所述的方法,其特征在于,所述从所述日志信息中确定至少一个用于配置指定审计规则的关键词,包括:
使用词频-逆文档频率TF-IDF算法从所述日志信息中确定所述关键词。
3.根据权利要求2所述的方法,其特征在于,所述使用词频-逆文档频率TF-IDF算法从所述日志信息中确定所述关键词,包括:
对所述日志信息进行分词,得到至少一个用于确定所述关键词的候选词;
计算各个所述候选词的TF-IDF;
根据各个所述候选词的TF-IDF确定所述关键词。
4.根据权利要求3所述的方法,其特征在于,所述计算各个所述候选词的TF-IDF,包括:
根据所述候选词在所述日志信息中的出现次数和所述日志信息的总词数,计算所述候选词的词频TF;
根据设定语料库的文档总数和所述设定语料库中包括所述候选词在的文档数,计算所述候选词的逆文档频率IDF;
根据所述候选词的TF和所述候选词的IDF,计算所述候选词的TF-IDF。
5.根据权利要求3所述的方法,其特征在于,所述根据各个所述候选词的TF-IDF确定所述关键词,包括:
按照TF-IDF值的大小对各个所述候选词的TF-IDF进行排序;
从TF-IDF值最大的所述候选词开始,依次选取指定数量个所述候选词,并将选出的所述候选词确定为所述关键词。
6.根据权利要求3所述的方法,其特征在于,所述根据各个所述候选词的TF-IDF确定所述关键词,包括:
比较所述候选词的TF-IDF是否大于指定TF-IDF阈值;
若是,则将所述候选词确定为所述关键词;
若否,则将所述候选词不确定为所述关键词。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
从设定语料库中确定至少一个与所述关键词达到指定相关条件的相关词;
将各个所述相关词推荐给所述审计规则配置装置,以使所述审计规则配置装置根据所述相关词配置所述指定审计规则。
8.根据权利要求7所述的方法,其特征在于,所述指定相关条件包括相关度最高或所述相关度大于指定相关度阈值;所述相关词中包括所述关键词的近义词和/或所述关键词的反义词。
9.根据权利要求7所述的方法,其特征在于,所述从设定语料库中确定至少一个与所述关键词达到指定相关条件的相关词,包括:
按照设定算法从设定语料库中确定至少一个与所述关键词达到指定相关条件的相关词,所述设定算法包括用来产生词向量的相关模型word2vec算法或频繁项集挖掘算法。
10.一种审计规则推荐装置,其特征在于,所述装置包括:
获取模块,被配置为获取日志信息;
第一确定模块,被配置为从所述日志信息中确定至少一个用于配置指定审计规则的关键词,所述指定审计规则包括字符串匹配规则;
第一推荐模块,被配置为将各个所述关键词推荐给审计规则配置装置,以使所述审计规则配置装置根据所述关键词配置所述指定审计规则。
11.根据权利要求10所述的装置,其特征在于,所述第一确定模块包括:
第一确定子模块,被配置为使用词频-逆文档频率TF-IDF算法从所述日志信息中确定所述关键词。
12.根据权利要求11所述的装置,其特征在于,所述第一确定子模块包括:
分词子模块,被配置为对所述日志信息进行分词,得到至少一个用于确定所述关键词的候选词;
第一计算子模块,被配置为计算各个所述候选词的TF-IDF;
第二确定子模块,被配置为根据各个所述候选词的TF-IDF确定所述关键词。
13.根据权利要求12所述的装置,其特征在于,所述第一计算子模块包括:
第二计算子模块,被配置为根据所述候选词在所述日志信息中的出现次数和所述日志信息的总词数,计算所述候选词的词频TF;
第三计算子模块,被配置为根据设定语料库的文档总数和所述设定语料库中包括所述候选词在的文档数,计算所述候选词的逆文档频率IDF;
第四计算子模块,被配置为根据所述候选词的TF和所述候选词的IDF,计算所述候选词的TF-IDF。
14.根据权利要求12所述的装置,其特征在于,所述第二确定子模块包括:
排序子模块,被配置为按照TF-IDF值的大小对各个所述候选词的TF-IDF进行排序;
选取子模块,被配置为从TF-IDF值最大的所述候选词开始,依次选取指定数量个所述候选词,并将选出的所述候选词确定为所述关键词。
15.根据权利要求12所述的装置,其特征在于,所述第二确定子模块包括:
比较子模块,被配置为比较所述候选词的TF-IDF是否大于指定TF-IDF阈值;
第一处理子模块,被配置为若所述比较子模块的比较结果为是,则将所述候选词确定为所述关键词;
第二处理子模块,被配置为若所述比较子模块的比较结果为否,则将所述候选词不确定为所述关键词。
16.根据权利要求10所述的装置,其特征在于,所述装置还包括:
第二确定模块,被配置为从设定语料库中确定至少一个与所述关键词达到指定相关条件的相关词;
第二推荐模块,被配置为将各个所述相关词推荐给所述审计规则配置装置,以使所述审计规则配置装置根据所述相关词配置所述指定审计规则。
17.根据权利要求16所述的装置,其特征在于,所述指定相关条件包括相关度最高或所述相关度大于指定相关度阈值;所述相关词中包括所述关键词的近义词和/或所述关键词的反义词。
18.根据权利要求16所述的装置,其特征在于,所述第二确定模块包括:
第三确定子模块,被配置为按照设定算法从设定语料库中确定至少一个与所述关键词达到指定相关条件的相关词,所述设定算法包括用来产生词向量的相关模型word2vec算法或频繁项集挖掘算法。
19.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1~9任一项所述方法的步骤。
20.一种审计规则推荐装置,其特征在于,所述装置包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取日志信息;
从所述日志信息中确定至少一个用于配置指定审计规则的关键词,所述指定审计规则为字符串匹配;
将各个所述关键词推荐给审计规则配置装置,以使所述审计规则配置装置根据所述关键词配置所述指定审计规则。
21.一种日志系统,其特征在于,包括上述权利要求10~18任一项所述的审计规则推荐装置,并用于执行上述权利要求1~9任一项所述的审计规则推荐方法。
CN201811561671.XA 2018-12-20 2018-12-20 审计规则推荐方法及装置 Pending CN109726272A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811561671.XA CN109726272A (zh) 2018-12-20 2018-12-20 审计规则推荐方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811561671.XA CN109726272A (zh) 2018-12-20 2018-12-20 审计规则推荐方法及装置

Publications (1)

Publication Number Publication Date
CN109726272A true CN109726272A (zh) 2019-05-07

Family

ID=66297638

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811561671.XA Pending CN109726272A (zh) 2018-12-20 2018-12-20 审计规则推荐方法及装置

Country Status (1)

Country Link
CN (1) CN109726272A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110532302A (zh) * 2019-08-30 2019-12-03 广西电网有限责任公司南宁供电局 审计方法、系统和可读存储介质
CN112087414A (zh) * 2019-06-14 2020-12-15 北京奇虎科技有限公司 挖矿木马的检测方法及装置
CN112101816A (zh) * 2020-09-28 2020-12-18 中国银行股份有限公司 审计计划智能推荐方法及装置
CN112488572A (zh) * 2020-12-15 2021-03-12 广东电网有限责任公司 一种审计对象推荐方法、装置、设备和介质
CN112543127A (zh) * 2019-09-23 2021-03-23 北京轻享科技有限公司 一种微服务架构的监控方法及装置
CN112860637A (zh) * 2021-02-05 2021-05-28 广州海量数据库技术有限公司 一种基于审计策略来处理日志的方法及系统
WO2021212409A1 (en) * 2020-04-23 2021-10-28 Citrix Systems, Inc. Identification of log events for computing systems
CN115225471A (zh) * 2022-07-15 2022-10-21 中国工商银行股份有限公司 一种日志分析方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130132352A1 (en) * 2011-11-23 2013-05-23 Microsoft Corporation Efficient fine-grained auditing for complex database queries
CN103425687A (zh) * 2012-05-21 2013-12-04 阿里巴巴集团控股有限公司 一种基于关键词的检索方法和系统
CN103744856A (zh) * 2013-12-03 2014-04-23 北京奇虎科技有限公司 联动性扩展搜索方法及装置、系统
CN106446076A (zh) * 2016-09-07 2017-02-22 南京理工大学 基于层次聚类的日志审计方法
CN107301115A (zh) * 2017-06-26 2017-10-27 中国铁道科学研究院电子计算技术研究所 应用程序异常监控和恢复方法及设备
CN107608980A (zh) * 2016-07-11 2018-01-19 中国电信股份有限公司 基于dpi大数据分析的信息推送方法和系统
CN108563713A (zh) * 2018-03-29 2018-09-21 阿里巴巴集团控股有限公司 关键词规则生成方法及装置和电子设备
CN108667678A (zh) * 2017-03-29 2018-10-16 中国移动通信集团设计院有限公司 一种基于大数据的运维日志安全检测方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130132352A1 (en) * 2011-11-23 2013-05-23 Microsoft Corporation Efficient fine-grained auditing for complex database queries
CN103425687A (zh) * 2012-05-21 2013-12-04 阿里巴巴集团控股有限公司 一种基于关键词的检索方法和系统
CN103744856A (zh) * 2013-12-03 2014-04-23 北京奇虎科技有限公司 联动性扩展搜索方法及装置、系统
CN107608980A (zh) * 2016-07-11 2018-01-19 中国电信股份有限公司 基于dpi大数据分析的信息推送方法和系统
CN106446076A (zh) * 2016-09-07 2017-02-22 南京理工大学 基于层次聚类的日志审计方法
CN108667678A (zh) * 2017-03-29 2018-10-16 中国移动通信集团设计院有限公司 一种基于大数据的运维日志安全检测方法及装置
CN107301115A (zh) * 2017-06-26 2017-10-27 中国铁道科学研究院电子计算技术研究所 应用程序异常监控和恢复方法及设备
CN108563713A (zh) * 2018-03-29 2018-09-21 阿里巴巴集团控股有限公司 关键词规则生成方法及装置和电子设备

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112087414A (zh) * 2019-06-14 2020-12-15 北京奇虎科技有限公司 挖矿木马的检测方法及装置
CN110532302A (zh) * 2019-08-30 2019-12-03 广西电网有限责任公司南宁供电局 审计方法、系统和可读存储介质
CN110532302B (zh) * 2019-08-30 2024-01-19 广西电网有限责任公司南宁供电局 审计方法、系统和可读存储介质
CN112543127A (zh) * 2019-09-23 2021-03-23 北京轻享科技有限公司 一种微服务架构的监控方法及装置
WO2021212409A1 (en) * 2020-04-23 2021-10-28 Citrix Systems, Inc. Identification of log events for computing systems
US12093157B2 (en) 2020-04-23 2024-09-17 Citrix Systems, Inc. Identification of log events for computing systems
CN112101816A (zh) * 2020-09-28 2020-12-18 中国银行股份有限公司 审计计划智能推荐方法及装置
CN112101816B (zh) * 2020-09-28 2024-04-23 中国银行股份有限公司 审计计划智能推荐方法及装置
CN112488572A (zh) * 2020-12-15 2021-03-12 广东电网有限责任公司 一种审计对象推荐方法、装置、设备和介质
CN112488572B (zh) * 2020-12-15 2023-04-07 广东电网有限责任公司 一种审计对象推荐方法、装置、设备和介质
CN112860637A (zh) * 2021-02-05 2021-05-28 广州海量数据库技术有限公司 一种基于审计策略来处理日志的方法及系统
CN115225471A (zh) * 2022-07-15 2022-10-21 中国工商银行股份有限公司 一种日志分析方法及装置

Similar Documents

Publication Publication Date Title
CN109726272A (zh) 审计规则推荐方法及装置
JP7343568B2 (ja) 機械学習のためのハイパーパラメータの識別および適用
CN107729336B (zh) 数据处理方法、设备及系统
US20190005025A1 (en) Performing semantic graph search
US8407215B2 (en) Text analysis to identify relevant entities
US9495460B2 (en) Merging search results
US20220229812A1 (en) Systems and computer implemented methods for semantic data compression
US11087414B2 (en) Distance-based social message pruning
US20180210962A1 (en) Methods and systems for pathing analysis
WO2009108576A2 (en) Prioritizing media assets for publication
US11200244B2 (en) Keyword reporting for mobile applications
US11048738B2 (en) Records search and management in compliance platforms
US9721000B2 (en) Generating and using a customized index
US9846740B2 (en) Associative search systems and methods
US9940408B2 (en) Trigger query obtaining apparatus, trigger query obtaining method, and non-transitory computer readable recording medium
Woodworth et al. S3BD: Secure semantic search over encrypted big data in the cloud
CN116738065A (zh) 一种企业搜索方法、装置、设备及存储介质
Xu et al. Measuring the semantic discrimination capability of association relations
Alshammari et al. Less is more: with a 280-character limit, Twitter provides a valuable source for detecting self-reported flu cases
CN104572945A (zh) 一种基于云存储空间的文件搜索方法和装置
CN112801703B (zh) 用于确定广告转化用户的方法、装置及设备
JP5270788B1 (ja) 検索キーに名称を用いる知的財産情報の検索システムおよび検索方法
US20200364251A1 (en) Cluster computing system and method for automatically generating extraction patterns from operational logs
US20230185837A1 (en) Method and computer system for determining the relevance of a text
JP6797618B2 (ja) 検索装置、検索方法、プログラムおよび検索システム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination