CN110297846A - 一种日志特征处理系统、方法、电子设备及存储介质 - Google Patents
一种日志特征处理系统、方法、电子设备及存储介质 Download PDFInfo
- Publication number
- CN110297846A CN110297846A CN201910452919.7A CN201910452919A CN110297846A CN 110297846 A CN110297846 A CN 110297846A CN 201910452919 A CN201910452919 A CN 201910452919A CN 110297846 A CN110297846 A CN 110297846A
- Authority
- CN
- China
- Prior art keywords
- feature
- log
- target
- characteristic
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003860 storage Methods 0.000 title claims abstract description 118
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000012545 processing Methods 0.000 title claims abstract description 23
- 238000000605 extraction Methods 0.000 claims abstract description 153
- 238000012986 modification Methods 0.000 claims abstract description 9
- 230000004048 modification Effects 0.000 claims abstract description 9
- 238000004590 computer program Methods 0.000 claims description 18
- 230000002085 persistent effect Effects 0.000 claims description 16
- 238000003672 processing method Methods 0.000 claims description 14
- 238000001514 detection method Methods 0.000 claims description 12
- 238000012360 testing method Methods 0.000 abstract description 8
- 238000004140 cleaning Methods 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 19
- 238000010586 diagram Methods 0.000 description 16
- 239000000284 extract Substances 0.000 description 14
- 238000012795 verification Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 5
- 230000006399 behavior Effects 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 3
- 238000012827 research and development Methods 0.000 description 3
- 230000001960 triggered effect Effects 0.000 description 3
- 230000000977 initiatory effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 230000002688 persistence Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2452—Query translation
- G06F16/24528—Standardisation; Simplification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明提供了一种日志特征处理系统、方法、电子设备及存储介质。系统包括:目标特征提取模块,用于依据多个目标特征提取规则提取多个目标日志特征;目标特征存储模块,用于将各目标日志特征存储于特征数据库;第一特征查找模块,用于查找与查询条件相匹配的第一日志特征;第一特征判断模块,用于依据各第一日志特征的检测结果判断各第一日志特征是否符合特征命中数条件;第一目标特征提取模块,用于在各第一日志特征的部分或全部不符合特征命中数条件时,提取第一目标日志特征;第一规则修改模块,用于修改与第一目标日志特征对应的第一特征提取规则,并从特征数据库中清除第一目标日志特征。本发明可以对特征配置进行修改,实现日志特征的清洗。
Description
技术领域
本发明涉及日志处理技术领域,特别是涉及一种日志特征处理系统、方法、电子设备及存储介质。
背景技术
在安全风控和推荐系统中都会去分析用户的行为,从而提取相应的特征以用于欺诈检测、黑产识别、个性化推荐、精准营销等任务。
而现有技术中,测试或验证某个特征配置非常麻烦,通常是依靠开发人员在代码里打日志的方式进行数据观察,需要开发人员确认后再进行上线,在配置好的特征上线之后,发现上线的特征错误时,也无法进行特征配置的回溯和特征数据的清洗。
发明内容
本发明实施例所要解决的技术问题是提供一种日志特征处理系统、方法、电子设备及存储介质,以解决现有技术中测试或验证某个特征配置比较麻烦,且在特征上线之后,无法进行特征配置回溯和特征数据清洗的技术问题。
为了解决上述问题,本发明实施例提供了一种日志特征处理系统,包括:目标特征提取模块,用于依据预先配置的多个目标特征提取规则从数据源中提取多个目标日志特征;目标特征存储模块,用于将各所述目标日志特征存储于特征数据库;第一特征查找模块,用于在监测到特征查询指令时,依据查询条件,从所述特征数据库中查找与所述查询条件相匹配的第一日志特征;第一特征判断模块,用于对各所述第一日志特征进行检测,依据检测结果判断各所述第一日志特征是否符合特征命中数条件;第一目标特征提取模块,用于在各所述第一日志特征的部分或全部不符合所述特征命中数条件时,提取各所述第一日志特征中部分或全部不符合所述特征命中数条件的第一目标日志特征;第一规则修改模块,用于修改与所述第一目标日志特征对应的第一特征提取规则,并从所述特征数据库中清除所述第一目标日志特征;所述第一特征提取规则为所述多个目标特征提取规则中的一个规则。
优选地,所述特征数据库包括热存储数据库和冷存储数据库,所述目标特征存储模块包括:目标特征存储子模块,用于将各所述目标日志特征缓存于所述热存储数据库,并将各所述目标日志特征持久化存储于所述冷存储数据库。
优选地,还包括:快照信息生成模块,用于在提取各所述目标日志特征时,依据所述目标特征提取规则及提取时间,分别生成与各所述目标日志特征对应的快照信息;所述快照信息包括特征标识信息、特征维度信息、特征命中数值信息、特征命中时间信息中的至少一种;关联关系建立模块,用于建立各所述快照信息分别与各所述目标日志特征之间的关联关系;关联关系存储模块,用于将所述关联关系存储于所述特征数据库。
优选地,查询条件包括特征标识信息和/或特征维度信息,所述第一特征查找模块包括:相关信息查找子模块,用于依据所述关联关系,在所述热存储数据库中查找与所述特征标识信息和/或特征维度信息匹配的第一日志特征的相关信息;其中,所述相关信息包括特征命中数值信息、特征命中时间信息中的至少一种。
优选地,所述目标特征存储子模块包括:目标特征缓存子模块,用于将各所述目标日志特征缓存于流式消息队列对应的存储空间;流任务启动子模块,用于启动与所述流式消息队列匹配的流任务;目标特征冷存储子模块,用于依据所述流任务获取缓存于所述存储空间中的各所述目标日志特征,并依次将各所述目标日志特征持久化存储于所述冷存储数据库。
优选地,还包括:第二特征规则获取模块,用于获取经修改所述第一特征提取规则生成的第二特征提取规则;第二日志特征提取模块,用于依据所述第二特征提取规则从所述数据源中提取至少一个第二日志特征;第二日志特征保存模块,用于将所述至少一个第二日志特征保存于所述特征数据库。
优选地,还包括:第一报警信息生成模块,用于在所述第一日志特征的特征命中数目大于或等于所述第一特征命中阈值时,触发生成第一报警信息,并发出所述第一报警信息;或者,第二报警信息生成模块,用于在所述第一日志特征的特征命中数目小于所述第二特征命中阈值时,触发生成第二报警信息,并发出所述第二报警信息;其中,所述第一特征命中阈值大于所述第二特征命中阈值。
为了解决上述问题,本发明实施例提供了一种日志特征处理方法,包括:依据预先配置的多个目标特征提取规则从数据源中提取多个目标日志特征;将各所述目标日志特征存储于特征数据库;在监测到特征查询指令时,依据查询条件,从所述特征数据库中查找与所述查询条件相匹配的第一日志特征;对各所述第一日志特征进行检测,依据检测结果判断各所述第一日志特征是否符合特征命中数条件;在各所述第一日志特征的部分或全部不符合所述特征命中数条件时,提取各所述第一日志特征中部分或全部不符合所述特征命中数条件的第一目标日志特征;修改与所述第一目标日志特征对应的第一特征提取规则,并从所述特征数据库中清除所述第一目标日志特征;所述第一特征提取规则为所述多个目标特征提取规则中的一个规则。
优选地,所述特征数据库包括热存储数据库和冷存储数据库,所述将各所述目标日志特征存储于特征数据库,包括:将各所述目标日志特征缓存于所述热存储数据库,并将各所述目标日志特征持久化存储于所述冷存储数据库。
优选地,在所述依据预先配置的多个目标特征提取规则从数据源中提取多个目标日志特征之后,还包括:在提取各所述目标日志特征时,依据所述目标特征提取规则及提取时间,分别生成与各所述目标日志特征对应的快照信息;所述快照信息包括特征标识信息、特征维度信息、特征命中数值信息、特征命中时间信息中的至少一种;建立各所述快照信息分别与各所述目标日志特征之间的关联关系;将所述关联关系存储于所述特征数据库。
优选地,查询条件包括特征标识信息和/或特征维度信息,所述依据查询条件,从所述特征数据库中查找与所述查询条件相匹配的第一日志特征,包括:依据所述关联关系,在所述热存储数据库中查找与所述特征标识信息和/或特征维度信息匹配的第一日志特征的相关信息;其中,所述相关信息包括特征命中数值信息、特征命中时间信息中的至少一种。
优选地,所述将各所述目标日志特征持久化存储于冷存储数据库,包括:将各所述目标日志特征缓存于流式消息队列对应的存储空间;启动与所述流式消息队列匹配的流任务;依据所述流任务获取缓存于所述存储空间中的各所述目标日志特征,并依次将各所述目标日志特征持久化存储于所述冷存储数据库。
优选地,在所述修改与所述第一目标日志特征对应的第一特征提取规则之后,还包括:获取经修改所述第一特征提取规则生成的第二特征提取规则;依据所述第二特征提取规则从所述数据源中提取至少一个第二日志特征;将所述至少一个第二日志特征保存于所述特征数据库。
优选地,在所述依据检测结果判断各所述第一日志特征是否符合特征命中数条件之后,还包括:在所述第一日志特征的特征命中数目大于或等于所述第一特征命中阈值时,触发生成第一报警信息,并发出所述第一报警信息;或者,在所述第一日志特征的特征命中数目小于所述第二特征命中阈值时,触发生成第二报警信息,并发出所述第二报警信息;其中,所述第一特征命中阈值大于所述第二特征命中阈值。
为了解决上述问题,本发明实施例提供了一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述任一项所述的日志特征处理方法。
为了解决上述问题,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的日志特征处理方法。
与现有技术相比,本发明实施例包括以下优点:
本发明实施例中,依据预先配置的多个目标特征提取规则从数据源中提取多个目标日志特征,加并将各目标日志特征存储于特征数据库,在监测到特征查询指令时,依据查询条件,从特征数据库中查找与查询条件相匹配的第一日志特征,对各第一日志特征进行检测,在检测到各第一日志特征中的部分或全部不符合特征命中数条件时,提取各第一日志特征中部分或全部不符合特征命中数条件的第一目标日志特征,进而,修改后与第一目标日志特征对应的第一特征提取规则,并从特征数据库中清除第一目标日志特征。本发明实施例可以按照特征提取规则提取日志特征并存储于特征数据库,以便于后续的出现特征配置(即特征提取规则)错误时,可以对特征配置进行修改,并从特征数据库中清除相应的日志特征,可以简化日志特征测试或验证的过程,并且,即使在日志特征上线之后,可以根据错误的日志特征进行特征配置的修改和相应日志特征的清洗。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
图1是本发明实施例提供的一种日志特征处理系统的结构示意图;
图2是本发明实施例提供的一种日志特征搜索过程的示意图;
图3是本发明实施例提供的一种日志特征命中情况的示意图;
图4是本发明实施例提供的一种特征命中数目的示意图;
图5是本发明实施例提供的一种日志特征处理方法的步骤流程图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
参照图1,示出了本发明实施例提供的一种日志特征处理系统的结构示意图。
如图1所示,日志特征处理系统100可以包括:
目标特征提取模块1010,用于依据预先配置的多个目标特征提取规则从数据源中提取多个目标日志特征;
目标特征存储模块1020,用于将各所述目标日志特征存储于特征数据库;
第一特征查找模块1030,用于在监测到特征查询指令时,依据查询条件,从所述特征数据库中查找与所述查询条件相匹配的第一日志特征;
第一特征判断模块1040,用于对各所述第一日志特征进行检测,依据检测结果判断各所述第一日志特征是否符合特征命中数条件;
第一目标特征提取模块1050,用于在各所述第一日志特征的部分或全部不符合所述特征命中数条件时,提取各所述第一日志特征中部分或全部不符合所述特征命中数条件的第一目标日志特征;
第一规则修改模块1060,用于修改与所述第一目标日志特征对应的第一特征提取规则,并从所述特征数据库中清除所述第一目标日志特征;所述第一特征提取规则为所述多个目标特征提取规则中的一个规则。
在本发明实施例中,数据源(DataSource)是指提供某种所需要数据的器件或原始媒体,也即数据的来源,例如,服务器可以根据数据访问请求从而产生相应的访问数据,而产生的访问数据可以保存于服务器侧预先建立的数据库中,则该服务器可以作为一个数据源,以提供相应的日志特征数据,日志特征数据是指由于网上交互行为而产生的日志数据,通常是指行为日志,如登录日志,比如用户登录一次,就可以实时接收到一条日志数据:什么用户、什么设备、什么IP、什么时间产生了一条登录日志等数据信息。
目标特征提取规则是指由研发人员预先设置的提取日志特征的规则。目标特征提取规则可以为用户配置的特征作业对应的特征提取规则,具体地,研发人员可以在特征作业的配置界面可以添加特征作业,在特征作业中指示需要提取哪些特征,或修改预先配置的其它特征作业对应的规则而得到新的特征作业及规则。
在配置特征作业之后,可以启动相应的流任务,并由启动的流任务执行该特征作业,进而由特征作业对应的目标特征提取规则从数据源下发的日志特征数据中提取匹配的日志特征,例如,研发人员配置的特征作业对应的目标特征提取规则为:提取10s内登录次数大于3的IP,可以从数据源下发的特征数据中提取出10s内登录次数大于3次的IP,IP即是最后符合要求的日志特征等等。
当然,通常情况下,研发人员预先配置的特征提取规则包含多个特征提取规则,具体地,对于预先配置的目标特征提取规则的数目可以根据实际情况而定,本发明实施例对此不加以限制。
在具体实现中,研发人员可以根据所需提取的日志特征而预先设置相应的目标特征提取规则,本发明实施例对此不加以限制。
目标特征提取模块1010可以依据预先配置的多个目标特征提取规则从数据源中提取多个目标特征,具体地,在数据源中可以根据网上交互行为实时生成交互数据(即日志特征数据),数据源产生日志特征数据之后,可以将日志特征数据实时下发给终端侧,并在终端侧启动预先设置的流任务,由启动后的流任务负责接收数据源产生的日志特征数据。进而执行目标特征提取模块1010,以根据预先配置的多个目标特征提取规则从特征数据中提取相应的多个目标日志特征,例如,可以由启动后的流任务执行目标特征提取规则对应的特征作业,以按照目标特征提取规则从日志特征数据中提取日志。所提取的多个目标日志特征是分别对应于预先配置的目标特征提取规则的,例如,在目标特征提取规则为:30s内登录次数大于3的IP,则从日志特征数据提取的目标日志特征即为30s内登录次数大于3的IP地址;而在目标特征提取规则为:30s内登录次数大于3小于10的IP,则提取的目标日志特征即为30s内登录次数大于3小于10的IP地址等。
可以理解地,上述示例仅是为了更好地理解本发明实施例的技术方案而列举的示例,不作为对本发明实施例的唯一限制。
特征数据库是指预先创建的用于存储从数据源下发的日志特征数据中的日志特征的数据库,特征数据库可以为Oracle数据库、SQL Server数据库、Mysql数据库等等,对于具体的数据库类型可以根据实际情况进行设定,本发明实施例对此不加以限制。
在由目标特征提取模块1010提取多个目标日志特征之后,可以由目标特征存储模块1020将各目标日志特征存储于特征数据库中。
而对于特征数据库可以分为热存储数据库和冷存储数据库,热存储数据库可以用于缓存提取的多个目标日志特征,而冷存储数据库可以持久化存储提取的多个目标日志特征,通过将目标日志特征缓存可以在后续查询过程中,直接从热存储数据库中实现日志特征的查询,查询速度快,效率高。而将目标日志特征持久换存储,可以实现目标日志特征的持久化存储,以实现目标日志特征的备份功能,避免某些日志特征的流失。
而对于目标日志特征的存储过程将在下述优选实施例中进行详细描述,本发明实施例在此不再加以赘述。
查询条件是指由研发人员根据实际需要设置的从多个目标日志特征中查询预设维度的日志特征的条件。查询条件可以包括特征标识信息和/或特征维度信息等条件,查询条件可以作为对存储的日志特征的验证过程,以通过查询条件查找预先存储的日志特征,并验证系统是否存在漏洞、系统中是否存在作弊设备等。
当然,对应查询条件也可以是由业务人员在日志特征查找界面配置的特征查询作业,特征查询作业对应于相应的查询条件,在特征查询作业配置完成之后,可以启动相应的流任务执行特征查询作业,以从特征数据库中查找与查询条件匹配的日志特征。
对于如何利用查询条件查找日志特征的方案将在下述优选实施例中进行详细描述,本发明实施例在此不再加以赘述。
第一日志特征是指根据查询条件从特征数据库中查找得到的日志特征,例如,在查询条件为查找1小时内命中特征的个数超过10000的IP,则可以根据该查询条件,查找一个小时内登录次数大于10000次的IP地址,并将IP地址作为第一日志特征。
特征查询指令是指从特征数据中查找与查询条件匹配的第一日志特征的指令,可以理解地,特征查询指令可以是在用户配置了特征查询作业之后,由用户启动的点击指令,例如,在特征查询界面内,可以预先设置每个特征查询作业对应的启动按钮,在用户点击该启动按钮之后,即执行该特征查询作业,以从特征数据库中查找与特征查询作业对应的查询条件相匹配的日志特征。特征查询指令还可以是用户输入的语音触发的查询指令,例如,在特征查询界面内可以预先设置语音输入接口,可以接收用户输入的语音,并通过对用户输入的语音进行解析,以获取相应的特征查询指令,如在启动特征查询作业1时,用户可以输入语音“执行特征查询作业1”等。
可以理解地,上述示例仅是为了更好地理解本发明实施例的技术方案而列举的示例,不作为对本发明实施例的唯一限制。
在由目标特征存储模块1020将提取的多个目标日志特征存储于特征数据库之后,可以由第一特征查找模块1030在监测到特征查询指令时,根据研发人员设置的查询条件,从特征数据库中查找与查询条件匹配的第一日志特征。
在第一特征查找模块1040可以用于对查找到的各第一日志特征进行检测,并根据检测结果判断各第一日志特征是否符合特征命中数条件。
特征命中数条件是指由研发人员预先设置的用于判断查找的日志特征是否特征命中数值的条件。特征命中数值即为在某个时间段内日志特征出现的次数,例如,特征命中数条件为1小时内登录次数大于1000次的IP地址,特征命中数值即为登录次数。而对于特征命中数条件可以根据实际情况进行设置,本发明实施例对此不加以限制。
第一目标日志特征是指查找得到的第一日志特征中不符合特征命中数条件的日志特征,例如,在特征数据库中查找的第一日志特征包括A、B、C,在特征A不符合特征命中数条件时,即将特征A视为第一目标日志特征。
可以理解地,上述过程中所描述的第一日志特征为某一类的日志特征,例如,10s内登录次数大于10次的IP,则依据该条件获取的IP可以视为一类日志特征;或10s内登录次数大于3次小于10次的IP,则依据该条件获取的IP可以视为一类日志特征。
在由第一特征查找模块1030从特征数据库中查找到与查询条件匹配的第一日志特征之后,可以由第一特征判断模块1040对查询的各第一日志特征进行检测,并依据检测结果判断各第一日志特征是否符合特征命中数条件,例如,如果查询得到的配置1小时内命中特征作业10001的IP去重后个数大于10000,说明黑产正大量在攻击网站,则表示查找的日志特征不符合特征命中数条件等等。
对于日志特征查询的过程可以结合附图进行如下详细描述。
参照图2,示出了本发明实施例提供的一种日志特征搜索过程的示意图。
如图2所示,processID(即属性)为407,startTime(开始时间):1537086300000,processdesc(查询规则)为:一小时内,xx投票同一uid下dfp种类数….,通过查询属性,查询开始时间,及查询规则,从特征数据库中查找日志特征的命中情况。
本发明中,在日志特征查找过程,可以查找每隔预设时间段的日志特征命中情况,如图2所示,检测每5分钟时间段内的日志特征命中情况,横坐标表示间隔时间为5min,如17:00:00—17:15:00、17:15:00—17:20:00、17:20:00—17:25:00等,纵坐标表示检测的日志特征命中数,如图2所示,在17:00:00—17:15:00、17:15:00—17:20:00和17:20:00—17:25:00的时间段内,命中特征的数目均为40,在本发明中还可以每隔30s执行一次检测,如图2所示“requestTime per 30seconds”,即设置检测的间隔时间为30s,即在17:00:00—17:15:00时间段的日志特征命中情况开始的30s后,则对17:15:00—17:20:00时间段内的日志命中特征情况进行检测等。
可以理解地,上述示例仅是为了更好地理解本发明实施例的技术方案而列举的示例,不作为对本发明实施例的唯一限制。
第一特征提取规则是指与查找得到的第一目标日志特征对应的特征提取规则,第一特征提取规则为多个目标日志特征提取规则中的一个规则,例如,在目标特征提取规则包括规则a、规则b和规则c时,第一特征提取规则可以为规则a,也可以为规则b,还可以为规则c等等,具体地,需要检测哪些目标特征提取规则提取的日志特征不符合特征命中数条件,将不符合特征命中数条件的日志特征对应的特征提取规则视为第一特征提取规则。
可以理解地,上述示例仅是为了更好地理解本发明实施例的技术方案而列举的示例,不作为对本发明实施例的唯一限制。
在检测出各第一日志特征中的部分或全部不符合特征命中数条件时,可以由第一目标特征提取模块1050提取各第一日志特征中部分或全部不符合特征命中数条件的第一目标日志特征。
第一规则修改模块1060可以在各第一目标日志特征中的部分或全部不符合特征命中数条件时,修改与第一目标日志特征对应的第一特征提取规则,并从特征数据库中清除第一目标日志特征。
本发明实施例提供的日志特征处理系统,可以实现按照特征提取规则提取日志特征并存储于特征数据库,以便于后续的出现特征配置(即特征提取规则)错误时,可以对特征配置进行修改,并从特征数据库中清除相应的日志特征,可以简化日志特征测试或验证的过程,并且,即使在日志特征上线之后,可以根据错误的特征进行特征配置的修改和相应日志特征的清洗。
接下来,结合附图针对上述各模块进行如下详细描述。
如图1所示,日志特征处理系统100还可以包括:快照信息生成模块1070、关联关系建立模块1080和关联关系存储模块1090,其中,
快照信息生成模块1070用于在提取各目标日志特征时,依据目标日志特征提取规则及提取时间,分别生成与各目标日志特征对应的快照信息;
关联关系建立模块1080用于建立各快照信息分别与各目标日志特征之间的关联关系;
快照存储模块1090用于将关联关系存储于特征数据库。
在本发明实施例中,快照信息可以包括特征标识信息、特征维度信息、特征命中数值信息、特征命中时间信息等信息中的一种或多种。
特征标识信息是指存储于特征数据库中的各日志特征的标识信息,通常是指特征ID,即存储于特征数据库中的目标日志特征均具有唯一的ID标识,用于区分各个目标日志特征。
目标日志特征的特征标识信息可以数字标识信息,如1、3、5等,也可以为小写字母标识信息,如a、f、b等,还可以为大写字母标识,如A、M、P等。
在具体实现中,本领域技术人员可以根据实际需要自行设定特征标识信息的具体表现形式,本发明实施例对此不加以限制。
特征维度信息是指每个日志特征对应的维度,可以包括日志特征对应的IP、日志特征对应的登录账户等等维度,具体地,可以根据实际情况预先设定,本发明实施例对此不加以限制。
特征命中数值是指在某个时段内产生的日志特征命中预先配置规则的数值,例如,某个IP即命中了一分钟登录次数大于1000次的特征,即产生的IP大于设定命中阈值的情况等。
可以理解地,上述示例仅是为了更好地理解本发明实施例的技术方案而列举的示例,不作为对本发明实施例的唯一限制。
在由目标特征提取模块1010提取目标日志特征时,还可以根据各目标日志特征的提取规则及提取时间,分别生成与各目标日志特征对应的快照信息,例如,特征提取规则为:一分钟内登录次数大于3次的IP,提取的目标特征为特征A,对应的标识信息为101,IP为:xxxxxA,提取时间为:2019年3年18日-10:00,提取数目为1,则生成的快照信息可以为:特征标识为101,特征维度:IP为xxxxxA,特征命中数值为1,命中时间为:2019年3年18日-10:00等。
可以理解地,上述示例仅是为了更好地理解本发明实施例的技术方案而列举的示例,不作为对本发明实施例的唯一限制。
在由快照信息生成模块1070生成与各目标日志特征对应的快照信息之后,还可以由关联关系建立模块1080建立各快照信息分别与各目标日志特征之间的关联关系,例如,目标日志特征包括:特征1、特征2和特征3,提取特征1生成的快照信息为快照a,提取特征2生成的快照信息为快照b,提取特征3生成的快照信息为快照c,则建立特征1与快照a之间的关联关系,特征2与快照b之间的关联关系,特征3与快照c之间的关联关系等。
可以理解地,上述示例仅是为了更好地理解本发明实施例的技术方案而列举的示例,不作为对本发明实施例的唯一限制。
关联关系模块1090可以将上述建立的关联关系存储于特征数据库中,进而在后续查询时,可以根据该关联关系和查询条件从特征数据库中快速查找与查询条件匹配的第一日志特征。
在后续从特征数据库中查找日志特征时,可以结合上述关联关系进行查询,具体地,结合下述优选实施例进行详细描述。
在本发明的另一种优选实施例中,查询条件可以包括特征标识信息和/或特征维度信息,第一特征查找模块1030可以包括相关信息查找子模块。
相关信息查找子模块可以用于依据上述建立的关联关系,在特征数据库中查找与特征标识信息和/或特征维度信息匹配的第一日志特征的相关信息,其中,相关信息可以包括特征命中数值、特征命中时间信息等信息中的至少一种。例如,在查询条件为特征标识信息时,特征标识信息为101~200之间的日志特征时,则从特征数据库中查找特征标识为102、103、…、199的日志特征,即特征标识102、103、...、199对应的日志特征所命中的数值,及各日志特征命中的时间。而在查询条件为特征维度信息时,查询特征维度为IP为:xxxxAxx的日志特征,则从特征数据库中查找IP为xxxxAxx的日志特征。
当然,查询条件还可以同时包括特征标识信息和特征维度信息,则从特征数据库中查找同时满足特征标识信息和特征维度信息的日志特征。
可以理解地,上述示例仅是为了更好地理解本发明实施例的技术方案而列举的示例,不作为对本发明实施例的唯一限制。
在本发明中,特征数据库可以包括热存储数据库和冷存储数据库,热存储数据库用于对提取的多个目标日志特征进行缓存储,冷存储数据库用于对提取的多个目标日志特征进行持久化的存储,具体地,以下述优选实施例进行详细描述。
在本发明的另一种优选实施例中,目标特征存储模块1020可以包括目标特征存储子模块1021,其中,
目标特征存储子模块1021可以用于将各目标日志特征缓存于热存储数据库,并将各目标日志特征持久化存储于冷存储数据库。
在本发明实施例中,热存储数据库系统底层依赖于搜索引擎,即可以通过搜索引擎从热存储数据库中查找相应的日志特征,能够达到实时搜索,查询速度较快,并且支持复杂的查询逻辑,但热存储数据库中的特征数据结构较大,不能够长期保存,一般可以保存近3个月的数据。
而对于持久化存储的过程可以结合下述子模块进行详细描述。
目标存储子模块1021可以包括:目标特征缓存子模块、流任务启动子模块和目标特征冷存储子模块,其中,
目标特征缓存子模块可以用于将各目标日志特征缓存于流式消息队列对应的存储空间;
流任务启动子模块可以用于启动与流式消息队列匹配的流任务;
目标特征冷存储子模块可以用于依据流任务获取缓存于存储空间中的各目标日志特征,并依次将各目标日志特征持久化存储于冷存储数据库。
在本发明实施例中,实时特征提取都是在毫秒内,数据写入实时搜索引擎和分布式文件系统耗时都是在秒级别以上,如果在特征提取的时候进行数据写入会影响实时特征提取的时效性和准确性,因此本系统将实时特征线发送消息至实时流式消息队列,后续用流式处理引擎进行统一的数据持久化。
冷存储数据库系统底层依赖于分布式文件系统,分布式文件系统中的特征数据结构比较固定,在牺牲搜索的前提下,能有效压缩特征数据的大小,可以永久存储特征日志。
因此,在由目标存储子模块1021将提取的目标日志特征存储于冷存储数据库之前,可以先将提取的目标日志特征缓存于流式消息队列,然后将各目标日志特征进行压缩处理,以减小各目标日志特征所占用的系统内存,进而根据对应的流任务,将压缩后的目标日志特征依次存储于冷存储数据库。
即流式消息队列是指用于缓存从数据源下发的特征数据中提取的目标日志的队列,在本发明中,可以由目标特征缓存子模块针对不同的目标特征提取规则预先创建相应的流式消息队列,例如,目标特征提取规则包括规则a和规则b,规则a对应的流式消息队列为队列1,规则b对应的流式消息队列为队列2等。在由目标特征提取模块1010依据预先配置的多个目标特征提取规则从数据源中提取目标日志特征之后,可以按照目标特征提取规则对应的流式消息队列,将提取的目标日志特征分别缓存于相应的流式消息队列所对应的存储空间。
在本发明中,预先为流式消息队列设置有相应的流任务,流任务可以在启动之后从流式消息队列对应的存储空间获取缓存的目标日志特征。
在将目标日志特征缓存于流式消息队列对应的存储空间,且在需要将目标日志特征存储于冷存储数据库时,可以由流任务启动子模块启动与流式消息队列匹配的流任务,并由目标特征冷存储子模块依据流任务获取缓存于存储空间中的各目标日志特征,并依次将各目标日志特征持久换存储冷存储数据库。
本发明实施例中,通过上述两种存储方式,可以达到实时查询日志特征,及日志特征的持久化存储的目的。
在本发明中,还可以在后续发现特征配置(即特征提取规则)出现错误时,可以对更改特征配置,并对预先提取且保存于特征数据库中的目标日志特征进行清洗,具体地,以下述优选实施例进行详细描述。
在本发明的一种优选实施例中,日志特征处理系统100还可以包括:第二特征规则获取模块1100、第二日志特征提取模块1110和第二日志特征保存模块1120,其中,
第二特征规则获取模块1100可以用于获取经修改第一特征提取规则生成的第二特征提取规则。
第二日志特征提取模块1110可以用于依据第二特征提取规则从数据源中提取至少一个第二日志特征,第二日志特征是指依据第二特征提取规则从数据源下发的特征数据中提取的日志特征
第二日志特征保存模块1120可以用于将至少一个第二日志特征保存于特征数据库。
在本发明实施例中,第二特征提取规则是指将第一特征提取规则进行修改之后,得到的特征提取规则,例如,第一特征提取规则为a,在对规则a进行修改而得到规则b,则可以将规则b视为第二特征提取规则。
第二日志特征是指依据第二特征提取规则从数据源中提取的日志特征,例如,第一特征提取规则为:10s内登录次数大于10次的IP,而将第一特征提取规则修改为:10s内登录次数大于3次的IP时,可以将按照规则“10s内登录次数大于3次的IP”提取的日志特征视为第二日志特征。。
第二特征规则获取模块1090可以获取对第一特征提取规则进行修改之后得到的第二特征提取规则,例如,第一特征提取规则为:提取30s内登录次数大于3次的IP,经修改之后的第二特征提取规则为:提取30s内登录次数大于10次的IP。
第二日志特征提取模块1110可以根据重配置得到的第二特征提取规则从数据源中获取至少一个第二日志特征,即在获取数据源下发的多个特征数据之后,可以根据第二特征提取规则对应的流任务依据第二特征提取规则从多个特征数据中提取第二日志特征。
第二日志特征保存模块1120可以将提取的至少一个第二日志特征存储于特征数据库,具体地存储方式也分为热存储和冷存储,即由目标特征存储子模块1021将至少一个第二日志特征缓存于热存储数据库,并将至少一个第二日志特征持久化存储于冷存储数据库,具体地存储方式可以参照上述对目标特征存储子模块1021的描述。
在本发明中,还可以预先设置报警条件,在查询的各第一日志特征的特征命中数目满足特征命中数条件时,触发生成报警信息,以对日志特征处理系统100进行实时监控,具体地,以下述优选实施例进行详细描述。
在本发明的一种优选实施例中,日志特征处理系统100还可以包括第一报警信息生成模块1130和第二报警信息生成模块1140,
第一报警信息生成模块1130可以用于在第一日志特征的命中特征数目大于或等于第一特征命中阈值,触发生成第一报警信息,并发出第一报警信息;
第二报警信息生成模块1140可以用于在第一日志特征的命中特征数目小于第二特征命中阈值时,触发生成第二报警信息,并发出第二报警信息。
在本发明实施例中,第一特征命中阈值和第二特征命中阈值可以是由研发人员预先设置的特征命中数目的阈值,且第一特征命中阈值大于第二特征命中阈值,例如,第一特征命中阈值可以为1000,第二特征命中阈值为10;或第一特征命中阈值为800,第二特征命中阈值为10等等,具体地,第一特征命中阈值和第二特征命中阈值可以根据实际情况进行设定,本发明实施例对于第一特征命中阈值和第二特征命中阈值的具体数值不加以限制。
第一报警信息生成模块1130可以在查询得到第一日志特征的命中特征数目大于等于第一特征命中阈值的情况下,触发生成第一报警信息,并发送第一报警信息。
第二报警信息生成模块1140可以在查询得到的第一日志特征的命中特征数目小于第二特征命中阈值的情况下,触发生成第二报警信息,并发送第二报警信息。
例如,数据库底层依赖于实时特征日志,实时或离线定制化地对异常日志特征命中情况进行监控和报警。在发现某个日志特征命中情况特别高的情况下可进行报警,并升级风控拦截手段。而发现某个日志特征命中情况特别低的情况下进行提示,运营和数据分析人员对算法进行优化。如通常情况下命中的日志特征并不会被直接拦截,避免误杀,一般会配置验证码进行干扰,在此前提下如果配置1个小时内命中特征作业10001的IP去重后个数大于10000触发生成报警信息,在出现报警信息的情况下,表示黑产正大量在攻击登录的网站,而且还破获了预先配置的验证码,需要特别关注下为什么没有被风控拦截,验证码系统是否存在漏洞,可临时将以该特征配置的规则的权重临时升级,直接拦截登录,暂时挡住这批黑产,并及时优化风控策略和验证码系统。同时,特征日志包含了时间信息,可以协助查找某个特征作业/全部特征作业特征提取时间上的波动监控,如凌晨是黑产高峰,工作时间相对是低谷,这是正常现象,如果不符合该现象,则触发生成报警信息,详细分析下是黑产换了攻击策略还是配的特征作业的逻辑有问题。在配置特征作业时,一开始的阈值并非是完善的,如一开始配置了特征作业一分钟登录次数大于10次的ip,发现命中该特征的ip很少,这时候可以不断调整阈值,观察特征命中情况,以此来优化特征提取的逻辑(即特征提取规则的重配置)。
对于特征命中情况可以结合附图进行如下详细描述。
参照图3,示出了本发明实施例提供的一种日志特征命中情况的示意图。
如图3所示,对于统计的2018年9月16日提取的特征命中情况如图所示。Pcw设备指纹疑似浏览器伪造的特征命中数为:2000000个;H5设备指纹疑似浏览器伪造的特征命中数:1500000;xx投票同一uid频数(1小时)的特征命中数为:1500000;….。
通过图3所示内容,可以通过对特征数据库按照不同的查询条件进行查询可以获取某个时段内出现异常日志特征的情况,以便于后续对特征配置进行修改,并从特征数据库中进行异常日志特征的清洗。
在按照查询条件查找到不同的日志特征之后,还可以对各日志特征的数目以柱状图的形式进行表示,例如,参照图4,示出了本发明实施例提供的一种特征命中数目的示意图,如图4所示,横轴表示查找得到的日志特征,如:pcw设备指纹疑似浏览器伪造、H5设备指纹疑似浏览器伪造、xx投票同一uid频数(1小时)、xx投票同一ip频次(1小时)等,数轴表示特征命中数目,如pcw设备指纹疑似浏览器伪造的日志特征命中数为:2000000;H5设备指纹疑似浏览器伪造的日志特征命中数为:1500000;xx投票同一uid频数(1小时)的日志特征命中数为:略少于1500000等。
本发明实施例通过将各日志特征的特征命中数进行展示,进而可以图示直接判定出哪些日志特征符合特征命中数条件,哪些日志特征不符合特征命中数条件等,可以给研发人员以直观的展示。
本发明实施例提供的日志特征处理系统,依据预先配置的多个目标特征提取规则从数据源中提取多个目标日志特征,加并将各目标日志特征存储于特征数据库,在监测到特征查询指令时,依据查询条件,从特征数据库中查找与查询条件相匹配的第一日志特征,对各第一日志特征进行检测,在检测到各第一日志特征中的部分或全部不符合特征命中数条件时,提取各第一日志特征中部分或全部不符合特征命中数条件的第一目标日志特征,进而,修改后与第一目标日志特征对应的第一特征提取规则,并从特征数据库中清除第一目标日志特征。本发明实施例可以按照特征提取规则提取日志特征并存储于特征数据库,以便于后续的出现特征配置(即特征提取规则)错误时,可以对特征配置进行修改,并从特征数据库中清除相应的日志特征,可以简化日志特征测试或验证的过程,并且,即使在日志特征上线之后,可以根据错误的日志特征进行特征配置的修改和相应日志特征的清洗。
参照图5,示出了本发明实施例提供的一种日志特征处理方法的步骤流程图,具体可以包括如下步骤:
步骤401:依据预先配置的多个目标特征提取规则从数据源中提取多个目标日志特征;
步骤402:将各所述目标日志特征存储于特征数据库;
步骤403:在监测到特征查询指令时,依据查询条件,从所述特征数据库中查找与所述查询条件相匹配的第一日志特征;
步骤404:对各所述第一日志特征进行检测,依据检测结果判断各所述第一日志特征是否符合特征命中数条件;
步骤405:在各所述第一日志特征的部分或全部不符合所述特征命中数条件时,提取各所述第一日志特征中部分或全部不符合所述特征命中数条件的第一目标日志特征;
步骤406:修改与所述第一目标日志特征对应的第一特征提取规则,并从所述特征数据库中清除所述第一目标日志特征;所述第一特征提取规则为所述多个目标特征提取规则中的一个规则。
优选地,步骤402可以包括:
将各所述目标日志特征缓存于所述热存储数据库,并将各所述目标日志特征持久化存储于所述冷存储数据库。
优选地,在步骤401之后,还可以包括:
在提取各所述目标日志特征时,依据所述目标特征提取规则及提取时间,分别生成与各所述目标日志特征对应的快照信息;所述快照信息包括特征标识信息、特征维度信息、特征命中数值信息、特征命中时间信息中的至少一种;
建立各所述快照信息分别与各所述目标日志特征之间的关联关系;
将所述关联关系存储于所述特征数据库。
优选地,查询条件包括特征标识信息和/或特征维度信息,步骤403可以包括:
依据所述关联关系,在所述热存储数据库中查找与所述特征标识信息和/或特征维度信息匹配的第一日志特征的相关信息;
其中,所述相关信息包括特征命中数值信息、特征命中时间信息中的至少一种。
优选地,所述将各所述目标日志特征持久化存储于冷存储数据库,包括:
将各所述目标日志特征缓存于流式消息队列对应的存储空间;
启动与所述流式消息队列匹配的流任务;
依据所述流任务获取缓存于所述存储空间中的各所述目标日志特征,并依次将各所述目标日志特征持久化存储于所述冷存储数据库。
优选地,在步骤406之后,还可以包括:
获取经修改所述第一特征提取规则生成的第二特征提取规则;
依据所述第二特征提取规则从所述数据源中提取至少一个第二日志特征;
将所述至少一个第二日志特征保存于所述特征数据库。
优选地,在步骤404之后,还可以包括:
在所述第一日志特征的特征命中数目大于或等于所述第一特征命中阈值时,触发生成第一报警信息,并发出所述第一报警信息;或者,
在所述第一日志特征的特征命中数目小于所述第二特征命中阈值时,触发生成第二报警信息,并发出所述第二报警信息;
其中,所述第一特征命中阈值大于所述第二特征命中阈值。
本发明实施例提供的日志特征处理方法,依据预先配置的多个目标特征提取规则从数据源中提取多个目标日志特征,加并将各目标日志特征存储于特征数据库,在监测到特征查询指令时,依据查询条件,从特征数据库中查找与查询条件相匹配的第一日志特征,对各第一日志特征进行检测,在检测到各第一日志特征中的部分或全部不符合特征命中数条件时,提取各第一日志特征中部分或全部不符合特征命中数条件的第一目标日志特征,进而,修改后与第一目标日志特征对应的第一特征提取规则,并从特征数据库中清除第一目标日志特征。本发明实施例可以按照特征提取规则提取日志特征并存储于特征数据库,以便于后续的出现特征配置(即特征提取规则)错误时,可以对特征配置进行修改,并从特征数据库中清除相应的日志特征,可以简化日志特征测试或验证的过程,并且,即使在日志特征上线之后,可以根据错误的日志特征进行特征配置的修改和相应日志特征的清洗。
对于方法实施例而言,由于其与系统实施例基本相似,所以描述的比较简单,相关之处参见系统实施例的部分说明即可。
可选的,本发明还提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述日志特征处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
可选的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的日志特征处理方法中的步骤。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本发明实施例中,依据预先配置的多个目标特征提取规则从数据源中提取多个目标日志特征,加并将各目标日志特征存储于特征数据库,在监测到特征查询指令时,依据查询条件,从特征数据库中查找与查询条件相匹配的第一日志特征,对各第一日志特征进行检测,在检测到各第一日志特征中的部分或全部不符合特征命中数条件时,提取各第一日志特征中部分或全部不符合特征命中数条件的第一目标日志特征,进而,修改后与第一目标日志特征对应的第一特征提取规则,并从特征数据库中清除第一目标日志特征。本发明实施例可以按照特征提取规则提取日志特征并存储于特征数据库,以便于后续的出现特征配置(即特征提取规则)错误时,可以对特征配置进行修改,并从特征数据库中清除相应的日志特征,可以简化日志特征测试或验证的过程,并且,即使在日志特征上线之后,可以根据错误的日志特征进行特征配置的修改和相应日志特征的清洗。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种日志特征处理系统、一种日志特征处理方法、一种电子设备和一种计算机可读存储介质,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (16)
1.一种日志特征处理系统,其特征在于,包括:
目标特征提取模块,用于依据预先配置的多个目标特征提取规则从数据源中提取多个目标日志特征;
目标特征存储模块,用于将各所述目标日志特征存储于特征数据库;
第一特征查找模块,用于在监测到特征查询指令时,依据查询条件,从所述特征数据库中查找与所述查询条件相匹配的第一日志特征;
第一特征判断模块,用于对各所述第一日志特征进行检测,依据检测结果判断各所述第一日志特征是否符合特征命中数条件;
第一目标特征提取模块,用于在各所述第一日志特征的部分或全部不符合所述特征命中数条件时,提取各所述第一日志特征中部分或全部不符合所述特征命中数条件的第一目标日志特征;
第一规则修改模块,用于修改与所述第一目标日志特征对应的第一特征提取规则,并从所述特征数据库中清除所述第一目标日志特征;所述第一特征提取规则为所述多个目标特征提取规则中的一个规则。
2.根据权利要求1所述的系统,其特征在于,所述特征数据库包括热存储数据库和冷存储数据库,所述目标特征存储模块包括:
目标特征存储子模块,用于将各所述目标日志特征缓存于所述热存储数据库,并将各所述目标日志特征持久化存储于所述冷存储数据库。
3.根据权利要求2所述的系统,其特征在于,还包括:
快照信息生成模块,用于在提取各所述目标日志特征时,依据所述目标特征提取规则及提取时间,分别生成与各所述目标日志特征对应的快照信息;所述快照信息包括特征标识信息、特征维度信息、特征命中数值信息、特征命中时间信息中的至少一种;
关联关系建立模块,用于建立各所述快照信息分别与各所述目标日志特征之间的关联关系;
关联关系存储模块,用于将所述关联关系存储于所述特征数据库。
4.根据权利要求3所述的系统,其特征在于,查询条件包括特征标识信息和/或特征维度信息,所述第一特征查找模块包括:
相关信息查找子模块,用于依据所述关联关系,在所述热存储数据库中查找与所述特征标识信息和/或特征维度信息匹配的第一日志特征的相关信息;
其中,所述相关信息包括特征命中数值信息、特征命中时间信息中的至少一种。
5.根据权利要求4所述的系统,其特征在于,所述目标特征存储子模块包括:
目标特征缓存子模块,用于将各所述目标日志特征缓存于流式消息队列对应的存储空间;
流任务启动子模块,用于启动与所述流式消息队列匹配的流任务;
目标特征冷存储子模块,用于依据所述流任务获取缓存于所述存储空间中的各所述目标日志特征,并依次将各所述目标日志特征持久化存储于所述冷存储数据库。
6.根据权利要求1所述的系统,其特征在于,还包括:
第二特征规则获取模块,用于获取经修改所述第一特征提取规则生成的第二特征提取规则;
第二日志特征提取模块,用于依据所述第二特征提取规则从所述数据源中提取至少一个第二日志特征;
第二日志特征保存模块,用于将所述至少一个第二日志特征保存于所述特征数据库。
7.根据权利要求1所述的系统,其特征在于,还包括:
第一报警信息生成模块,用于在所述第一日志特征的特征命中数目大于或等于所述第一特征命中阈值时,触发生成第一报警信息,并发出所述第一报警信息;或者,
第二报警信息生成模块,用于在所述第一日志特征的特征命中数目小于所述第二特征命中阈值时,触发生成第二报警信息,并发出所述第二报警信息;
其中,所述第一特征命中阈值大于所述第二特征命中阈值。
8.一种日志特征处理方法,其特征在于,包括:
依据预先配置的多个目标特征提取规则从数据源中提取多个目标日志特征;
将各所述目标日志特征存储于特征数据库;
在监测到特征查询指令时,依据查询条件,从所述特征数据库中查找与所述查询条件相匹配的第一日志特征;
对各所述第一日志特征进行检测,依据检测结果判断各所述第一日志特征是否符合特征命中数条件;
在各所述第一日志特征的部分或全部不符合所述特征命中数条件时,提取各所述第一日志特征中部分或全部不符合所述特征命中数条件的第一目标日志特征;
修改与所述第一目标日志特征对应的第一特征提取规则,并从所述特征数据库中清除所述第一目标日志特征;所述第一特征提取规则为所述多个目标特征提取规则中的一个规则。
9.根据权利要求8所述的方法,其特征在于,所述特征数据库包括热存储数据库和冷存储数据库,所述将各所述目标日志特征存储于特征数据库,包括:
将各所述目标日志特征缓存于所述热存储数据库,并将各所述目标日志特征持久化存储于所述冷存储数据库。
10.根据权利要求9所述的方法,其特征在于,在所述依据预先配置的多个目标特征提取规则从数据源中提取多个目标日志特征之后,还包括:
在提取各所述目标日志特征时,依据所述目标特征提取规则及提取时间,分别生成与各所述目标日志特征对应的快照信息;所述快照信息包括特征标识信息、特征维度信息、特征命中数值信息、特征命中时间信息中的至少一种;
建立各所述快照信息分别与各所述目标日志特征之间的关联关系;
将所述关联关系存储于所述特征数据库。
11.根据权利要求10所述的方法,其特征在于,查询条件包括特征标识信息和/或特征维度信息,所述依据查询条件,从所述特征数据库中查找与所述查询条件相匹配的第一日志特征,包括:
依据所述关联关系,在所述热存储数据库中查找与所述特征标识信息和/或特征维度信息匹配的第一日志特征的相关信息;
其中,所述相关信息包括特征命中数值信息、特征命中时间信息中的至少一种。
12.根据权利要求11所述的方法,其特征在于,所述将各所述目标日志特征持久化存储于冷存储数据库,包括:
将各所述目标日志特征缓存于流式消息队列对应的存储空间;
启动与所述流式消息队列匹配的流任务;
依据所述流任务获取缓存于所述存储空间中的各所述目标日志特征,并依次将各所述目标日志特征持久化存储于所述冷存储数据库。
13.根据权利要求8所述的方法,其特征在于,在所述修改与所述第一目标日志特征对应的第一特征提取规则之后,还包括:
获取经修改所述第一特征提取规则生成的第二特征提取规则;
依据所述第二特征提取规则从所述数据源中提取至少一个第二日志特征;
将所述至少一个第二日志特征保存于所述特征数据库。
14.根据权利要求8所述的方法,其特征在于,在所述依据检测结果判断各所述第一日志特征是否符合特征命中数条件之后,还包括:
在所述第一日志特征的特征命中数目大于或等于所述第一特征命中阈值时,触发生成第一报警信息,并发出所述第一报警信息;或者,
在所述第一日志特征的特征命中数目小于所述第二特征命中阈值时,触发生成第二报警信息,并发出所述第二报警信息;
其中,所述第一特征命中阈值大于所述第二特征命中阈值。
15.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求8至14中任一项所述的日志特征处理方法。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求8至14中任一项所述的日志特征处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910452919.7A CN110297846B (zh) | 2019-05-28 | 2019-05-28 | 一种日志特征处理系统、方法、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910452919.7A CN110297846B (zh) | 2019-05-28 | 2019-05-28 | 一种日志特征处理系统、方法、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110297846A true CN110297846A (zh) | 2019-10-01 |
CN110297846B CN110297846B (zh) | 2021-08-20 |
Family
ID=68027319
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910452919.7A Active CN110297846B (zh) | 2019-05-28 | 2019-05-28 | 一种日志特征处理系统、方法、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110297846B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111414613A (zh) * | 2020-03-18 | 2020-07-14 | 杭州迪普科技股份有限公司 | 一种日志处理的方法和装置 |
CN111651481A (zh) * | 2020-05-29 | 2020-09-11 | 泰康保险集团股份有限公司 | 日志处理方法、装置、设备及计算机可读存储介质 |
CN112597138A (zh) * | 2020-12-10 | 2021-04-02 | 浙江岩华文化科技有限公司 | 数据去重方法、装置、计算机设备和计算机可读存储介质 |
CN117176473A (zh) * | 2023-11-02 | 2023-12-05 | 北京创元天成科技发展有限公司 | 基于物联网的客户信息管理方法及系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102750326A (zh) * | 2012-05-30 | 2012-10-24 | 浪潮电子信息产业股份有限公司 | 一种基于精简策略的集群系统的日志管理优化方法 |
CN103226509A (zh) * | 2013-04-08 | 2013-07-31 | 上海华力微电子有限公司 | 一种系统日志自动分析的方法 |
CN104268064A (zh) * | 2014-09-11 | 2015-01-07 | 百度在线网络技术(北京)有限公司 | 产品日志的异常诊断方法和装置 |
CN106250494A (zh) * | 2016-08-02 | 2016-12-21 | 极道科技(北京)有限公司 | 一种基于文件系统的数据管理分析系统 |
WO2017010858A1 (es) * | 2015-07-15 | 2017-01-19 | Flores Samaniego Beatriz | Composición a base de extractos de heliopsis longipes y propolis para el control y/o eliminación de garrapatas |
CN109327546A (zh) * | 2018-11-21 | 2019-02-12 | Oppo(重庆)智能科技有限公司 | 一种访问ftp服务器的方法、客户端、mes及电子设备 |
CN109491847A (zh) * | 2018-11-07 | 2019-03-19 | 郑州云海信息技术有限公司 | 一种服务器高低温可靠性测试方法及装置 |
US20190108253A1 (en) * | 2017-10-09 | 2019-04-11 | Sap Se | Database Configuration Change Management |
CN109614417A (zh) * | 2018-10-30 | 2019-04-12 | 北京奇艺世纪科技有限公司 | 基于数据流的报表指标的显示方法、装置及终端 |
-
2019
- 2019-05-28 CN CN201910452919.7A patent/CN110297846B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102750326A (zh) * | 2012-05-30 | 2012-10-24 | 浪潮电子信息产业股份有限公司 | 一种基于精简策略的集群系统的日志管理优化方法 |
CN103226509A (zh) * | 2013-04-08 | 2013-07-31 | 上海华力微电子有限公司 | 一种系统日志自动分析的方法 |
CN104268064A (zh) * | 2014-09-11 | 2015-01-07 | 百度在线网络技术(北京)有限公司 | 产品日志的异常诊断方法和装置 |
WO2017010858A1 (es) * | 2015-07-15 | 2017-01-19 | Flores Samaniego Beatriz | Composición a base de extractos de heliopsis longipes y propolis para el control y/o eliminación de garrapatas |
CN106250494A (zh) * | 2016-08-02 | 2016-12-21 | 极道科技(北京)有限公司 | 一种基于文件系统的数据管理分析系统 |
US20190108253A1 (en) * | 2017-10-09 | 2019-04-11 | Sap Se | Database Configuration Change Management |
CN109614417A (zh) * | 2018-10-30 | 2019-04-12 | 北京奇艺世纪科技有限公司 | 基于数据流的报表指标的显示方法、装置及终端 |
CN109491847A (zh) * | 2018-11-07 | 2019-03-19 | 郑州云海信息技术有限公司 | 一种服务器高低温可靠性测试方法及装置 |
CN109327546A (zh) * | 2018-11-21 | 2019-02-12 | Oppo(重庆)智能科技有限公司 | 一种访问ftp服务器的方法、客户端、mes及电子设备 |
Non-Patent Citations (1)
Title |
---|
吉星等: "基于日志信息的DNS查询异常检测算法", 《北京邮电大学学报》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111414613A (zh) * | 2020-03-18 | 2020-07-14 | 杭州迪普科技股份有限公司 | 一种日志处理的方法和装置 |
CN111414613B (zh) * | 2020-03-18 | 2023-12-26 | 杭州迪普科技股份有限公司 | 一种日志处理的方法和装置 |
CN111651481A (zh) * | 2020-05-29 | 2020-09-11 | 泰康保险集团股份有限公司 | 日志处理方法、装置、设备及计算机可读存储介质 |
CN111651481B (zh) * | 2020-05-29 | 2023-08-22 | 泰康保险集团股份有限公司 | 日志处理方法、装置、设备及计算机可读存储介质 |
CN112597138A (zh) * | 2020-12-10 | 2021-04-02 | 浙江岩华文化科技有限公司 | 数据去重方法、装置、计算机设备和计算机可读存储介质 |
CN117176473A (zh) * | 2023-11-02 | 2023-12-05 | 北京创元天成科技发展有限公司 | 基于物联网的客户信息管理方法及系统 |
CN117176473B (zh) * | 2023-11-02 | 2024-01-09 | 北京创元天成科技发展有限公司 | 基于物联网的客户信息管理方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110297846B (zh) | 2021-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110297846B (zh) | 一种日志特征处理系统、方法、电子设备及存储介质 | |
CN108259482B (zh) | 网络异常数据检测方法、装置、计算机设备及存储介质 | |
CN112114995B (zh) | 基于进程的终端异常分析方法、装置、设备及存储介质 | |
CN108989150B (zh) | 一种登录异常检测方法及装置 | |
CN108881263B (zh) | 一种网络攻击结果检测方法及系统 | |
CN105184159B (zh) | 网页篡改的识别方法和装置 | |
CN108683687B (zh) | 一种网络攻击识别方法及系统 | |
CN110581827B (zh) | 一种针对于暴力破解的检测方法及装置 | |
CN104836781B (zh) | 区分访问用户身份的方法及装置 | |
CN110620759A (zh) | 基于多维关联的网络安全事件危害指数评估方法及其系统 | |
IL257849B1 (en) | Systems and methods for detecting and scoring anomalies | |
US10110616B1 (en) | Using group analysis to determine suspicious accounts or activities | |
CN106549959B (zh) | 一种代理网际协议ip地址的识别方法及装置 | |
CN110602029A (zh) | 一种用于识别网络攻击的方法和系统 | |
CN108156141B (zh) | 一种实时数据识别方法、装置及电子设备 | |
CN105262730B (zh) | 基于企业域名安全的监控方法及装置 | |
US7984501B2 (en) | Component-oriented system and method for web application security analysis | |
JP2016192185A (ja) | なりすまし検出システムおよびなりすまし検出方法 | |
CN110135162A (zh) | Webshell后门识别方法、装置、设备及存储介质 | |
CN109561097A (zh) | 结构化查询语言注入安全漏洞检测方法、装置、设备及存储介质 | |
CN114257403B (zh) | 误报检测方法、设备及可读存储介质 | |
CN109005181B (zh) | 一种dns放大攻击的检测方法、系统及相关组件 | |
CN115174205A (zh) | 一种网络空间安全实时监测方法、系统及计算机存储介质 | |
US10110440B2 (en) | Detecting network conditions based on derivatives of event trending | |
WO2021262344A1 (en) | Method and apparatus to detect scripted network traffic |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |