CN110908858B - 基于双漏斗结构的日志类样本抽样方法及相关装置 - Google Patents
基于双漏斗结构的日志类样本抽样方法及相关装置 Download PDFInfo
- Publication number
- CN110908858B CN110908858B CN201910965762.8A CN201910965762A CN110908858B CN 110908858 B CN110908858 B CN 110908858B CN 201910965762 A CN201910965762 A CN 201910965762A CN 110908858 B CN110908858 B CN 110908858B
- Authority
- CN
- China
- Prior art keywords
- pieces
- log
- log data
- risk
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3065—Monitoring arrangements determined by the means or processing involved in reporting the monitored data
- G06F11/3072—Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明实施例提供了一种基于双漏斗结构的日志类样本抽样方法,包括:接收日志文件;按照预设初筛规则对所述日志文件进行初步筛选;通过双漏斗对初步筛选后的所述日志文件进行过滤,得到样本数据,所述双漏斗包括风险要素漏斗和价值度漏斗;对所述样本数据进行统计加工,生成样本报告;通过该日志类样本抽样方法,能够高效筛选出最具价值的风险样本,缩短问题发现周期、提高问题发现精度,提高日志类样本的抽样有效性。
Description
技术领域
本发明涉及数据处理领域,具体涉及一种基于双漏斗结构的日志类样本抽样方法及相关装置。
背景技术
传统日志分析工作主要使用人工或脚本进行定量或半定量分析的审计方法,其中,在样本的选择与具体样本分析工作中,普遍使用随机抽样或低密度条件抽样方法,该方法主要存在以下不足:1、样本有效性不足,2、存在抽样风险与审计风险,3、样本存在样本滞后性,4、缺乏对样本价值及复杂条件分析的考量,难以对复杂条件进行分析。
发明内容
本发明实施例提供了一种基于双漏斗结构的日志类样本抽样方法及相关装置,能够高效筛选出最具价值的风险样本,缩短问题发现周期、提高问题发现精度,提高日志类样本的抽样有效性。
本发明实施例第一方面公开了一种基于双漏斗结构的日志类样本抽样方法,所述方法包括:
接收日志文件;
按照预设初筛规则对所述日志文件进行初步筛选;
通过双漏斗对初步筛选后的所述日志文件进行过滤,得到样本数据,所述双漏斗包括风险要素漏斗和价值度漏斗;
对所述样本数据进行统计加工,生成样本报告。
本发明第二方面公开了一种日志类样本抽样装置,所述日志类样本抽样装置包括:
接收单元,用于接收日志文件;
筛选单元,用于按照预设初筛规则对所述日志文件进行初步筛选;
过滤单元,用于通过双漏斗对初步筛选后的所述日志文件进行过滤,得到样本数据;
输出单元,用于对所述样本数据进行统计加工,生成样本报告。
本发明第三方面公开了一种电子设备,包括处理器、存储器、通信接口,以及一个或多个程序,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行,所述程序包括用于执行第一方面任一项所述的方法。
本发明第四方面公开了一种计算机可读存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序被处理器执行,以实现如第一方面任一项所述的方法。
本发明实施例的方案中,接收日志文件;按照预设初筛规则对所述日志文件进行初步筛选;通过双漏斗对初步筛选后的所述日志文件进行过滤,得到样本数据,所述双漏斗包括风险要素漏斗和价值度漏斗;对所述样本数据进行统计加工,生成样本报告;通过该日志类样本抽样方法,能够高效筛选出最具价值的风险样本,缩短问题发现周期、提高问题发现精度,提高日志类样本的抽样有效性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于双漏斗结构的日志类样本抽样方法的流程示意图;
图2为本申请实施例提供的一种电子设备的结构示意图;
图3为本申请实施例提供的一种日志类样本抽样装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
本发明说明书、权利要求书和附图中出现的术语“第一”、“第二”和“第三”等是用于区别不同的对象,而并非用于描述特定的顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本申请实施例所涉及到的电子设备可以包括各种具有无线通信功能的手持设备、车载设备、无线耳机、计算设备或连接到无线调制解调器的其他处理设备,以及各种形式的用户设备(user equipment,UE),移动台(mobile station,MS),终端设备(terminaldevice)等等,电子设备例如可以为智能手机、平板电脑、耳机盒等等。为方便描述,上面提到的设备统称为电子设备。
下面对本申请实施例进行详细介绍。
请参阅图1,图1为本申请实施例提供的一种基于双漏斗结构的日志类样本抽样方法的流程示意图,包括:
101,接收日志文件。
其中,本申请中的日志类样本抽样方法主要用于信息安全审计工作中,日志(log)是用于展示某些事件全貌的日志消息的集合。日志数据(log data)就是一条日志消息的内在含义。日志审计是通过集中采集系统中的系统安全事件、用户访问记录、系统运行日志、系统运行状态等各类日志信息,经过规范化、过滤、归并和告警分析等预处理后,进行集中存储和管理,结合日志数据统计汇总及关联分析功能,实现对系统日志数据的全面审计。
所述日志文件通过日志记录入口模块输入,日志记录入口模块支持目前使用范围最广的各类系统层、操作层日志格式,包括“.txt”、“.log”等。
102,按照预设初筛规则对所述日志文件进行初步筛选。
其中,通过日志记录入口模块对所述日志文件进行初步筛选,预设初筛规则包括日志格式校验,日志字段识别和清洗脏数据,其中,清洗脏数据为可选功能,可根据实际需要确认是否选用。
103,通过双漏斗对初步筛选后的所述日志文件进行过滤,得到样本数据,所述双漏斗包括风险要素漏斗和价值度漏斗。
其中,通过设置包含所述风险要素漏斗和所述价值度漏斗的双漏斗多层滤网模型,并在每个漏斗结构中设置多层模块化条件规则集作为滤网,通过双漏斗多层滤网模型对所述日志文件进行筛选。
104,对所述样本数据进行统计加工,生成样本报告。
其中,所述样本数据即为高价值度样本,在生成所述样本报告后通过可视化交互界面进行显示。
其中,本实施例中所提出的日志类样本抽样方法以及双漏斗多层滤网模型向下可通过技术门槛相对较低的VB环境实现简易版产品功能,向上可通过Python或其他机器语言实现功能更加完善的产品化工具,可见其可落地性强;该日志类样本抽样方法主要用于安全审计的审计抽样测试环节,对审计流程的上下游环节有较强的衔接、支撑作用,可见,其可应用型强;该双漏斗多层滤网模型可以应用在目前市面上的大多数计算机辅助审计工具,如ACL、金蝶、用友等,也可应用在大部分行业的安全审计或IT审计业务场景中,可见,其应用场景丰富。通过本日志类样本抽样方法可以优化审计资源配置,将审计资源向高风险、高价值的问题样本进行倾斜,从而节省大量抽样分析时间,避免无产出的审计测试,最大程度减缓了因传统抽样审计方法带来的遗漏、误判问题样本的审计风险。此外,本申请实施例中所提及的日志记录入口模块、洗数模块、条件模块和样本加工模块均属于日志类样本抽样装置。
可以看出,在本申请实施例中,接收日志文件;对所述日志文件进行初步筛选;通过双漏斗对初步筛选后的所述日志文件进行过滤,得到样本数据,所述双漏斗包括风险要素漏斗和价值度漏斗;按照预设初筛规则对所述样本数据进行统计加工,生成样本报告;通过该日志类样本抽样方法,能够高效筛选出最具价值的风险样本,缩短问题发现周期、提高问题发现精度,提高日志类样本的抽样有效性。
可选的,所述对所述日志文件进行初步筛选包括:
对所述日志文件进行格式校验;
根据预设条件从所述第一数据表中筛选出m条日志数据,m为小于n的正整数;
对所述m条日志数据进行清洗,得到s条日志数据,s为小于m的正整数。
其中,格式校验包括检查输入的日志文件格式,阻拦非日志格式文件,若所述日志文件通过格式校验,将所述日志文件导入到数据表中,所述预设条件包括分隔符分列、TAB分列、固定宽度分列等,根据预设条件对所述数据表中列首的字段信息进行识别并对所述日志文件进行筛选,例如可根据分隔符分列中的连接号“_”将“user_id”、“session_id”、“operation_ip”等字段分为两部分,筛选出连接号“_”前面的部分或者后面的部分,再做下一步处理,如筛选的是“_”后面的部分,可再从中选取后面部分为“id”的数据。因为将所述日志文件导入数据表时,可能夹杂乱码、未赋值字段或其他可能干扰正常数据可用性的脏数据,所以还需要对所述日志文件进行清洗剔除,例如设定数据表中的数据格式为ASCII,当输入UTF-8类型的数据文件产生乱码时,通过洗数模块拦阻相关数据,又如当数据表中含有大量空字段时,为避免干扰条件模型性能,洗数模块将拦阻该数据表的加载动作,为避免误删关键数据,用户可手动关闭该功能,选择不清洗数据。
可见,通过对日志文件进行初步筛选可以初步去除不合规范的日志文件,减轻后续数据处理压力。
可选的,所述双漏斗包括风险要素漏斗和价值度漏斗,所述通过双漏斗对初步筛选后的所述日志文件进行过滤,得到样本数据包括:
通过所述风险要素漏斗中的至少一层风险要素评估滤网对所述s条日志数据进行至少一次条件过滤,得到b条日志数据,b为小于s的正整数;
将所述b条日志数据输入所述价值度漏斗中,通过所述价值度漏斗中的风险维度价值滤网和非风险维度价值滤网对所述b条日志数据进行过滤,得到所述样本数据,所述样本数据包括c条日志数据,c为小于b的正整数。
其中,所述风险要素漏斗包括滤网栅格和标准化可配置条件模块,滤网栅格用于接入单个或多个条件模块,例如在VB环境下接入通过“Sub audit_opr_time”构建的针对操作时间字段的条件模块,同属性的多个条件模块可构成一层风险要素评估滤网。
将经过所述风险要素漏斗过滤的日志文件输入所述价值度漏斗中,通过所述价值度漏斗中设置的价值条件对输入的日志文件进行筛选,得到高价值度样本即所述样本数据,预设的价值条件为“0<hour(opr_time)<6”,则当输入日志满足该条件即操作时间为凌晨0至6点时,认为是高价值度样本,从而保留。可见,价值条件在所述风险要素漏斗中的作用相当于滤网,可设置多层价值条件评估滤网,通过多层价值条件评估滤网筛选日志数据得到符合价值条件的样本,并按价值度高低对样本进行排序。其中,典型的,多层价值条件评估滤网可分为所述风险维度价值滤网及所述非风险维度价值滤网两种,所述风险维度价值滤网主要包含频率条件模块和影响程度条件模块,若某用户ID操作频率高,且外发数据量大,根据频率条件模块的价值条件判断,此用户相关的日志文件为高价值度样本;所述非风险维度价值滤网的筛选标准主要考虑高价值人员、敏感节点、和核心环节等因素,例如可接触到高价值数据的相关人员与设备、负责敏感数据流转节点的相关人员与设备、核心业务环节的相关人员与设备等都是高价值度样本,经过所述风险维度价值滤网或所述非风险维度价值滤网过滤后,判断为高价值度样本的日志文件即高风险性样本,根据其风险高低赋予相关日志文件对应的风险标签。
例如:某公司需对ABC三个系统的操作日志进行安全审计,其日志条数共1000万条,传统方法为从操作日志中随机抽取2%即20万条随机样本进一步分析,但其余98%的日志数据仍存在未被发现的风险的可能性,在风险要素漏斗中分别从人、时间、动作三个维度设置滤网,通过“user_id/user_type/user_group”等操作人相关字段、“operation_time/time_login/time_logoff”等时间相关字段、“opr_type”等操作动作类型字段,设置多层风险要素评估滤网,通过各层滤网的条件模块对样本进行筛选,输出筛选后的样本数据,发现有5万条日志数据存在安全风险的可能性较高,将5万条日志数据输入价值度漏斗进行价值度判断后,发现其中有2000条日志满足高价值(风险度较高)要求。
可见,通过双漏斗中的多层滤网对所述日志文件进行多级过滤,可以快速筛选出满足要求的数据,漏斗中条件模块可自由组合,满足多种需求,适应多种场合。
可选的,若所述风险要素评估滤网包括第一风险要素评估滤网和第二风险要素评估滤网,所述第一风险要素评估滤网包括p个第一条件模块构成,所述第二风险要素评估滤网包括q个第二条件模块,p、q为正整数,所述通过所述风险要素漏斗中的至少一层风险要素评估滤网对所述s条日志数据进行至少一次条件过滤,得到b条日志数据包括:
通过所述第一风险要素评估滤网中的所述p个第一条件模块对所述s条日志数据进行一次条件过滤,得到a条日志数据,a为小于b的正整数,并生成第一风险矩阵Aap,所述第一风险矩阵Aap的(r,t)元为所述p个第一条件模块中第t个第一条件模块对所述a条日志数据中第r条日志数据的风险评分,r、t为正整数,r≤a,t≤p;
通过所述第二风险要素评估滤网中的所述q个第二条件模块对所述a条日志数据进行二次条件过滤,得到所述b条日志数据。
其中,第一风险矩阵Aap由a维向量组成,每维向量有p个元素,每个元素代表与之对应的日志数据在对应的第一条件模块下得到的风险评分,第一条件模块和第二条件模块均为标准化可配置条件模块,其可包括一致性分析条件模块、异常值分析条件模块、离散值分析条件模块、回归分析条件模块、趋势分析条件模块等条件模块,从上述标准化可配置条件模块中选取若干条件模块构成模块化条件规则集,即组合成所述第一风险要素评估滤网,可对所述s条日志数据进行一次条件过滤,此外,可根据条件模块的不同属性,组成多层滤网对所述s条日志数据进行多次条件过滤,例如,所述第一风险要素评估滤网为访问控制滤网层,所述第一风险要素评估滤网通过登录时间、操作频率、登出时间等第一条件模块对所述s条日志数据进行过滤,所述第二风险要素评估滤网为角色权限滤网层,得到所述a条日志数据,所述第二风险要素评估滤网通过角色权限、系统角色矩阵、互斥权限矩阵等所述第二条件模块对所述a条日志数据进行二次过滤,通过上述两层滤网,可实现对“具有互斥权限且于凌晨访问并保持持续低频操作”的日志文件的强针对性筛选。
可见,通过所述多层风险要素评估滤网对日志文件进行多次条件过滤可以尽早发现有风险的日志数据,减少发现风险所需时间,提高审计的安全性。
可选的,在所述通过所述第二风险要素评估滤网中的所述q个第二条件模块对所述a条日志数据进行二次条件过滤,得到所述b条日志数据之后,所述方法还包括:
根据所述第一风险矩阵Aap生成第二风险矩阵Bb(p+q),所述第二风险矩阵Bb(p+q)的(x,y)元为所述p个第一条件模块和所述q个第二条件模块中第x个条件模块对所述b条日志数据中第y条日志数据的风险评分,x、y为正整数,x≤b,y≤q。
其中,在经过二次条件过滤之后,得到所述第二风险矩阵Bb(p+q),第二风险矩阵由b维向量组成,b维向量分别代表所述b条日志数据,每维向量有(p+q)个元素,每维向量的(p+q)个元素分别代表对应的日志数据在所述p个第一条件模块和所述q个第二条件模块中每个模块下所得到的风险评分,即为所述风险要素漏斗对该条日志数据在不同条件下的风险评分的集合。可选的,还可根据所述第二风险矩阵得到所述b条日志数据的b个综合风险评分,在所述b条日志数据经过所述价值度漏斗过滤后,得到所述c条日志数据,相应的,得到c个综合风险评分。
可见,通过所述第二风险矩阵Bb(p+q)可以将各条日志数据的风险程度在不同条件下进行量化,使高风险性日志数据更容易被发现。
可选的,在所述将所述b条日志数据输入所述价值度漏斗中,通过所述价值度漏斗中的风险维度价值滤网和非风险维度价值滤网对所述b条日志数据进行过滤,得到所述样本数据之后,所述方法还包括:
通过价值度标尺对所述c条日志数据进行评估,得到所述c条日志数据的c个价值度。
其中,价值度标尺单位分为高中低三个价值类型,通过价值度标尺对所述c条日志数据进行价值度评判,其评判标准可选用系统中设置好的评判标准,也可由用户预先设定。
可见,通过所述价值度标尺可以获得所述样本数据的价值度,并根据价值度高低对所述样本数据进行排序,优先显示高价值的日志样本,从而让用户对所述样本数据的价值进行直观的判断。
可选的,所述对所述样本数据进行统计加工,生成样本报告包括:
将所述c条日志数据转化为统一格式;
根据所述第二风险矩阵Bb(P+Q)和所述c个价值度对所述c条日志数据排序;
根据预设规则确定所述c条日志数据中的可疑样本,并对所述可疑样本进行标注;
根据所述可疑样本生成所述样本报告。
其中,为便于统计分析和可视化展示,将经过双漏斗过滤得到的所述样本数据即高价值度样本导入样本加工模块进一步加工,即将高价值度样本转化为统一格式,例如要统一成如下的日志格式:[{系统}|{模块}]{描述}[param1=value1$param2=value2],则可先自定义注解类声明所属的{系统}和{模块},然后通过AOP(面向切面编程)的方式,在每条日志数据前中插入[{系统}|{模块}]的前缀。一般的,风险程度高的价值度也更高,根据风险程度与价值度对所述c条日志数据进行综合排序,预设规则可以是选取所述c条日志数据中的前g条数据,g为小于c的正整数,预设规则也可以是选取所述c条日志数据中综合风险评分高于预设值的前k条数据,g为小于c的正整数,本申请对具体的预设规则不做限定。根据所述可疑样本生成表单形式的所述样本报告,并通过可视化交互界面输出所述样本报告,如出现率最高的ip地址top10%、user_id top10%,source_type top10%等,其中,可在表单中提供警示线,供安全审计人员进一步进行审计测试和挖掘分析。
在一个具体的场景中,如:在上一个示例中,安全审计人员观察到存在150条高价值样本属于凌晨0~6点的夜间操作,且其中有100条属于同一user_id进行操作,通过对该样本进一步挖掘,发现该用户属于某机构保险代理人,利用夜间频繁批量违规导出系统中的敏感客户信息。因处置及时,第一时间发现了违规行为,并阻止了风险蔓延和扩大,保障了组织信息资产及商誉的安全。
可见,本实施例可以大大减少需要处理的数据量,快速定位高风险性操作日志,提高审计安全性。
请参阅图2,图2为本申请实施例提供的一种电子设备的结构示意图,如图所示,包括处理器、存储器、通信接口,以及一个或多个程序,所述程序被存储在所述存储器中,并且被配置由所述处理器执行。
可选的,所述程序包括用于执行以下步骤的指令:
接收日志文件;
按照预设初筛规则对所述日志文件进行初步筛选;
通过双漏斗对初步筛选后的所述日志文件进行过滤,得到样本数据,所述双漏斗包括风险要素漏斗和价值度漏斗;
对所述样本数据进行统计加工,生成样本报告。
可选的,所述日志文件包括n条日志数据,n为正整数,在所述按照预设初筛规则对所述日志文件进行初步筛选方面,所述程序包括用于执行以下步骤的指令:
对所述日志文件进行格式校验;
若格式校验通过,生成第一数据表,所述第一数据表包括所述n条日志数据;
根据预设条件从所述第一数据表中筛选出m条日志数据,m为小于n的正整数;
对所述m条日志数据进行清洗,得到s条日志数据,s为小于m的正整数。
可选的,所述双漏斗包括风险要素漏斗和价值度漏斗,在所述通过双漏斗对初步筛选后的所述日志文件进行过滤,得到样本数据方面,所述程序包括用于执行以下步骤的指令:
通过所述风险要素漏斗中的至少一层风险要素评估滤网对所述s条日志数据进行至少一次条件过滤,得到b条日志数据,b为小于s的正整数;
将所述b条日志数据输入所述价值度漏斗中,通过所述价值度漏斗中的风险维度价值滤网和非风险维度价值滤网对所述b条日志数据进行过滤,得到所述样本数据,所述样本数据包括c条日志数据,c为小于b的正整数。
可选的,若所述风险要素评估滤网包括第一风险要素评估滤网和第二风险要素评估滤网,所述第一风险要素评估滤网包括p个第一条件模块构成,所述第二风险要素评估滤网包括q个第二条件模块,p、q为正整数,在所述通过所述风险要素漏斗中的至少一层风险要素评估滤网对所述s条日志数据进行至少一次条件过滤,得到b条日志数据方面,所述程序包括用于执行以下步骤的指令:
通过所述第一风险要素评估滤网中的所述p个第一条件模块对所述s条日志数据进行一次条件过滤,得到a条日志数据,a为小于b的正整数,并生成第一风险矩阵Aap,所述第一风险矩阵Aap的(r,t)元为所述p个第一条件模块中第t个第一条件模块对所述a条日志数据中第r条日志数据的风险评分,r、t为正整数,r≤a,t≤p;
通过所述第二风险要素评估滤网中的所述q个第二条件模块对所述a条日志数据进行二次条件过滤,得到所述b条日志数据。
可选的,在所述通过所述第二风险要素评估滤网中的所述q个第二条件模块对所述a条日志数据进行二次条件过滤,得到所述b条日志数据之后,所述程序包括用于执行以下步骤的指令:
根据所述第一风险矩阵Aap生成第二风险矩阵Bb(p+q),所述第二风险矩阵Bb(p+q)的(x,y)元为所述p个第一条件模块和所述q个第二条件模块中第x个条件模块对所述b条日志数据中第y条日志数据的风险评分,x、y为正整数,x≤b,y≤q。
上述主要从方法执行过程的角度对本申请实施例的方案进行了介绍。可以理解的是,终端为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所提供的实施例描述的各示例的单元及算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例可以根据上述方法示例对终端进行功能单元的划分,例如,可以对应各个功能划分各个功能单元,也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。需要说明的是,本申请实施例中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
与上述一致的,请参阅图3,图3为本申请实施例提供的一种日志类样本抽样装置300的结构示意图。所述装日志类样本抽样装置300包括接收单元301、筛选单元302、过滤单元303、输出单元304,其中:
所述接收单元301,用于接收日志文件;
所述筛选单元302,用于按照预设初筛规则对所述日志文件进行初步筛选;
所述过滤单元303,用于通过双漏斗对初步筛选后的所述日志文件进行过滤,得到样本数据;
所述输出单元304,用于对所述样本数据进行统计加工,生成样本报告;
可选的,所述日志文件包括n条日志数据,n为正整数,在所述按照预设初筛规则对所述日志文件进行初步筛选方面,所述筛选单元302具体用于:
对所述日志文件进行格式校验;
若格式校验通过,生成第一数据表,所述第一数据表包括所述n条日志数据;
根据预设条件从所述第一数据表中筛选出m条日志数据,m为小于n的正整数;
对所述m条日志数据进行清洗,得到s条日志数据,s为小于m的正整数。
可选的,所述双漏斗包括风险要素漏斗和价值度漏斗,在所述通过双漏斗对初步筛选后的所述日志文件进行过滤,得到样本数据方面,所述过滤单元303具体用于:
通过所述风险要素漏斗中的至少一层风险要素评估滤网对所述s条日志数据进行至少一次条件过滤,得到b条日志数据,b为小于s的正整数;
将所述b条日志数据输入所述价值度漏斗中,通过所述价值度漏斗中的风险维度价值滤网和非风险维度价值滤网对所述b条日志数据进行过滤,得到所述样本数据,所述样本数据包括c条日志数据,c为小于b的正整数。
可选的,若所述风险要素评估滤网包括第一风险要素评估滤网和第二风险要素评估滤网,所述第一风险要素评估滤网包括p个第一条件模块构成,所述第二风险要素评估滤网包括q个第二条件模块,p、q为正整数,在所述通过所述风险要素漏斗中的至少一层风险要素评估滤网对所述s条日志数据进行至少一次条件过滤,得到b条日志数据方面,所述过滤单元303具体用于:
通过所述第一风险要素评估滤网中的所述p个第一条件模块对所述s条日志数据进行一次条件过滤,得到a条日志数据,a为小于b的正整数,并生成第一风险矩阵Aap,所述第一风险矩阵Aap的(r,t)元为所述p个第一条件模块中第t个第一条件模块对所述a条日志数据中第r条日志数据的风险评分,r、t为正整数,r≤a,t≤p;
通过所述第二风险要素评估滤网中的所述q个第二条件模块对所述a条日志数据进行二次条件过滤,得到所述b条日志数据。
可选的,在所述通过所述第二风险要素评估滤网中的所述q个第二条件模块对所述a条日志数据进行二次条件过滤,得到所述b条日志数据之后,所述过滤单元303还用于:
根据所述第一风险矩阵Aap生成第二风险矩阵Bb(p+q),所述第二风险矩阵Bb(p+q)的(x,y)元为所述p个第一条件模块和所述q个第二条件模块中第x个条件模块对所述b条日志数据中第y条日志数据的风险评分,x、y为正整数,x≤b,y≤q。
可选的,在所述将所述b条日志数据输入所述价值度漏斗中,通过所述价值度漏斗中的风险维度价值滤网和非风险维度价值滤网对所述b条日志数据进行过滤,得到所述样本数据之后,所述过滤单元303还用于:
通过价值度标尺对所述c条日志数据进行评估,得到所述c条日志数据的c个价值度。
可选的,在所述对所述样本数据进行统计加工,生成样本报告方面,所述输出单元304具体用于:
将所述c条日志数据转化为统一格式;
根据所述第二风险矩阵Bb(P+Q)和所述c个价值度对所述c条日志数据排序;
根据预设规则确定所述c条日志数据中的可疑样本,并对所述可疑样本进行标注;
根据所述可疑样本生成所述样本报告。
其中,上述单元可以用于执行上述实施例中所述的方法,具体描述详见实施例的描述,在此不再赘述。
在本申请实施例中,接收日志文件;按照预设初筛规则对所述日志文件进行初步筛选;通过双漏斗对初步筛选后的所述日志文件进行过滤,得到样本数据,所述双漏斗包括风险要素漏斗和价值度漏斗;对所述样本数据进行统计加工,生成样本报告;通过该日志类样本抽样方法,能够高效筛选出最具价值的风险样本,缩短问题发现周期、提高问题发现精度,提高日志类样本的抽样有效性。
本申请实施例还提供一种计算机可读存储介质,存储用于电子数据交换的计算机程序,该计算机程序使得计算机执行如上述方法实施例中记载的任何一种基于双漏斗结构的日志类样本抽样方法的部分或全部步骤。
本申请实施例还提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,该计算机程序使得计算机执行如上述方法实施例中记载的任何一种基于双漏斗结构的日志类样本抽样方法的部分或全部步骤。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。
Claims (10)
1.一种基于双漏斗结构的日志类样本抽样方法,其特征在于,所述方法包括:
接收日志文件;
按照预设初筛规则对所述日志文件进行初步筛选,得到s条日志数据;
通过双漏斗对所述s条日志数据进行过滤,得到样本数据,其中,所述双漏斗包括风险要素漏斗和价值度漏斗;
所述通过双漏斗对所述s条日志数据进行过滤,得到样本数据,具体包括:
通过所述风险要素漏斗中的第一风险要素评估过滤网中的p个第一条件模块对所述s条日志数据进行一次条件过滤,得到a条日志数据,a为小于s的正整数,p为正整数,所述p个第一条件模块的属性相同;
通过所述风险要素漏斗中的第二风险要素评估滤网中的q个第二条件模块对所述a条日志数据进行二次条件过滤,得到b条日志数据,q为正整数,所述q个第二条件模块的属性相同;
将所述b条日志数据输入所述价值度漏斗中,通过所述价值度漏斗中的风险维度价值滤网和非风险维度价值滤网对所述b条日志数据进行过滤,得到所述样本数据;
对所述样本数据进行统计加工,生成样本报告。
2.根据权利要求1所述的方法,其特征在于,所述日志文件包括n条日志数据,n为正整数,所述对所述日志文件进行初步筛选,得到s条日志数据,包括:
对所述日志文件进行格式校验;
若格式校验通过,生成第一数据表,所述第一数据表包括所述n条日志数据;
根据预设条件从所述第一数据表中筛选出m条日志数据,m为小于n的正整数;
对所述m条日志数据进行清洗,得到所述s条日志数据,s为小于m的正整数。
3.根据权利要求1或2所述的方法,其特征在于,
所述样本数据包括c条日志数据,c为小于b的正整数。
4.根据权利要求3所述的方法,其特征在于,在所述通过所述风险要素漏斗中的第一风险要素评估过滤网中的p个第一条件模块对所述s条日志数据进行一次条件过滤,得到a条日志数据之后,所述方法还包括:
生成第一风险矩阵Aap,所述第一风险矩阵Aap的(r,t)元为所述p个第一条件模块中第t个第一条件模块对所述a条日志数据中第r条日志数据的风险评分,r、t为正整数,r≤a,t≤p。
5.根据权利要求4所述的方法,其特征在于,在所述通过所述风险要素漏斗中的第二风险要素评估滤网中的q个第二条件模块对所述a条日志数据进行二次条件过滤,得到b条日志数据之后,所述方法还包括:
根据所述第一风险矩阵Aap生成第二风险矩阵Bb(p+q),所述第二风险矩阵Bb(p+q)的(x,y)元为所述p个第一条件模块和所述q个第二条件模块中第x个条件模块对所述b条日志数据中第y条日志数据的风险评分,x、y为正整数,x≤b,y≤q。
6.根据权利要求5所述的方法,其特征在于,在所述将所述b条日志数据输入所述价值度漏斗中,通过所述价值度漏斗中的风险维度价值滤网和非风险维度价值滤网对所述b条日志数据进行过滤,得到所述样本数据之后,所述方法还包括:
通过价值度标尺对所述c条日志数据进行评估,得到所述c条日志数据的c个价值度。
7.根据权利要求6所述的方法,其特征在于,所述对所述样本数据进行统计加工,生成样本报告包括:
将所述c条日志数据转化为统一格式;
根据所述第二风险矩阵Bb(P+Q)和所述c个价值度对所述c条日志数据排序;
根据预设规则确定所述c条日志数据中的可疑样本,并对所述可疑样本进行标注;
根据所述可疑样本生成所述样本报告。
8.一种日志类样本抽样装置,其特征在于,所述日志类样本抽样装置包括:
接收单元,用于接收日志文件;
筛选单元,用于按照预设初筛规则对所述日志文件进行初步筛选,得到s条日志数据;
过滤单元,用于通过双漏斗对所述s条日志数据进行过滤,得到样本数据,其中,所述双漏斗包括风险要素漏斗和价值度漏斗;
所述通过双漏斗对所述s条日志数据进行过滤,得到样本数据,具体包括:
通过所述风险要素漏斗中的第一风险要素评估过滤网中的p个第一条件模块对所述s条日志数据进行一次条件过滤,得到a条日志数据,a为小于s的正整数,p为正整数,所述p个第一条件模块的属性相同;
通过所述风险要素漏斗中的第二风险要素评估滤网中的q个第二条件模块对所述a条日志数据进行二次条件过滤,得到b条日志数据,q为正整数,所述q个第二条件模块的属性相同;
将所述b条日志数据输入所述价值度漏斗中,通过所述价值度漏斗中的风险维度价值滤网和非风险维度价值滤网对所述b条日志数据进行过滤,得到所述样本数据;
输出单元,用于对所述样本数据进行统计加工,生成样本报告。
9.一种电子设备,其特征在于,包括处理器、存储器、通信接口,以及一个或多个程序,所述程序被存储在所述存储器中,并且被配置由所述处理器执行,所述程序包括用于执行如权利要求1-7任一项所述的方法中的步骤的指令。
10.一种计算机可读存储介质,其特征在于,存储用于电子数据交换的计算机程序,其中,所述计算机程序使得计算机执行如权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910965762.8A CN110908858B (zh) | 2019-10-12 | 2019-10-12 | 基于双漏斗结构的日志类样本抽样方法及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910965762.8A CN110908858B (zh) | 2019-10-12 | 2019-10-12 | 基于双漏斗结构的日志类样本抽样方法及相关装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110908858A CN110908858A (zh) | 2020-03-24 |
CN110908858B true CN110908858B (zh) | 2022-10-25 |
Family
ID=69815287
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910965762.8A Active CN110908858B (zh) | 2019-10-12 | 2019-10-12 | 基于双漏斗结构的日志类样本抽样方法及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110908858B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112163861B (zh) * | 2020-09-29 | 2023-09-15 | 中国工商银行股份有限公司 | 交易风险要素特征提取方法及装置 |
CN114758430B (zh) * | 2020-12-29 | 2024-08-23 | 深圳绿米联创科技有限公司 | 门锁管理系统、智能门锁、网关设备、云设备及用户终端 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7028338B1 (en) * | 2001-12-18 | 2006-04-11 | Sprint Spectrum L.P. | System, computer program, and method of cooperative response to threat to domain security |
CN104376023A (zh) * | 2013-08-16 | 2015-02-25 | 北京神州泰岳软件股份有限公司 | 一种基于日志的审计方法及系统 |
CN108985053A (zh) * | 2018-06-27 | 2018-12-11 | 北京奇安信科技有限公司 | 分布式数据处理方法及装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7475401B1 (en) * | 2003-12-30 | 2009-01-06 | Sap Ag | Filtered unified logging service |
CN104699717B (zh) * | 2013-12-10 | 2019-01-18 | 中国银联股份有限公司 | 数据挖掘方法 |
CN106484709A (zh) * | 2015-08-26 | 2017-03-08 | 北京神州泰岳软件股份有限公司 | 一种日志数据的审计方法和审计装置 |
CN109033319A (zh) * | 2018-07-18 | 2018-12-18 | 长扬科技(北京)有限公司 | 一种大数据日志归一化方法及工具 |
CN109871711B (zh) * | 2019-01-23 | 2021-06-25 | 中国海洋大学 | 海洋大数据共享分发风险控制模型及方法 |
CN110009504A (zh) * | 2019-04-08 | 2019-07-12 | 湖北风口网络科技有限公司 | 一种安全性高的风险投资系统和方法 |
-
2019
- 2019-10-12 CN CN201910965762.8A patent/CN110908858B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7028338B1 (en) * | 2001-12-18 | 2006-04-11 | Sprint Spectrum L.P. | System, computer program, and method of cooperative response to threat to domain security |
CN104376023A (zh) * | 2013-08-16 | 2015-02-25 | 北京神州泰岳软件股份有限公司 | 一种基于日志的审计方法及系统 |
CN108985053A (zh) * | 2018-06-27 | 2018-12-11 | 北京奇安信科技有限公司 | 分布式数据处理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110908858A (zh) | 2020-03-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Heravizadeh et al. | Dimensions of business processes quality (QoBP) | |
US9396234B2 (en) | Event monitoring for complex event processing | |
CN109828903A (zh) | 自动化测试方法、装置、计算机装置及存储介质 | |
CN114185708A (zh) | 基于分布式链路追踪的数据分析方法、装置和电子设备 | |
CN105159964A (zh) | 一种日志监控方法及系统 | |
CN104063458B (zh) | 一种对终端故障问题提供对应解决方案的方法及装置 | |
CN110908858B (zh) | 基于双漏斗结构的日志类样本抽样方法及相关装置 | |
CN107861852A (zh) | 网页错误处理方法、系统及可读存储介质 | |
CN107636741A (zh) | 金融终端的故障预警方法、终端设备及存储介质 | |
CN106325988A (zh) | 任务调度方法及装置 | |
CN103324563A (zh) | 查看通信终端的终端事件的方法及其通信终端 | |
Arpasat et al. | Improvement of call center customer service in a thai bank using disco fuzzy mining algorithm | |
CN112416729A (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN109684863A (zh) | 数据防泄漏方法、装置、设备及存储介质 | |
Ehrlich et al. | Survey of Security Standards for an automated Industrie 4.0 compatible Manufacturing | |
CN102571424A (zh) | 一种工程事件处理方法、装置和系统 | |
CN113901476A (zh) | 一种基于虚拟化环境的漏洞验证方法、系统、设备及介质 | |
Kureerung et al. | A framework for usability design to promote awareness of information disseminated via mobile government applications | |
CN111539641A (zh) | 异常监测方法、装置、计算机设备及存储介质 | |
CN112990769A (zh) | 业务处理方法、装置、电子设备和存储介质 | |
CN116304211A (zh) | 基于图计算的信息拦截方法、装置、设备及可读存储介质 | |
Kang et al. | Process Mining-based Understanding and Analysis of Volvo IT's Incident and Problem Management Processes. | |
CN113869717A (zh) | 一种告警日志的分析研判方法、装置、设备及存储介质 | |
JP2008129796A (ja) | 電話番号に基づいて電話契約者の信用度を推定するコンピュータシステム | |
CN114511403A (zh) | 一种监管报告的生成方法及装置、电子设备、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |