CN115982153A - 指标库生成方法、模型建立方法、装置、设备及存储介质 - Google Patents
指标库生成方法、模型建立方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN115982153A CN115982153A CN202211192129.8A CN202211192129A CN115982153A CN 115982153 A CN115982153 A CN 115982153A CN 202211192129 A CN202211192129 A CN 202211192129A CN 115982153 A CN115982153 A CN 115982153A
- Authority
- CN
- China
- Prior art keywords
- index
- evaluation
- field
- evaluation index
- scene
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 75
- 238000011156 evaluation Methods 0.000 claims abstract description 261
- 230000000875 corresponding effect Effects 0.000 claims abstract description 24
- 230000002596 correlated effect Effects 0.000 claims abstract description 8
- 238000013210 evaluation model Methods 0.000 claims description 54
- 230000008569 process Effects 0.000 claims description 21
- 238000009795 derivation Methods 0.000 claims description 16
- 230000006399 behavior Effects 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000003754 machining Methods 0.000 claims description 5
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000011161 development Methods 0.000 description 6
- 238000013507 mapping Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000011158 quantitative evaluation Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种指标库生成方法、模型建立方法、装置、设备及存储介质,生成的目标指标库中针对每一应用场景都关联存储有对应的评价指标,所以当需要对某一应用场景相关的目标对象进行评价时,可以基于该目标指标库确定与该应用场景关联存储的评价指标,不再依赖人工经验确定评价指标,提升了评价结果的准确性。
Description
技术领域
本申请涉及数据处理技术领域,具体而言,涉及一种指标库生成方法、模型建立方法、装置、设备及存储介质。
背景技术
目前,不可避免需要用到指标对目标对象进行评价。比如,当用户在使用终端时,可能需要利用相关的评价指标对用户使用终端这一行为的安全性进行评价。现有技术中,在需要对某一应用场景中的目标对象进行评价时,往往需要由评价人员根据经验确定评价指标,然后再基于评价指标对目标对象进行评价。由于不同评价人员确定的评价指标可能不同,这种依赖人工经验确定评价指标的方式使得评价结果的准确率极低。
发明内容
本申请实施例的目的在于提供一种指标库生成方法、模型建立方法、装置、设备及存储介质,以解决上述技术问题。
为实现上述目的,本申请提供的技术方案包括:
第一方面,提供一种指标库生成方法,包括:
获取待写入的评价指标;
将所述评价指标写入预设的数据库,得到目标指标库;所述目标指标库中针对每一应用场景,关联存储有对应的评价指标;所述评价指标用于对与所述应用场景相关的目标对象进行评价。
在上述实施方式中,生成的目标指标库中针对每一应用场景都关联存储有对应的评价指标,所以当需要对某一应用场景相关的目标对象进行评价时,可以基于该目标指标库确定与该应用场景关联存储的评价指标,不再依赖人工经验确定评价指标,提升了评价结果的准确性。
结合第一方面,在一些可选的实施方式中,所述评价指标为:对与所述应用场景相关的用户行为进行风险评价的指标。
在上述实施方式中,可以基于目标指标库中的评价指标对用户行为进行风险评价。
结合第一方面,在一些可选的实施方式中,所述应用场景表征所述评价指标的指标值所来源的设备。
在上述实施方式中,可以基于目标指标库中的评价指标对与设备相关的用户行为进行风险评价。
结合第一方面,在一些可选的实施方式中,所述评价指标包括已填充内容的第一标准字段,所述第一标准字段包括指标标识字段;所述指标标识字段包括指标编号字段和指标名称字段中的至少一种。
在上述实施方式中,通过指标标识字段可对不同的评价指标进行区分。
结合第一方面,在一些可选的实施方式中,所述第一标准字段还包括以下字段中的至少一种:
来源指示字段,用于指示所述评价指标的指标值的来源;
指标创建字段,用于指示所述评价指标的指标值的获取方式;
指标类型字段,用于指示所述评价指标的指标值的类型;
评价对象字段,用于指示所述评价指标所评价的对象的信息;
指标性质字段,用于指示在利用所述评价指标进行评价时,适用的评价性质;
指标属性字段,用于指示所述评价指标的客观特征属性;
衍生指示字段,用于指示所述评价指标的衍生情况;
指标关联字段,用于指示与所述评价指标相关联的其他评价指标的信息。
结合第一方面,在一些可选的实施方式中,当所述第一标准字段包括来源指示字段时,所述来源指示字段包括来源业务场景字段、来源设备字段、来源系统字段、来源表字段中的至少一种。
结合第一方面,在一些可选的实施方式中,当所述第一标准字段包括指标创建字段时,所述评价指标的指标值的获取方式为以下方式中的一种:
直接获取方式:从原始数据中直接获取得到所述评价指标的指标值;所述原始数据为所述评价指标所属的业务场景中产生的数据;
统计获取方式:对所述原始数据进行统计,得到所述评价指标的指标值;
模型获取方式:利用模型对所述原始数据进行处理,得到所述评价指标的指标值;
结合第一方面,在一些可选的实施方式中,当所述第一标准字段包括指标类型字段时,所述评价指标的指标值的类型为日期类型、数值类型和字符串类型中的一种。
结合第一方面,在一些可选的实施方式中,所述衍生指示字段包括第一指示字段,用于指示所述评价指标是否为衍生指标。
结合第一方面,在一些可选的实施方式中,所述衍生指示字段包括第二指示字段,用于指示所述评价指标的衍生等级。
结合第一方面,在一些可选的实施方式中,所述评价指标还包括未填充内容的第二标准字段,所述第二标准字段用于指示所述评价指标是否被用于建立评价模型,和/或,用于指示所述评价指标被用于建立评价模型时,与所述评价指标相关的信息;
在所述得到目标指标库之后,所述方法还包括:
基于所述目标指标库建立所述评价模型,并在建立所述评价模型的过程中,获取所述评价指标的第二标准字段的内容;
将所述第二标准字段的内容写入所述目标指标库。
结合第一方面,在一些可选的实施方式中,所述第二标准字段包括以下字段中的至少一种:
使用指示字段,用于指示所述评价指标是否被用于建立所述评价模型;
数据质量字段,用于指示在利用所述评价指标建立所述评价模型的过程中,所述评价指标的指标值的质量情况;
数据更新周期字段,用于指示在利用所述评价指标建立所述评价模型时,所述评价指标的指标值维持有效性所需的最短更新周期;
字段关联字段;用于指示在利用所述评价指标建立所述评价模型的过程中,获取所述评价指标的指标值时,需要使用的其他字段的信息;
加工逻辑字段,用于指示在利用所述评价指标建立所述评价模型的过程中,计算所述评价指标的指标值的逻辑;
备注字段,用于指示在利用所述评价指标建立所述评价模型时,对所述评价指标的额外说明信息。
结合第一方面,在一些可选的实施方式中,所述方法还包括:定期对所述目标指标库中所述第二标准字段的内容进行更新。
结合第一方面,在一些可选的实施方式中,所述目标指标库包括根据应用场景划分的多个场景分页,所述评价指标存储在对应的所述场景分页中。
结合第一方面,在一些可选的实施方式中,所述场景分页包括根据一个应用场景划分的单场景分页和根据至少2个应用场景划分的跨场景分页中的至少一种。
结合第一方面,在一些可选的实施方式中,所述目标指标库还包括根据所述场景分页中的所述评价指标生成的指标索引分页。
结合第一方面,在一些可选的实施方式中,所述目标指标库还包括根据所述场景分页中的所述评价指标生成的指标值计算方式分页。
第二方面,本申请还提供一种评价模型建立方法,包括:
确定待建立的评价模型需覆盖的应用场景;
根据所述应用场景以及上述任一所述的目标指标库,建立评价模型。
第三方面,本申请还提供一种指标库生成装置,包括:
获取模块,用于获取待写入的评价指标;
写入模块,用于将所述评价指标写入预设的数据库,得到目标指标库;所述目标指标库中针对每一应用场景,关联存储有对应的评价指标;所述评价指标用于对与所述应用场景相关的目标对象进行评价。
第四方面,本申请还提供一种评价模型建立装置,包括:
确定模块,用于确定待建立的评价模型需覆盖的应用场景;
建立模块,用于根据所述应用场景以及上述指标库生成装置生成的目标指标库,建立评价模型。
第五方面,本申请还提供一种电子设备,包括:处理器和存储器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序,以实现上述任一所述方法。
第六方面,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被至少一个处理器执行时,以实现上述任一所述方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的指标库生成方法的流程示意图;
图2为本申请实施例提供的指标库生成方法的部分流程示意图;
图3为本申请实施例提供的评价模型建立方法的流程示意图;
图4为本申请实施例提供的指标库生成装置的结构示意图;
图5为本申请实施例提供的评价模型建立装置的结构示意图;
图6为本申请实施例提供的电子设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明实施例中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
在本发明的描述中,需要理解的是,步骤前的数字标号并不表示执行步骤的前后顺序,仅用于方便描述本发明及区别每一步骤,因此不能理解为对本发明的限制。
下面,通过具体实施例对本申请的技术方案进行详细说明。
需要说明的是,下面的具体实施例可以互相结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。
随着数字化程度的全面提升,不可避免的需要用到评价指标对目标对象进行评价。比如,企业需要对员工的内控风险中的办公安全行为进行评价。目前,各企业的办公环境特征各异,需要关注的场景与风险情况均不相同。
市面上常见的用户画像均为电商精准营销推荐类画像,无法对用户的安全行为画像进行评价。在缺少参照的情况下,大部分企业只能针对数个最显著的风险问题进行关注,一些大企业会对自身内控安全进行深入评估,但需要进行定制化,时间长,无法对风险问题进行全面覆盖。目前缺乏一种通用的、整体的、快速全面的评价方案。
为解决上述问题,本申请实施例提供一种指标库生成方法,基于生成的目标指标库可以指导对目标对象进行评价。该方法的具体流程可以参见图1,包括以下步骤:
S11:获取待写入的评价指标。
S12:将评价指标写入预设的数据库,得到目标指标库;目标指标库中针对每一应用场景,关联存储有对应的评价指标;评价指标用于对与相应应用场景相关的目标对象进行评价。
下面,对上述步骤的具体过程进行详细说明。
上述步骤S11和步骤S12可以由终端执行。终端可以接收用户输入的评价指标,然后将该评价指标写入预设的数据库。
在第一种实施方式中,数据库中针对每一应用场景预先划分有关联的存储空间,该存储空间用于存储与该应用场景相关的评价指标。在步骤S11中,用户可以根据与该评价指标相关的应用场景,直接将该评价指标存入与该应用场景关联的存储空间。比如,数据库中可以分别针对“主机”应用场景和“终端”应用场景划分与其关联的存储空间,当用户需要将与“主机”应用场景相关的评价指标写入数据库中时,可以将该评价指标存入与该“主机”应用场景关联的存储空间上。
在第二种实施方式中,同样的,数据库中针对每一应用场景预先划分有关联的存储空间。步骤S11中的评价指标中可以包含应用场景指示字段,用于指示与该评价指标相关的应用场景。此时,终端可以直接根据评价指标中的应用场景指示字段的信息,将该评价指标自动存入与该应用场景关联的存储空间。
在第三种实施方式中,步骤S11中的评价指标中可以包含应用场景指示字段,用于指示与该评价指标相关的应用场景。此时,终端直接将该评价指标写入数据库即可。因为每一待写入的评价指标中均包含有应用场景的信息,所以数据库中的每一评价指标均关联有对应的应用场景。
上述“与评价指标相关的应用场景”是指:当通过该评价指标对目标对象进行评价时,这一评价行为所适用的应用场景。比如,当通过“用户超期还贷次数”对“用户信用等级”进行评价时,这一评价行为的应用场景可以是“支付宝”应用场景、“信用卡”应用场景等。当通过“设备最后登录时间”对用户使用该设备的用户行为进行风险评价时,这一评价行为的应用场景可以是“主机”应用场景、“终端”应用场景等。因此,本申请实施例中的应用场景、目标对象以及评价指标都可以由开发人员根据实际应用情况自行设置。
示例性的,本申请实施例中评价指标可以为:对与应用场景相关的用户行为进行风险评价的指标。应用场景可以表征评价指标的指标值所来源的设备,如终端、主机、堡垒机等。
在实际应用中,可以先确定待评价的目标对象,以及对该目标对象进行评价的这一评价行为需要涵盖的应用场景列表,然后针对各应用场景中的目标对象确定对应的待写入的评价指标,最后将评价指标写入预设的数据库,得到目标指标库。目标指标库是一个标准化的指标数据库,用于指导对目标对象进行评价,其可以以表格的形式呈现。
下面,对评价指标的具体内容进行介绍。
步骤S11中的评价指标中可以包括已填充内容的第一标准字段,第一标准字段包括指标标识字段;指标标识字段包括指标编号字段和指标名称字段中的至少一种。指标标识字段是评价指标的唯一标识,可以通过指标编号和/或指标名称来对不同的评价指标进行区分。该字段为填充型字段。
示例性的,评价指标的指标标识字段格式可以为XX-YYY。其中,XX可以用于表示应用场景,比如可以是应用场景的首字母缩写或应用场景的名称的英文字母缩写。如:移动OA应用场景的缩写建议使用OA,终端应用场景建议使用ZD等。YYY表示该应用场景下按顺序写入的指标的序号。比如,可以默认从001开始,例如ZD-001就是终端应用场景下写入的第一个评价指标的唯一标识。
示例性的,评价指标中已填充内容的第一标准字段还可以包括以下字段中的至少一种:
来源指示字段,用于指示评价指标的指标值的来源;
指标创建字段,用于指示评价指标的指标值的获取方式;
指标类型字段,用于指示评价指标的指标值的类型;
评价对象字段,用于指示评价指标所评价的对象的信息;
指标性质字段,用于指示在利用评价指标进行评价时,适用的评价性质;
指标属性字段,用于指示评价指标的客观特征属性;
衍生指示字段,用于指示评价指标的衍生情况;
指标关联字段,用于指示与评价指标相关联的其他评价指标的信息。
当第一标准字段包括来源指示字段时,来源指示字段包括来源业务场景字段、来源设备字段、来源系统字段、来源表字段中的至少一种。
需要说明的是,来源业务场景是指该评价指标所用数据来自于哪一个业务场景。同一应用场景中可能包含多个业务场景的数据。该部分字段可以为填充型字段。
来源设备是指该评价指标所用数据归属于哪一个设备。该部分字段可以为分类型字段。
来源系统是指该评价指标所用数据来自于对应应用场景下的哪一个数据系统,如“威胁感知系统”、“日志系统”、“流量系统”等。该部分字段可以为填充型字段。
来源表是指该评价指标所用数据来自于对应应用场景下的哪一个数据表格。同一系统可能包含多张数据表,如“用户信息表”、“用户持有设备表”等。该部分字段可以为填充型字段。
当第一标准字段包括指标创建字段时,评价指标的指标值的获取方式可以包括以下方式中的一种:
直接获取方式:从原始数据中直接获取得到评价指标的指标值;原始数据为评价指标所属的业务场景中产生的数据;
统计获取方式:对原始数据进行统计,得到评价指标的指标值;
模型获取方式:利用模型对原始数据进行处理,得到评价指标的指标值。
直接获取方式不需要复杂的逻辑加工和业务分析,但可以包含数据清洗这一过程,当需要对用户行为进行风险评价时,“设备版本”、“最后登录时间”、“所属责任人”都属于直接获取方式的评价指标,这类指标的指标值都可以从原始数据中直接获取得到。在一些实施例中,直接获取方式还包括使用简易规则得到指标值的方式,包括并不限于布尔逻辑、SQL语句或Python语句等等。
统计获取方式需要对原始数据进行加工,包括并不限于求和、平均值、最大值、最小值、离群值、方差、标准差等等,其可以是基于人、资产、组织等进行统计得到的,如“未安装补丁数”、“近30天登录次数”、“近7天密码登录失败次数”等,这类指标的指标值往往需要基于原始数据进行统计。
在模型获取方式中,指标值可以是基于为需求方梳理的风险点所制作的模型所衍生的模型过程值或结果,如“是否命中异地登录风险”、“是否存在违规共用风险”等。本申请实施例中的模型可以是基于机器学习、图算法、关联规则、深度模型等进行训练得到的模型。
示例性的,本申请实施例中的评价指标可以采用三级分类体系,也即,评价指标包括一级归类字段,用于指示评价指标的一级归类属性;二级归类字段,用于指示评价指标的二级归类属性;三级归类字段,用于指示评价指标的三级归类属性。这部分字段为填充型字段。
指标值的获取方式可以对应指标分类体系中最大的一级,也即是评价指标分类体系中的一级归类。
当第一标准字段包括指标属性字段时,指标属性字段可以对应指标分类体系中的二级归类。一般常见的二级归类属性包括但不限于版本属性、硬件属性、风险属性、登录属性、启动属性、风险环境属性、威胁属性、数据安全属性等。应当理解的是,在实际应用中,个别简易的评价指标可能不存在二级归类属性,或复杂的评价指标用三级归类属性无法概括时,可以在二级归类属性上进行适当缩放,以适配整体的三级归类属性。
三级归类是三级分类体系中的末端标签,即可以理解为特定的场景化字段。三级归类可以表示每个评价指标的实际名称,为方便建模人员运营维护,可以使用其逻辑的中文释义,如“近30天内登录设备数”和“近7天内设备使用人脸或指纹连续24小时登录失败的最大次数”等。
当第一标准字段包括指标类型字段时,评价指标的指标值的类型可以为日期类型、数值类型和字符串类型中的一种。该部分字段可以为分类型字段。
当第一标准字段包括评价对象字段时,若目标对象为用户安全画像,其主体为人,但是人所属的资产(设备、虚拟资源)、组织等信息也会影响其风险属性和画像结果,此时可以将评价对象字段分为三类:人员、资产、组织。本字段为分类型。
当第一标准字段包括指标性质字段时,评价性质包括但不限于定性评价、定量评价、基线评价以及非评价,其对应的指标为定性评价指标、定量评价指标、基线评价指标以及非评价指标。其中,定性评价指标是指不能直接量化,而需通过其他途径实现量化的评估指标,主要由分类型标签组成,如“是否发生过安全风险事件”等。定量评价指标是指可以准确数量定义、精确衡量,并能设定具体分数的可量化指标,主要由数值型标签组成,但也可能包括极少量的可固化分类型指标,如“过去X天内发生安全风险事件数量”等,一般来讲,如上述示例,定性评价指标可以一一映射到其他定量指标上,但反之则不一定存在一一对应关系,例如是否发生事件可以对应过去3天发生事件数量,但过去3天、7天、30天三个指标均可以对应到是否发生事件标签上。基线评价指标是指未涉及明确风险描述的带有连续性时间区间的可评估指标,如“近X天登录设备数”等,其刻画属性并不直接影响安全画像评分,且分数分箱时适用整体占比来进行动态分箱而不是依照业务含义和人为阈值进行划分。非评价指标是指不直接影响评分(但可能间接影响评分)的未涉及明确风险描述的指标,但基于用户画像概念需要一些客观统计指标进行维度细化时所使用的标签,如“设备版本”、“工作地”、“所属部门”等,此类指标在丰富画像维度和深度方面存在很大价值,故整体归为一类。本字段为分类型。
在一些实施例中,第一标准字段还可以包括业务说明字段,业务说明为该指标的指标值在实际业务中的具体描述。该字段的结果原则上应为其三级归类值的详细业务说明,其字段质量应至少满足阅读者对该指标的逻辑释义的理解,并在对应业务范畴内可解释。本字段为填充型。
当第一标准字段包括衍生指示字段时,衍生指示字段可以包括第一指示字段,用于指示评价指标是否为衍生指标。该字段的结果用于汇总统计画像标签时进行挖掘分析,以及指导画像评分公式构建时与该指标相关的权重调整。本字段为分类型。
当第一标准字段包括衍生指示字段时,衍生指示字段还可以包括第二指示字段,用于指示评价指标的衍生等级。衍生等级可以分为三级(跨场景指标)、二级(跨场景评价指标)和一级(总体安全评价)三种。三级(跨场景指标)是指该指标由两个场景数据交互生成,目的为描述某一画像风险点的具体情况;二级(跨场景评价指标)是指基于跨场景指标生成的评分评级指标,用于描述用户在跨场景下的安全画像;一级(总体安全评价)是完全由各画像指标构成的评分评级指标,除个别得分类标签之外不涉及原始数据,是基于本目标指标库的内容得到的该用户(及其所属资产、组织)的总场景、分场景最终安全评价结果。本字段为分类型。
应当说明的是,对于上述第一标准字段,当将其内容写入目标指标库中后,当目标指标库中某一第一标准字段上的内容发生变化后,可以对该第一标准字段上的内容进行更新。
可以理解的是,评价指标的某些字段的内容是随工程化实施而变化。这里的工程化实施是指基于评价指标建立目标对象评价模型的过程。因此,在一些实施例中,评价指标还可以包括未填充内容的第二标准字段,第二标准字段用于指示评价指标是否被用于建立评价模型,和/或,用于指示评价指标被用于建立评价模型时,与该评价指标相关的信息。
请参见图2所示,在得到目标指标库之后,所述方法还包括:
S21:基于目标指标库建立评价模型,并在建立评价模型的过程中,获取评价指标的第二标准字段的内容。
S22:将第二标准字段的内容写入目标指标库。
在实际应用中,第二标准字段的具体内容可以由开发人员灵活设置。
本申请实施例中的第二标准字段包括以下字段中的至少一种:
使用指示字段,用于指示该评价指标是否被用于建立所述评价模型。
数据质量字段,用于指示在利用该评价指标建立评价模型的过程中,该评价指标的指标值的质量情况。
数据更新周期字段,用于指示在利用该评价指标建立评价模型时,该评价指标的指标值维持有效性所需的最短更新周期。
字段关联字段;用于指示在利用该评价指标建立评价模型的过程中,获取该评价指标的指标值时,需要使用的其他字段的信息。
加工逻辑字段,用于指示在利用该评价指标建立评价模型的过程中,计算评价指标的指标值的逻辑。
备注字段,用于指示在利用该评价指标建立评价模型时,对评价指标的额外说明信息。
当第二标准字段包括使用指示字段时,该字段的结果表征该指标是否在用户安全画像项目中最终进行了使用。一些评价指标在设计后,可能会因计分规则、细节变动、业务调整或运营数据缺失导致临时或永久停用,此时可以修改此列以作标记。每个运营周期都可以对该字段进行维护。本字段为分类型。
当第二标准字段包括数据质量字段时,质量情况可以分为“良好”、“临时不可用”和“长期不可用”三种。原则来说,目标指标库中的评价指标均是有数据支撑才会留存开发运营的,但在后续运营过程中不排除数据来源发生变动、业务产生变化或出现系统性数据波动,导致数据无法顺利接入或缺失等情况,此时,可以修改此字段的内容以作标记。每个运营周期均可以对该字段进行维护。本字段为分类型。本申请实施例中的运营周期可以由开发人员根据实际应用情况灵活设置。
当第二标准字段包括数据更新周期字段时,本字段中的周期可以为“实时”、“天”、“月”、“季度”等。不同性质的指标需要不同的数据更新周期以保持画像的准确性,如某些指标由于数据承载平台限制或数据来源限制而不能满足最短更新周期的话,需进行有效性标注,并尝试更换成替代的更长更新周期的指标。本字段可以为填充型,也可以为分类型。
当某一评价指标的第二标准字段包括字段关联字段时,该字段可以指示在利用该评价指标建立评价模型的过程中,需要使用的其他字段的信息,如该评价指标的规则、算法、统计公式中所使用的其他字段的信息。
当第二标准字段包括加工逻辑字段时,加工逻辑是指该指标所表述的具体规则或统计公式,包括并不限于四则运算、布尔逻辑、SQL语句、JS语句、Python语句等。机器学习指标、深度学习指标和图算法指标不需在此处表明逻辑,过于复杂的语句限于展示也可以不展示,但需要在备注中进行标注。本字段为填充型。
前述字段中因故无法正常填写,或需做额外说明的部分文字,可以在第二标准字段中的备注字段进行说明。本字段为填充型。
在一些实施例中,第二标准字段还可以包括预留字段,为在构建模型的过程中,增加临时需求所准备的未知字段。
可以理解的是,在本申请实施例中可以定期对目标指标库中的第二标准字段的内容进行更新,当然,也可以在第二标准字段的内容相对于前一时刻的内容发生变化时再进行更新。
本申请实施例中的目标指标库中包括根据应用场景划分的多个场景分页,写入的评价指标存储在对应的场景分页中。
本申请实施例中的场景分页包括根据一个应用场景划分的单场景分页和根据至少2个应用场景划分的跨场景分页中的至少一种。
本申请实施例中跨场景分页中评价指标的指标标识字段的格式可以为SS-XX-YY-ZZZ或SS-ZZZ,前者是跨场景指标的编号规则,后者是总体评分评级指标的编号规则。其中SS是跨场景分页的标识缩写,表明本指标是一个跨场景指标或总体评分评级指标,XX和YY是该指标涉及的前两个主要场景名称的首字母缩写,如:移动OA场景的缩写建议使用OA,终端场景建议使用ZD等,ZZZ为该跨应用场景下按顺序写入的指标的序号,默认从001开始,例如SS-ZD-ZJ-001就是终端场景与主机场景下交互构建的第一个跨应用场景下评价指标的唯一标识,在跨场景指标中上述三项是必需的,但如涉及超过两个场景时,为避免冗余,只体现前两个主要场景即可;SS-001则是第一个总体评分评级指标的唯一标识。本字段为填充型。
因此,对于跨场景分页下的评价指标(简称跨场景指标),其第二标准字段还可以包括第一来源场景字段和第二来源场景字段,分别用于指示该评价指标所涉及的第一来源场景和第二来源场景。如果该评价指标与全场景相关,则第一单场景来源字段和第二单场景来源字段可以填写“全场景”。
对于跨场景指标,其第二标准字段还可以包括第一来源指标字段、第二来源指标字段和第三来源指标字段中的至少一种。其中,第一来源指标字段用于指示跨场景指标所使用的第一场景指标的指标标识,第二来源指标字段用于指示跨场景指标所使用的第二场景指标的指标标识,第三来源指标字段用于指示跨场景指标所使用的剩余所有场景指标的指标标识,由于跨场景指标可能涉及远超三个指标交互的可能性,故本字段起归档之用。本字段为填充型。
在一些实施例中,生成的目标指标库中还可以包括根据场景分页中的评价指标生成的指标索引分页。指标索引分页中可以针对场景分页中的每一评价指标关联存储对应的索引信息,该索引信息用于指示相应评价指标在场景分页中的位置。
指标索引分页是存储场景分页中各评价指标的信息的索引表,其分页数量为一,分页名称可以为指标唯一编号索引表。指标索引分页可以包括以下字段中的至少一种:唯一索引序号、来源场景、场景编号前缀、场景序号、场景内编号、指标最深级名称和备注。本分页所有字段均为映射字段,无需填写,可以由其他分页公式跳转而来。
唯一索引序号:唯一索引序号是本分页的计数列,它反映了本用户安全画像指标库共设计了多少个指标,其开始值为1,按行累计且不重复。本字段可以由公式生成,不需要人为输入,当某个指标被删除或添加后,需对此列进行刷新以匹配最新列表。
来源场景:来源场景是指该指标来源的单一场景名称或该指标是来源于跨场景。如来源于单一场景,则可以填充该单一场景的名称,如来源于跨场景,则可以填充跨场景。本字段可以由公式映射,不需要人为输入。
场景编号前缀:场景编号前缀是来源场景字段中各场景分页名称的首字母缩写,或场景分页名称中可代表的英文部分的字母缩写,或跨场景(收束)的缩写,如终端对应ZD,收束对应SS。本字段可以由公式映射,不需要人为输入。
场景序号:场景序号是本索引表内来自同一场景的指标的计数列,用来统计在某一具体场景下共设计了多少指标。同一场景的指标按序从1依次累加且不重复。本字段可以由为公式生成,不需要人为输入,当某个指标被删除或添加后,需对此字段的内容进行刷新以匹配最新内容。
场景内编号:场景内编号就是该指标在具体场景内的指标唯一编号。本字段可以由公式映射,不需要人为输入。
指标最深级名称:指标最深级名称是该指标的第三级归类的指标名称,本字段可以由公式映射,不需要人为输入。
备注:备注是前述分页中各指标的备注字段的映射,直接代入即可,做归档之用。本字段为公式映射,不需要人为输入。
在一些实施例中,生成的目标指标库中还可以包括根据场景分页中的评价指标生成的指标值计算方式分页。指标值计算方式分页是指存储场景分页中各评价指标的具体参数、权重、阈值信息的表格,其分页数量为一,分页名称为指标得分公式表。指标值计算方式分页中的评价指标包括以下字段:唯一索引序号、来源场景、场景内编号、指标最深级名称、详细公式、参数信息、分值和备注。其中前四个字段为映射字段,无需填写,由其他分页公式跳转而来。后四个字段为工程化实施字段,依具体落地情况填充内容的字段。
唯一索引序号、来源场景、场景内编号、指标最深级名称、以及备注字段参照上述介绍的内容,这里不再赘述。
详细公式:详细公式是该指标所用到的具体公式的数学表达式,不同于业务逻辑,主要侧重于技术细节。如为Python或SQL等语言编写,也可输入该公式代码以降低重复性工作量。本字段为填充型。
参数信息:参数信息是指上述详细公式字段中所涉及的可以调整的参数、权重、阈值的具体信息,包括该参数、权重、阈值的默认取值、取值区间、何时需要调整、如何调整等。如不方便用公式描述,也可用文字进行说明,以保证运营人员和需求方可以理解为主。本字段为填充型。
分值:分值是指该指标在画像公式中未修正的影响分值,即原始画像分数。默认包括最大分值、分值区间和分值分箱。在本指标库中除最终安全评分评级总公式外,不需体现整体画像修正所使用的权重参数和修正值,本字段为填充型。
本申请实施例还提供一种评价模型建立方法,请参见图3所示,包括:
S31:确定待建立的评价模型需覆盖的应用场景。
S32:根据该应用场景以及目标指标库,建立评价模型。
步骤S32中的目标指标库为根据上述方法生成的指标库,这里不再赘述。由于不再依赖人工经验确定评价指标,所以可以进一步提升建立的评价模型的可靠性,也可以提升模型建立的效率,实现了评价模型建立标准的统一。
可以理解的是,在步骤S32中,开发人员可以利用前述目标指标库,对常规指标进行规则开发,对需要进行机器学习建模的复杂指标进行模型开发,对需要自编算法的指标进行算法开发(Python等)。开发过程可以留痕,并在模型指标和算法指标开发完成后生成对应的开发报告,注明业务逻辑、技术逻辑、具体语句和默认权重参数。然后在依托平台上完成代码部署,如前述文字所示,在依托平台上,以单条指标为最小颗粒度,逐条将指标语句配置在平台相应的功能页面上,并以该指标的场景名称+三级归类进行注名。最后在依托平台上逐条进行试运行,通过接入测试数据或部分业务数据,完成模型指标全量运行和压力测试,保证在单次画像更新最小周期内完成全部指标的自动运行更新任务。
请参见图4所示,本申请实施例还提供一种指标库生成装置,包括
获取模块41,用于获取待写入的评价指标;
写入模块42,用于将评价指标写入预设的数据库,得到目标指标库;目标指标库中针对每一应用场景,关联存储有对应的评价指标;评价指标用于对与应用场景相关的目标对象进行评价。
请参见图5所示,本申请实施例还提供一种评价模型建立装置,包括:
确定模块51,用于确定待建立的评价模型需覆盖的应用场景;
建立模块52,用于根据该应用场景以及上述指标库生成装置生成的目标指标库,建立评价模型。
应当说明的是,各个功能模块与上述方法的各个步骤对应,因此,各个功能模块的实施方式参照前述的方法的实施方式,在此不再重复介绍。
基于同一发明构思,请参见图6所示,本申请实施例还提供一种电子设备,包括处理器和存储器,存储器中存储有计算机程序,处理器执行计算机程序,以实现上述所述的任意一种方法。
应当说明的是,本申请实施例中的电子设备还可包括比图6中所示更多或者更少的组件,或者具有与图6所示不同的配置。
处理器可以是一种集成电路芯片,具有信号处理能力。在实现过程中,上述方法的各步骤可以通过处理器和处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。
存储器包括但不限于随机存取存储器(RAM),只读存储器(ROM),可编程只读存储器(PROM),可擦除只读存储器(EPROM),电可擦除只读存储器(EEPROM)等。本申请实施例中,存储器存储了执行信道均衡方法所需要的程序。
处理器和存储器通过通信总线连接,总线可以是ISA总线、PCI总线或EISA总线等。总线可以分为地址总线、数据总线、控制总线等。
本实施例还提供了一种计算机可读存储介质,如软盘、光盘、硬盘、闪存、U盘、安全数码(SD)卡、多媒体(MMC)卡等,在该计算机可读存储介质中存储有实现上述各个步骤的一个或者多个程序,这一个或者多个程序可被一个或者多个处理器执行,以实现上述各实施例中方法的各步骤,在此不再赘述。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (22)
1.一种指标库生成方法,其特征在于,包括:
获取待写入的评价指标;
将所述评价指标写入预设的数据库,得到目标指标库;所述目标指标库中针对每一应用场景,关联存储有对应的评价指标;所述评价指标用于对与所述应用场景相关的目标对象进行评价。
2.如权利要求1所述的指标库生成方法,其特征在于,所述评价指标为:对与所述应用场景相关的用户行为进行风险评价的指标。
3.如权利要求2所述的指标库生成方法,其特征在于,所述应用场景表征所述评价指标的指标值所来源的设备。
4.如权利要求1-3任一项所述的指标库生成方法,其特征在于,所述评价指标包括已填充内容的第一标准字段,所述第一标准字段包括指标标识字段;所述指标标识字段包括指标编号字段和指标名称字段中的至少一种。
5.如权利要求4所述的指标库生成方法,其特征在于,所述第一标准字段还包括以下字段中的至少一种:
来源指示字段,用于指示所述评价指标的指标值的来源;
指标创建字段,用于指示所述评价指标的指标值的获取方式;
指标类型字段,用于指示所述评价指标的指标值的类型;
评价对象字段,用于指示所述评价指标所评价的对象的信息;
指标性质字段,用于指示在利用所述评价指标进行评价时,适用的评价性质;
指标属性字段,用于指示所述评价指标的客观特征属性;
衍生指示字段,用于指示所述评价指标的衍生情况;
指标关联字段,用于指示与所述评价指标相关联的其他评价指标的信息。
6.如权利要求5所述的指标库生成方法,其特征在于,当所述第一标准字段包括来源指示字段时,所述来源指示字段包括来源业务场景字段、来源设备字段、来源系统字段、来源表字段中的至少一种。
7.如权利要求5所述的指标库生成方法,其特征在于,当所述第一标准字段包括指标创建字段时,所述评价指标的指标值的获取方式为以下方式中的一种:
直接获取方式:从原始数据中直接获取得到所述评价指标的指标值;所述原始数据为所述评价指标所属的业务场景中产生的数据;
统计获取方式:对所述原始数据进行统计,得到所述评价指标的指标值;
模型获取方式:利用模型对所述原始数据进行处理,得到所述评价指标的指标值。
8.如权利要求5所述的指标库生成方法,其特征在于,当所述第一标准字段包括指标类型字段时,所述评价指标的指标值的类型为日期类型、数值类型和字符串类型中的一种。
9.如权利要求5所述的指标库生成方法,其特征在于,所述衍生指示字段包括第一指示字段,用于指示所述评价指标是否为衍生指标。
10.如权利要求5所述的指标库生成方法,其特征在于,所述衍生指示字段包括第二指示字段,用于指示所述评价指标的衍生等级。
11.如权利要求1-10任一项所述的指标库生成方法,其特征在于,所述评价指标还包括未填充内容的第二标准字段,所述第二标准字段用于指示所述评价指标是否被用于建立评价模型,和/或,用于指示所述评价指标被用于建立评价模型时,与所述评价指标相关的信息;
在所述得到目标指标库之后,所述方法还包括:
基于所述目标指标库建立所述评价模型,并在建立所述评价模型的过程中,获取所述评价指标的第二标准字段的内容;
将所述第二标准字段的内容写入所述目标指标库。
12.如权利要求11所述的指标库生成方法,其特征在于,所述第二标准字段包括以下字段中的至少一种:
使用指示字段,用于指示所述评价指标是否被用于建立所述评价模型;
数据质量字段,用于指示在利用所述评价指标建立所述评价模型的过程中,所述评价指标的指标值的质量情况;
数据更新周期字段,用于指示在利用所述评价指标建立所述评价模型时,所述评价指标的指标值维持有效性所需的最短更新周期;
字段关联字段;用于指示在利用所述评价指标建立所述评价模型的过程中,获取所述评价指标的指标值时,需要使用的其他字段的信息;
加工逻辑字段,用于指示在利用所述评价指标建立所述评价模型的过程中,计算所述评价指标的指标值的逻辑;
备注字段,用于指示在利用所述评价指标建立所述评价模型时,对所述评价指标的额外说明信息。
13.如权利要求12所述的指标库生成方法,其特征在于,所述方法还包括:定期对所述目标指标库中所述第二标准字段的内容进行更新。
14.如权利要求1-13任一项所述的指标库生成方法,其特征在于,所述目标指标库包括根据应用场景划分的多个场景分页,所述评价指标存储在对应的所述场景分页中。
15.如权利要求14所述的指标库生成方法,其特征在于,所述场景分页包括根据一个应用场景划分的单场景分页和根据至少2个应用场景划分的跨场景分页中的至少一种。
16.如权利要求14所述的指标库生成方法,其特征在于,所述目标指标库还包括根据所述场景分页中的所述评价指标生成的指标索引分页。
17.如权利要求14所述的指标库生成方法,其特征在于,所述目标指标库还包括根据所述场景分页中的所述评价指标生成的指标值计算方式分页。
18.一种评价模型建立方法,其特征在于,包括:
确定待建立的评价模型需覆盖的应用场景;
根据所述应用场景以及如权利要求1-17中任一项所述的目标指标库,建立评价模型。
19.一种指标库生成装置,其特征在于,包括:
获取模块,用于获取待写入的评价指标;
写入模块,用于将所述评价指标写入预设的数据库,得到目标指标库;所述目标指标库中针对每一应用场景,关联存储有对应的评价指标;所述评价指标用于对与所述应用场景相关的目标对象进行评价。
20.一种评价模型建立装置,其特征在于,包括:
确定模块,用于确定待建立的评价模型需覆盖的应用场景;
建立模块,用于根据所述应用场景以及如权利要求19所述的指标库生成装置生成的目标指标库,建立评价模型。
21.一种电子设备,其特征在于,包括处理器和存储器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序,以实现如权利要求1-18中任意一项所述的方法。
22.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被至少一个处理器执行时,以实现如权利要求1-18中任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211192129.8A CN115982153A (zh) | 2022-09-28 | 2022-09-28 | 指标库生成方法、模型建立方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211192129.8A CN115982153A (zh) | 2022-09-28 | 2022-09-28 | 指标库生成方法、模型建立方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115982153A true CN115982153A (zh) | 2023-04-18 |
Family
ID=85972677
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211192129.8A Pending CN115982153A (zh) | 2022-09-28 | 2022-09-28 | 指标库生成方法、模型建立方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115982153A (zh) |
-
2022
- 2022-09-28 CN CN202211192129.8A patent/CN115982153A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8892534B2 (en) | System and method for integrating data quality metrics into enterprise data management processes | |
CN109359277B (zh) | 数据监控方法、设备及计算机存储介质 | |
CN112181804A (zh) | 一种参数校验方法、设备以及存储介质 | |
US10089334B2 (en) | Grouping of database objects | |
CN113076104A (zh) | 页面生成方法、装置、设备及存储介质 | |
US10823782B2 (en) | Ensuring completeness of interface signal checking in functional verification | |
CN114428822B (zh) | 一种数据处理的方法、装置、电子设备及存储介质 | |
JP6419667B2 (ja) | テストdbデータ生成方法及び装置 | |
CN110191097B (zh) | 登录页面安全性的检测方法、系统、设备及存储介质 | |
CN112598326A (zh) | 模型迭代方法、装置、电子设备及存储介质 | |
CN115982153A (zh) | 指标库生成方法、模型建立方法、装置、设备及存储介质 | |
CN107402970B (zh) | 信息生成方法及装置 | |
CN112882758B (zh) | 一种iOS设备标识符的生成方法及系统 | |
CN114202250A (zh) | 一种企业评估系统、方法及电子设备 | |
CN110502675B (zh) | 基于数据分析的语音拨叫用户分类方法及相关设备 | |
CN114581251A (zh) | 数据校验方法、装置、计算机设备及计算机可读存储介质 | |
CN110807037B (zh) | 一种数据修改方法、装置、电子设备及存储介质 | |
KR20140054913A (ko) | 분산된 시스템을 위한 데이터 오류 처리 장치 및 방법 | |
CN113722573A (zh) | 生成网络安全威胁数据集合的方法、系统和存储介质 | |
CN114327377B (zh) | 需求跟踪矩阵生成方法、装置、计算机设备及存储介质 | |
Alexopoulos | New Approaches to Software Security Metrics and Measurements | |
CN110765118B (zh) | 一种数据的修订方法、修订装置及可读存储介质 | |
CN117829121B (zh) | 数据处理方法、装置、电子设备和介质 | |
CN116401714B (zh) | 安全信息获取方法、装置、设备及介质 | |
US10402390B1 (en) | Model validation system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |