CN112085369B - 规则模型的安全性检测方法、装置、设备及系统 - Google Patents
规则模型的安全性检测方法、装置、设备及系统 Download PDFInfo
- Publication number
- CN112085369B CN112085369B CN202010908605.6A CN202010908605A CN112085369B CN 112085369 B CN112085369 B CN 112085369B CN 202010908605 A CN202010908605 A CN 202010908605A CN 112085369 B CN112085369 B CN 112085369B
- Authority
- CN
- China
- Prior art keywords
- guess
- target attribute
- rule
- detected
- rule model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 86
- 238000000034 method Methods 0.000 claims abstract description 83
- 238000009826 distribution Methods 0.000 claims description 45
- 230000015654 memory Effects 0.000 claims description 41
- 238000004364 calculation method Methods 0.000 claims description 11
- 230000007246 mechanism Effects 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 18
- 238000003860 storage Methods 0.000 description 18
- 230000006872 improvement Effects 0.000 description 17
- 230000006870 function Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 10
- 238000004590 computer program Methods 0.000 description 9
- 230000005540 biological transmission Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000000750 progressive effect Effects 0.000 description 3
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 229910021389 graphene Inorganic materials 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 108010001267 Protein Subunits Proteins 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000007795 chemical reaction product Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 229920001296 polysiloxane Polymers 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 239000010979 ruby Substances 0.000 description 1
- 229910001750 ruby Inorganic materials 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/067—Enterprise or organisation modelling
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Theoretical Computer Science (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Game Theory and Decision Science (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本说明书提供一种规则模型的安全性检测方法、装置、设备及系统,实现了对于规则模型的创建方和数据源不属于同一机构或平台时,对规则模型的安全性检测,利用样本数据集计算待检测规则模型在每一种命中情形下各个目标属性的猜中概率,再基于猜中概率和预先设置的预设安全阈值,判断出待检测规则模型是否安全。实现了在数据源方允许的范围内输出数据源方的数据,以避免规则模型的创建方通过创建特殊的规则,根据模型的输出结果,盗取数据源方的数据,确保了数据源方的数据安全性,进一步提高了用户信息的安全性。
Description
技术领域
本说明书属于计算机技术领域,尤其涉及一种规则模型的安全性检测方法、装置、设备及系统。
背景技术
随着计算机技术的发展,智能模型的种类越来越多,规则模型可以理解为包含若干规则集的模型。规则集可以包括若干规则,若干规则可以通过“且”、“或”组合成为一条规则集,一条规则可以包括变量、操作符以及阈值,如:月收入<10000。基于规则的模型在不同领域中可能有着不同的名称,比如“规则引擎”,利用规则模型可以筛选出符合不同条件的数据或者用户等,或者应用在风控领域,进行风险预测等。
在一些规则模型的使用场景中,通常会有一个规则模型的生成使用方以及数据源,当规则模型的生成使用方不同于提供数据的数据源所属的机构时,规则模型的生成使用方可能会通过配置一些特殊的规则,根据模型的输出结果,获得数据源的数据,造成数据源用户数据被泄漏的问题。
发明内容
本说明书实施例的目的在于提供一种规则模型的安全性检测方法、装置、设备及系统,提高了数据源的数据安全性。
一方面,本说明书实施例提供了一种规则模型的安全性检测方法,所述方法包括:
获取待检测规则模型的规则集;
获取所述待检测规则模型安全性检测的样本数据集;
根据所述样本数据集中的目标属性的取值分布,确定所述待检测规则模型的规则集命中情况下各个目标属性的第一猜中概率和所述待检测规则模型的规则集未命中情况下各个目标属性的第二猜中概率;其中,所述目标属性为所述样本数据集与所述规则集中均存在的属性;
根据各个目标属性的第一猜中概率、第二猜中概率以及各个目标属性对应的预设安全阈值,判断所述待检测规则模型是否安全。
另一方面,本说明书提供了一种规则模型的安全性检测装置,包括:
规则集获取模块,用于获取待检测规则模型的规则集;
样本获取模块,用于获取所述待检测规则模型安全性检测的样本数据集;
安全指标计算模块,用于根据所述样本数据集中的目标属性的取值分布,确定所述待检测规则模型的规则集命中情况下各个目标属性的第一猜中概率和所述待检测规则模型的规则集未命中情况下各个目标属性的第二猜中概率;其中,所述目标属性为所述样本数据集与所述规则集中均存在的属性;
安全性判断模块,用于根据各个目标属性的第一猜中概率、第二猜中概率以及各个目标属性对应的预设安全阈值,判断所述待检测规则模型是否安全。
又一方面,本说明书实施例提供了一种规则模型的安全性检测设备,包括至少一个处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现上述规则模型的安全性检测方法。
还一方面,本说明书实施例提供了一种规则模型的安全性检测系统,包括:规则模型检测装置、规则模型创建装置;其中,所述规则模型检测装置中包括至少一个处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现上述规则模型安全性检测方法,用于对所述规则模型创建装置部署在数据源的规则模型进行安全性检测;
所述规则模型创建装置包括至少一个处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现创建规则模型,并将创建的规则模型部署在数据源中。
本说明书提供的规则模型的安全性检测方法、装置、设备及系统,实现了一种对于规则模型的创建方和数据源不属于同一机构或平台时,对规则模型的安全性检测,利用样本数据集计算待检测规则模型在每一种命中情形下各个目标属性的猜中概率,再基于猜中概率和预先设置的预设安全阈值,判断出待检测规则模型是否安全。实现了在数据源方允许的范围内输出数据源方的数据,以避免规则模型的创建方通过创建特殊的规则,根据模型的输出结果,盗取数据源方的数据,确保了数据源方的数据安全性,进一步提高了用户信息的安全性。而且可以得到不安全情形涉及到模型中哪几个规则集的组合,能够追踪到模型的不安全点在哪。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本说明书一个场景示例中规则模型部署使用的原理流程示意图;
图2是本说明书实施例提供的规则模型的安全性检测方法实施例的流程示意图;
图3是本说明书提供的规则模型的安全性检测装置一个实施例的模块结构示意图;
图4是本说明书一个实施例中规则模型的安全性检测服务器的硬件结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
大数据时代,平台对于拥有的用户数据的安全性越来越重视,平台拥有的数据可以有很多用途如:风险分析、信息推荐等。对于没有数据的平台,可能会借助有数据的平台来进行业务分析等。规则模型是一种比较特殊的模型,在规则模型的生成方、使用方不同于和数据源所属机构的场景中,数据源存在用户数据泄露或被盗取的风险。这是因为使用方(或生成方)可以配置一些特殊的规则,根据模型的输出结果,可以获得查询用户的数据。例如:通过配置规则“违约次数=0”、“违约次数=1”、“违约次数=2”等,便可查询到每个用户的违约次数;通过配置规则“月收入<2000”,“2000<=月收入<5000”,“5000<=月收入<8000”等,便可查询到每个用户月收入的较为精准的范围。因此,对于数据源,需要确保部署在数据源的规则模型是安全的,即只能输出允许范围内的用户信息,不能输出超过允许范围的用户信息。
图1是本说明书一个场景示例中规则模型部署使用的原理流程示意图,如图1所示,平台A没有数据源,平台B有数据源,平台A可以创建一个规则模型,并将创建好的规则模型部署在平台B中,当平台A需要查询数据时,可以向平台B发送查询请求,平台B即可以在自己的平台内查询符合规则模型的数据并返回给平台A。对于平台B,在平台A要求部署规则模型时,需要验证平台A部署的规则模型是否安全,若检测平台A创建的规则模型安全,才允许将规则模型部署在平台B中,以确保自己的平台不会泄漏过多的信息。
图2是本说明书实施例提供的规则模型的安全性检测方法实施例的流程示意图。虽然本说明书提供了如下述实施例或附图所示的方法操作步骤或装置结构,但基于常规或者无需创造性的劳动在所述方法或装置中可以包括更多或者部分合并后更少的操作步骤或模块单元。在逻辑性上不存在必要因果关系的步骤或结构中,这些步骤的执行顺序或装置的模块结构不限于本说明书实施例或附图所示的执行顺序或模块结构。所述的方法或模块结构的在实际中的装置、服务器或终端产品应用时,可以按照实施例或者附图所示的方法或模块结构进行顺序执行或者并行执行(例如并行处理器或者多线程处理的环境、甚至包括分布式处理、服务器集群的实施环境)。
具体的一个实施例如图2所示,本说明书提供的规则模型的安全性检测方法的一个实施例中,所述方法可以应用在数据源所在的平台方,也可以应用在除规则模型生成方和数据源之外的第三方平台中,具体可以为计算机、平板电脑、服务器等终端,所述方法可以包括如下步骤:
步骤202、获取待检测规则模型的规则集。
在具体的实施过程中,当模型生成方将创建的模型部署在数据源方时,数据源方或者是除规则模型生成方、数据源之外的第三方,可以获取模型生成方创建的待检测规则模型的规则集。规则集是可以包括一条规则或者多条通过和、或、非等逻辑组合的规则,如:“违约率>0.2”可以称为一条规则集,“违约率>0.2或违约次数>=2”也可以称为一条规则集。当然,待检测规则模型中可以包括多条规则集,如:{1.月收入<10000;2.负债率>0.4;3.违约率>0.2或违约次数>=2}其中包括3条规则集,可以给定该模型的一组变量值,模型可以输出哪个规则集命中了,即这组变量值满足该模型的哪些规则集。例如给定如下的一组变量值:(月收入=9000,负债率=0.3,违约率=0.1,违约次数=2),对于上述模型例子,这组变量值命中了规则集1和3,因此模型输出1和3。待检测规则模型的规则集可以由规则模型生成方根据自己的业务需要进行创建,本说明书实施例不作具体限定。
步骤204、获取所述待检测规则模型安全性检测的样本数据集。
在具体的实施过程中,当模型生成方将创建的模型部署在数据源方,需要对部署的待检测规则模型进行安全性检测时,可以先获取待检测规则模型安全性检测的样本数据集。样本数据集主要包括用于对待检测规则模型进行安全性检测的样本数据,该样本数据集中具体可以包括待检测规则模型中涉及到的属性以及属性的取值。当然,样本数据集还可以包括规则模型的规则集中没有涉及到的属性以及属性的取值,如:一个样本数据集可以用来检测多个规则模型的安全性。属性可以理解为规则模型的规则集中的参数特征,可以等同于上述实施例中的变量,如上述实施例中的“违约率”、“违约次数”。例如:待检测规则模型主要是筛选月收入、负债率、违约率相关的数据,则样本数据集中可以包括不同用户的月收入、负债率、违约率的取值。
样本数据集可以由数据源构建好,在第三方检测规则模型的安全性时,直接从数据源获取,也可以由第三方在检测规则模型时,根据数据源提供的数据进行创建。本说明书一些实施例中,所述获取所述待检测规则模型安全性检测的样本数据集包括:
从数据源提供的原始数据集中获取所述待检测规则模型的规则集中存在的目标属性;
从所述原始数据集中获取所述目标属性的真实值,根据所述目标属性以及所述目标属性对应的真实值集合创建出所述样本数据集;
或,从所述原始数据集中获取所述目标属性对应的取值分布信息,根据所述目标属性对应的取值分布信息,构建出满足目标属性对应的取值分布信息的目标属性的虚拟值,根据所述目标属性的虚拟值以及目标属性获得所述样本数据集。
在具体的实施过程中,当对待检测规则模型进行安全性检测的是数据源所在的平台,那么数据源可以从自己的数据库中抽取一部分数据作为检测待检测规则模型安全性的样本数据集。数据源中可以有很多数据,有些数据可能在检查规则模型的安全性时不需要,在创建样本数据集时,可以先从数据源提供的原始数据集中获取待检测规则模型中的规则集中存在的属性作为目标属性,再抽取多个用户的目标属性的取值的集合构建出样本数据集。当对待检测规则模型进行安全性检测的不是数据源所在的平台,而是第三方平台,那么第三方平台需要数据源提供数据,再基于数据源提供的数据创建出样本数据集。数据源提供给第三方平台的数据可能不详细如:只提供属性的取值分布信息等。若数据源提供的原始数据集中包括属性的真实值,即数据源愿意向第三方平台公开比较详细的数据,第三方平台可以从数据源提供的原始数据集中获取目标属性的真实值,将获取到的目标属性的真实值以及目标属性作为样本数据集。若数据源不愿意向第三方平台公开比较详细的数据,只提供了属性的取值分布信息,则第三方平台可以从数据源提供的原始数据集中获取目标属性对应的取值分布信息,再基于目标属性对应的取值分布信息,构建出满足目标属性对应的取值分布信息的目标属性的虚拟值,根据目标属性的虚拟值以及目标属性创建所述样本数据集。
基于数据源提供的数据直接获取满足待检测规则模型的目标属性的取值作为样本数据,或者基于目标属性的取值分布信息创建出虚拟的样本数据,为后续规则模型的安全性检测提供了准确的数据基础。
步骤206、根据所述样本数据集中的目标属性的取值分布,确定所述待检测规则模型的规则集命中情况下各个目标属性的第一猜中概率和所述待检测规则模型的规则集未命中情况下各个目标属性的第二猜中概率;其中,所述目标属性为所述样本数据集与所述规则集中均存在的属性。
在具体的实施过程中,在对待检测规则模型进行安全性检测时,可以利用样本数据集中与待检测规则模型中相同的属性即目标属性的取值分布,对待检测规则模型的规则集进行检测,依次计算待检测规则模型的规则集命中情况下样本数据集中各个目标属性的第一猜中概率和待检测规则模型的规则集未命中情况下样本数据集中各个目标属性的第二猜中概率。其中,规则集命中可以理解为属性取值满足该规则集的规则条件,未命中则可以理解为属性取值不满足规则集中的规则条件即规则集的逆否命题被命中。猜中概率可以理解为在一种条件下样本数据集中的目标属性的取值被猜中的可能性,如:满足某规则集条件的情况下样本数据集中的目标属性的取值被猜中的概率。即各个目标属性的猜中概率表示在已知所述待检测规则模型的规则集命中或未命中的结果时,猜中所述样本数据集中的目标属性各个取值的概率。如:样本数据集中每个目标属性的取值可以有多个,可以将各个目标属性的各个取值被猜中的概率的平均值、方差、中位数等作为对应目标属性的猜中概率,或者也可以目标属性的每一个取值的猜中概率均作为对应目标属性的猜中概率。
本说明书一些实施例中,所述第一猜中概率为所述待检测规则模型的规则集命中情况下,所述样本数据集中目标属性的各个取值的猜中概率中的最大值;
所述第二猜中概率为所述待检测规则模型的规则集未命中情况下,所述样本数据集中目标属性的各个取值的猜中概率中的最大值。
在具体的实施过程中,可以将规则集命中和未命中情况下,样本数据集中各个目标属性的取值被猜中的概率最大值作为目标属性的猜中概率。如:在计算目标属性的猜中概率时,可以依次计算满足条件下(如:规则集命中或规则集未命中)的各个目标属性的各个取值的猜中概率,选择其中概率值最大的作为该目标属性的猜中概率。其中,第一猜中概率可以理解为在规则集命中情形下目标属性的最大猜中概率,第二猜中概率可以理解为在规则集未命中情形下目标属性的最大猜中概率。可以利用计算机程序统计出在满足不同规则集命中或未命中条件时,样本数据集中各个目标属性的取值的猜中概率,从而计算出各个目标属性的猜中概率。
需要说明的是,待检测规则模型中可能包括多条规则集,可以依次计算每一条规则集命中、未命中或多条规则集同时命中、未命中时,各个目标属性的第一猜中概率、第二猜中概率,即可以依次检测待检测规则模型每一种命中和未命中情况下的目标属性的猜中概率。当然,规则集中涉及到的目标属性的数量也可以是多个,本说明书实施例对目标属性的数量以及规则集的数量不作具体限定。下面以一个简单的示例解释本说明书实施例中的第一猜中概率和第二猜中概率的计算方式,多个目标属性和多个规则集的情况,可以参考下述示例进行,本说明书实施例不作过多的赘述。
例如:某待检测规则模型中的规则集为:X1>2,构建出的样本数据集中包括10个目标属性X1的取值,具体为X1=1、2、2、2、3、4、4、5、5、5,则规则集命中的情况下样本数据集中目标属性X1的取值只能为3、4、5。一般的,数据源或者第三方在检测模型是否安全时是已知规则集内容以及目标属性的取值范围的,在知道规则集命中的情况下只会猜测目标属性X1的取值为3或4或5。其中,猜中目标属性X1=3的概率为1/6,猜中目标属性X1=4的概率为2/6,猜中目标属性X1=5的概率为3/6。当选择目标属性的取值被猜中的最大概率作为目标属性的猜中概率时,在规则集命中的情况下样本数据集中目标属性X1的取值的第一猜中概率为3/6=1/2。同样的,规则集未命中的情况下样本数据集中目标属性X1的取值只能为1、2,其中,猜中目标属性X1=1的概率为1/4,猜中目标属性X1=2的概率为3/4,因此,在规则集未命中的情况下样本数据集中目标属性X1的第二猜中概率为3/4。
此外,本说明书实施例中的属性一般是离散型数据,若样本数据集中的目标属性是连续型数据,则可以将样本数据集中的各个目标属性进行离散化处理,将各个目标属性离散成一个个小区间。连续型属性的猜中概率可以理解为规则集命中或未命中情况下,猜中属性取值在离散后的区间内的猜中概率。通过将连续型属性离散化处理,将连续型属性转化成离散属性,进一步实现对连续型属性的猜中概率的计算,为规则模型的检测奠定了数据基础。
步骤208、根据各个目标属性的第一猜中概率、第二猜中概率以及各个目标属性对应的预设安全阈值,判断所述待检测规则模型是否安全。
在具体的实施过程中,可以为各个目标属性预先配置预设安全阈值,该预设安全阈值可以由数据源根据自己的需要进行配置,如:基于各个目标属性的取值分布或基于各个目标属性的重要程度等进行配置,预设安全阈值的取值以及配置方法本说明书实施例不作具体限定,如:若某个目标属性的数据安全性要求比较高,则可以将该目标属性的预设安全阈值设置为较小的取值。在计算出各个目标属性的第一猜中概率、第二猜中概率后,可以基于各个目标属性的第一猜中概率、第二猜中概率以及各个目标属性对应的预设安全阈值,来判断待检测规则模型是否安全,是否会被模型的构建方或使用方猜中真实数据。例如:可以将各个目标属性的第一猜中概率和第二猜中概率与各个目标属性对应的预设安全阈值进行比较,若所有目标属性的第一猜中概率和第二猜中概率均小于或等于该目标属性对应的预设安全阈值,则可以确定待检测规则模型是安全的。或者,若目标属性的猜中概率为目标属性的每一个取值的猜中概率,也可以依次将目标属性的每一个取值的概率均与目标属性对应的预设安全阈值进行比较,若小于预设安全阈值的取值的数量大于指定数量,则可以确定该目标属性是安全的,若小于或等于对应的预设安全阈值的目标属性的数量大于一定数量,则确定待检测规则模型是安全的。
例如:若待检测规则模型中的规则集涉及到3个目标属性X1、X2、X3,待检测规则模型中只有一条规则集,预先设置X1对应的预设安全阈值为0.3,X2的预设安全阈值为0.7,X3的预设安全阈值为0.5。通过样本数据集对待检测规则模型进行安全性检测,可以确定待检测规则模型的规则集命中和未命中两种情况下,X1的第一猜中概率为0.1、第二猜中概率为0.2,X2的第一猜中概率为0.6、第二猜中概率为0.3,X3的第一猜中概率为0.3、第二猜中概率为0.3。将X1的第一猜中概率、第二猜中概率与X1的预设安全阈值进行比较,确定X1的两种猜中概率均小于对应的预设安全阈值0.3,同样的,X2的两种猜中概率均小于对应的预设安全阈值0.7,X3的两种猜中概率也均小于对应的预设安全阈值0.5,因此,确定待检测规则模型是安全的,可以认为模型创建方不会猜中数据源的数据,可以在数据源部署。若检测到待检测规则模型不安全,数据源可以拒绝部署该待检测规则模型,以避免不在允许范围内的数据被模型创建方获取到。
此外,预设安全阈值还可以包括不同等级的安全阈值,如:警告阈值、拒绝部署阈值,若经判断超过警告阈值,则可以提示相关工作人员该待检测模型存在安全隐患,若超过拒绝部署阈值,则可以直接拒绝该待检测规则模型的部署。预设安全阈值的类型、等级等可以根据实际需要进行设置,本说明书实施例不作具体限定。
本说明书实施例提供的规则模型的安全性检测方法,实现了一种对于规则模型的创建方和数据源不属于同一机构或平台时,对规则模型的安全性检测,利用样本数据集计算待检测规则模型在每一种命中情形下各个目标属性的猜中概率,再基于猜中概率和预先设置的预设安全阈值,判断出待检测规则模型是否安全。实现了在数据源方允许的范围内输出数据源方的数据,以避免规则模型的创建方通过创建特殊的规则,根据模型的输出结果,获取到数据源方的数据,确保了数据源方的数据安全性,进一步提高了用户信息的安全性。而且可以得到不安全情形涉及到模型中哪几个规则集的组合,能够追踪到模型的不安全点在哪。
在上述实施例的基础上,本说明书一些实施例中,获取到所述样本数据集后,所述方法还包括:
获取所述样本数据集中目标属性的取值的分布,确定出所述样本数据集中各个目标属性的盲猜概率;
所述判断所述规则模型是否安全,包括:
根据各个目标属性的盲猜概率、第一猜中概率、第二猜中概率以及各个目标属性对应的预设安全阈值,判断所述待检测规则模型是否安全。
在具体的实施过程中,在获取到样本数据集后,可以根据样本数据集中的目标属性的取值分布信息,计算样本数据集中各个目标属性的盲猜概率。目标属性的盲猜概率可以理解为在不知道规则集的命中结果的情形下,直接根据样本数据集中目标属性的取值分布,猜中各个目标属性的取值的可能性。如:可以是根据样本数据集中目标属性的取值分布,猜中各个目标属性的取值的概率的平均值、方差、中位数等作为对应目标属性的盲猜概率。
本说明书一些实施例中,所述各个目标属性的盲猜概率为所述样本数据集中各个目标属性的第一样本数量与所述目标属性的样本总数量的比值,其中,第一样本数量为各个目标属性中样本数量最多的属性取值对应的样本数量。
在具体的实施过程中,目标属性的盲猜概率可以为在不知道规则模型的命中结果时,各个目标属性的取值被猜中的最大猜中概率,即各个目标属性中取值的样本数量最多的占对应目标属性的样本总数量的比值。如:表1是本说明书一个示例中样本数据集中各个目标属性的取值信息,表2是基于表1统计出的目标属性X1取值的分布信息,基于表2可以知道X1取值为3和5的样本数量最多,均占目标属性X1的样本总数量的3/10,则可以确定目标属性X1的最大盲猜概率为3/10。
表1:样本数据集中目标属性取值信息
盲猜概率可以理解为基于数据源方公开的信息如:目标属性取值的分布信息,模型生成方或使用方能够直接猜出各个目标属性的取值的概率,第一猜中概率和第二猜中概率可以理解为基于数据源公布的信息和模型的输出结果如:命中哪些规则集,模型生成方或模型使用方猜出目标属性取值的概率。计算出各个目标属性的盲猜概率以及第一猜中概率、第二猜中概率后,可以基于盲猜概率以及第一猜中概率、第二猜中概率以及各个目标属性对应的预设安全阈值来判断待检测规则模型是否安全。例如:可以计算一个目标属性的第一猜中概率与盲猜概率、第二猜中概率与盲猜概率之间的差值。将差值与预设安全阈值进行比较,来判断待检测规则模型是否安全。该差值可以在一定程度上体现模型输出结果对用户猜中目标属性取值的影响,若差值很大,则可以认为模型输出结果对提升猜中目标属性取值有很大的效果,可以认为该规则模型不安全。
表2:目标属性X1取值的统计分布
目标属性取值 | 样本数 | 比例 |
1 | 1 | 1/10 |
2 | 3 | 3/10 |
3 | 1 | 1/10 |
4 | 2 | 2/10 |
5 | 3 | 3/10 |
本说明书实施例综合考虑没有模型输出结果时的猜中目标属性取值概率即盲猜概率和基于模型输出结果猜中目标属性取值的概率即第一猜中概率、第二猜中概率,可以检查模型输出结果对猜中目标属性取值的影响程度,实现了规则模型的安全性检测,确保了数据的安全性。
在上述实施例的基础上,本说明书一些实施例中,所述判断所述规则模型是否安全,包括:
根据各个目标属性的盲猜概率、第一猜中概率和第二猜中概率,确定出所述待检测规则模型的规则集命中情况下所述样本数据集中的各个目标属性的第一猜测提升率和所述待检测规则模型的规则集未命中情况下所述样本数据集中的各个目标属性的第二猜测提升率;其中,所述第一猜测提升率为第一猜中概率与盲猜概率的比值,所述第二猜测提升率为第二猜中概率与盲猜概率的比值;
根据各个目标属性的第一猜测提升率、第二猜测提升率和各个目标属性对应的预设猜测提升率阈值,判断所述待检测规则模型是否安全。
在具体的实施过程中,可以根据各个目标属性的第一猜中概率与盲猜概率的比值计算出各个目标属性的第一猜测提升率,根据各个目标属性的第二猜中概率与盲猜概率的比值计算出各个目标属性的第二猜测提升率。第一猜测提升率、第二猜测提升率可以理解为基于待检测规则模型的输出结果猜中目标属性取值比直接根据数据源公布的目标属性取值分布信息猜中目标属性取值的概率的提升,第一猜测提升率和第二猜测提升率可以反映规则模型输出结果对猜中目标属性取值的相对影响,第一猜中概率和第二猜中概率可以反映规则模型输出结果对猜中目标属性取值的绝对影响。本说明书实施例中,可以直接使用第一猜中概率、第二猜中概率来判断待检测规则模型是否安全,也可以使用第一猜测提升率、第二猜测提升率来判断待检测规则模型是否安全,用户可以根据自己的需要选择其中任意一种方式。若选择使用猜中概率作为模型安全的检测标准,则预设安全阈值可以为预设猜中概率阈值,若选择使用猜测提升率作为模型安全的检测标准,则预设安全阈值可以为预设猜测提升率阈值。当然,根据实际使用需要,也可以同时选择两种方式即同时考虑猜中概率和猜测提升率进行模型的安全性检测,数据源可以根据自己的需要预先配置预设安全阈值,本说明书实施例不作具体限定。
本说明书实施例基于猜中概率和盲猜概率的比值,计算出目标属性的猜测提升率,可以直观明显的展现出规则模型的输出结果对猜中目标属性取值的影响,再基于猜测提升率和预设猜测提升率阈值对待检测规则模型进行安全性检测,以确保部署在数据源的规则模型的安全,保证数据源中的数据不会被轻易获取到。
在上述实施例的基础上,本说明书一些实施例中,所述方法还包括:
根据所述样本数据集中满足所述待检测规则模型的规则集命中条件的样本数量和所述样本数据集中的样本总数量,确定出所述待检测规则模型的规则集命中情况下的第一样本占比;
根据所述样本数据集中满足所述待检测规则模型的规则集未命中条件的样本数量和所述样本数据集中的样本总数量,确定出所述待检测规则模型的规则集未命中情况下的第二样本占比;
所述判断所述待检测规则模型是否安全,包括:
根据所述第一样本占比、所述第二样本占比、各个目标属性的第一猜中概率、第二猜中概率和各个目标属性对应的预设安全阈值,或,根据所述第一样本占比、所述第二样本占比、各个目标属性的第一猜测提升率、第二猜测提升率和各个目标属性对应的预设安全阈值,判断所述待检测规则模型是否安全。
在具体的实施过程中,本说明书一些实施例中,还可以计算样本数据集中满足规则集命中条件的样本数量与样本数据集中的样本总数量的比值,确定出第一样本占比,同样的,还可以计算出样本数据集中满足规则集未命中条件的样本数量与样本数据集中的样本总数量的比值,确定出第二样本占比。再基于样本占比和猜中概率、或根据样本占比和猜测提升率对待检测规则模型进行安全性检测。例如:若选择猜中概率作为检测标准,则可以根据第一样本占比、第二样本占比、各个目标属性的第一猜中概率、第二猜中概率和各个目标属性对应的预设安全阈值,来检测待检测规则模型是否安全。若选择猜测提升率作为检测标准,则可以根据第一样本占比、第二样本占比、各个目标属性的第一猜测提升率、第二猜测提升率和各个目标属性对应的预设安全阈值,来检测待检测规则模型是否安全。
本说明书实施例中,将样本占比作为检测规则模型安全性的标准之一,基于样本占比可以确定出满足规则集命中或未命中条件的数据量的大小,可以反映出该规则集被命中或未命中对数据源提供的数据的影响程度。如:虽然目标属性的猜中概率或猜测提升率大于预设安全阈值,即该目标属性被猜中的可能性很大,但是该目标属性的样本数量很少,即使该目标属性被猜中对数据影响不大。基于样本占比可以衡量影响面的大小,即受影响的样本数量比例有多大,提高受影响面大的数据的安全性。
在上述实施例的基础上,本说明书一些实施例中,所述判断所述待检测规则模型是否安全,包括:
若所述第一样本占比大于预设样本占比阈值且各个目标属性的第一猜中概率均大于对应目标属性的预设猜中概率阈值,或者,各个目标属性的第一猜测提升率大于对应目标属性的预设猜测提升率阈值,则确定规则集命中情况下所述待检测规则模型不安全;
若所述第二样本占比大于预设样本占比阈值且各个目标属性的第二猜中概率均大于对应目标属性的预设猜中概率阈值,或者,各个目标属性的第二猜测提升率大于对应目标属性的预设猜测提升率阈值,则确定规则集未命中情况下所述待检测规则模型不安全。
在具体的实施过程中,若选择猜中概率作为检测规则模型的标准,可以将第一样本占比与预设样本占比阈值进行比较,同时将各个目标属性的第一猜中概率分别与各个目标属性对应的预设猜中概率阈值进行比较。若第一样本占比小于或等于预设样本占比阈值,或各个目标属性的第一猜中概率均小于或等于对应目标属性的预设猜中概率阈值,则确定规则集命中情况下待检测规则模型安全,反之,则确定规则集命中情况下待检测规则模型不安全。同样的,将第二样本占比与预设样本占比阈值进行比较,同时将各个目标属性的第二猜中概率分别与各个目标属性对应的预设猜中概率阈值进行比较,若第二样本占比小于或等于预设样本占比阈值,或各个目标属性的第二猜中概率小于或等于对应目标属性的预设猜中概率阈值,则确定规则集未命中情况下待检测规则模型安全,反之,则确定规则集未命中情况下待检测规则模型不安全。
若选择猜测提升率作为检测规则模型的标准,则可以将第一样本占比与预设样本占比阈值进行比较,同时将各个目标属性的第一猜测提升率分别与各个目标属性对应的预设猜测提升率阈值进行比较,若第一样本占比小于或等于预设样本占比阈值,或各个目标属性的第一猜测提升率小于或等于对应目标属性的预设猜测提升率阈值,则确定规则集命中情况下待检测规则模型安全,反之,则确定规则集命中情况下待检测规则模型不安全。同样的,将第二样本占比与预设样本占比阈值进行比较,同时将各个目标属性的第二猜测提升率分别与各个目标属性对应的预设猜测提升率阈值进行比较,若第二样本占比小于或等于预设样本占比阈值,或各个目标属性的第二猜测提升率小于或等于对应目标属性的预设猜测提升率阈值,则确定规则集未命中情况下待检测规则模型安全,反之,则确定规则集未命中情况下待检测规则模型不安全。
需要说明的是,本说明书实施例中的样本占比可以是各个目标属性的样本占比,即满足规则集条件(命中或未命中)的样本数据中各个目标属性的数量和样本数据集中该目标属性的样本总数量的比值,也可以是总的样本占比,即满足规则集条件(命中或未命中)的样本数据中所有目标属性的数量和样本数据集中所有目标属性的总数量的比值。因此,在设置预设样本占比阈值时,可以为每个目标属性设置一个预设样本占比阈值,也可以设置一个整体的预设样本占比阈值,本说明书实施例不作具体限定。
本说明书实施例,将猜测提升率(或最大猜中概率)和样本占比,分别跟预设的阈值比较,便可判定模型是否安全。并且,可以获得不安全情形涉及到模型中哪几个规则集的组合,能够追踪到模型的不安全点在哪。
在上述实施例的基础上,本说明书一些实施例中,所述判断所述待检测规则模型是否安全,包括:
分别判断所述规则集命中和未命中情况下所述待检测规则模型是否安全,若确定规则集命中、未命中情况下所述待检测规则模型均安全,则确定出所述待检测规则模型安全。
在分别判断规则集命中和未命中情况下待检测规则模型的安全性后,若存在一种情形待检测规则模型不安全,则可以认为该规则模型不安全,以避免数据源的数据被盗取。
在上述实施例的基础上,本说明书一些实施例中,所述判断所述待检测规则模型是否安全,包括:
若存在一个目标属性的第一猜中概率或第二猜中概率大于对应目标属性的预设安全阈值,则确定所述待检测规则模型不安全。
在具体的实施过程中,样本数据集中可以包括有多个目标属性,若在检测规则模型的安全性时,若存在一个目标属性存在风险,则可以确定该规则模型是不安全的。例如:若选择猜中概率作为检测规则模型的安全性标准,则若存在一个目标属性的第一猜中概率或第二猜中概率大于对应目标属性的预设安全阈值,则可以确定该目标属性被猜中取值的可能性很大,认为规则模型不安全。若选择猜测提升率作为检测规则模型的安全性标准,则若第一猜测提升率或第二猜测提升率大于对应目标属性的预设安全阈值,则可以认为该目标属性存在比较大的可能性被猜中,则可以判断待检测规则模型不安全,从而确保数据源中每个目标属性数据的安全性。
下面结合本说明书实施例中表1-表9,下述实施例中变量等同于上述实施例中的目标属性,说明书一个场景示例中规则模型的安全性检测过程可以包括:
1.计算每个离散变量的每个值的盲猜概率(对连续型变量则先离散化成小区间,计算变量的值落入每个小区间的盲猜概率),获取各个取值的盲猜概率中的最大值,作为本说明书实施例中变量的盲猜概率,即本说明书一个实施例中将变量的最大盲猜概率作为变量的盲猜概率。如表1-表5所示,可以根据数据源提供的变量信息,统计出各个变量的取值分布,进而计算出变量X1、X2、X3的最大盲猜概率,具体可以参见表5所示。
2.为每个变量设置预设安全阈值,不同变量的敏感性可能不同,而且不同变量的(最大)盲猜概率一般也是不同,可以根据每个变量的取值分布或重要性程度等,设置各个变量的预设安全阈值,本说明书一个示例中的安全阈值的设置可以参见表6所示。另外,预设猜测提升率阈值和预设猜中概率阈值两者可以互相转换,可以选定一个配置。
3.计算规则模型的每一种命中情形下(一种命中情形是指规则模型中哪些规则集命中了,哪些没命中),每个变量每个值的猜中概率,取其中的最大值作为在这种命中情形下变量的猜中概率。即本说明书一个实施例中将变量的最大猜中概率作为变量的猜中概率,并基于该变量的最大猜中概率和最大盲猜概率,计算各个变量的猜测提升率。
表3:变量X2取值的统计分布
变量值 | 样本数 | 比例 |
1 | 3 | 3/10 |
2 | 0 | 0 |
3 | 2 | 2/10 |
4 | 4 | 4/10 |
5 | 1 | 1/10 |
4.计算每一种命中情形下的样本占比,比如说有第1和3两个规则集命中了,其它的没命中,这种情形下命中的样本占全部样本的比例。如果占比小,说明这种命中情形影响到的样本少,否则影响到的样本就多。
如表7所示,表7中每一行可以代表一个规则模型,每个规则模型均包括一个规则集,可以分别计算每个规则集命中、未命中两种情形下各个变量的最大猜中概率、猜测提升率。如:第二行的规则集为X1=4,当已知规则集命中时,可以确定X1=4,因此,X1的最大猜中概率为1,猜测提升率为1/(3/10)=10/3,根据X1的取值分布可知X1共2个,占X1的样本总数量的比值为2/10。若规则集X1=4未命中,则可以知道X1≠4,即X1可以取1、2、3、5,则模型构建方可以在1、2、3、5选择一个猜测X1的取值,此时,X1=1的猜中概率为1/8,X1=2的猜中概率为3/8,X1=3的猜中概率为1/8,X1=5的猜中概率为3/8,因此,X1的最大猜中概率为3/8,猜测提升率为(3/8)/(3/10)=5/4,并且X1≠4的样本数量为8个,此时的样本占比为8/10。
以此类推,可以得到表7中规则集为X2>=4、X3>8的最大猜中概率、猜测提升率、样本占比。
对于表7中的规则集X1=4&X2>=4,若规则集命中,则可以确定X1=4,X1的最大猜中概率为1,X2可以取4、5,X2的最大猜中概率为4/5,X1的猜测提升率为10/3,X2的猜测提升率为2。对于该规则集命中情形下的样本占比,可以基于数据源提供的变量组合取值信息,即创建出(X1,X2)的样本数据,如:一个示例中,基于X1、X2的取值分布信息,创建出一组样本数据为:(X1=1,X2=3)、(X1=2,X2=1)、(X1=2,X2=4)、(X1=2,X2=3)、(X1=3,X2=1)、(X1=4,X2=1)、(X1=4,X2=4)、(X1=5,X2=4)、(X1=5,X2=4)、(X1=5,X2=5)。当X1=4&X2>=4命中时,可以看出,其中符合条件的样本数据有:(X1=4,X2=1)、(X1=4,X2=4),因此,规则集X1=4&X2>=4命中时的样本占比为2/10。同样的,采用相似的方法可以计算出规则集X1=4&X2>=4未命中情况下的最大猜中概率、猜测提升率、样本占比,此处不再赘述。
表4:变量X3取值的统计分布
变量值 | 样本数 | 比例 |
2 | 2 | 2/10 |
3 | 1 | 1/10 |
7 | 1 | 1/10 |
8 | 2 | 2/10 |
9 | 2 | 2/10 |
10 | 2 | 2/10 |
其它 | 0 | 0 |
5.将得到的猜测提升率(或最大猜中概率)和样本占比,分别跟对应的预设安全阈值比较,如:若猜测提升率小于预设猜测提升率阈值,或样本占比小于预设样本占比阈值,则判定为安全的,否则就判定为不安全的,这时数据源也得到了这种不安全情形涉及到模型中哪几个规则集的组合。
表5:各个变量的最大盲猜概率
变量 | 最大盲猜概率 |
X1 | 3/10 |
X2 | 4/10 |
X3 | 2/10 |
表6:预设安全阈值配置
变量 | 预设猜中概率阈值 | 预设猜测提升率阈值 | 预设样本占比阈值 |
X1 | 0.6 | 2 | 0.1 |
X2 | 0.6 | 1.5 | 0.1 |
X3 | 0.6 | 3 | 0.1 |
表7:安全性判断
/>
需要说明的是,上述表7中同时列出了变量的最大猜中概率、猜测提升率,在进行规则模型的判断时,可以选择其中一个作为规则模型安全性检测的标准。关于规则模型的安全性检测方式可以参见表8-表9所示:
表8:基于猜测提升率的安全性检测方案
例如:上述表7中,若以猜测提升率作为安全性检测的标准,则在X1=4命中情形下,变量X1的猜测提升率10/3大于表6中配置的预设猜测提升率阈值2,样本占比2/10大于表6中配置的预设样本占比阈值0.1,因此,X1=4命中情形下规则模型不安全。同样的方法,可以判断出X1=4未命中情形下规则模型安全,但是因为命中情形下确定规则模型不安全,因此,可以判断该规则模型不安全。以此类推,可以的得到表7中规则集为X2>=4、X3>8的安全性检测结果。
对于规则集X1=4&X2>=4,由上述实施例可以知道,X1=4&X2>=4命中时,变量X1猜测提升率10/3大于表6中配置的预设猜测提升率阈值2,X2的猜测提升率2大于表6中配置的预设猜测提升率阈值1.5,样本占比2/10大于表6中配置的预设样本占比阈值0.1,可以判断在X1=4&X2>=4规则集命中时,规则模型不安全。因此,确定规则集为X1=4&X2>=4的规则模型不安全。
6.当存在不安全的情形时,数据源可拒绝该模型的部署,并可要求模型生成方修改模型的配置,直到模型通过安全性检查为止。
表9:基于最大猜中概率的安全性检测方案
本说明书实施例中,可以根据每个变量的公开的统计分布,将每一个变量的值的(最大)盲猜概率作为安全性度量的基准。对规则模型的每种命中情形,将变量值的最大猜中概率作为度量安全性的关键指标之一。对规则模型的每种命中情形,将最大猜中概率除以最大盲猜概率,得到变量值的猜测提升率,将其作为度量安全性的关键指标之一。对规则模型的每种命中情形,将命中的样本占比也作为指标,衡量影响面的大小,即受影响的样本数/比例有多大。对每个变量设置阈值,即可接受的信息泄露程度。将猜测提升率(或最大猜中概率)和样本占比,分别跟预设的阈值比较,便可判定模型是否安全。而且可以得到不安全情形涉及到模型中哪几个规则集的组合,能够追踪到模型的不安全点在哪。
本说明书中上述方法的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参考即可,每个实施例重点说明的都是与其他实施例的不同之处。相关之处参考方法实施例的部分说明即可。
基于上述所述的规则模型的安全性检测方法,本说明书一个或多个实施例还提供一种用于规则模型的安全性检测的装置。所述装置可以包括使用了本说明书实施例所述方法的系统(包括分布式系统)、软件(应用)、模块、组件、服务器、客户端等并结合必要的实施硬件的装置。基于同一创新构思,本说明书实施例提供的一个或多个实施例中的装置如下面的实施例所述。由于装置解决问题的实现方案与方法相似,因此本说明书实施例具体的装置的实施可以参考前述方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
具体地,图3是本说明书提供的规则模型的安全性检测装置一个实施例的模块结构示意图,该装置即可以理解为上述实施例中的第三方平台或数据源所属的平台,如图3所示,本说明书中提供的规则模型的安全性检测装置可以包括:
规则集获取模块31,用于获取待检测规则模型的规则集;
样本获取模块32,用于获取所述待检测规则模型安全性检测的样本数据集;
安全指标计算模块33,用于根据所述样本数据集中的目标属性的取值分布,确定所述待检测规则模型的规则集命中情况下各个目标属性的第一猜中概率和所述待检测规则模型的规则集未命中情况下各个目标属性的第二猜中概率;其中,所述目标属性为所述样本数据集与所述规则集中均存在的属性;
安全性判断模块34,用于根据各个目标属性的第一猜中概率、第二猜中概率以及各个目标属性对应的预设安全阈值,判断所述待检测规则模型是否安全。
本说明书实施例提供的规则模型的安全性检测装置,实现了一种对于规则模型的创建方和数据源不属于同一机构或平台时,对规则模型的安全性检测,利用样本数据集计算待检测规则模型在每一种命中情形下各个目标属性的猜中概率,再基于猜中概率和预先设置的预设安全阈值,判断出待检测规则模型是否安全。实现了在数据源方允许的范围内输出数据源方的数据,以避免规则模型的创建方通过创建特殊的规则,根据模型的输出结果,获取到数据源方的数据,确保了数据源方的数据安全性,进一步提高了用户信息的安全性。而且可以得到不安全情形涉及到模型中哪几个规则集的组合,能够追踪到模型的不安全点在哪。
本说明书一些实施例中,所述安全指标计算模块还用于:
在所述样本获取模块获取到所述样本数据集后,获取所述样本数据集中目标属性的取值分布,确定出所述样本数据集中各个目标属性的盲猜概率;
所述安全性判断模块具体用于:
根据各个目标属性的盲猜概率、第一猜中概率、第二猜中概率以及各个目标属性对应的预设安全阈值,判断所述待检测规则模型是否安全。
本说明书实施例提供的规则模型的安全性检测装置,综合考虑没有模型输出结果时的猜中目标属性取值概率即盲猜概率和基于模型输出结果猜中目标属性取值的概率即第一猜中概率、第二猜中概率,可以检查模型输出结果对猜中目标属性取值的影响程度,实现了规则模型的安全性检测,确保了数据的安全性。
本说明书一些实施例中,所述安全指标计算模块具体用于:
根据各个目标属性的盲猜概率、第一猜中概率和第二猜中概率,确定出所述待检测规则模型的规则集命中情况下所述样本数据集中各个目标属性的第一猜测提升率和所述待检测规则模型的规则集未命中情况下所述样本数据集中的各个目标属性的第二猜测提升率;其中,所述第一猜测提升率为第一猜中概率与盲猜概率的比值,所述第二猜测提升率为第二猜中概率与盲猜概率的比值;
所述安全性判断模块具体用于:
根据各个目标属性的第一猜测提升率、第二猜测提升率和各个目标属性对应的预设猜测提升率阈值,判断所述待检测规则模型是否安全。
本说明书实施例,基于猜中概率和盲猜概率的比值,计算出目标属性的猜测提升率,可以直观明显的展现出规则模型的输出结果对猜中目标属性取值的影响,再基于猜测提升率和预设猜测提升率阈值对待检测规则模型进行安全性检测,以确保部署在数据源的规则模型的安全,保证数据源中的数据不会被轻易获取到。
本说明书一些实施例中,所述安全指标计算模块还用于:
根据所述样本数据集中满足所述待检测规则模型的规则集命中条件的样本数量和所述样本数据集中的样本总数量,确定出所述待检测规则模型的规则集命中情况下的第一样本占比;
根据所述样本数据集中满足所述待检测规则模型的规则集未命中条件的样本数量和所述样本数据集中的样本总数量,确定出所述待检测规则模型的规则集未命中情况下的第二样本占比;
所述安全性判断模块具体用于:
根据所述第一样本占比、所述第二样本占比、各个目标属性的第一猜中概率、第二猜中概率和各个目标属性对应的预设安全阈值,或,根据所述第一样本占比、所述第二样本占比、各个目标属性的第一猜测提升率、第二猜测提升率和各个目标属性对应的预设安全阈值,判断所述待检测规则模型是否安全。
本说明书实施例提供的规则模型的安全性检测装置,基于猜中概率和盲猜概率的比值,计算出目标属性的猜测提升率,可以直观明显的展现出规则模型的输出结果对猜中目标属性取值的影响,再基于猜测提升率和预设猜测提升率阈值对待检测规则模型进行安全性检测,以确保部署在数据源的规则模型的安全,保证数据源中的数据不会被轻易获取到。
本说明书一些实施例中,所述样本构建模块具体用于:
从数据源提供的原始数据集中获取所述待检测规则模型的规则集中存在的目标属性;
从所述原始数据集中获取所述目标属性的真实值,根据所述目标属性以及所述目标属性对应的真实值集合创建出所述样本数据集;
或,从所述原始数据集中获取所述目标属性对应的取值分布信息,根据所述目标属性对应的取值分布信息,构建出满足目标属性对应的取值分布信息的目标属性的虚拟值,根据所述目标属性的虚拟值以及目标属性创建所述样本数据集。
本说明书实施例基于数据源提供的数据直接获取满足待检测规则模型的目标属性的取值数据作为样本数据,或者基于目标属性的取值分布信息创建出虚拟的样本数据,为后续规则模型的安全性检测提供了准确的数据基础。
需要说明的,上述所述的装置根据对应方法实施例的描述还可以包括其他的实施方式。具体的实现方式可以参照上述对应的方法实施例的描述,在此不作一一赘述。
本说明书实施例还提供一种规则模型的安全性检测设备,包括:至少一个处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现上述实施例的信息推荐数据处理方法,如:
获取待检测规则模型的规则集;
获取所述待检测规则模型安全性检测的样本数据集;
根据所述样本数据集中的目标属性的取值分布,确定所述待检测规则模型的规则集命中情况下各个目标属性的第一猜中概率和所述待检测规则模型的规则集未命中情况下各个目标属性的第二猜中概率;其中,所述目标属性为所述样本数据集与所述规则集中均存在的属性;
根据各个目标属性的第一猜中概率、第二猜中概率以及各个目标属性对应的预设安全阈值,判断所述待检测规则模型是否安全。
本说明书实施例还提供一种规则模型的安全性检测系统,包括:规则模型检测装置、规则模型创建装置;其中,所述规则模型检测装置中包括至少一个处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现规则模型安全性检测方法,用于对部署在数据源的规则模型进行安全性检测;
所述规则模型创建装置包括至少一个处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现创建规则模型,并将创建的规则模型部署在数据源中。
需要说明的,上述所述的设备和系统根据方法实施例的描述还可以包括其他的实施方式。具体的实现方式可以参照相关方法实施例的描述,在此不作一一赘述。
本说明书提供的规则模型的安全性检测装置,也可以应用在多种数据分析处理系统中。所述系统或服务器或终端或设备可以为单独的服务器,也可以包括使用了本说明书的一个或多个所述方法或一个或多个实施例系统或服务器或终端或设备的服务器集群、系统(包括分布式系统)、软件(应用)、实际操作装置、逻辑门电路装置、量子计算机等并结合必要的实施硬件的终端装置。所述核对差异数据的检测系统可以包括至少一个处理器以及存储计算机可执行指令的存储器,所述处理器执行所述指令时实现上述任意一个或者多个实施例中所述方法的步骤。
本说明书实施例所提供的方法实施例可以在移动终端、计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例,图4是本说明书一个实施例中规则模型的安全性检测服务器的硬件结构框图,该计算机终端可以是上述实施例中的规则模型的安全性检测服务器或规则模型的安全性检测装置。如图4所示服务器10可以包括一个或多个(图中仅示出一个)处理器100(处理器100可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的非易失性存储器200、以及用于通信功能的传输模块300。本领域普通技术人员可以理解,图4所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,服务器10还可包括比图4中所示更多或者更少的组件,例如还可以包括其他的处理硬件,如数据库或多级缓存、GPU,或者具有与图4所示不同的配置。
非易失性存储器200可用于存储应用软件的软件程序以及模块,如本说明书实施例中的规则模型的安全性检测方法对应的程序指令/模块,处理器100通过运行存储在非易失性存储器200内的软件程序以及模块,从而执行各种功能应用以及资源数据更新。非易失性存储器200可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,非易失性存储器200可进一步包括相对于处理器100远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局与网、移动通信网及其组合。
传输模块300用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端的通信供应商提供的无线网络。在一个实例中,传输模块300包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输模块300可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书提供的上述实施例所述的方法或装置可以通过计算机程序实现业务逻辑并记录在存储介质上,所述的存储介质可以计算机读取并执行,实现本说明书实施例所描述方案的效果,如:
获取待检测规则模型的规则集;
获取所述待检测规则模型安全性检测的样本数据集;
根据所述样本数据集中的目标属性的取值分布,确定所述待检测规则模型的规则集命中情况下各个目标属性的第一猜中概率和所述待检测规则模型的规则集未命中情况下各个目标属性的第二猜中概率;其中,所述目标属性为所述样本数据集与所述规则集中均存在的属性;根据各个目标属性的第一猜中概率、第二猜中概率以及各个目标属性对应的预设安全阈值,判断所述待检测规则模型是否安全。
所述存储介质可以包括用于存储信息的物理装置,通常是将信息数字化后再以利用电、磁或者光学等方式的媒体加以存储。所述存储介质有可以包括:利用电能方式存储信息的装置如,各式存储器,如RAM、ROM等;利用磁能方式存储信息的装置如,硬盘、软盘、磁带、磁芯存储器、磁泡存储器、U盘;利用光学方式存储信息的装置如,CD或DVD。当然,还有其他方式的可读存储介质,例如量子存储器、石墨烯存储器等等。
本说明书实施例提供的上述规则模型的安全性检测方法或装置可以在计算机中由处理器执行相应的程序指令来实现,如使用windows操作系统的c++语言在PC端实现、linux系统实现,或其他例如使用android、iOS系统程序设计语言在智能终端实现,以及基于量子计算机的处理逻辑实现等。
需要说明的是说明书上述所述的装置、计算机存储介质、系统根据相关方法实施例的描述还可以包括其他的实施方式,具体的实现方式可以参照对应方法实施例的描述,在此不作一一赘述。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参考即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于硬件+程序类实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参考方法实施例的部分说明即可。
本说明书实施例并不局限于必须是符合行业通信标准、标准计算机资源数据更新和数据存储规则或本说明书一个或多个实施例所描述的情况。某些行业标准或者使用自定义方式或实施例描述的实施基础上略加修改后的实施方案也可以实现上述实施例相同、等同或相近、或变形后可预料的实施效果。应用这些修改或变形后的数据获取、存储、判断、处理方式等获取的实施例,仍然可以属于本说明书实施例的可选实施方案范围之内。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、车载人机交互设备、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
虽然本说明书一个或多个实施例提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或终端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境,甚至为分布式资源数据更新环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下,并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书一个或多个时可以把各模块的功能在同一个或多个软件和/或硬件中实现,也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
本发明是参照根据本发明实施例的方法、装置(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程资源数据更新设备的处理器以产生一个机器,使得通过计算机或其他可编程资源数据更新设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程资源数据更新设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程资源数据更新设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储、石墨烯存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
本领域技术人员应明白,本说明书一个或多个实施例可提供为方法、系统或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本本说明书一个或多个实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参考即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参考方法实施例的部分说明即可。在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
以上所述仅为本说明书一个或多个实施例的实施例而已,并不用于限制本说明书一个或多个实施例。对于本领域技术人员来说,本说明书一个或多个实施例可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在权利要求范围之内。
Claims (16)
1.一种规则模型的安全性检测方法,所述方法包括:
获取待检测规则模型的规则集;
获取所述待检测规则模型安全性检测的样本数据集;
根据所述样本数据集中目标属性的取值分布,确定所述待检测规则模型的规则集命中情况下各个目标属性的第一猜中概率和所述待检测规则模型的规则集未命中情况下各个目标属性的第二猜中概率;其中,所述目标属性为所述样本数据集与所述规则集中均存在的属性;
根据各个目标属性的第一猜中概率、第二猜中概率以及各个目标属性对应的预设安全阈值,判断所述待检测规则模型是否安全;
所述判断所述待检测规则模型是否安全,包括:分别判断所述规则集命中和未命中情况下所述待检测规则模型是否安全,若确定规则集命中、未命中情况下所述待检测规则模型均安全,则确定出所述待检测规则模型安全;
所述判断所述待检测规则模型是否安全,包括:若存在一个目标属性的第一猜中概率或第二猜中概率大于对应目标属性的预设安全阈值,则确定所述待检测规则模型不安全。
2.如权利要求1所述的方法,获取到所述样本数据集后,所述方法还包括:
获取所述样本数据集中目标属性的取值分布,确定出所述样本数据集中各个目标属性的盲猜概率;
所述判断所述规则模型是否安全,包括:
根据各个目标属性的盲猜概率、第一猜中概率、第二猜中概率以及各个目标属性对应的预设安全阈值,判断所述待检测规则模型是否安全。
3.如权利要求2所述的方法,所述判断所述规则模型是否安全,包括:
根据各个目标属性的盲猜概率、第一猜中概率和第二猜中概率,确定出所述待检测规则模型的规则集命中情况下各个目标属性的第一猜测提升率和所述待检测规则模型的规则集未命中情况下各个目标属性的第二猜测提升率;其中,所述第一猜测提升率为第一猜中概率与盲猜概率的比值,所述第二猜测提升率为第二猜中概率与盲猜概率的比值;
根据各个目标属性的第一猜测提升率、第二猜测提升率和各个目标属性对应的预设猜测提升率阈值,判断所述待检测规则模型是否安全。
4.如权利要求3所述的方法,所述方法还包括:
根据所述样本数据集中满足所述待检测规则模型的规则集命中条件的样本数量和所述样本数据集中的样本总数量,确定出所述待检测规则模型的规则集命中情况下的第一样本占比;
根据所述样本数据集中满足所述待检测规则模型的规则集未命中条件的样本数量和所述样本数据集中的样本总数量,确定出所述待检测规则模型的规则集未命中情况下的第二样本占比;
所述判断所述待检测规则模型是否安全,包括:
根据所述第一样本占比、所述第二样本占比、各个目标属性的第一猜中概率、第二猜中概率和各个目标属性对应的预设安全阈值,或,根据所述第一样本占比、所述第二样本占比、各个目标属性的第一猜测提升率、第二猜测提升率和各个目标属性对应的预设安全阈值,判断所述待检测规则模型是否安全。
5.如权利要求4所述的方法,所述判断所述待检测规则模型是否安全,包括:
若所述第一样本占比大于预设样本占比阈值且各个目标属性的第一猜中概率均大于对应目标属性的预设猜中概率阈值,或者,所述第一样本占比大于预设样本占比阈值且各个目标属性的第一猜测提升率大于对应目标属性的预设猜测提升率阈值,则确定规则集命中情况下所述待检测规则模型不安全;
若所述第二样本占比大于预设样本占比阈值且各个目标属性的第二猜中概率均大于对应目标属性的预设猜中概率阈值,或者,所述第一样本占比大于预设样本占比阈值且各个目标属性的第二猜测提升率大于对应目标属性的预设猜测提升率阈值,则确定规则集未命中情况下所述待检测规则模型不安全。
6.如权利要求1所述的方法,所述获取所述待检测规则模型安全性检测的样本数据集包括:
从数据源提供的原始数据集中获取所述待检测规则模型的规则集中存在的目标属性;
从所述原始数据集中获取所述目标属性的真实值,根据所述目标属性以及所述目标属性对应的真实值集合创建出所述样本数据集;
或,从所述原始数据集中获取所述目标属性对应的取值分布信息,根据所述目标属性对应的取值分布信息,构建出满足目标属性对应的取值分布信息的目标属性的虚拟值,根据所述目标属性的虚拟值以及目标属性获得所述样本数据集。
7.如权利要求1所述的方法,所述方法还包括:
若所述样本数据集中的目标属性是连续型数据,则将所述样本数据集中的各个目标属性进行离散化处理。
8.如权利要求1-7任一项所述的方法,所述第一猜中概率为所述待检测规则模型的规则集命中情况下,所述样本数据集中目标属性的各个取值的猜中概率中的最大值;
所述第二猜中概率为所述待检测规则模型的规则集未命中情况下,所述样本数据集中目标属性的各个取值的猜中概率中的最大值。
9.如权利要求2-5任一项所述的方法,所述各个目标属性的盲猜概率为所述样本数据集中各个目标属性的第一样本数量与所述目标属性的样本总数量的比值,其中,所述第一样本数量为各个目标属性中样本数量最多的属性取值对应的样本数量。
10.一种规则模型的安全性检测装置,包括:
规则集获取模块,用于获取待检测规则模型的规则集;
样本获取模块,用于获取所述待检测规则模型安全性检测的样本数据集;
安全指标计算模块,用于根据所述样本数据集中目标属性的取值分布,确定所述待检测规则模型的规则集命中情况下各个目标属性的第一猜中概率和所述待检测规则模型的规则集未命中情况下各个目标属性的第二猜中概率;其中,所述目标属性为所述样本数据集与所述规则集中均存在的属性;
安全性判断模块,用于根据各个目标属性的第一猜中概率、第二猜中概率以及各个目标属性对应的预设安全阈值,判断所述待检测规则模型是否安全;
所述判断所述待检测规则模型是否安全,包括:分别判断所述规则集命中和未命中情况下所述待检测规则模型是否安全,若确定规则集命中、未命中情况下所述待检测规则模型均安全,则确定出所述待检测规则模型安全;
所述判断所述待检测规则模型是否安全,包括:若存在一个目标属性的第一猜中概率或第二猜中概率大于对应目标属性的预设安全阈值,则确定所述待检测规则模型不安全。
11.如权利要求10所述的装置,所述安全指标计算模块还用于:
在所述样本获取模块获取到所述样本数据集后,获取所述样本数据集中目标属性的取值分布,确定出所述样本数据集中各个目标属性的盲猜概率;
所述安全性判断模块具体用于:
根据各个目标属性的盲猜概率、第一猜中概率、第二猜中概率以及各个目标属性对应的预设安全阈值,判断所述待检测规则模型是否安全。
12.如权利要求11所述的装置,所述安全指标计算模块具体用于:
根据各个目标属性的盲猜概率、第一猜中概率和第二猜中概率,确定出所述待检测规则模型的规则集命中情况下所述样本数据集中各个目标属性的第一猜测提升率和所述待检测规则模型的规则集未命中情况下所述样本数据集中的各个目标属性的第二猜测提升率;其中,所述第一猜测提升率为第一猜中概率与盲猜概率的比值,所述第二猜测提升率为第二猜中概率与盲猜概率的比值;
所述安全性判断模块具体用于:
根据各个目标属性的第一猜测提升率、第二猜测提升率和各个目标属性对应的预设猜测提升率阈值,判断所述待检测规则模型是否安全。
13.如权利要求12所述的装置,所述安全指标计算模块还用于:
根据所述样本数据集中满足所述待检测规则模型的规则集命中条件的样本数量和所述样本数据集中的样本总数量,确定出所述待检测规则模型的规则集命中情况下的第一样本占比;
根据所述样本数据集中满足所述待检测规则模型的规则集未命中条件的样本数量和所述样本数据集中的样本总数量,确定出所述待检测规则模型的规则集未命中情况下的第二样本占比;
所述安全性判断模块具体用于:
根据所述第一样本占比、所述第二样本占比、各个目标属性的第一猜中概率、第二猜中概率和各个目标属性对应的预设安全阈值,或,根据所述第一样本占比、所述第二样本占比、各个目标属性的第一猜测提升率、第二猜测提升率和各个目标属性对应的预设安全阈值,判断所述待检测规则模型是否安全。
14.如权利要求10所述的装置,所述样本获取模块具体用于:
从数据源提供的原始数据集中获取所述待检测规则模型的规则集中存在的目标属性;
从所述原始数据集中获取所述目标属性的真实值,根据所述目标属性以及所述目标属性对应的真实值集合创建出所述样本数据集;
或,从所述原始数据集中获取所述目标属性对应的取值分布信息,根据所述目标属性对应的取值分布信息,构建出满足目标属性对应的取值分布信息的目标属性的虚拟值,根据所述目标属性的虚拟值以及目标属性获得所述样本数据集。
15.一种规则模型的安全性检测设备,包括:至少一个处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现权利要求1-9任一项所述的方法。
16.一种规则模型的安全性检测系统,包括:规则模型检测装置、规则模型创建装置;其中,所述规则模型检测装置中包括至少一个处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现权利要求1-9任一项所述的方法,用于对部署在数据源的规则模型进行安全性检测;
所述规则模型创建装置包括至少一个处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现创建规则模型,并将创建的规则模型部署在数据源中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010908605.6A CN112085369B (zh) | 2020-09-02 | 2020-09-02 | 规则模型的安全性检测方法、装置、设备及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010908605.6A CN112085369B (zh) | 2020-09-02 | 2020-09-02 | 规则模型的安全性检测方法、装置、设备及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112085369A CN112085369A (zh) | 2020-12-15 |
CN112085369B true CN112085369B (zh) | 2024-04-23 |
Family
ID=73732261
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010908605.6A Active CN112085369B (zh) | 2020-09-02 | 2020-09-02 | 规则模型的安全性检测方法、装置、设备及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112085369B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112257098B (zh) * | 2020-12-21 | 2021-03-12 | 蚂蚁智信(杭州)信息技术有限公司 | 规则模型的安全性的确定方法、装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1708945A (zh) * | 2002-10-31 | 2005-12-14 | 国际商业机器公司 | 用于可能的安全性暴露的早期告警指示的查询返回数据分析方法 |
CN108764674A (zh) * | 2018-05-16 | 2018-11-06 | 普信恒业科技发展(北京)有限公司 | 一种基于规则引擎的风险控制方法和装置 |
WO2020015480A1 (zh) * | 2018-07-17 | 2020-01-23 | 阿里巴巴集团控股有限公司 | 检测数据模型安全性的方法及装置 |
CN111416818A (zh) * | 2020-03-17 | 2020-07-14 | 北京金山云网络技术有限公司 | 网站的安全防护方法、装置和服务器 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200125743A1 (en) * | 2018-10-23 | 2020-04-23 | International Business Machines Corporation | Datacenter security |
-
2020
- 2020-09-02 CN CN202010908605.6A patent/CN112085369B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1708945A (zh) * | 2002-10-31 | 2005-12-14 | 国际商业机器公司 | 用于可能的安全性暴露的早期告警指示的查询返回数据分析方法 |
CN108764674A (zh) * | 2018-05-16 | 2018-11-06 | 普信恒业科技发展(北京)有限公司 | 一种基于规则引擎的风险控制方法和装置 |
WO2020015480A1 (zh) * | 2018-07-17 | 2020-01-23 | 阿里巴巴集团控股有限公司 | 检测数据模型安全性的方法及装置 |
CN111416818A (zh) * | 2020-03-17 | 2020-07-14 | 北京金山云网络技术有限公司 | 网站的安全防护方法、装置和服务器 |
Also Published As
Publication number | Publication date |
---|---|
CN112085369A (zh) | 2020-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109948641B (zh) | 异常群体识别方法及装置 | |
CN109347787A (zh) | 一种身份信息的识别方法及装置 | |
CN109508879B (zh) | 一种风险的识别方法、装置及设备 | |
CN111538869B (zh) | 一种交易异常群组的检测方法、装置及设备 | |
CN111325444B (zh) | 一种风险防控决策方法、装置、系统及设备 | |
CN109614414B (zh) | 一种用户信息的确定方法及装置 | |
Song et al. | Permission Sensitivity‐Based Malicious Application Detection for Android | |
CN110634030A (zh) | 应用的业务指标挖掘方法、装置及设备 | |
WO2024113932A1 (zh) | 一种模型优化的方法、装置、设备及存储介质 | |
CN112085369B (zh) | 规则模型的安全性检测方法、装置、设备及系统 | |
CN114417411A (zh) | 一种端云开发系统、模型的处理方法、装置及设备 | |
CN110263817B (zh) | 一种基于用户账号的风险等级划分方法及装置 | |
CN110968865A (zh) | 一种基于概率本体的安卓软件风险评估方法 | |
CN112613072B (zh) | 基于档案大数据的信息管理方法、管理系统及管理云平台 | |
Mendes et al. | Enhancing user privacy in mobile devices through prediction of privacy preferences | |
CN112085588A (zh) | 规则模型的安全性的确定方法、装置和数据处理方法 | |
CN112685799A (zh) | 设备指纹生成方法、装置、电子设备和计算机可读介质 | |
CN115456801B (zh) | 个人信用的人工智能大数据风控系统、方法和存储介质 | |
CN112085370B (zh) | 规则模型的安全性检测方法、装置、设备及系统 | |
Jiang | [Retracted] Research on Machine Learning Algorithm for Internet of Things Information Security Management System Research and Implementation | |
CN111784357B (zh) | 风险事件的处理方法及装置 | |
CN112085590B (zh) | 规则模型的安全性的确定方法、装置和服务器 | |
CN112085589B (zh) | 规则模型的安全性的确定方法、装置和服务器 | |
CN111026458B (zh) | 一种应用程序退出时间设置方法及装置 | |
CN113992429A (zh) | 一种事件的处理方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |