具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本说明书的一个或者多个实施例提供了一种针对群组的风险识别方法及系统,用以解决现有技术的将群组识别为异常群组的准确率较低的技术问题。
本实施例的方法的主要对群组设备进行风险识别,以期提高将群组识别为异常群组的准确率,进而对群组进行风险防控。
具体来说,现有技术中已经存在多种对识别群组风险的方法,但是其大多数都是通过用户群组进行检测(比如根据用户之间的资金关系,介质关系等检测),再根据用户群组关联到设备群组,以对设备群组进行风险定性。这种方式会存在误检测的情况,例如这些群组中可能存在一些无风险的群组,但仍旧会将整个群组认定为异常群组进行风险防控,如此,则会影响风险防控的效果。
因此,本说明书将上述疑似有风险的群组设备统一定性为嫌疑群组。通过本说明书提供的方法对嫌疑群组进行定性识别,才能确认其是否真的为异常群组。
而在本说明书提供的方法中,首先获得设备集合和嫌疑群组。嫌疑群组是其他系统检测出的疑似有风险的群组。进一步的,计算嫌疑群组的联合分布概率。由于嫌疑群组的联合分布概率表示表示嫌疑群组同时满足预设数目的目标设备属性组合的概率,因此能够综合多个设备属性维度的异常或风险对嫌疑群组进行风险定性。进一步的,从设备集合中确定标准群组作为参考标准,并采用相同的方法计算标准群组的联合分布概率,因此能够综合多个设备属性维度的异常或风险对标准群组进行风险定性。然后将标准群组的联合概率分布作为参考,通过两者对比获得概率差,利用概率差对嫌疑群组进行风险识别,能够有效融合群组在多个设备属性维度中的不同风险,从全局的角度识别嫌疑群组的风险,进而提高将嫌疑群组识别为异常群组的准确率,能够有效减少误判的情况,保证风险防控的效果。
参看图1,是本实施例公开的针对群组的风险识别方法的具体实施过程,包括如下步骤:
步骤11,获得设备集合和嫌疑群组。
其中,设备集合从待处理站点中提取得到。具体通过下述方式提取获得:确定待处理站点。采集所述待处理站点中包含的所有设备。按照预设条件对所述所有设备进行筛选,获得所述设备集合。其中,待处理站点可以是任意监测站点,在需要某站点的群组进行风险识别时,即可将该站点确定为待处理站点。而一个站点可能应对多个地理区域;例如,A站点可能应对美国、法国等地区,B站点可能应对菲律宾、越南等地区。因此从站点中监测得到的设备实际上包含了多个地理区域的设备。待处理站点中的群组具有各自的设备属性。总体来说,设备属性包含有两类:设备本身属性和设备自定义属性。设备本身属性是设备出厂时已经确定的属性,包括:品牌、厂商、名称、型号、CPU、内存、存储空间、分辨率、系统版本号、内核版本、MAC地址、设备标识(也称设备ID,例如IMEI)、响应频率等等。设备自定义属性指检测该设备后对其再次定义获得的新属性,包括:是否root(是否获取权限、是否越狱等),请求属性时间,系统音量、充电状态、电量、是否具有锁屏密码、当前位置等等。在采集到所有群组的基础上,会进一步采集所有群组各自的设备属性。
在筛选的过程中,由于采集的所有设备的数量较多、属性不同;另外,由于其从多个地理区域中采集得到,因此站点中的所有设备可能还存在地域影响。假设站点中的A地区使用低端手机(xx牌),而B地区使用的主流手机可能也是低端手机,如果将B地区的低端手机混杂其中一并计算,会导致后续计算的概率出现偏差。故而,为了提高准确率,可以将所述所有设备按照按照目标地域进行筛选,获得设备集合。除上述实施方式之外,由于属性也是影响群组设备的条件。故而,为了提高准确率,可以事先将所述所有设备按照按照预设属性进行筛选,获得设备集合。预设属性是从上述设备属性中确定的一个或者多个属性。当然,以上实施方式仅做举例,实际应用中,任意用于筛选设备集合的预设条件都应当包含在本说明书的保护范围之内。
由于所有设备及其设备属性已成功采集,因此在确定设备集合后,可确定设备集合的原始设备属性。而设备集合的原始设备属性,包括但不限于是:品牌、厂商、名称、型号、CPU、内存、存储空间、分辨率、系统版本号、内核版本、MAC地址、设备标识(例如IMEI)、响应频率、是否root(是否获取权限、是否越狱等),请求属性时间,系统音量、充电状态、电量、是否具有锁屏密码、当前位置等等。
值得注意的是,设备集合中包含一个以上设备,每个设备具有各自的原始设备属性。当然,每个设备各自的原始设备属性中的具体属性参数可以相同也可以不同。
举例来说,设备集合中包含5个设备,每个设备具有各自的属性参数,参看表1,是设备集合的原始设备属性表(表1的属性仅做举例使用,并未罗列出所有的设备属性)。
进一步的,将所述设备集合的原始设备属性进行转换,获得所述设备集合的目标设备属性。
将其转换为目标设备属性是为了简化计算量,以提高准确度和节约计算机资源,由于针对某项原始设备属性来说,设备集合各有不同。例如表1中罗列的CPU响应频率,同一厂家生产出的CPU响应频率在一小范围内波动是正常的,如果直接使用该原始响应频率,反而会把一些正常的设备误算成异常设备,导致不准确。因此,需要将原始响应频率转换为目标响应频率。也即,将小范围波动的响应频率统一成固定的响应频率,避免对识别准确率造成影响。再例如,上述5个设备的MAC地址各有不同,无法直接使用,需要和设备厂商联合使用才能够识别群组是否异常。
作为一种可选的实施例,原始设备属性中具有不适合转换的设备属性。例如设备属性的请求属性时间,随机性较强,不具备规律重复性,若作为目标设备属性的话,对于后续群组设备的定性没有太大帮助,反而会影响后续准确率,因此需要去除。再例如,IMEI是设备唯一标识码,也不具备规律重复性,因此其对于后续群组设备的定性也没有太大帮助,反而会使得后续计算复杂,浪费计算机资源,因此需要去除。故而,作为一种可选的实施例,将设备集合的原始设备属性按照预设筛选条件进行筛选,获得筛选后的设备属性;再将筛选后的设备属性转换为目标设备属性。在筛选过程中,预设筛选条件为“设备属性不具备唯一性但是具备规律重复性”,因此,筛选后的设备属性是不具备唯一性但是具备规律重复性的属性。例如,IMEI、请求属性时间等原始设备属性都会筛选掉。
而在转换过程中,本实施例的转换方式有以下几种,可根据原始设备属性确定适合的转换方式。而下述转换方式针对设备集合中的每个设备而言,当确定出每个设备的目标设备属性,即可获得设备集合的目标设备属性。
作为可选的一种转换方式,将原始设备属性直接转换为目标设备属性。具体的,“直接转换”的转换方式,指的是将原始设备属性直接作为目标设备属性。例如有关“是否root”、“是否具有锁屏密码”等这种的原始设备属性,设备集合中每个设备会有“是”或“否”确定的设备属性。因此可以将其直接作为目标设备属性。当然,也可以使用属性标签的方式来表示设备属性。例如,打上“1”这个标签,1表示已经root;打上“0”这个标签,0表示没有root。当然,也可以使用其他的标签,例如字母、字符、符号等等。
作为可选的一种转换方式,将原始设备属性归类转换为目标设备属性。“归类转换”指的是将群组中相似的原始设备属性归类到同一类目标设备属性。具体来说,获得预设数目的属性参数类别;其中,所述预设属性类别用于对原始设备属性进行类别划分;将所述原始设备属性划分到对应的属性参数类别中,获得所述原始设备属性在对应的属性参数类别中的目标设备属性。例如,机型的分布较为分散,不适合直接转换使用,因此可以按照机型,将待处理设备归类为2G、3G、4G等等。
作为可选的一种转换方式,按照预设参数值对原始设备属性的属性参数值进行取整操作,获得操作后的属性参数值;根据操作后的属性参数值确定对应的目标设备属性。以响应频率为例进行说明,设备集合中的360终端设备1的响应频率为1.30001亿,设备集合中的360终端设备2的响应频率为1.30002亿,将其取整为1.3亿,使得360终端设备1、360终端设备2的响应频率转换属性参数为1.3亿的目标设备属性。
作为可选的一种转换方式,按照转换条件将原始设备属性转换为所述目标设备属性。其中,转换条件根据设备属性不同而不同。本实施例的转换条件有多种,例如:是否为稀有机型,是否内存异常,系统音量是否一致,是否处于充电状态,电量多少,响应频率是否一致,机型和分辨率是否冲突,机型与内存大小是否冲突,机型与硬盘(存储空间)大小是否冲突,MAC地址是否和厂商冲突等等。
作为一种可选的实施例,从转换条件提取出相关属性参数,从所述原始设备属性中提取出和相关属性参数相同的具体设备属性;判断具体设备属性是否满足转换条件;若满足,则将所述具体设备属性转换为第一属性标签;若不满足,则将所述具体设备属性转换为第二属性标签。例如,以转换条件“是否为稀有机型”为例,从转换条件中提取出相关属性参数“机型”。根据“机型”从设备中的原始设备属性中提取出设备的具体机型(huawei)。然后判断该具体机型huawei是否为稀有机型。具体的判断过程中,系统已经存储有稀有机型的型号。将具体机型和稀有机型相比较,如果该具体机型和稀有机型的型号一致,则表示该具体机型为稀有机型。那么,则将该设备的机型从“huawei”转换为“是”这个属性标签。若否,则表示该具体机型不是稀有机型,则将该设备的机型从“huawei”转换为“否”这个属性标签。内存是否异常和上述判断方式类似。再例如,以转换条件“MAC地址是否和厂商冲突”为例,从转换条件中提取出相关属性参数“MAC地址”和“厂商”。值得注意的是,MAC地址在提取时,无需提取全部MAC地址只需提取和厂商相关的那段MAC地址即可。然后根据相关属性参数从原始设备属性中提取出设备具体的“404E36”和“360”,在根据转换条件判断两者是否冲突。若是,则将该原始设备属性转换为“MAC地址和厂商冲突”这个属性标签,或者打上“1”这个标签,1表示MAC地址和厂商冲突。如否,将该原始设备属性转换为“MAC地址和厂商不冲突”这个属性标签,或者打上“0”这个标签,0表示MAC地址和厂商不冲突。当然,也可以使用其他的标签,例如字母、字符、符号等等。
值得注意的是,上述转换方式可以单独使用或者合并使用,例如“响应频率是否一致”,则需要事先将各设备的响应频率进行取整操作,再根据“响应频率是否一致”这个转换条件进行处理,进而获得目标设备属性。
通过上述一种或者多种转换方式,即可将设备集合的原始属性设备转换为目标属性设备。
在获得嫌疑群组的过程中,接收其他系统发送的嫌疑群组。
嫌疑群组,指的是从其他系统(例如风险免疫系统)检测出的疑似有风险的群组。由另一系统(例如风险免疫系统)通过用图算法、频繁项挖掘等算法从设备集合中检出的疑似有风险的群组。但该系统可能会误检测,例如将一些好的群组也检测为嫌疑群组。因此,嫌疑群组还需要通过本说明书中提供的方法进行定性识别,才能确认其为异常群组。
获得嫌疑群组之后,即可获得嫌疑群组的设备标识(设备ID,例如IEMI)。具体来说,风险免疫系统也是从设备集合中检出嫌疑群组。因此嫌疑群组实际上属于设备集合的一部分。故而可根据所述嫌疑群组的设备标识和所述设备集合的目标设备属性,获得所述嫌疑群组的目标设备属性。具体来说,将嫌疑群组的设备标识和设备集合中的设备标识进行比对;获得比对结果一致的设备群组对应的目标设备属性,并将其作为嫌疑群组的目标设备属性。
步骤12,根据所述嫌疑群组和所述群组设备,计算所述嫌疑群组的联合分布概率。
其中,所述嫌疑群组的联合分布概率表示所述嫌疑群组同时满足所述预设数目的目标设备属性组合的概率。而每个目标设备属性组合各有不同。由于单一指标定性准确率,有误判风险,并且单一指标的覆盖率低,只能选择非常强的设备属性(例如MAC地址等)。因此本说明书使用了联合分布概率,其表示群组需要同时满足所述预设数目的目标设备属性组合的概率。因此对于设备属性并没有强弱之分,故而不仅包含了能够较强的设备属性(也就是能够直观表征群组异常的设备属性,例如MAC地址),也充分考虑了较弱的设备属性(也就是从不能够直观表征群组异常的设备属性,例如响应频率),当嫌疑群组命中多个(例如两个以上)弱的设备属性时,也能判定其为嫌疑群组。进一步的,联合概率部分有效融合了群组多个设备、多个维度的不同风险,从全局的角度给识别嫌疑群组风险,能够提高嫌疑群组的识别的准确率。
具体的,所述嫌疑群组的联合分布概率的相关参数包括:设备集合的数量,所述嫌疑群组的数量,预设数目的目标设备属性组合,设备集合在每个目标设备属性中的设备数量,嫌疑群组在每个目标设备属性中的设备数量等等。
故而,在计算嫌疑群组的联合分布概率之前,需要获得上述相关参数。
在站点中提取设备集合时,即可确定设备集合的数量。嫌疑群组的数量根据设置的检测条件而定。
目标设备属性组合是由上述罗列的任意个数的目标设备属性相互进行组合得到,以“是否root”和“MAC地址是否和厂商冲突”这两个目标属性为例,组合后能够得到四个目标设备属性组合。
参看表2,罗列了四个目标设备属性组合,此外还罗列了设备集合、嫌疑群组在每个目标设备属性组合下的设备数量。
表2
作为一种可选的实施例,在根据所述嫌疑群组和所述设备集合,计算所述嫌疑群组的联合分布概率的具体实施过程如下:
获得所述嫌疑群组的第一挑选方法的种数。其中,所述第一挑选方法是从所述设备集合中挑选所述嫌疑群组的方法,而第一挑选方法的种数代表从设备集合中挑选所述嫌疑群组的挑选方法的数量(也即有多少种挑选方法)。由于现有的风险免疫系统也是从设备集合中检出嫌疑群组,因此嫌疑群组实际上属于设备集合的一部分。而本说明书的方法并不采用风险免疫系统的方法,而是从设备集合中挑选出嫌疑群组,计算从设备集合中挑选出嫌疑群组有多少种挑选方法,然后统计挑选方法的种数(数量)。举例来说,假设设备集合有10000台设备,嫌疑群组在设备集合中的数量为1台,那么就有10000种挑选方法挑出嫌疑群组。假设设备集合的数量有N台,而嫌疑群组在设备集合中的设备数量为M',那么就有
种挑选方法挑出嫌疑群组。
根据所述预设数目的目标设备属性组合,所述设备集合的目标设备属性,和所述嫌疑群组的目标设备属性,获得所述嫌疑群组在每个目标设备属性组合下的第二挑选方法的种数。其中,所述第二挑选方法表示在每个目标设备属性组合下,从设备子集合中挑选所述嫌疑群组的方法。而设备子集合和所述目标属性组合一一对应,每个目标属性组合下都有设备子集合,而设备子集合是所述设备集合中满足对应目标设备属性组合的部分。也就是说,设备子集合是属于设备集合的,在每个目标属性组合下的设备子集合具有各自的设备数量,该设备数量设备集合中是满足该目标属性组合的设备数量。在所有目标属性组合下,将所有设备子集合包含的设备数量相加,求和数量总和,该数量总和与设备集合的设备数量相等。同理,嫌疑群组在每个目标设备属性组合下也具有设备数量,而将嫌疑群组在每个目标设备属性组合下的设备数量相加,获得嫌疑群组在所有目标设备属性组合下的设备数量(该设备数量和嫌疑群组在设备集合中的设备数量相等)。
而在具体的实施过程中,首先根据所述预设数目的目标设备属性组合和所述设备集合的目标设备属性,获得每个目标设备属性组合下的设备子集合包含的设备数量。具体的,将设备集合的目标设备属性和预设数目的目标设备属性组合进行对比,如果属性一致,就划分到对应的目标设备属性组合中,如此获得目标集合在每个目标设备属性组合下的设备数量,也即:每个目标设备属性组合下的设备子集合包含的设备数量。同理,根据所述预设数目的目标设备属性组合和所述嫌疑群组的目标设备属性,获得所述嫌疑群组在每个目标设备属性组合下的设备数量。再次根据所述每个目标设备属性组合下的设备子集合包含的设备数量,和所述嫌疑群组在每个目标设备属性组合下的设备数量,确定所述嫌疑群组在每个目标设备属性组合下的第二挑选方法的种数。
根据所述嫌疑群组在每个目标设备属性组合下的第二挑选方法的种数,获得所述嫌疑群组在所有目标设备属性组合下的挑选种数。在具体的实施过程中,将嫌疑群组在每个目标设备属性组合下的第二挑选方法的种数相乘,获得乘积,或者将嫌疑群组在每个目标设备属性组合下的第二挑选方法的种数全部相加,获得总和;该乘积(或者总和)即为嫌疑群组在所有目标设备属性组合下(也即:预设数目的目标设备属性组合)的挑选种数。当然,本说明书仅举例上述两种,任何有关获得所述嫌疑群组在所有目标设备属性组合下的挑选种数的方法都应当包含在本说明书的保护范围之内。
根据所述嫌疑群组在所有目标设备属性组合下的挑选种数和所述第一挑选方法的种数,获得所述嫌疑群组的联合分布概率。在具体的实施过程中,将嫌疑群组在所有目标设备属性组合下的挑选种数和嫌疑群组的第一挑选方法的种数相比,获得嫌疑群组的联合分布概率。
若以公式进行说明,为了便于后续计算,此处将预设数目的目标设备属性组合进行符号化,包括:v1、v2、v3、…vn,其中,v1、v2、v3、…vn分别表示不同的目标设备属性组合,n表示目标设备属性组合的预设数量,n≥4且为正整数。例如表2中,n=4,表示有4个目标设备属性组合。
参看表3,是各符号对应的参考表。
表3
具体来说,根据所述第一联合分布概率公式
获得所述嫌疑群组的联合分布概率;其中,Q
1表示在目标设备属性组合v
1下,设备子集合包含的设备数量,Q
2表示在目标设备属性组合v
2下,设备子集合包含的设备数量,Q
3表示在目标设备属性组合v
3下,设备子集合包含的设备数量,Q
n表示在目标设备属性组合v
n下,设备子集合包含的设备数量;其中,q
1'表示所述嫌疑群组在目标设备属性组合v
1中的设备数量,q
2'表示所述嫌疑群组在目标设备属性组合v
2中的设备数量,q
3'表示所述嫌疑群组在目标设备属性组合v
3中的设备数量,q
n'表示所述嫌疑群组在目标设备属性组合v
n中的设备数量;其中,/>
为所述嫌疑群组在目标设备属性组合v
1下的第二挑选方法的种数;/>
为所述嫌疑群组在目标设备属性组合v
2下的第二挑选方法的种数;/>
为所述嫌疑群组在目标设备属性组合v
3下的第二挑选方法的种数;/>
为所述嫌疑群组在目标设备属性组合v
n下的第二挑选方法的种数;/>
为所述嫌疑群组的第一挑选方法的种数;其中,Q
1+Q
2+Q
3+…+Q
n=N,q
1'+q
2'+q
3'+…+q
n'=M',N为所述设备集合的设备数量,M'为嫌疑群组在所述设备集合中的设备数量,M'、N≥1且为正整数。
本实施例使用的联合分布概率是从统计学的角度计算数据分布,自动找出嫌疑群组设备。由于仅仅获知嫌疑群组的联合分布概率,还不能够判断其是否具有风险。因此,需要从设备集合中确定出标准群组,由于标准群组也是从设备集合提取出来的,因此可以作为参考,然后利用相同的方法求得标准群组的联合分布概率,利用对比之后的概率差对嫌疑群组进行风险识别的基础,能够提高嫌疑群组的风险识别准确率。
进一步的,将上述概率重复t(例如10万)次,描绘出其概率密度曲线,该曲线服从正态分布。
步骤13,从设备集合中确定标准群组。
其中,标准群组,是按照嫌疑群组的数量随机从设备集合中抽取得到的群组。标准群组的数量和嫌疑群组的数量的差值在预设差值范围内,比如两者数量差值小于100台,或者标准群组的数量和嫌疑群组的数量相等。
在确定出设备集合的目标设备属性的基础上,能够根据所述标准群组的设备标识和所述设备集合的目标设备属性,获得所述标准群组的目标设备属性。
具体的,确定标准群组后,即可获得标准群组的设备标识。
因此,可以根据标准群组的设备标识,从设备集合的目标设备属性中获得标准群组的目标设备属性。具体来说,将标准群组的设备标识和设备集合中的设备标识进行比对;获得比对结果一致的设备群组对应的目标设备属性,并将其作为标准群组的目标设备属性。
步骤14,基于所述标准群组和所述设备集合,计算所述标准群组的联合分布概率。
其中,所述标准群组的联合分布概率表示所述标准群组同时满足所述预设数目的目标设备属性组合的概率;所述设备属性组合中包括两个以上不同目标设备属性。每个设备属性组合各有不同。
具体的,所述标准群组的联合分布概率的相关参数包括:设备集合的数量,所述标准群组的数量,预设数目的目标设备属性组合,设备集合在每个目标设备属性中的设备数量,标准群组在每个目标设备属性中的设备数量等等。
故而,在计算标准群组的联合分布概率之前,需要获得上述相关参数。
在站点中提取设备集合时,即可确定设备集合的数量。标准群组的数量根据设置的检测条件而定。
目标设备属性组合是由上述罗列的任意个数的目标设备属性组合得到,以“是否root”和“MAC地址是否和厂商冲突”这两个目标属性为例,组合后能够得到四个目标设备属性组合。
作为一种可选的实施例,在根据所述标准群组和所述设备集合,计算所述标准群组的联合分布概率的具体实施过程如下:
获得所述标准群组的第三挑选方法的种数。其中,所述第三挑选方法是从所述设备集合中挑选所述标准群组的方法,而第一挑选方法的种数代表从设备集合中挑选标准群组的挑选方法的数量(也即有多少种挑选方法)。举例来说,假设设备集合有10000台设备,需要挑选出1台标准群组,那么就有10000种挑选方法挑出标准群组。假设设备集合的数量有N台,而标准群组在设备集合中的设备数量为M,那么就有
种挑选方法挑出标准群组。
根据所述预设数目的目标设备属性组合,所述设备集合的目标设备属性,和所述标准群组的目标设备属性,获得所述标准群组在每个目标设备属性组合下的第四挑选方法的种数;其中,所述第四挑选方法表示在每个目标设备属性组合下,从设备子集合中挑选所述标准群组的方法。而设备子集合和所述目标属性组合一一对应,每个目标属性组合下都有设备子集合,而设备子集合是所述设备集合中满足对应目标设备属性组合的部分。也就是说,设备子集合是属于设备集合的,在每个目标属性组合下的设备子集合具有各自的设备数量,该设备数量设备集合中是满足该目标属性组合的设备数量。在所有目标属性组合下,将所有设备子集合包含的设备数量相加,求和数量总和,该数量总和与设备集合的设备数量相等。同理,标准群组在每个目标设备属性组合下也具有设备数量,而将标准群组在每个目标设备属性组合下的设备数量相加,获得标准群组在所有目标设备属性组合下的设备数量(该设备数量和标准群组在设备集合中的设备数量相等)。
在具体的实施过程中,根据所述预设数目的目标设备属性组合和所述设备集合的目标设备属性,获得每个目标设备属性组合下的设备子集合包含的设备数量。具体的,将设备集合的目标设备属性和预设数目的目标设备属性组合进行对比,如果属性一致,就划分到对应的目标设备属性组合中,如此获得目标集合在每个目标设备属性组合下的设备数量,也即:每个目标设备属性组合下的设备子集合包含的设备数量。同理,根据所述预设数目的目标设备属性组合和所述标准群组的目标设备属性,获得所述标准群组在每个目标设备属性组合下的设备数量。再次根据所述每个目标设备属性组合下的设备子集合包含的设备数量,和所述标准群组在每个目标设备属性组合下的设备数量,确定所述标准群组在每个目标设备属性组合下的第四挑选方法的种数。
根据所述标准群组在每个目标设备属性组合下的第四挑选方法的种数,获得所述标准群组在所有目标设备属性组合下的挑选种数;在具体的实施过程中,将所述标准群组在每个目标设备属性组合下的第四挑选方法的种数相乘,获得所述标准群组在所有目标设备属性组合(也即:预设数目的目标设备属性组合)下的挑选种数。或者将标准群组在每个目标设备属性组合下的第四挑选方法的种数全部相加,获得总和,该总和即为标准群组在所有目标设备属性组合下的挑选种数。当然,本说明书仅举例上述两种,任何有关获得所述标准群组在所有目标设备属性组合下的挑选种数的方法都应当包含在本说明书的保护范围之内。
根据所述标准群组在所有目标设备属性组合下的挑选种数和所述标准群组的第三挑选方法的种数,获得所述标准群组的联合分布概率。在具体的实施过程中,将标准群组在所有目标设备属性组合下的挑选种数和标准群组的第三挑选方法的种数相比,获得标准群组的联合分布概率。
若以公式进行说明,为了便于后续计算,此处将预设数目的目标设备属性组合进行符号化,包括:v1、v2、v3、…vn,其中,v1、v2、v3、…vn分别表示不同的目标设备属性组合,n表示目标设备属性组合的预设数量,n≥4且为正整数。例如表2中,n=4,表示有4个目标设备属性组合。
参看上述表3,是各符号对应的参考表。
具体来说,根据第二联合分布概率公式
获得所述标准群组的联合分布概率;其中,Q
1表示在目标设备属性组合v
1下,设备子集合包含的设备数量,Q
2表示在目标设备属性组合v
2下,设备子集合包含的设备数量,Q
3表示在目标设备属性组合v
3下,设备子集合包含的设备数量,Q
n表示在目标设备属性组合v
n下,设备子集合包含的设备数量;其中,q
1表示所述标准群组在目标设备属性组合v
1中的设备数量,q
2表示所述标准群组在目标设备属性组合v
2中的设备数量,q
3表示所述标准群组在目标设备属性组合v
3中的设备数量,q
n表示所述标准群组在目标设备属性组合v
n中的设备数量;其中,/>
为所述标准群组在目标设备属性组合v
1下的第四挑选方法的种数;/>
为所述标准群组在目标设备属性组合v
2下的第四挑选方法的种数;/>
为所述标准群组在目标设备属性组合v
3下的第四挑选方法的种数;/>
为所述标准群组在目标设备属性组合v
n下的第四挑选方法的种数;/>
为所述标准群组的第三挑选方法的种数;其中,Q
1+Q
2+Q
3+…+Q
n=N,q
1+q
2+q
3+…+q
n=M,N为所述设备集合的设备数量,M为标准群组在所述设备集合中的设备数量,M、N≥1且为正整数。
进一步的,将上述概率重复t(例如10万)次,描绘出其概率密度曲线,该曲线服从正态分布。
步骤15,确定所述嫌疑群组的联合分布概率和所述标准群组的联合分布概率的概率差。
具体来说,将两者相减即可获得差值,而为了便于计算可以取概率差的绝对值。
步骤16,根据所述概率差对所述嫌疑群组进行风险识别。
在具体的实施过程中,判断所述概率差是否大于预设概率阈值。若是,则表示所述嫌疑群组为异常群组。若否,表示所述嫌疑群组无风险。
进一步的,确定所述概率差和所述预设概率阈值的差值,并根据差值获得对应异常群组的风险程度。具体来说,差值和风险程度具有隐身关系。例如差值在0.00001~0.00005之间,风险程度1级。差值在0.00005~0.0001之间,风险2级,以此类推,假设风险程度最高等级为10级,那么根据差值即可获得对应的异常群组的风险等级。
进一步的,将所述嫌疑群组进行风险识别后获得的风险结果进行显示;或基于该风险结果进行提示;或将其作为风险识别的依据进行进一步分析处理,以进一步提高风险识别的准确率等等。
基于与前述实施例中同样的发明构思,本说明书实施例还提供一种针对群组的风险识别系统,该系统中的具体实施过程和前述一个或者多个实施例的具体实施过程类似,故而不再赘述。下面请参看图2,包括:
第一确定模块21,用于获得设备集合和嫌疑群组;嫌疑群组,指的是从其他系统(例如风险免疫系统)检测出的疑似有风险的群组。
第一计算模块22,用于根据所述嫌疑群组和所述设备集合,计算所述嫌疑群组的联合分布概率;所述嫌疑群组的联合分布概率表示所述嫌疑群组同时满足预设数目的目标设备属性组合的概率;
第二确定模块23,用于从所述设备集合中确定标准群组;
第二计算模块24,用于基于所述标准群组和所述设备集合,计算所述标准群组的联合分布概率;所述标准群组的联合分布概率表示所述标准群组同时满足所述预设数目的目标设备属性组合的概率;
概率差计算模块25,用于确定所述嫌疑群组的联合分布概率和所述标准群组的联合分布概率的概率差;
风险识别模块26,用于根据所述概率差对所述嫌疑群组进行风险识别。
作为一种可选的实施例,所述系统还包括:
第三确定模块,用于确定待处理站点;
采集模块,用于采集所述待处理站点中的所有设备;
筛选模块,用于按照预设条件对所述所有设备进行筛选,获得所述设备集合。
作为一种可选的实施例,所述系统还包括:
第四确定模块,用于确定所述设备集合的原始设备属性;
转换模块,用于将所述设备集合的原始设备属性进行转换,获得所述设备集合的目标设备属性。
作为一种可选的实施例,所述转换模块,具体用于:针对所述设备集合中的每个设备,将所述原始设备属性直接转换为所述目标设备属性;或者针对所述设备集合中的每个设备,根据转换条件将所述原始设备属性转换为所述目标设备属性。
作为一种可选的实施例,所述嫌疑群组具有设备标识;所述系统还包括:
第一获得模块,用于根据所述嫌疑群组的设备标识和所述设备集合的目标设备属性,获得所述嫌疑群组的目标设备属性。
作为一种可选的实施例,所述第一计算模块22,具体包括:
第二获得模块,用于获得所述嫌疑群组的第一挑选方法的种数;其中,所述第一挑选方法是从所述设备集合中挑选所述嫌疑群组的方法;
第三获得模块,用于根据所述预设数目的目标设备属性组合,所述设备集合的目标设备属性,和所述嫌疑群组的目标设备属性,获得所述嫌疑群组在每个目标设备属性组合下的第二挑选方法的种数;其中,所述第二挑选方法表示在每个目标设备属性组合下,从设备子集合中挑选所述嫌疑群组的方法;所述设备子集合和所述目标属性组合一一对应,且所述设备子集合是所述设备集合中满足对应目标设备属性组合的部分;
第四获得模块,用于根据所述嫌疑群组在每个目标设备属性组合下的第二挑选方法的种数,获得所述嫌疑群组在所有目标设备属性组合下的挑选种数;
第五获得模块,用于根据所述嫌疑群组在所有目标设备属性组合下的挑选种数和所述嫌疑群组的第一挑选方法的种数,获得所述嫌疑群组的联合分布概率。
作为一种可选的实施例,所述第三获得模块,具体用于:
根据所述预设数目的目标设备属性组合和所述设备集合的目标设备属性,获得每个目标设备属性组合下的设备子集合包含的设备数量;
根据所述预设数目的目标设备属性组合和所述嫌疑群组的目标设备属性,获得所述嫌疑群组在每个目标设备属性组合下的设备数量;
根据所述每个目标设备属性组合下的设备子集合包含的设备数量,和所述嫌疑群组在每个目标设备属性组合下的设备数量,确定所述嫌疑群组在每个目标设备属性组合下的第二挑选方法的种数。
作为一种可选的实施例,所述第四获得模块,具体用于将所述嫌疑群组在每个目标设备属性组合下的第二挑选方法的种数相乘,获得所述嫌疑群组在所有目标设备属性组合下的挑选种数。
作为一种可选的实施例,所述预设数目的目标设备属性组合包括:v1、v2、v3、…vn,其中,v1、v2、v3、…vn分别表示不同的目标设备属性组合,n表示目标设备属性组合的预设数量;所述第一计算模块22,用于:
根据所述第一联合分布概率公式
获得所述嫌疑群组的联合分布概率;其中,Q
1表示在目标设备属性组合v
1下,设备子集合包含的设备数量,Q
2表示在目标设备属性组合v
2下,设备子集合包含的设备数量,Q
3表示在目标设备属性组合v
3下,设备子集合包含的设备数量,Q
n表示在目标设备属性组合v
n下,设备子集合包含的设备数量;其中,q
1'表示所述嫌疑群组在目标设备属性组合v
1中的设备数量,q
2'表示所述嫌疑群组在目标设备属性组合v
2中的设备数量,q
3'表示所述嫌疑群组在目标设备属性组合v
3中的设备数量,q
n'表示所述嫌疑群组在目标设备属性组合v
n中的设备数量;其中,
为所述嫌疑群组在目标设备属性组合v
1下的第二挑选方法的种数;/>
为所述嫌疑群组在目标设备属性组合v
2下的第二挑选方法的种数;/>
为所述嫌疑群组在目标设备属性组合v
3下的第二挑选方法的种数;/>
为所述嫌疑群组在目标设备属性组合v
n下的第二挑选方法的种数;/>
为所述嫌疑群组的第一挑选方法的种数;其中,Q
1+Q
2+Q
3+…+Q
n=N,q
1'+q
2'+q
3'+…+q
n'=M',N为所述设备集合的设备数量,M'为嫌疑群组在所述设备集合中的设备数量,M'、N≥1且为正整数。
作为一种可选的实施例,所述标准群组具有设备标识;所述系统还包括:
第六获得模块,用于根据所述标准群组的设备标识和所述设备集合的目标设备属性,获得所述标准群组的目标设备属性。
作为一种可选的实施例,所述第二计算模块24,包括:
第七获得模块,用于获得所述标准群组的第三挑选方法的种数;其中,所述第三挑选方法是从所述设备集合中挑选所述标准群组的方法;
第八获得模块,用于根据所述预设数目的目标设备属性组合,所述设备集合的目标设备属性,和所述标准群组的目标设备属性,获得所述标准群组在每个目标设备属性组合下的第四挑选方法的种数;其中,所述第四挑选方法表示在每个目标设备属性组合下,从设备子集合中挑选所述标准群组的方法;所述设备子集合和所述目标属性组合一一对应,且所述设备子集合是所述设备集合中满足对应目标设备属性组合的部分;
第九获得模块,用于根据所述标准群组在每个目标设备属性组合下的第四挑选方法的种数,获得所述标准群组在所有目标设备属性组合下的挑选种数;
第十获得模块,用于根据所述标准群组在所有目标设备属性组合下的挑选种数和所述标准群组的第三挑选方法的种数,获得所述标准群组的联合分布概率。
作为一种可选的实施例,所述第八获得模块,具体用于:
根据所述预设数目的目标设备属性组合和所述设备集合的目标设备属性,获得每个目标设备属性组合下的设备子集合包含的设备数量;
根据所述预设数目的目标设备属性组合和所述标准群组的目标设备属性,获得所述标准群组在每个目标设备属性组合下的设备数量;
根据所述每个目标设备属性组合下的设备子集合包含的设备数量,和所述标准群组在每个目标设备属性组合下的设备数量,确定所述标准群组在每个目标设备属性组合下的第四挑选方法的种数。
作为一种可选的实施例,所述第九获得模块,具体用于将所述标准群组在每个目标设备属性组合下的第四挑选方法的种数相乘,获得所述标准群组在所有目标设备属性组合下的挑选种数。
作为一种可选的实施例,所述预设数目的目标设备属性组合包括:v1、v2、v3、…vn,其中,v1、v2、v3、…vn分别表示不同的目标设备属性组合,n表示目标设备属性组合的预设数量;所述第二计算模块24,具体用于:
根据第二联合分布概率公式
获得所述标准群组的联合分布概率;其中,Q
1表示在目标设备属性组合v
1下,设备子集合包含的设备数量,Q
2表示在目标设备属性组合v
2下,设备子集合包含的设备数量,Q
3表示在目标设备属性组合v
3下,设备子集合包含的设备数量,Q
n表示在目标设备属性组合v
n下,设备子集合包含的设备数量;其中,q
1表示所述标准群组在目标设备属性组合v
1中的设备数量,q
2表示所述标准群组在目标设备属性组合v
2中的设备数量,q
3表示所述标准群组在目标设备属性组合v
3中的设备数量,q
n表示所述标准群组在目标设备属性组合v
n中的设备数量;其中,/>
为所述标准群组在目标设备属性组合v
1下的第四挑选方法的种数;/>
为所述标准群组在目标设备属性组合v
2下的第四挑选方法的种数;/>
为所述标准群组在目标设备属性组合v
3下的第四挑选方法的种数;/>
为所述标准群组在目标设备属性组合v
n下的第四挑选方法的种数;/>
为所述标准群组的第三挑选方法的种数;其中,Q
1+Q
2+Q
3+…+Q
n=N,q
1+q
2+q
3+…+q
n=M,N为所述设备集合的设备数量,M为标准群组在所述设备集合中的设备数量,M、N≥1且为正整数。
作为一种可选的实施例,所述风险识别模块26,具体用于:
判断所述概率差是否大于预设概率阈值;
若是,则表示所述嫌疑群组为异常群组;
若否,则表示所述嫌疑群组无风险。
基于与前述实施例中同样的发明构思,本说明书实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前文任一所述方法的步骤。
基于与前述实施例中同样的发明构思,本说明书的实施例还提供一种计算机设备,如图3所示,包括存储器304、处理器302及存储在存储器304上并可在处理器302上运行的计算机程序,所述处理器302执行所述程序时实现前文任一所述方法的步骤。
其中,在图3中,总线架构(用总线300来代表),总线300可以包括任意数量的互联的总线和桥,总线300将包括由处理器302代表的一个或多个处理器和存储器304代表的存储器的各种电路链接在一起。总线300还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口305在总线300和接收器301和发送器303之间提供接口。接收器301和发送器303可以是同一个元件,即收发机,提供用于在传输介质上与各种其他终端设备通信的单元。处理器302负责管理总线300和通常的处理,而存储器304可以被用于存储处理器302在执行操作时所使用的数据。
通过本说明书的一个或者多个实施例,本说明书具有以下有益效果或者优点:
本说明书的方法,首先获得设备集合和嫌疑群组。嫌疑群组是其他系统检测出的疑似有风险的群组。进一步的,计算嫌疑群组的联合分布概率。由于嫌疑群组的联合分布概率表示表示嫌疑群组同时满足预设数目的目标设备属性组合的概率,因此能够综合多个设备属性维度的异常或风险对嫌疑群组进行风险定性。进一步的,从设备集合中确定标准群组作为参考标准,并采用相同的方法计算标准群组的联合分布概率,因此能够综合多个设备属性维度的异常或风险对标准群组进行风险定性。然后将标准群组的联合概率分布作为参考,通过两者对比获得概率差,利用概率差对嫌疑群组进行风险识别,能够有效融合群组在多个设备属性维度中的不同风险,从全局的角度识别嫌疑群组的风险,进而提高将嫌疑群组识别为异常群组的准确率,能够有效减少误判的情况,保证风险防控的效果。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本说明书也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本说明书的内容,并且上面对特定语言所做的描述是为了披露本说明书的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本说明书的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本说明书的示例性实施例的描述中,本说明书的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本说明书要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本说明书的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本说明书的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本说明书的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本说明书实施例的网关、代理服务器、系统中的一些或者全部部件的一些或者全部功能。本说明书还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本说明书的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本说明书进行说明而不是对本说明书进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本说明书可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。