CN107085757A

CN107085757A - 一种稽核模型生成方法及装置

Info

Publication number: CN107085757A
Application number: CN201610087999.7A
Authority: CN
Inventors: 陈霞
Original assignee: China Mobile Group Jiangsu Co Ltd
Current assignee: China Mobile Group Jiangsu Co Ltd
Priority date: 2016-02-16
Filing date: 2016-02-16
Publication date: 2017-08-22
Anticipated expiration: 2036-02-16
Also published as: CN107085757B

Abstract

本发明涉及数据挖掘领域，尤其涉及一种稽核模型生成方法及装置，用以解决现有技术中存在的稽核模型的建立主要依赖专家经验，而缺少一种可量化的稽核模型生成方法，且现有技术中的稽核模型，在实际应用中的准确性不高的技术问题，包括：根据风险样本用户对应的至少一个稽核要素的取值及每个稽核要素的类型，确定至少两个候选稽核规则，并生成风险样本用户对应的匹配事务集，以及确定候选项集及候选项集中每个候选项对应的支持度，然后确定最大频繁项集，并将最大频繁项集作为稽核模型。该方法可自动生成稽核模型，且该稽核模型可得到量化，因而便于对模型进行调整，使得模型的准确性得到提高。

Description

一种稽核模型生成方法及装置

技术领域

本发明涉及数据挖掘领域，尤其涉及一种稽核模型生成方法及装置。

背景技术

在电信运营商生产经营过程中，根据业务需要建立相应稽核模型，然后将稽核模型用于监控现网中的用户，并从中找出风险用户。

现有技术中稽核模型主要是由各个业务领域的专家根据电信运行过程中的各种业务存在的风险现象，结合一定的数据统计和人工经验来制定的，因而现有技术下的稽核模型生成方法过于依赖专家经验，无法实现模型自动生成，进而稽核模型的准确性也无法得到量化。

综上所述，现有技术下稽核模型的建立主要依赖专家经验，而缺少一种可量化的稽核模型生成方法，并且现有技术下的稽核模型生成方法得到的稽核模型，在实际应用中的准确性不高。

发明内容

本发明提供一种稽核模型生成方法及装置，用以解决现有技术中存在的稽核模型的建立主要依赖专家经验，而缺少一种可量化的稽核模型生成方法，且现有技术中的稽核模型，在实际应用中的准确性不高的技术问题。

一方面，本发明实施例提供一种稽核模型生成方法，包括：

根据风险样本用户对应的至少一个稽核要素的取值及每个稽核要素的类型，确定至少两个候选稽核规则；

根据所述至少两个候选稽核规则，生成所述风险样本用户对应的匹配事务集；

根据所述至少两个候选稽核规则，确定候选项集，并根据所述匹配事务集，确定所述候选项集中每个候选项对应的支持度；

根据所述候选项集以及所述候选项集中每个候选项对应的支持度，确定最大频繁项集，并将所述最大频繁项集作为稽核模型。

可选地，所述根据风险样本用户对应的至少一个稽核要素的取值及每个稽核要素的类型，确定至少两个候选稽核规则，包括：

针对所述每一个稽核要素，若所述稽核要素的类型为枚举型，则根据所述稽核要素的取值范围，生成至少两个枚举型稽核规则，并将所述至少两个枚举型稽核规则作为所述至少两个候选稽核规则的组成部分；

若所述稽核要素的类型为区间型，则根据所有风险样本用户在所述稽核要素的取值生成用户分布图，并根据所述用户分布图生成区间型稽核规则，并将所述至少两个区间型稽核规则作为所述至少两个候选稽核规则的组成部分。

可选地，所述根据所述候选项集以及所述候选项集中每个候选项对应的支持度，确定最大频繁项集，包括：

根据所述候选项集、所述候选项集中每个候选项对应的支持度及预先设定的最小置信度，确定频繁项集；

若所述频繁项集中的频繁项数量大于1，根据所述频繁项集更新所述候选项集，以及根据所述匹配事务集，确定所述候选项集中的候选项对应的支持度；若根据更新后的候选项集无法更新所述频繁项集，则将所述频繁项集作为最大频繁项集，若根据更新后的候选项集能够更新所述频繁项集，则返回到根据所述候选项集、所述候选项集中每个候选项对应的支持度及预先设定的最小置信度，确定频繁项集的步骤；

若所述频繁项集中的频繁项数量等于1，则将所述频繁项集，作为最大频繁项集。

可选地，所述根据所述频繁项集更新所述候选项集，包括：

若所述候选项集中每个候选项包含n个候选稽核规则，则根据所述频繁项集中任意两个频繁项，更新所述候选项集，以使更新后的所述候选项集中的每个候选项包含n+1个候选稽核规则，n为正整数。

可选地，根据下列方式确定所述候选项集中每个候选项对应的支持度：

针对所述候选项集中的一个候选项，将所述匹配事务集中包含所述候选项的匹配事务项的个数与所述匹配事务集中匹配事务项的个数的比值，作为所述候选项对应的支持度。

可选地，所述将所述最大频繁项集作为稽核模型之后，还包括：

若根据所述稽核模型评估用户为疑似风险用户，则根据评估结果生成稽核工单。

可选地，所述根据评估结果生成稽核工单之后，还包括：

根据所有稽核工单的反馈结果，确定稽核成功率；其中，每个反馈结果用于指示所述反馈结果对应的用户是否为真实风险用户；

若所述稽核成功率小于成功率阈值，则根据最新的风险样本数据更新所述风险样本用户，并返回到根据风险样本用户对应的至少一个稽核要素的取值及每个稽核要素的类型，确定至少两个候选稽核规则的步骤。

可选地，根据所述稽核工单的反馈结果，确定稽核成功率之后，还包括：

若所述稽核成功率小于成功率阈值，则判断是否能够上调所述最小置信度；

若确定能够上调所述最小置信度，则按设定步长上调所述最小置信度，并返回到根据所述至少两个候选稽核规则，确定候选项集，并根据所述匹配事务集，确定所述候选项集中每个候选项对应的支持度的步骤。

另一方面，本发明实施例提供一种稽核模型生成装置，包括：

候选稽核规则确定单元，用于根据风险样本用户对应的至少一个稽核要素的取值及每个稽核要素的类型，确定至少两个候选稽核规则；

匹配事务集生成单元，用于根据所述至少两个候选稽核规则，生成所述风险样本用户对应的匹配事务集；

候选项集确定单元，用于根据所述至少两个候选稽核规则，确定候选项集，并根据所述匹配事务集，确定所述候选项集中每个候选项对应的支持度；

稽核模型确定单元，用于根据所述候选项集以及所述候选项集中每个候选项对应的支持度，确定最大频繁项集，并将所述最大频繁项集作为稽核模型。

可选地，所述候选稽核规则确定单元，具体用于：

可选地，所述稽核模型确定单元，具体用于：

可选地，所述稽核模型确定单元，还用于：

可选地，所述候选项集确定单元，具体用于根据下列方式确定所述候选项集中每个候选项对应的支持度：

可选地，所述装置还包括评估单元，具体用于：

将所述最大频繁项集作为稽核模型之后，若根据所述稽核模型评估用户为疑似风险用户，则根据评估结果生成稽核工单。

可选地，所述评估单元，还用于：

根据评估结果生成稽核工单之后，根据所有稽核工单的反馈结果，确定稽核成功率；其中，每个反馈结果用于指示所述反馈结果对应的用户是否为真实风险用户；

可选地，所述评估单元，还用于：

根据所述稽核工单的反馈结果，确定稽核成功率之后，若所述稽核成功率小于成功率阈值，则判断是否能够上调所述最小置信度；

本发明实施例提供的方法，根据风险样本用户对应的至少一个稽核要素的取值及每个稽核要素的类型，确定至少两个候选稽核规则，并生成风险样本用户对应的匹配事务集，以及确定候选项集及候选项集中每个候选项对应的支持度，然后确定最大频繁项集，并将最大频繁项集作为稽核模型。该方法可自动生成稽核模型，且该稽核模型可得到量化，因而便于对模型进行调整，使得模型的准确性得到提高。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的稽核模型生成方法流程图；

图2为本发明实施例提供的某个区间型稽核要素对应的用户分布图；

图3为本发明实施例提供的稽核模型更新流程图；

图4为本发明实施例提供的稽核模型生成方法详细流程图；

图5为本发明实施例提供的稽核模型生成装置示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

下面结合说明书附图对本发明实施例作进一步详细描述。

如图1所示，为本发明实施例提供的一种稽核模型生成方法，包括：

步骤101、根据风险样本用户对应的至少一个稽核要素的取值及每个稽核要素的类型，确定至少两个候选稽核规则。

步骤102、根据所述至少两个候选稽核规则，生成所述风险样本用户对应的匹配事务集。

步骤103、根据所述至少两个候选稽核规则，确定候选项集，并根据所述匹配事务集，确定所述候选项集中每个候选项对应的支持度。

步骤104、根据所述候选项集以及所述候选项集中每个候选项对应的支持度，确定最大频繁项集，并将所述最大频繁项集作为稽核模型。

稽核模型的生成主要用于对采集到的用户数据进行风险分析，从而得到哪些用户是风险类用户，哪些用户是正常用户。例如，以电信中的手机卡使用为例，对于每一个开通手机卡的用户，在数据库中都记录了该用户的数据信息，包括产品类型、资费、消费构成、通话构成、集团属性、家庭属性等，通过对每个用户的数据信息进行分析，可以得到每个用户是属于风险类用户还是正常类用户，对于什么样的用户属于风险类用户，是由稽核模型决定的，即当建立了稽核模型之后，对于符合稽核模型的用户就是风险类用户，对于不符合稽核模型的用户就是正常类用户。

例如，稽核模型定义如果用户同时满足以下条件，则该用户就是风险类用户：

条件1：近三个月上网流量小于10M；

条件2：近三个月短信数量小于10条；

条件3：近三个月话费总额小于20元；

条件4：近三个月通话时长小于20分钟；

条件5：卡号未实名制。

对于同时满足以上5个条件的手机开卡用户，则被稽核模型判断为风险用户，对于此类风险用户，有可能开通手机卡的目的并不是为了使用，而是为了其它目的，举例来说，此类开卡用户可能是电信运营商下面的代理商，当电信运营商推出活动：如果代理商每成功为用户开通一个手机卡，则奖励代理商10元现金，导致有的代理商可能为了得到现金奖励，就私自开通多张手机卡，但并不使用，因而此类手机卡用户实质上都不是真正的手机卡使用用户，此类开卡用户都被稽核模型确定为风险类用户。

需要说明的是，上述只是举例说明一种类型的风险类用户，实际应用中，风险类用户是可以根据实际需要根据稽核模型来定义的。每一个稽核模型都定义了一种风险类用户的类型。

下面结合步骤101～步骤104，来详细说明本发明稽核模型的生成方法。

上述步骤101中，根据风险样本用户对应的至少一个稽核要素的取值及每个稽核要素的类型，确定至少两个候选稽核规则。

根据样本的类型，可以获取风险样本用户对应的至少一个稽核要素，其中，稽核要素是稽核系统的最小分析单元，例如用户产品、资费、消费构成、通话构成、集团属性、家庭属性等。稽核要素是不同业务领域的专家针对不同风险现象提炼而成。系统将稽核要素根据取值类型不同分为两类：枚举型稽核要素和区间型稽核要素。

以移动家庭代付业务为例进行说明。家庭代付是指若干(2人及以上)在同一归属地的移动客户自愿组建家庭后，可实现主号为成员进行全额代付手机费的业务。即属于同一个家庭组的所有手机号码的费用由该家庭组中的某一个手机号码统一代付电话费用。在该业务下，当想要分析该业务中是否存在风险内用户时，首先生成稽核要素，根据专家经验，例如可以选择的稽核要素为：

(1)主副号之间近三个月通话分钟数；

(2)主号近三月话费总额(不包括代付金额)；

(3)主号近三个月流量；

(4)主号实名制状态；

(5)副号近三个月话费总额；

(6)副号近三个月流量；

(7)副号实名制状态；

(8)主副号入网营业厅是否一致。

通过选取以上稽核要素来分析风险样本用户中样本用户的数据分布情况。

其中，上述稽核要素分为两种类型，一种是枚举型稽核要素，如上述稽核要素中的(4)、(7)、(8)，以(4)为例，“主号实名制状态”，对应的取值只有两种，一种是“是”，一种是“否”；再比如(7)，“副号实名制状态”，对应的取值也是只有两种，一种是“已实名制”，一种是“未实名制”。另一种是区间型稽核要素，例如上述稽核要素中的(1)、(2)、(3)、(5)、(6)，以(1)为例，“主副号之间近三个月通话分钟数”，对于多个样本数据，主副号之间近三个月通话分钟数的取值有很多种，例如从0分钟到100分钟，每种情形都有，因此其取值是区间型的，再比如(6)，“副号近三个月流量”，取值可以是从0M到200M。

需要说明的是，上述选取的稽核要素只是举例说明，实际应用中具体选择哪些稽核要素，可根据实际需要而定。

上步骤101中，在预先选定了风险样本用户对应的至少一个稽核要素，例如选择上述(1)～(8)这8个稽核要素，然后根据这些稽核要素的取值及每个稽核要素的类型，确定至少两个候选稽核规则。

根据稽核要素，确定候选稽核规则，例如可以是对于每个稽核要素，都生成两个候选稽核规则。针对枚举型稽核要素，生成的候选稽核规则比较简单，以上述稽核要素(4)为例，根据稽核要素“主号实名制状态”生成的两个候选稽核规则为“主号已实名制”和“主号未实名制”；对于区间型稽核要素，以上述稽核要素(1)为例，根据稽核要素“主副号之间近三个月通话分钟数”生成的候选稽核规则可以是，候选稽核规则1：主副号之间近三个月通话分钟数小于50分钟，主副号之间近三个月通话分钟数大于或等于50分钟，其中50分钟这个数值的选定方式可以是取所有样本在稽核要素“主副号之间近三个月通话分钟数”的取值的平均值，或者是根据其他方式来确定。

上述方法只是给出了一种根据稽核要素生成至少两个候选稽核规则的方法，在实际应用中，还可以有更多的方法，例如对于区间型的稽核要素，还可以是生成不只两个候选稽核规则，可以根据风险样本数据在稽核要素的取值情况，可以生成更多的候选稽核规则。下面给出一种本发明实施例中使用的根据稽核要素生成至少两个候选稽核规则的方法。

上述方法中，针对每个稽核要素，根据其类型生成至少两个候选稽核规则。若稽核要素的类型为枚举型，则根据稽核要素的取值范围，生成至少两个枚举型稽核规则，例如如果一个枚举型稽核要素的取值范围为0、1或2，即该枚举型稽核要素对应的取值有3个结果，则可以根据这3个取值生成3个候选稽核规则；如果一个枚举型稽核要素的取值范围为“是”或“否”，即该枚举型稽核要素对应的取值有2个结果，则可以根据这2个取值生成2个候选稽核规则，比如上述枚举型稽核要素(4)等。

对于区间型稽核要素，则根据所有风险样本用户在稽核要素的取值生成用户分布图，例如，如图2所示，为本发明实施例提供的某个区间型稽核要素对应的用户分布图，需要说明的是，这里只是给出一个示例，对于用户分布图的类型，本发明不限定。通过得到区间型稽核要素的对应的用户分布图，就可以根据用户分布图生成区间型稽核规则，例如以图2为例，假设图2表示稽核要素“主号近三个月流量”对应的用户分布图，根据该用户分布图，比如可以确定以下候选稽核规则：

候选稽核规则1：主号近三个月流量在0～40M；

候选稽核规则2：主号近三个月流量在40～80M；

候选稽核规则3：主号近三个月流量在80M以上。

当然，具体如何根据一个稽核要素对应的用户分布图来确定该稽核要素的候选稽核规则，方法很多，本发明不做具体限定。

因此通过上述方法，根据稽核要素的类型，可以分别根据枚举型稽核要素生成至少两个枚举型候选稽核规则，以及根据区间型稽核要素生成至少两个区间型稽候选稽核规则，然后将生成的至少两个枚举型候选稽核规则，或者将生成的至少两个区间型稽候选稽核规则，作为所述该稽核要素对应的至少两个候选稽核规则。

假设选定的稽核要素为上述稽核要素(1)～(8)，则最终得到的候选稽核规则例如可以是：

(A)主副号之间近三个月通话分钟数0到10分钟；(B)主副号之间近三个月通话分钟数10到100分钟；(C)主副号之间近三个月通话分钟数100分钟以上；(D)主号近三月话费总额(不包括代付金额)0到10元；(E)主号近三月话费总额(不包括代付金额)10到80元；(F)主号近三月话费总额(不包括代付金额)80元以上；(G)主号近三个月流量0到100M；(H)主号近三个月流量100到1000M；(I)主号近三个月流量1000M以上；(J)主号实名制状态为未登记；(K)主号实名制状态为已登记；(L)主号实名制状态为已审核；(M)副号近三个月话费总额0到10元；(N)副号近三个月话费总额10到80元；(O)副号近三个月话费总额80以上；(P)副号近三个月流量0到100M；(Q)副号近三个月流量100到1000M；(R)副号近三个月流量1000M以上；(S)副号实名制状态为未登记；(T)副号实名制状态为已登记；(U)副号实名制状态为已审核；(V)主副号入网营业厅一致；(W)主副号入网营业厅不一致。

即根据上述稽核要素(1)～(8)这8个稽核要素，生成了(A)～(W)这23个候选稽核规则。

在本发明后面的步骤中，需要从生成的所有候选稽核规则中选定某些候选稽核规则，组成一个候选稽核规则集合，并将该候选稽核规则集合作为最终的稽核模型。下面接着说明后续步骤。

上述步骤102中，根据所述至少两个候选稽核规则，生成所述风险样本用户对应的匹配事务集。具体地，对于风险样本用户中的每个用户，都可以根据生成的候选稽核规则，生成一个匹配事务项，例如根据上述23个候选稽核规则，生成的匹配事务集为：ADGJMPSV、ADGJMQTV、ADGKNPUV、BDHLOQTW、ADGJMQUV、CEIJOQUW、BEHKNPTV、ADGLMQSV、……。

一个匹配事务集中包含多个匹配事务项，每个匹配事务项对应一个用户，因此匹配事务集中匹配事务项的数量与风险样本用户的数量相同，并且每个匹配事务项中包含的候选稽核规则的数量相同，都与稽核要素的数量一样。例如用户1对应的匹配事务项为ADGJMPSV，表示用户1同时满足这8个候选稽核规则。

因此在步骤102中，可以为风险样本用户中的每个用户生成一个匹配事务项。

上述步骤103中，根据所述至少两个候选稽核规则，确定候选项集。以上述23个候选稽核规则为例，生成的候选项集为：{{A}、{B}、{C}、{D}、{E}、{F}、{G}、{H}、{I}、{J}、{K}、{L}、{M}、{N}、{O}、{P}、{Q}、{R}、{S}、{T}、{U}、{V}、{W}}，其中包含有23个候选项。为方便描述，将该候选项集成为候选1-项集。

接下来根据匹配事务集，确定候选项集中每个候选项对应的支持度。可以通过下列方式来确定：

上述方法中，假设风险样本用户中一共有1000个用户，则对应的匹配事务集中有1000个匹配事务项，即匹配事务集中匹配事务项的个数为1000，匹配事务集中包含某个候选项的匹配事务项指的是，候选项为匹配事务项的子集，举例来说，假设针对候选项{A}，则匹配事务项ADGJMPSV包含候选项{A}，而匹配事务项BDHLOQTW则不包含候选项{A}。因此针对一个候选项，可以统计匹配事务集中包含该候选项的匹配事务项的数量。例如，以候选项{B}为例，假设上述匹配事务集中有500个匹配事务项包含候选项{B}，则确定候选项{B}对应的支持度为500/1000*100％＝50％；再比如候选{C}，假设上述匹配事务集中有620个匹配事务项包含候选项{C}，则确定候选项{C}对应的支持度为620/1000*100％＝62％。

因此通过上述方法，可以确定候选项集中每个候选项对应的支持度。

上述步骤104中，根据所述候选项集以及所述候选项集中每个候选项对应的支持度，确定最大频繁项集，并将所述最大频繁项集作为稽核模型。

在该步骤中，在给定了候选项集，候选项集中每个候选项对应的支持度，可以通过数据挖掘中的多种关联规则方法来确定最大频繁项集。下面给出一种本发明中使用的最大频繁项集确定方法。

上述确定最大频繁项集的方法是一个迭代方法，首先根据候选项集、候选项集中每个候选项对应的支持度及预先设定的最小置信度，确定频繁项集，其中最小置信度是一个预先设定的阈值，例如可以设置为50％、60％等，具体设定根据实际情况而定。

下面举例说明生成频繁项集的过程。由于最大频繁项集的生成过程是一个迭代的过程，因此为方便说明，对候选项集以及频繁项集进行编号，例如表示为候选1-项集、候选2-项集、候选3-项集等等，以及频繁1-项集、频繁2-项集、频繁3-项集等等。

假设候选1-项集中的候选项及每个候选项的支持度为：{A}62.5％、{B}25％、{C}12.5％、{D}75％、{E}25％、{G}62.5％、{H}25％、{I}12.5％、{J}50％、{K}25％、{L}25％、{M}50％、{N}25％、{O}25％、{P}37.5％、{Q}62.5％、{S}25％、{T}37.5％、{U}37.5％、{V}75％、{W}25％。

则根据候选1-项集、候选1-项集中每个候选项的支持度，以及最小置信度，假设设定为50％，将其中对应的支持度不小于最小置信度的所有候选项构成的集合作为频繁项集，因而确定的频繁项集，这里称为频繁1-项集，以及频繁1-项集中每个频繁项对应的支持度为：{A}62.5％、{D}75％、{G}62.5％、{M}50％、{Q}62.5％、{V}75％。

接着判断频繁项集中的频繁项数量是大于1，还是等于1，若大于1，则根据频繁项集更新所述候选项集，在上述例子中，即根据频繁1-项集，得到新的候选项集，这里称为候选2-项集。可通过下列方式进行更新。

可选地，所述根据所述频繁项集更新所述候选项集，包括：

上述方法中，若当前候选项集中每个候选项包含n个候选稽核规则，则更新后的候选集中的每个候选项包含n+1个候选稽核规则，具体地是根据当前候选项集中任意两个候选项，来生成新的候选项。

以上述频繁1-项集，更新上述候选1-项集为例。

频繁1-项集为：{{A}、{D}、{G}、{M}、{Q}、{V}}。

则更新后的候选项集，称之为候选2-项集，为：{{A，D}、{A，G}、{A，M}、{A，Q}、{A，V}、{D，G}、{D，M}、{D，Q}、{D，V}、{G，M}、{G，Q}、{G，V}、{M，V}、{Q，V}}。

因为候选1-项集中的每个候选项包含1个候选稽核规则，因此更新后的候选2-项集中的每个候选项包含2个候选稽核规则。候选2-项集中的候选项是根据频繁1-项集中任意两个频繁项的组合之后生成的，这里，需要说明的是，一个候选项集中的候选项包含的候选稽核规则是不能来自于同一个稽核要素的，例如以稽核要素(1)为例，根据稽核要素(1)生成了候选稽核规则A、B、C，因此候选2-项集中是不能够包含如候选项{A，B}，{A，C}，{B，C}的，如果有的话，需要删除。

因而可以通过上述方法，根据频繁1-项集更新候选项集，得到新的候选项集，称之为候选2-项集。

确定候选2-项集之后，接着确定候选2-项集中每个候选项对应的支持度，其确定方法与确定候选1-项集中每个候选项对应的支持度的方法相同，即针对候选2-项集中的一个候选项，将匹配事务集中包含所述候选项的匹配事务项的个数与所述匹配事务集中匹配事务项的个数的比值，作为所述候选项对应的支持度，例如确定了候选2-项集中每个候选项对应的的支持度后，候选2-项集中每个候选项及每个候选项对应的支持度为：{A，D}62.5％、{A，G}62.5％、{A，M}50％、{A，Q}37.5％、{A，V}62.5％、{D，G}62.5％、{D，M}50％、{D，Q}50％、{D，V}62.5％、{G，M}50％、{G，Q}37.5％、{G，V}62.5％、{M，V}50％、{Q，V}37.5％。

接下来，判断是否可以更新后的候选项集更新频繁项集，即判断是否可以根据候选2-项集来更新频繁1-项集，判断的依据是根据更新后的候选项集更新频繁项集，若得到的不是空集，则表明可以根据更新后的候选项集更新频繁项集，若得到集合，并将得到的集合作为更新后的频繁项集，并返回到根据所述候选项集、所述候选项集中每个候选项对应的支持度及预先设定的最小置信度，确定频繁项集的步骤，继续迭代，直到不能对当前频繁项集进行更新为止。

若得到的是空集，则表明无法根据更新后的候选项集更新频繁项集，并且将当前频繁项集作为最大频繁项集，下面接着上面的例子进行说明，假设候选迭代，得到更新后的候选项集及频繁项集，为方便描述，分别将后续候选项集称为候选3-项集，候选4-项集等等，如果有的话；以及将后续频繁项集称为频繁2-项集，频繁3-项集等等，如果有的话。

根据候选2-项集中对应的支持度大于或等于最小置信度(本发明中以50％为例)的候选项构成的集合，作为频繁2-项集，则得到的频繁2-项集中的频繁项及每个频繁项对应的支持度为：{A，D}62.5％、{A，G}62.5％、{A，M}50％、{A，V}62.5％、{D，G}62.5％、{D，M}50％、{D，Q}50％、{D，V}62.5％、{G，M}50％、{G，V}62.5％、{M，V}50％。

接下来，根据频繁2-项集得到候选3-项集，以及确定候选3-项集中的每个候选项对应的支持度，然后根据得到的候选3-项集确定频繁3-项集，假设上述实施例迭代得到的频繁项集每次更新后的结果为：

频繁3-项集及每个频繁项对应的支持度为：{A，D，G}62.5％、{A，D，M}50％、{A，D，V}62.5％、{A，G，M}50％、{A，G，V}62.5％、{A，M，V}50％、{D，G，M}50％、{D，G，V}62.5％、{G，M，V}50％。

频繁4-项集及每个频繁项对应的支持度为：{A，D，G，M}50％、{A，D，G，V}62.5％、{A，G，M，V}50％、{D，G，M，V}50％。

频繁5-项集及每个频繁项对应的支持度为：{A，D，G，M，V}50％。

其中，上述频繁项集的更新过程中，为方便描述，省略了候选项集的更新过程的描述。

由于频繁5-项集中的频繁项数量等于1，则将频繁5-项集作为最大频繁项集。即最终生成的最大频繁项集为{A，D，G，M，V}。

如果上述例子中最终更新后的频繁项集为频繁4-项集，即没有上述频繁5-项集，则最终将频繁4-项集作为最大频繁项集，即最终生成的最大频繁项集为{A，D，G，M}、{A，D，G，V}、{A，G，M，V}、{D，G，M，V}。

在确定了最大频繁项集之后，将最大频繁项集作为稽核模型。该稽核模型表示的含义为：如果一个用户满足稽核模型中的条件，具体地，如果一个用户对应的匹配事务项包含该稽核模型中的所有候选稽核规则，则该用户为疑似风险用户。

假设最终得到的稽核模型为{A，D，G，M，V}，如果一个用户对应的匹配事务项为ADGJMPSV，则使用该稽核模型，将该用户确定为疑似风险用户；如果一个用户对应的匹配事务项为ADGKNPUV，则使用该稽核模型，将该用户确定为正常用户。

如果根据稽核模型评估用户为疑似风险用户，则根据评估结果生成稽核工单，其中稽核工单用于将疑似风险用户的相关数据显示出来，以便稽核人员进行审核。

可选地，所述根据评估结果生成稽核工单之后，还包括：

由于稽核模型会根据判断为疑似风险用户生成稽核工单，但判断的是否准确则需要稽核人员来审核，稽核人员主要判断生成的稽核工单中的用户是否确实为风险用户，例如一共有10000个用户，根据稽核模型确定其中有200个用户为疑似风险用户并生成200张稽核工单，则稽核人员对这200张稽核工单进行逐一审核，以确定稽核模型的判断是否准确，并且对每一张稽核工单进行审核后生成一个反馈结果，每个反馈结果用于指示所述反馈结果对应的用户是否为真实风险用户，例如对200张稽核工单进行审核后，确定其中180张稽核工单对应的用户为真实风险用户，另外20张稽核工单对应的用户为正常用户，则可以根据所有稽核工单的反馈结果，确定稽核成功率为180/200*100％＝90％。

并且预先设定成功率阈值，例如设置为60％，如果稽核成功率小于成功率阈值，则根据最新的风险样本数据更新所述风险样本用户，即根据最新生成的风险样本数据，重新生成新的风险样本用户，并返回到根据风险样本用户对应的至少一个稽核要素的取值及每个稽核要素的类型，确定至少两个候选稽核规则的步骤。由于风险样本用户发生了变化，因此稽核要素的取值发生了变化，导致根据相同的稽核要素，生成的候选稽核规则发生了变化，最终生成的最大频繁项集也随之发生变化，即通过更新风险样本用户，可以得到新的稽核模型，即在稽核模型成功率低于成功率阈值时，可通过更新风险样本用户生成新的稽核模型，因而该方法可以实现稽核模型的动态调整，保证使用的稽核模型的稽核成功率在成功率阈值之上，因而具有较高的稽核成功率。

上述方法是通过调整风险样本用户来更新稽核模型，如果通过该方法得到的新的稽核模型的成功率还是低于成功率阈值，则还可以通过下列方式来更新模型。

上述方法中，当稽核成功率小于成功率阈值，则判断是否能够上调所述最小置信度，例如设定步长为5％，如果最小置信度还没有到达100％，就是可以上调的，由于最小置信度越大，意味着在确定频繁项集的条件越苛刻，因为频繁项集是由候选项集中对应的支持度大于或等于最小置信度的所有候选项构成的，因此最小置信度越大，每次迭代得到的更新后的频繁项集中的频繁项就越少，进而导致更早地得到最大频繁项集，进而得到的最大频繁项集中每个频繁项中包含的稽核候选规则就越少。比如，当最小置信度为60％时，得到的最大频繁项集中的每个频繁项包含5个候选稽核规则，而当最小置信度上调到80％时，得到的最大频繁项集中每个频繁项包含的候选稽核规则可能只有3个，因此当最小置信度上调时，意味着得到的稽核模型的条件是越宽松的，进而可以更准确地判断用户是否为疑似风险用户。

下面结合图3，对本发明实施例提供的稽核模型更新方法做详细描述，其中图3为本发明实施例提供的稽核模型更新流程图。

步骤301、初始稽核模型。

根据上述步骤101～步骤104生成的初始稽核模型。

步骤302、稽核模型投入运营。

稽核模型投入运营后，产生疑似风险的稽核工单，稽核员根据稽核工单内容核查实际是否存在风险，并在系统中标识核查结果。以家庭代付欠费为例，产生稽核工单后，稽核员核查号码是否涉及主号欠费且副号套取业务办理酬金风险，如果确实存在风险则标识为真实风险工单，否则标识为正常工单。

步骤303、风险现象是否存在，若存在，则转到步骤305，否则转到步骤304。

稽核系统包含一个稽核模型库，当一个稽核模型持续不产生稽核工单时可将该模型下线。持续不产生稽核工单(即风险现象消失)的原因包括该模型监控的业务已下线、业务风险已经通过CRM(客户关系管理，CustomerRelationship Management)系统进行封堵、加大考核力度限制渠道办理等。

步骤304、稽核模型下线。

步骤305、统计稽核结果实际成功率。

稽核员核查疑似风险工单是否实际存在风险现象并在系统中标识。稽核结果实际成功率＝核查后实际风险工单数/稽核工单总数*100％。

步骤306、成功率是否达标，若是则转到步骤302，否则转到步骤307。

如果风险现象仍然存在，则定期(可设置频率)统计稽核结果实际成功率。如果稽核结果实际成功率达到成功率阈值，则继续使用该模型。如果稽核成功率达不到要求，则进入迭代阶段。

步骤307、根据最新风险数据，对稽核要素取值重新分类，重新生成候选稽核规则。

步骤308、生成新的稽核模型。

根据迭代后的候选稽核规则生成新的稽核模型(方法同建立初始稽核模型)。

步骤309、迭代后成功率统计

根据累计已反馈数据进行稽核结果实际成功率统计。

步骤310、判断成功率是否达标，若达标，则转到步骤302，否则转到步骤311。

步骤311、判断最小置信度是否可以上调，若是则转到步骤313，否则转到步骤312。

当最小置信度达到100％或无法生成最大频繁项集后，停止上调。

步骤312、重建稽核要素

若无法通过调整最小置信度得到成功率达标的稽核模型，则需要从源头重建稽核要素，即人工重新筛选得到新的稽核要素，重新进行模型确定。

步骤313、上调最小置信度，重新生成最大频繁项集。

最小置信度调整后，重新计算最大频繁项集，并建立稽核模型。如果新模型成功率达标则投入运营，如果成功率不达标，继续上调最小置信度，直到最小置信度达到100％或无法生成候选集为止。

下面对本发明实施例提供的稽核模型生成方法做详细描述，如图4所示，为本发明实施例提供的稽核模型生成方法详细流程图，包括：

步骤401、根据风险样本用户对应的至少一个稽核要素的取值及每个稽核要素的类型，确定至少两个候选稽核规则；

步骤402、根据所述至少两个候选稽核规则，生成所述风险样本用户对应的匹配事务集；

步骤403、根据所述至少两个候选稽核规则，确定候选项集；

步骤404、针对所述候选项集中的一个候选项，将所述匹配事务集中包含所述候选项的匹配事务项的个数与所述匹配事务集中匹配事务项的个数的比值，作为所述候选项对应的支持度；

步骤405、根据所述候选项集、所述候选项集中每个候选项对应的支持度及预先设定的最小置信度，确定频繁项集；

步骤406、若所述频繁项集中的频繁项数量大于1，根据所述频繁项集更新所述候选项集，以及根据所述匹配事务集，确定所述候选项集中的候选项对应的支持度；若根据更新后的候选项集无法更新所述频繁项集，则将所述频繁项集作为最大频繁项集，若根据更新后的候选项集能够更新所述频繁项集，则返回到步骤405；

步骤407、将所述最大频繁项集作为稽核模型。

基于相同的技术构思，本发明实施例还提供一种稽核模型生成装置。本发明实施例提供的稽核模型生成装置如图5所示，包括：

候选稽核规则确定单元501，用于根据风险样本用户对应的至少一个稽核要素的取值及每个稽核要素的类型，确定至少两个候选稽核规则；

匹配事务集生成单元502，用于根据所述至少两个候选稽核规则，生成所述风险样本用户对应的匹配事务集；

候选项集确定单元503，用于根据所述至少两个候选稽核规则，确定候选项集，并根据所述匹配事务集，确定所述候选项集中每个候选项对应的支持度；

稽核模型确定单元504，用于根据所述候选项集以及所述候选项集中每个候选项对应的支持度，确定最大频繁项集，并将所述最大频繁项集作为稽核模型。

可选地，所述候选稽核规则确定单元501，具体用于：

可选地，所述稽核模型确定单元504，具体用于：

可选地，所述稽核模型确定单元504，还用于：

可选地，所述候选项集确定单元503，具体用于根据下列方式确定所述候选项集中每个候选项对应的支持度：

可选地，所述装置还包括评估单元505，具体用于：

可选地，所述评估单元505，还用于：

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种稽核模型生成方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述根据风险样本用户对应的至少一个稽核要素的取值及每个稽核要素的类型，确定至少两个候选稽核规则，包括：

3.如权利要求1所述的方法，其特征在于，所述根据所述候选项集以及所述候选项集中每个候选项对应的支持度，确定最大频繁项集，包括：

4.如权利要求3所述的方法，其特征在于，所述根据所述频繁项集更新所述候选项集，包括：

5.如权利要求1-4中任一项所述的方法，其特征在于，根据下列方式确定所述候选项集中每个候选项对应的支持度：

6.如权利要求1-4中任一项所述的方法，其特征在于，所述将所述最大频繁项集作为稽核模型之后，还包括：

7.如权利要求6所述的方法，其特征在于，所述根据评估结果生成稽核工单之后，还包括：

8.如权利要求7所述的方法，其特征在于，根据所述稽核工单的反馈结果，确定稽核成功率之后，还包括：

9.一种稽核模型生成装置，其特征在于，包括：

10.如权利要求9所述的装置，其特征在于，所述候选稽核规则确定单元，具体用于：

11.如权利要求9所述的装置，其特征在于，所述稽核模型确定单元，具体用于：

12.如权利要求11所述的装置，其特征在于，所述稽核模型确定单元，还用于：

13.如权利要求9-12中任一项所述的装置，其特征在于，所述候选项集确定单元，具体用于根据下列方式确定所述候选项集中每个候选项对应的支持度：

14.如权利要求9-12中任一项所述的装置，其特征在于，所述装置还包括评估单元，具体用于：

15.如权利要求14所述的装置，其特征在于，所述评估单元，还用于：

16.如权利要求15所述的装置，其特征在于，所述评估单元，还用于：