CN117251733A

CN117251733A - 一种规则生成方法、装置、电子设备及存储介质

Info

Publication number: CN117251733A
Application number: CN202311227303.2A
Authority: CN
Inventors: 张涛; 周斌; 孙鑫焱
Original assignee: Shanghai Shizhuang Information Technology Co ltd
Current assignee: Shanghai Shizhuang Information Technology Co ltd
Priority date: 2023-09-21
Filing date: 2023-09-21
Publication date: 2023-12-19

Abstract

本发明公开了一种规则生成方法、装置、电子设备及存储介质。该方法包括：根据当前业务的训练集，确定单特征规则集合，训练集包括若干个训练样本，每个训练样本包括标识信息和至少一个特征对应的特征信息，标识信息用于指示训练样本是否为目标样本，单特征规则集合包括若干个单特征规则；根据单特征规则集合，确定候选规则集合，候选规则集合包括若干个候选规则，候选规则集合是基于单特征规则集合构建的决策树模型生成的；根据每个训练样本的标识信息和每个训练样本的至少一个特征对应的特征信息，确定每个候选规则的得分；根据每个候选规则的得分，从候选规则集合中确定至少一个候选规则作为目标规则。本方案能够生成高覆盖率、高准确率的规则。

Description

一种规则生成方法、装置、电子设备及存储介质

技术领域

本发明涉及信息技术领域，尤其涉及一种规则生成方法、装置、电子设备及存储介质。

背景技术

在电子商务、数据处理、金融等多种业务场景下，经常会遇到需要从大量的样本中筛选目标样本的问题，例如客户群体的圈定、多媒体数据的查找等。为此，规则生成方法应运而生。

规则生成方法是指基于给定的历史样本(包括目标历史样本和非目标历史样本)挖掘规则的方法，通过该规则可以从历史样本中准确的找出目标历史样本，从而使得该规则能够用于后续样本的筛选。现有的规则生成方法通常分为两种：一种是采用统计指标对历史样本进行分位数划分，进而根据位于分位数左右的样本来构造规则；另一种是采用规则拟合算法生成规则。

然而，上述第一种方法需要通过人工来实现，并且仅适用于数值型的样本特征。当样本特征的数量较多时，每个样本特征都需要进行分位数划分，会耗费大量的人力成本和时间。而上述第二种方法虽然可以快速生成规则，但是容易出现规则重叠的情况，不一定适合业务场景，甚至出现规则覆盖率高但准确率低或者准确率高但覆盖率低的问题。

发明内容

本发明提供了一种规则生成方法、装置、电子设备及存储介质，能够生成高覆盖率、高准确率的规则。

根据本发明的一方面，提供了一种规则生成方法，包括：

根据当前业务的训练集，确定单特征规则集合，其中，训练集包括若干个训练样本，训练样本基于当前业务的维度确定，每个训练样本包括标识信息和至少一个特征对应的特征信息，标识信息用于指示训练样本是否为目标样本，单特征规则集合包括若干个单特征规则，一个单特征规则对应训练样本的一个特征；

根据单特征规则集合，确定候选规则集合，其中，候选规则集合包括若干个候选规则，一个候选规则对应训练样本的至少两个特征，候选规则集合是基于单特征规则集合构建的决策树模型生成的；

根据每个训练样本的标识信息和每个训练样本的至少一个特征对应的特征信息，分别确定每个候选规则的得分；

根据每个候选规则的得分，从候选规则集合中确定至少一个候选规则作为目标规则。

根据本发明的另一方面，提供了一种规则生成装置，包括：规则确定模块和得分计算模块；

规则确定模块，用于根据当前业务的训练集，确定单特征规则集合，其中，训练集包括若干个训练样本，训练样本基于当前业务的维度确定，每个训练样本包括标识信息和至少一个特征对应的特征信息，标识信息用于指示训练样本是否为目标样本，单特征规则集合包括若干个单特征规则，一个单特征规则对应训练样本的一个特征；根据单特征规则集合，确定候选规则集合，其中，候选规则集合包括若干个候选规则，一个候选规则对应训练样本的至少两个特征，候选规则集合是基于单特征规则集合构建的决策树模型生成的；

得分计算模块，用于根据每个训练样本的标识信息和每个训练样本的至少一个特征对应的特征信息，分别确定每个候选规则的得分；

规则确定模块，还用于根据每个候选规则的得分，从候选规则集合中确定至少一个候选规则作为目标规则。

根据本发明的另一方面，提供了一种电子设备，电子设备包括：

至少一个处理器；以及

与至少一个处理器通信连接的存储器；其中，

存储器存储有可被至少一个处理器执行的计算机程序，计算机程序被至少一个处理器执行，以使至少一个处理器能够执行本发明任一实施例的规则生成方法。

根据本发明的另一方面，提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机指令，计算机指令用于使处理器执行时实现本发明任一实施例的规则生成方法。

本发明实施例的技术方案，通过当前业务的训练集，确定包括若干个单特征规则的单特征规则集合；再根据单特征规则集合，确定包括若干个候选规则的候选规则集合；进而结合训练集中每个训练样本的标识信息和至少一个特征对应的特征信息，确定每个候选规则的得分，从而从候选规则集合中确定至少一个候选规则作为目标规则。与现有的规则生成方法相比，本发明提供的方案无需人工操作；并且由于一个单特征规则仅对应训练样本的一个特征，候选规则集合又是基于单特征规则集合构建的决策树模型生成的，因此大大降低了规则出现重叠的概率，使之更适合实际的业务场景；另外，目标规则是根据候选规则的得分确定的，使得目标规则同时具有高覆盖率和高准确率的优点。

应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一提供的一种规则生成方法的流程示意图；

图2是本发明实施例一提供的一种规则拟合算法的运行流程示意图；

图3是本发明实施例一提供的另一种规则生成方法的流程示意图；

图4是本发明实施例二提供的一种规则生成方法的流程示意图；

图5是本发明实施例二提供的一种构建第二规则对应的决策树模型的流程示意图；

图6是本发明实施例二提供的一种正在构建的决策树模型的示意图；

图7是本发明实施例二提供的一种已经构建完毕的决策树模型的示意图；

图8是本发明实施例三提供的一种规则生成装置的结构示意图；

图9是本发明实施例三提供的另一种规则生成装置的结构示意图；

图10是本发明实施例四提供的一种电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“候选”、“原始”、“目标”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

另外，本发明中对用户信息的采集、存储、使用、处理等步骤均符合国家法律法规的相关规定。

实施例一

图1是本发明实施例一提供的一种规则生成方法的流程示意图，本实施例可适用于基于训练集生成规则的情况，该方法可以由规则生成装置来执行，该规则生成装置可以采用硬件和/或软件的形式实现，该规则生成装置可配置于电子设备(如计算机或者服务器)中。如图1所示，该方法包括：

S110、根据当前业务的训练集，确定单特征规则集合，其中，训练集包括若干个训练样本，训练样本基于当前业务的维度确定，每个训练样本包括标识信息和至少一个特征对应的特征信息，标识信息用于指示训练样本是否为目标样本，单特征规则集合包括若干个单特征规则，一个单特征规则对应训练样本的一个特征。

当前业务通常由当前的业务场景确定，不同的业务场景对应不同的业务。本发明提供的规则生成方法可适用于电子商务、数据处理、金融等多种业务场景。

当前业务的训练集包括若干个训练样本，由于训练样本是基于当前业务的维度确定的，不同的业务其维度也是不同的，因此，针对不同的业务，根据其维度确定的训练样本是不同的，训练集也是不同的。其中，当前业务的维度可以理解为当前业务所涉及的最小个体。

为了能够顺利确定目标规则，在确定目标规则前，需要知道训练集中每个训练样本是否为目标样本，目标样本即为将最终确定的目标规则代入训练集中进行筛选所能得到的样本。因此，每个训练样本均包括用于指示该训练样本是否为目标样本的标识信息。另外，每个训练样本还包括至少一个特征对应的特征信息。对于同一个训练集，该训练集中每个训练样本的特征是相同的，但是不同训练样本的同一特征对应的特征信息可以是相同的也可以是不同的。训练样本的特征数量为至少一个，特征的数量越多，最终确定的目标规则越复杂，将目标规则应用到应用集时确定的筛选结果越准确；特征的数量越少，目标规则的确定速度越快。在实际应用中，训练样本的特征数量可以根据实际情况进行设定，本发明实施例对此不作具体限制。

示例性的，以电子商务或者金融业务场景为例，当前业务可以是对某一种客户群体(如具有购买某件产品倾向的客户群体、具有金融风险的客户群体等)进行圈定。当前业务的维度为客户，训练样本为客户的用户信息。假设训练集1中包括3个训练样本，分别为用户信息1、用户信息2和用户信息3，用户信息1包括：标识0、用户年龄25岁、所在地域上海，用户信息2包括：标识0、用户年龄30岁、所在地域北京，用户信息3包括：标识1、用户年龄28岁、所在地域北京。其中，标识0用于指示训练样本不是目标样本，标识1用于指示训练样本是目标样本。因此可以看出，训练集1中用户信息3是目标样本，用户信息1和2不是目标样本，该训练集中每个训练样本有2个特征：用户年龄和所在地域，每个训练样本的每个特征对应的特征信息可能相同也可能不同。

又示例性的，以数据处理的业务场景为例，当前业务可以是对某种数据文件(如多媒体文件、文本文件等)进行筛选。当前业务的维度为数据库/文件夹，训练样本为数据库/文件夹中的文件。假设训练集2中包括4个训练样本，分别为文件1、文件2、文件3和文件4，文件1包括：标识0、文件格式txt、文件大小100千字节(kb)、创建时间2023年9月10日，文件2包括：标识1、文件格式txt、文件大小200千字节(kb)、创建时间2023年9月10日，文件3包括：标识1、文件格式doc、文件大小1兆字节(mb)、创建时间2023年8月10日，文件4包括：标识0、文件格式mp4、文件大小20兆字节(mb)、创建时间2023年8月1日。其中，标识0用于指示训练样本不是目标样本，标识1用于指示训练样本是目标样本。因此可以看出，训练集2中文件2和文件3是目标样本，文件1和文件4不是目标样本，该训练集中每个训练样本有3个特征：文件格式、文件大小和创建时间，每个训练样本的每个特征对应的特征信息可能相同也可能不同。

在一实施例中，步骤S110中“根据当前业务的训练集，确定单特征规则集合”的方法可以包括如下两个步骤：

步骤a1：通过规则拟合算法对训练集进行训练，生成原始规则集合。

规则拟合算法又称为RuleFit算法。图2是本发明实施例一提供的一种规则拟合算法的运行流程示意图。如图2所示，通过规则拟合算法对训练集进行训练的过程主要分为三步：第一步是基于训练集生成M个基分类器(通常为随机森林或者梯度提升决策树(Gradient Boosting Decision Tree，GBDT)，M为正整数；第二步是训练M个基分类器，生成若干条规则；第三步是对生成的规则加惩罚项进行线性拟合，最终得到原始规则集合，其中，原始规则集合包括若干个原始规则，一个原始规则对应训练样本的一个或多个特征。

步骤a2：根据原始规则集合，确定单特征规则集合。

由于一个原始规则对应训练样本的一个或多个特征，而一个单特征规则对应训练样本的一个特征，因此需要对原始规则集合进行拆解处理，以基于拆解处理后的原始规则集合确定单特征规则集合。

在一种可能的实现方式中，可以先将原始规则集合中的原始规则分为两部分，第一部分是对应训练样本的多个特征的原始规则，第二部分是对应训练样本的一个特征的原始规则。然后对第一部分的原始规则进行拆解处理，将拆解后的第一部分的原始规则和第二部分的原始规则共同作为单特征规则集合中的单特征规则。例如，原始规则集合中包括原始规则1和原始规则2，原始规则1记为{a1b1}，表示原始规则1包括对应训练样本的特征a的规则a1和对应训练样本的特征b的规则b2，原始规则2记为{b2}，表示原始规则2包括对应训练样本的特征b的规则b2。原始规则1为第一部分的原始规则，原始规则2为第二部分的原始规则。因此，对原始规则1进行拆解处理，得到单特征规则{a1}和{b1}，最终得到的单特征规则集合包括三个单特征规则{a1}，{b1}和{b2}。

可选的，为了避免单特征规则集合中存在重复的规则，还可以对上述实现方式得到的单特征规则集合进行去重处理，以降低计算复杂度。例如，原始规则集合中包括原始规则1和原始规则2，原始规则1记为{a1b1}，表示原始规则1包括对应训练样本的特征a的规则a1和对应训练样本的特征b的规则b2，原始规则2记为{b1}，表示原始规则2包括对应训练样本的特征b的规则b1。原始规则1为第一部分的原始规则，原始规则2为第二部分的原始规则。因此，对原始规则1进行拆解处理，得到单特征规则{a1}和{b1}，由于单特征规则{b1}和原始规则2重复，因此需要去重仅保留其中任一即可，最终得到的单特征规则集合包括两个单特征规则{a1}和{b1}。

在另一种可能的实现方式中，可以先按照第一预设方式(如以原始规则的重要程度为指标、或者以原始规则的权重为指标、或者以原始规则的得分为指标)，从原始规则集合中挑选部分原始规则，再对挑选出的原始规则采用上述可能的实现方式，最终得到单特征规则集合。与上述可能的实现方式相比，本实现方式规则的数量减少，可以进一步降低计算复杂度。

S120、根据单特征规则集合，确定候选规则集合，其中，候选规则集合包括若干个候选规则，一个候选规则对应训练样本的至少两个特征，候选规则集合是基于单特征规则集合构建的决策树模型生成的。

在一实施例中，步骤S120中“根据单特征规则集合，确定候选规则集合”的方法可以包括如下两个步骤：

步骤b1：根据单特征规则集合，构建决策树模型。

在本发明中，决策树模型可以是根据单特征规则集合中的部分/全部单特征规则随机构建的，也可以是按照设定好的算法构建的。

示例性的，若决策树模型是根据单特征规则集合中的全部单特征规则按照设定好的算法构建的，其构建方法可以为：1)从单特征规则集合中确定至少一个单特征规则作为第二规则；2)分别根据每个第二规则和单特征规则集合，构建每个第二规则对应的决策树模型，其中，一个第二规则对应的决策树模型的根节点为该第二规则、非根节点(又可称为叶子节点)为单特征规则集合中除了该第二规则以外的其他所有单特征规则。

以一个第二规则为例，构建其对应的决策树模型的方法可以为：

构建第1层节点：将该第二规则作为决策树模型的根节点；

构建第2层节点：将第二规则从单特征规则集合中剔除后，从单特征规则集合中选择若干个单特征规则作为决策树模型的第2层节点；

构建第3层节点：对于每一个第2层节点，将第二规则和该第2层节点从单特征规则集合中剔除后，从单特征规则集合中选择若干个单特征规则作为该第2层节点的子节点；

以此类推，直至剔除了节点后的单特征规则集合中不再有单特征规则为止。

步骤b2：基于决策树模型，确定候选规则集合。

具体的，可以遍历每个决策树模型，将每个决策树模型的所有规则作为候选规则放入候选规则集合。

S130、根据每个训练样本的标识信息和每个训练样本的至少一个特征对应的特征信息，分别确定每个候选规则的得分。

在一实施例中，步骤S130中“根据每个训练样本的标识信息和每个训练样本的至少一个特征对应的特征信息，分别确定每个候选规则的得分”的方法可以包括如下两个步骤：

步骤c1：根据每个训练样本的标识信息和每个训练样本的至少一个特征对应的特征信息，分别确定在以每个候选规则作为约束条件时训练集的第二得分。

第二得分可以包括若干个子得分，不同的子得分反应了候选规则在不同层面的筛选能力。

步骤c2：根据第二得分，分别确定每个候选规则的得分。

通常，候选规则的得分越高，表示该候选规则的准确率和覆盖率越高；候选规则的得分越低，表示该候选规则的准确率和覆盖率越低。

S140、根据每个候选规则的得分，从候选规则集合中确定至少一个候选规则作为目标规则。

目标规则即为最终确定的规则。目标规则的数量可以为一个，也可以为多个。

在一种可能的实现方式中，可以从候选规则集合中选择得分位于前N的候选规则作为目标规则，N为正整数。

在另一中可能的实现方式中，可以将得分大于第一预设阈值的候选规则作为目标规则。

可选的，在上述实施例的基础上，图3是本发明实施例一提供的另一种规则生成方法的流程示意图。如图3所示，在步骤S140执行之后，还包括步骤S150-S160：

S150、获取当前业务的应用集，其中，应用集包括若干个应用样本，应用样本基于当前业务的维度确定，每个应用样本包括至少一个特征对应的特征信息。

当前业务的应用集包括若干个应用样本，由于应用样本是基于当前业务的维度确定的，不同的业务其维度也是不同的，因此，针对不同的业务，根据其维度确定的应用样本是不同的，应用集也是不同的。

另外，由于训练集和应用集都是基于当前业务的维度确定的，因此，训练集和应用集是类似的。训练集与应用集的区别在于：训练集是为了生成目标规则存在的，因此需要知道训练集中每个训练样本是否为目标样本，即训练样本需要包括用于指示该训练样本是否为目标样本的标识信息；而应用集是目标规则实际应用的集合，因此应用集中的应用样本不需要包括标识信息。

S160、根据目标规则和应用集，确定筛选结果。

利用目标规则对应用集进行匹配，即可确定筛选结果。

其中，筛选结果根据当前业务的不同可以有不同的作用。例如，若当前业务是对具有购买某件产品倾向的客户群体进行圈定，那么筛选结果就是可能会购买某件产品的客户群体，因此可以根据筛选结果对这个客户群体发送优惠通知信息/商品推荐信息；又例如，若当前业务是对具有金融风险的客户群体进行圈定，那么筛选结果就是具有金融风险的客户群体，因此可以根据筛选结果对这个客户群体进行风险监控；还例如，若当前业务是对某种文本文件进行筛选，那么筛选结果就是该种文本文件，因此可以根据筛选结果进行进一步的操作。

实施例二

图4是本发明实施例二提供的一种规则生成方法的流程示意图，在上述实施例一的基础上，本实施例提供了规则生成的具体实施方式。如图4所示，该方法包括：

S201、通过规则拟合算法对训练集进行训练，生成原始规则集合，其中，原始规则集合包括若干个原始规则，一个原始规则对应训练样本的一个或多个特征。

其中，训练集包括若干个训练样本，训练样本基于当前业务的维度确定，每个训练样本包括标识信息和至少一个特征对应的特征信息，标识信息用于指示训练样本是否为目标样本。对于当前业务、训练集和训练样本的描述可以参考上述实施例一的步骤S110中的描述，为了简洁，此处不再赘述。

具体的，步骤S201中“通过规则拟合算法对训练集进行训练，生成原始规则集合”的方法可以包括如下三个步骤：

步骤d1：基于训练集生成M个基分类器，M为正整数。

M个基分类器可以是基于训练集随机生成的，M的数量可以根据实际的需求进行设定。

步骤d2：训练M个基分类器，生成若干条规则。

步骤d3：对生成的规则加惩罚项进行线性拟合，得到原始规则集合。

假设步骤d2中共生成了j条规则，记为r₁(x),r₂(x),...,r_j(x)，其中，j是一个固定的值，其中，t_m是第m个基分类器的叶子节点的数目。将每一个规则当成一个新的变量进行拟合，每个规则的权重通过对损失函数加入惩罚项进行线性拟合，最后保留w条规则放入原始规则集合，w为正整数。

S202、根据每个原始规则的指标参数，从原始规则集合中确定至少一个原始规则作为第一规则，其中，指标参数用于反应原始规则的重要程度。

通过上述规则拟合算法得到的原始规则集合，其中的每个原始规则均具有一个指标参数，该指标参数用于反应原始规则的重要程度。因此，可以按照指标参数对原始规则的重要程度进行排序，并选择重要程度位于前R的原始规则作为第一规则，R为正整数；或者，可以选择重要程度大于第二预设阈值的原始规则作为第一规则。

S203、根据第一规则，确定单特征规则集合。

其中，单特征规则集合包括若干个单特征规则，一个单特征规则对应训练样本的一个特征。

由于一个第一规则可能对应训练样本的一个特征，也可能对应训练样本的多个特征，而一个单特征规则对应训练样本的一个特征，因此对于第一规则，还需要执行下述步骤e1-e4，以确定单特征规则集合：

步骤e1：判断第一规则是否对应训练样本的多个特征。

步骤e2：若第一规则对应训练样本的一个特征，则将第一规则作为单特征规则，并放入单特征规则集合。

步骤e3：若第一规则对应训练样本的多个特征，则对第一规则进行拆解处理，得到多个单特征规则，并放入单特征规则集合。

步骤e4：对单特征规则集合进行去重处理。

如此，可以避免单特征规则集合中存在重复的规则，节约了算力，提高了目标规则的生成效率。

S204、根据每个训练样本的标识信息和每个训练样本的至少一个特征对应的特征信息，分别确定在以每个单特征规则作为约束条件时训练集的第一得分。

S205、根据第一得分，从单特征规则集合中确定至少一个单特征规则作为第二规则。

在构建决策树模型前，首先需要确定决策树模型的数量和每个决策树模型的根节点，具体的，结合步骤S204和S205，决策树模型的数量等于第二规则的个数，一个决策树模型的根节点为一个第二规则。

在一实施例中，第一得分包括第一召回率、第一准确率、第一性价比值中的至少之一。

示例a1，当第一得分仅包括第一召回率时，对于一个单特征规则，在以该单特征规则作为约束条件时训练集的第一召回率根据第一召回样本数和第一目标样本数确定。其中，第一召回样本数为训练集中既是目标样本又符合该单特征规则的训练样本数，第一目标样本数为训练集中目标样本的数量。可选的，

相应的，可以对第一召回率按照从大到小的顺序依次排列，并选择作为约束条件时单特征规则集合中第一召回率位于前K的单特征规则作为第二规则，K为正整数；或者选择第一召回率大于第三预设阈值的单特征规则作为第二规则。

示例a2，当第一得分仅包括第一准确率时，对于一个单特征规则，在以该单特征规则作为约束条件时训练集的第一准确率根据第一召回样本数和第一规则识别样本数确定。其中，第一召回样本数为训练集中既是目标样本又符合该单特征规则的训练样本数，第一规则识别样本数为训练集中符合该单特征规则的训练样本数。可选的，

相应的，可以对第一准确率按照从大到小的顺序依次排列，并选择作为约束条件时单特征规则集合中第一准确率位于前K的单特征规则作为第二规则，K为正整数；或者选择第一准确率大于第四预设阈值的单特征规则作为第二规则。

示例a3，当第一得分仅包括第一性价比值时，对于一个单特征规则，在以该单特征规则作为约束条件时训练集的第一性价比值根据第一召回样本数、第一规则识别样本数和第一目标样本数确定。其中，第一召回样本数为训练集中既是目标样本又符合该单特征规则的训练样本数，第一规则识别样本数为训练集中符合该单特征规则的训练样本数，第一目标样本数为训练集中目标样本的数量。可选的，

相应的，可以对第一性价比值按照从大到小的顺序依次排列，并选择作为约束条件时单特征规则集合中第一性价比值位于前K的单特征规则作为第二规则，K为正整数；或者选择第一性价比值大于第五预设阈值的单特征规则作为第二规则。

示例a4，当第一得分包括第一召回率和第一准确率时，对于一个单特征规则，在以该单特征规则作为约束条件时训练集的第一召回率和第一准确率可以参照上述示例a1和示例a2的方式确定。

相应的，根据第一召回率和第一准确率，确定第三规则，其中，第三规则包括作为约束条件时单特征规则集合中第一召回率位于前K的单特征规则和作为约束条件时单特征规则集合中第一准确率位于前K的单特征规则，K为正整数；对第三规则进行去重处理，得到第二规则。如此，可以避免第二规则中存在重复的规则，节约了算力，提高了目标规则的生成效率。

示例a5，当第一得分包括第一召回率和第一性价比值时，对于一个单特征规则，在以该单特征规则作为约束条件时训练集的第一召回率和第一性价比值可以参照上述示例a1和示例a3的方式确定。

相应的，根据第一召回率和第一性价比值，确定第三规则，其中，第三规则包括作为约束条件时单特征规则集合中第一召回率位于前K的单特征规则和作为约束条件时单特征规则集合中第一性价比值位于前K的单特征规则，K为正整数；对第三规则进行去重处理，得到第二规则。如此，可以避免第二规则中存在重复的规则，节约了算力，提高了目标规则的生成效率。

示例a6，当第一得分包括第一准确率和第一性价比值时，对于一个单特征规则，在以该单特征规则作为约束条件时训练集的第一准确率和第一性价比值可以参照上述示例a2和示例a3的方式确定。

相应的，根据第一准确率和第一性价比值，确定第三规则，其中，第三规则包括作为约束条件时单特征规则集合中第一准确率位于前K的单特征规则和作为约束条件时单特征规则集合中第一性价比值位于前K的单特征规则，K为正整数；对第三规则进行去重处理，得到第二规则。如此，可以避免第二规则中存在重复的规则，节约了算力，提高了目标规则的生成效率。

示例a7，当第一得分包括第一召回率、第一准确率和第一性价比值时，对于一个单特征规则，在以该单特征规则作为约束条件时训练集的第一召回率、第一准确率和第一性价比值可以参照上述示例a1至示例a3的方式确定。

相应的，根据第一召回率、第一准确率和第一性价比值，确定第三规则，其中，第三规则包括作为约束条件时单特征规则集合中第一召回率位于前K的单特征规则、作为约束条件时单特征规则集合中第一准确率位于前K的单特征规则和作为约束条件时单特征规则集合中第一性价比值位于前K的单特征规则，K为正整数；对第三规则进行去重处理，得到第二规则。如此，可以避免第二规则中存在重复的规则，节约了算力，提高了目标规则的生成效率。

需要说明的是，上述示例a1至示例a7中涉及的训练样本是否符合单特征规则是指：训练样本中与该单特征规则对应的特征，其特征信息是否满足该单特征规则。例如，单特征规则为{用户年龄＞26岁}，该单特征规则对应的特征是用户年龄，一个训练样本包{标识0，用户年龄25岁，所在地域上海}，可见该训练样本中用户年龄的特征信息是25岁，该特征信息不满足{用户年龄＞26岁}，即该训练样本不符合单特征规则{用户年龄＞26岁}。

可以理解的是，第一得分包括的内容越多，最终得到的目标规则的结果越准确。但是考虑到实际的计算效率和/或筛选目的，第一得分包括的具体内容可以根据实际的需求进行设置。例如，如果以高性价比为目的，那么可以设计第一得分仅包括第一性价比值即可。本发明实施例对此不作具体限制。

S206、分别根据每个第二规则和单特征规则集合，构建每个第二规则对应的决策树模型，其中，一个第二规则对应的决策树模型的根节点为该第二规则、非根节点为单特征规则集合中除了该第二规则以外的其他所有单特征规则。

对于任意一个第二规则，图5是本发明实施例二提供的一种构建第二规则对应的决策树模型的流程示意图。如图5所示，构建决策树模型的方法包括：

S301、获取当前已构建的中间模型，其中，中间模型包括i层节点，i为正整数，第1层节点为根节点，第i层节点为中间模型的末尾节点，单特征规则集合中的一个单特征规则为一个节点。

中间模型是在构建决策树模型的过程中不断更新的。当刚开始构建决策树模型时，中间模型仅有一层节点，即根节点。

S302、根据中间模型，确定所有目标路径，其中，一条目标路径为根节点到一个末尾节点的路径。

示例性的，图6是本发明实施例二提供的一种正在构建的决策树模型的示意图。如图6所示，虚线框中为当前已构建的中间模型，中间模型包括3层节点，第1层节点为根节点(对应单特征规则1)，第三层节点为中间模型的末尾节点(分别对应单特征规则3,4,5,2)。该中间模型一共包括4条目标路径，分别记为目标路径1，目标路径2，目标路径3和目标路径4。目标路径1为单特征规则1-2-3；目标路径2为单特征规则1-2-4；目标路径3为单特征规则1-4-5；目标路径4为单特征规则1-4-2。

S303、针对每一条目标路径，根据目标路径上的所有节点和单特征规则集合，确定目标路径对应的剩余规则集合。

具体的，目标路径对应的剩余规则集合包括剩余规则，剩余规则为单特征规则集合中除了目标路径上的所有作为节点的单特征规则以外的其他所有单特征规则。

假设单特征规则集合包括6个单特征规则(分别记为单特征规则1至6)，以图6为例，目标路径1对应的剩余规则集合为{单特征规则4，单特征规则5，单特征规则6}，目标路径2对应的剩余规则集合为{单特征规则3，单特征规则5，单特征规则6}，目标路径3对应的剩余规则集合为{单特征规则2，单特征规则3，单特征规则6}，目标路径4对应的剩余规则集合为{单特征规则3，单特征规则5，单特征规则6}。

S304、判断目标路径对应的剩余规则集合是否为空。若否，则执行步骤S305；若是，则执行步骤S306。

目标路径对应的剩余规则集合是否为空是指目标路径对应的剩余规则集合中剩余规则的数量是否为0。若为0，则表示目标路径对应的剩余规则集合为空；若不为0，则表示目标路径对应的剩余规则集合不为空。

305、根据目标路径对应的剩余规则集合确定目标路径的第i层节点的子节点，并将子节点作为目标路径的第i+1层节点添加至中间模型后，将目标路径的第i+1层节点作为新的末尾节点，返回执行步骤S302。

具体的，根据目标路径对应的剩余规则集合确定目标路径的第i层节点的子节点的方法可以为：分别获取在以每个剩余规则作为约束条件时训练集的第一得分；根据第一得分，从目标路径对应的剩余规则集合中确定剩余规则作为目标路径的第i层节点的子节点。

由于上述步骤S204中已经确定了在以每个单特征规则作为约束条件时训练集的第一得分，因此，仅需要根据步骤S204中确定的得分结果，查找对应的第一得分即可。

示例b1，当第一得分包括第一召回率时，根据第一得分，从目标路径对应的剩余规则集合中确定剩余规则作为目标路径的第i层节点的子节点，包括：根据第一召回率，确定第四规则，其中，第四规则包括作为约束条件时剩余规则集合中第一召回率位于前K的剩余规则，K为正整数；将第四规则作为目标路径的第i层节点的子节点。

示例b2，当第一得分包括第一准确率时，根据第一得分，从目标路径对应的剩余规则集合中确定剩余规则作为目标路径的第i层节点的子节点，包括：根据第一准确率，确定第四规则，其中，第四规则包括作为约束条件时剩余规则集合中第一准确率位于前K的剩余规则，K为正整数；将第四规则作为目标路径的第i层节点的子节点。

示例b3，当第一得分包括第一性价比值时，根据第一得分，从目标路径对应的剩余规则集合中确定剩余规则作为目标路径的第i层节点的子节点，包括：根据第一性价比值，确定第四规则，其中，第四规则包括作为约束条件时剩余规则集合中第一性价比值位于前K的剩余规则，K为正整数；将第四规则作为目标路径的第i层节点的子节点。

示例b4，当第一得分包括第一召回率和第一准确率时，根据第一得分，从目标路径对应的剩余规则集合中确定剩余规则作为目标路径的第i层节点的子节点，包括：根据第一召回率和第一准确率，确定第四规则，其中，第四规则包括作为约束条件时剩余规则集合中第一召回率位于前K的剩余规则、作为约束条件时剩余规则集合中第一准确率位于前K的剩余规则，K为正整数；将第四规则作为目标路径的第i层节点的子节点。

示例b5，当第一得分包括第一召回率和第一性价比值时，根据第一得分，从目标路径对应的剩余规则集合中确定剩余规则作为目标路径的第i层节点的子节点，包括：根据第一召回率和第一性价比值，确定第四规则，其中，第四规则包括作为约束条件时剩余规则集合中第一召回率位于前K的剩余规则和作为约束条件时剩余规则集合中第一性价比值位于前K的剩余规则，K为正整数；将第四规则作为目标路径的第i层节点的子节点。

示例b6，当第一得分包括第一准确率和第一性价比值时，根据第一得分，从目标路径对应的剩余规则集合中确定剩余规则作为目标路径的第i层节点的子节点，包括：根据第一准确率和第一性价比值，确定第四规则，其中，第四规则包括作为约束条件时剩余规则集合中第一准确率位于前K的剩余规则和作为约束条件时剩余规则集合中第一性价比值位于前K的剩余规则，K为正整数；将第四规则作为目标路径的第i层节点的子节点。

示例b7，当第一得分包括第一召回率、第一准确率和第一性价比值时，根据第一得分，从目标路径对应的剩余规则集合中确定剩余规则作为目标路径的第i层节点的子节点，包括：根据第一召回率、第一准确率和第一性价比值，确定第四规则，其中，第四规则包括作为约束条件时剩余规则集合中第一召回率位于前K的剩余规则、作为约束条件时剩余规则集合中第一准确率位于前K的剩余规则和作为约束条件时剩余规则集合中第一性价比值位于前K的剩余规则，K为正整数；将第四规则作为目标路径的第i层节点的子节点。

需要说明的是，对于上述示例b4-b7，第四规则可能会出现重复的规则的情况，因此，还可以包括：判断第四规则中是否具有重复的规则；若第四规则中具有重复的规则，则对第四规则进行预处理，并将进行预处理后的第四规则作为目标路径的第i层节点的子节点，其中，预处理包括去重处理，或者预处理包括去重处理和补缺处理；若第四规则中不具有重复的规则，则将第四规则作为目标路径的第i层节点的子节点。

对于预处理仅包括去重处理的情况：假设K＝1，作为约束条件时剩余规则集合中第一召回率最高的剩余规则为规则x，作为约束条件时剩余规则集合中第一准确率最高的剩余规则为规则x，作为约束条件时剩余规则集合中第一性价比值最高的剩余规则为规则y，经过去重处理后，最终目标路径的第i层节点的子节点数量为2，即规则x和规则y。

对于预处理包括去重处理和补缺处理的情况：假设K＝1，作为约束条件时剩余规则集合中第一召回率最高的剩余规则为规则x，作为约束条件时剩余规则集合中第一准确率最高的剩余规则为规则x，作为约束条件时剩余规则集合中第一性价比值最高的剩余规则为规则y，经过去重处理后，仅剩规则x和规则y；此时还需要再选择第一准确率/第一性价比值第二高的剩余规则(如剩余规则z)进行补缺处理，最终目标路径的第i层节点的子节点为3，即规则x，规则y和规则z。

S306、将中间模型作为第二规则对应的决策树模型。

当所有的目标路径对应的剩余规则集合均为空时，表示决策树模型构建完毕，将中间模型作为第二规则对应的决策树模型即可。

S207、根据所有决策树模型，确定候选规则集合。

候选规则集合包括若干个候选规则，一个候选规则对应训练样本的至少两个特征。

具体的，根据所有决策树模型，确定候选规则集合的方法可以包括：分别获取每个决策树模型的所有候选路径，其中，一条候选路径为决策树模型的根节点到一个非根节点的路径；分别确定每条候选路径对应的候选规则，并将候选规则放入候选规则集合。

图7是本发明实施例二提供的一种已经构建完毕的决策树模型的示意图。如图7所示，该决策树模型包括12个非根节点，因此该决策树模型的共有12条候选路径，可以得到12个候选规则。

S208、根据每个训练样本的标识信息和每个训练样本的至少一个特征对应的特征信息，分别确定在以每个候选规则作为约束条件时训练集的第二得分。

在一实施例中，第二得分包括第二召回率、第二准确率、第二性价比值中的至少之一。

示例c1，当第二得分仅包括第二召回率时，对于一个候选规则，在以该候选规则作为约束条件时训练集的第二召回率根据第二召回样本数和第二目标样本数确定。其中，第二召回样本数为训练集中既是目标样本又符合候选规则的训练样本数，第二目标样本数为训练集中目标样本的数量。可选的，

示例c2，当第二得分仅包括第二准确率时，对于一个候选规则，在以该候选规则作为约束条件时训练集的第二准确率根据第二召回样本数和第二规则识别样本数确定。其中，第二召回样本数为训练集中既是目标样本又符合候选规则的训练样本数，第二规则识别样本数为训练集中符合候选规则的训练样本数。可选的，

示例c3，当第二得分仅包括第二性价比值时，对于一个候选规则，在以该候选规则作为约束条件时训练集的第二性价比值根据第二召回样本数、第二规则识别样本数和第二目标样本数确定。其中，第二召回样本数为训练集中既是目标样本又符合候选规则的训练样本数，第二规则识别样本数为训练集中符合候选规则的训练样本数，第二目标样本数为训练集中目标样本的数量。可选的，

示例c4，当第二得分包括第二召回率和第二准确率时，对于一个候选规则，在以该候选规则作为约束条件时训练集的第二召回率和第二准确率可以参照上述示例c1和示例c2的方式确定。

示例c5，当第二得分包括第二召回率和第二性价比值时，对于一个候选规则，在以该候选规则作为约束条件时训练集的第二召回率和第二性价比值可以参照上述示例c1和示例c3的方式确定。

示例c6，当第二得分包括第二准确率和第二性价比值时，对于一个候选规则，在以该候选规则作为约束条件时训练集的第二准确率和第二性价比值可以参照上述示例c2和示例c3的方式确定。

示例c7，当第二得分包括第二召回率、第二准确率和第二性价比值时，对于一个候选规则，在以该候选规则作为约束条件时训练集的第二召回率、第二准确率和第二性价比值可以参照上述示例c1至示例c3的方式确定。

需要说明的是，上述示例c1至示例c7中涉及的训练样本是否符合候选规则是指：训练样本中与该候选规则对应的特征，其特征信息是否满足该候选规则。例如，候选规则为{用户年龄＞26岁，所在地域为上海}，该候选规则对应的特征是用户年龄和所在地域，一个训练样本包{标识0，用户年龄25岁，所在地域上海}，可见该训练样本中用户年龄的特征信息是25岁、所在地域的特征信息是上海，该特征信息虽然满足{所在地域为上海}但不满足{用户年龄＞26岁}，即该训练样本不符合候选规则{用户年龄＞26岁，所在地域为上海}。

可以理解的是，第二得分包括的内容越多，最终得到的目标规则的结果越准确。但是考虑到实际的计算效率和/或筛选目的，第二得分包括的具体内容可以根据实际的需求进行设置。例如，如果以高性价比为目的，那么可以设计第二得分仅包括第二性价比值即可。本发明实施例对此不作具体限制。

S209、根据第二得分，分别确定每个候选规则的得分。

具体的，当第二得分包括第二召回率、第二准确率、第二性价比值中的任意一项时，每个候选规则的得分可以等于该候选规则对应的第二得分；当第二得分包括第二召回率、第二准确率、第二性价比值中的至少两项时，可以结合预设算法，根据第二得分，分别确定每个候选规则的得分。

示例性的，当第二得分包括第二召回率、第二准确率和第二性价比值时，可以基于预设算法，根据第二召回率、第二准确率和第二性价比值，确定候选规则的得分。

其中，预设算法可以是取最大值、也可以是取平均值、还可以是加权计算的值，本发明实施例对此不作具体限制。

S210、从候选规则集合中选择得分位于前N的候选规则作为目标规则，N为正整数。

S211、获取当前业务的应用集，其中，应用集包括若干个应用样本，应用样本基于当前业务的维度确定，每个应用样本包括至少一个特征对应的特征信息。

由于训练集和应用集都是基于当前业务的维度确定的，因此，训练集和应用集是类似的。训练集与应用集的区别在于：训练集是为了生成目标规则存在的，因此需要知道训练集中每个训练样本是否为目标样本，即训练样本需要包括用于指示该训练样本是否为目标样本的标识信息；而应用集是目标规则实际应用的集合，因此应用集中的应用样本不需要包括标识信息。

S212、根据目标规则和应用集，确定筛选结果。

利用目标规则对应用集进行匹配，即可确定筛选结果。其中，筛选结果根据当前业务的不同可以有不同的作用。

本发明实施例的技术方案，由于设计了一种构建决策树模型的方法，并且构建决策树模型选择的节点是基于规则的得分选择的，考虑了规则的重要性、准确率和重复情况，因此有利于生成的目标规则的识别能力，使之更适合业务场景。

实施例三

图8是本发明实施例三提供的一种规则生成装置的结构示意图。如图8所示，该装置包括：规则确定模块801和得分计算模块802。

规则确定模块801，用于根据当前业务的训练集，确定单特征规则集合，其中，训练集包括若干个训练样本，训练样本基于当前业务的维度确定，每个训练样本包括标识信息和至少一个特征对应的特征信息，标识信息用于指示训练样本是否为目标样本，单特征规则集合包括若干个单特征规则，一个单特征规则对应训练样本的一个特征；根据单特征规则集合，确定候选规则集合，其中，候选规则集合包括若干个候选规则，一个候选规则对应训练样本的至少两个特征，候选规则集合是基于单特征规则集合构建的决策树模型生成的；

得分计算模块802，用于根据每个训练样本的标识信息和每个训练样本的至少一个特征对应的特征信息，分别确定每个候选规则的得分；

规则确定模块801，还用于根据每个候选规则的得分，从候选规则集合中确定至少一个候选规则作为目标规则。

可选的，规则确定模块801，具体用于通过规则拟合算法对训练集进行训练，生成原始规则集合，其中，原始规则集合包括若干个原始规则，一个原始规则对应训练样本的一个或多个特征；根据每个原始规则的指标参数，从原始规则集合中确定至少一个原始规则作为第一规则，其中，指标参数用于反应原始规则的重要程度；根据第一规则，确定单特征规则集合。

可选的，规则确定模块801，具体用于判断第一规则是否对应训练样本的多个特征；若第一规则对应训练样本的一个特征，则将第一规则作为单特征规则，并放入单特征规则集合；若第一规则对应训练样本的多个特征，则对第一规则进行拆解处理，得到多个单特征规则，并放入单特征规则集合；对单特征规则集合进行去重处理。

可选的，规则确定模块801，具体用于从单特征规则集合中确定至少一个单特征规则作为第二规则；分别根据每个第二规则和单特征规则集合，构建每个第二规则对应的决策树模型，其中，一个第二规则对应的决策树模型的根节点为该第二规则、非根节点为单特征规则集合中除了该第二规则以外的其他所有单特征规则；根据所有决策树模型，确定候选规则集合。

可选的，规则确定模块801，具体用于根据每个训练样本的标识信息和每个训练样本的至少一个特征对应的特征信息，分别确定在以每个单特征规则作为约束条件时训练集的第一得分；根据第一得分，从单特征规则集合中确定至少一个单特征规则作为第二规则。

可选的，第一得分包括第一召回率、第一准确率、第一性价比值中的至少之一。

可选的，当第一得分包括第一召回率、第一准确率和第一性价比值时；对于任意一个单特征规则，规则确定模块801，具体用于根据每个训练样本的标识信息和每个训练样本的至少一个特征对应的特征信息，确定在以单特征规则作为约束条件时训练集的第一召回样本数、第一规则识别样本数和第一目标样本数，其中，第一召回样本数为训练集中既是目标样本又符合单特征规则的训练样本数，第一规则识别样本数为训练集中符合单特征规则的训练样本数，第一目标样本数为训练集中目标样本的数量；根据第一召回样本数和第一目标样本数，确定第一召回率；根据第一召回样本数和第一规则识别样本数，确定第一准确率；根据第一召回样本数、第一规则识别样本数和第一目标样本数，确定第一性价比值。

可选的，规则确定模块801，具体用于根据第一召回率、第一准确率和第一性价比值，确定第三规则，其中，第三规则包括作为约束条件时单特征规则集合中第一召回率位于前K的单特征规则、作为约束条件时单特征规则集合中第一准确率位于前K的单特征规则和作为约束条件时单特征规则集合中第一性价比值位于前K的单特征规则，K为正整数；对第三规则进行去重处理，得到第二规则。

可选的，对于任意一个第二规则，规则确定模块801，具体用于获取当前已构建的中间模型，其中，中间模型包括i层节点，i为正整数，第1层节点为根节点，第i层节点为中间模型的末尾节点，单特征规则集合中的一个单特征规则为一个节点；根据中间模型，确定所有目标路径，其中，一条目标路径为根节点到一个末尾节点的路径；针对每一条目标路径，根据目标路径上的所有节点和单特征规则集合，确定目标路径对应的剩余规则集合；若目标路径对应的剩余规则集合不为空，则根据目标路径对应的剩余规则集合确定目标路径的第i层节点的子节点，并将子节点作为目标路径的第i+1层节点添加至中间模型后，将目标路径的第i+1层节点作为新的末尾节点，返回执行根据中间模型，确定所有目标路径的步骤；若每一条目标路径对应的剩余规则集合均为空，则将中间模型作为第二规则对应的决策树模型。

可选的，目标路径对应的剩余规则集合包括剩余规则，剩余规则为单特征规则集合中除了目标路径上的所有作为节点的单特征规则以外的其他所有单特征规则；

规则确定模块801，具体用于分别获取在以每个剩余规则作为约束条件时训练集的第一得分；根据第一得分，从目标路径对应的剩余规则集合中确定至少一个剩余规则作为目标路径的第i层节点的子节点。

可选的，当第一得分包括第一召回率、第一准确率和第一性价比值时；规则确定模块801，具体用于根据第一召回率、第一准确率和第一性价比值，确定第四规则，其中，第四规则包括作为约束条件时剩余规则集合中第一召回率位于前K的剩余规则、作为约束条件时剩余规则集合中第一准确率位于前K的剩余规则和作为约束条件时剩余规则集合中第一性价比值位于前K的剩余规则，K为正整数；将第四规则作为目标路径的第i层节点的子节点。

可选的，规则确定模块801，具体用于判断第四规则中是否具有重复的规则；若第四规则中具有重复的规则，则对第四规则进行预处理，并将进行预处理后的第四规则作为目标路径的第i层节点的子节点，其中，预处理包括去重处理，或者预处理包括去重处理和补缺处理；若第四规则中不具有重复的规则，则将第四规则作为目标路径的第i层节点的子节点。

可选的，规则确定模块801，具体用于分别获取每个决策树模型的所有候选路径，其中，一条候选路径为决策树模型的根节点到一个非根节点的路径；分别确定每条候选路径对应的候选规则，并将候选规则放入候选规则集合。

可选的，得分计算模块802，具体用于根据每个训练样本的标识信息和每个训练样本的至少一个特征对应的特征信息，分别确定在以每个候选规则作为约束条件时训练集的第二得分；根据第二得分，分别确定每个候选规则的得分。

可选的，第二得分包括第二召回率、第二准确率、第二性价比值中的至少之一。

可选的，当第二得分包括第二召回率、第二准确率和第二性价比值时；对于任意一个候选规则，得分计算模块802，具体用于根据每个训练样本的标识信息和每个训练样本的至少一个特征对应的特征信息，确定在以候选规则作为约束条件时训练集的第二召回样本数、第二规则识别样本数和第二目标样本数，其中，第二召回样本数为训练集中既是目标样本又符合候选规则的训练样本数，第二规则识别样本数为训练集中符合候选规则的训练样本数，第二目标样本数为训练集中目标样本的数量；根据第二召回样本数和第二目标样本数，确定第二召回率；根据第二召回样本数和第二规则识别样本数，确定第二准确率；根据第二召回样本数、第二规则识别样本数和第二目标样本数，确定第二性价比值。

可选的，得分计算模块802，具体用于基于预设算法，根据第二召回率、第二准确率和第二性价比值，确定候选规则的得分。

可选的，规则确定模块801，具体用于从候选规则集合中选择得分位于前N的候选规则作为目标规则，N为正整数。

可选的，在上述实施例的基础上，图9是本发明实施例三提供的另一种规则生成装置的结构示意图。如图9所示，该装置还包括：应用模块803。

应用模块803，用于获取当前业务的应用集，其中，应用集包括若干个应用样本，应用样本基于当前业务的维度确定，每个应用样本包括至少一个特征对应的特征信息；根据目标规则和应用集，确定筛选结果。

本发明实施例所提供的规则生成装置可执行本发明任意实施例所提供的规则生成方法，具备执行方法相应的功能模块和有益效果。

实施例四

图10是本发明实施例四提供的一种电子设备的结构示意图。电子设备10可以用来实施本发明的实施例。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。

如图10所示，电子设备10包括至少一个处理器11，以及与至少一个处理器11通信连接的存储器，如只读存储器(ROM)12、随机访问存储器(RAM)13等，其中，存储器存储有可被至少一个处理器执行的计算机程序，处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序，来执行各种适当的动作和处理。在RAM 13中，还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。

电子设备10中的多个部件连接至I/O接口15，包括：输入单元16，例如键盘、鼠标等；输出单元17，例如各种类型的显示器、扬声器等；存储单元18，例如磁盘、光盘等；以及通信单元19，例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理，例如规则生成方法。

在一些实施例中，规则生成方法可被实现为计算机程序，其被有形地包含于计算机可读存储介质，例如存储单元18。在一些实施例中，计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11执行时，可以执行上文描述的规则生成方法的一个或多个步骤。备选地，在其他实施例中，处理器11可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行规则生成方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中，计算机可读存储介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。备选地，计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在电子设备上实施此处描述的系统和技术，该电子设备具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种规则生成方法，其特征在于，包括：

根据当前业务的训练集，确定单特征规则集合，其中，所述训练集包括若干个训练样本，所述训练样本基于所述当前业务的维度确定，每个所述训练样本包括标识信息和至少一个特征对应的特征信息，所述标识信息用于指示所述训练样本是否为目标样本，所述单特征规则集合包括若干个单特征规则，一个所述单特征规则对应所述训练样本的一个特征；

根据所述单特征规则集合，确定候选规则集合，其中，所述候选规则集合包括若干个候选规则，一个所述候选规则对应所述训练样本的至少两个特征，所述候选规则集合是基于所述单特征规则集合构建的决策树模型生成的；

根据每个所述训练样本的标识信息和每个所述训练样本的至少一个特征对应的特征信息，分别确定每个所述候选规则的得分；

根据每个所述候选规则的得分，从所述候选规则集合中确定至少一个所述候选规则作为目标规则。

2.根据权利要求1所述的规则生成方法，其特征在于，所述根据当前业务的训练集，确定单特征规则集合，包括：

通过规则拟合算法对所述训练集进行训练，生成原始规则集合，其中，所述原始规则集合包括若干个原始规则，一个所述原始规则对应所述训练样本的一个或多个特征；

根据每个所述原始规则的指标参数，从所述原始规则集合中确定至少一个所述原始规则作为第一规则，其中，所述指标参数用于反应所述原始规则的重要程度；

根据所述第一规则，确定所述单特征规则集合。

3.根据权利要求2所述的规则生成方法，其特征在于，所述根据所述第一规则，确定所述单特征规则集合，包括：

判断所述第一规则是否对应所述训练样本的多个特征；

若所述第一规则对应所述训练样本的一个特征，则将所述第一规则作为所述单特征规则，并放入所述单特征规则集合；

若所述第一规则对应所述训练样本的多个特征，则对所述第一规则进行拆解处理，得到多个所述单特征规则，并放入所述单特征规则集合；

对所述单特征规则集合进行去重处理。

4.根据权利要求1所述的规则生成方法，其特征在于，所述根据所述单特征规则集合，确定候选规则集合，包括：

从所述单特征规则集合中确定至少一个所述单特征规则作为第二规则；

分别根据每个所述第二规则和所述单特征规则集合，构建每个所述第二规则对应的决策树模型，其中，一个所述第二规则对应的决策树模型的根节点为该第二规则、非根节点为所述单特征规则集合中除了该第二规则以外的其他所有单特征规则；

根据所有所述决策树模型，确定所述候选规则集合。

5.根据权利要求4所述的规则生成方法，其特征在于，所述从所述单特征规则集合中确定至少一个所述单特征规则作为第二规则，包括：

根据每个所述训练样本的标识信息和每个所述训练样本的至少一个特征对应的特征信息，分别确定在以每个所述单特征规则作为约束条件时所述训练集的第一得分；

根据所述第一得分，从所述单特征规则集合中确定至少一个所述单特征规则作为所述第二规则。

6.根据权利要求5所述的规则生成方法，其特征在于，所述第一得分包括第一召回率、第一准确率、第一性价比值中的至少之一。

7.根据权利要求6所述的规则生成方法，其特征在于，当所述第一得分包括所述第一召回率、所述第一准确率和所述第一性价比值时；

对于任意一个所述单特征规则，所述根据每个所述训练样本的标识信息和每个所述训练样本的至少一个特征对应的特征信息，确定在以所述单特征规则作为约束条件时所述训练集的第一得分，包括：

根据每个所述训练样本的标识信息和每个所述训练样本的至少一个特征对应的特征信息，确定在以所述单特征规则作为约束条件时所述训练集的第一召回样本数、第一规则识别样本数和第一目标样本数，其中，所述第一召回样本数为所述训练集中既是目标样本又符合所述单特征规则的训练样本数，所述第一规则识别样本数为所述训练集中符合所述单特征规则的训练样本数，所述第一目标样本数为所述训练集中目标样本的数量；

根据所述第一召回样本数和所述第一目标样本数，确定所述第一召回率；根据所述第一召回样本数和所述第一规则识别样本数，确定所述第一准确率；根据所述第一召回样本数、所述第一规则识别样本数和所述第一目标样本数，确定所述第一性价比值。

8.根据权利要求7所述的规则生成方法，其特征在于，所述根据所述第一得分，从所述单特征规则集合中确定至少一个所述单特征规则作为所述第二规则，包括：

根据所述第一召回率、所述第一准确率和所述第一性价比值，确定第三规则，其中，所述第三规则包括作为约束条件时所述单特征规则集合中所述第一召回率位于前K的所述单特征规则、作为约束条件时所述单特征规则集合中所述第一准确率位于前K的所述单特征规则和作为约束条件时所述单特征规则集合中所述第一性价比值位于前K的所述单特征规则，K为正整数；

对所述第三规则进行去重处理，得到所述第二规则。

9.根据权利要求5所述的规则生成方法，其特征在于，对于任意一个所述第二规则，所述根据所述第二规则和所述单特征规则集合，构建所述第二规则对应的决策树模型，包括：

获取当前已构建的中间模型，其中，所述中间模型包括i层节点，i为正整数，所述第1层节点为所述根节点，所述第i层节点为所述中间模型的末尾节点，所述单特征规则集合中的一个所述单特征规则为一个节点；

根据所述中间模型，确定所有目标路径，其中，一条所述目标路径为所述根节点到一个所述末尾节点的路径；

针对每一条所述目标路径，根据所述目标路径上的所有节点和所述单特征规则集合，确定所述目标路径对应的剩余规则集合；

若所述目标路径对应的剩余规则集合不为空，则根据所述目标路径对应的剩余规则集合确定所述目标路径的第i层节点的子节点，并将所述子节点作为所述目标路径的第i+1层节点添加至所述中间模型后，将所述目标路径的第i+1层节点作为新的末尾节点，返回执行根据所述中间模型，确定所有目标路径的步骤；

若每一条所述目标路径对应的剩余规则集合均为空，则将所述中间模型作为所述第二规则对应的决策树模型。

10.根据权利要求9所述的规则生成方法，其特征在于，所述目标路径对应的剩余规则集合包括剩余规则，所述剩余规则为所述单特征规则集合中除了所述目标路径上的所有作为节点的单特征规则以外的其他所有单特征规则；

所述根据所述目标路径对应的剩余规则集合确定所述目标路径的第i层节点的子节点，包括：

分别获取在以每个所述剩余规则作为约束条件时所述训练集的第一得分；

根据所述第一得分，从所述目标路径对应的剩余规则集合中确定至少一个所述剩余规则作为所述目标路径的第i层节点的子节点。

11.根据权利要求10所述的规则生成方法，其特征在于，当所述第一得分包括第一召回率、第一准确率和第一性价比值时；

所述根据所述第一得分，从所述目标路径对应的剩余规则集合中确定至少一个所述剩余规则作为所述目标路径的第i层节点的子节点，包括：

根据所述第一召回率、所述第一准确率和所述第一性价比值，确定第四规则，其中，所述第四规则包括作为约束条件时所述剩余规则集合中所述第一召回率位于前K的所述剩余规则、作为约束条件时所述剩余规则集合中所述第一准确率位于前K的所述剩余规则和作为约束条件时所述剩余规则集合中所述第一性价比值位于前K的所述剩余规则，K为正整数；

将所述第四规则作为所述目标路径的第i层节点的子节点。

12.根据权利要求11所述的规则生成方法，其特征在于，所述将所述第四规则作为所述目标路径的第i层节点的子节点，包括：

判断所述第四规则中是否具有重复的规则；

若所述第四规则中具有重复的规则，则对所述第四规则进行预处理，并将进行预处理后的所述第四规则作为所述目标路径的第i层节点的子节点，其中，所述预处理包括去重处理，或者所述预处理包括去重处理和补缺处理；

若所述第四规则中不具有重复的规则，则将所述第四规则作为所述目标路径的第i层节点的子节点。

13.根据权利要求4所述的规则生成方法，其特征在于，所述根据所有所述决策树模型，确定所述候选规则集合，包括：

分别获取每个所述决策树模型的所有候选路径，其中，一条所述候选路径为所述决策树模型的根节点到一个非根节点的路径；

分别确定每条所述候选路径对应的候选规则，并将所述候选规则放入所述候选规则集合。

14.根据权利要求1所述的规则生成方法，其特征在于，所述根据每个所述训练样本的标识信息和每个所述训练样本的至少一个特征对应的特征信息，分别确定每个所述候选规则的得分，包括：

根据每个所述训练样本的标识信息和每个所述训练样本的至少一个特征对应的特征信息，分别确定在以每个所述候选规则作为约束条件时所述训练集的第二得分；

根据所述第二得分，分别确定每个所述候选规则的得分。

15.根据权利要求14所述的规则生成方法，其特征在于，所述第二得分包括第二召回率、第二准确率、第二性价比值中的至少之一。

16.根据权利要求15所述的规则生成方法，其特征在于，当所述第二得分包括所述第二召回率、所述第二准确率和所述第二性价比值时；

对于任意一个所述候选规则，所述根据每个所述训练样本的标识信息和每个所述训练样本的至少一个特征对应的特征信息，确定在以所述候选规则作为约束条件时所述训练集的第二得分，包括：

根据每个所述训练样本的标识信息和每个所述训练样本的至少一个特征对应的特征信息，确定在以所述候选规则作为约束条件时所述训练集的第二召回样本数、第二规则识别样本数和第二目标样本数，其中，所述第二召回样本数为所述训练集中既是目标样本又符合所述候选规则的训练样本数，所述第二规则识别样本数为所述训练集中符合所述候选规则的训练样本数，所述第二目标样本数为所述训练集中目标样本的数量；

根据所述第二召回样本数和所述第二目标样本数，确定所述第二召回率；根据所述第二召回样本数和所述第二规则识别样本数，确定所述第二准确率；根据所述第二召回样本数、所述第二规则识别样本数和所述第二目标样本数，确定所述第二性价比值。

17.根据权利要求16所述的规则生成方法，其特征在于，所述根据所述第二得分，确定所述候选规则的得分，包括：

基于预设算法，根据所述第二召回率、所述第二准确率和所述第二性价比值，确定所述候选规则的得分。

18.根据权利要求1所述的规则生成方法，其特征在于，所述根据每个所述候选规则的得分，从所述候选规则集合中确定至少一个所述候选规则作为目标规则，包括：

从所述候选规则集合中选择得分位于前N的所述候选规则作为目标规则，N为正整数。

19.根据权利要求1所述的规则生成方法，其特征在于，在从所述候选规则集合中确定至少一个所述候选规则作为目标规则后，还包括：

获取当前业务的应用集，其中，所述应用集包括若干个应用样本，所述应用样本基于所述当前业务的维度确定，每个所述应用样本包括至少一个特征对应的特征信息；

根据所述目标规则和所述应用集，确定筛选结果。

20.一种规则生成装置，其特征在于，包括：规则确定模块和得分计算模块；

所述规则确定模块，用于根据当前业务的训练集，确定单特征规则集合，其中，所述训练集包括若干个训练样本，所述训练样本基于所述当前业务的维度确定，每个所述训练样本包括标识信息和至少一个特征对应的特征信息，所述标识信息用于指示所述训练样本是否为目标样本，所述单特征规则集合包括若干个单特征规则，一个所述单特征规则对应所述训练样本的一个特征；根据所述单特征规则集合，确定候选规则集合，其中，所述候选规则集合包括若干个候选规则，一个所述候选规则对应所述训练样本的至少两个特征，所述候选规则集合是基于所述单特征规则集合构建的决策树模型生成的；

所述得分计算模块，用于根据每个所述训练样本的标识信息和每个所述训练样本的至少一个特征对应的特征信息，分别确定每个所述候选规则的得分；

所述规则确定模块，还用于根据每个所述候选规则的得分，从所述候选规则集合中确定至少一个所述候选规则作为目标规则。

21.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-19中任一项所述的规则生成方法。

22.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现权利要求1-19中任一项所述的规则生成方法。