CN111309770B

CN111309770B - 一种基于无监督机器学习的自动生成规则系统及方法

Info

Publication number: CN111309770B
Application number: CN202010110699.2A
Authority: CN
Inventors: 罗瑜; 李瑞恒; 令狐阳; 吴晓华; 凌鸿基
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-02-24
Filing date: 2020-02-24
Publication date: 2023-03-28
Anticipated expiration: 2040-02-24
Also published as: CN111309770A

Abstract

本发明公开了一种基于无监督机器学习的自动生成规则系统及方法，系统包括依次连接的深度特征合成模块、无监督聚类模块和自动规则生成模块。本发明包含深度特征合成、无监督聚类和自动规则生成三个模块，在进行深度特征合成时，解决了特征工程的问题，大大提高了构造特征的效率。在进行无监督聚类时，避免了结构化数据拟合任意分布的问题，同时高斯混合模型较其他聚类算法更具一般性，仅需少量的参数就能较好地描述数据的特性。在进行自动规则生成时，通过drools规则引擎，使得该模块功能强大、可扩展，且极易维护。

Description

一种基于无监督机器学习的自动生成规则系统及方法

技术领域

本发明涉及计算机领域，具体涉及一种基于无监督机器学习的自动生成规则系统及方法。

背景技术

规则引擎是一种嵌入在应用程序中的组件，它将业务规则从业务代码中剥离出来，使用预先定义好的语义规范来实现这些剥离出来的业务规则，规则引擎通过接受输入的数据，进行业务规则的评估，并做出业务决策。由于规则引擎将复杂的业务逻辑从业务代码中剥离出来，因此可以显著降低业务逻辑实现难度，同时，剥离的业务规则使用规则引擎实现，这样可以使多变的业务规则变的可维护，配合规则引擎提供的良好的业务规则设计器，不用编码就可以快速实现复杂的业务规则，同样，即使是完全不懂编程的业务人员，也可以轻松上手使用规则引擎来定义复杂的业务规则。在大规模数据与复杂业务场景下，业务逻辑与代码紧耦合，随着业务的膨胀会使开发人员和规则需求方非常的疲惫。在银行与金融领域中，风险、反欺诈、营销、监控都涉及复杂规则的配置。

发明内容

针对现有技术中的上述不足，本发明提供的一种基于无监督机器学习的自动生成规则系统及方法可以根据输入数据自动生成规则。

为了达到上述发明目的，本发明采用的技术方案为：

提供一种基于无监督机器学习的自动生成规则系统，其包括依次连接的深度特征合成模块、无监督聚类模块和自动规则生成模块；

深度特征合成模块，用于将输入的结构化数据表进行汇总和特征组合，生成一个新表；

无监督聚类模块，用于读取深度特征合成模块生成的表，并通过参数估计方法将其进行聚类，得到特征之间相关性的热力图，根据热力图通过信息增益方法获取聚类影响最大的若干维特征；

自动规则生成模块，用于将无监督聚类模块获取的若干维特征转化为规则表，并对规则表进行解析得到Drools规则语句，将Drools规则语句组装生成规则文件，完成自动生成规则。

进一步的，结构化数据表包括用于分析用户行为的属性数据和历史数据。

提供一种基于无监督机器学习的自动生成规则方法，其包括以下步骤：

S1、将输入的结构化数据表进行汇总和特征组合，生成一个新表；

S2、通过参数估计方法将生成的新表进行聚类，得到特征之间相关性的热力图；

S3、根据热力图通过信息增益方法获取聚类影响最大的若干维特征；

S4、将若干维特征转化为规则表，并对规则表进行解析得到Drools规则语句；

S5、将Drools规则语句组装生成规则文件，完成自动生成规则。

进一步的，步骤S1中结构化数据表包括用于分析用户行为的属性数据和历史数据。

进一步的，步骤S1的具体方法为：

导入数据表创建实体并整合实体集，建立结构化数据表之间的关联，通过指定连接两张表的变量来形式化特征工具中的关联规则，并将关联规则添加至实体集中，通过标准差、平均值、计数、最小值、最大值和求和特征基元进行特征组合；判断组合后的特征是否超过阈值，若是则通过主成分分析法、线性判别分析法、局部线性嵌入法或拉普拉斯特征映射法进行特征降维，得到新表；否则直接得到新表。

进一步的，步骤S2中通过参数估计方法将生成的新表进行聚类的具体方法为：

将得到的新表输入高斯混合模型，通过高斯混合模型期望最大化来对新表进行预测并得到聚类结果，根据聚类结果得到新表中特征之间相关性的热力图。

进一步的，步骤S4的具体方法为：

将获取的若干维特征中获取需要生成规则的各项内容并以预设格式生成规则表，采用Excelparser库对规则表中的每一项内容进行解析，将Excel文件中的每一行对应java中的类实例，使用注解绑定Excel每一行中每类对应的每个属性；判断是否出现多个规则属性名对应同一个含义的情况，若是则采用Hashmap对其进行映射，并得到对应的Drools规则语句，否则直接得到对应的Drools规则语句。

进一步的，步骤S5的具体方法为：

根据Drools规则文件中的when和then格式组装规则语句，得到标准的Drools规则文件，完成自动生成规则。

本发明的有益效果为：本发明包含深度特征合成、无监督聚类和自动规则生成三个模块，在进行深度特征合成时，解决了特征工程的问题，大大提高了构造特征的效率。在进行无监督聚类时，避免了结构化数据拟合任意分布的问题，同时高斯混合模型较其他聚类算法更具一般性，仅需少量的参数就能较好地描述数据的特性。在进行自动规则生成时，通过drools规则引擎，使得该模块功能强大、可扩展，且极易维护。

附图说明

图1为本系统的结构框架示意图；

图2为深度特征合成模块生成新表过程示意图；

图3为高斯混合模型参数估计逻辑流程图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

如图1所示，该基于无监督机器学习的自动生成规则系统包括依次连接的深度特征合成模块、无监督聚类模块和自动规则生成模块；

深度特征合成模块，用于将输入的结构化数据表进行汇总和特征组合，生成一个新表；结构化数据表包括用于分析用户行为的属性数据和历史数据。

该基于无监督机器学习的自动生成规则方法包括以下步骤：

S1、将输入的结构化数据表进行汇总和特征组合，生成一个新表；结构化数据表包括用于分析用户行为的属性数据和历史数据；

如图2所示，步骤S1的具体方法为：导入数据表创建实体并整合实体集，建立结构化数据表之间的关联，通过指定连接两张表的变量来形式化特征工具中的关联规则，并将关联规则添加至实体集中，通过标准差、平均值、计数、最小值、最大值和求和特征基元进行特征组合；判断组合后的特征是否超过阈值，若是则通过主成分分析法、线性判别分析法、局部线性嵌入法或拉普拉斯特征映射法进行特征降维，得到新表；否则直接得到新表。

步骤S2中通过参数估计方法将生成的新表进行聚类的具体方法为：将得到的新表输入高斯混合模型，通过高斯混合模型期望最大化来对新表进行预测并得到聚类结果，根据聚类结果得到新表中特征之间相关性的热力图。

步骤S4的具体方法为：将获取的若干维特征中获取需要生成规则的各项内容并以预设格式生成规则表，采用Excelparser库对规则表中的每一项内容进行解析，将Excel文件中的每一行对应java中的类实例，使用注解绑定Excel每一行中每类对应的每个属性；判断是否出现多个规则属性名对应同一个含义的情况，若是则采用Hashmap对其进行映射，并得到对应的Drools规则语句，否则直接得到对应的Drools规则语句。

步骤S5的具体方法为：根据Drools规则文件中的when和then格式组装规则语句，得到标准的Drools规则文件，完成自动生成规则。

在本发明的一个实施例中，高斯混合模型先进行训练，如图3所示，在训练过程中随机生成k个高斯分布，不断地迭代EM算法，直至对数似然函数变化不再明显或者达到了最大迭代次数。EM算法分两步，第1步先求出要估计参数的粗略值，第2步使用第一步的值最大化似然函数。为此本实施例先求出高斯混合模型的似然函数，具体过程如下：

定义分量数目k，对每个分量k设置π_k，μ_k和Σ_k的初始值，选取训练样本x＝{x₁,x₂,x₃,...,x_N},x表示所有的样本，x₁,x₂等都是二维向量，高斯混合模型的概率分布可以用如下计算公式表示：

其中N(x|u_k,∑k)称为混合模型的第k个分量，π_k是混合系数。

高斯混合模型有三个参数需要估计，分别是π,μ,Σ，将p(x)稍微改写一下：

为了估计这三个参数，需要分别求解出这三个参数的最大似然函数。μ_k的最大似然函数为：

其中

N表示点的数量，Y(z_nk)表示点n属于聚类k的后验概率，μ_k表示所有点的加权平均。

Σ_k的最大似然函数为：

π_k的最大似然函数为：

再根据当前的π_k,μ_k,Σ_k计算后验概率Y(z_nk)：

并根据公式：

再计算新的π_k,μ_k,Σ_k。

接着基于新的π_k,μ_k,Σ_k根据公式：

计算高斯混合模型的对数似然函数，检查对数似然函数是否收敛，若不收敛，则重新计算后验概率，直至收敛为止。

综上所述，本发明包含深度特征合成、无监督聚类和自动规则生成三个模块，在进行深度特征合成时，解决了特征工程的问题，大大提高了构造特征的效率。在进行无监督聚类时，避免了结构化数据拟合任意分布的问题，同时高斯混合模型较其他聚类算法更具一般性，仅需少量的参数就能较好地描述数据的特性。在进行自动规则生成时，通过drools规则引擎，使得该模块功能强大、可扩展，且极易维护。

Claims

1.一种基于无监督机器学习的自动生成规则系统，其特征在于，包括依次连接的深度特征合成模块、无监督聚类模块和自动规则生成模块；

所述深度特征合成模块，用于将输入的结构化数据表进行汇总和特征组合，生成一个新表；

所述无监督聚类模块，用于读取深度特征合成模块生成的表，并通过参数估计方法将其进行聚类，得到特征之间相关性的热力图，根据热力图通过信息增益方法获取聚类影响最大的若干维特征；

所述自动规则生成模块，用于将无监督聚类模块获取的若干维特征转化为规则表，并对规则表进行解析得到Drools规则语句，将Drools规则语句组装生成规则文件，完成自动生成规则。

2.根据权利要求1所述的基于无监督机器学习的自动生成规则系统，其特征在于，所述结构化数据表包括用于分析用户行为的属性数据和历史数据。

3.一种基于无监督机器学习的自动生成规则方法，其特征在于，包括以下步骤：

4.根据权利要求3所述的基于无监督机器学习的自动生成规则方法，其特征在于，所述步骤S1中结构化数据表包括用于分析用户行为的属性数据和历史数据。

5.根据权利要求3所述的基于无监督机器学习的自动生成规则方法，其特征在于，所述步骤S1的具体方法为：

6.根据权利要求3所述的基于无监督机器学习的自动生成规则方法，其特征在于，所述步骤S2中通过参数估计方法将生成的新表进行聚类的具体方法为：

7.根据权利要求3所述的基于无监督机器学习的自动生成规则方法，其特征在于，所述步骤S4的具体方法为：

8.根据权利要求3所述的基于无监督机器学习的自动生成规则方法，其特征在于，所述步骤S5的具体方法为：