CN112101574A

CN112101574A - 一种机器学习有监督模型解释方法、系统及设备

Info

Publication number: CN112101574A
Application number: CN202011305758.8A
Authority: CN
Inventors: 杨艾森; 段函言; 熊靖汶; 陈文�
Original assignee: Chengdu Business Big Data Technology Co Ltd
Current assignee: Shansikaiwu Technology Chengdu Co ltd
Priority date: 2020-11-20
Filing date: 2020-11-20
Publication date: 2020-12-18
Anticipated expiration: 2040-11-20
Also published as: CN112101574B

Abstract

本发明公开了一种机器学习有监督模型解释方法、系统及设备，涉及机器学习技术领域，将包括若干特征值的数据输入到训练好的、给定有监督的机器学习模型中，并得到机器学习的输出结果，对输出结果相同的数据进行层次聚类，剔除每一簇中的非典型特征值，并用空值填补被剔除的特征值，并进行特征值的聚类分箱，得到特征值的主要分布区间为对应特征取值进行簇标签构建，使用数学期望算法计算各个特征值对所述输出结果的影响，最后可视化展示，是一种基于聚类方法、采用与模型无关的解释方法，对给定有监督机器学习模型，结合样本数据和模型评估结果就能对模型进行解释，还能指导模型的改进的解释方法和系统，以及对应的计算机和存储介质。

Description

一种机器学习有监督模型解释方法、系统及设备

技术领域

本发明涉及机器学习技术领域，确切地说涉及一种机器学习有监督模型解释方法、系统及设备。

背景技术

在传统统计中，通过调查大量的数据来构造和验证假设，而建立模型来构建规则则可以将其纳入模型中。例如，营销公司可以建立一个模型，将营销活动数据与财务数据相关联，以确定构成有效营销活动的是什么。这是一种自上而下的数据科学方法，可解释性是关键，因为它是所定义规则和过程的基石，由于相关性往往不等于因果关系，所以在进行决策和解释时，需要对模型进行很强的理解。

目前现有的模型解释方案，主要是采用线性回归、逻辑回归、决策树模型等传统可以自解释的统计模型，但是这些传统的可解释统计模型预测能力有限，并且随着大数据发展，需要分析的数据维度越来越高，这些模型不能很好的利用新的特征，因此，为追求更高的精度，更好利用多维数据的多个特征，需要使用更先进的机器学习模型。

机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科，专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径，机器学习在生产和研究方面都非常具有潜力，但是机器学习模型具有不可解释性，如果使用不具有可解释性的机器学习模型，则不能说明其分析过程，采用这种模型预测结果风险是难以评估的。现有技术中也有利用可解释性模型局部探究不可直接解释模型的预测结果，通过重复对输入的轻微扰动探究模型输出结果的变化，拟合出一个局部可解释性的简单模型，但是该方法仅对模型的局部做了探究，不能做到全局近似而且这种方法也不稳定，不但需要确定邻域范围和近似模型复杂度，而且利用相同参数相同方法进行的重复解释可能得到不同结果。同样的，现有技术中还有结合具体案例解释模型的方法，但此类方法受限于案例和模型类型用途也很有限。

即，采用机器学习模型虽然高效但是不能说明其分析过程，则采用模型预测的结果风险难以评估，对于规则明确、市值较高的产业人们很难采信这种机器学习模型的预测结果，为更好在各种业务环境下利用机器学习模型，发明一种与模型无关的解释方法有重要意义。

发明内容

本发明的目的在于针对现有技术的不足、克服现有技术的缺点，提供一种基于聚类方法、采用与模型无关的解释方法，对给定有监督机器学习模型，结合样本数据和模型评估结果就能对模型进行解释，还能指导模型的改进的解释方法和系统，以及对应的计算机和存储介质。

本发明的目的是通过以下技术方案实现的：

一种机器学习有监督模型解释方法，其特征在于，包括以下步骤：

步骤1，将包括若干数值和非数值型特征的数据输入到训练好的、给定有监督的机器学习模型中，并得到机器学习的输出结果；

步骤2，对步骤1中得到的输出结果相同的数据进行层次聚类，将输入的数据聚成若干个簇，每个簇中包含有若干样本，样本中均包含若干数值和非数值型特征，层次聚类的类别数量，按照设定的类别内部数据的协方差要求以及类别之间的协方差要求设置，取使聚类效果最优聚类簇数量，优选地，层次聚类的类别数量取使Calinski-Harabasz值最大的结果，比如，优选地，类别数量最大为10，Calinski-Harabasz值越大，就说明类别内部数据的协方差越小，类别之间的协方差越大，则聚类效果就越好。

所述步骤2中，进行层次聚类具体包括以下步骤：

首先，将数据中的每个样本归为一类，共得到n类，且每一类中仅包含一个样本，类与类之间的距离就是它们所包含的样本之间的距离；

然后，将距离最近的两个类进行合并成为一个新的类，记录类别数量和对应的Calinski-Harabasz值，并重新计算新的类与剩余的每一类之间的距离；

重复上述步骤直至所有的类被合并为一类；该方法能对聚类效果进行评估，能选取合理的聚类类别数量。

步骤2中，所述Calinski-Harabasz值为s（k），

，其中m为训练集样本数，k为类别数，

是样本类别之间的协方差矩阵，

_k是类别内部数据的方差矩阵，tr（）表示矩阵的迹。

步骤3，将步骤2中层次聚类聚成的每一簇中的各特征，剔除与典型特征值相差最大的非典型特征值，且剔除特征值个数不超过设定数量，比如，优选地一种方案中，可以设定剔除特征值个数不超过原始样本的30%，并用空值填补被剔除的特征值；

所述步骤3中，剔除与典型特征值相差最大的非典型特征值，具体判断方法为：

扫描全部特征并记录特征值数据类型；

对非数值型特征值，定义占比不到5%的特征值为非典型的特征值，且占比越少即与典型特征值相差越大；

对数值型特征值，定义非典型的特征值为Z分数绝对值超过3且占比不到5%的特征值，Z分数绝对值越大与典型特征值相差越大。

异常值是分布尾部的数据点，因此远离数据的平均值，距离的远近取决于使用公式计算的归一化数据点，所述Z分数Z_i=（x_i-μ）/σ，式中，x_i是一个数据点，μ是所有点x_i的平均值，σ是所有点的x_i标准偏差。

Z分数（z-score）也叫标准分数（standardscore），是一个数与平均数的差再除以标准差的过程。它是以标准差为尺子，去度量某一原始分数偏离平均数的距离，这段距离含有几个标准差Z，原始分数偏离平均数的距离就是多少，从而确定这一数据在全体数据中的位置，这一过程为标准化，转化的公式为

，式中：X为原始数据，

为平均数，S是标准差。

在统计学中，标准分数是一个观测或数据点的值高于被观测值或测量值的平均值的标准偏差的符号数。Z分数能够真实的反应一个分数距离平均数的相对标准距离。如果我们把每一个分数都转换成Z分数，那么每一个Z分数会以标准差为单位表示一个具体分数到平均数的距离或离差，将成正态分布的数据中的原始分数转换为Z分数，我们就可以通过查阅Z分数在正态曲线下面积的表格来得知平均数与Z分数之间的面积，进而得知原始分数在数据集合中的百分等级。一个数列的各Z分数的平方和等于该数列数据的个数，并且Z分数的标准差和方差都为1、平均数为0。

步骤4，对经过步骤3处理后的每一簇中的各特征，进行特征值的聚类分箱，得到特征的主要分布区间作为对应特征的特征值，并根据特征的主要分布区间进行簇标签构建；

所述步骤4中，进行特征值的聚类分箱，具体的，包括以下步骤：

扫描全部特征的特征值，并对每个特征值设置一个可调整参数n；

若特征值范围不超过n个值，则无需聚类，特征的主要分布区间为对应特征值；

若该特征为非数值型特征且其特征值取值范围超过了n个值，则在该特征所对应的簇中取该特征值所对应的特征数量最多的前h个特征聚类输出结果一类，得到特征的主要分布区间为对应的特征值，将簇中剩余特征合为一类，并标记这类特征的主要分布区间为“其他”；

即，利用一维聚类方法，把每一簇里面每个特征比较具有代表性的分布区间提取出来。具体例如，离散特征F有3个特征值a、b、c，然后离散特征F对应的簇中，特征值F=a的特征有100个， F=b的特征有80个，F=c的特征有30个样本，那么对于特征F，特征值F=a则是该簇中对应的特征数量最多的特征值，该簇的主要分布区间的特征值就是a。

若该特征为数值型特征且特征值取值范围超过了n个值，则采用一种聚类输出结果不超过4类的聚类方法对该特征所对应的簇进行聚类，并计算特征值极大极小值构成的主要分布区间；

所述聚类输出结果不超过4类的聚类方法可选如下三种，但不限于以下三种：

Kmeans：分别取K=1，K=2，K=3，K=4进行聚类，并计算对应Calinski-Harabasz值，取使Calinski-Harabasz值最大的K值及其对应聚类结果。聚类方法为：随机选取K个点作为初始的聚类中心，计算各点与聚类中心之间的距离（余弦相似度），将每个点分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一点，聚类的聚类中心会根据聚类中现有的对象被重新计算。重复以上过程直到没有点被重新分配给不同的簇。该方法实现简单，收敛速度快，且计算复杂度接近线性。同时具有较强的可解释性，聚类效果较优。

DBSCAN：检查数据集中每点的Eps邻域来搜索簇，在DBSCAN 中，Eps邻域是给定对象半径Eps内的邻域，最小包含点数(minPts)，如果点p的Eps邻域包含的点多于MinPts个，MinPts是指最小包含点数，则创建一个以p为核心对象的簇。迭代地聚集从这些核心对象直接密度可达的对象，合并一些密度可达簇。当没有新的点添加到任何簇时，该过程结束。该方法可以设置阈值过滤噪声，能有效处理异常数据。

BIRCH层次聚类方法：使用样本点数量、各特征维度的和向量、各特征维度的平方和构成的三元组聚类特征CF来概括一个簇，使用聚类特征树（CF树）来表示聚类的层次结构，采用自底向上策略，首先将每个对象作为一个原子簇，然后合并这些原子簇形成更大的簇，减少簇的数目，直到所有的对象都在一个簇中。该方法将对点的聚类改为对簇的聚类，聚类速度快，占用内存小，只需要单遍扫描数据集就能进行聚类。可以识别噪音点。

所述步骤4中的簇标签构建，是将对应特征值的主要分布区间组成的字符串作为簇标签。

步骤5，使用数学期望算法对步骤4中的每一簇计算各个特征值对所述输出结果的影响；

所述数学期望算法，具体的，包括以下步骤：

将数据中包含的p个特征值（x₁，x₂，...，x_p）构成特征组合S；

对每个未包含在特征组合S中的特征值进行积分迭代计算，得到机器学习模型机器学习的输出结果期望

，以及期望平均影响；其中，中P为特征值出现的概率，dP是对特征值出现的概率P求积分，期望平均影响E_X中X是指所有特征的集合，满足 |X|=p，输出结果期望是在不考虑除特征组合S以外的其他特征的情况下，以特征组合S中的特征值计算得到的期望值，例如，所有特征的集合X一共有四个特征，我们想评估的是特征值和带来的影响，所以对应的S是特征集合就是{X₁，X₄}，则输出结果期望

即，对每个其他不适我们想评估特征值影响的特征{X₁，X₄}进行多次积分。

输出结果期望

减去期望平均影响得到特征组合S对输出结果的边际影响

，其中边际影响val_X中X同样是指所有特征的集合，满足|X|=p；

考虑特征组合S对输出结果的边际影响，则第j个特征

对输出结果的影响为

，S是特征的组合，

是不属于S的一个特征，（S U {x_j}）是对两者求并集，对应的加权因子为

，其中，∣S∣表示特征组合S中元素的个数。

所以第j个特征

_j对输出结果的影响，是考虑所有特征组合S的输出结果的影响的加权平均值

，

其中{x₁，...，x_p}\{

_j}表示集合

去掉

的子集，即

是不属于S的一个特征，（S U {x_j}）是对两者求并集；该结果可由SHAP包的shap_values得到估计值。

步骤6，对分析结果进行可视化展示，比如根据分析结果绘制数据及输出结果的旭日图，具体的，旭日图圈层总数量等于数据中特征总数量加一，旭日图最内为第一圈层，其各扇环表示模型的输出结果，每个扇环代表一簇结果；依据步骤5中计算的各个特征值对所述输出结果的影响，按照各个特征值对所述输出结果的影响的大小、对步骤2中的层次聚类聚成的每一簇由大到小进行排序，并构建用于表示数据不同特征的第二圈层到最外圈层，根据步骤4的聚类分箱结果得到每一簇对应的小扇环并在扇环上标记对应的簇标签。

进一步的，所述步骤6中，扇环对应圆心角等于扇环对应样本数据数量占数据数量的比值乘以360度。

优选地，所述旭日图还具有以下特征：

最内为第一圈层，各扇环表示模型的输出结果，每个扇环代表一簇结果。

圈层总数量等于特征数量加一。

依步骤二计算的特征对输出结果的影响，按照各个特征值对所述输出结果的影响的大小、对步骤2中的层次聚类聚成的每一簇由大到小进行排序，并构建用于表示数据不同特征的第二圈层到最外圈层。

根据前面步骤的聚类结果对扇环自内到外划分为若干用于代表前面步骤得到的每一簇的小扇环，并在扇环上标记对应步骤四得到的簇标签，扇环对应圆心角等于扇环对应样本数据数量占数据数量的比值乘以360度。

第一圈层的各扇形颜色相同且颜色为全图最深。

每个扇环的颜色由该扇环对应特征取值值域占该特征取值值域的比重决定，比值越小，颜色越深。

颜色生成方法为：选定初始RGB值及需要颜色的个数，通过求得合适的最深颜色RGB值和对应的合理差值，等差改变RGB值，自动生成一组与初始颜色仅明度渐变其他参数不变的渐变色RGB值及十六进制六位编码，用来在相应扇形进行填充。

对应上述方法，本发明还提供一种基于聚类方法的机器学习有监督模型解释系统，其特征在于：包括机器学习模型单元、层次聚类处理模块、旭日图生成模块和显示单元；

所述机器学习模型单元中写入有训练好的、给定有监督的机器学习模型，用于将作为样本的、包括若干数值和非数值型特征的数据进行机器学习并将结果输入至所述层次聚类处理模块中；

所述层次聚类处理模块根据所述机器学习模型单元输入的机器学习结果，将作为样本的、包括若干数值和非数值型特征的数据中机器学习结果相同的数据进行层次聚类，层次聚类的类别数量取使Calinski-Harabasz值最大的结果，将输入的数据聚成若干个簇，且每个簇中均包含有若干样本，每个样本中均包含若干数值和非数值型特征，并按照剔除特征值个数不超过原始样本的30%的标准剔除每个数值和非数值型特征中与典型特征值相差最大的非典型特征值，用空值填补被剔除的特征值，然后将处理好的所有数值和非数值型特征输入至所述旭日图生成模块中；

所述旭日图生成模块对所述层次聚类处理模块处理好的所有数值和非数值型特征进行特征值的聚类分箱，得到特征的主要分布区间并作为对应特征的特征值，然后根据特征的主要分布区间对聚类分箱的聚类结果进行簇标签构建构成若干簇，并通过数学期望算法计算每一簇中各个特征值对机器学习的输出结果的影响，最后根据数据中特征总数量确定圈层数量、以聚类分箱的簇数确定扇环数量、以及每一簇中各个特征值对机器学习的输出结果的影响程度确定扇环顺序，从内至外构建带有标签的旭日图，并发送至显示单元进行显示。

具体的，所述旭日图生成模块构建带有标签的旭日图时，根据聚类分箱的结果将扇环自内到外划分为用于代表聚类分箱时得到的每一簇的小扇环，并在扇环上标记对应的簇标签，扇环对应圆心角等于扇环对应样本数据数量占数据数量的比值乘以360度。

优选地，所述旭日图第一圈层的各扇形颜色相同且颜色为全图最深，每个扇环的颜色由该扇环对应特征取值值域占该特征取值值域的比重决定，比值越小，颜色越深。

具体的，选定所述旭日图第一圈层的各扇形颜色初始RGB值，初始RGB值对应最深颜色，根据旭日图圈层和扇环的个数设定RGB值等差阈值，以初始RGB值为起始、以RGB值等差阈值为差值、自动依次对旭日图圈层和扇环顺序进行颜色填充。

另外，还包括一种计算设备，包括：一个或多个处理器、存储器，所述存储器存储指令，当所述指令被所述一个或多个处理器执行时，使得所述一个或多个处理器执行上述的方法。

以及，一种非暂时性机器可读存储介质，其存储有可执行指令，所述指令当被执行时使得所述机器执行上述的方法。

与现有技术相比，上述技术方案包括以下创新点及有益效果：

本发明采用与模型无关的解释方法，限制条件少，用途广泛，给定有监督机器学习模型，结合样本数据和模型评估结果就能对模型进行解释，还能指导模型的改进；用改进的旭日图展示可视化结果，进一步增强了该方法的解释性。克服了现有技术中，部分机器学习模型可解释性差、现有解释方法稳定性差、使用场景不广泛以及效果不直观的问题。

附图说明

本发明的前述和下文具体描述在结合以下附图阅读时变得更清楚，其中：

图1为本发明一种具体方案的流程示意图。

具体实施方式

下面通过几个具体的实施例来进一步说明实现本发明目的技术方案，需要说明的是，本发明要求保护的技术方案包括但不限于以下实施例。

作为本发明一种具体的实施方案，如图1，公开了一种机器学习有监督模型解释方法，具体的：

步骤一，将包括若干数值和非数值型特征的数据输入到训练好的、给定有监督的机器学习模型中，并得到机器学习的输出结果。

步骤二，对输出结果相同的数据进行层次聚类，类别数量取使Calinski-Harabasz值较大的结果。Calinski-Harabasz值可由公式计算得

，其中m为训练集样本数，k为类别数，

是样本类别之间的协方差矩阵，

_k是类别内部数据的方差矩阵，tr（）表示矩阵的迹；Calinski-Harabasz值越大，就说明类别内部数据的协方差越小，类别之间的协方差越大，则聚类效果就越好。

所述层次聚类方法，具体的，将每个样本数据归为一类，共得n类，每类仅包含一个对象。类与类之间的距离就是它们所包含的对象之间的距离。将距离最近的两类进行合并，记录类别数量和Calinski-Harabasz值，并对剩余的每一类重新计算新的类与所有旧类之间的距离。重复上一步骤直至所有对象被合并为一类。该方法能对聚类效果进行评估，能选取合理的聚类类别数量。

步骤三，对上一步聚成的每一簇，对每个特征，剔除与典型特征值相差最大的非典型特征值，剔除特征值个数不超过原始样本的30%，并用空值填补。与典型特征值相差最大的非典型特征值确定方式如下：扫描全部特征并记录特征值数据类型，对非数值型特征值，非典型的特征值为占比不到5%的特征值，占比越少与典型特征值相差越大；对数值型特征值，非典型的特征值为Z分数绝对值超过3且占比不到5%的特征值，Z分数绝对值越大与典型特征值相差越大。

所述Z分数计算方法：异常值是分布尾部的数据点，因此远离数据的平均值。距离的远近取决于使用公式计算的归一化数据点Z_i=（x_i-μ）/σ。其中x_i是一个数据点，μ是所有点x_i的平均值，σ是所有点的x_i标准偏差。

步骤四，对进行特征值的聚类分箱，得到特征的主要分布区间作为对应特征的特征值，并根据特征的主要分布区间进行簇标签构建，簇标签生成方法为，构建对应特征和特征值的主要分布区间组成的字符串。

以可调整参数为4时为例，若该特征值范围不超过4个值，则无需聚类，特征值的主要分布区间为对应特征取值。

若该特征为非数值型特征且特征值取值范围超过了4个值，则取前三个样本数量最多的特征值各为一类，特征值的主要分布区间为对应特征值，将样本数量较少的特征值取值合为一类，特征值的主要分布区间为“其他”。

若该特征为数值型特征且特征值取值范围超过了4个值，采用一种聚类输出结果不超过4类的聚类方法进行聚类，并计算特征值极大极小值构成的主要分布区间。

步骤五，对上一步确定的每一簇计算特征对输出结果的影响，计算方法为：对某样本数据p个特征值分别为（x₁，x₂，...，x_p），定义特征组合S对在不考虑除特征组合S外的其他特征的情况下，模型输出结果的期望为

，减去期望平均影响，得到特征组合S对输出结果的边际影响

，其中，中P 为特征值出现的概率，dP是对特征值出现的概率P求积分，期望平均影响E_X和边际影响val_X 中X是指所有特征的集合，满足|X|=p，输出结果期望是在不考虑除特征组合S外的其他特征的情况下，以特征组合S中的特征值计算得到的期望值。考虑特征组合S的边际影响，第j个特征_j对输出结果的影响为，对应的加权因子为，∣S ∣表示特征组合S中元素的个数。所以特征对输出结果的影响为考虑所有特征组合的输出结果的影响的加权平均值，

其中{x₁，...，x_p}\{

_j}表示集合

去掉

的子集。该结果可由SHAP包的shap_values得到估计值；

步骤六，根据分析结果绘制数据及输出结果的旭日图，所述旭日图具有以下特征：

该旭日图由数据、模型输出结果绘制。

圈层总数量等于特征数量加一。

对每个步骤二层次聚类聚成的簇，依步骤五算出来的特征对输出结果的影响由大到小次序，构建表示数据不同特征的第二圈层到最外圈层。

根据前面步骤的聚类结果对扇环自内到外划分为若干用于代表前面步骤得到的每一簇的小扇环，并在扇环上标记对应第五步得到的簇标签，扇环对应圆心角等于扇环对应样本数据数量占数据数量的比值乘以360度。

第一圈层的各扇形颜色相同且颜色为全图最深。

每个扇环的颜色由该层级对应簇特征取值值域占该特征取值值域的比重决定，比值越小，颜色越深。

在信贷领域中，信贷监管法规对于模型可解释性提出了越来越高的要求。基于机器学习的智能信贷风险评估系统，如果智能系统的决策过程是自动的，那么用户对决策过程享有知情权，即金融机构需为系统做出的决策提供解释依据。具备定量解释能力的智能信贷系统，不仅能获得较高准确性的预测结果，而且可以取得用户的信任，提升机器学习模型在信贷行业的应用的广度和深度。

以上述实施例的方法进行机器学习有监督模型的解释就能获得较高准确性的预测结果，具体的如下：

步骤1，设数据集一共有N个样本，每个样本包含数值（比如注册资本）和非数值型的特征（比如企业类型F1，F2，...，FM）。用训练好的有监督机器学习模型对每个样本进行预测，得到比如两类预测结果，预测为1的样本，以及预测为0的样本。

步骤2，为了实现对预测为1的样本进行解释，首先对预测为1的样本进行聚类，得到了比如三个聚类簇C1，C2和C3。

步骤3，每个聚类簇有一些样本的某些特征包括一些分布偏离较大的离群值，这些特征值可以剔除掉，比如特征F1绝大多数值都分布在[10，25]，但同时有极少量的离群值样本分布[50，100)，于是对离群值可以剔除。

步骤4，当每个聚类簇里每个特征的离群值都剔除掉之后，可以对每一个特征进行聚类分箱，得到每个特征的主要分布区间，比如特征FI的主要分布区间为[10，15]以及[20，25]。

步骤5，根据数学期望算法可以计算各个特征对所述输出结果的影响，比如发现特征FI比FJ的整体影响大。

步骤6，根据上一步计算出来的特征影响力大小排序结果，可以把旭日图画出来。

Claims

1.一种机器学习有监督模型解释方法，其特征在于，包括以下步骤：

步骤2，对步骤1中得到的输出结果相同的数据进行层次聚类，将输入的数据聚成若干个簇，每个簇中包含有若干样本，样本中均包含若干数值和非数值型特征，层次聚类的类别数量，按照设定的类别内部数据的协方差要求、以及类别之间的协方差要求设置；

步骤3，将步骤2中层次聚类聚成的每一簇中的各特征，剔除与典型特征值相差最大的非典型特征值，且剔除特征值个数不超过设定数量，并用空值填补被剔除的特征值；

步骤6，对分析结果进行可视化展示。

2.如权利要求1所述的一种机器学习有监督模型解释方法，其特征在于：所述步骤2中，层次聚类的类别数量取使Calinski-Harabasz值最大的结果。

3.如权利要求1所述的一种机器学习有监督模型解释方法，其特征在于，所述步骤2中，进行层次聚类具体包括以下步骤：

重复上述步骤直至所有的类被合并为一类。

4.如权利要求3所述的一种机器学习有监督模型解释方法，其特征在于，步骤2中，所述Calinski-Harabasz值为s（k），

，其中m为训练集样本数，k为类别数，

是样本类别之间的协方差矩阵，

_k是类别内部数据的方差矩阵，tr（）表示矩阵的迹。

5.如权利要求1所述的一种机器学习有监督模型解释方法，其特征在于：所述步骤3中，剔除特征值个数不超过设定数量，设定数量为剔除特征值个数不超过原始样本的30%。

6.如权利要求1所述的一种机器学习有监督模型解释方法，其特征在于，所述步骤3中，剔除与典型特征值相差最大的非典型特征值，具体判断方法为：

扫描全部特征并记录特征值数据类型；

7.如权利要求6所述的一种机器学习有监督模型解释方法，其特征在于：所述Z分数Z_i=（x_i-μ）/σ，式中，x_i是一个数据点，μ是所有点x_i的平均值，σ是所有点的x_i标准偏差。

8.如权利要求1所述的一种机器学习有监督模型解释方法，其特征在于，所述步骤4中，进行特征值的聚类分箱，具体的，包括以下步骤：

若该特征为数值型特征且特征值取值范围超过了n个值，则采用聚类输出结果不超过4类的聚类方法对该特征所对应的簇进行聚类，并计算特征值极大极小值构成的主要分布区间。

9.如权利要求8所述的一种机器学习有监督模型解释方法，其特征在于：所述聚类输出结果不超过4类的聚类方法为Kmeans聚类、DBSCAN聚类或者BIRCH层次聚类中的一种。

10.如权利要求1所述的一种机器学习有监督模型解释方法，其特征在于：所述步骤4中的簇标签构建，是将对应特征值的主要分布区间组成的字符串作为簇标签。

11.如权利要求1所述的一种机器学习有监督模型解释方法，其特征在于，所述步骤5中，数学期望算法，具体的，包括以下步骤：

，以及期望平均影响；其中，中P 为特征值出现的概率，dP是对特征值出现的概率P求积分，期望平均影响E_X中X是指所有特征的集合，满足|X|=p，输出结果期望是在不考虑除特征组合S外的其他特征的情况下，以特征组合S中的特征值计算得到的期望值；

输出结果期望

减去期望平均影响得到特征组合S对输出结果的边际影响

考虑特征组合S对输出结果的边际影响，则第j个特征

对输出结果的影响为

，对应的加权因子为

，其中，∣S∣表示特征组合S中元素的个数。

12.如权利要求11所述的一种机器学习有监督模型解释方法，其特征在于：所以第j个特征

，

其中{x₁，...，x_p}\{

_j}表示集合

去掉

的子集，即

是不属于S的一个特征，（S U {x_j}）是对两者求并集。

13.如权利要求1所述的一种机器学习有监督模型解释方法，其特征在于：所述步骤6中，对分析结果进行可视化展示是通过绘制数据及输出结果的旭日图，具体的，旭日图圈层总数量等于数据中特征总数量加一，旭日图最内为第一圈层，其各扇环表示模型的输出结果，每个扇环代表一簇结果；依据步骤5中计算的各个特征值对所述输出结果的影响，按照各个特征值对所述输出结果的影响的大小、对步骤2中的层次聚类聚成的每一簇由大到小进行排序，并构建用于表示数据不同特征的第二圈层到最外圈层，根据步骤4的聚类分箱结果得到每一簇对应的小扇环并在扇环上标记对应的簇标签。

14.一种机器学习有监督模型解释系统，其特征在于：包括机器学习模型单元、层次聚类处理模块、旭日图生成模块和显示单元；

15.如权利要求14所述的一种机器学习有监督模型解释系统，其特征在于：所述旭日图生成模块构建带有标签的旭日图时，根据聚类分箱的结果将扇环自内到外划分为若干用于代表聚类分箱时得到的每一簇的小扇环，并在扇环上标记对应的簇标签，扇环对应圆心角等于扇环对应样本数据数量占数据数量的比值乘以360度。

16.如权利要求15所述的一种机器学习有监督模型解释系统，其特征在于：所述旭日图第一圈层的各扇形颜色相同且颜色为全图最深，每个扇环的颜色由该扇环对应特征取值值域占该特征取值值域的比重决定，比值越小，颜色越深。

17.如权利要求15所述的一种机器学习有监督模型解释系统，其特征在于：选定所述旭日图第一圈层的各扇形颜色初始RGB值，初始RGB值对应最深颜色，根据旭日图圈层和扇环的个数设定RGB值等差阈值，以初始RGB值为起始、以RGB值等差阈值为差值、自动依次对旭日图圈层和扇环顺序进行颜色填充。

18.一种计算设备，包括：一个或多个处理器、存储器，所述存储器存储指令，其特征在于：当所述指令被所述一个或多个处理器执行时，使得所述一个或多个处理器执行如权利要求1到13中任一所述的方法。

19.一种非暂时性机器可读存储介质，其存储有可执行指令，其特征在于：所述指令当被执行时使得所述机器执行如权利要求1到13中任一所述的方法。