CN112215366B - 基于结果画像的模型解释方法、系统、计算及存储设备 - Google Patents
基于结果画像的模型解释方法、系统、计算及存储设备 Download PDFInfo
- Publication number
- CN112215366B CN112215366B CN202011416347.6A CN202011416347A CN112215366B CN 112215366 B CN112215366 B CN 112215366B CN 202011416347 A CN202011416347 A CN 202011416347A CN 112215366 B CN112215366 B CN 112215366B
- Authority
- CN
- China
- Prior art keywords
- data
- output result
- characteristic
- influence
- clustering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 96
- 238000004364 calculation method Methods 0.000 title claims abstract description 10
- 238000003860 storage Methods 0.000 title claims abstract description 6
- 238000010801 machine learning Methods 0.000 claims abstract description 61
- 238000009826 distribution Methods 0.000 claims abstract description 40
- 238000012545 processing Methods 0.000 claims description 15
- 230000000694 effects Effects 0.000 claims description 11
- 239000003086 colorant Substances 0.000 claims description 4
- 235000018185 Betula X alpestris Nutrition 0.000 claims description 3
- 235000018212 Betula X uliginosa Nutrition 0.000 claims description 3
- 230000000007 visual effect Effects 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 abstract description 3
- 238000004458 analytical method Methods 0.000 description 4
- 238000012800 visualization Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 230000036561 sun exposure Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/231—Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于结果画像的模型解释方法、系统、计算及存储设备,涉及机器学习技术领域,将包括若干特征值的数据输入到训练好的、给定有监督的机器学习模型中,并得到机器学习的输出结果,使用数学期望算法计算数据中各个特征值对所述输出结果的影响,按照各个特征值对输出结果的影响从大到小的顺序、采用聚类方法对模型输出预测结果相同的数据进行逐级划分,并得到划分后对应特征值的主要分布区间、进行簇标签构建绘制旭日图,是一种基于聚类方法、采用与模型无关的解释方法,给定有监督机器学习模型,结合样本数据和模型评估结果就能对模型进行解释,还能指导模型的改进的模型解释方法。
Description
技术领域
本发明涉及机器学习技术领域,确切地说涉及一种基于结果画像的模型解释方法、系统、计算及存储设备。
背景技术
在传统统计中,通过调查大量的数据来构造和验证假设,而建立模型来构建规则则可以将其纳入模型中。例如,营销公司可以建立一个模型,将营销活动数据与财务数据相关联,以确定构成有效营销活动的是什么。这是一种自上而下的数据科学方法,可解释性是关键,因为它是所定义规则和过程的基石,由于相关性往往不等于因果关系,所以在进行决策和解释时,需要对模型进行很强的理解。
目前现有的模型解释方案,主要是采用线性回归、逻辑回归、决策树模型等传统可以自解释的统计模型,但是这些传统的可解释统计模型预测能力有限,并且随着大数据发展,需要分析的数据维度越来越高,这些模型不能很好的利用新的特征,因此,为追求更高的精度,更好利用多维数据的多个特征,需要使用更先进的机器学习模型。
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径,机器学习在生产和研究方面都非常具有潜力,但是机器学习模型具有不可解释性,如果使用不具有可解释性的机器学习模型,则不能说明其分析过程,采用这种模型预测结果风险是难以评估的。现有技术中也有利用可解释性模型局部探究不可直接解释模型的预测结果,通过重复对输入的轻微扰动探究模型输出结果的变化,拟合出一个局部可解释性的简单模型,但是该方法仅对模型的局部做了探究,不能做到全局近似而且这种方法也不稳定,不但需要确定邻域范围和近似模型复杂度,而且利用相同参数相同方法进行的重复解释可能得到不同结果。同样的,现有技术中还有结合具体案例解释模型的方法,但此类方法受限于案例和模型类型用途也很有限。
即,采用机器学习模型虽然高效但是不能说明其分析过程,则采用模型预测的结果风险难以评估,对于规则明确、市值较高的产业人们很难采信这种机器学习模型的预测结果,为更好在各种业务环境下利用机器学习模型,发明一种与模型无关的解释方法有重要意义。
发明内容
本发明的目的在于针对现有技术的不足、克服现有技术的缺点,提供一种基于聚类方法、采用与模型无关的解释方法,给定有监督机器学习模型,结合样本数据和模型评估结果就能对模型进行解释,还能指导模型的改进的解释方法即系统,以及对应的计算设备和存储设备。
本发明的目的是通过以下技术方案实现的:
基于结果画像的模型解释方法,包括以下步骤:
步骤1,将包括若干数值和非数值型特征的数据输入到训练好的、给定有监督的机器学习模型中,并得到机器学习对数据分类的输出结果,比如数据中机器学习模型预测类别为1的数据归为一类,预测类别为0的数据归为一类;所述训练好的、给定有监督的机器学习模型,需要基于预测结果画像进行解释的机器学习模型,主要解释的内容就是机器学习模型的算法和监督规则等,即从机器学习的结果倒过来说明其采用的算法、逻辑和规则,因此,我们要将数据输入到我们需要进行解释的、训练好的、给定有监督的机器学习模型中,再通过对其结果进行倒推完成解释;而数值型特征的数据(metric data)是按数字尺度测量的观察值,其结果表现为具体的数值;反之则为非数值型特征的数据(NonnumericData),现实中所处理的大多数都是数值型数据。
步骤2,使用数学期望算法计算数据中数值和非数值型特征的特征值对所述输出结果的影响,供后续排布圈层使用;
所述数学期望算法,具体的,包括以下步骤:
将数据中包含的p个特征值(x1,x2,...,xp)构成特征组合S;
对每个未包含在特征组合S中的特征值进行积分迭代计算,得到机器学习模型机器学习的输出结果期望,以及期望平均影响;其中,P为特征值出现的概率,dP是特征值出现的概率P的微分增量,这里的输出结果期望是基于勒贝格积分方法计算随机变量函数期望,是对随机变量在区间内的概率进行积分,期望平均影响EX中X是指所有特征的集合,满足|X|=p,输出结果期望是在不考虑除特征组合S以外的其他特征的情况下,以特征组合S中的特征值计算得到的期望值,例如,所有特征的集合X一共有四个特征{X1,X2,X3,X4},我们想评估的是特征X2和X3的特征值x2和x3所带来的影响,所以对应的S是特征集合就是{X1,X4},则输出结果期望
即,对所有特征的集合X中、不需要评估特征值影响的特征{X1,X4}进行多次积分。
考虑特征组合S对输出结果的边际影响,则第j个特征xj对输出结果的影响为 ,S是特征的组合,xj是不属于S的一个特征,(S U {xj})是对两者求并集,对应的加权因子为,其中,∣S∣表示特征组合S中元素的个数。
所以第j个特征xj对输出结果的影响,是考虑所有特征组合S的输出结果的影响的加权平均值
其中{x1,...,xp}\{xj}表示集合{x1,...,xp}去掉{xj}的子集,即xj是不属于S的一个特征,(S U {xj})是对两者求并集;该结果可由SHAP包的shap_values得到估计值,式中的符合!为阶乘符号。
步骤3,根据步骤2中计算得到的数值和非数值型特征的特征值对所述输出结果的影响,按照各个特征值对输出结果的影响从大到小的顺序,采用聚类方法将步骤1中输入的数据中的每一个维度的数据、对应机器学习的输出结果相同的数据进行逐级划分,得到对应步骤1中机器学习对数据的分类结果的特征值的主要分布区间;
所述步骤3中,采用聚类方法对步骤1中输出结果相同的数据进行逐级划分时,当输出结果相同的数据数量少于数据总数量的1%时,停止继续划分。
所述步骤3中,采用聚类方法对步骤1中输出结果相同的数据进行逐级划分,具体的,是根据各个特征值对输出结果的影响从大到小的顺序,依次分别对上一层级特征划分结果中的每个特征值区间内的数据,在当前特征维度采用相同的聚类方法进行划分并得到特征值区间,直至所有特征的所有数据均被划分;
所述步骤3中,所述聚类方法,具体的,包括以下步骤:
扫描数据中每一个维度中的所有数据的全部特征值,并对每个特征值设置一个可调整参数n;
若特征值范围不超过n个值,则无需聚类,特征的主要分布区间所对应的值则为对应的特征值;
若该特征为非数值型特征且其特征值取值范围超过了n个值,则在该特征所对应的簇中取该特征值所对应的数据数量最多的前h个特征各作为一类聚类结果输出,得到特征的主要分布区间所对应的值为对应的特征值,将簇中剩余特征合为一类,并标记这类特征的主要分布区间为“其他”;
即,利用一维聚类方法,把每一簇里面每个特征比较具有代表性的分布区间提取出来。具体例如,离散特征F有3个特征值a、b、c,然后离散特征F对应的簇中,特征值F=a的特征有100个, F=b的特征有80个,F=c的特征有30个样本,那么对于特征F,特征值F=a则是该簇中对应的特征数量最多的特征值,该簇的主要分布区间的特征值就是a。
进一步的,若一个特征为数值型特征且特征值取值范围超过了n个值,则采用一种聚类输出结果不超过4类的聚类方法对该特征所对应的簇进行聚类,并计算特征值极大极小值构成的主要分布区间;
所述聚类输出结果不超过4类的聚类方法可选如下三种,但不限于以下三种:
Kmeans:分别取K=1,K=2,K=3,K=4进行聚类,并计算对应Calinski-Harabasz值,取使Calinski-Harabasz值最大的K值及其对应聚类结果。聚类方法为:随机选取K个点作为初始的聚类中心,计算各点与聚类中心之间的距离(余弦相似度),将每个点分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一点,聚类的聚类中心会根据聚类中现有的对象被重新计算。重复以上过程直到没有点被重新分配给不同的簇。该方法实现简单,收敛速度快,且计算复杂度接近线性。同时具有较强的可解释性,聚类效果较优。
DBSCAN:检查数据集中每点的Eps邻域来搜索簇,在DBSCAN 中,Eps邻域是给定对象半径Eps内的邻域称为该对象的Eps邻域,最小包含点数(minPts),如果点p的Eps邻域包含的点多于MinPts个,MinPts是指最小包含点数,则创建一个以p为核心对象的簇。迭代地聚集从这些核心对象直接密度可达的对象,合并一些密度可达簇。当没有新的点添加到任何簇时,该过程结束。该方法可以设置阈值过滤噪声,能有效处理异常数据。
BIRCH层次聚类方法:使用样本点数量、各特征维度的和向量、各特征维度的平方和构成的三元组聚类特征CF来概括一个簇,使用聚类特征树(CF树)来表示聚类的层次结构,采用自底向上策略,首先将每个对象作为一个原子簇,然后合并这些原子簇形成更大的簇,减少簇的数目,直到所有的对象都在一个簇中。该方法将对点的聚类改为对簇的聚类,聚类速度快,占用内存小,只需要单遍扫描数据集就能进行聚类。可以识别噪音点。
步骤4,根据步骤3中得到的对应特征值的主要分布区间,进行簇标签构建;
所述步骤4中的簇标签构建,是将对应特征值的主要分布区间组成的字符串作为簇标签。
步骤5,根据上述步骤2-4的结果,对步骤1中机器学习对数据分类的输出结果进行可视化处理并展示。
所述步骤5中,进行可视化处理的方法为根据步骤2-4的结果绘制旭日图,具体的,根据步骤3中得到划分后对应特征值的主要分布区间以及步骤4中构建的簇标签,对步骤1中输入的数据、输出结果进行旭日图绘制,其中,旭日图圈层总数量等于数据中特征数总量加一,旭日图最内为第一圈层,其外层的各扇环用于表示模型的输出结果,每个扇环对应代表一簇的结果;依步骤2计算的各个特征值对所述输出结果的影响,并按照各个特征值对所述输出结果的影响的大小对特征值排序,构建用于表示数据不同特征的第二圈层到最外圈层;根据步骤3中得到划分后对应特征值的主要分布区间用于对应旭日图自内到外的各个扇环;并在每一个扇环对应标记步骤4得到的簇标签。旭日图是解释结果可视化的一种手段,还根据结果绘制决策树图进行可是化处理。
扇环对应圆心角等于扇环对应样本数据数量占数据数量的比值乘以360度。
优选地,所述旭日图还具有以下特征:
最内为第一圈层,各扇环表示模型的输出结果,每个扇环代表一簇结果。
圈层总数量等于特征数量加一。
依步骤二计算的特征对输出结果的影响由大到小次序,构建表示数据不同特征的第二圈层到最外圈层。
根据前面步骤的聚类结果对扇环自内到外分代表前面步骤得到的每一簇对应的小扇环,并在扇环上标记对应步骤四得到的簇标签,扇环对应圆心角等于扇环对应样本数据数量占数据数量的比值乘以360度。
第一圈层的各扇形颜色相同且颜色为全图最深。
每个扇环的颜色由该扇环对应特征取值值域占该特征取值值域的比重决定,比值越小,颜色越深。
颜色生成方法为:选定初始RGB值及需要颜色的个数,通过求得合适的最深颜色RGB值和对应的合理差值,等差改变RGB值,自动生成一组与初始颜色仅明度渐变其他参数不变的渐变色RGB值及十六进制六位编码,用来在相应扇形进行填充。
对应上述方法,本发明还公开了一种基于预测结果画像的有监督模型解释系统,包括机器学习模型单元、影响聚类处理模块、旭日图生成模块和显示单元;
所述机器学习模型单元中写入有训练好的、给定有监督的机器学习模型,用于将作为样本的、包括若干数值和非数值型特征的数据进行机器学习并将结果输入至所述影响聚类处理模块中;
所述影响聚类处理模块通过数学期望算法计算作为样本的、包括若干数值和非数值型特征的数据中所有数值和非数值型特征对所述机器学习模型单元的机器学习输出结果的影响,并按照各个特征值对输出结果的影响从大到小的顺序,以聚类方法将作为样本的数据中的每一个维度的数据、对应机器学习的输出结果相同的数据进行逐级划分得到若干簇,同时得到机器学习对数据的分类结果的特征值的主要分布区间输出结果,并输入给旭日图生成模块;
所述旭日图生成模块根据所述影响聚类处理模块的输出结果,对每一簇进行标签构建,以特征值的主要分布区间为对应簇的标签,然后根据数据中特征总数量确定圈层数、以影响聚类处理模块中得到的簇数和顺序确定扇环排布、以及每一簇对应的特征值的主要分布区间作为对应扇环的标签,从内至外构建带有标签的旭日图,并发送至显示单元进行显示。
优选地,所述旭日图生成模块构建带有标签的旭日图时,根据所述影响聚类处理模块按照各个特征值对输出结果的影响从大到小的顺序、以聚类方法将作为样本的数据中的每一个维度的数据、对应机器学习的输出结果相同的数据进行逐级划分得到的每一簇,对应为旭日图上的扇环,并在扇环上标记对应的簇标签,扇环对应圆心角等于扇环对应样本数据数量占数据数量的比值乘以360度。
进一步的,所述旭日图第一圈层的各扇形颜色相同且颜色为全图最深,每个扇环的颜色由该扇环对应特征取值值域占该特征取值值域的比重决定,比值越小,颜色越深。
具体的,选定所述旭日图第一圈层的各扇形颜色初始RGB值,初始RGB值对应最深颜色,根据旭日图圈层和扇环的个数设定RGB值等差阈值,以初始RGB值为起始、以RGB值等差阈值为差值、自动依次对旭日图圈层和扇环顺序进行颜色填充。
另外,还包括一种计算设备,包括:一个或多个处理器、存储器,所述存储器存储指令,当所述指令被所述一个或多个处理器执行时,使得所述一个或多个处理器执行上述的方法。
以及,一种可读存储设备,其存储有可执行指令,所述指令当被执行时使得执行机器执行上述的方法。
与现有技术相比,上述技术方案包括以下创新点及有益效果:
本发明采用与模型无关的解释方法,限制条件少,用途广泛,给定有监督机器学习模型,结合样本数据和模型评估结果就能对模型进行解释,还能指导模型的改进;用改进的旭日图展示可视化结果,进一步增强了该方法的解释性。克服了现有技术中,部分机器学习模型可解释性差、现有解释方法稳定性差、使用场景不广泛以及效果不直观的问题。
附图说明
图1为本发明一种具体方案的流程示意图。
具体实施方式
下面通过几个具体的实施例来进一步说明实现本发明目的技术方案,需要说明的是,本发明要求保护的技术方案包括但不限于以下实施例。
作为本发明一种具体的实施方案,如图1,公开了一种基于结果画像的模型解释方法,具体包括以下步骤:
步骤一,将包括若干数值和非数值型特征的数据输入到训练好的、给定有监督的机器学习模型中,并得到机器学习的输出结果,其中,所述数据即为样本数据。
步骤二,计算各特征对输出结果的影响,供后续排布圈层使用。
具体的,计算方法为:将数据中包含的p个特征值(x1,x2,...,xp)构成特征组合S;对每个未包含在特征组合S中的特征值进行积分迭代计算,得到机器学习模型机器学习的输出结果期望,以及期望平均影响;其中,P为特征值出现的概率,dP是对特征值出现的概率P求积分,期望平均影响EX中X是指所有特征的集合,满足|X|=p,输出结果期望是在不考虑除特征组合S以外的其他特征的情况下,以特征组合S中的特征值计算得到的期望值;
例如,所有特征的集合X一共有四个特征,我们想评估的是特征值和带来的影响,所以对应的S是特征集合就是{X1,X4},则输出结果期望
即,对每个其他不适我们想评估特征值影响的特征{X1,X4}进行多次积分。
考虑特征组合S对输出结果的边际影响,则第j个特征xj对输出结果的影响为 ,S是特征的组合,xj是不属于S的一个特征,(S U {xj})是对两者求并集,对应的加权因子为,其中,∣S∣表示特征组合S中元素的个数。
所以第j个特征xj对输出结果的影响,是考虑所有特征组合S的输出结果的影响的加权平均值
其中{x1,...,xp}\{xj}表示集合{x1,...,xp}去掉{xj}的子集,即xj是不属于S的一个特征,(S U {xj})是对两者求并集;该结果可由SHAP包的shap_values得到估计值;
步骤三,对输出结果相同的数据,按特征对输出结果的影响从大到小的顺序,采用一种聚类方法进行逐级划分,并得到划分后对应特征值的主要分布区间。划分时当对应的数据数量少于总数据数量的1%时,停止继续划分。并且,按上一特征分完对应数据后,对上一特征每一类的所有数据分别采用与分前一特征相同的聚类方法进行划分,直至分完最后一个特征。重复以上步骤直至所有数据均被划分;
具体的,步骤三所述的聚类方法详细步骤如下:
扫描数据中每一个维度中的所有数据的全部特征值,并对每个特征值设置一个可调整参数n;然后根据可调整参数n和特征值范围的大小,来进行判断,这里为便于说明,以可调整参数为4时为例,若该特征值范围不超过4个值,则无需聚类。
若该特征为非数值型特征且特征值取值范围超过了4个值,则取前三个样本数量最多的特征值各为一类,特征值的主要分布区间为对应特征值,将样本数量较少的特征值取值合为一类,特征值的主要分布区间为“其他”;
若该特征为数值型特征且特征值取值范围超过了4个值,采用一种聚为不超过4类的聚类方法进行聚类,并计算特征值极大极小值构成的主要分布区间。
所述聚为不超过4类的聚类方法可选如下三种,但不限于以下三种:
Kmeans:分别取K=1,K=2,K=3,K=4进行聚类,并计算对应Calinski-Harabasz值,取使Calinski-Harabasz值最大的K值及其对应聚类结果。聚类方法为:随机选取K个点作为初始的聚类中心,计算各点与聚类中心之间的距离(余弦相似度),将每个点分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一点,聚类的聚类中心会根据聚类中现有的对象被重新计算。重复以上过程直到没有点被重新分配给不同的簇。该方法实现简单,收敛速度快,且计算复杂度接近线性。同时具有较强的可解释性,聚类效果较优。
DBSCAN:检查数据集中每点的Eps邻域来搜索簇,在DBSCAN 中,Eps邻域是给定对象半径Eps内的邻域称为该对象的Eps邻域,最小包含点数(minPts),如果点p的Eps邻域包含的点多于MinPts个,MinPts是指最小包含点数,则创建一个以p为核心对象的簇。迭代地聚集从这些核心对象直接密度可达的对象,合并一些密度可达簇。当没有新的点添加到任何簇时,该过程结束。该方法可以设置阈值过滤噪声,能有效处理异常数据。
BIRCH层次聚类方法:使用样本点数量、各特征维度的和向量、各特征维度的平方和构成的三元组聚类特征CF来概括一个簇,使用聚类特征树(CF树)来表示聚类的层次结构,采用自底向上策略,首先将每个对象作为一个原子簇,然后合并这些原子簇形成更大的簇,减少簇的数目,直到所有的对象都在一个簇中。该方法将对点的聚类改为对簇的聚类,聚类速度快,占用内存小,只需要单遍扫描数据集就能进行聚类。可以识别噪音点。
步骤四,由上一步确定的每一簇每个特征值的主要分布区间,进行簇标签构建,簇标签构建方法为:以对应特征和特征值的主要分布区间组成的字符串为簇标签;
步骤五,由全部输入数据、模型输出结果、前面步骤分析计算结果,绘制旭日图。且具体的,所述旭日图具有以下特征:
旭日图的圈层总数量等于特征数量加一,最内为第一圈层,各扇环表示模型的输出结果,每个扇环代表一簇结果;
依步骤二计算的特征对输出结果的影响由大到小次序,构建表示数据不同特征的第二圈层到最外圈层;
根据前面步骤的聚类结果对扇环自内到外分代表前面步骤得到的每一簇对应的小扇环,并在扇环上标记对应步骤四得到的簇标签,扇环对应圆心角等于扇环对应样本数据数量占数据数量的比值乘以360度。
优选地,旭日图第一圈层的各扇形颜色相同且颜色为全图最深,每个扇环的颜色由该扇环对应特征取值值域占该特征取值值域的比重决定,比值越小,颜色越深。
具体的颜色生成方法为:选定初始RGB值及需要颜色的个数,通过求得合适的最深颜色RGB值和对应的合理差值,等差改变RGB值,自动生成一组与初始颜色仅明度渐变其他参数不变的渐变色RGB值及十六进制六位编码,用来在相应扇形进行填充。
在信贷领域中,信贷监管法规对于模型可解释性提出了越来越高的要求。基于机器学习的智能信贷风险评估系统,如果智能系统的决策过程是自动的,那么用户对决策过程享有知情权,即金融机构需为系统做出的决策提供解释依据。具备定量解释能力的智能信贷系统,不仅能获得较高准确性的预测结果,而且可以取得用户的信任,提升机器学习模型在信贷行业的应用的广度和深度。
以上述实施例的方法,基于预测结果画像对机器学习模型的结果进行解释就可以获得较高准确性的预测结果,具体的:
步骤1,数据集一共有N个样本,每个样本包含数值和非数值型的特征(F1,F2,...,FM)。用训练好的有监督机器学习模型对每个样本进行预测,得到比如两类预测结果,预测为1的样本,以及预测为0的样本。
步骤2,根据数学期望算法可以计算数据中各个特征对所述输出结果的影响,比如发现特征FI比FJ的整体影响大。
步骤3,根据上一步计算出来的特征影响力大小排序结果,以及模型对样本的预测,比如针对模型预测结果为1的所有样本,首先用聚类方法对影响力最大的样本进行主要分布区间,得到比如特征FI的主要分布区间为[10,15]以及[20,25];之后针对FI特征在[10,15]内的样本,继续在FJ特征维度用聚类方法进行主要分布区间的划分,得到FI区间[10,15]内,FJ的的主要分布为[5,20]以及[22,25]。
步骤4,根据上一步得到的最终划分结果,给每一个划分分布区间构建一个标签,比如"FI:[10,15]"。
步骤5,根据前两部得到的划分区间和区间标签,构建旭日图。
Claims (16)
1.基于结果画像的模型解释方法,其特征在于,包括以下步骤:
步骤1,将包括若干数值和非数值型特征的数据输入到训练好的、给定有监督的机器学习模型中,并得到机器学习对数据分类的输出结果;
步骤2,使用数学期望算法计算数据中数值和非数值型特征的特征值对所述输出结果的影响;
步骤3,根据步骤2中计算得到的数值和非数值型特征的特征值对所述输出结果的影响,按照各个特征值对输出结果的影响从大到小的顺序,采用聚类方法将步骤1中输入的数据中的每一个维度的数据、对应机器学习的输出结果相同的数据进行逐级划分,得到对应步骤1中机器学习对数据的分类结果的特征值的主要分布区间;
步骤4,根据步骤3中得到的对应特征值的主要分布区间,进行簇标签构建;
步骤5,根据上述步骤2-4的结果,对步骤1中机器学习对数据分类的输出结果进行可视化处理并展示,根据步骤2-4的结果绘制旭日图,具体的,根据步骤3中得到划分后对应特征值的主要分布区间以及步骤4中构建的簇标签,对步骤1中输入的数据、输出结果进行旭日图绘制,其中,旭日图圈层总数量等于数据中特征数总量加一,旭日图最内为第一圈层,其各扇环表示模型的输出结果,每个扇环代表一簇结果;依步骤2计算的各个特征值对所述输出结果的影响,并根据各个特征值对所述输出结果的影响大小对特征值进行排序,构建用于表示数据不同特征的第二圈层到最外圈层;根据步骤3中得到划分后对应特征值的主要分布区间,分别对应旭日图自内到外的各个扇环,并在每一个扇环对应标记步骤4得到的簇标签。
2.如权利要求1所述的基于结果画像的模型解释方法,其特征在于,步骤2中,所述数学期望算法,具体的,包括以下步骤:
将数据中包含的p个特征值(x1,x2,...,xp)构成特征组合S;
对每个未包含在特征组合S中的特征值进行积分迭代计算,得到机器学习模型机器学习的输出结果期望
4.如权利要求1所述的基于结果画像的模型解释方法,其特征在于:所述步骤3中,采用聚类方法对步骤1中输出结果相同的数据进行逐级划分时,当输出结果相同的数据数量少于数据总数量的1%时,停止继续划分。
5.如权利要求1所述的基于结果画像的模型解释方法,其特征在于:所述步骤3中,采用聚类方法对步骤1中输出结果相同的数据进行逐级划分,具体的,是根据各个特征值对输出结果的影响从大到小的顺序,依次分别对上一层级特征划分结果中的每个特征值区间内的数据,在当前特征维度采用相同的聚类方法进行划分并得到特征值区间,直至所有特征的所有数据均被划分。
6.如权利要求1、4、5中任意一项所述的基于结果画像的模型解释方法,其特征在于,所述步骤3中,所述聚类方法,具体的,包括以下步骤:
扫描数据中每一个维度中的所有数据的全部特征值,并对每个特征值设置一个可调整参数n;
若特征值范围不超过n个值,则无需聚类,特征的主要分布区间所对应的值则为对应的特征值;
若该特征为非数值型特征且其特征值取值范围超过了n个值,则在该特征所对应的簇中取该特征值所对应的数据数量最多的前h个特征各作为一类聚类结果输出,得到特征的主要分布区间所对应的值为对应的特征值,将簇中剩余特征合为一类,并标记这类特征的主要分布区间为“其他”。
7.如权利要求6所述的基于结果画像的模型解释方法,其特征在于:进一步的,若一个特征为数值型特征且特征值取值范围超过了n个值,则采用一种聚类输出结果不超过4类的聚类方法对该特征所对应的簇进行聚类,并计算特征值极大极小值构成的主要分布区间。
8.如权利要求7所述的基于结果画像的模型解释方法,其特征在于:所述聚类输出结果不超过4类的聚类方法为Kmeans聚类、DBSCAN聚类或者BIRCH层次聚类中的一种。
9.如权利要求1所述的基于结果画像的模型解释方法,其特征在于:所述步骤4中的簇标签构建,是将对应特征值的主要分布区间组成的字符串作为簇标签。
10.如权利要求1所述的基于结果画像的模型解释方法,其特征在于:所述步骤5中,扇环对应圆心角等于扇环对应样本数据数量占数据数量的比值乘以360度。
11.基于结果画像的模型解释系统,其特征在于:包括机器学习模型单元、影响聚类处理模块、旭日图生成模块和显示单元;
所述机器学习模型单元中写入有训练好的、给定有监督的机器学习模型,用于将作为样本的、包括若干数值和非数值型特征的数据进行机器学习并将结果输入至所述影响聚类处理模块中;
所述影响聚类处理模块通过数学期望算法计算作为样本的、包括若干数值和非数值型特征的数据中所有数值和非数值型特征对所述机器学习模型单元的机器学习输出结果的影响,并按照各个特征值对输出结果的影响从大到小的顺序,以聚类方法将作为样本的数据中的每一个维度的数据、对应机器学习的输出结果相同的数据进行逐级划分得到若干簇,同时得到机器学习对数据的分类结果的特征值的主要分布区间输出结果,并输入给旭日图生成模块;
所述旭日图生成模块根据所述影响聚类处理模块的输出结果,对每一簇进行标签构建,以特征值的主要分布区间为对应簇的标签,然后根据数据中特征总数量确定圈层数、以影响聚类处理模块中得到的簇数和顺序确定扇环排布、以及每一簇对应的特征值的主要分布区间作为对应扇环的标签,从内至外构建带有标签的旭日图,具体的,旭日图圈层总数量等于数据中特征数总量加一,旭日图最内为第一圈层,其各扇环表示模型的输出结果,每个扇环代表一簇结果;根据各个特征值对所述输出结果的影响、以及各个特征值对所述输出结果的影响大小对特征值进行排序,构建用于表示数据不同特征的第二圈层到最外圈层;并将生成的旭日图发送至显示单元进行显示。
12.如权利要求11所述的基于结果画像的模型解释系统,其特征在于:所述旭日图生成模块构建带有标签的旭日图时,根据所述影响聚类处理模块按照各个特征值对输出结果的影响、以聚类方法将作为样本的数据中的每一个维度的数据、对应机器学习的输出结果相同的数据进行逐级划分得到的每一簇,对应为旭日图上的扇环,并在扇环上标记对应的簇标签,扇环对应圆心角等于扇环对应样本数据数量占数据数量的比值乘以360度。
13.如权利要求11所述的基于结果画像的模型解释系统,其特征在于:所述旭日图第一圈层的各扇形颜色相同且颜色为全图最深,每个扇环的颜色由该扇环对应特征取值值域占该特征取值值域的比重决定,比值越小,颜色越深。
14.如权利要求12所述的基于结果画像的模型解释系统,其特征在于:选定所述旭日图第一圈层的各扇形颜色初始RGB值,初始RGB值对应最深颜色,根据旭日图圈层和扇环的个数设定RGB值等差阈值,以初始RGB值为起始、以RGB值等差阈值为差值、自动依次对旭日图圈层和扇环顺序进行颜色填充。
15.一种计算设备,包括:一个或多个处理器、存储器,所述存储器存储指令,当所述指令被所述一个或多个处理器执行时,使得所述一个或多个处理器执行如权利要求1、2、3、4、5、9、10、11中任一所述的方法。
16.一种可读存储设备,其存储有可执行指令,所述指令当被执行时执行如权利要求1、2、3、4、5、9、10、11中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011416347.6A CN112215366B (zh) | 2020-12-07 | 2020-12-07 | 基于结果画像的模型解释方法、系统、计算及存储设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011416347.6A CN112215366B (zh) | 2020-12-07 | 2020-12-07 | 基于结果画像的模型解释方法、系统、计算及存储设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112215366A CN112215366A (zh) | 2021-01-12 |
CN112215366B true CN112215366B (zh) | 2021-03-02 |
Family
ID=74067979
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011416347.6A Expired - Fee Related CN112215366B (zh) | 2020-12-07 | 2020-12-07 | 基于结果画像的模型解释方法、系统、计算及存储设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112215366B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105956018A (zh) * | 2016-04-21 | 2016-09-21 | 成都数联铭品科技有限公司 | 基于云计算平台的海量关联数据分析及可视化实现方法 |
CN107392245A (zh) * | 2017-07-19 | 2017-11-24 | 南京信息工程大学 | 一种出租车载客轨迹聚类算法Tr‑OPTICS |
CN107844836A (zh) * | 2017-10-24 | 2018-03-27 | 信雅达系统工程股份有限公司 | 一种基于机器学习的系统及学习方法 |
CN109344171A (zh) * | 2018-12-21 | 2019-02-15 | 中国计量大学 | 一种基于数据流处理的非线性系统特征变量显著性挖掘法 |
CN110534190A (zh) * | 2018-05-24 | 2019-12-03 | 西门子医疗有限公司 | 用于自动临床决策支持系统的系统和方法 |
CN110593602A (zh) * | 2019-09-02 | 2019-12-20 | 同济大学 | 一种建筑物有序化绿色拆除施工方法 |
CN111178377A (zh) * | 2019-10-12 | 2020-05-19 | 未鲲(上海)科技服务有限公司 | 可视化特征筛选方法、服务器及存储介质 |
US10702239B1 (en) * | 2019-10-21 | 2020-07-07 | Sonavi Labs, Inc. | Predicting characteristics of a future respiratory event, and applications thereof |
CN111598409A (zh) * | 2020-04-24 | 2020-08-28 | 广西电网有限责任公司电力科学研究院 | 一种配电网运行效率监测与分析系统 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10068385B2 (en) * | 2015-12-15 | 2018-09-04 | Intel Corporation | Generation of synthetic 3-dimensional object images for recognition systems |
US10452956B2 (en) * | 2017-09-29 | 2019-10-22 | Here Global B.V. | Method, apparatus, and system for providing quality assurance for training a feature prediction model |
US11625597B2 (en) * | 2017-11-15 | 2023-04-11 | Canon Medical Systems Corporation | Matching network for medical image analysis |
CN108647730B (zh) * | 2018-05-14 | 2020-11-24 | 中国科学院计算技术研究所 | 一种基于历史行为共现的数据划分方法及系统 |
CN109002562B (zh) * | 2018-08-30 | 2021-04-13 | 北京信立方科技发展股份有限公司 | 一种仪器识别模型训练方法和装置及仪器识别方法和装置 |
CN110390704B (zh) * | 2019-07-11 | 2021-02-12 | 深圳追一科技有限公司 | 图像处理方法、装置、终端设备及存储介质 |
CN110705718A (zh) * | 2019-10-11 | 2020-01-17 | 秒针信息技术有限公司 | 基于合作博弈的模型解释方法、装置、电子设备 |
CN111400366B (zh) * | 2020-02-27 | 2022-12-09 | 西安交通大学 | 一种基于CatBoost模型的交互式门诊量预测可视分析方法及系统 |
CN111428419A (zh) * | 2020-02-29 | 2020-07-17 | 中山大学 | 悬浮泥沙浓度预测方法、装置、计算机设备和存储介质 |
-
2020
- 2020-12-07 CN CN202011416347.6A patent/CN112215366B/zh not_active Expired - Fee Related
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105956018A (zh) * | 2016-04-21 | 2016-09-21 | 成都数联铭品科技有限公司 | 基于云计算平台的海量关联数据分析及可视化实现方法 |
CN107392245A (zh) * | 2017-07-19 | 2017-11-24 | 南京信息工程大学 | 一种出租车载客轨迹聚类算法Tr‑OPTICS |
CN107844836A (zh) * | 2017-10-24 | 2018-03-27 | 信雅达系统工程股份有限公司 | 一种基于机器学习的系统及学习方法 |
CN110534190A (zh) * | 2018-05-24 | 2019-12-03 | 西门子医疗有限公司 | 用于自动临床决策支持系统的系统和方法 |
CN109344171A (zh) * | 2018-12-21 | 2019-02-15 | 中国计量大学 | 一种基于数据流处理的非线性系统特征变量显著性挖掘法 |
CN110593602A (zh) * | 2019-09-02 | 2019-12-20 | 同济大学 | 一种建筑物有序化绿色拆除施工方法 |
CN111178377A (zh) * | 2019-10-12 | 2020-05-19 | 未鲲(上海)科技服务有限公司 | 可视化特征筛选方法、服务器及存储介质 |
US10702239B1 (en) * | 2019-10-21 | 2020-07-07 | Sonavi Labs, Inc. | Predicting characteristics of a future respiratory event, and applications thereof |
CN111598409A (zh) * | 2020-04-24 | 2020-08-28 | 广西电网有限责任公司电力科学研究院 | 一种配电网运行效率监测与分析系统 |
Non-Patent Citations (4)
Title |
---|
Visualization of Rules in Rule-Based Classifiers;Susanne Bornelv et al;《Intelligent Decision Technologies》;20120131;第329-338页 * |
一种多维数据的聚类算法及其可视化研究;任永功等;《计算机学报》;20051222;第28卷(第11期);第1861-1865页 * |
基于机器学习的图像协同分类系统的设计与实现;王世兵;《中国优秀硕士学位论文全文数据库 信息科技辑》;20141115(第11期);I138-344 * |
雷达图图形特征提取中的特征排序;王金甲等;《燕山大学学报》;20080531;第32卷(第5期);第421-428页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112215366A (zh) | 2021-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liang et al. | Explaining the black-box model: A survey of local interpretation methods for deep neural networks | |
Ming et al. | Rulematrix: Visualizing and understanding classifiers with rules | |
Liu et al. | Analyzing the training processes of deep generative models | |
Sacha et al. | Somflow: Guided exploratory cluster analysis with self-organizing maps and analytic provenance | |
CN112101574B (zh) | 一种机器学习有监督模型解释方法、系统及设备 | |
CN111199343A (zh) | 一种多模型融合的烟草市场监管异常数据挖掘方法 | |
CN110008259A (zh) | 可视化数据分析的方法及终端设备 | |
CN111582136B (zh) | 表情识别方法及装置、电子设备、存储介质 | |
CN112835570A (zh) | 一种基于机器学习的可视化数学建模方法和系统 | |
US20210012211A1 (en) | Techniques for visualizing the operation of neural networks | |
US11615321B2 (en) | Techniques for modifying the operation of neural networks | |
CN112270374B (zh) | 基于som聚类模型的数学表达式的聚类方法 | |
Blanquero et al. | On sparse optimal regression trees | |
CN112418320A (zh) | 一种企业关联关系识别方法、装置及存储介质 | |
Pham et al. | Unsupervised training of Bayesian networks for data clustering | |
Hogräfer et al. | Steering-by-example for progressive visual analytics | |
Taghavi et al. | Visualization of multi-objective design space exploration for embedded systems | |
CN112215366B (zh) | 基于结果画像的模型解释方法、系统、计算及存储设备 | |
Tang et al. | Learning disjunctive concepts based on fuzzy semantic cell models through principles of justifiable granularity and maximum fuzzy entropy | |
Mazijn et al. | LUCID: exposing algorithmic bias through inverse design | |
WO2022183019A1 (en) | Methods for mitigation of algorithmic bias discrimination, proxy discrimination and disparate impact | |
Feldkamp et al. | Explainable AI For Data Farming Output Analysis: A Use Case for Knowledge Generation Through Black-Box Classifiers | |
Simarmata et al. | Performance Evaluation of Classification Methods on Big Data: Decision Trees, Naive Bayes, K-Nearest Neighbors, and Support Vector Machines | |
Gao et al. | GBDT4CTRVis: visual analytics of gradient boosting decision tree for advertisement click-through rate prediction | |
Ghadage et al. | Generic Framework for Explainable Fairness in Machine Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210302 |