CN112101574A - 一种机器学习有监督模型解释方法、系统及设备 - Google Patents

一种机器学习有监督模型解释方法、系统及设备 Download PDF

Info

Publication number
CN112101574A
CN112101574A CN202011305758.8A CN202011305758A CN112101574A CN 112101574 A CN112101574 A CN 112101574A CN 202011305758 A CN202011305758 A CN 202011305758A CN 112101574 A CN112101574 A CN 112101574A
Authority
CN
China
Prior art keywords
characteristic
clustering
values
machine learning
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011305758.8A
Other languages
English (en)
Other versions
CN112101574B (zh
Inventor
杨艾森
段函言
熊靖汶
陈文�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shansikaiwu Technology Chengdu Co ltd
Original Assignee
Chengdu Business Big Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Business Big Data Technology Co Ltd filed Critical Chengdu Business Big Data Technology Co Ltd
Priority to CN202011305758.8A priority Critical patent/CN112101574B/zh
Publication of CN112101574A publication Critical patent/CN112101574A/zh
Application granted granted Critical
Publication of CN112101574B publication Critical patent/CN112101574B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/231Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种机器学习有监督模型解释方法、系统及设备,涉及机器学习技术领域,将包括若干特征值的数据输入到训练好的、给定有监督的机器学习模型中,并得到机器学习的输出结果,对输出结果相同的数据进行层次聚类,剔除每一簇中的非典型特征值,并用空值填补被剔除的特征值,并进行特征值的聚类分箱,得到特征值的主要分布区间为对应特征取值进行簇标签构建,使用数学期望算法计算各个特征值对所述输出结果的影响,最后可视化展示,是一种基于聚类方法、采用与模型无关的解释方法,对给定有监督机器学习模型,结合样本数据和模型评估结果就能对模型进行解释,还能指导模型的改进的解释方法和系统,以及对应的计算机和存储介质。

Description

一种机器学习有监督模型解释方法、系统及设备
技术领域
本发明涉及机器学习技术领域,确切地说涉及一种机器学习有监督模型解释方法、系统及设备。
背景技术
在传统统计中,通过调查大量的数据来构造和验证假设,而建立模型来构建规则则可以将其纳入模型中。例如,营销公司可以建立一个模型,将营销活动数据与财务数据相关联,以确定构成有效营销活动的是什么。这是一种自上而下的数据科学方法,可解释性是关键,因为它是所定义规则和过程的基石,由于相关性往往不等于因果关系,所以在进行决策和解释时,需要对模型进行很强的理解。
目前现有的模型解释方案,主要是采用线性回归、逻辑回归、决策树模型等传统可以自解释的统计模型,但是这些传统的可解释统计模型预测能力有限,并且随着大数据发展,需要分析的数据维度越来越高,这些模型不能很好的利用新的特征,因此,为追求更高的精度,更好利用多维数据的多个特征,需要使用更先进的机器学习模型。
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径,机器学习在生产和研究方面都非常具有潜力,但是机器学习模型具有不可解释性,如果使用不具有可解释性的机器学习模型,则不能说明其分析过程,采用这种模型预测结果风险是难以评估的。现有技术中也有利用可解释性模型局部探究不可直接解释模型的预测结果,通过重复对输入的轻微扰动探究模型输出结果的变化,拟合出一个局部可解释性的简单模型,但是该方法仅对模型的局部做了探究,不能做到全局近似而且这种方法也不稳定,不但需要确定邻域范围和近似模型复杂度,而且利用相同参数相同方法进行的重复解释可能得到不同结果。同样的,现有技术中还有结合具体案例解释模型的方法,但此类方法受限于案例和模型类型用途也很有限。
即,采用机器学习模型虽然高效但是不能说明其分析过程,则采用模型预测的结果风险难以评估,对于规则明确、市值较高的产业人们很难采信这种机器学习模型的预测结果,为更好在各种业务环境下利用机器学习模型,发明一种与模型无关的解释方法有重要意义。
发明内容
本发明的目的在于针对现有技术的不足、克服现有技术的缺点,提供一种基于聚类方法、采用与模型无关的解释方法,对给定有监督机器学习模型,结合样本数据和模型评估结果就能对模型进行解释,还能指导模型的改进的解释方法和系统,以及对应的计算机和存储介质。
本发明的目的是通过以下技术方案实现的:
一种机器学习有监督模型解释方法,其特征在于,包括以下步骤:
步骤1,将包括若干数值和非数值型特征的数据输入到训练好的、给定有监督的机器学习模型中,并得到机器学习的输出结果;
步骤2,对步骤1中得到的输出结果相同的数据进行层次聚类,将输入的数据聚成若干个簇,每个簇中包含有若干样本,样本中均包含若干数值和非数值型特征,层次聚类的类别数量,按照设定的类别内部数据的协方差要求以及类别之间的协方差要求设置,取使聚类效果最优聚类簇数量,优选地,层次聚类的类别数量取使Calinski-Harabasz值最大的结果,比如,优选地,类别数量最大为10,Calinski-Harabasz值越大,就说明类别内部数据的协方差越小,类别之间的协方差越大,则聚类效果就越好。
所述步骤2中,进行层次聚类具体包括以下步骤:
首先,将数据中的每个样本归为一类,共得到n类,且每一类中仅包含一个样本,类与类之间的距离就是它们所包含的样本之间的距离;
然后,将距离最近的两个类进行合并成为一个新的类,记录类别数量和对应的Calinski-Harabasz值,并重新计算新的类与剩余的每一类之间的距离;
重复上述步骤直至所有的类被合并为一类;该方法能对聚类效果进行评估,能选取合理的聚类类别数量。
步骤2中,所述Calinski-Harabasz值为s(k),
Figure 34252DEST_PATH_IMAGE001
,其中m为训练集样本数,k为类别数,
Figure 951393DEST_PATH_IMAGE002
是样本类别之间的协方差矩阵,
Figure 544179DEST_PATH_IMAGE003
k是类别内部数据的方差矩阵,tr()表示矩阵的迹。
步骤3,将步骤2中层次聚类聚成的每一簇中的各特征,剔除与典型特征值相差最大的非典型特征值,且剔除特征值个数不超过设定数量,比如,优选地一种方案中,可以设定剔除特征值个数不超过原始样本的30%,并用空值填补被剔除的特征值;
所述步骤3中,剔除与典型特征值相差最大的非典型特征值,具体判断方法为:
扫描全部特征并记录特征值数据类型;
对非数值型特征值,定义占比不到5%的特征值为非典型的特征值,且占比越少即与典型特征值相差越大;
对数值型特征值,定义非典型的特征值为Z分数绝对值超过3且占比不到5%的特征值,Z分数绝对值越大与典型特征值相差越大。
异常值是分布尾部的数据点,因此远离数据的平均值,距离的远近取决于使用公式计算的归一化数据点,所述Z分数Zi=(xi-μ)/σ,式中,xi是一个数据点,μ是所有点xi的平均值,σ是所有点的xi标准偏差。
Z分数(z-score)也叫标准分数(standardscore),是一个数与平均数的差再除以标准差的过程。它是以标准差为尺子,去度量某一原始分数偏离平均数的距离,这段距离含有几个标准差Z,原始分数偏离平均数的距离就是多少,从而确定这一数据在全体数据中的位置,这一过程为标准化,转化的公式为
Figure 939389DEST_PATH_IMAGE004
,式中:X为原始数据,
Figure 753761DEST_PATH_IMAGE005
为平均数,S是标准差。
在统计学中,标准分数是一个观测或数据点的值高于被观测值或测量值的平均值的标准偏差的符号数。Z分数能够真实的反应一个分数距离平均数的相对标准距离。如果我们把每一个分数都转换成Z分数,那么每一个Z分数会以标准差为单位表示一个具体分数到平均数的距离或离差,将成正态分布的数据中的原始分数转换为Z分数,我们就可以通过查阅Z分数在正态曲线下面积的表格来得知平均数与Z分数之间的面积,进而得知原始分数在数据集合中的百分等级。一个数列的各Z分数的平方和等于该数列数据的个数,并且Z分数的标准差和方差都为1、平均数为0。
步骤4,对经过步骤3处理后的每一簇中的各特征,进行特征值的聚类分箱,得到特征的主要分布区间作为对应特征的特征值,并根据特征的主要分布区间进行簇标签构建;
所述步骤4中,进行特征值的聚类分箱,具体的,包括以下步骤:
扫描全部特征的特征值,并对每个特征值设置一个可调整参数n;
若特征值范围不超过n个值,则无需聚类,特征的主要分布区间为对应特征值;
若该特征为非数值型特征且其特征值取值范围超过了n个值,则在该特征所对应的簇中取该特征值所对应的特征数量最多的前h个特征聚类输出结果一类,得到特征的主要分布区间为对应的特征值,将簇中剩余特征合为一类,并标记这类特征的主要分布区间为“其他”;
即,利用一维聚类方法,把每一簇里面每个特征比较具有代表性的分布区间提取出来。具体例如,离散特征F有3个特征值a、b、c,然后离散特征F对应的簇中,特征值F=a的特征有100个, F=b的特征有80个,F=c的特征有30个样本,那么对于特征F,特征值F=a则是该簇中对应的特征数量最多的特征值,该簇的主要分布区间的特征值就是a。
若该特征为数值型特征且特征值取值范围超过了n个值,则采用一种聚类输出结果不超过4类的聚类方法对该特征所对应的簇进行聚类,并计算特征值极大极小值构成的主要分布区间;
所述聚类输出结果不超过4类的聚类方法可选如下三种,但不限于以下三种:
Kmeans:分别取K=1,K=2,K=3,K=4进行聚类,并计算对应Calinski-Harabasz值,取使Calinski-Harabasz值最大的K值及其对应聚类结果。聚类方法为:随机选取K个点作为初始的聚类中心,计算各点与聚类中心之间的距离(余弦相似度),将每个点分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一点,聚类的聚类中心会根据聚类中现有的对象被重新计算。重复以上过程直到没有点被重新分配给不同的簇。该方法实现简单,收敛速度快,且计算复杂度接近线性。同时具有较强的可解释性,聚类效果较优。
DBSCAN:检查数据集中每点的Eps邻域来搜索簇,在DBSCAN 中,Eps邻域是给定对象半径Eps内的邻域,最小包含点数(minPts),如果点p的Eps邻域包含的点多于MinPts个,MinPts是指最小包含点数,则创建一个以p为核心对象的簇。迭代地聚集从这些核心对象直接密度可达的对象,合并一些密度可达簇。当没有新的点添加到任何簇时,该过程结束。该方法可以设置阈值过滤噪声,能有效处理异常数据。
BIRCH层次聚类方法:使用样本点数量、各特征维度的和向量、各特征维度的平方和构成的三元组聚类特征CF来概括一个簇,使用聚类特征树(CF树)来表示聚类的层次结构,采用自底向上策略,首先将每个对象作为一个原子簇,然后合并这些原子簇形成更大的簇,减少簇的数目,直到所有的对象都在一个簇中。该方法将对点的聚类改为对簇的聚类,聚类速度快,占用内存小,只需要单遍扫描数据集就能进行聚类。可以识别噪音点。
所述步骤4中的簇标签构建,是将对应特征值的主要分布区间组成的字符串作为簇标签。
步骤5,使用数学期望算法对步骤4中的每一簇计算各个特征值对所述输出结果的影响;
所述数学期望算法,具体的,包括以下步骤:
将数据中包含的p个特征值(x1,x2,...,xp)构成特征组合S;
对每个未包含在特征组合S中的特征值进行积分迭代计算,得到机器学习模型机器学习的输出结果期望
Figure 638540DEST_PATH_IMAGE006
,以及期望平均影响;其中,中P为特征值出现 的概率,dP是对特征值出现的概率P求积分,期望平均影响EX中X是指所有特征的集合,满足 |X|=p,输出结果期望是在不考虑除特征组合S以外的其他特征的情况下,以特征组合S中的 特征值计算得到的期望值,例如,所有特征的集合X一共有四个特征,我们想评 估的是特征值和带来的影响,所以对应的S是特征集合就是{X1,X4},则输出结果期望
Figure 334095DEST_PATH_IMAGE011
即,对每个其他不适我们想评估特征值影响的特征{X1,X4}进行多次积分。
输出结果期望
Figure 71107DEST_PATH_IMAGE012
减去期望平均影响得到 特征组合S对输出结果的边际影响
Figure 86653DEST_PATH_IMAGE013
,其中边际影响valX中X同 样是指所有特征的集合,满足|X|=p;
考虑特征组合S对输出结果的边际影响,则第j个特征
Figure 328279DEST_PATH_IMAGE014
对输出结果的影响为
Figure 416451DEST_PATH_IMAGE015
,S是特征的组合,
Figure 59922DEST_PATH_IMAGE014
是不属于S的一个特征,(S U {xj})是对两者求并集,对应的加权因子为
Figure 395089DEST_PATH_IMAGE016
,其中,∣S∣表示特征组合S中元素的个数。
所以第j个特征
Figure 124010DEST_PATH_IMAGE017
j对输出结果的影响,是考虑所有特征组合S的输出结果的影响的加权平均值
Figure 265142DEST_PATH_IMAGE018
其中{x1,...,xp}\{
Figure 763119DEST_PATH_IMAGE017
j}表示集合
Figure 534766DEST_PATH_IMAGE019
去掉
Figure 295524DEST_PATH_IMAGE014
的子集,即
Figure 178030DEST_PATH_IMAGE014
是不属于S的一个特征,(S U {xj})是对两者求并集;该结果可由SHAP包的shap_values得到估计值。
步骤6,对分析结果进行可视化展示,比如根据分析结果绘制数据及输出结果的旭日图,具体的,旭日图圈层总数量等于数据中特征总数量加一,旭日图最内为第一圈层,其各扇环表示模型的输出结果,每个扇环代表一簇结果;依据步骤5中计算的各个特征值对所述输出结果的影响,按照各个特征值对所述输出结果的影响的大小、对步骤2中的层次聚类聚成的每一簇由大到小进行排序,并构建用于表示数据不同特征的第二圈层到最外圈层,根据步骤4的聚类分箱结果得到每一簇对应的小扇环并在扇环上标记对应的簇标签。
进一步的,所述步骤6中,扇环对应圆心角等于扇环对应样本数据数量占数据数量的比值乘以360度。
优选地,所述旭日图还具有以下特征:
最内为第一圈层,各扇环表示模型的输出结果,每个扇环代表一簇结果。
圈层总数量等于特征数量加一。
依步骤二计算的特征对输出结果的影响,按照各个特征值对所述输出结果的影响的大小、对步骤2中的层次聚类聚成的每一簇由大到小进行排序,并构建用于表示数据不同特征的第二圈层到最外圈层。
根据前面步骤的聚类结果对扇环自内到外划分为若干用于代表前面步骤得到的每一簇的小扇环,并在扇环上标记对应步骤四得到的簇标签,扇环对应圆心角等于扇环对应样本数据数量占数据数量的比值乘以360度。
第一圈层的各扇形颜色相同且颜色为全图最深。
每个扇环的颜色由该扇环对应特征取值值域占该特征取值值域的比重决定,比值越小,颜色越深。
颜色生成方法为:选定初始RGB值及需要颜色的个数,通过求得合适的最深颜色RGB值和对应的合理差值,等差改变RGB值,自动生成一组与初始颜色仅明度渐变其他参数不变的渐变色RGB值及十六进制六位编码,用来在相应扇形进行填充。
对应上述方法,本发明还提供一种基于聚类方法的机器学习有监督模型解释系统,其特征在于:包括机器学习模型单元、层次聚类处理模块、旭日图生成模块和显示单元;
所述机器学习模型单元中写入有训练好的、给定有监督的机器学习模型,用于将作为样本的、包括若干数值和非数值型特征的数据进行机器学习并将结果输入至所述层次聚类处理模块中;
所述层次聚类处理模块根据所述机器学习模型单元输入的机器学习结果,将作为样本的、包括若干数值和非数值型特征的数据中机器学习结果相同的数据进行层次聚类,层次聚类的类别数量取使Calinski-Harabasz值最大的结果,将输入的数据聚成若干个簇,且每个簇中均包含有若干样本,每个样本中均包含若干数值和非数值型特征,并按照剔除特征值个数不超过原始样本的30%的标准剔除每个数值和非数值型特征中与典型特征值相差最大的非典型特征值,用空值填补被剔除的特征值,然后将处理好的所有数值和非数值型特征输入至所述旭日图生成模块中;
所述旭日图生成模块对所述层次聚类处理模块处理好的所有数值和非数值型特征进行特征值的聚类分箱,得到特征的主要分布区间并作为对应特征的特征值,然后根据特征的主要分布区间对聚类分箱的聚类结果进行簇标签构建构成若干簇,并通过数学期望算法计算每一簇中各个特征值对机器学习的输出结果的影响,最后根据数据中特征总数量确定圈层数量、以聚类分箱的簇数确定扇环数量、以及每一簇中各个特征值对机器学习的输出结果的影响程度确定扇环顺序,从内至外构建带有标签的旭日图,并发送至显示单元进行显示。
具体的,所述旭日图生成模块构建带有标签的旭日图时,根据聚类分箱的结果将扇环自内到外划分为用于代表聚类分箱时得到的每一簇的小扇环,并在扇环上标记对应的簇标签,扇环对应圆心角等于扇环对应样本数据数量占数据数量的比值乘以360度。
优选地,所述旭日图第一圈层的各扇形颜色相同且颜色为全图最深,每个扇环的颜色由该扇环对应特征取值值域占该特征取值值域的比重决定,比值越小,颜色越深。
具体的,选定所述旭日图第一圈层的各扇形颜色初始RGB值,初始RGB值对应最深颜色,根据旭日图圈层和扇环的个数设定RGB值等差阈值,以初始RGB值为起始、以RGB值等差阈值为差值、自动依次对旭日图圈层和扇环顺序进行颜色填充。
另外,还包括一种计算设备,包括:一个或多个处理器、存储器,所述存储器存储指令,当所述指令被所述一个或多个处理器执行时,使得所述一个或多个处理器执行上述的方法。
以及,一种非暂时性机器可读存储介质,其存储有可执行指令,所述指令当被执行时使得所述机器执行上述的方法。
与现有技术相比,上述技术方案包括以下创新点及有益效果:
本发明采用与模型无关的解释方法,限制条件少,用途广泛,给定有监督机器学习模型,结合样本数据和模型评估结果就能对模型进行解释,还能指导模型的改进;用改进的旭日图展示可视化结果,进一步增强了该方法的解释性。克服了现有技术中,部分机器学习模型可解释性差、现有解释方法稳定性差、使用场景不广泛以及效果不直观的问题。
附图说明
本发明的前述和下文具体描述在结合以下附图阅读时变得更清楚,其中:
图1为本发明一种具体方案的流程示意图。
具体实施方式
下面通过几个具体的实施例来进一步说明实现本发明目的技术方案,需要说明的是,本发明要求保护的技术方案包括但不限于以下实施例。
作为本发明一种具体的实施方案,如图1,公开了一种机器学习有监督模型解释方法,具体的:
步骤一,将包括若干数值和非数值型特征的数据输入到训练好的、给定有监督的机器学习模型中,并得到机器学习的输出结果。
步骤二,对输出结果相同的数据进行层次聚类,类别数量取使Calinski-Harabasz值较大的结果。Calinski-Harabasz值可由公式计算得
Figure 530513DEST_PATH_IMAGE001
,其中m为训练集样本数,k为类别数,
Figure 473062DEST_PATH_IMAGE002
是样本类别之间的协方差矩阵,
Figure 973313DEST_PATH_IMAGE003
k是类别内部数据的方差矩阵,tr()表示矩阵的迹;Calinski-Harabasz值越大,就说明类别内部数据的协方差越小,类别之间的协方差越大,则聚类效果就越好。
所述层次聚类方法,具体的,将每个样本数据归为一类,共得n类,每类仅包含一个对象。类与类之间的距离就是它们所包含的对象之间的距离。将距离最近的两类进行合并,记录类别数量和Calinski-Harabasz值,并对剩余的每一类重新计算新的类与所有旧类之间的距离。重复上一步骤直至所有对象被合并为一类。该方法能对聚类效果进行评估,能选取合理的聚类类别数量。
步骤三,对上一步聚成的每一簇,对每个特征,剔除与典型特征值相差最大的非典型特征值,剔除特征值个数不超过原始样本的30%,并用空值填补。与典型特征值相差最大的非典型特征值确定方式如下:扫描全部特征并记录特征值数据类型,对非数值型特征值,非典型的特征值为占比不到5%的特征值,占比越少与典型特征值相差越大;对数值型特征值,非典型的特征值为Z分数绝对值超过3且占比不到5%的特征值,Z分数绝对值越大与典型特征值相差越大。
所述Z分数计算方法:异常值是分布尾部的数据点,因此远离数据的平均值。距离的远近取决于使用公式计算的归一化数据点Zi=(xi-μ)/σ。其中xi是一个数据点,μ是所有点xi的平均值,σ是所有点的xi标准偏差。
步骤四,对进行特征值的聚类分箱,得到特征的主要分布区间作为对应特征的特征值,并根据特征的主要分布区间进行簇标签构建,簇标签生成方法为,构建对应特征和特征值的主要分布区间组成的字符串。
以可调整参数为4时为例,若该特征值范围不超过4个值,则无需聚类,特征值的主要分布区间为对应特征取值。
若该特征为非数值型特征且特征值取值范围超过了4个值,则取前三个样本数量最多的特征值各为一类,特征值的主要分布区间为对应特征值,将样本数量较少的特征值取值合为一类,特征值的主要分布区间为“其他”。
若该特征为数值型特征且特征值取值范围超过了4个值,采用一种聚类输出结果不超过4类的聚类方法进行聚类,并计算特征值极大极小值构成的主要分布区间。
所述聚类输出结果不超过4类的聚类方法可选如下三种,但不限于以下三种:
Kmeans:分别取K=1,K=2,K=3,K=4进行聚类,并计算对应Calinski-Harabasz值,取使Calinski-Harabasz值最大的K值及其对应聚类结果。聚类方法为:随机选取K个点作为初始的聚类中心,计算各点与聚类中心之间的距离(余弦相似度),将每个点分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一点,聚类的聚类中心会根据聚类中现有的对象被重新计算。重复以上过程直到没有点被重新分配给不同的簇。该方法实现简单,收敛速度快,且计算复杂度接近线性。同时具有较强的可解释性,聚类效果较优。
DBSCAN:检查数据集中每点的Eps邻域来搜索簇,在DBSCAN 中,Eps邻域是给定对象半径Eps内的邻域,最小包含点数(minPts),如果点p的Eps邻域包含的点多于MinPts个,MinPts是指最小包含点数,则创建一个以p为核心对象的簇。迭代地聚集从这些核心对象直接密度可达的对象,合并一些密度可达簇。当没有新的点添加到任何簇时,该过程结束。该方法可以设置阈值过滤噪声,能有效处理异常数据。
BIRCH层次聚类方法:使用样本点数量、各特征维度的和向量、各特征维度的平方和构成的三元组聚类特征CF来概括一个簇,使用聚类特征树(CF树)来表示聚类的层次结构,采用自底向上策略,首先将每个对象作为一个原子簇,然后合并这些原子簇形成更大的簇,减少簇的数目,直到所有的对象都在一个簇中。该方法将对点的聚类改为对簇的聚类,聚类速度快,占用内存小,只需要单遍扫描数据集就能进行聚类。可以识别噪音点。
步骤五,对上一步确定的每一簇计算特征对输出结果的影响,计算方法为:对某样本数据p个特征值分别为(x1,x2,...,xp),定义特征组合S对在不考虑除特征组合S外的其他特征的情况下,模型输出结果的期望为
Figure 393930DEST_PATH_IMAGE021
,减去期望平均影响,得到特征组合S对输 出结果的边际影响
Figure 792999DEST_PATH_IMAGE023
,其中,中P 为特征值出现的概率,dP是对特征值出现的概率P求积分,期望平均影响EX和边际影响valX 中X是指所有特征的集合,满足|X|=p,输出结果期望是在不考虑除特征组合S外的其他特征 的情况下,以特征组合S中的特征值计算得到的期望值。考虑特征组合S的边际影响,第j个 特征j对输出结果的影响为,对应的加权因子为,∣S ∣表示特征组合S中元素的个数。所以特征对输出结果的影响为考虑所有特征组合的输 出结果的影响的加权平均值,
其中{x1,...,xp}\{
Figure 604277DEST_PATH_IMAGE017
j}表示集合
Figure 785860DEST_PATH_IMAGE019
去掉
Figure 975532DEST_PATH_IMAGE014
的子集。该结果可由SHAP包的shap_values得到估计值;
步骤六,根据分析结果绘制数据及输出结果的旭日图,所述旭日图具有以下特征:
该旭日图由数据、模型输出结果绘制。
最内为第一圈层,各扇环表示模型的输出结果,每个扇环代表一簇结果。
圈层总数量等于特征数量加一。
对每个步骤二层次聚类聚成的簇,依步骤五算出来的特征对输出结果的影响由大到小次序,构建表示数据不同特征的第二圈层到最外圈层。
根据前面步骤的聚类结果对扇环自内到外划分为若干用于代表前面步骤得到的每一簇的小扇环,并在扇环上标记对应第五步得到的簇标签,扇环对应圆心角等于扇环对应样本数据数量占数据数量的比值乘以360度。
第一圈层的各扇形颜色相同且颜色为全图最深。
每个扇环的颜色由该层级对应簇特征取值值域占该特征取值值域的比重决定,比值越小,颜色越深。
颜色生成方法为:选定初始RGB值及需要颜色的个数,通过求得合适的最深颜色RGB值和对应的合理差值,等差改变RGB值,自动生成一组与初始颜色仅明度渐变其他参数不变的渐变色RGB值及十六进制六位编码,用来在相应扇形进行填充。
在信贷领域中,信贷监管法规对于模型可解释性提出了越来越高的要求。基于机器学习的智能信贷风险评估系统,如果智能系统的决策过程是自动的,那么用户对决策过程享有知情权,即金融机构需为系统做出的决策提供解释依据。具备定量解释能力的智能信贷系统,不仅能获得较高准确性的预测结果,而且可以取得用户的信任,提升机器学习模型在信贷行业的应用的广度和深度。
以上述实施例的方法进行机器学习有监督模型的解释就能获得较高准确性的预测结果,具体的如下:
步骤1,设数据集一共有N个样本,每个样本包含数值(比如注册资本)和非数值型的特征(比如企业类型F1,F2,...,FM)。用训练好的有监督机器学习模型对每个样本进行预测,得到比如两类预测结果,预测为1的样本,以及预测为0的样本。
步骤2,为了实现对预测为1的样本进行解释,首先对预测为1的样本进行聚类,得到了比如三个聚类簇C1,C2和C3。
步骤3,每个聚类簇有一些样本的某些特征包括一些分布偏离较大的离群值,这些特征值可以剔除掉,比如特征F1绝大多数值都分布在[10,25],但同时有极少量的离群值样本分布[50,100),于是对离群值可以剔除。
步骤4,当每个聚类簇里每个特征的离群值都剔除掉之后,可以对每一个特征进行聚类分箱,得到每个特征的主要分布区间,比如特征FI的主要分布区间为[10,15]以及[20,25]。
步骤5,根据数学期望算法可以计算各个特征对所述输出结果的影响,比如发现特征FI比FJ的整体影响大。
步骤6,根据上一步计算出来的特征影响力大小排序结果,可以把旭日图画出来。

Claims (19)

1.一种机器学习有监督模型解释方法,其特征在于,包括以下步骤:
步骤1,将包括若干数值和非数值型特征的数据输入到训练好的、给定有监督的机器学习模型中,并得到机器学习的输出结果;
步骤2,对步骤1中得到的输出结果相同的数据进行层次聚类,将输入的数据聚成若干个簇,每个簇中包含有若干样本,样本中均包含若干数值和非数值型特征,层次聚类的类别数量,按照设定的类别内部数据的协方差要求、以及类别之间的协方差要求设置;
步骤3,将步骤2中层次聚类聚成的每一簇中的各特征,剔除与典型特征值相差最大的非典型特征值,且剔除特征值个数不超过设定数量,并用空值填补被剔除的特征值;
步骤4,对经过步骤3处理后的每一簇中的各特征,进行特征值的聚类分箱,得到特征的主要分布区间作为对应特征的特征值,并根据特征的主要分布区间进行簇标签构建;
步骤5,使用数学期望算法对步骤4中的每一簇计算各个特征值对所述输出结果的影响;
步骤6,对分析结果进行可视化展示。
2.如权利要求1所述的一种机器学习有监督模型解释方法,其特征在于:所述步骤2中,层次聚类的类别数量取使Calinski-Harabasz值最大的结果。
3.如权利要求1所述的一种机器学习有监督模型解释方法,其特征在于,所述步骤2中,进行层次聚类具体包括以下步骤:
首先,将数据中的每个样本归为一类,共得到n类,且每一类中仅包含一个样本,类与类之间的距离就是它们所包含的样本之间的距离;
然后,将距离最近的两个类进行合并成为一个新的类,记录类别数量和对应的Calinski-Harabasz值,并重新计算新的类与剩余的每一类之间的距离;
重复上述步骤直至所有的类被合并为一类。
4.如权利要求3所述的一种机器学习有监督模型解释方法,其特征在于,步骤2中,所述Calinski-Harabasz值为s(k),
Figure 330784DEST_PATH_IMAGE001
,其中m为训练集样本数,k为类别数,
Figure 709944DEST_PATH_IMAGE002
是样本类别之间的协方差矩阵,
Figure 11613DEST_PATH_IMAGE003
k是类别内部数据的方差矩阵,tr()表示矩阵的迹。
5.如权利要求1所述的一种机器学习有监督模型解释方法,其特征在于:所述步骤3中,剔除特征值个数不超过设定数量,设定数量为剔除特征值个数不超过原始样本的30%。
6.如权利要求1所述的一种机器学习有监督模型解释方法,其特征在于,所述步骤3中,剔除与典型特征值相差最大的非典型特征值,具体判断方法为:
扫描全部特征并记录特征值数据类型;
对非数值型特征值,定义占比不到5%的特征值为非典型的特征值,且占比越少即与典型特征值相差越大;
对数值型特征值,定义非典型的特征值为Z分数绝对值超过3且占比不到5%的特征值,Z分数绝对值越大与典型特征值相差越大。
7.如权利要求6所述的一种机器学习有监督模型解释方法,其特征在于:所述Z分数Zi=(xi-μ)/σ,式中,xi是一个数据点,μ是所有点xi的平均值,σ是所有点的xi标准偏差。
8.如权利要求1所述的一种机器学习有监督模型解释方法,其特征在于,所述步骤4中,进行特征值的聚类分箱,具体的,包括以下步骤:
扫描全部特征的特征值,并对每个特征值设置一个可调整参数n;
若特征值范围不超过n个值,则无需聚类,特征的主要分布区间为对应特征值;
若该特征为非数值型特征且其特征值取值范围超过了n个值,则在该特征所对应的簇中取该特征值所对应的特征数量最多的前h个特征聚类输出结果一类,得到特征的主要分布区间为对应的特征值,将簇中剩余特征合为一类,并标记这类特征的主要分布区间为“其他”;
若该特征为数值型特征且特征值取值范围超过了n个值,则采用聚类输出结果不超过4类的聚类方法对该特征所对应的簇进行聚类,并计算特征值极大极小值构成的主要分布区间。
9.如权利要求8所述的一种机器学习有监督模型解释方法,其特征在于:所述聚类输出结果不超过4类的聚类方法为Kmeans聚类、DBSCAN聚类或者BIRCH层次聚类中的一种。
10.如权利要求1所述的一种机器学习有监督模型解释方法,其特征在于:所述步骤4中的簇标签构建,是将对应特征值的主要分布区间组成的字符串作为簇标签。
11.如权利要求1所述的一种机器学习有监督模型解释方法,其特征在于,所述步骤5中,数学期望算法,具体的,包括以下步骤:
将数据中包含的p个特征值(x1,x2,...,xp)构成特征组合S;
对每个未包含在特征组合S中的特征值进行积分迭代计算,得到机器学习模型机器学 习的输出结果期望
Figure 434504DEST_PATH_IMAGE005
,以及期望平均影响;其中,中P 为特征值出现的概率,dP是对特征值出现的概率P求积分,期望平均影响EX中X是指所有特 征的集合,满足|X|=p,输出结果期望是在不考虑除特征组合S外的其他特征的情况下,以特 征组合S中的特征值计算得到的期望值;
输出结果期望
Figure 1544DEST_PATH_IMAGE007
减去期望平均影响得到特征 组合S对输出结果的边际影响
Figure 689194DEST_PATH_IMAGE009
,其中边际影响valX中X同 样是指所有特征的集合,满足|X|=p;
考虑特征组合S对输出结果的边际影响,则第j个特征
Figure 298030DEST_PATH_IMAGE010
对输出结果的影响为
Figure 533839DEST_PATH_IMAGE011
,对应的加权因子为
Figure 544521DEST_PATH_IMAGE012
,其中,∣S∣表示特征组合S中元素的个数。
12.如权利要求11所述的一种机器学习有监督模型解释方法,其特征在于:所以第j个特征
Figure 512477DEST_PATH_IMAGE013
j对输出结果的影响,是考虑所有特征组合S的输出结果的影响的加权平均值
Figure DEST_PATH_IMAGE014
其中{x1,...,xp}\{
Figure 421658DEST_PATH_IMAGE013
j}表示集合
Figure DEST_PATH_IMAGE015
去掉
Figure 195579DEST_PATH_IMAGE010
的子集,即
Figure DEST_PATH_IMAGE016
是不属于S的一个特征,(S U {xj})是对两者求并集。
13.如权利要求1所述的一种机器学习有监督模型解释方法,其特征在于:所述步骤6中,对分析结果进行可视化展示是通过绘制数据及输出结果的旭日图,具体的,旭日图圈层总数量等于数据中特征总数量加一,旭日图最内为第一圈层,其各扇环表示模型的输出结果,每个扇环代表一簇结果;依据步骤5中计算的各个特征值对所述输出结果的影响,按照各个特征值对所述输出结果的影响的大小、对步骤2中的层次聚类聚成的每一簇由大到小进行排序,并构建用于表示数据不同特征的第二圈层到最外圈层,根据步骤4的聚类分箱结果得到每一簇对应的小扇环并在扇环上标记对应的簇标签。
14.一种机器学习有监督模型解释系统,其特征在于:包括机器学习模型单元、层次聚类处理模块、旭日图生成模块和显示单元;
所述机器学习模型单元中写入有训练好的、给定有监督的机器学习模型,用于将作为样本的、包括若干数值和非数值型特征的数据进行机器学习并将结果输入至所述层次聚类处理模块中;
所述层次聚类处理模块根据所述机器学习模型单元输入的机器学习结果,将作为样本的、包括若干数值和非数值型特征的数据中机器学习结果相同的数据进行层次聚类,层次聚类的类别数量取使Calinski-Harabasz值最大的结果,将输入的数据聚成若干个簇,且每个簇中均包含有若干样本,每个样本中均包含若干数值和非数值型特征,并按照剔除特征值个数不超过原始样本的30%的标准剔除每个数值和非数值型特征中与典型特征值相差最大的非典型特征值,用空值填补被剔除的特征值,然后将处理好的所有数值和非数值型特征输入至所述旭日图生成模块中;
所述旭日图生成模块对所述层次聚类处理模块处理好的所有数值和非数值型特征进行特征值的聚类分箱,得到特征的主要分布区间并作为对应特征的特征值,然后根据特征的主要分布区间对聚类分箱的聚类结果进行簇标签构建构成若干簇,并通过数学期望算法计算每一簇中各个特征值对机器学习的输出结果的影响,最后根据数据中特征总数量确定圈层数量、以聚类分箱的簇数确定扇环数量、以及每一簇中各个特征值对机器学习的输出结果的影响程度确定扇环顺序,从内至外构建带有标签的旭日图,并发送至显示单元进行显示。
15.如权利要求14所述的一种机器学习有监督模型解释系统,其特征在于:所述旭日图生成模块构建带有标签的旭日图时,根据聚类分箱的结果将扇环自内到外划分为若干用于代表聚类分箱时得到的每一簇的小扇环,并在扇环上标记对应的簇标签,扇环对应圆心角等于扇环对应样本数据数量占数据数量的比值乘以360度。
16.如权利要求15所述的一种机器学习有监督模型解释系统,其特征在于:所述旭日图第一圈层的各扇形颜色相同且颜色为全图最深,每个扇环的颜色由该扇环对应特征取值值域占该特征取值值域的比重决定,比值越小,颜色越深。
17.如权利要求15所述的一种机器学习有监督模型解释系统,其特征在于:选定所述旭日图第一圈层的各扇形颜色初始RGB值,初始RGB值对应最深颜色,根据旭日图圈层和扇环的个数设定RGB值等差阈值,以初始RGB值为起始、以RGB值等差阈值为差值、自动依次对旭日图圈层和扇环顺序进行颜色填充。
18.一种计算设备,包括:一个或多个处理器、存储器,所述存储器存储指令,其特征在于:当所述指令被所述一个或多个处理器执行时,使得所述一个或多个处理器执行如权利要求1到13中任一所述的方法。
19.一种非暂时性机器可读存储介质,其存储有可执行指令,其特征在于:所述指令当被执行时使得所述机器执行如权利要求1到13中任一所述的方法。
CN202011305758.8A 2020-11-20 2020-11-20 一种机器学习有监督模型解释方法、系统及设备 Active CN112101574B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011305758.8A CN112101574B (zh) 2020-11-20 2020-11-20 一种机器学习有监督模型解释方法、系统及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011305758.8A CN112101574B (zh) 2020-11-20 2020-11-20 一种机器学习有监督模型解释方法、系统及设备

Publications (2)

Publication Number Publication Date
CN112101574A true CN112101574A (zh) 2020-12-18
CN112101574B CN112101574B (zh) 2021-03-02

Family

ID=73785297

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011305758.8A Active CN112101574B (zh) 2020-11-20 2020-11-20 一种机器学习有监督模型解释方法、系统及设备

Country Status (1)

Country Link
CN (1) CN112101574B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112508202A (zh) * 2021-02-07 2021-03-16 北京淇瑀信息科技有限公司 一种调整模型稳定性的方法、装置及电子设备
CN112950295A (zh) * 2021-04-21 2021-06-11 北京大米科技有限公司 用户数据挖掘的方法、装置、可读存储介质和电子设备
CN115130619A (zh) * 2022-08-04 2022-09-30 中建电子商务有限责任公司 一种基于聚类选择集成的风险控制方法

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101859324A (zh) * 2010-06-03 2010-10-13 大连理工大学 对聚类分析结果进行可视化的方法
CN107463996A (zh) * 2017-06-05 2017-12-12 西安交通大学 自步‑协同训练学习方法
CN107766933A (zh) * 2017-10-24 2018-03-06 天津大学 一种解释卷积神经网络的可视化方法
CN108090032A (zh) * 2018-01-03 2018-05-29 第四范式(北京)技术有限公司 逻辑回归模型的可视化解释方法及装置
US20180158552A1 (en) * 2016-12-01 2018-06-07 University Of Southern California Interpretable deep learning framework for mining and predictive modeling of health care data
CN108960514A (zh) * 2016-04-27 2018-12-07 第四范式(北京)技术有限公司 展示预测模型的方法、装置及调整预测模型的方法、装置
CN108960434A (zh) * 2018-06-28 2018-12-07 第四范式(北京)技术有限公司 基于机器学习模型解释来分析数据的方法及装置
WO2019222289A1 (en) * 2018-05-14 2019-11-21 Tempus Labs, Inc. A generalizable and interpretable deep learning framework for predicting msi from histopathology slide images
US20200013513A1 (en) * 2018-07-09 2020-01-09 Chang Gung Memorial Hospital, Linkou Method for Establishing Computer-Aided Data Interpretation Model for Immune Diseases by Immunomarkers and Visualization
CN111027599A (zh) * 2019-11-25 2020-04-17 中国建设银行股份有限公司 基于随机抽样的聚类可视化方法及装置
CN111126419A (zh) * 2018-10-30 2020-05-08 顺丰科技有限公司 网点聚类方法及装置
CN111126461A (zh) * 2019-12-12 2020-05-08 山西云海智化大数据科技有限公司 基于机器学习模型解释的智慧审计方法
CN111539465A (zh) * 2020-04-16 2020-08-14 华北电力大学 一种基于机器学习的物联网非结构化大数据分析算法
CN111612077A (zh) * 2020-05-22 2020-09-01 深圳前海微众银行股份有限公司 特征重要性可视化方法、设备及可读存储介质
CN111832707A (zh) * 2020-07-17 2020-10-27 平安科技(深圳)有限公司 深度神经网络的解释方法、装置、终端及存储介质

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101859324A (zh) * 2010-06-03 2010-10-13 大连理工大学 对聚类分析结果进行可视化的方法
CN108960514A (zh) * 2016-04-27 2018-12-07 第四范式(北京)技术有限公司 展示预测模型的方法、装置及调整预测模型的方法、装置
US20180158552A1 (en) * 2016-12-01 2018-06-07 University Of Southern California Interpretable deep learning framework for mining and predictive modeling of health care data
CN107463996A (zh) * 2017-06-05 2017-12-12 西安交通大学 自步‑协同训练学习方法
CN107766933A (zh) * 2017-10-24 2018-03-06 天津大学 一种解释卷积神经网络的可视化方法
CN108090032A (zh) * 2018-01-03 2018-05-29 第四范式(北京)技术有限公司 逻辑回归模型的可视化解释方法及装置
WO2019222289A1 (en) * 2018-05-14 2019-11-21 Tempus Labs, Inc. A generalizable and interpretable deep learning framework for predicting msi from histopathology slide images
CN108960434A (zh) * 2018-06-28 2018-12-07 第四范式(北京)技术有限公司 基于机器学习模型解释来分析数据的方法及装置
US20200013513A1 (en) * 2018-07-09 2020-01-09 Chang Gung Memorial Hospital, Linkou Method for Establishing Computer-Aided Data Interpretation Model for Immune Diseases by Immunomarkers and Visualization
CN111126419A (zh) * 2018-10-30 2020-05-08 顺丰科技有限公司 网点聚类方法及装置
CN111027599A (zh) * 2019-11-25 2020-04-17 中国建设银行股份有限公司 基于随机抽样的聚类可视化方法及装置
CN111126461A (zh) * 2019-12-12 2020-05-08 山西云海智化大数据科技有限公司 基于机器学习模型解释的智慧审计方法
CN111539465A (zh) * 2020-04-16 2020-08-14 华北电力大学 一种基于机器学习的物联网非结构化大数据分析算法
CN111612077A (zh) * 2020-05-22 2020-09-01 深圳前海微众银行股份有限公司 特征重要性可视化方法、设备及可读存储介质
CN111832707A (zh) * 2020-07-17 2020-10-27 平安科技(深圳)有限公司 深度神经网络的解释方法、装置、终端及存储介质

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
SATOSHI TAKAHASHI等: "Predicting Deep Learning Based Multi-Omics Parallel Integration Survival Subtypes in Lung Cancer Using Reverse Phase Protein Array Data", 《BIOMOLECULES》 *
成科扬等: "深度学习可解释性研究进展", 《计算机研究与发展》 *
易小群等: "面向评论文本数据的旭日图可视化", 《计算机科学》 *
用药: "机器学习建模工具PyCaret详讲", 《HTTPS://BLOG.CSDN.NET/QQ_43627540/ARTICLE/DETAILS/107667298》 *
纪守领等: "机器学习模型可解释性方法 、应用 与安全研究综述", 《计算机研究与发展》 *
贾桂霞等: "基于Python的聚类方法在电商客户细分中的应用研究", 《兰州文理学院学报(自然科学版)》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112508202A (zh) * 2021-02-07 2021-03-16 北京淇瑀信息科技有限公司 一种调整模型稳定性的方法、装置及电子设备
CN112950295A (zh) * 2021-04-21 2021-06-11 北京大米科技有限公司 用户数据挖掘的方法、装置、可读存储介质和电子设备
CN112950295B (zh) * 2021-04-21 2024-03-19 北京大米科技有限公司 用户数据挖掘的方法、装置、可读存储介质和电子设备
CN115130619A (zh) * 2022-08-04 2022-09-30 中建电子商务有限责任公司 一种基于聚类选择集成的风险控制方法

Also Published As

Publication number Publication date
CN112101574B (zh) 2021-03-02

Similar Documents

Publication Publication Date Title
CN112101574B (zh) 一种机器学习有监督模型解释方法、系统及设备
Sacha et al. Somflow: Guided exploratory cluster analysis with self-organizing maps and analytic provenance
Vesanto Data exploration process based on the self-organizing map
US20090276391A1 (en) Creation of neuro-fuzzy expert system from online analytical processing (olap) tools
CN111222847B (zh) 基于深度学习与非监督聚类的开源社区开发者推荐方法
CN112835570A (zh) 一种基于机器学习的可视化数学建模方法和系统
Wang et al. Improving the robustness of scagnostics
Blanquero et al. On sparse optimal regression trees
Huang et al. Adjectives grouping in a dimensionality affective clustering model for fuzzy perceptual evaluation
Qian et al. Application of data mining technology and wireless network sensing technology in sports training index analysis
CN113408616B (zh) 基于pca-uve-elm的光谱分类方法
Mengíbar-Rodríguez et al. An image-based approach for building fuzzy color spaces
CN113538058B (zh) 一种面向网络购物平台的多层次用户画像可视化方法
CN112215366B (zh) 基于结果画像的模型解释方法、系统、计算及存储设备
Trianasari et al. Analysis Of Product Recommendation Models at Each Fixed Broadband Sales Location Using K-Means, DBSCAN, Hierarchical Clustering, SVM, RF, and ANN
Mazza-Anthony et al. Learning Gaussian Graphical Models With Ordered Weighted $\ell _1 $ Regularization
WO1992017853A2 (en) Direct data base analysis, forecasting and diagnosis method
Minowa Verification for generalizability and accuracy of a thinning-trees selection model with the ensemble learning algorithm and the cross-validation method
Gao et al. GBDT4CTRVis: visual analytics of gradient boosting decision tree for advertisement click-through rate prediction
Karoussi Data mining K-clustering problem
Dikopoulou et al. Data Modeling
CN118520404B (zh) 企业业务数据挖掘方法、装置、设备及存储介质
Alipourfard et al. DoGR: Disaggregated Gaussian Regression for Reproducible Analysis of Heterogeneous Data
Su Optimization of K-means Algorithm with Computer Programming for Feature Extraction
Wilkins Application of Convolutional Neural Network In LAWN Measurement

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20231225

Address after: Room 802, 8th Floor, Unit 1, Building 2, No. 188 Jirui Second Road, High tech Zone, Chengdu, Sichuan Province, 610000

Patentee after: Shansikaiwu Technology (Chengdu) Co.,Ltd.

Address before: No.1, floor 1, building 9, no.966, north section of Tianfu Avenue, Chengdu high tech Zone, China (Sichuan) pilot Free Trade Zone, Wuhou District, Chengdu, Sichuan 610000

Patentee before: CHENGDU BUSINESS BIG DATA TECHNOLOGY Co.,Ltd.