CN116738261A - 基于聚类分箱的数值型特征离散化归因分析方法及装置 - Google Patents

基于聚类分箱的数值型特征离散化归因分析方法及装置 Download PDF

Info

Publication number
CN116738261A
CN116738261A CN202310498218.3A CN202310498218A CN116738261A CN 116738261 A CN116738261 A CN 116738261A CN 202310498218 A CN202310498218 A CN 202310498218A CN 116738261 A CN116738261 A CN 116738261A
Authority
CN
China
Prior art keywords
interval
value
clustering
intervals
contribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310498218.3A
Other languages
English (en)
Inventor
田馥玮
邵家伟
张亚东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yuannian Technology Co ltd
Original Assignee
Beijing Yuannian Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yuannian Technology Co ltd filed Critical Beijing Yuannian Technology Co ltd
Priority to CN202310498218.3A priority Critical patent/CN116738261A/zh
Publication of CN116738261A publication Critical patent/CN116738261A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features

Abstract

本申请提供一种基于聚类分箱的数值型特征分析方法、装置、电子设备及计算机可读存储介质,该方法包括:获取数据样本;计算数据样本中每个特征值的第一贡献值;根据每个特征值及对应的第一贡献值,得到数组集合;将数组集合进行聚类,得到多个第一区间;将存在重叠部分的第一区间进行分箱处理,得到多个第二区间;基于第二区间以及不存在重叠部分的第一区间,得到数据样本对应的目标区间及每个目标区间对应的第二贡献值。本申请能够准确地确定贡献度指标,从而准确地确定数据的影响度。

Description

基于聚类分箱的数值型特征离散化归因分析方法及装置
技术领域
本申请涉及数据处理领域,尤其涉及一种基于聚类分箱的数值型特征离散化归因分析方法、装置、电子设备及计算机可读存储介质。
背景技术
在机器学习领域中,我们通常计算SHAP值来解释特征对预测目标的贡献度。对于类别型特征,我们可以统计单一特征下不同取值的SHAP值来解释每个类别的重要程度。除此之外,我们还可以非常便捷地通过画柱状图等方式展示他们重要性的差异。然而,对于数值型特征,由于他们连续性强,我们通常只能利用画散点图的方式来认知他们的贡献度随取值的变化规律。
为了对数值型特征进行判断,早期技术中,提供了一种等距分箱的方法,其具体实现方式为:根据肉眼观察得出比较合适的划分区间的数量,然后按相等的距离划分区间。例如:某个数值型特征的取值范围为[0,100]。我们通过观察发现该特征的SHAP值大体上呈周期性变化且有5个周期,于是我们可以把整个取值范围划分为[0,20]、[20,40]、[40,60]、[60,80]、[80,100]五个区间。
这样做有两个缺陷:1.当特征的特性变化不明显时,用肉眼观察十分不可靠,很难找到一个精确的、合理的数量;2.如果特征的特性并不是按周期性变化,则这种方法可能会把具有相似贡献特性的区间分割成两个或多个区间,这是不合理的。
如图1所示,为了解决等距分箱的缺点,现有技术中,提供了一种等频分箱的方法,其具体实现方式为:通过观察选择一个合适的区间数量,然后按照每个区间中数值出现的频率尽可能相等的原则划分取值区间。例如:某个数值型特征的采样数据为(0,0)、(1,0.1)、(2,0.2)、(3,0.9)、(5,1.0)、(10,1.1),其中括号里的元素表示“(特征值,SHAP值)”。我们通过观察发现把该特征的取值范围等频分割为两个区间能够很好地区分SHAP值,于是可以把它划分为[0,2.5]、[2.5,10]这两个区间(频率为每个区间出现3次)。
但是,如果采样数据大量聚集在某个范围内,这种做法会把该范围划分成非常细的多个区间,但很有可能这些区间实际上具有高度相似的贡献特性。
因此,如何准确地确定区间的贡献特性是本领域技术人员亟需解决的技术问题。
发明内容
本申请提供一种基于聚类分箱的数值型特征分析方法、装置、电子设备及计算机可读存储介质,能够准确地确定贡献度指标,从而准确地确定数据的影响度。
根据本申请的第一方面,提供一种基于聚类分箱的数值型特征分析方法,该方法包括:
获取数据样本;
计算数据样本中每个特征值的第一贡献值;
根据每个特征值及对应的第一贡献值,得到数组集合;
将数组集合进行聚类,得到多个第一区间;
将存在重叠部分的第一区间进行分箱处理,得到多个第二区间;
基于第二区间以及不存在重叠部分的第一区间,得到数据样本对应的目标区间及每个目标区间对应的第二贡献值。
可选的,将数组集合进行聚类,得到多个第一区间,包括:
将数组集合中的两个数组之间的距离处于预设距离的比对维度进行聚类,得到多个第一区间。
可选的,将存在重叠部分的第一区间进行分箱处理,得到多个第二区间,包括:
对存在重叠部分的任意两个第一区间来说,在其中一个第一区间包含另一个第一区间的部分时,确定分界点;
基于分界点将两个第一区间进行划分,得到第二区间;
遍历所有存在重叠部分的第一区间,得到所有的第二区间。
可选的,对存在重叠部分的任意两个第一区间来说,在其中一个第一区间包含另一个第一区间的部分时,确定分界点,包括:
基于两个第一区间的相对位置,选取左侧第一区间中的最大特征值和右侧第一区间中的最小特征值;
根据最大特征值以及最小特征值,得到临界点。
可选的,将存在重叠部分的第一区间进行分箱处理,得到多个第二区间,还包括:
对存在重叠部分的任意两个第一区间来说,在其中一个第一区间包含另一个第一区间的全部时,将被包含的另一个第一区间舍掉,其中一个第一区间即为一个第二区间。
可选的,根据每个特征值及对应的第一贡献值,得到数组集合,包括:
将每个特征值及对应的第一贡献值进行标准化处理,得到标准化后的特征值及第一贡献值;
将标准化后的每个特征值及对应的第一贡献值确定为数组集合中的一个数组,得到数组集合;
方法还包括:对目标区间以及对应的第二贡献值进行还原处理。
可选的,基于第二区间以及不存在重叠部分的第一区间,得到数据样本对应的目标区间及每个目标区间对应的第二贡献值,包括:
基于第二区间以及不存在重叠部分的第一区间中的特征值,得到数据样本对应的目标区间;
基于目标区间中的所有特征值的第一贡献值的均值,确定每个目标区间对应的第二贡献值。
根据本申请的第二方面,提供一种基于聚类分箱的数值型特征离散化归因分析装置,装置包括:
获取模块,用于获取数据样本;
计算模块,用于计算数据样本中每个特征值的第一贡献值;
第一组合模块,用于根据每个特征值及对应的第一贡献值,得到数组集合;
聚类模块,用于将数组集合进行聚类,得到多个第一区间;
处理模块,用于将存在重叠部分的第一区间进行分箱处理,得到多个第二区间;
第二组合模块,用于基于第二区间以及不存在重叠部分的第一区间,得到数据样本对应的目标区间及每个目标区间对应的第二贡献值。
可选的,聚类模块,用于将数组集合中的两个数组之间的距离处于预设距离的比对维度进行聚类,得到多个第一区间。
可选的,处理模块包括:第一确定单元,用于对存在重叠部分的任意两个第一区间来说,在其中一个第一区间包含另一个第一区间的部分时,确定分界点;划分单元,用于基于分界点将两个第一区间进行划分,得到第二区间;遍历单元,用于遍历所有存在重叠部分的第一区间,得到所有的第二区间。
可选的,第一确定单元,用于基于两个第一区间的相对位置,选取左侧第一区间中的最大特征值和右侧第一区间中的最小特征值;根据最大特征值以及最小特征值,得到临界点。
可选的,处理模块,还用于对存在重叠部分的任意两个第一区间来说,在其中一个第一区间包含另一个第一区间的全部时,将被包含的另一个第一区间舍掉,其中一个第一区间即为一个第二区间。
可选的,第一组合模块包括:标准化处理单元,用于将每个特征值及对应的第一贡献值进行标准化处理,得到标准化后的特征值及第一贡献值;第二确定单元,用于将标准化后的每个特征值及对应的第一贡献值确定为数组集合中的一个数组,得到数组集合;其中,装置还包括:还原处理模块,用于方法还包括:对目标区间以及对应的第二贡献值进行还原处理。
可选的,第二组合模块,用于基于第二区间以及不存在重叠部分的第一区间中的特征值,得到数据样本对应的目标区间;
基于目标区间中的所有特征值的第一贡献值的均值,确定每个目标区间对应的第二贡献值。
根据本申请的第三方面,提供一种电子设备,电子设备包括:处理器以及存储有计算机程序指令的存储器;处理器执行计算机程序指令时实现上述第一方面的任一种基于聚类分箱的数值型特征离散化归因分析方法。
根据本申请的第四方面,提供一种计算机可读存储介质,其特征在于,计算机可读存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现上述第一方面的任一种基于聚类分箱的数值型特征离散化归因分析方法。
综上,本申请提供的基于聚类分箱的数值型特征离散化归因分析方法、装置、电子设备及计算机可读存储介质至少具有以下有益效果:
本申请的基于聚类分箱的数值型特征离散化归因分析方法包括:获取数据样本;计算数据样本中每个特征值的第一贡献值;根据每个特征值及对应的第一贡献值,得到数组集合;将数组集合进行聚类,得到多个第一区间;将存在重叠部分的第一区间进行分箱处理,得到多个第二区间;基于第二区间以及不存在重叠部分的第一区间,得到数据样本对应的目标区间及每个目标区间对应的第二贡献值。本申请对数据集合通过先聚类再分箱的方式,能够准确地确定贡献值,从而准确地确定数据的影响度。
附图说明
为了更清楚地说明本申请具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施方式,对于本领域的技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为现有技术提供的一种基于聚类分箱的数值型特征分析方法中数组集合聚类的示意图;
图2为本申请的实施例提供的一种基于聚类分箱的数值型特征分析方法的流程图;
图3为本申请的实施例提供的一种基于聚类分箱的数值型特征分析方法中数组集合聚类的示意图;
图4为本申请的实施例提供的另一种基于聚类分箱的数值型特征分析方法中数组集合聚类的示意图;
图5为本申请的实施例提供的一种基于聚类分箱的数值型特征分析方法中数据集合分箱的流程图;
图6为本申请的实施例提供的一种基于聚类分箱的数值型特征分析装置的结构图;
图7为本申请的实施例提供的一种电子设备的结构图。
具体实施方式
为了使本申请的上述以及其他特征和优点更加清楚,下面结合附图进一步描述本申请。应当理解,本文给出的具体实施例是出于向本领域的技术人员解释的目的,仅是示例性的,而非限制性的。
在以下描述中,阐述了许多具体细节以提供对本申请的透彻理解。然而,对于本领域的技术人员来说,明显的是,不需要采用具体细节来实践本申请。在其他情况下,未详细描述众所周知的步骤或操作,以避免模糊本申请。
本申请实施例提供的基于聚类分箱的数值型特征分析方法,可由本申请实施例提供的基于聚类分箱的数值型特征分析装置执行,该装置可配置于电子设备中。
参考图2,本申请提供了一种基于聚类分箱的数值型特征分析方法,该方法包括:
步骤S11,获取数据样本。
具体的,在本申请中,可以由中央处理器(Central Processing Unit,CPU)作为本申请的执行主体,中央处理器可以和数据库建立通信关系,其中,中央处理器可以向数据库中获取数据样本。
在一个可选的实施例中,步骤S11可以包括:
获取原始数据。
利用原始数据对神经网络模型进行训练,得到训练好的神经网络模型。
基于训练好的神经网络模型,生成预测数据,预测数据与原始数据作为数据样本。
在本实施例中,原始数据可以来自于数据库,在获取到原始数据后,根据已经得到的原始数据对神经网络进行训练,得到训练好的神经网络模型,然后根据神经网络模型预测未来的预测数据,其中,可以预测未来一个时间段中的预测数据。其中,预测数据和原始数据组成了数据样本。本申请将原始数据以及预测数据均划分为数据样本的方式,能够有效地确定数据样本的影响程度。
步骤S12,计算数据样本中每个特征值的第一贡献值。
具体的,在本申请中,在获取到数据样本之后,需要计算数据样本中每个特征值的第一贡献值。需要说明的是,数据样本能够以矩阵的方式存在,也即将数据样本中的数据通过矩阵的方式进行排列,其中,第一贡献值与特征值一一对应。
比如:数据样本中对应人名的特征为年龄,也即A:10岁、B:12岁、C:15岁等;那么特征值为10、12、15。其中,A、B、C为人名。
可选的,在本文中贡献值可以为夏普利值。
步骤S13,根据每个特征值及对应的第一贡献值,得到数组集合。
具体的,在本申请中,结合图2所示,通过上述步骤S11、步骤S12分别获取到的第一贡献值以及特征值,能够得到数组集合。需要说明的是,数组集合可以包括多个坐标点,也即(特征值,第一贡献值)的方式存在于坐标系中。
步骤S14,将数组集合进行聚类,得到多个第一区间。
步骤S15,将存在重叠部分的第一区间进行分箱处理,得到多个第二区间。
具体的,在本申请中,结合图3所示,在得到多个数组集合之后,对多个数组集合进行聚类,得到多个第一区间。比如:第一区间为年龄(即图3中的age)【18.0,23.0】,再得到第一区间之后,将存在重叠部分的第一区间进行分箱处理,得到多个第二区间。
比如:
现有技术中先对特征值聚类,再计算每个簇的贡献值期望,所得到的效果。然而,如果只针对特征值聚类再分箱,无法区分拥有不同重要性的特征值区间,只能把特征值密度较大的几个区间区分开。因此,本申请进行聚类分箱的方式,能够对不同特征值区间按照其重要程度进行分箱。
步骤S16,基于第二区间以及不存在重叠部分的第一区间,得到数据样本对应的目标区间及每个目标区间对应的第二贡献值。
具体的,在本申请中,在上述不存在重叠部分的第一区间无需进行聚类处理,只需要将第二区间和不存在重叠部分的第一区间进行整合,然后得到数据样本对应的目标区间及每个目标区间对应的第二贡献值,从而有效地确定数据的影响程度。
本申请对数据集合通过先聚类再分箱的方式,能够准确地确定数据的贡献值,从而准确地确定数据的影响度。解决了现有技术中,传统分箱方法把具有相似贡献的取值划分到不同区间或把明显具有不同贡献的特征值强行划分到同一个区间的技术问题。
在一个可选的实施例中,步骤S14中将数组集合进行聚类,得到多个第一区间可以包括:
将数组集合中的两个数组之间的距离处于预设距离的数组进行聚类,得到多个第一区间。
在本实施例中,通过上述内容可知,数组可以为一个坐标点,数组集合可以为多个坐标点的集合,每一个坐标点具有一定的距离,即X向和Y向的距离。
比对方式具有多种情况,其一:可以对两个坐标点中的X向距离进行比较,将X向距离处于预设距离的数组进行聚类;其二:可以对两个坐标点中的Y向距离进行比较,将Y向距离处于预设距离的数组进行聚类;其三:可以对两个坐标点的连线距离进行比较,将连线距离处于预设距离的数组进行聚类。
在一个可选的实施例中,步骤S15中将存在重叠部分的第一区间进行分箱处理,得到多个第二区间,可以包括:
对存在重叠部分的任意两个第一区间来说,在其中一个第一区间包含另一个第一区间的部分时,确定分界点。
基于分界点将两个第一区间进行划分,得到第二区间。
遍历所有存在重叠部分的第一区间,得到所有的第二区间。
在本实施例中,结合图5所示,对存在重叠部分的任意两个第一区间来说,其中一个第一区间包含另一个第一区间的部分时,确定分界点;其中,分界点可以用于重新划分这两个第一区间,得到第二区间,然后重复执行,即遍历存在重叠部分的第一区间,得到所有的第二区间。本申请能够对不同特征值区间按照其重要程度进行分箱,从而准确地确定数据的影响度。
在一个可选的实施例中,对存在重叠部分的任意两个第一区间来说,在其中一个第一区间包含另一个第一区间的部分时,确定分界点,可以包括:
基于两个第一区间的相对位置,选取左侧第一区间中的最大特征值和右侧第一区间中的最小特征值。
根据最大特征值以及最小特征值,得到临界点。
在本实施例中,以坐标系为例,以X轴为标准,处于左侧的第一区间取最大特征值,处于右侧的第一区间取最小特征值,根据最大特征值以及最小特征值,得到临界点。
在一个可选的实施例中,可以将最大特征值以及最小特征值求平均,得到一个平均值,将左侧的第一区间的最小值和平均值作为一个第二区间,将右侧的第一区间的最大值和平均值作为一个第二区间。
在一个可选的实施例中,步骤S15中将存在重叠部分的第一区间进行分箱处理,得到多个第二区间,可以包括:
对存在重叠部分的任意两个第一区间来说,在其中一个第一区间包含另一个第一区间的全部时,将被包含的另一个第一区间舍掉,其中一个第一区间即为一个第二区间。
在本实施例中,如果有两个第一区间存在包含的情况,也即其中一个第一区间包含另一个第一区间的全部时,将被包含的第一区间舍掉,把剩余的第一区间作为第二区间。通过这样的方式,能够有效地避免第二区间重复的情况,从而使得数据划分更准确。
在一个可选的实施例中,步骤S13中根据每个特征值及对应的第一贡献值,得到数组集合,可以包括:
将每个特征值及对应的第一贡献值进行标准化处理,得到标准化后的特征值及第一贡献值。
将标准化后的每个特征值及对应的第一贡献值确定为数组集合中的一个数组,得到数组集合。
在本实施例中,需要对每一个获取到的特征值以及第一贡献值进行标准化处理,得到标准化后的特征值及第一贡献值。将标准化后的每个特征值及对应的第一贡献值确定为数组集合中的一个数组,得到数组集合。本申请通过标准化后的特征值以及第一贡献值能够得到特征值的正态分布和特征对应SHAP值的正态分布,从而更便于之后的聚类和分箱的操作。
在一个可选的实施例中,分别将每个特征值以及每个第一贡献值进行标准化处理,包括:
计算所有特征值的第一平均值以及第一标准差。
将每个特征值减去第一平均值、然后除以第一标准差,得到标准化后的特征值。
计算所有第一贡献值的第二标准差以及第二平均值。
将每个第一贡献值减去第二平均值、然后除以第二标准差,得到标准化后的第一贡献值。
在一个可选的实施例中,在步骤S16之后,方法还包括:对目标区间以及对应的第二贡献值进行还原处理。
在本实施例中,根据上述的均值和标准差,将特征值和第一贡献值分别乘以对应的标准差,并加上对应的均值。目的是将数据还原成具有实际含义的数据。如果没有标准化的话,对于不同的数据,量级差异很大,分箱效果无法统一,难以调整并确定聚类算法的参数。如果做了标准化之后没有还原,则得出的特征值取值范围和贡献值取值范围没有实际含义,从而无法理解。
在一个可选的实施例中,步骤S16中基于第二区间以及不存在重叠部分的第一区间,得到数据样本对应的目标区间及每个目标区间对应的第二贡献值,可以包括:
基于第二区间以及不存在重叠部分的第一区间中的特征值,得到数据样本对应的目标区间。
基于目标区间中的所有特征值的第一贡献值的均值,确定每个目标区间对应的第二贡献值。
在本实施例中,根据第二区间的特征值,可以得到数据样本对应的目标区间,将所有特征值的第一贡献值的均值,确定每个目标区间对应的第二贡献值。其中,第二贡献值可以为贡献度指标,用于判断该数据的影响程度。
根据本申请提供一种基于聚类分箱的数值型特征离散化归因分析装置,如图6所示,装置包括:获取模块61,用于获取数据样本;计算模块62,用于计算数据样本中每个特征值的第一贡献值;第一组合模块63,用于根据每个特征值及对应的第一贡献值,得到数组集合;聚类模块64,用于将数组集合进行聚类,得到多个第一区间;处理模块65,用于将存在重叠部分的第一区间进行分箱处理,得到多个第二区间;第二组合模块66,用于基于第二区间以及不存在重叠部分的第一区间,得到数据样本对应的目标区间及每个目标区间对应的第二贡献值。
本申请对数据集合通过先聚类再分箱的方式,能够准确地确定数据的贡献值,从而准确地确定数据的影响度。解决了现有技术中,传统分箱方法把具有相似贡献的取值划分到不同区间或把明显具有不同贡献的特征值强行划分到同一个区间的技术问题。
可选的,聚类模块64,用于将数组集合中的两个数组之间的距离处于预设距离的比对维度进行聚类,得到多个第一区间。
可选的,处理模块65包括:第一确定单元,用于对存在重叠部分的任意两个第一区间来说,在其中一个第一区间包含另一个第一区间的部分时,确定分界点;划分单元,用于基于分界点将两个第一区间进行划分,得到第二区间;遍历单元,用于遍历所有存在重叠部分的第一区间,得到所有的第二区间。
可选的,第一确定单元,用于基于两个第一区间的相对位置,选取左侧第一区间中的最大特征值和右侧第一区间中的最小特征值;根据最大特征值以及最小特征值,得到临界点。
可选的,处理模块65,还用于对存在重叠部分的任意两个第一区间来说,在其中一个第一区间包含另一个第一区间的全部时,将被包含的另一个第一区间舍掉,其中一个第一区间即为一个第二区间。
可选的,第一组合模块63包括:标准化处理单元,用于将每个特征值及对应的第一贡献值进行标准化处理,得到标准化后的特征值及第一贡献值;第二确定单元,用于将标准化后的每个特征值及对应的第一贡献值确定为数组集合中的一个数组,得到数组集合;其中,装置还包括:还原处理模块,用于方法还包括:对目标区间以及对应的第二贡献值进行还原处理。
可选的,第二组合模块66,用于基于第二区间以及不存在重叠部分的第一区间中的特征值,得到数据样本对应的目标区间;
基于目标区间中的所有特征值的第一贡献值的均值,确定每个目标区间对应的第二贡献值。
应理解,本文中前述关于本申请的方法所描述的具体特征、操作和细节也可类似地应用于本申请的装置和系统,或者,反之亦然。另外,上文描述的本申请的方法的每个步骤可由本申请的装置或系统的相应部件或单元执行。
应理解,本申请的装置的各个模块/单元可全部或部分地通过软件、硬件、固件或其组合来实现。各模块/单元各自可以硬件或固件形式内嵌于电子设备的处理器中或独立于处理器,也可以软件形式存储于电子设备的存储器中以供处理器调用来执行各模块/单元的操作。各模块/单元各自可以实现为独立的部件或模块,或者两个或更多个模块/单元可实现为单个部件或模块。
如图7所示,本申请提供了一种电子设备400,电子设备包括处理器401以及存储有计算机程序指令的存储器402。其中,处理器401执行计算机程序指令时实现上述的基于聚类分箱的数值型特征分析方法的各步骤。该电子设备400可以广义地为服务器、终端,或任何其他具有必要的计算和/或处理能力的电子设备。
在一个实施例中,该电子设备400可包括通过系统总线连接的处理器、存储器、网络接口、通信接口等。该电子设备400的处理器可用于提供必要的计算、处理和/或控制能力。该电子设备400的存储器可包括非易失性存储介质和内存储器。该非易失性存储介质可存储有操作系统、计算机程序等。该内存储器可为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备400的网络接口和通信接口可用于与外部的设备通过网络连接和通信。该计算机程序被处理器执行时执行本申请的方法的步骤。
本申请提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现上述的基于聚类分箱的数值型特征分析方法。
本领域的技术人员可以理解,本申请的方法步骤可以通过计算机程序来指示相关的硬件如电子设备400或处理器完成,计算机程序可存储于非暂时性计算机可读存储介质中,该计算机程序被执行时导致本申请的步骤被执行。根据情况,本文中对存储器、存储或其它介质的任何引用可包括非易失性或易失性存储器。非易失性存储器的示例包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)、闪存、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘等。易失性存储器的示例包括随机存取存储器(RAM)、外部高速缓冲存储器等。
以上描述的各技术特征可以任意地组合。尽管未对这些技术特征的所有可能组合进行描述,但这些技术特征的任何组合都应当被认为由本说明书涵盖,只要这样的组合不存在矛盾。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims (10)

1.一种基于聚类分箱的数值型特征分析方法,其特征在于,所述方法包括:
获取数据样本;
计算所述数据样本中每个特征值的第一贡献值;
根据每个特征值及对应的第一贡献值,得到数组集合;
将所述数组集合进行聚类,得到多个第一区间;
将存在重叠部分的第一区间进行分箱处理,得到多个第二区间;
基于所述第二区间以及不存在重叠部分的第一区间,得到所述数据样本对应的目标区间及每个目标区间对应的第二贡献值。
2.根据权利要求1所述的基于聚类分箱的数值型特征离散化归因分析方法,其特征在于,所述将所述数组集合进行聚类,得到多个第一区间,包括:
将所述数组集合中的两个数组之间的距离处于预设距离的所述数组进行聚类,得到多个所述第一区间。
3.根据权利要求1所述的基于聚类分箱的数值型特征离散化归因分析方法,其特征在于,所述将存在重叠部分的第一区间进行分箱处理,得到多个第二区间,包括:
对存在重叠部分的任意两个第一区间来说,在其中一个第一区间包含另一个第一区间的部分时,确定分界点;
基于所述分界点将所述两个第一区间进行划分,得到第二区间;
遍历所有存在重叠部分的第一区间,得到所有的第二区间。
4.根据权利要求3所述的基于聚类分箱的数值型特征离散化归因分析方法,其特征在于,对存在重叠部分的任意两个第一区间来说,在其中一个第一区间包含另一个第一区间的部分时,确定分界点,包括:
基于所述两个第一区间的相对位置,选取左侧第一区间中的最大特征值和右侧第一区间中的最小特征值;
根据所述最大特征值以及所述最小特征值,得到临界点。
5.根据权利要求3所述的基于聚类分箱的数值型特征离散化归因分析方法,其特征在于,所述将存在重叠部分的第一区间进行分箱处理,得到多个第二区间,还包括:
对存在重叠部分的任意两个第一区间来说,在其中一个第一区间包含另一个第一区间的全部时,将被包含的所述另一个第一区间舍掉,所述其中一个第一区间即为一个第二区间。
6.根据权利要求1所述的基于聚类分箱的数值型特征离散化归因分析方法,其特征在于,所述根据每个特征值及对应的第一贡献值,得到数组集合,包括:
将每个所述特征值及对应的第一贡献值进行标准化处理,得到标准化后的特征值及第一贡献值;
将标准化后的每个特征值及对应的第一贡献值确定为数组集合中的一个数组,得到数组集合;
所述方法还包括:对所述目标区间以及对应的第二贡献值进行还原处理。
7.根据权利要求1所述的基于聚类分箱的数值型特征离散化归因分析方法,其特征在于,基于所述第二区间以及不存在重叠部分的第一区间,得到所述数据样本对应的目标区间及每个目标区间对应的第二贡献值,包括:
基于所述第二区间以及不存在重叠部分的第一区间中的特征值,得到所述数据样本对应的目标区间;
基于所述目标区间中的所有特征值的第一贡献值的均值,确定每个目标区间对应的第二贡献值。
8.一种基于聚类分箱的数值型特征离散化归因分析装置,其特征在于,所述装置包括:
获取模块,用于获取数据样本;
计算模块,用于计算所述数据样本中每个特征值的第一贡献值;
第一组合模块,用于根据每个特征值及对应的第一贡献值,得到数组集合;
聚类模块,用于将所述数组集合进行聚类,得到多个第一区间;
处理模块,用于将存在重叠部分的第一区间进行分箱处理,得到多个第二区间;
第二组合模块,用于基于所述第二区间以及不存在重叠部分的第一区间,得到所述数据样本对应的目标区间及每个目标区间对应的第二贡献值。
9.一种电子设备,其特征在于,所述电子设备包括:处理器以及存储有计算机程序指令的存储器;
所述处理器执行所述计算机程序指令时实现如权利要求1-7任意一项所述的基于聚类分箱的数值型特征离散化归因分析方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-7任意一项所述的基于聚类分箱的数值型特征离散化归因分析方法。
CN202310498218.3A 2023-05-05 2023-05-05 基于聚类分箱的数值型特征离散化归因分析方法及装置 Pending CN116738261A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310498218.3A CN116738261A (zh) 2023-05-05 2023-05-05 基于聚类分箱的数值型特征离散化归因分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310498218.3A CN116738261A (zh) 2023-05-05 2023-05-05 基于聚类分箱的数值型特征离散化归因分析方法及装置

Publications (1)

Publication Number Publication Date
CN116738261A true CN116738261A (zh) 2023-09-12

Family

ID=87905243

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310498218.3A Pending CN116738261A (zh) 2023-05-05 2023-05-05 基于聚类分箱的数值型特征离散化归因分析方法及装置

Country Status (1)

Country Link
CN (1) CN116738261A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117235555A (zh) * 2023-10-17 2023-12-15 北京和兴创联健康科技有限公司 一种基于shap特征聚类技术的脓毒症分型方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117235555A (zh) * 2023-10-17 2023-12-15 北京和兴创联健康科技有限公司 一种基于shap特征聚类技术的脓毒症分型方法及系统
CN117235555B (zh) * 2023-10-17 2024-04-02 北京和兴创联健康科技有限公司 一种基于shap特征聚类技术的脓毒症分型方法及系统

Similar Documents

Publication Publication Date Title
CN108802535B (zh) 筛选方法、主干扰源识别方法及装置、服务器及存储介质
CN113742387A (zh) 数据处理方法、设备及计算机可读存储介质
CN109633448B (zh) 识别电池健康状态的方法、装置和终端设备
CN109995611B (zh) 流量分类模型建立及流量分类方法、装置、设备和服务器
CN116738261A (zh) 基于聚类分箱的数值型特征离散化归因分析方法及装置
CN113884961A (zh) Soc校准方法、建模方法、建模装置、计算机设备及介质
CN116416884B (zh) 一种显示器模组的测试装置及其测试方法
CN115691722B (zh) 医疗数据检测的质控方法、装置、设备、介质及程序产品
CN111709668A (zh) 基于数据挖掘技术的电网设备参数风险识别方法及装置
CN113807004A (zh) 基于数据挖掘的刀具寿命预测方法、装置及系统
CN115128438A (zh) 一种芯片内部故障监测方法及其装置
CN110232130B (zh) 元数据管理谱系生成方法、装置、计算机设备和存储介质
CN113918433A (zh) 一种自适应的智慧网络设备性能指标异常检测装置及方法
CN113704389A (zh) 一种数据评估方法、装置、计算机设备及存储介质
CN116881718A (zh) 一种基于大数据清洗的人工智能训练方法及系统
CN115563477A (zh) 谐波数据识别方法、装置、计算机设备和存储介质
CN115409153A (zh) 一种基于注意力lstm的畜牧指标预测方法及预测系统
US11567143B2 (en) Partial discharge determination device and method
CN113392086A (zh) 基于物联网的医疗数据库构建方法、装置及设备
CN113516275A (zh) 一种配电网超短期负荷预测方法、装置及终端设备
CN115514621B (zh) 故障监测方法、电子设备及存储介质
CN117150244B (zh) 基于电参数分析的智能配电柜状态监测方法及系统
CN117406007B (zh) 一种充电桩充电数据检测方法及系统
CN117572837B (zh) 一种智慧电厂ai主动运维方法及系统
CN117471227B (zh) 汽车线束参数性能测试方法及测试系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination