CN115359330A - 一种数据处理方法、装置、设备及存储介质 - Google Patents
一种数据处理方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN115359330A CN115359330A CN202211025688.XA CN202211025688A CN115359330A CN 115359330 A CN115359330 A CN 115359330A CN 202211025688 A CN202211025688 A CN 202211025688A CN 115359330 A CN115359330 A CN 115359330A
- Authority
- CN
- China
- Prior art keywords
- binning
- target
- evaluation index
- score
- target evaluation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种数据处理方法、装置、设备及存储介质,涉及计算机数据处理技术领域。其方法包括:获取多个专家对T个目标评价指标中各目标评价指标配置的多个第一分箱得分表,第一分箱得分表包括多个第一分箱区间及各第一分箱区间的得分;根据各目标评价指标的多个第一分箱得分表中的边界值,生成多个第二分箱区间;根据目标评价指标的多个第一分箱得分表中多个第一分箱区间及各第一分箱区间的得分,确定各第二分箱区间的得分;对目标评价指标的多个第二分箱区间进行融合,得到目标评价指标的目标分箱得分表;根据T个目标评价指标的目标分箱得分表,构建得到专家评分卡模型。
Description
技术领域
本申请属于计算机数据处理领域,尤其涉及一种数据处理方法、装置、设备及存储介质。
背景技术
专家评分卡模型是指积累的数据不充分甚至根本没有数据的情况下,利用专家的经验进行模型构建,可以帮助用户对待评价对象进行评级打分。然而,现有的专家评分卡模型在构建的过程中,需要人工介入的环节较多,耗费大量的时间和人力,导致专家评分卡模型开发效率较低。
发明内容
本申请实施例提供一种数据处理方法、装置、设备及存储介质,能够减少专家评分卡模型构建过程中人工的介入,节约时间和人力成本,从而提高专家评分卡模型开发的效率。
第一方面,本申请实施例提供一种数据处理方法,应用于电子设备,方法包括:
获取多个专家对T个目标评价指标中各所述目标评价指标配置的多个第一分箱得分表,不同所述目标评价指标为在不同维度进行评价的指标,所述第一分箱得分表包括多个第一分箱区间及各所述第一分箱区间的得分,所述T为正整数;
根据各所述目标评价指标的多个第一分箱得分表中的边界值,生成多个第二分箱区间,所述第二分箱区间的数量大于或者等于所述第一分箱区间的数量;
根据所述目标评价指标的多个第一分箱得分表中多个所述第一分箱区间及各所述第一分箱区间的得分,确定各所述第二分箱区间的得分;
对所述目标评价指标的多个第二分箱区间进行融合,得到所述目标评价指标的目标分箱得分表,所述目标分箱得分表中的目标分箱区间包括至少一个第二分箱区间,且各所述目标分箱区间的得分由其对应的至少一个第二分箱区间的得分确定;
根据所述T个目标评价指标的目标分箱得分表,构建得到专家评分卡模型。
第二方面,本申请实施例提供了一种数据处理装置,应用于电子设备,装置包括:
第一获取模块,用于获取多个专家对T个目标评价指标中各所述目标评价指标配置的多个第一分箱得分表,不同所述目标评价指标为在不同维度进行评价的指标,所述第一分箱得分表包括多个第一分箱区间及各所述第一分箱区间的得分,所述T为正整数;
生成模块,用于根据各所述目标评价指标的多个第一分箱得分表中的边界值,生成多个第二分箱区间,所述第二分箱区间的数量大于或者等于所述第一分箱区间的数量;
第一确定模块,用于根据所述目标评价指标的多个第一分箱得分表中多个所述第一分箱区间及各所述第一分箱区间的得分,确定各所述第二分箱区间的得分;
融合模块,用于对所述目标评价指标的多个第二分箱区间进行融合,得到所述目标评价指标的目标分箱得分表,所述目标分箱得分表中的目标分箱区间包括至少一个第二分箱区间,且各所述目标分箱区间的得分由其对应的至少一个第二分箱区间的得分确定;
构建模块,用于根据所述T个目标评价指标的目标分箱得分表,构建得到专家评分卡模型。
第三方面,本申请实施例提供了一种电子设备,电子设备包括:处理器以及存储有计算机程序指令的存储器;所述处理器执行所述计算机程序指令时实现如上任意一项所述的数据处理方法。
第四方面,本申请实施例提供了一种计算机存储介质,所述计算机存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如上任意一项所述的数据处理方法。
第五方面,本申请实施例提供了一种计算机程序产品,所述计算机程序产品中的指令由电子设备的处理器执行时,使得所述电子设备执行如上任意一项所述的数据处理方法。
本申请实施例的数据处理方法、装置、设备及存储介质,获取多个专家对T个目标评价指标中各目标评价指标配置的多个第一分箱得分表,对各目标评价指标的多个第一分箱得分表按照各第一分箱区间的边界值进行融合,得到各目标评价指标的目标分箱得分表,目标分箱得分表用于表征目标评价指标和指标得分的关系;根据T个目标评价指标的目标分箱得分表,构建得到专家评分卡模型。能够减少专家评分卡模型构建过程中人工的介入,节约时间和人力成本,从而提高专家评分卡模型开发的效率。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的数据处理方法的流程示意图;
图2是本申请实施例提供的数据处理装置的结构示意图;
图3是本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将详细描述本申请的各个方面的特征和示例性实施例,为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本申请进行进一步详细描述。应理解,此处所描述的具体实施例仅意在解释本申请,而不是限定本申请。对于本领域技术人员来说,本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
评分卡模型技术在对用户进行评分方面得到广泛应用,例如信用风险中的申请评分卡、行为评分卡和催收评分卡等。从技术手段维度进行切分,评分卡可以分为数据驱动评分卡和专家评分卡,其中数据驱动评分卡是指在数据积累足够的前提下,采用大数据、机器学习以及深度学习等技术进行评分卡模型构建,这类模型结果准确性较高;而专家评分卡模型是指积累的数据不充分甚至根本没有数据的情况下,利用专家的经验进行模型构建,这类模型比较主观,依赖于专家的知识经验积累,相对于数据驱动评分卡,在整个过程中,需要人工介入的环节比较多,并且需要汇总不同专家的经验,需要耗费大量的时间和人力。
本申请技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。
为了解决现有技术问题,本申请实施例提供了一种数据处理方法、装置、设备及存储介质。下面首先对本申请实施例所提供的数据处理方法进行介绍。
图1示出了本申请一个实施例提供的数据处理方法的流程示意图。如图1所示,一种数据处理方法,应用于电子设备,可以包括以下步骤S101至S105。
S101、获取多个专家对T个目标评价指标中各目标评价指标配置的多个第一分箱得分表。
S102、根据各目标评价指标的多个第一分箱得分表中的边界值,生成多个第二分箱区间。
S103、根据目标评价指标的多个第一分箱得分表中多个第一分箱区间及各第一分箱区间的得分,确定各第二分箱区间的得分。
S104、对目标评价指标的多个第二分箱区间进行融合,得到目标评价指标的目标分箱得分表。
S105、根据T个目标评价指标的目标分箱得分表,构建得到专家评分卡模型。
本申请实施例的数据处理方法,获取多个专家对T个目标评价指标中各目标评价指标配置的多个第一分箱得分表,对各目标评价指标的多个第一分箱得分表按照各第一分箱区间的边界值进行融合,得到各目标评价指标的目标分箱得分表,目标分箱得分表用于表征目标评价指标和指标得分的关系,根据T个目标评价指标的目标分箱得分表,构建得到专家评分卡模型。能够减少专家评分卡模型构建过程中人工的介入,节约时间和人力成本,从而提高专家评分卡模型开发的效率。
在S101中,上述目标评价指标可以为在不同维度进行评价的指标,例如年龄、教育程度、收入、性别和婚姻状况等维度。上述T为正整数。
上述第一分箱得分表可以包括多个第一分箱区间及各第一分箱区间的得分。每个专家对目标评价指标配置一个第一分箱得分表,因此,每个第一分箱得分表中的第一分箱区间及各第一分箱区间的得分可以不同。示例性地,在目标评价指标为收入时,第一分箱得分表中的第一分箱区间可以为[0,1000000)、[1000000,2800000)、[2800000,8000000)、[8000000,19000000)、[19000000,INF),对应的得分可以是2、4、6、8和10;在目标评价指标为年龄时,第一分箱得分表中的第一分箱区间可以为[0,18),[18,35),[35,50),[50,80),[80,100),对应的得分可以是2、4、5、8和10。分箱可以避免连续型变量的取值过于稀疏从而影响模型学习其中的“好坏”规律,此外,第一分箱得分表也可以易于解释专家评分卡模型。
上述获取多个专家对目标评价指标配置的多个第一分箱得分表,可以基于第二调查问卷收集多个专家对目标评价指标配置的多个第一分箱得分表。其中,第一分箱得分表中的第一分箱区间的数量可以设定为最多不超过10箱,第一分箱区间的得分范围也可以设定为0至10分,当然不仅限于此,本实施例在此不做限定。
在S102中,上述第二分箱区间的数量大于或者等于第一分箱区间的数量。
上述第一分箱得分表中的边界值,可以是多个第一分箱得分表中各第一分箱区间的边界值。例如,在上述示例目标评价指标为年龄时,汇总多个第一分箱得分表中的边界值,可以是[0,18,20,30,35,40,50,60,70,80,100]。
上述根据各目标评价指标的多个第一分箱得分表中的边界值,生成多个第二分箱区间,可以是将各目标评价指标的多个第一分箱得分表中的边界值进行排序,并根据相邻边界值生成得到多个第二分箱区间。如上所示的边界值,多个第二分箱区间可以是[0,18),[18,20),[20,30),[30,35),[35,40),[40,50),[50,60),[60,70),[70,80),[80,100)。
在S103中,上述根据目标评价指标的多个第一分箱得分表中多个第一分箱区间及各第一分箱区间的得分,确定各第二分箱区间的得分,可以是通过各第二分箱区间在多个第一分箱得分表中对应的得分进行汇总并计算平均值得到。
在一些实施例中,为了保证目标分箱得分表的准确性,上述根据目标评价指标的多个第一分箱得分表中多个第一分箱区间及各第一分箱区间的得分,确定各第二分箱区间的得分,具体可以包括:
根据目标评价指标的多个第一分箱得分表中多个第一分箱区间及各第一分箱区间的得分,将目标评价指标的多个第一分箱得分表中的部分分箱得分表剔除,得到剔除后的目标评价指标的至少两个分箱得分表;
根据目标评价指标的至少两个分箱得分表中多个第一分箱区间及各第一分箱区间的得分,确定各第二分箱区间的得分。
本实施例中,将目标评价指标的多个第一分箱得分表中的异常分箱得分表剔除,提高目标分箱得分表的准确性,从而保证专家评分卡模型评分结果的准确性。
上述根据目标评价指标的多个第一分箱得分表中多个第一分箱区间及各第一分箱区间的得分,将目标评价指标的多个第一分箱得分表中的部分分箱得分表剔除,得到剔除后的目标评价指标的至少两个分箱得分表,可以是根据目标评价指标的多个第一分箱得分表中多个第一分箱区间及各第一分箱区间的得分,用户手动将目标评价指标的多个第一分箱得分表中的部分分箱得分表剔除,得到剔除后的目标评价指标的至少两个分箱得分表。
或者,上述根据目标评价指标的多个第一分箱得分表中多个第一分箱区间及各第一分箱区间的得分,将目标评价指标的多个第一分箱得分表中的部分分箱得分表剔除,得到剔除后的目标评价指标的至少两个分箱得分表,可以包括以下步骤:
根据各个第一分箱得分表中各个第一分箱区间及各第一分箱区间的得分,确定各第一分箱得分表的单调性类型;
将最多数量的单调性类型确定为目标评价指标的目标单调性类型;
将目标评价指标的多个第一分箱得分表中,与目标单调性类型不一致的分箱得分表剔除,得到剔除后的目标评价指标的至少两个分箱得分表。
上述单调性类型,可以是以第一分箱区间为自变量,以各第一分箱区间的得分为因变量,判断各第一分箱得分表的单调性类型。单调性类型有递增、递减、先增后减(倒U)和先减后增(U型)四种类型。
示例性地,在目标评价指标为收入时,其第一分箱得分表中各个第一分箱区间及各第一分箱区间的得分,可以如下表1所示:
其中,相同目标评价指标的序号相同。随着边界值的增大,也就是目标评价指标(例如,收入)的指标值的增大,对应的得分也在逐渐增大,因此,目标评价指标为收入的单独性类型属于递增类型。
示例性地,第二目标评价指标有4个专家判定为递增,2个专家判定为递减,1位专家判定为先增后减,1为专家判定为先减后增,因为判定为递增的专家最多,因此该第二目标评价指标的单调性类型确定为递增。
在上述示例中,由于根据多数服从少数原则,第二目标评价指标的单独性类型被判定为递增,由于还有2个专家判定为递减,1位专家判定为先增后减,1为专家判定为先减后增,那么这4个专家在第二调查问卷中提供的数据将视为异常数据,后续分箱融合将不再考虑。
在S104中,上述目标分箱得分表用于表征目标评价指标和指标得分的关系。
上述对目标评价指标的多个第二分箱区间进行融合,得到目标评价指标的目标分箱得分表,可以是计算相邻第二分箱区间的得分差距,对最小得分差距的相邻第二分箱区间进行合并,并计算合并后的分箱区间对应得分,从而得到目标评价指标的目标分箱得分表。
作为本申请的一种实现方式,为了避免连续型变量的取值过于稀疏从而影响学习其中的“好坏”规律,在上述S104之前,还可以包括:
将各目标评价指标中最多的第一分箱区间的分箱区间个数,确定各目标评价指标的目标分箱数。
示例性地,第三目标评价指标有4个专家配置的分箱区间个数为5,2个专家配置的分箱区间个数为8,1位专家配置的分箱区间个数为3,那么将5确定为第三目标评价指标的目标分箱数。
上述步骤S104,具体可以包括以下步骤:
根据目标评价指标的各第二分箱区间的得分,计算各相邻第二分箱区间的得分差距;
将各相邻第二分箱区间的得分差距进行排序,对最小得分差距的相邻第二分箱区间进行合并,并计算合并后的分箱区间对应得分,得到目标评价指标的第三分箱区间及各第三分箱区间的得分;
在第三分箱区间的分箱区间个数达到目标分箱数的情况下,得到目标分箱得分表,目标分箱得分表包括多个第三分箱区间及各第三分箱区间的得分;
在第三分箱得分表中分箱区间个数不满足目标分箱数的情况下,对第三分箱得分表继续融合,直至第三分箱区间的分箱区间个数达到目标分箱数,得到目标分箱得分表。
本实施例中,将各目标评价指标中最多的第一分箱区间的分箱区间个数确定各目标评价指标的目标分箱数,避免连续型变量的取值过于稀疏从而影响学习其中的“好坏”规律,还有易于解释构建的专家评分卡模型。
在一些实施例中,上述将各相邻第二分箱区间的得分差距进行排序,对最小得分差距的相邻第二分箱区间进行合并,并计算合并后的分箱区间对应得分,得到目标评价指标的第三分箱区间及各第三分箱区间的得分,具体可以包括:
在最小得分差距对应的相邻第二分箱区间有多个的情况下,在多个最小得分差距对应的相邻第二分箱区间中,将多个专家选取最多边界值对应的相邻第二分箱区间进行合并,并计算合并后的分箱区间对应得分,得到目标评价指标的第三分箱区间及各第三分箱区间的得分。
示例性地,分箱融合流程可以是:
a.计算相邻分箱的得分差距,即相邻分箱得分之间求差值;
b.将相邻分箱后的得分差距排序,取得分差距最小的两个相邻分箱进行合并,两箱合成一箱,如果差距最小的相邻分箱有多个,那么优先取较多专家的边界值;
c.重新计算合并后的分箱得分,即将合并前的两箱得分汇总再求平均值;
d.判断是否达到最佳分箱数(即目标分箱数),如果是,则结束,否则重新回到第a步。
在S105中,上述根据T个目标评价指标的目标分箱得分表,构建得到专家评分卡模型,可以是将T个目标评价指标的目标分箱得分表确定的各目标评价指标的指标得分相加,构建得到专家评分卡模型。
在一些实施例中,为了更准确的构建专家评分卡模型,上述S105之前,还可以包括:
获取多个专家对T个目标评价指标的重要度打分,重要度打分用于表征目标评价指标的重要程度;
根据各目标评价指标的目标重要度打分,确定各目标评价指标的权重值,目标重要度打分为根据目标评价指标的多个重要度打分的计算得到。
上述重要度打分可以用于表征目标评价指标的重要程度。示例性地,专家对目标评价指标的重要度打分的范围可以为1至10分。
上述获取多个专家对T个目标评价指标的重要度打分,可以基于第一调查问卷收集多个专家对T个目标评价指标的重要度打分。
上述目标重要度打分为根据目标评价指标的多个重要度打分的计算得到,具体可以是将第i个目标评价指标的m个重要度打分Scoreij相加后求得的平均值确定为目标重要度打分AVG_Scorei,计算公式如下所示:
AVG_Scorei=(Scorei1+Scorei2+Scorei3+…+Scoreij+…+Scoreim)/m
其中,m为专家个数,1<=j<=m,1<=i<=T。
上述根据各目标评价指标的目标重要度打分,确定各目标评价指标的权重值,具体可以是将各目标重要度AVG_Scorei打分除以所有目标重要度打分的总和,得到第i个目标评价指标的权重值Wi,具体如下公式所示:
Wi=AVG_Scorei/(AVG_Score1+AVG_Score2+AVG_Score3+…+AVG_Scorei+…+AVG_Scoret)。
上述S105,具体可以包括:
根据T个目标评价指标的目标分箱得分表和各目标评价指标的权重值,构建得到专家评分卡模型。
上述根据T个目标评价指标的目标分箱得分表和各目标评价指标的权重值,构建得到专家评分卡模型,可以是将各目标评价指标的指标得分乘以各目标评价指标的权重值并相加,构建得到专家评分卡模型,具体如下公式所示:
R=W1*A1+W2*A2+……+Wi*Ai+…+Wn*An
其中,R为专家评分卡模型,Ai表示第i个目标评价指标的指标值对应的得分,Wi表示第i个目标评价指标的权重值。
作为本申请的另一种实现方式,为了使得构建的专家评分卡模型更具有针对性,在上述获取多个专家对T个目标评价指标的重要度打分之前,还可以包括以下步骤:
获取各第一评价指标被各专家选中的计数,第一评价指标为专家在N个候选评价指标中选取的至少一个的评价指标,N为正整数;
对各第一评价指标的计数按照从大到小的排序,将排序在前T为的第一评价指标确定为目标评价指标,T小于等于N。
示例性地,每个专家从N个候选评价指标中挑选至少一个第一评价指标,针对各候选评价指标Indexi定义一个计数器Counti,且初始值为0,如果各候选评价指标Indexi有被一个专家挑选,那么对应的计数器Counti加1。
将所有候选评价指标Indexi按照计数器Counti值从大到小进行排序,将排序在前T位的候选评价指标确定为专家评分卡模型的目标评价指标,目标评价指标的集合记为{Vari,1<=i<=T<=N};
本实施例中,在N个候选评价指标中,将专家挑选次数排序前T的指标确定为目标评价指标,能够更准确的选取评价指标,使得构建的专家评分卡模型更具有针对性。
作为本申请的另一种实现方式,为了提高专家评分卡模型输出结果的准确性,在S105之后,还可以包括以下步骤:
在接收到用户对各目标评价指标的权重值进行调整操作的情况下,响应于调整操作对专家评分卡模型进行调整,得到调整专家评分卡模型。
上述调整操作可以F1+F2+…+Fi+…+Ft=0且-Wi=<Fi=<1-Wi为准则进行调整。其中,Fi为第i个目标评价指标的权重调整值。
本实施例中,通过用户有监督的对专家评分卡模型进行调整,从而提高专家评分卡模型输出结果的准确性。
作为本申请的另一种实现方式,为了对待评价对象进行准确评分,在S105之后,还可以包括以下步骤:
获取待评价对象的T个目标评价指标值,T个目标评价指标值为T个目标评价指标的指标值;
在与各目标评价指标关联的目标分箱得分表中,将各目标评价指标的目标评价指标值所处的目标分箱区间的得分,确定为目标评价指标的指标得分,目标分箱得分表包括多个目标分箱区间以及各目标分箱区间的得分;
将各目标评价指标的指标得分输入专家评分卡模型,得到待评价对象的评价得分。
上述待评价对象,可以是银行业中需要进行信用评分的对象,当然不仅限于此,还可以是其他需要评分的对象。
本实施例中,在与各目标评价指标关联的目标分箱得分表中,确定为目标评价指标的指标得分,并输入到构建得到的专家评分卡模型中,能够对待评价对象进行准确评分。
基于上述实施例提供的数据处理方法,相应的,本申请还提供了数据处理装置的具体实现方式。请参见以下实施例。
请参见图2,本申请实施例提供的数据处理装置200,应用于电子设备,可以包括:第一获取模块201、生成模块202、第一确定模块203、融合模块204和构建模块205。
第一获取模块201,用于获取多个专家对T个目标评价指标中各目标评价指标配置的多个第一分箱得分表,不同目标评价指标为在不同维度进行评价的指标,第一分箱得分表包括多个第一分箱区间及各第一分箱区间的得分,T为正整数;
生成模块202,用于根据各目标评价指标的多个第一分箱得分表中的边界值,生成多个第二分箱区间,第二分箱区间的数量大于或者等于第一分箱区间的数量;
第一确定模块203,用于根据目标评价指标的多个第一分箱得分表中多个第一分箱区间及各第一分箱区间的得分,确定各第二分箱区间的得分;
融合模块204,用于对目标评价指标的多个第二分箱区间进行融合,得到目标评价指标的目标分箱得分表,目标分箱得分表中的目标分箱区间包括至少一个第二分箱区间,且各目标分箱区间的得分由其对应的至少一个第二分箱区间的得分确定;
构建模块205,用于根据T个目标评价指标的目标分箱得分表,构建得到专家评分卡模型。
本申请实施例中,获取多个专家对T个目标评价指标中各目标评价指标配置的多个第一分箱得分表,对各目标评价指标的多个第一分箱得分表按照各第一分箱区间的边界值进行融合,得到各目标评价指标的目标分箱得分表,目标分箱得分表用于表征目标评价指标和指标得分的关系,再根据T个目标评价指标的目标分箱得分表,构建得到专家评分卡模型。能够减少专家评分卡模型构建过程中人工的介入,节约时间和人力成本,从而提高专家评分卡模型开发的效率。
在一些实施例中,上述第一确定模块203具体可以包括:
剔除单元,用于根据目标评价指标的多个第一分箱得分表中多个第一分箱区间及各第一分箱区间的得分,将目标评价指标的多个第一分箱得分表中的部分分箱得分表剔除,得到剔除后的目标评价指标的至少两个分箱得分表;
第一确定单元,用于根据目标评价指标的至少两个分箱得分表中多个第一分箱区间及各第一分箱区间的得分,确定各第二分箱区间的得分。
在一些实施例中,上述剔除单元,具体可以用于根据各个第一分箱得分表中各个第一分箱区间及各第一分箱区间的得分,确定各第一分箱得分表的单调性类型;将最多数量的单调性类型确定为目标评价指标的目标单调性类型;将目标评价指标的多个第一分箱得分表中,与目标单调性类型不一致的分箱得分表剔除,得到剔除后的目标评价指标的至少两个分箱得分表。
作为本申请的一种实现方式,为了避免连续型变量的取值过于稀疏从而影响学习其中的“好坏”规律,上述装置200还可以包括:
第二确定模块,用于将各目标评价指标中最多的第一分箱区间的分箱区间个数,确定各目标评价指标的目标分箱数。
在一些实施例中,上述融合模块204具体可以包括:
计算单元,用于根据目标评价指标的各第二分箱区间的得分,计算各相邻第二分箱区间的得分差距;
合并单元,用于将各相邻第二分箱区间的得分差距进行排序,对最小得分差距的相邻第二分箱区间进行合并,并计算合并后的分箱区间对应得分,得到目标评价指标的第三分箱区间及各第三分箱区间的得分;
第二确定单元,用于在第三分箱区间的分箱区间个数达到目标分箱数的情况下,得到目标分箱得分表,目标分箱得分表包括多个第三分箱区间及各第三分箱区间的得分;
第二确定单元,还用于在第三分箱得分表中分箱区间个数不满足目标分箱数的情况下,对第三分箱得分表继续融合,直至第三分箱区间的分箱区间个数达到目标分箱数,得到目标分箱得分表。
在一些实施例中,上述合并单元,具体可以用于在最小得分差距对应的相邻第二分箱区间有多个的情况下,在多个最小得分差距对应的相邻第二分箱区间中,将多个专家选取最多边界值对应的相邻第二分箱区间进行合并,并计算合并后的分箱区间对应得分,得到目标评价指标的第三分箱区间及各第三分箱区间的得分。
在一些实施例中,为了更准确的构建专家评分卡模型,上述装置200还可以包括:
第二获取模块,用于获取多个专家对T个目标评价指标的重要度打分,重要度打分用于表征目标评价指标的重要程度;
第三确定模块,用于根据各目标评价指标的目标重要度打分,确定各目标评价指标的权重值,目标重要度打分为根据目标评价指标的多个重要度打分的计算得到;
构建模块205,还用于根据T个目标评价指标的目标分箱得分表和各目标评价指标的权重值,构建得到专家评分卡模型。
作为本申请的一种实现方式,为了使得构建的专家评分卡模型更具有针对性,上述装置200还可以包括:
第三获取单元,用于获取各第一评价指标被各专家选中的计数,第一评价指标为专家在N个候选评价指标中选取的至少一个的评价指标,N为正整数;
第四确定模块,用于对各第一评价指标的计数按照从大到小的排序,将排序在前T为的第一评价指标确定为目标评价指标,T小于等于N。
本实施例中,在N个候选评价指标中,将专家挑选次数排序前T的指标确定为目标评价指标,能够更准确的选取评价指标,使得构建的专家评分卡模型更具有针对性。
作为本申请的一种实现方式,为了提高专家评分卡模型输出结果的准确性,上述装置200还可以包括:
调整模块,用于在接收到用户对各目标评价指标的权重值进行调整操作的情况下,响应于调整操作对专家评分卡模型进行调整,得到调整专家评分卡模型。
作为本申请的一种实现方式,为了对待评价对象进行准确评分,上述装置200还可以包括:
第四获取模块,用于获取待评价对象的T个目标评价指标值,T个目标评价指标值为T个目标评价指标的指标值;
第五确定模块,用于在与各目标评价指标关联的目标分箱得分表中,将各目标评价指标的目标评价指标值所处的目标分箱区间的得分,确定为目标评价指标的指标得分,目标分箱得分表包括多个目标分箱区间以及各目标分箱区间的得分;
评分模块,用于将各目标评价指标的指标得分输入专家评分卡模型,得到待评价对象的评价得分。
图3示出了本申请实施例提供的电子设备的硬件结构示意图。
在电子设备可以包括处理器301以及存储有计算机程序指令的存储器302。
具体地,上述处理器301可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
存储器302可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器302可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器302可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器302可在综合网关容灾设备的内部或外部。在特定实施例中,存储器302是非易失性固态存储器。
在特定实施例中,存储器302可包括只读存储器(ROM),随机存取存储器(RAM),磁盘存储介质设备,光存储介质设备,闪存设备,电气、光学或其他物理/有形的存储器存储设备。因此,通常,存储器包括一个或多个编码有包括计算机可执行指令的软件的有形(非暂态)计算机可读存储介质(例如,存储器设备),并且当该软件被执行(例如,由一个或多个处理器)时,其可操作来执行参考根据本公开的一方面的方法所描述的操作。
处理器301通过读取并执行存储器302中存储的计算机程序指令,以实现上述实施例中的任意一种数据处理方法。
在一个示例中,电子设备还可包括通信接口303和总线310。其中,如图3所示,处理器301、存储器302、通信接口303通过总线310连接并完成相互间的通信。
通信接口303,主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。
总线310包括硬件、软件或两者,将电子设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线310可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
该电子设备可以执行本申请实施例中的数据处理方法,从而实现结合图1和图2描述的数据梳理方法和装置。
另外,结合上述实施例中的数据处理方法,本申请实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种数据处理方法。
结合上述实施例中的数据处理方法,本申请实施例还可提供一种计算机程序产品来实现。该计算机程序产品中的指令由电子设备的处理器执行时,使得电子设备执行时实现上述实施例中的任意一种数据处理方法。
需要明确的是,本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本申请的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本申请的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本申请中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本申请不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
上面参考根据本公开的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各方面。应当理解,流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器,以产生一种机器,使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解,框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合,也可以由执行指定的功能或动作的专用硬件来实现,或可由专用硬件和计算机指令的组合来实现。
以上所述,仅为本申请的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。
Claims (13)
1.一种数据处理方法,其特征在于,应用于电子设备,包括:
获取多个专家对T个目标评价指标中各所述目标评价指标配置的多个第一分箱得分表,不同所述目标评价指标为在不同维度进行评价的指标,所述第一分箱得分表包括多个第一分箱区间及各所述第一分箱区间的得分,所述T为正整数;
根据各所述目标评价指标的多个第一分箱得分表中的边界值,生成多个第二分箱区间,所述第二分箱区间的数量大于或者等于所述第一分箱区间的数量;
根据所述目标评价指标的多个第一分箱得分表中多个所述第一分箱区间及各所述第一分箱区间的得分,确定各所述第二分箱区间的得分;
对所述目标评价指标的多个第二分箱区间进行融合,得到所述目标评价指标的目标分箱得分表,所述目标分箱得分表中的目标分箱区间包括至少一个第二分箱区间,且各所述目标分箱区间的得分由其对应的至少一个第二分箱区间的得分确定;
根据所述T个目标评价指标的目标分箱得分表,构建得到专家评分卡模型。
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标评价指标的多个第一分箱得分表中多个所述第一分箱区间及各所述第一分箱区间的得分,确定各所述第二分箱区间的得分,包括:
根据所述目标评价指标的多个第一分箱得分表中多个所述第一分箱区间及各所述第一分箱区间的得分,将所述目标评价指标的多个第一分箱得分表中的部分分箱得分表剔除,得到剔除后的目标评价指标的至少两个分箱得分表;
根据所述目标评价指标的至少两个分箱得分表中多个所述第一分箱区间及各所述第一分箱区间的得分,确定各所述第二分箱区间的得分。
3.根据权利要求2所述的方法,其特征在于,所述根据所述目标评价指标的多个第一分箱得分表中多个所述第一分箱区间及各所述第一分箱区间的得分,将所述目标评价指标的多个第一分箱得分表中的部分分箱得分表剔除,得到剔除后的目标评价指标的至少两个分箱得分表,包括:
根据各个第一分箱得分表中各个所述第一分箱区间及各所述第一分箱区间的得分,确定各所述第一分箱得分表的单调性类型;
将最多数量的所述单调性类型确定为所述目标评价指标的目标单调性类型;
将所述目标评价指标的多个第一分箱得分表中,与所述目标单调性类型不一致的分箱得分表剔除,得到剔除后的目标评价指标的至少两个分箱得分表。
4.根据权利要求1所述的方法,其特征在于,在所述对所述目标评价指标的多个第二分箱区间进行融合,得到所述目标评价指标的目标分箱得分表之前,还包括:
将各所述目标评价指标中最多的所述第一分箱区间的分箱区间个数,确定各所述目标评价指标的目标分箱数;
所述对所述目标评价指标的多个第二分箱区间进行融合,得到所述目标评价指标的目标分箱得分表,包括:
根据所述目标评价指标的各所述第二分箱区间的得分,计算各相邻所述第二分箱区间的得分差距;
将各相邻所述第二分箱区间的得分差距进行排序,对最小得分差距的相邻所述第二分箱区间进行合并,并计算合并后的分箱区间对应得分,得到所述目标评价指标的第三分箱区间及各所述第三分箱区间的得分;
在所述第三分箱区间的分箱区间个数达到所述目标分箱数的情况下,得到所述目标分箱得分表,所述目标分箱得分表包括多个第三分箱区间及各所述第三分箱区间的得分;
在所述第三分箱得分表中分箱区间个数不满足所述目标分箱数的情况下,对所述第三分箱得分表继续融合,直至所述第三分箱区间的分箱区间个数达到所述目标分箱数,得到所述目标分箱得分表。
5.根据权利要求4所述的方法,其特征在于,所述将各相邻所述第二分箱区间的得分差距进行排序,对最小得分差距的相邻所述第二分箱区间进行合并,并计算合并后的分箱区间对应得分,得到所述目标评价指标的第三分箱区间及各所述第三分箱区间的得分,包括:
在最小得分差距对应的相邻所述第二分箱区间有多个的情况下,在多个所述最小得分差距对应的相邻所述第二分箱区间中,将多个所述专家选取最多所述边界值对应的相邻所述第二分箱区间进行合并,并计算合并后的分箱区间对应得分,得到所述目标评价指标的第三分箱区间及各所述第三分箱区间的得分。
6.根据权利要求1所述的方法,其特征在于,在根据所述T个目标评价指标的目标分箱得分表,构建得到专家评分卡模型之前,还包括:
获取多个专家对T个目标评价指标的重要度打分,所述重要度打分用于表征所述目标评价指标的重要程度;
根据各所述目标评价指标的目标重要度打分,确定各所述目标评价指标的权重值,所述目标重要度打分为根据所述目标评价指标的多个所述重要度打分的计算得到;
所述根据所述T个目标评价指标的目标分箱得分表,构建得到专家评分卡模型,包括:
根据所述T个目标评价指标的目标分箱得分表和各所述目标评价指标的权重值,构建得到专家评分卡模型。
7.根据权利要求6所述的方法,其特征在于,在所述获取多个专家对T个目标评价指标的重要度打分之前,还包括:
获取各第一评价指标被各所述专家选中的计数,所述第一评价指标为所述专家在N个候选评价指标中选取的至少一个的评价指标,所述N为正整数;
对各所述第一评价指标的计数按照从大到小的排序,将所述排序在前T为的所述第一评价指标确定为所述目标评价指标,所述T小于等于所述N。
8.根据权利要求6所述的方法,其特征在于,所述根据所述T个目标评价指标的目标分箱得分表和各所述目标评价指标的权重值,构建得到专家评分卡模型之后,还包括:
在接收到用户对各所述目标评价指标的权重值进行调整操作的情况下,响应于所述调整操作对所述专家评分卡模型进行调整,得到调整专家评分卡模型。
9.根据权利要求1所述的方法,其特征在于,在所述根据所述T个目标评价指标的目标分箱得分表,构建得到专家评分卡模型之后,还包括:
获取待评价对象的T个所述目标评价指标值,所述T个目标评价指标值为T个目标评价指标的指标值;
在与各所述目标评价指标关联的目标分箱得分表中,将各所述目标评价指标的目标评价指标值所处的目标分箱区间的得分,确定为所述目标评价指标的指标得分,所述目标分箱得分表包括多个目标分箱区间以及各所述目标分箱区间的得分;
将各所述目标评价指标的指标得分输入所述专家评分卡模型,得到所述待评价对象的评价得分。
10.一种数据处理装置,其特征在于,应用于电子设备,所述装置包括:
第一获取模块,用于获取多个专家对T个目标评价指标中各所述目标评价指标配置的多个第一分箱得分表,不同所述目标评价指标为在不同维度进行评价的指标,所述第一分箱得分表包括多个第一分箱区间及各所述第一分箱区间的得分,所述T为正整数;
生成模块,用于根据各所述目标评价指标的多个第一分箱得分表中的边界值,生成多个第二分箱区间,所述第二分箱区间的数量大于或者等于所述第一分箱区间的数量;
第一确定模块,用于根据所述目标评价指标的多个第一分箱得分表中多个所述第一分箱区间及各所述第一分箱区间的得分,确定各所述第二分箱区间的得分;
融合模块,用于对所述目标评价指标的多个第二分箱区间进行融合,得到所述目标评价指标的目标分箱得分表,所述目标分箱得分表中的目标分箱区间包括至少一个第二分箱区间,且各所述目标分箱区间的得分由其对应的至少一个第二分箱区间的得分确定;
构建模块,用于根据所述T个目标评价指标的目标分箱得分表,构建得到专家评分卡模型。
11.一种电子设备,其特征在于,所述设备包括:处理器以及存储有计算机程序指令的存储器;所述处理器执行所述计算机程序指令时实现如权利要求1-9任意一项所述的数据处理方法。
12.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-9任意一项所述的数据处理方法。
13.一种计算机程序产品,其特征在于,所述计算机程序产品中的指令由电子设备的处理器执行时,使得所述电子设备执行如权利要求1-9任意一项所述的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211025688.XA CN115359330A (zh) | 2022-08-25 | 2022-08-25 | 一种数据处理方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211025688.XA CN115359330A (zh) | 2022-08-25 | 2022-08-25 | 一种数据处理方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115359330A true CN115359330A (zh) | 2022-11-18 |
Family
ID=84003834
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211025688.XA Pending CN115359330A (zh) | 2022-08-25 | 2022-08-25 | 一种数据处理方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115359330A (zh) |
-
2022
- 2022-08-25 CN CN202211025688.XA patent/CN115359330A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110489449A (zh) | 一种图表推荐方法、装置和电子设备 | |
CN109362092B (zh) | 网络参数调整方法、装置、设备及介质 | |
CN114491244A (zh) | 基于大数据优化资源配置的方法、装置、设备及存储介质 | |
CN111353015B (zh) | 众包题目推荐方法、装置、设备及存储介质 | |
CN115359330A (zh) | 一种数据处理方法、装置、设备及存储介质 | |
CN114417830A (zh) | 风险评价方法、装置、设备及计算机可读存储介质 | |
CN113627730A (zh) | 一种企业评估方法、装置、设备及计算机存储介质 | |
CN113112102A (zh) | 优先级确定方法、装置、设备及存储介质 | |
CN112214675A (zh) | 用户购机的确定方法、装置、设备及计算机存储介质 | |
CN114066619A (zh) | 担保圈风险确定方法、装置、电子设备和存储介质 | |
CN112685610A (zh) | 虚假注册账号识别方法及相关装置 | |
CN112396291A (zh) | 信息确定方法、装置、电子设备及计算机存储介质 | |
CN114547133B (zh) | 基于多维数据集的对话式归因分析方法、装置及设备 | |
CN114547101B (zh) | 数据中台的数据质量评估方法、装置、设备及存储介质 | |
CN115859169A (zh) | 特征提取方法、装置、设备、可读存储介质及程序产品 | |
CN115906189A (zh) | 模型验证方法、装置、设备及计算机可读存储介质 | |
CN117093845A (zh) | 模型训练方法、数据处理方法、装置、设备、介质和产品 | |
CN115878873A (zh) | 异常用户的特征确定方法、装置、设备及存储介质 | |
CN116910555A (zh) | 用户信用预测模型的训练、应用方法、装置、设备及介质 | |
CN114745731A (zh) | 数据分析的方法、装置、设备及存储介质 | |
CN115936854A (zh) | 信用卡逾期用户监测系统及方法、设备及存储介质 | |
CN117745413A (zh) | 企业信用评估方法、装置、设备和介质 | |
CN114996590A (zh) | 一种分类方法、装置、设备及存储介质 | |
CN115907217A (zh) | 数据处理方法、装置、设备和计算机存储介质 | |
CN115391620A (zh) | 模型运行方法、装置、设备、存储介质及程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |