CN116089809A - 金融特征数据的筛选方法、装置、电子设备及存储介质 - Google Patents
金融特征数据的筛选方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116089809A CN116089809A CN202310362436.4A CN202310362436A CN116089809A CN 116089809 A CN116089809 A CN 116089809A CN 202310362436 A CN202310362436 A CN 202310362436A CN 116089809 A CN116089809 A CN 116089809A
- Authority
- CN
- China
- Prior art keywords
- feature data
- data set
- correlation
- feature
- characteristic data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012216 screening Methods 0.000 title claims abstract description 128
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 230000015654 memory Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
Images
Landscapes
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明涉及计算机技术领域,尤其涉及金融特征数据的筛选方法、装置、电子设备及存储介质,该金融特征数据的筛选方法包括:获取用户数据及其对应的信用标签,用户数据包括多个特征数据;对用户数据中的任意多个特征数据进行组合得到特征数据组;计算特征数据组中每两个特征数据之间的第一相关性,及每个特征数据与信用标签之间的第二相关性;根据第一相关性和第二相关性,计算每个特征数据组的筛选系数;根据筛选系数从特征数据组中筛选目标特征数据组;目标特征数据组中的特征数据为金融特征数据。通过本申请的方式,能够从用户数据的多个特征中筛选出金融特征数据,提高了金融特征数据的筛选效率。
Description
技术领域
本发明涉及计算机技术领域,具体而言,涉及金融特征数据的筛选方法、装置、电子设备及存储介质。
背景技术
在银行信用贷款的信用评分场景下,从众多与信用评分相关的特征中,筛选出用于对信用进行评分的特征,对用户进行信用评分起着至关重要的作用。通过筛选后续输入信用评分模型的特征从而提高信用评分模型的准确率和效率,并使得信用评分模型具有更好的泛化能力。尤其是在特征数量较大时,不同特征的选择将决定最后信用评分模型的整体效果。
目前,一般通过精通信用评分的专家对特征进行人工筛选,但是人工筛选效率较低,且由于受到人工不确定因素影响,不易探索更大的特征组合空间。
发明内容
有鉴于此,本申请的目的在于提供一种金融特征数据的筛选方法、装置、电子设备及存储介质,能够从用户数据的多个特征中筛选出金融特征数据,提高了金融特征数据的筛选效率。
第一方面,本申请实施例提供了一种金融特征数据的筛选方法,该金融特征数据的筛选方法包括:
获取用户数据及其对应的信用标签,用户数据包括多个特征数据;
对用户数据中的任意多个特征数据进行组合得到特征数据组;
计算特征数据组中每两个特征数据之间的第一相关性,及每个特征数据与信用标签之间的第二相关性;
根据第一相关性和第二相关性,计算每个特征数据组的筛选系数;
根据筛选系数从特征数据组中筛选目标特征数据组;目标特征数据组中的特征数据为金融特征数据。
在一种可能的实施方式中,计算特征数据组中每两个特征数据之间的第一相关性,及每个特征数据与信用标签之间的第二相关性,包括:
将所有第一相关性进行累加,得到第一相关性的和值;
将所有第二相关性进行累加,得到第二相关性的和值;
根据第一相关性的和值和第二相关性的和值,计算至少一个预置惩罚系数对应的每个特征数据组的筛选系数。
在一种可能的实施方式中,根据筛选系数从特征数据组中筛选目标特征数据组,包括:
将同一预置惩罚系数对应的所有特征数据组中筛选系数最小的特征数据组确定为初始特征数据组;
若初始特征数据组的数量等于1,则将初始特征数据组确定为目标特征数据组;
若初始特征数据组的数量大于1,则根据信用标签从初始特征数据组中筛选目标特征数据组。
在一种可能的实施方式中,根据信用标签从初始特征数据组中筛选目标特征数据组,包括:
将初始特征数据组中的特征数据输入分类器中,得到初始特征数据组的信用结果;
计算信用结果与信用标签一致的概率值;
将概率值最大的初始特征数据组确定为目标特征数据组。
在一种可能的实施方式中,计算每个特征数据组的筛选系数,包括:
将预置惩罚系数、第一相关性的和值、以及第二相关性的和值,代入下述特征筛选表达式中计算特征数据组的筛选系数;
;
其中,f(x)为特征数据组的筛选系数,α为预置惩罚系数,R1为特征数据组的第一相关性的和值,R2为特征数据组的第二相关性的和值。
在一种可能的实施方式中,计算第一相关性的和值,包括:
将特征数据组代入下述第一相关性公式中,计算第一相关性的和值;
;
其中,为特征数据组的第一相关性的和值,n为特征数据组中特征数据的数量,为第j个特征数据的选取标志,为第K个特征数据的选取标志,为第j个特征与第k个特征之间的皮尔森相关系数,为第j个特征与第k个特征之间的第一相关性。
在一种可能的实施方式中,计算第二相关性的和值,包括:
将特征数据组、信用标签代入下述第二相关性公式中,计算第二相关性的和值;
;
其中,为特征数据组的第二相关性的和值,n为特征数据组中特征数据的数量,为第j个特征数据的预置权重,为第j个特征数据的选取标志,为第j个特征与信用标签之间的信息量,为第j个特征与信用标签之间的第二相关性。
第二方面,本申请实施例还提供了一种金融特征数据的筛选装置,所述金融特征数据的筛选装置包括:
获取模块,用于获取用户数据及其对应的信用标签,用户数据包括多个特征数据;
组合模块,用于对用户数据中的任意多个特征数据进行组合得到特征数据组;
计算模块,用于计算特征数据组中每两个特征数据之间的第一相关性,及每个特征数据与信用标签之间的第二相关性;
计算模块,还用于根据第一相关性和第二相关性,计算每个特征数据组的筛选系数;
筛选模块,用于根据筛选系数从特征数据组中筛选目标特征数据组;目标特征数据组中的特征数据为金融特征数据。
在一种可能的实施方式中,计算模块,具体用于将所有第一相关性进行累加,得到第一相关性的和值;将所有第二相关性进行累加,得到第二相关性的和值;根据第一相关性的和值和第二相关性的和值,计算至少一个预置惩罚系数对应的每个特征数据组的筛选系数。
在一种可能的实施方式中,筛选模块,具体用于将同一预置惩罚系数对应的所有特征数据组中筛选系数最小的特征数据组确定为初始特征数据组;若初始特征数据组的数量等于1,则将初始特征数据组确定为目标特征数据组;若初始特征数据组的数量大于1,则根据信用标签从初始特征数据组中筛选目标特征数据组。
在一种可能的实施方式中,筛选模块,还用于将初始特征数据组中的特征数据输入分类器中,得到初始特征数据组的信用结果;计算信用结果与信用标签一致的概率值;将概率值最大的初始特征数据组确定为目标特征数据组。
在一种可能的实施方式中,计算模块,具体用于将预置惩罚系数、第一相关性的和值、以及第二相关性的和值,代入下述特征筛选表达式中计算特征数据组的筛选系数;;其中,f(x)为特征数据组的筛选系数,α为预置惩罚系数,R1为特征数据组的第一相关性的和值,R2为特征数据组的第二相关性的和值。
在一种可能的实施方式中,计算模块,具体用于将特征数据组代入下述第一相关性公式中,计算第一相关性的和值;;其中,为特征数据组的第一相关性的和值,n为特征数据组中特征数据的数量,为第j个特征数据的选取标志,为第K个特征数据的选取标志,为第j个特征与第k个特征之间的皮尔森相关系数,为第j个特征与第k个特征之间的第一相关性。
在一种可能的实施方式中,计算模块,具体用于将特征数据组、信用标签代入下述第二相关性公式中,计算第二相关性的和值;;其中,为特征数据组的第二相关性的和值,n为特征数据组中特征数据的数量,为第j个特征数据的预置权重,为第j个特征数据的选取标志,为第j个特征与信用标签之间的信息量,为第j个特征与信用标签之间的第二相关性。
第三方面,本申请实施例还提供了一种电子设备,包括:处理器、存储介质和总线,存储介质存储有处理器可执行的机器可读指令,当电子设备运行时,处理器与存储介质之间通过总线通信,处理器执行机器可读指令,以执行如第一方面任一项金融特征数据的筛选方法的步骤。
第四方面,本申请实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行如第一方面任一项金融特征数据的筛选方法的步骤。
本申请实施例提供了一种金融特征数据的筛选方法、装置、电子设备及存储介质,该金融特征数据的筛选方法包括:获取用户数据及其对应的信用标签,用户数据包括多个特征数据;对用户数据中的任意多个特征数据进行组合得到特征数据组;计算特征数据组中每两个特征数据之间的第一相关性,及每个特征数据与信用标签之间的第二相关性;根据第一相关性和第二相关性,计算每个特征数据组的筛选系数;根据筛选系数从特征数据组中筛选目标特征数据组;目标特征数据组中的特征数据为金融特征数据。本申请通过每两个特征数据之间的第一相关性、特征数据与信用标签之间的第二相关性,计算每个特征数据组的筛选系数,然后根据筛选系数从特征数据组中确定金融特征数据,能够从用户数据的多个特征中筛选出金融特征数据,提高了金融特征数据的筛选效率。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例提供的一种金融特征数据的筛选方法的流程图;
图2示出了本申请实施例提供的另一种金融特征数据的筛选方法的流程图;
图3示出了本申请实施例提供的一种金融特征数据的筛选装置的结构示意图;
图4示出了本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。 应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。 此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了使得本领域技术人员能够使用本申请内容,结合特定应用场景“计算机技术领域”,给出以下实施方式。对于本领域技术人员来说,在不脱离本申请的精神和范围的情况下,可以将这里定义的一般原理应用于其他实施例和应用场景。虽然本申请主要围绕“计算机技术领域”进行描述,但是应该理解,这仅是一个示例性实施例。
需要说明的是,本申请实施例中将会用到术语“包括”,用于指出其后所声明的特征的存在,但并不排除增加其它的特征。
下面对本申请实施例提供的一种金融特征数据的筛选方法进行详细说明。
参照图1所示,为本申请实施例提供的一种金融特征数据的筛选方法的流程示意图,该金融特征数据的筛选方法的具体执行过程为:
S101、获取用户数据及其对应的信用标签,用户数据包括多个特征数据。
S102、对用户数据中的任意多个特征数据进行组合得到特征数据组。
S103、计算特征数据组中每两个特征数据之间的第一相关性,及每个特征数据与信用标签之间的第二相关性。
S104、根据第一相关性和第二相关性,计算每个特征数据组的筛选系数。
S105、根据筛选系数从特征数据组中筛选目标特征数据组;目标特征数据组中的特征数据为金融特征数据。
本申请实施例提供了一种金融特征数据的筛选方法,该金融特征数据的筛选方法包括:获取用户数据及其对应的信用标签,用户数据包括多个特征数据;对用户数据中的任意多个特征数据进行组合得到特征数据组;计算特征数据组中每两个特征数据之间的第一相关性,及每个特征数据与信用标签之间的第二相关性;根据第一相关性和第二相关性,计算每个特征数据组的筛选系数;根据筛选系数从特征数据组中筛选目标特征数据组;目标特征数据组中的特征数据为金融特征数据。本申请通过每两个特征数据之间的第一相关性、特征数据与信用标签之间的第二相关性,计算每个特征数据组的筛选系数,然后根据筛选系数从特征数据组中确定金融特征数据,能够从用户数据的多个特征中筛选出金融特征数据,提高了金融特征数据的筛选效率。
下面对本申请实施例示例性的各步骤进行说明:
S101、获取用户数据及其对应的信用标签,用户数据包括多个特征数据。
在本申请实施方式中,用户数据指的是用户在银行的信用数据,该数据中包括多个特征数据,例如用户姓名、性别、信用积分等等。信用标签包括信用好和信用差两种标签。一个用户数据对应一个信用标签。
S102、对用户数据中的任意多个特征数据进行组合得到特征数据组。
在本申请实施方式中,对用户数据中的特征数据进行任意组合,示例,用户数据中有n个特征数据,则得到的特征数据组的数量为。
例如,用户数据中包含数据特征a、b、c,则可以得到的特征数据组分别为a组合,b组合,c组合,a和b组合,a和c组合,b和c组合,a和b和c组合。特征数据组的数量为。
S103、计算特征数据组中每两个特征数据之间的第一相关性,及每个特征数据与信用标签之间的第二相关性。
在本申请实施方式中,每个特征数据组对应至少一个第一相关性和至少一个第二相关性。第一相关性指的是特征与特征之间的相关性,第二相关性指的是特征与信用标签之间的相关性。
例如,特征数据组A中包括特征数据a、b、c,则确定特征数据a和特征数据b之间的第一相关性;确定特征数据a和特征数据c之间的第一相关性;确定特征数据b和特征数据c之间的第一相关性;确定特征数据a和信用标签之间的第二相关性;确定特征数据b和信用标签之间的第二相关性;确定特征数据c和信用标签之间的第二相关性。
S104、根据第一相关性和第二相关性,计算每个特征数据组的筛选系数。
具体地,将所有第一相关性进行累加,得到第一相关性的和值;
在本申请实施方式中,针对每个特征数据组,将该特征数据组对应的所有第一相关性进行累加,得到第一相关性的和值。该第一相关性的和值用于表征该特征数据组的特征之间的相关性。
这里,将特征数据组代入下述第一相关性公式中,计算第一相关性的和值;
;
其中,为特征数据组的第一相关性的和值,n为特征数据组中特征数据的数量,为第j个特征数据的选取标志,为第K个特征数据的选取标志,为第j个特征与第k个特征之间的皮尔森相关系数,为第j个特征与第k个特征之间的第一相关性。
具体地,将所有第二相关性进行累加,得到第二相关性的和值。
在本申请实施方式中,针对每个特征数据组,将该特征数据组对应的所有第二相关性进行累加,得到第二相关性的和值。该第二相关性的和值用于表征特征数据组的特征与信用标签的相关性。
这里,将特征数据组、信用标签代入下述第二相关性公式中,计算第二相关性的和值;
;
其中,为特征数据组的第二相关性的和值,n为特征数据组中特征数据的数量,为第j个特征数据的预置权重,为第j个特征数据的选取标志,为第j个特征与信用标签之间的信息量,为第j个特征与信用标签之间的第二相关性。
具体地,根据第一相关性的和值和第二相关性的和值,计算至少一个预置惩罚系数对应的每个特征数据组的筛选系数。
在本申请实施方式中,每个预置惩罚系数均对应计算全部特征数据组的筛选系数。预置惩罚系数不同,计算的特征数据组的筛选系数也不相同。特征数据组的筛选系数越小,特征数据组中特征之间的相关性越小、特征与信用标签的相关性越大。
进一步地,将预置惩罚系数、第一相关性的和值、以及第二相关性的和值,代入下述特征筛选表达式中计算特征数据组的筛选系数;
;
其中,f(x)为特征数据组的筛选系数,α为预置惩罚系数,R1为特征数据组的第一相关性的和值,R2为特征数据组的第二相关性的和值。
这里,按照预设步长,在0至1的闭区间中进行遍历,得到多个预置惩罚系数。该预置惩罚系数也可以是其他数值,具体根据实际情况而定,在这里不做具体限定。
S105、根据筛选系数从特征数据组中筛选目标特征数据组;目标特征数据组中的特征数据为金融特征数据。
具体地,将同一预置惩罚系数对应的所有特征数据组中筛选系数最小的特征数据组确定为初始特征数据组;若初始特征数据组的数量等于1,则将初始特征数据组确定为目标特征数据组;若初始特征数据组的数量大于1,则根据信用标签从初始特征数据组中筛选目标特征数据组。
参照图2所示,为本申请实施例提供的另一种金融特征数据的筛选方法的流程示意图,下面对本申请实施例示例性的各步骤进行说明:
S201、将同一预置惩罚系数对应的所有特征数据组中筛选系数最小的特征数据组确定为初始特征数据组。
在本申请实施方式中,针对每个预置惩罚系数,将该预置惩罚系数对应的所有特征数据中,筛选系数最小的特征数据组确定为初始特征数据组。特征数据组的筛选系数越小,特征数据组中特征之间的相关性越小、特征与信用标签的相关性越大。特征数据组中特征之间的相关性越小越好,特征与信用标签的相关性越大越好。因此,将筛选系数最小的特征数据组确定为初始特征数据组。
S202、若初始特征数据组的数量等于1,则将初始特征数据组确定为目标特征数据组。
在本申请实施方式中,如果初始特征数据组的数量只有一个,那么将该初始特征数据组确定为目标特征数据组。
S203、若初始特征数据组的数量大于1,则根据信用标签从初始特征数据组中筛选目标特征数据组。
在本申请实施方式中,目标特征数据组中的特征数据为金融特征数据。如果初始特征数据组的数量有多个,则在所有的初始特征数据组中确定出一个最优的初始特征数据组作为目标特征数据组。
具体地,将初始特征数据组中的特征数据输入分类器中,得到初始特征数据组的信用结果;计算信用结果与信用标签一致的概率值;将概率值最大的初始特征数据组确定为目标特征数据组。
在本申请实施方式中,将初始特征数据组的信用结果与信用标签继续比对,计算各初始特征数据组的信用结果与信用标签的比对结果为一致的概率值。初始特征数据组的信用结果与信用标签一致的概率值越大,说明该初始特征数据组越好。因此,将概率值最大的初始特征数据组确定为目标特征数据组。
本申请实施例提供了另一种金融特征数据的筛选方法,该金融特征数据的筛选方法包括:将同一预置惩罚系数对应的所有特征数据组中筛选系数最小的特征数据组确定为初始特征数据组;若初始特征数据组的数量等于1,则将初始特征数据组确定为目标特征数据组;若初始特征数据组的数量大于1,则根据信用标签从初始特征数据组中筛选目标特征数据组。通过本申请的方式,能够从多个初始特征数据组中筛选出目标特征数据组。
基于同一发明构思,本申请实施例中还提供了与金融特征数据的筛选方法对应的金融特征数据的筛选装置,由于本申请实施例中的装置解决问题的原理与本申请实施例上述金融特征数据的筛选方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
参照图3所示,为本申请实施例提供的一种金融特征数据的筛选装置,所述金融特征数据的筛选装置包括:
获取模块301,用于获取用户数据及其对应的信用标签,用户数据包括多个特征数据;
组合模块302,用于对用户数据中的任意多个特征数据进行组合得到特征数据组;
计算模块303,用于计算特征数据组中每两个特征数据之间的第一相关性,及每个特征数据与信用标签之间的第二相关性;
计算模块303,还用于根据第一相关性和第二相关性,计算每个特征数据组的筛选系数;
筛选模块304,用于根据筛选系数从特征数据组中筛选目标特征数据组;目标特征数据组中的特征数据为金融特征数据。
在一种可能的实施方式中,计算模块303,具体用于将所有第一相关性进行累加,得到第一相关性的和值;将所有第二相关性进行累加,得到第二相关性的和值;根据第一相关性的和值和第二相关性的和值,计算至少一个预置惩罚系数对应的每个特征数据组的筛选系数。
在一种可能的实施方式中,筛选模块304,具体用于将同一预置惩罚系数对应的所有特征数据组中筛选系数最大的特征数据组确定为初始特征数据组;若初始特征数据组的数量等于1,则将初始特征数据组确定为目标特征数据组;若初始特征数据组的数量大于1,则根据信用标签从初始特征数据组中筛选目标特征数据组。
在一种可能的实施方式中,筛选模块304,还用于将初始特征数据组中的特征数据输入分类器中,得到初始特征数据组的信用结果;计算信用结果与信用标签一致的概率值;将概率值最大的初始特征数据组确定为目标特征数据组。
在一种可能的实施方式中,计算模块303,具体用于将预置惩罚系数、第一相关性的和值、以及第二相关性的和值,代入下述特征筛选表达式中计算特征数据组的筛选系数;;其中,f(x)为特征数据组的筛选系数,α为预置惩罚系数,R1为特征数据组的第一相关性的和值,R2为特征数据组的第二相关性的和值。
在一种可能的实施方式中,计算模块303,具体用于将特征数据组代入下述第一相关性公式中,计算第一相关性的和值;;其中,为特征数据组的第一相关性的和值,n为特征数据组中特征数据的数量,为第j个特征数据的选取标志,为第K个特征数据的选取标志,为第j个特征与第k个特征之间的皮尔森相关系数,为第j个特征与第k个特征之间的第一相关性。
在一种可能的实施方式中,计算模块303,具体用于将特征数据组、信用标签代入下述第二相关性公式中,计算第二相关性的和值;;其中,为特征数据组的第二相关性的和值,n为特征数据组中特征数据的数量,为第j个特征数据的预置权重,为第j个特征数据的选取标志,为第j个特征与信用标签之间的信息量,为第j个特征与信用标签之间的第二相关性。
本申请实施例提供了一种金融特征数据的筛选装置,该金融特征数据的筛选装置包括:获取模块301,用于获取用户数据及其对应的信用标签,用户数据包括多个特征数据;组合模块302,用于对用户数据中的任意多个特征数据进行组合得到特征数据组;计算模块303,用于计算特征数据组中每两个特征数据之间的第一相关性,及每个特征数据与信用标签之间的第二相关性;计算模块303,还用于根据第一相关性和第二相关性,计算每个特征数据组的筛选系数;筛选模块304,用于根据筛选系数从特征数据组中筛选目标特征数据组;目标特征数据组中的特征数据为金融特征数据。本申请通过每两个特征数据之间的第一相关性、特征数据与信用标签之间的第二相关性,计算每个特征数据组的筛选系数,然后根据筛选系数从特征数据组中确定金融特征数据,能够从用户数据的多个特征中筛选出金融特征数据,提高了金融特征数据的筛选效率。
如图4所示,本申请实施例提供的一种电子设备400,包括:处理器401、存储器402和总线,存储器402存储有处理器401可执行的机器可读指令,当电子设备运行时,处理器401与存储器402之间通过总线通信,处理器401执行机器可读指令,以执行如上述金融特征数据的筛选方法的步骤。
具体地,上述存储器402和处理器401能够为通用的存储器和处理器,这里不做具体限定,当处理器401运行存储器402存储的计算机程序时,能够执行上述金融特征数据的筛选方法。
对应于上述金融特征数据的筛选方法,本申请实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述金融特征数据的筛选方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考方法实施例中的对应过程,本申请中不再赘述。在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述信息处理方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种金融特征数据的筛选方法,其特征在于,所述金融特征数据的筛选方法包括:
获取用户数据及其对应的信用标签,所述用户数据包括多个特征数据;
对所述用户数据中的任意多个特征数据进行组合得到特征数据组;
计算所述特征数据组中每两个特征数据之间的第一相关性,及每个特征数据与所述信用标签之间的第二相关性;
根据所述第一相关性和所述第二相关性,计算每个特征数据组的筛选系数;
根据所述筛选系数从所述特征数据组中筛选目标特征数据组;所述目标特征数据组中的特征数据为金融特征数据。
2.根据权利要求1所述的金融特征数据的筛选方法,其特征在于,所述根据所述第一相关性和所述第二相关性,计算每个特征数据组的筛选系数,包括:
将所有第一相关性进行累加,得到第一相关性的和值;
将所有第二相关性进行累加,得到第二相关性的和值;
根据所述第一相关性的和值和所述第二相关性的和值,计算至少一个预置惩罚系数对应的每个特征数据组的筛选系数。
3.根据权利要求2所述的金融特征数据的筛选方法,其特征在于,所述根据所述筛选系数从所述特征数据组中筛选目标特征数据组,包括:
将同一预置惩罚系数对应的所有特征数据组中筛选系数最小的特征数据组确定为初始特征数据组;
若初始特征数据组的数量等于1,则将所述初始特征数据组确定为目标特征数据组;
若初始特征数据组的数量大于1,则根据所述信用标签从所述初始特征数据组中筛选目标特征数据组。
4.根据权利要求3所述的金融特征数据的筛选方法,其特征在于,所述根据所述信用标签从所述初始特征数据组中筛选目标特征数据组,包括:
将所述初始特征数据组中的特征数据输入分类器中,得到所述初始特征数据组的信用结果;
计算所述信用结果与所述信用标签一致的概率值;
将所述概率值最大的初始特征数据组确定为目标特征数据组。
5.根据权利要求2所述的金融特征数据的筛选方法,其特征在于,计算每个特征数据组的筛选系数,包括:
将所述预置惩罚系数、所述第一相关性的和值、以及所述第二相关性的和值,代入下述特征筛选表达式中计算特征数据组的筛选系数;
;
其中,f(x)为特征数据组的筛选系数,α为预置惩罚系数,R1为特征数据组的第一相关性的和值,R2为特征数据组的第二相关性的和值。
6.根据权利要求2所述的金融特征数据的筛选方法,其特征在于,计算所述第一相关性的和值,包括:
将特征数据组代入下述第一相关性公式中,计算所述第一相关性的和值;
;
其中,为特征数据组的第一相关性的和值,n为特征数据组中特征数据的数量,为第j个特征数据的选取标志,为第K个特征数据的选取标志,为第j个特征与第k个特征之间的皮尔森相关系数,为第j个特征与第k个特征之间的第一相关性。
7.根据权利要求2所述的金融特征数据的筛选方法,其特征在于,计算所述第二相关性的和值,包括:
将特征数据组、信用标签代入下述第二相关性公式中,计算所述第二相关性的和值;
;
其中,为特征数据组的第二相关性的和值,n为特征数据组中特征数据的数量,为第j个特征数据的预置权重,为第j个特征数据的选取标志,为第j个特征与信用标签之间的信息量,为第j个特征与信用标签之间的第二相关性。
8.一种金融特征数据的筛选装置,其特征在于,所述金融特征数据的筛选装置包括:
获取模块,用于获取用户数据及其对应的信用标签,所述用户数据包括多个特征数据;
组合模块,用于对所述用户数据中的任意多个特征数据进行组合得到特征数据组;
计算模块,用于计算所述特征数据组中每两个特征数据之间的第一相关性,及每个特征数据与所述信用标签之间的第二相关性;
所述计算模块,还用于根据所述第一相关性和所述第二相关性,计算每个特征数据组的筛选系数;
筛选模块,用于根据所述筛选系数从所述特征数据组中筛选目标特征数据组;所述目标特征数据组中的特征数据为金融特征数据。
9.一种电子设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如权利要求1至7任一项所述的金融特征数据的筛选方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至7任一项所述的金融特征数据的筛选方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310362436.4A CN116089809B (zh) | 2023-04-07 | 2023-04-07 | 金融特征数据的筛选方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310362436.4A CN116089809B (zh) | 2023-04-07 | 2023-04-07 | 金融特征数据的筛选方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116089809A true CN116089809A (zh) | 2023-05-09 |
CN116089809B CN116089809B (zh) | 2023-06-20 |
Family
ID=86202905
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310362436.4A Active CN116089809B (zh) | 2023-04-07 | 2023-04-07 | 金融特征数据的筛选方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116089809B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150264445A1 (en) * | 2014-03-17 | 2015-09-17 | Peel Technologies, Inc. | Real-Time Learning of Hashtag-to-TV Program Relationships |
CN107122890A (zh) * | 2017-04-07 | 2017-09-01 | 信雅达系统工程股份有限公司 | 个人信用得分优化评价方法 |
WO2021164382A1 (zh) * | 2020-02-17 | 2021-08-26 | 支付宝(杭州)信息技术有限公司 | 针对用户分类模型进行特征处理的方法及装置 |
CN113989053A (zh) * | 2021-09-24 | 2022-01-28 | 泰康保险集团股份有限公司 | 医保数据处理方法、装置、电子设备及存储介质 |
CN114004691A (zh) * | 2021-11-03 | 2022-02-01 | 上海孚厘科技有限公司 | 基于融合算法的额度评分方法、装置、设备及存储介质 |
CN114185967A (zh) * | 2021-12-10 | 2022-03-15 | 何琴 | 一种基于云计算的金融数据挖掘方法 |
CN114626925A (zh) * | 2022-03-29 | 2022-06-14 | 中国工商银行股份有限公司 | 金融产品的推荐方法及其装置、电子设备及存储介质 |
CN115423600A (zh) * | 2022-08-22 | 2022-12-02 | 前海飞算云创数据科技(深圳)有限公司 | 数据筛选方法、装置、介质及电子设备 |
-
2023
- 2023-04-07 CN CN202310362436.4A patent/CN116089809B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150264445A1 (en) * | 2014-03-17 | 2015-09-17 | Peel Technologies, Inc. | Real-Time Learning of Hashtag-to-TV Program Relationships |
CN107122890A (zh) * | 2017-04-07 | 2017-09-01 | 信雅达系统工程股份有限公司 | 个人信用得分优化评价方法 |
WO2021164382A1 (zh) * | 2020-02-17 | 2021-08-26 | 支付宝(杭州)信息技术有限公司 | 针对用户分类模型进行特征处理的方法及装置 |
CN113989053A (zh) * | 2021-09-24 | 2022-01-28 | 泰康保险集团股份有限公司 | 医保数据处理方法、装置、电子设备及存储介质 |
CN114004691A (zh) * | 2021-11-03 | 2022-02-01 | 上海孚厘科技有限公司 | 基于融合算法的额度评分方法、装置、设备及存储介质 |
CN114185967A (zh) * | 2021-12-10 | 2022-03-15 | 何琴 | 一种基于云计算的金融数据挖掘方法 |
CN114626925A (zh) * | 2022-03-29 | 2022-06-14 | 中国工商银行股份有限公司 | 金融产品的推荐方法及其装置、电子设备及存储介质 |
CN115423600A (zh) * | 2022-08-22 | 2022-12-02 | 前海飞算云创数据科技(深圳)有限公司 | 数据筛选方法、装置、介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN116089809B (zh) | 2023-06-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6771751B2 (ja) | リスク評価方法およびシステム | |
US20120072220A1 (en) | Matching text sets | |
CN103370722B (zh) | 通过小波和非线性动力学预测实际波动率的系统和方法 | |
CN106325756B (zh) | 一种数据存储、数据计算方法和设备 | |
CN111028006B (zh) | 一种业务投放辅助方法、业务投放方法及相关装置 | |
CN109740660A (zh) | 图像处理方法及装置 | |
CN113449187A (zh) | 基于双画像的产品推荐方法、装置、设备及存储介质 | |
CN112116245A (zh) | 信贷风险评估方法、装置、计算机设备及存储介质 | |
CN111242319A (zh) | 模型预测结果的解释方法和装置 | |
CN107908998A (zh) | 二维码解码方法、装置、终端设备及计算机可读存储介质 | |
CN110458644A (zh) | 一种信息处理方法及相关设备 | |
CN111881269A (zh) | 推荐对象确定方法、装置、电子设备及存储介质 | |
CN115203496A (zh) | 基于大数据的项目智能预测及评估方法、系统及可读存储介质 | |
CN116089809B (zh) | 金融特征数据的筛选方法、装置、电子设备及存储介质 | |
CN113837631A (zh) | 员工评价方法、装置、电子设备及可读存储介质 | |
CN116503608A (zh) | 基于人工智能的数据蒸馏方法及相关设备 | |
CN111402068A (zh) | 基于大数据的保费数据分析方法、装置及存储介质 | |
CN107688596B (zh) | 突发话题检测方法及突发话题检测设备 | |
CN114676168A (zh) | 一种数据追踪方法、装置、电子设备及存储介质 | |
CN111429232A (zh) | 产品推荐方法、装置和电子设备及计算机可读存储介质 | |
CN109670976B (zh) | 特征因子确定方法及设备 | |
CN111091472A (zh) | 数据处理方法、装置及设备 | |
CN113723522B (zh) | 异常用户的识别方法、装置、电子设备以及存储介质 | |
CN113205117B (zh) | 社区划分方法、装置、计算机设备及存储介质 | |
CN112801744B (zh) | 一种活动推荐方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |