CN115423598A - 数据特征的筛选方法及装置 - Google Patents
数据特征的筛选方法及装置 Download PDFInfo
- Publication number
- CN115423598A CN115423598A CN202210927102.2A CN202210927102A CN115423598A CN 115423598 A CN115423598 A CN 115423598A CN 202210927102 A CN202210927102 A CN 202210927102A CN 115423598 A CN115423598 A CN 115423598A
- Authority
- CN
- China
- Prior art keywords
- data
- target data
- full
- features
- screening
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 99
- 238000012216 screening Methods 0.000 title claims abstract description 59
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 62
- 230000009467 reduction Effects 0.000 claims abstract description 54
- 238000000513 principal component analysis Methods 0.000 claims abstract description 44
- 238000007637 random forest analysis Methods 0.000 claims abstract description 27
- 238000012545 processing Methods 0.000 claims abstract description 15
- 230000006870 function Effects 0.000 claims description 48
- 238000004590 computer program Methods 0.000 claims description 18
- 239000002245 particle Substances 0.000 claims description 15
- 238000005457 optimization Methods 0.000 claims description 13
- 238000001914 filtration Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 9
- 239000011159 matrix material Substances 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000003066 decision tree Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000007477 logistic regression Methods 0.000 description 4
- 238000012502 risk assessment Methods 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000000739 chaotic effect Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000012847 principal component analysis method Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Operations Research (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Marketing (AREA)
- Educational Administration (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种数据特征的筛选方法及装置,其中方法包括:获取信贷数据中不含缺失值的目标数据,基于逆概率加权法,确定目标数据的逆概率权重,并基于逆概率权重对目标数据进行加权,得到目标数据的伪总体数据;基于随机森林算法,确定伪总体数据的缺失值,并基于缺失值以及所述伪总体数据,构建目标数据的全量数据;基于核主成分分析算法,对全量数据进行特征降维,并将降维特征作为目标数据筛选后的特征。本发明提供的数据特征的筛选方法及装置,通过对目标数据中的缺失数据进行填充,得到了目标数据的全量数据,避免了数据损失有效信息。基于优化的核函数的核主成分分析算法,对全量数据进行降维处理,提升了筛选特征的准确性。
Description
技术领域
本发明涉及计算机术领域,尤其涉及一种数据特征的筛选方法及装置。
背景技术
现有的金融行业中,由于信息丢失或者用户不愿上传部分隐私数据等原因,会不可避免地存在信贷数据中部分数据缺失的现象。
现有的数据缺失的现象会导致用户个体的部分信息观测不完全,存在一定程度的缺失。而直接通过包含缺失数据的用户数据进行特征提取,并将获取的特征后续用于用户信贷预测例如贷款评级分级以及信用评分等,会导致推断的结果不准确,得到的参数估计也不再具有无偏性。
发明内容
本发明提供一种数据特征的筛选方法及装置,用以解决现有技术针对信贷数据中部分数据缺失的现象,导致基于缺失数据进行特征提取,并将获取的特征后续评估与预测等,会导致推断的结果不准确,得到的参数估计也不具有无偏性的技术问题。
本发明提供一种数据特征的筛选方法,包括:
获取信贷数据中不含缺失值的目标数据,基于逆概率加权法,确定所述目标数据的逆概率权重,并基于所述逆概率权重对所述目标数据进行加权,得到所述目标数据的伪总体数据;
基于随机森林算法,确定所述伪总体数据的缺失值,并基于所述缺失值以及所述伪总体数据,构建所述目标数据的全量数据;
基于核主成分分析算法,对所述全量数据进行特征降维,得到所述全量数据的降维特征,并将所述降维特征作为所述目标数据筛选后的特征。
根据本发明提供的一种数据特征的筛选方法,所述基于逆概率加权法,确定所述目标数据的逆概率权重,包括:
基于逆概率加权法,对所述目标数据进行拟合,得到所述目标数据的特征概率,并将所述特征概率的倒数作为所述逆概率权重。
根据本发明提供的一种数据特征的筛选方法,所述基于核主成分分析算法,对所述全量数据进行特征降维之前,还包括:
基于粒子群优化算法,确定所述核主成分分析算法中核函数的特征值;
调整所述核函数的参数,直到所述特征值中最大特征的贡献率最大;
将所述贡献率最大对应的核函数的参数,作为所述核主成分分析的核函数的参数。
根据本发明提供的一种数据特征的筛选方法,所述最大特征的贡献率是所述最大特征,与所述特征值中所有特征值总和的比值。
根据本发明提供的一种数据特征的筛选方法,所述构建所述目标数据的全量数据之后,还包括:
基于标准分数法,对所述全量数据进行标准化处理。
根据本发明提供的一种数据特征的筛选方法,所述获取信贷数据中不含缺失值的目标数据之后,还包括:
根据目标数据中数据的相似度,删除所述目标数据中相似度高于预设相似度阈值的数据。
本发明还提供一种数据特征的筛选装置,包括:
逆概率加权处理模块,用于获取信贷数据中不含缺失值的目标数据,基于逆概率加权法,确定所述目标数据的逆概率权重,并基于所述逆概率权重对所述目标数据进行加权,得到所述目标数据的伪总体数据;
数据补全模块,用于基于随机森林算法,确定所述伪总体数据的缺失值,并基于所述缺失值以及所述伪总体数据,构建所述目标数据的全量数据;
特征降维筛选模块,用于基于核主成分分析算法,对所述全量数据进行特征降维,得到所述全量数据的降维特征,并将所述降维特征作为所述目标数据筛选后的特征。
本发明还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述数据特征的筛选方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述数据特征的筛选方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述数据特征的筛选方法。
本发明提供的数据特征的筛选方法及装置,通过逆概率加权法,对不含缺失值的目标数据进行加权,得到目标数据的伪总体数据。并将得到的伪总体数据,基于随机森林算法,对伪总体中的缺失数据进行填充,得到了目标数据的全量数据,保障了数据的无偏性,避免了损失有效信息。基于优化的核函数的核主成分分析算法,对全量数据进行降维处理,实现了对目标数据的特征进行筛选的同时,提升了筛选特征的准确性。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图简要地说明,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的数据特征的筛选方法的流程示意图;
图2是本发明提供的随机森林算法流程示意图;
图3是本发明提供的核主成分分析示意图;
图4是本发明提供的粒子群算法流程图;
图5是应用本发明提供的数据特征的筛选方法的装置结构示意图;
图6是本发明提供的数据特征的筛选装置的结构示意图;
图7是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明提供的数据特征的筛选方法的流程示意图。参照图1,本发明提供的数据特征的筛选方法可以包括:
步骤110,获取信贷数据中不含缺失值的目标数据,基于逆概率加权法,确定所述目标数据的逆概率权重,并基于所述逆概率权重对所述目标数据进行加权,得到所述目标数据的伪总体数据;
步骤120,基于随机森林算法,确定所述伪总体数据的缺失值,并基于所述缺失值以及所述伪总体数据,构建所述目标数据的全量数据;
步骤130,基于核主成分分析算法,对所述全量数据进行特征降维,得到所述全量数据的降维特征,并将所述降维特征作为所述目标数据筛选后的特征。
本发明提供的数据特征的筛选方法的执行主体可以是电子设备、电子设备中的部件、集成电路、或芯片。该电子设备可以是移动电子设备,也可以为非移动电子设备。示例性的,移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本或者个人数字助理(personal digitalassistant,PDA)等,非移动电子设备可以为服务器、网络附属存储器(Network AttachedStorage,NAS)或个人计算机(personal computer,PC)等,本发明不作具体限定。
下面以计算机执行本发明提供的数据特征的筛选方法为例,详细说明本发明的技术方案。
在步骤110中,从数据库中获取信贷数据,将其中不含缺失值的数据筛选出来,得到不含缺失值的目标数据。基于逆概率加权法,确定目标数据的逆概率权重。在确定逆概率权重后,基于逆概率权重对目标数据进行加权,得到目标数据的伪总体数据。
信贷数据是指金融行业中,与银行信贷风险管理相关的数据,包括用户的信用记录信息,存储记录信息,贷款记录信息等。基于用户的信贷数据,可以对用户的信贷风险进行评估。
由于信息部分丢失或者用户不愿上传部分隐私数据等原因,会不可避免地存在信贷数据中部分数据缺失的现象。
从数据库中获取信贷数据,获取的信贷数据中包含信息完整的信贷数据即不包含缺失值的信贷数据,也包含信息不完整的信贷数据即含缺失值的信贷数据。对其中信息不完整的信贷数据进行剔除,得到不含缺失值的数据为目标数据。
逆概率加权就是将目标数据的特征变量所分配概率的倒数作为权重对原始数据进行加权,将缺失数据的信息分配到可观测的样本上,加权后的样本相当于伪总体。
在信贷数据中剔除包含缺失值的数据后,得到不含缺失值的目标数据。基于逆概率加权法确定目标数据中每条数据的逆概率权重,基于确定的每条数据的逆概率权重,将对应的数据进行加权,得到每条加权后的数据,所有加权后的数据构成目标数据的伪总体数据。通过确定每条数据的逆概率权重,并对每条数据进行加权,可以将缺失数据的信息分配到可观测的样本上,即将缺失的数据分配到目标数据上,加权后的数据相对于伪总体。
可选地,从数据库获取银行的信贷数据后,将其中不含缺失值的目标数据筛选出来,构建目标数据的协变量矩阵。基于逻辑回归算法,对得到的协变量矩阵进行训练,得到协变量矩阵中各个特征的权重。同时,求得各个特征的权重的倒数,记为逆概率权重。基于逆概率权重,对原始所有数据进行加权,加权后的数据相当于伪总体数据。得到的伪总体数据是将缺失数据的信息通过可观测的数据一定程度的映射出来。
可以理解的是,在对信贷数据中部分为缺失的数据,在对包含有缺失数据的信贷数据进行特征分析时,相关方法中的统计学方法效果不佳,如采用直接剔除缺失数据的方法会损失部分有效信息,从而导致统计推断的结果不准确,得到的参数估计也将不再具有无偏性。而采用逆概率加权法对包含缺失值的信贷数据进行处理,可以极大程度上保留数据的完整性。
在步骤120中,在确定目标数据的伪总体数据后,基于随机森林算法,确定所述伪总体数据的缺失值。基于确定的伪总体数据的缺失值,对伪总体数据进行填充。将填充后的数据作为目标数据的全量数据。
全量数据是将剔除缺失值的伪总体数据进行缺失值补全后,得到的全量数据。
随机森林隶属于机器学习,其随机性体现在两个方面:子数据集生成时的随机性,构建决策树时特征选择的随机性。两个随机性很好的保证了随机森林算法的泛化能力。
基于随机森林算法,确定伪总体数据的缺失值:如图2本发明提供的随机森林算法流程示意图所示,假设伪总体数据构成的总数据集为S,采用Bootstrap采样从S中随机的有放回的抽取k次,构成k个子样本,即S1,S2,...,Sk。其次,对于其中的每个子集Si,i=1,2,...,k,从总共n个特征中随机的选取m个特征构建决策树模型{h(X,Si)}。最后,总体的随机森林分类模型最终结果由所有子样本集所构成的决策树的预测结果多数表决来确定。
随机森林的优势在于:当数据量样本非常大,之间的非线性关系非常复杂时,可以通过随机森林来学习特征之间的内在关系。随机森林的随机性主要体现在两个方面:子集的随机抽样性,每个子集构建决策树时筛选特征的随机性。这两点,足以保证随机森林的泛化能力。
基于随机森林算法,遍历伪总体数据的所有特征,由于填补缺失最少的特征所需要的准确信息最少,所以从缺失最少的特征开始进行填补。填补一个特征时,先将其他特征的缺失值用0代替,每完成一次预测,就将预测值放到原本的特征矩阵中,再继续填补下一个特征。遍历所有的特征后,直到数据完整,不再有缺失值。基于随机森林算法,学习伪总体数据之间的相互规律,实现对伪总体数据缺失值的填充。
在步骤130中,在确定缺失值填充后的全量数据后,基于核主成分分析算法,对全量数据进行特征降维。在对全量数据进行特征降维后,减少了原始全量数据的特征,实现了全量数据的特征的筛选。
降维方法中较常见的是PCA(Principal Components Analysis,主成分分析),对于具有线性关系的数据,可以直接通过主成分分析PCA进行降维处理。
主成分分析方法为:定义全量数据的原始多维特征时序数据为:x1,x2,...,xp,一个具有P个特征的多维数据。利用正交变换将它变成线性不相关的特征:y1,y2,...,yq。变换过程如下:
主成分分析PCA更多的适用于具有线性关系的数据,但对于复杂数据的处理效果不是很好。在处理银行信贷数据的复杂数据时,利用核函数将处理完缺失值后的总体数据映射到更高维度的空间,使其存在线性关系,再而进行主成分分析PCA进行特征变量筛选。
核主成分分析:倘若对于确定的全量数据的P个特征的多维数据之间关系较为复杂,存在非线性关系。则需要利用核函数技巧,如图3本发明提供的核主成分分析示意图所示,将输入空间的x,映射到高维空间后,得到k(x),再经过PCA主成分分析,进行降维处理,得到降维后的输出特征。
具体地,全量数据的多维特征时序数据x1,x2,...,xp在核函数Φ的映射下,转变到更高维空间D中,即Φ(xi),i=1,2,...,p,在D中,Φ(xi)线性可分,进而可以再对其采用主成分分析。
记原始多维特征经过映射后的Φ(xi)的特征向量为v1,v2,...,vd,且这些特征向量所对应的特征值分别是λ1,λ2,...,λd,同时在原始维度的特征中有一组相对应的参数记为α,α=(α1,α2,...,αp)。那么可得:
后面的处理方法与主成分分析类似,在映射后的高维空间中使用主成分分析:
Φ(X)Φ(X)Tvi=λivi (3)
Φ(X)Φ(X)TΦ(X)α=λiΦ(X)α (4)
公式(4)两边左侧同时乘以Φ(X)T:
Φ(X)TΦ(X)Φ(X)TΦ(X)α=Φ(X)TλiΦ(X)α (5)
此时,再用核函数K来替换公式(5)中的Φ(X)TΦ(X):
K2α=λiKα (6)
简化可得:
Kα=λiα (7)
通常采用的核函数K有:
多项式核函数:
K(xi,xj)=[a(xi,xj)+b]q (8)
高斯核函数:
多层感知机核函数:
K(xi,xj)=tanh(v(xi,xj)+c) (10)
其中,a,b,σ,v,c都是核函数的参数,xi,xj为训练用到的数据。
可以理解的是,信贷数据是与银行信贷风险管理相关的数据,包括用户的信用记录信息,存储记录信息,贷款记录信息等。获取用户的信贷数据后,可以在后续用于构建信贷风险评估模型,对用户的信贷风险进行评估。在提取信贷数据的特征输入信贷风险评估模型之前,对信贷数据中的缺失数据进行补全,并对补全后的数据的特征进行筛选,得到筛选后的特征。基于筛选后的特征,在后续构建信贷风险评估模型,对用户的信贷风险进行评估时,可以保障有效特征提取的同时,提升模型的评估效率。与此同时,特征筛选之前进行了数据的补全,保障了数据的无偏性,避免了损失有效信息,提升了后续用户的信贷风险评估的准确性。
本发明实施例提供的数据特征的筛选方法,通过逆概率加权法,对不含缺失值的目标数据进行加权,得到目标数据的伪总体数据。并将得到的伪总体数据,基于随机森林算法,对伪总体中的缺失数据进行填充,得到了目标数据的全量数据,保障了数据的无偏性,避免了损失有效信息。基于优化的核函数的核主成分分析算法,对全量数据进行降维处理,实现了对目标数据的特征进行筛选的同时,提升了筛选特征的准确性。
在一个实施例中,基于逆概率加权法,确定所述目标数据的逆概率权重,包括:基于逆概率加权法,对所述目标数据进行拟合,得到所述目标数据的特征概率,并将所述特征概率的倒数作为所述逆概率权重。
逆概率加权是将目标数据的特征变量所分配概率的倒数作为权重对原始数据进行加权,将缺失数据的信息分配到可观测的样本上,加权后的样本相当于伪总体。
在信贷数据中剔除包含缺失值的数据后,得到不含缺失值的目标数据。基于逆概率加权法确定目标数据中每条数据的逆概率权重,基于确定的每条数据的逆概率权重。将目标数据输入逻辑回归模型,对目标数据进行拟合,得到目标数据中每条数据的特征概率,将每条数据的特征概率的倒数作为对应的每条数据的逆概率权重。基于逆概率权重,将对应的数据进行加权,得到每条加权后的数据,所有加权后的数据构成目标数据的伪总体数据。
通过确定每条数据的逆概率权重,并对每条数据进行加权,可以将缺失数据的信息分配到可观测的样本上,即将缺失的数据分配到目标数据上,加权后的数据相对于伪总体。
本发明实施例提供的数据特征的筛选方法,通过逻辑回归模型,对目标数据进行拟合,得到目标数据的特征概率,并将特征概率的倒数作为所述逆概率权重,实现了逆概率权重的确定,为后续基于逆概率算法确定目标数据的伪数据提供了基础。
在一个实施例中,基于核主成分分析算法,对所述全量数据进行特征降维之前,还包括:基于粒子群优化算法,确定所述核主成分分析算法中核函数的特征值;调整所述核函数的参数,直到所述特征值中最大特征的贡献率最大;将所述贡献率最大对应的核函数的参数,作为所述核主成分分析的核函数的参数。
粒子群优化算法的思想是,首先其中的单个个体围绕着它周围一部分邻居会产生一些信息,然后这些个体将信息传达到全部的总体,最后达到一个共享的过程,也就是将一个杂乱无章的问题变为一个有迹可循的问题,并以此来获得最优解。
如图4本发明提供的粒子群算法流程图所示,粒子群算法一般步骤:
步骤410,初始化起始点的位置和速度,计算出每个粒子的个体适应度极值,确定出全局表现最好的个体;
步骤420,个体更新,速度更新,重新确定适应度极值,并且更新个体极值和群体极值;
步骤430,判断是否满足终止条件,如果超过了最大迭代次数或者适应度函数值满足了设定要求,则停止更新,确定最优解。
基于粒子群优化算法,对核主成分分析中核函数的特征值进行确定,调整核函数的参数,直到特征值中最大特征的贡献率最大,将贡献率最大的核函数的参数,作为粒子群优化算法的最优解。在确定特征值中最大特征的贡献率最大的最优解后,将确定的最优解对应的核函数的参数,作为后续进行核主成分分析的核函数的参数。
本发明实施例提供的数据特征的筛选方法,通过粒子群优化算法,对核主成分分析中的核函数的参数进行优化。基于优化后的核函数可以进一步提高所筛选特征所表征的信息以及模型的健壮性,更有助于提升全量数据的有效特征。
在一个实施例中,最大特征的贡献率是所述最大特征,与所述特征值中所有特征值总和的比值。
在用粒子群算法寻优时,具体所要求的解对应于个体的位置,这些个体被称之为particle(粒子)和agent(主体),此外还需要有一个适应度函数,基于适应度函数,确定最大特征的贡献率,通过对适应度函数的值不断优化,从而寻求更好的解。
具体地,基于粒子群优化算法,确定核主成分分析算法中核函数的特征值K,分别将它们记为λi,i=1,2,...,d,紧接着,对特征值进行排序,按照从大到小排序依次假设为λ1≥λ2≥…≥λd,排完序后的特征值所对应的特征向量分别记为vi,i=1,2,...,d,那么此时的特征向量矩阵V=(v1,v2,...vd),贡献率最大的特征所对应的特征值为λ1,将它相对于总体所占的贡献率记为适应度函数,计算公式如下:
基于适应度函数,确定最大特征与所有特征值总和的比值达到最大的核函数的参数,实现对核函数的参数的优化。
本发明实施例提供的数据特征的筛选方法,通过确定最大特征的贡献率,实现对核函数的参数的自动寻优,避免了人为调试确定参数,导致时间资源以及人力成本高的问题。
在一个实施例中,构建所述目标数据的全量数据之后,还包括:基于标准分数法,对所述全量数据进行标准化处理。
在得到目标数据的全量数据后,需要对目标数据的全量数据进行标准化处理。基于标准分数法,对目标数据的全量数据进行标准化处理。
标准分数法Z-Score是数据处理的一种常用方法。通过它能够将不同量级的数据转化为统一量度的Z-Score分值进行比较。在获取目标数据的全量数据后,由于获取的全量数据是不同维度的,基于Z-Score标准化处理,将全量数据中的不同数据标准化处理为同一量级的数据。
本发明实施例提供的数据特征的筛选方法,通过在获取目标数据的全量数据后,基于标准分数法,获取的全量数据进行标准化处理,使得处理后的全量数据在同一维度,提升了后续模型进行特征降维的精准度。
在一个实施例中,获取信贷数据中不含缺失值的目标数据之后,还包括:根据目标数据中数据的相似度,删除所述目标数据中相似度高于预设相似度阈值的数据。
对信贷数据中不含缺失值的目标数据中数据的相似度进行计算,可以确定目标数据中的重复的数据。若确定目标数据中数据的相似度高于预设相似度阈值,则可以确定该数据为重复数据,对确定的重复数据进行删除。
本发明实施例提供的数据特征的筛选方法,通过信贷数据中不含缺失值的目标数据中数据的相似度,确定目标数据中的重复数据,并对重复的数据进行删除,将进一步提升最终后续特征筛选结果的准确性。
下面以一应用本发明提供的数据特征的筛选方法的装置结构示意图图5为例,说明本申请提供的技术方案:
该装置包括数据处理模块510,缺失填充模块520,参数寻优模块530以及特征筛选模块540。
数据处理模块510,用于获取信贷数据中不含缺失值的目标数据,基于逻辑回归模型,对目标数据进行拟合,得到目标数据的特征概率,并将特征概率的倒数作为目标数据的逆概率权重,并基于逆概率权重对目标数据进行加权,得到目标数据的伪总体数据;
缺失填充模块520,用于基于随机森林算法,确定伪总体数据的缺失值,并基于缺失值以及伪总体数据,构建目标数据的全量数据,并基于标准分数法,对确定的全量数据进行标准化处理;
参数寻优模块530,用于基于粒子群优化算法,确定核主成分分析算法中核函数的特征值;调整核函数的参数,直到特征值中最大特征的贡献率最大;将所述贡献率最大对应的核函数的参数,作为所述核主成分分析的核函数的参数;
特征筛选模块540,用于核主成分分析算法以及确定的核主成分分析算法中核函数函数,对所述全量数据进行特征降维,得到所述全量数据的降维特征,并将所述降维特征作为所述目标数据筛选后的特征。
图6为本发明提供的数据特征的筛选装置的结构示意图,如图6所示,该装置包括:
逆概率加权处理模块610,用于获取信贷数据中不含缺失值的目标数据,基于逆概率加权法,确定所述目标数据的逆概率权重,并基于所述逆概率权重对所述目标数据进行加权,得到所述目标数据的伪总体数据;
数据补全模块620,用于基于随机森林算法,确定所述伪总体数据的缺失值,并基于所述缺失值以及所述伪总体数据,构建所述目标数据的全量数据;
特征降维筛选模块630,用于基于核主成分分析算法,对所述全量数据进行特征降维,得到所述全量数据的降维特征,并将所述降维特征作为所述目标数据筛选后的特征。
本发明实施例提供的数据特征的筛选装置,通过逆概率加权法,对不含缺失值的目标数据进行加权,得到目标数据的伪总体数据。并将得到的伪总体数据,基于随机森林算法,对伪总体中的缺失数据进行填充,得到了目标数据的全量数据,保障了数据的无偏性,避免了损失有效信息。基于优化的核函数的核主成分分析算法,对全量数据进行降维处理,实现了对目标数据的特征进行筛选的同时,提升了筛选特征的准确性。
在一个实施例中,逆概率加权处理模块610具体用于:
基于逆概率加权法,确定所述目标数据的逆概率权重,包括:
基于逆概率加权法,对所述目标数据进行拟合,得到所述目标数据的特征概率,并将所述特征概率的倒数作为所述逆概率权重。
在一个实施例中,特征降维筛选模块630具体用于:
所述基于核主成分分析算法,对所述全量数据进行特征降维之前,还包括:
基于粒子群优化算法,确定所述核主成分分析算法中核函数的特征值;
调整所述核函数的参数,直到所述特征值中最大特征的贡献率最大;
将所述贡献率最大对应的核函数的参数,作为所述核主成分分析的核函数的参数。
在一个实施例中,特征降维筛选模块630还具体用于:
所述最大特征的贡献率是所述最大特征,与所述特征值中所有特征值总和的比值。
在一个实施例中,特征降维筛选模块630还具体用于:
所述构建所述目标数据的全量数据之后,还包括:
基于标准分数法,对所述全量数据进行标准化处理。
在一个实施例中,逆概率加权处理模块610还具体用于:
所述获取信贷数据中不含缺失值的目标数据之后,还包括:
根据目标数据中数据的相似度,删除所述目标数据中相似度高于预设相似度阈值的数据。
图7示例了一种电子设备的实体结构示意图,如图7所示,该电子设备可以包括:处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740,其中,处理器710,通信接口720,存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令,以执行数据特征的筛选方法,该方法包括:
获取信贷数据中不含缺失值的目标数据,基于逆概率加权法,确定所述目标数据的逆概率权重,并基于所述逆概率权重对所述目标数据进行加权,得到所述目标数据的伪总体数据;
基于随机森林算法,确定所述伪总体数据的缺失值,并基于所述缺失值以及所述伪总体数据,构建所述目标数据的全量数据;
基于核主成分分析算法,对所述全量数据进行特征降维,得到所述全量数据的降维特征,并将所述降维特征作为所述目标数据筛选后的特征。
此外,上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的数据特征的筛选方法,该方法包括:
获取信贷数据中不含缺失值的目标数据,基于逆概率加权法,确定所述目标数据的逆概率权重,并基于所述逆概率权重对所述目标数据进行加权,得到所述目标数据的伪总体数据;
基于随机森林算法,确定所述伪总体数据的缺失值,并基于所述缺失值以及所述伪总体数据,构建所述目标数据的全量数据;
基于核主成分分析算法,对所述全量数据进行特征降维,得到所述全量数据的降维特征,并将所述降维特征作为所述目标数据筛选后的特征。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的数据特征的筛选方法,该方法包括:
获取信贷数据中不含缺失值的目标数据,基于逆概率加权法,确定所述目标数据的逆概率权重,并基于所述逆概率权重对所述目标数据进行加权,得到所述目标数据的伪总体数据;
基于随机森林算法,确定所述伪总体数据的缺失值,并基于所述缺失值以及所述伪总体数据,构建所述目标数据的全量数据;
基于核主成分分析算法,对所述全量数据进行特征降维,得到所述全量数据的降维特征,并将所述降维特征作为所述目标数据筛选后的特征。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种数据特征的筛选方法,其特征在于,包括:
获取信贷数据中不含缺失值的目标数据,基于逆概率加权法,确定所述目标数据的逆概率权重,并基于所述逆概率权重对所述目标数据进行加权,得到所述目标数据的伪总体数据;
基于随机森林算法,确定所述伪总体数据的缺失值,并基于所述缺失值以及所述伪总体数据,构建所述目标数据的全量数据;
基于核主成分分析算法,对所述全量数据进行特征降维,得到所述全量数据的降维特征,并将所述降维特征作为所述目标数据筛选后的特征。
2.根据权利要求1所述的数据特征的筛选方法,其特征在于,所述基于逆概率加权法,确定所述目标数据的逆概率权重,包括:
基于逆概率加权法,对所述目标数据进行拟合,得到所述目标数据的特征概率,并将所述特征概率的倒数作为所述逆概率权重。
3.根据权利要求1所述的数据特征的筛选方法,其特征在于,所述基于核主成分分析算法,对所述全量数据进行特征降维之前,还包括:
基于粒子群优化算法,确定所述核主成分分析算法中核函数的特征值;
调整所述核函数的参数,直到所述特征值中最大特征的贡献率最大;
将所述贡献率最大对应的核函数的参数,作为所述核主成分分析的核函数的参数。
4.根据权利要求3所述的数据特征的筛选方法,其特征在于,所述最大特征的贡献率是所述最大特征,与所述特征值中所有特征值总和的比值。
5.根据权利要求1所述的数据特征的筛选方法,其特征在于,所述构建所述目标数据的全量数据之后,还包括:
基于标准分数法,对所述全量数据进行标准化处理。
6.根据权利要求1所述的数据特征的筛选方法,其特征在于,所述获取信贷数据中不含缺失值的目标数据之后,还包括:
根据目标数据中数据的相似度,删除所述目标数据中相似度高于预设相似度阈值的数据。
7.一种数据特征的筛选装置,其特征在于,包括:
逆概率加权处理模块,用于获取信贷数据中不含缺失值的目标数据,基于逆概率加权法,确定所述目标数据的逆概率权重,并基于所述逆概率权重对所述目标数据进行加权,得到所述目标数据的伪总体数据;
数据补全模块,用于基于随机森林算法,确定所述伪总体数据的缺失值,并基于所述缺失值以及所述伪总体数据,构建所述目标数据的全量数据;
特征降维筛选模块,用于基于核主成分分析算法,对所述全量数据进行特征降维,得到所述全量数据的降维特征,并将所述降维特征作为所述目标数据筛选后的特征。
8.一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述数据特征的筛选方法。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述数据特征的筛选方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述数据特征的筛选方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210927102.2A CN115423598A (zh) | 2022-08-03 | 2022-08-03 | 数据特征的筛选方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210927102.2A CN115423598A (zh) | 2022-08-03 | 2022-08-03 | 数据特征的筛选方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115423598A true CN115423598A (zh) | 2022-12-02 |
Family
ID=84196532
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210927102.2A Pending CN115423598A (zh) | 2022-08-03 | 2022-08-03 | 数据特征的筛选方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115423598A (zh) |
-
2022
- 2022-08-03 CN CN202210927102.2A patent/CN115423598A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020192289A1 (zh) | 确定关系网络图中图节点向量的方法及装置 | |
CN108763277B (zh) | 一种数据分析方法、计算机可读存储介质及终端设备 | |
US6735589B2 (en) | Method of reducing dimensionality of a set of attributes used to characterize a sparse data set | |
EP3743859A1 (en) | Systems and methods for preparing data for use by machine learning algorithms | |
CN113067653B (zh) | 一种频谱感知方法、装置、电子设备及介质 | |
CN116596095B (zh) | 基于机器学习的碳排放量预测模型的训练方法及装置 | |
CN110135681A (zh) | 风险用户识别方法、装置、可读存储介质及终端设备 | |
CN113255842B (zh) | 车辆置换预测方法、装置、设备及存储介质 | |
CN113569933A (zh) | 商标图样匹配方法及其相应的装置、设备、介质 | |
CN110472659B (zh) | 数据处理方法、装置、计算机可读存储介质和计算机设备 | |
CN111062428A (zh) | 一种高光谱图像的聚类方法、系统及设备 | |
WO2020091919A1 (en) | Computer architecture for multiplier-less machine learning | |
Leqi et al. | Supervised learning with general risk functionals | |
CN114003900A (zh) | 变电站二次系统网络入侵检测方法、装置及系统 | |
CN116910083A (zh) | 数据查询方法及装置 | |
CN115423598A (zh) | 数据特征的筛选方法及装置 | |
CN115907775A (zh) | 基于深度学习的个人征信评级方法及其应用 | |
CN115565115A (zh) | 一种舾装件智能识别方法、计算机设备 | |
CN115422000A (zh) | 异常日志处理方法及装置 | |
CN115131646A (zh) | 基于离散系数的深度网络模型压缩方法 | |
Jalaldoust et al. | Causal discovery in Hawkes processes by minimum description length | |
CN114928477B (zh) | 一种网络入侵检测方法、装置、可读存储介质及终端设备 | |
CN114281994B (zh) | 一种基于三层加权模型的文本聚类集成方法及系统 | |
CN118196567B (zh) | 基于大语言模型的数据评价方法、装置、设备及存储介质 | |
CN114842236B (zh) | 图像分类方法、装置、计算机可读存储介质及电子装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |