CN111859057B - 数据特征处理方法及数据特征处理装置 - Google Patents
数据特征处理方法及数据特征处理装置 Download PDFInfo
- Publication number
- CN111859057B CN111859057B CN202010998380.8A CN202010998380A CN111859057B CN 111859057 B CN111859057 B CN 111859057B CN 202010998380 A CN202010998380 A CN 202010998380A CN 111859057 B CN111859057 B CN 111859057B
- Authority
- CN
- China
- Prior art keywords
- data
- model
- features
- performance index
- candidate features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
- G06F18/2113—Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F7/00—Methods or arrangements for processing data by operating upon the order or content of the data handled
- G06F7/22—Arrangements for sorting or merging computer data on continuous record carriers, e.g. tape, drum, disc
- G06F7/24—Sorting, i.e. extracting data from one or more carriers, rearranging the data in numerical or other ordered sequence, and rerecording the sorted data on the original carrier or on a different carrier or set of carriers sorting methods in general
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F7/00—Methods or arrangements for processing data by operating upon the order or content of the data handled
- G06F7/22—Arrangements for sorting or merging computer data on continuous record carriers, e.g. tape, drum, disc
- G06F7/32—Merging, i.e. combining data contained in ordered sequence on at least two record carriers to produce a single carrier or set of carriers having all the original data in the ordered sequence merging methods in general
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q20/00—Payment architectures, schemes or protocols
- G06Q20/38—Payment protocols; Details thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Accounting & Taxation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- General Business, Economics & Management (AREA)
- Computer Hardware Design (AREA)
- Development Economics (AREA)
- Marketing (AREA)
- Economics (AREA)
- Software Systems (AREA)
- Technology Law (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明提供的数据特征处理方法及数据特征处理装置,首先对多组业务数据进行排序得到业务数据排序序列并确定出跨时间验证集以及建模样本数据以采用预设分类器建立识别模型。其次根据识别模型及其增益指标计算业务数据的数据特征的特征重要性数值并以建模样本数据为基准计算相关性系数矩阵。然后根据相关性系数矩阵确定模型待选特征。最后将模型待选特征分批次导入预设分类器以确定模型基准性能数据。如此,能够依据特征重要性数值排序剔除高相关特征,能够减少模型建立过程中的运算时间和内存需求,降低模型复杂度以方便模型的实际运用与后期维护,结合特征重要性与模型性能两个维度在保证模型性能的情况下极大降低模型运算的资源消耗。
Description
技术领域
本发明涉及数据处理技术领域,具体而言,涉及一种数据特征处理方法及数据特征处理装置。
背景技术
在对业务数据进行分析识别时,为了提高分析识别的准确性,需要借助识别模型实现对业务数据的分析识别。在对识别模型进行训练时,特征数据的筛选是确保识别模型的识别准确性以及运行性能的关键。然而在实际应用中,现有的对特征数据进行筛选的方法会导致识别模型的预测准确性差,并且会导致识别模型在运行时耗费计算机设备的大量运行时间以及占用计算机设备的存储空间。
发明内容
为了改善上述问题,本发明提供了一种数据特征处理方法及数据特征处理装置。
第一方面,提供了一种数据特征处理方法,应用于数据处理服务器,所述方法包括:
获取多组业务数据;其中,每组业务数据包括n个数据特征,n为正整数;
按照业务数据的获取时刻由近到远的顺序对所述多组业务数据进行排序得到业务数据排序序列;确定排序靠前的第一设定比例的业务数据作为跨时间验证集并确定排序靠后的第二设定比例的业务数据作为建模样本数据;以所述建模样本数据对应的数据特征为模型特征,采用预设分类器建立识别模型;其中,所述第一设定比例和所述第二设定比例的和值为一;
根据所述识别模型及其增益指标计算所述n个数据特征的特征重要性数值,以所述建模样本数据为基准,计算所述n个数据特征中各个数据特征的相关性系数矩阵;其中,所述相关性系数矩阵为n*n矩阵;
从所述相关性系数矩阵中确定出多个目标集合;其中,不同的目标集合之间不存在重复的元素;
删除每个目标集合中具有最大特征重要性数值的数据特征,并将每个目标集合中的剩余的数据特征合并为一个特征集合,将所述n个数据特征中与所述特征集合中的数据特征相同的数据特征剔除,得到模型待选特征;其中,所述特征集合中的数据特征为m个,所述模型待选特征为n-m个,m为小于n的正整数;
将所述模型待选特征按照特征重要性数值由高到低的顺序分批次导入所述预设分类器,获取预设分类器计算出的相邻两个第一性能指标数据的差值;判断所述差值是否符合预设条件;在所述差值符合所述预设条件时,从所述模型待选特征中确定出自动化模型特征并计算所述识别模型在所述跨时间验证集上的第二性能指标数据;根据所述差值以及所述第二性能指标数据确定模型基准性能数据;
将所述自动化模型特征以及所述模型基准性能数据进行关联存储。
可选地,从所述相关性系数矩阵中确定出多个目标集合,包括:
从所述相关性系数矩阵中选取出相关性系数位于设定数值区间内的行名称和列名称并建立多个第一集合;
将具有相同元素的第一集合进行合并以得到多个目标集合。
可选地,将所述模型待选特征按照特征重要性数值由高到低的顺序分批次导入所述预设分类器,获取预设分类器计算出的相邻两个第一性能指标数据的差值,包括:
将所述模型待选特征按照特征重要性数值由高到低的顺序进行排序得到模型待选特征序列;
将所述序列中的前x个模型待选特征导入所述预设分类器并计算所述预设分类器在设定验证方式下测试集上的x个模型待选特征对应的第一性能指标数据;将所述序列中的前2x个模型待选特征导入所述预设分类器并计算所述预设分类器在设定验证方式下测试集上的2x个模型待选特征对应的第一性能指标数据;其中,x为正整数;
计算所述2x个模型待选特征对应的第一性能指标数据与所述x个模型待选特征对应的第一性能指标数据之间的差值。
可选地,判断所述差值是否符合预设条件,包括:
判断所述差值是否大于设定阈值;
若所述差值大于所述设定阈值,则判定所述差值不符合所述预设条件;
若所述差值小于等于所述设定阈值,则判定所述差值符合所述预设条件。
可选地,根据所述差值以及所述第二性能指标数据确定模型基准性能数据,包括:
计算所述预设分类器在设定验证方式下训练集上的x个模型待选特征对应的第三性能指标数据;
将所述预设分类器在设定验证方式下训练集上的x个模型待选特征对应的第三性能指标数、所述预设分类器在设定验证方式下测试集上的x个模型待选特征对应的第一性能指标数据以及所述第二性能指标数据确定为所述模型基准性能数据。
可选地,所述方法还包括:
在所述差值不符合所述预设条件时,将所述序列中的前3x个模型待选特征导入所述预设分类器并计算所述预设分类器在设定验证方式下测试集上的3x个模型待选特征对应的第一性能指标数据;
计算所述3x个模型待选特征对应的第一性能指标数据与所述2x个模型待选特征对应的第一性能指标数据之间的差值并返回执行判断所述差值是否符合预设条件的步骤。
第二方面,提供一种数据特征处理装置,应用于数据处理服务器,所述装置包括:
数据获取模块,用于获取多组业务数据;其中,每组业务数据包括n个数据特征,n为正整数;
模型建立模块,用于按照业务数据的获取时刻由近到远的顺序对所述多组业务数据进行排序得到业务数据排序序列;确定排序靠前的第一设定比例的业务数据作为跨时间验证集并确定排序靠后的第二设定比例的业务数据作为建模样本数据;以所述建模样本数据对应的数据特征为模型特征,采用预设分类器建立识别模型;其中,所述第一设定比例和所述第二设定比例的和值为一;
矩阵计算模块,用于根据所述识别模型及其增益指标计算所述n个数据特征的特征重要性数值,以所述建模样本数据为基准,计算所述n个数据特征中各个数据特征的相关性系数矩阵;其中,所述相关性系数矩阵为n*n矩阵;
集合确定模块,用于从所述相关性系数矩阵中确定出多个目标集合;其中,不同的目标集合之间不存在重复的元素;
特征剔除模块,用于删除每个目标集合中具有最大特征重要性数值的数据特征,并将每个目标集合中的剩余的数据特征合并为一个特征集合,将所述n个数据特征中与所述特征集合中的数据特征相同的数据特征剔除,得到模型待选特征;其中,所述特征集合中的数据特征为m个,所述模型待选特征为n-m个,m为小于n的正整数;
数据计算模块,用于将所述模型待选特征按照特征重要性数值由高到低的顺序分批次导入所述预设分类器,获取预设分类器计算出的相邻两个第一性能指标数据的差值;判断所述差值是否符合预设条件;在所述差值符合所述预设条件时,从所述模型待选特征中确定出自动化模型特征并计算所述识别模型在所述跨时间验证集上的第二性能指标数据;根据所述差值以及所述第二性能指标数据确定模型基准性能数据;
关联存储模块,用于将所述自动化模型特征以及所述模型基准性能数据进行关联存储。
可选地,
所述集合确定模块,具体用于:从所述相关性系数矩阵中选取出相关性系数位于设定数值区间内的行名称和列名称并建立多个第一集合;将具有相同元素的第一集合进行合并以得到多个目标集合;
所述数据计算模块,具体用于:将所述模型待选特征按照特征重要性数值由高到低的顺序进行排序得到模型待选特征序列;将所述序列中的前x个模型待选特征导入所述预设分类器并计算所述预设分类器在设定验证方式下测试集上的x个模型待选特征对应的第一性能指标数据;将所述序列中的前2x个模型待选特征导入所述预设分类器并计算所述预设分类器在设定验证方式下测试集上的2x个模型待选特征对应的第一性能指标数据;其中,x为正整数;计算所述2x个模型待选特征对应的第一性能指标数据与所述x个模型待选特征对应的第一性能指标数据之间的差值。
可选地,
所述数据计算模块,进一步用于:
判断所述差值是否大于设定阈值;
若所述差值大于所述设定阈值,则判定所述差值不符合所述预设条件;
若所述差值小于等于所述设定阈值,则判定所述差值符合所述预设条件;
所述数据计算模块,进一步用于:
计算所述预设分类器在设定验证方式下训练集上的x个模型待选特征对应的第三性能指标数据;
将所述预设分类器在设定验证方式下训练集上的x个模型待选特征对应的第三性能指标数、所述预设分类器在设定验证方式下测试集上的x个模型待选特征对应的第一性能指标数据以及所述第二性能指标数据确定为所述模型基准性能数据。
可选地,所述数据计算模块,还用于:
在所述差值不符合所述预设条件时,将所述序列中的前3x个模型待选特征导入所述预设分类器并计算所述预设分类器在设定验证方式下测试集上的3x个模型待选特征对应的第一性能指标数据;
计算所述3x个模型待选特征对应的第一性能指标数据与所述2x个模型待选特征对应的第一性能指标数据之间的差值并返回执行判断所述差值是否符合预设条件的步骤。
有益效果
本发明实施例所提供的数据特征处理方法及数据特征处理装置:
首先按照业务数据的获取时刻的先后顺序对获取到的多组业务数据进行排序得到业务数据排序序列并确定出跨时间验证集以及建模样本数据,以根据建模样本数据对应的数据特征为模型特征采用预设分类器建立识别模型;
其次根据所述识别模型及其增益指标计算业务数据的数据特征的特征重要性数值并以建模样本数据为基准计算相关性系数矩阵;
然后根据相关性系数矩阵确定模型待选特征;
最后将模型待选特征分批次导入预设分类器,获取预设分类器计算出的相邻两个第一性能指标数据的差值并在差值符合预设条件时,从模型待选特征中确定出自动化模型特征并计算识别模型在跨时间验证集上的第二性能指标数据,进而根据差值以及第二性能指标数据确定模型基准性能数据。
如此,能够依据特征重要性数值排序剔除高相关特征,不仅能够减少模型建立过程中的运算时间和内存需求,降低模型复杂度以方便模型的实际运用与后期维护,而且让特征的选择更加合理。此外,能够结合特征重要性与模型性能两个维度在保证模型性能的情况下极大降低模型运算的资源消耗。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例所提供的一种数据特征处理方法的流程图。
图2为本发明实施例所提供的一种数据特征处理装置的功能模块框图。
图3为本发明实施例所提供的一种数据处理服务器的硬件结构示意图。
具体实施方式
为了更好的理解上述技术方案,下面通过附图以及具体实施例对本发明技术方案做详细的说明,应当理解本发明实施例以及实施例中的具体特征是对本发明技术方案的详细的说明,而不是对本发明技术方案的限定,在不冲突的情况下,本发明实施例以及实施例中的技术特征可以相互组合。
发明人对现有的特征数据筛选方法进行分析之后发现,现有的特征数据筛选方法的主要步骤如下。
(1)根据终端应用软件或网页获取的用户数据(N维特征)并输入到模型环境,且设定特征对AUC增益的最低阈值。
(2)以XGBoost算法为基础,采用交叉验证技术划分5折训练集与测试集,分别计算以N个特征作为入模特征时,所确立的N个模型在5折交叉验证的测试集上的N个平均AUC值。选择平均AUC值最高的特征作为第一个确定的模型特。
(3)再次重新计算步骤(2)中剩下的N-1个特征中的每一个特征与步骤二中确定的1个特征(即2个模型特征)分别在5折交叉验证的测试集上平均AUC值。分别计算这N-1个平均AUC值减去步骤二中最高的平均AUC值,得到N-1个AUC差值,选择AUC差值最大的模型中的2个模型特征作为第二轮确定的模型特征(这两个特征中有一个是步骤二中确定的)。依次循环,直到在第m轮计算中,AUC差值的最高值小于初始输入的阈值0.005,结束计算,前面m-1轮计算确定的m-1个特征即为最终确定的特征,并保存为特征列表。
(4)输出步骤(3)中保存的特征列表。
然而,上述步骤会存在以下技术问题:
A.上述步骤对计算资源消耗巨大。详细地,上述步骤每确定一个特征之前都需要重新计算未被确定的所有特征n-m分别加入到已被确定的m个特征后,所建立的模型(此时模型有m+1个特征)在5折验证集上的平均AUC值与上一轮最高的平均AUC值的差值,由此选择最高差值对应的特征作为模型特征,这一过程要重复多轮,这对于样本量较大或者特征个数较多的情况,需要消耗巨大的计算与存储资源,严重影响使用便捷性。
B.上述步骤完全依赖测试集上AUC来确定变量,这不仅导致每次选特征前都需要先对剩下的变量分别建立模型才能确定一个特征的巨大资源消耗,而且使得所选特征只基于AUC这一个维度,没有结合算法本身的特点。
为改善上述技术问题,本发明提供了数据特征处理方法及数据特征处理装置。请首先参阅图1,提供了一种数据特征处理方法的流程示意图,所述方法应用于数据处理服务器,具体可以包括以下步骤所描述的内容。
步骤S11,获取多组业务数据。
在本实施例中,每组业务数据包括n个数据特征,n为正整数。例如,以信贷风控领域为例:通过终端设备的应用软件或网页获取用户自行填写的信息及合规的互联网金融用户属性数据,包括合规的互联网金融用户的还款意愿数据和还款能力类数据。还款意愿类数据主要用于判断欺诈风险,如:身份造假、黑产团伙、老赖团伙、中介欺诈和信用黑名单洗白等。还款能力类数据如:消费行为数据、交易行为数据、出行行为数据和多重申请数据等。
步骤S12,按照业务数据的获取时刻由近到远的顺序对所述多组业务数据进行排序得到业务数据排序序列;确定排序靠前的第一设定比例的业务数据作为跨时间验证集并确定排序靠后的第二设定比例的业务数据作为建模样本数据;以所述建模样本数据对应的数据特征为模型特征,采用预设分类器建立识别模型。
在本实施例中,所述第一设定比例和所述第二设定比例的和值为一,具体地,第一设定比例可以为20%,第二设定比例可以为80%。跨时间验证集指按照时间维度选择最新时间的样本作为跨时间验证集,训练集测试集由于随机划分使得两个数据集丧失了与原始数据集相同的时间分布,而跨时间验证集则保证了分布与真实环境一致,一般用于建模完成后验证模型性能的过程。
进一步地,建模样本数据可以作为划分5折交叉验证的训练集与测试集的基础。5折交叉验证的算法逻辑是对建模样本进行5次随机训练集测试集的划分,每次均是80%训练集,20%测试集,在每次划分后均建立一个模型并计算该模型在对应的测试集上的AUC,最后对计算的5个AUC值取平均数,即为5折交叉验证的测试集AUC值。
此外,预设分类器可以基于XGBoost算法及其默认参数确定。
步骤S13,根据所述识别模型及其增益指标计算所述n个数据特征的特征重要性数值,以所述建模样本数据为基准,计算所述n个数据特征中各个数据特征的相关性系数矩阵。
在本实施例中,所述相关性系数矩阵可以为n*n矩阵。数据特征包括互联网金融用户的还款意愿类特征,比如是否身份造假、是否为高逾期风险客群,还包括还款能力类特征,比如收入水平、消费行为、出行行为等特征,因变量为还款行为类特征,本发明中以第1期逾期天数是否超过10天作为因变量。
在本实施例中,增益指标意味着特征对模型中的每个树采取每个特征的贡献而计算出的模型的相对贡献。与其他特征相比,此度量值的较高值意味着它对于生成预测更为重要。特征重要性数值的具体计算方式为数据特征在整个树群作为分裂节点的信息增益之和后除以该数据特征出现的频次。
在本实施例中,相关性系数矩阵可以是spearman相关性系数矩阵,具体计算方法为利用python中的corr(‘spearman’)进行计算。
步骤S14,从所述相关性系数矩阵中确定出多个目标集合。
在本实施例中,不同的目标集合之间不存在重复的元素。
步骤S15,删除每个目标集合中具有最大特征重要性数值的数据特征,并将每个目标集合中的剩余的数据特征合并为一个特征集合,将所述n个数据特征中与所述特征集合中的数据特征相同的数据特征剔除,得到模型待选特征。
在本实施例中,所述特征集合中的数据特征为m个,所述模型待选特征为n-m个,m为小于n的正整数。
步骤S16,将所述模型待选特征按照特征重要性数值由高到低的顺序分批次导入所述预设分类器,获取预设分类器计算出的相邻两个第一性能指标数据的差值;判断所述差值是否符合预设条件;在所述差值符合所述预设条件时,从所述模型待选特征中确定出自动化模型特征并计算所述识别模型在所述跨时间验证集上的第二性能指标数据;根据所述差值以及所述第二性能指标数据确定模型基准性能数据。
步骤S17,将所述自动化模型特征以及所述模型基准性能数据进行关联存储。
可以理解,通过上述步骤S11-步骤S17,能够依据特征重要性数值排序剔除高相关特征,不仅能够减少模型建立过程中的运算时间和内存需求,降低模型复杂度以方便模型的实际运用与后期维护,而且让特征的选择更加合理。此外,能够结合特征重要性与模型性能两个维度在保证模型性能的情况下极大降低模型运算的资源消耗。
在一种可替换的实施方式中,步骤S14所描述的从所述相关性系数矩阵中确定出多个目标集合,具体可以包括以下子步骤:从所述相关性系数矩阵中选取出相关性系数位于设定数值区间内的行名称和列名称并建立多个第一集合;将具有相同元素的第一集合进行合并以得到多个目标集合。
例如,将相关性系数矩阵中相关性系数大于0.8且小于1对应的行列名称建立一个集合,即(行名称,列名称),最终得到y个小集合,即有y对变量相关性大于0.8。这y个小集合中如果有元素相同,则合并有相同元素的集合并对合并后的集合去除重复项。最终得到z个大集合(这z个集合相互之间没有任何重复元素)。比如集合1(var1,var3),集合2(var3,var8),集合3(var4,var5),集合4(var4,var9),集合5(var4,var6),则需要合并为两个大集合(var1,var3,var8),(var4,var5,var6,var9),且最终合并后的两个大集合相互之间没有重复元素。
进一步地,步骤S16所描述的将所述模型待选特征按照特征重要性数值由高到低的顺序分批次导入所述预设分类器,获取预设分类器计算出的相邻两个第一性能指标数据的差值,具体可以包括以下子步骤S1611-子步骤S1613所描述的内容。
步骤S1611,将所述模型待选特征按照特征重要性数值由高到低的顺序进行排序得到模型待选特征序列。
步骤S1612,将所述序列中的前x个模型待选特征导入所述预设分类器并计算所述预设分类器在设定验证方式下测试集上的x个模型待选特征对应的第一性能指标数据;将所述序列中的前2x个模型待选特征导入所述预设分类器并计算所述预设分类器在设定验证方式下测试集上的2x个模型待选特征对应的第一性能指标数据;其中,x为正整数。
步骤S1613,计算所述2x个模型待选特征对应的第一性能指标数据与所述x个模型待选特征对应的第一性能指标数据之间的差值。
在本实施例中,设定验证方式可以是5折交叉验证,x的取值可以为5。
在上述基础上,步骤S16所描述的判断所述差值是否符合预设条件具体包括:判断所述差值是否大于设定阈值;若所述差值大于所述设定阈值,则判定所述差值不符合所述预设条件;若所述差值小于等于所述设定阈值,则判定所述差值符合所述预设条件。
进一步地,步骤S16所描述的根据所述差值以及所述第二性能指标数据确定模型基准性能数据,具体可以包括以下步骤S1621和步骤S1622所描述的内容。
步骤S1621,计算所述预设分类器在设定验证方式下训练集上的x个模型待选特征对应的第三性能指标数据。
步骤S1622,将所述预设分类器在设定验证方式下训练集上的x个模型待选特征对应的第三性能指标数、所述预设分类器在设定验证方式下测试集上的x个模型待选特征对应的第一性能指标数据以及所述第二性能指标数据确定为所述模型基准性能数据。
在步骤S16的基础上,在所述差值不符合所述预设条件时,将所述序列中的前3x个模型待选特征导入所述预设分类器并计算所述预设分类器在设定验证方式下测试集上的3x个模型待选特征对应的第一性能指标数据。计算所述3x个模型待选特征对应的第一性能指标数据与所述2x个模型待选特征对应的第一性能指标数据之间的差值并返回执行判断所述差值是否符合预设条件的步骤。
下面以一具体示例来说明步骤S16的实现过程。
以XGBoost算法及其默认参数为分类器,以建模样本数据为基准,将模型待选特征根据特征重要性数值从高到低排序。将第1至第5个模型待选特征加入分类器,计算分类器在5折交叉验证时测试集上的平均AUC值a1,得到第1个平均AUC值;再将第1-10个特征加入分类器,计算分类器在5折交叉验证时测试集上的平均AUC值a2,并判断a2-a1是否大于平均AUC差值的阈值0.005,若大于,则继续将第1-15个特征加入分类器,依次类推,最终当第k次平均AUC值减去第k-1次平均AUC值的差额小于步骤一输入的0.005时,终止运算,并将第k-1次模型的特征作为自动化模型特征,保存为列表文件,同时计算模型在跨时间样本上的AUC作为后续建模调参的依据,并将第k-1次的训练集AUC均值、测试集AUC均值、跨时间样本上的AUC值分别保存为模型基准性能。
可以理解,所述x个模型待选特征对应的第一性能指标数据对应a1,所述2x个模型待选特征对应的第一性能指标数据对应a2,所述3x个模型待选特征对应的第一性能指标数据对应a3,以此类推。
基于上述同样的发明构思,请结合参阅图2,提供了一种数据特征处理装置200,应用于数据处理服务器,所述装置包括:
数据获取模块210,用于获取多组业务数据;其中,每组业务数据包括n个数据特征,n为正整数;
模型建立模块220,用于按照业务数据的获取时刻由近到远的顺序对所述多组业务数据进行排序得到业务数据排序序列;确定排序靠前的第一设定比例的业务数据作为跨时间验证集并确定排序靠后的第二设定比例的业务数据作为建模样本数据;以所述建模样本数据对应的数据特征为模型特征,采用预设分类器建立识别模型;其中,所述第一设定比例和所述第二设定比例的和值为一;
矩阵计算模块230,用于根据所述识别模型及其增益指标计算所述n个数据特征的特征重要性数值,以所述建模样本数据为基准,计算所述n个数据特征中各个数据特征的相关性系数矩阵;其中,所述相关性系数矩阵为n*n矩阵;
集合确定模块240,用于从所述相关性系数矩阵中确定出多个目标集合;其中,不同的目标集合之间不存在重复的元素;
特征剔除模块250,用于删除每个目标集合中具有最大特征重要性数值的数据特征,并将每个目标集合中的剩余的数据特征合并为一个特征集合,将所述n个数据特征中与所述特征集合中的数据特征相同的数据特征剔除,得到模型待选特征;其中,所述特征集合中的数据特征为m个,所述模型待选特征为n-m个,m为小于n的正整数;
数据计算模块260,用于将所述模型待选特征按照特征重要性数值由高到低的顺序分批次导入所述预设分类器,获取预设分类器计算出的相邻两个第一性能指标数据的差值;判断所述差值是否符合预设条件;在所述差值符合所述预设条件时,从所述模型待选特征中确定出自动化模型特征并计算所述识别模型在所述跨时间验证集上的第二性能指标数据;根据所述差值以及所述第二性能指标数据确定模型基准性能数据;
关联存储模块270,用于将所述自动化模型特征以及所述模型基准性能数据进行关联存储。
可选地,所述集合确定模块240,具体用于:从所述相关性系数矩阵中选取出相关性系数位于设定数值区间内的行名称和列名称并建立多个第一集合;将具有相同元素的第一集合进行合并以得到多个目标集合;
所述数据计算模块260,具体用于:将所述模型待选特征按照特征重要性数值由高到低的顺序进行排序得到模型待选特征序列;将所述序列中的前x个模型待选特征导入所述预设分类器并计算所述预设分类器在设定验证方式下测试集上的x个模型待选特征对应的第一性能指标数据;将所述序列中的前2x个模型待选特征导入所述预设分类器并计算所述预设分类器在设定验证方式下测试集上的2x个模型待选特征对应的第一性能指标数据;其中,x为正整数;计算所述2x个模型待选特征对应的第一性能指标数据与所述x个模型待选特征对应的第一性能指标数据之间的差值。
可选地,所述数据计算模块260,进一步用于:
判断所述差值是否大于设定阈值;
若所述差值大于所述设定阈值,则判定所述差值不符合所述预设条件;
若所述差值小于等于所述设定阈值,则判定所述差值符合所述预设条件;
所述数据计算模块,进一步用于:
计算所述预设分类器在设定验证方式下训练集上的x个模型待选特征对应的第三性能指标数据;
将所述预设分类器在设定验证方式下训练集上的x个模型待选特征对应的第三性能指标数、所述预设分类器在设定验证方式下测试集上的x个模型待选特征对应的第一性能指标数据以及所述第二性能指标数据确定为所述模型基准性能数据。
可选地,所述数据计算模块260,还用于:
在所述差值不符合所述预设条件时,将所述序列中的前3x个模型待选特征导入所述预设分类器并计算所述预设分类器在设定验证方式下测试集上的3x个模型待选特征对应的第一性能指标数据;
计算所述3x个模型待选特征对应的第一性能指标数据与所述2x个模型待选特征对应的第一性能指标数据之间的差值并返回执行判断所述差值是否符合预设条件的步骤。
关于上述功能模块的描述请参阅对图1所示的方法的说明,在此不作赘述。
在上述基础上,请结合参阅图3,提供了一种数据处理服务器300的硬件结构示意图,所述数据处理服务器300包括互相之间通信的处理器310和存储器320,所述处理器310通过从所述存储器320中调取计算机程序,并运行所述计算机程序实现如图1所示的方法。
综上,本发明实施例所提供的数据特征处理方法及数据特征处理装置,首先按照业务数据的获取时刻的先后顺序对获取到的多组业务数据进行排序得到业务数据排序序列并确定出跨时间验证集以及建模样本数据,以根据建模样本数据对应的数据特征为模型特征采用预设分类器建立识别模型。其次根据所述识别模型及其增益指标计算业务数据的数据特征的特征重要性数值并以建模样本数据为基准计算相关性系数矩阵。然后根据相关性系数矩阵确定模型待选特征。最后将模型待选特征分批次导入预设分类器,获取预设分类器计算出的相邻两个第一性能指标数据的差值并在差值符合预设条件时,从模型待选特征中确定出自动化模型特征并计算识别模型在跨时间验证集上的第二性能指标数据,进而根据差值以及第二性能指标数据确定模型基准性能数据。
如此,能够依据特征重要性数值排序剔除高相关特征,不仅能够减少模型建立过程中的运算时间和内存需求,降低模型复杂度以方便模型的实际运用与后期维护,而且让特征的选择更加合理。此外,能够结合特征重要性与模型性能两个维度在保证模型性能的情况下极大降低模型运算的资源消耗。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种数据特征处理方法,其特征在于,应用于数据处理服务器,所述方法包括:
获取多组业务数据;其中,每组业务数据包括n个数据特征,n为正整数;
按照业务数据的获取时刻由近到远的顺序对所述多组业务数据进行排序得到业务数据排序序列;确定排序靠前的第一设定比例的业务数据作为跨时间验证集并确定排序靠后的第二设定比例的业务数据作为建模样本数据;以所述建模样本数据对应的数据特征为模型特征,采用预设分类器建立识别模型;其中,所述第一设定比例和所述第二设定比例的和值为一;
根据所述识别模型及其增益指标计算所述n个数据特征的特征重要性数值,以所述建模样本数据为基准,计算所述n个数据特征中各个数据特征的相关性系数矩阵;其中,所述相关性系数矩阵为n*n矩阵;
从所述相关性系数矩阵中确定出多个目标集合;其中,不同的目标集合之间不存在重复的元素;
删除每个目标集合中具有最大特征重要性数值的数据特征,并将每个目标集合中的剩余的数据特征合并为一个特征集合,将所述n个数据特征中与所述特征集合中的数据特征相同的数据特征剔除,得到模型待选特征;其中,所述特征集合中的数据特征为m个,所述模型待选特征为n-m个,m为小于n的正整数;
将所述模型待选特征按照特征重要性数值由高到低的顺序分批次导入所述预设分类器,获取预设分类器计算出的相邻两个第一性能指标数据的差值;判断所述差值是否符合预设条件;在所述差值符合所述预设条件时,从所述模型待选特征中确定出自动化模型特征并计算所述识别模型在所述跨时间验证集上的第二性能指标数据;根据所述差值以及所述第二性能指标数据确定模型基准性能数据;
将所述自动化模型特征以及所述模型基准性能数据进行关联存储。
2.根据权利要求1所述的方法,其特征在于,从所述相关性系数矩阵中确定出多个目标集合,包括:
从所述相关性系数矩阵中选取出相关性系数位于设定数值区间内的行名称和列名称并建立多个第一集合;
将具有相同元素的第一集合进行合并以得到多个目标集合。
3.根据权利要求1所述的方法,其特征在于,将所述模型待选特征按照特征重要性数值由高到低的顺序分批次导入所述预设分类器,获取预设分类器计算出的相邻两个第一性能指标数据的差值,包括:
将所述模型待选特征按照特征重要性数值由高到低的顺序进行排序得到模型待选特征序列;
将所述序列中的前x个模型待选特征导入所述预设分类器并计算所述预设分类器在设定验证方式下测试集上的x个模型待选特征对应的第一性能指标数据;将所述序列中的前2x个模型待选特征导入所述预设分类器并计算所述预设分类器在设定验证方式下测试集上的2x个模型待选特征对应的第一性能指标数据;其中,x为正整数;
计算所述2x个模型待选特征对应的第一性能指标数据与所述x个模型待选特征对应的第一性能指标数据之间的差值。
4.根据权利要求3所述的方法,其特征在于,判断所述差值是否符合预设条件,包括:
判断所述差值是否大于设定阈值;
若所述差值大于所述设定阈值,则判定所述差值不符合所述预设条件;
若所述差值小于等于所述设定阈值,则判定所述差值符合所述预设条件。
5.根据权利要求4所述的方法,其特征在于,根据所述差值以及所述第二性能指标数据确定模型基准性能数据,包括:
计算所述预设分类器在设定验证方式下训练集上的x个模型待选特征对应的第三性能指标数据;
将所述预设分类器在设定验证方式下训练集上的x个模型待选特征对应的第三性能指标数、所述预设分类器在设定验证方式下测试集上的x个模型待选特征对应的第一性能指标数据以及所述第二性能指标数据确定为所述模型基准性能数据。
6.根据权利要求4所述的方法,其特征在于,所述方法还包括:
在所述差值不符合所述预设条件时,将所述序列中的前3x个模型待选特征导入所述预设分类器并计算所述预设分类器在设定验证方式下测试集上的3x个模型待选特征对应的第一性能指标数据;
计算所述3x个模型待选特征对应的第一性能指标数据与所述2x个模型待选特征对应的第一性能指标数据之间的差值并返回执行判断所述差值是否符合预设条件的步骤。
7.一种数据特征处理装置,其特征在于,应用于数据处理服务器,所述装置包括:
数据获取模块,用于获取多组业务数据;其中,每组业务数据包括n个数据特征,n为正整数;
模型建立模块,用于按照业务数据的获取时刻由近到远的顺序对所述多组业务数据进行排序得到业务数据排序序列;确定排序靠前的第一设定比例的业务数据作为跨时间验证集并确定排序靠后的第二设定比例的业务数据作为建模样本数据;以所述建模样本数据对应的数据特征为模型特征,采用预设分类器建立识别模型;其中,所述第一设定比例和所述第二设定比例的和值为一;
矩阵计算模块,用于根据所述识别模型及其增益指标计算所述n个数据特征的特征重要性数值,以所述建模样本数据为基准,计算所述n个数据特征中各个数据特征的相关性系数矩阵;其中,所述相关性系数矩阵为n*n矩阵;
集合确定模块,用于从所述相关性系数矩阵中确定出多个目标集合;其中,不同的目标集合之间不存在重复的元素;
特征剔除模块,用于删除每个目标集合中具有最大特征重要性数值的数据特征,并将每个目标集合中的剩余的数据特征合并为一个特征集合,将所述n个数据特征中与所述特征集合中的数据特征相同的数据特征剔除,得到模型待选特征;其中,所述特征集合中的数据特征为m个,所述模型待选特征为n-m个,m为小于n的正整数;
数据计算模块,用于将所述模型待选特征按照特征重要性数值由高到低的顺序分批次导入所述预设分类器,获取预设分类器计算出的相邻两个第一性能指标数据的差值;判断所述差值是否符合预设条件;在所述差值符合所述预设条件时,从所述模型待选特征中确定出自动化模型特征并计算所述识别模型在所述跨时间验证集上的第二性能指标数据;根据所述差值以及所述第二性能指标数据确定模型基准性能数据;
关联存储模块,用于将所述自动化模型特征以及所述模型基准性能数据进行关联存储。
8.根据权利要求7所述的装置,其特征在于,
所述集合确定模块,具体用于:从所述相关性系数矩阵中选取出相关性系数位于设定数值区间内的行名称和列名称并建立多个第一集合;将具有相同元素的第一集合进行合并以得到多个目标集合;
所述数据计算模块,具体用于:将所述模型待选特征按照特征重要性数值由高到低的顺序进行排序得到模型待选特征序列;将所述序列中的前x个模型待选特征导入所述预设分类器并计算所述预设分类器在设定验证方式下测试集上的x个模型待选特征对应的第一性能指标数据;将所述序列中的前2x个模型待选特征导入所述预设分类器并计算所述预设分类器在设定验证方式下测试集上的2x个模型待选特征对应的第一性能指标数据;其中,x为正整数;计算所述2x个模型待选特征对应的第一性能指标数据与所述x个模型待选特征对应的第一性能指标数据之间的差值。
9.根据权利要求8所述的装置,其特征在于,
所述数据计算模块,进一步用于:
判断所述差值是否大于设定阈值;
若所述差值大于所述设定阈值,则判定所述差值不符合所述预设条件;
若所述差值小于等于所述设定阈值,则判定所述差值符合所述预设条件;
计算所述预设分类器在设定验证方式下训练集上的x个模型待选特征对应的第三性能指标数据;
将所述预设分类器在设定验证方式下训练集上的x个模型待选特征对应的第三性能指标数、所述预设分类器在设定验证方式下测试集上的x个模型待选特征对应的第一性能指标数据以及所述第二性能指标数据确定为所述模型基准性能数据。
10.根据权利要求9所述的装置,其特征在于,所述数据计算模块,还用于:
在所述差值不符合所述预设条件时,将所述序列中的前3x个模型待选特征导入所述预设分类器并计算所述预设分类器在设定验证方式下测试集上的3x个模型待选特征对应的第一性能指标数据;
计算所述3x个模型待选特征对应的第一性能指标数据与所述2x个模型待选特征对应的第一性能指标数据之间的差值并返回执行判断所述差值是否符合预设条件的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010998380.8A CN111859057B (zh) | 2020-09-22 | 2020-09-22 | 数据特征处理方法及数据特征处理装置 |
US17/380,037 US20220091818A1 (en) | 2020-09-22 | 2021-07-20 | Data feature processing method and data feature processing apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010998380.8A CN111859057B (zh) | 2020-09-22 | 2020-09-22 | 数据特征处理方法及数据特征处理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111859057A CN111859057A (zh) | 2020-10-30 |
CN111859057B true CN111859057B (zh) | 2020-12-04 |
Family
ID=72967703
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010998380.8A Active CN111859057B (zh) | 2020-09-22 | 2020-09-22 | 数据特征处理方法及数据特征处理装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20220091818A1 (zh) |
CN (1) | CN111859057B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113505273B (zh) * | 2021-05-24 | 2023-08-22 | 平安银行股份有限公司 | 基于重复数据筛选的数据排序方法、装置、设备及介质 |
CN117113033A (zh) * | 2023-09-18 | 2023-11-24 | 深圳市恒迈翔科技有限公司 | 一种新能源汽车的充电数据采集方法及系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI419070B (zh) * | 2011-01-11 | 2013-12-11 | Nat Univ Tsing Hua | 相關性變數篩選系統及其篩選方法 |
CN108596757A (zh) * | 2018-04-23 | 2018-09-28 | 大连火眼征信管理有限公司 | 一种智能组合的个人信用评估方法及系统 |
CN110197706B (zh) * | 2019-04-26 | 2021-08-27 | 深圳市宁远科技股份有限公司 | 一种基于sbs的层次化特征选择方法、系统及应用 |
-
2020
- 2020-09-22 CN CN202010998380.8A patent/CN111859057B/zh active Active
-
2021
- 2021-07-20 US US17/380,037 patent/US20220091818A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
US20220091818A1 (en) | 2022-03-24 |
CN111859057A (zh) | 2020-10-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111291816B (zh) | 针对用户分类模型进行特征处理的方法及装置 | |
CN110298663B (zh) | 基于序列宽深学习的欺诈交易检测方法 | |
CN111428217B (zh) | 欺诈团伙识别方法、装置、电子设备及计算机可读存储介质 | |
CN111859057B (zh) | 数据特征处理方法及数据特征处理装置 | |
CN108197795B (zh) | 恶意团体账户识别方法、装置、终端及存储介质 | |
CN113656699B (zh) | 用户特征向量确定方法、相关设备及介质 | |
CN111091408A (zh) | 用户识别模型创建方法、装置与识别方法、装置 | |
CN112529319A (zh) | 基于多维特征的评分方法、装置、计算机设备及存储介质 | |
CN113052577A (zh) | 一种区块链数字货币虚拟地址的类别推测方法及系统 | |
CN111311276B (zh) | 一种异常用户团体的识别方法、识别装置及可读存储介质 | |
CN116737373A (zh) | 负载均衡方法、装置、计算机设备、存储介质 | |
CN115564578B (zh) | 欺诈识别模型生成方法 | |
CN111899092B (zh) | 基于二道模型的业务数据筛选方法及装置 | |
CN114943563A (zh) | 一种权益推送方法、装置、计算机设备及存储介质 | |
CN114170000A (zh) | 信用卡用户风险类别识别方法、装置、计算机设备和介质 | |
CN113177613A (zh) | 系统资源数据分配方法及装置 | |
CN109308565B (zh) | 人群绩效等级识别方法、装置、存储介质及计算机设备 | |
CN113298641A (zh) | 诚信程度认知方法及装置 | |
CN113159606A (zh) | 操作风险识别方法及装置 | |
CN116012123B (zh) | 一种基于Rete算法的风控规则引擎方法及系统 | |
CN113538020B (zh) | 获取客群特征关联度方法、装置、存储介质和电子装置 | |
CN113159957B (zh) | 一种交易处理方法及装置 | |
CN115600112A (zh) | 获取行为预测模型训练集的方法、装置、设备及介质 | |
CN117113131A (zh) | 分类模型的确定方法、装置、计算机设备和存储介质 | |
CN115423598A (zh) | 数据特征的筛选方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |