CN116541684A - 数据处理方法及相关装置 - Google Patents
数据处理方法及相关装置 Download PDFInfo
- Publication number
- CN116541684A CN116541684A CN202210089738.4A CN202210089738A CN116541684A CN 116541684 A CN116541684 A CN 116541684A CN 202210089738 A CN202210089738 A CN 202210089738A CN 116541684 A CN116541684 A CN 116541684A
- Authority
- CN
- China
- Prior art keywords
- feature
- original
- features
- target
- training data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 27
- 238000012549 training Methods 0.000 claims abstract description 273
- 238000012545 processing Methods 0.000 claims abstract description 180
- 238000011156 evaluation Methods 0.000 claims abstract description 178
- 238000012216 screening Methods 0.000 claims abstract description 142
- 238000000034 method Methods 0.000 claims abstract description 87
- 238000005315 distribution function Methods 0.000 claims abstract description 74
- 238000012937 correction Methods 0.000 claims description 151
- 238000012360 testing method Methods 0.000 claims description 52
- 238000009826 distribution Methods 0.000 claims description 43
- 230000006870 function Effects 0.000 claims description 43
- 230000008569 process Effects 0.000 claims description 37
- 230000001186 cumulative effect Effects 0.000 claims description 31
- 230000004083 survival effect Effects 0.000 claims description 29
- 238000004590 computer program Methods 0.000 claims description 21
- 238000009827 uniform distribution Methods 0.000 claims description 6
- 230000005540 biological transmission Effects 0.000 claims description 2
- 238000007726 management method Methods 0.000 description 64
- 238000005516 engineering process Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 14
- 238000013473 artificial intelligence Methods 0.000 description 12
- 238000010801 machine learning Methods 0.000 description 9
- 238000004422 calculation algorithm Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 238000012795 verification Methods 0.000 description 6
- 238000007405 data analysis Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000008707 rearrangement Effects 0.000 description 3
- 239000000654 additive Substances 0.000 description 2
- 230000000996 additive effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 240000008168 Ficus benjamina Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提出一种数据处理方法及相关装置,可应用于地图领域、交通领域等大数据场景中。该方法包括:接收管理节点发送的目标领域的目标训练数据集,目标训练数据集包括多个原始特征,每个训练数据集包含的原始特征的特征标识相同;调用目标领域对应的特定分布函数,生成目标训练数据集的第一随机特征;根据第一随机特征,对目标训练数据集中的每个原始特征进行特征贡献评估处理,得到每个原始特征的特征类型;根据每个原始特征的特征类型从多个原始特征中筛选出目标特征;将筛选出的目标特征发送至管理节点,以使管理节点根据k个时间周期的目标特征确定筛选特征。本申请可以提高特征筛选的准确性和效率。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据处理方法、一种数据处理装置、一种计算机设备、一种计算机可读存储介质及一种计算机程序产品。
背景技术
在诸如金融领域、地图领域、交通领域等大数据场景中,特征筛选成为大数据场景中数据分析的重要一环。目前特征筛选方法主要是人工对训练数据集中的多个原始特征进行筛选以获取筛选后的目标特征。目前这种人工筛选的方式准确性较低,因此如何提高特征筛选的准确性是当前亟待解决的一个技术问题。
发明内容
本申请实施例提出了一种数据处理方法、装置、系统、计算机设备、计算机可读存储介质及计算机程序产品,可以提高特征筛选的准确性和效率。
一方面,本申请实施例提供了一种数据处理方法,该方法包括:
接收管理节点发送的目标领域的目标训练数据集,目标训练数据集包括多个原始特征,目标训练数据集是k个训练数据集中的一个训练数据集,每个训练数据集对应一个时间周期,每个训练数据集包含的原始特征的特征标识相同,k为正整数;
调用目标领域对应的特定分布函数,生成目标训练数据集的第一随机特征;
根据第一随机特征,对目标训练数据集中的每个原始特征进行特征贡献评估处理,得到每个原始特征的特征类型;
根据每个原始特征的特征类型从多个原始特征中筛选出目标特征;
将筛选出的目标特征发送至管理节点,以使管理节点根据k个时间周期的目标特征确定筛选特征。
一方面,本申请实施例提供了一种数据处理方法,该方法包括:
获取目标时间段内属于目标领域的样本数据集,目标时间段包括k个时间周期,样本数据集包括k个时间周期一一对应的训练数据集,一个训练数据集包括多个原始特征,每个训练数据集包含的原始特征的特征标识相同,k为正整数;
将k个训练数据集分别发送至k个工作节点,以使目标工作节点根据目标训练数据集中的每个原始特征的特征类型,从多个原始特征中筛选出目标特征,每个原始特征的特征类型是目标工作节点根据第一随机特征,对原始特征进行特征贡献评估处理后确定的,第一随机特征是调用目标领域对应的特定分布函数生成的特征,目标工作节点是k个工作节点中的任一工作节点,目标训练数据集是目标工作节点接收到的训练数据集;
接收k个工作节点发送的目标特征,并将接收到的目标特征进行汇总,得到筛选特征,输出筛选特征。
一方面,本申请实施例提供了一种数据处理装置,该装置包括:
接收单元,用于接收管理节点发送的目标领域的目标训练数据集,目标训练数据集包括多个原始特征,目标训练数据集是k个训练数据集中的一个训练数据集,每个训练数据集对应一个时间周期,每个训练数据集包含的原始特征的特征标识相同,k为正整数;
处理单元,用于调用目标领域对应的特定分布函数,生成目标训练数据集的第一随机特征;
处理单元,还用于根据第一随机特征,对目标训练数据集中的每个原始特征进行特征贡献评估处理,得到每个原始特征的特征类型;
处理单元,还用于根据每个原始特征的特征类型从多个原始特征中筛选出目标特征;
发送单元,用于将筛选出的目标特征发送至管理节点,以使管理节点根据k个时间周期的目标特征确定筛选特征。
在一种可能的实现方式中,特征类型包括接受特征类型、拒绝特征类型和待定特征类型;处理单元根据每个原始特征的特征类型从所述多个原始特征中筛选出目标特征,用于执行以下操作:
根据每个原始特征的特征类型,调整接受特征列表、拒绝特征列表以及待定特征列表,一个特征列表对应一种特征类型;
当满足迭代停止条件时,将接受特征列表和所述待定特征列表中记录的原始特征作为目标特征;
当不满足迭代停止条件时,将接受特征列表和待定特征列表中记录的原始特征组合为新的目标训练数据集。
在一种可能的实现方式中,当目标训练数据集的累积迭代次数达到预设迭代次数时,则确定满足迭代停止条件;或者,
当接受特征列表、拒绝特征列表以及待定特征列表均不发生变化时,则确定满足迭代停止条件。
在一种可能的实现方式中,处理单元根据第一随机特征,对目标训练数据集中的每个原始特征进行特征贡献评估处理,得到每个原始特征的特征类型,用于执行以下操作:
对目标训练数据集中的多个原始特征的特征值进行随机重排,确定多个第二随机特征;
调用特征打分模型对第一随机特征、多个第二随机特征和目标训练数据集中的每个原始特征进行特征贡献评估处理,得到各个原始特征的评估分、第一随机特征的评估分、以及各个第二随机特征的评估分;
根据各个原始特征的评估分、第一随机特征的评估分、以及各个第二随机特征的评估分,对每个原始特征进行特征校正处理,得到每个原始特征的特征类型。
在一种可能的实现方式中,处理单元根据各个原始特征的评估分、第一随机特征的评估分、以及各个第二随机特征的评估分,对每个原始特征进行特征校正处理,得到每个原始特征的特征类型,用于执行以下操作:
根据各个原始特征的评估分、各个第一随机特征的评估分、以及各个第二随机特征的评估分,对每个原始特征进行特征重要性评估,得到每个原始特征的试验成功次数;
基于每个原始特征的试验成功次数,对每个原始特征进行特征校正处理,得到每个原始特征的校正结果;
根据每个原始特征的校正结果,得到每个原始特征的特征类型。
在一种可能的实现方式中,处理单元根据各个原始特征的评估分、第一随机特征的评估分、以及各个第二随机特征的评估分,对每个原始特征进行特征重要性评估,得到每个原始特征的试验成功次数,用于执行以下操作:
根据第一随机特征的评估分、以及各个第二随机特征的评估分,确定出最高的目标评估分;
若任一个原始特征的评估分高于目标评估分,则调整任一个原始特征的试验成功次数。
在一种可能的实现方式中,处理单元基于每个原始特征的试验结果,对每个原始特征进行特征校正处理,得到每个原始特征的校正结果,用于执行以下操作:
获取目标训练数据集的累积迭代次数;
根据任一个原始特征的试验成功次数和累积迭代次数,确定任一个原始特征的待校正显著水平值;
对任一个原始特征的待校正显著水平值进行校正处理,得到任一个原始特征的校正结果。
在一种可能的实现方式中,处理单元对任一个原始特征的待校正显著水平值进行校正处理,得到任一个原始特征的校正结果,用于执行以下操作:
按照第一校正方式对任一个原始特征的待校正显著水平值进行校正处理,得到任一个原始特征校正后的显著水平值;
按照第二校正方式对任一个原始特征校正后的显著水平值再次进行校正处理,得到任一个原始特征的校正结果。
在一种可能的实现方式中,任一个原始特征的校正结果包括参考校正累积分布值和参考校正生存函数值;
处理单元根据每个原始特征的校正结果,得到每个原始特征的特征类型,用于执行以下操作:
若参考校正累积分布值小于预设阈值,则将任一个原始特征的特征类型确定为接受特征类型;
若参考校正生存函数值小于预设阈值,则将任一个原始特征的特征类型确定为拒绝特征类型;
若任一个原始特征的参考校正累积分布值和参考校正生存函数值均大于预设阈值,则将任一个原始特征的特征类型确定为待定特征类型。
在一种可能的实现方式中,特定分布函数的数量为多个,任一个特定分布函数包括以下任一种:对数正态分布函数、二项式分布函数、伯努利分布函数、指数分布函数、均匀分布函数、正态分布函数。
一方面,本申请实施例提供了一种数据处理装置,该装置包括:
获取单元,用于获取目标时间段内属于目标领域的样本数据集,目标时间段包括k个时间周期,样本数据集包括k个时间周期一一对应的训练数据集,一个训练数据集包括多个原始特征,每个训练数据集包含的原始特征的特征标识相同,k为正整数;
发送单元,用于将k个训练数据集分别发送至k个工作节点,以使目标工作节点根据目标训练数据集中的每个原始特征的特征类型,从多个原始特征中筛选出目标特征,每个原始特征的特征类型是目标工作节点根据第一随机特征,对原始特征进行特征贡献评估处理后确定的,第一随机特征是调用目标领域对应的特定分布函数生成的特征,目标工作节点是k个工作节点中的任一工作节点,目标训练数据集是目标工作节点接收到的训练数据集;
处理单元,用于接收k个工作节点发送的目标特征,并将接收到的目标特征进行汇总,得到筛选特征,输出筛选特征。
一方面,本申请实施例提出了一种数据处理系统,数据处理系统包括管理节点和工作节点,包括如下步骤:
管理节点获取目标时间段内属于目标领域的样本数据集,目标时间段包括k个时间周期,样本数据集包括k个时间周期一一对应的训练数据集,一个训练数据集包括多个原始特征,每个训练数据集包含的原始特征的特征标识相同,k为正整数;
管理节点将目标训练数据集发送至工作节点,目标训练数据集是k个训练数据集中的一个训练数据集;
工作节点调用目标领域对应的特定分布函数,生成目标训练数据集的第一随机特征;
工作节点根据第一随机特征,对目标训练数据集中的每个原始特征进行特征贡献评估处理,得到每个原始特征的特征类型;
工作节点根据每个原始特征的特征类型从多个原始特征中筛选出目标特征;
工作节点将筛选出的目标特征发送至管理节点;
管理节点将接收到的目标特征进行汇总,得到筛选特征,输出筛选特征。
一方面,本申请实施例提供一种计算机设备,该计算机设备包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述的数据处理方法。
一方面,本申请实施例提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被计算机设备的处理器读取并执行时,使得计算机设备执行上述的数据处理方法。
一方面,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述的数据处理方法。
可见,本申请中,在对每个原始特征进行特征筛选的过程中,可以根据第一随机特征进行特征贡献评估处理。由于特征筛选既参考了训练数据集本身的原始特征,还额外增加了与原始特征的目标领域相关的第一随机特征,因此丰富了特征筛选的样本数据,从而可以提高特征筛选的准确性。进一步地,一个工作节点可以负责对一个周期的训练数据集的多个原始特征进行处理,从而筛选得到目标特征,可以理解的是,k个训练数据集可以由k个工作节点同步执行,最终将各自筛选得到的目标特征发送至管理结果汇总。相比于,单一的工作节点逐一处理一个训练数据集而言,本申请实施例可以分布式处理,从而可以提高特征筛选的效率。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种数据处理方案的原理示意图;
图2是本申请实施例提供的一种数据处理系统的结构示意图;
图3是本申请实施例提供的一种数据处理方法的流程示意图;
图4是本申请实施例提供的一种确定特征类型的流程示意图;
图5是本申请实施例提供的一种生成随机特征的流程示意图;
图6是本申请实施例提供的一种特征打分模型的流程示意图;
图7是本申请实施例提供的另一种数据处理方法的流程示意图;
图8是本申请实施例提供的一种数据处理系统的交互示意图;
图9是本申请实施例提供的一种数据处理装置的结构示意图;
图10是本申请实施例提供的另一种数据处理装置的结构示意图;
图11是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。
特别需要说明的是,在本申请的后续具体实施方式中,涉及到用户信息(例如用户的性别、年龄)等相关的数据,当本申请以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本申请实施例提出一种数据处理方案,该方案可以调用目标领域对应的特定分布函数,生成目标训练数据集的第一随机特征,从而提高特征筛选的准确性,基于本方案所筛选得到的筛选特征可以应用于诸如金融领域、地图领域、交通领域等大数据应用场景中,具体可以为这些大数据应用场景提供相应的数据支持。请参见图1,图1是本申请实施例提供的一种数据处理方案的原理图。接下来结合图1对本申请实施例提供的数据处理方案的大致原理进行简要描述:
首先,工作节点可以接收管理节点发送的目标领域(例如金融领域)的目标训练数据集,目标训练数据集包括多个原始特征,目标训练数据集是k个训练数据集中的一个训练数据集,每个训练数据集对应一个时间周期,每个训练数据集包含的原始特征的特征标识相同,k为正整数。然后,可以调用目标领域对应的特定分布函数,生成目标训练数据集的第一随机特征。在一种可能的实现方式中,工作节点还可以根据原始特征生成第二随机特征。
然后,工作节点可以根据第一随机特征,对目标训练数据集中的每个原始特征进行特征贡献评估处理,得到每个原始特征的特征类型。具体来说,工作节点可以通过XGBoost(Extreme Gradient Boosting,极端梯度提升)模型对第一随机特征、第二随机特征和原始特征进行特征重要性排序,以得到各个原始特征的试验成功次数;以及,对每个原始特征进行特征有效性检验和多种检验校正方式(包括但不限于:FDR(False DiscoveryRate,伪发现率/假阳性率)校正、Bonferroni校正等方式),以得到每个原始特征的特征类型,其中,原始特征的特征类型可以包括以下任一种:拒绝特征类型、接受特征类型和待定特征类型。
接下来,工作节点可以根据每个原始特征的特征类型从多个原始特征中筛选出目标特征。可以理解的是,上述过程可以重复迭代执行,直至工作节点从原始特征中筛选得到目标特征为止。最后,可以将筛选出的目标特征发送至管理节点,以使管理节点根据k个时间周期的目标特征确定筛选特征。
由此可见,本申请中,在对每个原始特征进行特征筛选的过程中,可以根据第一随机特征进行特征贡献评估处理。由于特征筛选既参考了训练数据集本身的原始特征,还额外增加了与原始特征的目标领域相关的第一随机特征,因此丰富了特征筛选的样本数据,从而可以提高特征筛选的准确性。进一步地,一个工作节点可以负责对一个周期的训练数据集的多个原始特征进行处理,从而筛选得到目标特征,可以理解的是,k个训练数据集可以由k个工作节点同步执行,最终将各自筛选得到的目标特征发送至管理节点汇总。相比于,单一的工作节点逐一处理一个训练数据集而言,本申请实施例可以分布式处理,从而可以提高特征筛选的效率。
接下来,结合本申请涉及的技术术语对上述提及的数据处理方案进行介绍:
一、人工智能:
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
在一种可能的实现方式中,本申请的数据处理方案可以与人工智能领域的机器学习技术相结合。例如,可以利用机器学习技术训练特征打分模型(例如特征打分模型可以为XGBoost模型),然后根据第一随机特征,利用特征打分模型对目标训练数据集中的每个原始特征进行特征贡献评估处理,得到每个原始特征的特征类型。
二、区块链:
区块链(Blockchain)网络是一种由点对点网络(P2P网络)和区块链所构成的网络,而区块链则是指一种分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式,其本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块(或称为区块)。
在一种可能的实现方式中,本申请的数据处理方案可以与区块链技术相结合。例如,可将每个周期对应的训练数据集(即k个训练数据集)等上传至区块链网络的区块链中进行存储,以防止计算机设备的内部数据被篡改,从而提升日志数据的安全性和隐私性。
三、云技术:
云计算(cloud computing)是一种计算模式,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费。
在一种可能的实现方式中,在执行本申请的数据处理方案时,根据第一随机特征,对目标训练数据集中的每个原始特征进行特征贡献评估处理,得到每个原始特征的特征类型,这个过程涉及较大规模计算,需要较大的算力和存储空间,因此在本申请的一种可能的实现方式中,可以由计算机设备通过云计算技术获取足够算力和存储空间,进而执行本申请中所涉及到的确定每个原始特征的特征类型。
基于以上描述,接下来,请参见图2,图2是本申请实施例提供的一种数据处理系统的结构示意图。如图2所示,该数据处理系统的结构示意图中可以包括:服务器240以及终端设备集群,其中,终端设备集群可以包括:终端设备210、终端设备220、...、终端设备230等。终端设备集群中的任一终端设备均可以与服务器240可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制;另外,终端设备集群中的任意两个终端设备的类型可以相同,也可以不相同,本申请在此同样不做限制。
图2所示的服务器240可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器,等等。
图2所示的终端设备210、终端设备220、终端设备230可以包括但不限于:手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(MID,mobile internet device)、智能语音交互设备、车载终端、路边设备、飞行器、可穿戴设备、智能家电、或者例如智能手表、智能手环、计步器等具有数据处理功能的可穿戴设备,等等。
在一种可能的实现方式中,以终端设备210为例,在终端设备210和服务器240共同执行本申请中的数据处理方案时,终端设备210可以作为一个工作节点,服务器240可以作为一个管理节点。其中,终端设备210可以接收服务器240发送的目标领域的目标训练数据集,目标训练数据集包括多个原始特征,目标训练数据集是k个训练数据集中的一个训练数据集,每个训练数据集对应一个时间周期,每个训练数据集包含的原始特征的特征标识相同,k为正整数。然后,终端设备210可以调用目标领域对应的特定分布函数,生成目标训练数据集的第一随机特征。其次,终端设备210可以根据第一随机特征,对目标训练数据集中的每个原始特征进行特征贡献评估处理,得到每个原始特征的特征类型。接下来,终端设备210可以根据每个原始特征的特征类型从多个原始特征中筛选出目标特征。最后,终端设备210可以将筛选出的目标特征发送至服务器240,以使服务器240根据k个时间周期的目标特征确定筛选特征。
后续,服务器240可以将筛选特征发送至终端设备集群中的各个工作节点(例如终端设备210、终端设备220等等)。应理解的是,上述只是示例性地说明了终端设备210和服务器240所负责执行的各个步骤,本申请实施例并不对此进行限定。
在另一种可能的实现方式中,以目标工作节点是终端设备210、管理节点是服务器240为例进行说明。首先,服务器240可以获取目标时间段内属于目标领域的样本数据集,目标时间段包括k个时间周期,样本数据集包括k个时间周期一一对应的训练数据集,一个训练数据集包括多个原始特征,每个训练数据集包含的原始特征的特征标识相同,k为正整数。然后,服务器240可以将k个训练数据集分别发送至k个工作节点(例如终端设备210、终端设备220等等),以使目标工作节点(终端设备210)根据每个原始特征的特征类型从多个原始特征中筛选出目标特征,每个原始特征的特征类型是目标工作节点根据第一随机特征,对原始特征进行特征贡献评估处理后确定的,第一随机特征是调用目标领域对应的特定分布函数生成的特征,目标工作节点是k个工作节点中的任一工作节点。最后,服务器240可以接收k个工作节点发送的目标特征,并将接收到的目标特征进行汇总,得到筛选特征,输出筛选特征。
进一步地,可以将图1所提供的数据处理系统部署在区块链的节点,例如可以将终端设备210、终端设备220和服务器240均当成区块链的节点设备,共同构成区块链网络,具体来说,终端设备210、终端设备220等可以作为区块链中的工作节点,服务器240可以作为区块链的管理节点。因此本申请中所涉及的数据处理流程可以在区块链上执行,这样既可以保证数据处理流程的公平公正化,同时可以使得数据处理流程具备可追溯性,从而提升数据处理流程的安全性。
可以理解的是,本申请实施例描述的系统架构示意图是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着系统架构的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
基于上述对数据处理方案和数据处理系统的相关描述,本申请实施例提出了一种数据处理方法。参见图3所示,图3是本申请实施例提供的一种数据处理方法的流程示意图,该数据处理方法可由上述所提及的终端设备(即工作节点)执行,为便于阐述,后续均以计算机设备执行该数据处理方法为例进行说明。其中,该数据处理方法可包括如下步骤S301~S305:
S301:接收管理节点发送的目标领域的目标训练数据集,目标训练数据集包括多个原始特征,目标训练数据集是k个训练数据集中的一个训练数据集,每个训练数据集对应一个时间周期,每个训练数据集包含的原始特征的特征标识相同,k为正整数。
本申请实施例中,目标领域可以包括但不限于:金融领域、互联网领域、地图领域、交通领域等大数据领域。目标训练数据集是k个训练数据集中的任一个训练数据集,一个训练数据集对应一个时间周期,若时间周期为一个星期,则目标训练数据集中可以包括一个星期所对应的多个原始特征;若时间周期为一个月,则目标训练数据集中可以包括一个月所对应的多个原始特征。若目标领域为金融领域,则目标训练数据集所包括的原始特征例如可以为:性别特征、年龄特征、信用特征等等。并且,任一个原始特征可以包括特征值(例如向量或者矩阵)和特征标识(例如id或者特征名称的哈希值等唯一标识)。可以理解的是,k个训练数据集中每个训练数据集包括的原始特征的特征标识相同,意思是说,第一训练数据集和第二训练数据集均可以包括性别特征、年龄特征、信用特征,但第一训练数据集中记录的是在1月的第一个星期获取到的多个原始特征,第二训练数据集中记录的是在1月的第二个星期获取到的多个原始特征。
S302:调用目标领域对应的特定分布函数,生成目标训练数据集的第一随机特征。
在一种可能的实现方式中,若目标领域为金融领域,则金融领域对应的特定分布函数可以包括但不限于:对数正态分布函数、二项式分布函数、伯努利分布函数、指数分布函数、均匀分布函数、正态分布函数。
可以理解的是,第一随机特征的数量可以为一个或多个,并且一种类型的特定分布函数,可以对应生成一种或多种第一随机特征。例如计算机设备可以调用目标领域对应的对数正态分布函数生成多个第一随机特征,又如,计算机设备可以调用目标领域对应的对数正态分布函数、二项式分布函数共同生成多个第一随机特征,等等,本申请实施例并不对特定分布函数的数量以及第一随机特征的数量进行具体限定。
通过特定分布函数生成金融领域内所包括的这些常见特征分布的第一随机特征,可以保证基本的特征分布丰富性,增强特征筛选的稳定性。
S303:根据第一随机特征,对目标训练数据集中的每个原始特征进行特征贡献评估处理,得到每个原始特征的特征类型。
在一种可能的实现方式中,计算机设备调用特征打分模型对第一随机特征和目标训练数据集中的每个原始特征进行特征贡献评估处理,得到各个原始特征的评估分和第一随机特征的评估分。然后,计算机设备根据各个原始特征的评估分和第一随机特征的评估分,对每个原始特征进行特征校正处理,得到每个原始特征的特征类型。
具体来说,计算机设备调用特征打分模型对第一随机特征和目标训练数据集中的每个原始特征进行特征贡献评估处理,得到各个原始特征的评估分和第一随机特征的评估分,可以包括:对第一随机特征和目标训练数据集中的每个原始特征进行拼接处理,得到第一拼接特征;然后将第一拼接特征输入至特征打分模型中进行特征贡献评估处理,以输出各个原始特征的评估分和第一随机特征的评估分。
在另一种可能的实现方式中,计算机设备对目标训练数据集中的多个原始特征的特征值进行随机重排,确定多个第二随机特征。然后,计算机设备调用特征打分模型对第一随机特征、多个第二随机特征和目标训练数据集中的每个原始特征进行特征贡献评估处理,得到各个原始特征的评估分、第一随机特征的评估分、以及各个第二随机特征的评估分。最后,计算机设备根据各个原始特征的评估分、第一随机特征的评估分、以及各个第二随机特征的评估分,对每个原始特征进行特征校正处理,得到每个原始特征的特征类型。
具体来说,计算机设备调用特征打分模型对第一随机特征、多个第二随机特征和目标训练数据集中的每个原始特征进行特征贡献评估处理,得到各个原始特征的评估分、第一随机特征的评估分、以及各个第二随机特征的评估分,可以包括:对第一随机特征、多个第二随机特征和目标训练数据集中的每个原始特征进行拼接处理,得到第二拼接特征;然后将第二拼接特征输入至特征打分模型中进行特征贡献评估处理,以输出各个原始特征的评估分、第一随机特征的评估分、以及各个第二随机特征的评估分。
举例来说,上述所提及的特征打分模型可以包括但不限于:Random Forest模型、XGBoost模型等等。本申请实施例中,可以采用XGBoost模型作为特征打分模型,所谓XGBoost模型是一个经典的集成式提升算法框架,广泛应用于机器学习各个领域。可以理解的是,本申请实施例中可以通过XGBoost模型的列采样功能来实现XGBoost模型的随机性,由于XGBoost模型在业界得到了广泛的应用和效果证实,因此采用该模型可以保证模型的效果相对稳定,从而可以保证特征贡献评估处理的准确性。
S304:根据每个原始特征的特征类型从多个原始特征中筛选出目标特征。
在一种可能的实现方式中,原始特征的特征类型可以包括接受特征类型、拒绝特征类型和待定特征类型。其中,接受特征类型用于指示原始特征的重要性较高,对目标领域进行数据分析的可参考性较高,可以被接受;拒绝特征类型用于指示原始特征的重要性较低,对目标领域进行数据分析的可参考性较低,可以被拒绝;待定特征类型用于指示原始特征的重要性一般,对目标领域进行数据分析的可参考性不确定,则可以根据需求自定义该特征类型的原始特征是否被接受或被拒绝。通过这种方式,相比于直接拒绝特征或者接受特征而言,通过增加待定特征类型作为过渡,可以提高特征筛选的准确性。
具体地,计算机设备根据每个原始特征的特征类型从多个原始特征中筛选出目标特征,可以包括:首先,计算机设备根据每个原始特征的特征类型,调整接受特征列表、拒绝特征列表以及待定特征列表,一个特征列表对应一种特征类型;然后,当满足迭代停止条件时,计算机设备将接受特征列表和待定特征列表中记录的原始特征作为目标特征;最后,当不满足迭代停止条件时,计算机设备将接受特征列表和待定特征列表中记录的原始特征组合为新的目标训练数据集。
举例来说,假设目标训练数据集中包括m个原始特征,m个原始特征可以分别表示为原始特征1、原始特征2、原始特征3...原始特征,m为正整数。例如,原始特征1的特征类型为接受特征类型,则计算机设备可以将原始特征1添加至接受特征列表中,其中接受特征列表中可以记录有原始特征1的特征标识和特征值。又如,原始特征2的特征类型为拒绝特征类型,则计算机设备可以将原始特征2添加至拒绝特征列表中,其中拒绝特征列表中可以记录有原始特征2的特征标识和特征值。还如,原始特征3的特征类型为待定特征类型,则计算机设备可以将原始特征3添加至待定特征列表中,其中待定特征列表中可以记录有原始特征3的特征标识和特征值。通过这种方式,可以根据每个原始特征的特征类型,调整接受特征列表、拒绝特征列表以及待定特征列表。其中,接受特征列表、拒绝特征列表以及待定特征列表可以如下表1-表3所示:
表1.接受特征列表
特征名称 | 特征标识 | 特征值 |
性别 | id1 | [0.1,0.2,0.3] |
年龄 | id2 | [0.1,-0.2,0.5] |
信用 | id3 | [-0.3,0.1,0.6] |
表2.拒绝特征列表
特征名称 | 特征标识 | 特征值 |
特征a | id3 | [-0.1,0.2,-0.3] |
... | ... | ... |
特征b | id5 | [0.2,-0.1,-0.6] |
表3.待定特征列表
特征名称 | 特征标识 | 特征值 |
特征x | id6 | [0.4,0.5,0.8] |
... | ... | ... |
特征y | Id8 | [1.2,0.1,-0.6] |
在一种可能的实现方式中,当目标训练数据集的累积迭代次数达到预设迭代次数时,则确定满足迭代停止条件;或者,当接受特征列表、拒绝特征列表以及待定特征列表均不发生变化时,则确定满足迭代停止条件。可以理解的是,上述S301-S304所涉及的具体过程可以迭代执行,直至确定满足迭代停止条件时,则停止迭代。例如,可以设置预设迭代次数为100次,则当目标训练数据集的累积迭代次数达到100次时,确定满足迭代停止条件;又如,当第n次迭代后对应的接受特征列表、拒绝特征列表以及待定特征列表和第n+1次迭代后接受特征列表、拒绝特征列表以及待定特征列表均不发生改变时,则确定满足迭代停止条件。通过这种迭代执行的方式,可以消除单次处理带来的随机性,从而提高筛选得到的目标特征的准确性。
在另一种可能的实现方式中,当满足迭代停止条件时,计算机设备将接受特征列表记录的原始特征作为目标特征,并从待定特征列表中随机选择预设数量的原始特征作为目标特征。例如,接受特征列表记录有10个原始特征,待定特征列表中记录有20个原始特征,预设数量可以为8个,那么计算机设备可以从待定特征列表中记录的20个原始特征中随机选择8个原始特征、并将所选择的8个原始特征作为目标特征;以及将接受特征列表中记录的10个原始特征作为目标特征。同理,当不满足迭代停止条件时,计算机设备可以从待定特征列表中记录的20个原始特征中随机选择8个原始特征、以及将接受特征列表中记录的10个原始特征作为新的目标训练数据集,即新的目标训练数据集中包括18个原始特征。
S305:将筛选出的目标特征发送至管理节点,以使管理节点根据k个时间周期的目标特征确定筛选特征。
可以理解的是,上述过程是指任一工作节点所执行的详细步骤,本申请实施例中可以将k个时间周期的训练数据集分别通过分布式算法(例如spark算法,一款开源大数据通用计算框架,是目前业界主流的大数据计算引擎)广播到k个工作节点上,然后每个工作节点分别获取一个时间周期的训练数据集,由k个工作节点共同执行上述过程,每个工作节点分别得到筛选出的目标特征。最后,各个工作节点可以将筛选得到的目标特征发送至管理节点,由管理节点根据k个时间周期的目标特征确定筛选特征。通过这种分布式处理方式,可以将k个训练数据集的训练时间缩短到1/k,从而可以提高特征筛选的效率。
本申请实施例中,首先,可以通过特定分布函数生成金融领域内所包括的这些常见特征分布的第一随机特征,可以保证基本的特征分布丰富性,增强特征筛选的稳定性。然后,可以通过spark分布式处理方式,可以将k个训练数据集的训练时间缩短到1/k,从而可以提高特征筛选的效率。可见,本申请中,在对每个原始特征进行特征筛选的过程中,可以根据第一随机特征进行特征贡献评估处理。由于特征筛选既参考了训练数据集本身的原始特征,还额外增加了与原始特征的目标领域相关的第一随机特征,因此丰富了特征筛选的样本数据,从而可以提高特征筛选的准确性。进一步地,一个工作节点可以负责对一个周期的训练数据集的多个原始特征进行处理,从而筛选得到目标特征,可以理解的是,k个训练数据集可以由k个工作节点同步执行,最终将各自筛选得到的目标特征发送至管理结果汇总。相比于,单一的工作节点逐一处理一个训练数据集而言,本申请实施例可以分布式处理,从而可以提高特征筛选的效率。
基于图3实施例的描述,接下来,请参见图4,图4是本申请实施例提供的一种确定特征类型的流程示意图。其中,图4实施例可以为图3实施例步骤S303中的一个具体实施例。该特征类型确定方法可由上述所提及的终端设备(即工作节点)执行,为便于阐述,后续均以计算机设备执行该特征类型确定方法为例进行说明。其中,该特征类型确定方法可包括如下步骤S401~S505:
S401:对目标训练数据集中的多个原始特征的特征值进行随机重排,确定多个第二随机特征。
本申请实施例中,目标训练数据集中的每个原始特征包括特征值和特征标识(lable),且一个特征值关联有一个对应的特征标识,若第一次迭代时目标训练数据集中包括m个原始特征,计算机设备对m个原始特征的特征值进行随机重排可以包括:将m个原始特征的特征标识保持不变,对m个原始特征的特征值进行随机重排(shuffle)后得到m个第二随机特征。
在一种可能的实现方式中,在迭代开始时,可以通过随机函数生成本轮迭代对应的随机数种子,然后根据随机数种子生成本轮迭代的第二随机特征。举例来说,请参见图5,图5是本申请实施例提供的一种生成随机特征的流程示意图。如图5所示,假设存储于目标训练数据集中每个原始特征均可以对应一个特征标识,然后在对m个原始特征进行随机重排的过程中,可以保持lable列不变,即保证特征标识不变,按照随机数种子将m个原始特征的特征值进行随机重排,可以理解的是,随机重排后的得到的第二随机特征的数量与原始特征的数量相同。通过这种方式,可以保证所生成的第二随机特征在保持原始特征分布的同时,消除原始特征与具体标签的关联。
S402:调用特征打分模型对第一随机特征、多个第二随机特征和目标训练数据集中的每个原始特征进行特征贡献评估处理,得到各个原始特征的评估分、第一随机特征的评估分、以及各个第二随机特征的评估分。
其中,第一随机特征是计算机设备通过调用目标领域对应的特定分布函数所生成的随机特征。若目标领域为金融领域,则金融领域对应的特定分布函数可以包括但不限于:对数正态分布函数、二项式分布函数、伯努利分布函数、指数分布函数、均匀分布函数、正态分布函数。可以理解的是,第一随机特征的数量可以为一个也可以为多个,本申请实施例对此不做具体限定。
在一种可能的实现方式中,计算机设备可以对目标训练数据集中的各个原始特征、第一随机特征和各个第二随机特征进行拼接处理,得到第二拼接特征。然后计算机设备调用特征打分模型对第二拼接特征进行特征贡献评估处理,得到各个原始特征的评估分、第一随机特征的评估分、以及各个第二随机特征的评估分。其中,特征打分模型可以包括但不限于:Random Forest模型、XGBoost模型等等。本申请实施例中,为了保证特征打分模型的效果相对稳定,可以采用XGBoost模型作为特征打分模型。
例如,请参见图6,图6是本申请实施例提供的一种特征打分模型的流程示意图。如图6所示,假设目标训练数据集中的预测样本为3个,每个预测样本包括3个原始特征,2个第一随机特征和3个第二随机特征。其中,针对第一预测样本,其对应的3个原始特征的特征值分别可以表示为:x11、x12、x13,其对应的3个第二随机特征的特征值分别可以表示为:y11、y12、y13,其对应的2个第一随机特征的特征值分别可以表示为:z11、z12,可以理解的是,图6所示的矩阵中每一行数据代表一个预测样本。同理,针对第二预测样本,其对应的3个原始特征的特征值分别可以表示为:x21、x22、x23,其对应的3个第二随机特征的特征值分别可以表示为:y21、y22、y23,其对应的2个第一随机特征的特征值分别可以表示为:z21、z22。针对第二预测样本,其对应的3个原始特征的特征值分别可以表示为:x31、x32、x33,其对应的3个第二随机特征的特征值分别可以表示为:y31、y32、y33,其对应的2个第一随机特征的特征值分别可以表示为:z31、z32。最后,将3个预测样本的原始特征、第一随机特征和第二随机特征拼接后输入至xgboost模型中,通过xgboost模型的特征贡献评估处理后,可以输出各个原始特征的评估分(p1、p2、p3)、各个第一随机特征的评估分(p7、p8)、以及各个第二随机特征的评估分(p4、p5、p6)。其中,针对原始特征1而言,p1是指对每个预测样本分别对应的评估分进行加权处理后得到的,同理,针对第一随机特征1而言,p7同样是指对每个预测样本分别对应的评估分进行加权处理后得到的。
S403:根据各个原始特征的评估分、各个第一随机特征的评估分、以及各个第二随机特征的评估分,对每个原始特征进行特征重要性评估,得到每个原始特征的试验成功次数。
在一种可能的实现方式中,计算机设备根据各个原始特征的评估分、各个第一随机特征的评估分、以及各个第二随机特征的评估分,对每个原始特征进行特征重要性评估,得到每个原始特征的试验成功次数,包括:首先,计算机设备根据第一随机特征的评估分、以及各个第二随机特征的评估分,确定出最高的目标评估分;若任一个原始特征的评估分高于目标评估分,则调整任一个原始特征的试验成功次数。其中,本申请实施例所涉及的特征重要性评估的依据可以为每个特征的评估分。
具体来说,本申请实施例中可以根据shap(SHapley Additive explanation,沙普利加和解释)特征重要性指标(评估分)或total gain特征重要性指标(评估分)对各个原始特征进行排序。对于目标训练数据集中的每一个原始特征,如果该原始特征的重要性指标(评估分)高于重要性最高的随机特征(随机shuffle生成的第二随机特征、或特定分布函数生成的第一随机特征),则记该原始特征本次试验成功,将该原始特征的试验成功次数加1。其中,所谓shap特征重要性指标是用于解释机器学习模型(XGBoost模型)输出的方法,在合作博弈论的启发下SHAP构建一个加性的解释模型,所有的特征(包括第一随机特征、第二随机特征和原始特征)都视为“贡献者”。对于每个预测样本,XGBoost模型都可以产生一个预测值,SHAP value就是该预测样本中每个特征所分配到的数值。其中,所谓Total Gain特征重要性指标是指在XGBoost模型中的节点分裂时,特征带来信息增益在各颗树上的累加值。可以理解的是,对于每一个非随机特征(原始特征),每一次模型训练,迭代,获得特征重要性(评估分),将原始特征的评估分与第一随机特征和第二随机特征的评估分进行比较的过程都是一次随机试验。在模型迭代的过程中,可以通过这样的试验从统计上拒绝原始特征或者接受原始特征,避免单次随机带来的不确定性。
例如,根据上述步骤S402描述,例如,针对原始特征1,将p1分别与p4~p8进行比较,若p1大于p4~p8中的任一个,则可以认为原始特征1本次试验成功,将该原始特征1的试验成功次数加1。又如,针对原始特征2,将p1分别与p4~p8进行比较,若存在p1小于p4~p8中的任一个,则可以认为原始特征2本次试验失败,将该原始特征2的试验成功次数保持不变。以此类推,通过上述方法,可以在每次模型训练过程中,记录每个原始特征的试验成功次数。
S404:基于每个原始特征的试验成功次数,对每个原始特征进行特征校正处理,得到每个原始特征的校正结果。
在一种可能的实现方式中,计算机设备基于每个原始特征的试验成功次数,对每个原始特征进行特征校正处理,得到每个原始特征的校正结果,包括:首先,可以获取目标训练数据集的累积迭代次数;然后,根据任一个原始特征的试验成功次数和累积迭代次数,确定任一个原始特征的待校正显著水平值。
接下来,针对如何对每个原始特征进行特征校正处理的过程进行详细介绍:
1)记录原始特征的试验成功次数:
可以理解的是,对于目标训练数据集中的每个原始特征,都可以得到一个试验成功次数的当前值。可以将任一个原始特征的试验成功次数记为k,目标训练数据集的累积迭代次数记为n。由于每一次试验都是一次二项分布检验,可以通过当前试验成功的次数与累积迭代次数,计算出对应的原始特征好于随机特征的显著性水平。
2)确定原始特征的待校正显著水平值(累积分布值和校正生存函数值):
本申请实施例中,原假设是每个原始特征在每次试验中有50%的概率比随机特征重要。即有零假设如公式(1)所示:
H0:π=0.5 (1)
其中,公式(1)中的π表示特征重要性高于随机特征的事件。
已知二项分布概率质量函数如公式(2)所示:
其中,公式(2)中的k∈{0,1,...,n},0≤p≤1。
由上述可得对应的累计分布函数如公式(3)所示:
由前述零假设可知,p=0.5。将每个原始特征当前的n,k,p均带入公式(3),即可求得每个原始特征当前的累积分布值,记为cdfk。
同样的,将每个原始特征当前的n,k-1,p均带入式子,可以求得另一个累积分布值,记为cdfk-1。接下来,可以定义生存函数值sf如公式(4)所示:
sf=1-cdfk-1 (4)
在一种可能的实现方式中,计算机设备对任一个原始特征的待校正显著水平值进行校正处理,得到任一个原始特征的校正结果,包括:首先,可以按照第一校正方式对任一个原始特征的待校正显著水平值进行校正处理,得到任一个原始特征校正后的显著水平值;然后,可以按照第二校正方式对任一个原始特征校正后的显著水平值再次进行校正处理,得到任一个原始特征的校正结果。
①第一校正方式可以包括FDR校正方式,所谓FDR校正方式用比较温和的方法对p值(累积分布值和校正生存函数值)进行了校正,通过校正后的p值在假阳性和假阴性间达到平衡,将假/真阳性比例控制到一定范围之内。
可以理解的是,由于每一个特征都是一次独立试验,在多个特征(原始特征、第一随机特征和第二随机特征)进行比较的时候,实际上是一个多重校验的过程。对于多重校验,需要进行FDR校正,否则误判率会远远高于预期。本申请实施例中,可以采用Benjamini/Hochberg FDR校正法,可以将预期阈值设置为0.05。
由前述可知,任一个原始特征的待校正显著水平值可以包括:累积分布值cdf和生存函数值sf。那么,按照第一校正方式对任一个原始特征的待校正显著水平值进行校正处理,得到任一个原始特征校正后的显著水平值,可以包括:调用FDR校正函数分别对任一个原始特征的累积分布值cdf进行校正,得到FDR校正后的累积分布值FDR(cdf);调用FDR校正函数分别对任一个原始特征的生存函数值sf进行校正,得到FDR校正后的生存函数值FDR(sf)。
通过该校正方法,可以预期在单次迭代的全体特征试验中,被接受的原始特征中,被错误接受的比例低于0.05。例如在5000个原始特征中进行选择,接受了20个原始特征,里面预期不超过1个原始特征是被错误接受的(假阳性)。但如果不进行FDR校正,可能会接受270个原始特征,而其中有250个原始特征都是被错误接受的。因此,通过FDR校正方式可以提高特征筛选的准确性。
②第二校正方式可以包括Bonferroni校正方式,Bonferroni校正方式可以将阈值降到极低来减少假阳性率。如果在同一训练数据集上同时检验n个独立的假设,那么用于每一假设的统计显著水平,应为仅检验一个假设时的显著水平的1/n。
可以理解的是,由于特征需要被多次迭代,每次迭代之间也构成了多重检验。由于不希望任何一次总体检验出错,因此这里采用了更加严厉的Bonferroni校正方式。设通过Bonferroni校正后的p值表示为padjust,当前累积迭代次数为n,预期的阈值为p,那么Bonferroni校正可以表示为:
由公式(5)可知,这样即可保证经过n次迭代后,假阳性比例依旧符合预期。那么,按照第二校正方式对任一个原始特征校正后的显著水平值再次进行校正处理,得到任一个原始特征的校正结果(参考校正累积分布值和参考校正生存函数值),可以包括:将FDR校正后的累积分布值FDR(cdf)与累积迭代次数n之间的比值确定为参考校正累积分布值;将FDR校正后的生存函数值FDR(sf)与累积迭代次数n之间的比值确定为参考校正生存函数值。经过上述步骤,最终计算出的原始特征的校正结果如下:
其中,公式(6)中的paccept表示为参考校正累积分布值;公式(7)中的preject表示为参考校正生存函数值。
通过上述Bonferroni校正方式,在FDR校正方式的基础上进一步的对原始特征的待校正显著水平值分别进行校正处理,可以进一步提高特征筛选的准确性。
S405:根据每个原始特征的校正结果,得到每个原始特征的特征类型。
在一种可能的实现方式中,任一个原始特征的校正结果包括参考校正累积分布值和参考校正生存函数值。计算机设备根据每个原始特征的校正结果,得到每个原始特征的特征类型,可以包括:若参考校正累积分布值小于预设阈值,则将任一个原始特征的特征类型确定为接受特征类型;若参考校正生存函数值小于预设阈值,则将任一个原始特征的特征类型确定为拒绝特征类型;若任一个原始特征的参考校正累积分布值和参考校正生存函数值均大于预设阈值,则将任一个原始特征的特征类型确定为待定特征类型。
具体来说,通过S404中可以获得每个原始特征的校正后的参考校正累积分布值paccept和参考校正生存函数值preject,然后可以将参考校正累积分布值paccept和参考校正生存函数值preject分别与预设阈值(假设为0.05)进行比较。
①若原始特征的参考校正累积分布值paccept低于预设阈值,则确定该原始特征的特征类型为接受特征类型,并可以将该原始特征添加至当前的接受特征列表中。
②若原始特征的参考校正生存函数值preject低于预设阈值,则确定该原始特征的特征类型为拒绝特征类型,并可以将该原始特征添加至当前的拒绝特征列表中,且后续不会再参与迭代试验的过程。
③若原始特征的参考校正累积分布值paccept与参考校正生存函数值preject均大于预设阈值,则确定该原始特征的特征类型为待定特征类型,并可以将该原始特征添加至当前的待定特征列表中,待定特征列表中记录的原始特征可以按需选择是否参与后续迭代试验的过程。
可以理解的是,接受的原始特征后续仍会参与p值的迭代计算,还有可能从接受特征列表中被剔除,这样可以避免一些小概率事件发生,增强算法稳定性。后续,上述过程可以进行持续迭代,然后会在达到预设迭代次数时停止迭代,或者是在特定迭代次数后,各类特征列表(接受特征列表、拒绝特征列表以及待定特征列表)均未改变时停止迭代。停止迭代后,当前的接受特征列表中所记录的原始特征即为特征筛选后得到的目标特征,这些目标特征均为显著好于随机特征的特征。待定特征列表可以供用户参考,用户可以自行决定是否需要进一步试验或者纳入模型中。拒绝特征列表中所记录的原始特征则为显著差于随机特征的特征,会将其从训练数据集中剔除,不再进行模型迭代训练。
通过上述方式,根据第一随机特征和第二随机特征对目标训练数据集中的各个原始特征进行特征贡献评估处理,并基于两种校正方式分别对每个原始特征进行特征校正处理,从而基于校正结果确定每个原始特征的特征类型。由于增加了更丰富多样的随机特征,因此可以提高特征筛选的准确性;进一步地,采用多重校正方式对原始特征进行校正处理,可以进一步提高特征筛选的准确性。
请参见图7,图7是本申请实施例提供的另一种数据处理方法的流程示意图。该数据处理方法可由上述所提及的服务器(即管理节点)执行,为便于阐述,后续均以计算机设备执行该数据处理方法为例进行说明。其中,该数据处理方法可包括如下步骤S701~S703:
S701:获取目标时间段内属于目标领域的样本数据集,目标时间段包括k个时间周期,样本数据集包括k个时间周期一一对应的训练数据集,一个训练数据集包括多个原始特征,每个训练数据集包含的原始特征的特征标识相同,k为正整数。
本申请实施例中,目标时间段可以是一个月,一个时间周期可以为一个星期。目标时间段可以为一年,一个时间周期可以为一个月。可以理解的是,各个样本数据集分别是针对同一批预测样本,在不同的时间周期所采集到的多个原始特征。并且,每个训练数据集包含的原始特征的特征标识相同。
S702:将k个训练数据集分别发送至k个工作节点,以使目标工作节点根据目标训练数据集中的每个原始特征的特征类型,从多个原始特征中筛选出目标特征,每个原始特征的特征类型是目标工作节点根据第一随机特征,对原始特征进行特征贡献评估处理后确定的,第一随机特征是调用所述目标领域对应的特定分布函数生成的特征,目标工作节点是k个工作节点中的任一工作节点,目标训练数据集是目标工作节点接收到的训练数据集。
在实际运用中,通常会有多个时间周期的训练数据集需要进行训练,本申请实施例可以将各个时间周期的训练数据集分别通过spark广播到分布式的k个工作节点上,然后每个节点分别获取一个时间周期的训练数据集。其中,每个工作节点在获取到一个相应的训练数据集后,均可以按照图3实施例所述的方法执行从多个原始特征中筛选得到一个或多个目标特征,最后各个工作节点将相应节点筛选得到的目标特征发送至管理节点上,通过这种方式可以将训练时间缩短到1/k,从而可以提高特征筛选的效率。
需要说明的是,每个工作节点“根据目标训练数据集中的每个原始特征的特征类型,从多个原始特征中筛选出目标特征”的详细执行步骤具体可参见图3实施例中步骤S301-S305所执行的过程,本申请实施例在此不再赘述。
S703:接收k个工作节点发送的目标特征,并将接收到的目标特征进行汇总,得到筛选特征,输出筛选特征。
在一种可能的实现方式中,管理节点将接收到的目标特征进行汇总,得到筛选特征,输出筛选特征,可以包括:管理节点统计目标特征在k个时间周期的出现频次,将出现频次大于或者等于预设频次的目标特征确定为筛选特征,然后输出筛选特征。
例如,假设k个工作节点包括工作节点1、工作节点2、工作节点3,其中工作节点1发送的目标特征包括:原始特征1、原始特征2;工作节点2发送的目标特征包括:原始特征2、原始特征3;工作节点3发送的目标特征包括:原始特征1、原始特征4。那么,管理节点根据各个工作节点所发送的目标特征,可以统计得到原始特征1的特征标识的出现频次为2,原始特征2的特征标识的出现频次为2,原始特征3的特征标识的出现频次为1,原始特征4的特征标识的出现频次为1。假设预设频次为2,则管理节点可以将原始特征1和原始特征2作为筛选特征。最后,管理节点可以输出原始特征1和原始特征2,后续筛选特征可以作为多个金融分析与建模场景下的数据源,例如可以将输出的筛选特征作为大数据领域下的产品推荐模型的训练数据。
在另一种可能的实现方式中,管理节点将接收到的目标特征进行汇总,得到筛选特征,输出筛选特征,还可以包括:管理节点对接收到的目标特征求并集处理,将进行并集处理后得到的目标特征作为筛选特征,输出筛选特征。例如,假设k个工作节点包括工作节点1、工作节点2、工作节点3,其中工作节点1发送的目标特征包括:原始特征1、原始特征2;工作节点2发送的目标特征包括:原始特征2、原始特征3;工作节点3发送的目标特征包括:原始特征1、原始特征4。那么,管理节点对接收到的目标特征求并集处理,可以将原始特征1、原始特征2、原始特征3、原始特征4均作为筛选特征。最后,管理节点可以输出原始特征1、原始特征2、原始特征3、原始特征4。
进一步地,本申请实施例可以应用于金融领域,例如在金融支付的多个信贷场景下,利用了本申请的分布式特征自动筛选方案,效果获得了较大提升。在实际业务的训练数据集上进行了相关测试,测试后得到的对比效果如下表4所示:
表4特征筛选效果对比
由上表4可以看出,相比实际应用中最常用的人工+XGBoost筛选结果,本申请实施例提供的分布式自动筛选后的特征数量为对比方案的10.1%,而模型效果提升了2.3%,特征数量大大减少,但是模型效果显著提升。
本申请实施例中,管理节点可以根据提供的分布式特征自动筛选方式将k个周期的训练数据集发送至k个工作节点上,以使k个工作节点并行执行特征筛选的步骤。最后,管理节点汇总k个工作节点的目标特征得到筛选特征。由于采用spark分布式特征自动筛选方式,相比于单一的工作节点逐一处理一个训练数据集而言,本申请实施例可以分布式处理,从而可以提高特征筛选的效率。
请参见图8,图8是本申请实施例提供的一种数据处理系统的交互示意图。该数据处理系统包括管理节点和工作节点,管理节点可以为前述所提及的服务器,工作节点可以为前述所提及的终端设备。其中,在由工作节点和管理节点共同执行本申请提供的数据处理方法时,可具体包括如下步骤S801-S807:
S801:管理节点获取目标时间段内属于目标领域的样本数据集,目标时间段包括k个时间周期,样本数据集包括k个时间周期一一对应的训练数据集,一个训练数据集包括多个原始特征,每个训练数据集包含的原始特征的特征标识相同,k为正整数。
S802:管理节点将目标训练数据集发送至工作节点,目标训练数据集是k个训练数据集中的一个训练数据集。
其中,此处所提及的工作节点为接收到一个周期的目标训练数据集的任一工作节点(也可称为目标工作节点)。可以理解的是,管理节点可以将k个训练数据集分别分发至k个工作节点。为方便说明,后续均以任一工作节点为例进行相应说明。
S803:工作节点调用目标领域对应的特定分布函数,生成目标训练数据集的第一随机特征。
S804:工作节点根据第一随机特征,对目标训练数据集中的每个原始特征进行特征贡献评估处理,得到每个原始特征的特征类型。
S805:工作节点根据每个原始特征的特征类型从多个原始特征中筛选出目标特征。
可以理解的是,本申请实施例中步骤S803-S805中工作节点所执行的具体步骤详细可参见图3实施例中步骤S302-S304的具体步骤,本申请实施例在此不再赘述。
S806:工作节点将筛选出的目标特征发送至管理节点。
在一种可能的实现方式中,目标特征可以包括特征标识和特征值,工作节点可以将筛选出的目标特征的特征标识发送至管理节点。
S807:管理节点将接收到的目标特征进行汇总,得到筛选特征,输出筛选特征。
在一种可能的实现方式中,管理节点在接收工作节点发送的目标特征之后,可以获取工作节点的节点标识,并根据节点标识对工作节点进行校验(例如可以包括安全性校验、合法性校验),若管理节点确定对该工作节点的校验通过,则触发执行“管理节点将接收到的目标特征进行汇总,得到筛选特征,输出筛选特征”的步骤。
可以理解的是,管理节点将接收到的目标特征进行汇总,得到筛选特征,输出筛选特征的具体执行步骤可参见图7实施例中步骤S703所对应的执行步骤,本申请实施例在此不再赘述。
本申请实施例中,首先,管理节点可以通过spark分布式处理方式,将k个训练数据集分别发送至k个工作节点;然后,任一工作节点在接收到目标训练数据集后,可以通过特定分布函数生成金融领域内所包括的这些常见特征分布的第一随机特征,可以保证基本的特征分布丰富性,增强特征筛选的稳定性。可见,本申请中,在对每个原始特征进行特征筛选的过程中,可以根据第一随机特征进行特征贡献评估处理。由于特征筛选既参考了训练数据集本身的原始特征,还额外增加了与原始特征的目标领域相关的第一随机特征,因此丰富了特征筛选的样本数据,从而可以提高特征筛选的准确性。进一步地,一个工作节点可以负责对一个周期的训练数据集的多个原始特征进行处理,从而筛选得到目标特征,可以理解的是,k个训练数据集可以由k个工作节点同步执行,最终将各自筛选得到的目标特征发送至管理结果汇总。相比于,单一的工作节点逐一处理一个训练数据集而言,本申请实施例可以分布式处理,从而可以提高特征筛选的效率。
请参见图9,图9是本申请实施例提供的一种数据处理装置的结构示意图。该数据处理装置900可应用于图2对应的数据处理系统中的终端设备(工作节点)。数据处理装置900可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该数据处理装置900为一个应用软件;该数据处理装置可以用于执行本申请实施例提供的数据处理方法中的相应步骤。该数据处理装置900可包括:
接收单元901,用于接收管理节点发送的目标领域的目标训练数据集,目标训练数据集包括多个原始特征,目标训练数据集是k个训练数据集中的一个训练数据集,每个训练数据集对应一个时间周期,每个训练数据集包含的原始特征的特征标识相同,k为正整数;
处理单元902,用于调用目标领域对应的特定分布函数,生成目标训练数据集的第一随机特征;
处理单元902,还用于根据第一随机特征,对目标训练数据集中的每个原始特征进行特征贡献评估处理,得到每个原始特征的特征类型;
处理单元902,还用于根据每个原始特征的特征类型从多个原始特征中筛选出目标特征;
发送单元903,用于将筛选出的目标特征发送至管理节点,以使管理节点根据k个时间周期的目标特征确定筛选特征。
在一种可能的实现方式中,特征类型包括接受特征类型、拒绝特征类型和待定特征类型;处理单元902根据每个原始特征的特征类型从所述多个原始特征中筛选出目标特征,用于执行以下操作:
根据每个原始特征的特征类型,调整接受特征列表、拒绝特征列表以及待定特征列表,一个特征列表对应一种特征类型;
当满足迭代停止条件时,将接受特征列表和所述待定特征列表中记录的原始特征作为目标特征;
当不满足迭代停止条件时,将接受特征列表和待定特征列表中记录的原始特征组合为新的目标训练数据集。
在一种可能的实现方式中,当目标训练数据集的累积迭代次数达到预设迭代次数时,则确定满足迭代停止条件;或者,
当接受特征列表、拒绝特征列表以及待定特征列表均不发生变化时,则确定满足迭代停止条件。
在一种可能的实现方式中,处理单元902根据第一随机特征,对目标训练数据集中的每个原始特征进行特征贡献评估处理,得到每个原始特征的特征类型,用于执行以下操作:
对目标训练数据集中的多个原始特征的特征值进行随机重排,确定多个第二随机特征;
调用特征打分模型对第一随机特征、多个第二随机特征和目标训练数据集中的每个原始特征进行特征贡献评估处理,得到各个原始特征的评估分、第一随机特征的评估分、以及各个第二随机特征的评估分;
根据各个原始特征的评估分、第一随机特征的评估分、以及各个第二随机特征的评估分,对每个原始特征进行特征校正处理,得到每个原始特征的特征类型。
在一种可能的实现方式中,处理单元902根据各个原始特征的评估分、第一随机特征的评估分、以及各个第二随机特征的评估分,对每个原始特征进行特征校正处理,得到每个原始特征的特征类型,用于执行以下操作:
根据各个原始特征的评估分、各个第一随机特征的评估分、以及各个第二随机特征的评估分,对每个原始特征进行特征重要性评估,得到每个原始特征的试验成功次数;
基于每个原始特征的试验成功次数,对每个原始特征进行特征校正处理,得到每个原始特征的校正结果;
根据每个原始特征的校正结果,得到每个原始特征的特征类型。
在一种可能的实现方式中,处理单元902根据各个原始特征的评估分、第一随机特征的评估分、以及各个第二随机特征的评估分,对每个原始特征进行特征重要性评估,得到每个原始特征的试验成功次数,用于执行以下操作:
根据第一随机特征的评估分、以及各个第二随机特征的评估分,确定出最高的目标评估分;
若任一个原始特征的评估分高于目标评估分,则调整任一个原始特征的试验成功次数。
在一种可能的实现方式中,处理单元902基于每个原始特征的试验结果,对每个原始特征进行特征校正处理,得到每个原始特征的校正结果,用于执行以下操作:
获取目标训练数据集的累积迭代次数;
根据任一个原始特征的试验成功次数和累积迭代次数,确定任一个原始特征的待校正显著水平值;
对任一个原始特征的待校正显著水平值进行校正处理,得到任一个原始特征的校正结果。
在一种可能的实现方式中,处理单元902对任一个原始特征的待校正显著水平值进行校正处理,得到任一个原始特征的校正结果,用于执行以下操作:
按照第一校正方式对任一个原始特征的待校正显著水平值进行校正处理,得到任一个原始特征校正后的显著水平值;
按照第二校正方式对任一个原始特征校正后的显著水平值再次进行校正处理,得到任一个原始特征的校正结果。
在一种可能的实现方式中,任一个原始特征的校正结果包括参考校正累积分布值和参考校正生存函数值;
处理单元902根据每个原始特征的校正结果,得到每个原始特征的特征类型,用于执行以下操作:
若参考校正累积分布值小于预设阈值,则将任一个原始特征的特征类型确定为接受特征类型;
若参考校正生存函数值小于预设阈值,则将任一个原始特征的特征类型确定为拒绝特征类型;
若任一个原始特征的参考校正累积分布值和参考校正生存函数值均大于预设阈值,则将任一个原始特征的特征类型确定为待定特征类型。
在一种可能的实现方式中,特定分布函数的数量为多个,任一个特定分布函数包括以下任一种:对数正态分布函数、二项式分布函数、伯努利分布函数、指数分布函数、均匀分布函数、正态分布函数。
本申请实施例中,首先,可以通过特定分布函数生成金融领域内所包括的这些常见特征分布的第一随机特征,可以保证基本的特征分布丰富性,增强特征筛选的稳定性。然后,可以通过spark分布式处理方式,可以将k个训练数据集的训练时间缩短到1/k,从而可以提高特征筛选的效率。可见,本申请中,在对每个原始特征进行特征筛选的过程中,可以根据第一随机特征进行特征贡献评估处理。由于特征筛选既参考了训练数据集本身的原始特征,还额外增加了与原始特征的目标领域相关的第一随机特征,因此丰富了特征筛选的样本数据,从而可以提高特征筛选的准确性。进一步地,一个工作节点可以负责对一个周期的训练数据集的多个原始特征进行处理,从而筛选得到目标特征,可以理解的是,k个训练数据集可以由k个工作节点同步执行,最终将各自筛选得到的目标特征发送至管理结果汇总。相比于,单一的工作节点逐一处理一个训练数据集而言,本申请实施例可以分布式处理,从而可以提高特征筛选的效率。
请参见图10,图10是本申请实施例提供的另一种数据处理装置的结构示意图。该数据处理装置1000可应用于图2对应的数据处理系统中的服务器(管理节点)。数据处理装置1000可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该数据处理装置1000为一个应用软件;该数据处理装置可以用于执行本申请实施例提供的数据处理方法中的相应步骤。该数据处理装置1000可包括:
获取单元1001,用于获取目标时间段内属于目标领域的样本数据集,目标时间段包括k个时间周期,样本数据集包括k个时间周期一一对应的训练数据集,一个训练数据集包括多个原始特征,每个训练数据集包含的原始特征的特征标识相同,k为正整数;
发送单元1002,用于将k个训练数据集分别发送至k个工作节点,以使目标工作节点根据目标训练数据集中的每个原始特征的特征类型,从多个原始特征中筛选出目标特征,每个原始特征的特征类型是目标工作节点根据第一随机特征,对原始特征进行特征贡献评估处理后确定的,第一随机特征是调用目标领域对应的特定分布函数生成的特征,目标工作节点是k个工作节点中的任一工作节点,目标训练数据集是目标工作节点接收到的训练数据集;
处理单元1003,用于接收k个工作节点发送的目标特征,并将接收到的目标特征进行汇总,得到筛选特征,输出筛选特征。
在一种可能的实现方式中,处理单元1003将接收到的目标特征进行汇总,得到筛选特征,输出筛选特征,用于执行以下操作:
统计目标特征在k个时间周期的出现频次,将出现频次大于或者等于预设频次的目标特征确定为筛选特征;
输出筛选特征。
本申请实施例中,管理节点可以根据提供的分布式特征自动筛选方式将k个周期的训练数据集发送至k个工作节点上,以使k个工作节点并行执行特征筛选的步骤。最后,管理节点汇总k个工作节点的目标特征得到筛选特征。由于采用spark分布式特征自动筛选方式,相比于单一的工作节点逐一处理一个训练数据集而言,本申请实施例可以分布式处理,从而可以提高特征筛选的效率。
请参见图11,图11是本申请实施例提供的一种计算机设备的结构示意图,该计算机设备可以是上述的终端设备(工作节点)或服务器(管理节点)。该计算机设备1100用于执行前述方法实施例中计算机设备所执行的步骤,该计算机设备1100包括:一个或多个处理器1110;一个或多个输入设备1120,一个或多个输出设备1130和存储器1140。上述处理器1110、输入设备1120、输出设备1130和存储器1140通过总线1150连接。存储器1140用于存储计算机程序,所述计算机程序包括程序指令,处理器1110用于调用存储器1140存储的程序指令,执行以下操作:
接收管理节点发送的目标领域的目标训练数据集,目标训练数据集包括多个原始特征,目标训练数据集是k个训练数据集中的一个训练数据集,每个训练数据集对应一个时间周期,每个训练数据集包含的原始特征的特征标识相同,k为正整数;
调用目标领域对应的特定分布函数,生成目标训练数据集的第一随机特征;
根据第一随机特征,对目标训练数据集中的每个原始特征进行特征贡献评估处理,得到每个原始特征的特征类型;
根据每个原始特征的特征类型从多个原始特征中筛选出目标特征;
将筛选出的目标特征发送至管理节点,以使管理节点根据k个时间周期的目标特征确定筛选特征。
在一种可能的实现方式中,特征类型包括接受特征类型、拒绝特征类型和待定特征类型;处理器1110根据每个原始特征的特征类型从所述多个原始特征中筛选出目标特征,用于执行以下操作:
根据每个原始特征的特征类型,调整接受特征列表、拒绝特征列表以及待定特征列表,一个特征列表对应一种特征类型;
当满足迭代停止条件时,将接受特征列表和所述待定特征列表中记录的原始特征作为目标特征;
当不满足迭代停止条件时,将接受特征列表和待定特征列表中记录的原始特征组合为新的目标训练数据集。
在一种可能的实现方式中,当目标训练数据集的累积迭代次数达到预设迭代次数时,则确定满足迭代停止条件;或者,
当接受特征列表、拒绝特征列表以及待定特征列表均不发生变化时,则确定满足迭代停止条件。
在一种可能的实现方式中,处理器1110根据第一随机特征,对目标训练数据集中的每个原始特征进行特征贡献评估处理,得到每个原始特征的特征类型,用于执行以下操作:
对目标训练数据集中的多个原始特征的特征值进行随机重排,确定多个第二随机特征;
调用特征打分模型对第一随机特征、多个第二随机特征和目标训练数据集中的每个原始特征进行特征贡献评估处理,得到各个原始特征的评估分、第一随机特征的评估分、以及各个第二随机特征的评估分;
根据各个原始特征的评估分、第一随机特征的评估分、以及各个第二随机特征的评估分,对每个原始特征进行特征校正处理,得到每个原始特征的特征类型。
在一种可能的实现方式中,处理器1110根据各个原始特征的评估分、第一随机特征的评估分、以及各个第二随机特征的评估分,对每个原始特征进行特征校正处理,得到每个原始特征的特征类型,用于执行以下操作:
根据各个原始特征的评估分、各个第一随机特征的评估分、以及各个第二随机特征的评估分,对每个原始特征进行特征重要性评估,得到每个原始特征的试验成功次数;
基于每个原始特征的试验成功次数,对每个原始特征进行特征校正处理,得到每个原始特征的校正结果;
根据每个原始特征的校正结果,得到每个原始特征的特征类型。
在一种可能的实现方式中,处理器1110根据各个原始特征的评估分、第一随机特征的评估分、以及各个第二随机特征的评估分,对每个原始特征进行特征重要性评估,得到每个原始特征的试验成功次数,用于执行以下操作:
根据第一随机特征的评估分、以及各个第二随机特征的评估分,确定出最高的目标评估分;
若任一个原始特征的评估分高于目标评估分,则调整任一个原始特征的试验成功次数。
在一种可能的实现方式中,处理器1110基于每个原始特征的试验结果,对每个原始特征进行特征校正处理,得到每个原始特征的校正结果,用于执行以下操作:
获取目标训练数据集的累积迭代次数;
根据任一个原始特征的试验成功次数和累积迭代次数,确定任一个原始特征的待校正显著水平值;
对任一个原始特征的待校正显著水平值进行校正处理,得到任一个原始特征的校正结果。
在一种可能的实现方式中,处理器1110对任一个原始特征的待校正显著水平值进行校正处理,得到任一个原始特征的校正结果,用于执行以下操作:
按照第一校正方式对任一个原始特征的待校正显著水平值进行校正处理,得到任一个原始特征校正后的显著水平值;
按照第二校正方式对任一个原始特征校正后的显著水平值再次进行校正处理,得到任一个原始特征的校正结果。
在一种可能的实现方式中,任一个原始特征的校正结果包括参考校正累积分布值和参考校正生存函数值;
处理器1110根据每个原始特征的校正结果,得到每个原始特征的特征类型,用于执行以下操作:
若参考校正累积分布值小于预设阈值,则将任一个原始特征的特征类型确定为接受特征类型;
若参考校正生存函数值小于预设阈值,则将任一个原始特征的特征类型确定为拒绝特征类型;
若任一个原始特征的参考校正累积分布值和参考校正生存函数值均大于预设阈值,则将任一个原始特征的特征类型确定为待定特征类型。
在一种可能的实现方式中,特定分布函数的数量为多个,任一个特定分布函数包括以下任一种:对数正态分布函数、二项式分布函数、伯努利分布函数、指数分布函数、均匀分布函数、正态分布函数。
可以理解的是,处理器1110用于调用存储器1140存储的程序指令,还可以执行以下操作:
获取目标时间段内属于目标领域的样本数据集,目标时间段包括k个时间周期,样本数据集包括k个时间周期一一对应的训练数据集,一个训练数据集包括多个原始特征,每个训练数据集包含的原始特征的特征标识相同,k为正整数;
将k个训练数据集分别发送至k个工作节点,以使目标工作节点根据目标训练数据集中的每个原始特征的特征类型,从多个原始特征中筛选出目标特征,每个原始特征的特征类型是目标工作节点根据第一随机特征,对原始特征进行特征贡献评估处理后确定的,第一随机特征是调用目标领域对应的特定分布函数生成的特征,目标工作节点是k个工作节点中的任一工作节点,目标训练数据集是目标工作节点接收到的训练数据集;
接收k个工作节点发送的目标特征,并将接收到的目标特征进行汇总,得到筛选特征,输出筛选特征。
在一种可能的实现方式中,处理器1110将接收到的目标特征进行汇总,得到筛选特征,输出筛选特征,用于执行以下操作:
统计目标特征在k个时间周期的出现频次,将出现频次大于或者等于预设频次的目标特征确定为筛选特征;
输出筛选特征。
本申请实施例中,首先,可以通过特定分布函数生成金融领域内所包括的这些常见特征分布的第一随机特征,可以保证基本的特征分布丰富性,增强特征筛选的稳定性。然后,可以通过spark分布式处理方式,可以将k个训练数据集的训练时间缩短到1/k,从而可以提高特征筛选的效率。可见,本申请中,在对每个原始特征进行特征筛选的过程中,可以根据第一随机特征进行特征贡献评估处理。由于特征筛选既参考了训练数据集本身的原始特征,还额外增加了与原始特征的目标领域相关的第一随机特征,因此丰富了特征筛选的样本数据,从而可以提高特征筛选的准确性。进一步地,一个工作节点可以负责对一个周期的训练数据集的多个原始特征进行处理,从而筛选得到目标特征,可以理解的是,k个训练数据集可以由k个工作节点同步执行,最终将各自筛选得到的目标特征发送至管理结果汇总。相比于,单一的工作节点逐一处理一个训练数据集而言,本申请实施例可以分布式处理,从而可以提高特征筛选的效率。
此外,这里需要指出的是:本申请实施例还提供了一种计算机存储介质,且计算机存储介质中存储有计算机程序,且该计算机程序包括程序指令,当处理器执行上述程序指令时,能够执行前文所对应实施例中的方法,因此,这里将不再进行赘述。对于本申请所涉及的计算机存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。作为示例,程序指令可以被部署在一个计算机设备上,或者在位于一个地点的多个计算机设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算机设备上执行。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备可以执行前文所对应实施例中的方法,因此,这里将不再进行赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,上述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。
Claims (17)
1.一种数据处理方法,其特征在于,包括:
接收管理节点发送的目标领域的目标训练数据集,所述目标训练数据集包括多个原始特征,所述目标训练数据集是k个训练数据集中的一个训练数据集,每个训练数据集对应一个时间周期,每个训练数据集包含的原始特征的特征标识相同,k为正整数;
调用所述目标领域对应的特定分布函数,生成所述目标训练数据集的第一随机特征;
根据所述第一随机特征,对所述目标训练数据集中的每个原始特征进行特征贡献评估处理,得到每个原始特征的特征类型;
根据所述每个原始特征的特征类型从所述多个原始特征中筛选出目标特征;
将筛选出的目标特征发送至所述管理节点,以使所述管理节点根据k个时间周期的目标特征确定筛选特征。
2.如权利要求1所述的方法,其特征在于,所述特征类型包括接受特征类型、拒绝特征类型和待定特征类型;所述根据所述每个原始特征的特征类型从所述多个原始特征中筛选出目标特征,包括:
根据所述每个原始特征的特征类型,调整接受特征列表、拒绝特征列表以及待定特征列表,一个特征列表对应一种特征类型;
当满足迭代停止条件时,将所述接受特征列表和所述待定特征列表中记录的原始特征作为所述目标特征;
当不满足迭代停止条件时,将所述接受特征列表和所述待定特征列表中记录的原始特征组合为新的目标训练数据集。
3.如权利要求2所述的方法,其特征在于,
当所述目标训练数据集的累积迭代次数达到预设迭代次数时,则确定满足所述迭代停止条件;或者,
当所述接受特征列表、所述拒绝特征列表以及所述待定特征列表均不发生变化时,则确定满足所述迭代停止条件。
4.如权利要求1所述的方法,其特征在于,所述根据所述第一随机特征,对所述目标训练数据集中的每个原始特征进行特征贡献评估处理,得到每个原始特征的特征类型,包括:
对所述目标训练数据集中的多个原始特征的特征值进行随机重排,确定多个第二随机特征;
调用特征打分模型对所述第一随机特征、所述多个第二随机特征和所述目标训练数据集中的每个原始特征进行特征贡献评估处理,得到各个原始特征的评估分、所述第一随机特征的评估分、以及各个第二随机特征的评估分;
根据所述各个原始特征的评估分、所述第一随机特征的评估分、以及各个第二随机特征的评估分,对所述每个原始特征进行特征校正处理,得到每个原始特征的特征类型。
5.如权利要求4所述的方法,其特征在于,所述根据所述各个原始特征的评估分、所述第一随机特征的评估分、以及各个第二随机特征的评估分,对所述每个原始特征进行特征校正处理,得到每个原始特征的特征类型,包括:
根据所述各个原始特征的评估分、各个第一随机特征的评估分、以及各个第二随机特征的评估分,对所述每个原始特征进行特征重要性评估,得到所述每个原始特征的试验成功次数;
基于所述每个原始特征的试验成功次数,对所述每个原始特征进行特征校正处理,得到所述每个原始特征的校正结果;
根据所述每个原始特征的校正结果,得到每个原始特征的特征类型。
6.如权利要求5所述的方法,其特征在于,所述根据所述各个原始特征的评估分、所述第一随机特征的评估分、以及各个第二随机特征的评估分,对所述每个原始特征进行特征重要性评估,得到所述每个原始特征的试验成功次数,包括:
根据所述第一随机特征的评估分、以及各个第二随机特征的评估分,确定出最高的目标评估分;
若任一个原始特征的评估分高于所述目标评估分,则调整所述任一个原始特征的试验成功次数。
7.如权利要求5所述的方法,其特征在于,所述基于所述每个原始特征的试验结果,对所述每个原始特征进行特征校正处理,得到所述每个原始特征的校正结果,包括:
获取所述目标训练数据集的累积迭代次数;
根据任一个原始特征的试验成功次数和所述累积迭代次数,确定所述任一个原始特征的待校正显著水平值;
对所述任一个原始特征的待校正显著水平值进行校正处理,得到所述任一个原始特征的校正结果。
8.如权利要求7所述的方法,其特征在于,所述对所述任一个原始特征的待校正显著水平值进行校正处理,得到所述任一个原始特征的校正结果,包括:
按照第一校正方式对所述任一个原始特征的待校正显著水平值进行校正处理,得到所述任一个原始特征校正后的显著水平值;
按照第二校正方式对所述任一个原始特征校正后的显著水平值再次进行校正处理,得到所述任一个原始特征的校正结果。
9.如权利要求5所述的方法,其特征在于,任一个原始特征的校正结果包括参考校正累积分布值和参考校正生存函数值;
所述根据所述每个原始特征的校正结果,得到每个原始特征的特征类型,包括:
若所述参考校正累积分布值小于预设阈值,则将所述任一个原始特征的特征类型确定为接受特征类型;
若所述参考校正生存函数值小于预设阈值,则将所述任一个原始特征的特征类型确定为拒绝特征类型;
若所述任一个原始特征的参考校正累积分布值和参考校正生存函数值均大于预设阈值,则将所述任一个原始特征的特征类型确定为待定特征类型。
10.如权利要求1所述的方法,其特征在于,所述特定分布函数的数量为多个,任一个特定分布函数包括以下任一种:对数正态分布函数、二项式分布函数、伯努利分布函数、指数分布函数、均匀分布函数、正态分布函数。
11.一种数据处理方法,其特征在于,包括:
获取目标时间段内属于目标领域的样本数据集,所述目标时间段包括k个时间周期,所述样本数据集包括k个时间周期一一对应的训练数据集,一个训练数据集包括多个原始特征,每个训练数据集包含的原始特征的特征标识相同,k为正整数;
将k个训练数据集分别发送至k个工作节点,以使目标工作节点根据目标训练数据集中的每个原始特征的特征类型,从所述多个原始特征中筛选出目标特征,每个原始特征的特征类型是所述目标工作节点根据第一随机特征,对原始特征进行特征贡献评估处理后确定的,所述第一随机特征是调用所述目标领域对应的特定分布函数生成的特征,目标工作节点是所述k个工作节点中的任一工作节点,所述目标训练数据集是所述目标工作节点接收到的训练数据集;
接收所述k个工作节点发送的目标特征,并将接收到的目标特征进行汇总,得到筛选特征,输出所述筛选特征。
12.如权利要求11所述的方法,其特征在于,所述将接收到的目标特征进行汇总,得到筛选特征,输出所述筛选特征,包括:
统计目标特征在k个时间周期的出现频次,将出现频次大于或者等于预设频次的目标特征确定为筛选特征;
输出所述筛选特征。
13.一种数据处理装置,其特征在于,包括:
接收单元,用于接收管理节点发送的目标领域的目标训练数据集,所述目标训练数据集包括多个原始特征,所述目标训练数据集是k个训练数据集中的一个训练数据集,每个训练数据集对应一个时间周期;
处理单元,用于调用所述目标领域对应的特定分布函数,生成所述目标训练数据集的第一随机特征;
所述处理单元,还用于根据所述第一随机特征,对所述目标训练数据集中的每个原始特征进行特征贡献评估处理,得到每个原始特征的特征类型;
所述处理单元,还用于根据所述每个原始特征的特征类型从所述多个原始特征中筛选出目标特征;
发送单元,用于将筛选出的目标特征发送至所述管理节点,以使所述管理节点根据k个时间周期的目标特征确定筛选特征。
14.一种数据处理装置,其特征在于,包括:
获取单元,用于获取目标时间段内属于目标领域的样本数据集,所述目标时间段包括k个时间周期,所述样本数据集包括k个时间周期一一对应的训练数据集,一个训练数据集包括多个原始特征;
发送单元,用于将k个训练数据集分别发送至k个工作节点,以使目标工作节点根据每个原始特征的特征类型从所述多个原始特征中筛选出目标特征,每个原始特征的特征类型是所述目标工作节点根据第一随机特征,对原始特征进行特征贡献评估处理后确定的,所述第一随机特征是调用所述目标领域对应的特定分布函数生成的特征,目标工作节点是所述k个工作节点中的任一工作节点;
处理单元,用于接收所述k个工作节点发送的目标特征,并将接收到的目标特征进行汇总,得到筛选特征,输出所述筛选特征。
15.一种计算机设备,其特征在于,包括:
处理器,适于执行计算机程序;
计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被所述处理器执行时,实现如权利要求1-10或如权利要求11-12任一项所述的数据处理方法。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-10或如权利要求11-12任一项所述的数据处理方法。
17.一种计算机程序产品,其特征在于,所述计算程序产品包括计算机程序,所述计算机程序适于被处理器加载并执行如权利要求1-10或如权利要求11-12任一项所述的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210089738.4A CN116541684A (zh) | 2022-01-25 | 2022-01-25 | 数据处理方法及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210089738.4A CN116541684A (zh) | 2022-01-25 | 2022-01-25 | 数据处理方法及相关装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116541684A true CN116541684A (zh) | 2023-08-04 |
Family
ID=87447650
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210089738.4A Pending CN116541684A (zh) | 2022-01-25 | 2022-01-25 | 数据处理方法及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116541684A (zh) |
-
2022
- 2022-01-25 CN CN202210089738.4A patent/CN116541684A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105574098B (zh) | 知识图谱的生成方法及装置、实体对比方法及装置 | |
CN106682906B (zh) | 一种风险识别、业务处理方法和设备 | |
CN110166344B (zh) | 一种身份标识识别方法、装置以及相关设备 | |
WO2017181866A1 (en) | Making graph pattern queries bounded in big graphs | |
WO2023020214A1 (zh) | 检索模型的训练和检索方法、装置、设备及介质 | |
CN111783830A (zh) | 基于oct的视网膜分类方法、装置、计算机设备及存储介质 | |
CN114511330A (zh) | 一种基于改进的cnn-rf的以太坊庞氏骗局检测方法及系统 | |
CN113850669A (zh) | 用户分群方法、装置、计算机设备及计算机可读存储介质 | |
CN115114329A (zh) | 数据流异常检测的方法、装置、电子设备和存储介质 | |
CN115934484B (zh) | 基于扩散模型数据增强的异常检测方法、存储介质及设备 | |
CN110210884B (zh) | 确定用户特征数据的方法、装置、计算机设备及存储介质 | |
CN113448876B (zh) | 一种业务测试方法、装置、计算机设备及存储介质 | |
CN116541684A (zh) | 数据处理方法及相关装置 | |
CN109993338B (zh) | 一种链路预测方法及装置 | |
CN112235787B (zh) | 一种基于生成对抗网络的位置隐私保护方法 | |
CN114490673A (zh) | 数据信息处理方法、装置、电子设备及存储介质 | |
CN113891323A (zh) | 一种基于WiFi的用户标签获取系统 | |
CN114970670A (zh) | 模型公平性评估方法及装置 | |
CN110032596B (zh) | 流量异常用户识别方法及系统 | |
CN113033209A (zh) | 文本关系抽取方法、装置、存储介质及计算机设备 | |
CN111062800A (zh) | 数据处理方法、装置、电子设备及计算机可读介质 | |
CN112016979A (zh) | 用户分群方法、装置、设备和计算机可读存储介质 | |
CN116629388B (zh) | 差分隐私联邦学习训练方法、装置和计算机可读存储介质 | |
CN117786416B (zh) | 一种模型训练方法、装置、设备、存储介质及产品 | |
CN114971878B (zh) | 风险评估方法、风险评估装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40091043 Country of ref document: HK |