CN112199417B

CN112199417B - 基于人工智能的数据处理方法、装置、终端及存储介质

Info

Publication number: CN112199417B
Application number: CN202011059580.3A
Authority: CN
Inventors: 张跃; 张浩然
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2022-05-13
Anticipated expiration: 2040-09-30
Also published as: CN112199417A

Abstract

本发明涉及人工智能技术领域，提供一种基于人工智能的数据处理方法、装置、终端及存储介质，包括：将使用XGBoost模型从原始数据集中选取出的重要数据集切分为多个分数据集；使用每个分数据集训练并测试lightGBM模型得到测试通过率；将分数据集中第一个字段对应的训练数据及测试数据进行预标准化处理得到新的分数据集；使用新的分数据集训练并测试lightGBM模型得到测试通过率；根据两次测试通过率判断是否需要对第一个字段对应的数据进行标准化处理；重复执行上述过程直至判断是否需要对重要数据集中最后一个字段对应的数据进行标准化处理，根据所有的判断结果更新重要数据集得到目标数据集。本发明能够选取出具有较强稳定性且对预测模型具有较大贡献度的数据集。

Description

基于人工智能的数据处理方法、装置、终端及存储介质

技术领域

本发明涉及人工智能技术领域，具体涉及一种基于人工智能的数据处理方法、装置、终端及存储介质。

背景技术

在代理人留存/低业绩预测模型中，部分特征由于受到季节性(例如2月入司人数和质量)和业务方面(例如强推APP、考核月和非考核月的新人质量)的影响，存在跨时间不稳定的现象，即特征的分布(均值、标准差等等)随时间变化而变化，这就给模型的训练和跨时间预测带来了困难。

此外，由于代理人留存/低业绩预测模型的训练是将预测月份的前3至6个月的数据作为一个训练集整体来进行训练(例如预测9月的留存/低业绩模型的训练集是3月-6月的数据做为一个整体)，常用的树模型(GBDT/XGBOOST等等)是针对特征在训练月份(4月-6月)的整体分布而寻找最优分裂点。然而每个月的入司人群的质量可能略有差异，这就导致寻找到的最优分裂点在训练的多个月份不一定稳定；预测月份和训练月份的入司的人群质量、特征分布也存在差异，这就为模型跨时间预测的稳定性造成了潜在的隐患。

发明内容

鉴于以上内容，有必要提出一种基于人工智能的数据处理方法、装置、终端及存储介质，能够从原始数据集中选取出具有较强稳定性且对预测模型具有较大贡献度的目标数据集。

本发明的第一方面提供一种基于人工智能的数据处理方法，所述方法包括：

将使用XGBoost模型从原始数据集中选取出的重要数据集切分为多个第一分数据集，使用每个第一分数据集对训练后的第一lightGBM模型进行测试得到第一测试通过率，其中，所述重要数据集与每个第一分数据集具有相同的多个字段；

将每个第一分数据集中第一个字段对应的数据进行预标准化处理得到第二分数据集，并使用每个第二分数据集对训练后的第二lightGBM模型进行测试得到第二测试通过率；

根据多个所述第一测试通过率及对应的所述第二测试通过率判断是否需要对所述重要数据集中的所述第一个字段对应的数据进行标准化处理，并根据判断得到的判断结果更新所述第二分数据集；

将每个更新后的第二分数据集中第二个字段对应的数据进行预标准化处理得到第三分数据集，并使用每个第三分数据集对训练后的第三lightGBM模型进行测试得到第三测试通过率；

重复执行上述过程直至判断是否需要对所述重要数据集中的最后一个字段对应的数据进行标准化处理，并根据所有的判断结果更新所述重要数据集得到目标数据集。

可选的，所述使用XGBoost模型从原始数据集中选取出重要数据集的过程包括：

基于所述原始数据集训练第一XGBoost模型，获取所述第一XGBoost模型输出的所述原始数据集中每个字段的重要度值，并计算所述第一XGBoost模型的第一预测准确率；

对所述重要度值按照从大到小进行排序；

读取预设数值序列中的第一个数值，从排序后的重要度值中获取所述第一个数值的重要度值对应的第一目标字段，并将所述第一目标字段对应的多个原始数据作为第一子原始数据集；

基于所述第一子原始数据集训练第二XGBoost模型，并计算所述第二XGBoost模型的第二预测准确率；

判断所述第一预测准确率与所述第二预测准确率之间的差值是否小于预设差值阈值；

当所述第一预测准确率与所述第二预测准确率之间的差值小于或者等于预设差值阈值时，将所述第一子原始数据集确定为重要数据集；

当所述第一预测准确率与所述第二预测准确率之间的差值大于所述预设差值阈值时，读取所述预设数值序列中的第二个数值，从排序后的重要度值中获取所述第二个数值的重要度值对应的第二目标字段，并将所述第二目标字段对应的多个原始数据作为第二子原始数据集；

当所述第一预测准确率与所述第二预测准确率之间的差值小于或者等于所述预设差值阈值时，停止读取所述预设数值序列中的数值，并将当前的第二子原始数据集确定为重要数据集。

可选的，所述根据多个所述第一测试通过率及对应的所述第二测试通过率判断是否需要对所述重要数据集中的所述第一个字段对应的数据进行标准化处理，并根据判断得到的判断结果更新所述第二分数据集包括：

判断所述第一测试通过率是否小于所述第二测试通过率；

当确定所述第一测试通过率小于所述第二测试通过率时，生成判断结果为确定需要对所述重要数据集中所述第一个字段对应的数据进行标准化处理，将所述第一分数据集中所述第一个字段对应的数据进行标准化处理后的数据集作为所述第二分数据集；

当确定所述第一测试通过率大于或者等于所述第二测试通过率时，生成判断结果为确定不需要对所述重要数据集中所述第一个字段对应的数据进行标准化处理，将所述第一分数据集作为所述第二分数据集。

可选的，每个第一分数据集包括第一训练数据集及第一测试数据集，所述将每个第一分数据集中第一个字段对应的数据进行预标准化处理得到第二分数据集包括：

对所述第一个字段对应的训练数据进行处理使得所述第一个字段对应的训练数据服从正太分布，及对所述第一个字段对应的测试数据进行处理使得所述第一个字段对应的测试数据服从正太分布；

计算服从正太分布的第一个字段对应的训练数据的第一均值和第一标准差；

根据所述第一均值预测出所述测试数据集的第二均值，及根据所述第一标准差预测出所述测试数据集的第二标准差；

根据所述第一均值和所述第一标准差对所述正太分布的训练数据进行标准化处理得到第二训练数据集，及根据所述第二均值和所述第二标准差对所述正太分布的测试数据进行标准化处理得到第二测试数据集。

可选的，在所述根据所有的判断结果更新所述重要数据集得到目标数据集之后，所述方法还包括：

基于所述目标数据集训练lightGBM模型得到行为预测模型；

通过调用所述行为预测模型对目标用户进行行为预测得到所述目标用户的行为。

可选的，在所述使用XGBoost模型从原始数据集中选取出重要数据集之前，所述方法还包括：

判断所述原始数据集的数量是否大于预设数量阈值；

当所述原始数据集的数量大于或者等于所述预设数量阈值时，执行所述使用XGBoost模型从原始数据集中选取出重要数据集；

当所述原始数据集的数量小于所述预设数量阈值时，使用遗传算法对所述原始数据集进行策略寻优得到目标数据集。

可选的，所述使用遗传算法对所述原始数据集进行策略寻优得到目标数据集包括：

获取第一代种群数量；

从所述原始数据集中随机选择所述第一代种群数量的目标数据；

为所述目标数据生成第一标识，及为所述原始数据集中的其余数据生成第二标识；

根据所述第一标识及所述第二标识生成第一代种群；

使用XGBoost模型对所述第一代种群进行训练得到多个预测值，并根据所述多个预测值计算预测准确率；

使用遗传算法根据所述预测准确率对所述原始数据集进行迭代寻优得到目标种群；

根据所述目标种群更新所述原始数据集得到目标数据集。

本发明的第二方面提供一种基于人工智能的数据处理装置，所述装置包括：

切分模块，用于将使用XGBoost模型从原始数据集中选取出的重要数据集切分为多个第一分数据集；

测试模块，用于使用每个第一分数据集对训练后的第一lightGBM模型进行测试得到第一测试通过率，其中，所述重要数据集与每个第一分数据集具有相同的多个字段；

预处理模块，用于将每个第一分数据集中第一个字段对应的数据进行预标准化处理得到第二分数据集；

所述测试模块，还用于使用每个第二分数据集对训练后的第二lightGBM模型进行测试得到第二测试通过率；

更新模块，用于根据多个所述第一测试通过率及对应的所述第二测试通过率判断是否需要对所述重要数据集中的所述第一个字段对应的数据进行标准化处理，并根据判断得到的判断结果更新所述第二分数据集；

所述预处理模块，还用于将每个更新后的第二分数据集中第二个字段对应的数据进行预标准化处理得到第三分数据集；

所述测试模块，还用于使用每个第二分数据集对训练后的第三lightGBM模型进行测试得到第三测试通过率；

所述更新模块，还用于重复执行上述过程直至判断是否需要对所述重要数据集中的最后一个字段对应的数据进行标准化处理，并根据所有的判断结果更新所述重要数据集得到目标数据集。

本发明的第三方面提供一种终端，其特征在于，所述终端包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现所述的基于人工智能的数据处理方法。

本发明的第四方面提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现所述的基于人工智能的数据处理方法。

综上所述，本发明所述的基于人工智能的数据处理方法、装置、终端及存储介质，通过对原始数据集进行筛选与处理，能够获取具有较强稳定性且对预测模型具有较大贡献度的目标数据集，数据的不稳定性获得一定程度的缓解，从而基于所述目标数据集训练预测模型，能够提高预测模型的训练效率，且模型预测的预测稳定性及预测准确率也能够得到一定程度的提升，应用于跨时间的预测业务场景中，例如代理人留存/低业绩预测场景中，预测风险降低，性能稳定，具有较高的准确率和较稳定的预测结果。

附图说明

图1是本发明实施例一提供的基于人工智能的数据处理方法的流程图。

图2是本发明实施例二提供的基于人工智能的数据处理装置的结构图。

图3是本发明实施例三提供的终端的结构示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施例对本发明进行详细描述。需要说明的是，在不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

图1是本发明实施例一提供的基于人工智能的数据处理方法的流程图。所述的基于人工智能的数据处理方法具体包括以下步骤，根据不同的需求，该流程图中步骤的顺序可以改变，某些可以省略。

S11，使用XGBoost模型从原始数据集中选取出重要数据集。

其中，所述原始数据集包括多个代理人的多个字段，每个字段对应多个原始数据，每个原始数据对应有一个采集时间。从所述原始数据集中选取出重要数据集是指从所述原始数据集中选取出对预测模型起到主要贡献度的字段及所述字段对应的多个原始数据。

在保险代理人留存/低业绩预测模型中，所述原始数据集为从多个预设APP中获取的埋点数据，所述原始数据集可以包括1700多个字段，例如，日点击率，日分享次数，日登陆次数等。

在一个可选的实施例中，所述使用XGBoost模型从原始数据集中选取出重要数据集包括：

对所述重要度值按照从大到小进行排序；

其中，XGBoost(eXtreme Gradient Boosting)是一种提升树模型，Boosting算法的思想是将许多弱分类器集成在一起，通过加入新的弱学习器，来纠正前面所有弱学习器的残差，最终这样多个学习器相加在一起用来进行最终预测，准确率就会比单独的一个要高，从而形成一个强分类器。所述XGBoost模型在训练结束时，不仅输出多个预测值，还输出字段的重要度值，所述重要度值用以表示字段对XGBoost模型的贡献程度。重要度值越大，表明对应的字段对XGBoost模型的贡献程度越大；重要度值越小，表明对应的字段对XGBoost模型的贡献程度越小。

其中，预测准确率是根据XGBoost模型输出的预测值与真实值计算得到的。所述预设数值序列可以为[X1，X2，X3，…，XN]，X1，X2，…，XN之间可以为等差数列。

当所述第一预测准确率与所述第二预测准确率之间的差值小于或者等于所述预设差值阈值时，表明所述第二预测准确率对应的重要数据集对所述第二XGBoost模型起到了主要的贡献作用，使得第一XGBoost模型与第二XGBoost模型之间的预测能力相差不大。当所述第一预测准确率与所述第二预测准确率之间的差值大于所述预设差值阈值时，基于所述第二子原始数据集训练第三XGBoost模型，并计算所述第三XGBoost模型的第三预测准确率，当所述第三预测准确率与所述第一预测准确率之间的差值小于或者等于预设差值阈值时，将所述第二子原始数据集确定为重要数据集。

通过根据贡献度值不断的从原始数据集中获取子原始数据集，并在基于所述子原始数据集训练出的XGBoost模型的预测准确率与基于所述原始数据集训练出的XGBoost模型的预测准确率相差不大时，即可确定出能够对XGBoost模型的预测准确率起主要贡献度的重要数据集。由于所述重要数据集的数据量远小于所述原始数据集的数据量，使得将所述重要数据集用于作为训练预测模型的数据来源时，能够缩短预测模型的训练时间，提升预测模型的训练效率。

S12，将使用XGBoost模型从原始数据集中选取出的重要数据集切分为多个第一分数据集。

实际应用时，可以根据所述重要数据集中每个数据的采集时间对所述重要数据集进行切分。每个第一分数据集包括第一训练数据集及第一测试数据集。例如，假如所述重要数据集为2019年1-8月份的数据，则可以按照月份将所述重要数据集切分为8份。将2019年1-3月份及6月份的数据作为第一分数据集，其中，2019年1-3月的数据作为第一分数据集中的训练数据集，2019年6月份的数据作为第一分数据集中的测试数据集；将2019年2-4月份及7月份的数据作为第二分数据集，其中，2019年2-4月的数据作为第二分数据集中的训练数据集，2019年7月份的数据作为第二分数据集中的测试数据集；将2019年3-5月份及8月份的数据作为第三分数据集，其中，2019年3-5月的数据作为第三分数据集中的训练数据集，2019年8月份的数据作为第三分数据集中的测试数据集。

所述重要数据集与每个第一分数据集具有相同的多个字段。

S13，使用每个第一分数据集对训练后的第一lightGBM模型进行测试得到第一测试通过率。

本实施例中，使用每个第一训练数据集训练第一lightGBM模型，并使用与所述第一训练数据集对应的第一测试数据集测试所述第一lightGBM模型，得到第一测试通过率。

如上述的示例，使用2019年1-3月份的数据集训练一个lightGBM模型，并使用2019年6月份的数据集测试所述lightGBM模型，得到一个测试通过率；使用2019年2-4月份的数据集训练一个lightGBM模型，并使用2019年7月份的数据集测试所述lightGBM模型，得到一个测试通过率；使用2019年3-5月份的数据集训练一个lightGBM模型，并使用2019年7月份的数据集测试所述lightGBM模型，得到一个测试通过率。

S14，将每个第一分数据集中第一个字段对应的数据进行预标准化处理得到第二分数据集。

将每个第一训练数据集中第一个字段对应的训练数据进行预标准化处理得到第二训练数据集，及将每个第一测试数据集中所述第一个字段对应的测试数据进行预标准化处理得到第二测试数据集，所述第一训练数据集及所述第二测试数据集构成第二分数据集。

在代理人留存/低业绩预测模型中，如果将重要数据集中的所有数据都进行标准化处理，能够使得标准化处理后的重要数据集在不同的月份具有更加稳定的意义。然而，一个预测模型中的多个数据之间会相互影响，并不见得将所有的数据均进行标准化处理后，预测模型的跨时间预测效果就一定变得更好或者是最好。可能只对重要数据集中的部分数据进行标准化处理，而保持其余数据不做任何处理，反而使得预测模型的预测准确率最高且最稳定。因此，需要对重要数据集中的每个数据逐步进行试探性的标准化处理(预标准化处理)。即，假设在对某个数据进行标准化处理后，预测模型的预测准确率是否有所提升，从而决定是否对这个数据进行标准化处理。

应当理解的是，所述训练数据集中的字段及所述测试数据集中的字段已经根据重要度值进行了排序。即，第一个字段对应的数据代表重要度最高的数据，最后一个字段对应的数据代表重要度最低的数据。

在一个可选的实施例中，所述将每个第一分数据集中第一个字段对应的数据进行预标准化处理得到第二分数据集包括：

在代理人留存/低业绩预测模型中，有大量数据不是服从正态分布，而是接近于泊松分布。泊松分布的特点是数据值越小，数量越多，随着数据值的增大，数据量迅速减少，分布的尾部较长。服从泊松分布的数据的均值是一个非常小的正数，标准差则为一个较大的数。对于服从泊松分布的数据而言，如果直接进行标准化处理，则不能达到正态分布数据标准化的效果。具体实施时，先对服从泊松分布的数据做log变换，再对变换后的数据进行标准化处理。

通过训练数据每个月的均值和标准差用时间序列的方法预测出测试月份的测试数据集的均值和标准差。在一个可替代的实施例中，随着预测月份的测试数据集在预测月份的积累，可以用当前积累的测试数据的均值和标准差替代整个测试月份的均值和标准差。示例性的，假设测试月份为11月，可以用11月1日-9日的数据获得11月份的测试数据的均值和标准差。

该可选的实施例中，字段对应的原始数据在不同的月份可能表示不同的意义，通过对数据进行标准化处理，将字段对应的原始数据(比如金管家打点数)转化成了一个相对数据(以当月入司人群的均值点数为基准，某个人的打点数是平均水平、偏高、还是偏低)，使得从跨时间的意义上来看，标准化处理后的数据更加稳定。后续基于标准化处理后的数据训练预测模型时，能够提升预测模型的预测稳定性。

在一个可选的实施例中，在所述将每个第一分数据集中第一个字段对应的数据进行预标准化处理得到第二分数据集之前，所述方法还包括：

识别第一个字段对应的数据的数据类型是否为数值型；

当识别第一个字段对应的数据的数据类型为非数值型时，编码所述非数值型的数据为数值型的训练数据。

对于非数值型的数据一般都是离散型的，离散型的数据无法确定数据分布形态。可以先将离散型的数据进行数值化，转化为数值型的数据。示例性的，假设代理人出生地这个字段对应的数据为：广东，广西和浙江等，则可以采用证据权重(weight of Evidence，WOE)算法对广东、广西和浙江等数据进行编码处理，将编码处理后的数据看做连续的数值型数据。如果第一个字段对应的训练数据的数据类型为非数值型，则对第一个字段对应的训练数据进行编码；如果第一个字段对应的测试数据的数据类型为非数值型，则对第一个字段对应的测试数据进行编码。

S15，使用每个第二分数据集对训练后的第二lightGBM模型进行测试得到第二测试通过率。

将每个分数据集中的第一训练数据中的第一个字段对应的数据进行标准化处理得到第二训练数据，使用第二训练数据集训练第二lightGBM模型，使用与所述第二训练数据集对应的第二测试数据集测试所述第二lightGBM模型，得到第二测试通过率，根据第二lightGBM模型的测试通过率来确定对于第一个字段对应的数据进行标准化处理是否对预测模型有效。

S16，根据多个所述第一测试通过率及对应的所述第二测试通过率判断是否需要对所述重要数据集中的所述第一个字段对应的数据进行标准化处理，并根据判断得到的判断结果更新所述第二分数据集。

通过对所述第一测试通过率及所述第二测试通过率进行比较，得到比较结果，根据比较结果确定是否对所述第二训练数据集及所述第二测试数据集进行更新。

在一个可选的实施例中，所述根据多个所述第一测试通过率及对应的所述第二测试通过率判断是否需要对所述重要数据集中的所述第一个字段对应的数据进行标准化处理，并根据判断得到的判断结果更新所述第二分数据集包括：

判断所述第一测试通过率是否小于所述第二测试通过率；

由于第二训练数据集是在第一训练数据集的基础上对所述第一个字段对应的数据进行标准化处理得到的，基于第二训练数据集训练第二lightGBM模型并计算第二lightGBM模型测试通过率。如果训练得到的第二lightGBM模型的第二测试通过率高于训练得到的第一lightGBM模型的第一测试通过率，表明对所述第一个字段对应的数据进行标准化处理，有助于提升预测模型的预测准确率，则需要对所述第一个字段对应的数据进行标准化处理，将所述第一训练数据集中所述第一个字段对应的训练数据进行标准化处理后的数据集作为所述第二训练数据集，将所述第一测试数据集中所述第一个字段对应的测试数据进行标准化处理后的数据集作为所述第二测试数据集。如果训练得到的第二lightGBM模型的第二测试通过率低于训练得到的第一lightGBM模型的第一测试通过率，表明对所述第一个字段对应的数据进行标准化处理，反而降低了预测模型的预测准确率，则不需要对所述第一个字段对应的数据进行标准化处理，不将所述重要数据集中的所述第一个字段对应的数据进行标准化处理，将所述第一训练数据集作为所述第二训练数据集，将所述第一测试数据集作为所述第二测试数据集。

S17，重复执行S14-S16直至判断是否需要对所述重要数据集中的最后一个字段对应的数据进行标准化处理，并根据所有的判断结果更新所述重要数据集得到目标数据集。

将每个更新后的第二分数据集中第二个字段对应的数据进行预标准化处理得到第三分数据集，并使用每个第三分数据集对训练后的第三lightGBM模型进行测试得到第三测试通过率。使用更新后的第二分数据集中的训练数据集重新训练第二lightGBM模型，并使用更新后的第二分数据集中的测试数据集重新测试所述第二lightGBM模型得到新的第二测试通过率。根据多个所述新的第二测试通过率及对应的所述第三测试通过率判断是否需要对所述重要数据集中的所述第二个字段对应的数据进行标准化处理，并根据判断得到的判断结果更新所述第三分数据集。

预测模型的预测准确率往往是由最重要的一部分特征提供的，在代理人留存/低业绩预测模型中，重要数据集(例如，原始数据集的字段多达1700多个，其中最重要的字段为TOP100)就可以提供整个预测模型90％的预测准确率。所以，需要保证重要数据集中的字段的变换策略是合理的。一个字段的变换策略有两种可能性：1)标准化处理；2)保持不动。则100个字段一共有2¹⁰⁰种可能性，搜索空间太大，不可能遍历所有可能性来选择最优策略，通过借助启发式的优化算法来找到比较好的策略或是逼近最优解的策略。

在低业绩预测模型中，由于低业绩标签需要有3个月的观测期，如果在10月底预测11月的代理人的低业绩，则当前最近的有标签的月份是8月。

假设有三个历史场景(分数据集)，分别是：1-3月预测6月，2-4月预测7月，3-5月预测8月，对每个分数据集进行贪婪式逐步寻优：比如对于3-5月预测8月这一场景，先将重要数据集中的全部数据以保持不动的方式训练lightGBM模型做为基准，记为M，得到跨时间预测8月的测试通过率记为A；然后对最重要的字段1对应的数据做标准化处理，替换掉保持不动的字段1对应的数据入模，重新训练lightGBM模型，记为M’，得到跨时间预测8月的测试通过率记为A’；如果A’>A，那么说明字段1对应的数据做标准化处理比保持不动要好，则记录字段1对应的策略为‘标准化’，并且令M＝M’，A＝A’；如果A’<A，则说明字段1对应的数据不做标准化处理为好，M和A保持不动，记录特征1对应的策略为‘保持不动’。

如下表所示，假设字段1对应的策略为‘标准化’，则字段2的过程是在字段1做逐月标准化的基准上进行策略测试和选择，所以这是一种贪婪式的寻优。以此类推，依次处理重要数据集中的每一个字段对应的数据，得到单个场景的贪婪最优策略。同理，对其它两个历史场景也可以得到贪婪最优策略。最后上线场景策略的选择通过投票确定，比如字段1在三个历史场景中的最优策略都是逐月标准化，则选择逐月标准化。特征4在三个历史场景中，两个场景选择保持不动，则在上线场景选择不动。

之所以需要构造历史滚动场景是因为字段变换的选择策略只有经过历史的跨时间的建模测试实验才是对未来跨时间预测最有力的支持。比如当前的上线场景是用6-8月做为训练集对11月入司的人员进行预测，如果只是通过训练月份6-8月的数据进行字段变换策略选择的依据而不进行跨时间的实验测试，则很有可能在对11月的上线预测中失效。

在一个可选的实施例中，在所述根据所有的判断结果更新所述重要数据集得到目标数据集之后，所述方法还包括：

基于所述目标数据集训练lightGBM模型得到行为预测模型；

其中，所述行为预测模型可以为留存预测模型，或者低业绩预测模型，或者其他行为类型的预测模型。当所述行为预测模型为留存预测模型时，则对目标用户进行行为预测得到所述目标用户的留存时长，当所述行为预测模型为低业绩预测模型时，则对目标用户进行行为预测得到所述目标用户的低业绩得分。

该可选的实施例中，目标数据集为从原始数据集中先筛选出的对预测模型具有重要贡献度的重要数据集，再基于贪婪式的寻优策略从所述重要数据集中进行寻优找到的具有稳定性的数据，因而，基于所述目标数据集训练lightGBM模型得到的行为预测模型，不仅具有较高的预测准确率，对在跨时间的预测中具有较高的预测稳定性。从而在线调用所述行为预测模型预测目标用户的行为得到的预测结果，准确率高，且置信度高。

在一个可选的实施例中，在所述使用XGBoost模型从原始数据集中选取出重要数据集之前，所述方法还包括：

判断所述原始数据集的数量是否大于预设数量阈值；

当所述原始数据集的数量大于或者等于所述预设数量阈值时，使用XGBoost模型从原始数据集中选取出重要数据集；

该可选的实施例中，所述原始数据集的数量大于或者等于所述预设数量阈值，表明原始数据集属于超大样本数据集，使用XGBoost模型从原始数据集中选取出重要数据集，再对所述重要数据集进行策略寻优得到目标数据集，由于重要数据集的数据量减少，能够减少策略寻优的搜索空间，提高策略寻优的效率，从而提高行为预测模型的训练效率；但所述原始数据集的数量小于所述预设数量阈值，表明原始数据集属于小样本数据集，使用遗传算法对所述原始数据集进行策略寻优得到目标数据集，能够保留原始数据集中的所有数据，从而避免行为预测模型过拟合。

在一个可选的实施例中，所述使用遗传算法对所述原始数据集进行策略寻优得到目标数据集包括：

获取第一代种群数量；

根据所述第一标识及所述第二标识生成第一代种群；

根据所述目标种群更新所述原始数据集得到目标数据集。

示例性的，假设原始数据集中有100个字段，用1表示进行标准化处理，用0表示保持不动，则一套寻优策略就可以用一个长度为100的0/1字符串来表示。首先随机生成第一代种群(比如50个由0或者1构成的字符串)，然后通过遗传算法进行选择、交叉、变异等操作得到第二种群，以此类推，经过多代的演化，则可以得到逼近最优的解，即长度为100的0/1字符串，表示原始数据集中的100个字段哪些需要进行标准化处理，哪些保持不动。

综上所述，通过本发明所述的方法，数据的不稳定性获得一定程度的缓解，模型预测的准确度和稳定性得到一定程度的提升，在代理人留存/低业绩预测模型中，预测风险降低，性能稳定，应用在跨时间的预测业务场景中时，具有较高的准确率和较稳定的预测结果。

需要强调的是，为进一步保证上述行为预测模型的私密性和安全性，上述行为预测模型可存储于区块链的节点中。

在一些实施例中，所述基于人工智能的数据处理装置20可以包括多个由计算机程序段所组成的功能模块。所述基于人工智能的数据处理装置20中的各个程序段的计算机程序可以存储于终端的存储器中，并由至少一个处理器所执行，以执行(详见图1描述)基于人工智能的数据处理的功能。

本实施例中，所述基于人工智能的数据处理装置20根据其所执行的功能，可以被划分为多个功能模块。所述功能模块可以包括：选取模块201、切分模块202、测试模块203、预处理模块204、识别模块205、更新模块206、预测模块207及判断模块208。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段，其存储在存储器中。在本实施例中，关于各模块的功能将在后续的实施例中详述。

所述选取模块201，用于使用XGBoost模型从原始数据集中选取出重要数据集。

在一个可选的实施例中，所述选取模块201使用XGBoost模型从原始数据集中选取出重要数据集包括：

对所述重要度值按照从大到小进行排序；

所述切分模块202，用于将使用XGBoost模型从原始数据集中选取出的重要数据集切分为多个第一分数据集。

所述重要数据集与每个第一分数据集具有相同的多个字段。

所述测试模块203，用于使用每个第一分数据集对训练后的第一lightGBM模型进行测试得到第一测试通过率。

所述预处理模块204，用于将每个第一分数据集中第一个字段对应的数据进行预标准化处理得到第二分数据集。

在一个可选的实施例中，所述预处理模块204将每个第一分数据集中第一个字段对应的数据进行预标准化处理得到第二分数据集包括：

计算所述正太分布的训练数据的第一均值和第一标准差；

所述识别模块205，用于在所述将每个第一分数据集中第一个字段对应的数据进行预标准化处理得到第二分数据集之前，识别第一个字段对应的数据的数据类型是否为数值型；当识别第一个字段对应的数据的数据类型为非数值型时，编码所述非数值型的数据为数值型的训练数据。

所述测试模块204，还用于使用每个第二分数据集对训练后的第二lightGBM模型进行测试得到第二测试通过率。

所述更新模块206，用于根据多个所述第一测试通过率及对应的所述第二测试通过率判断是否需要对所述重要数据集中的所述第一个字段对应的数据进行标准化处理，并根据判断得到的判断结果更新所述第二分数据集。

在一个可选的实施例中，所述更新模块206根据多个所述第一测试通过率及对应的所述第二测试通过率判断是否需要对所述重要数据集中的所述第一个字段对应的数据进行标准化处理，并根据判断得到的判断结果更新所述第二分数据集包括：

判断所述第一测试通过率是否小于所述第二测试通过率；

所述测试模块203，还用于将每个更新后的第二分数据集中第二个字段对应的数据进行预标准化处理得到第三分数据集，并使用每个第三分数据集对训练后的第三lightGBM模型进行测试得到第三测试通过率，

所述更新模块206，还用于判断是否需要对所述重要数据集中的最后一个字段对应的数据进行标准化处理，并根据所有的判断结果更新所述重要数据集得到目标数据集。

所述预测模块207，用于在所述根据所有的判断结果更新所述重要数据集得到目标数据集之后，基于所述目标数据集训练lightGBM模型得到行为预测模型；

所述判断模块208，用于在所述使用XGBoost模型从原始数据集中选取出重要数据集之前，判断所述原始数据集的数量是否大于预设数量阈值。

所述选取模块201，还用于当所述原始数据集的数量大于或者等于所述预设数量阈值时，使用XGBoost模型从原始数据集中选取出重要数据集。

所述选取模块201，还用于当所述原始数据集的数量小于所述预设数量阈值时，使用遗传算法对所述原始数据集进行策略寻优得到目标数据集。

在一个可选的实施例中，所述选取模块201使用遗传算法对所述原始数据集进行策略寻优得到目标数据集包括：

获取第一代种群数量；

根据所述第一标识及所述第二标识生成第一代种群；

根据所述目标种群更新所述原始数据集得到目标数据集。

综上所述，通过本发明所述的装置，数据的不稳定性获得一定程度的缓解，模型预测的准确度和稳定性得到一定程度的提升，在代理人留存/低业绩预测模型中，预测风险降低，性能稳定，应用在跨时间的预测业务场景中时，具有较高的准确率和较稳定的预测结果。

参阅图3所示，为本发明实施例三提供的终端的结构示意图。在本发明较佳实施例中，所述终端3包括存储器31、至少一个处理器32、至少一条通信总线33及收发器34。

本领域技术人员应该了解，图3示出的终端的结构并不构成本发明实施例的限定，既可以是总线型结构，也可以是星形结构，所述终端3还可以包括比图示更多或更少的其他硬件或者软件，或者不同的部件布置。

在一些实施例中，所述终端3是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的终端，其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述终端3还可包括客户设备，所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品，例如，个人计算机、平板电脑、智能手机、数码相机等。

需要说明的是，所述终端3仅为举例，其他现有的或今后可能出现的电子产品如可适应于本发明，也应包含在本发明的保护范围以内，并以引用方式包含于此。

在一些实施例中，所述存储器31中存储有计算机程序，所述计算机程序被所述至少一个处理器32执行时实现如所述的基于人工智能的数据处理方法中的全部或者部分步骤。所述存储器31包括只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable Read-Only Memory，PROM)、可擦除可编程只读存储器(ErasableProgrammable Read-Only Memory，EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory，OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(CompactDisc Read-Only Memory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

进一步地，所述计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

在一些实施例中，所述至少一个处理器32是所述终端3的控制核心(ControlUnit)，利用各种接口和线路连接整个终端3的各个部件，通过运行或执行存储在所述存储器31内的程序或者模块，以及调用存储在所述存储器31内的数据，以执行终端3的各种功能和处理数据。例如，所述至少一个处理器32执行所述存储器中存储的计算机程序时实现本发明实施例中所述的基于人工智能的数据处理方法的全部或者部分步骤；或者实现基于人工智能的数据处理装置的全部或者部分功能。所述至少一个处理器32可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(Central Processing unit，CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。

在一些实施例中，所述至少一条通信总线33被设置为实现所述存储器31以及所述至少一个处理器32等之间的连接通信。

尽管未示出，所述终端3还可以包括给各个部件供电的电源(比如电池)，优选的，电源可以通过电源管理装置与所述至少一个处理器32逻辑相连，从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述终端3还可以包括多种传感器、蓝牙模块、Wi-Fi模块等，在此不再赘述。

上述以软件功能模块的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，终端，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种基于人工智能的数据处理方法，其特征在于，所述方法包括：

执行数据集更新过程，包括：将每个第一分数据集中第一个字段对应的数据进行预标准化处理得到第二分数据集，并使用每个第二分数据集对训练后的第二lightGBM模型进行测试得到第二测试通过率，其中，所述第一个字段对应的数据代表重要度最高的数据；根据多个所述第一测试通过率及对应的所述第二测试通过率判断是否需要对所述重要数据集中的所述第一个字段对应的数据进行标准化处理，并根据判断得到的判断结果更新所述第二分数据集；

将每个更新后的第二分数据集中第二个字段对应的数据进行预标准化处理得到第三分数据集，并使用每个第三分数据集对训练后的第三lightGBM模型进行测试得到第三测试通过率，并重复执行上述数据集更新过程，直至根据多个更新的第二测试通过率及对应的所述第三测试通过率判断是否需要对所述重要数据集中的最后一个字段对应的数据进行标准化处理，并根据所有的判断结果更新所述重要数据集得到目标数据集，其中，所述最后一个字段对应的数据代表重要度最低的数据。

2.如权利要求1所述的基于人工智能的数据处理方法，其特征在于，所述使用XGBoost模型从原始数据集中选取出重要数据集的过程包括：

对所述重要度值按照从大到小进行排序；

3.如权利要求1所述的基于人工智能的数据处理方法，其特征在于，所述根据多个所述第一测试通过率及对应的所述第二测试通过率判断是否需要对所述重要数据集中的所述第一个字段对应的数据进行标准化处理，并根据判断得到的判断结果更新所述第二分数据集包括：

判断所述第一测试通过率是否小于所述第二测试通过率；

4.如权利要求1所述的基于人工智能的数据处理方法，其特征在于，每个第一分数据集包括第一训练数据集及第一测试数据集，所述将每个第一分数据集中第一个字段对应的数据进行预标准化处理得到第二分数据集包括：

5.如权利要求1所述的基于人工智能的数据处理方法，其特征在于，在所述根据所有的判断结果更新所述重要数据集得到目标数据集之后，所述方法还包括：

基于所述目标数据集训练lightGBM模型得到行为预测模型；

6.如权利要求1至5中任意一项所述的基于人工智能的数据处理方法，其特征在于，在所述使用XGBoost模型从原始数据集中选取出重要数据集之前，所述方法还包括：

判断所述原始数据集的数量是否大于预设数量阈值；

7.如权利要求6所述的基于人工智能的数据处理方法，其特征在于，所述使用遗传算法对所述原始数据集进行策略寻优得到目标数据集包括：

获取第一代种群数量；

根据所述第一标识及所述第二标识生成第一代种群；

根据所述目标种群更新所述原始数据集得到目标数据集。

8.一种基于人工智能的数据处理装置，其特征在于，所述装置包括切分模块、测试模块、预处理模块、更新模块：

所述切分模块，用于将使用XGBoost模型从原始数据集中选取出的重要数据集切分为多个第一分数据集；

所述测试模块，用于使用每个第一分数据集对训练后的第一lightGBM模型进行测试得到第一测试通过率，其中，所述重要数据集与每个第一分数据集具有相同的多个字段；

利用所述预处理模块、所述测试模块与所述更新模块执行数据集更新过程，包括：所述预处理模块将每个第一分数据集中第一个字段对应的数据进行预标准化处理得到第二分数据集，其中，所述第一个字段对应的数据代表重要度最高的数据；所述测试模块使用每个第二分数据集对训练后的第二lightGBM模型进行测试得到第二测试通过率；所述更新模块根据多个所述第一测试通过率及对应的所述第二测试通过率判断是否需要对所述重要数据集中的所述第一个字段对应的数据进行标准化处理，并根据判断得到的判断结果更新所述第二分数据集；

重复执行所述数据集更新过程，直至所述更新模块根据多个更新的第二测试通过率及对应的所述第三测试通过率判断是否需要对所述重要数据集中的最后一个字段对应的数据进行标准化处理，并根据所有的判断结果更新所述重要数据集得到目标数据集，其中，所述最后一个字段对应的数据代表重要度最低的数据。

9.一种终端，其特征在于，所述终端包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至7中任意一项所述的基于人工智能的数据处理方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的基于人工智能的数据处理方法。