CN111538767A

CN111538767A - 数据处理方法、装置、设备及存储介质

Info

Publication number: CN111538767A
Application number: CN202010467156.6A
Authority: CN
Inventors: 张震
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-05-28
Filing date: 2020-05-28
Publication date: 2020-08-14
Anticipated expiration: 2040-05-28
Also published as: CN111538767B

Abstract

本说明书的一个或多个实施例公开了一种数据处理方法、装置、设备及存储介质，该数据处理方法包括：获取服务数据的多个待处理特征；根据多个待处理特征，构建特征种群，特征种群包括多个数据序列，特征种群中的一个数据序列对应一个包括至少一个待处理特征的特征组；利用预定的损失函数，计算特征种群中的每个数据序列的适应度；根据适应度更新特征种群，并利用损失函数对更新后的特征种群中的每个数据序列的适应度进行迭代计算，直到满足预定条件为止；在满足预定条件的情况下，根据最近一次更新的特征种群，确定数据挖掘模型的目标输入特征。根据本说明书实施例，能够合理地选择数据挖掘模型的输入特征。

Description

数据处理方法、装置、设备及存储介质

技术领域

本说明书属于计算机领域，尤其涉及一种数据处理方法、装置、设备及存储介质。

背景技术

随着海量数据的出现，人工智能技术得到了迅速发展，已被成功应用到图像识别与分析、语音识别和自然语言处理等领域，可以通过数据挖掘模型进行数据挖掘。进行数据挖掘的具体过程包括：将服务数据样本(比如用户行为数据的样本、交易数据的样本)的特征数据输入到数据挖掘模型，并训练数据挖掘模型；将目标数据中的特征数据输入至训练后的数据挖掘模型中，进行预测，根据预测结果从目标数据中挖掘出价值。

在训练数据挖掘模型之前，先选择数据挖掘模型的输入特征。其中，在相关技术中，选择数据挖掘模型的输入特征具体如下：先利用特征工程或者特征自动生成工具生成几百到数十万的特征，然后从生成的几百到数十万的特征中选择一些特征。

但是，数据挖掘模型的输入特征并非越多越好，如果输入特征越多，那么训练和预测的开销也越大。另外，数据挖掘模型的输入特征并非越少越好，如果输入特征越少，那么训练出的数据挖掘模型无法进行准确地预测。因此，如何合理地选择数据挖掘模型的输入特征是亟需解决的技术问题。

发明内容

本说明书实施例提供一种数据处理方法、装置、设备及存储介质，能够合理地选择数据挖掘模型的输入特征。

一方面，本说明书实施例提供一种数据处理方法，包括：

获取服务数据的多个待处理特征；

根据多个待处理特征，构建特征种群，其中，特征种群包括多个数据序列，特征种群中的一个数据序列对应一个包括至少一个待处理特征的特征组；

利用预定的损失函数，计算特征种群中的每个数据序列的适应度，适应度用于表征特征种群中数据序列的优劣程度；

根据适应度更新特征种群，并利用损失函数对更新后的特征种群中的每个数据序列的适应度进行迭代计算，直到满足预定条件为止；

在满足预定条件的情况下，根据最近一次更新的特征种群，确定数据挖掘模型的目标输入特征。

另一方面，本说明书实施例提供了一种数据处理装置，包括：

特征获取模块，用于获取服务数据的多个待处理特征；

种群构建模块，用于根据多个待处理特征，构建特征种群，其中，特征种群包括多个数据序列，特征种群中的一个数据序列对应一个包括至少一个待处理特征的特征组；

适应度计算模块，用于利用预定的损失函数，计算特征种群中的每个数据序列的适应度，适应度用于表征特征种群中数据序列的优劣程度；

迭代计算模块，用于根据适应度更新特征种群，并利用损失函数对更新后的特征种群中的每个数据序列的适应度进行迭代计算，直到满足预定条件为止；

特征确定模块，用于在满足预定条件的情况下，根据最近一次更新的特征种群，确定数据挖掘模型的目标输入特征。

再一方面，本说明书实施例提供了一种数据处理设备，该设备包括：处理器以及存储有计算机程序指令的存储器；

处理器执行计算机程序指令时实现上述的数据处理方法。

再一方面，本说明书实施例提供了一种计算机存储介质，计算机存储介质上存储有计算机程序指令，计算机程序指令被处理器执行时实现上述的数据处理方法。

本说明书实施例的数据处理方法、装置、设备及存储介质，根据业务数据的多个待处理特征，构建特征种群，其中，特征种群中的一个数据序列对应一个包括至少一个待处理特征的特征组。然后计算特征种群中的每个数据序列的适应度，根据适应度更新特征种群，对特征种群中的数据序列进行迭代计算。在满足预定条件的情况下，说明最近一次更新的特征种群中的数据序列为较优的数据序列，进而根据较优的数据序列确定的特征为较优的特征，该较优的特征可以为数据挖掘模型的目标输入特征，从而实现了数据挖掘模型的输入特征的合理选择。

附图说明

为了更清楚地说明本说明书实施例的技术方案，下面将对本说明书实施例中所需要使用的附图作简单的介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本说明书一个实施例提供的遗传算法的流程示意图；

图2示出了本说明书一个实施例提供的数据处理方法的流程示意图；

图3示出了本说明书另一个实施例提供的数据处理方法的流程示意图；

图4示出了本说明书一个实施例提供的数据处理装置的结构示意图；

图5示出了本说明书实施例提供的数据处理设备的硬件结构示意图。

具体实施方式

下面将详细描述本说明书的各个方面的特征和示例性实施例，为了使本说明书的目的、技术方案及优点更加清楚明白，以下结合附图及具体实施例，对本说明书进行进一步详细描述。对于本领域技术人员来说，本说明书可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本说明书的示例来提供对本说明书更好的理解。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

为了解决现有技术问题，本说明书实施例提供了一种数据处理方法、装置、设备及存储介质。

其中，本说明书实施例是基于遗传算法实现的数据处理方法。下面首先对本说明书实施例所提供的遗传算法的原理进行介绍。

图1示出了本说明书一个实施例提供的遗传算法的流程示意图。如图1所示，遗传算法的步骤包括：

S101，编码(coding)。编码可以看作是表现型到基因型的映射。

其中，基因型(genotype)是性状染色体的内部表现，表现型(phenotype)是染色体决定的性状的外部表现，或者说，根据基因型形成的个体的外部表现。

S102，初始化种群。比如，随机创建一个种群。

S103，计算种群中个体的适应度。

S104，根据种群中个体的适应度，在种群中选择目标个体。

S105，复制目标个体的染色体，将目标个体的染色体与其他个体的染色体之间进行交叉，以产生新个体。

S106，复制染色体时，由于产生某些复制差错，变异产生新的染色体，新产生的个体表现出新的性状。返回S103重新计算种群中每个个体的适应度，直到满足预定条件为止。在满足预定条件之后，根据编码对染色体进行解码，即从基因型映射到表现型。

基于上述遗传算法，本说明书实施例将遗传算法应用于特征选择。下面对如何实现将遗传算法应用于特征选择进行详细介绍。

图2示出了本说明书一个实施例提供的数据处理方法的流程示意图。如图2所示，数据处理方法包括：

S201，获取服务数据的多个待处理特征。

其中，从特征池中获取服务数据的多个待处理特征。

其中，在获取服务数据的多个待处理特征之后，可以在多个待处理特征中筛选出满足预定可用性条件的特征。

需要说明的是，服务数据的类型包括但不限于图像、语音、文本、网页中的至少一项。

另外，服务数据可以包括至少一个场景下的业务数据。比如，服务数据包括但不限于用户使用优惠券的相关数据、与用户信用相关的数据、用户对广告的行为数据、用户消费数据、机场客流量的相关数据、影响电影票房的相关数据、用户轨迹数据。

S202，根据多个待处理特征，构建特征种群，其中，特征种群包括多个数据序列，特征种群中的一个数据序列对应一个包括至少一个待处理特征的特征组。

其中，在S202之前，获取预设的特征种群大小。构建的特征种群大小为预设的特征种群大小。比如，预设特征种群大小为1000，那么构建的特征种群中有1000个数据序列。一个数据序列可以看作上述遗传算法中的一个个体。

S203，利用预定的损失函数，计算特征种群中的每个数据序列的适应度，适应度用于表征特征种群中数据序列的优劣程度。

S204，根据适应度更新特征种群，并利用损失函数对更新后的特征种群中的每个数据序列的适应度进行迭代计算，直到满足预定条件为止。

其中，根据特征种群中每个数据序列的适应度，对特征种群中的数据序列进行遗传运算，得到新的数据序列，从而更新特征种群的数据序列。该遗传运算包括选择运算、交叉(cross)运算和变异(mutation)运算中的至少一种。利用损失函数对更新后的特征种群中的数据序列的适应度进行迭代计算，直到满足预定条件为止。

其中，预定条件可以包括以下至少一项：迭代次数大于或等于预定次数，适应度大于预定适应度阈值，适应度满足收敛条件。

其中，选择运算包括：根据数据序列的适应度，将特征种群中的适应度低于预定阈值的数据序列从特征种群中删掉，以实现数据序列的选择。

其中，作为一个实施例，交叉运算包括：将适应度最大的数据序列与特征种群中其他各个数据序列之间进行交叉运算，得到新的数据序列。

作为另一个实施例，交叉运算包括：按照适应度的大小顺序对特征种群中的数据序列进行排序；从适应度最大的数据序列开始，获取多个数据序列；将该多个数据序列中的任意两个数据序列之间进行交叉运算，得到新的数据序列。

S205，在满足预定条件的情况下，根据最近一次更新的特征种群，确定数据挖掘模型的目标输入特征。

需要说明的是，数据挖掘模型可以为多个场景下的模型。比如，数据挖掘模型可以为图像识别模型(图像识别模型可以包括人脸识别模型)、文本处理模型和语音识别模型中的至少一项。

下面通过几个具体的场景说明数据挖掘模型。

在服务数据包括用户对优惠券的历史使用数据的情况下，数据挖掘模型可以为优惠券使用预测模型。

在服务数据包括与用户信用相关的数据的情况下，数据挖掘模型可以为个人征信评估模型。

在服务数据包括用户对广告的行为数据的情况下，数据挖掘模型可以为广告点击预测模型。

在服务数据包括用户消费数据的情况下，数据挖掘模型可以为用户消费行为预测模型。

在服务数据包括机场客流量的相关数据的情况下，数据挖掘模型可以为机场客流量预测模型。

在服务数据包括用户轨迹数据的情况下，数据挖掘模型可以为依据用户轨迹的商户选址模型。在本说明书实施例中，根据服务数据的多个待处理特征，构建特征种群，其中，特征种群中的一个数据序列对应一个包括至少一个待处理特征的特征组。然后计算特征种群中的每个数据序列的适应度，根据适应度更新特征种群，对特征种群中的数据序列进行迭代计算。在满足预定条件的情况下，说明最近一次更新的特征种群中的数据序列为较优的数据序列，进而根据较优的数据序列确定的特征为较优的特征，该较优的特征可以为数据挖掘模型的目标输入特征，从而实现了数据挖掘模型的输入特征的合理选择。

另外，在本说明书的实施例中，将遗传算法应用于数据挖掘模型的特征选择，对多个待处理特征进行处理，得到数据挖掘模型的目标输入特征，实现了在多个待处理特征自动选择出目标输入特征，不需要人工过多参与。为了更好地说明本说明书实施例的技术效果，下面通过一个对比例进行说明。

在相关技术中选择数据挖掘模型的输入特征的方案具体包括：

1、分析多个待处理特征中的每个待处理特征的信息量(Information Value，IV)，按照IV从高到低的顺序，对多个待处理特征进行排序。该排序是多个待处理特征第一种排序。

2、将多个待处理特征输入至重要程度计算模型中，得到每个待处理特征的重要程度；按照重要程度从高到低的顺序，对多个待处理特征进行排序。该排序是多个待处理特征第二种排序。

3、提取多个待处理特征按第一种排序和第二种排序的尾部交集，该尾部交集的特征不仅IV较低，而且重要程度也较低。选取多个待处理特征中的除尾部交集的特征之外的特征，并将选取的特征作为数据挖掘模型的输入特征。

4、测试数据挖掘模型处理该输入特征对应的数据所消耗的资源量。如果所消耗的资源量过大，通过反复测试(trial and error)，不断删减特征，直到满足要求。

在该对比例中，在测试数据挖掘模型处理数据所消耗的资源量时，通过人工对数据挖掘模型处理数据所消耗的资源量进行打分，得到一个分数，根据该分数判断所消耗的资源量是否过大。由此可见，对比例依赖人工参与判断所消耗的资源量是否过大，不同工作人员的经验不同，会对判断结果有较大影响。

而利用本说明书实施例的方案，整个过程除了预先设置一些参数(包括特征种群大小、迭代次数和突变率等)之外，其他过程是自动化完成的，无需专家经验。而且参数设置的难度比较低，对工作人员的要求比较低。

在本发明的一个或多个实施例中，根据最近一次更新的特征种群，确定数据挖掘模型的目标输入特征，包括：

在最近一次更新的所述特征种群中获取目标数据序列；

根据预先建立的数据序列与特征组之间的对应关系，获取目标数据序列所对应的目标特征组；将目标特征组中的特征确定为目标输入特征。

在本发明实施例中，根据预先建立的数据序列与特征组之间的对应关系，获取特征种群中的目标数据序列所对应的目标特征组，实现了对特征种群中的数据序列进行解码，解码得到的目标特征组中的特征即为较优的特征。将该较优的特征作为数据挖掘模型的目标输入特征。

在本发明的一个或多个实施例中，根据预定的特征种群信息，构建特征种群之前，上述数据处理方法还包括：

对多个待处理特征进行特征组合，形成M个特征组；其中，M个特征组中的每个特征组包括至少一个待处理特征，M个特征组中的任意两个特征组中的特征不完全相同；M为大于或等于2的正整数；

对M个特征组中每个特征组进行编码，得到每个特征组的数据序列；

根据M个特征组中的每个特征组及其数据序列，建立特征组与数据序列之间的对应关系。

比如，有两个待处理特征，分别是用户阅读量和用户阅读时间。第一次选取用户阅读量和用户阅读时间，这两个特征形成特征组A；第二次选取用户阅读量，这一个特征形成特征组B；第三次选取用户阅读时间，这一个特征形成特征组C。

针对上述特征组A、特征组B和特征组C，对每个特征组进行编码，得到特征组A的数据序列为11，特征组B的数据序列为10，特征组C的数据序列为01。

基于每个特征组及其数据序列，建立特征组与数据序列之间的对应关系如下：

数据序列11对应特征组A，该特征组A包括用户阅读量和用户阅读时间；

数据序列10对应特征组B，该特征组B包括用户阅读量；

数据序列01对应特征组C，该特征组C包括用户阅读时间。

假设在满足预定条件的情况下，最近一次更新的特征种群中的目标数据序列为01，那么确定用户阅读时间为数据挖掘模型的目标输入特征。从而实现了在两个特征中选择较优的特征输入到数据挖掘模型中。

在本发明实施例中，通过特征组合，得到M个特征组；然后对M个特征组中每个特征组进行编码，得到每个特征组的数据序列，并且建立了特征组与数据序列之间的对应关系。通过以上方式，实现了对特征组的编码，方便后期进行特征组的解码。

在本发明的一个或多个实施例中，对M个特征组中每个特征组进行编码，得到每个特征组的数据序列，包括：针对M个特征组中每个特征组均执行如下步骤：

判断多个待处理特征中的每个待处理特征是否在特征组中，得到每个待处理特征的判断结果；

根据判断结果为每个待处理特征配置标识；其中，在判断结果为是的情况下，为待处理特征配置第一标识，在判断结果为否的情况下，为待处理特征配置第二标识；

按照多个待处理特征的预定顺序，将多个待处理特征的各个待处理特征的标识进行组合，形成一个特征组对应的一个数据序列。

其中，第一标识表示待处理特征为数据挖掘模型的输入特征，第二标识表示待处理特征不是数据挖掘模型的输入特征。比如，第一标识为1，第二标识为0。或者，第一标识为0，第二标识为1。

比如，对两个待处理特征(第一个待处理特征为用户阅读量，第二个待处理特征为用户阅读时间)进行三次特征选择，形成了特征组A、特征组B和特征组C，其中，特征组A包括用户阅读量和用户阅读时间，特征组B包括用户阅读量，特征组C包括用户阅读时间。

先对特征组A进行编码，其中，对特征组A进行编码具体包括：判断第一个待处理特征在特征组A中，为第一个待处理特征标识1；然后判断第二个待处理特征在特征组A中，为第二个待处理特征标识1；将第一个待处理特征和第二个待处理特征的标识进行组合，即组合成11，将11作为特征组A的数据序列。

然后对特征组B进行编码，其中，对特征组B进行编码具体包括：判断第一个待处理特征在特征组B中，为第一个待处理特征标识1；然后判断第二个待处理特征不在特征组B中，为第二个待处理特征标识0；将第一个待处理特征和第二个待处理特征的标识进行组合，即组合成10，将10作为特征组B的数据序列。

以此类推，对特征组C进行编码，得到特征组C的数据序列为01，在此不再重复赘述。

在本发明的一个或多个实施例中，在最近一次更新的特征种群中获取目标数据序列，包括：

在最近一次更新的特征种群中的数据序列数量为一个的情况下，将最近一次更新的特征种群中的数据序列作为目标数据序列；

或者，

在最近一次更新的特征种群中的数据序列数量为多个的情况下，将最近一次更新的特征种群中的适应度最大的数据序列作为目标数据序列。

本发明实施例中，如果最近一次更新的特征种群中有多个数据序列，那么在该多个数据序列中选取适应度最大的数据序列作为目标数据序列。适应度最大，说明目标数据序列相比于特征种群中的其他数据序列较为优质，进而说明根据目标数据序列确定的目标输入特征也是较为优质的。因此，可以进一步地保证了在多个待处理特征中选择出了较为优质的特征。

在本发明的一个或多个实施例中，特征种群中的每个数据序列均为N位的二进制数值，N为大于或等于2的整数。

其中，在N位的二进制数值中，一位的二进制数值对应一个特征，一位的二进制数值表示其对应的特征为数据挖掘模型的输入特征，或者表示其对应的特征不是数据挖掘模型的输入特征。

在本发明的一个或多个实施例中，损失函数是与数据挖掘模型相关的函数。

在本发明实施例中，由于损失函数是与数据挖掘模型相关的函数，因此，利用损失函数计算出的数据序列的适应度与数据挖掘模型的效果相关。比如，数据序列的适应度反映了数据挖掘模型的性能和/或利用数据挖掘模型处理数据所消耗的资源量。因此，利用与数据挖掘模型相关的损失函数更新特征种群，可以使得基于更新后的特征种群训练出的数据挖掘模型的效果越来越好。

为了更好地说明本发明实施例的技术效果，下面结合上述对比例(即上述提到的在相关技术中选择数据挖掘模型的输入特征的方案)进行说明。在上述对比例中，输入特征的选取与特征的IV和特征重要程度相关，但是，并非是以下两种情况：1)特征的IV越高利用该特征训练出的数据挖掘模型的效果越好；2)特征的重要程度越高利用该特征训练出的数据挖掘模型的效果越好。因此，利用对比例中的方案选择输入特征，来训练数据挖掘模型，得到训练后的数据挖掘模型并非具有较好的性能。

而采用本发明实施例的方案，并不依据特征的指标(IV和特征重要程度)来更新特征种群，而是利用与数据挖掘模型相关的损失函数更新特征种群，即依据数据挖掘模型的效果更新特征种群，随着特征种群的不断更新，基于特征种群训练出的数据挖掘模型的效果越来越好。

在本发明的一个或多个实施例中，损失函数是根据第一函数、第二函数和第三函数中的至少一个函数得到；

其中，第一函数用于计算数据挖掘模型的目标性能指标；

第二函数用于计算利用数据挖掘模型对特征组中的特征对应的数据进行处理所需要的资源量；该资源量可以包括内存量和时长；

第三函数用于计算存储特征组中的特征对应的数据所占用的存储量。

其中，第一函数的目标性能指标可以包括以下至少一项：受试者工作特征曲线(Receiver Operating Characteristic curve，ROC曲线)的曲线下面积(Area Under theCurve，AUC)、柯尔莫可洛夫-斯米洛夫分数(Kolmogorov-Smirnov score，简称KS score)和F1分数(F1 Score)。

在本发明实施例中，如果损失函数是根据第一函数得到，那么由损失函数计算出的数据序列的适应度可以反映数据挖掘模型的性能。因此，本发明实施例依据数据挖掘模型的性能不断更新特征种群，随着特征种群的不断更新，逐渐筛选出的数据序列对应的特征是使得数据挖掘模型的性能达到较好效果的特征。

如果损失函数是根据第二函数得到，那么由损失函数计算出的数据序列的适应度可以反映利用数据挖掘模型进行数据处理所需的资源量。因此，本发明实施例依据数据挖掘模型进行数据处理所需的资源量不断更新特征种群，随着特征种群的不断更新，逐渐筛选出的数据序列对应的特征是使得数据挖掘模型的处理成本低的特征。

如果损失函数是根据第二函数得到，那么由损失函数计算出的数据序列的适应度可以反映存储特征对应的数据所占用的存储量。因此，本发明实施例依据存储特征对应的数据所占用的存储量不断更新特征种群，随着特征种群的不断更新，逐渐筛选出的数据序列对应的特征是占用存储量较少的特征。

如果损失函数是根据第一函数、第二函数和第三函数得到，那么利用本发明实施例得到的目标输入特征训练数据挖掘模型，可以使得数据挖掘模型的性能较好，同时，数据挖掘模型进行数据处理所需的资源量以及存储数据所需的资源量都比较少。

在本发明的一个或多个实施例中，损失函数是根据第一函数、第二函数和第三函数中的至少两个函数得到的情况下，损失函数是对至少两个函数进行求和得到的函数。

其中，根据至少两个函数中的每个函数的系数，对至少两个函数进行求和得到损失函数。第一函数的系数为负数，第二函数和第三函数的系数均为正数。

比如，损失函数f＝-f₁+f₂+f₃；f₁表示第一函数，f₂表示第二函数，f₃表示第三函数。

在本发明的一个或多个实施例中，对第二函数和第三函数进行归一化处理，损失函数是根据第一函数、归一化处理后的第二函数和归一化处理后的第三函数中的至少一个函数得到。

在本发明实施例中，由于第一函数本身是归一化的函数，第二函数和第三函数本身不是归一化的函数，因此，对第二函数和第三函数额外进行归一化处理。

在本发明的一个或多个实施例中，目标性能指标是与数据挖掘模型的业务类型相关的性能指标。

比如，如果数据挖掘模型是用于风险预测的模型，则目标性能指标为AUC；如果数据挖掘模型是用于用户信用分数的模型，则目标性能指标为KS score。

在本发明实施例中，根据数据挖掘模型的业务类型，选择用于计算目标性能指标的第一函数。因此，在不同业务场景下，根据不同的第一函数得到损失函数。进一步地保证了得到的数据挖掘模型的目标输入特征更加准确。

图3示出了本说明书另一个实施例提供的数据处理方法的流程示意图。如图3所示，数据处理方法包括：

S301，在特征池中进行可用性特征筛选，并筛选出多个待处理特征。

S302，对多个待处理特征进行特征组合，形成M个特征组；其中，M个特征组中的每个特征组中包括至少一个待处理特征，M个特征组中的任意两个特征组中的特征不完全相同；M为大于或等于2的正整数。任意两个特征组之间可以存在特征部分重叠或特征完全不重叠。

S303，对每个特征组进行编码，得到每个特征组的数据序列，并建立特征组与数据序列之间的对应关系。

S304，设置遗传算法的参数。遗传算法的参数包括特征种群大小、迭代次数和突变率中的至少一项。

S305，根据特征种群大小，初始化特征种群，特征种群包括多个数据序列，特征种群包括的数据序列数量为特征种群大小。

S306，利用损失函数计算特征种群中每个数据序列的适应度。

S307，判断是否满足预定条件。比如迭代次数是否大于或等于预定迭代次数。在判断不满足预定条件的情况下，执行步骤S308，在判断满足预定条件的情况下，执行步骤S310。

S308，根据特征种群中的数据序列的适应度，进行选择运算、交叉运算和变异运算，产生新的特征序列。

S309，将新的特征序列添加到特征种群中，以更新特征种群。

S310，根据最近一次更新的特征种群，确定数据挖掘模型的目标输入特征。

其中，S310具体包括：在最近一次更新的所述特征种群中获取目标数据序列；根据S303中建立的数据序列与特征组之间的对应关系，获取所述目标数据序列所对应的目标特征组；将所述目标特征组中的特征确定为所述目标输入特征。

图4示出了本说明书一个实施例提供的数据处理装置的结构示意图。如图4所示，数据处理装置400包括：

特征获取模块401，用于获取服务数据的多个待处理特征；

种群构建模块402，用于根据多个待处理特征，构建特征种群，其中，特征种群包括多个数据序列，特征种群中的一个数据序列对应一个包括至少一个待处理特征的特征组；

适应度计算模块403，用于利用预定的损失函数，计算特征种群中的每个数据序列的适应度，适应度用于表征特征种群中数据序列的优劣程度；

迭代计算模块404，用于根据适应度更新特征种群，并利用损失函数对更新后的特征种群中的每个数据序列的适应度进行迭代计算，直到满足预定条件为止；

特征确定模块405，用于在满足预定条件的情况下，根据最近一次更新的特征种群，确定数据挖掘模型的目标输入特征。

在本说明书实施例中，根据多个待处理特征，构建特征种群，其中，特征种群中的一个数据序列对应一个包括至少一个待处理特征的特征组。然后计算特征种群中的每个数据序列的适应度，根据适应度更新特征种群，对特征种群中的数据序列进行迭代计算。在满足预定条件的情况下，说明最近一次更新的特征种群中的数据序列为较优的数据序列，进而根据较优的数据序列确定的特征为较优的特征，该较优的特征可以为数据挖掘模型的目标输入特征，从而实现了数据挖掘模型的输入特征的合理选择。

在本发明的一个或多个实施例中，特征确定模块405包括：

数据序列获取模块，用于在最近一次更新的特征种群中获取目标数据序列；

特征组获取模块，用于根据预先建立的数据序列与特征组之间的对应关系，获取目标数据序列所对应的目标特征组；

输入特征确定模块，用于将目标特征组中的特征确定为目标输入特征。

在本发明的一个或多个实施例中，数据处理装置400还包括：

特征组合模块，用于对多个待处理特征进行特征组合，形成M个特征组；其中，M个特征组中的每个特征组包括至少一个待处理特征，M个特征组中的任意两个特征组中的特征不完全相同；M为大于或等于2的正整数；

特征编码模块，用于对M个特征组中每个特征组进行编码，得到每个特征组的数据序列；

对应关系建立模块，用于根据M个特征组中的每个特征组及其数据序列，建立特征组与数据序列之间的对应关系。

在本发明的一个或多个实施例中，特征编码模块包括：

特征判断模块，用于针对M个特征组中每个特征组，判断多个待处理特征中的每个待处理特征是否在特征组中，得到每个待处理特征的判断结果；

标识配置模块，用于根据判断结果为每个待处理特征配置标识；其中，在判断结果为是的情况下，为待处理特征配置第一标识，在判断结果为否的情况下，为待处理特征配置第二标识；

标识组合模块，用于按照多个待处理特征的预定顺序，将多个待处理特征的各个待处理特征的标识进行组合，形成一个特征组对应的一个数据序列。

在本发明的一个或多个实施例中，数据序列获取模块包括：

第一数据序列确定模块，用于在最近一次更新的特征种群中的数据序列数量为一个的情况下，将最近一次更新的特征种群中的数据序列作为目标数据序列；

第二数据序列确定模块，用于在最近一次更新的特征种群中的数据序列数量为多个的情况下，将最近一次更新的特征种群中的适应度最大的数据序列作为目标数据序列。

其中，第一函数用于计算数据挖掘模型的目标性能指标；

第二函数用于计算利用数据挖掘模型对特征组中的特征对应的数据进行处理所需要的资源量；

数据处理设备可以包括处理器501以及存储有计算机程序指令的存储器502。

具体地，上述处理器501可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，ASIC)，或者可以被配置成实施本说明书实施例的一个或多个集成电路。

存储器502可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器502可包括硬盘驱动器(Hard Disk Drive，HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus，USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器502可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器502可在综合网关容灾设备的内部或外部。在特定实施例中，存储器502是非易失性固态存储器。在特定实施例中，存储器502包括只读存储器(ROM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。

处理器501通过读取并执行存储器502中存储的计算机程序指令，以实现上述实施例中的任意一种数据处理方法。

在一个示例中，数据处理设备还可包括通信接口503和总线510。其中，如图5所示，处理器501、存储器502、通信接口503通过总线510连接并完成相互间的通信。

通信接口503，主要用于实现本说明书实施例中各模块、装置、单元和/或设备之间的通信。

总线510包括硬件、软件或两者，将数据处理设备的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线510可包括一个或多个总线。尽管本说明书实施例描述和示出了特定的总线，但本说明书考虑任何合适的总线或互连。

该数据处理设备可以执行本说明书实施例中的数据处理方法，从而实现结合图2至图4描述的数据处理方法和装置。

另外，结合上述实施例中的数据处理方法，本说明书实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种数据处理方法。

需要明确的是，本说明书并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本说明书的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本说明书的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本说明书的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是，本说明书中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本说明书不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

以上所述，仅为本说明书的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本说明书的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本说明书揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本说明书的保护范围之内。

Claims

1.一种数据处理方法，包括：

获取服务数据的多个待处理特征；

根据所述多个待处理特征，构建特征种群，其中，所述特征种群包括多个数据序列，所述特征种群中的一个数据序列对应一个包括至少一个待处理特征的特征组；

利用预定的损失函数，计算所述特征种群中的每个数据序列的适应度，所述适应度用于表征所述特征种群中数据序列的优劣程度；

根据所述适应度更新所述特征种群，并利用所述损失函数对更新后的所述特征种群中的每个数据序列的适应度进行迭代计算，直到满足预定条件为止；

在满足所述预定条件的情况下，根据最近一次更新的所述特征种群，确定数据挖掘模型的目标输入特征。

2.根据权利要求1所述的方法，其中，所述根据最近一次更新的所述特征种群，确定数据挖掘模型的目标输入特征，包括：

在最近一次更新的所述特征种群中获取目标数据序列；

根据预先建立的数据序列与特征组之间的对应关系，获取所述目标数据序列所对应的目标特征组；

将所述目标特征组中的特征确定为所述目标输入特征。

3.根据权利要求2所述的方法，其中，所述根据预定的特征种群信息，构建特征种群之前，所述方法还包括：

对所述多个待处理特征进行特征组合，形成M个特征组；其中，所述M个特征组中的每个特征组包括至少一个待处理特征，所述M个特征组中的任意两个特征组中的特征不完全相同；M为大于或等于2的正整数；

对所述M个特征组中每个特征组进行编码，得到每个特征组的数据序列；

根据所述M个特征组中的每个特征组及其数据序列，建立特征组与数据序列之间的所述对应关系。

4.根据权利要求3所述的方法，其中，所述对所述M个特征组中每个特征组进行编码，得到每个特征组的数据序列，包括：针对所述M个特征组中每个特征组均执行如下步骤：

判断所述多个待处理特征中的每个待处理特征是否在特征组中，得到每个待处理特征的判断结果；

根据所述判断结果为每个待处理特征配置标识；其中，在所述判断结果为是的情况下，为待处理特征配置第一标识，在所述判断结果为否的情况下，为待处理特征配置第二标识；

按照所述多个待处理特征的预定顺序，将所述多个待处理特征的各个待处理特征的标识进行组合，形成一个特征组对应的一个数据序列。

5.根据权利要求2所述的方法，其中，所述在最近一次更新的所述特征种群中获取目标数据序列，包括：

在最近一次更新的所述特征种群中的数据序列数量为一个的情况下，将最近一次更新的所述特征种群中的数据序列作为所述目标数据序列；

或者，

在最近一次更新的所述特征种群中的数据序列数量为多个的情况下，将最近一次更新的所述特征种群中的适应度最大的数据序列作为所述目标数据序列。

6.根据权利要求1所述的方法，其中，所述特征种群中的每个数据序列均为N位的二进制数值，N为大于或等于2的整数。

7.根据权利要求1所述的方法，所述损失函数是与所述数据挖掘模型相关的函数。

8.根据权利要求7所述的方法，其中，所述损失函数是根据第一函数、第二函数和第三函数中的至少一个函数得到；

其中，所述第一函数用于计算所述数据挖掘模型的目标性能指标；

所述第二函数用于计算利用所述数据挖掘模型对特征组中的特征对应的数据进行处理所需要的资源量；

所述第三函数用于计算存储特征组中的特征对应的数据所占用的存储量。

9.根据权利要求8所述的方法，其中，所述损失函数是根据所述第一函数、所述第二函数和所述第三函数中的至少两个函数得到的情况下，所述损失函数是对所述至少两个函数进行求和得到的函数。

10.根据权利要求8所述的方法，其中，所述目标性能指标是与所述数据挖掘模型的业务类型相关的性能指标。

11.一种数据处理装置，包括：

特征获取模块，用于获取服务数据的多个待处理特征；

种群构建模块，用于根据所述多个待处理特征，构建特征种群，其中，所述特征种群包括多个数据序列，所述特征种群中的一个数据序列对应一个包括至少一个待处理特征的特征组；

适应度计算模块，用于利用预定的损失函数，计算所述特征种群中的每个数据序列的适应度，所述适应度用于表征所述特征种群中数据序列的优劣程度；

迭代计算模块，用于根据所述适应度更新所述特征种群，并利用所述损失函数对更新后的所述特征种群中的每个数据序列的适应度进行迭代计算，直到满足预定条件为止；

特征确定模块，用于在满足所述预定条件的情况下，根据最近一次更新的所述特征种群，确定数据挖掘模型的目标输入特征。

12.一种数据处理设备，所述设备包括：处理器以及存储有计算机程序指令的存储器；

所述处理器执行所述计算机程序指令时实现如权利要求1-10任意一项所述的数据处理方法。

13.一种计算机存储介质，所述计算机存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现如权利要求1-10任意一项所述的数据处理方法。