CN114490619B

CN114490619B - 基于遗传算法的数据填补方法、装置、设备及存储介质

Info

Publication number: CN114490619B
Application number: CN202210139197.1A
Authority: CN
Inventors: 刘艺; 郑奇斌; 秦伟; 李庚松; 刁兴春
Original assignee: Beijing Big Data Advanced Technology Research Institute
Current assignee: Beijing Big Data Advanced Technology Research Institute
Priority date: 2022-02-15
Filing date: 2022-02-15
Publication date: 2022-09-09
Anticipated expiration: 2042-02-15
Also published as: CN114490619A

Abstract

本申请实施例涉及数据处理技术领域，具体涉及一种基于遗传算法的数据填补方法、装置、设备及存储介质，旨在提高缺失数据填补的填补质量。所述方法包括：读取缺失数据集；设置多条染色体，通过混沌映射和启发式信息对所述多条染色体进行初始化，得到多条初始化染色体；通过初始化染色体对缺失数据集进行数据填补以及特征选择，得到多个筛选后的数据集；对多个筛选后的数据集进行适应度评估，得到每条染色体的适应度值；根据每条染色体的适应度值，选择父本并生成后代染色体；迭代生成多代染色体，直至得到最优染色体；根据所述最优染色体，生成对应的数据填补模型；通过所述数据填补模型进行数据填补，得到数据填补结果。

Description

基于遗传算法的数据填补方法、装置、设备及存储介质

技术领域

本申请实施例涉及数据处理技术领域，具体而言，涉及一种基于遗传算法的数据填补方法、装置、设备及存储介质。

背景技术

数据挖掘技术是一项热点技术，通过该技术可以从海量的数据中提取出有用的信息。数据挖掘通常需要使用到分类器，而分类器需要使用高质量的数据集进行训练，如果数据的质量太低，就会影响分类器的性能，影响数据挖掘的效果，提取到无用信息，忽略到有用信息。在获取数据集时，数据的采集、存储等阶段不可避免的会发生损耗，从而出现数据集中的数据缺失，数据缺失的情况不可避免存在于收集到的数据集中，如果直接忽略掉缺失的数据，可能会导致潜在的有价值信息的重大损失，因此需要对数据集进行数据填补。现有的数据填补方法通过基于距离的方法对数据进行填补，即通过寻找与缺失数据集中已有的特征距离相近的特征进行填补。

现有技术中使用基于距离的方法对数据进行填补，没有区分不同数据类型的特征，没有充分利用特征的分布和概率信息，使得数据趋于一致而丧失多样性，填补的数据也会出现偏差过大的情况，不能满足现有的数据挖掘对数据质量的要求。

发明内容

本申请实施例提供一种基于遗传算法的数据填补方法、装置、设备及存储介质，旨在提高缺失数据填补的填补质量。

本申请实施例第一方面提供一种基于遗传算法的数据填补方法，所述方法包括：

读取缺失数据集，所述缺失数据集中包含连续型数据与枚举型数据；

设置多条染色体，通过混沌映射和启发式信息对所述多条染色体进行初始化，得到多条初始化染色体；

基于所述多条初始化染色体中的每条初始化染色体，分别对所述缺失数据集进行数据填补，得到多个填补后的数据集；

对所述多个填补后的数据集进行特征选择，得到多个筛选后的数据集；

对所述多个筛选后的数据集进行适应度评估，得到所述多条初始化染色体中的每条初始化染色体的适应度值；

根据所述每条初始化染色体的适应度值，通过所述多条初始化染色体生成多条后代染色体；

迭代执行上述数据填补、适应度评估以及后代染色体生成步骤，当满足迭代退出条件时，退出迭代，得到最优染色体；

根据所述最优染色体，生成对应的数据填补模型；

通过所述数据填补模型进行数据填补，得到数据填补结果。

可选地，基于所述多条初始化染色体中的每条初始化染色体，分别对所述缺失数据集进行数据填补，包括：

针对所述多条初始化染色体中的每条初始化染色体，使用染色体映射模型对所述初始化染色体进行映射，得到用于填补所述连续型数据的均值与标准差以及用于填补枚举型数据的取值概率；

根据所述均值与标准差生成正态分布模型，通过所述正态分布模型对所述缺失数据集中的连续型数据进行数据填补；

根据所述取值概率，通过轮盘赌方法对所述缺失数据集中的枚举型数据进行数据填补。

可选地，对所述多个填补后的数据集进行特征选择，得到多个筛选后的数据集，包括：

针对所述多个填补后的数据集中的每个数据集，通过所述数据集中的含缺失值特征与所述数据集的标签之间的互信息，以及所述数据集中含缺失值特征的特征缺失率，得到该数据集中每个含缺失值特征的启发式信息；

将所述启发式信息大于预设启发式信息阈值的特征进行保留，将所述启发式信息小于预设启发式信息阈值的特征进行删除，得到所述筛选后的数据集。

可选地，对所述多个筛选后的数据集进行适应度评估，得到所述多条初始化染色体中的每条初始化染色体的适应度值，包括：

对于所述多个筛选后的数据集中的每个数据集，进行分类性能计算，得到分类性能计算结果；

将所述分类性能计算结果作为该数据集对应的初始化染色体的适应度值。

可选地，根据所述每条初始化染色体的适应度值，通过所述多条初始化染色体生成多条后代染色体，包括：

将所述多条初始化染色体按照其适应度值的大小进行依次排序，得到排序后的多条染色体；

按照轮盘赌方法从所述排序后的多条染色体中选择任意两条初始化染色体作为父本染色体；

根据所述父本染色体，得到所述后代染色体；

重复进行父本染色体选择以及后代染色体生成步骤，当所述后代染色体与所述初始化染色体的数量相同时，停止选择父本染色体，得到所述多条后代染色体。

可选地，根据所述父本染色体，得到所述后代染色体，包括：

使用交叉算子对所述父本染色体进行交叉运算，得到交叉后的染色体；

使用变异算子对所述交叉后的染色体进行染色体位点变异运算，得到所述后代染色体。

可选地，通过所述数据填补模型进行数据填补，得到数据填补结果，包括：

通过所述数据填补模型接收待填补的缺失数据集；

使用正态分布模型对所述缺失数据集中的连续型数据进行数据填补，使用轮盘赌方法对所述缺失数据集中的枚举型数据进行数据填补，得到所述数据填补结果。

本申请实施例第二方面提供一种基于遗传算法的数据填补装置，所述装置包括：

缺失数据集读取模块，用于读取缺失数据集，所述缺失数据集中包含连续型数据与枚举型数据；

染色体设置模块，用于设置多条染色体，通过混沌映射和启发式信息对所述多条染色体进行初始化，得到多条初始化染色体；

数据集填补模块，用于基于所述多条初始化染色体中的每条初始化染色体，分别对所述缺失数据集进行数据填补，得到多个填补后的数据集；

特征选择模块，用于对所述多个填补后的数据集进行特征选择，得到多个筛选后的数据集；

适应度评估模块，用于对所述多个筛选后的数据集进行适应度评估，得到所述多条初始化染色体中的每条初始化染色体的适应度值；

后代染色体生成模块，用于根据所述每条初始化染色体的适应度值，通过所述多条初始化染色体生成多条后代染色体；

最优染色体确定模块，用于迭代执行上述数据填补、适应度评估以及后代染色体生成步骤，当满足迭代退出条件时，退出迭代，得到最优染色体；

数据填补模型获得模块，用于根据所述最优染色体，生成对应的数据填补模型；

数据填补结果获得模块，用于通过所述数据填补模型进行数据填补，得到数据填补结果。

可选地，所述数据集填补模块包括：

染色体映射子模块，用于针对所述多条初始化染色体中的每条初始化染色体，使用染色体映射模型对所述初始化染色体进行映射，得到用于填补所述连续型数据的均值与标准差以及用于填补枚举型数据的取值概率；

第一数据填补子模块，用于根据所述均值与标准差生成正态分布模型，通过所述正态分布模型对所述缺失数据集中的连续型数据进行数据填补；

第二数据填补子模块，用于根据所述取值概率，通过轮盘赌方法对所述缺失数据集中的枚举型数据进行数据填补。

可选地，所述特征选择模块包括：

启发式信息获得子模块，用于针对所述多个填补后的数据集中的每个数据集，通过所述数据集中的含缺失值特征与所述数据集的标签之间的互信息，以及所述数据集中含缺失值特征的特征缺失率，得到该数据集中每个含缺失值特征的启发式信息；

特征选择子模块，用于将所述启发式信息大于预设启发式信息阈值的特征进行保留，将所述启发式信息小于预设启发式信息阈值的特征进行删除，得到所述筛选后的数据集。

可选地，所述适应度评估模块包括：

适应度计算子模块，用于对于所述多个筛选后的数据集中的每个数据集，使用适应度函数对所述数据集进行计算，得到适应度计算结果；

适应度值获得子模块，用于将所述适应度计算结果作为填补该数据集的初始化染色体的适应度值。

可选地，所述后代染色体生成模块包括：

染色体排序子模块，用于将所述多条初始化染色体按照其适应度值的大小进行依次排序，得到排序后的多条染色体；

父本染色体选择子模块，用于按照轮盘赌方法从所述排序后的多条染色体中选择任意两条初始化染色体作为父本染色体；

后代染色体生成子模块，用于根据所述父本染色体，得到所述后代染色体；

后代染色体获得子模块，用于重复进行父本染色体选择以及后代染色体生成步骤，当所述后代染色体与所述初始化染色体的数量相同时，停止选择父本染色体，得到所述多条后代染色体。

可选地，所述后代染色体生成子模块包括：

染色体交叉子模块，用于使用交叉算子对所述父本染色体进行交叉运算，得到交叉后的染色体；

染色体变异子模块，用于使用变异算子对所述交叉后的染色体进行染色体位点变异运算，得到所述后代染色体。

可选地，所述数据填补结果获得模块包括：

缺失数据集接收子模块，用于通过所述数据填补模型接收待填补的缺失数据集；

数据填补结果获得子模块，用于使用正态分布模型对所述缺失数据集中的连续型数据进行数据填补，使用轮盘赌方法对所述缺失数据集中的枚举型数据进行数据填补，得到所述数据填补结果。

本申请实施例第三方面提供一种可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现如本申请第一方面所述的方法中的步骤。

本申请实施例第四方面提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现本申请第一方面所述的方法的步骤。

采用本申请提供的基于遗传算法的数据填补方法，读取缺失数据集，所述缺失数据集中包含连续型数据与枚举型数据；设置多条染色体，通过混沌映射和启发式信息对所述多条染色体进行初始化，得到多条初始化染色体；基于所述多条初始化染色体中的每条初始化染色体，分别对所述缺失数据集进行数据填补，得到多个填补后的数据集；对所述多个填补后的数据集进行特征选择，得到多个筛选后的数据集；对所述多个筛选后的数据集进行适应度评估，得到所述多条初始化染色体中的每条初始化染色体的适应度值；根据所述每条初始化染色体的适应度值，通过所述多条初始化染色体生成多条后代染色体；迭代执行上述数据填补、适应度评估以及后代染色体生成步骤，当满足迭代退出条件时，退出迭代，得到最优染色体；根据所述最优染色体，生成对应的数据填补模型；通过所述数据填补模型进行数据填补，得到数据填补结果。本申请提供的方法，基于遗传算法，设置多条初始化染色体对缺失数据集进行数据填补，并且求得每条初始化染色体的适应度值，对染色体进行迭代，直至得到最优染色体，通过最优染色体生成数据填补模型，使用数据填补模型进行数据填补，得到数据填补结果，数据集中包括连续型变量和枚举型变量，在染色体的迭代过程中，对数据集进行填补，并进行适应度评估，有效保证了最终生成的数据填补模型可以很好地对连续型数据与枚举型数据进行填补，相较于传统的数据填补方式，满足了数据填补的多样性以及准确性，提升了数据填补的填补质量。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提出的基于遗传算法的数据填补方法的流程图；

图2是本申请一实施例提出的染色体编码示意图；

图3是本申请一实施例提出的基于遗传算法的数据填补装置的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例中，基于遗传算法进行缺失数据填补，遗传算法通过编码将要求解的问题表示成遗传空间中的染色体，通过适应度函数，根据任务的目标函数对染色体进行适应度评估，根据适应度评估的结果选择父本染色体，交叉变异生成后代染色体，再对后代染色体进行适应度评估，直至迭代生成最优的染色体，对问题进行求解。

参考图1，图1是本申请一实施例提出的基于遗传算法的数据填补方法的流程图。如图1所示，该方法包括以下步骤：

S11：读取缺失数据集，所述缺失数据集中包含连续型数据与枚举型数据。

本实施例中，缺失数据集是数据发生缺失的数据集，连续型变量指取值是某一个区间中的任意一点的随机变量。离散型变量指随机变量的所有取值能够一一列举出来。

该缺失数据集上标注有该数据集的标签，是为了对染色体的适应度进行评估而接收的训练用数据集。

本实施例中，在日常进行数据挖掘时，经常会同时挖掘到连续型数据以及枚举型数据，在进行数据填补时，往往需要同时对连续型数据以及枚举型数据进行填补，在基于遗传算法对数据进行填补时，需要使用缺失数据集对每个染色体进行适应性评估，缺失数据集中包含连续型数据与枚举型数据，有助于寻找到最佳染色体。

示例地，连续型数据可以为人的身高、血压、体重或者某人在公交站台等一班车的时间等。离散型数据可以为人的性别，某部门的人数或者掷骰子实验中每次得到的值等。缺失数据集可以是公司人员信息登记表，学校人员信息登记表。

S12：设置多条染色体，通过混沌映射和启发式信息对所述多条染色体进行初始化，得到多条初始化染色体。

本实施例中，染色体是针对缺失数据集填补而进行的编码，混沌映射是将个体随机映射到向量空间中的初始化方法，启发式信息是表示特征与标签之间的互信息以及特征缺失率的度量，初始化染色体中的每一位编码值在0-1之间。所有的初始化染色体构成了一个初始化种群，初始化种群中的每一条初始化染色体都是该种群中的一个个体。

本实施例中，设置染色体时，针对缺失数据的填补，需要将染色体编码为两部分，一部分用于数据填补，另一部分用于特征选择，通过混沌映射染色体的数据填补部分进行初始化，通过启发式信息对染色体的特征选择部分进行初始化。通过读取染色体编码，可以根据数据填补部分对缺失数据集进行填补，特征选择部分记录了该特征与数据集的标签之间的启发式信息，启发式信息越大则对该特征的特征填补效果越好。

参考图2，图2是本申请一实施例提出的染色体编码示意图，如图2所示，其中设定缺失数据集上出现的缺失数据的变量(特征)有Z个，其中包含M个连续型变量，Z-M个枚举型变量，染色体长度为

包含有2Z组染色体编码，其中δ_i和μ_i为第个连续型特征fi_i的均值和标准差，

为第i个枚举型特征取第个值的概率,R_i为第i个枚举型特征可能的取值个数,且有

h_i为第i个特征的启发式信息。

本实施例中，在遗传算法开始时，需要对设置的染色体进行随机初始化，本实施例使用混沌映射的方法对染色体进行初始化。

示例地，为了充分利用不同混沌映射的特点，采用3种混沌映射方法，分别初始化染色体种群中的三分之一的染色体，3种混沌映射方法是Fuch映射、Tent映射和Logistic映射，它们的表达式如下所示：

x_n+1＝bx_n(1-x_n),x_n∈[0,1] (3)

其中x代表染色体编码，b为固定系数。从上述公式中可看出，x_n的取值范围始终保持在0-1之间，对于不同染色体的同一个位置上的编码，可以随机生成一个0-1之间的数，再通过上述公式进行演化迭代，使得所有染色体上该位点的值都处于0-1之间，对于每个位置上的编码都进行相同的操作，实现对多条染色体的初始化，得到多条初始化染色体。

本实施例中，在初始化种群方面，通过混沌映射的方法，使得种群尽可能分散在搜索空间中，传统的初始化方法为随机初始化，是基于均匀分布的方式随机初始化种群，但该方法的随机性较弱，导致种群难以随机分散在搜索空间中，降低了算法的整体性能，相对于传统的随机初始化方法，混沌映射具备更强的随机性，使个体在空间中更加分散，对算法的整体性能有所提升，更有利于迭代出最优染色体。

S13：基于所述多条初始化染色体中的每条初始化染色体，分别对所述缺失数据集进行数据填补，得到多个填补后的数据集。

本实施例中，基于遗传算法进行缺失数据集的填补，需要从多条初始化染色体中迭代演化出最优染色体，首先需要使用多条初始化染色体分别对缺失数据集进行数据填补，数据填补就是填补数据集中缺失的数据。

本实施例中，基于所述多条初始化染色体中的每条初始化染色体，分别对所述缺失数据集进行数据填补的具体步骤为：

S13-1：针对所述多条初始化染色体中的每条初始化染色体，使用染色体映射模型对所述初始化染色体进行映射，得到用于填补所述连续型数据的均值与标准差以及用于填补枚举型数据的取值概率。

本实施例中，染色体映射模型是将染色体编码进行映射的模型，均值与标准差用于生成正态分布模型，正态分布模型用于对连续型数据进行填补，取值概率用于对枚举型数据进行填补。

本实施例中，染色体编码并不能直接用于生成正态分布模型，通过建立染色体映射模型，将染色体编码映射为生成正态分布模型的均值与标准差，在进行映射时，记录缺失数据集中每个特征的最大值和最小值，将特征的最小值加上染色体的编码值与极值的乘积，得到缺失特征的特征值范围。

示例地，一个缺失数据集中，某个特征中，特征的最大值为12，特征的最小值为10，染色体编码上该特征对应的编码为(0.1,0.7)，经过染色体映射模型映射后，得到的均值为10+(12-10)*0.1＝10.2，标准差不变，对应的正态分布模型就是N～(10.2，0.7)。

S13-2：根据所述均值与标准差生成正态分布模型，对所述缺失数据集中的连续型数据进行数据填补。

本实施例中，连续型数据符合正态分布，因此，通过染色体映射模型得到正态分布模型的均值与标准差，根据该均值与标准差生成正态分布模型，通过正态分布模型生成一个符合该连续数据的分布特征的特征值进行数据的填补。

示例地，缺失数据集中一个连续型特征为病人1号在不同时刻的血压值，其中早间的血压值为80-120，晚间的血压为70-110，中午的血压值缺失，通过正态分布模型对该数据进行填补，填补的血压值在70-120之间，符合血压的变化规律。

本实施例中，正态分布模型的公式为：

其中，σ为均值，μ为标准差。

S13-3：根据所述取值概率，通过轮盘赌方法对所述缺失数据集中的枚举型数据进行数据填补。

本实施例中，轮盘赌方法是一种统计方法，将每个值的取值概率具象化为轮盘上的面积大小，取值概率越大，在轮盘上占的面积就越大，其对应的值就越容易被选中。

本实施例中，根据图2所示，染色体编码表示了每个枚举型特征选取每个特征值的概率以及特征值的个数，使用轮盘赌的方法，选取一个特征值，对缺失数据集中缺失的枚举型特征进行填补。

示例地，缺失数据集中的一个枚举型特征为家庭的人数，家庭1的人数为3，家庭2的人数为4，家庭3的人数为缺失特征，家庭人数为3的概率最大，家庭人数为4的概率排第二，家庭人数为2的概率排第三，家庭人数为1的概率排最后，则通过轮盘赌方法，家庭3人数填补值为3的概率最大。

S14：对所述多个填补后的数据集进行特征选择，得到多个筛选后的数据集。

本实施例中，特征选择是对填补后的特征进行评估以及筛选，得到分类性能较好的数据集。

本实施例中，对所述多个填补后的数据集进行特征选择，得到多个筛选后的数据集的具体步骤是：

S14-1：针对所述多个填补后的数据集中的每个数据集，通过所述数据集中的含缺失值特征与所述数据集的标签之间的互信息，以及所述数据集中含缺失值特征的特征缺失率，得到该数据集中每个含缺失值特征的启发式信息。

本实施例中，互信息是信息论中的一种信息度量，可以看成是一个随机变量中包含的另一个随机变量之间的信息，或者说是一个已知随机变量减少另一个随机变量的不确定性的程度，两个随机变量之间的互信息越大，说明这两个随机变量相关性越强。特征的缺失率指的是数据集中在某个特征上发生缺失的样本数与总样本数的比值。启发式信息，启发式信息越大，代表该特征对整个数据集的影响越大，该特征更加完整，因此更应该保存该特征。如图2所示，启发式信息是每个染色体编码的一部分。

本实施例中，在寻找最优染色体时，输入的训练用的缺失数据集上都带有标签，通过含缺失值特征与数据集的标签之间的互信息，以及数据集中的含缺失值特征的特征缺失率，可以得到数据集中的每个含缺失值特征的启发式信息，具体的计算公式为：

Heurestic＝0.5×Mutual Information+0.5×(1-Missing Rate) (5)

其中，Heurestic为启发式信息，Mutual Information为互信息，Missing Rate为特征缺失率。

互信息的计算公式为：

其中，X＝{x₁,x₂,…,x_N}和Y＝{y₁,y₂,…,y_S}分别表示特征与标签的变量,p(x_i)和p(y_j)分别为X和Y的边缘概率，p(x_i,y_j)为X和Y的联合概率分布函数，I(X；Y)为互信息。

S14-2：将所述启发式信息大于预设启发式信息阈值的特征进行保留，将所述启发式信息小于预设启发式信息阈值的特征进行删除，得到所述筛选后的数据集。

本实施例中，在进行特征选择时，预先设置了一个启发式信息阈值，当填补后的数据集中的含缺失值特征的启发式信息小于预设启发式信息阈值时，从该数据集中删除该特征，当填补后的数据集中的含缺失值特征的启发式信息大于预设启发式信息阈值时，保留该特征，得到筛选后的数据集。启发式信息的阈值可以通过实验来进行确定，实验中，可以不断修改启发式信息的阈值，通过对比不同阈值下迭代结束后染色体的适应度来确定最优阈值。

本实施例中，使用启发式信息对填补后的数据集进行筛选是为了避免完全随机初始化，当特征的启发式信息过小时，证明该特征与数据集标签的互信息较低，特征的缺失率较大，则该特征对整个数据集的影响就较小，该特征的信息价值较低，对选择最优染色体的作用不大，并且可能达不到很好的分类效果，对其进行删除，可以加快算法收敛，提升分类性能。

示例地，一个数据集为公司人员住房情况调查表，则该数据集的标签就是公司人员住房情况，其中的特征有，性别，年龄，身高，婚姻状况。其中，婚姻状况、年龄对住房情况的影响较大，并且数据缺失率较低，将这两个特征进行保留。性别、身高对住房情况的影响可以忽略，并且数据缺失率较高，将这两个特征进行删除。最后得到的填补后的数据集中，公司人员住房情况调查表中保留的特征为年龄、婚姻状况。

S15：对所述多个筛选后的数据集进行适应度评估，得到所述多条初始化染色体中的每条初始化染色体的适应度值。

本实施例中，染色体的适应度反映了染色体所对应数据填补模型的填补效果。

本实施例中，通过多条染色体分别对缺失数据集进行了数据填补，得到了多个筛选后的数据集，对这些数据集进行适应度评估，可以得到填补该数据集的数据填补模型对应的染色体的适应度值。

本实施例中，对所述多个筛选后的数据集进行适应度评估，得到所述多条初始化染色体中的每条初始化染色体的适应度值的具体步骤包括：

S15-1：对于所述多个筛选后的数据集中的每个数据集，进行分类性能计算，得到分类性能计算结果。

S15-2：将所述分类性能计算结果作为对应的初始化染色体的适应度值。

本实施例中，通过分类性能计算，可以得到数据集的分类性能计算结果，分类性能越好的数据集，其对应的染色体的适应度值就越高，表明该染色体对应的数据填补模型对数据集的填补效果越好，更适合选做父本。

示例地，使用F1-score对数据集进行适应度评估，F1-score综合考虑了模型的整个分类效果，可以对数据集的填补效果做出有效的评估，也可以使用其他的分类性能指标对数据集进行评估，在此不做限制。

S16：根据所述每条初始化染色体的适应度值，通过所述多条初始化染色体生成多条后代染色体。

本实施例中，后代染色体是由初始化染色体进行交叉变异生成的染色体。

本实例中，在得到初始化染色体的适应度值之后，根据初始化染色体的适应度值，选择对应的初始化染色体作为父本，根据父本染色体，可以生成后代染色体。

本实施例中，根据所述每条初始化染色体的适应度值，通过所述多条初始化染色体生成多条后代染色体的具体步骤为：

S16-1：将所述多条初始化染色体按照其适应度值的大小进行依次排序，得到排序后的多条染色体。

本实施例中，在得到多条初始化染色体的适应度值之后，将其按照适应度值的大小一次排序，适应度值大的染色体排序靠前，适应度值小的染色体排序靠后。

S16-2：按照轮盘赌方法从所述排序后的多条染色体中选择任意两条初始化染色体作为父本染色体。

本实施例中，通过轮盘赌方法从排序后的多条染色体中选择任意两条初始化染色体作为父本，轮盘赌方法保证了适应度越高的染色体被选中为父本的概率越大。

S16-3：根据所述父本染色体，得到所述后代染色体。

本实施例中，根据所述父本染色体，得到所述后代染色体的具体步骤为：

S16-3-1:使用交叉算子对所述父本染色体进行交叉运算，得到交叉后的染色体。

本实施例中，交叉算子就是从染色体空间映射到交叉空间的一种映射。

本实施例中，通过交叉算子将两个父本染色体映射到交叉空间中，两个父本染色体上的编码会进行互换，进而生成交叉后的染色体。

本实施例中，在进行染色体交叉运算时，特征填补部分染色体与特征选择部分的染色体是分开进行交叉的。在交叉完毕后，再将生成的两部分染色体组合起来，得到一个交叉后的染色体。在交叉过程中，采用固定位点交叉，每两条父本染色体，从固定的位点开始交叉互换，节省了运行时间。为了保证染色体选择的随机性，从所有的染色体中随机选择父本，保证了生成的后代染色体充分覆盖整个空间。

本实施例中，为了平衡算法运行时间和算法搜索空间，在对染色体进行交叉式采用固定交叉位点以加快染色体的交叉速率，节省算法的时间，而通过轮盘赌方法随机选择父本染色体进行交叉，保证了后代染色体的随机性与多样性，使得后代染色体可以充分覆盖整个搜索空间，防止算法陷入局部最优的情况。

S16-3-2：使用变异算子对所述交叉后的染色体进行染色体位点变异运算，得到所述后代染色体。

本实施例中，变异算子就是对染色体的某几个位点进行变异，随机改变该位点的值。

本实施例中，使用变异算子对交叉后的染色体进行染色体位点变异运算，得到后代染色体。

S16-4：重复进行父本染色体选择以及后代染色体生成步骤，当所述后代染色体与所述初始化染色体的数量相同时，停止选择父本染色体，得到所述多条后代染色体。

本实施例中，生成后代染色体时，重复进行父本选择以及后代染色体生成步骤，直至生成的后代染色体与初始化染色体的数量相同时，新生成的后代染色体就形成了新的种群。

本实施例中，使用轮盘赌方法，从初代染色体种群中有放回的选择两条染色体进行交叉变异，生成一条后代染色体，如此进行重复，直至生成的后代染色体数量与初代染色体数量相同，形成新的染色体种群，如此进行后代染色体的生成，具有极大的随机性，保证了后代染色体的多样性，防止了算法的局部最优化问题的出现。

S17：迭代执行上述数据填补、适应度评估以及后代染色体生成步骤，当满足迭代退出条件时，退出迭代，得到最优染色体。

本实施例中，最优染色体就是填补数据集效果最好的染色体。

本实施例中，为了寻找最优染色体，在生成每一代染色体之后，都需要进行适应度评估，根据评估结果，再进对染色体进行选择、交叉、变异步骤。当满足迭代条件时，证明整个模型已经趋于收敛，此时结束迭代，并将最新一代的染色体作为最优染色体。示例地，迭代条件可以为当染色体生成的代数满足预设代数时，退出迭代，例如预设代数为20代，则当染色体生成到第20代时，退出迭代。另个一个迭代退出条件是当得到的最优染色体相比于上一次迭代得到的最优染色体在适应度值上的提升小于预设阈值时，结束迭代，确定最后一次迭代获得的染色体为最优染色体。

S18：根据所述最优染色体，生成对应的数据填补模型。

本实施例中，数据填补模型是用于对缺失数据集进行数据填补的模型。

本实施例中，当得到最优染色体后，根据该最优染色体，可以得到数据填补模型，该数据填补模型可以根据正态分布填补缺失数据集中的连续型数据，也可以通过取值概率填补缺失数据集中的枚举型数据。

S19：通过所述数据填补模型进行数据填补，得到数据填补结果。

本实施例中，通过所述数据填补模型进行数据填补，得到数据填补结果的具体步骤为：

S19-1：通过所述数据填补模型接收待填补的缺失数据集。

S19-2：使用正态分布模型对所述缺失数据集中的连续型数据进行数据填补，使用轮盘赌方法对所述缺失数据集中的枚举型数据进行数据填补，得到所述数据填补结果。

本实施例中，待填补的缺失数据集是数据有缺失的任意数据集，该数据集上没有标签，数据填补模型接收到缺失数据集之后，通过正态分布模型对缺失数据集中的连续性数据进行填补，使用轮盘赌方法对缺失数据集中的枚举型特征进行数据填补，进而输出填补后的数据集，数据填补结果就是该填补后的数据集。

本申请实施例中，提出了一种基于遗传算法的混合缺失数据的填补方法，根据混合缺失数据不同类型的特点，构建缺失数据和遗传算法的染色体之间的映射模型，对缺失值进行预测和填补，使用了分类能F1-score对模型的填补效果进行评估，得到染色体的适应度值，有效利用了不同的特征的特点以及特征蕴含的概率信息。本申请实施例中的数据填补方法，通过遗传算法训练出一个适用于各种缺失数据集填补的数据填补模型，相较于传统的使用随机值进行数据集填补的方法，在训练性和泛化性能上更加优异。使用该数据填补模型对缺失数据集进行填补，填补后的数据更加符合数据的真实规律，对数据挖掘以及分析产生了积极的作用，更有助于训练出高质量的分类器，从数据集中挖掘出更加有用的信息。使用本方法对缺失数据集进行填补，整个算法的鲁棒性更高，在数据集缺失率提高时，也不会影响数据填补模型的填补效果，有效的提升了缺失数据集的填补效果。

基于同一发明构思，本申请一实施例提供一种基于遗传算法的数据填补装置。参考图3，图3是本申请一实施例提出的基于遗传算法的数据填补装置300的示意图。如图3所示，该装置包括：

缺失数据集读取模块301，用于读取缺失数据集，所述缺失数据集中包含连续型数据与枚举型数据；

染色体设置模块302，用于设置多条染色体，通过混沌映射和启发式信息对所述多条染色体进行初始化，得到多条初始化染色体；

数据集填补模块303，用于基于所述多条初始化染色体中的每条初始化染色体，分别对所述缺失数据集进行数据填补，得到多个填补后的数据集；

特征选择模块304，用于对所述多个填补后的数据集进行特征选择，得到多个筛选后的数据集；

适应度评估模块305，用于对所述多个筛选后的数据集进行适应度评估，得到所述多条初始化染色体中的每条初始化染色体的适应度值；

后代染色体生成模块306，用于根据所述每条初始化染色体的适应度值，通过所述多条初始化染色体生成多条后代染色体；

最优染色体确定模块307，用于迭代执行上述数据填补、适应度评估以及后代染色体生成步骤，当满足迭代退出条件时，退出迭代，得到最优染色体；

数据填补模型获得模块308，用于根据所述最优染色体，生成对应的数据填补模型；

数据填补结果获得模块309，用于通过所述数据填补模型进行数据填补，得到数据填补结果。

可选地，所述数据集填补模块包括：

可选地，所述特征选择模块包括：

启发式信息获得子模块，用于针对所述多个填补后的数据集中的每个数据集，通过所述数据集中的含缺失值特征与所述数据集的标签之间的互信息，以及所述数据集中含缺失值特征的特征缺失率，得到该数据集中含缺失值特征的启发式信息；

可选地，所述适应度评估模块包括：

适应度计算子模块，用于对于所述多个筛选后的数据集中的每个数据集，进行分类性能计算，得到分类性能计算结果；

适应度值获得子模块，用于将所述分类性能计算结果作为该数据集对应的初始化染色体的适应度值。

可选地，所述后代染色体生成模块包括：

后代染色体获得子模块，用于重复进行染色体选择以及后代染色体生成步骤，当所述后代染色体与所述初始化染色体的数量相同时，停止选择父本染色体，得到所述多条后代染色体。

可选地，所述后代染色体生成子模块包括：

可选地，所述数据填补结果获得模块包括：

基于同一发明构思，本申请另一实施例提供一种可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请上述任一实施例所述的基于遗传算法的数据填补方法中的步骤。

基于同一发明构思，本申请另一实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行时实现本申请上述任一实施例所述的基于遗传算法的数据填补方法中的步骤。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请实施例可提供为方法、装置、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的基于遗传算法的数据填补方法、装置、设备及存储介质，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种基于遗传算法的数据填补方法，其特征在于，所述方法包括：

根据所述最优染色体，生成对应的数据填补模型；

通过所述数据填补模型进行数据填补，得到数据填补结果。

2.根据权利要求1所述的方法，其特征在于，基于所述多条初始化染色体中的每条初始化染色体，分别对所述缺失数据集进行数据填补，包括：

3.根据权利要求1所述的方法，其特征在于，对所述多个填补后的数据集进行特征选择，得到多个筛选后的数据集，包括：

4.根据权利要求1所述的方法，其特征在于，对所述多个筛选后的数据集进行适应度评估，得到所述多条初始化染色体中的每条初始化染色体的适应度值，包括：

5.根据权利要求1所述的方法，其特征在于，根据所述每条初始化染色体的适应度值，通过所述多条初始化染色体生成多条后代染色体，包括：

根据所述父本染色体，得到所述后代染色体；

6.根据权利要求5所述的方法，其特征在于，根据所述父本染色体，得到所述后代染色体，包括：

7.根据权利要求1所述的方法，其特征在于，通过所述数据填补模型进行数据填补，得到数据填补结果，包括：

通过所述数据填补模型接收待填补的缺失数据集；

8.一种基于遗传算法的数据填补装置，其特征在于，所述装置包括：

数据填补模块，用于基于所述多条初始化染色体中的每条初始化染色体，分别对所述缺失数据集进行数据填补，得到多个填补后的数据集；

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时，实现如权利要求1至7任一所述的方法中的步骤。

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时，实现如权利要求1至7任一所述的方法的步骤。